JPWO2009150758A1 - 情報処理装置、プログラム、情報処理方法 - Google Patents

情報処理装置、プログラム、情報処理方法 Download PDF

Info

Publication number
JPWO2009150758A1
JPWO2009150758A1 JP2010516706A JP2010516706A JPWO2009150758A1 JP WO2009150758 A1 JPWO2009150758 A1 JP WO2009150758A1 JP 2010516706 A JP2010516706 A JP 2010516706A JP 2010516706 A JP2010516706 A JP 2010516706A JP WO2009150758 A1 JPWO2009150758 A1 JP WO2009150758A1
Authority
JP
Japan
Prior art keywords
data
character string
patent document
document data
factor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2010516706A
Other languages
English (en)
Inventor
小池 孝幸
孝幸 小池
則夫 荒木
則夫 荒木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PATENT RESULT CO., LTD.
Original Assignee
PATENT RESULT CO., LTD.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from PCT/JP2008/060916 external-priority patent/WO2009001696A1/ja
Application filed by PATENT RESULT CO., LTD. filed Critical PATENT RESULT CO., LTD.
Publication of JPWO2009150758A1 publication Critical patent/JPWO2009150758A1/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本発明に係る情報処理装置は、分析対象文書群に属する各特許文書データから特定部分の文字列を抽出する特定部分抽出手段と、各文字列に含まれる単語を抽出し単語数をカウントする単語数カウント手段と、前記分析対象文書群に属する特許文書データから抽出された前記文字列を前記単語数の昇順でソートするソート手段と、前記ソート手段によりソートされた上位の文字列から順に、下位の各文字列との類似度の判定と、前記上位の文字列と同グループに前記下位の文字列を所属させるか否かの前記類似度に基づく判定とを行うグループ判定手段と、を備え、前記グループ判定手段は、より上位の文字列と同グループに所属する旨判定された文字列についての、他の文字列との類似度の判定をスキップする。これにより、各文書の主題が上記多数の文書においてどのように分布しているかを容易に把握しうる情報処理装置を提供する。

Description

文書データを解析する技術に関し、特に、文書データの特徴を解析して解析結果を出力する技術に関する。
従来、文書データの特徴を解析する技術として、下記の特許文献1、および特許文献2が開示されている。
特許文献1に開示されている技術は、文書データのキーワード抽出を高速に行うことを目的としてなされており、文書データ中の全形態素について出現頻度を算出し、他の形態素との一致度合を計算する等の処理を行うことなくキーワードを抽出する技術である。
具体的には、文書データ中の形態素のうちの格助詞や係助詞に導かれている名詞相当の単語を当該文書データのキーワードとして抽出するものであり、格助詞や係助詞に導かれる名詞相当の単語は、当該文書データ中において話題として取り上げられているものであると看做すことで、文書データ中のキーワード抽出を高速に行うものである。
また、特許文献2に開示されている技術は、文書の内容を十分に把握することができるように語句を抽出して提示することを目的としてなされており、文書データから重要語句を抽出すると共に、当該文書データの主題として提示されている主題提示語句を抽出し、主題提示語句と重要語句とを関連付けて提示することにより上記目的を達成させる技術である。
具体的には、文書データ中の全単語について単語間の類似度を算出し、文書データ中の副助詞に付属する連続する語句を主題提示語句として抽出し、主題提示語句に含まれる単語との類似度が高い単語を重要語句として抽出して、その主題提示語句と重要語句とをリンク付けして表示するものある。このように、文書の主題と関連深い語句をリンク付けて表示することで、抽出した語句を単に出現順等で表示する場合と比べ、ユーザに文書の内容を理解させやすくすることができる。
特開平11−328206号公報 特開2000−298673号公報
しかしながら、上記特許文献1及び特許文献2の技術では、多数の特許文書を巨視的に観察し、各文書の主題が上記多数の文書においてどのように分布しているかを把握することができなかった。
そこで、本発明は、上記状況に鑑みてなされたものであり、各文書の主題が上記多数の文書においてどのように分布しているかを容易に把握しうる情報処理装置を提供することを目的とする。
(1) 上記課題を解決するために、本発明の第1の観点に係る情報処理装置は、
分析対象文書群に属する各特許文書データi(i=1,2,…,I)から特定部分の文字列d(i)を抽出する特定部分抽出手段と、
各文字列d(i)に含まれる単語w(i,j)を抽出し単語数J(i)をカウントする単語数カウント手段と、
前記分析対象文書群に属する特許文書データiから抽出された前記文字列d(i)を前記単語数J(i)の昇順でソートするソート手段と、
前記ソート手段によりソートされた上位の文字列d(i)から順に、下位の各文字列d(i)との類似度の判定と、前記上位の文字列d(i)と同グループに前記下位の文字列d(i)を所属させるか否かの前記類似度に基づく判定とを行うグループ判定手段と、
を備え、
前記グループ判定手段は、より上位の文字列d(i)と同グループに所属する旨判定された文字列d(i)についての、他の文字列d(i)との類似度の判定をスキップするものである。
上記構成によれば、分析対象文書群に属する特許文書データから抽出した特定部分の文字列d(i)をグループ化するにあたり、単語数の昇順でソートしたので、類似と判定される文字列d(i)の多くが早期に見つかり、他の文字列d(i)との類似度の判定をスキップすることで類似度の判定回数を軽減することができる。こうしてグループ化された文字列d(i)を参照することで、各文書の主題が分析対象文書群においてどのように分布しているかを容易に把握することができる。
(2) 上記情報処理装置は、
前記分析対象文書群に属する特許文書データiから抽出された全文字列d(1),d(2),…,d(I)における各文字列d(i)の出現文書数DF(i)を算出する文書頻度算出手段を更に備え、
前記ソート手段は、前記文字列d(i)の前記単語数J(i)の昇順を1つの基準とし、前記文字列d(i)の出現文書数DF(i)の降順をもう1つの基準として前記文字列d(i)をソートすることとしてもよい。
この構成によれば、DFの降順でも文字列d(i)をソートするので、類似と判定される文字列d(i)の多くが早期に見つかり、類似度の判定回数を更に軽減することができる。
(3) また、上記情報処理装置において、
前記ソート手段は、前記文字列d(i)の前記単語数J(i)の昇順を第1基準とし、前記文字列d(i)の出現文書数DF(i)の降順を前記第1基準より適用優先度の低い第2基準として前記文字列d(i)をソートすることとしてもよい。
この構成によれば、類似度の判定回数を更に軽減することができる。
(4) また、上記情報処理装置は、
各文字列d(i)から抽出された単語w(i,j)を用いて各文字列d(i)を示すベクトルD(i)を生成するベクトル生成手段を更に備え、
前記グループ判定手段は、前記上位の文字列d(i)を示すベクトルD(i)と、前記下位の文字列d(i)を示すベクトルD(i)との内積を用いて、前記類似度を判定することとしてもよい。
この構成によれば、上位の文字列d(i)と下位の文字列d(i)との類似度の評価において、類似度を算出する上位文字列ごとに適切な閾値を設定すれば、部分一致の検出や類似度の判定により的確にグループ化することができる。
(5) また、上記情報処理装置は、
前記グループ判定手段は、前記ベクトルD(i)と前記ベクトルD(i)の内積を前記ベクトルD(i)の大きさの二乗で除算して前記類似度を判定することとしてもよい。
この構成によれば、上位の文字列d(i)を示すベクトルD(i)の大きさの二乗で除算するので、上位の文字列d(i)と下位の文字列d(i)との類似度の評価において、異なる上位文字列との類似度であっても相対比較が可能となり、上位の文字列d(i)と部分一致又は類似する下位の文字列d(i)を的確にグループ化することができる。
(6) また、前記特定部分抽出手段が文字列d(i)を抽出する特定部分は、各特許文書データiの「請求項1」の末尾の所定部分又は「発明の名称」であることとしてもよい。
この構成によれば、「請求項1」の末尾の所定部分又は「発明の名称」から文字列d(i)を抽出するので、各文書の主題を的確に抽出することができる。
(7) また、上記情報処理装置は、
分析対象文書群に属する特許文書データiを分類して第1分類を生成する第1分類手段と、
前記第1分類手段とは異なる基準により前記分析対象文書群に属する特許文書データiを分類して第2分類を生成する第2分類手段と、
前記第1分類と前記第2分類によるクロス集計を行うクロス集計手段と、を更に備え、
前記第2分類手段は、前記グループ判定手段により同グループに所属させると判定された文字列d(i)の抽出元である特許文書データiを同グループに分類することとしてもよい。
上記構成によれば、グループ判定手段により判定された第2分類と、第2分類とは異なる第1分類により、クロス集計を行うので、分析対象文書群を、複数の観点による分類を考慮して分析することができる。これにより、各文書の主題が分析対象文書群においてどのように分布しているかを容易に把握することができる。
(8) 本発明の第2の観点に係る情報処理装置は、
分析対象文書群に属する特許文書データiを分類して第1分類を生成する第1分類手段と、
前記分析対象文書群に属する各特許文書データiから「請求項1」の末尾の所定部分又は「発明の名称」の文字列d(i)を抽出する特定部分抽出手段と、
前記文字列d(i)を用いて前記第1分類手段とは異なる基準により前記分析対象文書群に属する特許文書データiを分類して第2分類を生成する第2分類手段と、
前記第1分類と前記第2分類によるクロス集計を行うクロス集計手段と、
を備えたものである。
上記構成によれば、「請求項1」の末尾の所定部分又は「発明の名称」の文字列d(i)を用いた第2分類と、第2分類とは異なる第1分類により、クロス集計を行うので、分析対象文書群を、「請求項1」の末尾の所定部分又は「発明の名称」により表現された発明の対象の観点から概観すると同時に、他の観点による分類を考慮して分析することができる。これにより、各文書の主題が分析対象文書群においてどのように分布しているかを容易に把握することができる。
(9) 上記情報処理装置は、
前記分析対象文書群に属する各特許文書データiの「特許請求の範囲」から所定の格助詞の直前に位置する第1特徴語を抽出する特徴語抽出手段を更に備え、
前記第1分類手段は、前記第1特徴語に基づいて前記分析対象文書群に属する特許文書データiを分類して前記第1分類を生成することとしてもよい。
上記構成によれば、「請求項1」の末尾の所定部分又は「発明の名称」の文字列d(i)を用いた第2分類と、「特許請求の範囲」において所定の格助詞の直前に位置する第1特徴語を用いた第1分類により、クロス集計を行うので、分析対象文書群を発明の対象の観点から概観すると同時に、「特許請求の範囲」において所定の格助詞の直前に位置する第1特徴語により表現された発明の技術的特徴による分類を考慮して分析することができる。
(10) 本発明の第3の観点に係る情報処理装置は、
文書データに形態素解析処理を行い、当該文書データ中の形態素を検出して当該文書データを形態素データに分解し、当該文書データを分析する情報処理装置であって、前記文書データを記憶する記憶手段と、
前記文書データに前記形態素解析処理を行い、所定の第1規則に基づいて、前記形態素データからなる第1特徴語を生成する特徴語生成手段と、
前記特徴語生成手段が生成した前記第1特徴語を用いて、前記文書データの傾向を示す情報の出力処理を行う出力手段と
を備え、
前記文書データは、特許請求の範囲として記載された特許請求の範囲データを含む特許文書データであり、
前記記憶手段は、複数の前記特許文書データを記憶しており、
前記形態素解析処理は、前記特許請求の範囲データを処理対象とし、
前記特徴語生成手段は、前記各特許文書データの前記特許請求の範囲データにおいて前記各特許文書データの発明を構成する技術的特徴を示す文字列を含む第1所定部分の前記形態素データを用いて前記第1特徴語を生成し、前記各特許文書データの前記特許請求の範囲データにおいて当該特許文書データの発明の対象を示す文字列を含む第2所定部分の前記形態素データを用いて第2特徴語を生成し、
前記情報処理装置は、更に、
前記各第2特徴語に含まれる前記形態素データの前記複数の特許文書データにおける第1出現頻度を用いて前記複数の特許文書データをクラスタリングし、前記各第2特徴語と対応する前記各特許文書データが属するクラスタを特定するクラスタ特定手段と、
前記第1特徴語を用いて技術要素キーワードを生成し、前記クラスタ特定手段により特定された各クラスタに属する前記特許文書データの前記第2特徴語を用いて当該クラスタを示す製品群キーワードを生成するキーワード生成手段とを備え、
前記出力手段は、前記複数の特許文書データの傾向を表す情報として、前記各技術要素キーワードと前記各製品群キーワードとの関係を示す関係情報を出力することとしてもよい。
この構成によれば、本発明に係る情報処理装置は、クラスタ特定手段により、特許文書データ群を分類する際の分類条件となる教師データを予め準備することなく、各特許文書データに対応する第2特徴語を用いて特許文書データ群のクラスタリングを高精度に行うことができ、各クラスタについて第2特徴語を用いた製品群キーワードで表すことができる。
(11) 上記情報処理装置は、
前記各第1特徴語の前記複数の特許文書データにおける第2出現頻度に基づいて前記各特許文書データの文書ベクトルを生成し、前記各文書ベクトルを用いて前記各第1特徴語を観測変数とする因子分析を行い、前記各第1特徴語の因子負荷量と前記各特許文書データの因子得点を算出する因子分析手段と、
前記因子負荷量に基づいて前記各第1特徴語の因子を特定し、前記因子得点に基づいて前記各特許文書データの因子を特定する因子特定手段と、を更に備え、
前記キーワード生成手段は、前記因子特定手段により特定された前記各因子に対応する前記第1特徴語を用いて当該因子を示す技術要素キーワードを生成し、
前記出力手段は、前記因子特定手段により特定された各特許文書データの因子に基づき、前記関係情報を出力することとしてもよい。
この構成によれば、本発明に係る情報処理装置は、因子分析手段により、第1特徴語の出現頻度を用いた特許文書データ群の因子分析を行うことで、ユーザによる類推を必要とせずに、特許文書データ群に潜在する要素を明らかにでき、各因子について第1特徴語を用いた技術要素キーワードで表すことができる。第1特徴語と第2特徴語は、共に特許文書データの発明の技術的範囲が記載されている特許請求の範囲データを対象に生成されるが、第1特徴語は特許文書データ群に含まれている各発明の技術を構成する技術的特徴を表すものであるのに対し、各特許文書データに対応する個々の第2特徴語は各特許文書データの発明の対象を表すものである。
従って、技術要素を表す第1特徴語を用いて生成された技術要素キーワードと発明の対象を表す第2特徴語を用いて生成された製品群キーワードにより、ユーザは、特許文書データ群に潜在する技術と特許文書データ群の発明が用いられる製品等を確認することができるので、特許文書データ群が対象とする技術や製品等の傾向を把握することができる。
また、本発明に係る情報処理装置は、各特許文書データの因子に基づいて、各技術要素キーワードと各製品群キーワードとの関係を示す関係情報を出力することができる。第1特徴語で構成された各技術要素キーワードは因子を示し、第2特徴語で構成された各製品群キーワードは各クラスタと対応している。従って、ユーザは、関係情報によって特許文書データ群に潜在する技術と各技術が用いられている製品等の関係を確認することができる。
(12) 上記情報処理装置は、更に、
前記分解された各形態素データと、各形態素データに対応する所定の品詞と、各形態素データの検出順を示す検出順位情報とを対応づけた第1品詞情報を生成する品詞情報生成手段を備え、
前記特徴語生成手段は、前記第1品詞情報に所定の格助詞が含まれている場合において、当該所定の格助詞毎に、前記第1品詞情報の形態素データのうち、当該所定の格助詞より前に検出された形態素データである前方形態素データのうち、前記第1品詞情報において当該所定の格助詞の直前に検出された前方形態素データから、品詞が第1分類以外の品詞に属する前方形態素データが検出されるまでの各前方形態素データを検出順に結合することで前記第1特徴語を生成することとしてもよい。
この構成によっても、特許文書データ群に潜在する技術と特許文書データ群の発明が用いられる製品等を確認することができるので、特許文書データ群が対象とする技術や製品等の傾向を把握することができる。
(13) また、前記情報処理装置において、前記特許請求の範囲データは、請求項毎の請求項データを含み、前記特徴語生成手段は、前記第1特徴語を生成する場合には、前記特許文書データの前記特許請求の範囲データにおける各請求項データの前記第1所定部分の前記形態素データを用い、前記第2特徴語を生成する場合には、前記各特許文書データの前記特許請求の範囲データにおける所定の請求項データの前記第2所定部分の前記形態素データを用いることとしてもよい。
この構成によれば、第1特徴語は各特許文書データの特許請求の範囲データにおける全請求項データの第1所定部分を対象にしているため、特許文書データ群に包含された全ての発明について構成された技術要素を抽出することができる。また、第2特徴語は各特許文書データの発明の対象を示しており、各請求項データの記載において、発明の対象を示す文言が同じ記載箇所に含まれている場合が多い。そのため、各特許文書データの特定の請求項データにおける第2所定部分の形態素データのみを用いて第2特徴語を生成することで、第2特徴語生成のための処理負荷を軽減することができ、各特許文書データに係る発明の対象を容易に抽出することができる。
(14) また、前記情報処理装置において、前記因子特定手段は、前記因子分析手段により算出された前記各第1特徴語の前記因子負荷量が第1閾値以上である因子を当該第1特徴語の因子として特定し、前記因子分析手段により算出された前記各特許文書データの前記因子得点が第2閾値以上である因子を当該特許文書データの因子として特定することとしてもよい。
この構成によれば、各第1特徴語に対して一定以上の影響を与える因子を第1特徴語の因子として特定するので、特許文書データ群に含まれる技術要素と関連が深い技術を特定することができる。また、各特許文書データについて一定の寄与レベルを有する因子を特許文書データの因子として特定するので、各特許文書データの発明との関連性が高い技術を特定することができる。
(15) また、前記情報処理装置において、前記クラスタ特定手段による前記クラスタリングは、前記第2所定部分の各形態素データの前記各第2特徴語における第3出現頻度に基づいて前記各第2特徴語の文書ベクトルを生成し、前記各第2特徴語の前記複数の特許文書データにおける第4出現頻度が所定値以上の前記第2特徴語の前記文書ベクトル間の類似度を算出し、当該類似度に応じてクラスタを抽出する処理と、前記第4出現頻度が前記所定値より小さい前記第2特徴語と前記クラスタとの間の類似度を算出し、当該類似度に応じて当該第2特徴語の特許文書データを当該クラスタに含ませる処理とを含むこととしてもよい。
この構成によれば、特許文書データ群における第2特徴語の第3出現頻度が所定値より小さい第2特徴語を除いてクラスタを抽出し、当該第2特徴語との類似度が高いクラスタに当該第2特徴語を含ませるので、小さいクラスタが多数抽出されることを防止することができ、特許文書データ群において有益なクラスタを抽出することができる。
(16) また、前記情報処理装置において、前記キーワード生成手段は、前記因子特定手段により特定された前記各因子に対応する前記第1特徴語のうち、当該因子の前記因子負荷量が第3閾値以上である前記第1特徴語を結合することにより前記技術要素キーワードを生成し、前記クラスタ特定手段により抽出されたクラスタ毎に、当該クラスタの重心ベクトルと当該クラスタに属する特許文書データの前記第2特徴語の前記文書ベクトルとの類似度を算出し、当該類似度に応じて当該クラスタに属する前記特許文書データの前記第2特徴語を結合させることにより前記製品群キーワードを生成することとしてもよい。
この構成によれば、因子に対応する第1特徴語のうち因子負荷量が一定値以上である第1特徴語のみを結合させて当該因子を示す技術要素キーワードを生成することにより、当該因子の説明力が一定以上である第1特徴語のみを結合することができるので、当該因子を示す表現としてより適切な技術要素キーワードを生成することができる。また、クラスタの重心ベクトルと当該クラスタの特許文書データとの類似度合に応じて当該特許文書データの第2特徴語を結合させて当該クラスタを示す製品群キーワードを生成することにより、当該クラスタの中でより一般的な特許文書データの第2特徴語のみを結合することができる。つまり、当該クラスタを示す表現としてより適切な製品群キーワードを生成することができる。
(17) また、前記情報処理装置において、前記出力手段は、前記製品群キーワード毎に、当該製品群キーワードに対応する前記クラスタに属する前記特許文書データの前記因子毎の件数を計数し、前記関係情報として、前記各製品群キーワードの前記因子毎の件数と当該因子を示す技術要素キーワードとを対応付けた情報を出力することとしてもよい。
この構成によれば、出力手段により、特許文書データ群における技術要素キーワードと製品群キーワードとの関係情報として、技術要素キーワードを用いている製品群キーワードに属する特許文書データの件数を出力することができる。従って、例えば、ユーザは関係情報を参照することにより、ある企業の特許文書データ群に潜在する技術がどの製品等にどの程度用いられているかを確認することができ、当該企業における異なる製品開発において重複した研究開発が行われているか否か等を把握することができる。
(18) また、前記情報処理装置において、前記記憶手段は、更に、前記各複数の特許文書データに対応する評価値を記憶しており、前記出力手段は、前記製品群キーワード毎に、当該製品群キーワードに対応する前記クラスタに属する前記各特許文書データの前記評価値を前記因子毎に集計し、前記関係情報として、前記各製品群キーワードの前記因子毎の評価値の集計結果と当該因子を示す技術要素キーワードとを対応付けた情報を出力することとしてもよい。
この構成によれば、出力手段により、特許文書データ群における技術要素キーワードと製品群キーワードとの関係情報として、技術要素キーワードと関係する製品群キーワードに属する発明の評価値集計を出力することができる。従って、例えば、特許文書データ毎の評価値が当該特許文書データに係る発明の重要度を表している場合には、特許文書データ群に含まれている各技術について、当該技術がどの製品において重要であるか確認できると共に、各製品等で用いられる技術のうちどの技術が重要であるかを確認することができる。
(19) 本発明に係る文書分析方法は、上記情報処理装置による処理と同様の処理により文書を分析する方法であり、本発明に係る文書分析プログラムは、上記情報処理装置による処理と同様の処理を実行させるプログラムである。
実施の形態1に係る情報処理装置の機能構成を示す図である。 (a)は、実施の形態1における特許文書データテーブルの構成及びデータ例を示しており、(b)は、実施の形態1における出願番号別品詞情報テーブルの構成及びデータ例を示している。 (a)は、実施の形態1における技術要素対象語別文書ベクトル情報の構成及びデータ例を示しており、(b)は、実施の形態1における出願番号別文書ベクトル情報の構成及びデータ例を示している。 (a)は、実施の形態1における請求項データの例を示しており、(b)は、実施の形態1における因子負荷量算出結果情報の構成及びデータ例を示し、(c)は、実施の形態1における因子得点算出結果情報の構成及びデータ例を示している。 (a)は、実施の形態1における出願番号別帰属情報の構成及びデータ例を示し、 (b)は、実施の形態1における技術要素キーワード情報の構成及びデータ例を示し、 (c)は、実施の形態1における製品群キーワード情報の構成及びデータ例を示している。 (a)は、実施の形態1におけるクラスタ別因子別件数情報の構成及びデータ例を示し、 (b)は、実施の形態1におけるクラスタ別因子別評価値情報の構成及びデータ例を示している。 実施の形態1に係る情報処理装置100の全体動作を示す動作フローを示している。 実施の形態1に係る形態素解析処理フローを示している。 実施の形態1に係る製品群対象語生成処理フローを示している。 実施の形態1に係るクラスタリング処理フローを示している。 実施の形態1に係る因子分析処理フローを示している。 実施の形態1に係る因子特定処理フローを示している。 実施の形態1に係るキーワード生成処理フローを示している。 実施の形態1に係る関係情報出力処理フローを示している。 (a)は、実施の形態1に係る第1関係情報の出力例を示し、(b)は第2関係情報の出力例を示している。 実施の形態1におけるクラスタスコアの算出処理の手順を示すフローチャートである。 実施の形態1におけるパテントスコアの算出処理で利用する経過情報のデータ構成の一例を模擬的に示した図。 実施の形態1におけるパテントスコアの算出処理で利用する内容情報のデータ構成の一例を模擬的に示した図。 実施の形態1におけるパテントスコアの算出処理の手順を示したフローチャート。 実施の形態1において各特許データの評価値を算出する処理の詳細を示すフローチャート。 実施の形態2に係る情報処理装置の機能構成を示す図である。 実施の形態2に係る情報処理装置100の全体動作を示す動作フローを示している。 実施の形態2に係る製品群対象語のグループ化処理フローを示している。 実施の形態2に係るベクトル生成の詳細フローを示している。 実施の形態2に係るグループ判定の詳細フローを示している。 実施の形態2に係るキーワード生成処理フローを示している。 実施の形態2において生成する製品群対象語のデータ例を示している。 実施の形態2において生成する文書頻度DF(i)及び形態素数J(i)のデータ例を示している。 実施の形態2において生成するベクトルD(i)のデータ例を示している。 実施の形態2における類似度判定のスキップについて説明する図である。 実施の形態2において算出する類似度のデータ例を示している。 実施の形態2において生成する各グループの製品群キーワードのデータ例を示している。 実施の形態2におけるグループ判定情報に基づく製品分類毎の出願件数推移を示すグラフである。 実施の形態2におけるグループ判定情報に基づく製品分類毎のスコア合計値とスコア最高値を示すマップである。 実施の形態2におけるグループ判定情報に基づく製品分類毎のスコア合計値と出願日中央値を示すマップである。
符号の説明
100 情報処理装置
2 記憶部
3 入力部
4 表示部
110 制御部
101 入力受付部
102 データ取得部
111 形態素解析部
104 クラスタ分析部
112 特徴語抽出部
106 解決語抽出部
107 課題語抽出部
108 マップ生成部
117 出力制御部
113 因子分析部
114 因子特定部
115 クラスタ特定部
116 キーワード生成部
[実施の形態1]
<概要>
本実施の形態に係る情報処理装置は、分析対象となる企業等における技術資産を可視化するものである。具体的には、本実施の形態における技術資産は、当該企業の特許文書データ群に含まれる発明を構成する技術要素と、各技術要素によって構成される発明の対象である製品等であり、本実施の形態では、特許文書データ群に含まれる発明を構成する技術要素を示す第1特徴語(以下、「技術要素対象語」と言う。)と、各特許文書データの発明の対象を表す第2特徴語(以下、「製品群対象語」と言う。)を抽出し、特許文書データ群の発明に潜在する技術因子を表す技術要素キーワードを第1特徴語を用いて表し、特許文書データ群の製品等を表す製品群キーワードを第2特徴語を用いて表す。また、特許文書データ群における各製品等にどのような技術因子が関係しているか等、技術要素キーワードと製品群キーワードとの関係を示す関係情報を出力する。
以下、本実施の形態における情報処理装置の詳細について説明する。
<構成>
本実施の形態に係る情報処理装置の機能構成を説明する。
尚、本実施の形態において、複数の文書データは、日本国特許庁に出願された特許出願データであるものとする。
また、各特許文書データには、特許請求の範囲及び要約のデータと出願日や出願人名等の書誌的データが含まれているものとする。
図1は、本実施の形態に係る情報処理装置の機能構成図を示している。
以下、同図に従って情報処理装置100の各部について説明する。
情報処理装置100は、記憶部2、入力部3、表示部4及び制御部110を含んで構成されており、制御部110は、入力受付部101、データ取得部102、形態素解析部111、特徴語抽出部112、因子分析部113、因子特定部114、クラスタ特定部115、キーワード生成部116、及び出力制御部117を含む。
記憶部2は、ハードディスクやCD−ROM (Compact Disc Read Only Memory)等の記録媒体であり、特許出願データや情報処理装置1による各処理によって生成されたデータ等を記憶する機能を有する。
入力部3は、キーボードやマウス等で実現され、ユーザによる技術分野の指定等、情報処理装置1に対する指示を受付ける機能を有する。
表示部4は、CRT(Cathode Ray Tube)ディスプレイや液晶ディスプレイなどの表示装置であり、ユーザから技術分野の指定を受付けるための画像や上記マトリクスの画像等を表示する機能を有する。
制御部110は、CPUとROMやRAM等のメモリで実現され、ROMに格納されたプログラムをCPUが読み出して実行することにより情報処理装置100の各部を制御する機能を有する。
以下、制御部110の各部について説明する。
入力受付部101は、入力部3を介してユーザからの指示を受付け、受付けた指示が文書データの技術分野を示す指示情報の場合には、データ取得部102に当該指示情報を送出する機能を有する。
データ取得部102は、入力受付部101から受付けた指示情報が示す特許出願データ(以下、「指定特許文書データ群」と言う。)を記憶部2から抽出し、指定特許文書データ群に含まれる要約のデータのうち、「課題」として記載されている部分のデータ(以下、「課題情報」と言う。)と、特許請求の範囲のデータ(以下、「特許請求の範囲データ」と言う。)を形態素解析部103に送出する機能を有する。
形態素解析部111は、データ取得部102から分析対象の特許文書データ群を受付け、特許文書データ群の各特許文書データにおける特許請求の範囲データの各請求項データの記載形式が所定形式か否かに応じて、各請求項データの所定部分、又は全請求項データ及び当該特許文書データの発明の名称として記載された発明の名称データから形態素を検出し、検出した形態素に品詞を対応づけた出願番号別品詞情報を生成して記憶する機能を有する。
ここで、上記所定部分は、各特許文書データの特許請求の範囲データにおける各請求項データ中の第1所定部分(以下、「技術要素対象部分」と言う。)と、当該特許請求の範囲データの請求項1として記載された第1請求項データ中の第2所定部分(以下、「製品群対象部分」と言う。)とを含む。
尚、形態素解析を行う際に用いる文法情報や、品詞が対応付けられた単語リスト情報は、予め情報処理装置1内部に記憶されているものとする。
形態素解析部111は、各特許文書データにおける各請求項データが所定形式で記載されている場合には上記技術要素対象部分の文字列(以下、「技術要素対象データ」と言う。)と上記製品群対象部分の文字列(以下、「製品群対象データ」と言う。)について形態素解析を行い、各々の形態素解析処理により第1形態素、第2形態素を検出する。また、特許文書データの各請求項データが所定形式でない場合には、当該特許文書データの各請求項データと発明の名称データについて各々形態素解析を行い、第1形態素、第2形態素を検出する。
尚、上記所定形式は、例えば、「〜において、・・・することを特徴とする***。」等のジェプソンタイプの記載形式である。形態素解析部111は、 各請求項データについて、"において、"(以下、「第1文字列」と言う。)と、 "ことを特徴とする"(以下、「第2文字列」と言う。) が含まれているか判断し、技術要素対象部分は第1文字列と第2文字列の間にある"・・・すること"の部分であり、製品群対象部分は第1請求項の第2文字列以降に記載された"***"の部分である。
特徴語抽出部112は、形態素解析部111が生成した出願番号別品詞情報の各特許文書データの各請求項データについて、品詞が第1格助詞の第1形態素毎に、当該第1形態素より前に検出された各第1形態素(以下、「第1格助詞毎の前方第1形態素」と言う。)のうち、検出順位が連続する所定品詞の前方第1形態素を結合して技術要素対象語を生成し、生成した各技術要素対象語を示す技術要素対象語情報を因子分析部113へ送出する機能を有する。また、特徴語抽出部112は、上記出願番号別品詞情報の各特許文書データの各請求項データについて、第2形態素の品詞に基づいて第2形態素を結合して文節を順次生成し、当該特許文書データにおける文節生成順位が最後の文節から順に、文節生成順位が連続する第2格助詞を含む文節を結合して製品群対象語を生成し、生成した製品群対象語と当該製品群対象語に対応する特許文書データの出願番号とを示す製品群対象語情報をクラスタ特定部115へ送出する機能を有する。
尚、本実施の形態における第1格助詞は、"の"及び"が"であり、第2格助詞は"の"であり、所定品詞は、"名詞""未知語"であるものとする。また、特許文書データ毎に生成した各文節には当該特許文書データにおける生成順位を対応づけて記憶するものとする。
次に、因子分析部113について説明する。
因子分析部113は、特許文書データテーブルと出願番号別品詞情報と技術要素対象語情報を読み出し、各分析対象特許文書データの全請求項データにおける各技術要素対象語のTF(Term Frequency)値を導出し、各TF値を当該特許文書データの全TF値合計で除算した各値を成分とする各技術要素対象語の文書ベクトル情報を生成する機能を有する。また、因子分析部113は、各技術要素対象語を観測変数として、各技術要素対象語の文書ベクトル情報を用いて下記の因子分析を行う機能を有する。尚、本実施の形態における因子分析は、SPSS(登録商標)やR等の統計分析ソフトを用いて行うものとする。
(I)分析対象特許文書データ群(特許文書データ数I件)について、各特許文書データの技術要素対象語(n個)を観測変数とし、n個の因子(第1因子〜第n因子)を初期因子として設定する。
(II)上記設定に基づき、SMC法及び主因子法を用いて各技術要素対象語の上記各因子に対する因子負荷量を算出する。
(III)上記各因子のうち固有値が所定の閾値以上である因子を分析対象特許文書データ群の対象因子(N個)として抽出する。なお、本実施の形態では固有値が1以上である因子を抽出するものとする。
(IV)対象因子について、バリマックス法を用いて因子軸を回転させて因子負荷行列を求める。
(V)上記(IV)で算出した各技術要素対象語の因子負荷行列を用いて、各分析対象特許文書データの因子得点を算出する。
また、因子分析部113は、更に、対象因子を示す対象因子情報を因子特定部114とキーワード生成部116へ送出する機能と、上記(IV)(V)によって算出した因子負荷量と因子得点の各々の算出結果を示す因子負荷量算出結果情報と因子得点算出結果情報とを記憶する機能を有する。
次に、因子特定部114の機能について説明する。
因子特定部114は、因子分析部113から送出された対象因子を示す情報を受付け、因子負荷量の算出結果情報において各技術要素対象語の因子負荷量が第1閾値以上の対象因子を当該技術要素対象語の帰属対象因子として特定し、各技術要素対象語の帰属対象因子を示す技術要素帰属対象因子情報をキーワード生成部116へ送出する機能と、因子得点算出結果情報において各分析対象特許文書データの因子得点が第2閾値以上の対象因子を当該分析対象特許文書データの帰属対象因子として特定し、各分析対象特許文書データの帰属対象因子を示す文書帰属対象因子情報を記憶する機能とを有する。尚、本実施の形態において、例えば第1閾値を0.2、第2閾値を1.0として予めROMに記憶されているものとする。
クラスタ特定部115は、特徴語抽出部112から製品群対象語情報を受け付け、各製品群対象語について、分析対象特許文書データ群の第1請求項データの製品群対象部分又は発明の名称データにおける製品群対象語のDF(Document Frequency)値を求める機能と、出願番号別品詞情報の各第2形態素の各製品群対象語におけるTF値と、全製品群対象語における各第2形態素のIDF(Inverse Document Frequency)値とを求め、各第2形態素のTF値とIDF値とを乗算した値を成分とする分析対象特許文書データの文書ベクトルを生成し、各文書ベクトルを示す出願番号別文書ベクトル情報をキーワード生成部116へ送出する機能を有する。
また、クラスタ特定部115は、各分析対象特許文書データの製品群対象語のうち、所定値以上のDF値を有する製品群対象語の文書ベクトル(以下、「高DF文書ベクトル」と言う。)間の類似度を算出してクラスタを抽出するクラスタリング処理機能と、上記所定値より小さいDF値を有する製品群対象語の文書ベクトル(以下、「低DF文書ベクトル」と言う。)と、上記抽出した各クラスタに属する各文書ベクトルとの類似度を算出し、低DF文書ベクトルと類似度が最も高い文書ベクトルを含むクラスタに当該低DF文書ベクトルを所属させる機能と、各分析対象特許文書データが属するクラスタを示すクラスタ情報を記憶し、クラスタ情報をキーワード生成部116へ送出する機能を有する。
尚、本実施の形態における上記類似度は、クラスタ特定部115が文書ベクトル間の余弦値を算出することにより求め、クラスタの抽出は、類似度が最大の文書ベクトル同士を一つのグループとして順次クラスタを生成し、クラスタに未所属の文書ベクトルとクラスタ又はクラスタ間の類似度を算出し最長距離法を用いて、未所属の文書ベクトルを各クラスタに含ませることにより行う。
キーワード生成部116は、因子分析部113から対象因子を示す対象因子情報と因子特定部114から各技術要素対象語の帰属対象因子を示す帰属対象因子情報とを受け付け、各技術要素対象語の因子負荷量算出結果情報に基づいて、各対象因子に帰属する技術要素対象語のうち、因子負荷量が第3閾値以上の技術要素対象語を結合することにより技術要素キーワードを生成し、生成した対象因子毎の技術要素キーワード情報を記憶する機能を有する。また、キーワード生成部116は、クラスタ特定部115からクラスタ情報と出願番号別文書ベクトル情報を受け付ける機能と、クラスタ情報の各クラスタに属する特許文書データの文書ベクトルを用いて、当該クラスタの重心ベクトルを算出し、当該重心ベクトルと当該クラスタに属する各文書ベクトルとの類似度を算出する機能と、当該クラスタにおける類似度の降順で所定順位以上に該当する文書ベクトルを有する分析対象特許文書データの製品群対象語を結合することにより当該クラスタを示す製品群キーワードを生成し、生成したクラスタ毎の製品群キーワード情報を記憶する機能と技術要素キーワード情報と製品群キーワード情報を出力制御部へ送出する機能を有する。尚、本実施の形態において、例えば上記第3閾値を0.2として予めROMに記憶されているものとする。
出力制御部117は、キーワード生成部116から技術要素キーワード情報と製品群キーワード情報を受け付け、出願番号別帰属情報と特許文書データ情報に基づいて、各クラスタに属する特許文書データの帰属対象因子毎の件数を計数してクラスタ別因子別件数情報を生成する機能と、各クラスタに属する特許文書データの帰属対象因子毎の評価値合計を算出してクラスタ別因子別評価値情報を生成する機能と、技術要素キーワード情報と製品群キーワード情報に基づいて、クラスタ別因子別件数情報の各件数と、当該件数に対応する技術要素キーワード及び製品群キーワードを対応付けた第1関係情報を表示部4に表示させる機能と、クラスタ別因子別評価値情報の各評価値と、当該評価値に対応する技術要素キーワード及び製品群キーワードを対応付けた第2関係情報を表示部4に表示させる機能とを有する。
ここで、上記第1関係情報と第2関係情報の例を図15を用いて説明する。
図15(a)は、本実施の形態における第1関係情報の例を示しており、同図の第1関係情報630において、製品群キーワード1〜M(632)は製品群キーワード情報の各製品群キーワードを示しており、技術要素キーワード1〜N(631)は、技術要素キーワード情報の各技術要素キーワードを示しており、各製品群キーワードと各技術要素キーワードに対応する各セルは特許文書データ件数を示している。例えば、セル633は、製品群キーワード2に帰属する特許文書データであって、技術要素キーワードNを帰属対象因子とする特許文書データの件数が5件であることを示している。
また、図15(b)は、本実施の形態における第2関係情報の例を示しており、同図の第2関係情報640は、X軸に技術要素キーワード1〜N(631)、Y軸に製品群キーワード1〜M(642)、Z軸に評価値643を設定した3次元グラフである。例えば、同図の円柱644は、製品群キーワード1に属する特許文書データであって、技術要素キーワード1を帰属対象因子とする特許文書データの評価値合計の値を示している。
<データ>
以下、本実施の形態に係る情報処理装置100の記憶部2又はメモリに格納されているデータ構造について説明する。
図2(a)は、特許文書データテーブルの構成及びデータ例を示している。
特許文書データテーブル510は、本実施の形態の分析対象として入力受付部101が受け付けた出願人の特許文書データをデータ取得部102が取得する際に読み出される。
同図の特許文書データテーブル510は、出願番号511と出願人512と発明の名称513と請求の範囲514と評価値515とを対応付けて記憶している。
出願番号511は、各特許文書データに係る特許出願の出願番号であり、出願人は当該特許出願の出願人名称であり、発明の名称513は、当該特許出願の出願明細書中に発明の名称として記載されたデータであり、請求の範囲514は、当該特許出願において特許請求の範囲又は請求の範囲として記載されたデータであり、当該特許出願の全請求項のデータが請求項毎に格納されている。また、評価値515は、所定の算出方法により予めユーザが設定した当該特許出願に係る発明の評価を示すデータである。
図2(b)は、出願番号別品詞情報テーブルの構成及びデータ例を示している。
出願番号別品詞情報テーブル520は、形態素解析部111が分析対象の各特許文書データの特許文書データテーブル510の請求の範囲514のデータ又は発明の名称513のデータについて形態素解析を行った際に生成される。
同図の出願番号別品詞情報テーブル520は、出願番号521と第1ID522と第1形態素523と品詞524と第2ID525と第2形態素526と品詞527とを対応づけて記憶されている。
出願番号521は、形態素解析された特許文書データの出願番号であり、第1ID522は、当該特許文書データの請求の範囲514の各請求項データにおける技術要素対象部分において検出された形態素の当該請求項データの請求項番号と当該請求項データにおける検出順位を示すデータである。例えば、第1ID522が"1−1"である場合、第1請求項において検出順位が第1番目であることを示している。
また、第1形態素523は当該特許文書データの各請求項データの技術要素対象部分から検出された形態素のデータであり、品詞524は、第1形態素523の各形態素に対応する品詞である。また、第2ID525は、当該特許文書データの請求の範囲514の第1請求項データにおける製品群対象部分において検出された形態素の検出順位を示すデータであり、第2形態素526は、当該特許文書データの第1請求項データの製品群対象部分から検出された形態素のデータであり、品詞527は、第2形態素526の各形態素に対応する品詞である。
図3(a)は、技術要素対象語別文書ベクトル情報の構成及びデータ例を示している。
同図の技術要素対象語別文書ベクトル情報530は、因子分析部113が分析対象の特許文書データ群の因子分析を行う際に、特徴語抽出部112により生成された技術要素対象語情報と当該特許文書データ群の全請求項データに基づいて生成される。
技術要素対象語別文書ベクトル情報530は、出願番号531と各技術要素対象語532とを対応づけて記憶している。
出願番号531は、因子分析対象となる特許文書データの出願番号であり、技術要素対象語532は、特徴語抽出部112によって生成された各技術要素対象語について、各特許文書データの全請求項データにおける技術要素対象語の各TF値を特許文書データ毎のTF値合計で除算することにより求めた当該技術要素対象語の文書ベクトルの成分である。
図3(b)は、出願番号別文書ベクトル情報の構成及びデータ例を示している。
同図の出願番号別文書ベクトル情報540は、クラスタ特定部115が分析対象の特許文書データ群をクラスタリングする際、特徴語抽出部112によって生成された製品群対象語と各特許文書データの第1請求項データ又は発明の名称データに基づいて生成される。
出願番号別文書ベクトル情報540は、出願番号541と製品群対象語542とDF543と収納箱等544とを対応付けて記憶している。
出願番号541は、分析対象の各特許文書データの出願番号であり、製品群対象語542は、当該特許文書データにおいて特徴語抽出部112によって抽出された製品群対象語であり、DF543は、特許文書データ群の第1請求項データの製品群対象部分における各製品群対象語のDF値のデータであり、収納箱等544は、各第2形態素の各製品群対象語における各TF値に全製品群対象語における当該第2形態素のIDF値を乗算した値を示している。
尚、DF543は、クラスタ特定部115が高DF文書ベクトルと低DF文書ベクトルを区別するための基準値として用いられる。
図4(b)は、因子負荷量算出結果情報の構成及びデータ例を示している。
同図の因子負荷量算出結果情報550は、因子分析部113が技術要素対象語別文書ベクトル情報530の各文書ベクトルを用いて各技術要素対象語の因子負荷量を算出した際に生成される。
因子負荷量算出結果情報550は、技術要素対象語551と第1因子〜第N因子552とを対応づけて記憶されている。
技術要素対象語551は、分析対象特許文書データ群から抽出された技術要素対象語であり、第1因子〜第N因子552は対象因子であり、各技術要素対象語と各対象因子に対応する各セルには当該技術要素対象語の当該対象因子に対する因子負荷量の値が格納される。
図4(c)は、因子得点算出結果情報の構成及びデータ例を示している。
同図の因子得点算出結果情報560は、因子負荷量算出結果情報550に基づいて各特許文書データの因子得点を算出した際に生成される。
因子得点算出結果情報560は、出願番号561と第1因子〜第N因子562とを対応づけて記憶されている。
出願番号561は、因子分析対象の各特許文書データの出願番号であり、第1因子〜第N因子562は対象因子であり、各出願番号と各対象因子に対応する各セルには当該出願番号の当該対象因子に対する因子得点の値が格納される。
図5(a)は、出願番号別帰属情報の構成及びデータ例を示している。
同図の出願番号別帰属情報570は、クラスタ特定部115が分析対象の特許文書データ群についてクラスタリングを行った際に各特許文書データが帰属するクラスタのクラスタ情報が格納され、因子特定部114が各特許文書データの帰属対象因子を特定した際に文書帰属対象因子情報が格納される。
出願番号別帰属情報570は、出願番号571とクラスタNo.572と帰属対象因子573とを対応づけて記憶されている。
出願番号571は、分析対象の各特許文書データの出願番号であり、クラスタNo.572は、当該特許文書データが属するクラスタのクラスタ番号であり、帰属対象因子573は、当該特許文書データが帰属する対象因子の情報を示している。
図5(b)は、技術要素キーワード情報の構成及びデータ例を示している。
同図の技術要素キーワード情報580は、因子分析部113から受け付けた対象因子情報と因子特定部114から受け付けた帰属対象因子情報と、因子負荷量算出結果情報550に基づいて、キーワード生成部116が各対象因子を示す技術要素キーワードを生成した際に記憶される。
技術要素キーワード情報580は、対象因子581と技術要素キーワード582とを対応づけて記憶されている。
対象因子581は、因子特定部114からキーワード生成部116が受け付けた対象因子情報の各対象因子を示しており、技術要素キーワード582は、当該対象因子を帰属対象因子とする技術要素対象語を結合させた技術要素キーワードを示している。例えば、技術要素キーワード1は、"合金元素同士"と"合金元素"と"薄片"と"粒子"の各技術要素対象語の間にカンマを挿入して結合させたものである。尚、他の技術要素キーワードも同様に生成されるが、説明の便宜上、技術要素キーワード2、技術要素キーワード3・・等の表現を用いるものとする。
図5(c)は、製品群キーワード情報の構成及びデータ例を示している。
同図の製品群キーワード情報590は、出願番号別文書ベクトル情報540と出願番号別帰属情報570のクラスタ情報に基づいて、キーワード生成部116が各クラスタを示す製品群キーワードを生成した際に記憶される。
製品群キーワード情報590は、クラスタNo.591と製品群キーワード592とを対応づけて記憶されている。
クラスタNo.591は、上記クラスタ情報の各クラスタのクラスタ番号を示しており、製品群キーワード592は、当該クラスタに帰属する特許文書データのうちの製品群対象語を結合して生成された製品群キーワードを示している。例えば、製品群キーワード1は、 "スライドファスナー"と"スライドファスナー用スライダー"の各製品群対象語を上記技術要素キーワードと同様に結合させて生成したものであり、他の製品群キーワードも同様である。
図6(a)は、クラスタ別因子別件数情報の構成及びデータ例を示している。
同図のクラスタ別因子別件数情報610は、出願番号別帰属情報570と特許文書データテーブル510に基づいて、出力制御部117が第1関係情報として、各クラスタに属する特許文書データの帰属対象因子毎に特許文書データ件数を出力する際に生成される。
クラスタ別因子別件数情報610は、クラスタ1〜クラスタM612と第1因子〜第N因子611とを対応づけて記憶されている。
クラスタ1〜クラスタM612は、出願番号別帰属情報570のクラスタ情報の各クラスタであり、第1因子〜第N因子611は、各対象因子を示しており、例えば、クラスタ1及び第N因子で示されるセル613には、クラスタ1に属し、且つ、第N因子に帰属する特許文書データの件数が格納される。
図6(b)は、クラスタ別因子別評価値情報の構成及びデータ例を示している。
同図のクラスタ別因子別評価値情報620は、出願番号別帰属情報570と特許文書データテーブル510に基づいて、出力制御部117が第2関係情報として、各クラスタに属する特許文書データの帰属対象因子毎に特許文書データの評価値合計を出力する際に生成される。
クラスタ別因子別評価値情報620は、クラスタ1〜クラスタM622と第1因子〜第N因子621とを対応づけて記憶されている。
クラスタ1〜クラスタM622は、出願番号別帰属情報570のクラスタ情報の各クラスタであり、第1因子〜第N因子621は、各対象因子を示しており、例えば、クラスタ2及び第N因子で示されるセル623には、クラスタ2に属し、且つ第N因子に帰属する特許文書データの評価値合計が格納される。
<動作>
以下、上述した本実施の形態に係る情報処理装置100の動作について説明する。
図7は、情報処理装置100の全体動作を示す動作フローを示している。以下、同図に従って説明する。
ステップS1100において、情報処理装置100の入力受付部101は、入力部3を介してユーザから分析対象となる特許文書データ群の出願人の指定入力を受け付け、入力受付部101はデータ取得部102に指定された出願人を示す分析対象情報を送出する。
データ取得部102は、記憶部2から特許文書データテーブル510を読み出し、入力受付部101から受け付けた分析対象情報に対応する特許文書データを読み出し、形態素解析部111へ読み出した分析対象の特許文書データ群の情報を送出する(ステップS1200)。
形態素解析部111は、データ取得部102から受け付けた特許文書データ群の情報を用いて形態素解析処理を行う(ステップS1300)。
ここで、形態素解析処理の詳細について図8を用いて説明する。
形態素解析部111は、分析対象の特許文書データ群の各特許文書データについて、当該特許文書データの請求の範囲データ514における各請求項データを抽出する(ステップS1310)。
形態素解析部111は、ステップS1310で抽出した各請求項データについて、当該請求項データの記載形式が所定形式に合致するか否か判断する(ステップS1320)。尚、所定形式に合致するか否かは、所定の文字列が含まれているか否かによって判断する。例えば、図4(a)に示す請求項データの場合、下線50Aの"において、"の第1文字列と下線50Cの"ことを特徴とする"の第2文字列が請求項データに含まれているので当該請求項データは所定形式に合致していると判断する。
ステップS1320において、形態素解析部111が当該請求項データの記載形式が所定形式に合致していると判断した場合(ステップS1320:Y)、形態素解析部111は、当該請求項データの技術要素対象部分のデータを抽出する(ステップS1330)。上述した図4(a)の例の請求項データの場合、下線50Aの第1文字列と下線50Cの第2文字列に挟まれた各文字列、即ち、下線50Bで示される文字列部分が技術要素対象部分であり、下線50Bの各文字列が抽出される。
続いて、形態素解析部111は、当該請求項データが第1請求項データであるか否か判断し(ステップS1340)、当該請求項データが第1請求項データであると判断した場合(ステップS1340:Y)、当該請求項データ中の製品群対象部分のデータに含まれる形態素を検出し、検出した各形態素を第2形態素として抽出する(ステップS1350)。上述の図4(a)に示す請求項データの場合、下線50Cの第2文字列以降の文字列、即ち、下線50Dで示される文字列の部分が製品群対象部分であり、下線50Dの各文字列から第2形態素が抽出される。
形態素解析部111は、ステップS1330で抽出した当該請求項データの技術要素対象データに含まれる形態素を検出し、検出した形態素を第1形態素として抽出する(ステップS1360)。
続いて、形態素解析部111は、ステップS1350及びステップS1360で抽出した当該請求項データの第1形態素と第2形態素に対応する品詞を対応づけ、当該請求項データにおいて検出した順に第1形態素及び第2形態素の各々について検出順位を示す第1ID522及び第2ID525を付して出願番号別品詞情報520をメモリに記憶し、特徴語抽出部112に形態素解析処理を終了した旨を示す終了情報を送出する(ステップS1370)。
また、ステップS1320において、形態素解析部111が当該請求項データの記載形式が所定形式ではないと判断した場合(ステップS1320:N)、形態素解析部111は、当該請求項データの全文字列を技術要素対象部分のデータとして形態素を検出し、検出した形態素を第1形態素として抽出する(ステップS1380)。続いて、形態素解析部111は、特許文書データテーブル510における当該請求項データの出願番号に対応する発明の名称513から形態素を検出し、検出した形態素を第2形態素として抽出し(ステップS1390)、抽出した第1形態素及び第2形態素について上述したステップS1370の処理を行う。
図7に戻り、ステップS1400以下の各処理について説明する。
特徴語抽出部112は、ステップS1300において形態素解析部111から終了情報を受付けると、メモリ上の出願番号別品詞情報520の第1形態素523及び第2形態素526に格納されている各形態素データを用いて、分析対象特許データ群における技術要素対象語と分析対象特許データ毎の製品群対象語とを生成する(ステップS1400)。
ここで、上記ステップS1400の処理の詳細について図9を用いて説明する。
特徴語抽出部112は、メモリから出願番号別品詞情報520を読み出し(ステップS1410)、出願番号別品詞情報520の出願番号521に記憶されている各出願番号の請求項データ毎に、品詞524に"の"又は"が"の第1格助詞が記憶されている第1形態素523について、当該第1形態素の前方第1形態素を抽出する(ステップS1420)。
特徴語抽出部112は、ステップS1420で抽出した各出願番号の請求項データ毎の前方第1形態素のうち、第1ID522が連続する所定品詞の前方第1形態素を結合し、技術要素対象語を生成する(ステップS1430)。
続いて、特徴語抽出部112は、出願番号別品詞情報520の各出願番号について、第2形態素を結合して文節を順次生成すると共に、生成した各文節に生成順位を対応づける (ステップS1440)。
特徴語抽出部112は、ステップS1440において出願番号毎に生成した文節について、文節生成順位が最後の文節から文節生成順位が連続し、文節に含まれる第2形態素の品詞527において第2格助詞"の"を含む文節までを結合して製品群対象語を生成する。また、ステップS1430で生成した技術要素対象語の技術要素対象語情報を因子分析部113へ送出し、製品群対象語を示す製品群対象語情報をクラスタ特定部115へ送出する(ステップS1450)。
図7に戻り、クラスタ特定部115は、特徴語抽出部112から製品群対象語情報を受け付けると、製品群対象語情報の各製品群対象語情報を用いて分析対象特許文書データ群のクラスタリングを行う(ステップS1500)。
以下、上記クラスタリングの処理の詳細について図10に基づいて説明する。
図10のステップS1510において、クラスタ特定部115は、記憶部2の特許文書データテーブル510とメモリ上の出願番号別品詞情報520を読み出す。
クラスタ特定部115は、製品群対象語情報の各製品群対象語について、分析対象特許文書データ群の特許文書データテーブル510の請求の範囲514に含まれる第1請求項データの記載形式が所定形式である場合には第1請求項データ、第1請求項データの記載形式が所定形式でない場合には発明の名称513における当該製品群対象語のDF値を導出し、当該DF値と当該DF値に対応する特許文書データの出願番号と製品群対象語とを対応づけて出願番号別文書ベクトル情報540に格納する(ステップS1520)
クラスタ特定部115は、出願番号別品詞情報520の出願番号毎に、各第2形態素の当該出願番号に対応する製品対象語におけるTF値を算出し、全製品群対象語における各第2形態素のIDF値を算出する(ステップS1530)。
クラスタ特定部115は、ステップS1530において算出した出願番号毎の各第2形態素のTF値と当該第2形態素のIDF値とを乗算した結果を当該出願番号の製品群対象語の文書ベクトルの成分として出願番号別文書ベクトル情報540に記憶する(ステップS1540)。
続いて、クラスタ特定部115は、ステップS1530で記憶した出願番号別文書ベクトル情報540のDF543を参照して、高DF文書ベクトルを抽出し、抽出した高DF文書ベクトル間の余弦値を求めることにより製品群対象語間の類似度を算出し、最長距離法を用いてクラスタを抽出する(ステップS1550)。
クラスタ特定部115は、出願番号別文書ベクトル情報540のDF543を参照して低DF文書ベクトルを抽出し、ステップS1550で抽出した各クラスタに属する文書ベクトルと各低DF文書ベクトル間の類似度を算出し、当該低DF文書ベクトルとの類似度が最も高い文書ベクトルを含むクラスタに当該低DF文書ベクトルを所属させることにより全製品群対象語の帰属クラスタを決定する。クラスタ特定部115は、各製品群対象語に対応する出願番号及び帰属クラスタのクラスタ番号を対応づけたクラスタ情報を出願番号別帰属情報570に記憶し、クラスタ情報をキーワード生成部116に送出する(ステップS1560)。
図7に戻り、ステップS1600において、因子分析部113は、ステップS1400において特徴語抽出部112から技術要素対象語情報を受け付けると、技術要素対象語情報の各技術要素対象語の分析対象特許文書データにおける出現頻度を用いて分析対象特許文書データ群の因子分析を行う。
以下、上記ステップS1600の動作の詳細について図11を用いて説明する。
因子分析部113は、特徴語抽出部112から受け付けた技術要素対象語情報の各技術要素対象語について、各分析対象特許文書データの出願番号に対応する特許文書データテーブル510の請求の範囲514におけるTF値を導出し(ステップS1610)、ステップS1610で導出した出願番号毎の技術要素対象語のTF値を当該出願番号のTF値合計で除算した値を各技術要素対象語の文書ベクトルの成分として技術要素対象語別文書ベクトル情報530に格納する(ステップS1620)。
続いて、因子分析部113は、各技術要素対象語を観測変数、技術要素対象語の数を初期因子数とし、技術要素対象語別文書ベクトル情報530の各文書ベクトルを用いて因子分析を行って、各技術要素対象語の因子負荷量を算出し、固有値が1以上の因子を対象因子として抽出する。また、因子分析部113は、対象因子について因子軸を回転させて因子負荷行列を求め、当該因子負荷行列を用いて各分析対象特許文書データの因子得点を算出する(ステップS1630)。
因子分析部113は、ステップS1630で抽出した対象因子情報を因子特定部114に送出し、ステップS1630で求めた回転後の因子負荷量を因子負荷量算出結果情報550として記憶し、各分析対象特許文書データの因子得点の算出結果を因子得点算出結果情報560として記憶する (ステップS1640)。
図7に戻り、ステップS1700において、因子特定部114は、ステップS1600で因子分析部113から受け付けた対象因子情報と因子負荷量算出結果情報550と因子得点算出結果情報560とに基づいて、各技術要素対象語と各分析対象特許文書データの各々が帰属する対象因子を特定する。
以下、上記ステップS1700の詳細について図12を用いて説明する。
図12のステップS1710において、因子特定部114は、因子分析部113から対象因子情報を受付けると、因子負荷量算出結果情報550と因子得点算出結果情報560とを読み出す。
因子特定部114は、因子負荷量算出結果情報550の技術要素対象語551の各技術要素対象語について、当該技術要素対象語に対応する対象因子の因子負荷量が第1閾値以上である対象因子を当該技術要素対象語の帰属対象因子として特定し、当該対象因子を帰属先とする技術要素対象語と当該対象因子とを対応付けた技術要素帰属対象因子情報をキーワード生成部116へ送出する(ステップS1720)。
続いて、因子特定部114は、因子得点算出結果情報560の出願番号561の各出願番号の特許文書データについて、当該出願番号に対応する対象因子の因子得点が第2閾値以上の対象因子を当該出願番号の特許文書データの帰属対象因子として特定し、当該対象因子を帰属先とする出願番号と当該対象因子とを対応付けた文書帰属対象因子情報をキーワード生成部116へ送出する(ステップS1730)。
図7へ戻り、ステップS1800において、キーワード生成部116は、因子特定部114から受け付けた技術要素帰属対象因子情報と文書帰属対象因子情報に基づき、技術要素対象語を用いて各対象因子を示す技術要素キーワードを生成し、製品群対象語を用いて各クラスタを示す製品群キーワードを生成する。
ここで、上記ステップS1800の詳細について図13を用いて説明する。
キーワード生成部116は、ステップS1500においてクラスタ特定部115から送出されたクラスタ情報と、ステップS1700において因子特定部114から送出された技術要素帰属対象因子情報及び文書帰属対象因子情報を受け付けると、因子負荷量算出結果情報550を読み出す(ステップS1810)。
キーワード生成部116は、技術要素帰属対象因子情報の各対象因子に帰属する技術要素対象語のうち、因子負荷量算出結果情報550において因子負荷量が第3閾値以上である技術要素対象語を結合して当該対象因子を示す技術要素キーワードを対象因子毎に生成する。また、キーワード生成部116は、出力制御部117へ技術要素キーワード情報580を送出して、当該技術要素キーワード情報580を記憶する(ステップS1820)。
キーワード生成部116は、ステップS1810において受け付けたクラスタ情報の各クラスタに帰属する特許文書データの出願番号の出願番号別文書ベクトル情報540の文書ベクトルを用いて、当該クラスタの重心ベクトルを求め、当該クラスタに帰属する各出願番号の文書ベクトルと重心ベクトルの余弦値を算出することにより当該クラスタと当該クラスタに帰属する特許文書データとの類似度を算出する(ステップS1830)。
キーワード生成部116は、ステップS1830で算出した各クラスタと当該クラスタに属する特許文書データとの類似度の降順で所定順位以上の文書ベクトルを有する特許文書データに対応する製品群対象語を結合して当該クラスタを示す製品群キーワードを生成する。また、キーワード生成部116は、出力制御部117へ製品群キーワード情報590を送出して、当該製品群キーワード情報590を記憶する(ステップS1840)。
図7に戻り、ステップS1900において、出力制御部117は、ステップS1800でキーワード生成部116が生成した各製品群キーワードと各技術要素キーワードとの関係情報を生成して出力する。
以下、上記ステップS1900の詳細について図14を用いて説明する。
図14のステップS1910において、出力制御部117は、ステップS1800においてキーワード生成部116から送出された製品群キーワード情報590と技術要素キーワード情報580とを受付け、ステップS1920において、出力制御部117は、メモリ上の出願番号別帰属情報570と分析対象の特許文書データを読み出す。
出力制御部117は、出願番号別帰属情報570における各クラスタに属する特許文書データの帰属対象因子毎の件数を計数し、計数した各クラスタの対象因子毎の件数をクラスタ別因子別件数情報610として記憶する(ステップS1930)。
続いて、出力制御部117は、ステップS1910で読み出した分析対象の特許文書データの評価値を読み出し、出願番号別帰属情報570における各クラスタに属する特許文書データの帰属対象因子毎の評価値合計を算出し、算出した各クラスタの対象因子毎の評価値合計をクラスタ別因子別評価値情報620として記憶する(ステップS1940)。
出力制御部117は、クラスタ別因子別件数情報610の各件数と当該件数に対応する対象因子を示す技術要素キーワードを技術要素キーワード情報580から読み出し、当該件数に対応するクラスタを示す製品群キーワードを製品群キーワード情報590から読み出し、各件数と各件数に対応する技術要素キーワードと製品群キーワードとを対応づけた第1関係情報(図15(a))を表示部4に表示させる(ステップS1950)。
続いて、出力制御部117は、クラスタ別因子別評価値情報620の各評価値と当該評価値に対応する対象因子を示す技術要素キーワードを技術要素キーワード情報580から読み出し、当該評価値に対応するクラスタを示す製品群キーワードを製品群キーワード情報590から読み出し、各評価値と各評価値に対応する技術要素キーワードと製品群キーワードとを対応づけた第2関係情報(図15(b))を表示部4に表示させる (ステップS1960)。
<クラスタ別因子別評価値の算出処理>
つぎに、上述したクラスタ別因子別評価値の算出処理について説明する。ここで算出するクラスタ別因子別評価値を「クラスタスコア」と称することにする。
図16は、本発明の実施形態のクラスタスコアの算出処理の手順を示すフローチャートである。このクラスタスコアの算出処理は、情報処理装置100の出力制御部117或いは図示しないクラスタスコア算出部により実行される。
なお、図16の処理を行う前に、各クラスタ及び因子に属する特許文献毎のパテントスコア(PS)が算出されているものとする。そして、情報処理装置100のメモリ(或いは記憶部2)には、特許文献を識別する情報(公報番号)毎に、その特許文献の「パテントスコア(PS)」と、その特許が権利放棄されているか否かを示す「放棄情報(拒絶が確定しているか否かの情報も含まれるものとする)」とを対応付けた情報(以下、「PS情報」という)が格納されているものとする。なお、パテントスコア(PS)の算出手順は、後述する図17〜図20で説明する。
具体的には、情報処理装置100は、入力部3を介して、ユーザからクラスタスコアの算出処理の要求を受け付ける(S2010)。なお、ユーザは、クラスタスコアの算出処理を要求する際、算出の対象となる区分も指定する。
算出の対象となる区分として、例えば、出願番号別帰属情報570における各クラスタに属する特許文書データの帰属対象因子毎の分類を指定する。
つぎに、情報処理装置100は、S2010で受け付けたクラスタスコアの算出対象となる区分(クラスタ及び因子)に属する特許文献のパテントスコア(PS)を取得する(S2020)。
具体的には、情報処理装置100は、メモリに記憶されている「クラスタ毎及び因子毎に特許文献を対応付けた情報(出願番号別帰属情報570)」、および「PS情報」を利用して、算出対象となるクラスタ及び因子に属する特許文献の「パテントスコア(PS)」および「放棄情報」を取得する。
つぎに、情報処理装置100は、取得した算出対象となるクラスタ及び因子に属する特許文献の「パテントスコア(PS)」および「放棄情報」を利用し、権利放棄されていないパテントスコア(PS)について、各々、その標準値を求める(S2030)。
具体的には、情報処理装置100は、「放棄情報」を参照し、指定されたクラスタ及び因子に属する特許文献のうち、権利放棄されていない特許文献(特許庁に係属中の出願も含める)のパテントスコア(PS)を特定する。
情報処理装置100は、特定した各パテントスコア(PS)について、母集団(例えば、クラスタ抽出処理の行われた分析対象文書群のうちの権利放棄されていない特許文献)における標準値を求める。より具体的には、情報処理装置100は、以下に示す(数1)と、上記の特定したパテントスコア(PS)とを用いて、特定したパテントスコア(PS)毎に標準値を求める。
以下に示す(数1)では、権利放棄されていない特許文献のパテントスコア(PS)が母集団内に「m」個あるものとし、パテントスコア(PS)に添え字iを付け、「PSi(1≦i≦m(mは1以上の整数))」で示している。
また、(式1)では、m個の特許文献のPSiのうち、特定のクラスタ及び因子に属する各特許文献jの「パテントスコアPSj」の標準値を求めている。
Figure 2009150758
つぎに、情報処理装置100は、S2030で求めた特定のクラスタ及び因子に属する特許文献の各パテントスコアPSjの標準値のうち、閾値以上のパテントスコアPSjの標準値の合計値を求め、その合計値を当該クラスタ及び因子の「クラスタスコア」とする(S2040)。また、情報処理装置100は、本ステップにおいて、S2030で求めた特定のクラスタ及び因子に属する特許文献の各パテントスコアPSjの標準値のうち、最大値を求める。
具体的には、情報処理装置100は、以下に示す(数2)と、S2030で求めたパテントスコア(PSj)の標準値とを用いて、ユーザから指定されたクラスタ及び因子に対する「クラスタスコア」を算出する。また、情報処理装置100は、S2030で求めた各パテントスコアPSjの標準値の中から最大(MAX)の標準値を選択し、選択した標準値を当該クラスタ及び因子における最大値とする。
なお、(数2)では、S2030で求めた各パテントスコアPSjの標準値のうち、閾値以上のパテントスコアPSjの標準値の数が当該クラスタ及び因子に「n」個あるものとしている。また、(数2)では閾値PSstdの例として、S2030で求めた各パテントスコアPSiの標準値の母集団での平均([数1]によれば0となる)を用いている。
Figure 2009150758
そして、情報処理装置100によりクラスタスコアが算出されると、図14のS1960(出力)の処理に移行する。
なお、図16のフローでは、1つのクラスタ及び因子に対するクラスタスコアを算出しているが、あくまでもこれは例示である。複数のクラスタ及び因子のクラスタスコアを算出する要求を受けた場合には、各クラスタ及び因子について、S2020〜S2040の処理を行い、クラスタ毎及び因子毎に、クラスタスコアおよび最大値を求める。
図14のS1960では、出力装置4により、S2040で求めたクラスタスコアを出力する。或いは、出力装置4により、クラスタスコアと共に、そのクラスタ及び因子での最大値を出力する。
このように、本実施形態では、権利放棄されていない特許文献のパテントスコア(PSi)を利用して、クラスタスコアを算出するようにしている。このようにしたのは以下の理由による。例えば、ある企業において、技術分野毎の特許の評価をしようとした場合、ある技術分野(クラスタ及び因子)に分類される特許文献の件数は非常に多いが、その多くが放棄されている出願(或いは拒絶査定の確定している出願)であったとする。このような場合、その技術分野の特許の評価に、すでに放棄されている出願(或いは拒絶が確定している出願)を含めてしまうと、特許権を多く保持していない技術分野が高く評価されてしまい、適切な分析ができない。
そこで、本実施形態では、権利放棄されていない特許文献のパテントスコア(PSi)を利用してクラスタスコアを算出するようにして、スコアの精度を高めるようにしている。
また、本実施形態では、パテントスコア(PSi)の標準値を算出する際に、単なる標準値ではなく、一般的な標準値に係数を乗算するようにしている((数1)では10倍している)。これは、求めた標準値間の差異を判別し易くするためである。なお、(数1)では10倍しているがあくまでも例示である。
また、本実施形態では、クラスタスコアの算出に閾値を超えるパテントスコアPSiの標準値だけを利用するようにしている。これは、クラスタスコアの値が受ける特許文献の件数の影響を緩和するためである。
例えば、クラスタ毎及び因子毎に、クラスタスコアを求め、その求めたクラスタスコアを比較してクラスタ毎及び因子毎の技術傾向を分析しようとしたとする。この場合に本実施形態のように閾値を考慮しないとすれば、出願件数が多いクラスタ及び因子のクラスタスコアの値が高くなり過ぎる傾向にあり、精度の高い分析ができなくなるおそれがある。
確かに、特定技術分野の特許を過不足なく抽出して分析対象文書群(母集団)としたような場合には、各クラスタ及び因子の出願件数の多寡そのものも十分に有意な数値と考えることができる。しかし、そうではない任意の方法で分析対象文書群(母集団)を抽出したような場合には、各クラスタ及び因子の出願件数の多寡にとらわれてしまうと、精度の高い分析ができなくなる可能性がある。
また、膨大な数の特許を含む分析対象文書群(母集団)から重要な要素を選出することを主眼とした場合には、「個々の重要度の低い多数の特許」より「個々の重要度の高い特許」が含まれている方を重視した方が好ましい場合もある。
そのため、本実施形態では、パテントスコアPSiの標準値のうち、所定値以上のものだけを利用するようにして、当該所定値以上の重要特許を含むクラスタ及び因子にのみ高いクラスタスコアが付与されるようにしてクラスタスコアの精度を高めるようにした。
特に、例えば平均が0となるようにパテントスコアを標準化し、平均(0)以上の標準値を集計してクラスタスコアとする場合には、平均以下のパテントスコアの値を捨象できるだけでなく、平均付近のパテントスコアが多数あってもクラスタスコアの値に与える影響が小さく、平均から飛び抜けて高いものがあればクラスタスコアの値に大きな影響を与える。従って、技術要素に含まれる件数の影響を更に緩和し、重要度の高い特許が含まれている技術要素を的確に抽出することができる。
本実施形態においては、クラスタスコアを算出するにあたりパテントスコアが平均以下の公報を除外して合計しているため、平均以下の公報が多くを占めるクラスタ及び因子、若しくはすべての公報が平均以下であるクラスタ及び因子については、クラスタスコアは0に近い値となるか、若しくは0となる。従って、クラスタ及び因子間のコントラストが明瞭になり、その結果、クラスタ及び因子間の序列や評価が視覚的に把握し易くなる。
なお、本実施形態では、閾値に母集団での平均を利用するようにしているが、特にこれに限定するものではない。例えば、情報処理装置100に、特定出願人の特許群でのパテントスコアPSiの標準値の平均や、その他のユーザが定めた閾値を設定するようにしてもよい。
また、本実施形態では、パテントスコアPSiの標準値を利用するようにしているが、特にこれに限定するものではない。例えば、標準化していないパテントスコアPSiのうち所定値以上のものだけを加算した場合であっても、件数の影響を緩和することができる。
また、本実施形態によれば、ユーザにクラスタスコアを提示する際、そのクラスタ及び因子に分類される特許文献のパテントスコア(PSj)の標準値の最高値も提示することができるようになる。これにより、ユーザは、高評価の特許がどの技術要素(クラスタ及び因子)に含まれるのかを把握できるようになる。また、それに伴いユーザは、技術要素(クラスタ及び因子)全体としての評価値は低くても、高評価の特許が含まれる技術要素(クラスタ及び因子)を把握することができる。
例えば、ある企業において、技術分野毎の特許の評価をしようとして、その企業(出願人)のクラスタ毎及び因子毎のクラスタスコアを求めたとする。この場合、各クラスタ及び因子での最高値を提示することにより、自社のどの技術分野に、強い特許があるのかを把握できるようになる。
<パテントスコア(PS)について>
つぎに、図17〜図20を用いて、上記実施形態におけるクラスタスコアの算出に利用したパテントスコア(PS)について説明する。
なお、パテントスコア(PS)の算出処理は、情報処理装置100の出力制御部117或いは図示しないパテントスコア算出部により行うようにしているが、特にこれに限定するものではない。
CPU(Central Processing Unit)、メモリ等を備える、別のコンピュータがパテントスコアの算出処理を行うようにしてもかまわない。この場合、別のコンピュータに、パテントスコア算出機能を実現するプログラム(PS算出プログラム)を記憶させておく。そして、別のコンピュータのCPUが「PS算出プログラム」を実行することにより、パテントスコアPSを算出し、上述したPS情報を生成する。情報処理装置100は、別のコンピュータが生成したPS情報を取得してメモリに記憶させておく。
(データ構成)
先ず、パテントスコアPSの算出に利用するデータ構成について説明する。
なお、記憶部2には、特許データ(特許公報を示す電子データ)と、特許属性情報とが格納されている。特許公報を示す電子データには、少なくとも、その特許データID(公報番号等)、出願日、IPCコード等の書誌情報が含まれるものとする。
また、特許属性情報には、その特許文献の経過情報300(優先権主張の有無や、他の特許出願の審査での被引用回数などの情報)、および内容情報400(請求項の数や、明細書の枚数等の情報)が含まれる。以下、経過情報300、および内容情報400のデータ構成を説明する。
先ず、経過情報300のデータ構成の一例を図17に示す。
図17は、本実施形態で利用する経過情報のデータ構成の一例を模擬的に示した図である。
図示するように、経過情報300は、「特許データID(公報番号等)」を登録するためのフィールド301と、「出願日からの経過日数」を登録するためのフィールド302と、「審査請求日からの経過日数」を登録するためのフィールド303と、「登録日からの経過日数」を登録するためのフィールド304と、「分割出願」の有無を示す情報を登録するためのフィールド305と、「早期審査」の有無を示す情報を登録するためのフィールド306と、「不服審判特許審決」の有無を示す情報を登録するためのフィールド307と、「異議申立維持決定」の有無を示す情報を登録するためのフィールド308と、「無効審判維持審決」の有無を示す情報を登録するためのフィールド309と、「優先権主張」の有無を示す情報を登録するためのフィールド310と、「PCT出願」の有無を示す情報を登録するためのフィールド311と、「包袋閲覧」の有無を示す情報を登録するためのフィールド312と、「被引用回数」を示す情報を登録するためのフィールド313とを備えて、1つのレコードが構成される。なお、経過情報300は、複数のレコードよりなる。
ここで、「出願からの経過日数」、「審査請求からの経過日数」、および「登録日からの経過日数」は、該当する特許データの期間に関する情報である。「出願からの経過日数」は出願日、「審査請求からの経過日数」は出願審査請求日、「登録日からの経過日数」は特許権設定登録日に基づき、それぞれ評価日(パテントスコアの算出日)まで又は評価日に近い所定日付までの経過日数を算出したものが記憶部2に格納される。未だ出願審査請求されていない特許出願についての「審査請求からの経過日数」はNULLとなり、未だ設定登録されていない特許出願についての「登録日からの経過日数」はNULLとなる。
経過情報300のうち、「分割出願」、「早期審査」、「不服審判特許審決」、「異議申立維持決定」、「無効審判維持審決」、「包袋閲覧」、「優先権」は、特許データに対する所定行為の有無を示す情報である。「分割出願」は当該特許出願をもとの出願として分割出願がなされているか否か、「早期審査」は当該特許出願の早期審査がなされているか否か、「不服審判特許審決」は当該特許出願について拒絶査定不服審判が請求され、且つ当該審判において特許審決がなされているか否か、「異議申立維持決定」は当該特許について特許異議申立がなされ、且つ維持決定がなされているか否か、「無効審判維持審決」は当該特許について特許無効審判が請求され、且つ当該審判において請求棄却審決がなされているか否か、「優先権」は当該特許出願が先の特許出願等に基づく優先権主張を伴っているか否か、或いは当該特許出願が特許協力条約に基づく国際出願を国内に移行したものであるか否か、「包袋閲覧」は当該特許出願について閲覧請求がなされているか否かに基づき、それぞれ所定行為がなされている場合は例えば1が与えられ、なされていない場合は例えば0が与えられる。
つぎに、内容情報400のデータ構成を図18に示す。
図18は、本実施形態で利用する内容情報のデータ構成の一例を模擬的に示した図である。
図示するように、内容情報400は、「特許データID(公報番号等)」を登録するためのフィールド401と、その特許データの「請求項数」を登録するためのフィールド402と、「請求項の平均文字数」を登録するためのフィールド403と、その特許データの「明細書枚数」を登録するためのフィールド404とを備えて1つのレコードが構成される。なお、内容情報400は、複数のレコードよりなる。
ここで、「請求項数」は、当該特許出願の請求項数を示す情報であり、「請求項の平均文字数」は、当該特許出願の請求項1項あたりの平均文字数(又は単語数)を示す情報である。「明細書頁数」は、当該特許出願の明細書頁数又は公報頁数を示す情報である。これらの情報は各特許出願の公開特許公報その他の特許データより抽出される。
(パテントスコア算出処理)
続いて、図19を用いて説明する。図19は、本実施形態のパテントスコアの算出処理の手順を示したフローチャートである。
図19に示すように、情報処理装置100は、ユーザからのIPCコードの入力を受け付け、特許データ(特許公報を示す電子データ)を取得する(S400)。
具体的には、情報処理装置100は、ユーザからのIPCコードの入力を受け付けると、記憶部2にアクセスし、そのIPCコードに分類される特許データを取得する。なお、特許データには、その特許出願の出願日の情報や優先日の情報(優先権を主張している場合に限る)等の書誌情報が含まれている
つぎに、情報処理装置100は、取得した特許データの書誌情報のうち出願日の情報又は優先日の情報等を用いて、特許データを所定期間ごと(本実施形態では出願年ごと、優先日が属する年ごと等)のグループtに分類する(S500)。
つぎに、情報処理装置100は、各特許データの評価値を算出する(S600)。この処理の詳細を、図20に基づいて説明する。
図20は、本実施形態の各特許データの評価値を算出する処理の詳細を示すフローチャートである。
情報処理装置100は、S210の分類によって生成されたグループに属する特許データについて、経過情報300および内容情報400を取得する(S610)。具体的には、情報処理装置100は、取得した特許データの書誌情報に含まれる特許ID(公報番号等)を利用して、記憶部2に格納されている経過情報300および内容情報400の中から、取得した特許データの特許IDに関連付けられている経過情報300および内容情報400を取得する。
ここで、図20では、当該取得した1つのグループがJ件の特許データからなるものとし、J件のそれぞれを区別するため添え字j(j=1,2,・・・,J)を用いる。
J件の特許データを取得したら、これらJ件の特許データの経過情報300および内容情報400を用いて、後述のS6302〜S6304で用いる「評価項目の該当有無データのJ件分の合計値」等を予め求めておく。
次に、変数jを1にセットし(S620)、次のようにして特許データjの評価素点を算出する。
まず、経過情報300の各フィールドに登録されている情報を評価項目とし、I個の評価項目i(i=1,2,・・・,I)について、評価項目ごとに予め設定された評価点算出方法を選択する(S6301)。
本実施形態における評価点算出方法には次の3通りがある。すなわち、フィールド305、306、307、308、309、310、311、312に登録されている情報については、当該特許データに対する所定行為の有無を示す情報としてS6302〔有無型〕を選択する。また、フィールド302、303、304については、当該特許データの期間に関する情報としてS6303〔時間減衰型〕を選択する。また、フィールド313については、当該特許データの引用回数を示す情報としてS6304〔回数型〕を選択する。
評価点算出方法を選択したら、I個の評価項目iの各々について、特許データjの評価点を算出する(S6302、S6303、S6304)。
(有無型における評価点の算出)
S6302〔有無型〕が選択された評価項目iについては、次の[数3]により評価点を算出する。
Figure 2009150758
ここで分子に配置された「評価項目iの該当有無データ」は、例えば「分割出願」については、上述のように分割出願がなされていれば1、なされていなければ0となる。
分母には、上記「評価項目iの該当有無データ」の当該グループ内合計値の正の平方根が配置されている。従って、当該グループ内に評価項目該当の特許データが多数存在する場合は分母が大きく、当該グループ内に評価項目該当の特許データが少数しか存在しない場合は分母が小さくなる。該当件数の多い評価項目(「包袋閲覧」等)を有する特許よりも、該当件数の少ない評価項目(「無効審判維持審決」等)を有する特許の方が、特許権設定登録後の維持率が高い傾向がある(一般に、維持率の高さは、維持費(特許料)に見合う経済的価値の高さを示すと考えられる)ので、各評価項目の重み付けが自動的になされる。また、所定期間ごとのグループ単位で集計しているので、例えば古い特許ほど多くの経過情報が付加され、公開されて間もない新しい特許には未だ経過情報が付加されていないことが多いが、それだけの理由で新しい特許に低い評価が与えられるという傾向を緩和することができる。
特許データの属性情報は、分析対象母集団内での相対評価に有用であるが、この分析対象母集団内の特許出願又は特許権を平等に扱ってしまうと適切な評価はできない。本実施形態によれば、分析対象母集団を時期ごとのグループに分類し、この分類されたグループごとに求めた値を分母として用いることで、異なる時期の特許出願又は特許権を含む分析対象母集団内において、適切な相対評価が可能となる。
また、例えばある技術分野において、特許出願が少ない同時期グループにおける1件の価値と、特許出願が多くなった同時期グループにおける1件の価値とでは、前者の価値の方が高いことが多い。一方で例えば、出願公開されて間もない特許出願より、数年経過した特許出願の方が、閲覧請求を受けた等の経過情報が付与される可能性は必然的に高いが、だからといって出願公開されて間もない特許出願をそのまま低く評価するのは誤りである。同時期グループ内の特許出願の中で、例えば閲覧請求を受けたものが数少ない場合、その閲覧請求を受けた特許出願は格別注目度の高い特許出願であり、高く評価されるべきである。逆に、同時期グループ内の特許出願の中で、閲覧請求を受けたものが数多い場合、その閲覧請求を受けた特許出願は、閲覧請求を受けたというだけの理由で高く評価されるべきものではない。
本実施形態によれば、各グループに属する各特許データの特許属性情報を利用して求めた値と、該グループに属する各特許データの特許属性情報を利用して求めた値を該グループ毎に合計した値の減少関数の値と、の積により評価点を算出する。この構成によれば、それぞれのグループにおける各特許データの相対的な位置づけを考慮した値を評価値として求めることができる。その結果、経過情報に基づく数値情報の前記同時期グループにおける合計値が低いほど高い重み付けをし、逆に当該合計値が高いほど低い重み付けをすることにより、分析対象文書群における特許出願又は特許権の適切な評価が可能となる。
(時間減衰型における評価点の算出)
S6303〔時間減衰型〕が選択された評価項目iについては、次の[数4]により評価点を算出する。
Figure 2009150758
ここで分子に配置された「Exp(−(Min(経過時間,年限))/年限)」は、「審査請求からの経過日数」については、当該「審査請求からの経過日数(年数換算値)」と「年限」のうち何れか小さい方の値を「年限」で除算し−1を乗算した値で、ネイピア数eをべき乗した値である。「年限」は出願日から特許権存続期間満了までの最大年数(日本の現行法では20年)とする。「登録日からの経過日数」の場合も同じ計算式を用い、「年限」は出願日から特許権存続期間満了までの最大年数(日本の現行法では20年)とする。「出願日からの経過日数」の場合も同じ計算式を用いるが、「年限」は出願日から出願審査請求期限までの年数(日本の現行法では3年)とする。これによると、経過時間が短いうちは分子の値はExp(0)=1に近い値であるが、時間の経過とともに減衰して経過時間≧年限となるとExp(−1)=1/eにまで低下する。指数関数にする利点は、価値に対する減価償却効果を導入できることと、評価値分布の離散化をなくし滑らかな分布にできることである。「審査請求からの経過日数」、「出願日からの経過日数」、「登録日からの経過日数」は、多くの特許に該当する基本評価項目であり、これら3評価項目しか該当しない特許群の同点化を避けることができる。
分母は上記S6302〔有無型〕と同様の式が配置されているが、「審査請求からの経過日数」については、当該特許出願につき出願審査請求されていれば例えば1、されていなければ例えば0の値を当該グループ内で合計し正の平方根をとったものである。「登録日からの経過日数」についても、当該特許出願につき特許権設定登録されていれば1、されていなければ0の値を当該グループ内で合計し正の平方根をとったものが分母となる。「出願からの経過日数」については、すべての特許データが該当するので、当該評価項目の該当有無データを1とすれば、分母の値はグループ内の特許データの件数の正の平方根に等しくなる。何れの場合も、当該グループ内に評価項目該当の特許データが多数存在する場合は分母が大きく、当該グループ内に評価項目該当の特許データが少数しか存在しない場合は分母が小さくなる。上述のように「審査請求からの経過日数」、「出願日からの経過日数」、「登録日からの経過日数」は、多くの特許に該当する基本評価項目であるので、これら評価項目の配点は小さくなりやすい。
このS6303〔時間減衰型〕で算出された評価点は、更に内容情報による補正を行う。
なお、以下では、図18に示した内容情報400を利用する。
経過情報のみにより評価する場合、出願公開後又は特許権設定登録後間もない特許出願又は特許権には、今後付与されると期待される経過情報がなく評価が正しく行えない可能性がある。従ってこれを補正するため、経過情報による評価に内容情報を加味する。しかし、内容情報は、経過情報ほど維持率との相関が高くない傾向にあり、不用意に内容情報を加味すると却って評価の精度が落ちる可能性がある。
そこで、経過情報が十分に付与された特許の評価には内容情報の影響を小さくとどめ、経過情報が不十分な特許の評価に内容情報を効果的に反映させるため、このS223C〔時間減衰型〕で算出された評価点にのみ、内容情報に基づく補正係数を乗算する。
このように本実施形態によれば、出願の古い新しいを問わず、どの特許データにも一律に付与されやすい特性を有する期間に関する情報に、各々の特許データの内容情報を加味することができる。その結果、経過情報があまり付与されていない新しい出願からなる特許データについても、適切な評価を行うことができる。
具体的には、上記[数4]の各評価点に、
×a×a
ここで、
=21/3(請求項当たりの平均文字数が平均以下の場合)又は
-1/3(請求項当たりの平均文字数が平均以上の場合)
=21/3(全頁数が平均以上の場合)又は
-1/3(全頁数が平均以下の場合)
=21/3(請求項数が平均値±1標準偏差以内の場合)又は
-1/3(請求項数が上記範囲外の場合)
を乗算する。a、a、aの最大値をそれぞれ21/3とすることにより、a×a×aを最大値とする補正にとどめている。なお、上記実施形態では、a×a×aの値が最大で2になるようにしている。
(回数型における評価点の算出)
S6304〔回数型〕が選択された評価項目iについては、次の[数5]により評価点を算出する。
Figure 2009150758
ここで分子に配置された「f(引用)×log(n+1)」は、「被引用回数」については、当該「被引用回数n」に1を加えた値の対数に重みf(引用)を乗算したものである。本発明者らの検証により、被引用の有無にとどまらずその回数によっても特許権の維持率が変化することがわかっているが、両者に比例関係はなく、被引用回数の増加による維持率の増加は次第に頭打ちの傾向を示すため、対数をとることとしたものである。
分母には、上記「f(引用)×log(n+1)」の当該グループ内合計値の正の平方根が配置されている。従って、当該グループ内に他の出願で引用された特許データが多数存在する場合は分母が大きく、当該グループ内に他の出願で引用された特許データが少数しか存在しない場合は分母が小さくなる。
上記[数5]の分子及び分母において、重みf(引用)は任意の正数を用いることができるが、他社の特許出願で引用された回数(他社引用回数)njotherと自社の他の特許出願で引用された回数(自社引用回数)njselfとで区別し、それぞれの対数に異なる重みを付与する。この場合、上記[数5]に代え、次の[数6]を用いる。
Figure 2009150758
具体的な重みとしては、他社引用の場合のf(引用other)と、自社引用の場合のf(引用self)との比を、1:2とした。
被引用回数は、特許の価値との間に高い相関がある。更に、本発明者らの検証によれば、他社の特許出願の審査において引用(他社引用)された回数と、自社の他の特許出願の審査において引用(自社引用)された回数とでは、後者と特許の価値との相関が有意に高いことが認められた。自社の他の特許出願の審査において引用された発明は、自社の実施技術において中核となる基本発明であることが多いことによるものと推測される。そして、そのような基本発明を自社が既に出願していることを認識しつつ、その改良技術をも出願し強固な特許ポートフォリオの構築を図った可能性が高い。
本実施形態によれば、被引用回数を他社引用と自社引用とに分けて考え、後者の回数をより大きく評価値に反映させることにより、特許出願又は特許権の適切な評価が可能となる。
(評価素点の算出)
全ての評価項目i(i=1,2,・・・,I)について、特許データjの評価点が算出されたら、これに基づいて当該特許データjの評価素点を、次の[数7]により算出する(S640)。
Figure 2009150758
この式に示されるように、評価素点は、I個の評価点の二乗和の正の平方根、又は0となる。評価素点が0となるのは、審査請求期限までに出願審査請求しなかった場合、出願を取下げ又は放棄した場合、拒絶査定が確定した場合、その他特許出願が失効した場合と、異議申立による取消決定や無効審判による無効審決が確定した場合、特許権を放棄した場合、特許権の存続期間が満了した場合、その他の特許権が消滅した場合である。これらの情報も各特許データの経過情報から読み取り、該当する場合は評価素点を0とする。
上述のようにS6303〔時間減衰型〕で算出された評価点に対しては、内容情報による補正を行う。具体的には、「審査請求からの経過日数」、「出願日からの経過日数」、「登録日からの経過日数」に基づき上述の[数4]で算出された評価点にそれぞれ上述のa×a×aを乗算した上で、[数7]に従い二乗和の平方根をとる。
複数の評価項目による評価点iから評価素点を算出する方法として、各評価点iの総和を求める方法がある(単純和法)。しかしこの算出方法によると、特許の維持率(経済的価値)との相関を有する経過情報が多数付与された特許の評価が高く算出されるので、評価点iの総和を評価素点とすることは一見合理的であるが、維持率との相関があまり高くない経過情報を多数付与されている特許の(低い評価点が多数加算される)評価素点が、維持率との相関が極めて高い経過情報を少数付与されている特許の評価素点を超えてしまうことがあり得るので注意が必要である。
この問題を解決する1つの方法として、各評価点iのうち最大値を評価素点とする方法もある(最大値法)。しかしこの算出方法によると、特に、ある経過情報と特許群の維持率との相関を調べる場合に、他にどんな経過情報が付与されているか無関係に相関を調べた場合には、ある特許の維持率は、最高の維持率を持つ経過情報の維持率で最もよく表現できると期待されるので、評価点iの最大値を評価素点とすることは一見合理的であるが、評価点iの最大値が2つの特許で同じである場合に優劣がつけられない。さらに、最大値法を用いた場合は、出願人、特許庁及び競合他社の異なる3主体の観点を加味した評価を行うことができず、それらの主体のうちのいずれか一者の観点のみが反映されることとなってしまい、残りの主体の観点を特許データの評価に反映させることができない。
二乗和の平方根をとる上述の方法は、単純和法と最大値法の長所を兼ね備えた方法ということができる。すなわち、二乗和の平方根をとることにより、ある特許データjに関するI個の評価項目iの中に高い評価点iがあるときは、その高い評価点iが評価素点に大きく影響する。そして、評価点iの高い評価項目以外の評価点についても、幾らか考慮された評価素点となる。従って、評価点iの高くなりやすい「早期審査」、「異議申立維持決定」、「無効審判維持審決」等に複数該当するような特許データjに対しては、突出して高い評価素点を与えることができる。
このように本実施形態では、特許属性情報の種類に応じて算出した評価点を全て加味した特許評価を行うようにしている(S630、S640)。その結果、特許データの価値を多面的に評価することが可能となる。
(評価値の算出)
評価素点が算出されたら、その対数を算出して当該特許データjの評価値とする(S650)。
経過情報又は内容情報に基づいて算出される評価値は、特異な経過又は内容が読み取れる数少ない特許出願又は特許権に対しては高い値が与えられるが、その他大勢の特許出願又は特許権に対しては低い値が与えられることが多い。従って評価値別の件数分布を見ると、評価値が高い特許出願又は特許権は数少なくまばらな分布となり、評価値が低い特許出願又は特許権は数多く密集した分布となる。
このような場合には、評価値の高い少数の特許出願又は特許権によって平均値(相加平均値)が大きく左右されるので、このような平均値との比較によって評価する際は注意が必要となる。また例えば高い評価値が得られた2つの特許出願又は特許権を比較する場合に、数値の上では評価値に大きな差があるように見えたとしても、実際には有意な差ではないこともある。
次に、すべての特許データjについて評価値を算出したか否かを判定し(S660)、算出していない場合(S660:NО)、S670に進み、変数jをj+1にセットし、S630に戻って次の特許データについて評価値を算出する。
すべての特許データjについて評価値を算出した場合は(S660:YES)、当該グループに属する特許データに関する評価値の算出処理を終了する。
このように本実施形態では、特性の異なる複数の特許データを、技術分野ごと、出願時期ごとの特性を加味した上で評価するようにしている。その結果、特許データの価値をより適切に評価することができる。
S610〜S670までの評価値算出処理は、S400で取得した特許データをS500で分類して得られたすべてのグループtについて実行する。
すべてのグループtについて評価値を算出したら図19に戻り、この評価値に基づいて、S400で取得した分析対象母集団における偏差値をパテントスコアPSとして算出する(S700)。この偏差値は、本来ならば比較することが困難な、異なる技術分野間の特許データの相対比較(S400で異なるIPCにより別途選択される分析対象母集団との比較)をも可能とするものである。
そして、本実施形態では、上記の手順により求めたパテントスコアPSを基にして、クラスタスコアを算出するようにしているため、上記実施形態に比べて、以下のような利点がある。
具体的には、上記実施形態では、クラスタスコアの基となるパテントスコアPSは、経過情報の種類に応じた重みを考慮している。そして、そのパテントスコアPSを用いて、クラスタスコアを求めるようにしているため、本実施形態では、より精度が高いスコアが算出される。
本実施形態のパテントスコアによれば、分析対象母集団を時期ごとのグループに分類し、この分類されたグループごとに求めた値を分母として用いることで、異なる時期の特許出願又は特許権を含む分析対象母集団内において、適切な相対評価が可能としている。
そのため、出願が古い特許データが多く分類されているクラスタ及び因子のクラスタスコアに、高い評価値が算出されてしまう可能性を低減できる。
<考察>
上述したように、本実施の形態に係る情報処理装置は、技術要素キーワードと製品群キーワードとを対応づけた第1関係情報又は第2関係情報を出力することができるので、ユーザは、企業における研究開発技術とその技術を用いた製品等との関係を把握することができる。具体的には、相互に独立した製品群に共通した技術要素が用いられているか否かを確認することができるので重複した研究開発を未然に防止することができる。また、例えば、多くの製品に化体される技術要素と製品化されないまま保持されている技術要素とが偏在する状態等、各技術要素の製品への利用状況を確認することができるので、企業の技術資産を有効に活用して研究開発等の効率化を図ることができる。
[実施の形態2]
<概要>
本実施の形態は、製品群対象語による分析対象特許文書群の分類と、製品群対象語を用いた製品群キーワードの生成について、上述の実施の形態1に代わる新たな手段を提供するものである。具体的には、本実施の形態2は、製品群対象語の部分一致を高く評価した類似度により製品群対象語をグループ化し、同一グループ内で単語数の最も少ない製品群対象語を製品群キーワードとする。
以下、本実施の形態における情報処理装置の詳細について説明する。
<構成>
本実施の形態に係る情報処理装置の機能構成を説明する。
図21は、本実施の形態に係る情報処理装置の機能構成図を示している。
以下、同図に従って情報処理装置100の各部について説明するが、上述した実施の形態1と同じ符号を付した構成については実施の形態1と同様であるため説明を省略する。
情報処理装置100は、記憶部2、入力部3、表示部4及び制御部120を含んで構成されており、制御部120は、入力受付部101、データ取得部102、形態素解析部111、特徴語抽出部112、因子分析部113、因子特定部114、文書頻度算出部121、単語数カウント部122、ソート部123、ベクトル生成部124、グループ判定部125、キーワード生成部116、及び出力制御部117を含む。
制御部120は、CPUとROMやRAM等のメモリで実現され、ROMに格納されたプログラムをCPUが読み出して実行することにより情報処理装置100の各部を制御する機能を有する。
以下、制御部120のうち上述した実施の形態1と異なる構成について説明する。
文書頻度算出部121は、特徴語抽出部112から製品群対象語情報を取得する機能と、製品群対象語として分析対象特許文書群から生成された各文字列d(i)について、製品群対象語として分析対象特許文書群から生成された全文字列d(i)でのDF値を求める機能を有する。文書頻度算出部121は、求めたDF値をソート部123へ送出する。
単語数カウント部122は、特徴語抽出部112から製品群対象語情報を取得する機能と、製品群対象語として分析対象特許文書群から生成された各文字列d(i)について、形態素数(単語数)J(i)をカウントする機能を有する。単語数カウント部122は、求めた形態素数J(i)をソート部123へ送出する。
ソート部123は、文書頻度算出部121から各文字列d(i)のDF値を受け付ける機能と、単語数カウント部122から各文字列d(i)の形態素数J(i)を受け付ける機能を有する。また、形態素数J(i)の昇順を第1基準とし、DF値の降順を第2基準として、文字列d(i)をソートする機能を有する。ソート部123は、文字列d(i)のソート結果をグループ判定部125へ送出する。
ベクトル生成部124は、特徴語抽出部112から製品群対象語情報を取得する機能と、製品群対象語情報の各文字列d(i)を示すベクトルD(i)を生成する機能を有する。ベクトル生成部124は、生成したベクトルD(i)をグループ判定部125へ送出する。
グループ判定部125は、ソート部123から文字列d(i)のソート結果を受け付ける機能と、ベクトル生成部124から各文字列d(i)を示すベクトルD(i)を受け付ける機能を有する。また、ソート結果の上位文字列d(i)から順に、下位の各文字列d(i)とのベクトルD(i)の類似度を算出するとともに、この類似度に基づき上位文字列d(i)と同グループに下位の文字列d(i)を所属させるか否かの判定を行う機能を有する。グループ判定部125は、グループ判定結果をキーワード生成部116へ送出する。
キーワード生成部116は、技術要素対象語の因子分析結果に基づく技術要素キーワードの生成については上述した実施の形態1と同様であるが、製品群対象語に基づく製品群キーワードの生成については、実施の形態1と異なり、グループ判定部125から受け付けたグループ判定結果に従い、各グループの上位文字列d(i)を製品群キーワードとする。
<動作>
以下、本実施の形態に係る情報処理装置100の動作について説明する。
図22は、実施の形態2に係る情報処理装置100の全体動作を示す動作フローを示している。ステップS1100〜S1400の処理は、上述した実施の形態1と同様であるので説明を省略する。なお、以下の説明で使用する製品群対象語の例について、図27を用いて説明する。
図27は、実施の形態2において生成する製品群対象語のデータ例を示している。製品群対象語は、分析対象特許文書群に属する各特許文書データi(i=1,2,…,I。ここでIは特許文書数。)について、文字列d(i)として抽出される。この抽出処理は、特徴語抽出部112によりステップS1400にて実行される。文字列d(i)の括弧内のiは、個々の特許文書データiに対応して文字列d(i)が抽出されることを示している。図に示されるように、異なる特許文書データi(例えばi=1とi=3の特許文書データ)から同一の文字列d(i)(例えば「プログラム」)が抽出されることもある。なお図27には示していないが、文字列d(i)は形態素解析部111によりステップS1300にて形態素解析処理が終了しており、制御部120はその形態素解析結果を適宜参照できるものとする。
図22において、S1400の製品群対象語の生成が終了すると、情報処理装置100の制御部120は、製品群対象語をグループ化する処理を行う(ステップS2500)。製品群対象語をグループ化する処理について、図23により説明する。
図23は、製品群対象語のグループ化処理フローを示している。
ステップS2510において、文書頻度算出部121は、特徴語抽出部112から製品群対象語情報を取得する。そして、製品群対象語として分析対象特許文書群から生成された各文字列d(i)について、製品群対象語として分析対象特許文書群から生成された全文字列d(i)でのDF(i)を算出する。ここでのDF(i)は、各文字列d(i)と完全一致する文字列d(i)を分析対象特許文書群の全文字列d(i)から抽出した場合の抽出数である。ある特許文書データiに対応する文字列d(i)と完全一致する他の文字列d(i)が存在しない場合、当該特許文書データi自身の文字列d(i)が抽出されるだけであるので、DF(i)=1となる。
ステップS2520において、単語数カウント部122は、特徴語抽出部112から製品群対象語情報を取得する。そして、製品群対象語として分析対象特許文書群から生成された各文字列d(i)について、形態素w(i,j)の数(単語数)J(i)をカウントする。形態素w(i,j)の括弧内のiは、文字列d(i)から抽出された形態素であることを示しており、括弧内のjは、個々の形態素を識別する自然数である。
図28に、文書頻度DF(i)及び形態素数J(i)のデータ例を示している。この図は、例えば「プログラム」という文字列に完全一致する製品群対象語が、8件の特許文書データiに存在することを示している。「ゲーム装置」に完全一致する製品群対象語は、67件の特許文書データiに存在する。
またこの図は、例えば「プログラム」という文字列は「プログラム」という1つの形態素からなり、「ゲーム装置」という文字列は「ゲーム/装置」という2つの形態素からなることを示している。
ステップS2530において、ソート部123は、単語数カウント部122から各文字列d(i)の形態素数J(i)を受け付け、形態素数J(i)の昇順により文字列d(i)をソートする。ここでソート部123は、文書頻度算出部121から各文字列d(i)のDF(i)も受け付け、DF(i)の降順をもう1つの基準として、文字列d(i)をソートすることが望ましい。更に、形態素数J(i)の昇順を第1基準とし、DF(i)の降順を第1基準より適用優先度の低い第2基準として、文字列d(i)をソートすることが望ましい。
図28には、形態素数J(i)の昇順を第1基準とし、DF(i)の降順を第1基準より適用優先度の低い第2基準として、文字列d(i)がソートされた結果を示している。
ステップS2540において、ソート部123は、ソートされた文字列d(i)(但し、重複文字列を除く)の上位から、文字列IDとして自然数kを付与する。ここで、形態素数J(i)の最も多い最下位の文字列d(i)に付与される文字列IDの末尾をKとする(k=1,2,…,K)。Kは文字列d(i)の種類数となる。なお、「重複文字列」とは完全一致する文字列d(i)を言うものとする。
図29の左端欄に、各文字列d(i)(但し、重複文字列を除く)に文字列ID=kを付与した状態を示している。図29の右側の欄については後述する。
ステップS2550において、ベクトル生成部124は、製品群対象語情報の各文字列d(i)を示すベクトルD(i)を生成する。ベクトルD(i)を生成する処理について、図24により説明する。
図24は、ベクトル生成の詳細フローを示している。
ステップS2551において、ベクトル生成部124は、特徴語抽出部112から製品群対象語情報を取得する。そして、文字列ID=kを付与された各文字列d(i)につき、当該文字列d(i)の中での各形態素w(i,j)の索引語頻度TF(i,j)を算出する。通常、製品群対象語は簡潔に表現されており、同じ形態素が1つの文字列d(i)の中で複数回出現することはほとんどない。従ってTF(i,j)=1となることが多い。
ステップS2552において、ベクトル生成部124は、文字列ID=kを付与された各文字列d(i)につき、各形態素w(i,j)のDF(i,j)を算出する。このDF(i,j)は、製品群対象語として分析対象特許文書群から生成され形態素解析された全文字列d(i)でのDF値である。形態素解析された文字列d(i)でのDF値であるため、製品群対象語としての文字列単位で完全一致していなくても、単語単位で一致していればDF値にカウントされる。
ステップS2553において、ベクトル生成部124は、文字列ID=kを付与された各文字列d(i)につき、各形態素w(i,j)のTF(i,j)にIDF(i,j)を乗算したTFIDF(i,j)を算出する。ここでIDF(i,j)としては、例えば、DF(i,j)の逆数、DF(i,j)の逆数の対数又はDF(i,j)で文書数Iを除算した値の対数を用いる。
TF(i,j)は当該文字列d(i)の中での各形態素w(i,j)の出現回数であるので、当該文字列d(i)の中での各形態素w(i,j)の強調度合いを示している。一方DF(i,j)は全文字列d(i)での各形態素w(i,j)の出現文書数であるので、分析対象特許文書群における普遍度合いを示している。このため、分析対象特許文書群での重要度を示す重みづけとしてTFIDF(i,j)を用いることで、TF(i,j)の大きい形態素に大きな重みを与えるとともに、DF(i,j)の小さい形態素に大きな重みを与えることができる。そして、各形態素w(i,j)のTFIDF(i,j)をベクトル成分とすることで、当該文字列d(i)をベクトルD(i)で表現することができる。
図29に、ベクトルD(i)のデータ例を示している。
図に示されるように、文字列ID=kを付与された各文字列d(i)の各形態素w(i,j)につき、TF(i,j)及びDF(i,j)が算出されている。この例では一部の例外を除きTF(i,j)=1となっている。
また図28に示したDF(i)は完全一致を条件とし、例えば文字列「プログラム」のDF(i)は8であるのに対し、図29においては「画像処理プログラム」のような文字列も形態素「プログラム」のDF(i,j)にカウントされるため、形態素「プログラム」のDF(i,j)はより大きい数になっている。
IDF(i,j)は、例えば、ln[I/DF(i,j)]で算出する。ここでIは分析対象特許文書群の特許文書数であり、1899件だったものとする。TFIDF(i,j)は、TF(i,j)とIDF(i,j)の積で算出した値である。なお、後の説明において類似度の比較を単純化するため、TFIDF(i,j)として「1.0」、「1.3」又は「1.8」が算出されるようDF(i,j)の値が調整されている。
図23に戻り、ステップS2560において、グループ判定部125は文字列D(i)のグループ判定を行う。グループ判定処理について、図25により説明する。
図25は、グループ判定の詳細フローを示している。
グループ判定部125は、ソート部123から文字列d(i)のソート結果を受け付ける。そして、文字列ID=kに対応するカウンタkを1にセットする(ステップS2561)。
次に、ID=kに相当する文字列d(i)が「グループ化済み」であるか否かを判定する(ステップS2562)。カウンタk=1の場合、ID=kに相当する文字列d(i)は「グループ化済み」では「ない」ため(S2562:N)、S2563に進む。なお、「文字列d(i)」は、ソートされた文字列のうち上位の文字列d(i)を指し、後述のS2564においてID>kに相当する(下位の)各文字列d(i)との類似度算出対象となる。
ステップS2563において、ID>kに相当する文字列d(i)にグループ化未済のものがあるか否かを判定する。カウンタk=1の場合、未だグループ化していない下位の文字列d(i)が存在するため(S2563:Y)、S2564に進む。
ステップS2564において、ID=kに相当する文字列d(i)のベクトルD(i)と、ID>kであるグループ化未済の文字列d(i)のベクトルD(i)との類似度を算出する。この類似度は、ベクトル生成部124から受け付ける各文字列d(i)のベクトルD(i)を用いて、次式により算出される。
類似度=[D(i)・D(i)]/[|D(i)|
つまり、類似度は、ベクトルD(i)とベクトルD(i)の内積を、ベクトルD(i)の大きさの二乗で除算して求められる。
ステップS2565において、上位文字列d(i)との類似度が所定の閾値以上である各下位文字列d(i)を、当該上位文字列d(i)とグループ化する。このとき、類似度が所定の閾値以上であった各下位文字列d(i)は「グループ化済み」となる。なお、上位文字列d(i)と完全一致する文字列d(i)(文字列ID=kを付与されていない重複文字列)は、ベクトルD(i)が上位文字列d(i)のものと同一である。同様に、類似度が所定の閾値以上であった各下位文字列d(i)と完全一致する文字列d(i)(文字列ID=kを付与されていない重複文字列)も、ベクトルD(i)が各下位文字列d(i)のものと同一である。従ってこれら重複文字列は、類似度を算出するまでもなく同一グループに所属することになる。
文字列d(i)とのグループ化が完了した後、S2566(後述)を経て、ステップS2567にてカウンタkに1を加え、S2562に戻って順次下位の文字列をID=kに相当する文字列d(i)とし、ID>kに相当する各文字列d(i)との類似度算出対象とする。
このとき、S2562において、ID=kに相当する文字列d(i)が、より上位の文字列と「グループ化済み」である可能性がある。ID=kに相当する文字列d(i)が「グループ化済み」である場合(S2562:Y)、S2566(後述)を経て、ステップS2567にてカウンタkに更に1を加え、順次下位の文字列をID=kに相当する文字列d(i)とする。
また、順次グループ化していくうちに、S2563において、ID>kに相当する文字列d(i)にグループ化未済のものが存在しなくなる可能性がある。ID>kに相当する文字列d(i)にグループ化未済のものが存在しない場合(S2563:N)、図25のグループ判定処理を終了する。
また、S2566においてカウンタk=K−1であった場合には、S2567にてカウンタkに1を加えたとしてもID>Kに相当する文字列d(i)そのものが存在しないため、図25のグループ判定処理を終了する。
図30は、類似度判定のスキップについて説明する図である。上述のように、グループ判定部125は、k=1の上位文字列d(i)から順に、当該上位文字列(i)と各下位文字列d(i)との類似度を算出する。図30では、類似度が高く当該上位文字列d(i)とグループ化された下位文字列d(i)の該当欄に「○」を付し、類似度が低く当該上位文字列(i)とグループ化されなかった下位文字列d(i)の該当欄に「×」を付している。
図に示すように、k=1である上位文字列「プログラム」に対しては、「画像処理プログラム」及び「コンピュータプログラム」がグループ化され、残りはグループ化されていない。
次にk=2である文字列「ゲーム装置」を上位文字列としたとき、「ゲーム装置」はグループ化済みではないので、下位文字列との類似度が判定される。但し、下位文字列「画像処理プログラム」及び「コンピュータプログラム」は既にグループ化されているので、いずれも類似度の判定がスキップされる(S2564)。なお、下位文字列「ゲームシステム」と「メダルゲーム装置」は、類似度算出の結果「ゲーム装置」にグループ化されたものとする。
次にk=3、4、5である文字列は、いずれも既にグループ化されているので、これらを上位文字列とする類似度の判定がスキップされる(S2562:Y)。
次にk=6である文字列「表示装置」は、グループ化済みではないので、下位文字列との類似度が判定される。但し、下位文字列「メダルゲーム装置」は既にグループ化されているので、類似度の判定がスキップされる(S2564)。
次にk=7である文字列「メダルゲーム装置」は、既にグループ化されているので、これを上位文字列とする類似度の判定がスキップされる(S2562:Y)。
この例では、k=1からk=8までの8個の文字列から2個を選ぶ組み合わせ数8×7/2=28のうち、16通りについては類似度の判定がスキップされたので、12通りの類似度の判定で済んだことになる。
以上のように本実施の形態によれば、文字列d(i)を予め形態素数J(i)の昇順でソートし、上位の文字列から順に類似度の算出とグループ判定を行うので、部分一致して類似と判定される文字列d(i)が早い段階で見つかる。従って、グループ化済みの文字列d(i)についての類似度の判定をスキップする(S2562、S2564)ことで、類似度の判定回数を劇的に軽減することができる。
また本実施の形態によれば、DF(i)の降順でも文字列d(i)をソートするので、部分一致して類似と判定される文字列d(i)の多くが早期に見つかり、類似度の判定回数を更に軽減することができる。
図31は、類似度のデータ例を示している。類似度の算出例として、図には3つの例が示されている。
類似度の1つめの算出例は、上位文字列「プログラム」と下位文字列「画像処理プログラム」の類似度算出例である。上位文字列「プログラム」は1個の形態素からなり、そのTFIDFは1.3である。これに対し下位文字列「画像処理プログラム」は2個の形態素からなり、形態素「画像処理」のTFIDFは1.8、「プログラム」のTFIDFは上位文字列と同じく1.3である。これらの文字列をベクトルで表すと次のようになる。
「プログラム」のベクトル D(i)=(0 , 1.3)
「画像処理プログラム」のベクトルD(i)=(1.8, 1.3)
なお上位文字列「プログラム」において、「画像処理」のTFは0であるため「画像処理」のTFIDF=0となっている。
ここで類似度を算出すると、
類似度=[D(i)・D(i)]/[|D(i)|
=[0×1.8+1.3×1.3]/[0+1.3
=1.69/1.69
=1
この計算過程から明らかなように、下位文字列における「画像処理」のTFIDF=1.8は類似度の計算結果に何ら影響しない。これは、上位文字列における「画像処理」のTFIDFが0、つまり、上位文字列「プログラム」が、下位文字列「画像処理プログラム」の一部に一致している(包含関係を有する)ためである。本実施の形態における類似度は、こうした部分一致の検出に大きな威力を発揮する。
また、上位文字列と下位文字列に共通の形態素である「プログラム」は、いずれもTF=1である(上述の通り、製品群対象語は簡潔に表現されているため一部の例外を除きTF=1となる)。このことと、共通の形態素のDF(i,j)は必ず同一となることを併せ考えると、共通の形態素のTFIDFは同一値(ここでは1.3)になることが多い。そうすると、上述の類似度の式によれば、上位文字列の形態素すべてが下位文字列に含まれる(包含関係を有する)部分一致の場合に類似度が最大値となり、その値は1になる。
同じ上位文字列との類似度を算出する限り、上述の類似度の式における分母は一定値|D(i)|である。従って、同じ上位文字列との類似度を相対比較する上では、類似度の分母を必ず|D(i)|にしなければならないというものではない。例えば、上述の類似度の式において分母を|D(i)|としても良いし、1としても良い。いずれの場合でも、類似度を算出する上位文字列ごとに適切な閾値を設定すれば部分一致の検出や類似度の判定をすることができる。ここで、分母を1とした場合には、類似度はベクトルの内積に等しくなる。分母を|D(i)|とした場合には、分母を1とした場合よりも、D(i)によってある程度の規格化がなされることになる。分母を|D(i)|とした場合には、最小値0、最大値1への規格化がなされ、異なる上位文字列との類似度であっても相対比較が可能となる。
なお、上述の類似度の式において分母を|D(i)||D(i)|とすると、類似度は通常用いられる余弦の値となる。この場合は、包含関係を有する部分一致の場合であっても、下位文字列のベクトルD(i)によって類似度の値が変動する。例えば、上位文字列より下位文字列の形態素数が多いと類似度の分母が大きくなるため、類似度の値が小さくなる。従って、類似度を余弦の値とした場合には部分一致を抽出できない場合がある。
類似度の2つめの算出例は、上位文字列「ゲーム装置」と下位文字列「ゲームシステム」の類似度算出例である。これらの文字列は形態素「ゲーム」(TFIDF=1.3)が共通する。また上位文字列に含まれる形態素「装置」(TFIDF=1.0)は下位文字列に含まれず、下位文字列に含まれる形態素「システム」(TFIDF=1.0)は上位文字列に含まれない。これら文字列の類似度を算出すると、図に示すように0.63となる。
類似度の3つめの算出例は、上位文字列「ゲーム装置」と下位文字列「表示装置」の類似度算出例である。これらの文字列は形態素「装置」(TFIDF=1.0)が共通する。上位文字列に含まれる形態素「ゲーム」(TFIDF=1.3)は下位文字列に含まれず、下位文字列に含まれる形態素「表示」(TFIDF=1.3)は上位文字列に含まれない。これら文字列の類似度を算出すると、図に示すように0.37となる。
これら2つめ及び3つめの算出例は、1つめの算出例のような包含関係を有する部分一致ではないが、上位文字列と下位文字列に共通の形態素が存在する。このうち2つめの算出例では、共通の形態素「ゲーム」のTFIDFが1.3となっており、非共通の形態素のTFIDFより高いため、類似度が0.63という高い値となった。一方、3つめの算出例では、共通の形態素「装置」のTFIDFが1.0となっており、非共通の形態素のTFIDFより低いため、類似度が0.37という低い値となった。
以上のように、本実施の形態によれば、1つめの算出例のように部分一致する文字列の類似度を確実に高く評価する一方で、そのような部分一致ではなくても重要度の高い形態素が共通していれば比較的高い類似度を算出するという処理を、簡易な構成で実現できる。
図25のグループ判定が終了すると、図23の処理も終了となる。
図22に戻り、ステップS1600及びS1700にて因子分析及び帰属因子の特定を行う。これらの処理は上述した実施の形態1で説明した通りである。
S1700にて帰属因子の特定が終了すると、ステップS2800において、キーワード生成部116は、因子特定部114から受け付けた技術要素帰属対象因子情報と文書帰属対象因子情報に基づき、技術要素対象語を用いて各対象因子を示す技術要素キーワードを生成する。またキーワード生成部116は、製品群対象語を用いて製品群キーワードを生成する。
ここで、上記ステップS2800の詳細について図26を用いて説明する。
キーワード生成部116は、ステップS2500においてグループ判定部125から送出されたグループ判定結果と、ステップS1700において因子特定部114から送出された技術要素帰属対象因子情報及び文書帰属対象因子情報を受け付けると、因子負荷量算出結果情報550を読み出す(ステップS2810)。
キーワード生成部116は、技術要素キーワードを生成する(ステップS1820)。このステップは上述した実施の形態1と同様である。
キーワード生成部116は、ステップS2810において受け付けたグループ判定結果を用いて、各グループにつき上位文字列d(i)を製品群キーワードとする(ステップS2830)。
図32に、各グループの製品群キーワードのデータ例を示している。各グループは、上位文字列d(i)と各下位文字列d(i)を含んでいるが、このうち上位文字列d(i)が製品群キーワードとされている。なお、「プログラム」と「画像処理プログラム」は図31で類似度が1.00という高い値であったので同一グループとなっている。「ゲーム装置」と「ゲームシステム」も図31で類似度が0.63という高い値であったので同一グループとなっている。一方、「ゲーム装置」と「表示装置」は図31で類似度が0.37という低い値であったので別グループとなっている。
本実施の形態では、文字列d(i)を予め形態素数J(i)の昇順でソートし、上位文字列d(i)と類似する各下位文字列d(i)を同一グループとしている。従って、この上位文字列d(i)を当該グループの製品群キーワードとすることにより、当該グループで最も形態素数J(i)の少ない文字列d(i)によって当該グループをラベリングすることになる。
また、形態素数J(i)の等しい文字列d(i)間では、DF(i)の降順でソートし、上位文字列d(i)と類似する各下位文字列d(i)を同一グループとしている。従って、この上位文字列d(i)を当該グループの製品群キーワードとすることにより、当該グループで最も出現頻度の高い文字列d(i)によって当該グループをラベリングすることになる。
本実施の形態によれば、このような最適語句によるラベリングを、簡易な構成で自動的に行うことができる。
図22に戻り、ステップS1900において、出力制御部117は、各製品群キーワードと各技術要素キーワードとの関係情報を生成して出力する。この処理については上述した実施の形態1と同様である。
すなわち、例えば第1特徴語(技術要素対象語)に基づく因子分析により生成した文書帰属対象因子情報を分析対象特許文書群の第1分類とし、製品群対象語の類似度判定により生成したグループ判定情報を分析対象特許文書群の第2分類とし、第1分類と第2分類とでクロス集計を行う。クロス集計の具体的態様としては、例えば図15(a)に示すように各セルに属する特許文書データの件数を示しても良いし、図15(b)に示すように各セルに属する特許文書データの評価値合計を示しても良い。
なお、第1分類としては、第1特徴語(技術要素対象語)に基づく因子分析により生成した文書帰属対象因子情報に限られず、発明者による分類、IPCなどの特許分類による分類などを用いても良い。その他、「出願人」、「代理人」、「Fターム」、「重要キーワード」、「課題」、「各種手続の有無の割合(例えば、審査請求率など)」などによる分類を用いても良い。
また、出力制御部117による出力態様は、第1分類とのクロス集計結果に限らず、他の態様で製品群対象語によるグループ判定情報を出力しても良い。そのような態様について以下に説明する。
図33は、グループ判定情報に基づく製品分類毎の出願件数推移を示すグラフである。図示のデータは、ある調査対象企業が1993年から2006年までに出願した特許文書群を調査対象特許文書群としたもので、図27〜図32の説明用データと直接関係するものではない。図33のグラフは、横軸に出願年、縦軸に出願年毎及び製品分類毎の出願件数をとって表示している。このように表示することで、当該企業における製品分類毎の出願戦略の推移を把握し、今後の出願方針の立案等に役立たせることができる。
図34は、グループ判定情報に基づく製品分類毎のスコア合計値とスコア最高値を示すマップである。図示のデータは、図33と同じ特許文書群を調査対象特許文書群としたものである。図34では、各製品分類に属する特許文書データの件数をバブルの大きさで示し、各製品分類のクラスタスコア(評価値の合計値)を製品分類スコアとして縦軸での位置で示し、各製品分類での評価値の最大値を横軸での位置で示した。このように表示することで、出願件数に囚われずに当該企業における重点分野を把握することができる。
図35は、グループ判定情報に基づく製品分類毎のスコア合計値と出願日中央値を示すマップである。図示のデータは、図33と同じ特許文書群を調査対象特許文書群としたものである。図35では、各製品分類に属する特許文書データの件数をバブルの大きさで示し、各製品分類のクラスタスコア(評価値の合計値)を製品分類スコアとして縦軸での位置で示し、各製品分類の出願日の中央値を横軸での位置で示した。このように表示することで、各製品分類のスコアの大きさと出願時期の関係を明らかにすることができる。
<補足>
本発明に係る情報処理装置について、上記実施の形態1及び実施の形態2を用いて説明したが、本発明に係る情報処理装置はこれに限られるものではなく、以下に示す変形例も含む。
(1)上述した実施の形態1のクラスタ生成処理において、生成したクラスタの特許文書データ数が所定数以下である場合には、一旦生成されたクラスタを解除し、当該クラスタに属していた各特許文書データについて、他のクラスタとの類似度を各々算出し、類似度が最大となるクラスタに当該特許文書データを所属させることとしてもよい。
(2)上述の実施の形態1では、クラスタ生成処理には最長距離法を用いるものとして説明したが、これに限定されるものではなく、最短距離法やウォード法等の方法によってクラスタ生成処理を行ってもよい。
(3)上述した実施の形態では、格助詞毎の前方形態素の形態素結合処理において、品詞が第1分類以外の形態素が出現するまでの各形態素を検出順に結合するものとして説明したが、格助詞毎の前方形態素の場合、その前方形態素のうち品詞が第1分類に属する前方形態素を一旦抽出し、抽出した前方形態素について、格助詞の直前の前方形態素から検出順位が連続する限り前方形態素を結合させてもよい。
(4)上述した実施の形態では、格助詞毎の前方形態素について形態素結合処理を行う場合、品詞が第1分類である名詞、未知語、記号及び形容詞のいずれかに該当する前方形態素を検出順に結合させるものとして説明したが、例えば、品詞が名詞のみの前方形態素を結合させてもよいし、名詞と未知語、又は、名詞と未知語若しくは記号若しくは形容詞の前方形態素を結合させてもよい。
(5)また、上述した実施の形態では、特徴語を抽出する際に、所定の格助詞「を」及び「が」について着目することとして説明したが、「に」や「の」等の他の格助詞に着目することとしてもよい。
(6)上述した実施の形態では、形態素解析処理を行う際、「上記」「前記」等、文書において頻繁に用いられるが文書において特徴的な単語ではないもの(以下、「不要語」と言う。)も形態素解析処理を行って品詞情報を生成することとして説明したが、予め不要語リストを情報処理装置に記憶させ、不要語リストに登録されている単語については品詞情報に含めないようにしてもよい。この場合、実施の形態2のS2520(図23)においてカウントされる形態素の数J(i)に当該不要語の数は含められないこととなる。
また、特徴語を生成する際、品詞が第1分類である記号に含まれる句読点が形態素結合処理の結合対象となる場合には、句読点を除く形態素について結合させることとしてもよい。
(7)また、上述した実施の形態では、分析対象文書として日本語で出願された特許出願データを用いるものとして説明したが、例えば、文書の主題や課題が明示された、技術論文などの技術文書データや、HTML(HyperText Markup Language)等のマークアップ言語で記載された文書データを用いてもよいし、日本語と文法が類似する韓国語で記載された特許出願データを用いてもよい。
(8)また、上述した実施の形態では、データ取得部102は、情報処理装置1の記憶部2に予め記憶された特許文書データ群から分析対象となる特許文書データを取得するものとして説明したが、例えば、情報処理装置1とネットワーク接続されたサーバ等の外部の端末から特許文書データを取得することとしてもよい。また、上述した実施の形態では、情報処理装置1は、情報処理装置1の入力部3を介してユーザから分析対象となる特許文書データ群を示す情報を受付けるものとして説明したが、例えば、情報処理装置1とネットワーク接続されたコンピュータ等の外部端末を介してユーザから分析対象となる特許文書データを示す情報を受付けてもよい。
(9)また、本発明は、上記実施の形態で示す方法であるとしてもよいし、これらの方法をコンピュータにより実現するコンピュータプログラムであってもよいし、前記コンピュータプログラムからなるデジタル信号であってもよい。
また、本発明は、前記コンピュータプログラム又は前記デジタル信号を、ハードディスク、CD―ROM、DVD等のコンピュータで読み取り可能な記録媒体に記録したものとしてもよいし、前記記録媒体に記録されている前記コンピュータプログラム又はデジタル信号であるとしてもよい。
また、本発明は、前記コンピュータプログラム又はデジタル信号を、インターネットや、無線又は有線通信回線等の電気通信回線を経由して伝送するものとしてもよい。
(10)また、上述した実施の形態1では、特許請求の範囲データの各請求項データの記載形式が所定形式か否か判断する際、第1文字列"〜において、"と第2文字列"〜ことを特徴とする"のデータが含まれているか否か判断するものとして説明したが、例えば、第1文字列は"〜であって、"、"であり、"等の読点を含む前提条件を示す文字列であってもよいし、一つの請求項データに第1文字列が複数含まれている場合には、当該請求項データにおける最後の文字列と同一の文字列が、当該請求項データにおいて最後に記載された第1文字列の直前に記載されていれば、当該最後の第1文字列を上記所定形式の判断基準としてもよい。
(11)また、上述した実施の形態1では、因子分析部113による因子分析をSPSS(登録商標)やR等の統計解析ソフトを用いるものとして説明したが、上記因子分析(I)の初期設定に基づいて因子分析を行うプログラムであればこれに限らない。また、因子分析部113が、上記因子分析(I)の設定条件に基づいて、因子負荷行列及び因子得点行列を仮定し、技術要素対象語別文書ベクトル情報に基づいて変数の相関行列を求め、SMC法やMAX法を用いて共通性の推定を行い、主因子法や最小二乗法を用いて因子負荷量を算出し、算出した因子負荷量に基づいて上記対象因子を決定し、対象因子について因子軸を直交回転又は斜交回転させた因子負荷量を算出し、回転後の因子負荷量及び相関行列を用いて因子得点を算出することとしてもよい。
(12)また、上述した実施の形態1では、製品群キーワードと関係する各技術要素キーワードについて、当該製品群キーワードをクラスタとして帰属する特許文書データ件数を示す第1関係情報(図15(a))を出力するものとして説明したが、各製品群キーワードについて、当該製品群キーワードと各技術要素キーワードが関係するか否かを示す情報を出力することとしてもよい。この場合、例えば、関係する技術要素キーワードを1、関係しない技術要素キーワードを0にする等、数値や記号を用いて関係情報を表す。
(13)また、上述した実施の形態1では、第1関係情報及び第2関係情報を出力するものとして説明したが、ユーザの指定により第1関係情報又は第2関係情報を出力することとしてもよい。
(14)また、上述した実施の形態1では、第1関係情報を2次元で表し、第2関係情報を3次元で表すものとして説明したが、いずれの関係情報も2次元及び3次元で表すこととしてもよい。
(15)また、上述した実施の形態1における特許文書データテーブルは、日本国特許庁において出願された各特許出願データに含まれる一部の項目のデータを抽出したものであるが、全項目のデータであってもよい。
(16)また、上述した実施の形態1では、キーワード生成部が製品群キーワードを生成する際、クラスタの重心ベクトルと当該クラスタに属する特許文書データの文書ベクトルとの類似度の降順で所定順位以上の特許文書データに対応する製品群対象語を結合するものとして説明したが、例えば、類似度が所定値以上である特許文書データの製品群対象語を結合対象とするなど、クラスタとの類似度に応じて結合対象となる製品群対象語を決定してもよい。
(17)また、上述した実施の形態1では、因子分析部が各分析対象特許文書データの全請求項データにおける各技術要素対象語のTF値を当該分析対象特許文書データの全TF値合計で除算することにより各技術要素対象語の文書ベクトル成分を求めるものとして説明した。上記のように各分析対象特許文書データの全TF値合計で各TF値を除算する方法は、請求項データの文字数に応じて技術要素対象語の重みが異なることを考慮する場合、即ち、請求項データの文字数が多い特許文書データと少ない特許文書データとでは同じTF値でも重みが異なることを考慮する場合に有効な方法であるが、請求項データの文字数を考慮しない場合には、各技術要素対象語のTF値を文書ベクトルの成分として用いてもよい。
また、実施の形態1では、文書ベクトルの成分としてTF値を用いるものとして説明したが、各技術要素対象語の各TF値に全分析対象特許文書データにおける当該技術要素対象語のIDF値を乗算した値等、技術要素対象語の出現率を用いて技術要素対象語の文書ベクトルの成分を求めることとしてもよい。
本発明に係る情報処理装置は、ある目的を達成する為に記載された工業、商業等の産業一般における技術論文や説明書等の文書データの解析や、ユーザが所望する文書の検索等に利用することができる。

Claims (24)

  1. 分析対象文書群に属する各特許文書データi(i=1,2,…,I)から特定部分の文字列d(i)を抽出する特定部分抽出手段と、
    各文字列d(i)に含まれる単語w(i,j)を抽出し単語数J(i)をカウントする単語数カウント手段と、
    前記分析対象文書群に属する特許文書データiから抽出された前記文字列d(i)を前記単語数J(i)の昇順でソートするソート手段と、
    前記ソート手段によりソートされた上位の文字列d(i)から順に、下位の各文字列d(i)との類似度の判定と、前記上位の文字列d(i)と同グループに前記下位の文字列d(i)を所属させるか否かの前記類似度に基づく判定とを行うグループ判定手段と、
    を備え、
    前記グループ判定手段は、より上位の文字列d(i)と同グループに所属する旨判定された文字列d(i)についての、他の文字列d(i)との類似度の判定をスキップする、情報処理装置。
  2. 前記分析対象文書群に属する特許文書データiから抽出された全文字列d(1),d(2),…,d(I)における各文字列d(i)の出現文書数DF(i)を算出する文書頻度算出手段を更に備え、
    前記ソート手段は、前記文字列d(i)の前記単語数J(i)の昇順を1つの基準とし、前記文字列d(i)の出現文書数DF(i)の降順をもう1つの基準として前記文字列d(i)をソートする
    請求項1記載の情報処理装置。
  3. 前記ソート手段は、前記文字列d(i)の前記単語数J(i)の昇順を第1基準とし、前記文字列d(i)の出現文書数DF(i)の降順を前記第1基準より適用優先度の低い第2基準として前記文字列d(i)をソートする
    請求項2記載の情報処理装置。
  4. 各文字列d(i)から抽出された単語w(i,j)を用いて各文字列d(i)を示すベクトルD(i)を生成するベクトル生成手段を更に備え、
    前記グループ判定手段は、前記上位の文字列d(i)を示すベクトルD(i)と、前記下位の文字列d(i)を示すベクトルD(i)との内積を用いて、前記類似度を判定する
    請求項1記載の情報処理装置。
  5. 前記グループ判定手段は、前記ベクトルD(i)と前記ベクトルD(i)の内積を前記ベクトルD(i)の大きさの二乗で除算して前記類似度を判定する
    請求項4記載の情報処理装置。
  6. 前記特定部分抽出手段が文字列d(i)を抽出する特定部分は、各特許文書データiの「請求項1」の末尾の所定部分又は「発明の名称」である
    請求項1記載の情報処理装置。
  7. 分析対象文書群に属する特許文書データiを分類して第1分類を生成する第1分類手段と、
    前記第1分類手段とは異なる基準により前記分析対象文書群に属する特許文書データiを分類して第2分類を生成する第2分類手段と、
    前記第1分類と前記第2分類によるクロス集計を行うクロス集計手段と、を更に備え、
    前記第2分類手段は、前記グループ判定手段により同グループに所属させると判定された文字列d(i)の抽出元である特許文書データiを同グループに分類する
    請求項1記載の情報処理装置。
  8. 分析対象文書群に属する特許文書データiを分類して第1分類を生成する第1分類手段と、
    前記分析対象文書群に属する各特許文書データiから「請求項1」の末尾の所定部分又は「発明の名称」の文字列d(i)を抽出する特定部分抽出手段と、
    前記文字列d(i)を用いて前記第1分類手段とは異なる基準により前記分析対象文書群に属する特許文書データiを分類して第2分類を生成する第2分類手段と、
    前記第1分類と前記第2分類によるクロス集計を行うクロス集計手段と、
    を備えた、情報処理装置。
  9. 前記分析対象文書群に属する各特許文書データiの「特許請求の範囲」から所定の格助詞の直前に位置する第1特徴語を抽出する特徴語抽出手段を更に備え、
    前記第1分類手段は、前記第1特徴語に基づいて前記分析対象文書群に属する特許文書データiを分類して前記第1分類を生成する
    請求項7又は8記載の情報処理装置。
  10. 文書データに形態素解析処理を行い、当該文書データ中の形態素を検出して当該文書データを形態素データに分解し、当該文書データを分析する情報処理装置であって、
    前記文書データを記憶する記憶手段と、
    前記文書データに前記形態素解析処理を行い、所定の第1規則に基づいて、前記形態素データからなる第1特徴語を生成する特徴語生成手段と、
    前記特徴語生成手段が生成した前記第1特徴語を用いて、前記文書データの傾向を示す情報の出力処理を行う出力手段と
    を備え、
    前記文書データは、特許請求の範囲として記載された特許請求の範囲データを含む特許文書データであり、
    前記記憶手段は、複数の前記特許文書データを記憶しており、
    前記形態素解析処理は、前記特許請求の範囲データを処理対象とし、
    前記特徴語生成手段は、前記各特許文書データの前記特許請求の範囲データにおいて前記各特許文書データの発明を構成する技術的特徴を示す文字列を含む第1所定部分の前記形態素データを用いて前記第1特徴語を生成し、前記各特許文書データの前記特許請求の範囲データにおいて当該特許文書データの発明の対象を示す文字列を含む第2所定部分の前記形態素データを用いて第2特徴語を生成し、
    前記情報処理装置は、更に、
    前記各第2特徴語に含まれる前記形態素データの前記複数の特許文書データにおける第1出現頻度を用いて前記複数の特許文書データをクラスタリングし、前記各第2特徴語と対応する前記各特許文書データが属するクラスタを特定するクラスタ特定手段と、
    前記第1特徴語を用いて技術要素キーワードを生成し、前記クラスタ特定手段により特定された各クラスタに属する前記特許文書データの前記第2特徴語を用いて当該クラスタを示す製品群キーワードを生成するキーワード生成手段とを備え、
    前記出力手段は、前記複数の特許文書データの傾向を表す情報として、前記各技術要素キーワードと前記各製品群キーワードとの関係を示す関係情報を出力する
    ことを特徴とする情報処理装置。
  11. 前記各第1特徴語の前記複数の特許文書データにおける第2出現頻度に基づいて前記各特許文書データの文書ベクトルを生成し、前記各文書ベクトルを用いて前記各第1特徴語を観測変数とする因子分析を行い、前記各第1特徴語の因子負荷量と前記各特許文書データの因子得点を算出する因子分析手段と、
    前記因子負荷量に基づいて前記各第1特徴語の因子を特定し、前記因子得点に基づいて前記各特許文書データの因子を特定する因子特定手段と、を更に備え、
    前記キーワード生成手段は、前記因子特定手段により特定された前記各因子に対応する前記第1特徴語を用いて当該因子を示す技術要素キーワードを生成し、
    前記出力手段は、前記因子特定手段により特定された各特許文書データの因子に基づき、前記関係情報を出力する
    ことを特徴とする請求項10記載の情報処理装置。
  12. 前記情報処理装置は、更に、
    前記分解された各形態素データと、各形態素データに対応する所定の品詞と、各形態素データの検出順を示す検出順位情報とを対応づけた第1品詞情報を生成する品詞情報生成手段を備え、
    前記特徴語生成手段は、前記第1品詞情報に所定の格助詞が含まれている場合において、当該所定の格助詞毎に、前記第1品詞情報の形態素データのうち、当該所定の格助詞より前に検出された形態素データである前方形態素データのうち、前記第1品詞情報において当該所定の格助詞の直前に検出された前方形態素データから、品詞が第1分類以外の品詞に属する前方形態素データが検出されるまでの各前方形態素データを検出順に結合することで前記第1特徴語を生成すること
    を特徴とする請求項11記載の情報処理装置。
  13. 前記特許請求の範囲データは、請求項毎の請求項データを含み、
    前記特徴語生成手段は、前記第1特徴語を生成する場合には、前記特許文書データの前記特許請求の範囲データにおける各請求項データの前記第1所定部分の前記形態素データを用い、前記第2特徴語を生成する場合には、前記各特許文書データの前記特許請求の範囲データにおける所定の請求項データの前記第2所定部分の前記形態素データを用いること
    を特徴とする請求項12記載の情報処理装置。
  14. 前記因子特定手段は、前記因子分析手段により算出された前記各第1特徴語の前記因子負荷量が第1閾値以上である因子を当該第1特徴語の因子として特定し、前記因子分析手段により算出された前記各特許文書データの前記因子得点が第2閾値以上である因子を当該特許文書データの因子として特定すること
    を特徴とする請求項12記載の情報処理装置。
  15. 前記クラスタ特定手段による前記クラスタリングは、前記第2所定部分の各形態素データの前記各第2特徴語における第3出現頻度に基づいて前記各第2特徴語の文書ベクトルを生成し、前記各第2特徴語の前記複数の特許文書データにおける第4出現頻度が所定値以上の前記第2特徴語の前記文書ベクトル間の類似度を算出し、当該類似度に応じてクラスタを抽出する処理と、前記第4出現頻度が前記所定値より小さい前記第2特徴語と前記クラスタとの間の類似度を算出し、当該類似度に応じて当該第2特徴語の特許文書データを当該クラスタに含ませる処理とを含むこと
    を特徴とする請求項12記載の情報処理装置。
  16. 前記キーワード生成手段は、前記因子特定手段により特定された前記各因子に対応する前記第1特徴語のうち、当該因子の前記因子負荷量が第3閾値以上である前記第1特徴語を結合することにより前記技術要素キーワードを生成し、前記クラスタ特定手段により抽出されたクラスタ毎に、当該クラスタの重心ベクトルと当該クラスタに属する特許文書データの前記第2特徴語の前記文書ベクトルとの類似度を算出し、当該類似度に応じて当該クラスタに属する前記特許文書データの前記第2特徴語を結合させることにより前記製品群キーワードを生成すること
    を特徴とする請求項12記載の情報処理装置。
  17. 前記出力手段は、前記製品群キーワード毎に、当該製品群キーワードに対応する前記クラスタに属する前記特許文書データの前記因子毎の件数を計数し、前記関係情報として、前記各製品群キーワードの前記因子毎の件数と当該因子を示す技術要素キーワードとを対応付けた情報を出力すること
    を特徴とする請求項12記載の情報処理装置。
  18. 前記記憶手段は、更に、前記各複数の特許文書データに対応する評価値を記憶しており、
    前記出力手段は、前記製品群キーワード毎に、当該製品群キーワードに対応する前記クラスタに属する前記各特許文書データの前記評価値を前記因子毎に集計し、前記関係情報として、前記各製品群キーワードの前記因子毎の評価値の集計結果と当該因子を示す技術要素キーワードとを対応付けた情報を出力すること
    を特徴とする請求項12記載の情報処理装置。
  19. 情報処理装置に所定の情報処理を実行させることによる文書分析方法であって、前記所定の情報処理は、
    分析対象文書群に属する各特許文書データi(i=1,2,…,I)から特定部分の文字列d(i)を抽出する特定部分抽出ステップと、
    各文字列d(i)に含まれる単語w(i,j)を抽出し単語数J(i)をカウントする単語数カウントステップと、
    前記分析対象文書群に属する特許文書データiから抽出された前記文字列d(i)を前記単語数J(i)の昇順でソートするソートステップと、
    前記ソートステップによりソートされた上位の文字列d(i)から順に、下位の各文字列d(i)との類似度の判定と、前記上位の文字列d(i)と同グループに前記下位の文字列d(i)を所属させるか否かの前記類似度に基づく判定とを行うグループ判定ステップと、
    を備え、
    前記グループ判定ステップは、より上位の文字列d(i)と同グループに所属する旨判定された文字列d(i)についての、他の文字列d(i)との類似度の判定をスキップする、文書分析方法。
  20. 情報処理装置に所定の情報処理を実行させることによる文書分析方法であって、前記所定の情報処理は、
    分析対象文書群に属する特許文書データiを分類して第1分類を生成する第1分類ステップと、
    前記分析対象文書群に属する各特許文書データiから「請求項1」の末尾の所定部分又は「発明の名称」の文字列d(i)を抽出する特定部分抽出ステップと、
    前記文字列d(i)を用いて前記第1分類ステップとは異なる基準により前記分析対象文書群に属する特許文書データiを分類して第2分類を生成する第2分類ステップと、
    前記第1分類と前記第2分類によるクロス集計を行うクロス集計ステップと、
    を備えた、文書分析方法。
  21. 複数の特許文書データを記憶する記憶手段を備えた情報処理装置に所定の情報処理を実行させることによる文書分析方法であって、前記所定の情報処理は、
    文書データに形態素解析処理を行い、当該文書データ中の形態素を検出して当該文書データを形態素データに分解するステップと、
    前記文書データに前記形態素解析処理を行い、所定の第1規則に基づいて、前記形態素データからなる第1特徴語を生成する特徴語生成ステップと、
    前記特徴語生成ステップが生成した前記第1特徴語を用いて、前記文書データの傾向を示す情報の出力処理を行う出力ステップと
    を備え、
    前記文書データは、特許請求の範囲として記載された特許請求の範囲データを含む特許文書データであり、
    前記形態素解析処理は、前記特許請求の範囲データを処理対象とし、
    前記特徴語生成ステップは、前記各特許文書データの前記特許請求の範囲データにおいて前記各特許文書データの発明を構成する技術的特徴を示す文字列を含む第1所定部分の前記形態素データを用いて前記第1特徴語を生成し、前記各特許文書データの前記特許請求の範囲データにおいて当該特許文書データの発明の対象を示す文字列を含む第2所定部分の前記形態素データを用いて第2特徴語を生成し、
    前記所定の情報処理は、更に、
    前記各第2特徴語に含まれる前記形態素データの前記複数の特許文書データにおける第1出現頻度を用いて前記複数の特許文書データをクラスタリングし、前記各第2特徴語と対応する前記各特許文書データが属するクラスタを特定するクラスタ特定ステップと、
    前記第1特徴語を用いて技術要素キーワードを生成し、前記クラスタ特定ステップにより特定された各クラスタに属する前記特許文書データの前記第2特徴語を用いて当該クラスタを示す製品群キーワードを生成するキーワード生成ステップとを備え、
    前記出力ステップは、前記複数の特許文書データの傾向を表す情報として、前記各技術要素キーワードと前記各製品群キーワードとの関係を示す関係情報を出力する
    ことを特徴とする文書分析方法。
  22. 情報処理装置に所定の情報処理を実行させる文書分析プログラムであって、前記所定の情報処理は、
    分析対象文書群に属する各特許文書データi(i=1,2,…,I)から特定部分の文字列d(i)を抽出する特定部分抽出ステップと、
    各文字列d(i)に含まれる単語w(i,j)を抽出し単語数J(i)をカウントする単語数カウントステップと、
    前記分析対象文書群に属する特許文書データiから抽出された前記文字列d(i)を前記単語数J(i)の昇順でソートするソートステップと、
    前記ソートステップによりソートされた上位の文字列d(i)から順に、下位の各文字列d(i)との類似度の判定と、前記上位の文字列d(i)と同グループに前記下位の文字列d(i)を所属させるか否かの前記類似度に基づく判定とを行うグループ判定ステップと、
    を備え、
    前記グループ判定ステップは、より上位の文字列d(i)と同グループに所属する旨判定された文字列d(i)についての、他の文字列d(i)との類似度の判定をスキップする、文書分析プログラム。
  23. 情報処理装置に所定の情報処理を実行させる文書分析プログラムであって、前記所定の情報処理は、
    分析対象文書群に属する特許文書データiを分類して第1分類を生成する第1分類ステップと、
    前記分析対象文書群に属する各特許文書データiから「請求項1」の末尾の所定部分又は「発明の名称」の文字列d(i)を抽出する特定部分抽出ステップと、
    前記文字列d(i)を用いて前記第1分類ステップとは異なる基準により前記分析対象文書群に属する特許文書データiを分類して第2分類を生成する第2分類ステップと、
    前記第1分類と前記第2分類によるクロス集計を行うクロス集計ステップと、
    を備えた、文書分析プログラム。
  24. 複数の特許文書データを記憶する記憶手段を備えた情報処理装置に所定の情報処理を実行させる文書分析プログラムであって、前記所定の情報処理は、
    文書データに形態素解析処理を行い、当該文書データ中の形態素を検出して当該文書データを形態素データに分解するステップと、
    前記文書データに前記形態素解析処理を行い、所定の第1規則に基づいて、前記形態素データからなる第1特徴語を生成する特徴語生成ステップと、
    前記特徴語生成ステップが生成した前記第1特徴語を用いて、前記文書データの傾向を示す情報の出力処理を行う出力ステップと
    を備え、
    前記文書データは、特許請求の範囲として記載された特許請求の範囲データを含む特許文書データであり、
    前記形態素解析処理は、前記特許請求の範囲データを処理対象とし、
    前記特徴語生成ステップは、前記各特許文書データの前記特許請求の範囲データにおいて前記各特許文書データの発明を構成する技術的特徴を示す文字列を含む第1所定部分の前記形態素データを用いて前記第1特徴語を生成し、前記各特許文書データの前記特許請求の範囲データにおいて当該特許文書データの発明の対象を示す文字列を含む第2所定部分の前記形態素データを用いて第2特徴語を生成し、
    前記所定の情報処理は、更に、
    前記各第2特徴語に含まれる前記形態素データの前記複数の特許文書データにおける第1出現頻度を用いて前記複数の特許文書データをクラスタリングし、前記各第2特徴語と対応する前記各特許文書データが属するクラスタを特定するクラスタ特定ステップと、
    前記第1特徴語を用いて技術要素キーワードを生成し、前記クラスタ特定ステップにより特定された各クラスタに属する前記特許文書データの前記第2特徴語を用いて当該クラスタを示す製品群キーワードを生成するキーワード生成ステップとを備え、
    前記出力ステップは、前記複数の特許文書データの傾向を表す情報として、前記各技術要素キーワードと前記各製品群キーワードとの関係を示す関係情報を出力する
    ことを特徴とする文書分析プログラム。
JP2010516706A 2008-06-13 2008-10-31 情報処理装置、プログラム、情報処理方法 Withdrawn JPWO2009150758A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
PCT/JP2008/060916 WO2009001696A1 (ja) 2007-06-22 2008-06-13 情報処理装置、プログラム、情報処理方法
JPPCT/JP2008/060916 2008-06-13
PCT/JP2008/069890 WO2009150758A1 (ja) 2008-06-13 2008-10-31 情報処理装置、プログラム、情報処理方法

Publications (1)

Publication Number Publication Date
JPWO2009150758A1 true JPWO2009150758A1 (ja) 2011-11-10

Family

ID=41419345

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010516706A Withdrawn JPWO2009150758A1 (ja) 2008-06-13 2008-10-31 情報処理装置、プログラム、情報処理方法

Country Status (2)

Country Link
JP (1) JPWO2009150758A1 (ja)
WO (1) WO2009150758A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5655305B2 (ja) * 2009-12-28 2015-01-21 一郎 工藤 特許力算出装置及び特許力算出装置の動作方法
CN102541862B (zh) * 2010-12-14 2014-05-07 阿里巴巴集团控股有限公司 跨网站的信息显示方法及系统
JP6023254B1 (ja) * 2015-04-09 2016-11-09 真之 正林 情報処理装置及び方法、並びにプログラム
KR101762252B1 (ko) * 2016-04-08 2017-07-31 (주)윕스 아이디어 창출 지원 방법 및 이를 위한 지원 장치
JP6734174B2 (ja) * 2016-10-06 2020-08-05 真之 正林 情報処理装置
JP7066177B2 (ja) * 2018-05-30 2022-05-13 アイ・ピー・ファイン株式会社 特許分類付与支援方法
JP2021056830A (ja) * 2019-09-30 2021-04-08 沖電気工業株式会社 概念構造抽出装置、プログラム及び方法
JP7178388B2 (ja) * 2020-07-09 2022-11-25 真之 正林 情報処理装置及び方法、並びにプログラム
JP7341973B2 (ja) * 2020-11-12 2023-09-11 PwCコンサルティング合同会社 分析システム、サーバ、プログラム及び分析方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001034630A (ja) * 1999-07-22 2001-02-09 Fujitsu Ltd 文書ベース検索システム、およびその方法
JP2007148630A (ja) * 2005-11-25 2007-06-14 Nec Corp 特許分析装置、特許分析システム、特許分析方法およびプログラム
WO2007069408A1 (ja) * 2005-12-13 2007-06-21 Intellectual Property Bank Corp. 技術文書属性の関連性分析支援装置

Also Published As

Publication number Publication date
WO2009150758A1 (ja) 2009-12-17

Similar Documents

Publication Publication Date Title
WO2009150758A1 (ja) 情報処理装置、プログラム、情報処理方法
Burger et al. Discriminating gender on Twitter
Zhou et al. Exploring various knowledge in relation extraction
Zhang et al. Mining millions of reviews: a technique to rank products based on importance of reviews
US10394830B1 (en) Sentiment detection as a ranking signal for reviewable entities
US9336303B2 (en) Computer-implemented system and method for providing visual suggestions for cluster classification
US10073835B2 (en) Detecting literary elements in literature and their importance through semantic analysis and literary correlation
Abulaish et al. Feature and opinion mining for customer review summarization
US20100318526A1 (en) Information analysis device, search system, information analysis method, and information analysis program
JP4600045B2 (ja) 意見抽出用学習装置及び意見抽出用分類装置
JP3820878B2 (ja) 情報検索装置,スコア決定装置,情報検索方法,スコア決定方法及びプログラム記録媒体
JPWO2009001696A1 (ja) 情報処理装置、プログラム、情報処理方法
CN105701086B (zh) 一种滑动窗口文献检测方法及系统
JPWO2008053949A1 (ja) 文書群分析装置
WO2014057965A1 (ja) フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
JP2010152862A (ja) 文章体特定装置およびコンピュータに文章体を特定させるためのプログラム
JP2019200784A (ja) 分析方法、分析装置及び分析プログラム
Rizun et al. Development and research of the text messages semantic clustering methodology
TWI396983B (zh) 名詞標記裝置、名詞標記方法及其電腦程式產品
JP2003281159A (ja) 文書処理装置及び文書処理方法、文書処理プログラム
JP2002073680A (ja) 技術情報検索システム
JP2006221478A (ja) 文書検索装置及びマクロアプローチによるポートフォリオ分析装置
JP2012256284A (ja) 感性分析システム及びプログラム
Saputri et al. Sentiment analysis on shopee e-commerce using the naïve bayes classifier algorithm
Bhatia et al. Generating synopses for document-element search

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20120110