JPWO2005033972A1 - 類似率算出装置並びに類似率算出プログラム - Google Patents
類似率算出装置並びに類似率算出プログラム Download PDFInfo
- Publication number
- JPWO2005033972A1 JPWO2005033972A1 JP2005514348A JP2005514348A JPWO2005033972A1 JP WO2005033972 A1 JPWO2005033972 A1 JP WO2005033972A1 JP 2005514348 A JP2005514348 A JP 2005514348A JP 2005514348 A JP2005514348 A JP 2005514348A JP WO2005033972 A1 JPWO2005033972 A1 JP WO2005033972A1
- Authority
- JP
- Japan
- Prior art keywords
- technical
- document group
- similarity
- documents
- technical document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本発明は、技術文献から構成される技術文献群同士の技術的な類似性を判断するための指標を算出する類似率算出装置を提供することを目的とする。そのために、比較対象となる第1の技術文献群及び第2の技術文献群を入力する技術文献群入力手段(365)と、技術情報を入力する技術情報入力手段(371)と、第1の技術文献群及び第2の技術文献群に含まれる技術文献について、前記入力した技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解するクラスタ分解手段(380)と、前記クラスタ分解した結果得られた全クラスタ数と、第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数との比を算出する類似率算出手段(380)と、前記算出した類似率を出力する出力手段(365)とを備えた。
Description
本発明は、技術文献群同士を比較して類似性を判断する類似率算出装置並びに類似率算出プログラムに関する。
従来のパテントマップでは、特許文献を用いて、同一又は類似の研究開発テーマの内容について、技術比較を行って、全体的な動向、分布を知ることが可能であるとされている。そして経営者がパテントマップ見ることによって、市場動向、技術動向、参入企業及びライバル企業動向、将来性等の経営判断的要素を分析することが可能とされている。
またパテントマップでは、A社に関連した技術文献A群とB社に関連した技術文献B群とでマクロ的な比較を行う必要がある場合に、技術文献A群と技術文献B群に所属する個々の技術文献どうしをミクロ的に比較し、そこからマクロ的に技術文献群間の比較を導き出していた。
図19は、技術文献A群に含まれる技術文献と、技術文献B群に含まれる技術文献を個々にミクロ的に比較する、従来の比較状況を示す図である。
図19に示すように、技術文献A群に記載されている技術に対し、比較対象の技術文献B群の技術とを比較する場合、従来は、技術文献A群に含まれる技術文献(特許公報や技報など)と技術文献B群に含まれる技術文献(特許公報や技報など)を総ての組合せにおいてについて、個々にミクロ的に比較し、これをミクロ的な類似率として数値化し、その平均や分散を求めることにより、2つの技術文献群間の比較数値としていた(例えば、″パテントマップガイダンス”、特許庁、平成14年8月4日検索参照、インターネット<http://www5.ipdl.jpo.go.jp/pmgs1/pmgs1/pmgs>、以下非特許文献1という。)。
特開2000−348015号公報に記載の知的財産評価装置等には、出願中あるいは登録後の発明等に関する知的財産の財産的価値を評価する知的財産評価装置において、実施利益に関するデータを入力する実施利益入力手段と、各年ごとの複利現価率に関するデータを入力する複利現価率入力手段と、前記実施利益入力手段により入力された各年目ごとの複利現価率に関するデータとを乗算して、各年目ごとの補償金年額の複利現価率を算出する複利現価算出手段と、前記複利現価算出手段により算出された各年ごとの補償金年額の複利現価各年ごとに合算することにより知的財産価額を算出する知的財産価格算出手段と、前記知的財産価格算出手段により算出された知的財産価額を出力する出力手段とを備えた知的財産評価装置、知的財産評価方法等が記載されている。
該知的財産評価装置等では、登録された特許と、それに関連する売上高や利益などを減価償却して現在残存している特許の資産的価値を把握しようとするものである。なお、当該発明では、各特許の価値の評価は、自社評価や他社評価などをランク付けして入力したものを寄与度として評価し、具体的な実施権設定がされていない知的財産の資産価値を算出することが可能であるとされている。
特開2001−76042号公報に記載のシステム等では、所定の更新間隔を有する第1のデータと更新間隔が当該第1のデータより短い第2のデータとから、経時的に変動しうる評価項目を評価するシステムであって、(a)サンプル対象の第1のデータの入力に応じて、第1の評価モデルを作成する手段と、(b)前記サンプル対象の第1のデータを第1の評価モデルに適用し、第1の評価出力を算出する手段と、(c)サンプル対象の第2のデータと第1の評価出力の入力に応じて、第2の評価モデルを作成する手段と、(d)評価対象の第1のデータの入力に応じて、当該第1のデータを第1の評価モデルに適用し、第2の評価出力を算出する手段と、(e)前記評価対象の第2のデータと前記第2の評価出力を第2の評価モデルに適用し、当該評価対象の評価出力を算出する手段とを備えた経時的に変動しうる評価対象の評価項目を評価するためのシステム、方法および記録媒体が知られている。
該システムでは、1年単位や四半期単位毎に更新される賃借対照表や損益計算書等からの財務データ等のように、更新間隔が比較的長い第1のデータから算出される格付けデータや倒産確率などの企業評価を行うモデル(静的モデル)と、日々変動する株価や金利、為替等のように更新間隔が比較的短い第2のデータとの入力に基づき、その後の変化を予測して動的に企業評価を行うモデル(動的モデル)の2つの評価モデルについて、評価対象の企業データを適用することにより、適時、最新の企業評価を算出することが可能であるとされている。
また、特開平8−287081号公報、特開2001−337992号公報、特開平10−74205号公報、特開平8−278982号公報、特開平11−73415号公報、及び特開2001−331527号公報では、ある文書や文章と類似する内容の文書や文章を検索する際に、文書や文章同士の類似度や信憑性が高く、高精度に類似文書を検索することが可能な類似文書検索装置や類似検索システム等が紹介されている。
またパテントマップでは、A社に関連した技術文献A群とB社に関連した技術文献B群とでマクロ的な比較を行う必要がある場合に、技術文献A群と技術文献B群に所属する個々の技術文献どうしをミクロ的に比較し、そこからマクロ的に技術文献群間の比較を導き出していた。
図19は、技術文献A群に含まれる技術文献と、技術文献B群に含まれる技術文献を個々にミクロ的に比較する、従来の比較状況を示す図である。
図19に示すように、技術文献A群に記載されている技術に対し、比較対象の技術文献B群の技術とを比較する場合、従来は、技術文献A群に含まれる技術文献(特許公報や技報など)と技術文献B群に含まれる技術文献(特許公報や技報など)を総ての組合せにおいてについて、個々にミクロ的に比較し、これをミクロ的な類似率として数値化し、その平均や分散を求めることにより、2つの技術文献群間の比較数値としていた(例えば、″パテントマップガイダンス”、特許庁、平成14年8月4日検索参照、インターネット<http://www5.ipdl.jpo.go.jp/pmgs1/pmgs1/pmgs>、以下非特許文献1という。)。
特開2000−348015号公報に記載の知的財産評価装置等には、出願中あるいは登録後の発明等に関する知的財産の財産的価値を評価する知的財産評価装置において、実施利益に関するデータを入力する実施利益入力手段と、各年ごとの複利現価率に関するデータを入力する複利現価率入力手段と、前記実施利益入力手段により入力された各年目ごとの複利現価率に関するデータとを乗算して、各年目ごとの補償金年額の複利現価率を算出する複利現価算出手段と、前記複利現価算出手段により算出された各年ごとの補償金年額の複利現価各年ごとに合算することにより知的財産価額を算出する知的財産価格算出手段と、前記知的財産価格算出手段により算出された知的財産価額を出力する出力手段とを備えた知的財産評価装置、知的財産評価方法等が記載されている。
該知的財産評価装置等では、登録された特許と、それに関連する売上高や利益などを減価償却して現在残存している特許の資産的価値を把握しようとするものである。なお、当該発明では、各特許の価値の評価は、自社評価や他社評価などをランク付けして入力したものを寄与度として評価し、具体的な実施権設定がされていない知的財産の資産価値を算出することが可能であるとされている。
特開2001−76042号公報に記載のシステム等では、所定の更新間隔を有する第1のデータと更新間隔が当該第1のデータより短い第2のデータとから、経時的に変動しうる評価項目を評価するシステムであって、(a)サンプル対象の第1のデータの入力に応じて、第1の評価モデルを作成する手段と、(b)前記サンプル対象の第1のデータを第1の評価モデルに適用し、第1の評価出力を算出する手段と、(c)サンプル対象の第2のデータと第1の評価出力の入力に応じて、第2の評価モデルを作成する手段と、(d)評価対象の第1のデータの入力に応じて、当該第1のデータを第1の評価モデルに適用し、第2の評価出力を算出する手段と、(e)前記評価対象の第2のデータと前記第2の評価出力を第2の評価モデルに適用し、当該評価対象の評価出力を算出する手段とを備えた経時的に変動しうる評価対象の評価項目を評価するためのシステム、方法および記録媒体が知られている。
該システムでは、1年単位や四半期単位毎に更新される賃借対照表や損益計算書等からの財務データ等のように、更新間隔が比較的長い第1のデータから算出される格付けデータや倒産確率などの企業評価を行うモデル(静的モデル)と、日々変動する株価や金利、為替等のように更新間隔が比較的短い第2のデータとの入力に基づき、その後の変化を予測して動的に企業評価を行うモデル(動的モデル)の2つの評価モデルについて、評価対象の企業データを適用することにより、適時、最新の企業評価を算出することが可能であるとされている。
また、特開平8−287081号公報、特開2001−337992号公報、特開平10−74205号公報、特開平8−278982号公報、特開平11−73415号公報、及び特開2001−331527号公報では、ある文書や文章と類似する内容の文書や文章を検索する際に、文書や文章同士の類似度や信憑性が高く、高精度に類似文書を検索することが可能な類似文書検索装置や類似検索システム等が紹介されている。
ところが、非特許文献1に記載のパテントマップや特開平8−287081号公報、特開2001−337992号公報、牲開平10−74205号公報、特開平8−278982号公報、特開平11―73415号公報、及び特開2001−331527号公報に記載の発明では、例えば、A社に関連した技術文献A群と、B社に関連した技術文献B群との間で、技術文献に記載されている内容をマクロ的に比較する要求があったとしても、従来は技術文献A群と技術文献B群に所属する個々の技術文献どうしを個々ミクロ的に比較し、その複数の演算結果からマクロ的な技術文献群間の比較を導き出していたため、作業効率が悪いという不具合を生じていた。
また、非特許文献1に記載のパテントマップでは、技術比較において同一又は類似の研究開発テーマの内容ごとに、全体的な動向や分布を知ることが可能であるとされているが、企業間において、企業全体の総技術文献を母集団とした各技術の相対的評価を算出することができないため、無形資産の価値評価手法として、定量的、定性的な結果を得られず、信託や投資の評価の対象、企業の特許戦略の決め手となる技術評価の指標を算出することができないという不具合を生じていた。
また、このミクロ的な類似率を平均する計算方法を用いると、例えば図19に示す場合において、技術文献群Aと技術文献B群とが全く異なる場合には、類似率は0と算出される。また、全ての組合せで求めた平均の類似率も0となるので問題ないように見える。
ところが、第1の技術文献群と第2の技術文献群とがまったく同一の場合であっても、第1の技術文献群に含まれる技術文献A1に対して第2の技術文献群に含まれる技術文献献B1,B2,B3,B4のミクロ的な類似率を求めると、2つの技術文献が全ぐ同一の場合(A1=B1など)にはA1とB1との類似率は1と算出されるが、それ以外の場合には一般に類似率が1になることはない。更にA1以外の、A2、A3、A4などに対する総ての組合せで求めた平均類似率は、1とそれ以下の数値の平均となるので、やはり類似率が1と算出されることはないという不具合を生じる。
また、技術文献の総数が数万件以上となる場合のように、多量の技術文献どうしについて類似率を算出する際には、全ての技術文献の組合せについて類似率を計算する必要があるので、類似率を算出するにあたっての計算量が膨大となるために、計算時間が多く必要となり、類似率の計算結果を素早く表示することができないという不具合を生じている。
また従来のように類似率を算出するにあたり、調査対象と母集団の技術文献をキーワードで切り分け、個々のキーワードが含まれる技術文献の数量と、技術文献の総数との比率を演算し、キーワード総てについて演算した比率を平均して類似率を算出する方法では、キーワードの重要性に応じた重み付けを行なわないと、算出される類似率と実際の感覚的な類似率との差が大きく開いてしまうという不具合を生じている。
この重み付けをしたキーワードを用いて類似率を算出する際に、全キーワードについてオペレータが重み付けを行なってシソーラス辞書を作成し、その重み付けに基づいて類似率を算出することが可能である。これは理論的に可能ではあるが、実際に膨大な量のキーワードのそれぞれに重みを付けることは結構大変な作業(至難の業)であるし、処理の自動化にはそぐわない。また、個々の技術文献毎に類似率が算出されることには変わりないので、結局は技術文献同士をミクロ的に比較しているにすぎないという不具合を生じていた。
また、非特許文献1に記載のパテントマップでは、パテントマップ作成支援ソフトの価格が、約15万〜50万円程度であり、その操作には、コンピュータだけでなく特許請求の範囲、図面等を読み取る等高度な技術力と知識力を必要とする。特許調査機関で依頼する場合でも、1件あたり30万円以上の費用が必要であるとともに、約1ヶ月以上作成時間が必要となる。
従って、資本金や開発費の少ないベンチャー企業等が利用する場合、あるいは出願を急ぐ場合には、パテントマップの利用が制限されることが想定される。
また、従来の知的財産評価装置等では、製品等の研究開発の着手前に、過去から最近の情報を広く収集して、競合他社の技術動向の分析や、技術レベルを把握する技術動向調査等の調査を行いにくいという不具合を生じていた。
近年、企業価値に占める無形資産(インタンジブル・アセット)の割合が大きくなるにつれ、無形資産の価値が企業価値を大きく左右するようになってきた。
従って、信託会社は信託の対象に、投資家は投資の対象に、企業は知的財産から産出される利益を重視すべく特許戦略の動向の対象に、それぞれ無形財産を指標として用いる傾向にある。
しかし従来は、投資の参考にするために、技術文献一般を用いて企業の保有する無形財産を比較するための適切な指標が存在していなかった。
特に、生き残りをかけた企業経営において、新規事業参入や新製品の開発に着手する前段階において開発費を充てる価値のある技術分野なのか、特許出願すべき価値があるのか、出願審査の請求をすべきか否か、権利化の可能性があるのか、ライセンス交渉をした場合の方が利益率が高いか否か等の特許戦略を検討するための指標の存在が、非常に重要となってきている。
そこで本発明は、上記従来の状況に鑑み、企業間において、特許公報等に限られない広範な技術文献群同士を比較し、人の感覚と一致する適当な類似率を算出することによって、定量的、定性的かつ相対的な無形資産の価値を評価することが可能な指標を算出するための類似率算出装置、類似率算出プログラム並びに類似率算出方法を提供することを目的としている。
また本発明は、第1の技術文献群と第2の技術文献群とが全く違ったときだけは類似率が0と算出されるとともに、第1の技術文献群と第2の技術文献群とが同一のときだけは類似率が1と算出されうるものであって、大量で時間のかかる計算を必要とせず、分析者の恣意が混入することによって算出される類似率の値が変わる可能性が少なく、第1の技術文献群と第2の技術文献群との間でマクロ的な類似性の比較結果を算出することが可能な類似率算出装置、類似率算出プログラム並びに類似率算出方法を提供することを目的としている。
また本発明では、比較する技術文献の総数が数万件以上となる場合であっても、比較的短い計算時間で類似率を算出することが可能な類似率算出装置、類似率算出プログラム並びに類似率算出方法を提供することを目的としている。
また本発明では、技術文献群同士をマクロ的に比較することが可能な類似率算出装置、類似率算出プログラム並びに類似率算出方法を提供することを目的としている。
また本発明では、無体財産により企業価値を見極める要求のある投資家等や一般の実務者にも容易に扱うことが可能な類似率算出装置、類似率算出プログラム並びに類似率算出方法を提供することを目的としている。
上記課題を解決するために本発明は、特許文献又は技報等の技術文献から構成される第1の技術文献群と第2の技術文献群との技術的な類似性を判断するための指標を算出する類似率算出装置であって、比較対象となる第1の技術文献群及び第2の技術文献群を入力する技術文献群入力手段と、キーワードやIPCなどの技術情報を入力する技術情報入力手段と、第1の技術文献群及び第2の技術文献群に含まれる技術文献について前記入力した技術情報を含む技術文献を検索して該検索した技術文献をそれぞれの技術情報毎にクラスタ分解するクラスタ分解手段と、前記クラスタ分解した結果得られた全クラスタ数と第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数との比を類似率として算出する類似率算出手段と、前記算出した類似率を記録手段、表示手段、又は通信手段に出力する出力手段とを備えたことを特徴とする。
また上記課題を解決するために本発明は、比較対象となる第1の技術文献群及び第2の技術文献群を入力する技術文献群入力手段と、キーワードやIPCなどの技術情報を入力する技術情報入力手段と、第1の技術文献群及び第2の技術文献群に含まれる技術文献について前記入力した技術情報を含む技術文献を検索して該検索した技術文献をそれぞれの技術情報毎にクラスタ分解するクラスタ分解手段と、前記クラスタ分解した結果得られた全クラスタ数と第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに、各混在クラスタに含まれる技術文献の量に応じた値を取る第1の補正値と各混在クラスタに含まれる第1の技術文献群の技術文献と第2の技術文献群の技術文献との混ざり具合に応じた値を取る第2の補正値とを乗算したものを各混在クラスタについて総和を算出し、前記算出した全クラスタ数で除算して類似率を算出する類似率算出手段と、前記算出した類似率を記録手段、表示手段、又は通信手段に出力する出力手段とを備えたことを特徴とする。
また上記課題を解決するために本発明は、比較対象となる第1の技術文献群及び第2の技術文献群を入力する技術文献群入力手段と、キーワードやIPCなどの技術情報を入力する技術情報入力手段と、第1の技術文献群及び第2の技術文献群に含まれる技術文献について前記入力した技術情報を含む技術文献を検索して該検索した技術文献をそれぞれの技術情報毎にクラスタ分解するクラスタ分解手段と、前記クラスタ分解した結果得られた全クラスタ数と第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに、個々のクラスタ内の技術文献数のα乗(但し、0<α)に比例した補正値を各混在クラスタについて総和を算出し、全クラスタ数で除算して類似率を算出する類似率算出手段と、前起算出した類似率を記録手段、表示手段、又は通信手段に出力する出力手段とを備えたことを特徴とする。
また上記課題を解決するために本発明は、比較対象となる第1の技術文献群及び第2の技術文献群を入力する技術文献群入力手段と、キーワードやIPCなどの技術情報を入力する技術情報入力手段と第1の技術文献群及び第2の技術文献群に含まれる技術文献について前記入力した技術情報を含む技術文献を検索して該検索した技術文献をそれぞれの技術情報毎にクラスタ分解するクラスタ分解手段と、前記クラスタ分解した結果得られた全クラスタ数と第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに、個々のクラスタ内の技術文献数のα乗(但し、0<α)を、全クラスタ内の技術文献数の平均値等の規格化因子で除算した補正値を各混在クラスタについて総和を算出し、全クラスタ数で除算して類似率を算出する類似率算出手段と、前記算出した類似率を記録手段、表示手段、又は通信手段に出力する出力手段とを備えたことを特徴とする。
また上記課題を解決するために本発明は、比較対象となる第1の技術文献群及び第2の技術文献群を入力する技術文献群入力手段と、キーワードやIPCなどの技術情報を入力する技術情報入力手段と、第1の技術文献群及び第2の技術文献群に含まれる技術文献について前記入力した技術情報を含む技術文献を検索して該検索した技術文献をそれぞれの技術情報毎にクラスタ分解するクラスタ分解手段と、前記クラスタ分解した結果得られた全クラスタ数と第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに、前記クラスタ分解した結果得られた混在クラスタに含まれる第1の技術文献群及び第2の技術文献群の技術文献数の確率に応じて補正するために、第1の技術文献群の中からm個、第2の技術文献群の中からn個の技術文献を取り出す確率のγ乗(但し、0<γ)に比例した補正値を各混在クラスタについて総和を算出し、前記算出した全クラスタ数で除算して類似率を算出する類似率算出手段と、前記算出した類似率を記録手段、表示手段、又は通信手段に出力する出力手段とを備えたことを特徴とする。
また上記課題を解決するために本発明は、比較対象となる第1の技術文献群及び第2の技術文献群を入力する技術文献群入力手段と、キーワードやIPCなどの技術情報を入力する技術情報入力手段と、第1の技術文献群及び第2の技術文献群に含まれる技術文献について前記入力した技術情報を含む技術文献を検索して該検索した技術文献をそれぞれの技術情報毎にクラスタ分解するクラスタ分解手段と、前記クラスタ分解した結果得られた全クラスタ数と第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに前記クラスタ分解した結果得られた混在クラスタに含まれる第1の技術文献群及び第2の技術文献群の技術文献数の確率に応じて補正するために、第1の技術文献群の中からm個、第2の技術文献群の中からn個の技術文献を取り出す確率のγ乗(但し、0<γ)を規格化因子で除算した補正値を各混在クラスタについて総和を算出し、前記算出した全クラスタ数で除算して類似率を算出する類似率算出手段と、前記算出した類似率を記録手段、表示手段、又は通信手段に出力する出力手段とを備えたことを特徴とする。また本発明は、前記規烙化因子を、第1の技術文献群の中からm個、第2の技術文献群の中からn個の技術文献を取り出す確率の最大値のγ乗(但し、0<γ)としたことを特徴としている。
また上記課題を解決するために本発明は、比較対象となる第1の技術文献群及び第2の技術文献群を入力する技術文献群入力手段と、キーワードやIPCなどの技術情報を入力する技術情報入力手段と、第1の枝術文献群及び第2の技術文献群に含まれる技術文献について、前記入力した技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解するクラスタ分解手段と、前記クラスタ分解した結果得られた全クラスク数と第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに、第1の技術文献群に含まれる技術文献数Mと第2の技術文献群に含まれる技術文献数Nとの構成比、N/Mと、前記クラスタ分解した結果得られた混在クラスタに含まれる第1の技術文献群の技術文献数mと第2の技術文献群の技術文献数nの混在比、n/mとについて、更に構成比と混在比との比を取ったもののζ乗(但し、0<ζ)に比例した補正値を各混在クラスタについて総和を算出し、前記算出した全クラスタ数で除算して類似率を算出する類似率算出手段と、前記算出した類似率を記録手段、表示手段、又は通信手段に出力する出力手段とを備えたことを特徴とする。
また上記課題を解決するために本発明は、比較対象となる第1の技術文献群及び第2の技術文献群を入力する技術文献群入力手段と、キーワードやIPCなどの技術情報を入力する技術情報入力手段と、第1の技術文献群及び第2の技術文献群に含まれる技術文献について前記入力した技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解するクラスタ分解手段と、前記クラスタ分解した結果得られた全クラスタ数と第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに、第1の技術文献群と第2の技術文献群とを混合した技術文献群の中から、第1の技術文献群の技術文献を取り出す確率に、前記クラスタ分解した混在クラスタに含まれる技術文献数を乗算して第1の技術文献群の技術文献を取り出す期待値を算出し、前記期待値と混合クラスタに含まれる第1の技術文献群の技術文献数との差を期待値差として算出し、その期待値差を任意定数ξ(但し、1<ξ)の負の指数とした補正値を各混在クラスタについて総和を算出し、前記算出した全クラスタ数で除算して類似率を算出する類似率算出手段と、前記算出した類似率を記録手段、表示手段、又は通信手段に出力する出力手段とを備えたことを特徴とする。
また上記課題を解決するために本発明は、比較対象となる第1の技術文献群及び第2の技術文献群を入力する技術文献群入力手段と、キーワードやIPCなどの技術情報を入力する技術情報入力手段と、第1の技術文献群及び第2の技術文献群に含まれる技術文献について前記入力した技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解するクラスタ分解手段と、前記クラスタ分解した結果得られた全クラスタ数と第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在ククスタ数を算出するとともに、第1の技術文献群と第2の技術文献群とを混合した技術文献群の中から、第1の技術文献群の技術文献を取り出す確率に、前記クラスタ分解した混在クラスタに含まれる技術文献数を乗算して第1の技術文献群の技術文献を取り出す期待値を算出し、前記期待値と混合クラスタに含まれる第1の技術文献群の技術文献数との差を期待値差として算出し、その期待値差を混在クラスタに含まれる技術文献数で除算したものを任意定数ξ(但し、1<ξ)の負の指数とした補正値とし、これを各混在クラスタについて総和を算出し、更に前期算出した全クラスタ数で除算して類似率を算出する類似率算出手段と、前記算出した類似率を記録手段、表示手段、又は通信手段に出力する出力手段とを備えたことを特徴とする。
本発明によれば、特許文献又は技報等の技術文献から構成される第1の技術文献群と第2の技術文献群との技術的な類似性を判断するための指標を算出する類似率算出装置であって、比較対象となる第1の技術文献群及び第2の技術文献群を入力する技術文献群入力手段と、キーワードやIPCなどの技術情報を入力する技術情報入力手段と、第1の技術文献群及び第2の技術文献群に含まれる技術文献について前記入力した技術情報を含む技術文献を検索して該検索した技術文献をそれぞれの技術情報毎にクラスタ分解するクラスタ分解手段と、前記クラスタ分解した結果得られた全クラスタ数と第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数との比を類似率として算出する類似率算出手段と、前記算出した類似率を記録手段、表示手段、又は通信手段に出力する出力手段とを備えたので、その分解した全クラスタ数と混在クラスタ数の比に基づいて、技術文献群に記載されている技術内容の類似性を示す指標を簡便に算出することが可能となる。
また本発明によれば、類似率算出手段に各混在クラスタに含まれる技術文献の量に応じた値を取る第1の補正値と、各混在クラスタに含まれる第1の技術文献群の技術文献と第2の技術文献群の技術文献との混ざり具合に応じた値を取る第2の補正値とを乗算したものを、各混在クラスタについて総和を算出して、全クラスタ数で除算して類似率を算出する機能を設けたので、補正項1の存在により混在クラスタに含まれる技術文献の量に応じて重要度が高いことを意味付ける補正が可能となるとともに、補正項2の存在により混在クラスタに含まれる技術文献の割合が所定の量に近い程、重要なクラスタであるとして、類似率が高い値を示すように重い重み付けをして、類似率の算出結果を、より人の感覚に合うように補正することが可能となる。
従って、補正項1及び補正項2を用いて類似率を算出することによって、技術文献数量の多い混在クラスタを重要視して類似率を補正するとともに、技術文献の混ざり具合が不均一な場合には、類似率を小さい値に補正することが可能となる。
また本発明によれば、類似率算出手段に個々のクラスタ内の技術文献数のα乗(但し、0<α)に比例した補正値を各混在クラスタについて総和を算出し、全クラスタ数で除算して類似率を算出する機能を設けたので、クラスタ内の技術文献数が多いほど重要なクラスタであるとするような類似率を算出することが可能となる。
また本発明によれば、類似率算出手段に個々のクラスタ内の技術文献数のα乗(但し、0<α)を、全クラスタ数等の規格化因子で徐算して類似率を算出する機能を備えたので、0≦類似率≦1を保証することが可能となる。また、規格化因子として全クラスタ内の技術文献数の平均値を配置したので、全クラスタ内の技術文献数の平均値を基準として技術文献の量の多少を算出することが可能となる。
また本発明によれば類似率算出手段に、第1の技術文献群の中からm個、第2の技術文献群の中からn個の技術文献を取り出す確率のγ乗(但し、0<γ)に比例した補正値を各混在クラスタについて総和を算出し、全クラスタ数で除算して類似率を算出する機能を設けた。すなわち、類似率算出手段に(A群の中からm個、B群の中からn個の技術文献を取り出す組合せの数)/(A群とB群とを混ぜ合わせた中からm+n個の技術文献を取り出す組合せ数)を分子に配置した演算を行なう機能を備えたので、混在クラスタに含まれるA群及びB群の技術文献数の偏り(作為性)に応じて、偏り大の場合は小さい補正値に、偏り小の場合は大きい補正値に類似率を補正することが可能となる。また、規格化因子として、第1の技術文献群の中からm個、第2の技術文献群の中からn個の技術文献を取り出す確率の最大値のγ乗(但し、0<γ)を配置したので、類似率の算出範囲として0≦類似率≦1を保証することが可能となる。
また本発明によれば類似率算出手段に、第1の技術文献群に含まれる技術文献数Mと第2の技術文献群に含まれる技術文献数Nとの構成比、N/Mと、クラスタ分解した結果得られた混在クラスタに含まれる第1の技術文献群の技術文献数mと第2の技術文献群の技術文献数nの混在比、n/mとについて、更に構成比と混在比との比を取ったもののζ乗(但し、0<ζ)に比例した補正値を各混在クラスタについて総和を算出し、全クラスタ数で除算して類似率を算出する機能を備えたので、A群とB群の技術文献数量の構成比と各クラスタ内における技術文献同士の混在比が同じであるほど類似率を高く算出する(1に近づける)ことが可能となる。
また、構成比と混在比との比の指数ζをζ>1に設定することによって、A群とB群の技術文献数量の比と、各クラスタ内におけける技術文献同士の混在比との比が小さい混在クラスタの影響を、類似率の算出結果に大きく反映させないようにすることが可能となる。
また、指数ζをζ=1に設定することによって、単純にA群とB群の技術文献数量の構成比と、各クラスタ内における技術文献同士の混在比との比に応じて類似率を増減させることが可能となる。
また、分子の指数を0<ζ<1に設定することによって、A群とB群の技術文献数量の構成比と、各クラスタ内における技術文献同士の混在比との比が大きい場合に類似率の算出結果に対する影響を少なくすることが可能となる。
また本発明によれば類似率算出手段に、第1の技術文献群と第2の技術文献群とを混合した技術文献群の中から第1の技術文献群の技術文献を取り出す確率に前記クラスタ分解した混在クラスタに含まれる技術文献数を乗算して第1の技術文献群の技術文献を取り出す期待値を算出し、前記期待値と混合クラスタに含まれる第1の技術文献群の技術文献数との差を期待値差として算出し、その期待値差を任意定数ξ(但し、1<ξ)の負の指数とした補正値を、各混在クラスタについて総和を算出し、全クラスタ数で除算して類似率と算出するようにしたので、ξの値の設定に応じて期待値差に対する類似率の算出結果を敏感に反応させる補正を行なうことが可能となる。
また本発明によれば類似率算出手段に、第1の技術文献群と第2の技術文献群とを混合した技術文献群の中から第1の技術文献群の技術文献を取り出す確率に前記クラスタ分解した混在クラスタに含まれる技術文献数を乗算して第1の技術文献群の技術文献を取り出す期待値を算出し、前記期待値と混合クラスタに含まれる第1の技術文献群の技術文献数との差を期待値差として算出し、その期待値差を混在クラスタに含まれる技術文献数で除算したものを、任意定数ξ(但し、1<ξ)の負の指数とした補正値とし、これを各混在クラスタについて総和を算出し、更に全クラスタ数で除算して類似率と算出するようにしたので、ξの値の設定に応じて期待値差に対する類似率の算出結果を敏感に反応させる補正を行なうことが可能となる。
また、非特許文献1に記載のパテントマップでは、技術比較において同一又は類似の研究開発テーマの内容ごとに、全体的な動向や分布を知ることが可能であるとされているが、企業間において、企業全体の総技術文献を母集団とした各技術の相対的評価を算出することができないため、無形資産の価値評価手法として、定量的、定性的な結果を得られず、信託や投資の評価の対象、企業の特許戦略の決め手となる技術評価の指標を算出することができないという不具合を生じていた。
また、このミクロ的な類似率を平均する計算方法を用いると、例えば図19に示す場合において、技術文献群Aと技術文献B群とが全く異なる場合には、類似率は0と算出される。また、全ての組合せで求めた平均の類似率も0となるので問題ないように見える。
ところが、第1の技術文献群と第2の技術文献群とがまったく同一の場合であっても、第1の技術文献群に含まれる技術文献A1に対して第2の技術文献群に含まれる技術文献献B1,B2,B3,B4のミクロ的な類似率を求めると、2つの技術文献が全ぐ同一の場合(A1=B1など)にはA1とB1との類似率は1と算出されるが、それ以外の場合には一般に類似率が1になることはない。更にA1以外の、A2、A3、A4などに対する総ての組合せで求めた平均類似率は、1とそれ以下の数値の平均となるので、やはり類似率が1と算出されることはないという不具合を生じる。
また、技術文献の総数が数万件以上となる場合のように、多量の技術文献どうしについて類似率を算出する際には、全ての技術文献の組合せについて類似率を計算する必要があるので、類似率を算出するにあたっての計算量が膨大となるために、計算時間が多く必要となり、類似率の計算結果を素早く表示することができないという不具合を生じている。
また従来のように類似率を算出するにあたり、調査対象と母集団の技術文献をキーワードで切り分け、個々のキーワードが含まれる技術文献の数量と、技術文献の総数との比率を演算し、キーワード総てについて演算した比率を平均して類似率を算出する方法では、キーワードの重要性に応じた重み付けを行なわないと、算出される類似率と実際の感覚的な類似率との差が大きく開いてしまうという不具合を生じている。
この重み付けをしたキーワードを用いて類似率を算出する際に、全キーワードについてオペレータが重み付けを行なってシソーラス辞書を作成し、その重み付けに基づいて類似率を算出することが可能である。これは理論的に可能ではあるが、実際に膨大な量のキーワードのそれぞれに重みを付けることは結構大変な作業(至難の業)であるし、処理の自動化にはそぐわない。また、個々の技術文献毎に類似率が算出されることには変わりないので、結局は技術文献同士をミクロ的に比較しているにすぎないという不具合を生じていた。
また、非特許文献1に記載のパテントマップでは、パテントマップ作成支援ソフトの価格が、約15万〜50万円程度であり、その操作には、コンピュータだけでなく特許請求の範囲、図面等を読み取る等高度な技術力と知識力を必要とする。特許調査機関で依頼する場合でも、1件あたり30万円以上の費用が必要であるとともに、約1ヶ月以上作成時間が必要となる。
従って、資本金や開発費の少ないベンチャー企業等が利用する場合、あるいは出願を急ぐ場合には、パテントマップの利用が制限されることが想定される。
また、従来の知的財産評価装置等では、製品等の研究開発の着手前に、過去から最近の情報を広く収集して、競合他社の技術動向の分析や、技術レベルを把握する技術動向調査等の調査を行いにくいという不具合を生じていた。
近年、企業価値に占める無形資産(インタンジブル・アセット)の割合が大きくなるにつれ、無形資産の価値が企業価値を大きく左右するようになってきた。
従って、信託会社は信託の対象に、投資家は投資の対象に、企業は知的財産から産出される利益を重視すべく特許戦略の動向の対象に、それぞれ無形財産を指標として用いる傾向にある。
しかし従来は、投資の参考にするために、技術文献一般を用いて企業の保有する無形財産を比較するための適切な指標が存在していなかった。
特に、生き残りをかけた企業経営において、新規事業参入や新製品の開発に着手する前段階において開発費を充てる価値のある技術分野なのか、特許出願すべき価値があるのか、出願審査の請求をすべきか否か、権利化の可能性があるのか、ライセンス交渉をした場合の方が利益率が高いか否か等の特許戦略を検討するための指標の存在が、非常に重要となってきている。
そこで本発明は、上記従来の状況に鑑み、企業間において、特許公報等に限られない広範な技術文献群同士を比較し、人の感覚と一致する適当な類似率を算出することによって、定量的、定性的かつ相対的な無形資産の価値を評価することが可能な指標を算出するための類似率算出装置、類似率算出プログラム並びに類似率算出方法を提供することを目的としている。
また本発明は、第1の技術文献群と第2の技術文献群とが全く違ったときだけは類似率が0と算出されるとともに、第1の技術文献群と第2の技術文献群とが同一のときだけは類似率が1と算出されうるものであって、大量で時間のかかる計算を必要とせず、分析者の恣意が混入することによって算出される類似率の値が変わる可能性が少なく、第1の技術文献群と第2の技術文献群との間でマクロ的な類似性の比較結果を算出することが可能な類似率算出装置、類似率算出プログラム並びに類似率算出方法を提供することを目的としている。
また本発明では、比較する技術文献の総数が数万件以上となる場合であっても、比較的短い計算時間で類似率を算出することが可能な類似率算出装置、類似率算出プログラム並びに類似率算出方法を提供することを目的としている。
また本発明では、技術文献群同士をマクロ的に比較することが可能な類似率算出装置、類似率算出プログラム並びに類似率算出方法を提供することを目的としている。
また本発明では、無体財産により企業価値を見極める要求のある投資家等や一般の実務者にも容易に扱うことが可能な類似率算出装置、類似率算出プログラム並びに類似率算出方法を提供することを目的としている。
上記課題を解決するために本発明は、特許文献又は技報等の技術文献から構成される第1の技術文献群と第2の技術文献群との技術的な類似性を判断するための指標を算出する類似率算出装置であって、比較対象となる第1の技術文献群及び第2の技術文献群を入力する技術文献群入力手段と、キーワードやIPCなどの技術情報を入力する技術情報入力手段と、第1の技術文献群及び第2の技術文献群に含まれる技術文献について前記入力した技術情報を含む技術文献を検索して該検索した技術文献をそれぞれの技術情報毎にクラスタ分解するクラスタ分解手段と、前記クラスタ分解した結果得られた全クラスタ数と第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数との比を類似率として算出する類似率算出手段と、前記算出した類似率を記録手段、表示手段、又は通信手段に出力する出力手段とを備えたことを特徴とする。
また上記課題を解決するために本発明は、比較対象となる第1の技術文献群及び第2の技術文献群を入力する技術文献群入力手段と、キーワードやIPCなどの技術情報を入力する技術情報入力手段と、第1の技術文献群及び第2の技術文献群に含まれる技術文献について前記入力した技術情報を含む技術文献を検索して該検索した技術文献をそれぞれの技術情報毎にクラスタ分解するクラスタ分解手段と、前記クラスタ分解した結果得られた全クラスタ数と第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに、各混在クラスタに含まれる技術文献の量に応じた値を取る第1の補正値と各混在クラスタに含まれる第1の技術文献群の技術文献と第2の技術文献群の技術文献との混ざり具合に応じた値を取る第2の補正値とを乗算したものを各混在クラスタについて総和を算出し、前記算出した全クラスタ数で除算して類似率を算出する類似率算出手段と、前記算出した類似率を記録手段、表示手段、又は通信手段に出力する出力手段とを備えたことを特徴とする。
また上記課題を解決するために本発明は、比較対象となる第1の技術文献群及び第2の技術文献群を入力する技術文献群入力手段と、キーワードやIPCなどの技術情報を入力する技術情報入力手段と、第1の技術文献群及び第2の技術文献群に含まれる技術文献について前記入力した技術情報を含む技術文献を検索して該検索した技術文献をそれぞれの技術情報毎にクラスタ分解するクラスタ分解手段と、前記クラスタ分解した結果得られた全クラスタ数と第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに、個々のクラスタ内の技術文献数のα乗(但し、0<α)に比例した補正値を各混在クラスタについて総和を算出し、全クラスタ数で除算して類似率を算出する類似率算出手段と、前起算出した類似率を記録手段、表示手段、又は通信手段に出力する出力手段とを備えたことを特徴とする。
また上記課題を解決するために本発明は、比較対象となる第1の技術文献群及び第2の技術文献群を入力する技術文献群入力手段と、キーワードやIPCなどの技術情報を入力する技術情報入力手段と第1の技術文献群及び第2の技術文献群に含まれる技術文献について前記入力した技術情報を含む技術文献を検索して該検索した技術文献をそれぞれの技術情報毎にクラスタ分解するクラスタ分解手段と、前記クラスタ分解した結果得られた全クラスタ数と第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに、個々のクラスタ内の技術文献数のα乗(但し、0<α)を、全クラスタ内の技術文献数の平均値等の規格化因子で除算した補正値を各混在クラスタについて総和を算出し、全クラスタ数で除算して類似率を算出する類似率算出手段と、前記算出した類似率を記録手段、表示手段、又は通信手段に出力する出力手段とを備えたことを特徴とする。
また上記課題を解決するために本発明は、比較対象となる第1の技術文献群及び第2の技術文献群を入力する技術文献群入力手段と、キーワードやIPCなどの技術情報を入力する技術情報入力手段と、第1の技術文献群及び第2の技術文献群に含まれる技術文献について前記入力した技術情報を含む技術文献を検索して該検索した技術文献をそれぞれの技術情報毎にクラスタ分解するクラスタ分解手段と、前記クラスタ分解した結果得られた全クラスタ数と第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに、前記クラスタ分解した結果得られた混在クラスタに含まれる第1の技術文献群及び第2の技術文献群の技術文献数の確率に応じて補正するために、第1の技術文献群の中からm個、第2の技術文献群の中からn個の技術文献を取り出す確率のγ乗(但し、0<γ)に比例した補正値を各混在クラスタについて総和を算出し、前記算出した全クラスタ数で除算して類似率を算出する類似率算出手段と、前記算出した類似率を記録手段、表示手段、又は通信手段に出力する出力手段とを備えたことを特徴とする。
また上記課題を解決するために本発明は、比較対象となる第1の技術文献群及び第2の技術文献群を入力する技術文献群入力手段と、キーワードやIPCなどの技術情報を入力する技術情報入力手段と、第1の技術文献群及び第2の技術文献群に含まれる技術文献について前記入力した技術情報を含む技術文献を検索して該検索した技術文献をそれぞれの技術情報毎にクラスタ分解するクラスタ分解手段と、前記クラスタ分解した結果得られた全クラスタ数と第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに前記クラスタ分解した結果得られた混在クラスタに含まれる第1の技術文献群及び第2の技術文献群の技術文献数の確率に応じて補正するために、第1の技術文献群の中からm個、第2の技術文献群の中からn個の技術文献を取り出す確率のγ乗(但し、0<γ)を規格化因子で除算した補正値を各混在クラスタについて総和を算出し、前記算出した全クラスタ数で除算して類似率を算出する類似率算出手段と、前記算出した類似率を記録手段、表示手段、又は通信手段に出力する出力手段とを備えたことを特徴とする。また本発明は、前記規烙化因子を、第1の技術文献群の中からm個、第2の技術文献群の中からn個の技術文献を取り出す確率の最大値のγ乗(但し、0<γ)としたことを特徴としている。
また上記課題を解決するために本発明は、比較対象となる第1の技術文献群及び第2の技術文献群を入力する技術文献群入力手段と、キーワードやIPCなどの技術情報を入力する技術情報入力手段と、第1の枝術文献群及び第2の技術文献群に含まれる技術文献について、前記入力した技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解するクラスタ分解手段と、前記クラスタ分解した結果得られた全クラスク数と第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに、第1の技術文献群に含まれる技術文献数Mと第2の技術文献群に含まれる技術文献数Nとの構成比、N/Mと、前記クラスタ分解した結果得られた混在クラスタに含まれる第1の技術文献群の技術文献数mと第2の技術文献群の技術文献数nの混在比、n/mとについて、更に構成比と混在比との比を取ったもののζ乗(但し、0<ζ)に比例した補正値を各混在クラスタについて総和を算出し、前記算出した全クラスタ数で除算して類似率を算出する類似率算出手段と、前記算出した類似率を記録手段、表示手段、又は通信手段に出力する出力手段とを備えたことを特徴とする。
また上記課題を解決するために本発明は、比較対象となる第1の技術文献群及び第2の技術文献群を入力する技術文献群入力手段と、キーワードやIPCなどの技術情報を入力する技術情報入力手段と、第1の技術文献群及び第2の技術文献群に含まれる技術文献について前記入力した技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解するクラスタ分解手段と、前記クラスタ分解した結果得られた全クラスタ数と第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに、第1の技術文献群と第2の技術文献群とを混合した技術文献群の中から、第1の技術文献群の技術文献を取り出す確率に、前記クラスタ分解した混在クラスタに含まれる技術文献数を乗算して第1の技術文献群の技術文献を取り出す期待値を算出し、前記期待値と混合クラスタに含まれる第1の技術文献群の技術文献数との差を期待値差として算出し、その期待値差を任意定数ξ(但し、1<ξ)の負の指数とした補正値を各混在クラスタについて総和を算出し、前記算出した全クラスタ数で除算して類似率を算出する類似率算出手段と、前記算出した類似率を記録手段、表示手段、又は通信手段に出力する出力手段とを備えたことを特徴とする。
また上記課題を解決するために本発明は、比較対象となる第1の技術文献群及び第2の技術文献群を入力する技術文献群入力手段と、キーワードやIPCなどの技術情報を入力する技術情報入力手段と、第1の技術文献群及び第2の技術文献群に含まれる技術文献について前記入力した技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解するクラスタ分解手段と、前記クラスタ分解した結果得られた全クラスタ数と第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在ククスタ数を算出するとともに、第1の技術文献群と第2の技術文献群とを混合した技術文献群の中から、第1の技術文献群の技術文献を取り出す確率に、前記クラスタ分解した混在クラスタに含まれる技術文献数を乗算して第1の技術文献群の技術文献を取り出す期待値を算出し、前記期待値と混合クラスタに含まれる第1の技術文献群の技術文献数との差を期待値差として算出し、その期待値差を混在クラスタに含まれる技術文献数で除算したものを任意定数ξ(但し、1<ξ)の負の指数とした補正値とし、これを各混在クラスタについて総和を算出し、更に前期算出した全クラスタ数で除算して類似率を算出する類似率算出手段と、前記算出した類似率を記録手段、表示手段、又は通信手段に出力する出力手段とを備えたことを特徴とする。
本発明によれば、特許文献又は技報等の技術文献から構成される第1の技術文献群と第2の技術文献群との技術的な類似性を判断するための指標を算出する類似率算出装置であって、比較対象となる第1の技術文献群及び第2の技術文献群を入力する技術文献群入力手段と、キーワードやIPCなどの技術情報を入力する技術情報入力手段と、第1の技術文献群及び第2の技術文献群に含まれる技術文献について前記入力した技術情報を含む技術文献を検索して該検索した技術文献をそれぞれの技術情報毎にクラスタ分解するクラスタ分解手段と、前記クラスタ分解した結果得られた全クラスタ数と第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数との比を類似率として算出する類似率算出手段と、前記算出した類似率を記録手段、表示手段、又は通信手段に出力する出力手段とを備えたので、その分解した全クラスタ数と混在クラスタ数の比に基づいて、技術文献群に記載されている技術内容の類似性を示す指標を簡便に算出することが可能となる。
また本発明によれば、類似率算出手段に各混在クラスタに含まれる技術文献の量に応じた値を取る第1の補正値と、各混在クラスタに含まれる第1の技術文献群の技術文献と第2の技術文献群の技術文献との混ざり具合に応じた値を取る第2の補正値とを乗算したものを、各混在クラスタについて総和を算出して、全クラスタ数で除算して類似率を算出する機能を設けたので、補正項1の存在により混在クラスタに含まれる技術文献の量に応じて重要度が高いことを意味付ける補正が可能となるとともに、補正項2の存在により混在クラスタに含まれる技術文献の割合が所定の量に近い程、重要なクラスタであるとして、類似率が高い値を示すように重い重み付けをして、類似率の算出結果を、より人の感覚に合うように補正することが可能となる。
従って、補正項1及び補正項2を用いて類似率を算出することによって、技術文献数量の多い混在クラスタを重要視して類似率を補正するとともに、技術文献の混ざり具合が不均一な場合には、類似率を小さい値に補正することが可能となる。
また本発明によれば、類似率算出手段に個々のクラスタ内の技術文献数のα乗(但し、0<α)に比例した補正値を各混在クラスタについて総和を算出し、全クラスタ数で除算して類似率を算出する機能を設けたので、クラスタ内の技術文献数が多いほど重要なクラスタであるとするような類似率を算出することが可能となる。
また本発明によれば、類似率算出手段に個々のクラスタ内の技術文献数のα乗(但し、0<α)を、全クラスタ数等の規格化因子で徐算して類似率を算出する機能を備えたので、0≦類似率≦1を保証することが可能となる。また、規格化因子として全クラスタ内の技術文献数の平均値を配置したので、全クラスタ内の技術文献数の平均値を基準として技術文献の量の多少を算出することが可能となる。
また本発明によれば類似率算出手段に、第1の技術文献群の中からm個、第2の技術文献群の中からn個の技術文献を取り出す確率のγ乗(但し、0<γ)に比例した補正値を各混在クラスタについて総和を算出し、全クラスタ数で除算して類似率を算出する機能を設けた。すなわち、類似率算出手段に(A群の中からm個、B群の中からn個の技術文献を取り出す組合せの数)/(A群とB群とを混ぜ合わせた中からm+n個の技術文献を取り出す組合せ数)を分子に配置した演算を行なう機能を備えたので、混在クラスタに含まれるA群及びB群の技術文献数の偏り(作為性)に応じて、偏り大の場合は小さい補正値に、偏り小の場合は大きい補正値に類似率を補正することが可能となる。また、規格化因子として、第1の技術文献群の中からm個、第2の技術文献群の中からn個の技術文献を取り出す確率の最大値のγ乗(但し、0<γ)を配置したので、類似率の算出範囲として0≦類似率≦1を保証することが可能となる。
また本発明によれば類似率算出手段に、第1の技術文献群に含まれる技術文献数Mと第2の技術文献群に含まれる技術文献数Nとの構成比、N/Mと、クラスタ分解した結果得られた混在クラスタに含まれる第1の技術文献群の技術文献数mと第2の技術文献群の技術文献数nの混在比、n/mとについて、更に構成比と混在比との比を取ったもののζ乗(但し、0<ζ)に比例した補正値を各混在クラスタについて総和を算出し、全クラスタ数で除算して類似率を算出する機能を備えたので、A群とB群の技術文献数量の構成比と各クラスタ内における技術文献同士の混在比が同じであるほど類似率を高く算出する(1に近づける)ことが可能となる。
また、構成比と混在比との比の指数ζをζ>1に設定することによって、A群とB群の技術文献数量の比と、各クラスタ内におけける技術文献同士の混在比との比が小さい混在クラスタの影響を、類似率の算出結果に大きく反映させないようにすることが可能となる。
また、指数ζをζ=1に設定することによって、単純にA群とB群の技術文献数量の構成比と、各クラスタ内における技術文献同士の混在比との比に応じて類似率を増減させることが可能となる。
また、分子の指数を0<ζ<1に設定することによって、A群とB群の技術文献数量の構成比と、各クラスタ内における技術文献同士の混在比との比が大きい場合に類似率の算出結果に対する影響を少なくすることが可能となる。
また本発明によれば類似率算出手段に、第1の技術文献群と第2の技術文献群とを混合した技術文献群の中から第1の技術文献群の技術文献を取り出す確率に前記クラスタ分解した混在クラスタに含まれる技術文献数を乗算して第1の技術文献群の技術文献を取り出す期待値を算出し、前記期待値と混合クラスタに含まれる第1の技術文献群の技術文献数との差を期待値差として算出し、その期待値差を任意定数ξ(但し、1<ξ)の負の指数とした補正値を、各混在クラスタについて総和を算出し、全クラスタ数で除算して類似率と算出するようにしたので、ξの値の設定に応じて期待値差に対する類似率の算出結果を敏感に反応させる補正を行なうことが可能となる。
また本発明によれば類似率算出手段に、第1の技術文献群と第2の技術文献群とを混合した技術文献群の中から第1の技術文献群の技術文献を取り出す確率に前記クラスタ分解した混在クラスタに含まれる技術文献数を乗算して第1の技術文献群の技術文献を取り出す期待値を算出し、前記期待値と混合クラスタに含まれる第1の技術文献群の技術文献数との差を期待値差として算出し、その期待値差を混在クラスタに含まれる技術文献数で除算したものを、任意定数ξ(但し、1<ξ)の負の指数とした補正値とし、これを各混在クラスタについて総和を算出し、更に全クラスタ数で除算して類似率と算出するようにしたので、ξの値の設定に応じて期待値差に対する類似率の算出結果を敏感に反応させる補正を行なうことが可能となる。
図1は、本発明に係る類似率算出システムの全体構成図である。
図2は、本発明に係る類似率算出装置のブロック図である。
図3は、技術文献A群と技術文献B群に含まれる技術文献の構成を示す図である。
図4は、類似率の表示処理を示すフローチャートである。
図5は、類似率算出のための入力画面の表示例を示す図である。
図6は、算出した類似率を利用者に通知する類似率表示画面の表示例を示す図である。
図7は、本発明に係る類似率算出装置を用いて技術文献群をクラスタ分解した後の各クラスタの構成を示す図である。
図8は、類似率の算出処理を示すフローチャートである。
図9は、類似率の計算に用いる設定条件を示す図表である。
図10は、混在クラスタ1には技術文献が多く含まれている状況を表す図である。
図11は、補正項1(1)を採用した場合の類似率算出例の図表である。
図12は、補正項2(1)を採用した場合の類似率算出例の図表である。
図13は、補正項1(1)及び補正項2(1)の双方を採用した場合の類似率算出例の図表である。
図14は、補正項2(2)を採用した場合の類似率算出例の図表である。
図15は、補正項1(1)及び補正項2(2)を採用した場合の類似率算出例の図表である。
図16は、(式31)に条件1〜4を代入した場合の期待値差の算出例を示す図表である。
図17は、ξ=10とした場合において、(式32)に条件1〜4を代入した場合の類似率算出例の図表である。
図18は、補正項1(1)及び補正項2(3)を採用した場合の類似率算出例の図表である。
図19は、技術文献A群に含まれる技術文献と、技術文献B群に含まれる技術文献を個々にミクロ的に比較する従来の状況を示す図である。
図2は、本発明に係る類似率算出装置のブロック図である。
図3は、技術文献A群と技術文献B群に含まれる技術文献の構成を示す図である。
図4は、類似率の表示処理を示すフローチャートである。
図5は、類似率算出のための入力画面の表示例を示す図である。
図6は、算出した類似率を利用者に通知する類似率表示画面の表示例を示す図である。
図7は、本発明に係る類似率算出装置を用いて技術文献群をクラスタ分解した後の各クラスタの構成を示す図である。
図8は、類似率の算出処理を示すフローチャートである。
図9は、類似率の計算に用いる設定条件を示す図表である。
図10は、混在クラスタ1には技術文献が多く含まれている状況を表す図である。
図11は、補正項1(1)を採用した場合の類似率算出例の図表である。
図12は、補正項2(1)を採用した場合の類似率算出例の図表である。
図13は、補正項1(1)及び補正項2(1)の双方を採用した場合の類似率算出例の図表である。
図14は、補正項2(2)を採用した場合の類似率算出例の図表である。
図15は、補正項1(1)及び補正項2(2)を採用した場合の類似率算出例の図表である。
図16は、(式31)に条件1〜4を代入した場合の期待値差の算出例を示す図表である。
図17は、ξ=10とした場合において、(式32)に条件1〜4を代入した場合の類似率算出例の図表である。
図18は、補正項1(1)及び補正項2(3)を採用した場合の類似率算出例の図表である。
図19は、技術文献A群に含まれる技術文献と、技術文献B群に含まれる技術文献を個々にミクロ的に比較する従来の状況を示す図である。
図1は、本発明に係る類似率算出システムの全体構成図である。
同図に示すように、本発明に係る類似率算出システムは、技術文献データベース20から通信網10を介して、類似率の算出に必要な技術文献を読み出して、類似率を算出して表示する類似率算出装置30と、通信網10を介して各社の技報や、出願済みの特許公報、実用新案公報等の特許文献を含む技術文献を記録する技術文献データベース20とが設けられている。
通信網10は、インターネット等の通信網であって、類似率算出装置30が通信網10を介して技術文献データベース20から特許文献等の技術文献に関する情報を取得することが可能となっている。
類似率算出装置30は、利用者から比較対象の技術文献群に関する情報や、文献どうしの比較条件を入力し、技術文献データベース20から通信網10を介して、類似率の算出に必要な技術文献を読み出して、類似率を算出して表示することが可能となっている。
図2は、本発明に係る類似率算出装置のブロック図である。
同図に示すように類似率算出装置30の情報送受信部には、公衆回線又は通信ネットワーク等の通信網364を介して、技術文献データベース20等の他の通信機器と情報の送受信を行なうことが可能な送受信手段365(技術文献群入力手段、技術情報入力手段、又は出力手段の機能を含むものであってもよい)が設けられている。
送受信手段365は、技術文献データベース20から通信網10を介して、類似率の算出に必要な技術文献を取得することが可能となっている。
また類似率算出装置30には、利用者から比較対象の技術文献群に関する情報や、文献同士の比較条件を入力するキーボード、マウス等の入力手段370(技術情報入力手段の機能を含むものであってもよい)が設けられている。
また類似率算出装置30には、入力手段370を介して入力した各種情報を読み取って後述する情報処理手殺380に伝達したり、情報処理手段380からの指示に基づいてLED等に表示指令を出力する入力インターフェース371(技術情報入力手段の機能を含むものであってもよい)と、画像や文字等の情報を表示する表示手段372(出力手段の機能を含むものであってもよい)と、情報処理手段380の指令に基づいて表示手段372に対して表示用の画像信号を出力する表示インターフェース373(出力手段の機能を含むものであってもよい)とが設けられている。なお、入力手段370は、キーボードやマウスに限らず、タブレット等の入力装置を含むものである。
また類似率算出装置30には、記録媒体377を着脱可能に装着する記録媒体装着部378と、記録媒体377に対して各種情報を記録したり読み出したりする記録媒体インターフェース379(技術文献群入力手段、技術情報入力手段、又は出力手段の機能を含むものであってもよい)とが設けられている。なお、記録媒体377は、メモリーカード等の半導体や、MO、磁気ディスク等に代表される磁気記録式、光記録式等の着脱可能な記録媒体である。
また、類似率算出装置30には、類似率算出装置30の全体の制御を行う情報処理手段380と、情報処環手段380にて実行されるプログラムや各種定数が記録されているROMや情報処理手段380が処理を実行する際の作業領域となる記録手段であるRAMとから構成されるメモリ381とが設けられている。
また、情報処理手段380(クラスタ分解手段、又は類似率算出手段)は、利用者から比較対象の技術文献群に関する情報や、文献同士の比較条件を入力し、技術文献データベース20から類似率の算出に必要な技術文献を取得し、記録手段384に記録されている類似率の演算プログラムや類似率の算出処理プログラム基づいて、技術文献同士の類似率を算出する機能を実現することが可能となっている。また、類似率の算出結果を表示手段372に表示する機能を実現することが可能となっている。
なお、情報処理手段380(クラスタ分解手段)は、文書内の、請求項、発明の詳細な説明、図面の簡単な説明、要約などに含まれる言葉(単語、熟語、名詞、動詞、助動詞、形容詞、副詞、助詞など)からなる文を分かち書きしたり、1字、2字など機械的に切り出して技術文献を検索し、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解する機能を実現することが可能となっている。
また情報処理手段380(クラスタ分解手段)は、書誌事項などに含まれる項目(IPC等の分類、出願日、出願番号、出願人名、発明者、審査請求の有無、補正の有無、国内優先の有無、外国出願有無、拒絶理由の有無、登録日、登録番号、など)を用いてクラスタ分解する機能を実現することが可能となっている。
また情報処理手段380(類似率算出手段)は、クラスタ分解した結果得られた全クラスタ数と、第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数との比を算出するなどして、技術文献群同士の類似率を算出する機能を実現することが可能となっている。
これらの全ての処理を情報処理手段380が実行する代わりに、複数の処理装置に分担して実行するようにしても本発明の目的を達成することが可能である。
また、類似率算出装置30には、類似率算出装置30の処理に関する各種定数やネットワーク上の通信機器に通信接続する際の属性情報、URL(Uniform Resource Locators)、ゲートウェイ情報、DNS(Domain Name System)等の接続情報、企業の経営に関する情報、特許に関する情報、特許文献、技報、キーワード、技術情報等の各種情報を記録することが可能なハードディスク等の記録手段384と、記録手段384に記録されている情報を読み出したり記録手段384に対して情報を書き込む処理を行う記録手段インターフェース385(技術文献群入力手段、技術情報入力手段、又は出力手段の機能を含むものであってもよい)と、時刻を刻むカレンダ時計390とが設けられている。
類似率算出装置30内の情報処理手段380と、表示インターフェース373、メモリ381、記録手段インターフェース385、カレンダ時計390等を含む各周辺回路はバス399で接続されており、情報処理手段380にて実行される処理プログラムに基づいて各々の周辺回路を制御する機能を実現することが可能となっている。
前記送受信手段365、記録媒体インターフェース379、記録手段インターフェース385等の技術情報入力手段は、比較対象となる第1の技術文献群及び第2の技術文献群を入力することが可能となっている。
前記送受信手段365、入力手段370、入力インターフェース371、記録媒体インターフェース379、記録手段インターフェース385等の技術情報入力手段は、キーワードやIPCなどの技術情報を入力することが可能となっている。
前記送受信手段365、表示インターフェース373、記録手段インターフェース385、記録媒体インターフェース379、プリンターインターフェース等の出力手段は、類似率算出手段が算出した類似率を、記録手段、表示手段、又は通信手段に出力することが可能となっている。
図1に示したデータベース20は、記録手段384に記憶されている場合や、CD−ROM、CD−RW、DVD、MO等の記憶媒体377で提供される場合、通信網364を介して他の通信機器から取得する場合も考えられる。
また、上記の類似率算出装置30は、パーソナルコンピュータ、ワークステーションなど様々なコンピュータを利用して実現することができる。さらに、コンピュータをネットワークで接続して機能を分散して実施するようにしても良い。
本発明に係る類似率算出装置並びに類似率算出プログラムによって算出される技術文献の類似率とは、第1の技術文献群(技術文献A群)と別の第2の技術文献群(技術文献B群)とを所定のキーワードやIPCなどに基づいてマクロ的に比較した際に算出される数値であって、技術文献群同士がどの程度技術的に関連があるかを示す指標とするための数値をいう。
そして、第1の技術文献群(技術文献A群)と第2の技術文献群(技術文献B群)は、何らかの属性を持つ技術文献の集まりとする。
本発明では、A社が出願した特許公報やA社が発行した技報などの第1の技術文献群(技術文献A群)に記載された技術内容と、B社が出願した特許公報やB社が発行した技報などの第2の技術文献群(技術文献B群)に記載された技術内容とが、どれだけ類似しているかを定性的に評価する指標としての数値を算出することによって、技術文献同士を容易に比較することが可能となっている。
以下に説明する実施例では、第1の技術文献群(技術文献A群)と第2の技術文献群(技術文献B群)に記載された技術内容が類似しているほど、類似率は大きい値をとるものと定義している。
なお本発明では、類似率を算出する際に異なる条件を設定した場合であっても、第1の技術文献群(技術文献A群)と第2の技術文献群(技術文献B群)との間で算出した類似率と、第3の技術文献群(技術文献C群)と第4の技術文献群(技術文献D群)との間で算出した類似率とを直接比較することが可能であるように、類似率が取り得る範囲として、0≦類似率≦1となるような演算を行なうことにしているが、類似率の取り得る範囲はこの範囲に限定されるものではない。
図3は、技術文献A群と技術文献B群に含まれる技術文献の構成を示す図である。
同図に示すように、技術文献A群は、A1,A2,A3,…AMのM個の技術文献から構成されており、技術文献B群は、B1,B2,B3,…BNのN個の技術文献から構成されている。
図4は、類似率の表示処理を示すフローチャートである。
同図に示すように、利用者が技術文献群どうしを比較して、技術内容が類似する度合いを調査する場合には、S10「類似率算出指示入力」(以下S10のように省略して記載する。)において、類似率算出指示を類似率算出装置30のキーボード、マウス等の入力手段370を操作して入力し、以降の処理を実施させる。
類似率算出装置30が、S100「入力画面読出・表示」にて、類似率算出指示に基づいて、類似率算出に関する各種条件の入力画面の表示情報を記録手段384から読み出して、その表示情報に基づいた類似率算出に必要な条件の入力画面を表示手段372に表示する。
図5は、類似率算出のための入力画面の表示例を示す図である。
同図に示すように入力画面には、比較対象となっている第1の技術文献群と第2の技術文献群の抽出条件を指定する情報と、キーワードやIPCなどの技術情報を指定する旨の情報が表示されている。利用者は、表示画面に基づいて諸事項を入力することが可能となっている。
クラスタ分解の条件を入力する部分では、特許公報、技報等の対象文献の指定や、全文、請求項部分のみ等の対象部分の設定や、IPC、キーワード等のクラスタ分解の尺度等の各種条件を入力することが可能となっている。更に技術文献群の抽出条件として、特許公報の出願日の期間、業界名称、出典元の企業名、個人名等を入力する項目が表示されている。利用者は、図5に示した入力画面に基づいて、容易に類似率の算出条件を入力したり、予め設けられている複数の算出条件の中から所望の算出条件を選択することが可能となっている。
また図5には、混在クラスタ比を類似率の算出用途に応じて補正するための、補正方法を入力する部分が設けられている。
例えば補正項1として、各混在クラスタに含まれる技術文献の量に応じた値に基づいて、類似率を補正するか否かの補正条件を、利用者が入力することが可能となっている。
また補正項2として、各混在クラスタに含まれる第1の技術文献群の技術文献と第2の技術文献群の技術文献との混ざり具合に応じた値に基づいて、類似率を補正するか否かの補正条件を、利用者が入力することが可能となっている。
なお本発明では、この技術文献との混ざり具合に応じた補正方法として、第1の技術文献群の中からm個、第2の技術文献群の中からn個の技術文献を取り出す確率のγ乗(但し、0<γ)に比例した補正値を各混在クラスタについて総和を算出し、これを全クラスタ数で除算して類似率の補正等を行なう、「技術文献数の確率」に応じた補正方法を選択することが可能となっている。
また本発明では、第1の技術文献群に含まれる技術文献数Mと第2の技術文献群に含まれる技術文献数Nとの構成比N/Mと、クラスタ分解した結果得られた混在クラスタに含まれる第1の技術文献群の技術文献数mと第2の技術文献群の技術文献数nの混在比、n/mとについて、更に構成比と混在比との比を取ったもののζ乗(但し、0<ζ)に比例した補正値を、各混在クラスタについて総和を算出し、これを全クラスタ数で除算して類似率の補正等を行なう、「技術文献の混在比」に応じた補正方法を選択することが可能となっている。
また本発明では、第1の技術文献群と第2の技術文献群とを混合した技術文献群の中から、第1の技術文献群の技術文献を取り出す確率に、前記クラスタ分解した混在クラスタに含まれる技術文献数を乗算して第1の技術文献群の技術文献を取り出す期待値を算出し、期待値と混合クラスタに含まれる第1の技術文献群の技術文献数との差を期待値差として算出し、その期待値差を任意定数ξ(但し、1<ξ)の負の指数とした補正値を、各混在クラスタについて総和を算出し、これを全クラスタ数で乗算して類似率の補正等を行なう、「技術文献の期待値差」に応じた補正方法を選択することが可能となっている。
図4に示すS12「類似率算出条件入力」にて、利用者は、表示手段に表示されている案内に基づいて、特許文献、技報、社報、技術論文等の技術文献種別や、比較する技術文献群の指定、クラスタ分解を実施する際に技術文献群から技術文献を抽出する条件となるIPC又はキーワード等、更に類似率を算出する際の目的に応じた補正情報を、入力手段370を介して入力する。
S102「技術文献取得」にて、情報処理手段380は、利用者から入力した技術文献種別(例えば特許文献)に基づいて検索するデータベースを特定し、利用者から入力した技術文献群(例えばA社の技術文献A群及びB社の技術文献B群)の指定に基づいた技術文献群の取得情報を特定のデータベースに出力する。
S130「技術文献読出」にて、技術文献データベース20は、類似率算出手段30から取得した技術文献種別と、技術文献群等に基づいて、データベース内を検索して技術文献を読出して、類似率算出装置30に送信する。
S104「類似率算出処理」にて、類似率算出装置30は、データベース20から取得した技術文献群(例えばA社の技術文献A群及びB社の技術文献B群)の中から、利用者指定のIPCやキーワードを共通して含む技術文献を選び出して、クラスタ毎に分解する処理を行なう。
クラスタ分解した結果、技術文献A群に属する技術文献及び技術文献B群に属する技術文献とが混在しているクラスタを混在クラスタと定義する。本発明では、全クラスタのうち、混在クラスタが存在する割合に基づいて類似率を算出する。
また、類似率の用途に応じて、混在クラスタに含まれる技術文献の数量や混在確率、混在比率、又はこれらの組合せに応じた補正を行なうことも可能である。
S106「類似率表示処理」にて、類似率算出装置30は、算出した類似率を表示手段372に表示して、利用者に通知する。なお、S106にて類似率を表示手段372に表示する代わりに、算出した類似率を送受信手段365と通信網10を介して他の通信機器に送信出力するようにしてもよいし、記録手段インターフェース385を介して記録手段384に記録出力するようにしてもよいし、記録媒体インターフェース379を介して記録媒体377に記録出力するようにしてもよい。また、算出した類似率を、印刷用のプリンタインターフェース(図示せず)を介して印刷手段に出力するようにしてもよい。
図6は、類似率算出装置30が算出した類似率を利用者に通知する、類似率表示画面の表示例を示す図である。
同図に示すように、類似率表示画面には、利用者が入力した技術文献群を抽出指定する情報と、キーワードやIPCなどの技術情報をクラスタ分解した際の尺度や、補正方法等の入力情報が確認のために表示されている。
また類似率表示画面には、補正項3として、例えばクラスタ分解した際の所定の特許分類やキーワードに注目して恣意的な重み付けを行なうための補正条件を、各クラスタ毎に利用者が入力することが可能となっている。同図に示す例では、補正項3の数値として「1.000」を設定している。
また類似率表示画面には、類似率の算出結果と、その類似率を補正するための、α、γ、ζ、ξ等の類似率算出条件を連続的に変更するスライドバーと、各クラスタの補正項を確認するために、分解したクラスタの内容を表示する部分が設けられている。
利用者は、算出された類似率を見ながら、自由に類似率の算出条件を変更することが可能となっている。利用者がスライドバーを操作した場合には、情報処理手段380がカレンダ時計390が係数する時間に基づいて、スライドバーの操作完了を判断する。すると、情報処理手段380が実施する処理はS104に分岐して再度類似率を算出し、類似率の演算結果を類似率表示画面に表示する処理を行なう。
図4に示すS14「終了」、S108「終了」及びS140「終了」にて、類似率算出処理が終了する。
本発明における技術文献のクラスタ分解とは、第1の技術文献群(A群)と第2の技術文献群(B群)をマクロ的に比較するための「類似率」を算出する際に、キーワードやIPC等を用いて技術文献を分類することをいう。
本発明を創作するにあたって比較する2つの技術文献群を鳥瞰してみたとき、2つの技術文献群が別々になっていると、非常に計算が複雑になるが、2つを「混ぜて」しまって整理整頓すればずっと計算が容易になるのではないかと、エイヤと「混ぜた」ら案の定類似率の算出に適した様子が見えてきた。双方の技術文献群を混ぜた後、クラスタ分解により分類したところ、一部に両方の技術文献群の構成要素(技術文献)を含むクラスタ(混在クラスタ)が存在し、その分解した全クラスタ数に対する混在クラスタの割合が、我々の通常の感覚としての類似率に近いことがわかった。
先ず、上記のように第1の技術文献群と第2の技術文献群の双方の技術文献を混ぜてひとつの群にする。
混ざった技術文献の群を、何らかの分類法により、ある技術文献の小さな集まり(クラスタという)に分解する。あるクラスタには第1の技術文献群に属する技術文献がm個と第2の技術文献群に属する技術文献がn個含まれているとする。
技術文献をIPC(国際特許分類)毎や、技術文献に所定のキーワードが含まれるか否かによって「グループ分け」することを「クラスタ分解」すると定義する。
図7に、本発明に係る類似率算装置を用いて技術文献群をクラスタ分解した後の各クラスタの構成を示す。
例えば図7に示すように、IPC「G06F 17/30」に分類される技術文献として、第1の技術文献群には「特許文献A1」が、また第2の技術文献群には「特許文献B1」がそれぞれ存在した場合には、IPC「G06F 17/30」のクラスタには、「特許文献A1」と「特許文献B1」の要素が含まれる。
また例えば、キーワードとして「テキスト処理」という文言を含む技術文献が、第1の技術文献群には「技術文献A2」が、また第2の技術文献群には「技術文献B2」及び「技術文献B3」が存在した場合には、キーワード「テキスト処理」のクラスタには「技術文献A2」と「技術文献B2」、「技術文献B3」の要素が含まれる。
なお、クラスタ分解の方法には、技術文献群の個々の技術文献の属性により2通りの扱いがあり、それは以下の通りである。
1.外的な基準がある属性(属性1型と定義する)の場合は、その属性それぞれでクラスタを構成できる。例えば、特許公報等の技術文献でいえば、出願日の日付やIPCなど、一意に決まる技術文献である。
2.内的な関係で属性が決まる値(属性2型と定義する)は、前処理として多変量解析(クラスタ分析)などによるクラスタ化が必要である。例えば特許公報技術文献の中では、要約や請求項などの文書に外的な基準をあてはめることが難しいため、文書間のミクロ的な類似率を別途定義し、それに基づいて多変量分解を行った結果を用いてクラスタを構成する。なお、文書間のミクロ的な類似率については、TFIDF法など、一般的に広く用いられているものを使用することにより、分析者の恣意の混入を防ぐことが可能である。
情報処理手段380等のクラスタ分解手段は、第1の技術文献群及び第2の技術文献群に含まれる技術文献について、技術情報入力手段を介して入力した技術情報を含む技術文献を検索し、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解している。
本発明の実施例では、混在クラスタを以下のように定義する。
図7に示すIPC「G06F 17/30」のクラスタには、技術文献A群に属する「特許文献A1」と、技術文献B群に属する「特許文献B1」とが混在している。このように、技術文献A群に属する技術文献、及び技術文献B群に属する技術文献が混在しているクラスタを混在クラスタと定義する。
本発明の実施例では、非混在クラスタを以下のように定義する。
例えば図7に示すように、IPC「B01」に分類される技術文献として、技術文献A群には「特許文献A3」が存在するが、技術文献B群にはIPC「B01」に分類される技術文献が存在しない場合には、IPC「B01」のクラスタには「特許文献A3」のみが要素として含まれる。
また図7に示すように、例えばキーワートとして「無機化合物」という文言を含む技術文献は、技術文献A群には存在しないが技術文献B群には「技術文献B1」が存在した場合には、キーワード「無機化合物」のクラスタには「技術文献B1」が要素として含まれる。
このように、技術文献A群に属する技術文献と、技術文献B群に属する技術文献とが混在していないクラスタを非混在クラスタと定義する。
図8は、類似率の算出処理を示すフローチャートである。
情報処理手段380が実施する処理が、図4に示したS104に進むと、情報処理手段380が実施する処理はS200に分岐してきて、S200以降の処理を実施する。
類似率算出装置30の情報処理手段380は、S200「技術文献A群と技術文献B群とを混同する」にて、S102「技術文献取得」によってデータベースから取得した技術文献群(例えばA社の第1の技術文献群及びB社の第2の技術文献群)を混合して、1つの技術文献群にする処理を行なう。
S202「クラスタ分解処理」にて情報処理手段380は、キーワードやIPC等の技術情報に基づいてクラスタ分解処理を行う。次のS204「補正項1の計算式を設定」にて、情報処理手段380は、混在クラスタに含まれる技術文献の数量に応じて類似率を補正する旨の指示を利用者から入力している場合には、その指示に基づいた補正項の数式を選択する処理を行なう。ここでは、補正の内容に応じて補正項1に所定の数式を代入する処理を行なう。
補正項1は、混在クラスタに含まれる技術文献の量が多い程、重要なクラスタであると考えて類似率が高くなるように重い重み付けをして類似率の補正を行なうための補正項である。
混在クラスタに含まれる技術文献の数量に応じて類似率を補正しない場合には、補正項1=1(定数)を代入する。
S206「補正項2の計算式を設定」にて情報処理手段380は、混在クラスタに含まれる技術文献Aと技術文献Bとの混ざり具合に応じて類似率を補正する旨の指示を利用者から入力している場合には、その指示に基づいた補正項の数式を選択する処理を行なう。ここでは、補正の内容に応じて補正項2に所定の数式を代入する処理を行なう。
補正項2は、混在クラスタに含まれる技術文献の割合が所定の量に近い程、重要なクラスタであると考えて類似率が高くなるように重い重み付けをして類似率の補正を行なうための補正項である。
混在クラスタに含まれる技術文献の混ざり具合に応じて類似率を補正しない場合には、補正項2=1(定数)を代入する。
S208「補正項3の値を設定」にて情報処理手段380は、クラスタ分解した際の所定の特許分類やキーワードに注目して恣意的な重み付けを行なって、類似率を補正する旨の指示を利用者から入力している場合には、その指示に基づいた補正項の数式を選択する処理を行なう。ここでは、補正の内容に応じて補正項3に所定の値を代入する処理を行なう。クラスタ分解した際の所定の特許分類やキーワードについて特に注目しない場合には、補正項3=1(定数)を代入する。
S210「類似率算出」にて情報処理手段380は、各混在クラスタについて補正項1、補正項2、補正項3の各補正項を乗算して総和を算出する。更に規格化するために全クラスタ数で除算して類似率を算出する処理を行なう。
S212「終了」にて、類似率算出処理のサブルーチンを終了して、元の処理に戻る。
図9に、類似率の計算に用いる設定条件を示す。
図9は比較対象となる第1の技術文献群及び第2の技術文献群と、各群の技術文献を4つのクラスタに分解した場合の各クラスタ1〜4に存在する各技術文献数を示す図表である。同図右端に示「期待する類似率」の値は、技術文献の類似性の判断を行なっている複数の専門家にヒアリングを行なった結果、条件1〜4の場合に、算出されることを期待する類似率の値を示したものである。そして、その期待する類似率の値に対して許容され得ると思われる範囲は、同図に示すように許容範囲=±0.050程度である。
したがって、本発明に係る類似率算出装置を用いて類似率を算出した結果、図9に示す許容範囲内で類似率が算出されれば、技術文献同士の比較が最適に行なわれていることを示している。
基本型1:補正項を考慮しない場合の類似率(基本型1)の算出例
以下に、補正項を用いない基本型の類似率(基本型1)の算出例を示す。この類似率(基本型1)の算出例は、混在クラスタ抽出法により技術文献の類似率を演算するものである。
第1の技術文献群に含まれる技術内容と、第2の技術文献群に含まれる技術内容とが、どれだけ類似しているかの度合(類似率の値の大きさ)は、「混在クラスタの数量」に比例するものと考えられる。
また類似率を、0≦類似率≦1の範囲に設定するために、例えば、「混在クラスタ数」を、「混在クラスタ数と非混在クラスタ数の総和」である「全クラスタ数」で除算した混在クラスタを算出すると、技術文献群同士の類似率として以下の(式1)が得られる。
混在クラスタを考慮した類似率算出方法を混在クラスタ抽出法と定義する。下記に示す(式1)は最も基本的な考え方である。下記の(式1)では、クラスタ分解した結果得られた全クラスタ数と、第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数との比(以下混在クラスタ比と呼ぶ)を類似率として算出する一例を示している。したがって、全クラスタ数と混在クラスタ数の比の算出のしかたは、下記の(式1)に限定されるものではない。
但し、
δ=混在クラスタの場合……1
非混在クラスタの場合…0
先に述べたように、類似率とは第1の技術文献群に記載されている技術内容と第2の技術文献群に記載されている技術内容とがどれだけ類似しているかを示す数値である。
また、混在クラスタ数とは、第1の技術文献群に属する技術文献及び第2の技術文献群に属する技術文献が混在しているクラスタの数を示す数値である。
全クラスタ数とは、第1の技術文献群の技術文献又は第2の技術文献群の技術文献が存在するクラスタの全数を示す数値である。
以下に、類似率(基本型1)の計算式を用いた場合の計算結果について説明する。
第1の技術文献群と第2の技術文献群について、所定のキーワードやIPC等を用いてクラスタ分解を行なった結果、全クラスタ数が10個であって、混在クラスタ数が3個であった場合には、類似率(基本型1)=3/10=0.3と算出される。
また、全クラスタ数が4個であって、混在クラスタ数が2個であった場合には、類似率(基本型1)=2/4=0.5と算出される。
第1の技術文献群と第2の技術文献群に含まれる技術文献を、キーワードやIPC等を用いてクラスタ分解し、その分解した全クラスタ数と混在クラスタ数の比を類似率として算出することによって、技術文献群同士の類似率の基礎部分となる値を算出することが可能となる。
また、類似率を算出する際に、混在クラスタ数を全クラスタ数で除算することによって、算出される類似率の値を0≦類似率≦1の範囲に設定することが可能となる。
以下に、類似率(基本型1)を用いた場合の発明の効果について説明する。
第1の技術文献群と第2の技術文献群に含まれるキーワードやIPC等を用いてクラスタ分解し、その分解した全クラスタ数と混在クラスタ数の比に基づいて類似率を算出することによって、技術文献群同士がどの程度技術的に類似しているかを示す指標を簡便に算出することが可能となる。ここで算出される類似率は、われわれが常識的に考えた技術文献群同士の類似の程度と割合一致していることがわかった。
また本発明では、算出する類似率の値を0≦類似率≦1の範囲に設定する演算を行なっているので、全クラスタ数量や混在クラスタの数量、また技術文献群に含まれる技術文献の量の多少に関わらず一定の指標を算出することが可能となる。
更に、より多くの条件下で第1の技術文献群と第2の技術文献群を比較した類似率と、第1の技術文献群と第3の技術文献群とを比較した類似率とを直接対比することも可能となる。
基本型2:補正項を考慮した場合の類似率(基本型2)の算出例
以下に、補正項を考慮した場合の類似率(基本型2)の算出例を示す。この類似率(基本型2)の算出例は、前記類似率(基本型1)の算出例に対して補正項1〜3を加味したものとなっている。
上記の(式1)を用いて類似率を算出すると、混在クラスタ数に比例した類似率が簡単な数式を用いてたいへん素早く算出できるという利点がある。
上記の最も基本的な(式1)は、たとえば多くの技術文献を含むクラスタと少数の技術文献しか含まないクラスタが対等の寄与を持つ結果となることでもわかるように、個々のクラスタ内の技術文献数の大小を考慮していないという欠点があるために、混在クラスタ内に多くの技術文献が含まれる場合であっても、2つしか技術文献が含まれない場合であっても同一の類似率が算出されてしまい、われわれが常識的に考えた類似の程度と異なってしまう場合があるという不具合を生じる可能性がある。
混在クラスタに含まれる技術文献の量の他にも、混在クラスタに含まれる第1の技術文献群の技術文献と第2の技術文献群の技術文献の混ざり具合(第1の技術文献群の技術文献と第2の技術文献群の技術文献との割合)や、特定の特許分類やキーワードに注目したい場合の恣意的な重み付けなどによって、算出される類似率の値を補正したい場合が生じる。
図10は、混在クラスタ1に技術文献が多く含まれている状況を示す図である。
図10に示す例では、クラスタ1(混在クラスタ)には、技術文献が多く含まれているので重要なクラスタであると考えられ、類似率計算の際に最も寄与が大きくなると良い。
別のクラスタ(例えばクラスタ2,クラスタ3,クラスタ4など)は、含まれている技術文献が少ないので重要なクラスタではないと思われるので、クラスタ1の寄与に比べるとずっと小さくなるのが望ましい。
図10の例のような状況にある場合、クラスタ1に対し、クラスタ2,クラスタ3,クラスタ4の影響を軽視すべき場合がある。なお、含まれる技術文献数量が少ないクラスタの存在を無視しない場合には、算出される類似率の値は0.5まで下がってしまう。
そこで以下の(式2)に示すように、(式1)のδ(クラスタが混在クラスタである場合にはδ=1とし、それ以外の場合には、δ=0とする)に対して補正項を乗算することにする。なお、補正によって類似率の範囲が、0≦類似率≦1の範囲を超えないようにするためには適当な規格化因子が必要である。
但し、
δ=混在クラスタの場合……1
非混在クラスタの場合…0
(式2)に示す補正項1は、混在クラスタに含まれる技術文献の量に応じて類似率を算出するための補正項である。この補正項1は、混在クラスタに含まれる技術文献の量が多い程、重要なクラスタであると考えて類似率が高くなるように重い重み付けをして類似率の補正を行なう補正項である。
また逆に補正項1は、混在クラスタに含まれる技術文献の量が少ない程、重要なクラスタでないと考えて類似率が低くなるように軽い重み付けをして類似率の補正を行なうことも可能な補正項である。
また補正項1は、各混在クラスタに含まれる技術文献の量に応じた値を取る第1の補正値を算出することが可能な他の計算式を用いた補正項であってもよい。
(式2)に示す補正項2は、混在クラスタに含まれる技術文献Aと技術文献Bの混ざり具合(技術文献Aと技術文献Bの割合)に応じて類似率を算出するための補正項である。
補正項2は、混在クラスタに含まれる技術文献の割合が所定の量に近い程、重要なクラスタであると考えて類似率が高くなるように重い重み付けをして類似率の補正を行なう補正項である。
また補正項2は、各混在クラスタに含まれる第1の技術文献群の技術文献と第2の技術文献群の技術文献との混ざり具合に応じた値を取る第2の補正値を算出することが可能な補正項である。
(式2)に示すように類似率は、補正項1、補正項2、又は補正項3を全ての混在クラスタについての総和を算出し、該総和を全クラスタ数で除算する演算を行なっている。
補正項2を算出する際に用いる技術文献の「混ざり具合」の意味は、以下のとおりである。
ある混在クラスタに含まれる第1の技術文献群の技術文献、及び第2の技術文献群に含まれる技術文献の混ざり具合に注目して、双方の技術文献がよく混ざっているとき、すなわち双方の技術文献数が偏っていないときに重要なクラスタと考えて重い重みを付け、よく混ざっていない場合、すなわち技術文献数が片方の技術文献群のものに偏っている場合に、重要ではないクラスタと考えて軽い重み付けをするための補正項目である。
言い換えると、たとえばある混在クラスタに含まれる、第1の技術文献群の技術文献と第2の技術文献群の技術文献の数量が、第1の技術文献群と第2の技術文献群から無作為に抽出したときの期待値に近いものは重く、遠いものは軽くする補正項である。
補正項3とは、特定の特許分類やキーワードに注目したい場合に、恣意的な重み付けを行なって類似率を算出するための補正項である。この項は技術文献群同士を比較する者が個別設定する項であるので、今回は考慮せずに定数「1」を代入しておく。
応用型1:補正項1(1)の算出例
補正項1(1)を考慮した類似率(式4)の算出例を以下に示す。
補正項1(1)では、類似率が混在しクラスタに含まれる技術文献の量に応じて大きな値をとるように補正するために、「クラスタ内の技術文献数」のα乗(但し、0<α)を分子に配置している。そして、類似率の算出範囲として0≦類似率≦1を保証するために、補正項1(1)の式では規格化因子を分母に配置している。
(式4)に示す補正項1(1)の演算では、分子に配置したクラスタ内の技術文献数が多い場合であっても類似率の値が1を超えないようにするためと、技術文献の量の多少の判断基準を設けるために、規格化因子として、全クラスタ内の技術文献数の平均値を配置している。なお、規格化因子は、全クラスタ内の技術文献数のα乗の総和を算出し、全クラスタ数で除算した値を配置してもよい。この規格化因子は、0≦類似率≦1を保証することが可能な項であればよく、(式4)の数式に限定されるものではない。
更に、含まれる技術文献の量が少ない混在クラスタの影響を、類似率の算出結果に大きく反映させたくない場合には、分子の指数αをα>1に設定する。
また、単純にクラスタ内の技術文献数の量に応じて類似率を増減させる要望がある場合には、α=1に設定する。
また、クラスタに含まれる技術文献の量に応じて類似率を算出するとともに、技術文献が多量に含まれるクラスタの存在による類似率の算出結果の影響を少なくする必要がある場合には、0<α<1に設定するとよい。
以下に「応用型1:補正項1(1)」の計算式の分子と分母の構成による作用について説明する。
式4に説明するように「クラスタ内の技術文献数」を補正項1(1)の分子に配置したので、クラスタ内の技術文献数に比例した類似率を算出することが可能となる。
また、「規格化因子」を補正項1(1)の分母に配置したので、0≦類似率≦1を保証することが可能となる。そして、補正項1(1)の規格化因子として、全クラスタ内の技術文献数の平均値を配置したので全クラスタ内の技術文献数の平均値を基準として、技術文献の量の多少を算出することが可能となる。
更に、分子の指数αをα>1に設定することによって、混在クラスタに含まれる技術文献の量が少ない混在クラスタの影響を、類似率の算出結果に大きく反映させないようにすることが可能となる。また、分子の指数をα=1に設定することによって、単純にクラスタ内の技術文献数の量に応じて類似率を増減させることが可能となる(単純含数比較)。また、分子の指数を0<α<1に設定することによって、技術文献が多量に含まれるクラスタの存在による類似率の算出結果の影響を少なくすることが可能となる。
以下に、「応用型1:補正項1(1)」の計算式(式4)に、図9に示した各条件を代入した場合の計算例を示す。なお、算出結果は、図11に、補正項1(1)を採用した場合の類似率算出例(補正項1(1)に条件1〜4を代入した場合の計算結果)の図表として示す。
補正項1(1)のみを考慮して他の補正項を考慮しない場合であって(すなわち補正項2=1、補正項3=1とする)、単純に混合クラスタ内に含まれる技術文献数の比較を行なう場合(すなわちα=1としたとき)に、技術文献群同士を比較する条件として、条件1〜4を設定した場合の類似率の試算結果を以降に示す。
下式(式5)に、計算例4−1(式4に条件1を代入した場合)の計算結果について説明する。
条件1の場合には、各混在クラスタ(本実施例の場合には、クラスタ1及びクラスタ2)に含まれる技術文献数は、それぞれ3個である。したがって、クラスタに含まれる技術文献の量による類似率の補正の影響は少ないことが期待される。
上記(式5)にて算出した類似率(式4に条件1を代入した場合)=0.5の値は、(式1)による類似率の演算結果と一致しており、補正項1(1)を挿入した場合であっても、われわれが常識的に考えた類似率の程度と大きくずれてはいない。また、クラスタ内の技術文献数量がそれぞれ3、3、2、4程度であるので、全てから同じ程度の寄与があるべきで、ここで類似率=0.5と算出された結果は、われわれが常識的に考えた類似の程度(約0.30程度)から大きく外れてはおらず、おおよそ要件を満足しているものとなっている。
下式(式6)に、計算例4−2(式4に条件2を代入した場合)の計算結果について説明する。
条件2の場合のクラスタ1に含まれる技術文献の量は、クラスタ2〜クラスタ4に含まれる技術文献の量よりも際立って多いので、類似率を算出する際には、クラスタ1に含まれる技術文献の量の影響を重視して類似率を大きく算出するべきなのは明らかである。
上記(式6)にて算出した類似率(式4に条件2を代入した場合)=0.962の値は、クラスタ1に含まれる技術文献の量の多さに引っ張られ、類似率=0.5(式4に条件1を代入した場合に算出した類似率)から類似率0.962(式4に条件2を代入した場合に算出した類似率)に補正された。
以下に式6(式4に条件2を代入した場合)の効果について説明する。式6の演算処理によって、クラスタに含まれる技術文献の量が他のクラスタに含まれる技術文献の量よりも多い場合に、その技術文献の量を類似率の算出結果に反映させることが可能となる。これは、クラスタ1が類似率を算出する際の傾向のほぼ全てを代表しているので、このクラスタ1の性質が類似率を決めるように働いているのが見える。
そしてこの類似率の算出結果は、われわれが常識的に考えた類似の程度と、かなり一致していることがわかった。
下式(式)に、計算例4−3(式4に条件を3代入した場合)の計算結果について説明する。
条件3の場合には、条件2の場合とクラスタに含まれる技術文献の量の総和は同じであるが、クラスタ1に含まれる技術文献の量のみが際立って多い状況ではないので、類似率を算出する際にクラスタ1に含まれる技術文献の量の影響が条件2の場合程は生じないことが望ましい。
上記(式7)にて算出した類似率(式4に条件3を代入した場合)0.459の値は、クラスタ1に含まれる技術文献の量の多さが、他のクラスタ3よりも少し少ない程度であることから、類似率の補正にはほとんど関与しないように補正される。
以下に、(式7)の計算結果(式4に条件3を代入した場合)の効果について説明する。
補正項1(1)の演算処理を行なうことによって、クラスタに含まれる技術文献の量が多い場合であっても、他のクラスタに含まれる技術文献の量と大差が無い場合には、その技術文献の量を類似率の算出結果にあまり反映させないようにすることが可能となる。
この(式7)による類似率の算出結果は、クラスタ1とクラスタ3の影響が大きく出るように補遺性が働いているので、われわれが常識的に考えた類似の程度(約0.20程度)と大きくずれてはおらず、ほぼ狙いどおりの値が得られている。
下式(式8)に、計算例4−4(式4に条件を4代入した場合)の計算結果について説明する。
条件4の場合には、条件3の場合とクラスタに含まれる技術文献の量の総和は同じであるが、クラスタ1及びクラスタ2に含まれる第1の技術文献群と第2の技術文献群との割合が極端に不均等である場合である。したがって、混合クラスタに含まれる技術文献数が多いからといって類似率を大きく算出しないことが望ましい。
上記の(式8)にて算出した類似率(式4に条件4を代入した場合)=0.459の値は、クラスタ1及びクラスタ2に含まれる技術文献の量が多くても、他のクラスタ3よりも少し少ない程度であることから、類似率の補正にはほとんど関与しないように補正される。
以下に、(式8)の計算結果(式4に条件4を代入した場合)の効果について説明する。
(式8)の演算処理によって、クラスタに含まれる技術文献の量が多い場合であっても、他のクラスタに含まれる技術文献の量と大差が無い場合には、その技術文献の量を類似率の算出結果にあまり反映させないようにすることが可能となるが、条件4の場合には類似率は数パーセントの値になることが感覚上望ましい。
この条件4の場合には、補正項1(1)の処理だけでは人の感覚と一致しない部分が生ずる可能性があるために、以降で説明する補正項2が有用となる。但し、クラスタ3、1、2の影響が大きくなっているので、補正項1(1)の役割は十分に果たしているといえる。また、補正項1(1)の処理を行なうことによって、技術文献数の多いクラスタが存在する場合には、そのクラスタに含まれる技術文献数量の多さを類似率に反映することが可能となっている。
図11に、補正項1(1)を採用した場合の類似率算出例(補正項1(1)に条件1〜4を代入した場合の計算結果)の図表を示す。
応用型2:補正項2(1)の算出例
以下に示す補正項2(1)の計算式(式9)は、混在クラスタ内の技術文献の混在確率に応じて補正を行なうために構成したものである。
但し、
M:第1の技術文献群(A群)に含まれる技術文献数
N:第2の技術文献群(B群)に含まれる技術文献数
m:所定のクラスタに含まれる第1の技術文献群(A群)の技術文献数
n:所定のクラスタに含まれる第2の技術文献群(B群)の技術文献数
γ:任意定数γ>0
上記補正項2(1)を考慮した類似率(式10)の算出例を以下に示す。
(式10)の補正項2(1)では、類似率が、混在クラスタに含まれる第1の技術文献群(A群)及び第2の技術文献群(B群)の技術文献数の確率に応じて大きな値をとるように補正するために、第1の技術文献群(A群)の中からm個、第2の技術文献群(B群)の中からn個の技術文献を取り出す確率のγ乗(但し、0<γ)を分子に配置している。
類似率の算出範囲を0≦類似率≦1を保証するために、例えば(式10)に示すように、第1の技術文献群(A群)の中からm個、第2の技術文献群(B群)の中からn個の技術文献を取り出す確率の最大値のγ乗(但し、0<γ)を規格化因子として分母に配置している。
規格化因子は、0≦類似率≦1を保証することが可能な項であればよく、(式10)に示した規格化因子に限定されるものではない。
以下に、指数γの設定条件について説明する。
単純に混在クラスタに含まれるA群及びB群の技術文献数が、A群及びB群の技術文献群から無作為に抽出した際の分布に近い度合いに比例して類似率の値を補正する必要がある場合には、指数γをγ=1に設定するとよい。
また、混在クラスタに含まれるA群及びB群の技術文献数が、A群及びB群の技術文献群から無作為に抽出した際の分布に近いほど重要視して大きな値に補正する必要がある場合、又は、A群及びB群の技術文献群から無作為に抽出した際の分布に遠いほど軽視して小さな値に補正する必要がある場合には、指数γをγ>1に設定するとよい。
また、混在クラスタに含まれるA群及びB群の技術文献数が、A群及びB群の技術文献群から無作為に抽出した際の分布に近くなくても重要視して補正する必要がある場合には、指数γを0<γ<1に設定するとよい。
以下に、応用型2:補正項2(1)の計算式(式10)に,図9に示した各条件を代入した場合の計算例を示す。なお、算出結果は、図12に、補正項2(1)を採用した場合の類似率算出例(補正項2(1)に条件1〜4を代入した場合の計算結果)の図表として示す。
補正項2(1)では、(A群の中からm個、B群の中からn個の技術文献を取り出す組合せの数)/(A群とB群とを混ぜ合わせた中からm+n個の技術文献を取り出す組合せ数)を分子に配置したので、混在クラスタに含まれるA群及びB群の技術文献数の偏り(作為性)に応じて、偏り大の場合は小さい補正値に、偏り小の場合は大きい補正値に類似率を補正することが可能となる。本実施例では、偏りが大きい場合には補正値を小さくして類似率を小さく算出することとし、逆に偏りが小さい場合には補正値を大きくして類似率を大きく算出することとしている。
規格化因子として分母に(A群の中からx個、B群の中からy個の技術文献を取り出す組合せの数)/(A群とB群とを混ぜ合わせた中からm+n個の技術文献を取り出す組合せ数)を配置したので、x、yは分母を最大にする数の組合せであることから類似率の算出範囲として0≦類似率≦1を保証することが可能となる。
更に、分子の指数γを γ=1に設定することによって、単純に混在クラスタに含まれるA群及びB群の技術文献数が、A群及びB群の技術文献群から無作為に抽出した際の分布に近い度合いに比例して類似率の値を補正することが可能となる。
また、分子の指数γをγ>1に設定することによって、混在クラスタに含まれるA群及びB群の技術文献数が、A群及びB群の技術文献群から無作為に抽出した際の分布に近いほど重要視して大きな値に補正することが可能となる。また、A群及びB群の技術文献群から無作為に抽出した際の分布に遠いほど軽視して小さな値に補正することが可能となる。
また、混在クラスタに含まれるA群及びB群の技術文献数が、A群及びB群の技術文献群から無作為に抽出した際の分布に近くなくても重要視して補正する必要がある場合には、分子の指数γを0<γ<1に設定するとよい。
下式(式11)に、計算例10−1(式10に条件1を代入した場合)の計算結果について説明する。
補正項2(1)のみを考慮して他の補正項の作用を考慮しない場合であって(すなわち補正項1=1、補正項3=1とする)、単純に混在確率に基づいて比較を行なう場合(すなわちγ=1とした場合)に、技術文献群同士を比較する条件を、条件1〜4に設定したときの類似率の試算結果は、以下のとおりである。
下記の(式11)に示すように、条件1の場合には、各混在クラスタ1に含まれる技術文献の混在確率は、0.409と算出される。また、同様にクラスタ2に含まれる技術文献の混在比率も、0.409と算出される。
一方、分母の規格化因子は混在クラスタ1の混在確率の最大値であるので、以下のように規格化因子=0.409と算出される。また、条件1の場合には、クラスタ2の規格化因子も0.409と算出される。
したがって、(式12)の計算式に条件1を代入した場合における補正項2(1)の値は、補正項2(1)=1と算出される。同様に、混在クラスタ2の補正項2(1)の値も1と算出される。
したがって、補正項2(1)の値は、下式(式13)のように1と算出されるので、特に補正は行なわれずに、類似率は0.5と算出される。
上記の(式13)により算出される類似率(式10に条件1を代入した場合)=0.5の値は、補正を考慮しない(式1)による類似率の演算結果と一致している。そして、技術文献群に含まれる技術文献数量がそれぞれ6個と6個であり、混在クラスタ内に含まれる技術文献数も2個と1個であるので、われわれが常識的に考えた類似の程度とほぼ一致している。したがって、補正項2(1)を挿入した場合であっても許容範囲内の結果を得ることが可能となる。
下式(式14)に、計算例10−2(式10に条件2を代入した場合)の計算結果について説明する。
条件2の場合のクラスタ1に含まれる技術文献の混在確率は、第1の技術文献群(A群)と第2の技術文献群(B群)の大きさの比率に近いので、類似率を算出する際にはクラスタ1を構成する技術文献の混在比率の影響を重視して、類似率を大きく算出するべきなのは明らかである。
以下の(式14)に、補正項2(1)の分子を構成する混在確率の計算例を示す。
一方、分母の規格化因子は混在クラスタ1の混在確率の最大値であるので、以下のように規格化因子=0.280と算出される。また、条件2の場合には、クラスタ2の規格化因子も0.280と算出される。
したがって、条件2におけるクラスタ1の補正項2(1)の値は、補正項2(1)=0.404と算出される。また、条件2におけるクラスタ2の補正項2(1)の値は、「1」と算出されるので、下式(式16)に示すように、補正項2(1)に基づく類似率は0.351と算出される(図12参照)。
上記の(式16)にて算出した類似率(式10に条件2を代入した場合)=0.351の値は、クラスタ1に含まれる技術文献の混在確率に引っ張られ、類似率(式4に条件2を代入した場合)=0.962から、類似率(式5に条件2を代入した場合)=0.351に補正された。
下式(式17)〜(式19)に、計算例10−3(式10に条件3を代入した場合)の計算結果について説明する。以下の(式17)は、補正項2(1)の分子を構成する混在確率の計算例である。
一方、分母の規格化因子は混在クラスタ1の混在確率の最大値であるので、以下のように規格化因子=0.133と算出される。また、条件3の場合には、クラスタ2の規格化因子も0.448と算出される。
したがって、条件3における補正項2(1)の値は、補正項2(1)=0.000と算出される。混在クラスタ2の補正項2(1)の値は、条件1及び条件2の場合と同様に1と算出される。
したがって類似率は、下記の計算によって0.25と算出される。
上記の(式19)にて算出した類似率(式10に条件3を代入した場合)=0.25の値は、クラスタ1に含まれる技術文献の混在確率に引っ張られ、類似率(式4に条件3を代入した場合)=0.459から類似率(式10に条件3を代入した場合)=0.25に補正された。
下式(式20)〜(式24)に、計算例10−4(式10に条件4を代入した場合)の計算結果について説明する。
条件4の場合には、条件3の場合とクラスタに含まれる技術文献の量の総和は同じであるが、クラスタ1及びクラスタ2に含まれる技術文献A群と技術文献B群との割合が極端に不均等である場合である。したがって、混合クラスタに含まれる技術文献数が多いからといって類似率を大きく算出しないことが望ましい。
補正項2(1)の混在クラスタ1の分子を構成する混在確率について算出すると、
一方、分母の規格化因子は混在クラスタ1の混在確率の最大値であるので、以下のように規格化因子=0.141と算出される。
したがって、条件4における混在クラスタ1の補正項2(1)の値は、補正項2(1)=0.000と算出される。
一方、混在クラスタ2の補正項2(1)の値は、以下のように補正項2(1)=0.004と算出される。
混在クラスタ2の分母の規格化因子は、混在クラスタ2の混在確率の最大値であるので、条件4の場合には、以下のように規格化因子=0.194と算出される。
したがって類似率は、以下のように0.001と算出される。
上記の(式24)にて算出した類似率(式10に条件4を代入した場合)=0.001の値は、クラスタ1及びクラスタ2に含まれる技術文献の混在確率が、技術文献A群と技術文献B群から無作為に取り出した場合の混在確率の最大値よりもはるかに小さいので、類似率(式4に条件4を代入した場合)=0.459から類似率(式10に条件4を代入した場合)=0.001に補正された。
図12に、補正項2(1)を採用した場合の類似率算出例(補正項2(1)に条件1〜4を代入した場合の計算結果)の図表を示す。
同図に示すように、混合クラスタのうち、技術文献がよく混ざっているクラスタ(混在確率が大きい値を示す条件を備えたクラスタ)では、補正項2(1)の値が大きい値を示していることがわかる。また、技術文献がよく混ざっていないクラスタ(混在確率が小さい値を示す条件を備えたクラスタ)では、補正項2(1)の値がほぼ「0」と、小さい値を示し、算出される類似率の値も小さい値を示している。
図13に、補正項1(1)及び補正項2(1)の双方を採用した場合の類似率算出例(補正項1(1)及び補正項2(1)に、条件1〜4を代入した場合の計算結果)の図表を示す。
条件1の場合に算出された類似率=0.5は、われわれが常識的に考える類似の程度とほぼ合っているといえる。
条件2の場合には、混合クラスタ1に含まれる技術文献の数量はクラスタ2〜4に含まれる技術文献数量と比べると明らかに多いが、算出される類似率の値は(式1)に条件2を代入した場合の類似率=0.5から、補正項1(1)及び補正項2(1)を用いて条件2を代入した場合の類似率=0.4に補正された。このように補正項1(1)及び補正項2(1)を用いて類似率を算出することによって、技術文献数の多いクラスタ1についてあまり重み付けをしたくないときに有効となる。
条件3の場合には、条件2の場合と比較してクラスタ内に含まれる技術文献数量の総和は同じだが、混在クラスタ1の技術文献数量のみが特に多い訳ではないので、算出される類似率の値は類似率=0.019に小さく補正された。このように補正項1(1)及び補正項2(1)を用いて類似率を算出することによって、クラスタ1に含まれる技術文献数量の多さを類似率の算出結果に反映したくない場合に有効となる。
条件4の場合には、条件2の場合と比較してクラスタ内に含まれる技術文献数量の総和は同じだが、混在クラスタ1や混在クラスタ2が特に大きい訳ではなく、技術文献の混ざり具合がさらに極端なとき、類似率の値は類似率=0.0005に補正されている。このように補正項1(1)及び補正項2(1)を用いて類似率を算出することによって、混在クラスタ内の技術文献数量が多い場合であっても、技術文献の混ざり具合が不均等である場合には類似率を小さく算出する方向に補正することが可能となる。
すなわち、補正項1(1)及び補正項2(1)を用いて類似率を算出することによって、技術文献数量の多い混在クラスタを重要視して類似率を補正するとともに、技術文献の混ざり具合が不均一な場合には、類似率を小さい値に補正することが可能となる。
また同図に示すように、補正項2(1)計算式では、補正項の値が技術文献の混ざり具合に敏感に反応する傾向があるので、適宜γの値を調節する必要が生ずる場合もあると考えられる。そして、混在クラスタ内に含まれる技術文献の数量に基づいた補正と、混在クラスタ内に含まれる技術文献の混ざり具合に基づく補正とは、上述のようにそれぞれ密接な関係があるので、αの値とともにγの値を適宜定めることも重要であると考えられる。
なお、図13はα=1、γ=1とした場合の計算例であるが、例えばα=1のままとしてγ=0.25に設定して試算してみると、条件1の類似率=0.5→0.5、条件2の類似率=0.4→0.769、条件3の類似率=0.019→0.019、条件4の類似率=0.0005→0.033と算出することが可能となる。
応用型3:補正項2(2)の算出例
補正項2(2)は、混在クラスタ内における技術文献の混在比に応じて類似率を補正する補正項である。
第1の技術文献群(A群)と、第2の技術文献群(B群)に含まれる技術文献の数量の比が大きく異なる場合には、各混在クラスタに含まれる技術文献の混在比も当然異なるはずである。また、両群に含まれる技術文献の数量が拮抗しているほど、クラスタに含まれる技術文献の混在比は第1の技術文献群(A群)及び第2の技術文献群(B群)に含まれ技術文献数の数量の比(構成比)に近くなると考えるのが妥当である。
そこで本発明では、第1の技術文献群(A群)及び第2の技術文献群(B群)に含まれる技術文献数の構成比N/Mと、各クラスタ内における技術文献数の混在比n/mについて、更に構成比と混在比との比を取ったもののξ乗(但し、0<ξ)に比例した補正値を、類似率を算出する際の補正項として設けている。
すなわち、第1の技術文献群(A群)及び第2の技術文献群(B群)に含まれる技術文献数の構成比N/Mと、各クラスタ内における技術文献数の混在比n/mが近いほど類似率を高く設定する(1に近づける)ための数式である。
したがって補正項2(2)の値は、第1の技術文献群(A群)及び第2の技術文献群(B群)に含まれる技術文献数の構成比と、各クラスタ内における技術文献同士の混在比が異なるほど1から小さい値を取る。
補正項2(2)を考慮した類似率の算出例を、以下の(式26)に示す。
上記の(式25)及び(式26)に示すように補正項2(2)では、技術文献A群及び技術文献B群の構成比と、各クラスタ内における技術文献同士の混在比が同じであるほど類似率を高く設定する(1に近づける)ために、分子には「N/M又はn/mの小さい方」を配置し、分母には「N/M又はn/mの大きい方」を配置している。
この場合に、技術文献の混在比が小さい混在クラスタの影響を、類似率の算出結果に大きく反映させたくない場合には、補正項の指数ζをζ>1に設定するとよい。
また、単純にクラスタ内における技術文献の混在比に応じて類似率を増減させる要望がある場合には、ζ=1に設定するとよい。
また、混在比が大きい混在クラスタの影響を類似率の算出結果に大きく反映させたくない要求がある場合には、0<ζ<1に設定するとよい。
以下に、類似率の計算に際して補正項2(2)を用いる場合の作用について説明する。
補正項2(2)では、分子にA群とB群の技術文献数量の構成比又は各クラスタ内における技術文献同士の混在比のいずれか小さい方を配置し、分母にA群とB群の技術文献数量の構成比又は各クラスタ内における技術文献同士の混在比のいずれか大きい方を配置するようにしたので、A群とB群の技術文献数量の構成比と各クラスタ内における技術文献同士の混在比が同じであるほど類似率を高く算出する(1に近づける)ことが可能となる。また、A群とB群の技術文献数量の構成比と各クラスタ内における技術文献同士の混在比が異なるほど類似率を小さい値に算出することが可能となる。
また、A群とB群の技術文献数量の構成比と、各クラスタ内における技術文献同士の混在比との比を算出しているので、類似率の算出範囲を0≦類似率≦1を保証することが可能となる。
更に、指数ζをζ>1に設定することによって、A群とB群の技術文献数量の比と、各クラスタ内における技術文献同士の混在比との比が小さい混在クラスタの影響を、類似率の算出結果に大きく反映させないようにすることが可能となる。
また、指数ζをζ=1に設定することによって、単純にA群とB群の技術文献数量の構成比と、各クラスタ内における技術文献同士の混在比との比に応じて類似率を増減させることが可能となる(単純混在比比較)。
また、分子の指数を0<ζ<1に設定することによって、A群とB群の技術文献数量の構成比と、各クラスタ内における技術文献同士の混在比との比が大きい場合に類似率の算出結果に対する影響を少なくすることが可能となる。
補正項2(2)のみを考慮して他の補正項の作用を考慮しない場合であって(すなわち補正項1=1、補正項3=1とする)、単純混在比比較を行なう場合(すなわちζ=1)に、技術文献群同士を比較する条件として、(式26)において条件1〜4に設定した場合の類似率の試算結果を以下に示す。なお、算出結果は、図14に、補正項2(2)を採用した場合の類似率算出例(補正項2(2)に条件1〜4を代入した場合の計算結果)の図表として示す。
下式(式27)に、計算例26−1(式26に条件1を代入した場合)の計算結果を示す。
条件1では、第1の技術文献群(A群)の技術文献数量は6個、第2の技術文献群(B群)の技術文献数量も6個であるので、A群と群B群の技術文献数量の構成比は1対1である。
一方、条件1の場合に各混在クラスタ(クラスタ1及びクラスタ2)に含まれる技術文献数は、第1の技術文献群(A群)の技術文献が2個、第2の技術文献群(B群)の技術文献が1個であるので、混在比は2対1である。
したがって、クラスタに含まれる技術文献の混在比による類似率の補正の影響は、少なからず存在することが期待される。
下式(式28)に、計算例26−2(式26に条件2を代入した場合)の計算結果を示す。
下式(式29)に、計算例26−3(式26に条件3を代入した場合)の計算結果を示す。
条件3の場合には、条件2の場合とクラスタに含まれる技術文献の量の総和は同じであるが、混在クラスタ1に含まれる技術文献の混在比が、第1の技術文献群(A群)と第2の技術文献群(B群)の構成比と大きく異なる状況である。したがって類似率を算出する際に、混在クラスタ1に含まれる技術文献の混在比率の影響が条件2の場合ほどは生じないことが望ましい。
上記の(式29)にて算出した類似率(式26に条件3を代入)=0.289の値は、混在クラスタ1に含まれる技術文献の混在比が、第1の技術文献群(A群)と第2の技術文献群(B群)の構成比と異なることから、類似率は少なく補正される。
したがって、補正2(2)の演算処理を行なうことによって、混在クラスタに含まれる技術文献の量が多い場合であっても、その技術文献の混在比率に応じて類似率を補正することが可能となる。
下式(式30)に、計算例26−4(式26に条件4を代入した場合)の計算結果を示す。
上記の(式30)にて算出した類似率(式26に条件4を代入した場合)=0.029の値は、クラスタ1及びクラスタ2に含まれる技術文献の混在比が極端に不均等であるとともに、混在クラスタ1及び混在クラスタ2の混在比が第1の技術文献群(A群)と第2の技術文献群1(B群)の技術文献数量の構成比と大きく異なるので、類似率が少なく補正される。
図14に、補正項2(2)を採用した場合の類似率算出例(補正項2(2)に条件1〜4を代入した場合の計算結果)の図表を示す。
条件1、条件2における混在クラスタ1及び混在クラスタ2、並びに条件3における混在クラスタ2は、図9に示すように技術文献がよく混ざっている状態であるといえる例(混在クラスタにおける技術文献の混在比が、第1の技術文献群と、第2の技術文献群に含まれる技術文献の数量の比に近い場合)である。この場合には、補正項の値を割合に大きく算出し、類似率の値を大きくする効果がある。
逆に、条件3の混在クラスタ1及び条件4の各混在クラスタは、技術文献がよく混ざっていない状態であるといえる(混在クラスタにおける技術文献の混在比が、第1の技術文献群と、第2の技術文献群に含まれる技術文献の数量の比と大きく異なる場合といえる)ので、補正項の値を小さく算出し、類似率を小さい値に算出する効果がある。
したがって(式4)に示したような、補正項1(1)と組み合わせて類似率を算出することによって、技術文献群同士がどの程度技術的に関連があるかを示す類似率の算出制度を向上させることが可能となる。
図15に、補正項1(1)及び補正項2(2)を採用した場合の類似率算出例(補正項1(1)及び補正項2(2)に条件1〜4を代入した場合の計算結果)の図表を示す。
同図に示すように、補正項1(1)及び補正項2(2)を用いた計算式に条件1を代入すると、クラスタ内に含まれる技術文献数量と混在比率に応じた類似率を算出するので、条件1を代入した場合の類似率=0.25の値は、(式1)に条件1を代入した場合(補正項なしの場合)の類似率=0.5の値より小さいが、かなり期待した値に近く、技術文献群同士の技術の類似性をよく表していると言える。
また、補正項1(1)及び補正項2(2)を用いた計算式に条件2代入すると、クラスタ内に含まれ技術文献数量と混在比率に応じた類似率を算出するので、類似率は(式1)に条件2を代入した場合(補正なしの場合)の類似率=0.5から、補正項1及び補正項2(2)を用いて条件2を代入した場合の類似率=0.909に補正され、かなり期待した類似率の値に近く、技術文献同士の類似性をよく表していると言える。
このように補正項1及び補正項2(2)を用いて類似率を算出することによって、技術文献数の多いクラスタ1について重み付けをすることが可能となる。
また、補正項1(1)及び補正項2(2)を用いた計算式に条件3を代入すると、クラスタ内に含まれる技術文献数量と混在比率に応じた類似率を算出するので、条件2の場合と比較してクラスタ内に含まれる技術文献数量の総和は同じだが、混在クラスタ1の技術文献数量のみが特に多いわけではなく、かつ、クラスタ1内の技術文献の混在比率が第1の技術文献群(A群)と第2の技術文献群(B群)の技術文献数量の比率とも異なる場合には、クラスタ1の存在を特に重視しないようにすることが可能となる。
ここで算出される類似率は、(式1)に条件3を代入した場合(補正なしの場合)の類似率=0.5から、補正項1及び補正項2(2)を用いて条件3を代入した場合の類似率=0.111に補正され、かなり期待した値に近く、技術文献群同士の類似性を表していると言える。
また、補正項1(1)及び補正項2(2)を用いた計算式に条件4を代入すると、クラスタ内に含まれる技術文献数量と混在比率に応じた類似率を算出するので、条件2の場合と比較してクラスタ内に含まれる技術文献数量の総和は同じだが、混在クラスタ1や混在クラスタ2が特に大きいわけではなく、技術文献の混ざり具合がさらに極端な場合で、混在クラスタ内における技術文献の混在比が、A群とB群の技術文献数の比と大きく異なるので、類似率に反映する影響が小さくなっている。
ここで算出される類似率は、(式1)に条件4を代入した場合(補正なしの場合)の類似率=0.5から、補正項1及び補正項2(2)を用いて条件4を代入した場合の類似率=0.019に補正され、かなり期待した値に近く、技術文献同士の類似性をよく表していると言える。
応用型4:補正項2(3)の算出例
以下に、混在クラスタ内における技術文献の期待値差に基づく補正について説明する。
あるクラスタ内に含まれる第1の技術文献群(A群)の技術文献の数量Mと、第2の技術文献群(B群)の技術文献の数量Nとが、A群とB群から無作為に抽出した際の期待値(M/(M+N))に近いほど、良く混ざっていると考えるのは自然である。(前記(式9)に示した確率比、又は(式25)に示した混在比と並ぶ第3の混ざり具合の定義である。)
そこで本発明では、第1の技術文献群(A群)と第2の技術文献群(B群)とを混合した技術文献群の中から、第1技術文献群(A群)の技術文献を取り出す確率(M/(M+N))に、混在クラスタに含まれる技術文献数(m+n)を乗算して第1の技術文献群(A群)の技術文献を取り出す期待値を算出し、その期待値と混合クラスタに含まれる第1の技術文献群(A群)の技術文献数mとの差を期待値差(下(式31)参照)として算出し、この差が小さいほど(0に近いほど)類似率が高くなるように補正する演算を行なう。
以下の(式31)に期待値差の算出例を示す。
図16に、上記の(式31)に条件1〜4を代入した場合の期待値差の算出例を示す。
上記の(式31)による計算結果からもわかるとおり、あるクラスタ内に含まれるA群の技術文献の数量と、B群の技術文献の数量とが、A群とB群から無作為に抽出した際の期待値に近いほど、そのクラスタを重要視して類似率を補正する場合には、図16に示す期待値差を負の数にして指数部分に置くとよい。
負の値にした期待値差を指数部分に配置することによって、混在クラスタに期待値どおりの技術文献が存在する場合には、期待値差=0となり、指数=0の場合には、補正項の値を1と算出することが可能となるからである。ところが、期待値のままだと混ざり具合だけなく所定の混在クラスタの大きさにも依存してしまうため、期待値差をクラスタに含まれる技術文献数で除算するとよい。
このようにして求めた補正項2(3)実施例を以下に示す。
但し、
ξ:任意定数であって、ξ>1とする。
上記(式32)のように補正項2を算出することによって、例えば、クラスタの大きさが100で期待値差が10の時とクラスタの大きさが10で期待値差が1の時の補正値を同じにすることが可能となる。
なお、ξの値を大きく設定するほど期待値差に対して敏感に反応して類似率を小さく補正することが可能となる。
図17に、ξ=10とした場合において、(式32)に条件1〜4を代入した場合の類似率算出例を示す。
図18に、補正項1(1)及び補正項2(3)を採用した場合の類似率算出例(補正項1(1)及び補正項2(3)に条件1〜4を代入した場合の計算結果)の図表を示す。
同図に示すように、補正項1(1)及び補正項2(3)とを用いた計算式に条件1を代入すると、クラスタ内に含まれる技術文献数量と期待値差に応じた類似率を算出する(あるクラスタ内に含まれる第1の技術文献群(A群)の技術文献の数量と、第2の技術文献群(B群)の技術文献の数量とが、A群とB群から無作為に抽出した際の期待値に近い程類似率を大きく算出する補正を行なう)ので、補正項1及び補正項2(3)を用いて条件1を代入した場合の類似率=0.340は、(式1)に条件1を代入した場合(補正なしの場合)の類似率=0.5の値に近く、期待した値に近い値を算出することが可能となっている。
条件2の場合には、混在クラスタ1は、クラスタ2〜4と比べると混在クラスタに含まれる技術文献数が大きい上に、期待値差も少ないので混在クラスタ1に含まれる技術文献の構成の影響を重視すべきである。
補正項1(1)及び補正項2(3)を用いた計算式に条件2を代入すると、クラスタ内に含まれる技術文献数量と期待値差に応じた類似率を算出する(あるクラスタ内に含まれる第1の技術文献群(A群)の技術文献の数量と、第2の技術文献群(B群)の技術文献の数量とが、A群とB群から無作為に抽出した際の期待値に近い程類似率を大きく算出する補正を行なう)ので、補正項1及び補正項2(3)を用いて条件2を代入した場合の類似率=0.935は、(式1)に条件1を代入した場合(補正なしの場合)の類似率=0.5の値より大きく補正されており、この値は期待した値に近い値となる。
条件3の場合には、前記の条件2の場合と比較してクラスタに含まれる技術文献数量の総和は同じだが、混在クラスタ1だけが特に大きい訳ではないのでクラスタ1を特に重視しないはずである。また、混在クラスタ1に含まれる技術文献は、第1の技術文献群(A群)と第2の技術文献群(B群)から無作為に抽出した際の期待値と大きく異なるので、混在クラスタ1の期待値差の大きさに引っ張られ類似率は小さく算出されるはずである。
補正項1(1)及び補正項2(3)を用いた計算式に条件3を代入すると、クラスタ内に含まれる技術文献数量と期待値差に応じた類似率を算出する(あるクラスタ内に含まれる第1の技術文献群(A群)の技術文献の数量と、第2の技術文献群(B群)の技術文献の数量とが、A群とB群から無作為に抽出した際の期待値に近い程類似率を大きく算出する補正を行なう)ので、補正項1及び補正項2(3)を用いて条件3を代入した場合に、類似率=0.207と算出される。この類似率の値も期待した値に近い値である。
条件4の場合には、条件3と比べてクラスタ内に含まれる技術文献数量の総和は同じだが、混在クラスタ1や混在クラスタ2に含まれる技術文献数量が特に大きい訳ではなく、混ざり具合がさらに極端な場合なので、混在クラスタ1の重み付けに引っ張られないことが望ましい。
補正項1(1)及び補正項2(3)を用いた計算式に条件4を代入すると、クラスタ内に含まれる技術文献数量と期待値差に応じた類似率を算出する(あるクラスタ内に含まれる第1の技術文献群(A群)の技術文献の数量と、第2の技術文献群(B群)の技術文献の数量とが、A群とB群から無作為に抽出した際の期待値に近い程類似率を大きく算出する補正を行なう)ので、補正項1及び補正項2(3)を用いて条件4を代入した場合には、類似率=0.146と算出される。この類似率の値も、期待した値に近い値である。
同図に示すように、本発明に係る類似率算出システムは、技術文献データベース20から通信網10を介して、類似率の算出に必要な技術文献を読み出して、類似率を算出して表示する類似率算出装置30と、通信網10を介して各社の技報や、出願済みの特許公報、実用新案公報等の特許文献を含む技術文献を記録する技術文献データベース20とが設けられている。
通信網10は、インターネット等の通信網であって、類似率算出装置30が通信網10を介して技術文献データベース20から特許文献等の技術文献に関する情報を取得することが可能となっている。
類似率算出装置30は、利用者から比較対象の技術文献群に関する情報や、文献どうしの比較条件を入力し、技術文献データベース20から通信網10を介して、類似率の算出に必要な技術文献を読み出して、類似率を算出して表示することが可能となっている。
図2は、本発明に係る類似率算出装置のブロック図である。
同図に示すように類似率算出装置30の情報送受信部には、公衆回線又は通信ネットワーク等の通信網364を介して、技術文献データベース20等の他の通信機器と情報の送受信を行なうことが可能な送受信手段365(技術文献群入力手段、技術情報入力手段、又は出力手段の機能を含むものであってもよい)が設けられている。
送受信手段365は、技術文献データベース20から通信網10を介して、類似率の算出に必要な技術文献を取得することが可能となっている。
また類似率算出装置30には、利用者から比較対象の技術文献群に関する情報や、文献同士の比較条件を入力するキーボード、マウス等の入力手段370(技術情報入力手段の機能を含むものであってもよい)が設けられている。
また類似率算出装置30には、入力手段370を介して入力した各種情報を読み取って後述する情報処理手殺380に伝達したり、情報処理手段380からの指示に基づいてLED等に表示指令を出力する入力インターフェース371(技術情報入力手段の機能を含むものであってもよい)と、画像や文字等の情報を表示する表示手段372(出力手段の機能を含むものであってもよい)と、情報処理手段380の指令に基づいて表示手段372に対して表示用の画像信号を出力する表示インターフェース373(出力手段の機能を含むものであってもよい)とが設けられている。なお、入力手段370は、キーボードやマウスに限らず、タブレット等の入力装置を含むものである。
また類似率算出装置30には、記録媒体377を着脱可能に装着する記録媒体装着部378と、記録媒体377に対して各種情報を記録したり読み出したりする記録媒体インターフェース379(技術文献群入力手段、技術情報入力手段、又は出力手段の機能を含むものであってもよい)とが設けられている。なお、記録媒体377は、メモリーカード等の半導体や、MO、磁気ディスク等に代表される磁気記録式、光記録式等の着脱可能な記録媒体である。
また、類似率算出装置30には、類似率算出装置30の全体の制御を行う情報処理手段380と、情報処環手段380にて実行されるプログラムや各種定数が記録されているROMや情報処理手段380が処理を実行する際の作業領域となる記録手段であるRAMとから構成されるメモリ381とが設けられている。
また、情報処理手段380(クラスタ分解手段、又は類似率算出手段)は、利用者から比較対象の技術文献群に関する情報や、文献同士の比較条件を入力し、技術文献データベース20から類似率の算出に必要な技術文献を取得し、記録手段384に記録されている類似率の演算プログラムや類似率の算出処理プログラム基づいて、技術文献同士の類似率を算出する機能を実現することが可能となっている。また、類似率の算出結果を表示手段372に表示する機能を実現することが可能となっている。
なお、情報処理手段380(クラスタ分解手段)は、文書内の、請求項、発明の詳細な説明、図面の簡単な説明、要約などに含まれる言葉(単語、熟語、名詞、動詞、助動詞、形容詞、副詞、助詞など)からなる文を分かち書きしたり、1字、2字など機械的に切り出して技術文献を検索し、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解する機能を実現することが可能となっている。
また情報処理手段380(クラスタ分解手段)は、書誌事項などに含まれる項目(IPC等の分類、出願日、出願番号、出願人名、発明者、審査請求の有無、補正の有無、国内優先の有無、外国出願有無、拒絶理由の有無、登録日、登録番号、など)を用いてクラスタ分解する機能を実現することが可能となっている。
また情報処理手段380(類似率算出手段)は、クラスタ分解した結果得られた全クラスタ数と、第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数との比を算出するなどして、技術文献群同士の類似率を算出する機能を実現することが可能となっている。
これらの全ての処理を情報処理手段380が実行する代わりに、複数の処理装置に分担して実行するようにしても本発明の目的を達成することが可能である。
また、類似率算出装置30には、類似率算出装置30の処理に関する各種定数やネットワーク上の通信機器に通信接続する際の属性情報、URL(Uniform Resource Locators)、ゲートウェイ情報、DNS(Domain Name System)等の接続情報、企業の経営に関する情報、特許に関する情報、特許文献、技報、キーワード、技術情報等の各種情報を記録することが可能なハードディスク等の記録手段384と、記録手段384に記録されている情報を読み出したり記録手段384に対して情報を書き込む処理を行う記録手段インターフェース385(技術文献群入力手段、技術情報入力手段、又は出力手段の機能を含むものであってもよい)と、時刻を刻むカレンダ時計390とが設けられている。
類似率算出装置30内の情報処理手段380と、表示インターフェース373、メモリ381、記録手段インターフェース385、カレンダ時計390等を含む各周辺回路はバス399で接続されており、情報処理手段380にて実行される処理プログラムに基づいて各々の周辺回路を制御する機能を実現することが可能となっている。
前記送受信手段365、記録媒体インターフェース379、記録手段インターフェース385等の技術情報入力手段は、比較対象となる第1の技術文献群及び第2の技術文献群を入力することが可能となっている。
前記送受信手段365、入力手段370、入力インターフェース371、記録媒体インターフェース379、記録手段インターフェース385等の技術情報入力手段は、キーワードやIPCなどの技術情報を入力することが可能となっている。
前記送受信手段365、表示インターフェース373、記録手段インターフェース385、記録媒体インターフェース379、プリンターインターフェース等の出力手段は、類似率算出手段が算出した類似率を、記録手段、表示手段、又は通信手段に出力することが可能となっている。
図1に示したデータベース20は、記録手段384に記憶されている場合や、CD−ROM、CD−RW、DVD、MO等の記憶媒体377で提供される場合、通信網364を介して他の通信機器から取得する場合も考えられる。
また、上記の類似率算出装置30は、パーソナルコンピュータ、ワークステーションなど様々なコンピュータを利用して実現することができる。さらに、コンピュータをネットワークで接続して機能を分散して実施するようにしても良い。
本発明に係る類似率算出装置並びに類似率算出プログラムによって算出される技術文献の類似率とは、第1の技術文献群(技術文献A群)と別の第2の技術文献群(技術文献B群)とを所定のキーワードやIPCなどに基づいてマクロ的に比較した際に算出される数値であって、技術文献群同士がどの程度技術的に関連があるかを示す指標とするための数値をいう。
そして、第1の技術文献群(技術文献A群)と第2の技術文献群(技術文献B群)は、何らかの属性を持つ技術文献の集まりとする。
本発明では、A社が出願した特許公報やA社が発行した技報などの第1の技術文献群(技術文献A群)に記載された技術内容と、B社が出願した特許公報やB社が発行した技報などの第2の技術文献群(技術文献B群)に記載された技術内容とが、どれだけ類似しているかを定性的に評価する指標としての数値を算出することによって、技術文献同士を容易に比較することが可能となっている。
以下に説明する実施例では、第1の技術文献群(技術文献A群)と第2の技術文献群(技術文献B群)に記載された技術内容が類似しているほど、類似率は大きい値をとるものと定義している。
なお本発明では、類似率を算出する際に異なる条件を設定した場合であっても、第1の技術文献群(技術文献A群)と第2の技術文献群(技術文献B群)との間で算出した類似率と、第3の技術文献群(技術文献C群)と第4の技術文献群(技術文献D群)との間で算出した類似率とを直接比較することが可能であるように、類似率が取り得る範囲として、0≦類似率≦1となるような演算を行なうことにしているが、類似率の取り得る範囲はこの範囲に限定されるものではない。
図3は、技術文献A群と技術文献B群に含まれる技術文献の構成を示す図である。
同図に示すように、技術文献A群は、A1,A2,A3,…AMのM個の技術文献から構成されており、技術文献B群は、B1,B2,B3,…BNのN個の技術文献から構成されている。
図4は、類似率の表示処理を示すフローチャートである。
同図に示すように、利用者が技術文献群どうしを比較して、技術内容が類似する度合いを調査する場合には、S10「類似率算出指示入力」(以下S10のように省略して記載する。)において、類似率算出指示を類似率算出装置30のキーボード、マウス等の入力手段370を操作して入力し、以降の処理を実施させる。
類似率算出装置30が、S100「入力画面読出・表示」にて、類似率算出指示に基づいて、類似率算出に関する各種条件の入力画面の表示情報を記録手段384から読み出して、その表示情報に基づいた類似率算出に必要な条件の入力画面を表示手段372に表示する。
図5は、類似率算出のための入力画面の表示例を示す図である。
同図に示すように入力画面には、比較対象となっている第1の技術文献群と第2の技術文献群の抽出条件を指定する情報と、キーワードやIPCなどの技術情報を指定する旨の情報が表示されている。利用者は、表示画面に基づいて諸事項を入力することが可能となっている。
クラスタ分解の条件を入力する部分では、特許公報、技報等の対象文献の指定や、全文、請求項部分のみ等の対象部分の設定や、IPC、キーワード等のクラスタ分解の尺度等の各種条件を入力することが可能となっている。更に技術文献群の抽出条件として、特許公報の出願日の期間、業界名称、出典元の企業名、個人名等を入力する項目が表示されている。利用者は、図5に示した入力画面に基づいて、容易に類似率の算出条件を入力したり、予め設けられている複数の算出条件の中から所望の算出条件を選択することが可能となっている。
また図5には、混在クラスタ比を類似率の算出用途に応じて補正するための、補正方法を入力する部分が設けられている。
例えば補正項1として、各混在クラスタに含まれる技術文献の量に応じた値に基づいて、類似率を補正するか否かの補正条件を、利用者が入力することが可能となっている。
また補正項2として、各混在クラスタに含まれる第1の技術文献群の技術文献と第2の技術文献群の技術文献との混ざり具合に応じた値に基づいて、類似率を補正するか否かの補正条件を、利用者が入力することが可能となっている。
なお本発明では、この技術文献との混ざり具合に応じた補正方法として、第1の技術文献群の中からm個、第2の技術文献群の中からn個の技術文献を取り出す確率のγ乗(但し、0<γ)に比例した補正値を各混在クラスタについて総和を算出し、これを全クラスタ数で除算して類似率の補正等を行なう、「技術文献数の確率」に応じた補正方法を選択することが可能となっている。
また本発明では、第1の技術文献群に含まれる技術文献数Mと第2の技術文献群に含まれる技術文献数Nとの構成比N/Mと、クラスタ分解した結果得られた混在クラスタに含まれる第1の技術文献群の技術文献数mと第2の技術文献群の技術文献数nの混在比、n/mとについて、更に構成比と混在比との比を取ったもののζ乗(但し、0<ζ)に比例した補正値を、各混在クラスタについて総和を算出し、これを全クラスタ数で除算して類似率の補正等を行なう、「技術文献の混在比」に応じた補正方法を選択することが可能となっている。
また本発明では、第1の技術文献群と第2の技術文献群とを混合した技術文献群の中から、第1の技術文献群の技術文献を取り出す確率に、前記クラスタ分解した混在クラスタに含まれる技術文献数を乗算して第1の技術文献群の技術文献を取り出す期待値を算出し、期待値と混合クラスタに含まれる第1の技術文献群の技術文献数との差を期待値差として算出し、その期待値差を任意定数ξ(但し、1<ξ)の負の指数とした補正値を、各混在クラスタについて総和を算出し、これを全クラスタ数で乗算して類似率の補正等を行なう、「技術文献の期待値差」に応じた補正方法を選択することが可能となっている。
図4に示すS12「類似率算出条件入力」にて、利用者は、表示手段に表示されている案内に基づいて、特許文献、技報、社報、技術論文等の技術文献種別や、比較する技術文献群の指定、クラスタ分解を実施する際に技術文献群から技術文献を抽出する条件となるIPC又はキーワード等、更に類似率を算出する際の目的に応じた補正情報を、入力手段370を介して入力する。
S102「技術文献取得」にて、情報処理手段380は、利用者から入力した技術文献種別(例えば特許文献)に基づいて検索するデータベースを特定し、利用者から入力した技術文献群(例えばA社の技術文献A群及びB社の技術文献B群)の指定に基づいた技術文献群の取得情報を特定のデータベースに出力する。
S130「技術文献読出」にて、技術文献データベース20は、類似率算出手段30から取得した技術文献種別と、技術文献群等に基づいて、データベース内を検索して技術文献を読出して、類似率算出装置30に送信する。
S104「類似率算出処理」にて、類似率算出装置30は、データベース20から取得した技術文献群(例えばA社の技術文献A群及びB社の技術文献B群)の中から、利用者指定のIPCやキーワードを共通して含む技術文献を選び出して、クラスタ毎に分解する処理を行なう。
クラスタ分解した結果、技術文献A群に属する技術文献及び技術文献B群に属する技術文献とが混在しているクラスタを混在クラスタと定義する。本発明では、全クラスタのうち、混在クラスタが存在する割合に基づいて類似率を算出する。
また、類似率の用途に応じて、混在クラスタに含まれる技術文献の数量や混在確率、混在比率、又はこれらの組合せに応じた補正を行なうことも可能である。
S106「類似率表示処理」にて、類似率算出装置30は、算出した類似率を表示手段372に表示して、利用者に通知する。なお、S106にて類似率を表示手段372に表示する代わりに、算出した類似率を送受信手段365と通信網10を介して他の通信機器に送信出力するようにしてもよいし、記録手段インターフェース385を介して記録手段384に記録出力するようにしてもよいし、記録媒体インターフェース379を介して記録媒体377に記録出力するようにしてもよい。また、算出した類似率を、印刷用のプリンタインターフェース(図示せず)を介して印刷手段に出力するようにしてもよい。
図6は、類似率算出装置30が算出した類似率を利用者に通知する、類似率表示画面の表示例を示す図である。
同図に示すように、類似率表示画面には、利用者が入力した技術文献群を抽出指定する情報と、キーワードやIPCなどの技術情報をクラスタ分解した際の尺度や、補正方法等の入力情報が確認のために表示されている。
また類似率表示画面には、補正項3として、例えばクラスタ分解した際の所定の特許分類やキーワードに注目して恣意的な重み付けを行なうための補正条件を、各クラスタ毎に利用者が入力することが可能となっている。同図に示す例では、補正項3の数値として「1.000」を設定している。
また類似率表示画面には、類似率の算出結果と、その類似率を補正するための、α、γ、ζ、ξ等の類似率算出条件を連続的に変更するスライドバーと、各クラスタの補正項を確認するために、分解したクラスタの内容を表示する部分が設けられている。
利用者は、算出された類似率を見ながら、自由に類似率の算出条件を変更することが可能となっている。利用者がスライドバーを操作した場合には、情報処理手段380がカレンダ時計390が係数する時間に基づいて、スライドバーの操作完了を判断する。すると、情報処理手段380が実施する処理はS104に分岐して再度類似率を算出し、類似率の演算結果を類似率表示画面に表示する処理を行なう。
図4に示すS14「終了」、S108「終了」及びS140「終了」にて、類似率算出処理が終了する。
本発明における技術文献のクラスタ分解とは、第1の技術文献群(A群)と第2の技術文献群(B群)をマクロ的に比較するための「類似率」を算出する際に、キーワードやIPC等を用いて技術文献を分類することをいう。
本発明を創作するにあたって比較する2つの技術文献群を鳥瞰してみたとき、2つの技術文献群が別々になっていると、非常に計算が複雑になるが、2つを「混ぜて」しまって整理整頓すればずっと計算が容易になるのではないかと、エイヤと「混ぜた」ら案の定類似率の算出に適した様子が見えてきた。双方の技術文献群を混ぜた後、クラスタ分解により分類したところ、一部に両方の技術文献群の構成要素(技術文献)を含むクラスタ(混在クラスタ)が存在し、その分解した全クラスタ数に対する混在クラスタの割合が、我々の通常の感覚としての類似率に近いことがわかった。
先ず、上記のように第1の技術文献群と第2の技術文献群の双方の技術文献を混ぜてひとつの群にする。
混ざった技術文献の群を、何らかの分類法により、ある技術文献の小さな集まり(クラスタという)に分解する。あるクラスタには第1の技術文献群に属する技術文献がm個と第2の技術文献群に属する技術文献がn個含まれているとする。
技術文献をIPC(国際特許分類)毎や、技術文献に所定のキーワードが含まれるか否かによって「グループ分け」することを「クラスタ分解」すると定義する。
図7に、本発明に係る類似率算装置を用いて技術文献群をクラスタ分解した後の各クラスタの構成を示す。
例えば図7に示すように、IPC「G06F 17/30」に分類される技術文献として、第1の技術文献群には「特許文献A1」が、また第2の技術文献群には「特許文献B1」がそれぞれ存在した場合には、IPC「G06F 17/30」のクラスタには、「特許文献A1」と「特許文献B1」の要素が含まれる。
また例えば、キーワードとして「テキスト処理」という文言を含む技術文献が、第1の技術文献群には「技術文献A2」が、また第2の技術文献群には「技術文献B2」及び「技術文献B3」が存在した場合には、キーワード「テキスト処理」のクラスタには「技術文献A2」と「技術文献B2」、「技術文献B3」の要素が含まれる。
なお、クラスタ分解の方法には、技術文献群の個々の技術文献の属性により2通りの扱いがあり、それは以下の通りである。
1.外的な基準がある属性(属性1型と定義する)の場合は、その属性それぞれでクラスタを構成できる。例えば、特許公報等の技術文献でいえば、出願日の日付やIPCなど、一意に決まる技術文献である。
2.内的な関係で属性が決まる値(属性2型と定義する)は、前処理として多変量解析(クラスタ分析)などによるクラスタ化が必要である。例えば特許公報技術文献の中では、要約や請求項などの文書に外的な基準をあてはめることが難しいため、文書間のミクロ的な類似率を別途定義し、それに基づいて多変量分解を行った結果を用いてクラスタを構成する。なお、文書間のミクロ的な類似率については、TFIDF法など、一般的に広く用いられているものを使用することにより、分析者の恣意の混入を防ぐことが可能である。
情報処理手段380等のクラスタ分解手段は、第1の技術文献群及び第2の技術文献群に含まれる技術文献について、技術情報入力手段を介して入力した技術情報を含む技術文献を検索し、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解している。
本発明の実施例では、混在クラスタを以下のように定義する。
図7に示すIPC「G06F 17/30」のクラスタには、技術文献A群に属する「特許文献A1」と、技術文献B群に属する「特許文献B1」とが混在している。このように、技術文献A群に属する技術文献、及び技術文献B群に属する技術文献が混在しているクラスタを混在クラスタと定義する。
本発明の実施例では、非混在クラスタを以下のように定義する。
例えば図7に示すように、IPC「B01」に分類される技術文献として、技術文献A群には「特許文献A3」が存在するが、技術文献B群にはIPC「B01」に分類される技術文献が存在しない場合には、IPC「B01」のクラスタには「特許文献A3」のみが要素として含まれる。
また図7に示すように、例えばキーワートとして「無機化合物」という文言を含む技術文献は、技術文献A群には存在しないが技術文献B群には「技術文献B1」が存在した場合には、キーワード「無機化合物」のクラスタには「技術文献B1」が要素として含まれる。
このように、技術文献A群に属する技術文献と、技術文献B群に属する技術文献とが混在していないクラスタを非混在クラスタと定義する。
図8は、類似率の算出処理を示すフローチャートである。
情報処理手段380が実施する処理が、図4に示したS104に進むと、情報処理手段380が実施する処理はS200に分岐してきて、S200以降の処理を実施する。
類似率算出装置30の情報処理手段380は、S200「技術文献A群と技術文献B群とを混同する」にて、S102「技術文献取得」によってデータベースから取得した技術文献群(例えばA社の第1の技術文献群及びB社の第2の技術文献群)を混合して、1つの技術文献群にする処理を行なう。
S202「クラスタ分解処理」にて情報処理手段380は、キーワードやIPC等の技術情報に基づいてクラスタ分解処理を行う。次のS204「補正項1の計算式を設定」にて、情報処理手段380は、混在クラスタに含まれる技術文献の数量に応じて類似率を補正する旨の指示を利用者から入力している場合には、その指示に基づいた補正項の数式を選択する処理を行なう。ここでは、補正の内容に応じて補正項1に所定の数式を代入する処理を行なう。
補正項1は、混在クラスタに含まれる技術文献の量が多い程、重要なクラスタであると考えて類似率が高くなるように重い重み付けをして類似率の補正を行なうための補正項である。
混在クラスタに含まれる技術文献の数量に応じて類似率を補正しない場合には、補正項1=1(定数)を代入する。
S206「補正項2の計算式を設定」にて情報処理手段380は、混在クラスタに含まれる技術文献Aと技術文献Bとの混ざり具合に応じて類似率を補正する旨の指示を利用者から入力している場合には、その指示に基づいた補正項の数式を選択する処理を行なう。ここでは、補正の内容に応じて補正項2に所定の数式を代入する処理を行なう。
補正項2は、混在クラスタに含まれる技術文献の割合が所定の量に近い程、重要なクラスタであると考えて類似率が高くなるように重い重み付けをして類似率の補正を行なうための補正項である。
混在クラスタに含まれる技術文献の混ざり具合に応じて類似率を補正しない場合には、補正項2=1(定数)を代入する。
S208「補正項3の値を設定」にて情報処理手段380は、クラスタ分解した際の所定の特許分類やキーワードに注目して恣意的な重み付けを行なって、類似率を補正する旨の指示を利用者から入力している場合には、その指示に基づいた補正項の数式を選択する処理を行なう。ここでは、補正の内容に応じて補正項3に所定の値を代入する処理を行なう。クラスタ分解した際の所定の特許分類やキーワードについて特に注目しない場合には、補正項3=1(定数)を代入する。
S210「類似率算出」にて情報処理手段380は、各混在クラスタについて補正項1、補正項2、補正項3の各補正項を乗算して総和を算出する。更に規格化するために全クラスタ数で除算して類似率を算出する処理を行なう。
S212「終了」にて、類似率算出処理のサブルーチンを終了して、元の処理に戻る。
図9に、類似率の計算に用いる設定条件を示す。
図9は比較対象となる第1の技術文献群及び第2の技術文献群と、各群の技術文献を4つのクラスタに分解した場合の各クラスタ1〜4に存在する各技術文献数を示す図表である。同図右端に示「期待する類似率」の値は、技術文献の類似性の判断を行なっている複数の専門家にヒアリングを行なった結果、条件1〜4の場合に、算出されることを期待する類似率の値を示したものである。そして、その期待する類似率の値に対して許容され得ると思われる範囲は、同図に示すように許容範囲=±0.050程度である。
したがって、本発明に係る類似率算出装置を用いて類似率を算出した結果、図9に示す許容範囲内で類似率が算出されれば、技術文献同士の比較が最適に行なわれていることを示している。
基本型1:補正項を考慮しない場合の類似率(基本型1)の算出例
以下に、補正項を用いない基本型の類似率(基本型1)の算出例を示す。この類似率(基本型1)の算出例は、混在クラスタ抽出法により技術文献の類似率を演算するものである。
第1の技術文献群に含まれる技術内容と、第2の技術文献群に含まれる技術内容とが、どれだけ類似しているかの度合(類似率の値の大きさ)は、「混在クラスタの数量」に比例するものと考えられる。
また類似率を、0≦類似率≦1の範囲に設定するために、例えば、「混在クラスタ数」を、「混在クラスタ数と非混在クラスタ数の総和」である「全クラスタ数」で除算した混在クラスタを算出すると、技術文献群同士の類似率として以下の(式1)が得られる。
混在クラスタを考慮した類似率算出方法を混在クラスタ抽出法と定義する。下記に示す(式1)は最も基本的な考え方である。下記の(式1)では、クラスタ分解した結果得られた全クラスタ数と、第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数との比(以下混在クラスタ比と呼ぶ)を類似率として算出する一例を示している。したがって、全クラスタ数と混在クラスタ数の比の算出のしかたは、下記の(式1)に限定されるものではない。
但し、
δ=混在クラスタの場合……1
非混在クラスタの場合…0
先に述べたように、類似率とは第1の技術文献群に記載されている技術内容と第2の技術文献群に記載されている技術内容とがどれだけ類似しているかを示す数値である。
また、混在クラスタ数とは、第1の技術文献群に属する技術文献及び第2の技術文献群に属する技術文献が混在しているクラスタの数を示す数値である。
全クラスタ数とは、第1の技術文献群の技術文献又は第2の技術文献群の技術文献が存在するクラスタの全数を示す数値である。
以下に、類似率(基本型1)の計算式を用いた場合の計算結果について説明する。
第1の技術文献群と第2の技術文献群について、所定のキーワードやIPC等を用いてクラスタ分解を行なった結果、全クラスタ数が10個であって、混在クラスタ数が3個であった場合には、類似率(基本型1)=3/10=0.3と算出される。
また、全クラスタ数が4個であって、混在クラスタ数が2個であった場合には、類似率(基本型1)=2/4=0.5と算出される。
第1の技術文献群と第2の技術文献群に含まれる技術文献を、キーワードやIPC等を用いてクラスタ分解し、その分解した全クラスタ数と混在クラスタ数の比を類似率として算出することによって、技術文献群同士の類似率の基礎部分となる値を算出することが可能となる。
また、類似率を算出する際に、混在クラスタ数を全クラスタ数で除算することによって、算出される類似率の値を0≦類似率≦1の範囲に設定することが可能となる。
以下に、類似率(基本型1)を用いた場合の発明の効果について説明する。
第1の技術文献群と第2の技術文献群に含まれるキーワードやIPC等を用いてクラスタ分解し、その分解した全クラスタ数と混在クラスタ数の比に基づいて類似率を算出することによって、技術文献群同士がどの程度技術的に類似しているかを示す指標を簡便に算出することが可能となる。ここで算出される類似率は、われわれが常識的に考えた技術文献群同士の類似の程度と割合一致していることがわかった。
また本発明では、算出する類似率の値を0≦類似率≦1の範囲に設定する演算を行なっているので、全クラスタ数量や混在クラスタの数量、また技術文献群に含まれる技術文献の量の多少に関わらず一定の指標を算出することが可能となる。
更に、より多くの条件下で第1の技術文献群と第2の技術文献群を比較した類似率と、第1の技術文献群と第3の技術文献群とを比較した類似率とを直接対比することも可能となる。
基本型2:補正項を考慮した場合の類似率(基本型2)の算出例
以下に、補正項を考慮した場合の類似率(基本型2)の算出例を示す。この類似率(基本型2)の算出例は、前記類似率(基本型1)の算出例に対して補正項1〜3を加味したものとなっている。
上記の(式1)を用いて類似率を算出すると、混在クラスタ数に比例した類似率が簡単な数式を用いてたいへん素早く算出できるという利点がある。
上記の最も基本的な(式1)は、たとえば多くの技術文献を含むクラスタと少数の技術文献しか含まないクラスタが対等の寄与を持つ結果となることでもわかるように、個々のクラスタ内の技術文献数の大小を考慮していないという欠点があるために、混在クラスタ内に多くの技術文献が含まれる場合であっても、2つしか技術文献が含まれない場合であっても同一の類似率が算出されてしまい、われわれが常識的に考えた類似の程度と異なってしまう場合があるという不具合を生じる可能性がある。
混在クラスタに含まれる技術文献の量の他にも、混在クラスタに含まれる第1の技術文献群の技術文献と第2の技術文献群の技術文献の混ざり具合(第1の技術文献群の技術文献と第2の技術文献群の技術文献との割合)や、特定の特許分類やキーワードに注目したい場合の恣意的な重み付けなどによって、算出される類似率の値を補正したい場合が生じる。
図10は、混在クラスタ1に技術文献が多く含まれている状況を示す図である。
図10に示す例では、クラスタ1(混在クラスタ)には、技術文献が多く含まれているので重要なクラスタであると考えられ、類似率計算の際に最も寄与が大きくなると良い。
別のクラスタ(例えばクラスタ2,クラスタ3,クラスタ4など)は、含まれている技術文献が少ないので重要なクラスタではないと思われるので、クラスタ1の寄与に比べるとずっと小さくなるのが望ましい。
図10の例のような状況にある場合、クラスタ1に対し、クラスタ2,クラスタ3,クラスタ4の影響を軽視すべき場合がある。なお、含まれる技術文献数量が少ないクラスタの存在を無視しない場合には、算出される類似率の値は0.5まで下がってしまう。
そこで以下の(式2)に示すように、(式1)のδ(クラスタが混在クラスタである場合にはδ=1とし、それ以外の場合には、δ=0とする)に対して補正項を乗算することにする。なお、補正によって類似率の範囲が、0≦類似率≦1の範囲を超えないようにするためには適当な規格化因子が必要である。
但し、
δ=混在クラスタの場合……1
非混在クラスタの場合…0
(式2)に示す補正項1は、混在クラスタに含まれる技術文献の量に応じて類似率を算出するための補正項である。この補正項1は、混在クラスタに含まれる技術文献の量が多い程、重要なクラスタであると考えて類似率が高くなるように重い重み付けをして類似率の補正を行なう補正項である。
また逆に補正項1は、混在クラスタに含まれる技術文献の量が少ない程、重要なクラスタでないと考えて類似率が低くなるように軽い重み付けをして類似率の補正を行なうことも可能な補正項である。
また補正項1は、各混在クラスタに含まれる技術文献の量に応じた値を取る第1の補正値を算出することが可能な他の計算式を用いた補正項であってもよい。
(式2)に示す補正項2は、混在クラスタに含まれる技術文献Aと技術文献Bの混ざり具合(技術文献Aと技術文献Bの割合)に応じて類似率を算出するための補正項である。
補正項2は、混在クラスタに含まれる技術文献の割合が所定の量に近い程、重要なクラスタであると考えて類似率が高くなるように重い重み付けをして類似率の補正を行なう補正項である。
また補正項2は、各混在クラスタに含まれる第1の技術文献群の技術文献と第2の技術文献群の技術文献との混ざり具合に応じた値を取る第2の補正値を算出することが可能な補正項である。
(式2)に示すように類似率は、補正項1、補正項2、又は補正項3を全ての混在クラスタについての総和を算出し、該総和を全クラスタ数で除算する演算を行なっている。
補正項2を算出する際に用いる技術文献の「混ざり具合」の意味は、以下のとおりである。
ある混在クラスタに含まれる第1の技術文献群の技術文献、及び第2の技術文献群に含まれる技術文献の混ざり具合に注目して、双方の技術文献がよく混ざっているとき、すなわち双方の技術文献数が偏っていないときに重要なクラスタと考えて重い重みを付け、よく混ざっていない場合、すなわち技術文献数が片方の技術文献群のものに偏っている場合に、重要ではないクラスタと考えて軽い重み付けをするための補正項目である。
言い換えると、たとえばある混在クラスタに含まれる、第1の技術文献群の技術文献と第2の技術文献群の技術文献の数量が、第1の技術文献群と第2の技術文献群から無作為に抽出したときの期待値に近いものは重く、遠いものは軽くする補正項である。
補正項3とは、特定の特許分類やキーワードに注目したい場合に、恣意的な重み付けを行なって類似率を算出するための補正項である。この項は技術文献群同士を比較する者が個別設定する項であるので、今回は考慮せずに定数「1」を代入しておく。
応用型1:補正項1(1)の算出例
補正項1(1)を考慮した類似率(式4)の算出例を以下に示す。
補正項1(1)では、類似率が混在しクラスタに含まれる技術文献の量に応じて大きな値をとるように補正するために、「クラスタ内の技術文献数」のα乗(但し、0<α)を分子に配置している。そして、類似率の算出範囲として0≦類似率≦1を保証するために、補正項1(1)の式では規格化因子を分母に配置している。
(式4)に示す補正項1(1)の演算では、分子に配置したクラスタ内の技術文献数が多い場合であっても類似率の値が1を超えないようにするためと、技術文献の量の多少の判断基準を設けるために、規格化因子として、全クラスタ内の技術文献数の平均値を配置している。なお、規格化因子は、全クラスタ内の技術文献数のα乗の総和を算出し、全クラスタ数で除算した値を配置してもよい。この規格化因子は、0≦類似率≦1を保証することが可能な項であればよく、(式4)の数式に限定されるものではない。
更に、含まれる技術文献の量が少ない混在クラスタの影響を、類似率の算出結果に大きく反映させたくない場合には、分子の指数αをα>1に設定する。
また、単純にクラスタ内の技術文献数の量に応じて類似率を増減させる要望がある場合には、α=1に設定する。
また、クラスタに含まれる技術文献の量に応じて類似率を算出するとともに、技術文献が多量に含まれるクラスタの存在による類似率の算出結果の影響を少なくする必要がある場合には、0<α<1に設定するとよい。
以下に「応用型1:補正項1(1)」の計算式の分子と分母の構成による作用について説明する。
式4に説明するように「クラスタ内の技術文献数」を補正項1(1)の分子に配置したので、クラスタ内の技術文献数に比例した類似率を算出することが可能となる。
また、「規格化因子」を補正項1(1)の分母に配置したので、0≦類似率≦1を保証することが可能となる。そして、補正項1(1)の規格化因子として、全クラスタ内の技術文献数の平均値を配置したので全クラスタ内の技術文献数の平均値を基準として、技術文献の量の多少を算出することが可能となる。
更に、分子の指数αをα>1に設定することによって、混在クラスタに含まれる技術文献の量が少ない混在クラスタの影響を、類似率の算出結果に大きく反映させないようにすることが可能となる。また、分子の指数をα=1に設定することによって、単純にクラスタ内の技術文献数の量に応じて類似率を増減させることが可能となる(単純含数比較)。また、分子の指数を0<α<1に設定することによって、技術文献が多量に含まれるクラスタの存在による類似率の算出結果の影響を少なくすることが可能となる。
以下に、「応用型1:補正項1(1)」の計算式(式4)に、図9に示した各条件を代入した場合の計算例を示す。なお、算出結果は、図11に、補正項1(1)を採用した場合の類似率算出例(補正項1(1)に条件1〜4を代入した場合の計算結果)の図表として示す。
補正項1(1)のみを考慮して他の補正項を考慮しない場合であって(すなわち補正項2=1、補正項3=1とする)、単純に混合クラスタ内に含まれる技術文献数の比較を行なう場合(すなわちα=1としたとき)に、技術文献群同士を比較する条件として、条件1〜4を設定した場合の類似率の試算結果を以降に示す。
下式(式5)に、計算例4−1(式4に条件1を代入した場合)の計算結果について説明する。
条件1の場合には、各混在クラスタ(本実施例の場合には、クラスタ1及びクラスタ2)に含まれる技術文献数は、それぞれ3個である。したがって、クラスタに含まれる技術文献の量による類似率の補正の影響は少ないことが期待される。
上記(式5)にて算出した類似率(式4に条件1を代入した場合)=0.5の値は、(式1)による類似率の演算結果と一致しており、補正項1(1)を挿入した場合であっても、われわれが常識的に考えた類似率の程度と大きくずれてはいない。また、クラスタ内の技術文献数量がそれぞれ3、3、2、4程度であるので、全てから同じ程度の寄与があるべきで、ここで類似率=0.5と算出された結果は、われわれが常識的に考えた類似の程度(約0.30程度)から大きく外れてはおらず、おおよそ要件を満足しているものとなっている。
下式(式6)に、計算例4−2(式4に条件2を代入した場合)の計算結果について説明する。
条件2の場合のクラスタ1に含まれる技術文献の量は、クラスタ2〜クラスタ4に含まれる技術文献の量よりも際立って多いので、類似率を算出する際には、クラスタ1に含まれる技術文献の量の影響を重視して類似率を大きく算出するべきなのは明らかである。
上記(式6)にて算出した類似率(式4に条件2を代入した場合)=0.962の値は、クラスタ1に含まれる技術文献の量の多さに引っ張られ、類似率=0.5(式4に条件1を代入した場合に算出した類似率)から類似率0.962(式4に条件2を代入した場合に算出した類似率)に補正された。
以下に式6(式4に条件2を代入した場合)の効果について説明する。式6の演算処理によって、クラスタに含まれる技術文献の量が他のクラスタに含まれる技術文献の量よりも多い場合に、その技術文献の量を類似率の算出結果に反映させることが可能となる。これは、クラスタ1が類似率を算出する際の傾向のほぼ全てを代表しているので、このクラスタ1の性質が類似率を決めるように働いているのが見える。
そしてこの類似率の算出結果は、われわれが常識的に考えた類似の程度と、かなり一致していることがわかった。
下式(式)に、計算例4−3(式4に条件を3代入した場合)の計算結果について説明する。
条件3の場合には、条件2の場合とクラスタに含まれる技術文献の量の総和は同じであるが、クラスタ1に含まれる技術文献の量のみが際立って多い状況ではないので、類似率を算出する際にクラスタ1に含まれる技術文献の量の影響が条件2の場合程は生じないことが望ましい。
上記(式7)にて算出した類似率(式4に条件3を代入した場合)0.459の値は、クラスタ1に含まれる技術文献の量の多さが、他のクラスタ3よりも少し少ない程度であることから、類似率の補正にはほとんど関与しないように補正される。
以下に、(式7)の計算結果(式4に条件3を代入した場合)の効果について説明する。
補正項1(1)の演算処理を行なうことによって、クラスタに含まれる技術文献の量が多い場合であっても、他のクラスタに含まれる技術文献の量と大差が無い場合には、その技術文献の量を類似率の算出結果にあまり反映させないようにすることが可能となる。
この(式7)による類似率の算出結果は、クラスタ1とクラスタ3の影響が大きく出るように補遺性が働いているので、われわれが常識的に考えた類似の程度(約0.20程度)と大きくずれてはおらず、ほぼ狙いどおりの値が得られている。
下式(式8)に、計算例4−4(式4に条件を4代入した場合)の計算結果について説明する。
条件4の場合には、条件3の場合とクラスタに含まれる技術文献の量の総和は同じであるが、クラスタ1及びクラスタ2に含まれる第1の技術文献群と第2の技術文献群との割合が極端に不均等である場合である。したがって、混合クラスタに含まれる技術文献数が多いからといって類似率を大きく算出しないことが望ましい。
上記の(式8)にて算出した類似率(式4に条件4を代入した場合)=0.459の値は、クラスタ1及びクラスタ2に含まれる技術文献の量が多くても、他のクラスタ3よりも少し少ない程度であることから、類似率の補正にはほとんど関与しないように補正される。
以下に、(式8)の計算結果(式4に条件4を代入した場合)の効果について説明する。
(式8)の演算処理によって、クラスタに含まれる技術文献の量が多い場合であっても、他のクラスタに含まれる技術文献の量と大差が無い場合には、その技術文献の量を類似率の算出結果にあまり反映させないようにすることが可能となるが、条件4の場合には類似率は数パーセントの値になることが感覚上望ましい。
この条件4の場合には、補正項1(1)の処理だけでは人の感覚と一致しない部分が生ずる可能性があるために、以降で説明する補正項2が有用となる。但し、クラスタ3、1、2の影響が大きくなっているので、補正項1(1)の役割は十分に果たしているといえる。また、補正項1(1)の処理を行なうことによって、技術文献数の多いクラスタが存在する場合には、そのクラスタに含まれる技術文献数量の多さを類似率に反映することが可能となっている。
図11に、補正項1(1)を採用した場合の類似率算出例(補正項1(1)に条件1〜4を代入した場合の計算結果)の図表を示す。
応用型2:補正項2(1)の算出例
以下に示す補正項2(1)の計算式(式9)は、混在クラスタ内の技術文献の混在確率に応じて補正を行なうために構成したものである。
但し、
M:第1の技術文献群(A群)に含まれる技術文献数
N:第2の技術文献群(B群)に含まれる技術文献数
m:所定のクラスタに含まれる第1の技術文献群(A群)の技術文献数
n:所定のクラスタに含まれる第2の技術文献群(B群)の技術文献数
γ:任意定数γ>0
上記補正項2(1)を考慮した類似率(式10)の算出例を以下に示す。
(式10)の補正項2(1)では、類似率が、混在クラスタに含まれる第1の技術文献群(A群)及び第2の技術文献群(B群)の技術文献数の確率に応じて大きな値をとるように補正するために、第1の技術文献群(A群)の中からm個、第2の技術文献群(B群)の中からn個の技術文献を取り出す確率のγ乗(但し、0<γ)を分子に配置している。
類似率の算出範囲を0≦類似率≦1を保証するために、例えば(式10)に示すように、第1の技術文献群(A群)の中からm個、第2の技術文献群(B群)の中からn個の技術文献を取り出す確率の最大値のγ乗(但し、0<γ)を規格化因子として分母に配置している。
規格化因子は、0≦類似率≦1を保証することが可能な項であればよく、(式10)に示した規格化因子に限定されるものではない。
以下に、指数γの設定条件について説明する。
単純に混在クラスタに含まれるA群及びB群の技術文献数が、A群及びB群の技術文献群から無作為に抽出した際の分布に近い度合いに比例して類似率の値を補正する必要がある場合には、指数γをγ=1に設定するとよい。
また、混在クラスタに含まれるA群及びB群の技術文献数が、A群及びB群の技術文献群から無作為に抽出した際の分布に近いほど重要視して大きな値に補正する必要がある場合、又は、A群及びB群の技術文献群から無作為に抽出した際の分布に遠いほど軽視して小さな値に補正する必要がある場合には、指数γをγ>1に設定するとよい。
また、混在クラスタに含まれるA群及びB群の技術文献数が、A群及びB群の技術文献群から無作為に抽出した際の分布に近くなくても重要視して補正する必要がある場合には、指数γを0<γ<1に設定するとよい。
以下に、応用型2:補正項2(1)の計算式(式10)に,図9に示した各条件を代入した場合の計算例を示す。なお、算出結果は、図12に、補正項2(1)を採用した場合の類似率算出例(補正項2(1)に条件1〜4を代入した場合の計算結果)の図表として示す。
補正項2(1)では、(A群の中からm個、B群の中からn個の技術文献を取り出す組合せの数)/(A群とB群とを混ぜ合わせた中からm+n個の技術文献を取り出す組合せ数)を分子に配置したので、混在クラスタに含まれるA群及びB群の技術文献数の偏り(作為性)に応じて、偏り大の場合は小さい補正値に、偏り小の場合は大きい補正値に類似率を補正することが可能となる。本実施例では、偏りが大きい場合には補正値を小さくして類似率を小さく算出することとし、逆に偏りが小さい場合には補正値を大きくして類似率を大きく算出することとしている。
規格化因子として分母に(A群の中からx個、B群の中からy個の技術文献を取り出す組合せの数)/(A群とB群とを混ぜ合わせた中からm+n個の技術文献を取り出す組合せ数)を配置したので、x、yは分母を最大にする数の組合せであることから類似率の算出範囲として0≦類似率≦1を保証することが可能となる。
更に、分子の指数γを γ=1に設定することによって、単純に混在クラスタに含まれるA群及びB群の技術文献数が、A群及びB群の技術文献群から無作為に抽出した際の分布に近い度合いに比例して類似率の値を補正することが可能となる。
また、分子の指数γをγ>1に設定することによって、混在クラスタに含まれるA群及びB群の技術文献数が、A群及びB群の技術文献群から無作為に抽出した際の分布に近いほど重要視して大きな値に補正することが可能となる。また、A群及びB群の技術文献群から無作為に抽出した際の分布に遠いほど軽視して小さな値に補正することが可能となる。
また、混在クラスタに含まれるA群及びB群の技術文献数が、A群及びB群の技術文献群から無作為に抽出した際の分布に近くなくても重要視して補正する必要がある場合には、分子の指数γを0<γ<1に設定するとよい。
下式(式11)に、計算例10−1(式10に条件1を代入した場合)の計算結果について説明する。
補正項2(1)のみを考慮して他の補正項の作用を考慮しない場合であって(すなわち補正項1=1、補正項3=1とする)、単純に混在確率に基づいて比較を行なう場合(すなわちγ=1とした場合)に、技術文献群同士を比較する条件を、条件1〜4に設定したときの類似率の試算結果は、以下のとおりである。
下記の(式11)に示すように、条件1の場合には、各混在クラスタ1に含まれる技術文献の混在確率は、0.409と算出される。また、同様にクラスタ2に含まれる技術文献の混在比率も、0.409と算出される。
一方、分母の規格化因子は混在クラスタ1の混在確率の最大値であるので、以下のように規格化因子=0.409と算出される。また、条件1の場合には、クラスタ2の規格化因子も0.409と算出される。
したがって、(式12)の計算式に条件1を代入した場合における補正項2(1)の値は、補正項2(1)=1と算出される。同様に、混在クラスタ2の補正項2(1)の値も1と算出される。
したがって、補正項2(1)の値は、下式(式13)のように1と算出されるので、特に補正は行なわれずに、類似率は0.5と算出される。
上記の(式13)により算出される類似率(式10に条件1を代入した場合)=0.5の値は、補正を考慮しない(式1)による類似率の演算結果と一致している。そして、技術文献群に含まれる技術文献数量がそれぞれ6個と6個であり、混在クラスタ内に含まれる技術文献数も2個と1個であるので、われわれが常識的に考えた類似の程度とほぼ一致している。したがって、補正項2(1)を挿入した場合であっても許容範囲内の結果を得ることが可能となる。
下式(式14)に、計算例10−2(式10に条件2を代入した場合)の計算結果について説明する。
条件2の場合のクラスタ1に含まれる技術文献の混在確率は、第1の技術文献群(A群)と第2の技術文献群(B群)の大きさの比率に近いので、類似率を算出する際にはクラスタ1を構成する技術文献の混在比率の影響を重視して、類似率を大きく算出するべきなのは明らかである。
以下の(式14)に、補正項2(1)の分子を構成する混在確率の計算例を示す。
一方、分母の規格化因子は混在クラスタ1の混在確率の最大値であるので、以下のように規格化因子=0.280と算出される。また、条件2の場合には、クラスタ2の規格化因子も0.280と算出される。
したがって、条件2におけるクラスタ1の補正項2(1)の値は、補正項2(1)=0.404と算出される。また、条件2におけるクラスタ2の補正項2(1)の値は、「1」と算出されるので、下式(式16)に示すように、補正項2(1)に基づく類似率は0.351と算出される(図12参照)。
上記の(式16)にて算出した類似率(式10に条件2を代入した場合)=0.351の値は、クラスタ1に含まれる技術文献の混在確率に引っ張られ、類似率(式4に条件2を代入した場合)=0.962から、類似率(式5に条件2を代入した場合)=0.351に補正された。
下式(式17)〜(式19)に、計算例10−3(式10に条件3を代入した場合)の計算結果について説明する。以下の(式17)は、補正項2(1)の分子を構成する混在確率の計算例である。
一方、分母の規格化因子は混在クラスタ1の混在確率の最大値であるので、以下のように規格化因子=0.133と算出される。また、条件3の場合には、クラスタ2の規格化因子も0.448と算出される。
したがって、条件3における補正項2(1)の値は、補正項2(1)=0.000と算出される。混在クラスタ2の補正項2(1)の値は、条件1及び条件2の場合と同様に1と算出される。
したがって類似率は、下記の計算によって0.25と算出される。
上記の(式19)にて算出した類似率(式10に条件3を代入した場合)=0.25の値は、クラスタ1に含まれる技術文献の混在確率に引っ張られ、類似率(式4に条件3を代入した場合)=0.459から類似率(式10に条件3を代入した場合)=0.25に補正された。
下式(式20)〜(式24)に、計算例10−4(式10に条件4を代入した場合)の計算結果について説明する。
条件4の場合には、条件3の場合とクラスタに含まれる技術文献の量の総和は同じであるが、クラスタ1及びクラスタ2に含まれる技術文献A群と技術文献B群との割合が極端に不均等である場合である。したがって、混合クラスタに含まれる技術文献数が多いからといって類似率を大きく算出しないことが望ましい。
補正項2(1)の混在クラスタ1の分子を構成する混在確率について算出すると、
一方、分母の規格化因子は混在クラスタ1の混在確率の最大値であるので、以下のように規格化因子=0.141と算出される。
したがって、条件4における混在クラスタ1の補正項2(1)の値は、補正項2(1)=0.000と算出される。
一方、混在クラスタ2の補正項2(1)の値は、以下のように補正項2(1)=0.004と算出される。
混在クラスタ2の分母の規格化因子は、混在クラスタ2の混在確率の最大値であるので、条件4の場合には、以下のように規格化因子=0.194と算出される。
したがって類似率は、以下のように0.001と算出される。
上記の(式24)にて算出した類似率(式10に条件4を代入した場合)=0.001の値は、クラスタ1及びクラスタ2に含まれる技術文献の混在確率が、技術文献A群と技術文献B群から無作為に取り出した場合の混在確率の最大値よりもはるかに小さいので、類似率(式4に条件4を代入した場合)=0.459から類似率(式10に条件4を代入した場合)=0.001に補正された。
図12に、補正項2(1)を採用した場合の類似率算出例(補正項2(1)に条件1〜4を代入した場合の計算結果)の図表を示す。
同図に示すように、混合クラスタのうち、技術文献がよく混ざっているクラスタ(混在確率が大きい値を示す条件を備えたクラスタ)では、補正項2(1)の値が大きい値を示していることがわかる。また、技術文献がよく混ざっていないクラスタ(混在確率が小さい値を示す条件を備えたクラスタ)では、補正項2(1)の値がほぼ「0」と、小さい値を示し、算出される類似率の値も小さい値を示している。
図13に、補正項1(1)及び補正項2(1)の双方を採用した場合の類似率算出例(補正項1(1)及び補正項2(1)に、条件1〜4を代入した場合の計算結果)の図表を示す。
条件1の場合に算出された類似率=0.5は、われわれが常識的に考える類似の程度とほぼ合っているといえる。
条件2の場合には、混合クラスタ1に含まれる技術文献の数量はクラスタ2〜4に含まれる技術文献数量と比べると明らかに多いが、算出される類似率の値は(式1)に条件2を代入した場合の類似率=0.5から、補正項1(1)及び補正項2(1)を用いて条件2を代入した場合の類似率=0.4に補正された。このように補正項1(1)及び補正項2(1)を用いて類似率を算出することによって、技術文献数の多いクラスタ1についてあまり重み付けをしたくないときに有効となる。
条件3の場合には、条件2の場合と比較してクラスタ内に含まれる技術文献数量の総和は同じだが、混在クラスタ1の技術文献数量のみが特に多い訳ではないので、算出される類似率の値は類似率=0.019に小さく補正された。このように補正項1(1)及び補正項2(1)を用いて類似率を算出することによって、クラスタ1に含まれる技術文献数量の多さを類似率の算出結果に反映したくない場合に有効となる。
条件4の場合には、条件2の場合と比較してクラスタ内に含まれる技術文献数量の総和は同じだが、混在クラスタ1や混在クラスタ2が特に大きい訳ではなく、技術文献の混ざり具合がさらに極端なとき、類似率の値は類似率=0.0005に補正されている。このように補正項1(1)及び補正項2(1)を用いて類似率を算出することによって、混在クラスタ内の技術文献数量が多い場合であっても、技術文献の混ざり具合が不均等である場合には類似率を小さく算出する方向に補正することが可能となる。
すなわち、補正項1(1)及び補正項2(1)を用いて類似率を算出することによって、技術文献数量の多い混在クラスタを重要視して類似率を補正するとともに、技術文献の混ざり具合が不均一な場合には、類似率を小さい値に補正することが可能となる。
また同図に示すように、補正項2(1)計算式では、補正項の値が技術文献の混ざり具合に敏感に反応する傾向があるので、適宜γの値を調節する必要が生ずる場合もあると考えられる。そして、混在クラスタ内に含まれる技術文献の数量に基づいた補正と、混在クラスタ内に含まれる技術文献の混ざり具合に基づく補正とは、上述のようにそれぞれ密接な関係があるので、αの値とともにγの値を適宜定めることも重要であると考えられる。
なお、図13はα=1、γ=1とした場合の計算例であるが、例えばα=1のままとしてγ=0.25に設定して試算してみると、条件1の類似率=0.5→0.5、条件2の類似率=0.4→0.769、条件3の類似率=0.019→0.019、条件4の類似率=0.0005→0.033と算出することが可能となる。
応用型3:補正項2(2)の算出例
補正項2(2)は、混在クラスタ内における技術文献の混在比に応じて類似率を補正する補正項である。
第1の技術文献群(A群)と、第2の技術文献群(B群)に含まれる技術文献の数量の比が大きく異なる場合には、各混在クラスタに含まれる技術文献の混在比も当然異なるはずである。また、両群に含まれる技術文献の数量が拮抗しているほど、クラスタに含まれる技術文献の混在比は第1の技術文献群(A群)及び第2の技術文献群(B群)に含まれ技術文献数の数量の比(構成比)に近くなると考えるのが妥当である。
そこで本発明では、第1の技術文献群(A群)及び第2の技術文献群(B群)に含まれる技術文献数の構成比N/Mと、各クラスタ内における技術文献数の混在比n/mについて、更に構成比と混在比との比を取ったもののξ乗(但し、0<ξ)に比例した補正値を、類似率を算出する際の補正項として設けている。
すなわち、第1の技術文献群(A群)及び第2の技術文献群(B群)に含まれる技術文献数の構成比N/Mと、各クラスタ内における技術文献数の混在比n/mが近いほど類似率を高く設定する(1に近づける)ための数式である。
したがって補正項2(2)の値は、第1の技術文献群(A群)及び第2の技術文献群(B群)に含まれる技術文献数の構成比と、各クラスタ内における技術文献同士の混在比が異なるほど1から小さい値を取る。
補正項2(2)を考慮した類似率の算出例を、以下の(式26)に示す。
上記の(式25)及び(式26)に示すように補正項2(2)では、技術文献A群及び技術文献B群の構成比と、各クラスタ内における技術文献同士の混在比が同じであるほど類似率を高く設定する(1に近づける)ために、分子には「N/M又はn/mの小さい方」を配置し、分母には「N/M又はn/mの大きい方」を配置している。
この場合に、技術文献の混在比が小さい混在クラスタの影響を、類似率の算出結果に大きく反映させたくない場合には、補正項の指数ζをζ>1に設定するとよい。
また、単純にクラスタ内における技術文献の混在比に応じて類似率を増減させる要望がある場合には、ζ=1に設定するとよい。
また、混在比が大きい混在クラスタの影響を類似率の算出結果に大きく反映させたくない要求がある場合には、0<ζ<1に設定するとよい。
以下に、類似率の計算に際して補正項2(2)を用いる場合の作用について説明する。
補正項2(2)では、分子にA群とB群の技術文献数量の構成比又は各クラスタ内における技術文献同士の混在比のいずれか小さい方を配置し、分母にA群とB群の技術文献数量の構成比又は各クラスタ内における技術文献同士の混在比のいずれか大きい方を配置するようにしたので、A群とB群の技術文献数量の構成比と各クラスタ内における技術文献同士の混在比が同じであるほど類似率を高く算出する(1に近づける)ことが可能となる。また、A群とB群の技術文献数量の構成比と各クラスタ内における技術文献同士の混在比が異なるほど類似率を小さい値に算出することが可能となる。
また、A群とB群の技術文献数量の構成比と、各クラスタ内における技術文献同士の混在比との比を算出しているので、類似率の算出範囲を0≦類似率≦1を保証することが可能となる。
更に、指数ζをζ>1に設定することによって、A群とB群の技術文献数量の比と、各クラスタ内における技術文献同士の混在比との比が小さい混在クラスタの影響を、類似率の算出結果に大きく反映させないようにすることが可能となる。
また、指数ζをζ=1に設定することによって、単純にA群とB群の技術文献数量の構成比と、各クラスタ内における技術文献同士の混在比との比に応じて類似率を増減させることが可能となる(単純混在比比較)。
また、分子の指数を0<ζ<1に設定することによって、A群とB群の技術文献数量の構成比と、各クラスタ内における技術文献同士の混在比との比が大きい場合に類似率の算出結果に対する影響を少なくすることが可能となる。
補正項2(2)のみを考慮して他の補正項の作用を考慮しない場合であって(すなわち補正項1=1、補正項3=1とする)、単純混在比比較を行なう場合(すなわちζ=1)に、技術文献群同士を比較する条件として、(式26)において条件1〜4に設定した場合の類似率の試算結果を以下に示す。なお、算出結果は、図14に、補正項2(2)を採用した場合の類似率算出例(補正項2(2)に条件1〜4を代入した場合の計算結果)の図表として示す。
下式(式27)に、計算例26−1(式26に条件1を代入した場合)の計算結果を示す。
条件1では、第1の技術文献群(A群)の技術文献数量は6個、第2の技術文献群(B群)の技術文献数量も6個であるので、A群と群B群の技術文献数量の構成比は1対1である。
一方、条件1の場合に各混在クラスタ(クラスタ1及びクラスタ2)に含まれる技術文献数は、第1の技術文献群(A群)の技術文献が2個、第2の技術文献群(B群)の技術文献が1個であるので、混在比は2対1である。
したがって、クラスタに含まれる技術文献の混在比による類似率の補正の影響は、少なからず存在することが期待される。
下式(式28)に、計算例26−2(式26に条件2を代入した場合)の計算結果を示す。
下式(式29)に、計算例26−3(式26に条件3を代入した場合)の計算結果を示す。
条件3の場合には、条件2の場合とクラスタに含まれる技術文献の量の総和は同じであるが、混在クラスタ1に含まれる技術文献の混在比が、第1の技術文献群(A群)と第2の技術文献群(B群)の構成比と大きく異なる状況である。したがって類似率を算出する際に、混在クラスタ1に含まれる技術文献の混在比率の影響が条件2の場合ほどは生じないことが望ましい。
上記の(式29)にて算出した類似率(式26に条件3を代入)=0.289の値は、混在クラスタ1に含まれる技術文献の混在比が、第1の技術文献群(A群)と第2の技術文献群(B群)の構成比と異なることから、類似率は少なく補正される。
したがって、補正2(2)の演算処理を行なうことによって、混在クラスタに含まれる技術文献の量が多い場合であっても、その技術文献の混在比率に応じて類似率を補正することが可能となる。
下式(式30)に、計算例26−4(式26に条件4を代入した場合)の計算結果を示す。
上記の(式30)にて算出した類似率(式26に条件4を代入した場合)=0.029の値は、クラスタ1及びクラスタ2に含まれる技術文献の混在比が極端に不均等であるとともに、混在クラスタ1及び混在クラスタ2の混在比が第1の技術文献群(A群)と第2の技術文献群1(B群)の技術文献数量の構成比と大きく異なるので、類似率が少なく補正される。
図14に、補正項2(2)を採用した場合の類似率算出例(補正項2(2)に条件1〜4を代入した場合の計算結果)の図表を示す。
条件1、条件2における混在クラスタ1及び混在クラスタ2、並びに条件3における混在クラスタ2は、図9に示すように技術文献がよく混ざっている状態であるといえる例(混在クラスタにおける技術文献の混在比が、第1の技術文献群と、第2の技術文献群に含まれる技術文献の数量の比に近い場合)である。この場合には、補正項の値を割合に大きく算出し、類似率の値を大きくする効果がある。
逆に、条件3の混在クラスタ1及び条件4の各混在クラスタは、技術文献がよく混ざっていない状態であるといえる(混在クラスタにおける技術文献の混在比が、第1の技術文献群と、第2の技術文献群に含まれる技術文献の数量の比と大きく異なる場合といえる)ので、補正項の値を小さく算出し、類似率を小さい値に算出する効果がある。
したがって(式4)に示したような、補正項1(1)と組み合わせて類似率を算出することによって、技術文献群同士がどの程度技術的に関連があるかを示す類似率の算出制度を向上させることが可能となる。
図15に、補正項1(1)及び補正項2(2)を採用した場合の類似率算出例(補正項1(1)及び補正項2(2)に条件1〜4を代入した場合の計算結果)の図表を示す。
同図に示すように、補正項1(1)及び補正項2(2)を用いた計算式に条件1を代入すると、クラスタ内に含まれる技術文献数量と混在比率に応じた類似率を算出するので、条件1を代入した場合の類似率=0.25の値は、(式1)に条件1を代入した場合(補正項なしの場合)の類似率=0.5の値より小さいが、かなり期待した値に近く、技術文献群同士の技術の類似性をよく表していると言える。
また、補正項1(1)及び補正項2(2)を用いた計算式に条件2代入すると、クラスタ内に含まれ技術文献数量と混在比率に応じた類似率を算出するので、類似率は(式1)に条件2を代入した場合(補正なしの場合)の類似率=0.5から、補正項1及び補正項2(2)を用いて条件2を代入した場合の類似率=0.909に補正され、かなり期待した類似率の値に近く、技術文献同士の類似性をよく表していると言える。
このように補正項1及び補正項2(2)を用いて類似率を算出することによって、技術文献数の多いクラスタ1について重み付けをすることが可能となる。
また、補正項1(1)及び補正項2(2)を用いた計算式に条件3を代入すると、クラスタ内に含まれる技術文献数量と混在比率に応じた類似率を算出するので、条件2の場合と比較してクラスタ内に含まれる技術文献数量の総和は同じだが、混在クラスタ1の技術文献数量のみが特に多いわけではなく、かつ、クラスタ1内の技術文献の混在比率が第1の技術文献群(A群)と第2の技術文献群(B群)の技術文献数量の比率とも異なる場合には、クラスタ1の存在を特に重視しないようにすることが可能となる。
ここで算出される類似率は、(式1)に条件3を代入した場合(補正なしの場合)の類似率=0.5から、補正項1及び補正項2(2)を用いて条件3を代入した場合の類似率=0.111に補正され、かなり期待した値に近く、技術文献群同士の類似性を表していると言える。
また、補正項1(1)及び補正項2(2)を用いた計算式に条件4を代入すると、クラスタ内に含まれる技術文献数量と混在比率に応じた類似率を算出するので、条件2の場合と比較してクラスタ内に含まれる技術文献数量の総和は同じだが、混在クラスタ1や混在クラスタ2が特に大きいわけではなく、技術文献の混ざり具合がさらに極端な場合で、混在クラスタ内における技術文献の混在比が、A群とB群の技術文献数の比と大きく異なるので、類似率に反映する影響が小さくなっている。
ここで算出される類似率は、(式1)に条件4を代入した場合(補正なしの場合)の類似率=0.5から、補正項1及び補正項2(2)を用いて条件4を代入した場合の類似率=0.019に補正され、かなり期待した値に近く、技術文献同士の類似性をよく表していると言える。
応用型4:補正項2(3)の算出例
以下に、混在クラスタ内における技術文献の期待値差に基づく補正について説明する。
あるクラスタ内に含まれる第1の技術文献群(A群)の技術文献の数量Mと、第2の技術文献群(B群)の技術文献の数量Nとが、A群とB群から無作為に抽出した際の期待値(M/(M+N))に近いほど、良く混ざっていると考えるのは自然である。(前記(式9)に示した確率比、又は(式25)に示した混在比と並ぶ第3の混ざり具合の定義である。)
そこで本発明では、第1の技術文献群(A群)と第2の技術文献群(B群)とを混合した技術文献群の中から、第1技術文献群(A群)の技術文献を取り出す確率(M/(M+N))に、混在クラスタに含まれる技術文献数(m+n)を乗算して第1の技術文献群(A群)の技術文献を取り出す期待値を算出し、その期待値と混合クラスタに含まれる第1の技術文献群(A群)の技術文献数mとの差を期待値差(下(式31)参照)として算出し、この差が小さいほど(0に近いほど)類似率が高くなるように補正する演算を行なう。
以下の(式31)に期待値差の算出例を示す。
図16に、上記の(式31)に条件1〜4を代入した場合の期待値差の算出例を示す。
上記の(式31)による計算結果からもわかるとおり、あるクラスタ内に含まれるA群の技術文献の数量と、B群の技術文献の数量とが、A群とB群から無作為に抽出した際の期待値に近いほど、そのクラスタを重要視して類似率を補正する場合には、図16に示す期待値差を負の数にして指数部分に置くとよい。
負の値にした期待値差を指数部分に配置することによって、混在クラスタに期待値どおりの技術文献が存在する場合には、期待値差=0となり、指数=0の場合には、補正項の値を1と算出することが可能となるからである。ところが、期待値のままだと混ざり具合だけなく所定の混在クラスタの大きさにも依存してしまうため、期待値差をクラスタに含まれる技術文献数で除算するとよい。
このようにして求めた補正項2(3)実施例を以下に示す。
但し、
ξ:任意定数であって、ξ>1とする。
上記(式32)のように補正項2を算出することによって、例えば、クラスタの大きさが100で期待値差が10の時とクラスタの大きさが10で期待値差が1の時の補正値を同じにすることが可能となる。
なお、ξの値を大きく設定するほど期待値差に対して敏感に反応して類似率を小さく補正することが可能となる。
図17に、ξ=10とした場合において、(式32)に条件1〜4を代入した場合の類似率算出例を示す。
図18に、補正項1(1)及び補正項2(3)を採用した場合の類似率算出例(補正項1(1)及び補正項2(3)に条件1〜4を代入した場合の計算結果)の図表を示す。
同図に示すように、補正項1(1)及び補正項2(3)とを用いた計算式に条件1を代入すると、クラスタ内に含まれる技術文献数量と期待値差に応じた類似率を算出する(あるクラスタ内に含まれる第1の技術文献群(A群)の技術文献の数量と、第2の技術文献群(B群)の技術文献の数量とが、A群とB群から無作為に抽出した際の期待値に近い程類似率を大きく算出する補正を行なう)ので、補正項1及び補正項2(3)を用いて条件1を代入した場合の類似率=0.340は、(式1)に条件1を代入した場合(補正なしの場合)の類似率=0.5の値に近く、期待した値に近い値を算出することが可能となっている。
条件2の場合には、混在クラスタ1は、クラスタ2〜4と比べると混在クラスタに含まれる技術文献数が大きい上に、期待値差も少ないので混在クラスタ1に含まれる技術文献の構成の影響を重視すべきである。
補正項1(1)及び補正項2(3)を用いた計算式に条件2を代入すると、クラスタ内に含まれる技術文献数量と期待値差に応じた類似率を算出する(あるクラスタ内に含まれる第1の技術文献群(A群)の技術文献の数量と、第2の技術文献群(B群)の技術文献の数量とが、A群とB群から無作為に抽出した際の期待値に近い程類似率を大きく算出する補正を行なう)ので、補正項1及び補正項2(3)を用いて条件2を代入した場合の類似率=0.935は、(式1)に条件1を代入した場合(補正なしの場合)の類似率=0.5の値より大きく補正されており、この値は期待した値に近い値となる。
条件3の場合には、前記の条件2の場合と比較してクラスタに含まれる技術文献数量の総和は同じだが、混在クラスタ1だけが特に大きい訳ではないのでクラスタ1を特に重視しないはずである。また、混在クラスタ1に含まれる技術文献は、第1の技術文献群(A群)と第2の技術文献群(B群)から無作為に抽出した際の期待値と大きく異なるので、混在クラスタ1の期待値差の大きさに引っ張られ類似率は小さく算出されるはずである。
補正項1(1)及び補正項2(3)を用いた計算式に条件3を代入すると、クラスタ内に含まれる技術文献数量と期待値差に応じた類似率を算出する(あるクラスタ内に含まれる第1の技術文献群(A群)の技術文献の数量と、第2の技術文献群(B群)の技術文献の数量とが、A群とB群から無作為に抽出した際の期待値に近い程類似率を大きく算出する補正を行なう)ので、補正項1及び補正項2(3)を用いて条件3を代入した場合に、類似率=0.207と算出される。この類似率の値も期待した値に近い値である。
条件4の場合には、条件3と比べてクラスタ内に含まれる技術文献数量の総和は同じだが、混在クラスタ1や混在クラスタ2に含まれる技術文献数量が特に大きい訳ではなく、混ざり具合がさらに極端な場合なので、混在クラスタ1の重み付けに引っ張られないことが望ましい。
補正項1(1)及び補正項2(3)を用いた計算式に条件4を代入すると、クラスタ内に含まれる技術文献数量と期待値差に応じた類似率を算出する(あるクラスタ内に含まれる第1の技術文献群(A群)の技術文献の数量と、第2の技術文献群(B群)の技術文献の数量とが、A群とB群から無作為に抽出した際の期待値に近い程類似率を大きく算出する補正を行なう)ので、補正項1及び補正項2(3)を用いて条件4を代入した場合には、類似率=0.146と算出される。この類似率の値も、期待した値に近い値である。
本発明によれば、特許文献又は技報等の技術文献から構成される第1の技術文献群と第2の技術文献群との技術的な類似性を判断するための指標を算出する類似率算出装置であって、比較対象となる第1の技術文献群及び第2の技術文献群を入力する技術文献群入力手段と、キーワードやIPCなどの技術情報を入力する技術情報入力手段と、第1の技術文献群及び第2の技術文献群に含まれる技術文献について前記入力した技術情報を含む技術文献を検索して該検索した技術文献をそれぞれの技術情報毎にクラスタ分解するクラスタ分解手段と、前記クラスタ分解した結果得られた全クラスタ数と第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数との比を類似率として算出する類似率算出手段と、前記算出した類似率を記録手段、表示手段、又は通信手段に出力する出力手段とを備えたので、その分解した全クラスタ数と混在クラスタ数の比に基づいて、技術文献群に記載されている技術内容の類似性を示す指標を簡便に算出することが可能となる。
また本発明によれば、類似率算出手段に各混在クラスタに含まれる技術文献の量に応じた値を取る第1の補正値と、各混在クラスタに含まれる第1の技術文献群の技術文献と第2の技術文献群の技術文献との混ざり具合に応じた値を取る第2の補正値とを乗算したものを、各混在クラスタについて総和を算出して、全クラスタ数で除算して類似率を算出する機能を設けたので、補正項1の存在により混在クラスタに含まれる技術文献の量に応じて重要度が高いことを意味付ける補正が可能となるとともに、補正項2の存在により混在クラスタに含まれる技術文献の割合が所定の量に近い程、重要なクラスタであるとして、類似率が高い値を示すように重い重み付けをして、類似率の算出結果を、より人の感覚に合うように補正することが可能となる。
従って、補正項1及び補正項2を用いて類似率を算出することによって、技術文献数量の多い混在クラスタを重要視して類似率を補正するとともに、技術文献の混ざり具合が不均一な場合には、類似率を小さい値に補正することが可能となる。
また本発明によれば、類似率算出手段に個々のクラスタ内の技術文献数のα乗(但し、0<α)に比例した補正値を各混在クラスタについて総和を算出し、全クラスタ数で除算して類似率を算出する機能を設けたので、クラスタ内の技術文献数が多いほど重要なクラスタであるとするような類似率を算出することが可能となる。
また本発明によれば、類似率算出手段に個々のクラスタ内の技術文献数のα乗(但し、0<α)を、全クラスタ数等の規格化因子で除算して類似率を算出する機能を備えたので、0≦類似率≦1を保証することが可能となる。また、規格化因子として全クラスタ内の技術文献数の平均値を配置したので、全クラスタ内の技術文献数の平均値を基準として技術文献の量の多少を算出することが可能となる。
また本発明によれば類似率算出手段に、第1の技術文献群の中からm個、第2の技術文献群の中からn個の技術文献を取り出す確率のγ乗(但し、0<γ)に比例した補正値を各混在クラスタについて総和を算出し、全クラスタ数で除算して類似率を算出する機能を設けた。すなわち、類似率算出手段に(A群の中からm個、B群の中からn個の技術文献を取り出す組合せの数)/(A群とB群とを混ぜ合わせた中からm+n個の技術文献を取り出す組合せ数)を分子に配置した演算を行なう機能を備えたので、混在クラスタに含まれるA群及びB群の技術文献数の偏り(作為性)に応じて、偏り大の場合は小さい補正値に、偏り小の場合は大きい補正値に類似率を補正することが可能となる。また、規格化因子として、第1の技術文献群の中からm個、第2の技術文献群の中からn個の技術文献を取り出す確率の最大値のγ乗(但し、0<γ)を配置したので、類似率の算出範囲として0≦類似率≦1を保証することが可能となる。
また本発明によれば類似率算出手段に、第1の技術文献群に含まれる技術文献数Mと第2の技術文献群に含まれる技術文献数Nとの構成比、N/Mと、クラスタ分解した結果得られた混在クラスタに含まれる第1の技術文献群の技術文献数mと第2の技術文献群の技術文献数nの混在比、n/mとについて、更に構成比と混在比との比を取ったもののζ乗(但し、0<ζ)に比例した補正値を各混在クラスタについて総和を算出し、全クラスタ数で除算して類似率を算出する機能を備えたので、A群とB群の技術文献数量の構成比と各クラスタ内における、技術文献同士の混在比が同じであるほど類似率を高く算出する(1に近づける)ことが可能となる。
また、構成比と混在比との比の指数ζをζ>1に設定することによって、A群とB群の技術文献数量の比と、各クラスタ内における技術文献同士の混在比との比が小さい混在クラスタの影響を、類似率の算出結果に大きく反映させないようにすることが可能なる。
また、指数ζをζ=1に設定することによって、単純にA群とB群の技術文献数量の構成比と、各クラスタ内における技術文献同士の混在比との比に応じて類似率を増減させることが可能となる。
また、分子の指数を0<ζ<1に設定することによって、A群とB群の技術文献数量の構成比と、各クラスタ内における技術文献同士の混在比との比が大きい場合に類似率の算出結果に対する影響を少なくすることが可能となる。
また本発明によれば類似率算出手段に、第1の技術文献群と第2の技術文献群とを混合した技術文献群の中から第1の技術文献群の技術文献を取り出す確率に前記クラスタ分解した混在クラスタに含まれる技術文献数を乗算して第1の技術文献群の技術文献を取り出す期待値を算出し、前記期待値と混合クラスタに含まれる第1の技術文献群の技術文献数との差を期待値差として算出し、その期待値差を任意定数ξ(但し、1<ξ)の負の指数とした補正値を、各混在クラスタについて総和を算出し、全クラスタ数で除算して類似率と算出するようにしたので、ξの値の設定に応じて期待値差に対する類似率の算出結果を敏感に反応させる補正を行なうことが可能となる。
また本発明によれば類似率算出手段に、第1の技術文献群と第2の技術文献群とを混合した技術文献群の中から第1の技術文献群の技術文献を取り出す確率に前記クラスタ分解した混在クラスタに含まれる技術文献数を乗算して第1の技術文献群の技術文献を取り出す期持値を算出し、前記期待値と混合クラスタに含まれる第1の技術文献群の技術文献数との差を期待値差として算出し、その期待値差を混在クラスタに含まれる技術文献数で除算したものを、任意定数ξ(但し、1<ξ)の負の指数とした補正値とし、これを各混在クラスタについて総和を算出し、更に全クラスタ数で除算して類似率と算出するようにしたので、ξの値の設定に応じて期待値差に対する類似率の算出結果を敏感に反応させる補正を行なうことが可能となる。
また本発明によれば、類似率算出手段に各混在クラスタに含まれる技術文献の量に応じた値を取る第1の補正値と、各混在クラスタに含まれる第1の技術文献群の技術文献と第2の技術文献群の技術文献との混ざり具合に応じた値を取る第2の補正値とを乗算したものを、各混在クラスタについて総和を算出して、全クラスタ数で除算して類似率を算出する機能を設けたので、補正項1の存在により混在クラスタに含まれる技術文献の量に応じて重要度が高いことを意味付ける補正が可能となるとともに、補正項2の存在により混在クラスタに含まれる技術文献の割合が所定の量に近い程、重要なクラスタであるとして、類似率が高い値を示すように重い重み付けをして、類似率の算出結果を、より人の感覚に合うように補正することが可能となる。
従って、補正項1及び補正項2を用いて類似率を算出することによって、技術文献数量の多い混在クラスタを重要視して類似率を補正するとともに、技術文献の混ざり具合が不均一な場合には、類似率を小さい値に補正することが可能となる。
また本発明によれば、類似率算出手段に個々のクラスタ内の技術文献数のα乗(但し、0<α)に比例した補正値を各混在クラスタについて総和を算出し、全クラスタ数で除算して類似率を算出する機能を設けたので、クラスタ内の技術文献数が多いほど重要なクラスタであるとするような類似率を算出することが可能となる。
また本発明によれば、類似率算出手段に個々のクラスタ内の技術文献数のα乗(但し、0<α)を、全クラスタ数等の規格化因子で除算して類似率を算出する機能を備えたので、0≦類似率≦1を保証することが可能となる。また、規格化因子として全クラスタ内の技術文献数の平均値を配置したので、全クラスタ内の技術文献数の平均値を基準として技術文献の量の多少を算出することが可能となる。
また本発明によれば類似率算出手段に、第1の技術文献群の中からm個、第2の技術文献群の中からn個の技術文献を取り出す確率のγ乗(但し、0<γ)に比例した補正値を各混在クラスタについて総和を算出し、全クラスタ数で除算して類似率を算出する機能を設けた。すなわち、類似率算出手段に(A群の中からm個、B群の中からn個の技術文献を取り出す組合せの数)/(A群とB群とを混ぜ合わせた中からm+n個の技術文献を取り出す組合せ数)を分子に配置した演算を行なう機能を備えたので、混在クラスタに含まれるA群及びB群の技術文献数の偏り(作為性)に応じて、偏り大の場合は小さい補正値に、偏り小の場合は大きい補正値に類似率を補正することが可能となる。また、規格化因子として、第1の技術文献群の中からm個、第2の技術文献群の中からn個の技術文献を取り出す確率の最大値のγ乗(但し、0<γ)を配置したので、類似率の算出範囲として0≦類似率≦1を保証することが可能となる。
また本発明によれば類似率算出手段に、第1の技術文献群に含まれる技術文献数Mと第2の技術文献群に含まれる技術文献数Nとの構成比、N/Mと、クラスタ分解した結果得られた混在クラスタに含まれる第1の技術文献群の技術文献数mと第2の技術文献群の技術文献数nの混在比、n/mとについて、更に構成比と混在比との比を取ったもののζ乗(但し、0<ζ)に比例した補正値を各混在クラスタについて総和を算出し、全クラスタ数で除算して類似率を算出する機能を備えたので、A群とB群の技術文献数量の構成比と各クラスタ内における、技術文献同士の混在比が同じであるほど類似率を高く算出する(1に近づける)ことが可能となる。
また、構成比と混在比との比の指数ζをζ>1に設定することによって、A群とB群の技術文献数量の比と、各クラスタ内における技術文献同士の混在比との比が小さい混在クラスタの影響を、類似率の算出結果に大きく反映させないようにすることが可能なる。
また、指数ζをζ=1に設定することによって、単純にA群とB群の技術文献数量の構成比と、各クラスタ内における技術文献同士の混在比との比に応じて類似率を増減させることが可能となる。
また、分子の指数を0<ζ<1に設定することによって、A群とB群の技術文献数量の構成比と、各クラスタ内における技術文献同士の混在比との比が大きい場合に類似率の算出結果に対する影響を少なくすることが可能となる。
また本発明によれば類似率算出手段に、第1の技術文献群と第2の技術文献群とを混合した技術文献群の中から第1の技術文献群の技術文献を取り出す確率に前記クラスタ分解した混在クラスタに含まれる技術文献数を乗算して第1の技術文献群の技術文献を取り出す期待値を算出し、前記期待値と混合クラスタに含まれる第1の技術文献群の技術文献数との差を期待値差として算出し、その期待値差を任意定数ξ(但し、1<ξ)の負の指数とした補正値を、各混在クラスタについて総和を算出し、全クラスタ数で除算して類似率と算出するようにしたので、ξの値の設定に応じて期待値差に対する類似率の算出結果を敏感に反応させる補正を行なうことが可能となる。
また本発明によれば類似率算出手段に、第1の技術文献群と第2の技術文献群とを混合した技術文献群の中から第1の技術文献群の技術文献を取り出す確率に前記クラスタ分解した混在クラスタに含まれる技術文献数を乗算して第1の技術文献群の技術文献を取り出す期持値を算出し、前記期待値と混合クラスタに含まれる第1の技術文献群の技術文献数との差を期待値差として算出し、その期待値差を混在クラスタに含まれる技術文献数で除算したものを、任意定数ξ(但し、1<ξ)の負の指数とした補正値とし、これを各混在クラスタについて総和を算出し、更に全クラスタ数で除算して類似率と算出するようにしたので、ξの値の設定に応じて期待値差に対する類似率の算出結果を敏感に反応させる補正を行なうことが可能となる。
Claims (33)
- 特許文献又は技報等の技術文献から構成される第1の技術文献群と第2の技術文献群との、技術的な類似性を判断するための指標を算出する類似率算出装置であって、
比較対象となる第1の技術文献群及び第2の技術文献群を入力する技術文献群入力手段と、
キーワードやIPCなどの技術情報を入力する技術情報入力手段と、
第1の技術文献群及び第2の技術文献群に含まれる技術文献について、前記入力した技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解するクラスタ分解手段と、
前記クラスタ分解した結果得られた全クラスタ数と、第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数との比を類似率として算出する類似率算出手段と、
前記算出した類似率を記録手段、表示手段、又は通信手段に出力する出力手段と、
を備えたことを特徴とする類似率算出装置。 - 特許文献又は技報等の技術支献から構成される第1の技術文献群と第2の技術文献群との、技術的な類似性を判断するための指標を算出する類似率算出装置であって、
比較対象となる第1の技術文献群及び第2の技術文献群を入力する技術文献群入力手段と、
キーワードやIPCなどの技術情報を入力する技術情報入力手段と、
第1の技術文献群及び第2の技術文献群に含まれる技術文献について、前記入力した技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解するクラスタ分解手段と、
前記クラスタ分解した結果得られた全クラスタ数と、第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに、
各混在クラスタに含まれる技術文献の量に応じた値を取る第1の補正値と、各混在クラスタに含まれる第1の技術文献群の技術文献と第2の技術文献群の技術文献との混ざり具合に応じた値を取る第2の補正値とを乗算したものを各混在クラスタについて総和を算出し、前記算出した全クラスタ数で除算して類似率を算出する類似率算出手段と、
前記算出した類似率を記録手段、表示手段、又は通信手段に出力する出力手段と、
を備えたことを特徴とする類似率算出装置。 - 特許文献又は技報等の技術文献から構成される第1の技術文献群と第2の技術文献群との、技術的な類似性を判断するための指標を算出する類似率算出装置であって、
比較対象となる第1の技術文献群及び第2の技術文献群を入力する技術文献群入力手段と、
キーワードやIPCなどの技術情報を入力する技術情報入力手段と、
第1の技術文献群及び第2の技術文献群に含まれる技術文献について、前記入力した技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解するクラスタ分解手段と、
前記クラスタ分解した結果得られた全クラスタ数と、第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに、
個々のクラスタ内の技術文献数のα乗(但し、0<α)に比例した補正値を各混在クラスタについて総和を算出し、前記算出した全クラスタ数で除算して類似率を算出する類似率算出手段と、
前記算出した類似率を記録手段、表示手段、又は通信手段に出力する出力手段と、
を備えたことを特徴とする類似率算出装置。 - 特許文献又は技報等の技術文献から構成される第1の技術文献群と第2の技術文献群との、技術的な類似性を判断するための指標を算出する類似率算出装置であって、
比較対象となる第1の技術文献群及び第2の技術文献群を入力する技術文献群入力手段と、
キーワードやIPCなどの技術情報を入力する技術情報入力手段と、
第1の技術文献群及び第2の技術文献群に含まれる技術文献について、前記入力した技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解するクラスタ分解手段と、
前記クラスタ分解した結果得られた全クラスタ数と、第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに、
個々のクラスタ内の技術文献数のα乗(但し、0<α)を規格化因子で除算した補正値を各混在クラスタについて総和を算出し、前記算出した全クラスタ数で除算して類似率を算出する類似率算出手段と、
前記算出した類似率を記録手段、表示手段、又は通信手段に出力する出力手段と、
を備えたことを特徴とする類似率算出装置。 - 請求の範囲4に記載の類似率算出装置における前記規格化因子は、全クラスタ内の技術文献数の平均値であることを特徴とする類似率算出装置。
- 特許文献又は技報等の技術文献から構成される第1の技術文献群と第2の技術文献群との、技術的な類似性を判断するための指標を算出する類似率算出装置であって、
比較対象となる第1の技術文献群及び第2の技術文献群を入力する技術文献群入力手段と、
キーワードやIPCなどの技術情報を入力する技術情報入力手段と、
第1の技術文献群及び第2の技術文献群に含まれる技術文献について、前記入力した技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解するクラスタ分解手段と、
前記クラスタ分解した結果得られた全クラスタ数と、第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに、
前記クラスタ分解した結果得られた混在クラスタに含まれる第1の技術文献群及び第2の技術文献群の技術文献数の確率に応じて補正するために、第1の技術文献群の中からm個、第2の技術文献群の中からn個の技術文献を取り出す確率のγ乗(但し、0<γ)に比例した補正値を各混在クラスタについて総和を算出し、前記算出した全クラスタ数で除算して類似率を算出する類似率算出手段と、
前記算出した類似率を記録手段、表示手段、又は通信手段に出力する出力手段と、
を備えたことを特徴とする類似率算出装置。 - 特許文献又は技報等の技術文献から構成される第1の技術文献群と第2の技術文献群との、技術的な類似性を判断するための指標を算出する類似率算出装置であって、
比較対象となる第1の技術文献群及び第2の技術文献群を入力する技術文献群入力手段と、
キーワードやIPCなどの技術情報を入力する技術情報入力手段と、
第1の技術文献群及び第2の技術文献群に含まれる技術文献について、前記入力した技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解するクラスタ分解手段と、
前記クラスタ分解した結果得られた全クラスタ数と、第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに、
前記クラスタ分解した結果得られた混在クラスタに含まれる第1の技術文献群及び第2の技術文献群の技術文献数の確率に応じて補正するために、第1の技術文献群の中からm個、第2の技術文献群の中からn個の技術文献を取り出す確率のγ乗(但し、0<γ)を規格化因子で除算した補正値を各混在クラスタについて総和を算出し、前記算出した全クラスタ数で除算して類似率を算出する類似率算出手段と、
前記算出した類似率を記録手段、表示手段、又は通信手段に出力する出力手段と、
を備えたことを特徴とする類似率算出装置。 - 請求の範囲7に記載の類似率算出装置における前記規格化因子は、第1の技術文献群の中からm個、第2の技術文献群の中からn個の技術文献を取り出す確率の最大値のγ乗(但し、0<γ)であることを特徴とする類似率算出装置。
- 特許文献又は技報等の技術文献から構成される第1の技術文献群と第2の技術文献群との、技術的な類似性を判断するための指標を算出する類似率算出装置であって、
比較対象となる第1の技術文献群及び第2の技術文献群を入力する技術文献群入力手段と、
キーワードやIPCなどの技術情報を入力する技術情報入力手段と、
第1の技術文献群及び第2の技術文献群に含まれる技術文献について、前記入力した技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解するクラスタ分解手段と、
前記クラスタ分解した結果得られた、全クラスタ数と、第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに、
第1の技術文献群に含まれる技術文献数Mと第2の技術文献群に含まれる技術文献数Nとの構成比、N/Mと、
前記クラスタ分解した結果得られた混在クラスタに含まれる第1の技術文献群の技術文献数mと第2の技術文献群の技術文献数nの混在比、n/mとについて、更に構成比と混在比との比を取ったもののζ乗(但し、0<ζ)に比例した補正値を各混在クラスタについて総和を算出し、前記算出した全クラスタ数で除算して類似率を算出する類似率算出手段と、
前記算出した類似率を記録手段、表示手段、又は通信手段に出力する出力手段と、
を備えたことを特徴とする類似率算出装置。 - 特許文献又は技報等の技術文献から構成される第1の技術文献群と第2の技術文献群との、技術的な類似性を判断するための指標を算出する類似率算出装置であって、
比較対象となる第1の技術文献群及び第2の技術文献群を入力する技術文献群入力手段と、
キーワードやIPCなどの技術情報を入力する技術情報入力手段と、
第1の技術文献群及び第2の技術文献群に含まれる技術文献について、前記入力した技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解するクラスタ分解手段と、
前記クラスタ分解した結果得られた全クラスタ数と、第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに、
第1の技術文献群と第2の技術文献群とを混合した技術文献群の中から、第1の技術文献群の技術文献を取り出す確率に、前記クラスタ分解した混在クラスタに含まれる技術文献数を乗算して第1の技術文献群の技術文献を取り出す期待値を算出し、
前記期待値と混合クラスタに含まれる第1の技術文献群の技術文献数との差を期待値差として算出し、
その期待値差を任意定数ξ(但し、1<ξ)の負の指数とした補正値を各混在クラスタについて総和を算出し、前記算出した全クラスタ数で除算して類似率を算出する類似率算出手段と、
前記算出した類似率を記録手段、表示手段、又は通信手段に出力する出力手段と、
を備えたことを特徴とする類似率算出装置。 - 特許文献又は技報等の技術文献から構成される第1の技術文献群と第2の技術文献群との、技術的な類似性を判断するための指標を算出する類似率算出装置であって、
比較対象となる第1の技術文献群及び第2の技術文献群を入力する技術文献群入力手段と、
キーワードやIPCなどの技術情報を入力する技術情報入力手段と、
第1の技術文献群及び第2の技術文献群に含まれる技術文献について、前記入力した技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解するクラスタ分解手段と、
前記クラスタ分解した結果得られた全クラスタ数と、第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに、
第1の技術文献群と第2の技術文献群とを混合した技術文献群の中から、第1の技術文献群の技術文献を取り出す確率に、前記クラスタ分解した混在クラスタに含まれる技術文献数を乗算して第1の技術文献群の技術文献を取り出す期待値を算出し、
前記期待値と混合クラスタに含まれる第1の技術文献群の技術文献数との差を期待値差として算出し、
その期待値差を混在クラスタに含まれる技術文献数で除算したものを、任意定数ξ(但し、1<ξ)の負の指数とした補正値とし、これを各混在クラスタについて総和を算出し、更に前記算出した全クラスタ数で除算して類似率を算出する類似率算出手段と、
前記算出した類似率を記録手段、表示手段、又は通信手段に出力する出力手段と、
を備えたことを特徴とする類似率算出装置。 - 技術文献群を入力する技術文献群入力手段と、キーワードなどの技術情報を入力する技術情報入力手段と、技術情報群を技術情報毎にクラスタ分解するクラスタ分解手段と、全クラスタ数と混在クラスタ数とを算出して類似率を算出する類似率算出手段と、算出した類似率を出力する出力手段と、前記技術文献群入力手段と技術情報入力手段とクラスタ分解手段と類似率算出手段と出力手段とを制御をすることが可能な情報処理手段とを備えた類似率算出装置の情報処理手段にて動作し、技術文献群同士の技術的な類似性を判断するための指標を算出する類似率算出プログラムであって、
前記情報処理手段に、
前記技術文献群入力手段が、比較対象となる第1の技術文献群及び第2の技術文献群を入力する機能と、
前記技術情報入力手段が、キーワードやIPCなどの技術情報を入力する機能と、
前記クラスタ分解手段が、第1の技術文献群及び第2の技術文献群に含まれる技術文献について、前記入力した技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解する機能と、
前記類似率算出手段が、前記クラスタ分解した結果得られた全クラスタ数と第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに、前記クラスタ分解した結果得られた全クラスタ数と第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数との比を類似率として算出する機能と、
前記出力手段が、前記算出した類似率を記録手段、表示手段、又は通信手段に出力する機能と、
を実現させることを特徴とする類似率算出プログラム。 - 技術文献群を入力する技術文献群入力手段と、キーワードなどの技術情報を入力する技術情報入力手段と、技術情報群を技術情報毎にクラスタ分解するクラスタ分解手段と、全クラスタ数と混在クラスタ数とを算出して類似率を算出する類似率算出手段と、算出した類似率を出力する出力手段と、前記技術文献群入力手段と技術情報入力手段とクラスタ分解手段と類似率算出手段と出力手段とを制御をすることが可能な情報処理手段とを備えた類似率算出装置の情報処理手段にて動作し、技術文献群同士の技術的な類似性を判断するための指標を算出する類似率算出プログラムであって、
前記情報処理手段に、
前記技術文献群入力手段が、比較対象となる第1の技術文献群及び第2の技術文献群を入力する機能と、
前記技術情報入力手段が、キーワードやIPCなどの技術情報を入力する機能と、
前記クラスタ分解手段が、第1の技術文献群及び第2の技術文献群に含まれる技術文献について、前記入力した技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解する機能と、
前記類似率算出手段が、前記クラスタ分解した結果得られた全クラスタ数と、第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに、各混在クラスタに含まれる技術文献の量に応じた値を取る第1の補正値と、各混在クラスタに含まれる第1の技術文献群の技術文献と第2の技術文献群の技術文献との混ざり具合に応じた値を取る第2の補正値とを乗算したものを各混在クラスタについて総和を算出し、前記算出した全クラスタ数で除算して類似率を算出する機能と、
前記出力手段が、前記算出した類似率を記録手段、表示手段、名は通信手段に出力する機能と、
を実現させることを特徴とする類似率算出プログラム。 - 技術文献群を入力する技術文献群入力手段と、キーワードなどの技術情報を入力する技術情報入力手段と、技術情報群を技術情報毎にクラスタ分解するクラスタ分解手段と、全クラスタ数と混在クラスタ数とを算出して類似率を算出する類似率算出手段と、算出した類似率を出力する出力手段と、前記技術文献群入力手段と技術情報入力手段とクラスタ分解手段と類似率算出手段と出力手段とを制御をすることが可能な情報処理手段とを備えた類似率算出装置の情報処理手段にて動作し、技術文献群同士の技術的な類似性を判断するための指標を算出する類似率算出プログラムであって、
前記情報処理手段に、
前記技術文献群入力手段が、比較対象となる第1の技術文献群及び第2の技術文献群を入力する機能と、
前記技術情報入力手段が、キーワードやIPCなどの技術情報を入力する機能と、
前記クラスタ分解手段が、第1の技術文献群及び第2の技術文献群に含まれる技術文献について、前記入力した技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解する機能と、
前記類似率算出手段が、前記クラスタ分解した結果得られた全クラスタ数と第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに、個々のクラスタ内の技術文献数のα乗(但し、0<α)に比例した補正値を各混在クラスタについて総和を算出し、前記算出した全クラスタ数で除算して類似率を算出する機能と、
前記出力手段が、前記算出した類似率を記録手段、表示手段、又は通信手段に出力する機能と、
を実現させることを特徴とする類似率算出プログラム。 - 技術文献群を入力する技術文献群入力手段と、キーワードなどの技術情報を入力する技術情報入力手段と、技術情報群を技術情報毎にクラスタ分解するクラスタ分解手段と、全クラスタ数と混在クラスタ数とを算出して類似率を算出する類似率算出手段と、算出した類似率を出力する出力手段と、前記技術文献群入力手段と技術情報入力手段とクラスタ分解手段と類似率算出手段と出力手段とを制御をすることが可能な情報処理手段とを備えた類似率算出装置の情報処理手段にて動作し、技術文献群同士の技術的な類似性を判断するための指標を算出する類似率算出プログラムであって、
前記情報処理手段に、
前記技術文献群入力手段が、比較対象となる第1の技術文献群及び第2の技術文献群を入力する機能と、
前記技術情報入力手段が、キーワードやIPCなどの技術情報を入力する機能と、
前記クラスタ分解手段が、第1の技術文献群及び第2の技術文献群に含まれる技術文献について、前記入力した技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解する機能と、
前記類似率算出手段が、前記クラスタ分解した結果得られた全クラスタ数と、第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに、個々のクラスタ内の技術文献数のα乗(但し、0<α)を規格化因子で除算した補正値を各混在クラスタについて総和を算出し、類似率を算出する機能と、
前記出力手段が、前記算出した類似率を記録手段、表示手段、又は通信手段に出力する機能と、
を実現させることを特徴とする類似率算出プログラム。 - 請求の範囲15に記載の類似率算出プログラムにおいて、
前記情報処理手段に、
前記類似率算出手段が、前記規格化因子として、全クラスタ内の技術文献数の平均値を用いる機能を実現させることを特徴とする類似率算出プログラム。 - 技術文献群を入力する技術文献群入力手段と、キーワードなどの技術情報を入力する技術情報入力手段と、技術情報群を技術情報毎にクラスタ分解するクラスタ分解手段と、全クラスタ数と混在クラスタ数とを算出して類似率を算出する類似率算出手段と、算出した類似率を出力する出力手段と、前記技術文献群入力手段と技術情報入力手段とクラスタ分解手段と類似率算出手段と出力手段とを制御をすることが可能な情報処理手段とを備えた類似率算出装置の情報処理手段にて動作し、技術文献群同士の技術的な類似性を判断するための指標を算出する類似率算出プログラムであって、
前記情報処理手段に、
前記技術文献群入力手段が、比較対象となる第1の技術文献群及び第2の技術文献群を入力する機能と、
前記技術情報入力手段が、キーワードやIPCなどの技術情報を入力する機能と、
前記クラスタ分解手段が、第1の技術文献群及び第2の技術文献群に含まれる技術文献について、前記入力した技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解する機能と、
前記類似率算出手段が、前記クラスタ分解した結果得られた全クラスタ数と、第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに、前記クラスタ分解した結果得られた混在クラスタに含まれる第1の技術文献群及び第2の技術文献群の技術文献数の確率に応じて補正するために第1の技術文献群の中からm個、第2の技術文献群の中からn個の技術文献を取り出す確率のγ乗(但し、0<γ)に比例した補正値を各混在クラスタについて総和を算出し、前記算出した全クラスタ数で除算して類似率を算出する機能と
前記出力手段が、前記算出した類似率を記録手段、表示手段、又は通信手段に出力する機能と、
を実現させることを特徴とする類似率算出プログラム。 - 技術文献群を入力する技術文献群入力手段と、キーワードなどの技術情報を入力する技術情報入力手段と、技術情報群を技術情報毎にクラスタ分解するクラスタ分解手段と、全クラスタ数と混在クラスタ数とを算出して類似率を算出する類似率算出手段と、算出した類似率を出力する出力手段と、前記技術文献群入力手段と技術情報入力手段とクラスタ分解手段と類似率算出手段と出力手段とを制御をすることが可能な情報処理手段とを備えた類似率算出装置の情報処理手段にて動作し、技術文献群同士の技術的な類似性を判断するための指標を算出する類似率算出プログラムであって、
前記情報処理手段に、
前記技術文献群入力手段が、比較対象となる第1の技術文献群及び第2の技術文献群を入力する機能と、
前記技術情報入力手段が、キーワードやIPCなどの技術情報を入力する機能と、
前記クラスタ分解手段が、第1の技術文献群及び第2の技術文献群に含まれる技術文献について、前記入力した技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解する機能と、
前記類似率算出手段が、前記クラスタ分解した結果得られた全クラスタ数と、第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに、前記クラスタ分解した結果得られた混在クラスタに含まれる第1の技術文献群及び第2の技術文献群の技術文献数の確率に応じて補正するために、第1の技術文献群の中からm個、第2の技術文献群の中からn個の技術文献を取り出す確率のγ乗(但し、0<γ)を規格化因子で除算した補正値を各混在クラスタについて総和を算出し、前記算出した全クラスタ数で除算して類似率を算出する機能と、
前記出力手段が、前記算出した類似率を記録手段、表示手段、又は通信手段に出力する機能と、
を実現させることを特徴とする類似率算出プログラム。 - 請求の範囲18に記載の類似率算出プログラムにおいて、
前記情報処理手段に、
前記類似率算出手段が、前記規格化因子として、第1の技術文献群の中からm個、第2の技術文献群の中からn個の技術文献を取り出す確率の最大値のγ乗(但し、0<γ)を用いる機能を実現させることを特徴とする類似率算出プログラム。 - 技術文献群を入力する技術文献群入力手段を、キーワードなどの技術情報を入力する技術情報入力手段と、技術情報群を技術情報毎にクラスタ分解するクラスタ分解手段と、全クラスタ数と混在クラスタ数とを算出して類似率を算出する類似率算出手段と、算出した類似率を出力する出力手段と、前記技術文献群入力手段と技術情報入力手段とクラスタ分解手段と類似率算出手段と出力手段とを制御をすることが可能な情報処理手段とを備えた類似率算出装置の情報処理手段にて動作し、技術文献群同士の技術的な類似性を判断するための指標を算出する類似率算出プログラムであって、
前記情報処理手段に、
前記技術文献群入力手段が、比較対象となる第1の技術文献群及び第2の技術文献群を入力する機能と、
前記技術情報入力手段が、キーワードやIPCなどの技術情報を入力する機能と、
前記クラスタ分解手段が、第1の技術文献群及び第2の技術文献群に含まれる技術文献について、前記入力した技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解する機能と、
前記類似率算出手段が、前記クラスタ分解した結果得られた全クラスタ数と、第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに、第1の技術文献群に含まれる技術文献数Mと第2の技術文献群に含まれる技術文献数Nとの構成比、N/Mと、前記クラスタ分解した結果得られた混在クラスタに含まれる第1の技術文献群の技術文献数mと第2の技術文献群の技術文献数nの混在比、n/mとについて、更に構成比と混在比との比を取ったもののζ乗(但し、0<ζ)に比例した補正値を各混在クラスタについて総和を算出し、前記算出した全クラスタ数で除算して類似率を算出する機能と、
前記出力手段が、前記算出した類似率を記録手段、表示手段、又は通信手段に出力する機能と、
を実現させることを特徴とする類似率算出プログブム。 - 技術文献群を入力する技術文献群入力手段と、キーワードなどの技術情報を入力する技術情報入力手段と、技術情報群を技術情報毎にクラスタ分解するクラスタ分解手段と、全クラスタ数と混在クラスタ数とを算出して類似率を算出する類似率算出手段と、算出した類似率を出力する出力手段と、前記技術文献群入力手段と技術情報入力手段とクラスタ分解手段と類似率算出手段と出力手段とを制御をすることが可能な情報処理手段とを備えた類似率算出装置の情報処理手段にて動作し、技術文献群同士の技術的な類似性を判断するための指標を算出する類似率算出プログラムであって、
前記情報処理手段に、
前記技術文献群入力手段が、比較対象となる第1の技術文献群及び第2の技術文献群を入力する機能と、
前記技術情報入力手段が、キーワードやIPCなどの技術情報を入力する機能と、
前記クラスタ分解手段が、第1の技術文献群及び第2の技術文献群に含まれる技術文献について、前記入力した技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解する機能と、
前記類似率算出手段が、前記クラスタ分解した結果得られた全クラスタ数と、第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに、
第1の技術文献群と第2の技術文献群とを混合した技術文献群の中から、第1の技術文献群の技術文献を取り出す確率に、前記クラスタ分解した混在クラスタに含まれる技術文献数を乗算して第1の技術文献群の技術文献を取り出す期待値を算出し、
前記期待値と混合クラスタに含まれる第1の技術文献群の技術文献数との差を期待値差として算出し、
その期待値差を任意定数ξ(但し、1<ξ)の負の指数とした補正値を各混在クラスタについて総和を算出し、前記算出した全クラスタ数で除算して類似率を算出する機能と、
前記出力手段が、前記算出した類似率を記録手段、表示手段、又は通信手段に出力する機能と、
を実現させることを特徴とする類似率算出プログラム。 - 技術文献群を入力する技術文献群入力手段と、キーワードなどの技術情報を入力する技術情報入力手段と、技術情報群を技術情報毎にクラスタ分解するクラスタ分解手段と、全クラスタ数と混在クラスタ数とを算出して類似率を算出する類似率算出手段と、算出した類似率を出力する出力手段と、前記技術文献群入力手段と技術情報入力手段とクラスタ分解手段と類似率算出手段と出力手段とを制御をすることが可能な情報処理手段とを備えた類似率算出装置の情報処理手段にて動作し、技術文献群同士の技術的な類似性を判断するための指標を算出する類似率算出プログラムであって、
前記情報処理手段に、
前記技術文献群入力手段が、比較対象となる第1の技術文献群及び第2の技術文献群を入力する機能と、
前記技術情報入力手段が、キーワードやIPCなどの技術情報を入力する機能と、
前記クラスタ分解手段が、第1の技術文献群及び第2の技術文献群に含まれる技術文献について、前記入力した技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解する機能と、
前記類似率算出手段が、前記クラスタ分解した結果得られた全クラスタ数と、第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに、
第1の技術文献群と第2の技術文献群とを混合した技術文献群の中から、第1の技術文献群の技術文献を取り出す確率に、前記クラスタ分解した混在クラスタに含まれる技術文献数を乗算して第1の技術文献群の技術文献を取り出す期待値を算出し、
前記期待値と混合クラスタに含まれる第1の技術文献群の技術文献数との差を期待値差として算出し、
その期待値差を混在クラスタに含まれる技術文献数で除算したものを、任意定数ξ(但し、1<ξ)の負の指数とした補正値とし、これを各混在クラスタについて総和を算出し、更に前記算出した全クラスタ数で除算して類似率を算出する機能と、
前記出力手段が、前記算出した類似率を記録手段、表示手段、又は通信手段に出力する機能と、
を実現させることを特徴とする類似率算出プログラム。 - 技術文献群を入力する技術文献群入力手段と、キーワードなどの技術情報を入力する技術情報入力手段と、技術情報群を技術情報毎にクラスタ分解するクラスタ分解手段と、全クラスタ数と混在クラスタ数とを算出して類似率を算出する類似率算出手段と、算出した類似率を出力する出力手段とを備えた類似率算出装置を用いて、技術文献群同士の技術的な類似性を判断するための指標を算出する類似率算出方法であって、
技術文献群入力手段が、比較対象となる第1の技術文献群及び第2の技術文献群を入力する工程と、
技術情報入力手段が、キーワードやIPCなどの技術情報を入力する工程と、
クラスタ分解手段が、第1の技術文献群及び第2の技術文献群に含まれる技術文献について、前記入力した技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解する工程と、
類似率算出手段が、前記クラスタ分解した結果得られた全クラスタ数と第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに、前記クラスタ分解した結果得られた全クラスタ数と第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数との比を類似率として算出する工程と、
出力手段が、前記算出した類似率を記録手段、表示手段、又は通信手段に出力する工程と、
を含むことを特徴とする類似率算出方法。 - 技術文献群を入力する技術文献群入力手段と、キーワードなどの技術情報を入力する技術情報入力手段と、技術情報群を技術情報毎にクラスタ分解するクラスタ分解手段と、全クラスタ数と混在クラスタ数とを算出して類似率を算出する類似率算出手段と、算出した類似率を出力する出力手段とを備えた類似率算出装置を用いて、技術文献群同士の技術的な類似性を判断するための指標を算出する類似率算出方法であって、
技術文献群入力手段が、比較対象となる第1の技術文献群及び第2の技術文献群を入力する工程と、
技術情報入力手段が、キーワードやIPCなどの技術情報を入力する工程と、
クラスタ分解手段が、第1の技術文献群及び第2の技術文献群に含まれる技術文献について、前記入力した技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解する工程と、
類似率算出手段が、前記クラスタ分解した結果得られた全クラスタ数と、第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに、各混在クラスタに含まれる技術文献の量に応じた値を取る第1の補正値と、各混在クラスタに含まれる第1の技術文献群の技術文献と第2の技術文献群の技術文献との混ざり具合に応じた値を取る第2の補正値とを乗算したものを各混在クラスタについて総和を算出し、前記算出した全クラスタ数で除算して類似率を算出する工程と、
出力手段が、前記算出した類似率を記録手段、表示手段、又は通信手段に出力する工程と、
を含むことを特徴とする類似率算出方法。 - 技術文献群を入力する技術文献群入力手段と、キーワードなどの技術情報を入力する技術情報入力手段と、技術情報群を技術情報毎にクラスタ分解するクラスタ分解手段と、全クラスタ数と混在クラスタ数とを算出して類似率を算出する類似率算出手段と、算出した類似率を出力する出力手段とを備えた類似率算出装置を用いて、技術文献群同士の技術的な類似性を判断するための指標を算出する類似率算出方法であって、
技術文献群入力手段が、比較対象となる第1の技術文献群及び第2の技術文献群を入力する工程と、
技術情報入力手段が、キーワードやIPCなどの技術情報を入力する工程と、
クラスタ分解手段が、第1の技術文献群及び第2の技術文献群に含まれる技術文献について、前記入力した技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解する工程と、
類似率算出手段が、前記クラスタ分解した結果得られた全クラスタ数と第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに、個々のクラスタ内の技術文献数のα乗(但し、0<α)に比例した補正値を各混在クラスタについて総和を算出し、前記算出した全クラスタ数で除算して類似率を算出する工程と、
出力手段が、前記算出した類似率を記録手段、表示手段、又は通信手段に出力する工程と、
を含むことを特徴とする類似率算出方法。 - 技術文献群を入力する技術文献群入力手段と、キーワードなどの技術情報を入力する技術情報入力手段と、技術情報群を技術情報毎にクラスタ分解するクラスタ分解手段と、全クラスタ数と混在クラスタ数とを算出して類似率を算出する類似率算出手段と、算出した類似率を出力する出力手段とを備えた類似率算出装置を用いて、技術文献群同士の技術的な類似性を判断するための指標を算出する類似率算出方法であって、
技術文献群入力手段が、比較対象となる第1の技術文献群及び第2の技術文献群を入力する工程と、
技術情報入力手段が、キーワードやIPCなどの技術情報を入力する工程と、
クラスタ分解手段が、第1の技術文献群及び第2の技術文献群に含まれる技術文献について、前記入力した技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解する工程と、
類似率算出手段が、前記クラスタ分解した結果得られた全クラスタ数と、第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに、個々のクラスタ内の技術文献数のα乗(但し、0<α)を規格化因子で除算した補正値を各混在クラスタについて総和を算出し、類似率を算出する工程と、
出力手段が、前記算出した類似率を記録手段、表示手段、又は通信手段に出力する工程と、
を含むことを特徴とする類似率算出方法。 - 請求の範囲26に記載の類似率算出方法において、
前記類似率算出手段が、規格化因子として、全クラスタ内の技術文献数の平均値を用いる工程を含むことを特徴とする類似率算出方法。 - 技術文献群を入力する技術文献群入力手段と、キーワードなどの技術情報を入力する技術情報入力手段と、技術情報群を技術情報毎にクラスタ分解するクラスタ分解手段と、全クラスタ数と混在クラスタ数とを算出して類似率を算出する類似率算出手段と、算出した類似率を出力する出力手段とを備えた類似率算出装置を用いて、技術文献群同士の技術的な類似性を判断するための指標を算出する類似率算出方法であって、
技術文献群入力手段が、比較対象となる第1の技術文献群及び第2の技術文献群を入力する工程と、
技術情報入力手段が、キーワードやIPCなどの技術情報を入力する工程と、
クラスタ分解手段が、第1の技術文献群及び第2の技術文献群に含まれる技術文献について、前記入力した技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解する工程と、
類似率算出手段が、前記クラスタ分解した結果得られた全クラスタ数と、第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに、前記クラスタ分解した結果得られた混在クラスタに含まれる第1の技術文献群及び第2の技術文献群の技術文献数の確率に応じて補正するために第1の技術文献群の中からm個、第2の技術文献群の中からn個の技術文献を取り出す確率のγ乗(但し、0<γ)に比例した補正値を各混在クラスタについて、総和を算出し、前記算出した全クラスタ数で除算して類似率を算出する工程と、
出力手段が、前記算出した類似率を記録手段、表示手段、又は通信手段に出力する工程と、
を含むことを特徴とする類似率算出方法。 - 技術文献群を入力する技術文献群入力手段と、キーワードなどの技術情報を入力する技術情報入力手段と、技術情報群を技術情報毎にクラスタ分解するクラスタ分解手段と、全クラスタ数と混在クラスタ数とを算出して類似率を算出する類似率算出手段と、算出した類似率を出力する出力手段とを備えた類似率算出装置を用いて、技術文献群同士の技術的な類似性を判断するための指標を算出する類似率算出方法であって、
技術文献群入力手段が、比較対象となる第1の技術文献群及び第2の技術文献群を入力する工程と、
技術情報入力手段が、キーワードやIPCなどの技術情報を入力する工程と、
クラスタ分解手段が、第1の技術文献群及び第2の技術文献群に含まれる技術文献について、前記入力した技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解する工程と、
類似率算出手段が、前記クラスタ分解した結果得られた全クラスタ数と、第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに、前記クラスタ分解した結果得られた混在クラスタに含まれる第1の技術文献群及び第2の技術文献群の技術文献数の確率に応じて補正するために、第1の技術文献群の中からm個、第2の技術文献群の中からn個の技術文献を取り出す確率のγ乗(但し、0<γ)を規格化因子で除算した補正値を各混在クラスタについて総和を算出し、前記算出した全クラスタ数で除算して類似率を算出する工程と、
出力手段が、前記算出した類似率を記録手段、表示手段、又は通信手段に出力する工程と、
を含むことを特徴とする類似率算出方法。 - 請求の範囲29に記載の類似率算出方怯において、
前記類似率算出手段が、規格化因子として、第1の技術文献群の中からm個、第2の技術文献群の中からn個の技術文献を取り出す確率の最大値のγ乗(但し、0<γ)を用いる工程を含むことを特徴とする類似率算出方法。 - 技術文献群を入力する技術文献群入力手段と、キーワードなどの技術情報を入力する技術情報入力手段と、技術情報群を技術情報毎にクラスタ分解するクラスタ分解手段と、全クラスタ数と混在クラスタ数とを算出して類似率を算出する類似率算出手段と、算出した類似率を出力する出力手段とを備えた類似率算出装置を用いて、技術文献群同士の技術的な類似性を判断するための指標を算出する類似率算出方法であって、
技術文献群入力手段が、比較対象となる第1の技術文献群及び第2の技術文献群を入力する工程と、
技術情報入力手段が、キーワードやIPCなどの技術情報を入力する工程と、
クラスタ分解手段が、第1の技術文献群及び第2の技術文献群に含まれる技術文献について、前記入力した技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解する工程と、
類似率算出手段が、前記クラスタ分解した結果得られた全クラスタ数と、第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに、第1の技術文献群に含まれる技術文献数Mと第2の技術文献群に含まれる技術文献数Nとの構成比、N/Mと、前記クラスタ分解した結果得られた混在クラスタに含まれる第1の技術文献群の技術文献数mと第2の技術文献群の技術文献数nの混在比、n/mとについて、更に構成比と混在比との比を取ったもののζ乗(但し、0<ζ)に比例した補正値を各混在クラスタについて総和を算出し、前記算出した全クラスタ数で除算して類似率を算出する工程と、
出力手段が、前記算出した類似率を記録手段、表示手段、又は、通信手段に出力する工程と、
を含むことを特徴とする類似率算出方法。 - 技術文献群を入力する技術文献群入力手段と、キーワードなどの技術情報を入力する技術情報入力手段と、技術情報群を技術情報毎にクラスタ分解するクラスタ分解手段と、全クラスタ数と混在クラスタ数とを算出して類似率を算出する類似率算出手段と、算出した類似率を出力する出力手段とを備えた類似率算出装置を用いて、技術文献群同士の技術的な類似性を判断するための指標を算出する類似率算出方法であって、
技術文献群入力手段が、比較対象となる第1の技術文献群及び第2の技術文献群を入力する工程と、
技術情報入力手段が、キーワードやIPCなどの技術情報を入力する工程と、
クラスタ分解手段が、第1の技術文献群及び第2の技術文献群に含まれる技術文献について、前記入力した技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解する工程と、
類似率算出手段が、前記クラスタ分解した結果得られた全クラスタ数と、第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに、
第1の技術文献群と第2の技術文献群とを混合した技術文献群の中から、第1の技術文献群の技術文献を取り出す確率に、前記クラスタ分解した混在クラスタに含まれる技術文献数を乗算して第1の技術文献群の技術文献を取り出す期待値を算出し、
期待値と混合クラスタに含まれる第1の技術文献群の技術文献数との差を期待値差として算出し、
その期待値差を任意定数ξ(但し、1<ξ)の負の指数とした補正値を各混在クラスタについて総和を算出し、前記算出した全クラスタ数で除算して類似率を算出する工程と、
出力手段が、前記算出した類似率を記録手段、表示手段、又は通信手段に出力する工程と、
を含むことを特徴とする類似率算出方法。 - 技術文献群を入力する技術文献群入力手段と、キーワードなどの技術情報を入力する技術情報入力手段と、技術情報群を技術情報毎にクラスタ分解するクラスタ分解手段と、全クラスタ数と混在クラスタ数とを算出して類似率を算出する類似率算出手段と、算出した類似率を出力する出力手段とを備えた類似率算出装置を用いて、技術文献群同士の技術的な類似性を判断するための指標を算出する類似率算出方法であって、
技術文献群入力手段が、比較対象となる第1の技術文献群及び第2の技術文献群を入力する工程と、
技術情報入力手段が、キーワードやIPCなどの技術情報を入力する工程と、
クラスタ分解手段が、第1の技術文献群及び第2の技術文献群に含まれる技術文献について、前記入力した技術情報を含む技術文献を検索して、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解する工程と、
類似率算出手段が、前記クラスタ分解した結果得られた全クラスタ数と、第1の技術文献群及び第2の技術文献群の双方の技術文献を含む混在クラスタ数を算出するとともに、
第1の技術文献群と第2の技術文献群とを混合した技術文献群の中から、第1の技術文献群の技術文献を取り出す確率に、前記クラスタ分解した混在クラスタに含まれる技術文献数を乗算して第1の技術文献群の技術文献を取り出す期待値を算出し、
期待値と混合クラスタに含まれる第1の技術文献群の技術文献数との差を期待値差として算出し、
その期待値差を混在クラスタに含まれる技術文献数で除算したものを、任意定数ξ(但し、1<ξ)の負の指数とした補正値とし、これを各混在クラスタについて総和を算出し、更に前記算出した全クラスタ数で除算して類似率を算出する工程と、
出力手段が、前記算出した類似率を記録手段、表示手段、又は通信手段に出力する工程と、
を含むことを特徴とする類似率算出方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003341904 | 2003-09-30 | ||
JP2003341904 | 2003-09-30 | ||
PCT/JP2004/004451 WO2005033972A1 (ja) | 2003-09-30 | 2004-03-29 | 類似率算出装置並びに類似率算出プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2005033972A1 true JPWO2005033972A1 (ja) | 2006-12-14 |
Family
ID=34419250
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005514348A Withdrawn JPWO2005033972A1 (ja) | 2003-09-30 | 2004-03-29 | 類似率算出装置並びに類似率算出プログラム |
Country Status (10)
Country | Link |
---|---|
US (1) | US20060294060A1 (ja) |
EP (1) | EP1669889A4 (ja) |
JP (1) | JPWO2005033972A1 (ja) |
KR (1) | KR20060079792A (ja) |
CN (1) | CN1856788A (ja) |
AU (1) | AU2004277629A1 (ja) |
BR (1) | BRPI0415148A (ja) |
CA (1) | CA2540661A1 (ja) |
RU (1) | RU2344474C2 (ja) |
WO (1) | WO2005033972A1 (ja) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070192161A1 (en) * | 2005-12-28 | 2007-08-16 | International Business Machines Corporation | On-demand customer satisfaction measurement |
KR100816912B1 (ko) * | 2006-04-13 | 2008-03-26 | 엘지전자 주식회사 | 문서검색 시스템 및 그 방법 |
US8661029B1 (en) * | 2006-11-02 | 2014-02-25 | Google Inc. | Modifying search result ranking based on implicit user feedback |
KR100834292B1 (ko) * | 2006-11-06 | 2008-05-30 | 엔에이치엔(주) | 문서 처리 방법 및 시스템 |
US20100287177A1 (en) * | 2009-05-06 | 2010-11-11 | Foundationip, Llc | Method, System, and Apparatus for Searching an Electronic Document Collection |
US20100287148A1 (en) * | 2009-05-08 | 2010-11-11 | Cpa Global Patent Research Limited | Method, System, and Apparatus for Targeted Searching of Multi-Sectional Documents within an Electronic Document Collection |
US8498974B1 (en) | 2009-08-31 | 2013-07-30 | Google Inc. | Refining search results |
US8364679B2 (en) * | 2009-09-17 | 2013-01-29 | Cpa Global Patent Research Limited | Method, system, and apparatus for delivering query results from an electronic document collection |
US20110082839A1 (en) * | 2009-10-02 | 2011-04-07 | Foundationip, Llc | Generating intellectual property intelligence using a patent search engine |
US8972391B1 (en) | 2009-10-02 | 2015-03-03 | Google Inc. | Recent interest based relevance scoring |
US20110119250A1 (en) * | 2009-11-16 | 2011-05-19 | Cpa Global Patent Research Limited | Forward Progress Search Platform |
US9110971B2 (en) * | 2010-02-03 | 2015-08-18 | Thomson Reuters Global Resources | Method and system for ranking intellectual property documents using claim analysis |
US9623119B1 (en) | 2010-06-29 | 2017-04-18 | Google Inc. | Accentuating search results |
US9026536B2 (en) * | 2010-10-17 | 2015-05-05 | Canon Kabushiki Kaisha | Systems and methods for cluster comparison |
WO2012060532A1 (ko) * | 2010-11-02 | 2012-05-10 | (주)광개토연구소 | 특허 평가 모델 생성 방법, 특허 평가 방법, 특허 분쟁 예측 모델 생성 방법, 특허 분쟁 예측 정보 생성 방법, 특허 라이센싱 예측 정보 생성 방법, 특허 리스크 헤징 정보 생성 방법 및 시스템 |
KR101255181B1 (ko) * | 2011-03-23 | 2013-04-16 | 강민수 | 특허 분쟁 예측 모델 생성 방법, 그 방법을 실시하는 시스템 및 그 방법이 기록된 기록 매체 |
JP5742506B2 (ja) * | 2011-06-27 | 2015-07-01 | 日本電気株式会社 | 文書類似度算出装置 |
RU2469389C1 (ru) * | 2011-11-08 | 2012-12-10 | Учреждение Российской академии наук Институт системного программирования РАН | Способ интеграции профилей пользователей онлайновых социальных сетей |
US20130159346A1 (en) * | 2011-12-15 | 2013-06-20 | Kas Kasravi | Combinatorial document matching |
CN103514172A (zh) * | 2012-06-20 | 2014-01-15 | 同程网络科技股份有限公司 | 设置搜索引擎关键词的下词方法 |
KR102017746B1 (ko) | 2012-11-14 | 2019-09-04 | 한국전자통신연구원 | 유사도 산출 방법 및 그 장치 |
KR20140078969A (ko) * | 2012-12-18 | 2014-06-26 | (주)광개토연구소 | 특허 괴물 정보를 포함하는 특허 정보 제공 방법 및 그 특허 정보 시스템 |
RU2573951C2 (ru) * | 2013-12-17 | 2016-01-27 | Сергей Анатольевич Головин | Устройство формирования информационно-методических ресурсов кафедры |
WO2016170561A1 (en) * | 2015-04-24 | 2016-10-27 | Nec Corporation | An information processing system and an information processing method for semantic enrichment of text |
KR101724302B1 (ko) * | 2016-10-04 | 2017-04-10 | 한국과학기술정보연구원 | 특허분쟁예보장치 및 그 방법 |
EP3333728A1 (en) * | 2016-12-12 | 2018-06-13 | Tata Consultancy Services Limited | System and method for analyzing research literature for strategic decision making of an entity |
RU2696295C1 (ru) * | 2018-10-31 | 2019-08-01 | Алексей Викторович Морозов | Способ формирования и структурирования электронной базы данных |
CN110826595A (zh) * | 2019-09-29 | 2020-02-21 | 广东美的白色家电技术创新中心有限公司 | 菜谱比较方法、装置及计算机存储介质 |
CN111353301B (zh) * | 2020-02-24 | 2023-07-21 | 成都网安科技发展有限公司 | 辅助定密方法及装置 |
KR102221355B1 (ko) * | 2020-07-27 | 2021-03-02 | 한국과학기술정보연구원 | 유사 특허 분류방법 및 유사 특허 분류시스템 |
CN112632954A (zh) * | 2020-12-29 | 2021-04-09 | 中译语通科技股份有限公司 | 获取机构技术相似性的方法及装置 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5317507A (en) * | 1990-11-07 | 1994-05-31 | Gallant Stephen I | Method for document retrieval and for word sense disambiguation using neural networks |
US6154725A (en) * | 1993-12-06 | 2000-11-28 | Donner; Irah H. | Intellectual property (IP) computer-implemented audit system optionally over network architecture, and computer program product for same |
JPH08278982A (ja) | 1995-04-05 | 1996-10-22 | Fuji Electric Co Ltd | 類似語または類似文章の検索方法 |
JPH08287081A (ja) | 1995-04-19 | 1996-11-01 | Fuji Xerox Co Ltd | 類似度付きデータ検索装置 |
US5787420A (en) * | 1995-12-14 | 1998-07-28 | Xerox Corporation | Method of ordering document clusters without requiring knowledge of user interests |
JP3019780B2 (ja) | 1996-08-30 | 2000-03-13 | 松下電器産業株式会社 | 類似名称検索装置 |
JPH1173415A (ja) | 1997-08-27 | 1999-03-16 | Toshiba Corp | 類似文書検索装置及び類似文書検索方法 |
JP2001331527A (ja) | 2000-05-24 | 2001-11-30 | Hitachi Ltd | 類似文書検索方法 |
JP2001337992A (ja) | 2000-05-29 | 2001-12-07 | Mitsubishi Electric Corp | 類似検索システム及び類似検索方法 |
KR100426382B1 (ko) * | 2000-08-23 | 2004-04-08 | 학교법인 김포대학 | 엔트로피 정보와 베이지안 에스오엠을 이용한 문서군집기반의 순위조정 방법 |
US20020161626A1 (en) * | 2001-04-27 | 2002-10-31 | Pierre Plante | Web-assistant based e-marketing method and system |
-
2004
- 2004-03-29 CA CA002540661A patent/CA2540661A1/en not_active Abandoned
- 2004-03-29 US US10/573,778 patent/US20060294060A1/en not_active Abandoned
- 2004-03-29 EP EP04724188A patent/EP1669889A4/en not_active Withdrawn
- 2004-03-29 AU AU2004277629A patent/AU2004277629A1/en not_active Abandoned
- 2004-03-29 WO PCT/JP2004/004451 patent/WO2005033972A1/ja active Search and Examination
- 2004-03-29 JP JP2005514348A patent/JPWO2005033972A1/ja not_active Withdrawn
- 2004-03-29 BR BRPI0415148-8A patent/BRPI0415148A/pt not_active IP Right Cessation
- 2004-03-29 RU RU2006114689/09A patent/RU2344474C2/ru not_active IP Right Cessation
- 2004-03-29 KR KR1020067002688A patent/KR20060079792A/ko not_active Application Discontinuation
- 2004-03-29 CN CNA2004800272246A patent/CN1856788A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
RU2344474C2 (ru) | 2009-01-20 |
AU2004277629A1 (en) | 2005-04-14 |
CN1856788A (zh) | 2006-11-01 |
US20060294060A1 (en) | 2006-12-28 |
WO2005033972A1 (ja) | 2005-04-14 |
KR20060079792A (ko) | 2006-07-06 |
EP1669889A1 (en) | 2006-06-14 |
EP1669889A4 (en) | 2007-10-31 |
RU2006114689A (ru) | 2007-11-20 |
CA2540661A1 (en) | 2005-04-14 |
BRPI0415148A (pt) | 2006-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPWO2005033972A1 (ja) | 類似率算出装置並びに類似率算出プログラム | |
KR100744703B1 (ko) | 기술평가장치, 기술평가프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체, 기술평가방법 | |
US11887201B2 (en) | Analysis of intellectual-property data in relation to products and services | |
Li et al. | Stock price prediction incorporating market style clustering | |
Martins et al. | An MCDM project portfolio web-based DSS for sustainable strategic decision making in an electricity company | |
Amoozad Mahdiraji et al. | Business process transformation in financial market: A hybrid BPM‐ELECTRE TRI for redesigning a securities company in the Iranian stock market | |
Fortino | Data mining and predictive analytics for business decisions: a case study approach | |
Joshi et al. | Forecasting in service supply chain systems: A state-of-the-art review using latent semantic analysis | |
CN114303140A (zh) | 与产品和服务相关的知识产权数据分析 | |
Bodendorf et al. | Business analytics in strategic purchasing: Identifying and evaluating similarities in supplier documents | |
JP6997842B2 (ja) | 記事生成システム、記事生成装置、記事生成方法、及びコンピュータプログラム | |
Wisniewski et al. | Critical Path Analysis and Linear Programming | |
JPWO2004061714A1 (ja) | 技術評価装置、技術評価プログラム、技術評価方法 | |
Chi et al. | Financial risk assessment of photovoltaic industry listed companies based on text mining | |
CN111241399A (zh) | 一种上市公司关注度的评估方法 | |
JP7473718B2 (ja) | 記事生成システム、記事生成装置、記事生成方法、及びコンピュータプログラム | |
JP7297042B2 (ja) | 記事生成システム、記事生成装置、記事生成方法、及びコンピュータプログラム | |
Scherrmann | Multi-label topic model for financial textual data | |
US20230342693A1 (en) | Methods and apparatus for natural language processing and governance | |
US20240221098A1 (en) | Analysis Of Intellectual-Property Data In Relation To Products And Services | |
Zhang et al. | Text Mining for US Pension De-Risking Analysis | |
JP6767953B2 (ja) | 記事生成システム、記事生成装置、記事生成方法、及びコンピュータプログラム | |
Uekado et al. | Classification of CSR Using Latent Dirichlet Allocation and Analysis of the Relationship Between CSR and Corporate Value | |
Yen et al. | A Topic Modeling-Based Review of Digital Transformation Literature in Accounting | |
JP2024086878A (ja) | 記事生成システム、記事生成装置、記事生成方法、及びコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070309 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20090707 |