WO2007069408A1

WO2007069408A1 - 技術文書属性の関連性分析支援装置

Info

Publication number: WO2007069408A1
Application number: PCT/JP2006/321958
Authority: WO
Inventors: Hiroaki Masuyama; Makoto Asada; Kazumi Hasuko
Original assignee: Intellectual Property Bank Corp.
Priority date: 2005-12-13
Filing date: 2006-11-02
Publication date: 2007-06-21
Also published as: JPWO2007069663A1; US20090138465A1; KR20080086430A

Abstract

属性Ｘと属性Ｙとを有する技術文書を複数含んだ技術文書群のデータを取得し、属性Ｘと属性Ｙとの組合せのそれぞれに属する技術文書のデータに応じたスコアを算出する。属性Ｘを横軸に、属性Ｙを縦軸にとって上記スコアをマトリクス状に配置したときの、当該マトリクス状の配置における各列に属する上記スコアに基づき、ベクトル群Ｘｊを生成し、各行に属する上記スコアに基づき、ベクトル群Ｙｋを生成する。ベクトル群Ｘｊ及びＹｋのそれぞれについて、関連性の高いベクトル同士をより近くに配置する。これにより、技術文書の第１の属性Ｘに対応する第１のベクトル群の相互の関連性と、第２の属性Ｙに対応する第２のベクトル群の相互の関連性とを詳細に分析し、その上で第１の属性Ｘと第２の属性Ｙとを併せ考慮した検討を行うことができるようにする。

Description

明細書

技術文書属性の関連性分析支援装置

技術分野

[0001] 本発明は、技術文書群における文書属性の関連性を分析する分析支援装置、支援方法及び支援プログラムに関する。

背景技術

[0002] 企業が自社の研究開発組織にお!、て開発してきた技術開発成果や、その技術資産ポートフォリオの現状を自身で把握し、今後の開発方向性の客観的な指針を持つことは容易ではない。企業の開発方向性の客観的な指針を得るための方策として、自社及び他社の技術文書群カゝら得られるデータを収集分析することは有効な手段と考えられるが、膨大な技術文書群力も有用な情報を抽出することには相当な困難が伴う。

[0003] 従来、膨大なデータの中からそこに埋もれた情報を発掘する試みとして、例えば X ( j = l, 2, ···, p)及び Y (k=l, 2, ···, q)という二種類の項目を横軸及び縦軸に

k

配置し、これらの項目の組合せごとの集計結果を表にしたクロス表を分析するものがある。

[0004] 例えば次の文献に記載された双対尺度法 (Dual Scaling)は、このようなクロス表の横軸の項目 X(表頭)及び縦軸の項目 Y (表側）にそれぞれ尺度 X(j = l, 2, ···, p

j k j

)及び尺度 Y (k=l, 2, ···, q)を与え、クロス表に隠された傾向を見つけようとする

k

ものである。この文献では、尺度 X及び尺度 Yの具体的数値を算出するために、 p次

j k

元ベクトル X= (X , X , ···, X)と q次元ベクトル Υ= (Υ , Υ , ···, Υ)との相関係

1 2 ρ 1 2 q

数の自乗ができるだけ 1に近くなるようにベクトル Xと Yの成分を求めて、る。

非特許文献 1:上田太一郎他著「実践ワークショップ Excel徹底活用多変量解析

」株式会社秀和システム， 2003年 9月 5日発行， 323〜337頁

発明の開示

発明が解決しょうとする課題

[0005] しかし、上記の双対尺度法やその他従来の手法では、クロス表の縦軸の項目 X (j = 1, 2, · · · , p)相互の関係や、横軸の項目 Y (k= l, 2, · · · , q)相互の関係を十

k

分に分析するものではないから、 Xと Yとを併せ考慮した検討を十分に行うことがで

j k

きない。上記の双対尺度法は、 Xと Yとにそれぞれ尺度を与えているが、そこから得

j k

られる情報は限られたものでしかない。この手法を用いても、技術文書群における文書属性の関連性を十分に分析することはできない。従って、企業の技術開発の方向性に対する客観的な指針を得るための判断基準とすることはできない。

[0006] 本発明の課題は、技術文書の第 1の属性 Xに対応する第 1のベクトル群の相互の関連性と、第 2の属性 Yに対応する第 2のベクトル群の相互の関連性とを詳細に分析し、その上で第 1の属性 Xと第 2の属性 Yとを併せ考慮した検討を行うことで、技術文書群における文書属性のデータ分布の集中や分散の状態を識別し、企業の技術開発の方向性に対する判断基準を示すことができる技術文書属性の関連性分析支援装置、支援方法及び支援プログラムを提供することである。

課題を解決するための手段

[0007] (1)上記の課題を解決するため、本発明の技術文書属性の関連性分析支援装置は、

少なくとも 2種類の属性をそれぞれ有する技術文書を複数含んだ技術文書群のデータを取得するデータ取得手段と、

前記少なくとも 2種類の属性のうち第 1の属性 Xと第 2の属性 Yとの組合せのそれぞれに属する技術文書のデータに応じたスコアを算出するスコア算出手段と、前記第 1の属性 Xを横軸に、前記第 2の属性 Yを縦軸にとって前記スコアをマトリクス状に配置したときの、当該マトリクス状の配置における各列に属する前記スコアに基づきベクトルを生成する第 1ベクトル群生成手段と、

前記第 1ベクトル群生成手段により生成されたベクトル群について、相互の関連性を算出する第 1べ外ル関連性算出手段と、

前記第 1ベクトル群生成手段により生成されたベクトル群について、前記関連性の高、ベクトル同士をより近くに配置する第 1ベクトル配置手段と、

前記マトリクス状の配置における各行に属する前記スコアに基づきベクトルを生成する第 2ベクトル群生成手段と、前記第 2ベクトル群生成手段により生成されたベクトル群について、相互の関連性を算出する第 2べ外ル関連性算出手段と、

前記第 2ベクトル群生成手段により生成されたベクトル群について、前記関連性の高、ベクトル同士をより近くに配置する第 2ベクトル配置手段と、を備えて、る。

[0008] これによれば、第 1の属性 X(マトリクス状に配置したスコアの各列）にそれぞれ対応するベクトル相互の関連性を算出して第 2の属性 Yの分布が似ているベクトル同士をより近くに配置し、第 2の属性 Y (マトリクス状に配置したスコアの各行）にそれぞれ対応するベクトル相互の関連性を算出して第 1の属性 Xの分布が似ているベクトル同士をより近くに配置することになる。従って、第 1の属性 Xに対応するベクトル相互の関連性と、第 2の属性 Yに対応するベクトル相互の関連性とを詳細に分析し、その上で第 1の属性 Xと第 2の属性 Yとを併せ考慮した検討を行うことで、技術文書群における文書属性のデータ分布の集中や分散の状態を識別することができる。

[0009] (2)上記の技術文書属性の関連性分析支援装置において、

前記第 1の属性 X及び第 2の属性 Yのうち、一方は各技術文書の人的属性であり、他方は各技術文書の技術分野属性であることが望ましい。

人的属性には例えば特許文書であれば出願人や発明者などが含まれ、技術論文や書籍であれば著者や編集者などが含まれる。技術分野属性には IPC (国際特許分類)などの技術分類の他、技術要素、キーワードなどが含まれる。

[0010] これにより、人的属性に対応するベクトル相互の関連性と、技術分野属性に対応するべ外ル相互の関連性を分析し、その上で人的属性と技術分野属性とを併せ考慮した検討が可能となる。例えば、自社と他社とで技術開発領域の関連性が示されるので、類似の開発性向を有する企業を探すことができる。ここでいう類似の開発性向を有する企業は、現に市場で競合している企業とは限らない。自社と比較される企業 1S 自社と類似の開発性向を有しながら、自社にとって未参入の業界に参入済みの場合、自社がその業界に新規参入するための技術的ハードルは低いことが予想できる。また、自社と市場で競合しているが異なる開発性向を有する企業と比較して自社の開発部門の強み Z弱みを発見したり、互いの開発部門の弱点を補い合える技術提携先を探したりして、自社が参入したい業界で他社に対抗できるようにするための技術開発の方針策定に役立てることもできる。また更に、例えばある技術分野と他の技術分野とで開発主体の関連性が示されるので、技術分野間の関連性を分析することができる。例えば、比較する技術分野を同一企業が併せて手掛ける傾向が高い場合、（a)両者を手掛けることで現存の事業に結びついている可能性を見出し、当該事業への参入可否や、当該事業に参入するための技術開発の要否を判断することができる。或いは、（b)技術的に一見関連していないようでも相互の技術を転用できる可能性を見出すことができる。

[0011] (3)上記の技術文書属性の関連性分析支援装置において、

前記スコア算出手段は、前記第 1の属性 Xの値 X (j = l, 2, · · · , p)と前記第 2の属性 Yの値 Y (k= l, 2, · · · , q)との組合せ (X , Y )が同一である技術文書の数に基

k j k

づいて、前記スコアを算出することが望ましい。

[0012] 組合せが同一である技術文書の数に基づいてスコアを算出することにより、属性の分布の集中や分散の状態を簡単に且つ客観的に表現することができる。

[0013] (4)また、前記スコア算出手段は、前記第 1の属性 Xの値 X (j = l, 2, · · · , p)と前記第 2の属性 Yの値 Y (k= l, 2, · · · , q)との組合せ (X , Y )が同一である技術文

k j k

書の各々に重み付けをして合計することにより、前記スコアを算出することとしてもよい。

[0014] 組合せが同一である技術文書の各々に重み付けをして合計してスコアを算出することにより、技術文書の重要度或いは質的要素を加味したスコアで、適切に分析を行うことができる。

重み付けは、例えば、公開特許公報よりも特許掲載公報の重み付けを大きくすることにより、技術文書の重要度或いは質の高さが強調される。

[0015] (5)上記の技術文書属性の関連性分析支援装置において、

前記第 1ベクトル群生成手段又は前記第 2ベクトル群生成手段は、前記マトリクス状の配置における各列又は各行に属するスコアの各々の対数を成分として含むベタトルを生成することが望まし、。

[0016] これにより、特に各スコアが非負で且つ 0付近に分布が集中している場合に、ベタトル成分の分布が正規分布に近くなるので、関連性算出結果の信頼度を向上することができる。

[0017] (6)上記の技術文書属性の関連性分析支援装置において、

前記第 1ベクトル配置手段は、

前記第 1ベクトル群生成手段により生成されたベクトル群のうち 2つのベクトルを所定の基準で選択し、前記 2つのベクトルを隣接させてクラスタを生成する第 1クラスタ生成手段と、

前記第 1クラスタ生成手段により生成されたクラスタを構成するベクトル群のうち両端に位置する端部ベクトルの何れかとの関連性が最も高いベクトルを、前記第 1ベタトル群生成手段により生成されたベクトル群のうち前記クラスタ以外のベクトル群から選択して加入ベクトルとし、当該加入ベクトルと関連性が最も高ヽとされた端部べタトルと、当該加入ベクトルとを隣接させることにより、当該加入ベクトルを前記クラスタに加えて前記クラスタを順次拡大させる第 1クラスタ拡大手段と、を備え、且つ Z又は、前記第 2ベクトル配置手段は、

前記第 2ベクトル群生成手段により生成されたベクトル群のうち 2つのベクトルを所定の基準で選択し、前記 2つのベクトルを隣接させてクラスタを生成する第 2クラスタ生成手段と、

前記第 2クラスタ生成手段により生成されたクラスタを構成するベクトル群のうち両端に位置する端部ベクトルの何れかとの関連性が最も高いベクトルを、前記第 2ベタトル群生成手段により生成されたベクトル群のうち前記クラスタ以外のベクトル群から選択して加入ベクトルとし、当該加入ベクトルと関連性が最も高ヽとされた端部べタトルと、当該加入ベクトルとを隣接させることにより、当該加入ベクトルを前記クラスタに加えて前記クラスタを順次拡大させる第 2クラスタ拡大手段と、を備えることが望ま Uヽ

[0018] これによれば、関連性の高!、ベクトルから順次隣接させ、クラスタを拡大させて、くので、関連性の高いベクトル同士を確実に近くに配置し、文書属性のデータ分布の集中や分散の状態を明示させることができる。

[0019] (7)上記の技術文書属性の関連性分析支援装置において、

前記第 1クラスタ生成手段又は前記第 2クラスタ生成手段は、それぞれ前記第 1ベタトル群生成手段により生成されたベクトル群又は前記第 2ベクトル群生成手段により生成されたベクトル群について、

当該ベクトル群のうち相互の関連性が最も高い 2つのベクトルを選択することが望ましい。

[0020] これにより、最も関連性の高いベクトル同士を確実に隣接させることができるので、ベクトル配置の定量的な客観性を担保することができる。

[0021] (8)上記の技術文書属性の関連性分析支援装置において、

前記第 1ベクトル配置手段は、

前記第 1クラスタ生成手段により生成されたクラスタを構成するベクトル群のうち両端に位置する端部ベクトルと、前記第 1ベクトル群生成手段により生成されたベクトル群のうち前記クラスタ以外のベクトルとの関連性が何れも所定の閾値以下である場合、前記第 1クラスタ拡大手段による前記加入ベクトルの選択と前記クラスタの拡大を中止する、第 1クラスタ拡大中止判定手段と、

前記第 1クラスタ生成手段により生成されたクラスタ以外のベクトル群のうち、 2つのベクトルを所定の基準で選択し、当該 2つのベクトルを隣接させて他のクラスタを生成する、第 1クラスタ再生成手段と、

前記第 1クラスタ再生成手段により生成された前記他のクラスタを構成するベクトル群のうち両端に位置する端部ベクトルの何れかとの関連性が最も高いベクトルを、前記第 1ベクトル群生成手段により生成されたベクトル群であって前記第 1クラスタ生成手段により生成されたクラスタ以外のベクトル群のうち前記他のクラスタ以外のベタトル群カゝら選択して加入ベクトルとし、当該加入ベクトルと関連性が最も高ヽとされた端部ベクトルと、当該加入ベクトルとを隣接させることにより、当該加入ベクトルを前記他のクラスタに加えて前記他のクラスタを順次拡大させる、第 1クラスタ再拡大手段と、を更に備え、且つ Z又は、

前記第 2ベクトル配置手段は、

前記第 2クラスタ生成手段により生成されたクラスタを構成するベクトル群のうち両端に位置する端部ベクトルと、前記第 2ベクトル群生成手段により生成されたベクトル群のうち前記クラスタ以外のベクトルとの関連性が何れも所定の閾値以下である場合、前記第 2クラスタ拡大手段による前記加入ベクトルの選択と前記クラスタの拡大を中止する、第 2クラスタ拡大中止判定手段と、

前記第 2クラスタ生成手段により生成されたクラスタ以外のベクトル群のうち、 2つのベクトルを所定の基準で選択し、当該 2つのベクトルを隣接させて他のクラスタを生成する、第 2クラスタ再生成手段と、

前記第 2クラスタ再生成手段により生成された前記他のクラスタを構成するベクトル群のうち両端に位置する端部ベクトルの何れかとの関連性が最も高いベクトルを、前記第 2ベクトル群生成手段により生成されたベクトル群であって前記第 2クラスタ生成手段により生成されたクラスタ以外のベクトル群のうち前記他のクラスタ以外のベタトル群カゝら選択して加入ベクトルとし、当該加入ベクトルと関連性が最も高ヽとされた端部ベクトルと、当該加入ベクトルとを隣接させることにより、当該加入ベクトルを前記他のクラスタに加えて前記他のクラスタを順次拡大させる、第 2クラスタ再拡大手段と、を更に備えることが望ましい。

[0022] これによれば、端部ベクトルとの関連性が所定の閾値以下である場合、 1つのクラスタに無理にまとめられてしまうことを回避し、より高い関連性を有するベクトル同士の組合せを優先させることができ、ベクトルの配置の信頼性を向上することができる。関連性の閾値は例えば相関係数 0を用いる。

[0023] (9)上記の技術文書属性の関連性分析支援装置において、

前記第 1ベクトル配置手段及び前記第 2ベクトル配置手段による配置に基づいてマトリタス状に配置されるスコアの分布状態を、スコアに応じた模様又は色彩を付して表示する表示手段を備えることが望まし、。

[0024] スコアの分布を数値で示すだけでは、分布状態が一見して明らかではな、が、模様又は色彩を付すことにより、スコアの分布状態をより識別しやすく表示することができる。

[0025] (10)また本発明は、上記各装置によって実行される方法と同じ工程を備えた技術文書属性の関連性分析支援方法、並びに上記各装置によって実行される処理と同じ処理をコンピュータに実行させることのできる技術文書属性の関連性分析支援プログラムである。このプログラムは、 FD、 CDROM、 DVDなどの記録媒体に記録されたものでもよく、ネットワークで送受信されるものでもよい。

図面の簡単な説明

[0026] [図 1]本発明の第一実施形態に係る技術文書属性の関連性分析支援装置のハードウェア構成を示す図。

[図 2]上記第一実施形態の関連性分析支援装置における処理装置 1の動作手順を示すフローチャート。

[図 3]表示部による表示例を示す図。

[図 4]表示部による他の表示例を示す図。

[図 5]第二実施形態の関連性分析支援装置における処理装置 1の動作手順を示すフローチャート。

[図 6]第二実施形態で生成される文書数マトリクスの一例。

符号の説明

[0027] 1 :処理装置、 2 :入力装置、 3 :記録装置、 4 :出力装置、 110 :データ取得部、 120 ：スコア算出部、 130及び 140 :第 1及び第 2ベクトル群生成部、 150及び 160 :第 1及び第 2ベクトル関連性算出部、 170及び 180 :第 1及び第 2ベクトル配置部

発明を実施するための最良の形態

[0028] 以下、本発明の実施の形態を、図面を参照して詳細に説明する。

< 1.略号の説明等 >

i: 個々の技術文書に付与される技術文書番号。例えば一定条件下で抽出された全特許出願にそれぞれ付与される。技術文書数を Nとすると、 i= l, 2, · · · , Nである。

X、 Y: 個々の技術文書の属性。例えば出願人、技術分野 (キーワード又は IPC) など。

X、 Y：属性の値。例えば出願人や技術分野の具体的名称を指し、数値で表現さ j k

れるものに限らない。

σ ：属性 Xと属性 Υとの組合せごとに算出されるスコア。属性 Xの値域を X、 X、 · kj 1 2

• ·、 X、属性 Yの値域を Y、 Y、 · · ·、 Yとした場合、 p X q個のスコア σ を定義でき

Ρ 1 2 q k]

、これらを q行 p列のマトリクス状に配置することができる。マトリクス状に配置された各列に属するスコア σ 、 σ 、 · · ·、 σ を成分とする q次元ベクトルをベクトル X、各行

1] 2] qj ] に属するスコア σ 、 σ 、 · · ·、 σ を成分とする ρ次元ベクトルをベクトル Υとする（

kl k2 kp k 対応する属性の値 X、 Yと同じ符号を用いる)。

j k

[0029] < 2.技術文書属性の関連性分析支援装置の構成 >

図 1は本発明の第一実施形態に係る技術文書属性の関連性分析支援装置のハードウア構成を示す図である。同図に示すように、本実施形態の関連性分析支援装置は、 CPU (中央演算装置)およびメモリ（記録装置)などから構成される処理装置 1 、キーボード (手入力器具)などの入力手段である入力装置 2、技術文書群のデータや条件や処理装置 1による作業結果などを格納する記録手段である記録装置 3、およびマトリクス状に配置されたスコア等を表示又は印刷等する出力手段である出力装置 4から構成される。

[0030] 処理装置 1は、データ取得部 110、スコア算出部 120、第 1及び第 2ベクトル群生成部 130及び 140、第 1及び第 2ベクトル関連性算出部 150及び 160、第 1及び第 2ベタトル配置部 170及び 180、を備えている。

[0031] 記録装置 3は、条件記録部 31、作業結果格納部 32、文書格納部 33などから構成される。文書格納部 33は外部データベースや内部データベース力も得た、技術文書群のデータを含んでいる。外部データベースとは、例えば日本国特許庁でサービスして、る特許電子図書館の IPDLや、株式会社パトリスでサービスして!/、る PATOLI S (登録商標）などの文書データベースを意味する。又内部データベースとは、販売されて!/、る例えば特許 JP— ROMなどのデータを自前で格納したデータベース、文書を格納した FD (フレキシブルディスク）、 CD (コンパクトディスク） ROM、 MO (光磁気ディスク）、 DVD (デジタルビデオディスク)などの媒体力読み出す装置、紙などに出力された或いは手書きされた文書を読み込む OCR (光学的情報読み取り装置）などの装置及び読み込んだデータをテキストなどの電子データに変換する装置などを含んでいるものとする。

本実施例では、技術文書として主に特許公報類を扱うが、これに限らず、実用新案公報、技術論文、技術を扱った雑誌、書籍など広く技術文書一般を分析することができる。 [0032] 処理装置 1、入力装置 2、記録装置 3、および出力装置 4の間で信号やデータをやり取りする通信手段としては、 USB (ユニバーサルシステムバス）ケーブルなどで直接接続してもよ、し、 LAN (ローカルエリヤネットワーク）などのネットワークを介して送受信してもよいし、文書を格納した FD、 CDROM、 MO、 DVDなどの媒体を介してもよい。或いはこれらの一部、又はいくつかを組み合わせたものでもよい。

[0033] < 2— 1.入力装置 2の詳細 >

次に、上記の関連性分析支援装置における構成と機能を詳しく説明する。入力装置 2では、技術文書群のデータの取得条件、スコアの算出条件、ベクトルの生成条件、関連性の算出条件、ベクトルの配置条件などの入力を受け付ける。これら入力された条件は、記録装置 3の条件記録部 31へ送られて格納される。

[0034] < 2— 2.処理装置 1の詳細 >

データ取得部 110は、入力装置 2で入力されるデータの取得条件に従って、分析対象となる技術文書群のデータを記録装置 3の文書格納部 33から取得する。例えば、各技術文書の書誌情報などに基づいて、各技術文書の少なくとも 2種類の属性をデータとして取得する。取得された技術文書群のデータは、スコア算出部 120に直接送られてそこでの処理に用いられ、或いは記録装置 3の作業結果格納部 32に送られて格納される。

[0035] スコア算出部 120は、データ取得部 110で取得された技術文書群のデータに基づいて、上記少なくとも 2種類の属性のうち第 1の属性 Xと第 2の属性 Yとの組合せのそれぞれに属する技術文書のデータに応じたスコア σ を算出する。このスコア σ は、 kj kj 上記第 1の属性 Xの値と第 2の属性 Yの値との組合せごとに、それぞれ算出される。算出されたスコア σ は、第 1及び第 2ベクトル群生成部 130及び 140に直接送られてそれらでの処理に用いられ、或いは記録装置 3の作業結果格納部 32に送られて格納される。

[0036] 第 1ベクトル群生成部 130は、スコア算出部 120で算出されたスコア σ に基づき、ベクトル群 Xを生成する。このベクトル群 Xは、上記第 1の属性 Xを横軸に、上記第 2 の属性 Υを縦軸にとって上記スコア σ をマトリクス状に配置したときの、当該マトリクス状の配置における各「列」に属する上記スコアに基づいて算出される。第 2ベクトル群生成部 140は、スコア算出部 120で算出されたスコア σ に基づき、

«

ベクトル群 Υを生成する。このベクトル群 Υは、上記第 1の属性 Xを横軸に、上記第 2

k k

の属性 Yを縦軸にとって上記スコア σ をマトリクス状に配置したときの、当該マトリクス状の配置における各「行」に属する上記スコアに基づ、て算出される。

第 1及び第 2ベクトル群生成部 130及び 140で生成されたベクトル群 X及び Yは、

j k それぞれ第 1及び第 2ベクトル関連性算出部 150及び 160に直接送られてそこでの処理に用いられ、或いは記録装置 3の作業結果格納部 32に送られて格納される。

[0037] 第 1ベクトル関連性算出部 150は、第 1ベクトル群生成部 130により生成されたべクトル群 Xについて、相互の関連性を算出する。

第 2ベクトル関連性算出部 160は、第 2ベクトル群生成部 140により生成されたべクトル群 Yについて、相互の関連性を算出する。

k

第 1及び第 2ベクトル関連性算出部 150及び 160で算出された関連性のデータは、それぞれ第 1及び第 2ベクトル配置部 170及び 180に直接送られてそこでの処理に用いられ、或、は記録装置 3の作業結果格納部 32に送られて格納される。

[0038] 第 1ベクトル配置部 170は、第 1ベクトル関連性算出部 150により算出されたべタトル X相互の関連性に基づいて、当該関連性の高いベクトル同士をより近くに配置す j

る処理を行う。

第 2ベクトル配置部 180は、第 2ベクトル関連性算出部 160により算出されたべタトル Y相互の関連性に基づいて、当該関連性の高いベクトル同士をより近くに配置す k

る処理を行う。

第 1及び第 2ベクトル配置部 170及び 180で決定されたベクトルの配置は、記録装置 3の作業結果格納部 32に送られて格納され、必要に応じて出力装置 4にて出力される。

[0039] 第 1及び第 2ベクトル配置部 170及び 180の特に好ましい態様として、図 1には、それぞれ第 1及び第 2クラスタ生成部 171及び 181、第 1及び第 2クラスタ拡大部 172及び 182を備えたものが示されている。更に好ましい態様として、この図 1には、それぞれ第 1及び第 2クラスタ拡大中止判定部 174及び 184、第 1及び第 2クラスタ再生成部 175及び 185、第 1及び第 2クラスタ再拡大部 176及び 186を備えたものが示されている。

[0040] 第 1クラスタ生成部 171は、第 1ベクトル群生成部 130により生成されたベクトル群のうち 2つのベクトルを所定の基準で選択し、これら 2つのベクトルを隣接させてクラスタを生成する。

第 2クラスタ生成部 181は、第 2ベクトル群生成部 140により生成されたベクトル群のうち 2つのベクトルを所定の基準で選択し、これら 2つのベクトルを隣接させてクラスタを生成する。

2つのベクトルを選択する所定の基準は、例えば関連性の高さとし、相互の関連性が最も高、2つのベクトルを選択することができる。

第 1及び第 2クラスタ生成部 171及び 181で生成されたクラスタは、それぞれ第 1及び第 2クラスタ拡大部 172及び 182に直接送られてそこでの処理に用いられ、或いは記録装置 3の作業結果格納部 32に送られて格納される。

[0041] 第 1クラスタ拡大部 172は、第 1クラスタ生成部 171で生成されたクラスタに加入べクトルを加えることにより、第 1クラスタ生成部 171で生成されたクラスタを順次拡大させる。この加入ベクトルは、第 1クラスタ生成部 171により生成されたクラスタを構成するベクトル群のうち両端に位置する端部ベクトルの何れかとの関連性が最も高いベタトルを、第 1ベクトル群生成部 130により生成されたベクトル群 Xのうち上記クラスタ以外のベクトル群力選択することによって決定する。加入ベクトルのクラスタへの加入は、当該加入ベクトルと関連性が最も高いとされた端部ベクトルと、当該加入ベクトルとを隣接させることによって行うが、これに限らずクラスタ内の他の箇所に加入べタトルを加入させてもよい。

第 2クラスタ拡大部 182は、第 2クラスタ生成部 181で生成されたクラスタに加入べクトルを加えることにより、第 2クラスタ生成部 181で生成されたクラスタを順次拡大させる。この加入ベクトルは、第 2クラスタ生成部 181により生成されたクラスタを構成するベクトル群のうち両端に位置する端部ベクトルの何れかとの関連性が最も高いベタトルを、第 2ベクトル群生成部 140により生成されたベクトル群 Yのうち上記クラスタ以

k

外のベクトル群力選択することによって決定する。加入ベクトルのクラスタへの加入は、当該加入ベクトルと関連性が最も高いとされた端部ベクトルと、当該加入ベクトルとを隣接させることによって行うが、これに限らずクラスタ内の他の箇所に加入べタトルを加入させてもよい。

第 1及び第 2クラスタ拡大部 172及び 182によりクラスタを拡大させ、クラスタ未加入のベクトルがなくなったときは、第 1及び第 2ベクトル配置部 170及び 180の処理は終了する。

[0042] 第 1クラスタ拡大中止判定部 174は、第 1クラスタ生成部 171により生成されたクラスタを構成するベクトル群のうち両端に位置する端部ベクトルと、第 1ベクトル群生成部 130により生成されたベクトル群 Xのうち上記クラスタ以外のベクトルとの関連性が何

j

れも所定の閾値以下である場合、第 1クラスタ拡大部 172による加入ベクトルの選択とクラスタの拡大を中止する。

第 2クラスタ拡大中止判定部 184は、第 2クラスタ生成部 181により生成されたクラスタを構成するベクトル群のうち両端に位置する端部ベクトルと、第 2ベクトル群生成部 140により生成されたベクトル群 Yのうち上記クラスタ以外のベクトルとの関連性が何

k

れも所定の閾値以下である場合、第 2クラスタ拡大部 182による加入ベクトルの選択とクラスタの拡大を中止する。

ここで所定の閾値としては、例えば相関係数なら 0 (無相関）とすることが望ましい。

[0043] 第 1クラスタ再生成部 175は、第 1クラスタ生成部 171により生成されたクラスタ (第 1 クラスタ拡大部 172により拡大された場合は拡大後のクラスタ）以外のベクトル群のうち、 2つのベクトルを所定の基準で選択し、当該 2つのベクトルを隣接させて他のクラスタを生成する。

第 2クラスタ再生成部 185は、第 2クラスタ生成部 181により生成されたクラスタ (第 2 クラスタ拡大部 182により拡大された場合は拡大後のクラスタ）以外のベクトル群のうち、 2つのベクトルを所定の基準で選択し、当該 2つのベクトルを隣接させて他のクラスタを生成する。

第 1及び第 2クラスタ再生成部 175及び 185で生成された他のクラスタは、それぞれ第 1及び第 2クラスタ再拡大部 176及び 186に直接送られてそこでの処理に用いられ、或いは記録装置 3の作業結果格納部 32に送られて格納される。

[0044] 第 1クラスタ再拡大部 176は、第 1クラスタ再生成部 175で生成された上記他のクラスタに加入ベクトルをカ卩えることにより、上記他のクラスタを順次拡大させる。この加入ベクトルは、第 1クラスタ再生成部 175により生成された上記他のクラスタを構成するベクトル群のうち両端に位置する端部ベクトルの何れかとの関連性が最も高いベタトルを、第 1ベクトル群生成部 130により生成されたベクトル群 Xであって第 1クラスタ生成部 171により生成されたクラスタ以外のベクトル群のうち上記他のクラスタ以外のベタトル群力選択することによって決定する。加入ベクトルの上記他のクラスタへの加入は、当該加入ベクトルと関連性が最も高いとされた端部ベクトルと、当該加入べタトルとを隣接させることによって行う。

第 2クラスタ再拡大部 186は、第 2クラスタ再生成部 185で生成された上記他のクラスタに加入ベクトルをカ卩えることにより、上記他のクラスタを順次拡大させる。この加入ベクトルは、第 2クラスタ再生成部 185により生成された上記他のクラスタを構成するベクトル群のうち両端に位置する端部ベクトルの何れかとの関連性が最も高いベタトルを、第 2ベクトル群生成部 140により生成されたベクトル群 Yであって第 2クラスタ

k

生成部 181により生成されたクラスタ以外のベクトル群のうち上記他のクラスタ以外のベクトル群力選択することによって決定する。加入ベクトルの上記他のクラスタへの加入は、当該加入ベクトルと関連性が最も高いとされた端部ベクトルと、当該加入べタトルとを隣接させることによって行う。

第 1及び第 2クラスタ再拡大部 176及び 186によりクラスタを拡大させ、クラスタ以外のベクトル群がなくなったときは、第 1及び第 2ベクトル配置部 170及び 180の処理は終了する。

[0045] < 2— 3.記録装置 3の詳細 >

記録装置 3において、条件記録部 31は、入力装置 2から得られた条件などの情報を記録し、処理装置 1の要求に基づき、必要なデータを送る。作業結果格納部 32は、処理装置 1における各構成要素の作業結果を格納し、処理装置 1の要求に基づき、必要なデータを送る。文書格納部 33は、入力装置 2或いは処理装置 1の要求に基づき、外部データベース或いは内部データベース力も得た、必要な技術文書群のデータを格納し、提供する。

[0046] < 2-4.出力装置 4の詳細 > 出力装置 4は、処理装置 1の第 1及び第 2ベクトル配置部 170及び 180で決定されたベクトルの配置に基づいてマトリクス状に配置されるスコア等を出力する。この出力装置 4は例えばディスプレイ装置などの表示部 41を備え、マトリクス状に配置されるスコアの分布状態を、スコアに応じた模様又は色彩を付して表示する。出力の形態としては、表示部 41での表示に限らず、紙などの印刷媒体への印刷、或いは通信手段を介してのネットワーク上のコンピュータ装置への送信などによってもよい。

[0047] < 3.第一実施形態の動作 >

図 2は上記第一実施形態の関連性分析支援装置における処理装置 1の動作手順を示すフローチャートである。

[0048] < 3— 1.技術文書群のデータ入手 >

まず、データ取得部 110において、分析対象となる技術文書群のデータを取得する (ステップ S110)。この技術文書群の個々の文書は、それぞれ少なくとも 2種類の属性 X及び Yをもっている必要がある。この技術文書群の文書数を N個とする。例えば次の [表 1]のようなデータを得る。なお、個々の技術文書について属性の値の数は 1つでも良いし、次の [表 1]の技術文書番号 2、 3、 4等の属性 Zのように、個々の技術文書について属性の値が複数あっても良い。例えば 1つの特許文書に複数の発明者が記載されている場合、発明者属性の値は発明者の数だけあることになる。

[表 1]

技術文書番号 i 属性 X 属性 Y ■ . . 属性 z

1

2 X！ Y₃ z₂ z₄

3 y₃

4 χ z₂ z₃

5 z₃

6 x₂ ^ z₄

7 x_{2 3} z₄

8 x₂ Y₄ z₄

9 x₂ z₅

1 0 x₃ γ₂ z₅

■

N x₄ Z₃

[0049] く 3— 2.スコアの算出〉

次に、スコア算出部 120において、上記少なくとも 2種類の属性のうち第 1の属性 X と第 2の属性 Yとの組合せのそれぞれに属する技術文書のデータに応じたスコアを算出する (ステップ S 120)。

このために、まず上記属性のうち 2種類 (例えば「出願人」及び「キーワード」の 2種類。以下本実施例の説明においてそれぞれ X及び Yとする。）を選択する。この選択は入力装置 2より入力されるユーザの指示に基づき行われるが、 2種類の属性のうち一方を出願人や発明者などの人的属性とし、他方をキーワードや IPCなどの技術分野属性とすることが好ましい。また、 2種類の属性の両方を技術分野属性とし、例えば一方を技術分類、他方を技術要素としてもよい。また、 2種類の属性のうち何れか又は両方に、人的属性でも技術分野属性でもない属性、例えば出願日等を選択してもよい。

[0050] 2種類の属性を選択したら、各属性 X、 Yにつ!/ヽて、属性の値 X、 Y (例えば出願人 j k

やキーワードの具体的名称を指し、数値に限らない)の範囲 (値域)を決定する。例えば次の [表 2]のような、該当技術文書数の降順ランキングを作成し、属性 Xについては上位 p個、属性 Yについては上位 q個以内に入る値の範囲を、各属性の値域とする。属性 Xの値域内の値 Xの個数 pと、属性 Yの値域内の値 Yの個数 qは同じでも良いし、異なっていてもよい。例えば、件数上位何社につき分析する力、或いはどの技術分野について分析するか、など分析目的に応じて値域を選択すればよい。以下の説明では、属性 Xについては値 X、 X、 · · ·、 X力属性 Yについては値 Y、 Y、 · ·

1 2 p 1 2

·、 Y力値域として決定されたものとして説明する。

[表 2]

続いて、属性の値 Xと Yとの各組み合わせ（但し、 j = l, 2, · · · , p、k= l, 2, · · · ,

] k

q)について、これら属性の値の組み合わせを有する技術文書の文書数に基づいて p X q個のスコア σ を算出する。

スコア σ は、属性の値 Xと Υとの組み合わせ (X、 Υ )が同一である技術文書の文書数そのものとしても良いし、規格化処理をするなど文書数を変数とする関数値としてもよい。スコア σ を文書数そのものとした場合、例えば上の [表 1]のように、属性の値 (X、 Υ )の組をもつ技術文書が、 Ν個の技術文書のうち技術文書番号 i= lのみである場合は、（X、 Y )の組に関するスコア σ は、 1となる。また例えば上の [表 1]

1 1 11

のように、属性 (X、 Υ )の組をもつ技術文書が、 Ν個の技術文書のうち技術文書番

1 3

号 i = 2及び 3の 2つである場合は、（X、 Y )の組に関するスコア σ は、 2となる。ス

1 3 31

コア σ は例えば次の [表 3]のようなものとなる。以下、この [表 3]に示された仮想事例を適宜参照する。

[表 3] び

Χ₂ χ₃ Χ₄ χ₅ χ₆ σ ! τ = 1 σ₁₂=8 σ₁₃=0 σ₁₄= 1 σ₁₅ = 0 σ₁₆= 1 γ₂ σ₂₁ =0 σ 22 = 0 σ ₂₃= 5 σ₂₄= 2 び 25= 1 σ₂₆=0 γ₃ σ si = 6 σ 32= 0 σ ₃₃= 0 σ₃₄= 0 σ₃₅= 1 σ₃₆=0 γ₄ σ₄₁ = 2 σ₄₂= 1 σ₄₃= 0 σ₄₄= 0 σ₄₅= 1 σ₄₆=0 γ₅ σ₅₁ = 1 σ₅₂=0 び 53= 1 σ₅₄=0 σ₅₅ = 0 σ₅₆=0 γ₆ σ₆₁ =0 σ₆₂= 1 σ₆₃=0 σ₆₄=0 σ₆₅ = 0 σ 66= 1

[0052] このように、属性の値の組み合わせが pXq個あるため、 pXq個のスコア σ (j = l, 2, · · ·, p、k=l, 2, · · ·, q)を、 q行 p列のマトリクス状に配置することができる。 [表 3 ]の例では、 6行 6歹 Uとなっている。

[0053] なお、属性 X又は Yの値域が大きく pや qが大きすぎる場合には、ある程度の幅を設けて属性の値を設定し直した上でスコア σ を決定してもよい。例えば、属性 Xとして出願日を選んだ場合、そのままでは数年分で ρの値が 1000以上になるが、出願年や出願年月を属性の値として設定してもよい。これにより、属性の値域を分析しやすい大きさとすることができる。

[0054] ここでは文書数に基づいてスコア σ を算出する例について説明した力これに限らず、個々の技術文書に重み 0； =1, 2, ···, Ν)を与え、この重みをスコアの算出に反映させることとしてもよい。例えば、属性の値 Xと Υとの各組み合わせにっき、 j k

σ = ∑ α V ie(X、 Υ)

« i j k

で算出してもよい。すなわち、属性の値の組合せが (X、 Y )であるすベての iについ j k

ての重みひの和をスコア σ としてもよい。例えば上の [表 1]のように、属性 (X、 Υ ) i kj 1 3 の組をもつ技術文書が、 N個の技術文書のうち技術文書番号 i= 2及び 3の 2つであり、それぞれ重み α

2及び α

3が与えられている場合は、（X、Υ

1 3 )の組に関するスコア σ 、ひ + ひとる。

31 2 3

この場合の重みは、例えば特許文書の場合には特許登録されていれば大きな値を、されていなければ小さな値を付与するなど、出願経過情報に基づいて付与したり、独立請求項数や被引用回数などに基づいて付与したりするのが好ましい。

[0055] スコア σ を文書数で表す場合 (すべての技術文書につき同じ重み α =1を与える

« i

場合）は、属性の分布が簡単に且つ客観的に表現されるという利点がある。一方、技術文書ごとに別々の重み αの値を与え、重みひを合計してスコア σ を算

i i W 出する場合、技術文書の重要度或いは質的要素を加味したスコアで、適切に分析を行うことができる。

[0056] < 3— 3.ベクトルの生成 >

次に、第 1及び第 2ベクトル群生成部 130及び 140において、ベクトルを生成する（ステップ S 130及び S 140)。

具体的には、上記のようにスコアを q行 p列のマトリクス状に配置したときの各列に属するスコア σ 、 σ 、 · · ·、 σ を成分とする q次元ベクトルを、ベクトル X (j = 1, 2, · · lj 2] qj ]

· , ρ)とする。このベクトル Xは、属性 Xの値 Xについて、属性 Υの分布を示すベクトルとなる。例えばある企業 Xの特許出願について、技術分野の分布を示すベクトルとなる。上の [表 3]の仮想事例では、出願人 Xは、技術分野 Υ及び Υにおいて多くの特

1 3 4

許出願をしているが、技術分野 Υ

2及び Υの

6 特許出願はしていない。

同様に、上記のようにマトリクス状に配置したときの各行に属するスコア σ 、 σ 、 · kl k2

· ·、 σ を成分とする p次元ベクトルを、ベクトル Y (k= l, 2, · · ·， q)とする。このべ kp k

タトル Yは、属性 Υの値 Υについて、属性 Xの分布を示すベクトルとなる。例えばある k k

技術分野 Y

kについて、出願人の分布を示すベクトルとなる。上の [表 3]の仮想事例では、技術分野 Y

1において、出願人 X

2が多くの特許出願をしている力他の出願人はあまり特許出願をして、な、。

[0057] ベクトル X及び Yは、上記のようにスコアそのものを成分としてもよいが、スコア σ

j k « の対数を成分とすることが望ましい。これは、 2種類の技術文書属性の組合せに基づくスコア σ は非負で且つ 0付近に分布が集中しやすい傾向にあるためである。このような場合にスコア σ の対数を成分とすれば、ベクトル成分の分布が正規分布に近くなるので、関連性算出結果の信頼度を向上することができる。特に関連性の評価方法として相関係数を選んだ場合は、スコア σ の対数を成分とすることが望ましい。なお、スコア σ 力^の場合は対数を定義できな、が、例えば 0の対数をとるべきところを便宜的に― 1又はその他の負数とぉ、ても良、し、或いは全スコアにそれぞれ便宜的に 1又はその他の正数をカ卩えた上でそれぞれ対数をとつてもよい。

[0058] ベクトルの生成法としては、上記のようにスコアそのものを成分とする方法、スコア σ の対数を成分とする方法の他に、スコアに出現頻度の逆数を乗算したものを成分と

W

する方法も考えられる。

例えば上記 [表 3]において、一方の属性 Xの値 Xにおいては、スコア σ が属'性 Υ

2 k2 の値域 Y〜Υにおいて 3回出現している（σ =0であるスコアは出現回数に算入し

1 6 kj

てヽな、）。従って、値 Xに対応するスコア σ にはこの出現頻度の逆数である 1Z3

2 k2

を乗算する。更に上記 [表 3]において、他方の属性 Yの値 Yにおいては、スコア σ が属性 Xの値域 X〜Χにおいて 4回出現している。従って、値 Υに対応するスコ lj 1 6 1

ァ σ にはこの出現頻度の逆数である 1Z4を乗算する。すると、例えばスコア σ lj 12

=8に対しては、値 Xにおける出現頻度の逆数 1Z3と値 Yにおける出現頻度の逆

2 1

数 1Z4とを乗算することになるので、ベクトル Xの第 1成分或いはベクトル Yの第 2

2 1 成分 (値 (X、 Y )の組み合わせに対応する成分）は、 8/ (3 X 4)となる。他の成分

2 1

についても同様に各スコアに出現頻度の逆数を乗算すると、 [表 4]のような成分が得られる。値域 X〜X

1 6に対応する各列の成分から構成されるベクトルをそれぞれべタトル X〜Xとし、値域 Y〜Yに対応する各行の成分から構成されるベクトルをそれぞ

1 6 1 6

れべクトノレ Υ〜Υとする。

1 6

[表 4]

このように、多くのベクトルに共通して出現するベクトル成分の値が低ぐ特定のベタトルにしか出現しないベクトル成分の値が高くなるようにすることで、各文書属性の値独自のスコアを強調したベクトルを生成することができる。

< 3— 4.関連性の算出 > 次に、第 1及び第 2ベクトル関連性算出部 150及び 160において、 p個のベクトル X 相互の関連性及び q個のベクトル Y相互の関連性をそれぞれ算出する (ステップ S1

k

50及び SI 60)。

例えば上記 [表 3]の仮想事例において、 p個のベクトル X相互の関連性は、例えば相関係数を用いて次の [表 5]のようなデータとして得られる。

[表 5]

ここでは属性 Xに対応するベクトル Xについて関連性の算出結果を示した力属性 Yについても同様に行うことができる。関連性の評価方法としては、相関係数の他にも、内積を用いる方法、スピアマンの順位相関係数を算出する方法などが考えられる

[0061] < 3- 5.ベクトルの配置 >

次に、第 1及び第 2ベクトル配置部 170及び 180において、関連性の高いベクトル同士を関連性の低いベクトルより近くに配置する処理を行う。以下に、その方法の 1 つを説明する。なお、以下では主に属性 Xについての例を示しながら説明するが、属性 Yについても同様に行うことができる。

[0062] < 3— 5— 1.クラスタの生成 >

まず、第 1及び第 2クラスタ生成部 171及び 181において、 2つのベクトルを隣接させてクラスタを生成する（ステップ S 171及び S 181 )。

その方法の一例としては、 p個のベクトル Xのうち、相互の関連性が最も高い 2つのベクトルを選択し、これらのベクトルを隣接させてクラスタを生成する。上の [表 5]の例では、相関係数 0. 84であるベクトル Xと X力最も関連性の高いベクトルであるから

3 4

、これらを隣接させる。関連性が最も高い 2つのベクトルを選択してクラスタを生成することにより、関連性が最も高、ベクトル同士を確実に隣接させることができるので、ベクトル配置の定量的な客観性を担保することができる。

[0063] 隣接させるベクトルの選択は、他の方法によってもよい。例えば、特定の出願人（自社など）を残りの出願人と対比したい場合に、当該特定の出願人のベクトルと、これに最も関連性の高いベクトルとを隣接させてもよい。また例えば、特定の 2名の出願人（自社と競合他社など)を対比しつつ、これらと残りの出願人とを対比したい場合に、当該特定の 2名の出願人のベクトルを隣接させてもよ!、。

以下、隣接させた複数のベクトルの集まりを「クラスタ」と称することにする。

[0064] < 3— 5— 2.クラスタの拡大 >

次に、第 1及び第 2クラスタ拡大部 172及び 182において、加入ベクトルをクラスタに加えてクラスタを拡大させる（ステップ S 172及び S 182)。

具体的には、クラスタの両端に位置するベクトルと、クラスタに入っていない残りの各ベクトルとの間で、最も関連性の高いベクトルの組を判定する。上の例では、クラスタの両端に位置するベクトル X又は Xとの間で最も関連性の高いベクトルは、ベクトル

3 4

Xとの相関係数が 0· 37であるベクトル Xである。このベクトル Xを加入ベクトルとす

3 5 5

る。

最も関連性の高いベクトルの組が決定されたら、そのベクトル同士を隣接させることにより、より大きなクラスタを形成する。上の例では、既に隣接しているベクトル X及び

3

Xのうち、ベクトル Xの隣に、加入ベクトル Xを隣接させる。但し、これに限らずクラス

4 3 5

タ内の他の箇所に加入ベクトルを加入させてもよい。

以上のように関連性の高、ベクトル力順次隣接させてクラスタを拡大させることにより、関連性の高いベクトル同士を確実に近くに配置し、文書属性のデータ分布の集中や分散の状態を明示させるように分布状態を形成することができる。

[0065] クラスタ拡大の結果、クラスタ未加入のベクトルがなくなったら（ステップ S 173及び S 183 : NO)、ベクトルの配置は終了する。クラスタ未加入のベクトルが残っている場合 (ステップ S 173及び S 183 : YES)、それぞれステップ SI 74及び SI 84に移行する。

[0066] ステップ S174及び S184では、第 1及び第 2クラスタ拡大中止判定部 174及び 184 において、クラスタ以外のベクトルとの関連性が何れも所定の閾値以下である力否かを判定する。 1つでも所定の閾値を超える関連性がある場合 (ステップ S 174及び S 1 84 : NO)、それぞれステップ S172及び S182に戻ってクラスタを順次拡大する。例えば、ベクトル X、 X、 Xの順で隣接しているクラスタの両端 X又は Xとの間で

5 3 4 5 4 最も関連性の高いベクトルは、ベクトル Xとの相関係数が 0. 49であるベクトル Xで

5 1 あるとすると、ベクトル Xの隣に、加入ベクトル Xを隣接させる。

5 1

[0067] クラスタの両端のうちいずれに関連性の高いベクトルを隣接させるかを、予め決めておいてもよい。例えば、クラスタの両端のうち一方のみとの間で関連性の高いベタトルを判定して隣接させることにしておけば、最初にクラスタを構成したベクトルが最終的にマトリクスの端部に配置されたものを作成することも可能である。また例えば、クラスタの一端及び他端で、交互に関連性の高いベクトルを判定して隣接させることにしておけば、最初にクラスタを構成したベクトルが最終的にマトリクスの中央に配置されたものを作成することも可能である。

[0068] < 3— 5— 3.他のクラスタの生成 >

ステップ S 174及び S 184において、関連性が何れも所定の閾値以下である場合 ( ステップ S 174及び S 184 : YES)、それぞれステップ S175及び S185に移行する。ステップ S 175及び S 185では、第 1及び第 2クラスタ再生成部 175及び 185にお!/ヽて、上記クラスタ以外のベクトル群のうち 2つのベクトルを隣接させて他のクラスタを生成する。

そして、第 1及び第 2クラスタ再拡大部 176及び 186において、加入ベクトルを上記他のクラスタに加えて上記他のクラスタを拡大させる（ステップ S176及び S186)。すなわち、閾値以上の関連性を有するベクトルがなくなった場合には、残りのベタトルだけで再度クラスタを生成し、上記と同様のクラスタ拡大手順を繰り返す。

[0069] このように、クラスタの両端のベクトルとの関連性が所定の閾値以下である場合に、 1つのクラスタに無理にまとめられてしまうことを回避し、より高い関連性を有するベタトル同士の組合せを優先させることにより、ベクトルの配置の信頼性を向上することができる。

関連性の閾値は、例えば相関係数なら 0 (無相関）とすることが望ましい。関連性の評価方法として相関係数を用いることは、このように閾値を設定し易い点でも有利である。

[0070] 他のクラスタの拡大の結果、クラスタ未加入のベクトルがなくなったら（ステップ S 17 7及び S 187 : NO)、ベクトルの配置は終了する。クラスタ未加入のベクトルが残って V、る場合 (ステップ S 177及び S 187 : YES)、それぞれステップ S 178及び S 188に移行する。

[0071] ステップ S178及び S188では、クラスタ以外のベクトルとの関連性が何れも所定の閾値以下であるか否かを判定する。 1つでも所定の閾値を超える関連性がある場合（ステップ S 178及び S 188 : NO)、それぞれステップ S 176及び S 186に戻って上記他のクラスタを順次拡大する。関連性が何れも所定の閾値以下である場合 (ステップ S 1 78及び S 188 : YES)、それぞれステップ S 175及び S 185に戻って更に他のクラスタを生成する。

[0072] 以上の処理により、クラスタが複数できるので、最後にこれらクラスタ同士を隣接させる。クラスタ同士を隣接させる方法としては、クラスタの大きさ（クラスタに含まれるベタトルの数)の降順又は昇順で、一端側から他端側へ一方向に並べる方法、両端から中央に向力つて交互に並べる方法などが考えられる。

同様の手順を属性 Xのみならず属性 Yについても行い、配置決定が終了する。上の例では次の [表 6]のようになる。

[表 6]

なお、ステップ S120におけるスコア算出後の、第 1ベクトル群生成部 130、第 1ベタトル関連性算出部 150、第 1ベクトル配置部 170における処理 (ステップ S130、 S15 0及び S171〜S178)と、第 2ベクトル群生成部 140、第 2ベクトル関連性算出部 160 、第 2ベタ卜ノレ酉己置咅における処理 (ステップ S140、 S160及び S181〜S188) とは、任意の何れか一方から先に、他方を後に実行しても良いし、両者を同時に並行して実行してもよい。また、何れか一方のみを実行することとしても良い。何れか一方のみを実行するのは、例えば、一方の属性 Xを出願人などの人的属性、他方の属性 Yを IPCなどのコード体系による技術分類としたときに、属性 Yについては関連性に基づく配置を行わず、体系化されたコード番号順に従って配置した方が見やすい場合などが考えられる。

[0073] < 3— 6.出力例 >

出力装置 4による出力は、上記 [表 6]のような形態でも良いし、更に見やすくするため、スコアの分布状態を、スコアに応じた模様又は色彩を付して表示しても良い。例えば、高いスコアが分布する領域に濃い色又は暖色を付し、低いスコアが分布する領域に薄、色又は寒色を付すのが好まし、。スコアの分布を数値で示すだけでは、分布状態が一見して明らかではない可能性があるが、模様又は色彩を付すことにより、スコアの分布状態を見やすく表示することができる。

[0074] 図 3は、表示部による 1つの表示例を示す図である。この図では、分布が密の領域には線密度の高、格子状斜線を付し、分布が粗の領域には線密度の低、格子状斜線を付している。この図に示すように、スコアの分布状態を所謂雲マップ或いは等高線マップで示すことにより、スコアの分布状態の粗密が明瞭になり、スコアの分布状態をより識別しやすく表示することができる。

[0075] 図 4は、表示部による他の 1つの表示例を示す図である。この図では、第 1の属性 X として「出願人」を、第 2の属性 Yとして「技術分野」を選んだ場合の各属性の値が具体的に示されている。この図でも、分布が密の領域には線密度の高い格子状斜線を付し、分布が粗の領域には線密度の低い格子状斜線を付しているので、スコアの分布状態の粗密が明瞭となっている。すなわち、特定の「出願人」を選んで分布が密の箇所を見れば、当該出願人において開発されている主要な技術分野を読み取ることができ、特定の「技術分野」を選んで分布が密の箇所を見れば、当該技術分野にお V、て開発を行って、る主要な出願人を読み取ることができる。

[0076] 図 4のように人的属性と技術分野属性とを用いることにより、次のような分析が可能となる。

[0077] 自社と他社とで技術開発領域の関連性が示されるので、

(a)類似の開発性向を有する企業を探すことができる。図 4では、例えば「E自動車」を自社としたとき、隣接している「F電気」を発見できる。ここで発見される企業は、現に市場で自社と競合して、る企業とは限らな、。自社「E自動車」と比較される「F電気」が、「電池」「セラミタス」など自社と類似の開発性向を有しながら、自社にとって未参入の業界 (例えば電気関連製品）に参入済みの場合、自社がその業界に新規参入するための技術的ハードルは低いことが予想できる。

(b)自社と市場で競合しているが、異なる開発性向を有する企業と比較して自社の開発部門の強み Z弱みを発見することができる。図 4では、例えば「半導体」を得意とする一方で、「電気 ·電子」を不得意とする「D電機」を自社としたとき、異なる開発性向を有し「電気 ·電子」を得意とする一方、「半導体」を不得意とする「A電機」と比較すれば自社の開発部門の強み Z弱みを発見することができる。

(c)異なる開発性向を有し互いの開発部門の弱点を補い合える技術提携先を探すことができる。図 4では、例えば「半導体」や「光学」に特ィ匕しており他に得意分野を有しな!ヽ「C製作所」を自社としたとき、異なる開発性向を有し「電気 ·電子」等に強!ヽ「A 電機」などを発見できる。

[0078] また、ある技術分野と他の技術分野とで開発主体の関連性が示されるので、技術分野間の関連性を分析することができる。例えば、図 4で隣接する「電池」と「セラミクス」のように、比較する技術分野を同一企業「E自動車」又は「F電気」が併せて手掛ける傾向が高い場合、

(a)両者を手掛けることで現存の事業に結びついている可能性を見出し、当該事業への参入可否や、当該事業に参入するための技術開発の要否を判断することができる。或いは、

(b)技術的に一見関連していないようでも相互の技術を転用できる可能性を見出すことができる。

[0079] 図 4では、 2種類の属性のうち一方を人的属性とし、他方を技術分野属性とした例について説明したが、これに限らず、 2種類の属性の両方を技術分野属性とし、例えば一方を技術分類、他方を技術要素としてもよい。また、一方を IPC主分類 (セクション、クラス）、他方を IPC副分類 (グループ、サブグループ)等としてもよい。

[0080] 以上のように、本実施例によれば、企業が自社の研究開発組織において開発してきた技術開発成果や、その技術資産ポートフォリオの現状を自身で把握し、今後の開発方向性の客観的な指針を持つことが可能となり、企業の技術開発投資判断に資することが可能である。

また、以上のように、技術文書の属性の様々な組合せに対して、本発明の手法を適用することにより、特定企業の開発体制の現状をより多面的な角度力より精緻に分析することが可能となり、さらに、当該分析力も得られた結果に基づき、今後の開発の方向性に対する企業の意思決定をより効果的に支援することが可能となる。

[0081] <4.第二実施形態 >

次に、本発明の第二実施形態について説明する。この第二実施形態に係る技術文書属性の関連性分析支援装置のハードウェア構成は、上記第一実施形態におけるハードウア構成（図 1)と同一であるので、その説明を省略する。

[0082] 図 5は第二実施形態の関連性分析支援装置における処理装置 1の動作手順を示すフローチャートである。

この第二実施形態は、上記第一実施形態における第 1及び第 2ベクトル群を生成するまでの処理に相当する部分に、主な特徴を有している。すなわち、この第二実施形態において、技術文書の属性 X及び Yとして、文書に含まれる課題語及び解決語を用い、ベクトル成分となるスコアとして、上記課題語及び解決語の組合せが同一である技術文書数の増減率を用いる。生成されたベクトル群を配置する処理等は、上記第一実施形態とほぼ同様である。この第二実施形態の動作手順について、以下詳細に説明する。

[0083] < 4 1.技術文書群の取得 >

まず、データ取得部 110が、入力装置 2から入力される分析対象文書群の取得条件に基づき、分析対象となる技術文書群を取得する (ステップ S210)。取得される技術文書群の種類は特許文書、技術論文等任意であるが、特に特許文書は次に述べる課題語、解決語がコンピュータ処理で抽出可能なフォーマットで記載されてヽるので好ましいと言える。分析対象文書群の取得条件は、例えば IPCコードで指定しても良ヽし、特定の技術文書に対する類似度上位所定件数の文書を取得することとしても良い。

[0084] く 4— 2.課題語、解決語の選定 >

次に、データ取得部 110は、取得された分析対象文書群の各文書から、「課題語」と「解決語」の候補をそれぞれ抽出する (ステップ S211)。例えば各文書の要約部分又はその他の部分に「課題」や「解決手段」の項目がある場合は、その部分の単語を抽出する。また例えば各文書に「本発明の課題は' · ·」或いは「この課題を解決するために本発明は · · ·」等の記述が含まれている場合は、当該記述の直後の部分から単語を抽出する。

[0085] 次に、データ取得部 110は、抽出された「課題語」及び「解決語」の候補の中から、分析に用いる「課題語」及び「解決語」それぞれ選定する (ステップ S212)。選定方法としては、例えば、各「課題語」及び「解決語」の候補について、分析対象文書群における文書頻度 (DF :分析対象文書群において各索引語で検索したときのヒット文書数)の上位所定数 (例えば各 100語)を選定する方法が考えられるが、それ以外の方法でも良い。

[0086] <4 3.因子負荷量の算出 >

次に、データ取得部 110は、選定された「課題語」を用いて因子分析を行い、各課題語の因子負荷量を算出する (ステップ S 213)。具体的には、次のように行う。分析対象文書群の文書数を Iとし、各文書を i(i= l, 2, · · · , I)で表す。また、選定された課題語の数を Gとし、各課題語を g (g= l, 2, · · · , G)で表す。 I件の各文書 i にっき、各課題語 gの重み付け量 zを算出する。この結果、次のような I行 G列のデータを得ることができる。この zを行列要素とする I行 G列の行列を Zとおく。

[表 7]

索引語 1 索引語 2 索引語 G

文書 1 Z 1 1 Z 1 2 ■ . . Z 1 G 文書 2 Z 2 1 ^z 2 2 ■ . . ^z 2 G 文書 3 Z 3 1 ^z 3 2 ■ . . ^z 3 G

■ . . ■ . . ■ . . ■ . .

文書 I Z I 1 Z I 2 ■ . . Z I G [0087] ここで重み付け量とは、所定の観点力各課題語に対し各文書において与えられる数量をいい、例えば TFIDFを用いるのが好ましい。 TFIDFとは、ある索引語について、索引語頻度 (TF :ある文書における当該課題語の出現回数)と、文書頻度 (D F：所定文書集団のうち当該課題語が出現する文書の文書数)の逆数又は文書頻度の対数の逆数 (IDF :逆文書頻度）との積により求められる値である。文書ベクトルの算出対象となる文書にぉヽて多数用いられる課題語であって、所定文書集団にぉヽてあまり用いられてヽな、課題語にっ、ては高ヽ TFIDF値が算出される。

[0088] 次に、各文書 iを被験者とし、各課題語 gを観測変数とし、各重み付け量 zを被験者による回答とした因子分析における因子負荷量を算出する。

具体的には、因子数を Hとし、各因子を h (h= l, 2, · · · , H)で表し、各課題語 gの各因子 hに対する因子負荷量を a とする。また、各文書 iの各因子 hに関する因子得 gh

点を f とする。そして、因子負荷量 a を行列要素とする因子負荷行列 Aと、因子得点 ih gh

f を行列要素とする因子得点行列 Fを次のようにおく。

[表 8]

[表 9]

次に、 I行 G列の残差行列を Eとおき、式

Z = F X A^t + E

但し、は Aの転置行列

を以下のようにして解!、て因子負荷行列 Aを求める。 [0090] 因子得点行列 Fの各要素である因子得点 f 及び残差行列 Eの各要素である残差 e ih i に関し、（1)因子得点は、平均 0、標準偏差 1に標準化されている、（2)各因子得点間の相関は 0である、（3)各残差間の相関は 0である、（4)各因子得点と各残差との相関は 0である、との仮定を設けると、一般に、

但し、 Rは観測変数間の相関行列、 Vは残差の分散共分散行列

が成立することが知られている。そこで、次式において因子負荷量を求める。

AA^{t =}R-V

次に、 R— V=R*とおく。この R*を算出するため、行列 Zの各要素 z の値力も相関行列 Rを算出した上で、相関行列の対角要素を共通性の推定値で置き換えることにより、 R*行列を推定する（共通性の推定法としては例えば SMC法、 RMAX法等がある）。そして、 R* =AAtであることから、この R*行列を基に因子負荷行列 Aを算出して因子負荷量を求める（因子負荷量を求める方法としては例えば主因子法、最小二乗法、最尤法等がある)。

[0091] そして、より有意味な因子を見出すため、因子の回転という操作を行うことが望ましい。因子軸の回転方法としては、ノリマックス、コーティマックス、ェカマックス、パーシマックス、ォーソマックス、直交プロクラステス等の直交回転や、プロマックス、ォブリミン、ハリス'カイザー、斜交プロクラステス等の斜交回転が挙げられる。

[0092] データ取得部 110は、「解決語」についても因子分析を行い、各解決語の因子負荷量を算出する (ステップ S214)。因子負荷量の算出方法は「課題語」について説明したものと同一である。

[0093] <4 4.因子の選定 >

次に、データ取得部 110は、課題語、解決語それぞれの因子分析の結果得られた因子 (それぞれ「課題因子」、「解決因子」とする）のうちそれぞれ所定個数を選定する (ステップ S215、 S216) ₀例えば各因子の固有値に基づき、固有値上位所定個数の因子を選定する。選定する因子の数は任意であり、ここでは課題因子を p個、解決因子を q個選定するものとする。

第一実施形態と対比して述べるならば、本第二実施形態では、 2種類の属性 X, Y として「課題因子」と「解決因子」を選択し、属性の値の範囲 (値域)としてそれぞれ固有値上位 p個の課題因子と固有値上位 q個の解決因子を選ぶことになる。

[0094] < 4 5.課題語、解決語の帰属因子の決定 >

次に、データ取得部 110は、各課題語、各解決語の帰属因子をそれぞれ決定する (ステップ S217、 S218)。

例えば、ある課題語 (又は解決語) gの各因子 (但し、上記因子の選定において選定されなかった因子を除く。 )に対する因子負荷量のうち、ある因子 hに対する因子負荷量 a が最大であれば、当該課題語 (又は解決語) gの帰属因子を当該因子 hとす gh

る。なお、この場合、 1つの課題語 (又は解決語)が帰属し得る因子は 1つのみとなる力 1つの因子に帰属する課題語 (又は解決語）は 1つとは限らない。

また、因子負荷量に下限値を設け、ある課題語 (又は解決語) gの因子負荷量の最大値 a 力当該下限値未満であれば、当該課題語 (又は解決語) gはいかなる因子にち' J帚属しな、こととしてちょ、。

[0095] <4-6.マトリクス作成〉

次に、スコア算出部 120は、帰属因子が決定した各課題語、各解決語の組合せごとに、該当技術文書数を計数する (ステップ S220)。例えば、帰属因子が決定した 1 つの課題語と 1つの解決語の両者を文書内又はその要約部内に含む文書を検索する AND検索を実行し、そのヒット文書数を該当技術文書数とする。

[0096] 次に、スコア算出部 120は、各課題因子、各解決因子の組合せごとに、文書数を集計する (ステップ S221)。例えば、ある課題因子に帰属する課題語のうちの 1つと、ある解決因子に帰属する解決語のうちの 1つとの全組合せについて、該当技術文書数を集計する。例えば、ある課題因子に帰属する課題語が Xg、 Xg、 Xgの 3

1 2 3 つであるとし、ある解決因子に帰属する解決語が Yg、 Ygの 2つであるとすれば、

1 2

(Xg , Yg )についての該当技術文書数、

1 2

(Xg , Yg )についての該当技術文書数、

2 1

(Xg , Yg )についての該当技術文書数、

2 2

(Xg , Yg )についての該当技術文書数、 (Xg , Yg )についての該当技術文書数

3 2

を合計したものが、当該課題因子と当該解決因子の組合せに係る文書数となる。

[0097] 因子の組合せごとに文書数を集計する方法はこれに限らず、例えば、上述の因子分析で算出される各文書 iの各因子 hに関する因子得点を f に基づいて各文書が帰

ih

属する因子の組合せを決定し、これに基づ!ヽて文書数を集計しても良、。

[0098] こうして各課題因子と各解決因子の組合せに係る文書数をそれぞれ算出すると、 p 個の課題因子と q個の解決因子の組合せは P X q個であるので、 p行 q列の文書数マトリタスが得られる。

この文書数マトリクスは、課題因子と解決因子の各組合せにっヽて幾つの技術文書が存在するかを示すものであり、ある技術分野でどのような課題及び解決手段が注目されているのかを把握したり、特定の解決因子 (マトリクスのある 1行）に着目して当該技術で解決し得る複数の課題 (用途)を見出したり、特定の課題因子 (マトリクスのある 1列）に着目して当該課題に対する複数の解決手段を見出したりするのに役立つものである。

[0099] 図 6は、第二実施形態で生成される文書数マトリクスの一例を示したものである。この文書数マトリクスは、「半導体装置及びその製造方法」に関するある特許文献 iの類似度上位所定件数の特許文献を抽出し、上述の方法により課題語及び解決語についてそれぞれ因子分析を行って得られたものである。このマトリクスの欄外に、各課題因子及び各解決因子に含まれる課題語群及び解決語群に基づいて分析者が解釈した因子の意味が記載されて、る。

まず、マトリクスを縦に見てみる。特許文献数を縦軸に集計すると、この分析対象文書群の主要な課題が見えてくる。この例では、課題因子 1及び 2の数が大きい。従つて、「半導体装置及びその製造方法」に関する特許文献 iの類似文献群において、主要な課題は微細化と製造管理であると言える。更に、各列で平均出願年を算出すると、課題因子 3は、数は少ないものの比較的新しい特許文献が集中していることがわかる。つまり、主要な課題が微細化や製造管理力消費電力へ移ってきていることがわかる。パーソナルコンピュータ等の設置型の用途から、携帯端末等のバッテリー駆動用途がトレンドになりつつあることが推測される。次に、マトリクスを横に見てみる。課題因子 1に対して、解決因子 1及び 2の特許文献数が多い。つまり、微細化に対してはリソグラフィ及びエッチングが主要な解決手段であることがわかる。また、解決因子 2は課題因子 2に対しても特許文献数が多い。つまり、エッチングは製造管理においても、有効な解決手段になり得る。また例えば課題因子 1における各解決因子の出願人構成を見たり、あるボックスに注目して年ごとの推移を見たりすることによって、種々の分析が可能となる。

上述したとおり、属性の一方を課題因子、他方を解決因子とした場合、課題因子は何らかの用途で起こり得る不都合を表し、解決因子はそれを解消し得る技術であるとすると、課題因子カゝら用途を、解決因子から技術を類推することができる。

更に、ある課題に対する各解決因子を企業別に集計することによって、同一課題に対する各社の技術戦略を分析することができる。

[0100] この p行 q列の文書数マトリクスの各要素（文書数)をスコア σ として、第一実施形態と同様に第 1及び第 2ベクトル群を生成し、それぞれベクトル間の関連性に基づいてベクトルの配置を行うことにより、課題因子及び解決因子の集中や分散の状態を分析できるようにしてもよいが、本第二実施形態では、更に以下のようにしてベクトル群を生成する。

[0101] く 4— 7.増減率マトリクス作成 >

スコア算出部 120は、 ρ行 q列の文書数マトリクスの各要素を、所定期間ごとに分類する (ステップ S222)。例えば特許文書であれば、出願の年ごとに分類したり、複数年ごとに分類したりすることが考えられる。好ましくは、所定時期を境に前後 2期間に分類する。

[0102] 次に、スコア算出部 120は、 p行 q列の文書数マトリクスの各要素について、上記所定期間ごとの分類に基づいて技術文書数の増減率を算出する。上記所定期間ごとの分類が 2期間への分類であった場合には、増減率は p行 q列の文書数マトリクスの各要素につき 1つずつ算出されるので、 p行 q列の増減率マトリクス力^つ生成される。上記所定期間ごとの分類が T期間 (T≥3)への分類であった場合には、隣接する期間ごとに ρ行 q列の増減率マトリクスを生成して (T—1)個としても良いし、平均増減率のマトリクスを 1つ生成しても良い。このようにして生成された増減率マトリクスにより、課題や解決手段のトレンドの変化を察知することができる。例えば、特定の解決因子 (マトリクスのある 1行）に着目して当該技術の用途の変化を見出したり、特定の課題因子 (マトリクスのある 1列）に着目して当該課題に対する解決手段の変化を見出したりすることができる。

[0103] <4 8.ベクトルの生成等 >

以降の処理は第一実施形態と同様であり、第 1及び第 2ベクトル群生成部 130及び 140により、この p行 q列の増減率マトリクスの各要素（増減率)をスコア σ として第 1 及び第 2ベクトル群を生成する（ステップ S230、 S240)。

そして、第 1及び第 2ベクトル関連性算出部 150及び 160により、それぞれベクトル間の関連性を算出し (ステップ S250、 S260)、第 1及び第 2ベクトル配置部 170及び 180により、それぞれベクトルの配置を行う（ステップ S271〜278、 S281〜S288)。なお、第 1及び第 2ベクトル群について、本第二実施形態では、 p個の課題因子に関する q次元ベクトルを「課題因子公報件数増減率ベクトル」と称し、 q個の解決因子に関する P次元ベクトルを「解決因子公報件数増減率ベクトル」と称している。また、第 1及び第 2クラスタについて、本第二実施形態では、それぞれ「課題因子クラスタ」及び「解決因子クラスタ」と称して、る。

こうして増減率マトリクスについてベクトルの配置を行うことにより、課題因子及び解決因子のトレンドに関する集中や分散の状態を分析することができる。

また、マトリクスの各要素を文書数等の増減率とした場合、課題因子 (用途)と解決因子 (技術)の時間的変遷を詳細に把握することが可能となる。特に、マトリクスの中で増減の著し、課題因子 (用途)と解決因子 (技術)を迅速に把握できるよう可視化することができる。更に、件数が増加傾向にある要素を発見できる場合がある。

また、ある課題因子 (用途）について、特定の解決因子 (技術)が増加傾向にあるときは、その用途の主流技術が変化してきたことを察知できる。同様に、ある技術の用途が変化する兆候をつかむことも可能である。このことはシーズである技術の新たなニーズへの転用可能性を意味しており、シーズに基づく技術開発戦略策定の基礎とすることが可能となる。

[0104] < 5.他の実施形態 > なお、本発明は、以上で説明した実施形態に限定されるものではなぐ本発明の要旨の範囲内において種々の変形が可能である。

例えば、第 1実施形態では、マトリクスの各軸に配置される属性は、一方が人的属性であり、他方が技術分野属性である場合について説明し、人的属性の例として出願人を挙げている。しかし、これは例示に過ぎない。人的属性として、発明者等の他の人的情報を利用してもよい。この場合も第 1実施形態と同様の作用効果を奏することがでさる。

また、上記第 2実施形態では、マトリクスの各要素となるスコアに文書数を利用する場合と、文書数等の増減率を利用する場合とを説明したが、特にこれに限定されるものではない。マトリクスの各要素となるスコアに、技術文書のデータに応じた任意のスコアを用いるようにしてもょヽ。

またマトリクスは、分析対象となる 1つの技術文書群に対して 1枚のみ生成しても良いし、あるマトリクスの各要素を例えば所定期間ごとに分類し、当該所定期間ごとのマトリタスに分けることで複数枚のマトリクスを生成しても良い。

そして、所定期間ごとのマトリクスに分ける等により複数枚のマトリクスを生成した場合、マトリクス要素内の特許文献を出願年ごとに追っていくと、分析対象となる文書群のトレンド (例えばある用途に対する技術トレンド)をおおむね把握することができる。更に例えば属性の一方を課題因子、他方を解決因子とした場合、いくつかの用途とそれを構成する技術、そして主要な課題が整理され、いつごろどのような解決手段が主流であつたかを網羅的に把握できる。

Claims

請求の範囲

[1] 少なくとも 2種類の属性をそれぞれ有する技術文書を複数含んだ技術文書群のデータを取得するデータ取得手段と、

前記少なくとも 2種類の属性のうち第 1の属性 Xと第 2の属性 Yとの組合せのそれぞれに属する技術文書のデータに応じたスコアを算出するスコア算出手段と、

前記第 1の属性 Xを横軸に、前記第 2の属性 Yを縦軸にとって前記スコアをマトリクス状に配置したときの、当該マトリクス状の配置における各列に属する前記スコアに基づきベクトルを生成する第 1ベクトル群生成手段と、

前記マトリクス状の配置における各行に属する前記スコアに基づきベクトルを生成する第 2ベクトル群生成手段と、

前記第 2ベクトル群生成手段により生成されたベクトル群について、相互の関連性を算出する第 2べ外ル関連性算出手段と、

前記第 2ベクトル群生成手段により生成されたベクトル群について、前記関連性の高いベクトル同士をより近くに配置する第 2ベクトル配置手段と、を備えた、技術文書属性の関連性分析支援装置。

[2] 請求項 1に記載の技術文書属性の関連性分析支援装置であって、

前記第 1の属性 X及び第 2の属性 Yのうち、一方は各技術文書の人的属性であり、他方は各技術文書の技術分野属性である、技術文書属性の関連性分析支援装置。

[3] 請求項 1又は請求項 2に記載の技術文書属性の関連性分析支援装置であって、前記スコア算出手段は、前記第 1の属性 Xの値 X (j = l, 2, · · · , p)と前記第 2の属性 Yの値 Y (k= l, 2, · · · , q)との組合せ (X , Y )が同一である技術文書の数に基

k j k

づいて、前記スコアを算出する、技術文書属性の関連性分析支援装置。

[4] 請求項 1又は請求項 2に記載の技術文書属性の関連性分析支援装置であって、前記スコア算出手段は、前記第 1の属性 Xの値 X (j = l, 2, · · · , p)と前記第 2の属性 Yの値 Y (k= l, 2, · · · , q)との組合せ (X , Y )が同一である技術文書の各々に k j k

重み付けをして合計することにより、前記スコアを算出する、技術文書属性の関連性分析支援装置。

[5] 請求項 1乃至請求項 4の何れか一項に記載の技術文書属性の関連性分析支援装置であって、

前記第 1ベクトル群生成手段又は前記第 2ベクトル群生成手段は、前記マトリクス状の配置における各列又は各行に属するスコアの各々の対数を成分として含むベタトルを生成する、技術文書属性の関連性分析支援装置。

[6] 請求項 1乃至請求項 5の何れか一項に記載の技術文書属性の関連性分析支援装置であって、

前記第 1ベクトル配置手段は、

前記第 2クラスタ生成手段により生成されたクラスタを構成するベクトル群のうち両端に位置する端部ベクトルの何れかとの関連性が最も高いベクトルを、前記第 2ベタトル群生成手段により生成されたベクトル群のうち前記クラスタ以外のベクトル群から選択して加入ベクトルとし、当該加入ベクトルと関連性が最も高ヽとされた端部べタトルと、当該加入ベクトルとを隣接させることにより、当該加入ベクトルを前記クラスタに加えて前記クラスタを順次拡大させる第 2クラスタ拡大手段と、を備えた、技術文書属性の関連性分析支援装置。

[7] 請求項 6に記載の技術文書属性の関連性分析支援装置であって、

当該ベクトル群のうち相互の関連性が最も高い 2つのベクトルを選択する、技術文書属性の関連性分析支援装置。

[8] 請求項 6又は請求項 7に記載の技術文書属性の関連性分析支援装置であって、前記第 1ベクトル配置手段は、

前記第 2ベクトル配置手段は、前記第 2クラスタ生成手段により生成されたクラスタを構成するベクトル群のうち両端に位置する端部ベクトルと、前記第 2ベクトル群生成手段により生成されたベクトル群のうち前記クラスタ以外のベクトルとの関連性が何れも所定の閾値以下である場合、前記第 2クラスタ拡大手段による前記加入ベクトルの選択と前記クラスタの拡大を中止する、第 2クラスタ拡大中止判定手段と、

前記第 2クラスタ再生成手段により生成された前記他のクラスタを構成するベクトル群のうち両端に位置する端部ベクトルの何れかとの関連性が最も高いベクトルを、前記第 2ベクトル群生成手段により生成されたベクトル群であって前記第 2クラスタ生成手段により生成されたクラスタ以外のベクトル群のうち前記他のクラスタ以外のベタトル群カゝら選択して加入ベクトルとし、当該加入ベクトルと関連性が最も高ヽとされた端部ベクトルと、当該加入ベクトルとを隣接させることにより、当該加入ベクトルを前記他のクラスタに加えて前記他のクラスタを順次拡大させる、第 2クラスタ再拡大手段と、を更に備える技術文書属性の関連性分析支援装置。

[9] 請求項 1乃至請求項 8の何れか一項に記載の技術文書属性の関連性分析支援装置であって、

前記第 1ベクトル配置手段及び前記第 2ベクトル配置手段による配置に基づいてマトリタス状に配置されるスコアの分布状態を、スコアに応じた模様又は色彩を付して表示する表示手段を備えた、技術文書属性の関連性分析支援装置。

[10] 少なくとも 2種類の属性をそれぞれ有する技術文書を複数含んだ技術文書群のデータを取得するデータ取得ステップと、

前記少なくとも 2種類の属性のうち第 1の属性 Xと第 2の属性 Yとの組合せのそれぞれに属する技術文書のデータに応じたスコアを算出するスコア算出ステップと、前記第 1の属性 Xを横軸に、前記第 2の属性 Yを縦軸にとって前記スコアをマトリクス状に配置したときの、当該マトリクス状の配置における各列に属する前記スコアに基づきベクトルを生成する第 1ベクトル群生成ステップと、前記第 1ベクトル群生成ステップにより生成されたベクトル群について、相互の関連性を算出する第 1べ外ル関連性算出ステップと、

前記第 1ベクトル群生成ステップにより生成されたベクトル群について、前記関連性の高いベクトル同士をより近くに配置する第 1ベクトル配置ステップと、

前記マトリクス状の配置における各行に属する前記スコアに基づきベクトルを生成する第 2ベクトル群生成ステップと、

前記第 2ベクトル群生成ステップにより生成されたベクトル群について、相互の関連性を算出する第 2べ外ル関連性算出ステップと、

前記第 2ベクトル群生成ステップにより生成されたベクトル群について、前記関連性の高いベクトル同士をより近くに配置する第 2ベクトル配置ステップと、を備えた、技術文書属性の関連性分析支援方法。

少なくとも 2種類の属性をそれぞれ有する技術文書を複数含んだ技術文書群のデータを取得するデータ取得ステップと、

前記少なくとも 2種類の属性のうち第 1の属性 Xと第 2の属性 Yとの組合せのそれぞれに属する技術文書のデータに応じたスコアを算出するスコア算出ステップと、前記第 1の属性 Xを横軸に、前記第 2の属性 Yを縦軸にとって前記スコアをマトリクス状に配置したときの、当該マトリクス状の配置における各列に属する前記スコアに基づきベクトルを生成する第 1ベクトル群生成ステップと、

前記第 1ベクトル群生成ステップにより生成されたベクトル群について、相互の関連性を算出する第 1べ外ル関連性算出ステップと、

前記第 2ベクトル群生成ステップにより生成されたベクトル群について、前記関連性の高いベクトル同士をより近くに配置する第 2ベクトル配置ステップと、をコンピュータに実行させる、技術文書属性の関連性分析支援プログラム。