WO2000075809A1

WO2000075809A1 - Procede de triage d'informations, trieur d'informations, support enregistre sur lequel le programme de triage d'informations est enregistre

Info

Publication number: WO2000075809A1
Application number: PCT/JP2000/003623
Authority: WO
Inventors: Michihiro Nagaishi; Shinji Miwa
Original assignee: Seiko Epson Corporation
Priority date: 1999-06-04
Filing date: 2000-06-02
Publication date: 2000-12-14
Also published as: EP1102181A4; US7062487B1; AU4954000A; EP1102181A1

Description

明細書情報分類方法及び情報分類装置並びに情報分類処理プログラムを記録した記録媒体技術分野

本発明は汎用の検索サービスで検索された結果に対しクラスタリング処理を施すことで、ユーザに見易い形で提示するようにした情報分類方法及び情報分類装置並びに情報分類処理プログラムを記録した記録媒体に関する。背景技術

ネヅトワーク上に存在する膨大な量の情報の中からユーザの所望とする情報を検索する場合、検索サービスの存在は重要である。たとえば、インタ一ネットで webページを検索する際、ユーザは、幾つかの検索サービスの中から任意の検索サービスを選び、自分の欲しい情報を得るための検索要求としてのキ一ヮ一ドを入力する。これによつて、検索サービス側では、入力されたキーワードに基づいて情報検索を行って、その検索結果をユーザに提示する。

しかし、検索サービスによって検索される情報は膨大な量となることも多く、その中からユーザの本当に欲しい情報を見つけるのは非常に大変である。近年、 webページは増大の一途をたどっているため、検索された多数の情報を如何にュ —ザにわかりやすく提示するかが大きな課題となっている。

最近では、検索された情報をユーザが見やすい形に加工して提示する手法も閧発され実用化されつつある。たとえば、ユーザの入力したキーワードで検索された結果から得られるキ一ヮ一ドを用いて再検索することで、情報の絞り込みを行い、ユーザの所望とする webページを見つけやすくする方法がある。つまり、検索によって得られる検索結果の集合を特徴づけるキ一ヮ一ドを抽出して、ユーザの本当に欲しい情報の集合に収束させる方法である。

このように、膨大な情報の中から、似た情報の集合を見つけることをクラスタリングという。情報処理ではこのクラス夕リングはよく知られた手法であり、膨大な文書を分類する場合などに一般に使われている。

しかし、現在、一般のユーザに広く利用されている検索サービス（汎用検索サ —ビスという）が検索した結果をクラス夕リングすることは行われてはなく、前述したように、入力されたキーワードに基づいて情報を抽出して、抽出された情報を羅列的にユーザに提示するというのが一般的である。したがって、ユーザは、その羅列された多数の情報から自分の欲しい情報を探すという面倒な作業をせざるを得なかった。

そこで本発明は、汎用の検索サ一ビスで得られた検索結果をクラス夕リングすることで、ユーザに対し見易い形での検索情報提示を可能とすることを目的としている。図面の簡単な説明

図 1は、本発明の第 1の実施形態を説明する図であり、ある 1つの検索サ一ビスで得られた検索結果に対してクラス夕リングを行う場合の情報分類装置の構成を説明するプロック図である。

図 2は、本発明の第 1の実施形態で用いられる、ある検索サービスで検索された検索結果としての複数の文書例を示す図である。

図 3は、図 1で示されたクラス夕リング処理部の構成を示すプロヅク図である。図 4は、第 1の実施形態における文書分類処の手順を概略的に説明するフローチヤ一トである。

図 5は、図 2で示されたそれそれの文書のタイトルから抽出された特徴要素とその特徴要素をタイトルに含む文書との関係を示す特徴テーブルの内容の示す図である。

図 6は、図 5の特徴テーブルを基にしてそれそれの文書を分類した分類結果を示す図である。

図 7は、図 6の分類結果に基づいてそれそれの文書の夕ィトルをクラスタリングした例を示す図である。

図 8は、選択されたある 1つの検索サービスから得られた検索結果に対してクラスタリングを行う場合の情報分類装置の構成を説明するブロック図である。図 9は、複数の検索サービスから得られた検索結果に対してクラスタリングを可能とする場合の情報分類装置の構成を示すものである。

図 1 0は、本発明の第 2の実施形態を説明する構成図である。

図 1 1は、ある検索サービスで検索された検索結果としての複数の文書をクラス夕リングした結果の一例を示す図である。

図 1 2は、本発明の第 2の実施形態における情報分類処理手順を概略的に説明するフロ一チヤ一トである。

図 1 3は、図 1 1で示されたクラス夕リング結果をクラス夕順位再構成処理した結果を示す図である。

図 1 4は、本発明の第 3の実施の形態を説明する構成図である。

図 1 5は、本発明の第 3の実施形態における情報分類処理手順を概略的に説明するフローチャートである。

図 1 6は、図 1 1で示されたクラスタリング結果とその概要一覧表を表示した例を示す図である。

図 1 7は、 U R Lアドレスでクラス夕リング処理して得られたクラス夕リング結果とその概要一覧表を表示した例を示す図である。発明の開示

前述の目的を達成するために、本発明の情報分類方法は、検索サービスで検索された複数の検索結果をクラス夕リングモジュールが取得して、そのクラスタリングモジュールでは、その検索結果に対しクラス夕リング処理を施し、そのクラス夕リング処理結果を出力するようにしている。

この情報分類方法において、前記検索サービスで検索された検索結果を前記クラスタリングモジュールが処理可能な形式に変換する変換モジュ一ルを備えるようにしている。

そして、前記変換モジュールは、クラスタリング処理を複数の検索サービスに対応して行う場合、複数の検索サービスそれぞれに対応して設けられる。

このとき、複数の検索サービスのいずれかを選択的に用いて検索処理を行い、選択された検索サービスで検索された検索結果に対してクラス夕リング処理を行うことも可能であり、また、前記複数の検索サービスの少なくとも 2つの検索サ —ビスを用いて並行的な検索処理を行い、それそれの検索結果を収集して、その収集された検索結果に対してクラス夕リング処理を行うことも可能であり、さらに、前記複数の検索サービスの少なくとも 2つの検索サービスを用いて並行的な検索処理を行い、それそれの検索結果に対し個別にクラスタリング処理を行うことも可能である。

また、前記検索結果に対しクラスタリング処理を行う際、クラスタリング対象とする情報は、それそれの検索結果における文書のタイトル、 U R Lアドレス、更新日時、ファイルサイズの少なくとも 1つとしている。

また、本発明の情報分類方法において、前記クラスタリング処理結果に対し、検索されたそれそれの文書対応に付された検索要求との適合性を示すスコアを用いて、前記クラスタリング処理結果のクラス夕の順位を再構成し、そのクラスタ順位が再構成されたクラスタリング結果を出力することもできる。

さらに、前記それぞれのクラスタの順位を再構成する処理は、それそれのクラス夕に含まれるそれそれの文書対応に付されたスコアの平均値をそれそれのクラスタごとに求め、クラスタごとの平均値をそれそれのクラスタのクラスタスコアとし、そのクラス夕スコアによって、クラスタの順位を再構成するものである。また、前記それそれのクラスタの順位を再構成する処理は、それそれのクラス夕に含まれるそれそれの文書対応に付されたスコアの最大値をそれそれのクラス夕ごとに得て、そのクラス夕ごとのスコアの最大値をそれそれのクラスタスコアとし、そのクラス夕スコアによって、クラスタの順位を再構成してもよい。また、前記それそれのクラス夕の順位を再構成する処理は、それそれのクラスタに含まれるそれぞれの文書がそれそれの文書対応に付されたスコアの大きい順に並べられている場合、その中央または中央付近に位置するスコアをそれそれのクラスタごとに得て、そのクラスタごとの中央または中央付近に位置するスコアをそれそれのクラスタスコアとし、そのクラス夕スコアによって、クラス夕の順位を再構成してもよい。

また、前記クラス夕リング処理を複数の検索サービスによって得られた検索結果に対応して行うことを可能とする場合、前記クラスタの順位を再構成するためのクラス夕スコアを求める処理は、複数の検索サービスそれそれに対応して行つてもよい。

また、前記クラスタリング処理は、それそれの文書のタイトルを検出し、その夕ィトルに含まれる特徴的な用語を特徴要素として抽出し、抽出された特徴要素に基づいて行ってもよい。

また、前記クラス夕順位が再構成されたクラス夕リング結果の出力の仕方は、クラス夕スコアの高いクラスタ順に表示し、クラス夕スコアが同じであるクラス夕が存在する場合には、クラス夕内の文書数の多いクラスタを高順位とすることができる。

また、本発明の情報分類方法において、前記クラス夕リング処理結果に対し、クラスタリング処理結果の概要を表すクラスタリング結果概要一覧表を作成し、そのクラスタリング結果概要一覧表を前記クラス夕リング処理結果とともに出力してもよい。

ここで、前記クラス夕リング結果概要一覧表は、クラスタリング処理されることによって得られたそれそれのクラスタのクラスタ名によって構成される。

また、前記クラスタリング結果とクラス夕リング結果概要一覧表とを相互にリンクし、クラス夕リング結果概要一覧表の所定のクラスタ名部分が指示されると、前記クラスタリング結果の対応するクラスタ部分の表示を可能とし、クラス夕リング結果の或るクラスタ部分を指示すると、クラスタリング結果概要一覧表の表示を可能とする。

さらに、前記クラス夕リング結果概要一覧表の或るクラスタ名部分が指示されることによって、前記クラスタリング結果内の対応するクラスタ部分の表示を行う際、そのクラスタを囲む枠の最上部またはそれより 1つ手前に存在するクラス夕の枠内に存在する最終行部分を先頭にした表示を行っている。

また、前記クラス夕リング結果の或るクラスタ部分が指示されることによって、前記クラス夕リング結果概要一覧表の表示を行う際、クラスタリング結果概要一覧表の先頭部分からの表示を行っている。

また、前記クラスタリング結果概要一覧表を構成するそれそれのクラス夕名の配列順序は前記クラス夕リング結果内のクラスタ配列順序に従うこととしている。また、前記クラス夕リング結果概要一覧表の表示を行う際、前記クラスタリング結果のそれそれ対応するクラス夕の重要度に応じて、クラス夕リング結果概要一覧表上におけるクラスタ名の表示の仕方を変えている。

さらに、クラスタリング対象となる複数の文書が、ユーザの与えたキーワードによって検索された文書である場合、ュ一ザの与えたキ一ヮ一ドを含むクラスタ名は前記クラス夕リング結果概要一覧表上においてそのクラスタ名の表示の仕方を他のクラス夕名とは異ならせている。

また、本発明の情報分類装置は、検索サービスで検索された複数の検索結果が入力され、入力された複数の検索結果に対してクラス夕リング処理を施し、そのクラスタリング処理結果を出力するクラスタリングモジュールを含むものである。また、前記検索サービスで検索された検索結果を前記クラス夕リングモジュ一ルが処理可能な形式に変換する変換モジュールをさらに備えることもできる。また、前記クラスタリングモジュールによって得られたクラスタリング結果に対し、検索されたそれぞれの文書対応に付された検索要求との適合性を示すスコァを用いて、前記クラス夕リング処理によって得られたそれそれのクラス夕の順位を再構成し、そのクラスタ順位が再構成されたクラスタリング結果を出力するクラスタ順位設定モジュールとを有することもできる。

また、前記クラスタリングモジュールによって得られたクラス夕リング結果に対し、クラスタリング結果の概要を表すクラスタリング結果概要一覧表を作成する概要一覧表作成部と、

そのクラスタリング結果概要一覧表を前記クラスタリング結果とともに出力する表示制御モジュールとを有することもできる。

また、本発明の記録媒体は、検索サービスで検索されたユーザの検索要求に対する複数の検索結果をクラス夕リングモジュールがクラスタリング処理してそのクラスタリング処理結果を出力する情報分類プログラムを記録した記録媒体であつて、

その情報分類プログラムは、前記検索サービスからの検索結果を取得する手順と、

取得した検索結果に対してクラス夕リング処理を施し、そのクラス夕リング処理結果を出力する手順とを含んでいるものである。

ここで、前記検索サービスで検索された検索結果を前記クラスタリングモジュ —ルが処理可能な形式に変換する手順を行った後に、前記クラスタリング処理を行うこともできる。

また、前記クラスタリング処理によって得られたクラスタリング処理結果に対し、検索されたそれそれの文書対応に付された検索要求との適合性を示すスコアを用いて、前記クラスタリング処理によって得られたそれそれのクラスタの順位を再構成し、そのクラスタ順位が再構成されたクラスタリング結果を出力する手順とを含んでなるものである。

また、前記クラスタリング処理によって得られたクラスタリング処理結果に対し、クラス夕リング結果の概要を表すクラスタリング結果概要一覧表を作成する概要一覧表作成手順と、

そのクラス夕リング結果概要一覧表を前記クラス夕リング結果とともに出力する手順とを含むものである。発明を実施するための最良の形態

以下、本発明の実施の形態について説明する。なお、この実施の形態で説明する内容は、本発明の情報分類方法および情報分類装置についての説明であるとともに、本発明の情報分類処理プログラムを記録した記録媒体における情報分類処理プログラムの具体的な処理内容をも含むものである。

(第 1の実施形態）

図 1は本発明の第 1の実施形態を示すもので、大きく分けると、検索サービス 1、変換モジュール 2、クラスタリングモジュール 3とから構成され、変換モジユール 2とクラス夕リングモジュール 3が情報分類装置に相当する。

検索サービス 1はィンタ一ネヅトなどで一般に広く使用されている汎用の検索サービスであり、ユーザからの検索要求としてのキーヮ一ドが入力されることにより、たとえば webページなどから、入力されたキーワードに基づいた情報検索を行う。この検索サービス 1で検索された検索結果はファイル形式で出力され、クラスタリングモジュール 3に渡されるが、検索サ一ビス 1は複数存在し、それそれの検索サービスによって出力されるデータ形式が異なるので、どのような検索サ一ビスからのファイルであってもその内容を読めるような形式にファイルを変換するために変換モジュール 2が設けられる。

クラス夕リングモジュール 3は、検索サービス 1により出力された検索結果フアイル内容（変換モジュール 1による変換後のファイル内容）からクラスタリングするために必要な情報（クラスタリング対象情報という）を抽出するクラス夕リング対象情報抽出部 3 1、そのクラスタリング対象情報として抽出された情報を形態素解析する形態素解析部 3 2、その形態素解析結果に基づいてクラスタリングを行うクラス夕リング処理部 3 3などを有している。

クラスタリング対象情報抽出部 3 1は、変換モジュール部 2で変換された検索エンジン 1の検索結果から、クラスタリング対象情報を抽出するものであり、このクラスタリング対象情報としては幾つか考えられる（後述する）。この実施の形態では、検索結果として抽出された多数の文書のそれそれのタイトル（見出し）をクラスタリング対象情報として抽出するものとする。たとえば、検索結果として図 2に示すような複数の文書 D 1， D 2 , · · ·， D 7が得られたとする。これら文書 D l， D 2 , · · ·， D 7はタイトル T l , T 2 , · · ·， T 7と、それに対する本文 A l , A 2 , · · ·， A 7を持っているものとする。

クラスタリング対象情報抽出部 3 1は、このような検索結果に対し、それそれの文書 D l , D 2 , · · ·， D 7を解析し、それそれの文書のタイトルを検出する。このクラスタリング対象情報抽出部 3 1が行う夕ィトルの検出は、具体的には次のようにして行う。

まず、第 1の方法として、文書構造様式によってタイトルと規定される部分があればその部分をタイトルとする。また、第 2の方法として、文書構造様式によつて、標準より大きな文字で表示する指定がなされている部分があれば、その部分を夕ィトルとする。また、第 3の方法として、定められた数の文または単語を文書先頭より抽出し、その抽出した部分を夕ィトルとする。さらには、これら第 1、第 2、第 3の方法を順次行い、第 1の方法を行ったとき、タイトルと規定されている部分があればその部分を夕ィトルとし、夕ィトルと規定される部分が存在しなければ、第 2の方法を行い、標準より大きな文字で表示する指定がなされている部分があれば、その部分をタイトルとし、標準より大きな文字で表示する指定がなされていなければ、第 3の方法を行って夕ィトルを抽出する。

形態素解析部 3 2は、クラスタリング対象情報抽出部 3 1でそれそれの文書からタイトルとして抽出された部分を形態素解析する。

クラスタリング処理部 3 3は、図 3に示すように、特徴要素抽出部 3 3 1、特徴テーブル作成部 3 3 2、文書分類部 3 3 3、分類結果記憶部 3 3 4、出力制御部 3 3 5、表示部 3 3 6などを有している。特徴要素抽出部 3 3 1は、形態素解析部 3 2で形態素解析された結果から特徴要素を抽出する。

特徴テーブル作成部 3 3 2は、特徴要素抽出部 3 3 1で抽出された特徴要素とそれぞれの文書 D 1〜D 7との関係を示す特徴テーブルを作成する。なお、この特徴テーブルの具体的な内容については後述する。

文書分類部 3 3 3は、上述の特徴テ一ブルの内容を参照し、文書 D 1，D 2， · · ·， " D 7を意味的に共通性のある複数のクラス夕に分類する。つまり、文書 D l , D 2 , · · · ， D 7のそれそれのタイトル T 1 , T 2， · · · ， T 7に存在する特徴要素に基づいて、共通する特徴要素を持つ文書を 1つのまとまりとし、そのまとまりを 1つのクラスタとする。なお、この文書分類部 3 3 3は同義特徴辞書（図示せず）を有し、共通する特徴要素を持つ文書を 1つのまとまりとする処理を行う際、共通する特徴要素であるか否かの判断を、その同義語辞書を用いて同義語が有るか否かにより行い、同義語が存在する場合にはそれを同じクラス夕とするというようなことを行うことも可能である。

分類結果記憶部 3 3 4は、文書分類部 3 3 3によって分類された内容を記憶する。出力制御部 3 3 5は分類結果記憶部 3 3 4の内容を読み出して分類結果として表示部 3 3 6に表示させる。

このような構成において、本発明の情報分類処理について説明する。本発明が行う情報分類処理手順は概略的には、図 4のフローチャートに示すように、まず、汎用の検索エンジンで検索された検索結果を取得し（ステップ S 1 ) 、取得した検索結果に対しクラス夕リング処理を施し（ステップ S 2 ) 、そのクラスタリング処理結果を出力する（ステップ S 3 ) 。以下、具体例を参照しながら詳細に説明する。ここでは、ユーザの入力したキーワードによって図 2で示した文書 D 1 , D 2， · · ·， D 7が検索結果として検索サービス 1から出力されたとする。この検索結果はファイル形式で出力され、変換モジュール 2でクラス夕リングモジュール 3が処理できる形式に変換されたのち、クラスタリングモジュール 3に与えられる。

クラスタリングモジュール 3に入力されたこれらの文書 D 1， D 2 , . ■ ·， D 7は、クラス夕リング対象情報抽出部 3 1にてタイトルが抽出される。たとえば、文書 D 1についてはタイトル T 1が検出され、文書 D 2についてはタイトル T 2が検出され、文書 D 3についてはタイトル T 3が検出されるというように、それそれの文書 D 1 , D 2 , · · ·， 0 7の夕ィトル1 1 , T 2 , · · · , T 7 が抽出される。

そして、形態素解析部 3 2によってそれそれの夕ィトル T 1， T 2， · · ·， T 7が形態素解析されたのち、その形態素解析結果がクラス夕リング処理部 3 3 に与えられる。クラス夕リング処理部 3 3では、特徴要素抽出部 3 3 1によって、形態素解析部 3 2からの形態素解析結果に基づいて、それそれの夕ィトル T 1， T 2 , · · · , T 7に存在する特徴要素が抽出される。

そして、特徴テーブル作成部 3 3 2により、それそれの特徴要素とその特徴要素をタイトルに含む文書との関係を示す特徴テーブルが作成される。この特徴テ —ブルの例を図 5に示す。なお、ここでは、文書数が 3つ以上取り出される特徴要素とその特徴要素をタイトルに含む文書との関係を示し、特徴テーブル内に示される数値は、その特徴要素が各文書のタイトルに幾つ含まれるているかの数を示している。たとえば、「用紙」という特徴要素は、文書 D 1 , D 4 , D 6 , D 7のタイトル T l， Τ 4， Τ 6、 Τ 7に、それそれ 1個ずつ含まれていることを示している。

図 5の特徴テーブルからもわかるように、「用紙」という特徴要素をタイトルに含む文書は、文書 D 1， D 4 , D 6 , D 7であり、また、「カセット」という特徴要素をタイトルに含む文書は、文書 D 1， D 4 , D 7であり、さらに、「増設」という特徴要素をタイトルに含む文書は、文書 D 2， D 3 , D 5 , D 7である。なお、先に説明した図 2において、これら各特徴要素部分にはアンダーラインが施されている。

そして、文書分類部 3 3 3はこのような特徴テーブルを参照して、それそれの特徴要素ごとのクラス夕リングを行う。その分類結果を図 6に示す。

このような分類結果は分類結果記憶部 3 3 4に格納される。図 6に示される分類結果において、たとえば、「用紙」で分類されたクラス夕（文書 D l， D 4 , D 6 , D 7が含まれる）について見れば、図 2の文書内容からもわかるように、文書 D 1は用紙カセットについての内容であり、文書 D 4は用紙設定についての内容であり、文書 D 6は印刷された後の用紙の汚れについての内容であり、文書 D 7は用紙カセッ卜の増設についての内容である。

このように、これらの文書 D l， D 4 , D 6 , D 7はどれも用紙に関する内容であり、 1つのクラス夕として分類されて何等問題のないものとなり、その分類結果は適切であるといえる。

また、「力セット」で分類されたクラスタ（文書 D 1， D 4， D 7が含まれる）について見れば、図 2の文書内容からもわかるように、文書 D 1は用紙カセットについての内容であり、文書 D 4は用紙設定についての内容であり、文書 D 7は用紙カセヅトの増設についての内容である。

また、このように、これらの文書 D l , D 4 , D 6 , D 7にはどれも用紙をセットすることに関する内容が含まれており、 1つのクラス夕として分類されて何等問題のないものとなり、その分類結果は適切であるといえる。

また、「増設」で分類されたクラスタ（文書 D 2， D 3， D 5， D 7が含まれる）について見れば、図 2の文書内容からもわかるように、文書 D 2はメモリの増設についての内容であり、文書 D 3はインタフエースカードの増設についての内容であり、文書 D 5はハードディスクの増設についての内容であり、文書 D 7 は用紙カセヅ卜の増設についての内容である。

このように、これらの文書 D 2， D 3 , D 5 , D 7はどれも何かを増設する場合についての内容であり、 1つのクラス夕として分類されて何等問題のないものとなり、その分類結果は適切であるといえる。

このような適切な分類が行える理由としては、それそれの文書のタイトルから特徴要素を抽出し、その特徴要素に基づいて文書を分類しているからである。つまり、文書のタイトルは、その文書の作成者がその文書の主旨を表す内容を表現していることが多い。したがって、文書のタイトルに含まれる特徴要素を用いて分類を行うことにより、分類結果が散漫になることが少なく、また、ノイズクラス夕が生成される率も少なくすることができる。また、各文書のタイトルは、その文書の作成者がその文書の主旨を表す内容を表現していることから、文書の制作者側の視点による分類が得られる。

なお、ユーザに実際に提示されるクラス夕リング結果は、たとえば図 7に示すような内容であり、それそれの特徴要素とその特徴要素を有するタイトルの一覧が提示される。そして、ユーザはこのようなクラスタリング結果の一覧を見て、自分の欲しい情報の入っていそうなタイトル部分をクリヅクすれば、そのタイトルに対応する本文が表示されるというような表示処理がなされる。

このように、この実施の形態では、ユーザがある汎用の検索サービスを利用し、その検索サ一ビスに何らかのキ一ヮ一ドを入力することによって、複数の文書 D 1， D 2， · · · ， D 7が検索された場合、これら複数の文書 D l， D 2 , · · ·， D 7のタイトル T l， Τ 2 , · · · , Τ 7を抽出し、そのタイトルに含まれる特徴要素に基づいて、それぞれの文書 D l， D 2， · · · ， D 7に対しクラスタリング処理を行う。

これによつて、従来では、検索サービスによって検索された検索結果は単に羅列的に提示されるだけであったものが、本実施形態においては、検索された検索結果のタイトル内容に基づいたクラス夕リング結果をユーザに提示できる。そのクラスタリング結果（図 7参照）は、それそれのタイトルに含まれる特徴要素ごとにそれそれの夕ィトルが分類された内容となり、ュ一ザが見易いように整理されたものとなる。

そして、その中から見たい情報があれば、タイトル部分をクリヅクすれば、それそれのタイトルを有する文書を表示させることができる。

また、これまでの説明では、ある 1つの汎用の検索サービスで検索された結果をクラスタリング処理する場合について説明したが、複数の検索サービスにより検索された結果をクラスタリング処理する場合にも適用できる。

検索サービスはそれそれに得意の分野があることも多く、たとえば、ある検索サービスはスポーツ関係の情報を多数保有し、ある検索サービスは学術関係の情報を多数保有し、また、ある検索サービスは芸能関係の情報を多数保有しているというように、それそれの得意の分野が存在する場合も多い。これらそれそれの得意分野については豊富な情報を所有しており、ユーザの所望とする情報が適切に取り出される可能性が高い。したがって、情報検索を行う際は、検索サービスを使い分けることも普通に行われる。このように、複数の検索サービスを用いる場合のクラスタリング処理について以下に説明する。

図 8は複数の検索サービスを用いてこれまで説明したクラスタリング処理を行うための情報分類装置の構成を説明する図であり、ここでは、複数の検索サービスとして第 1の検索サービス 1 a，第 2の検索サービス l b，第 3の検索サ一ビス 1 cの 3つの検索サービスが存在するものとする。

このように複数の検索サービス（ここでは検索サービス 1 a， l b， l c ) を対象とする場合には、それそれの検索サービスにより検索された検索結果の内容、長さ、検索結果出力順序などがまちまちなので、それそれの検索サービス 1 a， l b， l cからのファイルをクラス夕リングモジュール 3で処理可能な形式に変換する変換モジュール 2 a， 2 b . 2 cを検索サービス l a， l b， 1 cに対応して用意する。なお、クラス夕モジュール 3の構成は図 1と同じであるので同一部分には同一符号が付されている。

このような構成であれば、ュ一ザは検索しょうとする情報の分野に応じて検索サービスを使い分けることができる。たとえば、第 1の検索サービス 1 aがスポ —ッ関係の情報検率に向いている検索サービスであるとすれば、スポーツ関係の情報を検索しょうとする場合、第 1の検索サービス 1 aを用いて検索を行う。また、第 2の検索サービス 1 bが学術関係の情報検索に向いている検索サービスであるとすれば、学術関係の情報を検索しょうとする場合、第 2の検索サービス 1 bを用いて検索を行う。

このように、ユーザは検索しょうとする情報によって検索サービスを選択することができ、しかも、それによつて検索された結果は、クラスタリングモジュ一ル 3によってクラスタリング処理がなされ、ユーザが見やすいように整理された状態で提示できる。なお、このクラスタリング処理については、すでに説明したのでここではその説明は省略する。

このように複数の検索サ一ビスを選択的に使用できるようにすれば、それそれの得意分野に応じた検索が可能となるばかりでなく、ある 1つの検索サービスが混み合っているような場合には、他の検索サービスに切り換えて検索を行うというような柔軟な検索も可能となる。

さらに、複数の検索サービスによる検索処理を並行に行い、それそれの検索サ —ビスによる検索結果を 1つにまとめて、まとめられた内容についてクラスタリング処理することも可能である。これを図 9により簡単に説明する。

図 9の構成は図 8の構成において、第 1〜第 3の検索サ一ビス 1 a , 1 b , 1 cに対応して設けられた変換モジュール 2 a、 2 b， 2 cとクラスタリングモジユール 3との間に、それそれの検索結果を収集して 1つにまとめる検索結果収集部 4を設けた構成となっている。その他は、図 8と同じ構成であり、同一部分には同一符号が付されている。

このような構成であれば、複数の検索サービス（ここでは第 1〜第 3の検索サ一ビス l a， l b， 1 c )では、ユーザの入力したキーワードに対して並行して検索処理を行い、それそれの検索サービス 1 a， l b， l c によって検索されたそれぞれの検索結果を、それそれの検索サービス 1 a， 1 b , 1 c に対応する変換モジュール部 2 a， 2 b , 2 cでクラスタリングモジュール 3が処理可能な形式に変換し、それそれの変換後のファイルを検索結果収集部 4に与え、それぞれの検索結果を 1つにまとめる。そして、そのまとめられた検索結果は、クラスタリングモジュール 3に入力され、これまで説明したようなクラスタリング処理を行う。

このように、複数の検索サービスを用いて検索処理を行うことにより、 1つの検索サービスでは検索できなかつた幅広い情報を取得することも可能である。また、検索範囲が広がるので、網羅的に情報を探すことができ、どのような情報が世の中に存在するのかを見極めるのに非常に有効となる。このようにして得られた情報は、これまで説明したようなクラスタリング処理がなされ、見やすい形でユーザに提示される。

また、この図 9に示した第 1〜第 3の検索サービス 1 a , l b , l cを用いて検索処理を並行して行うような場合、それそれの検索サービス 1 a， l b , 1 c で得られた検索結果（変換モジュール 2 a， 2 b， 2 c出力）を 1つにまとめたあと、クラス夕リング処理を行うのではなく、それそれの検索サービス 1 a， 1 b， 1 cで得られた検索結果（変換モジュール 2 a , 2 b， 2 c出力）それそれについてクラス夕リング処理を行い、それそれのクラスタ処理結果をユーザに提示するようにしてもよい。

これによつて、広範囲にわたって存在する情報を効率よく検索することが可能となり、また、ユーザは第 1〜第 3の検索サービス 1 a， l b， l cによるそれそれの検索結果のそれそれのクラスタリング結果を見比べたりすることができ、それそれの検索サ一ビスの特色などを知ることもできる。

なお、本実施形態は、上記の内容に限定されるものではなく、上記の要旨を逸脱しない範囲で種々変形実施可能となるものである。たとえば、上述の実施の形態では、クラス夕リングを行うための情報（クラスタリング対象情報）として、検索されたそれぞれの文書のタイトルを用いた例について説明したが、これは、タイトルだけでなく、たとえば、 U R Lアドレス（http:〃を取り除いた部分）、更新日時（単純な時間または最近 1力月以内の更新日時）、ファイルサイズ（web ページ本文のバイトサイズなど）を用いてクラス夕リングすることもできる。また、これらは、単独で用いてクラスタリングするようにしてもよく、幾つかを組み合わせてもよい。このように、クラスタリング対象情報を種々選ぶことによつて、それそれに応じた特色のあるクラスタリングが行える。そして、これらのどれを用いるかは、最初にメニューなどで選択項目を選ぶことで可能となる。また、選んだ項目が無い場合には、他の項目を代用する。たとえば、タイトルを選んだ場合、 webページにタイトルが無い場合には、 U R Lアドレスを代用する。

また、本実施形態における情報分類処理を行う処理プログラムは、フロッピィディスク、光ディスク、ハードディスクなどの記録媒体に記録させておくことができ、本発明はその記録媒体をも含むものである。また、ネットワークから処理プログラムを得るようにしてもよい。

(第 2の実施形態）次に、本発明の第 2の実施形態について説明する。

第 1の実施形態の説明において述べたように、文書のタイトルから特徴要素を抽出してクラスタリングする手法は、演算量や処理時間の面で優れ、適切なクラスタリングが可能となるが、クラスタリングを行うための情報量は文書全体から見れば少ないので、全てが適切にクラス夕リングされるとは限らない。特に、タィトルが文書の内容を適切に表していなかったり、文書内容とは大きくかけ離れた奇抜なタイトルが付けられていたりする場合が考えられる。このような場合には、クラスタリング精度は大きく低下し、良好なクラスタリング結果は得られないことになる。

また、特徴要素を抽出して、その特徴要素に基づいてクラスタリングする手法は、特徴要素の頻度などを調べ、それによつて、機械的に文書を分類してクラスタリングするものである。このようなクラスタリングでは、文書の意味を解析しているわけではないので、得られたクラスタ（クラスタリングされることによつて得られる文書群の 1つの集合）が必ずしも意味的な共通性のある文書の集合となるとは限らない。

情報分類においては、以上のような場合であっても、ユーザの検索要求に沿つたクラスタリング結果を提示できるようにすることが好ましい。

本実施形態においては、汎用の検索サービスで得られた検索結果をクラスタリング処理を施し、かつ、クラスタリングによって得られたクラス夕の順位を再構成して表示することで、ユーザの検索要求に沿ったクラス夕リング結果を提示できるようにしている。

以下に、この第 2の実施形態について詳細に説明する。

図 1 0は、第 2の実施形態をの装置構成を示すもので、大きく分けると、検索サービス 1 0 1、変換モジュール 1 0 2、クラス夕リングモジュール 1 0 3、クラス夕順位再構成モジュール 1 0 4とから構成され、変換モジュール 1 0 2、クラス夕リングモジュール 1 0 3、クラスタ順位再構成モジュール 1 0 4が情報分類装置に相当し、特に、クラスタ順位再構成モジュール 1 0 4を設けた点に本実施形態の特徴がある。

検索サービス 1 0 1はィンタ一ネットなどで一般に広く使用されている汎用の検索サ一ビスであり、ユーザからの検索要求としてのキ一ヮ一ドが入力されることにより、たとえば webページなどから、入力されたキ一ワードに基づいた情報検索を行う。この検索サービス 1 0 1で検索された検索結果はファイル形式で出力され、クラスタリングモジュール 1 0 3に渡されるが、複数の検索サービスが存在する場合、それそれの検索サービスによって出力されるデ一夕形式が異なるので、どのような検索サ一ビスからのファイルであってもその内容を読めるような形式にファイルを変換するために変換モジュール 1 0 2が設けられる。

クラス夕リングモジュール 1 0 3は、検索サ一ビス 1 0 1により出力された検索結果（変換モジュール 1 0 2による変換後のファイル内容）に対しクラスタリング処理を行うもので、この実施の形態では、それそれの文書から文書のタイトルを抽出し、そのタイトルに含まれる特徴的な用語を特徴要素として抽出し、抽出された特徴要素に基づいてクラス夕リング処理を行う。

具体的には、それそれの文書から夕ィトルとして抽出された部分を形態素解析し、形態素解析された結果から特徴的な用語を特徴要素として抽出する。その後、抽出された特徴要素とそれそれの文書との関係を示す特徴テーブルを作成する。この特徴テーブルは、たとえば、抽出されたそれそれの特徴要素が各文書のタイトルに幾つ含まれるているかを、それそれの特徴要素とそれそれの文書と対応づけて示すもので、一例として、それそれの文書のタイトルから、「概要」、「L P」、「仕様」、「デバイス」、「半導体」、「電子」というような特徴要素が抽出されたとすると、これらの特徴要素が、それそれの文書のそれそれの夕イトルに、それそれ何個含まれているかを示す内容となっている。

このような特徴テーブルに基づいて、多数の文書を意味的に共通性のある複数のクラス夕に分類する。つまり、それそれの文書のそれそれの夕ィトルに存在する特徴要素に基づいて、共通する特徴要素を持つ文書を 1つのまとまりとし、そのまとまりを 1つのクラスタとする。

このクラス夕リングモジュール 1 0 3から、たとえば、図 1 1のようなクラスタリング結果が出力されたとする。この図 1 1は、前述したように、クラスタリングされることによって得られた各クラス夕の名称（上述の特徴要素に相当し、それをここではクラスタ名と呼んでいる）と、そのクラスタに属するそれそれの文書のタイトルと、そのクラス夕には幾つの文書が含まれているかを示す文書数、さらには、前述したように、それそれのタイトルごとにスコアを示す数値などが一覧表形式で示されている。

なお、このスコアは、前述したように、与えられたキーワードとそれそれの文書との適合度を示す客観的な尺度として用いられ、ここでは、値が大きいほど、与えられたキーワードに適合する内容を有する文書であるとする。このスコアはキーワードとの適合度を表すものであるので、その単位しては、％や点数など検索サ一ビスによって異なるがこの実施の形態では点数で表すものとする。

そして、このクラス夕リングモジュール 1 0 3によってクラス夕リングされた段階のクラスタリング結果は、図 1 1に示されるように、クラスタの配置はそれそれのクラスタに含まれる文書の数の多い順となっている。前述したように、この場合、上から順に、概要クラスタ、 L Pクラスタ、仕様クラス夕、デバイスクラスタ、半導体クラスタ、電子クラスタの順となっている。

クラス夕順位再構成モジュール 1 0 4は、クラス夕リングモジュール 1 0 3で出力されたクラス夕リング結果に基づいて、それそれのクラス夕の表示順位を再構成するもので、その処理内容の詳細については後に説明する。

このような構成において、本発明の第 2の実施形態について説明する。

本実施形態において行う情報分類処理手順は概略的には、図 1 2のフローチヤートに示すように、まず、汎用の検索サービス 1 0 1で検索された検索結果を取得し（ステップ 1 2 S 1 ) 、取得した検索結果に対しクラスタリング処理を施し (ステップ 1 2 S 2 )、そのクラス夕リング結果を出力する（ステップ 1 2 S 3 )。そして、そのクラスタリング結果に対し、それそれのクラスタ順位の再構成を行レ、（ステヅブ 1 2 S 4 ) 、再構成されたクラスタリング結果を出力する（ステヅプ 1 2 S 5 ) 。以下、具体例を参照しながら詳細に説明する。

この実施の形態では、クラス夕リングモジュール 1 0 3が行うクラス夕リング処理は、検索サービス 1 0 1で検索された文書に対し、それそれの文書のタイトルを抽出し、そのタイトルから特徴要素を抽出して、抽出された特徴要素とそれそれの文書との関係を示す特徴テーブルを作成して、その特徴テーブルの内容に基づいて、それそれの文書を意味的に共通性のある複数のクラス夕に分類する。また、この実施の形態では、ユーザが「半導体」というキ一ワードを検索要求として検索サービス 1 0 1に入力し、それによつて得られた多数の文書がクラス夕リングモジュール 1 0 3によってクラスタリングされ、そのクラス夕リング結果が図 1 1に示すような結果であったとする。

このクラス夕リングモジュール 1 0 3からのクラス夕リング結果は、クラス夕順位再構成モジュール 1 0 4に入力され、以下に示すような処理がなされる。まず、図 1 1で示されるクラスタリング結果における各クラス夕（概要クラス夕、 L Pクラスタ、仕様クラス夕、デバイスクラス夕、半導体クラスタ、電子クラスタ）において、それそれのクラスタに含まれる文書対応に付されたスコアを利用して、そのスコアの値の平均を求める。この場合、それそれのクラスタごとにスコアの値を足し算し、その足し算して得られた結果をそのクラス夕に含まれる文書数で割る単純平均を求める。

たとえば、概要クラスタで考えると、この図 1 1に示す検索結果においては、そのクラス夕内のスコアの合計が 5 7 9点あって、文書数が 1 6個であるので、平均のスコアは約 3 6点と求められる。また、「L P」クラスタで考えると、そのクラスタ内のスコアの合計が 4 5 0点であって、文書数が 1 6個であるので、平均のスコアは約 2 8点と求められる。同様に、「仕様」クラスタは、そのクラスタ内のスコアの合計が 4 1 3点であって、文書数が 1 4個であるので、平均のスコアは約 2 9点と求められ、「デバイス」クラスタは、そのクラスタ内のスコァの合計が 8 4 9点であって、文書数が 9個であるので、平均のスコアは約 9 4 点と求められ、「半導体」クラスタは、そのクラスタ内のスコアの合計が 7 5 7 点であって、文書数が 7個であるので、平均のスコアは約 1 0 8点と求められ、「電子」クラス夕は、そのクラスタ内のスコアの合計が 3 4 9点であって、文書数が 4個であるので、平均のスコアは約 8 7点と求められる。

以上のようにして計算された平均のスコアを各クラスタのスコア（クラスタスコアと呼ぶ）とする。そして、このクラスタスコアの高い順にクラス夕の順位を再構成する。

すなわち、この場合、クラス夕スコアの最も高いクラス夕は、半導体クラス夕の 1 0 8点であり、第 2位はデバイスクラス夕の 9 4点であり、第 3位は電子クラスタの 8 7点であり、以下、概要クラスタ（3 6点）、仕様クラスタ（2 9点）、 L Pクラス夕（2 8点）といった順序となる。

このようにして、それそれのクラス夕ごとにクラスタスコアを計算し、求められたクラスタスコアの高い順にクラスタ順位を再構成する。

この再構成されたクラスタリング結果を一覧表形式で表したものが図 1 3である。図 1 3によれば、表の最上段に半導体クラスタが位置し、 2番目にデバイスクラスタ、 3番目に電子クラス夕、以下、概要クラス夕、仕様クラスタ、 L Pクラス夕といった順序となる。この図 1 3のクラスタリング結果によれば、ュ一ザの入力した「半導体」というキーワードに対し、そのキ一ワードに適合する文書が多く含まれるクラス夕が上位に来ていることがわかる。

この図 1 3のクラス夕リング結果と図 1 1のクラス夕リング結果を比較すると、図 1 1のクラスタリング結果では、ユーザの入力した「半導体」というキ一ヮ一ドに対し、そのキーヮ一ドとは直接には関係しないような文書で構成される概要クラスタ、 L Pクラスタ、仕様クラス夕といったクラス夕が上位に位置し、キ一ヮードに大きく関係するような文書が含まれると思われる半導体クラスタ、デバイスクラスタ、電子クラス夕といったクラスタが下位に位置しているが、図 1 3 では、それが逆転し、キーワードに大きく関係するような文書が含まれると思われるクラスタが上位に位置するようになる。

なお、クラスタスコアが同じ値となった場合には、クラス夕内に含まれる文書数の多い方を上位とするなどの措置を講ずる。

ここで、各クラス夕内のスコアの合計及び平均については、図 1 3のように表示しても良いし、また、表示しなくても良い。

以上説明したように、単純にそれそれのクラスタに含まれる文書数（ 1つのクラス夕にまとめられた文書数）によって順位付けするのではなく、それぞれのクラスタごとにそのクラス夕に含まれる文書に付されたスコアに基づいてクラス夕の順位を決めることによって、キーヮ一ドに適合したクラス夕順位が得られる。なお、図 1 3に示すようなクラスタリング結果がユーザに表示され、ュ一ザはこのようなクラスタリング結果の一覧表を見て、自分の欲しい情報の入っていそうな文書のタイトル部分をクリックすれば、そのタイトルに対応する本文が表示されるというような表示処理がなされる。

以上説明したように、本発明の第 2の実施形態では、ユーザの入力したキーヮ —ドによって検索された多数の文書に対し、これら多数の文書のタイトルに含まれる特徴要素に基づいてクラスタリング処理し、さらに、そのクラスタリング結果に対して、それそれのクラス夕ごとにそのクラス夕に含まれる文書のスコアの平均を求める。そして、その平均のスコアをクラスタスコアとし、それそれのクラスタごとのクラス夕スコアに基づいて、クラスタ順位の再構成を行う。つまり、クラスタスコアの大きい順にクラス夕の並べ替えを行い、図 1 3に示すようなクラス夕リング結果として表示する。

これによつて、ユーザの欲しい情報の入っていそうなクラスタが一覧表の上位に位置した状態で表示されているので、自分の欲しい情報を探しやすくなる。また、これまでの説明では、ある 1つの汎用の検索サービスで検索された結果をクラスタリング処理する場合について説明したが、複数の検索サービスにより検索された結果をクラスタリング処理する場合にも適用できる。

検索サービスはそれそれに得意の分野があることも多く、たとえば、ある検索サービスはスポーツ関係の情報を多数保有し、ある検索サービスは学術関係の情報を多数保有し、また、ある検索サービスは芸能関係の情報を多数保有しているというように、それそれの得意の分野が存在する場合も多い。これらそれそれの得意分野については豊富な情報を所有しており、ユーザの所望とする情報が適切に取り出される可能性が高い。したがって、情報検索を行う際は、検索サービスを使い分けることも普通に行われる。

このように、複数の検索サービスを用いてクラス夕リング処理する場合には、それそれの検索サービスにより検索された検索結果の内容、長さ、検索結果出力順序などがまちまちなので、それそれの検索サ一ビスからのファイルをクラス夕リングモジュール 1 0 3で処理可能な形式に変換する変換モジュール 1 0 2を複数の検索サ一ビスに対応して用意する。そして、さらに、そのクラス夕リング結果におけるクラスタ順位再構成を行う場合には、それそれのクラス夕のクラスタスコアを求める処理をそれそれの検索サービスに対応して行うようにする。

たとえば、本実施形態のクラスタ順位再構成処理についていえば、検索サ一ビスによって幾つかの対策を講じる必要がある。たとえば、スコアの分布の幅が非常に大きい場合（たとえば、スコアを表す数値が最大 1 0 0 0から最小は 2など）は、対数を取って計算するなどの措置を講じたり、また、きわめてスコアの値が小さい文書（たとえば、殆どの文書が数百のスコアの値があるのに 2や 3の値しかない文書）はクラス夕リング対象から外すといった措置を講じる。

このように、複数の検索サービスに対応できるようにすることで、ユーザは検索しょうとする情報の分野に応じて検索サービスを使い分けることができ、それそれの得意分野に応じた検索が可能となるばかりでなく、ある 1つの検索サ一ビスが混み合つているような場合には、他の検索サービスに切り換えて検索を行うというような柔軟な検索も可能となる。

なお、本発明の第 2の実施形態は、上記の内容に限定されるものではなく、上記の要旨を逸脱しない範囲で種々変形実施可能となるものである。たとえば、これまで説明した実施形態では、それそれのクラス夕のクラス夕スコアは、そのクラスタに含まれる文書のスコアの単純平均を用いた例について説明したが、このクラスタスコアとしては、それそれのクラスタ内に含まれる文書のなかで最大のスコアを有する文書のスコアを用いるようにしてもよく、また、それそれのクラスタ内に含まれる文書に付されたスコアのなかで中央に位置する文書のスコアを用いるようにしてもよい。

このように、クラス夕ごとのスコアの最大値を用いることで、クラスタ順位を決めるために足し算したり割り算したりという計算を行う必要がなく、計算量を少なくすることができ、しかも、同じクラスタ内に、極端に低いスコアを持つ文書が少数あっても、その影響をあまり受けないようにすることができる。また、クラスタごとのスコアの中央値を用いる場合も、最大値を用いるのと同様、クラス夕順位を決めるための計算量を少なくすることができ、しかも、中央値の場合、同じクラスタ内に、極端に高いスコアや極端に低いスコアを持つ文書が少数あつても、その影響をあまり受けないようにすることができる。

また、本実施形態では、クラスタリングを行うための情報（クラス夕リング対象情報）として、検索されたそれそれの文書のタイトルを用いた例について説明したが、これは、タイトルだけでなく、たとえば、 U R Lアドレス（http:〃を取り除いた部分）、更新日時（単純な時間または最近 1力月以内の更新日時）、フアイルサイズ（webページ本文のバイトサイズなど）を用いてクラス夕リングすることもできる。また、これらは、単独で用いてクラスタリングするようにしてもよく、幾つかを組み合わせてもよい。このように、クラス夕リング対象情報を種々選ぶことによって、それそれに応じた特色のあるクラスタリングが行える。そして、これらのどれを用いるかは、最初にメニューなどで選択項目を選ぶことで可能となる。また、選んだ項目が無い場合には、他の項目を代用する。たとえば、タイトルを選んだ場合、 webページにタイトルが無い場合には、 U R Lアドレスを代用する。

(第 3の実施形態）

次に、本発明の第 3の実施形態について説明する。

情報分類処理において、クラスタリングによって得られたクラスタの数がそれほど多くはない場合、ユーザはそのクラス夕リング結果全体を把握するのにそれ程多くの時間を費やさないで済む。

しかし、クラスタリングによって得られたクラスタの数は時として何十個あるいは何百個といった膨大な数量となる場合もある。このような場合、クラスタリング結果全体を見るだけでも大変である。

そこで本発明の第 3の実施形態においては、汎用の検索サービスで得られた検索結果をクラスタリング処理を施し、かつ、クラス夕リングによって得られたクラスタリング結果全体の概要を一目で把握できるような一覧表を作成することで、ユーザが自分の欲しい情報を効率よく探すことができるようにしている。

以下に、第 3の実施形態について詳細に説明する。

図 1 4は本発明の第 3の実施形態の概略の構成を示すもので、大きく分けると、検索サ一ビス 1 4 1、変換モジュール 1 4 2、クラスタリングモジュール 1 4 3、クラスタリング結果概要一覧表作成モジュール（以下、概要一覧表作成モジュ一ルという） 1 4 4、表示制御モジュール 1 4 5とから構成され、変換モジュール 1 4 2、クラスタリングモジュール 1 4 3、概要一覧表作成モジュール 1 4 4、表示制御モジュール 1 4 5が情報分類装置に相当し、特に、概要一覧表作成モジユール 1 4 4を設けたことに本発明の第 3の実施形態の特徴がある。検索サービス 1 4 1はインタ一ネヅトなどで一般に広く使用されている汎用の検索サービスであり、ュ一ザからの検索要求としてのキ一ヮ一ドが入力されることにより、たとえば webページなどから、入力されたキーワードに基づいた情報検索を行う。この検索サービス 1 4 1で検索された検索結果はファイル形式で出力され、クラスタリングモジュール 1 4 3に渡されるが、複数の検索サービスが存在する場合、それそれの検索サービスによって出力されるデータ形式が異なるので、どのような検索サービスからのファイルであってもその内容を読めるような形式にファイルを変換するために変換モジュール 1 4 2が設けられる。

クラス夕リングモジュール 1 4 3は、検索サービス 1 4 1により出力された検索結果（変換モジュール 1 4 2による変換後のファイル内容）に対しクラスタリング処理を行うもので、この実施の形態では、それそれの文書から文書のタイトルを抽出し、そのタイトルに含まれる特徴的な用語を特徴要素として抽出し、抽出された特徴要素に基づいてクラスタリング処理を行う。

具体的には、それそれの文書からタイトルとして抽出された部分を形態素解析し、形態素解析された結果から特徴的な用語を特徴要素として抽出する。その後、抽出された特徴要素とそれそれの文書との関係を示す特徴テ一ブルを作成する。この特徴テーブルは、たとえば、抽出されたそれそれの特徴要素が各文書のタイトルに幾つ含まれているかを、それそれの特徴要素とそれそれの文書と対応づけて示すもので、一例として、それそれの文書のタイトルから、「概要」、「L P」、「仕様」、「デバイス」、「半導体」、「電子」というような特徴要素が抽出されたとすると、これらの特徴要素が、それそれの文書のそれそれのタイトルに、それぞれ何個含まれているかを示す内容となっている。

このような特徴テ一ブルに基づいて、多数の文書を意味的に共通性のある複数のクラス夕に分類する。つまり、それそれの文書のそれそれのタイトルに存在する特徴要素に基づいて、タイトルの中に共通する特徴要素を持つ文書を 1つのまとまりとし、そのまとまりを 1つのクラス夕とする。

このクラスタリングモジュール 1 4 3から、たとえば、第 2の実施形態において説明した図 1 1のようなクラス夕リング結果が出力されたとする。この図 1 1 は前述したように、クラスタリングされることによって得られた各クラスタの名称（上述の特徴要素に相当し、それをここではクラスタ名と呼んでいる）と、そのクラスタに属するそれそれの文書のタイトルと、そのクラス夕には幾つの文書が含まれているかを示す文書数、さらには、それそれのタイトルごとにスコアを示す数値などが表形式で示されている。

なお、このスコアは、与えられたキーワードとそれそれの文書との適合度を示す客観的な尺度として用いられ、ここでは、値が大きいほど、与えられたキ一ヮ ―ドに適合する内容を有する文書であるとする。

そして、このクラス夕リングモジュール 1 4 3によって得られたクラス夕リング結果におけるそれそれのクラス夕の配列は、図 1 1に示されるように、ここでは、それそれのクラス夕に含まれる文書の数の多い順となっている。前述したように、この場合、上から順に、概要クラス夕、 L Pクラスタ、仕様クラスタ、デバイスクラス夕、半導体クラスタ、電子クラス夕の順となっている。

概要一覧表作成モジュール 1 4 4は、クラスタリングモジュール 1 4 3から出力されたクラスタリング結果に基づいて、それそれのクラスタのクラス夕名に基づいて、クラスタリング結果の概要を表すクラスタリング結果概要一覧表（概要一覧表という）を作成するものである。

表示制御モジュール 1 4 5は、クラス夕リングモジュール 1 4 3によって得られたクラスタリング結果や、概要一覧表作成モジュール 1 4 4で作成された概要一覧表をユーザに提示するために様々な表示制御を行うもので、この実施の形態では、クラス夕リング結果とともに概要一覧表を表示させることは勿論、クラス夕リング結果と概要一覧表のリンク部分の相互の表示制御、さらには、注目すベきクラスタをユーザの目に付きやすい表示とするといつた様々な表示制御を行う。その具体的な表示制御内容については後述する。

このような構成において、本発明の第 3の実施形態の情報分類処理について説明する。本実施形態において行う情報分類処理手順は概略的には、図 1 5のフロ —チャートに示すように、まず、汎用の検索サービス 1で検索された検索結果を取得し（ステップ 1 5 S 1 ) 、取得した検索結果に対しクラスタリング処理を施し（ステヅブ 1 5 S 2 ) 、そのクラスタリング結果を出力する（ステヅブ 1 5 S 3 )。そして、そのクラスタリング結果に基づいて概要一覧表作成処理を行い（ステヅプ 1 5 S 4 ) 、作成された概要一覧表を上述のクラスタリング結果とともに表示する（ステップ 1 5 S 5 ) 。なお、この作成された概要一覧表を上述のクラス夕リング結果とともに表示する際の表示の仕方としては、たとえば、クラス夕リング結果に概要一覧表を画面上で重ねて表示するようにしてもよく、また、概要一覧表とクラスタリング結果を別個に配置し、概要一覧表の後に続いてクラスタリング結果を表示させるようにしてもよい。なお、クラスタリング結果の内容量が多い場合には、画面をスクロールすることによって、クラス夕リング結果を順次画面上に現すようにする。

以下、本発明の第 3の実施形態における情報分類処理内容について具体例を参照しながら詳細に説明する。

この実施の形態では、クラスタリングモジュール 1 4 3が行うクラスタリング処理は、検索サービス 1 4 1で検索された文書に対し、それそれの文書のタイトルを抽出し、そのタイトルから特徴要素を抽出して、抽出された特徴要素とそれそれの文書との関係を示す特徴テーブルを作成して、その特徴テ一ブルの内容に基づいて、それそれの文書を意味的に共通性のある複数のクラスタに分類する。また、この実施の形態では、ユーザが「半導体」というキ一ワードを検索要求として検索サービス 1 4 1に入力し、それによつて得られた多数の文書がクラス夕リングモジュール 1 4 3によってクラス夕リングされ、そのクラスタリング結果が図 1 1に示すような結果であったとする。

このクラスタリングモジュール 1 4 3からのクラスタリング結果は、概要一覧表作成モジュール 1 4 4に入力され、以下に示すような処理がなされる。

まず、図 1 1で示されるクラスタリング結果における各クラスタ（概要クラス夕、 L Pクラスタ、仕様クラスタ、デバイスクラスタ、半導体クラスタ、電子クラスタ）において、それそれのクラス夕名（「概要」、「L P」、「仕様」、「デバイス」、「半導体」、「電子」）を用いた概要一覧表を作成し、その概要一覧表をクラス夕リング結果とともに表示する。

図 1 6は概要一覧表 1 6 1 0をクラス夕リング結果 1 6 2 0とともに表示した例を示すもので、この表示例では、概要一覧表 1 6 1 0に続いてクラスタリング結果 1 6 2 0を表示した例である。ここで用いたクラスタリング結果 1 6 2 0は、クラス夕数が 6個ときわめて少ない例であるが、実際には、クラスタ数は何十個あるいは何百個というような場合もあり、その中から自分の欲しい情報を探すには、クラスタリング結果全体を見ながら探すことになるので、単に、クラスタリング結果全体を見せられただけでは自分の欲しい情報を探すのに大変な労力を要する。これに対し、クラスタ名による概要一覧表が表示されることによって、その概要一覧表を構成するクラスタ名を見渡すことで、クラスタリング結果にはどのようなクラス夕があるのか、自分の欲しい情報はその中のどのクラスタに入つていそうかといつたことをおおよそ見当付けることができる。

そして、概要一覧表 1 6 1 0を構成するそれそれのクラス夕名とクラスタリング結果とはそれそれ対応する部分がリンクされている。したがって、たとえば、クラスタリング結果のクラス夕数が多く、一つの画面上ですベてのクラス夕リング結果が表示しきれないような場合でも、図 1 1で示される概要一覧表 1 6 1 0 の任意のクラスタ名をクリックすると、それに対応するクラス夕リング結果 1 6 2 0のクラスタ部分が即座に表示され、その状態で、今度はクラスタリング結果のクラスタ名をクリックすると概要一覧表に即座に戻るといった表示制御が可能となる。

このような表示制御を行う際、使い易さをより一層向上させるために次のような機能を付加する。

まず、概要一覧表におけるクラス夕名の配列順序は、クラス夕リング結果におけるそれそれのクラス夕の配列順序に従う。すなわち、図 1 1のクラスタリング結果を例に取れば、そのクラスタリング結果におけるそれそれのクラスタの配列順序は、それそれのクラス夕に含まれる文書数の多い順となっている。たとえば、概要クラス夕には文書数は 1 6個、 L Pクラスタにも文書数は 1 6個、仕様クラス夕には文書数は 1 4個、デバイスクラス夕には文書数は 9個、半導体クラスタには文書数は 7個、電子クラスタには文書数は 4個といった具合である。したがつて、この場合、概要一覧表においても、図 1 1に示すように、一覧表の左から右に、「概要」、「L P」、「仕様」、「デバイス」、「半導体」、「電子」の順とした配列とする。なお、クラス夕リング結果におけるクラスタ順位の付け方としては、文書数だけではなく、それそれのクラスタのスコアに基づいて決めることもできる。図 1 1のクラス夕リング結果を見ると、前述したように、そのクラス夕に属するそれそれの文書の夕ィトルと、そのクラス夕には幾つの文書が含まれているかを示す文書数、さらには、それそれのタイトルごとにスコアを示す数値などが表形式で示されている。

このスコアは、与えられたキーヮードに対しその検索サービスが独自の方法で検索したとき、検索された文書対応に付けられた値であり、一般には、与えられたキーヮ一ドとそれそれの文書との適合度を示す客観的な尺度として用いられ、汎用の検索サービスによる検索結果にはこのスコアが付されるのが普通である。このスコアは、検索方式により計算の仕方や値の考え方などが異なるものの、一般に、値が大きいほど、与えられたキーワードに適合する内容を有する文書であるといえる。

したがって、それそれのクラス夕ごとにそれそれのクラス夕におけるスコアの平均などを求め、その平均のスコアの大きいクラス夕順に配列することも考えられる。このように、クラスタリング結果におけるそれそれのクラス夕順位を、平均のスコアの大きいクラスタ順とした場合には、それによつて作成される概要一覧表のクラス夕名の順序もそれに従う。

たとえば、概要クラスタの平均のスコア（このスコアはキ一ワードとの適合度を表すものであるので、その単位しては、％や点数など検索サービスによって異なるがこの実施の形態では点数で表すものとする）が約 3 6点と求められ、 L P クラス夕の平均のスコアが約 2 8点と求められ、仕様クラスタの平均のスコアが 2 9点と求められ、デバイスクラスタの平均のスコアが約 9 4点と求められ、半導体クラスタの平均のスコアが 1 0 8点と求められ、電子クラス夕の平均のスコァが 8 7点と求められたとする。このように計算された平均のスコアを各クラス夕のスコア（クラス夕スコアと呼ぶ）とする。そして、このクラス夕スコアの高い順にクラスタの順位を再構成すると、この場合、クラスタスコアの最も高いクラス夕は、半導体クラスタの 1 0 8点であり、第 2位はデバイスクラスタの 9 4 点であり、第 3位は電子クラスタの 8 7点であり、以下、概要クラス夕（3 6点）、仕様クラス夕（2 9点）、 L Pクラス夕（2 8点）といった順序となる。

このように、クラスタリング結果におけるそれそれのクラス夕の配列順序が、それそれのクラス夕のクラス夕スコアの高い順となっているとすれば、それによつて作成される概要一覧表のクラスタ名の順序も、クラスタリング結果のクラス夕配列順序に従って、「半導体」、「デバイス」、「電子」、「概要」、「仕様」、「L P j の順序とする。

ここで、各クラスタ内のスコアの合計及び平均については、図 1 6のように表示しなくても良いし、また、表示しても良い。

一般に、クラス夕リング結果のクラスタ順序は何らかの意味を持っているので、概要一覧表のクラス夕名の順序もそれに従うようにした方が、ユーザが情報を探す上で都合がよい場合が多い。ユーザは一般に上から順に見て行く傾向にあるので、概要一覧表のクラス夕名の配置順序をクラスタリング結果におけるクラスタの配置順序と同じにすれば、自分の欲しい情報を探すのに便利である。

次に、概要一覧表 1 6 1 0の或るクラスタ名をクリヅクしてそれにリンクされたクラスタリング結果 1 6 2 0のクラスタ部分を表示させる際、そのクラスタを囲っている枠（クラス夕枠という）の最上部を先頭にした表示を行う。これは、もしクラス夕のクラスタ名部分を基準にしてそのクラスタ名部分を先頭にした表示を行うと、表示させたときに、そのクラスタ名に対応するクラスタ要素（図 1 1ではクラス夕に含まれる文書のタイトル）が表示画面上に表示されない場合があるという不都合が生じる。たとえば、画面上にクラスタリング結果 1 6 2 0の半導体クラスタが現れていない状態で、概要一覧表 1 6 1 0の「半導体」というクラスタ名がクリックされたとすると、そのクリヅク動作とほぼ同時にクラスタリング結果 1 6 2 0の半導体クラスタ部分の表示に移行することになるが、そのとき、そのクラスタ枠内の最上段の行に位置するクラス夕要素（この場合は、「 1 5 7 半導体事業部環境方針」という文書のタイトル）が表示画面上で見えないということがしばしば生じる。

これを防ぐために、クラスタ枠を基準にしてそのクラスタ枠の最上部を先頭にした表示を行うようにする。これによつて、そのクラス夕枠内の最上段に位置する行のクラスタ要素が確実に表示がなされるようになる。また、さらに確実性を高めるため、それより 1つ前に位置するクラスタの最終行のクラスタ要素を先頭にした表示を行うようにしてもよい。たとえば、前述の例で考えれば、概要一覧表 1 6 1 0の「半導体」というクラスタ名がクリックされたとすると、クラスタリング結果の半導体クラス夕が表示されることになるが、このとき、それよりも 1つ前のデバイスクラス夕の最終行のクラス夕要素（図 1 1では、「5 6 デバイス一半導体—A S S P」）といったクラス夕要素を先頭にした表示を行うようにしてもよい。このように、 1つ前に位置するクラス夕の最終行のクラス夕要素から表示させるようにすれば、本来表示すベきクラスタのクラスタ要素は確実に表示がなされるようになる。

次に、概要一覧表 1 6 1 0に表示されるそれそれのクラスタ名は、クラス夕リング結果 1 6 2 0におけるそれそれのクラス夕の内容によって表示の大きさや色を変える。このクラス夕リング結果におけるそれそれのクラス夕の内容というのは、具体的には、それそれのクラス夕の重要度を示すもので、ユーザの与えたキ —ヮ一ドに対する適合度などであり、それそれのクラスタに含まれる文書数やそれそれのクラス夕のスコアなどを用いて決める。たとえば、前述したように、それそれのクラス夕におけるスコアの平均を求め、その平均のスコアの大きいクラス夕が重要度の高いクラス夕であるとすれば、重要度の高いクラスタに対する概要一覧表 1 6 1 0のクラス夕名の表示の仕方を変える。

たとえば、前述した例によれば、図 1 1のクラス夕リング結果におけるそれそれのクラスタのなかで、半導体クラスタのクラス夕スコアが最も高い値であったので、半導体クラス夕に対応する概要一覧表のクラス夕名「半導体」の表示の仕方を他のクラスタのクラス夕名と異ならせる。具体的には、「半導体」というクラスタ名を他のクラス夕名と色を変えて表示したり、「半導体」というクラスタ名を囲っている枠だけを他よりも太くしたり、その枠内の面積を他よりも大きな面積としたり、さらにはそのクラス夕名をブリンク表示させたりすることによつて、ユーザの目につきやすい表示を行う。

また、それぞれのクラス夕においてそれそれのクラス夕に含まれる文書数の多いクラス夕についても同様に、ユーザの目につきやすい表示を行うようにすることもできる。さらに、スコアの高いクラス夕は色を他のクラス夕とは異ならせ、文書数の多いクラスタは枠内の面積を大きくするなど、クラス夕の特徴によって表示の仕方を多種多様に設定するようにしてもよい。このようにすれば、どのクラスタがどの同様な特徴を持ったクラス夕であるかということが、概要一覧表 1 6 1 0を見るだけで一目でわかる。 '

また、概要一覧表 1 6 1 0においてユーザの入力したキ一ワードが含まれるクラスタ名は、それをユーザに知らせるために他のクラスタ名と異なった表示を行

Ό。

たとえば、図 1 1のクラス夕リング結果の例では、ユーザの与えたキーワードは

「半導体」であるため、クラスタリング結果により得られたクラスタのうち、半導体クラス夕はまさにキーヮ一ドそのものを含むクラス夕である。

この場合、そのクラスタリング結果 1 6 2 0により作成された概要一覧表 1 6 1 0において、「半導体」部分は他のクラス夕とは異ならせた表示として、たとえば、ブリンクさせたり、色を変えたり、両者を組み合わせるなど、ユーザの目に付きやすい表示を行う。一般に、ユーザは自分の入力したキーワードと同じものがあるかを探すことが多い。したがって、概要一覧表 1 6 1 0内に自分の与えたキーヮ一ドと同じクラスタ名が有るかどうかを一目でわかるようにすれば、ュ一ザにとっては自分の欲しい情報を探す上で便利なものとなる。

また、画面上にクラスタリング結果 1 6 2 0の或る部分が表示されている状態のときに、その表示内容から或るクラス夕名をクリックすると概要一覧表 1 6 1 0の表示に戻るが、そのとき、概要一覧表 1 6 1 0の先頭に戻って、概要一覧表 1 6 1 0の先頭部分からの表示がなされるようにする方が都合がよい。

概要一覧表 1 6 1 0はクラス夕リング結果の概要を簡略化して表すものではあるが、場合によってはそのサイズがきわめて大きなものとなることもある。また、複数の概要一覧表が作成される場合もある。すなわち、これまでの説明では、それそれの文書のタイトルを用い、そのタイトルによってクラスタリング処理しそれによって得られたクラスタリング結果に基づいて概要一覧表を作成する例について説明したが、クラスタリング処理は、タイトルだけでなく、 U R Lアドレス (http:〃を取り除いた部分）などの情報を用いても行うことができる。

たとえば、図 1 1のクラスタリング結果を得るために用いた多数の文書に対し、 U R Lを用いてクラス夕リング処理し、それによつて得られたクラスタリング結果に基づいて概要一覧表を作成することもできる。

図 1 7は図 1 1 と同じ文書に対し、 U R Lアドレスによってクラス夕リングされたクラスタリング結果 1 7 3 0とそれに基づいて作成された概要一覧表 1 7 4 0の例を示すものである。この場合、クラス夕リングされることによって得られたクラスタのクラス夕名としては、クラス夕リングする際の用いられたそれそれの U R Lアドレス厂 www. epson. co. jp」と「www. i- love- epsoiune . jp」や「その他」であり、概要一覧表 1 7 4 0を構成するクラス夕名は、これらの U R Lアドレス厂 www. epson. co. jp」と厂 www. i— love— epson.ne. jp」さら【こ「その他」力⁵'用レヽられる。

この例で説明したように、クラスタリング処理は、幾つもの方法によってなされる可能性があり、その場合、それそれによつて得られたクラスタリング結果に対する複数の概要一覧表が作成されることになる。

このように、複数の概要一覧表が作成される場合や、一つの概要一覧表であつても一覧表のデータ量がきわめて大きい場合、画面上でクラスタリング結果を見ていて、それに対応する概要一覧表のクラス夕名部分に戻したとき、対応するクラス夕名部分からの表示を行うのではなく、複数の概要一覧表が存在する場合には、複数の概要一覧表のなかで先頭に位置する概要一覧表の先頭部分からの表示がなされるようにする。また、 1つの概要一覧表の場合でも、その概要一覧表の先頭部分からの表示がなされるようにする。

これは、たとえば、ユーザがクラスタリング結果を見ていて、もう一度、概要一覧表に戻ってクラスタリング結果全体を見たいというような場合に対処するものである。このような場合、概要一覧表の対応するクラス夕名部分に戻ると、戻つた位置が一覧表全体のどの位置かがわからなくなる可能性があるが、概要一覧表が複数存在していても、あるいは概要一覧表のデータ量が多くても、概要一覧表全体の先頭部分からの表示がなされるようにすれば、一覧表全体を見渡すことができる。

以上説明したような種々の機能を追加することによって、概要一覧表の有用性をより一層高めることができる。以上説明したように、この実施の形態では、膨大な情報をクラス夕リングし、そのクラスタリング結果の概要が一目でわかるような概要一覧表をクラス夕リング結果とともに表示するようにしたので、クラス夕リング結果が膨大な内容となつたとしても、クラスタリング結果全体を見渡すことができ、ユーザが自分の欲しい情報を探す際の大きな助けとなる。また、その概要一覧表とクラス夕リング結果との間に前述したような種々の機能を持たせることによって、ユーザの与えたキ一ワードに対し重要度の高いクラスタはどれであるかなどが一目でわかり、また、概要一覧表からクラス夕リング結果に移行する際、あるいは、クラスタリング結果から概要一覧表に戻る際、表示する際の先頭を的確な位置に選ぶことによって、クラスタリング結果と概要一覧表とを相互に表示するような操作を繰り返し行う場合、必要な部分の表示が切れて見えない状態となったり、自分の注目している部分がどこにあるのかがわからなくなることがなくなり、能率よく快適な操作が可能となる。

なお、本実施の形態は上記の内容に限定されるものではなく、上記の要旨を逸脱しない範囲で種々変形実施可能となるものである。たとえば、本実施形態においては、検索されたそれそれの文書のタイトルを用いてクラスタリングする例について説明したが、タイトルだけでなく、前述したように、 U R Lアドレス (http:〃を取り除いた部分）を用いたクラス夕リングも可能である。

その他、更新日時（単純な時間または最近 1力月以内の更新日時）、ファイルサイズ（webページ本文のバイトサイズなど）を用いてクラス夕リングすることもできる。また、これらは、単独で用いてクラスタリングするようにしてもよく、幾つかを組み合わせてもよい。このように、クラスタリング対象情報を種々選ぶことによって、それそれに応じた特色のあるクラス夕リングが行える。そして、それそれのクラスタリング結果に基づいてそれそれの概要一覧表を作成することができる。

また、これまでの説明では、ある 1つの汎用の検索サービスで検索された結果をクラスタリング処理する場合について説明したが、複数の検索サービスにより検索された結果をクラスタリング処理する場合にも適用できる。そして、それそれの検索サービスによって検索された結果に基づいてクラス夕リング処理し、それによって得られたクラス夕リング結果に基づいて概要一覧表の作成を行うことが可能である。

以上説明したように本実施形態においては、検索された複数の文書をクラスタリング処理し、それによつて得られたクラスタリング結果に対し、そのクラス夕リング結果の概要が一目でわかるようなクラス夕リング結果概要一覧表を作成し、そのクラス夕リング概要一覧表をクラスタリング結果とともに表示するようにしたので、クラスタリング結果が膨大な内容となったとしても、クラスタリング結果全体のおおよその内容を把握することができ、ュ一ザが自分の欲しい情報を探す際の大きな助けとなる。また、クラスタリング結果全体のおおよその内容を把握できることから、ユーザは自分の欲しい情報を効率よく探すことができるばかりでなく、思わぬ情報の存在を発見することもでき、新規情報の発掘も容易に行えるようになる。

また、クラス夕リング結果とクラス夕リング結果概要一覧表とを相互にリンクすることで、クラスタリング結果概要一覧表からクラス夕リング結果の対応するクラスタ部分に簡単に移行することができ、また、その状態から、クラスタリング結果概要一覧表にも容易に戻ることもきるので、クラス夕リング結果が膨大な内容であっても、このような操作を何回か行うことで、やがては欲しい情報の入つていそうなクラスタを探すことができ、自分の欲しい情報を効率よく探すことができる。

また、クラス夕リング結果概要一覧表の表示を行う際、クラスタリング結果のそれそれ対応するクラスタの重要度に応じて、クラスタリング結果概要一覧表内のクラス夕名の表示の仕方を変えるようにしたり、ユーザの与えたキ一ヮ一ドを含むクラスタ名の表示の仕方を他のクラス夕名とは異ならせるようにすることで、自分の欲しい情報がどこに入っているかがそのクラスタリング結果概要一覧を見るだけでおおよその見当を付けることができ、自分の欲しい情報を効率よく探すことができる。

Claims

請求の範囲

1 . 検索サ一ビスで検索された複数の検索結果をクラスタリングモジュールが取得して、そのクラスタリングモジュールでは、その検索結果に対しクラス夕リング処理を施し、そのクラス夕リング処理結果を出力することを特徴とする情報分類方法。

2 . 前記検索サービスで検索された検索結果を前記クラスタリングモジュ一ルが処理可能な形式に変換する変換モジュールを備えたことを特徴とする請求項 1に記載の情報分類方法。

3 . 前記変換モジュールは、クラスタリング処理を複数の検索サービスに対応して行う場合、複数の検索サービスそれそれに対応して設けられることを特徴とする請求項 2に記載の情報分類方法。

4 . 前記複数の検索サービスのいずれかを選択的に用いて検索処理を行い、選択された検索サービスで検索された検索結果に対してクラス夕リング処理を行うことを特徴とする請求項 3に記載の情報分類方法。

5 . 前記複数の検索サービスの少なくとも 2つの検索サービスを用いて並行的な検索処理を行い、それそれの検索結果を収集して、その収集された検索結果に対してクラスタリング処理を行うことを特徴とする請求項 3に記載の情報分類方法。

6 . 前記複数の検索サービスの少なくとも 2つの検索サービスを用いて並行的な検索処理を行い、それそれの検索結果に対し個別にクラスタリング処理を行うことを特徴とする請求項 3に記載の情報分類方法。

7 . 前記検索結果に対しクラスタリング処理を行う際、クラスタリング対象とする情報は、それそれの検索結果における文書のタイトル、 U R Lアドレス、更新日時、ファイルサイズの少なくとも 1つであることを特徴とする請求項 1から 6のいずれか 1項に記載の情報分類方法。

8 . 請求項 1に記載の情報分類方法において、前記クラス夕リング処理結果に対し、検索されたそれそれの文書対応に付された検索要求との適合性を示すスコアを用いて、前記クラスタリング処理結果のクラスタの順位を再構成し、そのクラス夕順位が再構成されたクラスタリング結果を出力することを特徴とする情報分類方法。

9 . 前記それそれのクラスタの順位を再構成する処理は、それぞれのクラス夕に含まれるそれそれの文書対応に付されたスコアの平均値をそれそれのクラスタごとに求め、クラス夕ごとの平均値をそれそれのクラスタのクラスタスコアとし、そのクラス夕スコアによって、クラス夕の順位を再構成することを特徴とする請求項 8に記載の情報分類方法。

1 0 . 前記それそれのクラスタの順位を再構成する処理は、それそれのクラス夕に含まれるそれそれの文書対応に付されたスコアの最大値をそれそれのクラス夕ごとに得て、そのクラス夕ごとのスコアの最大値をそれそれのクラスタスコァとし、そのクラスタスコアによって、クラス夕の順位を再構成することを特徴とする請求項 8に記載の情報分類方法。

1 1 . 前記それそれのクラスタの順位を再構成する処理は、それそれのクラス夕に含まれるそれそれの文書がそれそれの文書対応に付されたスコアの大きい順に並べられている場合、その中央または中央付近に位置するスコアをそれそれのクラス夕ごとに得て、そのクラスタごとの中央または中央付近に位置するスコァをそれそれのクラス夕スコアとし、そのクラスタスコアによって、クラス夕の順位を再構成することを特徴とする請求項 8記載の情報分類方法。

1 2 . 前記クラスタリング処理を複数の検索サービスによって得られた検索結果に対応して行うことを可能とする場合、前記クラスタの順位を再構成するためのクラスタスコアを求める処理は、複数の検索サービスそれそれに対応して行うことを特徴とする請求項 9から 1 1のいずれか 1項に記載の情報分類方法。

1 3 . 前記クラス夕リング処理は、それそれの文書のタイトルを検出し、そのタイトルに含まれる特徴的な用語を特徴要素として抽出し、抽出された特徴要素に基づいて行うことを特徴とする請求項 8から 1 2のいずれか 1項に記載の情報分類方法。

1 4 . 前記クラスタ順位が再構成されたクラスタリング結果の出力の仕方は、クラスタスコアの高いクラス夕順に表示し、クラスタスコアが同じであるクラス夕が存在する場合には、クラスタ内の文書数の多いクラス夕を高順位とすることを特徴とする請求項 8から 1 3のいずれか 1項に記載の情報分類方法。

1 5 . 請求項 1に記載の情報分類方法において、前記クラス夕リング処理結果に対し、クラスタリング処理結果の概要を表すクラスタリング結果概要一覧表を作成し、そのクラスタリング結果概要一覧表を前記クラス夕リング処理結果とともに出力するようにしたことを特徴とする情報分類方法。

1 6 . 前記クラス夕リング結果概要一覧表は、クラスタリング処理されることによって得られたそれそれのクラス夕のクラス夕名によって構成されることを特徴とする請求項 1 5に記載の情報分類方法。

1 7 . 前記クラス夕リング結果とクラス夕リング結果概要一覧表とを相互にリンクし、クラス夕リング結果概要一覧表の所定のクラスタ名部分が指示されると、前記クラスタリング結果の対応するクラス夕部分の表示を可能とし、クラス夕リング結果の或るクラス夕部分を指示すると、クラスタリング結果概要一覧表の表示を可能とすることを特徴とする請求項 1 6に記載の情報分類方法。

1 8 . 前記クラスタリング結果概要一覧表の或るクラス夕名部分が指示されることによって、前記クラスタリング結果内の対応するクラスタ部分の表示を行う際、そのクラスタを囲む枠の最上部またはそれより 1つ手前に存在するクラス夕の枠内に存在する最終行部分を先頭にした表示を行うことを特徴とする請求項

1 7に記載の情報分類方法。

1 9 . 前記クラスタリング結果の或るクラスタ部分が指示されることによつて、前記クラスタリング結果概要一覧表の表示を行う際、クラス夕リング結果概要一覧表の先頭部分からの表示を行うことを特徴とする請求項 1 8に記載の情報分類方法。

2 0 . 前記クラスタリング結果概要一覧表を構成するそれそれのクラスタ名の配列順序は前記クラス夕リング結果内のクラス夕配列順序に従うことを特徴とする請求項 1 6から 1 9のいずれか 1項に記載の情報分類方法。

2 1 . 前記クラス夕リング結果概要一覧表の表示を行う際、前記クラス夕リング結果のそれそれ対応するクラス夕の重要度に応じて、クラスタリング結果概要一覧表上におけるクラス夕名の表示の仕方を変えることを特徴とする請求項 1 6から 2 0のいずれか 1項に記載の情報分類方法。

2 2 . クラスタリング対象となる複数の文書が、ユーザの与えたキーワードによって検索された文書である場合、ユーザの与えたキーヮ一ドを含むクラスタ名は前記クラスタリング結果概要一覧表上においてそのクラス夕名の表示の仕方を他のクラスタ名とは異ならせることを特徴とする請求項 1 6から 2 1のいずれか 1項に記載の情報分類方法。

2 3 . 検索サービスで検索された複数の検索結果が入力され、入力された複数の検索結果に対してクラス夕リング処理を施し、そのクラスタリング処理結果を出力するクラス夕リングモジュールを含んでなることを特徴とする情報分類装

2 4 . 前記検索サービスで検索された検索結果を前記クラス夕リングモジュ —ルが処理可能な形式に変換する変換モジュールをさらに備えたことを特徴とする請求項 2 3に記載の情報分類装置。

2 5 . 前記クラスタリングモジュールによって得られたクラスタリング結果に対し、検索されたそれそれの文書対応に付された検索要求との適合性を示すスコアを用いて、前記クラスタリング処理によって得られたそれそれのクラスタの順位を再構成し、そのクラスタ順位が再構成されたクラスタリング結果を出力するクラス夕順位設定モジュールと、

を有することを特徴とする請求項 2 3に記載の情報分類装置。

2 6 . 前記クラスタリングモジュールによって得られたクラスタリング結果に対し、クラスタリング結果の概要を表すクラスタリング結果概要一覧表を作成する概要一覧表作成部と、

そのクラス夕リング結果概要一覧表を前記クラス夕リング結果とともに出力する表示制御モジュールと、

2 7 . 検索サービスで検索されたユーザの検索要求に対する複数の検索結果をクラスタリングモジュールがクラスタリング処理してそのクラス夕リング処理結果を出力する情報分類プログラムを記録した記録媒体であって、

取得した検索結果に対してクラス夕リング処理を施し、そのクラスタリング処理結果を出力する手順とを含んでなることを特徴とする情報分類処理プログラムを記録した記録媒体。

2 8 . 前記検索サービスで検索された検索結果を前記クラス夕リングモジュ —ルが処理可能な形式に変換する手順を行った後に、前記クラス夕リング処理を行うことを特徴とする請求項 2 7に記載の情報分類プログラムを記録した記録媒体。

2 9 . 前記クラス夕リング処理によって得られたクラス夕リング処理結果に対し、検索されたそれそれの文書対応に付された検索要求との適合性を示すスコァを用いて、前記クラスタリング処理によって得られたそれそれのクラスタの順位を再構成し、そのクラスタ順位が再構成されたクラスタリング結果を出力する手順と、

を含んでなることを特徴とする請求項 2 7に記載の情報分類プログラムを記録した記録媒体。

3 0 . 前記クラスタリング処理によって得られたクラスタリング処理結果に対し、クラスタリング結果の概要を表すクラスタリング結果概要一覧表を作成する概要一覧表作成手順と、

そのクラスタリング結果概要一覧表を前記クラスタリング結果とともに出力する手順と、