JPWO2002021270A1

JPWO2002021270A1 - ノウハウ構造を有するデータベースの構築方法及びノウハウ構造を有するデータベース構築システム

Info

Publication number: JPWO2002021270A1
Application number: JP2002524817A
Authority: JP
Inventors: 龍　忠光
Original assignee: シーエーアイ株式会社
Priority date: 2000-09-06
Filing date: 2000-09-06
Publication date: 2004-01-15
Also published as: WO2002021270A1; TW498229B

Abstract

多数の業界・分野に属する資料を、ノウハウ構造を有するデータベースとして構築する方法であって、単語を名称毎に分類してその分類名としての名称と当該名称のタイプ、サイズ、取り得る範囲等の制約をアトリビュートとし且つ当該名称の値をバリューとした知識化単語を蓄積し知識化単語辞書を作成する工程Ｓ１と、入力情報を、知識化単語辞書を用いて単語分解・文書解析し、アトリビュート又は当該知識化単語辞書内のアトリビュートを参照し得るようにされた名称及びバリューからなる要素ユニットの集合としてノウハウ化する工程Ｓ２と、そして、ノウハウ化した知識化データにＩＤを付与して知識化データベースに蓄積する工程Ｓ５とを含んで構成されている。検索数の多いものについて所定数を取り出し、くせキャツシュメモリに書き換え可能に記録し、当該データベースに検索のためのアクセスがあった場合に、先ず、くせキャッシュメモリを検索するように構成することもできる。

Description

技術分野
本発明は、既存のリレーショナル型データベース、オブジェクト指向データベースを統合し得るノウハウ構造を有するデータベースの構築方法及びノウハウ構造を有するデータベース構築システムに関する。
技術の背景
従来、資料のデータ化、検索および分析においては、対象資料に含まれる情報を、構造を規定するクラスと情報をそのような構造に従って記録したインスタンスに分けて蓄積し、データの機能や意味を重要視してツリー構造に整理する方法、リレーショナル型データベースに見られるような表形式に対象資料を管理する方法が代表的である。ツリー構造のように特定の構造を採ると、特定の情報については簡単に分析、検索できるものの別の情報については非常に困難になるという問題がある。オブジェクト指向データベースは、簡単に記述すると、図１２（ａ）に示したような、クラス及びインスタンスから構成されている。Ａ１〜Ａ３は、インスタンスに記録すべき「値の概念」を示し、インスタンスには、アドレスＸに記述されているクラスＣの規則に従って「値」が記録される。図１２（ｂ）で示されるようなツリー構造において、下位に位置するデータのクラスは上位に位置するデータのクラスの下位概念であるため、ツリーの頂点から下に向って該当するものを流れ下ってくることによって所望のデータを簡単に検索することができる。しかしながら、かかるオブジェクト指向データベースは、上位概念・下位概念といった概念についてはデータ化可能であるが、概念といった捉え方のできない暗黙智や事例をデータ化することはできない。
他方、表形式においては、予め検索キーとなる属性、すなわち、スキーマＳ１〜Ｓｎを設定し、データ構造を設計しておく必要がある。すなわち、リレーショナル型データベースは、簡単に記述すると、第５図に示したような、スキーマＳ１〜Ｓｎ及びその値である複数のタップルＴ１１〜Ｔｍｎからなる個々のレコードを表形式で記録したデータ構造を有している。従って、当初から存在するスキーマ以外の項目がデータ中に存在する時は、当該スキーム又はスキーマに該当するタップルについてはデータ化不能となる。これをデータ化するにはデータベース全体の設計見直しをしなければならず、一旦設計した構造を途中から変更することはできない。リレーショナル型データベースでは新しいデータベース全体の設計見直しをしなければならないので、日々更新される現実世界のデータ化には対応することができない。
さらに、最近、公的機関や企業が保有する膨大な量の文書・資料の有効活用が注目されている。こうした分野においては、前述のツリー構造による整理方法も、表形式による方法も膨大な量の人手による作業の必要性、資料の構造化の困難、検索キーを設定する上での困難さのため有効な方法とはなり得ないことが分かっている。
さらに、上述したデータベース間の構造の相違により、現存するそれぞれのデータベースを相互に利用し合うことができず、データベースを十分に活用できないという課題があった。
そこで、データ構造の相違を克服してオブジェクト指向データベースであろうとリレーショナル型データベースであろうと共通して利用可能な新しい構造のデータベースの構築方法及びそのようにして構築されたデータベースが望まれていた。
本発明は、前記要望に応えたもので、名称及び値からなる従来のデータベース構造を改め、値すなわちバリュー（ノウ）とその名称、タイプ、取り得る範囲等の制約を含んだアトリビュート（ハウ）を参照し得るようにした、すなわち、ノウハウ構造を有するデータベースの構築方法及びノウハウ構造を有するデータベース構築システムを提供することを目的とする。
発明の開示駆使
本発明の第一の態様は、多数の業界・分野に属する資料を、ノウハウ構造を有するデータベースとして構築する方法であって、単語を名称毎に分類してその分類名としての名称と当該名称のタイプ、サイズ、取り得る範囲等の制約をアトリビュートとし且つ当該名称の値をバリューとした知識化単語を蓄積し知識化単語辞書を作成する工程と、入力情報を、前記知識化単語辞書を用いて単語分解・文書解析し、アトリビュート又は当該知識化単語辞書内のアトリビュートを参照し得るようにされた前記名称及びバリューからなる要素ユニットの集合としてノウハウ化する工程と、そして、ノウハウ化した知識化データにＩＤを付与して知識化データベースに蓄積する工程とを含んで構成されてなるノウハウ構造を有するデータベースの構築方法を提供する。
ここで「分類名としての名称」とは、「人名」、「地名」、「程度を表す形容詞」、「場所を示す名詞」、「行為を表す動詞」等の「単語の種別＋性質・特性」を言う。「単語の種別」は、品詞等の単語を類別することができる分類であり、これに性質・特性が付与されていることにより、当該単語自身及び／又は当該単語が表れた文章内の他の単語にある種の制約が生じる。例えば、「人名」の場合、その内容又は値には文字が入り、数字（漢数字を除く）や記号はあり得ない。また、「行く」という動詞（又はその語幹である「行」）は、「誰が」、「誰と」、「何時」、「何の為に」、「何処に」、「どのような手段で」、を表す単語と連結する。この場合、例えば、「何処へ」の内容又は値には、場所を表す名詞が来なければならない。そこで、知識化単語辞書の「分類名としての名称」としては、「場所を表す名詞」、すなわち、固有名詞の「地名」と一般名詞の場所を表す単語のみが選択され、単語分解された文章の正しい解を得るため参照される。
このように、「分類名としての名称」と「その名称が取り得るタイプ、サイズ、取り得る範囲等の制約」をアトリビュートとし且つその名称の内容を「バリュー」として知識化単語を作成し知識化単語辞書に記録・蓄積する。
各種の入力情報は、例えば、外国語文書であれば翻訳機、印刷物であればＯＣＲ、音声であれば音声認識装置、他機種の電子情報であればフォーマット変換装置、映像情報であれば画像認識装置を用いてテキストデータ化し、これを単語分解・文書解析する。この際、前述した知識化単語辞書に蓄積された知識化単語、特に、アトリビュートにおける制約を利用して迅速且つ的確に正しい文書解析を得る。本発明方法では、かかる文書解析の結果を、アトリビュート及びバリューを含んで構成されている要素ユニットの集合としてノウハウ化し知識化データとする。前記アトリビュートの代わりに、知識化単語辞書内のアトリビュートを参照し得るように構成された分類名としての名称を使用し、当該名称とバリューとからなる要素ユニットの集合の形態でノウハウ化し知識化データとすることもできる。
このようにしてノウハウ化された知識化データは、それを他と識別するためのＩＤを付与して知識化データベース内に蓄積される。
請求項２に記載の本発明は、請求項１に記載のノウハウ構造を有するデータベースの構築方法において、さらに、既に、リレーショナル型データベースとして構築されたデータについて、データベースの各レコードを選択して、当該レコードの複数のタップルをバリューの集合としスキーマをアトリビュートの名称の集合としてノウハウ化する工程とを含んで構成されてなることを特徴とする。
リレーショナル型データベースは、スキーマに対応する複数のタップルからなる多数のレコードが表形式で蓄積されている。先ず、これを各レコードについて選択してスキーマと一つのレコードからなるデータを観念し、当該一つのレコードのタップル集合をバリュー集合としスキーマをアトリビュートの名称集合として置換する。これにより、請求項１に記載されたアトリビュートの名称とバリューとからなる要素ユニットの集合の形態と同一となる。すなわち、かかる置換により、リレーショナル型データベースをノウハウ化することが可能となり、本発明の知識化データと同様に扱い得ることとなる。
請求項３に記載の本発明は、請求項１に記載のノウハウ構造を有するデータベースの構築方法において、さらに、既に、オブジェクト指向データベースとして構築されたデータについて、オブジェクト指向データベースのインスタンスをバリューの集合としクラスをアトリビュートの名称の集合としてノウハウ化する工程とを含んで構成されてなることを特徴とする。
オブジェクト指向データベースは、データの数及び並び順を示すクラスとその値を示すインスタンスとから構成されている。クラスをアトリビュートの名称集合と、インスタンスをバリューの集合と置換すると、請求項１に記載されたアトリビュートの名称とバリューとからなる要素ユニットの集合の形態と同一となる。すなわち、かかる置換により、オブジェクト指向データベースをノウハウ化することが可能となり、本発明の知識化データと同様に扱い得ることとなる。
請求項４に記載の本発明は、請求項１〜３のいずれか１項に記載のノウハウ構造を有するデータベースの構築方法において、検索数の多いものについて所定数を取り出し書き換え可能なくせキャッシュメモリに記録する工程を含み、当該データベースに検索のためのアクセスがあった場合に、先ず、前記くせキャッシュメモリを検索するように構成してなることを特徴とする。
検索数の多いものについて予めくせキャッシュメモリに蓄積しておき、データベースに検索のためのアクセスがあった場合に、先ず、このくせキャッシュメモリを検索するように構成したものである。これにより、検索速度を格段に向上させる。経験上、全てのデータベースにおいて検索の内容は、一部の数％を除いて実質的に変更が無く同じ内容のものとなる。従って、予めそのような検索が行われるであろうことを予測して、くせキャッシュメモリにそのような検索に対応するデータを用意しておき迅速に対応し得るようにしたものである。
請求項５に記載の本発明は、請求項４に記載のノウハウ構造を有するデータベースの構築方法において、検索対象として頻繁に抽出される知識化データ中の名称で使用頻度の高い上位所定数の名称をスキーマとするリレーショナル型データベースを作成しくせキャッシュメモリに記録する工程を含んで構成されてなることを特徴とする。
そのようなくせキャッシュメモリに記憶させておくべきものの第一は、検索対象として頻繁に抽出される知識化データに出てくるアトリビュートの名称の内、頻繁に抽出されるものについて作成されたリレーショナル型データベースである。使用頻度の高い上位所定数の名称をスキーマとして選定し、そのようなスキーマに該当する知識化データを表形式で作成し、リレーショナル型データベースを得る。これをくせキャッシュメモリに記録・蓄積しておくことにより、単に限定された知識化データを検索することによる高速化に加えて、リレーショナル型データベースを用意しておくことによる検索のさらなる高速化を図るものである。
請求項６に記載の本発明は、請求項４に記載のノウハウ構造を有するデータベースの構築方法において、検索対象として頻繁に抽出される知識化データについて一部の要素ユニットが共通である場合に、共通部分からなる部分ノウハウ化データを上位とし相違する要素ユニットを含むノウハウ化データを下位とするオブジェクト指向データベースを作成し、くせキャッシュメモリに記録する工程を含んで構成されてなることを特徴とする。
くせキャッシュメモリに記憶させておくべきものの第二は、検索対象として頻繁に抽出される知識化データについて一部の要素ユニットが共通である場合に、これらを上位・下位概念にまとめて作成したオブジェクト指向データベースである。検索対象として頻繁に抽出される知識化データの内、ツリー構造のデータベースを作成し得るものについてはこれを用意し、さらなる検索の高速化を図ったものである。
請求項７に記載の本発明は、請求項４に記載のノウハウ構造を有するデータベースの構築方法において、検索対象として頻繁に抽出される知識化データを、絶対的真理に関するノウハウ化データと時間により変化し得る相対的真理に関するノウハウ化データとに分類し、後者が多数存在する場合に絶対的真理に関するノウハウ化データとして置き換えくせキャッシュメモリに記録する工程を含んで構成されてなることを特徴とする。
くせキャッシュメモリに記憶させておくべきものの第三は、時間により変化し得る相対的真理に関するノウハウ化データについて同一データが多数存在する場合に、これを絶対的真理に関するノウハウ化データとして置き換えてなるものである。データ数を圧縮することにより検索速度の向上を図ったものである。
請求項８に記載の本発明は、請求項４に記載のノウハウ構造を有するデータベースの構築方法において、検索対象として頻繁に抽出される知識化データを業界・分野別（シーン）に分類してその中に登場する単語同士の関連度を求め、各単語について関連度の高いものから関連語を選択してくせキャッシュメモリに記録する工程を含んで構成されてなることを特徴とする。
くせキャッシュメモリに記憶させておくべきものの第四は、シーン毎における単語同士の関連度を求め、これより導き出される関連語である。関連語は、過去における所定数の知識化データにおいて単語間に出現頻度の関連が高かった場合に、一方の単語の代わりに他方の単語でデータベースを検索しようとするものである。あるスポーツのスター選手の活躍について検索する場合に、そのスポーツにおいて並び賞される他のスター選手で検索するような場合である。他の方法では、思うような検索結果がでないような場合に用いられる。
本発明の第二の態様は、多数の業界・分野に属する資料をノウハウ構造を有するデータとして蓄積してなるデータベース構築システムであって、単語の分類名としての名称と当該名称のタイプ、サイズ、取り得る範囲等の制約とを含んで構成されてなるアトリビュート及びその名称の値であるバリューを有する知識化単語を多数蓄積してなる知識化単語辞書と、入力手段から入力された文章を、前記知識化単語辞書を参照して単語分解・文書解析すると共に、アトリビュート又は当該知識化単語辞書内のアトリビュートを参照し得るようにされた前記名称及びバリューからなる要素ユニットの集合としてノウハウ化する制御手段と、そして、ノウハウ化した知識化データにＩＤを付与して蓄積する知識化データベースとを含んで構成されてなるノウハウ構造を有するデータベース構築システムを提供する。
請求項１０に記載の本発明は、請求項９に記載のノウハウ構造を有するデータベース構築システムにおいて、制御手段が、既に、リレーショナル型データベースとして構築されたデータについて、データベースの各レコードを選択して、当該レコードのタップルをバリューとしスキーマをアトリビュートの名称としてノウハウ化するＲ−ＤＢノウハウ化制御手段を含んで構成されてなることを特徴とする。
請求項１１に記載の本発明は、請求項９に記載のノウハウ構造を有するデータベース構築システムにおいて、制御手段が、既に、オブジェクト指向データベースとして構築されたデータについて、オブジェクト指向データベースのインスタンスをバリューとしクラスをアトリビュートの名称としてノウハウ化するＯ−ＤＢノウハウ化制御手段を含んで構成されてなることを特徴とする。
請求項１２に記載の本発明は、請求項９〜１１のいずれか１項に記載のノウハウ構造を有するデータベース構築システムにおいて、検索数の多いものについて所定数を取り出し書き換え可能に記録するくせキャッシュメモリを含み、当該データベースに検索のためのアクセスがあった場合に、先ず、前記くせキャッシュメモリを検索するように構成してなることを特徴とする。
請求項１３に記載の本発明は、請求項１２に記載のノウハウ構造を有するデータベース構築システムにおいて、制御手段が、検索対象として頻繁に抽出される知識化データ中の名称で使用頻度の高い上位所定数の名称をスキーマとするリレーショナル型データベースを作成しくせキャッシュメモリに記録するように構成されてなることを特徴とする。
請求項１４に記載の本発明は、請求項１２に記載のノウハウ構造を有するデータベース構築システムにおいて、制御手段が、検索対象として頻繁に抽出される知識化データについて一部の要素ユニットが共通である場合に、共通部分からなる部分ノウハウ化データを上位とし相違する要素ユニットを含むノウハウ化データを下位とするオブジェクト指向データベースを作成しくせキャッシュメモリに記録するように構成されてなることを特徴とする。
請求項１５に記載の本発明は、請求項１２に記載のノウハウ構造を有するデータベース構築システムにおいて、制御手段が、検索対象として頻繁に抽出される知識化データを、絶対的真理に関するノウハウ化データと時間により変化し得る相対的真理に関するノウハウ化データとに分類し、後者が多数存在する場合に絶対的真理に関するノウハウ化データとして置き換えくせキャッシュメモリに記録するように構成されてなることを特徴とする。
請求項１６に記載の本発明は、請求項１２に記載のノウハウ構造を有するデータベース構築システムにおいて、制御手段が、検索対象として頻繁に抽出される知識化データを業界・分野別（シーン）に分類してその中に登場する単語同士の関連度を求め、各単語について関連度の高いものから関連語を選択してくせキャッシュメモリに記録するように構成されてなることを特徴とする。
本発明は、以下に具体的に記載する実施例に限定されるものではなく、その精神を逸脱することなく種々の修正・変更が可能である。
発明を実施するための最良の形態
以下、図面を参照して本発明に係るノウハウ構造を有するデータベースの構築方法及びノウハウ構造を有するデータベース構築システムの一実施例について詳細に説明する。
初めに、第１図は、本発明の各種態様の全体像を説明するためのブロック図である。
参照番号１０は、多数の業界・分野（それぞれの業界・分野に関する情報の集合を「シーン」と称する。）に属する資料の集合を示している。資料が外国語文書１０ａである場合は、翻訳機１２ａを介して日本語に翻訳しこれをノウハウ化制御手段２０に送る。資料が文書の場合にはＯＣＲ１２ｂで、また、音声である場合には音声認識ソフト１２ｃ等周知の手段により前処理された後、ノウハウ化制御手段２０に送られる。さらに、各種の電子情報１０ｄの場合にはフォーマット変換装置１２ｄによりフォーマットを統一した後、ノウハウ化制御手段２０に送られる。人の顔、指紋等の画像情報１０ｅの場合には、画像認識装置１２ｅにより前処理された後、ノウハウ化制御手段２０に送られる。
本発明システムでは、従来とは相違して、知識化単語辞書を用いて単語分解・文書解析を行い、入力情報をノウハウ化する。ここで、知識化単語辞書とは、単語を名称毎に分類してその分類名としての名称と当該名称のタイプ、サイズ、取り得る範囲等の制約をアトリビュートとし且つ当該名称の値をバリューとした知識化単語を蓄積したものである。「分類名としての名称」は、「人名」、「地名」、「程度を表す形容詞」、「場所を示す名詞」、「行為を表す動詞」等の「品詞等の単語の種別＋性質・特性」を言う。性質・特性が付与されていることにより、当該単語自身及び／又は当該単語が表れた文章内の他の単語にある種の制約が生じる。例えば、「人名」の場合、その内容又は値（バリュー）には文字が入り、数字（漢数字を除く）や記号はあり得ない。また、「住む」という動詞（又はその語幹である「住」）は、主語に父母兄弟、叔父・叔母、原住民、昔の人等の「人を表す名詞」又は固有名詞である「人名」を、そして、主語と熟語の間に東京、マンション、一戸建て等の「場所又は住所」を表す名詞を持っている。
「行く」という動詞（又はその語幹である「行」）は、「誰が」、「誰と」、「何時」、「何の為に」、「何処に」、「どのような手段で」、を表す単語と連結する。この場合、例えば、「何処へ」の内容又は値には、場所を表す名詞が来なければならない。そこで、知識化単語辞書の「分類名としての名称」としては、「場所を表す名詞」、すなわち、固有名詞の「地名」と一般名詞の場所を表す単語のみが選択され、単語分解された文章の正しい解を得るため参照される。
このように、「分類名としての名称」と「その名称が取り得るタイプ、サイズ、取り得る範囲等の制約」をアトリビュートとし且つその名称の内容を「バリュー」として知識化単語を作成し知識化単語辞書３０に記録・蓄積する。第２図は、知識化単語の数例を示した表である。
ノウハウ化制御手段２０は、各種の形態で入力される情報を、知識化単語辞書３０を用いて単語分解・文書解析し、アトリビュート及びバリューからなる要素ユニットの集合としてノウハウ化する。あるいは、知識化単語辞書３０内のアトリビュートを参照し得るようにされた名称及びバリューからなる要素ユニットの集合としてノウハウ化することができる。知識化データベース４０の記憶容量を格段に節約することができる。
例えば、「龍崎は、東京のマンションで犬と一緒に優雅に住んでいる。」、「龍崎は、学校に行く。」からなる２つのテキストテータを知識化データする場合について説明する。第３図（ａ）及び（ｂ）は、それぞれの文章を単語分解した状態を示している。第一の例では、「住む」という行動を表す動詞から、『主語に「人を表す名詞又は人名」が、また、主語と述語である動詞の間に「場所を表す名詞又は住所」がくる。』という制約が発生する。ノウハウ化制御手段２０は、主語の位置を指示する「は」又は「が」の前の読み「りゅうざき」の適正な単語を、知識化単語辞書３０に蓄積された名称「人を表す名詞」又は「人名」のものについて検索し、「龍崎」を抽出する。
同様に、場所を表す助詞「で」又は「に」の前の読み「とうきょうのまんしょん」の適正な単語を検索する。この場合に、必要に応じて「接続語」である「の」により２つの読み「とうきょう」、「まんしょん」を得て、これに対し、知識化単語辞書３０に蓄積された名称「場所を表す名詞」又は「地名」のものについて検索し、それぞれ、「東京」及び「マンション」を抽出する。第４図（ａ）及び（ｂ）は、このようにして作成した知識化データの一例である。本実施例では、アトリビュートの名称とバリューとからなる要素ユニットの集合として知識化データが構築されている。もちろん、知識化データベース４０の容量が極めて大きい場合には、アトリビュートとバリューとからなる要素ユニットの集合として知識化データを形成し、蓄積することができる。知識化単語辞書３０を参照することなく、ノウハウ化制御手段２０で所定の処理を行うため、処理速度がその分速くなる利点がある。
これらの検索は、アトリビュートの名称及び制約により検索すべき対象が限定されることとなるため、検索に要する時間は飛躍的に減少する。
大容量の内部又は知識化データベース４０は、このようにして構築された知識化データにＩＤを付与して記録蓄積する。ＩＤを付与するのは、個々の知識化データをノウハウ化制御手段２０が参照する際のアドレスとするためである。
図示された好ましい実施例では、ノウハウ化制御手段２０は、既に、リレーショナル型データベースとして構築されたデータをノウハウ化して知識化データベース４０に記録蓄積し、前述した知識化データと同様に使用し得るようにするＲ−ＤＢノウハウ化制御手段２０ａを含んでいる。第５図は、従来のリレーショナル型データベースを示す表である。表中、Ｓ１〜Ｓｎは、検索キーとなる属性、すなわち、スキームであり、Ｔ１１〜Ｔｍｎは、その内容又は値であるタップルである。各行は、１つのレコードを構成するが、Ｓ１、Ｓ２、−−−Ｓｎからなるスキーマとデータベースの各レコードを選択して、第６図に示したようなレコードの数が「１」のリレーショナル型データベースを、元のリレーショナル型データベースのレコード数だけ作成する。そして、第７図に示したように、レコードのタップルをバリューとしスキーマをアトリビュートの名称とする旨の置換を行う。かかるデータは、前述した知識化データと同一のデータ構造を持っているため、知識化データベース４０にそのまま、又は、スキームを前述した「分類名としての名称」に合わせるための修正を加えた後、知識化データベース４０に記録蓄積することができる。
他の好ましい実施例では、制御手段は、既に、オブジェクト指向データベースとして構築されたデータをノウハウ化して知識化データベース４０に記録蓄積し、前述した知識化データと同様に使用し得るようにするＯ−ＤＢノウハウ化制御手段２０ｂを含んでいる。第１２図（ａ）は、従来のオブジェクト指向データベースを示す図である。図中、Ａ１〜Ａ３は、クラス中におけるデータの名前であり、Ｖ１〜Ｖ３は、その内容又は値であるインスタンスである。かかるデータは、夫々を前述したアトリビュート及びバリューに置換すれば本発明の知識化データと同一のデータ構造を持つこととなる。そこで、知識化データベース４０にそのまま、又は、クラス中におけるデータの分類を前述した「分類名としての名称」に合わせるための修正を加えた後、知識化データベース４０に記録蓄積することができる。
本発明に係るノウハウ構造を有するデータベース構築システムでは、知識化データベース４０に莫大な量の知識化データが蓄積されることとなる。従って、検索のためのアクセスがあった場合ごとに、直接、知識化データベース４０に検索の為の処理を行うと、処理に時間が掛かり過ぎる。これを飛躍的に短縮するために、図示された好ましい実施例では、検索数の多いものについて所定数を取り出し書き換え可能に記録するくせキャッシュメモリ５０が設けられている。そして、当該知識化データベース４０に検索のためのアクセスがあった場合に、先ず、このくせキャッシュメモリ５０を検索するように構成してなることを特徴とする。このくせキャッシュメモリ５０には、後述するように種々のアプローチからのデータも書き換え可能に蓄積されており、その内の最も検索速度の速いと思われるものから検索を行うように構成することができる。
検索数の多いものについて予めくせキャッシュメモリに蓄積しておき、データベースに検索のためのアクセスがあった場合に、先ず、このくせキャッシュメモリを検索するように構成したことにより、検索速度を格段に向上させる効果がある。経験上、全てのデータベースにおいて検索の内容は、一部の数％を除いて実質的に変更が無く同じ内容のものとなるからである。従って、予めそのような検索が行われるであろうことを予測して、くせキャッシュメモリにそのような検索に対応するデータを用意しておき迅速に対応し得るようにしたものである。
くせキャッシュメモリ５０に記録される知識化データとしては、第一に、検索対象として頻繁に抽出される知識化データ中、例えば、２万データの中に出現する名称で出現頻度の高い上位所定数、例えば、１００の名称をスキーマとして作成したリレーショナル型データベースがある（第８図参照）。ノウハウ化制御手段２０には、このようなリレーショナル型データベースを作成する制御部２０ｃが設けられている。もちろん、検索対象として頻繁に抽出される知識化データの数をいくつとするか、あるいはその中の名称で出現頻度の高い上位所定数をいくつとするかは、データベースにおける知識化データの規模やコンピュータの計算能力によって適宜選択されるべきもので、上記数字に限定されるべきではない。
本データベースの利用者である検索者６０が、キーボード、マイクロフォン等各種の入力装置６２を用いて検索条件を入力した場合に、その全て又は所定数の条件がくせキャッシュメモリ５０に記録されたリレーショナル型データベースのスキーマと一致する時には当該リレーショナル型データベースが検索され、ヒットしたものが検索データとして出力される。
くせキャッシュメモリ５０に記録される知識化データとしては、第二に、検索対象として頻繁に抽出される知識化データについて一部の要素ユニットが共通である場合に、共通部分からなる部分ノウハウ化データを上位とし相違する要素ユニットを含むノウハウ化データを下位とするオブジェクト指向データベースがある（第９図参照）。ノウハウ化制御手段２０には、このようなオブジェクト指向データベースを作成する制御部２０ｄが設けられている。
上位の知識化データから下位の知識化データへ情報を追っていくため、目的とする知識化データへの検索速度は非常に早くなる。
くせキャッシュメモリ５０に記録される知識化データとしては、第三に、検索対象として頻繁に抽出される知識化データを、絶対的真理に関するノウハウ化データと時間により変化し得る相対的真理に関するノウハウ化データとに分類し、後者が多数存在する場合に絶対的真理に関するノウハウ化データとして置き換えたものがある。ノウハウ化制御手段２０には、このようなオブジェクト指向データベースを作成する制御部２０ｅが設けられている。
くせキャッシュメモリ５０に記録されるデータとしては、第四に、検索対象として頻繁に抽出される知識化データを業界・分野別（シーン）に分類してその中に登場する単語同士の関連度を求め、各単語について関連度の高いものを選択してなる関連語がある（第１０図参照）。ノウハウ化制御手段２０には、このようなオブジェクト指向データベースを作成する制御部２０ｇが設けられている。過去における所定数の知識化データにおいて単語間に出現頻度の関連が高かった場合に、一方の単語の代わりに他方の単語でデータベースを検索しようとするものである。プロ野球のスター選手の活躍について検索する場合に、その選手と並び賞される他のスター選手、例えば、タイエイフォークスの「玉」選手の現役時代の記事を検索する場合に、読切ジャイアン時代からの盟友「長嶋田」選手の名前、「ホームラン王」、「ベース・ルーブ」等の関連語で検索するような場合である。他の方法では、思うような検索結果がでないような場合にも有用である。
関連語を決定するためには、一の単語と他の単語との関連度が適切に特定できるような資料集合の選択が前提となる。前述の例では、スポーツ、特に、野球という分野に特化した資料において関連度を調べること必要である。経済や商工業の分野の新聞雑誌をいくら調べても有効な関連度を得ることはできない。業界・分野別（シーン）の概念は、このような場合に、適切な関連度を得ることができる範囲を予め設定するものである。このようなシーンは、例えば、知識化データのアトリビュートの中に、「スポーツ／野球」のような識別子を付与することよって簡単に設定することができる。
第１０図は、例えば、同一のシーン識別子を付与された単語、すなわち、値（バリュー）を含む多数の資料を単語分解し、その中に登場した単語の登場頻度の順に並べたものである。資料中の単語数を例えば１０万語とした場合に、資料１では、単語ｖ１が１０回、単語ｖ２が７回、−−−−登場したという意味である。同様に資料２では、単語ｖ１が４回、単語ｖ２が８回、−−−−登場している。
かかる表において、単語ｖ４に注目すると、１００資料中、５８の資料に登場している。一方、単語ｖ１は、１００資料中９８の資料に登場しているが、ｖ４と共通して登場している資料数は４８であるとすると、単語ｖ４の代わりに単語ｖ１で当該１００資料を検索すると、４８の資料を正しく抽出することができ、２０つの資料を見逃している。そこで、関連度を、例えば、（単語ｖ４を含む資料数のうち単語ｖ１で抽出できる資料数、すなわち、単語ｖ１とｖ４が共に登場する資料数）÷（単語ｖ４を含む資料数）と与えると、単語ｖ４に対する単語ｖ１の関連度は、４８÷５８で０．８２８となる。
同様に単語ｖ１８は、１００資料中５３の資料に登場しているが、ｖ４と共通して登場している資料数は５０であるとすると、単語ｖ４の代わりに単語ｖ１８で当該１００資料を検索すると、５０の資料を正しく抽出することができ、８つの資料のみを見逃している。そこで、関連度は５０÷５８で０．８６２となり、単語ｖ１よりも高くなる。
このようにして計算した関連度の高い単語を所定数選び、これをくせキャッシュメモリ５０に記憶しておく。そして、検索者６０からの検索条件として、単語ｖ４が与えられた場合には、知識化単語辞書３０を参照してその単語ｖ４の分類名としての名称を特定し、くせキャッシュメモリ５０の各種のデータ、例えば、リレーショナル型データベースやオブジェクト指向データベースにおける名称が同一のものを検索し、所望の知識化データを抽出する。もし、所望の知識化データが得られなかった場合等に、くせキャッシュメモリ５０に記録された関連度の高い単語を用い、同様にくせキャッシュメモリ５０を検索する。
次に、本発明に係るノウハウ構造を有するデータベースの構築方法について説明する。
第１１図は、本発明に係るノウハウ構造を有するデータベースの構築方法の一実施形態の流れを示すフローチャートである。図１１に示されているように、本発明のノウハウ構造を有するデータベースの構築方法は、概略的に、知識化単語辞書作成工程Ｓ１、入力情報、既存リレーショナル型データベース又は既存オブジェクト指向データベースのノウハウ化工程Ｓ２〜Ｓ４と、ＩＤ情報を付与しての知識化データのデータベース化工程Ｓ５と、そして、良く出る知識化データのくせキャッシュメモリへの記録工程Ｓ６とから構成されている。
知識化単語辞書作成工程Ｓ１は、単語を名称毎に分類してその分類名としての名称と当該名称のタイプ、サイズ、取り得る範囲等の制約をアトリビュートとして知識化単語辞書３０に蓄積するものである。
入力情報としては、種々のものがある。例えば、外国語文書であれば翻訳機を用いてテキストデータ化した後、これをノウハウ化制御手段２０が知識化単語辞書３０を参照しながら単語分解・文書解析する。同様に、印刷物であればＯＣＲ、音声であれば音声認識装置、他機種の電子情報であればフォーマット変換装置、映像情報であれば画像認識装置を用いてテキストデータ化し、これらをノウハウ化制御手段２０が知識化単語辞書３０を参照しながら単語分解・文書解析する。
既存のリレーショナル型データベースは、一つのレコードのタップル集合をバリュー集合としスキーマをアトリビュートの名称集合として置換し、ノウハウ化した後通常の知識化データと同様に扱う。既存のオブジェクト指向データベースは、インスタンスをバリューの集合としクラスをアトリビュートの名称の集合として置換し、ノウハウ化した後通常の知識化データと同様に扱う。
この際、前述した知識化単語辞書に蓄積された知識化データ、特に、アトリビュートにおける制約を利用して迅速且つ的確に正しい文書解析を得る。本発明方法では、かかる文書解析の結果を、アトリビュート及びバリューを含んで構成されている要素ユニットの集合としてノウハウ化し知識化データとする。アトリビュートの代わりに、知識化単語辞書内のアトリビュートを参照し得るように構成された分類名としての名称を使用し、当該名称とバリューとからなる要素ユニットの集合の形態でノウハウ化し知識化データとすることもできる。
そして、データベース化工程Ｓ５では、ノウハウ化した知識化データにはＩＤを付与して知識化データベース４０に蓄積する。図示された好ましい実施例では、さらに、検索の迅速化及び／又は正確さのために、良く出る知識化データをくせキャッシュメモリへ記録する工程Ｓ６が設けられている。そして、知識化データベース４０に検索のためのアクセスがあった場合に、先ず、くせキャッシュメモリ５０を検索するように構成している。
検索数の多いものについて予めくせキャッシュメモリに蓄積しておき、データベースに検索のためのアクセスがあった場合に、先ず、このくせキャッシュメモリを検索するように構成したものである。これにより、検索速度を格段に向上させる。経験上、全てのデータベースにおいて検索の内容は、一部の数％を除いて実質的に変更が無く同じ内容のものとなる。従って、予めそのような検索が行われるであろうことを予測して、くせキャッシュメモリにそのような検索に対応するデータを用意しておき迅速に対応し得るようにしたものである。
くせキャッシュメモリの利用態様は、例えば、以下の４つがある。第一は、検索対象として頻繁に抽出される知識化データ中の名称で使用頻度の高い上位所定数の名称をスキーマとするリレーショナル型データベースを作成し、これをくせキャッシュメモリに記録しておくものである。その第二は、検索対象として頻繁に抽出される知識化データについて一部の要素ユニットが共通である場合に、共通部分からなる部分ノウハウ化データを上位とし相違する要素ユニットを含むノウハウ化データを下位とするオブジェクト指向データベースを作成し、くせキャッシュメモリに記録しておくものである。その第三は、検索対象として頻繁に抽出される知識化データを、絶対的真理に関するノウハウ化データと時間により変化し得る相対的真理に関するノウハウ化データとに分類し、後者が多数存在する場合に絶対的真理に関するノウハウ化データとして置き換え、これをくせキャッシュメモリに記録しておくものである。そして、その第四は、検索対象として頻繁に抽出される知識化データを業界・分野別（シーン）に分類してその中に登場する単語同士の関連度を求め、各単語について関連度の高いものから関連語を選択してくせキャッシュメモリに記録しておくものである。
【図面の簡単な説明】
第１図は、本発明の第一の態様に係るノウハウ構造を有するデータベースの構築方法の一実施例のフローチャートである。
第２図は、知識化単語の数例を示した表である。
第３図（ａ）及び（ｂ）は、それぞれ、例文として挙げた文章を単語分解した状態を示す説明図である。
第４図（ａ）及び（ｂ）は、第３図（ａ）及び（ｂ）の文書から得た知識化データの一例を示す説明図である。
第５図は、従来のリレーショナル型データベースを示す表である。
第６図は、第５図示したリレーショナル型データベースから１レコードを選択して得たリレーショナル型データベースの説明図である。
第７図は、第６図のリレーショナル型データベースに示された一のレコードのタップルをバリューとしスキーマをアトリビュートの名称とする旨の置換を行って得た知識化データの説明図である。
第８図は、従来のオブジェクト指向データベースを示す図である。
第９図は、共通部分からなる部分ノウハウ化データを上位とし相違する要素ユニットを含むノウハウ化データを下位とするオブジェクト指向データベースの作成手順を示す説明図である。
第１０図は、ある単語について関連度の高い関連語を得る方法の一例を説明するための表である。
第１１図は、本発明に係るノウハウ構造を有するデータベースの構築方法の一実施形態の流れを示すフローチャートである。
第１２図（ａ）及び（ｂ）は、それぞれ、従来のオブジェクト指向データベースにおけるデータ構造を説明する図及びデータ間のツリー構造を説明するための概略図である。

Claims

多数の業界・分野に属する資料を、ノウハウ構造を有するデータベースとして構築する方法であって、
単語を名称毎に分類してその分類名としての名称と当該名称のタイプ、サイズ、取り得る範囲等の制約をアトリビュートとし且つ当該名称の値をバリューとした知識化単語を蓄積し知識化単語辞書を作成する工程と、
入力情報を、前記知識化単語辞書を用いて単語分解・文書解析し、アトリビュート又は当該知識化単語辞書内のアトリビュートを参照し得るようにされた前記名称及びバリューからなる要素ユニットの集合としてノウハウ化する工程と、
ノウハウ化した知識化データにＩＤを付与して知識化データベースに蓄積する工程と、
を含んで構成されてなるノウハウ構造を有するデータベースの構築方法。
請求項１に記載のノウハウ構造を有するデータベースの構築方法において、さらに、
既に、リレーショナル型データベースとして構築されたデータについて、データベースの各レコードを選択して、当該レコードのタップルをバリューとしスキーマを前記アトリビュートの名称としてノウハウ化する工程とを含んで構成されてなることを特徴とするノウハウ構造を有するデータベースの構築方法。
請求項１に記載のノウハウ構造を有するデータベースの構築方法において、さらに、
既に、オブジェクト指向データベースとして構築されたデータについて、前記オブジェクト指向データベースのインスタンスをバリューとしクラスを前記アトリビュートの名称としてノウハウ化する工程とを含んで構成されてなることを特徴とするノウハウ構造を有するデータベースの構築方法。
請求項１〜３のいずれか１項に記載のノウハウ構造を有するデータベースの構築方法において、
検索数の多いものについて所定数を取り出し書き換え可能なくせキャッシュメモリに記録する工程を含み、当該データベースに検索のためのアクセスがあった場合に、先ず、前記くせキャッシュメモリを検索するように構成してなることを特徴とするノウハウ構造を有するデータベースの構築方法。
請求項４に記載のノウハウ構造を有するデータベースの構築方法において、前記検索対象として頻繁に抽出される知識化データ中の名称で使用頻度の高い上位所定数の名称をスキーマとするリレーショナル型データベースを作成し前記くせキャッシュメモリに記録する工程を含んで構成されてなることを特徴とするノウハウ構造を有するデータベースの構築方法。
請求項４に記載のノウハウ構造を有するデータベースの構築方法において、
前記検索対象として頻繁に抽出される知識化データについて一部の要素ユニットが共通である場合に、共通部分からなる部分ノウハウ化データを上位とし相違する要素ユニットを含むノウハウ化データを下位とするオブジェクト指向データベースを作成し前記くせキャッシュメモリに記録する工程を含んで構成されてなることを特徴とするノウハウ構造を有するデータベースの構築方法。
請求項４に記載のノウハウ構造を有するデータベースの構築方法において、
前記検索対象として頻繁に抽出される知識化データを、絶対的真理に関するノウハウ化データと時間により変化し得る相対的真理に関するノウハウ化データとに分類し、後者が多数存在する場合に絶対的真理に関するノウハウ化データとして置き換え前記くせキャッシュメモリに記録する工程を含んで構成されてなることを特徴とするノウハウ構造を有するデータベースの構築方法。
請求項４に記載のノウハウ構造を有するデータベースの構築方法において、
前記検索対象として頻繁に抽出される知識化データを業界・分野別（シーン）に分類してその中に登場する単語同士の関連度を求め、各単語について関連度の高いものから関連語を選択して前記くせキャッシュメモリに記録する工程を含んで構成されてなることを特徴とするノウハウ構造を有するデータベースの構築方法。
多数の業界・分野に属する資料を、ノウハウ構造を有するデータとして蓄積してなるデータベース構築システムであって、
単語の分類名としての名称と当該名称のタイプ、サイズ、取り得る範囲等の制約とを含んで構成されてなるアトリビュート及びその名称の値であるバリューを有する知識化単語を多数蓄積してなる知識化単語辞書と、
入力手段から入力された文章を、前記知識化単語辞書を参照して単語分解・文書解析すると共に、アトリビュート又は当該知識化単語辞書内のアトリビュートを参照し得るようにされた前記名称及びバリューからなる要素ユニットの集合としてノウハウ化する制御手段と、そして、
ノウハウ化した知識化データにＩＤを付与して蓄積する知識化データベースと、
を含んで構成されてなるノウハウ構造を有するデータベース構築システム。
請求項９に記載のノウハウ構造を有するデータベース構築システムにおいて、前記制御手段は、既に、リレーショナル型データベースとして構築されたデータについて、データベースの各レコードを選択して、当該レコードのタップルをバリューとしスキーマを前記アトリビュートの名称としてノウハウ化するＲ−ＤＢノウハウ化制御手段を含んで構成されてなることを特徴とするノウハウ構造を有するデータベース構築システム。
請求項９に記載のノウハウ構造を有するデータベース構築システムにおいて、前記制御手段は、既に、オブジェクト指向データベースとして構築されたデータについて、前記オブジェクト指向データベースのインスタンスをバリューとしクラスを前記アトリビュートの名称としてノウハウ化するＯ−ＤＢノウハウ化制御手段を含んで構成されてなることを特徴とするノウハウ構造を有するデータベース構築システム。
請求項９〜１１のいずれか１項に記載のノウハウ構造を有するデータベース構築システムにおいて、
検索数の多いものについて所定数を取り出し書き換え可能に記録するくせキャッシュメモリを含み、当該データベースに検索のためのアクセスがあった場合に、先ず、前記くせキャッシュメモリを検索するように構成してなることを特徴とするノウハウ構造を有するデータベース構築システム。
請求項１２に記載のノウハウ構造を有するデータベース構築システムにおいて、前記制御手段は、前記検索対象として頻繁に抽出される知識化データ中の名称で使用頻度の高い上位所定数の名称をスキーマとするリレーショナル型データベースを作成し前記くせキャッシュメモリに記録するように構成されてなることを特徴とするノウハウ構造を有するデータベース構築システム。
請求項１２に記載のノウハウ構造を有するデータベース構築システムにおいて、前記制御手段は、前記検索対象として頻繁に抽出される知識化データについて一部の要素ユニットが共通である場合に、共通部分からなる部分ノウハウ化データを上位とし相違する要素ユニットを含むノウハウ化データを下位とするオブジェクト指向データベースを作成し前記くせキャッシュメモリに記録するように構成されてなることを特徴とするノウハウ構造を有するデータベース構築システム。
請求項１２に記載のノウハウ構造を有するデータベース構築システムにおいて、前記制御手段は、前記検索対象として頻繁に抽出される知識化データを、絶対的真理に関するノウハウ化データと時間により変化し得る相対的真理に関するノウハウ化データとに分類し、後者が多数存在する場合に絶対的真理に関するノウハウ化データとして置き換え前記くせキャッシュメモリに記録するように構成されてなることを特徴とするノウハウ構造を有するデータベース構築システム。
請求項１２に記載のノウハウ構造を有するデータベース構築システムにおいて、前記制御手段は、前記検索対象として頻繁に抽出される知識化データを業界・分野別（シーン）に分類してその中に登場する単語同士の関連度を求め、各単語について関連度の高いものから関連語を選択して前記くせキャッシュメモリに記録するように構成されてなることを特徴とするノウハウ構造を有するデータベース構築システム。