JPWO2002021270A1 - ノウハウ構造を有するデータベースの構築方法及びノウハウ構造を有するデータベース構築システム - Google Patents

ノウハウ構造を有するデータベースの構築方法及びノウハウ構造を有するデータベース構築システム Download PDF

Info

Publication number
JPWO2002021270A1
JPWO2002021270A1 JP2002524817A JP2002524817A JPWO2002021270A1 JP WO2002021270 A1 JPWO2002021270 A1 JP WO2002021270A1 JP 2002524817 A JP2002524817 A JP 2002524817A JP 2002524817 A JP2002524817 A JP 2002524817A JP WO2002021270 A1 JPWO2002021270 A1 JP WO2002021270A1
Authority
JP
Japan
Prior art keywords
know
database
data
name
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002524817A
Other languages
English (en)
Inventor
龍 忠光
Original Assignee
シーエーアイ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シーエーアイ株式会社 filed Critical シーエーアイ株式会社
Publication of JPWO2002021270A1 publication Critical patent/JPWO2002021270A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Abstract

多数の業界・分野に属する資料を、ノウハウ構造を有するデータベースとして構築する方法であって、単語を名称毎に分類してその分類名としての名称と当該名称のタイプ、サイズ、取り得る範囲等の制約をアトリビュートとし且つ当該名称の値をバリューとした知識化単語を蓄積し知識化単語辞書を作成する工程S1と、入力情報を、知識化単語辞書を用いて単語分解・文書解析し、アトリビュート又は当該知識化単語辞書内のアトリビュートを参照し得るようにされた名称及びバリューからなる要素ユニットの集合としてノウハウ化する工程S2と、そして、ノウハウ化した知識化データにIDを付与して知識化データベースに蓄積する工程S5とを含んで構成されている。検索数の多いものについて所定数を取り出し、くせキャツシュメモリに書き換え可能に記録し、当該データベースに検索のためのアクセスがあった場合に、先ず、くせキャッシュメモリを検索するように構成することもできる。

Description

技術分野
本発明は、既存のリレーショナル型データベース、オブジェクト指向データベースを統合し得るノウハウ構造を有するデータベースの構築方法及びノウハウ構造を有するデータベース構築システムに関する。
技術の背景
従来、資料のデータ化、検索および分析においては、対象資料に含まれる情報を、構造を規定するクラスと情報をそのような構造に従って記録したインスタンスに分けて蓄積し、データの機能や意味を重要視してツリー構造に整理する方法、リレーショナル型データベースに見られるような表形式に対象資料を管理する方法が代表的である。ツリー構造のように特定の構造を採ると、特定の情報については簡単に分析、検索できるものの別の情報については非常に困難になるという問題がある。オブジェクト指向データベースは、簡単に記述すると、図12(a)に示したような、クラス及びインスタンスから構成されている。A1〜A3は、インスタンスに記録すべき「値の概念」を示し、インスタンスには、アドレスXに記述されているクラスCの規則に従って「値」が記録される。図12(b)で示されるようなツリー構造において、下位に位置するデータのクラスは上位に位置するデータのクラスの下位概念であるため、ツリーの頂点から下に向って該当するものを流れ下ってくることによって所望のデータを簡単に検索することができる。しかしながら、かかるオブジェクト指向データベースは、上位概念・下位概念といった概念についてはデータ化可能であるが、概念といった捉え方のできない暗黙智や事例をデータ化することはできない。
他方、表形式においては、予め検索キーとなる属性、すなわち、スキーマS1〜Snを設定し、データ構造を設計しておく必要がある。すなわち、リレーショナル型データベースは、簡単に記述すると、第5図に示したような、スキーマS1〜Sn及びその値である複数のタップルT11〜Tmnからなる個々のレコードを表形式で記録したデータ構造を有している。従って、当初から存在するスキーマ以外の項目がデータ中に存在する時は、当該スキーム又はスキーマに該当するタップルについてはデータ化不能となる。これをデータ化するにはデータベース全体の設計見直しをしなければならず、一旦設計した構造を途中から変更することはできない。リレーショナル型データベースでは新しいデータベース全体の設計見直しをしなければならないので、日々更新される現実世界のデータ化には対応することができない。
さらに、最近、公的機関や企業が保有する膨大な量の文書・資料の有効活用が注目されている。こうした分野においては、前述のツリー構造による整理方法も、表形式による方法も膨大な量の人手による作業の必要性、資料の構造化の困難、検索キーを設定する上での困難さのため有効な方法とはなり得ないことが分かっている。
さらに、上述したデータベース間の構造の相違により、現存するそれぞれのデータベースを相互に利用し合うことができず、データベースを十分に活用できないという課題があった。
そこで、データ構造の相違を克服してオブジェクト指向データベースであろうとリレーショナル型データベースであろうと共通して利用可能な新しい構造のデータベースの構築方法及びそのようにして構築されたデータベースが望まれていた。
本発明は、前記要望に応えたもので、名称及び値からなる従来のデータベース構造を改め、値すなわちバリュー(ノウ)とその名称、タイプ、取り得る範囲等の制約を含んだアトリビュート(ハウ)を参照し得るようにした、すなわち、ノウハウ構造を有するデータベースの構築方法及びノウハウ構造を有するデータベース構築システムを提供することを目的とする。
発明の開示駆使
本発明の第一の態様は、多数の業界・分野に属する資料を、ノウハウ構造を有するデータベースとして構築する方法であって、単語を名称毎に分類してその分類名としての名称と当該名称のタイプ、サイズ、取り得る範囲等の制約をアトリビュートとし且つ当該名称の値をバリューとした知識化単語を蓄積し知識化単語辞書を作成する工程と、入力情報を、前記知識化単語辞書を用いて単語分解・文書解析し、アトリビュート又は当該知識化単語辞書内のアトリビュートを参照し得るようにされた前記名称及びバリューからなる要素ユニットの集合としてノウハウ化する工程と、そして、ノウハウ化した知識化データにIDを付与して知識化データベースに蓄積する工程とを含んで構成されてなるノウハウ構造を有するデータベースの構築方法を提供する。
ここで「分類名としての名称」とは、「人名」、「地名」、「程度を表す形容詞」、「場所を示す名詞」、「行為を表す動詞」等の「単語の種別+性質・特性」を言う。「単語の種別」は、品詞等の単語を類別することができる分類であり、これに性質・特性が付与されていることにより、当該単語自身及び/又は当該単語が表れた文章内の他の単語にある種の制約が生じる。例えば、「人名」の場合、その内容又は値には文字が入り、数字(漢数字を除く)や記号はあり得ない。また、「行く」という動詞(又はその語幹である「行」)は、「誰が」、「誰と」、「何時」、「何の為に」、「何処に」、「どのような手段で」、を表す単語と連結する。この場合、例えば、「何処へ」の内容又は値には、場所を表す名詞が来なければならない。そこで、知識化単語辞書の「分類名としての名称」としては、「場所を表す名詞」、すなわち、固有名詞の「地名」と一般名詞の場所を表す単語のみが選択され、単語分解された文章の正しい解を得るため参照される。
このように、「分類名としての名称」と「その名称が取り得るタイプ、サイズ、取り得る範囲等の制約」をアトリビュートとし且つその名称の内容を「バリュー」として知識化単語を作成し知識化単語辞書に記録・蓄積する。
各種の入力情報は、例えば、外国語文書であれば翻訳機、印刷物であればOCR、音声であれば音声認識装置、他機種の電子情報であればフォーマット変換装置、映像情報であれば画像認識装置を用いてテキストデータ化し、これを単語分解・文書解析する。この際、前述した知識化単語辞書に蓄積された知識化単語、特に、アトリビュートにおける制約を利用して迅速且つ的確に正しい文書解析を得る。本発明方法では、かかる文書解析の結果を、アトリビュート及びバリューを含んで構成されている要素ユニットの集合としてノウハウ化し知識化データとする。前記アトリビュートの代わりに、知識化単語辞書内のアトリビュートを参照し得るように構成された分類名としての名称を使用し、当該名称とバリューとからなる要素ユニットの集合の形態でノウハウ化し知識化データとすることもできる。
このようにしてノウハウ化された知識化データは、それを他と識別するためのIDを付与して知識化データベース内に蓄積される。
請求項2に記載の本発明は、請求項1に記載のノウハウ構造を有するデータベースの構築方法において、さらに、既に、リレーショナル型データベースとして構築されたデータについて、データベースの各レコードを選択して、当該レコードの複数のタップルをバリューの集合としスキーマをアトリビュートの名称の集合としてノウハウ化する工程とを含んで構成されてなることを特徴とする。
リレーショナル型データベースは、スキーマに対応する複数のタップルからなる多数のレコードが表形式で蓄積されている。先ず、これを各レコードについて選択してスキーマと一つのレコードからなるデータを観念し、当該一つのレコードのタップル集合をバリュー集合としスキーマをアトリビュートの名称集合として置換する。これにより、請求項1に記載されたアトリビュートの名称とバリューとからなる要素ユニットの集合の形態と同一となる。すなわち、かかる置換により、リレーショナル型データベースをノウハウ化することが可能となり、本発明の知識化データと同様に扱い得ることとなる。
請求項3に記載の本発明は、請求項1に記載のノウハウ構造を有するデータベースの構築方法において、さらに、既に、オブジェクト指向データベースとして構築されたデータについて、オブジェクト指向データベースのインスタンスをバリューの集合としクラスをアトリビュートの名称の集合としてノウハウ化する工程とを含んで構成されてなることを特徴とする。
オブジェクト指向データベースは、データの数及び並び順を示すクラスとその値を示すインスタンスとから構成されている。クラスをアトリビュートの名称集合と、インスタンスをバリューの集合と置換すると、請求項1に記載されたアトリビュートの名称とバリューとからなる要素ユニットの集合の形態と同一となる。すなわち、かかる置換により、オブジェクト指向データベースをノウハウ化することが可能となり、本発明の知識化データと同様に扱い得ることとなる。
請求項4に記載の本発明は、請求項1〜3のいずれか1項に記載のノウハウ構造を有するデータベースの構築方法において、検索数の多いものについて所定数を取り出し書き換え可能なくせキャッシュメモリに記録する工程を含み、当該データベースに検索のためのアクセスがあった場合に、先ず、前記くせキャッシュメモリを検索するように構成してなることを特徴とする。
検索数の多いものについて予めくせキャッシュメモリに蓄積しておき、データベースに検索のためのアクセスがあった場合に、先ず、このくせキャッシュメモリを検索するように構成したものである。これにより、検索速度を格段に向上させる。経験上、全てのデータベースにおいて検索の内容は、一部の数%を除いて実質的に変更が無く同じ内容のものとなる。従って、予めそのような検索が行われるであろうことを予測して、くせキャッシュメモリにそのような検索に対応するデータを用意しておき迅速に対応し得るようにしたものである。
請求項5に記載の本発明は、請求項4に記載のノウハウ構造を有するデータベースの構築方法において、検索対象として頻繁に抽出される知識化データ中の名称で使用頻度の高い上位所定数の名称をスキーマとするリレーショナル型データベースを作成しくせキャッシュメモリに記録する工程を含んで構成されてなることを特徴とする。
そのようなくせキャッシュメモリに記憶させておくべきものの第一は、検索対象として頻繁に抽出される知識化データに出てくるアトリビュートの名称の内、頻繁に抽出されるものについて作成されたリレーショナル型データベースである。使用頻度の高い上位所定数の名称をスキーマとして選定し、そのようなスキーマに該当する知識化データを表形式で作成し、リレーショナル型データベースを得る。これをくせキャッシュメモリに記録・蓄積しておくことにより、単に限定された知識化データを検索することによる高速化に加えて、リレーショナル型データベースを用意しておくことによる検索のさらなる高速化を図るものである。
請求項6に記載の本発明は、請求項4に記載のノウハウ構造を有するデータベースの構築方法において、検索対象として頻繁に抽出される知識化データについて一部の要素ユニットが共通である場合に、共通部分からなる部分ノウハウ化データを上位とし相違する要素ユニットを含むノウハウ化データを下位とするオブジェクト指向データベースを作成し、くせキャッシュメモリに記録する工程を含んで構成されてなることを特徴とする。
くせキャッシュメモリに記憶させておくべきものの第二は、検索対象として頻繁に抽出される知識化データについて一部の要素ユニットが共通である場合に、これらを上位・下位概念にまとめて作成したオブジェクト指向データベースである。検索対象として頻繁に抽出される知識化データの内、ツリー構造のデータベースを作成し得るものについてはこれを用意し、さらなる検索の高速化を図ったものである。
請求項7に記載の本発明は、請求項4に記載のノウハウ構造を有するデータベースの構築方法において、検索対象として頻繁に抽出される知識化データを、絶対的真理に関するノウハウ化データと時間により変化し得る相対的真理に関するノウハウ化データとに分類し、後者が多数存在する場合に絶対的真理に関するノウハウ化データとして置き換えくせキャッシュメモリに記録する工程を含んで構成されてなることを特徴とする。
くせキャッシュメモリに記憶させておくべきものの第三は、時間により変化し得る相対的真理に関するノウハウ化データについて同一データが多数存在する場合に、これを絶対的真理に関するノウハウ化データとして置き換えてなるものである。データ数を圧縮することにより検索速度の向上を図ったものである。
請求項8に記載の本発明は、請求項4に記載のノウハウ構造を有するデータベースの構築方法において、検索対象として頻繁に抽出される知識化データを業界・分野別(シーン)に分類してその中に登場する単語同士の関連度を求め、各単語について関連度の高いものから関連語を選択してくせキャッシュメモリに記録する工程を含んで構成されてなることを特徴とする。
くせキャッシュメモリに記憶させておくべきものの第四は、シーン毎における単語同士の関連度を求め、これより導き出される関連語である。関連語は、過去における所定数の知識化データにおいて単語間に出現頻度の関連が高かった場合に、一方の単語の代わりに他方の単語でデータベースを検索しようとするものである。あるスポーツのスター選手の活躍について検索する場合に、そのスポーツにおいて並び賞される他のスター選手で検索するような場合である。他の方法では、思うような検索結果がでないような場合に用いられる。
本発明の第二の態様は、多数の業界・分野に属する資料をノウハウ構造を有するデータとして蓄積してなるデータベース構築システムであって、単語の分類名としての名称と当該名称のタイプ、サイズ、取り得る範囲等の制約とを含んで構成されてなるアトリビュート及びその名称の値であるバリューを有する知識化単語を多数蓄積してなる知識化単語辞書と、入力手段から入力された文章を、前記知識化単語辞書を参照して単語分解・文書解析すると共に、アトリビュート又は当該知識化単語辞書内のアトリビュートを参照し得るようにされた前記名称及びバリューからなる要素ユニットの集合としてノウハウ化する制御手段と、そして、ノウハウ化した知識化データにIDを付与して蓄積する知識化データベースとを含んで構成されてなるノウハウ構造を有するデータベース構築システムを提供する。
請求項10に記載の本発明は、請求項9に記載のノウハウ構造を有するデータベース構築システムにおいて、制御手段が、既に、リレーショナル型データベースとして構築されたデータについて、データベースの各レコードを選択して、当該レコードのタップルをバリューとしスキーマをアトリビュートの名称としてノウハウ化するR−DBノウハウ化制御手段を含んで構成されてなることを特徴とする。
請求項11に記載の本発明は、請求項9に記載のノウハウ構造を有するデータベース構築システムにおいて、制御手段が、既に、オブジェクト指向データベースとして構築されたデータについて、オブジェクト指向データベースのインスタンスをバリューとしクラスをアトリビュートの名称としてノウハウ化するO−DBノウハウ化制御手段を含んで構成されてなることを特徴とする。
請求項12に記載の本発明は、請求項9〜11のいずれか1項に記載のノウハウ構造を有するデータベース構築システムにおいて、検索数の多いものについて所定数を取り出し書き換え可能に記録するくせキャッシュメモリを含み、当該データベースに検索のためのアクセスがあった場合に、先ず、前記くせキャッシュメモリを検索するように構成してなることを特徴とする。
請求項13に記載の本発明は、請求項12に記載のノウハウ構造を有するデータベース構築システムにおいて、制御手段が、検索対象として頻繁に抽出される知識化データ中の名称で使用頻度の高い上位所定数の名称をスキーマとするリレーショナル型データベースを作成しくせキャッシュメモリに記録するように構成されてなることを特徴とする。
請求項14に記載の本発明は、請求項12に記載のノウハウ構造を有するデータベース構築システムにおいて、制御手段が、検索対象として頻繁に抽出される知識化データについて一部の要素ユニットが共通である場合に、共通部分からなる部分ノウハウ化データを上位とし相違する要素ユニットを含むノウハウ化データを下位とするオブジェクト指向データベースを作成しくせキャッシュメモリに記録するように構成されてなることを特徴とする。
請求項15に記載の本発明は、請求項12に記載のノウハウ構造を有するデータベース構築システムにおいて、制御手段が、検索対象として頻繁に抽出される知識化データを、絶対的真理に関するノウハウ化データと時間により変化し得る相対的真理に関するノウハウ化データとに分類し、後者が多数存在する場合に絶対的真理に関するノウハウ化データとして置き換えくせキャッシュメモリに記録するように構成されてなることを特徴とする。
請求項16に記載の本発明は、請求項12に記載のノウハウ構造を有するデータベース構築システムにおいて、制御手段が、検索対象として頻繁に抽出される知識化データを業界・分野別(シーン)に分類してその中に登場する単語同士の関連度を求め、各単語について関連度の高いものから関連語を選択してくせキャッシュメモリに記録するように構成されてなることを特徴とする。
本発明は、以下に具体的に記載する実施例に限定されるものではなく、その精神を逸脱することなく種々の修正・変更が可能である。
発明を実施するための最良の形態
以下、図面を参照して本発明に係るノウハウ構造を有するデータベースの構築方法及びノウハウ構造を有するデータベース構築システムの一実施例について詳細に説明する。
初めに、第1図は、本発明の各種態様の全体像を説明するためのブロック図である。
参照番号10は、多数の業界・分野(それぞれの業界・分野に関する情報の集合を「シーン」と称する。)に属する資料の集合を示している。資料が外国語文書10aである場合は、翻訳機12aを介して日本語に翻訳しこれをノウハウ化制御手段20に送る。資料が文書の場合にはOCR12bで、また、音声である場合には音声認識ソフト12c等周知の手段により前処理された後、ノウハウ化制御手段20に送られる。さらに、各種の電子情報10dの場合にはフォーマット変換装置12dによりフォーマットを統一した後、ノウハウ化制御手段20に送られる。人の顔、指紋等の画像情報10eの場合には、画像認識装置12eにより前処理された後、ノウハウ化制御手段20に送られる。
本発明システムでは、従来とは相違して、知識化単語辞書を用いて単語分解・文書解析を行い、入力情報をノウハウ化する。ここで、知識化単語辞書とは、単語を名称毎に分類してその分類名としての名称と当該名称のタイプ、サイズ、取り得る範囲等の制約をアトリビュートとし且つ当該名称の値をバリューとした知識化単語を蓄積したものである。「分類名としての名称」は、「人名」、「地名」、「程度を表す形容詞」、「場所を示す名詞」、「行為を表す動詞」等の「品詞等の単語の種別+性質・特性」を言う。性質・特性が付与されていることにより、当該単語自身及び/又は当該単語が表れた文章内の他の単語にある種の制約が生じる。例えば、「人名」の場合、その内容又は値(バリュー)には文字が入り、数字(漢数字を除く)や記号はあり得ない。また、「住む」という動詞(又はその語幹である「住」)は、主語に父母兄弟、叔父・叔母、原住民、昔の人等の「人を表す名詞」又は固有名詞である「人名」を、そして、主語と熟語の間に東京、マンション、一戸建て等の「場所又は住所」を表す名詞を持っている。
「行く」という動詞(又はその語幹である「行」)は、「誰が」、「誰と」、「何時」、「何の為に」、「何処に」、「どのような手段で」、を表す単語と連結する。この場合、例えば、「何処へ」の内容又は値には、場所を表す名詞が来なければならない。そこで、知識化単語辞書の「分類名としての名称」としては、「場所を表す名詞」、すなわち、固有名詞の「地名」と一般名詞の場所を表す単語のみが選択され、単語分解された文章の正しい解を得るため参照される。
このように、「分類名としての名称」と「その名称が取り得るタイプ、サイズ、取り得る範囲等の制約」をアトリビュートとし且つその名称の内容を「バリュー」として知識化単語を作成し知識化単語辞書30に記録・蓄積する。第2図は、知識化単語の数例を示した表である。
ノウハウ化制御手段20は、各種の形態で入力される情報を、知識化単語辞書30を用いて単語分解・文書解析し、アトリビュート及びバリューからなる要素ユニットの集合としてノウハウ化する。あるいは、知識化単語辞書30内のアトリビュートを参照し得るようにされた名称及びバリューからなる要素ユニットの集合としてノウハウ化することができる。知識化データベース40の記憶容量を格段に節約することができる。
例えば、「龍崎は、東京のマンションで犬と一緒に優雅に住んでいる。」、「龍崎は、学校に行く。」からなる2つのテキストテータを知識化データする場合について説明する。第3図(a)及び(b)は、それぞれの文章を単語分解した状態を示している。第一の例では、「住む」という行動を表す動詞から、『主語に「人を表す名詞又は人名」が、また、主語と述語である動詞の間に「場所を表す名詞又は住所」がくる。』という制約が発生する。ノウハウ化制御手段20は、主語の位置を指示する「は」又は「が」の前の読み「りゅうざき」の適正な単語を、知識化単語辞書30に蓄積された名称「人を表す名詞」又は「人名」のものについて検索し、「龍崎」を抽出する。
同様に、場所を表す助詞「で」又は「に」の前の読み「とうきょうのまんしょん」の適正な単語を検索する。この場合に、必要に応じて「接続語」である「の」により2つの読み「とうきょう」、「まんしょん」を得て、これに対し、知識化単語辞書30に蓄積された名称「場所を表す名詞」又は「地名」のものについて検索し、それぞれ、「東京」及び「マンション」を抽出する。第4図(a)及び(b)は、このようにして作成した知識化データの一例である。本実施例では、アトリビュートの名称とバリューとからなる要素ユニットの集合として知識化データが構築されている。もちろん、知識化データベース40の容量が極めて大きい場合には、アトリビュートとバリューとからなる要素ユニットの集合として知識化データを形成し、蓄積することができる。知識化単語辞書30を参照することなく、ノウハウ化制御手段20で所定の処理を行うため、処理速度がその分速くなる利点がある。
これらの検索は、アトリビュートの名称及び制約により検索すべき対象が限定されることとなるため、検索に要する時間は飛躍的に減少する。
大容量の内部又は知識化データベース40は、このようにして構築された知識化データにIDを付与して記録蓄積する。IDを付与するのは、個々の知識化データをノウハウ化制御手段20が参照する際のアドレスとするためである。
図示された好ましい実施例では、ノウハウ化制御手段20は、既に、リレーショナル型データベースとして構築されたデータをノウハウ化して知識化データベース40に記録蓄積し、前述した知識化データと同様に使用し得るようにするR−DBノウハウ化制御手段20aを含んでいる。第5図は、従来のリレーショナル型データベースを示す表である。表中、S1〜Snは、検索キーとなる属性、すなわち、スキームであり、T11〜Tmnは、その内容又は値であるタップルである。各行は、1つのレコードを構成するが、S1、S2、−−−Snからなるスキーマとデータベースの各レコードを選択して、第6図に示したようなレコードの数が「1」のリレーショナル型データベースを、元のリレーショナル型データベースのレコード数だけ作成する。そして、第7図に示したように、レコードのタップルをバリューとしスキーマをアトリビュートの名称とする旨の置換を行う。かかるデータは、前述した知識化データと同一のデータ構造を持っているため、知識化データベース40にそのまま、又は、スキームを前述した「分類名としての名称」に合わせるための修正を加えた後、知識化データベース40に記録蓄積することができる。
他の好ましい実施例では、制御手段は、既に、オブジェクト指向データベースとして構築されたデータをノウハウ化して知識化データベース40に記録蓄積し、前述した知識化データと同様に使用し得るようにするO−DBノウハウ化制御手段20bを含んでいる。第12図(a)は、従来のオブジェクト指向データベースを示す図である。図中、A1〜A3は、クラス中におけるデータの名前であり、V1〜V3は、その内容又は値であるインスタンスである。かかるデータは、夫々を前述したアトリビュート及びバリューに置換すれば本発明の知識化データと同一のデータ構造を持つこととなる。そこで、知識化データベース40にそのまま、又は、クラス中におけるデータの分類を前述した「分類名としての名称」に合わせるための修正を加えた後、知識化データベース40に記録蓄積することができる。
本発明に係るノウハウ構造を有するデータベース構築システムでは、知識化データベース40に莫大な量の知識化データが蓄積されることとなる。従って、検索のためのアクセスがあった場合ごとに、直接、知識化データベース40に検索の為の処理を行うと、処理に時間が掛かり過ぎる。これを飛躍的に短縮するために、図示された好ましい実施例では、検索数の多いものについて所定数を取り出し書き換え可能に記録するくせキャッシュメモリ50が設けられている。そして、当該知識化データベース40に検索のためのアクセスがあった場合に、先ず、このくせキャッシュメモリ50を検索するように構成してなることを特徴とする。このくせキャッシュメモリ50には、後述するように種々のアプローチからのデータも書き換え可能に蓄積されており、その内の最も検索速度の速いと思われるものから検索を行うように構成することができる。
検索数の多いものについて予めくせキャッシュメモリに蓄積しておき、データベースに検索のためのアクセスがあった場合に、先ず、このくせキャッシュメモリを検索するように構成したことにより、検索速度を格段に向上させる効果がある。経験上、全てのデータベースにおいて検索の内容は、一部の数%を除いて実質的に変更が無く同じ内容のものとなるからである。従って、予めそのような検索が行われるであろうことを予測して、くせキャッシュメモリにそのような検索に対応するデータを用意しておき迅速に対応し得るようにしたものである。
くせキャッシュメモリ50に記録される知識化データとしては、第一に、検索対象として頻繁に抽出される知識化データ中、例えば、2万データの中に出現する名称で出現頻度の高い上位所定数、例えば、100の名称をスキーマとして作成したリレーショナル型データベースがある(第8図参照)。ノウハウ化制御手段20には、このようなリレーショナル型データベースを作成する制御部20cが設けられている。もちろん、検索対象として頻繁に抽出される知識化データの数をいくつとするか、あるいはその中の名称で出現頻度の高い上位所定数をいくつとするかは、データベースにおける知識化データの規模やコンピュータの計算能力によって適宜選択されるべきもので、上記数字に限定されるべきではない。
本データベースの利用者である検索者60が、キーボード、マイクロフォン等各種の入力装置62を用いて検索条件を入力した場合に、その全て又は所定数の条件がくせキャッシュメモリ50に記録されたリレーショナル型データベースのスキーマと一致する時には当該リレーショナル型データベースが検索され、ヒットしたものが検索データとして出力される。
くせキャッシュメモリ50に記録される知識化データとしては、第二に、検索対象として頻繁に抽出される知識化データについて一部の要素ユニットが共通である場合に、共通部分からなる部分ノウハウ化データを上位とし相違する要素ユニットを含むノウハウ化データを下位とするオブジェクト指向データベースがある(第9図参照)。ノウハウ化制御手段20には、このようなオブジェクト指向データベースを作成する制御部20dが設けられている。
上位の知識化データから下位の知識化データへ情報を追っていくため、目的とする知識化データへの検索速度は非常に早くなる。
くせキャッシュメモリ50に記録される知識化データとしては、第三に、検索対象として頻繁に抽出される知識化データを、絶対的真理に関するノウハウ化データと時間により変化し得る相対的真理に関するノウハウ化データとに分類し、後者が多数存在する場合に絶対的真理に関するノウハウ化データとして置き換えたものがある。ノウハウ化制御手段20には、このようなオブジェクト指向データベースを作成する制御部20eが設けられている。
くせキャッシュメモリ50に記録されるデータとしては、第四に、検索対象として頻繁に抽出される知識化データを業界・分野別(シーン)に分類してその中に登場する単語同士の関連度を求め、各単語について関連度の高いものを選択してなる関連語がある(第10図参照)。ノウハウ化制御手段20には、このようなオブジェクト指向データベースを作成する制御部20gが設けられている。過去における所定数の知識化データにおいて単語間に出現頻度の関連が高かった場合に、一方の単語の代わりに他方の単語でデータベースを検索しようとするものである。プロ野球のスター選手の活躍について検索する場合に、その選手と並び賞される他のスター選手、例えば、タイエイフォークスの「玉」選手の現役時代の記事を検索する場合に、読切ジャイアン時代からの盟友「長嶋田」選手の名前、「ホームラン王」、「ベース・ルーブ」等の関連語で検索するような場合である。他の方法では、思うような検索結果がでないような場合にも有用である。
関連語を決定するためには、一の単語と他の単語との関連度が適切に特定できるような資料集合の選択が前提となる。前述の例では、スポーツ、特に、野球という分野に特化した資料において関連度を調べること必要である。経済や商工業の分野の新聞雑誌をいくら調べても有効な関連度を得ることはできない。業界・分野別(シーン)の概念は、このような場合に、適切な関連度を得ることができる範囲を予め設定するものである。このようなシーンは、例えば、知識化データのアトリビュートの中に、「スポーツ/野球」のような識別子を付与することよって簡単に設定することができる。
第10図は、例えば、同一のシーン識別子を付与された単語、すなわち、値(バリュー)を含む多数の資料を単語分解し、その中に登場した単語の登場頻度の順に並べたものである。資料中の単語数を例えば10万語とした場合に、資料1では、単語v1が10回、単語v2が7回、−−−−登場したという意味である。同様に資料2では、単語v1が4回、単語v2が8回、−−−−登場している。
かかる表において、単語v4に注目すると、100資料中、58の資料に登場している。一方、単語v1は、100資料中98の資料に登場しているが、v4と共通して登場している資料数は48であるとすると、単語v4の代わりに単語v1で当該100資料を検索すると、48の資料を正しく抽出することができ、20つの資料を見逃している。そこで、関連度を、例えば、(単語v4を含む資料数のうち単語v1で抽出できる資料数、すなわち、単語v1とv4が共に登場する資料数)÷(単語v4を含む資料数)と与えると、単語v4に対する単語v1の関連度は、48÷58で0.828となる。
同様に単語v18は、100資料中53の資料に登場しているが、v4と共通して登場している資料数は50であるとすると、単語v4の代わりに単語v18で当該100資料を検索すると、50の資料を正しく抽出することができ、8つの資料のみを見逃している。そこで、関連度は50÷58で0.862となり、単語v1よりも高くなる。
このようにして計算した関連度の高い単語を所定数選び、これをくせキャッシュメモリ50に記憶しておく。そして、検索者60からの検索条件として、単語v4が与えられた場合には、知識化単語辞書30を参照してその単語v4の分類名としての名称を特定し、くせキャッシュメモリ50の各種のデータ、例えば、リレーショナル型データベースやオブジェクト指向データベースにおける名称が同一のものを検索し、所望の知識化データを抽出する。もし、所望の知識化データが得られなかった場合等に、くせキャッシュメモリ50に記録された関連度の高い単語を用い、同様にくせキャッシュメモリ50を検索する。
次に、本発明に係るノウハウ構造を有するデータベースの構築方法について説明する。
第11図は、本発明に係るノウハウ構造を有するデータベースの構築方法の一実施形態の流れを示すフローチャートである。図11に示されているように、本発明のノウハウ構造を有するデータベースの構築方法は、概略的に、知識化単語辞書作成工程S1、入力情報、既存リレーショナル型データベース又は既存オブジェクト指向データベースのノウハウ化工程S2〜S4と、ID情報を付与しての知識化データのデータベース化工程S5と、そして、良く出る知識化データのくせキャッシュメモリへの記録工程S6とから構成されている。
知識化単語辞書作成工程S1は、単語を名称毎に分類してその分類名としての名称と当該名称のタイプ、サイズ、取り得る範囲等の制約をアトリビュートとして知識化単語辞書30に蓄積するものである。
入力情報としては、種々のものがある。例えば、外国語文書であれば翻訳機を用いてテキストデータ化した後、これをノウハウ化制御手段20が知識化単語辞書30を参照しながら単語分解・文書解析する。同様に、印刷物であればOCR、音声であれば音声認識装置、他機種の電子情報であればフォーマット変換装置、映像情報であれば画像認識装置を用いてテキストデータ化し、これらをノウハウ化制御手段20が知識化単語辞書30を参照しながら単語分解・文書解析する。
既存のリレーショナル型データベースは、一つのレコードのタップル集合をバリュー集合としスキーマをアトリビュートの名称集合として置換し、ノウハウ化した後通常の知識化データと同様に扱う。既存のオブジェクト指向データベースは、インスタンスをバリューの集合としクラスをアトリビュートの名称の集合として置換し、ノウハウ化した後通常の知識化データと同様に扱う。
この際、前述した知識化単語辞書に蓄積された知識化データ、特に、アトリビュートにおける制約を利用して迅速且つ的確に正しい文書解析を得る。本発明方法では、かかる文書解析の結果を、アトリビュート及びバリューを含んで構成されている要素ユニットの集合としてノウハウ化し知識化データとする。アトリビュートの代わりに、知識化単語辞書内のアトリビュートを参照し得るように構成された分類名としての名称を使用し、当該名称とバリューとからなる要素ユニットの集合の形態でノウハウ化し知識化データとすることもできる。
そして、データベース化工程S5では、ノウハウ化した知識化データにはIDを付与して知識化データベース40に蓄積する。図示された好ましい実施例では、さらに、検索の迅速化及び/又は正確さのために、良く出る知識化データをくせキャッシュメモリへ記録する工程S6が設けられている。そして、知識化データベース40に検索のためのアクセスがあった場合に、先ず、くせキャッシュメモリ50を検索するように構成している。
検索数の多いものについて予めくせキャッシュメモリに蓄積しておき、データベースに検索のためのアクセスがあった場合に、先ず、このくせキャッシュメモリを検索するように構成したものである。これにより、検索速度を格段に向上させる。経験上、全てのデータベースにおいて検索の内容は、一部の数%を除いて実質的に変更が無く同じ内容のものとなる。従って、予めそのような検索が行われるであろうことを予測して、くせキャッシュメモリにそのような検索に対応するデータを用意しておき迅速に対応し得るようにしたものである。
くせキャッシュメモリの利用態様は、例えば、以下の4つがある。第一は、検索対象として頻繁に抽出される知識化データ中の名称で使用頻度の高い上位所定数の名称をスキーマとするリレーショナル型データベースを作成し、これをくせキャッシュメモリに記録しておくものである。その第二は、検索対象として頻繁に抽出される知識化データについて一部の要素ユニットが共通である場合に、共通部分からなる部分ノウハウ化データを上位とし相違する要素ユニットを含むノウハウ化データを下位とするオブジェクト指向データベースを作成し、くせキャッシュメモリに記録しておくものである。その第三は、検索対象として頻繁に抽出される知識化データを、絶対的真理に関するノウハウ化データと時間により変化し得る相対的真理に関するノウハウ化データとに分類し、後者が多数存在する場合に絶対的真理に関するノウハウ化データとして置き換え、これをくせキャッシュメモリに記録しておくものである。そして、その第四は、検索対象として頻繁に抽出される知識化データを業界・分野別(シーン)に分類してその中に登場する単語同士の関連度を求め、各単語について関連度の高いものから関連語を選択してくせキャッシュメモリに記録しておくものである。
【図面の簡単な説明】
第1図は、本発明の第一の態様に係るノウハウ構造を有するデータベースの構築方法の一実施例のフローチャートである。
第2図は、知識化単語の数例を示した表である。
第3図(a)及び(b)は、それぞれ、例文として挙げた文章を単語分解した状態を示す説明図である。
第4図(a)及び(b)は、第3図(a)及び(b)の文書から得た知識化データの一例を示す説明図である。
第5図は、従来のリレーショナル型データベースを示す表である。
第6図は、第5図示したリレーショナル型データベースから1レコードを選択して得たリレーショナル型データベースの説明図である。
第7図は、第6図のリレーショナル型データベースに示された一のレコードのタップルをバリューとしスキーマをアトリビュートの名称とする旨の置換を行って得た知識化データの説明図である。
第8図は、従来のオブジェクト指向データベースを示す図である。
第9図は、共通部分からなる部分ノウハウ化データを上位とし相違する要素ユニットを含むノウハウ化データを下位とするオブジェクト指向データベースの作成手順を示す説明図である。
第10図は、ある単語について関連度の高い関連語を得る方法の一例を説明するための表である。
第11図は、本発明に係るノウハウ構造を有するデータベースの構築方法の一実施形態の流れを示すフローチャートである。
第12図(a)及び(b)は、それぞれ、従来のオブジェクト指向データベースにおけるデータ構造を説明する図及びデータ間のツリー構造を説明するための概略図である。

Claims (16)

  1. 多数の業界・分野に属する資料を、ノウハウ構造を有するデータベースとして構築する方法であって、
    単語を名称毎に分類してその分類名としての名称と当該名称のタイプ、サイズ、取り得る範囲等の制約をアトリビュートとし且つ当該名称の値をバリューとした知識化単語を蓄積し知識化単語辞書を作成する工程と、
    入力情報を、前記知識化単語辞書を用いて単語分解・文書解析し、アトリビュート又は当該知識化単語辞書内のアトリビュートを参照し得るようにされた前記名称及びバリューからなる要素ユニットの集合としてノウハウ化する工程と、
    ノウハウ化した知識化データにIDを付与して知識化データベースに蓄積する工程と、
    を含んで構成されてなるノウハウ構造を有するデータベースの構築方法。
  2. 請求項1に記載のノウハウ構造を有するデータベースの構築方法において、さらに、
    既に、リレーショナル型データベースとして構築されたデータについて、データベースの各レコードを選択して、当該レコードのタップルをバリューとしスキーマを前記アトリビュートの名称としてノウハウ化する工程とを含んで構成されてなることを特徴とするノウハウ構造を有するデータベースの構築方法。
  3. 請求項1に記載のノウハウ構造を有するデータベースの構築方法において、さらに、
    既に、オブジェクト指向データベースとして構築されたデータについて、前記オブジェクト指向データベースのインスタンスをバリューとしクラスを前記アトリビュートの名称としてノウハウ化する工程とを含んで構成されてなることを特徴とするノウハウ構造を有するデータベースの構築方法。
  4. 請求項1〜3のいずれか1項に記載のノウハウ構造を有するデータベースの構築方法において、
    検索数の多いものについて所定数を取り出し書き換え可能なくせキャッシュメモリに記録する工程を含み、当該データベースに検索のためのアクセスがあった場合に、先ず、前記くせキャッシュメモリを検索するように構成してなることを特徴とするノウハウ構造を有するデータベースの構築方法。
  5. 請求項4に記載のノウハウ構造を有するデータベースの構築方法において、前記検索対象として頻繁に抽出される知識化データ中の名称で使用頻度の高い上位所定数の名称をスキーマとするリレーショナル型データベースを作成し前記くせキャッシュメモリに記録する工程を含んで構成されてなることを特徴とするノウハウ構造を有するデータベースの構築方法。
  6. 請求項4に記載のノウハウ構造を有するデータベースの構築方法において、
    前記検索対象として頻繁に抽出される知識化データについて一部の要素ユニットが共通である場合に、共通部分からなる部分ノウハウ化データを上位とし相違する要素ユニットを含むノウハウ化データを下位とするオブジェクト指向データベースを作成し前記くせキャッシュメモリに記録する工程を含んで構成されてなることを特徴とするノウハウ構造を有するデータベースの構築方法。
  7. 請求項4に記載のノウハウ構造を有するデータベースの構築方法において、
    前記検索対象として頻繁に抽出される知識化データを、絶対的真理に関するノウハウ化データと時間により変化し得る相対的真理に関するノウハウ化データとに分類し、後者が多数存在する場合に絶対的真理に関するノウハウ化データとして置き換え前記くせキャッシュメモリに記録する工程を含んで構成されてなることを特徴とするノウハウ構造を有するデータベースの構築方法。
  8. 請求項4に記載のノウハウ構造を有するデータベースの構築方法において、
    前記検索対象として頻繁に抽出される知識化データを業界・分野別(シーン)に分類してその中に登場する単語同士の関連度を求め、各単語について関連度の高いものから関連語を選択して前記くせキャッシュメモリに記録する工程を含んで構成されてなることを特徴とするノウハウ構造を有するデータベースの構築方法。
  9. 多数の業界・分野に属する資料を、ノウハウ構造を有するデータとして蓄積してなるデータベース構築システムであって、
    単語の分類名としての名称と当該名称のタイプ、サイズ、取り得る範囲等の制約とを含んで構成されてなるアトリビュート及びその名称の値であるバリューを有する知識化単語を多数蓄積してなる知識化単語辞書と、
    入力手段から入力された文章を、前記知識化単語辞書を参照して単語分解・文書解析すると共に、アトリビュート又は当該知識化単語辞書内のアトリビュートを参照し得るようにされた前記名称及びバリューからなる要素ユニットの集合としてノウハウ化する制御手段と、そして、
    ノウハウ化した知識化データにIDを付与して蓄積する知識化データベースと、
    を含んで構成されてなるノウハウ構造を有するデータベース構築システム。
  10. 請求項9に記載のノウハウ構造を有するデータベース構築システムにおいて、前記制御手段は、既に、リレーショナル型データベースとして構築されたデータについて、データベースの各レコードを選択して、当該レコードのタップルをバリューとしスキーマを前記アトリビュートの名称としてノウハウ化するR−DBノウハウ化制御手段を含んで構成されてなることを特徴とするノウハウ構造を有するデータベース構築システム。
  11. 請求項9に記載のノウハウ構造を有するデータベース構築システムにおいて、前記制御手段は、既に、オブジェクト指向データベースとして構築されたデータについて、前記オブジェクト指向データベースのインスタンスをバリューとしクラスを前記アトリビュートの名称としてノウハウ化するO−DBノウハウ化制御手段を含んで構成されてなることを特徴とするノウハウ構造を有するデータベース構築システム。
  12. 請求項9〜11のいずれか1項に記載のノウハウ構造を有するデータベース構築システムにおいて、
    検索数の多いものについて所定数を取り出し書き換え可能に記録するくせキャッシュメモリを含み、当該データベースに検索のためのアクセスがあった場合に、先ず、前記くせキャッシュメモリを検索するように構成してなることを特徴とするノウハウ構造を有するデータベース構築システム。
  13. 請求項12に記載のノウハウ構造を有するデータベース構築システムにおいて、前記制御手段は、前記検索対象として頻繁に抽出される知識化データ中の名称で使用頻度の高い上位所定数の名称をスキーマとするリレーショナル型データベースを作成し前記くせキャッシュメモリに記録するように構成されてなることを特徴とするノウハウ構造を有するデータベース構築システム。
  14. 請求項12に記載のノウハウ構造を有するデータベース構築システムにおいて、前記制御手段は、前記検索対象として頻繁に抽出される知識化データについて一部の要素ユニットが共通である場合に、共通部分からなる部分ノウハウ化データを上位とし相違する要素ユニットを含むノウハウ化データを下位とするオブジェクト指向データベースを作成し前記くせキャッシュメモリに記録するように構成されてなることを特徴とするノウハウ構造を有するデータベース構築システム。
  15. 請求項12に記載のノウハウ構造を有するデータベース構築システムにおいて、前記制御手段は、前記検索対象として頻繁に抽出される知識化データを、絶対的真理に関するノウハウ化データと時間により変化し得る相対的真理に関するノウハウ化データとに分類し、後者が多数存在する場合に絶対的真理に関するノウハウ化データとして置き換え前記くせキャッシュメモリに記録するように構成されてなることを特徴とするノウハウ構造を有するデータベース構築システム。
  16. 請求項12に記載のノウハウ構造を有するデータベース構築システムにおいて、前記制御手段は、前記検索対象として頻繁に抽出される知識化データを業界・分野別(シーン)に分類してその中に登場する単語同士の関連度を求め、各単語について関連度の高いものから関連語を選択して前記くせキャッシュメモリに記録するように構成されてなることを特徴とするノウハウ構造を有するデータベース構築システム。
JP2002524817A 2000-09-06 2000-09-06 ノウハウ構造を有するデータベースの構築方法及びノウハウ構造を有するデータベース構築システム Pending JPWO2002021270A1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2000/006041 WO2002021270A1 (fr) 2000-09-06 2000-09-06 Procede et systeme pour creer une base de donnees presentant une structure de savoir-faire

Publications (1)

Publication Number Publication Date
JPWO2002021270A1 true JPWO2002021270A1 (ja) 2004-01-15

Family

ID=11736431

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002524817A Pending JPWO2002021270A1 (ja) 2000-09-06 2000-09-06 ノウハウ構造を有するデータベースの構築方法及びノウハウ構造を有するデータベース構築システム

Country Status (3)

Country Link
JP (1) JPWO2002021270A1 (ja)
TW (1) TW498229B (ja)
WO (1) WO2002021270A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114818720B (zh) * 2022-06-23 2022-09-09 北京惠每云科技有限公司 一种专病数据集构建方法、装置、电子设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04205173A (ja) * 1990-11-29 1992-07-27 Shimadzu Corp 情報検索システム
JPH05113924A (ja) * 1991-10-23 1993-05-07 Nec Corp 情報管理モデル変換システム
JP2606056B2 (ja) * 1992-09-25 1997-04-30 日本電気株式会社 知識ベース構築方式
JPH11203325A (ja) * 1998-01-16 1999-07-30 Tadamitsu Ryu データベース作成方法、そのプログラムを格納した記録媒体及びその作成方法で作成したデータ群を記録した記録媒体
EP0962873A1 (en) * 1998-06-02 1999-12-08 International Business Machines Corporation Processing of textual information and automated apprehension of information

Also Published As

Publication number Publication date
WO2002021270A1 (fr) 2002-03-14
TW498229B (en) 2002-08-11

Similar Documents

Publication Publication Date Title
US6826566B2 (en) Identifier vocabulary data access method and system
Auer et al. What have innsbruck and leipzig in common? extracting semantics from wiki content
Cohen et al. Learning to match and cluster large high-dimensional data sets for data integration
CN101404015B (zh) 自动生成词条层次
US11194797B2 (en) Automatic transformation of complex tables in documents into computer understandable structured format and providing schema-less query support data extraction
CN101430695B (zh) 用于计算单词之间的差相关度的系统和方法
US20040054666A1 (en) Associative memory
CN110674252A (zh) 一种面向司法领域的高精度语义搜索系统
CN102207948A (zh) 一种事件陈述句素材库的生成方法
US11194798B2 (en) Automatic transformation of complex tables in documents into computer understandable structured format with mapped dependencies and providing schema-less query support for searching table data
Wick et al. A unified approach for schema matching, coreference and canonicalization
CN112463971A (zh) 一种基于层级组合模型的电商商品分类方法及系统
CN110956271B (zh) 一种海量数据的多级分类方法及装置
Ashok Kumar et al. An efficient text-based image retrieval using natural language processing (NLP) techniques
CN101248433B (zh) 具有签名产生及关联性检测的匹配引擎
CN114491079A (zh) 知识图谱构建和查询方法、装置、设备和介质
CN113591476A (zh) 一种基于机器学习的数据标签推荐方法
JP4562749B2 (ja) 文書の圧縮格納方法及び装置
CN114881019A (zh) 面向多模态网络的数据混合存储方法及装置
JPWO2002021270A1 (ja) ノウハウ構造を有するデータベースの構築方法及びノウハウ構造を有するデータベース構築システム
KR20010107810A (ko) 웹 검색시스템 및 그 방법
US7873659B2 (en) Database management system, database management method and database management program
Daggupati Unsupervised duplicate detection (UDD) Of query results from multiple web databases
JP2003157249A (ja) 文書の圧縮格納方法
Zhang Classification and Retrieval Method of Library Book Information Based on Data Mining