JPS63282837A - 概念検索方法 - Google Patents

概念検索方法

Info

Publication number
JPS63282837A
JPS63282837A JP62116807A JP11680787A JPS63282837A JP S63282837 A JPS63282837 A JP S63282837A JP 62116807 A JP62116807 A JP 62116807A JP 11680787 A JP11680787 A JP 11680787A JP S63282837 A JPS63282837 A JP S63282837A
Authority
JP
Japan
Prior art keywords
concept
character string
concepts
extracted
partial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP62116807A
Other languages
English (en)
Other versions
JP2695783B2 (ja
Inventor
Itsuko Kiuchi
木内 伊都子
Hiromichi Fujisawa
浩道 藤澤
Atsushi Hatakeyama
敦 畠山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP62116807A priority Critical patent/JP2695783B2/ja
Publication of JPS63282837A publication Critical patent/JPS63282837A/ja
Application granted granted Critical
Publication of JP2695783B2 publication Critical patent/JP2695783B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は概念検索方式に係り、特に電子ファイルにネッ
トワーク構造で格納された知識と入力(部分)文字列を
照合して、概念を検索する目的に好適な概念検索方式に
関する。
なお、本発明において概念検索とは、単に部分文字列マ
ツチングを行なうだけでなく、ネットワーク構造になっ
ている知識ベースを利用した意味的な概念検索を行なう
ことを意味する。
〔従来の技術〕
従来の概念ネットワークは、特開昭60−60678号
記載のようにネットワーク内を歩き回るブラウジング機
能として、概念を表わす(部分)文字列を指定して探し
出す機能を有している。例えば、文字列“C0MPt1
TER”と入力すると、概念「電子計算機」が出ると同
時に、意味的に異なる雑誌であるところの、概念rcO
MPUTERJが区別されて出てくるので、利用者は、
その中から選択することによって、その概念に移ること
ができた。しかし、大量の情報が知識ベースレこ登録さ
れていくにつれて、同じ文字列が異なる概念を表わすも
のも増える。また、利用者も概念を表わす正確な文字列
を入力できず、部分文字列でマツチングを行うことも多
くなってくる。そのために、不要な概念を抽出してくる
ことも多くなり、その都度利用者が選択を行わなくては
ならなくなってきた。例えば。
C0MPLITER”という文字列に対して部分文字列
マツチングを行う場合を考えてみると、電子計算機であ
る「スーパコンピュータ」やrオフィスコンピュータ」
、雑誌であるrcOMPυTERGRAPHIC5J、
rcOMPυTERJ +新聞であるr COMPUT
ERWOI(LDJ、その他、計算機メーカ、研究会、
学部・学科等の中で、“’ COMPUTER”という
文字列を含むものすべてが、表示される。その中から利
用者は、自分の探しているものが装置であるのか新聞で
あるのか雑誌であるのか等を念頭において深さなされば
ならなかった。
また、従来の概念検索においては、概念を効率良く抽出
する方法として、入力文字列の論理和と論理積が使われ
ていた。例えば“雑誌″と”COMPUTER”との論
理積で検索すると、文字列“COMPUTER”と“雑
誌″を同時に含む文字列で表わされる概念「雑誌COM
PUTERJやr COMPUTERGRAP)IIC
ζ雑誌」などが抽出された。また、論理和で検索すると
、どちらかを含む文字列で表わされる概念r COMP
UTERJや「週刊雑誌」などが抽出された。しかし、
抽出すべき概念の部分文字列だけで検索するものである
から、抽出したい概念を表わす文字列の一部しか知らな
い時には、やはり、多くの概念が抽出されてしまってい
た。
このような従来方式では、知識ベースの中に大量の情報
が蓄積されていくにつれて多くの不要な概念と一致して
しまい、本当に得たい概念をその中から再び利用者が、
探しださなければならない点において配慮されていなか
った。
〔本発明が解決しようとする問題点〕
本発明の目的は、意味的探索(Semantic −3
tring −5earch)によって、概念検索を効
率化することである。意味的探索゛とは、抽出したい概
念を表わす(部分)文字列以外に、その上位概念を表わ
す(部分)文字列を検索条件に加えた意味的な概念の検
索を実現するものである。  ”COMPLITER”
という文字列を入力するときには、それがどういうもの
であるか、すなわち、「雑誌である」とか、「装置であ
る」という、利用者が知っていることを利用する。すな
わち、”COMPUTER”という探索対象の部分文字
列だけでなく、“″雑誌″という文字列をも入力するこ
とによって、「雑誌で、文字列” COMPLITER
”を含む文字列で表わされる概念」だけを探すことを可
能としたものである。
〔問題を解決するための手段〕
上記目的は、探したい概念を表わす(部分)文字列と、
その上位概念を表わす(部分)文字列を入力することで
達成される。いま、説明のために、「SlでありS2で
あるS3Jなる概念を探したいとする1本発明方式は、
ユーザが3つの文字列、Sl、S2,33を単に入力す
ることで、この概念を抽出することを可能にするもので
ある。このとき、SL、S2.S3は、部分文字列であ
ってもよい。さらに、抽出結果は入力文字列の順序に依
存せず、SL、S2.S3と入力しても、S2゜S3.
SLと入力しても変わらない。また、概念を表わす文字
列の複数の部分を入力することも可能とする方式を実現
する。
本発明方式の基本的な原理を説明する。第1図は、知識
ベースにおける概念の分類階層水を示す。
同図で、CO〜・C15は、概念を表わす各ノート10
0〜115に対応づけられている概念の固有番号である
。COは、最上位概念のノード100の固有番号である
。ノード間の線、例えば、116は、2つの概念を包摂
関係で結び付けるrlS−A」リンクを示している。第
4図(a)のように各固有番号には、同意語・異表記を
含む1つ以上の概念を表わす文字列を対応させることが
できる。
この階層水は、知識ベースに蓄えられている第4図(b
)のテーブルにより作ることができる。
意味的な概念検索は、次のように実現される。
いま、知識ベース内のすべての文字列と入力文字列81
,32.S3との(部分)文字列マツチングを行った結
果、それぞれ、1.m、n個の文字列と一致したとする
。それらの一致した文字列に対応する固有番号を Al(i):i=1〜I A2(j):j=1〜m A3(k): k=1〜n と書くことにする。これら3つの集合のそれぞれから1
つずつ取り出した固有番号に対応している概念が、同一
包摂関係にある組合せを探し、同級合せから最も下位の
レベルの概念を表わす文字列を抽出すればよい。
第1図を用いて、具体的に説明する。いま、Al(1)
=C9,Al(2)=C11,Al(3)=C15,A
2(1)=C5,A3(1)=C8,A3(2)=C1
5であったとする。この中で、Slと一致したC9 (
ノード109)、S2と一致したC5(ノード105)
、S3と一致したC15(ノード115)が同図の階層
水上で、最上位概念のCO(ノード100)から一本の
線で結ばれる同一包摂関係にある。本方式は、C9−、
C5゜C15の組合せを選び、これら3つの概念のうち
最も下位レベルの概念であるC15 (ノード115)
が表わす文字列を抽出結果とする。すなわち、概念C9
(/−ド1o9)であって、概念C5(ノード105)
である概念C15(ノード115)を抽出することにな
る。
以上の原理を具体例で説明する。第2図は、概念を階層
木で表わした図式である。楕円で表わすノードは概念を
表わし、中に書かれている単語は同概念を表わす代表単
語である。楕円を結ぶリンクは、包摂関係を表わすrI
S−AJ リンクを表現する0例えば、「コンピュータ
」209が「ハードウェア」205の「一種である」と
いうことが、rIs−AJ リンクによって表わされて
いる。
部分文字列の探索は、アスタリスク傘を付加する手段に
よって可能である。同図で、利用者が“HARDvAR
E” ト“−COMPUTER” ト” 串HACHI
NE”という文字列を入力すると、概念「リスプマシン
」が抽出される。これは、各入力文字列と一致した文字
列が表わす概念「ハードウェアJ 205゜「コンピュ
ータJ209.rリスプマシン」215が同一包摂関係
にあり、このなかで、最下位概念「リスプマシン」21
5がより具体的な概念であるためである。
次に、抽出された概念が複数個あった場合について説明
する。例えば、文字列“HARDWARE”と“′皐C
OMPUTER”を入力すると、概念「コンピュータ」
209.rスーパコンピュータJ 213゜[オフィス
コンピュータ」214等が検索される。
このように、複数個の概念と一致したときには、これら
を表わす文字列がCRTに表示されるので、その中から
概念を選ぶことになる。このとき、システムは、上位概
念が「ハードウェア」であるもののみを列挙し、一層分
上位の概念も一緒に表示するもので選択は容易である。
〔作用〕
ネットワークの中で最も上位の概念から、マツチングし
た文字列までのすべての概念は、概念と一層分上位の概
念とを対応づけるテーブルにより簡単に探せるので、同
じ包摂関係にある文字列の組み合わせも容易に探せる。
そのなかで最下位の概念だけを抽出するので、入力文字
列の順序2個数に制限がない。また、抽出される文字列
も最少限ですむ。
〔実施例〕
以下、本発明を実施例に基づいて説明する。
第3図は本発明方式の一実施例である概念検索方式を採
用したファイリング装置の構成図である。
装置全体の構成と動作の概要を説明する。
まず、装置は制御装置(CPU)100.主メモリ30
0.磁気ディスク装置400.操作端末200、CRT
210. キーボード220からなるデータ処理部から
なる。
概念の検索、@末200上で行なう、検索対象は、登録
されている概念及び概念間の関係として記述されている
事実の集合であり、ファイル400に格納されている。
さらに、ファイル400には、概念や関係を表現する自
然言語に関する知識も含まれている。
主な動作を、以下に説明する。ユーザが検索を起動させ
、検索条件である文字列を入力すると、システムはファ
イル400に格納されている知識を主メモリ300に読
み込み、主メモリ300にある所定のプログラムに従い
、入力文字列とのマツチングを行なう、さらに、その検
索結果をCRT210に表示する。
ファイルに格納されている具体的な表形式を第4図に示
す。表の内容は、第1図及び、第2図を表わす。
第4図(a)は、概念を表わす文字列を定義する表(T
ABLE)であり、基本的には、概念の固有番号C#と
それを表わす文字列(単語;または表記)からなる、た
とえば、概念C4は、「文書」であり、それを表わす文
字列としてパ文書″と“PAPER−MATERIAL
” が与えられている。
第4図(b)は、包摂関係を表わし、概念の固有番号C
#と該概念の一層分上位の概念(SUPERCLASS
)の固有番号S#のカラムから成っている。例えば、固
有番号C1の一層分上位概念の固有番号は固有番号CO
である。特殊な場合として最上位概念のCOの上位概念
は、COとして定義されている。第4図(a)で一致し
た文字列に対応している概念の上位概念の固有番号をこ
のテーブルでサーチする。
本発明の概念検索方式の一実施例における処理の流れを
第5図に表わす。
処理501は文字列の意味的探索の起動開始である。
処理502は文字列の意味的探索を実行したい(部分)
文字列の入力である。この入力文字列の数に制限はなく
、また順序も抽出結果と関係がない。さらに、一つの概
念に対して複数の文字列を入力することもできる。ここ
では、入力文字列をSL、S2.S3.・・・・・・と
書くことにする。
処理503は入力すべき(部分)文字列をすべて入力し
たことを示す記号が入力されるまで読み込みを続けるこ
とを示す。本実施例では、”//”′が入力の終了を示
す記号である。
処理504では、階層水のある学念以下のすべての概念
の文字列と、入力した(部分)文字列とのマツチングを
取る。探索対象の分野をあらかじめ限定して、その中だ
けで文字列を抽出したいときは、その分野を指定してそ
れ以下のすべての概念からマツチングをとることができ
る。ここでは。
最上位概念よりrIS−AJ リンクにおいて下位にあ
る概念について、マツチングを取った場合を考える。そ
のために、第4図(a)のCNAME欄の文字列と入力
文字列の(部分)文字列マツチングを行う。入力文字列
81.S2.S3.・・・・・・が、それぞれl、m、
n、・・・・・・個の文字列と一致したとする。それら
の一致した文字列に対応する固有番号を Al(i): i=1〜I A2(j):j=1〜m A3(k): k=1〜n と書くことにする。これらの固有番号を入力文字列ごと
にリスト構造で纏めると、これらのリストは、以下のよ
うになる。
Al:  (Al(1)・・・・・・・・・・・・Al
(1))A 2 :  (A 1 (1)−−−・・=
A 1 (rn))Δ3 :  (A 1 (1)・−
=A 1 (n ))処理505〜処理507では、A
n、A2゜A3.・・・・・・のそれぞれのリストから
一つずつ取り出した固有番号のノードが、最上位概念の
ノードから、同じrIS−AJ リンクで結ばれる組合
せを探し、それぞれの組合せの中で、最も下位のレベル
にあるノードに対応する概念を探すためのものである。
ここでは、最上位概念の固有番号をCOとする。以下、
順を追って説明する。
処理505は、第4図(b)のテーブルを使用して、入
力文字列と一致した文字列の固有番号から最上位概念の
固有番号COまでrIS−AJ リンクで結んでいるす
べての固有番号のリスト作成する。Al(i)、A2(
j)、A(k)、・・・・・・の上位概念を順に最上位
概念までたどった固有番号のリストを T 1 (1) :  (A 1 (1)−−・−・−
・−−−−CO)T 1 (1):  (A 1 (1
)−・−・−・・−・C0)T2(1):  (A2(
1)・・・・・・・・・・・・Go)T 2 (m) 
:  (A 2 (m)−−−・−CO)T3(1):
  (A3(1)・−−−=−=・Co)と書くことに
する。これらを入力文字列ごとに、さらにリストで纏め
て、 Tl:  (Tl(1)・・・・・・・・・・・・Tl
(1))T 2 :  (T 2 (1>=−・−=−
T 2 (m))T 3 :  (T 3(1)−=・
・−−−T 3(n))とする。
処理506は、入力文字列のそれぞれと一致したノード
が、同じrIs−AJ リンクで結ばれる組合せを探す
ための処理である。そのために。
Tl(i)、T2(j)、T3(k)、・・・・・・の
中で、入力文字列SL、 S2,83.・・・・・・と
一致した固有番号を含むリストを探す、たとえば、T1
に含まれる各リストについて考えてみる。Tl(i)の
各先頭の固有番号は、入力文字列S1と一致した固有番
号であり、各後尾は、最上位概念の固有番号COである
ので、リスト中のこれら以外の固有番号の中で、入力文
字列S1を除く入力文字列S2゜S3.・・・・・・と
一致した固有番号があるか否かを判定すればよい、T2
.T3.・・・・・・に含まれる各リストT2(j)、
T3(k)、・・・・・・についても同様に、判定を行
い、入力文字列Sl、S2.S3.・・・・・・と一致
した固有番号を含むリストだけを取り出す。
ここで取り出されたリストが Tx(y):  (Ax(y)−−Co)であるとする
処理507は、処理406で残されたリスト・・・・・
・p T x (y ) *・・・・・・の各先頭の固
有番号・・・・・・。
A x (y ) *・・・・・・に対応する概念を第
4図(a)のテーブルで探して、その概念を検索結果と
するものである。ここで、Ax(y)とは、入力文字列
のX番目と一致した概念のうちy番目の概念でありTx
(y)はAx(y)から最上位概念の固有番号のリスト
である。
処理508は1つの文字列に対して、入力した2つ以上
の(部分)文字列が一致したときに、同一の概念が2度
抽出されてしまうのでそれをチェックするものである。
処理509は、概念検索されたものが、]ってあればそ
こで処理を終わる。そうでなければ、処理410に移る
処理510は、複数個の文字列が抽出されたときに表示
する。このとき利用者が分かり易いように、抽出した文
字列の一層分上位にある概念の文字列も一緒に表示する
。これは、第4図(a)のテーブルと第4図(b)のテ
ーブルを用いて容易に得られる。表示する際には、見易
いように一層分上位の概念の文字コードの小さい順に、
かつ、その中で抽出した文字列の文字コードの小さい順
に表示する。
処理の511は、表の、中から利用者が探していた文字
列を選択するものである。
第6図は、概念検索を行った結果複数の概念を抽出した
ときに画面に表示される表の一例を示す図である。この
例では、傘COMPUTERと” HARDWARE 
”という文字列を入力して抽出された複数の文字列を表
示している。同図のように、 * COMPUTERHARDWAREの欄に抽出され
た文字列を表示し、その一層分上位の概念の文字列をの
SυPERCLASSの欄に表示している。利用者は、
一層分上位の概念を参考にして抽出したい文字列をの欄
にある通し番号で選択する。
〔発明の効果〕
以上説明したごとく、本発明によれば、利用者が抽出し
たい概念の(部分)文字列とその上位概念の(部分)文
字列を入力して概念検索することができる。抽出した文
字列の(部分)文字列だけを入力していた従来の文字列
抽出と比較すると、不要な文字列を抽出することが少な
くなり、効率を向上させることができる。
【図面の簡単な説明】
第1図は本発明の文字列抽出方式を表す図、第るテーブ
ルを示す図であり、第4図(a)は文字列とそれに対応
する番号を記憶するテーブルを示し、第4図(b)は2
つの番号の包摂関係を記憶するテーブルを示す図である
。 第5図は本発明の文字列抽出方式における処理の流れを
示す図、第6図は複数個の文字列と一致したときの画面
の表示を示す図である。 100・・・制御装置、200・・・操作端末、300
・・・代理人 弁理士 小川勝男′、) ゛・−、/ 芥 1 図 讐2図 第3区 茅 4 図 (α)               (の募5図

Claims (1)

  1. 【特許請求の範囲】 1、知識を概念と該概念が包摂関係によつて表現される
    概念関係モデルにおける概念を、それを表す文字列で抽
    出する概念検索方式において、上記抽出したい概念とそ
    の上位概念を表す文字列を、順番に依存せずに複数入力
    する手段と、各々の上記入力文字列とマッチングに成功
    した上記概念が同じ包摂関係で結ばれていることを判定
    する手段と、 上記同一包摂関係にある概念で、入力文字列と一致した
    概念のうち最も下位の概念を抽出する手段とを有するこ
    とを特徴とする概念検索方式。 2、特許請求の範囲第1項記載の概念検索方式において
    、複数の概念を抽出したときには一層分上位の概念も一
    緒に表に表示して利用者に選択させる機能を有すること
    を特徴とする概念検索方式。
JP62116807A 1987-05-15 1987-05-15 概念検索方法 Expired - Fee Related JP2695783B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62116807A JP2695783B2 (ja) 1987-05-15 1987-05-15 概念検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62116807A JP2695783B2 (ja) 1987-05-15 1987-05-15 概念検索方法

Publications (2)

Publication Number Publication Date
JPS63282837A true JPS63282837A (ja) 1988-11-18
JP2695783B2 JP2695783B2 (ja) 1998-01-14

Family

ID=14696144

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62116807A Expired - Fee Related JP2695783B2 (ja) 1987-05-15 1987-05-15 概念検索方法

Country Status (1)

Country Link
JP (1) JP2695783B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0480873A (ja) * 1990-07-24 1992-03-13 Agency Of Ind Science & Technol パターンマッチ処理装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0480873A (ja) * 1990-07-24 1992-03-13 Agency Of Ind Science & Technol パターンマッチ処理装置

Also Published As

Publication number Publication date
JP2695783B2 (ja) 1998-01-14

Similar Documents

Publication Publication Date Title
US11409777B2 (en) Entity-centric knowledge discovery
US7756859B2 (en) Multi-segment string search
JP4101239B2 (ja) 自動クエリクラスタリング
Aoe An efficient digital search algorithm by using a double-array structure
US8433698B2 (en) Matching and recommending relevant videos and media to individual search engine results
US6691123B1 (en) Method for structuring and searching information
US9177044B2 (en) Discovering and scoring relationships extracted from human generated lists
RU2427896C2 (ru) Аннотирование документов в совместно работающих приложениях данными в разрозненных информационных системах
US5895463A (en) Compression of grouped data
EP1315103B1 (en) File search method and apparatus, and index file creation method and device
US20110138330A1 (en) Display of relational datasets
JPH11175218A (ja) ダウンロードされたテーブルのローカル分類
CN114297143A (zh) 一种搜索文件的方法、显示文件的方法、装置及移动终端
McGrath Musings on Faceted Search, Metadata, and Library Discovery Interfaces
JPS63282837A (ja) 概念検索方法
KR20080082985A (ko) 데이터 파일 조작 방법 및 장치
JP2001325293A (ja) 全文検索方法及び装置及び全文検索プログラムを格納した記憶媒体
CN118114660A (zh) 文本检测方法、系统及计算机可读存储介质
JP2004164223A (ja) N文字インデックス作成プログラムおよびn文字インデックス検索プログラム
JP4656330B2 (ja) 類義語統合システム
JPH08320877A (ja) 文書検索装置
JP2002063202A (ja) 情報検索システムおよび方法
JPH02123467A (ja) 文献情報検索装置
JPH03102565A (ja) 文書作成装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees