JPS6330648B2 - - Google Patents
Info
- Publication number
- JPS6330648B2 JPS6330648B2 JP56011752A JP1175281A JPS6330648B2 JP S6330648 B2 JPS6330648 B2 JP S6330648B2 JP 56011752 A JP56011752 A JP 56011752A JP 1175281 A JP1175281 A JP 1175281A JP S6330648 B2 JPS6330648 B2 JP S6330648B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- word
- memory
- words
- excerpt
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 230000015654 memory Effects 0.000 claims description 41
- 230000004044 response Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 30
- 238000000034 method Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3341—Query execution using boolean model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Description
【発明の詳細な説明】
本発明は情報記憶及び探索に関連し、さらに具
体的には自動的に文書を抜粋し、記憶し、自由形
式の質問を使用して検索する装置に関する。 文書記憶兼検索システムを具体化する際にこの
様なシステムの実用性及び利用度は夫々の文書を
システム中に目録化する際の容易さ及びユーザの
要求が関連文書目録表示(記述)と連想される際
の効率によつて支配される。現在の文書記憶及び
検索技法は文書をシステムの目録もしくは索引で
代表させるため、人間によつてキイワードを選出
し、次いで適切なキイワード用語をメモリから呼
出し、自動的もしくは人手によつて予じめ記憶さ
れたキイワードに対する適当なレベルでの一致で
索引を探し出す事に基づいていた。キイワードに
基づいて文書を抜粋し検索するための手順が従来
開発されてきた。手順の1つは要求者に一定の様
式で著者、住所、日付け及びキイワードもしくは
文の一端(フレーズ)の如き当該文書についての
或る詳細事項を供給する事を要求する。検索の場
合には、要約で分類されたリストが上述の見出し
の各々の下に準備される。要求者は探索情報の見
出しの下の記入項目をしらべる事によつて適切な
文書を弁別しなければならない。探索の手掛りに
はどのようなゆとりも許容されない。探索は人間
による吟味もしくはデータ処理の大域的発見指令
を使用して行なわれる。 第2の手順は完全な逆フアイルとして文書中の
すべての非自明語を記憶する(即ち冠詞及び代名
詞等を無視する)。原稿の文書/行/語位置が目
録中に保持される。検索のためのデータベースの
探索はユーザの記憶に基づいてユーザが供給する
キイワードによつて行なわれる。目録は原テキス
ト中にキイワードが存在する時のキイワード間に
存在しなければならない関係(即ちキイワード1
がキイワード2の前に存在する等)を指定し得る
という追加の能力によつて自動的に探索される。
このシステムの例はIBMデータ処理部門の製品
である通常STAIRSと呼ばれる記憶兼情報探索
システム(Storage and Information Retrieval
System)である。 文書記憶及び検索のための第3の方法は文書を
単に機械読取り可能な形式で記憶し各ユーザ供給
キイワードのための大域的発見論理を使用してす
べての文書を探索するものである。小さなデータ
ベースに対する理論及び実際においては、大域的
な発見は文書がCRT型装置上に表示される時に
ユーザが文書を逐語的にレビユーする事によつて
置換えられ得る。 しかしながら文書記憶及び探索のための上述の
すべての手順においては、抜粋及び探索時の連想
一致のための主たる知的負担はユーザ側に置かれ
る。システムが抜粋もしくは一致の際に使用され
る時は、大量の目録作成手順という代償を支払つ
て、行なわれ、検索のためにシステムと通信する
ためにはユーザにとつて大量のデータ処理の負担
及び構造化されたフオーマツトが必要とされる。 すべての非自明の通信文は比較的に小さな数の
メツセージ特定化項目(用語、単語)によつてト
ピツク的に指定される事が知られている。これ等
はビジネスのボイラ板(日常の)通信文を著者が
伝えたいと欲しているメツセージに変換する語で
ある。これ等の用語は主に数字、固有名詞、アク
ロニム(頭文字の組合せ語)、名詞及び単一目的
の形容詞より成る。質問の目的のための文書の任
意の意味のある記述は文書にその特定の意味を与
えるこれ等の用語の少なく共或るものを含まなけ
ればならない。本発明は文書中のメツセージ特定
化用語を信頼性をもつて探知し、これ等の用語を
使用して文書の抜粋(アブストラクト)を形成す
る技法を含む。この技法は米国特許第3995254号
中に開示されたデータ記憶技法を使用し、本明細
書においては綴りの検証のための語の辞書を記憶
するものとして組込まれているが、他の辞書記憶
技法が同様に使用され得る。さらに辞書メモリ中
の特定化用語は名詞もしくは単一の目的の形容詞
としてそれ等の状態を示すためにデータ・ビツト
が付加されている。数字、固有名詞及びアクロニ
ム(頭文字の組合せ語)は辞書メモリ中には記憶
されない。文書のテキストが辞書メモリの内容と
比較され、辞書中の名詞及び単一目的を有する形
容詞と一致する語及び辞書メモリ中において発見
されない語(固有名詞、数字、アクロニム)が累
積され、文書の抜粋が形成される。抜粋中の各語
は次に語索引フアイル中に記憶される。語索引フ
アイル中の記録は語、該語が生じた文書の同定コ
ード、夫々の文書中で該語が発生する回数、語が
数字であるか、固有名詞/アクロニム、名詞/単
一の目的を有する形容詞であるかどうかについて
の表示子及び語が見出し、末尾、本文もしくは文
書のコピー・リストのどれに生ずるかについての
表示子を含む。(単一の目的を有する形容詞とは
その主要目的が例えば重い、丸い、古い、新らし
い、色が赤い、青い等の如き形容詞的成分のもの
である。)文書の検索のための入力質問中の語は
語索引フアイルに対して比較される。語索引フア
イル中の或る語はいくつかの文書中に生じ得るの
で、語索引フアイル中の語と共に記憶される情報
に基づいて各語に重み係数が与えられる。検索の
質問中の任意の語を含む各文書に対して或る得点
が累積され、最大の得点を有する文書が検査のた
めにユーザに提示される。 第1図を参照するに、文書記憶兼検索装置のブ
ロツク図が示されているが、これは命令を解読及
び実行し得る汎用型のプロセツサ即ちCPU10
を含む。プロセツサ10はバス13を介して、そ
の動作を制御し、本発明を定義する命令を含むメ
モリ14と2方向通信している。プロセツサ10
は同様にすべての名詞及び単一目的の形容詞がそ
の様に記された品詞辞書を含むメモリ8とバス7
を介して2方向通信する。メモリ8は数字、アク
ロニムもしくは固有名詞を含まない。プロセツサ
10は同様に文書及びキイ語索引フアイルを記憶
させるために使用される主メモリ12とバス11
を介して2方向通信する。命令メモリ14及び辞
書メモリ8は読取り専用型もしくはランダム・ア
クセス型のメモリであるが、主メモリ12はラン
ダム・アクセス記憶装置である。 文書から抜粋し記憶するために、入力レジスタ
16はバス17を介してソース(図示されず)か
らテキスト語を受取る。ソースはキイボード、磁
気テープ読取器、磁気カード/デイスク/デイス
ケツト・フアイル等を含む種々の入力装置の任意
のものであり得る。テスト語は命令メモリ14中
に記憶された命令に従つて処理されるためにバス
15を介してレジスタ16からプロセツサ10に
提示される。レジスタ16のテキスト内容に遂行
される処理(抜粋)の結果はバス11を介して主
メモリ12に転送される。 文書検索の場合には、入力レジスタ16はバス
17を介してソース(図示されず)質問テキス
ト・ステートメントを受取る。ソースはキイボー
ド、スクリプト表もしくは特別に構成された押ボ
タン型式のパツドの如き種々の入力装置の任意の
ものであり得る。質問テキスト・ステートメント
はバス15を介してレジスタ16からプロセツサ
10に提示され、命令メモリ14中に記憶された
命令に従つて処理するためにバス15を介してレ
ジスタ16からプロセツサ10に提示される。命
令メモリ14からの命令の制御の下にプロセツサ
10はバス7を介して辞書メモリ8の内容と通信
し、バス11を介してメモリ12と通信し、文書
検索親近性評価をメモリ12の内容に対して遂行
する。選択された文書はメモリ12からバス11
及びバス9を介して出力レジスタ18に転出さ
れ、出力レジスタ18からバス19を介して表示
装置、プリンタもしくはボイスコーダ等を含む
種々の形式を取り得る利用装置へ送られる。選択
された文書は次いで検査のためにユーザに提示さ
れる。 本発明の好ましい実施例は第1図に示された文
書記憶兼探索システムに対する文書からの抜粋、
記憶及び検索のための質問ステートメントの親近
性比較を制御する命令もしくはプログラムの組よ
り成る。第2図を参照するに文書を抜粋及び記録
するためのプログラムの流れ図が示されている。 オンライン・メモリを有するデータ処理システ
ムにおいては記憶される各記録に一意的な識別子
コードもしくは番号を割当てる事が標準のならわ
しである。このコードは通常長さが8字である
が、長さが制限されているので記録の内容を説明
した情報を含まない。識別子コードは、ユーザが
識別子コードと特定の記録を連想させる事が出来
る場合に記録をアクセスするのに有用である。し
かしながらこの記録探知技法はデータベースが大
きくなつて、数人のユーザが同一記録をアクセス
する様な場合には非実用的になる。通常記録はそ
れが存在する限り同一識別子コードを保持し、記
録の修正は同一識別子コードの下にメモリ内で記
録を置換えている。文書を抜粋し記憶するための
プログラムは識別子コードを抜粋文書の1部とし
て含ませる様に利用している。文書がシステム
(第2図)の読込まれる場合には、文書識別子コ
ード即ち番号がブロツク20で読取られ、すでに
システム中に記憶されている語索引フアイルと比
較されて、その文書に対する抜粋が現在記憶され
ている事を示して一致が発見されたかどうかが決
定される。後出の第1表は文書を抜粋するための
プログラム・ルーチンを示す。もし文書番号(識
別子コード)が抜粋フアイル中に存在する事が発
見されると、プログラム・ルーチンは第2図の流
れ図のブロツク22として示された第2表(後
出)の抜粋削除サブルーチンに分岐する。 第2表の抜粋削除サブルーチンは語索引フアイ
ルから抜粋中の語の発生を削除する事によつてメ
モリから抜粋を削除する。語索引フアイルの構成
については以下詳細に説明される。 現存の抜粋をメモリから削除する事、即ちその
文書番号を有する語が語索引フアイル中に記憶さ
れていない事により、文書が抜粋を形成するため
にブロツク23で処理される。第1表のプログラ
ム・ルーチンを参照するに、文書中の次の語がテ
ストされてカーボン・コピー(CC)リストが続
くかどうかが決定される。もしCCが続かなけれ
ばプログラムはこの語が文書の抜粋中に含まれる
べきかどうかを決定するために第3表(後出)中
の語の抜粋処理サブルーチンに分岐する。 上述の如く、或る語が抜粋中に含まれるかどう
かを決定するための規準はその語がメツセージ特
定化用語であるかどうか、即ち、これが名詞、単
一目的形容詞、固有名詞、アクロニムもしくは数
字であるかどうかにある。第3表のプログラム・
ルーチンはこの語を辞書メモリの内容と比較す
る。もしこの語が辞書メモリ中に発見されて、こ
れが名詞もしくは単一目的形容詞でない的は、無
視される。辞書メモリ中の語が名詞であるか単一
目的形容詞であるかどうかについての決定は辞書
メモリ8の作成準備の時になされ、名詞もしくは
単一目的形容詞として決められた語にはビツト・
コードが付せられる。もし語が名詞もしくは単一
目的形容詞であると決定されると、“通常”の語
である事を示すためにコード・ビツトもしくはフ
ラグが該語に付加される。もし語が辞書メモリ8
中にないと、アクロニムもしくは固有名詞である
としてその状態を示すために語にコード・ビツト
もしくはフラグが付される。アクロニム及び固有
名詞は名詞及び単一目的の形容詞よりもメツセー
ジ特定化用語としてより影響力を有すると考えら
れるので以下明らかな如く文書探索のためにより
有用である。第3表の語処理ルーチンはプロセツ
サ10を制御して語索引フアイル中に記憶させる
ため各抜粋の用語の1つのコピーだけを保存す
る。しかしながら語処理ルーチンは語に対し、そ
の語が現われる文書中の行の番号及び文書中にそ
の語が現われる回数を付加する。文書探索に対し
て後述される如く、文書中の語の発生頻度及び発
生の場所は文書を検索する際の質問語としての語
の価値を決定する。 語処理サブルーチンの完了に伴い、制御は第1
表の抜粋ルーチンに戻り、文書中の各語に対して
諸ルーチンが繰返される。抜粋ルーチンは文書中
の頁数に対する計数を累積する。文書の終りに近
づく時、文書の本文の終りから5行目を決定する
計数がカウントされ、第4表(後出)の抜粋終り
処理サブルーチンが選択される。 抜粋終り処理サブルーチンはプロセツサ10を
制御して第3表の語処理サブルーチンによつて保
存されたすべての語、文書中の語の数の計数及び
文書識別子番号を含む抜粋記録を形成する。抜粋
終り処理サブルーチンは同様に該語、“通常”語
であるか“アクロニム/固有名詞”であるかを示
すコード、文書番号、文書中の頁数、文書中の該
語の発生頻度、語が前文(最初の10行)、末文
(最後の5行)、コピー・リストもしくは本文のい
ずれに生じたかを示すコードを含む語索引記録を
形成する。語索引フアイル中の語は該語に対する
記録がすでに語索引フアイル中に現われたかを見
るために探索される。もし現われておれば、語の
複製(重複)が語索引フアイル中に現われない様
に、記録は文書番号、頻度計数及びコードを付加
する事によつて更新される。第4表の抜粋終り処
理サブルーチンの完了に続き制御は抜粋処理を終
了させる第1表の抜粋ルーチンに戻される。 システム中に記録された文書を検索するために
は、質問者は該文書のための質問をシステムに導
入する。この事は例えばキイボードを介して行な
われる。本発明のシステムの好ましい実施例で使
用される質問は自然言語ステートメントもしくは
その項目を記述した語の連糸であり得る。探索ア
ーギユメントは質問語を語索引フアイルに対して
テストする事によつて創生される。多くの場合に
探索アーギユメント中の語はいくつかの文書中の
キイワード記録(抜粋)中に生ずる。競合する文
書間により良い弁別を与えるために異なるキイワ
ードには異なる重みが与えられる。重み付けの規
準は次の如き規則に従つて適用される。 1 数字キイワードに対する一致はアルフアベツ
ト・キイワードに対するよりもより大きな重み
が与えられる。 2 固有名詞もしくはアクロニムであるキイワー
ドに対する一致は辞書メモリ中に見出される名
詞もしくは単一目的形容詞に対する一致よりも
大きな重みが与えられる。 3 1つのキイワードに与えられる重みは文書中
で生ずる該語の回数を文書中の頁数の対数で割
つたものに比例する。 4 文書の最初の10行中において生ずるキイワー
ドの一致はテキストの本文の中央におけるキイ
ワードの一致よりもより大きい重みが与えられ
る。 5 テキストの最後の5行中のキイワードで生ず
る一致は、テキストの中央部中のキイワードに
対する一致よりも大きな重みが与えられるが、
最初の10行中の一致よりも小さな重みが与えら
れる。 6 キイワードの重みはこの語が月もしくは年の
名称である時に増大する。 7 キイワード一致の重みは全フアイル中の文書
の本文中(コピー・リストの部分としての発生
は除く)において該キイワードを含む文書の数
に反比例する。 これ等の一般的規則の背後にある原理は最も挾
義の特定の意味を有するキイワードを含む一致に
対して最大の重みを与える事にある。特定の名
称、数字及び日付けは極めて特殊な意味を有し、
従つてこれ等は大きく重み付けられるものと仮定
される。同様に最も特定な事柄(項目)は通信文
の始めか終りに述べられているものと仮定され
る。従つてこれ等の領域に発生する語は同様によ
り大きな重みが与えられる。上述の一般的規則を
満足する式の一例は次の如きものである。 文書検索値=Σi,jFi,j+10Ai+10Ki+10Li+5Ei+5Hi
/log2Di(1.25)Mi(1.25)Yi ここで Fi,j=j番目の文書中に現われる第i番目のキイ
ワードの回数 Ai=i番目のキイワードがアクロニムもしくは固
有名詞である場合の2値表示子 Ki=i番目のキイワードが最初の10行に生じた場
合の2値表示子 Li=i番目のキイワードが数字である場合の2値
表示子 Ei=i番目のキイワードが最後の5行に生じた場
合の2値表示子 Hi=i番目のキイワードが辞書メモリ中に名詞
もしくは単一の目的の形容詞として生ずる2値
表示子 Mi=i番目のキイワードが月である場合の2値
表示子 Yi=i番目のキイ・ワードが年である場合の2値
表示子 Di=i番目のキイワードを含む文書の数 第3図を参照するに、文書のための質問を処理
する流れ図が示されている。ブロツク30におい
て、ユーザの質問はプロセツサ10(第1図)へ
バス15を介して入力レジスタ16から入力され
る。後出の第5、6及び第7表は上述の一般的規
則に従うユーザの質問を処理するためのプログラ
ム・ルーチンを示す。 第5表の質問ルーチンは第3図の流れ図のブロ
ツク31中に示された如く質問後を語索引フアイ
ルの内容とを比較する。語索引フアイルと一致す
る質問語は第6表の質問語処理サブルーチンによ
つて流れ図のブロツク32で処理される。 各質問語はこれが月、年、数字、アクロニム、
もしくは通常の語(名詞もしくは単一目的形容
詞)であるかどうかについての決定のためにテス
トされる。第6表のサブルーチンは同様にもし語
が文書の最初の10行中、最後の5行中もしくは文
書中に2回以上生じた事を語索引フアイル中の表
示子が示すと重み因子を加える。もし語が文書の
コピー・リスト中に生じ、1つの文書中に2回以
上生じると、該語の価値は減少される。各語に対
する値の合計が計算され、何等かの一致を示す各
文書番号に対する語索引フアイル中の語と一致す
るすべての質問語の合計が累積される。語に対す
る検索値及び文書に対する検索値を計算する段階
は第3図のブロツク33及び34中に示されてい
る。質問中のすべての語の処理に続いて、第5表
の質問ルーチンは後出の第7表の月/年の評価サ
ブルーチンに分岐する。第7表のサブルーチンは
質問中の年及び/もしくは月と一致する年及び/
もしくは月を含む各文書に対する検索値を増大す
る。第7表のサブルーチンはその検索値が計算さ
れた最高の検索値の25%内にある文書を主メモリ
12から出力レジスタ18に出力する様に動作す
る。次に制御は第5表の質問ルーチンに戻され、
質問処理が終了される。
第 1 表文書抜粋ルーチン (内容省略)
第 2 表抜粋削除サブルーチン (内容省略)
第 3 表語抜粋処理サブルーチン (内容省略)
第 4 表抜粋終り処理サブルーチン (内容省略)
第 5 表質問ルーチン 開始手順(OCRS 質問); 質問を入れよ。 まだテキストの質問行が存在するうちは、次の
ことを実行せよ。 質問テキストの次行を取出せ。 その行にまだ文字が存在するうちは、次のこと
を実行せよ。 行から次の語を取出せ(2つ以上の文字(A−
Z、0−9又は′); 質問語のため語索引記録を読め。 若しも語が発見されないならば、呼出せ(質問
処理 語); 若しも…を終了。 のうちは…を終了。 のうちは…を終了。 呼出せ(質問 終了 処理); 終了手順(OCRS 質問);
第 6 表質問語処理サブルーチン 開始手順(質問 処理 語); 処理語を入れよ; 若しも、その語が年であるならば、質問の年の
ために表示子をセツトせよ。 若しも…を終了; 若しも、その語が月であるならば、質問の月の
ために表示子をセツトせよ。 若しも…を終了; 若しも、その語が数字であるならば、重みを10
にセツトせよ。 さもなければ、重みを0にセツトせよ。 若しも…を終了; この語に含まれている文書の数を計数せよ; その語がCCリスト中にない場合は文書の数を
計数せよ; 若しも語索引記録がアクロニム(頭字語)又は
固有名詞としてフラグ表示されているならば、ア
クロニム又は固有名詞の重みを10にセツトせよ; さもなければ、「通常」の重みを5にセツトせ
よ; 若しも…を終了; 語索引記録中にまだ文書内容があるうちは、次
のことを実行せよ。 語索引記録から次の文書内容を取出せ。 若しも語が前文に生じたことをフラグが示すな
らば、前文の重みを10にセツトせよ; さもなければ、前文の重みを0にセツトせよ; 若しも…を終了; 若しも語が末文から生じたことをフラグが示す
ならば、末文の重みを5にセツトせよ; さもければ、末文の重みを0にセツトせよ; 若しも…を終了; 若しも語がCCリスト中に生じたことをフラグ
が示すならば、CC分割重みを99999にセツトせ
よ; さもなければ、CC分割重みを1にセツトせ
よ; 若しも…を終了; 検索値を下記のようにセツトせよ: (アクロニム又は固有名詞の重み+数字の重み
+通常の重み+前文の重み+末文の重み+語の回
数÷log2頁数)×log2CCリストに語を含まない文
書の数; 検索値をCC分割重みで割算せよ; 若しも、この文書がまだこの質問で分析されて
いないならば、その文書番号を貯えよ; 検索値を貯えよ; さもなければ、文書検索値を新たな検索値だけ
増加せよ; 若しも…を終了; のうちは…を終了; 終了手順(質問 処理 語);
第 7 表質問 月/年 評価 開始手順(質問 終了 処理); 終了処理を入れよ; 若しも、質問中に年が言及されていたならば、
年を含んだ各文書の検索値を20%大きくせよ; 若しも…を終了; 若しも、質問中に月が含まれていたならば、月
を含んだ各文書の検索値を20%大きくせよ; 若しも…を終了; 最高の検索値の25%以内に検索値がある文書の
文書番号を検索せよ; その文書で実際に生じる質問から語数について
このリストを分類せよ; その文書を出力せよ; 終了手順(質問 終了 処理);
体的には自動的に文書を抜粋し、記憶し、自由形
式の質問を使用して検索する装置に関する。 文書記憶兼検索システムを具体化する際にこの
様なシステムの実用性及び利用度は夫々の文書を
システム中に目録化する際の容易さ及びユーザの
要求が関連文書目録表示(記述)と連想される際
の効率によつて支配される。現在の文書記憶及び
検索技法は文書をシステムの目録もしくは索引で
代表させるため、人間によつてキイワードを選出
し、次いで適切なキイワード用語をメモリから呼
出し、自動的もしくは人手によつて予じめ記憶さ
れたキイワードに対する適当なレベルでの一致で
索引を探し出す事に基づいていた。キイワードに
基づいて文書を抜粋し検索するための手順が従来
開発されてきた。手順の1つは要求者に一定の様
式で著者、住所、日付け及びキイワードもしくは
文の一端(フレーズ)の如き当該文書についての
或る詳細事項を供給する事を要求する。検索の場
合には、要約で分類されたリストが上述の見出し
の各々の下に準備される。要求者は探索情報の見
出しの下の記入項目をしらべる事によつて適切な
文書を弁別しなければならない。探索の手掛りに
はどのようなゆとりも許容されない。探索は人間
による吟味もしくはデータ処理の大域的発見指令
を使用して行なわれる。 第2の手順は完全な逆フアイルとして文書中の
すべての非自明語を記憶する(即ち冠詞及び代名
詞等を無視する)。原稿の文書/行/語位置が目
録中に保持される。検索のためのデータベースの
探索はユーザの記憶に基づいてユーザが供給する
キイワードによつて行なわれる。目録は原テキス
ト中にキイワードが存在する時のキイワード間に
存在しなければならない関係(即ちキイワード1
がキイワード2の前に存在する等)を指定し得る
という追加の能力によつて自動的に探索される。
このシステムの例はIBMデータ処理部門の製品
である通常STAIRSと呼ばれる記憶兼情報探索
システム(Storage and Information Retrieval
System)である。 文書記憶及び検索のための第3の方法は文書を
単に機械読取り可能な形式で記憶し各ユーザ供給
キイワードのための大域的発見論理を使用してす
べての文書を探索するものである。小さなデータ
ベースに対する理論及び実際においては、大域的
な発見は文書がCRT型装置上に表示される時に
ユーザが文書を逐語的にレビユーする事によつて
置換えられ得る。 しかしながら文書記憶及び探索のための上述の
すべての手順においては、抜粋及び探索時の連想
一致のための主たる知的負担はユーザ側に置かれ
る。システムが抜粋もしくは一致の際に使用され
る時は、大量の目録作成手順という代償を支払つ
て、行なわれ、検索のためにシステムと通信する
ためにはユーザにとつて大量のデータ処理の負担
及び構造化されたフオーマツトが必要とされる。 すべての非自明の通信文は比較的に小さな数の
メツセージ特定化項目(用語、単語)によつてト
ピツク的に指定される事が知られている。これ等
はビジネスのボイラ板(日常の)通信文を著者が
伝えたいと欲しているメツセージに変換する語で
ある。これ等の用語は主に数字、固有名詞、アク
ロニム(頭文字の組合せ語)、名詞及び単一目的
の形容詞より成る。質問の目的のための文書の任
意の意味のある記述は文書にその特定の意味を与
えるこれ等の用語の少なく共或るものを含まなけ
ればならない。本発明は文書中のメツセージ特定
化用語を信頼性をもつて探知し、これ等の用語を
使用して文書の抜粋(アブストラクト)を形成す
る技法を含む。この技法は米国特許第3995254号
中に開示されたデータ記憶技法を使用し、本明細
書においては綴りの検証のための語の辞書を記憶
するものとして組込まれているが、他の辞書記憶
技法が同様に使用され得る。さらに辞書メモリ中
の特定化用語は名詞もしくは単一の目的の形容詞
としてそれ等の状態を示すためにデータ・ビツト
が付加されている。数字、固有名詞及びアクロニ
ム(頭文字の組合せ語)は辞書メモリ中には記憶
されない。文書のテキストが辞書メモリの内容と
比較され、辞書中の名詞及び単一目的を有する形
容詞と一致する語及び辞書メモリ中において発見
されない語(固有名詞、数字、アクロニム)が累
積され、文書の抜粋が形成される。抜粋中の各語
は次に語索引フアイル中に記憶される。語索引フ
アイル中の記録は語、該語が生じた文書の同定コ
ード、夫々の文書中で該語が発生する回数、語が
数字であるか、固有名詞/アクロニム、名詞/単
一の目的を有する形容詞であるかどうかについて
の表示子及び語が見出し、末尾、本文もしくは文
書のコピー・リストのどれに生ずるかについての
表示子を含む。(単一の目的を有する形容詞とは
その主要目的が例えば重い、丸い、古い、新らし
い、色が赤い、青い等の如き形容詞的成分のもの
である。)文書の検索のための入力質問中の語は
語索引フアイルに対して比較される。語索引フア
イル中の或る語はいくつかの文書中に生じ得るの
で、語索引フアイル中の語と共に記憶される情報
に基づいて各語に重み係数が与えられる。検索の
質問中の任意の語を含む各文書に対して或る得点
が累積され、最大の得点を有する文書が検査のた
めにユーザに提示される。 第1図を参照するに、文書記憶兼検索装置のブ
ロツク図が示されているが、これは命令を解読及
び実行し得る汎用型のプロセツサ即ちCPU10
を含む。プロセツサ10はバス13を介して、そ
の動作を制御し、本発明を定義する命令を含むメ
モリ14と2方向通信している。プロセツサ10
は同様にすべての名詞及び単一目的の形容詞がそ
の様に記された品詞辞書を含むメモリ8とバス7
を介して2方向通信する。メモリ8は数字、アク
ロニムもしくは固有名詞を含まない。プロセツサ
10は同様に文書及びキイ語索引フアイルを記憶
させるために使用される主メモリ12とバス11
を介して2方向通信する。命令メモリ14及び辞
書メモリ8は読取り専用型もしくはランダム・ア
クセス型のメモリであるが、主メモリ12はラン
ダム・アクセス記憶装置である。 文書から抜粋し記憶するために、入力レジスタ
16はバス17を介してソース(図示されず)か
らテキスト語を受取る。ソースはキイボード、磁
気テープ読取器、磁気カード/デイスク/デイス
ケツト・フアイル等を含む種々の入力装置の任意
のものであり得る。テスト語は命令メモリ14中
に記憶された命令に従つて処理されるためにバス
15を介してレジスタ16からプロセツサ10に
提示される。レジスタ16のテキスト内容に遂行
される処理(抜粋)の結果はバス11を介して主
メモリ12に転送される。 文書検索の場合には、入力レジスタ16はバス
17を介してソース(図示されず)質問テキス
ト・ステートメントを受取る。ソースはキイボー
ド、スクリプト表もしくは特別に構成された押ボ
タン型式のパツドの如き種々の入力装置の任意の
ものであり得る。質問テキスト・ステートメント
はバス15を介してレジスタ16からプロセツサ
10に提示され、命令メモリ14中に記憶された
命令に従つて処理するためにバス15を介してレ
ジスタ16からプロセツサ10に提示される。命
令メモリ14からの命令の制御の下にプロセツサ
10はバス7を介して辞書メモリ8の内容と通信
し、バス11を介してメモリ12と通信し、文書
検索親近性評価をメモリ12の内容に対して遂行
する。選択された文書はメモリ12からバス11
及びバス9を介して出力レジスタ18に転出さ
れ、出力レジスタ18からバス19を介して表示
装置、プリンタもしくはボイスコーダ等を含む
種々の形式を取り得る利用装置へ送られる。選択
された文書は次いで検査のためにユーザに提示さ
れる。 本発明の好ましい実施例は第1図に示された文
書記憶兼探索システムに対する文書からの抜粋、
記憶及び検索のための質問ステートメントの親近
性比較を制御する命令もしくはプログラムの組よ
り成る。第2図を参照するに文書を抜粋及び記録
するためのプログラムの流れ図が示されている。 オンライン・メモリを有するデータ処理システ
ムにおいては記憶される各記録に一意的な識別子
コードもしくは番号を割当てる事が標準のならわ
しである。このコードは通常長さが8字である
が、長さが制限されているので記録の内容を説明
した情報を含まない。識別子コードは、ユーザが
識別子コードと特定の記録を連想させる事が出来
る場合に記録をアクセスするのに有用である。し
かしながらこの記録探知技法はデータベースが大
きくなつて、数人のユーザが同一記録をアクセス
する様な場合には非実用的になる。通常記録はそ
れが存在する限り同一識別子コードを保持し、記
録の修正は同一識別子コードの下にメモリ内で記
録を置換えている。文書を抜粋し記憶するための
プログラムは識別子コードを抜粋文書の1部とし
て含ませる様に利用している。文書がシステム
(第2図)の読込まれる場合には、文書識別子コ
ード即ち番号がブロツク20で読取られ、すでに
システム中に記憶されている語索引フアイルと比
較されて、その文書に対する抜粋が現在記憶され
ている事を示して一致が発見されたかどうかが決
定される。後出の第1表は文書を抜粋するための
プログラム・ルーチンを示す。もし文書番号(識
別子コード)が抜粋フアイル中に存在する事が発
見されると、プログラム・ルーチンは第2図の流
れ図のブロツク22として示された第2表(後
出)の抜粋削除サブルーチンに分岐する。 第2表の抜粋削除サブルーチンは語索引フアイ
ルから抜粋中の語の発生を削除する事によつてメ
モリから抜粋を削除する。語索引フアイルの構成
については以下詳細に説明される。 現存の抜粋をメモリから削除する事、即ちその
文書番号を有する語が語索引フアイル中に記憶さ
れていない事により、文書が抜粋を形成するため
にブロツク23で処理される。第1表のプログラ
ム・ルーチンを参照するに、文書中の次の語がテ
ストされてカーボン・コピー(CC)リストが続
くかどうかが決定される。もしCCが続かなけれ
ばプログラムはこの語が文書の抜粋中に含まれる
べきかどうかを決定するために第3表(後出)中
の語の抜粋処理サブルーチンに分岐する。 上述の如く、或る語が抜粋中に含まれるかどう
かを決定するための規準はその語がメツセージ特
定化用語であるかどうか、即ち、これが名詞、単
一目的形容詞、固有名詞、アクロニムもしくは数
字であるかどうかにある。第3表のプログラム・
ルーチンはこの語を辞書メモリの内容と比較す
る。もしこの語が辞書メモリ中に発見されて、こ
れが名詞もしくは単一目的形容詞でない的は、無
視される。辞書メモリ中の語が名詞であるか単一
目的形容詞であるかどうかについての決定は辞書
メモリ8の作成準備の時になされ、名詞もしくは
単一目的形容詞として決められた語にはビツト・
コードが付せられる。もし語が名詞もしくは単一
目的形容詞であると決定されると、“通常”の語
である事を示すためにコード・ビツトもしくはフ
ラグが該語に付加される。もし語が辞書メモリ8
中にないと、アクロニムもしくは固有名詞である
としてその状態を示すために語にコード・ビツト
もしくはフラグが付される。アクロニム及び固有
名詞は名詞及び単一目的の形容詞よりもメツセー
ジ特定化用語としてより影響力を有すると考えら
れるので以下明らかな如く文書探索のためにより
有用である。第3表の語処理ルーチンはプロセツ
サ10を制御して語索引フアイル中に記憶させる
ため各抜粋の用語の1つのコピーだけを保存す
る。しかしながら語処理ルーチンは語に対し、そ
の語が現われる文書中の行の番号及び文書中にそ
の語が現われる回数を付加する。文書探索に対し
て後述される如く、文書中の語の発生頻度及び発
生の場所は文書を検索する際の質問語としての語
の価値を決定する。 語処理サブルーチンの完了に伴い、制御は第1
表の抜粋ルーチンに戻り、文書中の各語に対して
諸ルーチンが繰返される。抜粋ルーチンは文書中
の頁数に対する計数を累積する。文書の終りに近
づく時、文書の本文の終りから5行目を決定する
計数がカウントされ、第4表(後出)の抜粋終り
処理サブルーチンが選択される。 抜粋終り処理サブルーチンはプロセツサ10を
制御して第3表の語処理サブルーチンによつて保
存されたすべての語、文書中の語の数の計数及び
文書識別子番号を含む抜粋記録を形成する。抜粋
終り処理サブルーチンは同様に該語、“通常”語
であるか“アクロニム/固有名詞”であるかを示
すコード、文書番号、文書中の頁数、文書中の該
語の発生頻度、語が前文(最初の10行)、末文
(最後の5行)、コピー・リストもしくは本文のい
ずれに生じたかを示すコードを含む語索引記録を
形成する。語索引フアイル中の語は該語に対する
記録がすでに語索引フアイル中に現われたかを見
るために探索される。もし現われておれば、語の
複製(重複)が語索引フアイル中に現われない様
に、記録は文書番号、頻度計数及びコードを付加
する事によつて更新される。第4表の抜粋終り処
理サブルーチンの完了に続き制御は抜粋処理を終
了させる第1表の抜粋ルーチンに戻される。 システム中に記録された文書を検索するために
は、質問者は該文書のための質問をシステムに導
入する。この事は例えばキイボードを介して行な
われる。本発明のシステムの好ましい実施例で使
用される質問は自然言語ステートメントもしくは
その項目を記述した語の連糸であり得る。探索ア
ーギユメントは質問語を語索引フアイルに対して
テストする事によつて創生される。多くの場合に
探索アーギユメント中の語はいくつかの文書中の
キイワード記録(抜粋)中に生ずる。競合する文
書間により良い弁別を与えるために異なるキイワ
ードには異なる重みが与えられる。重み付けの規
準は次の如き規則に従つて適用される。 1 数字キイワードに対する一致はアルフアベツ
ト・キイワードに対するよりもより大きな重み
が与えられる。 2 固有名詞もしくはアクロニムであるキイワー
ドに対する一致は辞書メモリ中に見出される名
詞もしくは単一目的形容詞に対する一致よりも
大きな重みが与えられる。 3 1つのキイワードに与えられる重みは文書中
で生ずる該語の回数を文書中の頁数の対数で割
つたものに比例する。 4 文書の最初の10行中において生ずるキイワー
ドの一致はテキストの本文の中央におけるキイ
ワードの一致よりもより大きい重みが与えられ
る。 5 テキストの最後の5行中のキイワードで生ず
る一致は、テキストの中央部中のキイワードに
対する一致よりも大きな重みが与えられるが、
最初の10行中の一致よりも小さな重みが与えら
れる。 6 キイワードの重みはこの語が月もしくは年の
名称である時に増大する。 7 キイワード一致の重みは全フアイル中の文書
の本文中(コピー・リストの部分としての発生
は除く)において該キイワードを含む文書の数
に反比例する。 これ等の一般的規則の背後にある原理は最も挾
義の特定の意味を有するキイワードを含む一致に
対して最大の重みを与える事にある。特定の名
称、数字及び日付けは極めて特殊な意味を有し、
従つてこれ等は大きく重み付けられるものと仮定
される。同様に最も特定な事柄(項目)は通信文
の始めか終りに述べられているものと仮定され
る。従つてこれ等の領域に発生する語は同様によ
り大きな重みが与えられる。上述の一般的規則を
満足する式の一例は次の如きものである。 文書検索値=Σi,jFi,j+10Ai+10Ki+10Li+5Ei+5Hi
/log2Di(1.25)Mi(1.25)Yi ここで Fi,j=j番目の文書中に現われる第i番目のキイ
ワードの回数 Ai=i番目のキイワードがアクロニムもしくは固
有名詞である場合の2値表示子 Ki=i番目のキイワードが最初の10行に生じた場
合の2値表示子 Li=i番目のキイワードが数字である場合の2値
表示子 Ei=i番目のキイワードが最後の5行に生じた場
合の2値表示子 Hi=i番目のキイワードが辞書メモリ中に名詞
もしくは単一の目的の形容詞として生ずる2値
表示子 Mi=i番目のキイワードが月である場合の2値
表示子 Yi=i番目のキイ・ワードが年である場合の2値
表示子 Di=i番目のキイワードを含む文書の数 第3図を参照するに、文書のための質問を処理
する流れ図が示されている。ブロツク30におい
て、ユーザの質問はプロセツサ10(第1図)へ
バス15を介して入力レジスタ16から入力され
る。後出の第5、6及び第7表は上述の一般的規
則に従うユーザの質問を処理するためのプログラ
ム・ルーチンを示す。 第5表の質問ルーチンは第3図の流れ図のブロ
ツク31中に示された如く質問後を語索引フアイ
ルの内容とを比較する。語索引フアイルと一致す
る質問語は第6表の質問語処理サブルーチンによ
つて流れ図のブロツク32で処理される。 各質問語はこれが月、年、数字、アクロニム、
もしくは通常の語(名詞もしくは単一目的形容
詞)であるかどうかについての決定のためにテス
トされる。第6表のサブルーチンは同様にもし語
が文書の最初の10行中、最後の5行中もしくは文
書中に2回以上生じた事を語索引フアイル中の表
示子が示すと重み因子を加える。もし語が文書の
コピー・リスト中に生じ、1つの文書中に2回以
上生じると、該語の価値は減少される。各語に対
する値の合計が計算され、何等かの一致を示す各
文書番号に対する語索引フアイル中の語と一致す
るすべての質問語の合計が累積される。語に対す
る検索値及び文書に対する検索値を計算する段階
は第3図のブロツク33及び34中に示されてい
る。質問中のすべての語の処理に続いて、第5表
の質問ルーチンは後出の第7表の月/年の評価サ
ブルーチンに分岐する。第7表のサブルーチンは
質問中の年及び/もしくは月と一致する年及び/
もしくは月を含む各文書に対する検索値を増大す
る。第7表のサブルーチンはその検索値が計算さ
れた最高の検索値の25%内にある文書を主メモリ
12から出力レジスタ18に出力する様に動作す
る。次に制御は第5表の質問ルーチンに戻され、
質問処理が終了される。
第 1 表文書抜粋ルーチン (内容省略)
第 2 表抜粋削除サブルーチン (内容省略)
第 3 表語抜粋処理サブルーチン (内容省略)
第 4 表抜粋終り処理サブルーチン (内容省略)
第 5 表質問ルーチン 開始手順(OCRS 質問); 質問を入れよ。 まだテキストの質問行が存在するうちは、次の
ことを実行せよ。 質問テキストの次行を取出せ。 その行にまだ文字が存在するうちは、次のこと
を実行せよ。 行から次の語を取出せ(2つ以上の文字(A−
Z、0−9又は′); 質問語のため語索引記録を読め。 若しも語が発見されないならば、呼出せ(質問
処理 語); 若しも…を終了。 のうちは…を終了。 のうちは…を終了。 呼出せ(質問 終了 処理); 終了手順(OCRS 質問);
第 6 表質問語処理サブルーチン 開始手順(質問 処理 語); 処理語を入れよ; 若しも、その語が年であるならば、質問の年の
ために表示子をセツトせよ。 若しも…を終了; 若しも、その語が月であるならば、質問の月の
ために表示子をセツトせよ。 若しも…を終了; 若しも、その語が数字であるならば、重みを10
にセツトせよ。 さもなければ、重みを0にセツトせよ。 若しも…を終了; この語に含まれている文書の数を計数せよ; その語がCCリスト中にない場合は文書の数を
計数せよ; 若しも語索引記録がアクロニム(頭字語)又は
固有名詞としてフラグ表示されているならば、ア
クロニム又は固有名詞の重みを10にセツトせよ; さもなければ、「通常」の重みを5にセツトせ
よ; 若しも…を終了; 語索引記録中にまだ文書内容があるうちは、次
のことを実行せよ。 語索引記録から次の文書内容を取出せ。 若しも語が前文に生じたことをフラグが示すな
らば、前文の重みを10にセツトせよ; さもなければ、前文の重みを0にセツトせよ; 若しも…を終了; 若しも語が末文から生じたことをフラグが示す
ならば、末文の重みを5にセツトせよ; さもければ、末文の重みを0にセツトせよ; 若しも…を終了; 若しも語がCCリスト中に生じたことをフラグ
が示すならば、CC分割重みを99999にセツトせ
よ; さもなければ、CC分割重みを1にセツトせ
よ; 若しも…を終了; 検索値を下記のようにセツトせよ: (アクロニム又は固有名詞の重み+数字の重み
+通常の重み+前文の重み+末文の重み+語の回
数÷log2頁数)×log2CCリストに語を含まない文
書の数; 検索値をCC分割重みで割算せよ; 若しも、この文書がまだこの質問で分析されて
いないならば、その文書番号を貯えよ; 検索値を貯えよ; さもなければ、文書検索値を新たな検索値だけ
増加せよ; 若しも…を終了; のうちは…を終了; 終了手順(質問 処理 語);
第 7 表質問 月/年 評価 開始手順(質問 終了 処理); 終了処理を入れよ; 若しも、質問中に年が言及されていたならば、
年を含んだ各文書の検索値を20%大きくせよ; 若しも…を終了; 若しも、質問中に月が含まれていたならば、月
を含んだ各文書の検索値を20%大きくせよ; 若しも…を終了; 最高の検索値の25%以内に検索値がある文書の
文書番号を検索せよ; その文書で実際に生じる質問から語数について
このリストを分類せよ; その文書を出力せよ; 終了手順(質問 終了 処理);
第1図は本発明のシステムの概略図である。8
……辞書メモリ、10……プロセツサ、12……
主メモリ、13……命令メモリ、16……入力レ
ジスタ、18……出力レジスタ。第2図は文書を
抜粋し記憶する際の動作の流れ図である。第3図
はユーザの質問に応答して文書を検索する際のシ
ステムの動作の流れ図である。
……辞書メモリ、10……プロセツサ、12……
主メモリ、13……命令メモリ、16……入力レ
ジスタ、18……出力レジスタ。第2図は文書を
抜粋し記憶する際の動作の流れ図である。第3図
はユーザの質問に応答して文書を検索する際のシ
ステムの動作の流れ図である。
Claims (1)
- 【特許請求の範囲】 1 文書の内容を記述する単語より成る入力質問
に応答してメモリから文書を検索するため、 単語、該単語を含む文書の識別コード、選択さ
れた品詞コード、単語に対する発生頻度計数、各
文書の識別コードに対して各文書の頁数および発
生位置を含む単語の記録を記憶するメモリと、 入力質問中の単語と上記メモリ中に記憶された
単語を比較する装置と、 比較の結果一致する各単語の各文書識別コード
に対して検索記録を累積する装置と、 選択された品詞コード、発生頻度計数、頁数お
よび発生位置コードを使用して各検索記録のため
の文書検索値を計算する装置と、 上記メモリから最高の計算された文書検索値に
対する識別コードに対応する文書を出力する装置
とより成る文書検索装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US06/107,994 US4358824A (en) | 1979-12-28 | 1979-12-28 | Office correspondence storage and retrieval system |
US107994 | 1998-06-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS5844536A JPS5844536A (ja) | 1983-03-15 |
JPS6330648B2 true JPS6330648B2 (ja) | 1988-06-20 |
Family
ID=22319639
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP55175926A Expired JPS5828616B2 (ja) | 1979-12-28 | 1980-12-15 | 文書抜粋記憶 |
JP56011752A Granted JPS5844536A (ja) | 1979-12-28 | 1981-01-30 | 文書検索装置 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP55175926A Expired JPS5828616B2 (ja) | 1979-12-28 | 1980-12-15 | 文書抜粋記憶 |
Country Status (5)
Country | Link |
---|---|
US (1) | US4358824A (ja) |
EP (1) | EP0032194A1 (ja) |
JP (2) | JPS5828616B2 (ja) |
CA (1) | CA1241122A (ja) |
ES (1) | ES8206059A1 (ja) |
Families Citing this family (130)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58201140A (ja) * | 1982-05-20 | 1983-11-22 | Toshiba Corp | 文書作成装置 |
US4554631A (en) * | 1983-07-13 | 1985-11-19 | At&T Bell Laboratories | Keyword search automatic limiting method |
US4580218A (en) * | 1983-09-08 | 1986-04-01 | At&T Bell Laboratories | Indexing subject-locating method |
US4633393A (en) * | 1983-10-21 | 1986-12-30 | Storage Technology Partners Ii | Generic key for indexing and searching user data in a digital information storage and retrieval device |
US4611280A (en) * | 1984-03-12 | 1986-09-09 | At&T Bell Laboratories | Sorting method |
JPS61220027A (ja) * | 1985-03-27 | 1986-09-30 | Hitachi Ltd | 文書ファイリングシステム及び情報記憶検索システム |
JPS61243531A (ja) * | 1985-04-22 | 1986-10-29 | Nec Corp | 情報検索方式 |
US6182062B1 (en) | 1986-03-26 | 2001-01-30 | Hitachi, Ltd. | Knowledge based information retrieval system |
JPH0823864B2 (ja) * | 1986-03-29 | 1996-03-06 | 株式会社東芝 | 見出し判定方法 |
JPH0776969B2 (ja) * | 1986-04-18 | 1995-08-16 | 株式会社東芝 | 文書処理装置 |
US4870568A (en) * | 1986-06-25 | 1989-09-26 | Thinking Machines Corporation | Method for searching a database system including parallel processors |
US5021997A (en) * | 1986-09-29 | 1991-06-04 | At&T Bell Laboratories | Test automation system |
JPS63120362A (ja) * | 1986-11-10 | 1988-05-24 | Brother Ind Ltd | スペルチエツク機能付文書処理装置 |
US4949302A (en) * | 1986-11-17 | 1990-08-14 | International Business Machines Corporation | Message file formation for computer programs |
US4972349A (en) * | 1986-12-04 | 1990-11-20 | Kleinberger Paul J | Information retrieval system and method |
US5062074A (en) * | 1986-12-04 | 1991-10-29 | Tnet, Inc. | Information retrieval system and method |
EP0280866A3 (en) * | 1987-03-03 | 1992-07-08 | International Business Machines Corporation | Computer method for automatic extraction of commonly specified information from business correspondence |
US4965763A (en) * | 1987-03-03 | 1990-10-23 | International Business Machines Corporation | Computer method for automatic extraction of commonly specified information from business correspondence |
JPS6446831A (en) * | 1987-08-17 | 1989-02-21 | Nippon Telegraph & Telephone | Automatic key word extracting device |
GB8719572D0 (en) * | 1987-08-19 | 1987-09-23 | Krebs M S | Sigscan text retrieval system |
JPH0740275B2 (ja) * | 1987-10-26 | 1995-05-01 | 日本電信電話株式会社 | キーワード重要度自動評価装置 |
US4908758A (en) * | 1987-12-17 | 1990-03-13 | Sanders Michael J | Method of operating a computer for rank ordering and weighting category alternatives |
JPH021057A (ja) * | 1988-01-20 | 1990-01-05 | Ricoh Co Ltd | 文書検索装置 |
JP2783558B2 (ja) * | 1988-09-30 | 1998-08-06 | 株式会社東芝 | 要約生成方法および要約生成装置 |
CA1318403C (en) * | 1988-10-11 | 1993-05-25 | Michael J. Hawley | Method and apparatus for extracting keywords from text |
CA1318404C (en) * | 1988-10-11 | 1993-05-25 | Michael J. Hawley | Method and apparatus for indexing files in a computer system |
US5993048A (en) * | 1988-12-08 | 1999-11-30 | Hallmark Cards, Incorporated | Personalized greeting card system |
US5142678A (en) * | 1988-12-21 | 1992-08-25 | International Business Machines Corporation | Method for a requesting user to use a marker to associate a document with an end user action |
US5303361A (en) * | 1989-01-18 | 1994-04-12 | Lotus Development Corporation | Search and retrieval system |
US5167011A (en) * | 1989-02-15 | 1992-11-24 | W. H. Morris | Method for coodinating information storage and retrieval |
US5829002A (en) * | 1989-02-15 | 1998-10-27 | Priest; W. Curtiss | System for coordinating information transfer and retrieval |
US5109519A (en) * | 1989-03-28 | 1992-04-28 | Wang Laboratories, Inc. | Local computer participating in mail delivery system abstracts from directory of all eligible mail recipients only served by local computer |
JPH0675265B2 (ja) * | 1989-09-20 | 1994-09-21 | インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン | 情報検索方法及びシステム |
US5276616A (en) * | 1989-10-16 | 1994-01-04 | Sharp Kabushiki Kaisha | Apparatus for automatically generating index |
JPH03294963A (ja) * | 1990-04-12 | 1991-12-26 | Ricoh Co Ltd | 文書検索装置 |
JPH0418673A (ja) * | 1990-05-11 | 1992-01-22 | Hitachi Ltd | テキスト情報抽出方法および装置 |
US5109439A (en) * | 1990-06-12 | 1992-04-28 | Horst Froessl | Mass document storage and retrieval system |
US5444840A (en) * | 1990-06-12 | 1995-08-22 | Froessl; Horst | Multiple image font processing |
US5404295A (en) * | 1990-08-16 | 1995-04-04 | Katz; Boris | Method and apparatus for utilizing annotations to facilitate computer retrieval of database material |
US5309359A (en) * | 1990-08-16 | 1994-05-03 | Boris Katz | Method and apparatus for generating and utlizing annotations to facilitate computer text retrieval |
JP2895184B2 (ja) * | 1990-08-22 | 1999-05-24 | 株式会社日立製作所 | 文書処理システム及び文書処理方法 |
US5321833A (en) * | 1990-08-29 | 1994-06-14 | Gte Laboratories Incorporated | Adaptive ranking system for information retrieval |
US5559714A (en) * | 1990-10-22 | 1996-09-24 | Hallmark Cards, Incorporated | Method and apparatus for display sequencing personalized social occasion products |
US5546316A (en) * | 1990-10-22 | 1996-08-13 | Hallmark Cards, Incorporated | Computer controlled system for vending personalized products |
US5708829A (en) * | 1991-02-01 | 1998-01-13 | Wang Laboratories, Inc. | Text indexing system |
US5557794A (en) * | 1991-09-02 | 1996-09-17 | Fuji Xerox Co., Ltd. | Data management system for a personal data base |
US5265065A (en) * | 1991-10-08 | 1993-11-23 | West Publishing Company | Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query |
US5375235A (en) * | 1991-11-05 | 1994-12-20 | Northern Telecom Limited | Method of indexing keywords for searching in a database recorded on an information recording medium |
US8352400B2 (en) | 1991-12-23 | 2013-01-08 | Hoffberg Steven M | Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore |
US5438657A (en) * | 1992-04-24 | 1995-08-01 | Casio Computer Co., Ltd. | Document processing apparatus for extracting a format from one document and using the extracted format to automatically edit another document |
JPH0660064A (ja) * | 1992-08-05 | 1994-03-04 | Brother Ind Ltd | 英文レター用自動編集装置 |
JP3270783B2 (ja) * | 1992-09-29 | 2002-04-02 | ゼロックス・コーポレーション | 複数の文書検索方法 |
JPH06176065A (ja) * | 1992-12-02 | 1994-06-24 | Dainippon Printing Co Ltd | 学術論文データ検索装置 |
JPH06176069A (ja) * | 1992-12-02 | 1994-06-24 | Dainippon Printing Co Ltd | 文字列検索結果表示装置 |
JP3132738B2 (ja) * | 1992-12-10 | 2001-02-05 | ゼロックス コーポレーション | テキスト検索方法 |
US5860075A (en) * | 1993-06-30 | 1999-01-12 | Matsushita Electric Industrial Co., Ltd. | Document data filing apparatus for generating visual attribute values of document data to be filed |
US6044365A (en) * | 1993-09-01 | 2000-03-28 | Onkor, Ltd. | System for indexing and retrieving graphic and sound data |
US5873056A (en) * | 1993-10-12 | 1999-02-16 | The Syracuse University | Natural language processing system for semantic vector representation which accounts for lexical ambiguity |
US5692176A (en) * | 1993-11-22 | 1997-11-25 | Reed Elsevier Inc. | Associative text search and retrieval system |
US5517407A (en) * | 1994-06-30 | 1996-05-14 | In-Dex | Device for including enhancing information with printed information and method for electronic searching thereof |
US5726898A (en) * | 1994-09-01 | 1998-03-10 | American Greetings Corporation | Method and apparatus for storing and selectively retrieving and delivering product data based on embedded expert judgements |
JP2729356B2 (ja) * | 1994-09-01 | 1998-03-18 | 日本アイ・ビー・エム株式会社 | 情報検索システム及び方法 |
US5550746A (en) * | 1994-12-05 | 1996-08-27 | American Greetings Corporation | Method and apparatus for storing and selectively retrieving product data by correlating customer selection criteria with optimum product designs based on embedded expert judgments |
US5768142A (en) * | 1995-05-31 | 1998-06-16 | American Greetings Corporation | Method and apparatus for storing and selectively retrieving product data based on embedded expert suitability ratings |
US5875110A (en) * | 1995-06-07 | 1999-02-23 | American Greetings Corporation | Method and system for vending products |
US6336094B1 (en) * | 1995-06-30 | 2002-01-01 | Price Waterhouse World Firm Services Bv. Inc. | Method for electronically recognizing and parsing information contained in a financial statement |
JP3656315B2 (ja) * | 1996-04-03 | 2005-06-08 | 松下電器産業株式会社 | 英文要約装置 |
US5832499A (en) * | 1996-07-10 | 1998-11-03 | Survivors Of The Shoah Visual History Foundation | Digital library system |
US6182029B1 (en) * | 1996-10-28 | 2001-01-30 | The Trustees Of Columbia University In The City Of New York | System and method for language extraction and encoding utilizing the parsing of text data in accordance with domain parameters |
DE19645128C2 (de) | 1996-11-04 | 1999-02-11 | Anja David | Verfahren zum Verwalten von Dokumenten sowie Gerätetreiber zur Durchführung des Verfahrens |
US6199073B1 (en) * | 1997-04-21 | 2001-03-06 | Ricoh Company, Ltd. | Automatic archiving of documents during their transfer between a peripheral device and a processing device |
JP3270351B2 (ja) | 1997-01-31 | 2002-04-02 | 株式会社東芝 | 電子化文書処理装置 |
JP3143079B2 (ja) * | 1997-05-30 | 2001-03-07 | 松下電器産業株式会社 | 辞書索引作成装置と文書検索装置 |
GB9806085D0 (en) * | 1998-03-23 | 1998-05-20 | Xerox Corp | Text summarisation using light syntactic parsing |
US6240407B1 (en) | 1998-04-29 | 2001-05-29 | International Business Machines Corp. | Method and apparatus for creating an index in a database system |
US6353831B1 (en) | 1998-11-02 | 2002-03-05 | Survivors Of The Shoah Visual History Foundation | Digital library system |
US7904187B2 (en) | 1999-02-01 | 2011-03-08 | Hoffberg Steven M | Internet appliance system and method |
US6584464B1 (en) | 1999-03-19 | 2003-06-24 | Ask Jeeves, Inc. | Grammar template query system |
US6587848B1 (en) * | 2000-03-08 | 2003-07-01 | International Business Machines Corporation | Methods and apparatus for performing an affinity based similarity search |
US6640222B1 (en) * | 2000-09-29 | 2003-10-28 | Motorola, Inc. | Method for selecting an information unit among conflicting information units based on context fields by a user device |
US20020091671A1 (en) * | 2000-11-23 | 2002-07-11 | Andreas Prokoph | Method and system for data retrieval in large collections of data |
JP2002283301A (ja) * | 2001-03-26 | 2002-10-03 | Makita Corp | 際切りマルノコ |
US7117200B2 (en) * | 2002-01-11 | 2006-10-03 | International Business Machines Corporation | Synthesizing information-bearing content from multiple channels |
US7734627B1 (en) | 2003-06-17 | 2010-06-08 | Google Inc. | Document similarity detection |
US7165067B1 (en) * | 2003-07-10 | 2007-01-16 | Sun Microsystems, Inc. | Method, system, and program for character set matching |
US7707039B2 (en) | 2004-02-15 | 2010-04-27 | Exbiblio B.V. | Automatic modification of web pages |
US8442331B2 (en) | 2004-02-15 | 2013-05-14 | Google Inc. | Capturing text from rendered documents using supplemental information |
US10635723B2 (en) | 2004-02-15 | 2020-04-28 | Google Llc | Search engines and systems with handheld document data capture devices |
US20060041484A1 (en) | 2004-04-01 | 2006-02-23 | King Martin T | Methods and systems for initiating application processes by data capture from rendered documents |
US8799303B2 (en) | 2004-02-15 | 2014-08-05 | Google Inc. | Establishing an interactive environment for rendered documents |
US7812860B2 (en) | 2004-04-01 | 2010-10-12 | Exbiblio B.V. | Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device |
US8793162B2 (en) | 2004-04-01 | 2014-07-29 | Google Inc. | Adding information or functionality to a rendered document via association with an electronic counterpart |
US9116890B2 (en) | 2004-04-01 | 2015-08-25 | Google Inc. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
US20060081714A1 (en) | 2004-08-23 | 2006-04-20 | King Martin T | Portable scanning device |
US20070300142A1 (en) | 2005-04-01 | 2007-12-27 | King Martin T | Contextual dynamic advertising based upon captured rendered text |
US9008447B2 (en) | 2004-04-01 | 2015-04-14 | Google Inc. | Method and system for character recognition |
WO2008028674A2 (en) | 2006-09-08 | 2008-03-13 | Exbiblio B.V. | Optical scanners, such as hand-held optical scanners |
US8146156B2 (en) | 2004-04-01 | 2012-03-27 | Google Inc. | Archive of text captures from rendered documents |
US20080313172A1 (en) | 2004-12-03 | 2008-12-18 | King Martin T | Determining actions involving captured information and electronic content associated with rendered documents |
US8621349B2 (en) | 2004-04-01 | 2013-12-31 | Google Inc. | Publishing techniques for adding value to a rendered document |
US7990556B2 (en) | 2004-12-03 | 2011-08-02 | Google Inc. | Association of a portable scanner with input/output and storage devices |
US9143638B2 (en) | 2004-04-01 | 2015-09-22 | Google Inc. | Data capture from rendered documents using handheld device |
US20060098900A1 (en) * | 2004-09-27 | 2006-05-11 | King Martin T | Secure data gathering from rendered documents |
US7894670B2 (en) | 2004-04-01 | 2011-02-22 | Exbiblio B.V. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
US8713418B2 (en) | 2004-04-12 | 2014-04-29 | Google Inc. | Adding value to a rendered document |
US8489624B2 (en) | 2004-05-17 | 2013-07-16 | Google, Inc. | Processing techniques for text capture from a rendered document |
US9460346B2 (en) | 2004-04-19 | 2016-10-04 | Google Inc. | Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device |
US8620083B2 (en) | 2004-12-03 | 2013-12-31 | Google Inc. | Method and system for character recognition |
US8346620B2 (en) | 2004-07-19 | 2013-01-01 | Google Inc. | Automatic modification of web pages |
US7389299B2 (en) * | 2004-09-02 | 2008-06-17 | International Business Machines Corporation | Document content analysis technology for reducing cognitive load |
US20110029504A1 (en) * | 2004-12-03 | 2011-02-03 | King Martin T | Searching and accessing documents on private networks for use with captures from rendered documents |
US20060200464A1 (en) * | 2005-03-03 | 2006-09-07 | Microsoft Corporation | Method and system for generating a document summary |
US20070067291A1 (en) * | 2005-09-19 | 2007-03-22 | Kolo Brian A | System and method for negative entity extraction technique |
US20110096174A1 (en) * | 2006-02-28 | 2011-04-28 | King Martin T | Accessing resources based on capturing information from a rendered document |
KR101254362B1 (ko) | 2007-05-18 | 2013-04-12 | 엔에이치엔(주) | 공통 접사를 이용한 키워드 순위를 제공하는 방법 및시스템 |
WO2008143407A1 (en) * | 2007-05-18 | 2008-11-27 | Nhn Corporation | Method and system for providing keyword ranking using common affix |
US20090228817A1 (en) * | 2008-03-10 | 2009-09-10 | Randy Adams | Systems and methods for displaying a search result |
US20090228811A1 (en) * | 2008-03-10 | 2009-09-10 | Randy Adams | Systems and methods for processing a plurality of documents |
US20090228442A1 (en) * | 2008-03-10 | 2009-09-10 | Searchme, Inc. | Systems and methods for building a document index |
US8745502B2 (en) * | 2008-05-28 | 2014-06-03 | Snibbe Interactive, Inc. | System and method for interfacing interactive systems with social networks and media playback devices |
DE202010018601U1 (de) * | 2009-02-18 | 2018-04-30 | Google LLC (n.d.Ges.d. Staates Delaware) | Automatisches Erfassen von Informationen, wie etwa Erfassen von Informationen unter Verwendung einer dokumentenerkennenden Vorrichtung |
US8902451B2 (en) * | 2009-02-25 | 2014-12-02 | Xerox Corporation | Method and system for automatically generating a copy of a print stream |
US8447066B2 (en) * | 2009-03-12 | 2013-05-21 | Google Inc. | Performing actions based on capturing information from rendered documents, such as documents under copyright |
DE202010018551U1 (de) | 2009-03-12 | 2017-08-24 | Google, Inc. | Automatische Bereitstellung von Inhalten, die mit erfassten Informationen, wie etwa in Echtzeit erfassten Informationen, verknüpft sind |
US9043336B2 (en) * | 2009-08-07 | 2015-05-26 | Applied Materials, Inc. | Methods and systems for global knowledge sharing to provide corrective maintenance |
US9081799B2 (en) | 2009-12-04 | 2015-07-14 | Google Inc. | Using gestalt information to identify locations in printed information |
US9323784B2 (en) | 2009-12-09 | 2016-04-26 | Google Inc. | Image search using text-based elements within the contents of images |
US9916396B2 (en) * | 2012-05-11 | 2018-03-13 | Google Llc | Methods and systems for content-based search |
US20140215472A1 (en) * | 2013-01-29 | 2014-07-31 | Hewlett-Packard Development Company, L.P. | Task management |
US11610107B2 (en) | 2018-07-06 | 2023-03-21 | Global Elmeast Inc. | Methodology to automatically incorporate feedback to enable self learning in neural learning artifactories |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3702010A (en) * | 1970-10-12 | 1972-10-31 | Bell Telephone Labor Inc | Information retrieval strategy |
US3947825A (en) * | 1973-04-13 | 1976-03-30 | International Business Machines Corporation | Abstracting system for index search machine |
US3995254A (en) * | 1975-07-16 | 1976-11-30 | International Business Machines Corporation | Digital reference matrix for word verification |
US4099242A (en) * | 1976-11-03 | 1978-07-04 | Houston George B | One-pass general associative search processor |
-
1979
- 1979-12-28 US US06/107,994 patent/US4358824A/en not_active Expired - Lifetime
-
1980
- 1980-10-27 CA CA000363345A patent/CA1241122A/en not_active Expired
- 1980-12-04 EP EP80107625A patent/EP0032194A1/en not_active Ceased
- 1980-12-15 JP JP55175926A patent/JPS5828616B2/ja not_active Expired
- 1980-12-26 ES ES498162A patent/ES8206059A1/es not_active Expired
-
1981
- 1981-01-30 JP JP56011752A patent/JPS5844536A/ja active Granted
Also Published As
Publication number | Publication date |
---|---|
EP0032194A1 (en) | 1981-07-22 |
US4358824A (en) | 1982-11-09 |
JPS5828616B2 (ja) | 1983-06-17 |
CA1241122A (en) | 1988-08-23 |
ES498162A0 (es) | 1982-08-01 |
JPS5844536A (ja) | 1983-03-15 |
ES8206059A1 (es) | 1982-08-01 |
JPS5850071A (ja) | 1983-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPS6330648B2 (ja) | ||
US6314419B1 (en) | Methods and apparatus for generating query feedback based on co-occurrence patterns | |
US6523030B1 (en) | Sort system for merging database entries | |
US4775956A (en) | Method and system for information storing and retrieval using word stems and derivative pattern codes representing familes of affixes | |
US7707204B2 (en) | Factoid-based searching | |
US6999914B1 (en) | Device and method of determining emotive index corresponding to a message | |
US5893092A (en) | Relevancy ranking using statistical ranking, semantics, relevancy feedback and small pieces of text | |
US6286000B1 (en) | Light weight document matcher | |
Sievert et al. | Indexing consistency in information science abstracts | |
EP0751469B1 (en) | Automatic method of extracting summarization using feature probabilities | |
US5541838A (en) | Translation machine having capability of registering idioms | |
US5940624A (en) | Text management system | |
EP0155284B1 (en) | Indexing subject-locating method | |
JP3198932B2 (ja) | 文書検索装置 | |
JP3428068B2 (ja) | 文書処理装置および方法,ならびにデータ・ベース検索装置および方法 | |
JPH05120345A (ja) | キーワード抽出装置 | |
Rogers et al. | Searching for historical word forms in text databases using spelling‐correction methods: Reverse error and phonetic coding methods | |
Salton | Information dissemination and automatic information systems | |
JP2894301B2 (ja) | 文脈情報を用いた文書検索方法および装置 | |
JP3275813B2 (ja) | 文書検索装置、方法及び記録媒体 | |
JPH09297766A (ja) | 類似文書検索装置 | |
JP4024906B2 (ja) | タグ付文書検索システム | |
JPH10177575A (ja) | 語句抽出装置および方法、情報記憶媒体 | |
Neufeld et al. | Machine-aided title word indexing for a weekly current awareness publication | |
JPH0991297A (ja) | 文字列検索方法及び装置 |