JPS61502495A - 暗号解析装置 - Google Patents

暗号解析装置

Info

Publication number
JPS61502495A
JPS61502495A JP60502818A JP50281885A JPS61502495A JP S61502495 A JPS61502495 A JP S61502495A JP 60502818 A JP60502818 A JP 60502818A JP 50281885 A JP50281885 A JP 50281885A JP S61502495 A JPS61502495 A JP S61502495A
Authority
JP
Japan
Prior art keywords
glyph
glyphs
block
decoding
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60502818A
Other languages
English (en)
Inventor
ブラム、エリツク
ピアス、ウイルバー
Original Assignee
シヤンポリン インコ−ポレイテツド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シヤンポリン インコ−ポレイテツド filed Critical シヤンポリン インコ−ポレイテツド
Publication of JPS61502495A publication Critical patent/JPS61502495A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K7/00Methods or arrangements for sensing record carriers, e.g. for reading patterns
    • G06K7/10Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation
    • G06K7/14Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation using light without selection of wavelength, e.g. sensing reflected white light
    • G06K7/1404Methods for optical code recognition
    • G06K7/1408Methods for optical code recognition the method being specifically adapted for the type of code
    • G06K7/143Glyph-codes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K19/00Record carriers for use with machines and with at least a part designed to carry digital markings
    • G06K19/06Record carriers for use with machines and with at least a part designed to carry digital markings characterised by the kind of the digital marking, e.g. shape, nature, code
    • G06K19/06009Record carriers for use with machines and with at least a part designed to carry digital markings characterised by the kind of the digital marking, e.g. shape, nature, code with optically detectable marking
    • G06K19/06037Record carriers for use with machines and with at least a part designed to carry digital markings characterised by the kind of the digital marking, e.g. shape, nature, code with optically detectable marking multi-dimensional coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Electromagnetism (AREA)
  • General Health & Medical Sciences (AREA)
  • Toxicology (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】 暗号解析装置 発明の分野 本発明は文字認識装置、一層詳しくは、計算機化した文字あるいはテキストの認 識装置に関する。
11亘互1 従来、種々の形式の文字、像、パターン認識装置か知られており、これらの装置 は印刷された(たとえば、タイプされた)資料を読み取り、機械可読コード、す なわち、電子計3I機が「理解する」あるいは「読み取る」ことのできるコート に変換するように設計しである。これらの装置は最近の計算機ベース装置と一緒 に使用する入力装置として普及しつつあり、重要になってきている。テキストの ページを計算機データベースに迅速かつ効率良く入力することかでき、しかも、 全文書を計算機可読穿孔カートにキーバンチオペレータがリタイブしたり、ある いは、入力端子を使用して計算機に直接情報をタイプするという時間かかかりか つ費用もかかる過程を経ないからである。
はぼ満足てきるものであるが、このような装置に固有の大きな制限か次の事実か ら生じる。すなわち、これらの装置ては、一般に文字マスキング(たとえば、形 状解析)技術を利用してタイプしたあるいは印刷した文字を機械可読コードに変 換しているという事実である。したがって、従来の装置は多種スタイルの字体、 ミスプリントあるいは不整合文字、つながった文字(たとえば、合字)や比例間 隔てタイプした文書(た、とえば、代表的にはワード処理装置でタイプされた文 書)を読み取るにはあまり適していない。さらに、ただ1種類あるいはほんの数 種類の字体を読み取るように設計した従来装置では、その装置にとってなじみの ない他の字体を読み取ることはできない、そのようなわけで、従来のこの種の装 置が応用範囲が非常に狭いのに、一般には非常に多くの種類の字体が使用されて いるという問題かある。
また、従来の文字認識装置は一般に読み取られつつある特定の文字(英字あるい は数字)を識別するのに文脈情報、たとえば、暗号技術を利用していないが、い くつかの従来の「スペリング・チェッカ」や文字認識装置は限られた程度に文脈 情報を使用して、見掛は上ミススペルあるいはミスプリントの成るワードが現れ た文脈から得た成る種の情報に照らしてそのワードを変更ずべかどうかを検査し ているということに言及ずべきてあろう。
その点について、米国特許第4,058,795号(Ba1m)に文脈援助式認 識装置か開示されている。このBa1rnの装置はへ−シにある文字を解析する ことによって得た成る種の文脈情報を利用して未知の単数または複数の文字を識 別するようになっているか、このBa1m装置がうまく作動するには、そのペー ジの大部分の文字、特に未知の文字に隣接した文字が既知であること、すなわち 、普通の形状解析技術を使用して正しく確定されていることが必須である。
特に、Ba1m特許の装置は最初の実施例では普通の文字認識装置を使用してペ ージにある大部分の文字の識別を確定し′、大部分の文字を認識した後にのみ文 脈技術が使用されて識別プロセスを完了する。したかつて、Ba1m装置で利用 されているような文脈解析は非常に特殊な限られた形式の「Nグラム」解析であ る。公知のように、Nグラム解析というのは、大多数の文字か既に正しく識別さ れている場合にのみ使用するのに適した形式の解析である。したかつて、Ba1 m装置においては、その解析は隣接の文字から得た文脈情報を使用してただ1つ の未知のあるいは不正確な文字に識別を演鐸するという意味て演鐸的プロセスで ある。さらに、このようなアクションは、ページのどこに現われようとも成る特 定の形状のグリフ(言語記号)をすべて断手の文字(英字あるいは数字)のそれ であると認識し得るようにする一般化定義を生じさせることなく行なわれるので ある。それに反1ノで、ここに開示し、特許請求の範囲に記伎し・た装置は任意 の特定の未知のワードあるいは英字を解読するプロセスのためには文脈解析技術 をあまり使用せず、むしろ、ページのどこに現れようともすべての類似し、た形 状のグリフを成る特定の文字のそれとして識別することのできる「構築物」を作 りとげるのに使用するのである。したかって、ここて使用し開示するような暗号 技術は未知のグリフを識別するために使用される一般化された解答を提供する。
他の従来装置としては米国特許第4,010,445号(Hoshino)や同 第3,995,254号(Rosenbaum)に開示されているものかある。
これらの装置は一般にスペリング・チェッカあるいはワード検査装置と呼ばれ得 るものであり、ミススペルのあるいは不正確に認識された英字を正すのに使用さ れる。これらのおよび他の従来装置は成るワードか辞書にあるワードのミススペ ル体であるかどうかを確定すべく入力ワードを辞書リストと比較するのに辞書「 索引」プロセスを用いているが、−膜化した文脈情報を利用しておらず、ざらに 、最初の実施例ではこのような情報を主要解析のために使用していない。したか って、これら従来装置は、テキストの大部分(すなわち、偶然の不正文字以外の テキスト全体)が普通の文字認識技術、たとえば、形状解析を用いて復号されて しまっている場合に限られた程度まで成る種の文脈情報を使用するにすぎないの である。
要約すれば、従来の装置は、その意図した目的、たとえば、スペリング・チェッ カ等についてはほぼ適しているか、種々の文書形式、たとえば、書籍、事務的な 手紙、会計報告書等にある種々の字体に現れる文字あるいはグリフを認識するこ とのてきるテキスト認識装置としてはまったく不適当である。
発明の目的 したかって、本発明の一般的な目的は従来技術の不備を克服するテキスト認識装 置を提供することにある。
本発明の別の目的は文書あるいは音声の通常の言語テキストに見出され、情報流 れによって搬送されるグリフまたは文字を機械可読形態に変換するのに言語書式 文字パターン暗号解析技術を利用する装置および方法を提供することにある。
本発明の別の目的はテキスl〜情報のベージを復号し、機械可読形態に変換する のにグリフ文字および数字のうちの文脈上のパターン、相互関係を利用するテキ スト認識装置を提供することにある。
本発明のさらに別の目的は言語の記号を識別して機械コード相当体に変換するの に暗号解析技術を使用することのできるテキスト認識装置を提供することにある 。
本発明のまたさらに別の目的は資料か現れた特定のタイプ字体およびそのサイズ に関係なくテキスト資料を認識し、機械コード相当体に変換することのできるテ キスト認識装置を提供することにある。
本発明のまたさらに別の目的はテキストの成るベージから個々にグリフ要素のセ グメンテーションあるい:主絶縁を行なってこれらグリフ要素のさらなる解析、 識別を行なうことかできるようにしたテキスト認識装置を提供することにある。
本発明のまたさらに別の目的は通常の言語テキストを識別し、機械コード相当体 に変換するのに暗号解析技術を利用するテキスト認識装置を提供することにある 。
本発明のまたさらに別の目的は普通のマイクロプロセッサベース計算装置および 普通の入力装M(たとえば、ファクシミリ機械)と組合わせて容易に使用するこ とかでき、はとんど人間との対話を必要とすることなく成るデキストベージを迅 速かつ効率良く機械コード相ち体に変換できる文字認識装置を提供することに添 付図面に関連した以下の詳細な説明から発明をより良く理解するにつれて容易に 明らかとなろう。
発明の概要 本発明は記号言語における通信、すなわち、所定の順序て配置されて複数のグリ フで形直された通信の内容を認識する装置を提供する。各グリフは離散的要素で あり、一般的に言語の最小(最下位)有意味情報単位を含む。この装置は複数の グリフを検知し、それを表示するデータの流れを記憶手段に入力する感覚入力手 段を包含する。この装置は、また、記号π語データを複数のグリフに分離する分 離手段も包含する。コンバイリング手段が設けてあって一意の識別子を各組のほ ぼ同一のグリフに割り当てる。パタニングループ分は手段が設けてあって識別子 を前記通信内の前記グリフの配置に相当する配置で配置する。この装置は解読手 段も包含し、識別子、そのシーケンスおよびその相互関係に一般的な暗号技術を 適用して各識別子に相当する等価言語記号を確定する。各識別子についての相当 言語記号を確定することによって、記号言語が容易に機械コードで表示され得、 電子計算機が完全に利用することができるようになる。
図面の説明 第1図は本発明の暗号解析装置を包含する種々の構成要素とそれらの間の機能関 係を示すブロックダイアグラム・フローチャートである。
第2図は第1図に示す感覚入力処理手段によって行なわれる機能を実行する手段 を示すフローチャートである。
第3図はさらなる処理を行なうべく入力ベージの離散的グリフ要素へのビットマ ツプ表示を中断する手段を示すフローチャートである。
第4図はグリフ要素の単純な水平セグメンテーションを行なう手段を示すフロー チャートである。
第5図はテキストの選定行の接近行高解析を行なう手段を示すフローチャートで ある。
第6図はグリフ要素の垂直セグメンテーションを実行する手段を示すフローチャ ートである。
第7図は選定されたグリフについて相対ベージ位置を処理し、マーキングするの に使用する手段を示すフローチャートである。
第8図はグリフ要素タイプのリストおよびそれぞれの周波数をコンパイルするの に使用される手段を示すフローチャートである。
第9図は代表的なプリンのビットマツプ表示の説明図である。
第10A図および第10B図は第1図に示す解読手段によって行なわれる解読プ ロセスを実行するのに使用される手段を示すフローチャートを一緒に示す図であ る。
第10C図は種々の選定した形式の文書を復号するのに使用される特別の解読ル ーチンを示すフローチャートである。
第11図は英字周波数・二重音字解析を含む類ワード解析を行なうときに使用さ れる手段を示すフローチャートである。
第12図はワードrtheJを識別するために使用される手段を示すフローチャ ートである。
第13図は既知キーワードパターン突合せを実行するために使用される手段を示 すフローチャートである。
第14図は地理・一対キーワード索引解析を行なうために使用される手段を示す フローチャートである。
第15図は完全辞書パターンマツチングを行なうのに使用される手段を示すフロ ーチャートである。
第16図は暗号演算解析を行なうのに使用される手段を示すフローチャートであ る。
第17図は代数式に対する妥当な解答を確定するのに使用される手段を示すフロ ーチャートである。
第18図は3以上の加数を有する式から情報を抜き出すのに使用される手段を示 すフローチャートである。
第19A図および第19B図は句読点を識別し、それを復号するのに使用される 手段を示すフローチャートを一緒に示す図である。
好ましい実施例の詳細な説明 以下、図面の種々の図(類似した参照符号は類似した部分を示している)を一層 詳しく参照すると、第1図に本発明の技術に従って構成した暗号通信解析装置か 20で示しである。装220は記号言語での通信の内容を認識するように設計し である。この通信は所定の順序で配置した複数のグリフを含み、これらのグリフ は言語のうち最小(最下位)情報単位である。以下に詳しく説明する実施例では 、通信は文書、すなわち、記号言語の視覚的に知覚できるグリフを搬送する任意 の媒体を包含する。後にわかるように、装置2゜は、特に、タイプしたまたは印 刷したテキストを「読み取る」、たとえば、それを機械可読形態に変換するよう に構成、配置しである。機械可読形態というのは、電子計算機が「読み取る」あ るいは「理解する」ことのできる文字、数字、句読点その他の言語記号を意味し ている。これに関して、装置2oによって作られた機械可読テキストは普通の手 段、たとえば、キーボードあるいはカード読み取り装置を使用して電子計3I機 に直接入力される情報とそっくり同じ要領で電子計算機によって容易に操作、利 用され得る。
装置20は、成る特定のタイプ字体を有する標準のタイプライタで作ったテキス ト情報を認識あるいは処理するのに加えて、タイプライタ、ワード処理装置ある いはハードコピー製作装置(たとえば、印刷機械)て作られたかどうかにかかわ らず無制限の種類のタイプ字体およびそのサイズを認識することもできる。
さらに次のことも指摘すべきてあろう。すなわち、ここに開示したような本発明 の好ましい実施例は文書内の印刷1ノだ、またはタイプしたテキスト資料を読み 取って機械可読形態に変換する装置に関するものであるか、この装置を音声言語 を認識して機械可読形態に変換するように使用することも容易である。このよう な音声認識装置か言語、書式その他の文脈情報、技術を普通の認識スキームと組 合わせて利用し、音声パターンを機械コード相当体に変換すると言えば充分てあ ろう。
各図に示したような種々のフローチャー1−を次に参照して、これらのフローチ ャートに示されている機能ブロックあるいは決定ブロックの各々によって果たさ れる機能がハードウェア、たとえば、論理回路によっても、あるいは、汎用計算 機または他のぶろグラムにようあるいはプログラマブルの手段で実行される適当 なソフトウェアによって行なわれ得るということを了解されたい。本発明のこの 択一的な実行により、そして説明の簡略化のために、各機能ユニットは以後「ブ ロック」と呼び、各機能ユニットによって果たされる機能は果たされる機能を描 写した説明文を持ったブロックによってグラフ的に表しである。
さて第1図を参照して、未発用の暗号認識装置2゜は、基本的には、感覚処理手 段241分離手段26、文書形式解析手段28および解読手段3oを包含する。
感覚処理手段24は普通の装置てあり、後に説明する。今は、この手段24か処 理しようとしている文書のベージ32、たとえば、タイプしたテキストベージを 取り上、げ、そのベージのディジタル化したビットマツプ表示を行なうように配 置しであると言えば充分であろう。このテキストベージのディジタル化ビットマ ツプ表示は、単に、ベージ上の暗い、すなわち印刷部分を含む物理的な場所と明 るい、すなわち印刷部分を含む物理的場所の2値行列表示にずぎない。ページ3 2上にある印刷部のビットマツプ表示は次に感覚処理手段24から分離手段26 に転送される。分離手段26(後にもっと詳しく説明する)は文書のページのビ ットマツプ表示を複数の離散的「グリフ」とグリフグループ(グリフワード)3 6に分割すなわち分離している。
ここで使用している「グリフ」なる用語は本発明の手段および技術を用いて認識 、復号することのできる任意の言語記号を意味しており、「グリフワード」なる 用語は言語ワードに相当するグリフ文字のグループを意味している。それに関連 して、第9図には、小文字のraJに相当する代表的なりリフのビットマツプ表 示が33で示しである。
後に一層詳しく説明するように、分離手段26は、また、テキストのそれぞれの 行の高さ、個々のグリフ要素の幅およびグリフ要素グループ間の間隔、すなわち 、グリフワード間の間隔を測定し、解析する。テキストかひとたひ離散的グリフ 要素およびグリフワードに分離されたならば2文書形式解析手段28はそのペー ジにあるグリフ、グリフワードの場所およびグルービングに関する情報36を利 用し、そのページを成る特定の形式の文書、たとえば、貸借対照表、業務用手紙 等のページとして分類する。この目的を果たすべく、文書形式解析手段28は文 書形式ネームプレート38と、分離手段26からの出力情報を備えている。後に 説明するように、文書形式情報はこのプロセスを容易にするのに役立ち、それに よって、解読手段30は個ノこのグリフを識別し、それらを機械可読コードに変 換する。
解読手段30は、次に、種々の文脈(たとえば1文法、構文、慣用句等の)パタ ーンまたはスタイル(たとえば、バラグラフ表の量、バラグラフ間隔等の)パタ ーンと個々のグリフ、グリフグループの相互関係によってグリフ、グリフグルー プを解析し、各特定のグリフに相当する特定の英字、数字その他の言語記号を確 定する。これに関連して5それぞれのプリンに相当する特定の言語記号かひとた び確定されたならば、簡単な置換プロセスを利用することによってテキス1〜を 容易に機械認識可能コードで表示することかできる。
今は、解読手段か種々の暗号解析、計算、言語技術[これらの技術のうちあるも は一般にワードパズル(暗号記号)、数字パズル(暗号算術)等の解決と組み合 わされる]を使用して各特定のグリフに相当する英字その他の言語記号を確定す ると言えば充分であろう。これらの技術は特定のグリフの幾何学すなわち形状に 依存しないので、本装置はテキスト情報のページを、そのタイプ字体またはサイ ズ(水平、垂直の両方向)と無関係に復号することができる。
装置20の暗号解析、計算、言語技術はすべてにおいて共通の文脈パターン構造 に基づく情報流れを担持するテキストを解析、認識し、各特定の通常の書面ある いは音声言語に復号するように作用する。任意通常言語の冗長は妥当なワードま たは句を構成するのに使用されているアルファベットの置換および組合わせの数 を制限し、また、任意の書面または音声のメツセージまたは通信の大部分を構成 するのに使用されているワードの数を制限する。たとえば、reJを表示するグ リフまたは英字は任意の英語単語において13%の割り合いで用いられる。同様 に、フランス語またはドイツ語においては、グリフまたは文字reJは18%頻 度確率で用いられ、スペイン語やイタリア語でも、13%頻度確率で用いられる 。このような頻度確率は他の言語のグリフについても、また、あらゆる言語の複 数文字グリフについても存在する。
テキスト情報流れは装置20によって暗号解析され、グリフ文字またはグリフ文 字ストリングがこのような文脈属性についての出現頻度または確率を示す表に基 づくモジュールを用いて認識され、機械コードに変換される。グリフ文字、複数 文字グループグリフまたは音字、ワード、句その他の文字ストリングテキスト要 素の使用頻度、位置、シーケンス確率に関し、構文法、文法、スペリングおよび 句読点のような言語の規則から導き出された分類、統計表が任意通常の3語情報 流れに含まれるテキストの解析、認識のために装置120によって適用される。
たとえば、英文テキストの100文字ブロック内のグリフ文字またはアルファベ ット文字の出現頻度は文字reJが平均約13回出現することを示す。たとえば 、ここで表1.1に示すように、このような統計から導き出された表は、任意の テキストブロック内のすべての文字のうちの約13%がreJであり、約9%が rtJであり、8%がraJまたはroJであり、7%がrnJ、riJまたは rrJであり、6%がrhJであり、4%がrlJまたはrdJであり、3%か rcJ、ruJ、rpJまたはrfJてあり、2%がr m J、r w Jま たはryJであり、1%がrbJ、rgJまたはrvJであり、もっと小さいパ ーセンテージでrkJ、rqJ、rxJ、「j」およびrzJが出現することを 示している。
装置20の表は以下の文脈属性の出現または非出現頻度からも導き出される。す なわち、テキストワードの始め、終り、またはその中に見出される普通の連続し た二重音字、三重音字、I7g重音字等、グリフ文字、つながり文字グリフある いは音字グルーピングである。たとえば、英語の普通の単語の最初は、二重音字 グリフran−J、rat−J、rbe−J、rde−」、rdr−J、ren  J、rin−J、rn。
−」、rre−J、rse−J、rth−J、[11n−」および三重音字グリ フrpre−J、rDrnr −e d J、r−enJ、r−erJ、r−e sJ、r−isJ、r−11に三重音字r−antJ。
r−ateJ、r−bleJ、r−blyJ、r−dedJ、r−ereJ、r −eseJ、r−est」、r−essJ、r−ful」、r−ghtJ、r− ineJ、r−ingJ、r−ionJ、r−istJ、r−iveJ、r−i veJ、「−11y」、r−ousJ、r−rstJ、r−sesJ、r−st sにおよび四重音字r−a n c e J、[−mentJ、r−tionJ を含む。同様の母音−母音、母音−子音、子音−子音の連続した複数文字グリフ 関係も存在する。「a」、riJ、「u」またはryJはraaJ、「ii」等 のような二重層グリフをほとんど形成しないが、reJやroJはしばしば二重 層グリフ「ee」やrooJを形成する。
「1」、「「」、rsJ、rtJ、rcJ、rfJ、rgJ、rmJまたはrp Jはしばしば二重層グリフを形成するが、「j」は決して二重にならない。
「9」はほとんど常にruJと一緒に二重層を形成し、rzJはその前後に母音 を迎えて二重層を形成する。句読点については、「′」はしばしばrsJ、rt JまたはrdJと共に二重層を形成し、あるいは「11」と−緒に二重層を形成 する。財務諸表の数字および記号の場合には、rSJは非常にまれであるが「0 」 (ゼロ)と−緒になってグリフ「sO」を形成し、小数点「、」と「0」  (ゼロ)は二重層グリフr、OOJを形成することが多い。
装置20は、さらに、以下の他の文脈属性についての出現または非出現の頻度か ら導き出された表を含む、すなわち、ワードグリフにおける普通の文字出現ある いは非連続であるが反復する文字、グリフ、または音字、二重出現、三重出現、 四重出現等およびワード内の二重音字、三重音字等である。たとえば、中央文字 としてのrhJを持つ三重文字ワードグリフ(よ最も頻繁にはrtheJてあり 、rnJを持つものは最も頻繁にはrandJてあり、rrJの場合には最も頻 繁にrareJである。同様のグリフ結合確率は上述の文脈グリフシーケンスと 一緒に既知のグリフをつなげて接頭辞または接尾辞を構成し、また、ツーl−出 現確率を構成する。
多音節ワードグリフの場合、非連続であるか反復する文字またはグリフ出現率は さらにワード確率を構成するのに使用される。
装置の表は普通の単文字、2文字、3文字、4文字等のワードも使用するつたと えば、普通の単文字グリフワードとしては、raJおよび大文字rIJがあり、 普通の2文字グリフワードとしてはranJ、rasJ、ratJ、rbeJ、 「by」、「dO」、rgoJ、rinJ、risJ、ritJ、rnoJ、r meJ、rmyJ、rofJ、r。
n」、rorJ、「sO」、rtoJがあり、3文字グリフワードどしてはra ndJ、ranyJ、「areJ、rbutJ、rciictJ、rforJ、 rgetJ、rhasJ、rhisJ、rherJ、[manJ、r m a  y J、rnorJ、rnotJ、[QneJ、rourJ、routJ、rs ayJ、「5eeJ、rtheJ、rtryJ、r w a s J、「Way J、rwhyJ、ryouJがあり、4文字グリフワードとしてはreasyJ 、rfromJ、「fullJ、rintoJ、ronceJ、「0n1yJ、 roverJ、rhaveJ、rthatJ、rthisJ、ruponJ、r  w h a t J、r w ill」、ryourJかある。全体で10個 だけのワード(rtheJ、「Of」、randJ、[toJ、raJ、r i nJ、r’thatJ、ritJ、「is」、大文字「I」)が任意の英文テキ ストメツセージの25%を占め、ベーシックイングリフシュの諸量はほんの85 0ワードである。
普通の2ワード、3ワード等、句すなわちツー1’クループも本装置の表で使用 される。たとえば、「、」(コンマ)で終る任意ワードグリフに続く3文゛字ワ ードグリフはおそら(randJ、rbutJ、rf。
r」である。メツセージ内の3ワ一ド日付グリフはrJanuary 10,1 983J、rJan 10.1983J、rlo January 1 9 8 3」、rlOJan 1983Jのような月−日は年あるいは日−年一月の習慣 に従う。rDearJ”C始まる形式的なあいさつはrMr、J、rDr、J。
rProfessorJ等の肩書きとつながる。形式%式% 令達べたようなワードの頻度確率はフランス語、1’イツ語、日本語その他の外 国語でも同様である9同様に、いかなる言語でも、職業ベースの技術、医学、法 律、財務等の固苦しいスタイルおよびそれに関連しI;−諸量も一般用途言語に 対する特別のサブセットとしてそれ自体の頻度確率を持つ。
冠詞、名詞、固有名詞、前置詞、形容詞、動詞、副詞およびそれらに組み合った 句の位設を識別するためのテキスト内の普通の構文1句読点、大文字使用+:a 序関係もまた装置20によって使用される。
装置20によって使用されるもう1つの暗号解析計算技術は、たいていの書式テ キストメツセージあるいは通信に共通の地理書式に基づく情報流れを担持してい るテキストを解析、認識、復号する書式パターン技術を構成する。メツセージ形 式、メツセージ内のワード、数字、ワード・数字フィールドの位置1文、句ある いは表題内のワードの位置についての分類表は作文S簡、財務諸表、法律文書、 送り状、購入依頼書、クレジントカートその他の書式化したテキストて用いられ ている普通の書式から導き出される。このような表が未装置に組み込まれ、テキ ストメツセージ書式および書式フィールドの暗号解析計算による解析、認識のた めに使用される。たとえば、通信文における日付、住所、あいさつ文、結び文の フィールドの位置は成る種の習慣に従う。このようなフィールドはテキスト情報 流れ内の暗号演算位置によって認識され得る。同様に、!!t a諸表はアルフ ァベットフィールド、サブフィールドラベルのそれらに関連した数字フィールド の左に対する位置および数字フィールド内の成る限られた場所での数字小合計、 合計の位置についての同様の習慣に従う。同様の地理暗号演算書式パターンが他 の形式のメツセージにも存在する。
後にわかるように、メツセージ形式およびそれに関連した行または桁フィールド 、サブフィールドかひとたび地理暗号演算パターン解析技術によって認識された ならば、文脈、筆跡解析技術か次に用いられてフィールド内の個々の文字、文字 グリフまたは合掌、ワードまたは句を認識する。特殊なメツセージ書式関連の文 脈、筆跡テーブルアナライザ、デコーダモジュールかこのような場合に用いられ てメツセージ潟式内の特殊なフィールド、サブフィールドの最続テキスト認識、 変換を行なう。
たとえば、メツセージ書式か貸借対照表と認識されたとき、財務諸表に関連した ワード、専門用語1句のサブセット語堂か文脈解析表において利用される。
rAssetsJ、rLiabiltiesJまたはrLiabilities  and 5tockh。
1 d e r s ’ E q u i t y Jのフィール1−ラベルは その地理的位置によって直ちに認識される。r C11r rent As5e tsJ、rCurrent LiabilitiesJ、rLong−Term  DebitJ、rstockholder′EquityJ等のサブフィール トラベルも書式位置、文脈解析ルーチンを使用して認識される。貸借対照表内の 数字フィールドおよびサブフィールドも同様にして文脈技術によって解析され、 数字が認識される。
しかしながら、ここで、暗号技術に加えて、解読手段も少なくとも限られた程度 に形状解析技術を使用して、成る種の状況下で有用である成る種の追加情報を提 供し、解読プロセスを拡大するということは言っておくべきであろう。しかしな がら、ここでは、形状解析技術は種として句読点を識別するために使用されるの であって、ベージに不適当な数字源があって暗号演算技術を用いてこれらの数字 を効果的に復号する場合に数字を識別するのに使用する程度は少ない。文字の識 別に関しては、一般に形状解析技術は使用されないし、不要てもあるということ は了解されたい。
上記の感覚処理手段24はテキストのベージ32をビットマツプ表示に変換する 。特に、本発明の好ましい実施例では、テキストのベージのビットマツプ表示は 感覚処理手段24として普通のファクシミリ装置を使用することによって得られ る。ファクシミリ装置24は文書のディジタル化表示を行ない、これが次いで適 当なインターフェース手段(図示丑ず)によって本発明による適当なソフトウェ アを有する汎用計算機か、あるいは、この情報をさらに処理すべく本発明に従っ て設計された論理回路のいずれかに伝送される。
コネチカット州スタンフォートのXerox Companyか製造し、販売し ているモデルTC495−■どういう普通の装置である。本発明の装置2oがこ のファクシミリ装置の出力を後にかなり詳しく説明するように処理して標準のA SCIIフォーマットのR5−232コネクタを通じて出力を発生する。さらに 、ここで注意すべきは、このファクシミリ装置の制度がテキストの1ペ一ジ文を それを横方向および上下方向に1インチあたり200個の絵画素を含むマトリッ クスに表示する程度のものであるということである。しかしながら、種々の他の 形式の装置を用いて装置20でさらに処理するに適したテキストベージのディジ タル化表示を行なうこともてきることは了解されたい。数例を挙げれば、本発明 の計算ハードウェアまたは論理ハードウェアと一緒に使用し得るフライングスポ ットスキャナ、ディジタル化カメラおよびフォトセンサマトリックスかあり、こ れらはテキストベージのディジタル化表示を行なう入力手段として役立つ。この 点で重要な要件は、走査装置が一意の言語記号に相当する各グリフについての識 別可能な一意の2進表示を提供するに必要かつ充分な解答を午えるということで ある。さらに、テキストベージのビットマツプ表示か走査線として形成され、走 査線のそれぞれの端か独特な方法で識別てきなければならない。上述したように 、感覚入力処理7段24によって作り出されたテキストベージのビットマツプ表 示は次に分離手段26に転送され、この分離手段かこのピッl−マツプ表示を複 数の識別可能なグリフおよびグリフグループに分解する。分離手段26はテキス 1−ベージのピッI〜マツプ表示を複数の識別可能なグリフ(たとえば、グリフ 要素)やグリフグループ(たとえば、各々が1つまたはいくつかのグリフ要素を 含むグリフワード)に「分解する」ことを目的する種々ステップを果たす複数の 手段を包含する。
第2図を参照して、分離手段は「ブロック」100.104.108.112, 116を包含する。ブロック100はページ32のビットマツプ表示を個々のグ リフ要素に分解する。ブロック104はこれらのグリフ要素の閉館幅を確定する と共に合掌(すなわち、物理的に相互連結したいくつかのグリフ要素)と考えら れるグリフを識別する。たとえば、成る種の印刷機は文字rwJとrhJか隣合 って位置している場合、「Trl」と印刷する。ブロック108はプリン要素タ イプのリストおよびそれぞれの頻度(すなわち、そのページに各タイプかどのく らいあるかということ)をコンパイルする。ブロック112は句読点を認識し、 識別する。ブロック116は隣接したグリフ間に位置する余白の量を解析するこ とにより、また、成る種の句読点かワード間の境界として役立つという事実を認 識することにより、グリフ要素をグリフワー・ドにグループ化する。
ブロック100によって行なわれるようにテキストのページのビットマツプ表示 の離散的グリフ要素に分解することが第3図のフローチャートに概略的に示しで ある。ところで、ブロック100は、基本的には、「単純水平セグメンテーショ ン」と呼ばれることを行なうブロック120と、最短高さのグリフ行を確定し、 選定するブロック124と、「選定行の接近行高解析」と呼ばれることを実行す るブロック128と、任意のグリフ行が最短グリフ行の高さの倍数であるかどう かを確定するブロック132と、非常に高い行を選定するブロック134と、「 垂直セグメンテーション」と呼ばれることを行なうブロック136とを包含する 。
ブロック120て行なわれるような?XX純水上セグメンテーションテキストの ページのビットマツプ賞の複数の水平テキスト行、すなわち、クリア行(第9図 )への「分解」を行なう。ここでまず言及しなければならないのは、単純水平セ グメンテーションは離散的なテキスト行に関する初期のすなわち仮の確定段階に すぎないということである。したかって、この確定は後に説明するようにさらな る処理に基づいて最終的に修正するとよい。したがって、単純水平セグメンテー ションのプロセスは水平テキスト行にページを迅速かつ容易に分割する試みにす ぎない。その目的で、単純水平セグメンテーションを行なう特殊な操作が第4図 のフローチャートに示しである。ここでわかるように、単純水平セグメンテーシ ョンを行なおうとしている最初のステップはブロック140によって行なわれ、 ページ32のビ・ントマップ表示上に最初の「ノンホワイト」、「ノンノイズ」 水平走査線(第9図)を位置決めする。ノンホワイト、ノンノイズ走査線の意味 するところは3絵画素高×3絵画素幅より小さいサイズの周囲マークあるいは傷 を隠す黒色絵画素、たとえば、印刷部分の充分な表示と交差する最初の水平走査 線である。最初のノンホワイト、ノンノイズ走査線を確定するために、ブロック 140はページの頂縁て始まり、ページの底縁に向って下に進む水平走査線を、 走査線に沿った黒色要素または絵画素の数または位置あるいはこれら両方に関し て成る所定の基準が満たされるまで、連続的に解析する。ここで使用された基準 は成る行に沿って位置する白色要素に対する黒色要素のパーセンテージに関する ものである。このパーセンテージは所望に応じて変更され、そのページに現その ページ上の最初のノンホワイト、ノンノイズ走査線がひとたび位置決まれると、 このノンホワイト・ノンノイズ走査線に遭遇する前に通過したホワイトまたはノ イズ走査線の数かブロック144仁−よって後の使用のために記録される。次い て、ブロック148がノンホワイl−557ンノイズ部分に遭遇している最初の 走査線を最初のグリフ行の最初の、たとえば、頂の走査線であるとlノで識別す る。この走査プロセスはホワイトまたはノイズ走査線に遭遇するまてページを下 方ニ進むことによって続けられる。このアクションはブロック152によって行 なわれる。ノンノイズ/ノンホワイト走査線のすぐ後に統〈ホワイトまたはノイ ズ走査線はグリフ行の最後の走査線として認識され、記録される。その後、ブロ ック156がクリア行の代走査線としてこの最初のノイズまたはホワイト走査線 にマーク付けを行なう。次に、決定ブロック160かそのページに別のノンノイ ズ/ノンホワイト走査線があるかどうかを確定する。
そのページのさらに下に別のノンノイズ/ノンホワイト走査線があるという確定 がブロック160によってなされると、この情報はブロック164に与えられる 。このブロックは先のグリフ行の代走査線と次のノン、ノイズ/ノンホワイト走 査線とを分離する行数を記録するように作動する。ブロック164はそれぞれの グリフ行を分離するホワイトまたはノイズ行の数も記録する。この時点で、ブロ ック164かこの情報をフロック148に戻すにつれて上述の手順が繰り返され て成るグループを定める。プロ・・Iり14Bは、次に、検出されたノンノイズ /ノンホワイト走査線を次のクリア行の頂走査謀としてマー・り付けし、フロッ ク152か次のホワイl−またはノイズ走査線を位置決めし・、ブロック156 がこの次のホワイ1〜または7ノイズ4≦査線をグリフ行の代走査線としてマー ク付けあるいは、;3識し、ブロック160か再び他にノンホワイト/ノンノイ ズ走査線かあるかどうかを確定する。上記のループは、決定ブロック160かそ のページにはノンノイズ/ノンホワイト走査線がまったくないと確定するまで続 く。この確定がなされると、ブロック160はこの情報をブロック168に送る 。次いで、ブロック168か、後に使用するために、最底グリフ行の代走査線と ページの底縁とを分離するホワイトまたはノイズ走査線の数を記録する。この時 点で、単純水平セグメンテーションか完了する。
テキストのページのビットマツプ表示を離散的要素に分解する次のステップは最 短項グリフ行を確定し、選定することである。このアクションはブロック124 て行なわれる。第3図でわかるように、ブロック124は単純水平セグメンテー ション中にブロック120で識別された各グリフ行の高さを確定する。ところで 、グリフ行の高さはそのグリフ行の最上方、最下方の走査線を分離している水平 走査線の数によって測定される。最短グリフ行、たとえば、最少数の水平走査線 を含むグリフ行か次にフロック124によって選定され、さらなる処理に備える 。グリフ行のいくつかが同じように少数の走査線を持っている場合には、それら のグリフ行のうちの1つが成る種のランダム基準、たとえば、ページの頂に最も 近いという基準に基づいて選定される。
ビットマツプ像を個々の要素に分解する次のステップはブロック128によって 行なわれる。ブロック128は「選定打上の接近行高解析」と呼ばれることを行 なう。ところで、ブロック128で行なわれるような接近行高解析というのは、 ブロック124によって選定されたグリフ行、すなわち、最短プリン行かただ1 つのテキスト行を含んでいるかどうかを決定することである。もしブロック12 8か2つ以上のテキスト行を選定行が含んでいると確定したならば、ブロック1 28はその選定行をその構成部分行に分割あるいは分解する。接近行高解析を行 なう手段か第5図に一層詳しく示しである。これてわかるように、接近行高解析 を行なうプロセスの最初のステップはブロック172によって行なわれる。特に 、ブロック172は、さらに検査を行なうために、選定グリフ行を含むすべての 水平走査線を取り込む。フロック174はこれら選定された水平走査線の各々に 含まれる黒色絵画素の数を計数し、記録する。ここで、グリフ行が実際にただ1 つのテキスト行である場合、黒色絵画素カウント数は、小文字の主要本体および 大文字の下半分か位置する中間走査線に沿って最大となる。したがって、黒色絵 画素の下位のカウント数は、小文字の昇順部(小文字の通常の頂縁の上方にある 部分)のみおよび大文字の上半分が位置するグリフ行の上部に隣接して走査線に 沿って生じるはずである。さらに、黒色絵画素のさらに下位のカウント数は小文 字の降順部のみか位置すである。したがって、もしグリフ行が実際にただ1つの テキスト行よりも多い場合には、最小濃度領域によって分離された黒色絵画素の 2つ以上の最大濃度部が存在することになるにの状況はテキストの隣接行が互い に充分に分離されおらず、テキスト行間にほとんどすべて白色の水平走査線を備 えていない場合に生じがちである。
水平分布統計値がひとたびブロック174によってコンパイルされると、これら の統計値は決定ブロック178に送られる。決定ブロックはこれら水平分布統計 値を解析して選定グリフ行が2以上のテキスト行を含んているかどうかを確定す る。その目的のために、ブロック174でコンパイルされた水平分布統計値か、 グリフ行か最小濃度水平走査線、すなわち、他の高濃度水平走査線(すなわち、 そのグリフ行の多数の黒色絵画素を含む走査線)間に位置する少数の黒色絵画素 を含む走査線を含んでいることを示したならば、そのグリフ行は2以上のテキス ト行を含むものと認識される。こうして、付加的な水平セグメンテーションか前 記グリフ行についてブロック180によって行なわれる。これは後に説明する。
あるいは、グリフ行が高濃度水平走査線間にある最低濃度水平走査線を含んでい ないことを水平分布統計値か示している場合には、決定ブロック178がそのグ リフ行をただ1つのテキスト行であると認識し、接近行高解析手続きが終了する 。
グリフ行がブロック178によって2以上のテキスト行を含んでいると認識され た場合には、ブロック180がグリフ行をブロック174によつて与えられた水 平分布統計値に基づく部分行に分離する。このとき、グリフ行はより高い濃度の 走査線間にあると確定された最低濃度走査線に沿って分離されることによってよ り短い(すなわち、より小さい高さの)グリフ行に分割され、その結果、各グリ フ行かただ1つのテキスト行を持つことになる。
ページのビットマツプ表示を個々のグリフ要素に分解する次のステップは、ブロ ック120(先に説明した)によって行なわれる単純水平セグメンテーション動 作によって得られるような任意のグリフ行の高さが最短行の高さの倍数であるか どうかを確定することである。これに関連して、ブロック132(第3図)か、 任意のグリフ行か最短グリフ行の高さの倍数である場合に、さらなる処理のため にこれらの行にマークを付ける。ブロック134が次にブロック128によって さらに処理するために過剰な高さの行の1つを選定する。これに関連して、ブロ ック128が上述したと同じ要領でブロック134によって選定された行につい て接近行高解析を行なう。この手続きは、過剰高さの行かすべてブロック128 によって処理されるまて続き、この時点で、行のいずれもか敞短行の高さの倍数 でないことを確定する。この確定がなされたとき、水平セグメンテーションか終 了し、垂直セグメンテーションが開始する。
垂直セグメンテーションはブロック136によって行なわれ、第6図のフローチ ャートに一層詳しく示しである。この図てわかるように、垂直セグメンテーショ ンの手続きはブロック186〜294て行なわれる。
垂直セグメンテーションを行なう種々のブロックを詳しく説明する前に、垂直セ グメンテーション走査か基本的に成るテキスト行内の個々のグリフ間の垂直方向 余白の解析を伴ない、個々のプリン要素間の境界を識別するということを述べて おかねばならない。垂直セグメンテーションプロセスは、また、後の処理のため に連続したグリフ間のより大きな余白を位置決めしてグリフワードおよびグリフ ワードのブロックを確定する。これに関連して、グリフワー1へは1単語に相当 し、グリフブロックはワードグループ、たとえば、ベニジにある表題に相当する 。
第6図、第9図を参照して、垂直セグメンテーションの第1ステツプはブロック 186によって行なわれる。このブロックは第1のグリフ行に対応するすべての 水平走査線のセットを取り込む。次に、ブロック188がそのグリフ行にお参つ る最初のノンホワイト/ノンノイズ垂直走査線を位置決めする。各垂直走査線は 成るグリフ行の、ベージの同じ水平位置に位置するそれぞれの水平走査線の絵画 素を一緒にグループ分けする(バッファにおいて位置決め、記憶する)ことによ って形成される。したがって、本発明の好ましい実施例においては、垂直走査線 かソフトウェア解析によって容易に形成される。このとき、それぞれの絵画素を 選定し、グループ分けしてそのページ上の絵画素の垂直桁に相当する数組の絵画 素を形成する。特定のグリフ行の各垂直走査線を左から右に解析することによっ て最初のノンホワイト/ノンノイズ垂直走査線か位置決めされ、最終的に、垂直 走査線に沿った(すなわち、水平走査線に沿った共通の水モ位置における)黒色 絵画素の数または位置あるいはその両方に関する成る基準か満たされる。これら の基準はグリフ文字の最初の走査線とページ上にあるかもしれないノンホワイト ノイズとを区別するのに用いられる。したかって、ブロック188は選定グリフ 行の最左方グリフ要素の最左方垂直走査線を位を決めし、ホワイl−またはノイ ズの数をカラン1−する。垂直走査線はベージの左縁から第1グリフの最左方垂 直走査線まに向って移動する。次に、ブロック190がそのページ上の最初のグ リフの最初の垂直走査線に達Vる前に通過したホワイトまたはノイズ走査線の数 をマークするかあるいは記録する。この情報は、後に、テキストがページ上に現 れる性質に関係する字下げその他の特性を確定するために使用される。次に、ブ ロック192は最初のノンホワイト/ノンノイズ垂直走査線をグリフ文字の最初 (最左方)の垂直走査線として記録する。
操作プロセスは、ブロック194が別のホワイトまたはノイズ垂直走査線に遭遇 するまで、グリフ行を横切って左から右に進みながら続く。ノンホワイト/ノン ノイズ垂直走査線のすぐ後のホワイトまたはノイズ垂直走査線が次にブロック1 96によりてグリフ行の最後のまたは最右方走査線としてマーク付けされる。
個々のグリフを処理する次のステップはブロック198によって行なわれる。こ れに関連して、ブロック198は今隔離されグリフに関する種々の識別情報(ペ ージ上のその位置を含む)を解析する。この位置は「グリフベージ・相対位置」 と呼ぶ。゛グリフベージ・相対位置を処理し、マーク付けする手段は第7図のフ ローチャートにより詳しく示してあり、これはブロワ’7206−218からな る。特に、ブロック2゜6は特定のグリフのビットマツプ280(第9図)を選 定する。成る特定のグリフのビットマツプは、グリフを選定したグリフ行281 の最上方、最下方それぞれの走査線282.284およびそのグリフの最左方、 最右方それぞれの垂直走査線286.288によって囲まれる、す“なわち境さ れる領域とじでアiめられ、それぞれ、ブロック192.196によって記録さ れる。換言すれば、水モ、垂直セグメンテーションを介して得られた4つの交差 する走査線の周囲かグリフの位置する矩形領域を限定する。このグリフを含むビ ットマツプ領域がひとたびブロック206によって選定されたならば、ブロック 208がグリフ幅を確定し、この情報を記憶する。グリフの幅はその最左方走査 線286から最右方走査線288までにどのくらいの絵画素があるかなカウント することによフて計算される。
ブロック210か次にグリフの高さを判断する。グリスの高さは最上方のノンホ ワイト、ノンノイズ走査線と最下方のノンホワイト、ノンノイズ走査線の間にど のくらいノンホワイト、ノンノイズ走査線かあるかをカウントすることによって 決定される。第9図を参照してわかるように、グリフの最上方、最下方走査線は それぞれ290.292て示しである。したかって、グリフの高さか必ずしもグ リフ行の高さと一致しないということは了解されたい。
次に、ブロック212がグリフの境界294内に含まれる黒色絵画素の数と白色 絵画素の数をカウントする。黒色および黒色のカウント数かひとたびブロック2 12によって判断されたならば、次にブロック212は黒色カウント数対白色カ ウント数の比を計算し、この情報を記憶する。
フロック214が、次に、この特定のグリフが次の文字、すなわち、ri」、r jJ、「:」、「?」、「!」に見出されるような一分離可能な要素を包含して いるかどうかを判断する。この判断は、特定のグリフ要素の最上方、最下方ノン ホワイト走査線間に全ホワイトまたは全ノイズ水平走査線か存在するかどうかを 判断する手続きに基づく。全ホワイトまたは全ノイズ水平走査線は分離回旋な要 素を示している。ここで、上記文字のすべてか分離可能要素であり、それぞれ最 上方、最下方境界間に位置する全ホワイト水平走査線を含んていることは了解さ れたい。
次に、ブロック216か「水平パターン変換率」と呼ばれるものをグリフに割り 当てる。このとき、プリン境界内に位置する各水平走査線はホワイトからノンホ ワイトへ、あるいは、その逆に変化する回数に基づく変換率を割り当てられる。
この変換率か水平パターン変換率である。こうして、各変換回数について、任意 であるか一意である数か割り当てられる。たとえば、成る特定のグリフを横切る 、最初にホワイトに遭遇し1次にブラック、最後にホワイトに遭遇する水平走査 線は3の価を割り当てられかもしれないし、また、最初にホワイト、次にブラッ ク、次にホワイト、次にブラック、次にホワイトに遭遇するパターンは7の値を 割り当てられるかもしれない。これらの変換率は特定のグリフの境界内に含まれ る最上方から最下方の走査線への各水平走査線率のために記録される。しかしな がら、すぐ前の走査線の変換パターンと同じパターンに遭遇した水平走査線が記 録されず、この解析動作を通して得られる情報をより少ない計3i機記憶量に圧 縮することができることに注目されたい。変換パターンに加えて、これらの変換 が生じるグリフ境界内の水平位置に関するデータがグリフ毎に記録され、必要に 応じて類似したグリフの差に関するより精密な判断が最終的になされ得る。
さらに、垂直変換率もブロック216によって得られる。垂直変換率というのは 、木質的に水平変換率と同じであるか、ただし、グリフの最左方垂直走査線で始 まって最右方垂直走査線で終る、グリフ境界内の垂I直走査線に沿って生じる変 換に関するものであるという点で異なる。したがって、垂直変換率はグリフを差 別するための付加的な記述情報と言える。
さらにまた、ブロック216は種々の類似形状のグリフの間をさらに差別するの に役立つ水平/垂直バー解析を行なう。この目的のために、水平/垂直バー解析 は、まず、グリフがほぼその全高にわたって延びるブラック垂直直線を含んでい るかどうかを判断し、次に、そのグリフかほぼその全幅にわたって延びるブラッ ク水平直線を含んでいるかどうかを判断する。この解析は、主として垂直直線あ るいは水平直線の有無によって異なるグリフ文字、たとえば、rDJ対rOJと rUJ対rHJを区別するめに特に有用である。
最後に、ブロック218がグリフ境界のベージ相対位置を記録し、ポインタをバ ッファに割り当てる。このバッファはブロック206.208.210.212 .214.216によりて判断されたような、グリフを描写する統計値その他の 情報を記憶する。この情報は、ページ上の他のグリフとほぼ同一のグリフを識別 するために、また、後に説明する他の目的のために後に用いられる。
選定プリンがひとたびブロック198によって処理されたならば、ブロック20 0 (第6図)がグリフ行に他の任意のノンホワイト、ノンノイズ垂直走査線か あるかどうかを判断する。もしあれば、ブロック202がグリフ行における次の ノンホワイト、ノンノイズ垂直走査線を位置決めし、ブロック190で始まる垂 直セグメンテーションプロセスが繰り返される。この手続きは、グリフ行のすべ てのグリスが位置決めされ、処理されてしまうまで統〈。その目的のために、ブ ロック200がプリン行にノンホワイト、ノンノイズ垂直走査線がもはや存在し ない(たとえば、そのグリフ行にもはやグリフが存在しない)ということをひと たび判断したならば、この情報は決定ブロック203に送られ、ページ上にもっ となんらかのグリフ行があるかどうかが判断される。ページ上に他の未処理グリ フ行がある場合には、ブロック204は次のグリフ行について水平走査線を選定 し、ブロック188て始まる垂直セグメンテーションプロセスが繰り返される。
このループは、ページ上のグリフ行のすべてか垂直方向にセグメント化され、上 述のように処理されてしまったことをブロック203が判断するまで続く。
この時点で、垂直セグメンテーシヨンが完了し、終了する。
ベージのビットマツプ表示がひとたび離散的グリフ要素に分解されたならば、ブ ロック104(第2図)かこれらのグリフおよびタグ合掌の中間幅を計算する。
ここて、合掌か物理的に相互に結合した2つ以上の言語記号であるということを 思い起こされたい。成るページ上のすべてのグリフの中間幅かひとたび判断され たならば、例外的に平均的なグリフよりも幅の広いいかなるグリフも合掌ではな いかと疑われる。これら余分な幅のグリフの各々は次にその境界内に含まれる垂 直走査線の解析に基づいて垂直方向にセグメント化される。この解析は垂直走査 線が垂直黒色カウント数の最小分布を含んでいることを判断する。この平均的プ リン幅に関する知識と一緒に最小垂直黒色カウント数に関するデータを使用する ことによって、垂直セグメンテーションが行なわれる。さらに、合掌から形成さ れたこれらのグリフについての識別統計値に与えられる重みはセグメンテーショ ン中に通常成る量のエラーか導入されるという事実を考慮して一般に変えられる 。
平均要素(グリフ)幅がひとたび判断され、合掌か分離されてしまったならば、 ブロック108(第2図)は各グリフのタイプおよびその頻度(すなわち、各グ リフかどのくらいページにあるかということ)を含む要素辞書またはリストをコ ンパイルする。グリフのタイプおよびその頻度をコンパイルする動作は第8図の フローチャートに示しである。その目的で、クリフリストコンパイル作業はブロ ック220〜230によって行なわれる。
特に、ブロック220は最左方垂直走査線と交差する最上方グリフ行に沿って位 置するグリフを選択することによって最初のプリンを選定する。最初のグリフが ひとたびブロック220によって選定されたならば、ブロック222がその選定 グリフをグリフリストまたはグリフ辞書内に置き、その頻度カウント数をゼロに 初期化する。任意の識別数字を割り当てることによってグリスは辞書内に置かれ る。次に、この識別数字か種々のポインタと組み合わされるにれらポインタの各 々は上述したようにブロック206.208.210.212.214.216 によって得た情報を含む成る数の記述情報に向けられたものである。たとえば、 リストにある各グリフはそのグリフを含む分離可能な要素の数、グリフの境界内 に含まれる黒色対白色絵画素比等をリストに掲げる記憶場所に向けられたポイン タを含む。またさらに、各グリフはそのビットマツプ表示を含む記憶場所に向け られたポインタも含む。この情、報は類似した外観の2つのグリフか実際に同し であるかどうかを判断するのに後に使用される。
選定されたグリフかひとたびブロック222によってグリフ辞書内に置かれたな らば、ブロック224はその選定グリフについての頻度カウントを1つずつ増分 する。明らかに、ブロック220によって選定された最初のグリフの場合、その 要素についての頻度カウントはゼロから1に増分される。次に、ブロック226 かそのページに他になんらかのグリフがあるかどう′かを判断する。もしそのペ ージに余分なグリフかある場合には、この情報はブロック228に送られ、別の グリフか選定される。これに関連して、選定順序は重要ではないが、本発明の好 ましい実施例では、グリフはそのページの最上方グリフ行て始まり、最下方グリ フ行で終るグリフ行を横切って左から右に引続いてグリフは選定される。
ブロック228によって選定されたグリフは、次に、決定ブロック230によっ て、グリフ辞書あるいはリストに既にあるグリフと比較され、新たに選定された グリフか辞書内に既に含まれている他のグリフのいずれかと非常に良く似ている かどうかを判断する。
この判断は最初に成る種のグリフ特徴を゛比較して辞書内のグリフのいずれか1 つあるいはいくつかがこれらの特徴を含んでいるかどうかを確認することによっ て行なわれる。たとえば、比較される成る種の特徴はそのグリフが分離可能要素 を含むかとうがである。明らかに、新たに選ばれたグリフか分離可能要素を持っ ていなければ、分離可能要素を含む品3内のグリフか選定グリフと一致1ノない ことは直ちに判断され得る。したがって、ブロック230はグリフ辞書内のすべ てのイブリフの中から一致する可flu性のある候補の数抱・限定する。実際に 、使用される種々の基準または特徴には異なった重みが与えられ、比較プロセス を最適なものとする。
選定されたグリフがグリフ辞書内にあるグリフの1つまたはいくつかに類似する と判断されたならば、さらに処理が行なわれて実際に一致するものかあるかどう かを判断する。このさらなる処理では、選定グリフのビットマツプ表示をグリフ 辞9内の一致すると思われる候補のグリフのピッl−マツプ表示と比較する・こ の比較により、それぞれの像の絵画素のいくつか異なるかどうかについての判断 か行なわれる。この比較で得られた数が次に所定の数と比較され、この選定グリ フか一致すると考えられるかどうかが決定される。
処理されつつあるグリフか辞書に既にあるグリフど一致すると判断された場合に は、ブロック22・1かそのリストにあるグリフについての頻度カランl−をま たけ増分し、決定ブロック226かまノブ処理されていないグリフかそれ以上ペ ージ上にあるかどうかを判断する。この時点で、余分な未処理グリフかあった場 合には、ブロック228か次の未処理グリフを選定し、装置かブロック230に 戻る6ブVff 丁、lり230か選定ン”リフか辞書内のいかな5グリフとも 充分に似ていないと判断したならば、この情報かブロック2221−:送られる 。次に、ブロック222 i:!選定り′リフを辞書(こ布え、その頻度カウン トをセロに初期化(リセット)する。次に、ブロック224か新たに加えられた グリフの頻度カウントを1に増分し、決定ブロック226かそのページ上に他に 未処理グリフがあるかどうかを判断する。このループは上述と同じ要領で継続し 、最終的に、そのページ上にはもはや未処理グリフが残ってイナイトフロック2 26が決定するまで続く、この時点で、辞書リストか完了し、ページ上の各グリ フをポインタと一緒に含み、それぞれの頻度カウントを記憶する。
第2図を参照しなから先に説明したように、装置20はブロック112を介して 各句読点タイプの識別を行なう。特に、クリフタイブのリストおよびそれらの頻 度が先に述べたようにコンパイルされた後、フロック112は前記グリフをすべ て解析して句読点を識別する。句読点は文字または数字以外のすべての言語記号 (文字)を意味する。
句読点は少数の比較的単純な形状の解析テストからなる操作を用いて認識され得 る。その操作が第19図にはっきりと示しである。装置20のブロック112て 生した句読点識別結果の確認は、グリフ文字またはワードが暗号解析/文脈地理 解析を用いてひとたび判断されたときに行なわれる。たとえば、ブロック112 によって「?」と仮に識別されたグリフはグリフセンテンスの第1または第2の グリフワードとしての疑問代名詞、たとえば、w h o、what、why等 の存在によって確認される。「)」と仮に識別され、負の数を表す整数のストリ ングを囲むグリフは数字の最右方桁位置調整の境界を越える。句読点を認識し、 識別するプロセスの第1ステツプはブロック237によって行なわれる。特に、 ブロック237はページ上のすべてのグリフを解析し、少なくとも3絵画素高× 3絵画素幅である最小グリフを判断する。この最少グリフは終止符と判定される 。少なくとも3X3絵画素よりも小さいグリフはノイズと考えられ、それ以上処 理されることがない。
句読点を識別する次のステップはブロック238によって行なわれる。ブロック 238は成る所定の基準を用いてページから成るグリフ、すなわち、そのページ の最上方行の最左方グリフを選定する。次に、決定ブロック239が今選定した グリフかそのグリフ行の底に達しているかどうかを判断する。もしグリフ行の底 に達していなければ、そのグリフは引用符(”)、アポストロフィ(′)、ダッ シュ(−)、星印(*)、プラス記号(+)、等号(=)、脱字記号(−)、不 等号(く、〉〉からなる句読点マークまたは文字のグループに属する。こうして 、ブロック239はそのグリフが行の底に達していないことを示す情報をブロッ ク240に与える。このブロック240は形状解析技術を用いてグループから特 定のグリフを識別する。このような技術はグリフの形状を解析してそのグリフか 行の中間に達しているかどうか、分離可能な要素を持っている力)どうか、異な った行セグメントをどのくらい含んでいるか、そのグリフの角度あるいは向きを 決定する技術を含む。
ひとたびブロック240がこのグリフを識別したならば、この情報にマークが付 けられる(句読点りスト241に記憶される)。次に、ブロック242がページ 上に他にグリフがあるかどうかを判定する。もしないならば、そのページ上のす べての句読点が識別されたことになる。しかしながら、ブロック242がそのペ ージ上に他のグリフがあると判断したならば、装置はブロック238に戻ってそ のページ上の次のグリフを選定して識別し、句読点識別プロセスが繰り返される 。
ブロック239が選定グリフがグリフ行の底に達していると判断したならば、決 定ブロック244がこの情報を採用してそのグリフが行の中間に達しているかど うかについてのさらなる判断を行なう。グリフか行の中間に達していなければ、 ブロック244はそのグリフをコンマあるいは終止符と認定する。ブロック24 6かこのグリフかコンマてはなくて終止符であるかどうかを判定する。終止符は ブロック237によってそのページ上の最小グリフと先に識別されているのて、 ブロック246はそのグリフをコンマと識別する。逆に、選定されたグリフが最 小グリフよりもそれほど大きくなければ、それは終止符と識別される。このグリ フがブロック246によってひとたび識別されたならば、この情報は句読点りス ト241に加えられ、ブロック242かそのページにもうグリフかないかどうか を判断する。もしあれば、装置はブロック238に戻って次のグリフを先に述べ たように識別する。
ブロック244がグリフが行の中間に達していると判断したならば、ブロック2 48かそのグリフか分離可能要素を含んでいるかどうかについてさらに判定を行 なう、グリフが分離可能要素を含んでいる場合には、決定ブロック250がグリ フの最下方要素が行の中間に達しているかどうかを判断する。最下方要素が行の 中間に達していなければ、そのプリンは感嘆符(り、疑問符(?)、セミコロン に)、コロン(:)からなる句読点マークまたは文字のグループに属することに なる。ブロック250は、グリフの底要素が行の中間に達していないという情報 をブロック252に与える。次に、ブロック252か次の解析技術を用いて4つ の句読点マークの前記グループからそのグリフの身元を判断する。すなわち、セ ミコロンおよびコロンの頂要素は終止符であるからこの頂要素か終止符(既に識 別されたマーク)であるかどうかを判定することによってセミコロンまたはコロ ンが感嘆符および疑問符から容易に区別されるのである。ブロック252は最下 方要素か終止符であるかどうかを検討することによってセミコロンをコロンから 区別する。もし終止符であれば、そのグリフはコロンである。感嘆符と疑問符に ついては、プリンの頂要素をその鏡像と比較してブロック252によって感嘆符 か識別される。このマークの頂要素かその鏡像と同一であれば、そのグリフが疑 問符ではなくて感嘆符であるという結論か引き出される。このグリフがブロック 252によってひとたび識別されたならば、この情報は句読点リストに加えられ る。次に、ブロック242がそのベージにもつとグリフがあるかどうかを判定す る。あれば、装置かブロック238に戻って次のグリフな解析する。
フロック250かグリフがグリフ行の中間に達していないと判定したならば、そ のグリフは句読点マークあるいは文字ではなくて、非句読点グリフ、たとえば、 クリア文字または数字である。この情報はブロック250からブロック256に 与えられる。このブロック256はそのグリフかその最上方要素として終止符を 含んでいるかどうかを判定する。もし含んでいれば、このグリフは文字「i」ま たは「j」としてマークされる。この情報は後に説明するようにグリフ文字を識 別する際に使用される暗号解析技術に対する補充情報と呼ぶことがてきる。次に 、ブロック242がページ上にもつとグリフがあるかどうかを判定する。あれば 、装置かフロック238に戻って次のプリンを解析する。
ここで再・びブロック248を参照して、このブロック248かグリフが分離可 能要素を持っていないと判断したならば、この情報は決定ブロック260に送ら れる。この決定ブロックは斜線が非水平直線を含んているという知識に基づいて グリフが斜線であるかどうかを判定する。このグリフが非水平直線の形をしてい るという判断をブロック260がしたならば、その情報はブロック262に送ら れる。このブロック262はその斜線か左に傾いているか、右に傾いているか、 垂直斜線であるかを判定する。この判定は単純な形状解析技術、たとえば、線か 配訝されている角度を識別することによって達成される。グリフかひとたび識別 されたならば、マークが付けられる。次に、ブロック242かそのページ上にも つとグリフがあるかどうかを確認する。もしあれば、装置はブロック238に戻 って次のグリフを解析する。
グリフか斜線てないとブロック260か判断したならば、その情報はフロック2 64に与えられる。このブロックはそのグリフかその黒色部分によっ°〔完全に 囲まれた白色領域(「キャプチャードホワイl−Jと呼ばれる)を含むかどうか について判断をなす、もしブロック264がグリフにキャプチャートホワイ1〜 かまったくないと判断したならば、決定ブロック268かそのグリフが小括弧( ()、角括弧([)、不等号(<、 >)のいずれかであるかどうかを判断する 。この判断はいくつかの基準に基づいてなされる。
まず、小括弧、角括弧は、それらが大文字の高さと同し高さあるいはそれよりも 高い句読点文字であるという忠実によって識別される。さらに、小括弧、角括弧 の上半分はそれぞれの下半分の鏡像そのものである。
またさらに、角括弧、小括弧は3本以上の線が交差するところあるいは一木の線 が別の線の中間に入り込み、それを交差するところがない。これらの基準のすべ てを満たすグリフ文字は大文字の[CJだけである。しか17なから、大文字「 C」は成る種の単純な解析に基づいて小括弧あるいは角括弧から容易に区別され る。すなわち、この特定のグリフの鏡像がページのどこかに見出されるならば、 そのグリフは大文字の「C」でなく、角括弧あるいは小括弧で°あると結論でき る。大文字rCJを角括弧あるいは小括弧から区別する方法どしては、大文字「 C」が角括弧と違って鋭角の角隅な持っておらず、小括弧はどの高さも持ってい ないという判断かある。同様にして、不等号もそれらが共に鋭角の角隅を持って いるという事実にょ−)て大文字rCJどは容易に区別される。
ブロック268かそのグリフか小括弧、角括弧ありは不等号のいずれかであると 判断したならば、ブロック2゛70がさらにそのグリフについて解析を行なって 上述の句読点タイプからの区別を行なう。そのグリフに含まれる鋭角角隅を識別 し、その数をカウントすることによってこのグリフが実際に小括弧、角括弧、不 等号のいずれかであるかどうかをブロック270か判断する。特に、この解析で は、小括弧が鋭角の角隅な持たず、不等号の各々がただ1つの鋭角の角隅な持ち 、角括弧が2つの鋭角の角隅を含んでいるという知識を用いる。さらに、湾曲の 向きを識別することによって左側の小括弧記号は右側の小括弧記号から容易に区 別される。同様にして、左右の角括弧および不等号もそれぞれ同様の手続きを経 てそれぞれの相手方から区別される。このグリフがブロック270によって識別 され、マーク付けられたならば、ブロック242がそのページ上にもっとグリフ かあるかどうかを判定する。もしあれば、装置はブロック238に戻って次のグ リフを解析する。そのグリフが小括弧、角括弧あるいは不等号でもないとブロッ ク268か判断したならば、このグリフか非句読点タイプのグリフであるという 結論か引き出される。この情報はブロック256に与えられ、このフロックは上 J1ノだようにこの特定のグリフを非句読点文字と11゛〔マーク1)、この情 報を記憶して解読手段30での後の処理に備える。
ブロック264での判断かグリフかキャプチャートホワイl−を含むということ であれば、この情?9 (j:プロ・ンク276に送られる。フロック276は このタリフを非句読点グリフ(たとえば、数字または文字のグリフ)あるいは次 の記号、すなわち、「番号」記号(井)、ドル記号($)、百分率記号(%)、 アンバーサンド記号(&)のうちの1つのいずれかであると認識し、マークする 。ブロック276によってマークされたグリフはこの時点てはそれ以上の処理を 受けない。したかって、フロック276のマークしたグリフか実際に文字あるい は数字のグリフてなく、上述の記号の1つに相当するグリフであるならば、文書 形式解析手段28または解読手段30のいずれかによって最終的に識別されるこ とになる。
ドル記号($)に関連して、その文書か財務報告書であるならば、文書上の位置 およびそこに現れている数字グリフに対する関係に基づくなどして文書形式解析 手段かそのドル記号を識別するはずである。もしその文書が財務報告書でないな らば、ドル記号は最初にあたかも数字グリフであるかのように解読手段30によ って処理されることになる。この場合、ドル記号は、文書内に暗号演算技術を実 行するに充分な数値情報かあるかどうかに依存して、形状解析技術を使用するこ とによってかあるいは暗号演算解析(後に説明するつもりである)中に最終的に 復号されることになる。ここで暗号H算解析を使用するのに利用できるに充分な 数値情報があると仮定すれば、ドル記号は常に数字のストリングの前にあり、二 重のキャプチャードホワイ1へを含んているという事実によって識別される。も し充分な数値情報かないならば、)・ル記号は、形状解析(後に説明する)のよ うな「バックアップ」解読ルーチンを用いて数字グリフと一緒に解読される。
番号記号(#)は、常に数字ストリングの前か後に位置しくボンド記号として用 いられている場合には後にある)、単一のキャブチャートホワイトを含むという 事実に基づいて解読手段30によって識別され、トル記号とは区別される。ある いは、暗号演算解析を使用するには数値情報の量が不充分である場合には、番号 記号は形状解析技術を用いて識別される。
百分率記号(%)はそれが常に数字のストリングの後に続き、二重のキャブチャ ードホワイトを含んでいるという事実に基づいて解読手段30によって識別され る。この文書に暗号演算解析を使用するのに利用できるに充分な量の数値情報が ないならば、百分率記号は形状解析技術によって識別される。
最後に、アンバーサンド記号(&)は二重のキャブチャードホワイトを含むただ 1つの単一グリフワードであることに基づいて解読手段30によって識別される 。
この選定された句読点プリンが上述のように処理されてしまったならば、ブロッ ク242がまだ処理されていないページ上に他になんらかのグリフがあるかどう かを判断する。句読点であるかどうかを判断する目的てこれか行なわれる。もし そのページに余分なグリフか残っていたならば、ブロック238かブロック23 9て始まる処理を行なうべき次のグリフを選定する。このループは、ブロック2 42がそのページの全グリフが処理されてしまったと判断するまで続く。
句読点のすべてか識別されたならば、ブロック116(第2図)がグリフのグル ープをグリフ「ワード」と識別する。この判断は、連続したグリフを分離してい る、所定量よりも多い余白で始まるかあるいは終る「ワード」を識別する比較的 単純な手続きである。この所定量の余白は連続したグリフ間にある余白の平均量 にもつづいて計算される。したかって、選定グリフ間の間隔か連続するグリフ間 の平均余白よりもかなり大きければ、単数または複数のグリフワードの初めある いは終りまたはその両方を示す境界と識別される。
さらに、成るタイプの句読点、たとえば、終止符もグリフワードの終りを示す信 号として使用される。グリフワードが今述べたように識別したならば、それは一 時記憶バッファ36(第1図)に記憶され、後に詳しく説明するようにそこでさ らに処理される。
装置20で行なうべき次のステップは「文書形式」解析と呼ばれる。この手続き は文書形式解析手段28(第1図)によって行なわれる。特に、この手段28は テキストの入力ベージを成る特定の文書、たとえば、貸借対照表、業務上の手紙 等のそれと識別しようとする。もしこのテキストベージが実際に識別可能な形式 の文書であるならば、その識別内容はそのまま大量の有用な情報を与え、グリフ 要素を復号するときに解読手段30によって後に使用される。
ブロック28はそのページ上のグリフワードの地理的レイアウトまたは場所を予 め選定されているネームプレート38に含まれる情報と比較することによって文 書形式を判断する。これらのネームプレートは特定の形式の文書と組合わせた既 知レイアウトについての記述を含んている。特定の文書形式と結びついた成る既 知のグリフパターン(たとえば、同じグリフの反復)を識別することによフて追 加の情報が得られる。
したかって、財務報告書、送り状、略図、計算機プロ’fラム、議事録、業務上 の手紙等が一般にページ上に幾分独特の識別可能な配列のグリフワードを含んで いるという事実によってこの比較作業が可能となることは了解されたい。たとえ ば、業務上の手紙は一般にページの右下方部分付近にrsincerely Y ours、J、rcordially Y o u rs、J等のあいさつ句の 他に名前を持つ、ブロック28は、装置20に格納された、あるいは、成る種の 入力手段(たとえば、キーボード)から入力された一組のこのようなネームプレ ートから文書形式ネームプレート38を順次選定することによって特定形式の文 書を識別する。ネームプレート38の各々は、そのページか前記ネームプレート と組み合った特定形式の文書を含むと仮定したときに成るグリフワードか見出さ れる可能性のある地理的場所に関するデータを含んでいる。もし入力ページ上の グリフ場所間に充分な量の相似かあり、また、この特定のネームプレートに与え られたパターンかあれば、ブロック28はそのテキストページをそのネームプレ ートと組み合った特定形式の文書であると識別する。ネームブレ・−ト38は装 置の記憶知識ベースと呼ばれる表に格納される。この記憶知識ベースおよびその 表は装置が使用されている特定の環境において一般に遭遇する特定形式の文書を 収容するように容易に修正され得る。
−例として、業務上の手紙を識別するのに使用されル代表的なネームプレートは 返送先宛名ブロック、日Mブaツク、あいさつ句、補足結句、署名、署名下のタ イプした名前、パターンFAA : Jを持つグリフワードを捜すことになる。
カーボンコピーの場合、パターンrAAJは任意の反復グリフを表す。
さらに、文書形式解析手段は種々のグリフブロック(グリフワードのグループ) のサイズ、場所を特定のネームプレート38上に記載されているものと比較する ことによって識別する目的でまた追加の情報を得る。たとえば、返送先宛名ブロ ックは一般に業務上の手紙のページの最初の事項として識別される(会社のレタ ーヘットの場合を除く)。これはページの中間付近でその左に何もなしに左位置 調整され、テキストの3から5行を含む。この特徴か充分に存在すれば、この文 書は業務上の手紙と確定される。
同様にして、テキストのページがワードrBALANCE 5HEETJを表す グ’)7バ9−ンrABCBDEF GHFFIJを有するヘッダあるいはワー ドrSTATEMENT OF C0NDITIONJを表i−ヘッダrABC BDEDFB GHIGFJK13KGFJを含んでいる場合には文書は財務報 告書ネームプレートによって財務報告書と判断される。
この場合、貸借対照表を示す他のヘッダは表題rASS E T S J ア’ S イハr L I A B I L I T I E S Jを表す文字パタ ーンおよびワードrTOTALJまたは「丁0TALSJに相当する文字パター ンを有するブロックのターミメータを含むことになる。これらのワードはその各 々がその中の所定位置で反復する1つまたはいくつかのグリフを含むかぎり示さ れ続ける。
貸借対照表を識別するのに使用される他の方法としでは、右側位置調整が一般に 数字の桁を示唆するので1つまたはそれ以上の桁の右側位置調整がある。
こうして、文書形式解析手続きが知識ベースの特定の表または他の部分において 与えられて入力文書が充分に反復ネームプレートに相当するかどうかを判断する 方法および技術を使用することは了解されたい、後に説明するように、上記の解 析か入力ベージが実際に成る特定形式の文書であることを示す場合には、この判 断に基づいて成る特定の解読ルーチンが選定される。一方、入力ベージが知識ベ ース内の文書形式ネームプレートのいずれとも合致しない場合には、文書形式は 判断され得す、普通の英文テキストであるという結論か引き出される。
文書形式解析手段28が文書形式を識別してしまうか、あるいは、その文書形式 が確定し得す、ページが標準の英文テキストのそれであるという結論に到達シた ならば、解読手段30(第1図)はそのページ上に表れているグリフワードを解 析1ノてそのページ」−のグリフに相当する特定の言語記号を識別する。
解読手段30(第1図)は、基本的に、グリフ要素およびグリ・フワードについ て種々の機能ステップを実行してこれらの記号な復号あるいは解読する汎用計算 機に含まれる論理回路あるいはソフトウェアを包含する。これについて、第10 A図および第10B図に解読手段を包含する機能ブロックが示しである。さらに 、第10c図には、第10A図および第10B図の特定の解読ルーチンが示して あり、これらの解読ルーチンは文書形式解析手段28(第1図)によりてなとし て成る種め選定形式の文書、たとえば、手紙、財務報告書および通常のテキスト について実行される。
ここで、まず、グリフ文字およびグリフ数字を解読するのに使用される技術およ びルーチンか一般にグリフの地理または形状に依存せず、グリフか現れる文脈に 依存することを指摘したい。この文脈というのは、ページ上の種々のグリフの間 の相互関係、成る特定のグリフが現れる頻度、成る特定形式の文3上のグリフの 位置等(これは先に述べである)をを味する。グリフ数字に関して、暗号演′Q 技術か使用されてグリフ数字か現れる文脈からも個々の数字↑−なゎらディジッ l−を識別する。さらに、多数べm−うノ文書を解析する際には、装と20は原 稿の習慣、たとえば、連続ベージ番号付け、連続脚注番号(=jけ答を11用し てグリフ番号に関する情報を与える。前記の未知数字を復場4″s暗号演算技術 は以下「暗号演算解析」と呼ぶ。しかしながら、ここて、そのテキストページに ある数字の量か暗号演算解析技術を適用するには不充分である場合(通常のテキ ストや業務用手紙てはしばしば起こる)には、普通の形状解析技術の代りに暗号 演算解析技術を使用して数字を復号することかできる。しかしながら、文書形式 解析手段28かその文書か財務報告書であると判断したならば、暗号演算解析を 使用してそのページ上のグリフ数字を識別するのは容易である。
第10A図および第10B図を参照して、解読手段のブロック302は文書形式 解析手段28から受け取った情報に基づいて解読プランを選定する。さらに、第 10A図および第10B図に示すルーチンが分離手段26によって与えられたよ うにグループ化されたグリフ情報36を利用する。解読プランかブロック302 で選ばれたならば、ブロック304が「パス」カウンタ(すなわち、解読ルーチ ンの反復回数を記憶するカウンタ)を値1にセットする。次に、ブロック306 か、現パス中に使用しようとしている適切な解読ルーチンを、それに伴なう文書 形式および先のパス中に完了したルーチンに基づいて判断する。このとき、ブロ ック306の選ぶことのできる解読ルーチンは知識ベース表(後に説明する)か ら地理的な特定のキーワード索引を実行するブロック308と、知識ベース表( 後に説明する)から文字頻度および二重文字判断を用いて類ワード解析を実行す るブロック31書を用いてパターンマツチングを実行するブロック312と、知 識ベース表(後に説明する)から完全辞書を用いてパターンマツチングを行なう ブロック314と、知識ベース表(後に説明する)から暗号演算解析を実行する ブロック316とを含む。
特定の解読ルーチンが選定され、実行されたならば、決定ブロック320が先の パス中に得られた結果に矛盾があるかどうかを判断する。矛盾がある場合には、 ブロック324がその矛盾を解析し、これらの矛盾の性質に基づいて先に真実で あると考えられた選定グリフ/文字相似点から成るものを除く。次に、ブロック 324かパスカウンタを成る値にセットし、生じた矛盾の性質およびタイプに応 じて、これら矛盾した結果を生じた解読ルーチンを反復させるか、あるいは、他 の先に完了した解読ルーチンの1つまたはいくつかを反復させる。
一方、ブロック320が矛盾なしと判断したならば、決定ブロック328かあい まい語句か残っていないかどうかを判断する。もしあいまい語句(すなわち、解 読されなかったグリフ)か残っている場合には、ブロック330がパスカウンタ を1だけ増分させ、ブロック306かページの文書形式分類に基づいて次の解読 ルーチンを選定し、実行する。しかしながら、ブロック328かあいまい語句を まったく持っていない、すなわち、グリフのすべてか確定されてしまっていると 判断したならば、ブロック332が機械可読コードを入力手段24で入力された 既知グリフに置換し、入力ページの機械コード表示を定める。
さらに、多数ページ文書において、文書の任意の特定ページ、たとえば、最初の ページについてグリフ/文字相似点かひとたび確定されたならば、この情報は文 書の他のページを解読するのに適用される。その目的のために、文書の残余のペ ージは容易にたとえば機械可読コードに翻訳され、しかも、最初のページを解析 するのに使用された解読ルーチンを反復する必要がない。さらに、装置2oの成 る任意の特徴によれば、多数ページ文書を間隔久方手段に送り込んでいる人間が 文書を構成しているページの数をキーボードその他第10C図を参照して、解読 ルーチンの動作を考察する。その目的のために、文書形式解析手段28が入力文 書か手紙であると判断したならば、成る特定の解読スキームが選定される。この スキームはブロック308Bで始まり、地理的特定キーボード索引(後に説明す る)を実行し、その後にブロック310Bで文字頻度・二重文字解析(後に説明 する)を用いて類ワード解析を行ない、ブロック312Bて限定辞書(後に説明 する)を用いてパターンマツチングを行ない、最後にブロック314で完全辞書 (後に説明する)を用いてパターンマツチングを実行する。
しかしながら、文書形式が財務報告書であると判定されたならば、別の解読スキ ームが選定される。このスキームはブロック306Cで地理的特定キーボード索 引(後に説明する)を実行し、ブロック312Cで限定辞書(後に説明する)を 用いてパターンマツチングを実行し、ブロック316で暗号演算解析(後に説明 する)を実行し、最後にブロック314で完全辞書を用いてパターンマツチング (後に説明する)を行なう。
文書形式が平易テキストであると判断されたならば、また別の解読スキームが選 定される。このスキームは「文字」ルーチンの短縮バージョンであり、ブロック 310で始まって文字頻度・二重文字解析を用いて類ワード解析を行ない、ブロ ック312で限定辞書を用いてパターンマツチングを実行し、最後にブロック3 14で完全辞書を用いてパターンマツチング第10C図に示す文書形式解読ルー チンを以下に説明する。
ブロック308で実行されるような地理的特定キーボード索引は、基本的には、 装置の知識ベース表に格納され、伴なう特定形式の文書に基づいた適当なキーボ ートを選定する手段を包含する。ブロック308は、したかって、これらのキー ボードか成る所定の場所でべ一番上に現れるかどうかを判断する。たとえば、文 書が手紙であることがわかっているならば、rsincerelyJ、rRes pecful 1yyoursJ等のキーボードがページの底に向って検索され る。
ブロック310で実行されるような文字頻度・二重文字解析を用いる短ワード解 析は、基本的には、知識ベース表に格納されている成る種の頻繁に現れる短ワー ドを解読する一組のルーチンを含む、たとえば、ワードrtheJかこのワード に含まれる成るグリフまたはその組合わせの出現頻度に関する情報に基づいて検 索され、識別される。
ブロック312で実行される限定辞書を使用したパターンマツチングは、基本的 には、そのグリフ文字のいくつかが確定されているグリフワードを知識ベース表 に格納されている限定辞書内のワードと比較してこれらのグリフワードか限定辞 書内のワードの任意のものに相当する文字パターンを含んでいるかどうかを確認 する。ここで、限定辞書は特定の言語で最も普通に使用されるワードのリストを 含んでいる。
ブロック314で実行される完全辞書を用いたパターンマツチングはブロック3 12で実行されるルーチンに類似しているが、たたし、グリフワードが知識ベー ス表に格納されたもっと大きいワードリスト、たとえば、Webster’ s UnabridgedDictionaryのような完全辞書に含まれるワード すべてと比較され、この辞書内のワードに対応する成る種のグリフワードを識別 する。
ブロック316の実行する暗号演算解析は、基本的に、知識ベース表に格納され た種々の数字規則および他の解析手段を用いてディジットが特定のグリフ数字に 対応するかどうかを判断する。これらの方法は、一般に番号ゲームと組み合わさ れるが、しばしば、グリフ/数字相似点を確定するに充分な情報を提供する。
たとえば、業務用手紙の成るページの頂縁に隣接した4つの連続グリフのストリ ングの最初のプリンはたぶん年の最初の数に相当する数字1である。これらの方 法には成る形式の文書、たとえば、財務報告書に現れるときはいっでも数学の式 および関係に基づく情報を導き出す手段も含んでいる。
種々の解読ルーチンの一般的な説明を行なってきたが、これらのルーチンを実行 する種々の機能手段を以下にもっと詳しく説明する。ブロック310で実行され る短ワード解析・二重文字解析か第11図に一層詳しく示しである。その目的で 、類ワード解析手段は、基本的には、ブロック340.344.348.352 .356.360,364を含む。プロ・ンク340はプロ九ツク216(第2 図)で確定されたグリフワードのすべてを4つの別個のカテゴリに分類する。こ れらのカテゴリは、1つのグリフ文字を含むワード、2つのグリフ文字(二重文 字)を含むワード、3つのグ、リフ文字(三重文字)を含むワード、4つ以上の グリフ文字を含むワードである。表1.1には単一文字グリフ出現衣か示しであ る0表1.2.1は二重文字/合掌グリフワードを示す0表1.2.2は文字・ 句読点記号二重文字プリン、合掌出現表を示す。表1゜2.3は3文字三重文字 グリフ・合掌出現表を示し、このグリフワードのカテゴリに関する情報はブロッ ク340からブロック344に送られる。ブロック344は単一の文字のみを含 むグリフワードカテゴリから文字raJ、rIJについてのありそうな候補をす べて確定する。「I」およびraJは一般に1文字ワードとして現れる英単語で あるから(ただし、二重キャブチャードホワイトを含む事実によって容易に識別 される引用符“を除く)、1文字ワードとして現れ、二重キャブチャードホワイ トを含まないグリフはraJまたはrIJのいずれかと仮に判断される。
ブ、ロック344の出力は次にブロック348に転送される0次に、ブロック3 48は4以上のプリン文字を含むすべてのワードについて先頭二重文字解析を実 行する。先頭二重解析は、単に、2つの文字(与えられた特別の順序における2 つ文字)か成るグリフワードの最初の2文字として最も頻繁に現れるということ をカウントすることを意味する。したがって、ブロック348が、2つの文字が 4つ以上の文字を含むグリフワードの最も頻繁な最初の2文字であるかどうかを 判断する。たとえば、ワードr t h r o w Jについての先頭の二重 文字は文字rthJを表すグリフ対である。4つ以上の文字を含むワードで二重 文字が最も頻繁に現れることについての情報は、以下に説明するように、ワード rthejを判断するのに使用される技術を含む成る種の暗号解析技術を実行す る際に有用である。
このとき、ブロック352がワードrtheJを識別する。ワードrtheJは 英語では最も普通に使用されるワードであるから、ワードrtheJが所与のテ キストページにおいて1回以上現れるということが非常のありそうである。した がって、ブロック352か成る種の暗号解析技術を実行してそのページ上のグリ フワードのどれが英語ワードrtheJに対応するかを判断する。明らかに、ワ ードrtheJに相当するグリフワードを位置決めすることによって、文字rt J、rhJ、reJに相当するグリフが判断されチャートに一層詳しく示しであ る。特に、ワード「theJを確定する最初のステップはブロック370によっ て実行される。このフロック370はまさに3つのグリス文字を含むグリフワー ドのすべてを取り込む手段を含む、ワードrtheJを識別する次のステップは ブロック374で実行される。ブロック374は反復グリフ文字を含む3文字ワ ードのすべてを考察から除く、明らかに、2つ以上の同じグリフを含む任意のワ ードはワード「the」であり得ないと推論しても安全である。。次に、ブロッ ク378かそのページ上の6つの最も普通に出現するグリフのすべてを考慮から 外す。文字reJは英語では最も頻繁に出現する文字であるから、3グツ7文字 ワードのうちの最後のグリフよりもページ上に頻繁に現われる6つの他のグリフ がある場合には、3グリフ文字ワードの3番目のグリフは文字reJに対応せず 、したがって、このグリフワードはワードrtheJてあり得ない。次に。
ブロック382かブロック344(第11図)で確定されたような文字raJま たはrIJのいずれかの候補であるグリフを含むグリフワードを排除する。次に 、ブロック386か最初の2文字かそのページに現れた任意の2文字ワードと一 致するワードを排除する。明らかに、3文字ワードの最初の2文字がそのページ 上の2文字ワードとして任意の順序で現れるならば、これらの2文字がrtJ、 rhJではなく、このワードかrtheJでないと判断しても安全である。この 時点て、ワードrtheJについてまたいくつかの候補か残っているならば、ブ ロック390か最初の2文字が4つ以上の文字を含むワードについて最も普通に 出現する二重文字とそのままの順序で一致し、これかワードrtheJであると 判断する。この結論は、二重文字rthJが4つ以上の文字を含むワードについ ての英語の最も頻繁に出現する二重文字であるという事実によって引き出される 。
さらに、装置20か第12図に示されたテストに類似し、他の普通に出現するワ ードを識別する付加的なテストを含む。
第11図を参照して、ブロック352がワード「theJを識別したならば、文 字rob、raJ、「i」をブロック356で判定する。ここで、文字rtJ  SよびrhJについてのグリフかブロック352によってなされた判断に基づい て既知であるという事実か与えられているので、文字roJに相当するグリフも 、まさに2つのグリフを含み、文字rtJに相当するグリフて始まる英単語がワ ードrtoJであるから、容易に確定され得る。
さらに、ブロック356は1文字rt4、rhJに対応するグリフか既知であり 、英語の4文字ワードの文字rthJと文字rtJの間に位置し得る唯一の文字 はraJであるから、ワードrthatJから文字raJを識別する。raJが ひとたび識別されたならば、「i」も、ritJおよびratJか文字rtJて 終る2文字ワードであるから、ワードrit」から容易に識別され得る。
次に、ブロック360が同様の解析技術を利用して文字rsJ、rf」、rnJ に相当するグリフを識別する。これらの文字を識別するテストは、一般に、次の 類ワード、すなわち、「Of」、ronJ、「it」、risJ、rinJ、「 5o」、rnoJ。
rasJ、ranJについての解析を含む。
同様に、ブロック364がワードrandJ、「forJおよびrthereJ を解析することによって文字「d」、「r」、に相当するグリフを識別する8限 定辞シを用いるパターンマツチングは第13図のフローチャートに示されるよう にブロック312によって実行される。このとき、限定辞書パターンマツチング は、基本的には、ページ上の威名グリフワードをそれらのグリフ文字パターンを 知識ベース表の限定辞書に含まれる普通に出現するワードの既知文字パターンと 比較することによって識別する手続きを包含する。未発明の好ましい実施例では 、限定辞書に含まれるワー1’は&′J I O0個であり、特定の言語、たと えば、英語て最も普通に出現するワードを含むように選定されている。また、限 定辞書はブロック28から得られた文月形式情報に基づく特定の知識へ一7′2 1.がら得られた限られ1こ数の伺加的なワードも含む。たとえば・ブロック2 8かこの人カベーシを財務諸表と分類したならば、限定辞書はrAssetsJ やrLiabilitiesJのようなワードを含むことになる。適当な限定辞 書がブロック400によって選定されたならば、ブロック404がその辞書の最 初のキーボードを選定し、テキストの最初のページにあるグリフワードと比較す るや次に、決定ブロック408がそのページ上の各グリフワードと組み合った文 字パターンを最初に選定したギーボー14の文字パターンと比較し、一致がある かどうかを判断する。
この文字パターン比較は辞書ワード、グリツツ−1<の両方のそれぞれの文字を raJで始まる任意の文字に割り当てることによって行なわれる。一層詳しくは 、ワードの最初の文字が文字raJに割り当てられ、先の文字の繰替しでないワ ード内の次の文字か「b」に割り当てられるという具合に、任意の反復文字が最 初に現れた文字に最初に割り当てられた同じ任意文字に割り当てられる。したか つて、ワードrass e t s JについてのパターンはrabbcdbJ であり、ワードrliabilitiesJについてのパターンはrabcdb abebf gJである。同様に、成るページ上の各グリツツ−)−もまったく 同し要領で文字raJて始まる文字を割り当てられる。したかって、マッチンク プロセスの最初のステップは選定したキーワードに割り当てられた文字パターン を比較することを伴ない、この文字パターンかそのページ上に現れたグリフワー ドの各々に割り当てられる0選定キーワードの文字パターンとそのページ上に現 れたグリフワードの文字パターンに一致かあれば1文字/クリフの一致かありそ うたと認識される。そのページ上にグリフワードのいずれもが選定キーワードと 同しパターンを持っていないならば、そのページ上にはキーワードがないと判断 される。その目的のために、決定ブロック408で一致か示されない場合、この 情報は決定ブロック410に与えられ、この決定ブロック410か比較のために また選定されていないかったキーワードか他にあるかどうかを判断する。まだ選 定されていない余分なキーワードかある場合、限定辞書内の次のキーワードがブ ロック414によって選定され、装置は決定ブロック408に戻る。ブロック4 08はこの次の選定キーワードと組み合わされたパターンがそのページ上に現れ ているグリフワードパターンのいずれかと一致するかどうかを判定する。この手 続きは、ページ上に現れた1文字パターンか現在選定されたキーワードと一致す る1つまたはいくつかのグリフワードであるかどうかをブロック408が判断す るまで続く。これが生じたとき、ブロック418かマツチングパターンを含むす べてのグリフワードのリストからマツチングパターンを含む最初のグリフワード を選定する。次に、決定ブロック422は、選定グリフワードにあるグリフ文字 のいずれかか先に完了した解読ルーチンの1つ、たとえば、短ワード解析を使用 して先に確定されていたかどうかを判断する。
グリフ文字の1つまたはいくつかか既に確定されているならば、ブロック422 は先に確定されたグリフ/文字相似点のいずれかかグリフワード(その既知のグ リフ/文字相似点を含む)を選定辞書ワードと比較することによって矛盾してい るかどうかを判断する。
たとえば、先の解読ルーチンが文字rsJに相当するグリフを識別していた場合 、たとえ同じ文字パターン、すなわち、rabbcdbJを持っていても、グリ フワードrattestJがキーワードrassetsJと一致しないことにな る。しかしながら、もし、既知のグリフ/文字相似点が成り立つ、すなわち、矛 盾することかない場合には、この情報はブロック426に与えられ、このブロッ クは後に説明するようにグリフワード内の対応グリフと選定辞書ワード内の文字 の仮の相似点を定める。次に、文字パターンが選定辞書ワードに含まれるパター ンと一致する任意付加的なグリフワードかあるかどうかを判断する。このような 付加的なワードがあれば、ブロック430がパターンが辞書ワードのパターンに 一致する次のグリフワードを選定し、装置20かブロック422に戻って、再び 、この次のグリフワードか選定ワードであると仮定した場合に既知のグリフ/文 字相似点が矛盾するかどうかを判断する。一方、決定ブロック428によって確 定されたようなマツチングワードパターンか他にない場合、決定ブロック410 かそのページ上にあるグリフワードといまだ比較されていない任意の付加的なキ ーワードがあるかどうかを判定する。そのページ上にあるグリフワードといまだ 比較されていない付加的なキーワードか限定辞書内にある場合には、次のキーワ ードかブロック414によって選定され、パターンマツチングプロセスがブロッ ク408から始まって反復される。
既知のグリフ/文字相似点が有効である場合、決定ブロック422かこの情報を ブロック426に与え、このブロック422は実際にキーワード内の文字とグリ フワード内のグリフの相似点かあるという確信を強める。しかしながら、ブロッ ク426によって定められたような文字/グリフ相似点における強まった信念か グリフワード内のグリフが選定辞書ワードの組み合った文字に相当するという絶 対的な判断ではないということに注目されたい、むしろ、ブロック426は成る 特定の文字/グリフ相似点が実際に正しいという可能性に関する重みの付いた判 断を行なう手段と()で相互参照マトリックスを定める。この相互参照71へソ ックスは1つの軸線(たとえば、Y軸線)に沿って配置された1桁のグリフと別 の軸線(たとえば、X軸線)に沿って配置された1行の文字とを含んで形成され る。したがって、このマトリ・ンクス内の任意の要素の値(その数学的な意味で 項要素がここで用いられてマトリックス内の任意のx、y位置を示す)は桁、行 がそれぞれその要素と交差する文字、グリフ間に示唆される相似量と組み合わさ れた値である。その目的て、マトリックス内のすべての要素の値は限定辞書マツ チングルーチンが始まったときにゼロに初期化される。しかしながら、ブロック 422か成るマツチンググリフ/ワード文字パターンか先の既知のグリフ/文字 相似点と矛盾しないと判断したときはいつでも、ブロック426がグリフフート 内のグリフと一致すると考えられる辞書ワード内の各文字について特定のグリフ の行および文字の桁の交差点に相当するマトリックス内の要素をまたけ増分する 。このとき、ブロック408か成る選定辞書ワードが成る特定のワードと一致す ることを確定し、ブロック422が先に知られた(すなわち、先の解読ルーチン から知られた)グリフ/文字相似点のいずれもか矛盾していないと判断する毎に 、ブロック426はマツチングワード内に含まれる各グリフ/文字相似点毎に各 文字桁およぼそれに対応したグリフ行の交差点に相当するマトリックス内の要素 の値を増分させる。
このループは、限定辞書内のキーワードのすべてがそのページ上のグリフフート のすべてと比較されたとフロック410か判断するまて続き、この時点で、ブロ ック434がブロック426によって作られた相互参照マトリックス内に含まれ る情報を評価する。相互参照マトリックス内の種々の要素の値か成る特定のグリ フか成る特定の文字に対応することを示唆するとのくらの証拠か得られたかに対 応するので1本発明の好ましい実施例はマ)−リックス内の最高値要素をまず位 置決めし、次にこの要素に対応する文字、グリフか同等であると仮定することを 実行する評価スキームを使用する。この判断かひとたひなされると、この特定の グリフおよび文字に組合わせたマトリックスの行、桁(すなわち、その要素と交 差する行、桁)がクリアされる。すなわち、その行、桁に沿って位置したすべて の要素が値ゼロに変えられる。その行、桁についての値がゼロにセットされた後 、マトリックス内の新しい最高値要素か位置決めされる。この新しい最高値を有 する要素に対応する文字、グリフが次に互いに一致すると仮定され、その行、桁 もゼロにセットされる。このプロセスはマトリックス内の行、桁のすべてかクリ アされてしまうまで続く、この時点で、この手bcきが文字/グリフ相似点につ いてほぼ正確な判断を行なっているか、成る程度のエラーかときに生じることか あるつもしそうなったならば、第10B図に示すような他の種々のルーチン30 8〜316のどれかを選定してグリフの引続く処理中にエラーは矯正される。
本発明の別の実施例では、相互参照マトリックスを「解決」するためのさらに精 巧なスキームを利用する。このさらに精巧なスキームはブロックの限られた明す るし、図面に破線て示しである)の使用とを伴なう。このスキームでは、ブロッ ク438はこのような相似点と組み合わされたマトリックス位置の要素値か成る 所定の値rnJを越えた場合に文字をグリフと同じに扱うというだけである。成 る時点でマトリックス内の最高値要素(ブロック434によって決定される)が 値rnJよりも小さいならば、値がrnJよりも小さいこれら文字/グリフ相似 点かブロック438によって互いに等しく扱われない。次に、ブロック442か マトリックス内のグリフのすべてが識別されたかどうかを判断する。もしそうで なければ。
フロック442はこの情報をブロック404に戻し、ブロック438によって有 効であると既に判断された文字/グリフ相似点を用いて全限定パターンマツチン グルーチンか繰り返される。この多数パスルーチンは、文字/グリフ相似点のす べてが確定されたか、あるいは、ループを通して先のパスでなんら余分な文字/ グリフ相似点が確定されていないと決定ブロック442が判断するまで続く。
キーワード文字のすべてが確定されるか、あるいは、ブロック434を通る先の パスで付加的な情報が得らねない場合には、限定辞書パターンマッチングルーヂ ンか完了1ノ、終了したものと考えられるつ第1OC図の地理的特定ギーワー1 へルーチン308は、入力ベージか文R形式解析手段28によって成る特定の形 式の文書のベージであると分類された場合に使用される。ここで、地理的特定キ ーワード索引手続。
きか第14図のフローチヘ・−トに一層詳lノ〈示しである。この[1的のため に、ブロック480か約3から12のキーワードを含む適当な地理的特定キーワ ードリストをそれに伴なう文占形式に応じて選定する。このキーワードリス1〜 は知識ベースの表内にあり、成る特定形式の文書のページ上の成る所定の地理的 位置に出現しそうなワードを含む。たとえば、この文書か先に述べたように業務 用手紙であると仮定ずれば、ワードrsincerelyJまたはrRespe ctfully yoursJのいずれかに相当する文字パターンかベー・ジの 右側下方に向っC現れることか予測される。キーワード索引手続きの別の例とし ては、貸借対照表として知られた文書上の成る場所にワードrASSETSJあ るいはrLIABILITIES」を捜すことである。
ブロック480か知識ベースから適当なキーワード・リストを選定したならば、 ブロック484で実行されるような次のステップはそのページ上の最初の地理的 位置(たとえば、左上角隅)を選定し、それを評価することである6次に、プロ ・ンク48Gかそのべ−・ジ」二の最初に選定された地理的位置か文字パターン か選定キーワードリスl−内のキーワードの任意のものの文字パターンと一致す るグリフフートまたはグリフワードのブロックを含むかどうかをII liする 。このようなパターンの一致かあるならば、決定ブロック486はこのjk報を 決定フロック488に今一λる。次に、ブロック488かグリフワードかキーワ ー1−と一致するど仮定することによって既に確定されたグリフ/文字相似点の いずれもか有効てない(」−なわち、矛盾する)かとうかを判断する。もし先に 確定されブこグリフ、/文字相似点か矛盾しなければ、それぞれのワード内の文 字、グリフか一致するという確信か強められる。これは先に述べたブロック42 6(第13図)で設定された相1L参照マトリックスと同じ相互参照マトリック スを定めることによってブロック490で行なわれる。
したがって、ブロック490て定められたマトリックスはゼロに初期化され、そ の要素はブロック426で定められたマトリックスに関して先に述べたとそっく り同し要領て増分される。プロ・ンク490か仮定した相似点に相当するマトリ ックス内の要素位置をひとたび増分させたならば、決定ブロック492かまた処 理されていない、すなわち、選定キーワードと比較されていない付加的な地理ベ ージ場所かあるかどうかを判断する。もしあれば、ページ上の次の地理的な場所 かブロック500によって選定される9この次の位置かフロック500によって 選定されたならば、選定位置を選定キーワードパターンと比較するプロセスはブ ロック486で始めて繰り返される。またさらに、ブロック490は上述の要領 と同じ要領でグリフワード内のグリフに一致すると考えられる選定ワード内の各 文字に相当する相互参照マトリックス内の要素を増分する。しかしながら、成る 時点で決定ブロック486か成る特定の地理的場所におけるグリフがキーワード パターンのいずれにも一致していないと判断したならば、あるいは、成る時点で ブロック488が成る特定のグリフワードを成るキ・−ワーl−と等しくするこ とによって先に確定されたグリフ/文字相似点か矛盾すると判断したならば、ブ ロック490によって実行される操作はバイパスされ、ブロック492か再びい まだ処理されていないページ上の任意の地理的位aが他にあるかどうかを判定す る。このループは地理的位置のすべてか処理されてしまったとブロック492か 判断するまで続く。
すべての地理的位nが処理されたならば、ブロック504は先に説明した限定辞 占パターンマツチングルーチン中にブロック434(第13図)によって行なわ れたと同じ要領て相互参照マトリックスを評価する。しかしながら、地理的特定 キーワード索引のための比較の範囲が非常に制限されているので、相互参照マト リックスを解くときにエラーか発生する機会は少ない。したがって、マトリック スを通るただ一回のバスでほとんど常に充分である。換言すれば、第13図の限 定パターン辞書マツチング手続きの別の実施例て行なわれたように最も凸−通に 出現するグリフ/文字相似点について最初に解決する必要はない、すなわち、全 マトリックスかただ一回のバスで解決され得る。地理的特定キーワード索引プロ セスにおける最終的なステップはブロック508によって行なわれる。このブロ ック508は特定の文字に対応すると考えて安全であるグリフのすべてをこれら グリフををそれらの対応文字にそれぞれ記憶ポインタを割り当てることによって 等しく扱う。したかって、ブロック50Bによって文字に等しくされたタリフは 引続く解読ルーチンの目的のために知られているものと考えられる。
第1 QC図のブロック314によって行なわれるような完全辞書パターンマツ チングルーチンが第15図のフローチャートに一層詳しく示しである。この完全 辞書パターンマツチングルーチンは上述の限定辞書パターンマツチングルーチン と同一ではないが類似している。完全辞書パターンマツチングルーチンは完全辞 S、たとえば、Webster’s Unabridg6d Dictiona ryに含まれるワードのすべてと同じワードリストを使用し、限定辞書に含まれ るよりも多いワードを含む。ブロック520は適当な辞S、たとえば、完全辞書 を選定し、ブロック524か入カベーシに現れた最初のグリフワードを選定する 。次に、決定ブロック528が選定グリフワード内のグリフのrnJパーセント (nは成る所定の数であり、普通は約50である)以上か既知のグリフ/文字相 似点を持っているかどうかについて判断を行なう。
グリフワードに表れるタリフ文字のたとえば50%を超えたものか既知のグリフ /文字相似点を持っているならば、完全辞書内に表れるワードのいずれかがグリ フワードのプリンパターンと一致する文字パターンを有するかどうかについて判 断がブロック532によってなされ、それらの間に一致かありそうなことを示唆 する。辞書内のワードの1つまたはいくつかが選定グリフワードのパターンと一 致する文字パターンを含んでいる場合、決定ブロック536が既知のグリフ/文 字相似点が有効であるかどうかを判断する。もしそうであれば、この情報はブロ ック540によって設定された相互参照マトリックスに入力される。ブロック5 40によって設定されたマトリックスは第13図・第14図のブロック426. 492のそれぞれによって設定された相互参照マトリックスに類似している。特 に、ブロック540で設定された71−リツクスはゼロに初期化され、明らかな グリフ/文字相似点に遭遇したときはいつでも上述のマトリックスと同じ要領で 増分される。したがって、ブロック540によって設定された相互参照マトリッ クスおよびその評価の方法は、他のマトリックスに関連して既に先にかなり詳し く説明したので、ここでは詳しく説明しない。
マトリックス540か設定され、評価された後、決定ブロック544かそのペー ジ上に完全辞書に挙げられているワードといまだに比較されていないグリフワー ドかあるかどうかを判断する。もしある場合には、ブロック548か比較すべき 次のグリフワードを選定する。この次のグリフワードは上述のようにブロック5 28.532等によって処理される。成る時点てブロック528が選定グリフワ ード内のグリフのrnJより少ないパーセントが既知であると判断するか、ある いは、ブロック532が選定グリフワードトのグリフバーセントが辞書内のパタ ーンのいずれとも一致しないと判断するか、あるいは、ブロック536か既知の グリス/文字相似点か有効でないと判断したならば、ブロック540で行なわれ る操作はバイパスされる。次に、ブロック544がページ上にいまだに解析され ていないグリフワードかあるかどうかを判断する。
そのページ上のすべてのワードか解析されたならば、決定ブロック552が先の バス中になんらかの有効な情報か得られたかどうかを判断する。成る種の有効な 情報か得られたならば、ブロック556かフロック540で設定された相互参照 マトリックスを評価してこの情報に照らしてなんらかの付加的な文字/グリフ相 似点を確定し得るかどうかを判断する。次に、ブロック560か適切な場合に対 応する文字、グリフを互いに等しくする。文字/グリフ相似点がブロック560 によって互いに等しくされたならば、完全辞吉パ返されるか、これは今や既知の 相似点として新lノく確定されたグリフ/文字相似点を含んでいる。このループ は決定ブロック552かこのループを通る先′のバス中になんら付加的な有効情 報か得られなかったと判断するときまで続き、この時点で、完全辞書パターンマ ツチングルーチンか完了と判断され、終了する。
成る形式の文書、たとえば、財務報告書の場合、多量の数字があるのが普通であ る。したかって、文書形式解析手段28(第10C図)が入力ベージか財務報告 書の一部を構成していると判断した場合、ブロック28で選定された解読スキー ムはブロック316を含む、ブロック316はグリフ数字について暗号演算解析 を実行してそれに相当する計算機可読ディジットを識別する。このとき、暗号演 算解析は成る種の文脈情報すなわち「トリック」を用いてグリフ数字に相当する ディジットまたは数字の識別に通じそうな情報を抽出する種々の技術を使用する 。この情報は数式、桁等に表れるグリフ数字の数学的関係の解析を通じて、ある いは、数値を示唆する特殊化された方法で使用されるグリフ数字から得られるこ とが多い。
暗号演算解析の性能が第16図のフローチャートに示しである。ここでわかるよ うに、ブロック700は装置の知識ベースから数値表情報を取り込む。その後、 ブロック704(後に説明する)か適用されるべき種々の「制限セラ1〜」 ( 後に説明する)を判定し、ブロック708(後に説明する)かグリフをディジッ トゼロであるとして考慮から外すべきと判断する。その後、ブロック712(後 に説明する)がグリフ数字の合計の先頭のディジットについてのありそうな値を 制限する。このアクションの後、ブロック716(t&に説明する)か「二重規 則」と呼ばれるものに基づいた成る評価を通じてグリフ/ディジット平等性を制 限する。最後に、ブロック720(後に説明する)が代数式に対する解答に基づ くグリフ値を確定する。
機能ブロック700〜720の詳細を説明する前に、まず、ブロック700が入 力として数字またはディジットを表すと考えられるグリフのぐループに関する情 報を得ることを指摘しておかねばならない。ここで、先に述べた種々の暗号技術 を用いて解読することのできないグリフは数字と考えられる。
ブロック700〜720の動作は次の通りである。
すなわち、今説明したフロック700の動作の後に、ブロック740か種々の「 制限セット」を選定し、これらの「制限セット」はグリフ数字に適用されてそれ らのありそうな相当値を制限する。「制限セット」というのは、成る特定のグリ フに相当するディクツ1へ値を意味する。たとえば、先行の解読ルーチン、たと えば、地理的特定キーワード索引ルーチン308か財務報告書あるいは業務用手 紙内のグリフの成るぐループを日付、たとえば、rDeeembcr glX2 、g3gs gs gg J (ここで、gnはディS゛・ットグリフを表す) と識別した場合、グリフg1かディジ・V +−「1」、「2」または「3」の いずれかであり、したかって、その制限セットはディジ・、y l−r I J 、「2」、「3」のみを含むと結論°Cきるう同様に、グリフrg3jについて の制限セットはただ1つのディジット、すなあち、ディジット「1」である、こ れは貸借対照表または業務用手紙の年における最初の数字LtrlJと仮定して も大丈夫だからである。
ブロック704は暗号演算相互参照マトリックスも形成する。暗号演算相互参照 マトリックスは1つの軸線、たとえばY軸線に沿ってグリフ数字を、別の軸線、 たとえば、X軸線に沿って数字またはディジットを配置することによって形成さ れる。ここで、成る特定のグリフの行、ディジットの桁の交差点に相当するマト リックス内の任意の要素の値(すなわち、X、 Y位置)は、特定のディジット か成る。11限セッI−に含まれているかどうかに依存して、マイナス1(−1 )か、ゼロか、プラス1(+1)のいずれかである。特に、グリフ行、ディジッ ト桁の交差点に相当するマトリックス内の各要素は、特定のディクツ1−か前記 クリフ制限セッ1−のすべてに含まれていないならば値−1を割り当てられる。
したがって、値−1は成る特定のグリフか明確に成るディクツl−に一致し・な いことを示す。一方、成るデーtジ・y)−か成る特定のグリフ制限セットのす べてにあるならば、グリフ行、ディジット桁ど交差する゛7トすy7ス要素の値 は次の考察に基づいてゼロまたは一部1を割り当てられる6ずf2わち、このデ ィクツ)=か特定グリフのrべての制限セッI−内にある場合、まブー、それか そのグリフの宣Rセッl−の−jiべてにある唯一・のディジットである場合、 対応するマトリックス要素は値+1を割り当てらねる。しかしながら、2つ以上 のディジットか成る特定のグリフの制限セットのすべてに含まれている場合、そ の特定のグリフおよびディジットに対応するマトリックス要素の値はゼロである 。さらに、そのグリフおよびこのグリフの制限セットのすべてにある他のディジ ットに対応するマトリックス内の位置も値セロを割り当てられる。したがって、 容易に理解てきるように、a−1はグリフか成る特定のディジットに等しくない ことを示tノ、a+1はグリフか成る特定のディジ、ノドに等しいことを示し、 ゼロはグリフが成る特定のディジットに等しいかもし、れないことを示す。
上述の制限セットか相互参照マトリックスにすべて装架された後も対応するディ ジットかまだ確定されていないグリフ数字に関しては、さらに処理か実行される 。この処理はブロック708.712.716.720によって行なわれ、各ブ ロックは付加的な制限セットを導き出し、これらの制限セットか相互参照マトリ ックスに装架され、成る特定の行に含まれるゼロの1つを除いてすべて排除する 。最後に残ったゼロは値+1を割り当てられ、それが特定グリフの制限セットの すべてに現れ、したかって、そのグリフに一致しなければならにディジットであ ることを示す。
さらに、ブロック708がディジットゼロについてのありそうな候補として考察 からグリフ数字の先頭ディジットを除くことによって付加的な制限セ・ントを定 める。これは、便宜L、先頭にゼロを含む数字か通常書かれることがないからで ある。しかしなから、もし先行の制限セット解析を通じてディジットゼロに対応 するプリンか確定されているならば、ブロック708で実行されるような解析は 省略される。したがワて、この解析の結果は成る制限セットか各先頭クリフ誘に 定められ、これらの制限セットの各々かディクツ1〜ゼロを除いてすべてのディ ジットを含むということである。これらの制限セットは次いて上述のように相互 参照マトリックスに装架される。したかって、ディジットゼロに対応する桁と交 差するマトリックス内の要素はそれらの交差行か「先頭」のグリフに一致するな らば値−1を割り当てられる。
付加的な制限セットはブロック712によって設定される。ブロック712は数 学の規則を使用して付加的な制限セットを作る。この規則は一緒に加算された複 数の数字の合計かrnJディジットを有し、加数のいずれもがrnJはど多くの ディジットを持っていない場合に、合計の先頭ディジットについての制限セット か値がr m Jよりも小さいかあるいはそれに等しいすべてのディジットから なるというものである。ここで、r m Jは「nマイナス1」ディジットを持 つ加数の数である。さらに、1つ以上の加数がrnJディジットを持つ場合、合 計の先頭ディジットについての制限セットは「m」より大きいかあるいはそれに 等しいすべてのディジットからなる。ここで、r m JはrnJディジットを 含む加数の数である。もしただ1つのプリン数字かrnJディジットを含む1つ 以上の加数の先頭ディジットであるならば、’rmJは不変である。一方、先頭 グリフの数か2であれば、「m」はrm+IJとなり、グリフの数か3てあれば 、r m Jはr m + 34となる。さらに、rnJディジットを含む1以 上の加数における先頭グリフであるグリフの数か3より大きくなることはない。
したかって、ブロック712はこの規則に基づいて各式の先頭グリフについての 制限セットを計算し、これらの制限セットをブロック704によって設定された 相互参照マトリックスに装架し、したかって、グリフ数字とディジットの間のあ りそうな一致をさらに制限する。こうして、これらの付加的な制限セットを相互 参照マトリックスに装架することによって、1またはいくつかの特定のディジッ トに対応するマトリックス値がゼロであったグリフ数字のいくつかは、これら制 限セットに含まれる特定の情報に依存して、−1または+1のいずれかに変える ことができる。
ブロック716は「二重規則」と呼ばれるものを使用してさらに付加的な制限セ ットを設定する。この二重規則は成る桁内の2つの加数ディジットのうちの一方 か同じ桁の合計ディジットに一致する場合にその桁の他方の加数ディジットがデ ィジットゼロまたはディジット9となり得るという事実に基礎を置く。さらに、 桁が最右方ディジット(たとえば、1の位の桁)である場合、制限セットはディ ジットゼロのみを含み得る。またさらに、最右方桁の2つの加数のいずれもか合 計と一致しない場合には、そのいずれもかゼロに等しくなることはない。こうし て、これらのアルゴリズムすなわち数学的規則を用いて、付加的な制限セットか 作り出されれ、上述と同じ要領て相互参照71−ソックスに装架される。また、 減算式の場合、たとえば、c−b=aの場合、a+bはCに等しくなければなら ないという事実を認識することによって同様の規則が適用され得る。この単純な 変換を行なうことによって、減算式はあたかも加算式のように解析され得るのて 、二重規則を減算式に適用することが可能となる。
もし上述の制限セットのすべてが相互参照マトリックスに入力されCしまった後 もまだ値か゛確定されていないディジットかある場合には、ブロック720がペ ージ上の数字の代数関係を解析することによって設定された付加的な制限セット を用いて残った未解決のディジットを解決する。このとき、代数式に有効な解答 を確定する際に使用された機能ステップが第17図のフローチャートに一層詳し く示しである。
第17図でわかるように、代数式に有効な解答を確定するために、ブロック73 0かまず入力ベージとの2つの加数およびそれらの合計、すなわち、2加数式を 含む桁のすべてを位置決めする。これらの桁について、ブロック730は、さら に、3つのグリフ(2加数グリフかあるいは加数グリフと合計グリフのいずれか )のうちの2つが特定のそれぞれのディジットに対応するように確定されている 特定の桁を位置決めする。次に、フロック734か単純な数学的計算によつ゛C 前記桁の各々における未知のグリフに対してありそうな値を制限釘る。この場合 、2加数式を含む桁の2つのディジットか既知である場合、その桁内の3番目の グリフについて導き出された制限セットはせいぜい2デイジツトを含む、さらに 、特定の桁への繰り上りかあるかどうかかはっきりと知られている場合、この未 知のグリフについての制限セラ1〜は単一ディジットのみからなる。
ブロック734か次に上述の解析によって得た付加的な制限セットを相互参照マ トリックスに装架し、その後、決定ブロック738が3つのグリフのうちの2つ が既知である桁か他にあるかどうかを判断する。ブロック738が3つのグリフ のうち2つが既知である場合に付加的な桁がると判断した場合、この情報はブロ ック730に戻され、上述のようにブロック734によって実行された手続きか その桁について反復され、したがって、上述の要領と同じ要領て付加的制限セッ トを作る。しかしなから、ブロック738か3つのグリフのうち2つが既知であ る付加的桁かなんらないと判断したならば、決定ブロック742が2加数式に含 まれるグリフのすべてか確定されているかどうか、すなわち、ディジットに等し 、くされているかどうかを判断する。ブロック742 b)2加数式に含まれる グリフのすべてがディジットに等しくされていないと判断したならば、ブロック 746が前記グリフのうちの選定したものについての値を推測すべきであると判 断する。値が推測されるべきグリフ、すなわち、推測すべき最良のグリフは「最 も制限」されたグリフである。この「最も制限」されたグリフはその行が相互参 照マトリックス内で最゛も少ないゼロでを持つも゛のである。これらグリフのう ち2つ以上か等しく制限された場合、フロック746か成るディジットに等しく された1つたけのグリフを含む2加数式の桁の最大数にあるグリフを選定する。
これはこのグリフが最高の誘導a7能な情報内容を持っているからである。2つ 以上のグリフか等しい場合、1かランダムに選ばれる。
次に、ブロック750が選定されたプリンについての値を推測する。この推測は プリンの制限セットの各々に含まれる最低ディジットの選定にもつづいてなされ る。推測されたディジットは、後に説明するように推測が後に「リトラクト」さ れた場合に相互参照マトリックスがその先の状態に復帰され得るように記憶8さ れる。ノロツク750によってひとたび推測がなされたならば、上述の解析がブ ロック730のところから、フロック734.738,742を含めて繰り返さ れる。
成る時点でフロック742か2加数式のすべてのグリフかディジットに等しくさ れたと判断したならば。
この情報は決定ブロック756に送られ、この決定ブロックはこれらの値かその ページ上のすべCの2加数式に有効な解答なゲえるかどうかをIII断する。ブ ロック756の判断か解答かすべての2加数式について有効てないであるならば 、最後のリトラクトされなかった2つの加数推測がブロック760によってり1 −ラクトされるゆこれに関連して、成る推測かその制限セットか相互名照71− リックス内に装架され、また残っているときには「リトラクトされていない」ど 考えられる。逆に、「リトラクl−Jされた推測は先に除かれている先行推測で あり、すなわち、その制限セラ1〜が推測がリトラクトされてから造られたもの であり、相互参照マトリックスはその推測かなされたときの前の状態に戻される 。
したがって、ブロック760は相互参照マトリックスを最も近い推測がブロック 750によってなされる前の状態に復帰させるJ−とによって最後のリトラク1 −されていない2加数推測をリトラクl−するゆ次に、ブロック746が推測ず べき最良のグリフ(先に説明1)である)を確定し1.フロック750か選定グ リフのための別の推測をなし、ブロック730.734等かこの新lノい情報を 用いて式を解決する手続きを繰り返す。このループは、解答が実際にすべての2 加数式にどって有効となったとフロック756か′I!J1断するまで続く。こ の時点で、この情報はブロック764に与えられ、このブロック764は3つ以 上の加数を有する式から情報を抽出する。3つ以1;の加数な有する式から情報 を抽出するプロセスは後に説明する。この情報かひとたびブロック764によっ て抽出されたならば、決定ブロック770がり1−ラクトされていない2加数推 測が他にあるかどうかを判断する。換言すれば、ノロツク770は選定グリフに ついて推測1″べき別の値、すなわら、先に一層みられなかった値を選定し、有 効な解答をそれも作り出すかどうかを判断する。特定のグリフの制限セットのす べてに残っているディジットのすべてが先にリトラクトされたならば、第17図 の手続きは完了する。一方、リトラクl−されていない2加数推測か他にあるな らば、ブロック760は先に確定された有効解答を一時記憶バツファに記録し、 最後のリトラクトされていない2加数推測をリトラクトする。ブロック746は 、次に、既にリトラクl−されているものを除いて推測すべき最良のグリフを判 断する。次に、フロック750がそのグリフについての推測をなし、フロック7 30.734等によってなされた手続きか繰返される。このループは、リトラク トされていない余分な2加数推測か残っていないとブロック770か判断するま で続く。
3以りの加数を有する式から情報を抽出する手続きか第18図のフローチャート に一層詳しく示しである。ここて、それを行なう最初のステップは決定フロック 780によって行なわれる。ブロック780はグリフのすべてか既知であるかど うかを判断する。すべてのグリフか既知でないならば、この情報はフロ・ツク7 84に与えられる。ブロック784は最右方桁に最小未知数を有する式を選定す る。これに関連して、3以上の加数な有するすべての式の桁が右から左にチェッ クされ、最終的に、未知のグリフを含む各式毎に1つの桁か見出される。最小未 知グリフを持つ桁か選定されるのは、それか最高の情報内容を有し、最も容易に 解決できるからである。
次に、決定ブロック788かこれらの式の任意のものかただ1つの未知グリフを 含んでいるかどうかを判断する。ただ1つの未知グリフを含む桁かあったならば 、ブロック792かそのグリフについてのありそうな値すべてを含む制限セラl −を作り出す7さらに、未知のグリフは、その桁についての繰り上げ値力く知ら れているので単一ディジットに等しくされる。これに関連して、単一の未知グリ フを持った桁(よ未知グリフを含む桁の最右方にあるので、その右に桁かある場 合、その繰り上げ値は未知グリフを持つ桁の右にある桁(単数または複数)によ って構成される式を解決することによって計算される。もし単一の未知グリフを 有する最右方桁か絶対最右方桁、すなわち、「1桁」であるならば、その繰り− Lげ値はゼロであり、未知グリフの値はその桁についての式を解決することによ って計算される。
フロック792か未知グリフについての値をひとたび確定したならば、プロ・・ ツク780か再びすべてのグリフが既知であるかどうかを判断する。すべてのグ リフが既知でないならば、最小未知グリフを有する式を選定する手続きが別のグ リフについてプロ、ツク784によって縁取され、ループを継続する。一方、決 定ブロック788が選定桁に3以丘の未知グリフかあると判断したならば、この 情報はブロック796に与えられ、このフロックか次にそのグリフが値を推測し ようとしている最良のものであるかどかを判断する。
値を推測しようとしている最良のグリフは最も制限されたグリフ、すなわち、相 互参照マトリックス内の行か最少のゼロをもつグリフである。選定桁内の2つ以 」二のグリフが等しく制限されているならば、1がランダムに選ばれる。
推測されるべきグリフがひとたびブロック796によって選定されたならば、ブ ロック800がそのグリフについての推測をなす、この推測はグリフ制限セット のすべてに含まれる最低値ディジットを選ぶことによってなされる。このループ は次にブロック780から繰返され、このブロック780はプリンのすべてが既 知であるかどうかを再び判断する。もしすべてのグリフが既知でないならば、上 述のルーチンまたはループがブロック784て始まって続けられる。しかしなが ら、このループの任意の時点で、ブロック780がグリフのすべてかディジット に等しくされている、すなわち既知であると判断したならば、この情報が決定フ ロック804に与えられる。ブロック804は式に対する解答かすべて有効であ るかどうかについての判断をなす。この判断は先に述べたと同じ要領で、すなわ ち、築えられた式内の対応グリフに取って代られたときに既知のディシラ1〜か 有効な演算結果を提供するかどうかを*4断することによ、−)で行なわれる。
もし演算解答のすべてが有効であるならば、ブロック804によって与えられる ようなグリフ値情報は後の処理のためにバッファ803に記録される。ブロック 803か未知グリフについて有効な一組の解答を見出したにもかかわらず、別の 組の有効解答か存在する可能性はある。したがって、決定ブロック812が3以 上の加数を有する式の処理中になされ、有効解答を与えた推測の任意のものくこ れを「局所」推測と呼ぶ)かブロック816によってりl〜ラクトされているか どうかを判断する。任意のりl−ラクトされていない推測かあれば、ブロック8 16は最後の推測をリトラクトする。次に、ブロック796かその値を推測すべ き最良のグリフを判断し、前述のようにこの動作は継続する。
決定ブロック804か解答かすべて有効でないと判断したならば、これらの非有 効解答は記録されず、ブロック812か再びリトラクトされていない局所推測か あるかどうかを判断する。いずれにしても、局所推測のすべてかりトラフ1−さ れていないならば、次にブロック816か最後の局所推測をリトラクトし、ブロ ック796か値を推測すべき最良のグリフを判断するように動作し、この動作は 前述のように続く。
すべての局所推測かブロック812によって確定されるなどしてリトラクl−さ れたとき、第18図の−f統きは腋了し、リトラクトされていない2加数推測か 残っているかどうかについての判断か決定ブロック770(第17図)によって なされる。しかしながら、成る状況下では、2以上の推測か有効結果を生じ得る ことに注目されたい。この場合、ありそうな解答のすべて(バッファ808に格 納されているようなもの)を含む制限セットがブロック770に与えられる。こ の制限セットは一般に第17図、第18図に示すルーチンのループを通るさらな るバスの間に単一の値にさらに制限されることになる。
上述の暗号演算ルーチンのすべてか実行されたならば、相互参照マトリックスは ディジウド桁四にただ】つの+1値を含み、そのディジッ1〜に相当するグリフ 数字を示しているはずである。この情報は入カベーシ」二に現れた各グリフ数字 (成る特定のディジッ1〜に対応する)を識別するのに使用される。各グリフ数 字の機械コートは次に容易に数字グリフに代えられ、そのテキストベージの機械 可読コート表示に入れられる。
暗号演算解析ルーチンをうまく利用するには文言内の数字情報量か不充分である 場合、すなわち、暗号演算解析の使用するについては添え物程度の場合には、装 置20は「非曲げ解析」ルーチンを使用する。この「非曲げ解析」ルーチンはグ リフ数字を直線セグメントと1ノて表示することによりてそれらを解析する手続 きを含んでいる。各セグメントはグリフ数字を構成している線形セグメントのす べての合計て形成される。
それぞれの数字グリフの合計非湾曲線形セグメントのそれぞれの長さを互いに比 較することによって数字/グリフ一致が判断されるにれは、それぞれの数字の他 の数字の非湾曲長さに対する非湾曲長さがタイプ自体およびタイプサイズと無関 係にほぼ同じであることがわかっているからである。たとえば、「6」を表すグ リフは「9」を表すグリフどほぼ同じであり、「8」を表すグリフはほぼ最長グ リフ表示である。文脈数値復号の別のあるいは付属の方法では、比較グリフの全 黒色絵画素カウント数のヒストクラムを使用する。これに加えて、普通の形状解 析技術(たとえば、マスキング)も利用できる。
当業者には明らかなように、認識装置20はテキスト資料を認識し、それを機械 可読コードに変換する有効な手段を提供する。それに関連1ノて、装置は無制限 数の種々のタイプ自体を認識することができる。これは認識プロセスか読み取ら れている文字の形状や幾何学にあまり依存していないからCある。したがって、 装置20は種々の形式の文書に含まれる情報を計算機データベースまたはシステ ムに入力する広範囲の用途を有する。
これ以上の説明を必要とすることなく、現在または将来の知識を応用することに よって種々の作業条件の下での使用に容易に適用できる発明が充分に説明された ちのと考える。
表1−文脈状態表 1.1−アルファベット文字グリフ出現状態P (Cm)=100% Cm a b c d e f g h i j k I mP(Cm) Pa  Pb Pc Pd Pe Pf Pg Ph Pi Pj Pk PI Pa イングリシュ 81:14133 置 7−−42フランス 81341rll 171naS3ドイツ寡 5:+25181448−1 33スペインを稟 1 3145131117−na53イタリア 1215313121.11 口a na73Cm n o p q r s t u v w x y zP(11 :m) Pn Po Pp Pq Pr Ps Pt PIJ PV Pw P x Py Pzインクリシュ 78:l−769312−2−フランス 863 177762 口a −−−ドイツ家 旧 −−775512−−1スペインt *793178441na−1−イタリア 6 9.3 − 6 5 6 3  2 nananalここて、Cm =アルファベット文字グリフ; m = a  。
b、C・・・・y、z・P (Cm)=文字出現の可能パーセント。別々の状態 表はワーI−出現の始め1終り、途中について導き出しである、記号(*)の1 〜イツ語は3つのウムラート文字、a、o、uも持つ。記号(木本)のスペイン 語はnの他に2文字グリフ、CI、11、「rを持つ。(na)は適用不ITf である。
12−隣接した多数文字状態表 1.2.1−2文字二重交字グリフおよび白字P(Cm)=100% C1m Cuba Cab Cmc Ctse −−−・−−−−−CB Cm y。
Can Paa Pab Pac Pae ・−−−−−−−−Pay Paz Cbm Pba Pbb Pbc Pbe ・= −−Pby PbzCym  Pya Pyb Pyc Pye …−=−pyy PyZ(:ZI Pza  Pzb Pzc Py、e ・−−−−−−−−Pzy Pzzここで、C(m m)=二重文字グリフ;m=a、b、C1−−、−Y、z;P (Cmm)はC mm二重文字、グリフまたは白字出現の可飽パーセント:別々の状態表はワード 出現の始め、終り、途中について導き出された。
たとえば、英語においては、高いP (Cmm)可能性を持った二重文字グリフ は: (1)ワード開始グリフ:ran−J、rat−J、rbe−J、rde −」、ren−J、rin−J、rno−J、rre−」、rse−J、rth −J、run−に(2)フート終了グリフ:r−edJ、r−enJ、r−er 」、r−esJ、r−isJ、r−ilに(3)ワ−1=二屯クリフの途中 r −ee−J、r−oo−J、r、−11−J 、 r−rr−J 、 U−ss −J、r−tt−J 、 r−dd−J、r−gg−J、r−bb−」、r−e c−J、I−−m m −J、r−pp−Jかある。ドイツ語ては、r−aa− J、r−ee−J、「−oo−J 、 r−dd−J 、 r−ff−J 、  r−mm−」 、 r−nn−J、r−PP J 、 r−rr−J 、r−s s−Jか17ばしば二重文字グリフを形成する。
r−1gJ、r−ehJ、「−1tJ、r−ftJは普通の二重文字ワード終了 グリフである。スペイン語では、r−tt−」、r−rr−J、r−cc−Jは 二重文字として頻繁に出現するか、r−oo−Jあるいはr−nn−Jは稀であ る。イタリア語ては、ワードか子音て終ることは稀であるか、子音かワード内で 二重グリフを形成することは多い。たとえば、「−11−」、r−tt−J、r −ss−J、r−cc−Jr−rr−J、r−pp−Jか最も普通である。
1.2.2−文字、句読点記号二重文字グリフ、白字P(Cmi)=100% CIi Cm、Cm、Cm; Cm: Cm? Cm! C@” Cta” C tm−Cra/Ca: Pa、 Pa、 Pa; Pa: Pa? Pa! P a″Pa’ Pa−Pa/(:bi Pb、 Pb、 Pb; Pb: Pb?  Pb! Pb” Pb’ Pb−Pb/CciPc、 Pc、 Pc; Pc : Pc? Pc! Pc″Pc’ Pc−Pc/Cyi Py、 Py、 P y; Py: Py? Py! Py″Py’ Py−Py/Czi Pz、  Pz、 Pz; Pz: Pz? Pz! Pz” Pz’ Pz−Pz/ここ て、Cm i =文字−句読点二重文字;m=a、b・C・・・・・y、z;  i=r、J、「、」、「、」、 r:Jl、、、、 r−J、r/J ; P  (Cm i )はCm i二重文字出現可能パーセント−別々の状態表はワード 出現のC″mm開始’m、C−m途中について導き出された;Cnf、Cnf数 値ディジットおよび瞬間記号の可能性、P (Cnf)およびP(Cfn)、二 重文字グリフでn=1.2.3161.9.0たとえば、英語ては、C’m二重 文字グリフは「。
5」、「°t」または「′d」の高いP (C’ m)可能性を持つ。同様に、 Cm ’は「n′」の高い可能性を持つ。フランス語では、P (C’ m)は 「 」、「d’J、「l′」、「n′」の可能性が高<、P(C’m)は「′a 」、「′e」、「°i」、r’ oJ。
「′U」の可能性が高い。イタリア語では、P(Cm′)は「1′」、「d′」 の可能性が高く、P (C’m)は「′a」、「′e」、r’ IJ、r’ o J、「’uJの可能性が高い。
アメリカ合衆国では、財務のCfnまたはCnf二重文字プリン、P (C$0 )、P (C%n)、P(C)n)は非常に低い、P (C$m)、P (Cm %)またはP (Cml )は、m=a、b、cl、、、y、zであり、これも 非常に稀である。同様に、ドイツ語、フランス語等にも財務諸表の可能性関係が 存在する。
1.2.3−3文字五重文字クリフ、合掌P (Cmmm)=、100% Cn+mm CmaaCmabC+*ae +−−−−CmzyC+izzCa am PaaaPaabPaac −= −=−PazyPazzCbam P baaPbabPbac −−−−−−−PbzyPbzzCcam Pcaa PcabPcac −=−−PczyPczzCyam PyaaPyabPy ac −−−・−・−PyzyPyzzCzam PzaaPzab、Pzac  −= −−−・−PzzyPxzzここて、C(mmm)=三重文字グリフ文 字:m=a、b、c、、、、、y、z;P(Cmmm)=Cmmm三1R文字グ リフ出現の可能パーセント。別々の状態表はワード出現の最初、最後、途中て導 いた。
たとえば、英語ては、P(Cmmm)出現可能性の高い潜通の三重グリフは=  (1)ワード開始グリフ:rpre−J、rpro−J、(2)ツー1−終了グ リフ:r−antJ、r−ateJ、r−bleJ、r−blyJ、r−ded J、r−ereJ、r−eseJ、r−estJ、r−essJ、r−ful」 、r −g h、 t J、r−ineJ、r−ionJ、r−istJ、r− 11yJ、r−ousJ、r−rstJ、r−sesJ、r−stsJ、 ドイ ツ語ては、頻繁なワード終了P(Cmmm)グリフはr−ichJ、r−sch J、r−eitJ、r−aftJである。そして、イタリア語ては、r−are J、r−atom、r−eroJ、r−ereJ、r−etaJ、r−etoJ 、r−iniJ、r−ita」、r −i v o J、r−oniJ、r−u toJ、r−urejである。
財務表の場合、Camm、:正文字グリフは小数点を含む。r、OOJについて のP (C,nn)の可能性はr、11J、r、21J、r、31J、、、r、 89」、r、99Jの場合よりも大きい。
1.2.4−4文字四重文字グリフ、合掌P (Cmmmm)= 100% ここて、Cm m m m−四重文字グリフ文字; m = a、b、cl、、 、y、z ; P (Cmmmm)=Cmmmm2g重文字グリフ出現の可能パ ーセント。別々の状態表はツー1〜出現の始め、終り、途中で導いた。
たとえば、英語では、P(Cmmmm)可能性の高い普通の四重文字グリフはワ ード終りr−ance」、r −m e n t J、r−tionJてあり、 ドイツ語では、r−tschJ、r−heitJ、r −keitJてあり、イ タリア語では、r−aggiJ、r−allaJ・、r−alleJ、r−an daJ、r−anteJ、r−annoy、r−arteJ、r−atteJ  、 r−attoJ、r−empoJ 、r−enteJ 、 r−entoJ  、 r−enzaJ 、r−iateJ 、 r−ietaJ 、 r−ie toJ 、r−ioneJ、r−istaJ 、 r−olloJ 、r−ot toJ、r−ossoJである。
F/62 F/G9 国際調査報告 ANNEX To ’hdE INTERNATIONAL 5EARC)I  REPORT ON

Claims (49)

    【特許請求の範囲】
  1. 1.規則を持つ記号言語における通信の内容を認識する装置であって、この通信 が所定の順序で配列した複数のグリフを包含し、各グリフが前記言語の最小有意 味情報単位を包含する離散的要素である装置において、前記複数のグリフを検知 し、それを示すデータの流れを記憶手段に入力する感覚入力手段と、前記データ を複数のグリフに分離する分離手段と、各組のほぼ同一のグリフに一意の識別子 を割当てるコンバイリング手段と、前記通信内の前記グリフの配列に相当する配 列で前記識別子を配列するパターングルーブ化手段と、前記識別子、それらの順 序およびそれらの関係に一般的な暗号技術を適用して前記識別子の各々に対応す る同等の言語記号を確定する解読手段とを包含することを特徴とする装置。
  2. 2.特許請求の範囲第1項記載の装置において、さらに組立て手段を包含し、こ の組立て手段が前記通信内の前記グリフの配列に相当する配列で前記言語記号を 配列して前記通信の情報内容を再現することを特徴とする装置。
  3. 3.特許請求の範囲第2項記載の装置において、さらに置換手段を包含し、この 置換手段が前記通信を構成している前記言語記号の各々を計算機可読コードに置 換し、前記通信を計算機手段によって使用できるようにしたことを特徴とする装 置。
  4. 4.特許請求の範囲第3項記載の装置において、前記通信が文書を含むことを特 徴とする装置。
  5. 5.特許請求の範囲第4項記載の装置において、前記感覚入力手段が前記文書に 現れるグリフのビットマッブ表示を与える手段を包含していることを特徴とする 装置。
  6. 6.特許請求の範囲第5項記載の装置において、前記感覚入力手段が前記文書に 現れるグリフの二進表示を行なう手段を包含することを特徴とする装置。
  7. 7.特許請求の範囲第6項記載の装置において、前記感覚入力手段がファクシミ リ装置を含むことを特徴とする装置。
  8. 8.特許請求の範囲第5項記載の装置において、前記分離手段が水平セグメンテ ーション手段と垂直セグメンテーション手段とを包含し、前記水平セグメンテー ション手段が前記文書の前記ビットマッブ表示を個々のテキスト行に分解し、前 記垂直セグメンテーション手段が前記テキスト行の各々を離散的グリフに分解す ることを特徴とする装置。
  9. 9.特許請求の範囲第8項記載の装置において、前記分離手段が合字をそれぞれ の言語記号成分に分解する手段を包含することを特徴とする装置。
  10. 10.特許請求の範囲第1項記載の装置において、前記コンバイリング手段が前 記グリフの各々の種々の物理的特徴を識別して前記グリフのどれが他のグリフと ほぼ同一であるかを判断することを特徴とする装置。
  11. 11.特許請求の範囲第10項記載の装置において、さらにほぼ同一のグリフの 各組に含まれるグリフの数を確定するカウント手段を包含することを特徴とする 装置。
  12. 12.特許請求の範囲第11項記載の装置において、前記パターングルーブ化手 段が前記識別子を複数の個々の順序に配列し、各個々の順序が前記言語における 或る特定のフードに対応することを特徴とする装置。
  13. 13.特許請求の範囲第1項記載の装置において、前記通信が文書であり、さら に、文書形式解析手段を包含しており、この文書形式解析手段がグリフパターン および前記文書内のグリフのグルーブの配列を解析して前記文書を或る特定の形 式のものと判断し、分類することを特徴とする装置。
  14. 14.特許請求の範囲第13項記載の装置において、前記解読手段が文書形式解 析手段によって供給された分類情報に基づいて或る適当な組の解読るうちんを選 定することを特徴とする装置。
  15. 15.特許請求の範囲第14項記載の装置において、前記解読手段が前記文書形 式解析手段によって一般的テキスト情報を含むと判断された文書を、短ワードを 解析する手段、限定辞書をマッチングする手段および完全辞書をマッチングする 手段を介して復号することを特徴とする装置。
  16. 16.特許請求の範囲第14項記載の装置において、前記解読手段が業務用手紙 と前記文書形式解析手段によって判断された文書を、地理的特定キーワードにも つづく索引手段、短ワードを解析する手段、限定辞書バターンをマッチングする 手段および完全辞書をマッチングする手段を用いて復号することを特徴とする装 置。
  17. 17.特許請求の範囲第14項記載の装置において、前記解読手段が財務報告書 と前記文書形式解析手段によって判断された文書を、地理的特定キーワードに基 づく索引手段、限定辞書をマッチングする手段および暗号演算解析手段を介して 復号することを特徴とする装置。
  18. 18.特許請求の範囲第1項記載の装置において、前記解読手段がそれぞれのグ リフの形状または幾何学にあまり依存することなくグリフと言語記号の一致点を 識別する複数の解析手段を包含していることを特徴とする装置。
  19. 19.特許請求の範囲第1項記載の装置において、前記解読手段がグリフワード のグリフバターンをキーワードリストから選定したそれぞれのキーワードにおけ る文字バターンと比較するバターンマッチング手段を包含することを特徴とする 装置。
  20. 20.特許請求の範囲第19項記載の装置において、前記キーワードリストが限 られた数の頻繁に使用されるワードを包含していることを特徴とする装置。
  21. 21.特許請求の範囲第19項記載の装置において、前記キーワードリストが前 記言語の一般的な辞書を包含することを特徴とする装置。
  22. 22.特許請求の範囲第1項記載の装置において、前記解読手段が5より少ない グリフ文字を含むグリフワードにおけるグリフ間の相互関係を解析することによ ってグリフと言語記号の一致点を判断するために短ワードを解析する手段を包含 することを特徴とする装置。
  23. 23.特許請求の範囲第22項記載の装置において、短ワードを解析する手段は 特定のグリフおよびグリフバターンが出現する頻度に関する情報を利用し、それ を前記言語において或る種の文字および文字のグルーブが出現する頻度と比較す ることを特徴とする装置。
  24. 24.特許請求の範囲第13項記載の装置において、前記暗号手段が地理的特定 キーワードに基づく索引手段を包含し、この索引手段が文書を解析し、或る予め 選定したグリフバターンが前記文書の或る所定の場所に現れるかどうかを判断す ることを特徴とする装置。
  25. 25.特許請求の範囲第1項記載の装置において、前記解読手段が、さらに、デ ィジットを含む言語記号に対応するグリフを識別する暗号演算手段を包含し、こ の暗号演算手段がディジットに対応する他のグリフとの関係を含む、これらのグ リフが出現する文脈を解析することを特徴とする装置。
  26. 26.特許請求の範囲第25項記載の装置において、前記暗号演算手段がディジ ットに対応するグリフのためのありそうなディジット値を制限する制限セットを 設定する手段を包含することを特徴とする装置。
  27. 27.特許請求の範囲第26項記載の装置において、前記制限セットが成る種の グリフをディジットゼロであるとして判断から外すことによって設定されること を特徴とする装置。
  28. 28.特許請求の範囲第26項記載の装置において、前記制限セットがディジッ トに対応する前記グリフに対して数学規則および操作を適用することによって設 定されることを特徴とする装置。
  29. 29.特許請求の範囲第14項記載の装置において、前記解読手段が不一致判断 手段を包含しており、この不一致判断手段が前記解読ルーチンの各々によって生 じた結果が他の解読ルーチン中に先に確定されたグリフ/記号一致点と一致する かどうかを判断することを特徴とする装置。
  30. 30.特許請求の範囲第29項記載の装置において、前記不一致判断手段が前記 不一致を解析し、或る先に設定されたグリフ/記号一致点を排除し、前記解析に 基づいて適当な解読ルーチンを選定して反復させることを特徴とする装置。
  31. 31.特許請求の範囲第10項記載の装置において、さらにあいまい検知手段を 包含し、前記不一致判断手段が不一致がないと判断したときはいつでも、前記あ いまい検知手段が前記グリフのすべてが識別されているかどうかを判断し、そう でなければ、実行されるべき次の解読ルーチンを選定することを特徴とする装置 。
  32. 32.規則を持つ記号言語における通信の内容を認識する方法であって、前記通 信が所定の順序に配列した複数のグリフを包含し、これらグリフの各々が前記言 語の最小有意味情報単位を一般的に含む離散的要素である方法において、前記複 数のグリフを検知してそれを示すデータの流れを記憶手段に入力する段階と、前 記データを複数の前記グリフに分離する段階と、ほぼ同一のグリフの各組に一意 の識別子を割り当てる段階と、これらの識別子を前記通信内の前記グリフの配列 に相当する配列で配置する段階と、一般的な暗号技術を前記識別子、その順序お よびそれらの関係に適用して前記識別子を解読して各識別子に対応する同等の言 語起動を判断する段階とを包含することを特徴とする方法。
  33. 33.特許請求の範囲第32項記載の方法において、さらに、前記通信の情報内 容を再現するように前記通信内の前記グリフの配列に相当する配列で前記言語記 号を配置する段階を句合することを特徴とする方法。
  34. 34.特許請求の範囲第33項記載の方法において、さらに、前記通信を構成し ている前記言語記号の各々を計算機可読コードと置換し、計算機手段によって前 記通信を使用できるようにしたことを特徴とする方法。
  35. 35.特許請求の範囲第34項記載の方法において、前記通信が文書を包含して おり、前記通信のグリフを示すデータの流れを検知し、入力する前記段階が前記 文書をビットマッブ表示に変換することによって行なわれることを特徴とする方 法。
  36. 36.特許請求の範囲第35項記載の方法において、前記記号言語を複数のグリ フに分離する前記段階が前記ビットマッブ表示を水平テキスト行に水平にセグメ ント化し、次に前記行の各々を前記グリフ要素に垂直方向にセグメント化するこ とによって行なわれることを特徴とする方法。
  37. 37.特許請求の範囲第36項記載の方法において、ほぼ同一のグリフの各組に 一意の識別子を割り当てる前記段階が前記グリフの各々の種々の物理的特徴を識 別し、前記グリフのどれが他のグリフにほぼ同じであるかを判断することによっ て達成されることを特徴とする方法。
  38. 38.特許請求の範囲第37項記載の方法において、前記パターングルーブ化手 段が、さらに、前記識別子を複数の個々の順序に配置する段階を包含し、前記偶 々の順序の各々が前記言語における或る特定のワードに一致することを特徴とす る方法。
  39. 39.特許請求の範囲第35項記載の方法において、さらに、グリフおよびグリ フグルーブの配列を含めて前記文書を解析し、前記文書を成る特定形式の文書で あると判断し、分類する段階を包含することを特徴とする方法。
  40. 40.特許請求の範囲第39項記載の方法において、前記識別子を解読する段階 が前記文書形式分類に基づいて適当な組の解読ルーチンを選定する段階を包含す ることを特徴とする方法。
  41. 41.特許請求の範囲第40項記載の方法において、解読段階が短ワード解析、 限定辞書パターンマッチング、完全辞書バターンマッチングを行ない、前記文書 が一般的なテキスト情報を含むと判断されることを特徴とする方法。
  42. 42.特許請求の範囲第40項記載の方法において、前記解読段階が地理的特定 キーワード検索、短ワード解析、限定辞書バターンマッチングおよび完全辞書バ ターンマッチングを行ない、前記文書が業務用手紙であると判断されることを特 徴とする方法。
  43. 43.特許請求の範囲第40項記載の方法において、前記解読段階が地理的特定 キーワード検索、限定辞書バターンマッチングおよび暗号演算解析を行ない、前 記文書が財務報告書であると判断されることを特徴とする方法。
  44. 44.特許請求の範囲第35項記載の方法において、前記解読段階がグリフと言 語記号の一致点を識別し、しかも、それぞれのグリフの形状または幾何学にあま り依存していないことを特徴とする方法。
  45. 45.特許請求の範囲第35項記載の方法において、解読段階が或る選定キーワ ードリスト内の文字バターンをグリフワードのグリフバターンと比較するプロセ スを包含することを特徴とする方法。
  46. 46.特許請求の範囲第35項記載の方法において、解読段階が短ワードを解析 してグリフと5より少ないグリフ文字を有するワードに含まれる言語記号の一致 点を判断する段階を包含することを特徴とする方法。
  47. 47.特許請求の範囲第35項記載の方法において、解読段階が前記べージ上の 地理的特定キーワード検索を実行して或る予め選定したグリフバターンが前記ベ ージ上の或る所定の場所に現れるかどうかを判断することを特徴とする方法。
  48. 48.特許請求の範囲第35項記載の方法において、解読段階がディジットに対 応するグリフを識別し、これらのグリフが出現する文脈をグリフとの関係を含め て解析し、ディジット値を判断することを特徴とする方法。
  49. 49.特許請求の範囲第48項記載の方法において、前記関係が数学的関係を含 むことを特徴とする方法。
JP60502818A 1984-06-22 1985-06-19 暗号解析装置 Pending JPS61502495A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US623739 1984-06-22
US06/623,739 US4610025A (en) 1984-06-22 1984-06-22 Cryptographic analysis system

Publications (1)

Publication Number Publication Date
JPS61502495A true JPS61502495A (ja) 1986-10-30

Family

ID=24499231

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60502818A Pending JPS61502495A (ja) 1984-06-22 1985-06-19 暗号解析装置

Country Status (6)

Country Link
US (1) US4610025A (ja)
EP (1) EP0195779A1 (ja)
JP (1) JPS61502495A (ja)
AU (1) AU4496885A (ja)
CA (1) CA1229894A (ja)
WO (1) WO1986000445A1 (ja)

Families Citing this family (99)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4742556A (en) * 1985-09-16 1988-05-03 Davis Jr Ray E Character recognition method
JPS6274181A (ja) * 1985-09-27 1987-04-04 Sony Corp 文字認識装置
JPH0823864B2 (ja) * 1986-03-29 1996-03-06 株式会社東芝 見出し判定方法
US5164996A (en) * 1986-04-07 1992-11-17 Jose Pastor Optical character recognition by detecting geo features
JPH0776969B2 (ja) * 1986-04-18 1995-08-16 株式会社東芝 文書処理装置
US5504822A (en) * 1986-09-19 1996-04-02 Holt; Arthur W. Character recognition system
US4897880A (en) * 1987-02-17 1990-01-30 Soricon Corporation Data acquisition control method and system for a hand held reader
JP2822189B2 (ja) * 1988-05-19 1998-11-11 ソニー株式会社 文字認識装置及び方法
US5131053A (en) * 1988-08-10 1992-07-14 Caere Corporation Optical character recognition method and apparatus
JP2847715B2 (ja) * 1988-08-30 1999-01-20 ソニー株式会社 文字認識装置及び文字認識方法
JP2597006B2 (ja) * 1989-04-18 1997-04-02 シャープ株式会社 矩形座標抽出方法
JPH0331981A (ja) * 1989-06-29 1991-02-12 Canon Inc 文字認識装置
JP2720590B2 (ja) * 1989-09-20 1998-03-04 日本電気株式会社 パターン認識装置
CA2027253C (en) * 1989-12-29 1997-12-16 Steven C. Bagley Editing text in an image
US5121452A (en) * 1990-06-01 1992-06-09 Aster Corporation Fiber optic power splitter
US5444840A (en) * 1990-06-12 1995-08-22 Froessl; Horst Multiple image font processing
US5109439A (en) * 1990-06-12 1992-04-28 Horst Froessl Mass document storage and retrieval system
CA2044404C (en) * 1990-07-31 1998-06-23 Dan S. Bloomberg Self-clocking glyph shape codes
US5128525A (en) * 1990-07-31 1992-07-07 Xerox Corporation Convolution filtering for decoding self-clocking glyph shape codes
USRE38758E1 (en) * 1990-07-31 2005-07-19 Xerox Corporation Self-clocking glyph shape codes
US5313527A (en) * 1991-06-07 1994-05-17 Paragraph International Method and apparatus for recognizing cursive writing from sequential input information
JP3361124B2 (ja) * 1991-07-30 2003-01-07 ゼロックス・コーポレーション テキストを含む2次元画像上での画像処理方法と画像処理装置
US5390259A (en) * 1991-11-19 1995-02-14 Xerox Corporation Methods and apparatus for selecting semantically significant images in a document image without decoding image content
US5384863A (en) * 1991-11-19 1995-01-24 Xerox Corporation Methods and apparatus for automatic modification of semantically significant portions of a document without document image decoding
CA2077604C (en) * 1991-11-19 1999-07-06 Todd A. Cass Method and apparatus for determining the frequency of words in a document without document image decoding
US5369714A (en) * 1991-11-19 1994-11-29 Xerox Corporation Method and apparatus for determining the frequency of phrases in a document without document image decoding
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
DE4206157A1 (de) * 1992-02-28 1993-09-16 Hofsass P Thermoschalter
US6212299B1 (en) 1992-12-11 2001-04-03 Matsushita Electric Industrial Co., Ltd. Method and apparatus for recognizing a character
US5465309A (en) * 1993-12-10 1995-11-07 International Business Machines Corporation Method of and apparatus for character recognition through related spelling heuristics
US5541997A (en) * 1994-01-31 1996-07-30 Motorola, Inc. Method and apparatus for detecting correctly decrypted communications
US5548507A (en) 1994-03-14 1996-08-20 International Business Machines Corporation Language identification process using coded language words
US5587903A (en) * 1994-06-22 1996-12-24 Yale; Thomas W. Artificial intelligence language program
US5734761A (en) * 1994-06-30 1998-03-31 Xerox Corporation Editing scanned document images using simple interpretations
US5675665A (en) * 1994-09-30 1997-10-07 Apple Computer, Inc. System and method for word recognition using size and placement models
US5764799A (en) * 1995-06-26 1998-06-09 Research Foundation Of State Of State Of New York OCR method and apparatus using image equivalents
US5635694A (en) * 1995-09-27 1997-06-03 Xerox Corporation System and method for embedding machine coded destination information into a postal mark
TW347503B (en) * 1995-11-15 1998-12-11 Hitachi Ltd Character recognition translation system and voice recognition translation system
US5892842A (en) * 1995-12-14 1999-04-06 Xerox Corporation Automatic method of identifying sentence boundaries in a document image
US5850476A (en) * 1995-12-14 1998-12-15 Xerox Corporation Automatic method of identifying drop words in a document image without performing character recognition
US5848191A (en) * 1995-12-14 1998-12-08 Xerox Corporation Automatic method of generating thematic summaries from a document image without performing character recognition
US5930390A (en) * 1996-03-28 1999-07-27 Intel Corporation Encoding/decoding signals using a remap table
US6023670A (en) * 1996-08-19 2000-02-08 International Business Machines Corporation Natural language determination using correlation between common words
US6009382A (en) * 1996-08-19 1999-12-28 International Business Machines Corporation Word storage table for natural language determination
US5913185A (en) * 1996-08-19 1999-06-15 International Business Machines Corporation Determining a natural language shift in a computer document
US6002998A (en) * 1996-09-30 1999-12-14 International Business Machines Corporation Fast, efficient hardware mechanism for natural language determination
US6094484A (en) * 1996-10-16 2000-07-25 Convey Corporation Isomorphic pattern recognition
US5903675A (en) * 1996-12-20 1999-05-11 Apple Computer, Inc. System and method for compressing data using a dynamically changing compression window
EP0902378A3 (en) * 1997-09-15 2003-07-16 Canon Kabushiki Kaisha A font architecture and creation tool for producing richer text
US6754875B1 (en) * 1998-11-17 2004-06-22 Adobe Systems Incorporated Applying a computer-implemented test to determine whether to replace adjacent characters in a word with a ligature glyph
US6167369A (en) * 1998-12-23 2000-12-26 Xerox Company Automatic language identification using both N-gram and word information
US6393395B1 (en) 1999-01-07 2002-05-21 Microsoft Corporation Handwriting and speech recognizer using neural network with separate start and continuation output scores
US7904187B2 (en) 1999-02-01 2011-03-08 Hoffberg Steven M Internet appliance system and method
US6658151B2 (en) * 1999-04-08 2003-12-02 Ricoh Co., Ltd. Extracting information from symbolically compressed document images
GB0006721D0 (en) * 2000-03-20 2000-05-10 Mitchell Thomas A Assessment methods and systems
US6560608B1 (en) * 2000-06-09 2003-05-06 Contivo, Inc. Method and apparatus for automatically selecting a rule
US8682077B1 (en) 2000-11-28 2014-03-25 Hand Held Products, Inc. Method for omnidirectional processing of 2D images including recognizable characters
US7397962B2 (en) * 2001-10-25 2008-07-08 Infoprint Solutions Company, Llc Automatic method of identifying image subregions for reuse during datastream transmission
US7707039B2 (en) 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US8442331B2 (en) 2004-02-15 2013-05-14 Google Inc. Capturing text from rendered documents using supplemental information
US7812860B2 (en) 2004-04-01 2010-10-12 Exbiblio B.V. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US10635723B2 (en) 2004-02-15 2020-04-28 Google Llc Search engines and systems with handheld document data capture devices
US7983835B2 (en) 2004-11-03 2011-07-19 Lagassey Paul J Modular intelligent transportation system
US7990556B2 (en) 2004-12-03 2011-08-02 Google Inc. Association of a portable scanner with input/output and storage devices
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US8146156B2 (en) 2004-04-01 2012-03-27 Google Inc. Archive of text captures from rendered documents
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
US7894670B2 (en) 2004-04-01 2011-02-22 Exbiblio B.V. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US20060098900A1 (en) 2004-09-27 2006-05-11 King Martin T Secure data gathering from rendered documents
US20060081714A1 (en) 2004-08-23 2006-04-20 King Martin T Portable scanning device
US8874504B2 (en) 2004-12-03 2014-10-28 Google Inc. Processing techniques for visual capture data from a rendered document
US8620083B2 (en) 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US8489624B2 (en) 2004-05-17 2013-07-16 Google, Inc. Processing techniques for text capture from a rendered document
US8346620B2 (en) 2004-07-19 2013-01-01 Google Inc. Automatic modification of web pages
US20060265278A1 (en) * 2005-05-18 2006-11-23 Napster Llc System and method for censoring randomly generated character strings
JP4640155B2 (ja) * 2005-12-15 2011-03-02 ソニー株式会社 画像処理装置および方法、並びにプログラム
US7489819B2 (en) * 2006-05-12 2009-02-10 Velosum, Inc. Systems and methods for handwritten digital pen lexical inference
US7765587B2 (en) 2006-08-14 2010-07-27 International Business Machines Corporation Glyphword-based security
EP2067119A2 (en) 2006-09-08 2009-06-10 Exbiblio B.V. Optical scanners, such as hand-held optical scanners
US8559624B1 (en) 2006-12-29 2013-10-15 Edward J Zajac Cyphometry consisting of ciferglifs, chaotiglyphs and word auras
US8239763B1 (en) * 2009-01-07 2012-08-07 Brooks Ryan Fiesinger Method and apparatus for using active word fonts
EP2399385B1 (en) 2009-02-18 2019-11-06 Google LLC Automatically capturing information, such as capturing information using a document-aware device
US8447066B2 (en) 2009-03-12 2013-05-21 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
WO2010105246A2 (en) 2009-03-12 2010-09-16 Exbiblio B.V. Accessing resources based on capturing information from a rendered document
US8351700B2 (en) * 2009-04-08 2013-01-08 Gracious Eloise, Inc. Variable glyph system and method
US9081799B2 (en) 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US9323784B2 (en) 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images
US8600173B2 (en) 2010-01-27 2013-12-03 Dst Technologies, Inc. Contextualization of machine indeterminable information based on machine determinable information
US8594422B2 (en) * 2010-03-11 2013-11-26 Microsoft Corporation Page layout determination of an image undergoing optical character recognition
US20140163969A1 (en) * 2011-07-20 2014-06-12 Tata Consultancy Services Limited Method and system for differentiating textual information embedded in streaming news video
US20130322759A1 (en) * 2011-12-01 2013-12-05 Peking University Founder Group Co., Ltd. Method and device for identifying font
US9251143B2 (en) 2012-01-13 2016-02-02 International Business Machines Corporation Converting data into natural language form
US9230514B1 (en) * 2012-06-20 2016-01-05 Amazon Technologies, Inc. Simulating variances in human writing with digital typography
US9934217B2 (en) * 2013-07-26 2018-04-03 Facebook, Inc. Index for electronic string of symbols
US20150058712A1 (en) * 2013-08-26 2015-02-26 Go Daddy Operating Company, LLC Method for assisting website design using keywords
US9842281B2 (en) * 2014-06-05 2017-12-12 Xerox Corporation System for automated text and halftone segmentation
US20150358164A1 (en) * 2014-06-10 2015-12-10 Unisys Corporation Systems and methods for qr code validation
US20170039192A1 (en) * 2015-08-05 2017-02-09 International Business Machines Corporation Language generation from flow diagrams
US10318641B2 (en) * 2015-08-05 2019-06-11 International Business Machines Corporation Language generation from flow diagrams

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4058795A (en) * 1972-10-03 1977-11-15 International Business Machines Corporation Method and apparatus for context-aided recognition
JPS5729745B2 (ja) * 1974-09-25 1982-06-24
US3995254A (en) * 1975-07-16 1976-11-30 International Business Machines Corporation Digital reference matrix for word verification
JPS57105088A (en) * 1980-12-22 1982-06-30 Toshiba Corp Character reader
JPS5837779A (ja) * 1981-08-31 1983-03-05 Ricoh Co Ltd 文書処理装置
US4556951A (en) * 1982-06-06 1985-12-03 Digital Equipment Corporation Central processor with instructions for processing sequences of characters
JPS59790A (ja) * 1982-06-28 1984-01-05 Fuji Electric Co Ltd パタ−ン識別装置
US4550436A (en) * 1983-07-26 1985-10-29 At&T Bell Laboratories Parallel text matching methods and apparatus

Also Published As

Publication number Publication date
WO1986000445A1 (en) 1986-01-16
EP0195779A1 (en) 1986-10-01
US4610025A (en) 1986-09-02
AU4496885A (en) 1986-01-24
CA1229894A (en) 1987-12-01

Similar Documents

Publication Publication Date Title
JPS61502495A (ja) 暗号解析装置
US4679951A (en) Electronic keyboard system and method for reproducing selected symbolic language characters
Parhami et al. Automatic recognition of printed Farsi texts
JP3640972B2 (ja) ドキュメントの解読又は解釈を行う装置
US7257528B1 (en) Method and apparatus for Chinese character text input
US6721451B1 (en) Apparatus and method for reading a document image
JP3452774B2 (ja) 文字認識方法
US5410306A (en) Chinese phrasal stepcode
Lu et al. Information retrieval in document image databases
CN113168498A (zh) 语言校正系统及其方法以及系统中的语言校正模型学习方法
US10963717B1 (en) Auto-correction of pattern defined strings
US4868913A (en) System of encoding chinese characters according to their patterns and accompanying keyboard for electronic computer
JPH03161891A (ja) 表形式文書読取装置
US5331557A (en) Audio-video coding system for Chinese characters
JPH1011531A (ja) 帳票読取装置
Kashefi et al. A novel string distance metric for ranking Persian respelling suggestions
US5131766A (en) Method for encoding chinese alphabetic characters
JP2000315247A (ja) 文字認識装置
Chaudhuri Reversed word dictionary and phonetically similar word grouping based spell-checker to Bangla text
US5137383A (en) Chinese and Roman alphabet keyboard arrangement
JP3669626B2 (ja) 検索装置、記録媒体およびプログラム
Leishman Shape-free statistical information in optical character recognition
JPS5960691A (ja) 光学文字読取装置
JPH0575143B2 (ja)
JP2931485B2 (ja) 文字切出し装置及び方法