JPS6120180A - 光学的文字認識装置 - Google Patents

光学的文字認識装置

Info

Publication number
JPS6120180A
JPS6120180A JP59140046A JP14004684A JPS6120180A JP S6120180 A JPS6120180 A JP S6120180A JP 59140046 A JP59140046 A JP 59140046A JP 14004684 A JP14004684 A JP 14004684A JP S6120180 A JPS6120180 A JP S6120180A
Authority
JP
Japan
Prior art keywords
feature
kanji
recognition method
character
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59140046A
Other languages
English (en)
Inventor
Hideaki Ueda
上田 秀明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp, Nippon Electric Co Ltd filed Critical NEC Corp
Priority to JP59140046A priority Critical patent/JPS6120180A/ja
Publication of JPS6120180A publication Critical patent/JPS6120180A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (技術分野) 本発明は、日本語文書を入力するための光学的文字認識
装置(以下0CFLと呼ぶ)に関する。
(従来技術) 日本語入力OCRは、認識対象文字に漢字を含まないO
CRと比較して認識対象文字が約20倍以上になるため
、認識精度を向上させることが難しかった。また漢字認
識のできるOCRでひらがな、英字、数字、カタカナ、
記号(以下HANK8と略記する)を認識させると、H
ANK8認識のみしかできない装置と比較して認識精度
が低下する傾向がある。
このため漢字パターンとHANKSパターンの複健さの
差に着目して、複雑なパターンを漢字パターンとして漢
字認識方式で望識し、複雑でないパターンをHANKS
パターンとしてHANK8認識方式で認識することで従
来のHANK8認識精度を保持した日本語人力0CRt
−構築することが考えられた。
(発明が解決しようとする問題点) しかしながら、従来のこの種の装置においては、入カバ
ターンの複雑さ全表わす特徴の最適な定義が難かしく、
HANKSパターンが漢字認識方式によって認識して該
パターンが漢字に誤認識されたり。
逆に漢字パターンがHANKSに誤認識されるという欠
点があった。
従って本発明の目的は、入カバターンの複雑さによって
認識方式全決定することによって生じる誤認識全防ぎ、
HANKSの認識4翫みならず漢字の認識精度も向上さ
せることにろる。
(問題点全解決するための手段) 本発明によれば、原画を光電変換して一文字毎に文字パ
ターンを切出して入カバターンメモリに格納し、この入
カバターンの複雑度に工r)HANKS認識方式か漢字
認識方式のいずれかの認識方式に決定し、決定された特
徴抽出手段によって得る特徴全複緒度でHANKSと差
が大きくない漢字を登録した辞書(以下HANK8 C
’辞書と略記する)。
または複雑度で漢字と差が大きくないHANKS ’i
登録した辞書(以下CH’A’N’に’8’辞書と略記
する)のいずれかの辞書と照合して第一次出力カテゴリ
を決定し、第一次出力カテゴリの字種とこの出力カテゴ
リを得るために使用した認識方式の種類とが異なるとき
は入カバターンの複雑度によらず。
第一次出力カテゴリの字種に相当する認識方式に変更し
て、再度特徴抽出処理台なう光学的文字認識装置が得ら
れる。
(実施例) 次に本発明の一実施例金示す図面全参照して本発明をよ
り詳細に説明する。
第1図において、原画1はパターン入力手段2によって
光電変換され、さらに〜争変換され1文字毎に文字切出
しされて入カバターンメモリ手段3に格納される。複雑
度抽出手段4汀入力バターンメモリ手段3に格納されて
いるパターンの複雑度を抽出して認識方式手段5に出力
する。認識方式決定手段5はある閾値を持ち、この閾値
によってHANKS認識方式かまたは漢字認識方式かを
決定する。HANKS認識方式で入カバターンを認識す
る場合はHANK8%徴抽出手段6を起動せしめる信号
全出力し、漢字認識方式で入カバターンを認識する場合
は漢字特徴抽出手段7を起動せしめる信号を出力する0 HANKS特徴抽出手段6は入カバターンメモリ手段3
に格納されている入カバターンから…四〇認識方式によ
る特徴全抽出し9判定十段8に出力する。漢字特徴抽出
手段7は該入カバターンから漢字認識方式による特徴を
抽出し9判定手段8に出力する。判定手段8 fl H
ANKS %+徴抽出手段6または漢字特徴抽出手段7
から出力される特徴がHANK8特徴の場合はHANK
8C/辞119と照合して入カバターンのカテゴリヲ決
足し、認識方式の種類とともにフィードバック処理手段
11に出力−5−、 する0また、入力された特徴が漢字特徴の場合はC)(
’にN’に’S’辞書1oと照合して入カバターンのカ
テゴリを決定し、認識方式の種類とともにフィードバッ
ク処理手段11に出力する。
フィードバック処理手段11は判定手段8の出力カテゴ
リの字種が認識方式の種類と一致している場合はそのま
ま該カテゴリを最終出力カテゴリとして出力し、一致し
ていない場合は認識方式決定手段5に出力カテゴリの字
種と同じ認識方式に決定せしめる出力全フィードバック
する。認識方式決定手段5はフィードバック処理手段1
1からの認識方式の種類を指定した出力に対して該認識
方式で再度特徴抽出手段6または7を起動する。
ここで具体的な日本語文書を例にして動作を説明する。
第2図において、原画1はパターン入力手段2によって
光電変換され1昭”、′和”、′″5”。
18#、・・・の順に文字切出しされ入カバターンメモ
リ手段3に格納される。最初の入力文字パターン1昭”
が入カバターンメモリ手段3に格納され−6−、 た場合、複軸度検出手段4Fs、入力文字パターン“昭
”の複雑度を検出し認識方式決定手段5に出力する。複
雑度は例えば第3図の(a)、 (b)の例のように漢
字がHANKSに比較して縦、横、斜めの線分が多く、
入力文字パターンを囲む矩形の中で白地の面積が低いこ
とに着目して(複雑度=文字全回む矩形内の白地の面積
)と定義してもよい。したがって、この場合複雑度抽出
手段4は文字を囲む矩形内の白地の面積全抽出して認識
方式決定手段5に出力する。
V!識方式決定手段5に入力文字パターン1昭”の白地
の面rII(複雑度)をアらかじめ設定されている閾値
と比較し、複雑なパターンであることを確定して漢字特
徴抽出手段7を起動する。漢字特徴抽出手段7は入カバ
ターンメモリ手段3に格納されている昭”の入力文字パ
ターンから漢字認識方式による特徴を抽出し1判定手段
8に出力する。判定手段8は抽出された”昭”の文字パ
ターンの特徴とCH’にN’に’8’辞IF10を照合
して、iも照合度の高いカテゴリヲ認識万式の種類(こ
の場合漢字認繊万式)とともにフィードバック処理手段
11に出力する。このとき出力カテゴリが“昭”とする
とフィードバック処理手段11は出力カテゴリの字種と
認識方式の種類が一致するため、該出力カテゴリ1昭#
全最終的な出力とする。
次に3文字目の5”が入カバターンメモリ手段3に格納
された場合、複雑度抽出手段4は文字を囲む矩形内の白
地の面積(複雑度)を抽出して認識方式決定手段5に出
力する。認識方式決定手段5は入力文字パターン”5#
の複雑度’に6らかしめ設定されている閾値と比較して
、複雑でない文字パターンであることを確定して、HA
NK8特徴抽出手段6を起動する。
HANK8特徴抽出手段6は入カバターンメモリ手段3
に格納されている15”の文字パターンからHANKS
 i&1111万式による特徴全抽出し1判定手段8に
出力する。判定手段8は抽出された″5#の文字パター
ンの特徴とHANK8C’辞書9を照合して最も照合度
の高いカテゴリヲ認識万式の種類(この場合HANKS
認識方式)とともにフィードバック処理手段11に出力
する。このとき出力カテゴリが15#とするとフィード
バック処理手段11は前記の6昭”と同様にして出力カ
テゴリ”′″5″を最終出力とする。
次に4文字目の°8”が入カバターンメモリ手段3に格
納された場合、複維度検出十段4によって文字金回む矩
形内の白地の面積(複雑度)を抽出して認識方式決定手
段5に出力する。認識方式決定手段5は入力文字パター
ン18”の複雑度をあらかじめ設定されている閾値と比
較して複雑な文字パターンであること全確定したとする
と、漢字認識特徴抽出手段7會起動する。漢字特徴抽出
手段7はパターンメモリ手段3に格納されている“8#
の文字パターンから漢字認識方式による特徴を抽出し1
判定十段8に出力する。判定手段8は抽出された18”
の文字しくターンの特徴とC84にN’に/8’辞書1
0と照合して最も照合度の高いカテゴリ名f:、認識万
式の種類(この場合漢字認識方式)とともにフィードバ
ック処理手段11に出力される。このと@CH’AN’
に’8’辞瞥10に英字の′B#の辞書が登録されてい
て、出力カテゴリが“B#になったとすると、フィード
バック処理手段11t;j認識方式の種類(漢字認識方
式)と出力カテゴリの字種(5)が一致していないため
、認識方式決定手段5にHANKS認識万式認識動式全
起動出力をフィードバックする。
認識方式手段5はフィードバック処理手段からのHAN
KS認識方式全指定した出力に対してHANKS特徴抽
出手段6を起動し、HANKf9特徴抽出手段6は抽出
した特徴を判定手段8に出力する。
判定手段8は抽出された特徴とHANK8C’辞書9全
照合して最も照合度の高いカテゴV+得る。このと@H
ANK8特徴抽出処理手段6ではHANKS文字種内の
類似文字全識別するのに十分な特徴を抽出する機能全有
するために、照合度の高いカテゴリとして″B”ではな
く“8#を得ることができる。したがってフィードバッ
ク処理手段11はHANK8認識万式により数字の出力
カテゴリ全得たことで出力カテゴリ゛8#奮最終出力と
して出力する。
一’10− (発明の効果) 本発明は以上説明したように、日本語文書に記入されて
いる文字全文字パターンの複雑度によってHANKS認
識方式か漢字認識方式かに振り分けて特徴抽出をして望
識する際に複雑度による振り分は誤まりによって生じる
誤認を防ぎ9日本語文書に対する高い認識精度を有する
日本語人力0CRi構築することができる。
なお、本発明は前述の実施例に限定されるものではなく
9文字パターンの複雑度については1文字パターンを構
成する線分数の大小1文字パターンの線分によって囲ま
れる白地の島の数の大小を使用してもよく、さらに上記
のような複雑贋金複数組み合わせたものを複雑度と定義
してもよい。
またフィードバック手段】1の入力として、最も照合度
の高いカテゴリと認識方式の種類だけでなく、第−位か
ら複数個のカテゴリ名とそれに対応する照合度を入力と
してカテゴリの字種だけでなく、照合度をも考慮したフ
ィードバック処理判定を行なってもよい。
【図面の簡単な説明】
第1図は本発明の一実施例を示す図、第2図は日本語文
書記入例を示す図、第3図は文字・(ターンの複雑度全
説明するための図である。 1・・・原画、2・・・パターン入力手段、3・・・入
カバターンメモリ手段、4・・・複雑度抽出手段、5・
・・認識方式決定手段、6・・・HANKS%徴抽出手
段、7・・・漢字特徴抽出手段、8・・・判定手段、9
・・・HANKsc’辞I1. 106.CH’A’N
’に’S’辞書、11−74−ドバック処理手段O 竿/ 図 第 2 図 第3WJ

Claims (1)

    【特許請求の範囲】
  1. 原画を光電変換して1文字毎の文字パターンを得るパタ
    ーン入力手段と、前記文字パターンからパターンの複雑
    度を抽出する複雑度抽出手段と、前記複雑度により文字
    認識方式を決定する認識方式決定手段と、前記認識方式
    決定手段によって選択されるひらがな、英字、数字、カ
    タカナ、記号の特徴抽出手段および漢字の特徴抽出手段
    と、ひらがな、英字、数字、カタカナ、記号と類似した
    一部の漢字を格納した第一の辞書と、漢字と類似した一
    部のひらがな、英字、数字、カタカナ、記号を格納した
    第二の辞書と、前記特徴抽出手段によって得られた特徴
    と前記辞書の一方とを照合して第一次出力カテゴリ名を
    決定する判定手段と、前記出力カテゴリの字種と前記出
    力カテゴリを得るために使用した認識方式の種類とが異
    なるときに前記出力カテゴリの字種に対応する認識方式
    によって特徴抽出処理を再度実施させるフィードバック
    処理手段とを有することを特徴とする光学的文字認識装
    置。
JP59140046A 1984-07-06 1984-07-06 光学的文字認識装置 Pending JPS6120180A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59140046A JPS6120180A (ja) 1984-07-06 1984-07-06 光学的文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59140046A JPS6120180A (ja) 1984-07-06 1984-07-06 光学的文字認識装置

Publications (1)

Publication Number Publication Date
JPS6120180A true JPS6120180A (ja) 1986-01-28

Family

ID=15259717

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59140046A Pending JPS6120180A (ja) 1984-07-06 1984-07-06 光学的文字認識装置

Country Status (1)

Country Link
JP (1) JPS6120180A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS636687A (ja) * 1986-06-27 1988-01-12 Canon Inc 文字認識装置
JPH0757045A (ja) * 1993-08-17 1995-03-03 Matsushita Electric Ind Co Ltd 運転免許証認識装置
JP2006092138A (ja) * 2004-09-22 2006-04-06 Oki Electric Ind Co Ltd 複数の認識辞書を利用した文字認識装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS636687A (ja) * 1986-06-27 1988-01-12 Canon Inc 文字認識装置
JPH0757045A (ja) * 1993-08-17 1995-03-03 Matsushita Electric Ind Co Ltd 運転免許証認識装置
JP2006092138A (ja) * 2004-09-22 2006-04-06 Oki Electric Ind Co Ltd 複数の認識辞書を利用した文字認識装置

Similar Documents

Publication Publication Date Title
EP0844583B1 (en) Method and apparatus for character recognition
JP2973944B2 (ja) 文書処理装置および文書処理方法
JP2713622B2 (ja) 表形式文書読取装置
Shijian et al. Script and language identification in noisy and degraded document images
US5621818A (en) Document recognition apparatus
JPS62221088A (ja) 光学式文字読取装置
Lehal et al. A post-processor for Gurmukhi OCR
Kameshiro et al. A document image retrieval method tolerating recognition and segmentation errors of OCR using shape-feature and multiple candidates
JPS6120180A (ja) 光学的文字認識装置
Kim et al. A segmentation and recognition strategy for handwritten phrases
JPS60110089A (ja) 文字認識装置
KR102673900B1 (ko) 표 데이터 추출 시스템 및 그 방법
JPS592191A (ja) 手書き日本語文の認識処理方式
Zia et al. A Novel Procedure for Font Recognition through Deep Learning
JP2001022773A (ja) イメージ文書のキーワード抽出方法
KR100258923B1 (ko) 한글 및 영문 성명인식 및 오인식 교정방법
JPS6336389A (ja) 文字読取装置
JPH06119497A (ja) 文字認識方法
Gorgevik et al. Word candidate generation in cyrillic OCR based on ALN classifiers
JPH0869467A (ja) 日本語文書処理装置
JPS6318483A (ja) 光学的情報入力装置用文字認識方法
JP2749425B2 (ja) 記事抽出方式
JPH05307646A (ja) 文字認識装置及びその文字認識方法
JPH0262659A (ja) 日本文訂正候補文字抽出装置
JPS60207983A (ja) 文字認識用辞書作成方式