JPS62247451A - 日本語処理装置の単語辞書構成法 - Google Patents

日本語処理装置の単語辞書構成法

Info

Publication number
JPS62247451A
JPS62247451A JP61091072A JP9107286A JPS62247451A JP S62247451 A JPS62247451 A JP S62247451A JP 61091072 A JP61091072 A JP 61091072A JP 9107286 A JP9107286 A JP 9107286A JP S62247451 A JPS62247451 A JP S62247451A
Authority
JP
Japan
Prior art keywords
kana
kanji
conversion
input
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61091072A
Other languages
English (en)
Inventor
Jiichi Igarashi
五十嵐 治一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP61091072A priority Critical patent/JPS62247451A/ja
Publication of JPS62247451A publication Critical patent/JPS62247451A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔技術分野〕 本発明は日本語処理装置に用いられる単語辞書の構成法
に係り、詳しくは、仮名漢字変換、漢字仮名変換、文字
認識等の多機能の日本語文章処理を可能とする単語辞書
の構成法に関する。
〔従来技術〕
日本語ワードプロセッサにおいては、通常、仮名漢字変
換機能が備えられている。この種仮名漢字変換では、仮
名文字列に対して、単語の切り出し時に品詞間の接続チ
ェックを行うことが一般的である。この処理は形態素解
析と呼ばれているが。
この形態素解析はOCR(光学的文字読取装置りにおけ
る文字認識の後処理(誤認識文字の訂正)にも取り入れ
られ始めてきている。しかしながら、仮名漢字変換と文
字認識の分野では、例えば、入力文章がそれぞれ仮名文
と漢字仮名混り文というように異なるため、従来は別々
の単語辞書が用いられ、アルゴリズムやプログラムも共
通化されていないのが普通である。
〔目 的〕
本発明の目的は、入力文章中の単語が単語辞書中に登録
されていない表記をされていても、これを単語と認定で
きるようにするための情報を単語辞書中に付加して、仮
名漢字変換、漢字仮名変換。
文字認識等の多機能の日本語文章処理を可能にすること
にある。
〔構 成〕
本発明は、単語の漢字仮名混り表記を発生させるため、
読み表記対応データを付加した単語辞書構成とする。こ
れにより、仮名漢字変換、漢字仮名変換、文字認識の後
処理等に共通の形態素解析処理を利用することができる
ようになる。以下、本発明の一実施例について図面によ
り詳述する。
第1図は本発明の単語辞書を適用した多機能日本語処理
装置の全体構成図を示す、キーボード10は文字を入力
する他に各種のモード(仮名漢字変換、漢字仮名変換、
OCR文字認識等)を指定するのに用いる。OCR入力
装置111は原稿を光学的に読取り入力する。処理装置
12はキーボード10やOCR入力装置111からの入
力情報について、指定されたモードに従った処理を実行
し。
出力袋5ij16に出力する。出力装置16はディスプ
レイ装置、プリンタ等を総称して示したものである。処
理装置12の処理に必要なプログラムはプログラムメモ
リ(ROM)13に格納されるが、キーボード入力によ
る仮名漢字変換、OCR文字認識の後処理、OCR入力
された文字列の仮名漢字変換や漢字仮名変換について出
来るだけ共通のアルゴリズムが利用される。データメモ
リ(RAM)14は処理装置12での処理途中のデータ
やパラメータを格納するのに用いられる。単語辞書メモ
リ15には後述する読み表記対応データを付加した単語
辞書が格納されている。
第2図に全体の処理の流れを示す。処理101でモード
(n=1,2t 3,4)を選択する。n=1はキーボ
ード10より入力された仮名文字列(ローマ字入力で仮
名変換されたものも含む)を漢字仮名混り文に変換する
モードである。n=2はOCR入力装置11より入力さ
れた仮名文字列または一部漢字の混ざった文字列を認識
し、完全な(出来る限り漢字表記をするという意味で)
漢字混り文に変換するモードである0例えば、OCR入
力されたr車でほこをはこぶ」を「車で箱を運ぶ」に変
換する。n=3はOCR入力入力f1llより入力され
た文章の認m(文字認識及びその後処理)を行うモード
である。n=4はOCR入力装置11より入力された漢
字仮名混り文を仮名文字列に変換するモードである。
n≧2のモードの場合、処理102で文字認識を行い、
処理103で誤認識文字の自動検出を行う。
各モード(n=1〜4)は処理104で一緒になり、「
。」または「、」で区切られた部分を1ユニツトとして
ユニットの切り出しを行う、処理105で文章の終りを
判定し、文章の終りの場合(切り出すユニットが存在し
ない場合)は処理を終了するが、それ以外の場合は切り
出したユニットについて106以降の処理を実行する。
n≧2のモードでは、処理106で候補文字列を作成し
た後(第1位候補文字から順に代入していく)、処理1
07で形態素解析を、処理108で該当ユニットの評価
値を計算する。その後、処理109で候補文字が終りか
どうか判定し、終りでなければ処理106に戻る。この
ようにして、すべての候補文字列に対して形態素解析を
行い、ユニットの評価値の計算が終了すると、処理11
0で最大評価値をもつ候補文字列を当該ユニットの文字
列として選択する。一方、n=1のモードの場合は、処
理115で形態素解析を行う、なお、処理107と11
5は同じサブルーチンで実行される。
処理111でn=2を判定し、n=1と2のモードの場
合は、処理112で単語の表記文字列に変換した後、処
理113で該文字列を出力して処理104に戻る。n 
= 3のモードの場合は、処理110で選択した文字列
をそのまN出力する。n=4の場合は、処理114で単
語の読みの文字列に変換して出力する。第8図に入力文
字列と各モードでの出力文字列の例を示す。
二〜で、モード4の文字認識+漢字仮名変換機能は、例
えば単音節発生装置と組み合せることにより、文章読上
げ装置の一部として利用することができるので、文字認
識の確認用としても活用できる。
第2図における処理107と115の形態素解析の詳細
フローを第3図に示す、第3図において。
モード1とモード2,3,4とが処理上具なるのは、処
理203と203、及び処理221と222の2箇所だ
けである。このうち、処理203が従来の形態解析機能
に対して本発明により新たに追加された処理である。こ
の処理203は、解析対象の漢字仮名混り文字列に対し
て、単語辞書中の単語の漢字仮名混り表記を可能な限り
発生させ、マツチングをとるという辞書引きのための処
理である。この処理203を新たに付加することにより
、仮名漢字変換処理(モード1)だけではなく、OCR
後処理(モード2.3)、漢字仮名変換処理(モード4
)とが同一アルゴリズムで実現することができるように
なる。それ以外の処理は公知技術であるので(例えば特
開昭59−221733号)、第3図の説明は省略する
第4図は第3図の処理203の詳細フローを示したもの
である。ニーでは、解析対象文字列は6文字以内とし、
具体例として「計算きを使い」を入力した場合について
説明する。第5図は単語辞書の構成を示している。
処理301で解析対象文字列を入力し、処理302で先
頭が仮名かどうか判定し、仮名の場合は処理303,3
04を、漢字の場合は処理305゜306を実行する1
本例の場合、先頭文字「計」は漢字であるので、処理3
05で漢字列[計算」が切り出される。処理306では
、単語辞書307(第1図の単語メモリ15中にある)
中の表記の部分をキーとして、「計算」と先頭から完全
にまたは部分的にマツチする単語を検索し、その結果得
られた候補単語をメモリ308(第1図のデータメモリ
14に対応)にストックしておく、こシでは、「計」、
「計算」、「計算機」が候補単語として検出されたとす
る。
処理309では、それらの候補単語が「完全マツチング
」であるかを判定する。「完全マツチング」とは、候補
単語の読みまたは表記が対象文字列の先頭から一致し、
包含されるようなマツチングをいう0例えば、候補単語
の「計」と「計算」は、対象文字列の「計算きを使い」
とは「完全マツチング」であるが、「計算機」は「き」
と「機」の部分が異なるので「完全マツチング」ではな
い。
完全マツチングした候補単語「計」と「計算」について
は、その単語情報(読み、表記、品詞、頻度等)が処理
313,314を経て次ステツプ(第3図の処理204
)へ出力される。
一方、候補単語「計算機」については、処理310以下
の処理が実行される。まず、処理310で、単語辞書中
の単語の読み、表記、読み表記対応データとから可能な
漢字仮名混り表記を発生させる。第6図に発生された表
記の例を示す。読み表記対応データは、「表記」中の漢
字を含む部分の文字列と対応する「読み」中の部分仮名
文字列の長さを意味する。第7図に「計算機」での例を
示す、即ち、「けい」、「さん」、「き」の3つの部分
仮名文字列の長さはそれぞれ2,2.1であるが、最後
の値を除いたr2,2Jだけを単語辞書に登録しておけ
ば十分である。もし、表記中に仮名文字が混ざっている
場合には、次の規則にしたがって部分列に分割する。切
り取った文字列の中に漢字を1字だけ含み、かつ、仮名
から漢字に字種変化する場所で区切る(例、読み出す→
「読み」、「出す」)、なお、発生する漢字仮名混り表
記が可能が単語表記をすべてカバーできるためには、単
語の表記はなるべく漢字で記されていることが望ましい
(例、「つり道具」→「釣り道具」)、また、表記の漢
字の個数が0個または1個であるときには、読み表記デ
ータはOとしておく8次に、処理311で対象文字列と
漢字仮名混り表記とのマツチングをとり、マツチングを
とれNば該単語情報を次ステツプへ出力する(処理31
2.313)、これを候補単語すべてについて繰り返す
(処理314)。
モードn≧2の場合、上記の形態素解析処理を実行した
後、第2図の処理108〜110を行うことにより、最
も尤度の高い候補文字を決定することができる。処理1
10では、処理108で計算した単語の評価値の累積和
をユニットの評価値として利用する。
また、第4図の処理310では使用字種の制限を設ける
ことにより、任意の指定した字種範囲(例、教育漢字ひ
らがな)での単語表記を得ることが出来、それを第2図
の処理113で出力することにより、OCR入力装置1
1から読み取った入力文字列を、指定された字種範囲の
文字列へ変換して出力することも容易に可能となる。
〔効 果〕
以上の説明から明らかな如く、本発明の単語辞書構成に
よれば、単語辞書用メモリをそれほど増加することなく
、文字認識の後処理、漢字仮名変換、部分的に漢字入力
された日本文の仮名漢字変換あるいは機械翻訳(日本語
から外国語へなど)における形態解析等への応用が可能
である。
【図面の簡単な説明】
第1図は本発明の単語辞書を適用した多機能日本語処理
装置の一実施例のブロック図、第2図は第1図の全体の
処理の流れを示す図、第3図は形態素解析の処理の流れ
を示す図、第4図は第3図の処理203の詳細を示す図
、第5図は本発明の単語辞書の構成例を示す図、第6図
は漢字仮名混り表記の一例を示す図、第7図は読み書き
対応データの説明図、第8図は各モード対応の入出力文
字列の一例を示す図である。 10・・・キーボード、  11・・・OCR入力入力
、12・・・処理装置、 13・・・プログラムメモリ
、14・・・データメモリ、  15・・・単語メモリ
、16・・・出力装置。

Claims (1)

    【特許請求の範囲】
  1. (1)仮名漢字変換処理、漢字仮名変換処理、文字認識
    処理等を行う日本語処理装置において、単語辞書を、単
    語の漢字仮名混り表記を発生させるため読み表記対応デ
    ータを付加した構成とすることを特徴とする単語辞書構
    成法。
JP61091072A 1986-04-19 1986-04-19 日本語処理装置の単語辞書構成法 Pending JPS62247451A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61091072A JPS62247451A (ja) 1986-04-19 1986-04-19 日本語処理装置の単語辞書構成法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61091072A JPS62247451A (ja) 1986-04-19 1986-04-19 日本語処理装置の単語辞書構成法

Publications (1)

Publication Number Publication Date
JPS62247451A true JPS62247451A (ja) 1987-10-28

Family

ID=14016298

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61091072A Pending JPS62247451A (ja) 1986-04-19 1986-04-19 日本語処理装置の単語辞書構成法

Country Status (1)

Country Link
JP (1) JPS62247451A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01286092A (ja) * 1988-05-13 1989-11-17 Mitsubishi Electric Corp 単語読取装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01286092A (ja) * 1988-05-13 1989-11-17 Mitsubishi Electric Corp 単語読取装置
JP2615834B2 (ja) * 1988-05-13 1997-06-04 三菱電機株式会社 単語読取装置

Similar Documents

Publication Publication Date Title
EP0180888A2 (en) Method and apparatus for natural language processing
JPH0535783A (ja) タイポグラフイカル情報付き文書の翻訳装置
JP5231698B2 (ja) 日本語の表意文字の読み方を予測する方法
JPH05120324A (ja) 言語処理方式
JPS62224859A (ja) 日本語処理方式
JPS62247451A (ja) 日本語処理装置の単語辞書構成法
JPS58123129A (ja) 仮名漢字変換装置
KR20080028655A (ko) 품사 태깅 장치 및 태깅 방법
JP2004206659A (ja) 読み情報決定方法及び装置及びプログラム
JPS58123126A (ja) 辞書検索装置
JP3454895B2 (ja) 仮名漢字変換方法
JP3048793B2 (ja) 文字変換装置
JP3273778B2 (ja) 仮名漢字変換装置及び仮名漢字変換方法
JPS63136264A (ja) 機械翻訳装置
JPH06119379A (ja) ふりがな機能つき機械翻訳装置および方法
JPS6330960A (ja) 漢字仮名混じり文の形態素解析処理方法
JPH10105552A (ja) 機械翻訳システム
JPS62202283A (ja) 日本語処理方式
JPS62140165A (ja) 仮名漢字変換方式
JPH04306766A (ja) 機械翻訳装置
JPH08180057A (ja) 文書検索方法および装置
JPH0778155A (ja) 文書認識装置
JPH0736908A (ja) 英日機械翻訳装置
JPH05197752A (ja) 機械翻訳装置
JPS61177573A (ja) 日本語文章作成装置