JPS6118065A

JPS6118065A - カナ漢字変換処理装置

Info

Publication number: JPS6118065A
Application number: JP59139665A
Authority: JP
Inventors: Katsuhiko Fujita; 克彦藤田
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1984-07-05
Filing date: 1984-07-05
Publication date: 1986-01-25

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】技術分野本発明はカナ漢字変換処理装置に関し、よ＃Ｊ詳細には
日本語文書作成装置、電子Ｂｌ算機システム等における
カナ漢字変換処理装置に関する。

従来技術カナ漢字変換方式では、表音文字（ひら仮名、カタ仮名
、ローマ字等）で入力された文章を適切な漢字カナ混じ
り文にするために、カナ漢字変換用の単語辞書を設けて
いる。しかし、辞書検索を行った場合、複数の候補＋ｐ
−語が抽出されるのが普通である。

この複数の候補単語の中から１つを選択し変換結果（以
後、変換単語、または変換済甲語とも言う）とするため
に、従来、次のような処理を行っている。

すなわち、抽出された候補貼語のそれぞれに対し前の変
換済Ｑｊ語Ｃ変換結果）との接続の可能性を判断し、さ
らに接続可能な候補単語を読み長、出現頻度、接続の態
様による品詞ごとの出現確率等をパラメータとして評価
し、評価値の最も高い候補単語を変換結果として出力す
る。

一方、文章は特定の主題を表現するものであるから、一
般に、同一の甲１語が繰り返し出現するという特徴があ
る。この同一の単語の繰り返しに対し、−に記従来法は
、その都度、同じ手順の解析を繰り返しており、同一単
語にり１する以前の解析結果が活用されていないため、
解析効率の点で問題がある。

「〜をはつめいした。さいきんはつめいされたもののな
かで〜」という文章例で説明する。ここで「さいきん」
までが変換されている場合を考える。従来法では、「さ
いきんＪ以下の未解析文字列である［はつめい・・−ｊ
の先頭からの文字列に対し辞書検索を行って、まず、助
詞である［は］、名詞である「波」、１派」、「破Ｊ　
、　ｒＴｌ！！ｌ　、　ｒ（Ｊ：↑Ｊ。

「刃」、「羽Ｊ、ｒ端Ｊ　、　ｒｌ＃１．＋　、　ｒ発
１．「初１゜「髪］、す変名側（す変動側のつき得ろ名
詞）である「発明」、・・・・笠、すべての候補ｍ詔を
抽出する。次に、これら候補１ｆ１ｆｉＩｔのそれぞれ
に対し、前の変換済！林語との接続の可否を検索し、接
続可能な候補単語の評価値を算出し、最も評価値の高い
候補慴語を変換結果とする。

しかし、この入力文字列「はつめい」は、以前解析した
入力文字列［〜をはつめいした。・・・」中にも出現し
ており、「さいさんはつめい・・・」という文字列に才
？けるＩ−記解析は、以前の入力文字列「〜をはつめい
した。・・」を解析した時と同じ手順を繰り返すことに
なる。これでは既に行なった辞書検索の結果が生かされ
ていないため解析の効率が悪く、変換処理速度が低下す
る。

目　　　　　的本発明の目的は、１−記のような従来技術の間頭点を解
決するため、カナ漢字変換処理装置において、既に行な
った辞書検索と評価の結果を以後のり１語解析に１１］
用し、カナ漢字変換処理を迅速化することにある。

構　　　成本発明は上記の目的を達成するため、入力されたカナ文
字列に対し辞書検索を行う手段、辞書検索により得られ
た候補Ｑ１語から最適な変換中詰をｉ！ｉ　ｆＲする手
段を有するカナ漢字変換処理装置において１選択された
変換「ｌｔ語の読み長、品詞の種類を判別し、その結果
、所定の要件を満足している場合は該変換中詰の読みを
記憶する読み一時記憶メモリと、前記カナ文字列を解析
する際、辞書検索の前に前記読み一時記憶メモリを検索
し、読み一時記憶メモリの中に該当する読みが存在する
場合は辞書検索を一部省略することを特徴としたもので
ある。すなわち、既出ｔ＋ｔｒｔの中で一定の条件を満
足するものについて、その読みを記憶する読み一時記憶
メモリを設け、辞書検索を行う前に、解析の対象とする
文字列の中に、既に解析ずみの東語の読みと一致する部
分が含まれているか否かを読み一時記憶メモリにより検
索し、それがあった場合には、辞書検索の一部を省略す
ることで、解析の効率化を図っている。

以下、本発明の一実施例に基づいて構成を具体的に説明
する。

第１図は２本発明の一実施例によるカナ漢字変換処理装
置のブロック図である。

第１図において、１は入力装置、２は変換対象文字列作
成部、３は辞書検索部、４は中詰辞書。

５は読み一時記憶メモリ、６は制御部、７は評価部、８
は出力処理部、９け出力装置である。

以下、前記［〜をはつめいした。さいきんはつめいされ
たもののなかで〜」という文章例を用いて第１図に示し
たカナ漢字変換処理装置の動作を説明する。

文章は表音文字にて入力装置１から入力され、その中か
ら、変換対象文字列作成部２により変換対象文字列が作
成される。作成された変換対象文字列は、まず、その先
頭から単語辞書４検察することにより順次解析されるが
、本実施例では、辞書検索を行う前に、解析の対象とす
る文字列の中に、既に解析ずみの１１５．語の読みと一
致する部分が含まれているか否かを読み一時記憶メモリ
５によ１１検索する。読み一時記憶メモリの検索の詳細
は、説明の都合上、後述することとする。

今、読み一時記憶メモリ５に該当する読みがなかったと
仮定する。この場合、制御部６の制御のもとに、辞書検
索部３は変換対象文字列の先頭から単語辞書４を検索す
る。前記ｒ〜をはつめいした。さいさんはつめいされた
もののなかで〜］という文章例で、ｒ〜を」まで解析が
進み「はつめい・」以下を解析する場合、候補東語どし
て助詞である「は」、名詞である「波Ｊ、ｒ派Ｊ、ｒ破
Ｊ。

「葉」、「歯」、「刃」、「羽Ｊ、ｒ端」、「覇」２「
発」２「初Ｊ、ｒ髪Ｊ、す変名詞（す変動詞のつき得る
名詞）である「発明Ｊ、・・・・・等が得られたとする
。すると、評価部７はこれらの候補単語に対し第２図に
示す処理を施す。

すなわち、評価部７け、まず、１−記各候補中語の評価
値を算出する（２０１）。この評価値算出は公知のいず
れの算出法を用いても良いが、ここでは、「発明」が最
高評価値を示すものとする。得られた評価値の中で最高
評価値が付惨された候補単語（「発明」）を選出しく２
　ｎ　２）、この候補ｉｌ１語（「発明」）を読み一時
記憶メモリ５に記憶すべきか否かを次の方法で判定する
。すなわち、最高評価値を示す候補単語（「発明」）の
読み長け４以−１７゜か否かを判定しく２０３）、４よ
り小さければ登録判定フラグに０′を立て（２０６）、
４より大きければ、当該候補単語は、名詞（す変名詞を
含む）か否かを判定する（２０４）。もし名詞でない場
合は、登録判定フラグに０′を立て、名詞の場合は登録
判定フラグに１′を立てる（２０５）。読み一時記憶メ
モリ５への登録処理は、登録判定処理フラグが１′の場
合に行い（２０７，２０８）、０′の場合は行わない。

すなわち、読み一時記憶メモリ５へ記憶するのは、最高
評価値を示す候補Ｍ１語のうち、読み長が４以上で、か
つ名詞であるもののみである。「発明」の場合は読み長
が４であり、かつ名詞（「発明する」のようにす変ダ１
詞が付くのです変名詞でもある）であるので読み一時記
憶メモリ５に記憶される。

第３図は読み一時記憶メモリ５の内容を示す図である。

読み一時記憶メモリ５へは、「読み」とともに、出力処
理部８内のメモリに保存される変換単語の出力情報中で
の位置を示すポインタＰＩ＋Ｐ２・・・が、読み一時記
憶メモリ５内での通し番号Ｎ１゜Ｎ２−・・を付されて
格納される。「読みＪに対応する変換単語のその他の情
報は、出力処理部８内のメ干りに記憶される。

したがって、Ｑ１語辞書４を検索するに先立って読み一
時記憶メモリ５を検索した際、解析対象文字列と一致す
る部分があれば、Ｉｌｉ語辞書４を検索することなく、
読み一時記憶メモリ５に示すポインタＰ１．Ｐ２・・・
に従って出力処理部８のメモリをそのまま出力情報とし
て利用すれば良い。この方法によれば、同＝−の変換対
象文字の繰り返しがある場合、単語辞書４の検索のみな
らず、Ｑ１語辞書４から得られた候補ｖ語に対する評価
、最高評価値を示す候補１１１語の選出を繰り返す無駄
が省けるので、変換処理が効率化される。

第４図は、辞書検索部３が、１１１語辞書４を検索する
に先立って行う、読み一時記憶メモリ５に対する検索動
作を示すフローチャー１〜である。

変換対象文字列の４文字と、読み一時記憶メモリ５に記
憶された各［読み」の先頭４文字をマツチングする（４
０１．）。マツチしたものが無いときは、単語辞書４を
検索する（４０７）。最初に４文字を比較する理１］Ｉ
よ、読み一時記憶メモリ５には一８＝４文字以コニの変換単語のｒ読み］しか格納されていな
いからである。マツチしたものがあるとは。

さらに、当該マツチした読み一時記憶メモリ５中の「読
み」に５文字目以降があるか否かを判定する（４０３）
。もし５文字目以降がないときは、読み一時記位メ干り
５中のマツチする［読みＪは４文字であると判明するの
で、それに相当する、１１語辞書４検索対象の限定処理
を実行する（４０６）。

すなわち」ユ記例では、単語辞書４の検索は、「はつめ
い」以上の長さの単語「はつめいさ」、［はつめいされ
」、「はつめいされたｊ・・・等について行い、［は」
、「はつ」、［はつめいＪ・・・等については行わない
こととする。

マツチした読み一時記憶メモリ５中の「読み」に５文字
目以降があるときは、変換対象文字列の５文字目以降と
読み一時記憶メモリ５中の上記マツチした「読み」の５
文字目以降とをマツチングする（４０３．４０４）。マ
ツチしたものがあれば、マツチした文字数より短かい読
み長については単語辞書４の検索を省略する（４０５，
４０６．４０７）。マツチするものが無ければ上記「は
つめい」の例と同様に、４文字より短かい読み長につい
ては単語辞書４の検索を省略する（４０５．４０６）。

このように、繰り返し同じ単語が出現するという文章の
特徴に着目し、頻出の可能性のある単語を読み一時記憶
メモリ５に記憶することで、−上記のように単語辞書４
の検索を一部省略することができ、カナ漢字変換処理の
効率化が望め、迅速化が可能となる。

なお、上記実施例では、頻出の可能性のあるｍ語として
、４文字以上の名詞としたが、本発明は、それに限定さ
れるものでないことは言うまでもない。

効　　　果以上説明したように１本発明のカナ漢字変換処理装置に
よれば、既に行った辞書検索と評価の結果を以後のｍ語
解析に利用し、カナ漢字変換処理を迅速化することがで
きる。

【図面の簡単な説明】

第１図は本発明の一実施例によるカナ漢字変換処理装置
のブロック図，第２図，第４図は第１図の動作を示すフ
ローチャート、第３図は第１図における読み一時記憶メ
モリの内容を示す図である。３：辞書検索部、４：単語辞書、５：読み一時記憶メモ
リ、６：制御部、７：評価部、８：出力処理部。第　　　２　　　図第　　　３　　　図

Claims

【特許請求の範囲】

（１）入力されたカナ文字列に対し辞書検索を行う手段
、辞書検索により得られた候補単語から最適な変換単語
を選択する手段を有するカナ漢字変換処理装置において
、選択された変換単語の読み長、品詞の種類を判別し、
その結果、所定の要件を満足している場合は該変換単語
の読みを記憶する読み一時記憶メモリを設け、前記カナ
文字列を解析する際、辞書検索の前に前記読み一時記憶
メモリを検索し、その中に該当する読みが存在する場合
は辞書検索を一部省略するよう構成したことを特徴とす
るカナ漢字変換処理装置。