JPS6118065A - カナ漢字変換処理装置 - Google Patents

カナ漢字変換処理装置

Info

Publication number
JPS6118065A
JPS6118065A JP59139665A JP13966584A JPS6118065A JP S6118065 A JPS6118065 A JP S6118065A JP 59139665 A JP59139665 A JP 59139665A JP 13966584 A JP13966584 A JP 13966584A JP S6118065 A JPS6118065 A JP S6118065A
Authority
JP
Japan
Prior art keywords
dictionary
reading
kana
word
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59139665A
Other languages
English (en)
Inventor
Katsuhiko Fujita
克彦 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP59139665A priority Critical patent/JPS6118065A/ja
Publication of JPS6118065A publication Critical patent/JPS6118065A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 技術分野 本発明はカナ漢字変換処理装置に関し、よ#J詳細には
日本語文書作成装置、電子Bl算機システム等における
カナ漢字変換処理装置に関する。
従来技術 カナ漢字変換方式では、表音文字(ひら仮名、カタ仮名
、ローマ字等)で入力された文章を適切な漢字カナ混じ
り文にするために、カナ漢字変換用の単語辞書を設けて
いる。しかし、辞書検索を行った場合、複数の候補+p
−語が抽出されるのが普通である。
この複数の候補単語の中から1つを選択し変換結果(以
後、変換単語、または変換済甲語とも言う)とするため
に、従来、次のような処理を行っている。
すなわち、抽出された候補貼語のそれぞれに対し前の変
換済Qj語C変換結果)との接続の可能性を判断し、さ
らに接続可能な候補単語を読み長、出現頻度、接続の態
様による品詞ごとの出現確率等をパラメータとして評価
し、評価値の最も高い候補単語を変換結果として出力す
る。
一方、文章は特定の主題を表現するものであるから、一
般に、同一の甲1語が繰り返し出現するという特徴があ
る。この同一の単語の繰り返しに対し、−に記従来法は
、その都度、同じ手順の解析を繰り返しており、同一単
語にり1する以前の解析結果が活用されていないため、
解析効率の点で問題がある。
「〜をはつめいした。さいきんはつめいされたもののな
かで〜」という文章例で説明する。ここで「さいきん」
までが変換されている場合を考える。従来法では、「さ
いきんJ以下の未解析文字列である[はつめい・・−j
の先頭からの文字列に対し辞書検索を行って、まず、助
詞である[は]、名詞である「波」、1派」、「破J 
、 rTl!!l 、 r(J:↑J。
「刃」、「羽J、r端J 、 rl#1.+ 、 r発
1.「初1゜「髪]、す変名側(す変動側のつき得ろ名
詞)である「発明」、・・・・笠、すべての候補m詔を
抽出する。次に、これら候補1f1fiItのそれぞれ
に対し、前の変換済!林語との接続の可否を検索し、接
続可能な候補単語の評価値を算出し、最も評価値の高い
候補慴語を変換結果とする。
しかし、この入力文字列「はつめい」は、以前解析した
入力文字列[〜をはつめいした。・・・」中にも出現し
ており、「さいさんはつめい・・・」という文字列に才
?けるI−記解析は、以前の入力文字列「〜をはつめい
した。・・」を解析した時と同じ手順を繰り返すことに
なる。これでは既に行なった辞書検索の結果が生かされ
ていないため解析の効率が悪く、変換処理速度が低下す
る。
目     的 本発明の目的は、1−記のような従来技術の間頭点を解
決するため、カナ漢字変換処理装置において、既に行な
った辞書検索と評価の結果を以後のり1語解析に11]
用し、カナ漢字変換処理を迅速化することにある。
構   成 本発明は上記の目的を達成するため、入力されたカナ文
字列に対し辞書検索を行う手段、辞書検索により得られ
た候補Q1語から最適な変換中詰をi!i fRする手
段を有するカナ漢字変換処理装置において1選択された
変換「lt語の読み長、品詞の種類を判別し、その結果
、所定の要件を満足している場合は該変換中詰の読みを
記憶する読み一時記憶メモリと、前記カナ文字列を解析
する際、辞書検索の前に前記読み一時記憶メモリを検索
し、読み一時記憶メモリの中に該当する読みが存在する
場合は辞書検索を一部省略することを特徴としたもので
ある。すなわち、既出t+trtの中で一定の条件を満
足するものについて、その読みを記憶する読み一時記憶
メモリを設け、辞書検索を行う前に、解析の対象とする
文字列の中に、既に解析ずみの東語の読みと一致する部
分が含まれているか否かを読み一時記憶メモリにより検
索し、それがあった場合には、辞書検索の一部を省略す
ることで、解析の効率化を図っている。
以下、本発明の一実施例に基づいて構成を具体的に説明
する。
第1図は2本発明の一実施例によるカナ漢字変換処理装
置のブロック図である。
第1図において、1は入力装置、2は変換対象文字列作
成部、3は辞書検索部、4は中詰辞書。
5は読み一時記憶メモリ、6は制御部、7は評価部、8
は出力処理部、9け出力装置である。
以下、前記[〜をはつめいした。さいきんはつめいされ
たもののなかで〜」という文章例を用いて第1図に示し
たカナ漢字変換処理装置の動作を説明する。
文章は表音文字にて入力装置1から入力され、その中か
ら、変換対象文字列作成部2により変換対象文字列が作
成される。作成された変換対象文字列は、まず、その先
頭から単語辞書4検察することにより順次解析されるが
、本実施例では、辞書検索を行う前に、解析の対象とす
る文字列の中に、既に解析ずみの115.語の読みと一
致する部分が含まれているか否かを読み一時記憶メモリ
5によ11検索する。読み一時記憶メモリの検索の詳細
は、説明の都合上、後述することとする。
今、読み一時記憶メモリ5に該当する読みがなかったと
仮定する。この場合、制御部6の制御のもとに、辞書検
索部3は変換対象文字列の先頭から単語辞書4を検索す
る。前記r〜をはつめいした。さいさんはつめいされた
もののなかで〜]という文章例で、r〜を」まで解析が
進み「はつめい・」以下を解析する場合、候補東語どし
て助詞である「は」、名詞である「波J、r派J、r破
J。
「葉」、「歯」、「刃」、「羽J、r端」、「覇」2「
発」2「初J、r髪J、す変名詞(す変動詞のつき得る
名詞)である「発明J、・・・・・等が得られたとする
。すると、評価部7はこれらの候補単語に対し第2図に
示す処理を施す。
すなわち、評価部7け、まず、1−記各候補中語の評価
値を算出する(201)。この評価値算出は公知のいず
れの算出法を用いても良いが、ここでは、「発明」が最
高評価値を示すものとする。得られた評価値の中で最高
評価値が付惨された候補単語(「発明」)を選出しく2
 n 2)、この候補il1語(「発明」)を読み一時
記憶メモリ5に記憶すべきか否かを次の方法で判定する
。すなわち、最高評価値を示す候補単語(「発明」)の
読み長け4以−17゜か否かを判定しく203)、4よ
り小さければ登録判定フラグに0′を立て(206)、
4より大きければ、当該候補単語は、名詞(す変名詞を
含む)か否かを判定する(204)。もし名詞でない場
合は、登録判定フラグに0′を立て、名詞の場合は登録
判定フラグに1′を立てる(205)。読み一時記憶メ
モリ5への登録処理は、登録判定処理フラグが1′の場
合に行い(207,208)、0′の場合は行わない。
すなわち、読み一時記憶メモリ5へ記憶するのは、最高
評価値を示す候補M1語のうち、読み長が4以上で、か
つ名詞であるもののみである。「発明」の場合は読み長
が4であり、かつ名詞(「発明する」のようにす変ダ1
詞が付くのです変名詞でもある)であるので読み一時記
憶メモリ5に記憶される。
第3図は読み一時記憶メモリ5の内容を示す図である。
読み一時記憶メモリ5へは、「読み」とともに、出力処
理部8内のメモリに保存される変換単語の出力情報中で
の位置を示すポインタPI+P2・・・が、読み一時記
憶メモリ5内での通し番号N1゜N2−・・を付されて
格納される。「読みJに対応する変換単語のその他の情
報は、出力処理部8内のメ干りに記憶される。
したがって、Q1語辞書4を検索するに先立って読み一
時記憶メモリ5を検索した際、解析対象文字列と一致す
る部分があれば、Ili語辞書4を検索することなく、
読み一時記憶メモリ5に示すポインタP1.P2・・・
に従って出力処理部8のメモリをそのまま出力情報とし
て利用すれば良い。この方法によれば、同=−の変換対
象文字の繰り返しがある場合、単語辞書4の検索のみな
らず、Q1語辞書4から得られた候補v語に対する評価
、最高評価値を示す候補111語の選出を繰り返す無駄
が省けるので、変換処理が効率化される。
第4図は、辞書検索部3が、111語辞書4を検索する
に先立って行う、読み一時記憶メモリ5に対する検索動
作を示すフローチャー1〜である。
変換対象文字列の4文字と、読み一時記憶メモリ5に記
憶された各[読み」の先頭4文字をマツチングする(4
01.)。マツチしたものが無いときは、単語辞書4を
検索する(407)。最初に4文字を比較する理1]I
よ、読み一時記憶メモリ5には一8= 4文字以コニの変換単語のr読み]しか格納されていな
いからである。マツチしたものがあるとは。
さらに、当該マツチした読み一時記憶メモリ5中の「読
み」に5文字目以降があるか否かを判定する(403)
。もし5文字目以降がないときは、読み一時記位メ干り
5中のマツチする[読みJは4文字であると判明するの
で、それに相当する、11語辞書4検索対象の限定処理
を実行する(406)。
すなわち」ユ記例では、単語辞書4の検索は、「はつめ
い」以上の長さの単語「はつめいさ」、[はつめいされ
」、「はつめいされたj・・・等について行い、[は」
、「はつ」、[はつめいJ・・・等については行わない
こととする。
マツチした読み一時記憶メモリ5中の「読み」に5文字
目以降があるときは、変換対象文字列の5文字目以降と
読み一時記憶メモリ5中の上記マツチした「読み」の5
文字目以降とをマツチングする(403.404)。マ
ツチしたものがあれば、マツチした文字数より短かい読
み長については単語辞書4の検索を省略する(405,
406.407)。マツチするものが無ければ上記「は
つめい」の例と同様に、4文字より短かい読み長につい
ては単語辞書4の検索を省略する(405.406)。
このように、繰り返し同じ単語が出現するという文章の
特徴に着目し、頻出の可能性のある単語を読み一時記憶
メモリ5に記憶することで、−上記のように単語辞書4
の検索を一部省略することができ、カナ漢字変換処理の
効率化が望め、迅速化が可能となる。
なお、上記実施例では、頻出の可能性のあるm語として
、4文字以上の名詞としたが、本発明は、それに限定さ
れるものでないことは言うまでもない。
効   果 以上説明したように1本発明のカナ漢字変換処理装置に
よれば、既に行った辞書検索と評価の結果を以後のm語
解析に利用し、カナ漢字変換処理を迅速化することがで
きる。
【図面の簡単な説明】
第1図は本発明の一実施例によるカナ漢字変換処理装置
のブロック図,第2図,第4図は第1図の動作を示すフ
ローチャート、第3図は第1図における読み一時記憶メ
モリの内容を示す図である。 3:辞書検索部、4:単語辞書、5:読み一時記憶メモ
リ、6:制御部、7:評価部、8:出力処理部。 第   2   図 第   3   図

Claims (1)

    【特許請求の範囲】
  1. (1)入力されたカナ文字列に対し辞書検索を行う手段
    、辞書検索により得られた候補単語から最適な変換単語
    を選択する手段を有するカナ漢字変換処理装置において
    、選択された変換単語の読み長、品詞の種類を判別し、
    その結果、所定の要件を満足している場合は該変換単語
    の読みを記憶する読み一時記憶メモリを設け、前記カナ
    文字列を解析する際、辞書検索の前に前記読み一時記憶
    メモリを検索し、その中に該当する読みが存在する場合
    は辞書検索を一部省略するよう構成したことを特徴とす
    るカナ漢字変換処理装置。
JP59139665A 1984-07-05 1984-07-05 カナ漢字変換処理装置 Pending JPS6118065A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59139665A JPS6118065A (ja) 1984-07-05 1984-07-05 カナ漢字変換処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59139665A JPS6118065A (ja) 1984-07-05 1984-07-05 カナ漢字変換処理装置

Publications (1)

Publication Number Publication Date
JPS6118065A true JPS6118065A (ja) 1986-01-25

Family

ID=15250564

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59139665A Pending JPS6118065A (ja) 1984-07-05 1984-07-05 カナ漢字変換処理装置

Country Status (1)

Country Link
JP (1) JPS6118065A (ja)

Similar Documents

Publication Publication Date Title
JP3196868B2 (ja) テキストをインデックス及び検索するための関連ワード形態の限定状態トランスジューサ
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
JPH0351020B2 (ja)
JP2595934B2 (ja) 仮名漢字変換処理装置
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
JPS6118065A (ja) カナ漢字変換処理装置
JPS63228326A (ja) キ−ワ−ド自動抽出方式
JP2812495B2 (ja) 漢字を使用する言語の音節入力語音逐次区切漢字逐次変換方式
JP3628565B2 (ja) 辞書検索方法、装置、および辞書検索プログラムを記録した記録媒体
JPH02253474A (ja) テキストベース検索方法
JP3873305B2 (ja) 仮名漢字変換装置および仮名漢字変換方法
JP3939264B2 (ja) 形態素解析装置
JP2695772B2 (ja) 仮名漢字変換装置
JPH0320866A (ja) テキストベース検索方式
JP2668205B2 (ja) 文章検索装置
JP3035932B2 (ja) 仮名漢字変換装置
JPH03229367A (ja) テキストベース検索方式
JPS61282966A (ja) 仮名漢字変換方式
JP3048793B2 (ja) 文字変換装置
JPH0766380B2 (ja) かな漢字変換装置
JPS61282964A (ja) 仮名漢字変換方式
JPH08212225A (ja) 言語判定装置
JPS62298869A (ja) 文尾変換方式
JPS6395570A (ja) 言語解析方式
JPS60124768A (ja) 単語抽出方式