JPS6118065A - カナ漢字変換処理装置 - Google Patents
カナ漢字変換処理装置Info
- Publication number
- JPS6118065A JPS6118065A JP59139665A JP13966584A JPS6118065A JP S6118065 A JPS6118065 A JP S6118065A JP 59139665 A JP59139665 A JP 59139665A JP 13966584 A JP13966584 A JP 13966584A JP S6118065 A JPS6118065 A JP S6118065A
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- reading
- kana
- word
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
技術分野
本発明はカナ漢字変換処理装置に関し、よ#J詳細には
日本語文書作成装置、電子Bl算機システム等における
カナ漢字変換処理装置に関する。
日本語文書作成装置、電子Bl算機システム等における
カナ漢字変換処理装置に関する。
従来技術
カナ漢字変換方式では、表音文字(ひら仮名、カタ仮名
、ローマ字等)で入力された文章を適切な漢字カナ混じ
り文にするために、カナ漢字変換用の単語辞書を設けて
いる。しかし、辞書検索を行った場合、複数の候補+p
−語が抽出されるのが普通である。
、ローマ字等)で入力された文章を適切な漢字カナ混じ
り文にするために、カナ漢字変換用の単語辞書を設けて
いる。しかし、辞書検索を行った場合、複数の候補+p
−語が抽出されるのが普通である。
この複数の候補単語の中から1つを選択し変換結果(以
後、変換単語、または変換済甲語とも言う)とするため
に、従来、次のような処理を行っている。
後、変換単語、または変換済甲語とも言う)とするため
に、従来、次のような処理を行っている。
すなわち、抽出された候補貼語のそれぞれに対し前の変
換済Qj語C変換結果)との接続の可能性を判断し、さ
らに接続可能な候補単語を読み長、出現頻度、接続の態
様による品詞ごとの出現確率等をパラメータとして評価
し、評価値の最も高い候補単語を変換結果として出力す
る。
換済Qj語C変換結果)との接続の可能性を判断し、さ
らに接続可能な候補単語を読み長、出現頻度、接続の態
様による品詞ごとの出現確率等をパラメータとして評価
し、評価値の最も高い候補単語を変換結果として出力す
る。
一方、文章は特定の主題を表現するものであるから、一
般に、同一の甲1語が繰り返し出現するという特徴があ
る。この同一の単語の繰り返しに対し、−に記従来法は
、その都度、同じ手順の解析を繰り返しており、同一単
語にり1する以前の解析結果が活用されていないため、
解析効率の点で問題がある。
般に、同一の甲1語が繰り返し出現するという特徴があ
る。この同一の単語の繰り返しに対し、−に記従来法は
、その都度、同じ手順の解析を繰り返しており、同一単
語にり1する以前の解析結果が活用されていないため、
解析効率の点で問題がある。
「〜をはつめいした。さいきんはつめいされたもののな
かで〜」という文章例で説明する。ここで「さいきん」
までが変換されている場合を考える。従来法では、「さ
いきんJ以下の未解析文字列である[はつめい・・−j
の先頭からの文字列に対し辞書検索を行って、まず、助
詞である[は]、名詞である「波」、1派」、「破J
、 rTl!!l 、 r(J:↑J。
かで〜」という文章例で説明する。ここで「さいきん」
までが変換されている場合を考える。従来法では、「さ
いきんJ以下の未解析文字列である[はつめい・・−j
の先頭からの文字列に対し辞書検索を行って、まず、助
詞である[は]、名詞である「波」、1派」、「破J
、 rTl!!l 、 r(J:↑J。
「刃」、「羽J、r端J 、 rl#1.+ 、 r発
1.「初1゜「髪]、す変名側(す変動側のつき得ろ名
詞)である「発明」、・・・・笠、すべての候補m詔を
抽出する。次に、これら候補1f1fiItのそれぞれ
に対し、前の変換済!林語との接続の可否を検索し、接
続可能な候補単語の評価値を算出し、最も評価値の高い
候補慴語を変換結果とする。
1.「初1゜「髪]、す変名側(す変動側のつき得ろ名
詞)である「発明」、・・・・笠、すべての候補m詔を
抽出する。次に、これら候補1f1fiItのそれぞれ
に対し、前の変換済!林語との接続の可否を検索し、接
続可能な候補単語の評価値を算出し、最も評価値の高い
候補慴語を変換結果とする。
しかし、この入力文字列「はつめい」は、以前解析した
入力文字列[〜をはつめいした。・・・」中にも出現し
ており、「さいさんはつめい・・・」という文字列に才
?けるI−記解析は、以前の入力文字列「〜をはつめい
した。・・」を解析した時と同じ手順を繰り返すことに
なる。これでは既に行なった辞書検索の結果が生かされ
ていないため解析の効率が悪く、変換処理速度が低下す
る。
入力文字列[〜をはつめいした。・・・」中にも出現し
ており、「さいさんはつめい・・・」という文字列に才
?けるI−記解析は、以前の入力文字列「〜をはつめい
した。・・」を解析した時と同じ手順を繰り返すことに
なる。これでは既に行なった辞書検索の結果が生かされ
ていないため解析の効率が悪く、変換処理速度が低下す
る。
目 的
本発明の目的は、1−記のような従来技術の間頭点を解
決するため、カナ漢字変換処理装置において、既に行な
った辞書検索と評価の結果を以後のり1語解析に11]
用し、カナ漢字変換処理を迅速化することにある。
決するため、カナ漢字変換処理装置において、既に行な
った辞書検索と評価の結果を以後のり1語解析に11]
用し、カナ漢字変換処理を迅速化することにある。
構 成
本発明は上記の目的を達成するため、入力されたカナ文
字列に対し辞書検索を行う手段、辞書検索により得られ
た候補Q1語から最適な変換中詰をi!i fRする手
段を有するカナ漢字変換処理装置において1選択された
変換「lt語の読み長、品詞の種類を判別し、その結果
、所定の要件を満足している場合は該変換中詰の読みを
記憶する読み一時記憶メモリと、前記カナ文字列を解析
する際、辞書検索の前に前記読み一時記憶メモリを検索
し、読み一時記憶メモリの中に該当する読みが存在する
場合は辞書検索を一部省略することを特徴としたもので
ある。すなわち、既出t+trtの中で一定の条件を満
足するものについて、その読みを記憶する読み一時記憶
メモリを設け、辞書検索を行う前に、解析の対象とする
文字列の中に、既に解析ずみの東語の読みと一致する部
分が含まれているか否かを読み一時記憶メモリにより検
索し、それがあった場合には、辞書検索の一部を省略す
ることで、解析の効率化を図っている。
字列に対し辞書検索を行う手段、辞書検索により得られ
た候補Q1語から最適な変換中詰をi!i fRする手
段を有するカナ漢字変換処理装置において1選択された
変換「lt語の読み長、品詞の種類を判別し、その結果
、所定の要件を満足している場合は該変換中詰の読みを
記憶する読み一時記憶メモリと、前記カナ文字列を解析
する際、辞書検索の前に前記読み一時記憶メモリを検索
し、読み一時記憶メモリの中に該当する読みが存在する
場合は辞書検索を一部省略することを特徴としたもので
ある。すなわち、既出t+trtの中で一定の条件を満
足するものについて、その読みを記憶する読み一時記憶
メモリを設け、辞書検索を行う前に、解析の対象とする
文字列の中に、既に解析ずみの東語の読みと一致する部
分が含まれているか否かを読み一時記憶メモリにより検
索し、それがあった場合には、辞書検索の一部を省略す
ることで、解析の効率化を図っている。
以下、本発明の一実施例に基づいて構成を具体的に説明
する。
する。
第1図は2本発明の一実施例によるカナ漢字変換処理装
置のブロック図である。
置のブロック図である。
第1図において、1は入力装置、2は変換対象文字列作
成部、3は辞書検索部、4は中詰辞書。
成部、3は辞書検索部、4は中詰辞書。
5は読み一時記憶メモリ、6は制御部、7は評価部、8
は出力処理部、9け出力装置である。
は出力処理部、9け出力装置である。
以下、前記[〜をはつめいした。さいきんはつめいされ
たもののなかで〜」という文章例を用いて第1図に示し
たカナ漢字変換処理装置の動作を説明する。
たもののなかで〜」という文章例を用いて第1図に示し
たカナ漢字変換処理装置の動作を説明する。
文章は表音文字にて入力装置1から入力され、その中か
ら、変換対象文字列作成部2により変換対象文字列が作
成される。作成された変換対象文字列は、まず、その先
頭から単語辞書4検察することにより順次解析されるが
、本実施例では、辞書検索を行う前に、解析の対象とす
る文字列の中に、既に解析ずみの115.語の読みと一
致する部分が含まれているか否かを読み一時記憶メモリ
5によ11検索する。読み一時記憶メモリの検索の詳細
は、説明の都合上、後述することとする。
ら、変換対象文字列作成部2により変換対象文字列が作
成される。作成された変換対象文字列は、まず、その先
頭から単語辞書4検察することにより順次解析されるが
、本実施例では、辞書検索を行う前に、解析の対象とす
る文字列の中に、既に解析ずみの115.語の読みと一
致する部分が含まれているか否かを読み一時記憶メモリ
5によ11検索する。読み一時記憶メモリの検索の詳細
は、説明の都合上、後述することとする。
今、読み一時記憶メモリ5に該当する読みがなかったと
仮定する。この場合、制御部6の制御のもとに、辞書検
索部3は変換対象文字列の先頭から単語辞書4を検索す
る。前記r〜をはつめいした。さいさんはつめいされた
もののなかで〜]という文章例で、r〜を」まで解析が
進み「はつめい・」以下を解析する場合、候補東語どし
て助詞である「は」、名詞である「波J、r派J、r破
J。
仮定する。この場合、制御部6の制御のもとに、辞書検
索部3は変換対象文字列の先頭から単語辞書4を検索す
る。前記r〜をはつめいした。さいさんはつめいされた
もののなかで〜]という文章例で、r〜を」まで解析が
進み「はつめい・」以下を解析する場合、候補東語どし
て助詞である「は」、名詞である「波J、r派J、r破
J。
「葉」、「歯」、「刃」、「羽J、r端」、「覇」2「
発」2「初J、r髪J、す変名詞(す変動詞のつき得る
名詞)である「発明J、・・・・・等が得られたとする
。すると、評価部7はこれらの候補単語に対し第2図に
示す処理を施す。
発」2「初J、r髪J、す変名詞(す変動詞のつき得る
名詞)である「発明J、・・・・・等が得られたとする
。すると、評価部7はこれらの候補単語に対し第2図に
示す処理を施す。
すなわち、評価部7け、まず、1−記各候補中語の評価
値を算出する(201)。この評価値算出は公知のいず
れの算出法を用いても良いが、ここでは、「発明」が最
高評価値を示すものとする。得られた評価値の中で最高
評価値が付惨された候補単語(「発明」)を選出しく2
n 2)、この候補il1語(「発明」)を読み一時
記憶メモリ5に記憶すべきか否かを次の方法で判定する
。すなわち、最高評価値を示す候補単語(「発明」)の
読み長け4以−17゜か否かを判定しく203)、4よ
り小さければ登録判定フラグに0′を立て(206)、
4より大きければ、当該候補単語は、名詞(す変名詞を
含む)か否かを判定する(204)。もし名詞でない場
合は、登録判定フラグに0′を立て、名詞の場合は登録
判定フラグに1′を立てる(205)。読み一時記憶メ
モリ5への登録処理は、登録判定処理フラグが1′の場
合に行い(207,208)、0′の場合は行わない。
値を算出する(201)。この評価値算出は公知のいず
れの算出法を用いても良いが、ここでは、「発明」が最
高評価値を示すものとする。得られた評価値の中で最高
評価値が付惨された候補単語(「発明」)を選出しく2
n 2)、この候補il1語(「発明」)を読み一時
記憶メモリ5に記憶すべきか否かを次の方法で判定する
。すなわち、最高評価値を示す候補単語(「発明」)の
読み長け4以−17゜か否かを判定しく203)、4よ
り小さければ登録判定フラグに0′を立て(206)、
4より大きければ、当該候補単語は、名詞(す変名詞を
含む)か否かを判定する(204)。もし名詞でない場
合は、登録判定フラグに0′を立て、名詞の場合は登録
判定フラグに1′を立てる(205)。読み一時記憶メ
モリ5への登録処理は、登録判定処理フラグが1′の場
合に行い(207,208)、0′の場合は行わない。
すなわち、読み一時記憶メモリ5へ記憶するのは、最高
評価値を示す候補M1語のうち、読み長が4以上で、か
つ名詞であるもののみである。「発明」の場合は読み長
が4であり、かつ名詞(「発明する」のようにす変ダ1
詞が付くのです変名詞でもある)であるので読み一時記
憶メモリ5に記憶される。
評価値を示す候補M1語のうち、読み長が4以上で、か
つ名詞であるもののみである。「発明」の場合は読み長
が4であり、かつ名詞(「発明する」のようにす変ダ1
詞が付くのです変名詞でもある)であるので読み一時記
憶メモリ5に記憶される。
第3図は読み一時記憶メモリ5の内容を示す図である。
読み一時記憶メモリ5へは、「読み」とともに、出力処
理部8内のメモリに保存される変換単語の出力情報中で
の位置を示すポインタPI+P2・・・が、読み一時記
憶メモリ5内での通し番号N1゜N2−・・を付されて
格納される。「読みJに対応する変換単語のその他の情
報は、出力処理部8内のメ干りに記憶される。
理部8内のメモリに保存される変換単語の出力情報中で
の位置を示すポインタPI+P2・・・が、読み一時記
憶メモリ5内での通し番号N1゜N2−・・を付されて
格納される。「読みJに対応する変換単語のその他の情
報は、出力処理部8内のメ干りに記憶される。
したがって、Q1語辞書4を検索するに先立って読み一
時記憶メモリ5を検索した際、解析対象文字列と一致す
る部分があれば、Ili語辞書4を検索することなく、
読み一時記憶メモリ5に示すポインタP1.P2・・・
に従って出力処理部8のメモリをそのまま出力情報とし
て利用すれば良い。この方法によれば、同=−の変換対
象文字の繰り返しがある場合、単語辞書4の検索のみな
らず、Q1語辞書4から得られた候補v語に対する評価
、最高評価値を示す候補111語の選出を繰り返す無駄
が省けるので、変換処理が効率化される。
時記憶メモリ5を検索した際、解析対象文字列と一致す
る部分があれば、Ili語辞書4を検索することなく、
読み一時記憶メモリ5に示すポインタP1.P2・・・
に従って出力処理部8のメモリをそのまま出力情報とし
て利用すれば良い。この方法によれば、同=−の変換対
象文字の繰り返しがある場合、単語辞書4の検索のみな
らず、Q1語辞書4から得られた候補v語に対する評価
、最高評価値を示す候補111語の選出を繰り返す無駄
が省けるので、変換処理が効率化される。
第4図は、辞書検索部3が、111語辞書4を検索する
に先立って行う、読み一時記憶メモリ5に対する検索動
作を示すフローチャー1〜である。
に先立って行う、読み一時記憶メモリ5に対する検索動
作を示すフローチャー1〜である。
変換対象文字列の4文字と、読み一時記憶メモリ5に記
憶された各[読み」の先頭4文字をマツチングする(4
01.)。マツチしたものが無いときは、単語辞書4を
検索する(407)。最初に4文字を比較する理1]I
よ、読み一時記憶メモリ5には一8= 4文字以コニの変換単語のr読み]しか格納されていな
いからである。マツチしたものがあるとは。
憶された各[読み」の先頭4文字をマツチングする(4
01.)。マツチしたものが無いときは、単語辞書4を
検索する(407)。最初に4文字を比較する理1]I
よ、読み一時記憶メモリ5には一8= 4文字以コニの変換単語のr読み]しか格納されていな
いからである。マツチしたものがあるとは。
さらに、当該マツチした読み一時記憶メモリ5中の「読
み」に5文字目以降があるか否かを判定する(403)
。もし5文字目以降がないときは、読み一時記位メ干り
5中のマツチする[読みJは4文字であると判明するの
で、それに相当する、11語辞書4検索対象の限定処理
を実行する(406)。
み」に5文字目以降があるか否かを判定する(403)
。もし5文字目以降がないときは、読み一時記位メ干り
5中のマツチする[読みJは4文字であると判明するの
で、それに相当する、11語辞書4検索対象の限定処理
を実行する(406)。
すなわち」ユ記例では、単語辞書4の検索は、「はつめ
い」以上の長さの単語「はつめいさ」、[はつめいされ
」、「はつめいされたj・・・等について行い、[は」
、「はつ」、[はつめいJ・・・等については行わない
こととする。
い」以上の長さの単語「はつめいさ」、[はつめいされ
」、「はつめいされたj・・・等について行い、[は」
、「はつ」、[はつめいJ・・・等については行わない
こととする。
マツチした読み一時記憶メモリ5中の「読み」に5文字
目以降があるときは、変換対象文字列の5文字目以降と
読み一時記憶メモリ5中の上記マツチした「読み」の5
文字目以降とをマツチングする(403.404)。マ
ツチしたものがあれば、マツチした文字数より短かい読
み長については単語辞書4の検索を省略する(405,
406.407)。マツチするものが無ければ上記「は
つめい」の例と同様に、4文字より短かい読み長につい
ては単語辞書4の検索を省略する(405.406)。
目以降があるときは、変換対象文字列の5文字目以降と
読み一時記憶メモリ5中の上記マツチした「読み」の5
文字目以降とをマツチングする(403.404)。マ
ツチしたものがあれば、マツチした文字数より短かい読
み長については単語辞書4の検索を省略する(405,
406.407)。マツチするものが無ければ上記「は
つめい」の例と同様に、4文字より短かい読み長につい
ては単語辞書4の検索を省略する(405.406)。
このように、繰り返し同じ単語が出現するという文章の
特徴に着目し、頻出の可能性のある単語を読み一時記憶
メモリ5に記憶することで、−上記のように単語辞書4
の検索を一部省略することができ、カナ漢字変換処理の
効率化が望め、迅速化が可能となる。
特徴に着目し、頻出の可能性のある単語を読み一時記憶
メモリ5に記憶することで、−上記のように単語辞書4
の検索を一部省略することができ、カナ漢字変換処理の
効率化が望め、迅速化が可能となる。
なお、上記実施例では、頻出の可能性のあるm語として
、4文字以上の名詞としたが、本発明は、それに限定さ
れるものでないことは言うまでもない。
、4文字以上の名詞としたが、本発明は、それに限定さ
れるものでないことは言うまでもない。
効 果
以上説明したように1本発明のカナ漢字変換処理装置に
よれば、既に行った辞書検索と評価の結果を以後のm語
解析に利用し、カナ漢字変換処理を迅速化することがで
きる。
よれば、既に行った辞書検索と評価の結果を以後のm語
解析に利用し、カナ漢字変換処理を迅速化することがで
きる。
第1図は本発明の一実施例によるカナ漢字変換処理装置
のブロック図,第2図,第4図は第1図の動作を示すフ
ローチャート、第3図は第1図における読み一時記憶メ
モリの内容を示す図である。 3:辞書検索部、4:単語辞書、5:読み一時記憶メモ
リ、6:制御部、7:評価部、8:出力処理部。 第 2 図 第 3 図
のブロック図,第2図,第4図は第1図の動作を示すフ
ローチャート、第3図は第1図における読み一時記憶メ
モリの内容を示す図である。 3:辞書検索部、4:単語辞書、5:読み一時記憶メモ
リ、6:制御部、7:評価部、8:出力処理部。 第 2 図 第 3 図
Claims (1)
- (1)入力されたカナ文字列に対し辞書検索を行う手段
、辞書検索により得られた候補単語から最適な変換単語
を選択する手段を有するカナ漢字変換処理装置において
、選択された変換単語の読み長、品詞の種類を判別し、
その結果、所定の要件を満足している場合は該変換単語
の読みを記憶する読み一時記憶メモリを設け、前記カナ
文字列を解析する際、辞書検索の前に前記読み一時記憶
メモリを検索し、その中に該当する読みが存在する場合
は辞書検索を一部省略するよう構成したことを特徴とす
るカナ漢字変換処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP59139665A JPS6118065A (ja) | 1984-07-05 | 1984-07-05 | カナ漢字変換処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP59139665A JPS6118065A (ja) | 1984-07-05 | 1984-07-05 | カナ漢字変換処理装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS6118065A true JPS6118065A (ja) | 1986-01-25 |
Family
ID=15250564
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP59139665A Pending JPS6118065A (ja) | 1984-07-05 | 1984-07-05 | カナ漢字変換処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS6118065A (ja) |
-
1984
- 1984-07-05 JP JP59139665A patent/JPS6118065A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3196868B2 (ja) | テキストをインデックス及び検索するための関連ワード形態の限定状態トランスジューサ | |
US5794177A (en) | Method and apparatus for morphological analysis and generation of natural language text | |
JPH0351020B2 (ja) | ||
JP2595934B2 (ja) | 仮名漢字変換処理装置 | |
KR20040018008A (ko) | 품사 태깅 장치 및 태깅 방법 | |
JPS6118065A (ja) | カナ漢字変換処理装置 | |
JPS63228326A (ja) | キ−ワ−ド自動抽出方式 | |
JP2812495B2 (ja) | 漢字を使用する言語の音節入力語音逐次区切漢字逐次変換方式 | |
JP3628565B2 (ja) | 辞書検索方法、装置、および辞書検索プログラムを記録した記録媒体 | |
JPH02253474A (ja) | テキストベース検索方法 | |
JP3873305B2 (ja) | 仮名漢字変換装置および仮名漢字変換方法 | |
JP3939264B2 (ja) | 形態素解析装置 | |
JP2695772B2 (ja) | 仮名漢字変換装置 | |
JPH0320866A (ja) | テキストベース検索方式 | |
JP2668205B2 (ja) | 文章検索装置 | |
JP3035932B2 (ja) | 仮名漢字変換装置 | |
JPH03229367A (ja) | テキストベース検索方式 | |
JPS61282966A (ja) | 仮名漢字変換方式 | |
JP3048793B2 (ja) | 文字変換装置 | |
JPH0766380B2 (ja) | かな漢字変換装置 | |
JPS61282964A (ja) | 仮名漢字変換方式 | |
JPH08212225A (ja) | 言語判定装置 | |
JPS62298869A (ja) | 文尾変換方式 | |
JPS6395570A (ja) | 言語解析方式 | |
JPS60124768A (ja) | 単語抽出方式 |