JPS619757A - カナ漢字変換処理装置 - Google Patents

カナ漢字変換処理装置

Info

Publication number
JPS619757A
JPS619757A JP59130567A JP13056784A JPS619757A JP S619757 A JPS619757 A JP S619757A JP 59130567 A JP59130567 A JP 59130567A JP 13056784 A JP13056784 A JP 13056784A JP S619757 A JPS619757 A JP S619757A
Authority
JP
Japan
Prior art keywords
conversion
result
kana
reliability
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP59130567A
Other languages
English (en)
Other versions
JPH0638253B2 (ja
Inventor
Katsuhiko Fujita
克彦 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP59130567A priority Critical patent/JPH0638253B2/ja
Publication of JPS619757A publication Critical patent/JPS619757A/ja
Publication of JPH0638253B2 publication Critical patent/JPH0638253B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 技術分野 本発明は、カナ漢字変換処理装置に関し、特にカナ漢字
変換結果の信頼性を向とせしめるのに好適なカナ漢字変
換処理装置に関する。
従来技術。
最近、日本語ワードプロセッサやコンピュータへの入力
方法として、カナ漢字変換方式が主流になってきた。全
文字配列ベンタッチ・タブレットや、カナ2ストローク
で1漢字を入力する方法も個々の特徴から依然として使
われているが、誰でもが使えるという手軽さの点で、カ
ナ漢字変換方式カ完全にリードしている。
カナ漢字変換方式では、カナ(平仮名、片仮名1、ロー
マ字)で入力された文章を適切な漢字カナ混じり文にす
るため、単語辞書を設けている。また、入力方式として
は、■単語単位にカナ漢字変換キーを押下する方式、■
文節単位にカナ漢字変換キーを押下する方式、■漢字の
部分の前後をキーで指定する方式、■べた書き入力を許
容し、文節単位の文法解析、およびカナ漢字変換をシス
テムが自動的に行う方式等がるが、入力の迅速性の点で
■のべた書き入力方法が最も優れている。〜しかじ、上
記いずれの方式を採ったとしても、日本語の特色、すな
わち、多くの同音異義語の存在、文法的複雑さ等のため
、−回の変換処理で正しい漢字カナ混じり文を得ること
は困難である。
例えば、「しるがそを(白画素を)」という例文をかな
漢字変換する場合を考えてみる。
もし「白画素」という単語が変換辞書にあれば、どのよ
うな方式のカナ漢字変換においても正しく変換すること
ができる確率は非常に高い。しかし、「白画素Jのよう
な複合語は、「画素」についてだけでも「黒画素」、「
赤画素」・・・など複数存在し、複合語全体では天文学
的数字になるので、一般に、複合語はそれ自体上は単語
辞書に登録されず、個々の単語のみが登録される。この
ため、システムは文法解析等を行い、該当する単語を単
語辞書から引き出し、その中から最も評価値の高い単語
を選択し変換結果として出力する。
しかし、例えば、文節指定方式のカナ漢字変換では、「
白がそをjなどと誤った表示をする恐れがある。また、
複数文節の入力を許すようなシステムでは、[画素Jと
いう単語が登録されていない場合など、「白が疎を」等
の不自然な変換結果を表示することも考えられる6 「
白がそを]と「白が疎を」を比べた場合、両方とも誤り
であることには違いはないが、オペレータから見て、「
白がそを」の方が違和感が少ないものと思われる。
このように、入力文字列に対する複数のカナ漢字変換結
果間には信頼性の高低があるにもかかわらず、従来は、
変換結果として表示する場合、信頼性の高い変換結果も
低い変換結果も管間等に扱っていたため、「白が疎を」
のようにオペレータに違和感を与える変換結果も表示さ
れてしまっている。カナ漢字変換処理装置により、手書
き、もしくはそれ以上のスピードで文書を作成すること
が日常的となりつつある現在では、とのような不自然な
変換結果の表示は、オペレータの心理的負担、疲労度を
増大させ、長時間の操作を不可能にする。
目     的 本発明の目的は、上記のような従来技術の問題点を解決
するため、オペレータに違和感を与えるような不自然な
変換結果の表示を回避し得るカナ漢字変換処理装置を提
供することにある。
構   成 以下、本発明の構成を一実施例により説明する。
第1図は、本発明の一実施例によるカナ漢字変換処理装
置のブロック図である。
第1図において、■は入力部、2は変換対象文字列作成
部、3は辞書検索部、4は単語辞書、5は接続可否判定
部、6は接続可否判定表(接続重み表)、7は評価部、
8は変換結果信頼性判定部、9は出力部である。
入力部1により表音文字(平仮名、片仮名、ローマ字等
)で、文節単位、べた書き等の方法で入力された文章は
、変換対象文字列作成部2により変換対象文字列が抽出
される。抽出された変換対象文字列は、その先頭から辞
書検索部3により単語辞書4が検索され、その読みに対
応する複数の候補単語が抽出される。接続可否判定部5
は、辞書検索部3により抽出された候補単語について、
接続可否判定表6を参照して直前の単語との接続の可否
を判定する。次に、評価部7は、接続可能な候補単語に
ついて、読み長さ、接続の重み、出現頻度等をパラメー
タとする評価式を用t)で評価を行い、評価値の最も高
い語を変換結果とする。
上記変換結果に対し、変換結果信頼性判定部8は、その
信頼性を判定する。例えば、前述の[しろがそを」とい
う文章を、べた書き入力する場合、「白/が」まで解析
が進んだあとで後続文字列の「そを」について「そ」の
読みを持つ単語だけが得られる。評価部7は、「そ」の
読みを持つ複数の単語を評価し、その中から最も評価値
の高いものを変換結果とするわけであるが、直前の単語
「が」、および「そ」は、読み長が短かく、接続の重み
も大きくなく、また、「そ」の出現頻度もそれほど大き
くないため、これらの評価値はいずれも小さくなる。
変換結果が漢字の場合は、その評価値は変換結果信頼性
判定部8に設けられた閾値と比較され、閾値より小さい
場合は、正確な変換結果である可能性が少なく、かつオ
ペレータに違和感を与えるので、カナに変換され出力部
9から出力される。
閾値は、評価式の形式に応じた最適な値を実験的に求め
ることにより決定する。
この場合のアルゴリズムを第2図に示す。変換結果信頼
性判定部8は、変換結果が漢字である場合は変換結果の
評価値が閾値以上か否かを判定する(201.202)
。もし閾値以上であれば、たとえその変換結果が誤って
いたとしても、オペレータに対し、それほど違和感を感
じさせないので、変換結果をそののまま形で表記情報と
して出力部9へ送る(202,204)。もし、閾値以
下であれば、その変換結果は誤っている確率が非常に高
く、かつ、オペレータに対し違和感を感じさせるので、
変換結果をカナ(読み)に変換し、それを表記情報とし
て出力部9へ送出する(202.203)。なお、変換
結果がカナ、すなわち無変換の場合はもともとカナなの
で、カナに変換すべきか否かを変換結果信頼性判定部8
により判定することは無意味なので、変換結果をそのま
まの形で表記情報として出力部9へ送る(201.20
4)。
第3図は第2図の変換結果信頼性判定部8の具体的な動
作例を示すブローチヤードである。
本例は、読みの長さが短かい場合は、変換結果の信頼性
が低いという経験的な知見を基に、読み長により信頼性
を判定し、信頼性の低い語は、カナ表記で出力するよう
に構成したものである。すなわち、変換結果信頼性判定
部8は、変換結果が漢字である場合、その語の読みの長
さは1字か否かを判定し、もし2字以上であれば、その
ままの形で表記情報として出力部9へ送る(301.3
02.305)。もし1字であれは、さらに、直前の語
の読みの長さを調べ、もし2字より長ければ、そのまま
の形で表示しく301.302.303.305)=2
字以下の場合はカナ(読み)に変換し、それを表記情報
として出力部9へ送る(303,304)。例えば、上
記「しろがそを」の例で、「そ」に対する変換結果とし
て「疎」が変換結果信頼性判定部8に送られてきたとす
る。
この場合、「疎」の読みの長さは1であるので直前の語
の読みの長さを判断する。直前の語「がJの読みの長さ
は2以下であるので「疎」をカナに変換し、「そ」を表
記情報とする。
なお、読み長は、単語辞書に記入しても良いし、単語辞
書に記入せず、読み長月のカウンタを設けても良い。
上記例は、単語の[読み」の長さだけをパラメータとし
て変換結果を評価する例であるが、複数のパラメータを
使用すれば、より正確に信頼性を判定することができる
。その−例を次に説明する。
すなわち、読み長、頻度ランク、単語の語順および出現
位置による接続の重みをパラメータとする。
第4図は、上記頻度ランク情報を有する場合の単語辞書
4の内容を示す図である。この場合、単語辞書4は、「
読み」、「表記」、「頻度ランク」「語順j、「その他
の情報」の項目からなる。
「頻度ランク」の項目は、単語の使用頻度をクラス分け
して得た数値で、使用頻度の高いもの程大きい値になっ
ている。
第5図は接続の重みを示す図であり、単語の語順および
出現位置による接続の重みを表示する。
この表では、変換対象単語の位置と、先行する単語の品
詞の字種を組み合わせた語順が行に、上記語順が列に配
されている。
例えば、「このしろがそを」という変換対象文字が変換
対象文字作成部2で作成されたとき、第4図、第5図を
用いて評価値を求める場合の動作は次のようになる。
辞書検索部4は変換対象文字列の先頭から辞書びきを行
い、r子」、「孤」、「この」等を抽出して接続検定部
5に送る。接続検定部5は抽出された単語に対し接続の
可否を検定し、接続可能な単語はすべて評価部7に送る
評価部7は、送られてきた単語の1つ1つに対し、次の
ように評価を行う。すなわち、評価値Fを F  (Q 、  f、  e)  =Q+f+2e 
        (1)と定義する。ここで、Qは前記
読み長、fは第5図に示された頻度ランク、eは接続の
重みである。
第5図に示したように、単語が文頭にある場合には、連
体詞である「この」にのみ接続の重み1′が与えられて
おり、他の名詞「子」、「孤」の接続の重みは0′とな
っている。また、「子」の読み長は1、頻度ランクは3
であり、「孤Jの読み長は1、頻度ランクは1である。
したがって。
これらの評価値Fは、 「子」      ・・1+3+2×0=4「孤J  
    ・ 1+1+2XO=2「この]      
・・・2 + 5 + 2 X 1. = 9となる。
これにより、最も評価値の高い「この」力選択され、変
換結果信頼性判定部8に送られる。変換結果信頼性判定
部8は、この評価方式に適した閾値、例えば閾値=4と
比較し、それより太きければそのままの形で出力部9へ
送る。
次に、「そ」に対する変換候補単語として「素」「組」
、「訴」、「疎」が送られてきたとする。
これらに対する評価値Fは、第4図、第5図から次のよ
うになる。
「素」     ・・l+2+2’X=3r組」   
  ・・・1+3+2XO=4「疎」     ・・・
1+1+2XO=2「訴」     ・・・l+2+2
’X0=3となり、変換結果として評価値の最も大きい
r組」が選択されるが、この「組」の評価値は、変換結
果信頼性判定部8の閾値4より大きくないので、カナに
変換され「そ」として出力される。
したがって、オペレータに違和感を与える「この白が組
を」という表示は回避され、「この白がそを」という比
較的自然な表示が得られる。
なお、上に示した各評価方式は、本発明において使用さ
れる評価方式を例示したにすぎず、他の評価方式を使用
しても良いことは明らかである。
だがし、各評価方式により変換結果信頼性判定部8に設
ける閾値が異なることは言うまでもない。
また、表示方法については、第6図に示すように、最も
適切なカナ漢字変換であるとして送られてきた変換結果
の信頼性が高い場合は、その変換結果である単語の表記
情報をそのまま出力部9へ送り(602,604)、変
換結果の信頼性が低い場合は、単語の表記情報をカタカ
ナに変換して出力部9へ送る(602,603)ことも
可能である。
この場合は、漢字表記よりは違和感が少なくなるととも
に、オペレータは変換結果の信頼性が低いことを判断し
易くなり、それに対する対応が迅速化される。例えば、
その後の入力方法を変更したり、単語登録をすることな
どの対応が迅速化される。
このように、最も適切なカナ漢字変換であるとして評価
され送られてきた変換結果に対し、その信頼性を判定し
、信頼性が低い場合はカナに変換して表示することによ
り、あまりにも不自然なカナ漢字混じり表示を回避する
ことができる。
また、出力表示をもとに再変換処理が可能であるような
編集機能と組み合わせ九ば、再入力が少なくて済むとい
う効果がある。さらに1表示をもとに、必要な単語を登
録すべきだとオペレータが判断することができるという
効果もある。
効   果 以上説明したように、本発明のカナ漢字変換処理装置に
よれば、変換結果の信頼性を判断し、信頼性の低い変換
結果はカナに変換して出力することにより、オペレータ
に違和感を与えるような不自然な変換結果の表示を回避
することができ、オペレータの疲労度を低減することが
できる。
【図面の簡単な説明】
第1図は本発明の一実施例によるカナ漢字変換処理装置
のブロック図、第2図は第1図に示した変換結果信頼性
判定部の動作を示すフローチャート、第3図は第2図の
動作の具体例を示すフローチャート、第4図、第5図は
本発明の他の実施例による変換結果信頼性判定部のデー
タ、第6図は本発明の他の実施例による出力態様を示す
フローチャートである。 に入力部、2:変換対象文字列作成部、3:辞書検索部
、4:単語辞書、5:接続可否判定部、6:接続可否判
定表、7:評価部、8:変換結果信頼性判定部、9:出
力部。 特許出願人 株式会社リ  コ  − 。 第1図 第   2   図 第3図 第   4   図

Claims (1)

    【特許請求の範囲】
  1. (1)表音文字により入力された文字列に対するカナ漢
    字変換候補を、単語辞書を検索することにより複数抽出
    し、その中から最尤候補単語を決定し変換結果とする手
    段を有するカナ漢字変換処理装置において、前記変換結
    果の信頼性を判定する手段を設け、信頼性が低い場合に
    は、当該変換結果をカナに変換して表示し、信頼性が高
    い場合には当該変換結果をそのままの形で表示するよう
    構成したことを特徴とするカナ漢字変換処理装置。
JP59130567A 1984-06-25 1984-06-25 カナ漢字変換処理装置 Expired - Lifetime JPH0638253B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59130567A JPH0638253B2 (ja) 1984-06-25 1984-06-25 カナ漢字変換処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59130567A JPH0638253B2 (ja) 1984-06-25 1984-06-25 カナ漢字変換処理装置

Publications (2)

Publication Number Publication Date
JPS619757A true JPS619757A (ja) 1986-01-17
JPH0638253B2 JPH0638253B2 (ja) 1994-05-18

Family

ID=15037335

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59130567A Expired - Lifetime JPH0638253B2 (ja) 1984-06-25 1984-06-25 カナ漢字変換処理装置

Country Status (1)

Country Link
JP (1) JPH0638253B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2953367B2 (ja) * 1995-12-29 1999-09-27 日本電気株式会社 Lsiの冷却装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5692676A (en) * 1979-12-26 1981-07-27 Fujitsu Ltd Input system of japanese sentence
JPS57127268A (en) * 1981-01-30 1982-08-07 Canon Inc Character processing device

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5692676A (en) * 1979-12-26 1981-07-27 Fujitsu Ltd Input system of japanese sentence
JPS57127268A (en) * 1981-01-30 1982-08-07 Canon Inc Character processing device

Also Published As

Publication number Publication date
JPH0638253B2 (ja) 1994-05-18

Similar Documents

Publication Publication Date Title
US7395203B2 (en) System and method for disambiguating phonetic input
US7424675B2 (en) Language input architecture for converting one text form to another text form with tolerance to spelling typographical and conversion errors
US6810374B2 (en) Korean romanization system
US7165019B1 (en) Language input architecture for converting one text form to another text form with modeless entry
US20050027534A1 (en) Phonetic and stroke input methods of Chinese characters and phrases
JPH10326275A (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
TW530223B (en) Chinese phonetic input system having functions of incomplete spelling and fuzzy phonetic comparing, and the method thereof
JP2000298667A (ja) 構文情報による漢字変換装置
JPH11238051A (ja) 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体
JPS619757A (ja) カナ漢字変換処理装置
KR101777141B1 (ko) 한글 입력 키보드를 이용한 훈민정음 기반 중국어 및 외국어 입력 장치 및 방법
JPS61184680A (ja) カナ漢字変換処理装置
EP4060644A1 (en) Character input device, character input method, and character input program
US20240184381A1 (en) Chinese character input method and system and keyboard
JPH01290032A (ja) 音声認識表示装置
JPH0350668A (ja) 文字処理装置
JPH08272780A (ja) 中国語入力処理装置及び中国語入力処理方法及び言語処理装置及び言語処理方法
JPH08335217A (ja) 読み変換方法及び文書作成装置
JP2002117025A (ja) かな漢字変換装置およびかな漢字変換方法
JP3084864B2 (ja) 文章入力装置
JPH0567074A (ja) かな漢字変換装置
JPH0374763A (ja) かな漢字変換方式
JPH06290183A (ja) 漢字変換装置
JPH0546612A (ja) 文章誤り検出装置
JPH01205371A (ja) 仮名漢字変換装置