JPS6132167A - カナ漢字変換処理装置 - Google Patents

カナ漢字変換処理装置

Info

Publication number
JPS6132167A
JPS6132167A JP15234384A JP15234384A JPS6132167A JP S6132167 A JPS6132167 A JP S6132167A JP 15234384 A JP15234384 A JP 15234384A JP 15234384 A JP15234384 A JP 15234384A JP S6132167 A JPS6132167 A JP S6132167A
Authority
JP
Japan
Prior art keywords
kanji
character string
word
character
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP15234384A
Other languages
English (en)
Inventor
Yasuyuki Numata
泰之 沼田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP15234384A priority Critical patent/JPS6132167A/ja
Publication of JPS6132167A publication Critical patent/JPS6132167A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 技術分野 本発明はカナ漢字変換処理装置に関し、より詳細には日
本語文書作成装置、電子計算機システム等に適用し得る
カナ漢字変換処理装置における単語抽出の際の評価手段
に関する。
従来技術 カナ漢字変換処理装置では、表音文字(ひら仮名、カタ
仮名、ローマ文字)で入力された文章を適切な漢字カナ
混じり文に変換するため、カナ漢字変換用の単語辞書を
設けている。この単語辞書の検索は、入力されたカナ文
字列から単語を切出して被検索文字列とし、被検索文字
列と単語辞書中の見出し文字列とのマツチングを行うこ
とにより行う。しかし、日本語は文法が複雑で、かつ同
音異義語が多数存在するため、辞書検索により複数の候
補単語が抽出される。
この複数の候補単語の中から1つを選択し変換結果とす
るために、抽出された候補単語のそれぞれに対し、次の
ような評価を行っている。すなわち、候補単語を読み長
、使用頻度、接続確率等をパラメータとして(1)式の
ような評価式により評価し、評価値の最も高い候補単語
を変換結果として出力する。
HY=f  N2.h、s)            
(1)ただし、H’Y:評価値、Q:単語の読み長h:
使用頻度、S:接続確率 しかし、上記方式における各パラメータ「読み長」、「
使用頻度」、「接続確率」には次のような問題点がある
「読み長」・・・一般に、確かに読み長が長い方が尤度
は高いが接辞、付属語等は短 いにもかかわらず重要である。
「使用頻度」・・・作成対象の文章の背景が、使用頻度
調査の背景と異なれば、こ のパラメータの信頼性は低くな る。
「接続確率」・・・直前の単語の品詞と、候補単語の品
詞に依存した判断を行うた め、複数の候補単語の品詞が同 じであれば、はとんど役に立た たない。
このように、従来のパラメータは、前後の単語に対する
単語の並びとしての自然さを推察する要因ではないため
、時として不自然な単語の並びになる可能性がある。
例えば、「かいこうにさいし・・・」という入力文字列
に対する2つの変換可能性、 ■開校/に/際し ■解雇/うに/妻子 において、■のように自然な単語の並びの方が絶対に選
択されるという保証がない。
目     的 本発明の目的は、上記のような従来技術の問題点を解決
するため、複数の候補単語の中から最尤候補単語を抽出
する際の評価方式の信頼性を向上し得るカナ漢字変換処
理装置を提供することにある。
構   成 以上の目的を達成するため、本発明の構成は、入力文字
列記憶部、単語辞書、辞書検索部を有するカナ漢字変換
処理装置において、2字漢字音、3生膜字音を示す漢字
音表と、該漢字音表を利用して前記入力文字列記憶部よ
り読出した文字列の2字漢字音、3生膜字音を識別し漢
字音による区切りを付ける第1の手段と、前記辞書検索
部を介して前記単語辞書より得られた候補単語の読みと
該第1の手段により区切られた文字列を照合してその結
果により一定の評価を与える第2の手段と、該評価を加
味して前記候補単語を評価する評価値算出部を設けたこ
とに特徴がある。
以下、本発明の構成を一実施例により詳細に説明する。
第1図は、本発明の一実施例によるカナ漢字変換処理装
置の慨略ブロック図である。
第1図において、lはカナ文字入力部、2は入力文字列
記憶部、3は漢字音表、4は漢字音による区切り部、5
は被検索文字列作成部、6は辞書検索部、7は単語辞書
、8は候補単語と区切りの照合部、9は評価値算出部、
10は接続確率表、11は候補単語記憶部、12は最尤
候補単語選択部、13は出力部である。
以下、本カナ漢字変換処理装置の動作を説明する。
カナ文字入力部1がら入力された入力文字列は、入力文
字列記憶部2に一旦記憶される。被検索文字列作成部5
は、例えば単語辞書7中の読みの長さが最長6文字であ
るとすれば、入力文字列記憶部2から、6文字切出して
被検索文字列とする。
辞書検索部6はこの被検索文字列に基づいて単語辞書7
を検索し、候補単語を抽出する。評価値算出部9は、次
に述べる評価方式により候補単語を評価する。
候補単語記憶部11は評価値を付与された各候補単語を
記憶し、最尤候補単語選択部12はこの各候補単語の中
から最も評価値の高いものを最尤候補単語として選択し
、出力部13に送出する。
漢字音には、カナ表記した場合に、その長さが■1文字
である1生学字音、■2文字である2字漢字音、■3文
字である3生膜字音がある。例えば、 ■1字漢字音・・・はとんどのカナニア「亜」、イr以
、意、位、医、異・・・」等 ■2字漢字音・・・アイ「哀、愛、埃・・・」、アク「
悪、握・・・」等 ■33字漢音・・・シュウ「収、集、週、衆、終。
習、修、周、就・・・j、シ目つ 「小、省、相1勝、商、証、消 正・・・」等がある。
ところで、上記2字漢字音、3字漢字音において、2字
目、2字目を占めるカナは次に示す18種に限定される
「イ、つ、キ、ワ、チ、ツ、ヤ、ユ、:1、ユウ、ヨウ
、ヤク、ユク、ヨク、ユツ、ユン、ツ、ン」しかし、こ
れら18種のカナの全てが1字目のカナに対して漢字前
を構成するわけではない。例えば、1字目がアの場合、 アイ・・・漢字前(上記例参照) アク・・・漢字前でない アキ・・・漢字前でない アク・・・漢字前(上記例参照) アチ・・・漢字前でない のようになる。
したがって、300個程度ある2字漢字音、3字漢字音
は、第2図に示したような漢字音表により、その総てを
示すことができる。すなわち、この第2図が第1図に示
した漢字前3の内容である。
第3図は、本発明の一実施例による候補単語に対する評
価動作を示すフローチャートである。
まず、カナ文字入力部1から入力文字列記憶部2にカナ
文字列を格納する(301)。漢字前による区切り部4
は、入力文字列記憶部2から入力文字列を切出しく30
2)、次に漢字音表3を用いて、次の手順で最長文字数
に相当する被検索文字列に対し区切りを付ける。すなわ
ち、最初に、最長一致法により、漢字音表3を用いて先
頭3文字の中の漢字前を調べる(303)。この結果、
2字漢字音、または3字漢字音が存在する場合は当該漢
字音の文字数だけシフトし、そのシフト位置にポインタ
等で区切りを付けた後、シフト位置以降の入力文字列に
対し同様の処理を施す(304,306,303)。 
2字以上の漢字前が存在しない場合は、1文字シフトし
、そのシフト位置にポインタ等で区切りを付けた後、シ
フト位置以降の入力文字列に対し同様の処理を施す(3
04,306゜303)。例えば、入力文字列が「かい
こうにさいし・・」の場合、これに対する漢字前による
区切りは、 カイ/コラ/に/サイ/し・・・(ただし1片板名は漢
字前、平仮名は仮名を示す) となる。
なお上記例文の区切りを片仮名と平仮名で示したのは次
の理由による。すなわち、漢字前は最長3文字であり、
かつ単独で使用される例はあまりなく、はとんどの場合
、熟語として用いられるので、3文字を最長一致法で調
べ2字漢字音、3字漢字音がない場合は、その先頭文字
は付属語等の平仮名である可能性が高いからである。
一方、被検索文字列作成部5は、入力文字列記憶部2か
ら被検索文字列を切出す(307)。辞書検索部6は、
単語辞書7から被検索文字列に対応する候補単語を抽出
するが、その際、候補単語とともに記憶されている読み
長、使用頻度等の情報をも同時に抽出する(30 B)
。候補単語と区切りの照合部8は、辞書検索部6により
抽出された各候補単記の読みと、漢字前による区切り部
4により区切られた各文字列とを照合し、一致する場合
は一定の高い評価を与え、一致しかい場合は低い評価値
(本実施例ではO)を与える(309)。
単語辞書7の読みの長さが最長6文字の時、上記例文の
場合、被検索文字列は、 ■かいこうにさ:    単語辞書にない■かいこうに
:     単語辞書にない■かいこう二      
開校、開港、・■かいζ:       解雇、回顧、
・・・■かい:        会、貝、・・・■か:
         化、価、・・・であり、被検索文字
列■〜■の場合に候補単語が存在する。上記漢字前によ
る区切りと、被検索文字列■〜■に対応する候補単語の
読みは、被検索文字列■かいこう、■かい、に対応する
候補単語の場合に一致するので、これらに高い評価を与
える。
評価値算出部9は、辞書検索部6を介して単語辞書7よ
り得られた各候補単語の読み長、使用頻度等、接続確率
表10より得られた接続確率、さらに候補単語と区切り
照合部8より得られた漢字前によるパラメータを用いて
各候補単語の評価値を算出する(310”)。
評価値HYは、次式 %式%(2) ただし、k:漢字前による区切りを用いたパラメータ により算出される。
上記例文の場合、 ■かいこう(開校、開港、・・・) HY=f  (4,h、 多、k) ■かいこ(解雇、回顧、・・・) HY−f  (3,h、s、0) ■かい(会、貝、・・・) HY=f  (2,h、s、k) ■か(化、価、・・・) HY=f  (1,h、s、0) のようになる。
この結果、■かいこう、という被検索文字列に対応する
候補単語の方が、■かいこ、という被検索文字列に対応
する候補単語より評価値が高くなる。すなわち、漢字前
による区切りを用いたパラメータkを加えることにより
、後続文字列に対する推察をも含めた評価を行うことが
でき、自然な単語の並びが得られ、評価の信頼性が向上
する。
効   果 以上説明したように、本発明のカナ漢字変換処理装置に
よれば、複数の候補単語の中から最尤候補単語を抽出す
る際の評価の信頼性を向上することができる。
【図面の簡単な説明】
第1図は本発明の一実施例によるカナ漢字変換処理装置
のブロック図、第2図は第1図における漢字音表の内容
を示す図、第3図は第1図における評価処理を示すフロ
ーチャートである。 3:漢字音表、4:漢字前による区切り部、5:被検索
文字列作成部、6:辞書検索部、7:単語辞書、8−:
候補単語と区切りの照合部、9:評価値算出部、10:
接続確率表。 特許出願人 株式会社リ  コ  − 第   1   図

Claims (1)

    【特許請求の範囲】
  1. (1)入力文字列記憶部、単語辞書、辞書検索部を有す
    るカナ漢字変換処理装置において、2字漢字音、3字漢
    字音を示す漢字音表と、該漢字音表を利用して前記入力
    文字列記憶部より読出した文字列の2字漢字音、3字漢
    字音を識別し漢字音による区切りを付ける第1の手段と
    、前記辞書検索部を介して前記単語辞書より得られた候
    補単語の読みと該第1の手段により区切られた文字列を
    照合してその結果により一定の評価を与える第2の手段
    と、該評価を加味して前記候補単語を評価する評価値算
    出部を設けたことを特徴とするカナ漢字変換処理装置。
JP15234384A 1984-07-23 1984-07-23 カナ漢字変換処理装置 Pending JPS6132167A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP15234384A JPS6132167A (ja) 1984-07-23 1984-07-23 カナ漢字変換処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP15234384A JPS6132167A (ja) 1984-07-23 1984-07-23 カナ漢字変換処理装置

Publications (1)

Publication Number Publication Date
JPS6132167A true JPS6132167A (ja) 1986-02-14

Family

ID=15538463

Family Applications (1)

Application Number Title Priority Date Filing Date
JP15234384A Pending JPS6132167A (ja) 1984-07-23 1984-07-23 カナ漢字変換処理装置

Country Status (1)

Country Link
JP (1) JPS6132167A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63118975A (ja) * 1986-11-07 1988-05-23 Hitachi Ltd かな漢字変換装置
JPH01209500A (ja) * 1988-02-17 1989-08-23 A T R Jido Honyaku Denwa Kenkyusho:Kk 音声合成方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63118975A (ja) * 1986-11-07 1988-05-23 Hitachi Ltd かな漢字変換装置
JPH0528425B2 (ja) * 1986-11-07 1993-04-26 Hitachi Ltd
JPH01209500A (ja) * 1988-02-17 1989-08-23 A T R Jido Honyaku Denwa Kenkyusho:Kk 音声合成方法

Similar Documents

Publication Publication Date Title
JPS6033665A (ja) キ−ワ−ド自動抽出方式
JPS6132167A (ja) カナ漢字変換処理装置
JPH09185674A (ja) 誤認識文字検出装置、誤認識文字訂正装置、誤認識文字検出方法、および、誤認識文字訂正方法
JPS58114224A (ja) かな漢字変換方式
JPS59221732A (ja) カナ漢字変換処理装置
JPS6132169A (ja) 単語抽出方式
JPS6389976A (ja) 言語解析装置
JP2798931B2 (ja) 中国語の語音区切方式および語音漢字変換方式
JPS6395573A (ja) 日本語文形態素解析における未知語処理方法
JPS603017A (ja) カナ漢字変換処理装置
JP3123181B2 (ja) 文字認識装置
JPS58214931A (ja) 単語切り出し装置
JPS6118066A (ja) 単語抽出方式
JPS6132166A (ja) 漢字音認識方式
JPH09231212A (ja) 自立語判別方法
JPS6132172A (ja) 単語抽出方式
JP2001022752A (ja) 文字組抽出方法、文字組抽出装置および文字組抽出のための記録媒体
JPH01185766A (ja) かな漢字変換装置
JPS58127230A (ja) 漢字仮名変換装置
JPH0546612A (ja) 文章誤り検出装置
JPS60124768A (ja) 単語抽出方式
JPH0262659A (ja) 日本文訂正候補文字抽出装置
JPS62221065A (ja) 文書作成方式
JPH0241560A (ja) 未登録語処理方式
JPS60124769A (ja) 単語抽出方式