JPS61184674A - 仮名漢字変換方式 - Google Patents
仮名漢字変換方式Info
- Publication number
- JPS61184674A JPS61184674A JP60024613A JP2461385A JPS61184674A JP S61184674 A JPS61184674 A JP S61184674A JP 60024613 A JP60024613 A JP 60024613A JP 2461385 A JP2461385 A JP 2461385A JP S61184674 A JPS61184674 A JP S61184674A
- Authority
- JP
- Japan
- Prior art keywords
- word
- kana
- storage device
- dictionary storage
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
技術分野
本発明は仮名漢字変換方式、詳細には、日本語ワードプ
ロセッサ等のような自然言語処理技術を用いた仮名漢字
変換方式に関する。
ロセッサ等のような自然言語処理技術を用いた仮名漢字
変換方式に関する。
従来技術
従来、日本語ワードプロセッサ等のような日本語処理装
置においては、オペレータが操作する入力装置に入力し
た仮名文字列に対して、仮名と漢字の混在した仮名漢字
の変換を行っている。このような仮名漢字変換方式の中
で、特に漢字単語と漢字単語とを接続して形成する複合
語の処理の問題が大きくなってきている。
置においては、オペレータが操作する入力装置に入力し
た仮名文字列に対して、仮名と漢字の混在した仮名漢字
の変換を行っている。このような仮名漢字変換方式の中
で、特に漢字単語と漢字単語とを接続して形成する複合
語の処理の問題が大きくなってきている。
特に、特公昭58−4378号公報に開示されているよ
うに、組合せにより単語辞書を検索し、単語同士の合成
が可能かどうかの判定手段を有し。
うに、組合せにより単語辞書を検索し、単語同士の合成
が可能かどうかの判定手段を有し。
それの判定結果により単語同士の合成の確定、非確定を
行う方式や、特開昭56−38665号公報に開示され
ているように、単語間同士の結び付きの強さを検定して
複合語となりうるかどうかの判定を行う方式がある。
行う方式や、特開昭56−38665号公報に開示され
ているように、単語間同士の結び付きの強さを検定して
複合語となりうるかどうかの判定を行う方式がある。
しかしながら2それらの方式では単語同士の結びつきの
自由度が、特に同音異議類の中では大きいので、余程厳
しい判定基準を設けていないことには、誤った判定をし
、誤解析のもとどなってしまう。実際上は、その判定基
準を厳しくするのにも限度があり、誤解析の率が高く実
用的には向いていない欠点があった。
自由度が、特に同音異議類の中では大きいので、余程厳
しい判定基準を設けていないことには、誤った判定をし
、誤解析のもとどなってしまう。実際上は、その判定基
準を厳しくするのにも限度があり、誤解析の率が高く実
用的には向いていない欠点があった。
目 的
本発明はこのような従来技術の欠点を解消し、同音異議
類の判別を容易に、しかも確実に行うことのできる仮名
漢字変換方式を提供することを目的とする。
類の判別を容易に、しかも確実に行うことのできる仮名
漢字変換方式を提供することを目的とする。
構 成
本発明は上記の目的を達成させるため、入力装置により
入力された仮名文字列を単語辞書記憶装置内で検索する
ことにより単語単位の変換候補語を抽出して、漢字と仮
名の混った仮名漢字に変換する仮名漢字変換方式におい
て、隣接単語の組合せを複合語として抽出し、その読み
を検定することによって同音異議類の判別を行うことを
特徴としたものである。
入力された仮名文字列を単語辞書記憶装置内で検索する
ことにより単語単位の変換候補語を抽出して、漢字と仮
名の混った仮名漢字に変換する仮名漢字変換方式におい
て、隣接単語の組合せを複合語として抽出し、その読み
を検定することによって同音異議類の判別を行うことを
特徴としたものである。
以下1本発明の実施例に基づいて具体的に説明する。
第1図は本発明を日本語ワードプロセッサに適用したと
きの機能別全体ブロック図である。第1図において、本
実施例はキーボードl、入力文字列バッファ2)仮名漢
字変換制御部3.単語辞書記憶装置4、複合語辞書記憶
装置!51品詞活用表部6、接続重み表部7、評価s8
.出力文字列バッファ9.陰極総管(CRT)10.文
書ファイル部11、プリンタ12から構成されている。
きの機能別全体ブロック図である。第1図において、本
実施例はキーボードl、入力文字列バッファ2)仮名漢
字変換制御部3.単語辞書記憶装置4、複合語辞書記憶
装置!51品詞活用表部6、接続重み表部7、評価s8
.出力文字列バッファ9.陰極総管(CRT)10.文
書ファイル部11、プリンタ12から構成されている。
キーボード1は、入力装置の一例で、ひらがな。
かたかな、アルファベット等の文字、数字、記号等の表
音文字を入力する表音文字キー、仮名漢字変換を指示す
る変換キー等のファンクションキーを有する。入力文字
列バッファ2はキーボード1から次々に入力される入力
仮名文字列を一時的に蓄積し、仮名漢字変換処理を終了
した入力仮名文字列を部分的に次々と消去する。
音文字を入力する表音文字キー、仮名漢字変換を指示す
る変換キー等のファンクションキーを有する。入力文字
列バッファ2はキーボード1から次々に入力される入力
仮名文字列を一時的に蓄積し、仮名漢字変換処理を終了
した入力仮名文字列を部分的に次々と消去する。
仮名漢字変換制御部3は仮名漢字の処理手順のプログラ
ムを記憶するメモリと、入力文字列バッファ2からデー
タを取込んだり、そのデータをもとにして後述の単語、
複合語辞書記憶装置3,4を検索したりしてデータを取
込む際のバッファと、品詞活用表部6から列(うけ)と
行(かかり)の位置のデータを取込んだり、接続重み表
部7から該当する接続重みのデータを取込む際のバッフ
ァと。
ムを記憶するメモリと、入力文字列バッファ2からデー
タを取込んだり、そのデータをもとにして後述の単語、
複合語辞書記憶装置3,4を検索したりしてデータを取
込む際のバッファと、品詞活用表部6から列(うけ)と
行(かかり)の位置のデータを取込んだり、接続重み表
部7から該当する接続重みのデータを取込む際のバッフ
ァと。
評価器8から演算した評価値とか第1位候補語(候補語
の中で評価最大の候補語)や第2位候補語を記憶してお
くメモリと、ワークエリアとを含み、後述するように他
の機能の制御をする。
の中で評価最大の候補語)や第2位候補語を記憶してお
くメモリと、ワークエリアとを含み、後述するように他
の機能の制御をする。
単語辞書記憶袋[4は表音文字である入力仮名文字列を
表記するのに必要な表記文字である単語(たとえば4自
立語、付属語、接辞語や助数詞等。
表記するのに必要な表記文字である単語(たとえば4自
立語、付属語、接辞語や助数詞等。
また、動詞、形容詞の活用形すべてを各−単語として扱
う、)の読み、その表記、その品詞、その頻度ランク、
その出力順位学習、複合語辞書記憶袋W1.5のアドレ
スもしくはシーケンスナンバーとなるポインタの項目を
格納している。
う、)の読み、その表記、その品詞、その頻度ランク、
その出力順位学習、複合語辞書記憶袋W1.5のアドレ
スもしくはシーケンスナンバーとなるポインタの項目を
格納している。
複合語辞書記憶装置5は、単語辞書記憶装置4中に格納
されている単語が複数つらなって1つの概念を表わす複
合語で、隣りどうしの単語の関係を記述している辞書6
例えば、「超高速飛行機」の2つの単妬同士の組合せで
ある「超−高速」、「高速−飛行」、「飛行−機」の組
合せで複合語を構成することを表現する。
されている単語が複数つらなって1つの概念を表わす複
合語で、隣りどうしの単語の関係を記述している辞書6
例えば、「超高速飛行機」の2つの単妬同士の組合せで
ある「超−高速」、「高速−飛行」、「飛行−機」の組
合せで複合語を構成することを表現する。
この辞書記憶装Wi5の表現方式はいろいろとあるが、
第1の方式として単語辞書記憶装置4中の各単語のアド
レスもしくはシーケンシャルナンバーを複合語の構成と
なるように対で記録しておく。
第1の方式として単語辞書記憶装置4中の各単語のアド
レスもしくはシーケンシャルナンバーを複合語の構成と
なるように対で記録しておく。
第2に単語辞書記憶装置4中のポインタ欄に複合語辞書
記憶装置5の対J8語の先頭格納アドレスを記憶してお
き、複合語辞書記憶袋!i!5の中には複合語を形成し
ている後続単語の単語辞書記憶装置4中のアドレスもし
くはシーケンシャルナンバーを記録しておく6なお、「
超高速飛行機」等のように後続の単語が複数ある場合は
連続して記録しておく。その場合、他の前出単語に対応
する後続単語との境界の識別は先頭の1ビツトをOと1
とを交互に変化させて使用することにより行われる。
記憶装置5の対J8語の先頭格納アドレスを記憶してお
き、複合語辞書記憶袋!i!5の中には複合語を形成し
ている後続単語の単語辞書記憶装置4中のアドレスもし
くはシーケンシャルナンバーを記録しておく6なお、「
超高速飛行機」等のように後続の単語が複数ある場合は
連続して記録しておく。その場合、他の前出単語に対応
する後続単語との境界の識別は先頭の1ビツトをOと1
とを交互に変化させて使用することにより行われる。
第3に第2のように複合語辞書記憶装置5の中には後続
単語の単語辞書記憶装置4中のアドレス等の代りにその
単語の読みを格納しておく、他の前出単語に対応する後
続単語の読みとの境界の識別は第2の方式と同様でよい
。本実施例では第1の方式でまず説明し5次に上記第3
の方式で説明する。
単語の単語辞書記憶装置4中のアドレス等の代りにその
単語の読みを格納しておく、他の前出単語に対応する後
続単語の読みとの境界の識別は第2の方式と同様でよい
。本実施例では第1の方式でまず説明し5次に上記第3
の方式で説明する。
品詞活用表部6は単語辞書記憶装置4を検索して抽出し
た単語の品詞とその単語の前後に接続する単語の品詞で
もって後述の接続重み表部7の接続重み表の行(かかり
)と列(うけ)の場所を決定するだめの索引表を格納し
ている。なお、体言系は「かかり」と「うけ」の行番号
1列番号のみが記録しであるが、用言系は語尾をも記録
しである。
た単語の品詞とその単語の前後に接続する単語の品詞で
もって後述の接続重み表部7の接続重み表の行(かかり
)と列(うけ)の場所を決定するだめの索引表を格納し
ている。なお、体言系は「かかり」と「うけ」の行番号
1列番号のみが記録しであるが、用言系は語尾をも記録
しである。
接続重み表部7は品詞の行と列とが配置され、それらの
交差部分にマトリックス状に単語間の接続の程度を示す
数値が配置されている。品詞活用表部6で指定した行番
号と列番号との交差部の数値がそれらの品詞を有する単
語の接続の強さを示す。その中の数値としては0:接続
不可、l;接続することはあるが非常にまれである。2
;一般的に接続する。3;特に接続が強い。というよう
に4ランクに設定しである。
交差部分にマトリックス状に単語間の接続の程度を示す
数値が配置されている。品詞活用表部6で指定した行番
号と列番号との交差部の数値がそれらの品詞を有する単
語の接続の強さを示す。その中の数値としては0:接続
不可、l;接続することはあるが非常にまれである。2
;一般的に接続する。3;特に接続が強い。というよう
に4ランクに設定しである。
評価器8は単語辞書記憶装置4から抽出した単語のよみ
長、頻度ランク、また、接続重み表部7から抽出した単
語間の接続重み等のパラメータにより、扱っている単語
がその位置にありうる尤らしさを評価する。なお、評価
演算する式の一例としては、 単語のよみ長×3+頻度ランク+(接続重み)2=評価
値 を用いる。
長、頻度ランク、また、接続重み表部7から抽出した単
語間の接続重み等のパラメータにより、扱っている単語
がその位置にありうる尤らしさを評価する。なお、評価
演算する式の一例としては、 単語のよみ長×3+頻度ランク+(接続重み)2=評価
値 を用いる。
出力文字列バッファ9は評価器8で評価された単語を評
価値層に一時的に蓄積したり、確定した単語を順次確定
類に記憶する。
価値層に一時的に蓄積したり、確定した単語を順次確定
類に記憶する。
CRTIOは表示装置の1例で、出力文字列バッファ9
に一時的に蓄積された未確定の単語列で一番評価値の高
い単語例を表示して、オペレータからの確定かどうかの
確認をうるための表示装置である。
に一時的に蓄積された未確定の単語列で一番評価値の高
い単語例を表示して、オペレータからの確定かどうかの
確認をうるための表示装置である。
文書ファイル部11は、CRTloで確認、修正された
単語列を文書的にファイル化して蓄積する記憶装置であ
る。
単語列を文書的にファイル化して蓄積する記憶装置であ
る。
プリンタ12は文書ファイル部11の内容をプリントア
ウトする装置である。
ウトする装置である。
第2図は単語辞書記憶袋M4の内容の一部を模式的に示
した図、第3図は複合語辞書記憶装置5の内容の3種類
の実施例で、第3図(、)は前述の第1の方式で、左側
には、該当単語のポインタに相当する複合語辞書記憶装
置5のアドレスが記録されており、真中番;は、該当単
語の単語辞書記憶装置4の中のアドレスが記録されてお
り、右側には、その該当単語の後続単語の単語辞書記憶
装置4におけるアドレスが記録されている。第3図(b
)は前述の第2の方式で、境界識別フラグが1ビツトで
左側に記録されており、右側には、後続単語の単語辞書
記憶袋gi4の中におけるアドレスが記録されている。
した図、第3図は複合語辞書記憶装置5の内容の3種類
の実施例で、第3図(、)は前述の第1の方式で、左側
には、該当単語のポインタに相当する複合語辞書記憶装
置5のアドレスが記録されており、真中番;は、該当単
語の単語辞書記憶装置4の中のアドレスが記録されてお
り、右側には、その該当単語の後続単語の単語辞書記憶
装置4におけるアドレスが記録されている。第3図(b
)は前述の第2の方式で、境界識別フラグが1ビツトで
左側に記録されており、右側には、後続単語の単語辞書
記憶袋gi4の中におけるアドレスが記録されている。
第3図(c)は前述の第3の方式で、左側に同じく境界
識別フラグが、右側に後続単語の読みが記憶されている
。
識別フラグが、右側に後続単語の読みが記憶されている
。
第4図は品詞活用表部6の内容の一部を模式的に示した
図で、「うけ」の欄および「かかりJの欄に列番号、行
番号が記録されている。
図で、「うけ」の欄および「かかりJの欄に列番号、行
番号が記録されている。
第5図は接続重み表部7の接続重み表を概念的に示した
模式図で1行には品詞活用表のかかり番号(行番号)を
示し1列には品詞活用表のうけ番号(列番号)を示し、
それらの番号の行列部には4ランクの接続重みの数値が
格納されている。
模式図で1行には品詞活用表のかかり番号(行番号)を
示し1列には品詞活用表のうけ番号(列番号)を示し、
それらの番号の行列部には4ランクの接続重みの数値が
格納されている。
第6図は本実施例の一例を示すブローチヤードである。
次に「最近は多くの兼業農家がいます、」の仮名漢字変
換文を作成する例で説明する。「最近は多くの」までの
解析が進んでいて、その文の末尾の「のJは格助詞の「
の」として切り出されているとする。この時点では品詞
活用表部6の表の格助詞「の」の欄の「かかり」から接
続重み表部7の行(かかり)番号を指定している状態で
ある。
換文を作成する例で説明する。「最近は多くの」までの
解析が進んでいて、その文の末尾の「のJは格助詞の「
の」として切り出されているとする。この時点では品詞
活用表部6の表の格助詞「の」の欄の「かかり」から接
続重み表部7の行(かかり)番号を指定している状態で
ある。
次に、キーボードlから「けんぎょうのうか・・・」と
次々と入力され、一旦、入力文字列バッファ2に蓄積さ
れる。この入力時には、キーボード1から1文字入力が
ある毎に(S 20)、記号か文学がの判断がなされ(
S21)、文字の場合、n文字たまったかどうかの判断
がなされる(S 22)。記号の場合は次のプロセスに
進行するが、文字の場合、所定のn文字が入力文字列バ
ッファ2にバッファされるまでは次のプロセスに進行し
ない、なお、それらの判断は、仮名漢字変換制御部3で
行う。
次々と入力され、一旦、入力文字列バッファ2に蓄積さ
れる。この入力時には、キーボード1から1文字入力が
ある毎に(S 20)、記号か文学がの判断がなされ(
S21)、文字の場合、n文字たまったかどうかの判断
がなされる(S 22)。記号の場合は次のプロセスに
進行するが、文字の場合、所定のn文字が入力文字列バ
ッファ2にバッファされるまでは次のプロセスに進行し
ない、なお、それらの判断は、仮名漢字変換制御部3で
行う。
「けんぎょうのうか・・・・」という具合いにn文字(
たとえばn=6)が入力文字列バッファ2に蓄積される
と、「け」、「けん」、「けんぎょう」、「けんぎよう
のJの種類の文字列の組である単語辞書検索用の仮名文
字列が仮名漢字変換制御部3で作成される(S23)。
たとえばn=6)が入力文字列バッファ2に蓄積される
と、「け」、「けん」、「けんぎょう」、「けんぎよう
のJの種類の文字列の組である単語辞書検索用の仮名文
字列が仮名漢字変換制御部3で作成される(S23)。
仮名漢字変換制御部3はそれらの検索用仮名文字列の読
みに従って単語辞書記憶装置4を検索しく524)、「
毛」、「気」、「券」、1県」・・・「兼業」、「検校
」等の表記文字の単語を候補語としてあげる。その時、
第2図に示されているそれらの各単語の品詞、頻度ラン
ク、出力順位、ポインタ等のデータを取出す。
みに従って単語辞書記憶装置4を検索しく524)、「
毛」、「気」、「券」、1県」・・・「兼業」、「検校
」等の表記文字の単語を候補語としてあげる。その時、
第2図に示されているそれらの各単語の品詞、頻度ラン
ク、出力順位、ポインタ等のデータを取出す。
次に、複合語辞書記憶装置5のアドレスに対応するポイ
ンタがあるかどうかの判定を仮名漢字変換制御部3は行
う(S 25)。たとえば、表記[検校」の単語のポイ
ンタは65535番で、これは16進表示でFFFFに
相当し、この場合、複合語辞書記憶装置5のアドレスは
ないので、複合語辞書記憶装置!5を検索する必要はな
く評価処理に進む。
ンタがあるかどうかの判定を仮名漢字変換制御部3は行
う(S 25)。たとえば、表記[検校」の単語のポイ
ンタは65535番で、これは16進表示でFFFFに
相当し、この場合、複合語辞書記憶装置5のアドレスは
ないので、複合語辞書記憶装置!5を検索する必要はな
く評価処理に進む。
表記「兼業」の単語のポインタは7533番で。
これは65535番とは異なるので、複合語があり、仮
名漢字変換制御部3は複合語辞書記憶装置5をそのアド
レスで検索する(826)、複合語辞書記憶装置f!5
のアドレス7533番の記憶位置には、第3図(、)に
示しであるようにアドレス組合せによる複合語が格納さ
れている。
名漢字変換制御部3は複合語辞書記憶装置5をそのアド
レスで検索する(826)、複合語辞書記憶装置f!5
のアドレス7533番の記憶位置には、第3図(、)に
示しであるようにアドレス組合せによる複合語が格納さ
れている。
1つは1f379−17634で、このアドレスで単語
辞書記憶装置4を検索すると「兼業−考」となり、その
読みは「けんぎようじや」となる。
辞書記憶装置4を検索すると「兼業−考」となり、その
読みは「けんぎようじや」となる。
その読みと入力文字列バッファ2内の仮名文字列の「け
んぎようのう」とを仮名漢字変換制御部3で照合すると
明らかに不一致となる。
んぎようのう」とを仮名漢字変換制御部3で照合すると
明らかに不一致となる。
したがって、次のアドレス組合せ11379−2311
5をもとにして単語辞書記憶装置4を検索すると「兼業
−農家」となり、その読みは「けんぎようのうか」とな
る。その読みと入力文字列バッファ2内の仮名文字列の
「けんぎようのうか」とを仮名漢字変換制御部3で照合
すると明らかに一致する。
5をもとにして単語辞書記憶装置4を検索すると「兼業
−農家」となり、その読みは「けんぎようのうか」とな
る。その読みと入力文字列バッファ2内の仮名文字列の
「けんぎようのうか」とを仮名漢字変換制御部3で照合
すると明らかに一致する。
これは二数するので、その単語の「農家」の品詞である
64(一般名詞)と頻度ランクである4と出力順位1と
ポインタ65535とが仮名漢字変換制御部3により単
語辞書記憶装置4より取り出されてバッファされる(8
28)、この複合語候補として取出された単語の「農家
」は、次にようにして新たに1つの単語、「兼業農家」
として評価器8で評価される。読み長は「兼業」である
前単語と、「農家」である後続単語の両者の和で8であ
り、頻度ランクは両単語の内で低い方で「兼業」の頻度
ランク3である。「兼業農家」の複合語の前の単語「の
」との接続重みを検定する場合、仮名漢字変換制御部3
は「の」に接続する単語である「兼業」の品詞が漢語す
変名詞であることがわかっているから、品詞活用表部6
内の表にしたがって接続重み表の列(うけ)番号を取出
して接続重み表部7に転送し、同様に格助詞「の」の行
「かかり」番号をすでに接続重み表部7に転送しである
から、それらの列および行番号から接続重み表の接続重
み(本実施例の場合、2とする。)を仮名漢字変換制御
部3は取出す。
64(一般名詞)と頻度ランクである4と出力順位1と
ポインタ65535とが仮名漢字変換制御部3により単
語辞書記憶装置4より取り出されてバッファされる(8
28)、この複合語候補として取出された単語の「農家
」は、次にようにして新たに1つの単語、「兼業農家」
として評価器8で評価される。読み長は「兼業」である
前単語と、「農家」である後続単語の両者の和で8であ
り、頻度ランクは両単語の内で低い方で「兼業」の頻度
ランク3である。「兼業農家」の複合語の前の単語「の
」との接続重みを検定する場合、仮名漢字変換制御部3
は「の」に接続する単語である「兼業」の品詞が漢語す
変名詞であることがわかっているから、品詞活用表部6
内の表にしたがって接続重み表の列(うけ)番号を取出
して接続重み表部7に転送し、同様に格助詞「の」の行
「かかり」番号をすでに接続重み表部7に転送しである
から、それらの列および行番号から接続重み表の接続重
み(本実施例の場合、2とする。)を仮名漢字変換制御
部3は取出す。
評価器8は評価式にしたがって上記数値を用いて「兼業
農家」の評価値を演算した結果、31となった。他の単
語、たとえば表記r兼業」、「検校」についても、上記
と同様に評価演算したところ、22.20となった(S
29)。したがって。
農家」の評価値を演算した結果、31となった。他の単
語、たとえば表記r兼業」、「検校」についても、上記
と同様に評価演算したところ、22.20となった(S
29)。したがって。
出力文字列バッファ9には「兼業農家」、「兼業」、「
検校」の順位で蓄積される。
検校」の順位で蓄積される。
ここで、評価値の1番高い単語である「兼業農家」を表
示する語として仮に確定し1行(かがり)番号を指定す
る品詞は後続語の「農家」の一般名詞を用い、品詞活用
表部6の表から行(かかり)番号を設定する。ここで、
仮名漢字変換制御部3は。
示する語として仮に確定し1行(かがり)番号を指定す
る品詞は後続語の「農家」の一般名詞を用い、品詞活用
表部6の表から行(かかり)番号を設定する。ここで、
仮名漢字変換制御部3は。
最優先の単語の評価値、すなわち、候補語の中の最大の
評価値を積算し、その積算値がある閾値を越えたらトリ
ガ信号を発しく840)、とのトリガ信号を出力文字列
バッファ9が入力すると、その積算した評価値の単語ま
での未確定単語列を確定して(S41)、それを文書フ
ァイル部11は所定の記憶位置に記憶する。
評価値を積算し、その積算値がある閾値を越えたらトリ
ガ信号を発しく840)、とのトリガ信号を出力文字列
バッファ9が入力すると、その積算した評価値の単語ま
での未確定単語列を確定して(S41)、それを文書フ
ァイル部11は所定の記憶位置に記憶する。
もし、トリガ信号が発生しなかった場合には。
未だ未確定のまま、次の仮名文字列の解析に移る。
入力文字列バッファ2内の仮名文字列は「けんぎようの
うか」を削除し「がいます。」となり、この場合、句読
点の記号があるのでn文字なくても被検索文字列作成に
移る(S 23)。
うか」を削除し「がいます。」となり、この場合、句読
点の記号があるのでn文字なくても被検索文字列作成に
移る(S 23)。
上記と同様に、「が」、rがい」、「がいま」、「がい
ます」の単語辞書検索用の文字列が仮名漢字変換制御部
3内で作成され、第6図のフローチャートにしたがって
上記と同様に仮名漢字変換制御部3が単語辞書記憶装置
4を検索し、「が」の格助詞、「概」、「害」、「該」
等の単語を候補語としてあげる。
ます」の単語辞書検索用の文字列が仮名漢字変換制御部
3内で作成され、第6図のフローチャートにしたがって
上記と同様に仮名漢字変換制御部3が単語辞書記憶装置
4を検索し、「が」の格助詞、「概」、「害」、「該」
等の単語を候補語としてあげる。
上記と同様の手順によって格助詞の「が」が取出され、
次に、補助動詞の「い」が取出され、次に丁寧助動詞の
「まず」が取出されて解析され、句読点によりトリガ信
号が発せられ、それらの変換語が確定され、「最近は多
くの兼業農家がいます。」の仮名漢字変換された文が文
書ファイル11に蓄積される。それをプリントアウトさ
せる場合にはプリンタ12に転送すればよい。
次に、補助動詞の「い」が取出され、次に丁寧助動詞の
「まず」が取出されて解析され、句読点によりトリガ信
号が発せられ、それらの変換語が確定され、「最近は多
くの兼業農家がいます。」の仮名漢字変換された文が文
書ファイル11に蓄積される。それをプリントアウトさ
せる場合にはプリンタ12に転送すればよい。
上記実施例では複合語辞書記憶装置5の構成は上記第2
の方式を用いて説明したが、それは第3の方式をとって
も同様に解析できる。
の方式を用いて説明したが、それは第3の方式をとって
も同様に解析できる。
たとえば、単語辞書記憶装置!4に格納されている「兼
業」のポインタ7533番を取出し、複合語辞書記憶装
置5のアドレス7533番で、境界識別フラグか「1」
となっている(第3図(c)参照のこと)部分の読み「
しや」と「のうか」とを取出す。それらの読みと入力文
字列バッファ2内の仮名文字列の「のうか」とを照合す
れば「のうか」が後続単語となる。それを仮名漢字変換
制御部3は単語辞書記憶装置4で検索し、表記「農家」
を抽出する。これにより「兼業農家」の複合語が単語と
して評価される。また、「検校」についてはポインタが
65535番で複合語となりえず、そのままである。し
たがって、「兼業農家」が最優先候補語となり、同音異
議語の「兼業」と「検校」とが確実に判別される。
業」のポインタ7533番を取出し、複合語辞書記憶装
置5のアドレス7533番で、境界識別フラグか「1」
となっている(第3図(c)参照のこと)部分の読み「
しや」と「のうか」とを取出す。それらの読みと入力文
字列バッファ2内の仮名文字列の「のうか」とを照合す
れば「のうか」が後続単語となる。それを仮名漢字変換
制御部3は単語辞書記憶装置4で検索し、表記「農家」
を抽出する。これにより「兼業農家」の複合語が単語と
して評価される。また、「検校」についてはポインタが
65535番で複合語となりえず、そのままである。し
たがって、「兼業農家」が最優先候補語となり、同音異
議語の「兼業」と「検校」とが確実に判別される。
次に、第1図における評価器8の他の実施例を説明する
。
。
第7図は、第1図における評価器8と仮名漢字変換制御
部3の機能ブロック図である。
部3の機能ブロック図である。
仮名漢字変換制御部3は、入力文字バッファ2の入力文
の先頭から辞書引きを行い、それぞれ区切られた読みに
対応する漢字を抽出して、制御部3内の単語バッファに
格納する。その場合、第1のエリアには読みと漢字情報
を、第2のエリアには品詞の頻度を示す情報を、また第
3のエリアには単語の読みの長さの情報を、第4のエリ
アには単語の品詞情報を、それぞれ格納する。接続重み
表部7は、先行する単語の品詞と当該単語の接続の可否
を、It 317. Ll 2 +7. It l I
T等の重みで表現したテーブルを参照することによって
行い、その結果を評価器8に入力する。評価器8は、入
力された品詞間の接続重みと、制御部3内の単語バッフ
ァの第3のエリアから取出した単語の読み長と、第2の
エリアから取出した品詞の頻度情報とにもとづき、最尤
評価値を演算する。つまり、第7図に示すように、読み
長31と、品詞ごとの頻度32と、接続重み33とから
最尤評価34を行い、その結果にもとづいて、仮名漢字
変換制御部3で、同音語の判別35を順位学習により行
い、出力文字バッファ9に出力する。
の先頭から辞書引きを行い、それぞれ区切られた読みに
対応する漢字を抽出して、制御部3内の単語バッファに
格納する。その場合、第1のエリアには読みと漢字情報
を、第2のエリアには品詞の頻度を示す情報を、また第
3のエリアには単語の読みの長さの情報を、第4のエリ
アには単語の品詞情報を、それぞれ格納する。接続重み
表部7は、先行する単語の品詞と当該単語の接続の可否
を、It 317. Ll 2 +7. It l I
T等の重みで表現したテーブルを参照することによって
行い、その結果を評価器8に入力する。評価器8は、入
力された品詞間の接続重みと、制御部3内の単語バッフ
ァの第3のエリアから取出した単語の読み長と、第2の
エリアから取出した品詞の頻度情報とにもとづき、最尤
評価値を演算する。つまり、第7図に示すように、読み
長31と、品詞ごとの頻度32と、接続重み33とから
最尤評価34を行い、その結果にもとづいて、仮名漢字
変換制御部3で、同音語の判別35を順位学習により行
い、出力文字バッファ9に出力する。
第8図は、第1図に示す単語辞書記憶族!i4の記憶状
態を表す図である。
態を表す図である。
例えば、いま、rコラショウ」という入力文があった場
合を考える。辞書記憶装置4には、第8図(a)、(b
)に示すように、「こ」、「こう」。
合を考える。辞書記憶装置4には、第8図(a)、(b
)に示すように、「こ」、「こう」。
「こうし」、「こうしよう」の各々について、読み、品
詞、頻度ランク、表記(漢字)、出力順位等が格納され
ている。(、)の最上段の「こうしよう」には1名詞の
「校章」、す変名詞の「交渉」、「考証J、r公称」、
「口承」1等があり、また形容動詞の「高尚」がある、
また、(b)の「こう」には、名詞の「甲」、1項」、
接頭語のr高」、接尾語の1項」、「候」等がある。こ
こで、頻度ランクとは、品詞の頻度をそれぞれ計算し、
それらの値が所定の範囲内に収まるようにするため、対
数化してQogANで表わしたものである。Aを種々変
化させることによって、全体の範囲を変更することがで
きる。また、出力順位は、同音語の中で出力される順序
を使用者が指定した値、1゜2.3.・・・・が記憶さ
れている。
詞、頻度ランク、表記(漢字)、出力順位等が格納され
ている。(、)の最上段の「こうしよう」には1名詞の
「校章」、す変名詞の「交渉」、「考証J、r公称」、
「口承」1等があり、また形容動詞の「高尚」がある、
また、(b)の「こう」には、名詞の「甲」、1項」、
接頭語のr高」、接尾語の1項」、「候」等がある。こ
こで、頻度ランクとは、品詞の頻度をそれぞれ計算し、
それらの値が所定の範囲内に収まるようにするため、対
数化してQogANで表わしたものである。Aを種々変
化させることによって、全体の範囲を変更することがで
きる。また、出力順位は、同音語の中で出力される順序
を使用者が指定した値、1゜2.3.・・・・が記憶さ
れている。
第9@は、第1図における接続重み表部7に格納する品
詞ごとの接続可否表示テーブルの図である。
詞ごとの接続可否表示テーブルの図である。
第9図のテーブルでは、縦列に先行する単語の品詞、横
列に当該読みの品詞が、それぞれ配列されており、それ
らの交点に接続され得る値が示されている。接続される
値としては、数値の大きい方が接続の可能性が大きいこ
とを表わしている。
列に当該読みの品詞が、それぞれ配列されており、それ
らの交点に接続され得る値が示されている。接続される
値としては、数値の大きい方が接続の可能性が大きいこ
とを表わしている。
例えば1名詞の後に助詞の「が」が接続される重みはl
# 311であるのに対して、名詞の後に名詞が接続さ
れる重みはu 1 ptである。
# 311であるのに対して、名詞の後に名詞が接続さ
れる重みはu 1 ptである。
さて、第1図の評価器8は、下記の式にもとづいて評価
され、選択される。
され、選択される。
V=p Q+g f+e’ ”(1)こ
こで、Ps gs rは係数であって、実験の結果にも
とづいて決定される値である。また、Qは読み長、fは
品詞の頻度ランク、Cは接続重みを、それぞれ示してい
る。ここでは、p=3.g=1tr = 2として計算
する。
こで、Ps gs rは係数であって、実験の結果にも
とづいて決定される値である。また、Qは読み長、fは
品詞の頻度ランク、Cは接続重みを、それぞれ示してい
る。ここでは、p=3.g=1tr = 2として計算
する。
例えば、「ネダンコウショウ・・・・」という入力があ
り、最初の単語が「値段」と決定された場合、これに接
続される単語は、「コラ」、または「コラショウ」のい
ずれかであるとする、第3図(a)、(b)より、Q、
f、eにそれぞれの値を代入する。先ず、名詞の「校章
」は、Q=5.f=7.c=1であるから、 V= (
3X 5)+(I X7)+D x t)=15+7+
1=23となる。また、す変名詞の「交渉」は、Q=5
.f=11゜c = 1であるから、 V=(3X 5
)+(l X l 1)+(IXI)=15+11+1
=27となる。また。
り、最初の単語が「値段」と決定された場合、これに接
続される単語は、「コラ」、または「コラショウ」のい
ずれかであるとする、第3図(a)、(b)より、Q、
f、eにそれぞれの値を代入する。先ず、名詞の「校章
」は、Q=5.f=7.c=1であるから、 V= (
3X 5)+(I X7)+D x t)=15+7+
1=23となる。また、す変名詞の「交渉」は、Q=5
.f=11゜c = 1であるから、 V=(3X 5
)+(l X l 1)+(IXI)=15+11+1
=27となる。また。
名詞の「甲」は、(1=2.f=5.c=1であるから
、V=(3X2)+(I X5)+(l X 1)=6
+5+1=12となる。なお、2は第8図の辞書の読み
の数を計数すればよく、gは同じく第8図の辞書の頻度
ランクの数値を抽出すればよく、またCは第9図の接続
重みテーブルから名詞の後に続く助詞ならば03 II
、す変動側ならば“1″を抽出すればよい、この結果、
ここまででは、す変名詞の「交渉」が、最も評価値が高
く、27であるため、r値段」に接続される単語として
「交渉」を出力することになる。このようにして、評価
器8で算出された最尤評価の最も高い単語(前例では、
「交渉」)と、それに続く出力順位に「考証It’公称
」、「口承」の単語情報を出力し、これらを出力文字バ
ッファ9の評価値エリアに格納するとともに、制御部3
内の単語バッファの読みと漢字情報を、出力文字バッフ
ァ9内の品詞別車語群評価値エリアに格納する。
、V=(3X2)+(I X5)+(l X 1)=6
+5+1=12となる。なお、2は第8図の辞書の読み
の数を計数すればよく、gは同じく第8図の辞書の頻度
ランクの数値を抽出すればよく、またCは第9図の接続
重みテーブルから名詞の後に続く助詞ならば03 II
、す変動側ならば“1″を抽出すればよい、この結果、
ここまででは、す変名詞の「交渉」が、最も評価値が高
く、27であるため、r値段」に接続される単語として
「交渉」を出力することになる。このようにして、評価
器8で算出された最尤評価の最も高い単語(前例では、
「交渉」)と、それに続く出力順位に「考証It’公称
」、「口承」の単語情報を出力し、これらを出力文字バ
ッファ9の評価値エリアに格納するとともに、制御部3
内の単語バッファの読みと漢字情報を、出力文字バッフ
ァ9内の品詞別車語群評価値エリアに格納する。
次に、仮名漢字変換制御部3では、前回の最尤評価の際
の出力順位を記憶しておき、最も高い評価値の単語を出
力するが、その単語と異なる単語が使用者によって指定
されたときには、その指定された単語を出力するととも
に、記憶しである出力順位を変更する。記憶しである順
位の変更方法としては、例えば、(a)使用者によって
変更指定された単語を第1順位に昇格させる方法、(b
)使用者によって指定された単語の順位を1つだけ上げ
る方法、(c)使用者に指定された単語にフラグを立て
る方法、つまり前回指定があったことのみを表示する方
法等がある。上記(a)の方法では。
の出力順位を記憶しておき、最も高い評価値の単語を出
力するが、その単語と異なる単語が使用者によって指定
されたときには、その指定された単語を出力するととも
に、記憶しである出力順位を変更する。記憶しである順
位の変更方法としては、例えば、(a)使用者によって
変更指定された単語を第1順位に昇格させる方法、(b
)使用者によって指定された単語の順位を1つだけ上げ
る方法、(c)使用者に指定された単語にフラグを立て
る方法、つまり前回指定があったことのみを表示する方
法等がある。上記(a)の方法では。
同じ使用者が継続してこの装置を使用する場合にはよい
が、使用者が頻繁に変更する場合にはその都度変更指定
の必要があり、使い難い。また(b)の方法では、例え
ば、第8図(a)では、「コラショウ」のす変名間の第
1順位はr交渉」で、以下、「考証J+’公称」、「口
承」の順序になっているが、ここで使用者から「口承」
が指定されたときには、順位4から順位3に昇格させ、
再度指定されたとき、順位3から順位2に昇格させるの
である。このようにすることにより2使用者が頻繁の変
更してもそれに追従して、使用者による最適な単語のば
らつきを補正することができる。また。
が、使用者が頻繁に変更する場合にはその都度変更指定
の必要があり、使い難い。また(b)の方法では、例え
ば、第8図(a)では、「コラショウ」のす変名間の第
1順位はr交渉」で、以下、「考証J+’公称」、「口
承」の順序になっているが、ここで使用者から「口承」
が指定されたときには、順位4から順位3に昇格させ、
再度指定されたとき、順位3から順位2に昇格させるの
である。このようにすることにより2使用者が頻繁の変
更してもそれに追従して、使用者による最適な単語のば
らつきを補正することができる。また。
上記(C)の方法では、フラグを立てるのみで、前回指
定されたことを表示するだけであるから、使用者による
最適な単語のばらつきに対して強いという利点がある一
方、同一使用者からは同じ単語に対し繰り返して変更指
定を受ける心配がある。
定されたことを表示するだけであるから、使用者による
最適な単語のばらつきに対して強いという利点がある一
方、同一使用者からは同じ単語に対し繰り返して変更指
定を受ける心配がある。
このようにして順位学習による同音語判別を行った後、
変換制御部8から出力された単語を、出力文字バッファ
9の優先順スタックに格納する。
変換制御部8から出力された単語を、出力文字バッファ
9の優先順スタックに格納する。
効 果
以上、説明したように1本発明によれば、同音異義語が
あっても、その後続単語が複合語を形成するか否かを検
索することにより、容易にしかも確実に同音異義語の判
別ができ、その判別率を向上させることができる。さら
に、単語の読みの長さと、品詞ごとの使用頻度と、接続
重みとにより最尤評価を行い、単語の出力順位情報にも
とづき所定の単語を選択するので、常に固定的に同じ単
語が出力されることなく、使用者対応に最適な単語を抽
出することができ、使用者による選択のばらつきを少な
くすることができる。
あっても、その後続単語が複合語を形成するか否かを検
索することにより、容易にしかも確実に同音異義語の判
別ができ、その判別率を向上させることができる。さら
に、単語の読みの長さと、品詞ごとの使用頻度と、接続
重みとにより最尤評価を行い、単語の出力順位情報にも
とづき所定の単語を選択するので、常に固定的に同じ単
語が出力されることなく、使用者対応に最適な単語を抽
出することができ、使用者による選択のばらつきを少な
くすることができる。
第1図は本発明を日本語ワードプロセッサに適用した機
能別ブロック図、第2図は第1図の単語辞書記憶装置の
内容の一部を示す模式図、第3図は第1図の複合語辞書
記憶装置の内容の一部を示す模式図、第4図は第1図の
品詞活用表部の内容の一部を示す模式図、第5図は第1
図は接続重み表部の内容の一部を示す模式図、第6図は
第1図の処理過程を示すフローチャート、第7図は第1
図の評価器および仮名漢字変換制御部の機能ブロック図
、第8図は第1図の単語辞書記憶装置の記憶状態を示す
図、第9図は第1図の接続重み表部内の接続重みテーブ
ルを示す図である。 1:キーボード、2:入力文字バッファ、3:仮名漢字
変換制御部、4:単語辞書記憶装置、5:複合語辞書記
憶装置、6:品詞活用表部、7:接続重み表部、8:評
価器、9:出力文字バッファ、10:CRT、11:文
書ファイル部、12:プリンタ。 図面の?r111F (内容に変更なし)第3図 第4図 WJ 5 図 第 6 図 第 7 図 第 8 図 (a) (b) 第9図 手続補正書(自発) 7□6043カ27ヨ
能別ブロック図、第2図は第1図の単語辞書記憶装置の
内容の一部を示す模式図、第3図は第1図の複合語辞書
記憶装置の内容の一部を示す模式図、第4図は第1図の
品詞活用表部の内容の一部を示す模式図、第5図は第1
図は接続重み表部の内容の一部を示す模式図、第6図は
第1図の処理過程を示すフローチャート、第7図は第1
図の評価器および仮名漢字変換制御部の機能ブロック図
、第8図は第1図の単語辞書記憶装置の記憶状態を示す
図、第9図は第1図の接続重み表部内の接続重みテーブ
ルを示す図である。 1:キーボード、2:入力文字バッファ、3:仮名漢字
変換制御部、4:単語辞書記憶装置、5:複合語辞書記
憶装置、6:品詞活用表部、7:接続重み表部、8:評
価器、9:出力文字バッファ、10:CRT、11:文
書ファイル部、12:プリンタ。 図面の?r111F (内容に変更なし)第3図 第4図 WJ 5 図 第 6 図 第 7 図 第 8 図 (a) (b) 第9図 手続補正書(自発) 7□6043カ27ヨ
Claims (2)
- (1)表記用の単語に関連する情報を格納している単語
辞書記憶装置を有し、入力装置により入力された仮名文
字列をもとに上記単語辞書記憶装置を検索して上記仮名
文字列に関連する単語を抽出することにより上記仮名文
字列を漢字と仮名の混在した仮名漢字に変換する仮名漢
字変換方式において、複数の漢字単語の組合せで形成さ
れる複合語に関するデータを格納している複合語辞書記
憶装置と、上記単語辞書記憶装置を検索して抽出した同
音異議語の中で複合語に関する情報の有無を判別し、該
情報に基づいて複合語辞書記憶装置を検索したデータに
基づいて複合語を形成し、該複合語のよみと上記仮名文
字列のよみとを検定する仮名漢字変換制御手段とを有し
、該仮名漢字変換制御手段は上記複合語辞書記憶装置を
検索して形成した複合語について、そのよみが上記仮名
文字列のよみと一致するどうかを検定して上記同音異議
語の判別を行うことを特徴とする仮名漢字変換方式。 - (2)特許請求の範囲第1項記載の方式において、上記
複合語辞書記憶装置の記憶内容は上記単語辞書記憶装置
のアドレスもしくはシーケンスナンバーの組合せで複合
語を記憶していることを特徴とする仮名漢字変換方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP60024613A JPS61184674A (ja) | 1985-02-12 | 1985-02-12 | 仮名漢字変換方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP60024613A JPS61184674A (ja) | 1985-02-12 | 1985-02-12 | 仮名漢字変換方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS61184674A true JPS61184674A (ja) | 1986-08-18 |
Family
ID=12142996
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP60024613A Pending JPS61184674A (ja) | 1985-02-12 | 1985-02-12 | 仮名漢字変換方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS61184674A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0283775A (ja) * | 1988-09-21 | 1990-03-23 | Matsushita Electric Ind Co Ltd | 文字入力装置および方法 |
-
1985
- 1985-02-12 JP JP60024613A patent/JPS61184674A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0283775A (ja) * | 1988-09-21 | 1990-03-23 | Matsushita Electric Ind Co Ltd | 文字入力装置および方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH079655B2 (ja) | スペルの誤りの検出訂正方法及び装置 | |
JPS6231467A (ja) | 文章作成装置 | |
JPS61184674A (ja) | 仮名漢字変換方式 | |
KR100452024B1 (ko) | 자연어 질의 응답 검색 엔진 및 검색 방법 | |
JPS60176169A (ja) | 文章処理装置 | |
JPH0612537B2 (ja) | かな漢字変換装置 | |
JPH05250416A (ja) | データベースの登録・検索装置 | |
JPS61184676A (ja) | 仮名漢字変換方式 | |
JPH08314950A (ja) | テキストの検索方法及び装置 | |
JPS6175467A (ja) | 仮名漢字変換方式 | |
JP3847801B2 (ja) | 文字処理装置及びその処理方法 | |
JPH01229369A (ja) | 文字処理装置 | |
JPS61184682A (ja) | 仮名漢字変換装置 | |
JP3187671B2 (ja) | 電子辞書表示装置 | |
JPH1185765A (ja) | タグ付文書検索システム | |
JPH0363101B2 (ja) | ||
JPH0380363A (ja) | 文書処理装置 | |
JPS6177954A (ja) | 仮名漢字変換方式 | |
JP2537991B2 (ja) | 文字入力装置および方法 | |
JPH04290158A (ja) | 文書作成装置 | |
JPH02115974A (ja) | 言語検索装置 | |
JPH09282316A (ja) | 漢字仮名変換装置 | |
JPH09167156A (ja) | かな漢字変換システムおよびかな漢字変換方法 | |
JPS6198475A (ja) | 日本語文章入力装置 | |
JPS61184678A (ja) | カナ漢字変換処理装置 |