JPS61190657A - 日本語文字列認定方式 - Google Patents

日本語文字列認定方式

Info

Publication number
JPS61190657A
JPS61190657A JP60030364A JP3036485A JPS61190657A JP S61190657 A JPS61190657 A JP S61190657A JP 60030364 A JP60030364 A JP 60030364A JP 3036485 A JP3036485 A JP 3036485A JP S61190657 A JPS61190657 A JP S61190657A
Authority
JP
Japan
Prior art keywords
word
string
character string
counter
kanji
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60030364A
Other languages
English (en)
Inventor
Hiroyuki Kinukawa
博之 絹川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP60030364A priority Critical patent/JPS61190657A/ja
Publication of JPS61190657A publication Critical patent/JPS61190657A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明は、日本語ワードプロセッサをはじめとする日本
語処理システムの日本語文字列認定方式に係り、特に分
かち書きされずに入力されたかな文字列から、漢字に変
換すべき部分を自動的に見出し、漢字かなよじり文に変
換する場合に好適な日本語文字列認定方式に関する。
〔発明の背景〕
本発明の典型的な適用法である自動仮名漢字変換方式に
ついての背景を中心に説明する。
従来分ち書きせず、ベタに仮名文字列を入力する、又は
、自由な位置で分ち書きして仮名文字列を入力し、漢字
仮名まじり文に変換する方法として、特開昭56−72
767号公報に示される方法、情報処理学会第26口金
国大会講演論文集における館林誠ほか5による“自由文
人力・仮名漢字変換方式”と題する文献に記載されてい
る方法等がある。前者の方法は、漢字2字から構成され
る単語の音読み特性に着目し、所要メモリ量、所要処理
時間も比較的小規模に実現できる方式であるが、音読み
漢語以外の語の変換は、考慮されていない。
後者の方法は、いわゆるベタ入力、自由分ち書入力板名
文字列に対して、変換語の読みの音読み、訓読みの如何
を問わず変換可能であるが、入力仮名文字列から、漢字
変換を行なうのに、まず、文節の切れ目の可能性の高い
部分を推定し、その後、漢字変換する方式であるので、
中間結果の保持のためのメモリ量を多く必要とするとと
もに、仮名文字の入力順に逐次に変換できず、変換処理
所要時間を多く必要とする問題があった。
〔発明の目的〕
本発明の目的は、分ち書きされずベタ入力された日本語
文字列又は自由分ち書き入力された日本語文字列(特に
仮名文字列)から、単語認定を行い、音読み、訓読みの
如何を問わず漢字仮名まじり文に自動変換することを容
易にする方式を提供することにあり、特に変換中間結果
の保持に要するメモリ量を少なくし、かつ文字入力順序
にほぼ応じて逐次変換することを容易とし、処理所要時
間を短かくすることを可能とする方法を提供することに
ある。
〔発明の概要〕
発明の目的を達成するため、本発明では、日本語文を仮
名表記化した時、漢字2字で構成される単語の読みが、
音読みであれば、各漢字の末尾音は、 「い」、「う」
、「きJ、r<J、rち」。
rつ」、「っ」 (小文字)、「や」 (小文字)。
「ゆJ (小文字」、[よ] (小文字)、rん」に限
定されていること、しかも、「っ」 (小文字)。
「や」 (小文字)、「ゆ」 (小文字)、「よ」(小
文字)、「ん」の5文字については、読み仮名の先頭音
になることは、皆無であること、又、「を」、「が」、
「て」、「で」、「に」、「の」、「は」、「へ」、「
る」については、肋謂、助動詞、活用語尾として使用さ
れ、文節の切れ目となることが多いことなどの仮名文字
の特性に着目して、文節の切れ目及び音読み漢字列か否
かを推定するものである。これにより下記のような仮名
漢字変換を可能とする。
音読み漢字列と推定された仮名文字列については、2字
漢語の収録された単語辞書照合を優先し、音読み漢字列
と推定できない仮名文字列については、自立語の収録さ
れた単語辞書照合を行い、その後、付属語解析を行う。
なお、音読み漢字列の末尾以降についても、付属語解析
を行う。これらの処理により得られる文節の切れ目と、
上記の音特性により推定した文節の切れ目とを比較し、
次の文節頭を定め、逐次、文末に向って、仮名漢字変換
をしていく方式である。この方式は、音特性と、自立語
・付属語の接続の規則性の2つの特性を利用することに
より、発明の目的を達成している6以上が、本発明の詳
細な説明である。
〔発明の実施例〕
以下、本発明を実施例により詳細に説明する。
第1図は、本発明を構成する機能ブロックを示すもので
あり、1は文節分割・種別推定機能のブロック、2は文
節区切推定情報格納部、3は音読み特性情報−1、及び
音読み特性報−2の格納部、4は単語辞書照合機能のブ
ロック、5は単語辞書格納部、6は音読み特性情報−2
の格納部、7は単位語認定機能のブロック、8は複合語
構成語認定機能のブロック、9は付属語認定機能のブロ
ック、1oは付属語接続規則格納部、11は文節認定評
価機能ブロック、12は自動変換制御機能のブロックで
ある。仮名文字列が入力されると、2に格納された文節
区切推定情報、及び、3に格納された音読み特性情報−
1,2を参照して、1の文節分割及びその文節が音読み
漢字列か否か推定する。4は、5に格納された単語辞書
及び、6に格納された音読み特性情報−2を参照して、
入力仮名文字列を漢字仮名まじり表記に変換する。1で
、音読み漢字列でないと推定された時、7は。
4の単語辞書照合機能を利用し、文節を構成する自立語
すなわち単位語認定を行う。1で、音読み漢字列と推定
された時、8は、4の単語辞書照合機能を、音読み漢字
列の末尾に至るまで、くり返して利用し、複合語を構成
する語の認定を行う。
9は、10に格納された付属語接続規則を参照し、7又
は8の認定結果の直後の仮名文字列について、付属語認
定を行う。11は、7又は8の認定結果の直後の仮名文
字列について、9を利用して得た、付属語認定結果と、
1により得ている文節分割推定位置とを比較し、次の文
節頭位置を推定するとともに、7又は、8により得た結
果により、上記の1から、11までの処理の対象とした
仮名文字列を、漢字仮名まじり表記に変換する。12は
、1の文節分割・種別推定機能、7の単位語認定機能、
8の複合語構成語認定機能、11の文節認定評価機能を
制御し、入力の仮名文字列全体を、文頭から文末に向っ
て、順次、漢字仮名まじり表記に自動変換するものであ
る。第2図以降で、第1図の機能ブロックの詳細を述べ
るものとする。第2図は、本発明の一実施例のハードウ
ェア構成を示すものであり、13は、プロセッサ、14
は。
仮名文字列入力のためのキーボード入力装置、15は、
変換結果表示のための表示装置であり。
20は、記憶装置であり、以下の各記憶部からなる。2
1は5文節区切・推定情報格納部、31は。
音読み特性情報−1及び音読み特性情報−2格納部、5
1は、単語辞書格納部、91は、付属語接続規則格納部
、16は、プログラム格納部、17は、ワークエリア、
18は、入力仮名文字列及び漢字仮名まじり表記格納部
を表わしている。第3図は、以下の説明に使用する入力
仮名文字列が上記表示装置に表示されている例rカイシ
ャハ、シュフチ3ウリヨヒヲセイサンスル、」を示す、
第4図は、文節区切推定情報のうちの、文節区切記号類
を示し、r、」(句点)、「、」 (読点)。
’?J +  ’!Jが属する。第5図は9文節区切推
定情報のうちの、文節区切使用可能文字類を示し。
「ガ」、「テ」、「デ」、「ト」、「二」、rノ」、「
ハ」、「へ」、「ル」が属する。第6図は、文節区切推
定情報のうちの、付属語限定使用文字「ヲ」を示す6文
節区切推定情報は、第4図、第5図、第6図の3値から
なる。第7図は、音読み特性情報−1を示し、「イ」、
「つ」、「キ」、′「り」、「チJ、rツ」の6文字か
らなる。第8図は、音読み特性情報−2を示し、「ツ」
 (小文字)、「ヤ」 (小文字)、「ユ」 (小文字
)。
「ヨ」 (小文字)「ン」の5文字からなる。第9図(
A)、第9p!l (B)は1文節分割・種別推定機能
の処理内容をフローチャートで示すものである。文節分
割・種別推定機能は、起動されると、3種の文節区切推
定情報を文節区切推定情報格納部からプロセッサ上に読
み込む(101)。次に、入力仮名文字列中の未処理部
を読み込む(102)。入力仮名文字列の未処理部中で
の文節の区切れ日文字・記号の相対位置を示すカウンタ
Bに101 を、音読み特性文字カウンタCに′O″を
セットする(103)。B文字目が、文節区切記号類か
、付属語限定使用文字のいずれかに、一致するか否か比
較する(104)。一致した時は、Bカウンタ値が0′
すなわち文節構成文字が無いか否か比較する(111)
。0′に等しい時は、入力仮名文字列の未処理部の先頭
を1文字分ずらし、102に分岐する(112)、11
1において、10′に等しくない時は、115に分岐す
る。104において、B文字目が、文節区切記号類でも
、付属語限定使用文字でもない時B文字目が、文節区切
使用可能文字類に一致するか否か比較する(105)、
一致しない時、B文字目が、音読み特性情報−1又は、
音読み特性情報−2に一致するか否か、比較する(10
6)。一致しない時、Bカウンタの値に11′を加え、
104に分岐する(107)。106の比較において、
音読み特性情報−1又は、音読み特性情報−2のいずれ
かに一致する時は、Cカウンタの値に1′を加え(10
8)、次にBカウンタの値に1′を加える(109)。
B文字目が、音読み特性情報−1又は音読み特性情報−
2のいずれかに一致するか否か比較する(110)。一
致する時は、109に分岐し、一致しない時は、117
に分岐する。105の比較で、B文字目が、文節区切使
用可能文字類に一致する時は、Bカウンタの値に1′を
加え(113)、B文字目が1文節区切記号類か、付属
語限定使用文字に一致するか否か比較する(114)、
114において一致する時は、Bカウンタの値に11′
を加え(115)、123に分岐する。114において
、一致しない時は、121に分岐する。117において
は、B文字目が、文節区切記号類か、付属語限定使用文
字に一致するか否か比較し、一致する時は、111に分
岐し、一致しない時は、118に分岐する。
118においては、B文字目が1文節区切使用可能文字
類に一致するか否か比較し、一致しない時は、Bカウン
タに11′を加え(119) 、 104に分岐する6
118において、一致する時は、Bカウンタに1′を加
え(120)、B文字目が、音読み特性情報−1又は音
読み特性情報−2に一致するか否か、比較する(121
)、一致する時は、108に分岐し、一致しない時は、
Bカウンタの値と2′とを比較する(122)、Bカウ
ンタの値が、12′以下の時は、104に分岐し、2′
より大きい時は、Cカウンタの値と、3′とを比較する
(123)、Cカウンタの値が3′より小さい時は、非
音読み漢字列と推定した旨を示すフラグをセットしく1
24)、Cカウンタの値が゛3″以上である時は、音読
み漢字列と推定した旨を示すフラグをセットしく125
)、文節分割・種別推定処理を終える。第3図の入力仮
名文字列に対し、第9図(A)、(B)の文節分割・種
別推定機能を適用すると、第10図に示すよう変換され
、出力される図において、下線L工部は、音読み特性情
報として認定された文字であり、0印は、文節区切使用
可能文字類として、認定された文字である。第11図は
、単語辞書の本体部の形式を示し、見出長、見出仮名文
字列、表記長、漢字表記、品詞番号の5項目から構成さ
れている。第3図の入力仮名文字列の漢字仮名まじり表
記変換に必要な語を例として、第11図に示す。第12
図は、単語辞書の探索用のインデックス表(略して、辞
書探索表部)であり、第11図の単語辞書本体部と合わ
せて、単価辞書を構成するものである。第12図の辞書
探索表部は、見出先頭文字と、当該文字を見出仮名文字
列の先頭に有する単語辞書本体部の見出仮名文字列のう
ちの最初の見出仮名文字列について、単語辞書中でのア
ドレスからなっている。このアドレスは、単語辞書中の
見出仮名文字列の配列順位で示すものとする。したがっ
て、仮名文字:01を先頭とする見出仮名文字列のうち
単語辞書中で、最初に配列されているもののアドレスを
a。2、仮名文字C8を先頭とする見出仮名文字列の個
数が、k個であるとすると、C8の直後の仮名文字:0
11を先頭とする見出仮名文字列のうち、単語辞書中で
、最初に配列されているもののアドレスa。k+1a 
Ck+t = a ah + k の関係式が成り立ち、第1番目の′ア″のアドレスは、
l Ol となる、第13図は、品詞番号の対応表であ
り、品詞と対応する品詞番号を示している1例として、
名詞が′1′に、す変動詞語幹(「するJの付く名詞で
、「する」を取り除いた語)が12′に対応している。
第14図(A)、第14図(B)は、単語辞書照合機能
の処理内容をフローチャートで示したものである。単語
辞書照合機能が起動されると、与えられた文字列の先頭
文字を先頭文字とする見出仮名文字列群の単語辞書アド
レスを、辞書探索表部を参照して得る(401)。先頭
文字に対する見出仮名文字列が存在するか否か調べ(4
20)、存在しない場合は、415に分岐し、存在する
場合は、当該文字を先頭とする見出し群を、単語辞書本
体部からワークエリアに読み込む(403)、辞書照合
位置カウンタDに′0′をセットする(404)、与太
られた仮名文字列の頭部と、辞書中のD番目の見出仮名
文字列と一致するか否か、比較する(405)。一致し
ない時は、413に分岐し。
一致する時は、与えられた文字列中で、一致文字列の直
後の文字が音読み特性情報−2のいずれかの文字に一致
するか否か、比較する(406)。
一致する時は、405で一致した文字列を非一致とみな
し、413に分岐する。406で、一致しない時は、ワ
ークエリアに読み込まれた単語辞書本体部より、見出長
1表記長漢字表記、品詞番号を取得し、保持する(40
7)。見出仮名文字列を同じくするもの:同音異義語を
すべて、取得保持するとともに、一致見出仮名文字列数
をDカウンタに加え、値を更新する(408)。一致し
た見出長を、LWカウンタにセットする(409)。
与えられた文字列の頭部と、ワークエリアに読み込まれ
た単語辞書中のD番目の見出仮名文字列と一致するか否
か、比較する(410)、一致しない時は、416に分
岐し、一致する時は、与えられた文字列中で、一致文字
列の直後の文字が、音読み特性情報−2のいずれかの文
字に一致するか否か、比較する(411)。一致する時
は、一致した文字列を非一致とみなし、416に分岐す
る。
411で、−L’ffiしない時は、ワークエリアに読
み込まれた単語辞書本体部より、見出長表記長、漢字表
記、品詞番号を取得し、次最長一致語として、保持しく
412)、本処理を終える。413においては、Dカウ
ンタの値に′1′ を加える。次1こ、先頭文字を同じ
くする見出仮名文字列をすべて。
照合処理し終ったか否か、調べる(414)。すべて、
処理し終っていない時は、405に分岐し。
すべて処理し終った時は、415に分岐する。
415においては、辞書に一致する見出仮名文字列が、
存在しなかったことを示すフラグをセットし、本処理を
終える。416においては、Dカウンタの値に′1′を
加える。次に、先頭文字を同じくする見出仮名文字列を
すべて、照合処理し終ったか否か調べ(417)、L終
っていない時は。
410に分岐し、し終っている時は1本処理を終える。
第15図は、第14図(A)、第14図(B)の407
,408,412の、辞書照合一致見出仮名文字列に対
する見出長1表記長、漢字表記、品詞番号からなるレコ
ードを保持するスタックの形式を示す。このスタックに
は、見出仮名文字列の先頭文字を同じくするものをまと
めて。
保持し、第14図(A)、(D)の407,408゜4
12の一致順に、後に取り出せるように配列して、保持
するものとする。スタックは、音読み漢字列用に、複数
個必要であり、これらスタックは、ワークエリア内に、
特別に確保し、一致見出仮名文字列に対する保持情報が
、次の与えられた文字列に対する新たな保持以外に、破
壊されないようになっているものとする。第16図は、
単位語認定機能の処理内容をフローチャートで示した゛
ものである。単位語認定機能が起動されると、自立語及
び付属語認定法の文字列長を示すカウンタL1に′01
をセットする(701)。文節区切れ目位置カウンタB
の値と、単語辞書の見出仮名文字列の最大長との大小比
較を行う(702)。カウンタBの値の方が大きいか1
等しい時は、入力仮名文字列の未処理部の頭部について
、B文字分を単語辞書照合の処理対象文字列としく70
3)、単語辞書照合処理(4)を起動する。702にお
いて、Bカウンタの値の方が、小さい時は、入力仮名文
字列の未処理部の頭部について辞書見出最大炎の文字列
置を、単語辞書照合の処理対象文字列として(704)
、単語辞書照合処理(4)を起動する。単語辞書照合処
理(4)の後、辞書一致見出が、存在したか否か判別す
る(705’)。
存在しない時、処理対象文字列の前方移動可能量を示す
カウンタL2の値が0″か否か判別する(706)。0
′に等しくない時、処理対象文字列の先頭を前方にL2
文字分ずらす(707)。
Bカウンタの値に、L2カウンタの値を加え、Bカウン
タにセットする(708)、L2カウンタに0′をセッ
トしく709) 、702に分岐する。706において
、L2カウンタの値が0′に等しい時、処理対象文字列
の後方移動可能量を示すカウンタL3の値が、0′か否
か、判別する(710)。0′に等しくない時、処理対
象文字列の先頭を、後方にL3文字分ずらす(711)
Bカウンタの値からL3カウンタの値を引き、Bカウン
タにセットしく712)、L3カウンタに10′をセッ
トしく713)、702に分岐する。
710において、L3カウンタの値が t Q j に
等しい時、単位語認定処理を終える。705において、
辞書一致見出が、存在する時、Bカウンタの値と、辞書
一致長カウンタLWの値とを比較する(714)、Bカ
ウンタの値の方が大きい時はLWカウンタの値をL1カ
ウンタにセットしく715)、単位語認定処理を終える
。714において、LWカウンタの値の方が大きいか、
等しい時、辞書一致推定文節オーバーフラグMOをセッ
トしく716) 、LWカウンタの値をL1カウンタに
セットしく717)、本単位語認定処理を終える。71
8においてBカウンタの値からLWのカウンタの値を引
いて得られる値と5′との大小関係を比較し、5′より
小さい時は本単位語認定処理を終え、5′より大きいか
等しい時は、B文字分の文字列からLW文字列を除いた
残り文字列中に音読特性情報<1>、<2>に一致する
文字が2文字含まれているか否か調べる(719)。含
まれていない時は、本単位語認定処理を終え、含まれて
いる時は、単語辞書照合(4)を行う。単語辞書照合の
結果、一致見出が有無を判別しく720)、無の時は、
辞書一致見出無フラグをリセットしく721)本単位語
認定処理を終える。辞書一致見出有の時は、L1カウン
タの値にLWカウンタ値を加え改めてL1カウンタにセ
ットする(722)、Bカウンタ値とL1カウンタ値の
大小を比較しく723)、Bカウンタ値の方が大きい時
は1本単位語認定処理を終え、Llカウンタ値の方が大
きいか等しい時は、辞書一致推定文節フラグMOをセッ
トしく724)、本単位語認定処理を終える。第17図
(A)。
第17図(B)、第17図(C)は、複合語構成語認定
機能の処理内容をフローチャートで示したものである。
複合語構成語認定機能が起動されると、自立語及び付属
語認定済の文字列長を示すカウンタL1にt O1をセ
ットする(801)、文節区切れ目位置カウンタBの値
を、ワークカウンタBWにセットする(802)、BW
カウンタの値と、辞書見出最大炎との大小関係を比較す
る(803)、BWカウンタの値の方が大きいか、等し
い時、未処理文字列の頭部、BW文字分を単語辞書照合
の処理対象文字列としく804)、単語辞書照合処理(
4)を起動する。803において、BWカウンタの値の
方が、小さい時、未処理文字列の頭部について、辞書見
出最大要分を、単語辞書照合の処理対象文字列としく8
05)、単語辞書照合処理(4)を起動する。単語辞書
照合処理(4)の後、辞書一致見出が、存在したか否か
、判別する(806)、806で、存在しないと判別さ
れた時、L1カウンタの値が、10′か否かにより、音
読み漢字列と推定した文字列の頭部での辞書非一致か否
かを判別する(807)。
Llカウンタの値が0′の時、処理対象文字列の前方移
動可能量を示すカウンタL2の値が、0′に等しいか否
か、判別する(808)。
L2カウンタの値が、10′に等しくない時、処理対象
文字列の先頭を前方にL2文字分、前方にずらす(80
9)、Bカウンタの値に、L2カウンタの値を加えたも
のをBカウンタにセットしく810)、L2カウンタの
値を101 としく811)、802に分岐する。80
8において、L2カウンタの値が、10′に等しい時、
処理対象文字列の後方移動可能量を示すカウンタL3の
値が、l Ol か否か判別する(812)、L3カウ
ンタの値が101 に等しくない時、処理対象文字列の
先頭を、後方にL3文字分ずらす(813)。Bカウン
タの値からL3カウンタの値を引いたものをBカウンタ
にセットしく814)、L3カウンタの値を10′とし
く815)、802に分岐する。812において、L3
カウンタの値が。
L 01 に等しい時は、複合語構成語認定処理を終え
る。807において、L1カウンタの値が。
101 に等しくない時、816に分岐する。また、8
06において、辞書一致見出有の時は821に分岐する
。816において、直前の辞書一致したもの中に、次最
長一致のものが有ったか、否か判別する(816)。次
最長一致のものが存在しない時は、本複合語構成語認定
処理を終える6次最長一致のものが、存在する時は、直
前の最長一致長と、次最長一致長の差を、LSカウンタ
にセットする(817)。直前の最長一致の語群を棄却
する(818)、処理対象文字列の先頭をLSS文字前
方にずらしく819)、BWカウンタの値に、LSカウ
ンタの値を加えたものを、Bカウンタにセットしく82
0)、803に分岐する。
821においては、Llカウンタの値が10′か否かに
より、音読み漢字列と推定した文字列の頭部での辞書一
致か否かを判別する(821)。
Llカウンタの値が、′O′でない時、辞書一致見出の
うち、接頭辞があれば、それを棄却する(822)、棄
却後辞書一致見出の残りがあるか否か判別する(823
)、辞書一致見出が残っていない時は、辞書一致見出無
フラグをセットしく824)、816に分岐する。82
3において。
辞書一致見出が残っている時は、828に分岐する。8
21において、L1カウンタの値が、′01に等しい時
、辞書一致見出のうち、接尾辞を棄却する(825)。
棄却後、辞書一致見出の残りが有るか否か1判別する(
826)、辞書一致見出が残っていない時は、辞書一致
見出無フラグをセットしく827)、808に分岐する
。826において、辞書一致見出が残っている時は、辞
書一致見出中の最優先の見出長をLWカウンタにセット
する(828)。Llカウンタの値に、LWカウンタの
値を加えたものを、再び、L1カウンタにセットする(
829)、LWの長さ分を処理済文字列としく830)
、BWカウンタの値と、LWカウンタの値との大小比較
を行なう(831)、LWカウンタの値の方が、大きい
か1等しい時は、辞書一致した文字列が、推定文節の区
切れ目を越えたことを示すフラグをMOエリアにセット
しく832)、本複合語構成語認定処理を終える。83
1においてBWカウンタの値の方が、大きい時は、BW
カウンタの値から、LWカウンタの値を引いたものを、
再び、BWカウンタにセットする(833)。辞書未照
合の音読み特性情報数カウンタCの値から、828での
最優先の辞書一致見出仮名文字列に含まれる音読み特性
情報数を引いたものを、カウンタCにセットする(83
4) 。
Cカウンタの値が、′0′に等しいか否か、判別する(
835)、’O’ に等しくない時は、803に分岐し
、′0′に等しい時は、本複合語構成語認定処理を終え
る。第10図に対して、第16図の単位語認定機能を適
用すると、第18図に示すように、漢字変換される。第
19図は、音読み漢字列と推定される。「シュッチョウ
リョヒヲ」という推定文節に対して、第17図(A)、
(B)。
(C)の複合語構成語認定機能の適用により得られる漢
字仮名まじり表記である。第20図は、付属語接続規則
を示し、品詞、見出長、接続可付属語、後続語品詞、文
節末の可否情報の5項目から構成され、品詞を同じくす
る付属語毎に、一群にまとめられている。第21図は付
属語認定機能の処理内容をフローチャートで示したもの
である。
付属語認定機能が起動されると、指定の品詞番号により
、付属語接続規則の接続可付属語比較照合位置をセット
する(901)。入力仮名文字列の未処理部中で単語辞
書一致又は、直前の付属語接続規則の一致文字列の直後
の文字列について、付属語接続規則中の当該品詞番号を
有する接続可付属語とすべて、比較照合する(902)
。一致するものがあるか否か判別しく903)、一致す
るものがない時は、910に分岐する。903において
、一致するものがある時は、付属語接続規則から、後続
語品詞番号を得る(904)。一致部を、LFカウンタ
の値に加えたものを、再び、LFカウンタにセットする
(905)、904で得た後続語品詞番号が’127’
に等しいが否が。
判別しく906)、等しい時は、本付属語認定処理を終
える。906において、’127’ に等しくない時は
、未処理文字が残っているか否が判別する(907)、
残っている時は、901に分岐し、残っていない時は、
文節末可であるが否か判別する(908)、文節末可で
ある時は、本付属語認定処理を終える。908において
、文節末不可である時は、文節末不可フラグをセットし
て(909)、本付属語認定処理を終える。903にお
いて、一致する付属語が存在しない時は、付属語接続規
則非一致フラグをセットしく910)、LFカウンタの
値が′0′に等しいか否か判別する(911)。′0″
に等しい時は、本付属語認定処理を終える。911にお
いて、t Oyに等しくない時は、直前一致付属語が、
文節末可が否が判別しく912)、不可の時は、909
に分岐し、可の時は、本付属語認定処理を終える。第2
2図(A)、第22図(B)、第22図(C)は、文節
認定評価機能の処理内容をフローチャートで示したもの
である。文節認定評価機能が、起動されると、辞書一致
見出が無かったか否かを判別する(1101) 、辞書
一致見出が、無い時は1132に分岐する。辞書−政見
出が、有った時は、付属語誌定長を示すカウンタLFに
I □ l をセットし、がっ、最後尾の辞書一致語ス
タック位置をセットする(1102) 、最優先辞書一
致語の品詞すべて処理したか否か判別する(1103)
、すべて処理済の時は、1121に分岐し、未処理のも
のが残っている時は、最優先辞書一致語の未処理品詞の
から、優先度に従って、1つ品詞を取得しく1104)
 、取得された品詞を処理済とする(1105)。11
04により得た品詞により、付属語認定処理(9)を起
動する。付属語認定処理の結果について、付属語接続規
則が、非一致か否か、判別する(1106)。非一致の
時は。
付属語一致部カウンタLFの値がI Or が否かを調
べ、一致付属語無か否かを判別する(1107) 。
LFカウンタの値がd Ojの時は、辞書−敷部が、文
節区切れ目推定位置を越えているが否かを。
MOフラグのセットの有無で判別する(110g)。
MOフラグがセットされている時は、末尾辞書一致語の
最優先の自立語が文節末可が否が判別する(1109)
 、文節末不可の時は、11o3に分岐し1文節不可の
時は、 1114に分岐する。1108において。
MOフラグがセットされていない時は、11o3に分岐
する。 1107において、LFカウンタの値がj O
lでない時、又は、 1106において、付属語接続規
則が、非一致でない時、1110に分岐する。認定され
た付属語列の末尾付属語が、文節末可であるが否か判別
する(1110)。文節末不可である時、LPカウンタ
の値を′0′にしく1ill) 、 1103に分岐す
る。1110において、文節末可である時、L1カウン
タの値に、LFカウンタの値を加えたものを、再びL1
カウンタにセットする(II 12)。MOフラグがセ
ットされているが否か判別しく1.113) 。
セットされていれば、MOフラグをリセットしく1.1
14) 、 1116に分岐する。1113において 
、V L’−+フラグがセットされていない時、Bカウ
ンタの値と、L1カウンタの値との大小関係を判別する
(1115)。Bカウンタ値と、L1カウンタ値が等し
い時、L2カウンタ、L3カウンタの両方にいずれも′
0′をセットしく1116) 、 1119に分岐する
。 1115において、L1カウンタ値の方が大きい時
は、L1カウンタ値からBカウンタ値を引いた値をL2
カウンタにセットし、がっ、L3カウンタには、′O1
をセットして(1117) 、 1119に分岐する。
 1115において、Bカウンタ値の方が大きい時は、
L2カウンタにt Ot をセットし、がっ、Bカウン
タ値から、L1カウンタ値を引いた値をL3カウンタに
セットしく111.8) 、 1119に分岐する。 
1119においては、辞書−敷詰を保持している各スタ
ックの最優先語に、漢字表記化し、付属語認定部を平板
名化する(1119)。Llカウンタの値の長さ分を処
理済としく1120) 、本文節認定評価処理を終える
。1103において、最優先語の品調すべて処理とした
時、最優先辞書一致長をLWIカウンタにセットする(
IHl)、次優先辞書−敷詰が有るか否か判別しく11
22) 、無い時は、1130に分岐する。1122に
おいて、次優先辞書−敷詰が存在する時は、次優先辞書
一致長をLW2カウンタにセットする(1123) 、
最優先辞書−敷詰を棄却し、次優先語を最優先とする(
1124) 、 LWIカウンタ値から、LW2カウン
タ値を引いたものを、LW1カウンタにセラI−する(
1125)。L1カウンタ値から、LWIカウンタ値を
引いたものをL1カウンタにセットする(1126) 
、 Bカウンタ値と、LLカウンタ値の大小比較を行い
(1127) 。
Llカウンタ値の方が大きいか、等しい時、MOフラグ
をセットしく1128) 、 1103に分岐する。
1127において、Bカウンタ値の方が大きい時、MO
フラグをリセットしく1129) 、 1103に分岐
する。1130においては、最優先辞書−敷詰を棄却す
る。次に、L1カウンタ値から、LWIカウンタ値を引
いたものを、L1カウンタにセットする。
L2カウンタ及び、L3カウンタに、いずれもI O+
 をセットする(1132)。Bカウンタ値と、L1カ
ウンタ値の大小関係を比較する(1133) 。
Bカウンタ値の方が大きいか1等しい時、Llカウンタ
値がi 0 + か否か判別する(1134)。113
4において、Llカウンタ値が′0′に等しい時又は、
1133において、L1カウンタ値の方が大きい時、B
文字分すべて、平板名化して(1135)、1137に
分岐する。 1134において、L1カウンタ値が′0
′でない時、L1文字分は、辞書−敷詰により漢字表現
化し、その直後の(B−LL)文字分は、平板名化する
(1136)。B文字分を処理済としく1137) 、
本文B認定評価処理を終える。第18図に対して、第2
2図(A)、(B)、(C)の文節認定評価機能を適用
すると、第23図に示すように、漢字仮名まじり表記に
変換される。第24図は、自動変換制御機能の処理内容
をフローチャートで示したものである。自動変換制御機
能が起動されると、入力仮名文字列を読み込み(120
1) 、入力されなくなった時、本処理を終える。次に
、入力仮名文字列について、すべて処理したか否か判別
しく1202) 、すべて処理済となった時、1201
に分岐する。入力仮名文字列について。
未処理部が残っている時は、文節分割種別推定処理(1
)を起動する0文節分割・種別推定処理の結果、未処理
部の頭部が、音読み漢字列と推定されるか否か判別する
(1203)。音読み漢字列でないと推定さ九た時は、
単位語認定処理(7)を起動し、音読み漢字列と推定さ
れた時は、複合語構成語認定処理(8)を起動する。単
位語認定処理又は、複合語構成語認定処理により、自立
語認定を行い、次に、文節認定評価処理(11)を起動
し、付属語部の認定を行い、文節の区切れ目を評価・認
定する。これにより、得られる変換結果を出力表示しく
1204) 、 1202に分岐する。第3図の入力仮
名文字列に対して、第24図に示した自動変換制御に従
って、文節分割・種別推定処理、単位語認定処理又は、
複合語構成語認定処理、文節認定評価処理を適用すると
、第25図に示すように漢字仮名まじり表記に変換され
る。「セイサン」に対しては、同音異義語が存在するの
で、「(精算/生産/清算)」と自動変換される。この
結果の表示選択は、特願昭58−137539に示した
方式や、日本語ワードプロセッサに組み込むことにより
、実現することが可能である。付属語認定処理について
は、本実施例で、一方法を示したが、これらの部分につ
いては、特公昭52−38371 、特公昭53−29
504  (登録Nα1007092号)等に記載され
た方式があり、これらの方式で、置き換えることも可能
である。
以上、実施例により詳述した。
また、本実施例の効果としては、各機能ブロックが、プ
ログラム論理により実現される点、各機能ブロック単位
にLSI化することが可能である点、各機能ブロック単
位に、他の処理方式に取り替え可能である点及び複数の
機能ブロックの統合による処理の効率化が可能である点
等がある。
以上、仮名・漢字文字列変換の実施例について詳述した
が、本発明の思想は、同様にして、ローマ字列から、漢
字仮名まじり文字列への変換表音文字・記号列から、漢
字仮名まじり文字列への変換等に実施可能である。
さらに日本語文字列一般についても読取り入力と同時に
漢字列を認定し、直接認定のできない部分についてのみ
上記方式を適用することも可能である。
すなわちいわゆるベタ書き、または自由分ち書きされた
仮名文字列等表意文字列または仮名漢字文字列から正し
い分ち書きまたは単語列認定を行うことが可能である。
〔発明の効果〕
本発明によれば、分ち書きされていないベタ書き文字列
又は、自由な位置で分ち書きされた文字列から、これら
文字列の入力順に逐次圧しい分ち書きや単語列を認定す
ることが出来る。
これを仮名漢字変換等に適用する場合、特にその効果は
秀れている。すなわち上記のような仮名文字列の入力順
に沿って、文頭から文末に向って、逐次に変換すること
ができるので、中間結果の保持のための記憶容量が、少
なくて済む。また、あらゆる可能性を試みることなく、
入力仮名文字列中の特定の仮名に着目して、確度の高い
範囲を推定しているので、変換処理所要時間を少なくす
る効果がありたとえばこの所要時間を入力仮名文字列中
に含まれる自立語数に、比例させることができる。また
、自動仮名漢字変換部として、独立して適用する場合、
日本語文テキスト作成を目的とする日本語ワードプロセ
ッサの日本語入力機能部としてだけでなく、プログラム
作成、データ作成を対象とした日本語処理システムの日
本語入力機能部としても、利用できるという効果がある
【図面の簡単な説明】
第1図は1本発明を構成する機能のブロック図、第2図
は、本発明の実施例のハードウェア構成を示すブロック
図、第3図は入力仮名文字列の表示例を示す図、第4図
は本発明の文節区切記号類の例を示す図、第5図は、本
発明の文節区切使用可能文字を示す図、第6図は、本発
明の付属語限定使用文字を示す図、第7図は、本発明の
音読み特性情報−1を示す図、第8図は、本発明の音読
み特性情報−2を示す図、第9図(A)、(B)は、本
発明における文節分割・種別推定処理フローチャート、
第10図は1本発明の文節分割・種別推定結果の表示例
を示す図、第11図は、本発明におけるメモリ内の単語
辞書本体部の例を示す説明図、第12図は、本発明にお
ける辞書探索表部の例を示す説明図、第13図は1本発
明実施例における品謂番号対応表の例の説明図、第14
図(A)、(B)は本発明の単語辞書照合処理フローチ
ャート、第15図は1本発明の単語辞書照合一致見出仮
名文字列に対する情報を保持するスタックの形式例を示
す説明図、第16図は、本発明の単位語認定処理フロー
チャート、第17図(A)。 (B)、(C)は、本発明の複合語構成語認定処理フロ
ーチャート、第18図は、本発明の単位語認定結果の表
示例を示す図、第19図は、本発明の複合語構成語認定
結果の表示例を示す図、第20図は、本発明実施例にお
けるメモリ内の付属語接続規則例を示す説明図、第21
図は、本発明実施例における付属語認定処理フローチャ
ート、第22図(A)、(B)、(c)は、本発明の文
節認定評価処理フローチャート、第23図は、本発明の
文節認定評価結果の表示例を示す図、第24図は、本発
明の自動変換制御処理フローチャート、第25図は、本
発明の漢字仮名まじり表記自動変換の表示例を示す図で
ある。 1・・・文節分割・種別推定機能ブロック、2・・・文
節区切推定情報格納部、3・・・音読み特性情報−1及
び音読み特性情報−2の格納部、4・・・単語辞書照合
機能ブロック、5・・・単語辞書格納部、6・・・音読
み特性情報−2格納部、7・・・単位語認定機能ブロッ
ク、8・・・複合v4檎成語認定機能ブロック、9・・
・付属語認定機能ブロック、1o・・・付属語接続規則
格納部、11・・・文節認定評価機能ブロック、12・
・・自動変換制御機能ブロック。 竿2目 f−3因 ¥4図 ¥S図 17−b目 ■ 竿7図 ■霞」霞■ ”f−t Z目 串 !3 区 °茅 14 口 (Bつ ¥−75図 # 188 茅19図 第 25記

Claims (1)

  1. 【特許請求の範囲】 1、日本語の文章中に存在する記号を、少なくとも3種
    に分類して得られる文節区切推定情報と、第1の音読み
    特性情報と、第2の音読み特性情報により、区切りなく
    連ねられた文字列又は、自由な位置で区切られた文字列
    から、文節の区切れ位置を推定するステップと該位置に
    よつて区切られた区切り単位が、音読み漢字列であるか
    否かを推定するステップと、音読み漢字列と推定された
    文字列に対して単語または単語列を認定するステップと
    、音読み漢字列でないと推定された文字列に対して、単
    語を認定するステップと、前記文節区切れ位置推定結果
    から、文節区切れ位置を認定・評価するステップと、該
    位置による区切り単位が、音読み漢字列か否かを推定す
    るステップとを有することを特徴とする日本語文字列認
    定方式。 2、上記文節区切推定情報が、文節区切記号類としての
    「○」(白点)、「、」(読点)、「?」、「!」、文
    節区切使用可能文字類としての「ノ」、「ハ」、「ニ」
    、「ガ」および付属語限定使用文字としての「ヲ」の3
    種からなる第1項記載の日本語文字列認定方式。 3、上記文節区切使用可能文字類としてさらに、「テ」
    、「デ」、「ト」、「へ」、「ル」を使用する第1項記
    載の日本語文字列認定方式。 4、上記第1の音読み特性情報が「イ」、「ウ」、「キ
    」、「ク」、「チ」、「ツ」であり、第2の音読み特性
    情報が「ッ」(小文字)、「ャ」(小文字)、「ュ」(
    小文字)、「ョ」(小文字)、「ン」である第1項記載
    の日本語文字列認定方式。 5、上記文節区切れ位置を認定・評価するステップが付
    属語部を認定するステップを含むものである第1項記載
    の日本語文字列認定方式。 6、上記単語または単語列と認定された文字列の直後が
    第2の音読み特性情報「ッ」、「ャ」、「ュ」、「ョ」
    (いずれも小文字)および「ソ」である時は、照合一致
    とはせず、廃却し、さらに、継続して単語または単語列
    か否かを認定するようにした第1項記載の日本語文字列
    認定方式。 7、上記日本語の文章が仮名文字列である第1項記載の
    日本語文字列認定方式。 8、上記単語または単語列の認定を文字列を単語に変換
    する単語辞書との照合により行う第1項または第6項の
    いずれかの1項記載の日本語文字列認定方式。 9、上記日本語の文章が仮名文字列であり、上記音読み
    漢字列と推定され認定された単語または単語列を漢字列
    または仮名漢字列に変換するステップを有する第1項記
    載の日本語文字列認定方式。
JP60030364A 1985-02-20 1985-02-20 日本語文字列認定方式 Pending JPS61190657A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60030364A JPS61190657A (ja) 1985-02-20 1985-02-20 日本語文字列認定方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60030364A JPS61190657A (ja) 1985-02-20 1985-02-20 日本語文字列認定方式

Publications (1)

Publication Number Publication Date
JPS61190657A true JPS61190657A (ja) 1986-08-25

Family

ID=12301808

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60030364A Pending JPS61190657A (ja) 1985-02-20 1985-02-20 日本語文字列認定方式

Country Status (1)

Country Link
JP (1) JPS61190657A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63136163A (ja) * 1986-11-26 1988-06-08 Nec Corp 中文入力自動区切方式
JPS63318667A (ja) * 1987-06-23 1988-12-27 Hitachi Ltd かな漢字変換装置
JPS6459457A (en) * 1987-08-31 1989-03-07 Toshiba Corp Dictionary referring device
JPH03129458A (ja) * 1989-07-03 1991-06-03 Ricoh Co Ltd 自然言語処理方式

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63136163A (ja) * 1986-11-26 1988-06-08 Nec Corp 中文入力自動区切方式
JPS63318667A (ja) * 1987-06-23 1988-12-27 Hitachi Ltd かな漢字変換装置
JPS6459457A (en) * 1987-08-31 1989-03-07 Toshiba Corp Dictionary referring device
JPH03129458A (ja) * 1989-07-03 1991-06-03 Ricoh Co Ltd 自然言語処理方式

Similar Documents

Publication Publication Date Title
US8117026B2 (en) String matching method and system using phonetic symbols and computer-readable recording medium storing computer program for executing the string matching method
TW448381B (en) Automatic segmentation of a text
JP5072415B2 (ja) 音声検索装置
JP5113750B2 (ja) 定義の抽出
US20070055493A1 (en) String matching method and system and computer-readable recording medium storing the string matching method
US11605373B2 (en) System and method for combining phonetic and automatic speech recognition search
US20080147381A1 (en) Compound word splitting for directory assistance services
JP2002149643A (ja) 日本語の表意文字の読み方を予測する方法
JPS61190657A (ja) 日本語文字列認定方式
Alghamdi et al. KACST Arabic diacritizer
JPS589968B2 (ja) カナ漢字変換装置
JP6538563B2 (ja) 入力支援装置、入力支援方法及びプログラム
JP2002503849A (ja) 漢字文における単語区分方法
CN112149429A (zh) 一种基于词槽序模型的高准确度语义理解识别方法
JP4511274B2 (ja) 音声データ検索装置
JP5057916B2 (ja) 固有表現抽出装置、その方法、プログラム及び記録媒体
JP2000105597A (ja) 音声認識誤り訂正装置
JP3329476B2 (ja) かな漢字変換装置
JPH11338863A (ja) 未知名詞および表記ゆれカタカナ語自動収集・認定装置、ならびにそのための処理手順を記録した記録媒体
JP3187671B2 (ja) 電子辞書表示装置
JP3048101B2 (ja) 形態素解析装置
JPS6386073A (ja) 日本語修飾関係解析装置
JP2001051992A (ja) 日本語統計データ作成装置および方法、並びにディクテーションシステム
JP2574741B2 (ja) 言語処理方法
JPH0350669A (ja) 情報処理装置