JPS6321226B2 - - Google Patents

Info

Publication number
JPS6321226B2
JPS6321226B2 JP54148905A JP14890579A JPS6321226B2 JP S6321226 B2 JPS6321226 B2 JP S6321226B2 JP 54148905 A JP54148905 A JP 54148905A JP 14890579 A JP14890579 A JP 14890579A JP S6321226 B2 JPS6321226 B2 JP S6321226B2
Authority
JP
Japan
Prior art keywords
kanji
kana
code
hiragana
code string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP54148905A
Other languages
English (en)
Other versions
JPS5672767A (en
Inventor
Akio Komatsu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP14890579A priority Critical patent/JPS5672767A/ja
Publication of JPS5672767A publication Critical patent/JPS5672767A/ja
Publication of JPS6321226B2 publication Critical patent/JPS6321226B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】 この発明は、日本文の作成作業に用いられる和
文ワードプロセツサの方式に関する。とくに、か
な文字で一気に入力された日本文テキストの中か
ら、漢字に変換すべき部分を自動的に見出してこ
れを漢字に自動的に置換し、漢字まじりかな文と
して構成する方式に関するものである。
従来のワードプロセツサ技術では、漢字らしき
部分をかな文中から自動的に発見することは至難
とされ、わずかに、人間が漢字だと指定したかな
部分を自動的に漢字に変換する方式のみが知られ
ているに過ぎなかつた。
本発明の目的は、この現状を打破し、自動的に
漢字らしきかな部分を発見する方式を提供するこ
とにより、極めて効果的な和文ワードプロセツサ
を実現しようとすることにある。
そのため、本発明では、入力されたかな文を解
析して句点、読点、又は漢字の読みがなになり得
ないかなのいずれかを示す複数の文字コードを検
出する手段と、このようにして検出された文字コ
ードの位置でもつて、入力された文字コード列を
部分コード列に分け、各部分コード列にかな漢字
変換処理を実施する手段を設けた。これにより、
かな漢字変換処理を限られた長さの文字列ごとに
行えるので、かな漢字変換の自動化が容易にな
る。さらに、本発明の望ましい態様では、かなを
複数の種類ののグループに分類し、その組合わせ
から漢字らしき部分を発見しようとする。日本文
では2字の漢字から成る熟語が多用されているの
で、本方式は、とくに2字漢字の熟語が自動的に
発見できるように工夫された。
以下本発明を実施例によつて詳細に説明する。
第1図は、本発明の方式が応用できる和文ワー
ドプロセツサの基本的な構成を示したブロツク図
である。1はキーボード、2はデイスプレイ装置
であり、操作者はデイスプレイ装置2に表示され
る結果を見ながらキーボード1で日本文を入力す
る。キーボード1はたとえばかなキーボードであ
る。入力されたかなは、たとえばマイクロコンピ
ユータで代表されるような制御回路3の制御のも
とでかなコードとしてテキストメモリ4に格納さ
れる。ここで便宜上メモリを3つの独立したメモ
リすなわちテキストメモリ4、作業メモリ5、プ
ログラムメモリ6に分けてあるが、これは同一メ
モリの異なつた領域であつてもよい。プログラム
メモリ6には通常、制御回路3が実行すべき処理
の手順が書込まれており、制御回路3はプログラ
ムメモリ6を参照しつつ各種の処理が実行できる
ようになつている。テキストメモリ4に入力され
たかなコードは、パターン発生器7によつてデコ
ードされ、パターン発生器7はパターンメモリ8
に記憶された文字パターンを選択してデイスプレ
イ装置2に送る。これによつてテキストメモリ4
のテキスト内容がデイスプレイ装置2に表示され
る。また完成したテキストは通常プリンタ9に出
力できるようにも構成される。
本実施例では、キーボード1にあるいくつかの
キー10のうちの1つ10′を、自動かな漢字変
換用に割当てる。すなわちこのキー10′を押す
と、制御回路3がプログラムメモリ6に記憶され
た特定の制御情報を読み出し、テキストメモリ4
の内容に対し、作業メモリ5を補助として使いな
がら、加工を加えていく。その結果、テキストメ
モリ4の内容は当初かなコードだけであつたもの
が、漢字コードを含む情報へと変換される。すな
わちかな文が漢字まじりかな文へと変換されるこ
とになる。
入力されたかな文全体を一度にかな漢字変換す
るときに必要な処理より簡単な処理で入力された
かな文をかな漢字交り文に変換できるように、入
力されたかな文をどのように、区切るかが、本発
明の主眼であり、以下にその詳細を説明する。な
おこの方式は、制御回路3の実行すべき手順とし
て、通常、プログラムメモリ6に格納されるもの
であるが、勿論、専用のハードウエアとしても実
現できる。
第2図は本実施例による自動かな漢字変換方式
の処理の流れを示す図である。第2図の処理の対
象となるものは、第3図aに例示するようなテキ
ストであり、たとえば半導体メモリで構成された
テキストメモリ4の上に、数値に対応させて記憶
された情報である。この数値はいわゆるかなコー
ドと呼ばれるもので、かなと一対一の対応を持つ
ている。コードはJIS C6226に規定されたものが
利用でき、たとえば一つのかなを2バイトとし
て、上位バイトに区番号、下位バイトに点番号を
記憶すればよい。たとえば第3図で区が4、点が
17のコードは、JIS C6226によれば、ひらがな
「け」に対応している。
このメモリ上を順次アクセスしてその内容を調
べることは、従来の制御回路とりわけマイクロコ
ンピユータのような電子回路にとつて極めて容易
な技術である。本実施例では、このメモリ4上の
テキストを順次走査し、第2図に示したように
「かなの分類」処理をまず行なう。この分類した
結果は、たとえば第3図bに示すように、作業メ
モリ5に書き込まれる。この実施例では、既に変
換されたもの(漢字)、変換される必要のないも
の(英数字、記号、句読点、カタカナ)、漢字に
はなり得ないもの(ひらがなの「を」)について
は分類結果として数値0を割当て、下記の除く通
常のひらがなに対しては分類結果として数値1
を、特別のひらがな「い」,「う」,「き」,「く」,
「つ」,「つ」(小文字)、「ん」には分類結果として
数値2を、またさらにもう一群の特別なひらがな
「や」(小文字)、「ゆ」(小文字)、「よ」(小文字

に対しては分類結果として数値3を割当てるもの
とした。このようにすれば、テキストは0,1,
2,3の4種の数値からなる符号列として表現さ
れたことになる。
こうして、入力されたかな文字列に対する文字
コード列は、符号0の文字コードでもつて、複数
の部分コード列に分けられ、以下に述べるように
かな漢字変換処理を各部分コード列ごとに行うこ
とができる。
本実施例の次のステツプは、第2図に示したよ
うに、「特殊かな列の削除」である。このステツ
プは省略することもできるが、誤つた変換を避け
るためには効果的な方法である。このステツプで
は、先に「を」を分類0としたのと同様の意味か
ら、こんどは2個以上のかな列で絶対に漢字にな
り得ない組合わせを探索して、分類結果を0とし
てしまう処理である。そのためにもとのテキスト
(第3図a)が参照され、分類結果(第3図b)
が修正を受ける。実際には、「まで」、「また」、
「まず」、「まだ」、「で、」、「は、」、「の、」、
「と、」、
「ます。」、「ので、」、「には、」などというかな(

よび句読点)の組合わせが探索され、その対応す
る分類が第3図cのように修正される。第3図c
は第3図bと比べて「は、」に相当する所が10か
ら00へと変化している。この探索と修正は、従来
の制御回路で容易に実行可能である。
本実施例の次のステツプは、第2図に示すごと
く「特殊符号連鎖の発見」処理である。ここで
は、修正された分類結果を格納している作業メモ
リ5を順次走査して、特殊な符号連鎖を発見す
る。この処理は、前述のように符号0で分断され
た部分コード列ごとに行なわれる。その第1は、
たとえば符号連鎖132232の発見である。これは
「逆境」というような熟語に相当し、二つの漢字
とも拗音を含む場合である。符号連鎖132132もま
た同様に拗音を含み、「了承」などの熟語がこれ
に相当する。このように、拗音を共に含む読みは
もつとも熟語らしいので、これを第一の優先度で
発見するのが現実的に最も好ましい。次いで符号
連鎖13213,13223,13132,12232,12132,13212
などの発見を行なう。これは熟語「照射」、「消
去」、「書状」、「研究」、「検証」、「商売」などに

当する5つの符号からなる符号連鎖であり、最終
の三つの連鎖は二つの漢字のうちの一つが拗音で
終了するような熟語である。この「照射」に相当
する符号連鎖13213は、先に述べた「了承」に相
当する符号連鎖132132の部分集合となつているの
で、先に数の小さい方の連鎖13213を見付けて相
当する熟語がたまたま存在すると、本当にほしい
数の大きい方の連鎖132132に対する熟語が見付け
にくい。したがつて常に数の大きな連鎖の順に漢
字部分を発見するのが一般に好ましい方法とな
る。さらに、次いで4つの符号からなる連鎖
1212,2212,1312などの発見を行なう。これらは
たとえば熟語「目的」、「通信」、「写真」などに
夫々相当する。以上説明した6,5,4個の符号
からなる連鎖の発見はマイクロコンピユータのよ
うな制御回路3にとつては極めて簡単な仕事であ
り、容易に実現できる。この処理は、すでに述べ
た修正後の分類結果(第3図c)に対して行なわ
れ、その結果発見された個所の符号にフラグ情報
をつける。このフラグ情報付けは、たとえば第3
図dのように、作業メモリの対応する個所の上位
バイトに数値1を書込むことによつて達成され
る。一般的には、対応するメモリ位置のいずれか
のビツトに1を書込むのがより一般的な方法であ
る。
本実施例の次のステツプは、第2図に示したよ
うに「辞書索引」の処理である。この処理では、
作業メモリの中から、今までの処理でフラグのつ
いた部分を再度走査し、それに相当するもとのか
な文字情報を拾い出して、そのかな文字から熟語
辞書を索引する。第3図dの例では、フラグ1の
たつた部分「けんきゆう」と、「もくてき」が拾
い出され、熟語辞書が索引される。熟語辞書はた
とえば/せいしつ/性質/つうしん/通信/……
というように、読みとその熟語を羅列して構成で
き、実際のメモリ上にはたとえば読みがあいうえ
お順に、読みのかなコードと熟語の漢字コードが
交互に配列されている。日本語では一つの読みに
対して二つ以上の熟語が対応する場合もあるの
で、辞書索引の処理ではそのうちのどれであるか
を何らかの形で判断して一つを選択すればよい。
文章の意味処理を持ち出すまでもなく、もつとも
簡便な一つの方法は、先に発見されたものを選択
することである。この場合、よみが完全マツチン
グしたときに次の記憶されている漢字コードを2
つ抽出すればよい。
さて、このようにして辞書を探索して相当する
漢字コードが発見されると、この漢字コードをも
とのかなコードと置換する。これが第2図の「テ
キスト置換」処理である。読みの字数の方が熟語
の漢字字数よりも通常は大きいので、置換によつ
てあまるスペースには通常空白記号(Null記号
たとえば上位バイト0、下位バイト0)を挿入す
る。ついで第2図の「テキスト整備処理」でこの
空白記号をみつけてそれを削除し、テキストを一
つづつ詰めていく処理を行ない、完全な漢字まじ
りかな文字へと変換する。
以上に述べた本実施例の方式では、すでに部分
的に漢字に変換された文章を対象としてもコード
として数値0が与えられるだけで何ら支障はない
ので、上述の諸処理を第4図に示すような逐次型
とし、1種ないし数種の特殊連鎖を発見したあと
すぐに辞書索引、テキスト置換を行ない、次いで
別の1種ないし数種の特殊連鎖を発見して辞書索
引、テキスト置換を行ない、というようにするこ
ともできる。この方式では、もつとも確からしい
ところから順次熟語に変換できるので、より確実
な変換ができる。またこのことと全く等価なこと
が、フラグの数をふやすことによつても実行でき
る。すなわち、たとえば132132という連鎖のフラ
グと、1212という連鎖のフラグとは別のビツト位
置に記憶し、そのフラグ位置を判断して優先順位
に従つて熟語に変換していくことがある。このよ
うに、順次熟語に変換していく方法だと、一たん
みつかつた場所がどんどん除外されていくので、
たとえば「文化」、「成果」など3字読みの熟語の
変換もかなりの確率でできるようになる。また、
本実施例の方式で自動変換した結果、いくつかが
間違つて変換されることもあり得るが、それを簡
単に修正する別の手段が容易に講じられるので問
題はなく、むしろ一気に自動的に変換されること
の方が効果は大きく、ワードプロセツサとして実
際に構築し実用した結果から本実施例が日本文の
作成に極めて有効であることが実証された。
本実施例を最も効果的ならしめた特徴的な部分
は、ひらがな「い」,「う」,「き」,「く」,「つ」

「つ」(小文字)、「ん」を一つの群に、ひらがな
「や」(小文字)、「ゆ」(小文字)、「よ」(小文字

を別の群へと分類したことにある。このようにす
ると、極めて少ないいくつかの例外を除き、熟語
となりうる漢字のすべての音読み効果的に抽出で
きる。またさらに、この前者の群「い」,「う」,
「き」,「く」,「つ」,「つ」(小文字)、「ん」に
さら
にひらがな「ち」を加えたものを一つの群とすれ
ば、ほとんど例外なく漢字の音読みをすべて抽出
できるという効果があることもわかつた。
以上説明したごとく、本実施例では、従来、文
章の意味解析しないと無理とされていた自動かな
漢字変換が、単にひらがなの分類と、その中から
特殊な連鎖を発見するという簡単な処理で実現で
きることになり、マイクロコンピユータを基本と
した卓上型和文ワードプロセツサのような小規模
装置でも、自動かな漢字変換機能が実装可能とな
つた。しかも手法が簡単なだけに処理が極めて早
く、操作者にとつては、自動かな漢字変換キー1
0′を押したら瞬間的にすぐ漢字まじり文へと変
換されて表示されることとなり、極めて効果的な
機能として実現できた。
以上のごとく、本発明によれば、入力されたか
な文を複数の、小さな文字列に分けて、それぞれ
ごとに、かな漢字変換ができるので、全体のかな
漢字変換の自動化が容易となる。
【図面の簡単な説明】
第1図は、本発明の自動かな漢字変換方式の第
1の実施例が応用できる和文ワードプロセツサの
基本的な構成を示したブロツク図であり、1はキ
ーボード、2はデイスプレイ装置、3は制御回
路、4はテキストメモリ、5は作業メモリ、6は
プログラムメモリ、7はパターン発生器、8はパ
ターンメモリである。第2図は本発明による自動
かな漢字変換方式の第1の実施例処理の流れを示
す図、第3図は本発明の自動かな漢字変換方式の
第1の実施例での処理の様子を説明するために、
メモリ上の情報が変化する様子を示した図、第4
図は本発明の自動かな漢字変換方式の他の実施例
での処理の流れを示す図である。

Claims (1)

  1. 【特許請求の範囲】 1 句読点を含み、ひらかな漢字まじりの文を各
    ひらかな、句点、読点をそれぞれ示す複数文字コ
    ードと漢字の読みがなを示す複数の文字コードの
    列として入力する第1の手段と、入力された文字
    コード列から、それぞれが句点、読点および漢字
    の読みがなになりえないかなのいずれかをそれぞ
    れ示す複数の文字コードを検出する第2の手段
    と、検出された複数の文字コードの位置でもつ
    て、入力された文字コード列を部分文字コード列
    に分け、各部分文字コード列に対して、かな漢字
    まじり文への変換処理を実施する第3の手段とを
    有する自動かな漢字変換方式。 2 特許請求の範囲第1項記載の方式において、
    該第1の手段は入力された各文字コードに対応す
    るひらがなが、あらかじめ定めた複数のひらがな
    分類のいずれに属するかを示す符号を各符号コー
    ドにつける第4の手段を有し、該第3の手段は、
    各部分文字コード列に対する符号列から、漢字の
    読みがなに対する符号列としてあらかじめ定めら
    れた複数の符号列のいずれかと一致する特定の符
    号列を検出し、一致が検出された特定の符号列に
    対する文字コード列でもつてあらかじめ用意され
    たかな漢字変換用辞書を索引することにより、該
    特定の符号列に対する文字コード列を漢字に変換
    する第5の手段を有する和字ワードプロセツサに
    おける自動かな漢字変換方式。 3 特許請求の範囲第2項記載の方式において、
    該第4の手段は、ひらがな以外のものを第1の群
    に、ひらがな「い」,「う」,「き」,「く」,「つ」

    「つ」(小文字)、「ん」を第2の群に、ひらがな
    「や」(小文字)、「ゆ」(小文字)、「よ」(小文字

    を第3の群に、上記以外のひらがなを第4の群に
    なるよう分類し符号をつけるものであることを特
    徴とする和文ワードプロセツサにおける自動かな
    漢字変換方式。 4 特許請求の範囲第3項記載の方式において、
    該第4の手段は、ひらがな「い」,「う」,「き」,
    「く」,「つ」,「つ」(小文字)、「ん」以外にひら

    な「ち」も第2の群に属するように符号をつける
    ものであることを特徴とする和文ワードプロセツ
    サにおける自動かな漢字変換方式。 5 特許請求の範囲第3項記載の方式において、
    該第5の手段は、同一符号列に複数の特定の符号
    列を検出した場合、上記第3の群を多く含む特定
    の符号列から順番に対応する文字コードでもつて
    該辞書を索引するものであることを特徴とする和
    文ワードプロセツサにおける自動かな漢字変換方
    式。
JP14890579A 1979-11-19 1979-11-19 Automatic "kana" (japanese syllabary)-to-"kanji" (chinese character) conversion system of japanese word processor Granted JPS5672767A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP14890579A JPS5672767A (en) 1979-11-19 1979-11-19 Automatic "kana" (japanese syllabary)-to-"kanji" (chinese character) conversion system of japanese word processor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP14890579A JPS5672767A (en) 1979-11-19 1979-11-19 Automatic "kana" (japanese syllabary)-to-"kanji" (chinese character) conversion system of japanese word processor

Publications (2)

Publication Number Publication Date
JPS5672767A JPS5672767A (en) 1981-06-17
JPS6321226B2 true JPS6321226B2 (ja) 1988-05-06

Family

ID=15463284

Family Applications (1)

Application Number Title Priority Date Filing Date
JP14890579A Granted JPS5672767A (en) 1979-11-19 1979-11-19 Automatic "kana" (japanese syllabary)-to-"kanji" (chinese character) conversion system of japanese word processor

Country Status (1)

Country Link
JP (1) JPS5672767A (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS52132631A (en) * 1976-04-30 1977-11-07 Toshiba Corp Divisional write input unit
JPS54139356A (en) * 1978-04-21 1979-10-29 Toshiba Corp Kana-chinese character converter

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS52132631A (en) * 1976-04-30 1977-11-07 Toshiba Corp Divisional write input unit
JPS54139356A (en) * 1978-04-21 1979-10-29 Toshiba Corp Kana-chinese character converter

Also Published As

Publication number Publication date
JPS5672767A (en) 1981-06-17

Similar Documents

Publication Publication Date Title
EP0686286B1 (en) Text input transliteration system
JPH09259125A (ja) 文書作成支援システム及び用語辞書
US5384702A (en) Method for self-correction of grammar in machine translation
US5047932A (en) Method for coding the input of Chinese characters from a keyboard according to the first phonetic symbols and tones thereof
US5621641A (en) Computer assisted text system
KR20010088892A (ko) 한자입력장치 및 방법
JPS6321226B2 (ja)
JPH09153034A (ja) 文書作成装置及び文書作成方法
JPS63316162A (ja) 文書作成装置
JPS58168180A (ja) 情報検索装置
JP3387421B2 (ja) 単語入力支援装置及び単語入力支援方法
JP2939945B2 (ja) ローマ字住所認識装置
JPH0785040A (ja) 表記不統一検出方法およびかな漢字変換方法
JPH01293463A (ja) 文字処理装置
JPS6175467A (ja) 仮名漢字変換方式
KR880000990B1 (ko) 한글의 모아쓰기 자동처리방법
JPS62209667A (ja) 文章作成装置
JPS6120176A (ja) ロ−マ字−中国語変換装置
JP2002351868A (ja) 電子辞書
JPS6029823A (ja) 適応型記号列変換方式
JPH0521264B2 (ja)
JPH0484360A (ja) 文章検査装置
JPH05346917A (ja) 日本語入力装置
JPH0391062A (ja) 文書作成装置
JPH07191992A (ja) 文字処理装置