JPS6126172A - Kana/kanji conversion system - Google Patents

Kana/kanji conversion system

Info

Publication number
JPS6126172A
JPS6126172A JP14813084A JP14813084A JPS6126172A JP S6126172 A JPS6126172 A JP S6126172A JP 14813084 A JP14813084 A JP 14813084A JP 14813084 A JP14813084 A JP 14813084A JP S6126172 A JPS6126172 A JP S6126172A
Authority
JP
Japan
Prior art keywords
kana
word
dictionary
character string
kanji
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP14813084A
Other languages
Japanese (ja)
Inventor
Yutaka Ooyama
裕 大山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP14813084A priority Critical patent/JPS6126172A/en
Publication of JPS6126172A publication Critical patent/JPS6126172A/en
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

PURPOSE:To execute homophone selecting processing using a term dictionary efficiently and to reduce the volume of the word dictionary by registering terms to be described in each term information in a word dictionary and adopting only words having at least one homophone. CONSTITUTION:A ''kana'' (Japanese syllabary) character string inputted from a ''kana'' character string input means 2 is converted into a word network by an analysis means 4 on the basis of the retrieval of the word dictionary 3 and the inspection of grammatical connection and the word network is sent and stored to/in a network storing means 5. A ''kanji'' (Chinese character/''kana'' mixed character string output means 7 forms a ''kanji''/''kana'' mixed character string on the basis of the formed word network while referring to the term dictionary 6 and outputs the formed character string to a display output means 8. The term dictionary 6 is referred only when branching is generated because of the presence of homophones on the word network. Namely, words to be described in each word information are registered in the word directionary 6 and only words having at least one homophone are adopted. Thus, the homophone selecting processing using the term dictionary can be efficiently executed and the volume of the term dictionary 6 can be reduced.

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、カナ文字列を入力して漢字かな混じり文字列
を出力するカナ漢字変換方式に関するものである。
DETAILED DESCRIPTION OF THE INVENTION (Field of Industrial Application) The present invention relates to a kana-kanji conversion method that inputs a kana character string and outputs a character string containing kanji and kana.

(従来技術とその問題点) 近年、日本語入力方式の1つであるカナ漢字変換方式は
、日本語ワードプロセッサをはじめとする日本語入力情
報処理機器において広く取シ入れられている。
(Prior art and its problems) In recent years, the kana-kanji conversion method, which is one of the Japanese input methods, has been widely adopted in Japanese input information processing devices such as Japanese word processors.

カナ漢字変換において、1つのカナ文字列に対応する複
数個の漢字かな混じり文字列から所望のものを得る、い
わゆる同音語処理は非常に重要な要素の1つであシ、こ
れまでにも種々の提案が行なわれ、それらのうちのいく
つかけ実用化されている。このような同音語処理方式の
1つに用語情報の利用がある。これは、複合語や慣用的
表現などを予め用語辞書に登録しておき、同音語選択の
際に用語辞書内に登録されている複合語や慣用的表現の
優先度を上げる方式である。例えば用語辞書に第1図の
ように、「漢字」と「変換」、「領土」と「返還」に関
連があることを示す用語情報を記憶しておけば、rへん
かん」に対して「変換」と「返還」という同音語が生じ
ていても、「かんじへんかん」から「漢字変換」を得た
シ、「シようどをへんかんする」から「領土を返還する
」を得ることができる。なお、用語情報の利用に関する
資料としては、例えば情報処理学会論文誌Vol。
In kana-kanji conversion, so-called homophone processing, which obtains the desired result from a string of multiple kanji and kana characters corresponding to one kana string, is one of the very important elements, and various methods have been used to date. Several proposals have been made, and some of them have been put into practical use. One of such homophone processing methods is the use of terminology information. This is a method in which compound words and idiomatic expressions are registered in a term dictionary in advance, and when selecting homophones, the priority of the compound words and idiomatic expressions registered in the term dictionary is increased. For example, if you store terminology information in the terminology dictionary that shows that there is a relationship between ``kanji'' and ``conversion'' and ``territory'' and ``return'' as shown in Figure 1, then you can Even if the homonyms ``conversion'' and ``return'' occur, ``kanji conversion'' can be obtained from ``kanjihenkan,'' and ``return the territory'' can be obtained from ``shiyodo wo henkansuru.'' . In addition, as a document regarding the use of terminology information, for example, Information Processing Society of Japan Journal Vol.

2241rべた書き文の仮名漢字変換システムとその同
音語処理」や特開昭59−2125号「仮名漢字変換方
式」等が挙げられる。
Examples include ``2241r Kana-Kanji Conversion System for Solid Text and Its Homophone Processing'' and JP-A-59-2125 ``Kana-Kanji Conversion System''.

このようにカナ漢字変換における同音語選択処理におい
て有効な用語辞書は、通常一般文書からよく使用される
用例を抽出した後にこれを集計することによって作成さ
れる。この時、カナ漢字変換におけるカナ文字列解析に
使用する単語辞書内の語重に無関係に作成されるため、
たとえ用語として非常によく使われるものであっても、
それが単語辞書に登録されていない単語に関するもので
ある場合には、同音語選択処理で使われることは例えば
、用語辞書に「玉石」と「混循」が関連するという情報
が登録されていても、「ぎょくせきこんこう」なるカナ
文字列からカナ漢字変換の結果、「玉石」と「混渚」が
得られなければ、この用語情報は参照されない。また、
たとえ用語として非常によく使われるものでも、カナ漢
字変換の結果同音語が生じない場合にも、この用語情報
は使用されない。この例としては、「けんきゅうかいは
つ」→「研究」「開発」などがある。
In this way, a term dictionary that is effective in the homophone selection process in kana-kanji conversion is usually created by extracting frequently used examples from general documents and then tabulating them. At this time, it is created regardless of the word weight in the word dictionary used for kana character string analysis in kana-kanji conversion.
Even if the term is very commonly used,
If the word is related to a word that is not registered in the word dictionary, what is used in the homophone selection process is, for example, if the information that "tamaishi" and "mixed circulation" are related is registered in the word dictionary. However, if the kana-kanji conversion from the kana character string "gyokuseki konkou" does not result in "tamaishi" and "mixed water", this terminology information will not be referenced. Also,
Even if the term is very frequently used, this term information is not used even if no homophones are generated as a result of kana-kanji conversion. Examples of this include "Instruction" → "Research" and "Development".

このように、従来用いられていたような、単に日本語に
おける複合語や慣用的表現などの用語情報を記憶した用
語辞書は、カナ漢字変換における同音語選択処理に使用
する限)では、その内容に無駄な部分が多く、結果的に
記憶容量を大幅に増加させていた。
In this way, the terminology dictionary that has been used in the past, which simply stores terminology information such as compound words and idiomatic expressions in Japanese, cannot be used for homophone selection processing in kana-kanji conversion). This resulted in a large increase in memory capacity.

(発明の目的) 本発明の目的は、これまで述べたような従来技術の欠点
を除去し、カナ漢字変換の同音語選択処理に適した用語
辞書を有するカナ漢字変換方式を提供することにある。
(Object of the Invention) An object of the present invention is to eliminate the drawbacks of the prior art as described above and to provide a kana-kanji conversion method having a term dictionary suitable for homophone selection processing for kana-kanji conversion. .

(発明の構成) 本発明によれば、入力されたカナ文字列をもとに単語辞
書の検索と文法的な接続検定を繰)返しながら単語ネッ
トワークを作成するための解析手段と、日本語の複合語
や慣用的表現などで使用される語の組み合わせ等を記述
した用語情報を記憶する用語辞書と、該用語辞書の参照
により前記単語ネットワークから確からしい漢字かな混
じり文字列を形成し出力する漢字かな混じp文字列出力
手段を少なくとも備えたカナ漢字変換方式において、前
記用語情報を前記単語辞書内に存在する単語のみを対象
に構成するとともに、各々の前記用語情報は前記単語の
うちで同音語を有するものを少なくとも一つは含めるこ
とを特徴とするカナ漢字変換方式を得ることができる。
(Structure of the Invention) According to the present invention, there is provided an analysis means for creating a word network by repeatedly performing word dictionary searches and grammatical connection tests based on input kana character strings; A term dictionary that stores terminology information describing combinations of words used in compound words, idiomatic expressions, etc., and a kanji character string that forms and outputs a probable kanji-kana-mixed character string from the word network by referring to the term dictionary. In a kana-kanji conversion method that includes at least a means for outputting kana-mixed p character strings, the term information is configured only for words existing in the word dictionary, and each of the term information includes homophones among the words. It is possible to obtain a kana-kanji conversion method characterized by including at least one of the following.

(構成の詳細な説明) 本発明は、上記の構成をとることによシ、従来技術にお
ける欠点を除去した。まず、用語辞書に収めるべき用語
情報を、カナ漢字変換において使用する単語辞書内に存
在する単語のみを対象に構成することによシ、単語辞書
に登録されていない単語(すなわち、用語情報を用意し
ておいても絶対に参照されないもの)に関する用語情報
を用語辞書から除くことができる。さらに各々の用語情
報で関係が記述される単語群のうちに少なくとも1つは
同音語を有する単語を含ませる(いいかえれば、ある用
語情報において関係が記述される単語群がすべて同音語
を持たない場合には、この用語情報を用語辞書に置かな
い)ことにより、カナ漢字変換における単語辞書検索と
接続検定の時点で同音語が生じないために無駄になる用
語情報を用語辞書から除くことができ、結果的に9本当
に同音語選択処理で使用する可能性のある用語情報のみ
を収めた。記憶効率のよい用語辞書を備えることができ
る。
(Detailed Description of Configuration) The present invention eliminates the drawbacks of the prior art by adopting the above configuration. First, by configuring the terminology information to be stored in the terminology dictionary only for words that exist in the word dictionary used in kana-kanji conversion, it is possible to It is possible to remove from the term dictionary information on terms that are never referenced even if the term is used. Furthermore, at least one word that has a homophone is included in the word group whose relationship is described in each terminology information (in other words, all the word groups whose relationship is described in a certain terminology information do not have a homophone). By not placing this term information in the term dictionary, you can remove from the term dictionary the term information that is wasted because no homophones occur during the word dictionary search and connection test in kana-kanji conversion. As a result, only terminology information that could be used in the homophone selection process was included. A term dictionary with high storage efficiency can be provided.

(実施例) 以下本発明の実施例について図面全参照して詳細に説明
する。
(Embodiments) Hereinafter, embodiments of the present invention will be described in detail with reference to all the drawings.

第2図は、本発明の一実施例である。lは全体の制御を
行う制御手段であシ、2はキーボード等。
FIG. 2 is an embodiment of the present invention. 1 is a control means for overall control, 2 is a keyboard, etc.

カナ文字列を受は取って後述する解析手段に送るだめの
カナ文字列入力手段であシ、3はカナ漢字変換の際に必
要な単語の読み、漢字表記9品詞情報等を収めた単語辞
書であシ、4はカナ文字列入力手段2から送られるカナ
文字列をもとに、単語辞書3内の検索および文法的な接
続検定を繰り返しながら、後述する単語ネットワークを
作成するための解析手段であシ、5は解析手段4で作成
される単語ネットワークを記憶するためのネットワーク
記憶手段であシ、6は日本語の複合語や慣用的表現など
で使用される語の組み合わせ等を記述した用語情報の収
められた用語辞書であシ、7は用語辞書6内の用語情報
を参照することなどによシ、ネットワーク記憶手段5内
の単語ネットワーク上の確からしいと思われる枝をたど
シ、漢字かな混じり文字列を作成し出力する漢字かな混
じ9文字列出力手段であシ、8はCRTなど、得られた
漢字かな混じり文字列を表示出力するための表示出力手
段である。また、第3図は単語辞書3の記憶状況を概念
的に示した図である。また、第4図は、従来用いられて
込た用語辞書の記憶状況を概念的に示した図であ)、第
5図は第4図の用語辞書を作成するだめに使用された用
語用例をもとに、第3図で示した単語辞書3の例を使用
する場合の用語辞書6の記憶状況を概念的に示した図で
ある。第4図と第5図を比べるとわかるように、第4図
内に存在する「北方−領土」、「両度−遠征」が第5図
には存在しない。これは、「北方」と「領土」がともに
第3図において同音語を持たない用語であシ、また「両
度」が第3図に存在しないために第5図に示す用語情報
として採用されないからである。
This is a kana character string input means that takes the kana character string and sends it to the analysis means described later. 3 is a word dictionary that contains the pronunciation of words, kanji notation, 9 parts of speech information, etc. required for kana-kanji conversion. 4 is an analysis means for creating a word network to be described later while repeating searches in the word dictionary 3 and grammatical connection tests based on the kana character string sent from the kana character string input means 2. 5 is a network storage means for storing the word network created by the analysis means 4, and 6 is a network storage means for storing word networks used in Japanese compound words and idiomatic expressions. 7 is a term dictionary that stores terminology information, and 7 is a terminology dictionary that stores terminology information, and 7 is a terminology dictionary that traces likely branches on the word network in the network storage means 5 by referring to the terminology information in the terminology dictionary 6. , is a kanji/kana mixed 9 character string output means for creating and outputting a kanji/kana mixed character string, and 8 is a display output means, such as a CRT, for displaying and outputting the obtained kanji/kana mixed character string. Further, FIG. 3 is a diagram conceptually showing the storage status of the word dictionary 3. Furthermore, Fig. 4 is a diagram conceptually showing the storage status of the terminology dictionary that has been used in the past), and Fig. 5 shows examples of terminology used to create the terminology dictionary shown in Fig. 4. 4 is a diagram conceptually showing the storage status of the term dictionary 6 when the example of the word dictionary 3 shown in FIG. 3 is used. As can be seen by comparing Figures 4 and 5, "Northern Territory" and "Ryodo - Expedition" which exist in Figure 4 do not exist in Figure 5. This is because "northern" and "territory" are both terms that do not have homophones in Figure 3, and "Ryodo" does not exist in Figure 3, so it is not adopted as the terminology information shown in Figure 5. It is from.

ここでカナ文字列「はっほうシようどへんかん」が入力
された場合の本実施例における処理手順を示す。まず、
カナ文字列入力手段2よシ入カされたカナ文字列は、解
析手段4において、単語辞書3の検索と文法的な接続検
定にょシ単語ネットワークに変換され、ネットワーク記
憶手段5に送られる。単語ネットワークは5日本語の文
章を文法的に接続可能な単語の、連続としてとらえネッ
トワーク構造化したものである。「はっぽうシようどへ
んかん」から作成される単語ネットワークの例を第6図
に示す。第3図の例を用いた場合、ネ。
Here, the processing procedure in this embodiment when the kana character string "Happoshiyoudohenkan" is input will be described. first,
The kana character string inputted by the kana character string input means 2 is converted into a word network by searching the word dictionary 3 and testing grammatical connections in the analysis means 4, and is sent to the network storage means 5. The word network is a network structure that views five Japanese sentences as a series of words that can be connected grammatically. Figure 6 shows an example of a word network created from "Happoshi Yodo Henkan". When using the example in Figure 3,

トワーク上破線で示される「両度」についてのノードは
、「両度」が辞書に登録されていないため作成されず、
結果として、実線で結ばれたネットワークがネットワー
ク記憶手段5に記憶される。
The node for "Ryodo" indicated by a broken line on the network is not created because "Ryodo" is not registered in the dictionary.
As a result, a network connected by solid lines is stored in the network storage means 5.

漢字かな混じし文字列出力手段7は、作成された単語ネ
ットワークをもとに、用語辞書6を参照しながら漢字か
な混じり文字列を作成し、表示出力手段8に出力する。
The kanji/kana mixed character string output means 7 creates a kanji/kana mixed character string based on the created word network while referring to the term dictionary 6, and outputs it to the display output means 8.

第5図の例には、「領土−返還」の関係が記述されてい
るため、第6図に示す単語ネットワーク内の「変換」と
「返還」の分岐部では「返還」が採用され、最終的に「
北方領土返還」が得られる。
In the example in Figure 5, the relationship "territory-return" is described, so "return" is adopted at the branch of "conversion" and "return" in the word network shown in Figure 6, and the final word is "return."'
The return of the Northern Territories will be obtained.

解析手段4と漢字かな混じり文字列出力手段7の処理手
順例をそれぞれ第7図と第8図に示すが、これは、カナ
漢字変換入力の日本語ワードプロセッサ等において実用
化されている内部処理手順と、本質的に同じものである
Examples of the processing procedures of the analysis means 4 and the kanji-kana mixed character string output means 7 are shown in FIGS. 7 and 8, respectively, and these are internal processing procedures that have been put to practical use in Japanese word processors that input kana-kanji conversion input. are essentially the same thing.

上記の例で示したように、用語辞書6を参照するのは単
語ネットワーク上で同音語の存在のため分岐が生じる場
合のみであるため、第5図の例のように、各用語情報の
記述対象となる単語を。
As shown in the example above, the term dictionary 6 is referred to only when a branch occurs due to the presence of a homophone on the word network. the target word.

「すべて単語辞書に登録されているものであシ。``All of them are registered in the word dictionary.

かつ少なくとも1つは同音語を持つもの」に限定するこ
とができる。
and at least one of which has a homophone.

(発明の効果) 以上述べたように、本発明を用いると、カナ漢字変換方
式における用語辞書の容量を減少させることができる。
(Effects of the Invention) As described above, by using the present invention, the capacity of the term dictionary in the kana-kanji conversion method can be reduced.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は用語辞書内の用語情報の芙現例を示す構成図、
第2図は本発明の一実施例を説明するためのブロック図
、第3図は単語辞書の記憶状況を概念的に示した図、第
4図は従来よシ使用されていた用語辞書の記憶状況を概
念的に示した図、第5図は本発明に作成された用語辞書
の記憶状況を概念的に示しだ図、第6図は単語ネットワ
ークの一実施例を示す構成図、第7図は解析手段4の処
理手順の一例を示しだフローチャート図、第8図は漢字
かな混じり文字列出力手段7の処理手順の一例を示した
フローチャート図である。 図において、 1・・・制御手段、   2・・・カナ文字列入力手段
。 3・・・単語辞書、   4・・・解析手段。 5・・ネットワーク記憶手段。 6・・・用語辞書。 7ト・・漢字かな混じり文字列出力手段。 8・・表示出力手段。 第1図 第3図 第″′7図 第6図
Figure 1 is a configuration diagram showing an example of term information in a term dictionary;
Fig. 2 is a block diagram for explaining one embodiment of the present invention, Fig. 3 is a diagram conceptually showing the storage status of a word dictionary, and Fig. 4 is a storage diagram of a term dictionary conventionally used. FIG. 5 is a diagram conceptually showing the storage situation of the term dictionary created in the present invention. FIG. 6 is a configuration diagram showing an example of a word network. FIG. 7 8 is a flowchart showing an example of the processing procedure of the analysis means 4, and FIG. 8 is a flowchart showing an example of the processing procedure of the character string outputting means 7 containing Kanji and kana. In the figure, 1... control means, 2... kana character string input means. 3... Word dictionary, 4... Analysis means. 5. Network storage means. 6...Term dictionary. 7. A means of outputting character strings containing kanji and kana. 8.Display output means. Figure 1 Figure 3 Figure '''7 Figure 6

Claims (1)

【特許請求の範囲】[Claims] 入力されたカナ文字列をもとに単語辞書の検索と文法的
な接続検定を繰り返しながら単語ネットワークを作成す
るための解析手段と、日本語の複合語や慣用的表現など
で使用される語の組み合わせ等を記述した用語情報を記
憶する用語辞書と、該用語辞書の参照により前記単語ネ
ットワークから確からしい漢字かな混じり文字列を形成
し出力する漢字かな混じり文字列出力手段を少なくとも
備えたカナ漢字変換方式において、前記用語情報を前記
単語辞書内に存在する単語のみを対象に構成するととも
に、各々の前記用語情報は前記単語のうちで同音語を有
するものを少なくとも一つは含めることを特徴とするカ
ナ漢字変換方式。
An analysis method that creates a word network by repeatedly searching word dictionaries and grammatical connection tests based on the input kana character string, and an analysis method for words used in Japanese compound words and idiomatic expressions. Kana-Kanji conversion comprising at least a term dictionary that stores terminology information describing combinations, etc., and a means for outputting a string of characters mixed with Kanji and Kana, which forms and outputs a string of characters mixed with Kanji and Kana from the word network by referring to the term dictionary. In the method, the terminology information is composed only of words existing in the word dictionary, and each terminology information includes at least one of the words that has a homophone. Kana-kanji conversion method.
JP14813084A 1984-07-17 1984-07-17 Kana/kanji conversion system Pending JPS6126172A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP14813084A JPS6126172A (en) 1984-07-17 1984-07-17 Kana/kanji conversion system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP14813084A JPS6126172A (en) 1984-07-17 1984-07-17 Kana/kanji conversion system

Publications (1)

Publication Number Publication Date
JPS6126172A true JPS6126172A (en) 1986-02-05

Family

ID=15445927

Family Applications (1)

Application Number Title Priority Date Filing Date
JP14813084A Pending JPS6126172A (en) 1984-07-17 1984-07-17 Kana/kanji conversion system

Country Status (1)

Country Link
JP (1) JPS6126172A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62209666A (en) * 1986-03-10 1987-09-14 Fujitsu Ltd Word processor
JPS62226270A (en) * 1986-03-27 1987-10-05 Seiko Epson Corp Sentence preparing device
JPS6398068A (en) * 1986-10-13 1988-04-28 Nippon Telegr & Teleph Corp <Ntt> Japanese word processor

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62209666A (en) * 1986-03-10 1987-09-14 Fujitsu Ltd Word processor
JPS62226270A (en) * 1986-03-27 1987-10-05 Seiko Epson Corp Sentence preparing device
JPS6398068A (en) * 1986-10-13 1988-04-28 Nippon Telegr & Teleph Corp <Ntt> Japanese word processor

Similar Documents

Publication Publication Date Title
JPH0351020B2 (en)
JPS6231467A (en) Sentence preparation device
JPH0689302A (en) Dictionary memory
US5084817A (en) System for translating a language having polite expressions
JPS6175957A (en) Mechanical translation processor
JPS6126172A (en) Kana/kanji conversion system
JP2828692B2 (en) Information retrieval device
JP2807236B2 (en) Morphological analysis method
JPS63221475A (en) Analyzing method for syntax
JPH05165889A (en) Document retrieval device
Johnson The role of the digital computer in mechanical translation of languages
JPH08339365A (en) Method and device for documentation
JP2744430B2 (en) Natural language processor
JPS59197929A (en) Device for processing &#34;kana&#34;-&#34;kanji&#34; conversion
JPS59116835A (en) Japanese input device with input abbreviating function
JPS60112175A (en) Abbreviation conversion system of kana (japanese syllabary)/kanji (chinese character) convertor
JPS62113266A (en) Japanese document input device
JPS6395570A (en) Language analysis system
JPS61286969A (en) Japanese sentence information retrieving system
JPH041849A (en) Japanese sentence processor
JPH07282046A (en) Kana-kanji conversion method
JPH03111965A (en) Kana/kanji converter
JPS60112174A (en) Abbreviation conversion system of kana (japanese syllabary)/kanji (chinese character) convertor
JPH04223550A (en) Japanese word processor
JPH04326160A (en) Morpheme analyzing system