JPS6118066A - Word extracting system - Google Patents

Word extracting system

Info

Publication number
JPS6118066A
JPS6118066A JP59139666A JP13966684A JPS6118066A JP S6118066 A JPS6118066 A JP S6118066A JP 59139666 A JP59139666 A JP 59139666A JP 13966684 A JP13966684 A JP 13966684A JP S6118066 A JPS6118066 A JP S6118066A
Authority
JP
Japan
Prior art keywords
kanji
kana
sound
word
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59139666A
Other languages
Japanese (ja)
Inventor
Yasuyuki Numata
泰之 沼田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP59139666A priority Critical patent/JPS6118066A/en
Publication of JPS6118066A publication Critical patent/JPS6118066A/en
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE:To minimize the number of character strings to be retrieved in a dictionary retrieval mode and to increase the word extracting speed, by providing input character strings, an attribute deciding part for head KANJI (Chinese characters) sound, character strings to be retrieved, etc. CONSTITUTION:The KANA (Japanese syllabary) character strings corresponding to a Japanese word sentence supplied from a KANA character input part 1 of a word extracting system are stored temporarily to an input character string memory 2. A dividing part 3 for KANJI refers to a KANJI sound table 4 to divide KANJI and KANA in each minimum unit. While an attribute deciding part 5 for input character strings decides the attribute based on the arrangement of KANJI sounds and KANA characters. An attribute deciding part 6 for head KANJI sound decides the attribute of the KANJI sound based on whether an independent word having the same reading as the head KANJI sound exists or not. A deciding part 7 for character string to be retrieved sets the minimum number of character strings to be retrieved based on the information on decisions of both parts 5 and 6. The character strings to be retrieved are added to a dictionary retrieving part 8, and a word dictionary 9 is retrieved to store words to a candidate word memory part 10. This increases the word extracting speed.

Description

【発明の詳細な説明】 技術分野 本発明は、カナ漢字変換処理装管に関し、より詳細には
日本語文書作成装管、電子計算機システム等に適用し得
るカナ漢字変換処理装置におけるtK4FJ抽出方式に
関する。
DETAILED DESCRIPTION OF THE INVENTION Technical Field The present invention relates to a kana-kanji conversion processing device, and more particularly to a tK4FJ extraction method in a kana-kanji conversion processing device that can be applied to a Japanese document creation device, a computer system, etc. .

従来技術 カナ漢字変換処理装置では、表音文字Cひら仮名、カッ
仮名。ローマ文字)で入力された文章を適切な漢字カナ
混じり文に変換するため、カナ漢字変換用の単語辞書を
設けている。この単語辞書の検索は、入力されたカナ文
字列からQt語を切出して被検索文字列どし、被検索文
字列と111語辞書中の見出し文字列とのマツチングを
行うことにより行う。しかし、日本語は文法がiff 
Klで、かつ同音異義語が多数存在するため、辞書検索
により複数の候補711語が抽出さJしる。
The conventional kana-kanji conversion processing device uses phonetic characters C hiragana and kakkana. A word dictionary for kana-kanji conversion is provided in order to convert sentences entered in Roman letters) into appropriate sentences containing kanji and kana. This word dictionary search is performed by cutting out the Qt word from the input kana character string, creating the searched character string, and matching the searched character string with the index character string in the 111-word dictionary. However, Japanese grammar is wrong.
Since K1 has many homophones, a dictionary search extracts a plurality of 711 candidate words.

この複数の候補歌語の中から1つを選択し変換結果とす
るために、従来、次のような処理を行っている。すなわ
ち、抽出された候補嘔語のそれぞJしに対し、前の変換
済単語(変換結果)との接続の可能性を判断し、さらに
接続可能な候補中4語を読み長、出現!tri Iff
 、接続の屯み等右・パラメータとして評価し、評価の
最も高い候補fit語を変換結果として出力する。
In order to select one of the plurality of candidate song words and use it as a conversion result, the following processing has conventionally been performed. That is, for each of the extracted candidate words, the possibility of connection with the previous converted word (conversion result) is determined, and 4 of the possible connectable words are read and appear! tri If
, the depth of connection, etc. are evaluated as right/parameters, and the candidate fit word with the highest evaluation is output as a conversion result.

ところで、 flt”l!1.、 +1’語辞書検索の
容易化、誤解析の低;酸化を図るため、入力文字列に対
し漢字前による前処理を行っている。
By the way, flt"l!1., +1' In order to facilitate word dictionary searches and reduce erroneous analysis, the input character string is pre-processed using kanji preprocessing.

漢字前には、カナ表記した場合にその長さが山1文字で
ある1字漢字音、(’A+ 2文字である2字漢字音、
侍)3文字である3字漢字音がある。例えば、(■)1
字漢字音・・はとんどのカナニア「亜」、イ「以、意9
位、医、異・・・」等 (■2字漢字音・・アイ「愛、挨、哀・・・」、アク「
悪、握・・・」等 ■3字漢字音・・・シュウ「集、収1週、衆、#。
Before the kanji, there is a 1-character kanji sound whose length is one mountain character when written in kana, ('A + 2-character kanji sound whose length is 2 characters,
Samurai) There are three kanji sounds that are three letters. For example, (■)1
The Kanji sound is the most Kanania “A”, I “I”, meaning 9
place, medical, different...'', etc. (■Two-character kanji sound...ai ``love, hello, sadness...'', aku ``
Evil, grip...'', etc.■3 Kanji sounds...Shu ``Collect, collect 1 week, Shu, #.

習、修1周、就・・・」、ショウ 「相、小、省9勝、少、商、証。Xi, Shu's 1st lap, Shu...'', Show “Sang, small, provincial 9 wins, small, commercial, proof.

消、正・・・」等 である。Erase, correct...” etc. It is.

ところで、上記2字漢字音、3字漢字音において、2字
目、3字目を占めるカナは次に示す18種に限定さ]I
、る。
By the way, in the above two-character kanji sounds and three-character kanji sounds, the kana that occupy the second and third characters are limited to the following 18 types]I
,ru.

「イ、つ、キ、ワ、チ、ツ、ヤ、ユ、ヨ、ユウ。“I, tsu, ki, wa, chi, tsu, ya, yu, yo, yu.

目つ、ヤク、コク、ヨク、ユツ、ユン、ツ、ン」しかし
、18種のカナの全てが1字目のカナに対して漢字前を
構成するわけではない。例えば、1字目がアの場合、 アイ・・・漢字前(1:起倒参照) アク・・・漢字前でない アキ・・漢字前で4゛い アク・漢字前(−1−起倒参照) アチ・・・漢字前でない のようになる。
Metsu, yaku, koku, yoku, yutsu, yun, tsu, n.'' However, not all of the 18 types of kana form the kanji preposition for the first kana. For example, if the first character is A, Ai... in front of a kanji (see 1: Kiseki) Aku... not in front of a kanji Aki... 4゛ in front of a kanji Aku - in front of a kanji (see -1 - Kiseki) ) Achi... It becomes like kanji before.

入力文字列を−に222字以上の漢字前により区切り、
それを東位として被検索文字列を作成することにより、
本来、漢字の読みの一部であるものを格助詞等と誤解析
することがなくなる。また、上記漢字前は@1独で用い
られることはなく、必ず他の漢字前との相合わされて使
用される。したがっ     ゛て、3文字以−にの入
力文字列とこれら漢字前をマツチングした結果、先頭の
1文字はマツチするが2宇目、3字目がマツチしない場
合は、当該先頭の1文字は漢字前ではなく付属語等のカ
ナである可能性が高いものである推測することができる
。このため、漢字前検索用の漢字前夫には、1字漢字音
を含めた全ての漢字前を格納する必要はなく、第4図(
aL (b”)、(c)に示したように2字以上の漢字
前を格納すればよい。
Separate the input string by - before 222 or more kanji characters,
By creating a search string with that as the east position,
This eliminates the possibility of misinterpreting something that is originally part of the reading of a kanji as a case particle. Furthermore, the above Kanji-mae is never used in @1doku, but is always used in conjunction with other Kanji-mae. Therefore, as a result of matching the input string of 3 or more characters with the characters before these kanji, if the first character is matched but the second and third characters are not, the first character is matched before the kanji. It can be inferred that there is a high possibility that it is a kana, such as an attached word, rather than a kana. For this reason, there is no need to store all kanji fronts including the sound of a single kanji in the kanji front for kanji front search, as shown in Figure 4 (
It is sufficient to store two or more kanji characters as shown in aL (b'') and (c).

従来、第4図(a)、(b)、(c)に示したような漢
字前夫を用いて次のような前処理を行っている。
Conventionally, the following preprocessing has been performed using kanji zenfu as shown in FIGS. 4(a), (b), and (c).

例えば、「ぶんしようのさくせいがひじょうによういで
ある。」という入力カナ文字列に基づいて漢字前夫をア
クセスし、漢字前とカナを最小単位とした次のような区
切りを施している。
For example, the kanji maefu is accessed based on the input kana character string ``Bunjo no Sakusei is very good.'', and the following separation is performed using the kanji mae and kana as the minimum units.

[ジン/ショウ/の/サク/セイ/が/ひ/ジヨウ/に
/ヨウ/い/で/あ/る/。」 ただし、カタカナは漢字前、ひらがなはカナを示す。
[jin/sho/no/saku/sei/ga/hi/jiyou/ni/you/i/de/a/ru/. ” However, katakana indicates before kanji, and hiragana indicates kana.

上記の区切り処理後、漢字前とカナの並び方により、次
のように人文字列に属性を付加する。
After the above delimiting process, attributes are added to the human character string as follows, depending on how the kanji and kana characters are arranged.

(漢字前)+(漢字前)十〜 ・・・・・・TYPE 
](漢字前)+(カナ)十〜  ・・・・・・TYPE
2Cカナ)+(漢字前)十〜  ・・・・・・TYPE
3(カナ)十(カナ)十〜   ・・・・・・TYPE
4「ブン+ショウ十〜」は(漢字前)+(漢字前)十〜
であるので上記例文はTYPEIとなる。
(before kanji) + (before kanji) 10~ ・・・・・・TYPE
] (before kanji) + (kana) 10~ ・・・・・・TYPE
2C kana) + (before kanji) 10~ ・・・・・・TYPE
3 (kana) 10 (kana) 10 ~ ・・・・・・TYPE
4 “Bun + Sho 10~” is (before kanji) + (before kanji) 10~
Therefore, the above example sentence becomes TYPEI.

次に、入力文字列の上記属性TYPEI〜TYPE4に
したがって、被検索文字列を次のようにして作成する。
Next, a searched character string is created in the following manner according to the attributes TYPEI to TYPE4 of the input character string.

TYPEIの場合・・・・・・(D (漢字前)+(漢
字前)■(漢字前) TYPE2の場合・・・・・・σ)(漢字前)+(カナ
)■(漢字前) TYPE3の場合・・・・・・■(カナ)+(漢字前)
■(カナ) TYPE4の場合・・・・・・■(カナ)■(カナ)十
(カナ) ■(カナ)+(カナ)+ (カナ) 上記例文の場合はTYPEIであるので、次のように被
検索文字列を設定する。
For TYPEI... (D (before kanji) + (before kanji) ■ (before kanji) For TYPE 2... σ) (before kanji) + (kana) ■ (before kanji) TYPE 3 In the case of...■ (kana) + (before kanji)
■ (kana) For TYPE 4...■ (kana) ■ (kana) 10 (kana) ■ (kana) + (kana) + (kana) In the example sentence above, it is TYPEI, so it is written as follows. Set the search string to .

[設定される被検索文字列コ・・・(1)ぶんしよう■
ぶん 次に、設定さ九た被検索文字列にしたがって、単語辞書
を検索し、得られた候補単語群に対して評価を行い、最
適な候補m語を選択する。
[Character string to be searched... (1) Let's try it ■
Next, the word dictionary is searched according to the set character string to be searched, the obtained candidate word group is evaluated, and the most suitable m candidate words are selected.

ここでは、仮に「文章」が最適候補単語として抽出され
たとする。この場合、次の解析対象文字列はrのさくせ
いがひじょうによういである。jであるので、これに対
して再び漢字音とかすを最小qt位とした区給りを施す
Here, it is assumed that "sentence" is extracted as the optimal candidate word. In this case, the next character string to be analyzed has a very strong r. Since it is j, we apply the kuari again to this with the minimum qt level of the kanji sounds.

[の/サク/セイ/が/ひ/ジミウ/に/ヨウ/い/で
/あ/る。」 「の+サク十〜」は(カナ)十(漢字音)十〜であるの
で」二記入力文字列の属性はTYPE3である。TYP
E3の属性にしたがって被検索文字列を作成すると、被
検索文字列は次のようになる。
[No/saku/sei/ga/hi/jimiu/ni/you/i/de/a/ru. ” Since “no+saku 10~” is (kana) 10 (kanji sound) 10~, the attribute of the input character string is TYPE3. TYP
When a searched character string is created according to the attribute of E3, the searched character string becomes as follows.

[設定される被検索文字列コ・・Cr)のさくC2ンの 以下、同様にして、残りの入力文字列に対し漢字音とカ
ナを最小単位とした区切りを施し、漢字音とカナの並び
方による入力文字列の属性に応じて適切な被検索文字列
を作成する。
In the same way, after the C2 of the set search character string Cr), the remaining input strings are separated using Kanji sounds and kana as the minimum unit, and the arrangement of Kanji sounds and kana is Creates an appropriate search string according to the attributes of the input string.

なお、2個の最小11位により被検索文字列を作成した
理由は、m語辞書に登録されているJ1語のほとんどは
、2個以下の最小(11位に対応しているという事実を
考慮して、辞書検索のスピードアンプを図るためである
The reason for creating a search string using the minimum 11th position of two characters is to take into account the fact that most of the J1 words registered in the m-word dictionary have a minimum of 2 or less characters (corresponding to the 11th position). This is to speed up dictionary searches.

しかし、上記方式には次のにうな欠点がある。However, the above method has the following drawbacks.

入力文字列「かっこうでは〜」を例に説明する。This will be explained using the input character string "Kakko de ~" as an example.

この場合、漢字音による前処理により、[ガラ/コラ/
で/は〜」 のように区切りが施される。「ガッ+コウ十〜」はC漢
字音)+f漢字音)→−〜であるのでT”i’PE1に
属し、被検索文字列として、 (1)がつこう ■かつ が設定される。
In this case, pre-processing using kanji sounds allows [Gara/Kora/
Delimitations are added such as "de/ha~". Since "Gac+Kouju~" is C kanji sound) + f kanji sound) → -~, it belongs to T''i'PE1, and (1) Gatsukou■Katsu is set as the searched character string.

ところで、上記[■がっ]巾の「っJは、促音であるが
、これは、本来「かく(学)」という漢字音が音便変化
したものであり、漢字音としての「がっ」は存在し得て
も、それに対応する自立語は存在しない。したがって、
用語辞書には、このような見出し、および該見出しに対
応する単語は登録されていない。
By the way, the ``J'' in the above [■ GA] width is a consonant, but this is originally a phonetic change of the kanji sound ``kaku (gaku)'', and the kanji sound ``ga''. may exist, but there is no independent word corresponding to it. therefore,
Such headings and words corresponding to the headings are not registered in the terminology dictionary.

従来方法では、」1記のように、音便変化等によりその
読みが変化した結果、その変化後の漢字音は存在し得て
も、その漢字音対応の自立語は存在しないこととなった
場合にも、その漢字音単独の被検索文字列を作成し、該
被検索文字列により辞書検索を行うという無駄な処理を
行っており、41語抽出の処理速度を一層向上するため
には、この問題を解決する必要がある。
In the conventional method, as in ``1'', as a result of changes in the reading due to phonetic changes, etc., even though the kanji sound after the change may exist, there is no independent word corresponding to that kanji sound. In this case, the wasteful process of creating a search string containing only the kanji sound and performing a dictionary search using the search string is performed.In order to further improve the processing speed of 41 word extraction, This problem needs to be resolved.

目     的 本発明の目的は、」1記のような従来技術の問題点を解
決するため、カナ漢字変換処理装置における中詰抽出に
際し1.W書検索時に用いる被検索文字列を必要最小限
に設定し、m語抽出の処理速度を向」ニさせることにあ
る。
Purpose The purpose of the present invention is to solve the problems of the prior art as described in 1. 1. The object of this invention is to set the searched character strings used when searching W-books to the minimum necessary, and to improve the processing speed of m-word extraction.

構   成 上記目的を達成するため、本発明による!111!Fi
抽出方式は、漢字音大と、該漢字音大を利用して漢字音
とカナを最小単位として入力文字列を区切る第1の手段
とを有するカナ漢字変換処理装置において、前記第1の
手段により区切られた入力文字列の漢字音とカナの並び
方を判定する第2の手段と、解析対象文字列の先頭漢字
音と同一の読みを持つ自立語が存在するか否かを判定す
る第3の手段と、解析対象文字列の第1番目の最小単位
が漢字音であり、かつ当該漢字音が自立語と同一の読み
を持つ漢字音である場合、当該漢字音と第2番目の最小
jp位を結合したもののみを被検索文字列として設定す
る第4の手段を設けたことに特徴がある。
Configuration To achieve the above object, according to the present invention! 111! Fi
The extraction method is a kana-kanji conversion processing device that has a kanji sound size and a first means that uses the kanji sound size to separate an input character string using kanji sounds and kana as the minimum unit. A second means for determining the arrangement of kanji sounds and kana in a separated input character string, and a third means for determining whether there is an independent word having the same pronunciation as the first kanji sound of the character string to be analyzed. means, and if the first minimum unit of the character string to be analyzed is a kanji sound, and the kanji sound has the same reading as the independent word, the kanji sound and the second minimum jp position. The present invention is characterized by providing a fourth means for setting only a combination of , as a searched character string.

なお、入力文字列は順次解析されるため、当然、当面解
析さ九るべき入力文字列は次々に変化する。
Note that since the input character strings are sequentially analyzed, naturally the input character strings that should be analyzed for the time being change one after another.

本明細−訃では、当面解析されるべき入力文字列を解析
対象文字列と呼んでいる。
In this specification, the input character string to be analyzed for the time being is referred to as the character string to be analyzed.

以下、本発明の構成を一実施例により詳細に説−10= 明する。Hereinafter, the configuration of the present invention will be explained in detail using an example. I will clarify.

第1図は、本発明の一実施例によるm語抽出方式を適用
したカナ漢字変換処理装置のブロック図である。
FIG. 1 is a block diagram of a kana-kanji conversion processing device to which an m-word extraction method is applied according to an embodiment of the present invention.

第1図において、1は作成し、ようとする日本語文に対
応したカナ文字列を入力するためのカナ文字入力部、2
は入力されたカナ文字列を一時記憶しておく入力文字列
記憶部、3は入力文字列に対し漢字台とカナを最小81
位とする区切りを施す、漢字台による区切り部、4は当
該漢字台と同一の読みを持つ自立語が存在するか否かの
情報を付加した漢字行表、5け漢字台による区切りを施
されたカナ文字列の、漢字台とカナ(7) 、3flび
方を基;で)とした属性を判定する入力文字列の属性判
定部、6は解析対象文字列の先頭の漢字台と同一の読み
を持つ自立語が存在するか否かを基準とした漢字台の属
性を判定する。先頭漢字台の属性判定部、7は、入力文
字列の属性判定部5と先頭漢字台の属性判定部6からt
[トられる情報に拮づいて、必要最小限の被検索文字列
を設定する被検索文字列設定部、9は111語辞書、8
は被検索文字列に基づいて単語辞M19を検索する辞書
検索部、10は辞書検索部8よりt!Iられた候補中詰
を記憶する候補単語記憶部、11け候補qt語を評価し
て最も適切な候補単語を選択する候補単語評価部、12
は候補単語評価部11で選択された最適候補眼語を記憶
する最適候補生語記憶部、13は最適候補中詰をカナ漢
字変換結果として表示するための表示部である。
In Fig. 1, 1 is a kana character input section for inputting a kana character string corresponding to the Japanese sentence to be created;
3 is an input character string storage part that temporarily stores the input kana character string, and 3 is a minimum of 81 kanji and kana characters for the input character string.
4 is a kanji row table with information on whether there is an independent word with the same pronunciation as the kanji table, and a 5-digit kanji table is used to separate the sections. The attribute judgment part of the input string that determines the attribute of the takana character string based on the kanji stand and kana (7), 3flbi form; 6 is the same as the kanji stand at the beginning of the character string to be analyzed. The attributes of the kanji table are determined based on whether or not an independent word with a reading exists. The attribute determination unit 7 of the first kanji board is the attribute determination unit 5 of the input character string and the attribute determination unit 6 of the first kanji board.
[Search string setting section that sets the minimum necessary search string according to the information to be searched, 9 is a 111-word dictionary, 8
10 is a dictionary search unit that searches for a word dictionary M19 based on the character string to be searched, and t! from the dictionary search unit 8. a candidate word storage unit that stores the selected candidate words; a candidate word evaluation unit that evaluates the 11 candidate words and selects the most appropriate candidate word;
Reference numeral 13 denotes an optimal candidate raw word storage section that stores the optimal candidate eye words selected by the candidate word evaluation section 11, and a display section 13 that displays the optimal candidate middle words as a kana-kanji conversion result.

漢字台ににる属性判定部5は、漢字行表4より得ら肛だ
情報を基に、解析対象文字列の先頭漢字台が次に示す2
つの属性のうちどちらに属するかを判定する。
Based on the information obtained from the kanji line table 4, the attribute determination unit 5 on the kanji stand determines whether the first kanji stand of the character string to be analyzed is the following 2.
Determine which of the two attributes it belongs to.

漢字台の属性A:その漢字台の読みと同じ読みを持つ自
立語が存在する。
Kanji table attribute A: There is an independent word that has the same reading as the kanji table.

例:あい(愛)、あく(悪)・・・等 漢字台の属性B:その漢字台の読みと同じ読みを持つ自
立語は存在しない。
Examples: Ai (love), aku (evil), etc. Attribute B of the kanji table: There is no independent word that has the same reading as that of the kanji table.

例:がっ、ずう、ずん、せっ、ざっ、・・・等第2図は
、本発明の一実施例による漢字行表の内容の一部を示す
図である。
Examples: ga, zu, zun, se, za, etc. FIG. 2 is a diagram showing part of the contents of a kanji row table according to an embodiment of the present invention.

第2図に示したように、本漢字前夫には、漢字前夫2欄
、コート欄の他に、当該漢字台の読みと同じ読みを有す
る自立語が存在するか否かを示す、自立性表示欄を設け
ている。本漢字前夫では、自立性を1ビツトのI ′、
’O’で示し、1′の場合は自立性有り゛、すなわち属
性Aの漢字台であることを意味し、0′の場合は自立性
無し。
As shown in Figure 2, in addition to the Kanji Zeno 2 column and the coat column, this kanji Zeno has an independence display that indicates whether there is an independent word that has the same reading as the reading on the Kanji stand. A column is provided. In this Kanji Zeno, independence is expressed as 1 bit I ′,
It is indicated by 'O', and when it is 1', it means that it has independence, that is, it is a kanji stand with attribute A, and when it is 0', it does not have independence.

すなわち属性Bの漢字台であることを意味している。That is, it means that it is a kanji stand of attribute B.

第3図は、本発明の一実施例によるtIi語抽出方式の
動作を示すフローチャートである。
FIG. 3 is a flowchart showing the operation of the tIi word extraction method according to an embodiment of the present invention.

まず、漢字台による区切り部3け、入力文字列記憶部2
から送出された入力カナ文字列に対し、第2図に示した
漢字行表4を用いて漢字台による区切りを施す(301
’l。この際、個々の漢字台の自立性情報も同時に漢字
行表4から読み出される。
First, there is a 3-character delimiter with a kanji stand, and an input character string storage part 2.
The input kana character string sent from
'l. At this time, the independence information of each kanji stand is also read out from the kanji row table 4 at the same time.

入力文字列の属4′1判定部5は、漢字台とカナを最小
中位として区切られた入力文字列(解析対象文字列)の
漢字台とカナの並び方による属性が、T”l’ P F
: IまたはTYPE2であるか否かを判定する(30
2’)。TVPT’:I、TYPE2以外の場合は、従
来方式により被検索文字列を設定する(303)。
The input character string attribute 4'1 determination unit 5 determines that the attribute of the input character string (character string to be analyzed), which is separated with the kanji base and kana as the minimum middle rank, is determined by the arrangement of the kanji base and kana. F
: Determine whether it is I or TYPE2 (30
2'). In cases other than TVPT':I and TYPE2, the searched character string is set using the conventional method (303).

1”VPEIまたはTYPE2の場合は、以下に述べる
本実施例特有の被検索文字列の設定処理を実行する。そ
の理由は。
1"VPEI or TYPE2, the following character string setting process unique to this embodiment is executed. The reason is:

’I”/PEI・・・(漢字台)+(漢字台)十〜’r
 V l) E 2・・・(漢字台)+(カナ)十〜の
ように、先頭の最小単位が漢字台の場合は音便変化等に
より、当該漢字台が自立性を喪失する可能性があるから
である。
'I'/PEI... (Kanji stand) + (Kanji stand) 10~'r
V l) E 2... If the first minimum unit is a kanji stand, such as (Kanji stand) + (kana) 10~, there is a possibility that the kanji stand may lose its independence due to a change in tone, etc. Because there is.

ステップ302によりT’YPEIまたはT’YPE2
であると判定された場合は、さらにTYPElか否を判
定する(302,304)。次に、TYPETである場
合は、先頭漢字台の属性判定部6は解析対象文字列の先
頭(第1番目の最小単位)の漢字台が属性Bであるか否
かを判定する(30/l。
T'YPEI or T'YPE2 by step 302
If it is determined that it is, it is further determined whether or not it is TYPEl (302, 304). Next, in the case of TYPET, the first kanji character attribute determination unit 6 determines whether the first kanji character character string (first minimum unit) of the character string to be analyzed has attribute B (30/l .

305)。被検索文字列設定部7は、漢字台の属性がB
″C:あ2.場合は、2個の漢字台を結合したもののみ
を被検索文字列として設定しく305.306)、属性
Aである場合は、従来通り、2個の漢字音を結合し、た
ものの他に、先頭の漢字音m独で構成される被検索文字
列を作成する(305゜A)。
305). The searched character string setting section 7 indicates that the attribute of the kanji stand is B.
``C: A2. In the case, only the combination of two kanji characters should be set as the searched character string305,306), and in the case of attribute A, the two kanji sounds should be combined as before. , and a character string to be searched consisting of the first kanji sound m-doku is created (305°A).

例えば、入力文字列「かっこうでは〜」の場合、漢字音
による区切りは[ガラ/コラ/で/は〜」となり、TY
PEIであるが、その先頭の漢字音「ガラ」は第2図に
示したように自立性表記欄が属性Bを意味する0′であ
り、それに対応する・ 見出し、および該見出しに対応
する漢字音は申請辞書9に存在しないので。
For example, in the case of the input character string "Kakko de ~", the Kanji sound delimiter is [Gara/Kora/de/Ha~], and TY
PEI, as shown in Figure 2, the first kanji sound ``gara'' is 0' in the independence notation column, which means attribute B, and the corresponding heading and kanji corresponding to the heading. Because the sound does not exist in application dictionary 9.

0′)がつこう という被検索文字列のみを設定する。このように、単語
辞書9に存在しないm語に対応する漢字音を被検索文字
列としないことにより、無駄な辞書検索を省き、辞書検
索の処理速度を向上させることが可能となる。
0') is set only to be searched character strings. In this way, by not using the kanji sounds corresponding to m-words that do not exist in the word dictionary 9 as searched character strings, it is possible to omit wasteful dictionary searches and improve the processing speed of dictionary searches.

入力文字列「かいさつにて〜」の場合は、漢字音による
区切りは「カイ/サラ/に/て〜]となり、TYPEI
であるが、先頭の漢字音「カイ」は属性Aであり、対応
する自立語c会2回、界。
In the case of the input character string "Kaisatsu de de~", the kanji sound delimiter is "Kai/Sara/ni/te~", and the TYPEI
However, the first kanji sound ``kai'' has attribute A, and the corresponding independent word c kai 2 times, kai.

改、・・・等)が存在するので、従来通り、0)かいさ
つ ■かい のように、2種類の被検索文字列を作成する。
Since there are two types of search strings, such as 0) Kaisatsu ■ Kai, two types of searched character strings are created as before.

ステップ304でT’YPEIでないと判定した場合は
、解析対象文字列はT′vPE2であるものと特定でき
るので、その先頭の漢字音が属性Bであるか否かを判定
し、Bであるときは先頭の漢字音と2番[1の最小11
位であるカナとを結合したもののみを被検索文字列とし
て設定する(304 。
If it is determined in step 304 that it is not T'YPEI, the character string to be analyzed can be identified as T'vPE2, so it is determined whether the first kanji sound is attribute B, and if it is B, is the first kanji sound and the second [minimum 11 of 1]
Only the combination of the digit kana and the digit kana is set as the searched character string (304).

307.30 R)。属性がBでなくAの場合は、従来
通り、先頭の漢字音と2番目の最小単位であるカナとを
結合したものの他に、先頭の漢字音単独による被検索文
字列を作成する(307.  A)。
307.30R). If the attribute is A instead of B, as before, in addition to the combination of the first kanji sound and the second minimum unit, kana, a search character string is created using the first kanji sound alone (307. A).

例えば、入力文字列「ざっしにより〜」の場合、漢字音
による区切りは「ザッ/シ/に/よ/す〜」となり、1
”VPE2であるが、先頭の漢字音「ザラ」は漢字「雑
」の読み「ザラ」が音便変化したものであり、「ザラ」
に対応する自立語は存在しないので、被検索文字列とし
ては、 ■ざっし のみを設定する。
For example, in the case of the input character string "Zashiyori~", the Kanji sound delimiters are "Za/shi/ni/yo/su~", and 1
``VPE2, the first kanji sound ``Zara'' is a phonetic change of the kanji ``Zara'' reading ``Zara''.
Since there is no independent word corresponding to , only ``■'' is set as the character string to be searched.

最後に、辞書検索部8は、得られた被検索文字列により
単語辞書9を検索する(309)。
Finally, the dictionary search unit 8 searches the word dictionary 9 using the obtained searched character string (309).

このように、TYPEIおよびT’YPE2の解析対象
文字列の先頭の漢字音が属性B、すなわち、該漢字音に
対応する自立語が存在しない場合は、該漢字音と2番目
の最小単位とを結合したもののみを被検索文字列とする
ことにより、辞書検索の処理速度を向上させることがで
きる。
In this way, if the first kanji sound of the character string to be analyzed in TYPEI and T'YPE2 has attribute B, that is, if there is no independent word corresponding to the kanji sound, then the kanji sound and the second minimum unit are By using only the combined strings as searched character strings, the processing speed of dictionary searches can be improved.

効   果 以上説明したように1本発明の畦語抽出方式によれば、
カナ漢字変換処理装置における単語抽出に際し、辞書検
索時に用いる被検索文字列を必要最小限に設定し5貼語
抽出の処理速度を向上させることが可能となる。
Effects As explained above, according to the word extraction method of the present invention,
When extracting words in the kana-kanji conversion processing device, it is possible to improve the processing speed of five-word extraction by setting the number of searched character strings used at the time of dictionary search to the minimum necessary.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は本発明の一実施例によるm語抽出方式を適用し
たカナ漢字変換処理装置のブロック図、第2図は本発明
の一実施例による漢字前夫の内容の一部を示す図、第3
図は本発明の一実施例による単語抽出方式の動作を示す
フローチャート、第4図は従来の漢字前夫を示す図であ
る。 3:漢字音による区切り部、4:漢字前夫、5:入力文
字列の属性判定部、6:先頭漢字音の属性判定部27:
被検索文字列設定部、8:辞書検索部、9 : l1l
−語辞書。 手続補正書(自発) 昭和59年8月8日 昭和59年 特 許 願第13G1666”i2゜発明
の名称  単語抽出方式 3、 補正をする者 事件との関係  特許出願人 住 所    東京都大田区中馬込1丁目3番6号ヵ 
ゎ、。、)(67→株式会社 リ   コ  −代表者
  浜 1)  広 5.6?  補正により増加する発明の数   な  
しくa)明細書第1頁の[特許請求の範囲jを次のとお
りに補正する。 [(1)漢字音表と、該漢字音表を利用して漢字音とカ
ナを最小単位として入力文字列を区切る第1の手段とを
有するカナ漢字変換処理装置において、自立語の読みと
同一の読みを有する漢字音であるか否かを示す情報欄を
前記漢字音表に付加するとともに、前記第]、の手段に
より区切られた入力文字列の漢字音とカナの並び方を判
定する第2の手段と、解析対象文字列の先頭漢字音と同
一の読みを持つ自立語が存在するか否かを判定する第3
の手段と、解析対象文字列の先頭の最小単位が漢字音で
あり、かつ当該漢字音が自立語と同一の読みを持なμ−
諭漢字音である場合、当該先頭の漢字音。 と第2番「1の最小単位を結合したもののみを被検索文
字列として設定する第4の手段を設けたことを特徴とす
る単語抽出方式。」 (b)明細書第5頁第4行目の「である推測する」を「
であると推測する」と補正する。 (C)明細書第10頁下から第7行目のU持つ漢字音」
を1持たない漢字音」と補正する。
FIG. 1 is a block diagram of a kana-kanji conversion processing device applying the m-word extraction method according to an embodiment of the present invention, FIG. 3
The figure is a flowchart showing the operation of the word extraction method according to an embodiment of the present invention, and FIG. 4 is a diagram showing the conventional kanji zenhu. 3: Separator by kanji sound, 4: Kanji ex-husband, 5: Attribute determination unit for input character string, 6: Attribute determination unit for first kanji sound 27:
Searched character string setting section, 8: Dictionary search section, 9: l1l
-Word dictionary. Procedural amendment (voluntary) August 8, 1980 Patent application No. 13G1666”i2゜ Title of invention Word extraction method 3 Relationship with the case of the person making the amendment Patent applicant address Naka, Ota-ku, Tokyo Magome 1-3-6
Wow,. , ) (67 → Rico Co., Ltd. - Representative Hama 1) Hiro 5.6? The number of inventions will increase due to amendments.
a) Claim j on page 1 of the specification is amended as follows. [(1) In a kana-kanji conversion processing device having a kanji sound table and a first means for separating an input string using kanji sounds and kana as the minimum units using the kanji sound table, A second step for adding an information column to the kanji sound table indicating whether or not it is a kanji sound having a reading of and a third method that determines whether there is an independent word that has the same pronunciation as the first kanji sound of the character string to be analyzed.
, the minimum unit at the beginning of the character string to be analyzed is a kanji sound, and the kanji sound has the same reading as an independent word.
If it is a kanji sound, the first kanji sound. and No. 2: "A word extraction method characterized by providing a fourth means for setting only a combination of 1 minimum units as a searched character string." (b) Page 5, line 4 of the specification. ``I guess'' of the eyes is ``
I guess that's the case.'' (C) Kanji sound with U in the 7th line from the bottom of page 10 of the specification.”
It is corrected as ``kanji sounds that do not have 1.''

Claims (1)

【特許請求の範囲】[Claims] (1)漢字音表と、該漢字音表を利用して漢字音とカナ
を最小単位として入力文字列を区切る第1の手段とを有
するカナ漢字変換処理装置において、自立語の読みと同
一の読みを有する漢字音であるか否かを示す情報欄を前
記漢字音表に付加するとともに、前記第1の手段により
区切られた入力文字列の漢字音とカナの並び方を判定す
る第2の手段と、解析対象文字列の先頭漢字音と同一の
読みを持つ自立語が存在するか否かを判定する第3の手
段と、解析対象文字列の先頭の最小単位が漢字音であり
、かつ当該漢字音が自立語と同一の読みを持つ漢字音で
ある場合、当該先頭の漢字音と第2番目の最小単位を結
合したもののみを被検索文字列として設定する第4の手
段を設けたことを特徴とする単語抽出方式。
(1) In a kana-kanji conversion processing device having a kanji sound table and a first means for dividing an input string using kanji sounds and kana as the minimum units using the kanji sound table, a second means for adding an information column to the kanji sound table indicating whether or not the kanji sound has a reading, and determining the arrangement of kanji sounds and kana in the input character string separated by the first means; and a third means for determining whether or not there is an independent word having the same pronunciation as the first kanji sound of the character string to be analyzed; A fourth means is provided for setting only the combination of the first kanji sound and the second minimum unit as the searched character string when the kanji sound has the same reading as the independent word. A word extraction method featuring:
JP59139666A 1984-07-05 1984-07-05 Word extracting system Pending JPS6118066A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59139666A JPS6118066A (en) 1984-07-05 1984-07-05 Word extracting system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59139666A JPS6118066A (en) 1984-07-05 1984-07-05 Word extracting system

Publications (1)

Publication Number Publication Date
JPS6118066A true JPS6118066A (en) 1986-01-25

Family

ID=15250587

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59139666A Pending JPS6118066A (en) 1984-07-05 1984-07-05 Word extracting system

Country Status (1)

Country Link
JP (1) JPS6118066A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62203226A (en) * 1986-03-03 1987-09-07 Canon Inc Document processor

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62203226A (en) * 1986-03-03 1987-09-07 Canon Inc Document processor

Similar Documents

Publication Publication Date Title
GB2248328A (en) Conversion of phonetic Chinese to character Chinese
JP3992348B2 (en) Morphological analysis method and apparatus, and Japanese morphological analysis method and apparatus
Schreier /h/insertion as a ‘camouflage archaism’? Dialect contact, colonial lag and the feature pool in South Atlantic English
Osselton Murray and his European Counterparts.'
JPS6118066A (en) Word extracting system
JPS60235271A (en) Kana-kanji converting device
JPS6210763A (en) Kana to kanji conversion system
JP3880087B2 (en) Morphological analyzer
JP2812495B2 (en) Syllabic input of language using kanji
CN111381687A (en) Chinese character font and sound-shape dual-purpose code and platform for cross inputting Chinese characters through sound, shape and sound-shape codes on same platform
Lander The History of the Reinforced Demonstrative in Nordic: Regional Variation and Reconstruction
JPS5822767B2 (en) Japanese typewriter
JPH0969109A (en) Method and device for retrieving document
JPS6132172A (en) Word extracting system
JPS6132167A (en) Kana-kanji conversion processor
Kiffer A Diachronic and Synchronic Analysis and Description of English phrasal verbs
JPS59103136A (en) Kana (japanese syllabary)/kanji (chinese character) processor
Schuster The Chamorro-Wörterbuch by Georg Fritz–a contrastive description of the editions 1904 and 1908
JP3048793B2 (en) Character converter
CN113227946A (en) Alphabetic writing input method
JPS61282966A (en) Kana/kanji conversion system
Kjellmer ‘It Comes Time’A Look at Existential It
JPS61184673A (en) Word dividing method of continuous kana sentence
JPH0778795B2 (en) Character processor
JPS62221065A (en) Document preparing system