JPS63213061A - System for classifying declensional kana ending - Google Patents

System for classifying declensional kana ending

Info

Publication number
JPS63213061A
JPS63213061A JP62044107A JP4410787A JPS63213061A JP S63213061 A JPS63213061 A JP S63213061A JP 62044107 A JP62044107 A JP 62044107A JP 4410787 A JP4410787 A JP 4410787A JP S63213061 A JPS63213061 A JP S63213061A
Authority
JP
Japan
Prior art keywords
dictionary
word
kana
kanji
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP62044107A
Other languages
Japanese (ja)
Other versions
JPH0833891B2 (en
Inventor
Takashi Nakamura
俊 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP62044107A priority Critical patent/JPH0833891B2/en
Publication of JPS63213061A publication Critical patent/JPS63213061A/en
Publication of JPH0833891B2 publication Critical patent/JPH0833891B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

PURPOSE:To eliminate the need of registering all decleneional KANA (Japanese syllabary) endings into a dictionary by classifying and registering the relations between the index in the dictionary and the decleneional KANA endings of those words to be retrieved when the KANJI (Chinese characters)-KANA words are retrieved. CONSTITUTION:When no coincident index is not detected out of a dictionary when the KANJI-KANA words are detected, the relation between the index read out of the dictionary and including an extracted KANJI and the declension al ending of a word to be retrieved is classified. In this case, a simple (A) type where the KANA following the KANJI can be omitted is defined together with a KANJI word ending feed (B) type where where the extra declensional KANA endings can be secured, a continuous word ending addition (R) type where the KANJI has a continuous word ending and can be used as a noun, and declensional KANA ending coincidence enable (O<+>) type where the index in the dictionary contains HIRAGANA (cursive form of Japanese syllabary) equivalent one or more characters in the form of a word having the omission of a declensional KANA ending. Thus it is not required to register all declension al KANA endings into a dictionary.

Description

【発明の詳細な説明】 〔概要〕 この発明は、ある漢字仮名混じり単語が単語として辞書
に登録されているか検索する際、辞書中から見つけ出し
た見出しと、検索しようとする単語の送り仮名のっけか
たとが異なる場合、この単語を検索し得ない問題を解決
するため、辞書中の見出しと、単語中の送り仮名との関
係から送り仮名合致可能型、単純型、および漢字語尾送
り型などに分類することにより、例え辞書中に同一の送
り仮名を持つ見出しが見つからなくても所望の単語の検
索を行い得るようにしたものである。
[Detailed Description of the Invention] [Summary] This invention, when searching to see if a certain kanji-kana mixed word is registered as a word in a dictionary, uses the heading found in the dictionary and the name of the word to be searched for. In order to solve the problem of not being able to search for a word when the words are different from each other, the word is classified into types that can match okurigana, simple types, and kanji endings, based on the relationship between the heading in the dictionary and the okurikana in the word. By doing so, it is possible to search for a desired word even if no heading with the same okurikana is found in the dictionary.

〔産業上の利用分野〕[Industrial application field]

本発明は、辞書中の見出しと、検索しようとする語中の
送り仮名との関係からこれらの類型を分類して例え辞書
中に合致するものがなくても所望の単語の検索を行い得
るよう構成した送り仮名分類方式に関するものである。
The present invention classifies these types based on the relationship between the heading in the dictionary and the okurikana in the word to be searched, so that the desired word can be searched even if there is no matching word in the dictionary. This paper relates to the constructed okurikana classification system.

〔従来の技術と発明が解決しようとする問題点〕自然言
語処理の分野、特に機械翻訳、自然言語インタフェース
(例えば自然言語によるデータベース検索等)などでは
、コンピュータに文章を理解させる必要がある。その第
1段階では、辞書を引いて文を文節に分解し、同時に単
語の意味を取り出すことが行われている。
[Problems to be solved by the prior art and the invention] In the field of natural language processing, particularly in machine translation, natural language interfaces (for example, database searches using natural language, etc.), it is necessary to make computers understand sentences. In the first stage, a dictionary is used to break down sentences into clauses and at the same time extract the meanings of words.

従来、コンピュータを用いて辞書を検索するとき、ある
単語の送り仮名の付は方が辞書中の見出しのそれと異な
る場合、その単語を引くことができないという問題点が
あった。強いてその単語を引けるようにするには、辞書
中の見出しとして引こうとする単語に対して考えられる
全ての送り仮名を予め登録しておく必要があり、極めて
辞書の容量が大きくなり、現実的でないと共に、必ずし
も全ての送り仮名について辞書に登録し得ないという問
題点があった。このため、辞書に単語の全ての考えられ
る送り仮名を予め登録するのではなくて、辞書中の見出
しと、単語の送り仮名との間の関係を分類して例え辞書
中に合致するものがなくても所望の単語の検索を行い得
るようにすることが望まれている。
Conventionally, when searching a dictionary using a computer, there has been a problem that if the okurikana of a certain word is different from that of the heading in the dictionary, the word cannot be retrieved. In order to be able to force a word to be looked up, it is necessary to register in advance all possible okurikana for the word to be looked up as a heading in the dictionary, which increases the capacity of the dictionary and makes it impractical. In addition, there was a problem that not all okurigana could be registered in the dictionary. For this reason, instead of pre-registering all possible okurikana of a word in a dictionary, we classify the relationship between the heading in the dictionary and the okurikana of a word, even if there is no match in the dictionary. It is desired to be able to search for a desired word even if the user is searching for a desired word.

〔問題点を解決するための手段〕[Means for solving problems]

本発明は、前記問題点を解決するために、辞書中の見出
しと、単語中の送り仮名との関係から送り仮名合致可能
型、単純型、および漢字語尾送り型などに少なくとも分
類することにより、例え辞書中に同一の送り仮名が見つ
からなくても所望の単語の検索を行い得るようにしてい
る。
In order to solve the above-mentioned problems, the present invention classifies the words into at least okuri-kana matching type, simple type, kanji ending-adjusting type, etc. based on the relationship between the heading in the dictionary and the okurikana in the word. Even if the same okurikana is not found in the dictionary, it is possible to search for a desired word.

第1図は本発明の原理構成図を示す。図中検索部1は入
力データである文字列に合致する見出しを辞書6中から
検索するものである。
FIG. 1 shows a basic configuration diagram of the present invention. A search unit 1 in the figure searches a dictionary 6 for a heading that matches a character string that is input data.

開始位置検出部2は、本発明に係わる分類方式の適用が
可能と推定される文字列の開始位置を入力された文字列
から検出するものである。
The start position detection unit 2 detects, from an input character string, a start position of a character string to which it is estimated that the classification method according to the present invention can be applied.

漢字抽出部3は、開始位置検出部2で検出された文字列
中の漢字のみを抽出するものである。
The kanji extractor 3 extracts only kanji from the character string detected by the start position detector 2.

照合部4は、漢字抽出部3によって抽出された漢字を見
出し中に含むもの全てを辞書6中から見つけ出すもので
ある。
The collation unit 4 finds out from the dictionary 6 all headings that contain the kanji extracted by the kanji extraction unit 3.

分類処理部5は、開始位置検出部2で検出された文字列
と、照合部4によって見つけ出された辞書6の見出しと
の関係に基づいて、見出し語の送り仮名の分類を行うも
のである。
The classification processing unit 5 classifies the okurigana of the entry word based on the relationship between the character string detected by the start position detection unit 2 and the entry in the dictionary 6 found by the matching unit 4. .

〔作用〕[Effect]

次に、動作を説明する。 Next, the operation will be explained.

第1図において、文字列の入力データは、検索部1によ
って辞書6中から合致する見出しが検索され、見つかっ
た場合には、先頭から順次その見出しデータを出力デー
タとして出力する。一方、合致するものが見つからなか
った場合、開始位置検出部2は、送り仮名の違いによっ
て検索不能となったと推定される文字列の開始位置を見
つけ出す。漢字抽出部3はこの見つけ出した位置から始
めて単語を構成すると推定される長さの文字列に含まれ
る漢字のみを抽出する。照合部4は、この抽出した漢字
を含む見出しを辞書6中に予め登録されているものと照
合して読み出す。分類処理部5は、辞書6中から読み出
された上記漢字を含む見出しと、単語中の送り仮名など
との関係から分類を行う。
In FIG. 1, a search unit 1 searches a dictionary 6 for a matching heading for character string input data, and if a matching heading is found, the heading data is sequentially output from the beginning as output data. On the other hand, if no match is found, the start position detection unit 2 finds the start position of the character string that is presumed to be unsearchable due to the difference in okurigana. Starting from this found position, the kanji extracting unit 3 extracts only kanji included in a character string of a length estimated to constitute a word. The collation unit 4 collates the heading containing the extracted kanji with those registered in advance in the dictionary 6 and reads it out. The classification processing unit 5 performs classification based on the relationship between the heading containing the above-mentioned kanji read from the dictionary 6 and the okurikana in the word.

以上のように、辞書6中の見出しと合致しない文字列を
含む単語に対して、抽出された漢字部分を含む見出しを
辞書6中から読み出し、両者の間の送り仮名の関係から
分類を行うことにより、例え辞書6中に登録されていな
い見出しに対しても単語の検索を行うことが可能となる
As described above, for words that include character strings that do not match the headings in the dictionary 6, the headings that include the extracted kanji parts are read out from the dictionary 6, and classification is performed based on the relationship between the okurikana characters. This makes it possible to search for words even if they are not registered in the dictionary 6.

〔実施例〕〔Example〕

次に、第2図ないし第4図を用いて本発明の1実施例の
構成および動作を詳細に説明する。
Next, the configuration and operation of one embodiment of the present invention will be explained in detail using FIGS. 2 to 4.

第2図は分類処理部5における動作を表す。図中■は、
送り仮名合致可能型(以下0゛型という)であるか否か
を判別する状態を示す。この0゛型は、辞書中の見出し
が“□●□●・・・・□●○”の形で登録されており、
文中には、口の一部を送りすぎているか、あるいは・O
の一部が直前の口に取り込まれている単語として存在す
るものを表す。例えば第3図(二〉図中(alを用いて
示す辞書6中の見出し“必ず”は“口O”からなり、単
語“必らず”は“口00′とからなり、単語中の“ら”
の仮名が1つ送りすぎになっている。この“ら”は、“
・”としてその有無を問われないので、′必ず”は、0
1型に該当する。YESの場合には09型として分類す
る。NOの場合には図中■を実行する。
FIG. 2 shows the operation in the classification processing section 5. ■ in the figure is
This shows a state in which it is determined whether or not the type is a type that can match forwarded kana (hereinafter referred to as 0゛ type). This 0゛ type is registered in the dictionary as the heading "□●□●...□●○".
Do you use too many parts of your mouth in your sentences, or do you use ・O?
Represents something that exists as a word in which part of is taken into the previous mouth. For example, in the dictionary 6 shown in Figure 3 (2〉(al), the entry ``necessarily'' consists of ``mouth O'', the word ``necessarily'' consists of ``mouth 00','' and others"
One kana has been sent too many times. This “ra” is “
・Since there is no question as to whether it exists or not, 'must be' means 0.
It corresponds to type 1. If YES, it is classified as type 09. In the case of NO, execute the process (■) in the figure.

図中■は、見出しの語尾が仮名であるか否かを判別する
状態を示す。これは、単純型(以下A型という)である
か否かを判別することを意味し、照合部4の機能によっ
て暗に含まれている選別剤と複合して辞書6中から読み
出した見出しが“口・・・□●○”の形であり、文中で
は、“・○”の部分が省略されている単語として出現す
るか否かを判別することを意味している。例えば第3図
(イ)図中(b)を用いて示す辞書6中の見出し“著し
”は“口○”からなり、単語“暑い”は辞書6中の見出
しの“○”に相当する“し”が省略されているので、こ
れは、A型に該当する。YESの場合にはA型として分
類する。Noの場合には図中■を実行する。
■ in the figure indicates a state in which it is determined whether the ending of the heading is a kana. This means to determine whether or not it is a simple type (hereinafter referred to as type A). It is in the form of "mouth...□●○", meaning that it is determined whether or not the word appears as a word with the "・○" part omitted in the sentence. For example, the heading "author" in the dictionary 6 shown using (b) in FIG. Since "shi" is omitted, this corresponds to type A. If YES, it is classified as type A. In the case of No, execute ■ in the figure.

図中■は、漢字語尾送り型(以下B型という)であるか
否かを判別する状態を示す。これは、辞書中の見出しが
“★□”の形であり、文中では、“口”の最後の音が余
分に送られている単語として出現するものであるか否か
を判別することを意味している。例えば第3図(ロ)図
中fc)を用いて示すように、辞書6中の見出し“憤“
は“口“からなり、単語“憤おる”は辞書6中の見出し
に音“お”が余分に送られている単語に、活用語尾“る
” (例では活用語尾が別単語として扱われている)が
付加されているので、これは、B型に該当する。YES
の場合にはB型として分類する。
In the figure, ■ indicates a state in which it is determined whether or not the kanji is a word-ending type (hereinafter referred to as type B). This means determining whether the heading in the dictionary is in the form of “★□” and in the sentence, the final sound of “mouth” appears as an extra word. are doing. For example, as shown in FIG.
is composed of "mouth", and the word "angoru" is a word with an extra sound "o" in the entry in Dictionary 6, and the conjugated ending "ru" (in the example, the conjugated ending is treated as a separate word). ) is added, so this corresponds to type B. YES
In this case, it is classified as type B.

Noの場合には図中■を実行する。In the case of No, execute ■ in the figure.

図中■は、連用形語尾付加型(以下R型という)である
か否かを判別する状態を示す。これは、辞書中には、見
出しが“★□”の形の動詞しか登録されておらず、連用
形語尾があれば、形態緊解。
In the figure, ■ indicates a state in which it is determined whether or not the adjunctive form is the suffix addition type (hereinafter referred to as the R type). This is because the dictionary only registers verbs with the heading "★□", and if there is a conjunctive ending, it is morphologically tense.

析以降の解析で名詞として扱うものである。例えば第3
図(ハ)図中(dlを用いて示すように、辞書6中の見
出し“間”は“口”からなり、これは、動詞として登録
されており、単語中に名詞“間”(例えば“間l”など
)として出現する場合には当該R型に分類される。YE
Sの場合にはR型として分類する。Noの場合には仮名
抜き単純型(以下〇−型という)に分類する。この〇−
型は、辞書中には、“□●□●・・・・口・”の形で登
録されており、単語中では“・”の部分が任意に増減す
るものである。例えば第4図(ホ)図中(f)に示すよ
うに、辞書中の見出し“寒空”は“ロロ”からなり、単
語中の“寒む空”は“む”の部分が増大したものであっ
て、〇−型と分類される。
It is treated as a noun in subsequent analyses. For example, the third
Figure (c) As shown in the figure (dl), the entry "ma" in the dictionary 6 consists of "mouth", which is registered as a verb, and the noun "ma" (for example, " If it appears as a type (e.g. "between 1"), it is classified as the relevant R type.YE
In the case of S, it is classified as R type. If No, it is classified as simple type without kana (hereinafter referred to as 〇-type). This 〇−
The pattern is registered in the dictionary as "□●□●...mouth.", and the "•" part in the word can be increased or decreased arbitrarily. For example, as shown in Figure 4 (E) and (F), the dictionary entry "Kansora" consists of "roro", and the word "Kamusora" has an increased "mu" part. Yes, it is classified as type ○-.

その他に、第4図(へ)に示すように、R−0−複合型
がある。これは、R型と〇−型とを複合したものである
In addition, as shown in FIG. 4(f), there is an R-0-complex type. This is a combination of R type and O-type.

以上のように、辞書中の見出しと、単語との間の送り仮
名の関係から上述したように分類することが可能になり
、例え辞書中に予め登録された見出しがなくてもその単
語の検索を行うことができる。
As mentioned above, it is now possible to classify the word as described above based on the relationship between the heading in the dictionary and the okurikana between the word, and even if there is no heading registered in advance in the dictionary, it is possible to search for that word. It can be performed.

第3図および第4図において、左欄に示す単語は、従来
の方式では、解析不能となったものを示し、中央の欄は
正しく分解されるような表記であって辞書6中に予め登
録されているものを示す。
In FIGS. 3 and 4, the words shown in the left column indicate words that cannot be analyzed using the conventional method, and the center column shows words that can be correctly decomposed and are registered in advance in the dictionary 6. Show what is being done.

図中“1”は辞書6中の別の単語として登録されている
区切りを表す。尚、右欄は従来の辞書6を用いて失敗し
た失敗パターン例を示す。図中■は誤った単語を表し、
◎は偶然正しい単語を引いたことを表し、■は未登録語
として処理されたものを示す。
In the figure, "1" represents a break registered as another word in the dictionary 6. Incidentally, the right column shows examples of failure patterns in which the conventional dictionary 6 was used. ■ in the diagram represents an incorrect word,
◎ indicates that the correct word was drawn by chance, and ■ indicates that it was processed as an unregistered word.

〔発明の効果〕〔Effect of the invention〕

以上説明したように、本発明によれば、辞書中の見出し
と、単語中の送り仮名との関係から送り仮名合致可能型
、単純型、および漢字語尾送り型などに分類する構成を
採用しているため、例え辞書中に同一の送り仮名を含む
見出しが見つからなくても辞書中の見出しおよび単語か
ら分類を行い、所望の単語の検索を行うことができる。
As explained above, according to the present invention, a configuration is adopted in which classification is performed based on the relationship between the heading in the dictionary and the okurikana in the word, such as the okuri-kana matching type, the simple type, and the kanji-ending type. Therefore, even if a heading containing the same okurikana is not found in the dictionary, classification can be performed based on the headings and words in the dictionary, and a desired word can be searched.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の原理構成図、第2図は本発明の動作説
明フローチャート、第3図および第4図は本発明の分類
説明図を示す。 図中、1は検索部、2は開始位置検出部、3は漢字抽出
部、4は照合部、5は分類処理部、6は辞書を表す。
FIG. 1 is a diagram showing the principle configuration of the present invention, FIG. 2 is a flow chart explaining the operation of the present invention, and FIGS. 3 and 4 are diagrams explaining the classification of the present invention. In the figure, 1 is a search section, 2 is a start position detection section, 3 is a kanji extraction section, 4 is a collation section, 5 is a classification processing section, and 6 is a dictionary.

Claims (1)

【特許請求の範囲】 入力されたかな混じり文中に含まれる単語の送り仮名の
分類を行う送り仮名分類方式において、辞書中の見出し
が□●□●・・・□●○(□は1文字の漢字、●は0個
以上の平板名、○は1文字の平板名を表す、以下同様)
の形で登録されており、文中の単語としては、□の一部
を送りすぎているか、あるいは●○の一部が直前の□に
取り込まれている送り仮名合致可能型(1)と、辞書中
の見出しが□・・・□●○の形で登録されており、文中
の単語としては、●○の部分が省略されている単純型(
2)と、 辞書中の見出しが★□(★は0個以上の任意の文字)の
形で登録されており、文中の単語としては、□の最後の
音が余分に送られている漢字語尾送り型(3)とに少な
くとも分類するよう構成したことを特徴とする送り仮名
分類方式。
[Claims] In the okurikana classification method for classifying the okurikana of words included in input kana-mixed sentences, the headings in the dictionary are □●□●...□●○ (□ is a single character) Kanji, ● represents 0 or more flat names, ○ represents one character flat name, the same applies hereafter)
It is registered in the form of , and as words in the sentence, there is a type (1) in which part of □ is sent too much, or a part of ●○ is incorporated into the immediately preceding □, and a dictionary. The headings inside are registered in the form □...□●○, and the words in the sentence are in the simple form (with the ●○ part omitted).
2), the heading in the dictionary is registered in the form of ★□ (★ is any character of 0 or more), and the word in the sentence is a kanji ending with the last sound of □ added. An okurikana classification system characterized in that it is configured to classify at least into okurikana type (3).
JP62044107A 1987-02-28 1987-02-28 Sending kana classification device in word search device Expired - Lifetime JPH0833891B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62044107A JPH0833891B2 (en) 1987-02-28 1987-02-28 Sending kana classification device in word search device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62044107A JPH0833891B2 (en) 1987-02-28 1987-02-28 Sending kana classification device in word search device

Publications (2)

Publication Number Publication Date
JPS63213061A true JPS63213061A (en) 1988-09-05
JPH0833891B2 JPH0833891B2 (en) 1996-03-29

Family

ID=12682386

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62044107A Expired - Lifetime JPH0833891B2 (en) 1987-02-28 1987-02-28 Sending kana classification device in word search device

Country Status (1)

Country Link
JP (1) JPH0833891B2 (en)

Also Published As

Publication number Publication date
JPH0833891B2 (en) 1996-03-29

Similar Documents

Publication Publication Date Title
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US7269547B2 (en) Tokenizer for a natural language processing system
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JPH06301722A (en) Morpheme analyzing device and keyword extracting device
Al-Taani et al. Searching concepts and keywords in the Holy Quran
JPS63213061A (en) System for classifying declensional kana ending
JPH1011431A (en) Kanji retrieval device and method
JPH03105465A (en) Compound word extraction device
JP3752535B2 (en) Translation selection device and translation device
JP2002278963A (en) Example translation device
JP4262529B2 (en) Full-text search device, method, program, and recording medium
JPS63213062A (en) Retrieving system for declensional kana ending
JPH04188364A (en) Device for extracting intrinsic wording of japanese sentence
JPS6395573A (en) Method for processing unknown word in analysis of japanese sentence morpheme
JPS6368972A (en) Unregistered word processing system
Morris A review of recent developments in term conflation approaches for Arabic text information retrieval
JPS63234348A (en) Back-up system for correction of sentence
JPS63213064A (en) Deciding system for declensional kana ending
Lap et al. Indexing multilingual information on the web
JPS63213063A (en) Deciding system for declensional kana ending
JPH03161865A (en) Method for retrieving document
JPH05225183A (en) Automatic error detector for words in japanese sentence
JPS63284676A (en) Character string processor
JPH05108710A (en) English-japanese machine translation system
JPS63136264A (en) Mechanical translating device