JPS63213061A - System for classifying declensional kana ending - Google Patents
System for classifying declensional kana endingInfo
- Publication number
- JPS63213061A JPS63213061A JP62044107A JP4410787A JPS63213061A JP S63213061 A JPS63213061 A JP S63213061A JP 62044107 A JP62044107 A JP 62044107A JP 4410787 A JP4410787 A JP 4410787A JP S63213061 A JPS63213061 A JP S63213061A
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- word
- kana
- kanji
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 235000016496 Panda oleosa Nutrition 0.000 title abstract description 12
- 240000000220 Panda oleosa Species 0.000 title abstract description 12
- 238000000034 method Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
【発明の詳細な説明】
〔概要〕
この発明は、ある漢字仮名混じり単語が単語として辞書
に登録されているか検索する際、辞書中から見つけ出し
た見出しと、検索しようとする単語の送り仮名のっけか
たとが異なる場合、この単語を検索し得ない問題を解決
するため、辞書中の見出しと、単語中の送り仮名との関
係から送り仮名合致可能型、単純型、および漢字語尾送
り型などに分類することにより、例え辞書中に同一の送
り仮名を持つ見出しが見つからなくても所望の単語の検
索を行い得るようにしたものである。[Detailed Description of the Invention] [Summary] This invention, when searching to see if a certain kanji-kana mixed word is registered as a word in a dictionary, uses the heading found in the dictionary and the name of the word to be searched for. In order to solve the problem of not being able to search for a word when the words are different from each other, the word is classified into types that can match okurigana, simple types, and kanji endings, based on the relationship between the heading in the dictionary and the okurikana in the word. By doing so, it is possible to search for a desired word even if no heading with the same okurikana is found in the dictionary.
本発明は、辞書中の見出しと、検索しようとする語中の
送り仮名との関係からこれらの類型を分類して例え辞書
中に合致するものがなくても所望の単語の検索を行い得
るよう構成した送り仮名分類方式に関するものである。The present invention classifies these types based on the relationship between the heading in the dictionary and the okurikana in the word to be searched, so that the desired word can be searched even if there is no matching word in the dictionary. This paper relates to the constructed okurikana classification system.
〔従来の技術と発明が解決しようとする問題点〕自然言
語処理の分野、特に機械翻訳、自然言語インタフェース
(例えば自然言語によるデータベース検索等)などでは
、コンピュータに文章を理解させる必要がある。その第
1段階では、辞書を引いて文を文節に分解し、同時に単
語の意味を取り出すことが行われている。[Problems to be solved by the prior art and the invention] In the field of natural language processing, particularly in machine translation, natural language interfaces (for example, database searches using natural language, etc.), it is necessary to make computers understand sentences. In the first stage, a dictionary is used to break down sentences into clauses and at the same time extract the meanings of words.
従来、コンピュータを用いて辞書を検索するとき、ある
単語の送り仮名の付は方が辞書中の見出しのそれと異な
る場合、その単語を引くことができないという問題点が
あった。強いてその単語を引けるようにするには、辞書
中の見出しとして引こうとする単語に対して考えられる
全ての送り仮名を予め登録しておく必要があり、極めて
辞書の容量が大きくなり、現実的でないと共に、必ずし
も全ての送り仮名について辞書に登録し得ないという問
題点があった。このため、辞書に単語の全ての考えられ
る送り仮名を予め登録するのではなくて、辞書中の見出
しと、単語の送り仮名との間の関係を分類して例え辞書
中に合致するものがなくても所望の単語の検索を行い得
るようにすることが望まれている。Conventionally, when searching a dictionary using a computer, there has been a problem that if the okurikana of a certain word is different from that of the heading in the dictionary, the word cannot be retrieved. In order to be able to force a word to be looked up, it is necessary to register in advance all possible okurikana for the word to be looked up as a heading in the dictionary, which increases the capacity of the dictionary and makes it impractical. In addition, there was a problem that not all okurigana could be registered in the dictionary. For this reason, instead of pre-registering all possible okurikana of a word in a dictionary, we classify the relationship between the heading in the dictionary and the okurikana of a word, even if there is no match in the dictionary. It is desired to be able to search for a desired word even if the user is searching for a desired word.
本発明は、前記問題点を解決するために、辞書中の見出
しと、単語中の送り仮名との関係から送り仮名合致可能
型、単純型、および漢字語尾送り型などに少なくとも分
類することにより、例え辞書中に同一の送り仮名が見つ
からなくても所望の単語の検索を行い得るようにしてい
る。In order to solve the above-mentioned problems, the present invention classifies the words into at least okuri-kana matching type, simple type, kanji ending-adjusting type, etc. based on the relationship between the heading in the dictionary and the okurikana in the word. Even if the same okurikana is not found in the dictionary, it is possible to search for a desired word.
第1図は本発明の原理構成図を示す。図中検索部1は入
力データである文字列に合致する見出しを辞書6中から
検索するものである。FIG. 1 shows a basic configuration diagram of the present invention. A search unit 1 in the figure searches a dictionary 6 for a heading that matches a character string that is input data.
開始位置検出部2は、本発明に係わる分類方式の適用が
可能と推定される文字列の開始位置を入力された文字列
から検出するものである。The start position detection unit 2 detects, from an input character string, a start position of a character string to which it is estimated that the classification method according to the present invention can be applied.
漢字抽出部3は、開始位置検出部2で検出された文字列
中の漢字のみを抽出するものである。The kanji extractor 3 extracts only kanji from the character string detected by the start position detector 2.
照合部4は、漢字抽出部3によって抽出された漢字を見
出し中に含むもの全てを辞書6中から見つけ出すもので
ある。The collation unit 4 finds out from the dictionary 6 all headings that contain the kanji extracted by the kanji extraction unit 3.
分類処理部5は、開始位置検出部2で検出された文字列
と、照合部4によって見つけ出された辞書6の見出しと
の関係に基づいて、見出し語の送り仮名の分類を行うも
のである。The classification processing unit 5 classifies the okurigana of the entry word based on the relationship between the character string detected by the start position detection unit 2 and the entry in the dictionary 6 found by the matching unit 4. .
次に、動作を説明する。 Next, the operation will be explained.
第1図において、文字列の入力データは、検索部1によ
って辞書6中から合致する見出しが検索され、見つかっ
た場合には、先頭から順次その見出しデータを出力デー
タとして出力する。一方、合致するものが見つからなか
った場合、開始位置検出部2は、送り仮名の違いによっ
て検索不能となったと推定される文字列の開始位置を見
つけ出す。漢字抽出部3はこの見つけ出した位置から始
めて単語を構成すると推定される長さの文字列に含まれ
る漢字のみを抽出する。照合部4は、この抽出した漢字
を含む見出しを辞書6中に予め登録されているものと照
合して読み出す。分類処理部5は、辞書6中から読み出
された上記漢字を含む見出しと、単語中の送り仮名など
との関係から分類を行う。In FIG. 1, a search unit 1 searches a dictionary 6 for a matching heading for character string input data, and if a matching heading is found, the heading data is sequentially output from the beginning as output data. On the other hand, if no match is found, the start position detection unit 2 finds the start position of the character string that is presumed to be unsearchable due to the difference in okurigana. Starting from this found position, the kanji extracting unit 3 extracts only kanji included in a character string of a length estimated to constitute a word. The collation unit 4 collates the heading containing the extracted kanji with those registered in advance in the dictionary 6 and reads it out. The classification processing unit 5 performs classification based on the relationship between the heading containing the above-mentioned kanji read from the dictionary 6 and the okurikana in the word.
以上のように、辞書6中の見出しと合致しない文字列を
含む単語に対して、抽出された漢字部分を含む見出しを
辞書6中から読み出し、両者の間の送り仮名の関係から
分類を行うことにより、例え辞書6中に登録されていな
い見出しに対しても単語の検索を行うことが可能となる
。As described above, for words that include character strings that do not match the headings in the dictionary 6, the headings that include the extracted kanji parts are read out from the dictionary 6, and classification is performed based on the relationship between the okurikana characters. This makes it possible to search for words even if they are not registered in the dictionary 6.
次に、第2図ないし第4図を用いて本発明の1実施例の
構成および動作を詳細に説明する。Next, the configuration and operation of one embodiment of the present invention will be explained in detail using FIGS. 2 to 4.
第2図は分類処理部5における動作を表す。図中■は、
送り仮名合致可能型(以下0゛型という)であるか否か
を判別する状態を示す。この0゛型は、辞書中の見出し
が“□●□●・・・・□●○”の形で登録されており、
文中には、口の一部を送りすぎているか、あるいは・O
の一部が直前の口に取り込まれている単語として存在す
るものを表す。例えば第3図(二〉図中(alを用いて
示す辞書6中の見出し“必ず”は“口O”からなり、単
語“必らず”は“口00′とからなり、単語中の“ら”
の仮名が1つ送りすぎになっている。この“ら”は、“
・”としてその有無を問われないので、′必ず”は、0
1型に該当する。YESの場合には09型として分類す
る。NOの場合には図中■を実行する。FIG. 2 shows the operation in the classification processing section 5. ■ in the figure is
This shows a state in which it is determined whether or not the type is a type that can match forwarded kana (hereinafter referred to as 0゛ type). This 0゛ type is registered in the dictionary as the heading "□●□●...□●○".
Do you use too many parts of your mouth in your sentences, or do you use ・O?
Represents something that exists as a word in which part of is taken into the previous mouth. For example, in the dictionary 6 shown in Figure 3 (2〉(al), the entry ``necessarily'' consists of ``mouth O'', the word ``necessarily'' consists of ``mouth 00','' and others"
One kana has been sent too many times. This “ra” is “
・Since there is no question as to whether it exists or not, 'must be' means 0.
It corresponds to type 1. If YES, it is classified as type 09. In the case of NO, execute the process (■) in the figure.
図中■は、見出しの語尾が仮名であるか否かを判別する
状態を示す。これは、単純型(以下A型という)である
か否かを判別することを意味し、照合部4の機能によっ
て暗に含まれている選別剤と複合して辞書6中から読み
出した見出しが“口・・・□●○”の形であり、文中で
は、“・○”の部分が省略されている単語として出現す
るか否かを判別することを意味している。例えば第3図
(イ)図中(b)を用いて示す辞書6中の見出し“著し
”は“口○”からなり、単語“暑い”は辞書6中の見出
しの“○”に相当する“し”が省略されているので、こ
れは、A型に該当する。YESの場合にはA型として分
類する。Noの場合には図中■を実行する。■ in the figure indicates a state in which it is determined whether the ending of the heading is a kana. This means to determine whether or not it is a simple type (hereinafter referred to as type A). It is in the form of "mouth...□●○", meaning that it is determined whether or not the word appears as a word with the "・○" part omitted in the sentence. For example, the heading "author" in the dictionary 6 shown using (b) in FIG. Since "shi" is omitted, this corresponds to type A. If YES, it is classified as type A. In the case of No, execute ■ in the figure.
図中■は、漢字語尾送り型(以下B型という)であるか
否かを判別する状態を示す。これは、辞書中の見出しが
“★□”の形であり、文中では、“口”の最後の音が余
分に送られている単語として出現するものであるか否か
を判別することを意味している。例えば第3図(ロ)図
中fc)を用いて示すように、辞書6中の見出し“憤“
は“口“からなり、単語“憤おる”は辞書6中の見出し
に音“お”が余分に送られている単語に、活用語尾“る
” (例では活用語尾が別単語として扱われている)が
付加されているので、これは、B型に該当する。YES
の場合にはB型として分類する。In the figure, ■ indicates a state in which it is determined whether or not the kanji is a word-ending type (hereinafter referred to as type B). This means determining whether the heading in the dictionary is in the form of “★□” and in the sentence, the final sound of “mouth” appears as an extra word. are doing. For example, as shown in FIG.
is composed of "mouth", and the word "angoru" is a word with an extra sound "o" in the entry in Dictionary 6, and the conjugated ending "ru" (in the example, the conjugated ending is treated as a separate word). ) is added, so this corresponds to type B. YES
In this case, it is classified as type B.
Noの場合には図中■を実行する。In the case of No, execute ■ in the figure.
図中■は、連用形語尾付加型(以下R型という)である
か否かを判別する状態を示す。これは、辞書中には、見
出しが“★□”の形の動詞しか登録されておらず、連用
形語尾があれば、形態緊解。In the figure, ■ indicates a state in which it is determined whether or not the adjunctive form is the suffix addition type (hereinafter referred to as the R type). This is because the dictionary only registers verbs with the heading "★□", and if there is a conjunctive ending, it is morphologically tense.
析以降の解析で名詞として扱うものである。例えば第3
図(ハ)図中(dlを用いて示すように、辞書6中の見
出し“間”は“口”からなり、これは、動詞として登録
されており、単語中に名詞“間”(例えば“間l”など
)として出現する場合には当該R型に分類される。YE
Sの場合にはR型として分類する。Noの場合には仮名
抜き単純型(以下〇−型という)に分類する。この〇−
型は、辞書中には、“□●□●・・・・口・”の形で登
録されており、単語中では“・”の部分が任意に増減す
るものである。例えば第4図(ホ)図中(f)に示すよ
うに、辞書中の見出し“寒空”は“ロロ”からなり、単
語中の“寒む空”は“む”の部分が増大したものであっ
て、〇−型と分類される。It is treated as a noun in subsequent analyses. For example, the third
Figure (c) As shown in the figure (dl), the entry "ma" in the dictionary 6 consists of "mouth", which is registered as a verb, and the noun "ma" (for example, " If it appears as a type (e.g. "between 1"), it is classified as the relevant R type.YE
In the case of S, it is classified as R type. If No, it is classified as simple type without kana (hereinafter referred to as 〇-type). This 〇−
The pattern is registered in the dictionary as "□●□●...mouth.", and the "•" part in the word can be increased or decreased arbitrarily. For example, as shown in Figure 4 (E) and (F), the dictionary entry "Kansora" consists of "roro", and the word "Kamusora" has an increased "mu" part. Yes, it is classified as type ○-.
その他に、第4図(へ)に示すように、R−0−複合型
がある。これは、R型と〇−型とを複合したものである
。In addition, as shown in FIG. 4(f), there is an R-0-complex type. This is a combination of R type and O-type.
以上のように、辞書中の見出しと、単語との間の送り仮
名の関係から上述したように分類することが可能になり
、例え辞書中に予め登録された見出しがなくてもその単
語の検索を行うことができる。As mentioned above, it is now possible to classify the word as described above based on the relationship between the heading in the dictionary and the okurikana between the word, and even if there is no heading registered in advance in the dictionary, it is possible to search for that word. It can be performed.
第3図および第4図において、左欄に示す単語は、従来
の方式では、解析不能となったものを示し、中央の欄は
正しく分解されるような表記であって辞書6中に予め登
録されているものを示す。In FIGS. 3 and 4, the words shown in the left column indicate words that cannot be analyzed using the conventional method, and the center column shows words that can be correctly decomposed and are registered in advance in the dictionary 6. Show what is being done.
図中“1”は辞書6中の別の単語として登録されている
区切りを表す。尚、右欄は従来の辞書6を用いて失敗し
た失敗パターン例を示す。図中■は誤った単語を表し、
◎は偶然正しい単語を引いたことを表し、■は未登録語
として処理されたものを示す。In the figure, "1" represents a break registered as another word in the dictionary 6. Incidentally, the right column shows examples of failure patterns in which the conventional dictionary 6 was used. ■ in the diagram represents an incorrect word,
◎ indicates that the correct word was drawn by chance, and ■ indicates that it was processed as an unregistered word.
以上説明したように、本発明によれば、辞書中の見出し
と、単語中の送り仮名との関係から送り仮名合致可能型
、単純型、および漢字語尾送り型などに分類する構成を
採用しているため、例え辞書中に同一の送り仮名を含む
見出しが見つからなくても辞書中の見出しおよび単語か
ら分類を行い、所望の単語の検索を行うことができる。As explained above, according to the present invention, a configuration is adopted in which classification is performed based on the relationship between the heading in the dictionary and the okurikana in the word, such as the okuri-kana matching type, the simple type, and the kanji-ending type. Therefore, even if a heading containing the same okurikana is not found in the dictionary, classification can be performed based on the headings and words in the dictionary, and a desired word can be searched.
第1図は本発明の原理構成図、第2図は本発明の動作説
明フローチャート、第3図および第4図は本発明の分類
説明図を示す。
図中、1は検索部、2は開始位置検出部、3は漢字抽出
部、4は照合部、5は分類処理部、6は辞書を表す。FIG. 1 is a diagram showing the principle configuration of the present invention, FIG. 2 is a flow chart explaining the operation of the present invention, and FIGS. 3 and 4 are diagrams explaining the classification of the present invention. In the figure, 1 is a search section, 2 is a start position detection section, 3 is a kanji extraction section, 4 is a collation section, 5 is a classification processing section, and 6 is a dictionary.
Claims (1)
分類を行う送り仮名分類方式において、辞書中の見出し
が□●□●・・・□●○(□は1文字の漢字、●は0個
以上の平板名、○は1文字の平板名を表す、以下同様)
の形で登録されており、文中の単語としては、□の一部
を送りすぎているか、あるいは●○の一部が直前の□に
取り込まれている送り仮名合致可能型(1)と、辞書中
の見出しが□・・・□●○の形で登録されており、文中
の単語としては、●○の部分が省略されている単純型(
2)と、 辞書中の見出しが★□(★は0個以上の任意の文字)の
形で登録されており、文中の単語としては、□の最後の
音が余分に送られている漢字語尾送り型(3)とに少な
くとも分類するよう構成したことを特徴とする送り仮名
分類方式。[Claims] In the okurikana classification method for classifying the okurikana of words included in input kana-mixed sentences, the headings in the dictionary are □●□●...□●○ (□ is a single character) Kanji, ● represents 0 or more flat names, ○ represents one character flat name, the same applies hereafter)
It is registered in the form of , and as words in the sentence, there is a type (1) in which part of □ is sent too much, or a part of ●○ is incorporated into the immediately preceding □, and a dictionary. The headings inside are registered in the form □...□●○, and the words in the sentence are in the simple form (with the ●○ part omitted).
2), the heading in the dictionary is registered in the form of ★□ (★ is any character of 0 or more), and the word in the sentence is a kanji ending with the last sound of □ added. An okurikana classification system characterized in that it is configured to classify at least into okurikana type (3).
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62044107A JPH0833891B2 (en) | 1987-02-28 | 1987-02-28 | Sending kana classification device in word search device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62044107A JPH0833891B2 (en) | 1987-02-28 | 1987-02-28 | Sending kana classification device in word search device |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS63213061A true JPS63213061A (en) | 1988-09-05 |
JPH0833891B2 JPH0833891B2 (en) | 1996-03-29 |
Family
ID=12682386
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP62044107A Expired - Lifetime JPH0833891B2 (en) | 1987-02-28 | 1987-02-28 | Sending kana classification device in word search device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0833891B2 (en) |
-
1987
- 1987-02-28 JP JP62044107A patent/JPH0833891B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH0833891B2 (en) | 1996-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5890103A (en) | Method and apparatus for improved tokenization of natural language text | |
US7269547B2 (en) | Tokenizer for a natural language processing system | |
WO1997004405A9 (en) | Method and apparatus for automated search and retrieval processing | |
JPH06301722A (en) | Morpheme analyzing device and keyword extracting device | |
Al-Taani et al. | Searching concepts and keywords in the Holy Quran | |
JPS63213061A (en) | System for classifying declensional kana ending | |
JPH1011431A (en) | Kanji retrieval device and method | |
JPH03105465A (en) | Compound word extraction device | |
JP3752535B2 (en) | Translation selection device and translation device | |
JP2002278963A (en) | Example translation device | |
JP4262529B2 (en) | Full-text search device, method, program, and recording medium | |
JPS63213062A (en) | Retrieving system for declensional kana ending | |
JPH04188364A (en) | Device for extracting intrinsic wording of japanese sentence | |
JPS6395573A (en) | Method for processing unknown word in analysis of japanese sentence morpheme | |
JPS6368972A (en) | Unregistered word processing system | |
Morris | A review of recent developments in term conflation approaches for Arabic text information retrieval | |
JPS63234348A (en) | Back-up system for correction of sentence | |
JPS63213064A (en) | Deciding system for declensional kana ending | |
Lap et al. | Indexing multilingual information on the web | |
JPS63213063A (en) | Deciding system for declensional kana ending | |
JPH03161865A (en) | Method for retrieving document | |
JPH05225183A (en) | Automatic error detector for words in japanese sentence | |
JPS63284676A (en) | Character string processor | |
JPH05108710A (en) | English-japanese machine translation system | |
JPS63136264A (en) | Mechanical translating device |