JPS62184572A - Retrieving system for dictionary of cooperative compound word in word division device - Google Patents
Retrieving system for dictionary of cooperative compound word in word division deviceInfo
- Publication number
- JPS62184572A JPS62184572A JP61027288A JP2728886A JPS62184572A JP S62184572 A JPS62184572 A JP S62184572A JP 61027288 A JP61027288 A JP 61027288A JP 2728886 A JP2728886 A JP 2728886A JP S62184572 A JPS62184572 A JP S62184572A
- Authority
- JP
- Japan
- Prior art keywords
- word
- entry
- character string
- dictionary
- division
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 150000001875 compounds Chemical class 0.000 title claims abstract description 28
- 238000013519 translation Methods 0.000 claims abstract description 13
- 238000000034 method Methods 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 5
- 230000014616 translation Effects 0.000 claims 2
- 230000002079 cooperative effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 7
- 235000009508 confectionery Nutrition 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
Description
【発明の詳細な説明】 〔目次〕 概要 産業上の利用分野 従来の技術 発BAが解決しようとする問題点 問題点を解決するための手段 作用 実施例 発明の効果 〔概要〕 機械翻訳等における入力文の単語分割であって。[Detailed description of the invention] 〔table of contents〕 overview Industrial applications Conventional technology Problems that BA is trying to solve Means to solve problems action Example Effect of the invention 〔overview〕 Word segmentation of an input sentence in machine translation, etc.
離れた単鎖同志の呼応によって元々の単語の意味とは異
なる意味をもつような複合@(呼応複合語)を含む入力
文の単語分割において、呼応複合語の見出しが複数エン
トリから構成される辞書を設け。In word segmentation of an input sentence containing a compound @ (consonant compound word) that has a meaning different from the original meaning of the word due to the consonance of distant single-chain comrades, a dictionary in which the heading of the consonant compound word is composed of multiple entries. established.
辞書に、呼応する飴が指定されている場合、その呼応す
る飴が、入力文字列中にあるか否かを検査することによ
シ、呼応複合語に対応する辞書内容を辞書引きできるよ
うにしたこと1、
〔産業上の利用分野〕
本発明は0機械翻訳の際の単諸分割装置における呼応複
合語の辞書検索方式に関する。When a consonant candy is specified in the dictionary, it is now possible to look up the dictionary contents corresponding to the consonant compound word by checking whether the consonant candy is in the input string. What has been done 1. [Industrial Application Field] The present invention relates to a dictionary search method for vocative compound words in a simple division device during zero machine translation.
自動翻訳装置を使用して機械翻訳を行なう場合。When performing machine translation using an automatic translation device.
被翻訳文を単語分割し、各分割した単語に率胎情@iを
添付し、それをもとに文解析を行なう。このような機械
翻訳において、単諸分割装置の出力結果を基に0文解析
を行なう場合、入力文中に呼応複合語(離れた単語同志
の呼応により元々の単語の意味とは異なる意味をもつよ
うになる@)があると、それを構成する単語ごとの辞書
1’3谷でになく、呼応複合語としての意味に対応する
辞書内容を検索しなけれはならず、このための能率の良
い検索方式が要望されている。The sentence to be translated is divided into words, a rate @i is attached to each divided word, and the sentence is analyzed based on that. In such machine translation, when zero sentences are analyzed based on the output results of a simple segmentation device, it is necessary to create consonant compound words (consonance between distant words that have a meaning different from the original meaning of the word) in the input sentence. When there is @), it is necessary to search the dictionary contents corresponding to the meaning as a consonant compound word, not in the dictionary 1'3 valley of each word that makes up the word, and there is an efficient search for this purpose. A method is required.
従来の単諸分割装置の基本的方式は、入力文字列を先頭
から順に辞書のエントリと一致する部分を切出し、同時
にその辞書内容を付加するものである。The basic method of conventional single-segmentation devices is to sequentially cut out parts of an input character string that match dictionary entries from the beginning, and at the same time add the contents of the dictionary.
オ6図は、この従来の単諸分割装置及び辞書の概要を、
英飴→日本語翻訳に用いた例として示す図である。オ6
図において、51は入力文字列を示し、52に単諸分割
装置、53は辞書、54は単語分割出力を示す。Figure 6 shows an overview of this conventional single division device and dictionary.
It is a figure shown as an example used for English candy → Japanese translation. O6
In the figure, 51 indicates an input character string, 52 a single division device, 53 a dictionary, and 54 a word division output.
辞書53には、各単語とそれに対応する訳がつけられて
おシ、rgiveJO後には「give away J
pr give up J等の熟飴がエントリされて
いる。この場合「give up Jは、入力文字列5
1に示す「I will give it up 5o
on Jの工うに、「itJをはさんで置かれ、互に呼
応して「あきらめる」という意味をもつが、この場合に
は、各単語出力54に示すように、呼応複合語としての
意味は得られなく、呼応複合語を#f成する個々の単語
としての辞書1’3谷しか得られない。Dictionary 53 has each word and its corresponding translation.
Mature candy such as pr give up J is entered. In this case, "give up J" means input string 5.
"I will give it up 5o" shown in 1.
In the word "on J", it is placed between "itJ" and has the meaning of "giving up" in response to each other, but in this case, as shown in each word output 54, the meaning as a consonant compound word is Instead, only the dictionary 1'3 valleys as individual words forming the consonant compound word #f can be obtained.
果際には、同一文字列で異なる辞書のエン) IJがあ
る場合や、先頭に同−文字列金倉む異なる長さのエン)
IJがある場合があるので、複数候補がある場合は、
適切な評価関数や前後の候補との接続検査等で一つに選
択されたシ、可能な分割のすべてが示されたシする。In the end, if there is an IJ in the same character string but different dictionaries, or if there is an IJ at the beginning, the same character string has different lengths)
There may be IJ, so if there are multiple candidates,
All possible divisions are shown when a single image is selected using an appropriate evaluation function or a connection check with previous and subsequent candidates.
いずれにしても、 r give it up J
の場合の「give upJのような呼応複合語の場
合、従来のような単諸分割装置による分割方式では、正
確な翻訳が不可能となる。このため、従来装置において
は、別に後から文解析によって呼応処理を行なっている
。In any case, r give it up J
In the case of a consonant compound word such as ``give upJ,'' it is impossible to accurately translate it using the conventional division method using a single division device. The response processing is performed by
前述のように従来装置の場合、呼応複合語の翻訳は9文
解析によっていたが、これでは文解析の負担が大きくな
るという問題点を有し、さらに。As mentioned above, in the case of the conventional device, 9-sentence analysis was used to translate vocative compound words, but this had the problem of increasing the burden of sentence analysis.
この場合、呼応複合語の情報を元々の単語の情報に含ま
せる必要があるので辞書内容が複雑になるという問題点
を有していた。In this case, there is a problem in that the contents of the dictionary become complicated because the information on the consonant compound word needs to be included in the information on the original word.
この発明は、このような問題点を改善するためになされ
たもので、簡単な構成で9文解析によらないでも呼応複
合語の適切な訳語を検索することができる単諸分割装置
における呼応複合語の辞書検索方式を提供することを目
的とする。This invention was made in order to improve such problems, and it is a simple configuration that can search for an appropriate translation of a vocative compound word without using 9-sentence analysis. The purpose is to provide a dictionary search method for words.
上述の問題点を解決するため0本発明においては、オ1
図に示すように、入力文字列lを単諸分割装置2に入力
し、辞書3を参照しながら、単語分割し、その結果を単
語分割出力4として出力する。In order to solve the above-mentioned problems, in the present invention, O1
As shown in the figure, an input character string 1 is input to a character string division device 2, and is divided into words while referring to a dictionary 3, and the result is outputted as a word division output 4.
辞書3には、呼応複合語について、第1エントリ単語の
外に、第2エントリ以降に呼応する単語が指定された呼
応複合語31が記載されておシ。In the dictionary 3, in addition to the first entry word, a consonant compound word 31 in which consonant words are specified from the second entry onward is described.
第1エントリが一致した場合で、第2エントリ以降があ
夛、そこに指定されている単語が他の入力文字中にあれ
ば、その呼応複合語を分割候補単鎖に刃口える。If the first entry matches, and if the word specified in the second entry and subsequent entries is found among other input characters, the consonant compound word is determined to be a split candidate single chain.
これによシ呼応複合賭を含む文の翻訳を正確かつ迅速に
行なうことができる。This makes it possible to accurately and quickly translate sentences containing complex combination bets.
〔実施例〕
次に、第2図、第3図、第4図を用いて9本発明の一実
施例の動作を説明する。[Embodiment] Next, the operation of an embodiment of the present invention will be described with reference to FIGS. 2, 3, and 4.
第2図は、辞書における普通の単語と呼応複合語の検索
エン) 9部を示す図であり、第3図は。Figure 2 is a diagram showing part 9 of the search engine for ordinary words and vocative compounds in a dictionary, and Figure 3 is.
入力文字列のうち、単鎖分割されていない部分文)字列
について先頭からの文字列を含む分割候補単語全検索す
るアルゴリズムを示し、第4図は、呼応複合語を含む文
字列「give it up 5oon Jの分割候補
の検索の経過を示す。Fig. 4 shows an algorithm for searching all division candidate words including the character string from the beginning of the input character string (partial sentences that are not single-stranded). The progress of searching for division candidates for up 5oon J is shown.
辞書3には、第2図に示すように呼応複合語については
、第1エントリ単語の他に第2エントリ以降に呼応する
単語が指足されている。例えば。In the dictionary 3, as shown in FIG. 2, for consonant compound words, in addition to the first entry word, consonant words from the second entry onwards are listed. for example.
[give Jについては、 「give J単独で
用いる場合のエントリ部21.呼応複合語としての「g
iveaway Jのエントリ部22.同じく呼応複合
語としての「give up Jのエントリ部23.熟
語「givein J としてのエントリ部24から
成る。各エントリ部の単語の前に置かれた数字は、その
後につづく単語の文字数を表わす。従って、rgive
Jのみのエントリ部21は、 r give Jの前に
「4」が記入されているだけで、その後にはrOJが置
かれ、 「give J の後にはなにもエントリ
がないことを示している。これに対し、呼応複合語の場
合は、エントリ部22.23に示すように、第1エント
リであるgiveの前に「4」が置かれ、第2エントリ
であるaway又はupの前にそれぞれの文字数を示す
r4J、r2Jが、それぞれ置かれる。[For give J, see “Entry section 21 when using give J alone.
Entry section 22 of iveaway J. It also consists of an entry section 23 for "give up J" as a consonant compound word and an entry section 24 for the idiom "givein J."The number placed before the word in each entry section indicates the number of characters in the word that follows. Therefore, rgive
In the J-only entry section 21, only "4" is written in front of r give J, and rOJ is placed after it, indicating that there is no entry after "give J." On the other hand, in the case of vocative compound words, as shown in entry sections 22.23, "4" is placed before the first entry, give, and "4" is placed before the second entry, away or up, respectively. r4J and r2J indicating the number of characters are placed respectively.
また、半なる熟語はエントリ部24に示すように、単語
と単語の間のスペースをも文字数に含めた形でエントリ
されておシ従って、 「give in Jの場合最初
の数字は「7」と記入されている。In addition, as shown in the entry section 24, the idiom ``half'' is entered in such a way that the space between words is included in the number of characters. Therefore, in the case of ``give in J'', the first number is ``7''. It is filled in.
文字列、rIw目1 give it up 5oon
J f例にして、この発明の検索方式全説明する。「
IwillJまでは従来方式と同様であるので、 r
give it up J以後について説明する。まず
、前記g−pまでの部分文字列長(スペースも含める)
lOinoにおき、検索文字長n=oとする(ステップ
■)。String, rIw item 1 give it up 5oon
The search method of the present invention will be fully explained using an example of Jf. "
Since it is the same as the conventional method up to IwillJ, r
I will explain what happens after give it up J. First, the partial string length (including spaces) from g to p.
1Oino, and set the search character length n=o (step ■).
次に検索文字長H=tとし、nがHo以内であることを
確認してから(ステップ■)、n:1即ち。Next, set the search character length H=t, and after confirming that n is within Ho (step ■), n:1, that is.
「g」が辞書にエントリされているかどうかを検索に行
く。Go to search to see if "g" is entered in the dictionary.
このときは「g」が検索されるが、「g」は第2エント
リをもたない(第1図辞書3参照)ので(ステップ■)
6分割候補としてそのまま登録される(ステップ■)。At this time, "g" is searched, but "g" does not have a second entry (see Dictionary 3 in Figure 1), so (step ■)
It is registered as is as a 6-division candidate (step ■).
そして再びステップ■にもどるが1文字長1で対応する
エントリがないので。Then, I go back to step ■ again, but there is no entry corresponding to the length of 1 character.
ステップ■に戻夛、以下文字長を+1して順次増す。n
が2,3の場合は、「giJ、「girJであシ対応す
るエントリがない。nが4になると、まずエントリ部2
1の「givetJが検索される。これは、第2エント
リをもたないので(ステップ■)。Return to step (2) and increase the character length by +1. n
If n is 2 or 3, there is no corresponding entry for ``giJ'' or ``girJ.'' When n becomes 4, entry section 2 is
1 "givetJ" is searched. This is because it does not have a second entry (step ■).
候補単語として追加登録される。n = 4については
、さらにエントリ部22の[givezJが検索すれる
。これは第2エントリとしてrawayJkもつので、
他の入力文字列中から「away J ’e検索するが
、存在しないので候補単語とはならない(ステップ■)
。It will be added as a candidate word. For n = 4, [givezJ in the entry section 22 is further searched. This has rawayJk as the second entry, so
Search for "away J'e" from other input strings, but it does not exist, so it is not a candidate word (step ■)
.
次に、エントリ部23のr give s Jが検索さ
れ。Next, r give s J in the entry section 23 is searched.
これも第2エントリr up J があるので、ステ
ップ■に移シ、入力文字列中にrupJ があるかど
うか検索される。このとき入力文字列中には。Since there is also a second entry rupJ, the process moves to step (2) and a search is made to see if rupJ exists in the input character string. At this time, in the input string.
rupJが存在しておシ、従って、ステップ■、ステッ
プ■を経て、候補単語として追加される。rupJ exists, so it is added as a candidate word through steps ① and ②.
以降、nが4については対応するエントリがなく、ざら
にnが5以降についてもないので、この部分文字列の先
頭からの文字列を含む候補は「g」。Thereafter, there is no corresponding entry for n equal to 4, and there is no corresponding entry for n equal to or greater than 5, so the candidate that includes the character string from the beginning of this partial character string is "g".
r give J 、 r give up J の
3つとなる。これを。There are three: r give J and r give up J. this.
まとめたのが第4図である。Figure 4 summarizes the results.
このようにして選んだ候補のうち、「g」は次の「iv
e」の切出し単語候補と接続しないことから落され、t
た。最も良く知られた評価法である最長一致法によって
、 r give J (文字長4)よシ「give
up J (文字長6)が優先的に選択される。Among the candidates selected in this way, “g” is the following “iv”
It was dropped because it did not connect with the cut-out word candidate of "e", and t
Ta. Using the longest match method, which is the best known evaluation method, r give J (character length 4) and si ``give
up J (character length 6) is preferentially selected.
第5図は9本発明による辞書検索方式に用いる単諸分割
装置の一実施例を示しておシ、入力装置20.0PIJ
IQ、辞書301分割結果格納部40゜文字列格納部5
0よ構成る。OPU 10f’:には。FIG. 5 shows an embodiment of the single division device used in the dictionary search method according to the present invention.
IQ, dictionary 301 division result storage section 40° character string storage section 5
Configure from 0. OPU 10f': To.
単語分割制御部11.文字列切出部12.辞書検索照介
部130分割候補格納部14を有している。Word division control unit 11. Character string extraction section 12. It has a dictionary search reference section 130 and a division candidate storage section 14.
辞書30は、先に述べたとおシ、呼応複合@を第1エン
トリ、第2エントリを有するという形で登録しである。As mentioned above, the dictionary 30 is registered with the vocative compound @ having a first entry and a second entry.
入力部20から文字列が入力されると、これは文字列格
納部50に収容される。制御部11の制御を受け1文字
列を文字列切出部12によって最小単位の早暗に切シ出
す。この単語を先に述べた)ような方法で辞書30と比
較魚介し、先に述べたような方法によって1分割候補を
選出し、これを分割候補格納部14に収納する。その後
、この候補に対し、最長一致法等の評価関数全適用して
。When a character string is input from the input unit 20, it is stored in the character string storage unit 50. Under the control of the control section 11, one character string is cut out into the minimum unit of quick and dark by the string cutting section 12. This word is compared with the dictionary 30 using the method described above, one division candidate is selected using the method described above, and this is stored in the division candidate storage section 14. Then, apply all evaluation functions such as the longest match method to this candidate.
その結果を分割結果格納部40に収容する。The results are stored in the division result storage section 40.
なお前記説明は、英語→日本語に翻訳する例について説
明したが、勿論本発明はこれらの言語にのみ限定される
ものではない。In the above description, an example of translation from English to Japanese has been described, but the present invention is of course not limited to these languages.
本発明では、従来、率語分割装置で行なわれなかった呼
応複合語の検索を可能とし、また辞書における呼応複合
時の情報を・、それを構成する率飴とは独立に記述する
ことができるので、効率的な翻訳を行なうことができる
。In the present invention, it is possible to search for vocative compound words, which has not been done with conventional rate word segmentation devices, and it is also possible to describe information on vocative compound words in the dictionary independently of the rate candy that makes up the vocative compound word. Therefore, efficient translation can be performed.
第1図は本発明を説明するための概要図。
第2図は本発明の辞書の検索エントリ部を示す図。
第3図は分割候補単語の検索アルゴリズムを示す図。
第4図は分割候補単鎖の検索経過例を示す図。
第5図は本発明に用いる単諸分割装置の例を示す図。
第6図は従来の単諸分割装置及び辞書の概要を示す図で
ある。FIG. 1 is a schematic diagram for explaining the present invention. FIG. 2 is a diagram showing the search entry section of the dictionary of the present invention. FIG. 3 is a diagram showing a search algorithm for dividing candidate words. FIG. 4 is a diagram showing an example of the search progress for split candidate single chains. FIG. 5 is a diagram showing an example of a single-piece dividing device used in the present invention. FIG. 6 is a diagram showing an outline of a conventional single division device and dictionary.
Claims (1)
する機械翻訳の単諸分割装置における辞書検索方式にお
いて、 呼応複合語の見出しが複数エントリから構成される辞書
(3)を設け、 入力文字列から切出した文字列が第1エントリに一致し
第2エントリ以降があればそのエントリに示される文字
列を残りの入力文字列中に存在するか否かを検索するよ
うにしたことを特徴とする単語分割装置における呼応複
合語の辞書検索方式。[Claims] In a dictionary search method in a single division device for machine translation that divides an input character string into words and searches for corresponding translations, 3) is provided, and if the character string cut out from the input character string matches the first entry and there is a second entry or later, it searches for the character string shown in that entry to see if it exists in the remaining input character strings. A dictionary search method for vocative compound words in a word segmentation device, characterized in that:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61027288A JPS62184572A (en) | 1986-02-10 | 1986-02-10 | Retrieving system for dictionary of cooperative compound word in word division device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61027288A JPS62184572A (en) | 1986-02-10 | 1986-02-10 | Retrieving system for dictionary of cooperative compound word in word division device |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS62184572A true JPS62184572A (en) | 1987-08-12 |
Family
ID=12216888
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP61027288A Pending JPS62184572A (en) | 1986-02-10 | 1986-02-10 | Retrieving system for dictionary of cooperative compound word in word division device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS62184572A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0242575A (en) * | 1988-08-02 | 1990-02-13 | Ricoh Co Ltd | Morpheme analyzing device |
JPH02133873A (en) * | 1988-11-15 | 1990-05-23 | Ricoh Co Ltd | English-japanese mechanical translation system containing idiom processor |
JPH02150963A (en) * | 1988-12-01 | 1990-06-11 | Ricoh Co Ltd | English/japanese machine translating device |
JPH04107675A (en) * | 1990-08-28 | 1992-04-09 | Nec Corp | English word processor |
JPH0696199A (en) * | 1992-09-11 | 1994-04-08 | Kazuo Toraichi | Device and method for input/output of logo illustration data |
-
1986
- 1986-02-10 JP JP61027288A patent/JPS62184572A/en active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0242575A (en) * | 1988-08-02 | 1990-02-13 | Ricoh Co Ltd | Morpheme analyzing device |
JPH02133873A (en) * | 1988-11-15 | 1990-05-23 | Ricoh Co Ltd | English-japanese mechanical translation system containing idiom processor |
JP2967489B2 (en) * | 1988-11-15 | 1999-10-25 | 株式会社リコー | Machine translation equipment |
JPH02150963A (en) * | 1988-12-01 | 1990-06-11 | Ricoh Co Ltd | English/japanese machine translating device |
JPH04107675A (en) * | 1990-08-28 | 1992-04-09 | Nec Corp | English word processor |
JPH0696199A (en) * | 1992-09-11 | 1994-04-08 | Kazuo Toraichi | Device and method for input/output of logo illustration data |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5794177A (en) | Method and apparatus for morphological analysis and generation of natural language text | |
US5587902A (en) | Translating system for processing text with markup signs | |
US20050234898A1 (en) | Method and system for searching a multi-lingual database | |
JPH0351020B2 (en) | ||
US5075851A (en) | System for translating a source language word with a prefix into a target language word with multiple forms | |
JPS62184572A (en) | Retrieving system for dictionary of cooperative compound word in word division device | |
JPS58192173A (en) | System for selecting word used in translation in machine translation | |
JP2595934B2 (en) | Kana-Kanji conversion processor | |
JP3483585B2 (en) | Document search device and document search method | |
JP2771976B2 (en) | Language analyzer | |
JPS59140582A (en) | Natural language translation assisting system | |
JPS6118074A (en) | Pre-editing system | |
JPS61248160A (en) | Document information registering system | |
JPH06259423A (en) | Summary automatically generating system | |
JP4007630B2 (en) | Bilingual example sentence registration device | |
JPH01243116A (en) | Method for processing japanese sentence | |
JP2840258B2 (en) | Method of creating bilingual dictionary and co-occurrence dictionary for machine translation system | |
JP3329476B2 (en) | Kana-Kanji conversion device | |
JPH0561902A (en) | Mechanical translation system | |
JPH05165889A (en) | Document retrieval device | |
JPS6395573A (en) | Method for processing unknown word in analysis of japanese sentence morpheme | |
JPS6389976A (en) | Language analyzer | |
JPS63168774A (en) | Subject supplementing system for mechanical translation system | |
JP2786211B2 (en) | Post-editing device in machine translation equipment | |
JPH05108712A (en) | Machine translation system |