WO2006090732A1 - 単語翻訳装置、翻訳方法および翻訳プログラム - Google Patents

単語翻訳装置、翻訳方法および翻訳プログラム Download PDF

Info

Publication number
WO2006090732A1
WO2006090732A1 PCT/JP2006/303155 JP2006303155W WO2006090732A1 WO 2006090732 A1 WO2006090732 A1 WO 2006090732A1 JP 2006303155 W JP2006303155 W JP 2006303155W WO 2006090732 A1 WO2006090732 A1 WO 2006090732A1
Authority
WO
WIPO (PCT)
Prior art keywords
word
translation
information
language
information record
Prior art date
Application number
PCT/JP2006/303155
Other languages
English (en)
French (fr)
Inventor
Shaoming Liu
Original Assignee
Fuji Xerox Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co., Ltd. filed Critical Fuji Xerox Co., Ltd.
Priority to US11/817,008 priority Critical patent/US8041557B2/en
Priority to JP2007504746A priority patent/JP4911028B2/ja
Publication of WO2006090732A1 publication Critical patent/WO2006090732A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Definitions

  • the present invention relates to a word translation apparatus that translates words in a source language into words in a target language, and more particularly to a translation technique between a plurality of languages.
  • the word translation technology refers to a bilingual dictionary for an input first language word, extracts a translation of a second language from the bilingual dictionary, and outputs this.
  • Sentence translation technology also performs morphological analysis on the input sentence in the first language, extracts a set of words that make up the sentence, uses the bilingual dictionary to extract the translated words, and extracts the translated words.
  • the translation is generated using the connection relation.
  • Non-Patent Document 1 discloses a machine translation system using word connection relationships.
  • the electronic word translation apparatus stores bilingual dictionaries related to a plurality of languages in a memory, and when a user inputs a first language word, the translation of the word is extracted with reference to the bilingual dictionary and displayed. To display.
  • Patent Document 1 saves the user from having to select the type of dictionary when searching in an electronic dictionary. That is, based on a search term input by the user, a search is made for headwords included in a plurality of dictionaries, and a plurality of dictionary contents including the searched headwords are collectively displayed.
  • Patent Document 1 JP 2000-276479 A
  • Non-Patent Document 1 Suzuki, Tochinai, “Machine Translation System Using Word Connections”, Transactions of the Information Processing Society of Japan, Vol. 29, No. 4, 1988
  • the bilingual dictionary is configured for each language pair (for example, Japanese-English, English-Japanese, etc.), and word information is recorded in duplicate, and word information is recorded when translating from Japanese-English or English-Japanese.
  • Non-shared structure It has become. For this reason, the construction cost of the dictionary is increasing.
  • the bilingual dictionary can be searched in both directions, so there is a problem of information leakage in the bilingual dictionary. For example, a bilingual pair that exists in Japanese and English may not exist in English and Japanese.
  • the English-Japanese translation dictionary and the Japanese-English translation dictionary are applied to their own translations, so the above-mentioned problems are still not solved.
  • Non-Patent Document 1 does not disclose or suggest a configuration for solving such a problem.
  • the present invention has been made to solve the above-described conventional problems, and is a word translation device including a bilingual dictionary capable of bidirectional translation between two languages or between a plurality of languages, and a translation method And to provide a translation program.
  • Another object of the present invention is to provide a word translation apparatus, a translation method, and a translation program that can translate words at high speed.
  • the present invention is a word translation device that translates words between a plurality of languages, and includes at least a first word search structure for searching for a word in the first language, and a word in the second language Second word search structure for searching for words, first word 'translation information record containing word related information and translation information about words stored in the first word search structure, and second word search Storage means for storing in the dictionary a second word information record including word related information and translation information on the words stored in the structure.
  • first word 'translation information record containing word related information and translation information about words stored in the first word search structure
  • second word search Storage means for storing in the dictionary a second word information record including word related information and translation information on the words stored in the structure.
  • the first and second word search structures have a word 'translation information information record.
  • the word 'translation information record identification information for identifying the code is included.
  • the first and second word'translation information records include word identification information for identifying words included in the first and second word search structures, respectively.
  • the first and second word'translation information records include related information of words included in the first and second word search structures, respectively.
  • the first word 'translation information record includes translation identification information for identifying translation information included in the second word' translation information record
  • the word 'translation information record includes translation identification information for identifying translation information included in the first word' translation information record.
  • the first and second word 'translation word information records include identification information for identifying a multiple word related to the translation word.
  • the first and second word 'translation information information records include identification information for identifying the language type of the translation.
  • the word translation apparatus of the present invention provides the word-related information and the translation information for each part of speech when the first and second words' translation information record has a plurality of parts of speech for each word. It has a record to memorize.
  • the record for each part of speech is associated with the one word related information by a pointer.
  • the word translation device further includes an input unit for inputting a word, a collation unit for collating the input word with a word stored in the first word search trie structure, and a collated word Extraction means for extracting translations stored in the second word search trie structure based on the first word information record, and output means for outputting the extracted translations.
  • the extracting unit extracts a second word information record based on a first word information record for the word collated by the collating unit.
  • the translation information of the first word information record includes link information for identifying the translation or the second word information record stored in the second word search structure, and the extraction means includes the link information.
  • a word translation apparatus for translating words between a plurality of languages includes a word search tri-structure for N power languages (N is an integer of 2 or more), and a word search for N power languages
  • a storage means for storing in the dictionary the word information record of N power country language corresponding to the trie structure, and the word information record of the predetermined language among the word information records of the N power country language identifies the translation of the predetermined word
  • the translated word information to be stored is stored for a plurality of languages. This stipulates that the word translation apparatus according to the present invention can cope with not only translation between two languages but also translation between a plurality of languages (multilingual).
  • the machine translation system inputs a sentence, translates the sentence, and inputs a powerful word that cannot be translated by the translator, and translates the word.
  • the word translation apparatus according to any one of 1 to 10.
  • the translation means includes one of a translation memory engine, a pattern-based translation engine, or a chunk-based example sentence translation engine.
  • it includes identification output means for discriminating and outputting a translation of a powerful word that cannot be translated by the translation means from other translations.
  • the translation can be performed with high accuracy, and the user can easily determine which translation has high reliability and which translation has low reliability.
  • a word translation device for translating words between a plurality of languages includes word search dictionary data provided for each language and word included in the word search dictionary data provided for each language. And storing means for storing link information representing an association between a corresponding word in one language and a translation in another language.
  • the link information associates the word in one language with the translated word in another language, so bi-directional translation between two languages or between multiple languages becomes possible.
  • the link information is a pointer indicating the identification information of the word in the one language, the identification information of the other language, and the link information corresponding to the translation in the other language. And a pointer pointing to link information corresponding to a polysemy related to the word in the one language.
  • the link information includes parent link information and child link information, and the parent link information is related to the identification information of the one word and the one word.
  • Many A pointer pointing to the child link information corresponding to the synonym, and the child link information corresponds to the identification information of the other language, the pointer pointing to the corresponding parent link information, and the translated word in the other language.
  • the link information is provided for each part of speech.
  • the word search dictionary data has a word search structure for searching for a word and a word information record storing information about the word for each of the plurality of languages.
  • the word information record includes the link information.
  • the word search structure includes, for example, a word trie structure or a hash function structure.
  • the word search dictionary data includes first character list information of words in a corresponding language and list information of the words, and the first character list information includes: Including the first character information, the number of words starting from the first character, and a pointer pointing to the position in the list information of the word starting from the first character, the list information of the word being link information corresponding to the word Contains a pointer to
  • the link information is associated with a word information record representing information relating to a word included in the word search dictionary data.
  • the word translation device collates input means for inputting a word in one language, the input word in the one language, and word search dictionary data corresponding to the one language.
  • Collation means and word search dictionary data corresponding to another language based on link information corresponding to the collated words in one language.
  • Extraction means for extracting translation words in the other language.
  • the extraction unit extracts a word information record of another language based on the link information of the word information record of one language collated by the collation unit.
  • the extraction unit can extract a translation of a word search structure in another language based on link information of a word information record in one language collated by the collating unit.
  • a word translation method for translating words between a plurality of languages stores a first word search structure for searching for a word in a first language, and searches for a word in a second language.
  • You Create a second word search structure for storing and store a first word information record including first translation information for identifying a translation for a word stored in the first word search structure And storing the second word information record including the second translation information for identifying the last translation of the words stored in the second word search structure in the dictionary. is there.
  • the word translation method further includes an input step of inputting a word, a step of matching the input word with a word stored in the first word search structure, and a first word information record for the collated word The step of extracting the translation stored in the second word search structure based on the above, and the step of outputting the extracted translation.
  • the word search dictionary data includes a word information record storing a word search structure and information about words for each language, the word information record includes the link information, and the extracting step includes: Based on the link information of the language word information record, a word information record of another language is extracted.
  • a word translation method for translating words between a plurality of languages includes a word search dictionary data provided for each language and a word included in the word search dictionary data provided for each language. And a storage step of storing in the storage means link information representing the association between the corresponding word in one language and the translation in another language.
  • an input step of inputting a word in one language, the input word in the one language, and word search dictionary data corresponding to the one language are collated.
  • a word translation program for translating words between a plurality of languages stores a first word search structure for searching for a word in a first language, and stores a word in a second language. Create and store a second word search structure for searching and store a first word information record containing first translation information for identifying translations for the words stored in the first word search structure And storing a second word information record including second translation information for identifying a translation of the word stored in the second word search structure in the dictionary. Has steps.
  • a word translation program for translating words between a plurality of languages includes a word search dictionary data provided for each language and a word search dictionary data provided for each language. And a storage step of storing in the storage means link information representing an association between a corresponding word in one language and a translation in another language.
  • the word translation program compares an input step for inputting a word in one language, the word in the one language input above, and the word search dictionary data corresponding to the one language. And a word search dictionary data capability corresponding to another language based on link information corresponding to the collated word in one language, and an extraction step for extracting a translated word in the other language. .
  • the word translation apparatus of the present invention by providing word search dictionary data and link information for each language, bidirectional translation between languages can be performed with high accuracy and high speed without leaking information. Furthermore, the word translation apparatus of the present invention can be applied not only between two languages but also to multilingual word translation.
  • FIG. 1 is a diagram showing a configuration of a machine translation system according to an embodiment of the present invention.
  • FIG. 2 is a diagram showing a configuration of a word translation apparatus between two languages.
  • FIG. 3 is a diagram showing a hardware configuration of a word direct translation machine engine according to an embodiment of the present invention.
  • FIG. 4 is a diagram showing a word search trie structure according to an embodiment of the present invention.
  • FIG. 5 is a diagram for explaining a trie structure.
  • FIG. 6 is a diagram showing the structure of a word information record.
  • FIG. 7 is a diagram for explaining word flags.
  • FIG. 8 (a) is a diagram for explaining a child flag
  • FIG. 8 (b) is a diagram for explaining a language ID.
  • FIG. 9 is a diagram for explaining a word information record ID.
  • FIG. 10 is a diagram for explaining the structure of character information of a trie structure.
  • FIG. 11 is a diagram for explaining assignment of node record IDs.
  • FIG. 12 shows an array of node records.
  • FIG. 13 is a diagram for explaining a method of storing a first word information record.
  • FIG. 14 is a diagram for explaining a method of storing a second word information record.
  • FIG. 15 is a flowchart for explaining a word translation operation.
  • FIG. 16 is a diagram for explaining a bilingual dictionary of a word translation device between N power countries according to a second embodiment of the present invention.
  • FIG. 17 is a diagram showing the structure of an N power country language word bilingual dictionary used in the third embodiment of the present invention.
  • FIG. 18 is a conceptual diagram of the first configuration of an N power country language word bilingual dictionary.
  • FIG. 19 is a conceptual diagram of the second configuration of the N power country language word bilingual dictionary.
  • FIG. 20 is a diagram showing a detailed configuration of a word search dictionary based on a node function.
  • FIG. 21 is a diagram showing the structure of a word information record when an array structure base is adopted.
  • FIG. 22 is a diagram showing the structure of a word information record when a double array structure base is adopted.
  • FIG. 23 is a diagram showing the structure of a polysemy information record when a double array structure base is adopted.
  • FIG. 24 is a diagram showing the structure of a bilingual dictionary used for word translation between Japanese and Chinese when an array structure base is employed.
  • FIG. 25 is a diagram showing the structure of a bilingual dictionary used for word translation between Japanese and Chinese when a double sequence structure base is adopted.
  • FIG. 26 is a diagram showing the structure of a bilingual dictionary used for word translation between Japanese and English when the sequence structure base is adopted.
  • FIG. 27 is a diagram showing the structure of a bilingual dictionary used for word translation between Japanese and English when a double sequence structure base is employed.
  • Figure 1 shows the 1 is a diagram illustrating an overall configuration of a machine translation system according to a clear embodiment.
  • Machine translation system
  • the translation system is equipped with a learning function that automatically collects the parts that cannot be translated and assigns correct translations to improve translation performance.
  • the machine translation system 1 is a translation memory engine 12 that translates sentence-by-sentence sentences input from the source language text sentence input unit 10, and a powerful part that cannot be collated in the database of the translation memory engine 12, that is, an accurate translation
  • a morpheme analysis unit 14 that inputs a forceful part and analyzes the morpheme
  • a pattern-based translation engine 16 that inputs a sentence or a word analyzed by the morpheme analysis unit 14 and performs pattern-based translation
  • a pattern Chunk-based translation engine 18 that translates chunks that cannot be translated by base translation engine 16 into chunk-based example sentences (word combinations or phrases like noun phrases), and words that cannot be translated by chunk-based translation engine 18
  • the analysis base or word translation engine 20 that translates in the analysis base or word base, and the target language text
  • a target language text creation unit 22 for creating a text text.
  • the chunk-based translation engine 18 has a translated word extraction function.
  • This translation extraction function associates a word sequence included in a sentence with a sequence of words translated from the word sequence.
  • the analysis base or the direct word translation engine 20 extracts the translation extraction function in terms of sentence power. Applied to a sequence of words to obtain the translation result of the sequence of words.
  • the translation data of the part that has been successfully translated by the translation memory engine 12, the pattern base translation engine 16, and the chunk base example sentence translation engine 18 is input to the target language text creation unit 22.
  • the target language text creation unit 22 creates the text of the target language based on these translation data.
  • the parts that have been successfully translated are identified so that they are translated correctly.
  • the translation data translated by the analysis base or the direct word translation engine 20 is output as a reference-level translation in the target language text sentence creation unit 22. In this way, the user can grasp at a glance what is the reliable translation result and what is the reliable translation result in the text translation. Can do.
  • the portion that failed to be translated by the chunk-based example sentence translation engine 18 is collected by the collection unit 24.
  • the collected translation failure part is accurately translated by the translator, and the result is output to the learning engine 26.
  • the learning engine 26 writes the bilingual data to the bilingual dictionary 28 based on accurate translation.
  • FIG. 2 is a diagram showing a configuration of a preferred word translation apparatus between two languages according to the present embodiment.
  • the word translation function between the two languages is included in the word translation engine 20.
  • the text or word is input from the source language text input unit 10 to the morphological analysis unit 14.
  • the word is given attributes (nouns, verbs, etc.) and input to the word translation engine 20.
  • the direct word translation engine 20 translates the input source language word into the target language word using the bilingual dictionary, and outputs the result to the target language text creation unit 22.
  • the bilingual dictionary 28 learned by the learning engine 26 can be used as the bilingual dictionary of the direct word translation engine 20.
  • FIG. 3 is a diagram showing a hardware configuration of a word translation apparatus between two languages.
  • the word translation device includes an input device 30, a display device 32, a main storage device 34, an external storage device 36, a central processing unit (CPU) 38, and a bus 40 for connecting them.
  • the display device 32 includes a display that outputs a word in the target language obtained by translating the word in the source language.
  • the main storage device 34 includes ROM or RAM, and stores data such as a program for controlling the translation of words and calculation results.
  • the external storage device 36 includes a large-capacity storage device such as a hard disk, for example, in which a bilingual dictionary necessary for word translation is stored.
  • a CPU (Central Processing Unit) 38 controls each unit in accordance with a program stored in the main storage device 34.
  • FIG. 4 is a diagram for explaining the concept of the word search trie structure and the word information record structure of the bilingual dictionary included in the word direct translation engine 20.
  • the bilingual dictionary includes a first language word search trait structure 100 and a corresponding first language word information record 110, and a second language unit. It has a word search trie structure 200 and a second language word information record 210 corresponding thereto.
  • a trie structure is a tree structure obtained by merging character strings in a common part of a search key set in the language information processing field. For example, a trie structure generated from five search keys “Ai”, “Aisai”, “Greeting”, “Ainoko”, “Ainori” is as shown in FIG. The $ in the figure may be used as a special character that indicates the end of a word.
  • the search character string is scanned in order from the left, while tracing the tree from the root of the tree (node N 1) to each node N2 to N13, using the clues as the search character string. Extract words to be matched.
  • the search can be performed in a time proportional to the search string regardless of the number of search keys.
  • the bilingual dictionary is included in the first language word search trie structure (hereinafter referred to as the first trie structure) 100 and the first trie structure 100.
  • the first language word information record 110 for storing the translation information of each word the second language word search trie (hereinafter referred to as the second trie structure) 200, and the second trie structure 200.
  • a second language word information record 210 for storing the translation information of each word is stored.
  • the second trie structure 200 Contains the translated word “Mikuni”.
  • the relationship between “America” and “Mikuni” is linked to each other in the translation information contained in the first and second word information records 110 and 210.
  • the CPU 38 scans the search character string “USA” sequentially from the left (in order of “A” force), and from the root of the first trie structure. Each node is traced to determine whether or not there is a word or path that matches “America”. When a matching path exists, that is, when a word exists, the word information record 110 corresponding to “America” is referred to, and the translated word in the second trie structure 200 is “Mikuni”. Identify a path and get the translated word “Mikuni”.
  • the word information record 210 corresponding to “Mikuni” is referred to, and the translated word in the first trie structure 100 is “America”. Identifies the path and translates the word "America” Get. In this way, by linking the first and second word information records 110 and 210 in both directions, leakage of parallel translation information in both directions is prevented.
  • FIG. 6 is a diagram showing the structure of the word information record.
  • Word information record includes character information 3 00, word flag + children flag + language ID302, word k information of the report record ID304, the parent node ID306, the right sibling node ID308.
  • Character information 300 indicates whether the characters included in the node are kanji, hiragana, katakana, or alphabet.
  • Word flag + child flag + target language ID 302 is composed of 1 byte, and the word flag is composed of 2 bits.
  • the word flag means an intermediate node when the word flag power S is “0”, and means a word node when the word flag is “1” (root force path to the node).
  • the word flag is ⁇ 2 '', it means a pronunciation node (the information on the path to the node also indicates pronunciation), and when the word flag is ⁇ 3 '', It means a word pronunciation node (the root information also indicates the word and pronunciation).
  • the child flag is composed of 1 bit, and as shown in FIG. 8 (a), when the child flag is “0”, it means that the node is not included in the hierarchy below the corresponding node. When the flag is “1”, it means that the node is included in the hierarchy below the relevant node.
  • the translated language ID is an identification indicating the language notation of the translated word. For example, as shown in FIG.
  • the word information record ID 304 includes a word, pronunciation, part of speech, priority order, ambiguity information (number of words), concept ID, left link information ID, right link information ID, target language ID, as shown in FIG. Translation Contains the word ID, the next polysemy information record ID, and a description.
  • the word ID is a node ID for identifying the word stored in the trie structure. For example, in the case of “America” in the first trie structure shown in FIG. 4, the word ID is a node ID that stores the terminal “force” of the word.
  • the pronunciation ID represents the pronunciation of a word, for example, because pronunciation differs depending on kanji and hiragana.
  • the part of speech ID is an ID for identifying a part of speech of a word, for example, a noun, a verb, an adjective and the like.
  • Ambiguity information indicates the number of ambiguous words when the word is an ambiguous word. For example, in the case of “America” in the first trie structure in FIG. 4, the number of ambiguous words is 1 (“US”).
  • the concept, left link information ID, and right link information ID are not essential, but are useful when performing analysis-based translation.
  • the translated language ID is an ID for identifying the language notation of the translated word, and is an ID for identifying Chinese if the translation is from “America” to “Mikuni”.
  • the translated word ID is an ID for identifying the translated word of the word. That is, if the translated word “USA” is “Mikuni”, the translated word ID is a node ID that stores the last “country” of “Mikuni”.
  • the polysemy information record is an ID that identifies the translation of the word and the next record that is a polysemy. For example, in the word record “Mikuni”, if the translated word is “America” and the polysemy is “US”, the polysemy record ID is an ID for identifying “US”.
  • the explanation includes annotations and is not necessarily required.
  • the parent node ID 306 is an ID for identifying a node higher in the hierarchy than the node for identifying the word
  • the right sibling node ID 308 is a left and right node ID having a common parent node with the node.
  • the word information record k represents the path from the route “USA”. It includes the information shown and the translation information (translation language ID, translation ID, and polysemy information record ID).
  • the word information record of “Mikuni” stored in the second trie structure 200 is represented as h.
  • the word information record h includes information indicating a path from the route of “Mikuni” and translation information thereof.
  • the word information record h includes the word information record k + 1 of “USA” as the polysemy information record ID.
  • each node in the trie structure represents one character with 2 bytes.
  • the method shown in Figure 10 (b) converts all languages to Unicode and stores high bytes (upper 8 bits) and low bytes (lower 8 bits) in each node.
  • One character is represented by a byte! /
  • the method in Fig. 10 (b) has fewer nodes in the horizontal direction of the trie structure (256 ways), and the search speed is faster.
  • the node is deeper in the depth direction.
  • the amount of information will increase.
  • the method shown in Fig. 10 (c) is a mix of the method of Fig. 10 (a) and the method of Fig. 10 (b).
  • FIG. 11 is a diagram showing a node ID assigning method.
  • depth-first search is performed, and the number is incremented by 1 or 0 depending on the search order, and a node ID is assigned.
  • a node ID is assigned, as shown in Fig. 12, records corresponding to the node ID are arranged and stored in the order of the node ID.
  • word information translated word information
  • FIG. 9 that is, pronunciation of words, parts of speech (attributes), etc. cannot be obtained accurately. If accurate information of the translation as shown in Fig. 9 is required, it is acceptable to use a word search structure and a word information record structure as in the second and third embodiments described later.
  • each word information record can be single!
  • the Chinese bilingual dictionary For example, taking the translation from Chinese “Mikuni” to Japanese “U.S.” and “America”, the Chinese bilingual dictionary generates two records 320 and 322 for "Mikuni”. They are related by pointers. In the Japanese bilingual dictionary, a record 330 for “USA” and a record 332 for “USA” are generated. The record of “Mikuni” 320 includes translation information of “USA”, and the record 322 of “Mikuni” includes translation information of “USA”.
  • Records 330 and 332 of Japanese "USA” and “USA” are associated with each other so as to refer to translated information of "Mikuni", that is, "Mikuni", as indicated by a broken line.
  • the memory capacity increases because a plurality of the same records are used. Therefore, in order to save memory space, another storage method uses one information record of word k, and a plurality of records each including a plurality of pieces of translation information in the polysemy information array from the information record of word k. And the minimum translation information is recorded in the polysemy information array.
  • an information record of a word k in the first language and a multiple meaning information array are prepared.
  • the record of the polynomial information array includes, for example, information such as translation part 2 of part of speech 1, translation part 3 of part of speech 1, translation part 1 of part of speech 2.
  • the record of the polysemy information array includes priority, concept, language, translation, and the following polysemy information record guideline as minimum translation information.
  • a word information record 320 of "Mikuni” is created, and the record 324 included in the polysemy information array is also created. Is created. Record 320 refers to “USA”, and record 324 in the multiple meaning information array refers to “USA”.
  • a word selection rule Preferably, only nouns, pronouns, adjectives, adverbs, verbs, and technical terms are translated. If the translation relationship is one-to-one, select the corresponding translation. On the other hand, in the case of 1 to n ( ⁇ > 1), the part-of-speech attributes of n translations are compared, and candidates are selected in the order of parts of speech that have the same part-of-speech of the words in the source language. Select candidates.
  • FIG. 15 is a flowchart for explaining the operation of the word translation apparatus.
  • the CPU 38 specifies the type of the source language (step S102).
  • the CPU 38 selects a trie structure of the translation dictionary corresponding to the specified language type (step S103), and collates the word stored in the trie structure with the input word (step S104).
  • the CPU 38 refers to the word information record for the word (step S106), and extracts the translation of the trie structure of the target language referenced in the word information record. (Step S107).
  • the extracted translated words are displayed on the display by the target language text sentence creation unit 22 (step S108).
  • step S 105 when the input word does not exist (step S 105), a translation failure indication is output.
  • an appropriate translation is given to the input word by the translator, and this is registered in the translation dictionary and given a learning function (step S108).
  • the second embodiment enables multilingual, ie, word translation between N power languages, and the structure of the bilingual dictionary is shown in FIG.
  • a trie structure 400 for the first language a trie structure 500 for the second language, and a trie structure 600 for the Nth language are created, and word search tries for each language are stored.
  • a first language word information record 410, a second language word information record 510, and an Nth language word information record 610 that are paired with each trie structure are created.
  • the native word information record includes a record for recording English translation information and a record for recording Chinese translation information.
  • English or Chinese translations can be searched from Japanese words. Whether the search is in English or Chinese can be performed according to the user's instruction. It is also possible to translate words from English to Japanese and from Chinese to Japanese.
  • a method for storing the word information record it is possible to use a deviation from the method shown in FIG. 13 or the method shown in FIG.
  • word translation can be performed bidirectionally between a plurality of languages, and convenience can be further improved.
  • FIG. 17 is a diagram showing the structure of the N power language word parallel translation dictionary 300 used in the third embodiment.
  • the N power country language word bilingual dictionary 300 is a first language word search dictionary 312—1 to an Nth language word search dictionary 312—N corresponding to each of the first language to the Nth language.
  • the dictionary 312-1 through the Nth language word search dictionary 312-N are collectively referred to as “word search dictionary 312” as appropriate, and the first language word translation link information corresponding to each of the first language through the Nth language.
  • word search dictionary 312 1st to Nth language word translation link information 314—N (hereinafter, these 1st language word translation link information 314—1st to Nth language word translation link information 314— 314 ”).
  • the word search dictionary 312 has a structure based on a trie structure or a hash function base.
  • the word translation link information 314 represents an association between a corresponding word in one language and a translation in another language, and has an arrangement structure-based configuration having only a word information arrangement table constituted by word information records.
  • it has a double array structure base configuration having a word information arrangement table constituted by word information records and a polysemy arrangement table constituted by polysemy information records.
  • FIG. 18 is a conceptual diagram of the first configuration of the N power country language word bilingual dictionary 300.
  • Figure 18 shows the case where the word search dictionary is based on the trie structure.
  • the first language word search dictionary has a first language word search trie structure ("first trie structure"), and the first language word translation link information. Consists of information on each word (word information record) contained in the first trie structure, and the word information record is in the second language. It contains a pointer that represents the association with the translated word.
  • the second language word search dictionary has a second language word search trie structure (second trie structure), and the second language word translation link information is included in the second trie structure.
  • Each word is composed of information (word information record), and the word information record includes a pointer indicating the association with the translated word in the first language.
  • the word k in the first language and the word h + 1 in the second language are in the relationship between the word and the translation, and are associated with each other.
  • a plurality of word information records corresponding to that word are prepared for each part of speech and for each translation word. Records are related by pointers included in word information records.
  • FIG. 19 is a conceptual diagram of the second configuration of the N power country language word bilingual dictionary 300.
  • FIG. 6 shows a word search dictionary based on a cache function and word translation link information based on an array structure.
  • the first language word search dictionary is the word information record of the first language word and the word translation information dictionary corresponding to the word. Has a word list containing pointer (pointer) information.
  • a word search dictionary in the second language has a word list containing a pointer (pointer) information to the word information record word translation information dictionary corresponding to the words and the words in the second language. Since the word translation link information of the first language and the second language is the same as that in FIG. 18, the description thereof is omitted. Details of the hash function unit 320 will be described later.
  • FIG. 20 is a diagram showing a detailed configuration of the word search dictionary based on the Noh and Shuh functions.
  • the hash function unit 320 converts all character codes of the corresponding language into consecutive character codes.
  • the first character table shows the information on the first character of the word that is the character whose character code has been converted by the node function unit 320, the number of words starting from the first character, and the word starting from the first character. Contains pointer (pointer) information to the records in the word list corresponding to.
  • the word list includes information on the word, word pronunciation information, and a record ID of the word information in the word translation link information corresponding to the word.
  • the word direct translation engine 20 identifies a record in the first character table corresponding to the first character of the input word. Next, the direct word translation engine 20 Based on the number of words in the code and the pointer information to the word list,
  • the word direct translation engine 20 collates the input word with the word information in all the specified records, and specifies the input word.
  • the word information record has the structure shown in FIG. 21 (a), and is uniquely identified by the ID of the word information record and corresponds.
  • Word ID pronunciation, part of speech, priority, ambiguity information, word ZChunk identification flag, region classification ID, concept ID, left linking information ID, right linking information ID, target language ID, target language information record ID, next ambiguity Contains the word information record ID and description. If there is no word information record corresponding to the next polysemy, the next polysemy information record ID is “0”.
  • the translated language ID has a language ID shown in FIG. 21 (b) and a child flag shown in FIG. 21 (c). These are the same as the language ID and child flag in FIG. 8 described above.
  • the word information record in the case where the double array structure base is adopted for the word language link information has the structure shown in FIG. 22, and is uniquely identified by the ID of the word information record.
  • the multiple meaning information record has the structure shown in FIG. 23, and is uniquely identified by the ID of the multiple meaning information record, Language ID, the ID of the parent word information record, the ID of the translated multiple meaning information record, and the ID of the next multiple meaning polygraphic information record. If there is no polysemy information record corresponding to the next polysemy, the ID of the polysemy information record of the next polysemy is “0”.
  • FIG. 24 is a diagram showing the structure of a bilingual dictionary used for word translation between Japanese and Chinese when an array structure base is adopted for word translation link information.
  • the trie structure in the Japanese word search dictionary stores the word “USA” and its synonym “USA”.
  • the trie structure in the Chinese word search dictionary includes the word “America”. It stores the word “Mikuni” which is a Chinese translation of the Japanese translation of “Miri, the United States” and its synonym “USA”. “Mirika 1 ⁇ United States” means the following Chinese.
  • the Japanese word translation link information includes the word information record of the word information record ID 330 corresponding to the word "USA” and the word information record of the word information record ID 333, and the word "US"
  • the word information record corresponding to the word information record ID444 and the word information record corresponding to the word information record ID451 are included.
  • the word translation link information in Chinese includes the word information record of the word information record ID 100 and the word information record of the word information record ID 101 corresponding to the word “Miri, United States”.
  • the word information record ID400 corresponding to “Mikuni” and the word information record ID541 corresponding to the word information record ID400 are included.
  • the Chinese word that is the translation of the Japanese word “America” is “Miri, the United States of America”
  • the Chinese word that is the translation of the Japanese word “United States” is “Mikuni,” “America” and “USA” are synonymous, and “Miri, the United States” and “Mikuni” are synonymous.
  • the word information record of ID330 in the Japanese word translation link information includes the word ID “5” of the corresponding word “America”, the language ID “2” of the translation Chinese, and the Chinese translation of the translation It has an ID “100” of the word information record corresponding to the word “Miri Kasai United States” and an ID “333” of the word information record corresponding to the next polysemy.
  • the word information record of ID333 in the Japanese word translation link information includes the word ID “5” of the corresponding word “America”, the Chinese language ID “2” of the translated word, and the Chinese word of the translated word.
  • the word information record of ID444 in the Japanese word translation link information includes the corresponding word ID "7" of the United States, the Chinese language ID “2" as the translation, and the translation of China as the translation.
  • Word It has the ID “400” of the word information record corresponding to the word “Mikuni”, and the ID “451” of the word information record corresponding to the next ambiguous word.
  • the word information record of ID451 in the Japanese word translation link information includes the word ID “7” of the corresponding word “US”, the language ID “2” of the Chinese translation, and the Chinese translation of the translation.
  • the word information record of ID100 in the Chinese word translation link information includes the corresponding word ⁇ ⁇ ⁇ United States word Translated word Japanese language ⁇ ”, Translated word Japanese word It has the ID “330” of the word information record corresponding to “America” and the ID “101” of the word information record corresponding to the next ambiguous word.
  • the word information record of ID101 in the word translation link information in Chinese is the corresponding word “Miri ⁇ United States word, translation of the Japanese language ⁇ translation of the Japanese word“ US ”
  • the word information record of ID400 in the Chinese word translation link information is the corresponding word "Mikuni” word 10 "9", the translated Japanese language 10 "1", and the translation It has the ID “444” of the word information record corresponding to the Japanese word “USA” and the ID “541” of the word information record corresponding to the next polysemy.
  • the word information record of ID541 in the Chinese word translation link information includes the word ID “7” of the corresponding word “Mikuni”, the language ID “1” of the Japanese translation, and the Japanese translation.
  • Word translation engine 20 is a Chinese word " When translating "Mirika U.S.” into Japanese, replace the word ID "7" and the Japanese language ID "1" with the word "Mirika 1 ⁇ U.K.” in the Chinese word translation link information. Including ID
  • the word direct translation engine 20 identifies the word information record with ID “101” of the word information record corresponding to the next polysemy included in the word information record with ID100. Further, the word direct translation engine 20 converts the ID 330 word information record in the Japanese word translation link information based on the ID “330” of the word information record corresponding to the Japanese word that is the translation included in the ID 100 word information record. Identify and identify the word information record of ID 451 in the Japanese word translation link information by the ID “451” of the word information record corresponding to the Japanese word that is the translation included in the word information record of ID101. .
  • the word direct translation engine 20 extracts the word “America” in the Japanese word search dictionary from the word ID “5” included in the word information record of ID330, and the word ID “ID” included in the word information record of ID451. 7 ”is used to extract the word“ USA ”in the Japanese word search dictionary. By such processing, the Chinese word “Miri Kasang U.S.” is translated into Japanese words “America” and “America”.
  • FIG. 25 is a diagram showing the structure of a bilingual dictionary used for word translation between Japanese and Chinese when a double sequence structure base is adopted for word translation link information.
  • the trie structure in the Japanese and Chinese word search dictionaries is the same as in FIG.
  • the Japanese word translation link information includes a word information record with a word information record ID 330 corresponding to the word “USA” and a word information record with a word information record ID 444 corresponding to the word “US”. Furthermore, the Japanese word translation link information includes the ID01 and 02 polysemy information records whose parent is the ID330 word information record, and the ID14 and 15 polysomy information whose parent is the ID333 word information record. Includes records.
  • the word translation link information in Chinese includes the word information record ID100 corresponding to the word "Mirika U.S.” and the word information record ID211 corresponding to the word "Mikuni”. And a word information record.
  • the Chinese word translation link information includes the ID04 and 05 polysemy information records whose parent is the ID100 word information record. And IDs 214 and 215 polysemy information records whose parent is the word information record of ID211.
  • the word information record of ID 330 in the Japanese word translation link information has the word ID “5” of the corresponding word “USA” and the ID “01” of the child polysemy information record.
  • the polymorphism information record of ID01 corresponds to the Chinese language ID “2” as the translation, ID “330” as the parent word information record, and the polysemy “Mikuni” as the translation of the Chinese word. It has an ID “214” of a polysemy information record that is a child of the word information record, and an ID “02” of a polysemy information record corresponding to the next polysemy.
  • the ID02 polynomial information record is the translated Chinese language ID “2”, the parent word information record ID “330”, and the translated Chinese word “Miri U.S.” ID “05” of the polysemy information record that is a child of the word information record corresponding to “0”, and “0” indicating that there is no polysemy information record corresponding to the next polysemy.
  • the word information record of ID333 in the Japanese word translation link information has the word ID “7” of the corresponding word “USA” and the ID “15” of the child polysemy information record.
  • the ID1 5 polymorphism information record consists of the Chinese language ID “2” as the translated word, the parent word information record ID “333”, and the Chinese word as the translated word “Mirika 1 ”. ⁇ It has the ID “04” of the polysemy information record that is a child of the word information record corresponding to “United States”, and the ID “15” of the polysemy information record corresponding to the next polysemy.
  • the ID 15 ambiguous word information record includes the Chinese language ID “2” as the translated word, the ID “333” as the parent word information record, and the word information record corresponding to the Chinese word “Mikuni” as the translated word.
  • the word information record of ID100 in the Chinese word translation link information includes the word ID "7" of the corresponding word "Mirika U.S.” and the ID "04" of the child polysemy information record.
  • the polymorphism information record of ID04 is the word information corresponding to the Japanese language ID “1” as the translation, the ID “100” of the word information record as the parent, and the polysemy “US” of the Japanese word as the translation. It has the ID “14” of the polysemy information record that is a child of the record, and the ID “05” of the polysemy information record corresponding to the next polysemy.
  • ID05 polysodic information record Is a child of the word information record corresponding to the Japanese language ID “1”, the parent word information record ID “100”, and the Japanese word “US” as the target word. It has the ID “02” of the word information record and “0” indicating that there is no multi-word information record corresponding to the next multi-word.
  • the word information record of ID211 in the Chinese word translation link information has the word ID “9” of the corresponding word “Mikuni” and the ID “214” of the child polysemy information record.
  • the ambiguity information record with ID 214 is the Japanese language ID “1” as the translated word, the ID “211” as the parent word information record, and the word corresponding to the ambiguity “US” in the Japanese word as the translation. It has the ID “01” of the polysemy information record that is a child of the information record, and the ID “215” of the polysemy information record corresponding to the next polysemy.
  • the ID215 multilingual information record includes the Japanese language ID “1” as the translation, the word information ID “211” as the parent, and the word information record corresponding to the Japanese word “US” as the translation. It has ID “15” of a polysemy information record that is a child of “0”, and “0” indicating that there is no polysemy information record corresponding to the next polysemy.
  • the Japanese word and the Chinese word are associated by the Japanese and Chinese word translation link information.
  • the word direct translation engine 20 is, if you want to translate Chinese of the word "YoshiToshi pressure the United States” in Japanese, the word ID of the word definitive in the Chinese word translation link information "YoshiToshi pressurized 1 ⁇ If countries", " ID100 word information record including “7” is specified.
  • the word direct translation engine 20 identifies the polysodic information record of ID04 by the ID “04” of the polysomy information record included in the word information record of ID100.
  • the word direct translation engine 20 identifies the polysodic information record of ID05 by the ID “05” of the polysodic information record corresponding to the next polysemy included in the polysomatic information record of ID04. Then, the word direct translation engine 20 includes the ID “02” and the ID “02” of the multi-word information record that is a child of the word information record corresponding to the Japanese word that is the translation included in the identified multi-word information records of ID 04 and ID 05. “14” identifies ID02 and ID04 polysemy information records that are children of the word information record corresponding to the Japanese word.
  • the direct translation engine 20 translates ID 330 and I by the ID “330” and ID “333” of the parent word information record included in the identified ambiguous word information records of ID 02 and ID 04.
  • the word information record of D333 is specified.
  • the word translation engine 20 extracts the word “America” in the Japanese word search dictionary from the word ID “5” included in the word information record of ID330, and also includes it in the word information record of ID451.
  • the word “USA” in the Japanese word search dictionary is extracted by the word ID “7”. By such processing, the Chinese word “Miri Kasang U.S.” is translated into Japanese words “USA” and “USA”.
  • FIG. 26 is a diagram showing the structure of the bilingual dictionary used for word translation between Japanese and English by the word direct translation engine 20 when the sequence structure base is adopted for the word translation link information.
  • the trie structure in the Japanese word search dictionary stores the word “USA” and its synonym “USA”.
  • the tri-structure of the English word search dictionary is the English translation of "America,”"Ameri ca” and Ru English translation der of its synonym, "the United States,””USA” t, it is stored cormorant word RU
  • the Japanese word translation link information includes the word information record of the word information record ID340 corresponding to the word "USA” and the word information record of the word information record ID343, and the word "US"
  • the corresponding word information record ID 464 word information record and the word information record ID 471 word information record are included.
  • the word information record ID500 corresponding to the word information record and the word information record ID641 of the word information record ID641 are included.
  • the English word that is the translation of the Japanese word "America” is "America”
  • the English word that is the translation of the Japanese word "USA” is "USA”
  • “America” and “USA” Synonyms, “811161 ⁇ &” and “1; 3-8” are synonyms.
  • the word information record of ID330 in the Japanese word translation link information includes the word ID “5” of the corresponding word “USA”, the English language ID “3” of the translated word, and the English word “ It has the ID “200” of the word information record corresponding to Americaj and the ID “343” of the word information record corresponding to the following polysemy.
  • the word information record of ID343 in the Japanese word translation link information includes the word ID “5” of the corresponding word “America” and the English translation that is the translation.
  • the word information record of ID464 in the Japanese word translation link information includes the corresponding word "US", the word ID “7”, the translated language ID "3”, and the translated word English. It has the ID “500” of the word information record corresponding to the word “USA” and the ID “471” of the word information record corresponding to the next polysemy.
  • the word information record of ID471 in the Japanese word translation link information includes the word ID “7” of the corresponding word “US”, the English language 10 “3” as the translation, and the English word “ In other words, the ID of the word information record corresponding to the English word “Ameri ca ”, which is a translation of the ambiguous word “America” of the word “US”. 201 ”and“ 0 ”indicating that there is no word information record corresponding to the next ambiguous word.
  • the word information record of ID200 in the English word translation link information includes the word ID “8” of the corresponding word “America”, the language ID “1” of the Japanese translation, and the Japanese translation of the Japanese translation. It has the ID “340” of the word information record corresponding to the word “USA” and the ID “201” of the word information record corresponding to the next polysemy.
  • the word information record of ID201 in the English word translation link information includes the word 10 “8” of the corresponding word “8111 ⁇ 21 ⁇ &”, the Japanese language ID “1” as the translation, and the Japanese word as the translation.
  • the word information record of ID500 in the English word translation link information includes the word ID "11” of the corresponding word “USA”, the language ID "1" of the Japanese translation, and the Japanese translation of the translation Japanese. It has the ID “464” of the word information record corresponding to the word “USA” and the ID “641” of the word information record corresponding to the next polysemy.
  • the word information record of ID641 in the English word translation link information includes the word ID “11” of the corresponding word “USA”, the language ID “1” of the Japanese translation, and the Japanese word “ In other words, the ambiguity of “US”
  • the word information record ID 343 corresponding to the Japanese word ⁇ America '' which is a translation of the ambiguous word ⁇ America '' of the word ⁇ USA '', and a word information record corresponding to the following polysemy! / Has "0" to indicate
  • the Japanese word and the English word are associated with each other by the Japanese and English word translation link information.
  • the word translation engine 20 When translating the English word "Americ a" into Japanese, the word translation engine 20 translates the word ID "8" of the word “Ameri ca " and the Japanese language ID "1" in the English word translation link information.
  • the word information record of ID200 that contains is specified.
  • the word direct translation engine 20 identifies the word information record with ID “201” of the word information record corresponding to the next synonym included in the word information record with ID200. Further, the word direct translation engine 20 uses the ID “340” of the word information record corresponding to the Japanese word that is the translated word included in the word information record of ID 200, and the word information record of ID 340 in the Japanese word translated link information.
  • the word information record of ID471 in the Japanese word translation link information is identified by the ID “471” of the word information record corresponding to the Japanese word that is the translation included in the word information record of ID201. Then, the word direct translation engine 20 extracts the word “America” in the Japanese word search dictionary from the word ID “5” included in the word information record of ID340 and the word ID included in the word information record of ID 471. The word “USA” in the Japanese word search dictionary is extracted by “7”. By such processing, the English word “America” is translated into Japanese words “America” and “US”.
  • FIG. 27 is a diagram showing the structure of a bilingual dictionary used for word translation between Japanese and English by the word translation engine 20 when a double sequence structure base is adopted for word translation link information. It is.
  • the trie structure in the Japanese and English word search dictionaries is the same as in FIG.
  • the Japanese word translation link information includes a word information record with a word information record ID 331 corresponding to the word “USA” and a word information record with a word information record ID 334 corresponding to the word “US”. Furthermore, the Japanese word translation link information includes the ID03 and 04 polysemy information records whose parent is the ID331 word information record, and the ID16 and 17 polysomy information whose parent is the ID334 word information record. Includes records. [0110] On the other hand, the English word translation link information, and the word information record of the word information record de ID101 corresponding to the word "Ameri ca", and the word information record of the word information record ID212 corresponding to the word "USA” Is included. Furthermore, the English word translation link information includes ID06 and 07 polysemy information records whose ID101 word information record is the parent, and ID216 and 217 polysemy information records whose parent is the ID212 word information record. It is.
  • the word information record of ID331 in the Japanese word translation link information has the word ID "5" of the corresponding word "America” and the ID "03" of the child polysemy information record.
  • the polymorphism information record of ID03 corresponds to the English language ID “3” as the translated word, the parent word information record 10 “331”, and the English word polysemy “1; It has an ID “216” of the polysemy information record that is a child of the word information record, and an ID “04” of the polysemy information record corresponding to the next polysemy.
  • the polymorphism information record of ID04 has the English language ID “3” as the translated word, the ID “331” of the parent word information record, and the English word “Americ aj as the translated word. It has the ID “07” of the child polysemy information record and “0” indicating that there is no polysemy information record corresponding to the next polysemy.
  • the word information record with ID 334 in the Japanese word translation link information has the word ID “7” of the corresponding word “USA” and the ID “16” of the child polysemy information record.
  • ID1 6 synonymous word information record of the English language ID "3" is the translation, the word information record of 10, "334", which is the parent, Aru English words of ambiguous language in the translation "eight 1 ⁇ 1: & ID “06” of the multiple meaning information record that is a child of the word information record corresponding to “”, and ID “17” of the multiple meaning information record corresponding to the next multiple meaning word.
  • the ID 17 polysemy information record includes the English language ID “3” as the translated word, the parent word information record ID “334”, and the translated English word “US SAJ corresponding to the word information record. It has an ID “217” of the child polysemy information record and “0” indicating that there is no polysemy information record corresponding to the next polysemy.
  • the word information record of ID 101 in the English word translation link information has the word ID “8” of the corresponding word “America” and the ID “06” of the child polysemy information record.
  • I D06 polysemy information record contains the Japanese language ID “1” as the translated word, the ID “101” as the parent word information record, and the word corresponding to the polynomous word “US” as the translated Japanese word ID “16” of the polysemy information record that is a child of the information record, polysemy corresponding to the following polysemy It has the ID “07” of the information record.
  • the polymorphism information record of ID07 is the Japanese language ID “1” as the translated word, the ID “101” of the parent word information record, and the word information record corresponding to the Japanese word “USA” as the translated word.
  • the word information record of ID 212 in the English word translation link information has the word ID “11” of the corresponding word “USA” and the ID “216” of the child polysemy information record.
  • the polymorphism information record with ID 216 is the Japanese language ID “1” as the translated word, the ID “212” as the parent word information record, and the word corresponding to the polymorphic word “USA” as the translated Japanese word. It has an ID “03” of the polysemy information record that is a child of the information record, and an ID “217” of the polysemy information record corresponding to the next polysemy.
  • the ID217 ambiguity information record is the Japanese language ID “1” as the translation, the word information ID “212” as the parent, and the word information record corresponding to the Japanese word “USA” as the translation. ID of the multiple meaning information record that is a child of “17”, and “0” indicating that there is no multiple meaning information record corresponding to the next multiple meaning word.
  • the Japanese word and the English word are associated with each other by the Japanese and English word translation link information.
  • the word direct translation engine 20 identifies the word information record of ID101 including the word ID “7” of the word “Ameri ca ” in the English word translation link information. .
  • the direct word translation engine 20 identifies the polymorphism information record of ID06 by the ID “06” of the polymorphism information record included in the word information record of ID101.
  • the word direct translation engine 20 identifies the polysemy information record of ID07 by the ID “07” of the polysemy information record corresponding to the next polysemy included in the polysomy information record of ID06.
  • the direct word translation engine 20 includes the ID “04” of the multiple meaning information record that is a child of the word information record corresponding to the Japanese word that is the translation included in the identified multiple meaning information records of ID06 and ID07. ”And“ 16 ”specify ID04 and ID16 polysemy information records that are children of the word information record corresponding to the Japanese word.
  • the literal translation engine 20 translates the I of the parent word information record contained in the identified ID04 and ID06 polysemy information records.
  • the word information record of ID331 and ID334 is specified by D “331” and ID “334”.
  • the word translation engine 20 extracts the word “America” in the Japanese word search dictionary from the word ID “5” included in the word information record of ID331 and includes it in the word information record of ID334.
  • the word “USA” in the Japanese word search dictionary is extracted by the word ID “7”.
  • the word direct translation engine 20 outputs the translation obtained by the above translation to the target language text sentence creation unit 22. If there are multiple translations, the word translation engine 20 compares the part-of-speech attribute of the translation target word with the part-of-speech attribute of the translation, and the translation target word and part-of-speech attribute are compared. Only the same ones may be selected and output. Further, when there are a plurality of translations having the same part-of-speech attribute as the translation target word, the word direct translation translation engine 20 may select and output any one. If there is no translation result word, the word direct translation engine 20 outputs the word to be translated to the target language text sentence creation unit 22 as it is. Further, the word direct translation engine 20 can acquire various pieces of statistical information and grammatical information from an external knowledge database (not shown) based on the input word and the translated word.
  • the word translation link information associates a word in one language with a translation in another language, so that bidirectional translation between two languages or between a plurality of languages is possible.
  • the word translation apparatus may be used to complement the translation memory engine, pattern-based translation engine, chunk-based translation engine, and analysis-based translation engine (see FIG. 1), or the translation engine, pattern It may be used in combination with either the base translation engine or the chunk-based translation engine, or it may be configured as a single unit.
  • the word translation device is equipped with software that performs its functions in the computer. It can also be used as a portable or portable electronic dictionary.

Abstract

 単語翻訳装置は、第1言語の単語を検索するための第1言語の単語検索トライ構造100、第2言語の単語を検索するための第2言語の単語検索トライ構造200、第1言語の単語検索トライ構造100に格納された単語についての訳語を識別するための第1の訳語情報を含む第1言語の単語情報レコード110、および第2の単語検索トライ構造に格納された単語についての訳語を識別するための第2の訳語情報を含む第2言語の単語情報レコード210を対訳辞書に記憶している。第1、第2の単語情報レコード110、210を参照することで、第1、第2言語間の双方向の単語翻訳を高精度にかつ高速に実現することができる。

Description

明 細 書
単語翻訳装置、翻訳方法および翻訳プログラム
技術分野
[0001] 本発明は、原言語の単語を目的言語の単語に翻訳する単語翻訳装置に関し、特 に複数言語相互間の翻訳技術に関する。
背景技術
[0002] 単語翻訳技術は、入力された第 1の言語単語を対訳辞書を参照し、そこから第 2の 言語の訳語を引き出し、これを出力するものである。また、文の翻訳技術は、入力さ れた第 1言語の文を形態素解析し、文を構成する単語集合を抽出し、対訳辞書を利 用して抽出された単語の訳語を引き出し、訳語の接続関係を利用して訳文を生成す るものである。例えば非特許文献 1は、語の接続関係を利用した機械翻訳システムを 開示している。
[0003] このような単語翻訳技術や文の翻訳技術は、電子単語翻訳装置やコンピュータ装 置において実用化されている。例えば、電子単語翻訳装置は、複数の言語に関する 対訳辞書をメモリ内に記憶し、ユーザが第 1の言語単語を入力すると、その単語の訳 語を対訳辞書を参照して抽出し、これをディスプレイに表示する。
[0004] 特許文献 1は、電子辞書において検索を行うときに、ユーザが辞書の種類を選択す る手間を省くものである。すなわち、ユーザが入力した検索語に基づいて、複数の辞 書に含まれる見出し語を検索し、検索された見出し語が含まれる複数の辞書内容を 一括して表示させている。
[0005] 特許文献 1 :特開 2000— 276479号
非特許文献 1 :鈴木、栃内、「語の接続関係を利用した機械翻訳システム」、情報処 理学会論文誌、 Vol.29, No.4、 1988
発明の開示
発明が解決しょうとする課題
[0006] 一般に、対訳辞書の構成は、言語対毎 (例えば、日英、英日など)に構成され、単語 情報を二重に記録し、日英または英日からの翻訳時に、単語情報を共用しない構造 になっている。このため、辞書の構築コストは高くなつている。また、対訳辞書は双方 向に検索可能な構成になって 、な 、ため対訳辞書に情報漏れと 、う問題がある。例 えば、 日英に存在する対訳対が、英日に存在しない場合がある。特許文献 1の電子 辞書では、英日翻訳辞書と日英翻訳辞書をそれぞれ独自の翻訳に適用して 、るの で、上記した課題を依然として解決するものではな ヽ。
[0007] また、文の翻訳技術として、最終的な目的は正確な翻訳文を取り出すことであるが 、すべてにおいて正確な翻訳を得ることが容易でないのが現状である。このため、翻 訳された文書には、正解な訳文と不正解な訳文とが混在し、ユーザは、どこまでが正 解な訳文なのかを判断することが難くなつている。非特許文献 1は、このような課題を 解決する構成を開示し、または示唆するものではな 、。
[0008] 本発明は、上記従来の課題を解決するために成されたものであり、 2言語間または 複数言語間において双方向の翻訳を可能とする対訳辞書を備えた単語翻訳装置、 翻訳方法および翻訳プログラムを提供することを目的とする。
さらに本発明は、高速に単語の翻訳を行うことができる単語翻訳装置、翻訳方法お よび翻訳プログラムを提供することを目的とする。
課題を解決するための手段
[0009] 本発明は、複数言語間において単語の翻訳を行う単語翻訳装置であって、少なく とも、第 1の言語の単語を検索するための第 1の単語検索構造、第 2の言語の単語を 検索するための第 2の単語検索構造、第 1の単語検索構造に格納された単語につい ての単語関連情報と訳語情報を含む第 1の単語'訳語情報レコード、および第 2の単 語検索構造に格納された単語についての単語関連情報と訳語情報を含む第 2の単 語情報レコードを辞書に記憶する記憶手段を備える。任意の言語の単語からもう一 方の言語の訳語を引き出すときに、単語を原言語の単語検索構造と照合し、照合が 成功した場合は、対応した単語情報と訳語情報を単語 ·訳語情報レコードから取り出 し、取り出された訳語情報からもう一方の言語の単語検索構造の訳語情報を得ること ができる。原言語の単語を単語検索構造において照合が失敗した場合は、原言語の 単語をそのまま出力する。
[0010] また、本発明の単語翻訳装置は、第 1、第 2の単語検索構造が、単語'訳語情報レ コードを識別するための単語'訳語情報レコード識別情報を含む。
[0011] また、本発明の単語翻訳装置は、第 1、第 2の単語'訳語情報レコードが、それぞれ 第 1、第 2の単語検索構造に含まれる単語を識別する単語識別情報を含む。
[0012] また、本発明の単語翻訳装置は、第 1、第 2の単語'訳語情報レコードが、それぞれ 第 1、第 2の単語検索構造に含まれる単語の関連情報を含む。
[0013] また、本発明の単語翻訳装置は、第 1の単語'訳語情報レコードが、第 2の単語'訳 語情報レコードに含まれる訳語情報を識別するための訳語識別情報を含み、第 2の 単語'訳語情報レコードが、第 1の単語'訳語情報レコードに含まれる訳語情報を識 別するための訳語識別情報を含む。
[0014] また、本発明の単語翻訳装置は、第 1、第 2の単語'訳語情報レコードが、訳語に関 連する多義語を識別するための識別情報を含む。
[0015] また、本発明の単語翻訳装置は、第 1、第 2の単語'訳語情報レコードが、訳語の言 語種を識別するための識別情報を含む。
[0016] また、本発明の単語翻訳装置は、第 1、第 2の単語'訳語情報レコードが、 1つの単 語が複数の品詞を有する場合に、各品詞毎に、単語関連情報と訳語情報を記憶す るレコードを有する。
[0017] また、本発明の単語翻訳装置は、各品詞毎のレコードが、当該 1つの単語関連情 報とポインタによって関連付けされている。
[0018] 好ましくは、単語翻訳装置はさらに、単語を入力する入力手段と、入力された単語 を第 1の単語検索トライ構造に格納された単語と照合する照合手段と、照合された単 語についての第 1の単語情報レコードに基づき第 2の単語検索トライ構造に格納され た訳語を抽出する抽出手段と、抽出された訳語を出力する出力手段とを有する。こ れにより、入力された単語の訳語を高速かつ高精度に得ることができる。好ましくは、 前記抽出手段は、前記照合手段により照合された単語についての第 1の単語情報レ コードに基づき第 2の単語情報レコードを抽出する。また、第 1の単語情報レコードの 訳語情報は、第 2の単語検索構造に格納された訳語または第 2の単語情報レコード を識別するためのリンク情報を含み、前記抽出手段は、前記リンク情報に基づき前記 訳語または第 2の単語情報レコードを抽出するようにしてもょ 、。 [0019] 本発明に係る複数言語間において単語の翻訳を行う単語翻訳装置は、 N力国言 語 (Nは、 2以上の整数)についての単語検索トライ構造と、 N力国言語の単語検索ト ライ構造に対応する N力国言語の単語情報レコードとを辞書に記憶する記憶手段を 含み、 N力国言語の単語情報レコードのうち所定言語の単語情報レコードは、所定 単語についての訳語を識別する訳語情報を複数言語について記憶する。これは、本 発明に係る単語翻訳装置が、 2言語間のみならず複数言語間 (マルチリンガル)の単 語翻訳に対応可能であることを規定して 、る。
[0020] さらに本発明に係る機械翻訳システムは、文章を入力し、当該文章の翻訳を行う翻 訳手段と、翻訳手段によって翻訳できな力つた単語を入力し、当該単語の翻訳を行う 請求項 1ないし 10いずれか 1つに記載の単語翻訳装置とを有する。翻訳手段は、翻 訳メモリエンジン、パターンベース翻訳エンジン、またはチャンクベース例文翻訳ェン ジンのいずれか 1つを含む。好ましくは、翻訳手段によって翻訳できな力つた単語に ついての訳語を、他の訳語と識別して出力する識別出力手段を含む。これにより、高 精度の翻訳を行うことができるとともに、ユーザは、どの訳語の信頼性が高ぐどの訳 語の信頼性が低 、のかを容易に判別することができる。
[0021] 本発明に係る、複数言語間において単語の翻訳を行う単語翻訳装置は、前記言語 毎に設けられる単語検索辞書データと、前記言語毎に設けられる単語検索辞書デー タに含まれる単語毎に設けられ、対応する一の言語の単語と他の言語における訳語 との関連付けを表すリンク情報とを記憶する記憶手段を有する。
[0022] これにより、リンク情報によって一の言語の単語と他の言語における訳語との関連 付けがなされるため、 2言語間又は複数言語間において双方向の翻訳が可能となる
[0023] 好ましくは、単語翻訳装置は、前記リンク情報が、前記一の言語の単語の識別情報 と、前記他の言語の識別情報と、前記他の言語における訳語に対応するリンク情報 を指し示すポインタと、前記一の言語の単語に関連する多義語に対応するリンク情報 を指し示すポインタとを含む。
[0024] 好ましくは、単語翻訳装置は、前記リンク情報が、親リンク情報と子リンク情報とを有 し、前記親リンク情報は、前記一の単語の識別情報と、前記一の単語に関連する多 義語に対応する子リンク情報を指し示すポインタとを含み、前記子リンク情報は、前 記他の言語の識別情報と、対応する親リンク情報を指し示すポインタと、前記他の言 語における訳語に対応する子リンク情報を指し示すポインタと、他の多義語に対応す る子リンク情報を指し示すポインタとを含む。
[0025] 好ましくは、単語翻訳装置は、前記単語が複数の品詞を有する場合、前記リンク情 報は、前記品詞毎に設けられる。前記単語検索辞書データは、前記複数言語毎に、 単語を検索するための単語検索構造と単語に関する情報を記憶した単語情報レコ 一ドとを有する。
[0026] 好ましくは、単語情報レコードは、前記リンク情報を含む。単語検索構造は、例えば 、単語トライ構造またはハッシュ関数構造を含む。
[0027] 好ましくは、単語翻訳装置は、前記単語検索辞書データが、対応する言語の単語 の第 1文字のリスト情報と、前記単語のリスト情報とを有し、前記第 1文字リスト情報は 、前記第 1文字の情報、前記第 1文字から始まる単語数、前記第 1文字から始まる単 語のリスト情報における位置を指し示すポインタを含み、前記単語のリスト情報は、前 記単語に対応するリンク情報を指し示すポインタを含む。
[0028] 好ましくは、前記リンク情報は、前記単語検索辞書データに含まれる単語に関する 情報を表す単語情報レコードと対応付けられる。
[0029] 好ましくは、単語翻訳装置は、一の言語の単語を入力する入力手段と、前記入力さ れた一の言語の単語と、該一の言語に対応する単語検索辞書データとを照合する 照合手段と、前記照合された一の言語の単語に対応するリンク情報に基づいて、他 の言語に対応する単語検索辞書データ力 前記他の言語における訳語を抽出する 抽出手段とを有する。これにより、単語の翻訳を高精度に行うことができる。好ましく は、前記抽出手段は、前記照合手段により照合された一の言語の単語情報レコード のリンク情報に基づいて他の言語の単語情報レコードを抽出する。また、前記抽出手 段は、前記照合手段により照合された一の言語の単語情報レコードのリンク情報に 基づいて他の言語の単語検索構造の訳語を抽出することができる。
[0030] 本発明に係る複数言語間において単語の翻訳を行う単語翻訳方法は、第 1の言語 の単語を検索するための第 1の単語検索構造を記憶し、第 2の言語の単語を検索す るための第 2の単語検索構造を作成し記憶し、第 1の単語検索構造に格納された単 語についての訳語を識別するための第 1の訳語情報を含む第 1の単語情報レコード を記憶し、かつ第 2の単語検索構造に格納された単語にっ 、ての訳語を識別するた めの第 2の訳語情報を含む第 2の単語情報レコードを辞書に記憶するステップを備 えたものである。
[0031] 単語翻訳方法はさらに、単語を入力する入力ステップ、入力された単語を第 1の単 語検索構造に格納された単語と照合するステップ、照合された単語についての第 1 の単語情報レコードに基づき第 2の単語検索構造に格納された訳語を抽出するステ ップ、抽出された訳語を出力するステップを含む。好ましくは、前記単語検索辞書デ ータは、言語毎に単語検索構造と単語に関する情報を記憶した単語情報レコードを 含み、前記単語情報レコードは前記リンク情報を含み、前記抽出するステップは、一 の言語の単語情報レコードの前記リンク情報に基づ!/、て他の言語の単語情報レコ一 ドを抽出する。
[0032] 本発明に係る、複数言語間において単語の翻訳を行う単語翻訳方法は、前記言語 毎に設けられる単語検索辞書データと、前記言語毎に設けられる単語検索辞書デー タに含まれる単語毎に設けられ、対応する一の言語の単語と他の言語における訳語 との関連付けを表すリンク情報と、を記憶手段に記憶させる記憶ステップを有する。
[0033] 好ましくは、単語翻訳方法は、一の言語の単語を入力する入力ステップと、前記入 力された一の言語の単語と、該一の言語に対応する単語検索辞書データとを照合す る照合ステップと、前記照合された一の言語の単語に対応するリンク情報に基づ 、て 、他の言語に対応する単語検索辞書データ力 前記他の言語における訳語を抽出 する抽出ステップとを有する。
[0034] さらに本発明に係る複数言語間において単語の翻訳を行う単語翻訳プログラムは 、第 1の言語の単語を検索するための第 1の単語検索構造を記憶し、第 2の言語の 単語を検索するための第 2の単語検索構造を作成し記憶し、第 1の単語検索構造に 格納された単語についての訳語を識別するための第 1の訳語情報を含む第 1の単語 情報レコードを記憶し、かつ第 2の単語検索構造に格納された単語についての訳語 を識別するための第 2の訳語情報を含む第 2の単語情報レコードを辞書に記憶する ステップを備えている。
[0035] 本発明に係る、複数の言語間において単語の翻訳を行う単語翻訳プログラムは、 前記言語毎に設けられる単語検索辞書データと、前記言語毎に設けられる単語検索 辞書データに含まれる単語毎に設けられ、対応する一の言語の単語と他の言語にお ける訳語との関連付けを表すリンク情報とを記憶手段に記憶させる記憶ステップを備 える。
[0036] 好ましくは、単語翻訳プログラムは、一の言語の単語を入力する入力ステップと、前 記入力された一の言語の単語と、該一の言語に対応する単語検索辞書データとを照 合する照合ステップと、前記照合された一の言語の単語に対応するリンク情報に基 づ 、て、他の言語に対応する単語検索辞書データ力 前記他の言語における訳語 を抽出する抽出ステップとを備える。
発明の効果
[0037] 本発明によれば、言語毎に単語検索辞書データとリンク情報とが設けられることに よって、言語間の双方向翻訳を情報漏れなぐ高精度にかつ高速に行うことができる 。さらに、本発明の単語翻訳装置は、 2言語間のみならずマルチリンガルの単語翻訳 にも適用することができる。
図面の簡単な説明
[0038] [図 1]本発明の実施例に係る機械翻訳システムの構成を示す図である。
[図 2]2言語相互間の単語翻訳装置の構成を示す図である。
[図 3]本発明の実施例に係る単語直訳機械エンジンのハードウェア構成を示す図で ある。
[図 4]本発明の実施例に係る単語検索トライ構造を示す図である。
[図 5]トライ構造を説明する図である。
[図 6]単語情報レコードの構造を示す図である。
[図 7]単語フラグを説明する図である。
[図 8]図 8(a)は子供フラグを説明する図、図 8(b)は言語 IDを説明する図である。
[図 9]単語情報レコード IDを説明する図である。
[図 10]トライ構造の文字情報の構造を説明する図である。 [図 11]ノードレコード IDの付与を説明する図である。
[図 12]ノードレコードの配列を示す図である。
[図 13]第 1の単語情報レコードの格納方法を説明する図である。
[図 14]第 2の単語情報レコードの格納方法を説明する図である。
[図 15]単語の翻訳動作を説明するフローである。
[図 16]本発明の第 2の実施例に係る N力国言語間の単語翻訳装置の対訳辞書を説 明する図である。
[図 17]本発明の第 3の実施例において用いられる N力国言語単語対訳辞書の構造 を示す図である。
[図 18]N力国言語単語対訳辞書の第 1の構成の概念図である。
[図 19]N力国言語単語対訳辞書の第 2の構成の概念図である。
[図 20]ノ、ッシュ関数ベースでの単語検索辞書の詳細な構成を示す図である。
[図 21]配列構造ベースが採用される場合における単語情報レコードの構造を示す図 である。
[図 22]二重配列構造ベースが採用される場合における単語情報レコードの構造を示 す図である。
[図 23]二重配列構造ベースが採用される場合における多義語情報レコードの構造を 示す図である。
[図 24]配列構造ベースが採用される場合における、 日本語と中国語の間での単語翻 訳に用いられる対訳辞書の構造を示す図である。
[図 25]二重配列構造ベースが採用される場合における、 日本語と中国語の間での単 語翻訳に用いられる対訳辞書の構造を示す図である。
[図 26]配列構造ベースが採用される場合における、 日本語と英語の間での単語翻訳 に用いられる対訳辞書の構造を示す図である。
[図 27]二重配列構造ベースが採用される場合における、 日本語と英語の間での単語 翻訳に用いられる対訳辞書の構造を示す図である。
発明を実施するための最良の形態
以下、本発明の最良の実施形態について図面を参照して説明する。図 1は、本発 明の実施例に係る機械翻訳システムの全体構成を示す図である。機械翻訳システム
1は、文書のすべての部分を正しく翻訳することはできない。翻訳できない部分に無 理に翻訳すると、ユーザを混迷させ、原文の内容の把握に悪い影響を与えてしまう。 そこで、翻訳結果において、正解または失敗の区別、あるいは信頼性の高低を与え るようにしている。また、翻訳システムに学習機能を設け、翻訳できない部分を自動的 に回収し、正確な対訳を付与することで、翻訳の性能を向上させている。
[0040] 機械翻訳システム 1は、原言語テキスト文入力部 10から入力された文単位の文を 翻訳する翻訳メモリエンジン 12、翻訳メモリエンジン 12のデータベースにおいて照合 できな力つた部分、つまり正確に翻訳をできな力つた部分を入力しこれの形態素解析 を行う形態素解析部 14と、形態素解析部 14で解析された文または単語を入力しパ ターンベースで翻訳をするパターンベース翻訳エンジン 16と、パターンベース翻訳 エンジン 16で翻訳できな力つた部分をチャンクベース例文(単語の組合せまたは名 詞句のようなフレーズ)で翻訳するチャンクベース翻訳エンジン 18と、チャンクベース 翻訳エンジン 18で翻訳できなカゝつた単語を入力し、解析ベースまたは単語ベースで 翻訳する解析ベースまたは単語直訳翻訳エンジン 20と、 目的言語テキスト文を作成 する目的言語テキスト作成部 22とを有している。なお、チャンクベース翻訳エンジン 1 8は、訳語引き出し関数を保持している。この訳語引き出し関数は、文に含まれる単 語の列と、当該単語の列を翻訳した単語の列とを対応付けるものであり、解析ベース または単語直訳翻訳エンジン 20は、訳語引き出し関数を文力も切り出した単語の列 に適用して、当該単語の列の翻訳結果を得る。
[0041] 翻訳メモリエンジン 12、パターンベース翻訳エンジン 16、チャンクベース例文翻訳 エンジン 18により翻訳が成功した部分の翻訳データは、 目的言語テキスト作成部 22 に入力される。 目的言語テキスト作成部 22は、これらの翻訳データに基づき目的言 語のテキストを作成する。このとき、翻訳成功した部分については、正確に翻訳され たことがわ力るような識別を与える。一方、解析ベースまたは単語直訳翻訳エンジン 2 0によって翻訳された翻訳データは、 目的言語テキスト文作成部 22において、参考 程度の翻訳として出力される。これにより、ユーザは、テキスト訳文において、どこが 信頼できる翻訳結果であり、どこが信頼できな 、翻訳結果かを一見して把握すること ができる。一方、チャンクベース例文翻訳エンジン 18で翻訳失敗した部分は、回収 部 24によって回収される。回収された翻訳失敗部分は、翻訳者によって正確な翻訳 がなされ、その結果が、学習エンジン 26に出力される。学習エンジン 26は、正確な 翻訳に基づき、対訳データを対訳辞書 28へ書き込む。
[0042] 図 2は、本実施例の好ましい 2言語相互間の単語翻訳装置の構成を示す図である 。 2言語相互間の単語翻訳機能は、単語直訳翻訳エンジン 20に包含されている。単 語翻訳装置において、原言語テキスト入力部 10からテキスト分または単語が形態素 解析部 14に入力される。単語は、そこで属性 (名詞や動詞など)を付与され、単語直 訳翻訳エンジン 20に入力される。単語直訳翻訳エンジン 20は、入力された原言語 の単語を対訳辞書を用いて目的言語の単語に翻訳し、その結果を目的言語テキスト 作成部 22へ出力する。単語直訳翻訳エンジン 20の対訳辞書は、学習エンジン 26に より学習された対訳辞書 28を用いることができる。
[0043] 図 3は、 2言語相互間の単語翻訳装置のハードウェア構成を示す図である。単語翻 訳装置は、入力装置 30、表示装置 32、主記憶装置 34、外部記憶装置 36、中央処 理装置 (CPU) 38、これらを接続するバス 40を含んでいる。入力装置 30、キー操作 により単語を入力するキーボード、原稿に記載された単語を光学的に読み取る光学 式読取装置、あるいは、チャンクベース例文翻訳エンジンの出力のように他のハード ウェアまたはソフトウェアの演算結果であってもよ 、。
[0044] 表示装置 32は、原言語の単語を翻訳した目的言語の単語を出力するディスプレイ 等を含む。主記憶装置 34は、 ROMまたは RAMを含み、単語の翻訳を制御するた めのプログラムや演算結果等のデータを記憶する。外部記憶装置 36は、例えばハー ドディスク等の大容量記憶装置を含み、ここには、単語の翻訳に必要な対訳辞書が 記憶されている。 CPU (Central Processing Unit) 38は、主記憶装置 34に記憶された プログラムに従 、各部を制御する。
[0045] 次に、本実施例に係る単語直訳翻訳エンジンの詳細について説明する。図 4は、 単語直訳翻訳エンジン 20に含まれる対訳辞書の単語検索トライ構造および単語情 報レコード構造の概念を説明する図である。対訳辞書には、第 1言語の単語検索トラ ィ構造 100およびこれに対応する第 1言語の単語情報レコード 110と、第 2言語の単 語検索トライ構造 200およびこれに対応する第 2言語の単語情報レコード 210とを有 している。
[0046] トライ構造 (TRIE structure)とは、言語情報処理分野にお!、て、検索キー集合の共 通部分の文字列を併合して得られる木構造のことである。例えば、「あい」、「あいさい 」、「あいさつ」、「あいのこ」、「あいのり」の 5つの検索キーから生成したトライ構造は図 5に示すようになる。図中の $は、単語の末尾を表わす特殊文字として用いてもよい 。トライ構造を用いて検索するには、検索文字列を左から順に走査しながら、木の根( ノード N 1)から各ノード N2〜N13に付与された文字を手がかりに木をたどり、検索文 字列に照合する単語を抽出する。トライ構造を用いると、検索キーの数によらず検索 文字列に比例した時間で検索ができる。
[0047] 再び図 4に戻って説明する。 2言語相互間での翻訳を行うため、本実施例に係る対 訳辞書は、第 1言語の単語検索トライ構造 (以下、第 1のトライ構造という) 100と、第 1 のトライ構造 100に含まれる各単語の訳語情報を記憶する第 1の言語の単語情報レ コード 110と、第 2言語の単語検索トライ (以下、第 2のトライ構造という) 200と、第 2の トライ構造 200に含まれる各単語の訳語情報を記憶する第 2言語の単語情報レコー ド 210を格納している。
[0048] 例えば、第 1言語が日本語であり、第 2言語が中国語であるとき、第 1のトライ構造 1 00に「アメリカ」という単語が格納されていると、第 2のトライ構造 200には、その訳語 である「美国」が格納されている。「アメリカ」と「美国」との関係は、第 1、第 2の単語情 報レコード 110、 210に含まれる訳語情報にいって相互にリンク付けされる。
[0049] 例えば、「アメリカ」の検索文字列が入力されると、 CPU38は、検索文字列「アメリカ 」を左から順に(「ァ」力も順に)走査しながら、第 1のトライ構造のルートから各ノードを たどり、「アメリカ」に一致する単語またはパスが存在する力否かを判別する。一致す るパスが存在しているとき、すなわち単語が存在しているとき、「アメリカ」に対応する 単語情報レコード 110を参照することで、第 2のトライ構造 200における訳語である「 美国」であるパスを識別し、訳語「美国」を得る。一方、「美国」の検索文字列が入力さ れると、上記とは反対に、「美国」に対応する単語情報レコード 210を参照することで 、第 1のトライ構造 100における訳語である「アメリカ」のパスを識別し、訳語「アメリカ」 を得る。このように、第 1、第 2の単語情報レコード 110、 210を双方向にリンク付けす ることで、相互方向の対訳情報漏れを防止している。
[0050] また、第 1のトライ構造 100に格納される「アメリカ」と同義語である「米国」(ここでは 漢字で示すが、ひらがなでも良い)が格納されているとき、「美国」の単語情報レコー ド 210の訳語情報には、多義語を識別するリンク付けが成されているため、「美国」の 訳語から、「アメリカ」および「米国」を得ることができる。
[0051] 上記したように、第 1のトライ構造 100に記憶された単語から第 2のトライ構造の単語 を識別するために、第 1言語の単語情報レコード 110が生成され、第 2のトライ構造 2 00に記憶された単語から第 1のトライ構造の単語を識別するために、第 2言語の単語 情報レコード 210が生成される。図 6は、単語情報レコードの構造を示す図である。 単語情報レコードは、文字情報 300、単語フラグ +子供フラグ +言語 ID302、単語 k情 報レコードの ID304、親ノード ID306、右兄弟ノード ID308を有する。
[0052] 文字情報 300は、ノードに含まれる文字が漢字、ひらがな、カタカナ、アルファべッ トかを示すものである。単語フラグ +子供フラグ +訳語言語 ID302は、 1バイトから構 成され、そのうち単語フラグは 2ビットから構成される。単語フラグは、図 7に示すよう に、単語フラグ力 S「0」のとき、中間ノードを意味し、単語フラグが「1」のとき、単語ノー ドを意味し (根力 該ノードまでのパス上の情報が単語を表す)、単語フラグが「2」の とき、発音ノードを意味し (根カも該ノードまでのパス上の情報が発音を表す)、単語 フラグが「3」のとき、単語発音ノードを意味する(根カも該ノードまでのパス上の情報 が単語と発音を表す)。
[0053] 子供フラグは 1ビットから構成され、図 8(a)に示すように、子供フラグが「0」のとき、当 該ノードよりも下の階層にノードを含まないことを意味し、子供フラグ「1」のとき、当該 ノードよりも下の階層にノードを含んで 、ることを意味する。
[0054] 訳語言語 IDは、訳語の言語表記を示す識別であり、例えば、図 8 (b)に示すように
、言語 IDが「1」のとき、日本語を示し、言語 IDが「2」のとき中国語を示し、言語 IDが「
3」のとき英語を示す。
[0055] 単語情報レコード ID304は、図 9に示すように、単語 、発音 、品詞 、優先順 位、多義性情報 (語数)、概念 ID、左連結情報 ID、右連結情報 ID、訳語言語 ID、訳 語 ID、次の多義語情報レコード ID、および説明を含んでいる。単語 IDは、トライ構造 に格納された単語を識別するためのノード IDである。例えば、図 4に示す第 1のトライ 構造の「アメリカ」の場合、単語 IDは、単語の末端「力」を格納するノード IDである。発 音 IDは、単語の発音を表すもので、例えば、漢字やひらがなによって発音が異なる ためである。品詞 IDは、単語の品詞、例えば、名詞、動詞、形容詞等を識別する ID である。
[0056] 多義性情報は、単語が多義語であるとき、多義語の数を示す。例えば、図 4の第 1 のトライ構造の「アメリカ」であれば、多義語の数は 1 (「米国」)となる。概念 、左連 結情報 ID、右連結情報 IDは、必須のものではないが、解析ベースの翻訳を行うとき に有用な IDである。
[0057] 訳語言語 IDは、訳語の言語表記を識別する IDであり、「アメリカ」から「美国」への 翻訳であれば、中国語を識別する IDとなる。訳語 IDは、当該単語の訳語を識別する IDである。すなわち、「アメリカ」の訳語が「美国」であれば、訳語 IDは、「美国」の末 端「国」を格納するノード IDである。多義語情報レコードは、当該単語の訳語と多義 語である次のレコードを識別する IDである。例えば「美国」の単語レコードにおいて、 訳語が「アメリカ」であり、その多義語が「米国」であれば、多義語レコード IDは、「米 国」を識別する IDとなる。説明は、注釈等を含むものであって、必ずしも必須ではな い。
[0058] 親ノード ID306は、当該単語を識別するノードより階層の上のノードを識別する ID であり、右兄弟ノード ID308は、当該ノードと共通の親ノードを有する左右のノード ID である。これらのノード IDは、トライ構造に必要な情報であって、単語の翻訳に直接 関係するものではない。なお、同音の単語が複数存在する場合には、その単語の数 を単語情報レコードに含ませるようにしてもよい。この場合には、単語情報レコードに 対応するトライ構造には、複数の単語が対応することになる。
[0059] 図 4に示すように、例えば、第 1のトライ構造 100に格納された「アメリカ」の単語情 報レコードを kとすると、単語情報レコード kは、「アメリカ」のルートからのパスを示す 情報と、これの訳語情報 (訳語言語 ID、訳語 IDおよび多義語情報レコード ID)を含 んでいる。一方、第 2のトライ構造 200に格納された「美国」の単語情報レコードを hと すると、単語情報レコード hは、「美国」のルートからのパスを示す情報と、これの訳語 情報を含んでいる。また、単語情報レコード hは、「米国」の単語情報レコード k+1を、 多義語情報レコード IDとして含んでいる。こうして、第 1言語および第 2言語の双方の 訳語が第 1、第 2の単語情報レコードを介して双方向にリンク付けされ、双方向からの 翻訳時に訳語を漏れなく高速に検索することができる。
[0060] 次に、トライ構造の文字情報の構造を図 10を参照して説明する。図 10(a)に示す方 法は、トライ構造の各ノードを、 2バイトにより 1文字を表している。図 10(b)に示す方法 は、すべての言語をュ-コード(Unicode)に変換し、各ノードに高バイト(上位 8ビット) と低バイト(下位 8ビット)を格納し、高バイトおよび低バイトにより 1文字を表して!/、る。 図 10 (b)の方法は、図 10 (a)の方法に比べて、トライ構造の水平方向のノードが減る ため(256通り)、検索速度は速くなる力 ノードが深さ方向に深くなるため、情報量は 増加する。図 10(c)に示す方法は、図 10(a)の方法と図 10(b)の方法をミックスしたも のである。
[0061] 次にノード IDの付与方法について説明する。図 11は、ノード IDの付与方法を示す 図である。トライ構造では、深さ優先探索し、探索の順番によって番号を 1あるいは 0 力も順に増加させ、ノード IDを付与する。ノード IDを付与したならば、図 12に示すよ うに、ノード IDに対応するレコードをノード IDの順番に従い配列し、格納する。ノード I Dの順番でレコードを配列させることで、ノード IDが指すノード情報に瞬時にアクセス することができる。なお、本実施例では訳語だけが得られ、図 9に示すような単語の情 報 (訳語の情報)、即ち、単語の発音、品詞 (属性)などは正確に得られない。図 9に示 すような訳語の正確な情報が必要な場合は、後述する第 2及び第 3の実施例のような 単語検索構造及び単語情報レコード構造を用いれば良 ヽ。
[0062] 次に、単語レコードの格納方法について説明する。第 1の言語の単語と第 2の言語 の単語が 1対 1に対応して 、るときは、それぞれの単語情報レコードは単一でよ!、が
、一般には、単語には複数の品詞 (複数の意味)を持つものも多ぐ対訳は、複数対 複数の関係になることが多 、。
[0063] 単語 kの品詞が複数であり、ある品詞の訳語が複数の場合には、単語 kの情報レコ ードを複数用意し、各レコードの間を直列の指針 (ポインタ)で連結し、それぞれのレ コードに対応している訳語情報を記憶するようにする。図 13に示すように、第 1の言 語の単語 kのレコードには、品詞 1とその対訳語 1の情報が記憶され、さらにポインタ によって関連付けされたレコードには、品詞 1とその対訳語 2が記憶される。ポインタ は、図 6に示した次の多義語情報レコード IDを用いることができる。次に、単語の選 択ルールについて説明する。好ましくは、名詞、代名詞、形容詞、副詞、動詞、専門 用語だけ翻訳する。対訳の関係が 1対 1の場合は、一義的に対応する訳語を選択す る。一方、 1対 nの場合 (η> 1)は、 n個の訳語の品詞属性を比較して、原言語の単語 の品詞が同じ品詞のもの力も選択する.そのとき,同じ品詞の訳語が一つの場合は, その訳語を選択する.複数の場合は、優先順位で候補を選択したり、あるいは任意 の 1個の候補を選択する。
[0064] 例えば、中国語の「美国」から、日本語の「米国」、「アメリカ」への翻訳を例にすると 、中国対訳辞書には、「美国」についての 2つのレコード 320、 322力生成され、それ らがポインタにて関連付けされている。 日本語対訳辞書には、「米国」についてのレコ ード 330と「アメリカ」についてのレコード 332が生成されている。 [美国]のレコード 32 0は、「アメリカ」の訳語情報を含み、「美国」のレコード 322は、「米国」の訳語情報を 含む。
[0065] 日本語の「アメリカ」、「米国」のレコード 330、 332は、破線で示すように、「美国」の 訳語情報、すなわち「美国」を参照するように関連付けされている。
[0066] 次に、他の単語情報レコードの格納方法について説明する。上記した図 13に示す 例では、同一のレコードを複数用いるため、メモリ容量が大きくなる。そこで、メモリ空 間を節約するために、他の格納方法は、単語 kの情報レコードを一用い、その単語 k の情報レコードから、多義語情報配列内の複数の訳語情報をそれぞれ含む複数の レコードを識別するようにし、多義語情報配列に最小限の訳語情報を記録する。図 1 4に示すように、第 1言語の単語 kの情報レコードと多義語情報配列とを用意する。多 義語情報配列のレコードは、例えば、品詞 1の訳語 2、品詞 1の訳語 3、品詞 2の訳語 1等の情報を含んでいる。多義語情報配列のレコードは、最小限の訳語情報として、 優先順位、概念 、言語 、訳語 、および次の多義語情報レコード指針を含ん でいる。 [0067] 例えば図 14に示すように、中国語の「美国」から日本語の訳語を検索する場合、「 美国」の単語情報レコード 320が作成され、さらに多義語情報配列に含まれるレコー ド 324が作成される。レコード 320によって、「米国」が参照され、多義語情報配列の レコード 324によって「アメリカ」が参照される。
[0068] 次に、単語の選択ルールについて説明する。好ましくは、名詞、代名詞、形容詞、 副詞、動詞、専門用語だけ翻訳する。対訳の関係が、 1対 1の場合は、一義的に対 応する訳語を選択する。一方、 1対 nの場合 (η> 1)は、 n個の訳語の品詞属性を比 較して、原言語の単語の品詞が同じ品詞のものから順に候補を選択したり、あるいは 任意の 1個の候補を選択する。
[0069] 図 15は、単語翻訳装置の動作を説明するフローチャートである。まず、原言語のテ キスト文を解析した単語またはユーザにより特定された単語が入力されると (ステップ S101)、 CPU38は、原言語の種類を特定する(ステップ S 102)。次に、 CPU38は、 特定された言語種に該当する訳語辞書のトライ構造を選択し (ステップ S103)、その トライ構造に格納された単語と入力された単語との照合を行う (ステップ S104)。 CP U38は、トライ構造内に単語が存在するとき (ステップ S105)、当該単語についての 単語情報レコードを参照し (ステップ S106)、単語情報レコードで参照される目的言 語のトライ構造力も訳語を抽出する (ステップ S107)。抽出された訳語は、目的言語 テキスト文作成部 22によってディスプレイ上に表示される (ステップ S108)。
[0070] 一方、入力された単語が存在しないとき (ステップ S 105)、翻訳失敗の表示が出力 される。この場合、翻訳者によって、入力された単語に適切な訳語が付与され、これ が訳語辞書に登録され、学習機能が与えられる (ステップ S 108)。
[0071] 次に本発明の第 2の実施例について説明する。第 2の実施例は、マルチリンガル、 すなわち N力国言語間の単語翻訳を可能にするもので、その対訳辞書の構成を図 1 6に示す。同図に示すように、第 1言語のトライ構造 400、第 2言語のトライ構造 500、 および第 N言語のトライ構造 600を作成し、各言語の単語検索トライを記憶する。同 時に、各トライ構造と対となるベぐ第 1言語の単語情報レコード 410、第 2言語の単 語情報レコード 510、および第 N言語の単語情報レコード 610を作成する。
[0072] 単語情報レコードには、複数の言語への対訳情報が混在されている。例えば、日 本語の単語情報レコードには、英語の訳語情報を記録するレコードと、中国語の訳 語情報を記録するレコードが含まれている。これにより、日本語の単語から、英語また は中国語の訳語を検索することができる。英語または中国語の 、ずれかを検索する かは、ユーザの指示に応じて行うことができる。また、英語から日本語および中国語 から日本語への単語翻訳も可能である。単語情報レコードの格納方法は、上記した 図 13に示す方法または図 14に示す方法の 、ずれを用いることも可能である。
[0073] このように各言語毎に単語検索トライと単語情報レコードを作成することで、複数言 語間において単語翻訳を双方向で行うことができ、より利便性を高めることができる。
[0074] 次に、第 3実施例について説明する。図 17は、第 3実施例において用いられる N力 国言語単語対訳辞書 300の構造を示す図である。 N力国言語単語対訳辞書 300は 、第 1言語乃至第 N言語のそれぞれに対応する第 1言語単語検索辞書 312— 1乃至 第 N言語単語検索辞書 312— N (以下、これら第 1言語単語検索辞書 312— 1乃至 第 N言語単語検索辞書 312— Nをまとめて、適宜「単語検索辞書 312」と称する)と、 第 1言語乃至第 N言語のそれぞれに対応する第 1言語単語訳語リンク情報 314— 1 乃至第 N言語単語訳語リンク情報 314— N (以下、これら第 1言語単語訳語リンク情 報 314— 1乃至第 N言語単語訳語リンク情報 314— Nをまとめて、適宜「単語訳語リ ンク情報 314」と称する)とによって構成される。
[0075] 単語検索辞書 312は、トライ構造ベース又はノ、ッシュ (Hash)関数ベースの構成と なっている。一方、単語訳語リンク情報 314は、対応する一の言語の単語と他の言語 における訳語との関連付けを表すものであり、単語情報レコードによって構成される 単語情報配列表のみを有する配列構造ベースの構成、又は、単語情報レコードによ つて構成される単語情報配列表と多義語情報レコードによって構成される多義語配 列表とを有する二重配列構造ベースの構成となっている。
[0076] 図 18は、 N力国言語単語対訳辞書 300の第 1の構成の概念図である。図 18は、単 語検索辞書がトライ構造ベースである場合を示す。 2言語相互間での翻訳が行われ る場合、第 1言語の単語検索辞書は、第 1言語の単語検索トライ構造(「第 1のトライ 構造)を有し、第 1言語の単語訳語リンク情報は、第 1のトライ構造に含まれる各単語 の情報 (単語情報レコード)により構成され、その単語情報レコードは第 2言語におけ る訳語との関連付けを表すポインタを含んでいる。同様に、第 2言語の単語検索辞書 は、第 2言語の単語検索トライ構造 (第 2のトライ構造)を有し、第 2言語の単語訳語リ ンク情報は、第 2のトライ構造に含まれる各単語の情報 (単語情報レコード)により構 成され、その単語情報レコードには第 1言語における訳語との関連付けを表すポイン タを含んでいる。図 18では、第 1言語の単語 kと第 2言語の単語 h+ 1とが単語と訳語 の関係にあり、これらの関連付けがなされている。更には、ある単語の品詞が複数存 在し、更にある品詞の訳語が複数存在する場合には、その単語に対応する単語情報 レコードが品詞毎且つ訳語毎に複数用意され、これら複数の単語情報レコードの間 は、単語情報レコードに含まれるポインタによって関連付けがなされる。
[0077] 図 19は、 N力国言語単語対訳辞書 300の第 2の構成の概念図である。図 6は、単 語検索辞書カ 、ッシュ関数ベースであり、単語訳語リンク情報が配列構造ベースで ある。
[0078] ノ、ッシュ関数ベースでは、 2言語相互間での翻訳が行われる場合、第 1言語の単語 検索辞書は、第 1言語の単語とその単語に対応する単語訳語情報辞書の単語情報 レコードへの指針 (ポインタ)情報を含む単語リストを有する。同様に、第 2言語の単 語検索辞書は、第 2言語の単語とその単語に対応する単語訳語情報辞書の単語情 報レコードへの指針 (ポインタ)情報を含む単語リストを有する。第 1言語及び第 2言 語の単語訳語リンク情報は、図 18と同様であるので、その説明は省略する。また、ハ ッシュ関数部 320の詳細については後述する。
[0079] 図 20は、ノ、ッシュ関数ベースでの単語検索辞書の詳細な構成を示す図である。ハ ッシュ関数部 320は、対応する言語の全ての文字コードを連続する文字コードに変 換するものである。第 1文字表は、ノ、ッシュ関数部 320によって文字コードが変換さ れた文字である単語の第 1文字の情報、その第 1文字から開始する単語の数、その 第 1文字から開始する単語に対応する単語リスト内のレコードへの指針 (ポインタ)情 報を含む。単語リストは、その単語の情報、単語発音情報、その単語に対応する単語 訳語リンク情報内の単語情報のレコード IDを含む。
[0080] 単語翻訳の際、単語直訳翻訳エンジン 20は、入力した単語の第 1文字に対応する 第 1文字表内のレコードを特定する。次に、単語直訳翻訳エンジン 20は、特定したレ コード内の単語の数と、単語リストへのポインタ情報とに基づいて、入力した単語の第
1文字から開始する単語に対応する単語リスト内のレコードを特定する。更に、単語 直訳翻訳エンジン 20は、入力した単語とその特定した全てのレコード内の単語情報 とを照合し、入力した単語を特定する。
[0081] 次に、単語直訳翻訳エンジン 20による単語翻訳の実施例について説明する。以下 において、単語言語リンク情報に配列構造ベースが採用される場合における、単語 情報レコードは、図 21 (a)に示す構造を有しており、単語情報レコードの IDによって 一意に特定され、対応する単語の単語 ID、発音 、品詞 、優先順位、多義性情 報、単語 ZChunk識別フラグ、領域分類 ID、概念 ID、左連結情報 ID、右連結情報 I D、訳語言語 ID、訳語情報レコード ID、次の多義語情報レコード ID、および説明を 含んでいる。なお、次の多義語に対応する単語情報レコードが存在しない場合には 、次の多義語情報レコード IDは「0」となる。また、訳語言語 IDは、図 21 (b)に示す言 語 IDと図 21 (c)に示す子供フラグを有する。これらは、上述した図 8における言語 ID 及び子供フラグと同様である。
[0082] 一方、単語言語リンク情報に二重配列構造ベースが採用される場合における、単 語情報レコードは、図 22に示す構造を有しており、単語情報レコードの IDによって一 意に特定され、対応する単語の単語 ID、発音 、品詞 、優先順位、多義性情報、 単語 ZChunk識別フラグ、領域分類 ID、概念 ID、左連結情報 ID、右連結情報 ID、 多義語情報レコード ID、および説明を含んでいる。また、単語言語リンク情報に二重 配列構造ベースが採用される場合における、多義語情報レコードは、図 23に示す構 造を有しており、多義語情報レコードの IDによって一意に特定され、訳語の言語 ID、 親である単語情報レコードの ID、訳語の多義語情報レコードの ID、次の多義語の多 義語情報レコードの IDを有する。なお、次の多義語に対応する多義語情報レコード が存在しない場合には、次の多義語の多義語情報レコードの IDは「0」となる。
[0083] 図 24は、単語訳語リンク情報に配列構造ベースが採用される場合における、日本 語と中国語の間での単語翻訳に用いられる対訳辞書の構造を示す図である。 日本 語の単語検索辞書内のトライ構造には、「アメリカ」とその同義語「米国」という単語が 格納されている。一方、中国語の単語検索辞書内のトライ構造には、「アメリカ」の中 国語訳である「美利 加 合 衆 国」とその同義語「米国」の中国語訳である「美 国」という単語が格納されている。なお、「美利 加1^合 衆 国」は、下記中国語を 意味している。
外 1
[0084] 美利坚合众国
[0085] この場合、日本語の単語訳語リンク情報には、単語「アメリカ」に対応する単語情報 レコード ID330の単語情報レコードと単語情報レコード ID333の単語情報レコードと が含まれ、単語「米国」に対応する単語情報レコード ID444の単語情報レコードと単 語情報レコード ID451の単語情報レコードとが含まれる。
[0086] 一方、中国語の単語訳語リンク情報には、単語「美利 加 合 衆 国」に対応 する単語情報レコード ID100の単語情報レコードと単語情報レコード ID101の単語 情報レコードとが含まれ、単語「美国」に対応する単語情報レコード ID400の単語情 報レコードと単語情報レコード ID541の単語情報レコードとが含まれる。なお、日本 語の単語「アメリカ」の訳語である中国語の単語は「美利 加 合 衆 国」、日本 語の単語「米国」の訳語である中国語の単語は「美国」であり、「アメリカ」と「米国」は 同義語であり、「美利 加 合 衆 国」と「美国」は同義語である。
[0087] 日本語の単語訳語リンク情報における ID330の単語情報レコードは、対応する単 語「アメリカ」の単語 ID「5」、訳語である中国語の言語 ID「2」、訳語である中国語の 単語「美利 加 合 衆 国」に対応する単語情報レコードの ID「100」、及び、次 の多義語に対応する単語情報レコードの ID「333」を有する。また、日本語の単語訳 語リンク情報における ID333の単語情報レコードは、対応する単語「アメリカ」の単語 ID「5」、訳語である中国語の言語 ID「2」、訳語である中国語の単語「美利 加1^合 衆 国」の多義語「美国」、換言すれば、単語「アメリカ」の多義語「米国」の訳語で ある中国語の単語「美国」に対応する単語情報レコードの ID「541」、次の多義語に 対応する単語情報レコードが存在しな!ヽことを示す「0」を有する。
[0088] また、日本語の単語訳語リンク情報における ID444の単語情報レコードは、対応す る単語「米国」の単語 ID「7」、訳語である中国語の言語 ID「2」、訳語である中国語の 単語「美国」に対応する単語情報レコードの ID「400」、及び、次の多義語に対応す る単語情報レコードの ID「451」を有する。また、日本語の単語訳語リンク情報におけ る ID451の単語情報レコードは、対応する単語「米国」の単語 ID「7」、訳語である中 国語の言語 ID「2」、訳語である中国語の単語「美国」の多義語「美利 加 合 T衆 ▲国」、換言すれば、単語「米国」の多義語「アメリカ」の訳語である中国語の単語「美 利 加 合 衆 国」に対応する単語情報レコードの ID「101」、次の多義語に対 応する単語情報レコードが存在しな!ヽことを示す「0」を有する。
[0089] 一方、中国語の単語訳語リンク情報における ID100の単語情報レコードは、対応 する単語卩美利 加 合 衆 国 の単語 訳語でぁる日本語の言語 ^」 、訳語である日本語の単語「アメリカ」に対応する単語情報レコードの ID「330」、及 び、次の多義語に対応する単語情報レコードの ID「101」を有する。また、中国語の 単語訳語リンク情報における ID101の単語情報レコードは、対応する単語「美利▲ 加 合 衆 国 の単語 訳語でぁる日本語の言語 ^ 訳語でぁる日本 語の単語「米国」の多義語「アメリカ」、換言すれば、単語「美利 加 合 衆 国」 の多義語「美国」の訳語である日本語の単語「米国」に対応する単語情報レコードの I D「451」、次の多義語に対応する単語情報レコードが存在しないことを示す「0」を有 する。
[0090] また、中国語の単語訳語リンク情報における ID400の単語情報レコードは、対応す る単語「美国」の単語10「9」、訳語でぁる日本語の言語10「1」、訳語である日本語の 単語「米国」に対応する単語情報レコードの ID「444」、及び、次の多義語に対応す る単語情報レコードの ID「541」を有する。また、中国語の単語訳語リンク情報におけ る ID541の単語情報レコードは、対応する単語「美国」の単語 ID「7」、訳語である日 本語の言語 ID「1」、訳語である日本語の単語「米国」の多義語「アメリカ」、換言すれ ば、単語「美国」の多義語「美利 加 合 衆 国」の訳語である日本語の単語「ァ メリ力」に対応する単語情報レコードの ID「333」、次の多義語に対応する単語情報レ コードが存在しないことを示す「0」を有する。
[0091] このように、 日本語及び中国語の単語訳語リンク情報によって、日本語の単語と中 国語の単語との関連付けがなされる。単語直訳翻訳エンジン 20は、中国語の単語「 美利 加 合 衆 国」を日本語に翻訳する場合、中国語の単語訳語リンク情報に おける単語「美利 加1^合 国」の単語 ID「7」と日本語の言語 ID「1」を含む ID
100の単語情報レコードを特定する。次に、単語直訳翻訳エンジン 20は、 ID100の 単語情報レコードに含まれる、次の多義語に対応する単語情報レコードの ID「101」 の単語情報レコードを特定する。更に、単語直訳翻訳エンジン 20は、 ID100の単語 情報レコードに含まれる訳語である日本語の単語に対応する単語情報レコードの ID 「330」により日本語の単語訳語リンク情報における ID330の単語情報レコードを特 定するとともに、 ID101の単語情報レコードに含まれる訳語である日本語の単語に対 応する単語情報レコードの ID「451」により日本語の単語訳語リンク情報における ID 451の単語情報レコードを特定する。そして、単語直訳翻訳エンジン 20は、 ID330 の単語情報レコードに含まれる単語 ID「5」によって日本語の単語検索辞書における 単語「アメリカ」を抽出するとともに、 ID451の単語情報レコードに含まれる単語 ID「7 」によって日本語の単語検索辞書における単語「米国」を抽出する。このような処理に よって、中国語の単語「美利 加 合 衆 国」は日本語の単語「アメリカ」及び「米 国」に翻訳される。
[0092] 図 25は、単語訳語リンク情報に二重配列構造ベースが採用される場合における、 日本語と中国語の間での単語翻訳に用いられる対訳辞書の構造を示す図である。 日本語及び中国語の単語検索辞書内のトライ構造は、図 23と同様であるので、その 説明は省略する。
[0093] 日本語の単語訳語リンク情報には、単語「アメリカ」に対応する単語情報レコード ID 330の単語情報レコードと、単語「米国」に対応する単語情報レコード ID444の単語 情報レコードが含まれる。更に、日本語の単語訳語リンク情報には、 ID330の単語情 報レコードを親とする ID01及び 02の多義語情報レコードと、 ID333の単語情報レコ ードを親とする ID14及び 15の多義語情報レコードとが含まれる。
[0094] 一方、中国語の単語訳語リンク情報には、単語「美利 加 合 衆 国」に対応 する単語情報レコード ID100の単語情報レコードと、単語「美国」に対応する単語情 報レコード ID211の単語情報レコードとが含まれる。更に、中国語の単語訳語リンク 情報には、 ID100の単語情報レコードを親とする ID04及び 05の多義語情報レコー ドと、 ID211の単語情報レコードを親とする ID214及び 215の多義語情報レコードと が含まれる。
[0095] 日本語の単語訳語リンク情報における ID330の単語情報レコードは、対応する単 語「アメリカ」の単語 ID「5」、子である多義語情報レコードの ID「01」を有する。 ID01 の多義語情報レコードは、訳語である中国語の言語 ID「2」、親である単語情報レコ ードの ID「330」、訳語である中国語の単語の多義語「美国」に対応する単語情報レ コードの子である多義語情報レコードの ID「214」、次の多義語に対応する多義語情 報レコードの ID「02」を有する。また、 ID02の多義語情報レコードは、訳語である中 国語の言語 ID「2」、親である単語情報レコードの ID「330」、訳語である中国語の単 語「美利 加 合 衆 国」に対応する単語情報レコードの子である多義語情報レ コードの ID「05」、次の多義語に対応する多義語情報レコードが存在しないことを示 す「0」を有する。
[0096] また、 日本語の単語訳語リンク情報における ID333の単語情報レコードは、対応す る単語「米国」の単語 ID「7」、子である多義語情報レコードの ID「15」を有する。 ID1 5の多義語情報レコードは、訳語である中国語の言語 ID「2」、親である単語情報レコ ードの ID「333」、訳語である中国語の単語の多義語「美利 加1^合 衆 国」に対 応する単語情報レコードの子である多義語情報レコードの ID「04」、次の多義語に対 応する多義語情報レコードの ID「15」を有する。また、 ID15の多義語情報レコードは 、訳語である中国語の言語 ID「2」、親である単語情報レコードの ID「333」、訳語で ある中国語の単語「美国」に対応する単語情報レコードの子である多義語情報レコー ドの ID「215」、次の多義語に対応する多義語情報レコードが存在しないことを示す「 0」を有する。
[0097] 一方、中国語の単語訳語リンク情報における ID100の単語情報レコードは、対応 する単語「美利 加 合 衆 国」の単語 ID「7」、子である多義語情報レコードの I D「04」を有する。 ID04の多義語情報レコードは、訳語である日本語の言語 ID「1」、 親である単語情報レコードの ID「100」、訳語である日本語の単語の多義語「米国」 に対応する単語情報レコードの子である多義語情報レコードの ID「14」、次の多義語 に対応する多義語情報レコードの ID「05」を有する。また、 ID05の多義語情報レコ ードは、訳語である日本語の言語 ID「1」、親である単語情報レコードの ID「100」、訳 語である日本語の単語「アメリカ」に対応する単語情報レコードの子である多義語情 報レコードの ID「02」、次の多義語に対応する多義語情報レコードが存在しな 、こと を示す「0」を有する。
[0098] また、中国語の単語訳語リンク情報における ID211の単語情報レコードは、対応す る単語「美国」の単語 ID「9」、子である多義語情報レコードの ID「214」を有する。 ID 214の多義語情報レコードは、訳語である日本語の言語 ID「1」、親である単語情報 レコードの ID「211」、訳語である日本語の単語の多義語「アメリカ」に対応する単語 情報レコードの子である多義語情報レコードの ID「01」、次の多義語に対応する多義 語情報レコードの ID「215」を有する。また、 ID215の多義語情報レコードは、訳語で ある日本語の言語 ID「1」、親である単語情報レコードの ID「211」、訳語である日本 語の単語「米国」に対応する単語情報レコードの子である多義語情報レコードの ID「 15」、次の多義語に対応する多義語情報レコードが存在しないことを示す「0」を有す る。
[0099] このように、 日本語及び中国語の単語訳語リンク情報によって、日本語の単語と中 国語の単語との関連付けがなされる。単語直訳翻訳エンジン 20は、中国語の単語「 美利 加 合 衆 国」を日本語に翻訳する場合、中国語の単語訳語リンク情報に おける単語「美利 加1^合 国」の単語 ID「7」を含む ID100の単語情報レコー ドを特定する。次に、単語直訳翻訳エンジン 20は、 ID100の単語情報レコードに含 まれる、多義語情報レコードの ID「04」により ID04の多義語情報レコードを特定する 。更に、単語直訳翻訳エンジン 20は、 ID04の多義語情報レコードに含まれる、次の 多義語に対応する多義語情報レコードの ID「05」により ID05の多義語情報レコード を特定する。そして、単語直訳翻訳エンジン 20は、特定した ID04及び ID05の多義 語情報レコードに含まれる、訳語である日本語の単語に対応する単語情報レコード の子である多義語情報レコードの ID「02」及び「14」により、 日本語の単語に対応す る単語情報レコードの子である ID02及び ID04の多義語情報レコードを特定する。 次に、単語直訳翻訳エンジン 20は、特定した ID02及び ID04の多義語情報レコード に含まれる、親である単語情報レコードの ID「330」及び ID「333」により ID330及び I D333の単語情報レコードを特定する。そして、単語直訳翻訳エンジン 20は、 ID33 0の単語情報レコードに含まれる単語 ID「5」によって日本語の単語検索辞書におけ る単語「アメリカ」を抽出するとともに、 ID451の単語情報レコードに含まれる単語 ID「 7」によって日本語の単語検索辞書における単語「米国」を抽出する。このような処理 によって、中国語の単語「美利 加 合 衆 国」は日本語の単語「アメリカ」及び「 米国」に翻訳される。
[0100] 図 26は、単語訳語リンク情報に配列構造ベースが採用される場合における、単語 直訳翻訳エンジン 20による日本語と英語の間での単語翻訳に用いられる対訳辞書 の構造を示す図である。 日本語の単語検索辞書内のトライ構造には、「アメリカ」とそ の同義語「米国」という単語が格納されている。一方、英語の単語検索辞書内のトライ 構造には、「アメリカ」の英語訳である「America」とその同義語「米国」の英語訳であ る「USA」 t 、う単語が格納されて 、る。
[0101] この場合、日本語の単語訳語リンク情報には、単語「アメリカ」に対応する単語情報 レコード ID340の単語情報レコードと単語情報レコード ID343の単語情報レコードと が含まれ、単語「米国」に対応する単語情報レコード ID464の単語情報レコードと単 語情報レコード ID471の単語情報レコードとが含まれる。
[0102] 一方、英語の単語訳語リンク情報には、単語「America」に対応する単語情報レコ ード ID200の単語情報レコードと単語情報レコード ID201の単語情報レコードとが 含まれ、単語「USA」に対応する単語情報レコード ID500の単語情報レコードと単語 情報レコード ID641の単語情報レコードとが含まれる。なお、日本語の単語「アメリカ 」の訳語である英語の単語は「America」、日本語の単語「米国」の訳語である英語 の単語は「USA」であり、「アメリカ」と「米国」は同義語であり、「八11161^&」と「1;3八」 は同義語である。
[0103] 日本語の単語訳語リンク情報における ID330の単語情報レコードは、対応する単 語「アメリカ」の単語 ID「5」、訳語である英語の言語 ID「3」、訳語である英語の単語「 Americajに対応する単語情報レコードの ID「200」、及び、次の多義語に対応する 単語情報レコードの ID「343」を有する。また、 日本語の単語訳語リンク情報における ID343の単語情報レコードは、対応する単語「アメリカ」の単語 ID「5」、訳語である英 語の言語10「3」、訳語でぁる英語の単語「八11½ &」の多義語「1;3八」、換言すれば 、単語「アメリカ」の多義語「米国」の訳語である英語の単語「USA」に対応する単語 情報レコードの ID「641」、次の多義語に対応する単語情報レコードが存在しないこ とを示す「0」を有する。
[0104] また、日本語の単語訳語リンク情報における ID464の単語情報レコードは、対応す る単語「米国」の単語 ID「7」、訳語である英語の言語 ID「3」、訳語である英語の単語 「USA」に対応する単語情報レコードの ID「500」、及び、次の多義語に対応する単 語情報レコードの ID「471」を有する。また、 日本語の単語訳語リンク情報における I D471の単語情報レコードは、対応する単語「米国」の単語 ID「7」、訳語である英語 の言語10「3」、訳語でぁる英語の単語「113八」の多義語「八1!½1^&」、換言すれば、 単語「米国」の多義語「アメリカ」の訳語である英語の単語「America」に対応する単 語情報レコードの ID「201」、次の多義語に対応する単語情報レコードが存在しない ことを示す「0」を有する。
[0105] 一方、英語の単語訳語リンク情報における ID200の単語情報レコードは、対応する 単語「America」の単語 ID「8」、訳語である日本語の言語 ID「1」、訳語である日本 語の単語「アメリカ」に対応する単語情報レコードの ID「340」、及び、次の多義語に 対応する単語情報レコードの ID「201」を有する。また、英語の単語訳語リンク情報に おける ID201の単語情報レコードは、対応する単語「八11½1^&」の単語10「8」、訳語 である日本語の言語 ID「1」、訳語である日本語の単語「米国」の多義語「アメリカ」、 換言すれば、単語「America」の多義語「USA」の訳語である日本語の単語「米国」 に対応する単語情報レコードの ID「471」、次の多義語に対応する単語情報レコード が存在しな!ヽことを示す「0」を有する。
[0106] また、英語の単語訳語リンク情報における ID500の単語情報レコードは、対応する 単語「USA」の単語 ID「11」、訳語である日本語の言語 ID「1」、訳語である日本語の 単語「米国」に対応する単語情報レコードの ID「464」、及び、次の多義語に対応す る単語情報レコードの ID「641」を有する。また、英語の単語訳語リンク情報における ID641の単語情報レコードは、対応する単語「USA」の単語 ID「11」、訳語である日 本語の言語 ID「1」、訳語である日本語の単語「米国」の多義語「アメリカ」、換言すれ ば、単語「USA」の多義語「America」の訳語である日本語の単語「アメリカ」に対応 する単語情報レコードの ID「343」、次の多義語に対応する単語情報レコードが存在 しな!/ヽことを示す「0」を有する。
[0107] このように、 日本語及び英語の単語訳語リンク情報によって、日本語の単語と英語 の単語との関連付けがなされる。単語直訳翻訳エンジン 20は、英語の単語「Americ a」を日本語に翻訳する場合、英語の単語訳語リンク情報における単語「America」 の単語 ID「8」と日本語の言語 ID「1」を含む ID200の単語情報レコードを特定する。 次に、単語直訳翻訳エンジン 20は、 ID200の単語情報レコードに含まれる、次の多 義語に対応する単語情報レコードの ID「 201」の単語情報レコードを特定する。更に 、単語直訳翻訳エンジン 20は、 ID200の単語情報レコードに含まれる訳語である日 本語の単語に対応する単語情報レコードの ID「340」により日本語の単語訳語リンク 情報における ID340の単語情報レコードを特定するとともに、 ID201の単語情報レ コードに含まれる訳語である日本語の単語に対応する単語情報レコードの ID「471」 により日本語の単語訳語リンク情報における ID471の単語情報レコードを特定する。 そして、単語直訳翻訳エンジン 20は、 ID340の単語情報レコードに含まれる単語 ID 「5」によって日本語の単語検索辞書における単語「アメリカ」を抽出するとともに、 ID 471の単語情報レコードに含まれる単語 ID「7」によって日本語の単語検索辞書にお ける単語「米国」を抽出する。このような処理によって、英語の単語「America」は日 本語の単語「アメリカ」及び「米国」に翻訳される。
[0108] 図 27は、単語訳語リンク情報に二重配列構造ベースが採用される場合における、 単語直訳翻訳エンジン 20による日本語と英語の間での単語翻訳に用いられる対訳 辞書の構造を示す図である。 日本語及び英語の単語検索辞書内のトライ構造は、図 23と同様であるので、その説明は省略する。
[0109] 日本語の単語訳語リンク情報には、単語「アメリカ」に対応する単語情報レコード ID 331の単語情報レコードと、単語「米国」に対応する単語情報レコード ID334の単語 情報レコードが含まれる。更に、日本語の単語訳語リンク情報には、 ID331の単語情 報レコードを親とする ID03及び 04の多義語情報レコードと、 ID334の単語情報レコ ードを親とする ID16及び 17の多義語情報レコードとが含まれる。 [0110] 一方、英語の単語訳語リンク情報には、単語「America」に対応する単語情報レコ ード ID101の単語情報レコードと、単語「USA」に対応する単語情報レコード ID212 の単語情報レコードとが含まれる。更に、英語の単語訳語リンク情報には、 ID101の 単語情報レコードを親とする ID06及び 07の多義語情報レコードと、 ID212の単語 情報レコードを親とする ID216及び 217の多義語情報レコードとが含まれる。
[0111] 日本語の単語訳語リンク情報における ID331の単語情報レコードは、対応する単 語「アメリカ」の単語 ID「5」、子である多義語情報レコードの ID「03」を有する。 ID03 の多義語情報レコードは、訳語である英語の言語 ID「3」、親である単語情報レコード の10「331」、訳語でぁる英語の単語の多義語「1;3八」に対応する単語情報レコード の子である多義語情報レコードの ID「216」、次の多義語に対応する多義語情報レコ ードの ID「04」を有する。また、 ID04の多義語情報レコードは、訳語である英語の言 語 ID「3」、親である単語情報レコードの ID「331」、訳語である英語の単語「Americ ajに対応する単語情報レコードの子である多義語情報レコードの ID「07」、次の多 義語に対応する多義語情報レコードが存在しないことを示す「0」を有する。
[0112] また、日本語の単語訳語リンク情報における ID334の単語情報レコードは、対応す る単語「米国」の単語 ID「7」、子である多義語情報レコードの ID「16」を有する。 ID1 6の多義語情報レコードは、訳語である英語の言語 ID「3」、親である単語情報レコー ドの10「334」、訳語でぁる英語の単語の多義語「八1^1: &」に対応する単語情報レ コードの子である多義語情報レコードの ID「06」、次の多義語に対応する多義語情 報レコードの ID「17」を有する。また、 ID17の多義語情報レコードは、訳語である英 語の言語 ID「3」、親である単語情報レコードの ID「334」、訳語である英語の単語「U SAJに対応する単語情報レコードの子である多義語情報レコードの ID「217」、次の 多義語に対応する多義語情報レコードが存在しないことを示す「0」を有する。
[0113] 一方、英語の単語訳語リンク情報における ID101の単語情報レコードは、対応する 単語「America」の単語 ID「8」、子である多義語情報レコードの ID「06」を有する。 I D06の多義語情報レコードは、訳語である日本語の言語 ID「1」、親である単語情報 レコードの ID「101」、訳語である日本語の単語の多義語「米国」に対応する単語情 報レコードの子である多義語情報レコードの ID「16」、次の多義語に対応する多義語 情報レコードの ID「07」を有する。また、 ID07の多義語情報レコードは、訳語である 日本語の言語 ID「1」、親である単語情報レコードの ID「101」、訳語である日本語の 単語「アメリカ」に対応する単語情報レコードの子である多義語情報レコードの ID「04 」、次の多義語に対応する多義語情報レコードが存在しな 、ことを示す「0」を有する
[0114] また、英語の単語訳語リンク情報における ID212の単語情報レコードは、対応する 単語「USA」の単語 ID「11」、子である多義語情報レコードの ID「216」を有する。 ID 216の多義語情報レコードは、訳語である日本語の言語 ID「1」、親である単語情報 レコードの ID「212」、訳語である日本語の単語の多義語「アメリカ」に対応する単語 情報レコードの子である多義語情報レコードの ID「03」、次の多義語に対応する多義 語情報レコードの ID「217」を有する。また、 ID217の多義語情報レコードは、訳語で ある日本語の言語 ID「1」、親である単語情報レコードの ID「212」、訳語である日本 語の単語「米国」に対応する単語情報レコードの子である多義語情報レコードの ID「 17」、次の多義語に対応する多義語情報レコードが存在しないことを示す「0」を有す る。
[0115] このように、 日本語及び英語の単語訳語リンク情報によって、日本語の単語と英語 の単語との関連付けがなされる。単語直訳翻訳エンジン 20は、英語の単語「Americ a」を日本語に翻訳する場合、英語の単語訳語リンク情報における単語「America」 の単語 ID「7」を含む ID101の単語情報レコードを特定する。次に、単語直訳翻訳ェ ンジン 20は、 ID101の単語情報レコードに含まれる、多義語情報レコードの ID「06」 により ID06の多義語情報レコードを特定する。更に、単語直訳翻訳エンジン 20は、 I D06の多義語情報レコードに含まれる、次の多義語に対応する多義語情報レコード の ID「07」により ID07の多義語情報レコードを特定する。そして、単語直訳翻訳ェン ジン 20は、特定した ID06及び ID07の多義語情報レコードに含まれる、訳語である 日本語の単語に対応する単語情報レコードの子である多義語情報レコードの ID「04 」及び「16」により、 日本語の単語に対応する単語情報レコードの子である ID04及び ID16の多義語情報レコードを特定する。次に、単語直訳翻訳エンジン 20は、特定し た ID04及び ID06の多義語情報レコードに含まれる、親である単語情報レコードの I D「331」及び ID「334」により ID331及び ID334の単語情報レコードを特定する。そ して、単語直訳翻訳エンジン 20は、 ID331の単語情報レコードに含まれる単語 ID「5 」によって日本語の単語検索辞書における単語「アメリカ」を抽出するとともに、 ID33 4の単語情報レコードに含まれる単語 ID「7」によって日本語の単語検索辞書におけ る単語「米国」を抽出する。このような処理によって、英語の単語「America」は日本 語の単語「アメリカ」及び「米国」に翻訳される。
[0116] 単語直訳翻訳エンジン 20は、上述した翻訳により得られた訳語を目的言語テキスト 文作成部 22へ出力する。なお、訳語が複数存在する場合には、単語直訳翻訳ェン ジン 20は、翻訳対象の単語の品詞属性と訳語の品詞属性とを比較して、訳語のうち 、翻訳対象の単語と品詞属性が同一のもののみを選択して出力するようにしてもよい 。更に、翻訳対象の単語と品詞属性が同一の訳語が複数存在する場合には、単語 直訳翻訳エンジン 20は、任意の 1つを選択して出力するようにしてもよい。また、翻訳 結果の単語が存在しない場合には、単語直訳翻訳エンジン 20は、翻訳対象の単語 をそのまま目的言語テキスト文作成部 22へ出力する。また、単語直訳翻訳エンジン 2 0は、入力した単語と訳語に基づいて、外部の知識データベース(図示せず)から統 計情報、文法上放蕩の各種情報を取得することが可能である。
[0117] このように、単語訳語リンク情報によって一の言語の単語と他の言語における訳語 との関連付けがなされるため、 2言語間又は複数言語間において双方向の翻訳が可 能となる。
[0118] 以上、本発明の好ましい実施の形態について詳述したが、本発明に係る特定の実 施形態に限定されるものではなぐ特許請求の範囲に記載された本発明の要旨の範 囲内において、種々の変形 ·変更が可能である。
産業上の利用可能性
[0119] 本発明に係る単語翻訳装置は、翻訳メモリエンジン、パターンベース翻訳エンジン 、チャンクベース翻訳エンジン、解析ベース翻訳エンジンを補完するように用いたり( 図 1を参照)、あるいは、翻訳エンジン、パターンベース翻訳エンジン、チャンクベー ス翻訳エンジンのいずれかと組み合わせて用いたり、または単体として構成してもよ い。さらに、単語翻訳装置は、その機能を実行するソフトウェアをコンピュータに搭載 させたり、あるいは携帯用もしくはポータブル用の電子辞書として利用することもでき る。

Claims

請求の範囲
[1] 複数言語間において単語の翻訳を行う単語翻訳装置であって、
少なくとも、第 1の言語の単語を検索するための第 1の単語検索構造、第 2の言語 の単語を検索するための第 2の単語検索構造、第 1の単語検索構造に格納された単 語についての単語関連情報と訳語情報を含む第 1の単語'訳語情報レコード、およ び第 2の単語検索構造に格納された単語についての単語関連情報と訳語情報を含 む第 2の単語情報レコードを辞書に記憶する記憶手段を備えた、単語翻訳装置。
[2] 第 1、第 2の単語検索構造は、単語'訳語情報レコードを識別するための単語'訳語 情報レコード識別情報を含む、請求項 1に記載の単語翻訳装置。
[3] 第 1、第 2の単語'訳語情報レコードは、それぞれ第 1、第 2の単語検索構造に含まれ る単語を識別する単語識別情報を含む、請求項 1に記載の単語翻訳装置。
[4] 第 1、第 2の単語'訳語情報レコードは、それぞれ第 1、第 2の単語検索構造に含まれ る単語の関連情報を含む、請求項 1に記載の単語翻訳装置。
[5] 第 1の単語'訳語情報レコードは、第 2の単語'訳語情報レコードに含まれる訳語情 報を識別するための訳語識別情報を含み、第 2の単語'訳語情報レコードは、第 1の 単語'訳語情報レコードに含まれる訳語情報を識別するための訳語識別情報を含む
、請求項 1に記載の単語翻訳装置。
[6] 第 1、第 2の単語'訳語情報レコードは、訳語に関連する多義語を識別するための識 別情報を含む、請求項 1ないし 4いずれか 1つに記載の単語翻訳装置。
[7] 第 1、第 2の単語'訳語情報レコードは、訳語の言語種を識別するための識別情報を 含む、請求項 1ないし 5いずれか 1つに記載の単語翻訳装置。
[8] 第 1、第 2の単語'訳語情報レコードは、 1つの単語が複数の品詞を有する場合に、 各品詞毎に,単語関連情報と訳語情報を記憶するレコードを有する、請求項 1ないし
3 ヽずれか 1つに記載の単語翻訳装置。
[9] 各品詞毎のレコードは、当該 1つの単語関連情報とポインタによって関連付けされて いる、請求項 8に記載の単語翻訳装置。
[10] 単語翻訳装置はさらに、単語を入力する入力手段と、入力された単語を第 1の単語 検索構造に格納された単語と照合する照合手段と、照合された単語についての第 1 の単語情報レコードに基づき第 2の単語検索構造に格納された訳語を抽出する抽出 手段と、抽出された訳語を出力する出力手段と、を有する請求項 1ないし 9いずれ力ゝ 1つに記載の単語翻訳装置。
[11] 前記抽出手段は、前記照合手段により照合された単語についての第 1の単語情報レ コードに基づき第 2の単語情報レコードを抽出する、請求項 10に記載の単語翻訳装 置。
[12] 第 1の単語情報レコードの訳語情報は、第 2の単語検索構造に格納された訳語また は第 2の単語情報レコードを識別するためのリンク情報を含み、前記抽出手段は、前 記リンク情報に基づき前記訳語または第 2の単語情報レコードを抽出する、請求項 1 0または 11に記載の単語翻訳装置。
[13] 複数言語間において単語の翻訳を行う単語翻訳装置であって、
N力国言語 (Nは、 2以上の整数)についての単語検索構造と、 N力国言語の単語 検索構造に対応する N力国言語の単語情報レコードとを辞書に記憶する記憶手段を 含み、
N力国言語の単語情報レコードのうち所定言語の単語情報レコードは、所定単語 につ 、ての訳語を識別する訳語情報を複数言語にっ 、て記憶する、単語翻訳装置
[14] 複数言語間において単語の翻訳を行う単語翻訳装置であって、
前記複数言語毎に設けられる単語検索辞書データと、
前記複数言語毎に設けられる単語検索辞書データに含まれる単語毎に設けられ、 対応する一の言語の単語と他の言語における訳語との関連付けを表すリンク情報と 、を記憶する記憶手段を備えた、単語翻訳装置。
[15] 前記リンク情報は、
前記一の言語の単語の識別情報と、前記他の言語の識別情報と、前記他の言語 における訳語に対応するリンク情報を指し示すポインタと、前記一の言語の単語に関 連する多義語に対応するリンク情報を指し示すポインタとを含む、請求項 14に記載 の単語翻訳装置。
[16] 前記リンク情報は、親リンク情報と子リンク情報とを有し、 前記親リンク情報は、前記一の単語の識別情報と、前記一の単語に関連する多義 語に対応する子リンク情報を指し示すポインタとを含み、
前記子リンク情報は、前記他の言語の識別情報と、対応する親リンク情報を指し示 すポインタと、前記他の言語における訳語に対応する子リンク情報を指し示すポイン タと、他の多義語に対応する子リンク情報を指し示すポインタとを含む、請求項 14に 記載の単語翻訳装置。
[17] 前記単語が複数の品詞を有する場合、前記リンク情報は、前記品詞毎に設けられる 、請求項 14ないし 16のいずれか 1つに記載の単語翻訳装置。
[18] 前記単語検索辞書データは、
前記複数言語毎に、単語を検索するための単語検索構造と単語に関する情報を 記憶した単語情報レコードとを有する、請求項 14ないし 17のいずれか 1つに記載の 単語翻訳装置。
[19] 前記単語情報レコードは、前記リンク情報を含むことを特徴とする請求項 18に記載 の単語翻訳装置。
[20] 前記単語検索構造は、単語トライ構造またはハッシュ関数構造を含む、請求項 18〖こ 記載の単語翻訳装置。
[21] 前記単語検索構造は、
対応する言語の単語の第 1文字のリスト情報と、前記単語のリスト情報とを有し、 前記第 1文字リスト情報は、前記第 1文字の情報、前記第 1文字から始まる単語数、 前記第 1文字力 始まる単語のリスト情報における位置を指し示すポインタを含み、 前記単語のリスト情報は、前記単語に対応するリンク情報を指し示すポインタを含 む、請求項 14な 、し 20の 、ずれか 1つに記載の単語翻訳装置。
[22] 一の言語の単語を入力する入力手段と、
前記入力された一の言語の単語と、該一の言語に対応する単語検索辞書データと を照合する照合手段と、
前記照合された一の言語の単語に対応するリンク情報に基づいて、他の言語に対 応する単語検索辞書データ力 前記他の言語における訳語を抽出する抽出手段と を有する、請求項 14な ヽし 21の ヽずれか 1つに記載の単語翻訳装置。
[23] 前記抽出手段は、前記照合手段により照合された一の言語の単語情報レコードのリ ンク情報に基づいて他の言語の単語情報レコードを抽出する、請求項 22に記載の 単語翻訳装置。
[24] 前記抽出手段は、前記照合手段により照合された一の言語の単語情報レコードのリ ンク情報に基づいて他の言語の単語検索構造の訳語を抽出する、請求項 22に記載 の単語翻訳装置。
[25] 文章を入力し、当該文章の翻訳を行う翻訳手段と、
翻訳手段によって翻訳できな力つた単語を入力し、当該単語の翻訳を行う請求項 1 な!、し 24の 、ずれか 1つに記載の単語翻訳装置と、
を有する機械翻訳システム。
[26] 翻訳手段は、翻訳メモリエンジン、パターンベース翻訳エンジン、またはチャンクベー ス例文翻訳エンジンのいずれか 1つを含む、請求項 25に記載の機械翻訳システム。
[27] 機械翻訳システムはさらに、翻訳手段によって翻訳できな力つた単語についての訳 語を、他の訳語と識別して出力する識別出力手段を含む、請求項 26に記載の機械 翻訳システム。
[28] 複数言語間にお 、て単語の翻訳を行う単語翻訳方法であって、
第 1の言語の単語を検索するための第 1の単語検索構造を記憶し、第 2の言語の 単語を検索するための第 2の単語検索構造を作成し記憶し、第 1の単語検索構造に 格納された単語についての訳語を識別するための第 1の訳語情報を含む第 1の単語 情報レコードを記憶し、かつ第 2の単語検索構造に格納された単語についての訳語 を識別するための第 2の訳語情報を含む第 2の単語情報レコードを辞書に記憶する ステップを備えた、単語翻訳方法。
[29] 単語翻訳方法はさらに、単語を入力する入力ステップ、入力された単語を第 1の単語 検索構造に格納された単語と照合するステップ、照合された単語についての第 1の 単語情報レコードに基づき第 2の単語検索構造に格納された訳語を抽出するステツ プ、抽出された訳語を出力するステップを含む、請求項 28に記載の単語翻訳方法。
[30] 複数言語間にお 、て単語の翻訳を行う翻訳方法であって、
前記言語毎に設けられる単語検索辞書データと、 前記言語毎に設けられる単語検索辞書データに含まれる単語毎に設けられ、対応 する一の言語の単語と他の言語における訳語との関連付けを表すリンク情報と、 を記憶手段に記憶させる記憶ステップを有することを特徴とする翻訳方法。
[31] 一の言語の単語を入力する入力ステップと、
前記入力された一の言語の単語と、該一の言語に対応する単語検索辞書データと を照合する照合ステップと、
前記照合された一の言語の単語に対応するリンク情報に基づいて、他の言語に対 応する単語検索辞書データ力 前記他の言語における訳語を抽出する抽出ステップ とを有することを特徴とする請求項 29に記載の翻訳方法。
[32] 前記単語検索辞書データは、言語毎に単語検索構造と単語に関する情報を記憶し た単語情報レコードを含み、前記単語情報レコードは前記リンク情報を含み、前記抽 出するステップは、一の言語の単語情報レコードの前記リンク情報に基づいて他の 言語の単語情報レコードを抽出する、請求項 31に記載の翻訳方法。
[33] 複数言語間において単語の翻訳を行う単語翻訳プログラムであって、
第 1の言語の単語を検索するための第 1の単語検索構造を記憶し、第 2の言語の 単語を検索するための第 2の単語検索構造を作成し記憶し、第 1の単語検索構造に 格納された単語についての訳語を識別するための第 1の訳語情報を含む第 1の単語 情報レコードを記憶し、かつ第 2の単語検索構造に格納された単語についての訳語 を識別するための第 2の訳語情報を含む第 2の単語情報レコードを辞書に記憶する ステップを備えた、単語翻訳プログラム。
[34] 単語翻訳方法はさらに、単語を入力する入力ステップ、入力された単語を第 1の単語 検索構造に格納された単語と照合するステップ、照合された単語についての第 1の 単語情報レコードに基づき第 2の単語検索構造に格納された訳語を抽出するステツ プ、抽出された訳語を出力するステップを含む、請求項 31に記載の単語翻訳プログ ラム。
[35] 複数言語間にお 、て単語の翻訳を行う翻訳プログラムであって、
前記言語毎に設けられる単語検索辞書データと、
前記言語毎に設けられる単語検索辞書データに含まれる単語毎に設けられ、対応 する一の言語の単語と他の言語における訳語との関連付けを表すリンク情報と、 を記憶手段に記憶させる記憶ステップを備えた、翻訳プログラム。
[36] 一の言語の単語を入力する入力ステップと、
前記入力された一の言語の単語と、該一の言語に対応する単語検索辞書データと を照合する照合ステップと、
前記照合された一の言語の単語に対応するリンク情報に基づいて、他の言語に対 応する単語検索辞書データ力 前記他の言語における訳語を抽出する抽出ステップ とを備えた、翻訳プログラム。
[37] 前記単語検索辞書データは、言語毎に単語検索構造と単語に関する情報を記憶し た単語情報レコードを含み、前記単語情報レコードは前記リンク情報を含み、前記抽 出するステップは、一の言語の単語情報レコードの前記リンク情報に基づいて他の 言語の単語情報レコードを抽出する、請求項 36に記載の翻訳プログラム。
PCT/JP2006/303155 2005-02-24 2006-02-22 単語翻訳装置、翻訳方法および翻訳プログラム WO2006090732A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US11/817,008 US8041557B2 (en) 2005-02-24 2006-02-22 Word translation device, translation method, and computer readable medium
JP2007504746A JP4911028B2 (ja) 2005-02-24 2006-02-22 単語翻訳装置、翻訳方法および翻訳プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005048595 2005-02-24
JP2005-048595 2005-02-24

Publications (1)

Publication Number Publication Date
WO2006090732A1 true WO2006090732A1 (ja) 2006-08-31

Family

ID=36927370

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/303155 WO2006090732A1 (ja) 2005-02-24 2006-02-22 単語翻訳装置、翻訳方法および翻訳プログラム

Country Status (4)

Country Link
US (1) US8041557B2 (ja)
JP (1) JP4911028B2 (ja)
CN (1) CN101124579A (ja)
WO (1) WO2006090732A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008065395A (ja) * 2006-09-04 2008-03-21 Fuji Xerox Co Ltd 翻訳装置、翻訳方法および翻訳プログラム
JP2013521574A (ja) * 2010-03-01 2013-06-10 マイクロソフト コーポレーション セマンティックオブジェクトの特徴付けおよび検索
US9164989B2 (en) 2012-10-05 2015-10-20 Fuji Xerox Co., Ltd. Translation processing device, non-transitory computer readable medium, and translation processing method
CN116933807A (zh) * 2023-09-14 2023-10-24 成都帆点创想科技有限公司 一种文本翻译方法、装置、设备及可读存储介质

Families Citing this family (194)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
JP2007193438A (ja) * 2006-01-17 2007-08-02 Casio Comput Co Ltd 電子辞書装置及び検索制御プログラム
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8074172B2 (en) 2007-01-05 2011-12-06 Apple Inc. Method, system, and graphical user interface for providing word recommendations
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8232973B2 (en) 2008-01-09 2012-07-31 Apple Inc. Method, device, and graphical user interface providing word recommendations for text input
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
CN101419605B (zh) * 2008-04-30 2012-10-10 中山大学 一种实现重复单词列表的电子词典的查询方法
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
TWI376656B (en) * 2008-09-11 2012-11-11 Shing Lung Chen Foreign-language learning method utilizing an original language to review corresponding foreign languages and foreign-language learning database system thereof
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
KR20100037813A (ko) * 2008-10-02 2010-04-12 삼성전자주식회사 통계적 자동 번역 장치 및 방법
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US20100235780A1 (en) * 2009-03-16 2010-09-16 Westerman Wayne C System and Method for Identifying Words Based on a Sequence of Keyboard Events
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
JP5747508B2 (ja) * 2011-01-05 2015-07-15 富士ゼロックス株式会社 対訳情報検索装置、翻訳装置及びプログラム
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US11410072B2 (en) * 2011-10-21 2022-08-09 Educational Testing Service Computer-implemented systems and methods for detection of sentiment in writing
CN103294682A (zh) * 2012-02-24 2013-09-11 摩根全球购物有限公司 多语言检索方法、计算机可读储存媒体及网络搜寻系统
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
EP4138075A1 (en) 2013-02-07 2023-02-22 Apple Inc. Voice trigger for a digital assistant
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
JP6163266B2 (ja) 2013-08-06 2017-07-12 アップル インコーポレイテッド リモート機器からの作動に基づくスマート応答の自動作動
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10592614B1 (en) * 2017-01-19 2020-03-17 Amdocs Development Limited System, method, and computer program for translating unified ticketing system (UTS) messages
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
CN107146487B (zh) * 2017-07-21 2019-03-26 锦州医科大学 一种英语语音翻译方法
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
CN107894983A (zh) * 2017-11-08 2018-04-10 深圳市沃特沃德股份有限公司 引擎的切换方法与装置
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
CN108959276A (zh) * 2018-07-23 2018-12-07 传神语联网网络科技股份有限公司 一种用于翻译的术语发现方法及其系统
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01291363A (ja) * 1988-05-18 1989-11-22 Matsushita Electric Ind Co Ltd 辞書検索装置
JPH0351959A (ja) * 1989-07-19 1991-03-06 Sanyo Electric Co Ltd 電子辞書
JPH05108621A (ja) * 1991-10-18 1993-04-30 Dainippon Printing Co Ltd 電子辞書・事典装置
JP2000276479A (ja) * 1999-03-24 2000-10-06 Sharp Corp 電子辞書装置及び電子辞書プログラムを記録した記録媒体

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62165238A (ja) * 1986-01-16 1987-07-21 Sharp Corp 電子辞書の検索方法
JPH01234975A (ja) * 1988-03-11 1989-09-20 Internatl Business Mach Corp <Ibm> 日本語文章分割装置
JPH03118661A (ja) * 1989-09-29 1991-05-21 Matsushita Electric Ind Co Ltd 単語検索装置
US5301109A (en) * 1990-06-11 1994-04-05 Bell Communications Research, Inc. Computerized cross-language document retrieval using latent semantic indexing
US5229936A (en) * 1991-01-04 1993-07-20 Franklin Electronic Publishers, Incorporated Device and method for the storage and retrieval of inflection information for electronic reference products
JPH0594471A (ja) * 1991-02-04 1993-04-16 Oki Electric Ind Co Ltd 共起辞書作成装置
JPH05120325A (ja) * 1991-10-29 1993-05-18 Meidensha Corp 電子化辞書
JPH05266069A (ja) 1992-03-23 1993-10-15 Nec Corp 中国語と日本語との間の双方向機械翻訳方式
JPH0736882A (ja) * 1993-07-19 1995-02-07 Fujitsu Ltd 辞書検索装置
JPH07168848A (ja) * 1993-12-16 1995-07-04 Fujitsu Ltd 単語辞書検索装置
JP2975529B2 (ja) * 1994-05-31 1999-11-10 シャープ株式会社 電子化辞書検索装置
JP3152868B2 (ja) * 1994-11-16 2001-04-03 富士通株式会社 検索装置および辞書/テキスト検索方法
JPH09198394A (ja) * 1996-01-23 1997-07-31 Matsushita Electric Ind Co Ltd 2分探索検索装置
FI982095A (fi) * 1998-09-29 2000-03-30 Nokia Networks Oy Menetelmä muistin toteuttamiseksi ja muistijärjestely
US6393389B1 (en) * 1999-09-23 2002-05-21 Xerox Corporation Using ranked translation choices to obtain sequences indicating meaning of multi-token expressions
US6904402B1 (en) * 1999-11-05 2005-06-07 Microsoft Corporation System and iterative method for lexicon, segmentation and language model joint optimization
JP4066600B2 (ja) * 2000-12-20 2008-03-26 富士ゼロックス株式会社 多言語文書検索システム
EP1306775A1 (en) * 2001-10-29 2003-05-02 BRITISH TELECOMMUNICATIONS public limited company Machine translation
WO2004001623A2 (en) * 2002-03-26 2003-12-31 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
GB0413743D0 (en) * 2004-06-19 2004-07-21 Ibm Method and system for approximate string matching
JP4404211B2 (ja) * 2005-03-14 2010-01-27 富士ゼロックス株式会社 マルチリンガル翻訳メモリ、翻訳方法および翻訳プログラム
GB0513225D0 (en) * 2005-06-29 2005-08-03 Ibm Method and system for building and contracting a linguistic dictionary

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01291363A (ja) * 1988-05-18 1989-11-22 Matsushita Electric Ind Co Ltd 辞書検索装置
JPH0351959A (ja) * 1989-07-19 1991-03-06 Sanyo Electric Co Ltd 電子辞書
JPH05108621A (ja) * 1991-10-18 1993-04-30 Dainippon Printing Co Ltd 電子辞書・事典装置
JP2000276479A (ja) * 1999-03-24 2000-10-06 Sharp Corp 電子辞書装置及び電子辞書プログラムを記録した記録媒体

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008065395A (ja) * 2006-09-04 2008-03-21 Fuji Xerox Co Ltd 翻訳装置、翻訳方法および翻訳プログラム
JP2013521574A (ja) * 2010-03-01 2013-06-10 マイクロソフト コーポレーション セマンティックオブジェクトの特徴付けおよび検索
US9164989B2 (en) 2012-10-05 2015-10-20 Fuji Xerox Co., Ltd. Translation processing device, non-transitory computer readable medium, and translation processing method
CN116933807A (zh) * 2023-09-14 2023-10-24 成都帆点创想科技有限公司 一种文本翻译方法、装置、设备及可读存储介质
CN116933807B (zh) * 2023-09-14 2023-12-29 成都帆点创想科技有限公司 一种文本翻译方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN101124579A (zh) 2008-02-13
US8041557B2 (en) 2011-10-18
US20090106018A1 (en) 2009-04-23
JPWO2006090732A1 (ja) 2008-07-24
JP4911028B2 (ja) 2012-04-04

Similar Documents

Publication Publication Date Title
JP4911028B2 (ja) 単語翻訳装置、翻訳方法および翻訳プログラム
JP4404211B2 (ja) マルチリンガル翻訳メモリ、翻訳方法および翻訳プログラム
US5640575A (en) Method and apparatus of translation based on patterns
US5895446A (en) Pattern-based translation method and system
JP4544674B2 (ja) 選択文字列に関連する情報を提供するシステム
KR100530154B1 (ko) 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치
JPH0361220B2 (ja)
JPS62163173A (ja) 機械翻訳方法
JPS63231674A (ja) コンピュータによる形態論的テキスト解析方法
JPH083815B2 (ja) 自然言語の共起関係辞書保守方法
JPH05314166A (ja) 電子化辞書および辞書検索装置
Kumar et al. A study of spell checking techniques for indian languages
WO2003079224A1 (fr) Procede et dispositif de generation de texte
Ganfure et al. Design and implementation of morphology based spell checker
JP2632806B2 (ja) 言語解析装置
Schafer III Translation discovery using diverse similarity measures
JP3376996B2 (ja) フルテキストサーチ方法
Ogden et al. CRL's TREC-8 Systems Cross-Lingual IR, and Q&A.
KR20010103411A (ko) 번역 효율이 향상된 언어 번역 시스템 및 방법
Raghavan et al. Matching inconsistently spelled names in automatic speech recognizer output for information retrieval
Vasuki et al. English to Tamil machine translation system using parallel corpus
JP2938897B2 (ja) 文書作成処理装置
KR20130042822A (ko) 패턴 기반 번역과 번역 예문 기반 번역을 사용한 번역 장치 및 방법
JP2947554B2 (ja) 機械翻訳装置
JP2786211B2 (ja) 機械翻訳装置における後編集装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2007504746

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 200680005581.1

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 11817008

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 06714295

Country of ref document: EP

Kind code of ref document: A1