WO2009139240A1 - 情報処理装置および情報処理方法ならびに記録媒体 - Google Patents

情報処理装置および情報処理方法ならびに記録媒体 Download PDF

Info

Publication number
WO2009139240A1
WO2009139240A1 PCT/JP2009/057169 JP2009057169W WO2009139240A1 WO 2009139240 A1 WO2009139240 A1 WO 2009139240A1 JP 2009057169 W JP2009057169 W JP 2009057169W WO 2009139240 A1 WO2009139240 A1 WO 2009139240A1
Authority
WO
WIPO (PCT)
Prior art keywords
chinese
japanese
kanji
paraphrase
unknown word
Prior art date
Application number
PCT/JP2009/057169
Other languages
English (en)
French (fr)
Inventor
金安 徐
誠也 長田
潔 山端
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Publication of WO2009139240A1 publication Critical patent/WO2009139240A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Definitions

  • the present invention relates to information processing, and more particularly to information processing technology for converting Japanese character information into Chinese.
  • a machine translation system and a cross-language information search system that automatically perform processing for converting a first language (for example, Japanese) into a second language (for example, Chinese) have been developed.
  • Such a system generally includes a bilingual dictionary of a first language and a second language, and character information of the first language is converted into a second language using the bilingual dictionary.
  • Patent Document 1 discloses a system for performing appropriate translation when a plurality of second languages as translation candidates are searched using a bilingual dictionary. Specifically, the system disclosed in Patent Document 1 first registers a Japanese word to be converted and a paraphrase word that is a Japanese word that represents the same meaning with a different notation from the Japanese word. Has a paraphrase dictionary. Then, when a plurality of Chinese words associated with the input Japanese word are searched using the bilingual dictionary, search for the paraphrase word of the Japanese word input using the paraphrase dictionary. The paraphrase word and a plurality of Chinese words are selected as translations with high similarity.
  • Patent Document 1 since the technique of Patent Document 1 first searches for a Chinese word associated with a Japanese word, it is appropriate for an unknown word for which the corresponding Chinese cannot be searched at this time. I can't search for Chinese in a meaningful way. Therefore, there is a problem that the translation accuracy is low.
  • Patent Documents 2 and 3 disclose systems for accurately translating unknown words that are not registered in a bilingual bilingual dictionary.
  • the phonetic character string translation device disclosed in Patent Document 2 includes a first natural language second natural language interlingual word search unit, a first natural language second inter-natural language phonetic character string conversion unit, and a second natural language.
  • a language notation string generation unit, a first natural language / second natural language electronic dictionary, a katakana pinyin conversion table, and a pinyin kanji conversion table are provided.
  • a katakana Pinyin conversion table and a Pinyin kanji conversion table between Japanese and Chinese languages are prepared in advance, and given to the system, a Japanese phonetic character string is converted into Chinese Kanji characters. Has been converted.
  • Patent Document 3 proposes a machine translation method for dividing unknown words into kanji and hiragana character strings.
  • the system of Patent Literature 3 includes an input device, an input processing unit, a morphological analysis unit, a conversion unit, an unregistered word determination unit, an unregistered word translation generation unit, an output processing unit, and an output And a device.
  • the unknown word processing method in this system is a hiragana in which when an unregistered word translation generation unit determines that a Japanese word is an unregistered word, the unregistered word is a sequence of one or more hiragana characters.
  • a character string and a non-Hiragana character string that is a continuation of characters other than one or a plurality of Hiragana characters are divided, and a translated word is generated only for the divided non-Hiragana character string.
  • JP 2006-309346 A Japanese Patent No. 3407201 Japanese Patent No. 4018668
  • the object of the present invention is to improve the conversion accuracy of an unknown word into Chinese when the conversion target Japanese is an unknown word that is not registered in the bilingual dictionary. It is to plan.
  • an information processing apparatus detects an unknown word that is not registered in a bilingual dictionary of Japanese and Chinese from input Japanese character information. Based on the corresponding kanji information of the Japanese kanji and the Chinese kanji, the detecting means, the paraphrasing means for paraphrasing the unknown word into another paraphrase including the kanji in Japanese, and the Japanese kanji included in the paraphrase Chinese character conversion means for converting into Chinese characters and converting the paraphrase into Chinese characters is provided.
  • An information processing apparatus includes an analysis unit that analyzes a structure of input Japanese character information, and Japanese and Chinese characters among the character information analyzed by the analysis unit.
  • Unknown word detection means for detecting unknown words that are not registered in the bilingual dictionary with words
  • paraphrasing means for paraphrasing the unknown words into other paraphrases including kanji in Japanese
  • Japanese kanji included in the paraphrased words Is converted into Chinese Kanji based on the corresponding Kanji information between Japanese Kanji and Chinese Kanji, and the conversion result by the Chinese conversion means
  • an unknown word conversion dictionary generating means for storing the unknown words as a parallel translation.
  • An information processing apparatus includes an analysis unit that analyzes a structure of input Japanese character information, and Japanese and Chinese characters among the character information analyzed by the analysis unit.
  • Unknown word detection means for detecting unknown words that are not registered in the bilingual dictionary with words
  • paraphrasing means for paraphrasing the unknown words into other paraphrases including kanji in Japanese
  • Japanese kanji included in the paraphrased words Is converted into Chinese Kanji based on the corresponding Kanji information between Japanese Kanji and Chinese Kanji
  • the Chinese conversion means for converting the paraphrase into Chinese
  • the character information analyzed by the analysis means Of Japanese characters registered in the bilingual dictionary are converted into Chinese, and the input Japanese characters are input based on the conversion result and the conversion result by the Chinese conversion means.
  • An information processing apparatus includes an analysis unit that analyzes a structure of input Japanese character information, and Japanese and Chinese characters among the character information analyzed by the analysis unit.
  • Unknown word detection means for detecting unknown words that are not registered in the bilingual dictionary with words
  • paraphrasing means for paraphrasing the unknown words into other paraphrases including kanji in Japanese, and Japanese kanji included in the paraphrased words Is converted into Chinese Kanji based on the corresponding Kanji information between Japanese Kanji and Chinese Kanji
  • the Chinese conversion means for converting the above paraphrase into Chinese, the Japanese keyword and the Chinese keyword
  • a search means for performing a search in a predetermined database respectively, wherein the search means includes the unknown word that is Japanese detected by the unknown word detection means and the Chinese conversion means.
  • the recording medium is an unknown word detection that detects unknown words that are not registered in a bilingual dictionary of Japanese and Chinese from Japanese character information input to a computer.
  • a program for realizing Chinese conversion means for converting the word into Chinese characters and converting the paraphrase into Chinese is stored.
  • the recording medium includes an analysis unit that analyzes a structure of Japanese character information input to a computer, and Japanese characters among the character information analyzed by the analysis unit.
  • Unknown word detection means for detecting unknown words that are not registered in the bilingual dictionary of Chinese and Chinese
  • paraphrasing means for paraphrasing the unknown words into other paraphrases containing kanji in Japanese
  • Chinese conversion means for converting word kanji into Chinese kanji based on the corresponding kanji information of Japanese kanji and Chinese kanji, and converting the paraphrase into Chinese
  • the conversion result by the Chinese conversion means Is stored as a parallel translation of the unknown word, and a program for realizing the unknown word conversion dictionary generating means is stored.
  • the recording medium includes an analysis unit that analyzes a structure of Japanese character information input to a computer, and Japanese characters among the character information analyzed by the analysis unit.
  • Unknown word detection means for detecting unknown words that are not registered in the bilingual dictionary of Chinese and Chinese
  • paraphrasing means for paraphrasing the unknown words into other paraphrases containing kanji in Japanese
  • Japan included in the paraphrased words The Chinese kanji is converted into Chinese kanji based on the corresponding kanji information between Japanese kanji and Chinese kanji, and the above paraphrase is converted into Chinese and analyzed by the above analyzing means.
  • the Japanese character information registered in the bilingual dictionary is converted into Chinese, and the input Japanese is based on the conversion result and the conversion result by the Chinese conversion means.
  • Character information storing programs for realizing a translation means for translating the Chinese, the.
  • the recording medium includes an analysis unit that analyzes a structure of Japanese character information input to a computer, and Japanese characters among the character information analyzed by the analysis unit.
  • Unknown word detection means for detecting unknown words that are not registered in the bilingual dictionary of Chinese and Chinese, paraphrasing means for paraphrasing the unknown words into other paraphrases containing kanji in Japanese, and Japan included in the paraphrased words
  • a Chinese conversion means for converting a word kanji into a Chinese kanji based on the corresponding kanji information of Japanese kanji and Chinese kanji, and converting the above paraphrase into Chinese, a Japanese keyword and a Chinese
  • a search means for performing a search in a predetermined database using keywords is stored, and the search means is in Japanese detected by the unknown word detection means. And the unknown words that the conversion result obtained by converting into Chinese at the Chinese converting means, as a keyword, respectively, to search in said database, characterized in that.
  • An information processing method includes an unknown word detection step of detecting an unknown word that is not registered in a bilingual dictionary of Japanese and Chinese from input Japanese character information;
  • the paraphrase process of paraphrasing the unknown word into another paraphrase that includes kanji in Japanese, and the Japanese kanji included in the paraphrase are converted into Chinese kanji based on the corresponding kanji information of the Japanese kanji and Chinese kanji.
  • an information processing method comprising: an analysis step for analyzing the structure of input Japanese character information; and Japanese and Chinese characters among the character information analyzed in the analysis step.
  • An unknown word detection step for detecting an unknown word that is not registered in the bilingual dictionary with words, a paraphrase step for paraphrasing the unknown word into another paraphrase including Kanji in Japanese, and a Japanese kanji included in the paraphrase Is converted into Chinese Kanji based on the corresponding Kanji information of Japanese Kanji and Chinese Kanji, and the conversion result of the Chinese conversion step for converting the paraphrase into Chinese, and the conversion result of the Chinese conversion step,
  • an unknown word conversion dictionary generating step for storing the unknown word as a parallel translation.
  • an information processing method comprising: an analysis step for analyzing the structure of input Japanese character information; and Japanese and Chinese characters among the character information analyzed in the analysis step.
  • An unknown word detection step for detecting an unknown word that is not registered in the bilingual dictionary with words, a paraphrase step for paraphrasing the unknown word into another paraphrase including Kanji in Japanese, and a Japanese kanji included in the paraphrase Is converted to Chinese kanji based on the corresponding kanji information of Japanese kanji and Chinese kanji, and the Chinese conversion step of converting the paraphrase into Chinese, and the character information analyzed in the analysis step
  • the Japanese character information registered in the bilingual dictionary is converted into Chinese, and the input Japanese characters are input based on the conversion result and the conversion result in the Chinese conversion step.
  • an information processing method comprising: an analysis step for analyzing the structure of input Japanese character information; and Japanese and Chinese characters among the character information analyzed in the analysis step.
  • An unknown word detection step for detecting an unknown word that is not registered in the bilingual dictionary with words, a paraphrase step for paraphrasing the unknown word into another paraphrase including Kanji in Japanese, and a Japanese kanji included in the paraphrase Is converted into Chinese kanji based on the corresponding kanji information between Japanese kanji and Chinese kanji, and the Chinese conversion process for converting the above paraphrase into Chinese, the Japanese keyword and the Chinese keyword
  • a search step for performing a search in a predetermined database, and the search step includes the unknown word that is Japanese detected in the unknown word detection step and the Chinese conversion step.
  • Middle Conversion result obtained by converting the word, as a keyword, respectively, to search in said database, characterized in that.
  • FIG. 1 is a functional block diagram illustrating a configuration of an information processing system in Embodiment 1.
  • FIG. It is explanatory drawing which shows an example of the hierarchy of the concept of the similar word of a Japanese dictionary. It is explanatory drawing which shows an example of the hierarchy of the concept of a Japanese dictionary. It is explanatory drawing which shows an example of a database corresponding to a Chinese character.
  • 3 is a flowchart illustrating an operation of the information processing system according to the first embodiment. It is a functional block diagram which shows the structure of the information processing system in Embodiment 2.
  • 10 is a flowchart illustrating an operation of the information processing system according to the second embodiment.
  • 10 is a functional block diagram illustrating a configuration of an information processing system in Embodiment 3.
  • FIG. 10 is a flowchart illustrating an operation of the information processing system according to the third embodiment. It is a figure which shows an example of the translation result to Chinese in Embodiment 3.
  • FIG. 10 is a functional block diagram illustrating a configuration of an information processing system according to a fourth embodiment. 10 is a flowchart illustrating an operation of the information processing system according to the fourth embodiment.
  • FIG. 10 is a functional block diagram illustrating a configuration of an information processing system according to a fifth embodiment. 10 is a flowchart illustrating an operation of the information processing system according to the fifth embodiment.
  • An information processing apparatus includes an unknown word detection unit that detects an unknown word that is not registered in a bilingual dictionary of Japanese and Chinese from input Japanese character information, and the unknown Paraphrasing means for rephrasing words into other paraphrases containing Kanji in Japanese, and converting Japanese Kanji contained in the above paraphrases into Chinese Kanji based on the corresponding Kanji information of Japanese Kanji and Chinese Kanji And a Chinese conversion means for converting the paraphrase word into Chinese.
  • the paraphrase means paraphrases a similar word of the unknown word as the paraphrase of the unknown word based on similar word information in Japanese.
  • the unknown word detecting means detects a word including a kana character as the unknown word from the inputted Japanese character information.
  • the information processing apparatus accepts input of Japanese character information
  • an unknown word that is not registered in the bilingual dictionary of Japanese and Chinese is detected in the character information.
  • the detected Japanese unknown word is paraphrased into another paraphrase that also includes kanji in Japanese.
  • an unknown word including a kana character is rephrased as another paraphrase as a similar word including a Japanese kanji registered in the similar word information.
  • the Japanese kanji included in the paraphrase of the unknown word is converted into the corresponding Chinese kanji, and the unknown word is converted into Chinese.
  • the unknown word that is not registered in the bilingual dictionary is used to convert the Japanese kanji contained in the paraphrase to Chinese kanji. Even so, the conversion accuracy into Chinese is improved.
  • the unknown word containing kana characters into Japanese after rephrasing it into a similar Japanese word containing kanji, it uses the characteristic that Japanese and Chinese are languages that contain kanji characters. Thus, the conversion accuracy can be further improved.
  • the paraphrase means converts the paraphrase word converted by the Chinese conversion means according to the number of Chinese characters included in the paraphrase word among the paraphrase words paraphrased by the unknown word. It is characterized by selecting.
  • the paraphrase means includes the paraphrase word converted from the paraphrase word paraphrased by the unknown word, all of which are composed of kanji characters, by the Chinese conversion means. It is characterized by.
  • paraphrasing words that contain many kanji characters preferably paraphrasing words that are all composed of kanji characters, can be converted into more corresponding chinese kanji characters. It can be carried out.
  • the paraphrase unit selects the paraphrase word to be converted by the Chinese conversion unit based on priority information between similar words of the similar word information. .
  • the paraphrase means performs the above process on the unknown word based on the upper / lower concept information between the similar words of the similar word information among the paraphrased words obtained by paraphrasing the unknown word.
  • the paraphrase word to be converted by the second language conversion means is selected according to the distance between the upper / lower concepts of the paraphrase word.
  • the paraphrase means when there is no word including Japanese kanji in the similar word of the unknown word, between the Japanese and Chinese of the similar words of the unknown word.
  • a word registered in the bilingual dictionary is paraphrased as the paraphrase word, and the Chinese conversion means converts the paraphrase word into Chinese based on a bilingual dictionary of Japanese and Chinese.
  • the unknown word is rephrased into a word that can be translated into Chinese among the similar words. It can be translated into Chinese.
  • An information processing apparatus includes an analysis unit that analyzes a structure of input Japanese character information, and Japanese and Chinese characters among the character information analyzed by the analysis unit.
  • Unknown word detection means for detecting unknown words that are not registered in the bilingual dictionary with words
  • paraphrasing means for paraphrasing the unknown words into other paraphrases including kanji in Japanese
  • Japanese kanji included in the paraphrased words Is converted into Chinese Kanji based on the corresponding Kanji information between Japanese Kanji and Chinese Kanji, and the conversion result by the Chinese conversion means
  • an unknown word conversion dictionary generating means for storing the unknown words as a parallel translation.
  • the information processing apparatus described above functions as a dictionary creation support apparatus that generates a bilingual dictionary of Japanese unknown words and Chinese.
  • An information processing apparatus includes an analysis unit that analyzes a structure of input Japanese character information, and Japanese and Chinese characters among the character information analyzed by the analysis unit.
  • Unknown word detection means for detecting unknown words that are not registered in the bilingual dictionary with words
  • paraphrasing means for paraphrasing the unknown words into other paraphrases including kanji in Japanese
  • Japanese kanji included in the paraphrased words Is converted into Chinese Kanji based on the corresponding Kanji information between Japanese Kanji and Chinese Kanji
  • the Chinese conversion means for converting the paraphrase into Chinese
  • the character information analyzed by the analysis means Of Japanese characters registered in the bilingual dictionary are converted into Chinese, and the input Japanese characters are input based on the conversion result and the conversion result by the Chinese conversion means.
  • the information processing apparatus described above functions as a translation apparatus capable of translating into Chinese even if Japanese including unknown words.
  • An information processing apparatus includes an analysis unit that analyzes a structure of input Japanese character information, and Japanese and Chinese characters among the character information analyzed by the analysis unit.
  • Unknown word detection means for detecting unknown words that are not registered in the bilingual dictionary with words
  • paraphrasing means for paraphrasing the unknown words into other paraphrases including kanji in Japanese, and Japanese kanji included in the paraphrased words Is converted into Chinese Kanji based on the corresponding Kanji information between Japanese Kanji and Chinese Kanji
  • the Chinese conversion means for converting the above paraphrase into Chinese, the Japanese keyword and the Chinese keyword
  • a search means for performing a search in a predetermined database respectively, wherein the search means includes the unknown word that is Japanese detected by the unknown word detection means and the Chinese conversion means.
  • the information processing apparatus described above functions as a cross-language information search apparatus that performs information search in both languages using Japanese unknown words and their Chinese translation as keywords.
  • the recording medium is an unknown word detection that detects unknown words that are not registered in a bilingual dictionary of Japanese and Chinese from Japanese character information input to a computer.
  • a program for realizing Chinese conversion means for converting the word into Chinese characters and converting the paraphrase into Chinese is stored.
  • the paraphrase means is characterized by paraphrasing a similar word of the unknown word as the paraphrase of the unknown word based on similar word information in Japanese.
  • An information processing method includes an unknown word detection step of detecting an unknown word that is not registered in a bilingual dictionary of Japanese and Chinese from input Japanese character information;
  • the paraphrase process of paraphrasing the unknown word into another paraphrase that includes kanji in Japanese, and the Japanese kanji included in the paraphrase are converted into Chinese kanji based on the corresponding kanji information of the Japanese kanji and Chinese kanji.
  • the paraphrase step rephrases the similar word of the unknown word as the paraphrase of the unknown word based on the similar word information in Japanese.
  • the above-described object of the present invention can be achieved because it has the same operation as the information processing apparatus.
  • FIGS. 1 to 14 embodiments of an information processing apparatus, a recording medium, and an information processing method according to the present invention will be described with reference to FIGS. 1 to 14.
  • the information processing device a conversion device that converts Japanese into Chinese, a dictionary creation support device, a translation device, and a cross-language information search device will be described. It is not limited to such use.
  • FIG. 1 is a functional block diagram showing the configuration of the information processing system.
  • 2 to 4 are diagrams illustrating an example of data used for conversion.
  • FIG. 5 is a flowchart showing the operation of the conversion apparatus.
  • FIG. 1 is a diagram illustrating a configuration of an information processing system that converts Japanese into Chinese according to the present embodiment.
  • the information processing system includes a conversion device 1 (information processing device) and a database 2 (storage device).
  • the configuration of the information processing system is not limited to that shown in FIG.
  • the database 2 may be configured in another computer on the network, and various data may be provided to the conversion device 1 from the computer on the network.
  • the information processing system illustrated in FIG. 1 may be configured by a single computer, or the conversion apparatus 1 may be configured by a plurality of computers.
  • each configuration will be described in detail.
  • the database 2 includes a Japanese-Chinese translation dictionary 21, a Japanese dictionary 22, and a Japanese-Chinese kanji correspondence database 23.
  • the Japanese-Chinese translation dictionary 21 is bilingual dictionary information of Japanese and Chinese, and Chinese corresponding to each morpheme such as each Japanese word or phrase is stored.
  • the Japanese dictionary 22 is a Japanese similar word dictionary or a Japanese word dictionary that stores similar word information of various Japanese phrases.
  • the following data can be used.
  • JST Thesaurus of Japan Science and Technology Information Center [JOIS] http://jois.jst.go.jp/JOIS/html/thesaurus_index.htm ⁇ Large Japanese Thesaurus Synonym Search Dictionary CD-ROM version, Tsubasa Yamaguchi, Daishukan Shoten, 2006.01
  • FIG. 2 is an explanatory diagram showing a hierarchy of concepts of similar words of the phrase “soft drink”.
  • FIG. 3 is an explanatory diagram showing an example (JOIS JST thesaurus) in which similar words “soft drink” are described.
  • FIG. 3 shows dictionary information of “soft drink” recorded in the JST thesaurus and its synonym “soft drink”.
  • “USE” in the symbol string shown in FIG. 3 means “priority word” in the international ISO standard
  • “UF” means “non-priority word”. Therefore, in the example of FIG. 3, it means that “soft drink” is a preferred term rather than “soft drink”.
  • a specific method of using the Japanese dictionary 22 will be described later.
  • the Japanese-Chinese kanji correspondence database 23 is a database (corresponding kanji information) in which Chinese kanji corresponding to Japanese kanji, that is, simplified Chinese characters and traditional Chinese characters corresponding to each Japanese language are registered.
  • An example of this Chinese-Chinese character database 23 is shown in FIG. As shown in this figure, Japanese Kanji and Chinese simplified and traditional Chinese characters corresponding to the Japanese Kanji are registered in association with each other.
  • the Japanese-Chinese kanji correspondence database 23 is constructed by dividing kanji that is frequently used by people and kanji that is not frequently used, and information indicating the level of frequency is stored in association with each kanji. Yes.
  • the Chinese-Chinese character conversion unit 16 to be described later selects Chinese kanji that is frequently used and easy to understand from the detected paraphrase candidate words of the unknown word.
  • the conversion device 1 is a general computer including an arithmetic device and a storage device. As shown in FIG. 1, the conversion device 1 includes a Japanese input reception unit 11, a Japanese sentence analysis unit 12, which are constructed by incorporating the conversion processing program according to the present invention into the arithmetic device, An unknown word detection unit 13, an unknown word paraphrasing unit 14, an optimal candidate estimation unit 15, and a daytime Chinese character conversion unit 16 are provided.
  • the Japanese input receiving unit 11 receives Japanese text information input to the conversion device 1 through a keyboard or a file (not shown) and passes it to the Japanese text analyzing unit 12.
  • the input Japanese is not necessarily limited to text, and may be Japanese character information.
  • the Japanese sentence analysis unit 12 analyzes the structure of the input Japanese sentence. Specifically, using grammatical rules or dictionary information such as a word list given in advance to the system, processing such as morphological analysis, word division, and syntax analysis is performed to divide Japanese into morphemes and words. Then, it is passed to the unknown word detection unit 13. Note that any method may be used as a method for analyzing Japanese text.
  • the unknown word detection unit 13 detects an unknown word that is not registered in the daytime translation dictionary 21 among the morphemes and words analyzed as described above. At this time, in particular, among words divided by analysis, words including kana characters such as hiragana and katakana are detected as unknown words.
  • the unknown word detection unit 13 is a character code type (for example, EUC, Unicode, JIS, SJIS, etc.) used to represent Japanese text on a computer, alphanumeric characters, hiragana, katakana, kanji. And the like, it is determined whether the word includes a kana. Then, the unknown word detection unit 13 passes the detected unknown word to the unknown word paraphrase unit 14.
  • the detection of unknown words by the unknown word detection unit 13 is not necessarily limited to detecting words including kana characters as unknown words. A word that does not include kana characters may be detected as an unknown word.
  • the unknown word paraphrase unit 14 paraphrases the unknown word detected as described above into another Japanese word (paraphrase word).
  • similar words of unknown words are extracted and selected as paraphrase word candidates. For example, when the unknown word is “soft drink”, the synonymous concept “soft drink” and the higher-level concept “beverage” listed in the hierarchy of similar-word concepts shown in FIG. “Soda drink” or the like is a candidate for the paraphrase.
  • the unknown word paraphrase unit 14 selects, in particular, a similar word including a kanji as a paraphrase word candidate. Then, the unknown word paraphrase unit 14 passes the selected paraphrase word candidate to the optimum candidate estimation unit 15.
  • the optimal candidate estimation unit 15 (paraphrase means) first selects a paraphrase word, that is, a synonym, which is composed entirely of kanji from the paraphrase word candidates selected as described above. Is estimated as the optimal candidate for the paraphrase word. At this time, when there are a plurality of synonyms, based on the information indicating the priority in the Japanese dictionary 22 described above (see FIGS. 2 and 3), the optimal order from the priority word to the non-priority word is optimal. Estimate candidates. That is, first, the priority word with the highest priority is selected as a paraphrase word to be converted into Chinese by the daytime Chinese character conversion unit 16.
  • the optimum candidate estimation unit 15 estimates (selects) the one having the largest number of kanji as the optimum candidate.
  • the optimum candidate estimation unit 15 is based on information representing the upper and lower concepts in the Japanese dictionary 22. (See FIG. 2 and FIG. 3), the optimum candidate is specified. Specifically, the optimal candidate is estimated from the superordinate concept or the subordinate concept having the smallest distance between the synonymous concepts. Finally, the above-described optimal candidate estimation processing is performed up to the highest concept (root) or lowest concept of similar words.
  • the optimal candidate estimation part 15 is registered into the Japanese-Chinese translation dictionary 21 among the similar words which exist in the Japanese dictionary 22, when there is no similar word containing a kanji as a paraphrase word of an unknown word. Similar words are preferentially estimated (selected) as paraphrase word candidates.
  • the Japanese-Chinese kanji conversion unit 16 to be described later translates the estimated paraphrase word into the corresponding Chinese using the Japanese-Chinese translation word dictionary 21.
  • the Japanese-Chinese kanji conversion unit 16 (Chinese conversion means) converts the Japanese-Chinese characters included in the paraphrase of the unknown word estimated (selected) by the optimal candidate estimation unit 15 into the Japanese-Chinese kanji. Based on the correspondence database 23, it is converted into Chinese kanji. Then, the daytime Chinese character conversion unit 16 outputs the converted Chinese character.
  • the Japanese-Chinese kanji conversion unit 16 converts the Chinese based on the information indicating the level of frequency stored in association with each kanji. Determine the word kanji. For example, it converts to Chinese kanji with the highest frequency.
  • step S1 a Japanese sentence input through a keyboard or a file is accepted (step S1).
  • a Japanese sentence “Can you have a soft drink?” Will be described.
  • an analysis process such as morphological analysis or word division is performed on the input Japanese sentence (step S2, analysis step).
  • the result of the morphological analysis is “soft drink / to / daida / ke / masu /”.
  • each morpheme resulting from the morpheme analysis is given a unique attribute value.
  • the attribute value includes information such as original form, part of speech, inflection form, semantic classification, and aspect.
  • the part-of-speech is set as “unknown word” and the translated word is blank in the attribute value of the “soft drink”.
  • step S3 unknown word detection step.
  • step S3 the process is terminated.
  • step S4 the process proceeds to the next process.
  • “soft drink” is a pseudonym based on the information of “unknown word” that is the part-of-speech attribute of “soft drink”, the type of character code, and the codes of hiragana, katakana, kanji, etc. Detect as an unknown word.
  • step S4 search for a paraphrase word candidate
  • step S6 search for a paraphrase word candidate
  • the optimal candidates are estimated using the Japanese dictionary 22 in the order of priority words to non-priority words.
  • step S7 the most similar word candidate having the largest number of kanji characters is determined as the optimal candidate (step S7).
  • the similar word candidate of the unknown word is sa-variant, only the sa-variant stem is used (truncating the sa-variable tail), and if it is an adjective verb, using only the adjective verb stem (truncating the adjective verb ending) Process.
  • the Japanese dictionary 22 is used to perform a process of paraphrasing the above-mentioned unknown word “soft drink” into a character string including kanji.
  • the configuration of the Japanese dictionary 22 is as shown in FIGS. 2 and 3 as described above. According to this, as a paraphrase candidate for “soft drink”, “soft drink”, all of which are synonyms of kanji. Is estimated. Since “soft drink” is calculated to be a priority word (see symbol USE in FIG. 3) having a higher priority than “soft drink”, the “soft drink” is estimated as an optimal candidate. .
  • the dictionary can be reverse-looked by the JST thesaurus using “soft drink”, which is a synonym for “soft drink”.
  • the dictionary information shown in FIG. 3 including the hierarchical relationship of the synonyms and similar words of “soft drink” shown in FIG. 2 is read and stored. This includes “soft drink” which is a synonym for “soft drink”, subordinate concepts “fruit drink”, “carbonated drink” and “milk drink”, superordinate concept “beverage”, and top-level concept. Information such as a certain “food” is included.
  • Step S8 Chinese conversion process
  • the Chinese character information as the conversion result is output to an output device such as a display equipped in the conversion device 1 (step S9).
  • the Japanese kanji of “soft drink”, which is estimated as the optimal candidate for the paraphrase of the unknown word “soft drink”, is based on the Japanese-Chinese kanji correspondence database 23 (see FIG. 4). , For each character, it is converted into a Chinese kanji “soft drink” (may be simplified Chinese).
  • FIG. 6 is a functional block diagram showing the configuration of the information processing system in the present embodiment
  • FIG. 7 is a flowchart showing the operation thereof.
  • the database 2 in this embodiment includes a Japanese-Chinese translation dictionary 21, a Japanese dictionary 22, and a Japanese-Chinese kanji correspondence database 23.
  • the conversion device 1 information processing device
  • the conversion device 1 includes a Japanese input receiving unit 11 and a Japanese sentence analyzing unit 12 which are constructed by incorporating the program according to the present invention into the arithmetic device.
  • an unknown word detection unit 13 an unknown word paraphrasing unit 14, an optimal candidate estimation unit 15, and a daytime Chinese character conversion unit 16.
  • the conversion device 1 in the present embodiment includes a dictionary generation unit 17 constructed by incorporating a program into the arithmetic device.
  • This dictionary generation unit 17 uses the conversion result converted by the Japanese-Chinese kanji conversion unit 16 as described above as a bilingual translation of the unknown word to be converted, and the Japanese-Chinese translation dictionary 21. It has a function to memorize. For example, as described above, when the unknown word is “soft drink” and the conversion result to “Chinese drink” is “soft drink”, the Chinese “soft drink” is translated as the parallel translation of Japanese “soft drink”. Is registered in the Japanese-Chinese translation dictionary 21.
  • the Japanese sentence analysis unit 12 has substantially the same configuration as that described in the first embodiment, but in this embodiment, the structure of the input Japanese sentence is preliminarily stored in the system. Using given grammatical rules and dictionary information such as a word list, processing such as morphological analysis or word division is performed, and processing for dividing Japanese into morphemes and words is performed. Since other configurations are the same as those of the first embodiment, detailed description thereof is omitted.
  • FIG. 7 shows that “soft drink” is obtained as a conversion result to Chinese when “soft drink” is detected as an unknown word, as described with reference to FIG. 5 of the first embodiment.
  • the operation after being performed (after step S8 in FIG. 5) is shown. Therefore, the operation described with reference to FIG. 5 will be briefly described below.
  • a Japanese sentence input through a keyboard, a file, or the like for example, a Japanese sentence “Can you have a soft drink?” Is accepted (step S1). Subsequently, the input Japanese sentence is subjected to analysis processing such as morphological analysis or word division (step S2, analysis step).
  • step S3 unknown word detection step.
  • step S3 unknown word detection step.
  • step S4 the process is terminated.
  • step S4 the process proceeds to the next process.
  • “soft drink” is detected as an unknown word including a kana.
  • step S4 search for a paraphrase word candidate
  • step S6 search for a paraphrase word candidate
  • the optimal candidates are estimated using the Japanese dictionary 22 in the order of priority words to non-priority words.
  • step S7 the most similar word candidate having the largest number of kanji characters is determined as the optimal candidate (step S7).
  • the best candidate is estimated in the order of subordinate concepts. Furthermore, if there is no similar word including kanji in the similar words of the unknown word, the similar word already registered in the Japanese-Chinese translation dictionary 21 is set as the best candidate.
  • Step S8 Chinese conversion process.
  • the Japanese kanji of “soft drink” which is estimated as an optimal candidate for the paraphrase of the unknown word “soft drink”, is converted into Chinese kanji for each character based on the Japanese-Chinese kanji correspondence database 23 (see FIG. 4).
  • To “soft drink” (may be in Chinese simplified).
  • step S11 when “soft drink” is obtained as a conversion result of the unknown word “soft drink”, the Chinese word “soft drink” and “soft drink” detected as an unknown word in Japanese are obtained. Are associated with each other to generate a correspondence dictionary for unknown words and Chinese (step S11). Then, this correspondence dictionary is registered in the daytime translation dictionary 21 (step S12, unknown word conversion dictionary generation step). That is, “soft drink” is registered as a Chinese translation of the Japanese “soft drink”. Thereafter, the registered parallel translation is output to a display or the like as necessary.
  • FIG. 8 is a functional block diagram showing the configuration of the information processing system in the present embodiment
  • FIG. 9 is a flowchart showing the operation thereof.
  • FIG. 10 is an explanatory diagram showing an example of translation into Chinese.
  • the database 2 in this embodiment includes a Japanese-Chinese translation dictionary 21, a Japanese dictionary 22, and a Japanese-Chinese kanji correspondence database 23.
  • the conversion device 1 information processing device
  • the conversion device 1 includes a Japanese input receiving unit 11 and a Japanese sentence analyzing unit 12 which are constructed by incorporating the program according to the present invention into the arithmetic device.
  • the conversion device 1 in the present embodiment includes a translation unit 18 constructed by incorporating a program into the arithmetic device, and a Chinese output unit 19. Yes.
  • the translation unit 18 receives the input Japanese based on the conversion result converted by the Japanese-Chinese kanji conversion unit 16 as described above and the bilingual dictionary registered in the Japanese-Chinese translation dictionary 21 in advance. Convert sentences to Chinese. In other words, as described above, since the bilingual dictionary of unknown words and Chinese is stored in the Japanese-Chinese translation dictionary 21 in the second embodiment, the Japanese text input and analyzed in the Japanese-Chinese translation dictionary 21. All of the phrases (morphemes) are registered, and can be translated into Chinese using this. In addition, the Chinese output unit 19 outputs the Chinese text that is the result of translation by the translation unit 18 to an output device such as a display equipped in the conversion device 1.
  • the Japanese sentence analysis unit 12 has substantially the same configuration as that described in the first embodiment, but in this embodiment, in particular, an input Japanese sentence is used to perform translation processing. Are processed using morpheme analysis and syntax analysis using information such as analysis rules previously given to the system. Since other configurations are the same as those of the second embodiment, detailed description thereof is omitted.
  • FIG. 9 shows that “soft drink” is obtained as a conversion result to Chinese when “soft drink” is detected as an unknown word, as described with reference to FIG. 5 of the first embodiment.
  • the operation after being performed (after step S8 in FIG. 5) is shown. Therefore, the operation described with reference to FIG. 5 will be briefly described below.
  • a Japanese sentence input through a keyboard, a file, or the like for example, a Japanese sentence “Can you have a soft drink?” Is accepted (step S1). Subsequently, morphological analysis and syntax analysis are performed on the input Japanese sentence (step S2, analysis step).
  • step S3 unknown word detection step.
  • step S3 unknown word detection step.
  • step S4 the process is terminated.
  • step S4 the process proceeds to the next process.
  • “soft drink” is detected as an unknown word including a kana.
  • step S4 search for a paraphrase word candidate
  • step S6 search for a paraphrase word candidate
  • the optimal candidates are estimated using the Japanese dictionary 22 in the order of priority words to non-priority words.
  • step S7 the most similar word candidate having the largest number of kanji characters is determined as the optimal candidate (step S7).
  • the best candidate is estimated in the order of subordinate concepts. Furthermore, if there is no similar word including kanji in the similar words of the unknown word, the similar word already registered in the Japanese-Chinese translation dictionary 21 is set as the best candidate.
  • Step S8 Chinese conversion process.
  • the Japanese kanji of “soft drink” which is estimated as an optimal candidate for the paraphrase of the unknown word “soft drink”, is converted into Chinese kanji for each character based on the Japanese-Chinese kanji correspondence database 23 (see FIG. 4).
  • To “soft drink” (may be in Chinese simplified).
  • the Chinese word “soft drink” corresponds to “soft drink” detected as an unknown word in Japanese.
  • an unknown word / Chinese correspondence dictionary is generated and registered in the Japanese-Chinese translation dictionary 21 (step S21).
  • a Japanese-Chinese translation dictionary consisting of “soft drink” and “soft drink” Is generated.
  • the Japanese-Chinese bilingual dictionary 21 is used, and the Japanese-Chinese bilingual dictionary 21 including the added bilingual dictionary and the bilingual dictionary registered in advance is used. As shown in FIG.
  • step S22 conversion process
  • the simplified Chinese or traditional Chinese shown in FIG. 10 is a Chinese translation corresponding to “Can you have a soft drink” by reading from the left side. Thereafter, the translation result is output to a display or the like as required (step S23).
  • FIG. 11 is a functional block diagram showing the configuration of the information processing system in the present embodiment
  • FIG. 12 is a flowchart showing the operation thereof.
  • This embodiment shows a case where the above-described information processing system is used as a cross-language information retrieval system.
  • the information processing system according to the present embodiment has substantially the same configuration as the information processing system including the conversion device 1 and the database 2 according to the first embodiment.
  • the database 2 in this embodiment includes a Japanese-Chinese translation dictionary 21, a Japanese dictionary 22, and a Japanese-Chinese kanji correspondence database 23.
  • the database 2 in the present embodiment includes a search database 24 having a predetermined content to be searched, which is configured in Japanese and Chinese.
  • the search database 24 may be stored in another computer on the network.
  • the conversion device 1 (information processing device) according to the present embodiment includes a Japanese input receiving unit 11 constructed by incorporating the program according to the present invention into a computing device, and a Japanese language.
  • the sentence analysis unit 12, the unknown word detection unit 13, the unknown word paraphrase unit 14, the optimum candidate estimation unit 15, and the daytime Chinese character conversion unit 16 are provided.
  • the conversion device 1 in the present embodiment includes a search processing unit 31 and a search result output unit 32 that are constructed by incorporating a program into an arithmetic device. Yes.
  • the search processing unit 31 receives a Japanese unknown word input from the unknown word detection unit 13 to the Japanese input reception unit 11 and is converted by the Japanese / Chinese character conversion unit 16. In addition, it accepts Chinese, which is the conversion result of the unknown word. Then, the received unknown word, which is Japanese, is used as a Japanese search keyword, and a conversion result that is a translation of the unknown word is used as a Chinese search keyword, and the search database 24 is searched in each language. Then, the search result output unit 32 outputs the search result to a display or the like.
  • the Japanese sentence analysis unit 12 has substantially the same configuration as that described in the first embodiment, but in this embodiment, the structure of the input Japanese sentence is preliminarily stored in the system. Using dictionary information such as a given analysis rule, morphological analysis processing, or morphological analysis and syntax analysis processing are performed. Since other configurations are the same as those of the first embodiment, detailed description thereof is omitted.
  • step S1 when searching for daytime related information related to “soft drink” from the daytime language corpus, a Japanese sentence such as “soft drink” input as a search keyword is accepted (step S1). Subsequently, an analysis process such as morphological analysis or morphological analysis and syntax analysis is performed on the input Japanese sentence (step S2, analysis step).
  • step S3 unknown word detection step.
  • step S3 unknown word detection step.
  • step S4 the process is terminated.
  • step S4 the process proceeds to the next process.
  • “soft drink” is detected as an unknown word including a kana.
  • step S4 search for a paraphrase word candidate
  • step S6 search for a paraphrase word candidate
  • the optimal candidates are estimated using the Japanese dictionary 22 in the order of priority words to non-priority words.
  • step S7 the most similar word candidate having the largest number of kanji characters is determined as the optimal candidate (step S7).
  • the best candidate is estimated in the order of subordinate concepts. Furthermore, if there is no similar word including kanji in the similar words of the unknown word, the similar word already registered in the Japanese-Chinese translation dictionary 21 is set as the best candidate.
  • Step S8 Chinese conversion process.
  • the Japanese kanji of “soft drink” which is estimated as an optimal candidate for the paraphrase of the unknown word “soft drink”, is converted into Chinese kanji for each character based on the Japanese-Chinese kanji correspondence database 23 (see FIG. 4).
  • To “soft drink” (may be in Chinese simplified).
  • step S31 search step.
  • search processing described above may be performed, for example, on a search database stored in a database server on the web composed of a bilingual corpus and a bilingual language using a search engine. Thereafter, the search result is output to a display or the like as necessary (step S32).
  • FIG. 13 is a functional block diagram showing the configuration of the information processing system
  • FIG. 14 is a flowchart showing its operation.
  • the information processing system including the conversion device 101 and the database 102 according to the present embodiment has almost the same configuration as the information processing systems according to the other embodiments described above, but the conversion device 101 detects unknown words.
  • the structure in the database 102 is the same as described above, and includes a Japanese-Chinese translation dictionary 121, a Japanese dictionary 122, and a Japanese-Chinese kanji correspondence database 123.
  • the unknown word detecting unit 111 performs a process of detecting unknown words that are not registered in the Japanese-Chinese translation dictionary 121 from the input Japanese character information (step S101) (step S102). Further, the unknown word paraphrase unit 122 performs a process of paraphrasing the unknown word into a paraphrase including the same Japanese kanji based on the Japanese dictionary 112 (step S103). Further, the Japanese-Chinese kanji conversion unit 113 converts the Japanese kanji included in the paraphrase obtained by paraphrasing the unknown word into the Chinese kanji based on the Japanese-Chinese kanji correspondence database 123 (step S104), and performs processing for output. This is performed (step S105).
  • the present invention has been described as a hardware configuration, but the present invention is not limited to this.
  • the present invention can also realize arbitrary processing by causing a CPU (Central Processing Unit) to execute a computer program.
  • the computer program can be provided by being recorded on a recording medium, or can be provided by being transmitted via the Internet or another communication medium.
  • the storage medium includes, for example, a flexible disk, a hard disk, a magnetic disk, a magneto-optical disk, a CD-ROM, a DVD, a ROM cartridge, a battery-backed RAM memory cartridge, a flash memory cartridge, and a nonvolatile RAM cartridge.
  • the communication medium includes a wired communication medium such as a telephone line, a wireless communication medium such as a microwave line, and the like.
  • the information processing apparatus of the present invention can be used as a conversion apparatus that converts Japanese unknown words into Chinese, and further as a dictionary creation support apparatus, translation apparatus, and cross-language information search apparatus. With the availability of

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

 情報処理装置は、入力された日本語の文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換手段と、を備える。これにより、変換対象となっている語が日中変換辞書に登録されていない日本語の未知語である場合に、当該未知語の中国語への変換精度の向上を図る。

Description

情報処理装置および情報処理方法ならびに記録媒体
 本発明は、情報処理にかかり、特に、日本語の文字情報を中国語に変換する情報処理技術に関する。
 第一の言語(例えば、日本語)を、第二の言語(例えば、中国語)に変換する処理を自動的に行う機械翻訳システムや言語横断型情報検索システムが開発されている。このようなシステムは、一般的に、第一言語と第二言語の対訳辞書を備えており、この対訳辞書を用いて、第一言語の文字情報を第二言語に変換している。
 そして、特許文献1では、対訳辞書を用いて翻訳候補となる第二言語が複数検索された場合に、適切な翻訳を行うためのシステムを開示している。具体的に、特許文献1に開示のシステムは、まず、変換対象である日本語単語と、当該日本語単語と異なる表記で同じ意味を表す日本語単語である言い換え単語と、を対応付けて登録した言い換え辞書を備えている。そして、日中対訳辞書を用いて、入力された日本語単語に対応付けられた中国語単語が複数検索された場合に、上記言い換え辞書を利用して入力された日本語単語の言い換え単語を検索し、この言い換え単語と複数の中国語単語のうち、類似度が高いものを訳語として選択している。
 しかしながら、上記特許文献1の技術では、まず、日本語単語に対応付けられた中国語単語を検索しているため、この時点で対応する中国語が検索できないような未知語に対しては、適切な意味の中国語を検索することができない。従って、翻訳精度が低い、という問題があった。
 一方で、二言語間の対訳辞書に登録されていない未知語を高精度に翻訳するためのシステムが、特許文献2,3に開示されている。
 特許文献2に開示されている表音文字列翻訳装置は、第1自然言語第2自然言語間訳語検索部と、第1自然言語第2自然言語間表音文字列変換部と、第2自然言語表記列生成部と、第1自然言語第2自然言語間電子辞書と、カタカナピンイン変換表と、ピンイン漢字変換表と、を備えている。そして、この表音文字列翻訳装置では、日中両言語間のカタカナピンイン変換表とピンイン漢字変換表とを予め用意し、システムに与えることによって、日本語の表音文字列を中国語の漢字に変換している。
 また、特許文献3では、未知語に対して、漢字とひらがな文字列に分割する機械翻訳方法を提案している。具体的に、特許文献3のシステムは、入力装置と、入力処理部と、形態素解析部と、変換部と、未登録語判定部と、未登録語訳語生成部と、出力処理部と、出力装置と、を備えている。そして、このシステムにおける未知語処理方法は、未登録語訳生成部で日本語単語が未登録語であると判断された場合に、当該未登録語を一または複数のひらがな文字の連続であるひらがな文字列と、一または複数のひらがな文字以外の文字の連続である非ひらがな文字列に分割し、分割された非ひらがな文字列のみに対して訳語を生成している。
特開2006-309346号公報 特許第3407201号公報 特許第4018668号公報
 しかしながら、上記特許文献2に開示の技術では、二言語間の表音文字列の対応関係が単一ではないため、未知語に対して処理を行った場合には、当該未知語を高精度に翻訳することができない、という問題が生じる。これは、表音未知語のカタカナが検出された場合に、カタカナピンイン変換表を用いてカタカナを中国語ピンインに変換する仕組みとなっているが、日本語カタカナと中国語ピンインとの対応関係が単一ではなく、一つの日本語音節単位のカタカナに対応できる中国語ピンイン候補が複数ある場合があることによる。例えば、日本語カタカナ「サ」に対応できる中国語ピンイン候補は、少なくとも「sa」、「sha」、「xia」の三つある。さらには、一つの中国語ピンインに対して、漢字候補が多数存在するため、さらに上記問題が生じうる。例えば、上述した例である「sa」、「sha」、「xia」の場合は、それぞれのピンインの中国語漢字候補が10~20個前後がある。このため、上記特許文献2の技術では、依然として正確に翻訳することが困難となっている。
 また、上記特許文献3の技術では、日本語のひらがなを含む未知語に対する処理は、その未知語に含む漢字の部分だけその未知語の中国語の訳語とするため、意味的な欠落が多数存在する、という問題が生じる。すると、日本語のひらがなを含む未知語を処理した結果、多くの場合は、その未知語の意味を正しく翻訳できない。一例として、日本語動詞「考える」が未知語の場合には、特許文献3のシステムでは、「考」が出力される。そして、「考」の中国語の意味は日本語では「試験」または「テスト」となり、誤訳となってしまう。つまり、正しい訳語である「思考」や「考慮」を得ることができず、翻訳精度の向上を図ることができない。
 このため、本発明の目的は、上述した課題である、変換対象となっている日本語が対訳辞書に登録されていない未知語である場合に、当該未知語の中国語への変換精度の向上を図る、ことにある。
 かかる目的を達成するため本発明の一形態である情報処理装置は、入力された日本語の文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換手段と、を備えたことを特徴とする。
 また、本発明の他の形態である情報処理装置は、入力された日本語の文字情報の構造を解析する解析手段と、上記解析手段にて解析された上記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換手段と、上記中国語変換手段による変換結果を、上記未知語の対訳として記憶する未知語変換辞書生成手段と、を備えたことを特徴とする。
 また、本発明の他の形態である情報処理装置は、入力された日本語の文字情報の構造を解析する解析手段と、上記解析手段にて解析された上記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換手段と、上記解析手段にて解析された文字情報のうち上記対訳辞書に登録されている日本語の文字情報を中国語に変換すると共に、この変換結果と、上記中国語変換手段による変換結果と、に基づいて、上記入力された日本語の文字情報を中国語に翻訳する翻訳手段と、を備えたことを特徴とする。
 また、本発明の他の形態である情報処理装置は、入力された日本語の文字情報の構造を解析する解析手段と、上記解析手段にて解析された上記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換手段と、日本語のキーワードと中国語のキーワードとを用いて、それぞれ所定のデータベース内の検索を行う検索手段と、を備え、上記検索手段は、上記未知語検出手段にて検出した日本語である上記未知語と、上記中国語変換手段にて中国語に変換した変換結果と、をそれぞれキーワードとして、上記データベース内の検索を行う、ことを特徴とする。
 また、本発明の他の形態である記録媒体は、コンピュータに、入力された日本語の文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換手段と、を実現させるためのプログラムを格納している。
 また、本発明の他の形態である記録媒体は、コンピュータに、入力された日本語の文字情報の構造を解析する解析手段と、上記解析手段にて解析された上記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換手段と、上記中国語変換手段による変換結果を、上記未知語の対訳として記憶する未知語変換辞書生成手段と、を実現させるためのプログラムを格納している。
 また、本発明の他の形態である記録媒体は、コンピュータに、入力された日本語の文字情報の構造を解析する解析手段と、上記解析手段にて解析された上記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換手段と、上記解析手段にて解析された文字情報のうち上記対訳辞書に登録されている日本語の文字情報を中国語に変換すると共に、この変換結果と、上記中国語変換手段による変換結果と、に基づいて、上記入力された日本語の文字情報を中国語に翻訳する翻訳手段と、を実現させるためのプログラムを格納している。
 また、本発明の他の形態である記録媒体は、コンピュータに、入力された日本語の文字情報の構造を解析する解析手段と、上記解析手段にて解析された上記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換手段と、日本語のキーワードと中国語のキーワードとを用いて、それぞれ所定のデータベース内の検索を行う検索手段と、を実現させるプログラムを格納しており、上記検索手段は、上記未知語検出手段にて検出した日本語である上記未知語と、上記中国語変換手段にて中国語に変換した変換結果と、をそれぞれキーワードとして、上記データベース内の検索を行う、ことを特徴とする。
 また、本発明の他の形態である情報処理方法は、入力された日本語の文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出工程と、上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え工程と、上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換工程と、を有することを特徴とする。
 また、本発明の他の形態である情報処理方法は、入力された日本語の文字情報の構造を解析する解析工程と、上記解析工程にて解析された上記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出工程と、上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え工程と、上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換工程と、上記中国語変換工程による変換結果を、上記未知語の対訳として記憶する未知語変換辞書生成工程と、を有することを特徴とする。
 また、本発明の他の形態である情報処理方法は、入力された日本語の文字情報の構造を解析する解析工程と、上記解析工程にて解析された上記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出工程と、上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え工程と、上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換工程と、上記解析工程にて解析された文字情報のうち上記対訳辞書に登録されている日本語の文字情報を中国語に変換すると共に、この変換結果と、上記中国語変換工程による変換結果と、に基づいて、上記入力された日本語の文字情報を中国語に翻訳する翻訳工程と、を有することを特徴とする。
 また、本発明の他の形態である情報処理方法は、入力された日本語の文字情報の構造を解析する解析工程と、上記解析工程にて解析された上記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出工程と、上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え工程と、上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換工程と、日本語のキーワードと中国語のキーワードとを用いて、それぞれ所定のデータベース内の検索を行う検索工程と、を有し、上記検索工程は、上記未知語検出工程にて検出した日本語である上記未知語と、上記中国語変換工程にて中国語に変換した変換結果と、をそれぞれキーワードとして、上記データベース内の検索を行う、ことを特徴とする。
 本発明は、以上のように構成されるため、これによると、対訳辞書に登録されていない日本語の未知語であっても、高精度に中国語に変換することができる、という優れた効果を有する。
実施形態1における情報処理システムの構成を示す機能ブロック図である。 日本語辞書の類似語の概念の階層の一例を示す説明図である。 日本語辞書の概念の階層の一例を示す説明図である。 日中漢字対応データベースの一例を示す説明図である。 実施形態1における情報処理システムの動作を示すフローチャートである。 実施形態2における情報処理システムの構成を示す機能ブロック図である。 実施形態2における情報処理システムの動作を示すフローチャートである。 実施形態3における情報処理システムの構成を示す機能ブロック図である。 実施形態3における情報処理システムの動作を示すフローチャートである。 実施形態3における中国語への翻訳結果の一例を示す図である。 実施形態4における情報処理システムの構成を示す機能ブロック図である。 実施形態4における情報処理システムの動作を示すフローチャートである。 実施形態5における情報処理システムの構成を示す機能ブロック図である。 実施形態5における情報処理システムの動作を示すフローチャートである。
 本発明の一形態である情報処理装置は、入力された日本語の文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換手段と、を備えたことを特徴とする。
 そして、上記情報処理装置では、上記言い換え手段は、日本語における類似語情報に基づいて、上記未知語の類似語を当該未知語の上記言い換え語として言い換える、ことを特徴とする。
 さらに、上記情報処理装置では、上記未知語検出手段は、上記入力された日本語の文字情報のうち、仮名文字を含む語を上記未知語として検出する、ことを特徴とする。
 上記発明によると、情報処理装置が日本語の文字情報の入力を受け付けると、まず、この文字情報内で、日本語と中国語との対訳辞書に登録されていない未知語を検出する。続いて、検出した日本語の未知語を、同じく日本語における漢字を含む他の言い換え語に言い換える。例えば、仮名文字を含む未知語を、類似語情報に登録されている日本語漢字を含む類似語に、他の言い換え語として言い換える。そして、未知語の言い換え語に含まれる日本語漢字を対応する中国語漢字に変換して、未知語を中国語に変換する。
 このように、日本語の未知語を同じく日本語の他の言い換え語に言い換えた後に、この言い換え語に含まれる日本語漢字を中国語漢字に変換するため、対訳辞書に登録されていない未知語であっても、中国語への変換精度が高まる。特に、仮名文字を含む未知語を、漢字を含む日本語の類似語に言い換えた後に中国語に変換することで、日本語と中国語とが相互に漢字を含む言語であるという特性を利用して、さらに変換精度の向上を図ることができる。
 また、上記情報処理装置では、上記言い換え手段は、上記未知語を言い換えた上記言い換え語のうち、当該言い換え語に含まれる漢字の数に応じて、上記中国語変換手段にて変換する上記言い換え語を選択する、ことを特徴とする。
 また、上記情報処理装置では、上記言い換え手段は、上記未知語を言い換えた上記言い換え語のうち、全てが漢字にて構成されているものを、上記中国語変換手段にて変換する上記言い換え語とする、ことを特徴とする。
 これにより、漢字を多く含む言い換え語、望ましくは全てが漢字にて構成されている言い換え語を中国語に変換するため、より多くの対応する中国語漢字に変換することができ、適切な変換を行うことができる。
 また、上記情報処理装置では、上記言い換え手段は、上記類似語情報の類似語間における優先度情報に基づいて、上記中国語変換手段にて変換する上記言い換え語を選択する、ことを特徴とする。
 また、上記情報処理装置では、上記言い換え手段は、上記未知語を上記類似語に言い換えた上記言い換え語のうち、上記類似語情報の類似語間における上位/下位概念情報に基づく上記未知語に対する上記言い換え語の上記上位/下位概念の距離に応じて、上記第二言語変換手段にて変換する上記言い換え語を選択する、ことを特徴とする。
 これにより、未知語を言い換えた類似語の中から、類似語間の優先度や、上位/下位概念に応じて言い換え語を選択することで、例えば、より使用頻度の高い語や一般的な語を言い換え語として選択して中国語に変換でき、より適切な中国語を得ることができる。
 また、上記情報処理装置では、上記言い換え手段は、上記未知語の上記類似語に日本語漢字を含む語が存在しない場合に、上記未知語の上記類似語のうち上記日本語と中国語との対訳辞書に登録されている語を上記言い換え語として言い換え、上記中国語変換手段は、上記言い換え語を日本語と中国語との対訳辞書に基づいて中国語に変換する、ことを特徴とする。
 これにより、仮に未知語の類似語で日本語漢字を含む語が存在しない場合であっても、未知語は、類似語のうち中国語に翻訳可能な語に言い換えられるため、対訳辞書に基づいて中国語に翻訳することが可能となる。
 また、本発明の他の形態である情報処理装置は、入力された日本語の文字情報の構造を解析する解析手段と、上記解析手段にて解析された上記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換手段と、上記中国語変換手段による変換結果を、上記未知語の対訳として記憶する未知語変換辞書生成手段と、を備えたことを特徴とする。
 これによると、上述した情報処理装置は、日本語の未知語と中国語との対訳辞書を生成する辞書作成支援装置として機能する。
 また、本発明の他の形態である情報処理装置は、入力された日本語の文字情報の構造を解析する解析手段と、上記解析手段にて解析された上記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換手段と、上記解析手段にて解析された文字情報のうち上記対訳辞書に登録されている日本語の文字情報を中国語に変換すると共に、この変換結果と、上記中国語変換手段による変換結果と、に基づいて、上記入力された日本語の文字情報を中国語に翻訳する翻訳手段と、を備えたことを特徴とする。
 これによると、上述した情報処理装置は、未知語を含む日本語であっても中国語に翻訳可能な翻訳装置として機能する。
 また、本発明の他の形態である情報処理装置は、入力された日本語の文字情報の構造を解析する解析手段と、上記解析手段にて解析された上記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換手段と、日本語のキーワードと中国語のキーワードとを用いて、それぞれ所定のデータベース内の検索を行う検索手段と、を備え、上記検索手段は、上記未知語検出手段にて検出した日本語である上記未知語と、上記中国語変換手段にて中国語に変換した変換結果と、をそれぞれキーワードとして、上記データベース内の検索を行う、ことを特徴とする。
 これによると、上述した情報処理装置は、日本語の未知語と、これの中国語の対訳と、をキーワードとして、両言語で情報検索を行う言語横断型情報検索装置として機能する。
 また、本発明の他の形態である記録媒体は、コンピュータに、入力された日本語の文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換手段と、を実現させるためのプログラムを格納している。
 そして、上記言い換え手段は、日本語における類似語情報に基づいて、上記未知語の類似語を当該未知語の上記言い換え語として言い換える、ことを特徴とする。
 また、本発明の他の形態である情報処理方法は、入力された日本語の文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出工程と、上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え工程と、上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換工程と、を有することを特徴とする。
 そして、上記情報処理方法では、上記言い換え工程は、日本語における類似語情報に基づいて、上記未知語の類似語を当該未知語の上記言い換え語として言い換える、ことを特徴とする。
 上述した構成を有する、記録媒体、又は、情報処理方法、の発明であっても、上記情報処理装置と同様の作用を有するために、上述した本発明の目的を達成することができる。
 以下、本発明に係る、情報処理装置、記録媒体、及び、情報処理方法、の各実施形態について、図1乃至図14を参照しながら説明する。なお、以下の実施形態では、情報処理装置の一例として、日本語を中国語に変換する変換装置や辞書作成支援装置、翻訳装置、言語横断型情報検索装置を挙げて説明するが、本発明はかかる利用に限定されない。
<実施形態1>
 本発明の第1の実施形態を、図1乃至図5を参照して説明する。図1は、情報処理システムの構成を示す機能ブロック図である。図2乃至図4は、変換に使用するデータの一例を示す図である。図5は、変換装置の動作を示すフローチャートである。
 [構成]
 図1は、本実施形態における日本語を中国語に変換する情報処理システムの構成を示す図である。この図に示すように、情報処理システムは、変換装置1(情報処理装置)とデータベース2(記憶装置)とによって構成されている。但し、情報処理システムの構成は、図1に示すものに限定されない。例えば、データベース2がそれぞれネットワーク上の他のコンピュータに構成されており、当該ネットワーク上のコンピュータから変換装置1に種々のデータが提供されてもよい。また、図1に示す情報処理システムが1台のコンピュータにて構成されていてもよく、あるいは、変換装置1が複数台のコンピュータにて構成されていてもよい。以下、各構成について詳述する。
 まず、データベース2は、日中翻訳辞書21と、日本語辞書22と、日中漢字対応データベース23と、を備えている。そして、上記日中翻訳辞書21は、日本語と中国語の対訳辞書情報であり、各日本語の単語や語句といった各形態素に対応する中国語が記憶されている。
 また、日本語辞書22は、種々の日本語語句の類似語情報を記憶した、日本語類似語辞書や日本語単語辞書である。例えば、以下のようなデータを使用することができる。
・日本科学技術情報センター[JOIS]の「JSTシソーラス」
http://jois.jst.go.jp/JOIS/html/thesaurus_index.htm
・日本語大シソーラス類語検索大辞典CDーROM版,山口翼著,大修館書店,2006年01月
 ここで、日本語辞書22の一例を、図2及び図3に示す。図2は、「ソフトドリンク」という語句の類似語の概念の階層を示す説明図である。図3は、「ソフトドリンク」の類似語が記述されている例(JOISのJSTシソーラス)を示す説明図である。この図3では、JSTシソーラスに記録された「ソフトドリンク」と、その同義語である「清涼飲料」の辞書情報を示している。また、図3に示す記号列の「USE」は国際ISO基準では「優先語」と意味し、「UF」は「非優先語」と意味する。従って、図3の例では、「ソフトドリンク」という言い方より、「清涼飲料」のほうが優先語であることを意味する。なお、この日本語辞書22の具体的な利用方法については後述する。
 また、上記日中漢字対応データベース23は、日本語漢字に対応する中国語漢字、つまり、各日本語にそれぞれ対応する中国語簡体字や繁体字を登録したデータベース(対応漢字情報)である。この日中漢字対応データベース23の一例を、図4に示す。この図に示すように、日本語漢字と、日本語漢字に対応する中国語の簡体字と繁体字とが、関連付けられて登録されている。また、日中漢字対応データベース23は、人々が使う頻度の高い漢字と、使う頻度の低い漢字とを分けて構築されており、頻度の高低を表す情報が、各漢字に関連付けられて記憶されている。これにより、後述する日中漢字変換部16によって、検出された未知語の言い換え語候補の中から、使用頻度が高く分かりやすい中国語漢字が選択される。
 次に、変換装置1の構成について詳述する。変換装置1は、演算装置と記憶装置とを備えた一般的なコンピュータである。そして、変換装置1は、図1に示すように、演算装置に本発明である変換処理用プログラムが組み込まれることで構築された、日本語入力受付部11と、日本語文章解析部12と、未知語検出部13と、未知語言い換え部14と、最適候補推定部15と、日中漢字変換部16と、を備えている。
 上記日本語入力受付部11は、図示しないキーボードやファイル等を通じて変換装置1に入力された日本語文章情報を受け付け、日本語文章解析部12に渡す。なお、入力される日本語は、必ずしも文章であることに限定されず、日本語の文字情報であればよい。
 また、上記日本語文章解析部12(解析手段)は、入力された日本語文章の構造を解析する。具体的には、予めシステムに与えられた文法ルールや単語リストなどの辞書情報などを用いて、形態素解析または単語分割、構文解析などの処理を行い、日本語を形態素や単語に分割する。そして、未知語検出部13に渡す。なお、日本語文章の解析処理方法は、いかなる方法を用いてもよい。
 また、未知語検出部13(未知語検出手段)は、上述したように解析された形態素や単語のうち、日中翻訳辞書21に登録されていない未知語を検出する。このとき、特に、解析により分割された単語のうち、ひらがなやカタカナといった仮名文字を含む単語を、未知語として検出する。なお、未知語検出部13は、コンピュータ上で日本語テキストを表現するのに用いられている文字コードの種別(例えば、EUC、Unicode、JIS、SJIS等)と、英数字、ひらがな、カタカナ、漢字等のコードとに基づいて、単語が仮名を含むかどうかの判定を行う。そして、未知語検出部13は、検出した未知語を、未知語言い換え部14に渡す。なお、未知語検出部13による未知語の検出は、必ずしも仮名文字を含む単語を未知語として検出することに限定されない。仮名文字を含まない単語を未知語として検出してもよい。
 また、未知語言い換え部14(言い換え手段)は、上述したように検出された未知語を、日本語の他の語(言い換え語)に言い換える。具体的に、本実施形態では、上述した日本語辞書22(類似語情報)を用いて、未知語の類似語を抽出して、言い換え語の候補として選定する。例えば、未知語が「ソフトドリンク」である場合には、図2に示す類似語の概念の階層に挙がっている同義概念の「清涼飲料」や上位概念の「飲料」、さらには、下位概念の「炭酸飲料」などが、言い換え語の候補となる。このとき、未知語言い換え部14は、特に、漢字を含む類似語を言い換え語の候補として選定する。そして、未知語言い換え部14は、選定した言い換え語の候補を、最適候補推定部15に渡す。
 また、最適候補推定部15(言い換え手段)は、上述したように選定された言い換え語の候補のうち、まずは、全てが漢字にて構成されている言い換え語つまり同義語が存在する場合に、これを言い換え語の最適候補として推定する。このとき、同義語が複数存在する場合には、上述した日本語辞書22内の優先度を表す情報に基づいて(図2、図3参照)、優先語から非優先語への順位で最適な候補を推定する。つまり、まずは、優先度の最も高い優先語を、日中漢字変換部16にて中国語に変換する言い換え語として選択する。
 一方で、最適候補推定部15は、全てが漢字にて構成されている言い換え語の候補が存在しない場合には、漢字数の最も多いものを最適候補として推定(選択)する。このとき、最適候補推定部15は、漢字数が最も多いものが複数存在して、複数の最適候補が存在する場合には、上記日本語辞書22内の上位、下位概念を表す情報に基づいて(図2、図3参照)、最適候補を特定する。具体的には、同義概念との概念間の距離が最も小さい上位概念または下位概念から最適候補を推定する。最終的には、類似語の最上位概念(ルート)または最下位概念まで、上述した最適候補の推定処理を行う。最後まで最適候補を見つからない場合、処理を終了する。なお、必ずしも漢字数の最も多いものを最適候補として推定する必要はない。例えば、言い換え語の後方のうち、各語の全体に対する漢字の割合が最も高いものを最適候補として推定してもよい。
 また、最適候補推定部15は、未知語の言い換え語として漢字を含む類似語が存在しない場合には、日本語辞書22中に存在する類似語のうち、日中翻訳辞書21に登録されている類似語を言い換え語の候補として優先して推定(選択)する。この場合には、後述する日中漢字変換部16は、この推定された言い換え語を、日中翻訳語辞書21を用いて対応する中国語に翻訳する。
 また、上記日中漢字変換部16(中国語変換手段)は、上記最適候補推定部15にて最適候補として推定(選択)された未知語の言い換え語に含まれる日本語漢字を、日中漢字対応データベース23に基づいて中国語漢字に変換する。そして、日中漢字変換部16は、変換した中国語漢字を出力する。なお、日中漢字変換部16は、日本語漢字に対応する中国語漢字が複数存在する場合には、各漢字に関連付けられて記憶されている頻度の高低を表す情報に基づいて、変換する中国語漢字を決定する。例えば、頻度が最も高い中国語漢字に変換する。
 [動作]
 次に、上述した変換装置1の動作を、図5のフローチャートを参照して説明する。まず、キーボードやファイル等を通じて入力された日本語文章を受け付ける(ステップS1)。以下、一例として、「ソフトドリンクをいただけますか」という日本語文章が入力された場合を説明する。
 続いて、入力された日本語文章に対して、形態素解析または単語分割等の解析処理を行う(ステップS2、解析工程)。例えば、上記日本語文章の場合には、形態素解析の結果は、「ソフトドリンク/を/いただ/け/ます/か」となる。このとき、形態素解析を行った結果となる各形態素には、独自の属性値が付与される。ここで、属性値とは、原形、品詞、活用形、意味分類、アスペクト等の情報からなる。すると、上記「ソフトドリンク」の属性値には、品詞が「未知語」、訳語が空欄として設定される。
 そして、解析結果に基づいて、入力された日本語文章中から、仮名を含む未知語の検出処理を行う(ステップS3、未知語検出工程)。このとき、仮名を含む未知語が検出されない場合には(ステップS3でノー)、処理を終了する。仮名を含む未知語が検出された場合には(ステップS3でイエス)、次の処理(ステップS4)へ進む。なお、ここでは、上記文章中、「ソフトドリンク」の品詞属性である「未知語」の情報と、文字コードの種別と、ひらがな、カタカナ、漢字等のコードとにより、「ソフトドリンク」を仮名を含む未知語として検出する。
 続いて、入力された日本語文章の中に仮名を含む未知語が検出された場合には、日本語辞書22を用いて、当該未知語の類似語であり、かつ、漢字を含む文字列である言い換え語の候補を検索する(ステップS4、言い換え工程)。そして、検索された言い換え語の候補の中から、中国語に変換する最適候補を推定する。具体的には、まず、仮名を含まない言い換え語(類似語)つまり全てが漢字の言い換え語が存在する場合には(ステップS5でイエス)、その類似語である同義語を優先して最適候補と推定する(ステップS6)。このとき、同義語が複数存在する場合には、日本語辞書22を用いて、優先語から非優先語への順位で最適候補を推定する。一方、仮名を含まない言い換え語の候補が存在しない場合には(ステップS5でノー)、全類似語候補の中から漢字数の多いものを最適候補とする(ステップS7)。
 なお、図5には示していないが、前記未知語の類似語の中に、上位概念、下位概念が同時に存在する場合、未知語と類似語との概念の距離が近いものを最適候補とする。そして、概念の距離同一のものが複数存在する場合には、上位概念、下位概念の順位で最適候補を推定する。さらに、未知語の類似語の中に、漢字を含む類似語が存在しない場合には、日中翻訳辞書21にすでに登録された類似語を最適候補とする処理も行われる。なお、前記未知語の類似語候補がサ変の場合はサ変語幹のみを用いて(サ変語尾を切り捨て)、形容動詞の場合は形容動詞語幹のみを用いて(形容動詞語尾を切り捨て)、上述した言い換え処理を行う。
 具体的には、日本語辞書22を用いて、上記未知語である「ソフトドリンク」を、漢字を含む文字列に言い換える処理を行う。なお、日本語辞書22の構成は、上述したように図2,3に示すとおりであり、これによると、「ソフトドリンク」の言い換え語候補として、全てが漢字の同義語である「清涼飲料」が推定される。なお、「清涼飲料」の方が「ソフトドリンク」よりも優先度が高い優先語(図3の記号USEを参照)であると計算されているため、当該「清涼飲料」を最適候補として推定する。
 なお、必要に応じて、「ソフトドリンク」の同義語である「清涼飲料」を用いて、JSTシソーラスで辞書の逆引きを行うことが出来る。その結果、図2に示される「ソフトドリンク」の同義語や類似語の概念の階層関係を含む図3に示される辞書情報を読み込んで記憶する。これには、「ソフトドリンク」の同義語である「清涼飲料」と、下位概念である「果実飲料」と「炭酸飲料」と「乳飲料」、上位概念である「飲料」、最上位概念である「食品」等の情報が含まれる。
 続いて、上記ステップS6あるいはステップS7で推定された言い換え語の最適候補に対して、日中漢字対応データベース23を用いて、当該言い換え語に含まれる日本語漢字毎に中国語漢字への変換処理を行う(ステップS8、中国語変換工程)。その後、変換結果である中国語の文字情報を、変換装置1に装備されたディスプレイなどの出力装置に出力する(ステップS9)。
 具体的には、上述したように、未知語「ソフトドリンク」の言い換え語として最適候補と推定された「清涼飲料」の日本語漢字を、日中漢字対応データベース23(図4参照)に基づいて、文字ごとに中国語漢字の「清涼飲料」(中国語簡体字でもよい)に変換する。
 このようにすることにより、日本語の未知語を同じく日本語の他の言い換え語に言い換えた後に中国語に変換するため、日中翻訳辞書21に登録されていない未知語であっても、中国語への変換精度が高まる。特に、未知語を、日本語漢字を含む言い換え語に言い換えることで、漢字を用いる中国語への変換精度の向上を図ることができる。
 なお、上記では、未知語「ソフトドリンク」を「清涼飲料」に変換する場合を例示したが、例えば、以下のような変換例も考えられる。ここでは、入力された日本語文章の中に仮名を含む未知語「考える」が検出された場合を考える。すると、まず、上述したように、日本語動詞シソーラスから、「考える」の類似語である「思考」、「考慮」、「思う」等の言い換え候補を獲得できる。そして、最適な言い換え候補として、「思考」や「考慮」を推定することができ、これを中国語漢字に変換することにより、未知語「考える」を、中国語の訳語として「思考」や「考慮」に変換することができる。これにより、未知語「考える」を含む入力された日本語文章の翻訳結果を、中国語側に通じる変換して出力することができる。
 <実施形態2>
 次に、本発明の第2の実施形態を、図6乃至図7を参照して説明する。図6は、本実施形態における情報処理システムの構成を示す機能ブロック図であり、図7はその動作を示すフローチャートである。
 [構成]
 本実施形態は、上述した情報処理システムを、翻訳辞書生成支援システムとして使用する場合を示している。そして、本実施形態における情報処理システムは、上述した実施形態1における変換装置1及びデータベース2からなる情報処理システムとほぼ同様の構成を採っている。
 具体的に、本実施形態におけるデータベース2は、図6に示すように、日中翻訳辞書21と、日本語辞書22と、日中漢字対応データベース23と、を備えている。また、変換装置1(情報処理装置)は、図6に示すように、演算装置に本発明であるプログラムが組み込まれることで構築された、日本語入力受付部11と、日本語文章解析部12と、未知語検出部13と、未知語言い換え部14と、最適候補推定部15と、日中漢字変換部16と、を備えている。
 そして、これに加えて、本実施形態における変換装置1は、図6に示すように、演算装置にプログラムが組み込まれることによって構築された辞書生成部17を備えている。この辞書生成部17(未知語変換辞書生成手段)は、上述したように日中漢字変換部16にて変換された変換結果を、変換対象となった未知語の対訳として、日中翻訳辞書21に記憶する機能を有する。例えば、上述したように、未知語が「ソフトドリンク」であり、その中国語への変換結果が「清涼飲料」である場合には、日本語「ソフトドリンク」の対訳として、中国語「清涼飲料」を、日中翻訳辞書21に登録する。
 ここで、上記日本語文章解析部12は、上述した実施形態1にて説明したものとほぼ同様の構成であるが、本実施形態では特に、入力された日本語文章の構造を、予めシステムに与えられた文法ルールや単語リストなどの辞書情報などを用いて、形態素解析または単語分割などの処理を行い、日本語を形態素や単語に分割する処理を行う。なお、その他の構成は、実施形態1と同様であるため、その詳細な説明は省略する。
 [動作]
 次に、上記構成の変換装置1の動作を、上記実施形態1で説明した図5及び図7を参照して説明する。なお、図7は、上述した実施形態1の図5を参照して説明したように、未知語として「ソフトドリンク」が検出された場合に、中国語への変換結果として「清涼飲料」が得られた後(図5のステップS8以降)の動作を示している。従って、以下では、図5を参照して説明する動作については、簡単に説明する。
 まず、キーボードやファイル等を通じて入力された日本語文章、例えば、「ソフトドリンクをいただけますか」という日本語文章、を受け付ける(ステップS1)。続いて、入力された日本語文章に対して、形態素解析または単語分割等の解析処理を行う(ステップS2、解析工程)。
 そして、解析結果に基づいて、入力された日本語文章中から、仮名を含む未知語の検出処理を行う(ステップS3、未知語検出工程)。このとき、仮名を含む未知語が検出されない場合には(ステップS3でノー)、処理を終了する。仮名を含む未知語が検出された場合には(ステップS3でイエス)、次の処理(ステップS4)へ進む。なお、ここでは、上記文章中、「ソフトドリンク」が仮名を含む未知語として検出されることとする。
 続いて、入力された日本語文章の中に仮名を含む未知語が検出された場合には、日本語辞書22を用いて、当該未知語の類似語であり、かつ、漢字を含む文字列である言い換え語の候補を検索する(ステップS4、言い換え工程)。そして、検索された言い換え語の候補の中から、中国語に変換する最適候補を推定する。具体的には、まず、仮名を含まない言い換え語(類似語)つまり全てが漢字の言い換え語が存在する場合には(ステップS5でイエス)、その類似語である同義語を優先して最適候補と推定する(ステップS6)。このとき、同義語が複数存在する場合には、日本語辞書22を用いて、優先語から非優先語への順位で最適候補を推定する。一方、仮名を含まない言い換え語の候補が存在しない場合には(ステップS5でノー)、全類似語候補の中から漢字数の多いものを最適候補とする(ステップS7)。
 なお、図5には示していないが、前記未知語の類似語の中に、上位概念、下位概念が同時に存在する場合、未知語と類似語との概念の距離が近いものや、上位概念、下位概念の順位で最適候補を推定する。さらに、未知語の類似語の中に、漢字を含む類似語が存在しない場合には、日中翻訳辞書21にすでに登録された類似語を最適候補とする。
 続いて、上記ステップS6あるいはステップS7で推定された言い換え語の最適候補に対して、日中漢字対応データベース23を用いて、当該言い換え語に含まれる日本語漢字毎に中国語漢字への変換処理を行う(ステップS8、中国語変換工程)。ここでは、未知語「ソフトドリンク」の言い換え語として最適候補と推定された「清涼飲料」の日本語漢字を、日中漢字対応データベース23(図4参照)に基づいて、文字ごとに中国語漢字の「清涼飲料」(中国語簡体字でもよい)に変換する。
 続いて、上述したように、未知語「ソフトドリンク」の変換結果として「清涼飲料」が得られると、この「清涼飲料」という中国語と、日本語の未知語として検出された「ソフトドリンク」とを対応付けて、未知語と中国語の対応辞書を生成する(ステップS11)。そして、この対応辞書を日中翻訳辞書21に登録する(ステップS12、未知語変換辞書生成工程)。つまり、日本語「ソフトドリンク」の中国語対訳として、「清涼飲料」が登録されることとなる。その後は、必要に応じて、登録された対訳をディスプレイなどに出力する。
 これにより、以後、日中翻訳辞書21を用いて翻訳を行う場合には、上述したように登録した対訳を利用することが可能となる。
<実施形態3>
 次に、本発明の第3の実施形態を、図8乃至図10を参照して説明する。図8は、本実施形態における情報処理システムの構成を示す機能ブロック図であり、図9はその動作を示すフローチャートである。また、図10は、中国語への翻訳例を示す説明図である。
 [構成]
 本実施形態は、上述した情報処理システムを、翻訳装置として使用する場合を示している。そして、本実施形態における情報処理システムは、上述した実施形態2における変換装置1及びデータベース2からなる情報処理システムとほぼ同様の構成を採っている。
 具体的に、本実施形態におけるデータベース2は、図8に示すように、日中翻訳辞書21と、日本語辞書22と、日中漢字対応データベース23と、を備えている。また、変換装置1(情報処理装置)は、図8に示すように、演算装置に本発明であるプログラムが組み込まれることで構築された、日本語入力受付部11と、日本語文章解析部12と、未知語検出部13と、未知語言い換え部14と、最適候補推定部15と、日中漢字変換部16と、辞書生成部17と、を備えている。
 そして、これに加えて、本実施形態における変換装置1は、図8に示すように、演算装置にプログラムが組み込まれることによって構築された翻訳部18と、中国語出力部19と、を備えている。
 上記翻訳部18(翻訳手段)は、上述したように日中漢字変換部16にて変換した変換結果と、予め日中翻訳辞書21に登録されている対訳辞書に基づいて、入力された日本語文章を中国語に変換する。つまり、上述したように、実施形態2で未知語と中国語との対訳辞書が日中翻訳辞書21に記憶されているため、当該日中翻訳辞書21には、入力され解析された日本語文章の語句(形態素)の全てが登録されていることとなり、これを用いて、中国語に翻訳することができる。また、中国語出力部19は、翻訳部18による翻訳結果である中国語の文章を、変換装置1に装備されたディスプレイなどの出力装置に出力する。
 ここで、上記日本語文章解析部12は、上述した実施形態1にて説明したものとほぼ同様の構成であるが、本実施形態では特に、翻訳処理を行うために、入力された日本語文章を、予めシステムに与えられた解析ルールなどの情報を用いて、形態素解析及び構文解析の処理を行う。なお、その他の構成は、実施形態2と同様であるため、その詳細な説明は省略する。
 [動作]
 次に、上記構成の変換装置1の動作を、上記実施形態1で説明した図5及び図9を参照して説明する。なお、図9は、上述した実施形態1の図5を参照して説明したように、未知語として「ソフトドリンク」が検出された場合に、中国語への変換結果として「清涼飲料」が得られた後(図5のステップS8以降)の動作を示している。従って、以下では、図5を参照して説明する動作については、簡単に説明する。
 まず、キーボードやファイル等を通じて入力された日本語文章、例えば、「ソフトドリンクをいただけますか」という日本語文章、を受け付ける(ステップS1)。続いて、入力された日本語文章に対して、形態素解析及び構文解析の処理を行う(ステップS2、解析工程)。
 そして、解析結果に基づいて、入力された日本語文章中から、仮名を含む未知語の検出処理を行う(ステップS3、未知語検出工程)。このとき、仮名を含む未知語が検出されない場合には(ステップS3でノー)、処理を終了する。仮名を含む未知語が検出された場合には(ステップS3でイエス)、次の処理(ステップS4)へ進む。なお、ここでは、上記文章中、「ソフトドリンク」が仮名を含む未知語として検出されることとする。
 続いて、入力された日本語文章の中に仮名を含む未知語が検出された場合には、日本語辞書22を用いて、当該未知語の類似語であり、かつ、漢字を含む文字列である言い換え語の候補を検索する(ステップS4、言い換え工程)。そして、検索された言い換え語の候補の中から、中国語に変換する最適候補を推定する。具体的には、まず、仮名を含まない言い換え語(類似語)つまり全てが漢字の言い換え語が存在する場合には(ステップS5でイエス)、その類似語である同義語を優先して最適候補と推定する(ステップS6)。このとき、同義語が複数存在する場合には、日本語辞書22を用いて、優先語から非優先語への順位で最適候補を推定する。一方、仮名を含まない言い換え語の候補が存在しない場合には(ステップS5でノー)、全類似語候補の中から漢字数の多いものを最適候補とする(ステップS7)。
 なお、図5には示していないが、前記未知語の類似語の中に、上位概念、下位概念が同時に存在する場合、未知語と類似語との概念の距離が近いものや、上位概念、下位概念の順位で最適候補を推定する。さらに、未知語の類似語の中に、漢字を含む類似語が存在しない場合には、日中翻訳辞書21にすでに登録された類似語を最適候補とする。
 続いて、上記ステップS6あるいはステップS7で推定された言い換え語の最適候補に対して、日中漢字対応データベース23を用いて、当該言い換え語に含まれる日本語漢字毎に中国語漢字への変換処理を行う(ステップS8、中国語変換工程)。ここでは、未知語「ソフトドリンク」の言い換え語として最適候補と推定された「清涼飲料」の日本語漢字を、日中漢字対応データベース23(図4参照)に基づいて、文字ごとに中国語漢字の「清涼飲料」(中国語簡体字でもよい)に変換する。
 上述したように、未知語「ソフトドリンク」の変換結果として「清涼飲料」が得られると、この「清涼飲料」という中国語と、日本語の未知語として検出された「ソフトドリンク」とを対応付けて、未知語と中国語の対応辞書を生成して、日中翻訳辞書21に登録する(ステップS21)。これにより、上記例文「ソフトドリンクをいただけますか」に対し、「ソフトドリンク」が未知語である場合であっても、まず、「ソフトドリンク」と「清涼飲料」から構成される日中翻訳辞書が生成される。そして、この日中対訳辞書21を用いて、この追加された対訳辞書と予め登録されている対訳辞書とを含む日中対訳辞書21を用いて、未知語ではない部分と未知語を含む日本語文章「ソフトドリンクをいただけますか」を、図10に示すように、簡体字あるいは繁体字の中国語に翻訳する(ステップS22、変換工程)。なお、図10に示す簡体字あるいは繁体字の中国語は、左側から読むことで、日本語の「ソフトドリンクをいただけますか」に対応する中国語訳となっている。その後は、必要に応じて、翻訳結果をディスプレイなどに出力する(ステップS23)。
 <実施形態4>
 次に、本発明の第4の実施形態を、図11乃至図12を参照して説明する。図11は、本実施形態における情報処理システムの構成を示す機能ブロック図であり、図12はその動作を示すフローチャートである。
 [構成]
 本実施形態は、上述した情報処理システムを、言語横断型情報検索システムとして使用する場合を示している。そして、本実施形態における情報処理システムは、上述した実施形態1における変換装置1及びデータベース2からなる情報処理システムとほぼ同様の構成を採っている。
 具体的に、本実施形態におけるデータベース2は、図11に示すように、日中翻訳辞書21と、日本語辞書22と、日中漢字対応データベース23と、を備えている。そして、これに加えて、本実施形態におけるデータベース2は、日本語と中国語とによって構成された検索対象となる所定の内容の検索データベース24を備えている。なお、この検索データベース24は、ネットワーク上の他のコンピュータに記憶されているものでもよい。
 また、本実施形態における変換装置1(情報処理装置)は、図11に示すように、演算装置に本発明であるプログラムが組み込まれることで構築された、日本語入力受付部11と、日本語文章解析部12と、未知語検出部13と、未知語言い換え部14と、最適候補推定部15と、日中漢字変換部16と、を備えている。
 そして、これに加えて、本実施形態における変換装置1は、図11に示すように、演算装置にプログラムが組み込まれることによって構築された、検索処理部31と検索結果出力部32とを備えている。
 そして、上記検索処理部31(検索手段)は、未知語検出部13から日本語入力受付部11に対して入力された日本語の未知語を受け付けると共に、日中漢字変換部16にて変換された上記未知語の変換結果である中国語を受け付ける。そして、受け付けた日本語である未知語を日本語の検索キーワードとし、また、未知語の対訳となる変換結果を中国語の検索キーワードとして、それぞれの言語で検索データベース24内の検索を行う。そして、検索結果出力部32は、上記検索結果をディスプレイなどに出力する。
 ここで、上記日本語文章解析部12は、上述した実施形態1にて説明したものとほぼ同様の構成であるが、本実施形態では特に、入力された日本語文章の構造を、予めシステムに与えられた解析ルールなどの辞書情報などを用いて、形態素解析の処理、あるいは、形態素解析及び構文解析の処理を行う。なお、その他の構成は、実施形態1と同様であるため、その詳細な説明は省略する。
 [動作]
 次に、上記構成の変換装置1の動作を、上記実施形態1で説明した図5及び図12を参照して説明する。なお、図12は、上述した実施形態1の図5を参照して説明したように、未知語として「ソフトドリンク」が検出された場合に、中国語への変換結果として「清涼飲料」が得られた後(図5のステップS8以降)の動作を示している。従って、以下では、図5を参照して説明する動作については、簡単に説明する。
 まず、日中言語コーパスから「ソフトドリンク」に関する日中関連情報を検索する場合に、検索キーワードとして入力された「ソフトドリンク」といった日本語文章を受け付ける(ステップS1)。続いて、入力された日本語文章に対して、形態素解析、あるいは、形態素解析及び構文解析、といった解析処理を行う(ステップS2、解析工程)。
 そして、解析結果に基づいて、入力された日本語文章中から、仮名を含む未知語の検出処理を行う(ステップS3、未知語検出工程)。このとき、仮名を含む未知語が検出されない場合には(ステップS3でノー)、処理を終了する。仮名を含む未知語が検出された場合には(ステップS3でイエス)、次の処理(ステップS4)へ進む。なお、ここでは、上記文章中、「ソフトドリンク」が仮名を含む未知語として検出されることとする。
 続いて、入力された日本語文章の中に仮名を含む未知語が検出された場合には、日本語辞書22を用いて、当該未知語の類似語であり、かつ、漢字を含む文字列である言い換え語の候補を検索する(ステップS4、言い換え工程)。そして、検索された言い換え語の候補の中から、中国語に変換する最適候補を推定する。具体的には、まず、仮名を含まない言い換え語(類似語)つまり全てが漢字の言い換え語が存在する場合には(ステップS5でイエス)、その類似語である同義語を優先して最適候補と推定する(ステップS6)。このとき、同義語が複数存在する場合には、日本語辞書22を用いて、優先語から非優先語への順位で最適候補を推定する。一方、仮名を含まない言い換え語の候補が存在しない場合には(ステップS5でノー)、全類似語候補の中から漢字数の多いものを最適候補とする(ステップS7)。
 なお、図5には示していないが、前記未知語の類似語の中に、上位概念、下位概念が同時に存在する場合、未知語と類似語との概念の距離が近いものや、上位概念、下位概念の順位で最適候補を推定する。さらに、未知語の類似語の中に、漢字を含む類似語が存在しない場合には、日中翻訳辞書21にすでに登録された類似語を最適候補とする。
 続いて、上記ステップS6あるいはステップS7で推定された言い換え語の最適候補に対して、日中漢字対応データベース23を用いて、当該言い換え語に含まれる日本語漢字毎に中国語漢字への変換処理を行う(ステップS8、中国語変換工程)。ここでは、未知語「ソフトドリンク」の言い換え語として最適候補と推定された「清涼飲料」の日本語漢字を、日中漢字対応データベース23(図4参照)に基づいて、文字ごとに中国語漢字の「清涼飲料」(中国語簡体字でもよい)に変換する。
 続いて、上述したように、未知語「ソフトドリンク」の変換結果として「清涼飲料」が得られると、日本語の「ソフトドリンク」を日本語の検索キーワードとし、また、中国語への変換結果である「清涼飲料」を中国語の検索キーワードとする。そして、日本語である「ソフトドリンク」を利用して、日本語の検索データベース24から当該キーワードに関連した情報を検索する。同時に、中国語である「清涼飲料」を利用して、中国語の検索データベース24から当該キーワードに関連した情報を検索する(ステップS31、検索工程)。なお、上述した検索処理は、例えば、検索エンジンを用いて、日中両言語コーパスや日中両言語で構成されるウェブ上のデータベースサーバに記憶された検索データベースに対して行ってもよい。その後は、必要に応じて、検索結果をディスプレイなどに出力する(ステップS32)。
 <実施形態5>
 本発明の第5の実施形態を、図13乃至図14を参照して説明する。図13は、情報処理システムの構成を示す機能ブロック図であり、図14は、その動作を示すフローチャートである。
 本実施形態における変換装置101とデータベース102とからなる情報処理システムは、上述した他の実施形態における情報処理システムとほぼ同様の構成を採っているが、このうち、変換装置101が、未知語検出部111と、未知語言い換え部112と、日中漢字変換部113と、を備えている。なお、データベース102内の構造は上記同様であり、日中翻訳辞書121と、日本語辞書122と、日中漢字対応データベース123と、を備えている。
 そして、上記未知語検出部111は、入力された日本語の文字情報内から(ステップS101)、日中翻訳辞書121に登録されていない未知語を検出する処理を行う(ステップS102)。また、未知語言い換え部122は、日本語辞書112に基づいて、未知語を同じく日本語の漢字を含む言い換え語に言い換える処理を行う(ステップS103)。さらに、日中漢字変換部113は、日中漢字対応データベース123に基づいて、未知語を言い換えた言い替え語に含まれる日本語漢字を中国語漢字に変換して(ステップS104)、出力する処理を行う(ステップS105)。
 上記構成であっても、日本語の未知語を同じく日本語の漢字を含む他の言い換え語に言い換えた後に、当該言い換え語に含まれる日本語漢字を中国語漢字に変換して、中国語に変換することができる。従って、辞書に登録されていない日本語の未知語であっても、より高精度に中国語に変換することができる。
 上述の実施の形態では、本発明をハードウェアの構成として説明したが、本発明は、これに限定されるものではない。本発明は、任意の処理を、CPU(Central Processing Unit)にコンピュータプログラムを実行させることにより実現することも可能である。この場合、コンピュータプログラムは、記録媒体に記録して提供することも可能であり、また、インターネットその他の通信媒体を介して伝送することにより提供することも可能である。また、記憶媒体には、例えば、フレキシブルディスク、ハードディスク、磁気ディスク、光磁気ディスク、CD-ROM、DVD、ROMカートリッジ、バッテリバックアップ付きRAMメモリカートリッジ、フラッシュメモリカートリッジ、不揮発性RAMカートリッジ等が含まれる。また、通信媒体には、電話回線等の有線通信媒体、マイクロ波回線等の無線通信媒体等が含まれる。
 以上、実施の形態を参照して本願発明を説明したが、本願発明は上記によって限定されるものではない。本願発明の構成や詳細には、発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この出願は、2008年05月13日に出願された日本出願特願2008-125354を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 本発明の情報処理装置は、日本語の未知語を中国語に変換する変換装置、さらには、辞書作成支援装置や、翻訳装置、言語横断型情報検索装置、として利用することができ、産業上の利用可能性を有する。
1,101 変換装置
2,102 データベース
11 日本語入力受付部
12 日本語文章解析部
13,111 未知語検出部
14,112 未知語言い換え部
15 最適候補推定部
16,113 日中漢字変換部

Claims (21)

  1.  入力された日本語の文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、
     前記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、
     前記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、前記言い換え語を中国語に変換する中国語変換手段と、
    を備えたことを特徴とする情報処理装置。
  2.  前記言い換え手段は、日本語における類似語情報に基づいて、前記未知語の類似語を当該未知語の前記言い換え語として言い換える、
    ことを特徴とする請求項1記載の情報処理装置。
  3.  前記未知語検出手段は、前記入力された日本語の文字情報のうち、仮名文字を含む語を前記未知語として検出する、
    ことを特徴とする請求項1又は2記載の情報処理装置。
  4.  前記言い換え手段は、前記未知語を言い換えた前記言い換え語のうち、当該言い換え語に含まれる漢字の数に応じて、前記中国語変換手段にて変換する前記言い換え語を選択する、
    ことを特徴とする請求項1,2又は3記載の情報処理装置。
  5.  前記言い換え手段は、前記未知語を言い換えた前記言い換え語のうち、全てが漢字にて構成されているものを、前記中国語変換手段にて変換する前記言い換え語とする、
    ことを特徴とする請求項1,2又は3記載の情報処理装置。
  6.  前記言い換え手段は、前記類似語情報の類似語間における優先度情報に基づいて、前記中国語変換手段にて変換する前記言い換え語を選択する、
    ことを特徴とする請求項2,3,4又は5記載の情報処理装置。
  7.  前記言い換え手段は、前記未知語を前記類似語に言い換えた前記言い換え語のうち、前記類似語情報の類似語間における上位/下位概念情報に基づく前記未知語に対する前記言い換え語の前記上位/下位概念の距離に応じて、前記第二言語変換手段にて変換する前記言い換え語を選択する、
    ことを特徴とする請求項2,3,4,5又は6記載の情報処理装置。
  8.  前記言い換え手段は、前記未知語の前記類似語に日本語漢字を含む語が存在しない場合に、前記未知語の前記類似語のうち前記日本語と中国語との対訳辞書に登録されている語を前記言い換え語として言い換え、
     前記中国語変換手段は、前記言い換え語を前記日本語と中国語との対訳辞書に基づいて中国語に変換する、
    ことを特徴とする請求項2,3,4,5,6又は7記載の情報処理装置。
  9.  入力された日本語の文字情報の構造を解析する解析手段と、
     前記解析手段にて解析された前記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、
     前記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、
     前記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、前記言い換え語を中国語に変換する中国語変換手段と、
     前記中国語変換手段による変換結果を、前記未知語の対訳として記憶する未知語変換辞書生成手段と、
    を備えたことを特徴とする情報処理装置。
  10.  入力された日本語の文字情報の構造を解析する解析手段と、
     前記解析手段にて解析された前記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、
     前記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、
     前記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、前記言い換え語を中国語に変換する中国語変換手段と、
     前記解析手段にて解析された文字情報のうち前記対訳辞書に登録されている日本語の文字情報を中国語に変換すると共に、この変換結果と、前記中国語変換手段による変換結果と、に基づいて、前記入力された日本語の文字情報を中国語に翻訳する翻訳手段と、
    を備えたことを特徴とする情報処理装置。
  11.  入力された日本語の文字情報の構造を解析する解析手段と、
     前記解析手段にて解析された前記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、
     前記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、
     前記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、前記言い換え語を中国語に変換する中国語変換手段と、
     日本語のキーワードと中国語のキーワードとを用いて、それぞれ所定のデータベース内の検索を行う検索手段と、を備え、
     前記検索手段は、前記未知語検出手段にて検出した日本語である前記未知語と、前記中国語変換手段にて中国語に変換した変換結果と、をそれぞれキーワードとして、前記データベース内の検索を行う、
    ことを特徴とする情報処理装置。
  12.  コンピュータに、
     入力された日本語の文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、
     前記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、
     前記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、前記言い換え語を中国語に変換する中国語変換手段と、
    を実現させるためのプログラムが格納された記録媒体。
  13.  前記言い換え手段は、日本語における類似語情報に基づいて、前記未知語の類似語を当該未知語の前記言い換え語として言い換える、
    ことを特徴とする請求項12記載の記録媒体。
  14.  コンピュータに、
     入力された日本語の文字情報の構造を解析する解析手段と、
     前記解析手段にて解析された前記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、
     前記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、
     前記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、前記言い換え語を中国語に変換する中国語変換手段と、
     前記中国語変換手段による変換結果を、前記未知語の対訳として記憶する未知語変換辞書生成手段と、
    を実現させるためのプログラムが格納された記録媒体。
  15.  コンピュータに、
     入力された日本語の文字情報の構造を解析する解析手段と、
     前記解析手段にて解析された前記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、
     前記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、
     前記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、前記言い換え語を中国語に変換する中国語変換手段と、
     前記解析手段にて解析された文字情報のうち前記対訳辞書に登録されている日本語の文字情報を中国語に変換すると共に、この変換結果と、前記中国語変換手段による変換結果と、に基づいて、前記入力された日本語の文字情報を中国語に翻訳する翻訳手段と、
    を実現させるためのプログラムが格納された記録媒体。
  16.  コンピュータに、
     入力された日本語の文字情報の構造を解析する解析手段と、
     前記解析手段にて解析された前記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、
     前記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、
     前記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、前記言い換え語を中国語に変換する中国語変換手段と、
     日本語のキーワードと中国語のキーワードとを用いて、それぞれ所定のデータベース内の検索を行う検索手段と、を実現させるプログラムであり、
     前記検索手段は、前記未知語検出手段にて検出した日本語である前記未知語と、前記中国語変換手段にて中国語に変換した変換結果と、をそれぞれキーワードとして、前記データベース内の検索を行う、
    ことを特徴とするプログラムが格納された記録媒体。
  17.  入力された日本語の文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出工程と、
     前記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え工程と、
     前記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、前記言い換え語を中国語に変換する中国語変換工程と、
    を有することを特徴とする情報処理方法。
  18.  前記言い換え工程は、日本語における類似語情報に基づいて、前記未知語の類似語を当該未知語の前記言い換え語として言い換える、
    ことを特徴とする請求項17記載の情報処理方法。
  19.  入力された日本語の文字情報の構造を解析する解析工程と、
     前記解析工程にて解析された前記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出工程と、
     前記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え工程と、
     前記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、前記言い換え語を中国語に変換する中国語変換工程と、
     前記中国語変換工程による変換結果を、前記未知語の対訳として記憶する未知語変換辞書生成工程と、
    を有することを特徴とする情報処理方法。
  20.  入力された日本語の文字情報の構造を解析する解析工程と、
     前記解析工程にて解析された前記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出工程と、
     前記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え工程と、
     前記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、前記言い換え語を中国語に変換する中国語変換工程と、
     前記解析工程にて解析された文字情報のうち前記対訳辞書に登録されている日本語の文字情報を中国語に変換すると共に、この変換結果と、前記中国語変換工程による変換結果と、に基づいて、前記入力された日本語の文字情報を中国語に翻訳する翻訳工程と、
    を有することを特徴とする情報処理方法。
  21.  入力された日本語の文字情報の構造を解析する解析工程と、
     前記解析工程にて解析された前記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出工程と、
     前記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え工程と、
     前記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、前記言い換え語を中国語に変換する中国語変換工程と、
     日本語のキーワードと中国語のキーワードとを用いて、それぞれ所定のデータベース内の検索を行う検索工程と、を有し、
     前記検索工程は、前記未知語検出工程にて検出した日本語である前記未知語と、前記中国語変換工程にて中国語に変換した変換結果と、をそれぞれキーワードとして、前記データベース内の検索を行う、
    ことを特徴とする情報処理方法。
PCT/JP2009/057169 2008-05-13 2009-04-08 情報処理装置および情報処理方法ならびに記録媒体 WO2009139240A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008125354A JP2011175306A (ja) 2008-05-13 2008-05-13 情報処理装置
JP2008-125354 2008-05-13

Publications (1)

Publication Number Publication Date
WO2009139240A1 true WO2009139240A1 (ja) 2009-11-19

Family

ID=41318613

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/057169 WO2009139240A1 (ja) 2008-05-13 2009-04-08 情報処理装置および情報処理方法ならびに記録媒体

Country Status (2)

Country Link
JP (1) JP2011175306A (ja)
WO (1) WO2009139240A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11630824B2 (en) 2018-10-16 2023-04-18 Shimadzu Corporation Document search method and document search system
US20220027397A1 (en) * 2018-10-16 2022-01-27 Shimadzu Corporation Case search method

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04256171A (ja) * 1991-02-08 1992-09-10 Fujitsu Ltd 未登録語処理装置
JP2004103037A (ja) * 2003-11-10 2004-04-02 Omron Corp 日本語文解析装置および日本語文解析方法
JP2006024114A (ja) * 2004-07-09 2006-01-26 Advanced Telecommunication Research Institute International 機械翻訳装置および機械翻訳コンピュータプログラム
JP2008083994A (ja) * 2006-09-27 2008-04-10 Toshiba Corp 辞書登録装置、辞書登録方法及び辞書登録プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04256171A (ja) * 1991-02-08 1992-09-10 Fujitsu Ltd 未登録語処理装置
JP2004103037A (ja) * 2003-11-10 2004-04-02 Omron Corp 日本語文解析装置および日本語文解析方法
JP2006024114A (ja) * 2004-07-09 2006-01-26 Advanced Telecommunication Research Institute International 機械翻訳装置および機械翻訳コンピュータプログラム
JP2008083994A (ja) * 2006-09-27 2008-04-10 Toshiba Corp 辞書登録装置、辞書登録方法及び辞書登録プログラム

Also Published As

Publication number Publication date
JP2011175306A (ja) 2011-09-08

Similar Documents

Publication Publication Date Title
JP3906356B2 (ja) 構文解析方法及び装置
US6442524B1 (en) Analyzing inflectional morphology in a spoken language translation system
WO2005059771A1 (ja) 対訳判断装置、方法及びプログラム
Mager et al. Probabilistic finite-state morphological segmenter for wixarika (huichol) language
JP2007241764A (ja) 構文解析プログラム、構文解析方法、構文解析装置、及び構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体
Scherrer et al. New developments in tagging pre-modern orthodox Slavic texts
Issam et al. Goud. ma: a news article dataset for summarization in Moroccan Darija
JP2010244385A (ja) 機械翻訳装置、機械翻訳方法、およびプログラム
WO2009139240A1 (ja) 情報処理装置および情報処理方法ならびに記録媒体
Lu et al. An automatic spelling correction method for classical mongolian
Paikens Lexicon-based morphological analysis of Latvian language
JP4476609B2 (ja) 中国語解析装置、中国語解析方法および中国語解析プログラム
Saito et al. Multi-language named-entity recognition system based on HMM
Zarnoufi et al. Machine normalization: Bringing social media text from non-standard to standard form
JP4007413B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP3825645B2 (ja) 表現変換方法及び表現変換装置
WO2010044180A1 (ja) 情報処理装置
JP2632806B2 (ja) 言語解析装置
KR100322743B1 (ko) 음성합성기의 문서해석기에서 사용되는 형태소 해석방법 및 그 장치
WO2009144890A1 (ja) 翻訳前換言規則生成システム
JP3921543B2 (ja) 機械翻訳装置
Gdaniec et al. Derivational morphology to the rescue: how it can help resolve unfound words in MT
JP3737817B2 (ja) 表現変換方法及び表現変換装置
KR20180054236A (ko) 음성기호 기반 사전 유사 탐색을 활용한 자동 통번역 시스템 및 그 방법
Samir et al. Training and evaluation of TreeTagger on Amazigh corpus

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09746447

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09746447

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP