WO2020012813A1 - 情報処理装置、および情報処理方法、並びにプログラム - Google Patents

情報処理装置、および情報処理方法、並びにプログラム Download PDF

Info

Publication number
WO2020012813A1
WO2020012813A1 PCT/JP2019/021304 JP2019021304W WO2020012813A1 WO 2020012813 A1 WO2020012813 A1 WO 2020012813A1 JP 2019021304 W JP2019021304 W JP 2019021304W WO 2020012813 A1 WO2020012813 A1 WO 2020012813A1
Authority
WO
WIPO (PCT)
Prior art keywords
analysis
language
information processing
result
unit
Prior art date
Application number
PCT/JP2019/021304
Other languages
English (en)
French (fr)
Inventor
亮介 三谷
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Publication of WO2020012813A1 publication Critical patent/WO2020012813A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification

Definitions

  • the present disclosure relates to an information processing device, an information processing method, and a program. More specifically, the present invention relates to an information processing apparatus for performing language analysis corresponding to multiple languages, an information processing method, and a program.
  • Patent Document 1 Japanese Patent Application Laid-Open No. 2002-19786 discloses that in translating a sentence mixed with a plurality of languages, a vocabulary sequence of a target language included in an analysis result of a source language is compared with a vocabulary part-of-speech information using a functional word as a mark.
  • a configuration for estimating the part of speech of a phrase including a target language vocabulary using a correspondence table to improve translation accuracy is disclosed.
  • the processing becomes impossible unless a target language phrase including a functional word appears in the original text.
  • many functional words are omitted, and the sentences that can be processed by the disclosed technology are limited, and there is a problem that it is difficult to respond to various inputs.
  • the present disclosure has been made in view of the above problems, regardless of the phrase structure of the input text, an information processing apparatus capable of correctly executing a linguistic analysis of a multilingual text including different languages, It is an object to provide an information processing method, and a program.
  • a first aspect of the present disclosure is: A language type analysis unit that determines a language type for each substring of the input text; Based on the analysis result of the language type analysis unit, for each language type included in the input text, sequentially has a language analysis execution unit that performs language analysis, The language analysis execution unit, There is an information processing apparatus that generates a final linguistic analysis result by using a linguistic analysis result of a pre-processed language type executed in advance for a subsequent linguistic analysis process corresponding to a different language type.
  • a second aspect of the present disclosure includes: An information processing method executed in the information processing apparatus, A language type analysis step of determining a language type by a substring unit of the input text, A language analysis execution unit, based on the analysis result of the language type analysis unit, for each language type included in the input text, sequentially executes a language analysis execution step of performing language analysis;
  • a third aspect of the present disclosure includes: A program for executing information processing in the information processing apparatus, A language type analysis step for causing the language type analysis unit to determine the language type for each substring of the input text; The language analysis execution unit, based on the analysis result of the language type analysis unit, for each language type included in the input text, sequentially executes a language analysis execution step of performing a language analysis, In the language analysis execution step, A program for generating a final linguistic analysis result by using a linguistic analysis result of a pre-processed language type executed in advance for a subsequent linguistic analysis process corresponding to a different language type.
  • the program of the present disclosure is, for example, a program that can be provided by a storage medium or a communication medium provided in a computer-readable format to an information processing device or a computer system that can execute various program codes.
  • a program that can be provided by a storage medium or a communication medium provided in a computer-readable format to an information processing device or a computer system that can execute various program codes.
  • processing according to the program is realized on an information processing device or a computer system.
  • system refers to a logical set of a plurality of devices, and is not limited to a device having each component in the same housing.
  • an apparatus and a method for performing high-precision linguistic analysis on a multilingual text composed of different types of languages are realized.
  • a language type analysis unit that determines the language type in units of partial character strings of the input text, and a language type sequentially included in the input text based on the analysis result of the language type analysis unit. It has a language analysis execution unit that executes analysis.
  • the linguistic analysis executing unit generates a final linguistic analysis result by using the linguistic analysis result of the pre-processed language type executed in advance for the subsequent linguistic analysis processing corresponding to different language types.
  • the language analysis execution unit executes at least one of morphological analysis, phrase analysis, syntax analysis, predicate term structure analysis, and semantic analysis as language analysis processing.
  • FIG. 1 is a diagram illustrating a configuration example of an information processing device according to the present disclosure.
  • FIG. 1 is a diagram illustrating a configuration example of an information processing device according to the present disclosure. It is a figure explaining an example of general language analysis processing.
  • FIG. 11 is a diagram illustrating an example of a process performed by the information processing device according to the present disclosure.
  • FIG. 11 is a diagram illustrating an example of a process performed by the information processing device according to the present disclosure.
  • FIG. 11 is a flowchart illustrating a sequence of a process performed by the information processing device according to the present disclosure.
  • FIG. 11 is a diagram illustrating an example of a process performed by the information processing device according to the present disclosure.
  • FIG. 3 is a diagram illustrating an example of a hardware configuration of an information processing device.
  • phrase analysis and syntax analysis which are language analysis processes other than morphological analysis, it is difficult to output a correct analysis result when a character string that does not appear in a corpus, dictionary, or the like is input.
  • the information processing device of the present disclosure described below determines a language type for each partial character string constituting an input text to be analyzed, and performs a language analysis using the determination result. This processing makes it possible to perform high-precision linguistic analysis on a document in a plurality of languages at low cost while utilizing existing linguistic analysis resources.
  • analysis processes are known as typical language analysis processes in natural language processing, which is an academic field that allows a computer to understand a document written by a human or an utterance input through a microphone.
  • A morphological analysis
  • phrase analysis c
  • syntax analysis d
  • predicate term structure analysis e
  • a conventional language analyzer that is designed to input and analyze a single language has only knowledge of the single language to be processed. Specifically, for example, it has only a single-language dictionary for executing the processes (a) to (e), a corpus which is systematic information for language analysis, and an analysis model. It is impossible to analyze other language data that is not registered in.
  • the dictionary held by the language analyzer and how to handle unknown words that are not registered in the corpus, which is systematic information for language analysis, may be handled by the execution application of the language analyzer using rules prescribed in advance. Many. Specifically, for example, a rule that all unknown words are processed as nouns is often applied. However, if such uniform rules are applied, it is difficult to obtain an optimal analysis result for all unknown words, which is one of the factors that lower the accuracy of practical natural language processing analysis.
  • the dictionary size explodes as the number of languages in the dictionary increases. Since texts containing foreign words are rarely recorded as a corpus, it is difficult to learn a consistent and appropriate analysis model. Since the part of speech used in the source language may be different from the part of speech used in the target language, different parts of speech are estimated by simple mapping. For example, these problems occur.
  • Step S11 In the language analysis processing in the information processing apparatus according to the present disclosure, language identification is performed in units of partial character strings in order to extract language information included in text to be analyzed. Specifically, for example, the following analysis is performed in units of partial character strings. (A) character type, (B) spelling, (C) Types of character strings before and after The language is analyzed to identify the language used in the text in units of partial character strings.
  • Language analysis target text I am Japanese chef.
  • the information processing device of the present disclosure I am / Japanese chef /.
  • the input text to be analyzed is delimited in units of partial character strings, and language type information is generated for each delimiter.
  • I [Japanese]
  • the language analysis is executed for each partial character string using the result of the above-described "(1) Language identification processing in units of partial character strings constituting data to be analyzed".
  • An example in which a morphological analysis process is performed on input data as an example of “(2) a process of sequentially performing a language analysis for each language type included in the analysis target data obtained as a result of the language identification process” Will be described.
  • the morphological analysis is performed in the order of steps S21 to S22 described below.
  • Step S21 a process of dividing the analysis target data into morphemes is executed.
  • Language analysis target text I am Japanese chef.
  • the information processing device of the present disclosure first divides the text into morphemes. For example, I / is / Japanese / chef /. / It is divided into morphemes divided by the above-mentioned delimiter (/).
  • Step S22 morphological analysis is sequentially performed for each language type included in the analysis target data obtained as a result of the previously executed “(1) language identification processing in units of partial character strings”.
  • step S22 morphological analysis is sequentially performed for each language type included in the text as the analysis target data.
  • the languages included in the text that is the analysis target data include Japanese and English. Therefore, for Japanese and English, morphological analysis, that is, part-of-speech identification processing for each morpheme, is performed sequentially using dictionaries corresponding to each language.
  • the morphological analysis using the Japanese dictionary and the morphological analysis using the English dictionary are sequentially executed. Which one is executed first is arbitrary.
  • step S22-1 English morpheme analysis is performed using an English dictionary (morphological analysis dictionary (analysis model)). Specifically, a part-of-speech identification process is executed. Then, in step S22-2, morphological analysis of Japanese morphemes is performed using a Japanese dictionary (morphological analysis dictionary (analysis model)).
  • Step S22-1 First, in step S22-1 the morpheme whose language is identified as English as a result of the previously executed “(1). Language identification processing in units of partial character strings” is written in an English dictionary (morphological analysis dictionary (analysis Perform morphological analysis using the model)). Japanese chef Perform these morphological analyzes.
  • the morphological analysis here is a process of specifying the part of speech for each morpheme.
  • a process of specifying the part of speech of an English morpheme is performed using a dictionary corresponding to the morphological language, that is, an English dictionary (morphological analysis dictionary (analysis model)).
  • Step S22-2 Next, in step S22-2, as a result of the previously executed “(1).
  • Language identification processing in units of partial character strings a Japanese dictionary (a morphological analysis dictionary) is used for morphemes whose language is identified as Japanese. (Analysis model)) to perform morphological analysis.
  • the part-of-speech information of the morpheme obtained as a result of the morphological analysis corresponding to the other language executed in advance is performed. Use (mapping) as it is. That is, in this example, the information obtained in the above step S22-1 is Japanese (English: adjective) chef (English: noun) The English part of speech information is used as it is.
  • a morphological analysis processing using an English dictionary (morphological analysis dictionary (analysis model)) is executed
  • a Japanese dictionary This is an example in which a morphological analysis process using a morphological analysis dictionary (analysis model) is executed.
  • Step S21 a process of dividing the analysis target data into morphemes is executed.
  • the analysis target data is classified in morpheme units as follows. You / need / a / slight / more / large / space / to / open / the / Japanese / sushi / restaurant /. /
  • Step S22 morphological analysis is sequentially performed for each language type included in the text as the analysis target data.
  • the languages included in the text to be analyzed include Japanese and English.
  • First, Japanese and then English are morphologically analyzed using the dictionary corresponding to each language, that is, the morphological analysis is performed.
  • a part-of-speech identification process is performed for each item.
  • Step S22-1 First, in step S22-1, morphological analysis is performed on a morpheme identified as having a language of Japanese using a Japanese dictionary (morphological analysis dictionary (analysis model)).
  • Step S22-2 morphological analysis is performed on a morpheme identified as having a language of English using an English dictionary (morphological analysis dictionary (analysis model)).
  • the morpheme obtained as a result of the preceding morphological analysis corresponding to another language is executed.
  • the information processing device performs partial translation on an example sentence (model) registered in a corpus, which is systematic information for language analysis, and generates model (example sentence) data generated based on the corpus in a multilingual format. It is also possible to adopt a configuration in which a plurality of example sentences (models) are extended and a language analysis of a text mixed with multiple languages is performed using a plurality of example sentences (models) corresponding to multiple languages. By performing language analysis using such a multilingual model, it is possible to accurately perform language analysis on mixed texts in a plurality of languages.
  • Example sentence An example of a model (example sentence) generated based on the corpus is shown below.
  • Basic model (example sentence) I / is / Japanese / of / cook / is /.
  • This basic model is a model (example sentence) generated based on a corpus to be applied to language analysis for Japanese.
  • the information processing apparatus performs partial translation on a model (example sentence) generated based on the corpus corresponding to Japanese to generate a plurality of example sentences (model) corresponding to multiple languages, Used for linguistic analysis of multilingual text.
  • FIG. 1 is a diagram illustrating a configuration example of an information processing device 100 according to the present disclosure.
  • an information processing device 100 according to the present disclosure includes an analysis data input unit 101, a partial character string unit language type analysis unit 102, a language type unit language analysis execution unit 103, and a language analysis engine 104.
  • the analysis data input unit 101 inputs data to be processed in the language analysis processing.
  • the analysis data input unit 101 may be configured to input text data itself, for example, or may be configured to perform a process of converting audio data input via a microphone into text data, for example.
  • the analysis data input unit 101 has a configuration having a voice recognition function.
  • the text data input by the analysis data input unit 101 or the generated text data is, for example, the following text data described above.
  • Text data I am Japanese chef.
  • the partial character string unit language type analysis unit 102 determines the language type of the data input from the analysis data input unit 101 for each partial character string.
  • the partial character string unit language type analysis unit 102 performs a process of determining the language type using the language type determination dictionary 111 shown in FIG.
  • language extraction is performed in units of partial character strings in order to extract language information included in the text to be analyzed.
  • the following analysis is performed for each partial character string.
  • the above data I am Japanese chef. Is input, the partial character string unit language type analysis unit 102 first I am / Japanese chef /. In this way, the input text to be analyzed is delimited in units of partial character strings, and language type information is generated for each delimiter.
  • the language type unit linguistic analysis execution unit 103 executes the above-described “(2) Process of sequentially executing linguistic analysis for each language type included in the analysis target data obtained as a result of the language identification process”. That is, the language analysis is sequentially performed in units of language types included in the analysis target data.
  • the above data I am Japanese chef. Is input, the input data includes Japanese and English, so that the language analysis process is sequentially performed for Japanese and English using dictionaries corresponding to each language.
  • the language analysis processing includes, for example, the following analysis processing.
  • the language type unit linguistic analysis execution unit 103 executes at least one of these (a) to (e) Perform language analysis processing.
  • Input data I am Japanese chef.
  • the language type unit language analysis execution unit 103 sets a delimiter for each morpheme as follows. I / is / Japanese / chef /. /
  • morphological analysis is performed using a dictionary corresponding to each language, that is, a part of speech for each morpheme is specified.
  • the above-described processing example is an example in which the language analysis process executed by the language type unit language analysis execution unit 103 is a morphological analysis process. There are analysis, syntax analysis, predicate term structure analysis, semantic analysis, and the like, and the language type unit language analysis execution unit 103 performs any of these processes.
  • the language type unit language analysis execution unit 103 executes a language analysis process using various language correspondence analysis models 121 to 123 together with the language analysis engine 104.
  • the language analysis model storage unit 120 stores language correspondence models corresponding to various language types (Japanese, English, etc.). These are model (example sentence) data generated based on a corpus which is systematic information for language analysis corresponding to each language.
  • the information processing apparatus 100b illustrated in FIG. 2 includes an analysis data input unit 101, a partial character string unit language type analysis unit 102, a language type unit language analysis execution unit 103, and a language analysis engine 104, similarly to the information processing apparatus 100 illustrated in FIG. Having.
  • the information processing apparatus 100b shown in FIG. 2 is characterized in that the model referred to by the language analysis engine 104 is a multilingual analysis model 156.
  • This multilingual analysis model 156 is data generated by the processing described in the item [2- (3) Generation and use processing of multilingual corpus and language analysis model] described above.
  • the first language corpus 151 shown in FIG. 2 is, for example, a corpus for applying to language analysis for Japanese, that is, a Japanese corpus.
  • the translation execution unit 152 uses the translation dictionary 153 to perform a partial translation process on the sentences included in the first language corpus 151, and generates a multilingual corpus 154.
  • I / is a cook / of / Japanese (noun) /.
  • I / is / Japanese / Chef (noun) /.
  • C I (pronoun) / is / Japanese / of / cook /.
  • the multilingual analysis model generation unit 155 uses the data stored in the multilingual corpus 154 to execute a language analysis process executed by the language type unit language analysis execution unit 103 or the language analysis engine 104, that is, a morphological analysis.
  • a multilingual analysis model 156 including model data having a data structure that can be used for analysis such as phrase analysis, syntax analysis, predicate term structure analysis, and semantic analysis is generated.
  • the language type unit language analysis execution unit 103 and the language analysis engine 104 of the information processing apparatus 100b illustrated in FIG. 2 use the multilingual analysis model 156 to execute a language analysis of input data mixed with multiple languages.
  • the configuration example shown in FIG. 2 is configured to generate and use only the multilingual analysis model 156.
  • the configuration example illustrated in FIG. 2 is configured to generate and use a multilingual dictionary, a corpus, and a language analysis model, respectively. Is also good.
  • Example of language analysis processing in a conventional device capable of processing only one language First, an example of language analysis processing in a conventional device capable of processing only one language will be described with reference to FIG.
  • the input text is Start with Korean (Hangul), The central part is Japanese, Termination is English, This is a multilingual text including these three languages.
  • the morphological analysis result (2) shown in FIG. 3 indicates a morphological analysis result using a Japanese dictionary.
  • the morphological analysis that is, the part-of-speech identification processing for each morpheme is performed accurately.
  • the (3) syntax analysis result shown in FIG. 3 indicates a syntax analysis result using a Japanese dictionary.
  • the syntax analysis is for analyzing the structure of a text. For example, S (sentence), NP (noun phrase), VP (verb phrase), PP (preposition phrase), N (noun), V (verb), ADJ (adjective), DET (article), PRER (preposition), and a process of assigning these labels to components of each text are performed.
  • the result is a parsing result using only the Japanese dictionary, and a correct parsing result is obtained only for the Japanese part. That is, In the player (PP: preposition phrase) It is.
  • the input text is Start with Korean (Hangul), The central part is Japanese, Termination is English, This is a multilingual text including these three languages.
  • the morphological analysis result (2) illustrated in FIG. 4 indicates a morphological analysis result obtained as a result of the language analysis process performed by the information processing apparatus illustrated in FIG. 1 or FIG. That is, it shows the result of the morphological analysis process executed by the language type unit language analysis execution unit 103 shown in FIG. 1 or FIG.
  • the language type unit linguistic analysis execution unit 103 shown in FIG. 1 or 2 sequentially executes the linguistic analysis for each language type included in the analysis target data.
  • the input text is a multi-language text that includes Korean (Hangul) at the beginning, Japanese at the center, and English at the end.
  • a language analysis process is performed using a dictionary corresponding to each language. As described above, at the time of the second and subsequent language analysis processing, the processing of mapping the already executed language analysis result for another language to the processing result of the language to be newly executed is also performed.
  • the (2) morphological analysis result illustrated in FIG. 4 is a result of the morphological analysis processing according to the processing of the present disclosure.
  • Korean Korean
  • an accurate part-of-speech identification process has been performed as a proper noun. This is the result of applying a Korean dictionary.
  • the language analysis for each language type included in the analysis target data is sequentially executed, and in the second and subsequent language analysis processes, the already executed language analysis for other languages is performed.
  • the process of mapping the result to the processing result of the language to be newly executed correct morphological analysis results for all languages can be obtained.
  • the (3) syntax analysis result illustrated in FIG. 4 indicates a syntax analysis result obtained as a result of the language analysis process performed by the information processing apparatus illustrated in FIG. 1 or FIG. That is, it shows the result of the syntax analysis process executed by the language type unit language analysis execution unit 103 shown in FIG. 1 or FIG.
  • the language type unit linguistic analysis execution unit 103 shown in FIG. 1 or 2 sequentially executes the linguistic analysis for each language type included in the analysis target data.
  • the input text is a multi-language text that includes Korean (Hangul) at the beginning, Japanese at the center, and English at the end.
  • a language analysis process is performed using a dictionary corresponding to each language. As described above, at the time of the second and subsequent language analysis processing, the processing of mapping the already executed language analysis result for another language to the processing result of the language to be newly executed is also performed.
  • the (3) syntax analysis result illustrated in FIG. 4 is a result of the syntax analysis process according to the process of the present disclosure.
  • NP Noun phrase
  • PP prepositional phrase
  • VP verb phrase
  • the language analysis for each language type included in the analysis target data is sequentially executed, and in the second and subsequent language analysis processes, the already executed language analysis for other languages is performed.
  • the processing of mapping the result to the processing result of the language to be newly executed correct parsing results for all languages can be obtained.
  • FIG. 5 is a diagram illustrating a processing example in the case where the morphological analysis and the semantic vinegar analysis are performed by applying the processing of the present disclosure.
  • FIG. 5 shows the following data.
  • Input text and language type analysis result (2) Morphological analysis result (3) Semantic analysis result
  • the input text is The first half is Korean (Hangul), The second half is Japanese, It is.
  • the input text and the language type analysis result indicate the language type of each partial character string obtained from the processing result in the partial character string unit language type analysis unit 102 of the information processing apparatus shown in FIGS.
  • the partial character string unit language type analysis unit 102 determines the type of language included in the data input by the analysis data input unit.
  • the (2) morphological analysis result and (3) semantic analysis result shown in FIG. 5 are the result of the linguistic analysis processing executed by the information processing apparatus shown in FIG. 1 or FIG. Is shown. That is, it shows the result of the morphological analysis process and the semantic analysis process executed by the language type unit language analysis execution unit 103 shown in FIG. 1 or FIG.
  • the morphological analysis result (2) illustrated in FIG. 5 is a result of the morphological analysis processing according to the processing of the present disclosure.
  • Korean Korean
  • accurate part-of-speech identification processing has been performed as a proper noun. This is the result of applying a Korean dictionary.
  • the language analysis for each language type included in the analysis target data is sequentially executed, and in the second and subsequent language analysis processes, the already executed language analysis for other languages is performed.
  • the process of mapping the result to the processing result of the language to be newly executed correct morphological analysis results for all languages can be obtained.
  • the (3) semantic analysis result illustrated in FIG. 5 indicates a semantic analysis result obtained as a result of the language analysis process performed by the information processing apparatus illustrated in FIG. 1 or FIG. That is, it shows the result of the semantic analysis processing executed in the language type unit language analysis execution unit 103 shown in FIG. 1 or FIG.
  • the language type unit linguistic analysis execution unit 103 shown in FIG. 1 or FIG. 2 sequentially executes the linguistic analysis for each language type included in the analysis target data.
  • the input text is multi-language text including the first half in Korean (Hangul) and the second half in Japanese, and these two languages.
  • Perform semantic analysis processing As described above, at the time of the second and subsequent semantic analysis processing, processing for mapping the already executed semantic analysis processing result for another language to the processing result of the language to be newly executed is also performed.
  • the language analysis for each language type included in the analysis target data is sequentially executed, and in the second and subsequent language analysis processes, the already executed language analysis for other languages is performed.
  • the process of mapping the result to the processing result of the language to be newly executed correct semantic analysis results for all languages can be obtained.
  • the processing according to the flowchart shown in FIG. 6 is executed, for example, according to a program stored in the storage unit of the information processing device. For example, it can be executed as a program execution process by a processor such as a CPU having a program execution function.
  • a processor such as a CPU having a program execution function.
  • Step S101 the information processing apparatus inputs data to be analyzed in the language analysis processing.
  • This process is a process executed by the analysis data input unit 101 of the information processing apparatus shown in FIGS.
  • the analysis data input unit 101 may be configured to input text data itself, for example.
  • the analysis data input unit 101 may be configured to convert audio data input via a microphone to text data. Good.
  • the analysis data input unit 101 has a configuration having a voice recognition function.
  • the text data input by the analysis data input unit 101 or the generated text data is input to the partial character string unit language type analysis unit 102.
  • Step S102 a language type analysis process is performed on the input text data in units of partial character strings.
  • This process is a process executed by the partial character string unit language type analysis unit 102 of the information processing apparatus shown in FIGS.
  • the partial character string unit language type analysis unit 102 determines the language type of the data input from the analysis data input unit 101 for each partial character string.
  • the partial character string unit language type analysis unit 102 performs a process of determining the language type using the language type determination dictionary 111 shown in FIGS.
  • step S103 it is determined whether or not the analysis target data includes character strings of a plurality of language types, as a result of the language type determination performed on a partial character string basis in the partial character string unit language type analysis unit 102. If the analysis target data includes character strings of a plurality of language types, the process proceeds to step S104. On the other hand, if the analysis target data does not include a character string of a plurality of language types and has only a single language, the process proceeds to step S111.
  • Step S111 is a process executed when the analysis target data does not include a character string of a plurality of language types and has only a single language in step S103.
  • step S111 a language analysis is performed by applying a language model or dictionary corresponding to a single language included in the analysis target data. This processing is similar to the conventional language analysis processing.
  • Step S104 to S106 Next, the processing of steps S104 to S106 will be described.
  • the processing of steps S104 to S106 is processing executed when the analysis target data includes character strings of a plurality of language types in step S103.
  • steps S104 to S106 is processing executed by the language type unit language analysis execution unit 103 of the information processing apparatus shown in FIGS.
  • the language type unit linguistic analysis execution unit 103 sequentially executes the linguistic analysis for each language type included in the analysis target data. That is, the language analysis using the dictionary or the model corresponding to the language is sequentially executed for each language type included in the analysis target data.
  • the language type unit language analysis execution unit 103 executes a language analysis process using various language correspondence analysis models 121 to 123 together with the language analysis engine 104.
  • the language analysis model storage unit 120 stores language correspondence models corresponding to various language types (Japanese, English, etc.). These are model (example sentence) data generated based on a corpus which is systematic information for language analysis corresponding to each language.
  • the language type unit language analysis execution unit 103 performs processing using the multilingual analysis model 156 together with the language analysis engine 104.
  • the multilingual analysis model 156 is generated using the data stored in the multilingual corpus 154 that stores the results of the partial translation processing of the sentences included in the first language corpus 151 shown in FIG. This is multilingual model data composed of model data.
  • the language type unit language analysis execution unit 103 sequentially executes the language analysis in the language type unit included in the analysis target data.
  • a process of mapping the already executed language analysis result for another language to the processing result of the language to be newly executed is executed. Through these processes, correct language analysis results for all languages are obtained.
  • step S106 when it is determined that all the language analysis for each language type included in the analysis target data has been completed, the process ends.
  • linguistic analysis By performing linguistic analysis according to this flow, even if the input data is a multilingual text composed of a plurality of different languages, in addition to linguistic analysis, that is, morphological analysis, phrase analysis, syntax analysis, and predicate terms Various language analysis such as structural analysis and semantic analysis can be executed with high accuracy.
  • FIG. 7 illustrates an example of a processing sequence of a language analysis process performed by the information processing device of the present disclosure when a plurality of different types of text are input.
  • the processing executed by the information processing apparatus of the present disclosure is shown as the following steps S1 to S5 in chronological order from the top.
  • Step S1 Text input
  • Step S3 Language discrimination of input text
  • Step S4 Linguistic analysis of monolingual text
  • Step S5 Multilingual text linguistic analysis
  • Step S1 The analysis data input unit 101 of the information processing apparatus first inputs a text to be analyzed.
  • a text to be analyzed.
  • Text 1 is a text consisting only of Japanese
  • text 2 is a mixed text of Japanese and English
  • text 3 is a text consisting only of English.
  • step S2 the partial character string unit language type analysis unit 102 executes language determination processing of the input text.
  • the partial character string unit language type analysis unit 102 executes a partial character string unit language type analysis process for each of the input texts 1 to 3.
  • text 1 is a Ja-type 1 text that is a text only in Japanese
  • text 2 is a Ja-type 2 text that is a text based on Japanese and includes another language (English)
  • text 3 is A text type indicating that the text is En-type 1 text that is English-only text is set.
  • the partial character string unit language type analysis unit 102 not only sets text type information for each text, but also sets language type information for each text partial character unit. I do.
  • the data in which the text type information and the language type information are set in units of partial character strings are input to the language type execution unit 103.
  • Step S3 First, in step S3, the language type unit language analysis execution unit 103 executes a language analysis process of a monolingual text.
  • the monolingual texts are text 1 that is text only in Japanese and text 3 that is text only in English.
  • FIG. 7 illustrates an example in which morphological analysis is performed as language analysis processing.
  • step S3 As a result of the processing in step S3, as shown in (B) specific data of FIG. 7 (S3), a part-of-speech specifying process is performed on a morpheme unit for texts 1 and 3, which are monolingual texts. That is, the following processing results are obtained.
  • the above processing result is a result in which part-of-speech information is set in morpheme units only for the texts 1 and 3 which are monolingual texts, and the processing is not performed for the text 2 mixed with a plurality of languages.
  • step S4 the language type unit language analysis execution unit 103 performs a language analysis process on the multilingual text. That is, a language analysis process is performed on text 2 which is text mixed with a plurality of languages.
  • the text 2 is a multilingual text consisting of Japanese and English, and the language analysis processing of the text 2 is performed.
  • This processing corresponds to the processing of steps S104 to S106 of the flow described above with reference to FIG. 6, and is a language analysis processing unique to the information processing apparatus of the present disclosure.
  • the language type unit linguistic analysis execution unit 103 sequentially executes the linguistic analysis for each language type included in the analysis target data. That is, the language analysis using the dictionary or the model corresponding to the language is sequentially executed for each language type included in the analysis target data.
  • the language type unit language analysis execution unit 103 executes a language analysis process using various language correspondence analysis models 121 to 123 together with the language analysis engine 104.
  • the language analysis model storage unit 120 stores language correspondence models corresponding to various language types (Japanese, English, etc.). These are model (example sentence) data generated based on a corpus which is systematic information for language analysis corresponding to each language.
  • the language type unit language analysis execution unit 103 performs processing using the multilingual analysis model 156 together with the language analysis engine 104.
  • the multilingual analysis model 156 is generated using the data stored in the multilingual corpus 154 that stores the results of the partial translation processing of the sentences included in the first language corpus 151 shown in FIG. This is multilingual model data composed of model data.
  • the language type unit language analysis execution unit 103 sequentially executes the language analysis of each language unit of Japanese and English, which are the language types included in the text 2.
  • step S4 As a result of the processing in step S4, as shown in (B) specific data of FIG. 7 (S4), a part-of-speech specifying process in morpheme units is performed on text 2 which is a multilingual text in Japanese and English. .
  • the following processing result is obtained including the processing result of step S3.
  • step S5 the language type unit language analysis execution unit 103 executes a process of mapping the language analysis result of the multilingual text to the analysis result of one language.
  • the multilingual text is text 2 composed of Japanese and English, and a process of mapping the result of language analysis of this text 2 to the result of analysis in one language, in this example, the result of analysis in Japanese is executed. That is, a mapping process is performed in which the part of speech information obtained as a result of the morphological analysis in English is directly used as a result of the morphological analysis in Japanese.
  • the processing of the present disclosure even if the input data is a multilingual text composed of a plurality of different languages, in addition to language analysis, that is, morphological analysis, phrase analysis, syntax analysis.
  • language analysis that is, morphological analysis, phrase analysis, syntax analysis
  • various language analyzes such as predicate term structure analysis and semantic analysis can be executed with high accuracy.
  • FIG. 8 is an example of the hardware configuration of the information processing apparatus described above with reference to FIGS.
  • the CPU (Central Processing Unit) 301 functions as a control unit and a data processing unit that execute various processes according to programs stored in a ROM (Read Only Memory) 302 or a storage unit 308. For example, the processing according to the sequence described in the above embodiment is executed.
  • a RAM (Random Access Memory) 303 stores programs executed by the CPU 301, data, and the like.
  • the CPU 301, the ROM 302, and the RAM 303 are interconnected by a bus 304.
  • the CPU 301 is connected to an input / output interface 305 via a bus 304.
  • the input / output interface 305 is connected to an input unit 306 including various switches, a keyboard, a mouse, a microphone, and a sensor, and an output unit 307 including a display and a speaker. Have been.
  • the CPU 301 executes various processes in response to a command input from the input unit 306, and outputs a processing result to, for example, the output unit 307.
  • the storage unit 308 connected to the input / output interface 305 includes, for example, a hard disk and stores programs executed by the CPU 301 and various data.
  • the communication unit 309 functions as a transmission / reception unit for Wi-Fi communication, Bluetooth (registered trademark) (BT) communication, and other data communication via a network such as the Internet or a local area network, and communicates with an external device.
  • the drive 310 connected to the input / output interface 305 drives a removable medium 311 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory such as a memory card to record or read data.
  • a removable medium 311 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory such as a memory card to record or read data.
  • the technology disclosed in the present specification can have the following configurations.
  • the language analysis execution unit includes: (1) The information processing apparatus according to (1), wherein the information processing apparatus executes a mapping process that directly uses a language analysis result of a preceding processing language type that has been executed in advance.
  • the language analysis execution unit includes: When the input text includes substrings of a plurality of different languages, The information processing apparatus according to (1) or (2), wherein the language analysis processing is executed first from the language having a small number of partial character strings corresponding to each language.
  • the language analysis execution unit includes: The information processing apparatus according to any one of (1) to (3), wherein at least one of morphological analysis, phrase analysis, syntax analysis, predicate term structure analysis, and semantic analysis is executed as the language analysis processing.
  • the language analysis execution unit includes: The information processing according to any one of (1) to (4), wherein for each language type included in the input text, a language analysis is sequentially performed using a dictionary, a corpus, or a language analysis model for each language. apparatus.
  • the language analysis execution unit includes: The information processing apparatus according to any one of (1) to (4), wherein in the language analysis processing for each language type included in the input text, a language analysis is performed using a language-compatible analysis model that supports multiple languages.
  • the language analysis execution unit includes: In the language analysis processing for each language type included in the input text, language analysis is performed using at least one of a multilingual dictionary, a corpus, and a language-compatible analysis model (1) to (4).
  • An information processing device according to any one of the above.
  • An information processing method executed by the information processing apparatus A language type analysis step of determining a language type by a substring unit of the input text, A language analysis execution unit, based on the analysis result of the language type analysis unit, for each language type included in the input text, sequentially executes a language analysis execution step of performing language analysis;
  • a program for causing an information processing device to execute information processing A language type analysis step for causing the language type analysis unit to determine the language type for each substring of the input text;
  • the language analysis execution unit based on the analysis result of the language type analysis unit, for each language type included in the input text, sequentially executes a language analysis execution step of performing a language analysis,
  • the series of processes described in the specification can be executed by hardware, software, or a combined configuration of both.
  • the program recording the processing sequence is installed in a memory in a computer embedded in dedicated hardware and executed, or the program is stored in a general-purpose computer capable of executing various processing. It can be installed and run.
  • the program can be recorded in a recording medium in advance.
  • the program can be received via a network such as a LAN (Local Area Network) or the Internet and installed on a recording medium such as a built-in hard disk.
  • a system is a logical set configuration of a plurality of devices, and is not limited to a device having each configuration in the same housing.
  • a language type analysis unit that determines the language type in units of partial character strings of the input text, and a language type sequentially included in the input text based on the analysis result of the language type analysis unit. It has a language analysis execution unit that executes analysis. The linguistic analysis executing unit generates a final linguistic analysis result by using the linguistic analysis result of the pre-processed language type executed in advance for the subsequent linguistic analysis processing corresponding to different language types.
  • the language analysis execution unit executes at least one of morphological analysis, phrase analysis, syntax analysis, predicate term structure analysis, and semantic analysis as language analysis processing.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

異なる種類の言語から構成される多言語テキストに対する高精度な言語解析を実行する装置、方法を実現する。入力テキストの部分文字列単位で言語種類を判別する言語種類解析部と、言語種類解析部の解析結果に基づいて、入力テキストに含まれる言語種類ごとに、順次、言語解析を実行する言語解析実行部を有する。言語解析実行部は、先行して実行した先行処理言語種類の言語解析結果を、後続の異なる言語種類対応の言語解析処理に利用して、最終的な言語解析結果を生成する。言語解析実行部は、言語解析処理として、形態素解析、句解析、構文解析、述語項構造解析、意味解析の少なくともいずれかを実行する。

Description

情報処理装置、および情報処理方法、並びにプログラム
 本開示は、情報処理装置、および情報処理方法、並びにプログラムに関する。さらに詳細には、多言語対応の言語解析を行う情報処理装置、および情報処理方法、並びにプログラムに関する。
 従来の多くの言語解析装置は、特定の一つの言語、例えば、日本語、あるいは英語等、1つの言語のみから構成される文を解析対象とした処理を行う装置として構成されている。そのため、処理対象となる一つの言語以外の言語が入力された場合は、正しい言語解析を行うことができない。
 例えば、複数言語混じりのテキストを解析の対象にする場合、単一言語の入力しか想定していないシステムでは正しい解析結果を出すことは困難である。例えば、形態素解析を例にすると、想定した言語以外の入力文字列は解析辞書に記載されていない場合、未知の形態素とみなされてしまい、各形態素に対して正しい品詞情報を付与することができない。形態素解析以外の言語解析である句解析や構文解析においても、コーパスや辞書等に出現しない言語で記述された文字列に対しては、正しい解析結果を出力することは困難である。
 なお、特許文献1(特開2002-197086号公報)は、複数言語混じり文の翻訳において、原言語の解析結果に含まれる目的言語の語彙系列に対し、機能語を目印にした語彙品詞情報の対応表を用いて、目的言語語彙を含む句の品詞を推定して翻訳精度の向上を行う構成を開示している。
 しかし、この処理では、原文中から機能語を含む目的言語句が出現しなければ処理が不可能になる。実際の文書では機能語が省略されているものも多く、この開示技術で処理可能な文は限定されてしまい、様々な入力に対応することが困難であるという問題がある。
特開2002-197086号公報
 本開示は、例えば、上記問題点に鑑みてなされたものであり、入力テキストの句構造に関わらず、異なる言語を含む多言語テキストの言語解析を正しく実行することを可能とした情報処理装置、および情報処理方法、並びにプログラムを提供することを目的とする。
 本開示の第1の側面は、
 入力テキストの部分文字列単位で言語種類を判別する言語種類解析部と、
 前記言語種類解析部の解析結果に基づいて、前記入力テキストに含まれる言語種類ごとに、順次、言語解析を実行する言語解析実行部を有し、
 前記言語解析実行部は、
 先行して実行した先行処理言語種類の言語解析結果を、後続の異なる言語種類対応の言語解析処理に利用して、最終的な言語解析結果を生成する情報処理装置にある。
 さらに、本開示の第2の側面は、
 情報処理装置において実行する情報処理方法であり、
 言語種類解析部が、入力テキストの部分文字列単位で言語種類を判別する言語種類解析ステップと、
 言語解析実行部が、前記言語種類解析部の解析結果に基づいて、前記入力テキストに含まれる言語種類ごとに、順次、言語解析を実行する言語解析実行ステップを実行し、
 前記言語解析実行ステップにおいては、
 先行して実行した先行処理言語種類の言語解析結果を、後続の異なる言語種類対応の言語解析処理に利用して、最終的な言語解析結果を生成する情報処理方法にある。
 さらに、本開示の第3の側面は、
 情報処理装置において情報処理を実行させるプログラムであり、
 言語種類解析部に、入力テキストの部分文字列単位で言語種類を判別させる言語種類解析ステップと、
 言語解析実行部に、前記言語種類解析部の解析結果に基づいて、前記入力テキストに含まれる言語種類ごとに、順次、言語解析を実行させる言語解析実行ステップを実行させ、
 前記言語解析実行ステップにおいては、
 先行して実行した先行処理言語種類の言語解析結果を、後続の異なる言語種類対応の言語解析処理に利用して、最終的な言語解析結果を生成させるプログラムにある。
 なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。
 本開示のさらに他の目的、特徴や利点は、後述する本開示の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
 本開示の一実施例の構成によれば、異なる種類の言語から構成される多言語テキストに対する高精度な言語解析を実行する装置、方法が実現される。
 具体的には、例えば、入力テキストの部分文字列単位で言語種類を判別する言語種類解析部と、言語種類解析部の解析結果に基づいて、入力テキストに含まれる言語種類ごとに、順次、言語解析を実行する言語解析実行部を有する。言語解析実行部は、先行して実行した先行処理言語種類の言語解析結果を、後続の異なる言語種類対応の言語解析処理に利用して、最終的な言語解析結果を生成する。言語解析実行部は、言語解析処理として、形態素解析、句解析、構文解析、述語項構造解析、意味解析の少なくともいずれかを実行する。
 本構成により、異なる種類の言語から構成される多言語テキストに対する高精度な言語解析を実行する装置、方法が実現される。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。
本開示の情報処理装置の構成例について説明する図である。 本開示の情報処理装置の構成例について説明する図である。 一般的な言語解析処理例について説明する図である。 本開示の情報処理装置の実行する処理の一例について説明する図である。 本開示の情報処理装置の実行する処理の一例について説明する図である。 本開示の情報処理装置の実行する処理のシーケンスについて説明するフローチャートを示す図である。 本開示の情報処理装置の実行する処理の一例について説明する図である。 情報処理装置のハードウェア構成例について説明する図である。
 以下、図面を参照しながら本開示の情報処理装置、および情報処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行なう。
 1.情報処理装置の実行する処理の概要について
 2.本開示の情報処理装置において実行する言語解析処理について
 2-(1)解析対象データを構成する部分文字列単位の言語識別処理について
 2-(2)言語識別処理結果として得られた解析対象データに含まれる言語種類単位の言語解析を順次、実行する処理について
 2-(3)多言語対応のコーパスと言語解析モデルの生成と利用処理
 3.本開示の情報処理装置の構成例について
 4.本開示の情報処理装置を利用した言語解析処理の具体例について
 5.本開示の情報処理装置が実行する処理のシーケンスについて
 6.複数の異なるタイプのテキストに対する言語解析処理例について
 7.情報処理装置のハードウェア構成例について
 8.本開示の構成のまとめ
  [1.情報処理装置の実行する処理の概要について]
 前述したように、従来の多くの言語解析装置は、特定の一つの言語、例えば、日本語、あるいは英語等、1つの言語のみを解析することはできるが、処理対象として許容される一つの言語以外の言語が入力された場合は、正しい言語解析を行うことができない。
 例えば、言語解析装置が形態素解析処理を行う場合、複数言語混じりのテキストが装置に入力されると、装置が保持する解析辞書に記載されていない文字列は未知語とみなされてしまい本来の品詞が何かを特定することができず、不完全な形態素解析結果が出力されてしまう。形態素解析以外の言語解析処理である句解析や構文解析においても、コーパスや辞書等に出現しない文字列が入力された場合、正しい解析結果を出力することは困難である。
 以下に説明する本開示の情報処理装置は、解析対象となる入力テキストを構成する部分文字列単位で言語種類を判定し、この判定結果を利用した言語解析を行う。この処理により、既存の言語解析リソースを活用しながら、低コストに複数言語混じりの文書に対して高精度な言語解析が可能となる。
 人間が書いた文書や、マイクを介して入力する発話等をコンピュータに理解させる学術分野である自然言語処理における代表的な言語解析処理として、以下のような解析処理が知られている。
 (a)形態素解析
 (b)句解析
 (c)構文解析
 (d)述語項構造解析
 (e)意味解析
 これまでの一般的な言語解析処理では、単一の言語を入力して解析することを想定している。そのために、例えば、以下のようなデータ、すなわち、
 (1)語学学習中のユーザが母国語と、学習中の言語を混在させて発話したユーザ発話データ、
 (2)医学用語等の専門用語等の外来語が頻出するようなテキストデータ、
 (3)他言語の文字列を出力に含む音声認識結果データ、
 これら1つの文に複数の言語が混在するデータを言語解析装置に入力しても正しい解析結果を出力することができない。
 単一の言語を入力して解析することを想定している従来型の言語解析装置は、処理対象とする単一言語の知識しか有していない。
 具体的には例えば、上記(a)~(e)の処理を実行するための単一言語対応の辞書や、言語解析用体系的情報であるコーパスや、解析モデルしか有しておらず、これらに登録されていない他言語データについては解析が不可能となる。
 言語解析装置が保持する辞書や、言語解析用体系的情報であるコーパスに登録されていない未知語をどう扱うかは、言語解析装置の実行アプリケーションが予め規定したルールを用いて処理される場合が多い。
 具体的には、例えば、未知語はすべて名詞として処理するといったルールを適用することが多い。
 しかし、このような一律のルールを適用すると、すべての未知語に対する最適な解析結果を得ることは難しく、実際的な自然言語処理解析の精度低下の要因の1つとなっている。
 また、未知語の数を減らす方法として、単一言語対応のシステムに対して、その他言語の情報を網羅的に装置の利用可能な辞書に登録しておく方法がある。
 例えば、「遊ぶ」を意味する言葉として、辞書に以下のようなテキストと品詞との対応情報を予め登録しておく。
 play-動詞
 玩-動詞
 spielen-動詞
 しかし、このようなデータを辞書に登録する場合、以下のような問題が発生する。
 辞書に収録する言語数が増えるごとに辞書サイズが爆発的に膨張する。
 外来語混じりのテキストはコーパスとして収録されることが稀であるために,一貫性のある適当な解析モデルを学習することが困難となる。
 原言語側で使われている品詞と、目的言語側で使われる場合の品詞が異なる場合があるため、単純なマッピングでは異なる品詞を推定してしまう。
 例えばこれらの問題が生じる。
  [2.本開示の情報処理装置において実行する言語解析処理について]
 次に、本開示の情報処理装置において実行する言語解析処理について説明する。
 本開示の情報処理装置における言語解析処理では、少なくとも以下の処理のいずれかを実行する。
 (1)解析対象データを構成する部分文字列単位の言語識別処理
 (2)言語識別処理結果として得られた解析対象データに含まれる言語種類単位の言語解析を順次、実行する処理
 (3)多言語対応のコーパスと言語解析モデルの生成と利用処理
 以下、これらの各処理について順次、説明する。
  [2-(1)解析対象データを構成する部分文字列単位の言語識別処理について]
 まず、本開示の情報処理装置において実行する「(1)解析対象データを構成する部分文字列単位の言語識別処理」について説明する。
 「(1)解析対象データを構成する部分文字列単位の言語識別処理」では、以下のステップS11の処理を実行する。
  (ステップS11)
 本開示の情報処理装置における言語解析処理では、解析対象となるテキスト中に含まれる言語の情報を抽出するために、部分文字列単位の言語識別を行う。具体的には、例えば、部分文字列単位で以下の解析を実行する。
 (a)文字種、
 (b)つづり、
 (c)前後の文字列の種類
 これらを解析して、テキスト中で使用されている言語を部分文字列単位で識別する。
 具体例を以下に示す。
 言語解析対象テキスト=わたしはJapanese chefです。
 このようなテキストが入力された場合、本開示の情報処理装置は、
 わたしは/Japanese chef/です。
 このように、解析対象となる入力テキストを、部分文字列単位で区切りを設定し、各区切り単位の言語種類情報を生成する。
 わたしは=[日本語]
 Japanese chef=[英語]
 です。=[日本語]
  [2-(2)言語識別処理結果として得られた解析対象データに含まれる言語種類単位の言語解析を順次、実行する処理について]
 次に、本開示の情報処理装置において実行する「(2)言語識別処理結果として得られた解析対象データに含まれる言語種類単位の言語解析を順次、実行する処理」について説明する。
 上記の「(1)解析対象データを構成する部分文字列単位の言語識別処理」の結果を用いて,部分文字列ごとに言語解析を実行する。
 以下に、「(2)言語識別処理結果として得られた解析対象データに含まれる言語種類単位の言語解析を順次、実行する処理」の一例として、入力データに対して形態素解析処理を実行する例について説明する。形態素解析は、以下に示すステップS21~S22の順に実行する。
  (ステップS21)
 ステップS21では、解析対象データを形態素に分割する処理を実行する。
 以下、具体的な処理例について説明する。
 言語解析対象テキスト=わたしはJapanese chefです。
 このようなテキストが入力された場合、本開示の情報処理装置は、まず、上記テキストを形態素に分割する。
 例えば、
  私/は/Japanese/chef/です/。/
 上記区切り(/)で区分された形態素に分割する。
  (ステップS22)
 ステップS22では、先に実行した「(1)部分文字列単位の言語識別処理」の結果として得られた解析対象データに含まれる言語種類単位で形態素解析を順次、実行する。
 上記「(1)部分文字列単位の言語識別処理」の結果は、
 わたしは=[日本語]
 Japanese chef=[英語]
 です。=[日本語]
 であり、このテキストには、日本語と英語が含まれていることが言語識別処理結果として出力されている。
 ステップS22では、解析対象データであるテキストに含まれる言語種類単位で形態素解析を順次、実行する。
 本例では、解析対象データであるテキストに含まれる言語には日本語と英語が含まれる。
 従って、日本語と、英語について、順次、各言語対応の辞書を用いて形態素解析、すなわち形態素ごとの品詞の特定処理を実行する。
 ここでは、日本語辞書を用いた形態素解析と、英語辞書を用いた形態素解析をシーケンシャルに実行することになる。
 どちらを先に実行するかは任意であるが、ここでは一例として解析対象データに含まれる形態素の数が少ない方の言語(=小さい言語クラスタ)を先に実行する例について説明する。
 ステップS21における形態素の分割処理の結果として、
 解析対象データ=私/は/Japanese/chef/です/。/
 これらの形態素分割がなされている。
 /私/は/です/。/:これらの4つの形態素は日本語であり、
 /Japanese/chef/:これらの2つの形態素が英語である。
 英語の形態素の数が日本語の形態素の数より少ないので、まず、ステップS22-1で、英語辞書(形態素解析辞書(解析モデル))を用いて、英語の形態素の形態素解析を行う。具体的には品詞の特定処理を実行する。その後、ステップS22-2で、日本語辞書(形態素解析辞書(解析モデル))を用いて、日本語の形態素の形態素解析を行う。
 (ステップS22-1)
 まず、ステップS22-1において、先に実行した「(1).部分文字列単位の言語識別処理」の結果として、言語が英語であると識別された形態素について、英語辞書(形態素解析辞書(解析モデル))を用いて形態素解析を実行する。
 Japanese
 chef
 これらの形態素解析を実行する。ここでの形態素解析は、形態素ごとの品詞の特定処理である。このステップの形態素解析では、形態素の言語に対応する辞書、すなわち英語辞書(形態素解析辞書(解析モデル))を用いて英語の形態素の品詞を特定する処理を実行する。
 言語が英語であると識別された形態素についての形態素解析結果として以下の解析結果が得られる。
 Japanese(英語:形容詞)
 chef(英語:名詞)
 (ステップS22-2)
 次に、ステップS22-2において、先に実行した「(1).部分文字列単位の言語識別処理」の結果として、言語が日本語であると識別された形態素について日本語辞書(形態素解析辞書(解析モデル))を用いて形態素解析を実行する。
 なお、解析対象データに含まれる言語種類に基づく形態素解析シーケンスの2番目以降の言語種類対応の形態素解析では、先行して実行した他の言語対応の形態素解析結果として得られた形態素の品詞情報をそのまま利用(マッピング)する。
 すなわち、本例では、上記のステップS22-1で得られた、
 Japanese(英語:形容詞)
 chef(英語:名詞)
 これらの英語の品詞情報をそのまま利用する。
 日本語辞書(形態素解析辞書(解析モデル))を用いた形態素解析処理を行うと、上記のJapanese、chefは未知語として識別されてしまう。これらの未知語については、先に実行した上記の(ステップS22-1)において出力した解析結果、すなわち解析結果として得られた品詞情報をそのまま利用(マッピング)する。
 日本語辞書(形態素解析辞書(解析モデル))を用いた形態素解析処理の結果と、上記のステップS22-1で得られた英語辞書(形態素解析辞書(解析モデル))を用いた形態素解析処理の結果を合せることで以下の結果が得られる。
 私(名詞)
 は(助詞)
 Japanese(英語:形容詞→日本語:形容詞)
 chef(英語:名詞→日本語:名詞)
 です(助動詞)
 。(句点)
 上記形態素解析結果中、
 Japanese(英語:形容詞→日本語:形容詞)
 chef(英語:名詞→日本語:名詞)
 これらは、日本語辞書(形態素解析辞書(解析モデル))を用いた形態素解析処理においては、日本語ではなく未知語であると解釈されるが、先に実行したステップS22-1の英語辞書(形態素解析辞書(解析モデル))を用いた形態素解析処理の結果をそのまま利用する。
 上述した処理例は、形態素解析処理の最初のステップS22-1で、英語辞書(形態素解析辞書(解析モデル))を用いた形態素解析処理を実行し、次のステップS22-2で日本語辞書(形態素解析辞書(解析モデル))を用いた形態素解析処理を実行した例である。
 次に、この逆のシーケンス、すなわち先に日本語辞書(形態素解析辞書(解析モデル))を用いた形態素解析処理を実行し、その後に英語辞書(形態素解析辞書(解析モデル))を用いた形態素解析処理を実行する処理例について説明する。
 解析対象データ= You need a 少し more large space to open the Japanese 寿司 restaurant.
 とする。
  (ステップS11)
 まず、ステップS11で、部分文字列単位で区切りを設定し、各区切り単位の言語種類情報を生成する。
 You need a=[英語]
 少し=[日本語]
 more large space to open the Japanese=[英語]
 寿司=[日本語]
 restaurant=[英語]
  (ステップS21)
 ステップS21では、解析対象データを形態素に分割する処理を実行する。
 解析対象データは、以下のように形態素単位で区分される。
 You/need/a/少し/more/large/space/to/open/the/Japanese/寿司/restaurant/./
  (ステップS22)
 ステップS22では、解析対象データであるテキストに含まれる言語種類単位で形態素解析を順次、実行する。
 本例では、解析対象データであるテキストに含まれる言語には日本語と英語が含まれるが、最初に日本語、次に英語について、順次、各言語対応の辞書を用いて形態素解析、すなわち形態素ごとの品詞の特定処理を実行する。
 (ステップS22-1)
 まず、ステップS22-1において、言語が日本語であると識別された形態素について、日本語辞書(形態素解析辞書(解析モデル))を用いて形態素解析を実行する。
 この処理の結果として、以下の結果が得られる。
 少し(日本語:副詞)
 寿司(日本語:名詞)
 (ステップS22-2)
 次に、ステップS22-2において、言語が英語であると識別された形態素について英語辞書(形態素解析辞書(解析モデル))を用いて形態素解析を実行する。
 なお、前述したように解析対象データに含まれる言語種類に基づく形態素解析シーケンスの2番目以降の言語種類対応の形態素解析では、先行して実行した他の言語対応の形態素解析結果として得られた形態素の品詞情報をそのまま利用(マッピング)する。
 すなわち、本例では、上記のステップS22-1で得られた、
 少し(日本語:副詞)
 寿司(日本語:名詞)
 これらの日本語の品詞情報をそのまま利用する。
 英語辞書(形態素解析辞書(解析モデル))を用いた形態素解析処理を行うと、上記の「少し」、「寿司」は未知語として識別されてしまう。これらの未知語については、先に実行した上記の(ステップS22-1)において出力した解析結果、すなわち解析結果として得られた品詞情報をそのまま利用する。
 英語辞書(形態素解析辞書(解析モデル))を用いた形態素解析処理の結果と、上記のステップS22-1で得られた日本語辞書(形態素解析辞書(解析モデル))を用いた形態素解析処理の結果を合せることで以下の結果が得られる。
 You(代名詞)
 need(動詞)
 a(冠詞)
 少し(日本語:副詞→英語:副詞)
 more(副詞)
 large(形容詞)
 space(名詞)
 to(前置詞)
 open(動詞)
 the(冠詞)
 Japanese(形容詞)
 寿司(日本語:名詞→英語:名詞)
 restaurant(名詞)
 .(記号)
 このように本開示の言語解析処理では、
 (1)解析対象データを構成する部分文字列単位の言語識別処理
 (2)言語識別処理結果として得られた解析対象データに含まれる言語種類単位の言語解析を順次、実行する処理
 これらの処理を実行することで、解析対象データに含まれるすべての形態素の形態素解析を確実に実行することが可能となる。
  [2-(3)多言語対応のコーパスと言語解析モデルの生成と利用処理について]
 次に、本開示の情報処理装置が生成して利用する多言語対応のコーパスと言語解析モデルの生成と利用処理について説明する。
 本開示の情報処理装置は、言語解析用体系的情報であるコーパスに登録される例文(モデル)に部分的な翻訳を実施し、コーパスに基づいて生成するモデル(例文)データを多言語対応の複数の例文(モデル)に拡張して、多言語対応の複数の例文(モデル)を利用して多言語混じりのテキストの言語解析を実行する構成としてもよい。
 このような多言語対応のモデルを利用して言語解析を行うことで、複数言語の混在テキストに対する言語解析を正確に行うことが可能となる。
 コーパスに基づいて生成するモデル(例文)の例を以下に示す。
 基本モデル(例文)=私/は/日本人/の/料理人/です/。
 この基本モデルは、日本語を対象とした言語解析に適用するためのコーパスに基づいて生成されるモデル(例文)である。
 本開示の情報処理装置は、この日本語対応のコーパスに基づいて生成されるモデル(例文)に対して部分的な翻訳を実施して多言語対応の複数の例文(モデル)を生成して、多言語混じりのテキストに対する言語解析に利用する。
 例えば、上記の「基本モデル(例文)=私/は/日本人/の/料理人/です/。」
 この基本モデル(例文)に基づいて、以下の複数の拡張されたモデル(例文)を生成する。
 (a)私/は/Japanese(名詞)/の料理人/です。
 (b)私/は/日本人の/Chef(名詞)/です。
 (c)I(代名詞)/は/日本人/の/料理人/です。

 上記(a)~(c)は、上記の「基本モデル(例文)=私/は/日本人/の/料理人/です/。」に対して、部分的翻訳(日本語から英語)を行ったモデル(例文)である。このようなモデル(例文)を生成して利用可能とすることで、多言語混じりのテキストに対する言語解析の精度を高めることが可能となる。
  [3.本開示の情報処理装置の構成例について]
 次に、図1を参照して本開示の情報処理装置の構成例について説明する。
 図1は、本開示の情報処理装置100の一構成例を示す図である。
 図1に示すように、本開示の情報処理装置100は、解析データ入力部101、部分文字列単位言語種類解析部102、言語種類単位言語解析実行部103、言語解析エンジン104を有する。
 解析データ入力部101は、言語解析処理の処理対象となるデータを入力する。なお、解析データ入力部101は、例えばテキストデータ自体を入力する場合と構成としてもよいが、例えばマイクを介して入力した音声データをテキストデータに変換する処理を行う構成としてもよい。この場合、解析データ入力部101は、音声認識機能を有する構成となる。
 解析データ入力部101が入力したテキストデータ、または生成したテキストデータは、例えば、先に説明した以下のようなテキストデータである。
 テキストデータ=私はJapanese chefです。
 部分文字列単位言語種類解析部102は、解析データ入力部101から入力したデータについて、部分文字列単位で言語の種類を判別する。部分文字列単位言語種類解析部102は、図1に示す言語種類判別辞書111を利用して、言語の種類を判別する処理を行う。
 具体的には、先に説明したように解析対象となるテキスト中に含まれる言語の情報を抽出するために、部分文字列単位の言語識別を行う。例えば、部分文字列単位で以下の解析を実行する。
 (a)文字種、
 (b)つづり、
 (c)前後の文字列の種類
 これらを解析して、テキスト中で使用されている言語を部分文字列単位で識別する。
 上記のデータ=私はJapanese chefです。が入力された場合、部分文字列単位言語種類解析部102は、まず、
 わたしは/Japanese chef/です。
 このように、解析対象となる入力テキストを、部分文字列単位で区切りを設定し、各区切り単位の言語種類情報を生成する。
 わたしは=[日本語]
 Japanese chef=[英語]
 です。=[日本語]
 言語種類単位言語解析実行部103は、前述した「(2)言語識別処理結果として得られた解析対象データに含まれる言語種類単位の言語解析を順次、実行する処理」を実行する。
 すなわち、解析対象データに含まれる言語種類単位の言語解析を順次、実行する。
 例えば、上記のデータ=私はJapanese chefです。
 が入力された場合、この入力データには、日本語と英語が含まれるので、日本語と、英語について、順次、各言語対応の辞書を用いて言語解析処理を実行する。
 なお、言語解析処理には、例えば、以下の解析処理がある。
 (a)形態素解析
 (b)句解析
 (c)構文解析
 (d)述語項構造解析
 (e)意味解析
 言語種類単位言語解析実行部103は、これら(a)~(e)の少なくともいずれかの言語解析処理を実行する。
 先に説明した処理例と同様の形態素解析を行う場合の処理例について説明する。
 入力データ=私はJapanese chefです。
 この入力データに対して、言語種類単位言語解析実行部103は、以下のように形態素単位で区切りを設定する。
 私/は/Japanese/chef/です/。/
 次に、日本語と、英語について、順次、各言語対応の辞書を用いて形態素解析、すなわち形態素ごとの品詞の特定処理を実行する。
 まず、解析対象データに含まれる形態素の数が少ない方の言語(=小さい言語クラスタ)である英語について、英語辞書(形態素解析辞書(解析モデル))を用いて形態素解析を実行する。
 この結果、言語が英語であると識別された形態素についての形態素解析結果として以下の解析結果が得られる。
 Japanese(英語:形容詞)
 chef(英語:名詞)
 次に、日本語について、日本語辞書(形態素解析辞書(解析モデル))を用いて形態素解析を実行する。なお、既に実行済みの他言語対応の言語解析が行われている場合は、実行済みの解析結果を、今回の処理言語の処理結果にマッピングする処理を併せて行う。これらの処理結果、すなわち形態素解析結果として以下の解析結果が得られる。
 私(名詞)
 は(助詞)
 Japanese(英語:形容詞→日本語:形容詞)
 chef(英語:名詞→日本語:名詞)
 です(助動詞)
 。(句点)
 この結果が、言語解析結果130として出力される。
 なお、上述した処理例は、言語種類単位言語解析実行部103の実行する言語解析処理が形態素解析処理である例であるが、前述したように、言語解析処理には、形態素解析の他、句解析、構文解析、述語項構造解析、意味解析等があり、言語種類単位言語解析実行部103は、これらのいずれかの処理を行う。
 なお、言語種類単位言語解析実行部103は、言語解析エンジン104とともに様々な言語対応解析モデル121~123を利用した言語解析処理を実行する。
 図1に示すように、言語解析モデル格納部120には、様々な言語種類(日本語、英語等)に対応した言語対応モデルが格納されている。これらは各言語対応の言語解析用体系的情報であるコーパスに基づいて生成されたモデル(例文)データである。
 次に、図2を参照して、先に説明した多言語対応のコーパスと言語解析モデルを利用した情報処理装置100bの構成例について説明する。
 図2に示す情報処理装置100bは、図1に示す情報処理装置100と同様、解析データ入力部101、部分文字列単位言語種類解析部102、言語種類単位言語解析実行部103、言語解析エンジン104を有する。
 図2に示す情報処理装置100bは、言語解析エンジン104の参照するモデルが、多言語対応解析モデル156である点である。
 この多言語対応解析モデル156は、先に説明した[2-(3)多言語対応のコーパスと言語解析モデルの生成と利用処理について]の項目で説明した処理によって生成されるデータである。
 図2に示す第1言語対応コーパス151は、例えば、日本語を対象とした言語解析に適用するためのコーパス、すなわち日本語対応コーパスである。
 翻訳実行部152は、翻訳辞書153を利用して、この第1言語対応コーパス151に含まれる文の部分的な翻訳処理を行い、多言語対応コーパス154を生成する。
 具体的には、先に説明したように、第1言語対応コーパス151に、「基本モデル(例文)=私/は/日本人/の/料理人/です/。」が格納されている場合、翻訳実行部152は、この基本モデル(例文)に基づいて、以下の複数の拡張されたモデル(例文)を生成する。
 (a)私/は/Japanese(名詞)/の料理人/です。
 (b)私/は/日本人の/Chef(名詞)/です。
 (c)I(代名詞)/は/日本人/の/料理人/です。
 上記(a)~(c)は、上記の「基本モデル(例文)=私/は/日本人/の/料理人/です/。」に対して、部分的翻訳(日本語から英語)を行ったモデル(例文)である。このようなモデル(例文)を生成して多言語対応コーパス154に格納する。
 多言語対応解析モデル生成部155は、この多言語対応コーパス154に格納されたデータを利用して、言語種類単位言語解析実行部103や言語解析エンジン104において実行する言語解析処理、すなわち形態素解析、句解析、構文解析、述語項構造解析、意味解析等の各解析に利用可能なデータ構成を持つモデルデータからなる多言語対応解析モデル156を生成する。
 図2に示す情報処理装置100bの言語種類単位言語解析実行部103や言語解析エンジン104は、この多言語対応解析モデル156を利用して、多言語混じりの入力データの言語解析を実行する。
 なお、図2に示す構成例は、多言語対応解析モデル156のみを生成して利用する構成としているが、例えば多言語対応の辞書、コーパス、言語対応解析モデルをそれぞれ生成して利用する構成としてもよい。
  [4.本開示の情報処理装置を利用した言語解析処理の具体例について]
 次に、本開示の情報処理装置を利用した言語解析処理の具体例について説明する。
 以下では、
 (1)一つの言語のみを処理可能な従来型の装置における言語解析処理例、
 (2)本開示の情報処理装置を適用した多言語対応の言語解析処理、
 これら2つの言語解析処理を順次、説明し、2つの処理を比較する。
 なお、いずれも処理対象とする入力テキストは同じ多言語混じりのテキストとする。
 (1)一つの言語のみを処理可能な従来型の装置における言語解析処理例、
 まず、図3を参照して、一つの言語のみを処理可能な従来型の装置における言語解析処理例について説明する。
 図3には、
 (1)入力テキスト
 (2)形態素解析結果
 (3)構文解析結果
 これらの具体的なデータ例を示している。
 入力テキストは、
 先頭部が、韓国語(ハングル)、
 中央部が、日本語、
 終端部が、英語、
 これら3つの言語を含む多言語混じりのテキストである。
 図3に示す(2)形態素解析結果は、日本語辞書を用いた形態素解析結果を示している。
 この形態素解析処理の結果として、
 中央部の日本語のみ、すなわち、
 を(助詞)、
 プレーヤー(名詞)、
 で(助詞)、
 これらの形態素解析、すなわち形態素単位の品詞特定処理が正確に実行されている。
 しかし、先頭部の韓国語(ハングル)と、終端部の英語の部分については、日本語辞書を用いた形態素解析では、品詞特定が不可能となり、結果として未知(UNK:Unknown)というラベルが設定されている。
 すなわち、正しい形態素解析結果は得られない結果となる。
 図3に示す(3)構文解析結果は、日本語辞書を用いた構文解析結果を示している。
 構文解析は、テキストの構造の解析を行うものであり、例えば、S(文)、NP(名詞句)、VP(動詞句)、PP(前置詞句)、N(名詞)、V(動詞)、ADJ(形容詞)、DET(冠詞)、PRER(前置詞)、これらのラベルを各テキストの構成部分に割り当てる処理を行うものである。
 図3(3)に示す例では、日本語辞書のみを適用した構文解析結果であり、日本語部分のみについては、正しい構文解析結果が得られている。すなわち、
 プレーヤーで(PP:前置詞句)
 である。
 しかし、その他の韓国語や英語部分については、構文解析に適用する日本語対応の辞書には登録されていない語、すなわち未知語であるため、すべてNP(名詞句)として処理がなされてしまい、正しい構文解析ができない結果となる。
 このように、一つの言語のみを処理可能な従来型の装置における言語解析処理では、形態素解析処理においても、構文解析処理においても正しい解析結果を出力することはできない。
 (2)本開示の情報処理装置を適用した多言語対応の言語解析処理、
 次に、図4を参照して、本開示の情報処理装置を適用した多言語対応の言語解析処理例について説明する。
 図4には、図3と同様、
 (1)入力テキスト
 (2)形態素解析結果
 (3)構文解析結果
 これらの具体的なデータ例を示している。
 入力テキストは、
 先頭部が、韓国語(ハングル)、
 中央部が、日本語、
 終端部が、英語、
 これら3つの言語を含む多言語混じりのテキストである。
 図4に示す(2)形態素解析結果は、図1、または図2に示す情報処理装置が実行した言語解析処理の結果、取得される形態素解析結果を示している。
 すなわち、図1、または図2に示す言語種類単位言語解析実行部103において実行した形態素解析処理の結果を示している。
 先に説明したように、図1、または図2に示す言語種類単位言語解析実行部103では、解析対象データに含まれる言語種類単位の言語解析を順次、実行する。
 入力テキストは、先頭部が、韓国語(ハングル)、中央部が、日本語、終端部が、英語、これら3つの言語を含む多言語混じりのテキストであるので、これら3つの言語について、順次、各言語対応の辞書を用いて言語解析処理を実行する。
 なお、先に説明したように、第2番目以降の言語解析処理時には、既に実行済みの他言語対応の言語解析結果を、新たに実行する言語の処理結果にマッピングする処理を併せて行う。
 図4に示す(2)形態素解析結果は、この本開示の処理に従った形態素解析処理の結果である。
 先頭部の韓国語(ハングル)については、固有名詞であるとの正確な品詞特定処理がなされている。これは韓国語の辞書を適用した結果である。
 また、中央部の日本語については、
 を(助詞)、
 プレーヤー(名詞)、
 で(助詞)、
 これらの正確な品詞特定処理がなされている。これは日本語の辞書を適用した結果である。
 さらに、終端部の英語については、動詞であるとの正確な品詞特定処理がなされている。これは英語の辞書を適用した結果である。
 このように、本開示の言語解析処理では、解析対象データに含まれる言語種類単位の言語解析を順次、実行し、第2番目以降の言語解析処理時には、既に実行済みの他言語対応の言語解析結果を、新たに実行する言語の処理結果にマッピングする処理を実行することで、すべての言語についての正しい形態素解析結果が得られる。
 図4に示す(3)構文解析結果は、図1、または図2に示す情報処理装置が実行した言語解析処理の結果、取得される構文解析結果を示している。
 すなわち、図1、または図2に示す言語種類単位言語解析実行部103において実行した構文解析処理の結果を示している。
 先に説明したように、図1、または図2に示す言語種類単位言語解析実行部103では、解析対象データに含まれる言語種類単位の言語解析を順次、実行する。
 入力テキストは、先頭部が、韓国語(ハングル)、中央部が、日本語、終端部が、英語、これら3つの言語を含む多言語混じりのテキストであるので、これら3つの言語について、順次、各言語対応の辞書を用いて言語解析処理を実行する。
 なお、先に説明したように、第2番目以降の言語解析処理時には、既に実行済みの他言語対応の言語解析結果を、新たに実行する言語の処理結果にマッピングする処理を併せて行う。
 図4に示す(3)構文解析結果は、この本開示の処理に従った構文解析処理の結果である。図4(3)に示すように、
 先頭部の韓国語(ハングル)については、
 (NP:名詞句)
 中央部の日本語については、
 (PP:前置詞句)
 終端部の英語については、
 (VP:動詞句)、
 これらの構文解析結果が得られ、句構造についても正確な解析が実行されている。
 このように、本開示の言語解析処理では、解析対象データに含まれる言語種類単位の言語解析を順次、実行し、第2番目以降の言語解析処理時には、既に実行済みの他言語対応の言語解析結果を、新たに実行する言語の処理結果にマッピングする処理を実行することで、すべての言語についての正しい構文解析結果が得られる。
 このように、本開示の処理を行うことで、形態素解析処理においても、構文解析処理においても正しい解析結果を出力することが可能となる。なお、その他の言語解析、すなわち、句解析、述語項構造解析、意味解析等においても、本開示の処理を適用することで高精度な解析が可能とてなる。
 図5は、本開示の処理を適用して形態素解析と意味酢解析を実行した場合の処理例を示す図である。
 図5には、以下の各データを示している。
 (1)入力テキストと言語種類解析結果
 (2)形態素解析結果
 (3)意味解析結果
 入力テキストは、
 前半部が、韓国語(ハングル)、
 後半部が、日本語、
 である。
 (1)入力テキストと言語種類解析結果は、図1、図2に示す情報処理装置の部分文字列単位言語種類解析部102における処理結果から得られる各部分文字列の言語種類を示している。前述したように、部分文字列単位言語種類解析部102は、解析データ入力部の入力したデータに含まれる言語の種類を判別する。
 図5に示す(2)形態素解析結果と、(3)意味解析結果は、図1、または図2に示す情報処理装置が実行した言語解析処理の結果、取得される形態素解析結果と意味解析結果を示している。
 すなわち、図1、または図2に示す言語種類単位言語解析実行部103において実行した形態素解析処理と意味解析処理の結果を示している。
 図5に示す(2)形態素解析結果は、この本開示の処理に従った形態素解析処理の結果である。
 前半部の韓国語(ハングル)については、固有名詞であるとの正確な品詞特定処理がなされている。これは韓国語の辞書を適用した結果である。
 また、後半部の日本語については、
 を(助詞:格助詞)、
 再生(名詞:サ変)、
 し(動詞:スル)、
 て(助詞:接続助詞)、
 よ(助詞:終助詞)、
 これらの正確な品詞特定処理がなされている。これは日本語の辞書を適用した結果である。
 このように、本開示の言語解析処理では、解析対象データに含まれる言語種類単位の言語解析を順次、実行し、第2番目以降の言語解析処理時には、既に実行済みの他言語対応の言語解析結果を、新たに実行する言語の処理結果にマッピングする処理を実行することで、すべての言語についての正しい形態素解析結果が得られる。
 図5に示す(3)意味解析結果は、図1、または図2に示す情報処理装置が実行した言語解析処理の結果、取得される意味解析結果を示している。
 すなわち、図1、または図2に示す言語種類単位言語解析実行部103において実行した意味解析処理の結果を示している。
 先に説明したように、図1、または図2に示す言語種類単位言語解析実行部103では、解析対象データに含まれる言語種類単位の言語解析を順次、実行する。
 入力テキストは、前半部が韓国語(ハングル)、後半部が日本語、これら2つの言語を含む多言語混じりのテキストであるので、これら2つの言語について、順次、各言語対応の辞書を用いて意味解析処理を実行する。
 なお、先に説明したように、第2番目以降の意味解析処理時には、既に実行済みの他言語対応の意味解析処理結果を、新たに実行する言語の処理結果にマッピングする処理を併せて行う。
 図5に示す(3)意味解析結果は、この本開示の処理に従った意味解析処理の結果である。図5(3)に示すように、
 前半部の韓国語(ハングル)と後半部の日本語を含むテキストの全体について、
 前半部の韓国語(ハングル)で示される曲の再生、すなわち、
 意味概念構造=音楽の再生
 このような意味解析結果を出力している。
 このように、本開示の言語解析処理では、解析対象データに含まれる言語種類単位の言語解析を順次、実行し、第2番目以降の言語解析処理時には、既に実行済みの他言語対応の言語解析結果を、新たに実行する言語の処理結果にマッピングする処理を実行することで、すべての言語についての正しい意味解析結果が得られる。
  [5.本開示の情報処理装置が実行する処理のシーケンスについて]
 次に、図6に示すフローチャートを参照して、本開示の情報処理装置が実行する処理のシーケンスについて説明する。
 図6に示すフローチャートに従った処理は、例えば情報処理装置の記憶部に格納されたプログラムに従って実行される。例えばプログラム実行機能を有するCPU等のプロセッサによるプログラム実行処理として実行可能である。
 図6に示すフローの各ステップの処理について説明する。
  (ステップS101)
 まず、情報処理装置は、ステップS101において、言語解析処理の解析対象となるデータを入力する。
 この処理は、図1、図2に示す情報処理装置の解析データ入力部101が実行する処理である。
 なお、前述したように、解析データ入力部101は、例えばテキストデータ自体を入力する場合と構成としてもよいが、例えばマイクを介して入力した音声データをテキストデータに変換する処理を行う構成としてもよい。この場合、解析データ入力部101は、音声認識機能を有する構成となる。
 解析データ入力部101が入力したテキストデータ、または生成したテキストデータは、部分文字列単位言語種類解析部102に入力される。
  (ステップS102)
 次に、ステップS102において、入力テキストデータに対する部分文字列単位の言語種類解析処理を実行する。
 この処理は、図1、図2に示す情報処理装置の部分文字列単位言語種類解析部102が実行する処理である。
 部分文字列単位言語種類解析部102は、解析データ入力部101から入力したデータについて、部分文字列単位で言語の種類を判別する。部分文字列単位言語種類解析部102は、図1、図2に示す言語種類判別辞書111を利用して、言語の種類を判別する処理を行う。
  (ステップS103)
 ステップS103では、部分文字列単位言語種類解析部102で実行した部分文字列単位の言語種類判別結果として、解析対象データに複数の言語種類の文字列が含まれるか否かを判定する。
 解析対象データに複数の言語種類の文字列が含まれる場合は、ステップS104に進む。
 一方、解析対象データに複数の言語種類の文字列が含まれず、単一言語のみである場合は、ステップS111に進む。
  (ステップS111)
 先に、ステップS111の処理について説明する。
 ステップS111は、ステップS103において、解析対象データに複数の言語種類の文字列が含まれず、単一言語のみである場合に実行される処理である。
 ステップS111では、解析対象データに含まれる単一言語に対応する言語モデルや辞書を適用して言語解析を実行する。この処理は従来型の言語解析処理と同様の処理である。
  (ステップS104~S106)
 次に、ステップS104~S106の処理について説明する。
 ステップS104~S106の処理は、ステップS103において、解析対象データに複数の言語種類の文字列が含まれる場合に実行される処理である。
 ステップS104~S106の処理は、図1、図2に示す情報処理装置の言語種類単位言語解析実行部103が実行する処理である。
 言語種類単位言語解析実行部103は、解析対象データに含まれる言語種類単位の言語解析を順次、実行する。
 すなわち、解析対象データに含まれる言語種類単位で、その言語対応の辞書やモデルを利用した言語解析を順次、実行する。
 例えば図1に示す構成では、言語種類単位言語解析実行部103は、言語解析エンジン104とともに様々な言語対応解析モデル121~123を利用した言語解析処理を実行する。
 図1に示すように、言語解析モデル格納部120には、様々な言語種類(日本語、英語等)に対応した言語対応モデルが格納されている。これらは各言語対応の言語解析用体系的情報であるコーパスに基づいて生成されたモデル(例文)データである。
 また、図2に示す構成では、言語種類単位言語解析実行部103は、言語解析エンジン104とともに多言語対応解析モデル156を利用した処理が行われる。
 多言語対応解析モデル156は、図2に示す第1言語対応コーパス151に含まれる文の部分的な翻訳処理の結果を格納した多言語対応コーパス154に格納されたデータを利用して生成されたモデルデータからなる多言語対応モデルデータである。
 言語種類単位言語解析実行部103は、ステップS104~S106において、解析対象データに含まれる言語種類単位の言語解析を順次、実行する。なお、第2番目以降の言語解析処理時には、既に実行済みの他言語対応の言語解析結果を、新たに実行する言語の処理結果にマッピングする処理を実行する。これらの処理によって、すべての言語についての正しい言語解析結果を取得する。
 ステップS106において、解析対象データに含まれる言語種類単位の言語解析が全て完了したと判定されると処理を終了する。
 このフローに従って言語解析を実行することで、入力データが複数の異なる言語から構成される多言語混じりのテキストであっても、言語解析、すなわち、形態素解析の他、句解析、構文解析、述語項構造解析、意味解析等の様々な言語解析を高精度に実行することが可能となる。
  [6.複数の異なるタイプのテキストに対する言語解析処理例について]
 次に、図7を参照して複数の異なるタイプのテキストに対する言語解析処理例について説明する。
 図7には、複数の異なるタイプのテキストを入力した場合における本開示の情報処理装置の実行する言語解析処理の処理シーケンスの一例を示している。
 図7には、本開示の情報処理装置の実行する処理を上から時系列に以下のステップS1~S5として示している。
 (ステップS1)テキスト入力
 (ステップS2)入力テキストの言語判別
 (ステップS3)単一言語テキストの言語解析
 (ステップS4)多言語テキストノ言語解析
 (ステップS5)多言語テキストの言語解析結果を一原語の解析結果にマッピング
 以下、これらの各ステップの処理について説明する。
  (ステップS1)
 情報処理装置の解析データ入力部101は、まず、解析対象となるテキストを入力する。ここでは、以下の3つのテキストを入力したものとする。
 (テキスト1)こんにちは、僕はたかしです。
 (テキスト2)友達のBob, AndersonとMicheal Clearkはnative american です。
 (テキスト3)We have been friends since I've been in U.S to study abroad.
 テキスト1は日本語のみからなるテキストであり、テキスト2は、日本語と英語の混在テキストであり、テキスト3は、英語のみからなるテキストである。
 これらのテキストは、解析データ入力部101から、部分文字列単位言語種類解析部102に入力される。
  (ステップS2)
 ステップS2では、部分文字列単位言語種類解析部102において、入力テキストの言語判別処理が実行される。
 部分文字列単位言語種類解析部102は、入力テキスト1~3の各々について、部分文字列単位の言語種類解析処理を実行する。
 図7(S2)の(B)具体的データには、部分文字列単位の言語種類の判別結果は省略し、各テキスト全体に含まれる言語の種類に応じたタイプ分類結果を示している。タイプ分類結果は、以下の通りである。
 (テキスト1)こんにちは、僕はたかしです。=Ja-type1
 (テキスト2)友達のBob, AndersonとMicheal Clearkはnative american です。=Ja-type2
 (テキスト3)We have been friends since I've been in U.S to study abroad.=En-type1
 Ja-type1、Ja-type2、En-type1等のタイプ識別子は、部分文字列単位言語種類解析部102において予め規定したタイプ識別子であり、以下の意味を持つ。
 Ja-type1=日本語のみのテキスト
 Ja-type2=日本語をベースとし、一部に他言語(英語)が含まれるテキスト
 En-type1=英語のみのテキスト
 すなわち、テキスト1が日本語のみのテキストであるJa-type1のテキストであり、テキスト2が日本語をベースとして他言語(英語)が含まれるテキストであるJa-type2のテキストであり、テキスト3が英語のみのテキストであるEn-type1のテキストであるとのテキストタイプが設定される。
 なお、図では省略しているが、部分文字列単位言語種類解析部102は、各テキストに対して、テキストタイプ情報を設定するのみならず、各テキストの部分文字列単位で言語種類情報を設定する。
 テキストタイプ情報と、部分文字列単位で言語種類情報が設定されたデータは、言語種類単位言語解析実行部103に入力される。
  (ステップS3)
 言語種類単位言語解析実行部103は、まず、ステップS3において、単一言語テキストの言語解析処理を実行する。
 本例において、単一言語テキストは、日本語のみのテキストであるテキスト1と、英語のみのテキストであるテキスト3である。
 日本語のみのテキストであるテキスト1に対しては、日本語辞書や日本語対応の解析モデルを適用した言語解析処理を実行する。
 英語のみのテキストであるテキスト3に対しては、英語辞書や英語対応の解析モデルを適用した言語解析処理を実行する。
 これらの処理は、先に図6を参照して説明したフローのステップS111の処理に相当し、従来型の同様の言語解析処理となる。
 なお、図7に示す例は、言語解析処理として形態素解析を行った例を示している。
 このステップS3の処理の結果として、図7(S3)の(B)具体的データに示すように、単一言語テキストであるテキスト1とテキスト3について、形態素単位の品詞特定処理が実行される。すなわち以下の処理結果が得られる。
 (テキスト1)こんにちは-感動詞/、-句点/僕-代名詞/は-助詞/たかし-固有名詞/です-助動詞/。-句点/: Ja : Ja-type1
 (テキスト2)友達のBob, AndersonとMicheal Clearkはnative american です。: En,Ja : Ja-type2
 (テキスト3)We-PNP/have-VBD/been-VBD/ friend-NN2/since CONJ/ I've been in U.S to study abroad. : En : En-type1
 上記の処理結果は、単一言語テキストであるテキスト1とテキスト3についてのみ形態素単位の品詞情報が設定された結果であり、複数言語混じりのテキスト2については処理が行われていない。
  (ステップS4)
 言語種類単位言語解析実行部103は、次に、ステップS4において、多言語テキストの言語解析処理を行う。
 すなわち、複数言語混じりのテキストであるテキスト2の言語解析処理を実行する。
 本例において、テキスト2は、日本語と英語からなる多言語テキストであり、このテキスト2の言語解析処理を行う。
 この処理は、先に図6を参照して説明したフローのステップS104~S106の処理に相当し、本開示の情報処理装置特有の言語解析処理である。
 言語種類単位言語解析実行部103は、解析対象データに含まれる言語種類単位の言語解析を順次、実行する。
 すなわち、解析対象データに含まれる言語種類単位で、その言語対応の辞書やモデルを利用した言語解析を順次、実行する。
 例えば図1に示す構成では、言語種類単位言語解析実行部103は、言語解析エンジン104とともに様々な言語対応解析モデル121~123を利用した言語解析処理を実行する。
 図1に示すように、言語解析モデル格納部120には、様々な言語種類(日本語、英語等)に対応した言語対応モデルが格納されている。これらは各言語対応の言語解析用体系的情報であるコーパスに基づいて生成されたモデル(例文)データである。
 また、図2に示す構成では、言語種類単位言語解析実行部103は、言語解析エンジン104とともに多言語対応解析モデル156を利用した処理が行われる。
 多言語対応解析モデル156は、図2に示す第1言語対応コーパス151に含まれる文の部分的な翻訳処理の結果を格納した多言語対応コーパス154に格納されたデータを利用して生成されたモデルデータからなる多言語対応モデルデータである。
 言語種類単位言語解析実行部103は、テキスト2に含まれる言語種類てある日本語と英語それぞれの言語単位の言語解析を順次、実行する。
 このステップS4の処理の結果として、図7(S4)の(B)具体的データに示すように、日本語と英語の多言語テキストであるテキスト2について、形態素単位の品詞特定処理が実行される。先のステップS3の処理結果も含めて、以下の処理結果が得られる。
 (テキスト1)こんにちは-感動詞/、-句点/僕-代名詞/は-助詞/たかし-固有名詞/です-助動詞/。-句点/: Ja : Ja-type1
 (テキスト2)友達-名詞/の-助詞/Bob, Anderson-NN0/と-助詞/Micheal Cleark-NN0/は-助詞/native-JJ/ american-NN1/ です-助動詞/。-記号/: En,Ja : Ja-type2
 (テキスト3)We-PNP/have-VBD/been-VBD/ friend-NN2/since CONJ/ I've been in U.S to study abroad. : En : En-type1
  (ステップS5)
 次に、言語種類単位言語解析実行部103は、ステップS5において、多言語テキストの言語解析結果を一言語の解析結果にマッピングする処理を実行する。
 本例において、多言語テキストは日本語と英語からなるテキスト2であり、このテキスト2の言語解析結果を一言語の解析結果、本例では日本語の解析結果にマッピングする処理を実行する。
 すなわち、英語の形態素解析結果として得られた品詞情報をそのまま日本語の形態素解析結果として利用するマッピング処理を行う。
 この処理の結果として、テキスト2については、図7(S5)の(B)具体的データに示すように、以下の結果が得られる。
 (テキスト2)友達-名詞/の-助詞/Bob, Anderson-NN0->固有名詞/と-助詞/Micheal Cleark-NN0->固有名詞/は-助詞/native-JJ->形容詞/ american-NN1->名詞/ です-助動詞/。-記号/: En,Ja : Ja-type2
 この結果は、多言語テキストであるテキスト2の全ての形態素について正確な品詞情報が付与された形態素解析結果である。
 このように、本開示の処理を実行することで、入力データが複数の異なる言語から構成される多言語混じりのテキストであっても、言語解析、すなわち、形態素解析の他、句解析、構文解析、述語項構造解析、意味解析等の様々な言語解析を高精度に実行することが可能となる。
  [7.情報処理装置のハードウェア構成例について]
 次に、図8を参照して情報処理装置のハードウェア構成例について説明する。
 図8を参照して説明するハードウェアは、先に図1や図2を参照して説明した情報処理装置のハードウェア構成例である。
 CPU(Central Processing Unit)301は、ROM(Read Only Memory)302、または記憶部308に記憶されているプログラムに従って各種の処理を実行する制御部やデータ処理部として機能する。例えば、上述した実施例において説明したシーケンスに従った処理を実行する。RAM(Random Access Memory)303には、CPU301が実行するプログラムやデータなどが記憶される。これらのCPU301、ROM302、およびRAM303は、バス304により相互に接続されている。
 CPU301はバス304を介して入出力インタフェース305に接続され、入出力インタフェース305には、各種スイッチ、キーボード、マウス、マイクロホン、センサーなどよりなる入力部306、ディスプレイ、スピーカーなどよりなる出力部307が接続されている。CPU301は、入力部306から入力される指令に対応して各種の処理を実行し、処理結果を例えば出力部307に出力する。
 入出力インタフェース305に接続されている記憶部308は、例えばハードディスク等からなり、CPU301が実行するプログラムや各種のデータを記憶する。通信部309は、Wi-Fi通信、ブルートゥース(登録商標)(BT)通信、その他インターネットやローカルエリアネットワークなどのネットワークを介したデータ通信の送受信部として機能し、外部の装置と通信する。
 入出力インタフェース305に接続されているドライブ310は、磁気ディスク、光ディスク、光磁気ディスク、あるいはメモリカード等の半導体メモリなどのリムーバブルメディア311を駆動し、データの記録あるいは読み取りを実行する。
  [8.本開示の構成のまとめ]
 以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
 なお、本明細書において開示した技術は、以下のような構成をとることができる。
 (1) 入力テキストの部分文字列単位で言語種類を判別する言語種類解析部と、
 前記言語種類解析部の解析結果に基づいて、前記入力テキストに含まれる言語種類ごとに、順次、言語解析を実行する言語解析実行部を有し、
 前記言語解析実行部は、
 先行して実行した先行処理言語種類の言語解析結果を、後続の異なる言語種類対応の言語解析処理に利用して、最終的な言語解析結果を生成する情報処理装置。
 (2) 前記言語解析実行部は、
 先行して実行した先行処理言語種類の言語解析結果をそのまま利用するマッピング処理を実行する(1)に記載の情報処理装置。
 (3) 前記言語解析実行部は、
 前記入力テキストに複数の異なる言語の部分文字列が含まれる場合、
 各言語対応の部分文字列数の少ない言語から、先行して言語解析処理を実行する(1)または(2)に記載の情報処理装置。
 (4) 前記言語解析実行部は、
 言語解析処理として、形態素解析、句解析、構文解析、述語項構造解析、意味解析の少なくともいずれかを実行する(1)~(3)いずれかに記載の情報処理装置。
 (5) 前記言語解析実行部は、
 前記入力テキストに含まれる言語種類ごとに、順次、各言語対応の辞書、または、コーパス、または言語対応解析モデルを用いた言語解析を実行する(1)~(4)いずれかに記載の情報処理装置。
 (6) 前記言語解析実行部は、
 前記入力テキストに含まれる言語種類ごとの言語解析処理において、多言語対応の言語対応解析モデルを用いた言語解析を実行する(1)~(4)いずれかに記載の情報処理装置。
 (7) 前記言語解析実行部は、
 前記入力テキストに含まれる言語種類ごとの言語解析処理において、多言語対応の辞書、または、コーパス、または言語対応解析モデルの少なくともいずれかを用いた言語解析を実行する(1)~(4)いずれかに記載の情報処理装置。
 (8) 前記多言語対応のコーパス、または言語対応解析モデルは、1つの言語対応のコーパスに含まれる基本データの部分的翻訳処理によって生成される構成である(7)に記載の情報処理装置。
 (9) 情報処理装置において実行する情報処理方法であり、
 言語種類解析部が、入力テキストの部分文字列単位で言語種類を判別する言語種類解析ステップと、
 言語解析実行部が、前記言語種類解析部の解析結果に基づいて、前記入力テキストに含まれる言語種類ごとに、順次、言語解析を実行する言語解析実行ステップを実行し、
 前記言語解析実行ステップにおいては、
 先行して実行した先行処理言語種類の言語解析結果を、後続の異なる言語種類対応の言語解析処理に利用して、最終的な言語解析結果を生成する情報処理方法。
 (10) 情報処理装置において情報処理を実行させるプログラムであり、
 言語種類解析部に、入力テキストの部分文字列単位で言語種類を判別させる言語種類解析ステップと、
 言語解析実行部に、前記言語種類解析部の解析結果に基づいて、前記入力テキストに含まれる言語種類ごとに、順次、言語解析を実行させる言語解析実行ステップを実行させ、
 前記言語解析実行ステップにおいては、
 先行して実行した先行処理言語種類の言語解析結果を、後続の異なる言語種類対応の言語解析処理に利用して、最終的な言語解析結果を生成させるプログラム。
 また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、LAN(Local Area Network)、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
 なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
 以上、説明したように、本開示の一実施例の構成によれば、異なる種類の言語から構成される多言語テキストに対する高精度な言語解析を実行する装置、方法が実現される。
 具体的には、例えば、入力テキストの部分文字列単位で言語種類を判別する言語種類解析部と、言語種類解析部の解析結果に基づいて、入力テキストに含まれる言語種類ごとに、順次、言語解析を実行する言語解析実行部を有する。言語解析実行部は、先行して実行した先行処理言語種類の言語解析結果を、後続の異なる言語種類対応の言語解析処理に利用して、最終的な言語解析結果を生成する。言語解析実行部は、言語解析処理として、形態素解析、句解析、構文解析、述語項構造解析、意味解析の少なくともいずれかを実行する。
 本構成により、異なる種類の言語から構成される多言語テキストに対する高精度な言語解析を実行する装置、方法が実現される。
 100,100b 情報処理装置
 101 解析データ入力部
 102 部分文字列単位言語種類解析部
 103 言語種類単位言語解析実行部
 104 言語解析エンジン
 111 言語種類判別辞書
 120 言語解析モデル格納部
 121~123 言語対応解析モデル
 151 第1言語対応コーパス
 152 翻訳実行部
 153 翻訳辞書
 154 多言語対応コーパス
 155 多言語対応解析モデル生成部
 156 多言語対応解析モデル
 301 CPU
 302 ROM
 303 RAM
 304 バス
 305 入出力インタフェース
 306 入力部
 307 出力部
 308 記憶部
 309 通信部
 310 ドライブ
 311 リムーバブルメディア

Claims (10)

  1.  入力テキストの部分文字列単位で言語種類を判別する言語種類解析部と、
     前記言語種類解析部の解析結果に基づいて、前記入力テキストに含まれる言語種類ごとに、順次、言語解析を実行する言語解析実行部を有し、
     前記言語解析実行部は、
     先行して実行した先行処理言語種類の言語解析結果を、後続の異なる言語種類対応の言語解析処理に利用して、最終的な言語解析結果を生成する情報処理装置。
  2.  前記言語解析実行部は、
     先行して実行した先行処理言語種類の言語解析結果をそのまま利用するマッピング処理を実行する請求項1に記載の情報処理装置。
  3.  前記言語解析実行部は、
     前記入力テキストに複数の異なる言語の部分文字列が含まれる場合、
     各言語対応の部分文字列数の少ない言語から、先行して言語解析処理を実行する請求項1に記載の情報処理装置。
  4.  前記言語解析実行部は、
     言語解析処理として、形態素解析、句解析、構文解析、述語項構造解析、意味解析の少なくともいずれかを実行する請求項1に記載の情報処理装置。
  5.  前記言語解析実行部は、
     前記入力テキストに含まれる言語種類ごとに、順次、各言語対応の辞書、または、コーパス、または言語対応解析モデルを用いた言語解析を実行する請求項1に記載の情報処理装置。
  6.  前記言語解析実行部は、
     前記入力テキストに含まれる言語種類ごとの言語解析処理において、多言語対応の言語対応解析モデルを用いた言語解析を実行する請求項1に記載の情報処理装置。
  7.  前記言語解析実行部は、
     前記入力テキストに含まれる言語種類ごとの言語解析処理において、多言語対応の辞書、または、コーパス、または言語対応解析モデルの少なくともいずれかを用いた言語解析を実行する請求項1に記載の情報処理装置。
  8.  前記多言語対応のコーパス、または言語対応解析モデルは、1つの言語対応のコーパスに含まれる基本データの部分的翻訳処理によって生成される構成である請求項7に記載の情報処理装置。
  9.  情報処理装置において実行する情報処理方法であり、
     言語種類解析部が、入力テキストの部分文字列単位で言語種類を判別する言語種類解析ステップと、
     言語解析実行部が、前記言語種類解析部の解析結果に基づいて、前記入力テキストに含まれる言語種類ごとに、順次、言語解析を実行する言語解析実行ステップを実行し、
     前記言語解析実行ステップにおいては、
     先行して実行した先行処理言語種類の言語解析結果を、後続の異なる言語種類対応の言語解析処理に利用して、最終的な言語解析結果を生成する情報処理方法。
  10.  情報処理装置において情報処理を実行させるプログラムであり、
     言語種類解析部に、入力テキストの部分文字列単位で言語種類を判別させる言語種類解析ステップと、
     言語解析実行部に、前記言語種類解析部の解析結果に基づいて、前記入力テキストに含まれる言語種類ごとに、順次、言語解析を実行させる言語解析実行ステップを実行させ、
     前記言語解析実行ステップにおいては、
     先行して実行した先行処理言語種類の言語解析結果を、後続の異なる言語種類対応の言語解析処理に利用して、最終的な言語解析結果を生成させるプログラム。
PCT/JP2019/021304 2018-07-09 2019-05-29 情報処理装置、および情報処理方法、並びにプログラム WO2020012813A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-129684 2018-07-09
JP2018129684 2018-07-09

Publications (1)

Publication Number Publication Date
WO2020012813A1 true WO2020012813A1 (ja) 2020-01-16

Family

ID=69141537

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/021304 WO2020012813A1 (ja) 2018-07-09 2019-05-29 情報処理装置、および情報処理方法、並びにプログラム

Country Status (1)

Country Link
WO (1) WO2020012813A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022070016A (ja) * 2020-10-26 2022-05-12 日本電気株式会社 音声処理装置、音声処理方法、およびプログラム
JP7475589B2 (ja) 2022-06-29 2024-04-30 アクションパワー コーポレイション 外国語を含むオーディオの音声認識方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09179866A (ja) * 1995-12-26 1997-07-11 Sharp Corp 機械翻訳装置
JP2004287444A (ja) * 2003-03-24 2004-10-14 Microsoft Corp 多言語テキスト音声変換システムのためのフロントエンドアーキテクチャ
WO2011004502A1 (ja) * 2009-07-08 2011-01-13 株式会社日立製作所 音声編集合成装置及び音声編集合成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09179866A (ja) * 1995-12-26 1997-07-11 Sharp Corp 機械翻訳装置
JP2004287444A (ja) * 2003-03-24 2004-10-14 Microsoft Corp 多言語テキスト音声変換システムのためのフロントエンドアーキテクチャ
WO2011004502A1 (ja) * 2009-07-08 2011-01-13 株式会社日立製作所 音声編集合成装置及び音声編集合成方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022070016A (ja) * 2020-10-26 2022-05-12 日本電気株式会社 音声処理装置、音声処理方法、およびプログラム
JP7160077B2 (ja) 2020-10-26 2022-10-25 日本電気株式会社 音声処理装置、音声処理方法、システム、およびプログラム
JP7475589B2 (ja) 2022-06-29 2024-04-30 アクションパワー コーポレイション 外国語を含むオーディオの音声認識方法
US11972756B2 (en) 2022-06-29 2024-04-30 Actionpower Corp. Method for recognizing the voice of audio containing foreign languages

Similar Documents

Publication Publication Date Title
Obeid et al. CAMeL tools: An open source python toolkit for Arabic natural language processing
JP3906356B2 (ja) 構文解析方法及び装置
KR101678787B1 (ko) 자동질의응답 방법 및 그 장치
Rashel et al. Building an Indonesian rule-based part-of-speech tagger
Baby et al. A unified parser for developing Indian language text to speech synthesizers
JP6778655B2 (ja) 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム
JP6622236B2 (ja) 発想支援装置及び発想支援方法
Aqlan et al. Arabic–Chinese neural machine translation: Romanized Arabic as subword unit for Arabic-sourced translation
WO2020012813A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
Pinnis et al. Tilde MT platform for developing client specific MT solutions
Amri et al. Amazigh POS tagging using TreeTagger: a language independant model
JP2009157888A (ja) 音訳モデル作成装置、音訳装置、及びそれらのためのコンピュータプログラム
JP4007413B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP2008077512A (ja) 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム
JP2632806B2 (ja) 言語解析装置
Singh et al. An efficient Romanization of Gurmukhi Punjabi proper nouns for pattern matching
WO2009144890A1 (ja) 翻訳前換言規則生成システム
Gakis et al. Construction of a Modern Greek grammar checker through Mnemosyne formalism
Rundell et al. Technology and English Dictionaries
Hogan OCR for minority languages
JP4033089B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
Vijayanand et al. Named entity recognition and transliteration for Telugu language
KR20180054236A (ko) 음성기호 기반 사전 유사 탐색을 활용한 자동 통번역 시스템 및 그 방법
Tukeyev et al. Computational Model of Morphology and Stemming of Karakalpak Words on a Complete Set of Inflectional Endings

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

NENP Non-entry into the national phase

Ref country code: JP

122 Ep: pct application non-entry in european phase

Ref document number: 19834690

Country of ref document: EP

Kind code of ref document: A1