WO2007097208A1 - 言語処理装置、言語処理方法および言語処理用プログラム - Google Patents

言語処理装置、言語処理方法および言語処理用プログラム Download PDF

Info

Publication number
WO2007097208A1
WO2007097208A1 PCT/JP2007/052319 JP2007052319W WO2007097208A1 WO 2007097208 A1 WO2007097208 A1 WO 2007097208A1 JP 2007052319 W JP2007052319 W JP 2007052319W WO 2007097208 A1 WO2007097208 A1 WO 2007097208A1
Authority
WO
WIPO (PCT)
Prior art keywords
analysis
unit
results
analysis results
result
Prior art date
Application number
PCT/JP2007/052319
Other languages
English (en)
French (fr)
Inventor
Kunihiko Sadamasa
Shinichi Ando
Shinichi Doi
Original Assignee
Nec Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nec Corporation filed Critical Nec Corporation
Priority to JP2008501673A priority Critical patent/JP5071373B2/ja
Priority to CN2007800068765A priority patent/CN101390091B/zh
Priority to US12/280,839 priority patent/US8301435B2/en
Publication of WO2007097208A1 publication Critical patent/WO2007097208A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Definitions

  • Language processing apparatus language processing method, and language processing program
  • the present invention relates to a language processing apparatus, a language processing method, and a language processing program for performing morphological analysis or syntax analysis in natural language processing, and in particular, during analysis without changing the analysis result of the original language analysis processing.
  • grammatical elements such as natural language words and phrases can have multiple grammatical functions such as multiple meanings and multiple parts of speech. Can have ambiguity.
  • the language processing apparatus analyzes a sentence including a grammatical element (hereinafter referred to as a “polysemy”) such as a word or a phrase having a grammatical function such as a plurality of meanings or a plurality of parts of speech.
  • a polysemy such as a word or a phrase having a grammatical function such as a plurality of meanings or a plurality of parts of speech.
  • the language processing apparatus creates a plurality of candidates according to a plurality of grammatical actions (hereinafter referred to as “a plurality of meanings”) possessed by a polysemy. After that, the language processing device analyzes the plurality of candidates and outputs one analysis result.
  • a plurality of meanings a plurality of grammatical actions
  • Patent Document 1 Japanese Patent Laid-Open No. 2-114377 describes a natural language processing apparatus that learns a model (rule) for disambiguation from an example of an analysis result of syntax analysis processing. .
  • Patent Document 1 describes a natural language processing apparatus that learns a model that resolves ambiguity of parts of speech from the analysis result of syntax analysis processing.
  • This conventional natural language processing apparatus includes a morphological analysis unit, a syntax analysis unit, a learning device, and a learning result holding unit.
  • the conventional natural language processing apparatus having such a configuration operates as follows.
  • the morpheme analysis unit performs morpheme analysis on the input sentence.
  • the parsing unit performs parsing based on the morphological analysis results.
  • the learning device learns a statistical model that performs part-of-speech estimation using the ambiguous part-of-speech sequence output from the morphological analysis unit and the part-of-speech sequence determined based on the analysis result in the syntax analysis unit as inputs. .
  • the learning result holding unit holds the result learned by the learning device. In the analysis processing from the next time onward, the parsing unit estimates the part of speech using the learning result of the learning result holding unit, and resolves the ambiguity of the part of speech sequence at an early stage.
  • Patent Document 1 JP-A-2-114377
  • the conventional natural language processing device described in Patent Document 1 performs part-of-speech estimation in order to eliminate ambiguity, but at this time, there is a possibility of performing wrong part-of-speech estimation. Therefore, the conventional natural language processing device may output a syntax analysis result different from the syntax analysis result in the case where the ambiguity is not resolved when an erroneous part of speech estimation is performed.
  • the word “to” includes a “quoting particle” indicating that the immediately preceding phrase is a quotation expression
  • An object of the present invention is to provide a language processing device, a language repair method, a language processing program, and only an unnecessary candidate that can remove only unnecessary candidates that do not change the final analysis result. It is an object of the present invention to provide a language processing device, a language repair method, and a language processing program that can perform analysis processing at a higher speed without changing the analysis result.
  • the language processing apparatus of the present invention performs a predetermined analysis on a natural language sentence including a multiple meaning word and another word, and according to a plurality of meanings of the multiple meaning word.
  • a first analysis unit that outputs a plurality of analysis results for the natural language sentence, a specific analysis is performed on the plurality of analysis results output by the first analysis unit, and 1 is obtained from the plurality of analysis results.
  • a second analysis unit that employs one analysis result and a plurality of analysis result forces output by the first analysis unit, the analysis result employed by the second analysis unit is maintained even if the analysis result force is deleted.
  • a generation rule that deletes unnecessary analysis results from the first analysis unit based on the multiple analysis results output by the first analysis unit and the adoption results of the second analysis unit And.
  • the language processing method of the present invention performs a predetermined analysis on a natural language sentence including a multiple word and another word, and the natural language according to a plurality of meanings of the multiple word.
  • a first analysis step for outputting a plurality of analysis results for a sentence; and a second analysis step for performing a specific analysis on the plurality of analysis results and adopting one analysis result from the plurality of analysis results. Even if the analysis results are deleted from the plurality of analysis results, the analysis results employed in the second analysis step are maintained, and are deleted to delete unnecessary analysis results in the first analysis step.
  • the analysis result employed in the second analysis unit is maintained even if the plurality of analysis result forces of the first analysis unit are deleted.
  • the deletion rules for deleting the analysis results are the multiple analysis results output from the first analysis unit and the second analysis unit. Based on the results of adoption at
  • the language processing apparatus of the present invention performs a predetermined analysis on a natural language sentence including a multiple word and another word, and the natural language according to a plurality of meanings of the multiple word.
  • a first analysis unit that outputs a plurality of analysis results for a sentence, and a specific analysis is performed on the plurality of analysis results output by the first analysis unit, and one analysis result is obtained from the plurality of analysis results.
  • a second analysis unit to be employed and a storage unit in which determination information representing whether the combination is adopted or not is stored for each combination of one meaning of the polysemy and information on another word; For each combination of the meaning of the polysemy and the information about other words in each analysis result output by the first analysis unit, the combination indicates the force / force used by the second analysis unit. Multiple acceptance results output by the first analysis unit and adoption results of the second analysis unit. Based on!
  • the language processing method of the present invention for each combination of one meaning of a multiple meaning word and information related to another word, determination information indicating whether or not the combination is adopted is stored.
  • a language processing method performed by a language processing device including a storage unit, wherein a predetermined analysis is performed on a natural language sentence including a multiple meaning word and another word, and the plurality of meanings included in the multiple meaning word
  • a first analysis step for outputting a plurality of analysis results for a natural language sentence, and a second analysis for performing a specific analysis on the plurality of analysis results and adopting one analysis result from the plurality of analysis results
  • the combination is used in the second analysis step.
  • Acceptance / rejection information indicating the success / failure key is used as the first analysis step. Is output The acceptance / rejection information generation step generated based on the plurality of analysis results and the adoption result of the second analysis step, and the judgment information indicating the adoption in the storage unit, the combination not adopted in the acceptance / rejection information, If it corresponds, the acceptance information is changed to adoption, and the deletion rule for deleting unnecessary analysis results is then changed to the adoption information that has been changed and the force that has not been changed. And a rule generation step that is generated based on the acceptance / rejection information.
  • the acceptance information of the combination is adopted.
  • a deletion rule for deleting unnecessary analysis results from a plurality of analysis results of the first analysis unit is generated based on the changed acceptance / rejection information and the changed acceptance / rejection information.
  • the combination of the meaning of the multiple meaning word and the information related to the other word is one or a combination of a surface layer, a prototype, a part of speech, and a utilization form of the multiple meaning word and its surrounding words. Is desirable.
  • the first analysis unit analyzes the natural language sentence by a rule-based method for performing analysis based on a predetermined rule.
  • the analysis method in the first analysis unit is the rule-based method, and the analysis method is different from the statistical-based analysis based on the statistical model used for creating the deletion rule. Therefore, there is a high possibility that the deletion process based on the deletion rule functions effectively.
  • the language processing device of the present invention provides a knowledge base storage unit that stores the deletion rule generated by the language processing device, and a predetermined process for a natural language sentence including a polysemy and other words.
  • a first analysis unit that performs analysis and outputs a plurality of analysis results for the natural language sentence according to a plurality of meanings of the polysemy, and a deletion rule stored in the knowledge base storage unit Analysis that does not require multiple analysis results output by the first analysis unit
  • An ambiguity reduction unit that deletes the results, and a specific analysis is performed on the plurality of analysis results from which the unnecessary analysis results have been deleted by the ambiguity reduction unit, and one analysis is performed from the plurality of analysis results.
  • a second analysis unit that employs the result.
  • the language processing method of the present invention is a language processing method performed by a language processing device including a knowledge base storage unit that stores a deletion rule generated by a language processing device.
  • a first analysis step for outputting a plurality of analysis results for the natural language sentence according to a plurality of meanings of the polysemy, and performing the predetermined analysis on the natural language sentence including Based on the deletion rules stored in the base storage unit, the plurality of analysis result powers The ambiguity reduction step of deleting unnecessary analysis results, and the plurality of analysis results from which the unnecessary analysis results are deleted And a second analysis step of performing a specific analysis and adopting one analysis result from the plurality of analysis results.
  • the language processing program of the present invention is a language processing program that causes a computer to execute language processing, and performs a predetermined analysis on a natural language sentence including ambiguous words and other words.
  • a first analysis process that outputs a plurality of analysis results for the natural language sentence according to a plurality of meanings of the polysemy, and a specific analysis is performed on the plurality of analysis results to perform the plurality of analysis results.
  • the second analysis process that adopts one analysis result from the analysis result and the first analysis process that maintains the analysis result employed in the second analysis process even if it is deleted from the plurality of analysis results.
  • a deletion rule for deleting unnecessary analysis results in the analysis processing is generated based on the plurality of analysis results output in the first analysis processing and the adoption results in the second analysis processing. Causing the computer to execute language processing including generation processing
  • the language processing program of the present invention stores, for each combination of one meaning of a multiple meaning word and information related to another word, judgment information indicating whether the combination is adopted or not.
  • a language processing program for causing a computer connected to the storage unit to perform language processing, performing a predetermined analysis on a natural language sentence including a polysemy and other words, and A first analysis process that outputs a plurality of analysis results for the natural language sentence according to a plurality of meanings of the first and a plurality of analysis results obtained by performing a specific analysis on the plurality of analysis results.
  • Acceptance information indicating whether or not it has been adopted in the second analysis process is generated based on the plurality of analysis results output in the first analysis process and the adoption result of the second analysis process. If the combination rejected in the acceptance information generation process and the combination not adopted in the acceptance information correspond to the judgment information indicating adoption in the storage unit, the acceptance information is changed to adoption, and then the plurality of Delete rules to delete unnecessary analysis results from analysis results, A rule generation processing that generates Te based ⁇ to and further has been blood collection unnecessary information and changed such mosquito ⁇ ivy blood collection unnecessary information, the language processing including, it causes the computer to perform.
  • the language processing program of the present invention is a language processing program that causes a computer connected to a knowledge base storage unit that stores the deletion rules generated by the language processing device to execute language processing.
  • the first analysis is performed on the natural language sentence including the multiple meaning word and other words, and a plurality of analysis results for the natural language sentence are output according to the plurality of meanings of the multiple meaning word.
  • a deletion rule stored in the knowledge base storage unit an ambiguity reduction process that deletes an unnecessary analysis result from the plurality of analysis results, and a plurality of the analysis results that are deleted from the unnecessary analysis result
  • the computer is caused to perform language processing including a second analysis process that performs a specific analysis on the analysis result and adopts one analysis result from the plurality of analysis results.
  • FIG. 1 is a block diagram showing a configuration of a first exemplary embodiment of the present invention.
  • FIG. 2 is a flowchart showing the operation of the language processing apparatus shown in FIG.
  • FIG. 3A is an explanatory view showing a specific example of a contradiction detection case stored in the appearance case storage unit 31.
  • FIG. 3B is an explanatory diagram showing a specific example of a morphological analysis result having ambiguity.
  • FIG. 3C is an explanatory view showing a concrete example of the case where the analysis result force of FIG. 3B is obtained.
  • FIG. 1 is a block diagram showing the configuration of the first exemplary embodiment for carrying out the present invention.
  • the language processing apparatus of the first exemplary embodiment is a keyboard or the like.
  • Input device 1 and A data processing device (computer) 2 that operates under program control, a storage device 3 that stores information, an output device 4 such as a display device or a printing device, and a program that stores a program that defines the operation of the data processing device 2 And a storage unit (computer-readable recording medium) 5.
  • the storage device 3 includes an appearance case storage unit 31 and a knowledge base storage unit 32.
  • the appearance case storage unit 31 stores inconsistency detection cases in advance.
  • the case for detecting contradiction is preferably the same form as the case where a large number of sentences are parsed by the first analysis unit 21 and the second analysis unit 23, and the result of each is given to the knowledge base construction unit 243. Created by extracting formula data. The performance of conflict detection increases as the number of cases created here increases.
  • ambiguous terms are defined as grammatical elements such as words or phrases having grammatical functions such as multiple meanings or multiple parts of speech.
  • information related to other words is information related to words different from the ambiguous word (for example, the part of speech of the word immediately before the ambiguous word).
  • the knowledge base (for example, the deletion rule) created by the knowledge base construction unit 243 is stored.
  • the data processing device 2 includes a first analysis unit 21, an ambiguity reduction unit 22, a second analysis unit 23, a case extraction unit 241, a contradiction adjustment unit 242, and a knowledge base construction unit 243. It has.
  • the contradiction adjustment unit 242 and the knowledge base construction unit 243 constitute a rule generation unit 244.
  • the case extraction unit 241, the contradiction adjustment unit 242, the knowledge base construction unit 243, and the appearance case storage unit 31 constitute a generation unit.
  • the data processing device 2 reads, for example, a program recorded in the program storage unit 5 and executes the program, whereby the first analysis unit 21, the ambiguity reduction unit 2 2, The second analysis unit 23, the case extraction unit 241, the contradiction adjustment unit 242, and the knowledge base construction unit 243 are realized.
  • the first analysis unit 21, the ambiguity reduction unit 22, the second analysis unit 23, the case extraction unit 241, the contradiction adjustment unit 242 and the knowledge base construction unit 243 Even if it is configured with wear Good.
  • the first analysis unit 21 performs syntax analysis processing up to an intermediate phase. When the parsing process includes n phases of XI to Xn, the first analysis unit 21 performs analysis from Xl to Xm (m ⁇ n).
  • the first analysis unit 21 performs a predetermined analysis (analysis from Xl to Xm (m ⁇ n)) on a natural language sentence including ambiguous words and other words, Depending on the multiple meanings of polysemy
  • the ambiguity reduction unit 22 determines that "not adopted” is based on the knowledge base stored in the knowledge base storage unit 32 from the plurality of analysis results output by the first analysis unit 21. The interpretation result to be judged is removed. When the operation is prohibited, the ambiguity reduction unit 22 provides the second analysis unit 23 with a plurality of analysis results output from the first analysis unit 21.
  • the second analysis unit 23 Based on the output of the ambiguity reduction unit 22, the second analysis unit 23 performs an analysis process of a phase after the analysis process performed by the first analysis unit 21.
  • the second analysis unit 23 outputs the output of the ambiguity reduction unit 22 (for example, the first analysis unit
  • a specific analysis (analysis from Xm + 1 to Xn) is performed on the multiple analysis results output by 21 and one analysis result is adopted from the multiple analysis results.
  • the case extraction unit 241 constructs a knowledge base by the knowledge base construction unit 243 and acceptance information indicating acceptance / rejection in the output of the second analysis unit 23.
  • a case is created based on the information about the ambiguity in each analysis result, that is, the feature set.
  • the case extraction unit 241 is an example of an employment information generation unit, and is based on a plurality of analysis results output by the first analysis unit 21 and an employment result of the second analysis unit 23. From each analysis result, combinations (including feature sets) of meanings of ambiguous words and information on other words, that is, examples are extracted.
  • the case extraction unit 241 determines whether the case is the second case for each case based on the plurality of analysis results output from the first analysis unit 21 and the adoption result of the second analysis unit 23. Acceptance / rejection information indicating whether or not the analysis unit 23 has been adopted is generated, and the acceptance / rejection information is given to the case.
  • the contradiction adjustment unit 242 matches a large number of cases stored in the appearance case storage unit 31 with the cases obtained by the case extraction unit 241 and confirms that there is no conflicting case. When there is a contradictory case, the contradiction adjustment unit 242 corrects the adoption information of the case obtained by the case extraction unit 241 only in the direction from “not adopted” to “adopted”.
  • the knowledge base construction unit 243 Based on the case output from the contradiction adjustment unit 242, the knowledge base construction unit 243 generates a knowledge base for reducing ambiguity (for example, an unnecessary analysis result from a plurality of analysis results of the first analysis unit 21). (Deletion rule for deletion) is created, and the knowledge base is stored in the knowledge base storage unit 32.
  • FIG. 2 is a flowchart for explaining the operation of the language processing apparatus shown in FIG.
  • the overall operation of the language processing apparatus shown in FIG. 1 will be described in detail with reference to FIG. 1 and FIG.
  • the input character string given from the input device 1 is parsed by the first analysis unit 21 and the second analysis unit 23 (step Al).
  • the input character string includes ambiguous words and other words.
  • the first analysis unit 21 performs a morphological analysis process that divides the input sentence into words and gives parts of speech, and the second analysis unit 23 determines the dependency between words. Dependency decision processing is performed.
  • the ambiguity reduction unit 22 may not perform ambiguity reduction.
  • the case extraction unit 241 receives a plurality of analysis results output from the first analysis unit 21 and the adoption results of the second analysis unit 23, and extracts information power cases that are combined. To do.
  • the example shows the combination of the meaning of the ambiguous word in each analysis result and information on other words (including the feature set), and the combination represents the force / force used by the second analysis unit 23. Including acceptance / rejection information (step A2).
  • the analysis result output by the first analysis unit 21 has word segmentation and part of speech ambiguity.
  • the feature set includes the ambiguous ambiguous word (word) and the surface layer, part of speech, and utilization form of the word immediately before and after the ambiguous word.
  • the contradiction adjustment unit 242 includes the case stored in the appearance case storage unit 31 and the case extraction unit 2 Match the cases obtained in 41 and check if there are any contradictory cases (Step A 3).
  • the contradiction indicates that a case having the same feature set as the case obtained by the case extraction unit 241 but having different acceptance information exists in the appearance case storage unit 31.
  • the contradiction adjustment unit 242 corrects the acceptance information of the case obtained by the case extraction unit 241 only in the direction from "not adopted” to "adopted” (step A4).
  • the contradiction adjustment unit 242 erroneously returns an analysis result that is essentially impossible to reduce ambiguity, such as when there is an inconsistency in the learning data when deleted. Model power to be reduced.
  • step A5 The case that is the output of the contradiction adjustment unit 242 is temporarily stored in the memory in the knowledge base construction unit 243 (step A5).
  • the first analysis unit 21 checks whether there is a character string that can be input (step S1).
  • step A1 to step A5 is repeated for the remaining input.
  • the knowledge base construction unit 243 creates a knowledge base for reducing ambiguity based on the example obtained as the output of the contradiction adjustment unit 242.
  • the knowledge base is stored in the knowledge base storage unit 32.
  • a knowledge base creation method a statistical model creation method using a learning device such as a decision tree, a maximum entropy method, a support vector machine method, or the like is used.
  • the first analysis unit 21 and the second analysis unit 23 can be appropriately changed as long as the ambiguity of the analysis result of the first analysis unit 21 is reduced by the second analysis unit 23. It is.
  • the first analysis unit 21 may perform morphological analysis and phrase grouping processing, and the second analysis unit 23 may perform dependency analysis between phrases.
  • syntax analysis processing is used as the overall language analysis processing of the first analysis unit 21 and the second analysis unit 23 combined.
  • the overall language analysis processing combining the first analysis unit 21 and the second analysis unit 23 is not limited to morphological analysis processing, Change appropriately if it is a language analysis process that consists of multiple phases, such as semantic analysis, machine translation, speech synthesis, and speech recognition, and in which the ambiguity in the middle phase is resolved by the later phase Is possible.
  • the contradiction detection case stored in the appearance case storage unit 31 may be created manually.
  • this case may not be created in advance, and may be stored in the appearance case storage unit 31 as an output force case of the contradiction adjustment unit 242 in the course of language processing. Furthermore, the contradiction detection unit 242 may be added with the output power of the contradiction adjustment unit 242 after a case for contradiction detection is stored in advance.
  • the information referred to in the grammar element is information related to the grammar element, any one or combination of the surface layer, the part of speech, and the utilization form, Other than these may be used.
  • each grammar element may not be unified.
  • the function word may refer to the surface layer, and the independent word may not change the surface layer.
  • the knowledge base may be updated in step A7 for each input without performing step A6.
  • the output power of the contradiction adjustment unit 242 may be stored as it is in the knowledge base.
  • the first analysis unit 21 analyzes the character string input from the input device 1 up to a phase in the middle of the syntax analysis process (step Bl). If the character string includes a multiple meaning word, the first analysis unit 21 outputs a plurality of analysis results for the character string according to the plurality of meanings of the multiple meaning word.
  • the ambiguity reduction unit 22 refers to the meanings of the ambiguous words in the analysis results of the first analysis unit 21 and information about other words, and the knowledge base in the knowledge base storage unit 32. And each analysis Whether or not the result is accepted is determined, and the analysis result determined to be “not adopted” is deleted from the analysis result force (step B2).
  • the second analysis unit 23 analyzes the remaining phase using the analysis result left in the ambiguity reduction unit 22 (step B3).
  • the second analysis unit 23 outputs the analysis result obtained last as a result of the analysis to the output device 4 (step B4).
  • the first analysis unit 21 outputs the generation unit composed of the case extraction unit 241, the contradiction adjustment unit 242, the knowledge base construction unit 243, and the appearance case storage unit 31. Even if a plurality of analysis results are deleted, the analysis result adopted by the second analysis unit 23 is maintained, and a deletion rule for deleting unnecessary analysis results of the first analysis unit 21 is set as the first rule. It is generated based on a plurality of analysis results output from the analysis unit 21 and the adoption result of the second analysis unit 24.
  • the contradiction adjustment unit 242 causes the case extraction unit 241 to store cases that contradict the cases extracted by the case extraction unit 241 (inconsistent cases) in the appearance case storage unit 21. Correct the adoption information of the case extracted from “not adopted” to “adopted”. For this reason, the ambiguity reduction unit 22 using the knowledge base created based on the output of the contradiction adjustment unit 242 reduces the possibility of erroneous search result reduction.
  • the first analysis unit 21 can be broadly divided into a statistical base analysis based on a statistical model and a rule base analysis that performs analysis based on manually created rules ( The power that can be considered as two types (rule-based method) The present embodiment provides a greater effect on the analysis unit based on rule-based analysis.
  • the reason is as follows. [0108] In many cases, the first analysis unit 21 performs ambiguity reduction independently, and the ambiguity reduction unit 2 2 has ambiguity that the first analysis unit 21 could not reduce (analysis result). To reduce.
  • the first analysis unit 21 performs a morphological analysis process that divides the input sentence into words and assigns parts of speech, and the second analysis unit 23 determines the dependency between words. Dependency decision processing is performed.
  • the information referenced by the case extraction unit 241 includes the surface layer (however, the word with ambiguousness (polysemy)) and the function of the word with ambiguousness (ambiguity) and the word immediately before and after it. Words) and parts of speech.
  • the knowledge base creation method in the knowledge base construction unit 243 is the support vector machine method (hereinafter referred to as the SVM method).
  • the appearance case storage unit 31 stores a large amount of sentences in the first analysis unit 21 and the second analysis unit 2.
  • Cases obtained by supplying the result analyzed in 3 to the case extraction unit 241 are stored.
  • FIG. 3A is an explanatory view showing a specific example of the case stored in the appearance case storage unit 31.
  • the fourth example of the top strength in Figure 3A can be obtained from the input sentence “If you can solve the problem, you will be happy”.
  • the word “toke” has two meanings: a verb with the meaning of "(thing) melts” and a possible verb that is a possible form of "(solve)”. Have ambiguity.
  • the morpheme analysis results of representations 1 to 3 by the first analysis unit 21 have an ambiguity structure having a plurality of morpheme analysis results as shown in FIG. 3B.
  • the unnecessary ambiguity learning unit 24 creates a case for learning the knowledge base from the output of the first analysis unit 21 and the adoption result of the second analysis unit 23.
  • the creation of examples in this example means that for each morpheme analysis result of the first analysis unit, the surface layer (however, ambiguous) of the word with ambiguity (polysemy) and the word immediately before and after it ), Part-of-speech information, and acceptance / rejection information in the second analysis unit 23 for each analysis result.
  • the acceptance / rejection information is either “adopted” or “not adopted” and takes a binary value.
  • Example 1 [Previous word (surface layer: / / part of speech: particle), ambiguous word (surface layer: Toku / part of speech: verb), immediately following word (surface layer: / / part of speech: citation particle)] ⁇ not adopted
  • Example 2 [Previous word (surface layer: / part of speech: particle), ambiguous word (surface layer: Toku / part of speech: verb), word immediately after (surface layer: and / part of speech: connection particle)] ⁇ not adopted To reduce the amount of computation during learning, it is desirable to reduce the number of cases as much as possible.
  • FIG. 3C is an explanatory diagram showing the results of creating examples of all morphological analysis results of expressions 1 to 3 in this way.
  • the unnecessary ambiguity learning unit 24 compares the obtained case with the contradiction verification case stored in the appearance case storage unit 31 and confirms that there is no contradiction. To do.
  • the fourth case of the top force in Figure 3C is a case where there is a contradiction because the feature set is the same and the acceptance information is different compared to the fourth case of the top force in Figure 3A.
  • the contradiction adjustment unit 242 corrects the acceptance / rejection information of the obtained case from “non-adopted” to “adopted”.
  • the correction is not performed because a model is created that uniformly deletes ambiguity that is essentially impossible to reduce ambiguity.
  • the C recruitment information item is marked with “(Contradiction)”.
  • the contradiction adjustment unit 242 finishes the correction, the contradiction adjustment unit 242 provides the knowledge base construction unit 243 with the corrected cases and the cases that have not been corrected.
  • the knowledge base construction unit 243 obtains the SV from the case accepted from the contradiction adjustment unit 242.
  • the knowledge base construction unit 243 performs binary classification learning with the feature set of each case as an input and the acceptance / rejection information as a class to be classified.
  • Classifiers such as SVM, maximum entropy method, and decision tree are examples of input cases It tries to learn the boundary line that is classified according to the class shown in.
  • the knowledge base construction unit 243 roughly determines that the morphological analysis result of the verb "Toke” (melts) with the particle "O" immediately before is "not adopted” For a plurality of morphological analysis results (ambiguity) for the word “to”, V obtains a model (knowledge base) that is determined to be “adopted” even in any context, and stores this in the knowledge base storage unit 32.
  • the first analysis unit 21 outputs the morphological analysis result having the ambiguity shown in FIG. 3B, that is, a plurality of morphological analysis results, as in the learning. Output.
  • the ambiguity reduction unit 22 creates a feature set for each morpheme analysis result, and the feature set is determined to be “not adopted” by the classifier stored in the knowledge base. In this case, the morphological analysis result corresponding to the composition set is removed.
  • Feature set 1 [Previous word (surface layer: / / part of speech: particle), Ambiguous word (surface layer: Toku / part of speech: verb), Word immediately after (surface layer: / / part of speech: quotation particle) ]
  • Feature Set 2 [Previous Word (Surface: To / Part of Speech: Particle), Ambiguous Word (Surface: Tokake / Part of Speech: Verb), Immediate Word (Surface: To / Part of Speech: Conjunctive)]
  • the ambiguity deletion unit 22 determines acceptance / rejection of each feature set by a model in the knowledge base storage unit 32. In this case, the ambiguity removal unit 22 determines that the word having ambiguity in both feature sets 1 and 2 is the verb “Toku (dissolves)” and the particle “O” exists immediately before it. To do.
  • the morpheme analysis result deleted by the ambiguity reduction unit 22 is a morphological analysis result that is not adopted by the second analysis unit 23 even if the ambiguity reduction unit 22 does not remove it.
  • the analysis result of the second analysis unit 23 does not change due to the ambiguity reduction.
  • Japanese is described as an example, but the language to be analyzed is not limited to Japanese.
  • the second example is almost the same as the first example except that the knowledge base construction unit 243 directly stores the case received from the contradiction adjustment unit 242 in the knowledge base storage unit 32. It is a configuration.
  • the contradiction adjustment unit 242 obtains the example shown in FIG. 3C as in the first example (note that the example given the contradiction mark is The acceptance / rejection information has been modified to “ recruit”
  • the knowledge base construction unit 243 stores the example obtained from the contradiction adjustment unit 242 as it is in the knowledge base storage unit 32.
  • the first analysis unit 21 when expressions 1 to 3 are input, the first analysis unit 21 outputs a plurality of morphological analysis results with ambiguity shown in FIG.
  • the ambiguity deletion unit 22 can obtain the same feature set as each morphological analysis result power first embodiment.
  • the ambiguity deletion unit 22 performs acceptance / rejection determination for each feature set as follows.
  • the ambiguity deletion unit 22 determines whether or not the knowledge base storage unit 32 matches the feature sets, and determines whether the knowledge base storage unit 32 has been accepted or rejected. As a result.
  • the ambiguity removal unit 22 has a corresponding case in the knowledge base storage unit 32.
  • the determination result is also “recruitment” and the acceptance information of the corresponding case is
  • the determination result is also “Non-adopted”, and when there is no applicable case, the determination result is “Pending”.
  • the ambiguity deletion unit 22 performs determination on each morpheme analysis result as follows.
  • the ambiguity deletion unit 22 determines that the morphological analysis result is "adopted”, and the feature set corresponding to "adopt" is one. If there is at least one feature set that is “not adopted” when none exists, the result of the morpheme analysis is determined as “not adopted”, otherwise it is set as “adopted”.
  • Feature set 1 is the feature set of the first case from the top in Fig. 3C.
  • the feature set 1 is determined to be “not adopted” because the acceptance information is “non-adopted”, while the feature set 2 is determined to be “not adopted” because there is no case in the knowledge base that has the same feature set. "Hold”.
  • the present invention is a machine translation program that translates from a first natural language to a second natural language, a text mining program that extracts a series of words that are also characterized by a writing ability, and a time parsing process. It can be applied to natural language processing needs.
  • the illustrated configuration is merely an example, and the present invention is not limited to the configuration.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

 言語処理装置は、多義語と他の語とを含む自然言語文に対して所定の解析を行い、該多義語の有する複数の意味に応じて、該自然言語文に対する複数の解析結果を出力する第1の解析部21と、第1の解析部21が出力した複数の解析結果に対して特定の解析を行って該複数の解析結果から1つの解析結果を採用する第2の解析部23と、第1の解析部21が出力した複数の解析結果から削除されても、第2の解析部23が採用する解析結果が維持される、第1の解析部21の不要な解析結果を削除するための削除規則を、第1の解析部21が出力した複数の解析結果と第2の解析部23の採用結果とに基づいて生成する生成部244と、を含む。

Description

明 細 書
言語処理装置、言語処理方法および言語処理用プログラム
技術分野
[0001] 本発明は、自然言語処理における形態素解析または構文解析などを行う言語処理 装置、言語処理方法および言語処理用プログラムに関し、特に、元となる言語解析 処理の解析結果を変えることなく解析途中の曖昧性を削減し、高速に解析処理を行 うことが可能な言語処理装置、言語処理方法および言語処理用プログラムに関する 背景技術
[0002] 機械翻訳またはテキストマイニング等に代表される自然言語処理では、入力された 文を解析する構文解析処理が重要である。
[0003] 構文解析処理では、入力された文に対して、(1)文を単語に区切る、(2)各単語に品 詞を付与する、(3)単語間の係り受けを決定する、(4)単語に意味情報を付与する、と
V、つた一連の処理が行われる。
[0004] しかし、自然言語の単語および句などの文法要素は、複数の意味や複数の品詞な どの複数の文法上の働きを持ちうるため、単独では、一つの意味に特定されず複数 の意味を有する曖昧性を持ちうる。
[0005] このため、構文解析処理では、文法要素の曖昧性を考慮しながら、解析が行われ る。
[0006] 具体的には、言語処理装置は、複数の意味または複数の品詞などの文法上の働き を持つ単語または句などの文法要素 (以下「多義語」と称する。 )を含む文を解析する 際、以下のように解析を行う。
[0007] まず、言語処理装置は、多義語が有する複数の文法上の働き (以下「複数の意味」 と称する。 )に応じて、複数の候補を作成する。その後、言語処理装置は、それら複 数の候補を解析して 1つの解析結果を出力する。
[0008] よって、言語処理装置は、多義語を含む文を解析する際、構文解析処理に多大な 時間がかかる。 [0009] 構文解析処理を高速化する方法は、従来力 多く提案されている。例えば、削除し ても構文解析結果が変わらない不必要な候補を、早期に削減することにより、処理を 高速化すると ヽぅ方法がある。
[0010] この不必要な候補を特定するための規則を作成する方法としては、その規則を事 前に人手で列挙する t 、う方法が従来提案されて 、るが、人手でのデータ作成は、 コストがかかるため現実的ではな!/、。
[0011] 一方、特許文献 1 (特開平 2— 114377号公報)には、構文解析処理の解析結果の 実例から、曖昧性解消のモデル (規則)を学習する自然言語処理装置が記載されて いる。
[0012] 具体的には、特許文献 1には、構文解析処理の解析結果から品詞の曖昧性を解消 するモデルを学習する自然言語処理装置が記載されて!ヽる。
[0013] この従来の自然言語処理装置は、形態素解析部と、構文解析部と、学習装置と、 学習結果保持部と、から構成されている。このような構成を有する従来の自然言語処 理装置は、次のように動作する。
[0014] 形態素解析部は、入力された文を形態素解析する。構文解析部は、形態素解析結 果を基に構文解析を行う。学習装置は、形態素解析部が出力した曖昧性のある品詞 列と、構文解析部での解析の結果に基づいて決定された品詞列と、を入力として、品 詞推定を行う統計モデルを学習する。学習結果保持部は、学習装置で学習された結 果を保持する。次回以降の解析処理では、構文解析部が、学習結果保持部の学習 結果を利用して品詞推定を行い、早期に品詞列の曖昧性を解消する。
特許文献 1 :特開平 2— 114377号公報
発明の開示
発明が解決しょうとする課題
[0015] 特許文献 1に記載の従来の自然言語処理装置は、曖昧性を解消するために、品詞 推定を行うが、その際、誤った品詞推定を行う可能性を有している。よって、従来の自 然言語処理装置は、誤った品詞推定を行った場合、曖昧性を解消しない場合の構 文解析結果と異なる構文解析結果を出力する可能性がある。
[0016] そのため、従来の自然言語処理装置では、構文解析結果を変えな!/、不必要な候 補だけを削減するという目的を達成することはできない。
[0017] なお、従来の自然言語処理装置で誤った品詞推定が起こる理由は、本質的に削減 できない候補が有るにもかかわらず、統計モデルでは、その候補の存在を考慮せず に、最も尤もらし 、解 (候補)を推定する最尤推定が行われて 、るためである。
[0018] 例えば、「走る/と/彼/は/言う」(表現 1)と、「走る/と/彼/は/疲れる」(表現 2)という 2つの表現について考えてみる。なお、表現中のスラッシュ記号は、単語区切りを表 す。
[0019] ここで、単語「と」には、直前の句が引用表現であることを表す「引用助詞」、および
、時間の推移を表す「接続助詞」、という 2つの文法上の働き (意味)すなわち 2つの 候補がある。よって、単語「と」は、曖昧性を有する。
[0020] いずれの候補が正解となるかは、多くの場合、「と」の後ろに、引用表現を受けること が出来る動詞が存在するか否かによって決定される。
[0021] 上記の例では、表現 1では、「言う」という引用表現を受ける動詞があるため、「引用 助詞」が正解となり、表現 2では、該当する動詞がないため、「接続助詞」が正解とな る。
[0022] し力しながら、従来の自然言語処理装置のように、品詞だけに着目した学習が行わ れる場合、表現 2とも、学習時に参照できる情報としては、「動詞/と/名詞/助詞/ 動詞」と同一になる。このため、表現 2における品詞推定を異なる結果にすること は、本質的に不可能である。
[0023] このような矛盾したデータが学習データとして使用された場合、最尤推定の統計学 習においては、一般には、学習データ中でより頻度の高い品詞を単語の品詞として 推定するモデルが学習される。
[0024] 例えば「接続助詞」の頻度の方が「引用助詞」の頻度より高い場合、表現 1が解析 対象の際の曖昧性削減処理では、頻度が低いが本来の正解である「引用助詞」が削 除され、結果として、元の構文解析結果とは異なる構文解析結果が出力される。
[0025] このような学習データ中の矛盾は、学習時に品詞だけを参照した場合だけでなぐ 統計モデル学習全般につ!/、て起こる。
[0026] 統計モデル学習にお!/、ては、データスパースネスを防ぐために、参照する情報を有 限の空間に制限するため、当該空間外の情報を用いないと曖昧性が解消できない 例に関しては、同様に学習データ中の矛盾が生じる。
[0027] 本発明の目的は、最終的な解析結果を変化させない不要な候補のみを除去するこ とを可能にする言語処理装置、言語修理方法および言語処理用プログラム、および 、その不要な候補のみを除去することで、解析結果を変えることなぐより高速に解析 処理を行うことができる言語処理装置、言語修理方法および言語処理用プログラムを 提供することにある。
課題を解決するための手段
[0028] 上記目的を達成するために、本発明の言語処理装置は、多義語と他の語とを含む 自然言語文に対して所定の解析を行い、該多義語の有する複数の意味に応じて、 該自然言語文に対する複数の解析結果を出力する第 1の解析部と、前記第 1の解析 部が出力した複数の解析結果に対して特定の解析を行って該複数の解析結果から 1つの解析結果を採用する第 2の解析部と、前記第 1の解析部が出力した複数の解 析結果力 削除されても、前記第 2の解析部が採用する解析結果が維持される、該 第 1の解析部の不要な解析結果を削除するための削除規則を、該第 1の解析部が出 力した複数の解析結果と該第 2の解析部の採用結果とに基づいて生成する生成部と 、を含む。
[0029] また、本発明の言語処理方法は、多義語と他の語とを含む自然言語文に対して所 定の解析を行い、該多義語の有する複数の意味に応じて、該自然言語文に対する 複数の解析結果を出力する第 1の解析ステップと、前記複数の解析結果に対して特 定の解析を行って該複数の解析結果から 1つの解析結果を採用する第 2の解析ステ ップと、前記複数の解析結果から削除されても、前記第 2の解析ステップで採用され る解析結果が維持される、該第 1の解析ステップでの不要な解析結果を削除するた めの削除規則を、該第 1の解析ステップにて出力された複数の解析結果と該第 2の 解析ステップでの採用結果とに基づ 、て生成する生成ステップと、を含む。
[0030] 上記発明によれば、第 1の解析部の複数の解析結果力 削除されても、第 2の解析 部で採用される解析結果が維持される、第 1の解析部での不要な解析結果を削除す るための削除規則が、第 1の解析部にて出力された複数の解析結果と第 2の解析部 での採用結果とに基づ 、て生成される。
[0031] このため、第 2の解析部にて採用されなかった第 1の解析部の解析結果から、第 2 の解析部が正確な解析結果を採用するために必要な解析結果が削除されることを防 止できる。よって、最終的な解析結果を変化させない不要な候補 (解析結果)のみを 除去することが可能になる。
[0032] また、本発明の言語処理装置は、多義語と他の語とを含む自然言語文に対して所 定の解析を行い、該多義語の有する複数の意味に応じて、該自然言語文に対する 複数の解析結果を出力する第 1の解析部と、前記第 1の解析部が出力した複数の解 析結果に対して特定の解析を行って該複数の解析結果から 1つの解析結果を採用 する第 2の解析部と、前記多義語の 1つの意味と他の語に関する情報との組合せごと に、該組合せを採用するカゝ否カゝを表す判断情報が記憶されている記憶部と、前記第 1の解析部が出力した各解析結果中の前記多義語の意味および他の語に関する情 報との組合せごとに、該組合せが該第 2の解析部で採用された力否力を表す採否情 報を、該第 1の解析部が出力した複数の解析結果と前記第 2の解析部の採用結果と に基づ!/、て生成する採否情報生成部と、前記採否情報生成部が生成した採否情報 で不採用とされた前記組合せが、前記記憶部で採用を表す判断情報と対応している 場合、該採否情報を採用に変更し、その後、前記複数の解析結果から不要な解析 結果を削除するための削除規則を、変更された該採否情報と変更されな力 た該採 否情報とに基づいて生成する規則生成部と、を含む。
[0033] また、本発明の言語処置方法は、多義語の 1つの意味と他の語に関する情報との 組合せごとに、該組合せを採用するカゝ否かを表す判断情報が記憶されて ヽる記憶部 を含む言語処理装置が行う言語処理方法であって、多義語と他の語とを含む自然言 語文に対して所定の解析を行い、該多義語の有する複数の意味に応じて、該自然 言語文に対する複数の解析結果を出力する第 1の解析ステップと、前記複数の解析 結果に対して特定の解析を行って該複数の解析結果から 1つの解析結果を採用す る第 2の解析ステップと、前記第 1の解析ステップで出力された各解析結果中の前記 多義語の意味および他の語に関する情報との組合せごとに、該組合せが該第 2の解 析ステップで採用されたカゝ否カゝを表す採否情報を、該第 1の解析ステップで出力され た複数の解析結果と前記第 2の解析ステップの採用結果とに基づいて生成する採否 情報生成ステップと、前記採否情報で不採用とされた前記組合せが、前記記憶部で 採用を表す判断情報と対応している場合、該採否情報を採用に変更し、その後、前 記複数の解析結果力 不要な解析結果を削除するための削除規則を、変更された 該採否情報と変更されな力つた該採否情報とに基づいて生成する規則生成ステップ と、を含む。
[0034] 上記発明によれば、第 2の解析部にて採用されな力つた解析結果内の組合せが、 記憶部で採用を表す判断情報と対応していると、その組合せの採否情報が採用に 変更され、その後、第 1の解析部の複数の解析結果から不要な解析結果を削除する ための削除規則が、変更された採否情報と変更されなカゝつた採否情報とに基づいて 生成される。
[0035] このため、第 2の解析部にて採用されなかった第 1の解析部の解析結果から、第 2 の解析部が正確な解析結果を採用するために必要な解析結果が削除されることを防 止できる。よって、最終的な解析結果を変化させない不要な候補 (解析結果)のみを 除去することが可能になる。
[0036] なお、前記多義語の意味と前記他の語に関する情報との組合せは、該多義語とそ の周辺の単語との表層、原型、品詞、活用形の 1つないしその組み合わせであること が望ましい。
[0037] また、前記第 1の解析部は、予め定められた所定の規則に基づいて解析を行うル ールベース方式により、前記自然言語文を解析することが望まし 、。
[0038] 上記発明によれば、第 1の解析部での解析方式がルールベース方式となり、削除 規則の作成に用いられる統計モデルに基づいた統計ベース解析と、解析方式が異 なる。よって、削除規則に基づく削除処理が有効に機能する可能性が高くなる。
[0039] また、本発明の言語処理装置は、上記言語処理装置にて生成された削除規則を 記憶する知識ベース記憶部と、多義語と他の語とを含む自然言語文に対して所定の 解析を行い、該多義語の有する複数の意味に応じて、該自然言語文に対する複数 の解析結果を出力する第 1の解析部と、前記知識ベース記憶部に記憶されている削 除規則に基づいて、前記第 1の解析部が出力した複数の解析結果力も不要な解析 結果を削除する曖昧性削減部と、前記曖昧性削減部にて前記不要な解析結果が削 除された複数の解析結果に対して特定の解析を行って該複数の解析結果から 1つ の解析結果を採用する第 2の解析部と、を含む。
[0040] また、本発明の言語処理方法は、言語処理装置にて生成された削除規則を記憶 する知識ベース記憶部を含む言語処理装置が行う言語処理方法であって、多義語 と他の語とを含む自然言語文に対して所定の解析を行 ヽ、該多義語の有する複数の 意味に応じて、該自然言語文に対する複数の解析結果を出力する第 1の解析ステツ プと、前記知識ベース記憶部に記憶されている削除規則に基づいて、前記複数の解 析結果力 不要な解析結果を削除する曖昧性削減ステップと、前記不要な解析結果 が削除された複数の解析結果に対して特定の解析を行って該複数の解析結果から 1つの解析結果を採用する第 2の解析ステップと、を含む。
[0041] 上記発明によれば、第 2の解析部にて採用されな力つた第 1の解析部の解析結果 から、第 2の解析部が正確な解析結果を採用するために必要な解析結果が削除され なくなり、不要な解析結果のみを削除可能となる。このため、第 2の解析部の解析結 果の精度を保ちながら、第 2の解析部の処理を少なくすることが可能となる。
[0042] また、本発明の言語処理用プログラムは、コンピュータに言語処理を実行させる言 語処理用プログラムであって、多義語と他の語とを含む自然言語文に対して所定の 解析を行い、該多義語の有する複数の意味に応じて、該自然言語文に対する複数 の解析結果を出力する第 1の解析処理と、前記複数の解析結果に対して特定の解 析を行って該複数の解析結果から 1つの解析結果を採用する第 2の解析処理と、前 記複数の解析結果から削除されても、前記第 2の解析処理で採用される解析結果が 維持される、該第 1の解析処理での不要な解析結果を削除するための削除規則を、 該第 1の解析処理にて出力された複数の解析結果と該第 2の解析処理での採用結 果とに基づいて生成する生成処理と、を含む言語処理をコンピュータに実行させる。
[0043] また、本発明の言語処理用プログラムは、多義語の 1つの意味と他の語に関する情 報との組合せごとに、該組合せを採用するカゝ否カゝを表す判断情報が記憶されている 記憶部と接続されたコンピュータに、言語処理を実行させる言語処理用プログラムで あって、多義語と他の語とを含む自然言語文に対して所定の解析を行い、該多義語 の有する複数の意味に応じて、該自然言語文に対する複数の解析結果を出力する 第 1の解析処理と、前記複数の解析結果に対して特定の解析を行って該複数の解 析結果から 1つの解析結果を採用する第 2の解析処理と、前記第 1の解析処理で出 力された各解析結果中の前記多義語の意味および他の語に関する情報との組合せ ごとに、該組合せが該第 2の解析処理で採用されたか否かを表す採否情報を、該第 1の解析処理で出力された複数の解析結果と前記第 2の解析処理の採用結果と〖こ 基づ 、て生成する採否情報生成処理と、前記採否情報で不採用とされた前記組合 せが、前記記憶部で採用を表す判断情報と対応している場合、該採否情報を採用 に変更し、その後、前記複数の解析結果から不要な解析結果を削除するための削除 規則を、変更された該採否情報と変更されなカゝつた該採否情報とに基づ ヽて生成す る規則生成処理と、を含む言語処理を、前記コンピュータに実行させる。
[0044] また、本発明の言語処理用プログラムは、言語処理装置にて生成された削除規則 を記憶する知識ベース記憶部と接続されたコンピュータに、言語処理を実行させる言 語処理用プログラムであって、多義語と他の語とを含む自然言語文に対して所定の 解析を行い、該多義語の有する複数の意味に応じて、該自然言語文に対する複数 の解析結果を出力する第 1の解析処理と、前記知識ベース記憶部に記憶されている 削除規則に基づいて、前記複数の解析結果から不要な解析結果を削除する曖昧性 削減処理と、前記不要な解析結果が削除された複数の解析結果に対して特定の解 析を行って該複数の解析結果から 1つの解析結果を採用する第 2の解析処理と、を 含む言語処理を、前記コンピュータに実行させる。
[0045] 上記発明によれば、上記言語処理方法をコンピュータに実行させることが可能とな る。
発明の効果
[0046] 本発明によれば、最終的な解析結果を変化させな!/、不要な候補のみを除去するこ とが可能になり、また、その不要な候補のみを除去することで、解析結果を変えること なぐより高速に解析処理を行うことが可能になる。
図面の簡単な説明
[0047] [図 1]図 1は、本発明の第 1の実施の形態の構成を示すブロック図である。 [図 2]図 2は、図 1に示した言語処理装置の動作を示す流れ図である。
[図 3A]図 3Aは、出現事例記憶部 31に記憶されている矛盾検出用事例の具体例を 示した説明図である。
圆 3B]図 3Bは、曖昧性を持つ形態素解析結果の具体例を示した説明図である。
[図 3C]図 3Cは、図 3Bの解析結果力 得られる事例の具体例を示した説明図である 符号の説明
1 入力装置
2 データ処理装置
21 第 1の解析部
22 曖昧性削減部
23 第 2の解析部
24 不要曖昧性学習部
241 事例抽出部
242 矛盾調整部
243 知識ベース構築部
244 規則生成部
3 記憶装置
31 出現事例記憶部
32 知識ベース記憶部
4 出力装置
5 プログラム記憶部
発明を実施するための最良の形態
[0049] 次に、本発明を実施するための最良の形態について図面を参照して詳細に説明 する。
[0050] 図 1は、本発明を実施するための第 1の実施の形態の構成を示すブロック図である [0051] 図 1において、第 1の実施の形態の言語処理装置は、キーボード等の入力装置 1と 、プログラム制御により動作するデータ処理装置 (コンピュータ) 2と、情報を記憶する 記憶装置 3と、ディスプレイ装置または印刷装置等の出力装置 4と、データ処理装置 2の動作を規定するプログラムを記憶するプログラム記憶部(コンピュータにて読み取 り可能な記録媒体) 5とを含む。
[0052] 記憶装置 3は、出現事例記憶部 31と知識ベース記憶部 32を備えている。
[0053] 出現事例記憶部 31には、予め、矛盾検出用の事例が記憶されている。
[0054] 矛盾検出用の事例は、好適には第 1の解析部 21と第 2の解析部 23によって大量の 文が構文解析され、その各々の結果力 知識ベース構築部 243に与える事例と同形 式のデータを抽出することで作成される。矛盾検出の性能は、ここで作成される事例 の数が多いほど高くなる。
[0055] 各事例では、多義語の 1つの意味と他の語に関する情報との組合せが、その組合 せを採用する力否力を表す判断情報と関連づけられている。
[0056] なお、多義語は、複数の意味または複数の品詞などの文法上の働きを持つ単語ま たは句などの文法要素として、定義される。また、他の語に関する情報は、多義語と 異なる語に関する情報 (例えば、多義語の直前の語の品詞)である。
[0057] 知識ベース記憶部 32には、知識ベース構築部 243で作成された知識ベース (例え ば、削除規則)が記憶される。
[0058] データ処理装置 2は、第 1の解析部 21と、曖昧性削減部 22と、第 2の解析部 23と、 事例抽出部 241と、矛盾調整部 242と、知識ベース構築部 243とを備えている。なお 、矛盾調整部 242と、知識ベース構築部 243とで、規則生成部 244を構成する。また 、事例抽出部 241と、矛盾調整部 242と、知識ベース構築部 243と、出現事例記憶 部 31とで、生成部を構成する。
[0059] データ処理装置 2は、例えば、プログラム記憶部 5に記録されているプログラムを読 み取り、そのプログラムを実行することによって、第 1の解析部 21と、曖昧性削減部 2 2と、第 2の解析部 23と、事例抽出部 241と、矛盾調整部 242と、知識ベース構築部 243とを実現する。
[0060] なお、第 1の解析部 21と、曖昧性削減部 22と、第 2の解析部 23と、事例抽出部 24 1と、矛盾調整部 242と、知識ベース構築部 243とは、ハードウェアにて構成されても よい。
[0061] これらの構成部は、概略次のように動作する。
[0062] 第 1の解析部 21は、構文解析処理を途中のフェーズまで行う。構文解析処理が XI 〜Xnの nフェーズからなる場合、第 1の解析部 21は、 Xl〜Xm (m≠n)までの解析 を行う。
[0063] また、第 1の解析部 21は、多義語と他の語とを含む自然言語文に対して所定の解 析 (Xl〜Xm (m≠n)までの解析)を行 、、その多義語の有する複数の意味に応じて
、その自然言語文に対する複数の解析結果を出力する。
[0064] 曖昧性削減部 22は、第 1の解析部 21が出力した複数の解析結果から、知識べ一 ス記憶部 32に記憶されて 、る知識ベースに基づ 、て「不採用」と判定される解釈結 果を除去する。なお、曖昧性削減部 22は、動作が禁止されると、第 1の解析部 21が 出力した複数の解析結果を、第 2の解析部 23に提供する。
[0065] 第 2の解析部 23は、曖昧性削減部 22の出力を元に、第 1の解析部 21が行った解 析処理以降のフェーズの解析処理を行う。
[0066] 具体的には、第 2の解析部 23は、曖昧性削減部 22の出力(例えば、第 1の解析部
21が出力した複数の解析結果)に対して特定の解析 (Xm+ l〜Xnまでの解析)を 行って複数の解析結果から 1つの解析結果を採用する。
[0067] 事例抽出部 241は、第 1の解析部 21の解析結果ごとに、第 2の解析部 23の出力に おける採否を表す採否情報と、知識ベース構築部 243で知識ベースを構築するのに 用いる各解析結果での曖昧性に関する情報、すなわち、素性集合と、に基づいて、 事例を作成する。
[0068] 具体的には、事例抽出部 241は、採用情報生成部の一例であり、第 1の解析部 21 が出力した複数の解析結果と第 2の解析部 23の採用結果とに基づいて、各解析結 果中から、多義語の意味と他の語に関する情報との組合せ (素性集合を含む)すな わち事例を抽出する。
[0069] さらに、事例抽出部 241は、第 1の解析部 21が出力した複数の解析結果と第 2の解 析部 23の採用結果とに基づいて、事例ごとに、その事例が第 2の解析部 23で採用さ れたか否かを表す採否情報を生成し、その採否情報を、その事例に付与する。 [0070] 矛盾調整部 242は、出現事例記憶部 31に記憶された大量の事例と、事例抽出部 2 41で得られた事例をつきあわせ、矛盾した事例が存在しないか確認する。矛盾調整 部 242は、矛盾した事例が存在する場合は、事例抽出部 241で得られた事例の採否 情報を「不採用」から「採用」の方向にのみ修正する。
[0071] 知識ベース構築部 243は、矛盾調整部 242が出力する事例に基づいて、曖昧性 削減のための知識ベース (例えば、第 1の解析部 21の複数の解析結果から不要な 解析結果を削除するための削除規則)を作成し、その知識ベースを知識ベース記憶 部 32に格納する。
図 2は、図 1に示した言語処理装置の動作を説明するためのフローチャートである。 以下、図 1および図 2を参照して、図 1に示した言語処理装置の全体の動作について 詳細に説明する。
[0072] まず、知識ベースを学習する際の動作 (例えば、第 1の解析部 21の複数の解析結 果カも不要な解析結果を削除するための削除規則を作成する際の動作)について 説明する。
[0073] 入力装置 1から与えられた入力文字列は、第 1の解析部 21と第 2の解析部 23により 構文解析される (ステップ Al)。なお、入力文字列は、多義語と他の語とを含む。
[0074] 本実施形態では、第 1の解析部 21は、入力文を単語に区切って品詞を付与する形 態素解析処理を行い、第 2の解析部 23は、単語間の係り受けを決定する係り受け決 定処理を行う。この際、曖昧性削減部 22は、曖昧性削減を行わなくてもよい。
[0075] 次に、事例抽出部 241は、第 1の解析部 21が出力した複数の解析結果と、第 2の 解析部 23の採用結果と、を受け付け、それらをまとめた情報力 事例を抽出する。な お、事例は、各解析結果内の多義語の意味および他の語に関する情報との組合せ( 素性集合を含む)と、その組合せが第 2の解析部 23で採用された力否力を表す採否 情報とを含む (ステップ A2)。
[0076] 本実施形態では、第 1の解析部 21が出力する解析結果は、単語区切りおよび品詞 の曖昧性を有する。また、本実施形態では、素性集合は、曖昧性を有する多義語( 単語)とその直前と直後の単語と、の表層、品詞および活用形とを含む。
[0077] 次に、矛盾調整部 242は、出現事例記憶部 31に記憶された事例と、事例抽出部 2 41で得られた事例をつきあわせ、矛盾した事例が存在しないか確認する (ステップ A 3)。
[0078] 矛盾は、事例抽出部 241で得られた事例と素性集合が同一で採否情報が異なる 事例が、出現事例記憶部 31に存在することを表す。
[0079] 矛盾調整部 242は、矛盾した事例が存在する場合は、事例抽出部 241で得られた 事例の採否情報を「不採用」から「採用」の方向にのみ修正する (ステップ A4)。
[0080] 矛盾調整部 242が、この修正を行うことで、削除された場合に学習データに矛盾し た事例が存在してしまうという、本質的に曖昧性削減が不可能な解析結果を、誤って 削減するモデル力 作成されにくくなる。
[0081] 矛盾調整部 242の出力である事例は、一時的に知識ベース構築部 243内のメモリ に格納される (ステップ A5)。
[0082] ここで、第 1の解析部 21は、入力可能な文字列が残っているか確認する (ステップ
A6)。
[0083] 入力可能な文字列が残っている場合は、残りの入力について、ステップ A1からス テツプ A5の処理が繰り返えされる。
[0084] 入力可能な文字列が残って!/、な 、場合は、知識ベース構築部 243は、矛盾調整 部 242の出力として得られた事例を元に、曖昧性削減のための知識ベースを作成し
、その知識ベースを知識ベース記憶部 32に格納する。
[0085] 本実施形態では、知識ベースの作成方法として、決定木、最大エントロピ一法、サ ポートベクターマシン法などの学習器を用いた統計モデル作成方法が用いられる。
[0086] 以下では、本実施形態の他のバリエーションについて述べる。
[0087] 第 1の解析部 21と第 2の解析部 23は、第 1の解析部 21の解析結果の曖昧性が第 2 の解析部 23により削減されるという組み合わせであれば、適宜変更可能である。
[0088] 例えば、第 1の解析部 21が、形態素解析と文節纏め上げ処理を行い、第 2の解析 部 23が、文節間の係り受け解析を行ってもよい。
[0089] また、本実施形態では、第 1の解析部 21と第 2の解析部 23を合わせた全体の言語 解析処理として、構文解析処理が用いられた。しカゝしながら、第 1の解析部 21と第 2 の解析部 23を合わせた全体の言語解析処理は、それ以外にも、形態素解析処理、 意味解析処理、機械翻訳処理、音声合成処理および音声認識処理などの、複数フ エーズからなり、かつ、途中のフェーズでの曖昧性が後段のフェーズによって解消さ れる言語解析処理であれば、適宜変更可能である。
[0090] 出現事例記憶部 31に格納される矛盾検出用の事例は、人手で作成されてもよい。
また、この事例が予め作成されず、言語処理の過程での矛盾調整部 242の出力力 事例として、出現事例記憶部 31に格納されていってもよい。更には、予め矛盾検出 用の事例が蓄えられた上で、矛盾調整部 242の出力力 その事例に追加されていつ てもよい。
[0091] 知識ベースを構築するのに用いる素性集合として参照される単語や文節と!/、つた 文法要素 (他の語)の数と方向は、適宜変更可能である。例えば、多義語の直前の 1 要素のみが参照されたり、直前の 2要素と直後の 1要素が参照されたりしてもよい。
[0092] また、文法要素中の参照される情報 (他の語に関する情報)は、文法要素に関係の ある情報であれば、表層、品詞、活用形のいずれ力 1つないしその組合せ、または、 それら以外でもよい。
[0093] また、各文法要素で参照される情報は、全て統一されなくてもよい。例えば、機能 語は表層を参照し、自立語では表層を参照しないといった変化を付けてもよい。
[0094] また、ステップ A6が行われずに、 1入力ごとに、ステップ A7において、知識ベース の更新が行われてもよい。
[0095] 知識ベースの作成方法としては、矛盾調整部 242の出力力 そのまま知識ベース に格納されてもよい。
[0096] 続いて、知識ベース記憶部 32内の知識ベースを用いて構文解析を行う場合の動 作について説明する。
[0097] 第 1の解析部 21は、入力装置 1から入力された文字列を、構文解析処理の途中の フェーズまで解析する (ステップ Bl)。なお、その文字列に多義語が含まれていると、 第 1の解析部 21は、その多義語の有する複数の意味に応じて、文字列に対する複 数の解析結果を出力する。
[0098] 次に、曖昧性削減部 22は、第 1の解析部 21の各解析結果中の多義語の意味と他 の語に関する情報と、知識ベース記憶部 32内の知識ベースと、を参照して、各解析 結果の採否を判定し、「不採用」と判定された解析結果を、それらの解析結果力ゝら削 除する (ステップ B2)。
[0099] 第 2の解析部 23は、曖昧性削減部 22で残された解析結果を用いて、残りのフエ一 ズの解析を行う(ステップ B3)。
[0100] 第 2の解析部 23は、解析の結果、最後に得られた解析結果を出力装置 4に出力す る(ステップ B4)。
[0101] 次に、本実施形態の効果について説明する。
[0102] 本実施形態では、事例抽出部 241と、矛盾調整部 242と、知識ベース構築部 243 と、出現事例記憶部 31とで構成される生成部は、第 1の解析部 21が出力した複数の 解析結果カゝら削除されても、第 2の解析部 23が採用する解析結果が維持される、第 1の解析部 21の不要な解析結果を削除するための削除規則を、第 1の解析部 21が 出力した複数の解析結果と第 2の解析部 24の採用結果とに基づいて生成する。
[0103] このため、第 2の解析部 24にて採用されなかった第 1の解析部 21の解析結果から 、第 2の解析部 24が正確な解析結果を採用するために必要な解析結果が削除され ることを防止できる。よって、最終的な解析結果を変化させない不要な候補 (解析結 果)のみを除去することが可能になる。
[0104] また、本実施形態では、矛盾調整部 242は、事例抽出部 241が抽出した事例に反 する事例 (矛盾事例)が、出現事例記憶部 21に記憶されていると、事例抽出部 241 が抽出した事例の採否情報を「不採用」から「採用」に修正する。このため、矛盾調整 部 242の出力を元に作成される知識ベースを用いた曖昧性削減部 22が、誤った検 索結果削減を行ってしまう可能性が減る。
[0105] よって、曖昧性を削減して解析処理を高速ィ匕して 、るにもかかわらず、解析結果は 、曖昧性を削減しな 、場合と変化しな 、と 、う効果を奏する。
[0106] また、第 1の解析部 21の実現方法としては、大きく分けて、統計モデルに基づいた 統計ベース解析と、人手で作成した規則に基づ!/、て解析を行うルールベース解析 ( ルールベース方式)の 2種類が考えられる力 本実施形態は、ルールベース解析に 基づいた解析部に対して、より大きな効果が得られる。
[0107] その理由は、以下の通りである。 [0108] 第 1の解析部 21は、多くの場合、独自に曖昧性削減を行っており、曖昧性削減部 2 2では、第 1の解析部 21で削減できなかった曖昧性 (解析結果)を削減する。
[0109] 同様の情報力 は同様の曖昧性 (解析結果)しか削減できないと考えると、第 1の解 析部 21と曖昧性削減部 22が参照する情報の重なりが少ないほど、削減効果が大き くなると言える。
[0110] 第 1の解析部 21が統計ベースの解析を行っている場合、この解析のベースとなつ ている統計モデルと曖昧性削減部 22が参照する統計モデルが類似したモデルであ ると、参照情報の重なりが大きくなるので、曖昧性削減効果は小さくなる。逆に、ルー ルベースの解析での解析規則は、統計モデルとは異なる性質を持つことが多ぐ参 照情報の重なりが小さくなるため、曖昧性削減効果は大きくなる。
[0111] (実施例)
次に、具体的な実施例を用いて、本実施形態の動作を説明する。
[0112] 第 1の実施例では、第 1の解析部 21は、入力文を単語に区切って品詞を付与する 形態素解析処理を行い、第 2の解析部 23は、単語間の係り受けを決定する係り受け 決定処理を行う。
[0113] また、事例抽出部 241で参照される情報は、曖昧性を持つ語 (多義語)とその直前 と直後の単語との、表層 (但し、曖昧性を持つ語 (多義語)と機能語のみ)と、品詞で ある。
[0114] また、知識ベース構築部 243における知識ベースの作成方法は、サポートベクター マシン法(以下、 SVM法と呼ぶ)である。
[0115] また、出現事例記憶部 31には、大量の文を第 1の解析部 21および第 2の解析部 2
3で解析した結果を、事例抽出部 241に供給することにより得られる事例が、格納さ れている。
[0116] 図 3Aは、出現事例記憶部 31に格納されている事例の具体例を示した説明図であ る。例えば、図 3Aの上力も 4番目の事例は、「問題がとけると幸せになれる」という入 力文から得ることができる。
[0117] まず、知識ベース学習時の動作を説明する。
[0118] 入力文中に、「問題をとけると娘が言う」(表現 1)、「雪がとけると春が来る」(表現 2) 、および、「この難問がとけると話が進む」(表現 3)、という 3つの表現が存在していた とする。
[0119] 単語「とける」には、「(ものが)溶ける」の意味を持つ動詞と、「(問題を)解く」の可能 形である可能動詞という 2つの意味があり、単語「とける」は、曖昧性を有する。
[0120] また、単語「と」には、「引用助詞」と「接続助詞」の 2つの意味があり、単語「と」は、 曖昧性を有する。
[0121] このため、第 1の解析部 21による表現 1〜3の形態素解析結果は、図 3Bに示すよう な、複数の形態素解析結果を有する曖昧性を持った構造となる。
[0122] この曖昧性を持った構造が、第 2の解析部 23に供給されると、第 2の解析部 23の 解析の過程で、第 1の解析部 21の形態素解析結果の曖昧性は解消される。図 3B中 の※印は、解析の結果、第 2の解析部 23にて採用された形態素解析結果を示す。
[0123] 次に、不要曖昧性学習部 24は、第 1の解析部 21の出力と、第 2の解析部 23の採 用結果から、知識ベースを学習するための事例を作成する。
[0124] 本実施例における事例の作成とは、第 1の解析部の各形態素解析結果について、 曖昧性を持つ語 (多義語)とその直前と直後の単語との、表層(但し、曖昧性を持つ 語と機能語のみ)、品詞の情報と、各解析結果の第 2の解析部 23での採否情報と、 をペアにすることを指す。
[0125] 採否情報は、「採用」と「不採用」のいずれかとなり、 2値を取る。
[0126] 以下に、不要曖昧性学習部 24が表現 1の「とける(溶ける)」の曖昧性力 事例を作 成する例を示す。
[0127] 図 3Bの(表現 1)参照すると、曖昧性を持つ語 (多義語)の表層は「とける」で、その 品詞は「動詞」であり、直前の単語の表層は「を」で、その品詞は「助詞」であり、直後 の単語の表層は「と」で、その品詞は「引用助詞」または「接続助詞」であり、それらの 採否情報は「不採用」であるため、以下の 2つの事例が得られる。
[0128] 事例 1 : [直前の単語 (表層:を/品詞:助詞)、曖昧性を持つ語 (表層:とける/品詞: 動詞)、直後の単語 (表層:と/品詞:引用助詞) ]→不採用
事例 2: [直前の単語 (表層:を/品詞:助詞)、曖昧性を持つ語 (表層:とける/品詞: 動詞)、直後の単語 (表層:と/品詞:接続助詞) ]→不採用 学習時の計算量を削減するには、事例数をできるだけ減らす方が望ましい。
[0129] そこで、曖昧性を持つ語とは異なる語 (他の語)については、できるだけ第 2の解析 部 23で採用された単語を用いるようにしてもよ!、。
[0130] すなわち、表現 1において採用された「と」の候補 (解釈事例)は、「引用助詞」であ るため、採用されなかった候補 (解釈事例)の「接続助詞」の事例 2は、学習に用いら れなくてもよい。
[0131] 図 3Cは、このようにして表現 1〜3の全ての形態素解析結果について事例を作成し た結果を示す説明図である。
[0132] 続、て、不要曖昧性学習部 24 (矛盾調整部 242)は、得られた事例を出現事例記 憶部 31に記憶された矛盾検証用事例と比較し、矛盾がな 、か確認する。
[0133] 例えば、図 3Cの上力 4番目の事例は、図 3Aの上力 4番目の矛盾検証用事例と 比較すると、素性集合が同一で、採否情報が異なるため、矛盾がある事例だといえる
[0134] この場合、矛盾調整部 242は、得られた事例の採否情報を「不採用」から「採用」に 修正する。
[0135] なお、「採用」から「不採用」への修正が行われると、後の知識ベース構築において
、本質的に曖昧性削減が不可能な曖昧性を一律削除するモデルが作成されてしまう ため、本実施例では、その修正は行われない。
[0136] なお、「不採用」から「採用」への修正が必要な表現 1の他の事例については、図 3
Cの採用情報の項目に「 (矛盾)」と 、うマークが付与されて 、る。
[0137] 矛盾調整部 242は、その修正を終了すると、修正された事例および修正されなかつ た事例を、知識ベース構築部 243に提供する。
[0138] 最後に、知識ベース構築部 243は、矛盾調整部 242から受け付けた事例から、 SV
Mを用いて曖昧性解消モデルを学習する。
[0139] この際、知識ベース構築部 243は、各事例の素性集合を入力とし、採否情報を分 類先のクラスとする 2値分類学習を行う。
[0140] SVMのカーネル関数に 3次の多項式関数が用いられると、高い精度が得られる。
[0141] SVMや最大エントロピ一法、決定木といった分類器は、入力された事例が事例中 で示されたクラス通りに分類されるような境界線を学習しょうとする。
[0142] 知識ベース構築部 243は、本実施例の事例からは、おおまかには、直前に助詞「を 」がある動詞「とける (溶ける)」という形態素解析結果を「不採用」と判定し、単語「と」 に関する複数の形態素解析結果 (曖昧性)は、 V、かなる文脈でも「採用」と判定する モデル (知識ベース)を得て、これを知識ベース記憶部 32に格納する。
[0143] 次に、得られた知識ベースを用いて構文解析を行う場合の動作を説明する。
[0144] 表現 1〜3が入力されたとすると、第 1の解析部 21は、学習時と同様に、図 3Bに示 される曖昧性を持った形態素解析結果、すなわち、複数の形態素解析結果を出力 する。
[0145] 続 、て、曖昧性削減部 22は、各形態素解析結果につ!、て素性集合を作成し、素 性集合が知識ベースに格納された分類器によって「不採用」と判定された場合には、 その組成集合に対応する形態素解析結果を除去する。
[0146] 例えば、表現 1の動詞「とける(溶ける)」の解析結果からは、学習時の実施例と同様 の手順で、以下の素性集合が得られる。ただし、第 1の解析部 21の解析時には、単 語「と」の曖昧性が決定されていないため、数は 2つとなる。
[0147] 素性集合 1: [直前の単語 (表層:を/品詞:助詞)、曖昧性を持つ語 (表層:とける/品 詞:動詞)、直後の単語 (表層:と/品詞:引用助詞)]
素性集合 2: [直前の単語 (表層:を/品詞:助詞)、曖昧性を持つ語 (表層:とける/品 詞:動詞)、直後の単語 (表層:と/品詞:接続助詞) ]
曖昧性削除部 22は、各素性集合について、知識ベース記憶部 32内のモデルによ り採否を判定する。この場合、曖昧性削除部 22は、素性集合 1、 2共に曖昧性を持つ 語が動詞「とける (溶ける)」であり、その直前に助詞「を」が存在するため、「不採用」と 判定する。
[0148] 結果として、動詞「とける (溶ける)」の候補は、不必要と判定され、除去される。
[0149] 一方で、今回学習されたモデルは、直前に助詞「を」がない場合には可能動詞「と ける (解ける)」の候補を「不採用」と判定せず、また単語「と」の複数の解析結果 (曖昧 性)についても「不採用」と判定しないため、表現 1〜3のその他の形態素解析結果に ついては除去されない。 [0150] 最後に、第 2の解析部 23は、残された形態素解析結果を用いて解析処理を行う。
[0151] 曖昧性削減部 22で削除された形態素解析結果は、曖昧性削減部 22が除去しない 場合でも、第 2の解析部 23で採用されなカゝつた形態素解析結果であるため、今回の 曖昧性削減によって、第 2の解析部 23の解析結果は変化しな 、。
[0152] 以下、第 1の実施例の効果について説明する。
[0153] 本実施例においては、第 2の解析部 23の解析結果を変化させない形態素解析結 果のみが除去されるため、曖昧性削減を行わない場合の第 2の解析部 23の解析結 果と比較して、第 2の解析部 23の解析結果が変化することがな ヽ。
[0154] 一方で「とける」に対する第 1の解析部 21の不必要な形態素解析結果を削除できて いるため、第 2の解析部 23の解析速度が向上し、その結果、全体の解析速度も向上 する。
[0155] また、実施例においては、日本語を例に説明しているが、解析対象の言語は日本 語に限定されない。
[0156] 次に、第 2の実施例を説明する。
[0157] 第 2の実施例は、知識ベース構築部 243が、矛盾調整部 242から受け付けた事例 を、直接、知識ベース記憶部 32に格納する点を除けば、第 1の実施例とほぼ同じ構 成である。
[0158] まず、学習時の動作を説明する。
[0159] 上述した表現 1〜3が入力されると、第 1の実施例と同様に、矛盾調整部 242は、図 3Cに示される事例を得る(なお、矛盾マークが付与された事例は、採否情報が「採用 」に修正されている)。
[0160] 本実施例では、知識ベース構築部 243は、矛盾調整部 242から得られた事例を、 そのまま知識ベース記憶部 32に格納する。
[0161] 次に、得られた知識ベースを用いて構文解析を行う場合の動作を説明する。
[0162] 第 1の実施例と同様に、表現 1〜3が入力されると、第 1の解析部 21は、図 3Bに示 される曖昧性を持った複数の形態素解析結果を出力し、曖昧性削除部 22は、各形 態素解析結果力 第 1の実施例と同様の素性集合を得られる。表現 1の動詞「とける
(溶ける)」の曖昧性についても第 1の実施例と同様である。 [0163] 続いて、曖昧性削除部 22は、各素性集合に対して以下のように採否判定を行う。
[0164] 曖昧性削除部 22は、得られた各素性集合について、素性集合が一致する事例が 知識ベース記憶部 32に存在すれば、知識ベース記憶部 32に存在する事例の採否 情報を、判定結果とする。
[0165] 具体的には、曖昧性削除部 22は、該当する事例が知識ベース記憶部 32に存在し
、その採否情報が「採用」の場合は、判定結果も「採用」とし、該当事例の採否情報が
「不採用」の場合は、判定結果も「不採用」とし、該当事例が存在しない場合は、判定 結果を「保留」とする。
[0166] そして、曖昧性削除部 22は、各形態素解析結果について以下のように判定を行う
[0167] 曖昧性削除部 22は、判定結果が「採用」となる素性集合が 1つでも存在すれば、そ の形態素解析結果を「採用」と判定し、「採用」となる素性集合が一つも存在しない場 合に「不採用」となる素性集合が 1つでも存在すれば、その形態素解析結果を「不採 用」と判定し、それ以外の場合は「採用」とする。
[0168] 例えば、動詞「とける (溶ける)」の各形態素解析結果の素性集合 (素性集合 1、 2) を例に説明すると、素性集合 1は、図 3Cの上から 1番目の事例の素性集合と同一で あり、その採否情報は「不採用」であるため、素性集合 1は「不採用」と判定され、一方 、素性集合 2は同一の素性集合を持つ事例が知識ベースに存在しないため「保留」 となる。
[0169] よって、動詞「とける (溶ける)」を表す形態素解析結果は、「不採用」と判定される。
表現 1〜3の他の形態素解析結果について同様の方法により判定が行われると、全 て「採用」と判定される。
[0170] 以下、第 2の実施例の効果について説明する。
[0171] 第 2の実施例では、各形態素解析結果力 ^不採用」と判定されるためには、形態素 解析結果力 得られた素性集合と知識ベース内の素性集合が完全一致しなければ ならないため、第 1の実施例よりも曖昧性削減性能が劣るが、第 1の実施例と同様、 不必要な曖昧性のみ除去することで解析結果を変えずに高速ィヒを行うことが可能で ある。 [0172] なお、本発明は、第 1の自然言語から第 2の自然言語に翻訳する機械翻訳プロダラ ムゃ、文章力も特徴的な単語の連なりを抽出するテキストマイニングプログラムといつ た構文解析処理を必要とする自然言語処理用途に適用できる。
[0173] 以上説明した実施形態および各実施例において、図示した構成は単なる一例であ つて、本発明はその構成に限定されるものではない。

Claims

請求の範囲
[1] 多義語と他の語とを含む自然言語文に対して所定の解析を行い、該多義語の有す る複数の意味に応じて、該自然言語文に対する複数の解析結果を出力する第 1の解 析部と、
前記第 1の解析部が出力した複数の解析結果に対して特定の解析を行って該複 数の解析結果から 1つの解析結果を採用する第 2の解析部と、
前記第 1の解析部が出力した複数の解析結果力 削除されても、前記第 2の解析 部が採用する解析結果が維持される、該第 1の解析部の不要な解析結果を削除する ための削除規則を、該第 1の解析部が出力した複数の解析結果と該第 2の解析部の 採用結果とに基づいて生成する生成部と、を含む言語処理装置。
[2] 多義語と他の語とを含む自然言語文に対して所定の解析を行 、、該多義語の有す る複数の意味に応じて、該自然言語文に対する複数の解析結果を出力する第 1の解 析部と、
前記第 1の解析部が出力した複数の解析結果に対して特定の解析を行って該複 数の解析結果から 1つの解析結果を採用する第 2の解析部と、
前記多義語の 1つの意味と他の語に関する情報との組合せごとに、該組合せを採 用するか否かを表す判断情報が記憶されている記憶部と、
前記第 1の解析部が出力した各解析結果中の前記多義語の意味および他の語に 関する情報との組合せごとに、該組合せが該第 2の解析部で採用されたカゝ否かを表 す採否情報を、該第 1の解析部が出力した複数の解析結果と前記第 2の解析部の採 用結果とに基づいて生成する採否情報生成部と、
前記採否情報生成部が生成した採否情報で不採用とされた前記組合せが、前記 記憶部で採用を表す判断情報と対応している場合、該採否情報を採用に変更し、そ の後、前記複数の解析結果力も不要な解析結果を削除するための削除規則を、変 更された該採否情報と変更されなカゝつた該採否情報とに基づいて生成する規則生 成部と、を含む言語処理装置。
[3] 前記多義語の意味と前記他の語に関する情報との組合せは、該多義語とその周辺 の単語との表層、品詞、活用形の 1つないしその組み合わせである、請求の範囲 2に 記載の言語処理装置。
[4] 前記第 1の解析部は、予め定められた所定の規則に基づいて解析を行うルールべ ース方式により、前記自然言語文を解析する、請求の範囲 1ないし 3のいずれ力 1項 に記載の言語処理装置。
[5] 請求の範囲 1ないし 4のいずれか 1項に記載の言語処理装置にて生成された削除 規則を記憶する知識ベース記憶部と、
多義語と他の語とを含む自然言語文に対して所定の解析を行! \該多義語の有す る複数の意味に応じて、該自然言語文に対する複数の解析結果を出力する第 1の解 析部と、
前記知識ベース記憶部に記憶されて!ヽる削除規則に基づ!/、て、前記第 1の解析部 が出力した複数の解析結果力 不要な解析結果を削除する曖昧性削減部と、 前記曖昧性削減部にて前記不要な解析結果が削除された複数の解析結果に対し て特定の解析を行って該複数の解析結果から 1つの解析結果を採用する第 2の解析 部と、を含む言語処理装置。
[6] 多義語と他の語とを含む自然言語文に対して所定の解析を行 、、該多義語の有す る複数の意味に応じて、該自然言語文に対する複数の解析結果を出力する第 1の解 析ステップと、
前記複数の解析結果に対して特定の解析を行って該複数の解析結果から 1つの 解析結果を採用する第 2の解析ステップと、
前記複数の解析結果カゝら削除されても、前記第 2の解析ステップで採用される解析 結果が維持される、該第 1の解析ステップでの不要な解析結果を削除するための削 除規則を、該第 1の解析ステップにて出力された複数の解析結果と該第 2の解析ステ ップでの採用結果とに基づ 、て生成する生成ステップと、を含む言語処理方法。
[7] 多義語の 1つの意味と他の語に関する情報との組合せごとに、該組合せを採用す るカゝ否かを表す判断情報が記憶されている記憶部を含む言語処理装置が行う言語 処理方法であって、
多義語と他の語とを含む自然言語文に対して所定の解析を行! \該多義語の有す る複数の意味に応じて、該自然言語文に対する複数の解析結果を出力する第 1の解 析ステップと、
前記複数の解析結果に対して特定の解析を行って該複数の解析結果から 1つの 解析結果を採用する第 2の解析ステップと、
前記第 1の解析ステップで出力された各解析結果中の前記多義語の意味および他 の語に関する情報との組合せごとに、該組合せが該第 2の解析ステップで採用され たか否かを表す採否情報を、該第 1の解析ステップで出力された複数の解析結果と 前記第 2の解析ステップの採用結果とに基づいて生成する採否情報生成ステップと 前記採否情報で不採用とされた前記組合せが、前記記憶部で採用を表す判断情 報と対応している場合、該採否情報を採用に変更し、その後、前記複数の解析結果 力も不要な解析結果を削除するための削除規則を、変更された該採否情報と変更さ れなカゝつた該採否情報とに基づ ヽて生成する規則生成ステップと、を含む言語処理 方法。
[8] 請求の範囲 1ないし 4のいずれか 1項に記載の言語処理装置にて生成された削除 規則を記憶する知識ベース記憶部を含む言語処理装置が行う言語処理方法であつ て、
多義語と他の語とを含む自然言語文に対して所定の解析を行! \該多義語の有す る複数の意味に応じて、該自然言語文に対する複数の解析結果を出力する第 1の解 析ステップと、
前記知識ベース記憶部に記憶されて 、る削除規則に基づ 、て、前記複数の解析 結果力 不要な解析結果を削除する曖昧性削減ステップと、
前記不要な解析結果が削除された複数の解析結果に対して特定の解析を行って 該複数の解析結果から 1つの解析結果を採用する第 2の解析ステップと、を含む言 語処理方法。
[9] コンピュータに言語処理を実行させる言語処理用プログラムであって、
多義語と他の語とを含む自然言語文に対して所定の解析を行! \該多義語の有す る複数の意味に応じて、該自然言語文に対する複数の解析結果を出力する第 1の解 析処理と、 前記複数の解析結果に対して特定の解析を行って該複数の解析結果から 1つの 解析結果を採用する第 2の解析処理と、
前記複数の解析結果から削除されても、前記第 2の解析処理で採用される解析結 果が維持される、該第 1の解析処理での不要な解析結果を削除するための削除規則 を、該第 1の解析処理にて出力された複数の解析結果と該第 2の解析処理での採用 結果とに基づいて生成する生成処理と、を含む言語処理をコンピュータに実行させる 言語処理用プログラム。
[10] 多義語の 1つの意味と他の語に関する情報との組合せごとに、該組合せを採用す る力否かを表す判断情報が記憶されている記憶部と接続されたコンピュータに、言語 処理を実行させる言語処理用プログラムであって、
多義語と他の語とを含む自然言語文に対して所定の解析を行! \該多義語の有す る複数の意味に応じて、該自然言語文に対する複数の解析結果を出力する第 1の解 析処理と、
前記複数の解析結果に対して特定の解析を行って該複数の解析結果から 1つの 解析結果を採用する第 2の解析処理と、
前記第 1の解析処理で出力された各解析結果中の前記多義語の意味および他の 語に関する情報との組合せごとに、該組合せが該第 2の解析処理で採用されたカゝ否 かを表す採否情報を、該第 1の解析処理で出力された複数の解析結果と前記第 2の 解析処理の採用結果とに基づいて生成する採否情報生成処理と、
前記採否情報で不採用とされた前記組合せが、前記記憶部で採用を表す判断情 報と対応している場合、該採否情報を採用に変更し、その後、前記複数の解析結果 力も不要な解析結果を削除するための削除規則を、変更された該採否情報と変更さ れなカゝつた該採否情報とに基づ ヽて生成する規則生成処理と、を含む言語処理を、 前記コンピュータに実行させる言語処理用プログラム。
[11] 請求の範囲 1ないし 4のいずれか 1項に記載の言語処理装置にて生成された削除 規則を記憶する知識ベース記憶部と接続されたコンピュータに、言語処理を実行さ せる言語処理用プログラムであって、
多義語と他の語とを含む自然言語文に対して所定の解析を行! \該多義語の有す る複数の意味に応じて、該自然言語文に対する複数の解析結果を出力する第 1の解 析処理と、
前記知識ベース記憶部に記憶されて 、る削除規則に基づ 、て、前記複数の解析 結果力 不要な解析結果を削除する曖昧性削減処理と、
前記不要な解析結果が削除された複数の解析結果に対して特定の解析を行って 該複数の解析結果から 1つの解析結果を採用する第 2の解析処理と、を含む言語処 理を、前記コンピュータに実行させる言語処理用プログラム。
PCT/JP2007/052319 2006-02-27 2007-02-09 言語処理装置、言語処理方法および言語処理用プログラム WO2007097208A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2008501673A JP5071373B2 (ja) 2006-02-27 2007-02-09 言語処理装置、言語処理方法および言語処理用プログラム
CN2007800068765A CN101390091B (zh) 2006-02-27 2007-02-09 语言处理设备及语言处理方法
US12/280,839 US8301435B2 (en) 2006-02-27 2007-02-09 Removing ambiguity when analyzing a sentence with a word having multiple meanings

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006-050450 2006-02-27
JP2006050450 2006-02-27

Publications (1)

Publication Number Publication Date
WO2007097208A1 true WO2007097208A1 (ja) 2007-08-30

Family

ID=38437248

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2007/052319 WO2007097208A1 (ja) 2006-02-27 2007-02-09 言語処理装置、言語処理方法および言語処理用プログラム

Country Status (4)

Country Link
US (1) US8301435B2 (ja)
JP (1) JP5071373B2 (ja)
CN (1) CN101390091B (ja)
WO (1) WO2007097208A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8219407B1 (en) 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
US9798720B2 (en) * 2008-10-24 2017-10-24 Ebay Inc. Hybrid machine translation
CN101882158A (zh) * 2010-06-22 2010-11-10 河南约克信息技术有限公司 基于上下文的译文自动调序方法
WO2012079245A1 (zh) * 2010-12-17 2012-06-21 北京交通大学 知识获取装置及方法
CN103699689B (zh) * 2014-01-09 2017-02-15 百度在线网络技术(北京)有限公司 事件知识库的构建方法及装置
US9569526B2 (en) 2014-02-28 2017-02-14 Ebay Inc. Automatic machine translation using user feedback
US9530161B2 (en) 2014-02-28 2016-12-27 Ebay Inc. Automatic extraction of multilingual dictionary items from non-parallel, multilingual, semi-structured data
US9881006B2 (en) 2014-02-28 2018-01-30 Paypal, Inc. Methods for automatic generation of parallel corpora
US9940658B2 (en) 2014-02-28 2018-04-10 Paypal, Inc. Cross border transaction machine translation
JP6435909B2 (ja) * 2015-02-19 2018-12-12 富士通株式会社 学習装置、学習方法及び学習プログラム
US9672207B2 (en) 2015-10-19 2017-06-06 International Business Machines Corporation System, method, and recording medium for determining and discerning items with multiple meanings
KR101914916B1 (ko) 2015-11-24 2018-11-06 엘에스디테크 주식회사 선택적 언어 인식 처리에 기반한 번역 방법
CN108153726A (zh) * 2016-12-05 2018-06-12 北京国双科技有限公司 文本处理方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06295308A (ja) * 1993-04-07 1994-10-21 Nec Corp 自然言語解析方法および装置
JPH08235188A (ja) * 1995-03-01 1996-09-13 Oki Electric Ind Co Ltd 係り受け関係解析用辞書作成装置および係り受け関係解析装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0251772A (ja) 1988-08-15 1990-02-21 Nec Corp 品詞のあいまい性除去装置
JPH02114377A (ja) 1988-10-24 1990-04-26 Nec Corp 品詞推定方式
JPH0816596A (ja) 1994-06-29 1996-01-19 Nec Corp 機械翻訳装置
JP3308723B2 (ja) 1994-07-22 2002-07-29 日本電気株式会社 統語解析装置
JPH09198386A (ja) 1996-01-22 1997-07-31 Meidensha Corp 日本語処理システム
CN1067784C (zh) * 1997-07-02 2001-06-27 华建机器翻译有限公司 特殊语言现象处理方法
CN1277395A (zh) * 1999-06-11 2000-12-20 郭晓松 多语种文件及库对应预校准互译法
US6721697B1 (en) * 1999-10-18 2004-04-13 Sony Corporation Method and system for reducing lexical ambiguity
US6965857B1 (en) * 2000-06-02 2005-11-15 Cogilex Recherches & Developpement Inc. Method and apparatus for deriving information from written text
WO2001098942A2 (en) * 2000-06-19 2001-12-27 Lernout & Hauspie Speech Products N.V. Package driven parsing using structure function grammar
US7027974B1 (en) * 2000-10-27 2006-04-11 Science Applications International Corporation Ontology-based parser for natural language processing
US7003444B2 (en) * 2001-07-12 2006-02-21 Microsoft Corporation Method and apparatus for improved grammar checking using a stochastic parser
JP2003242136A (ja) * 2002-02-20 2003-08-29 Fuji Xerox Co Ltd 構文情報タグ付与支援システムおよび方法
US7203668B2 (en) * 2002-12-19 2007-04-10 Xerox Corporation Systems and methods for efficient ambiguous meaning assembly
JP2005182438A (ja) 2003-12-19 2005-07-07 Fuji Xerox Co Ltd 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
US7899666B2 (en) * 2007-05-04 2011-03-01 Expert System S.P.A. Method and system for automatically extracting relations between concepts included in text

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06295308A (ja) * 1993-04-07 1994-10-21 Nec Corp 自然言語解析方法および装置
JPH08235188A (ja) * 1995-03-01 1996-09-13 Oki Electric Ind Co Ltd 係り受け関係解析用辞書作成装置および係り受け関係解析装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DOI S. ET AL.: "Goi Bunmyaku Bunpo (Lexical Disclosure Grammar) to Sono Taikyokuteki kakariuke Kettei eno Oyo (II)", IEICE TECHNICAL REPORT, vol. 91, no. 297, 24 October 1991 (1991-10-24), pages 17 - 24 *

Also Published As

Publication number Publication date
US20090018821A1 (en) 2009-01-15
CN101390091A (zh) 2009-03-18
CN101390091B (zh) 2011-02-09
JP5071373B2 (ja) 2012-11-14
JPWO2007097208A1 (ja) 2009-07-09
US8301435B2 (en) 2012-10-30

Similar Documents

Publication Publication Date Title
JP5071373B2 (ja) 言語処理装置、言語処理方法および言語処理用プログラム
US8145473B2 (en) Deep model statistics method for machine translation
US6684201B1 (en) Linguistic disambiguation system and method using string-based pattern training to learn to resolve ambiguity sites
US9846692B2 (en) Method and system for machine-based extraction and interpretation of textual information
US9047275B2 (en) Methods and systems for alignment of parallel text corpora
Na Conditional random fields for Korean morpheme segmentation and POS tagging
JP3992348B2 (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
JP5231698B2 (ja) 日本語の表意文字の読み方を予測する方法
CN110245349A (zh) 一种句法依存分析方法、装置及一种电子设备
Nehar et al. Rational kernels for Arabic root extraction and text classification
WO2003079224A1 (fr) Procede et dispositif de generation de texte
Wintner Formal language theory
JP5623380B2 (ja) 誤り文修正装置、誤り文修正方法およびプログラム
JP4878220B2 (ja) モデル学習方法、情報抽出方法、モデル学習装置、情報抽出装置、モデル学習プログラム、情報抽出プログラム、およびそれらプログラムを記録した記録媒体
Arwidarasti et al. Converting an Indonesian constituency treebank to the Penn treebank format
JP4478042B2 (ja) 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置
JP2009176148A (ja) 未知語判定システム、方法及びプログラム
CN112052651A (zh) 诗词生成方法、装置、电子设备及存储介质
KR100420474B1 (ko) 부분문틀을 이용한 장문 번역 장치 및 그 방법
KR20080028655A (ko) 품사 태깅 장치 및 태깅 방법
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
JP2009146447A (ja) テキスト要約システム、テキスト要約方法、および、テキスト要約プログラム
Qayyum et al. Comparison of Parsers Dealing with Text Ambiguity in Natural Language Processing
JP2004118461A (ja) 言語モデルのトレーニング方法、かな漢字変換方法、言語モデルのトレーニング装置、かな漢字変換装置、コンピュータプログラムおよびコンピュータ読み取り可能な記録媒体
Bhowmik et al. Development of A Word Based Spell Checker for Bangla Language

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
ENP Entry into the national phase

Ref document number: 2008501673

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 200780006876.5

Country of ref document: CN

Ref document number: 12280839

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 07713975

Country of ref document: EP

Kind code of ref document: A1