WO2019111410A1 - 係り受け解析装置および係り受け解析方法 - Google Patents

係り受け解析装置および係り受け解析方法 Download PDF

Info

Publication number
WO2019111410A1
WO2019111410A1 PCT/JP2017/044223 JP2017044223W WO2019111410A1 WO 2019111410 A1 WO2019111410 A1 WO 2019111410A1 JP 2017044223 W JP2017044223 W JP 2017044223W WO 2019111410 A1 WO2019111410 A1 WO 2019111410A1
Authority
WO
WIPO (PCT)
Prior art keywords
dependency
clause
phrase
clauses
unit
Prior art date
Application number
PCT/JP2017/044223
Other languages
English (en)
French (fr)
Inventor
伍井 啓恭
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2017/044223 priority Critical patent/WO2019111410A1/ja
Priority to JP2019548092A priority patent/JPWO2019111410A1/ja
Publication of WO2019111410A1 publication Critical patent/WO2019111410A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis

Definitions

  • the present invention relates to a dependency analysis apparatus and dependency analysis method for analyzing a word string and a dependency of a word string in a text described in a natural language.
  • dependency analysis processing is a technique for analyzing the relationship between word strings and word strings in text to specify the semantic structure of text.
  • Dependency analysis is an important technology that is essential to realize natural language processing application systems such as document summaries, machine translation and dialogue systems. Here, it is widely called "dependency analysis” including syntactic analysis.
  • the dependency rule can be said to be a dependency language model.
  • Non-Patent Document 1 manually parses a text for learning, obtains syntactic rules from the analysis result as grammatical rules, and gives a likelihood, and this likelihood Select the grammar rules to apply according to.
  • the likelihood given to the grammar rules is determined by the statistics of the grammar rules used for the parsed text data for learning.
  • Non-Patent Document 1 In the conventional method described in Non-Patent Document 1, there is a problem that it is necessary to create syntax-analyzed text data for learning manually, so that the cost of creating the data is enormous.
  • This invention solves the said subject, and it aims at obtaining the dependency analysis apparatus and the dependency analysis method which can create a dependency rule with high precision.
  • a dependency analysis apparatus includes a morphological analysis unit, a chunking unit, a full text analysis unit, and an extraction unit.
  • the morphological analysis unit inputs text data including a plurality of sentences described in a natural language, and divides each of the plurality of sentences included in the text data into morphemes.
  • the chunking unit converts the morpheme string output from the morpheme analysis unit into a phrase string.
  • the full-text analysis unit analyzes the dependencies of the clauses and clauses sequentially from the sentence with the smallest number of clauses, and indicates the dependency relationship between the clauses and clauses determined by the analysis. Set dependency rules and statistics of clauses and dependency frequency in the tree corpus.
  • the extraction unit extracts dependency rules and statistics from the tree corpus.
  • a plurality of sentences included in the text data are analyzed sequentially from the sentence having the smallest number of sentences to the relation between the sentence and the sentence, and the relation rule indicating the relation between the sentence and the sentence determined by the analysis.
  • the relation rule indicating the relation between the sentence and the sentence determined by the analysis.
  • FIG. 2A is a block diagram showing a hardware configuration for realizing the function of the dependency analysis apparatus according to the first embodiment.
  • FIG. 2B is a block diagram showing a hardware configuration for executing software that implements the function of the dependency analysis apparatus according to the first embodiment.
  • 7 is a flowchart showing a dependency analysis method according to the first embodiment. It is a figure which shows an example of text data. It is a figure which shows the morphological analysis result of the sentence contained in the text data of FIG. It is a figure which shows the chunking process result of the data of FIG. It is a flowchart which shows the detail of a process of step ST3 of FIG. FIG.
  • FIG. 7 is a diagram showing phrase string information in which phrase strings in FIG. 6 are rearranged in ascending order of the number of phrases.
  • FIG. 9A is a diagram showing the result of dependency analysis of the phrase string B in the phrase string information of FIG.
  • FIG. 9B is a diagram showing a dependency rule of the phrase string B.
  • FIG. 10A is a diagram showing the result of dependency analysis of the phrase string A in the phrase string information of FIG.
  • FIG. 10B is a diagram showing dependency rules of the phrase string A. It is a figure which shows the extraction information regarding the dependency rule extracted from the tree corpus. It is a flowchart which shows the detail of a process of step ST5a of FIG. It is a figure which shows an example of the sentence sequence string B (2 clauses) of process target.
  • FIG. It is a figure which shows the phrase string information which attached
  • FIG. It is a figure which shows an example of the sentence sequence row A (3 clauses) of a process target. It is a figure which shows the phrase string information which attached
  • FIG. It is a figure which shows the dependency analysis result of the clause of FIG. It is a figure which shows the dependency analysis result of the phrase row A of FIG.
  • FIG. 7 is a flowchart showing a dependency analysis method according to Embodiment 2; It is a flowchart which shows the detail of a process of step ST5c of FIG. It is a block diagram which shows the structure of the dependency analysis apparatus based on Embodiment 3 of this invention.
  • 15 is a flowchart illustrating a dependency analysis method according to a third embodiment.
  • FIG. 1 is a block diagram showing a configuration of a dependency analysis apparatus 1 according to a first embodiment of the present invention.
  • the dependency analysis apparatus 1 is an apparatus for analyzing the dependency of a sentence included in input text data, and includes a morphological analysis unit 10, a chunking unit 11, a full text analysis unit 12, and an extraction unit 13.
  • the morphological analysis unit 10 inputs text data including a plurality of sentences described in a natural language, and divides each of a plurality of sentences included in the text data into morphemes. For example, when the sentence is divided into units of morpheme, the morphological analysis unit 10 adds tag information indicating part of speech and reading for each morpheme.
  • the chunking unit 11 converts the morpheme string output from the morpheme analysis unit 10 into a phrase string.
  • the chunking unit 11 refers to the clause connection rule 11a to estimate morphemes constituting a clause from a morpheme string of a sentence, and chunks a portion where the estimated morphemes are continuous as a clause. , Transform morpheme strings into phrase strings.
  • the clause connection rule 11a for example, a connection rule between words that can easily constitute a clause and a word is set.
  • the full-text analysis unit 12 analyzes the dependencies of the clauses and clauses in order from a sentence having a small number of clauses on the plurality of sentences converted into the phrase strings by the chunking unit 11. For example, the full-text analysis unit 12 sorts a plurality of sentences converted into phrase strings in ascending order of the number of phrases, and analyzes the dependencies of the clauses and clauses from the sentence having a small number of phrases. The method of dependency analysis will be described later with reference to FIG.
  • the full-text analysis unit 12 sets the dependency rules and statistics determined by the phrase and phrase dependency analysis in the tree corpus 12a.
  • the dependency rule is information (a language model) indicating the dependency relationship between a clause and a clause
  • the statistic is a statistic of the dependency frequency of the clause and the clause in a plurality of sentences included in the text data.
  • the extraction unit 13 extracts dependency rules and statistics from the tree corpus 12a.
  • the dependency rules and statistics extracted by the extraction unit 13 are set in the dependency rule data 14.
  • FIG. 2A is a block diagram showing a hardware configuration for realizing the function of the dependency analysis device 1.
  • the input circuit 100 is a circuit that receives an input of text data, and has an input interface for inputting text data to be processed.
  • the output circuit 101 is a circuit that outputs the dependency rule data 14 and has an output interface for outputting the dependency rule data 14.
  • the hard disk 102 is a storage device that stores data used in the processing circuit 103. For example, text data to be processed whose input has been received by the input circuit 100, a program for realizing the function of the dependency analysis device 1, a clause connection rule 11a, a tree corpus 12a, and dependency rule data 14 are stored.
  • the processing circuit 103 is a dedicated circuit that functions as the dependency analysis apparatus 1.
  • FIG. 2B is a block diagram showing a hardware configuration for executing software for realizing the function of the dependency analysis device 1.
  • the input interface 100a is an interface for receiving input of text data, and is a component of the input circuit 100 shown in FIG. 2A.
  • the output interface 101a is an interface for outputting a dependency rule, and is a component of the output circuit 101 shown in FIG. 2A.
  • the processor 104 and the memory 105 are connected via a signal bus.
  • the hard disk 102 is a storage device that stores data used by the processor 104. For example, as in FIG. 2A, text data to be processed whose input has been received by the input circuit 100, a program for realizing the function of the dependency analysis device 1, clause connection rules 11a, tree corpus 12a, and dependency rule data 14 is stored.
  • the clause connection rules 11 a, the tree corpus 12 a and the dependency rule data 14 shown in FIG. 1 are stored in the hard disk 102 or the memory 105. That is, in the hard disk 102 or the memory 105, the clause connection rule 11a, the tree corpus 12a, the dependency rule and the statistic are stored.
  • the dependency analysis device 1 includes a processing circuit for executing the processing from step ST1 to step ST4 described later with reference to FIG.
  • the processing circuit may be dedicated hardware or a CPU (Central Processing Unit) that executes a program stored in a memory.
  • the processing circuit 103 may be, for example, a single circuit, a complex circuit, a programmed processor, a parallel programmed processor, or an ASIC (Application Specific Integrated Circuit). ), FPGA (Field-Programmable Gate Array), or a combination thereof.
  • the respective functions of the morphological analysis unit 10, chunking unit 11, full-text analysis unit 12 and extraction unit 13 may be realized by separate processing circuits, or these functions may be collectively realized by one processing circuit. Good.
  • the processing circuit is the processor 104 shown in FIG. 2B
  • the functions of the morphological analysis unit 10, chunking unit 11, full-text analysis unit 12 and extraction unit 13 are realized by software, firmware or a combination of software and firmware. Ru.
  • the software or firmware is written as a program and stored in the memory 105.
  • the processor 104 implements the respective functions of the morphological analysis unit 10, the chunking unit 11, the full text analysis unit 12, and the extraction unit 13 by reading and executing the program stored in the memory 105. That is, the dependency analysis device 1 includes the memory 105 for storing a program that is to be executed as a result of the processing from step ST1 to step ST4 shown in FIG. 3 when executed by the processor 104. These programs cause a computer to execute the procedures or methods of the morphological analysis unit 10, chunking unit 11, full-text analysis unit 12 and extraction unit 13.
  • the memory 105 may be a computer-readable storage medium storing a program for causing a computer to function as the morphological analysis unit 10, the chunking unit 11, the full text analysis unit 12, and the extraction unit 13.
  • the memory 105 may be, for example, a nonvolatile or volatile semiconductor memory such as a random access memory (RAM), a read only memory (ROM), a flash memory, an erasable programmable read only memory (EPROM), or an EEPROM (electrically-EPROM).
  • RAM random access memory
  • ROM read only memory
  • EPROM erasable programmable read only memory
  • EEPROM electrically-EPROM
  • a magnetic disk, a flexible disk, an optical disk, a compact disk, a mini disk, a DVD, etc. correspond.
  • a part of each function of the morphological analysis unit 10, the chunking unit 11, the full text analysis unit 12 and the extraction unit 13 may be realized by dedicated hardware and a part may be realized by software or firmware.
  • the morphological analysis unit 10, the chunking unit 11, and the full-text analysis unit 12 implement functions with a processing circuit as dedicated hardware.
  • the function of the extraction unit 13 may be realized by the processor 104 reading and executing a program stored in the memory 105.
  • the processing circuit can realize each of the above functions by hardware, software, firmware or a combination thereof.
  • FIG. 3 is a flowchart showing a dependency analysis method according to the first embodiment.
  • the morphological analysis unit 10 performs morphological analysis processing of text data (step ST1).
  • the text data includes a plurality of sentences described in a natural language, and the morphological analysis unit 10 analyzes the morphemes of the plurality of sentences and divides them into units of morphemes. As a result, each of a plurality of sentences included in the text data is converted into a morpheme string and output to the chunking unit 11.
  • the morphological analysis unit 10 inputs the sentence 200a and the sentence 200b included in the text data 200 shown in FIG. 4, the sentence 200a is divided into units of morphemes with reference to a morpheme analysis dictionary not shown. Add tag information indicating each part of speech and reading.
  • the morphological analysis unit 10 refers to the morphological analysis dictionary, divides the sentence 200 b into units of morphemes, and adds tag information indicating parts of speech and readings for each morpheme. Thereby, the morphological analysis result 210 shown in FIG. 5 is obtained.
  • tag information is set in a column following this.
  • the tag information is itemized by ",”, and from the left of Fig. 5, "part of speech, part of speech fine classification 1, part of speech fine classification 2, part of speech fine classification 3, utilization type, utilization type, original form, reading, pronunciation Is set. "*" Is set to the item which has no information to set.
  • the morpheme 210a is set to the heading surface layer form on the first line, and the tag information 210b on the part of speech of the morpheme 210a and the tag information 210c on reading are added to the column following the heading surface layer.
  • "EOS" is set as a special character string indicating the end of a sentence.
  • the sentence 200a is divided into six morphemes and converted into a morpheme sequence composed of these morphemes.
  • the sentence 200b is divided into four morphemes and converted into a morpheme sequence composed of these morphemes.
  • the chunking unit 11 performs chunking processing on the data input from the morphological analysis unit 10 (step ST2).
  • the chunking unit 11 converts each morpheme string of a plurality of sentences into a phrase string and outputs the phrase string to the full text analysis unit 12.
  • FIG. 6 shows the result of chunking processing on the morphological analysis result 210 shown in FIG.
  • the chunking unit 11 generates a chunking processing result 220 in which phrase segmentation information is added to the morphological analysis result 210 illustrated in FIG. 5.
  • the delimitation information of the clause is a character string including the asterisk "*", the clause number, the destination number, and the letter "D" as shown in FIG. 6, and means a line indicating the start position of the clause. Granted to
  • the clause number following the asterisk "*" is an integer number starting from 0, and is a serial number sequentially assigned from the first clause of the sentence.
  • the dependency destination number is a number set in the delimiter information of the clause that is the origin of the dependency, and if there is a clause of the dependency destination, the clause number of the clause of the dependency destination is set, and if there is no dependency or is undecided, "-1" is set.
  • the letter "D" is a letter indicating that it is delimiter information.
  • the morpheme string of the sentence 200a is converted to a phrase string A composed of three clauses: a clause 220a, a clause 220b and a clause 220c. Since the phrase 220a of the phrase string A is the first phrase of the sentence 200a, the phrase number of the phrase 220a is "0", and the phrase of the destination is undecided before the dependency analysis. The destination number is "-1". As a result, the delimiter information of the phrase 220 A in the phrase string A becomes “* 0 ⁇ 1D”, and is added to the line at the start position of the information related to the phrase 220 a as shown in FIG.
  • the delimiter information of the phrase 220 A in the phrase string A becomes “* 1-1D”, and is added to the line of the start position of the information related to the phrase 220 b as shown in FIG.
  • the clause 220c is the third clause of the sentence 200a, the clause number of the clause 220c is "2”, and the dependency destination number of the clause 220c is "-1" because the dependency destination is undecided.
  • the delimiter information of the phrase 220 A in the phrase string A becomes “* 2-1D”, and is added to the line at the start position of the information related to the phrase 220 c as shown in FIG.
  • the morpheme string of the sentence 200b is converted into a phrase string B composed of two clauses, a clause 220a and a clause 220c. Since the phrase 220a of the phrase string B is the first phrase of the sentence 200b, the phrase number of the phrase 220a is "0", and the dependency destination is undecided before the dependency analysis, so the dependency destination of the phrase 220a is The number is "-1". As a result, the delimiter information of the clause 220a in the phrase string B becomes “* 0 ⁇ 1D”, and is added to the line of the start position of the information related to the clause 220a.
  • the clause number of the clause 220c is “1”, and the dependency destination number of the clause 220c is “ ⁇ 1” because the dependency destination is undecided.
  • the delimiter information of the clause 220c in the phrase string B becomes “* 1-1D”, and is added to the line at the start position of the information related to the clause 220c.
  • step ST3 the full-text analysis unit 12 analyzes all the sentences input from the chunking unit 11 in the order of sentences having the smallest number of clauses and the dependencies of the clauses and clauses. Then, the full-text analysis unit 12 sets, in the tree corpus 12a, a dependency rule indicating the phrase and the dependency structure of the phrase determined by the analysis, and a statistic of the dependency frequency of the phrase and the phrase.
  • the extraction unit 13 extracts dependency rules and statistics from the tree corpus 12a (step ST4).
  • the dependency rules and statistics extracted by the extraction unit 13 are set in the dependency rule data 14.
  • FIG. 7 is a flowchart showing details of the process of step ST3 of FIG. The following description will be given on the assumption that the chunking processing result 220 shown in FIG.
  • the full-text analysis unit 12 arranges a plurality of sentences included in the data input from the chunking unit 11 in ascending order of the number of clauses of the clause string (step ST1a). At this time, the full-text analysis unit 12 specifies and stores the maximum number of clauses (hereinafter referred to as the maximum number of clauses) in the plurality of chunked sentences. For example, the maximum number of clauses may be stored in the hard disk 102 or the memory 105.
  • FIG. 8 shows the result of rearranging the chunking result 220 shown in FIG. 6 in ascending order of the number of phrases.
  • the phrase string A of the sentence 200a is a phrase string including the phrase 220a, the phrase 220b, and the phrase 220c, and the number of phrases is three.
  • the phrase string B of the sentence 200b is composed of a clause 220a and a clause 220c, and the number of clauses is two. For this reason, the maximum number of clauses is three.
  • the full-text analysis unit 12 creates clause string information 230 in which the clause string A and the clause string B are rearranged. Since the phrase string information 230 is to be processed from the phrase string described in the upper row, the dependency analysis is executed from the phrase string B first.
  • the full-text analysis unit 12 checks, for each phrase string, whether the number of phrases is equal to or less than one phrase (step ST2a). At this time, if the number of phrases is one or a blank sentence without a phrase (step ST2a; YES), the full-text analysis unit 12 excludes this phrase string from the analysis target (step ST3a). The processing in step ST2a is performed on the clause string. On the other hand, when the number of clauses of the phrase string is two or more (step ST2a; NO), the full-text analysis unit 12 sets “2” to the number N of clauses to be processed (step ST4a).
  • step ST5a the full-text analysis unit 12 performs dependency analysis on each phrase for the phrase count N (step ST5a).
  • N 2 phrase strings B are to be processed.
  • the details of the process of step ST5a will be described later with reference to FIG.
  • step ST6a the full-text analysis unit 12 checks whether the dependencies of all clauses in the clause string to be processed have been determined (step ST6a). If there is a clause whose dependency is undecided (step ST6a; NO), the full-text analysis unit 12 returns to step ST5a to perform dependency analysis on the clause whose dependency is undecided. When the dependencies of all the clauses in the sentence string to be processed are determined (step ST6a; YES), the full-text analysis unit 12 sets the dependency analysis result on the phrase string to be processed in the tree corpus 12a as the dependency rule. (Step ST7a).
  • FIG. 9A is a diagram showing the dependency analysis result 240 of the phrase string B in the phrase string information 230 of FIG.
  • FIG. 9B is a diagram showing the dependency rule 250 of the phrase string B.
  • the dependency rule 250 is information composed of a rule number, the number of non-dependencies, the number of dependencies, the dependency class (the dependency source clause, the dependency destination clause), and clause information.
  • the rule number is an integer number starting from 1, and is a serial number assigned to the clause string in the order of dependency analysis. For example, since the dependency rule 250 is a dependency rule of the phrase string B analyzed first, the rule number is "1".
  • the full-text analysis unit 12 sets clause information of the clause 220a and the clause 220c (tag information indicating part of speech and tag information indicating reading) in the tree corpus 12a.
  • the dependency frequency is a frequency corresponding to the occurrence frequency of non-dependent clauses in the analysis target phrase string, and the dependency frequency is equivalent to the occurrence frequency of the dependent phrase in the analysis target phrase string Frequency. These frequencies correspond to the statistics of the dependency frequency between clauses and clauses in the phrase string to be analyzed.
  • the full-text analysis unit 12 calculates a statistic of the dependency frequency between the phrase 220a and the phrase 220c in the phrase string B (step ST8a). For example, since the full-text analysis unit 12 is involved in the phrase string B from the phrase 220a to the phrase 220c, “1” is set to the dependency frequency 250a as the dependency frequency statistic of the phrase 220a and the phrase 220c, Since there is no clause without dependency, the independency frequency 250 b is set to “0”. The full-text analysis unit 12 sets the dependency frequency 250a and the non-dependency frequency 250b in the tree corpus 12a.
  • step ST11a the full-text analysis unit 12 checks whether N is larger than the maximum number of clauses. If N is larger than the maximum number of phrases (step ST11a; YES), the process proceeds to step ST4 of FIG. On the other hand, when N is equal to or less than the maximum number of phrases (step ST11a; NO), the full-text analysis unit 12 returns to step ST5a.
  • the full-text analysis unit 12 sets the phrase sequence A having three phrases in the phrase sequence information 230 shown in FIG. 8 as a processing target from step ST5a. Execute the process of
  • FIG. 10A is a diagram showing the dependency analysis result 260 of the phrase string A in the phrase string information 230 of FIG.
  • the full-text analysis unit 12 determines the dependency that the phrase 220 a affects the phrase 220 c once by the dependency analysis for the phrase string A. Since the clause number of the clause string A of the clause string A is “2”, the full-text analysis unit 12 changes the destination number of the delimiter information of the clause string 220 a of the clause string A from “ ⁇ 1” to “2”.
  • the full-text analysis unit 12 determines the dependency that the phrase 220 b is applied to the phrase 220 c once by the dependency analysis for the phrase string A. Since the clause number of the clause string A of the phrase string A is “2”, the full-text analysis unit 12 changes the destination number of the clause 220 b of the phrase string A from “ ⁇ 1” to “2”. Furthermore, since the clause 220c does not have a dependency destination clause, the full-text analysis unit 12 leaves the dependency destination number of the clause 220c at "-1".
  • the dependency analysis device 1 calculates the statistic of the dependency frequency in order from the two clauses that can determine the dependency relationship without ambiguity. By doing this, the user of the dependency analysis apparatus 1 can reliably acquire the statistic of dependency frequency.
  • FIG. 10B is a diagram showing the dependency rule 270 of the phrase string A.
  • the rule of the rule number "1" corresponds to the dependency rule of the phrase string B that has been analyzed before. Therefore, the dependency analysis result of the phrase string B is set as it is.
  • the rule of rule number "2" is the dependency rule of clause 220b and clause 220c in phrase string A
  • the rule of rule number "3" is the dependency rule of clause 220a in clause string A and clause 220b. is there.
  • the full-text analysis unit 12 sets phrase information (tag information indicating part of speech and tag information indicating reading) in the tree corpus 12a from the clause 220a to the clause 220c.
  • the full-text analysis unit 12 sets “1” to the degree of dependency 270 a between the clause 220 b and the clause 220 c because the clause string A relates once to the clause 220 b (dependency clause) to the clause 220 c (dependency clause). Since there is no clause having no dependency in the phrase string A, “0” is set to the non-dependency frequency 270 b.
  • the full-text analysis unit 12 sets “0” for the degree of dependency 270c between the clause 220a and the clause 220b.
  • “1” is set to the non-dependency frequency 270 d between the clause 220 a and the clause 220 b.
  • step ST4 of FIG. 3 the extraction unit 13 extracts the statistic P D of dependency rules and clauses and clause dependency frequency between clauses and clause tree corpus 12a.
  • FIG. 11 is a diagram showing extraction information 280 regarding dependency rules extracted from the tree corpus 12a.
  • the extraction information 280 includes a statistic P D of dependency frequency between dependency rules and clauses and clause the clause and the clauses of clause columns A and clauses column B.
  • clause information from the clause 220a to the clause 220c is set. Further, the extraction information 280, clause 220a, each dependency structure (dependency source and dependency destination dependency relationship) clauses 220b and clauses 220c are set, further statistic P D of dependency frequency is set ing. As a result, the user of the dependency analysis device 1 can obtain highly accurate dependency rules without manually creating a tree corpus in advance.
  • FIG. 13 is a diagram showing an example of a phrase string (two clauses) to be processed, and is phrase string information 300 indicating a phrase string B composed of a clause 220a and a clause 220c.
  • the full text analysis unit 12 stores the phrase sequence information 300 in the hard disk 102 or the memory 105 shown in FIGS. 2A and 2B and creates information having the same content as the phrase sequence B. .
  • the full-text analysis unit 12 checks whether or not the input phrase string is 2 clauses (step ST2b). If the input phrase sequence is three or more phrases (step ST2b; NO), the full-text analysis unit 12 proceeds to the process of step ST6b. On the other hand, if the input phrase string is 2 clauses (step ST2b; YES), the full-text analysis unit 12 uses the dependency number corresponding to the dependency of the clause and the clause in the input phrase string, Are attached to both the delimiter information of and the delimiter information of the clause in the copy source clause column (step ST3b).
  • FIG. 14 is a diagram showing clause string information 310 in which a destination number is added to the delimiter information of the clause of FIG.
  • the clause 220 a of the clause number “0” relates to the clause 220 c of the clause number “1”. Therefore, the full-text analysis unit 12 assigns the clause number “1” to the destination clause (segment 220c) to the destination number “ ⁇ 1” of the segment 220a. Since the clause to which the clause 220c depends is undecided, the dependent number of the clause 220c remains "-1". As a result, in the phrase string B, the delimiter information of the phrase 220a becomes "* 01D", and the delimiter information of the phrase 220c becomes "* 1-1".
  • the full-text analysis unit 12 deletes the clause determined by the target from the copy clause string (step ST4b).
  • clauses other than the clause whose dependency number is "-1" are deleted.
  • the full-text analysis unit 12 deletes the phrase 220 a from the copy phrase string B.
  • FIG. 15 shows phrase string information 320 in which the phrase 220 a is deleted from the phrase string B.
  • the phrase string B from which the phrase 220a is deleted only the phrase 220c whose delimiter information is "* 1-1D" remains.
  • the full-text analysis unit 12 confirms whether or not the copy clause string has become one clause (step ST5 b). At this time, if the copy clause string is two or more phrases (step ST5 b; NO), the full-text analysis unit 12 returns to step ST2 b and repeats the above-described processing. If the copy clause string is one clause (step ST5b; YES), the full-text analysis unit 12 proceeds to the processing of step ST6a of FIG.
  • step ST3b since the assignment of the dependency destination number is performed for both the delimiter information of the copy clause column and the delimiter information of the clause of the copy source clause, the clause and clause of the clause reflected in the copy clause column The result of dependency analysis is also reflected in the copy source clause sequence.
  • the full-text analysis unit 12 can execute a series of processes from step ST6a on the copy source clause string in which the clause and the dependency analysis of the clause are reflected.
  • step ST2b determines whether or not the undecided clause in the input phrase string relates to the clause immediately after (step S6b).
  • step ST3 b adds the destination number to the segment information of the relevant phrase, Repeat the series of processing. If the phrase whose pending destination is undecided does not relate to the immediately following phrase (step ST6b; NO), the full-text analysis unit 12 proceeds to step ST4b and repeats the series of processes described above.
  • FIG. 16 is a diagram showing an example of a phrase string (3 clauses) to be processed, and is phrase string information 410 indicating a phrase string A composed of a clause 220a, a clause 220b and a clause 220c.
  • step ST1 b when the phrase string information 410 is input, the full-text analysis unit 12 creates information having the same content as the phrase string A.
  • step ST6b the full-text analysis unit 12 determines whether or not the phrase whose pending object is undecided in the phrase string A relates to the clause immediately after it.
  • the full text analyzer 12 the dependency destination number excluding endnotes clause identifies the clause of "-1", with reference to the dependency rules and statistics P D extracted from the tree corpus by the extraction unit 13, It is analyzed whether this clause relates to the clause immediately after that.
  • the clause from the end of the sentence to the second sentence shall be unconditionally related to the clause at the end of the sentence.
  • FIG. 17 is a diagram showing the phrase string information 420 in which the destination number is added to the delimiter information of the clause 220b of FIG.
  • the phrase 220b of the phrase number “1” relates to the phrase 220c of the phrase number “2”.
  • the full-text analysis unit 12 returns to step ST3b and, as shown in FIG. 17, assigns "2", which is the clause number of the dependency destination clause, to the destination number "-1" of the clause 220b.
  • step ST4b the full-text analysis unit 12 deletes the clause determined by the target from the copy clause string A. For example, since the clause 220b other than the clause whose dependency destination number is “ ⁇ 1” is deleted from the phrase string A, the phrase string information 430 shown in FIG. 18 is obtained. As shown in FIG. 18, two clauses of the clause 220a and the clause 220c remain in the copy clause string A, and they are not one clause (step ST5b; NO), so the full-text analysis unit 12 performs the process of step ST2b. Migrate to
  • the full-text analysis unit 12 determines that the clause 220a of the clause number "0" relates to the clause 220c of the clause number "2" because the copy clause string A is two clauses (step ST2b; YES). .
  • the full-text analysis unit 12 assigns the clause number “2” of the clause to which the clause is related to the dependency destination number “ ⁇ 1” of the clause 220 a.
  • phrase string information 440 shown in FIG. 19 is obtained.
  • the full-text analysis unit 12 executes a series of processing from step ST4b on the phrase string A, whereby the dependency analysis result 450 of the phrase string A shown in FIG. 20 is obtained.
  • the dependency analysis device 1 determines the plurality of sentences included in the text data by analyzing the dependencies of the clauses and the clauses in order from the sentence having the smallest number of clauses and analyzing them.
  • the dependency rules of clauses and clauses and the statistics of dependency frequency of clauses and clauses are set in the tree corpus 12a. By configuring in this way, the dependency analysis device 1 can create dependency rules for clauses and clauses, and calculate statistics of dependency frequency of clauses and clauses corresponding to the dependency rules.
  • the full-text analysis unit 12 calculates the statistic of the dependency frequency in order from the two clauses that can determine the dependency relationship without ambiguity. For example, when text data contains a large number of short sentences of two clauses, the full-text analysis unit 12 may calculate statistics of dependency frequency of clauses and clauses using a large number of two clause sentences. it can. Furthermore, the full-text analysis unit 12 uses the sentences of the three sentences while solving the ambiguity of the dependency relation in the sentences of the subsequent three sentences using the definite statistics calculated from the sentences of a large number of two sentences.
  • the full-text analysis unit 12 simulates the natural flow of language acquisition in which the number of words in a language that can be handled gradually as humans grow up from an infant gradually increases. Statistics are calculated.
  • Second Embodiment In the first embodiment, a dependency analysis method is described, which analyzes words and word dependencies in ascending order of sentences, that is, short sentences, to obtain dependency rules and statistics. This analysis method is effective when the text data contains a short sentence, but the actual text may not contain a short sentence. Therefore, in the second embodiment, a method of analyzing the dependency of a clause sequentially from the clause at the end of the sentence will be described.
  • FIG. 21 is a block diagram showing a configuration of a dependency analysis apparatus 1A according to a second embodiment of the present invention.
  • the dependency analysis apparatus 1A is an apparatus for analyzing the dependency of a sentence included in the input text data, and includes a morphological analysis unit 10, a chunking unit 11, a full text analysis unit 12A, and an extraction unit 13.
  • the full-text analysis unit 12A analyzes a plurality of sentences converted into phrase strings by the chunking unit 11 sequentially from the clause at the end of the sentence to the dependency of the clause and indicates the dependency structure of the clause determined by analysis And the dependency frequency statistics of the clauses are set in the tree corpus 12a.
  • the dependency analysis apparatus 1A includes a processing circuit for executing the processing from step ST1c to step ST11c described later with reference to FIG.
  • the processing circuit may be dedicated hardware or a processor that executes a program stored in a memory.
  • FIG. 22 is a flowchart of a dependency analysis method according to the second embodiment. Steps ST1c to ST4c of FIG. 22 are the same as the processings of steps ST1a to ST4a of FIG. In addition, the process from step ST6c to step ST11c in FIG. 22 is the same as the process from step ST6a to step ST11a in FIG. In step ST5c, the full-text analysis unit 12A performs dependency analysis on the clause of the N-th passage from the end of the sentence.
  • FIG. 23 is a flowchart showing details of the process of step ST5c of FIG.
  • the full-text analysis unit 12A confirms whether or not the input phrase string is the two phrase phrase strings from the end of the sentence (step ST2d). If the input phrase string is not a phrase string of two clauses from the end of the sentence (step ST2d; NO), the full-text analysis unit 12A proceeds to step ST6d.
  • step ST3d the full-text analysis unit 12A determines the destination number, the delimiter information of the copy clause string and the copy source clause so that the second clause from the end of the input phrase string relates to the clause at the end of the sentence. Assigned to column clause delimiter information. Furthermore, the full-text analysis unit 12A temporarily stores the analysis result of this dependency. For example, the dependency analysis result is temporarily stored in the hard disk 102 or the memory 105.
  • the full-text analysis unit 12A deletes the clause determined by the dependent from the copy clause sequence (step ST4d). Here, clauses other than the clause whose dependency destination number is "-1" are deleted.
  • the full-text analysis unit 12A confirms whether or not the copy clause string has become one clause (step ST5d). If the copy clause string is two or more clauses (step ST5d; NO), the full-text analysis unit 12A returns to step ST2d and repeats the above-described processing. If the copy clause string is one clause (step ST5 d; YES), the full-text analysis unit 12A proceeds to the processing of step ST6 c of FIG.
  • step ST3d since the assignment of the dependency destination number is performed on both the delimiter information of the copy clause string and the delimiter information of the copy source clause string, the dependency analysis reflected in the copy clause string is performed. The result of is also reflected in the copy source clause column. Furthermore, since the analysis result of this dependency is temporarily stored, full-text analysis unit 12A may perform dependency analysis for each clause from the end of sentence to the beginning of sentence while referring to the temporarily stored result of dependency analysis. it can. Thus, when the series of processes in FIG. 23 are completed, full-text analysis unit 12A performs the series of processes from step ST6c using the dependency analysis result performed for each clause from the end of sentence to the beginning of sentence. Become.
  • step ST6d determines that the phrase whose assignee is undecided in the input phrase string relates to the phrase immediately thereafter. It is determined whether or not (step ST6d). If the phrase whose pending object is undecided relates to the immediately following phrase (step ST6d; YES), the full-text analysis unit 12A proceeds to the process of step ST3d, assigns a destination number to the delimiter information of the phrase, and Repeat the series of processing. If the clause whose subject is undecided does not relate to the clause immediately after (step ST6d; NO), the full-text analysis unit 12A proceeds to step ST4d and repeats the series of processes described above.
  • the dependency analysis device 1A analyzes the dependency of the clause in order from the end of the plurality of sentences included in the text data, and determines the dependency rule and the dependency of the phrase determined by the analysis.
  • the statistics of the frequency are set in the tree corpus 12a.
  • FIG. 24 is a block diagram showing a configuration of a dependency analysis apparatus 1B according to a third embodiment of the present invention.
  • the dependency analysis apparatus 1B is an apparatus for analyzing the dependency of a sentence included in the input text data, and includes a morphological analysis unit 10, a chunking unit 11, a full text analysis unit 12A, an extraction unit 13, and a sentence division processing unit 15 Equipped with
  • the sentence division processing unit 15 divides a sentence included in text data based on a specific character.
  • a specific character is a character that is expected to be a sentence separator, and includes, for example, descriptive symbols such as “.”, “?”, “!”, And parenthesized symbols such as “(” and “)”. .
  • the divided sentences are output from the sentence division processing unit 15 to the morphological analysis unit 10.
  • the dependency analysis apparatus 1B includes a processing circuit for executing the processing from step ST1e to step ST5e described later with reference to FIG.
  • the processing circuit may be dedicated hardware or a processor that executes a program stored in a memory.
  • FIG. 25 is a flowchart of a dependency analysis method according to the third embodiment.
  • the process from step ST2e to step ST5e of FIG. 25 is the same as the process from step ST1 to step ST4 of FIG.
  • step ST4e a series of processes shown in FIG. 22 are performed.
  • step ST1e the sentence division processing unit 15 divides a sentence included in the text data input to the dependency analysis apparatus 1B based on a specific character. For example, the sentence division processing unit 15 divides a sentence by adding a line break even if a character follows a specific character such as “.”, “?”, “!”. If there is a sentence in the parenthesis symbol, the sentence division processing unit 15 takes out the parentheses as one sentence. This equivalently increases the number of sentences.
  • the dependency analysis apparatus 1B includes the sentence division processing unit 15.
  • the sentence division processing unit 15 divides a sentence included in text data based on a specific character.
  • the full-text analysis unit 12A analyzes the sentence including the divided sentence sequentially from the end of the sentence and the dependency of the sentence and the clause.
  • the third embodiment shows the case where the sentence division processing unit 15 is applied to the configuration of the dependency analysis apparatus shown in the second embodiment, but the sentence division processing unit 15 has the second modification shown in the first embodiment.
  • the present invention may be applied to an analysis device. Even with this configuration, the number of sentences included in the text data for learning can be increased, so the dependency rule finally obtained is highly accurate.
  • the present invention is not limited to the above embodiment, and within the scope of the present invention, variations or embodiments of respective free combinations of the embodiments or respective optional components of the embodiments.
  • An optional component can be omitted in each of the above.
  • the dependency analysis apparatus can automatically create highly accurate dependency rules, it can be used for various text analysis systems.
  • 1, 1A, 1B dependency analysis device 10 morphological analysis unit, 11 chunking unit, 11a clause connection rule, 12, 12A full text analysis unit, 12a tree corpus, 13 extraction unit, 14 dependency rule data, 15 sentence division processing , 100 input circuits, 100a input interface, 101 output circuit, 101a output interface, 102 hard disk, 103 processing circuit, 104 processor, 105 memory, 200 text data, 200a, 200b sentences, 210 morpheme analysis results, 210a morphemes, 210b, 210 c tag information, 220 chunking processing result, 220 a to 220 c clauses, 230, 300, 310, 320, 410, 420, 430, 440 clause string information, 240, 260, 450 dependency Analysis results, 250, 270 dependency rules, 250a, 270a, 270c relates degree, 250b, 270b, 270d non relates degree, 280 extracts information.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

形態素解析部(10)は、テキストデータに含まれる文を形態素ごとに分割する。チャンキング部(11)は、文の形態素列を文節列に変換する。全文解析部(12)は、テキストデータに含まれる全ての文について文節数が少ない文から順に文節と文節の係り受けを解析し、解析により決定した文節と文節の係り受け構造を示す係り受け規則および文節と文節の係り受け頻度の統計量をツリーコーパスに設定する。抽出部(13)は、ツリーコーパスから、係り受け規則と統計量を抽出する。

Description

係り受け解析装置および係り受け解析方法
 この発明は、自然言語で記述されたテキストにおける単語列と単語列の係り受けを解析する係り受け解析装置および係り受け解析方法に関する。
 自然言語で記述されたテキストを解析する技術のうち、係り受け解析処理は、テキストにおける単語列と単語列との関係を解析してテキストの意味構造を特定する技術である。係り受け解析処理は、文書の要約、機械翻訳および対話システムといった自然言語処理の応用システムを実現する上で必須となる重要な技術である。ここでは、構文解析を含めて広く“係り受け解析”と呼ぶ。
 自然言語の処理には、テキストが使用される分野に特有の言い回しまたは語義の曖昧さといった問題があるため、単語列と単語列の係り受けの規則を人手で作成することは困難であることが知られている。係り受け規則は、係り受けの言語モデルといえる。
 前述した問題に対し、従来から、計算機を用いた様々なテキスト解析方法が提案されている。例えば、非特許文献1に記載される従来の方法は、人手をかけて学習用のテキストを構文解析し、その解析結果から構文規則を文法規則として取得して尤度を付与し、この尤度に応じて適用する文法規則を選択している。文法規則に付与する尤度は、学習用の構文解析済みテキストデータに使われている文法規則の統計量によって決定される。
工藤 拓, 松本 裕治. チャンキングの段階適用による日本語係り受け解析, 情報処理学会論文誌, Vol.43, NO.6, pp.1834-1842, 2002.
 非特許文献1に記載される従来の方法は、人手で学習用の構文解析済みテキストデータを作成する必要があったため、データ作成に莫大なコストがかかるという課題があった。
 この発明は上記課題を解決するものであり、精度の高い係り受け規則を作成することができる係り受け解析装置および係り受け解析方法を得ることを目的とする。
 この発明に係る係り受け解析装置は、形態素解析部、チャンキング部、全文解析部および抽出部を備える。形態素解析部は、自然言語で記述された複数の文を含むテキストデータを入力し、テキストデータに含まれる複数の文のそれぞれを形態素ごとに分割する。チャンキング部は、形態素解析部から出力された形態素列を文節列に変換する。全文解析部は、チャンキング部により文節列に変換された複数の文を、文節数が少ない文から順に文節と文節の係り受けを解析し、解析によって決定した文節と文節の係り受け関係を示す係り受け規則および文節と文節の係り受け頻度の統計量をツリーコーパスに設定する。抽出部は、ツリーコーパスから、係り受け規則および統計量を抽出する。
 この発明によれば、テキストデータに含まれる複数の文を、文節数が少ない文から順に文節と文節の係り受けを解析し、解析により決定された文節と文節の係り受け関係を示す係り受け規則および文節と文節の係り受け頻度の統計量を、ツリーコーパスに設定する。これにより、係り受け解析装置が、精度の高い係り受け規則を作成することができる。
この発明の実施の形態1に係る係り受け解析装置の構成を示すブロック図である。 図2Aは、実施の形態1に係る係り受け解析装置の機能を実現するハードウェア構成を示すブロック図である。図2Bは、実施の形態1に係る係り受け解析装置の機能を実現するソフトウェアを実行するハードウェア構成を示すブロック図である。 実施の形態1に係る係り受け解析方法を示すフローチャートである。 テキストデータの一例を示す図である。 図4のテキストデータに含まれる文の形態素解析結果を示す図である。 図5のデータのチャンキング処理結果を示す図である。 図3のステップST3の処理の詳細を示すフローチャートである。 図6における文節列を文節数が少ない順に並べ替えた文節列情報を示す図である。 図9Aは、図8の文節列情報における文節列Bの係り受け解析結果を示す図である。図9Bは、文節列Bの係り受け規則を示す図である。 図10Aは、図8の文節列情報における文節列Aの係り受け解析結果を示す図である。図10Bは、文節列Aの係り受け規則を示す図である。 ツリーコーパスから抽出された係り受け規則に関する抽出情報を示す図である。 図7のステップST5aの処理の詳細を示すフローチャートである。 処理対象の文節列B(2文節)の一例を示す図である。 図13の文節の区切り情報に係り先番号を付与した文節列情報を示す図である。 文節列Bから係り先が決定している文節を削除した文節列情報を示す図である。 処理対象の文節列A(3文節)の一例を示す図である。 図16の文節の区切り情報に係り先番号を付与した文節列情報を示す図である。 文節列Aから係り先が決定している文節を削除した文節列情報を示す図である。 図18の文節の係り受け解析結果を示す図である。 図16の文節列Aの係り受け解析結果を示す図である。 この発明の実施の形態2に係る係り受け解析装置の構成を示すブロック図である。 実施の形態2に係る係り受け解析方法を示すフローチャートである。 図22のステップST5cの処理の詳細を示すフローチャートである。 この発明の実施の形態3に係る係り受け解析装置の構成を示すブロック図である。 実施の形態3に係る係り受け解析方法を示すフローチャートである。
 以下、この発明をより詳細に説明するため、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
 図1は、この発明の実施の形態1に係る係り受け解析装置1の構成を示すブロック図である。図1において、係り受け解析装置1は、入力したテキストデータに含まれる文の係り受けを解析する装置であり、形態素解析部10、チャンキング部11、全文解析部12および抽出部13を備える。
 形態素解析部10は、自然言語で記述された複数の文を含むテキストデータを入力し、テキストデータに含まれる複数の文のそれぞれを形態素ごとに分割する。例えば、形態素解析部10は、文を形態素の単位に分割すると、形態素ごとの品詞および読みを示すタグ情報を付与する。
 チャンキング部11は、形態素解析部10から出力された形態素列を文節列に変換する。例えば、チャンキング部11は、文節接続規則11aを参照して、文の形態素列から文節を構成する形態素を推定し、推定した形態素が連続している部分を文節とみなしてチャンキングすることで、形態素列を文節列に変換する。
 なお、文節接続規則11aには、例えば、文節を構成しやすい単語と単語との接続規則が設定されている。
 全文解析部12は、チャンキング部11によって文節列に変換された複数の文を、文節数が少ない文から順に文節と文節との係り受けを解析する。例えば、全文解析部12は、文節列に変換された複数の文を文節数が少ない順にソートし、文節数が少ない文から文節と文節の係り受けを解析する。係り受け解析の方法は、図4を用いて後述する。
 全文解析部12は、文節と文節の係り受け解析により決定した係り受け規則および統計量をツリーコーパス12aに設定する。係り受け規則は、文節と文節との係り受け関係を示す情報(言語モデル)であり、統計量は、テキストデータに含まれる複数の文における文節と文節の係り受け頻度の統計量である。
 抽出部13は、ツリーコーパス12aから係り受け規則および統計量を抽出する。
 抽出部13によって抽出された係り受け規則および統計量は、係り受け規則データ14に設定される。
 図2Aは、係り受け解析装置1の機能を実現するハードウェア構成を示すブロック図である。図2Aにおいて、入力回路100は、テキストデータの入力を受け付ける回路であり、処理対象のテキストデータを入力するための入力インタフェースを有する。出力回路101は、係り受け規則データ14を出力する回路であって、係り受け規則データ14を出力するための出力インタフェースを有する。ハードディスク102は、処理回路103に使用されるデータを記憶する記憶装置である。例えば、入力回路100によって入力が受け付けられた処理対象のテキストデータ、係り受け解析装置1の機能を実現するためのプログラム、文節接続規則11a、ツリーコーパス12aおよび係り受け規則データ14が記憶される。処理回路103は、係り受け解析装置1として機能する専用回路である。
 図2Bは、係り受け解析装置1の機能を実現するソフトウェアを実行するハードウェア構成を示すブロック図である。入力インタフェース100aは、テキストデータの入力を受け付けるインタフェースであり、図2Aに示した入力回路100の構成要素である。出力インタフェース101aは、係り受け規則を出力するためのインタフェースであって、図2Aに示した出力回路101の構成要素である。プロセッサ104およびメモリ105は、信号バスを介して接続されている。図2Bにおいて、ハードディスク102は、プロセッサ104に使用されるデータを記憶する記憶装置である。例えば、図2Aと同様に、入力回路100によって入力が受け付けられた処理対象のテキストデータ、係り受け解析装置1の機能を実現するためのプログラム、文節接続規則11a、ツリーコーパス12aおよび係り受け規則データ14が記憶される。
 図1に示した、文節接続規則11a、ツリーコーパス12aおよび係り受け規則データ14は、ハードディスク102またはメモリ105に記憶される。すなわち、ハードディスク102またはメモリ105には、文節接続規則11a、ツリーコーパス12a、係り受け規則および統計量が記憶される。
 係り受け解析装置1における形態素解析部10、チャンキング部11、全文解析部12および抽出部13のそれぞれの機能は、処理回路によって実現される。すなわち、係り受け解析装置1は、図3を用いて後述するステップST1からステップST4までの処理を実行するための処理回路を備える。処理回路は、専用のハードウェアであってもよいが、メモリに記憶されたプログラムを実行するCPU(Central Processing Unit)であってもよい。
 処理回路が図2Aに示す専用のハードウェアの処理回路103である場合、処理回路103は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)またはこれらを組み合わせたものが該当する。
 形態素解析部10、チャンキング部11、全文解析部12および抽出部13のそれぞれの機能を別々の処理回路で実現してもよいし、これらの機能をまとめて1つの処理回路で実現してもよい。
 処理回路が図2Bに示すプロセッサ104である場合、形態素解析部10、チャンキング部11、全文解析部12および抽出部13のそれぞれの機能は、ソフトウェア、ファームウェアまたはソフトウェアとファームウェアとの組み合わせによって実現される。
 ソフトウェアまたはファームウェアは、プログラムとして記述されて、メモリ105に記憶される。
 プロセッサ104は、メモリ105に記憶されたプログラムを読み出して実行することによって、形態素解析部10、チャンキング部11、全文解析部12および抽出部13のそれぞれの機能を実現する。すなわち、係り受け解析装置1は、プロセッサ104により実行されるときに、図3に示すステップST1からステップST4までの処理が結果的に実行されるプログラムを記憶するためのメモリ105を備える。これらのプログラムは、形態素解析部10、チャンキング部11、全文解析部12および抽出部13の手順または方法をコンピュータに実行させるものである。
 メモリ105は、コンピュータを、形態素解析部10、チャンキング部11、全文解析部12および抽出部13として機能させるためのプログラムが記憶されたコンピュータ可読記憶媒体であってもよい。
 メモリ105には、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically-EPROM)などの不揮発性または揮発性の半導体メモリ、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVDなどが該当する。
 形態素解析部10、チャンキング部11、全文解析部12および抽出部13のそれぞれの機能について一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現してもよい。例えば、形態素解析部10、チャンキング部11および全文解析部12については、専用のハードウェアとしての処理回路で機能を実現する。そして、抽出部13については、プロセッサ104がメモリ105に記憶されたプログラムを読み出して実行することにより機能を実現してもよい。
 このように、処理回路は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの組み合わせにより上記機能のそれぞれを実現することができる。
 次に動作について説明する。
 図3は、実施の形態1に係る係り受け解析方法を示すフローチャートである。
 形態素解析部10は、テキストデータの形態素解析処理を行う(ステップST1)。
 テキストデータには、自然言語で記述された複数の文が含まれ、形態素解析部10は、複数の文のそれぞれの形態素を解析して形態素の単位に分割する。これにより、テキストデータに含まれる複数の文のそれぞれは形態素列に変換されてチャンキング部11に出力される。
 例えば、形態素解析部10が、図4に示すテキストデータ200に含まれる文200aおよび文200bを入力すると、不図示の形態素解析辞書を参照して、文200aを形態素の単位に分割して、形態素ごとの品詞および読みを示すタグ情報を付与する。同様に、形態素解析部10は、形態素解析辞書を参照して、文200bを形態素の単位に分割し、形態素ごとの品詞および読みを示すタグ情報を付与する。これにより、図5に示す形態素解析結果210が得られる。
 図5に示す形態素解析結果210では、1行に1つの形態素に関する情報が設定されており、先頭カラムが形態素の見出し表層形であり、これに後続するカラムにはタグ情報が設定されている。タグ情報は、“,”によって情報が項目分けされており、図5の左から“品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用型,活用形,原形,読み,発音”が設定される。設定する情報がない項目には“*”が設定される。
 図5に示す例では、1行目の見出し表層形に形態素210aが設定されており、見出し表層形に続くカラムに、形態素210aの品詞に関するタグ情報210bと読みに関するタグ情報210cが付与される。形態素解析結果210には、文末を示す特殊な文字列として“EOS”が設定される。文200aは、6つの形態素に分割され、これらの形態素から構成される形態素列に変換される。文200bは、4つの形態素に分割され、これらの形態素から構成される形態素列に変換される。
 チャンキング部11は、形態素解析部10から入力したデータに対しチャンキング処理を行う(ステップST2)。チャンキング部11によって複数の文のそれぞれの形態素列が文節列に変換されて全文解析部12に出力される。
 図6は、図5に示した形態素解析結果210に対してチャンキング処理を行った結果である。チャンキング部11は、図5に示した形態素解析結果210に対して文節の区切り情報を付与したチャンキング処理結果220を生成する。ここで、文節の区切り情報は、図6に示すように、アスタリスク“*”、文節番号、係り先番号、および文字“D”から構成された文字列であり、文節の開始位置を意味する行に付与される。
 アスタリスク“*”に続く文節番号は、0から始まる整数の番号であって、文の先頭の文節から順に付与される通し番号である。係り先番号は、係り元となる文節の区切り情報に設定される番号であり、係り先の文節があれば、係り先の文節の文節番号が設定され、係り先がないまたは未定であれば、“-1”が設定される。文字“D”は、区切り情報であることを示す文字である。
 文200aの形態素列は、文節220a、文節220bおよび文節220cという3つの文節から構成された文節列Aに変換されている。文節列Aの文節220aは、文200aの先頭の文節であることから、文節220aの文節番号は“0”であり、係り受け解析前で係り先の文節が未決定のため、文節220aの係り先番号は“-1”である。これにより、文節列Aの文節220aの区切り情報は“*0-1D”となり、図6に示すように、文節220aに関する情報の開始位置の行に付与される。
 文節220bは、文200aの2番目の文節であるので、文節220bの文節番号は“1”であり、係り先が未決定であることから、文節220bの係り先番号は“-1”である。これにより、文節列Aの文節220bの区切り情報は“*1-1D”となり、図6に示すように、文節220bに関する情報の開始位置の行に付与される。文節220cは、文200aの3番目の文節であるので、文節220cの文節番号は“2”であり、係り先が未決定であることから、文節220cの係り先番号は“-1”である。これにより、文節列Aの文節220cの区切り情報は“*2-1D”となり、図6に示すように、文節220cに関する情報の開始位置の行に付与される。
 文200bの形態素列は、文節220aおよび文節220cという2つの文節から構成される文節列Bに変換される。文節列Bの文節220aは、文200bの先頭の文節であることから、文節220aの文節番号は“0”であり、係り受け解析前で係り先が未決定であるので、文節220aの係り先番号は“-1”である。これにより、文節列Bにおける文節220aの区切り情報は“*0-1D”となり、文節220aに関する情報の開始位置の行に付与される。文節220cは、文200bの2番目の文節であるので、文節220cの文節番号は“1”であり、係り先が未決定であるので文節220cの係り先番号は“-1”である。これにより、文節列Bにおける文節220cの区切り情報は“*1-1D”となり、文節220cに関する情報の開始位置の行に付与される。
 ステップST3において、全文解析部12は、チャンキング部11から入力した全ての文を、文節数が少ない文から順に文節と文節の係り受けを解析する。そして、全文解析部12は、解析により決定した文節と文節の係り受け構造を示す係り受け規則および文節と文節の係り受け頻度の統計量をツリーコーパス12aに設定する。
 抽出部13は、ツリーコーパス12aから、係り受け規則および統計量を抽出する(ステップST4)。抽出部13によって抽出された係り受け規則および統計量は、係り受け規則データ14に設定される。
 次に、係り受け解析およびツリーコーパス作成の詳細について説明する。
 図7は、図3のステップST3の処理の詳細を示すフローチャートである。
 以下、図6に示したチャンキング処理結果220が全文解析部12に入力されたものとして説明を行う。
 まず、全文解析部12は、チャンキング部11から入力したデータに含まれる複数の文を、文節列の文節数が少ない順(昇順)に並べる(ステップST1a)。このとき、全文解析部12は、チャンキング処理された複数の文における最大の文節数(以下、最大文節数と呼ぶ)を特定して記憶する。例えば、最大文節数をハードディスク102またはメモリ105に記憶してもよい。
 図8は、図6に示すチャンキング処理結果220を、文節数の昇順に並べ替えた結果を示している。チャンキング処理結果220では、文200aの文節列Aは、文節220aと文節220bと文節220cとから構成される文節列であって、文節数が3つである。文200bの文節列Bは、文節220aおよび文節220cから構成され、文節数は2である。このため、最大文節数が3となる。このとき、全文解析部12は、図8に示すように、文節列Aと文節列Bとを並べ替えた文節列情報230を作成する。なお、文節列情報230は、上段に記述された文節列から処理対象となるので、文節列Bから先に係り受け解析が実行される。
 次に、全文解析部12は、文節列ごとに文節数が1文節以下であるか否かを確認する(ステップST2a)。このとき、文節数が1つであるか、文節がない空文である場合(ステップST2a;YES)、全文解析部12は、この文節列を解析対象から除外して(ステップST3a)、次の文節列に対してステップST2aの処理を行う。
 一方、文節列の文節数が2文節以上である場合(ステップST2a;NO)、全文解析部12は、処理対象の文節数Nに“2”を設定する(ステップST4a)。
 次に、全文解析部12は、文節数Nの文節列について文節ごとに係り受け解析を行う(ステップST5a)。このとき、N=2の文節列Bが処理対象となる。
 なお、ステップST5aの処理の詳細は、図12を用いて後述する。
 ステップST5aの処理が完了すると、全文解析部12は、処理対象の文節列における全ての文節の係り受けを決定したか否かを確認する(ステップST6a)。
 係り受けが未決定の文節がある場合(ステップST6a;NO)、全文解析部12は、ステップST5aに戻って、係り受けが未決定の文節に対して係り受け解析を行う。
 処理対象の文節列における全ての文節の係り受けを決定した場合(ステップST6a;YES)、全文解析部12は、処理対象の文節列に関する係り受け解析結果を、係り受け規則としてツリーコーパス12aに設定する(ステップST7a)。
 図9Aは、図8の文節列情報230における文節列Bの係り受け解析結果240を示す図である。全文解析部12は、文節列Bの係り受け解析により文節220aから文節220cへ係るという係り受けを決定すると、文節220cの文節番号が“1”であることから、文節220aの区切り情報における係り先番号を“-1”から“1”に変更する。
 文節220cの係り先の文節は未決定であるため、全文解析部12は、文節220cの区切り情報における係り先番号を“-1”のままとする。
 図9Bは、文節列Bの係り受け規則250を示す図である。図9Bに示すように、係り受け規則250は、規則番号、非係り度数、係り度数、係り受け区分(係り元文節、係り先文節)および文節情報から構成される情報である。
 規則番号は、1から始まる整数の番号であって、係り受け解析が施された順に文節列に付与される通し番号である。例えば、係り受け規則250は、最初に解析された文節列Bの係り受け規則であることから、規則番号は“1”となる。全文解析部12は、文節220aおよび文節220cの文節情報(品詞を示すタグ情報と読みを示すタグ情報)をツリーコーパス12aに設定する。
 非係り度数は、解析対象の文節列において、係り受けのない文節が出現する頻度に相当する度数であり、係り度数は、解析対象の文節列において、係り受けがある文節が出現する頻度に相当する度数である。これらの度数は、解析対象の文節列における文節と文節との係り受け頻度の統計量に相当する。
 次に、全文解析部12は、文節列Bにおける文節220aと文節220cとの係り受け頻度の統計量を算出する(ステップST8a)。例えば、全文解析部12は、文節列Bにおいて文節220aから文節220cへ係っているので、文節220aと文節220cとの係り受け頻度の統計量として、係り度数250aに“1”を設定し、係り受けのない文節は存在しないので、非係り度数250bに“0”を設定する。全文解析部12は、係り度数250aおよび非係り度数250bをツリーコーパス12aに設定する。
 次に、全文解析部12は、処理対象がN(=2)番目の文節であったか否かを確認する(ステップST9a)。このとき、1番目の文節を処理した後である場合(ステップST9a;NO)、全文解析部12は、ステップST5aに戻って、2番目の文節に対して、前述した処理を繰り返す。
 処理対象が2番目の文節であった場合(ステップST9a;YES)、全文解析部12は、文節数N(=2)を+1だけ増加させる(ステップST10a)。文節列Bにおける2番目の文節220cを処理した場合、全文解析部12は、ステップST11aの処理に移行する。
 ステップST11aにおいて、全文解析部12は、Nが最大文節数より大きいか否かを確認する。Nが最大文節数よりも大きくなった場合(ステップST11a;YES)、図3のステップST4の処理に移行する。一方、Nが最大文節数以下である場合(ステップST11a;NO)、全文解析部12は、ステップST5aに戻る。
 N=3、最大文節数(=3)以下であるので、全文解析部12は、図8に示した文節列情報230における文節数が3つの文節列Aを処理対象として、ステップST5aからの一連の処理を実行する。
 図10Aは、図8の文節列情報230における文節列Aの係り受け解析結果260を示す図である。全文解析部12は、文節列Aを対象とした係り受け解析により文節220aが文節220cに1回係るという係り受けを決定する。文節列Aの文節220cの文節番号は“2”であることから、全文解析部12は、文節列Aの文節220aの区切り情報の係り先番号を“-1”から“2”に変更する。
 また、全文解析部12は、文節列Aを対象とした係り受け解析によって文節220bが文節220cに1回係るという係り受けを決定する。文節列Aの文節220cの文節番号は“2”であることから、全文解析部12は、文節列Aの文節220bの係り先番号を“-1”から“2”に変更する。さらに、文節220cには係り先の文節がないので、全文解析部12は、文節220cの係り先番号を“-1”のままとする。
 自然言語で記述されたテキストでは、文節数が1つであれば、係り受けの可能性がないため、係り受けの組み合わせは0通りとなる。文節数が2つである場合、係り元と係り先の係り受けの可能性が1通りとなり、文節と文節との係り受け関係を曖昧性なく決定することができる。一方、文節数が3つであると、係り元と係り先の係り受けの組み合わせは2通りとなり、文節と文節との係り受け関係の曖昧性が増大する。このように、文節数の増加に伴って係り受けの組み合わせの数も増大するため、正しい係り受けの組み合わせを推定することが困難になる。
 そこで、実施の形態1に係る係り受け解析装置1が、前述したような自然言語の傾向を考慮して、係り受け関係を曖昧性なく決定可能な2文節から順に係り受け頻度の統計量を算出することで、係り受け解析装置1のユーザが係り受け頻度の統計量を確実に取得することができる。
 図10Bは、文節列Aの係り受け規則270を示す図である。文節列Aの係り受け規則270において、規則番号“1”の規則は、従前に解析された文節列Bの係り受け規則に相当する。このため、文節列Bの係り受け解析結果をそのまま設定している。規則番号“2”の規則は、文節列Aにおける文節220bと文節220cとの係り受け規則であり、規則番号“3”の規則は、文節列Aにおける文節220aと文節220bとの係り受け規則である。全文解析部12は、文節220aから文節220cまでの文節情報(品詞を示すタグ情報および読みを示すタグ情報)をツリーコーパス12aに設定する。
 文節列Aにおいて文節220b(係り元文節)から文節220c(係り先文節)へ1回係っているので、全文解析部12は、文節220bと文節220cとの係り度数270aに“1”を設定し、文節列Aにおいて係り受けのない文節は存在しないので、非係り度数270bに“0”を設定する。
 また、文節列Aにおいて、文節220aを係り元文節とし、文節220bを係り先文節とする係り受け関係は存在しないので、全文解析部12は、文節220aと文節220bとの係り度数270cに“0”を設定し、文節220aと文節220bとの非係り度数270dに“1”を設定する。
 文節列Bに続いて、文節列Aにおける係り度数および非係り度数の設定が完了すると、全文解析部12は、文節列Aおよび文節列B(入力されたテキストデータ)における文節と文節との係り受け頻度の統計量を算出する。
 例えば、入力されたテキストデータにおける文節と文節の係り受け頻度の統計量Pが算出される。統計量Pは、係り度数および非係り度数を用いて、下記式(1)から算出することができる。
 P=(係り度数-非係り度数)/(係り度数+非係り度数)   ・・・(1)
 図3のステップST4において、抽出部13は、文節と文節との係り受け規則および文節と文節の係り受け頻度の統計量Pをツリーコーパス12aから抽出する。
 図11は、ツリーコーパス12aから抽出された係り受け規則に関する抽出情報280を示す図である。抽出情報280には、文節列Aおよび文節列Bにおける文節と文節との係り受け規則および文節と文節との係り受け頻度の統計量Pが含まれる。
 図11において、規則番号“1”の係り受け規則では、係り度数が“1”であり、非係り度数が“0”であるので、上記式(1)から統計量P=1.0となる。
 また、規則番号“2”の係り受け規則では、係り度数が“1”であり、非係り度数が“0”であるので、上記式(1)から統計量P=1.0となる。
 規則番号“3”の係り受け規則では、係り度数が“0”であり、非係り度数が“1”であるので、上記式(1)から統計量P=-1.0となる。
 図11に示すように、抽出情報280には、文節220aから文節220cまでの文節情報が設定されている。また、抽出情報280には、文節220a、文節220bおよび文節220cのそれぞれの係り受け構造(係り元と係り先の係り受け関係)が設定され、さらに、係り受け頻度の統計量Pが設定されている。これにより、係り受け解析装置1のユーザは、ツリーコーパスを事前に手作業で作成しなくても、精度の高い係り受け規則を取得できる。
 次に、係り受け解析の具体的な処理について説明する。
 図12は、図7のステップST5aの処理の詳細を示すフローチャートである。
 全文解析部12は、ステップST4aにおいて文節数Nに2を設定すると、文節数N=2の文節列を入力して、入力した文節列のコピーを作成する(ステップST1b)。
 図13は、処理対象の文節列(2文節)の一例を示す図であって、文節220aおよび文節220cから構成された文節列Bを示す文節列情報300である。例えば、全文解析部12は、文節列情報300を入力すると、図2Aおよび図2Bに示したハードディスク102またはメモリ105に文節列情報300を記憶して、文節列Bと同じ内容の情報を作成する。
 全文解析部12は、入力した文節列が2文節であるか否かを確認する(ステップST2b)。入力した文節列が3文節以上である場合(ステップST2b;NO)、全文解析部12は、ステップST6bの処理に移行する。
 一方、入力した文節列が2文節である場合(ステップST2b;YES)、全文解析部12は、入力した文節列における文節と文節との係りに対応する係り先番号を、コピーの文節列の文節の区切り情報とコピー元の文節列の文節の区切り情報との両方に付与する(ステップST3b)。
 文節列Bでは、文節220aおよび文節220cの両方の係り先の文節が未決定であることから、図13に示すように、両方の文節の係り先番号は“-1”となっている。
 ただし、2文節の文節列では、文節番号が小さい文節(文頭の文節)が係り元文節となり、文節番号が大きい文節(文末の文節)が係り先文節となる。このため、2文節の文節列Bでは、文節番号“0”の文節220aが、文節番号“1”の文節220cに係ることになる。
 図14は、図13の文節の区切り情報に係り先番号を付与した文節列情報310を示す図である。前述したように、文節番号“0”の文節220aは、文節番号“1”の文節220cに係っている。このため、全文解析部12は、文節220aの係り先番号“-1”に対して、係り先文節(文節220c)の文節番号である“1”を付与する。
 なお、文節220cの係り先の文節は未決定であるので、文節220cの係り先番号は“-1”のままである。これにより、文節列Bにおいて、文節220aの区切り情報は“*01D”となり、文節220cの区切り情報は“*1-1”となる。
 続いて、全文解析部12は、係り先が決定している文節をコピーの文節列から削除する(ステップST4b)。ここでは、係り先番号が“-1”である文節以外の文節が削除される。例えば、図14に示す文節列Bでは、文節220aから文節220cへ係りが決定しているので、全文解析部12は、コピーの文節列Bから文節220aを削除する。
 図15は、文節列Bから文節220aを削除した文節列情報320を示している。図15に示すように、文節220aが削除された文節列Bには、区切り情報が“*1-1D”である文節220cのみが残っている。
 全文解析部12は、コピーの文節列が1文節になったか否かを確認する(ステップST5b)。このとき、コピーの文節列が2文節以上であれば(ステップST5b;NO)、全文解析部12は、ステップST2bに戻って、前述した処理を繰り返す。コピーの文節列が1文節であれば(ステップST5b;YES)、全文解析部12は、図7のステップST6aの処理に移行する。
 ステップST3bにおいて、係り先番号の付与は、コピーの文節列の文節の区切り情報とコピー元の文節列の文節の区切り情報の両方に行われるので、コピーの文節列に反映された文節と文節の係り受け解析の結果はコピー元の文節列にも反映される。これにより、全文解析部12は、文節と文節の係り受け解析が反映されたコピー元の文節列に対して、ステップST6aからの一連の処理を実行することができる。
 一方、入力した文節列が3文節以上である場合(ステップST2b;NO)、全文解析部12は、入力した文節列における係り先が未定の文節が直後の文節に係るか否かを判定する(ステップS6b)。ここで、係り先が未定の文節が直後の文節に係る場合(ステップST6b;YES)、全文解析部12は、ステップST3bに移行し、当該文節の区切り情報に係り先番号を付与して、前述した一連の処理を繰り返す。
 係り先が未定の文節が直後の文節に係らない場合(ステップST6b;NO)、全文解析部12は、ステップST4bに移行して、前述した一連の処理を繰り返す。
 図16は、処理対象の文節列(3文節)の一例を示す図であり、文節220a、文節220bおよび文節220cから構成された文節列Aを示す文節列情報410である。ステップST1bにおいて、全文解析部12は、文節列情報410を入力すると、文節列Aと同じ内容の情報を作成する。
 次に、全文解析部12は、文節列Aが3文節であるので(ステップST2b;NO)、ステップST6bに移行する。ステップST6bにおいて、全文解析部12は、文節列Aにおいて、係り先が未定の文節が直後の文節に係るか否かを判定する。
 例えば、全文解析部12は、文末の文節を除く係り先番号が“-1”の文節を特定し、抽出部13によってツリーコーパスから抽出された係り受け規則および統計量Pを参照して、この文節がその直後にある文節へ係るか否かを解析する。なお、文末から2文節目の文節は、文末の文節に無条件で係るものとする。
 図17は、図16の文節220bの区切り情報に係り先番号を付与した文節列情報420を示す図である。文節列Aでは、文節番号“1”の文節220bが文節番号“2”の文節220cに係っている。全文解析部12は、ステップST3bに戻り、図17に示すように、文節220bの係り先番号“-1”に対して、係り先文節の文節番号である“2”を付与する。
 ステップST4bにおいて、全文解析部12は、係り先が決定している文節をコピーの文節列Aから削除する。例えば、文節列Aから、係り先番号が“-1”である文節以外の文節220bが削除されるので、図18に示す文節列情報430が得られる。
 図18に示すように、コピーの文節列Aには、文節220aと文節220cの2文節が残っており、1文節ではないので(ステップST5b;NO)、全文解析部12は、ステップST2bの処理に移行する。
 全文解析部12は、コピーの文節列Aが2文節であるので(ステップST2b;YES)、文節番号“0”の文節220aが、文節番号“2”の文節220cに係っていると判定する。全文解析部12は、文節220aの係り先番号“-1”に対して、係り先文節の文節番号である“2”を付与する。これにより、図19に示す文節列情報440が得られる。この後、全文解析部12が、文節列Aに対し、ステップST4bからの一連の処理を実行することで、図20に示す文節列Aの係り受け解析結果450が得られる。
 以上のように、実施の形態1に係る係り受け解析装置1は、テキストデータに含まれる複数の文を、文節数が少ない文から順に文節と文節の係り受けを解析して、解析によって決定した文節と文節の係り受け規則および文節と文節の係り受け頻度の統計量を、ツリーコーパス12aに設定する。このように構成することで、係り受け解析装置1が、文節と文節の係り受け規則を作成し、係り受け規則に対応する文節と文節の係り受け頻度の統計量を算出することができる。
 特に、全文解析部12は、曖昧性がなく係り受け関係を決定可能な2文節から順に係り受け頻度の統計量を算出する。例えば、テキストデータに2文節の短い文が大量に含まれていた場合、全文解析部12は、大量の2文節の文を用いて、文節と文節の係り受け頻度の統計量を算出することができる。さらに、全文解析部12は、大量の2文節の文から算出した確かな統計量を用いて、続く3文節の文における係り受け関係の曖昧性を解消しつつ、3文節の文を用いて係り受け頻度の統計量を算出し、同様に、4以上の文節数の文における係り受け関係の曖昧性を漸進的に解消しながら、4以上の文節数の文を用いて係り受け頻度の統計量を算出する。このように、全文解析部12は、人間が幼児から成長するにつれて徐々に扱える言語の語数を増やしていくような言語習得の自然な流れを模した形で、文節と文節との係り受け頻度の統計量を算出している。
実施の形態2.
 実施の形態1では、文節数が少ない、すなわち短い文から順に単語と単語の係り受けを解析して係り受け規則および統計量を得る係り受け解析方法を示した。この解析方法は、テキストデータに短い文が含まれている場合に有効であるが、実際のテキストには短い文が含まれていない場合もある。そこで、実施の形態2では、文末にある文節から順に文節の係り受けを解析する方法について説明する。
 図21は、この発明の実施の形態2に係る係り受け解析装置1Aの構成を示すブロック図である。図21において、図1と同一構成要素には同一符号を付して説明を省略する。係り受け解析装置1Aは、入力したテキストデータに含まれる文の係り受けを解析する装置であり、形態素解析部10、チャンキング部11、全文解析部12Aおよび抽出部13を備える。全文解析部12Aは、チャンキング部11により文節列に変換された複数の文を、文末にある文節から順に文節の係り受けを解析し、解析によって決定した文節の係り受け構造を示す係り受け規則および文節の係り受け頻度の統計量をツリーコーパス12aに設定する。
 係り受け解析装置1Aにおける、形態素解析部10、チャンキング部11、全文解析部12Aおよび抽出部13のそれぞれの機能は、処理回路によって実現される。すなわち、係り受け解析装置1Aは、図22を用いて後述するステップST1cからステップST11cまでの処理を実行するための処理回路を備える。処理回路は、専用のハードウェアであってもよいが、メモリに記憶されたプログラムを実行するプロセッサであってもよい。
 次に動作について説明する。
 図22は、実施の形態2に係る係り受け解析方法を示すフローチャートである。図22のステップST1cからステップST4cまでは、図7のステップST1aからステップST4aまでの処理と同じである。また、図22のステップST6cからステップST11cまでは、図7のステップST6aからステップST11aまでの処理と同じである。
 ステップST5cにおいて、全文解析部12Aは、文末からN文節目の文節の係り受け解析を行う。
 図23は、図22のステップST5cの処理の詳細を示すフローチャートである。
 全文解析部12Aは、ステップST4cにおいて文節数Nに2を設定すると、文節数N=2の文節列を入力して、入力した文節列のコピーを作成する(ステップST1d)。
 次に、全文解析部12Aは、入力した文節列が文末から2文節の文節列であるか否かを確認する(ステップST2d)。入力した文節列が文末から2文節の文節列ではない場合(ステップST2d;NO)、全文解析部12Aは、ステップST6dに移行する。
 入力した文節列が文末から2文節の文節列である場合(ステップST2d;YES)、全文解析部12Aは、ステップST3dに移行する。
 ステップST3dにおいて、全文解析部12Aは、入力した文節列の文末から2文節目の文節が文末の文節に係るように、係り先番号を、コピーの文節列の文節の区切り情報とコピー元の文節列の文節の区切り情報とに付与する。さらに、全文解析部12Aは、この係り受けの解析結果を一時的に記憶する。例えば、係り受け解析結果は、ハードディスク102またはメモリ105に一時的に記憶される。
 全文解析部12Aは、係り先が決定している文節をコピーの文節列から削除する(ステップST4d)。ここで、係り先番号が“-1”である文節以外の文節が削除される。
 次に、全文解析部12Aは、コピーの文節列が1文節になったか否かを確認する(ステップST5d)。コピーの文節列が2文節以上である場合(ステップST5d;NO)、全文解析部12Aは、ステップST2dに戻って、前述した処理を繰り返す。
 コピーの文節列が1文節であれば(ステップST5d;YES)、全文解析部12Aは、図22のステップST6cの処理に移行する。
 ステップST3dにおいて、係り先番号の付与は、コピーの文節列の文節の区切り情報とコピー元の文節列の文節の区切り情報との両方に行われるので、コピーの文節列に反映された係り受け解析の結果は、コピー元の文節列にも反映される。さらに、この係り受けの解析結果は一時的に記憶されるので、全文解析部12Aは、一次記憶した係り受け解析結果を参照しながら文末から文頭へ向けて文節ごとに係り受け解析を行うことができる。これにより、図23の一連の処理が完了すると、全文解析部12Aは、文末から文頭へ向けて文節ごとに行われた係り受け解析結果を用いて、ステップST6cからの一連の処理を行うことになる。
 一方、入力した文節列が文末から3文節以上の文節列である場合(ステップST2d;NO)、全文解析部12Aは、入力した文節列において、係り先が未定の文節が、直後の文節に係るか否かを判定する(ステップST6d)。係り先が未定の文節が直後の文節に係る場合(ステップST6d;YES)、全文解析部12Aは、ステップST3dの処理に移行して、当該文節の区切り情報に係り先番号を付与して、前述した一連の処理を繰り返す。係り先が未定の文節が、直後の文節に係らない場合(ステップST6d;NO)、全文解析部12Aは、ステップST4dに移行して、前述した一連の処理を繰り返す。
 以上のように、実施の形態2に係る係り受け解析装置1Aは、テキストデータに含まれる複数の文を文末から順に文節の係り受けを解析し、解析によって決定した係り受け規則および文節の係り受け頻度の統計量をツリーコーパス12aに設定する。
 このように構成することで、学習用のテキストデータに短い文がない場合であっても、係り受け解析装置1Aが、精度の高い係り受け規則を作成することができる。
実施の形態3.
 実施の形態2では、文末から順に文節と文節の係り受け解析を行ったが、学習用のテキストデータに含まれる文の数が少ない、すなわち解析対象の文の数が少ない場合、解析の精度を高めることができなくなる。そこで、実施の形態3では、特定の文字を基準として文を分割することで、文の数を増加させている。
 図24は、この発明の実施の形態3に係る係り受け解析装置1Bの構成を示すブロック図である。図24において、図1および図21と同一構成要素には同一符号を付して説明を省略する。係り受け解析装置1Bは、入力したテキストデータに含まれる文の係り受けを解析する装置であって、形態素解析部10、チャンキング部11、全文解析部12A、抽出部13および文分割処理部15を備える。
 文分割処理部15は、特定の文字を基準として、テキストデータに含まれる文を分割する。特定の文字とは、文の区切りであることが予想される文字であり、例えば、“。”、“?”、“!”といった記述記号、“(”および“)”といった括弧記号が挙げられる。分割された文は、文分割処理部15から形態素解析部10に出力される。
 係り受け解析装置1Bにおける、形態素解析部10、チャンキング部11、全文解析部12A、抽出部13および文分割処理部15のそれぞれの機能は、処理回路によって実現される。すなわち、係り受け解析装置1Bは、図25を用いて後述するステップST1eからステップST5eまでの処理を実行するための処理回路を備える。処理回路は、専用のハードウェアであってもよいが、メモリに記憶されたプログラムを実行するプロセッサであってもよい。
 次に動作について説明する。
 図25は、実施の形態3に係る係り受け解析方法を示すフローチャートである。
 図25のステップST2eからステップST5eまでの処理は、図1のステップST1からステップST4までの処理と同じである。
 なお、ステップST4eでは、図22に示した一連の処理が実行される。
 ステップST1eにおいて、文分割処理部15は、係り受け解析装置1Bに入力されたテキストデータに含まれる文を、特定の文字を基準として分割する。
 例えば、文分割処理部15は、“。”、“?”、“!”といった特定の文字の後に文字が続いていても改行を追加して文を分割する。括弧記号の中に文がある場合、文分割処理部15は、括弧内を1文として取り出す。これにより、等価的に文の数が増加する。
 以上のように、実施の形態3に係る係り受け解析装置1Bは、文分割処理部15を備える。文分割処理部15は、特定の文字を基準として、テキストデータに含まれる文を分割する。全文解析部12Aは、分割された文を含む文を文末から順に文節と文節の係り受けを解析する。このように構成することで、学習用のテキストデータに文が少ない場合であっても、係り受け解析装置1Bが、精度の高い係り受け規則を作成することができる。
 実施の形態3では、実施の形態2に示した係り受け解析装置の構成に文分割処理部15を適用した場合を示したが、文分割処理部15は、実施の形態1に示した係り受け解析装置に適用してもよい。このように構成しても、学習用のテキストデータに含まれる文の数を増やすことができるので、最終的に得られる係り受け規則は精度の高いものとなる。
 なお、本発明は上記実施の形態に限定されるものではなく、本発明の範囲内において、実施の形態のそれぞれの自由な組み合わせまたは実施の形態のそれぞれの任意の構成要素の変形もしくは実施の形態のそれぞれにおいて任意の構成要素の省略が可能である。
 この発明に係る係り受け解析装置は、精度の高い係り受け規則を自動で作成することができるので、様々なテキスト解析システムに利用することができる。
 1,1A,1B 係り受け解析装置、10 形態素解析部、11 チャンキング部、11a 文節接続規則、12,12A 全文解析部、12a ツリーコーパス、13 抽出部、14 係り受け規則データ、15 文分割処理部、100 入力回路、100a 入力インタフェース、101 出力回路、101a 出力インタフェース、102 ハードディスク、103 処理回路、104 プロセッサ、105 メモリ、200 テキストデータ、200a,200b 文、210 形態素解析結果、210a 形態素、210b,210c タグ情報、220 チャンキング処理結果、220a~220c 文節、230,300,310,320,410,420,430,440 文節列情報、240,260,450 係り受け解析結果、250,270 係り受け規則、250a,270a,270c 係り度数、250b,270b,270d 非係り度数、280 抽出情報。

Claims (4)

  1.  自然言語で記述された複数の文を含むテキストデータを入力し、前記テキストデータに含まれる前記複数の文のそれぞれを形態素ごとに分割する形態素解析部と、
     前記形態素解析部から出力された形態素列を文節列に変換するチャンキング部と、
     前記チャンキング部により文節列に変換された複数の文を、文節数が少ない文から順に文節と文節の係り受けを解析し、解析によって決定した文節と文節の係り受け関係を示す係り受け規則および文節と文節の係り受け頻度の統計量をツリーコーパスに設定する全文解析部と、
     前記ツリーコーパスから、前記係り受け規則および前記統計量を抽出する抽出部と
     を備えたことを特徴とする係り受け解析装置。
  2.  自然言語で記述された複数の文を含むテキストデータを入力し、前記テキストデータに含まれる前記複数の文のそれぞれを形態素ごとに分割する形態素解析部と、
     前記形態素解析部から出力された形態素列を文節列に変換するチャンキング部と、
     前記チャンキング部により文節列に変換された複数の文を、文末から順に文節と文節の係り受けを解析し、解析によって決定した文節と文節の係り受け関係を示す係り受け規則および文節と文節の係り受け頻度の統計量をツリーコーパスに設定する全文解析部と、
     前記ツリーコーパスから、前記係り受け規則および前記統計量を抽出する抽出部と
     を備えたことを特徴とする係り受け解析装置。
  3.  特定の文字を基準として、前記テキストデータに含まれる文を分割する文分割処理部を備え、
     前記形態素解析部は、前記文分割処理部により分割された文を含む複数の文のそれぞれを形態素ごとに分割すること
     を特徴とする請求項1または請求項2記載の係り受け解析装置。
  4.  形態素解析部が、自然言語で記述された複数の文を含むテキストデータを入力し、前記テキストデータに含まれる前記複数の文のそれぞれを形態素ごとに分割するステップと、
     チャンキング部が、前記形態素解析部から出力された形態素列を文節列に変換するステップと、
     全文解析部が、前記チャンキング部により文節列に変換された複数の文を、文節数が少ない文から順に文節と文節の係り受けを解析し、解析によって決定した文節と文節の係り受け関係を示す係り受け規則および文節と文節の係り受け頻度の統計量をツリーコーパスに設定するステップと、
     抽出部が、前記ツリーコーパスから、前記係り受け規則および前記統計量を抽出するステップと
     を備えたことを特徴とする係り受け解析方法。
PCT/JP2017/044223 2017-12-08 2017-12-08 係り受け解析装置および係り受け解析方法 WO2019111410A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2017/044223 WO2019111410A1 (ja) 2017-12-08 2017-12-08 係り受け解析装置および係り受け解析方法
JP2019548092A JPWO2019111410A1 (ja) 2017-12-08 2017-12-08 係り受け解析装置および係り受け解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/044223 WO2019111410A1 (ja) 2017-12-08 2017-12-08 係り受け解析装置および係り受け解析方法

Publications (1)

Publication Number Publication Date
WO2019111410A1 true WO2019111410A1 (ja) 2019-06-13

Family

ID=66750223

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/044223 WO2019111410A1 (ja) 2017-12-08 2017-12-08 係り受け解析装置および係り受け解析方法

Country Status (2)

Country Link
JP (1) JPWO2019111410A1 (ja)
WO (1) WO2019111410A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002334076A (ja) * 2001-05-10 2002-11-22 Communication Research Laboratory テキスト処理方法
JP2012185790A (ja) * 2011-03-04 2012-09-27 Hiroshi Yasuhara 係り受け解析支援装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002334076A (ja) * 2001-05-10 2002-11-22 Communication Research Laboratory テキスト処理方法
JP2012185790A (ja) * 2011-03-04 2012-09-27 Hiroshi Yasuhara 係り受け解析支援装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KUDO, TAKU ET AL.: "Japanese dependency analysis using cascaded chunking", TRANSACTIONS OF INFORMATION PROCESSING SOCIETY OF JAPAN, vol. 43, no. 6, 15 June 2002 (2002-06-15), pages 1834 - 1842 *

Also Published As

Publication number Publication date
JPWO2019111410A1 (ja) 2020-01-16

Similar Documents

Publication Publication Date Title
US10832657B2 (en) Use of small unit language model for training large unit language models
TWI636452B (zh) 語音識別方法及系統
Schuster et al. Japanese and korean voice search
KR102013230B1 (ko) 구문 전처리 기반의 구문 분석 장치 및 그 방법
WO2014048172A1 (en) Method and system for correcting text
RU2639684C2 (ru) Способ обработки текстов (варианты) и постоянный машиночитаемый носитель (варианты)
WO2018121531A1 (zh) 一种生成测试用例脚本的方法和装置
JP6778655B2 (ja) 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム
CN106354716A (zh) 转换文本的方法和设备
WO2020252935A1 (zh) 声纹验证方法、装置、设备及存储介质
Goldberg et al. Joint Hebrew segmentation and parsing using a PCFGLA lattice parser
Didenko et al. Multi-headed architecture based on BERT for grammatical errors correction
JP4738753B2 (ja) 文法オーサリングにおけるセグメント化あいまい性(segmentationambiguity)の自動的な解決
Uchimoto et al. Morphological analysis of the Corpus of Spontaneous Japanese
JP5770753B2 (ja) Cjk名前検出
JP2017058804A (ja) 検出装置、方法およびプログラム
WO2019111410A1 (ja) 係り受け解析装置および係り受け解析方法
CN110610006A (zh) 基于笔画和字形的形态学双通道中文词嵌入方法
KR20120045906A (ko) 코퍼스 오류 교정 장치 및 그 방법
JP6586055B2 (ja) 深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラム
Petrică et al. A robust diacritics restoration system using unreliable raw text data
Davel et al. Verifying pronunciation dictionaries using conflict analysis
Nanayakkara et al. Context aware back-transliteration from english to sinhala
JP7494935B2 (ja) 推定装置、推定方法、および、推定プログラム
JP2014115718A (ja) 形態素解析装置、方法、及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17934125

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019548092

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17934125

Country of ref document: EP

Kind code of ref document: A1