WO2019012908A1 - ノン・ファクトイド型質問応答装置 - Google Patents

ノン・ファクトイド型質問応答装置 Download PDF

Info

Publication number
WO2019012908A1
WO2019012908A1 PCT/JP2018/022696 JP2018022696W WO2019012908A1 WO 2019012908 A1 WO2019012908 A1 WO 2019012908A1 JP 2018022696 W JP2018022696 W JP 2018022696W WO 2019012908 A1 WO2019012908 A1 WO 2019012908A1
Authority
WO
WIPO (PCT)
Prior art keywords
question
answer
word
passage
sentence
Prior art date
Application number
PCT/JP2018/022696
Other languages
English (en)
French (fr)
Inventor
鍾勲 呉
健太郎 鳥澤
カナサイ クルンカライ
龍 飯田
ジュリアン クロエツェー
Original Assignee
国立研究開発法人情報通信研究機構
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立研究開発法人情報通信研究機構 filed Critical 国立研究開発法人情報通信研究機構
Priority to US16/629,293 priority Critical patent/US11176328B2/en
Publication of WO2019012908A1 publication Critical patent/WO2019012908A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Definitions

  • the present invention relates to a question answering apparatus, and more particularly to an improvement of a question answering system for non-factoid questions such as reasons, methods, definitions, etc., not questions about facts that can be answered with simple words.
  • the type question answering task is a task that searches for a text archive consisting of a large amount of text and answers to questions such as "Why does a tsunami occur?"
  • the type question answering task is very important in artificial intelligence, natural language processing, information retrieval, web mining, data mining, etc., but has been recognized to be extremely difficult technically.
  • the reason why the accuracy of the answer to the type question is low is that the prior art has insufficiently considered the condition of the correct answer to the question.
  • the conditions for the correct answer to the question are: (1) fit of the question to the topic, (2) presentation of the cause for the question, and (3) causality between the expressions representing (1) and (2) in the discourse structure of the answer. It is considered to satisfy the three conditions of presentation of the relationship. In the prior art, only a part of these conditions were considered, and there was no one that considered all. Therefore, in the prior art, there is a problem that it is difficult to search for a correct answer with high accuracy.
  • the relationships that form the basis of non-factoid questions include material relationships (e.g. ⁇ produce B with A>, (corn, biofuel), etc.) necessary relationships (e.g. ⁇ A is essential with B>), (Sunlight, photosynthesis, etc.), use relationship (eg: ⁇ A used for B>, (iPS cells, regenerative medicine), etc.) and prevention (eg: ⁇ A prevent B with B>, (vaccine, influenza) etc. ).
  • material relationships e.g. ⁇ produce B with A>, (corn, biofuel), etc.
  • necessary relationships e.g. ⁇ A is essential with B>
  • use relationship eg: ⁇ A used for B>, (iPS cells, regenerative medicine), etc.
  • prevention eg: ⁇ A prevent B with B>, (vaccine, influenza) etc.
  • the object of the present invention is to provide a non-factoid type question which can give a highly accurate and accurate answer to a non-factoid type question by searching for answer candidates in consideration of the condition of the correct answer to the question. It is providing a response device.
  • a non-factoid type question answering device receives a pair of a question and an answer passage, and determines whether the answer passage is a correct answer to the question.
  • the non-factoid type question answering apparatus converts the question and the answer passage by a first word-to-meaning vector conversion means for converting the question and the answer passage into a word-meaning-vector string according to the meaning from a certain point of view.
  • a first word-to-meaning vector conversion means for converting the question and the answer passage into a word-meaning-vector string according to the meaning from a certain point of view.
  • Each word meaning corresponding to the degree of similarity of the word semantic vector between the words in the answered question sentence and the words in the answer passage and the factor reflecting the strength of the first predetermined relation between the words
  • a first sentence level expression output unit that calculates and outputs sentence level expressions of questions and answer passages by weighting vectors.
  • the non-factoid type question answering apparatus further comprises: a degree of similarity between a sentence level expression of the question output by the first sentence level expression output means and a sentence level expression of the answer passage; By performing weighting a sentence-level expression a predetermined number of times in correspondence with the coefficient reflecting the strength of the relationship of vectors in the sentence-level expression viewed from the context of the relationship, the question and the answer passage First passage level expression output means for calculating and outputting passage level expressions for each, and similarity between sentence level expressions for each question and answer passage output from the first statement level expression output means , And the answer passage based on the degree of similarity between the passage level representations for each of the question output from the first passage level expression output means and the answer passage. There including determining means for determining the correct answer or not to the question.
  • the first sentence level expression output means combines the combination of each of the word semantic vectors contained in the word semantic vector string of the question sentence with each of the word semantic vectors contained in the word passage vector of the answer passage.
  • Similarity attention coefficient matrix calculation means for calculating similarity degrees representing the semantic similarity of each other and calculating a similarity attention coefficient matrix, each of the words contained in the question sentence, and the words contained in the answer passage A measure of the frequency with which both appear at a certain position in a sentence according to the first predetermined relation is calculated for the combination with each, and an attention coefficient matrix regarding the first predetermined relation is calculated.
  • an attention coefficient matrix calculation unit is calculating similarity degrees representing the semantic similarity of each other and calculating a similarity attention coefficient matrix
  • the first sentence level representing means further includes, for the word semantic vector sequence included in the word semantic vector sequence of the question sentence and the word attention vector sequence of the answer passage, the similarity attention coefficient determined by the similarity attention coefficient matrix and Word vector calculating means for calculating each word vector by performing a weighted operation including a first attention coefficient determined by the first attention coefficient matrix, and a word of the question sentence calculated by the word vector calculation means
  • Convolutional neural network CNN for performing sentence-by-statement convolution and pooling on both the semantic vector sequence and the word passage vector sequence of the answer passage to output a first statement level representation including.
  • the non-factoid type question answering apparatus is for sparsifying each word vector by updating the negative element of each word vector to 0 prior to calculation of each word vector by the word vector calculation means. It further includes a sparsifying means.
  • the non-factoid type question answering device further converts the question and the answer passage into a word semantic vector sequence according to the meaning in the another viewpoint different from the one viewpoint respectively.
  • a second sentence level expression output unit may be included which calculates and outputs sentence level expressions of questions and answer passages by weighting each word semantic vector corresponding to the coefficients.
  • the non-factoid type question answering apparatus further comprises a second predetermined relationship between the degree of similarity between the sentence level expression of the question output by the second sentence level expression output means and the expression level of the answer passage.
  • Each of the question and the answer passage by performing a predetermined number of weightings on the sentence level expression corresponding to the coefficient reflecting the strength of the relationship of the vectors in the sentence level expression viewed from the context of And a second passage level expression output unit that calculates and outputs a passage level expression for.
  • the determination means determines the degree of similarity between the sentence level representations for each of the question output from the first and second sentence level expression output means and the answer passage, and the output of the first and second passage level expression output means Means for determining whether the answer passage is the correct answer to the question based on the degree of similarity between the passage level representations for each of the question and the answer passage.
  • the second predetermined relation is equal to the first predetermined relation, for example a causal relation.
  • FIG. 6 is a diagram illustrating an example of mapping a word to a word vector space in terms of a general context. It is a figure showing the example which mapped a word to word vector space in the viewpoint in the context of causality.
  • FIG. 2 illustrates the relationship of word vectors between causes and results in a general context.
  • FIG. 6 is a diagram showing the relationship of word vectors between causes and effects in the context of causality. It is a functional block diagram of the type question answering system according to the first embodiment of the present invention.
  • FIG. 11 is a view schematically showing a configuration of a learning system of a conversion unit for converting words into word embedded vectors (hereinafter simply referred to as word vectors) in the type question answering system shown in FIG. 10. It is a figure which shows typically the structure of CNN for obtaining the expression of the sentence level by a general context among multistage * multi-column CNN shown in FIG.
  • FIG. 15 schematically shows a configuration of CNN for obtaining a passage level representation, which receives the output of the network shown in FIG. 12 among the multistage and plural columns CNN shown in FIG. 10.
  • a causal relationship is taken as an example of the first semantic relationship expression, but the present invention is not limited to such an embodiment.
  • the material relationship eg: ⁇ A produces B>, (corn, biofuel), etc.
  • necessary relationship eg: ⁇ A is essential to B>, (sunlight, photosynthesis), etc.
  • use Use a relationship (eg: ⁇ A for B>>, (iPS cells, regenerative medicine) etc.) and a preventative relation (eg: ⁇ A prevent B with>> (vaccine, influenza) etc.) or any combination thereof be able to.
  • the answer candidate 32 includes a second sentence 40 of “This causes a tsunami.”
  • the second sentence 40 relates to the same topic (tsunami, occurrence) as the question 30. Therefore, the answer candidate 32 satisfies the above condition (1).
  • the answer candidate 32 includes a first sentence 42 that “If the earthquake occurs on the sea floor, the sea level swells and collapses at a stretch.” It can be said that the first sentence 42 gives an answer to the question. Therefore, the answer candidate 32 satisfies the above (2).
  • the candidate answer 32 is an appropriate answer to the question 30. Therefore, it is checked whether there is a word indicating a causal relationship in the answer candidate 32 or not. Then, as shown in FIG. 4, the words and phrases "because of this" are found. This wording indicates that there is a causal relationship between the content of the first sentence 42 and the second sentence 40. That is, the answer candidate 32 also satisfies the condition (3). Therefore, the candidate answer 32 can be determined to be an appropriate answer to the question 30.
  • CNN which is a type of deep neural network (DNN) determines whether the answer candidate 32 is an appropriate answer to the question 30 based on whether the above three conditions are satisfied or not. Do.
  • learning is performed in advance to reflect the expression of the topic of the question, the expression of the cause for the question, and the expression regarding the causality between the two in the attention in CNN.
  • the CNN's Do learning not only the context obtained from the viewpoint of the causal relationship but also the context obtained from the viewpoint of the general expression different from the causal relationship.
  • the question 30 includes the expression 62 that “a tsunami occurs”, a word in which the answer candidate 32 frequently appears together with the expression indicating the cause of the tsunami, eg, the earthquake shown in FIG.
  • the answer candidate 32 presents the cause required by the question 30.
  • Whether or not the answer candidate 32 matches the topic of the question 30 is determined based on whether or not there is an expression similar to the expression 62 (expression 60 of the answer candidate 32).
  • the relationship between the positions 80, 82, 84, 86, and 88 of the semantic vector of each word in the general context and the position 90 of the semantic vector of the word tsunami varies.
  • This represents a general semantic representation of a word, and is suitable for learning the conditions of matching candidate answers to the topic of the question. For example, when the expression “tsunami occurs” and the expression “tsunami occurs” are semantically similar to each other, and thus the former appears in the question, the answer candidate including the latter matches the topic of the question It is suitable for learning to determine the presence or absence.
  • the semantic vectors of the words 50, 52, 54, and 56 shown in FIG. 5 in the context obtained from the causal relationship concentrate on the area 100 as shown in FIG.
  • the relationships with 102 are very similar to one another. Therefore, by mapping the words to the vector space of the semantic vector according to the context of causality and learning the CNN, it becomes easy to generalize the semantic pattern of the causality and learn the relation pattern between the words It becomes easy to do.
  • a so-called word embedded vector (for example, one obtained by word 2 vector) or the like is used as a semantic vector of a word.
  • the dimensionality d of the vector is set to 300 (the same applies to the following).
  • the word embedding vector the word embedding vectors corresponding to words having similar meanings are similar, if they are similar to the semantic relationship between one word pair and the semantic relationship between another word pair. It is known that differences between word pairs are also similar to one another.
  • such a characteristic of a word embedding vector is used and used as a semantic vector of a word.
  • a word embedding vector is also simply referred to as a "word vector".
  • a word is converted into a so-called hot one vector, and then converted into a word vector.
  • CNNs of multiple layers are used.
  • multi-layer refers to CNN for understanding the meaning at the sentence level for the combination of question and answer candidate, and further receiving the output to understand the meaning of the whole passage including plural sentences. It means that it includes CNN to do.
  • CNN Convolutional Neural Network with Multi-perspective text Representation
  • mrCNN Abbreviated as mrCNN.
  • the type question answering system 124 which is an example of the non-factoid type question answering system according to the present invention, receives the question 120 and receives answer candidates for the question 120 from the existing question answering system 126. Then, an appropriate one is selected as an answer to the question 120, and is output as an answer 122.
  • the type question answering system 124 transmits to the question answering system 126 the question accepting section 150 which receives the question 120 via a user interface (not shown) or remote communication or the like, and the question accepted by the question accepting section 150.
  • it includes an answer receiving unit 152 for receiving the answer candidate from the question answering system 126, dividing it into an answer passage consisting of a plurality of sentences, and outputting it.
  • Each of the response passages output by the response receiving unit 152 includes five consecutive sentences. In this embodiment, two consecutive answer passages share four sentences. That is, each answer passage consists of a set of five sentences shifted by one sentence.
  • the type question answering system 124 further receives the answer passage storage unit 154 for storing the answer passage output by the response receiving unit 152, each answer passage stored in the answer passage storage unit 154, and the question accepting unit 150. And a question / answer passage pair generation unit 156 that generates a question / answer pair 162 associated with the question 120.
  • the type question answering system 124 is further composed of the above-described mrCNN, receives each question / answer passage pair generated by the question / answer passage pair generation unit 156, and whether the answer passage included in the pair is the correct answer to the question Among the answer passages stored in the answer passage storage unit 154 in response to the output result of the determination unit 158 and the determination unit 158 which output the result. And a selection unit 160 which selects a character string to be an answer and outputs it as an answer 122.
  • the determination unit 158 uses the causal relationship mrCNN 180 that outputs a vector representing the meaning of the input question / answer passage pair using the attention based on the context obtained from the causal relationship, and the general context. And a general mr CNN 182 that outputs a vector representing the meaning of the input question / answer passage pair using the specified attention (similarity attention).
  • the determination unit 158 further determines whether the answer passage of the question / answer passage pair is the correct answer to the question based on the output of the causal relationship mrCNN 180 and the output of the general mr CNN 182, and selects the result using TRUE / FALSE as the selection unit 160.
  • a classifier 184 for feeding the The causal relationship mrCNN 180 and the general mr CNN 182 are the same except for the method of converting a word into a word vector. Therefore, in the following, the configuration of general mrCNN 182 will be described, and the detailed description of causality mrCNN 180 will not be repeated.
  • the general mr CNN 182 converts each of the question q and the words constituting the answer passage p contained in the question / answer pair 162 given from the question / answer passage pair generation unit 156 into a word vector, and converts the word into a question q and an answer passage p. It includes a general word vector conversion unit 210 that outputs a word vector sequence 212 consisting of two corresponding word vector sequences. The word vector sequences form a matrix.
  • the general word vector conversion unit 210 needs learning in advance using general sentences. The learning of the general word vector conversion unit 210 will be described later with reference to FIG.
  • the general mr CNN 182 further receives a word vector sequence 212 and outputs a general sentence level semantic representation 216 consisting of two vectors respectively expressing the meaning of the question and answer at the sentence level according to the general context for each sentence.
  • the causal relationship mrCNN 180 converts each of the questions included in the question / answer pair 162 given from the question / answer passage pair generation unit 156 and the words constituting the answer passage into a word vector, It includes a causal relationship word vector conversion unit 240 that outputs a word vector sequence 242 consisting of a word vector sequence corresponding to each.
  • the causality word vector conversion unit 240 needs learning in advance using sentences representing the causality. The learning of the causal relationship word vector conversion unit 240 will also be described later with reference to FIG.
  • the causal relationship mrCNN 180 further receives a word vector sequence 242, and a causality statement level semantic matrix 246 consisting of two vector sequences each representing the meaning of the question / answer at the sentence level according to the context based on the causal relationship for each sentence. From causality sentence level CNN 244 that outputs C, and causality sentence level CNN 244 from causality sentence level CNN 244, from two vectors that respectively indicate the meaning of the question and the answer as a whole passage viewed from the context of causality The causality passage level representation 166 is output and is included in the causality passage level CNN 248 input to the classifier 184.
  • the learning of the general word vector conversion unit 210 and the causal relationship word vector conversion unit 240 will be described with reference to FIG. Basically, the learning methods of the general word vector conversion unit 210 and the causal relationship word vector conversion unit 240 are the same, and only the data (sentence) used for learning is different.
  • data collected from the web is stored in the web archive storage unit 260.
  • the general word vector conversion unit 210 learns by the general word vector learning unit 270 using basically all the data stored in the web archive storage unit 260.
  • the general word vector learning unit 270 performs learning of the general word vector conversion unit 210 so as to convert a one-hot vector of a word into a d-dimensional word vector by word2vec using skip-gram with negative-sampling.
  • the causal relationship word vector learning unit 266 uses the expression stored in the causal relationship expression storage unit 264, and similarly to the general word vector learning unit 270, the causal relationship word vector conversion by word2vec using skip-gram with negative-sampling.
  • the learning of the part 240 is performed.
  • acquisition of context information of a word used for learning of a causal relationship word vector is different from that of learning of a general word vector. That is, the context of the word of the cause part in the causality expression consists of all the words of the result part (it may be only the content word).
  • the word in the result section treats all the words in the cause section as its context information.
  • the learning method itself by the general word vector learning unit 270 and the causal relationship word vector learning unit 266 is common, the data used for learning is called the general text for the former, and the text for the latter represents the causality. There is a difference.
  • word2vec since the word vector changes according to the frequency of the words appearing around the word, even the same word is converted to a different word vector by the general word vector conversion unit 210 and the causal relationship word vector conversion unit 240. Become.
  • the collection of causality expressions may be performed manually or may be collected by machine learning in some form. In order to collect a large amount of causality expressions, it is desirable to use a machine learning classifier.
  • the general sentence level CNN 214 The configuration of the general sentence level CNN 214 will be described with reference to FIG.
  • the question / answer pair 162 includes a question q and a reply passage p.
  • the general word vector conversion unit 210 existing at the front stage of the general sentence level CNN 214 receives the question q and the answer passage p, converts them into the word vector string Xq and the word vector string Xp, respectively, and converts them into the word vector string 212.
  • the word vector string 212 includes a word vector string Xq and a word vector string Xp.
  • the word vector sequence Xq has d ⁇ I dimensions
  • the word vector sequence Xp has d ⁇ J dimensions.
  • I and J are the lengths of the question q and the answer passage p (the number of words included in the question and passage), respectively.
  • the general sentence level CNN 214 includes a sparsification processing unit 280 which applies the activation function ReLU to each of the word vector string Xq and the word vector string Xp and outputs a word vector string 282 which is sparse.
  • the word vector string 282 includes a word vector string ⁇ Xq and a word vector string ⁇ Xp (the symbol " ⁇ " is described immediately above the character immediately following it in the figure).
  • the word vector string ⁇ Xq and ⁇ Xp are calculated by the following equation.
  • the general sentence level CNN 214 further includes a similarity degree attention processing unit 284 for receiving the word vector sequence Xq and the word vector sequence Xp and calculating the similarity degree attention coefficient matrix 286.
  • the similarity attention coefficient matrix 286 includes a similarity attention coefficient matrix Sq for the question sentence and a similarity attention matrix Sp for the answer passage.
  • the general sentence level CNN 214 further includes a causal relation attention processing unit 288 for receiving the question-answer pair 162 and calculating the causal relation attention coefficient matrix 290.
  • the causal relation attention coefficient matrix 290 includes a causal relation attention coefficient matrix Cq for the question sentence and a causal relation attention coefficient matrix Cp for the answer passage.
  • the dimensions of the matrices Sq and Cq are the same as ⁇ Xq, ie d * I, and the dimensions of the matrices Sp and Cp are d * J as ⁇ Xp.
  • the similarity attention coefficient matrices Sp and Sq and the causality attention coefficient matrices Cq and Cp will be described later.
  • the general sentence level CNN 214 is further weighted by attention by performing the following operation on the word vector sequences ⁇ Xq and ⁇ Xp, the similarity attention coefficient matrices Sq and Sp, and the causality attention coefficient matrices Cq and Cp. And a word vector calculation unit 292 according to attention for calculating a word vector sequence 294 after generation.
  • Final word vector column 294 includes final word vector column ⁇ Xq and word vector column ⁇ Xp.
  • the general sentence level CNN 214 further performs sentence-by-statement convolution and max pooling on the final word vector sequence ⁇ Xq and the word vector sequence ⁇ Xp to express the sentence level meaning of question q and answer passage p at the general sentence level
  • a sentence-by-statement convolution and pooling unit 298 for outputting the semantic representation 216 is included.
  • the general sentence level semantic representation 216 includes vector sequences Yq and Yp.
  • the similarity attention processing unit 284 calculates similarity attention coefficient matrices Sp and Sq using the similarity attention calculation unit 300 for calculating the similarity attention feature quantity matrix 302 and the similarity attention feature quantity matrix 302. And a similarity degree attention coefficient matrix calculation unit 304.
  • the similarity attention feature amount matrix 302 is a matrix A
  • the matrix A is I rows and J columns.
  • Each element is the degree of similarity between the word vectors in all combinations of the words contained in the question q and the words in the answer passage.
  • the cosine similarity of the vector is used as the similarity.
  • the similarity attention coefficient matrix calculation unit 304 calculates the feature vectors aq and ap in this manner, and calculates the similarity attention coefficient matrices Sq and Sp using the characteristics vectors as follows.
  • the causality attention processing unit 288 receives the question / answer pair 162 and uses the causality attention calculation unit 320 for calculating the causality attention feature amount matrix 322, and the causality attention factor using the causality attention feature amount matrix 322 And a causal relationship attention coefficient matrix calculation unit 324 for calculating the matrix 290.
  • the causal relationship attention coefficient matrix 290 includes a causal relationship attention coefficient matrices Cq and Cp.
  • the matrix B is I rows and J columns.
  • the matrix B is calculated using normalized point-by-point mutual information (npmi).
  • npmi represents the strength of the causal relationship between the word a indicating the cause and the word b indicating the result, and is defined by the following equation.
  • p (a, b) indicates the probability that the word a and the word b exist in the cause part and the result part of the same causal relation expression, respectively.
  • This probability is statistically obtained from the causality expression stored in the causality expression storage unit 264 shown in FIG.
  • p (a, *) and p (*, b) respectively indicate the probability that the word a appears in the cause part and the word b appears in the result part in the entire causality expression stored in the causality expression extraction unit 262.
  • the value of npmi (a; b) varies in the range -1 to 1. When the frequency in which the word a and the word b appear in the same cause and cause part in the same causal relation expression is high (when the causal relation is intensified), the value is close to 1.
  • the matrix B is defined as follows.
  • the words of the question and the words of the answer passage are treated as a word indicating the cause and a word indicating the result, respectively.
  • the feature vector Bq ⁇ R I and Bp ⁇ R J causality attention coefficient matrix calculator 324 two causal attention performing Max pooling in the row direction and the column direction of the matrix B calculate.
  • the feature vector of the causal relationship attention obtained in this way has, as an element, a score indicating the largest causal relationship among the words on the opposite side for each word belonging to the question and the answer passage.
  • the causal relationship attention coefficient matrix calculation unit 324 further calculates the causal relationship attention coefficient matrices Cq and Cp as follows.
  • a sentence-by-statement convolution and pooling unit 298 performs a sentence-by-statement convolution and pooling process.
  • the sentence-specific convolution and pooling unit 298 divides the final word vector sequence ⁇ Xq and the word vector sequence ⁇ Xp into matrices each representing a word sequence for each sentence.
  • a combination of a plurality of filters and a plurality of window sizes (1 ⁇ t ⁇ 5) is adopted as the value of t of the word t-gram.
  • feature vectors were calculated by 2, 3, 4-grams using three filters.
  • the Yq and Yp are given to the general passage level CNN 218 shown in FIGS. 10 and 13.
  • General passage level CNN 218 includes the first stage mr CNN 360 and the second stage mr CNN 364.
  • the mrCNN 360 calculates the similarity attention coefficient matrix 382 from the vector sequences Yq (Y q 1 ) and Yp (Y p 1 ) included in the general sentence level semantic representation 216, and FIG.
  • the causal relation attention calculation unit 384 which calculates the coefficient matrix 386 of the causal relation attention from the feature vector group 340 (described later) obtained from the causal relation attention feature value matrix 322 shown, and the general statement by attention using the coefficient matrices 382 and 386
  • an updating unit 388 for weighting and updating the level semantic representation 216 and outputting an updated general sentence level semantic representation 362.
  • the general sentence level semantic representation 362 is the first sentence level representation of the repetition.
  • the mrCNN 364 has the same configuration as the mrCNN 360, and receives a general sentence level semantic representation 362 as input to calculate a similarity attention coefficient matrix unit 402, and a feature vector group 340 as input to coefficients of causality attention
  • the causal relation attention calculation unit 404 which calculates the matrix 406, the general sentence level semantic representation 362 is weighted by the attention by the coefficient matrix 402 and the coefficient matrix 406 to update, and the update unit 408 which outputs the updated general sentence level semantic representation 366 And.
  • the general passage level CNN 218 further includes a convolution / pooling processing unit 368 that performs convolution / pooling on the general sentence level semantic representation 366 and outputs a general passage level representation 164.
  • a convolution / pooling processing unit 368 that performs convolution / pooling on the general sentence level semantic representation 366 and outputs a general passage level representation 164.
  • the convolution / pooling processing unit 368 the same configuration as the convolution and pooling processing unit 298 for each sentence shown in FIG. 12 is used.
  • the classifier 184 comprises a logistic regression layer. This logistic regression layer employs dropouts and is a fully combined layer with softmax output.
  • the classifier 184 includes a question / answer passage pair in the general passage level representation 164 and the general sentence level semantic representation 216 output from the general mr CNN 182, and the causality passage level representation 166 and the causal relationship sentence level semantic matrix 246 output from the causality mr CNN 180. Are connected, and the similarity between the expression of the question and the expression of the answer passage in the output from the same CNN is calculated by the following expression.
  • the classifier 184 receives this r as an input, performs label determination of correct / incorrect, and gives an output indicating True / False to the selection unit 160.
  • the operation of the type question answering system 124 includes a learning phase and an operating phase that outputs responses to actual questions.
  • the learning phase further includes a learning phase of the general word vector conversion unit 210 and the causal relationship word vector conversion unit 240 shown in FIG. 11 and a learning phase of each parameter of the type question answering system 124 shown in FIG.
  • ⁇ Learning of the causal relationship word vector conversion unit 240 In learning of the causal relationship word vector conversion unit 240, referring to FIG. 11, a large amount of documents are collected in advance from the web and stored in the web archive storage unit 260.
  • the general word vector conversion unit 210 performs learning so as to
  • the causality expression extraction unit 262 extracts only the expression including the causality from the web archive storage unit 260 and stores the expression in the causality expression storage unit 264.
  • the causal relationship word vector learning unit 266 performs learning of the causal relationship word vector conversion unit 240 using the same method as the general word vector learning unit 270.
  • the general word vector conversion unit 210 performs learning based on general context regardless of the causal relationship, and the causal relationship word vector conversion unit 240 performs learning using only the expression including the causal relationship. Therefore, the parameters for converting both words into word vectors are different, and conversion to a word vector is performed so as to represent the meaning from the general viewpoint and the meaning from the viewpoint of causality. Become.
  • the learning of the type question answering system 124 is carried out by preparing positive and negative examples of pairs of questions and answer passages, as in a normal neural network.
  • the operation of the type question answering system 124 until deriving the output of the classifier 184 is similar to the operation at the time of operation, so it will not be described here.
  • learning is performed by an error back propagation method similar to that of a normal neural network.
  • the termination condition of repetition can be arbitrarily selected, for example, when the number of repetitions or the total amount of change of coefficient parameters becomes equal to or less than a threshold.
  • question accepting unit 150 provides the question to response receiving unit 152 and question / answer passage pair generating unit 156.
  • the response receiving unit 152 gives this question to the existing question answering system 126, obtains the response, divides it into a plurality of answer passages, and stores it in the response passage storage unit 154.
  • Each of the response passages output by the response receiving unit 152 includes five consecutive sentences.
  • the question / answer passage pair generation unit 156 generates a question / answer pair 162 in which each answer passage stored in the answer passage storage unit 154 is associated with the question 120 received by the question accepting unit 150 and a general word vector conversion unit 210 and the causal relationship word vector conversion unit 240.
  • general word vector conversion unit 210 converts the question and answer passage of question / answer pair 162 into a word vector string, and outputs word vector string 212.
  • the sparsification processing unit 280 applies the activation function ReLU to the word vector sequence 212 and outputs the word vector sequence ⁇ Xq and ⁇ Xp to the word vector calculation unit 292 by attention.
  • the similarity degree attention calculation unit 300 receives the word vector sequence 212, calculates the similarity degree, and generates the similarity degree attention feature amount matrix 302.
  • the similarity attention coefficient matrix calculation unit 304 calculates a similarity attention coefficient matrix 286 using the similarity attention feature value matrix 302 and supplies the similarity attention coefficient matrix 286 to the word vector calculation unit 292 according to attention.
  • the causality attention calculation unit 320 receives the question / answer pair 162 and calculates the causality attention feature value matrix 322.
  • the causal relationship attention coefficient matrix calculation unit 324 calculates a causal relationship attention coefficient matrix 290 from the causal relationship attention feature value matrix 322 and supplies the same to the word vector calculation unit 292 by attention.
  • the word vector calculation unit 292 according to attention applies attention based on the similarity degree attention coefficient matrices Sq and Sp and the causality attention coefficient matrix 290 to the word vector sequences ⁇ Xq and ⁇ Xp, and the final word vector according to equation (2)
  • the columns ⁇ Xq and ⁇ Xp are calculated and supplied to the convolution and pooling unit 298.
  • the sentence-specific convolution and pooling unit 298 performs sentence-specific word convolution and pooling on the final word vector string ⁇ Xq and the word vector string ⁇ Xp, and outputs the general sentence level semantic representation 216 to obtain general passage level CNN 218 (see FIG. 10 and FIG. 13).
  • mr CNN 360 of general passage level CNN 218 operates as follows. That is, the similarity attention matrix calculation unit 380 calculates the coefficient matrix 382 of similarity attention from the vector sequences Yq (Y q 1 ) and Yp (Y p 1 ) included in the general sentence level semantic representation 216.
  • the causality attention calculation unit 384 calculates a coefficient matrix 386 of causality attention from the feature vector group 340 obtained from the causality attention feature quantity matrix 322 shown in FIG.
  • the updating unit 388 which calculates sentence level expressions weighted by attention, updates the general sentence level semantic representation 216 by the attention using the coefficient matrices 382 and 386, and outputs the updated general sentence level semantic representation 362 This is given to the similarity attention matrix calculation unit 400 of the mrCNN 364.
  • the mrCNN 364 works exactly the same as the mrCNN 360. That is, the similarity attention matrix calculation unit 400 receives the general sentence level semantic representation 362 and calculates the coefficient matrix 402 of similarity attention.
  • the causality attention calculation unit 404 receives the feature vector group 340 and calculates the coefficient matrix 406 of the causality attention.
  • the updating unit 408 which calculates sentence level expressions weighted by attention updates the general sentence level semantic representation 362 by the attention by the coefficient matrix 402 and the coefficient matrix 406 and updates the general sentence level semantic expression 366 after the update. Do.
  • the convolution / pooling processing unit 368 performs convolution / pooling on the general sentence level semantic representation 366 and outputs a general passage level representation 164.
  • general sentence level semantic representation 216 and general passage level representation 164 are both provided to classifier 184.
  • causal relationship mrCNN 180 Furthermore, in the causal relationship mrCNN 180, the same operation as general mr CNN 182 is performed except that the causal relationship word vector conversion unit 240 word-words a word in the context of the causal relationship, not the context of the general viewpoint.
  • the causality mr CNN 180 provides the causality sentence level semantic matrix 246 and the causality passage level representation 166 to the classifier 184.
  • the classifier 184 is, as described above, questions in the general passage level representation 164 and the general sentence level semantic representation 216 outputted by the general mr CNN 182, the causality passage level representation 166 and the causal relation sentence level semantic matrix 246 outputted by the causality mrCNN 180. ⁇ Concatenate the expressions of the answer passage pair. Furthermore, the classifier 184 calculates the similarity between the expression of the question and the expression of the answer passage in the output from the same CNN according to the above equations (13) to (15), and finally the answer passage is obtained by the softmax function. Is a correct answer to the question, and the result is output to the selection unit 160.
  • the selection unit 160 selects it and outputs it as the answer 122.
  • FIG. 14 shows the result of the question answering task according to the above-described embodiment of the present invention and its variation, together with the results of Non-Patent Document 3 (OH13) and Non-Patent Document 4 (OH17).
  • a data set consisting of the same 17,000 question / answer pairs as in Non-Patent Document 3 was used.
  • the mode of use of data at the time of learning is different between the embodiment of the present invention and Non-Patent Document 3.
  • the development data set is not used in Non-Patent Document 3, the development data set is prepared and the hyper parameters of mrCNN are adjusted in the embodiment of the present invention.
  • the model learning according to the embodiment of the present invention is performed up to 20 epochs, and the one with the highest accuracy obtained by the development data is adopted. Moreover, learning was stopped when accuracy improvement could not be obtained when 5 epochs were finished.
  • hyperparameters 120 in all.
  • four filters of ⁇ 25, 50, 75, 100 ⁇ were applied.
  • the minibatch size by the stochastic gradient descent method using Adadelta update rule was adopted five ways of ⁇ 20, 40, 60, 80, 100 ⁇ .
  • learning of mrCNN learning is performed by applying the same condition to CNN at the sentence level and passage level.
  • OH13 shows the result of Non-Patent Document 3. Only this example uses SVM, and the other seven examples all use neural networks.
  • OH 17 is a result according to Non-Patent Document 4, and is the latest as the prior art.
  • OH 17 is an example using only causality attention.
  • OH17 does not use mrCNN as in the present invention.
  • BaseSA, BaseCA, and BaseDA give a baseline, and use the sentence level text representation obtained by the context from the general viewpoint in the system of the embodiment of the present invention.
  • Each of BaseSA and BaseCA uses either similarity attention or causality attention.
  • BaseDA uses both.
  • the embodiments (layer 1) to (layer 3) represent the number of layers of passage level CNN for obtaining passage level expression in the above embodiment.
  • K 2.
  • Oracle is a system which can list all the correct answers in the top L if there are L correct answers in the test data.
  • the evaluation was made based on the top answer accuracy (P @ 1), the average accuracy (MAP), and the relative performance based on Oracle (PR @ 1 and RMAP).
  • P @ 1 indicates the number of questions for which the correct answer was obtained at the top.
  • MAP indicates the quality of the top 20 answer passages ranked by the system.
  • RP @ 1 and RMAP are evaluations using only questions for which at least one correct answer in test data has been obtained.
  • the type question answering system 124 can be realized by computer hardware and a computer program executed on the computer hardware.
  • FIG. 15 shows the appearance of the computer system 630
  • FIG. 16 shows the internal configuration of the computer system 630.
  • computer system 630 includes a computer 640 having a memory port 652 and a DVD (Digital Versatile Disk) drive 650, a keyboard 646, a mouse 648 and a monitor 642.
  • DVD Digital Versatile Disk
  • the computer 640 includes a CPU (central processing unit) 656, a bus 666 connected to the CPU 656, the memory port 652 and the DVD drive 650, and a boot program in addition to the memory port 652 and the DVD drive 650. And a random access memory (RAM) 660 connected to the bus 666 for storing program instructions, system programs, work data and the like, and a hard disk 654.
  • Computer system 630 further includes a network interface (I / F) 644 that provides a connection to network 668 that enables communication with other terminals.
  • I / F network interface
  • a computer program for causing the computer system 630 to function as the functional units of the type question answering system 124 according to the above-described embodiment is stored in the DVD 662 or the removable memory 664 attached to the DVD drive 650 or the memory port 652, Further, they are transferred to the hard disk 654. Alternatively, the program may be transmitted to the computer 640 through the network 668 and stored on the hard disk 654. The program is loaded into the RAM 660 upon execution. The program may be loaded from the DVD 662, directly from the removable memory 664 or via the network 668 into the RAM 660.
  • This program includes an instruction sequence consisting of a plurality of instructions for causing the computer 640 to function as each functional unit of the type question answering system 124 according to the above embodiment.
  • Some of the basic functions necessary for causing the computer 640 to perform this operation are various operating tools or third party programs operating on the computer 640 or various dynamically linked programming toolkits or programs installed on the computer 640 Provided by the library. Therefore, the program itself does not necessarily include all the functions necessary to realize the system, apparatus and method of this embodiment.
  • the program is a system as described above by dynamically calling at runtime an appropriate program in a suitable function or programming toolkit or program library in a controlled manner to obtain a desired result of instructions. It only needs to include instructions that implement the functions of the device or method. Of course, only the program may provide all the necessary functions.
  • causality attention and similarity attention indicating similarity between words in a context from a general point of view
  • the present invention is not limited to such an embodiment.
  • Other types of attention may be used depending on the application. As described above, for example, an attention using the following relationship disclosed in JP-A-2015-121896 can be adopted. Also, instead of either or both of the causality attention and the similarity degree attention, any or two or more types of attention in the above relation can be used.
  • -Material relations eg ⁇ produce B at A>, (corn, biofuel) etc
  • -Necessary relationship eg: ⁇ A is essential to B>, (sunlight, photosynthesis) etc.
  • -Usage relationship eg: ⁇ A for B>, (iPS cells, regenerative medicine), etc.
  • -Preventive relationship eg: ⁇ A to prevent B>, (vaccine, influenza) etc.
  • a group of specific patterns which will be referred to as seed patterns
  • semantic class information of words which are sources when extracting semantic relationship patterns
  • a database of semantic relationship patterns is constructed by extracting patterns similar to the seed patterns stored in these databases from the web archive storage unit 56.
  • the expressions matching the semantic patterns are collected from the web archive, the mutual information of the words in the collection of expressions collected is calculated, and an attention matrix regarding the relationship is generated.
  • words are similarly extracted from the question and each answer passage, and two vectors are generated by max pooling in the row direction and the column direction from the attention matrix previously created, and these are input to the neural network And the weight of each word.
  • the mutual information amount by normalized point is used.
  • the mutual information fee by the normalization points is obtained by the same method as the mutual information amount by the normalization points. It is possible to calculate the same value as in, and thus calculate the coefficient matrix of attention similar to the causal attention.
  • mrCNNs similar to the general mrCNN 182 and the causal relationship mrCNN 180 shown in FIG. 10 may be prepared for each relationship, and the number of inputs to the classifier 184 may be increased accordingly.
  • the invention can be used in a wide range of fields, whether in the manufacturing industry or in the service industry, to find solutions when problems arise that need to be solved.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Human Computer Interaction (AREA)

Abstract

【課題】ノン・ファクトイド型質問に高精度で的確な回答を与えられるノン・ファクトイド型質問応答装置を提供する。 【解決手段】質問応答装置124は、質問と回答とを一般的文脈にしたがい意味ベクトルに変換する一般単語ベクトル変換部210、質問内の単語と回答内の単語との間の意味ベクトルの類似度と、単語間の因果関係の強さとに対応して、各意味ベクトルに重み付けして質問と回答の文レベルの表現を算出する一般文レベルCNN214、質問と回答の文レベルの表現との間の類似度と、因果関係から見た文レベルの表現内のベクトルの関係の強さに対応して文レベルの表現に重み付けして、質問と回答パッセージとに対するパッセージレベルの表現を算出する一般パッセージレベルCNN218、及びCNN214、218の出力の間の類似度に基づき回答が正しい回答か否かを判定する分類器184を含む。

Description

ノン・ファクトイド型質問応答装置
 この発明は質問応答装置に関し、特に、簡単な単語で答えられるような事実に関する質問ではなく、理由、方法、定義等のノン・ファクトイド型質問に対する質問応答システムの改良に関する。
 なぜ型質問は、ノン・ファクトイド型質問の典型である。そして、なぜ型質問応答タスクにおける最も重要な意味的知識は因果関係であると考えられる。なぜ型質問応答タスクとは、「なぜ津波が起きるのですか?」というような質問に対する回答を大量のテキストからなるテキストアーカイブを検索して取り出すタスクである。なぜ型質問応答タスクは、人工知能、自然言語処理、情報検索、ウェブマイニング、データマイニング等において非常に重要であるが、技術的にはきわめて困難であると認識されてきた。
 なぜ型質問応答タスクのための先行技術として、テキストの語彙的な特徴(単語列、形態素列等)、構造的特徴(部分的な構文木等。たとえば非特許文献1を参照。)、意味的な特徴(単語の意味、評価表現、因果関等)を用いた教師あり学習(たとえば非特許文献2,3、4を参照。)、又は、半教師あり学習の分類器(たとえば非特許文献5を参照。)によってなぜ型質問に対する回答を特定しようとする技術が存在する。
 これらはいずれも機械学習による分類器を採用している。これらのうちで、ニューラルネットワークではなくSVM(Supporting Vector Machine)等の機械学習を使用したものは低性能である。また、ニューラルネットワークを使用している手法でも、SVM等を用いたものより精度は改善しているものの、未だ十分とはいえない。
Suzan Verberne, Lou Boves, Nelleke Oostdijk, and Peter-Arno Coppen. What is not in the bag of words for why-qa? Computational Linguistics, 36:229-245, 2010. Jong-Hoon Oh, Kentaro Torisawa, Chikara Hashimoto, Takuya Kawada, Stijn De Saeger, Junichi Kazama and Yiou Wang. Why Question Answering Using Sentiment Analysis and Word Classes, In Proceedings of EMNLP-CoNLL, 2012, pp. 368-378. Jong-Hoon Oh, Kentaro Torisawa, Chikara Hashimoto, Motoki Sano, Stijn De Saeger, and Kiyonori Ohtake. Why-question answering using intra- and inter-sentential causal relations. In Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (ACL 2013), pp. 1733-1743, Sofia, Bulgaria, August, 2013. Jong-Hoon Oh, Kentaro Torisawa, Canasai Kruengkrai, Ryu Iida and Julien Kloetzer. Multi-column Convolutional Neural Networks with Causality-Attention for Why-Question Answering. In the Proceedings of the tenth ACM International conference on Web Search and Data Mining (WSDM2017), Cambridge, U.K., February, 2017. Jong-Hoon Oh, Kentaro Torisawa, Chikara Hashimoto, Ryu Iida, Masahiro Tanaka and Julien Kloetzer. A Semi-Supervised Learning Approach to Why-Question Answering. In the Proceedings of the 30th AAAI Conference on Artificial Intelligence (AAAI-16), Phoenix, USA, February 2016.
 このようになぜ型質問に対する回答の精度が低いのは、従来の技術では、質問に対する正しい回答の条件に関する考察が不十分だったためである。質問に対する正しい回答の条件は、(1)質問のトピックへの適合、(2)質問が求める原因の提示、及び(3)回答の談話構造における(1)と(2)を表す表現間の因果関係の提示、という3つの条件を充足することであると考えられる。従来の技術では、これらの内、一部の条件しか考慮されておらず、全てを考慮したものは存在していなかった。したがって従来の技術では、正しい回答を高精度で検索することは難しかったという課題がある。
 こうした問題は、因果関係に基づくなぜ型質問に限らない。ノン・ファクトイド型の質問の基礎となる関係には、材料関係(例:<AでBを生産する>、(トウモロコシ、バイオ燃料)等)必要関係(例:<AはBに必須だ>、(日光、光合成)等)、使用関係(例:<AをBに使う>、(iPS細胞、再生医療)等)及び予防関係(例:<AでBを防ぐ>、(ワクチン、インフルエンザ)等)がある。これらに関する質問に対する回答を検索する際には、因果関係の場合と同様、(1)質問のトピックへの適合、(2)質問が求める、その質問が求めるもの(材料関係の場合の材料、必要関係の場合の必要物、使用関係の場合の使用すべきもの、予防関係の場合の予防に使用すべきもの)等の提示、及び(3)回答の談話構造における(1)と(2)を表す表現の間で、対応する関係の提示、という3つの条件を充足する表現を検索することが必要である。
 それ故に本発明の目的は、質問に対する正しい回答の条件を十分に考慮して回答候補を検索することにより、ノン・ファクトイド型質問に高精度で的確な回答を与えることができるノン・ファクトイド型質問応答装置を提供することである。
 本発明の第1の局面に係るノン・ファクトイド型質問応答装置は、質問と回答パッセージとのペアを受け、当該回答パッセージが質問に対する正しい回答か否かを判定する。このノン・ファクトイド型質問応答装置は、質問と回答パッセージとを、ある観点による意味にしたがって単語意味ベクトル列に変換する第1の単語意味ベクトル変換手段と、第1の単語意味ベクトル変換手段により変換された質問文内の単語と回答パッセージ内の単語との間の単語意味ベクトルの類似度と、単語間の第1の所定の関係の強さを反映した係数とに対応して、各単語意味ベクトルに重み付けして質問と回答パッセージの文レベルの表現を算出し出力する第1の文レベル表現出力手段とを含む。このノン・ファクトイド型質問応答装置はさらに、第1の文レベル表現出力手段が出力する質問の文レベルの表現と、回答パッセージの文レベルの表現との間の類似度と、第1の所定の関係の文脈から見た文レベルの表現内のベクトルの関係の強さを反映した係数とに対応して、文レベルの表現に重み付けすることを所定回数実行することにより、質問と回答パッセージとの各々に対するパッセージレベルの表現を算出し出力する第1のパッセージレベル表現出力手段と、第1の文レベル表現出力手段の出力する質問と回答パッセージとの各々に対する文レベルの表現の間の類似度と、第1のパッセージレベル表現出力手段の出力する質問と回答パッセージとの各々に対するパッセージレベルの表現の間の類似度とに基づいて、回答パッセージが質問に対する正しい回答か否かを判定する判定手段とを含む。
 好ましくは、第1の文レベル表現出力手段は、質問文の単語意味ベクトル列に含まれる単語意味ベクトルの各々と、回答パッセージの単語意味ベクトル列に含まれる単語意味ベクトルの各々との組み合わせに対して互いの意味上の類似度を表す類似度を算出し、類似度アテンション係数行列を計算する類似度アテンション係数行列計算手段と、質問文に含まれる単語の各々と、回答パッセージに含まれる単語の各々との組み合わせに対して、第1の所定の関係にしたがった文において両者が一定の位置に出現する頻度を示す尺度を算出し、第1の所定の関係に関するアテンション係数行列を計算する第1のアテンション係数行列計算手段とを含む。第1の文レベル表現手段はさらに、質問文の単語意味ベクトル列に含まれる単語意味ベクトル列と、回答パッセージの単語意味ベクトル列とに対し、類似度アテンション係数行列により定められる類似度アテンション係数と、第1のアテンション係数行列により定められる第1のアテンション係数とからなる重みを加重した演算を行って各単語ベクトルを算出する単語ベクトル算出手段と、単語ベクトル算出手段により算出された質問文の単語意味ベクトル列と、回答パッセージの単語意味ベクトル列との双方に対し、文ごとの畳み込み及びプーリング処理を行って第1の文レベル表現を出力するためのコンボリューショナル・ニューラル・ネットワーク(CNN)とを含む。
 より好ましくは、ノン・ファクトイド型質問応答装置は、単語ベクトル算出手段による各単語ベクトルの算出に先立って、各単語ベクトルの負の要素を0に更新することにより各単語ベクトルをスパース化するためのスパース化手段をさらに含む。
 さらに好ましくは、ノン・ファクトイド型質問応答装置はさらに、質問と回答パッセージとを、それぞれある観点と異なる別の観点による意味にしたがって単語意味ベクトル列に変換する第2の単語意味ベクトル変換手段と、第2の単語意味ベクトル変換手段により変換された質問文内の単語と回答パッセージ内の単語との間の単語意味ベクトルの類似度と、単語間の第2の所定の関係の強さを反映した係数とに対応して、各単語意味ベクトルに重み付けして質問と回答パッセージの文レベルの表現を算出し出力する第2の文レベル表現出力手段とを含んでも良い。ノン・ファクトイド型質問応答装置はさらに、第2の文レベル表現出力手段が出力する質問の文レベルの表現と、回答パッセージの文レベルの表現との間の類似度と、第2の所定の関係の文脈から見た文レベルの表現内のベクトルの関係の強さを反映した係数とに対応して、文レベルの表現に重み付けすることを所定回数実行することにより、質問と回答パッセージとの各々に対するパッセージレベルの表現を算出し出力する第2のパッセージレベル表現出力手段を含む。判定手段は、第1及び第2の文レベル表現出力手段の出力する質問と回答パッセージとの各々に対する文レベルの表現の間の類似度と、第1及び第2のパッセージレベル表現出力手段の出力する質問と回答パッセージとの各々に対するパッセージレベルの表現の間の類似度とに基づいて、回答パッセージが質問に対する正しい回答か否かを判定する手段を含む。
 好ましくは、第2の所定の関係は第1の所定の関係と等しく、例えば因果関係である。
なぜ型質問とその回答候補とを示す図である。 なぜ型質問に対するトピックの提示を例示する図である。 なぜ型質問に対する原因の提示を例示する図である。 なぜ型質問に対するトピックと原因との間の因果関係の提示を例示する図である。 因果関係という文脈における観点で単語に着目することを示す図である。 一般的な文脈における観点で単語を単語ベクトル空間にマッピングした例を表す図である。 因果関係という文脈における観点で単語を単語ベクトル空間にマッピングした例を表す図である。 一般的な文脈における、原因と結果との間の単語ベクトルの関係を示す図である。 因果関係という文脈における、原因と結果との間の単語ベクトルの関係を示す図である。 本発明の第1の実施の形態に係るなぜ型質問応答システムの機能的ブロック図である。 図10に示すなぜ型質問応答システムにおいて、単語を単語埋め込みベクトル(以下単に単語ベクトルと呼ぶ。)に変換するための変換部の学習システムの構成を模式的に示す図である。 図10に示す多段・複数カラムCNNのうち、一般的文脈による文レベルの表現を得るためのCNNの構成を模式的に示す図である。 図10に示す多段・複数カラムCNNのうち、図12に示すネットワークの出力を受ける、パッセージレベルの表現を得るためのCNNの構成を模式的に示す図である。 本発明に第1の実施の形態に係るなぜ型質問応答システムの効果を示す実験結果を表形式で示す図である。 本発明に係る各実施の形態に係るなぜ型質問応答システムを実現するコンピュータシステムの外観を示す図である。 図15に示すコンピュータのハードウェア構成を示すブロック図である。
 以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。なお、以下の実施の形態では、第1の意味的関係表現として因果関係を例にするが、本発明はそのような実施の形態には限定されない。前述したように、材料関係(例:<AでBを生産する>、(トウモロコシ、バイオ燃料)等)必要関係(例:<AはBに必須だ>、(日光、光合成)等)、使用関係(例:<AをBに使う>、(iPS細胞、再生医療)等)及び予防関係(例:<AでBを防ぐ>、(ワクチン、インフルエンザ)等)又はこれらの任意の組み合わせを用いることができる。
 [基本的な考え方]
 なぜ型質問においては、質問に対する回答は、(1)質問のトピックへの適合、(2)質問が求める原因の提示、及び(3)回答の談話構造における(1)と(2)を表す表現間の因果関係の提示、という3つの条件を充足する必要がある。図1に示す例では、質問30に対して回答候補32が得られたものとする。質問30は「なぜ津波が発生する?」というものである。
 図2を参照して、回答候補32は、「これが原因で津波が発生します。」という第2文40を含む。この第2文40は、質問30と同じトピック(津波、発生)に関する。したがって回答候補32は上記条件(1)を充足する。
 図3を参照して、回答候補32は、「地震が海底で起きた場合、海水面が盛り上がり、一気に崩れて行きます。」という第1文42を含む。この第1文42は、質問に対する回答を与えているといえる。したがって回答候補32は上記(2)も充足する。
 しかし、条件(1)及び(2)を充足しているだけでは、回答候補32が質問30に対する適切な回答であるということはできない。そこで、回答候補32内に因果関係を表す文言があるか否かを調べる。すると、図4に示すように「これが原因で」という文言44が見つかる。この文言は、第1文42の内容と第2文40との間に因果関係があることを示す。つまり、回答候補32は条件(3)も満たす。したがって、回答候補32は質問30に対する適切な回答であると判定できる。
 以下に説明する実施の形態では、ディープ・ニューラル・ネットワーク(DNN)の一種であるCNNにより、回答候補32が質問30に対する適切な回答か否かを上記3つの条件を充足するか否かにより判定する。この判定では、上記3つの条件にしたがって、質問のトピックの表現、質問が求める原因の表現、両者の間の因果関係に関する表現を、CNNにおけるアテンションに反映させるよう、あらかじめ学習を行う。このとき、因果関係という観点から得られた文脈だけではなく、因果関係とは異なる一般的表現という観点から得られた文脈を用いて、異なる観点の文脈における単語の意味を考慮するよう、CNNの学習を行う。
 すなわち、図5を参照して、質問30が「津波が発生する」という表現62を含むとき、回答候補32が津波の原因をあらわす表現とよく一緒に出現する単語、例えば図5に示す地震、海底、海水面、崩れて、という単語50、52、54、及び56という単語に着目することで、回答候補32が質問30の求める原因を提示していることを判定する。また、表現62とよく似た表現(回答候補32の表現60)が存在するか否かによって、回答候補32が質問30のトピックと適合している否かを判定する。
 さらに、これらを判定するにあたって、因果関係という文脈から得られた単語の関係と、一般的な文脈から得られた単語の関係という2つの観点からのアテンションを用いることによりCNNによる判定を正確なものとする。
 図6を参照して、例えば図5に示す単語50、52、54、56と単語「津波」とを単語の意味を表すベクトル空間に写像した際には、一般的な文脈から得られた意味ベクトルは図6に示すようにそれぞれの単語の持つ一般的な意味に応じて、類似のものは近くに、そうでないものは互いに離れて位置することになる。一方、因果関係という観点から得られた文脈にしたがってこれら単語を意味ベクトルのベクトル空間に写像すると、図7に示すように、「津波」という単語の間で「津波を引き起こす」という因果関係を持つ単語は、互いに近い場所に位置することになる。
 したがって、図8に示すように、一般的な文脈における各単語の意味ベクトルの位置80、82、84、86、及び88から津波という単語の意味ベクトルの位置90との関係は様々となる。これは、単語の一般的な意味表現を表し、質問のトピックへの回答候補の適合の条件の学習に適している。例えば「津波が発生する」という表現と「津波が起きる」という表現とが互いに意味的に類似しており、したがって前者が質問に出現する場合、後者を含む回答候補が質問のトピックに適合しているかを判定することを学習するのに適している。
 これに対し、因果関係から得られた文脈における、図5に示す単語50、52、54、及び56という各単語の意味ベクトルは図9に示すように領域100に集中し、これらと津波という単語102との間の関係は互いによく似たものとなる。したがって、このように因果関係という文脈によって単語を意味ベクトルのベクトル空間にマッピングしてCNNの学習を行うことにより、因果関係の意味的パターンの一般化がしやすくなり、単語間の関係パターンを学習しやすくなる。
 なお、本実施の形態では、単語の意味ベクトルとしていわゆる単語埋め込みベクトル(例えばword2vectorにより得られるもの)等を用いる。本実施の形態ではベクトルの次元数dは300とする(以下同じ)。単語埋め込みベクトルでは、類似した意味の単語に対応する単語埋め込みベクトルは類似すること、ある単語ペアの間の意味的関係と、別の単語ペアの間の意味的関係と類似している場合、各単語ペアの間の差も互いによく似たものとなることが知られている。本実施の形態では、単語埋め込みベクトルのこのような性格を利用し、単語の意味ベクトルとして使用する。なお、以下の説明では、単語埋め込みベクトルを単に「単語ベクトル」とも呼ぶ。本実施の形態では、単語を一旦いわゆるホット・ワン・ベクトルに変換した後、単語ベクトルに変換する。
 さらに、以下の実施の形態の特徴として、回答候補が質問に対する回答として適切なものか否かを判定するために、複数層のCNNを用いる。ここでいう複数層とは、質問と回答候補との組み合わせに対して、文レベルでの意味を理解するためのCNNと、さらにその出力を受けて、複数の文を含むパッセージ全体の意味を理解するためのCNNとを含んでいる、という意味である。
 また、上記したように因果関係という観点から得られた文脈のためのCNNと、因果関係という特定の関係に限定された観点ではなく、一般的な観点から得られた文脈のためのCNNとの2つを並列的に設け、それらの出力を最終層でまとめて最終的な判定を行う。このように、複数の関係による文脈から得たアテンションにより質問に対する回答パッセージの妥当性を判定するCNNを本明細書では複数観点によるテキスト表現を用いたCNN(Convolutional Neural Network with Multi-perspective text Representation)、略してmrCNNと呼ぶ。
 [構成]
 図10を参照して、この発明に係るノン・ファクトイド型質問応答システムの一例であるなぜ型質問応答システム124は、質問120を受けて、既存の質問応答システム126から質問120に対する回答候補を受信し、その中から質問120に対する回答として適切なものを選択して回答122として出力する。
 なぜ型質問応答システム124は、図示しないユーザ・インタフェース、または遠隔からの通信等を介して質問120を受信する質問受付部150と、質問受付部150が受け付けた質問を質問応答システム126に送信することにより質問応答システム126から回答候補を受信し、複数文からなる回答パッセージに分割して出力するための応答受信部152とを含む。応答受信部152が出力する回答パッセージの各々は、連続する5つの文を含む。本実施の形態においては、連続する2つの回答パッセージは4つの文を共有する。すなわち、各回答パッセージは1文ずつずれた5文の組からなる。
 なぜ型質問応答システム124はさらに、応答受信部152が出力する回答パッセージを記憶するための回答パッセージ記憶部154と、回答パッセージ記憶部154の記憶する各回答パッセージと、質問受付部150が受けた質問120とを関連付けた質問・回答ペア162を生成する質問・回答パッセージペア生成部156とを含む。
 なぜ型質問応答システム124はさらに、上記したmrCNNからなり、質問・回答パッセージペア生成部156により生成された各質問・回答パッセージペアを受けてそのペアに含まれる回答パッセージが質問に対する正しい回答か否かを判定し、その結果を出力する判定部158と、判定部158の出力結果に応答して、回答パッセージ記憶部154に記憶された回答パッセージの中で質問120に対する正しい回答となる回答パッセージから回答となる文字列を選択し、回答122として出力する選択部160とを含む。
 前述したとおり、判定部158は、因果関係から得た文脈に基づいたアテンションを用いて、入力された質問・回答パッセージペアの意味を表すベクトルを出力する因果関係mrCNN180と、一般的な文脈に基づいたアテンション(類似度アテンション)を用いて、入力された質問・回答パッセージペアの意味を表すベクトルを出力する一般mrCNN182とを含む。
 判定部158はさらに、因果関係mrCNN180の出力と一般mrCNN182の出力に基づいて、質問・回答パッセージペアの回答パッセージが質問に対する正しい回答か否かを判定し、その結果をTRUE/FALSEで選択部160に与えるための分類器184を含む。因果関係mrCNN180及び一般mrCNN182は、単語を単語ベクトルに変換する方法が異なるだけで、他の構成は全て同一である。したがって以下では、一般mrCNN182の構成について説明し、因果関係mrCNN180についての詳細な説明は繰り返さない。
 一般mrCNN182は、質問・回答パッセージペア生成部156から与えられる質問・回答ペア162に含まれる質問qと回答パッセージpを構成する単語の各々を単語ベクトルに変換し、質問qと回答パッセージpとに対応する2つの単語ベクトル列からなる単語ベクトル列212を出力する一般単語ベクトル変換部210を含む。単語ベクトル列は行列を形成する。一般単語ベクトル変換部210については、あらかじめ一般的な文を用いた学習が必要である。一般単語ベクトル変換部210の学習については図11を参照して後述する。
 一般mrCNN182はさらに、単語ベクトル列212を受けて、各文についての一般的な文脈による文レベルでの質問・回答の意味をそれぞれ表現する2つのベクトルからなる一般文レベル意味表現216を出力する一般文レベルCNN214と、一般文レベルCNN214から一般文レベル意味表現216を受けて、一般的な文脈から見たパッセージ全体としての質問及び回答の意味をそれぞれ表す2つのベクトルからなる一般パッセージレベル表現164を出力し、分類器184に入力する一般パッセージレベルCNN218と含む。
 因果関係mrCNN180は、一般単語ベクトル変換部210と同様、質問・回答パッセージペア生成部156から与えられる質問・回答ペア162に含まれる質問と回答パッセージを構成する単語の各々を単語ベクトルに変換し、それぞれに対応する単語ベクトル列からなる単語ベクトル列242を出力する因果関係単語ベクトル変換部240を含む。因果関係単語ベクトル変換部240については、あらかじめ因果関係を表す文を用いた学習が必要である。因果関係単語ベクトル変換部240の学習についても図11を参照して後述する。
 因果関係mrCNN180はさらに、単語ベクトル列242を受けて、各文についての因果関係に基づいた文脈による文レベルでの質問・回答の意味をそれぞれ表す2つのベクトル列からなる因果関係文レベル意味行列246を出力する因果関係文レベルCNN244と、因果関係文レベルCNN244から因果関係文レベル意味行列246を受けて、因果関係という文脈から見たパッセージ全体としての質問及び回答の意味をそれぞれ表す2つのベクトルからなる因果関係パッセージレベル表現166を出力し、分類器184に入力する因果関係パッセージレベルCNN248と含む。
 図11を参照して、一般単語ベクトル変換部210及び因果関係単語ベクトル変換部240の学習について説明する。基本的に一般単語ベクトル変換部210及び因果関係単語ベクトル変換部240の学習方法は同じであって、学習に使用するデータ(文)が異なるだけである。たとえば、ウェブから収集したデータをウェブアーカイブ記憶部260に記憶する。一般単語ベクトル変換部210の学習を行う場合、ウェブアーカイブ記憶部260に記憶されたデータを基本的に全て用いて一般単語ベクトル学習部270により一般単語ベクトル変換部210の学習を行う。一般単語ベクトル学習部270は、skip-gram with negative-samplingを用いたword2vecにより単語のワンホットベクトルからd次元の単語ベクトルへの変換を行うよう、一般単語ベクトル変換部210の学習を行う。
 一方、因果関係単語ベクトル変換部240の学習では、ウェブアーカイブ記憶部260に記憶された文から因果関係表現抽出部262を用いて因果関係表現を含む部分のみを抽出し、因果関係表現記憶部264に格納する。因果関係単語ベクトル学習部266は、因果関係表現記憶部264に記憶された表現を用いて、一般単語ベクトル学習部270と同様、skip-gram with negative-samplingを用いたword2vecにより因果関係単語ベクトル変換部240の学習を行う。但し、因果関係単語ベクトルの学習に使われる単語の文脈情報の取得は、一般単語ベクトルの学習時と異なる。すなわち、因果関係表現において原因部の単語の文脈は、その結果部の全ての単語からなる(内容語のみとしても良い)。一方、結果部の単語は、原因部の全ての単語をその文脈情報として扱う。
 このように一般単語ベクトル学習部270及び因果関係単語ベクトル学習部266による学習の手法自体は共通しているが、学習に使用するデータが前者は一般的なテキスト、後者は因果関係を表すテキストという相違がある。word2vecでは、単語ベクトルは当該単語の周囲に出現する単語の頻度によって変化するので、一般単語ベクトル変換部210と因果関係単語ベクトル変換部240とによって、同じ単語でも異なる単語ベクトルに変換されることになる。なお、因果関係表現の収集は、人手で行っても良いし、何らかの形で機械学習によって収集するようにしてもよい。因果関係表現を大量に収集するためには機械学習による分類機を用いることが望ましい。
 《一般文レベルCNN214》
 図12を参照して、一般文レベルCNN214の構成について説明する。なお、質問・回答ペア162は、質問qと回答パッセージpを含む。一般文レベルCNN214の前段に存在する一般単語ベクトル変換部210は、質問qと回答パッセージpとを受け、それぞれ単語ベクトル列Xq及び単語ベクトル列Xpに変換し、単語ベクトル列212として一般文レベルCNN214に入力する。すなわち、単語ベクトル列212は単語ベクトル列Xq及び単語ベクトル列Xpを含む。単語ベクトル列Xqはd×I次元、単語ベクトル列Xpはd×J次元である。ここで、IとJはそれぞれ質問qと回答パッセージpの長さ(質問とパッセージに含まれた単語の数)である。
 一般文レベルCNN214は、単語ベクトル列Xq及び単語ベクトル列Xpの各々に活性化関数ReLUを適用してスパース化した単語ベクトル列282を出力するスパース化処理部280を含む。単語ベクトル列282は、単語ベクトル列~Xq及び単語ベクトル列~Xp(記号「~」は、図ではその直後の文字の直上に記載してある。)を含む。
 活性化関数ReLUを使用すると、ディープ・ニューラル・ネットワークの学習に有効であることが知られている。単語ベクトル列~Xq及び~Xpは以下の式により算出される。
Figure JPOXMLDOC01-appb-M000001
ただしUq及びUpは学習により得られるd×d次元の実数行列である。
 一般文レベルCNN214はさらに、単語ベクトル列Xq及び単語ベクトル列Xpを受け、類似度アテンション係数行列286を算出するための類似度アテンション処理部284を含む。類似度アテンション係数行列286は、質問文のための類似度アテンション係数行列Sq及び回答パッセージのための類似度アテンション行列Spを含む。
 一般文レベルCNN214はさらに、質問・回答ペア162を受けて因果関係アテンション係数行列290を算出するための因果関係アテンション処理部288を含む。因果関係アテンション係数行列290は、質問文のための因果関係アテンション係数行列Cq及び回答パッセージのための因果関係アテンション係数行列Cpを含む。行列Sq及びCqの次元は~Xqと同じ次元、つまりd*Iであり、行列Sp及びCpの次元は~Xpと同じくd*Jである。類似度アテンション係数行列Sp及びSq及び因果関係アテンション係数行列Cq及びCpについては後述する。
 一般文レベルCNN214はさらに、単語ベクトル列~Xq及び~Xp、類似度アテンション係数行列Sq及びSp、及び因果関係アテンション係数行列Cq及びCpに対して以下の演算を行うことにより、アテンションによる重み付けがされた後の単語ベクトル列294を算出するためのアテンションによる単語ベクトル算出部292を含む。最終単語ベクトル列294は最終単語ベクトル列^Xq及び単語ベクトル列^Xpを含む。
Figure JPOXMLDOC01-appb-M000002
 
 一般文レベルCNN214はさらに、最終単語ベクトル列^Xq及び単語ベクトル列^Xpに対して文ごとの畳み込み及びマックスプーリングを行って、質問q及び回答パッセージpの文レベルの意味を表現する一般文レベル意味表現216を出力するための文ごとの畳み込み及びプーリング処理部298を含む。一般文レベル意味表現216はベクトル列Yq及びYpを含む。
 類似度アテンション処理部284は、類似度アテンション特徴量行列302を算出するための類似度アテンション算出部300と、類似度アテンション特徴量行列302を用いて類似度アテンション係数行列Sp及びSqを計算するための類似度アテンション係数行列計算部304とを含む。
 類似度アテンション特徴量行列302を行列Aとすると、行列AはI行J列である。その各要素は質問qに含まれる単語と回答パッセージ中の単語との全ての組み合わせにおける、それらの単語ベクトル間の類似度である。本実施の形態では、類似度としてベクトルのコサイン類似度を用いる。行列Aを得た後、これを行方向及び列方向にマックスプーリングすることにより、類似度アテンションに関する2つの特徴ベクトルが得られる。一方が問題qに関する特徴ベクトルaであり、他方が回答パッセージに関する特徴ベクトルaである。特徴ベクトルa、aの要素は以下のように書くことができる。
Figure JPOXMLDOC01-appb-M000003
 これら特徴ベクトルにより、質問qと回答パッセージp内の各単語について、相手の単語の中で最も類似したものが何かを知ることができ、各単語について類似度アテンションによる重みを付与する際の参考にすることができる。
 類似度アテンション係数行列計算部304は、このようにして特徴ベクトルa及びaを算出し、これを用いて以下のようにして類似度アテンション係数行列Sq及びSpを計算する。
Figure JPOXMLDOC01-appb-M000004
 因果関係アテンション処理部288は、質問・回答ペア162を受けて因果関係アテンション特徴量行列322を算出するための因果関係アテンション算出部320と、因果関係アテンション特徴量行列322を用いて因果関係アテンション係数行列290を算出するための因果関係アテンション係数行列計算部324とを含む。因果関係アテンション係数行列290は、因果関係アテンション係数行列Cq及びCpを含む。
 因果関係アテンション特徴量行列322を行列Bと表記すると、行列BはI行J列である。本実施の形態では行列Bは正規化点別相互情報量(npmi)を用いて算出する。npmiは原因を表す語aと結果を表す語bとの間での因果関係の強さを表し、以下の式により定義される。
Figure JPOXMLDOC01-appb-M000005
ここで、p(a,b)は、単語a及び単語bが同じ因果関係表現の原因部及び結果部にそれぞれ存在する確率を示すものとする。この確率は、図11に示す因果関係表現記憶部264に記憶された因果関係表現から統計的に得られる。p(a,*)及びp(*,b)はそれぞれ、因果関係表現抽出部262に記憶された因果関係表現の全体において、単語aが原因部に、単語bが結果部に現れる確率をそれぞれ示す。npmi(a;b)の値は-1から1までの範囲を変化する。単語aと単語bが同じ因果関係表現において前者が原因部に、後者が結果部に出現する頻度が高くなると(因果関係が強くなると)1に近い値となる。
 このnpmiを利用して、行列Bを以下のように定義する。
Figure JPOXMLDOC01-appb-M000006
 行列Bを計算するにあたり、質問の単語と回答パッセージの単語とについてそれぞれ原因を示す語及び結果を示す語として扱っている点に注意が必要である。
 類似度アテンションの場合と同様、因果関係アテンション係数行列計算部324は行列Bの行方向及び列方向へのマックスプーリングを行って2つの因果関係アテンションの特徴ベクトルbq∈R及びbp∈Rを算出する。こうして得られた因果関係アテンションの特徴ベクトルは、質問と回答パッセージとに属する各単語について、相手側の単語の内で最も大きな因果関係を示すスコアを要素とする。
 因果関係アテンション係数行列計算部324はさらに、以下のようにして因果関係アテンション係数行列Cq及びCpを計算する。
Figure JPOXMLDOC01-appb-M000007
 文ごとの畳み込み及びプーリング処理部298は、文ごとの畳み込みとプーリング処理を行う。文ごとの畳み込み及びプーリング処理部298は、最終単語ベクトル列^Xq及び単語ベクトル列^Xpをそれぞれ文ごとの単語列を表す行列に分割する。
Figure JPOXMLDOC01-appb-M000008
 文と文との間の畳み込み/プーリングは以下のように行う。
Figure JPOXMLDOC01-appb-M000009
 実験では、特徴ベクトルを得るために、複数のフィルタと、単語t-グラムのtの値として複数のウィンドウサイズ(1≦t≦5)との組み合わせを採用した。たとえば3つのフィルタを用いて2,3,4-グラムにより特徴ベクトルを計算した。
 質問qのm番目の文及び回答パッセージpのn番目の文の特徴ベクトルをそれぞれyq,m及びyp,nとする。質問q及び回答パッセージpの文レベルの表現Yq及びYpはそれぞれ以下のように表される。
Figure JPOXMLDOC01-appb-M000010
 このYq及びYpが図10及び図13に示す一般パッセージレベルCNN218に与えられる。
 《一般パッセージレベルCNN218》
 図13を参照して、一般パッセージレベルCNN218は、一般文レベル意味表現216及び図12の因果関係アテンション特徴量行列322から得た特徴ベクトル群340(後述する)の入力を受けて、最終的な一般パッセージレベル表現164を出力する。一般パッセージレベルCNN218はそのために、一般文レベル意味表現216に対してK回(本実施の形態ではK=2)の繰り返しにより一般文レベル意味表現216に対してアテンションを適用し更新して、最終的な回答を絞っていく。
 一般パッセージレベルCNN218は、第1段目のmrCNN360と、第2段目のmrCNN364とを含む。
 mrCNN360(K=1)及びmrCNN364(K=2)は同じ構造を持つ。
Figure JPOXMLDOC01-appb-M000011
 mrCNN360は、一般文レベル意味表現216に含まれるベクトル列Yq(Y )及びYp(Y )から類似度アテンションの係数行列382を計算する類似度アテンション行列計算部380と、図12に示す因果関係アテンション特徴量行列322から得られる特徴ベクトル群340(後述する)から因果関係アテンションの係数行列386を計算する因果関係アテンション計算部384と、係数行列382及び386を用いたアテンションにより一般文レベル意味表現216を重み付けして更新し更新後の一般文レベル意味表現362を出力する更新部388とを含む。一般文レベル意味表現362は繰り返しの1回目の文レベル表現である。
Figure JPOXMLDOC01-appb-M000012
これはm番目の文に対する因果関係の特徴量を表す。
Figure JPOXMLDOC01-appb-M000013
 mrCNN364はmrCNN360と同様の構成を持ち、一般文レベル意味表現362を入力として類似度アテンションの係数行列402を計算する類似度アテンション行列計算部400と、特徴ベクトル群340を入力として因果関係アテンションの係数行列406を計算する因果関係アテンション計算部404と、係数行列402及び係数行列406によるアテンションにより一般文レベル意味表現362を重み付けして更新し更新後の一般文レベル意味表現366を出力する更新部408とを含む。
Figure JPOXMLDOC01-appb-M000014
 一般パッセージレベルCNN218はさらに、一般文レベル意味表現366に対する畳み込み/プーリングを行って一般パッセージレベル表現164を出力する畳み込み/プーリング処理部368を含む。本実施の形態では、畳み込み/プーリング処理部368としては図12に示す文ごとの畳み込み及びプーリング処理部298と同じ構成のものを用いている。
Figure JPOXMLDOC01-appb-M000015
 分類器184はロジスティック回帰層からなる。このロジスティック回帰層はドロップアウトを採用し、ソフトマックス出力を持つ全結合層である。分類器184は、一般mrCNN182の出力する一般パッセージレベル表現164及び一般文レベル意味表現216、因果関係mrCNN180の出力する因果関係パッセージレベル表現166及び因果関係文レベル意味行列246において、質問・回答パッセージペアの表現をそれぞれ連結し、同一のCNNから出力における質問の表現と回答パッセージの表現との類似度を以下の式により算出する。
Figure JPOXMLDOC01-appb-M000016
Figure JPOXMLDOC01-appb-M000017
 分類器184では、このrを入力として、正解/不正解のラベル判定をし、True/False を示す出力を選択部160に与える。
 〔動作〕
 なぜ型質問応答システム124の動作には、学習フェーズと実際の質問に対する応答を出力する稼働フェーズとがある。
 学習フェーズにはさらに、図11に示す一般単語ベクトル変換部210及び因果関係単語ベクトル変換部240の学習フェーズと、図10に示すなぜ型質問応答システム124の各パラメータの学習フェーズとがある。
 <因果関係単語ベクトル変換部240の学習>
 因果関係単語ベクトル変換部240の学習では、図11を参照して、予め大量の文書をウェブから収集してウェブアーカイブ記憶部260に記憶しておく。一般単語ベクトル学習部270が、ウェブアーカイブ記憶部260内の各文の単語を用いて、skip-gram with negative-samplingを用いたword2vecにより、ワンホットベクトルからd=300次元の単語ベクトルへの変換を行うよう、一般単語ベクトル変換部210の学習を行う。
 一方、因果関係表現抽出部262がウェブアーカイブ記憶部260から因果関係を含む表現のみを抽出し、因果関係表現記憶部264に格納する。因果関係単語ベクトル学習部266が、一般単語ベクトル学習部270と同様の手法を用いて因果関係単語ベクトル変換部240の学習を行う。
 一般単語ベクトル変換部210は、因果関係に関係なく、一般的な文脈に基づく学習を行い、因果関係単語ベクトル変換部240は因果関係を含む表現のみを用いて学習を行う。そのため、両者が単語を単語ベクトルに変換するためのパラメータが異なり、一般的な観点から見た意味と、因果関係という観点から見た意味とをそれぞれ表すような単語ベクトルへの変換を行うようになる。
 <なぜ型質問応答システム124の学習>
 なぜ型質問応答システム124の学習は、通常のニューラルネットワークと同様、質問と回答パッセージとの組の正例及び負例を準備して行う。分類器184の出力を導出するまでのなぜ型質問応答システム124の動作は稼働時の動作と同様であるため、ここでは述べない。分類器184の出力が得られたときには、その結果に応じて通常のニューラルネットワークと同様の誤差逆伝播方式による学習を行う。なお、学習は繰り返して行うが、繰り返しの終了条件は繰り返し数、又は係数パラメータの変化の総量がしきい値以下になったとき等、任意に選択できる。
 <稼働時>
 稼働時、図10を参照して、質問120が質問受付部150に与えられると、質問受付部150はこの質問を応答受信部152及び質問・回答パッセージペア生成部156に与える。応答受信部152はこの質問を既存の質問応答システム126に与え、その回答を得て複数文からなる回答パッセージに分割して回答パッセージ記憶部154に格納する。応答受信部152が出力する回答パッセージの各々は、連続する5つの文を含む。
 質問・回答パッセージペア生成部156は、回答パッセージ記憶部154の記憶する各回答パッセージと、質問受付部150が受けた質問120とを関連付けた質問・回答ペア162を生成して一般単語ベクトル変換部210及び因果関係単語ベクトル変換部240に与える。
 図12を参照して、一般単語ベクトル変換部210は質問・回答ペア162の質問及び回答パッセージをそれぞれ単語ベクトル列に変換し、単語ベクトル列212を出力する。
 スパース化処理部280は単語ベクトル列212に対して活性化関数ReLUを適用して単語ベクトル列~Xq及び~Xpをアテンションによる単語ベクトル算出部292に出力する。
 類似度アテンション算出部300は、単語ベクトル列212を受けて類似度を算出し、類似度アテンション特徴量行列302を生成する。類似度アテンション係数行列計算部304はこの類似度アテンション特徴量行列302を用いて類似度アテンション係数行列286を算出しアテンションによる単語ベクトル算出部292に与える。
 因果関係アテンション算出部320は、質問・回答ペア162を受けて因果関係アテンション特徴量行列322を算出する。因果関係アテンション係数行列計算部324は、この因果関係アテンション特徴量行列322から因果関係アテンション係数行列290を計算しアテンションによる単語ベクトル算出部292に与える。
 アテンションによる単語ベクトル算出部292は、単語ベクトル列~Xq及び~Xpに対して類似度アテンション係数行列Sq及びSp及び因果関係アテンション係数行列290によるアテンションを適用し、式(2)にしたがって最終単語ベクトル列^Xq及び^Xpを算出し畳み込み及びプーリング処理部298に与える。
 文ごとの畳み込み及びプーリング処理部298は最終単語ベクトル列^Xq及び単語ベクトル列^Xpに対して文ごとの畳み込み及びプーリングを行い、一般文レベル意味表現216を出力して一般パッセージレベルCNN218(図10及び図13を参照)に与える。
 図13を参照して、一般パッセージレベルCNN218のmrCNN360は以下のように動作する。すなわち、類似度アテンション行列計算部380は、一般文レベル意味表現216に含まれるベクトル列Yq(Y )及びYp(Y )から類似度アテンションの係数行列382を計算する。因果関係アテンション計算部384は、図12に示す因果関係アテンション特徴量行列322から得られる特徴ベクトル群340から因果関係アテンションの係数行列386を計算する。アテンションにより重み付けされた文レベルの表現を算出する更新部388は、係数行列382及び386を用いたアテンションにより一般文レベル意味表現216を重み付けして更新し更新後の一般文レベル意味表現362を出力しmrCNN364の類似度アテンション行列計算部400に与える。
 mrCNN364もmrCNN360と全く同様に動作する。すなわち、類似度アテンション行列計算部400は、一般文レベル意味表現362を入力として類似度アテンションの係数行列402を計算する。因果関係アテンション計算部404は特徴ベクトル群340を入力として因果関係アテンションの係数行列406を計算する。アテンションにより重み付けされた文レベルの表現を算出する更新部408は、係数行列402及び係数行列406によるアテンションにより一般文レベル意味表現362を重み付けして更新し更新後の一般文レベル意味表現366を出力する。
 畳み込み/プーリング処理部368は、一般文レベル意味表現366に対する畳み込み/プーリングを行って一般パッセージレベル表現164を出力する。
 図10を参照して、一般文レベル意味表現216及び一般パッセージレベル表現164はいずれも分類器184に与えられる。
 さらに、因果関係mrCNN180においても、因果関係単語ベクトル変換部240が一般的な観点の文脈ではなく因果関係という観点の文脈で単語を単語ベクトル化することを除き、一般mrCNN182と同じ動作が行われる。因果関係mrCNN180は、因果関係文レベル意味行列246及び因果関係パッセージレベル表現166を分類器184に与える。
 分類器184は、前述したとおり、一般mrCNN182の出力する一般パッセージレベル表現164及び一般文レベル意味表現216、因果関係mrCNN180の出力する因果関係パッセージレベル表現166及び因果関係文レベル意味行列246において、質問・回答パッセージペアの表現をそれぞれ連結する。さらに分類器184は、同一のCNNからの出力における質問の表現と回答パッセージの表現との類似度を前出の式(13)-(15)により算出し、ソフトマックス関数により最終的に回答パッセージが質問に対する正しい回答か否かを判定して結果を選択部160に出力する。
 選択部160は、分類器184の結果により回答パッセージが質問120に対する正しい回答であればそれを選択して回答122として出力する。
 <実験結果>
 図14に、本発明の上記実施の形態とそのバリエーションによる質問応答タスクの結果を、非特許文献3(OH13)及び非特許文献4(OH17)の結果等とともに示す。実験では、非特許文献3と同じ17000例の質問・回答ペアからなるデータセットを用いた。ただし、本発明の実施の形態と非特許文献3とでは学習時のデータの使用形態が異なっている。非特許文献3では開発データセットは用いていないが、本発明の実施の形態では開発データセットを準備し、mrCNNのハイパーパラメータを調整した。
 本発明の実施の形態のモデル学習は最大で20エポック行い、開発データにより得られた精度が最も高いものを採用した。また、5エポックが終了した時点で精度の改善が得られない場合には学習を停止した。開発データに基づき、ハイパーパラメータの全ての組み合わせ(全120通り)を調べた。フィルタのウィンドウサイズとしては{1,2,3,4,5}の中から選んだ(3、4、又は5)個の連続した数(全部で3+2+1=5通り)を採用した。各ウィンドウサイズの組み合わせについて、フィルタ数を{25,50,75,100}の4通り適用した。さらに、Adadelta更新ルールを用いた確率的勾配降下法によるミニバッチサイズを{20,40,60,80,100}の5通り採用した。上記実施の形態のmrCNNの学習では、文レベル及びパッセージレベルのCNNに対して同じ条件を適用して学習を行った。
 図14を参照して、OH13は非特許文献3の結果を示す。この例のみSVMを用いており、他の7例はいずれもニューラルネットワークを用いている。OH17は非特許文献4による結果であり、従来技術として最新のものである。OH17は因果関係アテンションのみを用いた例である。OH17は本発明のようにmrCNNを用いたものではない。
 BaseSA、BaseCA、及びBaseDAはベースラインを与えるもので、上記本願発明の実施の形態のシステムにおいて、一般的観点からの文脈により得られたセンテンスレベルのテキスト表現を用いたものである。BaseSA、BaseCAはそれぞれ類似度アテンション及び因果関係アテンションいずれかのみを用いる。BaseDAは両者を用いている。
 実施の形態(1層)~(3層)は、上記実施の形態において、パッセージレベル表現を得るためのパッセージレベルCNNの層数を表す。上記実施の形態ではK=2である。「オラクル」はテストデータ内にL個の正解があれば、トップのL個の中にその正解を全てリストできるようなシステムである。
 評価は、トップ回答の精度(P@1)、平均精度(MAP)、オラクルを基準とした相対的性能(PR@1及びRMAP)により行った。
 P@1は正しい回答がトップに得られた質問の数を示す。MAPはシステムがランキングしたトップ20の回答パッセージの質を示す。RP@1及びRMAPは、テストデータ内の正解を少なくとも1つ得られた質問のみを用いた評価である。
 図14から明らかなように、本発明の実施の形態によるシステムによれば、P@1及びMAPにおいて、オラクルを除き他のいずれよりも高い性能を示した。中でも上記実施の形態に示したK=2のシステムは、OH17と比較してP@1で4ポイント以上の改善を示している。また、BaseDAがBaseSA及びBaseCAのいずれよりも常に高い性能を示していることから、上記実施の形態のように類似度アテンションと因果関係アテンションとの双方を使用することでより性能が高められる事がわかる。
 〔コンピュータによる実現〕
 本発明の実施の形態に係るなぜ型質問応答システム124は、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図15はこのコンピュータシステム630の外観を示し、図16はコンピュータシステム630の内部構成を示す。
 図15を参照して、このコンピュータシステム630は、メモリポート652及びDVD(Digital Versatile Disk)ドライブ650を有するコンピュータ640と、キーボード646と、マウス648と、モニタ642とを含む。
 図16を参照して、コンピュータ640は、メモリポート652及びDVDドライブ650に加えて、CPU(中央処理装置)656と、CPU656、メモリポート652及びDVDドライブ650に接続されたバス666と、ブートプログラム等を記憶する読出専用メモリ(ROM)658と、バス666に接続され、プログラム命令、システムプログラム及び作業データ等を記憶するランダムアクセスメモリ(RAM)660と、ハードディスク654を含む。コンピュータシステム630はさらに、他端末との通信を可能とするネットワーク668への接続を提供するネットワークインターフェイス(I/F)644を含む。
 コンピュータシステム630を上記した実施の形態に係るなぜ型質問応答システム124の各機能部として機能させるためのコンピュータプログラムは、DVDドライブ650又はメモリポート652に装着されるDVD662又はリムーバブルメモリ664に記憶され、さらにハードディスク654に転送される。又は、プログラムはネットワーク668を通じてコンピュータ640に送信されハードディスク654に記憶されてもよい。プログラムは実行の際にRAM660にロードされる。DVD662から、リムーバブルメモリ664から又はネットワーク668を介して、直接にRAM660にプログラムをロードしてもよい。
 このプログラムは、コンピュータ640を、上記実施の形態に係るなぜ型質問応答システム124の各機能部として機能させるための複数の命令からなる命令列を含む。コンピュータ640にこの動作を行わせるのに必要な基本的機能のいくつかはコンピュータ640上で動作するオペレーティングシステム若しくはサードパーティのプログラム又はコンピュータ640にインストールされる、ダイナミックリンク可能な各種プログラミングツールキット又はプログラムライブラリにより提供される。したがって、このプログラム自体はこの実施の形態のシステム、装置及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット又はプログラムライブラリ内の適切なプログラムを実行時に動的に呼出すことにより、上記したシステム、装置又は方法としての機能を実現する命令のみを含んでいればよい。もちろん、プログラムのみで必要な機能を全て提供してもよい。
 以上のように、本発明の実施の形態によれば、従来の手法に対して非常に高い精度でなぜ型質問のようなノン・ファクトイド型の質問に対する回答を得ることができる。たとえば工場の製造ラインで生じた問題、最終的に得られた製品に生じた問題、ソフトウェアの試験で生じた問題、何らかの実験過程で生じた問題等を学習データとしてこれら質問応答システムを構築することにより、様々な実際的な質問に対する有用な回答を得ることができる。その結果、工場における生産効率の向上、工業製品及びソフトウェアの効率的な設計、実験計画の効率化等がもたらされ、産業の発展に大きな貢献をすることができる。さらに、用途としては製造業に限らず、教育分野、顧客対応、官庁における自動応答、ソフトウェアの操作説明等のサービスへの適用も可能である。
 上記実施の形態では、因果関係アテンションと類似度アテンション(一般的観点からの文脈における単語間の類似を示す)との2種類のアテンションを同時に用いている。しかし本発明はそのような実施の形態には限定されない。アプリケーションに応じてさらに他の種類のアテンションを用いてもよい。前述したとおり、たとえば、特開2015-121896号公報に開示されている以下のような関係を用いたアテンションを採用できる。また、因果関係アテンション又は類似度アテンションのいずれか又は双方に代えて、上記関係のいずれかまたは2種類以上のアテンションを用いることもできる。
 -材料関係(例:<AでBを生産する>、(トウモロコシ、バイオ燃料)等)
 -必要関係(例:<AはBに必須だ>、(日光、光合成)等)
 -使用関係(例:<AをBに使う>、(iPS細胞、再生医療)等)
 -予防関係(例:<AでBを防ぐ>、(ワクチン、インフルエンザ)等)
 このような関係によるアテンションについては、因果関係アテンションと同様にして取得できる。これら関係を表す表現を取得する方法としては、前記した特開2015-121896号公報に記載されたものを使用できる。すなわち、意味的関係パターンを抽出する際の元となる、特定のパターン(これをシードパターンと呼ぶ。)のグループと単語の意味クラス情報とをデータベースに記憶しておく。ウェブアーカイブ記憶部56から、これらデータベースに記憶されたシードパターンに類似したパターンを抽出することで意味的関係パターンのデータベースを構築する。それら意味的パターンに合致する表現をウェブアーカイブから収集し、収集された表現の集合内における単語の相互情報量を計算してその関係に関するアテンションマトリクスを生成する。さらに、質問及び各回答パッセージからも同様に単語を抽出し、先に作成しておいたアテンションマトリクスから行方向及び列方向へのmaxプーリングにより2つのベクトルを生成し、これらをニューラルネットワークへの入力の各単語への重みとする。
 また、図12の因果関係アテンション計算部384等において因果関係アテンションの係数マトリクスを計算する際には、正規化点別相互情報量を用いた。上記いずれの関係においても、それら関係を表す特定の文の構造及び特定の関係にある単語の位置に着目することにより、正規化点別相互情報量と同様の手法により正規化点別相互情報料と同様の値を算出でき、したがって因果関係アテンションと同様のアテンションの係数マトリクスを計算できる。
 なお、アテンションとして3種類以上を用いる場合、図10に示す一般mrCNN182及び因果関係mrCNN180と同様のmrCNNを関係ごとに準備し、分類器184への入力数をそれにあわせて増加させればよい。
 今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。
産業上の利用分野
 この発明は、製造業であるとサービス業であるとを問わず、幅広い分野において、解決すべき問題が生じたときにその解決策を見つけるために利用できる。
Cp、Cq 因果関係アテンション係数行列
Sp、Sq 類似度アテンション係数行列
Xp、Xq 単語ベクトル列
Ap、Aq 特徴ベクトル
120 質問
122 回答
124 なぜ型質問応答システム
126 質問応答システム
128 既存の質問応答システム
150 質問受付部
152 応答受信部
154 回答パッセージ記憶部
156 質問・回答パッセージペア生成部
158 判定部
160 選択部
162 質問・回答ペア
164 一般パッセージレベル表現
166 因果関係パッセージレベル表現
180 因果関係mrCNN
182 一般mrCNN
184 分類器
210 一般単語ベクトル変換部
212、242 単語ベクトル列
214 一般文レベルCNN
216、362、366 一般文レベル意味表現
218 一般パッセージレベルCNN
240 因果関係単語ベクトル変換部
244 因果関係文レベルCNN
246 因果関係文レベル意味行列
248 因果関係パッセージレベルCNN
260 ウェブアーカイブ記憶部
262 因果関係表現抽出部
264 因果関係表現記憶部
266 因果関係単語ベクトル学習部
270 一般単語ベクトル学習部
280 スパース化処理部
282 単語ベクトル列
284 類似度アテンション処理部
286 類似度アテンション係数行列
288 因果関係アテンション処理部
290 因果関係アテンション係数行列
292 アテンションによる単語ベクトル算出部
294 単語ベクトル列
298 畳み込み及びプーリング処理部
300 類似度アテンション算出部
302 類似度アテンション特徴量行列
304 類似度アテンション係数行列計算部
320 因果関係アテンション算出部
322 因果関係アテンション特徴量行列
324 因果関係アテンション係数行列計算部
340 特徴ベクトル群
360、364 mrCNN
368 畳み込み/プーリング処理部
380、400 類似度アテンション行列計算部
382、386、402、406 係数行列
384、404 因果関係アテンション計算部
388、408 更新部

Claims (6)

  1. 質問と回答パッセージとのペアを受け、当該回答パッセージが前記質問に対する正しい回答か否かを判定するノン・ファクトイド型質問応答装置であって、
     質問と回答パッセージとを、ある観点による意味にしたがって単語意味ベクトル列に変換する第1の単語意味ベクトル変換手段と、
     前記第1の単語意味ベクトル変換手段により変換された前記質問文内の単語と前記回答パッセージ内の単語との間の単語意味ベクトルの類似度と、単語間の第1の所定の関係の強さを反映した係数とに対応して、各単語意味ベクトルに重み付けして前記質問と前記回答パッセージの文レベルの表現を算出し出力する第1の文レベル表現出力手段と、
     前記第1の文レベル表現出力手段が出力する前記質問の前記文レベルの表現と、前記回答パッセージの前記文レベルの表現との間の類似度と、前記第1の所定の関係の文脈から見た前記文レベルの表現内のベクトルの関係の強さを反映した係数とに対応して、前記文レベルの表現に重み付けすることを所定回数実行することにより、前記質問と前記回答パッセージとの各々に対するパッセージレベルの表現を算出し出力する第1のパッセージレベル表現出力手段と、
     前記第1の文レベル表現出力手段の出力する前記質問と前記回答パッセージとの各々に対する前記文レベルの表現の間の類似度と、前記第1のパッセージレベル表現出力手段の出力する前記質問と前記回答パッセージとの各々に対する前記パッセージレベルの表現の間の類似度とに基づいて、前記回答パッセージが前記質問に対する正しい回答か否かを判定する判定手段とを含む、ノン・ファクトイド型質問応答装置。
  2. 前記第1の文レベル表現出力手段は、
     前記質問文の前記単語意味ベクトル列に含まれる単語意味ベクトルの各々と、前記回答パッセージの前記単語意味ベクトル列に含まれる単語意味ベクトルの各々との組み合わせに対して互いの意味上の類似度を表す類似度を算出し、類似度アテンション係数行列を計算する類似度アテンション係数行列計算手段と、
     前記質問文に含まれる単語の各々と、前記回答パッセージに含まれる単語の各々との組み合わせに対して、前記第1の所定の関係にしたがった文において両者が一定の位置に出現する頻度を示す尺度を算出し、前記第1の所定の関係に関するアテンション係数行列を計算する第1のアテンション係数行列計算手段と、
     前記質問文の前記単語意味ベクトル列に含まれる単語意味ベクトル列と、前記回答パッセージの前記単語意味ベクトル列とに対し、前記類似度アテンション係数行列により定められる類似度アテンション係数と、前記第1のアテンション係数行列により定められる第1のアテンション係数とからなる重みを加重した演算を行って各単語ベクトルを算出する単語ベクトル算出手段と、
     前記単語ベクトル算出手段により算出された前記質問文の前記単語意味ベクトル列と、前記回答パッセージの前記単語意味ベクトル列との双方に対し、文ごとの畳み込み及びプーリング処理を行って前記第1の文レベル表現を出力するためのCNNとを含む、請求項1に記載のノン・ファクトイド型質問応答装置。
  3. 前記単語ベクトル算出手段による前記各単語ベクトルの算出に先立って、前記各単語ベクトルの負の要素を0に更新することにより前記各単語ベクトルをスパース化するためのスパース化手段をさらに含む、請求項2に記載のノン・ファクトイド型質問応答装置。
  4. さらに、
     前記質問と前記回答パッセージとを、それぞれ前記ある観点と異なる別の観点による意味にしたがって単語意味ベクトル列に変換する第2の単語意味ベクトル変換手段と、
     前記第2の単語意味ベクトル変換手段により変換された前記質問文内の単語と前記回答パッセージ内の単語との間の単語意味ベクトルの類似度と、単語間の第2の所定の関係の強さを反映した係数とに対応して、各単語意味ベクトルに重み付けして前記質問と前記回答パッセージの文レベルの表現を算出し出力する第2の文レベル表現出力手段と、
     前記第2の文レベル表現出力手段が出力する前記質問の前記文レベルの表現と、前記回答パッセージの前記文レベルの表現との間の類似度と、前記第2の所定の関係の文脈から見た前記文レベルの表現内のベクトルの関係の強さを反映した係数とに対応して、前記文レベルの表現に重み付けすることを所定回数実行することにより、前記質問と前記回答パッセージとの各々に対するパッセージレベルの表現を算出し出力する第2のパッセージレベル表現出力手段とを含み、
     前記判定手段は、前記第1及び第2の文レベル表現出力手段の出力する前記質問と前記回答パッセージとの各々に対する前記文レベルの表現の間の類似度と、前記第1及び前記第2のパッセージレベル表現出力手段の出力する前記質問と前記回答パッセージとの各々に対する前記パッセージレベルの表現の間の類似度とに基づいて、前記回答パッセージが前記質問に対する正しい回答か否かを判定する手段を含む、請求項1に記載のノン・ファクトイド型質問応答装置。
  5. 前記第2の所定の関係は前記第1の所定の関係と等しい、請求項4に記載のノン・ファクトイド型質問応答装置。
  6. 前記第1の所定の関係は因果関係である、請求項1~請求項5のいずれかに記載のノン・ファクトイド型質問応答装置。
PCT/JP2018/022696 2017-07-13 2018-06-14 ノン・ファクトイド型質問応答装置 WO2019012908A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/629,293 US11176328B2 (en) 2017-07-13 2018-06-14 Non-factoid question-answering device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-137023 2017-07-13
JP2017137023A JP2019020893A (ja) 2017-07-13 2017-07-13 ノン・ファクトイド型質問応答装置

Publications (1)

Publication Number Publication Date
WO2019012908A1 true WO2019012908A1 (ja) 2019-01-17

Family

ID=65001599

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/022696 WO2019012908A1 (ja) 2017-07-13 2018-06-14 ノン・ファクトイド型質問応答装置

Country Status (3)

Country Link
US (1) US11176328B2 (ja)
JP (1) JP2019020893A (ja)
WO (1) WO2019012908A1 (ja)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710770A (zh) * 2019-01-31 2019-05-03 北京牡丹电子集团有限责任公司数字电视技术中心 一种基于迁移学习的文本分类方法及装置
CN110033022A (zh) * 2019-03-08 2019-07-19 腾讯科技(深圳)有限公司 文本的处理方法、装置和存储介质
CN110134771A (zh) * 2019-04-09 2019-08-16 广东工业大学 一种基于多注意力机制融合网络问答系统的实现方法
CN110134964A (zh) * 2019-05-20 2019-08-16 中国科学技术大学 一种基于层次化卷积神经网络和注意力机制的文本匹配方法
CN110263162A (zh) * 2019-06-05 2019-09-20 阿里巴巴集团控股有限公司 卷积神经网络及其进行文本分类的方法、文本分类装置
CN110347813A (zh) * 2019-06-26 2019-10-18 北京大米科技有限公司 一种语料处理方法、装置、存储介质及电子设备
CN110795934A (zh) * 2019-10-31 2020-02-14 北京金山数字娱乐科技有限公司 语句分析模型的训练方法及装置、语句分析方法及装置
CN110909538A (zh) * 2019-10-14 2020-03-24 深圳价值在线信息科技股份有限公司 问答内容的识别方法、装置、终端设备及介质
US20200151542A1 (en) * 2018-11-12 2020-05-14 Alibaba Group Holding Limited Question and answer matching method, system and storage medium
CN111178458A (zh) * 2020-04-10 2020-05-19 支付宝(杭州)信息技术有限公司 分类模型的训练、对象分类方法及装置
WO2020174826A1 (ja) * 2019-02-25 2020-09-03 日本電信電話株式会社 回答生成装置、回答学習装置、回答生成方法、及び回答生成プログラム
WO2021014951A1 (ja) * 2019-07-19 2021-01-28 国立研究開発法人情報通信研究機構 質問応答システムのための回答分類器及び表現ジェネレータ、並びに表現ジェネレータを訓練するためのコンピュータプログラム
CN112685543A (zh) * 2019-10-18 2021-04-20 普天信息技术有限公司 一种基于文本回答问题的方法及装置
CN112948546A (zh) * 2021-01-15 2021-06-11 中国科学院空天信息创新研究院 面向多源异构数据源的智能问答方法及装置
CN113033192A (zh) * 2019-12-09 2021-06-25 株式会社理光 一种序列标注的训练方法、装置及计算机可读存储介质
WO2021151306A1 (zh) * 2020-06-19 2021-08-05 平安科技(深圳)有限公司 智能问答语料分析方法、装置、电子设备及可读存储介质
US11409964B2 (en) * 2018-12-12 2022-08-09 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus, device and storage medium for evaluating quality of answer

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10915560B2 (en) * 2017-11-30 2021-02-09 International Business Machines Corporation Ranking passages by merging features from factoid answers
CN110851573A (zh) * 2018-07-27 2020-02-28 北京京东尚科信息技术有限公司 语句处理方法、系统和电子设备
US10922486B2 (en) * 2019-03-13 2021-02-16 International Business Machines Corporation Parse tree based vectorization for natural language processing
US11295077B2 (en) * 2019-04-08 2022-04-05 International Business Machines Corporation Stratification of token types for domain-adaptable question answering systems
US10860809B2 (en) 2019-04-09 2020-12-08 Sas Institute Inc. Word embeddings and virtual terms
CN110060749B (zh) * 2019-04-10 2022-07-01 华侨大学 基于sev-sdg-cnn的电子病历智能诊断方法
JP7077265B2 (ja) * 2019-05-07 2022-05-30 株式会社東芝 文書解析装置、学習装置、文書解析方法および学習方法
CN110222163B (zh) * 2019-06-10 2022-10-04 福州大学 一种融合cnn与双向lstm的智能问答方法及系统
CN110674280B (zh) * 2019-06-21 2023-12-15 北京中科微末生物科技有限公司 一种基于增强问题重要性表示的答案选择算法
CN110442691A (zh) * 2019-07-04 2019-11-12 平安科技(深圳)有限公司 机器阅读理解中文的方法、装置和计算机设备
CN111241848B (zh) * 2020-01-15 2020-12-01 江苏联著实业股份有限公司 一种基于机器学习的文章阅读理解答案检索方法及装置
JP6789426B1 (ja) * 2020-02-06 2020-11-25 Scsk株式会社 演算システム、及び演算プログラム
JP7200154B2 (ja) * 2020-02-14 2023-01-06 Kddi株式会社 受話文に対する応答文を推論するプログラム、装置及び方法
KR20210106814A (ko) * 2020-02-21 2021-08-31 삼성전자주식회사 뉴럴 네트워크 학습 방법 및 장치
CN111666770B (zh) * 2020-06-02 2023-07-18 泰康保险集团股份有限公司 一种语义匹配方法及装置
CN111881694A (zh) * 2020-08-05 2020-11-03 科大讯飞股份有限公司 篇章要点检测方法、装置、设备及存储介质
JP2022067234A (ja) * 2020-10-20 2022-05-06 国立研究開発法人情報通信研究機構 回答特定用テキスト分類器及び背景知識表現ジェネレータ及びその訓練装置、並びにコンピュータプログラム
CN114691815A (zh) * 2020-12-25 2022-07-01 科沃斯商用机器人有限公司 模型训练方法、装置、电子设备和存储介质
CN114490959B (zh) * 2021-07-18 2024-07-16 北京理工大学 一种以关键词为驱动的动态图神经网络多跳阅读理解方法
JP7520783B2 (ja) 2021-08-18 2024-07-23 株式会社東芝 識別装置、方法、プログラムおよび学習装置
CN114048319B (zh) * 2021-11-29 2024-04-23 中国平安人寿保险股份有限公司 基于注意力机制的幽默文本分类方法、装置、设备、介质
CN114357156B (zh) * 2021-12-02 2023-02-28 北京邮电大学 一种多特征多通道图卷积网络模型训练方法及属性情感三元组抽取方法
CN114547313A (zh) * 2022-04-22 2022-05-27 阿里巴巴达摩院(杭州)科技有限公司 资源类型识别方法以及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5825676B2 (ja) * 2012-02-23 2015-12-02 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答システム及びコンピュータプログラム
JP6150282B2 (ja) 2013-06-27 2017-06-21 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答システム及びコンピュータプログラム
JP6618735B2 (ja) * 2015-08-31 2019-12-11 国立研究開発法人情報通信研究機構 質問応答システムの訓練装置及びそのためのコンピュータプログラム
JP6929539B2 (ja) 2016-10-07 2021-09-01 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答システム及び方法並びにそのためのコンピュータプログラム
US20180341871A1 (en) * 2017-05-25 2018-11-29 Accenture Global Solutions Limited Utilizing deep learning with an information retrieval mechanism to provide question answering in restricted domains

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
OH, JONG-HOON ET AL.: "Multi-Column Convolutional Neural Networks with Causality-Attention for Why-Question Answering", PROCEEDINGS OF THE TENTH ACM INTERNATIONAL CONFERENCE ON WEB SEARCH AND DATA MINING, 2 February 2017 (2017-02-02), pages 415 - 424, XP058316669, DOI: 10.1145/3018661.3018737 *

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11599769B2 (en) * 2018-11-12 2023-03-07 Alibaba Group Holding Limited Question and answer matching method, system and storage medium
US20200151542A1 (en) * 2018-11-12 2020-05-14 Alibaba Group Holding Limited Question and answer matching method, system and storage medium
US11409964B2 (en) * 2018-12-12 2022-08-09 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus, device and storage medium for evaluating quality of answer
CN109710770A (zh) * 2019-01-31 2019-05-03 北京牡丹电子集团有限责任公司数字电视技术中心 一种基于迁移学习的文本分类方法及装置
WO2020174826A1 (ja) * 2019-02-25 2020-09-03 日本電信電話株式会社 回答生成装置、回答学習装置、回答生成方法、及び回答生成プログラム
JP7120433B2 (ja) 2019-02-25 2022-08-17 日本電信電話株式会社 回答生成装置、回答学習装置、回答生成方法、及び回答生成プログラム
JPWO2020174826A1 (ja) * 2019-02-25 2021-11-25 日本電信電話株式会社 回答生成装置、回答学習装置、回答生成方法、及び回答生成プログラム
CN110033022A (zh) * 2019-03-08 2019-07-19 腾讯科技(深圳)有限公司 文本的处理方法、装置和存储介质
CN110134771A (zh) * 2019-04-09 2019-08-16 广东工业大学 一种基于多注意力机制融合网络问答系统的实现方法
CN110134771B (zh) * 2019-04-09 2022-03-04 广东工业大学 一种基于多注意力机制融合网络问答系统的实现方法
CN110134964B (zh) * 2019-05-20 2022-10-28 中国科学技术大学 一种基于层次化卷积神经网络和注意力机制的文本匹配方法
CN110134964A (zh) * 2019-05-20 2019-08-16 中国科学技术大学 一种基于层次化卷积神经网络和注意力机制的文本匹配方法
CN110263162B (zh) * 2019-06-05 2023-05-26 创新先进技术有限公司 卷积神经网络及其进行文本分类的方法、文本分类装置
CN110263162A (zh) * 2019-06-05 2019-09-20 阿里巴巴集团控股有限公司 卷积神经网络及其进行文本分类的方法、文本分类装置
CN110347813A (zh) * 2019-06-26 2019-10-18 北京大米科技有限公司 一种语料处理方法、装置、存储介质及电子设备
CN110347813B (zh) * 2019-06-26 2021-09-17 北京大米科技有限公司 一种语料处理方法、装置、存储介质及电子设备
WO2021014951A1 (ja) * 2019-07-19 2021-01-28 国立研究開発法人情報通信研究機構 質問応答システムのための回答分類器及び表現ジェネレータ、並びに表現ジェネレータを訓練するためのコンピュータプログラム
JP2021018588A (ja) * 2019-07-19 2021-02-15 国立研究開発法人情報通信研究機構 質問応答システムのための回答分類器及び表現ジェネレータ、並びに表現ジェネレータを訓練するためのコンピュータプログラム
JP7290861B2 (ja) 2019-07-19 2023-06-14 国立研究開発法人情報通信研究機構 質問応答システムのための回答分類器及び表現ジェネレータ、並びに表現ジェネレータを訓練するためのコンピュータプログラム
CN110909538A (zh) * 2019-10-14 2020-03-24 深圳价值在线信息科技股份有限公司 问答内容的识别方法、装置、终端设备及介质
CN110909538B (zh) * 2019-10-14 2024-04-12 深圳价值在线信息科技股份有限公司 问答内容的识别方法、装置、终端设备及介质
CN112685543A (zh) * 2019-10-18 2021-04-20 普天信息技术有限公司 一种基于文本回答问题的方法及装置
CN112685543B (zh) * 2019-10-18 2024-01-26 普天信息技术有限公司 一种基于文本回答问题的方法及装置
CN110795934A (zh) * 2019-10-31 2020-02-14 北京金山数字娱乐科技有限公司 语句分析模型的训练方法及装置、语句分析方法及装置
CN110795934B (zh) * 2019-10-31 2023-09-19 北京金山数字娱乐科技有限公司 语句分析模型的训练方法及装置、语句分析方法及装置
CN113033192A (zh) * 2019-12-09 2021-06-25 株式会社理光 一种序列标注的训练方法、装置及计算机可读存储介质
CN113033192B (zh) * 2019-12-09 2024-04-26 株式会社理光 一种序列标注的训练方法、装置及计算机可读存储介质
CN111178458A (zh) * 2020-04-10 2020-05-19 支付宝(杭州)信息技术有限公司 分类模型的训练、对象分类方法及装置
CN111178458B (zh) * 2020-04-10 2020-08-14 支付宝(杭州)信息技术有限公司 分类模型的训练、对象分类方法及装置
WO2021151306A1 (zh) * 2020-06-19 2021-08-05 平安科技(深圳)有限公司 智能问答语料分析方法、装置、电子设备及可读存储介质
CN112948546B (zh) * 2021-01-15 2021-11-23 中国科学院空天信息创新研究院 面向多源异构数据源的智能问答方法及装置
CN112948546A (zh) * 2021-01-15 2021-06-11 中国科学院空天信息创新研究院 面向多源异构数据源的智能问答方法及装置

Also Published As

Publication number Publication date
US20200134263A1 (en) 2020-04-30
JP2019020893A (ja) 2019-02-07
US11176328B2 (en) 2021-11-16

Similar Documents

Publication Publication Date Title
WO2019012908A1 (ja) ノン・ファクトイド型質問応答装置
CN109863487B (zh) 非事实型问答系统和方法及存储介质
Grenander Lectures in Pattern Theory: Volume 2: Pattern Analysis
WO2021195143A1 (en) Ontology-augmented interface
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
US11977569B2 (en) Autonomous open schema construction from unstructured text
US12032605B2 (en) Searchable data structure for electronic documents
WO2018066489A1 (ja) ノン・ファクトイド型質問応答システム及び方法並びにそのためのコンピュータプログラム
US20230014904A1 (en) Searchable data structure for electronic documents
CN111507093A (zh) 一种基于相似字典的文本攻击方法、装置及存储介质
Ki et al. KoTAB: Korean template-based arithmetic solver with BERT
Sandra et al. Social network analysis algorithms, techniques and methods
Korade et al. Strengthening Sentence Similarity Identification Through OpenAI Embeddings and Deep Learning.
CN111581365B (zh) 一种谓词抽取方法
Gammack et al. Semantic knowledge management system for design documentation with heterogeneous data using machine learning
Divya et al. Automation of Short Answer Grading Techniques: Comparative Study using Deep Learning Techniques
KR20070118154A (ko) 정보 처리 장치 및 방법, 및 프로그램 기록 매체
Nahar et al. A Comparative Selection of Best Activation Pair Layer in Convolution Neural Network for Sentence Classification using Deep Learning Model
CN111767388A (zh) 一种候选池生成方法
Popova et al. Sentiment analysis of short russian texts using bert and word2vec embeddings
US11727215B2 (en) Searchable data structure for electronic documents
Wang et al. [Retracted] Construction of a Knowledge Map Based on Text CNN Algorithm for Maritime English Subjects
CN109815495B (zh) 一种通过标签传播算法进行主题分面挖掘的方法
Chakraborty et al. Relook into sentiment analysis performed on Indian languages using deep learning
US20240086768A1 (en) Learning device, inference device, non-transitory computer-readable medium, learning method, and inference method

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18832467

Country of ref document: EP

Kind code of ref document: A1