WO2023144872A1 - 文書分類装置、文書分類方法、および文書分類プログラム - Google Patents

文書分類装置、文書分類方法、および文書分類プログラム Download PDF

Info

Publication number
WO2023144872A1
WO2023144872A1 PCT/JP2022/002597 JP2022002597W WO2023144872A1 WO 2023144872 A1 WO2023144872 A1 WO 2023144872A1 JP 2022002597 W JP2022002597 W JP 2022002597W WO 2023144872 A1 WO2023144872 A1 WO 2023144872A1
Authority
WO
WIPO (PCT)
Prior art keywords
document
classification
generation
sentence
strategy
Prior art date
Application number
PCT/JP2022/002597
Other languages
English (en)
French (fr)
Inventor
昌史 小山田
太郎 矢野
邦紘 竹岡
康佑 秋元
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2022/002597 priority Critical patent/WO2023144872A1/ja
Publication of WO2023144872A1 publication Critical patent/WO2023144872A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Definitions

  • Non-Patent Document 1 discloses a technique for automatically associating a label with a text by a technique called zero-shot classification.
  • Non-Patent Document 1 first, a premise sentence is generated from the text to be classified, and a hypothetical sentence related to the label of the classification destination candidate is generated. Then, by inputting the generated premise sentences and hypothetical sentences into the entailment model, the degree of applicability of the label to the text to be classified is determined.
  • An entailment model is a model constructed by machine learning whether or not a premise sentence entails a hypothetical sentence, that is, contains the same content.
  • Non-Patent Document 1 With the technique of Non-Patent Document 1, the accuracy of determination depends on the hypothetical sentence corresponding to each label, and there is room for improvement in the accuracy and stability of classification. For example, for the label “sports”, the implication is the same when generating a hypothetical sentence “this is a text about sports” and when generating a hypothetical sentence “this is about the topic of sports”. The output values of the models are different. Therefore, even with the same label "sports", the determination result of the degree of fit will differ depending on which hypothetical sentence is generated.
  • One aspect of the present invention has been made in view of such problems, and an example of its purpose is to provide a technology that enables highly accurate and stable classification of documents to be classified. It is in.
  • a document classification apparatus comprises strategy selection means for selecting one or more generation strategies from a plurality of generation strategies for generating hypothetical sentences related to document classification candidates; hypothetical sentence generating means for generating a hypothetical sentence that is a sentence related to the candidate for classification according to the generating strategy selected by the strategy selecting means; and a classifying means for determining.
  • At least one processor selects one or more generation strategies from among a plurality of generation strategies for generating hypothetical sentences related to document classification candidates. generating a hypothetical sentence, which is a sentence related to the classification destination candidate, according to the selected generation strategy; and determining a classification destination of the document based on an entailment relationship between the document and the hypothetical sentence. ,including.
  • a document classification program comprises strategy selection means for selecting one or a plurality of generation strategies from a plurality of generation strategies for generating hypothetical sentences related to document classification candidates.
  • a hypothesis sentence generation means for generating a hypothesis sentence, which is a sentence related to the classification destination candidate, according to the generation strategy selected by the strategy selection means; and classifying the document based on the entailment relationship between the document and the hypothesis sentence. It functions as a sorting means that determines the destination.
  • FIG. 1 is a block diagram showing the configuration of a document classification device according to exemplary Embodiment 1 of the present invention
  • FIG. FIG. 3 is a flow diagram showing the flow of a document classification method according to exemplary embodiment 1 of the present invention
  • FIG. 10 is a diagram showing an example in which documents are classified by the document classification method according to exemplary embodiment 2 of the present invention
  • FIG. 3 is a block diagram showing the configuration of a document classification device according to exemplary embodiment 2 of the present invention
  • FIG. 10 is a diagram showing an example of a generation strategy stored in a generation strategy holding unit
  • FIG. It is a figure which shows the generation method of a language understanding model.
  • FIG. 5 is a diagram showing an example of history information; It is a flowchart which shows the flow of the process which the said document classification apparatus performs.
  • FIG. 4 is a diagram showing an example of a computer that executes instructions of a program, which is software that implements each function of each device according to each exemplary embodiment of the present invention;
  • FIG. 1 is a block diagram showing the configuration of the document classification device 1.
  • the document classification device 1 includes a strategy selection unit 11, a hypothesis sentence generation unit 12, and a classification unit 13.
  • the strategy selection unit 11 selects one or more generation strategies from a plurality of generation strategies for generating hypothetical sentences related to document classification candidates.
  • the hypothesis sentence generation unit 12 According to the generation strategy selected by the strategy selection unit 11, the hypothesis sentence generation unit 12 generates a hypothesis sentence that is a sentence related to the classification destination candidate.
  • the classification unit 13 determines the classification destination of the document based on the entailment relationship between the document and the hypothesis sentence.
  • one or more generation strategies are selected from a plurality of generation strategies for generating hypothetical sentences related to document classification candidates.
  • a document classification program comprises a strategy selection means for selecting one or more generation strategies from a plurality of generation strategies for generating hypothetical sentences related to document classification candidates.
  • hypothetical sentence generating means for generating a hypothetical sentence that is a sentence related to the classification destination candidate according to the generating strategy selected by the strategy selecting means; and classifying the document based on the entailment relationship between the document and the hypothetical sentence. It functions as a sorting means that determines the destination. According to this document classification program, it is possible to classify documents to be classified with high accuracy and stability.
  • FIG. 2 is a flow diagram showing the flow of the document classification method. Note that the execution subject of each step in this document classification method may be a processor provided in the document classification apparatus 1 or a processor provided in another device. provided processor.
  • At S11 at least one processor selects one or more generation strategies from among a plurality of generation strategies for generating hypothetical sentences related to document classification candidates.
  • At S12 at least one processor generates a hypothetical sentence, which is a sentence related to the classification destination candidate, according to the selected generation strategy.
  • At S13 at least one processor determines the classification destination of the document based on the entailment relationship between the document and the hypothesis sentence.
  • At least one processor selects one or more of a plurality of generation strategies for generating hypothesis sentences related to document classification candidates. selecting a generation strategy; generating a hypothetical sentence, which is a sentence related to the classification destination candidate, according to the selected generation strategy; and determining. According to this document classification method, it is possible to classify documents to be classified stably with high precision.
  • FIG. 3 is a diagram showing an example of classifying documents by this method.
  • a document x 1 and a label set L 1 as its classification destination candidate are given as input data 1
  • a document x 2 and its classification destination candidate label set L 2 are given as input data 2 .
  • the classification destination can also be called a topic
  • the classification of document x can also be said to be a process of estimating the topic of document x.
  • the classification of the document x can be rephrased as estimation of the speaker's emotion.
  • the label set L is a set of labels indicating situations
  • the classification of the document x can be rephrased as estimation of the situation indicated by the document x.
  • Document x1 included in input data 1 is a document to be classified, and is a minutes document extracted from minutes of a meeting or the like.
  • the document x1 is text data "I like beer. I have two chihuahuas.”
  • the label set L1 indicates classification destination candidates for classifying the document x1
  • the label set L1 shown in FIG. 3 includes three candidates of liquor, sports, and pets. In FIG. 3, among these candidates, "alcohol” (hereinafter referred to as candidate l1 ) is evaluated for validity as a classification destination of document x1 .
  • one or more generation strategies are selected from among multiple generation strategies for generating hypothetical sentences related to classification destination candidates.
  • one generation strategy is selected from two generation strategies, generation strategies 1 and 2.
  • a generation strategy is a strategy for generating hypothetical sentences related to classification destination candidates.
  • the generation strategy shown in FIG. 3 is a hypothetical sentence template in which a hypothetical sentence is generated by incorporating character strings of classification destination candidates.
  • the generation strategy 1 is the text data "This kind of person prefers l.”
  • a hypothetical sentence is generated by incorporating the character string of the classification destination candidate into the "l" portion of the text data. The same is true for generation strategy 2.
  • application conditions are defined for the generation strategy 1 .
  • the application condition is that the document x to be classified is a minutes document and the classification destination candidate l is related to hobbies.
  • Document x1 shown in FIG. 3 is a meeting minutes document, and candidate l1 is "alcohol" and is related to a hobby. For this reason, in this method, according to the generation strategy 1 , a hypothetical sentence "Such a person likes alcohol.”
  • the method evaluates the entailment between the hypothesis sentence and the document.
  • the document x1 to be classified "I like beer. I have two chihuahuas.” An evaluation result of 0.93 is obtained.
  • this numerical value indicates the degree to which the document x1 implies the hypothetical sentence, and the closer the value is to 1, the higher the degree. Below, this numerical value is called an implication score.
  • the degree to which the document x1 implies the hypothesis sentence can be rephrased as the degree of possibility that the document x1 implies the hypothesis sentence.
  • the degree to which the document x1 implies a hypothetical sentence can also be rephrased as the probability that the hypothetical sentence has correct contents when the document x1 is taken as a premise sentence.
  • the classification destination candidate l related to the hypothetical sentence 1 is highly likely to match the document x 1 to be classified. Therefore, it can be said that the implication score indicates the appropriateness of classifying the classification target document x1 as the classification destination candidate l1 .
  • the implication score of the hypothetical sentence "Such a person prefers alcoholic beverages" and the classification target document x1 is 0.93.
  • the implication score of 0.93 is close to its maximum value of 1, and thus indicates that document x1 likely entails the hypothesis sentence.
  • this implication score indicates that the validity of classifying the document x1 into the classification destination candidate l1 of "alcohol” which is the basis of the hypothetical sentence "This kind of person prefers alcoholic beverages" is high. It is shown that.
  • the document x2 included in the input data 2 is a diagnosis history document extracted from the diagnosis history of a hospital or the like. Specifically, the document x2 is text data of "Malaise and anorexia also appeared one day ago.” Also, the label set L2 indicates classification destination candidates for classifying the document x2 , and the label set L2 shown in FIG. 3 includes two candidates, languid and coming soon. In FIG. 3, among these candidates, the suitability of the candidate "listen" (hereinafter referred to as candidate l2 ) as a classification destination of document x2 is evaluated.
  • the creation strategy 2 Similar to the creation strategy 1, the creation strategy 2 also has application conditions.
  • the application condition is that the document x to be classified is a medical-related document, and the classification destination candidate l is related to symptoms.
  • Document x 2 shown in FIG. 3 is a diagnostic history document, ie, a medical-related document, and candidate l 2 is "drowsy" and related to symptoms, thus satisfying the application condition of generation strategy 2 . For this reason, in this method, according to the generation strategy 2, a hypothetical sentence "This person complains of lassitude.”
  • the hypothetical sentence is generated, it is evaluated in the same manner as the input data 1. That is, it is evaluated whether or not the classification target document x2 , "Malaise and anorexia also appeared one day ago," implies the hypothetical sentence, "This person complains of lethargy.” This evaluation result is 0.77, which generally agrees with the feeling of whether or not it is appropriate for a person to classify the document x2 as "lethargic".
  • a hypothetical sentence is generated according to a generation strategy selected from a plurality of generation strategies. It is possible to accurately evaluate the validity of classification. For example, assume that a hypothetical sentence is generated mechanically by applying generation strategy 1 to input data 2 described above without applying this method. In this case, the hypothetical sentence generated will be unnatural, such as "This kind of person likes to be lethargic.”, and the accuracy of the validity evaluation result will be lower than when this method is applied.
  • the documents x 1 and x 2 can be appropriately classified by performing the above processing for each classification destination candidate included in the label sets L 1 and L 2 .
  • a candidate whose implication score exceeds a preset threshold may be automatically determined as a classification destination, or the implication score of each candidate may be output to a display device or the like and adopted as a classification destination for documents x 1 and x 2 .
  • a plurality of classification destinations may be determined for one document. For example, for the document x1 in FIG. 3, it may be determined that the two classification destinations are "liquor" and "pets".
  • the determined classification destination may be recorded in association with the documents x 1 and x 2 .
  • Documents x 1 and x 2 associated with information indicating a classification destination can be used for a wider range of applications, such as being able to be searched using the classification destination. Also, the documents x 1 and x 2 associated with the information indicating the classification destination can be used as teacher data for machine learning of the classification destination of the document.
  • FIG. 4 is a block diagram showing the configuration of the document classification device 2.
  • the document classification device 2 is a device for classifying documents, and as shown in the figure, a control unit 20 for controlling each part of the document classification device 2 and various data used by the document classification device 2 are stored.
  • the document classification device 2 also includes an input section 22 for receiving user's input operation to the document classification device 2 and an output section 23 for the document classification device 2 to output data.
  • the document classification device 2 may be a dedicated device for document classification, or may be a general-purpose device that can be used for purposes other than document classification.
  • the control unit 20 also includes a data acquisition unit 201, a strategy selection unit (strategy selection means) 202, a hypothesis sentence generation unit (hypothesis sentence generation means) 203, a classification unit (classification means) 204, and a history recording unit (history recording unit). means) 205 is included.
  • the storage unit 21 includes a generation strategy storage unit 211 and also stores a language understanding model 212 and history information 213 . Note that the history recording unit 205 and the history information 213 will be described later in the section "Generation Strategy Selection Method Based on History Information".
  • the data acquisition unit 201 acquires documents to be classified.
  • the data acquisition unit 201 also acquires classification destination candidates for classifying the document. For example, the data acquisition unit 201 acquires text data input through the input unit 22 as a document to be classified, and similarly acquires a set of labels input through the input unit 22 as classification destination candidates. good too.
  • the strategy selection unit 202 selects one or more generation strategies from a plurality of generation strategies for generating hypothetical sentences related to document classification candidates. More specifically, the strategy selection unit 202 selects one or more generation strategies from generation strategies recorded in the generation strategy holding unit 211 of the storage unit 21 . The details of the selection method of the generation strategy will be described later in "Generation Strategy and Its Selection Method".
  • the hypothetical sentence generating unit 203 generates a hypothetical sentence that is a sentence related to a document classification destination candidate. More specifically, the hypothetical sentence generation unit 203 generates a hypothetical sentence from the classification destination candidates acquired by the data acquisition unit 201 according to the generation strategy selected by the strategy selection unit 202 .
  • the classification unit 204 determines the classification destination of the document to be classified based on the entailment relationship between the document to be classified and the hypothetical sentence related to the candidate for the classification destination of the sentence. More specifically, the classification unit 204 inputs pairs of hypothetical sentences and documents to be evaluated to the language understanding model 212 stored in the storage unit 21, and assigns the documents to the classification destination corresponding to the hypothetical sentences. An implication score, which is an index value indicating the appropriateness of classification as a candidate, is calculated, and the classification destination is determined using this implication score. It can be said that the implication score indicates the classification destination to which the document to be classified should be classified. Therefore, the classification unit 204 may output the implication score as information indicating the classification destination of the document to be classified. The details of the language understanding model 212 will be described later in "Language Understanding Model".
  • one or a plurality of generation A strategy selection unit 202 that selects a strategy; a hypothesis sentence generation unit 203 that generates a hypothesis sentence that is a sentence related to a candidate for classification according to the generation strategy selected by the strategy selection unit 202; and a classification unit 204 that determines the classification destination of the document to be classified based on the entailment relation.
  • the document to be classified should be a character string having some meaning, and its content, format, language, etc. are not particularly limited.
  • the source of the document to be classified is not particularly limited.
  • the documents to be classified may be character strings extracted from minutes of meetings, questionnaire results, posts on SNS (Social Networking Service), etc., or documents showing the content of speech converted to text by speech recognition. It may be a target. Text extracted from a data source such as various databases may be used as a document to be classified as it is, or a premise sentence generated from the extracted text may be used as a document to be classified.
  • FIG. 5 is a diagram showing an example of a generation strategy stored in the generation strategy holding unit 211. As shown in FIG. The table shown in FIG. 5 includes generation strategies 1-3.
  • Generation strategy 1 is the text data "This kind of person prefers l.”
  • a hypothetical sentence is generated by incorporating the character string of the classification destination candidate into the "l" portion of the text data. The same is true for generation strategies 2 and 3.
  • the hypothetical sentence generation unit 203 can easily generate hypothetical sentences related to classification destination candidates.
  • the table shown in FIG. 5 shows the application conditions for each generation strategy.
  • the conditions for applying generation strategy 1 are that document x to be classified is a meeting minutes document and classification destination candidate l is related to hobbies.
  • the strategy selection unit 202 can select a generation strategy that satisfies the application conditions. Since such a generation strategy selection method is a selection method according to predefined conditions, that is, a rule, it can be said to be a selection method using a rule base.
  • the attribute information indicating what kind of document x to be classified may be associated with the document x in advance as meta information, for example. Also, the attribute information may be automatically generated from the words included in the document x. The same applies to the attribute information of the classification destination candidate l.
  • the strategy selection unit 202 may select a generation strategy corresponding to those conditions when the document to be classified satisfies the predetermined conditions and the classification destination candidate satisfies the predetermined conditions. This makes it possible to select a generation strategy suitable for both the document to be classified and the candidate for the classification destination.
  • the strategy selection unit 202 may select a generation strategy corresponding to the condition. According to this configuration, in addition to the effects of the document classification apparatus 1 according to the exemplary embodiment 1, the effect of being able to select a generation strategy suitable for at least one of a document to be classified and a candidate for a classification destination can be obtained. can get.
  • the strategy selection unit 202 may select a generation strategy corresponding to the condition without considering classification destination candidates.
  • each generation strategy may be associated with a condition for a document to be classified.
  • the strategy selection unit 202 may select a generation strategy corresponding to the condition when the classification destination candidate satisfies a predetermined condition without considering the document to be classified.
  • each generation strategy may be associated with a condition for a classification destination candidate.
  • the application condition is not associated with the generation strategy 3 shown in FIG.
  • the application condition may not be set like the generation strategy 3.
  • the strategy selection unit 202 may select a generation strategy for which the application condition is not set when there is no generation strategy that satisfies the application condition. Further, for example, the strategy selection unit 202 may unconditionally select a generation strategy for which no application condition is set, and additionally select a generation strategy that satisfies the application condition.
  • the hypothetical sentence generating unit 203 may generate a hypothetical sentence using a document generation model that outputs a document related to a character string such as a word or a sentence by inputting the character string.
  • a document generation model for example, an encoder/decoder model can be applied.
  • the encoder-decoder model applied here encodes the input text data (e.g., converts it to vectors) and decodes the converted data (back to text data) to generate hypothetical sentences related to the input text data. is output.
  • attribute information of the document to be classified e.g. category, extraction source, etc.
  • multiple document generation models e.g.
  • the language understanding model 212 is a model constructed to output an implication score, which is an index value indicating the degree to which the document entails the hypothesis sentence, when a set of a hypothesis sentence and a document to be evaluated is input. is. A method of generating the language understanding model 212 will be described with reference to FIG. FIG. 6 is a diagram showing how the language understanding model 212 is generated.
  • the language understanding model 212 may be a combination of a pre-learned language model that converts a document into a vector in line with its context and a language task model that classifies the document.
  • a pre-learned language model that converts a document into a vector in line with its context
  • a language task model that classifies the document.
  • each of the document to be classified and the hypothetical sentence is vectorized by the pre-learned language model, and an implication score indicating the degree to which the document to be classified entails the hypothetical sentence is calculated from these vectors by the language task model.
  • a pre-learned language model 62 is generated from a large amount of text data 61, as shown in FIG.
  • a self-supervised learning technique is preferably used to generate the pre-trained language model 62 .
  • it is possible to perform learning for converting a document into a vector according to its context without labeling the text data with correct data. For example, a huge amount of text data on the web can be used for learning as it is.
  • a language task model 65 for classifying the vectors generated by the pre-learning language model 62 is generated.
  • the teacher data 63 a label indicating whether or not the document of the pair implies the hypothesis sentence is added to a pair of the document and the hypothesis sentence for which it is known whether or not the document entails the hypothesis sentence. The attached should be applied.
  • the teacher data 63 for example, SNLI (Stanford Natural Language Inference), XNLI (Cross-lingual Natural Language Inference), etc. can be used.
  • the language understanding model 212 that outputs an output value representing the degree to which the input document entails the input hypothetical sentence, for example, as a numerical value between 1 and 0.
  • the pre-trained A learning language model 64 may be used instead of using the pre-learned language model 62 as it is, by tuning the pre-learned language model 62 using the teacher data 63.
  • the strategy selection unit 202 may select multiple generation strategies.
  • the hypothetical sentence generating unit 203 may generate a plurality of hypothetical sentences using each generation strategy, and the classifying unit 204 performs evaluation using each generated hypothetical sentence and An evaluation result that integrates the results may be calculated.
  • strategy selection unit 202 selects 100 generation strategies, and hypothesis sentence generation unit 203 uses them to generate 100 hypotheses.
  • the classification unit 204 inputs a set of the document x and the hypothetical sentence to the language understanding model 212 and calculates the implication score (total of 100) of each hypothetical sentence. Then, the classification unit 204 integrates these implication scores to calculate an index value (hereinafter referred to as a total score) indicating the appropriateness of classifying the document x into the classification destination candidate l.
  • a total score an index value
  • the method of calculating the total score is not particularly limited as long as the total score is calculated by reflecting at least part of the calculated implication score.
  • the classification unit 204 may calculate a statistic calculated from the implication scores calculated for each of a plurality of hypothesis sentences as the total score.
  • a statistic is a numerical value summarizing the feature of data obtained by applying a statistical algorithm. Examples of statistics include arithmetic mean, mode, median, maximum, minimum, and the like.
  • the classification unit 204 may output multiple calculated implication scores as classification results without calculating the overall score as described above. In this case, the user of the document classification device 2 can be made to recognize the proper classification destination of the document to be classified by those implication scores.
  • the strategy selection unit 202 may select a generation strategy based on history information 213 . Selection of a generation strategy based on the history information 213 will be described below with reference to FIG. FIG. 7 is a diagram showing an example of the history information 213. As shown in FIG.
  • the history information 213 is information indicating whether or not the results of the past document classification were correct, and is recorded by the history recording unit 205 . Therefore, the selection method of the generation strategy based on the history information 213 is based on the results of document classification performed in the past, and can be said to be a learning-based selection method.
  • the history information 213 shown in FIG. 7 indicates the classified documents, their classification destinations, and the correctness or wrongness of the classification, regarding the classification of the documents performed by applying the generation strategies 1 to 3, respectively. Specifically, the history information 213 in FIG. 7 shows the result of the correct/wrong judgment of the validity evaluation for each generation strategy used for each combination of the input sentence x 1 and the classification destinations l 1 to l 3 . there is
  • the result of the correctness judgment when the hypothesis sentence is generated according to the generation strategy 1 is "correct". This means that the validity of classifying the input sentence x 1 into the classification destination l 1 can be correctly evaluated by generating the hypothetical sentence regarding the classification destination l 1 according to the generation strategy 1, that is, the reasonable implication score is It shows that it was calculated.
  • the result of the correctness judgment is "false" when the hypothetical sentence is generated according to the generation strategy 1. This means that the validity of classifying the input sentence x 1 into the classification destination l 2 could not be correctly evaluated when the hypothetical sentence related to the classification destination l 2 was generated according to the generation strategy 1, that is, the reasonable implication Indicates that no score was calculated.
  • the history recording unit 205 generates such history information 213 by, for example, having the user input the correctness or wrongness of the evaluation result or the classification result for each combination of the document evaluated by the classification unit 204 and the classification destination. can do.
  • Such history information 213 serves as a guideline indicating what kind of generation strategy should be selected for what kind of input sentence and what kind of classification destination. Therefore, based on the history information 213, the strategy selection unit 202 can select a generation strategy that can correctly evaluate the validity of the classification for the combination of the document to be classified and its classification destination candidate.
  • the strategy selection unit 202 may select a generation strategy based on the rate at which a valid implication score is calculated when the generation strategy is applied (hereinafter referred to as the correct answer rate). For example, the strategy selection unit 202 may select a predetermined number of generation strategies with high percentages of correct answers.
  • the history information 213 in FIG. 7 indicates that the input sentence x1 is the minutes document.
  • the history recording unit 205 may include in the history information 213 attribute information indicating what kind of document the input sentence x1 is.
  • the strategy selection unit 202 may select a generation strategy based on the correct answer rate of input sentences associated with the same attribute information as the attribute information of the document to be classified. For example, when documents to be classified are medical-related documents, the strategy selection unit 202 may select a generation strategy with a high percentage of correct answers for medical-related input sentences.
  • the history recording unit 205 may include the attribute information of the classification destination in the history information 213.
  • the strategy selection unit 202 can select the generation strategy based on the correct answer rate for the classification destination of the same attribute information as the classification destination candidate of the document to be classified. For example, when the classification destination candidate is hobby, the strategy selection unit 202 can select a generation strategy with a high correct answer rate when the classification destination is hobby.
  • the strategy selection unit 202 may select a generation strategy based on the history information 213 that indicates whether or not the results of past document classification were correct. According to this configuration, in addition to the effect of the document classification device 1 according to the exemplary embodiment 1, the effect of being able to select a generation strategy considered appropriate from the history information can be obtained.
  • FIG. 8 is a flowchart showing the flow of processing executed by the document classification device 2. As shown in FIG.
  • the data acquisition unit 201 accepts input of a document to be classified and a classification destination candidate. Any text data can be applied as a document to be classified. One or a plurality of classification destination candidates may be input. For example, the data acquisition unit 201 may receive an input of a label set L including a plurality of classification destination labels l as classification destination candidates. good.
  • the strategy selection unit 202 selects one or more generation strategies from multiple generation strategies for generating hypothetical sentences related to document classification destination candidates. For example, the strategy selection unit 202 selects one or more generation strategies from generation strategies recorded in the generation strategy storage unit 211 .
  • the strategy selection unit 202 may select a generation strategy corresponding to each classification destination label.
  • the generation strategy selection method may be a selection method using a rule base as described in "Generation strategy and its selection method", or a selection method as described in "Generation strategy selection method based on history information”.
  • a selection method using a learning base may be used.
  • the hypothetical sentence generating unit 203 generates a hypothetical sentence regarding the classification destination candidate whose input was received in S21, according to the generation strategy selected in S22. If a plurality of generation strategies are selected in S22, the hypothesis sentence generation unit 203 generates a plurality of hypothesis sentences according to each generation strategy. For example, in S22, assume that generation strategies 1 and 3 are selected as the generation strategies corresponding to the destination label l -1 , and generation strategies 2 and 3 are selected as the generation strategies corresponding to the destination label l- 2 . In this case, the hypothetical sentence generation unit 203 generates a hypothetical sentence according to the generation strategy 1 and a hypothetical sentence according to the generation strategy 3 for one classification destination label l1. Similarly, the hypothetical sentence generation unit 203 generates a hypothetical sentence according to the generation strategy 2 and a hypothetical sentence according to the generation strategy 3 for one classification destination label l2.
  • the classification unit 204 determines the classification destination of the document to be classified whose input was received in S21. For example, the classification unit 204 may calculate an implication score by inputting a set of a hypothetical sentence and a document to be classified into the language understanding model 212 . Since the implication score indicates the validity of classifying the document to be classified into the classification destination candidates input in S21, it can be said that the implication score indicates the classification destination of the document to be classified.
  • the process of S24 is performed for each of the generated multiple hypothesis sentences. Note that when multiple hypothetical sentences are generated for one classification destination candidate and the implication score is calculated for each hypothetical sentence, the classification Unit 204 may calculate an overall score from those implication scores.
  • the classification unit 204 causes the output unit 23 to output the classification destination determined by the processing at S24.
  • the classification unit 204 may cause the output unit 23 to output a classification destination candidate whose implication score or total score exceeds a threshold as the determined classification destination.
  • the processing in FIG. 8 ends.
  • the classification unit 204 may output the implication score or total score of the classification destination candidate.
  • the user of the document classification apparatus 2 can determine which classification destination candidate the text to be classified should be classified into, or whether it should not be classified into any classification destination candidate, based on the output total score. can.
  • the classification unit 204 may store the calculated evaluation result and the determined classification destination in the storage unit 21, for example, and terminate the process.
  • a document classification system having functions similar to those of the document classification device 2 can be constructed by using a plurality of mutually communicable devices. For example, by distributing the blocks shown in FIG. 4 to a plurality of devices, a document classification system having the same functions as the document classification device 2 can be constructed.
  • the document classification device 2 may be realized by hardware such as an integrated circuit (IC chip), or may be realized by software.
  • the document classification device 2 is implemented by a computer that executes instructions of a program (document classification program) that is software that implements each function, for example.
  • a program (document classification program) that is software that implements each function, for example.
  • FIG. 1 Computer C comprises at least one processor C1 and at least one memory C2.
  • a program P for operating the computer C as the document classification device 2 is recorded in the memory C2.
  • the processor C1 reads the program P from the memory C2 and executes it, thereby realizing each function of the document classification device 2.
  • processor C1 for example, CPU (Central Processing Unit), GPU (Graphic Processing Unit), DSP (Digital Signal Processor), MPU (Micro Processing Unit), FPU (Floating point number Processing Unit), PPU (Physics Processing Unit) , a microcontroller, or a combination thereof.
  • memory C2 for example, a flash memory, HDD (Hard Disk Drive), SSD (Solid State Drive), or a combination thereof can be used.
  • the computer C may further include a RAM (Random Access Memory) for expanding the program P during execution and temporarily storing various data.
  • Computer C may further include a communication interface for sending and receiving data to and from other devices.
  • Computer C may further include an input/output interface for connecting input/output devices such as a keyboard, mouse, display, and printer.
  • the program P can be recorded on a non-temporary tangible recording medium M that is readable by the computer C.
  • a recording medium M for example, a tape, disk, card, semiconductor memory, programmable logic circuit, or the like can be used.
  • the computer C can acquire the program P via such a recording medium M.
  • the program P can be transmitted via a transmission medium.
  • a transmission medium for example, a communication network or broadcast waves can be used.
  • Computer C can also obtain program P via such a transmission medium.
  • a document classification apparatus comprising: hypothesis sentence generation means for generating a hypothesis sentence that is a sentence related to a classification destination candidate; and classification means for determining a classification destination of the document based on an entailment relationship between the document and the hypothesis sentence.
  • Appendix 2 The document classification device according to appendix 1, wherein when the document satisfies a predetermined condition, the strategy selection means selects the generation strategy corresponding to the condition.
  • Appendix 4 The document classification apparatus according to appendix 1, wherein when at least one of the document and the classification destination candidate satisfies a predetermined condition, the strategy selection means selects the generation strategy corresponding to the condition.
  • Appendix 6 at least one processor selecting one or more generation strategies from among a plurality of generation strategies for generating hypothesis sentences associated with document classification candidates;
  • a document classification method comprising: generating a hypothesis sentence that is a sentence related to a candidate; and determining a classification destination of the document based on an entailment relationship between the document and the hypothesis sentence.
  • Strategy selection means for selecting one or more generation strategies from a plurality of generation strategies for generating hypothetical sentences related to candidate classification destinations of a document, according to the generation strategy selected by the strategy selection means , hypothetical sentence generating means for generating a hypothetical sentence that is a sentence related to the candidate for classification, and classification means for determining the classification destination of the document based on the entailment relationship between the document and the hypothetical sentence.
  • Classification program for selecting one or more generation strategies from a plurality of generation strategies for generating hypothetical sentences related to candidate classification destinations of a document, according to the generation strategy selected by the strategy selection means , hypothetical sentence generating means for generating a hypothetical sentence that is a sentence related to the candidate for classification, and classification means for determining the classification destination of the document based on the entailment relationship between the document and the hypothetical sentence.
  • At least one processor selects one or more generation strategies from among a plurality of generation strategies for generating hypothetical sentences associated with document classification candidates; Hypothetical sentence generation processing for generating a hypothetical sentence that is a sentence related to the classification destination candidate according to the generation strategy selected in the selection processing, and determining the classification destination of the document based on the entailment relationship between the document and the hypothetical sentence. and a document classifier that performs a classification process.
  • the document classification apparatus may further include a memory, and the memory stores a program for causing the processor to execute the strategy selection process, the hypothesis sentence generation process, and the classification process. may have been Also, this program may be recorded in a computer-readable non-temporary tangible recording medium.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

分類対象の文書の分類を高精度に安定して行うために、文書分類装置(1)は、文書の分類先候補に関連する仮説文を生成するための複数の生成戦略の中から、1または複数の生成戦略を選択する戦略選択部(11)と、戦略選択部(11)が選択する生成戦略に従って、分類先候補に関連する文である仮説文を生成する仮説文生成部(12)と、文書と仮説文の含意関係に基づき、文書の分類先を決定する分類部(13)と、を備える。

Description

文書分類装置、文書分類方法、および文書分類プログラム
 文書を自動で分類する文書分類装置等に関する。
 近時では、様々な内容のデータが大量に収集され、蓄積されるようになっており、これに伴って、そのようなデータを自動で分類する技術が求められている。例えば、下記の非特許文献1には、ゼロショット分類という手法によってテキストに自動でラベルを関連付ける技術が開示されている。
 より詳細には、非特許文献1の技術では、まず、分類対象のテキストから前提文を生成すると共に、分類先候補のラベルに関連する仮説文を生成する。そして、生成した前提文と仮説文を含意モデルに入力することにより、分類対象のテキストに対する当該ラベルの当てはまり度合いを判定する。含意モデルは、前提文が仮説文を含意する、つまり同じ内容を含むか否かを機械学習することにより構築されたモデルである。
Wenpeng Yin, Jamaal Hay, Dan Roth、"Benchmarking Zero-shot Text Classification: Datasets, Evaluation and Entailment Approach", arXiv:1909.00161v1 [cs.CL], August 31, 2019
 非特許文献1の技術は、各ラベルに対応する仮説文をどのようなものとするかによって判定精度が左右され、分類の精度と安定性に改善の余地がある。例えば、「スポーツ」というラベルについて、「これはスポーツに関する文章である」という仮説文を生成した場合と、「これはスポーツという話題に言及している」という仮説文を生成した場合とでは、含意モデルの出力値が異なる。したがって、同じ「スポーツ」というラベルであっても、何れの仮説文を生成するかにより、当てはまり度合いの判定結果も異なることになる。
 本発明の一態様は、このような問題に鑑みてなされたものであり、その目的の一例は、分類対象の文書の分類を高精度に安定して行うことを可能にする技術を提供することにある。
 本発明の一側面に係る文書分類装置は、文書の分類先候補に関連する仮説文を生成するための複数の生成戦略の中から、1または複数の生成戦略を選択する戦略選択手段と、前記戦略選択手段が選択する前記生成戦略に従って、前記分類先候補に関連する文である仮説文を生成する仮説文生成手段と、前記文書と前記仮説文の含意関係に基づき、前記文書の分類先を決定する分類手段と、を備える。
 本発明の一側面に係る文書分類方法は、少なくとも1つのプロセッサが、文書の分類先候補に関連する仮説文を生成するための複数の生成戦略の中から、1または複数の生成戦略を選択することと、前記選択した生成戦略に従って、前記分類先候補に関連する文である仮説文を生成することと、前記文書と前記仮説文の含意関係に基づき、前記文書の分類先を決定することと、を含む。
 本発明の一側面に係る文書分類プログラムは、コンピュータを、文書の分類先候補に関連する仮説文を生成するための複数の生成戦略の中から、1または複数の生成戦略を選択する戦略選択手段、前記戦略選択手段が選択する前記生成戦略に従って、前記分類先候補に関連する文である仮説文を生成する仮説文生成手段、および前記文書と前記仮説文の含意関係に基づき、前記文書の分類先を決定する分類手段、として機能させる。
 本発明の一態様によれば、分類対象の文書の分類を高精度に安定して行うことが可能になる。
本発明の例示的実施形態1に係る文書分類装置の構成を示すブロック図である。 本発明の例示的実施形態1に係る文書分類方法の流れを示すフロー図である。 本発明の例示的実施形態2に係る文書分類方法により文書を分類した例を示す図である。 本発明の例示的実施形態2に係る文書分類装置の構成を示すブロック図である。 生成戦略保持部に格納される生成戦略の一例を示す図である。 言語理解モデルの生成方法を示す図である。 履歴情報の例を示す図である。 上記文書分類装置が実行する処理の流れを示すフロー図である。 本発明の各例示的実施形態に係る各装置の各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータの一例を示す図である。
 〔例示的実施形態1〕
 本発明の第1の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。
 (文書分類装置の構成)
 本例示的実施形態に係る文書分類装置1の構成について、図1を参照して説明する。図1は、文書分類装置1の構成を示すブロック図である。図1に示すように、文書分類装置1は、戦略選択部11と仮説文生成部12と分類部13とを備えている。
 戦略選択部11は、文書の分類先候補に関連する仮説文を生成するための複数の生成戦略の中から、1または複数の生成戦略を選択する。
 仮説文生成部12は、上記戦略選択部11が選択する上記生成戦略に従って、上記分類先候補に関連する文である仮説文を生成する。
 分類部13は、上記文書と上記仮説文の含意関係に基づき、上記文書の分類先を決定する。
 以上のように、本例示的実施形態に係る文書分類装置1においては、文書の分類先候補に関連する仮説文を生成するための複数の生成戦略の中から、1または複数の生成戦略を選択する戦略選択部11と、戦略選択部11が選択する上記生成戦略に従って、上記分類先候補に関連する文である仮説文を生成する仮説文生成部12と、上記文書と上記仮説文の含意関係に基づき、上記文書の分類先を決定する分類部13と、を備える、という構成が採用されている。この構成によれば、分類対象の文書の分類を高精度に安定して行うことができる。
 (文書分類プログラム)
 上述の文書分類装置1の機能は、プログラムによって実現することもできる。本例示的実施形態に係る文書分類プログラムは、コンピュータを、文書の分類先候補に関連する仮説文を生成するための複数の生成戦略の中から、1または複数の生成戦略を選択する戦略選択手段、上記戦略選択手段が選択する上記生成戦略に従って、上記分類先候補に関連する文である仮説文を生成する仮説文生成手段、および上記文書と上記仮説文の含意関係に基づき、上記文書の分類先を決定する分類手段、として機能させる。この文書分類プログラムによれば、分類対象の文書の分類を高精度に安定して行うことができる。
 (文書分類方法の流れ)
 本例示的実施形態に係る文書分類方法の流れについて、図2を参照して説明する。図2は、文書分類方法の流れを示すフロー図である。なお、この文書分類方法における各ステップの実行主体は、文書分類装置1が備えるプロセッサであってもよいし、他の装置が備えるプロセッサであってもよく、各ステップの実行主体がそれぞれ異なる装置に設けられたプロセッサであってもよい。
 S11では、少なくとも1つのプロセッサが、文書の分類先候補に関連する仮説文を生成するための複数の生成戦略の中から、1または複数の生成戦略を選択する。
 S12では、少なくとも1つのプロセッサが、上記選択した生成戦略に従って、上記分類先候補に関連する文である仮説文を生成する。
 S13では、少なくとも1つのプロセッサが、上記文書と上記仮説文の含意関係に基づき、上記文書の分類先を決定する。
 以上のように、本例示的実施形態に係る文書分類方法は、少なくとも1つのプロセッサが、文書の分類先候補に関連する仮説文を生成するための複数の生成戦略の中から、1または複数の生成戦略を選択することと、上記選択した生成戦略に従って、上記分類先候補に関連する文である仮説文を生成することと、上記文書と上記仮説文の含意関係に基づき、上記文書の分類先を決定することと、を含む。この文書分類方法によれば、分類対象の文書の分類を高精度に安定して行うことができる。
 〔例示的実施形態2〕
 本発明の第2の例示的実施形態について、図面を参照して詳細に説明する。
 (文書分類方法の概要)
 本例示的実施形態に係る文書分類方法(以下、本方法と呼ぶ)の概要を図3に基づいて説明する。図3は、本方法により文書を分類した例を示す図である。図3の例では、入力データ1として文書xとその分類先候補であるラベル集合Lが与えられていると共に、入力データ2として文書xとその分類先候補であるラベル集合Lが与えられている。
 なお、分類先はトピックと呼ぶこともでき、文書xの分類は、文書xのトピックを推定する処理ということもできる。また、文書xが会話文から抽出されたものであり、ラベル集合Lが発話者の感情を示すラベルの集合である場合、文書xの分類は発話者の感情の推定と言い換えることもできる。また、ラベル集合Lが状況を示すラベルの集合である場合、文書xの分類は、文書xが示す状況の推定と言い換えることもできる。
 入力データ1に含まれる文書xは分類対象の文書であり、会議等の議事録から抽出された議事録文書である。具体的には、文書xは「ビール好き。チワワを2匹、飼っている。」というテキストデータである。また、ラベル集合Lは、文書xを分類する分類先候補を示し、図3に示すラベル集合Lには、お酒、スポーツ、およびペットという3つの候補が含まれている。図3では、これらの候補のうち「お酒」(以下、候補lと呼ぶ)について、文書xの分類先としての妥当性を評価している。
 本方法では、上記の評価を行うにあたり、まず、分類先候補に関連する仮説文を生成するための複数の生成戦略の中から、1または複数の生成戦略を選択する。図3の例では、生成戦略1および2という2つの生成戦略の中から1つの生成戦略を選択している。
 ここで生成戦略とは、分類先候補に関連した仮説文を生成するための戦略である。図3に示す生成戦略は、分類先候補の文字列を組み込むことにより仮説文が生成される、仮説文のテンプレートである。具体的には、生成戦略1は「このような人はlを好む。」というテキストデータである。このテキストデータにおける「l」の部分に分類先候補の文字列を組み込むことにより仮説文が生成される。生成戦略2についても同様である。
 また、図3に示すように、生成戦略1には適用条件が定められている。その適用条件とは、分類対象の文書xが議事録文書であり、かつ、分類先候補lが趣味に関するものである、というものである。図3に示す文書xは議事録文書であり、かつ候補lは「お酒」であり趣味に関するから、上述した生成戦略1の適用条件を満たす。このため、本方法では、生成戦略1に従って、候補lすなわち「お酒」に関する「このような人はお酒を好む。」という仮説文を生成している。
 次に、本方法では、仮説文と文書との含意関係(entailment)について評価する。図3の例では、「ビール好き。チワワを2匹、飼っている。」という分類対象の文書xが、「このような人はお酒を好む。」という仮説文を含意するか評価し、0.93という評価結果を得ている。
 詳細は後記「言語理解モデル」で説明するが、この数値は文書xが仮説文を含意する度合いを示しており、その値が1に近いほどその度合いが高い。以下では、この数値を含意スコアと呼ぶ。なお、文書xが仮説文を含意する度合いは、文書がx仮説文を含意する可能性の高さ、と言い換えることができる。また、文書xが仮説文を含意する度合いは、文書xを前提文としたときに仮説文が正しい内容である可能性の高さと言い換えることもできる。
 仮説文と分類対象の文書xとが同じ意味を含む場合、あるいは、文書xを前提文としたときに仮説文が正しい内容であるといえる場合、その仮説文に関連する分類先候補lが分類対象の文書xに適合している可能性が高いといえる。このため、含意スコアは、分類対象の文書xを分類先候補lに分類することの妥当性を示しているともいえる。
 例えば、「このような人はお酒を好む。」という仮説文と、分類対象の文書xの含意スコアは0.93である。0.93という含意スコアはその最大値である1に近く、したがってこの含意スコアは文書xが上記仮説文を含意する可能性が高いことを示している。また、この含意スコアは、文書xを、「このような人はお酒を好む。」という仮説文の元になった「お酒」という分類先候補lに分類することの妥当性が高いことを示している。
 一方、入力データ2に含まれる文書xは、病院等における診断履歴から抽出された診断履歴文書である。具体的には、文書xは「1日前には倦怠感や食欲不振も出現。」というテキストデータである。また、ラベル集合Lは、文書xを分類する分類先候補を示し、図3に示すラベル集合Lには、気だるさおよび近日中という2つの候補が含まれている。図3では、これらの候補のうち「気だるさ」(以下、候補lと呼ぶ)について、文書xの分類先としての妥当性を評価している。
 生成戦略1と同様に生成戦略2にも適用条件が定められている。その適用条件とは、分類対象の文書xが医療関連文書であり、かつ、分類先候補lが症状に関するものである、というものである。図3に示す文書xは診断履歴文書すなわち医療関連文書であり、かつ候補lは「気だるさ」であり症状に関するから、生成戦略2の適用条件を満たす。このため、本方法では、生成戦略2に従って、「気だるさ」に関する「この人は気だるさを訴えている。」という仮説文を生成している。
 仮説文を生成した後は、入力データ1と同様に評価を行う。すなわち、「1日前には倦怠感や食欲不振も出現。」という分類対象の文書xが、「この人は気だるさを訴えている。」という仮説文を含意するか評価する。この評価結果は0.77であり、人が文書xの分類を「気だるさ」とすることを妥当と感じるか否かの感覚に概ね沿ったものとなっている。
 このように、本方法によれば、複数の生成戦略の中から選択した生成戦略に従って生成した仮説文を生成するので、妥当な生成戦略に従って生成した仮説文を用いて、文書を分類先候補に分類することの妥当性を精度よく評価することが可能になる。例えば、上述の入力データ2について、本方法を適用することなく、機械的に生成戦略1を適用して仮説文を生成したとする。この場合、生成される仮説文は「このような人は気だるさを好む。」という不自然なものとなり、本方法を適用した場合と比べて妥当性の評価結果の精度は低くなると考えられる。
 以上のような処理を、ラベル集合L、Lに含まれる各分類先候補について行うことにより、文書x、xを適切に分類することができる。例えば、含意スコアが予め設定した閾値を超える候補を自動で分類先に決定してもよいし、各候補の含意スコアを表示装置等に出力させ、文書x、xの分類先として採用するものをユーザに選択させてもよい。なお、1つの文書に対して、複数の分類先を決定してもよい。例えば、図3の文書xについて、「お酒」と「ペット」の2つを分類先に決定してもよい。
 決定した分類先は、文書x、xと対応付けて記録しておけばよい。分類先を示す情報が対応付けられた文書x、xについては、その分類先を用いた検索等が可能になる等、利活用の幅が広がる。また、分類先を示す情報が対応付けられた文書x、xは、文書の分類先を機械学習するための教師データとして利用することもできる。
 (文書分類装置の構成)
 本例示的実施形態に係る文書分類装置2の構成を図4に基づいて説明する。図4は、文書分類装置2の構成を示すブロック図である。文書分類装置2は、文書を分類するための装置であり、図示のように、文書分類装置2の各部を統括して制御する制御部20と、文書分類装置2が使用する各種データを記憶する記憶装置である記憶部21を備えている。また、文書分類装置2は、文書分類装置2に対するユーザの入力操作を受け付ける入力部22と、文書分類装置2がデータを出力するための出力部23を備えている。なお、文書分類装置2は、文書の分類のための専用の装置であってもよいし、文書の分類以外の用途にも使用できる汎用的な装置であってもよい。
 また、制御部20には、データ取得部201、戦略選択部(戦略選択手段)202、仮説文生成部(仮説文生成手段)203、分類部(分類手段)204、および履歴記録部(履歴記録手段)205が含まれている。そして、記憶部21には、生成戦略保持部211が含まれていると共に、言語理解モデル212と履歴情報213が記憶されている。なお、履歴記録部205と履歴情報213については後記「履歴情報に基づく生成戦略の選択方法」で説明する。
 データ取得部201は、分類の対象となる文書を取得する。また、データ取得部201は、文書を分類する分類先候補を取得する。例えば、データ取得部201は、入力部22を介して入力されたテキストデータを分類の対象となる文書として取得し、同じく入力部22を介して入力されたラベル集合を分類先候補として取得してもよい。
 戦略選択部202は、文書の分類先候補に関連する仮説文を生成するための複数の生成戦略の中から、1または複数の生成戦略を選択する。より詳細には、戦略選択部202は、記憶部21の生成戦略保持部211に記録されている生成戦略の中から1または複数の生成戦略を選択する。生成戦略の選択方法の詳細は後記「生成戦略とその選択方法」で説明する。
 仮説文生成部203は、文書の分類先候補に関連する文である仮説文を生成する。より詳細には、仮説文生成部203は、戦略選択部202が選択する生成戦略に従って、データ取得部201が取得した分類先候補から仮説文を生成する。
 分類部204は、分類対象の文書と、その文章の分類先候補に関連する仮説文の含意関係に基づき、分類対象の文書の分類先を決定する。より詳細には、分類部204は、評価の対象となる仮説文と文書の組を、記憶部21に記憶されている言語理解モデル212に入力し、当該文書を当該仮説文に対応する分類先候補に分類することの妥当性を示す指標値である含意スコアを算出し、この含意スコアを用いて分類先を決定する。なお、含意スコアは、分類対象の文書を分類すべき分類先を示しているといえる。このため、分類部204は、分類対象の文書の分類先を示す情報として含意スコアを出力してもよい。言語理解モデル212の詳細は、後記「言語理解モデル」で説明する。
 以上のように、本例示的実施形態に係る文書分類装置2においては、分類対象の文書の分類先候補に関連する仮説文を生成するための複数の生成戦略の中から、1または複数の生成戦略を選択する戦略選択部202と、戦略選択部202が選択する生成戦略に従って、分類先候補に関連する文である仮説文を生成する仮説文生成部203と、分類対象の文書と仮説文の含意関係に基づき、分類対象の文書の分類先を決定する分類部204と、を備える、という構成が採用されている。この構成によれば、高精度な妥当性の分類結果を安定して得ることができるという効果が得られる。
 なお、分類対象の文書は、何らかの意味を有する文字列であればよく、その内容、形式、言語等は特に限定されない。また、分類対象の文書の出所も特に限定されない。例えば、会議等の議事録や、アンケート結果、SNS(Social Networking Service)等に対する投稿等から抽出した文字列を分類対象の文書としてもよいし、音声認識によってテキスト化した発話内容を示す文書を分類対象としてもよい。また、各種データベースなどのデータソースから抽出したテキストをそのまま分類対象の文書としてもよいし、抽出したテキストから生成した前提文を分類対象の文書としてもよい。
 (生成戦略とその選択方法)
 図5は、生成戦略保持部211に格納される生成戦略の一例を示す図である。図5に示すテーブルには、生成戦略1~3が含まれている。生成戦略1は「このような人はlを好む。」というテキストデータである。このテキストデータにおける「l」の部分に分類先候補の文字列を組み込むことにより仮説文が生成される。生成戦略2、3についても同様である。このような生成戦略を用意しておくことにより、仮説文生成部203は、分類先候補に関連する仮説文を容易に生成することができる。
 また、図5に示すテーブルには、各生成戦略の適用条件が示されている。例えば、生成戦略1の適用条件は、分類対象の文書xが議事録文書であり、かつ、分類先候補lが趣味に関するものであるというものである。このように、生成戦略と対応付けてその適用条件を記録しておくことにより、戦略選択部202は適用条件を満たす生成戦略を選択することができる。このような生成戦略の選択方法は、予め定義した条件すなわちルールに従った選択方法であるから、ルールベースを用いた選択方法であるといえる。
 なお、分類対象の文書xがどのような文書であるかを示す属性情報は、例えば予めメタ情報として文書xに対応付けておいてもよい。また、文書xに含まれる単語などから自動で属性情報を生成してもよい。分類先候補lの属性情報についても同様である。
 このように、戦略選択部202は、分類対象の文書が所定の条件を満たし、かつ、分類先候補が所定の条件を満たす場合に、それらの条件に対応する生成戦略を選択してもよい。これにより、分類対象の文書と分類先候補の両方に適合した生成戦略を選択することができる。
 また、戦略選択部202は、文書と分類先候補の少なくとも何れかが所定の条件を満たす場合に、当該条件に対応する生成戦略を選択してもよい。この構成によれば、例示的実施形態1に係る文書分類装置1の奏する効果に加えて、分類対象の文書と分類先候補の少なくとも何れかに適合した生成戦略を選択することができるという効果が得られる。
 無論、戦略選択部202は、分類先候補については考慮せず、分類対象の文書が所定の条件を満たす場合に、当該条件に対応する生成戦略を選択してもよい。この場合、各生成戦略には分類対象の文書についての条件を対応付けておけばよい。これにより、例示的実施形態1に係る文書分類装置1の奏する効果に加えて、分類対象の文書に適合した生成戦略を選択することができるという効果が得られる。
 また、戦略選択部202は、分類対象の文書については考慮せず、分類先候補が所定の条件を満たす場合に、当該条件に対応する生成戦略を選択してもよい。この場合、各生成戦略には分類先候補についての条件を対応付けておけばよい。これにより、例示的実施形態1に係る文書分類装置1の奏する効果に加えて、分類先候補に適合した生成戦略を選択することができるという効果が得られる。
 また、図5に示す生成戦略3には適用条件が対応付けられていない。汎用的な生成戦略については、生成戦略3のように適用条件を設定しないようにしてもよい。例えば、戦略選択部202は、適用条件を満たす生成戦略が存在しない場合に、適用条件が設定されていない生成戦略を選択してもよい。また、例えば、戦略選択部202は、適用条件が設定されていない生成戦略は無条件で選択し、それに加えて適用条件を満たす生成戦略も選択してもよい。
 なお、仮説文の生成方法は上記の例に限定されない。例えば、仮説文生成部203は、単語や文章等の文字列を入力することによりその文字列に関連した文書を出力する文書生成モデルを用いて仮説文を生成してもよい。文書生成モデルとしては、例えばエンコーダデコーダモデル等が適用できる。ここで適用するエンコーダデコーダモデルは、入力されたテキストデータをエンコード(例えばベクトルに変換)し、変換後のデータをデコードする(テキストデータに戻す)ことにより、入力されたテキストデータに関連する仮説文を出力するものである。
 文書生成モデルを適用する場合、分類対象の文書の属性情報(例えばカテゴリや抽出元等)や、分類先候補の属性情報に応じた複数の文書生成モデル(例えば上述のようなエンコーダデコーダモデル)を予め用意しておけばよい。これにより、分類対象の文書や分類先候補に応じた文書生成モデルを適用して、分類対象の文書や分類先候補に応じた文書を生成することができる。この場合、分類対象の文書および分類先候補の少なくとも何れかに応じた文書生成モデルを選択することが生成戦略を選択することに相当する。
 また、トピックなどを条件として入力することができるコンディショナルな(条件付きの)エンコーダデコーダと呼ばれる文書生成モデルを適用してもよい。この場合、分類対象の文書や分類先候補に応じた条件を入力することにより、それらに応じた文書を生成することができる。この場合、分類対象の文書および分類先候補の少なくとも何れかに応じた条件を決定することが生成戦略を選択することに相当する。
 (言語理解モデル)
 言語理解モデル212は、評価の対象となる仮説文と文書の組が入力されたときに、その文書が仮説文を含意する度合いを示す指標値である含意スコアを出力するように構築されたモデルである。言語理解モデル212の生成方法を図6に基づいて説明する。図6は、言語理解モデル212の生成方法を示す図である。
 言語理解モデル212は、文書をその文脈に沿ったベクトルに変換する事前学習言語モデルと、文書を分類する言語タスクモデルとを組み合わせたものであってもよい。この場合、事前学習言語モデルにより分類対象の文書と仮説文のそれぞれをベクトル化し、言語タスクモデルにより、それらのベクトルから分類対象の文書が仮説文を含意する度合いを示す含意スコアを算出する。
 このような言語理解モデル212を生成する場合、図6に示すように、まず、大量のテキストデータ61から事前学習言語モデル62を生成する。事前学習言語モデル62の生成には、自己教師学習の手法を用いることが好ましい。これにより、テキストデータに正解データのラベル付けを行うことなく、文書をその文脈に沿ったベクトルに変換するための学習を行うことができる。例えば、ウェブ上の膨大なテキストデータをそのまま学習に利用することもできる。
 次に、ラベルありの教師データ63を用いて、事前学習言語モデル62により生成されるベクトルを分類するための言語タスクモデル65を生成する。具体的には、教師データ63としては、文書が仮説文を含意するか否かが既知の文書と仮説文の組に対し、その組の文書が仮説文を含意するか否かを示すラベルを付したものを適用すればよい。教師データ63として、例えば、SNLI(Stanford Natural Language Inference)や、XNLI(Cross-lingual Natural Language Inference)等を利用することもできる。
 これにより、入力した文書が入力した仮説文を含意する度合いを例えば1~0の数値で表した出力値を出力する言語理解モデル212を生成することができる。なお、図6に示すように、事前学習言語モデル62をそのまま用いるのではなく、教師データ63を用いて事前学習言語モデル62をチューニングすることにより、言語タスクモデル65への適合性を高めた事前学習言語モデル64を用いてもよい。
 (複数の仮説文が生成された場合の評価)
 戦略選択部202は、複数の生成戦略を選択してもよい。またこの場合、仮説文生成部203は、各生成戦略を用いて複数の仮説文を生成してもよく、分類部204は、生成された各仮説文を用いた評価を行うと共に、それらの評価結果を総合した評価結果を算出してもよい。
 例えば、文書xを分類先候補lに分類することの妥当性を評価する場合に、戦略選択部202が100個の生成戦略を選択し、仮説文生成部203はそれらを用いて100個の仮説文を生成したとする。この場合、分類部204は、文書xと仮説文との組を言語理解モデル212に入力し、各仮説文の含意スコア(計100個)を算出する。そして、分類部204は、それらの含意スコアを総合して文書xを分類先候補lに分類することの妥当性を示す指標値(以下、総合スコアと呼ぶ)を算出する。
 総合スコアの算出方法は、算出された含意スコアの少なくとも一部が反映された総合スコアが算出されるような方法であればよく、特に限定されない。例えば、分類部204は、複数の仮説文のそれぞれについて算出された含意スコアから算出した統計量を総合スコアとして算出してもよい。なお、統計量とは、統計学的なアルゴリズムを適用することにより得た、データの特徴量を要約した数値である。統計量の例としては、例えば、算術平均値、最頻値、中央値、最大値、および最小値等が挙げられる。
 また、分類部204は、上述のような総合スコアを算出することなく、算出した複数の含意スコアを分類結果として出力してもよい。この場合、それらの含意スコアにより、文書分類装置2のユーザに、分類対象の文書の妥当な分類先を認識させることができる。
 (履歴情報に基づく生成戦略の選択方法)
 戦略選択部202は、履歴情報213に基づいて生成戦略を選択してもよい。以下では、履歴情報213に基づく生成戦略の選択について、図7に基づいて説明する。図7は、履歴情報213の例を示す図である。
 履歴情報213は、過去に行われた文書の分類について、当該分類の結果が正しかったか否かを示す情報であり、履歴記録部205によって記録される。従って、履歴情報213に基づく生成戦略の選択方法は、過去に行われた文書の分類の結果に基づくものであり、学習ベースを用いた選択方法であるといえる。
 図7に示す履歴情報213は、生成戦略1~3をそれぞれ適用して行われた文書の分類について、分類された文書とその分類先、およびその分類の正誤を示している。具体的には、図7の履歴情報213には、入力文xと分類先l~lの各組み合わせについて、使用した生成戦略毎の妥当性の評価に対する正誤判定の結果が示されている。
 例えば、入力文xと分類先lの組み合わせについて、生成戦略1に従って仮説文を生成した場合の正誤判定の結果は「正」となっている。このことは、生成戦略1に従って分類先lに関する仮説文を生成することにより、入力文xを分類先lに分類することの妥当性を正しく評価できたこと、つまり妥当な含意スコアが算出されたことを示している。
 一方、入力文xと分類先lの組み合わせについて、生成戦略1に従って仮説文を生成した場合の正誤判定の結果は「誤」となっている。このことは、生成戦略1に従って分類先lに関する仮説文を生成した場合には、入力文xを分類先lに分類することの妥当性を正しく評価できなかったこと、つまり妥当な含意スコアが算出されなかったことを示している。
 履歴記録部205は、分類部204による評価が行われた文書と分類先の組み合わせのそれぞれについて、その評価結果あるいは分類結果の正誤を例えばユーザに入力させることにより、このような履歴情報213を生成することができる。
 このような履歴情報213は、どのような入力文およびどのような分類先のときにどのような生成戦略を選べばよいかを示す指針となるものである。よって、戦略選択部202は、履歴情報213に基づいて、分類対象の文書とその分類先候補の組み合わせについて、その分類の妥当性を正しく評価できると考えられる生成戦略を選択することができる。
 例えば、戦略選択部202は、生成戦略を適用したときに妥当な含意スコアが算出された率(以下、正答率と呼ぶ)に基づいて生成戦略を選択してもよい。例えば、戦略選択部202は、正答率が上位の所定数の生成戦略を選択してもよい。
 また、図7の履歴情報213では、入力文xが議事録文書であることが示されている。このように、履歴記録部205は、入力文xがどのような文書であるかを示す属性情報を履歴情報213に含めてもよい。この場合、戦略選択部202は、分類対象の文書の属性情報と同じ属性情報が対応付けられている入力文の正答率に基づいて生成戦略を選択してもよい。例えば、戦略選択部202は、分類対象の文書が医療関連の文書である場合に、医療関連の入力文の正答率が高い生成戦略を選択してもよい。
 同様に、履歴記録部205は、分類先の属性情報を履歴情報213に含めてもよい。この場合、戦略選択部202は、分類対象の文書の分類先候補と同じ属性情報の分類先についての正答率に基づいて生成戦略を選択することができる。例えば、戦略選択部202は、分類先候補が趣味である場合に、分類先が趣味であるときに正答率が高い生成戦略を選択することができる。
 以上のように、戦略選択部202は、過去に行われた文書の分類について、当該分類の結果が正しかったか否かを示す履歴情報213に基づいて生成戦略を選択してもよい。この構成によれば、例示的実施形態1に係る文書分類装置1の奏する効果に加えて、履歴情報からみて妥当と考えられる生成戦略を選択することができるという効果が得られる。
 (処理の流れ)
 文書分類装置2が実行する処理(文書分類方法)の流れを図8に基づいて説明する。図8は、文書分類装置2が実行する処理の流れを示すフロー図である。
 S21では、データ取得部201が、分類対象の文書と分類先候補の入力を受け付ける。分類対象の文書としては、任意のテキストデータを適用できる。入力される分類先候補は1つであっても複数であってもよく、例えば、データ取得部201は、分類先候補として、複数の分類先ラベルlを含むラベル集合Lの入力を受け付けてもよい。
 S22では、戦略選択部202が、文書の分類先候補に関連する仮説文を生成するための複数の生成戦略の中から、1または複数の生成戦略を選択する。例えば、戦略選択部202は、生成戦略保持部211に記録されている生成戦略の中から1または複数の生成戦略を選択する。
 なお、S21で複数の分類先ラベルlを含むラベル集合Lが入力された場合、戦略選択部202は、分類先ラベルごとにその分類先ラベルに応じた生成戦略を選択してもよい。生成戦略の選択方法は、「生成戦略とその選択法」で説明したようなルールベースを用いた選択方法であってもよいし、「履歴情報に基づく生成戦略の選択方法」で説明したような学習ベースを用いた選択方法であってもよい。
 S23では、仮説文生成部203が、S22で選択された生成戦略に従って、S21で入力を受け付けた分類先候補に関する仮説文を生成する。S22で選択された生成戦略が複数であれば、仮説文生成部203は、各生成戦略に従って複数の仮説文を生成する。例えば、S22において、分類先ラベルlに対応する生成戦略として生成戦略1および3が選択され、分類先ラベルlに対応する生成戦略として生成戦略2および3が選択されたとする。この場合、仮説文生成部203は、1つの分類先ラベルlについて、生成戦略1に従って仮説文を生成すると共に、生成戦略3に従って仮説文を生成する。同様に、仮説文生成部203は、1つの分類先ラベルlについて、生成戦略2に従って仮説文を生成すると共に、生成戦略3に従って仮説文を生成する。
 S24では、分類部204が、S21で入力を受け付けた分類対象の文書の分類先を決定する。例えば、分類部204は、言語理解モデル212に仮説文と分類対象の文書の組を入力することにより含意スコアを算出してもよい。この含意スコアは、分類対象の文書をS21で入力を受け付けた分類先候補に分類することの妥当性を示すものであるから、分類対象の文書の分類先を示しているともいえる。S23で複数の仮説文が生成された場合、S24の処理は生成された複数の仮説文のそれぞれについて行われる。なお、1つの分類先候補について複数の仮説文が生成され、各仮説文について含意スコアが算出された場合、上述の「複数の仮説文が生成された場合の評価」で説明したように、分類部204はそれらの含意スコアから総合スコアを算出してもよい。
 S25では、分類部204は、S24の処理により決定された分類先を出力部23に出力させる。例えば、分類部204は、含意スコアまたは総合スコアが閾値を超える分類先候補を、決定された分類先として出力部23に出力させてもよい。これにより、図8の処理は終了する。
 なお、S25では、分類部204は、分類先候補の含意スコアまたは総合スコアを出力してもよい。この場合、文書分類装置2のユーザは、出力された総合スコアから、分類対象の文章を何れの分類先候補に分類するか、あるいは何れの分類先候補にも分類しないか等を判断することができる。無論、評価結果や分類先は必ずしも出力する必要はなく、分類部204は、算出した評価結果や決定した分類先を例えば記憶部21に記憶して処理を終了してもよい。
 〔変形例〕
 上述の実施形態で説明した各処理の実行主体は任意であり、上述の例に限られない。つまり、相互に通信可能な複数の装置により、文書分類装置2と同様の機能を有する文書分類システムを構築することができる。例えば、図4に示す各ブロックを複数の装置に分散して設けることにより、文書分類装置2と同様の機能を有する文書分類システムを構築することができる。
 〔ソフトウェアによる実現例〕
 文書分類装置2の一部又は全部の機能は、集積回路(ICチップ)等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。後者の場合、文書分類装置2は、例えば、各機能を実現するソフトウェアであるプログラム(文書分類プログラム)の命令を実行するコンピュータによって実現される。このようなコンピュータの一例(以下、コンピュータCと記載する)を図9に示す。コンピュータCは、少なくとも1つのプロセッサC1と、少なくとも1つのメモリC2と、を備えている。メモリC2には、コンピュータCを文書分類装置2として動作させるためのプログラムPが記録されている。コンピュータCにおいて、プロセッサC1は、プログラムPをメモリC2から読み取って実行することにより、文書分類装置2の各機能が実現される。
 プロセッサC1としては、例えば、CPU(Central Processing Unit)、GPU(Graphic Processing Unit)、DSP(Digital Signal Processor)、MPU(Micro Processing Unit)、FPU(Floating point number Processing Unit)、PPU(Physics Processing Unit)、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリC2としては、例えば、フラッシュメモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)、又は、これらの組み合わせなどを用いることができる。
 なお、コンピュータCは、プログラムPを実行時に展開したり、各種データを一時的に記憶したりするためのRAM(Random Access Memory)を更に備えていてもよい。また、コンピュータCは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータCは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。
 また、プログラムPは、コンピュータCが読み取り可能な、一時的でない有形の記録媒体Mに記録することができる。このような記録媒体Mとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータCは、このような記録媒体Mを介してプログラムPを取得することができる。また、プログラムPは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータCは、このような伝送媒体を介してプログラムPを取得することもできる。
 〔付記事項1〕
 本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。
 〔付記事項2〕
 上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。
 (付記1)
 文書の分類先候補に関連する仮説文を生成するための複数の生成戦略の中から、1または複数の生成戦略を選択する戦略選択手段と、前記戦略選択手段が選択する前記生成戦略に従って、前記分類先候補に関連する文である仮説文を生成する仮説文生成手段と、前記文書と前記仮説文の含意関係に基づき、前記文書の分類先を決定する分類手段と、を備える文書分類装置。
 (付記2)
 前記戦略選択手段は、前記文書が所定の条件を満たす場合に、当該条件に対応する前記生成戦略を選択する、付記1に記載の文書分類装置。
 (付記3)
 前記戦略選択手段は、前記分類先候補が所定の条件を満たす場合に、当該条件に対応する前記生成戦略を選択する、付記1または2に記載の文書分類装置。
 (付記4)
 前記戦略選択手段は、前記文書と前記分類先候補の少なくとも何れかが所定の条件を満たす場合に、当該条件に対応する前記生成戦略を選択する、付記1に記載の文書分類装置。
 (付記5)
 前記戦略選択手段は、過去に行われた文書の分類について、当該分類の結果が正しかったか否かを示す履歴情報に基づいて前記生成戦略を選択する、付記1に記載の文書分類装置。
 (付記6)
 少なくとも1つのプロセッサが、文書の分類先候補に関連する仮説文を生成するための複数の生成戦略の中から、1または複数の生成戦略を選択することと、前記選択した生成戦略に従って、前記分類先候補に関連する文である仮説文を生成することと、前記文書と前記仮説文の含意関係に基づき、前記文書の分類先を決定することと、を含む文書分類方法。
 (付記7)
 コンピュータを、文書の分類先候補に関連する仮説文を生成するための複数の生成戦略の中から、1または複数の生成戦略を選択する戦略選択手段、前記戦略選択手段が選択する前記生成戦略に従って、前記分類先候補に関連する文である仮説文を生成する仮説文生成手段、および、前記文書と前記仮説文の含意関係に基づき、前記文書の分類先を決定する分類手段、として機能させる文書分類プログラム。
 〔付記事項3〕
 上述した実施形態の一部又は全部は、更に、以下のように表現することもできる。少なくとも1つのプロセッサを備え、前記プロセッサは、文書の分類先候補に関連する仮説文を生成するための複数の生成戦略の中から、1または複数の生成戦略を選択する戦略選択処理と、前記戦略選択処理において選択する前記生成戦略に従って、前記分類先候補に関連する文である仮説文を生成する仮説文生成処理と、前記文書と前記仮説文の含意関係に基づき、前記文書の分類先を決定する分類処理と、を実行する文書分類装置。
 なお、この文書分類装置は、更にメモリを備えていてもよく、このメモリには、前記戦略選択処理と、前記仮説文生成処理と、前記分類処理とを前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。
1、2 文書分類装置
11、202 戦略選択部
12、203 仮説文生成部
13、204 分類部

Claims (7)

  1.  文書の分類先候補に関連する仮説文を生成するための複数の生成戦略の中から、1または複数の生成戦略を選択する戦略選択手段と、
     前記戦略選択手段が選択する前記生成戦略に従って、前記分類先候補に関連する文である仮説文を生成する仮説文生成手段と、
     前記文書と前記仮説文の含意関係に基づき、前記文書の分類先を決定する分類手段と、を備える文書分類装置。
  2.  前記戦略選択手段は、前記文書が所定の条件を満たす場合に、当該条件に対応する前記生成戦略を選択する、請求項1に記載の文書分類装置。
  3.  前記戦略選択手段は、前記分類先候補が所定の条件を満たす場合に、当該条件に対応する前記生成戦略を選択する、請求項1または2に記載の文書分類装置。
  4.  前記戦略選択手段は、前記文書と前記分類先候補の少なくとも何れかが所定の条件を満たす場合に、当該条件に対応する前記生成戦略を選択する、請求項1に記載の文書分類装置。
  5.  前記戦略選択手段は、過去に行われた文書の分類について、当該分類の結果が正しかったか否かを示す履歴情報に基づいて前記生成戦略を選択する、請求項1に記載の文書分類装置。
  6.  少なくとも1つのプロセッサが、
     文書の分類先候補に関連する仮説文を生成するための複数の生成戦略の中から、1または複数の生成戦略を選択することと、
     前記選択した生成戦略に従って、前記分類先候補に関連する文である仮説文を生成することと、
     前記文書と前記仮説文の含意関係に基づき、前記文書の分類先を決定することと、を含む文書分類方法。
  7.  コンピュータを、
     文書の分類先候補に関連する仮説文を生成するための複数の生成戦略の中から、1または複数の生成戦略を選択する戦略選択手段、
     前記戦略選択手段が選択する前記生成戦略に従って、前記分類先候補に関連する文である仮説文を生成する仮説文生成手段、および
     前記文書と前記仮説文の含意関係に基づき、前記文書の分類先を決定する分類手段、として機能させる文書分類プログラム。

     
PCT/JP2022/002597 2022-01-25 2022-01-25 文書分類装置、文書分類方法、および文書分類プログラム WO2023144872A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/002597 WO2023144872A1 (ja) 2022-01-25 2022-01-25 文書分類装置、文書分類方法、および文書分類プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/002597 WO2023144872A1 (ja) 2022-01-25 2022-01-25 文書分類装置、文書分類方法、および文書分類プログラム

Publications (1)

Publication Number Publication Date
WO2023144872A1 true WO2023144872A1 (ja) 2023-08-03

Family

ID=87471174

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/002597 WO2023144872A1 (ja) 2022-01-25 2022-01-25 文書分類装置、文書分類方法、および文書分類プログラム

Country Status (1)

Country Link
WO (1) WO2023144872A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013058118A1 (ja) * 2011-10-20 2013-04-25 日本電気株式会社 テキスト含意判定装置、テキスト含意判定方法、及びコンピュータ読み取り可能な記録媒体
WO2014133127A1 (ja) * 2013-02-28 2014-09-04 日本電気株式会社 含意判定装置、含意判定方法及びプログラム
US20210110277A1 (en) * 2019-10-15 2021-04-15 Accenture Global Solutions Limited Textual entailment
WO2021240707A1 (ja) * 2020-05-28 2021-12-02 日本電気株式会社 データ分類システム、データ分類方法および記録媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013058118A1 (ja) * 2011-10-20 2013-04-25 日本電気株式会社 テキスト含意判定装置、テキスト含意判定方法、及びコンピュータ読み取り可能な記録媒体
WO2014133127A1 (ja) * 2013-02-28 2014-09-04 日本電気株式会社 含意判定装置、含意判定方法及びプログラム
US20210110277A1 (en) * 2019-10-15 2021-04-15 Accenture Global Solutions Limited Textual entailment
WO2021240707A1 (ja) * 2020-05-28 2021-12-02 日本電気株式会社 データ分類システム、データ分類方法および記録媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KASTHURIARACHCHY BUDDHIKA; CHETTY MADHU; SHATTE ADRIAN; WALLS DARREN: "Cost Effective Annotation Framework Using Zero-Shot Text Classification", 2021 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN), IEEE, 18 July 2021 (2021-07-18), pages 1 - 8, XP033974330, DOI: 10.1109/IJCNN52387.2021.9534335 *

Similar Documents

Publication Publication Date Title
US11676067B2 (en) System and method for creating data to train a conversational bot
US10827024B1 (en) Realtime bandwidth-based communication for assistant systems
CN114503115A (zh) 生成丰富的动作项目
US20180157959A1 (en) Intelligent interaction method and intelligent interaction system
CN109857846B (zh) 用户问句与知识点的匹配方法和装置
JP6224857B1 (ja) 分類装置、分類方法および分類プログラム
WO2022048194A1 (zh) 事件主体识别模型优化方法、装置、设备及可读存储介质
CN109948160B (zh) 短文本分类方法及装置
CN111783873B (zh) 基于增量朴素贝叶斯模型的用户画像方法及装置
US11132994B1 (en) Multi-domain dialog state tracking
US20230088445A1 (en) Conversational recommendation method, method of training model, device and medium
JP6370962B1 (ja) 生成装置、生成方法および生成プログラム
CA3123387C (en) Method and system for generating an intent classifier
US20230214579A1 (en) Intelligent character correction and search in documents
WO2020139865A1 (en) Systems and methods for improved automated conversations
KR20200041199A (ko) 챗봇 구동 방법, 장치 및 컴퓨터 판독가능 매체
CN111368066B (zh) 获取对话摘要的方法、装置和计算机可读存储介质
US11875128B2 (en) Method and system for generating an intent classifier
WO2021159803A1 (zh) 文本摘要生成方法、装置、计算机设备及可读存储介质
CN109726288A (zh) 基于人工智能处理的文本分类方法和装置
CN110909174B (zh) 一种基于知识图谱的简单问答中实体链接的改进方法
US10902221B1 (en) Social hash for language models
WO2023144872A1 (ja) 文書分類装置、文書分類方法、および文書分類プログラム
US20230315999A1 (en) Systems and methods for intent discovery
JP6839001B2 (ja) モデル学習装置、情報判定装置およびそれらのプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22923741

Country of ref document: EP

Kind code of ref document: A1