WO2023017568A1 - 学習装置、推定装置、学習方法、およびプログラム - Google Patents

学習装置、推定装置、学習方法、およびプログラム Download PDF

Info

Publication number
WO2023017568A1
WO2023017568A1 PCT/JP2021/029544 JP2021029544W WO2023017568A1 WO 2023017568 A1 WO2023017568 A1 WO 2023017568A1 JP 2021029544 W JP2021029544 W JP 2021029544W WO 2023017568 A1 WO2023017568 A1 WO 2023017568A1
Authority
WO
WIPO (PCT)
Prior art keywords
model
loss
label
learning
student model
Prior art date
Application number
PCT/JP2021/029544
Other languages
English (en)
French (fr)
Inventor
翔太 折橋
亮 増村
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2023541156A priority Critical patent/JPWO2023017568A1/ja
Priority to PCT/JP2021/029544 priority patent/WO2023017568A1/ja
Publication of WO2023017568A1 publication Critical patent/WO2023017568A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • the present invention relates to an utterance sequence labeling technology that takes a text sequence as input and outputs a label corresponding to the text sequence.
  • utterance sequence labeling techniques have been proposed that use an utterance sequence as an input and estimate a label corresponding to the response scene of the conversation or discourse for each utterance.
  • Non-Patent Document 1 an utterance for estimating the label of one of the response scenes of opening, understanding of business, identity verification, response, and closing for each utterance, using text of speech recognition results of operators and customers in a contact center as input.
  • a configuration of a deep neural network model (hereinafter also referred to as a “labeling model”) for realizing sequence labeling is provided.
  • the labeling model is configured as shown in the schematic diagram of FIG. (hereinafter also referred to as “long-term context understanding network”), and input the obtained intermediate features to a network that predicts labels (hereinafter also referred to as “label prediction network”) to respond Estimate scene labels.
  • Non-Patent Document 1 In order to achieve utterance sequence labeling with high classification accuracy in a labeling model such as Non-Patent Document 1, it is necessary to increase the number of learnable parameters for both the short-term context understanding network and the long-term context understanding network. Inference using such labeling models requires an abundant computing environment, but it is difficult to prepare an abundant computing environment, especially in a mobile environment or an environment where multiple inferences are executed in parallel. is.
  • the model with many learnable parameters and high classification accuracy hereinafter also referred to as the "teacher model”
  • a lightweight model with few learnable parameters hereinafter also referred to as the "student model”
  • Non-Patent Document 2 As schematically shown in FIG.
  • a loss for bringing the probability distribution output by the student model closer to the probability distribution output by the teacher model (hereinafter also referred to as "soft target loss”) is used.
  • soft target loss a loss for bringing the probability distribution output by the student model closer to the probability distribution output by the teacher model
  • Non-Patent Document 2 applies the knowledge distillation technology to a simple classification problem
  • the method of Non-Patent Document 1 applies the knowledge distillation technology to a complex classification problem considering a complex context. composition is not considered.
  • An object of the present invention is to provide a learning device, an estimation method, a learning method, and a program that apply knowledge distillation technology to a complex classification problem that considers complex contexts.
  • a learning device includes a model hierarchically including Q functions that perform processing in predetermined units, where Q is an integer equal to or greater than 2.
  • Q is an integer equal to or greater than 2.
  • Hard target loss is calculated using the student model label estimator that estimates labels for the texts included in the training data set, the correct labels for the texts included in the training data set, and the estimation results of the student model label estimator.
  • a hard target loss evaluator a soft target loss evaluator that obtains the soft target loss using the estimation result of the teacher model label estimator and the estimation result of the student model label estimator, and a soft target loss from the hard target loss and the soft target loss.
  • a parameter updater for updating the parameters of the student model to optimize the resulting loss.
  • FIG. 4 is a diagram for explaining an outline of processing of a learning device; The functional block diagram of an estimation apparatus. The figure which shows the example of the processing flow of an estimation apparatus. A diagram for explaining four losses. A diagram for explaining four losses. The figure which shows the result of a verification experiment. The figure which shows the structural example of the computer which applies this method.
  • ⁇ Points of the first embodiment> The point of this embodiment is that the knowledge distillation technique is applied to the utterance sequence labeling problem.
  • many knowledge distillation techniques have been studied for the purpose of reducing the weight of machine translation models and BERT (Bidirectional Encoder Representations from Transformers) models.
  • the teacher model is configured to perform multi-stage processing, and the student model also performs knowledge distillation while maintaining the configuration of multi-stage processing.
  • by reducing the weight of the model by knowledge distillation it is possible to realize labeling with high classification accuracy even in situations where it is difficult to prepare an abundant computing environment.
  • a neural network for utterance sequence labeling which inputs a utterance text sequence in a contact center and outputs a label corresponding to a reception scene, such as Non-Patent Document 1.
  • a neural network for utterance sequence labeling which inputs a utterance text sequence in a contact center and outputs a label corresponding to a reception scene.
  • this embodiment is not limited to the utterance text sequence of the contact center or the utterance sequence labeling of the reception scene. In other words, it can be applied to any sequence labeling problem that requires consideration of context. Given a sequence of text, it can be applied to the problem of assigning labels to sentences or specific units. For example, it can be applied to the following neural networks.
  • the input layer accepts text (or equivalent information, such as its vector representation).
  • the intermediate layer is doing multi-stage processing or using something that is said to handle context, such as a transformer encoder (see reference 1).
  • this embodiment is not limited to situations where the student model has fewer learnable parameters than the teacher model, and the student model has more learnable parameters than the teacher model. , or an equal situation.
  • the configuration that can solve the problem of the prior art that the number of parameters is large or equal (the size is equivalent) and that "ample computing environment is required" is that "there are multiple teacher models, A case where one student model is learned from them" and the like are assumed.
  • FIG. 3 is a diagram showing a configuration example of an estimation system according to the first embodiment.
  • the estimation system includes a learning device 100 and an estimation device 200.
  • the utterance text x n,t means the t-th utterance data contained in the call data n
  • the subscript A_B means A B
  • the estimation device 200 receives a pre-learned student model SM, inputs speech data X test containing one or more text sequences to be estimated, estimates the corresponding label sequence, and outputs the estimated label sequence P test . do.
  • the learning device 100 and the estimating device 200 are configured by reading a special program into a known or dedicated computer having, for example, a central processing unit (CPU: Central Processing Unit), a main memory (RAM: Random Access Memory), etc. It is a special device designed Learning device 100 and estimating device 200 execute each process under the control of a central processing unit, for example.
  • the data input to the learning device 100 and the estimation device 200 and the data obtained in each process are stored, for example, in a main storage device, and the data stored in the main storage device are read into the central processing unit as needed. output and used for other processing.
  • At least a part of each processing unit of learning device 100 and estimation device 200 may be configured by hardware such as an integrated circuit.
  • Each storage unit included in the learning device 100 and the estimating device 200 can be configured by, for example, a main storage device such as RAM (Random Access Memory), or middleware such as a relational database or key-value store.
  • a main storage device such as RAM (Random Access Memory), or middleware such as a relational database or key-value store.
  • middleware such as a relational database or key-value store.
  • each storage unit does not necessarily have to be provided inside the learning device 100 and the estimation device 200, and may be configured by an auxiliary storage device configured by a semiconductor memory device such as a hard disk, an optical disk, or a flash memory. , may be provided outside the learning device 100 and the estimation device 200 .
  • the number of parameters that can be learned is the number of layers and the number of intermediate output dimensions when the short-term context understanding network or long-term context understanding network is configured by LSTM (long-short term memory) or fully connected neural network etc.
  • the number of learnable parameters is, for example, when a short-term context understanding network and a long-term context understanding network are configured with Transformer encoder blocks, the number of blocks, the number of intermediate output dimensions in the fully connected neural network of each block, and the number of multi-head attention. It is defined by the number of heads, the number of output dimensions, and the like.
  • the number of learnable parameters is defined by the number of layers, the number of intermediate output dimensions, etc. when the label prediction network is composed of a fully-connected neural network.
  • the teacher model and the student model share a “hierarchical structure” consisting of a short-term context understanding network, a long-term context understanding network, and a label prediction network as shown in Fig. 1, but each network has a different number of parameters. It is assumed that the model sizes are different.
  • the "hierarchical structure” used here does not mean a simple neural network, but means a structure including a plurality of functions for performing processing in predetermined units. A function that performs processing in a predetermined unit has an intention in the unit of processing. performs sentence-by-sentence processing with the intention of understanding the short-term context within a sentence.
  • the student model is learned using the loss defined by combining the two losses schematically shown in FIG.
  • the teacher model is not a learning target, and the parameters are fixed.
  • the hard target loss is the loss for bringing the probability distribution output by the student model closer to the probability distribution of the correct label.
  • the soft target loss is the loss for bringing the probability distribution output by the student model closer to the probability distribution output by the teacher model.
  • the hard target loss and the soft target loss may be learned by error backpropagation using the learning data set so as to optimize a loss function that is linearly combined, for example, at a constant ratio.
  • FIG. 5 is a functional block diagram of the learning device 100 according to the first embodiment, and FIG. 6 shows its processing flow.
  • FIG. 7 is a diagram for explaining an outline of processing of the learning device 100. As shown in FIG.
  • the learning device 100 includes a teacher model label estimator 110, a student model label estimator 120, a hard target loss evaluator 130, a soft target loss evaluator 140, and a parameter updater 150.
  • the teacher model label estimation unit 110 receives the teacher model TM in advance.
  • the teacher model TM is a hierarchical model based on neural networks, and includes a short-term context understanding network, a long-term context understanding network, and a label prediction network in this embodiment.
  • the teacher model label estimation unit 110 uses the short-term context understanding network to obtain the intermediate feature values ⁇ s n,t ( ⁇ L) for the utterance text xn ,t included in the utterance text sequence Xn (S110A).
  • ⁇ L indicates the number of layers in the short-term contextual understanding network of the teacher model.
  • the short-term context understanding network is a neural network that understands the short-term context of each word, and captures the content of the utterance within the sentence.
  • Intermediate features ⁇ s n,t ( ⁇ L) include features for understanding the short-term context of word units.
  • the teacher model label estimation unit 110 acquires the intermediate feature quantity ⁇ u n,t ( ⁇ M) for the intermediate feature quantity ⁇ s n,t ( ⁇ L) using the long-term context understanding network (S110B).
  • ⁇ M indicates the number of layers of the long-term contextual understanding network of the teacher model.
  • the long-term context understanding network is a neural network that understands the long-term context of sentence units, and follows the flow of topics by capturing the chronological nature of utterances.
  • Intermediate features ⁇ u n,t ( ⁇ M) include features for understanding the long-term context of sentence units.
  • the teacher model label estimating unit 110 predicts labels for the intermediate feature values ⁇ u n,t ( ⁇ M) using a label prediction network (S110C), and outputs a prediction probability distribution ⁇ z n,t .
  • a label prediction network is a neural network that predicts labels.
  • the output layer of the label prediction network includes a softmax function with temperature
  • the teacher model label estimator 110 outputs the probability distribution ⁇ z n,t that is the output of the softmax function with temperature. Note that ⁇ v t in FIG. 7 is the output of the fully connected layer immediately before the output layer of the label prediction network.
  • the student model label estimation unit 120 initializes the student model SM in advance.
  • An existing technique can be used as a method for initializing the neural network.
  • the student model SM like the teacher model TM, is a hierarchical model based on neural networks, and in this embodiment includes a short-term contextual understanding network, a long-term contextual understanding network, and a label prediction network.
  • the student model label estimation unit 120 uses the short-term contextual understanding network to acquire the intermediate feature amount s n,t (L) for the utterance text x n,t included in the utterance text sequence X n (S120A).
  • L indicates the number of layers in the short-term contextual comprehension network of the student model. For example, let L ⁇ L.
  • the student model label estimation unit 120 acquires intermediate feature quantities u n,t ( M ) for the intermediate feature quantities sn,t (L) using the long-term contextual understanding network (S120B).
  • M indicates the number of layers in the long-term contextual comprehension network of the student model. For example, M ⁇ M.
  • the student model label estimation unit 120 predicts the label for the intermediate feature amount u n,t (M) using the label prediction network (S120C), and outputs the prediction probability distributions p n,t and z n,t. do.
  • the output layer of the label prediction network of the student model label estimation unit 120 includes a softmax function and a softmax function with temperature . Output the probability distribution z n,t that is the output of the softmax function with temperature. Note that v t in FIG. 7 is the output of the fully connected layer immediately before the output layer of the label prediction network.
  • the distance between the probability distribution obtained from the correct label and the predicted probability distribution may be evaluated using an arbitrary loss function such as cross-entropy loss.
  • the hard target loss LHT is obtained by the following equation.
  • Y is the set of possible labels
  • y is the label included in the set of labels
  • - p n,t,y is the probability obtained from the correct label - p n,t , and for call data n
  • It is the probability that the label of the included t-th utterance text x n,t is y. That is, the probability -p n,t,y corresponding to the label that matches the correct label is 100%, and the probability -p n,t,y corresponding to the other labels is 0%.
  • p n,t,y is the probability included in the prediction probability distribution p n,t , and is the probability that the label of the t-th utterance text x n,t included in the call data n is y.
  • the distance between two probability distributions may be evaluated using any loss function such as cross-entropy loss or mean squared error.
  • the soft target loss L ST is obtained by the following equation. Note that ⁇ is a parameter of the softmax function with temperature.
  • the parameter updating unit 150 receives the hard target loss L HT and the soft target loss L ST and updates the parameters of the student model so as to optimize the loss L obtained from the hard target loss L HT and the soft target loss L ST ( S150).
  • the loss function L obtained by linearly combining the hard target loss LHT and the soft target loss LST at a constant ratio is obtained by the following equation.
  • L LHT + ⁇ LST
  • is a parameter that indicates the ratio of the combined hard target loss and soft target loss.
  • the parameter updating unit 150 updates the parameters of the student model so that the loss function L is optimized.
  • the learning device 100 may learn using the learning data set D by error backpropagation or the like.
  • a learning schedule may be defined in advance, and the ratio ⁇ may be learned while being changed according to the number of learning steps. For example, learning may be performed using only the soft target loss LST at the beginning of learning, and learning may be performed so as to gradually give the hard target loss LHT .
  • the parameter update unit 150 outputs updated parameters to the student model label estimation unit 120 and repeats S120, S130, S140, and S150 until a predetermined condition is satisfied (NO in S150-2).
  • the predetermined condition is, for example, that the number of iterations exceeds a predetermined number, or that the difference between the parameters before and after updating is equal to or less than a predetermined threshold. It is a condition for making a judgment.
  • FIG. 8 is a functional block diagram of the estimation device 200 according to the first embodiment, and FIG. 9 shows its processing flow.
  • the estimating device 200 includes an estimating section 210 .
  • the estimation unit 210 receives the pre-learned student model SM.
  • the estimation unit 210 receives call data X test including one or more text sequences to be estimated, and uses the student model SM to sequentially estimate labels corresponding to each utterance text of the call data X test (S210). , outputs the estimated label sequence P test .
  • speech text is processed, but it is not necessarily limited to text based on speech.
  • it can be applied to text sequences including exchanges of text without speech used in chats, e-mails, various SNSs, and the like.
  • the points of this embodiment are the following two points.
  • the student model's long-term contextual understanding network learns to mimic the teacher's model's long-term contextual understanding network.
  • the short-term contextual understanding network of the student model learns to imitate the short-term contextual understanding network of the teacher model.
  • the intermediate features of the long-term context output by the long-term context understanding network of the student model are learned to approach the intermediate features of the long-term context output by the long-term context understanding network of the teacher model.
  • the student model's long-term contextual understanding network can learn to imitate the teacher model's long-term contextual understanding network. can be imitated, leading to improvement in the classification accuracy of the student model.
  • the intermediate features of the short-term context output by the short-term context understanding network of the student model are learned to approach the intermediate features of the short-term context output by the short-term context understanding network of the teacher model.
  • the short-term contextual understanding network of the student model can learn to imitate the short-term contextual understanding network of the teacher model. lead to improvement.
  • the knowledge acquired in the teacher model is obtained by introducing the knowledge distillation technique as realized by Non-Patent Document 2 into the labeling model for the utterance sequence labeling problem presented in Non-Patent Document 1. can be used to efficiently learn lightweight student models.
  • Non-Patent Document 2 is applied to a simple classification problem, and it may not be possible to efficiently distill knowledge of intermediate features.
  • a student model with high classification accuracy is learned by efficiently distilling the knowledge of intermediate features from the teacher model for the utterance sequence labeling problem that takes into account complex contexts.
  • Non-Patent Document 2 in order to introduce knowledge distillation such as Non-Patent Document 2 into a labeling network for utterance sequence labeling considering complex contexts, intermediate features of long-term context and short-term context output by student models are introduced. Learning the intermediate features to mimic those of the teacher model effectively distills the knowledge of the intermediate features from the teacher model.
  • FIG. 3 is a diagram showing a configuration example of an estimation system according to the second embodiment.
  • the estimation system includes a learning device 300 and an estimation device 200.
  • the second embodiment differs from the first embodiment in the content of the learning process.
  • Long-term context loss is a loss function for learning so that the intermediate features of the long-term context output by the long-term context understanding network of the student model imitate the intermediate features of the long-term context output by the long-term context understanding network of the teacher model. .
  • the number of output dimensions of the long-term context understanding network differs between the student model and the teacher model, for example, as schematically shown in FIG. A fully-connected layer is branched, and the student model and the dimensionality A fully connected layer for aligning may be learned.
  • Short-term context loss is a loss function for learning so that the intermediate features of the short-term context output by the short-term context understanding network of the student model imitate the intermediate features of the short-term context output by the short-term context understanding network of the teacher model. .
  • the number of output dimensions of the short-term context understanding network differs between the student model and the teacher model, for example, as schematically shown in FIG. A fully connected layer is branched, and the student model and the A fully connected layer for aligning may be learned.
  • a training data set is used to optimize a loss function that linearly combines hard target loss, soft target loss, long-term context loss, and short-term context loss, for example, at a constant ratio. Learning may be performed by error backpropagation or the like.
  • FIG. 5 is a functional block diagram of the learning device 300 according to the second embodiment, and FIG. 6 shows its processing flow.
  • FIG. 7 is a diagram for explaining an outline of processing by the learning device 300. As shown in FIG.
  • the learning device 300 includes a teacher model label estimator 110, a student model label estimator 120, a hard target loss evaluator 130, a soft target loss evaluator 140, a short-term context loss evaluator 360, a long-term context loss evaluator 370, and a parameter updater. Including 350.
  • the distance between two intermediate features may be evaluated using any loss function such as mean squared error.
  • the short-term context loss LUC is obtained by the following equation.
  • the intermediate feature amount may be the intermediate feature amount of any one of the layers constituting the short-term context understanding network, and does not necessarily have to be the output of the short-term context understanding network.
  • the distance between two intermediate features may be evaluated using any loss function such as mean squared error.
  • the long-term context loss LDC is obtained by the following equation.
  • the intermediate feature amount may be the intermediate feature amount of any one of the layers constituting the long-term context understanding network, and does not necessarily have to be the output of the long-term context understanding network.
  • the parameter updating unit 350 receives the hard target loss LHT , the soft target loss LST , the short -term context loss LUC , and the long- term context loss LDC .
  • a loss function L is obtained by linearly combining the loss L UC and the long-term context loss L DC at a constant ratio.
  • the parameter updating unit 350 updates the parameters of the student model so as to optimize the loss function L (S350).
  • the learning device 300 may learn using the learning data set D by error backpropagation or the like.
  • the ratios ⁇ , ⁇ , and ⁇ may be learned while changing according to the number of steps of learning based on a predefined learning schedule. For example, learning may be performed using only short-term context loss at the beginning of learning, and learning may be performed by gradually giving long-term context loss, soft target loss, and hard target loss in this order.
  • the parameter updating unit 350 outputs updated parameters to the student model label estimating unit 120 and repeats S120-S140, S360, S370, and S350 until a predetermined condition is satisfied (NO in S150-2).
  • the student model can more precisely imitate the teacher model, which has a high ability to capture short-term and long-term context features, in the utterance sequence labeling problem that takes into account complex contexts.
  • the knowledge acquired by the teacher model can be efficiently distilled by the student model, so that the labeling accuracy of the student model can be improved.
  • "Characteristics of short-term context” expresses one sentence with one vector, and by learning the information so that the teacher model and the student model are close to each other, it is possible to imitate the expression method of the characteristics of the sentence as it is. can.
  • the "features of long-term context” expresses the flow of topics with a single vector, and by learning such information so that the teacher model and the student model are similar, the method of expressing the flow of topics is imitated as it is. can do.
  • Verification experiments were conducted for a task of utterance sequence labeling, in which the input is a utterance text sequence in a contact center and the label corresponding to the reception scene is output.
  • the training data set had 327 calls and the test data set had 37 calls.
  • Classification targets were five labels: opening, understanding of business, identity verification, response, and closing.
  • the number of parameters for the teacher model is 13.11M, and the number of parameters for the student model is 3.65M. , and compared the classification accuracy of each response scene.
  • ⁇ Modification> when the networks are layered such as the long-term context understanding network and the short-term context understanding network, intermediate features of each layer may be compared.
  • Q or more outputs from any of the layers (blocks) that make up the layers (blocks) are compared and Q or more are compared. , combine Q or more losses to get the final loss, and update the student model parameters to optimize the final loss.
  • the Q+1th or more comparison targets may be of any block. In other words, if the number of losses to be calculated exceeds Q, then two or more comparisons (intermediate features) may be extracted from one block, and a total of Q+1 or more comparisons may be extracted from Q blocks. .
  • only one of the short-term context loss evaluation unit 360 and the long-term context loss evaluation unit 370 may be provided. , compare one or more outputs of any layer that constitutes a hierarchy (block), calculate one or more losses, combine one or more losses to obtain the final loss, and finally The student model parameters may be updated to optimize the loss.
  • the present invention is not limited to the above embodiments and modifications.
  • the various types of processing described above may not only be executed in chronological order according to the description, but may also be executed in parallel or individually according to the processing capacity of the device that executes the processing or as necessary.
  • appropriate modifications are possible without departing from the gist of the present invention.
  • a program that describes this process can be recorded on a computer-readable recording medium.
  • Any computer-readable recording medium may be used, for example, a magnetic recording device, an optical disk, a magneto-optical recording medium, a semiconductor memory, or the like.
  • this program is carried out, for example, by selling, assigning, lending, etc. portable recording media such as DVDs and CD-ROMs on which the program is recorded.
  • the program may be distributed by storing the program in the storage device of the server computer and transferring the program from the server computer to other computers via the network.
  • a computer that executes such a program for example, first stores the program recorded on a portable recording medium or the program transferred from the server computer once in its own storage device. Then, when executing the process, this computer reads the program stored in its own recording medium and executes the process according to the read program. Also, as another execution form of this program, the computer may read the program directly from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to this computer. Each time, the processing according to the received program may be executed sequentially. In addition, the above-mentioned processing is executed by a so-called ASP (Application Service Provider) type service, which does not transfer the program from the server computer to this computer, and realizes the processing function only by its execution instruction and result acquisition. may be It should be noted that the program in this embodiment includes information that is used for processing by a computer and that conforms to the program (data that is not a direct instruction to the computer but has the property of prescribing the processing of the computer, etc.).
  • ASP
  • the device is configured by executing a predetermined program on a computer, but at least part of these processing contents may be implemented by hardware.
  • processors other than the CPU may execute the program that the CPU reads and executes the software (program) in the above embodiment.
  • Processors in this case include GPUs (Graphics Processing Units), FPGAs (Field-Programmable Gate Arrays), PLDs (Programmable Logic Devices) whose circuit configuration can be changed after manufacturing, and specific circuits such as ASICs (Application Specific Integrated Circuits).
  • a dedicated electric circuit or the like, which is a processor having a circuit configuration exclusively designed for executing the processing of is exemplified.
  • the program may be executed on one of these various processors, or on a combination of two or more processors of the same or different type (eg, multiple FPGAs, CPU and FPGA combinations, etc.) can be run with More specifically, the hardware structure of these various processors is an electric circuit in which circuit elements such as semiconductor elements are combined.
  • the program is pre-stored (installed) in the storage, but it is not limited to this.
  • Programs are stored in non-transitory storage media such as CD-ROM (Compact Disk Read Only Memory), DVD-ROM (Digital Versatile Disk Read Only Memory), and USB (Universal Serial Bus) memory.
  • CD-ROM Compact Disk Read Only Memory
  • DVD-ROM Digital Versatile Disk Read Only Memory
  • USB Universal Serial Bus
  • the program may be downloaded from an external device via a network.
  • (Appendix 1) memory at least one processor connected to the memory; including The processor A teacher who estimates the label for the text contained in the training data set using a teacher model, which is a model that hierarchically includes Q functions that perform processing in a predetermined unit, where Q is an integer greater than or equal to 2.
  • a teacher model which is a model that hierarchically includes Q functions that perform processing in a predetermined unit, where Q is an integer greater than or equal to 2.
  • Execute the model label estimation process Using a student model, which is a model hierarchically including the same Q functions as the teacher model, to perform a student model label estimation process for estimating labels for texts included in the learning data set, Obtaining a hard target loss using the correct label for the text included in the learning data set and the estimation result of the student model label estimation process, Obtaining a soft target loss using the estimation result of the teacher model label estimation process and the estimation result of the student model label estimation process, updating the parameters of the student model to optimize the loss resulting from the hard target loss and the soft target loss; learning device.
  • a student model which is a model hierarchically including the same Q functions as the teacher model
  • (Appendix 2) A non-transitory storage medium storing a program executable by a computer to perform a learning process,
  • the learning process includes A teacher who estimates the label for the text contained in the training data set using a teacher model, which is a model that hierarchically includes Q functions that perform processing in a predetermined unit, where Q is an integer greater than or equal to 2.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Machine Translation (AREA)

Abstract

複雑なコンテキストを考慮した複雑な分類問題に対して知識蒸留技術を適用する学習装置等を提供する。学習装置は、所定の単位で処理を行うQ個の機能を階層的に含むモデルである教師モデルを用いて、学習用データセットに含まれるテキストに対するラベルを推定し、教師モデルと同じQ個の機能を階層的に含むモデルである生徒モデルを用いて、学習用データセットに含まれるテキストに対するラベルを推定し、学習用データセットに含まれるテキストに対する正解ラベルと、生徒モデルラベル推定処理の推定結果とを用いて、ハードターゲット損失を求め、教師モデルラベル推定処理の推定結果と生徒モデルラベル推定処理の推定結果とを用いて、ソフトターゲット損失を求め、ハードターゲット損失とソフトターゲット損失から得られる損失を最適化するように生徒モデルのパラメータを更新する。

Description

学習装置、推定装置、学習方法、およびプログラム
 本発明は、テキスト系列を入力とし、テキスト系列に対応するラベルを出力する発話系列ラベリング技術に関する。
 近年、会話や談話の理解を目的に、発話系列を入力として、発話毎に会話や談話の応対シーンに相当するラベルを推定する、発話系列ラベリングの技術が提案されている。
 例えば非特許文献1では、コンタクトセンタにおけるオペレータとカスタマの音声認識結果のテキストを入力として、発話毎にオープニング、用件把握、本人確認、対応、クロージングのいずれかの応対シーンのラベルを推定する発話系列ラベリングを実現するための深層ニューラルネットワークによるモデル(以下、「ラベリングモデル」ともいう)の構成を提供する。非特許文献1によれば、ラベリングモデルは図1の模式図のように構成され、単語単位の短期文脈を理解するネットワーク(以下、「短期文脈理解ネットワーク」ともいう)と、文単位の長期文脈を理解するネットワーク(以下、「長期文脈理解ネットワーク」ともいう)を積層し、得られる中間的な特徴を、ラベルを予測するネットワーク(以下、「ラベル予測ネットワーク」ともいう)に入力して、応対シーンのラベルを推定する。
 非特許文献1のようなラベリングモデルにおいて高い分類精度の発話系列ラベリングを実現するためには、短期文脈理解ネットワークと長期文脈理解ネットワークのそれぞれについて、学習可能なパラメータ数を多くする必要がある。そのようなラベリングモデルを用いた推論には、潤沢な計算環境が要求されるが、特にモバイル環境や、複数の推論を同時並列で実行する環境などでは、計算環境を潤沢に用意することは困難である。ここで、学習可能なパラメータが多く分類精度が高いモデル(以下、「教師モデル」ともいう)に獲得された知識を用いて、学習可能なパラメータが少なく軽量なモデル(以下、「生徒モデル」ともいう)を効率的に学習する、知識蒸留技術が提案されている。
 例えば、非特許文献2によれば、図2に模式的に示される通り、生徒モデルを学習するために、生徒モデルの出力する確率分布を正解ラベルの確率分布に近づけるための損失(以下、「ハードターゲット損失」ともいう)を用いるのに加えて、生徒モデルの出力する確率分布を教師モデルの出力する確率分布に近づけるための損失(以下、「ソフトターゲット損失」ともいう)を用いる。これにより、生徒モデルが教師モデルを模倣するよう学習することができ、教師モデルの持つ知識を生徒モデルに蒸留する知識蒸留が実現できる。
R. Masumura, S. Yamada, T. Tanaka, A. Ando, H. Kamiyama, and Y. Aono, "Online call scene segmentation of contact center dialogues based on role aware hierarchical LSTM-RNNs", Proceedings of the Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), pp. 811-815, 2018. G. Hinton, O. Vinyals, and J. Dean, "Distilling the knowledge in a neural network", Proceedings of the Deep Learning and Representation Learning Workshop, NIPS, 2014.
 しかしながら、非特許文献2の方法は知識蒸留技術を単純な分類問題に適用したものであり、非特許文献1のような複雑なコンテキストを考慮した複雑な分類問題に対して知識蒸留技術を適用した構成は考えられていない。
 本発明は、複雑なコンテキストを考慮した複雑な分類問題に対して知識蒸留技術を適用する学習装置、推定方法、学習方法、プログラムを提供することを目的とする。
 上記の課題を解決するために、本発明の一態様によれば、学習装置は、Qを2以上の整数の何れかとし、所定の単位で処理を行うQ個の機能を階層的に含むモデルである教師モデルを用いて、学習用データセットに含まれるテキストに対するラベルを推定する教師モデルラベル推定部と、教師モデルと同じQ個の機能を階層的に含むモデルである生徒モデルを用いて、学習用データセットに含まれるテキストに対するラベルを推定する生徒モデルラベル推定部と、学習用データセットに含まれるテキストに対する正解ラベルと、生徒モデルラベル推定部の推定結果とを用いて、ハードターゲット損失を求めるハードターゲット損失評価部と、教師モデルラベル推定部の推定結果と生徒モデルラベル推定部の推定結果とを用いて、ソフトターゲット損失を求めるソフトターゲット損失評価部と、ハードターゲット損失とソフトターゲット損失から得られる損失を最適化するように生徒モデルのパラメータを更新するパラメータ更新部と、を含む。
 本発明によれば、複雑なコンテキストを考慮した複雑な分類問題に対して知識蒸留を実現し、高い分類精度の生徒モデルを学習できるという効果を奏する。
ラベリングモデルの模式図。 生徒モデルの学習を説明するための図。 第一実施形態に係る推定システムの構成例を示す図。 2つの損失を説明するための図。 学習装置の機能ブロック図。 学習装置の処理フローの例を示す図。 学習装置の処理概要を説明するための図。 推定装置の機能ブロック図。 推定装置の処理フローの例を示す図。 4つの損失を説明するための図。 4つの損失を説明するための図。 検証実験の結果を示す図。 本手法を適用するコンピュータの構成例を示す図。
 以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「~」「-」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<第一実施形態のポイント>
 本実施形態のポイントは、知識蒸留技術を発話系列ラベリング問題に適用する点である。従来、機械翻訳モデルやBERT(Bidirectional Encoder Representations from Transformers)のモデル軽量化を目的とする知識蒸留技術は多く検討されていたが、本実施形態はこれを初めて発話系列ラベリングの問題に適用したものである。本実施形態では、教師モデルが多段処理を行う構成になっており、生徒モデルもその多段処理の構成を維持したまま、知識蒸留を行う。本実施形態では、知識蒸留によりモデル軽量化を実施することで、特に計算環境を潤沢に用意することが困難な状況においても、高い分類精度でラベリングを実現することができる。
<第一実施形態>
 以下、非特許文献1のような、コンタクトセンタにおける発話テキスト系列を入力とし、応対シーンに相当するラベルを出力する発話系列ラベリングのためのニューラルネットワークへの、モデル軽量化を目的とする知識蒸留を例に説明する。しかし、本実施形態は、コンタクトセンタの発話テキスト系列や、応対シーンの発話系列ラベリングに限定されるものではない。つまり、文脈の考慮が必要な任意の系列ラベリング問題に対して適用できるものである。テキストの系列が与えられたときに、その文ごと、または特定の単位ごとにラベルを付与する問題に適用することができる。例えば、以下のようなニューラルネットワークに適用することができる。
・入力層が、テキスト(またはそのベクトル表現など、それと同等の情報を持つもの)を受け付けるようになっている。
・出力層が、ラベルの推定結果に対応している。
・中間層が、多段階の処理をしている、又は、トランスフォーマーエンコーダーのような、文脈を扱えるといわれているものを使用している(参考文献1参照)。
(参考文献1)Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin, "Atention is All you need", 31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, CA, USA, 2017
 さらに、本実施形態は、教師モデルよりも生徒モデルの方が学習可能なパラメータの数が少ない状況に限定されるものではなく、教師モデルよりも生徒モデルの方が学習可能なパラメータの数が多い、または等しい状況でもよい。なお、パラメータの数が多い、または等しい状況(サイズが同等な)で、なおかつ「潤沢な計算環境が要求される」という従来技術の課題を解決できる構成とは、「教師モデルが複数あって、それらから1つの生徒モデルを学習する場合」等が想定される。
<推定システム>
 図3は第一実施形態に係る推定システムの構成例を示す図である。
 推定システムは、学習装置100と推定装置200とを含む。
 学習装置100は、学習用データセットD=(X,-P)と教師モデルTMとを入力とし、知識蒸留技術により、生徒モデルSMが教師モデルTMを模倣するよう学習し、学習済みの生徒モデルSMを出力する。学習用データセットD=(X,-P)は、発話テキスト系列Xn=(xn,1,xn,2,…,xn,T_n)と、発話テキスト系列Xnの各発話テキストxn,tに対応する正解ラベル-pn,tの系列-Pn=(-pn,1,-pn,2,…,-pn,T_n)の組を1通話分の通話データとして、それを多量(N通話分)に収集することで構成されるデータセットであり、X=(X1,X2,…,XN)、-P=(-P1,-P2,…,-PN)である。nを通話データのインデックスとし、n=1,2,…,Nとする。また、発話テキストxn,tは通話データnに含まれるt番目の発話データを意味し、添え字のA_BはABを意味し、Tnは通話データnに含まれる発話テキストの数であり、t=1,2,…,Tnである。
 推定装置200は、予め学習済みの生徒モデルSMを受け取り、推定対象の1つ以上のテキスト系列を含む通話データXtestを入力とし、対応するラベル系列を推定し、推定したラベル系列Ptestを出力する。
 学習装置100および推定装置200は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。学習装置100および推定装置200は、例えば、中央演算処理装置の制御のもとで各処理を実行する。学習装置100および推定装置200に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。学習装置100および推定装置200の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。学習装置100および推定装置200が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも学習装置100および推定装置200がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置により構成し、学習装置100および推定装置200の外部に備える構成としてもよい。
 まず、学習装置100について説明する。
<学習装置100の処理概要>
 学習処理では、学習可能なパラメータが少なく軽量な生徒モデルを効率的に学習するために、学習可能なパラメータが多く分類精度が高い教師モデルに獲得された知識を用いる。
 ここで、学習可能なパラメータ数は、短期文脈理解ネットワークや長期文脈理解ネットワークをLSTM(long-short term memory、長短期記憶)や全結合ニューラルネットワークにより構成する場合、その層数や中間出力次元数等により定義されるものである。
 また、学習可能なパラメータ数は、例えば短期文脈理解ネットワークや長期文脈理解ネットワークをTransformerエンコーダブロックにより構成する場合、そのブロック数や、各ブロックの全結合ニューラルネットワークにおける中間出力次元数、マルチヘッド注意のヘッド数、および出力次元数等により定義されるものである。
 さらに、学習可能なパラメータ数は、ラベル予測ネットワークを全結合ニューラルネットワークにより構成する場合、その層数や中間出力次元数等により定義されるものである。
 要するに、教師モデルと生徒モデルは、図1に示されるような短期文脈理解ネットワーク、長期文脈理解ネットワーク、ラベル予測ネットワークによる「階層的な構造」は共通するが、それぞれのネットワークのパラメータ数が異なることで、モデルのサイズが異なる想定である。ここで言う「階層的な構造」とは、単なるニューラルネットワークを意味するのではなく、所定の単位での処理を行う機能を複数含む構造を意味する。所定の単位での処理を行う機能は処理の単位に意図を持っており、例えば、長期文脈理解ネットワークは、文間の長期文脈の理解を意図して文書単位の処理を行い、短期文脈理解ネットワークは、文内の短期文脈の理解を意図して文単位の処理を行う。
 学習処理では、図4に模式的に示される2つの損失の結合により定義される損失を用いて、生徒モデルを学習する。ここで、教師モデルは学習対象でなく、パラメータは固定する。
 ハードターゲット損失は、生徒モデルの出力する確率分布を正解ラベルの確率分布に近づけるための損失である。
 ソフトターゲット損失は、生徒モデルの出力する確率分布を教師モデルの出力する確率分布に近づけるための損失である。
 学習処理では、ハードターゲット損失とソフトターゲット損失を、例えば一定の比率で線形結合した損失関数を最適化するように、学習用データセットを用いて誤差逆伝播法などにより学習すればよい。
 次に、上記の処理を実施するための学習装置の構成例について説明する。
<学習装置100>
 図5は第一実施形態に係る学習装置100の機能ブロック図を、図6はその処理フローを示す。図7は、学習装置100の処理概要を説明するための図である。
 学習装置100は、教師モデルラベル推定部110、生徒モデルラベル推定部120、ハードターゲット損失評価部130、ソフトターゲット損失評価部140およびパラメータ更新部150を含む。
<教師モデルラベル推定部110>
 教師モデルラベル推定部110は、予め教師モデルTMを受け取る。教師モデルTMは、ニューラルネットワークによる階層的なモデルであり、本実施形態では短期文脈理解ネットワークと、長期文脈理解ネットワークと、ラベル予測ネットワークとを含む。
 教師モデルラベル推定部110は、階層的なモデルである教師モデルTMを用いて、学習用データセットDに含まれるN通話分の通話データに含まれるN個の発話テキスト系列Xn(n=1,2,…,N)を受け取り、発話テキスト系列Xnに含まれる発話テキストxn,tに対するラベルを推定し(S110)、推定結果である確率分布~zn,t(n=1,2,…,N、t=1,2,…,Tn、Tnは発話テキスト系列Xnに含まれる発話テキストの数)を出力する。例えば、以下のように処理を行う。
 教師モデルラベル推定部110は、短期文脈理解ネットワークを用いて発話テキスト系列Xnに含まれる発話テキストxn,tに対する中間特徴量~sn,t (~L)を取得する(S110A)。ただし、~Lは教師モデルの短期文脈理解ネットワークのレイヤーの数を示す。なお、短期文脈理解ネットワークは、単語単位の短期文脈を理解するニューラルネットワークであり、どんな内容の発話をしたかを文内で捉える。中間特徴量~sn,t (~L)には単語単位の短期文脈を理解するための特徴が含まれる。
 次に、教師モデルラベル推定部110は、長期文脈理解ネットワークを用いて中間特徴量~sn,t (~L)に対する中間特徴量~un,t (~M)を取得する(S110B)。ただし、~Mは教師モデルの長期文脈理解ネットワークのレイヤーの数を示す。なお、長期文脈理解ネットワークは、文単位の長期文脈を理解するニューラルネットワークであり、発話の時系列性を捉えることで、話題の流れに追随する。中間特徴量~un,t (~M)には文単位の長期文脈を理解するための特徴が含まれる。
 さらに、教師モデルラベル推定部110は、ラベル予測ネットワークを用いて中間特徴量~un,t (~M)に対するラベルを予測し(S110C)、予測の確率分布~zn,tを出力する。ラベル予測ネットワークはラベルを予測するニューラルネットワークである。本実施形態では、ラベル予測ネットワークの出力層は、温度付きソフトマックス関数を含み、教師モデルラベル推定部110は、温度付きソフトマックス関数の出力である確率分布~zn,tを出力する。なお、図7の~vtはラベル予測ネットワークの出力層の一つ前の全結合層の出力である。
<生徒モデルラベル推定部120>
 生徒モデルラベル推定部120は、予め生徒モデルSMを初期化しておく。ニューラルネットワークの初期化方法としては既存の技術を用いることができる。生徒モデルSMは、教師モデルTMと同様に、ニューラルネットワークによる階層的なモデルであり、本実施形態では短期文脈理解ネットワークと、長期文脈理解ネットワークと、ラベル予測ネットワークとを含む。
 生徒モデルラベル推定部120は、階層的なモデルである生徒モデルSMを用いて、学習用データセットDに含まれるN通話分の通話データに含まれるN個の発話テキスト系列Xn(n=1,2,…,N)を受け取り、発話テキスト系列Xnに含まれる発話テキストxn,tに対するラベルを推定し(S120)、推定結果である確率分布pn,t,zn,t(n=1,2,…,N、tn=1,2,…,Tn)を出力する。例えば、以下のように処理を行う。
 生徒モデルラベル推定部120は、短期文脈理解ネットワークを用いて発話テキスト系列Xnに含まれる発話テキストxn,tに対する中間特徴量sn,t (L)を取得する(S120A)。ただし、Lは生徒モデルの短期文脈理解ネットワークのレイヤーの数を示す。例えば、L≦~Lとする。
 次に、生徒モデルラベル推定部120は、長期文脈理解ネットワークを用いて中間特徴量sn,t (L)に対する中間特徴量un,t (M)を取得する(S120B)。ただし、Mは生徒モデルの長期文脈理解ネットワークのレイヤーの数を示す。例えば、M≦~Mとする。
 さらに、生徒モデルラベル推定部120は、ラベル予測ネットワークを用いて中間特徴量un,t (M)に対するラベルを予測し(S120C)、予測の確率分布pn,t、zn,tを出力する。生徒モデルラベル推定部120のラベル予測ネットワークの出力層は、ソフトマックス関数と温度付きソフトマックス関数とを含み、生徒モデルラベル推定部120は、ソフトマックス関数の出力である確率分布pn,tと温度付きソフトマックス関数の出力である確率分布zn,tとを出力する。なお、図7のvtはラベル予測ネットワークの出力層の一つ前の全結合層の出力である。
<ハードターゲット損失評価部130>
 ハードターゲット損失評価部130は、正解ラベル-pn,tの系列-Pn=(-pn,1,-pn,2,…,-pn,T_n)と、生徒モデルによる予測の確率分布-pn,1,pn,2,…,pn,T_n(n=1,2,…,N)とを受け取り、ハードターゲット損失LHTを求め(S130)、出力する。正解ラベルから得られる確率分布と予測の確率分布の距離はクロスエントロピー損失等の任意の損失関数を用いて評価すればよい。例えば、次式により、ハードターゲット損失LHTを求める。
Figure JPOXMLDOC01-appb-M000001

ただし、Yは取りうるラベルの集合であり、yはラベルの集合に含まれるラベルであり、-pn,t,yは正解ラベル-pn,tから得られる確率であり、通話データnに含まれるt番目の発話テキストxn,tのラベルがyである確率である。つまり、正解ラベルと一致するラベルに対応する確率-pn,t,yは100%であり、その他のラベルに対応する確率-pn,t,yは0%である。pn,t,yは予測の確率分布pn,tに含まれる確率であり、通話データnに含まれるt番目の発話テキストxn,tのラベルがyである確率である。
<ソフトターゲット損失評価部140>
 ソフトターゲット損失評価部140は、教師モデルによる予測の確率分布~zn,1,~zn,2,…,~zn,T_nと、生徒モデルによる予測の確率分布zn,1,zn,2,…,zn,T_n(n=1,2,…,N)とを受け取り、ソフトターゲット損失LSTを求め(S140)、出力する。2つの確率分布の距離はクロスエントロピー損失や平均二乗誤差等の任意の損失関数を用いて評価すればよい。例えば、次式により、ソフトターゲット損失LSTを求める。
Figure JPOXMLDOC01-appb-M000002

なお、τは温度付きソフトマックス関数のパラメータである。
<パラメータ更新部150>
 パラメータ更新部150は、ハードターゲット損失LHTとソフトターゲット損失LSTを受け取り、ハードターゲット損失LHTとソフトターゲット損失LSTから得られる損失Lを最適化するように生徒モデルのパラメータを更新する(S150)。例えば、次式により、ハードターゲット損失LHTとソフトターゲット損失LSTを一定の比率で線形結合した損失関数Lを求める。
L=LHT+λLST
ただし、λはハードターゲット損失とソフトターゲット損失の結合の比率を示すパラメータである。パラメータ更新部150は、損失関数Lを最適化するように、生徒モデルのパラメータを更新する。例えば、学習装置100は、学習用データセットDを用いて誤差逆伝播法などにより学習すればよい。比率λは、学習スケジュールを事前に定義し、それに基づいて学習のステップ数に応じて変更しながら学習してもよい。例えば、学習の序盤はソフトターゲット損失LSTのみを用いて学習し、徐々にハードターゲット損失LHTを与えるように学習してもよい。
 パラメータ更新部150は、所定の条件を満たすまで、更新したパラメータを生徒モデルラベル推定部120に出力し、S120、S130、S140、S150を繰り返す(S150-2のNO)。所定の条件とは、例えば、繰り返し回数が所定の回数を超えることや、更新前後のパラメータの差分が所定の閾値以下であること等であり、要は、パラメータの更新が収束したか否かを判定するための条件である。
 次に、推定装置200について説明する。
<推定装置200>
 図8は第一実施形態に係る推定装置200の機能ブロック図を、図9はその処理フローを示す。
 推定装置200は、推定部210を含む。
 推定部210は、予め学習済みの生徒モデルSMを受け取る。
 推定部210は、推定対象の1つ以上のテキスト系列を含む通話データXtestを入力とし、生徒モデルSMを用いて、通話データXtestの各発話テキストに対応するラベルを順に推定し(S210)、推定したラベル系列Ptestを出力する。
<効果>
 以上の構成により、複雑なコンテキストを考慮した複雑な分類問題に対して知識蒸留を実現し、高い分類精度の生徒モデルを学習できるという効果を奏する。
<変形例>
 本実施形態では、発話テキストを処理対象としているが、必ずしも発話に基づくテキストに限られない。例えば、チャットやメール、各種SNS等で用いられる発話を伴わないテキストでのやり取りを含むテキスト系列に対して適用可能である。
<第二実施形態のポイント>
 本実施形態のポイントは、以下の2点である。
1.生徒モデルの長期文脈理解ネットワークが、教師モデルの長期文脈理解ネットワークを模倣するように学習する。
2.生徒モデルの短期文脈理解ネットワークが、教師モデルの短期文脈理解ネットワークを模倣するように学習する。
 上述の1.により、生徒モデルの長期文脈理解ネットワークが出力する長期文脈の中間特徴が、教師モデルの長期文脈理解ネットワークが出力する長期文脈の中間特徴に近づくように学習する。これにより、生徒モデルの長期文脈理解ネットワークが、教師モデルの長期文脈理解ネットワークを模倣するように学習できることから、各ラベルの確率分布のみを模倣する場合に比べて、より精緻に生徒モデルが教師モデルを模倣でき、生徒モデルの分類精度向上に繋がる。
 上述の2.により、生徒モデルの短期文脈理解ネットワークが出力する短期文脈の中間特徴が、教師モデルの短期文脈理解ネットワークが出力する短期文脈の中間特徴に近づくように学習する。これにより、生徒モデルの短期文脈理解ネットワークが、教師モデルの短期文脈理解ネットワークを模倣するように学習できることから、発話テキストの内容に対する、短期文脈理解ネットワークの頑健性が向上し、生徒モデルの分類精度向上に繋がる。
 第一実施形態では、非特許文献2により実現されるような知識蒸留技術を、非特許文献1に示される発話系列ラベリング問題のためのラベリングモデルに導入することにより、教師モデルに獲得された知識を用いて、軽量な生徒モデルを効率的に学習できる。
 しかし、非特許文献2の方法は、単純な分類問題に適用したものであり、中間特徴の知識を効率的に蒸留することができない場合がある。
 そこで、本実施形態では、複雑なコンテキストを考慮した発話系列ラベリング問題に対して、中間特徴の知識を効率的に教師モデルから蒸留することで、高い分類精度の生徒モデルを学習する。
 本実施形態では、非特許文献2のような知識蒸留を、複雑なコンテキストを考慮した発話系列ラベリングのためのラベリングネットワークに導入するために、生徒モデルが出力する長期文脈の中間特徴および短期文脈の中間特徴が、教師モデルのそれらを模倣するように学習することで、中間特徴の知識を教師モデルから効率的に蒸留する。
<第二実施形態>
 第一実施形態と異なる部分を中心に説明する。
<推定システム>
 図3は第二実施形態に係る推定システムの構成例を示す図である。
 推定システムは、学習装置300と推定装置200とを含む。
 第二実施形態は、第一実施形態と学習処理の内容が異なる。
<学習装置300の処理概要>
 第二実施形態における学習処理では、図10に模式的に示される4つの損失の結合により定義される損失を用いて、生徒モデルを学習する。ハードターゲット損失とソフトターゲット損失は、第一実施形態と共通である。
 長期文脈損失は、生徒モデルの長期文脈理解ネットワークが出力する長期文脈の中間特徴が、教師モデルの長期文脈理解ネットワークが出力する長期文脈の中間特徴を模倣するように学習するための損失関数である。なお、生徒モデルと教師モデルで長期文脈理解ネットワークの出力次元数が異なる場合は、図11に模式的に示されるように、例えば教師モデルの長期文脈理解ネットワークの出力に、次元数を揃えるための全結合層を分岐して設け、次元数を揃えるための全結合層が出力する特徴と、生徒モデルの長期文脈理解ネットワークが出力する長期文脈の中間特徴が近づくように、生徒モデルと、次元数を揃えるための全結合層を学習しても良い。
 短期文脈損失は、生徒モデルの短期文脈理解ネットワークが出力する短期文脈の中間特徴が、教師モデルの短期文脈理解ネットワークが出力する短期文脈の中間特徴を模倣するように学習するための損失関数である。なお、生徒モデルと教師モデルで短期文脈理解ネットワークの出力次元数が異なる場合は、図11に模式的に示されるように、例えば教師モデルの短期文脈理解ネットワークの出力に、次元数を揃えるための全結合層を分岐して設け、次元数を揃えるための全結合層の出力する特徴と、生徒モデルの短期文脈理解ネットワークが出力する短期文脈の中間特徴が近づくように、生徒モデルと、次元数を揃えるための全結合層を学習しても良い。
 第二実施形態における学習処理では、ハードターゲット損失とソフトターゲット損失、長期文脈損失、短期文脈損失を、例えば一定の比率で線形結合した損失関数を最適化するように、学習用データセットを用いて誤差逆伝播法などにより学習すればよい。
 次に、上記の処理を実施するための学習装置の構成例について説明する。
<学習装置300>
 図5は第二実施形態に係る学習装置300の機能ブロック図を、図6はその処理フローを示す。図7は、学習装置300の処理概要を説明するための図である。
 学習装置300は、教師モデルラベル推定部110、生徒モデルラベル推定部120、ハードターゲット損失評価部130、ソフトターゲット損失評価部140、短期文脈損失評価部360、長期文脈損失評価部370およびパラメータ更新部350を含む。
<短期文脈損失評価部360>
 短期文脈損失評価部360は、中間特徴量~sn,t (~L)、sn,t (L)を受け取り(n=1,2,…,N、t=1,2,…,Tn)、短期文脈損失LUCを求め(S360)、出力する。2つの中間特徴の距離は、平均二乗誤差等の任意の損失関数を用いて評価すればよい。例えば、次式により、短期文脈損失LUCを求める。
Figure JPOXMLDOC01-appb-M000003

中間特徴量は、短期文脈理解ネットワークを構成する層のいずれか一層の中間特徴量を用いればよく、必ずしも、短期文脈理解ネットワークの出力である必要はない。
<長期文脈損失評価部370>
 長期文脈損失評価部370は、中間特徴量~un,t (~M)、un,t (M)を受け取り(n=1,2,…,N、t=1,2,…,Tn)、長期文脈損失LDCを求め(S370)、出力する。2つの中間特徴の距離は、平均二乗誤差等の任意の損失関数を用いて評価すればよい。例えば、次式により、長期文脈損失LDCを求める。
Figure JPOXMLDOC01-appb-M000004

中間特徴量は、長期文脈理解ネットワークを構成する層のいずれか一層の中間特徴量を用いればよく、必ずしも、長期文脈理解ネットワークの出力である必要はない。
<パラメータ更新部350>
 パラメータ更新部350は、ハードターゲット損失LHTとソフトターゲット損失LSTと短期文脈損失LUCと長期文脈損失LDCを受け取り、次式により、ハードターゲット損失LHTとソフトターゲット損失LSTと短期文脈損失LUCと長期文脈損失LDCを一定の比率で線形結合した損失関数Lを求める。
L=LHT+λLST+αLUC+βLDC
ただし、λ、α、βは、ハードターゲット損失とソフトターゲット損失と短期文脈損失と長期文脈損失の結合の比率を示すパラメータである。パラメータ更新部350は、損失関数Lを最適化するように、生徒モデルのパラメータを更新する(S350)。例えば、学習装置300は、学習用データセットDを用いて誤差逆伝播法などにより学習すればよい。比率λ、α、βは、学習スケジュールを事前に定義し、それに基づいて学習のステップ数に応じて変更しながら学習してもよい。例えば、学習の序盤は短期文脈損失のみを用いて学習し、徐々に長期文脈損失、ソフトターゲット損失、ハードターゲット損失を、この順で与えるように学習してもよい。
 なお、前述の通り、図11のように、次元数を揃えるための全結合層を設けた場合には、全結合層のパラメータも合わせて更新する。
 パラメータ更新部350は、所定の条件を満たすまで、更新したパラメータを生徒モデルラベル推定部120に出力し、S120-S140、S360、S370、S350を繰り返す(S150-2のNO)。
<効果>
 このような構成とすることで、複雑なコンテキストを考慮した発話系列ラベリング問題において、短期文脈の特徴および長期文脈の特徴を捉える能力が高い教師モデルを、生徒モデルがより精緻に模倣できる。これにより、教師モデルに獲得されている知識を生徒モデルにより効率的に蒸留することが可能となることから、生徒モデルのラベリング精度を高めることができる。「短期文脈の特徴」は、1文を1つのベクトルにより表現しており、その情報を教師モデルと生徒モデルで近くなるように学習することで、文の特徴の表現方法をそのまま模倣することができる。また、「長期文脈の特徴」は、話題の流れを1つのベクトルにより表現しており、その情報を教師モデルと生徒モデルで近くなるように学習することで、話題の流れの表現方法をそのまま模倣することができる。
<検証実験結果>
 コンタクトセンタにおける発話テキスト系列を入力とし、応対シーンに相当するラベルを出力する発話系列ラベリングのタスクに対して、検証実験を行った。日本語のコンタクトセンタにおける疑似的な応対データを用い、学習用データセットのデータ数は327通話、テスト用データセットのデータ数は37通話とした。分類対象は、オープニング、用件把握、本人確認、対応、クロージングの5つのラベルとした。教師モデルのパラメータ数は13.11M、生徒モデルのパラメータ数は3.65Mとし、生徒モデルを単にスクラッチで学習するベースラインと、第一実施形態、第二実施形態による学習方法を用いて学習する方法で、各応対シーンの分類精度を比較した。
 なお、第二実施形態では、短期文脈損失および長期文脈損失のいずれかを用いない場合も比較した。評価には、完全一致による正解率を用いた。検証実験の結果を、図12に示す。図12より、特に第二実施形態を適用することにより、軽量な生徒モデルであっても、教師モデルに近い分類精度が得られることが分かる。
<変形例>
 本実施形態のように、長期文脈理解ネットワーク、短期文脈理解ネットワークのように階層化されている場合は、各階層の中間特徴を比較すればよい。本実施形態では、長期文脈理解ネットワークと短期文脈理解ネットワークとの2階層であるが、3階層以上にも本実施形態を適用することができる。教師モデル、生徒モデルを構成するネットワークをQ個の機能ごとの階層(ブロック)に分けた際の、階層(ブロック)を構成するいずれかの層の出力を、Q個以上比較し、Q個以上の損失を計算し、Q個以上の損失を結合して最終的な損失を求め、最終的な損失を最適化するように、生徒モデルのパラメータを更新すればよい。なお、計算する損失の個数がQを超える場合、Q+1個目以上の比較対象は、どのブロックのものでもよい。言い換えると、計算する損失の個数がQを超える場合、1つのブロックから2つ以上の比較対象(中間特徴)を取り出し、Q個ブロックから合計でQ+1個以上の比較対象を取り出してもよい。
 また、検証実験で説明したように、短期文脈損失評価部360と長期文脈損失評価部370の何れか一方のみを有する構成としてもよく、Q個のタスクごとの階層(ブロック)に分けた際の、階層(ブロック)を構成するいずれかの層の出力を、1個以上比較し、1個以上の損失を計算し、1個以上の損失を結合して最終的な損失を求め、最終的な損失を最適化するように、生徒モデルのパラメータを更新してもよい。
<その他の変形例>
 本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
 上述の各種の処理は、図13に示すコンピュータの記憶部2020に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部2010、入力部2030、出力部2040などに動作させることで実施できる。
 この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
 また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
 また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
<変形例>
 上記実施形態でCPUがソフトウェア(プログラム)を読み込んで実行したプログラムを、CPU以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、GPU(Graphics Processing Unit)、FPGA(Field-Programmable Gate Array)等の製造後に回路構成を変更可能なPLD(Programmable Logic Device)、及びASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、プログラムを、これらの各種のプロセッサのうちの1つで実行してもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGA、及びCPUとFPGAとの組み合わせ等)で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。
 また、上記実施形態では、プログラムがストレージに予め記憶(インストール)されているものといて説明したが、これに限定されない。プログラムは、CD-ROM(Compact Disk Read Only Memory)、DVD-ROM(Digital Versatile Disk Read Only Memory)、及びUSB(Universal Serial Bus)メモリ等の非一時的(non-transitory)記憶媒体に記憶された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。
 以上の実施形態に関し、更に以下の付記を開示する。
 (付記項1)
 メモリと、
 前記メモリに接続された少なくとも1つのプロセッサと、
 を含み、
 前記プロセッサは、
 Qを2以上の整数の何れかとし、所定の単位で処理を行うQ個の機能を階層的に含むモデルである教師モデルを用いて、学習用データセットに含まれるテキストに対するラベルを推定する教師モデルラベル推定処理を実行し、
 前記教師モデルと同じQ個の機能を階層的に含むモデルである生徒モデルを用いて、学習用データセットに含まれるテキストに対するラベルを推定する生徒モデルラベル推定処理を実行し、
 前記学習用データセットに含まれるテキストに対する正解ラベルと、前記生徒モデルラベル推定処理の推定結果とを用いて、ハードターゲット損失を求め、
 前記教師モデルラベル推定処理の推定結果と前記生徒モデルラベル推定処理の推定結果とを用いて、ソフトターゲット損失を求め、
 前記ハードターゲット損失と前記ソフトターゲット損失から得られる損失を最適化するように生徒モデルのパラメータを更新する、
 学習装置。
 (付記項2)
 学習処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
 前記学習処理は、
 Qを2以上の整数の何れかとし、所定の単位で処理を行うQ個の機能を階層的に含むモデルである教師モデルを用いて、学習用データセットに含まれるテキストに対するラベルを推定する教師モデルラベル推定処理を実行し、
 前記教師モデルと同じQ個の機能を階層的に含むモデルである生徒モデルを用いて、学習用データセットに含まれるテキストに対するラベルを推定する生徒モデルラベル推定処理を実行し、
 前記学習用データセットに含まれるテキストに対する正解ラベルと、前記生徒モデルラベル推定処理の推定結果とを用いて、ハードターゲット損失を求め、
 前記教師モデルラベル推定処理の推定結果と前記生徒モデルラベル推定処理の推定結果とを用いて、ソフトターゲット損失を求め、
 前記ハードターゲット損失と前記ソフトターゲット損失から得られる損失を最適化するように生徒モデルのパラメータを更新する、
 非一時的記憶媒体。

Claims (6)

  1.  Qを2以上の整数の何れかとし、所定の単位で処理を行うQ個の機能を階層的に含むモデルである教師モデルを用いて、学習用データセットに含まれるテキストに対するラベルを推定する教師モデルラベル推定部と、
     前記教師モデルと同じQ個の機能を階層的に含むモデルである生徒モデルを用いて、学習用データセットに含まれるテキストに対するラベルを推定する生徒モデルラベル推定部と、
     前記学習用データセットに含まれるテキストに対する正解ラベルと、前記生徒モデルラベル推定部の推定結果とを用いて、ハードターゲット損失を求めるハードターゲット損失評価部と、
     前記教師モデルラベル推定部の推定結果と前記生徒モデルラベル推定部の推定結果とを用いて、ソフトターゲット損失を求めるソフトターゲット損失評価部と、
     前記ハードターゲット損失と前記ソフトターゲット損失から得られる損失を最適化するように生徒モデルのパラメータを更新するパラメータ更新部と、を含む、
     学習装置。
  2.  請求項1の学習装置であって、
     qを1以上Q以下の整数の何れかとし、教師モデルのq番目の階層から得られる第qの中間特徴量と、生徒モデルのq番目の階層から得られる第qの中間特徴量とから第q損失を求める第q損失評価部を含み、
     前記パラメータ更新部は、前記ハードターゲット損失と前記ソフトターゲット損失と第q損失とから得られる損失を最適化するように生徒モデルのパラメータを更新する、
     学習装置。
  3.  請求項1の学習装置であって、
     前記教師モデルおよび前記生徒モデルは、1番目の階層として短期文脈理解ネットワークを含み、2番目の階層として長期文脈理解ネットワークを含み、3番目の階層としてラベル予測ネットワークとを含み、
     当該学習装置は、
     教師モデルの短期文脈理解ネットワークから得られる第一の中間特徴量と、生徒モデルの短期文脈理解ネットワークから得られる第二の中間特徴量とから短期文脈損失を求める短期文脈損失評価部と、
     教師モデルの長期文脈理解ネットワークから得られる第三の中間特徴量と、生徒モデルの長期文脈理解ネットワークから得られる第四の中間特徴量とから長期文脈損失を求める長期文脈損失評価部と含み、
     前記パラメータ更新部は、前記ハードターゲット損失と前記ソフトターゲット損失と前記短期文脈損失と前記長期文脈損失とから得られる損失を最適化するように生徒モデルのパラメータを更新する、
     学習装置。
  4.  請求項1から請求項3の何れかの学習装置により学習済みの生徒モデルを用いる推定装置であって、
     前記学習済みの生徒モデルを用いて、推定対象のテキストに対応するラベルを推定する推定部を含む、
     推定装置。
  5.  学習装置を用いた学習方法であって、
     前記学習装置が、Qを2以上の整数の何れかとし、所定の単位で処理を行うQ個の機能を階層的に含むモデルである教師モデルを用いて、学習用データセットに含まれるテキストに対するラベルを推定する教師モデルラベル推定ステップと、
     前記学習装置が、前記教師モデルと同じQ個の機能を階層的に含むモデルである生徒モデルを用いて、学習用データセットに含まれるテキストに対するラベルを推定する生徒モデルラベル推定ステップと、
     前記学習装置が、前記学習用データセットに含まれるテキストに対する正解ラベルと、前記生徒モデルラベル推定ステップの推定結果とを用いて、ハードターゲット損失を求めるハードターゲット損失評価ステップと、
     前記学習装置が、前記教師モデルラベル推定ステップの推定結果と前記生徒モデルラベル推定ステップの推定結果とを用いて、ソフトターゲット損失を求めるソフトターゲット損失評価ステップと、
     前記学習装置が、前記ハードターゲット損失と前記ソフトターゲット損失から得られる損失を最適化するように生徒モデルのパラメータを更新するパラメータ更新ステップと、を含む、
     学習方法。
  6.  請求項1から請求項3の何れかの学習装置、または、請求項4の推定装置としてコンピュータを機能させるためのプログラム。
PCT/JP2021/029544 2021-08-10 2021-08-10 学習装置、推定装置、学習方法、およびプログラム WO2023017568A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2023541156A JPWO2023017568A1 (ja) 2021-08-10 2021-08-10
PCT/JP2021/029544 WO2023017568A1 (ja) 2021-08-10 2021-08-10 学習装置、推定装置、学習方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/029544 WO2023017568A1 (ja) 2021-08-10 2021-08-10 学習装置、推定装置、学習方法、およびプログラム

Publications (1)

Publication Number Publication Date
WO2023017568A1 true WO2023017568A1 (ja) 2023-02-16

Family

ID=85200745

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/029544 WO2023017568A1 (ja) 2021-08-10 2021-08-10 学習装置、推定装置、学習方法、およびプログラム

Country Status (2)

Country Link
JP (1) JPWO2023017568A1 (ja)
WO (1) WO2023017568A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116415005A (zh) * 2023-06-12 2023-07-11 中南大学 一种面向学者学术网络构建的关系抽取方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018051841A1 (ja) * 2016-09-16 2018-03-22 日本電信電話株式会社 モデル学習装置、その方法、及びプログラム
CN112613312A (zh) * 2020-12-18 2021-04-06 平安科技(深圳)有限公司 实体命名识别模型的训练方法、装置、设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018051841A1 (ja) * 2016-09-16 2018-03-22 日本電信電話株式会社 モデル学習装置、その方法、及びプログラム
CN112613312A (zh) * 2020-12-18 2021-04-06 平安科技(深圳)有限公司 实体命名识别模型的训练方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
RYO MASUMURA, TOMOHIRO TANAKA, ATSUSHI ANDO, HOSANA KAMIYAMA, TAKANOBU OBA, YUSHI AONO: "Call scene segmentation based on neural networks with conversational contexts", IEICE TECHNICAL REPORT, NLC; IPSJ INFORMATION FUNDAMENTALS AND ACCESS TECHNOLOGIES (IFAT), IEICE, JP, vol. 2019-IFAT-133, no. 5 (NLC2018-39), 31 January 2019 (2019-01-31), JP, pages 1 - 6, XP009537301 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116415005A (zh) * 2023-06-12 2023-07-11 中南大学 一种面向学者学术网络构建的关系抽取方法
CN116415005B (zh) * 2023-06-12 2023-08-18 中南大学 一种面向学者学术网络构建的关系抽取方法

Also Published As

Publication number Publication date
JPWO2023017568A1 (ja) 2023-02-16

Similar Documents

Publication Publication Date Title
CN108984526B (zh) 一种基于深度学习的文档主题向量抽取方法
CN110188358B (zh) 自然语言处理模型的训练方法及装置
KR102170199B1 (ko) 비교 세트를 사용한 입력 예시들 분류
WO2023024412A1 (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
US20230222353A1 (en) Method and system for training a neural network model using adversarial learning and knowledge distillation
CN108665506B (zh) 图像处理方法、装置、计算机存储介质及服务器
CN111967266A (zh) 中文命名实体识别模型及其构建方法和应用
WO2022217849A1 (en) Methods and systems for training neural network model for mixed domain and multi-domain tasks
CN110083702B (zh) 一种基于多任务学习的方面级别文本情感转换方法
KR102315830B1 (ko) 반지도 학습 기반 단어 단위 감정 임베딩과 lstm 모델을 이용한 대화 내에서 발화의 감정 분류 방법
CN111160000B (zh) 作文自动评分方法、装置终端设备及存储介质
CN111339260A (zh) 一种基于bert和qa思想的细粒度情感分析方法
CN110457714B (zh) 一种基于时序主题模型的自然语言生成方法
CN113826125A (zh) 使用无监督数据增强来训练机器学习模型
JP2018087935A (ja) 音声言語識別装置、その方法、及びプログラム
US20230107409A1 (en) Ensembling mixture-of-experts neural networks
CN112926655A (zh) 一种图像内容理解与视觉问答vqa方法、存储介质和终端
CN114386409A (zh) 基于注意力机制的自蒸馏中文分词方法、终端及存储介质
CN113988079A (zh) 一种面向低数据的动态增强多跳文本阅读识别处理方法
WO2023017568A1 (ja) 学習装置、推定装置、学習方法、およびプログラム
CN111832699A (zh) 用于神经网络的计算高效富于表达的输出层
CN115186147A (zh) 对话内容的生成方法及装置、存储介质、终端
US20220138425A1 (en) Acronym definition network
CN111259673A (zh) 一种基于反馈序列多任务学习的法律判决预测方法及系统
WO2023158881A1 (en) Computationally efficient distillation using generative neural networks

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21953465

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023541156

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE