WO2023105596A1 - 言語処理装置、画像処理方法、及びプログラム - Google Patents

言語処理装置、画像処理方法、及びプログラム Download PDF

Info

Publication number
WO2023105596A1
WO2023105596A1 PCT/JP2021/044790 JP2021044790W WO2023105596A1 WO 2023105596 A1 WO2023105596 A1 WO 2023105596A1 JP 2021044790 W JP2021044790 W JP 2021044790W WO 2023105596 A1 WO2023105596 A1 WO 2023105596A1
Authority
WO
WIPO (PCT)
Prior art keywords
answer
score
scores
unit
adjusted
Prior art date
Application number
PCT/JP2021/044790
Other languages
English (en)
French (fr)
Inventor
光甫 西田
京介 西田
仙 吉田
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2021/044790 priority Critical patent/WO2023105596A1/ja
Publication of WO2023105596A1 publication Critical patent/WO2023105596A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • the present disclosure relates to a language processing device, an image processing method, and a program.
  • Extractive machine reading is generally solved by a discriminative deep learning model such as BERT (Bidirectional Encoder Representations from Transformers) (Non-Patent Document 1).
  • SQuAD 2.0 is a representative data set for extractive machine reading comprehension (Non-Patent Document 2).
  • a typical example in which a discriminative deep learning model is used is a task of inputting an image in which one number from 0 to 9 is written and outputting a correct label (here, a number).
  • a discriminative deep learning model can output a probability distribution based on a set of labels as the probability that each label is true.
  • a “table” is a set of possible values of a random variable.
  • the label set is ten numbers from 0 to 9. "Probability that each label is true” can be rephrased as prediction reliability.
  • the label set is the set of text positions. That is, ⁇ 1, ..., L ⁇ is the set of labels, where L is the text length.
  • a section to be extracted can be determined by selecting the start point and end point of the section to be extracted from the set of labels.
  • ⁇ unanswerable, answerable ⁇ labels can be prepared to consider answerability.
  • the preparation of two or three classifiers for the start point, end point, and answer possibility is a feature of the discriminative deep learning model for extractive machine reading comprehension.
  • the present invention has been made in view of the above points, and an object of the present invention is to calculate the reliability of prediction more appropriately than in the past.
  • the invention according to claim 1 provides a language understanding unit that extracts a feature amount from text data, and outputs an answer start point score, an answer end point score, and an answer possibility score using the feature amount as an input.
  • an n-best extracting unit for extracting predetermined n answer suitability scores based on the answer start point score and the answer end point score; and n answer suitability scores out of the n answer suitability scores.
  • the language understanding unit, the feature quantity conversion unit, and the adjustment unit are neural Perform processing based on the model parameters of the network, and learn the model parameters based on the n adjusted answer fitness scores and the adjusted answer possibility scores, as well as the correct answer interval and correct answer possibility.
  • the language understanding unit, the feature quantity conversion unit, and the adjustment unit are neural Perform processing based on the model parameters of the network, and learn the model parameters based on the n adjusted answer fitness scores and the adjusted answer possibility scores, as well as the correct answer interval and correct answer possibility.
  • FIG. 1 is a schematic diagram of a communication system according to an embodiment
  • FIG. 2 is a hardware configuration diagram of a language processing device and a communication terminal
  • FIG. FIG. 4 is a functional configuration diagram of a learning phase in training data of the language processing device
  • FIG. 4 is a functional configuration diagram of a learning phase in development data of a language processing device
  • FIG. 4 is a functional configuration diagram of an inference phase in test data of the language processing device
  • 4 is a flow chart showing processing in a learning phase using training data
  • 4 is a flowchart showing processing in a learning phase using development data
  • 4 is a flow chart showing processing of an inference phase using test data
  • It is a figure which shows an evaluation result.
  • FIG. 1 is a schematic diagram of a communication system according to an embodiment of the invention.
  • the communication system 1 of this embodiment is constructed by a language processing device 3 and a communication terminal 5.
  • the communication terminal 5 is managed and used by the user.
  • the language processing device 3 and the communication terminal 5 can communicate via a communication network 100 such as the Internet.
  • the connection form of the communication network 100 may be either wireless or wired.
  • the language processing device 3 is composed of one or more computers. When the language processing device 3 is composed of a plurality of computers, it may be indicated as a "language processing device” or as a "language processing system”.
  • the language processing device 3 is a computer that more appropriately calculates the reliability of prediction (inference) when using a deep learning model. Then, the language processing device 3 outputs result data as a result of prediction. As an output method, by transmitting the result data to the communication terminal 5, the communication terminal 5 side displays or prints the graph or the like related to the result data, or the display connected to the language processing device 3 displays the graph or the like. Alternatively, a printer or the like connected to the language processing device 3 may be used to print the graph or the like.
  • the communication terminal 5 is a computer, and although a notebook computer is shown as an example in FIG. 1, it is not limited to a node type computer and may be a desktop computer. Also, the communication terminal may be a smart phone or a tablet terminal. In FIG. 1 , a user operates communication terminal 5 .
  • FIG. 2 is a hardware configuration diagram of a language processing device and a communication terminal.
  • the language processing device 3 has a processor 301, a memory 302, an auxiliary storage device 303, a connection device 304, a communication device 305, and a drive device 306. Each piece of hardware constituting the language processing device 3 is interconnected via a bus 307 .
  • the processor 301 plays the role of a control unit that controls the entire language processing device 3, and has various computing devices such as a CPU (Central Processing Unit).
  • the processor 301 reads various programs onto the memory 302 and executes them.
  • the processor 301 may include a GPGPU (General-purpose computing on graphics processing units).
  • the memory 302 has main storage devices such as ROM (Read Only Memory) and RAM (Random Access Memory).
  • the processor 301 and the memory 302 form a so-called computer, and the processor 301 executes various programs read onto the memory 302, thereby realizing various functions of the computer.
  • the auxiliary storage device 303 stores various programs and various information used when the various programs are executed by the processor 301 .
  • the connection device 304 is a connection device that connects an external device (for example, the display device 310, the operation device 311) and the language processing device 3.
  • the communication device 305 is a communication device for transmitting and receiving various information to and from other devices.
  • a drive device 306 is a device for setting a recording medium 330 .
  • the recording medium 330 here includes media for optically, electrically, or magnetically recording information such as CD-ROMs (Compact Disc Read-Only Memory), flexible discs, and magneto-optical discs.
  • the recording medium 330 may also include a semiconductor memory that electrically records information, such as a ROM (Read Only Memory) and a flash memory.
  • auxiliary storage device 303 Various programs to be installed in the auxiliary storage device 303 are installed by, for example, setting the distributed recording medium 330 in the drive device 306 and reading the various programs recorded in the recording medium 330 by the drive device 306. be done. Alternatively, various programs installed in the auxiliary storage device 303 may be installed by being downloaded from the network via the communication device 305 .
  • FIG. 2 shows the hardware configuration of the communication terminal 5, but since each configuration is the same except that the reference numerals have changed from the 300s to the 500s, the description thereof will be omitted.
  • FIG. 3 is a functional configuration diagram of the learning phase in the training data of the language processing device.
  • the language processing device 3 has a reception unit 31, a selection unit 32, a language understanding unit (BERT) 33, a loss calculation unit 35, a parameter update unit 36, and a linear transformation layer . These units are functions realized by instructions from the processor 301 in FIG. 2 based on programs.
  • the memory 302 or the auxiliary storage device 303 in FIG. 2 stores the corpus c, the language understanding unit parameters 33p, and the linear transformation layer 42 parameters 42p.
  • the reception unit 31 receives a plurality of teacher data (a set of input X and answer Y) from the outside and inputs them as a corpus c.
  • the selection unit 32 selects one data (input X and answer Y) as a processing target from a plurality of teacher data as corpus c.
  • the answer Y is composed of three labels, namely, the start point of the answer, the end point of the answer, and the answer possibility.
  • the language understanding unit 33 vectorizes the text pattern of the text data (input X) and extracts the feature amount of the text data.
  • a neural network model of the language understanding unit 33 for example, BERT (Bidirectional Encoder Representations from Transformers) is used.
  • the language understanding unit 33 divides the text data into predetermined words, expresses them as word vectors as input X, inputs this input X to the neural network, and based on the model parameters, Convert to H, which is the feature quantity shown below.
  • L is the text length
  • d is the number of tokens when the input X is divided into tokens, which are predetermined processing units.
  • a token which is a predetermined unit of processing, is indicated as a "word”
  • a number from 0 to L descending from the beginning of each word constituting text data is indicated as a "word position”.
  • Tokens may be aligned with the processing units of the language model, and are generally subwords when using BERT.
  • the loss calculator 35 calculates a loss function value based on the output data of the feature quantity converter 42 .
  • the parameter update unit 36 updates the parameters 33p and 42p based on the output data from the loss calculation unit 35.
  • the feature amount transformation unit 42 linearly transforms the feature amount acquired from the language understanding unit 33 by using the linear transformation layer parameter 42p.
  • the feature quantity conversion unit 42 will be described later in detail.
  • one or two conversion layers are prepared as the feature quantity conversion unit 42 .
  • One linear transformation layer 42a is prepared as the feature quantity conversion unit 42 .
  • NA is prepared only when you want to consider the possibility of answering.
  • Each dimension of NA represents an unanswerable score and an answerable score.
  • FIG. 4 is a functional configuration diagram of the learning phase in the development data of the language processing device.
  • the language processing device 3 includes a selection unit 32, a language understanding unit (BERT) 33, a loss calculation unit 35, a parameter update unit 36, a feature amount conversion unit 42, an n-best extraction unit 43, and an adjustment unit 44. have. These units are functions realized by instructions from the processor 301 in FIG. 2 based on programs.
  • the corpus c the parameters 33p of the language understanding unit, the parameters 42p of the feature quantity conversion unit 42, and the parameters 44p of the adjustment unit 44 are stored. Note that functional configurations similar to those in the learning phase in the training data are denoted by the same reference numerals, and descriptions thereof are omitted.
  • Temperature Scaling is used for the output of the linear transformation layer 42a (Linear Ans ), and Biased Temperature Scaling is used for the output of the linear transformation layer 42b (Linear NoAns ). This is because the number of unanswerable data and answerable data is unbalanced. Temperature Scaling and Biased Temperature Scaling are used here for explanation, but any calibration method as introduced in ⁇ Reference 1> can also be used.
  • the n-best extraction unit 43 extracts predetermined n answer sections from the feature amount of each text data based on the answer start point score and the answer end point score output from the feature amount conversion unit 42, thereby extracting the start point and the feature quantity of the end point are extracted as the feature quantity of answer candidates.
  • the start point and end point should be determined using Equations 3 and 4 and the answer matching score so that the start point is before the end point.
  • the answer relevance score is a value based on the start point score and the end point score. For example, it is indicated by the sum or product of the scores of the start point and the end point, and the sum is used in Equation 13 in this embodiment. ).
  • n extraction there is a case where n feature quantities are extracted in descending order of answer matching score. Any other extraction method can be used. For example, if an extracted answer candidate shares a word with a higher-ranked answer candidate, the extracted answer candidate may be ignored. . A section corresponding to a named entity extracted by an external named entity extraction tool or the like may be used as a negative example.
  • n samples contain the true answer (answer Y).
  • Temperature Scaling performed by the adjustment unit 44 is based on the temperature parameter
  • i,j is the position of the word that becomes the answer, and i,j is an arbitrary integer from 1 to L.
  • the biased temperature scaling performed by the adjustment unit 44 is the temperature parameter
  • i true be the true start point and j true be the end point.
  • s i +e j be the response fitness score for start point i and end point j.
  • the vector of these n scores is the vector of response relevance scores
  • Negative examples are answer candidates other than the true answer selected by the n-best extraction unit 43. .
  • the adjustment unit 44 performs temperature scaling on the vector A of the obtained answer matching scores. Prepare the temperature parameter T A and calculate the CrossEntropy loss with A/T A as the score. The only learnable parameter for this loss is the temperature parameter TA . Since TA scales the scores equally for all labels, the label that achieves the maximum value does not change before and after training, and the output answer does not change.
  • the model uses Temperature Scaling to generate adjusted response fitness scores, which are the output probability distributions.
  • T NA and B NA prepare the temperature parameter T NA and the bias parameter B NA and calculate the CrossEntropy loss.
  • the only learning parameters for this loss are T NA and B NA . Since Biased Temperature Scaling has a bias parameter, the output answer may change before and after learning.
  • the model is the adjusted likelihood score
  • the label output at the time of inference can be the label with the maximum score. If there is no bias parameter, it will be necessary to manually set a threshold value, for example, to output "answerable" only when the probability of answerable is 0.7 or higher.
  • FIG. 5 is a functional block diagram of the inference phase in the test data of the language processing device.
  • the language processing device 3 has a language understanding unit (BERT) 33, a feature amount conversion unit 42, an n-best extraction unit 43, an adjustment unit 44, and an output unit 39.
  • FIG. These units are functions realized by instructions from the processor 301 in FIG. 2 based on programs.
  • parameters 33p of the language understanding unit, parameters 42p of the feature quantity conversion unit 42, and parameters 44p of the adjustment unit 44 are stored.
  • the functional configuration of the learning phase in the training data and the functional configuration of the learning phase in the development data are denoted by the same reference numerals, and descriptions thereof are omitted.
  • the output unit 39 uses the adjusted answer suitability score and the adjusted answer possibility score output by the adjustment unit 44 to calculate the predicted answer and its predicted answer reliability. Specifically, the predicted response and its predicted response reliability are
  • the output unit 39 outputs the predicted answer, predicted answer reliability, predicted answer possibility, and predicted answer possibility reliability as result data.
  • FIG. 6 The description will be divided into a learning phase using training data, a learning phase using development data, and an inference phase using test data.
  • the model is then augmented with a small amount of parameters, and the augmented parameters are trained with development data.
  • the purpose of this learning is to match the probability distribution output by the model with the probability that the output of the model is actually true.
  • Temperature Scaling is known to be simple and high-performance (Reference 1).
  • FIG. 6 is a flow chart showing the processing of the learning phase using training data.
  • the reception unit 31 receives teacher data (set of input X and answer Y) from the outside (S11).
  • the selection unit 32 selects one data (input X and answer Y) as a processing target from the teacher data (S12).
  • the loss calculation unit 35 calculates the loss from the output of the feature quantity conversion unit 42 and the correct answer data Y
  • the parameter updating unit 36 calculates the gradient of the loss
  • the parameter 33p of the language understanding unit 33 and the linear conversion The parameter 42p of the layer 42 is updated (S14).
  • the selection unit 32 determines whether or not the processing of steps S13 and S14 has been completed for all the data by the operations so far (S15). Then, if the processing of all data has not been completed (S15; NO), the process returns to step S13. On the other hand, when all the data have been processed, the selection unit 32 determines whether or not the repeated operations of steps S12 to S15 have been completed a specified number of times (S16). Then, if the specified number of times has not been completed (S16; NO), all the data are regarded as unprocessed, and the process returns to step S12. On the other hand, if the specified number of times has been completed (S16; YES), all the processing of the learning phase using the training data is completed.
  • FIG. 7 is a flow chart showing processing in the learning phase using development data.
  • the reception unit 31 receives teacher data (set of input X and answer Y) from the outside (S21).
  • the selection unit 32 selects one data (input X and answer Y) as a processing target from the teacher data (S22).
  • the selection unit 32 sequentially inputs the data of the input X to the language understanding unit 33, the feature amount conversion unit 42, the n-best extraction unit 43, and the adjustment unit 44, and the above processing is performed in each unit (S23).
  • the loss calculation unit 35 calculates the loss from the output of the adjustment unit 44 and the correct answer data Y, and the parameter update unit 36 calculates the slope of the loss and updates the parameter 44p of the adjustment unit (S24).
  • the selection unit 33 determines whether or not the processing of steps S23 and S24 has been completed for all the data by the operations so far (S25). Then, if the processing of all data has not been completed (S25; NO), the process returns to step S23. On the other hand, when all the data have been processed, the selection unit 32 determines whether or not the repeated operations of steps S22 to S25 have been completed a specified number of times (S26). Then, if the specified number of times has not been completed (S26; NO), all the data are regarded as unprocessed and the process returns to step S22. On the other hand, if the specified number of times has been completed (S26; YES), all the processing of the learning phase using the development data is completed.
  • FIG. 8 is a flow chart showing processing of the inference phase using test data.
  • the input unit 30 receives input of evaluation data (input X) as an evaluation sample sm2 (S31).
  • the data of the input X is sequentially input to the language understanding unit 33, the feature amount conversion unit 42, the n-best extraction unit 43, and the adjustment unit 44, and the above-described processing is performed in each unit (S32).
  • the output unit 39 calculates the answer and reliability from the output of the adjustment unit 44, and outputs result data (S33).
  • FIG. 9 is a diagram showing evaluation results.
  • the SQuAD2.0 dataset was evaluated using random 90% of the official training data as training data, the remaining 10% as development data, and the official development data as test data.
  • the method for extracting negative examples during training and the method for extracting answer candidates during inference were those with a large answer matching score a. 3 was used as n.
  • ECE Extended Calibration Error
  • p(x) ⁇ [0,1] be the probability that the model outputs for sample x.
  • the ECE value is the absolute value of the difference between the average reliability and the actual accuracy rate in each division, and the micro-average value for the division. Since the ECE value corresponds to the expected value of the difference between the reliability output by the model and the actual accuracy rate, the smaller the better.
  • the training data is learned by the language processing device 3 in FIG.
  • both the learning phase and the inference phase perform narrowing down to the n-best, and also perform Biased Temperature Scaling and Temperature Scaling.
  • the threshold for judging the possibility of answering was set at 0.5. That is, the label with the larger score was output.
  • the language processing device 3 performs Temperature Scaling (Biased Temperature Scaling) on the discriminative deep learning model in extraction-type machine reading comprehension, and narrows down to the n-best By learning above, the probability distribution output by the model can be closer to the actual probability that the label is true. As a result, the present embodiment has the effect of being able to calculate the reliability of prediction more appropriately than in the conventional art.
  • Temperature Scaling Biased Temperature Scaling
  • the present invention is not limited to the above-described embodiments, and may be configured or processed (operations) as described below.
  • the language processing device 3 can be realized by a computer and a program, but it is also possible to record this program on a (non-temporary) recording medium or provide it via the communication network 100.
  • a language processing device comprising a processor, The processor Extract features from text data based on neural network model parameters, outputting an answer start point score, an answer end point score, and an answer possibility score using the feature amount as an input based on the model parameters of the neural network; Extracting a predetermined n number of answer suitability scores based on the answer start point score and the answer end point score, obtaining n adjusted answer fitness scores from the n answer fitness scores based on the model parameters of the neural network, and calculating an adjusted answer likelihood score from the answer likelihood scores based on the model parameters of the neural network; and learning the model parameters based on the n adjusted answer suitability scores, the adjusted answer possibility scores, the correct answer interval and the correct answer possibility.
  • a language processing device comprising a processor, The processor Extract features from text data based on pre-trained model parameters of the neural network, outputting an answer start point score, an answer end point score, and an answer possibility score using the feature amount as an input based on pre-learned model parameters of the neural network; Extracting a predetermined n number of answer suitability scores based on the answer start point score and the answer end point score, determining n adjusted answer fitness scores from the n answer fitness scores based on pre-trained model parameters of the neural network, and adjusting answers from the answer likelihood scores based on model parameters of the neural network; find the likelihood score, Calculate a predicted answer, predicted answer confidence, predicted answer probability, and predicted answer possibility confidence from the n adjusted answer suitability scores and the adjusted answer probability score; Language processor.
  • the language processing device a language understanding step for extracting features from text data; A feature amount conversion step of outputting an answer start point score, an answer end point score, and an answer possibility score using the feature amount as an input; an n-best extraction step of extracting a predetermined n number of answer goodness-of-fit scores based on the answer start point score and the answer end point score; determining n adjusted answer relevance scores from the n answer relevance scores and determining an adjusted answerability score from the answerability scores; and run
  • the language understanding step, the feature quantity conversion step, and the adjustment step include processing based on model parameters of a neural network, A language processing method, wherein the model parameters are learned based on the n adjusted answer suitability scores and the adjusted answer possibility scores, as well as correct answer intervals and correct answer possibilities.
  • Appendix 6 A non-transitory recording medium in which a program for causing a computer to execute the method according to claim 5 is recorded.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

予測の信頼度をより適切に算出することを目的とする。 テキストデータから特徴量を抽出する言語理解部(33)と、前記特徴量を入力として、回答始点スコア、回答終点スコア、及び回答可能性スコアを出力する特徴量変換部(42)と、前記回答始点スコア及び前記回答終点スコアに基づいて、所定のn個の回答適合度スコアを抽出するn-best抽出部(43)と、前記n個の回答適合度スコアからn個の調整済み回答適合度スコアを求め、前記回答可能性スコアから調整済み回答可能性スコアを求める調整部(44)と、を有し、前記言語理解部(33)、前記特徴量変換部(42)、及び前記調整部(44)は、ニューラルネットワークのモデルパラメータに基づいて処理を行い、前記n個の調整済み回答適合度スコア及び前記調整済み回答可能性スコア、並びに正解回答区間及び正解回答可能性に基づいて、前記モデルパラメータの学習を行う、言語処理装置(3)。

Description

言語処理装置、画像処理方法、及びプログラム
 本開示内容は、言語処理装置、画像処理方法、及びプログラムに関する。
 ユーザからの質問に対して自然言語で書かれたテキスト(文字情報)を参照しながら、テキストの一区間を抽出することで回答するタスクは、抽出型機械読解と呼ばれる。抽出型機械読解はBERT(Bidirectional Encoder Representations from Transformers)などの識別型深層学習モデルによって解くことが一般的である(非特許文献1)。抽出型機械読解の代表的なデータセットにSQuAD 2.0がある(非特許文献2)。
識別型深層学習モデルが用いられる代表例に、0から9の数字が1つ書かれた画像を入力し、正しいラベル(ここでは数字)を出力するタスクがある。識別型深層学習モデルでは、ラベル集合を台とする確率分布を、各ラベルが真である確率として出力することができる。ここで「台」とは、確率変数がとりうる値の集合である。ラベル集合は0から9の10個の数字である。「各ラベルが真である確率」とは、予測の信頼度と言い換えることができる。
抽出型機械読解に対する識別型深層学習モデルでは、ラベル集合をテキストの位置の集合とする。つまり、テキスト長をLとして {1, …, L}がラベル集合である。抽出する区間の始点と終点をそれぞれラベル集合から選ぶことで、抽出する一区間を決定することができる。また、回答可能性を考慮するために{回答不能,回答可能}のラベルを用意することもできる。このように、始点、終点、回答可能性の2または3個の分類器を用意することが抽出型機械読解に対する識別型深層学習モデルの特徴である。
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Know What You Don't Know: Unanswerable Questions for SQuAD
 しかしながら、一般に深層学習モデルは自信過剰であることが知られている。つまり、識別型深層学習モデルが出力するラベルmが真である確率p(m)は、実際にmが真である確率よりも大きくなる傾向にある。この自信過剰現象は、ユーザに出力の信頼度を提示する場合に大きな問題となる。
 本発明は、上記の点に鑑みてなされたものであって、従来に比べて、予測の信頼度をより適切に算出することを目的とする。
 上記課題を解決するため、請求項1に係る発明は、テキストデータから特徴量を抽出する言語理解部と、前記特徴量を入力として、回答始点スコア、回答終点スコア、及び回答可能性スコアを出力する特徴量変換部と、前記回答始点スコア及び前記回答終点スコアに基づいて、所定のn個の回答適合度スコアを抽出するn-best抽出部と、前記n個の回答適合度スコアからn個の調整済み回答適合度スコアを求め、前記回答可能性スコアから調整済み回答可能性スコアを求める調整部と、を有し、前記言語理解部、前記特徴量変換部、及び前記調整部は、ニューラルネットワークのモデルパラメータに基づいて処理を行い、前記n個の調整済み回答適合度スコア及び前記調整済み回答可能性スコア、並びに正解回答区間及び正解回答可能性に基づいて、前記モデルパラメータの学習を行う、言語処理装置である。
 以上説明したように本発明によれば、従来に比べて、予測の信頼度をより適切に算出することができるという効果を奏する。
本実施形態の通信システムの概略図である。 言語処理装置及び通信端末のハードウェア構成図である。 言語処理装置の訓練データにおける学習フェーズの機能構成図である。 言語処理装置の開発データにおける学習フェーズの機能構成図である。 言語処理装置のテストデータにおける推論フェーズの機能構成図である。 訓練データによる学習フェーズの処理を示すフローチャートである。 開発データによる学習フェーズの処理を示すフローチャートである。 テストデータによる推論フェーズの処理を示すフローチャートである。 評価結果を示す図である。
 以下、図面に基づいて本発明の実施形態を説明する。
 〔実施形態のシステム構成〕
 まず、図1を用いて、本実施形態の通信システム1の構成の概略について説明する。図1は、本発明の実施形態に係る通信システムの概略図である。
 図1に示されているように、本実施形態の通信システム1は、言語処理装置3、及び通信端末5によって構築されている。通信端末5は、ユーザによって管理及び使用される。
 また、言語処理装置3と通信端末5は、インターネット等の通信ネットワーク100を介して通信することができる。通信ネットワーク100の接続形態は、無線又は有線のいずれでも良い。
 言語処理装置3は、単数又は複数のコンピュータによって構成されている。言語処理装置3が複数のコンピュータによって構成されている場合には、「言語処理装置」と示しても良いし、「言語処理類システム」と示しても良い。
 言語処理装置3は、コンピュータであり、深層学習モデルを用いる場合に予測(推論)の信頼度をより適切に算出する装置である。そして、言語処理装置3は、予測した結果である結果データを出力する。出力方法としては、通信端末5に結果データを送信することにより、通信端末5側で結果データに係るグラフ等を表示又は印刷したり、言語処理装置3に接続されたディスプレイで上記グラフ等を表示したり、言語処理装置3に接続されたプリンタ等で上記グラフ等を印刷したりすることが挙げられる。
 通信端末5は、コンピュータであり、図1では、一例としてノート型パソコンが示されているが、ノード型に限るものではなく、デスクトップパソコンであってもよい。また、通信端末は、スマートフォン、又はタブレット型端末であってもよい。図1では、ユーザが、通信端末5を操作する。
 〔言語処理装置及び通信端末のハードウェア構成〕
 次に、図2を用いて、言語処理装置3及び通信端末5のハードウェア構成を説明する。図2は、言語処理装置及び通信端末のハードウェア構成図である。
 図2に示されているように、言語処理装置3は、プロセッサ301、メモリ302、補助記憶装置303、接続装置304、通信装置305、ドライブ装置306を有する。なお、言語処理装置3を構成する各ハードウェアは、バス307を介して相互に接続される。
 プロセッサ301は、言語処理装置3全体の制御を行う制御部の役割を果たし、CPU(Central Processing Unit)等の各種演算デバイスを有する。プロセッサ301は、各種プログラムをメモリ302上に読み出して実行する。なお、プロセッサ301には、GPGPU(General-purpose computing on graphics processing units)が含まれていてもよい。
 メモリ302は、ROM(Read Only Memory)、RAM(Random Access Memory)等の主記憶デバイスを有する。プロセッサ301とメモリ302とは、いわゆるコンピュータを形成し、プロセッサ301が、メモリ302上に読み出した各種プログラムを実行することで、当該コンピュータは各種機能を実現する。
 補助記憶装置303は、各種プログラムや、各種プログラムがプロセッサ301によって実行される際に用いられる各種情報を格納する。
 接続装置304は、外部装置(例えば、表示装置310、操作装置311)と言語処理装置3とを接続する接続デバイスである。
 通信装置305は、他の装置との間で各種情報を送受信するための通信デバイスである。
 ドライブ装置306は記録媒体330をセットするためのデバイスである。ここでいう記録媒体330には、CD-ROM(Compact Disc Read-Only Memory)、フレキシブルディスク、光磁気ディスク等のように情報を光学的、電気的あるいは磁気的に記録する媒体が含まれる。また、記録媒体330には、ROM(Read Only Memory)、フラッシュメモリ等のように情報を電気的に記録する半導体メモリ等が含まれていてもよい。
 なお、補助記憶装置303にインストールされる各種プログラムは、例えば、配布された記録媒体330がドライブ装置306にセットされ、該記録媒体330に記録された各種プログラムがドライブ装置306により読み出されることでインストールされる。あるいは、補助記憶装置303にインストールされる各種プログラムは、通信装置305を介してネットワークからダウンロードされることで、インストールされてもよい。
 また、図2には、通信端末5のハードウェア構成が示されているが、符号が300番台から500番台に変わっただけで、各構成は同様であるため、これらの説明を省略する。
 〔言語処理装置の機能構成〕
 次に、図3を用いて、言語処理装置の機能構成について説明する。
 <訓練データにおける学習フェーズの機能構成>
 図3は、言語処理装置の訓練データにおける学習フェーズの機能構成図である。図3において、言語処理装置3は、受付部31、選択部32、言語理解部(BERT)33、損失計算部35、パラメータ更新部36、線形変換層42を有している。これら各部は、プログラムに基づき図2のプロセッサ301による命令によって実現される機能である。
 更に、図2のメモリ302又は補助記憶装置303には、コーパスc、言語理解部のパラメータ33p、及び線形変換層42のパラメータ42pが記憶されている。
 受付部31は、外部から複数の教師データ(入力Xと回答Yの集合)を受け付け、コーパスcとして入力する。
 選択部32は、コーパスcとしての複数の教師データから処理対象として1データ(入力Xと回答Y)を選択する。 なお,回答Yは回答の始点、回答の終点、回答可能性の3つのラベルから構成され,前2つをまとめて正解回答区間,残りを正解回答可能性と呼称する.
言語理解部33は、テキストデータ(入力X)のテキストパターンをベクトル化して、テキストデータの特徴量を抽出する。言語理解部33のニューラルネットワークモデルとして、例えば、BERT(Bidirectional Encoder Representations from Transformers)が用いられる。
 具体的には、言語理解部33は、テキストデータを所定の単語で分割し、単語ベクトルとして表現した状態のものを入力Xとして、この入力Xをニューラルネットワークに入力し、モデルパラメータに基づいて、以下に示す特徴量であるHに変換する。
Figure JPOXMLDOC01-appb-M000001
とする。dは中間表現の次元、Lはテキスト長であり、入力Xを所定の処理単位であるトークンに分割した際の、トークン数である。なお、本実施形態では、所定の処理単位であるトークンは「単語」と示され、テキストデータを構成する各単語の先頭から順に降った0からLまでの番号は「単語の位置」として示される。なお、トークンは、言語モデルの処理単位と揃えればよく、BERTを用いる場合はサブワードとするのが一般的である。
 損失計算部35は、特徴量変換部42の出力データに基づいて、損失関数値を計算する。
 パラメータ更新部36は、損失計算部35からの出力データに基づいて、各パラメータ33p,42pを更新する。
 特徴量変換部42は、線形変換層用パラメータ42pを用いることで、言語理解部33から取得した特徴量を線形変換する。特徴量変換部42については、後ほど詳細に説明する。
 抽出型機械読解タスクでは、特徴量変換部42として、変換層を1つまたは2つ(線形変換層42a,42b)を用意する。
1つの線形変換層42aである
Figure JPOXMLDOC01-appb-M000002
では、
Figure JPOXMLDOC01-appb-M000003
が各位置の単語が回答の始点であるスコアを表し、
Figure JPOXMLDOC01-appb-M000004
が各位置の単語が回答の終点であるスコアを表す。
 一方、もう1つの線形変換層42bである
Figure JPOXMLDOC01-appb-M000005
は、回答可能性を考慮したい場合のみ用意する。NAの各次元が、回答不能であるスコア、回答可能であるスコアを表す。
 訓練データにおける学習では、S, E, NAをCrossEntropy損失で学習する。この訓練データにおける学習フェーズで学習されたパラメータ33p,42pは全て固定される。
 <開発データにおける学習フェーズの機能構成>
 図4は、言語処理装置の開発データにおける学習フェーズの機能構成図である。図4において、言語処理装置3は、選択部32、言語理解部(BERT)33、損失計算部35、パラメータ更新部36、特徴量変換部42、n-best抽出部43、及び調整部44を有している。これら各部は、プログラムに基づき図2のプロセッサ301による命令によって実現される機能である。
 更に、図2のメモリ302又は補助記憶装置303には、コーパスc、言語理解部のパラメータ33p、特徴量変換部42のパラメータ42p、調整部44のパラメータ44pが記憶されている。なお、訓練データにおける学習フェーズの機能構成と同様の機能構成については、同一の符号を付して説明を省略する。
 開発データにおける学習フェーズでは、線形変換層42a(LinearAns)の出力に対しTemperature Scalingを用い、線形変換層42b(LinearNoAns)の出力に対しBiased Temperature Scalingを用いる。これは、回答不能データと回答可能データの数が不均衡であるためである。ここではTemperature ScalingとBiased Temperature Scalingを用いて説明するが、<参考文献1>に紹介されているような任意のcalibration手法も利用可能である。
 <参考文献1>On Calibration of Modern Neural Networks
 n-best抽出部43は、特徴量変換部42から出力された回答始点スコア、回答終点スコアに基づいて各テキストデータの特徴量のうち、所定のn個の回答区間を抽出することで,始点の特徴量と終点の特徴量を回答候補の特徴量として抽出する。回答区間は、数3、数4及び回答適合度スコアを用い、始点が終点より前になるように始点と終点を定めればよい。回答適合度スコアは、始点スコアと終点スコアに基づいた値である。例えば、始点と終点のスコアの和又は積で示され、本実施形態では数13で和が用いられる。)である。n個の抽出例としては、回答適合度スコアが最も高い順にn個の特徴量を抽出する場合が挙げられる。他に任意の抽出方法を用いることができ,例えば抽出した回答候補が、より上位の回答候補と単語が共通している場合はその回答候補を無視するといった抽出方法を採用してもよい.。外部の固有表現抽出ツールなどで抽出した固有表現に相当する区間を負例として採用してもよい。訓練時は,n個の抽出に必ず真の回答(回答Y)を含むようにする.
 調整部44が実行するTemperature Scalingは、温度パラメータ
Figure JPOXMLDOC01-appb-M000006
を追加し、スコアxを1/T倍する手法である。スコアxを確率分布に変換する際はsoftmax変換
Figure JPOXMLDOC01-appb-M000007
をするため、スコアを1/TにすることでTが大きいときは平坦な確率分布が得られ、Tが小さいときは急な確率分布が得られる。大きいTの値を設定することで、自信過剰現象を抑えることができる。i,jは回答となる単語の位置であり、i,jは、1からLの任意の整数である。
 調整部44が実行するBiased Temperature Scalingは、温度パラメータ
Figure JPOXMLDOC01-appb-M000008
と、バイアスパラメータ
Figure JPOXMLDOC01-appb-M000009
を追加し、スコア
Figure JPOXMLDOC01-appb-M000010
Figure JPOXMLDOC01-appb-M000011
する手法である。
 ここでkはラベル数である。線形変換層42b(LinearNoAns)ではk=2である。バイアスパラメータBが存在することで、不均衡データでもラベルを均等に扱うことが可能になる。
 本実施形態では、まず、線形変換層42bである
Figure JPOXMLDOC01-appb-M000012
に対し、n-best抽出部43への絞り込みを行う。真の始点をitrue、終点をjtrueとする。始点iと終点jに対し、回答適合度スコアをsi+ejとする。
 真の回答適合度スコアは
Figure JPOXMLDOC01-appb-M000013
であり、負例に対しても回答適合度スコア
Figure JPOXMLDOC01-appb-M000014
が計算可能である。これらn個のスコアを並べたベクトルが回答適合度スコアのベクトル
Figure JPOXMLDOC01-appb-M000015
である。
 負例はn-best抽出部43によって選ばれた真の回答以外の回答候補である.。
 次に、調整部44は、得られた回答適合度スコアのベクトルAに対してTemperature Scalingを行う。温度パラメータTAを用意し、A/TAをスコアとしてCrossEntropy損失を計算する。この損失に関する学習可能パラメータは温度パラメータTAのみである。TAは全てのラベルに関してスコアを均等にスケールするため、学習の前後で最大値を達成するラベルが変化せず、出力する回答も変化しない。モデルはTemperature Scalingによって、出力する確率分布である調整済み回答適合度スコア
Figure JPOXMLDOC01-appb-M000016
が、実際に出力が真である確率と一致するように、スケールTAを学習する。
 また、線形変換層42bの出力である回答可能性スコア
Figure JPOXMLDOC01-appb-M000017
に対しては、温度パラメータTNAとバイアスパラメータBNAを用意し、CrossEntropy損失を計算する。この損失に関する学習パラメータはTNA,BNAのみである。Biased Temperature Scalingはバイアスパラメータがあるため、学習の前後で出力する回答が変化しうる。モデルは調整済み回答可能性スコア
Figure JPOXMLDOC01-appb-M000018
が実際に出力が真である確率と一致するようなスケールとバイアスを学習する。開発データにおける学習では、これら2つのCrossEntropy損失の和を損失関数として勾配を計算し、モデルを学習する。
 また、バイアスパラメータの副次的な効果として、推論時のラベルの出力をスコアが最大のラベルとすることができる。バイアスパラメータがない場合、例えば回答可能の確率が0.7以上のときのみ回答可能と出力する、というように閾値を人手で設定する必要が生じる。
 <テストデータにおける推論フェーズの機能構成>
 図5は、言語処理装置のテストデータにおける推論フェーズの機能構成図である。図5において、言語処理装置3は、言語理解部(BERT)33、特徴量変換部42、n-best抽出部43、調整部44、及び出力部39を有している。これら各部は、プログラムに基づき図2のプロセッサ301による命令によって実現される機能である。
 更に、図2のメモリ302又は補助記憶装置303には、言語理解部のパラメータ33p、特徴量変換部42のパラメータ42p、調整部44のパラメータ44pが記憶されている。なお、訓練データにおける学習フェーズの機能構成及び開発データにおける学習フェーズの機能構成と同様の機能構成については、同一の符号を付して説明を省略する。
 推論フェーズでは、出力部39において、調整部44が出力する調整済み回答適合度スコア、調整済み回答可能性スコアを用いて予測回答とその予測回答信頼度を算出する。具体的には予測回答とその予測回答信頼度は、
Figure JPOXMLDOC01-appb-M000019
の最大を達成する区間とその最大値で定義する。
 また、予測回答可能性(回答可能か回答不能かの出力)と予測回答可能性信頼度を
Figure JPOXMLDOC01-appb-M000020
の最大を達成する成分とその最大値で定義する。
 最終的に出力部39は、結果データとして予測回答、予測回答信頼度、予測回答可能性、予測回答可能性信頼度を出力する。
 〔実施形態の処理又は動作〕
 続いて、図6乃至図9を用いて、本実施形態の処理又は動作について詳細に説明する。なお、訓練データによる学習フェーズ、開発データによる学習フェーズ、及びテストデータによる推論フェーズに分けて説明する。
 <処理又は動作の概略>
 上述のように、一般に深層学習モデルは自信過剰であることが知られている。つまり、識別型深層学習モデルが出力するラベルmが真である確率p(m)は、実際にmが真である確率よりも大きくなる傾向にある。この自信過剰現象は、ユーザに出力の信頼度を提示する場合に大きな問題となる。
 そこで、自信過剰現象への一般的な対処法は以下の通りである。
 まず、訓練データでモデルを学習し、パラメータを固定する。次に、モデルに少量のパラメータを増やし、増やしたパラメータを開発データで学習する。この学習では、モデルが出力する確率分布を実際にモデルの出力が真である確率と一致させることが目的である。
 追加するパラメータの構成として様々な手法があるが、Temperature Scalingと呼ばれる手法がシンプルかつ高性能であることが知られている(参考文献1)。
 また、各ラベルのデータ数が不均衡な場合の手法として、(Biased) Temperature Scalingがある(参考文献2)。
<参考文献2>Calibration with Bias-Corrected Temperature Scaling Improves Domain Adaptation Under Label Shift in Modern Neural Networks
 さらに、抽出型機械読解の回答候補の多さへの対策として、n-bestへの絞り込みを行う。つまり、ラベル集合{1, …, L}×{1, …, L}上での確率分布ではなく、{真の回答,負例1,...,負例n-1}上での学習及び推論を行う。
 <訓練データによる学習フェーズ>
 続いて、図6を用いて、訓練データによる学習フェーズについて説明する。図6は、訓練データによる学習フェーズの処理を示すフローチャートである。
 まず、受付部31は、外部から教師データ(入力Xと回答Yの集合)を受け付ける(S11)。
 選択部32は、教師データから処理対象として1データ(入力Xと回答Y)を選択する(S12)。
 そして、入力Xのデータは、言語理解部33、及び特徴量変換部42に順次入力され、各部で上述の処理が行われる(S13)。
 損失計算部35が、特徴量変換部42の出力と、回答である正解データYから損失を計算し、パラメータ更新部36が、損失の勾配を計算し、言語理解部33のパラメータ33pと線形変換層42のパラメータ42pを更新する(S14)。
 次に、選択部32は、これまでの操作で全データに対してステップS13,S14の処理が終了しているか否かを判断する(S15)。そして、全てのデータの処理が終了していない場合には(S15;NO)、上記ステップS13に戻る。一方、全てのデータの処理が終了している場合には、選択部32は、ステップS12~S15の反復操作を規定回数終了したか否かを判断する(S16)。そして、規定回数終了していない場合には(S16;NO)、全てのデータを未処理とみなしてステップS12に戻る。一方、規定回数終了している場合には(S16;YES)、訓練データによる学習フェーズの全ての処理が終了する。
 <開発データによる学習フェーズ>
 続いて、図7を用いて、開発データによる学習フェーズについて説明する。図7は、開発データによる学習フェーズの処理を示すフローチャートである。
 まず、受付部31は、外部から教師データ(入力Xと回答Yの集合)を受け付ける(S21)。
 選択部32は、教師データから処理対象として1データ(入力Xと回答Y)を選択する(S22)。
 そして選択部32は、入力Xのデータを、言語理解部33、特徴量変換部42、n-best抽出部43、調整部44に順次入力し、各部では上述の処理が行われる(S23)。
 損失計算部35が、調整部44の出力と、回答である正解データYから損失を計算し、パラメータ更新部36が、損失の勾配を計算し、調整部のパラメータ44pを更新する(S24)。
 次に、選択部33は、これまでの操作で全データに対してステップS23,S24の処理が終了しているか否かを判断する(S25)。そして、全てのデータの処理が終了していない場合には(S25;NO)、上記ステップS23に戻る。一方、全てのデータの処理が終了している場合には、選択部32は、ステップS22~S25の反復操作を規定回数終了したか否かを判断する(S26)。そして、規定回数終了していない場合には(S26;NO)、全てのデータを未処理とみなしてステップS22に戻る。一方、規定回数終了している場合には(S26;YES)、開発データによる学習フェーズの全ての処理が終了する。
 <テストデータによる推論フェーズ>
 最後に、図8を用いて、テストデータによる推論フェーズについて説明する。図8は、テストデータによる推論フェーズの処理を示すフローチャートである。
 まず、入力部30は、評価サンプルsm2として評価データ(入力X)の入力を受け付ける(S31)。
 次に、入力Xのデータは、言語理解部33、特徴量変換部42、及びn-best抽出部43、調整部44に順次入力され、各部で上述の処理が行われる(S32)。
 次に、出力部39が、調整部44の出力から回答と信頼度を計算して、結果データを出力する(S33)。
 〔評価例〕
 続いて、本実施形態の言語処理装置を用いた評価例について説明する。図9は、評価結果を示す図である。
 本評価では、SQuAD2.0データセットを、公式訓練データのランダムな90%を訓練データ、残り10%を開発データ、公式開発データをテストデータとして評価した。
 本評価例では、訓練時の負例抽出方法と推論時の回答候補抽出方法は、回答適合度スコアaの大きいものとした。nとして3を用いた。また、温度パラメータTを、実装上のモデルのパラメータをT'としてT=exp(T')とした。これは、温度パラメータが正の値を取る必要があるためである。
 回答自体の評価尺度として、回答不能及び回答可能のラベルの完全一致率と、回答可能であった場合の回答区間の完全一致率を用いる。また、信頼度の評価尺度として、ECE(Expected Calibration Error)を用いる。具体的には以下の通り計算する。
 サンプルxに対してモデルが出力する確率をp(x)∈[0,1]とする。次に[0, 1]を10分割する。たとえば、分割[0, 0.1]について、p(x)∈[0, 0.1]となるサンプル全ての集合に関して、p(x)の平均を計算する。これが分割[0, 0.1)における信頼度の平均である。また、そのサンプル集合に関して、モデル出力の完全一致率を計算する。これが分割[0, 0.1]における実際の正解率である。各分割において信頼度の平均と実際の正解率の差の絶対値を取り、分割に関するミクロ平均を取った値がECE値である。ECE値はモデルが出力する信頼度と実際の正解率の差の期待値に相当するため、小さいほどよい。
 比較手法は、図3の言語処理装置3によって訓練データにおける学習を行って、通常通りの手法で信頼度を出力した手法、同じく図3の言語処理装置3によって訓練データにおける学習を行って推論フェーズのみでn-bestへの絞り込みを行って信頼度を出力した手法、本実施形態の一連の処理の3つである。なお、本実施形態の一連の処理では、学習フェーズ及び推論フェーズの両方において、n-bestへの絞り込みが実行されると共に、Biased Temperature Scaling及びTemperature Scalingが実行される。全ての手法において、回答可能性判定の閾値を0.5に設定した。つまり、スコアの大きい方のラベルを出力した。
 図9に結果を表で示す。単位は全て%である。本実施形態は、回答区間に関する完全一致率を損なうことなくECEを改善している。n-bestによる信頼度はモデルに単に適用した場合はECEを悪化させるが、本実施形態によって学習時にも用いることでECEの改善に貢献している。回答可能性に関しては、バイアスパラメータの存在により完全一致が僅かに向上している。ECEも改善していることがわかる。
 〔実施形態の主な効果〕
 以上説明したように本実施形態によれば、言語処理装置3は、抽出型機械読解における識別型深層学習モデルに、Temperature Scaling(Biased Temperature Scaling)を実施し、n-bestへの絞り込みを行った上で学習することで、モデルの出力する確率分布を実際にラベルが真である確率に近づけることができる。これにより、本実施形態は、従来に比べて、予測の信頼度をより適切に算出することができるという効果を奏する。
 〔補足〕
 本発明は上述の実施形態に限定されるものではなく、以下に示すような構成又は処理(動作)であってもよい。
 言語処理装置3はコンピュータとプログラムによって実現できるが、このプログラムを(非一時的)記録媒体に記録することも、通信ネットワーク100を介して提供することも可能である。
 〔付記項〕
 上述の実施形態には、以下に示す発明としても表すことができる。
 〔付記項1〕
 プロセッサを有する言語処理装置であって、
 前記プロセッサは、
 ニューラルネットワークのモデルパラメータに基づきテキストデータから特徴量を抽出し、
 前記ニューラルネットワークのモデルパラメータに基づき前記特徴量を入力として、回答始点スコア、回答終点スコア、及び回答可能性スコアを出力し、
 前記回答始点スコア及び前記回答終点スコアに基づいて、所定のn個の回答適合度スコアを抽出し、
 前記ニューラルネットワークのモデルパラメータに基づき前記n個の回答適合度スコアからn個の調整済み回答適合度スコアを求め、前記ニューラルネットワークのモデルパラメータに基づき前記回答可能性スコアから調整済み回答可能性スコアを求め、前記n個の調整済み回答適合度スコア及び前記調整済み回答可能性スコア、並びに正解回答区間及び正解回答可能性に基づいて、前記モデルパラメータの学習を行う、言語処理装置。
 〔付記項2〕
 前記n-best抽出ステップは、スコアが最も高い順にn個の前記回答適合度スコアを抽出する処理を含む、付記項1に記載の言語処理装置。
 〔付記項3〕
 前記n個の調整済み回答適合度スコアと、前記調整済み回答可能性スコアは、前記ニューラルネットワークによるBiased Temperature Scaling及びTemperature Scalingに基づいて求められることを特徴とする、付記項1又は2に記載の言語処理装置。
〔付記項4〕
 プロセッサを有する言語処理装置であって、
 前記プロセッサは、
 ニューラルネットワークの予め学習済みのモデルパラメータに基づきテキストデータから特徴量を抽出し、
 前記ニューラルネットワークの予め学習済みのモデルパラメータに基づき前記特徴量を入力として、回答始点スコア、回答終点スコア、及び回答可能性スコアを出力し、
 前記回答始点スコア及び前記回答終点スコアに基づいて、所定のn個の回答適合度スコアを抽出し、
 前記ニューラルネットワークの予め学習済みのモデルパラメータに基づき前記n個の回答適合度スコアからn個の調整済み回答適合度スコアを求め、前記ニューラルネットワークのモデルパラメータに基づき前記回答可能性スコアから調整済み回答可能性スコアを求め、
 前記n個の調整済み回答適合度スコア及び前記調整済み回答可能性スコアから、予測回答、予測回答信頼度、予測回答可能性、及び予測回答可能性信頼度を算出する、
 言語処理装置。
 〔付記項5〕
 言語処理装置は、
 テキストデータから特徴量を抽出する言語理解ステップと、
 前記特徴量を入力として、回答始点スコア、回答終点スコア、及び回答可能性スコアを出力する特徴量変換ステップと、
 前記回答始点スコア及び前記回答終点スコアに基づいて、所定のn個の回答適合度スコアを抽出するn-best抽出ステップと、
 前記n個の回答適合度スコアからn個の調整済み回答適合度スコアを求め、前記回答可能性スコアから調整済み回答可能性スコアを求める調整ステップと、
 を実行し、
 前記言語理解ステップ、前記特徴量変換ステップ、及び前記調整ステップは、ニューラルネットワークのモデルパラメータに基づく処理を含み、
 前記n個の調整済み回答適合度スコア及び前記調整済み回答可能性スコア、並びに、正解回答区間及び正解回答可能性に基づいて前記モデルパラメータの学習を行う、言語処理方法。
 〔付記項6〕
 コンピュータに、付記項5に記載の方法を実行させるプログラムが記録された非一時的記録媒体。
1 通信システム
3 言語処理装置
5 通信端末
30 入力部
31 受付部
32 選択部
33 言語理解部
35 損失計算部
36 パラメータ更新部
39 出力部
42 特徴量変換部
43 n-best抽出部
44 調整部

Claims (7)

  1.  テキストデータから特徴量を抽出する言語理解部と、
     前記特徴量を入力として、回答始点スコア、回答終点スコア、及び回答可能性スコアを出力する特徴量変換部と、
     前記回答始点スコア及び前記回答終点スコアに基づいて、所定のn個の回答適合度スコアを抽出するn-best抽出部と、
     前記n個の回答適合度スコアからn個の調整済み回答適合度スコアを求め、前記回答可能性スコアから調整済み回答可能性スコアを求める調整部と、
     を有し、
     前記言語理解部、前記特徴量変換部、及び前記調整部は、ニューラルネットワークのモデルパラメータに基づいて処理を行い、
     前記n個の調整済み回答適合度スコア及び前記調整済み回答可能性スコア、並びに正解回答区間及び正解回答可能性に基づいて、前記モデルパラメータの学習を行う、言語処理装置。
  2.  前記n-best抽出部は、スコアが最も高い順にn個の前記回答適合度スコアを抽出する、請求項1に記載の言語処理装置。
  3.  前記調整部は、Biased Temperature Scaling及びTemperature Scalingに基づく処理を行う、請求項1又は2に記載の言語処理装置。
  4.  テキストデータから特徴量を抽出する言語理解部と、
     前記特徴量を入力として、回答始点スコア、回答終点スコア、及び回答可能性スコアを出力する特徴量変換部と、
     前記回答始点スコア及び前記回答終点スコアに基づいて、所定のn個の回答適合度スコアを抽出するn-best抽出部と、
     前記n個の回答適合度スコアからn個の調整済み回答適合度スコアを求め、前記回答可能性スコアから調整済み回答可能性スコアを求める調整部と、
     前記n個の調整済み回答適合度スコア及び前記調整済み回答可能性スコアから、予測回答、予測回答信頼度、予測回答可能性、及び予測回答可能性信頼度を算出する出力部と、
     を有し、
     前記言語理解部及び前記特徴量変換部は、前記n個の回答適合度スコア及び前記回答可能性スコア、並びに正解回答区間及び正解回答可能性に基づいて、予め学習済みのニューラルネットワークの前記モデルパラメータに基づいて処理を行う、言語処理装置。
  5.  請求項1乃至3のいずれか一項に記載の言語処理装置と、
     通信ネットワークを介して前記言語処理装置から結果データを受信する通信端末と、
     有する通信システム。
  6.  言語処理装置は、
     テキストデータから特徴量を抽出する言語理解ステップと、
     前記特徴量を入力として、回答始点スコア、回答終点スコア、及び回答可能性スコアを出力する特徴量変換ステップと、
     前記回答始点スコア及び前記回答終点スコアに基づいて、所定のn個の回答適合度スコアを抽出するn-best抽出ステップと、
     前記n個の回答適合度スコアからn個の調整済み回答適合度スコアを求め、前記回答可能性スコアから調整済み回答可能性スコアを求める調整ステップと、
     を実行し、
     前記言語理解ステップ、前記特徴量変換ステップ、及び前記調整ステップは、ニューラルネットワークのモデルパラメータに基づく処理を含み、
     前記n個の調整済み回答適合度スコア及び前記調整済み回答可能性スコア、並びに、正解回答区間及び正解回答可能性に基づいて前記モデルパラメータの学習を行う、言語処理方法。
  7.  コンピュータに、請求項6に記載の方法を実行させるプログラム。
PCT/JP2021/044790 2021-12-06 2021-12-06 言語処理装置、画像処理方法、及びプログラム WO2023105596A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/044790 WO2023105596A1 (ja) 2021-12-06 2021-12-06 言語処理装置、画像処理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/044790 WO2023105596A1 (ja) 2021-12-06 2021-12-06 言語処理装置、画像処理方法、及びプログラム

Publications (1)

Publication Number Publication Date
WO2023105596A1 true WO2023105596A1 (ja) 2023-06-15

Family

ID=86729801

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/044790 WO2023105596A1 (ja) 2021-12-06 2021-12-06 言語処理装置、画像処理方法、及びプログラム

Country Status (1)

Country Link
WO (1) WO2023105596A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014196375A1 (ja) * 2013-06-03 2014-12-11 独立行政法人情報通信研究機構 翻訳装置、学習装置、翻訳方法、および記録媒体
JP2020061173A (ja) * 2018-06-18 2020-04-16 日本電信電話株式会社 回答学習装置、回答学習方法、回答生成装置、回答生成方法、及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014196375A1 (ja) * 2013-06-03 2014-12-11 独立行政法人情報通信研究機構 翻訳装置、学習装置、翻訳方法、および記録媒体
JP2020061173A (ja) * 2018-06-18 2020-04-16 日本電信電話株式会社 回答学習装置、回答学習方法、回答生成装置、回答生成方法、及びプログラム

Similar Documents

Publication Publication Date Title
US11113479B2 (en) Utilizing a gated self-attention memory network model for predicting a candidate answer match to a query
JP6712642B2 (ja) モデル学習装置、その方法、及びプログラム
JP7120433B2 (ja) 回答生成装置、回答学習装置、回答生成方法、及び回答生成プログラム
US10580432B2 (en) Speech recognition using connectionist temporal classification
JP7247878B2 (ja) 回答学習装置、回答学習方法、回答生成装置、回答生成方法、及びプログラム
US11693854B2 (en) Question responding apparatus, question responding method and program
WO2010125736A1 (ja) 言語モデル作成装置、言語モデル作成方法、およびコンピュータ読み取り可能な記録媒体
JP7070653B2 (ja) 学習装置、音声認識順位推定装置、それらの方法、およびプログラム
WO2018062265A1 (ja) 音響モデル学習装置、その方法、及びプログラム
JP2017016384A (ja) 混合係数パラメータ学習装置、混合生起確率算出装置、及び、これらのプログラム
CN114298287A (zh) 基于知识蒸馏的预测方法和装置、电子设备、存储介质
CN112084301B (zh) 文本修正模型的训练方法及装置、文本修正方法及装置
CN113988300A (zh) 一种题目结构推理方法及系统
CN110275928B (zh) 迭代式实体关系抽取方法
Nakamachi et al. Text simplification with reinforcement learning using supervised rewards on grammaticality, meaning preservation, and simplicity
JP5355512B2 (ja) モデルパラメータ学習装置、方法、及びそのプログラム
JP6586026B2 (ja) 単語ベクトル学習装置、自然言語処理装置、方法、及びプログラム
WO2023105596A1 (ja) 言語処理装置、画像処理方法、及びプログラム
WO2020090651A1 (ja) 音響モデル学習装置、モデル学習装置、それらの方法、およびプログラム
CN113010687B (zh) 一种习题标签预测方法、装置、存储介质以及计算机设备
WO2020162240A1 (ja) 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体
JP7359028B2 (ja) 学習装置、学習方法、および、学習プログラム
CN115017321A (zh) 一种知识点预测方法、装置、存储介质以及计算机设备
JP2021184217A (ja) モデル生成プログラム、モデル生成装置、及びモデル生成方法
JP2020140674A (ja) 回答選択装置及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21967102

Country of ref document: EP

Kind code of ref document: A1