WO2023243036A1 - 情報処理装置、プログラム及び情報処理方法 - Google Patents
情報処理装置、プログラム及び情報処理方法 Download PDFInfo
- Publication number
- WO2023243036A1 WO2023243036A1 PCT/JP2022/024125 JP2022024125W WO2023243036A1 WO 2023243036 A1 WO2023243036 A1 WO 2023243036A1 JP 2022024125 W JP2022024125 W JP 2022024125W WO 2023243036 A1 WO2023243036 A1 WO 2023243036A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- learning
- unit
- learning model
- attention mechanism
- variable
- Prior art date
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 57
- 238000003672 processing method Methods 0.000 title claims description 4
- 238000011156 evaluation Methods 0.000 claims abstract description 111
- 238000000605 extraction Methods 0.000 claims description 43
- 238000012545 processing Methods 0.000 claims description 30
- 239000000284 extract Substances 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 2
- 238000012549 training Methods 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 17
- 238000000034 method Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Definitions
- the present disclosure relates to an information processing device, a program, and an information processing method.
- Non-Patent Document 1 describes that translation accuracy can be improved by using an attention mechanism in natural language translation using a neural network.
- one or more aspects of the present disclosure aim to make it possible to easily understand the learning state of a learning model using an attention mechanism.
- An information processing device uses an attention mechanism learning model that is a learning model of an attention mechanism to calculate a context variable by weighting and adding a plurality of time-series variables. and a determination unit that estimates one judgment included in the plurality of judgments based on reliability of the plurality of judgments calculated from the context variable and the latest one variable included in the plurality of variables. , comprising a storage unit that stores result information in which the context variable and the one judgment are associated with each other, and an evaluation unit that evaluates at least the learning state of the attention mechanism learning model from the result information. do.
- a program calculates a context variable by causing a computer to weight and add a plurality of time-series variables using an attention mechanism learning model that is a learning model of an attention mechanism.
- a mechanism unit a determination unit that estimates one judgment included in the plurality of judgments based on reliability of the plurality of judgments calculated from the context variable and the latest one variable included in the plurality of variables; It is characterized by functioning as a storage unit that stores result information in which the context variable and the one judgment are associated, and an evaluation unit that evaluates at least the learning state of the attention mechanism learning model from the result information. do.
- An information processing method calculates a context variable by weighting and adding a plurality of time-series variables using an attention mechanism learning model that is a learning model of an attention mechanism.
- One judgment included in the plurality of judgments is estimated based on the reliability of the plurality of judgments calculated from the context variable and the latest one variable included in the plurality of variables, and the one judgment included in the plurality of judgments is estimated.
- the present invention is characterized in that result information in which two judgments are associated with each other is stored, and at least the learning state of the attention mechanism learning model is evaluated based on the result information.
- FIG. 1 is a block diagram schematically showing the configuration of an information processing device according to Embodiment 1.
- FIG. (A) and (B) are block diagrams showing examples of hardware configurations.
- FIG. 2 is a schematic diagram for explaining processing in the information processing device according to the first embodiment.
- 2 is a block diagram schematically showing the configuration of an information processing device according to a second embodiment.
- FIG. 7 is a schematic diagram for explaining processing in the information processing device according to Embodiment 2.
- FIG. 3 is a block diagram schematically showing the configuration of an information processing device according to a third embodiment.
- FIG. FIG. 7 is a schematic diagram for explaining processing in an information processing apparatus according to Embodiment 3.
- FIG. FIG. 3 is a block diagram schematically showing the configuration of an information processing device according to a fourth embodiment.
- FIG. 7 is a schematic diagram for explaining processing in an information processing device according to a fourth embodiment.
- FIG. 1 is a block diagram schematically showing the configuration of an information processing apparatus 100 according to the first embodiment.
- the information processing device 100 includes a storage section 101, a communication section 102, an input section 103, a display section 104, and a control section 110.
- the storage unit 101 stores programs and data necessary for processing by the information processing device 100.
- the storage unit 101 stores at least an attention mechanism learning model that is a learning model used in the attention mechanism executed by the control unit 110.
- the storage unit 101 also stores an extraction learning model and a judgment learning model, as described later.
- the storage unit 101 stores result information in which the judgment result determined by the control unit 110 using the estimation result by the attention mechanism is associated with the estimation result.
- the communication unit 102 communicates with other devices.
- the communication unit 102 communicates with other devices via a network such as the Internet.
- the input unit 103 receives input from the user of the information processing apparatus 100.
- the display unit 104 displays information to the user of the information processing device 100. For example, the display unit 104 displays various screen images.
- the control unit 110 controls processing in the information processing device 100. For example, the control unit 110 calculates a context state variable by performing weighted addition of state variables, which are variables necessary for making a judgment, using an attention mechanism, and estimates a certain judgment from the context state variable. Then, the control unit 110 associates the context state variable with the judgment estimated from the context state variable, and stores the result information in the storage unit 101.
- state variables which are variables necessary for making a judgment, using an attention mechanism
- the control unit 110 associates the context state variable with the judgment estimated from the context state variable, and stores the result information in the storage unit 101.
- a state variable is also simply called a variable
- a context state variable is also simply called a context variable.
- control unit 110 uses the result information stored in the storage unit 101 to evaluate the learning state of at least the learning model used in the attention mechanism. Note that in the first embodiment, the control unit 110 evaluates the learning states of the extraction learning model, the attention mechanism learning model, and the judgment learning model, as described later.
- the control unit 110 includes a data acquisition unit 111 , a variable extraction unit 112 , a caution mechanism unit 113 , a determination unit 114 , and an evaluation unit 115 .
- the data acquisition unit 111 acquires input data.
- the data acquisition unit 111 may acquire input data via the communication unit 102, for example. Furthermore, if the input data is stored in the storage unit 101, the data acquisition unit 111 may acquire the input data from the storage unit 101.
- the variable extraction unit 112 extracts state variables, which are variables that can be used for judgment, from the input data acquired by the data acquisition unit 111.
- the variable extraction unit 112 extracts state variables using an extraction learning model that is a learning model for extracting state variables from input data.
- the attention mechanism unit 113 calculates a context state variable by performing a weighted sum using a known attention mechanism on the state variables extracted by the variable extraction unit 112. For example, the attention mechanism unit 113 weights the state variables extracted by the variable extraction unit 112 using the learning model stored in the storage unit 101, and adds the weighted state variables. A context state variable is calculated as the estimation result.
- the judgment unit 114 determines the reliability of the plurality of judgments based on the reliability of the plurality of judgments calculated from the context state variable estimated by the attention mechanism unit 113 and the latest state variable included in the plurality of state variables. One judgment included in a plurality of judgments is estimated from one judgment included. Then, the judgment unit 114 associates that one judgment with the context state variable and stores it in the storage unit 101 as result information. Here, the judgment unit 114 performs estimation using a judgment learning model that is a learning model for estimating one judgment from a context variable.
- the evaluation unit 115 evaluates the learning state of at least the attention mechanism learning model, which is the learning model used by the attention mechanism unit 113, from the result information stored in the storage unit 101. Note that in the first embodiment, the evaluation unit 115 evaluates the learning states of the extraction learning model, the attention mechanism learning model, and the judgment learning model. However, if state variables are not extracted from the input data, the evaluation unit 115 evaluates the learning states of the attention mechanism learning model and the judgment learning model.
- the evaluation unit 115 identifies multiple clusters by performing clustering for each of multiple determinations, and performs evaluation based on the distance or similarity between the multiple clusters. In this case, the shorter the distance or the higher the similarity, the lower the evaluation.
- Part or all of the control unit 110 described above includes, for example, the memory 10 and a CPU (Central Processing Unit) that executes a program stored in the memory 10, as shown in FIG. 2(A). ) and the like.
- the information processing device 100 can be realized by a so-called computer.
- Such a program may be provided through a network, or may be provided recorded on a recording medium. That is, such a program may be provided as a program product, for example.
- control unit 110 may include, for example, a single circuit, a composite circuit, a processor that operates on a program, a parallel processor that operates on a program, an ASIC (Application It can also be configured with a processing circuit 12 such as a specific integrated circuit (specific integrated circuit) or an FPGA (field programmable gate array). As described above, the control unit 110 can be realized by a processing circuit network.
- the storage unit 101 can be realized by a storage device such as an HDD (Hard Disk Drive) or an SSD (Solid State Drive).
- the communication unit 102 can be realized by a communication interface such as a NIC (Network Interface Card).
- the input unit 103 can be realized by an input interface such as a keyboard or a mouse.
- the display unit 104 can be realized by a display.
- FIG. 3 is a schematic diagram for explaining processing in the information processing apparatus 100 according to the first embodiment.
- the data acquisition unit 111 acquires input data X tn , X tn+1 , X t-1 , and X t (S10).
- the input data X t-n , X t-n+1 , X t-1 , and X t are sensor values as observed values, and the time series t-n, t-n+1, t-1, t(t and n are positive integers).
- image data can be used as the input data.
- the data acquisition section 111 provides the acquired input data X tn , X t-n+1 , X t-1 , and X t to the variable extraction section 112 .
- the variable extraction unit 112 extracts state variables S tn , S t from the input data X t-n , X t-n+1 , X t-1 , X t which are variables advantageous for the judgment unit 114 to make a judgment . -n+1 , S t-1 and S t are extracted (S11).
- the variable extraction unit 112 uses an extraction learning model that is a neural network model stored in the storage unit 101 to extract states from input data X tn , X tn+1 , X t-1 , and X t .
- the variables S t-n , S t-n+1 , S t-1 , and S t are extracted.
- variable extraction unit 112 provides the extracted state variables S tn , S tn+1 , S t-1 , and S t to the attention mechanism unit 113 .
- the variable extraction unit 112 uses an extraction learning model here, the first embodiment is not limited to such an example, and uses some function to determine the state variables S tn , S tn+1 , S t-1 , and S t may be extracted.
- the attention mechanism unit 113 uses the learning model to estimate weight values for the state variables S t-n , S t-n+1 , S t-1 , and S t and calculates a weighted sum, thereby determining the context. State variables are calculated (S12). The attention mechanism unit 113 provides the calculated context state variable to the determination unit 114.
- the determining unit 114 makes a determination based on the context state variable and the latest state variable St (S13).
- the judgment unit 114 uses a judgment learning model that is a neural network model stored in the storage unit 101 to estimate a judgment from the context state variable and the latest state variable.
- the judgment unit 114 stores the judgment and the context state variable in the storage unit 101 as result information in association with each other, thereby accumulating result information (S14).
- the evaluation unit 115 uses the result information stored in the storage unit 101 to evaluate at least the learning state of the learning model used by the attention mechanism unit 113. For example, in order to facilitate evaluation, the evaluation unit 115 converts N-dimensional data obtained by clustering result information for each determination into lower-dimensional data (S15). Specifically, the evaluation unit 115 visualizes clusters for each determination by converting the N-dimensional data into two-dimensional data using T-sne (T-Distributed Stochastic Neighbor Embedding).
- T-sne T-Distributed Stochastic Neighbor Embedding
- the evaluation unit 115 evaluates the learning state, for example, by calculating the distance or similarity between clusters as an evaluation value (S16). For example, the evaluation unit 115 performs evaluation by comparing evaluation values between clusters with a threshold value. Specifically, the evaluation unit 115 determines that learning is insufficient when the distance between clusters is less than a predetermined threshold, or when the degree of similarity between clusters is higher than a predetermined threshold. I judge that. Note that the determination result of the evaluation unit 115 may be displayed on the display unit 104, for example.
- the learning state of the learning model using the attention mechanism can be easily grasped.
- FIG. 4 is a block diagram schematically showing the configuration of information processing device 200 according to the second embodiment.
- the information processing device 200 includes a storage section 101 , a communication section 102 , an input section 103 , a display section 104 , and a control section 210 .
- the storage unit 101, the communication unit 102, the input unit 103, and the display unit 104 of the information processing device 200 according to the second embodiment are the same as the storage unit 101, the communication unit 102, the input unit 103 of the information processing device 100 according to the first embodiment. and the display unit 104.
- the control unit 210 controls processing in the information processing device 200.
- the control unit 210 in the second embodiment performs the same processing as the control unit 110 in the first embodiment, and also performs the following processing.
- the control unit 210 performs learning of the learning model using additional learning data, which is additional learning data, according to the evaluation result of the learning state.
- the control section 210 includes a data acquisition section 111 , a variable extraction section 112 , a caution mechanism section 113 , a judgment section 114 , an evaluation section 215 , and an additional learning section 216 .
- the data acquisition section 111, the variable extraction section 112, the attention mechanism section 113, and the judgment section 114 of the control section 210 in the second embodiment are the same as the data acquisition section 111, the variable extraction section 112, the attention mechanism of the control section 110 in the first embodiment. This is similar to the section 113 and the determining section 114.
- the evaluation unit 215 uses the result information stored in the storage unit 101 to evaluate at least the learning state of the learning model used by the attention mechanism unit 113.
- the evaluation unit 215 then provides the evaluation result to the additional learning unit 216.
- the evaluation unit 215 generates evaluation information indicating whether learning is sufficient by comparing the evaluation value with a threshold value for each combination of two clusters, and sends the evaluation information to the additional learning unit 216. give.
- the additional learning unit 216 performs additional learning by referring to the evaluation information from the evaluation unit 215 and providing additional learning data to the variable extraction unit 112.
- the additional learning unit 216 learns at least the attention mechanism learning model using additional learning data that is additional learning data when the evaluation by the evaluation unit 215 is lower than a predetermined threshold.
- the additional learning unit 216 learns an extraction learning model, a judgment learning model, and an attention mechanism learning model.
- the additional learning unit 216 performs learning using, as additional learning data, learning data in which the correct answer is a judgment whose evaluation is lower than a predetermined threshold value among a plurality of judgments.
- the additional learning unit 216 may provide the variable extraction unit 112 with learning data classified into two clusters for which learning is determined to be insufficient as additional learning data.
- the additional learning data may be acquired from another device via the communication unit 102, or may be stored in the storage unit 101, for example. The user may instruct, for example, via the input unit 103, where to acquire the additional learning data.
- FIG. 5 is a schematic diagram for explaining processing in the information processing device 200 according to the second embodiment.
- the processing from S10 to S15 in FIG. 5 is the same as the processing from S10 to S15 shown in FIG.
- the evaluation unit 215 evaluates the learning state by calculating, for example, the distance or similarity between clusters as an evaluation value, and generates evaluation information indicating the evaluation result (S26).
- the evaluation information is information indicating whether learning is sufficient for each combination of two clusters.
- the generated evaluation information is given to the additional learning section 216.
- the additional learning unit 216 refers to the evaluation information and generates learning data classified into the cluster determined to be insufficiently learned as additional learning data (S27), and uses the additional learning data as the variable extraction unit 112. Perform additional learning by giving
- the evaluation unit 215 may use one threshold value to determine whether learning is sufficient, but for example, by using multiple threshold values, risk management of the determination can be performed. Specifically, for judgments such as "stopping" and "accelerating” a vehicle, between clusters that must not be wrong, the distance must be long or the similarity must be low, so the threshold is adjusted. This allows for risk management of decisions.
- FIG. 6 is a block diagram schematically showing the configuration of information processing device 300 according to the third embodiment.
- the information processing device 300 includes a storage section 101, a communication section 102, an input section 103, a display section 104, and a control section 310.
- the storage unit 101, the communication unit 102, the input unit 103, and the display unit 104 of the information processing device 300 according to the third embodiment are the same as the storage unit 101, the communication unit 102, the input unit 103 of the information processing device 100 according to the first embodiment. and the display unit 104.
- the control unit 310 controls processing in the information processing device 300.
- the control unit 310 in the third embodiment performs the same processing as the control unit 110 in the first embodiment, and also performs the following processing.
- the control unit 310 selects learning data according to the evaluation result of the learning state, and uses the selected learning data to perform learning of the learning model.
- the control section 310 includes a data acquisition section 111 , a variable extraction section 112 , an attention mechanism section 113 , a judgment section 114 , an evaluation section 315 , a learning data selection section 317 , and a learning section 318 .
- the data acquisition section 111, the variable extraction section 112, the attention mechanism section 113, and the judgment section 114 of the control section 310 in the third embodiment are the same as the data acquisition section 111, the variable extraction section 112, the attention mechanism of the control section 110 in the first embodiment. This is similar to the section 113 and the determining section 114.
- the evaluation unit 315 uses the result information stored in the storage unit 101 to evaluate at least the learning state of the learning model used by the attention mechanism unit 113.
- the evaluation unit 315 provides the learning data selection unit 317 with evaluation value information indicating an evaluation value for each combination of two clusters.
- the learning data selection unit 317 refers to the evaluation value information from the evaluation unit 315 and selects at least learning data for learning the attention mechanism learning model.
- the learning data selection unit 317 performs selection such that the lower the evaluation corresponding to one judgment, the greater the number of learning data for which that one judgment is correct.
- the learning data selection unit 317 determines the number of learning data to be classified into the cluster as the evaluation value indicated by the evaluation value information is lower, in other words, the shorter the distance or the higher the similarity. Select the training data so that there is a large amount of data.
- the learning data may be stored in the storage unit 101 or in another device. If the learning data is stored in another device, the learning data selection unit 317 may access the other device via the communication unit 102 and select the learning data.
- the learning unit 318 uses the learning data selected by the learning data selection unit 317 to learn at least the attention mechanism learning model. For example, the learning unit 318 performs learning by providing the learning data selected by the learning data selection unit 317 to the variable extraction unit 112.
- FIG. 7 is a schematic diagram for explaining processing in the information processing device 300 according to the third embodiment.
- FIG. 7 shows a process when learning is performed using learning data in the information processing device 300.
- the learning data selection unit 317 provides the learning data selected without referring to the evaluation value information to the learning unit 318 as initial learning data.
- the learning unit 318 performs initial learning by providing the initial learning data to the variable extraction unit 112, and the learning data is selected according to the evaluation result in the initial learning.
- the processing from S11 to S15 in FIG. 7 is the same as the processing from S11 to S15 shown in FIG. 3.
- the evaluation unit 315 evaluates the learning state by calculating, for example, the distance or similarity between clusters as an evaluation value, and also generates an evaluation indicating the evaluation value for each combination of two clusters. Value information is generated (S36). The generated evaluation value information is given to the learning data selection section 317.
- the learning data selection unit 317 refers to the evaluation value information and selects learning data such that the lower the evaluation based on the evaluation value indicated by the evaluation value information, the greater the number of learning data classified into the cluster. (S37). The learning data selection unit 317 then provides the selected learning data to the learning unit 318.
- the learning unit 318 performs learning by providing the learning data selected by the learning data selection unit 317 to the variable extraction unit 112 (S38).
- Embodiment 3 when learning a learning model using an attention mechanism, learning can be performed efficiently by selecting learning data to be learned intensively.
- the learning data selection unit 317 selects the learning data in such a way that the lower the evaluation based on the evaluation value indicated by the evaluation value information, the greater the number of learning data classified into that cluster.
- Form 3 is not limited to such an example.
- clusters that should not be mistaken such as "stopping" and "accelerating” a vehicle, can be set in the learning data selection unit 317 in advance as clusters that should be learned intensively.
- the learning data selection unit 317 can make selections such that the number of learning data for such clusters increases.
- the learning data selection unit 317 increases the amount of learning data to be selected by adding or multiplying a weight value that lowers the evaluation value for clusters that should be studied intensively. be able to.
- Such settings may be made by the user via the input unit 103, for example.
- FIG. 8 is a block diagram schematically showing the configuration of information processing device 400 according to the fourth embodiment.
- the information processing device 400 includes a storage section 101, a communication section 102, an input section 103, a display section 104, and a control section 410.
- the storage unit 101, the communication unit 102, the input unit 103, and the display unit 104 of the information processing device 400 according to the fourth embodiment are the same as the storage unit 101, the communication unit 102, the input unit 103 of the information processing device 100 according to the first embodiment. and the display unit 104.
- the control unit 410 controls processing in the information processing device 400.
- Control unit 410 in Embodiment 4 performs the same processing as control unit 110 in Embodiment 1, and also performs the following processing.
- the control unit 410 determines whether or not to continue learning according to the evaluation result of the learning state, and if it is determined to continue learning, it continues learning, and if it is determined not to continue learning, it continues learning. finish.
- the control section 410 includes a data acquisition section 111 , a variable extraction section 112 , an attention mechanism section 113 , a judgment section 114 , an evaluation section 215 , a learning section 418 , and a learning continuation judgment section 419 .
- the data acquisition section 111, the variable extraction section 112, the attention mechanism section 113, and the judgment section 114 of the control section 410 in the fourth embodiment are the same as the data acquisition section 111, the variable extraction section 112, the attention mechanism section 114 of the control section 110 in the first embodiment. This is similar to the section 113 and the determining section 114.
- the evaluation unit 215 in the fourth embodiment is similar to the evaluation unit 215 in the second embodiment. However, in the fourth embodiment, the evaluation unit 215 provides evaluation information to the learning continuation determination unit 419.
- the learning continuation determining unit 419 refers to the evaluation information from the evaluating unit 215 and determines whether to continue learning at least the attention mechanism learning model. For example, if all or some of the evaluations based on the evaluation values indicated by the evaluation information are lower than a predetermined threshold, in other words, the learning continuation determination unit 419 determines that the distance is shorter than the predetermined threshold. , or if the degree of similarity is higher than a predetermined threshold, it is determined to continue learning.
- some of the evaluations may be a predetermined number of evaluations or may be evaluations of predetermined clusters. For example, when all the evaluations of important clusters that cannot be mistaken are equal to or higher than a threshold value, the learning continuation determining unit 419 may determine not to continue learning.
- the learning unit 418 performs learning by providing learning data to the variable extraction unit 112 when the learning continuation determining unit 419 determines to continue learning. On the other hand, if the learning continuation determining unit 419 determines not to continue learning, the learning unit 418 ends the learning without providing the learning data to the variable extracting unit 112.
- the learning data may be stored in the storage unit 101 or in another device. If the learning data is stored in another device, the learning section 418 may access the other device via the communication section 102 and acquire the learning data.
- FIG. 9 is a schematic diagram for explaining processing in information processing apparatus 400 according to the fourth embodiment.
- FIG. 9 shows a process when learning is performed using learning data in the information processing apparatus 400.
- the learning unit 418 performs initial learning by providing learning data as initial learning data to the variable extraction unit 112, and determines whether or not to continue learning according to the evaluation result of the initial learning. be judged.
- the processing from S11 to S15 in FIG. 9 is the same as the processing from S11 to S15 shown in FIG. 3.
- the evaluation unit 215 evaluates the learning state by calculating, for example, the distance or similarity between clusters as an evaluation value, and generates evaluation information indicating the evaluation result (S46).
- the evaluation information is information indicating whether learning is sufficient for each combination of two clusters.
- the generated evaluation information is given to the learning continuation determination unit 419.
- the learning continuation determination unit 419 refers to the evaluation information from the evaluation unit 215 and determines whether or not to continue learning (S47).
- the learning unit 418 performs learning by providing the learning data to the variable extracting unit 112 (S48).
- Embodiment 4 when learning a learning model using an attention mechanism, if learning has been sufficiently performed, learning can be completed. Therefore, learning can be performed efficiently.
- the evaluation unit 215 may use a single threshold value to determine whether learning is sufficient; however, for example, by using multiple threshold values, the evaluation unit 215 may Able to perform risk management. Specifically, for judgments such as "stopping" and "accelerating” a vehicle, between clusters that must not be wrong, the distance must be long or the degree of similarity must be small, so the threshold is adjusted. This allows for risk management of decisions.
- 100, 200, 300, 400 information processing device 101 storage unit, 102 communication unit, 103 input unit, 104 display unit, 110, 210, 310, 410 control unit, 111 data acquisition unit, 112 variable extraction unit, 113 Attention mechanism section, 114 judgment section, 115, 215, 315 evaluation section, 216 additional learning section, 317 learning data selection section, 318, 418 learning section, 419 learning continuation judgment section.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
情報処理装置(100)は、注意機構の学習モデルである注意機構学習モデルを用いて、時系列である複数の変数に重み付けをして加算することでコンテクスト変数を算出する注意機構部(113)と、そのコンテクスト変数及びその複数の変数に含まれる最新の一つの変数から算出される、複数の判断の信頼度に基づいて、その複数の判断に含まれる一つの判断を推定する判断部(114)と、コンテクスト変数及び一つの判断を対応付けた結果情報を記憶する記憶部(101)と、その結果情報から、少なくとも注意機構学習モデルの学習状態の評価を行う評価部(115)とを備える。
Description
本開示は、情報処理装置、プログラム及び情報処理方法に関する。
学習モデルによる推定精度を高める技術として、注意機構がある。例えば、非特許文献1は、ニューラルネットワークによる自然言語の翻訳に、注意機構を用いることで、その翻訳精度を向上できることが記載されている。
Minh-Thang Luong et al., "Effective Approaches to Attention-based Neural Machine Translation"、 arXiv preprent arXiv:1508.04025, 18 Aug 2015
しかしながら、深層強化学習を用いた学習モデルは、内部処理がブラックボックスで見えない。このため、学習モデルの学習が有効に行われたか否かをユーザが容易に判断することができない。
そこで、本開示の一又は複数の態様は、注意機構を用いた学習モデルの学習状態を容易に把握できるようにすることを目的とする。
本開示の一態様に係る情報処理装置は、注意機構の学習モデルである注意機構学習モデルを用いて、時系列である複数の変数に重み付けをして加算することでコンテクスト変数を算出する注意機構部と、前記コンテクスト変数及び前記複数の変数に含まれる最新の一つの変数から算出される、複数の判断の信頼度に基づいて、前記複数の判断に含まれる一つの判断を推定する判断部と、前記コンテクスト変数及び前記一つの判断を対応付けた結果情報を記憶する記憶部と、前記結果情報から、少なくとも前記注意機構学習モデルの学習状態の評価を行う評価部と、を備えることを特徴とする。
本開示の一態様に係るプログラムは、コンピュータを、注意機構の学習モデルである注意機構学習モデルを用いて、時系列である複数の変数に重み付けをして加算することでコンテクスト変数を算出する注意機構部、前記コンテクスト変数及び前記複数の変数に含まれる最新の一つの変数から算出される、複数の判断の信頼度に基づいて、前記複数の判断に含まれる一つの判断を推定する判断部、前記コンテクスト変数及び前記一つの判断を対応付けた結果情報を記憶する記憶部、及び、前記結果情報から、少なくとも前記注意機構学習モデルの学習状態の評価を行う評価部、として機能させることを特徴とする。
本開示の一態様に係る情報処理方法は、注意機構の学習モデルである注意機構学習モデルを用いて、時系列である複数の変数に重み付けをして加算することでコンテクスト変数を算出し、前記コンテクスト変数及び前記複数の変数に含まれる最新の一つの変数から算出される、複数の判断の信頼度に基づいて、前記複数の判断に含まれる一つの判断を推定し、前記コンテクスト変数及び前記一つの判断を対応付けた結果情報を記憶し、前記結果情報から、少なくとも前記注意機構学習モデルの学習状態の評価を行うことを特徴とする。
本開示の一又は複数の態様によれば、注意機構を用いた学習モデルの学習状態を容易に把握することができる。
実施の形態1.
図1は、実施の形態1に係る情報処理装置100の構成を概略的に示すブロック図である。
情報処理装置100は、記憶部101と、通信部102と、入力部103と、表示部104と、制御部110とを備える。
図1は、実施の形態1に係る情報処理装置100の構成を概略的に示すブロック図である。
情報処理装置100は、記憶部101と、通信部102と、入力部103と、表示部104と、制御部110とを備える。
記憶部101は、情報処理装置100での処理に必要なプログラム及びデータを記憶する。
例えば、記憶部101は、制御部110で実行する注意機構で用いる学習モデルである注意機構学習モデルを少なくとも記憶する。なお、実施の形態1では、記憶部101は、後述するように、抽出学習モデル及び判断学習モデルも記憶する。
また、記憶部101は、注意機構による推定結果を用いて制御部110で判断された判断結果と、その推定結果とを対応付けた結果情報を記憶する。
例えば、記憶部101は、制御部110で実行する注意機構で用いる学習モデルである注意機構学習モデルを少なくとも記憶する。なお、実施の形態1では、記憶部101は、後述するように、抽出学習モデル及び判断学習モデルも記憶する。
また、記憶部101は、注意機構による推定結果を用いて制御部110で判断された判断結果と、その推定結果とを対応付けた結果情報を記憶する。
通信部102は、他の装置との通信を行う。例えば、通信部102は、インターネット等のネットワークを介して、他の装置と通信を行う。
入力部103は、情報処理装置100のユーザからの入力を受け付ける。
表示部104は、情報処理装置100のユーザに情報を表示する。例えば、表示部104は、各種画面画像を表示する。
表示部104は、情報処理装置100のユーザに情報を表示する。例えば、表示部104は、各種画面画像を表示する。
制御部110は、情報処理装置100での処理を制御する。例えば、制御部110は、判断を行うために必要な変数である状態変数を、注意機構により重み加算を行うことで、コンテクスト状態変数を算出し、そのコンテクスト状態変数からある判断を推定する。そして、制御部110は、そのコンテクスト状態変数及びそのコンテクスト状態変数から推定された判断を対応付けて、結果情報として記憶部101に記憶させる。
なお、以下では、状態変数を、単に変数ともいい、コンテクスト状態変数を、単にコンテクスト変数ともいう。
なお、以下では、状態変数を、単に変数ともいい、コンテクスト状態変数を、単にコンテクスト変数ともいう。
さらに、制御部110は、記憶部101に記憶されている結果情報を用いて、少なくとも注意機構で用いられる学習モデルの学習状態の評価を行う。なお、実施の形態1では、制御部110は、後述するように、抽出学習モデル、注意機構学習モデル及び判断学習モデルの学習状態の評価を行う。
制御部110は、データ取得部111と、変数抽出部112と、注意機構部113と、判断部114と、評価部115とを備える。
データ取得部111は、入力データを取得する。データ取得部111は、例えば、通信部102を介して入力データを取得してもよい。また、入力データが記憶部101に記憶されている場合、データ取得部111は、記憶部101から入力データを取得してもよい。
データ取得部111は、入力データを取得する。データ取得部111は、例えば、通信部102を介して入力データを取得してもよい。また、入力データが記憶部101に記憶されている場合、データ取得部111は、記憶部101から入力データを取得してもよい。
変数抽出部112は、データ取得部111で取得された入力データから、判断を行うことのできる変数である状態変数を抽出する。
ここでは、変数抽出部112は、入力データから状態変数を抽出するための学習モデルである抽出学習モデルを用いて、状態変数を抽出する。
ここでは、変数抽出部112は、入力データから状態変数を抽出するための学習モデルである抽出学習モデルを用いて、状態変数を抽出する。
注意機構部113は、変数抽出部112で抽出された状態変数に対して、公知の注意機構による重み付け和を行うことで、コンテクスト状態変数を算出する。例えば、注意機構部113は、変数抽出部112で抽出された状態変数に対して、記憶部101に記憶されている学習モデルを用いて重み付けを行い、重み付けされた状態変数を加算することで、推定結果としてのコンテクスト状態変数を算出する。
判断部114は、注意機構部113で推定されたコンテクスト状態変数及び複数の状態変数に含まれる最新の一つの状態変数から算出される、複数の判断の信頼度に基づいて、その複数の判断に含まれる一つの判断から、複数の判断に含まれる一つの判断を推定する。そして、判断部114は、その一つの判断と、コンテクスト状態変数とを対応付けて結果情報として記憶部101に記憶させる。
ここでは、判断部114は、コンテクスト変数から一つの判断を推定するための学習モデルである判断学習モデルを用いて推定を行う。
ここでは、判断部114は、コンテクスト変数から一つの判断を推定するための学習モデルである判断学習モデルを用いて推定を行う。
評価部115は、記憶部101に記憶されている結果情報から、少なくとも注意機構部113が使用する学習モデルである注意機構学習モデルの学習状態を評価する。
なお、実施の形態1では、評価部115は、抽出学習モデル、注意機構学習モデル及び判断学習モデルの学習状態を評価する。但し、入力データから状態変数の抽出が行われない場合には、評価部115は、注意機構学習モデル及び判断学習モデルの学習状態を評価する。
なお、実施の形態1では、評価部115は、抽出学習モデル、注意機構学習モデル及び判断学習モデルの学習状態を評価する。但し、入力データから状態変数の抽出が行われない場合には、評価部115は、注意機構学習モデル及び判断学習モデルの学習状態を評価する。
例えば、評価部115は、複数の判断の各々でクラスタリングを行うことで、複数のクラスタを特定し、複数のクラスタ間の距離又は類似度により評価を行う。この場合、距離が短いほど、又は、類似度が高いほど、評価が低いことになる。
以上に記載された制御部110の一部又は全部は、例えば、図2(A)に示されているように、メモリ10と、メモリ10に格納されているプログラムを実行するCPU(Central Processing Unit)等のプロセッサ11とにより構成することができる。言い換えると、情報処理装置100は、いわゆるコンピュータにより実現することができる。このようなプログラムは、ネットワークを通じて提供されてもよく、また、記録媒体に記録されて提供されてもよい。即ち、このようなプログラムは、例えば、プログラムプロダクトとして提供されてもよい。
また、制御部110の一部又は全部は、例えば、図2(B)に示されているように、単一回路、複合回路、プログラムで動作するプロセッサ、プログラムで動作する並列プロセッサ、ASIC(Application Specific Integrated Circuit)又はFPGA(Field Programmable Gate Array)等の処理回路12で構成することもできる。
以上のように、制御部110は、処理回路網により実現することができる。
以上のように、制御部110は、処理回路網により実現することができる。
なお、記憶部101は、HDD(Hard Disk Drive)又はSSD(Solid state Drive)等の記憶装置により実現することができる。
通信部102は、NIC(Network Interface Card)等の通信インタフェースにより実現することができる。
入力部103は、キーボード又はマウス等の入力インタフェースにより実現することができる。
表示部104は、ディスプレイにより実現することができる。
通信部102は、NIC(Network Interface Card)等の通信インタフェースにより実現することができる。
入力部103は、キーボード又はマウス等の入力インタフェースにより実現することができる。
表示部104は、ディスプレイにより実現することができる。
図3は、実施の形態1に係る情報処理装置100での処理を説明するための概略図である。
まず、データ取得部111は、入力データXt-n、Xt-n+1、Xt-1、Xtを取得する(S10)。ここでは、入力データXt-n、Xt-n+1、Xt-1、Xtは、観測値としてのセンサ値であり、時系列t-n、t-n+1、t-1、t(t及びnは、正の整数)のデータであるものとする。例えば、入力データとしては、画像データを使用することができる。
データ取得部111は、取得された入力データXt-n、Xt-n+1、Xt-1、Xtを変数抽出部112に与える。
まず、データ取得部111は、入力データXt-n、Xt-n+1、Xt-1、Xtを取得する(S10)。ここでは、入力データXt-n、Xt-n+1、Xt-1、Xtは、観測値としてのセンサ値であり、時系列t-n、t-n+1、t-1、t(t及びnは、正の整数)のデータであるものとする。例えば、入力データとしては、画像データを使用することができる。
データ取得部111は、取得された入力データXt-n、Xt-n+1、Xt-1、Xtを変数抽出部112に与える。
変数抽出部112は、入力データXt-n、Xt-n+1、Xt-1、Xtから、判断部114が判断を行うのに有利な変数である状態変数St-n、St-n+1、St-1、Stを抽出する(S11)。
ここでは、変数抽出部112は、記憶部101に記憶されているニューラルネットワークモデルである抽出学習モデルを用いて、入力データXt-n、Xt-n+1、Xt-1、Xtから状態変数St-n、St-n+1、St-1、Stを抽出する。
変数抽出部112は、抽出された状態変数St-n、St-n+1、St-1、Stを注意機構部113に与える。
なお、ここでは、変数抽出部112は、抽出学習モデルを用いているが、実施の形態1はこのような例に限定されず、何らかの関数を用いて状態変数St-n、St-n+1、St-1、Stが抽出されればよい。
ここでは、変数抽出部112は、記憶部101に記憶されているニューラルネットワークモデルである抽出学習モデルを用いて、入力データXt-n、Xt-n+1、Xt-1、Xtから状態変数St-n、St-n+1、St-1、Stを抽出する。
変数抽出部112は、抽出された状態変数St-n、St-n+1、St-1、Stを注意機構部113に与える。
なお、ここでは、変数抽出部112は、抽出学習モデルを用いているが、実施の形態1はこのような例に限定されず、何らかの関数を用いて状態変数St-n、St-n+1、St-1、Stが抽出されればよい。
注意機構部113は、状態変数St-n、St-n+1、St-1、Stに対して、学習モデルを用いて重み値を推定して、重み付け和を算出することで、コンテクスト状態変数を算出する(S12)。
注意機構部113は、算出されたコンテクスト状態変数を判断部114に与える。
注意機構部113は、算出されたコンテクスト状態変数を判断部114に与える。
判断部114は、コンテクスト状態変数及び最新の状態変数Stから判断を行う(S13)。
ここでは、判断部114は、記憶部101に記憶されているニューラルネットワークモデルである判断学習モデルを用いて、コンテクスト状態変数及び最新の状態変数から判断を推定する。
ここでは、判断部114は、記憶部101に記憶されているニューラルネットワークモデルである判断学習モデルを用いて、コンテクスト状態変数及び最新の状態変数から判断を推定する。
そして、判断部114は、その判断と、コンテクスト状態変数とを対応付けて結果情報として記憶部101に記憶させることで、結果情報を蓄積する(S14)。
評価部115は、記憶部101に記憶されている結果情報を用いて、少なくとも注意機構部113が使用する学習モデルの学習状態を評価する。
例えば、評価部115は、評価を行いやすくするため、結果情報を判断毎にクラスタリングしたN次元データをより低次元のデータに変換する(S15)。具体的には、評価部115は、そのN次元データを、T-sne(T-Eistributed Stochastic Neighbor Enbedding)を用いて、二次元データに変換することで、判断毎のクラスタを可視化する。
例えば、評価部115は、評価を行いやすくするため、結果情報を判断毎にクラスタリングしたN次元データをより低次元のデータに変換する(S15)。具体的には、評価部115は、そのN次元データを、T-sne(T-Eistributed Stochastic Neighbor Enbedding)を用いて、二次元データに変換することで、判断毎のクラスタを可視化する。
そして、評価部115は、例えば、クラスタ間の距離又は類似度を評価値として算出することで、学習状態を評価する(S16)。
例えば、評価部115は、クラスタ間の評価値を閾値と比較することで、評価を行う。具体的には、評価部115は、クラスタ間の距離が予め定められた閾値未満である場合、又は、クラスタ間の類似度が予め定められた閾値よりも高い場合に、学習が不十分であると判断する。
なお、評価部115の判断結果は、例えば、表示部104に表示されてもよい。
例えば、評価部115は、クラスタ間の評価値を閾値と比較することで、評価を行う。具体的には、評価部115は、クラスタ間の距離が予め定められた閾値未満である場合、又は、クラスタ間の類似度が予め定められた閾値よりも高い場合に、学習が不十分であると判断する。
なお、評価部115の判断結果は、例えば、表示部104に表示されてもよい。
以上のように、実施の形態1によれば、注意機構を用いた学習モデルの学習状態を容易に把握することができる。
実施の形態2.
図4は、実施の形態2に係る情報処理装置200の構成を概略的に示すブロック図である。
情報処理装置200は、記憶部101と、通信部102と、入力部103と、表示部104と、制御部210とを備える。
実施の形態2に係る情報処理装置200の記憶部101、通信部102、入力部103及び表示部104は、実施の形態1に係る情報処理装置100の記憶部101、通信部102、入力部103及び表示部104と同様である。
図4は、実施の形態2に係る情報処理装置200の構成を概略的に示すブロック図である。
情報処理装置200は、記憶部101と、通信部102と、入力部103と、表示部104と、制御部210とを備える。
実施の形態2に係る情報処理装置200の記憶部101、通信部102、入力部103及び表示部104は、実施の形態1に係る情報処理装置100の記憶部101、通信部102、入力部103及び表示部104と同様である。
制御部210は、情報処理装置200での処理を制御する。
実施の形態2における制御部210は、実施の形態1の制御部110と同様の処理を行う他、以下の処理を行う。
制御部210は、学習状態の評価結果に応じて、追加の学習データである追加学習データを用いて、学習モデルの学習を行う。
実施の形態2における制御部210は、実施の形態1の制御部110と同様の処理を行う他、以下の処理を行う。
制御部210は、学習状態の評価結果に応じて、追加の学習データである追加学習データを用いて、学習モデルの学習を行う。
制御部210は、データ取得部111と、変数抽出部112と、注意機構部113と、判断部114と、評価部215と、追加学習部216とを備える。
実施の形態2における制御部210のデータ取得部111、変数抽出部112、注意機構部113及び判断部114は、実施の形態1における制御部110のデータ取得部111、変数抽出部112、注意機構部113及び判断部114と同様である。
実施の形態2における制御部210のデータ取得部111、変数抽出部112、注意機構部113及び判断部114は、実施の形態1における制御部110のデータ取得部111、変数抽出部112、注意機構部113及び判断部114と同様である。
評価部215は、記憶部101に記憶されている結果情報を用いて、少なくとも注意機構部113が使用する学習モデルの学習状態を評価する。
そして、評価部215は、その評価結果を追加学習部216に与える。例えば、評価部215は、二つのクラスタの組み合わせ毎に、評価値を閾値と比較することで、学習が十分であるか否かを示す評価情報を生成し、その評価情報を追加学習部216に与える。
そして、評価部215は、その評価結果を追加学習部216に与える。例えば、評価部215は、二つのクラスタの組み合わせ毎に、評価値を閾値と比較することで、学習が十分であるか否かを示す評価情報を生成し、その評価情報を追加学習部216に与える。
追加学習部216は、評価部215からの評価情報を参照して、追加学習データを変数抽出部112に与えることで、追加の学習を行う。
ここでは、追加学習部216は、評価部215による評価が予め定められた閾値よりも低い場合に、追加の学習データである追加学習データを用いて、少なくとも注意機構学習モデルを学習する。実施の形態2では、追加学習部216は、抽出学習モデル、判断学習モデル及び注意機構学習モデルを学習する。
ここでは、追加学習部216は、評価部215による評価が予め定められた閾値よりも低い場合に、追加の学習データである追加学習データを用いて、少なくとも注意機構学習モデルを学習する。実施の形態2では、追加学習部216は、抽出学習モデル、判断学習モデル及び注意機構学習モデルを学習する。
例えば、追加学習部216は、複数の判断の内、評価が予め定められた閾値よりも低い判断を正解とする学習データを追加学習データとして用いて、学習を行う。言い換えると、追加学習部216は、学習が不十分と判断された二つのクラスタに分類される学習データを追加学習データとして変数抽出部112に与えればよい。ここで、追加学習データは、例えば、通信部102を介して、他の装置から取得されてもよく、記憶部101に記憶されていてもよい。どこから追加学習データを取得するかは、例えば、入力部103を介して、ユーザが指示してもよい。
図5は、実施の形態2に係る情報処理装置200での処理を説明するための概略図である。
図5のS10~S15までの処理については、図3に示されているS10~S15までの処理と同様である。
図5のS10~S15までの処理については、図3に示されているS10~S15までの処理と同様である。
実施の形態2では、評価部215は、例えば、クラスタ間の距離又は類似度を評価値として算出することで、学習状態を評価して、その評価結果を示す評価情報を生成する(S26)。評価情報は、二つのクラスタの組み合わせ毎に、学習が十分であるか否かを示す情報である。生成された評価情報は、追加学習部216に与えられる。
追加学習部216は、評価情報を参照して、学習が不十分であると判断されたクラスタに分類される学習データを追加学習データとして生成し(S27)、その追加学習データを変数抽出部112に与えることで、追加の学習を行う。
以上のように、実施の形態2によれば、注意機構を用いた学習モデルにおいて、学習が不十分であるクラスタを追加で学習することができる。
ここで、評価部215は、一つの閾値を用いて、学習が十分であるか否かを判断してもよいが、例えば、複数の閾値を用いることで、判断のリスク管理を行うことができる。具体的には、判断として、車両を「止める」と「加速する」といったように、間違ってはいけないクラスタ間については、距離が長く、又は、類似度が低くなければならないため、閾値を調整することで、判断のリスク管理を行うことができる。
実施の形態3.
図6は、実施の形態3に係る情報処理装置300の構成を概略的に示すブロック図である。
情報処理装置300は、記憶部101と、通信部102と、入力部103と、表示部104と、制御部310とを備える。
実施の形態3に係る情報処理装置300の記憶部101、通信部102、入力部103及び表示部104は、実施の形態1に係る情報処理装置100の記憶部101、通信部102、入力部103及び表示部104と同様である。
図6は、実施の形態3に係る情報処理装置300の構成を概略的に示すブロック図である。
情報処理装置300は、記憶部101と、通信部102と、入力部103と、表示部104と、制御部310とを備える。
実施の形態3に係る情報処理装置300の記憶部101、通信部102、入力部103及び表示部104は、実施の形態1に係る情報処理装置100の記憶部101、通信部102、入力部103及び表示部104と同様である。
制御部310は、情報処理装置300での処理を制御する。
実施の形態3における制御部310は、実施の形態1の制御部110と同様の処理を行う他、以下の処理を行う。
制御部310は、学習状態の評価結果に応じて学習データを選択して、選択された学習データを用いて、学習モデルの学習を行う。
実施の形態3における制御部310は、実施の形態1の制御部110と同様の処理を行う他、以下の処理を行う。
制御部310は、学習状態の評価結果に応じて学習データを選択して、選択された学習データを用いて、学習モデルの学習を行う。
制御部310は、データ取得部111と、変数抽出部112と、注意機構部113と、判断部114と、評価部315と、学習データ選択部317と、学習部318とを備える。
実施の形態3における制御部310のデータ取得部111、変数抽出部112、注意機構部113及び判断部114は、実施の形態1における制御部110のデータ取得部111、変数抽出部112、注意機構部113及び判断部114と同様である。
実施の形態3における制御部310のデータ取得部111、変数抽出部112、注意機構部113及び判断部114は、実施の形態1における制御部110のデータ取得部111、変数抽出部112、注意機構部113及び判断部114と同様である。
評価部315は、実施の形態1と同様に、記憶部101に記憶されている結果情報を用いて、少なくとも注意機構部113が使用する学習モデルの学習状態を評価する。
実施の形態3では、評価部315は、二つのクラスタの組み合わせ毎に評価値を示す評価値情報を学習データ選択部317に与える。
実施の形態3では、評価部315は、二つのクラスタの組み合わせ毎に評価値を示す評価値情報を学習データ選択部317に与える。
学習データ選択部317は、評価部315からの評価値情報を参照して、少なくとも注意機構学習モデルを学習するための学習データを選択する。
ここでは、学習データ選択部317は、一つの判断に対応する評価が低いほど、その一つの判断を正解とする学習データの数が多くなるように、選択を行う。言い換えると、学習データ選択部317は、評価値情報で示される評価値による評価が低いほど、言い換えると、距離が短いほど、又は、類似度が高いほど、そのクラスタに分類される学習データの数が多くなるように、学習データを選択する。なお、学習データについては、記憶部101に記憶されていても、他の装置に記憶されていてもよい。他の装置に学習データが記憶されている場合には、学習データ選択部317は、通信部102を介して、その他の装置にアクセスして、学習データを選択すればよい。
ここでは、学習データ選択部317は、一つの判断に対応する評価が低いほど、その一つの判断を正解とする学習データの数が多くなるように、選択を行う。言い換えると、学習データ選択部317は、評価値情報で示される評価値による評価が低いほど、言い換えると、距離が短いほど、又は、類似度が高いほど、そのクラスタに分類される学習データの数が多くなるように、学習データを選択する。なお、学習データについては、記憶部101に記憶されていても、他の装置に記憶されていてもよい。他の装置に学習データが記憶されている場合には、学習データ選択部317は、通信部102を介して、その他の装置にアクセスして、学習データを選択すればよい。
学習部318は、学習データ選択部317により選択された学習データを用いて、少なくとも注意機構学習モデルを学習する。
例えば、学習部318は、学習データ選択部317が選択した学習データを変数抽出部112に与えることで学習を行う。
例えば、学習部318は、学習データ選択部317が選択した学習データを変数抽出部112に与えることで学習を行う。
図7は、実施の形態3に係る情報処理装置300での処理を説明するための概略図である。
図7は、情報処理装置300において学習データを用いて学習する場合の処理を示している。
なお、前提として、学習データ選択部317は、評価値情報を参照しないで選択した学習データを初期学習データとして、学習部318に与える。学習部318は、その初期学習データを、変数抽出部112に与えることで、初期学習を行い、その初期学習における評価結果に応じて、学習データが選択される。
図7は、情報処理装置300において学習データを用いて学習する場合の処理を示している。
なお、前提として、学習データ選択部317は、評価値情報を参照しないで選択した学習データを初期学習データとして、学習部318に与える。学習部318は、その初期学習データを、変数抽出部112に与えることで、初期学習を行い、その初期学習における評価結果に応じて、学習データが選択される。
図7のS11~S15までの処理については、図3に示されているS11~S15までの処理と同様である。
実施の形態3では、評価部315は、例えば、クラスタ間の距離又は類似度を評価値として算出することで、学習状態を評価するとともに、二つのクラスタの組み合わせ毎に、その評価値を示す評価値情報を生成する(S36)。生成された評価値情報は、学習データ選択部317に与えられる。
学習データ選択部317は、評価値情報を参照して、評価値情報で示される評価値による評価が低いほど、そのクラスタに分類される学習データの数が多くなるように、学習データを選択する(S37)。そして、学習データ選択部317は、選択された学習データを学習部318に与える。
学習部318は、学習データ選択部317が選択した学習データを変数抽出部112に与えることで、学習を行う(S38)。
以上のように、実施の形態3によれば、注意機構を用いた学習モデルを学習する際に、重点的に学習すべき学習データを選択することで、効率的に学習を行うことができる。
なお、学習データ選択部317は、評価値情報で示される評価値による評価が低いほど、そのクラスタに分類される学習データの数が多くなるように、学習データを選択しているが、実施の形態3は、このような例に限定されるものではない。例えば、判断として、車両を「止める」と「加速する」といったように、間違ってはいけないクラスタ間については、予め重点的に学習すべきクラスタとして、学習データ選択部317に設定しておくことで、学習データ選択部317は、このようなクラスタの学習データが多くなるように、選択を行うことができる。具体的には、学習データ選択部317は、重点的に学習すべきクラスタについては、評価値が低くなるような重み値を加算又は乗算することで、選択される学習データが多くなるようにすることができる。このような設定は、例えば、ユーザが入力部103を介して行ってもよい。
実施の形態4.
図8は、実施の形態4に係る情報処理装置400の構成を概略的に示すブロック図である。
情報処理装置400は、記憶部101と、通信部102と、入力部103と、表示部104と、制御部410とを備える。
実施の形態4に係る情報処理装置400の記憶部101、通信部102、入力部103及び表示部104は、実施の形態1に係る情報処理装置100の記憶部101、通信部102、入力部103及び表示部104と同様である。
図8は、実施の形態4に係る情報処理装置400の構成を概略的に示すブロック図である。
情報処理装置400は、記憶部101と、通信部102と、入力部103と、表示部104と、制御部410とを備える。
実施の形態4に係る情報処理装置400の記憶部101、通信部102、入力部103及び表示部104は、実施の形態1に係る情報処理装置100の記憶部101、通信部102、入力部103及び表示部104と同様である。
制御部410は、情報処理装置400での処理を制御する。
実施の形態4における制御部410は、実施の形態1の制御部110と同様の処理を行う他、以下の処理を行う。
制御部410は、学習状態の評価結果に応じて学習を継続するか否かを判断し、学習を継続すると判断した場合に、学習を継続し、学習を継続しないと判断した場合に、学習を終了する。
実施の形態4における制御部410は、実施の形態1の制御部110と同様の処理を行う他、以下の処理を行う。
制御部410は、学習状態の評価結果に応じて学習を継続するか否かを判断し、学習を継続すると判断した場合に、学習を継続し、学習を継続しないと判断した場合に、学習を終了する。
制御部410は、データ取得部111と、変数抽出部112と、注意機構部113と、判断部114と、評価部215と、学習部418と、学習継続判断部419とを備える。
実施の形態4における制御部410のデータ取得部111、変数抽出部112、注意機構部113及び判断部114は、実施の形態1における制御部110のデータ取得部111、変数抽出部112、注意機構部113及び判断部114と同様である。
また、実施の形態4における評価部215は、実施の形態2における評価部215と同様である。但し、実施の形態4においては、評価部215は、評価情報を学習継続判断部419に与える。
実施の形態4における制御部410のデータ取得部111、変数抽出部112、注意機構部113及び判断部114は、実施の形態1における制御部110のデータ取得部111、変数抽出部112、注意機構部113及び判断部114と同様である。
また、実施の形態4における評価部215は、実施の形態2における評価部215と同様である。但し、実施の形態4においては、評価部215は、評価情報を学習継続判断部419に与える。
学習継続判断部419は、評価部215からの評価情報を参照して、少なくとも注意機構学習モデルの学習を継続するか否かを判断する。
例えば、学習継続判断部419は、評価情報で示される評価値による全ての評価又は一部の評価が予め定められた閾値よりも低い場合に、言い換えると、距離が予め定められた閾値よりも短い、又は、類似度が予め定められた閾値よりも高い場合に、学習を継続すると判断する。
例えば、学習継続判断部419は、評価情報で示される評価値による全ての評価又は一部の評価が予め定められた閾値よりも低い場合に、言い換えると、距離が予め定められた閾値よりも短い、又は、類似度が予め定められた閾値よりも高い場合に、学習を継続すると判断する。
なお、一部の評価は、予め定められた数の評価でもよく、予め定められたクラスタの評価でもよい。例えば、間違えることの許されないような重要なクラスタの全ての評価が閾値以上となった場合に、学習継続判断部419は、学習を継続しないと判断してもよい。
学習部418は、学習継続判断部419が学習を継続すると判断した場合には、学習データを変数抽出部112に与えることで、学習を行う。一方、学習部418は、学習継続判断部419が学習を継続しないと判断した場合には、学習データを変数抽出部112に与えずに、学習を終了する。
なお、学習データについては、記憶部101に記憶されていても、他の装置に記憶されていてもよい。他の装置に学習データが記憶されている場合には、学習部418は、通信部102を介して、その他の装置にアクセスして、学習データを取得すればよい。
なお、学習データについては、記憶部101に記憶されていても、他の装置に記憶されていてもよい。他の装置に学習データが記憶されている場合には、学習部418は、通信部102を介して、その他の装置にアクセスして、学習データを取得すればよい。
図9は、実施の形態4に係る情報処理装置400での処理を説明するための概略図である。
図9は、情報処理装置400において学習データを用いて学習する場合の処理を示す。
なお、前提として、学習部418は、学習データを初期学習データとして、変数抽出部112に与えることで、初期学習を行い、その初期学習の評価結果に応じて、学習を継続するか否かが判断される。
図9は、情報処理装置400において学習データを用いて学習する場合の処理を示す。
なお、前提として、学習部418は、学習データを初期学習データとして、変数抽出部112に与えることで、初期学習を行い、その初期学習の評価結果に応じて、学習を継続するか否かが判断される。
図9のS11~S15までの処理については、図3に示されているS11~S15までの処理と同様である。
実施の形態4では、評価部215は、例えば、クラスタ間の距離又は類似度を評価値として算出することで、学習状態を評価して、その評価結果を示す評価情報を生成する(S46)。評価情報は、二つのクラスタの組み合わせ毎に、学習が十分であるか否かを示す情報である。生成された評価情報は、学習継続判断部419に与えられる。
学習継続判断部419は、評価部215からの評価情報を参照して、学習を継続するか否かを判断する(S47)。
そして、学習部418は、学習継続判断部419が学習を継続すると判断した場合には、学習データを変数抽出部112に与えることで、学習を行う(S48)。
以上のように、実施の形態4によれば、注意機構を用いた学習モデルを学習する際に、学習が十分に行われた場合には、学習を終了することができる。このため、効率的に学習を行うことができる。
なお、実施の形態2と同様に、評価部215は、一つの閾値を用いて、学習が十分であるか否かを判断してもよいが、例えば、複数の閾値を用いることで、判断のリスク管理を行うことができる。具体的には、判断として、車両を「止める」と「加速する」といったように、間違ってはいけないクラスタ間については、距離が長く、又は、類似度が小さくなければならないため、閾値を調節することで、判断のリスク管理を行うことができる。
100,200,300,400 情報処理装置、 101 記憶部、 102 通信部、 103 入力部、 104 表示部、 110,210,310,410 制御部、 111 データ取得部、 112 変数抽出部、 113 注意機構部、 114 判断部、 115,215,315 評価部、 216 追加学習部、 317 学習データ選択部、 318,418 学習部、 419 学習継続判断部。
Claims (15)
- 注意機構の学習モデルである注意機構学習モデルを用いて、時系列である複数の変数に重み付けをして加算することでコンテクスト変数を算出する注意機構部と、
前記コンテクスト変数及び前記複数の変数に含まれる最新の一つの変数から算出される、複数の判断の信頼度に基づいて、前記複数の判断に含まれる一つの判断を推定する判断部と、
前記コンテクスト変数及び前記一つの判断を対応付けた結果情報を記憶する記憶部と、
前記結果情報から、少なくとも前記注意機構学習モデルの学習状態の評価を行う評価部と、を備えること
を特徴とする情報処理装置。 - 前記判断部は、前記コンテクスト変数から前記一つの判断を推定するための学習モデルである判断学習モデルを用いて前記一つの判断を推定し、
前記評価部は、前記判断学習モデル及び前記注意機構学習モデルの前記評価を行うこと
を特徴とする請求項1に記載の情報処理装置。 - 入力データから前記変数を抽出する変数抽出部をさらに備えること
を特徴とする請求項2に記載の情報処理装置。 - 前記変数抽出部は、前記入力データから前記変数を抽出するための学習モデルである抽出学習モデルを用いて前記変数を抽出し、
前記評価部は、前記抽出学習モデル、前記判断学習モデル及び前記注意機構学習モデルの前記評価を行うこと
を特徴とする請求項3に記載の情報処理装置。 - 入力データから前記変数を抽出する変数抽出部をさらに備えること
を特徴とする請求項1に記載の情報処理装置。 - 前記変数抽出部は、前記入力データから前記変数を抽出するための学習モデルである抽出学習モデルを用いて前記変数を抽出し、
前記評価部は、前記抽出学習モデル及び前記注意機構学習モデルの前記評価を行うこと
を特徴とする請求項5に記載の情報処理装置。 - 前記評価部は、前記複数の判断の各々でクラスタリングを行うことで、複数のクラスタを特定し、前記複数のクラスタ間の距離又は類似度により前記評価を行うこと
を特徴とする請求項1から6の何れか一項に記載の情報処理装置。 - 前記評価が予め定められた閾値よりも低い場合に、追加の学習データである追加学習データを用いて、少なくとも前記注意機構学習モデルを学習する追加学習部をさらに備えること
を特徴とする請求項1から7の何れか一項に記載の情報処理装置。 - 前記追加学習部は、前記複数の判断の内、前記評価が前記予め定められた閾値よりも低い判断を正解とする学習データを前記追加学習データとして用いること
を特徴とする請求項8に記載の情報処理装置。 - 前記評価に従って、少なくとも前記注意機構学習モデルを学習するための学習データの選択を行う学習データ選択部と、
前記選択された学習データを用いて、少なくとも前記注意機構学習モデルを学習する学習部と、をさらに備えること
を特徴とする請求項1から7の何れか一項に記載の情報処理装置。 - 前記学習データ選択部は、前記一つの判断における前記評価が低いほど、前記一つの判断を正解とする前記学習データの数が多くなるように、前記選択を行うこと
を特徴とする請求項10に記載の情報処理装置。 - 前記評価に従って、少なくとも前記注意機構学習モデルの学習を継続するか否かを判断する学習継続判断部と、
前記学習を継続すると判断された場合に、少なくとも前記注意機構学習モデルを学習するための学習データを用いて前記学習を継続し、前記学習を継続しないと判断された場合に、前記学習を終了する学習部と、をさらに備えること
を特徴とする請求項1から7の何れか一項に記載の情報処理装置。 - 前記学習継続判断部は、前記複数の判断の全部又は一部の前記評価が予め定められた閾値よりも低い場合に、前記学習を継続すると判断すること
を特徴とする請求項12に記載の情報処理装置。 - コンピュータを、
注意機構の学習モデルである注意機構学習モデルを用いて、時系列である複数の変数に重み付けをして加算することでコンテクスト変数を算出する注意機構部、
前記コンテクスト変数及び前記複数の変数に含まれる最新の一つの変数から算出される、複数の判断の信頼度に基づいて、前記複数の判断に含まれる一つの判断を推定する判断部、
前記コンテクスト変数及び前記一つの判断を対応付けた結果情報を記憶する記憶部、及び、
前記結果情報から、少なくとも前記注意機構学習モデルの学習状態の評価を行う評価部、として機能させること
を特徴とするプログラム。 - 注意機構の学習モデルである注意機構学習モデルを用いて、時系列である複数の変数に重み付けをして加算することでコンテクスト変数を算出し、
前記コンテクスト変数及び前記複数の変数に含まれる最新の一つの変数から算出される、複数の判断の信頼度に基づいて、前記複数の判断に含まれる一つの判断を推定し、
前記コンテクスト変数及び前記一つの判断を対応付けた結果情報を記憶し、
前記結果情報から、少なくとも前記注意機構学習モデルの学習状態の評価を行うこと
を特徴とする情報処理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2022/024125 WO2023243036A1 (ja) | 2022-06-16 | 2022-06-16 | 情報処理装置、プログラム及び情報処理方法 |
JP2024528024A JPWO2023243036A1 (ja) | 2022-06-16 | 2022-06-16 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2022/024125 WO2023243036A1 (ja) | 2022-06-16 | 2022-06-16 | 情報処理装置、プログラム及び情報処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023243036A1 true WO2023243036A1 (ja) | 2023-12-21 |
Family
ID=89192489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2022/024125 WO2023243036A1 (ja) | 2022-06-16 | 2022-06-16 | 情報処理装置、プログラム及び情報処理方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JPWO2023243036A1 (ja) |
WO (1) | WO2023243036A1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109714322A (zh) * | 2018-12-14 | 2019-05-03 | 中国科学院声学研究所 | 一种检测网络异常流量的方法及其系统 |
CN110287439A (zh) * | 2019-06-27 | 2019-09-27 | 电子科技大学 | 一种基于lstm的网络行为异常检测方法 |
JP2021531529A (ja) * | 2018-05-17 | 2021-11-18 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | ニューラル・ネットワークを使用した時系列データ間の依存関係の動的検出 |
-
2022
- 2022-06-16 WO PCT/JP2022/024125 patent/WO2023243036A1/ja unknown
- 2022-06-16 JP JP2024528024A patent/JPWO2023243036A1/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021531529A (ja) * | 2018-05-17 | 2021-11-18 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | ニューラル・ネットワークを使用した時系列データ間の依存関係の動的検出 |
CN109714322A (zh) * | 2018-12-14 | 2019-05-03 | 中国科学院声学研究所 | 一种检测网络异常流量的方法及其系统 |
CN110287439A (zh) * | 2019-06-27 | 2019-09-27 | 电子科技大学 | 一种基于lstm的网络行为异常检测方法 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2023243036A1 (ja) | 2023-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110659744B (zh) | 训练事件预测模型、评估操作事件的方法及装置 | |
Ezghari et al. | Uncertainty management in software effort estimation using a consistent fuzzy analogy-based method | |
CN110413754B (zh) | 对话(中)奖励评估和对话方法、介质、装置和计算设备 | |
CN111242948B (zh) | 图像处理、模型训练方法、装置、设备和存储介质 | |
JP6892606B2 (ja) | 位置特定装置、位置特定方法及びコンピュータプログラム | |
WO2020135642A1 (zh) | 一种基于生成对抗网络的模型训练方法及设备 | |
US20220245405A1 (en) | Deterioration suppression program, deterioration suppression method, and non-transitory computer-readable storage medium | |
CN112801231B (zh) | 用于业务对象分类的决策模型训练方法和装置 | |
CN117576781A (zh) | 基于行为识别的训练强度监测系统及方法 | |
CN111046655B (zh) | 一种数据处理方法、装置及计算机可读存储介质 | |
CN117727464B (zh) | 基于医疗多视图疾病预测模型的训练方法及设备 | |
CN112116024B (zh) | 用户分类模型的方法、装置、电子设备和存储介质 | |
WO2023243036A1 (ja) | 情報処理装置、プログラム及び情報処理方法 | |
CN116933077A (zh) | 装备制胜机理挖掘方法、装置、电子设备及存储介质 | |
CN114912549B (zh) | 风险交易识别模型的训练方法、风险交易识别方法和装置 | |
EP4116853B1 (en) | Computer-readable recording medium storing evaluation program, evaluation method, and information processing device | |
JP2020166645A (ja) | 予測モデル評価システム、予測モデル評価方法 | |
WO2024009390A1 (ja) | 情報処理装置、プログラム及び情報処理方法 | |
US20240070536A1 (en) | Computer-readable recording medium storing determination program, determination apparatus, and determination method | |
KR102679889B1 (ko) | 장기적인 관찰 기반의 활동적 학습 알고리즘 학습방법 및 장치, 프로그램 | |
CN118035323B (zh) | 应用于数字化校园软件服务的数据挖掘方法及系统 | |
WO2022149372A1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
US20240119296A1 (en) | Learning device, learning method, and recording medium | |
JP7283548B2 (ja) | 学習装置、予測システム、方法およびプログラム | |
WO2023228290A1 (ja) | 学習装置、学習方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22946853 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2024528024 Country of ref document: JP Kind code of ref document: A |