WO2022249415A1 - Information provision device, information provision method, and information provision program - Google Patents

Information provision device, information provision method, and information provision program Download PDF

Info

Publication number
WO2022249415A1
WO2022249415A1 PCT/JP2021/020296 JP2021020296W WO2022249415A1 WO 2022249415 A1 WO2022249415 A1 WO 2022249415A1 JP 2021020296 W JP2021020296 W JP 2021020296W WO 2022249415 A1 WO2022249415 A1 WO 2022249415A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature
similarity
data set
information providing
model
Prior art date
Application number
PCT/JP2021/020296
Other languages
French (fr)
Japanese (ja)
Inventor
真弥 山口
哲哉 塩田
滉平 山口
基貴 湯原
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2023523881A priority Critical patent/JPWO2022249415A1/ja
Priority to PCT/JP2021/020296 priority patent/WO2022249415A1/en
Publication of WO2022249415A1 publication Critical patent/WO2022249415A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • the present invention relates to an information providing device, an information providing method, and an information providing program.
  • a deep neural network is capable of highly accurate prediction in image processing and natural language processing. On the other hand, learning a DNN is costly.
  • the cost of training a DNN includes the cost of collecting data sets that include correct labels (annotations), the computational cost of improving accuracy, and the tuning cost of searching multiple hyperparameters for each case. included.
  • Transfer learning has been proposed as a method to reduce such costs when introducing a DNN business.
  • Transfer learning is a technology that uses a dataset (source dataset) different from the target dataset or a trained model to perform learning with less data or less computation time.
  • transfer learning includes methods such as fine tuning and domain adaptation.
  • Fine-tuning is a method of pre-learning a model with a transfer source dataset and using the learned parameters as initial values for learning of the target dataset.
  • Domain adaptation is a method in which the same model learns both the source data set and the target data set at the same time, and uses the knowledge of the source data set to solve the task of the target data set.
  • the datasets that are effective for transfer learning are not trivial, and the results of transfer learning vary greatly depending on the relationship (similarity) between the target dataset and the source dataset.
  • a model pre-trained with ImageNet large-scale, large-scale
  • may be inferior to a model not pre-trained depending on the target dataset see Non-Patent Document 1, for example.
  • an information providing device inputs a plurality of data sets from a data set to a model that outputs a feature amount of lower dimension than the data set, thereby obtaining a plurality of data sets. It is characterized by having a feature extractor that extracts feature quantities, and a similarity calculator that calculates similarities between the plurality of feature quantities extracted by the feature extractor.
  • transfer learning can be efficiently implemented.
  • FIG. 1 is a diagram showing a configuration example of an information providing device according to the first embodiment.
  • FIG. 2 is a diagram for explaining a similarity measuring method.
  • FIG. 3 is a diagram for explaining a model learning method.
  • FIG. 4 is a diagram for explaining information providing processing.
  • FIG. 5 is a flowchart showing the flow of learning processing.
  • FIG. 6 is a flowchart showing the flow of similarity measurement processing.
  • FIG. 7 is a flowchart showing the flow of information providing processing.
  • FIG. 8 is a diagram showing the results of the experiment.
  • FIG. 9 is a diagram showing experimental results.
  • FIG. 10 is a diagram showing an example of a computer that executes an information providing program.
  • FIG. 1 is a diagram showing a configuration example of an information providing device according to the first embodiment.
  • the information providing device 10 calculates the degree of similarity between data sets and provides information based on the calculated degree of similarity. For example, the information providing device 10 provides information for identifying a transfer source data set similar to a target data set in transfer learning.
  • the information providing device 10 performs model learning processing for calculating the degree of similarity.
  • the information providing device 10 may calculate the degree of similarity using the learned model, or may provide the learned model to another device or the like.
  • the information providing device 10 has an input/output unit 11, a storage unit 12 and a control unit 13.
  • the input/output unit 11 is an interface for inputting/outputting data.
  • the input/output unit 11 may be a communication interface such as a NIC (Network Interface Card) for performing data communication with other devices via a network.
  • the input/output unit 11 may be an interface for connecting input devices such as a mouse and a keyboard, and output devices such as a display.
  • the storage unit 12 is a storage device such as an HDD (Hard Disk Drive), an SSD (Solid State Drive), an optical disc, or the like. Note that the storage unit 12 may be a rewritable semiconductor memory such as RAM (Random Access Memory), flash memory, NVSRAM (Non Volatile Static Random Access Memory).
  • the storage unit 12 stores an OS (Operating System) and various programs executed by the information providing device 10 .
  • the storage unit 12 also stores model information 121 .
  • the model information 121 is information such as parameters for constructing a model, and is updated as appropriate during the learning process. Also, the updated model information 121 may be output to another device or the like via the input/output unit 11 .
  • the control unit 13 controls the information providing device 10 as a whole.
  • the control unit 13 includes, for example, electronic circuits such as CPU (Central Processing Unit), MPU (Micro Processing Unit), GPU (Graphics Processing Unit), ASIC (Application Specific Integrated Circuit), FPGA (Field Programmable Gate Array), etc. It is an integrated circuit.
  • the control unit 13 also has an internal memory for storing programs defining various processing procedures and control data, and executes each processing using the internal memory. Further, the control unit 13 functions as various processing units by running various programs.
  • the control unit 13 has a feature extraction unit 131 , a similarity calculation unit 132 , a loss function calculation unit 133 , an update unit 134 , a candidate extraction unit 135 and a provision unit 136 .
  • the feature extraction unit 131 extracts a plurality of feature amounts by inputting a plurality of data sets into a model that outputs a feature amount of lower dimension than the data set.
  • the similarity calculation unit 132 calculates similarities between the feature quantities extracted by the feature extraction unit 131 .
  • FIG. 2 is a diagram for explaining a similarity measuring method.
  • model F is a deep neural network for feature extraction.
  • a dataset contains multiple data samples. Also, the feature extraction unit 131 extracts a feature amount for each data sample.
  • data set A includes I data samples x A i (where i is an integer from 0 to I). Then, the feature extraction unit 131 extracts from the data set A, feature amounts f A i corresponding to I data samples.
  • the feature extraction unit 131 extracts a feature quantity obtained by reducing the dimension of the data set as shown in FIG. For example, f A i is lower dimensional than x A i .
  • the feature extraction unit 131 aggregates the extracted feature amounts.
  • the feature extraction unit 131 aggregates the feature amounts f A i corresponding to I data samples into one feature amount f'A .
  • the feature extracting unit 131 can aggregate the feature amount output by the model, which is the feature amount for each data sample included in the data set, into a single data sample feature amount.
  • the feature extraction unit 131 can use statistics such as averages and variances of each element of a plurality of data samples as feature amounts after aggregation.
  • the similarity calculation unit 132 calculates the similarity between the feature quantities aggregated by the feature extraction unit 131 . For example, if the aggregated feature amounts f′A and f′B are vectors, the similarity calculation unit 132 calculates the distance d AB between the vectors f′A and f′B as the similarity. The similarity calculation unit 132 may calculate the 2-Wasserstein distance as the distance between vectors.
  • the feature extraction unit 131 extracts feature amounts from a model that has been trained by self-supervised learning using the transfer source data set in transfer learning. Then, the similarity calculation unit 132 calculates the similarity between the feature amount of the transfer source data set and the feature amount of the target data set in the transfer learning.
  • the loss function calculator 133 calculates a loss function for model learning. Also, the updating unit 134 updates the parameters of the model so that the loss function is optimized.
  • model F is stored in the storage unit 12 as model information 121 .
  • the updating unit 134 updates the model information 121 .
  • FIG. 3 is a diagram for explaining a model learning method.
  • Model F is used to measure the degree of similarity between target data and a plurality of transfer source data when specifying transfer source data similar to target data in transfer learning.
  • the information providing apparatus 10 is assumed to perform learning of the model F in advance by an arbitrary task such as classification using the transfer source data set group.
  • the information providing device 10 learns the model F using self-supervised learning. Since accident supervised learning does not require annotation, it is easy to handle multiple datasets together.
  • the information providing apparatus 10 uses MoCo (Reference: He, Kaiming, et al. "Momentum contrast for unsupervised visual representation learning.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020.).
  • the loss function calculation unit 133 calculates the loss function L q of contrastive loss based on the feature amount obtained by inputting a plurality of data sets (D 0 to D N ) into the model F. do.
  • contrastive loss generates a query and correct key image by two different image transformations from the input image, and correctly combines the query and correct key through DNN from the set of keys obtained from other images. Find task loss.
  • the q on the right side of the loss function in FIG. 3 is the output of model F obtained from the query image.
  • k + is the output of model F obtained from the correct key of the augmented transformation of the same image as the query.
  • K is the total number of key images including the correct key.
  • is a temperature coefficient.
  • the candidate extraction unit 135 and the provision unit 136 support actual transfer learning by providing information specifying transfer source data similar to target data.
  • the information providing process will be described with reference to FIG. FIG. 4 is a diagram for explaining information providing processing.
  • Data set DT in FIG. 4 is the target data set. Also, data sets D0 to DN are a plurality of transfer source data sets.
  • the similarity calculator corresponds to the feature extraction block 131 and the similarity calculator 132 that use the learned model F.
  • the similarity calculation unit 132 calculates the similarity between the feature quantities for each of the one target data set (D T ) and the plurality of transition source data sets (D 0 to D T ). .
  • the candidate extraction unit 135 extracts, as a candidate, a transfer source data set whose feature amount similarity to the target data set is at or above a predetermined rank.
  • the providing unit 136 provides the user with information for specifying the transfer source data set extracted as a candidate among the transfer source data sets.
  • the candidate extraction unit 135 creates a ranking by arranging the calculated degrees of similarity d 0T , d 1T , . Then, for example, transfer source data sets D N , D 1 , and D 0 corresponding to the top three similarities d NT , d 1T , and d 0T are extracted.
  • the providing unit 136 provides the extracted transfer source data sets D N , D 1 and D 0 to the user together with the corresponding hyperparameters H N , H 1 and H 0 . It is assumed that the optimal hyperparameters for each transition source data set have already been determined by a method such as grid search in the process of building the model in the past.
  • FIG. 5 is a flowchart showing the flow of learning processing. As shown in FIG. 5, first, the information providing device 10 reads learning data from the transfer source data set group (step S101).
  • the information providing device 10 extracts features from the learning data using the DNN model F (step S102).
  • the information providing device 10 calculates the loss function of the pre-learning task on the feature space (step S103). Then, the information providing device 10 updates the parameters of the model F by the back propagation method of the loss function (step S104).
  • step S105 the information providing device 10 returns to step S101 and repeats the process.
  • the maximum number of learning steps is not greater than the number of learning steps (Step S105, False)
  • the information providing device 10 terminates the process.
  • FIG. 6 is a flowchart showing the flow of similarity measurement processing.
  • the information providing device 10 reads data samples from the transfer source data set (step S201).
  • the information providing device 10 extracts features from the transfer source data sample using the DNN model F (step S202). Furthermore, the information providing device 10 aggregates the feature vectors for each transition source data sample into a single feature vector (for example, mean or variance) (step S203).
  • a single feature vector for example, mean or variance
  • the information providing device 10 reads data samples from the target data set (step S204).
  • the information providing device 10 extracts the features of the target data sample using the DNN model F (step S205). Furthermore, the information providing apparatus 10 aggregates the feature vectors for each target data sample into a single feature vector, similarly to the transfer source data set (step S206).
  • the information providing device 10 calculates the degree of similarity between the feature vectors of the aggregated target data set and the transfer source data set, for example, using the 2-Wasserstein distance (step S207).
  • FIG. 7 is a flowchart showing the flow of information provision processing.
  • the information providing device 10 calculates the similarity between the target data set and the N transfer source data sets (step S301).
  • the information providing device 10 sorts the transition source data set (distance: ascending order/score: descending order) by the data set similarity ⁇ d iT ⁇ j N (step S302). Then, the information providing apparatus 10 extracts Top-K transfer source data set ids from the ranking obtained by sorting (K ⁇ N: arbitrary integer) (step S303).
  • the information providing device 10 reads the datasets and hyperparameters associated with the K transfer source dataset ids (step S304).
  • the information providing apparatus 10 then issues a URI (Uniform Resource Identifier) that can be downloaded by the user, and outputs the dataset and hyperparameters (step S305).
  • URI Uniform Resource Identifier
  • the feature extraction unit 131 extracts a plurality of feature amounts by inputting a plurality of data sets into a model that outputs a feature amount of lower dimension than the data set.
  • the similarity calculator 132 calculates the similarity between the feature quantities extracted by the feature extractor 131 .
  • the information providing device 10 can automatically calculate the degree of similarity between datasets.
  • similar data sets can be specified, so that transfer learning can be efficiently performed.
  • the feature extraction unit 131 aggregates the feature amounts output by the model, which are feature amounts for each data sample included in the data set, into one data sample feature amount.
  • the similarity calculation unit 132 calculates the similarity between feature amounts aggregated by the feature extraction unit 131 .
  • the feature extraction unit 131 extracts feature quantities from a model that has been trained by self-supervised learning using a transfer source data set in transfer learning.
  • the similarity calculation unit 132 calculates the similarity between the feature amount of the transfer source data set and the feature amount of the target data set in transfer learning.
  • the similarity calculation unit 132 calculates the similarity between feature quantities for each of one target data set and a plurality of transition source data sets.
  • the providing unit 136 provides the user with information for specifying, among the transfer source data sets, those transfer source data sets whose similarity in feature quantity with the target data set is equal to or higher than a predetermined rank.
  • the information providing device 10 can recommend a transfer source dataset similar to the target dataset to the user. Therefore, according to this embodiment, transfer learning can be performed efficiently.
  • FIG. 8 shows the results of Experiment 1 in which the transfer source data set was selected according to the similarity of the data sets.
  • FIG. 8 is a diagram showing the results of the experiment.
  • the feature extractor (model F, self-supervised learning model Moco) was trained using all the data of the transfer source data set. Then, a feature extractor was used to measure the dataset similarity between the target dataset and the source dataset.
  • FIG. 8 is a diagram visualizing the correlation between data set similarity (Similarity) and test accuracy (ACC@1).
  • FIG. 9 shows the results of Experiment 2, in which the hyperparameters (architecture) were selected according to the similarity of the datasets.
  • FIG. 9 is a diagram showing experimental results.
  • class classification was learned for each architecture using the target dataset and the transition source dataset, and the test accuracy was measured. Then, a feature extractor was used to measure the dataset similarity between the target dataset and the source dataset.
  • FIG. 9 is a diagram visualizing the correlation between data set similarity (Similarity) and MAP.
  • each component of each device illustrated is functionally conceptual, and does not necessarily need to be physically configured as illustrated.
  • the specific form of distribution and integration of each device is not limited to the illustrated one, and all or part of them can be functionally or physically distributed or Can be integrated and configured.
  • all or any part of each processing function performed by each device is realized by a CPU (Central Processing Unit) and a program analyzed and executed by the CPU, or hardware by wired logic can be realized as Note that the program may be executed not only by the CPU but also by other processors such as a GPU.
  • CPU Central Processing Unit
  • the information providing apparatus 10 can be implemented by installing an information providing program that executes the above processing as package software or online software on a desired computer.
  • the information processing device can function as the information providing device 10 by causing the information processing device to execute the information providing program.
  • the information processing apparatus referred to here includes a desktop or notebook personal computer.
  • information processing devices include mobile communication terminals such as smartphones, mobile phones and PHS (Personal Handyphone Systems), and slate terminals such as PDAs (Personal Digital Assistants).
  • the information providing device 10 can also be implemented as a server device that uses a terminal device used by a user as a client and provides the client with services related to the above processing.
  • the server device is implemented as a server device that provides a similarity measurement service that inputs a target data set and a plurality of transfer source data sets and outputs the similarity between the target data set and each transfer source data set.
  • the server device may be implemented as a web server, or may be implemented as a cloud that provides services related to the above processing by outsourcing.
  • FIG. 12 is a diagram showing an example of a computer that executes an information providing program.
  • the computer 1000 has a memory 1010 and a CPU 1020, for example.
  • Computer 1000 also has hard disk drive interface 1030 , disk drive interface 1040 , serial port interface 1050 , video adapter 1060 and network interface 1070 . These units are connected by a bus 1080 .
  • the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM (Random Access Memory) 1012 .
  • the ROM 1011 stores a boot program such as BIOS (Basic Input Output System).
  • BIOS Basic Input Output System
  • Hard disk drive interface 1030 is connected to hard disk drive 1090 .
  • a disk drive interface 1040 is connected to the disk drive 1100 .
  • a removable storage medium such as a magnetic disk or optical disk is inserted into the disk drive 1100 .
  • Serial port interface 1050 is connected to mouse 1110 and keyboard 1120, for example.
  • Video adapter 1060 is connected to display 1130, for example.
  • the hard disk drive 1090 stores, for example, an OS 1091, application programs 1092, program modules 1093, and program data 1094. That is, a program that defines each process of the information providing apparatus 10 is implemented as a program module 1093 in which computer-executable code is described. Program modules 1093 are stored, for example, on hard disk drive 1090 .
  • the hard disk drive 1090 stores a program module 1093 for executing processing similar to the functional configuration of the information providing apparatus 10 .
  • the hard disk drive 1090 may be replaced by an SSD (Solid State Drive).
  • the setting data used in the processing of the above-described embodiment is stored as program data 1094 in the memory 1010 or the hard disk drive 1090, for example. Then, the CPU 1020 reads the program modules 1093 and program data 1094 stored in the memory 1010 and the hard disk drive 1090 to the RAM 1012 as necessary, and executes the processes of the above-described embodiments.
  • the program modules 1093 and program data 1094 are not limited to being stored in the hard disk drive 1090, but may be stored in a removable storage medium, for example, and read by the CPU 1020 via the disk drive 1100 or the like. Alternatively, the program modules 1093 and program data 1094 may be stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.). Program modules 1093 and program data 1094 may then be read by CPU 1020 through network interface 1070 from other computers.
  • LAN Local Area Network
  • WAN Wide Area Network

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

A feature extraction unit (131) according to an embodiment extracts a plurality of features by inputting a plurality of data sets into a model that uses a data set to output a feature in a dimension lower than that of the data set. A similarity degree calculation unit (132) calculates the degree of similarity between the plurality of features extracted by the feature extraction unit (131).

Description

情報提供装置、情報提供方法及び情報提供プログラムInformation providing device, information providing method and information providing program
 本発明は、情報提供装置、情報提供方法及び情報提供プログラムに関する。 The present invention relates to an information providing device, an information providing method, and an information providing program.
 深層ニューラルネットワーク(DNN:Deep Neural Netework)は、画像処理や自然言語処理において高い精度で予測が可能である。一方で、DNNの学習には多くのコストがかかる。 A deep neural network (DNN) is capable of highly accurate prediction in image processing and natural language processing. On the other hand, learning a DNN is costly.
 例えば、DNNの学習におけるコストには、正解ラベルの付与(アノテーション)を含むデータセットの収集コスト、精度を向上させるための計算コスト、複数のハイパーパラメータを事例ごとに探索するためのチューニングコスト等が含まれる。 For example, the cost of training a DNN includes the cost of collecting data sets that include correct labels (annotations), the computational cost of improving accuracy, and the tuning cost of searching multiple hyperparameters for each case. included.
 DNNの事業導入時にこのようなコストを抑えるための方法として、転移学習が提案されている。 Transfer learning has been proposed as a method to reduce such costs when introducing a DNN business.
 転移学習は、目的データセットとは異なるデータセット(転移元データセット)や学習済みモデルを流用し、少ないデータ又は計算時間で学習を行う技術である。 Transfer learning is a technology that uses a dataset (source dataset) different from the target dataset or a trained model to perform learning with less data or less computation time.
 また、転移学習には、ファインチューニング及びドメイン適応といった手法が含まれる。 In addition, transfer learning includes methods such as fine tuning and domain adaptation.
 ファインチューニングは、転移元データセットでモデルを事前学習し、学習済みのパラメータを初期値として目的データセットの学習に使用する方法である。  Fine-tuning is a method of pre-learning a model with a transfer source dataset and using the learned parameters as initial values for learning of the target dataset.
 ドメイン適応は、転移元データセットと目的データセットを同じモデルで同時に学習し、転移元データセットの知識を用いながら目的データセットのタスクを解く方法である。 Domain adaptation is a method in which the same model learns both the source data set and the target data set at the same time, and uses the knowledge of the source data set to solve the task of the target data set.
 しかしながら、従来の技術には、効率良く転移学習を実施できない場合があるという問題がある。従来の転移学習は、開発者の勘や経験に依存している部分が多く、転移元データセットの選別やパラメータのチューニング等に人手による作業が必要になる。 However, the conventional technology has the problem that it may not be possible to implement transfer learning efficiently. Conventional transfer learning largely relies on the intuition and experience of the developer, requiring manual work such as selection of transfer source datasets and tuning of parameters.
 転移学習に有効なデータセットは自明ではなく、目的データセットと転移元データセットとの関係(類似度)によって転移学習の結果は大きく変わる。例えば、ImageNet(大規模、大量)で事前学習したモデルは、目的データセットによっては事前学習していないモデルに劣る場合がある(例えば、非特許文献1を参照)。 The datasets that are effective for transfer learning are not trivial, and the results of transfer learning vary greatly depending on the relationship (similarity) between the target dataset and the source dataset. For example, a model pre-trained with ImageNet (large-scale, large-scale) may be inferior to a model not pre-trained depending on the target dataset (see Non-Patent Document 1, for example).
 一方で、データセット間の類似度は一般的には不明であり、デファクトスタンダードとなるような指標は未だ登場していない。 On the other hand, the degree of similarity between datasets is generally unknown, and no de facto standard index has yet emerged.
 また、転移学習においては、目的データセット及び転移元データセットに合ったハイパーパラメータを選択する必要がある。一方で、深層学習モデルはハイパーパラメータが多く、転移学習時にもチューニングが必須となる。 Also, in transfer learning, it is necessary to select hyperparameters that match the target dataset and the transfer source dataset. On the other hand, deep learning models have many hyperparameters, and tuning is essential even during transfer learning.
 上述した課題を解決し、目的を達成するために、情報提供装置は、データセットから、前記データセットよりも低次元の特徴量を出力するモデルに、複数のデータセットを入力することにより複数の特徴量を抽出する特徴抽出部と、前記特徴抽出部によって抽出された複数の特徴量間の類似度を計算する類似度計算部と、を有することを特徴とする。 In order to solve the above-described problems and achieve the object, an information providing device inputs a plurality of data sets from a data set to a model that outputs a feature amount of lower dimension than the data set, thereby obtaining a plurality of data sets. It is characterized by having a feature extractor that extracts feature quantities, and a similarity calculator that calculates similarities between the plurality of feature quantities extracted by the feature extractor.
 本発明によれば、効率良く転移学習を実施することができる。 According to the present invention, transfer learning can be efficiently implemented.
図1は、第1の実施形態に係る情報提供装置の構成例を示す図である。FIG. 1 is a diagram showing a configuration example of an information providing device according to the first embodiment. 図2は、類似度の測定方法を説明する図である。FIG. 2 is a diagram for explaining a similarity measuring method. 図3は、モデルの学習方法を説明する図である。FIG. 3 is a diagram for explaining a model learning method. 図4は、情報提供処理について説明する図である。FIG. 4 is a diagram for explaining information providing processing. 図5は、学習処理の流れを示すフローチャートである。FIG. 5 is a flowchart showing the flow of learning processing. 図6は、類似度測定処理の流れを示すフローチャートである。FIG. 6 is a flowchart showing the flow of similarity measurement processing. 図7は、情報提供処理の流れを示すフローチャートである。FIG. 7 is a flowchart showing the flow of information providing processing. 図8は、実験の結果を示す図である。FIG. 8 is a diagram showing the results of the experiment. 図9は、実験の結果を示す図である。FIG. 9 is a diagram showing experimental results. 図10は、情報提供プログラムを実行するコンピュータの一例を示す図である。FIG. 10 is a diagram showing an example of a computer that executes an information providing program.
 以下に、本願に係る情報提供装置、情報提供方法及び情報提供プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。 Embodiments of an information providing device, an information providing method, and an information providing program according to the present application will be described in detail below based on the drawings. In addition, this invention is not limited by embodiment described below.
[第1の実施形態の構成]
 図1は、第1の実施形態に係る情報提供装置の構成例を示す図である。情報提供装置10は、データセット間の類似度を計算し、計算した類似度を基に情報を提供する。例えば、情報提供装置10は、転移学習における目的データセットに類似する転移元データセットを特定するための情報を提供する。
[Configuration of the first embodiment]
FIG. 1 is a diagram showing a configuration example of an information providing device according to the first embodiment. The information providing device 10 calculates the degree of similarity between data sets and provides information based on the calculated degree of similarity. For example, the information providing device 10 provides information for identifying a transfer source data set similar to a target data set in transfer learning.
 また、情報提供装置10は、類似度を計算するためのモデルの学習処理を行う。情報提供装置10は、学習済みのモデルを使って類似度の計算を行ってもよいし、学習済みのモデルを他の装置等に提供してもよい。 In addition, the information providing device 10 performs model learning processing for calculating the degree of similarity. The information providing device 10 may calculate the degree of similarity using the learned model, or may provide the learned model to another device or the like.
 図1に示すように、情報提供装置10は、入出力部11、記憶部12及び制御部13を有する。 As shown in FIG. 1, the information providing device 10 has an input/output unit 11, a storage unit 12 and a control unit 13.
 入出力部11は、データの入出力を行うためのインタフェースである。例えば、入出力部11は、ネットワークを介して他の装置との間でデータ通信を行うためのNIC(Network Interface Card)等の通信インタフェースであってもよい。また、入出力部11は、マウス、キーボード等の入力装置、及びディスプレイ等の出力装置を接続するためのインタフェースであってもよい。 The input/output unit 11 is an interface for inputting/outputting data. For example, the input/output unit 11 may be a communication interface such as a NIC (Network Interface Card) for performing data communication with other devices via a network. Also, the input/output unit 11 may be an interface for connecting input devices such as a mouse and a keyboard, and output devices such as a display.
 記憶部12は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、光ディスク等の記憶装置である。なお、記憶部12は、RAM(Random Access Memory)、フラッシュメモリ、NVSRAM(Non Volatile Static Random Access Memory)等のデータを書き換え可能な半導体メモリであってもよい。記憶部12は、情報提供装置10で実行されるOS(Operating System)や各種プログラムを記憶する。また、記憶部12は、モデル情報121を記憶する。 The storage unit 12 is a storage device such as an HDD (Hard Disk Drive), an SSD (Solid State Drive), an optical disc, or the like. Note that the storage unit 12 may be a rewritable semiconductor memory such as RAM (Random Access Memory), flash memory, NVSRAM (Non Volatile Static Random Access Memory). The storage unit 12 stores an OS (Operating System) and various programs executed by the information providing device 10 . The storage unit 12 also stores model information 121 .
 モデル情報121は、モデルを構築するためのパラメータ等の情報であり、学習処理において適宜更新される。また、更新済みのモデル情報121は、入出力部11を介して他の装置等に出力されてもよい。 The model information 121 is information such as parameters for constructing a model, and is updated as appropriate during the learning process. Also, the updated model information 121 may be output to another device or the like via the input/output unit 11 .
 制御部13は、情報提供装置10全体を制御する。制御部13は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)等の電子回路や、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等の集積回路である。また、制御部13は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。また、制御部13は、各種のプログラムが動作することにより各種の処理部として機能する。例えば、制御部13は、特徴抽出部131、類似度計算部132、損失関数計算部133、更新部134、候補抽出部135及び提供部136を有する。 The control unit 13 controls the information providing device 10 as a whole. The control unit 13 includes, for example, electronic circuits such as CPU (Central Processing Unit), MPU (Micro Processing Unit), GPU (Graphics Processing Unit), ASIC (Application Specific Integrated Circuit), FPGA (Field Programmable Gate Array), etc. It is an integrated circuit. The control unit 13 also has an internal memory for storing programs defining various processing procedures and control data, and executes each processing using the internal memory. Further, the control unit 13 functions as various processing units by running various programs. For example, the control unit 13 has a feature extraction unit 131 , a similarity calculation unit 132 , a loss function calculation unit 133 , an update unit 134 , a candidate extraction unit 135 and a provision unit 136 .
 特徴抽出部131は、データセットから、データセットよりも低次元の特徴量を出力するモデルに、複数のデータセットを入力することにより複数の特徴量を抽出する。 The feature extraction unit 131 extracts a plurality of feature amounts by inputting a plurality of data sets into a model that outputs a feature amount of lower dimension than the data set.
 類似度計算部132は、特徴抽出部131によって抽出された複数の特徴量間の類似度を計算する。 The similarity calculation unit 132 calculates similarities between the feature quantities extracted by the feature extraction unit 131 .
 図2を用いて、特徴抽出部131及び類似度計算部132による類似度の測定方法を説明する。図2は、類似度の測定方法を説明する図である。 A similarity measuring method by the feature extraction unit 131 and the similarity calculation unit 132 will be described with reference to FIG. FIG. 2 is a diagram for explaining a similarity measuring method.
 図2に示すように、特徴抽出部131は、モデルFを用いて、データセットA及びデータセットBから特徴量を抽出する。モデルFは、特徴抽出用の深層ニューラルネットワークである。 As shown in FIG. 2, the feature extraction unit 131 uses model F to extract feature amounts from data set A and data set B. Model F is a deep neural network for feature extraction.
 データセットは、複数のデータサンプルを含む。また、特徴抽出部131は、データサンプルごとの特徴量を抽出する。 A dataset contains multiple data samples. Also, the feature extraction unit 131 extracts a feature amount for each data sample.
 図2の例では、データセットAはI個のデータサンプルx (ただし、iは0からIまでの整数)を含む。そして、特徴抽出部131は、データセットAから、I個のデータサンプルに対応する特徴量f を抽出する。 In the example of FIG. 2, data set A includes I data samples x A i (where i is an integer from 0 to I). Then, the feature extraction unit 131 extracts from the data set A, feature amounts f A i corresponding to I data samples.
 ここで、DNNで使用するデータセットは高次元であるため、データセット同士の類似度を直接測定することは困難である。そこで、特徴抽出部131は、図2のようにデータセットを低次元化した特徴量を抽出する。例えば、f は、x よりも低次元である。 Here, since the datasets used in the DNN are high-dimensional, it is difficult to directly measure the similarity between datasets. Therefore, the feature extraction unit 131 extracts a feature quantity obtained by reducing the dimension of the data set as shown in FIG. For example, f A i is lower dimensional than x A i .
 さらに、特徴抽出部131は、抽出した特徴量を集約する。図2の例では、特徴抽出部131は、I個のデータサンプルに対応する特徴量f を1つの特徴量f´に集約している。 Furthermore, the feature extraction unit 131 aggregates the extracted feature amounts. In the example of FIG. 2, the feature extraction unit 131 aggregates the feature amounts f A i corresponding to I data samples into one feature amount f'A .
 このように、特徴抽出部131は、モデルによって出力された特徴量であって、データセットに含まれるデータサンプルごとの特徴量を、1つのデータサンプルの特徴量に集約することができる。例えば、特徴抽出部131は、複数のデータサンプルの各要素の平均及び分散等の統計量を集約後の特徴量とすることができる。 In this way, the feature extracting unit 131 can aggregate the feature amount output by the model, which is the feature amount for each data sample included in the data set, into a single data sample feature amount. For example, the feature extraction unit 131 can use statistics such as averages and variances of each element of a plurality of data samples as feature amounts after aggregation.
 そして、類似度計算部132は、特徴抽出部131によって集約された特徴量間の類似度を計算する。例えば、集約された特徴量f´とf´とがベクトルであれば、類似度計算部132は、ベクトルf´とベクトルf´との距離dABを類似度として計算する。類似度計算部132は、2-Wasserstein距離をベクトル間の距離として計算してもよい。 Then, the similarity calculation unit 132 calculates the similarity between the feature quantities aggregated by the feature extraction unit 131 . For example, if the aggregated feature amounts f′A and f′B are vectors, the similarity calculation unit 132 calculates the distance d AB between the vectors f′A and f′B as the similarity. The similarity calculation unit 132 may calculate the 2-Wasserstein distance as the distance between vectors.
 また、特徴抽出部131は、転移学習における転移元データセットを用いて自己教師学習によって学習済みのモデルにより特徴量を抽出する。そして、類似度計算部132は、転移元データセットの特徴量と、転移学習における目的データセットの特徴量との類似度を計算する。 In addition, the feature extraction unit 131 extracts feature amounts from a model that has been trained by self-supervised learning using the transfer source data set in transfer learning. Then, the similarity calculation unit 132 calculates the similarity between the feature amount of the transfer source data set and the feature amount of the target data set in the transfer learning.
 損失関数計算部133は、モデルの学習のための損失関数を計算する。また、更新部134は、損失関数が最適化されるようにモデルのパラメータを更新する。 The loss function calculator 133 calculates a loss function for model learning. Also, the updating unit 134 updates the parameters of the model so that the loss function is optimized.
 なお、モデルFのパラメータはモデル情報121として記憶部12に格納される。更新部134は、モデル情報121を更新する。 It should be noted that the parameters of model F are stored in the storage unit 12 as model information 121 . The updating unit 134 updates the model information 121 .
 図3を用いて、モデルFの学習方法を説明する。図3は、モデルの学習方法を説明する図である。 The learning method of model F will be explained using FIG. FIG. 3 is a diagram for explaining a model learning method.
 モデルFは、転移学習において目的データに類似する転移元データを特定する際に、目的データと複数の転移元データとの類似度を測定するために用いられる。 Model F is used to measure the degree of similarity between target data and a plurality of transfer source data when specifying transfer source data similar to target data in transfer learning.
 その際、情報提供装置10は、転移元データセット群を用いて分類等の任意のタスクで事前にモデルFの学習を行っておくものとする。
実施形態では、情報提供装置10は、自己教師学習を使用してモデルFの学習を行う。事故教師学習はアノテーションが不要であるため、複数のデータセットをまとめて扱いやすい。
At that time, the information providing apparatus 10 is assumed to perform learning of the model F in advance by an arbitrary task such as classification using the transfer source data set group.
In the embodiment, the information providing device 10 learns the model F using self-supervised learning. Since accident supervised learning does not require annotation, it is easy to handle multiple datasets together.
 また、情報提供装置10は、自己教師学習の手法として対照学習手法の1つであるMoCo(参考文献:He, Kaiming, et al. "Momentum contrast for unsupervised visual representation learning." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020.)を利用する。 In addition, the information providing apparatus 10 uses MoCo (Reference: He, Kaiming, et al. "Momentum contrast for unsupervised visual representation learning." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020.).
 図3に示すように、損失関数計算部133は、複数のデータセット(DからD)をモデルFに入力して得られた特徴量を基に、Contrastive lossの損失関数Lを計算する。 As shown in FIG. 3, the loss function calculation unit 133 calculates the loss function L q of contrastive loss based on the feature amount obtained by inputting a plurality of data sets (D 0 to D N ) into the model F. do.
 ここで、Contrastive lossは、入力画像から2つの異なる画像変換によってクエリと正解キー画像を生成し、他の画像から得られたキーの集合の中からDNNを介して正しくクエリと正解キーの組み合わせを見つけるタスクの損失である。 Here, contrastive loss generates a query and correct key image by two different image transformations from the input image, and correctly combines the query and correct key through DNN from the set of keys obtained from other images. Find task loss.
 図3の損失関数の右辺のqは、クエリ画像から得られるモデルFの出力である。kは、クエリと同じ画像を拡張変換した正解キーから得られるモデルFの出力である。Kは、正解キーを含むキー画像の総数である。また、τは温度係数である。 The q on the right side of the loss function in FIG. 3 is the output of model F obtained from the query image. k + is the output of model F obtained from the correct key of the augmented transformation of the same image as the query. K is the total number of key images including the correct key. Also, τ is a temperature coefficient.
 候補抽出部135及び提供部136は、目的データに類似する転移元データを特定する情報を提供することで、実際の転移学習を支援する。図4を用いて、情報提供処理について説明する。図4は、情報提供処理について説明する図である。 The candidate extraction unit 135 and the provision unit 136 support actual transfer learning by providing information specifying transfer source data similar to target data. The information providing process will be described with reference to FIG. FIG. 4 is a diagram for explaining information providing processing.
 図4のデータセットDは、目的データセットである。また、データセットDからDは、複数の転移元データセットである。 Data set DT in FIG. 4 is the target data set. Also, data sets D0 to DN are a plurality of transfer source data sets.
 類似度計算器(Similarity Calculator)は、学習済みのモデルFを使用する特徴抽出bう131及び類似度計算部132に相当する。 The similarity calculator corresponds to the feature extraction block 131 and the similarity calculator 132 that use the learned model F.
 このとき、類似度計算部132は、1つの目的データセット(D)と複数の転移元データセット(DからD)のぞれぞれとについて、特徴量間の類似度を計算する。 At this time, the similarity calculation unit 132 calculates the similarity between the feature quantities for each of the one target data set (D T ) and the plurality of transition source data sets (D 0 to D T ). .
 そして、候補抽出部135は、計算された類似度を基に、目的データセットとの特徴量の類似度が所定の順位以上である転移元データセットを候補として抽出する。 Then, based on the calculated similarity, the candidate extraction unit 135 extracts, as a candidate, a transfer source data set whose feature amount similarity to the target data set is at or above a predetermined rank.
 さらに、提供部136は、転移元データセットのうち、候補として抽出された転移元データセットを特定するための情報をユーザに提供する。 Further, the providing unit 136 provides the user with information for specifying the transfer source data set extracted as a candidate among the transfer source data sets.
 図4の例では、候補抽出部135は、計算された類似度d0T、d1T、…、dNTを類似度が大きい順に並べたランキングを作成する。そして、例えば上位3つの類似度dNT、d1T、d0Tに相当する転移元データセットD、D、Dを抽出する。 In the example of FIG. 4, the candidate extraction unit 135 creates a ranking by arranging the calculated degrees of similarity d 0T , d 1T , . Then, for example, transfer source data sets D N , D 1 , and D 0 corresponding to the top three similarities d NT , d 1T , and d 0T are extracted.
 提供部136は、抽出された転移元データセットD、D、Dを、対応するハイパーパラメータH、H、Hとともにユーザに提供する。なお、各転移元データセットに対する最適なハイパーパラメータは、過去のモデル構築の過程においてグリッドサーチ等の手法により決定済みであるものとする。 The providing unit 136 provides the extracted transfer source data sets D N , D 1 and D 0 to the user together with the corresponding hyperparameters H N , H 1 and H 0 . It is assumed that the optimal hyperparameters for each transition source data set have already been determined by a method such as grid search in the process of building the model in the past.
 このように、複数まとめて提供される転移元データとハイパーパラメータの組み合わせは、転移学習においてまとめて利用されてもよい。 In this way, multiple combinations of transfer source data and hyperparameters provided collectively may be used collectively in transfer learning.
[第1の実施形態の処理]
 図5、図6及び図7に示すフローチャートを用いて、情報提供装置10による処理の流れを説明する。
[Processing of the first embodiment]
The flow of processing by the information providing apparatus 10 will be described using the flowcharts shown in FIGS. 5, 6 and 7. FIG.
 図5は、学習処理の流れを示すフローチャートである。図5に示すように、まず、情報提供装置10は、転移元データセット群から学習データを読み込む(ステップS101)。 FIG. 5 is a flowchart showing the flow of learning processing. As shown in FIG. 5, first, the information providing device 10 reads learning data from the transfer source data set group (step S101).
 次に、情報提供装置10は、DNNモデルFによって学習データから特徴を抽出する(ステップS102)。 Next, the information providing device 10 extracts features from the learning data using the DNN model F (step S102).
 ここで、情報提供装置10は、特徴空間上で事前学習タスクの損失関数を計算する(ステップS103)。そして、情報提供装置10は、損失関数の逆誤差伝搬法によりモデルFのパラメータを更新する(ステップS104)。 Here, the information providing device 10 calculates the loss function of the pre-learning task on the feature space (step S103). Then, the information providing device 10 updates the parameters of the model F by the back propagation method of the loss function (step S104).
 このとき、最大学習ステップ数>学習ステップ数である場合(ステップS105、True)、情報提供装置10はステップS101に戻り処理を繰り返す。一方、最大学習ステップ数>学習ステップ数でない場合(ステップS105、False)、情報提供装置10は処理を終了する。 At this time, if the maximum number of learning steps>the number of learning steps (step S105, True), the information providing device 10 returns to step S101 and repeats the process. On the other hand, if the maximum number of learning steps is not greater than the number of learning steps (Step S105, False), the information providing device 10 terminates the process.
 図6は、類似度測定処理の流れを示すフローチャートである。図6に示すように、まず。情報提供装置10は、転移元データセットからデータサンプルを読み込む(ステップS201)。 FIG. 6 is a flowchart showing the flow of similarity measurement processing. First, as shown in FIG. The information providing device 10 reads data samples from the transfer source data set (step S201).
 次に、情報提供装置10は、DNNモデルFによって転移元データサンプルから特徴を抽出する(ステップS202)。さらに、情報提供装置10は、転移元データサンプルごとの特徴ベクトルを単一の特徴ベクトル(例えば、平均又は分散)に集約する(ステップS203)。 Next, the information providing device 10 extracts features from the transfer source data sample using the DNN model F (step S202). Furthermore, the information providing device 10 aggregates the feature vectors for each transition source data sample into a single feature vector (for example, mean or variance) (step S203).
 情報提供装置10は、目的データセットからデータサンプルを読み込む(ステップS204)。 The information providing device 10 reads data samples from the target data set (step S204).
 そして、情報提供装置10は、DNNモデルFによって目的データサンプルの特徴を抽出する(ステップS205)。さらに、情報提供装置10は、転移元データセットと同様に、目的データサンプルごとの特徴ベクトルを単一の特徴ベクトルに集約する(ステップS206)。 Then, the information providing device 10 extracts the features of the target data sample using the DNN model F (step S205). Furthermore, the information providing apparatus 10 aggregates the feature vectors for each target data sample into a single feature vector, similarly to the transfer source data set (step S206).
 情報提供装置10は、集約した目的データセット及び転移元データセットの特徴ベクトル間の類似度を、例えば2-Wasserstein距離により計算する(ステップS207)。 The information providing device 10 calculates the degree of similarity between the feature vectors of the aggregated target data set and the transfer source data set, for example, using the 2-Wasserstein distance (step S207).
 図7は、情報提供処理の流れを示すフローチャートである。まず、情報提供装置10は、目的データセット及びN個の転移元データセットの類似度を計算する(ステップS301)。 FIG. 7 is a flowchart showing the flow of information provision processing. First, the information providing device 10 calculates the similarity between the target data set and the N transfer source data sets (step S301).
 次に、情報提供装置10は、データセット類似度{diT で転移元データセットをソート(距離:昇順/スコア:降順)する(ステップS302)。そして、情報提供装置10は、ソートで得られたランキングのうちTop-Kの転移元データセットidを抽出(K≦N:任意の整数)(ステップS303)。 Next, the information providing device 10 sorts the transition source data set (distance: ascending order/score: descending order) by the data set similarity {d iT } j N (step S302). Then, the information providing apparatus 10 extracts Top-K transfer source data set ids from the ranking obtained by sorting (K≦N: arbitrary integer) (step S303).
 ここで、情報提供装置10は、K個の転移元データセットidに紐づくデータセットとハイパーパラメータを読み込む(ステップS304)。そして、情報提供装置10は、ユーザがダウンロード可能なURI(Uniform Resource Identifier)を発行し、データセットとハイパーパラメータを出力する(ステップS305)。 Here, the information providing device 10 reads the datasets and hyperparameters associated with the K transfer source dataset ids (step S304). The information providing apparatus 10 then issues a URI (Uniform Resource Identifier) that can be downloaded by the user, and outputs the dataset and hyperparameters (step S305).
[第1の実施形態の効果]
 これまで説明してきたように、特徴抽出部131は、データセットから、データセットよりも低次元の特徴量を出力するモデルに、複数のデータセットを入力することにより複数の特徴量を抽出する。類似度計算部132は、特徴抽出部131によって抽出された複数の特徴量間の類似度を計算する。
[Effects of the first embodiment]
As described above, the feature extraction unit 131 extracts a plurality of feature amounts by inputting a plurality of data sets into a model that outputs a feature amount of lower dimension than the data set. The similarity calculator 132 calculates the similarity between the feature quantities extracted by the feature extractor 131 .
 このように、情報提供装置10は、データセット間の類似度を自動的に計算することができる。その結果、本実施形態によれば、類似するデータセットを特定することができるため、効率良く転移学習を実施することができる。 In this way, the information providing device 10 can automatically calculate the degree of similarity between datasets. As a result, according to the present embodiment, similar data sets can be specified, so that transfer learning can be efficiently performed.
 特徴抽出部131は、モデルによって出力された特徴量であって、データセットに含まれるデータサンプルごとの特徴量を、1つのデータサンプルの特徴量に集約する。類似度計算部132は、特徴抽出部131によって集約された特徴量間の類似度を計算する。 The feature extraction unit 131 aggregates the feature amounts output by the model, which are feature amounts for each data sample included in the data set, into one data sample feature amount. The similarity calculation unit 132 calculates the similarity between feature amounts aggregated by the feature extraction unit 131 .
 この結果、本実施形態によれば、特徴量間の距離を容易に計算できるようになる。 As a result, according to this embodiment, it becomes possible to easily calculate the distance between the feature quantities.
 特徴抽出部131は、転移学習における転移元データセットを用いて自己教師学習によって学習済みのモデルにより特徴量を抽出する。類似度計算部132は、転移元データセットの特徴量と、転移学習における目的データセットの特徴量との類似度を計算する。 The feature extraction unit 131 extracts feature quantities from a model that has been trained by self-supervised learning using a transfer source data set in transfer learning. The similarity calculation unit 132 calculates the similarity between the feature amount of the transfer source data set and the feature amount of the target data set in transfer learning.
 このように、本実施形態ではアノテーションが不要な自己教師学習により、類似度を測定するモデルの学習を効率良く行うことができる。 In this way, in this embodiment, self-supervised learning that does not require annotation enables efficient learning of a model that measures similarity.
 類似度計算部132は、1つの目的データセットと複数の転移元データセットのぞれぞれとについて、特徴量間の類似度を計算する。提供部136は、転移元データセットのうち、目的データセットとの特徴量の類似度が所定の順位以上である転移元データセットを特定するための情報をユーザに提供する。 The similarity calculation unit 132 calculates the similarity between feature quantities for each of one target data set and a plurality of transition source data sets. The providing unit 136 provides the user with information for specifying, among the transfer source data sets, those transfer source data sets whose similarity in feature quantity with the target data set is equal to or higher than a predetermined rank.
 これにより、情報提供装置10は、目的データセットに類似する転移元データセットをユーザに推薦することができる。そのため、本実施形態によれば、効率良く転移学習を実施することができる。 As a result, the information providing device 10 can recommend a transfer source dataset similar to the target dataset to the user. Therefore, according to this embodiment, transfer learning can be performed efficiently.
[実験]
 上記の実施形態を実際に実施して行った実験について説明する。実験では、上記の実施形態を用いて、データセットの類似度による転移元データセット及びハイパーパラメータ(アーキテクチャ)の選択を行った。
[experiment]
An experiment conducted by actually implementing the above embodiment will be described. In the experiment, using the above embodiment, the transfer source dataset and the hyperparameter (architecture) were selected according to the similarity of the dataset.
 実験の設定は以下の通りである。
・データセット
  目的データセット:Oxford Pets
  転移元データセット:ImageNetを11クラスに分割したサブセット群
・ニューラルネットワークアーキテクチャ: 
 実験1:ResNet-50
 実験2:ResNet-50, ResNet-101, ResNext-50-32x4d, ResNext-101-32-4d, Wide-ResNet-50, Wide-ResNet-101
The experimental setup is as follows.
・Dataset Target dataset: Oxford Pets
Transfer source dataset: Subset group of ImageNet divided into 11 classes Neural network architecture:
Experiment 1: ResNet-50
Experiment 2: ResNet-50, ResNet-101, ResNext-50-32x4d, ResNext-101-32-4d, Wide-ResNet-50, Wide-ResNet-101
(実験1)
 図8に、データセットの類似度により転移元データセットを選択した実験1の結果を示す。図8は、実験の結果を示す図である。
(Experiment 1)
FIG. 8 shows the results of Experiment 1 in which the transfer source data set was selected according to the similarity of the data sets. FIG. 8 is a diagram showing the results of the experiment.
 図8の例では、転移元データセットの全データを用いて特徴抽出器(モデルF、自己教師学習モデルMoco)の学習を行った。そして、特徴抽出器を用いて目的データセットと転移元データセットのデータセット類似度を測定した。 In the example of FIG. 8, the feature extractor (model F, self-supervised learning model Moco) was trained using all the data of the transfer source data set. Then, a feature extractor was used to measure the dataset similarity between the target dataset and the source dataset.
 さらに、各サブセットを転移元データセットとした学習済みモデルを用いてOxford Pets でファインチューニングしテスト精度を測定した。図8は、データセット類似度(Similarity)とテスト精度(ACC@1)の相関を可視化した図である。 Furthermore, using the trained model with each subset as the transfer source data set, Oxford Pets was fine-tuned and the test accuracy was measured. FIG. 8 is a diagram visualizing the correlation between data set similarity (Similarity) and test accuracy (ACC@1).
 図8に示す相関関係より、実施形態が有効な転移元データセットの選択に効果があるということができる。 From the correlation shown in FIG. 8, it can be said that the embodiment is effective in selecting an effective transfer source data set.
(実験2)
 図9に、データセットの類似度によりハイパーパラメータ(アーキテクチャ)を選択した実験2の結果を示す。図9は、実験の結果を示す図である。
(Experiment 2)
FIG. 9 shows the results of Experiment 2, in which the hyperparameters (architecture) were selected according to the similarity of the datasets. FIG. 9 is a diagram showing experimental results.
 図9の例では、目的データセット及び転移元データセットを用いて、各アーキテクチャでクラス分類を学習し、テスト精度を測定した。そして、特徴抽出器を用いて目的データセットと転移元データセットのデータセット類似度を測定した。 In the example of FIG. 9, class classification was learned for each architecture using the target dataset and the transition source dataset, and the test accuracy was measured. Then, a feature extractor was used to measure the dataset similarity between the target dataset and the source dataset.
 さらに、データセットごとにテスト精度でアーキテクチャのランキング(テスト精度で降順)を作成し、目的データセットと転移元データセット間のランキングのMean Average Precision(MAP)を測定した。図9は、データセット類似度(Similarity)とMAPの相関を可視化した図である。 In addition, we created an architecture ranking (in descending order of test accuracy) for each dataset by test accuracy, and measured the Mean Average Precision (MAP) of the ranking between the target dataset and the transfer source dataset. FIG. 9 is a diagram visualizing the correlation between data set similarity (Similarity) and MAP.
 図9に示す相関関係より、実施形態が有効なハイパーパラメータの選択に効果があるということができる。 From the correlation shown in FIG. 9, it can be said that the embodiment is effective in selecting effective hyperparameters.
[システム構成等]
 また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU(Central Processing Unit)及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。なお、プログラムは、CPUだけでなく、GPU等の他のプロセッサによって実行されてもよい。
[System configuration, etc.]
Also, each component of each device illustrated is functionally conceptual, and does not necessarily need to be physically configured as illustrated. In other words, the specific form of distribution and integration of each device is not limited to the illustrated one, and all or part of them can be functionally or physically distributed or Can be integrated and configured. Furthermore, all or any part of each processing function performed by each device is realized by a CPU (Central Processing Unit) and a program analyzed and executed by the CPU, or hardware by wired logic can be realized as Note that the program may be executed not only by the CPU but also by other processors such as a GPU.
 また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。 Further, among the processes described in the present embodiment, all or part of the processes described as being automatically performed can be performed manually, or the processes described as being performed manually can be performed manually. All or part of this can also be done automatically by known methods. In addition, information including processing procedures, control procedures, specific names, and various data and parameters shown in the above documents and drawings can be arbitrarily changed unless otherwise specified.
[プログラム]
 一実施形態として、情報提供装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記の処理を実行する情報提供プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の情報提供プログラムを情報処理装置に実行させることにより、情報処理装置を情報提供装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
[program]
As one embodiment, the information providing apparatus 10 can be implemented by installing an information providing program that executes the above processing as package software or online software on a desired computer. For example, the information processing device can function as the information providing device 10 by causing the information processing device to execute the information providing program. The information processing apparatus referred to here includes a desktop or notebook personal computer. In addition, information processing devices include mobile communication terminals such as smartphones, mobile phones and PHS (Personal Handyphone Systems), and slate terminals such as PDAs (Personal Digital Assistants).
 また、情報提供装置10は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の処理に関するサービスを提供するサーバ装置として実装することもできる。例えば、サーバ装置は、目的データセット及び複数の転移元データセットを入力とし、目的データセットと各転移元データセットとの類似度を出力とする類似度測定サービスを提供するサーバ装置として実装される。この場合、サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。 The information providing device 10 can also be implemented as a server device that uses a terminal device used by a user as a client and provides the client with services related to the above processing. For example, the server device is implemented as a server device that provides a similarity measurement service that inputs a target data set and a plurality of transfer source data sets and outputs the similarity between the target data set and each transfer source data set. . In this case, the server device may be implemented as a web server, or may be implemented as a cloud that provides services related to the above processing by outsourcing.
 図12は、情報提供プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。 FIG. 12 is a diagram showing an example of a computer that executes an information providing program. The computer 1000 has a memory 1010 and a CPU 1020, for example. Computer 1000 also has hard disk drive interface 1030 , disk drive interface 1040 , serial port interface 1050 , video adapter 1060 and network interface 1070 . These units are connected by a bus 1080 .
 メモリ1010は、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。 The memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM (Random Access Memory) 1012 . The ROM 1011 stores a boot program such as BIOS (Basic Input Output System). Hard disk drive interface 1030 is connected to hard disk drive 1090 . A disk drive interface 1040 is connected to the disk drive 1100 . A removable storage medium such as a magnetic disk or optical disk is inserted into the disk drive 1100 . Serial port interface 1050 is connected to mouse 1110 and keyboard 1120, for example. Video adapter 1060 is connected to display 1130, for example.
 ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、情報提供装置10の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、情報提供装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。 The hard disk drive 1090 stores, for example, an OS 1091, application programs 1092, program modules 1093, and program data 1094. That is, a program that defines each process of the information providing apparatus 10 is implemented as a program module 1093 in which computer-executable code is described. Program modules 1093 are stored, for example, on hard disk drive 1090 . For example, the hard disk drive 1090 stores a program module 1093 for executing processing similar to the functional configuration of the information providing apparatus 10 . The hard disk drive 1090 may be replaced by an SSD (Solid State Drive).
 また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020は、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した実施形態の処理を実行する。 Also, the setting data used in the processing of the above-described embodiment is stored as program data 1094 in the memory 1010 or the hard disk drive 1090, for example. Then, the CPU 1020 reads the program modules 1093 and program data 1094 stored in the memory 1010 and the hard disk drive 1090 to the RAM 1012 as necessary, and executes the processes of the above-described embodiments.
 なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。 The program modules 1093 and program data 1094 are not limited to being stored in the hard disk drive 1090, but may be stored in a removable storage medium, for example, and read by the CPU 1020 via the disk drive 1100 or the like. Alternatively, the program modules 1093 and program data 1094 may be stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.). Program modules 1093 and program data 1094 may then be read by CPU 1020 through network interface 1070 from other computers.
 10 情報提供装置
 11 入出力部
 12 記憶部
 121 モデル情報
 13 制御部
 131 特徴抽出部
 132 類似度計算部
 133 損失関数計算部
 134 更新部
 135 候補抽出部
 136 提供部
10 information providing device 11 input/output unit 12 storage unit 121 model information 13 control unit 131 feature extraction unit 132 similarity calculation unit 133 loss function calculation unit 134 update unit 135 candidate extraction unit 136 provision unit

Claims (6)

  1.  データセットから、前記データセットよりも低次元の特徴量を出力するモデルに、複数のデータセットを入力することにより複数の特徴量を抽出する特徴抽出部と、
     前記特徴抽出部によって抽出された複数の特徴量間の類似度を計算する類似度計算部と、
     を有することを特徴とする情報提供装置。
    A feature extraction unit that extracts a plurality of feature quantities by inputting a plurality of data sets into a model that outputs a feature quantity of lower dimension than the dataset, and
    a similarity calculation unit that calculates the similarity between the plurality of feature quantities extracted by the feature extraction unit;
    An information providing device characterized by comprising:
  2.  前記特徴抽出部は、前記モデルによって出力された特徴量であって、データセットに含まれるデータサンプルごとの特徴量を、1つのデータサンプルの特徴量に集約し、
     前記類似度計算部は、前記特徴抽出部によって集約された特徴量間の類似度を計算することを特徴とする請求項1に記載の情報提供装置。
    The feature extracting unit aggregates the feature amount output by the model, which is the feature amount for each data sample included in the data set, into a feature amount of one data sample,
    2. The information providing apparatus according to claim 1, wherein the similarity calculation unit calculates the similarity between feature quantities aggregated by the feature extraction unit.
  3.  前記特徴抽出部は、転移学習における転移元データセットを用いて自己教師学習によって学習済みのモデルにより特徴量を抽出し、
     前記類似度計算部は、前記転移元データセットの特徴量と、前記転移学習における目的データセットの特徴量との類似度を計算することを特徴とする請求項1又は2に記載の情報提供装置。
    The feature extraction unit extracts a feature amount from a model trained by self-supervised learning using a transfer source data set in transfer learning,
    3. The information providing apparatus according to claim 1, wherein the similarity calculation unit calculates a similarity between the feature amount of the transfer source data set and the feature amount of the target data set in the transfer learning. .
  4.  ユーザに情報を提供する提供部をさらに有し、
     前記類似度計算部は、1つの目的データセットと複数の転移元データセットのぞれぞれとについて、特徴量間の類似度を計算し、
     前記提供部は、前記転移元データセットのうち、前記目的データセットとの特徴量の類似度が所定の順位以上である転移元データセットを特定するための情報をユーザに提供することを特徴とする請求項1から3のいずれか1項に記載の情報提供装置。
    further comprising a providing unit for providing information to the user;
    The similarity calculation unit calculates the similarity between feature quantities for each of one target data set and a plurality of transfer source data sets,
    The providing unit provides the user with information for specifying a transfer source data set having a feature amount similarity with the target data set of a predetermined rank or higher among the transfer source data sets. The information providing device according to any one of claims 1 to 3.
  5.  情報提供装置によって実行される情報提供方法であって、
     データセットから、前記データセットよりも低次元の特徴量を出力するモデルに、複数のデータセットを入力することにより複数の特徴量を抽出する特徴抽出工程と、
     前記特徴抽出工程によって抽出された複数の特徴量間の類似度を計算する類似度計算工程と、
     を含むことを特徴とする情報提供方法。
    An information providing method executed by an information providing device,
    A feature extraction step of extracting a plurality of feature amounts by inputting a plurality of data sets into a model that outputs a feature amount of lower dimension than the data set;
    a similarity calculation step of calculating a similarity between the plurality of feature quantities extracted by the feature extraction step;
    An information provision method characterized by comprising:
  6.  コンピュータを、請求項1から4のいずれか1項に記載の情報提供装置として機能させるための情報提供プログラム。 An information providing program for causing a computer to function as the information providing device according to any one of claims 1 to 4.
PCT/JP2021/020296 2021-05-27 2021-05-27 Information provision device, information provision method, and information provision program WO2022249415A1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2023523881A JPWO2022249415A1 (en) 2021-05-27 2021-05-27
PCT/JP2021/020296 WO2022249415A1 (en) 2021-05-27 2021-05-27 Information provision device, information provision method, and information provision program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/020296 WO2022249415A1 (en) 2021-05-27 2021-05-27 Information provision device, information provision method, and information provision program

Publications (1)

Publication Number Publication Date
WO2022249415A1 true WO2022249415A1 (en) 2022-12-01

Family

ID=84228495

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/020296 WO2022249415A1 (en) 2021-05-27 2021-05-27 Information provision device, information provision method, and information provision program

Country Status (2)

Country Link
JP (1) JPWO2022249415A1 (en)
WO (1) WO2022249415A1 (en)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014022837A (en) * 2012-07-13 2014-02-03 Nippon Hoso Kyokai <Nhk> Learning device and program
JP2016224821A (en) * 2015-06-02 2016-12-28 キヤノン株式会社 Learning device, control method of learning device, and program
WO2020170803A1 (en) * 2019-02-20 2020-08-27 日本電信電話株式会社 Augmentation device, augmentation method, and augmentation program
JP2020149080A (en) * 2019-03-11 2020-09-17 三菱電機インフォメーションシステムズ株式会社 Data extraction apparatus, data extraction method and data extraction program
US20200364611A1 (en) * 2019-05-16 2020-11-19 International Business Machines Corporation Method to measure similarity of datasets for given ai task
WO2021059388A1 (en) * 2019-09-25 2021-04-01 日本電信電話株式会社 Learning device, image processing device, learning method, and learning program

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014022837A (en) * 2012-07-13 2014-02-03 Nippon Hoso Kyokai <Nhk> Learning device and program
JP2016224821A (en) * 2015-06-02 2016-12-28 キヤノン株式会社 Learning device, control method of learning device, and program
WO2020170803A1 (en) * 2019-02-20 2020-08-27 日本電信電話株式会社 Augmentation device, augmentation method, and augmentation program
JP2020149080A (en) * 2019-03-11 2020-09-17 三菱電機インフォメーションシステムズ株式会社 Data extraction apparatus, data extraction method and data extraction program
US20200364611A1 (en) * 2019-05-16 2020-11-19 International Business Machines Corporation Method to measure similarity of datasets for given ai task
WO2021059388A1 (en) * 2019-09-25 2021-04-01 日本電信電話株式会社 Learning device, image processing device, learning method, and learning program

Also Published As

Publication number Publication date
JPWO2022249415A1 (en) 2022-12-01

Similar Documents

Publication Publication Date Title
CN109657805B (en) Hyper-parameter determination method, device, electronic equipment and computer readable medium
JP7343568B2 (en) Identifying and applying hyperparameters for machine learning
CN112528025A (en) Text clustering method, device and equipment based on density and storage medium
CN116261731A (en) Relation learning method and system based on multi-hop attention-seeking neural network
CN113761218B (en) Method, device, equipment and storage medium for entity linking
CN112395487B (en) Information recommendation method and device, computer readable storage medium and electronic equipment
CN111984792A (en) Website classification method and device, computer equipment and storage medium
CN110909222A (en) User portrait establishing method, device, medium and electronic equipment based on clustering
Bezáková et al. Graph model selection using maximum likelihood
CN113377964A (en) Knowledge graph link prediction method, device, equipment and storage medium
Thahir et al. An efficient heuristic method for active feature acquisition and its application to protein-protein interaction prediction
Bruneau et al. A clustering package for nucleotide sequences using Laplacian Eigenmaps and Gaussian Mixture Model
CN113468421A (en) Product recommendation method, device, equipment and medium based on vector matching technology
KR102010031B1 (en) Method and apparatus for predicting game indicator information
WO2022249415A1 (en) Information provision device, information provision method, and information provision program
Almomani et al. Selecting a good stochastic system for the large number of alternatives
CN116561338A (en) Industrial knowledge graph generation method, device, equipment and storage medium
WO2023238258A1 (en) Information provision device, information provision method, and information provision program
CN114610953A (en) Data classification method, device, equipment and storage medium
CN114581177A (en) Product recommendation method, device, equipment and storage medium
CN113408665A (en) Object identification method, device, equipment and medium
JP2022111020A (en) Transfer learning method of deep learning model based on document similarity learning and computer device
CN106600053A (en) Spatial-temporal trajectory and social network user attribute prediction system
CN113239203A (en) Knowledge graph-based screening method and device
CN111209953B (en) Recall method, recall device, computer equipment and storage medium for neighbor vector

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21943061

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023523881

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE