WO2024057578A1 - 抽出システム、抽出方法および抽出プログラム - Google Patents

抽出システム、抽出方法および抽出プログラム Download PDF

Info

Publication number
WO2024057578A1
WO2024057578A1 PCT/JP2023/006600 JP2023006600W WO2024057578A1 WO 2024057578 A1 WO2024057578 A1 WO 2024057578A1 JP 2023006600 W JP2023006600 W JP 2023006600W WO 2024057578 A1 WO2024057578 A1 WO 2024057578A1
Authority
WO
WIPO (PCT)
Prior art keywords
tokens
policy
data
extraction
extracted
Prior art date
Application number
PCT/JP2023/006600
Other languages
English (en)
French (fr)
Inventor
モニカ ロスリアナ ブスト
毅晴 江田
昇平 榎本
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Publication of WO2024057578A1 publication Critical patent/WO2024057578A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • the present invention relates to an extraction system, an extraction method, and an extraction program.
  • edge computing data acquired by sensors placed at the edge is offloaded to cloud servers.
  • edge devices and cloud servers share calculations, and data compression when offloading from edge devices to cloud servers are being considered.
  • Non-Patent Documents 1 and 2 a technique for extracting a region of interest (ROI) is known (see Non-Patent Documents 1 and 2). For small-scale systems, extracting the ROI as a pre-processing for offloading is sufficient as it minimizes the data size.
  • the present invention has been made in view of the above, and aims to reduce data offloaded from edge devices to cloud servers in transformer-based collaborative intelligence.
  • an extraction device includes an acquisition unit that acquires data to be processed and a policy that specifies a token to be extracted from among the tokens constituting the data. , an extraction unit that extracts a token to be transmitted to a cloud server from the data according to the policy.
  • FIG. 1 is a diagram for explaining the outline of the extraction system.
  • FIG. 2 is a diagram for explaining the outline of the extraction system.
  • FIG. 3 is a diagram for explaining the outline of the extraction system.
  • FIG. 4 is a schematic diagram illustrating a schematic configuration of the extraction system.
  • FIG. 5 is a diagram for explaining an example of processing of the extraction system.
  • FIG. 6 is a diagram for explaining an example of processing of the extraction system.
  • FIG. 7 is a diagram for explaining an example of processing of the extraction system.
  • FIG. 8 is a diagram for explaining an example of processing of the extraction system.
  • FIG. 9 is a diagram for explaining an example of processing of the extraction system.
  • FIG. 10 is a diagram for explaining an example of processing of the extraction system.
  • FIG. 11 is a diagram for explaining an example of processing of the extraction system.
  • FIG. 12 is a flowchart showing the extraction processing procedure.
  • FIG. 13 is a diagram showing an example of a computer that executes the extraction program.
  • Extraction system overview 1 to 3 are diagrams for explaining the outline of the extraction system.
  • the extraction system of this embodiment compresses and offloads data from an edge device to a cloud server in transformer-based collaborative intelligence.
  • a token is defined as the size of the original image (height x width x number of channels) (H x W x C), and N patches with a size of (P 2 x C). It is divided into.
  • FIG. 2 unlike general object segmentation, information regarding importance according to an attention-based policy is included. This allows data to be reduced because the object is input to the transformer only when importance is associated with it.
  • the policy output is used to change the data to be offloaded to JPEG format, and no new encoder or decoder design is required.
  • the transformer on the cloud server performs self-supervised relearning using auxiliary tokens to achieve robust inference. As a result, as illustrated in FIG. 3, even if input data is reduced, highly accurate inference is possible.
  • FIG. 4 is a schematic diagram illustrating a schematic configuration of the extraction system. Further, FIG. 5 is a diagram for explaining an example of processing of the extraction system.
  • the extraction system 1 of this embodiment includes an extraction device 10, a cloud server 20, and an edge device 30. Note that the extraction device 10 may be implemented in the same hardware as the edge device 30.
  • the extraction device 10 is realized by a general-purpose computer such as a personal computer, and includes a communication control section 13, a storage section 14, and a control section 15.
  • the communication control unit 13 is realized by a NIC (Network Interface Card) or the like, and controls communication between an external device and the control unit 15 via a telecommunication line such as a LAN (Local Area Network) or the Internet.
  • a NIC Network Interface Card
  • the communication control unit 13 controls communication between the cloud server 20, the edge device 30, etc., and the control unit 15.
  • the storage unit 14 is realized by a semiconductor memory element such as a RAM (Random Access Memory) or a flash memory, or a storage device such as a hard disk or an optical disk.
  • a processing program for operating the extraction device 10 data used during execution of the processing program, and the like are stored in advance, or are temporarily stored each time processing is performed.
  • the storage unit 14 may be configured to communicate with the control unit 15 via the communication control unit 13.
  • the storage unit 14 stores a policy 14a and the like used in the extraction process described later.
  • the control unit 15 is realized using a CPU (Central Processing Unit), an NP (Network Processor), an FPGA (Field Programmable Gate Array), etc., and executes a processing program stored in a memory. Thereby, the control unit 15 functions as an acquisition unit 15a and an extraction unit 15b, as illustrated in FIG. Note that these functional units may be implemented in different hardware. Further, the control unit 15 may include other functional units.
  • CPU Central Processing Unit
  • NP Network Processor
  • FPGA Field Programmable Gate Array
  • the acquisition unit 15a acquires the data to be processed and a policy 14a that specifies the token to be extracted from among the tokens that make up the data. For example, the acquisition unit 15a acquires an image (image data) to be processed from the edge device 30 via an input unit or communication control unit 13 (not shown).
  • the acquisition unit 15a may store the acquired data in the storage unit 14 prior to the extraction process described below. Alternatively, the acquisition unit 15a may not store this information in the storage unit 14, but may immediately transfer it to the extraction unit 15b described below.
  • the acquisition unit 15a also acquires a policy 14a that specifies the token to be extracted from among the tokens that make up the data.
  • the policy 14a is trained to identify tokens among the tokens that make up the input data according to their importance for the task. That is, the acquisition unit 15a acquires the policy 14a that has been trained to specify which tokens to extract from among the tokens making up the data according to the degree of importance for the task. As shown in area a of FIG. 5, the offloading policy 14a imitates the attention map of a self-supervised teacher model such as DINO (Self-Distillation with NO labels). This is how it was learned. This self-supervised model is known to be good at learning representations, requires no labels, and exhibits features that highlight important areas related to the task.
  • DINO Self-Distillation with NO labels
  • the loss function L KL is expressed by the following equation (1).
  • the attention rank r is used to improve the distillation of the attention map.
  • the rank is compared with Spearman's rank correlation coefficient rs , and the loss function L RANK is expressed by the following equation (2).
  • the attention score is a measure of importance
  • rank loss is used in order for the policy 14a to learn to maintain the same rank of token importance as the teacher model.
  • the loss function of the learning target is obtained by combining the knowledge distillation loss function L KL using the KL divergence in the above equation (1) and the rank loss function L RANK in the above equation (2), using the following equation ( 3).
  • the extraction unit 15b extracts a token to be sent to the cloud server 20 from the data according to the policy 14a. Specifically, as shown in area b of FIG. 5, the extraction unit 15b retains only a predetermined number k of tokens from the top among the attention values output by the policy 14a, discards the rest, and offloads them. Generate data to The data to be offloaded is JPEG format data in which the token has been changed (retained or discarded).
  • the number of bits used to represent the frequency components of the zero pixel region is significantly reduced, so the data size of the continuous zero pixel region is effectively reduced.
  • the acquisition unit 15a also uses a policy 14a that has been learned to specify a fixed number of tokens to be extracted from among the tokens that make up the data, or a policy 14a that has been learned to specify a fixed number of tokens to be extracted from among the tokens that make up the data.
  • the policy 14a that has been learned to specify the token to be extracted is obtained. That is, the acquisition unit 15a acquires the policy 14a that has been learned to identify fixed mode tokens or the policy 14a that has been learned to identify adaptive mode tokens. do.
  • the fixed mode refers to a mode in which the number of tokens to be extracted is fixed in advance because the number of tokens to be extracted is determined manually by the user.
  • the adaptive mode refers to a mode in which the policy 14a is learned so that the number of tokens to be extracted depends on the object. Fixed mode and adaptive mode are selected by the user. That is, the user can freely select a mode according to the purpose according to his/her wishes.
  • the extraction unit 15b extracts the number of tokens specified by the policy 14a from among the tokens forming the data as tokens to be transmitted to the cloud server 20. In this way, in the extraction device 10, unlike the conventional technology in which the number of tokens is determined within the cloud server 20, the number of tokens is automatically determined outside the cloud server 20 according to the policy 14a.
  • FIGS. 6 to 9. 6 to 9 are diagrams for explaining an example of processing of the extraction system.
  • the acquisition unit 15a acquires a policy 14a that has been learned to reduce the number of tokens to be extracted when the size of the object included in the image data is large.
  • the number of required tokens varies depending on the size of the object, and the number of extracted tokens may affect the accuracy of the overall task of the extraction system 1 including the cloud server 20. For this reason, policy 14a may be trained to identify a number of tokens that does not adversely affect accuracy.
  • the acquisition unit 15a is trained to identify tokens for which the number to be extracted each time is fixed, regardless of the content of the image data, that is, the object in the image data. Obtain the policy 14a.
  • the extraction unit 15b extracts tokens whose number is fixed each time as tokens to be transmitted to the cloud server 20.
  • the calculation cost by the server 20 is constant.
  • the acquisition unit 15a acquires a policy 14a that has been learned such that the number of tokens to be extracted is determined according to the content of the image data, that is, the object in the image data. .
  • the extraction unit 15b extracts tokens, the number of which is determined according to the content of the image data, as tokens to be transmitted to the cloud server 20.
  • the extraction unit 15b holds 44% of the tokens for image data A, 55% for image data B, and 33% for image data C, and selects the data to be offloaded to the cloud server 20. is being generated. Therefore, in the adaptive mode, the average value of the calculation cost by the cloud server 20 can be made smaller than in the fixed mode.
  • the accuracy of the task of the extraction system 1 as a whole is affected by the size of objects in the dataset such as image data, so the policy 14a is designed to identify the number of tokens that does not adversely affect the accuracy. may have been learned.
  • the policy 14a is learned to mimic the attention map of a self-supervised model such as DINO.
  • Models trained on accidental teacher tasks such as DINO are known to be good at learning representations, do not require labels, and exhibit features that highlight important areas related to the task, so they can be used in fixed mode. It is suitably used for learning the policy 14a.
  • the user decides the number of tokens to offload, eg, offload the top 50% of tokens and release the others.
  • the learning of the policy 14a does not need to be performed by the learning section 25b, which will be described later, in the cloud server 20. The details of learning the policy 14a will be explained below using mathematical formulas.
  • the policy 14a is learned using the loss function expressed by equation (3) above as the learning target loss function.
  • Equation (3) the loss function L KL is expressed by the above-mentioned (1)
  • the loss function L RANK is expressed by the above-mentioned Equation (2).
  • Equation (1) using the KL divergence D KL between the vectorized attention map output of the teacher model such as DINO and the student policy output, we calculate the attention map output and the student policy output. Similarity to the policy output is maximized.
  • the attention rank r is used to improve the distillation of the attention map, and the rank is compared with the Spearman rank correlation coefficient r s .
  • the loss function described above is used to learn the policy 14a to preserve the same order of importance of the tokens (maintain the rank of importance) as the teacher model.
  • tokens are selected using a mask to determine the number of tokens for each image data.
  • the mask outputs a mask m expressed using the following relaxed Bernoulli distribution equation (4) with temperature ⁇ and probability p as parameters. L is sampled from a uniform distribution on [0,1].
  • the policy 14a is learned by the learning unit 25b in the cloud server 20. Details of the learning by the learning section 25b will be described later.
  • the acquisition unit 15a acquires the policy 14a that is trained to specify the compression rate of the token to be extracted according to the degree of importance. That is, the acquisition unit 15a not only compresses the tokens by specifying the tokens to be extracted from among the tokens forming the data to be processed, but also specifies the compression rate of the tokens to be extracted according to the importance level such as the attention score.
  • the policy 14a that performs compression is acquired. In this way, the acquisition unit 15a acquires the policy 14a that compresses the token in two steps.
  • FIG. 10 is a diagram for explaining an example of processing of the extraction system.
  • the policy 14a is learned to specify the compression rate of the token to be extracted according to the importance level such as the attention score, regardless of whether the mode is fixed mode or adaptive mode.
  • the policy 14a is trained to delete tokens corresponding to the cat background as the first step of token compression. For deleted tokens, the pixel value is set to zero. This is because JPEG's DCT transform uses significantly fewer bits to represent the frequency components of contiguous regions where pixel values are set to zero, effectively reducing data size. .
  • the policy 14a is trained to change the compression rate of the token corresponding to the retained cat object according to the importance of the attention score etc. as the second step of token compression.
  • the compression ratio is divided into five levels: 50%, 60%, 70%, 80%, and 90%.
  • the acquisition unit 15a acquires the policy 14a that has been learned to perform the first step of token compression and the second step of token compression described above. After the acquisition unit 15a acquires the policy 14a, the data is compressed and offloaded from the edge device to the cloud server in two steps.
  • FIG. 11 is a diagram for explaining an example of processing of the extraction system.
  • the table in FIG. 11 shows the accuracy of the task by the cloud server 20, the calculation cost, and the calculation cost of the cloud server 20, depending on the configuration of the offloading policy 14a, that is, what kind of policy 14a the acquisition unit 15a acquires. This shows how the compression rate of the data handled is affected.
  • the acquisition unit 15a acquires the policy 14a learned to identify fixed mode tokens, it is better to acquire the policy 14a learned to identify adaptive mode tokens.
  • the accuracy of tasks performed by the cloud server 20 is higher than in the case of acquisition.
  • the acquisition unit 15a acquires the policy 14a that is trained to specify a fixed number of tokens to be extracted from among the tokens that make up the data, the overall performance is better than when it is not.
  • the accuracy of tasks performed by the cloud server 20 is high.
  • the adaptive mode has higher accuracy than the fixed mode, but this is due to the number of tokens for which high accuracy can be obtained in the fixed mode depending on the dataset. This is because they are different.
  • the number of fixed tokens that provide high accuracy cannot be uniformly defined and varies depending on the data set.
  • the learning unit 25b of the cloud server 20 needs to retrain the model 24a such as ViT (Vision Transformer) for each fixed number, which reduces the cost. It takes.
  • the acquisition unit 15a acquires the policy 14a learned to identify tokens in the adaptive mode, it is better to acquire the policy 14a learned to identify tokens in the fixed mode than when the acquisition unit 15a acquires the policy 14a learned to identify tokens in the fixed mode.
  • the compression rate of data handled by the cloud server 20 and the reduction rate of calculation cost are high.
  • the cloud server The compression rate of data handled by 20 and the reduction rate of calculation cost are high.
  • the cloud server 20 is virtually constructed on a general-purpose computer such as a server device, and includes a storage unit 24 and a control unit 25 .
  • the storage unit 24 is realized by a semiconductor memory element such as a RAM or a flash memory, or a storage device such as a hard disk or an optical disk.
  • a processing program for operating the cloud server 20 data used during execution of the processing program, and the like are stored in advance, or are temporarily stored each time processing is performed.
  • the storage unit 24 may be configured to communicate with the control unit 25 via a communication control unit (not shown).
  • the storage unit 24 stores a model 24a used in extraction processing described later.
  • the control unit 25 is realized using a CPU, NP, FPGA, etc., and executes a processing program stored in a memory. Thereby, the control unit 25 functions as a prediction unit 25a and a learning unit 25b, as illustrated in FIG. Note that the control unit 25 may include other functional units.
  • the prediction unit 25a inputs the extracted tokens into the model 24a to predict data.
  • This model 24a is, for example, ViT.
  • ViT ViT
  • the learning unit 25b re-learns the model 24a by adding tokens whose importance is equal to or higher than a predetermined threshold. Specifically, as shown in area c of FIG. 5, the learning unit 25b performs relearning of ViT by rotation prediction as a self-supervised task. At that time, a CLS token and an auxiliary token are added. In this case, the rotation prediction loss function L ROT is expressed by the following equation (5).
  • the target loss function of relearning is the rotation prediction loss function L ROT of the above equation (5), and the task related to the purpose of the cloud server 20 such as image classification. It is expressed in combination with L TASK .
  • the learning unit 25b causes the policy 14a to be learned in the adaptive mode.
  • An example of learning the policy 14a by the learning unit 25b in the adaptive mode will be described below with reference to FIG.
  • the learning unit 25b performs image classification, etc. as shown in the following equation (7).
  • the policy 14b is trained using the represented loss function as a learning target loss function.
  • FIG. 12 is a flowchart showing the extraction processing procedure.
  • the flowchart in FIG. 12 is started, for example, at the timing when the user performs an operation input instructing the start.
  • the acquisition unit 15a acquires the data to be processed and the policy 14a that specifies the token to be extracted from among the tokens that make up the data (step S1). For example, the acquisition unit 15a acquires an image (image data) to be processed from the edge device 30 via the input unit or the communication control unit 13.
  • the extraction unit 15b extracts a token to be sent to the cloud server 20 from the data to be processed according to the policy 14a (step S2). Specifically, the extraction unit 15b retains only a predetermined number k of tokens from the top among the attention values output by the policy 14a, discards the rest, and generates data to be offloaded.
  • the prediction unit 25a predicts class probabilities by inputting the extracted tokens into a model 24a such as ViT (step S3). This completes the series of extraction processes.
  • the acquisition unit 15a acquires the data to be processed and the policy 14a that specifies the token to be extracted from among the tokens constituting the data. do.
  • the extraction unit 15b extracts a token to be transmitted to the cloud server 20 from the data according to the policy 14a.
  • the acquisition unit 15a also acquires a policy 14a that has been learned to identify tokens according to their importance for a task among the tokens that make up the data. This makes it possible to reduce the amount of data offloaded from the edge device 30 to the cloud server 20 while minimizing the impact.
  • the prediction unit 25a inputs the extracted tokens into the model 24a to predict class probabilities. This makes it possible to reproduce the data to be processed.
  • the learning unit 25b re-learns the model 24a by adding tokens whose importance is equal to or higher than a predetermined threshold. Thereby, even if input data is reduced, it is possible to suppress a decrease in task prediction accuracy.
  • the acquisition unit 15a also acquires policy 14a that has been trained to identify a fixed number of tokens to extract from among the tokens that make up the data, or policy 14a that has been trained to identify a number of tokens to extract that corresponds to the object from among the tokens that make up the data. That is, the acquisition unit 15a acquires policy 14a that has been trained to identify tokens in a fixed mode, or policy 14a that has been trained to identify tokens in an adaptive mode.
  • the acquisition unit 15a acquires the policy 14a that has been learned to identify tokens in fixed mode
  • the acquisition unit 15a acquires the policy 14a that has been learned to identify tokens in adaptive mode. , it becomes possible to improve the accuracy of tasks performed by the cloud server 20 as a whole.
  • the acquisition unit 15a acquires the policy 14a that has been learned to identify tokens in the adaptive mode
  • the acquisition unit 15a is more likely to use the cloud server 20 than when acquiring the policy 14a that has been learned to identify tokens in the fixed mode. This makes it possible to reduce the calculation cost.
  • the adaptive mode there is no need for the user to determine the number of tokens, and the number of tokens is automatically determined by the policy 14a, so there is no need to retrain the model 24a such as ViT.
  • the adaptive mode may be effective in business applications where the difference in task accuracy between the cloud servers 20 is small (for example, 1% or less) and does not pose a major problem, or in applications that prioritize reducing calculation costs using the cloud servers 20. many. Therefore, the adaptive mode can be effectively applied to these applications.
  • the acquisition unit 15a acquires the policy 14a that is trained to specify the compression rate of the token to be extracted according to the degree of importance. That is, the acquisition unit 15a not only compresses the tokens by specifying the tokens to be extracted from among the tokens forming the data to be processed, but also specifies the compression rate of the tokens to be extracted according to the importance level such as the attention score.
  • the policy 14a that performs compression is acquired. In this way, the acquisition unit 15a acquires the policy 14a learned to compress the token in two steps. This makes it possible to increase the compression rate of data handled by the cloud server 20 compared to compression in one step.
  • the extraction device 10 can be implemented by installing on a desired computer an extraction program that executes the above extraction process as packaged software or online software.
  • the information processing device can be made to function as the extraction device 10.
  • the information processing device referred to here includes a desktop or notebook personal computer.
  • information processing devices include mobile communication terminals such as smartphones, mobile phones, and PHSs (Personal Handyphone Systems), as well as slate terminals such as PDAs (Personal Digital Assistants).
  • the functions of the extraction device 10 may be implemented in a cloud server.
  • FIG. 13 is a diagram showing an example of a computer that executes the extraction program.
  • Computer 1000 includes, for example, memory 1010, CPU 1020, hard disk drive interface 1030, disk drive interface 1040, serial port interface 1050, video adapter 1060, and network interface 1070. These parts are connected by a bus 1080.
  • the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM 1012.
  • the ROM 1011 stores, for example, a boot program such as BIOS (Basic Input Output System).
  • Hard disk drive interface 1030 is connected to hard disk drive 1031.
  • Disk drive interface 1040 is connected to disk drive 1041.
  • a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1041, for example.
  • a mouse 1051 and a keyboard 1052 are connected to the serial port interface 1050.
  • a display 1061 is connected to the video adapter 1060.
  • the hard disk drive 1031 stores, for example, an OS 1091, an application program 1092, a program module 1093, and program data 1094. Each piece of information described in the above embodiments is stored in, for example, the hard disk drive 1031 or the memory 1010.
  • the extraction program is stored in the hard disk drive 1031, for example, as a program module 1093 in which commands to be executed by the computer 1000 are written.
  • a program module 1093 in which each process executed by the extraction device 10 described in the above embodiment is described is stored in the hard disk drive 1031.
  • data used for information processing by the extraction program is stored as program data 1094 in, for example, the hard disk drive 1031.
  • the CPU 1020 reads out the program module 1093 and program data 1094 stored in the hard disk drive 1031 to the RAM 1012 as necessary, and executes each of the above-described procedures.
  • program module 1093 and program data 1094 related to the extraction program are not limited to being stored in the hard disk drive 1031; for example, they may be stored in a removable storage medium and read by the CPU 1020 via the disk drive 1041 or the like. may be done.
  • the program module 1093 and program data 1094 related to the extraction program are stored in another computer connected via a network such as a LAN or WAN (Wide Area Network), and read out by the CPU 1020 via the network interface 1070. You can.
  • Extraction System 10 Extraction Device 13 Communication Control Unit 14, 24 Storage Unit 15, 25 Control Unit 15a Acquisition Unit 15b Extraction Unit 20 Cloud Server 25a Prediction Unit 25b Learning Unit 30 Edge Device

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Abstract

抽出システム(1)の抽出装置(10)において、取得部(15a)が、処理対象のデータと、該データを構成するトークンのうち抽出するトークンを特定するポリシー(14a)とを取得する。抽出部(15b)が、ポリシー(14a)に従って、データからクラウドサーバ(20)に送信するトークンを抽出する。

Description

抽出システム、抽出方法および抽出プログラム
 本発明は、抽出システム、抽出方法および抽出プログラムに関する。
 近年、AIベースのシステムが、エッジコンピューティングで実現されている。エッジコンピューティングでは、エッジに配置したセンサが取得したデータが、クラウドサーバにオフロードされる。
 高度なAIシステムでは、エッジデバイスがクラウドサーバにデータをオフロードする場合に、ネットワークや帯域幅の制約が応答時間に影響してしまう。
 そこで、エッジデバイスとクラウドサーバとが計算を共有する協調知能(コラボレーティブインテリジェンス)と、エッジデバイスからクラウドサーバにオフロードする際にデータ圧縮を行うことが検討されている。
 データ圧縮に関し、関心領域(ROI)を抽出する技術が知られている(非特許文献1,2参照)。小規模なシステムでは、オフロードの前処理としてROIを抽出すれば、データサイズが最小化されるので十分である。
 一方、高度なシステムでは、エッジデバイスとクラウドサーバとが計算を共有する協調知能が提案されている。協調知能でオフロードされるデータは、共有される分割モデルの中間層から出力される特徴量ある。多くの場合、オフロードの前にこれらの特徴量(中間層から出力される特徴量)を圧縮する必要がある。
Guoping Rong, et al. "An edge-cloud collaborative computing platform for building aiot applications efficiently", Journal of Cloud Computing, 2021年, vol.10, no.1, pp.1-14 Dhritiman Mukherjee, et al. "Energy efficient face recognition in mobile-fog environment", Procedia Computer Science, 2019年, vol.152
 しかしながら、従来技術によれば、トランスフォーマベースの協調知能においてエッジデバイスからクラウドサーバにオフロードするデータを削減することが困難である。例えば、ROI抽出では、データサイズの削減が最も効果的ではなかった。また、ほとんどの特徴量圧縮手法は、CNNベースのシステム向けに設計されている。CNNベースのモデルから中間層を経由する度に出力される特徴量のデータ量を小さくすることが可能である。一方、トランスフォーマベースのモデルでは、特徴量のサイズは一定で、特徴量のデータ量を減らすことは困難である。
 本発明は、上記に鑑みてなされたものであって、トランスフォーマベースの協調知能においてエッジデバイスからクラウドサーバにオフロードするデータを削減することを目的とする。
 上述した課題を解決し、目的を達成するために、本発明に係る抽出装置は、処理対象のデータと、該データを構成するトークンのうち抽出するトークンを特定するポリシーとを取得する取得部と、前記ポリシーに従って、前記データからクラウドサーバに送信するトークンを抽出する抽出部と、を有することを特徴とする。
 本発明によれば、トランスフォーマベースの協調知能においてエッジデバイスからクラウドサーバにオフロードするデータを削減することが可能となる。
図1は、抽出システムの概要を説明するための図である。 図2は、抽出システムの概要を説明するための図である。 図3は、抽出システムの概要を説明するための図である。 図4は、抽出システムの概略構成を例示する模式図である。 図5は、抽出システムの処理の一例を説明するための図である。 図6は、抽出システムの処理の一例を説明するための図である。 図7は、抽出システムの処理の一例を説明するための図である。 図8は、抽出システムの処理の一例を説明するための図である。 図9は、抽出システムの処理の一例を説明するための図である。 図10は、抽出システムの処理の一例を説明するための図である。 図11は、抽出システムの処理の一例を説明するための図である。 図12は、抽出処理手順を示すフローチャートである。 図13は、抽出プログラムを実行するコンピュータの一例を示す図である。
 以下、図面を参照して、本発明の実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
[抽出システムの概要]
 図1~図3は、抽出システムの概要を説明するための図である。本実施形態の抽出システムは、トランスフォーマベースの協調知能において、エッジデバイス(edge device)からクラウドサーバ(cloud server)にデータを圧縮してオフロードする。
 従来のCNNベースの協調知能においては、図1(a)に例示したように、特徴量(モデルの中間層の特徴量データ)をオフロードしていた。これに対し、本実施形態の抽出システムは、図1(b)に例示するように、データの最小の構成単位であるトークンをオフロードする。すなわち、抽出装置は、アテンションの概念を利用して、オフロードするトークンを動的に選択し、それ以外のトークンを削除してイメージを変更することにより、データサイズを削減してオフロードする。ここで、トークンとは、元の画像のサイズを(縦×横×チャンネル数)で(H×W×C)としたとき、これを(P2×C)のサイズを持ったN個のパッチに分割したものである。
 具体的には、図2に例示するように、一般的なオブジェクトセグメンテーションとは異なり、アテンションベースのポリシーに従った重要度に関する情報が含まれる。これにより、オブジェクトに重要度が関連付けられている場合にのみトランスフォーマに入力されるため、データを削減することが可能となる。
 なお、アテンションベースのポリシーは後述するように、知識蒸留(Knowledge Distillation)により学習される。また、ポリシー出力は、オフロードするデータをJPEG形式に変更するために用いられ、エンコーダやデコーダの新たな設計は必要ない。また、クラウドサーバ上のトランスフォーマは、補助トークンを用いて自己教師付き(Self-supervised)で再学習を行ってロバストな推論を実現する。これにより、図3に例示するように、入力されるデータが削減されていても、精度高く推論することが可能となる。
[抽出システムの構成]
 図4は、抽出システムの概略構成を例示する模式図である。また、図5は、抽出システムの処理の一例を説明するための図である。まず、図4に例示するように、本実施形態の抽出システム1は、抽出装置10、クラウドサーバ20およびエッジデバイス30を含んで構成される。なお、抽出装置10は、エッジデバイス30と同一のハードウェアに実装されてもよい。
[抽出装置の構成]
 抽出装置10は、パソコン等の汎用コンピュータで実現され、通信制御部13、記憶部14、および制御部15を備える。
 通信制御部13は、NIC(Network Interface Card)等で実現され、LAN(Local Area Network)やインターネット等の電気通信回線を介した外部の装置と制御部15との通信を制御する。例えば、通信制御部13は、クラウドサーバ20やエッジデバイス30等と制御部15との通信を制御する。
 記憶部14は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部14には、抽出装置10を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータ等が予め記憶され、あるいは処理の都度一時的に記憶される。なお、記憶部14は、通信制御部13を介して制御部15と通信する構成でもよい。本実施形態において、記憶部14は、後述する抽出処理に用いられるポリシー14a等を記憶する。
 制御部15は、CPU(Central Processing Unit)やNP(Network Processor)やFPGA(Field Programmable Gate Array)等を用いて実現され、メモリに記憶された処理プログラムを実行する。これにより、制御部15は、図4に例示するように、取得部15aおよび抽出部15bとして機能する。なお、これらの機能部は、それぞれが異なるハードウェアに実装されてもよい。また、制御部15は、その他の機能部を備えてもよい。
 取得部15aは、処理対象のデータと、該データを構成するトークンのうち抽出するトークンを特定するポリシー14aとを取得する。例えば、取得部15aは、不図示の入力部あるいは通信制御部13を介して、エッジデバイス30から処理対象のイメージ(画像データ)を取得する。
 取得部15aは、後述する抽出処理に先立って、取得したデータを記憶部14に記憶させてもよい。あるいは、取得部15aは、これらの情報を記憶部14に記憶させずに、以下に説明する抽出部15bに直ちに転送してもよい。
 また、取得部15aは、データを構成するトークンのうち抽出するトークンを特定するポリシー14aを取得する。
 ポリシー14aは、入力されたデータを構成するトークンのうち、タスクに対する重要度に応じてトークンを特定するように学習されている。すなわち、取得部15aは、データを構成するトークンのうち、タスクに対する重要度に応じて抽出するトークンを特定するように学習されているポリシー14aを取得する。図5の領域aに示すように、ポリシー(Offloading policy)14aは、DINO(Self-Distillation with NO labels)等の自己教師ありモデル(Self-Supervised teacher model)のアテンションマップ(attention map)を模倣するように学習されたものである。この自己教師ありモデルは、表現の学習に優れており、ラベルが不要で、タスクに関する重要な領域を強調する特徴を示すことが知られている。
 この場合に、教師であるモデルのベクトル化されたアテンションマップ出力と生徒であるポリシー出力との間のKLダイバージェンスDKLを使用して、損失関数LKLは、次式(1)で表される。
Figure JPOXMLDOC01-appb-M000001
 また、アテンションマップの蒸留(Distillation)を改善するために、アテンションのランクrを用いる。ランクは、Spearmanの順位相関係数rと比較して、損失関数LRANKは、次式(2)で表される。
Figure JPOXMLDOC01-appb-M000002
 ここで、アテンションスコアは重要度の尺度であり、ポリシー14aが教師モデルと同様のトークンの重要度のランクを維持するように学習するために、ランク損失を用いる。
 したがって、学習の目標の損失関数は、上記式(1)のKLダイバージェンスを用いた知識蒸留の損失関数LKLと、上記式(2)のランクの損失関数LRANKとを組み合わせて、次式(3)で表される。
Figure JPOXMLDOC01-appb-M000003
 抽出部15bは、ポリシー14aに従って、データからクラウドサーバ20に送信するトークンを抽出する。具体的には、抽出部15bは、図5の領域bに示すように、ポリシー14aの出力するアテンション値のうち、上位から所定数kのトークンのみを保持し、残りを破棄して、オフロードするデータを生成する。オフロードされるデータは、トークンが変更(保持または破棄)されたJPEG形式のデータである。
 ここで、JPEGのDCT変換では、ゼロピクセルの領域の周波数成分を表すために使用するビットが大幅に減少するため、ゼロピクセルの連続した領域は効果的にデータサイズが削減される。
 また、取得部15aは、データを構成するトークンのうち、固定された数の抽出するトークンを特定するように学習されているポリシー14a、または、データを構成するトークンのうち、オブジェクトに応じた数の抽出するトークンを特定するように学習されているポリシー14aを取得する。すなわち、取得部15aは、固定モード(Fixed Mode)のトークンを特定するように学習されているポリシー14a、または、適応モード(Adaptive Mode)のトークンを特定するように学習されているポリシー14aを取得する。
 ここで、固定モードとは、抽出するトークンの数がユーザの手動によって決定されるといった理由により、抽出するトークンの数が予め固定されているモードのことをいう。適応モードとは、抽出するトークンの数がオブジェクトに応じるようにポリシー14aが学習されているモードのことをいう。固定モードと適応モードとは、ユーザによって選択される。すなわち、ユーザは、自身の希望によって、用途に応じたモードを自由に選択できる。抽出部15bは、データを構成するトークンのうち、ポリシー14aによって特定された数のトークンをクラウドサーバ20に送信するトークンとして抽出する。このように、抽出装置10では、クラウドサーバ20内でトークンの数が決定される従来技術とは異なり、クラウドサーバ20外でポリシー14aによってトークンの数が自動的に決定される。以下、図6~図9を用いて固定モードおよび適応モードの処理の一例について説明する。図6~図9は、抽出システムの処理の一例を説明するための図である。
 図6に示すように、取得部15aは、画像データに含まれるオブジェクトのサイズが大きい場合に抽出するトークンの数が少なくなるように学習されているポリシー14aを取得する。オブジェクトのサイズにより必要なトークンの数が異なり、抽出されるトークンの数が、クラウドサーバ20を含む抽出システム1全体のタスクの精度に影響することもある。このため、ポリシー14aは、精度に悪影響が生じない数のトークンを特定するように学習されていてもよい。
 図7に示すように、固定モードでは、取得部15aは、画像データの内容、すなわち、画像データにおけるオブジェクトに関係なく、毎回抽出する数が固定されているトークンを特定するように学習されているポリシー14aを取得する。抽出部15bは、毎回抽出する数が固定されているトークンを、クラウドサーバ20に送信するトークンとして抽出する。図7に示す固定モードの例では、抽出部15bは、全ての画像データに対して55%のトークンを保持し、クラウドサーバ20にオフロードするデータを生成しているため、固定モードでは、クラウドサーバ20による計算コストは一定である。
 一方、図7に示すように、適応モードでは、取得部15aは、画像データの内容、すなわち、画像データにおけるオブジェクトに応じて抽出するトークンの数が決まるように学習されているポリシー14aを取得する。抽出部15bは、画像データの内容に応じて数が決められるトークンを、クラウドサーバ20に送信するトークンとして抽出する。図7に示す適応モードの例では、抽出部15bは、画像データAでは44%、画像データBでは55%、画像データCでは33%のトークンを保持し、クラウドサーバ20にオフロードするデータを生成している。このため、適応モードでは、クラウドサーバ20による計算コストの平均値を、固定モードよりも小さくすることができる。
 ここで、どちらのモードも画像データ等のデータセット内のオブジェクトのサイズによって抽出システム1全体のタスクの精度に影響があるため、ポリシー14aは、精度に悪影響が生じない数のトークンを特定するように学習されていてもよい。
 図8に示すように、固定モードでは、ポリシー14aは、DINO等の自己教師ありモデルのアテンションマップを模倣するように学習されたものである。DINOのような事故教師タスクにより学習させたモデルは、表現の学習に優れており、ラベルが不要で、タスクに関する重要な領域を強調する特徴を示すことが知られているため、固定モードでのポリシー14aの学習に好適に用いられる。固定モードでは、例えば、上位50%のトークンをオフロードし、その他を解除する等、ユーザがオフロードするトークンの数を決定する。ポリシー14aの学習は、クラウドサーバ20における後述の学習部25bにより行われなくてよい。以下、数式を用いてポリシー14aの学習の詳細について説明する。
 固定モードでは、ポリシー14aは、上述の式(3)によって表される損失関数を学習目標の損失関数として学習される。式(3)のうち、損失関数LKLは、上述の(1)によって表され、損失関数LRANKは、上述の式(2)によって表される。上述の式(1)において、DINO等の教師であるモデルのベクトル化されたアテンションマップ出力と、生徒であるポリシー出力との間のKLダイバージェンスDKLを用いて、アテンションマップ出力と、生徒であるポリシー出力との類似性は最大化される。また、上述の式(2)において、アテンションマップの蒸留を改善するために、アテンションのランクrが用いられ、ランクは、Spearmanの順位相関係数rと比較される。ポリシー14aが教師モデルと同様のトークンの重要度の順序を保持(重要度のランクを維持)するように学習するために、上述の損失関数は使用される。
 一方、図9に示すように、適応モードでは、画像データごとのトークンの数を決定するために、マスクを用いてトークンが選択される。この場合、マスクは、温度(temperature)τおよび確率(probability)pをパラメータとする以下の緩和ベラヌーイ分布(relaxed Bernoulli distribution)の式(4)を用いて表されるマスクmを出力する。Lは、[0、1]上の一様分布(uniform distribution)からサンプリングされる。マスクを用いてトークンが選択された後、画像データごとに異なる数のトークンがオフロードされる。その後、ポリシー14aの学習は、クラウドサーバ20における学習部25bによって学習される。学習部25bによる学習の詳細については後述する。
Figure JPOXMLDOC01-appb-M000004
 また、取得部15aは、重要度に応じて抽出するトークンの圧縮率を特定するように学習されているポリシー14aを取得する。すなわち、取得部15aは、処理対象のデータを構成するトークンのうち抽出するトークンを特定することによるトークンの圧縮に加え、アテンションスコア等の重要度に応じて抽出するトークンの圧縮率を特定することによる圧縮を行うポリシー14aを取得する。このように、取得部15aは、トークンを2ステップで圧縮するようになっているポリシー14aを取得する。以下、図10を用いて、取得部15aによるトークンを2ステップ圧縮するポリシー14aの取得の一例について説明する。図10は、抽出システムの処理の一例を説明するための図である。
 図10に示す例では、ポリシー14aは、固定モードと適応モードとのいずれかに関わらず、アテンションスコア等の重要度に応じて抽出するトークンの圧縮率を特定するように学習されている。ポリシー14aは、1ステップ目のトークンの圧縮として、猫の背景に相当するトークンが削除されるように学習されている。削除されたトークンについては、ピクセル値がゼロに設定されている。これは、JPEGのDCT変換により、ピクセル値がゼロに設定された連続した領域の周波成分を表現するために使用されるビットが大幅に少なくなり、データサイズが効果的に削減されるからである。
 また、ポリシー14aは、ポリシー14aは、2ステップ目のトークンの圧縮として、アテンションスコア等の重要度に応じて、保持される猫のオブジェクトに相当するトークンの圧縮率を変化させるように学習されている。図10に示す例では、圧縮率は、50%、60%、70%、80%および90%の五段階に分けられている。取得部15aは、上述の1ステップ目のトークンの圧縮と2ステップ目のトークンの圧縮とを行うように学習されているポリシー14aを取得する。取得部15aによるポリシー14aの取得後、エッジデバイスからクラウドサーバにデータが2ステップで圧縮されてオフロードされる。
 次に、図11を用いて、取得部15aによる上述のポリシー14aの取得が、クラウドサーバ20を含む抽出システム1全体のパフォーマンス(タスクの精度)にどのような影響を与えるのかについて説明する。図11は、抽出システムの処理の一例を説明するための図である。図11の表は、ポリシー(Offloading Policy)14aの構成の違い、すなわち、取得部15aがどのようなポリシー14aを取得するかに応じて、クラウドサーバ20によるタスクの精度、計算コストおよびクラウドサーバ20が扱うデータの圧縮率にどのような影響があるのかを示している。
 図11に示すように、取得部15aが、固定モードのトークンを特定するように学習されているポリシー14aを取得した場合のほうが、適応モードのトークンを特定するように学習されているポリシー14aを取得した場合よりも、全体的にクラウドサーバ20によるタスクの精度が高くなっている。すなわち、取得部15aが、データを構成するトークンのうち、固定された数の抽出するトークンを特定するように学習されているポリシー14aを取得した場合のほうが、そうでない場合よりも、全体的にクラウドサーバ20によるタスクの精度が高くなっている。
 ここで、ポリシー14aのアーキテクチャーがEfficient Net B0である場合では、固定モードよりも適応モードのほうが高い精度となっているが、これは、データセットによって固定モードにおいて高い精度が得られるトークンの数が異なるためである。このように、高い精度が得られる固定されたトークンの数は、一様に定義できるものではなく、データセットによって異なる。最も高い精度が得られる最適なトークンの数を定めるには、クラウドサーバ20の学習部25bが、固定された数ごとにViT(Vision Transformer)等のモデル24aを再学習させる必要であり、コストがかかる。
 また、取得部15aが、適応モードのトークンを特定するように学習されているポリシー14aを取得した場合のほうが、固定モードのトークンを特定するように学習されているポリシー14aを取得した場合よりも、クラウドサーバ20が扱うデータの圧縮率および計算コストの削減率が高くなっている。すなわち、取得部15aが、データを構成するトークンのうち、オブジェクトに応じた数の抽出するトークンを特定するように学習されているポリシー14aを取得した場合のほうが、そうでない場合よりも、クラウドサーバ20が扱うデータの圧縮率および計算コストの削減率が高い。
[クラウドサーバの構成]
 クラウドサーバ20は、サーバ装置等の汎用コンピュータ上に仮想的に構築され、記憶部24、および制御部25を備える。
 記憶部24は、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部24には、クラウドサーバ20を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータ等が予め記憶され、あるいは処理の都度一時的に記憶される。なお、記憶部24は、図示しない通信制御部を介して制御部25と通信する構成でもよい。本実施形態において、記憶部24は、後述する抽出処理に用いられるモデル24aを記憶する。
 制御部25は、CPUやNPやFPGA等を用いて実現され、メモリに記憶された処理プログラムを実行する。これにより、制御部25は、図4に例示するように、予測部25aおよび学習部25bとして機能する。なお、制御部25は、その他の機能部を備えてもよい。
 予測部25aは、抽出されたトークンをモデル24aに入力してデータを予測する。このモデル24aは、例えばViTである。まばらな入力に対してViTモデルのロバスト性を維持するために、再学習を行う必要がある。
 そこで、学習部25bは、重要度が所定の閾値以上であるトークンを追加してモデル24aの再学習を行う。具体的には、図5の領域cに示すように、学習部25bが、自己教師タスクとして回転予測(Rotation Prediction)により、ViTの再学習を行う。その際に、CLSトークンと補助トークン(Auxiliary token)が追加される。この場合に、回転予測の損失関数LROTは、次式(5)で表される。
Figure JPOXMLDOC01-appb-M000005
 そして、再学習の目標の損失関数は、次式(6)に示すように、上記式(5)の回転予測の損失関数LROTと、画像の分類等、クラウドサーバ20の目的に関係するタスクLTASKとの組み合わせで表される。
Figure JPOXMLDOC01-appb-M000006
 また、学習部25bは、適応モードにおいて、ポリシー14aを学習させる。以下、図9を用いて、適応モードにおける学習部25bによるポリシー14aの学習の一例について説明する。図9に示すように、マスクを用いてトークンが選択され、画像データごとに異なる数のトークンがオフロードされた後、学習部25bは、次式(7)に示すように、画像の分類等、クラウドサーバ20の目的に関係するタスクLTASKと、タスクの予測精度への影響を最小限に抑えながら、できるだけ多くのトークンを削除するようにポリシー14aを強制する損失関数LREGとの組み合わせによって表される損失関数を学習目標の損失関数としてポリシー14bを学習させる。
Figure JPOXMLDOC01-appb-M000007
[抽出処理]
 次に、図12を参照して、本実施形態に係る抽出システム1による抽出処理について説明する。図12は、抽出処理手順を示すフローチャートである。図12のフローチャートは、例えば、ユーザが開始を指示する操作入力を行ったタイミングで開始される。
 まず、取得部15aが、処理対象のデータと、該データを構成するトークンのうち抽出するトークンを特定するポリシー14aとを取得する(ステップS1)。例えば、取得部15aは、入力部あるいは通信制御部13を介して、エッジデバイス30から処理対象のイメージ(画像データ)を取得する。
 次に、抽出部15bが、ポリシー14aに従って、処理対象のデータからクラウドサーバ20に送信するトークンを抽出する(ステップS2)。具体的には、抽出部15bは、ポリシー14aの出力するアテンション値のうち、上位から所定数kのトークンのみを保持し、残りを破棄して、オフロードするデータを生成する。
 クラウドサーバ20では、予測部25aが、抽出されたトークンを、例えばViT等のモデル24aに入力することにより、クラス確率を予測する(ステップS3)。これにより、一連の抽出処理が終了する。
[効果]
 以上、説明したように、本実施形態の抽出システム1の抽出装置10において、取得部15aが、処理対象のデータと、該データを構成するトークンのうち抽出するトークンを特定するポリシー14aとを取得する。抽出部15bが、ポリシー14aに従って、データからクラウドサーバ20に送信するトークンを抽出する。
 これにより、エッジデバイス30からクラウドサーバ20に送信するデータ量を削減することが可能となる。このように、トランスフォーマベースの協調知能においてエッジデバイス30からクラウドサーバ20にオフロードするデータを削減することが可能となる。
 また、取得部15aは、データを構成するトークンのうち、タスクに対する重要度に応じてトークンを特定するように学習されているポリシー14aを取得する。これにより、エッジデバイス30からクラウドサーバ20にオフロードするデータを、影響を可能な限り小さく抑えて削減することが可能となる。
 また、クラウドサーバ20において、予測部25aが、抽出されたトークンをモデル24aに入力してクラス確率を予測する。これにより、処理対象のデータを再現することが可能となる。
 また、学習部25bが、重要度が所定の閾値以上であるトークンを追加してモデル24aの再学習を行う。これにより、入力されるデータが削減されていても、タスクの予測精度の低下を抑制することが可能となる。
 また、取得部15aは、データを構成するトークンのうち、固定された数の抽出するトークンを特定するように学習されているポリシー14a、または、データを構成するトークンのうち、オブジェクトに応じた数の抽出するトークンを特定するように学習されているポリシー14aを取得する。すなわち、取得部15aは、固定モードのトークンを特定するように学習されているポリシー14a、または、適応モードのトークンを特定するように学習されているポリシー14aを取得する。
 取得部15aが、固定モードのトークンを特定するように学習されているポリシー14aを取得する場合、取得部15aが適応モードのトークンを特定するように学習されているポリシー14aを取得する場合よりも、全体的にクラウドサーバ20によるタスクの精度を高くすることが可能となる。
 取得部15aが、適応モードのトークンを特定するように学習されているポリシー14aを取得する場合、固定モードのトークンを特定するように学習されているポリシー14aを取得する場合よりも、クラウドサーバ20による計算コストを小さくすることが可能となる。適応モードでは、ユーザがトークンの数を決める必要はなく、ポリシー14aによってトークンの数が自動的に決定されるため、ViT等のモデル24aの再学習が不要となる。また、クラウドサーバ20によるタスクの精度の差が小さく(例えば、1%以下)、大きな問題にならない業務アプリケーションや、クラウドサーバ20による計算コストの削減を優先するアプリケーションにおいて、適応モードが有効な場合が多い。このため、これらのアプリケーションに適応モードを有効に適用することができる。
 また、取得部15aは、重要度に応じて抽出するトークンの圧縮率を特定するように学習されているポリシー14aを取得する。すなわち、取得部15aは、処理対象のデータを構成するトークンのうち抽出するトークンを特定することによるトークンの圧縮に加え、アテンションスコア等の重要度に応じて抽出するトークンの圧縮率を特定することによる圧縮を行うポリシー14aを取得する。このように、取得部15aは、トークンを2ステップ圧縮するように学習されたポリシー14aを取得する。これにより、1ステップでの圧縮よりもクラウドサーバ20が扱うデータの圧縮率を大きくすることが可能となる。
[プログラム]
 上記実施形態に係る抽出装置10およびクラウドサーバ20が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。実施形態として、抽出装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記の抽出処理を実行する抽出プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の抽出プログラムを情報処理装置に実行させることにより、情報処理装置を抽出装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。また、抽出装置10の機能を、クラウドサーバに実装してもよい。
 図13は、抽出プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。
 メモリ1010は、ROM(Read Only Memory)1011およびRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。ディスクドライブ1041には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1051およびキーボード1052が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1061が接続される。
 ここで、ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。上記実施形態で説明した各情報は、例えばハードディスクドライブ1031やメモリ1010に記憶される。
 また、抽出プログラムは、例えば、コンピュータ1000によって実行される指令が記述されたプログラムモジュール1093として、ハードディスクドライブ1031に記憶される。具体的には、上記実施形態で説明した抽出装置10が実行する各処理が記述されたプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。
 また、抽出プログラムによる情報処理に用いられるデータは、プログラムデータ1094として、例えば、ハードディスクドライブ1031に記憶される。そして、CPU1020が、ハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。
 なお、抽出プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、抽出プログラムに係るプログラムモジュール1093やプログラムデータ1094は、LANやWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。
 1 抽出システム
 10 抽出装置
 13 通信制御部
 14、24 記憶部
 15、25 制御部
 15a 取得部
 15b 抽出部
 20 クラウドサーバ
 25a 予測部
 25b 学習部
 30 エッジデバイス

Claims (8)

  1.  処理対象のデータと、該データを構成するトークンのうち抽出するトークンを特定するポリシーとを取得する取得部と、
     前記ポリシーに従って、前記データからクラウドサーバに送信するトークンを抽出する抽出部と、
     を有することを特徴とする抽出システム。
  2.  前記取得部は、前記データを構成するトークンのうち、タスクに対する重要度に応じて前記抽出するトークンを特定するように学習されている前記ポリシーを取得することを特徴とする請求項1に記載の抽出システム。
  3.  抽出された前記トークンをモデルに入力してクラス確率を予測する予測部を、さらに有することを特徴とする請求項2に記載の抽出システム。
  4.  前記重要度が所定の閾値以上であるトークンを追加して前記モデルの再学習を行う学習部を、さらに有することを特徴とする請求項3に記載の抽出システム。
  5.  前記取得部は、前記データを構成するトークンのうち、固定された数の前記抽出するトークンを特定するように学習されている前記ポリシー、または、前記データを構成するトークンのうち、オブジェクトに応じた数の前記抽出するトークンを特定するように学習されている前記ポリシーを取得することを特徴とする請求項1に記載の抽出システム。
  6.  前記取得部は、前記重要度に応じて前記抽出するトークンの圧縮率を特定するように学習されている前記ポリシーを取得することを特徴とする請求項2に記載の抽出システム。
  7.  抽出システムが実行する抽出方法であって、
     処理対象のデータと、該データを構成するトークンのうち抽出するトークンを特定するポリシーとを取得する取得工程と、
     前記ポリシーに従って、前記データからクラウドサーバに送信するトークンを抽出する抽出工程と、
     を含んだことを特徴とする抽出方法。
  8.  コンピュータを請求項1~6のいずれか1項に記載の抽出システムとして機能させるための抽出プログラム。
PCT/JP2023/006600 2022-09-12 2023-02-22 抽出システム、抽出方法および抽出プログラム WO2024057578A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JPPCT/JP2022/034124 2022-09-12
PCT/JP2022/034124 WO2024057374A1 (ja) 2022-09-12 2022-09-12 抽出システム、抽出方法および抽出プログラム

Publications (1)

Publication Number Publication Date
WO2024057578A1 true WO2024057578A1 (ja) 2024-03-21

Family

ID=90274414

Family Applications (2)

Application Number Title Priority Date Filing Date
PCT/JP2022/034124 WO2024057374A1 (ja) 2022-09-12 2022-09-12 抽出システム、抽出方法および抽出プログラム
PCT/JP2023/006600 WO2024057578A1 (ja) 2022-09-12 2023-02-22 抽出システム、抽出方法および抽出プログラム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/034124 WO2024057374A1 (ja) 2022-09-12 2022-09-12 抽出システム、抽出方法および抽出プログラム

Country Status (1)

Country Link
WO (2) WO2024057374A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022064656A1 (ja) * 2020-09-25 2022-03-31 日本電信電話株式会社 処理システム、処理方法及び処理プログラム
WO2022113175A1 (ja) * 2020-11-24 2022-06-02 日本電信電話株式会社 処理方法、処理システム及び処理プログラム
WO2022130496A1 (ja) * 2020-12-15 2022-06-23 富士通株式会社 画像処理装置、画像処理方法及び画像処理プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022064656A1 (ja) * 2020-09-25 2022-03-31 日本電信電話株式会社 処理システム、処理方法及び処理プログラム
WO2022113175A1 (ja) * 2020-11-24 2022-06-02 日本電信電話株式会社 処理方法、処理システム及び処理プログラム
WO2022130496A1 (ja) * 2020-12-15 2022-06-23 富士通株式会社 画像処理装置、画像処理方法及び画像処理プログラム

Also Published As

Publication number Publication date
WO2024057374A1 (ja) 2024-03-21

Similar Documents

Publication Publication Date Title
CN109949255B (zh) 图像重建方法及设备
KR20210074360A (ko) 이미지 처리 방법, 디바이스 및 장치, 그리고 저장 매체
CN110830807B (zh) 图像压缩方法、装置及存储介质
WO2023138188A1 (zh) 特征融合模型训练及样本检索方法、装置和计算机设备
CN111369430B (zh) 基于移动深度学习引擎的移动端人像智能背景替换方法
WO2023231794A1 (zh) 一种神经网络参数量化方法和装置
US11762951B2 (en) Generative image congealing
WO2020062191A1 (zh) 图像处理方法、装置及设备
JP2023547010A (ja) 知識の蒸留に基づくモデルトレーニング方法、装置、電子機器
WO2023231954A1 (zh) 一种数据的去噪方法以及相关设备
WO2022064656A1 (ja) 処理システム、処理方法及び処理プログラム
CN109508640A (zh) 一种人群情感分析方法、装置和存储介质
CN111898544A (zh) 文字图像匹配方法、装置和设备及计算机存储介质
WO2022246986A1 (zh) 数据处理方法、装置、设备及计算机可读存储介质
CN117726884B (zh) 对象类别识别模型的训练方法、对象类别识别方法及装置
WO2021000411A1 (zh) 基于神经网络的文档分类方法、装置、设备及存储介质
CN110008922B (zh) 用于终端设备的图像处理方法、设备、装置、介质
CN116541712B (zh) 基于非独立同分布数据的联邦建模方法及系统
JP2024105206A (ja) 倫理学に基づくマルチモーダルユーザ投稿監視
CN111783734B (zh) 原版视频识别方法及装置
WO2024057578A1 (ja) 抽出システム、抽出方法および抽出プログラム
CN117493881A (zh) 一种模型生成方法、装置、设备及存储介质
CN115546554A (zh) 敏感图像的识别方法、装置、设备和计算机可读存储介质
WO2022127603A1 (zh) 一种模型处理方法及相关装置
WO2023060575A1 (zh) 图像识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23864945

Country of ref document: EP

Kind code of ref document: A1