WO2024057578A1

WO2024057578A1 - 抽出システム、抽出方法および抽出プログラム

Info

Publication number: WO2024057578A1
Application number: PCT/JP2023/006600
Authority: WO
Inventors: モニカロスリアナブスト; 毅晴江田; 昇平榎本
Original assignee: 日本電信電話株式会社
Priority date: 2022-09-12
Filing date: 2023-02-22
Publication date: 2024-03-21
Also published as: WO2024057374A1

Abstract

抽出システム（１）の抽出装置（１０）において、取得部（１５ａ）が、処理対象のデータと、該データを構成するトークンのうち抽出するトークンを特定するポリシー（１４ａ）とを取得する。抽出部（１５ｂ）が、ポリシー（１４ａ）に従って、データからクラウドサーバ（２０）に送信するトークンを抽出する。

Description

抽出システム、抽出方法および抽出プログラム

　本発明は、抽出システム、抽出方法および抽出プログラムに関する。

　近年、ＡＩベースのシステムが、エッジコンピューティングで実現されている。エッジコンピューティングでは、エッジに配置したセンサが取得したデータが、クラウドサーバにオフロードされる。

　高度なＡＩシステムでは、エッジデバイスがクラウドサーバにデータをオフロードする場合に、ネットワークや帯域幅の制約が応答時間に影響してしまう。

　そこで、エッジデバイスとクラウドサーバとが計算を共有する協調知能（コラボレーティブインテリジェンス）と、エッジデバイスからクラウドサーバにオフロードする際にデータ圧縮を行うことが検討されている。

　データ圧縮に関し、関心領域（ＲＯＩ）を抽出する技術が知られている（非特許文献１，２参照）。小規模なシステムでは、オフロードの前処理としてＲＯＩを抽出すれば、データサイズが最小化されるので十分である。

　一方、高度なシステムでは、エッジデバイスとクラウドサーバとが計算を共有する協調知能が提案されている。協調知能でオフロードされるデータは、共有される分割モデルの中間層から出力される特徴量ある。多くの場合、オフロードの前にこれらの特徴量（中間層から出力される特徴量）を圧縮する必要がある。

Guoping　Rong,　et　al.　"An　edge-cloud　collaborative　computing　platform　for　building　aiot　applications　efficiently",　Journal　of　Cloud　Computing,　2021年,　vol.10,　no.1,　pp.1-14 Dhritiman　Mukherjee,　et　al.　"Energy　efficient　face　recognition　in　mobile-fog　environment",　Procedia　Computer　Science,　2019年,　vol.152

　しかしながら、従来技術によれば、トランスフォーマベースの協調知能においてエッジデバイスからクラウドサーバにオフロードするデータを削減することが困難である。例えば、ＲＯＩ抽出では、データサイズの削減が最も効果的ではなかった。また、ほとんどの特徴量圧縮手法は、ＣＮＮベースのシステム向けに設計されている。ＣＮＮベースのモデルから中間層を経由する度に出力される特徴量のデータ量を小さくすることが可能である。一方、トランスフォーマベースのモデルでは、特徴量のサイズは一定で、特徴量のデータ量を減らすことは困難である。

　本発明は、上記に鑑みてなされたものであって、トランスフォーマベースの協調知能においてエッジデバイスからクラウドサーバにオフロードするデータを削減することを目的とする。

　上述した課題を解決し、目的を達成するために、本発明に係る抽出装置は、処理対象のデータと、該データを構成するトークンのうち抽出するトークンを特定するポリシーとを取得する取得部と、前記ポリシーに従って、前記データからクラウドサーバに送信するトークンを抽出する抽出部と、を有することを特徴とする。

　本発明によれば、トランスフォーマベースの協調知能においてエッジデバイスからクラウドサーバにオフロードするデータを削減することが可能となる。

図１は、抽出システムの概要を説明するための図である。図２は、抽出システムの概要を説明するための図である。図３は、抽出システムの概要を説明するための図である。図４は、抽出システムの概略構成を例示する模式図である。図５は、抽出システムの処理の一例を説明するための図である。図６は、抽出システムの処理の一例を説明するための図である。図７は、抽出システムの処理の一例を説明するための図である。図８は、抽出システムの処理の一例を説明するための図である。図９は、抽出システムの処理の一例を説明するための図である。図１０は、抽出システムの処理の一例を説明するための図である。図１１は、抽出システムの処理の一例を説明するための図である。図１２は、抽出処理手順を示すフローチャートである。図１３は、抽出プログラムを実行するコンピュータの一例を示す図である。

　以下、図面を参照して、本発明の実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

［抽出システムの概要］
　図１～図３は、抽出システムの概要を説明するための図である。本実施形態の抽出システムは、トランスフォーマベースの協調知能において、エッジデバイス（edge　device）からクラウドサーバ（cloud　server）にデータを圧縮してオフロードする。

　従来のＣＮＮベースの協調知能においては、図１（ａ）に例示したように、特徴量（モデルの中間層の特徴量データ）をオフロードしていた。これに対し、本実施形態の抽出システムは、図１（ｂ）に例示するように、データの最小の構成単位であるトークンをオフロードする。すなわち、抽出装置は、アテンションの概念を利用して、オフロードするトークンを動的に選択し、それ以外のトークンを削除してイメージを変更することにより、データサイズを削減してオフロードする。ここで、トークンとは、元の画像のサイズを(縦×横×チャンネル数)で（Ｈ×Ｗ×Ｃ）としたとき、これを（Ｐ²×Ｃ）のサイズを持ったＮ個のパッチに分割したものである。

　具体的には、図２に例示するように、一般的なオブジェクトセグメンテーションとは異なり、アテンションベースのポリシーに従った重要度に関する情報が含まれる。これにより、オブジェクトに重要度が関連付けられている場合にのみトランスフォーマに入力されるため、データを削減することが可能となる。

　なお、アテンションベースのポリシーは後述するように、知識蒸留（Knowledge　Distillation）により学習される。また、ポリシー出力は、オフロードするデータをＪＰＥＧ形式に変更するために用いられ、エンコーダやデコーダの新たな設計は必要ない。また、クラウドサーバ上のトランスフォーマは、補助トークンを用いて自己教師付き（Self-supervised）で再学習を行ってロバストな推論を実現する。これにより、図３に例示するように、入力されるデータが削減されていても、精度高く推論することが可能となる。

［抽出システムの構成］
　図４は、抽出システムの概略構成を例示する模式図である。また、図５は、抽出システムの処理の一例を説明するための図である。まず、図４に例示するように、本実施形態の抽出システム１は、抽出装置１０、クラウドサーバ２０およびエッジデバイス３０を含んで構成される。なお、抽出装置１０は、エッジデバイス３０と同一のハードウェアに実装されてもよい。

［抽出装置の構成］
　抽出装置１０は、パソコン等の汎用コンピュータで実現され、通信制御部１３、記憶部１４、および制御部１５を備える。

　通信制御部１３は、ＮＩＣ（Network　Interface　Card）等で実現され、ＬＡＮ（Local　Area　Network）やインターネット等の電気通信回線を介した外部の装置と制御部１５との通信を制御する。例えば、通信制御部１３は、クラウドサーバ２０やエッジデバイス３０等と制御部１５との通信を制御する。

　記憶部１４は、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部１４には、抽出装置１０を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータ等が予め記憶され、あるいは処理の都度一時的に記憶される。なお、記憶部１４は、通信制御部１３を介して制御部１５と通信する構成でもよい。本実施形態において、記憶部１４は、後述する抽出処理に用いられるポリシー１４ａ等を記憶する。

　制御部１５は、ＣＰＵ（Central　Processing　Unit）やＮＰ（Network　Processor）やＦＰＧＡ（Field　Programmable　Gate　Array）等を用いて実現され、メモリに記憶された処理プログラムを実行する。これにより、制御部１５は、図４に例示するように、取得部１５ａおよび抽出部１５ｂとして機能する。なお、これらの機能部は、それぞれが異なるハードウェアに実装されてもよい。また、制御部１５は、その他の機能部を備えてもよい。

　取得部１５ａは、処理対象のデータと、該データを構成するトークンのうち抽出するトークンを特定するポリシー１４ａとを取得する。例えば、取得部１５ａは、不図示の入力部あるいは通信制御部１３を介して、エッジデバイス３０から処理対象のイメージ（画像データ）を取得する。

　取得部１５ａは、後述する抽出処理に先立って、取得したデータを記憶部１４に記憶させてもよい。あるいは、取得部１５ａは、これらの情報を記憶部１４に記憶させずに、以下に説明する抽出部１５ｂに直ちに転送してもよい。

　また、取得部１５ａは、データを構成するトークンのうち抽出するトークンを特定するポリシー１４ａを取得する。

　ポリシー１４ａは、入力されたデータを構成するトークンのうち、タスクに対する重要度に応じてトークンを特定するように学習されている。すなわち、取得部１５ａは、データを構成するトークンのうち、タスクに対する重要度に応じて抽出するトークンを特定するように学習されているポリシー１４ａを取得する。図５の領域ａに示すように、ポリシー（Offloading　policy）１４ａは、ＤＩＮＯ（Self-Distillation　with　NO　labels）等の自己教師ありモデル（Self-Supervised　teacher　model）のアテンションマップ（attention　map）を模倣するように学習されたものである。この自己教師ありモデルは、表現の学習に優れており、ラベルが不要で、タスクに関する重要な領域を強調する特徴を示すことが知られている。

　この場合に、教師であるモデルのベクトル化されたアテンションマップ出力と生徒であるポリシー出力との間のＫＬダイバージェンスＤ_ＫＬを使用して、損失関数Ｌ_ＫＬは、次式（１）で表される。

　また、アテンションマップの蒸留（Distillation）を改善するために、アテンションのランクｒを用いる。ランクは、Ｓｐｅａｒｍａｎの順位相関係数ｒ_ｓと比較して、損失関数Ｌ_ＲＡＮＫは、次式（２）で表される。

　ここで、アテンションスコアは重要度の尺度であり、ポリシー１４ａが教師モデルと同様のトークンの重要度のランクを維持するように学習するために、ランク損失を用いる。

　したがって、学習の目標の損失関数は、上記式（１）のＫＬダイバージェンスを用いた知識蒸留の損失関数Ｌ_ＫＬと、上記式（２）のランクの損失関数Ｌ_ＲＡＮＫとを組み合わせて、次式（３）で表される。

　抽出部１５ｂは、ポリシー１４ａに従って、データからクラウドサーバ２０に送信するトークンを抽出する。具体的には、抽出部１５ｂは、図５の領域ｂに示すように、ポリシー１４ａの出力するアテンション値のうち、上位から所定数ｋのトークンのみを保持し、残りを破棄して、オフロードするデータを生成する。オフロードされるデータは、トークンが変更（保持または破棄）されたＪＰＥＧ形式のデータである。

　ここで、ＪＰＥＧのＤＣＴ変換では、ゼロピクセルの領域の周波数成分を表すために使用するビットが大幅に減少するため、ゼロピクセルの連続した領域は効果的にデータサイズが削減される。

　また、取得部１５ａは、データを構成するトークンのうち、固定された数の抽出するトークンを特定するように学習されているポリシー１４ａ、または、データを構成するトークンのうち、オブジェクトに応じた数の抽出するトークンを特定するように学習されているポリシー１４ａを取得する。すなわち、取得部１５ａは、固定モード（Fixed　Mode）のトークンを特定するように学習されているポリシー１４ａ、または、適応モード（Adaptive　Mode）のトークンを特定するように学習されているポリシー１４ａを取得する。

　ここで、固定モードとは、抽出するトークンの数がユーザの手動によって決定されるといった理由により、抽出するトークンの数が予め固定されているモードのことをいう。適応モードとは、抽出するトークンの数がオブジェクトに応じるようにポリシー１４ａが学習されているモードのことをいう。固定モードと適応モードとは、ユーザによって選択される。すなわち、ユーザは、自身の希望によって、用途に応じたモードを自由に選択できる。抽出部１５ｂは、データを構成するトークンのうち、ポリシー１４ａによって特定された数のトークンをクラウドサーバ２０に送信するトークンとして抽出する。このように、抽出装置１０では、クラウドサーバ２０内でトークンの数が決定される従来技術とは異なり、クラウドサーバ２０外でポリシー１４ａによってトークンの数が自動的に決定される。以下、図６～図９を用いて固定モードおよび適応モードの処理の一例について説明する。図６～図９は、抽出システムの処理の一例を説明するための図である。

　図６に示すように、取得部１５ａは、画像データに含まれるオブジェクトのサイズが大きい場合に抽出するトークンの数が少なくなるように学習されているポリシー１４ａを取得する。オブジェクトのサイズにより必要なトークンの数が異なり、抽出されるトークンの数が、クラウドサーバ２０を含む抽出システム１全体のタスクの精度に影響することもある。このため、ポリシー１４ａは、精度に悪影響が生じない数のトークンを特定するように学習されていてもよい。

　図７に示すように、固定モードでは、取得部１５ａは、画像データの内容、すなわち、画像データにおけるオブジェクトに関係なく、毎回抽出する数が固定されているトークンを特定するように学習されているポリシー１４ａを取得する。抽出部１５ｂは、毎回抽出する数が固定されているトークンを、クラウドサーバ２０に送信するトークンとして抽出する。図７に示す固定モードの例では、抽出部１５ｂは、全ての画像データに対して５５％のトークンを保持し、クラウドサーバ２０にオフロードするデータを生成しているため、固定モードでは、クラウドサーバ２０による計算コストは一定である。

　一方、図７に示すように、適応モードでは、取得部１５ａは、画像データの内容、すなわち、画像データにおけるオブジェクトに応じて抽出するトークンの数が決まるように学習されているポリシー１４ａを取得する。抽出部１５ｂは、画像データの内容に応じて数が決められるトークンを、クラウドサーバ２０に送信するトークンとして抽出する。図７に示す適応モードの例では、抽出部１５ｂは、画像データＡでは４４％、画像データＢでは５５％、画像データＣでは３３％のトークンを保持し、クラウドサーバ２０にオフロードするデータを生成している。このため、適応モードでは、クラウドサーバ２０による計算コストの平均値を、固定モードよりも小さくすることができる。

　ここで、どちらのモードも画像データ等のデータセット内のオブジェクトのサイズによって抽出システム１全体のタスクの精度に影響があるため、ポリシー１４ａは、精度に悪影響が生じない数のトークンを特定するように学習されていてもよい。

　図８に示すように、固定モードでは、ポリシー１４ａは、ＤＩＮＯ等の自己教師ありモデルのアテンションマップを模倣するように学習されたものである。ＤＩＮＯのような事故教師タスクにより学習させたモデルは、表現の学習に優れており、ラベルが不要で、タスクに関する重要な領域を強調する特徴を示すことが知られているため、固定モードでのポリシー１４ａの学習に好適に用いられる。固定モードでは、例えば、上位５０％のトークンをオフロードし、その他を解除する等、ユーザがオフロードするトークンの数を決定する。ポリシー１４ａの学習は、クラウドサーバ２０における後述の学習部２５ｂにより行われなくてよい。以下、数式を用いてポリシー１４ａの学習の詳細について説明する。

　固定モードでは、ポリシー１４ａは、上述の式（３）によって表される損失関数を学習目標の損失関数として学習される。式（３）のうち、損失関数Ｌ_ＫＬは、上述の（１）によって表され、損失関数Ｌ_ＲＡＮＫは、上述の式（２）によって表される。上述の式（１）において、ＤＩＮＯ等の教師であるモデルのベクトル化されたアテンションマップ出力と、生徒であるポリシー出力との間のＫＬダイバージェンスＤ_ＫＬを用いて、アテンションマップ出力と、生徒であるポリシー出力との類似性は最大化される。また、上述の式（２）において、アテンションマップの蒸留を改善するために、アテンションのランクｒが用いられ、ランクは、Ｓｐｅａｒｍａｎの順位相関係数ｒ_ｓと比較される。ポリシー１４ａが教師モデルと同様のトークンの重要度の順序を保持（重要度のランクを維持）するように学習するために、上述の損失関数は使用される。

　一方、図９に示すように、適応モードでは、画像データごとのトークンの数を決定するために、マスクを用いてトークンが選択される。この場合、マスクは、温度（temperature）τおよび確率（probability）ｐをパラメータとする以下の緩和ベラヌーイ分布（relaxed　Bernoulli　distribution）の式（４）を用いて表されるマスクｍを出力する。Ｌは、［０、１］上の一様分布（uniform　distribution）からサンプリングされる。マスクを用いてトークンが選択された後、画像データごとに異なる数のトークンがオフロードされる。その後、ポリシー１４ａの学習は、クラウドサーバ２０における学習部２５ｂによって学習される。学習部２５ｂによる学習の詳細については後述する。

　また、取得部１５ａは、重要度に応じて抽出するトークンの圧縮率を特定するように学習されているポリシー１４ａを取得する。すなわち、取得部１５ａは、処理対象のデータを構成するトークンのうち抽出するトークンを特定することによるトークンの圧縮に加え、アテンションスコア等の重要度に応じて抽出するトークンの圧縮率を特定することによる圧縮を行うポリシー１４ａを取得する。このように、取得部１５ａは、トークンを２ステップで圧縮するようになっているポリシー１４ａを取得する。以下、図１０を用いて、取得部１５ａによるトークンを２ステップ圧縮するポリシー１４ａの取得の一例について説明する。図１０は、抽出システムの処理の一例を説明するための図である。

　図１０に示す例では、ポリシー１４ａは、固定モードと適応モードとのいずれかに関わらず、アテンションスコア等の重要度に応じて抽出するトークンの圧縮率を特定するように学習されている。ポリシー１４ａは、１ステップ目のトークンの圧縮として、猫の背景に相当するトークンが削除されるように学習されている。削除されたトークンについては、ピクセル値がゼロに設定されている。これは、ＪＰＥＧのＤＣＴ変換により、ピクセル値がゼロに設定された連続した領域の周波成分を表現するために使用されるビットが大幅に少なくなり、データサイズが効果的に削減されるからである。

　また、ポリシー１４ａは、ポリシー１４ａは、２ステップ目のトークンの圧縮として、アテンションスコア等の重要度に応じて、保持される猫のオブジェクトに相当するトークンの圧縮率を変化させるように学習されている。図１０に示す例では、圧縮率は、５０％、６０％、７０％、８０％および９０％の五段階に分けられている。取得部１５ａは、上述の１ステップ目のトークンの圧縮と２ステップ目のトークンの圧縮とを行うように学習されているポリシー１４ａを取得する。取得部１５ａによるポリシー１４ａの取得後、エッジデバイスからクラウドサーバにデータが２ステップで圧縮されてオフロードされる。

　次に、図１１を用いて、取得部１５ａによる上述のポリシー１４ａの取得が、クラウドサーバ２０を含む抽出システム１全体のパフォーマンス（タスクの精度）にどのような影響を与えるのかについて説明する。図１１は、抽出システムの処理の一例を説明するための図である。図１１の表は、ポリシー（Offloading　Policy）１４ａの構成の違い、すなわち、取得部１５ａがどのようなポリシー１４ａを取得するかに応じて、クラウドサーバ２０によるタスクの精度、計算コストおよびクラウドサーバ２０が扱うデータの圧縮率にどのような影響があるのかを示している。

　図１１に示すように、取得部１５ａが、固定モードのトークンを特定するように学習されているポリシー１４ａを取得した場合のほうが、適応モードのトークンを特定するように学習されているポリシー１４ａを取得した場合よりも、全体的にクラウドサーバ２０によるタスクの精度が高くなっている。すなわち、取得部１５ａが、データを構成するトークンのうち、固定された数の抽出するトークンを特定するように学習されているポリシー１４ａを取得した場合のほうが、そうでない場合よりも、全体的にクラウドサーバ２０によるタスクの精度が高くなっている。

　ここで、ポリシー１４ａのアーキテクチャーがEfficient　Net　B0である場合では、固定モードよりも適応モードのほうが高い精度となっているが、これは、データセットによって固定モードにおいて高い精度が得られるトークンの数が異なるためである。このように、高い精度が得られる固定されたトークンの数は、一様に定義できるものではなく、データセットによって異なる。最も高い精度が得られる最適なトークンの数を定めるには、クラウドサーバ２０の学習部２５ｂが、固定された数ごとにＶｉＴ（Vision　Transformer）等のモデル２４ａを再学習させる必要であり、コストがかかる。

　また、取得部１５ａが、適応モードのトークンを特定するように学習されているポリシー１４ａを取得した場合のほうが、固定モードのトークンを特定するように学習されているポリシー１４ａを取得した場合よりも、クラウドサーバ２０が扱うデータの圧縮率および計算コストの削減率が高くなっている。すなわち、取得部１５ａが、データを構成するトークンのうち、オブジェクトに応じた数の抽出するトークンを特定するように学習されているポリシー１４ａを取得した場合のほうが、そうでない場合よりも、クラウドサーバ２０が扱うデータの圧縮率および計算コストの削減率が高い。

［クラウドサーバの構成］
　クラウドサーバ２０は、サーバ装置等の汎用コンピュータ上に仮想的に構築され、記憶部２４、および制御部２５を備える。

　記憶部２４は、ＲＡＭ、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部２４には、クラウドサーバ２０を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータ等が予め記憶され、あるいは処理の都度一時的に記憶される。なお、記憶部２４は、図示しない通信制御部を介して制御部２５と通信する構成でもよい。本実施形態において、記憶部２４は、後述する抽出処理に用いられるモデル２４ａを記憶する。

　制御部２５は、ＣＰＵやＮＰやＦＰＧＡ等を用いて実現され、メモリに記憶された処理プログラムを実行する。これにより、制御部２５は、図４に例示するように、予測部２５ａおよび学習部２５ｂとして機能する。なお、制御部２５は、その他の機能部を備えてもよい。

　予測部２５ａは、抽出されたトークンをモデル２４ａに入力してデータを予測する。このモデル２４ａは、例えばＶｉＴである。まばらな入力に対してＶｉＴモデルのロバスト性を維持するために、再学習を行う必要がある。

　そこで、学習部２５ｂは、重要度が所定の閾値以上であるトークンを追加してモデル２４ａの再学習を行う。具体的には、図５の領域ｃに示すように、学習部２５ｂが、自己教師タスクとして回転予測（Rotation　Prediction）により、ＶｉＴの再学習を行う。その際に、ＣＬＳトークンと補助トークン（Auxiliary　token）が追加される。この場合に、回転予測の損失関数Ｌ_ＲＯＴは、次式（５）で表される。

　そして、再学習の目標の損失関数は、次式（６）に示すように、上記式（５）の回転予測の損失関数Ｌ_ＲＯＴと、画像の分類等、クラウドサーバ２０の目的に関係するタスクＬ_ＴＡＳＫとの組み合わせで表される。

　また、学習部２５ｂは、適応モードにおいて、ポリシー１４ａを学習させる。以下、図９を用いて、適応モードにおける学習部２５ｂによるポリシー１４ａの学習の一例について説明する。図９に示すように、マスクを用いてトークンが選択され、画像データごとに異なる数のトークンがオフロードされた後、学習部２５ｂは、次式（７）に示すように、画像の分類等、クラウドサーバ２０の目的に関係するタスクＬ_ＴＡＳＫと、タスクの予測精度への影響を最小限に抑えながら、できるだけ多くのトークンを削除するようにポリシー１４ａを強制する損失関数Ｌ_ＲＥＧとの組み合わせによって表される損失関数を学習目標の損失関数としてポリシー１４ｂを学習させる。

［抽出処理］
　次に、図１２を参照して、本実施形態に係る抽出システム１による抽出処理について説明する。図１２は、抽出処理手順を示すフローチャートである。図１２のフローチャートは、例えば、ユーザが開始を指示する操作入力を行ったタイミングで開始される。

　まず、取得部１５ａが、処理対象のデータと、該データを構成するトークンのうち抽出するトークンを特定するポリシー１４ａとを取得する（ステップＳ１）。例えば、取得部１５ａは、入力部あるいは通信制御部１３を介して、エッジデバイス３０から処理対象のイメージ（画像データ）を取得する。

　次に、抽出部１５ｂが、ポリシー１４ａに従って、処理対象のデータからクラウドサーバ２０に送信するトークンを抽出する（ステップＳ２）。具体的には、抽出部１５ｂは、ポリシー１４ａの出力するアテンション値のうち、上位から所定数ｋのトークンのみを保持し、残りを破棄して、オフロードするデータを生成する。

　クラウドサーバ２０では、予測部２５ａが、抽出されたトークンを、例えばＶｉＴ等のモデル２４ａに入力することにより、クラス確率を予測する（ステップＳ３）。これにより、一連の抽出処理が終了する。

［効果］
　以上、説明したように、本実施形態の抽出システム１の抽出装置１０において、取得部１５ａが、処理対象のデータと、該データを構成するトークンのうち抽出するトークンを特定するポリシー１４ａとを取得する。抽出部１５ｂが、ポリシー１４ａに従って、データからクラウドサーバ２０に送信するトークンを抽出する。

　これにより、エッジデバイス３０からクラウドサーバ２０に送信するデータ量を削減することが可能となる。このように、トランスフォーマベースの協調知能においてエッジデバイス３０からクラウドサーバ２０にオフロードするデータを削減することが可能となる。

　また、取得部１５ａは、データを構成するトークンのうち、タスクに対する重要度に応じてトークンを特定するように学習されているポリシー１４ａを取得する。これにより、エッジデバイス３０からクラウドサーバ２０にオフロードするデータを、影響を可能な限り小さく抑えて削減することが可能となる。

　また、クラウドサーバ２０において、予測部２５ａが、抽出されたトークンをモデル２４ａに入力してクラス確率を予測する。これにより、処理対象のデータを再現することが可能となる。

　また、学習部２５ｂが、重要度が所定の閾値以上であるトークンを追加してモデル２４ａの再学習を行う。これにより、入力されるデータが削減されていても、タスクの予測精度の低下を抑制することが可能となる。

　また、取得部１５ａは、データを構成するトークンのうち、固定された数の抽出するトークンを特定するように学習されているポリシー１４ａ、または、データを構成するトークンのうち、オブジェクトに応じた数の抽出するトークンを特定するように学習されているポリシー１４ａを取得する。すなわち、取得部１５ａは、固定モードのトークンを特定するように学習されているポリシー１４ａ、または、適応モードのトークンを特定するように学習されているポリシー１４ａを取得する。

　取得部１５ａが、固定モードのトークンを特定するように学習されているポリシー１４ａを取得する場合、取得部１５ａが適応モードのトークンを特定するように学習されているポリシー１４ａを取得する場合よりも、全体的にクラウドサーバ２０によるタスクの精度を高くすることが可能となる。

　取得部１５ａが、適応モードのトークンを特定するように学習されているポリシー１４ａを取得する場合、固定モードのトークンを特定するように学習されているポリシー１４ａを取得する場合よりも、クラウドサーバ２０による計算コストを小さくすることが可能となる。適応モードでは、ユーザがトークンの数を決める必要はなく、ポリシー１４ａによってトークンの数が自動的に決定されるため、ＶｉＴ等のモデル２４ａの再学習が不要となる。また、クラウドサーバ２０によるタスクの精度の差が小さく（例えば、１％以下）、大きな問題にならない業務アプリケーションや、クラウドサーバ２０による計算コストの削減を優先するアプリケーションにおいて、適応モードが有効な場合が多い。このため、これらのアプリケーションに適応モードを有効に適用することができる。

　また、取得部１５ａは、重要度に応じて抽出するトークンの圧縮率を特定するように学習されているポリシー１４ａを取得する。すなわち、取得部１５ａは、処理対象のデータを構成するトークンのうち抽出するトークンを特定することによるトークンの圧縮に加え、アテンションスコア等の重要度に応じて抽出するトークンの圧縮率を特定することによる圧縮を行うポリシー１４ａを取得する。このように、取得部１５ａは、トークンを２ステップ圧縮するように学習されたポリシー１４ａを取得する。これにより、１ステップでの圧縮よりもクラウドサーバ２０が扱うデータの圧縮率を大きくすることが可能となる。

［プログラム］
　上記実施形態に係る抽出装置１０およびクラウドサーバ２０が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。実施形態として、抽出装置１０は、パッケージソフトウェアやオンラインソフトウェアとして上記の抽出処理を実行する抽出プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の抽出プログラムを情報処理装置に実行させることにより、情報処理装置を抽出装置１０として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal　Handyphone　System）等の移動体通信端末、さらには、ＰＤＡ（Personal　Digital　Assistant）等のスレート端末等がその範疇に含まれる。また、抽出装置１０の機能を、クラウドサーバに実装してもよい。

　図１３は、抽出プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１およびＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０３１に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１０４１に接続される。ディスクドライブ１０４１には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース１０５０には、例えば、マウス１０５１およびキーボード１０５２が接続される。ビデオアダプタ１０６０には、例えば、ディスプレイ１０６１が接続される。

　ここで、ハードディスクドライブ１０３１は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３およびプログラムデータ１０９４を記憶する。上記実施形態で説明した各情報は、例えばハードディスクドライブ１０３１やメモリ１０１０に記憶される。

　また、抽出プログラムは、例えば、コンピュータ１０００によって実行される指令が記述されたプログラムモジュール１０９３として、ハードディスクドライブ１０３１に記憶される。具体的には、上記実施形態で説明した抽出装置１０が実行する各処理が記述されたプログラムモジュール１０９３が、ハードディスクドライブ１０３１に記憶される。

　また、抽出プログラムによる情報処理に用いられるデータは、プログラムデータ１０９４として、例えば、ハードディスクドライブ１０３１に記憶される。そして、ＣＰＵ１０２０が、ハードディスクドライブ１０３１に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した各手順を実行する。

　なお、抽出プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０３１に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ１０４１等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、抽出プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ＬＡＮやＷＡＮ（Wide　Area　Network）等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。

　１　抽出システム
　１０　抽出装置
　１３　通信制御部
　１４、２４　記憶部
　１５、２５　制御部
　１５ａ　取得部
　１５ｂ　抽出部
　２０　クラウドサーバ
　２５ａ　予測部
　２５ｂ　学習部
　３０　エッジデバイス

Claims

　処理対象のデータと、該データを構成するトークンのうち抽出するトークンを特定するポリシーとを取得する取得部と、
　前記ポリシーに従って、前記データからクラウドサーバに送信するトークンを抽出する抽出部と、
　を有することを特徴とする抽出システム。
　前記取得部は、前記データを構成するトークンのうち、タスクに対する重要度に応じて前記抽出するトークンを特定するように学習されている前記ポリシーを取得することを特徴とする請求項１に記載の抽出システム。
　抽出された前記トークンをモデルに入力してクラス確率を予測する予測部を、さらに有することを特徴とする請求項２に記載の抽出システム。
　前記重要度が所定の閾値以上であるトークンを追加して前記モデルの再学習を行う学習部を、さらに有することを特徴とする請求項３に記載の抽出システム。
　前記取得部は、前記データを構成するトークンのうち、固定された数の前記抽出するトークンを特定するように学習されている前記ポリシー、または、前記データを構成するトークンのうち、オブジェクトに応じた数の前記抽出するトークンを特定するように学習されている前記ポリシーを取得することを特徴とする請求項１に記載の抽出システム。
　前記取得部は、前記重要度に応じて前記抽出するトークンの圧縮率を特定するように学習されている前記ポリシーを取得することを特徴とする請求項２に記載の抽出システム。
　抽出システムが実行する抽出方法であって、
　処理対象のデータと、該データを構成するトークンのうち抽出するトークンを特定するポリシーとを取得する取得工程と、
　前記ポリシーに従って、前記データからクラウドサーバに送信するトークンを抽出する抽出工程と、
　を含んだことを特徴とする抽出方法。
　コンピュータを請求項１～６のいずれか１項に記載の抽出システムとして機能させるための抽出プログラム。