WO2024013828A1

WO2024013828A1 - 信号処理リソース切替装置、信号処理リソース切替システム、信号処理リソース切替方法およびプログラム

Info

Publication number: WO2024013828A1
Application number: PCT/JP2022/027324
Authority: WO
Inventors: 奨悟斎藤; 圭藤本; 育生大谷; 廣名取
Original assignee: 日本電信電話株式会社
Priority date: 2022-07-11
Filing date: 2022-07-11
Publication date: 2024-01-18

Abstract

信号処理リソース切替装置（１００）は、アプリケーション部（１）から「関数名・引数」を受け付け、計算リソースによる関数実行時・終了時に、アプリケーションに関数の引数データを通知する関数代理実行部（１１１）と、アクセラレータの故障を検知するアクセラレータ故障検知部（１１０）と、計算リソースのうち、未故障、かつ、利用可能なリソースを決定するオフロード先計算リソース決定部（１２０）と、を備え、関数代理実行部（１１１）は、オフロード先計算リソース決定部（１２０）が決定したリソースに対してオフロードを行う。

Description

信号処理リソース切替装置、信号処理リソース切替システム、信号処理リソース切替方法およびプログラム

　本発明は、信号処理リソース切替装置、信号処理リソース切替システム、信号処理リソース切替方法およびプログラムに関する。

　プロセッサの種別に応じて、得意（処理能力が高い）とするワークロードが異なる。汎用性の高いＣＰＵ（Central Processing Unit）に対し、ＣＰＵが苦手（処理能力が低い）とする並列度の高いワークロードを、高速かつ高効率に演算可能なＦＰＧＡ（Field Programmable Gate Array）／（以下の説明において、「／」は「または」を表記する）ＧＰＵ（Graphics Processing Unit）／ＡＳＩＣ（Application Specific Integrated Circuit）等のアクセラレータ（以下、適宜ＡＣＣという）がある。これらの異種プロセッサを組み合わせ、ＣＰＵの苦手とするワークロードをＡＣＣへオフロードして演算することで、総合的な演算時間や演算効率を向上させるオフロード技術の活用が進んでいる。

　ｖＲＡＮ（virtual Radio Access Network）等ではＣＰＵのみでは性能が足りず要件を満たせない場合に、ＦＰＧＡやＧＰＵなどの高速演算可能なアクセラレータに一部の処理をオフロードすることが行われている。
　ＡＣＣオフロードが行われる具体的ワークロードとしては、ｖＲＡＮにおける符号化／復号化処理（ＦＥＣ：Forward Error Correction処理）、音声や映像のメディア処理、暗号化／復号化処理等が代表例として挙げられる。

　計算機システムにおいて、計算機（以下、サーバ）上に、汎用処理に対応したハードウェア（ＣＰＵ）と特定の演算に特化したハードウェア（アクセラレータ）を搭載し、ソフトウェアの動作する汎用プロセッサからアクセラレータに対し一部の演算処理をオフロードする構成をとることがある。

　また、クラウドコンピューティングの進展に伴い、ユーザサイトに配備されたクライアントマシンから、ネットワーク（以下、ＮＷという）を介して遠隔サイト（ユーザ近傍に位置するデータセンタなど）のサーバに対し、一部の演算量の大きな処理をオフロードすることで、クライアントマシンを単純な構成とすることが広まりつつある。

　図１５は、計算機システムを説明する図である。
　図１５に示すように、サーバ５０は、ハードウェア１０上にＣＰＵ１１と、アクセラレータ１２－１とを搭載し、サーバ５０上のＣＰＵ１１上で動作するソフトウェア２０のアプリケーション（以下、適宜ＡＰＬ、またはアプリケーション部という）１を備える。
　アクセラレータ１２は、ＦＰＧＡ（Field Programmable Gate Array）／ＧＰＵ（Graphics Processing Unit）等の計算アクセラレータデバイスである。
　アクセラレータ１２は、冷却用Fan故障など、一定の確率で故障が発生する。
　アプリケーション１は、標準として規定された関数群（ＡＰＩ）を呼び出し、アクセラレータ１２への一部処理のオフロードを行う。
　図１５では、アクセラレータ１２が単体で故障する場合があり、このときの計算の継続が必要となる。

　計算機システムは、サーバ５０に搭載されたアクセラレータ１２が、故障・メンテナンスなどにより利用できない期間にも、アプリケーション１の可用性を保つことが求められる。アプリケーション１の可用性の要件は、下記である。
・要件１：透過性
　アプリケーションへの改造や専用処理の搭載が不要なこと。具体的には、特定のアクセラレータが利用不可となった際に、アプリケーションにおける検知・回避の処理が不要であること。

・要件２：突発故障時の可用性
　特定アクセラレータが突発的に利用不可となった際に、アプリケーションが演算処理を再開するまでの時間を最小化すること。

・要件３：意図的な切離時の演算継続
　メンテナンスや故障予知時等、事前に計画されたアクセラレータ１２の切り離し(切替)において、演算処理が中断されないこと（無瞬断）。

"open stackガイド", ［online］,［令和４年６月６日検索］,インターネット〈 URL : http://openstack-ja.github.io/openstack-manuals/openstack-ops/content/maintenance.html〉

　既存技術として、ハードウェアの故障を検知したのちに、該当のハードウェアを利用するアプリケーションや仮想マシン（ＶＭ）（以下、アプリケーション／ＶＭという）を、同一サーバ（パターン１）か、他サーバにマイグレーション（パターン２）させ、処理を継続する技術がある（非特許文献１参照）。

　図１６および図１７は、非特許文献１の技術を説明する図である。図１６は、パターン１：同一サーバ内でのアプリケーション／ＶＭ再立ち上げを説明する図であり、図１７は、パターン２：別サーバでの立ち上げを説明する図である。図１５と同一構成部分には、同一符号を付している。なお、図１６および図１７において、動作停止のデバイスは、破線で表記している。

　図１６に示すように、同一サーバ５０内でアクセラレータ１２－１に故障が発生した場合（図１６の符号ａ）、例えばオペレータがハードウェアの故障を検知したのちに（図１６の符号ｂ）、オペレータからの指示により同一サーバ内でのアプリケーション／ＶＭ再立ち上げを行う（図１６の符号ｃ）。再立ち上げされたアプリケーション／ＶＭ１－２は、アクセラレータ（冗長）１２－２にタスク再オフロードを行う（図１６の符号ｄ）。

　図１７に示すように、別サーバでの立ち上げの場合、例えばオペレータが別サーバ６０でのアプリケーションと仮想マシンのマイグレーションを行う（図１７の符号ｃ）。再立ち上げされたアプリケーション／ＶＭ１－２は、アクセラレータ（冗長）１２－２にタスク再オフロードを行う（図１７の符号ｄ）。

　しかしながら、上記パターン１：同一サーバ内でのアプリケーション／ＶＭ再立ち上げ、およびパターン２：別サーバでの立ち上げのいずれにおいても、ＣＰＵ１１が故障していないにも関わらず、アプリケーション／ＶＭ全体を移行もしくは再起動しており、下記3つのギャップがある。

（１）ギャップ１
　故障復旧時にはアプリケーションからの再オフロード処理が必要であり（図１６および図１７の符号ｄ）、<要件１：透過性>を満たさない。

（２）ギャップ２
　突発故障時には、アプリケーション再立ち上げやマイグレーション処理中に演算が停止し（図１６および図１７の符号ｃ）、<要件２：突発故障時の可用性>を満たさない。

（３）ギャップ３
　事前に計画された切替でも、アプリケーションの移行（図１６および図１７の符号ｃ）、および再オフロード処理中に演算が停止し（図１６および図１７の符号ｄ）<要件３：意図的な切離時の演算継続>を満たさない。

　このような背景を鑑みて本発明がなされたのであり、本発明は、アクセラレータが利用不可となる際に、アプリケーションからの指示なく、演算処理を最大限継続させることを課題とする。

　前記した課題を解決するため、本発明は、複数のアクセラレータを有し、アプリケーションの特定処理を前記アクセラレータにオフロードして演算処理する際に、オフロード先の計算リソースを切替える信号処理リソース切替装置であって、アプリケーションから関数名および引数を受け付け、計算リソースによる関数実行時および終了時に、アプリケーションに関数の引数データを通知する関数代理実行部と、アクセラレータの故障を検知するアクセラレータ故障検知部と、前記計算リソースのうち、未故障、かつ、利用可能なリソースを決定するオフロード先計算リソース決定部と、を備え、前記関数代理実行部は、前記オフロード先計算リソース決定部が決定した前記リソースに対してオフロードを行うことを特徴とする信号処理リソース切替装置とした。

　本発明によれば、アクセラレータが利用不可となる際に、アプリケーションからの指示なく、演算処理を最大限継続させることができる。

本発明の実施形態に係る信号処理リソース切替システムの概略構成図である。本発明の実施形態に係る信号処理リソース切替システムの信号処理リソース切替装置の配置のバリエーション１を示す概略構成図である。本発明の実施形態に係る信号処理リソース切替システムの信号処理リソース切替装置の配置のバリエーション２を示す概略構成図である。本発明の実施形態に係る信号処理リソース切替システムの信号処理リソース切替装置の配置のバリエーション３を示す概略構成図である。本発明の実施形態に係る信号処理リソース切替システムのアクセラレータ（遠隔）のデータ構造の一例を示す図である。本発明の実施形態に係る信号処理リソース切替システムの信号処理リソース切替装置の関数のＩＤと引数データの機能間やり取りのためのデータ構造の一例を示す図である。本発明の実施形態に係る信号処理リソース切替システムの信号処理リソース切替装置のオフロード先計算リソース決定部のアクセラレータ管理テーブルを示す図である。本発明の実施形態に係る信号処理リソース切替システムのオフロードにおけるシーケンス１を示すフローチャートである。本発明の実施形態に係る信号処理リソース切替システムのオフロードにおけるシーケンス１を示すフローチャートである。本発明の実施形態に係る信号処理リソース切替システムのオフロードにおけるシーケンス１を示すフローチャートである。本発明の実施形態に係る信号処理リソース切替システムの突発故障発生時のシーケンス２を示すフローチャートである。本発明の実施形態に係る信号処理リソース切替システムの事前に意図した切替（故障予測）のシーケンス３を示すフローチャートである。本発明の実施形態に係る信号処理リソース切替システムの事前に意図した切替オペレータによる指示のシーケンス４を示すフローチャートである。本発明の実施形態に係る信号処理リソース切替システムの故障切替対象の選定ルールのシーケンス５を示すフローチャートである。本発明の実施形態に係る信号処理リソース切替システムの故障復旧後の復帰時シーケンス６を示すフローチャートである。本発明の実施形態に係る信号処理リソース切替システムの信号処理リソース切替装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。計算機システムを説明する図である。非特許文献１の同一サーバ内でのアプリケーション／ＶＭ再立ち上げを説明する図である。非特許文献１の別サーバでの立ち上げを説明する図である。

　以下、図面を参照して本発明を実施するための形態（以下、「本実施形態」という）における信号処理リソース切替システム等について説明する。
（実施形態）
［概要］
　図１は、本発明の実施形態に係る信号処理リソース切替システムの概略構成図である。
　図１に示すように、信号処理リソース切替システム１０００は、サーバ２５０（サーバ<１>）と、サーバ２５０（サーバ<１>）とＮＷ２を介して接続されたサーバ２６０（サーバ<２>）と、を備える。
　信号処理リソース切替システム１０００は、サーバ２５０がアプリケーションの特定処理を当該サーバ２５０または遠隔側サーバ２６０に配置されたアクセラレータにオフロードして演算処理する。

［サーバ２５０（サーバ<１>）］
　サーバ２５０（サーバ<１>）は、ハードウェア（ＨＷ）１０と、ソフトウェア２１０と、を備える。

《ハードウェア１０》
　ハードウェア１０は、ＣＰＵ１１と、複数のアクセラレータ１２（アクセラレータ１２－１、アクセラレータ（冗長）１２－２）と、ＮＩＣ１３と、を有する。

<ＣＰＵ１１>
　ＣＰＵ１１は、サーバ２５０における、関数代理実行部１１１（ソフトウェア機能）を実行する。ＣＰＵ１１は、アクセラレータ１２－１、アクセラレータ（冗長）１２－２とともに計算を行う計算リソースの一つである。

　ＣＰＵ１１が、アクセラレータ１２－１、アクセラレータ（冗長）１２－２や、サーバ<２>のアクセラレータ（遠隔）１２のアクセラレータと共に処理する演算内容は、故障時において一時的にＣＰＵ１１を演算リソースとして用い、処理する形でもよい。

<アクセラレータ１２>
　アクセラレータ１２は、ＦＰＧＡ／ＧＰＵ等の計算アクセラレータデバイスである。
　アクセラレータ１２－１（１２）は、サーバ２５０に搭載された、特定の演算に特化したアクセラレータハードウェアであり、関数代理実行部１１１の指示をもとに演算を行う。アクセラレータ（冗長）１２－２（１２）は、特定の演算に特化したアクセラレータハードウェア（２台目）であり、関数代理実行部１１１の指示をもとに演算を行う。

　アクセラレータ１２は、入力として、関数代理実行部１１１から、演算対象の「関数名・（以下の説明において、「・」は「または」を表記する）引数データ」を受け付ける。
　アクセラレータ１２は、出力として、関数代理実行部１１１に対して、「演算結果」を通知する。

　アクセラレータの形態としては、内部にタスクの処理キューを持ち、演算対象の入力命令（エンキュー処理）と、処理結果の出力命令（デキュー命令）が分かれている形態でもよい。
　アクセラレータ１２は、冷却用Fan故障など、一定の確率で故障が発生する。

　なお、アクセラレータ（冗長）１２－２（１２）は、故障時のみの利用だけではなく、平常時より利用し、故障時の切替先と兼用させる形態でもよい。

<ＮＩＣ１３>
　ＮＩＣ１３は、ＮＷインターフェイスを実現するＮＩＣハードウェアである。
　ＮＩＣ１３は、関数代理実行部１１１のオフロード先が遠隔側サーバ（サーバ２６０）の場合に、関数代理実行部１１１のオフロードする「関数名・引数データ」のパケットの通知を受け付け、サーバ２６０のＮＩＣ（ローカル）１３に通知する。

　ＮＩＣ１３は、入力として、関数代理実行部１１１から、演算対象の「関数名・引数データ」を受け付ける。ＮＩＣ１３は、これらデータを、サーバ２６０のＮＩＣ（ローカル）１３に対して送信する。
　ＮＩＣ１３は、出力として、関数代理実行部１１１に対して、「演算結果」のパケット群を通知する。ＮＩＣ１３は、これらデータを、サーバ２６０のＮＩＣ（ローカル）１３から受信する。

　ＮＩＣ１３は、入力として、サーバ２６０のＮＩＣ（ローカル）１３から「関数名・引数データ」のパケット群を受信する。ＮＩＣ１３は、これらデータを、関数代理実行部（遠隔）１１１に通知する。
　ＮＩＣ１３は、出力として、サーバ２６０のＮＩＣ（ローカル）１３に対し、「演算結果」のパケット群を送信する。ＮＩＣ１３は、これらデータを、関数代理実行部（遠隔）２１１から通知を受ける。

《ソフトウェア２１０》
　ソフトウェア２１０は、アプリケーション部１（アプリケーション）と、信号処理リソース切替装置１００と、を有する。

<アプリケーション部１>
　アプリケーション部１は、ユーザ空間で実行されるプログラムである。アプリケーション部１は、OpenCL（登録商標）やDPDK BBDev API（登録商標）等で規定されるＡＰＩ利用を前提に構築されており、これらＡＰＩとの入出力を持つ。
　アプリケーション部１は、出力として、関数代理実行部１１１に対する「関数名・引数」を持つ。入力として、関数代理実行部１１１から「関数実行結果」を受け付ける。

　アプリケーション部１は、標準として規定された関数群（ＡＰＩ）を呼び出し、アクセラレータ１２－１、アクセラレータ（冗長）１２－２、またはサーバ２６０（サーバ<２>）のアクセラレータ１２への一部処理のオフロードを行う。

［信号処理リソース切替装置１００］
　信号処理リソース切替装置１００は、関数代理実行部１１１と、アクセラレータ故障検知部１１０と、オフロード先計算リソース決定部１２０と、アクセラレータ故障予測部１３０と、計画停止用タスク投入抑制部１４０と、アクセラレータメンテナンス設定部１５０と、タスク処理状況記録部１６０と、タスク再オフロード指示部１７０と、を備える。

　ここで、アクセラレータ故障検知部１１０、オフロード先計算リソース決定部１２０、アクセラレータ故障予測部１３０、計画停止用タスク投入抑制部１４０、アクセラレータメンテナンス設定部１５０、タスク処理状況記録部１６０、およびタスク再オフロード指示部１７０は、コントローラ機能部（後記図２～図４の配置例で説明するために導入）を構成する。

　また、図１の破線囲み１０１は、関数代理実行と故障検知を連携させ、アプリ改造なく故障時切替を行う機能部である（後記発明のポイント１で説明）。図１の破線囲み１０２は、突発故障時の、断絶期間の抑制を行う機能部である（後記発明のポイント２で説明）。図１の破線囲み１０３は、事前予測可能な切替時の演算の継続を行う機能部である（後記発明のポイント３で説明）。

<関数代理実行部１１１>
　関数代理実行部１１１は、アプリケーションから「関数名・引数」を受け付け、計算リソースによる関数実行時・終了時に、アプリケーションに関数の引数データを通知するとともに、オフロード先計算リソース決定部１２０が決定した前記リソースに対してオフロードを行う。

　関数代理実行部１１１は、既定の関数と互換性のあるＩＦを持った、ミドルウェアとして実現される。関数代理実行部１１１は、OpenCL（登録商標）やDPDK BBdev API（登録商標）等の規定ＡＰＩ関数群と同等のインターフェイスを持つ。
　関数代理実行部１１１は、ユーザからの関数呼出を受け付け、事前にオフロード先計算リソース決定部１２０（後記）により設定された計算リソースに対してオフロードを行う。

　関数代理実行部１１１は、結果を受け取るアプリケーション部１（ユーザアプリケーション）とは別のバイナリファイルとして用意され、実行時に動的リンク・呼出が行われる「動的ライブラリ形式」により実現される。なお、関数代理実行部１１１は、アプリケーション部１に、プログラム生成時にリンクされ、一体として実行される「静的ライブラリ形式」でもよい。

　関数代理実行部１１１は、各関数オフロード開始時に、タスク処理状況記録部１６０（後記）に対して、処理を開始したタスクを識別するため、関数名・引数を通知する。関数代理実行部１１１は、各関数オフロード完了時に、タスク処理状況記録部１６０に対して、処理を完了したタスクを識別するため、関数名・引数を通知する。

　関数代理実行部１１１は、オフロード先計算リソース決定部１２０（後記）により設定されたオフロード先がローカル（ＣＰＵ１１、アクセラレータ１２－１、アクセラレータ（冗長）１２－２、サーバ<２>のアクセラレータ１２もしくはＣＰＵ１１）の場合に、入力データをもとに、各デバイスへの演算指示を行う。
　関数代理実行部１１１は、オフロード先計算リソース決定部１２０により指示されたオフロード先が遠隔（サーバ２６０）の場合に、入力データをシリアライズし、ＵＤＰ／ＩＰ（User Datagram Protocol/Internet Protocol）等の形式に従う形でパケットとして分割し、ＮＩＣ（遠隔）１３に通知する。

　関数代理実行部１１１は、入力として、アプリケーション部１から「関数名・引数」を受け付ける。
　関数代理実行部１１１は、出力として、関数実行時・終了時に、タスク処理状況記録部１６０（後記）に対して関数の引数データを通知する。
　関数代理実行部１１１は、出力として、オフロード先がローカルの場合、ＣＰＵ１１アクセラレータ１２－１、アクセラレータ（冗長）１２－２のいずれかの計算リソースに、「関数名・引数」を通知する。
　関数代理実行部１１１は、出力として、オフロード先が遠隔の場合、ＮＩＣ（遠隔）１３に「関数名・引数データのパケット化データ」を渡す。

<アクセラレータ故障検知部１１０>
　アクセラレータ故障検知部１１０は、アクセラレータの状態を定期的に監視し、故障が発生したかを検知する。故障の検知には、正常性確認コマンドの周期的な実行と、その結果確認を用いる。
　アクセラレータ故障検知部１１０は、故障を検知した場合は、出力として、オフロード先計算リソース決定部１２０に対し「故障したハードウェアの識別子」を通知する。

　アクセラレータの故障検知の方法としては、能動的な検知方法である「周期的なテスト用オフロード処理の実行による正常性確認」「データ処理状況の監視」「周期的な、ハードウェアの持つヘルスチェック機能の実行」に加え、受動的な故障検知方法である「アクセラレータハードウェアからのアラート受信による検知」でもよい。

<オフロード先計算リソース決定部１２０>
　オフロード先計算リソース決定部１２０は、計算リソースのうち、故障しておらず（未故障）、かつ、利用可能なリソースを決定する。

　オフロード先計算リソース決定部１２０は、故障が発生したアクセラレータと、切り替えるアクセラレータの代わりとなるフェイルオーバ先アクセラレータとを選定し、関数代理実行部１１１に設定するとともに、タスク再オフロード指示部１７０に対して、故障が発生したアクセラレータと、フェイルオーバ先アクセラレータを通知し、タスクの再投入を指示する。

　オフロード先計算リソース決定部１２０は、オフロード先計算リソースを決定し、関数代理実行部１１１に通知する。具体的には、オフロード先計算リソース決定部１２０は、計算リソースである「サーバに搭載されたアクセラレータ、ＣＰＵ１１、遠隔サーバ側のアクセラレータ」のうち、未故障、かつ、利用可能なものを選び、関数代理実行部１１１に通知する。オフロード先計算リソース決定部１２０は、起動時には空きリソースの中から、処理可能なリソースを選定し、関数代理実行部１１１に指示する。

（突発故障時）
　オフロード先計算リソース決定部１２０は、アクセラレータ故障検知部１１０から突発故障発生の通知を受けた際に、故障が発生したアクセラレータの代わりとなる、フェイルオーバ先アクセラレータを選定して関数代理実行部１１１に設定する。この時同時に、タスク再オフロード指示部１７０に対して、故障が発生したアクセラレータと、フェイルオーバ先アクセラレータを通知し、タスクの再投入を指示する。

（突発故障検知時）
　オフロード先計算リソース決定部１２０は、入力として、アクセラレータ故障検知部１１０から、故障の発生通知と、故障が発生したアクセラレータの識別子を受け付ける。
　オフロード先計算リソース決定部１２０は、出力として、関数代理実行部１１１に対して、オフロード先を設定する。
　オフロード先計算リソース決定部１２０は、出力として、タスク再オフロード指示部１７０に対して、故障が発生したアクセラレータと、フェイルオーバ先アクセラレータを通知する。

（意図的な切替時）
　オフロード先計算リソース決定部１２０は、計画停止用タスク投入抑制部１４０から意図的な切替の通知を受けた際には、切り替えるアクセラレータの代わりとなる、フェイルオーバ先アクセラレータを選定して、関数代理実行部１１１に設定する。
　オフロード先計算リソース決定部１２０は、計画停止用タスク投入抑制部１４０から、切替予定通知と、切替対象アクセラレータの識別子を受け付ける。

　なお、オフロード先計算リソース決定部１２０は、起動時の処理対象リソースは、設定ファイルから読み取り、設定する形でもよい。

<アクセラレータ故障予測部１３０>
　アクセラレータ故障予測部１３０は、アクセラレータの故障を予測し、故障を予測した切替対象アクセラレータを通知する。

　アクセラレータ故障予測部１３０は、アクセラレータの温度の状態を定期的に監視し、故障や不具合が発生する可能性が高い状態か、を判別する。アクセラレータ故障予測部１３０は、故障を予測した場合に、計画停止用タスク投入抑制部１４０に対象アクセラレータの識別子を通知し、新規のタスク投入の抑止を指示する。

　アクセラレータ故障予測部１３０は、出力として、故障を予測した場合に、計画停止用タスク投入抑制部１４０に対して「故障したハードウェアの識別子」を通知する。

　なお、アクセラレータ故障予測部１３０は、アクセラレータの故障予測の方法としては、「周期的な正常性確認プログラムの実行」「アクセラレータカードの温度変化の継続的確認を行い、温度が一定以上に近づいたかを検知する」を行う方法でもよい。

<計画停止用タスク投入抑制部１４０>
　計画停止用タスク投入抑制部１４０は、アクセラレータ故障予測部１３０から切替対象アクセラレータの通知を受けた場合、切替対象アクセラレータについては新規のタスク投入の抑止をタスク再オフロード指示部１７０に指示する。

　計画停止用タスク投入抑制部１４０は、アクセラレータ故障予測部１３０や、アクセラレータメンテナンス設定部１５０から意図的な切替の通知を受けた際に、オフロード先計算リソース決定部１２０に切替対象アクセラレータの識別子を通知する。これにより、対象アクセラレータへのタスク投入を抑止し、仕掛中タスクがない状態とすることで、切離が可能な状態とする。

（意図的な切替時）
　計画停止用タスク投入抑制部１４０は、入力として、アクセラレータ故障予測部１３０、アクセラレータメンテナンス設定部１５０から、切替対象アクセラレータの識別子を受け付ける。
　計画停止用タスク投入抑制部１４０は、出力として、オフロード先計算リソース決定部１２０に対して、切替対象アクセラレータの識別子を通知し、オフロード先の変更を要求する。

・仕掛中タスクをなくす方法について
　本実施形態では、切替対象のアクセラレータの仕掛中タスクをなくすために、新規タスクの投入抑制を行ったうえで、時間経過により仕掛中タスクがなくなる仕組みとなっている。
　この態様に代えて、計画停止用タスク投入抑制部１４０は、タスク再オフロード指示部１７０に指示を行い、タスクを切替先に再投入させる形態でもよい。

・仕掛中タスクがなくなったことの検知について
　本実施形態では、仕掛中タスクがなくなったことを明示的に確認する機能を持っていない。
　この態様に代えて、計画停止用タスク投入抑制部１４０は、タスク処理状況記録部１６０のタスク処理状況を確認し、仕掛中タスクがなくなったかを周期的に確認し、オペレータ（ヒト）に通知する形態でもよい。

<アクセラレータメンテナンス設定部１５０>
　アクセラレータメンテナンス設定部１５０は、オペレータ（ヒト）の指示をもとに、特定のアクセラレータを切り離し可能な状態とする機能である。
　アクセラレータメンテナンス設定部１５０は、上記の指示を受けた場合には、計画停止用タスク投入抑制部１４０に対象アクセラレータの識別子を通知し、新規のタスク投入の抑止を指示する。

　アクセラレータメンテナンス設定部１５０は、出力として、上記の指示による切替を受け付けた場合に、計画停止用タスク投入抑制部１４０に対し「切替対象のハードウェアの識別子」を通知する。

　なお、オペレータからの指示は、ヒトではなく、外部のオペレーションシステムからの指示をトリガとする形でもよい。

<タスク処理状況記録部１６０>
　タスク処理状況記録部１６０は、関数代理実行部１１１から、時系列でのタスク処理状況を受け取り、各計算リソースにおける未完了演算タスクを保持する。

　タスク処理状況記録部１６０は、関数代理実行部１１１から、時系列でのタスク処理状況を受け取り、各計算リソースにおける未完了のタスクを保持する。タスク処理状況記録部１６０は、関数代理実行部１１１の入力をもとに、各関数の実行開始時と完了時の対応付けを行い、各計算リソースでの未完了のタスクを管理する。

　タスク処理状況記録部１６０は、入力として、関数代理実行部１１１より、関数実行開始時と完了時に、関数の引数データを受け付ける。入力としてタスク再オフロード指示部１７０より、「計算リソースの識別子」を受け付け、出力として当該の計算リソースの未完了のタスクの情報一覧（関数名・引数）を通知する。

<タスク再オフロード指示部１７０>
　タスク再オフロード指示部１７０は、オフロード先計算リソース決定部１２０から受け付けた「切替元計算リソースの識別子」をもとに、切替元計算リソースの未完了演算タスクの再実行を、関数代理実行部１１１に指示する。

　タスク再オフロード指示部１７０は、未完了タスクについては、タスク処理状況記録部１６０から「切替先計算リソースの識別子」をもとに、問い合わせ取得する。

　タスク再オフロード指示部１７０は、入力として、オフロード先計算リソース決定部１２０から、「切替元計算リソースの識別子」「切替先計算リソースの識別子」を受け付ける。
　タスク再オフロード指示部１７０は、出力として、切替先計算リソースに対するオフロードの再実行のため、関数代理実行部１１１に未完了演算タスクの再実行を指示する。

［サーバ２６０（サーバ<２>）］
　サーバ２６０（サーバ<２>）（遠隔側サーバ）は、ハードウェア（ＨＷ）１０と、ソフトウェア２１０と、を備える。

《ハードウェア１０》
　ハードウェア１０は、ＣＰＵ（遠隔）１１と、アクセラレータ（遠隔）１２と、ＮＩＣ（ローカル）１３と、を有する。

<ＣＰＵ１１>
　ＣＰＵ（遠隔）１１は、サーバ２６０における、関数代理実行部２１１（ソフトウェア機能）を実行する。ＣＰＵ（遠隔）１１は、アクセラレータ（遠隔）１２とともに計算リソースの一つである。

　ＣＰＵ（遠隔）１１は、アクセラレータ１２－１、アクセラレータ（冗長）１２－２や、サーバ<２>のアクセラレータ（遠隔）１２のアクセラレータで処理する演算内容は、故障時には一時的にＣＰＵ１１を演算リソースとして用い、処理する形でもよい。

<アクセラレータ１２>
　アクセラレータ（遠隔）１２は、ＦＰＧＡ／ＧＰＵ等の計算アクセラレータデバイスである。
　アクセラレータ（遠隔）１２は、サーバ２６０に搭載された、特定の演算に特化したアクセラレータハードウェアであり、関数代理実行部２１１の指示をもとに演算を行う。

　アクセラレータ（遠隔）１２は、入力として、関数代理実行部２１１から、演算対象の「関数名・引数データ」を受け付ける。
　アクセラレータ（遠隔）１２は、出力として、関数代理実行部２１１に対し、「演算結果」を通知する。

<ＮＩＣ（ローカル）１３>
　ＮＩＣ（ローカル）１３は、サーバ２５０から送信される「関数名・引数データ」を受信し、関数代理実行部（遠隔）２１１に「関数名・引数データ」のパケット群を入力する。ＮＩＣ（ローカル）１３は、関数代理実行部（遠隔）２１１から、「演算結果」を含むパケット群を受け付け、サーバ２５０に応答する。

《ソフトウェア２１０》
　ソフトウェア２１０は、関数代理実行部２１１を有する。

<関数代理実行部２１１>
　関数代理実行部２１１は、ＮＩＣ（ローカル）１３から受け付けた、「関数名・引数データ」のパケット群をもとに、アクセラレータ（遠隔）１２への演算オフロードを行う。さらに、関数代理実行部２１１は、演算結果についてはパケット化を行い、ＮＩＣ（ローカル）１３に送信する。

　関数代理実行部２１１は、入力として、ＮＩＣ（ローカル）１３から、「関数名・引数データ」のパケットを受け付ける。
　関数代理実行部２１１は、出力として、ＮＩＣ（ローカル）１３に対して、「演算結果」のパケットデータを通知する。
　関数代理実行部２１１は、アクセラレータ（遠隔）１２に対する出力として、「関数名・引数データ」を渡し、入力として演算結果を受け付ける。

［信号処理リソース切替装置の配置］
　信号処理リソース切替システムの信号処理リソース切替装置の配置のバリエーションについて説明する。
　図１の信号処理リソース切替システム１０００は、信号処理リソース切替装置１００をサーバ２５０のソフトウェア２１０に配置した例である。信号処理リソース切替装置のコントローラ機能部は、サーバ２５０外に別筐体で設置することも可能であり、以下に例示する。

　図２は、信号処理リソース切替システムの信号処理リソース切替装置の配置のバリエーション１を示す概略構成図である。なお、以下の各図において、図１と同一構成部分には同一符号を付して重複箇所の説明を省略する。
　バリエーション１は、コントローラ機能部全体を別筐体とした場合の例である。
　図２に示すように、信号処理リソース切替システム１０００Ａは、サーバ２５０（サーバ<１>）と、サーバ２５０（サーバ<１>）外に別筐体で設置された信号処理リソース切替装置１００Ａと、サーバ２５０（サーバ<１>）とＮＷ２を介して接続されたサーバ２６０（サーバ<２>）と、を備える。
　サーバ２５０のソフトウェア２００Ａは、アプリケーション部１と、関数代理実行部１１１と、有する。
　信号処理リソース切替装置１００Ａは、コントローラ機能部がサーバ２５０外に設置され、図１の信号処理リソース切替装置１００と同一の機能を有する。

　図３は、信号処理リソース切替システムの信号処理リソース切替装置の配置のバリエーション２を示す概略構成図である。
　バリエーション２は、コントローラ機能部のうち、故障検知関連機能を演算サーバ側とした場合の例である。
　図３に示すように、信号処理リソース切替システム１０００Ｂは、サーバ２５０（サーバ<１>）と、サーバ２５０（サーバ<１>）外に別筐体で設置された信号処理リソース切替装置１００Ｂと、サーバ２５０（サーバ<１>）とＮＷ２を介して接続されたサーバ２６０（サーバ<２>）と、を備える。
　サーバ２５０のソフトウェア２００Ｂは、アプリケーション部１と、関数代理実行部１１１と、アクセラレータ故障検知部１１０と、有する。
　信号処理リソース切替装置１００Ｂは、サーバ２５０外に設置され、図１の信号処理リソース切替装置１００からアクセラレータ故障検知部１１０を取り外した構成である。

　図４は、信号処理リソース切替システムの信号処理リソース切替装置の配置のバリエーション３を示す概略構成図である。
　バリエーション３は、コントローラ機能のうち、故障検知およびタスク再オフロード機能を演算サーバ側に配備した場合の例である。
　図４に示すように、信号処理リソース切替システム１０００Ｃは、サーバ２５０（サーバ<１>）と、サーバ２５０（サーバ<１>）外に別筐体で設置された信号処理リソース切替装置１００Ｃと、サーバ２５０（サーバ<１>）とＮＷ２を介して接続されたサーバ２６０（サーバ<２>）と、を備える。
　サーバ２５０のソフトウェア２００Ｃは、アプリケーション部１と、関数代理実行部１１１と、アクセラレータ故障検知部１１０と、タスク処理状況記録部１６０と、タスク再オフロード指示部１７０と、有する。
　信号処理リソース切替装置１００Ｃは、サーバ２５０外に設置され、図１の信号処理リソース切替装置１００からアクセラレータ故障検知部１１０、タスク処理状況記録部１６０およびタスク再オフロード指示部１７０を取り外した構成である。

　以上、図２～図４に示すように、コントローラ機能部の一部または全部を、サーバ２５０外の別の筐体に独立して配備する形態をとることで、ＲＡＮにおいてＲＩＣへの機能配備に対応することができる。
　また、複数のサーバ２５０に対して、１つの信号処理リソース切替装置での運用が可能になる。これにより、コストの低減と、信号処理リソース切替装置のメンテナンス性を向上させることができる。また、サーバ側の改変を不要ないし軽減することができ、汎用的に適用することができる。

［アクセラレータのデータ構造］
　図５は、アクセラレータ（遠隔）１２のデータ構造の一例を示す図である。
　図５に示すように、アクセラレータ（遠隔）１２のデータ構造は、Ｌ２フレーム、関数ＩＤ、最終データビット、引数１、引数２からなる。

　図６は、関数のＩＤと、引数データの機能間やり取りのためのデータ構造の一例を示す図である。
　図６に示すように、関数のＩＤと、引数データの機能間やり取りのためのデータ構造は、図５に示すデータ構造と同様の、関数ＩＤ、最終データビット、引数１、引数２からなる。

　本実施形態では、ＮＩＣ１３，サーバ２６０のＮＩＣ１３およびアクセラレータ１２のデータ形式を共通化し、かつパケットとして分散受信したメモリ上データをそのままアクセラレータ１２へ転送する。このため、データ構造の共通化を図る。具体的には、関数代理実行部２１１が作成するデータ構造を、図５および図６に示すようなアクセラレータ関数・引数データパケットとする。ＮＩＣ１３，１３およびアクセラレータ１２のデータ形式を共通化することで、ＮＩＣ１３，１３が受信するデータを、関数代理実行部２１１がそのまま読める形式とする。

［オフロード先計算リソース決定部のテーブル］
　図７は、オフロード先計算リソース決定部１２０のアクセラレータ管理テーブルの一例を示す図である。このアクセラレータ管理テーブルは、図１０の事前に意図した切替（故障予測）のフローで参照される。
　図７に示すように、オフロード先計算リソース決定部１２０のアクセラレータ管理テーブルは、搭載ホスト情報、アクセラレータ識別子、ＡＣＣ性能（スループット）、および、アクセラレータの状態を有する。
　オフロード先計算リソース決定部１２０は、図７に示す管理テーブルを参照して、オフロード先計算リソースを決定する。例えば、「Host-1(192.168.0.1)」（搭載ホスト情報）は、アクセラレータ識別子「FPGA-1」、ＡＣＣ性能（スループット）「10.0 Gbps」、「利用可能」である。また、「Host-2(192.168.0.2)」（搭載ホスト情報）は、アクセラレータ識別子「CPU-1」、ＡＣＣ性能（スループット）「2.0Gbps」、「割当済」（利用不可）である。
　特に、「Host-3(192.168.0.3)」（搭載ホスト情報）は、アクセラレータ識別子「ASIC-1」、ＡＣＣ性能（スループット）「10.0Gbps」、「故障中」（利用不可）である。

　以下、上述のように構成された信号処理リソース切替システム１０００の動作を説明する。
［概要］
　本発明は、３要件をそれぞれ以下のように充足する。
<要件１：透過性>
　関数代理実行部１１１が、アプリケーションとアクセラレータオフロード処理を分離し、アクセラレータ１２のみの切替を、アプリケーション改造なく実現すること。

<要件２：突発故障時の可用性の高さ>
　故障検知と連携した自動でのオフロード先切替と、アクセラレータタスク処理状況をもとにした自動再投入により、切替時間を最小化すること。

<要件３：意図的な切離時の処理継続>
　切替対象アクセラレータへのタスク投入を抑制し、タスクが空となったことを確認してから切替を行うことでの演算継続すること。また、本実施形態の装置構成は完全二重化する必要がなく、設備効率が高いこと。

　上記<要件１：透過性>、<要件２：突発故障時の可用性の高さ>、<要件３：意図的な切離時の処理継続>は、下記、（１）発明のポイント１、（２）発明のポイント２、（３）発明のポイント３により解決する。

（１）発明のポイント１：関数代理実行と故障検知の連携、アプリ改造なく故障時切替（図１の破線囲み機能部１０１）
　関数代理実行部１１１により、アプリケーションに変更を加えずオフロード先を切替可能とする。これにより、アプリケーションの再起動・移行なくアクセラレータを切り替える。さらに、故障検知結果に応じて自動的に切替を行うことで、<要件１：透過性>を実現する。

（２）発明のポイント２：突発故障時の、断絶期間の抑制（図１の破線囲み機能部１０２）
　アクセラレータ故障時の自動タスク再オフロードによる、自動処理継続を実現する。具体的には、残タスクを管理するタスク処理状況記録部１６０が、アクセラレータの処理完了前タスクを記録し、タスク再オフロード指示部１７０が、突発故障時には自動的に再オフロードを行う。これにより、<要件１：透過性>と<要件２：突発故障時の可用性の高さ>を両立する。

（３）発明のポイント３：事前予測可能な切替時の演算の継続（図１の破線囲み機能部１０３）
　アクセラレータタスク投入の抑制による、意図的な切離時の無瞬断切替を実現する。具体的には、アクセラレータ故障予測部１３０が、アクセラレータの故障を予測し、切離対象のアクセラレータについては、計画停止用タスク投入抑制部１４０が、タスク投入を抑制し、オフロード先を他計算リソースに切り替える。これにより、<要件３：意図的な切離時の処理継続>を実現する。

［動作］
　信号処理リソース切替システムの動作は、図１の信号処理リソース切替システム１０００、図２の信号処理リソース切替システム１０００Ａ、図３の信号処理リソース切替システム１０００Ｂ、図４の信号処理リソース切替システム１０００Ｃのいずれについても同様である。すなわち、信号処理リソース切替システムにおいて、信号処理リソース切替装置の配置先による動作の差異はない。

［オフロードにおけるシーケンス］
　図８Ａ－Ｃは、信号処理リソース切替システムのオフロードにおけるシーケンス１を示すフローチャートである。本フローは、基本的には、サーバ２５０（サーバ<１>）の処理を示し、一部がサーバ２６０（サーバ<２>）の処理（図８ＡのＳ１６－Ｓ１９）を示す。
　図８Ａにおいて、ステップＳ１１でアプリケーション部１は、ＡＰＩ呼出を行い、「関数・引数」を出力する。

　ステップＳ１２で関数代理実行部１１１は、関数名や引数のフォーマットが標準化された既定の関数群を利用してアクセラレータへの演算オフロードを行う。

　ステップＳ１３でタスク処理状況記録部１６０は、関数代理実行部１１１から、時系列でのタスク処理状況を受け取り、各計算リソースにおける未完了のタスクを保持する。

　ステップＳ１４でオフロード先計算リソース決定部１２０は、設定されたオフロード先が遠隔サーバの場合か否かを判別する。

　設定されたオフロード先が遠隔サーバの場合（Ｓ１４：Ｙｅｓ）、ステップＳ１５でＮＩＣ１３は、関数代理実行部１１１のオフロード先が遠隔側サーバ２６０（サーバ<２>）の場合に、関数代理実行部１１１のオフロードする「関数名・引数データ」のパケットの通知を受け付け、遠隔側サーバ２６０（サーバ<２>）のＮＩＣ１３に通知する。

　ステップＳ１６で遠隔側サーバ２６０（サーバ<２>）のＮＩＣ１３は、サーバ<１>から送信される「関数名・引数データ」を受信し、関数代理実行部１１１に「関数名・引数データ」のパケット群を入力する。

　ステップＳ１７で遠隔側サーバ２６０（サーバ<２>）の関数代理実行部１１１は、ＮＩＣ（ローカル）１３から受け付けた、「関数名・引数データ」のパケット群をもとに、アクセラレータ（遠隔）１２への演算オフロードを行う。

　ステップＳ１８で遠隔側サーバ２６０（サーバ<２>）のアクセラレータ（遠隔）１２は、関数代理実行部２１１からの指示をもとに演算を行う。

　ステップＳ１９でＮＩＣ（ローカル）１３は、サーバ２５０（サーバ<１>）のＮＩＣ１３に対し、「演算結果」のパケット群を送信する。

　以下、ステップＳ２０以降は、サーバ２５０（サーバ<１>）の処理である。
　ステップＳ２０でサーバ２５０（サーバ<１>）のＮＩＣ１３は、関数代理実行部１１１に対し、「演算結果」のパケット群を通知して図８ＢのステップＳ２１に進む。なお、ステップＳ２１には、後記図８ＣのステップＳ２５、ステップＳ２７、ステップＳ２８の処理後も移行する。

　図８ＢのステップＳ２１で関数代理実行部１１１は、関数実行時・終了時に、タスク処理状況記録部１６０に対し、処理を完了したタスクを識別するため、関数を一意に識別できるＩＤおよび引数データを送る。

　ステップＳ２２でタスク処理状況記録部１６０は、関数代理実行部１１１の入力をもとに、各関数の実行開始時と完了時の対応付けを行い、各計算リソースでの未完了のタスクを管理する。

　ステップＳ２３でアプリケーション部１は、関数代理実行部１１１から「関数実行結果」を受け付けて本フローの処理を終了する。

　上記ステップＳ１４で設定されたオフロード先が遠隔サーバでない場合（Ｓ１４：Ｎｏ）、図８ＣのステップＳ２４でオフロード先計算リソース決定部１２０は、設定されたオフロード先がサーバ内のアクセラレータ１２－１（アクセラレータ<１>）の場合か否かを判別する。

　設定されたオフロード先がサーバ内のアクセラレータ１２－１の場合（Ｓ２４：Ｙｅｓ）、ステップＳ２５でアクセラレータ１２－１は、関数代理実行部１１１から、演算対象の「関数名・引数データ」を受け付け、演算を行って図８ＢのステップＳ２１に進む。

　設定されたオフロード先がサーバ内のアクセラレータ１２－１でない場合（Ｓ２４：Ｎｏ）、ステップＳ２６でオフロード先計算リソース決定部１２０は、設定されたオフロード先がサーバ内のアクセラレータ（冗長）１２－２（アクセラレータ<２>）の場合か否かを判別する。

　設定されたオフロード先がサーバ内のアクセラレータ１２－２の場合（Ｓ２６：Ｙｅｓ）、ステップＳ２７でアクセラレータ１２－２は、関数代理実行部１１１から、演算対象の「関数名・引数データ」を受け付け、演算を行って図８ＢのステップＳ２１に進む。

　設定されたオフロード先がサーバ内のアクセラレータ１２－２でない場合（Ｓ２６：Ｎｏ）、ステップＳ２８でＣＰＵ１１は、サーバ<１>におけるソフトウェア機能を実行して図８ＢのステップＳ２１に進む。

［突発故障発生時のシーケンス］
　図９は、信号処理リソース切替システムの突発故障発生時のシーケンス２を示すフローチャートである。

　ステップＳ３１でアクセラレータ故障検知部１１０は、アクセラレータの状態を定期的に監視し、故障が発生したかを検知する。具体的には、アクセラレータ故障検知部１１０は、正常性確認コマンドの周期的な実行と、その結果確認を用いて故障を検知する。また、アクセラレータ故障検知部１１０は、故障を検知した場合は、オフロード先計算リソース決定部１２０に対し「故障したハードウェアの識別子」を通知する。

　ステップＳ３２でアクセラレータ故障検知部１１０は、故障を検知したか否かを判別し、故障を検知していない場合（Ｓ３２：Ｎｏ）、ステップＳ３１に戻る。

　故障を検知した場合（Ｓ３２：Ｙｅｓ）、ステップＳ３３でオフロード先計算リソース決定部１２０は、オフロード先計算リソースを決定し、関数代理実行部１１１に通知する。具体的には、オフロード先計算リソース決定部１２０は、計算リソースである「サーバに搭載されたアクセラレータ１２－１，１２－２、ＣＰＵ１１、遠隔側サーバのアクセラレータ（遠隔）１２」のうち、故障しておらず、利用可能なものを選び、関数代理実行部１１１に通知する。

　ステップＳ３４でタスク再オフロード指示部１７０は、オフロード先計算リソース決定部１２０から受け付けた「切替元計算リソースの識別子」をもとに、切替元計算リソースの未完了演算タスクの再実行を、関数代理実行部１１１に指示する。

　ステップＳ３５でタスク処理状況記録部１６０は、関数代理実行部１１１から、時系列でのタスク処理状況を受け取り、各計算リソースにおける未完了演算のタスクを保持する。

　ステップＳ３６でタスク再オフロード指示部１７０は、未完了演算タスクについては、タスク処理状況記録部１６０から「切替先計算リソースの識別子」をもとに問い合わせ、該当タスクを取得して本フローを終了する。

［事前に意図した切替（故障予測）のシーケンス］
　図１０は、信号処理リソース切替システムの事前に意図した切替（故障予測）のシーケンス３を示すフローチャートである。

　ステップＳ４１でアクセラレータ故障検知部１１０は、アクセラレータ（アクセラレータ１２－１，１２－２、遠隔側サーバのアクセラレータ（遠隔）１２）の温度の状態を定期的に監視し、故障や不具合が発生する可能性が高い状態かを判別する。冷却用Fanが故障した場合などアクセラレータの温度が上昇して、アクセラレータの故障が予測できる。アクセラレータ故障予測部１３０は、故障を予測した場合には、計画停止用タスク投入抑制部１４０に対象アクセラレータの識別子を通知し、新規のタスク投入の抑止を指示する。

　ステップＳ４２でアクセラレータ故障検知部１１０が、故障を予測しなければ（Ｓ４２：Ｎｏ）、ステップＳ４１に戻る。故障を予測した場合（Ｓ４２：Ｙｅｓ）、ステップＳ４３でオフロード先計算リソース決定部１２０は、アクセラレータ故障検知部１１０から突発故障発生の通知を受けた際に、故障が発生したアクセラレータの代わりとなる、フェイルオーバ先アクセラレータを選定し関数代理実行部１１１に設定する。また、オフロード先計算リソース決定部１２０は、アクセラレータ管理テーブルのうち、故障通知を受けたアクセラレータの状態を、“故障中”に更新する。

　ステップＳ４４で計画停止用タスク投入抑制部１４０は、アクセラレータ故障予測部１３０や、アクセラレータメンテナンス設定部１５０から意図的な切替の指示を受けた際に、オフロード先計算リソース決定部１２０に対象アクセラレータの識別子を通知して本フローを終了する。

［事前に意図した切替（ヒト（オペレータ））による指示のシーケンス］
　図１１は、信号処理リソース切替システムの事前に意図した切替（ヒト（オペレータ））による指示のシーケンス４を示すフローチャートである。

　ステップＳ５１でアクセラレータメンテナンス設定部１５０は、オペレータの指示をもとに、特定のアクセラレータを切り離し可能な状態とする。具体的には、アクセラレータメンテナンス設定部１５０は、オペレータの指示を受けた場合に、計画停止用タスク投入抑制部１４０に対象アクセラレータの識別子を通知し、新規のタスク投入の抑止を指示する。

　ステップＳ５２でオフロード先計算リソース決定部１２０は、計画停止用タスク投入抑制部１４０から意図的な切替の通知を受けた際に、切り替えるアクセラレータの代わりとなる、フェイルオーバ先アクセラレータを選定し、関数代理実行部１１１に設定する。具体的には、オフロード先計算リソース決定部１２０は、計画停止用タスク投入抑制部１４０から、切替予定通知と、切替対象アクセラレータの識別子を受け付ける。

　ステップＳ５３で計画停止用タスク投入抑制部１４０は、アクセラレータ故障予測部１３０およびアクセラレータメンテナンス設定部１５０から切替対象アクセラレータの識別子を受け付け、オフロード先計算リソース決定部１２０に切替対象アクセラレータの識別子を通知して本フローを終了する。

［故障切替対象の選定ルールのシーケンス］
　図１２は、故障切替対象の選定ルールのシーケンス５を示すフローチャートである。また、オフロード先計算リソース決定部１２０は、図７に示すアクセラレータ管理テーブルを参照する。

　ステップＳ６１でオフロード先計算リソース決定部１２０は、故障したＡＣＣのフィールドを更新する。例えば、図７に示すアクセラレータ管理テーブルの搭載ホスト情報をもとに、Host-3のASIC-1の状態を“故障中”とする。

　ステップＳ６２でアクセラレータ故障検知部１１０は、ＡＣＣの故障を検知する。上記の例では、Host-3のASIC-1の故障を検知する。

　ステップＳ６３でオフロード先計算リソース決定部１２０は、故障したＡＣＣの性能を取得する。上記の例では、Host-3のASIC-1のＡＣＣ性能10.0Gbpsを取得する。

　ステップＳ６４でオフロード先計算リソース決定部１２０は、利用可能かつ、ＡＣＣ性能を充足するＡＣＣを選定する。上記の例では、Host-1のFPGA-1を選定する。

　ステップＳ６５でオフロード先計算リソース決定部１２０は、選定したＡＣＣのフィールドを更新して本フローを終了する。上記の例では、Host-1のFPGA-1の状態を割当済にするように、アクセラレータ管理テーブル（図７）を更新する。

［故障復旧後の復帰時シーケンス］
　図１３は、信号処理リソース切替システムの故障復旧後の復帰時シーケンス６を示すフローチャートである。

　オフロード先計算リソース決定部１２０は、故障の復旧完了処理をスタートする（ステップＳ７１）。

　ステップＳ７２でアクセラレータメンテナンス設定部１５０は、故障発生後の修復・復旧時に、切替先として選定したアクセラレータをメンテナンス対象として設定し、再度アクセラレータ払出を行うことで、故障切替先からの別アクセラレータへ振り分けをする。

　ステップＳ７３でオフロード先計算リソース決定部１２０は、オフロード先計算リソースを決定し、関数代理実行部１１１に通知する。具体的には、オフロード先計算リソース決定部１２０は、計算リソースであるサーバ２５０に搭載されたアクセラレータ１２－１，１２－２、ＣＰＵ１１、遠隔側サーバ２６０のアクセラレータ１２のうち、故障しておらず、利用可能なものを選び、関数代理実行部１１１に通知する。

　ステップＳ７４でオフロード先計算リソース決定部１２０は、管理するアクセラレータのアクセラレータ管理テーブル（図７）の中から、処理可能なリソースを選定し、関数代理実行部１１１に指示する。ここで、アクセラレータのアクセラレータ管理テーブルのうち、性能およびアクセラレータのリストは、事前にリストが投入されており、各アクセラレータの状態については割当に応じて更新される（図１２のステップＳ６５）。

　ステップＳ７５で計画停止用タスク投入抑制部１４０は、アクセラレータ故障予測部１３０や、アクセラレータメンテナンス設定部１５０から意図的な切替の通知を受けた際に、オフロード先計算リソース決定部１２０に切替対象アクセラレータの識別子を通知して本フローを終了する。

［ハードウェア構成］
　上記実施形態に係る信号処理リソース切替システム１０００，１０００Ａ～１０００Ｃ（１０００～１０００Ｃ）の信号処理リソース切替装置１００，１００Ａ～１００Ｃ（１００～１００Ｃ）は、例えば図１４に示すような構成のコンピュータ９００によって実現される。
　図１４は、信号処理リソース切替装置１００～１００Ｃの機能を実現するコンピュータ９００の一例を示すハードウェア構成図である。
　信号処理リソース切替装置１００～１００Ｃは、ＣＰＵ９０１、ＲＡＭ９０２、ＲＯＭ９０３、ＨＤＤ９０４、アクセラレータ９０５、入出力インターフェイス（Ｉ／Ｆ）９０６、メディアインターフェイス（Ｉ／Ｆ）９０７、および通信インターフェイス（Ｉ／Ｆ：Interface）９０８を有する。アクセラレータ９０５は、図１～図４のアクセラレータ１２－１，１２－２に対応する。

　アクセラレータ９０５は、通信Ｉ／Ｆ９０８からのデータ、または、ＲＡＭ９０２からのデータの少なくとも一方のデータを高速に処理するアクセラレータ（デバイス）１２－１，１２－２（図１～図４）である。なお、アクセラレータ９０５として、ＣＰＵ９０１またはＲＡＭ９０２からの処理を実行した後にＣＰＵ９０１またはＲＡＭ９０２に実行結果を戻すタイプ（look-aside型）を用いてもよい。一方、アクセラレータ９０５として、通信Ｉ／Ｆ９０８とＣＰＵ９０１またはＲＡＭ９０２との間に入って、処理を行うタイプ（in-line型）を用いてもよい。

　アクセラレータ９０５は、通信Ｉ／Ｆ９０８を介して外部装置９１５と接続される。入出力Ｉ／Ｆ９０６は、入出力装置９１６と接続される。メディアＩ／Ｆ９０７は、記録媒体９１７からデータを読み書きする。

　ＣＰＵ９０１は、ＲＯＭ９０３またはＨＤＤ９０４に格納されたプログラムに基づいて動作し、ＲＡＭ９０２に読み込んだプログラム（アプリケーションや、その略のアプリとも呼ばれる）を実行することにより、図１～図４に示す信号処理リソース切替装置１００～１００Ｃの各部の制御を行う。そして、このプログラムは、通信回線を介して配布したり、ＣＤ－ＲＯＭ等の記録媒体９１７に記録して配布したりすることも可能である。
　ＲＯＭ９０３は、コンピュータ９００の起動時にＣＰＵ９０１によって実行されるブートプログラムや、コンピュータ９００のハードウェアに依存するプログラム等を格納する。

　ＣＰＵ９０１は、入出力Ｉ／Ｆ９０６を介して、マウスやキーボード等の入力部、および、ディスプレイやプリンタ等の出力部からなる入出力装置９１６を制御する。ＣＰＵ９０１は、入出力Ｉ／Ｆ９０６を介して、入出力装置９１６からデータを取得するともに、生成したデータを入出力装置９１６へ出力する。なお、プロセッサとしてＣＰＵ９０１とともに、ＧＰＵ（Graphics Processing Unit）等を用いてもよい。

　ＨＤＤ９０４は、ＣＰＵ９０１により実行されるプログラムおよび当該プログラムによって使用されるデータ等を記憶する。通信Ｉ／Ｆ９０８は、通信網（例えば、ＮＷ（Network））を介して他の装置からデータを受信してＣＰＵ９０１へ出力し、また、ＣＰＵ９０１が生成したデータを、通信網を介して他の装置へ送信する。

　メディアＩ／Ｆ９０７は、記録媒体９１７に格納されたプログラムまたはデータを読み取り、ＲＡＭ９０２を介してＣＰＵ９０１へ出力する。ＣＰＵ９０１は、目的の処理に係るプログラムを、メディアＩ／Ｆ９０７を介して記録媒体９１７からＲＡＭ９０２上にロードし、ロードしたプログラムを実行する。記録媒体９１７は、ＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto Optical disk）等の光磁気記録媒体、磁気記録媒体、導体メモリテープ媒体又は半導体メモリ等である。

　例えば、コンピュータ９００が本実施形態に係る一装置として構成されるサーバ２００として機能する場合、コンピュータ９００のＣＰＵ９０１は、ＲＡＭ９０２上にロードされたプログラムを実行することによりサーバ２００の機能を実現する。また、ＨＤＤ９０４には、ＲＡＭ９０２内のデータが記憶される。ＣＰＵ９０１は、目的の処理に係るプログラムを記録媒体９１７から読み取って実行する。この他、ＣＰＵ９０１は、他の装置から通信網を介して目的の処理に係るプログラムを読み込んでもよい。

［効果］
　以上説明したように、複数のアクセラレータ（アクセラレータ１２－１，１２－２）を有し、アプリケーションの特定処理をアクセラレータにオフロードして演算処理する際に、オフロード先の計算リソースを切替える信号処理リソース切替装置１００～１００Ｃ（図１～図４）であって、アプリケーション（アプリケーション部１）から「関数名・引数」を受け付け、計算リソースによる関数実行時・終了時に、アプリケーションに関数の引数データを通知する関数代理実行部１１１と、アクセラレータの故障を検知するアクセラレータ故障検知部１１０と、計算リソースのうち、未故障、かつ、利用可能なリソースを決定するオフロード先計算リソース決定部１２０と、を備え、関数代理実行部１１１は、オフロード先計算リソース決定部１２０が決定したリソースに対してオフロードを行うことを特徴とする。

　上述したように、アクセラレータを搭載した計算機システムでは、アクセラレータが単体で故障する場合があり、このときの計算の継続が必要となる。

　関数代理実行部１１１が、アプリケーションとアクセラレータオフロード処理を分離し、アクセラレータ１２のみの切替を、アプリケーション改造なく実現する。また、関数代理実行部１１１が、アプリケーションに変更を加えずオフロード先を切替可能とする。これにより、アプリケーションの再起動・移行なくアクセラレータを切り替える。さらに、故障検知結果に応じて自動的に切替を行うことで、<要件１：透過性>を実現する。その結果、アクセラレータが利用不可となる際に、アプリケーションからの指示なく、演算処理を最大限継続させることができる。

　信号処理リソース切替システム１０００～１０００Ｃ（図１～図４）において、関数代理実行部１１１から、時系列でのタスク処理状況を受け取り、各計算リソースにおける未完了演算タスクを保持するタスク処理状況記録部１６０と、オフロード先計算リソース決定部１２０から受け付けた「切替元計算リソースの識別子」をもとに、切替元計算リソースの未完了演算タスクの再実行を、関数代理実行部１１１に指示するタスク再オフロード指示部１７０と、を備えることを特徴とする。

　このようにすることにより、残タスクを管理するタスク処理状況記録部１６０が、アクセラレータの処理完了前タスクを記録し、タスク再オフロード指示部１７０が、突発故障時には自動的に再オフロードを行う。これにより、<要件１：透過性>と<要件２：突発故障時の可用性の高さ>を両立することができる。<要件２：突発故障時の可用性の高さ>は、故障検知と連携した自動でのオフロード先切替と、アクセラレータタスク処理状況をもととした自動再投入により、切替時間を最小化することである。その結果、アクセラレータ故障時の自動タスク再オフロードによる、自動処理継続を実現することができる。

　信号処理リソース切替システム１０００～１０００Ｃ（図１～図４）において、オフロード先計算リソース決定部１２０は、故障が発生したアクセラレータと、切り替えるアクセラレータの代わりとなるフェイルオーバ先アクセラレータとを選定して、関数代理実行部１１１に設定するとともに、タスク再オフロード指示部１７０に対して、故障が発生したアクセラレータと、フェイルオーバ先アクセラレータを通知し、タスクの再投入を指示することを特徴とする。

　このようにすることにより、故障検知と連携した自動でのオフロード先切替と、アクセラレータタスク処理状況をもとにした自動再投入により、切替時間を最小化することができ、<要件２：突発故障時の可用性の高さ>を実現することができる。

　信号処理リソース切替システム１０００～１０００Ｃ（図１～図４）において、アクセラレータの故障を予測し、故障を予測した切替対象アクセラレータを通知するアクセラレータ故障予測部１３０と、アクセラレータ故障予測部１３０から切替対象アクセラレータの通知を受けた場合、切替対象アクセラレータについては新規のタスク投入の抑止をタスク再オフロード指示部１７０に指示する計画停止用タスク投入抑制部１４０と、を備えることを特徴とする。

　このようにすることにより、アクセラレータ故障予測部１３０が、アクセラレータの故障を予測し、切離対象のアクセラレータについては、計画停止用タスク投入抑制部１４０が、タスク投入を抑制し、オフロード先を他計算リソースに切り替える。これにより、<要件３：意図的な切離時の処理継続>を実現することができる。<要件３：意図的な切離時の処理継続>は、切替対象アクセラレータへのタスク投入を抑制し、タスクが空となったことを確認してから切替を行うことでの演算継続することである。その結果、アクセラレータタスク投入の抑制による、意図的な切離時の無瞬断切替を実現することができる。

　サーバ２５０と、ネットワーク２を介して接続された遠隔側サーバ２６０と、を備え、サーバ２５０がアプリケーション（アプリケーション部１）の特定処理を当該サーバ２５０または遠隔側サーバ２６０に配置されたアクセラレータ（アクセラレータ１２－１，１２－２，アクセラレータ（遠隔）１２）にオフロードして演算処理する信号処理リソース切替システム１０００～１０００Ｃ（図１～図４）であって、サーバ２５０内またはサーバ２５０外に、オフロード先の計算リソースを切替える信号処理リソース切替装置１００～１００Ｃ（図１～図４）を設け、信号処理リソース切替装置１００は、アプリケーションから「関数名・引数」を受け付け、計算リソースによる関数実行時・終了時に、アプリケーションに関数の引数データを通知する関数代理実行部１１１と、アクセラレータの故障を検知するアクセラレータ故障検知部１１０と、計算リソースのうち、未故障、かつ、利用可能なリソースを決定するオフロード先計算リソース決定部１２０と、を備え、関数代理実行部１１１は、オフロード先計算リソース決定部１２０が決定した前記リソースに対してオフロードを行うことを特徴とする。

　これにより、サーバ２５０と、ネットワーク２を介して接続された遠隔側サーバ２６０と、を備える信号処理リソース切替システム１０００～１０００Ｃにおいて、オフロード先計算リソース決定部１２０は、計算リソースである「サーバに搭載されたアクセラレータ１２－１，１２－２、ＣＰＵ１１、遠隔側サーバのアクセラレータ（遠隔）１２」のうち、故障しておらず（未故障で）、利用可能なものを選び、関数代理実行部１１１に通知する。関数代理実行部１１１が、故障検知結果に応じて自動的に切替を行うことで、<要件１：透過性>を実現する。

　特に、従来では、図１７に示したように、ハードウェアの故障を検知したのちに、該当のハードウェアを利用するアプリケーション／ＶＭを、他サーバにマイグレーションさせ、処理を継続する必要があり、ＣＰＵが故障していないにも関わらず、アプリケーション／ＶＭ全体を移行もしくは再起動していた。これに対して、本実施形態では、信号処理リソース切替システム１０００～１０００Ｃ（図１～図４）において、<要件１：透過性>および<要件２：突発故障時の可用性の高さ>を実現することができ、アクセラレータが利用不可となる際に、アプリケーションからの指示なく、演算処理を最大限継続させることができる。

　また、上記実施形態および変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上述文書中や図面中に示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。

　また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行するためのソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（Solid State Drive）等の記録装置、または、ＩＣ（Integrated Circuit）カード、ＳＤ（Secure Digital）カード、光ディスク等の記録媒体に保持することができる。

　１　アプリケーション部（アプリケーション）
　２　ネットワーク（ＮＷ）
　１０　ハードウェア
　１１　ＣＰＵ
　１２，１２－１，１２－２　アクセラレータ
　１３　ＮＩＣ
　１００，１００Ａ，１００Ｂ，１００Ｃ　信号処理リソース切替装置
　１１０　アクセラレータ故障検知部
　１１１　関数代理実行部
　１２０　オフロード先計算リソース決定部
　１３０　アクセラレータ故障予測部
　１４０　計画停止用タスク投入抑制部
　１５０　アクセラレータメンテナンス設定部
　１６０　タスク処理状況記録部
　１７０　タスク再オフロード指示部
　２５０　サーバ（サーバ<１>）
　２６０　遠隔側サーバ（サーバ<２>）
　１０００，１０００Ａ，１０００Ｂ，１０００Ｃ　信号処理リソース切替システム

Claims

　複数のアクセラレータを有し、アプリケーションの特定処理を前記アクセラレータにオフロードして演算処理する際に、オフロード先の計算リソースを切替える信号処理リソース切替装置であって、
　アプリケーションから関数名および引数を受け付け、計算リソースによる関数実行時および終了時に、アプリケーションに関数の引数データを通知する関数代理実行部と、
　アクセラレータの故障を検知するアクセラレータ故障検知部と、
　前記計算リソースのうち、未故障、かつ、利用可能なリソースを決定するオフロード先計算リソース決定部と、を備え、
　前記関数代理実行部は、前記オフロード先計算リソース決定部が決定した前記リソースに対してオフロードを行う
　ことを特徴とする信号処理リソース切替装置。
　前記関数代理実行部から、時系列でのタスク処理状況を受け取り、各計算リソースにおける未完了演算タスクを保持するタスク処理状況記録部と、
　前記オフロード先計算リソース決定部から受け付けた切替元計算リソースの識別子をもとに、切替元計算リソースの未完了演算タスクの再実行を、前記関数代理実行部に指示するタスク再オフロード指示部と、を備える
　ことを特徴とする請求項１に記載の信号処理リソース切替装置。
　前記オフロード先計算リソース決定部は、故障が発生したアクセラレータと、切り替えるアクセラレータの代わりとなるフェイルオーバ先アクセラレータとを選定し、前記関数代理実行部に設定するとともに、
　前記タスク再オフロード指示部に対して、故障が発生したアクセラレータと、フェイルオーバ先アクセラレータを通知し、タスクの再投入を指示する
　ことを特徴とする請求項２に記載の信号処理リソース切替装置。
　アクセラレータの故障を予測し、故障を予測した切替対象アクセラレータを通知するアクセラレータ故障予測部と、
　前記アクセラレータ故障予測部から切替対象アクセラレータの通知を受けた場合、切替対象アクセラレータについては新規のタスク投入の抑止を前記タスク再オフロード指示部に指示する計画停止用タスク投入抑制部と、を備える
　ことを特徴とする請求項３に記載の信号処理リソース切替装置。
　サーバと、ネットワークを介して接続された遠隔側サーバと、を備え、前記サーバがアプリケーションの特定処理を当該サーバまたは前記遠隔側サーバに配置されたアクセラレータにオフロードして演算処理する信号処理リソース切替システムであって、
　前記サーバ内または前記サーバ外に、オフロード先の計算リソースを切替える信号処理リソース切替装置を設け、
　前記信号処理リソース切替装置は、
　アプリケーションから関数名および引数を受け付け、計算リソースによる関数実行時および終了時に、アプリケーションに関数の引数データを通知する関数代理実行部と、
　アクセラレータの故障を検知するアクセラレータ故障検知部と、
　計算リソースのうち、未故障、かつ、利用可能なリソースを決定するオフロード先計算リソース決定部と、を備え、
　前記関数代理実行部は、前記オフロード先計算リソース決定部が決定した前記リソースに対してオフロードを行う
　ことを特徴とする信号処理リソース切替システム。
　複数のアクセラレータを有し、アプリケーションの特定処理を前記アクセラレータにオフロードして演算処理する際に、オフロード先の計算リソースを切替える信号処理リソース切替装置の信号処理リソース切替方法であって、
　前記信号処理リソース切替装置は、
　アプリケーションから関数名および引数を受け付け、計算リソースによる関数実行時および終了時に、前記アプリケーションに関数の引数データを通知するとともに、決定したリソースに対してオフロードを行うステップと、
　前記アクセラレータの故障を検知するステップと、
　前記計算リソースのうち、未故障、かつ、利用可能なリソースを決定するステップと、実行する
　ことを特徴とする信号処理リソース切替方法。
　サーバと、ネットワークを介して接続された遠隔側サーバと、を備え、前記サーバがアプリケーションの特定処理を当該サーバまたは前記遠隔側サーバに配置されたアクセラレータにオフロードして演算処理する信号処理リソース切替システムの信号処理リソース切替方法であって、
　前記サーバ内または前記サーバ外に、オフロード先の計算リソースを切替える信号処理リソース切替装置を設けており、
　前記信号処理リソース切替装置は、
　アプリケーションから関数名および引数を受け付け、計算リソースによる関数実行時および終了時に、アプリケーションに関数の引数データを通知するとともに、決定したリソースに対してオフロードを行うステップと、
　前記アクセラレータの故障を検知するステップと、
　前記計算リソースのうち、未故障、かつ、利用可能なリソースを決定するステップと、実行する
　ことを特徴とする信号処理リソース切替方法。
　複数のアクセラレータを有し、アプリケーションの特定処理を前記アクセラレータにオフロードして演算処理する際に、オフロード先の計算リソースを切替える信号処理リソース切替装置としてコンピュータに、
　アプリケーションから関数名および引数を受け付け、計算リソースによる関数実行時および終了時に、アプリケーションに関数の引数データを通知するとともに、決定したリソースに対してオフロードを行う関数代理実行手順、
　アクセラレータの故障を検知するアクセラレータ故障検知手順、
　前記計算リソースのうち、未故障、かつ、利用可能なリソースを決定するオフロード先計算リソース決定手順、
　を実行させるためのプログラム。