WO2018105599A1

WO2018105599A1 - 制御装置、制御方法およびプログラム記録媒体

Info

Publication number: WO2018105599A1
Application number: PCT/JP2017/043613
Authority: WO
Inventors: 小川　雅嗣; 真澄一圓; 真史江村
Original assignee: 日本電気株式会社
Priority date: 2016-12-07
Filing date: 2017-12-05
Publication date: 2018-06-14
Also published as: EP3553622B1; JPWO2018105599A1; JP7056580B2; US20190354113A1; EP3553622A1; EP3553622A4; US11163299B2

Abstract

無人機群を構成する各機が自律的に行動選択を行いながら、無人機群全体の行動を最適化することを目的とする。本発明は、他機の状態に関する情報を取得する他機情報取得手段（１１）と、他機情報取得手段から他機の状態に関する情報を取得するとともに、自機の状態に関する情報を含むセンサ信号を取得し、取得した自機および他機の情報を用いて自機が取るべき複数種類の行動に対して比較値を算出する行動比較手段（１２）と、行動比較手段が算出した複数種類の行動の比較値に基づいて自機が取るべき行動を選択する行動選択手段（１３）と、行動選択手段が選択した行動の情報と、他機情報取得手段から得られる他機の状態に関する情報とを用いて自機の動作量を算出する動作量算出手段（１４）と、動作量算出手段の算出結果を用いて自機を動作させるアクチュエータの動作設定値を設定する動作設定手段（１５）とを備える制御装置（１０）である。

Description

制御装置、制御方法およびプログラム記録媒体

　本発明は、無人機群を構成する無人機の行動を制御する制御装置、制御方法およびプログラムに関する。

　自律的に移動して部屋の掃除を行うロボットや、人間が活動しにくい環境で作業させるためのロボット、自律的に飛行するドローンなどのように、自律的に動作する無人機が多くの分野で応用されている。また、一機の無人機を自律的に動作させるだけではなく、複数の無人機を自律的に動作させる例も報告されている。

　特許文献１には、複数の自律可動式駆動ユニットと、複数の移動可能在庫トレイとを用いる物品操作システムが開示されている。

　特に、複数の無人機で探索対象を探索する技術については、防衛関連分野で盛んに研究されている。一般に、そのような無人機は、ＵｘＶ（Unmanned x Vehicle）と呼ばれる。ＵｘＶは、無人飛行機ならばＵＡＶ（Unmanned Air Vehicle）と呼ばれる。同様に、ＵｘＶは、無人船ならばＵＳＶ（Unmanned Surface Vehicle）と呼ばれ、無人水中船ならばＵＵＶ（Unmanned Undersea Vehicle）と呼ばれる。

　上記のような無人機は、遠隔から人間によって操作される集中制御型と、搭載されたプログラムにより自律的に動作する自律動作型との２種類に大別される。技術的には、人間が介在しなくても無人機に搭載されたプログラムによって自律的に動作し、人間の代わりに様々な行動や労働を行う自律動作型の無人機が望まれている。そのため、無人機が人間の代わりに作業するように動作することを求め、無人機に搭載するための人工知能の研究開発が盛んに行われている。

　特許文献２には、自律的かつ強調的に動作する複数の無人機を使用して探索対象を探索する自動探索システムについて開示されている。

　無人機を賢く動作させるためには、状況によって無人機が自律的に行動を変更することが求められる。一般に、無人機は、複数のミッション（行動とも呼ぶ）を持っていることが多く、状況によって行動を変更することが求められる。

　例えば、防衛用の無人機であれば、まずは危険物の探索を行う。無人機は、危険物を発見すると、その危険物が動く場合はその危険物の追跡し、場合によってはその危険物を捕獲する。すなわち、そのような無人機は、状況によって、探索や追跡、捕獲などの行動を適宜変更する。現状のシステムでは、遠隔で人間が行動を切り替えていることが多いが、将来的には無人機が自律的に状況判断して、自動的に行動を切り替えることが望まれる。

　特許文献３には、自列車の運行状況に応じて走行方法を自律的に変更することを可能とする列車運行制御方法について開示されている。また、特許文献４には、列車に搭載された車上装置と踏切制御装置とが無線通信を行い、列車が踏切に到達する時間や列車のブレーキパターンを予測し、予測結果に基づいて列車の走行制御パターンを算出する走行制御支援方法について開示されている。特許文献３および４の技術においては、状態遷移を予め設定し、ＩＦ－ＴＨＥＮの条件判定によって列車の行動を自動的に切り替える。

特許第４６１７２９３号公報特許第４９２６９５８号公報特許第５２７１７７２号公報特許第５５５９６７１号公報

　特許文献１および２には、単体の無人機や複数の無人機群が、自律的に単一の動作を行う技術の検討が開示されている。しかし、特許文献１および２には、無人機群が自律的に行動を切り替える技術に関しては有効な手法が開示されていない。

　特許文献３および４のように状態遷移図を用いれば、単体の無人機であれば、探索、追跡および捕獲といった行動を切り替えることはできる。しかしながら、無人機群の自律動作を実現するためには、自機の行動の切り替えと無人機群全体としての行動の切り替えとを整合させることが求められるため、無人機群に属する単独機が自律的に行動を切り替えることは難しい。例えば、無人機群の自律動作を実現するために、対象物の近くにいる無人機が追跡行動に切り替えることを自機のみで判断することはできない。なぜならば、他の無人機が自機よりも対象物に近い場合、その無人機が追跡行動を取った方が無人機群全体として効率的だからである。

　また、無人機群の複数台が対象物の追跡に当たった方がよい場合もあるが、状態遷移図を使った単純なＩＦ－ＴＨＥＮルールを用いるだけでは、無人機群に属する自機がどのように行動すればよいかを判断することはできない。すなわち、特許文献３および４のように状態遷移図を用いただけでは、無人機群として最適に行動を切り替えることができない。

　本発明の目的は、上述した課題を解決し、無人機群を構成する各機が自律的に行動選択を行いながら、無人機群全体の行動を最適化できる制御装置を提供することである。

　本願発明の一態様における制御装置は、無人機群を構成する少なくとも一機の無人機を制御する制御装置であって、他機の状態に関する情報を取得する他機情報取得手段と、他機情報取得手段から他機の状態に関する情報を取得するとともに、自機の状態に関する情報を含むセンサ信号を取得し、取得した自機および他機の情報を用いて自機が取るべき複数種類の行動に対して比較値を算出する行動比較手段と、行動比較手段が算出した複数種類の行動の比較値に基づいて自機が取るべき行動を選択する行動選択手段と、行動選択手段が選択した行動の情報と、他機情報取得手段から得られる他機の状態に関する情報とを用いて自機の動作量を算出する動作量算出手段と、動作量算出手段の算出結果を用いて自機を動作させるアクチュエータの動作設定値を設定する動作設定手段とを備える。

　本願発明の一態様における制御方法は、無人機群を構成する少なくとも一機の無人機を制御する制御方法であって、他機の状態に関する情報を取得し、自機の状態に関する情報を含むセンサ信号を取得し、取得した自機および他機の情報を用いて自機が取るべき複数種類の行動に対して比較値を算出し、算出した複数種類の行動の比較値に基づいて自機が取るべき行動を選択し、選択した行動の情報と、他機の状態に関する情報とを用いて自機の動作量を算出し、算出結果を用いて自機を動作させるアクチュエータの動作設定値を設定する。

　本願発明の一態様におけるプログラムは、無人機群を構成する少なくとも一機の無人機を制御するプログラムであって、他機の状態に関する情報を取得する処理と、自機の状態に関する情報を含むセンサ信号を取得する処理と、取得した自機および他機の情報を用いて自機が取るべき複数種類の行動に対して比較値を算出する処理と、算出した複数種類の行動の比較値に基づいて自機が取るべき行動を選択する処理と、選択した行動の情報と、他機の状態に関する情報とを用いて自機の動作量を算出する処理と、算出結果を用いて自機を動作させるアクチュエータの動作設定値を設定する処理とをコンピュータに実行させる。

　本発明によれば、無人機群を構成する各機が自律的に行動選択を行いながら、無人機群全体の行動を最適化できる制御装置を提供することが可能になる。

本発明の第１の実施形態に係る制御装置の構成を示すブロック図である。本発明の第１の実施形態に係る制御装置の適用例１について説明するための概念図である。本発明の第１の実施形態に係る制御装置の適用例１で制御される無人機群の探索状態における配置状況の一例を示す概念図である。本発明の第１の実施形態に係る制御装置の適用例１で制御される無人機群の一部が対象物を追跡する状態に移行した場合の配置状況の一例を示す概念図である。本発明の第１の実施形態に係る制御装置の適用例１で制御される無人機群の一部が対象物を追跡する状態に移行した場合の配置状況の別の一例を示す概念図である。本発明の第１の実施形態に係る制御装置の適用例２について説明するための概念図である。本発明の第２の実施形態に係る制御装置の構成を示すブロック図である。本発明の各実施形態に係る制御装置のハードウェア構成の一例を示すブロック図である。

　以下に、本発明を実施するための形態について図面を用いて説明する。ただし、以下に述べる実施形態には、本発明を実施するために技術的に好ましい限定がされているが、発明の範囲を以下に限定するものではない。なお、以下の実施形態の説明に用いる全図においては、特に理由がない限り、同様箇所には同一符号を付す。また、以下の実施形態において、同様の構成・動作に関しては繰り返しの説明を省略する場合がある。

　（第１の実施形態）
　まず、本発明の第１の実施形態に係る制御装置に関して図面を参照しながら説明する。

　本実施形態の制御装置は、無人機群を構成する無人機に対応付けて配備されるものとする。本実施形態の制御装置は、無人機群を構成する少なくとも一機の無人機を制御する。各制御装置は、対応する各機に関する情報を自機に搭載されるセンサ（図示しない）から取得し、対応しない各機に関する情報を他機との通信によって取得する。

　なお、本実施形態の制御装置は、単一の無人機ではなく、複数の無人機に対応するように配備されてもよい。例えば、制御装置による処理を複数の無人機に対して時分割し、逐次的に処理を実行することによって、単一の制御装置で複数の無人機に対応できる。また、例えば、制御装置による処理を複数の演算装置で分担させ、並列処理を実行することによって、単一の制御装置で複数の無人機に対応できる。

　本実施形態の制御装置は、自機に搭載されたセンサから自機の情報を取得するとともに、他機との通信によって他機の情報を取得し、取得した自機および他機の情報を用いて自機の動作量を算出する。

　図１は、本実施形態の制御装置１０の構成を示すブロック図である。図１のように、制御装置１０は、他機情報取得手段１１、行動比較手段１２、行動選択手段１３、動作量算出手段１４、動作設定手段１５を備える。

　他機情報取得手段１１は、自機の近傍に位置する通信可能な他機から、他機の状態に関する情報を取得する。なお、本実施形態において、近傍とは、自機の周辺の所定範囲内を意味する。各機の他機情報取得手段１１は、近傍（所定範囲内）に位置する他機を通信し合いながらお互いの情報を送受信し合う。所定範囲は、円や球などで外周が規定される空間内に設定されてもよいし、外周が変形可能な空間内に設定されてもよい。

　具体的には、他機情報取得手段１１は、複数の無人機全体の行動に関する評価値（これ以降、評価関数と呼ぶ）、あるいは評価関数に付随する情報を取得する。評価関数は、無人機全体の行動目的に関する量でもあり、複数種類の行動ごとに設定される関数である。なお、複数種類の行動とは、例えば、探索対象の探索や追跡、捕獲、他機との通信状況の改善などを示す。ただし、無人機の行動は、ここで挙げた限りではなく、無人機の使用条件に合わせて設定できる。

　行動比較手段１２は、自機の位置情報や速度、動作設定値などの自機の状態に関するセンサ信号をセンサから取得する。行動比較手段１２は、取得したセンサ信号と、自機に設定された設定値と、他機情報取得手段１１で取得された他の無人機の状態に関する情報とを用いて、自機が取るべき複数の行動に対して比較値を算出する。以下の例では、行動比較手段１２が、各機に設定された評価関数値に基づく評価関数改善度を比較値として算出する例を示す。

　例えば、行動比較手段１２は、自機が取るべき複数の行動（Ｎ：行動の番号）ごとに、自機の動作量に対する評価関数Ａ（Ｎ）と、近傍に位置する他機の状態に関する情報から算出された近傍に位置する他機の動作量に対する評価関数Ｂ（Ｎ）とを作成する。そして、行動比較手段１２は、評価関数Ａ（Ｎ）と評価関数Ｂ（Ｎ）とを用いて、無人機が行動Ｎを取ったときの評価関数改善度Ｆ（Ｎ）を算出する。なお、自機の動作量に対する評価関数Ａ（Ｎ）を第１の評価関数とも呼び、近傍に位置する他機の動作量に対する評価関数Ｂ（Ｎ）を第２の評価関数とも呼ぶ。

　一般に、評価関数Ａ（Ｎ）および評価関数Ｂ（Ｎ）は、無人機において制御したい量の関数である。本実施形態では、評価関数Ａ（Ｎ）および評価関数Ｂ（Ｎ）として無人機の動作量の関数を想定している。

　評価関数改善度Ｆ（Ｎ）は、例えば、自機の値を基準として、評価関数の値の差や評価関数の微分の差を算出することで得られる。本実施形態では、評価関数改善度Ｆ（Ｎ）を求める際に、評価関数の微分を使用する例を示す。評価関数の微分を用いる場合、評価関数の絶対値に関わらず、評価関数の改善余地をより直接的に評価できる。

　行動選択手段１３は、行動比較手段１２が算出した複数種類の行動の比較値に基づいて自機が取るべき行動を選択する。行動選択手段１３の最も簡単な機能は、比較値の大小関係から行動を選択するというものである。本実施形態において、行動選択手段１３は、評価関数改善度Ｆ（Ｎ）が最も大きい行動を選択する。

　行動選択手段１３は、評価関数改善度Ｆ（Ｎ）を比較する以外の方法を用いて行動を選択してもよい。例えば、行動選択手段１３は、各行動の比較値に重みを掛けた後に比較して行動を選択してもよい。また、行動選択手段１３は、他の行動との相関がある場合、他の行動の値を用いた演算式を作成した上で比較を行ってもよい。すなわち、行動選択手段１３は、自機が取りうる行動を何らかの指標を用いて比較して行動を選択する。

　動作量算出手段１４は、行動選択手段１３が選択した自機の行動に関する情報と、他機情報取得手段１１から得られる他機の状態に関する情報とを用いて自機の動作量を算出する。

　例えば、動作量算出手段１４は、各行動に対して何らかのルールを設定しておき、行動選択手段１３が選択した行動に対するルールを発動する。本実施形態においては、選択された行動に対し、単体の無人機の動作量（行動量ともよぶ）ではなく、無人機群として動作量を決める必要がある。したがって、動作量算出手段１４は、他機情報取得手段１１が得た他機の状態に関する情報を使用して、選択された行動に対する動作量を決定する。

　動作量算出手段１４は、評価関数を用いて動作量を決定する。評価関数は、無人機の状態を表す情報とみなすことができ、無人機の群としての行動規範（群の目的とも呼ぶ）の指標になり得る。そのため、本実施形態の手法によれば、群としての行動を最適化できる。

　動作設定手段１５は、動作量算出手段１４の算出結果を用いて、自機を動作させるアクチュエータ（図示しない）の動作設定値を設定する。

　〔動作量算出処理〕
　ここで、無人機の行動が探索または追跡である場合において、動作量算出手段１４が具体的な処理を行う例に関して説明する。探索理論を用いると、探索確率の最大化により、探索行動および追跡行動の評価関数を設定できる。これは、複数の無人機全体の目的を探索対象の探索確率として無人機群を制御し、評価関数値を最大化する制御を行うことと等価である。なお、複数の無人機全体の目的は、無人機群全体で最大化したい価値であり、評価関数値で表される。

　探索対象の存在確率密度は、以下の式１で表される。

　式１において、ｘ、ｙ、ｚは任意の位置座標を表し、ｘ_ｔ、ｙ_ｔ、ｚ_ｔは探索対象の位置座標を表す。

　探索に関する評価関数としては、無人機群が行動するエリア（以下、行動エリア）を無人機の数でサブエリアに分割する。無人機ごとに分割されたサブエリアの中央をピークとし、サブエリアの周辺に向けて存在確率密度が小さくなっていく形状のモデルを用いる。行動エリア全体としては、上に凸の山が複数存在するような形の評価関数となる。すなわち、行動比較手段１２は、凸型の特性を持つ評価関数（第１および第２の評価関数）を算出する。そして、動作量算出手段１４は、行動比較手段１２が算出した凸型の特性を持つ評価関数を用いて動作量を算出する。このような評価関数を設定することによって、無人機が行動エリア全体に満遍なく広がる行動が可能となり、行動エリア全体で探索を行うことができる。

　一方、追跡に関する評価関数としては、直近に発見された探索対象の位置をピークにし、その探索対象の位置から離れるほど存在確率密度が小さくなっていく形状のモデルを用いる。このように関数を設定すれば、無人機の行動が追跡になる。

　また、各無人機が探索対象を発見する確率（以下、発見確率）を式２で表す。

　ここで、φ_iは、無人機iに与えられた探索努力である。なお、探索努力は、動作量ととらえてもよい。

　発見確率は、各無人機が存在する環境によって変わってくることが多い。例えば、海中でソナーにより探索物を発見するような場合の発見確率は、式３で表されることが知られている。

　式３において、γ_iは電波伝搬に依存する量である。つまり、無人機が存在する空間の媒質によって変わる量である。式３の係数としては、無人機の存在する環境にふさわしい値を常に用いることが望ましい。

　各無人機における探索対象の探索確率は、以下の式４のように、探索対象の存在確率密度と、無人機の発見確率との積で表すことができる。なお、式４において、ｘ_i、ｙ_i、ｚ_iは無人機iの位置座標を示す。

　したがって、複数の無人機全体での探索確率（全体探索確率とも呼ぶ）は、以下の式５で表される。

　無人機のエネルギーを考えれば、探索努力は有限と考えるべきである。したがって、全体探索確率は、無人機群全体に投入する既定の探索努力に対して最大化することになる。つまり、有限の探索努力に対して、できるだけ探索確率を大きくする。本実施形態においては、単位時間当たりに無人機群全体に投入する探索努力Ψを設定し、設定した探索努力Ψに基づいて探索確率を最大化する。

　動作量算出手段１４は、以下の式６で表す探索努力Ψに対する制約条件の下で、式５の全体探索確率を最大化する最適化問題を解くことによって自機の動作量を決定する。

　動作量算出手段１４は、探索行動が選択された場合、上述のような限りがある全探索努力の中、いずれの無人機をどれだけ動かせば、複数の無人機全体の探索確率を最大にできるかを勘案して、各機の動作量を決定する。すなわち、動作量算出手段１４は、単位時間当たりに各機に投入する探索努力の総和が、単位時間当たりに無人機群全体に投入する探索努力と等しくなるという制約条件の下で最適化問題を解くことによって自機の動作量を決定する。

　したがって、上述の例の場合、複数の無人機全体の目的に関する評価値は式４の値になる。また、その他に使用する状態の情報は、探索対象の位置情報や無人機の位置情報、探索努力などである。動作量算出手段１４は、上記のような定式化を行った上で、動作量を設定するために以下の手順を用いる。

　すなわち、動作量算出手段１４は、単位探索努力あたりの探索確率が最も大きくなるように、近傍に位置する他機の評価関数の状態を勘案して自機の動作量を決定する。

　例えば、動作量算出手段１４は、単位探索努力を投入した場合、近傍の他機よりも自機の方が探索確率の増分が大きいならば、次の制御ステップでは単位探索努力を自機に投入すると決める。逆に、動作量算出手段１４は、近傍の無人機よりも自機の探索確率の増分が小さいならば、次の制御ステップでは探索努力を自機に投入しないと決める。すなわち、動作量算出手段１４は、近傍の他機よりも自機の方が探索確率の増分が大きい場合は動作し、近傍の他機よりも自機の探索確率の増分が小さい場合は動作しないことになる。

　単位探索努力あたりの探索確率とは、評価関数の微分と等価である。したがって、単位探索努力あたりの探索確率が最も上がるように動作量を決めることは、その操作を繰り返すと評価関数の微分が全ての無人機で等しくなってくる。すなわち、評価関数の微分を等しくするように動作量を決めることも有効である。

　上述のような手順によれば、ある無人機が自機の動作量を決定するときに、無人機群を構成する全ての無人機の状態情報を取る必要がなく、隣接する無人機の状態情報だけを用いて全体目的に近い動作量を決定できる。無人機の制御の場合、動作設定値は、スカラー量ではなく、３次元的な方向を持つベクトル量で設定する必要がある。したがって、動作設定手段１５は、上述の手順で決めた動作量を３次元方向の出力に振り分け、最終的な動作設定値にする。

　動作設定手段１５は、以下のような手順で動作方向を決定する。すなわち、動作設定手段１５は、無人機の現在位置を始点とし、その始点と探索対象の位置を結ぶベクトルを作成する。そして、動作設定手段１５は、後々の処理のために、作成したベクトルを単位ベクトル化（長さが１のベクトルに規格化）し、この単位ベクトルを動作ベクトルとする。動作ベクトルの長さを先ほど決定した動作量とすれば、各方向の動作設定値が求められる。

　無人機の行動があるエリアの探索、またはある対象を追跡する場合の動作決定手法については上述した通りである。その他に考えられる行動としては、ある無人機が対象物を捕獲する、他の無人機との通信が途切れないように通信状況を改善するなどが挙げられる。このような各種行動に対して、探索行動で定式化したように評価関数を設定し、行動が選択された場合、上述の流れと同様に動作設定値を決める手順を実行させる。

　参考として、通信状況を改善する場合、どれだけの数の近傍に位置する他機と通信可能であるかを評価関数として設定する例を挙げる。この場合、通信可能な他機が多いほど値が大きくなるような評価関数を設定すればよい。

　例えば、自機と通信可能な他機の数をｍ_ｉとする（iは自機の番号）。このとき、評価関数ｈ_iは、以下の式７のようなものが考えられる。なお、α_iは係数である。

　動作量算出手段１４により、各機には最適な行動に割り振られ、かつ同じ行動に割り振られた他機と、割り振られた行動を群として最適化して動作することができる。

　動作量算出手段１４で算出された無人機の動作量は、動作設定手段１５によって実際に無人機を動かすアクチュエータへの動作設定値に変換される。その結果、無人機は、動作量算出手段１４が想定した動作を実施できる。

　以上のように、本実施形態によれば、無人機群に属する各機が自律的に行動選択を行いながら、無人機群全体の行動を最適化できる。すなわち、本実施形態によれば、複数の無人機を協調動作させて、効率的なフォーメーションで無人機群を行動させたり、探索対象を効率的に探索させたりできる。

　（適用例）
　ここで、本実施形態の制御装置１０について適用例を挙げて説明する。以下においては、複数の無人機が探索対象の探索と追跡という２種類の行動を切り替えながら、探索確率に基づいて探索と追跡の効率を最大化していく例を、図面を参照しながら詳細に説明する。

　〔適用例１〕
　図２は、適用例１のシステムについて説明するための概念図である。適用例１では、実空間で動作する複数の無人機２０を管理する中央管理システム１をクラウド上に構築する。図２の例では、本実施形態の制御装置１０を複数搭載する中央管理システム１によって複数の無人機２０を管理する例を示す。なお、本適用例では、上述の制御装置１０に関する手順を用いる。

　本適用例では、空中を自律動作し、レーダーで探索対象を探索する無人機２０（ＵＡＶ：Unmanned Air Vehicle）を用いる例を示す。なお、ＵＳＶ（Unmanned Surface Vehicle）やＵＵＶ（Unmanned Undersea Vehicle）に本適用例を用いてもよい。

　本適用例においては、各無人機２０に対応する制御装置１０がバーチャルにクラウド上に配備される。そして、あたかも無人機２０が近傍の無人機２０と情報交換するように、各制御装置１０が近傍の無人機２０に対応するバーチャルな制御装置１０と情報交換しながら、自機に対応する無人機２０に制御指示を出す。

　本適用例において、無人機２０の行動は、行動エリアにおける探索対象の探索と、行動エリアで発見した探索対象の追跡との２種類である。

　本適用例で使用する評価関数には、上述の式４と同じものを設定する。探索行動の場合、無人機群が行動する行動エリアを無人機２０の数で分割し、分割されたサブエリアの中央を頂点として周辺に向けて存在確率密度が下がっていく複数のガウシアン型の山で構成されるモデルを用いる。探索対象の追跡行動の場合、探索対象が直近で発見された位置を頂点とし、頂点から離れるほど存在確率密度が減っていくガウシアン型の関数を用いる。また、各無人機２０の発見確率ｐ_iは、式３によって求める。

　無人機２０が存在する空域によって、式３のγ_ｉは異なる。したがって、本実施形態では、空域ごとのγ_ｉを予めデータベース化しておき、無人機２０が存在する位置情報に基づいてγ_ｉを変える手法を採用する。

　他機情報取得手段１１は、行動比較手段１２、動作量算出手段１４が用いる付随情報として、各無人機２０が捕捉したターゲットの位置情報、自機の位置情報を適宜アップロードする。各無人機２０は、互いに非同期で動作しており、アップロードされる情報も非同期となる。したがって、本適用例では、クラウド上に中央管理システム１があるといっても、全ての情報が同期して中央管理システム１に集まらないため、探索確率に関する通常の最適化計算を行うことができない。そのため、本適用例では、第１の実施形態に関して説明してきた手順を用いて無人機群を全体最適する。

　図３～図５は、実際の無人機２０の動作を時系列で並べた概念図である。図３が時刻ｔ₁、図４が時刻ｔ₂、図５が時刻ｔ₃におけるスナップショットである。ただし、時間は、時刻ｔ₁、時刻ｔ₂、時刻ｔ₃の順に進むものとする。行動エリア１００は、無人機２０が行動をするべき空間である。なお、図３～図５においては、行動エリア１００を二次元的に図示しているが、行動エリア１００は実際には三次元的な広がりを有する。

　時刻ｔ₁のスナップショット（図３）は、探索対象が未だ検知されていない状態を示す。時刻ｔ₁の状態では、行動エリア１００全体に無人機２０が均等に散らばって探索行動を行っている。

　時刻ｔ₂のスナップショット（図４）は、時刻ｔ₁から時間が経過して探索対象３００が発見され、探索対象３００の周辺の無人機２０が探索から追跡に行動を変化させる状態を示す。時刻ｔ₂の状態では、破線の閉曲線で囲んだ追跡領域２００内の無人機２０が追跡行動に切り替えている。時刻ｔ₂の状態では、追跡領域２００内に位置する複数の無人機２０が探索対象３００を取り囲むように追跡行動を行っている。追跡領域２００の外の無人機２０は、時刻ｔ₁と同様に、行動エリア１００の探索を引き続き行っており、探索対象３００から離れた位置では、ほぼ均等に無人機２０が展開している。

　時刻ｔ₃のスナップショット（図５）は、探索対象３００の動きに合わせて、時刻ｔ₂と比べて、探索から追跡に行動を変える無人機２０が増えている状態を示す。

　ここで、適用例１に関して、無人機群がどの程度適切に動作するのかを評価する方法を示す。本評価において、動作量算出手段１４は、探索対象３００による追跡の探索確率を効率的に上昇させるようにして各無人機２０の動作量を決定する。

　本評価では、動作量算出手段１４が行う動作量の算出を故意に停止させて一定量動作するようにした比較例による動作と、本適用例による動作とに関して、単位探索努力あたりの全体探索確率を比較する。原理上、探索確率は、探索努力を投入すればするほど大きくなる特性を持っているので、投入した探索努力あたり（単位探索努力あたり）の探索確率の値を比較する必要がある。

　比較例においては、動作量算出手段１４による動作量の算出を停止した場合、全ての無人機２０が探索対象３００に一定量で徐々に近づいていくように動作する。一方、本適用例においては、追跡領域２００内に位置する無人機２０が探索対象３００を追跡する。

　本評価の結果、比較例と比べると、本適用例の方が、単位探索努力あたりの全体探索確率が平均して３０％程度高くなる結果が得られる。これは、本適用例の手法によれば、効率的に探索対象３００を追跡できることを意味する。

　以上のように、本適用例の手法によれば、クラウドに配備した中央管理システムを介して、状況に応じて群としての行動を適切に切り替え、群として複数の行動を適切に行うことができる。

　〔適用例２〕
　図６は、適用例２のシステムについて説明するための概念図である。本適用例では、各無人機２０に制御装置１０を搭載する。なお、図６においては、無人機２０に搭載される制御装置１０については省略している。

　本適用例では、各無人機２０が近傍に位置する通信可能な無人機２０と情報交換し、自機に搭載された制御装置１０の制御を受けて自律分散的に行動する。また、本適用例では、無人機群が動作するフィールドから情報が取りにくく、無人機群に自律分散的な動作を期待しなくてはならないケースに相当する。また、本適用例は、中央管理システム１を想定することが難しいケース、あるいは中央管理システム１が機能しなくなってしまったケースに相当する。

　本適用例で使用する無人機２０や評価関数などの条件は、全て適用例１と同様である。本適用例は、中央管理システムで情報を一括して管理しない点で適用例１とは異なる。

　他機情報取得手段１１は、無人機２０に搭載されており、探索対象３００に関する情報を近傍に位置する他機との間で交換する。

　本適用例についても、適用例１と同様に、探索対象３００を探索し、探索対象３００を発見した際に行動を追跡に切り替える評価を行った。その結果、適用例１と同様の評価結果が得られた。

　また、本評価においても、適用例１と同様に、動作量算出手段１４による動作量の算出を故意に停止させて一定量動作するようにした比較例による動作と、本適用例による動作とに関して、単位探索努力あたりの全体探索確率を比較した。二つの例を評価した結果、適用例１と同様に、本適用例の方が、比較例よりも単位探索努力あたりの全体探索確率が３０％高くなる結果が得られた。

　以上のように、本適用例の手法によれば、本実施形態の制御装置を各無人機に搭載して制御を行っても、適用例１と同様の効果が得られる。

　上述の適用例１では、クラウドに中央管理システムを実装するケースを示したが、中央管理システムを特別なシステムとして構築してもよい。例えば、中央管理システムが配備された管理センターを設置し、その管理センターを介して無人機を制御するようにしてもよい。例えば、中央管理システムが配備された管理センターを海岸に設置し、複数の無人水中船（ＵＵＶ：Unmanned Undersea Vehicle）や無人船（ＵＳＶ：Unmanned Surface Vehicle）を制御するようにしてもよい。また、例えば、中央管理システムが配備された母船から複数のＵＵＶやＵＳＶを制御するようにしてもよい。また、例えば、本実施形態の制御装置は、ＵＡＶやＵＵＶ、ＵＳＶに限らず、飛行機型の無人機や、陸上を走行する無人機など、任意の無人機に適用できる。

　また、上述の適用例では、発見した探索対象を追跡する際に、探索確率を最大化するように制御したが、目的や最大化する価値は探索確率に限らず、適宜変更可能である。例えば、本実施形態の手法は、無人機に無線機を搭載し、所望の転送レートで最も広範囲に情報が送れるように無人機にフォーメーションを組ませる制御にも使用できる。すなわち、本実施形態の手法は、複数の無人機にある目的を持たせ、ある価値を最大化するような応用に関して適用可能である。また、本実施形態においては、探索と追跡をいう二種類の行動を取る例について説明してきたが、三種類以上の行動に関して適用してもよい。

　（第２の実施形態）
　次に、本発明の第２の実施形態に係る制御装置について図面を参照しながら説明する。図７は、本実施形態に係る制御装置１０－２の構成を示すブロック図である。図７のように、本実施形態の制御装置１０－２は、他機情報取得手段１１、行動比較手段１２、行動選択手段１３、動作量算出手段１４、動作設定手段１５に加えて、対象位置予測手段１６を備える。なお、制御装置１０－２は、対象位置予測手段１６以外の構成については第１の実施形態の制御装置１０と同様である。

　対象位置予測手段１６は、他機情報取得手段１１から他機によって発見された探索対象に関する情報を取得し、探索対象が直近に発見された位置から、現時点における探索対象の位置を予測する。なお、対象位置予測手段１６は、自機に搭載されたセンサによって発見された探索対象に関する情報から現時点における探索対象の位置を予測してもよいし、自機および他機によって取得された情報を合わせて探索対象の位置を予測してもよい。対象位置予測手段１６は、予測した探索対象の位置を動作量算出手段１４に出力する。

　動作量算出手段１４は、対象位置予測手段１６が予測した位置に探索対象が存在するものとして存在確率密度を予測し、第１の実施形態と同様に自機の動作量を算出する。

　以上のように、本実施形態によれば、現時点における探索対象の位置に基づいて自機の動作量を算出できるため、より現実に即して効率的に無人機群全体の行動を最適化できる。

　（ハードウェア）
　ここで、本実施形態に係る制御装置の制御系統を実現するハードウェア構成について、図８のコンピュータ９０を一例として挙げて説明する。なお、図８のコンピュータ９０は、各実施形態の制御装置を実現するための構成例であって、本発明の範囲を限定するものではない。

　図８のように、コンピュータ９０は、プロセッサ９１、主記憶装置９２、補助記憶装置９３、入出力インターフェース９５および通信インターフェース９６を備える。図８においては、インターフェースをＩ／Ｆ（Interface）と略して表記している。プロセッサ９１、主記憶装置９２、補助記憶装置９３、入出力インターフェース９５および通信インターフェース９６は、バス９９を介して互いにデータ通信可能に接続される。また、プロセッサ９１、主記憶装置９２、補助記憶装置９３および入出力インターフェース９５は、通信インターフェース９６を介して、インターネットやイントラネットなどのネットワークに接続される。例えば、コンピュータ９０は、ネットワークを介してクラウドに配置されたシステムや装置、無人機に接続される。

　プロセッサ９１は、補助記憶装置９３等に格納されたプログラムを主記憶装置９２に展開し、展開されたプログラムを実行する。本実施形態においては、コンピュータ９０にインストールされたソフトウェアプログラムを用いる構成とすればよい。プロセッサ９１は、本実施形態に係る制御装置が実行する演算処理や制御処理を実行する。

　主記憶装置９２は、プログラムが展開される領域を有する。主記憶装置９２は、例えばＤＲＡＭ（Dynamic Random Access Memory）などの揮発性メモリとすればよい。また、ＭＲＡＭ（Magnetoresistive Random Access Memory）などの不揮発性メモリを主記憶装置９２として構成・追加してもよい。

　補助記憶装置９３は、種々のデータを記憶する手段である。補助記憶装置９３は、ハードディスクやフラッシュメモリなどのローカルディスクによって構成される。なお、種々のデータを主記憶装置９２に記憶させる構成とし、補助記憶装置９３を省略することも可能である。

　入出力インターフェース９５は、コンピュータ９０と周辺機器との接続規格に基づいて、コンピュータ９０と周辺機器とを接続する装置である。通信インターフェース９６は、規格や仕様に基づいて、インターネットやイントラネットなどのネットワークに接続するためのインターフェースである。入出力インターフェース９５および通信インターフェース９６は、外部機器と接続するインターフェースとして共通化してもよい。

　コンピュータ９０には、必要に応じて、キーボードやマウス、タッチパネルなどの入力機器を接続できるように構成してもよい。それらの入力機器は、情報や設定の入力に使用される。なお、タッチパネルを入力機器として用いる場合は、表示機器の表示画面が入力機器のインターフェースを兼ねる構成とすればよい。プロセッサ９１と入力機器との間のデータ通信は、入出力インターフェース９５に仲介させればよい。

　通信インターフェース９６は、ネットワークを通じて、外部のシステムや装置、無人機に接続される。

　また、コンピュータ９０には、情報を表示するための表示機器を備え付けてもよい。表示機器を備え付ける場合、コンピュータ９０には、表示機器の表示を制御するための表示制御装置（図示しない）が備えられていることが好ましい。表示機器は、入出力インターフェース９５を介してコンピュータ９０に接続すればよい。

　また、コンピュータ９０には、必要に応じて、リーダライタを備え付けてもよい。リーダライタは、バス９９に接続される。リーダライタは、プロセッサ９１と図示しない記録媒体（プログラム記録媒体）との間で、記録媒体からのデータ・プログラムの読み出し、コンピュータ９０の処理結果の記録媒体への書き込みなどを仲介する。記録媒体は、例えばＳＤ（Secure Digital）カードやＵＳＢ（Universal Serial Bus）メモリなどの半導体記録媒体などで実現できる。また、記録媒体は、フレキシブルディスクなどの磁気記録媒体、ＣＤ（Compact Disc）やＤＶＤ（Digital Versatile Disc）などの光学記録媒体やその他の記録媒体によって実現してもよい。

　以上が、本発明の実施形態に係る制御装置を可能とするためのハードウェア構成の一例である。なお、図８のハードウェア構成は、本実施形態に係る制御装置を可能とするためのハードウェア構成の一例であって、本発明の範囲を限定するものではない。また、本実施形態に係る制御装置に関する処理をコンピュータに実行させる制御プログラムも本発明の範囲に含まれる。さらに、本発明の実施形態に係る制御プログラムを記録したプログラム記録媒体も本発明の範囲に含まれる。

　以上、実施形態を参照して本発明を説明してきたが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　この出願は、２０１６年１２月７日に出願された日本出願特願２０１６－２３７８４０を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　１０　　制御装置
　１１　　他機情報取得手段
　１２　　行動比較手段
　１３　　行動選択手段
　１４　　動作量算出手段
　１５　　動作設定手段
　１６　　対象位置予測手段
　２０　　無人機

Claims

　無人機群を構成する少なくとも一機の無人機を制御する制御装置であって、
　他機の状態に関する情報を取得する他機情報取得手段と、
　前記他機情報取得手段から前記他機の状態に関する情報を取得するとともに、自機の状態に関する情報を含むセンサ信号を取得し、取得した前記自機および前記他機の情報を用いて前記自機が取るべき複数種類の行動に対して比較値を算出する行動比較手段と、
　前記行動比較手段が算出した複数種類の行動の前記比較値に基づいて前記自機が取るべき行動を選択する行動選択手段と、
　前記行動選択手段が選択した行動の情報と、前記他機情報取得手段から得られる前記他機の状態に関する情報とを用いて前記自機の動作量を算出する動作量算出手段と、
　前記動作量算出手段の算出した前記自機の前記動作量を用いて前記自機を動作させるアクチュエータの動作設定値を設定する動作設定手段とを備える制御装置。
　前記行動比較手段は、
　前記自機が取るべき複数種類の行動それぞれに対して、前記自機の状態に関する情報から前記自機の前記動作量に対する第１の評価関数を作成するとともに、前記他機の状態に対する情報から前記他機の前記動作量に関する第２の評価関数を作成し、前記第１の評価関数および前記第２の評価関数から前記自機が取るべき複数種類の行動を取ったときの評価関数改善度を前記比較値として算出し、
　前記行動選択手段は、
　前記行動比較手段が前記自機が取るべき複数行動ごとに算出した前記評価関数改善度を相互に比較することによって前記自機が取るべき行動を選択する請求項１に記載の制御装置。
　前記行動比較手段は、
　前記第１の評価関数の微分値と前記第２の評価関数の微分値との差を用いて前記評価関数改善度を算出する請求項２に記載の制御装置。
　前記行動比較手段は、
　凸型の特性を持つ前記第１および第２の評価関数を算出し、
　前記動作量算出手段は、
　前記行動比較手段が作成した凸型の特性を持つ前記第１および第２の評価関数を用いて前記自機の前記動作量を算出する請求項２に記載の制御装置。
　前記動作量算出手段は、
　前記無人機群を構成する全ての前記無人機について、前記無人機群を構成する前記無人機のそれぞれが探索対象を発見する確率と、それぞれの前記無人機の位置における前記探索対象の存在確率密度との積である探索確率とを合計した全体探索確率を最大化する最適化問題を解くことによって前記自機の前記動作量を算出する請求項２に記載の制御装置。
　前記動作量算出手段は、
　単位時間当たりに前記無人機のそれぞれに投入する探索努力の総和が、単位時間当たりに前記無人機群の全体に投入する前記探索努力と等しくなるという制約条件の下で前記最適化問題を解く請求項５に記載の制御装置。
　前記動作設定手段は、
　前記他機よりも前記自機の方が前記探索確率の増分が大きい場合は、前記動作量算出手段によって算出された前記動作量に基づいて前記動作設定値を設定し、
　前記他機よりも前記自機の前記探索確率の増分が小さい場合は、前記動作設定値を設定しない請求項５または６に記載の制御装置。
　前記探索対象が直近に発見された位置から現時点における前記探索対象の位置を予測する対象位置予測手段を備え、
　前記動作量算出手段は、
　前記対象位置予測手段が予測した位置に前記探索対象が存在するものとして前記自機の前記動作量を算出する請求項７に記載の制御装置。
　無人機群を構成する少なくとも一機の無人機を制御する制御方法であって、
　他機の状態に関する情報を取得し、
　自機の状態に関する情報を含むセンサ信号を取得し、
　取得した前記自機および前記他機の情報を用いて前記自機が取るべき複数種類の行動に対して比較値を算出し、
　算出した複数種類の行動の比較値に基づいて前記自機が取るべき行動を選択し、
　選択した行動の情報と、前記他機の状態に関する情報とを用いて前記自機の動作量を算出し、
　算出結果を用いて前記自機を動作させるアクチュエータの動作設定値を設定する制御方法。
　無人機群を構成する少なくとも一機の無人機を制御するプログラムであって、
　他機の状態に関する情報を取得する処理と、
　自機の状態に関する情報を含むセンサ信号を取得する処理と、
　取得した前記自機および前記他機の情報を用いて前記自機が取るべき複数種類の行動に対して比較値を算出する処理と、
　算出した複数種類の行動の比較値に基づいて前記自機が取るべき行動を選択する処理と、
　選択した行動の情報と、前記他機の状態に関する情報とを用いて前記自機の動作量を算出する処理と、
　算出結果を用いて前記自機を動作させるアクチュエータの動作設定値を設定する処理とをコンピュータに実行させるプログラムを記録するプログラム記録媒体。