WO2020194664A1

WO2020194664A1 - トラッキング装置、学習済モデル、内視鏡システム及びトラッキング方法

Info

Publication number: WO2020194664A1
Application number: PCT/JP2019/013607
Authority: WO
Inventors: 真人石掛
Original assignee: オリンパス株式会社
Priority date: 2019-03-28
Filing date: 2019-03-28
Publication date: 2020-10-01
Also published as: US11790537B2; US20210174518A1; JPWO2020194664A1; JP7105370B2

Abstract

トラッキング装置（２００）は、複数のフレームを含む動画について、開始フレームと終了フレームを設定するフレーム設定部（２１０）と、開始フレームにおけるトラッキング対象の領域に基づいて、開始フレーム以降のフレームについて順方向トラッキングを行う順方向トラッキング部（２２０）と、終了フレームにおけるトラッキング対象の領域に基づいて、終了フレーム以前のフレームについて逆方向トラッキングを行う逆方向トラッキング部（２３０）と、順方向トラッキングに基づく順方向マスク画像と、逆方向トラッキングに基づく逆方向マスク画像とを合成することによって、合成マスク画像を生成するトラッキング結果合成部（２４０）と、を含む。

Description

トラッキング装置、学習済モデル、内視鏡システム及びトラッキング方法

　本発明は、トラッキング装置、学習済モデル、内視鏡システム及びトラッキング方法等に関する。

　従来、動画に含まれる各フレーム画像において、指定された対象が画像上のどの位置に存在するかを推定する手法が知られている。以下、この手法をトラッキングと表記し、指定された対象をトラッキング対象と表記する。トラッキングとは、複数のフレーム画像間において、トラッキング対象がどのように移動したかを追跡する手法と言い換えることが可能である。

　例えば特許文献１には、診断動画中の指定部位の座標を順方向、逆方向にトラッキングした後、トラッキングした座標を合算する手法が開示されている。

特開２００５－１６０６８８号公報

　特許文献１の手法においては、指定部位を代表する１点の座標をトラッキングする。そのため、指定部位を領域としてトラッキングできない。結果として、例えば時間経過によって指定部位の大きさが変化した場合に、領域の大きさ変化をトラッキングできない。

　本開示の一態様は、複数のフレームを含む動画について、開始フレームと終了フレームを設定するフレーム設定部と、前記開始フレームにおけるトラッキング対象の領域に基づいて、前記開始フレーム以降のフレームについて、順方向に前記トラッキング対象をトラッキングする順方向トラッキングを行う順方向トラッキング部と、前記終了フレームにおける前記トラッキング対象の領域に基づいて、前記終了フレーム以前のフレームについて、逆方向に前記トラッキング対象をトラッキングする逆方向トラッキングを行う逆方向トラッキング部と、前記順方向トラッキングと前記逆方向トラッキングがそれぞれ行われたフレームについて、前記順方向トラッキングに基づく順方向マスク画像と、前記逆方向トラッキングに基づく逆方向マスク画像とを合成することによって、前記トラッキング対象の領域を示す合成マスク画像を生成するトラッキング結果合成部と、を含むトラッキング装置に関係する。

　本開示の他の態様は、検出用画像を入力として受け付け、前記検出用画像から所与の被写体の位置を検出する処理を行い、検出結果を出力するよう、コンピュータを機能させるための学習済みモデルであって、複数のフレームを含む動画について、開始フレームと終了フレームを設定する工程と、前記開始フレームにおけるトラッキング対象の領域に基づいて、前記開始フレーム以降のフレームについて、順方向に前記トラッキング対象をトラッキングする順方向トラッキングを行う工程と、前記終了フレームにおける前記トラッキング対象の領域に基づいて、前記終了フレーム以前のフレームについて、逆方向に前記トラッキング対象をトラッキングする逆方向トラッキングを行う工程と、前記順方向トラッキングと前記逆方向トラッキングがそれぞれ行われたフレームについて、前記順方向トラッキングに基づく順方向マスク画像と、前記逆方向トラッキングに基づく逆方向マスク画像とを合成することによって、前記トラッキング対象の領域を示す合成マスク画像を生成する工程と、によって生成された前記合成マスク画像が、前記動画に含まれる複数の前記フレームの各フレームの画像に対応付けられた訓練データに基づいて、機械学習されている学習済モデルに関係する。

　本開示の他の態様は、上記の学習済モデルを記憶する記憶部と、前記検出用画像を撮像する内視鏡スコープと、前記学習済モデルに基づいて、前記検出用画像から前記所与の被写体の位置を検出する処理を行う処理部と、を含む内視鏡システムに関係する。

　本開示の他の態様は、複数のフレームを含む動画について、開始フレームと終了フレームを設定する工程と、前記開始フレームにおけるトラッキング対象の領域に基づいて、前記開始フレーム以降のフレームについて、順方向に前記トラッキング対象をトラッキングする順方向トラッキングを行う工程と、前記終了フレームにおける前記トラッキング対象の領域に基づいて、前記終了フレーム以前のフレームについて、逆方向に前記トラッキング対象をトラッキングする逆方向トラッキングを行う工程と、前記順方向トラッキングと前記逆方向トラッキングがそれぞれ行われたフレームについて、前記順方向トラッキングに基づく順方向マスク画像と、前記逆方向トラッキングに基づく逆方向マスク画像とを合成することによって、前記トラッキング対象の領域を示す合成マスク画像を生成する工程と、を含むトラッキング方法に関係する。

トラッキング装置の構成例。トラッキング装置における処理手順を示すフローチャート。順方向マスク画像、逆方向マスク画像、及び合成マスク画像の例。図４（Ａ）～図４（Ｃ）は重み情報である重み付け係数の例。順方向トラッキング部の構成例。トラッキングの処理手順を示すフローチャート。タグ領域に基づいて代表点を抽出する処理を説明する図。トラッキング処理を説明する図。外れ値代表点を除去する処理を説明する図。代表点の更新処理を説明する図。代表点に基づいてタグ領域を生成する処理を説明する図。図１２（Ａ）～図１２（Ｃ）は、画像中に明確な位置形状が表示されない対象物の一例。教師データ作成から対象物の検出までの一連の手順を示すフローチャート。アノテーションの例。アノテーションにより生成された教師データの例。トラッキングによる自動タグ付けを説明する図。学習装置の構成例。学習の手順を示すフローチャート。ニューラルネットワークの例。情報処理システムを含む内視鏡システムの構成例。トラッキング誤差が蓄積されることを説明する図。トラッキング誤差によって領域が分散することを説明する図。

　以下、本実施形態について説明する。なお、以下に説明する本実施形態は、請求の範囲に記載された本開示の内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本開示の必須構成要件であるとは限らない。

１．概要
　従来、動画においてトラッキング対象のトラッキングを行う手法が広く利用されている。例えば、画像から物体認識を行う機械学習を実施するためには、大量のタグ付けされた画像が必要である。以下、タグ付けされた画像をタグ付け画像と表記する。タグ付け画像の生成は人手で行う必要があるため、非常に時間を要する作業である。図２０を用いて後述する内視鏡下の外科手術を対象とした場合、タグ付けは当該外科手術に熟練した医師等が行う必要があり、大量の画像に対するタグ付けは容易でない。

　タグ付け画像作成の負担を減らす方法として、所与のフレームにおいて作成されたタグをトラッキングし、新たなフレームにおいてトラッキング結果を用いてタグ付けする手法が考えられる。従来の画像トラッキング手法は順方向において行われる。順方向とは、動画において時間が進む方向である。順方向のみでトラッキングを行った場合、トラッキング誤差が蓄積してしまう。

　図２１は、トラッキング誤差が蓄積することの説明図である。Ｆ１は開始フレームのフレーム画像を表し、Ｆｉは開始フレームよりも後のフレームのフレーム画像を表し、ＦｊはＦｉよりもさらに後のフレーム画像を表す。ここでは自動車がトラッキング対象である。フレーム画像Ｆ１における枠領域は開始フレームにおいて付されたタグであり、Ｆｉ及びＦｊにおける枠領域は、それぞれトラッキング処理によって取得されるタグである。図２１に示すように、順方向のトラッキングを繰り返すことによってトラッキング誤差が蓄積され、開始フレームから遠いフレームほど、トラッキング精度が低くなってしまう。

　本実施形態にかかるトラッキング装置２００は、順方向のトラッキングと逆方向のトラッキングを行うことによって、トラッキングのフレーム経過に伴うトラッキング誤差の蓄積を抑制する。ここで、開始フレームと、開始フレームに比べて時間的に後のフレームである終了フレームを設定した場合、順方向のトラッキングとは開始フレームから終了フレームへ向かう方向のトラッキングである。逆方向のトラッキングとは終了フレームから開始フレームへ向かう方向のトラッキングである。このようにすれば、トラッキングを精度よく行うことが可能になる。そのため、例えば精度の高い教師データの生成が可能になるため、機械学習の精度向上が可能になる。

　なお、特許文献１は指定部位を代表する１点の座標をトラッキングする手法である。領域のサイズ変化等に追従できないため、適切な領域トラッキングが困難である。仮に領域を複数の点の集合としてとらえ、各点について特許文献１の手法を用いてトラッキングを行ったとする。その場合、開始点に基づく移動ベクトルと、終了点に基づく移動ベクトルとの足し合わせを、各点について行う必要があるため、演算が煩雑になる。また本来１つの連続する領域であるはずのトラッキング対象が複数の領域に分散する等、領域が破錠するおそれがある。即ち、特許文献１の手法を領域ベースのトラッキングに適用することは難しい。

　これに対して、本実施形態の手法は、各フレームについて順方向トラッキングの結果として順方向マスク画像を取得するとともに、逆方向トラッキングの結果として逆方向マスク画像を取得する。そして、順方向マスク画像と逆方向マスク画像に基づいて、トラッキング結果である合成マスク画像を生成する。このようにすれば、順方向と逆方向のトラッキングにおいて、それぞれ領域のトラッキングを行えばよく、順方向トラッキングにおけるトラッキング点と、逆方向トラッキングにおけるトラッキング点を厳密に対応付ける必要がない。トラッキング点とは、トラッキングに用いられる点であり、具体的には後述する代表点である。これにより、領域ベースのトラッキングを高い精度で実行することが可能になる。

　例えば図２２（Ａ）、図２２（Ｂ）は、領域ベースのトラッキングを行う従来手法を説明する模式図である。図２２（Ａ）は例えば人手でタグ付けされたタグ付け画像である。以下、画像中のタグに対応する領域をタグ領域と表記する。従来の領域ベースのトラッキング手法は、画素毎に処理を行う。図２２（Ａ）の例であれば、タグ領域に含まれる複数の画素の全ての画素について、それぞれトラッキングが行われる。トラッキングを複数のフレームにわたって継続していく場合、トラッキング回数が増えるとともに、即ち動画における時間が経過するとともに、トラッキング誤差が蓄積される。図２２（Ｂ）は、所定回数のトラッキングを行った結果を表す。図２２（Ｂ）に示すように、元画像において連続する１つの領域であったタグ領域が、トラッキング誤差の影響によって分散してしまう場合がある。

　本実施形態の手法は、順方向と逆方向でそれぞれ領域ベースのトラッキングを行った後、トラッキング結果を合成する。当該合成によってトラッキング精度の向上が可能になるため、領域ベースのトラッキングとして図２２（Ａ）及び図２２（Ｂ）に例示するような従来手法と同様の手法が用いられてもよい。ただし、順方向及び逆方向のトラッキング精度を高くすることによって、合成結果の精度をさらに高くすることも可能である。

　本実施形態にかかるトラッキング装置２００は、順方向トラッキングと逆方向トラッキングのそれぞれにおいて、タグ領域の輪郭抽出を行い、抽出結果である輪郭線を対象としてトラッキングを行ってもよい。そしてトラッキング結果である輪郭線の内部に対してマスク処理を行うことによって、新たなフレームにおけるタグ領域を決定する。このようにすれば、タグ領域の分散が抑制されるため、タグ領域の適切なトラッキングが可能になる。

　さらに本実施形態においては、外れ値除去を行うことによって、トラッキング誤差の影響を抑制してもよい。また本実施形態の手法においては、外れ値除去によってトラッキングを行う点が減少した場合等、所定の条件が満たされた場合に、トラッキングに用いる代表点を再抽出する処理を行ってもよい。これらの手法を用いることによって、順方向及び逆方向のそれぞれのトラッキング精度をより高くすることが可能になる。以下、本実施形態の手法について詳細に説明する。

２．トラッキング装置
２．１　順方向トラッキングと逆方向トラッキング
　図１は、本実施形態のトラッキング装置２００の構成例を示す図である。図１に示すように、トラッキング装置２００は、フレーム設定部２１０と、順方向トラッキング部２２０と、逆方向トラッキング部２３０と、トラッキング結果合成部２４０と、表示処理部２５０を含む。ただし、トラッキング装置２００は図１の構成に限定されず、これらの一部の構成要素を省略したり、他の構成要素を追加するなどの種々の変形実施が可能である。

　なお、本実施形態のトラッキング装置２００は、下記のハードウェアにより構成される。ハードウェアは、デジタル信号を処理する回路及びアナログ信号を処理する回路の少なくとも一方を含むことができる。例えば、ハードウェアは、回路基板に実装された１又は複数の回路装置や、１又は複数の回路素子で構成することができる。１又は複数の回路装置は例えばＩＣ、ＦＰＧＡ等である。１又は複数の回路素子は例えば抵抗、キャパシター等である。

　またトラッキング装置２００のフレーム設定部２１０と、順方向トラッキング部２２０と、逆方向トラッキング部２３０と、トラッキング結果合成部２４０と、を含む各部は、下記のプロセッサーにより実現されてもよい。トラッキング装置２００は、情報を記憶するメモリーと、メモリーに記憶された情報に基づいて動作するプロセッサーと、を含む。情報は、例えばプログラムと各種のデータ等である。プロセッサーは、ハードウェアを含む。プロセッサーは、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）等、各種のプロセッサーを用いることが可能である。メモリーは、ＳＲＡＭ（Static Random Access Memory）、ＤＲＡＭ（Dynamic Random Access Memory）などの半導体メモリーであってもよいし、レジスターであってもよいし、ハードディスク装置等の磁気記憶装置であってもよいし、光学ディスク装置等の光学式記憶装置であってもよい。例えば、メモリーはコンピューターにより読み取り可能な命令を格納しており、当該命令がプロセッサーにより実行されることで、トラッキング装置２００の各部の機能が処理として実現されることになる。ここでの命令は、プログラムを構成する命令セットの命令でもよいし、プロセッサーのハードウェア回路に対して動作を指示する命令であってもよい。さらに、フレーム設定部２１０と、順方向トラッキング部２２０、逆方向トラッキング部２３０、トラッキング結果合成部２４０の全部または一部をクラウドコンピューティングで実現し、動画をネットワークを介して取得して、後述するトラッキング処理をクラウドコンピューティング上で行うこともできる。

　フレーム設定部２１０は、動画を取得し、開始フレームと終了フレームを設定する。ここでの動画とは、例えば、一部のフレームにタグ付けが行われた動画像であるタグ付け動画である。フレーム設定部２１０は、例えば動画中でタグ付けされたフレームについて、それぞれ開始フレームと終了フレームとして設定する。

　順方向トラッキング部２２０は、開始フレームにおけるトラッキング対象の領域に基づいて、開始フレーム以降のフレームについて、順方向にトラッキング対象の領域をトラッキングすることによって、トラッキング対象の順方向マスク画像を生成する。開始フレームにおけるトラッキング対象の領域は、タグ付けされた領域から求めることができる。

　逆方向トラッキング部２３０は、終了フレームにおけるトラッキング対象の領域に基づいて、終了フレーム以前のフレームについて、逆方向にトラッキング対象の領域をトラッキングすることによって、トラッキング対象の逆方向マスク画像を生成する。終了フレームにおけるトラッキング対象の領域は、タグ付けされた領域から求めることができる。

　トラッキング結果合成部２４０は、順方向トラッキングと逆方向トラッキングがそれぞれ行われたフレームについて、順方向マスク画像と逆方向マスク画像とを合成することによって、トラッキング対象の領域を示す合成マスク画像を生成する。

　表示処理部２５０は、合成マスク画像に基づく画像を表示部に表示する処理を行う。個々での表示部は、例えば図１７を用いて後述する表示部５４である。表示処理部２５０は、所与のフレーム画像に対して、当該フレームに対応する合成マスク画像に基づく加工処理を行い、加工結果を表示部に表示する処理を行う。

　図２は、本実施形態の処理を説明するフローチャートである。なおこの処理の前処理として、フレーム設定部２１０は開始フレーム及び終了フレームを設定する処理を行う。開始フレームから終了フレームまでの範囲が、トラッキング処理の対象となる。

　まずステップＳ２０１において、順方向トラッキング部２２０は、フレーム設定部２１０によって設定された開始フレームの情報を読み込む。次にステップＳ２０２において、順方向トラッキング部２２０は、開始フレームに基づいて、順方向トラッキングを行う。順方向トラッキング部２２０は、開始フレームのタグ領域に基づいて複数の代表点を設定し、各代表点について、終了フレームまで順方向にトラッキングを行う。順方向トラッキングの詳細については、図５～図１１を用いて後述する。ステップＳ２０２の処理によって、順方向結果が取得される。順方向結果とは、開始フレームの次のフレームから終了フレームまでの各フレームにおけるタグ領域を特定する情報であり、具体的には各フレームにおけるマスク画像である。順方向結果であるマスク画像を順方向マスク画像と表記する。

　次にステップＳ２０３において、逆方向トラッキング部２３０は、フレーム設定部２１０によって設定された終了フレームの情報を読み込む。次にステップＳ２０４において、逆方向トラッキング部２３０は、終了フレームに基づいて、逆方向トラッキングを行う。逆方向トラッキング部２３０は、終了フレームのタグ領域に基づいて複数の代表点を設定し、各代表点について、開始フレームまで逆方向にトラッキングを行う。逆方向トラッキングの詳細については、図５～図１１を用いて後述する。ステップＳ２０４の処理によって、逆方向結果が取得される。逆方向結果とは、終了フレームの１つ前のフレームから開始フレームまでの各フレームにおけるタグ領域を特定する情報であり、具体的には各フレームにおけるマスク画像である。逆方向結果であるマスク画像を逆方向マスク画像と表記する。

　ステップＳ２０５において、トラッキング結果合成部２４０は、順方向マスク画像と逆方向マスク画像を合成することによって、合成マスク画像を生成する。

　図３は、開始フレームから終了フレームまでのフレーム画像と、各フレームにおける順方向マスク画像、逆方向マスク画像、及び合成マスク画像の関係を示す図である。ここでは、トラッキング対象が人の顔である例を示しているが、具体的なトラッキング対象は図１２（Ａ）～図１２（Ｃ）を用いて後述するように、画像上における位置姿勢が明確でない被写体であってもよい。順方向マスク画像は、例えばタグ領域での値が１となり、他の領域での値が０となる画像データである。図３においては、タグ領域をハッチングを用いて示している。

　順方向トラッキングにおいて、開始フレームのタグ領域は、例えば作業者が人手で付した情報であるため、当該タグ領域はトラッキング対象の領域と一致すると考えてよい。順方向のトラッキングを繰り返すことによって、トラッキング誤差が蓄積する。図３に示すように、実際のトラッキング対象はフレーム画像上での位置、形状が変化していくが、タグ領域は当該変化に完全に追従することはできず、開始フレームから遠ざかるほどトラッキング対象とタグ領域との誤差が大きくなる。

　また逆方向トラッキングにおいて、終了フレームにおけるタグ領域は、例えば作業者が人手で付した情報であるため、当該タグ領域はトラッキング対象の領域と一致すると考えてよい。逆方向のトラッキングを繰り返すことによって、トラッキング誤差が蓄積され、終了フレームから遠ざかるほどトラッキング対象とタグ領域との誤差が大きくなる。

　トラッキング結果合成部２４０は、順方向マスク画像は開始フレームに近いほど精度が高く、逆方向マスク画像は終了フレームに近いほど精度が高いという特性を鑑みて、合成マスク画像を求める処理を行う。具体的には、トラッキング結果合成部２４０は、開始フレームに近いフレームは順方向マスク画像の重みが大きくなり、終了フレームに近いフレームは逆方向マスク画像の重みを大きくなるように、２つのマスク画像を合成する。

　図３に示すように、開始フレームに近いフレームにおいては、合成マスク画像に対する寄与度は順方向マスク画像が大きくなる。一方、終了フレームに近いフレームにおいては、合成マスク画像に対する寄与度は逆方向マスク画像が大きくなる。このようにすれば、相対的に精度の高いマスク画像の重みが大きくなるため、合成マスク画像の精度を高くすること、即ちトラッキング対象との一致度合いが高いタグ領域を設定することが可能になる。

　例えば順方向マスク画像に対する重みである順方向重みをｗｆとし、逆方向マスク画像に対する重みである逆方向重みをｗｂとした場合に、合成マスク画像は下式（１）によって求められる。下式（１）においてＩは合成マスク画像を表し、Ｉｆが順方向マスク画像を表し、Ｉｂが逆方向マスク画像を表す。ｔは開始フレームを基準とした動画上での経過時間、又は、動画におけるフレーム位置、フレーム番号を表す。Ｉ，Ｉｆ，Ｉｂはそれぞれ複数の画素を含む画像であるため、下式（１）に示す演算は画素ごとに行われる。
　Ｉ（ｔ）＝ｗｆ（ｔ）×Ｉｆ（ｔ）＋ｗｂ（ｔ）×Ｉｂ（ｔ）　…（１）

　上述したとおり、ｔが開始フレームに近い範囲においてはｗｆ＞ｗｂであり、ｔが終了フレームに近い範囲においてはｗｆ＜ｗｂである。ｗｆ及びｗｂは上記の関係を満たせばよく、具体的な値については種々の変形実施が可能である。

　図４（Ａ）～図４（Ｃ）は、重みｗｆとｗｂの例を示す図である。図４（Ａ）～図４（Ｃ）の横軸は上記ｔに対応し、例えば時間を表す。図４（Ａ）～図４（Ｃ）の縦軸は重みの大きさを表す。

　図４（Ａ）に示すように、ｗｆは開始フレームから終了フレームの間で単調減少する関数であり、ｗｂは開始フレームから終了フレームの間で単調増加する関数である。この場合、トラッキング結果合成部２４０は、開始フレームと終了フレーム以外のフレームにおいて、順方向マスク画像と逆方向マスク画像をブレンドすることによって、合成マスク画像を生成する。

　或いは図４（Ｂ）に示すように、開始フレーム以降の所定数のフレームにおいてｗｆ＝１且つｗｂ＝０としてもよい。また終了フレーム以前の所定数のフレームにおいてｗｆ＝０且つｗｂ＝１としてもよい。この場合、トラッキング結果合成部２４０は、開始フレーム以降の所定数のフレームにおいては、順方向マスク画像をそのまま合成マスク画像として適用し、終了フレーム以前の所定数のフレームにおいては、逆方向マスク画像をそのまま合成マスク画像として適用する。トラッキング結果合成部２４０は、中間のフレームにおいては、順方向マスク画像と逆方向マスク画像をブレンドすることによって、合成マスク画像を生成する。本実施形態における合成は、順方向マスク画像と逆方向マスク画像のいずれか一方の重みを０とする合成を含む。この場合、開始フレーム以降の所定数のフレームは逆方向トラッキングを行わず、終了フレーム以前の所定数のフレームは順方向トラッキングを行わない処理としてもよい。

　或いは図４（Ｃ）に示すように、開始フレームから所与のフレームまでｗｆ＝１且つｗｂ＝０とし、当該所与のフレームの次のフレームから終了フレームまでｗｆ＝０且つｗｂ＝１としてもよい。この場合、トラッキング結果合成部２４０は、全てのフレームにおいて、順方向マスク画像と逆方向マスク画像のいずれか一方を合成マスク画像として適用する。本実施形態における順方向マスク画像と逆方向マスク画像の合成とは、図４（Ｃ）に示す重みを用いた合成も含まれる。この場合、開始フレームから所与のフレームまでは逆方向トラッキングを行わず、当該所与のフレームの次のフレームから終了フレームまでは順方向トラッキングを行わない処理としてもよい。

　またトラッキング結果合成部２４０は、下式（２）を用いて合成マスク画像を求めてもよい。下式（２）におけるｘは画像における画素の位置を表す２次元ベクトルである。下式（２）に示すように、重みであるｗｆ及びｗｂは、時間ｔだけでなく位置ｘの関数である。即ち、トラッキング結果合成部２４０は、画像の位置ｘに重みを付けて、順方向マスク画像と、順方向マスク画像を合成してもよい。
　Ｉ（ｔ，ｘ）＝ｗｆ（ｔ，ｘ）×Ｉｆ（ｔ，ｘ）＋ｗｂ（ｔ，ｘ）×Ｉｂ（ｔ，ｘ）
　　…（２）

　例えばトラッキング結果合成部２４０は、順方向マスク画像におけるタグ領域の基準位置を求め、当該基準位置からの距離に基づいて重みを変更する。ここでの基準位置は、例えばタグ領域の重心であるが、これには限定されない。本実施形態の手法においては、順方向トラッキング及び逆方向トラッキングは領域ベースのトラッキングを行う。例えば後述するように、輪郭上の代表点を用いたトラッキングが行われる。そのため、タグ領域のうち、境界及びそれに近い部分については、トラッキング誤差が生じる蓋然性が相対的に高い。一方、境界付近でトラッキング誤差が生じたとしても、タグ領域の中央部の領域は、十分高い精度でトラッキング対象に追従している蓋然性が高い。この点を考慮し、トラッキング結果合成部２４０は、基準位置に近いほど重みが大きく、基準位置から遠ざかるほど重みが小さくなるように、ｗｆを設定する。この場合、所定の範囲から逸脱したトラッキング結果をトラッキング結果合成部２４０における合成処理から除外することが可能になる。以上ではｗｆについて説明したが、逆方向重みｗｂについても同様である。トラッキング結果合成部２４０は、逆方向マスク画像におけるタグ領域の基準位置を求め、当該基準位置からの距離に基づいて重みｗｂを設定する。

　生成された合成マスク画像は、そのまま出力されることも妨げられない。例えば、動画に含まれる各フレーム画像と、合成マスク画像とを対応付けたデータセットに基づいて、機械学習が行われる。なお上式（１）や（２）を用いる場合、合成マスク画像は２値画像ではなく、多値画像となる場合がある。例えば、順方向マスク画像と逆方向マスク画像が０と１の２値画像であっても、合成マスク画像は、画素値が０以上１以下の範囲で変化する多値画像となる。この場合、多値画像である合成マスク画像を正解ラベルとする機械学習が行われてもよい。例えば、ニューラルネットワークの出力層に広く知られたソフトマックス層を適用した場合、出力は確率データとなる。所与の被写体の認識を行うニューラルネットワークの例であれば、当該ニューラルネットワークの出力層は、各画素について、当該画素が所与の被写体を撮像している確率を表す確率データと、当該所与の被写体以外の被写体が撮像されている確率を表す確率データと、を出力する。上述した多値画像である合成マスク画像は、確率データに対応するデータと考えることが可能であり、合成マスク画像を教師データとする学習が可能である。

　ただしトラッキング装置２００は、トラッキング結果合成部２４０によって生成された合成マスク画像に対して、何らかの処理が行われた結果を出力してもよい。例えば表示処理部２５０は、合成マスク画像に基づく表示処理を行ってもよい。表示処理は、例えばトラッキングによって生成されたタグ領域をユーザーに提示するとともに、ユーザーに微調整を行わせるための処理である。

　例えば表示処理部２５０は、動画中のフレーム画像に対して、当該フレームに対応するマスク画像を重畳表示する処理を行う。例えば、表示処理部２５０は、タグ領域以外の領域については元のフレーム画像をそのまま表示し、タグ領域に対応する領域については、元のフレーム画像に対して加工処理を行った結果を表示する。ここでの加工処理とは、画素値を所定の値に変更する処理であってもよいし、フレーム画像の画素値を所定量だけ変更する処理であってもよい。ここでの画素値は、ＲＧＢのうちの少なくとも１つの信号値であってもよいし、輝度信号であってもよいし、色差信号であってもよい。

　また表示処理部２５０は、順方向マスク画像と逆方向マスク画像が重複しない部分が、順方向マスク画像と逆方向マスク画像が重複する部分よりも透過率が高くなるように、トラッキング結果を動画に重畳表示してもよい。ここでのトラッキング結果とは、具体的には合成マスク画像である。この場合、信頼性の高い領域については透過率が相対的に低くなるため、元のフレーム画像からの変化が大きくなる。そのため、当該領域がタグ領域であることをユーザーにわかりやすく提示できる。一方、２つのマスク画像が重複しない信頼性が低い領域においては、元のフレーム画像の特徴が残る。そのため、ユーザーによる注目度合いを相対的に下げることが可能になる。また、元のフレーム画像が視認しやすくなるため、ユーザーにタグ領域の妥当性の判断を促すこと、及びタグ領域の微調整を促すことが容易になる。

　以上のように、本実施形態のトラッキング装置２００は、フレーム設定部２１０と、順方向トラッキング部２２０と、逆方向トラッキング部２３０と、トラッキング結果合成部２４０とを含む。フレーム設定部２１０は、複数のフレームを含む動画について、開始フレームと終了フレームを設定する。順方向トラッキング部２２０は、開始フレームにおけるトラッキング対象の領域に基づいて、開始フレーム以降のフレームについて、順方向にトラッキング対象をトラッキングする順方向トラッキングを行う。逆方向トラッキング部２３０は、終了フレームにおけるトラッキング対象の領域に基づいて、終了フレーム以前のフレームについて、逆方向にトラッキング対象をトラッキングする逆方向トラッキングを行う。トラッキング結果合成部２４０は、順方向トラッキングと逆方向トラッキングがそれぞれ行われたフレームについて、順方向トラッキングに基づく順方向マスク画像と、逆方向トラッキングに基づく逆方向マスク画像とを合成することによって、トラッキング対象の領域を示す合成マスク画像を生成する。なお、順方向トラッキング部２２０が、順方向マスク画像を求めてもよい。或いは順方向トラッキング部２２０は、代表点の情報、或いは輪郭（閉曲線）の情報を求める処理を行うものであって、順方向マスク画像を求める処理はトラッキング結果合成部２４０が行ってもよい。逆方向マスク画像についても同様である。

　本実施形態の手法によれば、順方向トラッキングに加えて、終了フレームを起点とする逆方向トラッキングを行うことによって、時系列的に後のフレームに対して誤差の蓄積を抑制することが可能になる。これにより、開始フレームから終了フレームまでの間において、精度の高いトラッキングを行うことが可能になる。また、本実施形態の手法では、順方向マスク画像と逆方向マスク画像を合成することによって、合成マスク画像を生成する。即ち、指定部位を領域としてトラッキングすることになるため、時間経過によって指定部位の大きさが変化した場合においても、領域の大きさ変化をトラッキングできる。また合成によって領域が破綻することも抑制できる。さらに本実施形態の手法は、順方向トラッキングと逆方向トラッキングのそれぞれにおいて、領域のトラッキングを実行できればよく、具体的なトラッキング点を問わない。よって順方向トラッキングにおけるトラッキング点と逆方向トラッキングにおけるトラッキング点を対応付ける必要がなく、各方向におけるトラッキングの実現が容易である。また、順方向トラッキング内においても、開始フレームにおいて設定したトラッキング点を終了フレームまで維持する必要がない。例えば図９及び図１０を用いて後述するように、外れ値代表点を処理から除外する、或いは代表点を再抽出することが可能であるため、処理の柔軟性が高い。また外れ値除去や代表点更新によって、順方向トラッキングの精度向上を図ることも可能である。この点は、逆方向トラッキングにおいても同様である。

　また開始フレームにおけるトラッキング対象の領域、及び、終了フレームにおけるトラッキング対象の領域は、トラッキング対象について付されたタグ付けデータに基づいて設定されてもよい。例えば本実施形態の手法は、人がタグ付けした開始フレームと、人がタグ付けした終了フレームの間を滑らかにつなぐように、開始フレームと終了フレームの間の中間フレームに対してタグ付けを行う。

　このようにすれば、タグ領域のトラッキングを適切に行うことが可能になる。タグが付される領域は、図１２（Ａ）～図１２（Ｃ）を用いて後述するように、画像上に明確に撮像されない被写体であってもよい。これらの被写体に対するタグ付けは熟練者でなければ容易でないところ、トラッキングによってタグ付けの効率化が可能になる。

　またトラッキング装置２００は、合成マスク画像において、順方向マスク画像と逆方向マスク画像が重複しない部分が、順方向マスク画像と逆方向マスク画像が重複する部分よりも透過率が高くなるように、合成マスク画像を動画に重畳表示する表示処理部２５０を含んでもよい。このようにすれば、順方向マスク画像と逆方向マスク画像の重複状態の違いを、合成マスク画像の透過度合いを用いて表現することが可能になる。そのため、合成マスク画像において信頼性の高い部分と低い部分とをユーザーに認識させることが可能になる。また、信頼性が低い部分について、フレーム画像を視認しやすくすることによって、ユーザーにタグ領域の確認や微調整を促すことが可能になる。

　またトラッキング結果合成部２４０は、開始フレームに近いフレームは、逆方向マスク画像に比べて、順方向マスク画像の重みが大きくなる重み情報を設定し、終了フレームに近いフレームは、順方向マスク画像に比べて、逆方向マスク画像の重みが大きくなる重み情報を設定する。そしてトラッキング結果合成部２４０は、重み情報に基づいて、順方向マスク画像と逆方向マスク画像を合成することによって、合成マスク画像を生成する。このようにすれば、合成処理において、トラッキング精度の高いマスク画像の寄与度が高くなるため、合成マスク画像におけるトラッキング精度を高くすることが可能になる。

　またトラッキング結果合成部２４０は、開始フレーム以降の所定数のフレームは、順方向マスク画像を合成マスク画像として適用し、終了フレーム以前の所定数のフレームは、逆方向マスク画像を合成マスク画像として適用してもよい。例えばトラッキング結果合成部２４０は、図４（Ｂ）に示した重みを用いて合成処理を実行する。このようにすれば、合成処理において、トラッキング精度の高いマスク画像の寄与度を高くできる。また、所定数のフレームの範囲において２つのマスク画像のブレンド処理が不要となるため、処理負荷の軽減が可能である。なお、開始フレーム以降の所定数のフレームと、終了フレーム以前の所定数のフレームは、同じフレーム数であってもよいし、異なるフレーム数であってもよい。

　またトラッキング結果合成部２４０は、動画中のフレーム位置、及び画像上の画素位置に依存する重み付け係数に基づいて、順方向マスク画像と逆方向マスク画像を合成してもよい。このように、画像上での位置を考慮した合成処理を行うことによって、不適切なトラッキング結果が合成マスク画像に反映されることを抑制できる。

　具体的には、画素位置をｘとし、フレーム位置をｔとし、合成マスク画像をＩとし、順方向マスク画像をＩｆとし、逆方向マスク画像をＩｂとした場合に、トラッキング結果合成部２４０は、順方向重み付け係数ｗｆと、逆方向重み付け係数ｗｂとを用いて、上式（２）に基づいて合成マスク画像を生成してもよい。なお、上式（２）においてはｔは時間を表すパラメータであるものとして説明した。しかしフレームレートは設計上既知であるため、時間とフレーム番号の相互の変換は容易であり、ｔをフレーム位置（フレーム番号）に置き換えてもよいことは当業者であれば容易に理解できることである。

　また、本実施形態のトラッキング装置２００が行う処理は、トラッキング方法として実現されてもよい。トラッキング方法は、複数のフレームを含む動画について、開始フレームと終了フレームを設定する工程と、開始フレームにおけるトラッキング対象の領域に基づいて、開始フレーム以降のフレームについて、順方向にトラッキング対象をトラッキングする順方向トラッキングを行う工程と、終了フレームにおけるトラッキング対象の領域に基づいて、終了フレーム以前のフレームについて、逆方向にトラッキング対象をトラッキングする逆方向トラッキングを行う工程と、順方向トラッキングと逆方向トラッキングがそれぞれ行われたフレームについて、順方向トラッキングに基づく順方向マスク画像と、逆方向トラッキングに基づく逆方向マスク画像とを合成することによって、トラッキング対象の領域を示す合成マスク画像を生成する工程と、を含む方法である。

２．２　輪郭トラッキング
　図５は、本実施形態の順方向トラッキング部２２０の構成例を示す図である。図５に示すように、順方向トラッキング部２２０は、代表点抽出部２２１と、トラッキング部２２２と、外れ値除去部２２３と、代表点更新部２２４と、を含む。

　代表点抽出部２２１は、開始フレームにおけるトラッキング対象の輪郭について、トラッキングを行うための代表点を抽出する。開始フレームにおけるトラッキング対象の輪郭は、開始フレームにタグ付けされた領域から求めることができる。

　トラッキング部２２２は、開始フレーム以降のフレームについて、代表点抽出部２２１で抽出された代表点によるトラッキングを行う。なお後述するように、代表点更新部２２４によって代表点が更新された場合、トラッキング部２２２は、更新後の代表点によるトラッキングを行う。

　外れ値除去部２２３は、トラッキング部２２２によってトラッキングされた代表点について相互に外れ値判定を行い、外れ値と判定された外れ値代表点を除く処理を行う。

　代表点更新部２２４は、代表点の更新が必要か否かを判定する。代表点更新部２２４は、代表点の更新が必要であると判定した場合、処理対象のフレームにおける、外れ値代表点が除かれた代表点の状態に基づいて、新たに代表点を抽出する。

　図６は、順方向トラッキングの手順を説明するフローチャートである。この処理が開始されると、まずステップＳ１０１において、代表点抽出部２２１は、フレーム設定部２１０によって設定された開始フレームの情報を読み込む。ステップＳ１０２において、代表点抽出部２２１は、開始フレームに含まれるトラッキング対象の輪郭から、トラッキングを行う点である代表点を抽出する。図７は、代表点の抽出処理を説明する図である。本実施形態におけるタグは、例えば図１４、図１５を用いて後述するように、医師等の作業者によって入力される情報であって、画像に対してメタデータとして付与されるアノテーションデータである。アノテーションデータは、例えばタグ領域の画素値が第１の値に設定され、タグ領域以外の画素値が第１の値と異なる第２の値に設定されたマスク画像である。

　代表点抽出部２２１は、タグ領域の輪郭を抽出する。上述したようにタグ領域に関する情報がマスク画像として取得されている場合、代表点抽出部２２１は、例えば画素値が第１の値である画素のうち、画素値が第２の値である画素と隣接する画素を、タグ領域の輪郭として抽出する。ただし、公知のエッジ抽出フィルターを適用する等、輪郭抽出処理は種々の変形実施が可能である。

　代表点抽出部２２１は、輪郭上の全ての画素をトラッキングに用いる代表点として選択してもよい。この場合にも、タグ領域の内部の画素をトラッキング対象とする必要がないため、領域が分散することを抑制でき、且つ、処理負荷の軽減が可能になる。ただし、代表点抽出部２２１は、輪郭上の画素のうち、一部の画素を代表点として抽出してもよい。例えば代表点抽出部２２１は、輪郭上の画素から等間隔に代表点を抽出する。例えば代表点抽出部２２１は、図７に示すように、隣り合う代表点の間隔が同一（略同一を含む）となるように１２個の代表点を抽出する。代表点抽出部２２１は、抽出される代表点の数ｎ（ｎは２以上の整数）をあらかじめ設定しておき、輪郭線をｎ分割することによって、ｎ個の代表点を設定してもよい。或いは、隣り合う代表点の間隔があらかじめ設定されており、代表点抽出部２２１は、当該間隔に従って代表点を設定してもよい。この場合、輪郭線の長さに応じて、代表点の個数が変化する。

　なお図１１を用いて後述するように、本実施形態のトラッキング装置２００は、トラッキング結果である代表点を繋いだ閉曲線を生成し、当該閉曲線の内部の領域をタグ領域とする。そのため、トラッキングに用いる代表点は、当該代表点を繋ぐことによって、トラッキング対象の輪郭をある程度高い精度で再現できる点でなくてはならない。輪郭が単純な形状であれば、代表点の数が少なくても輪郭に関する情報は失われにくい。一方、輪郭が複雑な形状をしている場合、多くの代表点を設定しなければ輪郭に関する情報が失われるおそれがある。

　代表点抽出部２２１は、輪郭の曲率に基づいて代表点を設定してもよい。例えば代表点抽出部２２１は、抽出した輪郭を複数の曲線に分割し、分割された各曲線の曲率を求める。例えば曲線を円によって近似した場合の円の半径が曲率半径であり、その逆数が曲率である。なお輪郭の曲率は１画素ごとに求められてもよい。代表点抽出部２２１は、輪郭のうち曲率が高い部分においては、曲率が低い部分よりも多くの代表点を抽出する。このようにすれば、輪郭の形状に応じて代表点の密度を調整できるため、代表点に基づいて輪郭を適切に再現することが可能になる。即ち、トラッキング対象の領域を高い精度でトラッキングすることが可能になる。

　開始フレームにおいて代表点が抽出されたら、ステップＳ１０３において、トラッキング部２２２は、抽出された代表点に対してトラッキングを行う。具体的には、第１フレームにおける所与の代表点が、次のフレームである第２フレームにおいて画像上のどの位置に存在するかを推定する。

　図８は、トラッキングの処理を説明する図である。トラッキングは、２つのフレームにおけるフレーム画像を用いて行われる。トラッキング部２２２は、第１フレームにおけるフレーム画像Ｆ１のうち、所与の代表点Ｐ１の近傍の領域をテンプレート画像ＴＩとして抽出する。テンプレート画像ＴＩは、例えば代表点Ｐ１を中心とする所定サイズの矩形画像であるが、サイズ及び形状については種々の変形実施が可能である。トラッキング部２２２は、図８に示すように、第２フレームのフレーム画像Ｆ２において、テンプレート画像ＴＩを用いたテンプレートマッチングを行う。そしてトラッキング部２２２は、テンプレート画像ＴＩとの相違度が最も低い位置、又は一致度が最も高い位置を、代表点Ｐ１に対応する点として決定する。なお、テンプレートマッチングにおける探索範囲は、フレーム画像Ｆ２の全体であってもよいし、フレーム画像Ｆ２の一部であってもよい。トラッキング部２２２は、第１フレームにおける代表点のそれぞれについて図８に示す処理を行うことによって、代表点のトラッキングを行う。なお、トラッキングについては種々の変形実施が可能であり、代表点におけるフレーム画像の輝度、コントラストに基づくトラッキング方法、またはオプティカルフローによるトラッキング方法等を適用できる。

　次にステップＳ１０４において、外れ値除去部２２３は、トラッキング後の点に対して外れ値除去を実施する。本実施形態における代表点は、トラッキング対象の輪郭を表す点である。１フレームの間でトラッキング対象の画像上での形状が大きく変化することは考えにくい。また撮像対象が大きく変化する場合とは、例えば図１６を用いて後述するシーン変化が生じた場合等であるため、トラッキングを継続する必要性が低い。即ち、トラッキングを実行する場面において、複数の代表点の移動傾向はある程度の類似性を有すると考えられる。所与の代表点が、他の代表点に比べて明らかに異なる移動をしている場合、当該所与の代表点に関するトラッキングは誤りである蓋然性が高い。

　外れ値除去部２２３は、代表点の相互の関係に基づいて、他の代表点と異なる移動をした代表点を外れ値代表点として抽出する。例えば外れ値除去部２２３は、所与の代表点の移動距離と、周囲の代表点の移動距離との差が所定値を超えている場合に、当該代表点が外れ値代表点であると判定する。或いは外れ値除去部２２３は、所与の代表点と、周囲の代表点との間の距離が所定値を超えている場合に、当該代表点が外れ値代表点であると判定する。

　或いは外れ値除去部２２３は、所与の代表点について、当該代表点と、その周囲の代表点とによって形成される曲線の曲率を求め、求めた曲率が所定値を超えている場合に、当該代表点が外れ値代表点であると判定する。ここでの周囲の代表点とは、輪郭線に沿った方向において隣り合う２つの代表点、即ち両隣の代表点である。ただし、周囲の代表点として、隣接２点以外の点を追加する等の種々の変形実施が可能である。このように、代表点の逸脱具合を判定することによって、外れ値代表点を適切に除去できる。

　図９は、外れ値除去処理を説明する図である。図９のＰ２に示す代表点は、隣り合う代表点Ｐ３及びＰ４に比べて移動距離が大きい。或いはＰ２～Ｐ４を通る曲線を考えた場合、当該曲線の曲率は大きい。なお、曲率の比較対象は、所与の固定値であってもよいし、第１フレームにおける曲率であってもよいし、第２フレームにおける他の代表点の曲率であってもよい。いずれであっても、Ｐ２に対応する曲率は大きいと判定される。よって外れ値除去部２２３は、Ｐ２に示す代表点を除去する。

　ステップＳ１０３及びＳ１０４の処理によって、トラッキング元である第１フレームの次の第２フレームにおいて、不適切な代表点が除外された精度の高い代表点が取得される。第２フレームにおける外れ値除去後の複数の代表点の各代表点について、図８に示したトラッキング処理を行うことによって、第２フレームのさらに次のフレームである第３フレーム以降についても、トラッキングを継続することが可能である。

　ただし本実施形態においては、トラッキングを精度よく行うために、ステップＳ１０５において代表点更新部２２４は、代表点の更新が必要であるか否かを判定する。上述したように、本実施形態の手法では、外れ値代表点と判定された代表点が除去されるため、代表点の個数が減少する場合がある。代表点の個数が過剰に少なくなった場合、残りの代表点からトラッキング対象の輪郭を再現することが困難になるため、トラッキング精度の低下につながる。よって代表点更新部２２４は、代表点の個数が予め決めた個数よりも少なくなった場合に、代表点の更新が必要であると判定する。

　図１０は、代表点の更新処理を説明する図である。ステップＳ１０６において、代表点更新部２２４は、まず外れ値除去後に残存している代表点の全点群を繋げることによって閉曲線を生成する。代表点更新部２２４は、例えば公知のスプライン補間を行うことによって、閉曲線を生成する。ただし、複数の点から閉曲線を生成する手法は種々知られており、本実施形態においてはそれらを広く適用可能である。

　次にステップＳ１０８において、代表点更新部２２４は、生成された閉曲線から、代表点を再抽出する。なお、代表点の更新はトラッキングを精度よく継続することを目的とした処理であるため、図６のフローチャートにおいては、まずステップＳ１０７においてトラッキングを終了するか否かの判定が行われ、終了しない場合に代表点の再抽出が行われる。

　代表点を再抽出する処理は、開始フレームにおいて輪郭から代表点を抽出する処理と同様である。即ち、代表点更新部２２４は、閉曲線上の画素から等間隔に代表点を抽出してもよいし、閉曲線の曲率に応じて代表点の密度を変更してもよい。この際、新たに抽出される代表点は、元の代表点と一致する必要はない。例えば図１０に示すように、１１個の代表点から閉曲線を生成し、１２個の代表点を抽出し直す場合、元の１１個の代表点を維持しつつ１つの代表点を追加する必要はなく、１２個全ての代表点を新たに選択することが可能である。本実施形態の手法はトラッキング対象の輪郭をトラッキングするものであって、輪郭上における代表点の位置は問わないためである。

　また代表点更新部２２４は、トラッキング結果の信頼性が所定値より低下した場合に、代表点の更新が必要であると判定してもよい。トラッキング結果の信頼性とは、例えばテンプレートマッチングにおける相違度の最小値、或いは一致度の最大値である。相違度は例えばＳＳＤ（Sum of Squared Difference）、ＳＡＤ（Sum of Absolute Difference）であり、最小値が所定閾値以上である場合に信頼性が低いと判定される。一致度は例えばＮＣＣ（Normalized Cross Correlation）であり、最大値が所定閾値以下である場合に信頼性が低いと判定される。代表点を更新することによって、テンプレートマッチングにおけるテンプレート画像を変更できる。そのため、代表点の更新によってトラッキング精度の向上を図ることが可能になる。

　またトラッキング精度が低下した場合に代表点をリフレッシュするという観点から考えれば、代表点更新部２２４は、トラッキングを所定フレーム数だけ実行した場合、即ち一定時間が経過した場合に、代表点の更新が必要であると判定してもよい。トラッキングを複数のフレームに渡って継続した場合、トラッキング誤差が蓄積される。一定時間が経過したか否かを判定条件とすることによって、トラッキング精度が低下したおそれがある場合に、代表点を更新することが可能になる。

　代表点の更新が必要でない場合（ステップＳ１０５でＮｏ）、又は代表点の更新後（ステップＳ１０８の処理後）、ステップＳ１０３に戻り処理が継続される。トラッキング部２２２は、最新フレームにおける代表点に基づいて、１フレーム分のトラッキングを行う。これ以降の処理は同様であり、外れ値除去処理、及び必要に応じて代表点の更新処理が行われ、その結果に基づいて次フレームへのトラッキングが行われる。

　トラッキングを終了すると判定された場合（ステップＳ１０７でＹｅｓ）、ステップＳ１０９において、トラッキング装置２００はタグ領域を生成する処理を行う。図１１は、タグ領域の生成処理を説明する図である。具体的には、各フレームにおいて代表点を繋いだ閉曲線が生成され、当該閉曲線の内部をタグ領域とする処理が行われる。閉曲線の生成処理についてはステップＳ１０６と同様である。各フレームにおける代表点とは、外れ値代表点を除去する処理後の代表点である。また代表点を更新する処理が行われたフレームについては、ステップＳ１０６における処理結果である閉曲線を流用してもよい。

　以上では、順方向トラッキングについて説明したが、逆方向トラッキングについても同様である。具体的には、逆方向トラッキング部２３０は、上述した順方向トラッキングの処理において、開始フレームを終了フレームに置き換えた上で、図８に示すトラッキング処理を、時系列的に前の方向に対して実行する。

　以上のように、順方向トラッキング部２２０は、開始フレームにおけるトラッキング対象の輪郭について、開始時トラッキング点を抽出し、抽出した開始時トラッキング点に基づいて順方向トラッキングを行ってもよい。同様に逆方向トラッキング部２３０は、終了フレームにおけるトラッキング対象の輪郭について、終了時トラッキング点を抽出し、抽出した終了時トラッキング点に基づいて逆方向トラッキングを行ってもよい。開始時トラッキング点とは、具体的には開始フレームにおいて設定される代表点であり、終了時トラッキング点とは、終了フレームにおいて設定される代表点である。

　このように、輪郭をトラッキングすることによって、画素のばらつき発生を抑制できるため、領域ベースのトラッキングを適切に実行できる。また領域内部の画素をトラッキングする必要がなくなるため、処理の高速化が可能である。また、外れ値判定を行うことによって、トラッキング結果から不適切な代表点を除外できるため、精度の向上が可能である。代表点はいずれも輪郭上に設定されるため、代表点相互の関係を用いることによって、外れ値代表点の検出を適切に実行できる。また、代表点の更新も行われるため、外れ値代表点が除外される場合等であっても、トラッキングを精度よく実行することが可能である。

　また順方向マスク画像は、開始時トラッキング点のトラッキング結果である複数の点を繋いだ閉曲線の内部の領域を特定する画像である。逆方向マスク画像は、終了時トラッキング点のトラッキング結果である複数の点を繋いだ閉曲線の内部の領域を特定する画像である。このようにすれば、領域ベースのトラッキングを適切に実行すること、及び順方向での領域ベースのトラッキング結果と、逆方向での領域ベースのトラッキング結果を適切に合成することが可能になる。なお上述したように、順方向トラッキングにおいて、代表点の更新が行われてもよい。即ち、開始時トラッキング点のトラッキング結果とは、代表点の更新が行われた後のトラッキング結果を含む。同様に、終了時トラッキング点のトラッキング結果とは、代表点の更新が行われた後のトラッキング結果を含む。

３．内視鏡システム、学習装置、学習済モデル
　上述したトラッキング装置２００の出力は、機械学習に利用されてもよい。例えば、内視鏡下の外科手術において、画像に明確な位置形状が表示されない対象物を作業者が識別しにくい場合がある。例えば、内視鏡下の外科手術において所定のランドマークを目印として手順を進めていくが、そのランドマークの位置形状が画像に明確に表示されない状態を想定できる。このとき、熟練してない医師が、不明瞭なランドマークを見分けにくい場合がある。なお、位置形状は位置及び形状のことである。

　図１２（Ａ）～図１２（Ｃ）に、画像中に明確な位置形状が表示されない対象物の一例を示す。図１２（Ａ）においては総胆管が、また、図１２（Ｂ）においては胆のう管が、図１２（Ｃ）においてはルビエレ溝が対象物となる。なお図１２（Ａ）～図１２（Ｃ）は模式図であり、実際の臓器又は組織の正確な形状を示すものではない。図１４以降についても同様である。

　図１２（Ａ）、図１２（Ｂ）は、対象物が臓器又は組織に覆われている状態の例である。この場合、対象物がカメラの画角内に入っていたとしても、対象物そのものは画像上では見えない、または、位置形状が明確でない。図１２（Ｃ）は、画像中に対象物が露出して視認できるが、対象物の境界が曖昧な状態の例である。図１２（Ｃ）に示すように、腹腔鏡下胆のう摘出手術の内視鏡画像において、ルビエレ溝は視認可能であり、その溝の開始部分は比較的明瞭である。しかし、溝の終了部分に向かって徐々に溝が消失していくため、ルビエレ溝の境界が曖昧となっている。

　総胆管及び胆のう管、ルビエレ溝、及び後述するＳ４下縁は、腹腔鏡下胆のう摘出術におけるランドマークである。ランドマークとは、手術の手順を進める際に用いられる目印である。本実施形態では、これらのランドマークが対象物としてアノテーションされることで教師データが作成され、その教師データにより機械学習が行われる。

　図１３は、本実施形態における教師データの作成から対象物の検出までの一連の手順を示すフローチャートである。

　ステップＳ１、Ｓ２は、教師データを作成するステップである。ステップＳ１において、作業者が手術動画の所定フレーム画像にタグ付けを行う。作業者は、例えば対象手術に習熟した医師等である。後述するように、所定フレーム画像は、動画においてシーン変化した後の最初のフレーム画像、及びその直前のフレーム画像である。或いは所定フレーム画像は、所定の間隔よって選択されるフレーム画像である。次に、ステップＳ２において、トラッキング装置２００が、タグ付けされた領域をトラッキングすることで、教師データを作成する。具体的なトラッキング手法については上述したとおりである。ステップＳ１、Ｓ２においてタグ付けされた手術動画の各フレーム画像が学習用画像となる。なお、画像にタグ付けすることをアノテーションと呼ぶ。

　ステップＳ４は、学習ステップである。即ち、学習装置が、ステップＳ１、Ｓ２で作成された教師データを用いて機械学習を行う。この機械学習により得られた学習済みモデルは、後述する情報処理システム１０の記憶部７に記憶される。

　ステップＳ５は、学習したＡＩにより推論を行うステップである。即ち、情報処理システム１０の処理部４が、記憶部７に記憶された学習済みモデルに基づいて検出用画像から対象物を検出する。処理部４は、検出された対象物を示す情報を検出用画像に表示させる。

　次に教師データを作成する手法を説明する。教師データの作成は、画像中に明確な位置形状が表示されない対象物を画角内に撮像した学習用画像について、対象物の位置形状を示すアノテーションを付すことによって行われる。「画像中に明確な位置形状が表示されない」とは、輝度又はコントラストに基づき境界を検出する手法によって、対象物の位置形状を特定できない状態を意味する。

　画像中に明確な位置形状が表示されない上記ランドマークについて、作業者の暗黙知に基づいて、画像内の位置形状を特定し、アノテーションデータとして与える。アノテーションを行う作業者は、腹腔鏡下胆のう摘出術の豊富な暗黙知を有している医師等である。

　図１４に、アノテーションの例を示す。アノテーション前の学習用画像には、肝臓ＫＺと、胆のうＴＮＮと、処置具ＴＬ１、ＴＬ２とが撮像されている。この学習用画像の画角内には、総胆管及び胆のう管、ルビエレ溝、Ｓ４下縁が含まれている。図１４において、肝臓右葉の実線部分は、ルビエレ溝の開始部分（比較的明瞭な部分）を示し、点線部分は溝の終了部分に向かって徐々に溝が消失していく状態を示す。また、肝臓左葉内側の下縁付近の点線は、画像で視認できるが境界が曖昧な対象物であるＳ４下縁の領域を示す。

　アノテーションを行う作業者は、学習用画像から総胆管及び胆のう管、ルビエレ溝、Ｓ４下縁を識別し、各々に対してタグ付けを行う。アノテーション後の学習用画像には、総胆管を示すタグＴＧＡと、胆のう管を示すタグＴＧＢと、ルビエレ溝を示すタグＴＧＣと、Ｓ４下縁を示すタグＴＧＤが付されている。例えば、作業者は、マウス又はタッチパネル等のポインティングデバイスを用いて、総胆管等の領域を指定する。学習装置は、作業差によって指定された学習用画像上の領域にタグを付す。

　図１５に、アノテーションにより生成された教師データの例を示す。図１５に示すように、タグ付けされた領域の画素に、フラグが付される。この各画素にフラグが付されたマップデータを、以下ではフラグデータ（アノテーションデータ）と呼ぶ。フラグデータは、タグＴＧＡ～ＴＧＤの各々について生成される。即ち、教師データは、学習用画像と、その学習用画像にタグ付けすることで生成された４層のフラグデータと、で構成されている。

　図１６は、トラッキングによる自動タグ付けを説明する図である。図１６には、内視鏡スコープ２で撮像された動画のフレーム画像を示す。これらの各フレーム画像が学習用画像となる。この動画のうち、所定のフレーム画像Ｆ１、Ｆｘ、Ｆｘ＋１、Ｆｘ＋ｙが選択される。ｘは１以上の整数である。作業者が所定のフレーム画像Ｆ１、Ｆｘ、Ｆｘ＋１、Ｆｘ＋ｙを選択してもよいし、学習装置が画像処理によるシーン検出等によって所定のフレーム画像Ｆ１、Ｆｘ、Ｆｘ＋１、Ｆｘ＋ｙを選択してもよい。作業者は、選択された所定のフレーム画像Ｆ１、Ｆｘ、Ｆｘ＋１、Ｆｘ＋ｙに対してタグ付けを行う。

　所定のフレーム画像Ｆ１、Ｆｘ＋１は、例えば手術手順が切り替わるときのフレーム画像、又は動画の明暗が変化したときのフレーム画像、フレーム間のブレが大きく変化するときのフレーム画像、撮像する対象物が切り替わるときのフレーム画像等である。フレーム画像Ｆｘ、Ｆｘ＋ｙは手術手順の切り替わり等が発生する直前のフレーム画像である。フレーム画像Ｆ１、Ｆｘ＋１が開始フレームに対応し、フレーム画像Ｆｘ、Ｆｘ＋ｙが終了フレームに対応する。

　タグ付けが行われた開始フレームと終了フレームの間のフレーム画像は、トラッキングによってタグ付けされる。フレーム画像Ｆ１に対して作業者がタグＴＧＥ１を付し、フレーム画像Ｆｘに対して作業者がタグＴＧＥｘを付したとする。この場合、フレーム画像Ｆ２～Ｆｘ－１がトラッキングによるタグ付け対象となる。例えば、フレーム画像Ｆ１とフレーム画像Ｆ２の間において、タグＴＧＥ１のトラッキングを行うことによって、Ｆ２のタグＴＧＥ２ｆが取得される。具体的には上述したとおり、代表点の抽出、代表点のトラッキング、外れ値除去、閉曲線生成、タグ領域生成の各処理に基づいて、タグＴＧＥ２ｆが取得される。同様にして、Ｆ３～Ｆｘに対して順方向マスク画像に対応するタグＴＧＥ３ｆ～ＴＧＥｘｆが生成される。またフレーム画像Ｆｘとフレーム画像Ｆｘ－１の間において、タグＴＧＥｘのトラッキングを行うことによって、Ｆｘ－１のタグＴＧＥｘ－１ｂが取得される。同様にして、Ｆ１～Ｆｘ－２に対して逆方向マスク画像に対応するタグＴＧＥ１ｂ～ＴＧＥｘ－２ｂが生成される。タグＴＧＥ２～ＴＧＥｘ－１は、それぞれＴＧＥ２ｆ～ＴＧＥｘ－１ｆと、ＴＧＥ２ｂ～ＴＧＥｘ－１ｂとを合成することによって求められる合成マスク画像を表すタグである。

　同様に、シーン変化後のフレーム画像Ｆｘ＋１に対して作業者がタグＴＧＦ１を付し、フレーム画像Ｆｘ＋ｙに対して作業者がタグＴＧＦｙを付したとする。上記と同様にして、トラッキングにより、フレーム画像Ｆｘ＋２～Ｆｘ＋ｙ－１に対してタグＴＧＦ２～ＴＧＦｙ－１が付される。ｙは１以上の整数である。

　なお、図１６においてはシーン変化が検出されたフレームを開始フレームとし、次のシーン変化の直前のフレームを終了フレームとする例について説明した。ただし、トラッキング対象となる区間はシーン変化に基づいて設定されるものに限定されない。例えば、所定時間間隔ごとに、作業者によるタグ付けが行われてもよい。この場合、撮像される対象物の切り替わり等が発生しないため、１つのフレームを開始フレームと終了フレームの両方として利用することが可能である。例えば作業者によってタグ付けされたフレームを所与のトラッキング対象区間における終了フレームとするとともに、次のトラッキング対象区間における開始フレームとしてもよい。

　図１７は、学習装置５０の構成例である。学習装置５０は、トラッキング装置２００と、処理部５１と記憶部５２と操作部５３と表示部５４とを含む。例えば、学習装置５０はＰＣ等の情報処理装置である。処理部５１はＣＰＵ等のプロセッサである。処理部５１は、学習モデルに対する機械学習を行って学習済みモデルを生成する。記憶部５２は半導体メモリ又はハードディスクドライブ等の記憶装置である。操作部５３はマウス又はタッチパネル、キーボード等の種々の操作入力装置である。表示部５４は液晶ディスプレイ等の表示装置である。なお図１７においては学習装置５０がトラッキング装置２００を含む例を説明したが、学習装置５０とトラッキング装置２００はそれぞれ異なる機器であってもよい。

　図１８は、学習の手順を示すフローチャートである。なお、トラッキング装置２００によって生成されたアノテーションデータ（フラグデータ）は、学習用画像と対応付けられた上で、教師データとして記憶部５２に記憶されている。

　本実施形態の機械学習おいては、ニューラルネットワークが用いられてもよい。図１９は、ニューラルネットワークを説明する模式図である。ニューラルネットワークは、データが入力される入力層と、入力層からの出力に基づいて演算を行う中間層と、中間層からの出力に基づいてデータを出力する出力層を有する。図１９においては、中間層が２層であるネットワークを例示するが、中間層は１層であってもよいし、３層以上であってもよい。また各層に含まれるノード（ニューロン）の数は図１９の例に限定されず、種々の変形実施が可能である。なお精度を考慮すれば、本実施形態の学習は多層のニューラルネットワークを用いた深層学習（ディープラーニング）を用いることが望ましい。ここでの多層とは、狭義には４層以上である。

　図１９に示すように、所与の層に含まれるノードは、隣接する層のノードと結合される。各結合には重みが設定されている。各ノードは、前段のノードの出力と重みを乗算し、乗算結果の合計値を求める。さらに各ノードは、合計値に対してバイアスを加算し、加算結果に活性化関数を適用することによって当該ノードの出力を求める。この処理を、入力層から出力層へ向けて順次実行することによって、ニューラルネットワークの出力が求められる。ニューラルネットにおける学習は、適切な重み（バイアスを含む）を決定する処理である。学習には誤差逆伝播法等の種々の手法が知られており、本実施形態においてはそれらを広く適用可能である。

　より具体的には、本実施形態にかかるニューラルネットワークは、画像認識処理に好適な畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）である。ＣＮＮは、畳み込み演算を行う畳み込み層とプーリング層を含む。畳み込み層は、フィルタ処理を行う層である。プーリング層は、縦方向、横方向のサイズを縮小するプーリング演算を行う層である。またＣＮＮの出力層は、例えば広く知られたソフトマックス層が用いられる。なお、畳み込み層の数、プーリング層の数、出力層の態様等、ＣＮＮの具体的な構成は種々の変形実施が可能である。ＣＮＮの畳み込み層における重みは、フィルタのパラメータである。即ち、ＣＮＮにおける学習とは、畳み込み演算に用いるフィルタの学習を含む。ＣＮＮを含むニューラルネットワークについては広く知られた手法であるため、これ以上の詳細な説明は省略する。また本実施形態における機械学習はニューラルネットワークを用いる手法に限定されない。例えば本実施形態の手法には、ＳＶＭ（support vector machine）等、広く知られた種々の方式の機械学習、或いはそれらの方式を発展させた方式の機械学習を適用することが可能である。

　ステップＳ１１において、処理部５１は記憶部５２から教師データを読み出す。例えば１回の推論に対して１つの学習用画像と、それに対応したフラグデータとが読み出される。なお、１回の推論に複数の学習用画像と、それに対応したフラグデータとが用いられてもよい。

　ステップＳ１２において、処理部５１は対象物の位置形状を推定し、その結果を出力する。即ち、処理部５１は、ニューラルネットワークに学習用画像を入力する。処理部５１は、ニューラルネットワークによる推論処理を実行し、対象物の位置形状を示すフラグデータを出力する。

　ステップＳ１３において、処理部５１は、推定した位置形状と、アノテーションが示す位置形状を比較し、その結果に基づいて誤差を計算する。即ち、処理部５１は、ニューラルネットワークから出力されたフラグデータと、教師データのフラグデータとの誤差を計算する。

　ステップＳ１４において、処理部５１は、誤差が減少するように学習モデルのモデルパラメータを調整する。即ち、処理部５１は、ステップＳ１３で求めた誤差に基づいて、ニューラルネットワークにおけるノード間の重み係数等を調整する。

　ステップＳ１５において、処理部５１は、パラメータ調整を規定回数終了したか否かを判断する。パラメータ調整が規定回数終了していない場合、処理部５１はステップＳ１１～Ｓ１５を再び実行する。パラメータ調整が規定回数終了した場合、ステップＳ１６に示すように処理部５１は学習処理を終了する。又は、処理部５１は、ステップＳ１３で求めた誤差が規定値以下になったか否かを判断する。誤差が規定値以下になっていない場合、処理部５１はステップＳ１１～Ｓ１５を再び実行する。誤差が規定値以下になった場合、ステップＳ１６に示すように処理部５１は学習処理を終了する。以上の処理を行うことによって、学習結果として学習済モデルが出力される。

　図２０は、情報処理システム１０、及び情報処理システム１０を含む内視鏡システム１００の構成例である。情報処理システム１０は、学習済モデルを用いた推論処理を行う推論装置である。内視鏡システム１００は、プロセッサユニット１と、内視鏡スコープ２と、表示部３と、を含む。また内視鏡システム１００は操作部９を更に含んでもよい。

　内視鏡スコープ２の先端部には撮像装置が設けられ、その先端部が腹腔内に挿入される。撮像装置が腹腔内の画像を撮影し、その撮像データが内視鏡スコープ２からプロセッサユニット１へ送信される。

　プロセッサユニット１は、内視鏡システム１００における種々の処理を行う装置である。例えばプロセッサユニット１は、内視鏡システム１００の制御、及び画像処理等を行う。プロセッサユニット１は、内視鏡スコープ２からの撮像データを受信する撮像データ受信部８と、学習済みモデルにより撮像データから対象物を検出する情報処理システム１０と、を含む。

　撮像データ受信部８は、例えば内視鏡スコープ２のケーブルが接続されるコネクター、又は、撮像データを受信するインターフェース回路等である。

　情報処理システム１０は、学習済みモデルを記憶する記憶部７と、記憶部７に記憶された学習済みモデルに基づいて画像から対象物を検出する処理部４と、を含む。

　記憶部７は、例えば半導体メモリ、又はハードディスクドライブ、光学ディスクドライブ等の記憶装置である。記憶部７には、予め学習済みモデルが記憶されている。或いは、サーバ等の外部装置からネットワークを介して学習済みモデルが情報処理システム１０に入力され、その学習済みモデルを記憶部７が記憶してもよい。

　処理部４は、学習済みモデルによる推論によって画像から対象物を検出する検出部５と、その検出結果に基づいて対象物を示す情報を画像に重畳して表示部３に表示させる出力部６と、を含む。学習済みモデルによる推論を実行するハードウェアとしては、種々想定できる。例えば、検出部５はＣＰＵ等の汎用プロセッサである。この場合、記憶部７は、推論アルゴリズムが記述されたプログラムと、その推論アルゴリズムに用いられるパラメータと、を学習済みモデルとして記憶する。或いは、検出部５は、推論アルゴリズムがハードウェア化された専用プロセッサであってもよい。この場合、記憶部７は、推論アルゴリズムに用いられるパラメータを学習済みモデルとして記憶する。推論アルゴリズムはニューラルネットワークを適用することができる。この場合、ニューラルネットワークにおけるノード間接続の重み係数がパラメータである。

　検出部５は、内視鏡スコープ２で撮像された検出用画像を学習済みモデルに入力する。検出部５は、学習済みモデルによる検出処理を行うことで、検出用画像における対象物の位置形状を検出する。即ち、検出結果は検出フラグデータとして出力される。検出フラグデータは、検出された対象物の位置形状に対応した画素にフラグが付されたフラグマップである。例えば、図１５で説明した教師データと同様に、各対象物に対応した４層の検出フラグデータが出力される。

　表示部３は、出力部６から出力された画像を表示するモニタであり、例えば液晶ディスプレイ又は有機ＥＬディスプレイ等の表示装置である。

　操作部９は、作業者が内視鏡システム１００を操作するための装置である。例えば、操作部９は、ボタン、又はダイヤル、フットスイッチ、タッチパネル等である。後述するように、出力部６は、操作部９からの入力情報に基づいて、対象物の表示態様を変更してもよい。

　なお、上記では情報処理システム１０がプロセッサユニット１に含まれるが、情報処理システム１０の一部又は全部がプロセッサユニット１の外部に設けられてもよい。例えば、記憶部７と検出部５がＰＣ又はサーバ等の外部処理装置により実現されてもよい。この場合、撮像データ受信部８は、撮像データを、ネットワーク等を介して外部処理装置に送信する。外部処理装置は、検出した対象物を示す情報を、ネットワーク等を介して出力部６に送信する。出力部６は、受信した情報を画像に重畳して表示部３に表示させる。

　本実施形態の手法は、検出用画像を入力として受け付け、検出用画像から所与の被写体の位置を検出する処理を行い、検出結果を出力するよう、コンピュータを機能させるための学習済みモデルに適用できる。学習済モデルは、上記トラッキング方法によって生成されたアノテーションデータが、動画に含まれるフレームの画像に対応付けられた訓練データに基づいて、機械学習されている。なお、アノテーションデータが対応付けられるフレーム画像とは、動画に含まれる全フレームであってもよい。ただし本実施形態の手法はこれに限定されず、動画の一部のフレーム画像に対してアノテーションデータが対応付けられてもよい。この場合、アノテーションデータが対応付けられたフレーム画像を用いて機械学習が行われる。

　本実施形態のトラッキング方法によれば、動画中の対象物に付されたタグ付け領域から精度よくトラッキングを行うことによって、精度の高いアノテーションデータを作成することが可能である。そのため、当該アノテーションデータを教師データとする機械学習を行うことによって、精度の高い検出処理を実行可能な学習済モデルを生成することが可能である。

　また本実施形態の手法は、上記の学習済モデルを記憶する記憶部７と、検出用画像を撮像する内視鏡スコープ２と、学習済モデルに基づいて、検出用画像から所与の被写体の位置を検出する処理を行う処理部４と、を含む内視鏡システム１００に適用できる。

　このようにすれば、検出用画像から所望の被写体を精度よく検出することが可能になる。特に、画像に明確な位置形状が表示されない対象物についてアノテーションが付された教師データを用いて機械学習することで、熟練医師等の暗黙知に基づく対象物の検出を実現することも可能である。その際、トラッキングを用いて教師データを生成できるため、アノテーションにおける医師等の負担軽減が可能である。

　以上、本実施形態およびその変形例について説明したが、本開示は、各実施形態やその変形例そのままに限定されるものではなく、実施段階では、発明の要旨を逸脱しない範囲内で構成要素を変形して具体化することができる。また、上記した各実施形態や変形例に開示されている複数の構成要素を適宜組み合わせることによって、種々の発明を形成することができる。例えば、各実施形態や変形例に記載した全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態や変形例で説明した構成要素を適宜組み合わせてもよい。このように、発明の主旨を逸脱しない範囲内において種々の変形や応用が可能である。また、明細書又は図面において、少なくとも一度、より広義または同義な異なる用語と共に記載された用語は、明細書又は図面のいかなる箇所においても、その異なる用語に置き換えることができる。

１…プロセッサユニット、２…内視鏡スコープ、３…表示部、４…処理部、５…検出部、６…出力部、７…記憶部、８…撮像データ受信部、９…操作部、１０…情報処理システム、５０…学習装置、５１…処理部、５２…記憶部、５３…操作部、５４…表示部、１００…内視鏡システム、２００…トラッキング装置、２１０…フレーム設定部、２２０…順方向トラッキング部、２２１…代表点抽出部、２２２…トラッキング部、２２３…外れ値除去部、２２４…代表点更新部、２３０…逆方向トラッキング部、２４０…トラッキング結果合成部、２５０…表示処理部、ＫＺ…肝臓、ＴＧＡ-ＴＧＤ，ＴＧＥ１-ＴＧＥｘ，ＴＧＦ１-ＴＧＦｙ…タグ、ＴＩ…テンプレート画像、ＴＬ１，ＴＬ２…処置具、

Claims

　複数のフレームを含む動画について、開始フレームと終了フレームを設定するフレーム設定部と、
　前記開始フレームにおけるトラッキング対象の領域に基づいて、前記開始フレーム以降のフレームについて、順方向に前記トラッキング対象をトラッキングする順方向トラッキングを行う順方向トラッキング部と、
　前記終了フレームにおける前記トラッキング対象の領域に基づいて、前記終了フレーム以前のフレームについて、逆方向に前記トラッキング対象をトラッキングする逆方向トラッキングを行う逆方向トラッキング部と、
　前記順方向トラッキングと前記逆方向トラッキングがそれぞれ行われたフレームについて、前記順方向トラッキングに基づく順方向マスク画像と、前記逆方向トラッキングに基づく逆方向マスク画像とを合成することによって、前記トラッキング対象の領域を示す合成マスク画像を生成するトラッキング結果合成部と、
　を含むことを特徴とするトラッキング装置。
　請求項１において、
　前記開始フレームにおける前記トラッキング対象の領域、及び、前記終了フレームにおける前記トラッキング対象の領域は、前記トラッキング対象について付されたタグ付けデータに基づいて設定されることを特徴とするトラッキング装置。
　請求項１又は２において、
　前記トラッキング結果合成部は、
　前記開始フレームに近いフレームは、前記逆方向マスク画像に比べて、前記順方向マスク画像の重みが大きくなる重み情報を設定し、
　前記終了フレームに近いフレームは、前記順方向マスク画像に比べて、前記逆方向マスク画像の重みが大きくなる前記重み情報を設定し、
　前記重み情報に基づいて、前記順方向マスク画像と前記逆方向マスク画像を合成することによって、前記合成マスク画像を生成することを特徴とするトラッキング装置。
　請求項１又は２において、
　前記トラッキング結果合成部は、
　前記開始フレーム以降の所定数のフレームは、前記順方向マスク画像を前記合成マスク画像として適用し、
　前記終了フレーム以前の所定数のフレームは、前記逆方向マスク画像を前記合成マスク画像として適用することを特徴とするトラッキング装置。
　請求項１乃至４のいずれか一項において、
　前記合成マスク画像において、前記順方向マスク画像と前記逆方向マスク画像が重複しない部分が、前記順方向マスク画像と前記逆方向マスク画像が重複する部分よりも透過率が高くなるように、前記合成マスク画像を前記動画に重畳表示する表示処理部をさらに含むことを特徴とするトラッキング装置。
　請求項１乃至５のいずれか一項において、
　前記順方向トラッキング部は、
　前記開始フレームにおける前記トラッキング対象の輪郭について、開始時トラッキング点を抽出し、抽出した前記開始時トラッキング点に基づいて前記順方向トラッキングを行い、
　前記逆方向トラッキング部は、
　前記終了フレームにおける前記トラッキング対象の輪郭について、終了時トラッキング点を抽出し、抽出した前記終了時トラッキング点に基づいて前記逆方向トラッキングを行うことを特徴とするトラッキング装置。
　請求項６において、
　前記順方向マスク画像は、前記開始時トラッキング点のトラッキング結果である複数の点を繋いだ閉曲線の内部の領域を特定する画像であり、
　前記逆方向マスク画像は、前記終了時トラッキング点のトラッキング結果である複数の点を繋いだ閉曲線の内部の領域を特定する画像であることを特徴とするトラッキング装置。
　請求項１乃至７のいずれか一項において、
　前記トラッキング結果合成部は、
　前記動画中のフレーム位置、及び画像上の画素位置に依存する重み付け係数に基づいて、前記順方向マスク画像と前記逆方向マスク画像を合成することを特徴とするトラッキング装置。
　請求項８において、
　前記画素位置をｘとし、前記フレーム位置をｔとし、前記合成マスク画像をＩとし、前記順方向マスク画像をＩｆとし、前記逆方向マスク画像をＩｂとした場合に、
　前記トラッキング結果合成部は、
　順方向重み付け係数ｗｆと、逆方向重み付け係数ｗｂとを用いて、下式（１）に基づいて前記合成マスク画像を生成することを特徴とするトラッキング装置。
　Ｉ（ｔ，ｘ）＝ｗｆ（ｔ，ｘ）×Ｉｆ（ｔ，ｘ）＋ｗｂ（ｔ，ｘ）×Ｉｂ（ｔ，ｘ）
　　　…（１）
　検出用画像を入力として受け付け、前記検出用画像から所与の被写体の位置を検出する処理を行い、検出結果を出力するよう、コンピュータを機能させるための学習済みモデルであって、
　複数のフレームを含む動画について、開始フレームと終了フレームを設定する工程と、
　前記開始フレームにおけるトラッキング対象の領域に基づいて、前記開始フレーム以降のフレームについて、順方向に前記トラッキング対象をトラッキングする順方向トラッキングを行う工程と、
　前記終了フレームにおける前記トラッキング対象の領域に基づいて、前記終了フレーム以前のフレームについて、逆方向に前記トラッキング対象をトラッキングする逆方向トラッキングを行う工程と、
　前記順方向トラッキングと前記逆方向トラッキングがそれぞれ行われたフレームについて、前記順方向トラッキングに基づく順方向マスク画像と、前記逆方向トラッキングに基づく逆方向マスク画像とを合成することによって、前記トラッキング対象の領域を示す合成マスク画像を生成する工程と、
　によって生成された前記合成マスク画像が、前記動画に含まれる複数の前記フレームの各フレームの画像に対応付けられた訓練データに基づいて、機械学習されていることを特徴とする学習済モデル。
　請求項１０に記載の学習済モデルを記憶する記憶部と、
　前記検出用画像を撮像する内視鏡スコープと、
　前記学習済モデルに基づいて、前記検出用画像から前記所与の被写体の位置を検出する処理を行う処理部と、
　を含むことを特徴とする内視鏡システム。
　複数のフレームを含む動画について、開始フレームと終了フレームを設定する工程と、
　前記開始フレームにおけるトラッキング対象の領域に基づいて、前記開始フレーム以降のフレームについて、順方向に前記トラッキング対象をトラッキングする順方向トラッキングを行う工程と、
　前記終了フレームにおける前記トラッキング対象の領域に基づいて、前記終了フレーム以前のフレームについて、逆方向に前記トラッキング対象をトラッキングする逆方向トラッキングを行う工程と、
　前記順方向トラッキングと前記逆方向トラッキングがそれぞれ行われたフレームについて、前記順方向トラッキングに基づく順方向マスク画像と、前記逆方向トラッキングに基づく逆方向マスク画像とを合成することによって、前記トラッキング対象の領域を示す合成マスク画像を生成する工程と、
　を含むことを特徴とするトラッキング方法。