WO2021214991A1

WO2021214991A1 - モデル生成システム、形状認識システム、モデル生成方法、形状認識方法、及びコンピュータプログラム

Info

Publication number: WO2021214991A1
Application number: PCT/JP2020/017739
Authority: WO
Inventors: 理史藤塚
Original assignee: 日本電気株式会社
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2021-10-28
Also published as: US20230177797A1; JPWO2021214991A1

Abstract

モデル生成システム（１）は、対象画像から物体が占める領域である物体領域部分を抽出する抽出手段（１１０）と、物体領域部分を入力として機械学習を実行し、物体の形状を分類するための形状分類モデル（３００）を生成する生成手段（１２０）とを備える。このようにして生成される形状分類モデルを用いれば、画像中の物体の形状を適切に認識することが可能となる。

Description

モデル生成システム、形状認識システム、モデル生成方法、形状認識方法、及びコンピュータプログラム

　本発明は、物体の形状を認識するためのモデル生成システム、形状認識システム、モデル生成方法、形状認識方法、及びコンピュータプログラムの技術分野に関する。

　この種のシステムとして、画像内の物体を認識するものが知られている。例えば特許文献１では、物体の特徴（質感、色、形状、境界等）を用いて物体を識別する技術が開示されている。その他の関連する技術として、特許文献２では、物体の形状から同一物であることを推測する技術が開示されている。特許文献３では、画像内のオブジェクトの類似度を用いて画像を検索する技術が開示されている。

特表２０２０－５０７８５５号公報特開２０１９－０７０４６７号公報特開平１０－２４０７７１号公報

　物体の形状を認識するためには、形状に関する情報を用いて機械学習を行う方法が考えられる。しかしながら、上述した特許文献１に記載されているような技術では、画像中の背景の違いや、物体の色の違いなど様々な特徴が含まれている中から、形状だけの特徴を捉えて学習させることが極めて困難である。即ち、上述した技術を適用したとしても、物体の形状を適切に認識するシステムを構築するのは容易ではない。

　本発明は、上記問題点に鑑みてなされたものであり、物体の形状を適切に認識することが可能なモデル生成システム、形状認識システム、モデル生成方法、形状認識方法、及びコンピュータプログラムを提供することを課題とする。

　本発明のモデル生成システムの一の態様は、対象画像から物体が占める領域である物体領域部分を抽出する抽出手段と、前記物体領域部分を入力として機械学習を実行し、前記物体の形状を分類するための形状分類モデルを生成する生成手段とを備える。

　本発明の形状認識システムの一の態様は、対象画像から物体が占める領域である物体領域部分を抽出する抽出手段と、前記物体の形状を分類するための形状分類モデルを用いて、前記物体領域部分の前記物体の形状を推定する推定手段とを備える。

　本発明のモデル生成方法の一の態様は、対象画像から物体が占める領域である物体領域部分を抽出し、前記物体領域部分を入力として機械学習を実行し、前記物体の形状を分類するための形状分類モデルを生成する。

　本発明の形状認識方法の一の態様は、対象画像から物体が占める領域である物体領域部分を抽出し、前記物体の形状を分類するための形状分類モデルを用いて、前記物体領域部分の前記物体の形状を推定する。

　本発明のコンピュータプログラムの一の態様は、対象画像から物体が占める領域である物体領域部分を抽出し、前記物体領域部分を入力として機械学習を実行し、前記物体の形状を分類するための形状分類モデルを生成するようにコンピュータを動作させる。

　本発明のコンピュータプログラムの一の態様は、対象画像から物体が占める領域である物体領域部分を抽出し、前記物体の形状を分類するための形状分類モデルを用いて、前記物体領域部分の前記物体の形状を推定するようにコンピュータを動作させる。

　上述したモデル生成システム、形状認識システム、モデル生成方法、形状認識方法、及びコンピュータプログラムのそれぞれの一の態様によれば、物体の形状を適切に認識することが可能である。

第１実施形態に係るモデル生成システムのハードウェア構成を示すブロック図である。第１実施形態に係るモデル生成システムが備える機能ブロックを示すブロック図である。インスタンスセグメンテーションモデルを用いた物体領域部分の抽出を示す概念図である。第１実施形態に係るモデル生成システムの動作の流れを示すフローチャートである。第２実施形態に係るモデル生成システムが備える機能ブロックを示すブロック図である。第２実施形態に係るモデル生成システムの動作の流れを示すフローチャートである。第３実施形態に係る形状認識システムが備える機能ブロックを示すブロック図である。第３実施形態に係る形状認識システムの動作の流れを示すフローチャートである。第３実施形態に係る形状認識システムの具体的な動作例を示す概念図である。第３実施形態に係る形状認識システムの具体的な出力例を示す図（その１）である。第３実施形態に係る形状認識システムの具体的な出力例を示す図（その２）である。第４実施形態に係る形状認識システムが備える機能ブロックを示すブロック図である。第４実施形態に係る形状認識システムの動作の流れを示すフローチャートである。変形例に係る形状認識システムの動作の流れを示すフローチャートである。

　以下、図面を参照しながら、モデル生成システム、形状認識システム、モデル生成方法、形状認識方法、及びコンピュータプログラムの実施形態について説明する。

　＜第１実施形態＞
　まず、第１実施形態に係るモデル生成システムについて、図１から図４を参照して説明する。

　（ハードウェア構成）
　図１を参照しながら、第１実施形態に係るモデル生成システムのハードウェア構成について説明する。図１は、第１実施形態に係るモデル生成システムのハードウェア構成を示すブロック図である。

　図１に示すように、第１実施形態に係るモデル生成システム１０は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）１１と、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）１２と、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）１３と、記憶装置１４とを備えている。モデル生成システム１０は更に、入力装置１５と、出力装置１６とを備えていてもよい。ＣＰＵ１１と、ＲＡＭ１２と、ＲＯＭ１３と、記憶装置１４と、入力装置１５と、出力装置１６とは、データバス１７を介して接続されている。

　ＣＰＵ１１は、コンピュータプログラムを読み込む。例えば、ＣＰＵ１１は、ＲＡＭ１２、ＲＯＭ１３及び記憶装置１４のうちの少なくとも一つが記憶しているコンピュータプログラムを読み込むように構成されている。或いは、ＣＰＵ１１は、コンピュータで読み取り可能な記録媒体が記憶しているコンピュータプログラムを、図示しない記録媒体読み取り装置を用いて読み込んでもよい。ＣＰＵ１１は、ネットワークインタフェースを介して、モデル生成システム１０の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい（つまり、読み込んでもよい）。ＣＰＵ１１は、読み込んだコンピュータプログラムを実行することで、ＲＡＭ１２、記憶装置１４、入力装置１５及び出力装置１６を制御する。本実施形態では特に、ＣＰＵ１１が読み込んだコンピュータプログラムを実行すると、ＣＰＵ１１内には、物体の形状を識別する形状分類モデルを生成するための機能ブロックが実現される。

　ＲＡＭ１２は、ＣＰＵ１１が実行するコンピュータプログラムを一時的に記憶する。ＲＡＭ１２は、ＣＰＵ１１がコンピュータプログラムを実行している際にＣＰＵ１１が一時的に使用するデータを一時的に記憶する。ＲＡＭ１２は、例えば、Ｄ－ＲＡＭ（Ｄｙｎａｍｉｃ　ＲＡＭ）であってもよい。

　ＲＯＭ１３は、ＣＰＵ１１が実行するコンピュータプログラムを記憶する。ＲＯＭ１３は、その他に固定的なデータを記憶していてもよい。ＲＯＭ１３は、例えば、Ｐ－ＲＯＭ（Ｐｒｏｇｒａｍｍａｂｌｅ　ＲＯＭ）であってもよい。

　記憶装置１４は、モデル生成システム１０が長期的に保存するデータを記憶する。記憶装置１４は、ＣＰＵ１１の一時記憶装置として動作してもよい。記憶装置１４は、例えば、ハードディスク装置、光磁気ディスク装置、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）及びディスクアレイ装置のうちの少なくとも一つを含んでいてもよい。

　入力装置１５は、モデル生成システム１０のユーザからの入力指示を受け取る装置である。入力装置１５は、例えば、キーボード、マウス及びタッチパネルのうちの少なくとも一つを含んでいてもよい。

　出力装置１６は、モデル生成システム１０に関する情報を外部に対して出力する装置である。例えば、出力装置１６は、モデル生成システム１０に関する情報を表示可能な表示装置（例えば、ディスプレイ）であってもよい。

　（システム構成）
　続いて、図２を参照しながら、第１実施形態に係るモデル生成システム１０の機能的構成について説明する。図２は、第１実施形態に係るモデル生成システムが備える機能ブロックを示すブロック図である。

　図２に示すように、第１実施形態に係るモデル生成システム１０は、物体領域部分抽出部１１０と、モデル生成部１２０とを備えて構成されている。これらの機能ブロックは、例えばＣＰＵ１１（図１参照）において実現される。

　物体領域部分抽出部１１０は、システムに入力された画像データから、所定の形状（言い換えれば、認識すべき形状）の物体が占める領域である物体領域部分を抽出可能に構成されている。物体領域部分抽出部１１０は、インスタセグメンテーションモデル２００を用いて、物体領域部分を抽出する。ここで図３を参照して、インタンスセグメンテーションモデル２００を用いた物体領域部分の抽出方法について説明する。図３は、インスタンスセグメンテーションモデルを用いた物体領域部分の抽出を示す概念図である。

　図３に示すように、インスタンスセグメンテーションモデル２００を用いれば、物体が含まれる画像から、物体領域部分だけを抽出することができる。例えば、リンゴやゴルフボールのような丸いものの画像からは、それらが占める領域だけ（即ち、丸い領域だけ）を切り取ったマスク画像を抽出することができる。同様に、スマートフォンやパソコンモニタのような四角いものの画像からは、それらが占める領域だけ（即ち、四角い領域だけ）を切り取ったマスク画像を抽出することができる。

　なお、インスタンスセグメーテーションモデル２００は、画像を複数の単位領域ごとに処理する（例えば、画像をピクセル単位で処理する）ことで物体領域部分を抽出するモデルであるが、その技術は既存のものであるため、ここでのより詳細な説明は省略するものとする。また、ここではインスタンスセグメンテーションモデルを用いた手法を挙げたが、その他の手法で物体領域部分を抽出してもよい。

　図２に戻り、物体領域部分抽出部１１０は、インスタンスセグメーテーションモデル２００を用いて抽出した物体領域部分を出力する。物体領域部分抽出部１１０から出力された物体領域部分に関する情報は、モデル生成部１２０に出力される構成となっている。なお、物体領域部分抽出部１１０は、「抽出手段」の一具体例である。

　モデル生成部１２０は、物体領域部分抽出部１１０で抽出された物体領域部分を入力データ（言い換えれば、教師データ）として、機械学習を実行可能に構成されている。モデル生成部１２０は、この機械学習によって、物体の形状を認識するための形状分類モデルを生成する。なお、物体領域部分は、モデル生成部１２０に入力される前に手動でアノテーション（例えば、抽出された形状が実際にどのような形状であるかを示す情報の付与）が行われても構わない。モデル生成部１２０の機械学習には、適宜既存の学習手法を適用することが可能である。モデル生成部１２０は、「生成手段」の一具体例である。

　（動作説明）
　次に、図４を参照しながら、第１実施形態に係るモデル生成システム１０の動作の流れについて説明する。図４は、第１実施形態に係るモデル生成システムの動作の流れを示すフローチャートである。

　図４に示すように、第１実施形態に係るモデル生成システム１０には、まず複数の画像データからなる画像データ群が入力される（ステップＳ１０１）。ここで入力される画像データ群は、形状分類モデルで認識すべき所定の形状の物体（例えば、丸い物体や四角い物体）が撮像された画像データである。ただし、すべての画像データに所定の形状の物体が含まれている必要はない。

　次に、物体領域部分抽出部１１０が、入力された画像データ群から、所定の形状の物体が占める物体領域部分を抽出する（ステップＳ１０２）。そして、モデル生成部１２０は、抽出された物体領域部分を入力データとして機械学習を実行する（ステップＳ１０３）。モデル生成部１２０は、機械学習の結果として、物体の形状を認識するための形状分類モデルを出力する（ステップＳ１０４）。

　（技術的効果）
　次に、第１実施形態に係るモデル生成システム１０によって得られる技術的効果について説明する。

　図１から図４で説明したように、第１実施形態に係るモデル生成システム１０では、インスタンスセグメンテーションモデル２００を用いて物体領域部分が抽出され、その物体領域部分を入力した機械学習により形状分類モデルが生成される。このようにして生成した形状分類モデルを用いれば、画像内の物体の形状を適切に認識することが可能である。より具体的には、物体領域部分を抽出することで、画像内に含まれる物体の形状に関する情報だけを適切に抽出することができる。例えば、図２に示すようなマスク画像では、形状以外の他の情報（例えば、色や模様に関する情報等）が削ぎ落とされ、物体の形状に関する情報のみが確実に抽出されている。また、画像内で互いに重なっている物体（即ち、重なりによって形状が判別し難くなっている物体）についても、その物体領域部分のみを抽出することで、どのような形状であるかを判別し易くなっている。従って、第１実施形態に係るモデル生成システム１０によれば、物体の形状を適切に認識することが可能な形状分類モデルを生成することができる。

　また、本実施形態では特に、物体領域部分を入力として形状分類モデルを生成することで、形状の曖昧さを許容した認識を実現することができる。具体的には、丸っぽい形状、四角っぽい形状のような曖昧な形状（即ち、きれいな四角や丸からかけ離れた形状）についても認識することが可能となる。

　＜第２実施形態＞
　次に、第２実施形態に係るモデル生成システム１０について、図５及び図６を参照して説明する。なお、第２実施形態は、上述した第１実施形態と比べて一部の構成及び動作が異なるのみであり、その他の部分については概ね同様である。このため、以下では第１実施形態と異なる部分について詳細に説明し、他の重複する部分については適宜説明を省略するものとする。

　（システム構成）
　まず、図５を参照しながら、第２実施形態に係るモデル生成システム１０の機能的構成について説明する。図５は、第２実施形態に係るモデル生成装置が備える機能ブロックを示すブロック図である。なお、図５では、図２で示した構成要素と同様のものに同一の符号を付している。

　図５に示すように、第２実施形態に係るモデル生成装置１０は、物体領域部分抽出部１１０と、モデル生成部１２０と、指定画像抽出部１３０と、箱領域抽出部１４０とを備えている。即ち、第２実施形態に係るモデル生成装置１０は、第１実施形態の構成（図２参照）に加えて、指定画像抽出部１３０と、箱領域抽出部１４０とを更に備えて構成されている。

　指定画像抽出部１３０は、モデル生成システム１０に入力される画像データ群（即ち、複数の画像データ）の中から、認識すべき所定の形状の物体が含まれている画像のみを抽出可能に構成されている。指定画像抽出部１３０は、所定の形状を指定可能に構成されてもよい。この場合、例えばユーザが所定の形状（複数でもよい）を指定すると、指定画像抽出部１３０が、指定された所定の形状の物体が含まれている画像（以下、適宜「指定画像」と称する）のみを抽出する。より具体的には、例えばユーザが「丸い」という形状を指定すると、複数の画像の中からリンゴやボールのような丸い物体が含まれる画像のみが抽出される。指定画像抽出部１３０は、インスタンスセグメンテーションモデル２００を用いて指定画像を抽出する。ただし、指定画像抽出部１３０は、インスタンスセグメンテーションモデル２００を用いずに指定画像を抽出してもよい。指定画像抽出部１３０で抽出された指定画像は、箱領域抽出部１４０に出力される構成となっている。なお、指定画像抽出部１３０は、「第３の抽出手段」の一具体例である。

　箱領域抽出部１４０は、指定画像抽出部１３０で抽出された指定画像（即ち、所定の形状の物体が含まれている画像）から、画像中の物体の位置を示す箱領域（具体的には、物体を囲む矩形領域）を抽出可能に構成されている。箱領域抽出部１４０は、１枚の指定画像から複数の箱領域を抽出してもよい。箱領域抽出部１４０は、インスタンスセグメンテーションモデル２００を用いて箱領域を抽出する。ただし、箱領域抽出部１４０は、インスタンスセグメンテーションモデル２００を用いずに箱領域抽出部１４０を抽出してもよい。箱領域抽出部１４０で抽出された箱領域は、物体領域部分抽出部１１０に出力される構成となっている。なお、箱領域抽出部１４０は、「第２の抽出手段」の一具体例である。

　（動作説明）
　次に、図６を参照しながら、第２実施形態に係るモデル生成システム１０の動作の流れについて説明する。図６は、第２実施形態に係るモデル生成システムの動作の流れを示すフローチャートである。なお、図６では、図４で示した処理と同様の処理に同一の符号を付している。

　図６に示すように、第２実施形態に係るモデル生成システム１０の動作時には、まず複数の画像データからなる画像データ群が入力される（ステップＳ１０１）。

　次に、指定画像抽出部１３０が、入力された画像データ群の中から所定の形状の物体が含まれる指定画像を抽出する（ステップＳ１０２）。そして、箱領域抽出部１４０が、指定画像から、物体の位置を示す箱領域を抽出する（ステップＳ１０３）。

　次に、物体領域部分抽出部１１０が、抽出された箱領域から、所定の形状の物体が占める物体領域部分を抽出する（ステップＳ１０２）。具体的には、物体領域部分抽出部１１０は、箱領域として抽出された矩形領域を例えばピクセル単位で処理することで、物体領域部分を抽出する。

　次に、モデル生成部１２０は、抽出された物体領域部分を入力データとして機械学習を実行する（ステップＳ１０３）。モデル生成部１２０は、機械学習の結果として、物体の形状を認識するための形状分類モデルを出力する（ステップＳ１０４）。

　（技術的効果）
　次に、第２実施形態に係るモデル生成システム１０によって得られる技術的効果について説明する。

　図５及び図６で説明したように、第２実施形態に係るモデル生成システム１０では、画像データ群から所定の形状の物体が含まれる指定画像が抽出され、更に指定画像から物体の位置を示す箱領域が抽出される。このようにすれば、より容易に且つ高い精度で物体領域部分を抽出することができる。この結果、第２実施形態に係るモデル生成システム１０によれば、物体の形状をより適切に認識することが可能な形状分類モデルを生成することができる。

　＜変形例＞
　上述した例では、インスタンスセグメンテーションモデル２００を用いて、物体の形状に関する情報を抽出する例について説明したが、物体の色情報に関する情報を抽出するようにしてもよい。

　例えば、インステンスセグメンテーションモデル２００を用いれば、物体領域部分の色情報（例えばＲ，Ｇ，Ｂ情報）を抽出することができる。よって、物体上のＲ，Ｇ，Ｂの分布から、物体の色情報（例えば、赤、緑、青、黄色、白、黒等）を付与することが可能である。この場合、物体上でほぼ一様に同じ色なら１つの色とすればよいし、様々な色が分布しているなら「カラフル」のように特別な色情報を付与してもよい。或いは、物体の色分布から模様を判別して、物体の模様に関する情報を付与するようにしてもよい。

　上述した色情報は、形状に関する情報に付加するように付与されてもよい。この場合、モデル生成部１２０は、物体の形状に関する情報と色に関する情報とを学習して、物体の形状及び色を認識可能なモデルを生成してもよい。或いは、色情報は、形状に関する情報に代えて付与されてもよい。この場合、モデル生成部１２０は、物体の色に関する情報を学習して、物体の色を認識可能なモデルを生成してもよい。

　＜第３実施形態＞
　次に、第３実施形態に係る形状認識システム２０について、図７から図１１を参照して説明する。なお、第３実施形態に係る形状認識システム２０は、上述した第１及び第２実施形態に係るモデル生成システム１０と一部の構成や動作が共通している（例えば、ハードウェア構成は、図１に示したモデル生成システム１０と同様の構成であってよい）。このため、以下ではすでに説明した事項については説明を省略し、重複しない部分について詳しく説明するものとする。

　（システム構成）
　まず、図７を参照しながら、第３実施形態に係る形状認識システム２０の機能的構成について説明する。図７は、第３実施形態に係る形状認識システムが備える機能ブロックを示すブロック図である。なお、図７では、図２及び図５で示した構成要素と同様のものに同一の符号を付している。

　図７に示すように、第３実施形態に係る形状認識システム２０は、物体領域部分抽出部１１０と、形状推定部１５０とを備えている。なお、物体領域部分抽出部１１０は、第１及び第２実施形態に係るモデル生成システム１０が備えるもの（図２や図５参照）と同様のものであり、インスタンスセグメンテーションモデル２００を用いて、画像データから物体領域部分を抽出可能に構成されている。

　形状推定部１５０は、物体領域部分抽出部１１０で抽出された物体領域部分から、その物体の形状を推定可能に構成されている。形状推定部１５０は、形状分類モデル３００（即ち、第１及び第２実施形態に係るモデル生成システム１０で生成されたモデル）を用いて、物体の形状を推定する。形状推定部１５０は、「推定手段」の一具体例である。

　（動作説明）
　次に、図８を参照しながら、第３実施形態に係る形状認識システム２０の動作の流れについて説明する。図８は、第３実施形態に係る形状認識システム２０の動作の流れを示すフローチャートである。

　図８に示すように、第３実施形態に係る形状認識システム２０には、まず画像データが入力される（ステップＳ３０１）。ここで入力される画像は、形状を認識したい物体が含まれている画像である。なお、画像は複数枚入力されてもよい。その場合、以下の処理が各画像に対してそれぞれ実行されればよい。

　次に、物体領域部分抽出部１１０が、入力された画像から、所定の形状の物体が占める物体領域部分を抽出する（ステップＳ３０２）。そして、形状推定部１５０は、形状分類モデル３００を用いて、抽出された物体領域部分に対応する物体の形状を推定する（ステップＳ３０３）。最後に、形状推定部１５０は、推定結果として物体の形状を示す情報を出力する（ステップＳ３０４）。

　なお、形状推定部１５０は、物体領域部分に対応する物体が、所定の形状のいずれであるのか（例えば、丸いのか、それとの四角いのか等）を示す情報を出力すればよい。具体的には、その物体の丸さを示すスコアや四角さを示すスコアを出力すればよい。このスコアは、例えば、物体が丸い物体（或いは、四角い物体）であるかを示す確からしさを示す数値として出力されてもよい。また、物体が所定の形状のいずれにも分類されない形状である場合には「推定不可」等の情報を出力してもよい。

　＜具体的な出力例＞
　次に、図９から図１１を参照しながら、第３実施形態に係る形状認識システム２０の具体的な出力例について説明する。図９は、第３実施形態に係る形状認識システムの具体的な動作例を示す概念図である。図１０は、第３実施形態に係る形状認識システムの具体的な出力例を示す図（その１）である。図１１は、第３実施形態に係る形状認識システムの具体的な出力例を示す図（その２）である。

　図９に示す画像には、キーボード及びマウスが含まれている。このような画像に対してインスタンスセグメンテーションモデル２００を適用すると、キーボード及びマウス各々の物体領域部分を抽出することができる。

　続いて、物体領域部分に形状分類モデル３００を適用すると、物体領域部分に対応する物体の形状を示すスコア（０～１）が表示される。ここでは、キーボード（ｋｅｙｂｏａｒｄ）について「ｓｑｕａｒｅ（１．００）」というスコアが示されている。この結果は、画像中のキーボードが極めて四角い形状に近いことを意味している。一方、マウス（ｍｏｕｓｅ）について「ｃｉｒｃｌｅ（１．００）」というスコアが示されている。この結果は、画像中のマウスが極めて丸い形状に近いことを意味している。

　図１０に示す画像には、冷蔵庫及び電子レンジが含まれている。このような画像について同様に形状認識を行うと、冷蔵庫（ｒｅｆｒｉｇｅｒａｔｏｒ）について「ｓｑｕａｒｅ（１．００）」というスコアが示される。この結果は、画像中の冷蔵庫が極めて四角い形状に近いことを意味している。一方、電子レンジ（ｍｉｃｒｏｗａｖｅ）についても「ｓｑｕａｒｅ（１．００）」というスコアが示される。この結果は、画像中の電子レンジが極めて四角い形状に近いことを意味している。

　図１１に示す画像には、モニタ（ＴＶ）、キーボード、マウス、及びカップが含まれている。このような画像について同様に形状認識を行うと、モニタ（ｔｖ）について「ｓｑｕａｒｅ（１．００）」というスコアが示される。この結果は、画像中のモニタが極めて四角い形状に近いことを意味している。また、キーボード（ｋｅｙｂｏａｒｄ）についても「ｓｑｕａｒｅ（１．００）」というスコアが示される。この結果は、画像中のキーボードが極めて四角い形状に近いことを意味している。また、マウス（ｍｏｕｓｅ）については「ｃｉｒｃｌｅ（１．００）」というスコアが示されている。この結果は、画像中のマウスが極めて丸い形状に近いことを意味している。更に、カップ（ｃｕｐ）については「ｃｉｒｃｌｅ（０．５６）」というスコアが示されている。この結果は、画像中のカップがやや丸い形状に近いことを意味している。

　以上のように、物体の形状を示すスコアを表示すれば、物体がどのような形状なのかを直感的に把握することが可能である。また、スコアの大小によって、どの程度丸い形状に近いのか、或いはどの程度四角い形状に近いのかを判別することができる。よって、完全に丸い形状ではなくても、やや丸っぽい形状として判別することが可能であり、完全に四角い形状ではなくても、やや四角っぽい形状として判別することが可能である。

　なお、上述した例では、物体が丸いか又は四角いかを認識するケースを挙げたが、丸及び四角以外の形状を認識可能に構成されてもよい。例えば、三角や星型、或いは更に複雑な形状を認識可能に構成されてもよい。

　（技術的効果）
　次に、第３実施形態に係る形状認識システム２０によって得られる技術的効果について説明する。

　図７から図１１で説明したように、第３実施形態に係る形状認識システム２０では、インスタンスセグメンテーションモデル２００を用いて物体領域部分が抽出される。そして、物体領域部分に対して形状分類モデル３００を用いることで物体の形状が推定される。ここで、形状分類モデル３００は、すでに第１及び第２実施形態で説明したように、物体の形状を適切に認識可能なモデルとして生成されている。加えて、インスタンスセグメンテーションモデル２００により物体領域部分を抽出してから形状推定を行っているため、極めて高い精度で物体の形状を推定することが可能である。

　また、本実施形態では特に、物体領域部分を入力として生成された形状分類モデルを用いることで、形状の曖昧さを許容した認識を実現することができる。具体的には、丸っぽい形状、四角っぽい形状のような曖昧な形状（即ち、きれいな四角や丸からかけ離れた形状）についても認識することが可能となる。

　＜第４実施形態＞
　次に、第４実施形態に係る形状認識システム２０について、図１２から図１４を参照して説明する。なお、第４実施形態は、上述した第３実施形態と比べて一部の構成及び動作が異なるのみであり、その他の部分については概ね同様である。このため、以下では第３実施形態と異なる部分について詳細に説明し、他の重複する部分については適宜説明を省略するものとする。

　（システム構成）
　まず、図１２を参照しながら、第４実施形態に係る形状認識システム２０機能的構成について説明する。図１２は、第４実施形態に係る形状認識システムが備える機能ブロックを示すブロック図である。なお、図１２では、図７で示した構成要素と同様のものに同一の符号を付している。

　図１２に示すように、第４実施形態に係る形状認識システム２０は、物体領域部分抽出部１１０と、箱領域抽出部１４０と、形状推定部１５０とを備えている。即ち、第４実施形態に係るモデル生成装置１０は、第３実施形態の構成（図７参照）に加えて、箱領域抽出部１４０を更に備えて構成されている。なお、箱領域抽出部１４０は、第２実施形態で説明したように、画像から物体の位置を示す箱領域を抽出するものである。

　（動作説明）
　次に、図１３を参照しながら、第４実施形態に係る形状認識システム２０の動作の流れについて説明する。図１３は、第４実施形態に係る形状認識システムの動作の流れを示すフローチャートである。なお、図１３では、図８で示した処理と同様の処理に同一の符号を付している。

　図１３に示すように、第４実施形態に係る形状認識システム２０の動作時には、まず画像データが入力される（ステップＳ３０１）。

　次に、箱領域抽出部１４０が、入力された画像から、物体の位置を示す箱領域を抽出する（ステップＳ４０１）。そして、物体領域部分抽出部１１０が、抽出された箱領域から、所定の形状の物体が占める物体領域部分を抽出する（ステップＳ３０２）。

　次に、形状推定部１５０は、形状分類モデル３００を用いて、抽出された物体領域部分に対応する物体の形状を推定する（ステップＳ３０３）。最後に、形状推定部１５０は、推定結果として物体の形状を示す情報を出力する（ステップＳ３０４）。

　（技術的効果）
　次に、第４実施形態に係る形状認識システム２０によって得られる技術的効果について説明する。

　図１２及び図１３で説明したように、第４実施形態に係る形状認識システム２０では、入力された画像から物体の位置を示す箱領域が抽出される。このようにすれば、より容易に且つ高い精度で物体領域部分を抽出することができる。この結果、第４実施形態に係る形状認識システム２０によれば、より高い精度で物体の形状を推定することが可能である。

　＜変形例＞
　次に、図１４を参照しながら、上述した第４実施形態に係る形状認識システム２０の変形例について説明する。図１４は、変形例に係る形状認識システムの動作の流れを示すフローチャートである。なお、図１４では、図１３で示した処理と同様の処理に同一の符号を付している。

　第４実施形態では、画像データに含まれる物体の形状を推定する例を挙げたが、同様の手法で、映像データに含まれる物体の形状を推定することも可能である。この場合、映像データを複数の画像データの時系列集合として扱えばよい。

　図１４に示すように、変形例に係る形状認識システム２０の動作時には、まず繰り返し処理をカウントするためのパラメータであるＮが“１”とされる（ステップＳ５０１）。なお、ここでの“１”は所定の初期値であり、ステップＳ５０１の処理はＮを初期化する処理である。

　次に、形状認識システム２０には、映像データが入力される（ステップＳ５０２）。映像データは、Ｔ枚の時系列画像データからなるものである。形状認識システム２０は、映像データから、Ｎ番目の画像データを抽出する（ステップＳ５０３）。

　次に、箱領域抽出部１４０が、抽出したＮ番目の画像から、物体の位置を示す箱領域を抽出する（ステップＳ４０１）。そして、物体領域部分抽出部１１０が、抽出された箱領域から、所定の形状の物体が占める物体領域部分を抽出する（ステップＳ３０２）。

　次に、形状推定部１５０は、形状分類モデル３００を用いて、抽出された物体領域部分に対応する物体の形状を推定する（ステップＳ３０３）。そして、形状推定部１５０は、推定結果として物体の形状を示す情報を出力する（ステップＳ３０４）。

　次に、形状認識システム２０は、Ｎをインクリメントする（ステップＳ５０４）。そして、形状認識システム２０は、Ｎ＝Ｔであるか否かを判定する（ステップＳ５０５）。言い換えれば、映像データに含まれる最後の画像データの処理が終了したか否かを判定する。

　ここで、Ｎ＝Ｔでないと判定された場合（ステップＳ５０５：ＮＯ）、ステップＳ５０３から処理が再び実行される。よって、映像データに含まれる最後の画像データの処理が終了するまでは、ステップＳ５０３～ステップＳ５０４の処理が繰り返し実行されることになる。一方で、Ｎ＝Ｔであると判定された場合（ステップＳ５０５：ＹＥＳ）、一連の処理は終了する。

　以上説明した変形例によれば、映像データに含まれる物体の形状を適切に認識することが可能である。なお、映像データに関しては、ライフログ等の普及により映像検索システムへの活用が想定される。そして、自由テキストクエリによる映像検索を実現しようとする場合、「いつ（Ｗｈｅｎ）」、「どこで（Ｗｈｅｒｅ）」、「どのような（Ｈｏｗ）」、「もの（Ｗｈａｔ）」等のクエリに対応することが要求されことになる。

　ここで、「いつ（Ｗｈｅｎ）」のクエリについては、映像のタイムスタンプから取得した情報で対応できる。「どこで（Ｗｈｅｒｅ）」のクエリについては、映像のＧＰＳ情報（緯度・経度情報）で対応できる。「もの（Ｗｈａｔ）」のクエリについては、既存の物体検出を用いて取得できる情報で対応できる。その一方で、「どのような（Ｈｏｗ）」のクエリについては、既存の技術で取得できる情報では対応が難しい。

　これに対し、上述した変形例に係る形状認識システム２０によれば、映像データから認識した物体の形状に関する情報で「どのような（Ｈｏｗ）」のクエリに対応することが可能となる。具体的には、ユーザから物体の形状に関する指定を受け付け、映像データを構成する複数の画像データの中から、指定された形状の物体が含まれる画像を検索して出力するようにすればよい。この場合、ユーザからの形状の指定は、例えば入力装置１５（図１参照）を用いて行われてもよい。また、検索した画像の出力は、例えば出力装置１６（図１参照）を用いて行われてもよい。このようにすれば、例えば、「去年の８月に京都で見た丸い車」のような検索クエリに対して、「丸い」形状を有する物体を抽出して対応することができる。このように、変形例に係る形状認識システム２０は、映像データの自由テキストクエリ検索において、極めて有益な効果を奏することが考えられる。

　＜付記＞
　以上説明した実施形態に関して、更に以下の付記を開示する。

　（付記１）
　付記１に記載のモデル生成システムは、対象画像から物体が占める領域である物体領域部分を抽出する抽出手段と、前記物体領域部分を入力として機械学習を実行し、前記物体の形状を分類するための形状分類モデルを生成する生成手段とを備えることを特徴とするモデル生成システムである。

　（付記２）
　付記２に記載のモデル生成システムは、前記抽出手段は、対象画像を複数の単位領域ごとに処理して前記物体領域部分を抽出することを特徴とする付記１に記載のモデル生成システムである。

　（付記３）
　付記３に記載のモデル生成システムは、前記対象画像から前記物体が含まれる矩形領域を抽出する第２の抽出手段を更に備え、前記抽出手段は、前記矩形領域から前記物体領域部分を抽出することを特徴とする付記１又は２に記載のモデル生成システムである。

　（付記４）
　付記４に記載のモデル生成システムは、前記形状分類モデルが分類する形状を指定する指定手段と、前記指定手段で指定された形状の物体を含む画像を、複数の画像の中から前記対象画像として抽出する第３の抽出手段とを更に備えることを特徴とする付記１から３のいずれか一項に記載のモデル生成システムである。

　（付記５）
　付記５に記載のモデル生成システムは、前記物体領域部分の色を検出し、前記物体領域部分に色情報を付与する色情報付与手段を更に備えることを特徴とする付記１から４のいずれか一項に記載のモデル生成システムである。

　（付記６）
　付記６に記載の形状認識システムは、対象画像から物体が占める領域である物体領域部分を抽出する抽出手段と、前記物体の形状を分類するための形状分類モデルを用いて、前記物体領域部分の前記物体の形状を推定する推定手段とを備えることを特徴とする形状認識システムである。

　（付記７）
　付記７に記載の形状認識システムは、前記抽出手段は、対象画像を複数の単位領域ごとに処理して前記物体領域部分を抽出することを特徴とする付記６に記載の形状認識システムである。

　（付記８）
　付記８に記載の形状認識システムは、前記対象画像から前記物体が含まれる矩形領域を抽出する第２の抽出手段を更に備え、前記抽出手段は、前記矩形領域から前記物体領域部分を抽出することを特徴とする付記６又は７に記載の形状認識システムである。

　（付記９）
　付記９に記載の形状認識システムは、前記物体の形状の指定を受け付ける受付手段と、前記推定手段の推定結果に基づいて、複数の前記対象画像から前記指定された形状の物体が含まれる画像を出力する出力手段とを更に備えることを特徴とする付記６から８のいずれか一項に記載の形状認識システムである。

　（付記１０）
　付記１０に記載の形状認識システムは、前記推定手段は、前記物体領域部分の前記物体の形状に加えて、前記物体領域部分の前記物体の色を推定することを特徴とする付記６から９のいずれか一項に記載の形状認識システムである。

　（付記１１）
　付記１１に記載のモデル生成方法は、対象画像から物体が占める領域である物体領域部分を抽出し、前記物体領域部分を入力として機械学習を実行し、前記物体の形状を分類するための形状分類モデルを生成することを特徴とするモデル生成方法である。

　（付記１２）
　付記１２に記載の形状認識方法は、対象画像から物体が占める領域である物体領域部分を抽出し、前記物体の形状を分類するための形状分類モデルを用いて、前記物体領域部分の前記物体の形状を推定することを特徴とする形状認識方法である。

　（付記１３）
　付記１３に記載のコンピュータプログラムは、対象画像から物体が占める領域である物体領域部分を抽出し、前記物体領域部分を入力として機械学習を実行し、前記物体の形状を分類するための形状分類モデルを生成するようにコンピュータを動作させることを特徴とするコンピュータプログラムである。

　（付記１４）
　付記１４に記載のコンピュータプログラムは、対象画像から物体が占める領域である物体領域部分を抽出し、前記物体の形状を分類するための形状分類モデルを用いて、前記物体領域部分の前記物体の形状を推定するようにコンピュータを動作させることを特徴とするコンピュータプログラムである。

　本発明は、請求の範囲及び明細書全体から読み取ることのできる発明の要旨又は思想に反しない範囲で適宜変更可能であり、そのような変更を伴うモデル生成システム、形状認識システム、モデル生成方法、形状認識方法、及びコンピュータプログラムもまた本発明の技術思想に含まれる。

　１０　モデル生成システム
　２０　形状認識システム
　１１０　物体領域部分抽出部
　１２０　モデル生成部
　１３０　指定画像抽出部
　１４０　箱領域抽出部
　１５０　形状推定部
　２００　インスタンスセグメンテーションモデル
　３００　形状分類モデル

Claims

　対象画像から物体が占める領域である物体領域部分を抽出する抽出手段と、
　前記物体領域部分を入力として機械学習を実行し、前記物体の形状を分類するための形状分類モデルを生成する生成手段と
　を備えることを特徴とするモデル生成システム。
　前記抽出手段は、対象画像を複数の単位領域ごとに処理して前記物体領域部分を抽出することを特徴とする請求項１に記載のモデル生成システム。
　前記対象画像から前記物体が含まれる矩形領域を抽出する第２の抽出手段を更に備え、
　前記抽出手段は、前記矩形領域から前記物体領域部分を抽出する
　ことを特徴とする請求項１又は２に記載のモデル生成システム。
　前記形状分類モデルが分類する形状を指定する指定手段と、
　前記指定手段で指定された形状の物体を含む画像を、複数の画像の中から前記対象画像として抽出する第３の抽出手段と
　を更に備えることを特徴とする請求項１から３のいずれか一項に記載のモデル生成システム。
　前記物体領域部分の色を検出し、前記物体領域部分に色情報を付与する色情報付与手段を更に備えることを特徴とする請求項１から４のいずれか一項に記載のモデル生成システム。
　対象画像から物体が占める領域である物体領域部分を抽出する抽出手段と、
　前記物体の形状を分類するための形状分類モデルを用いて、前記物体領域部分の前記物体の形状を推定する推定手段と
　を備えることを特徴とする形状認識システム。
　前記抽出手段は、対象画像を複数の単位領域ごとに処理して前記物体領域部分を抽出することを特徴とする請求項６に記載の形状認識システム。
　前記対象画像から前記物体が含まれる矩形領域を抽出する第２の抽出手段を更に備え、
　前記抽出手段は、前記矩形領域から前記物体領域部分を抽出する
　ことを特徴とする請求項６又は７に記載の形状認識システム。
　前記物体の形状の指定を受け付ける受付手段と、
　前記推定手段の推定結果に基づいて、複数の前記対象画像から前記指定された形状の物体が含まれる画像を出力する出力手段と
　を更に備えることを特徴とする請求項６から８のいずれか一項に記載の形状認識システム。
　前記推定手段は、前記物体領域部分の前記物体の形状に加えて、前記物体領域部分の前記物体の色を推定する
　ことを特徴とする請求項６から９のいずれか一項に記載の形状認識システム。
　対象画像から物体が占める領域である物体領域部分を抽出し、
　前記物体領域部分を入力として機械学習を実行し、前記物体の形状を分類するための形状分類モデルを生成する
　ことを特徴とするモデル生成方法。
　対象画像から物体が占める領域である物体領域部分を抽出し、
　前記物体の形状を分類するための形状分類モデルを用いて、前記物体領域部分の前記物体の形状を推定する
　ことを特徴とする形状認識方法。
　対象画像から物体が占める領域である物体領域部分を抽出し、
　前記物体領域部分を入力として機械学習を実行し、前記物体の形状を分類するための形状分類モデルを生成する
　ようにコンピュータを動作させることを特徴とするコンピュータプログラム。
　対象画像から物体が占める領域である物体領域部分を抽出し、
　前記物体の形状を分類するための形状分類モデルを用いて、前記物体領域部分の前記物体の形状を推定する
　ようにコンピュータを動作させることを特徴とするコンピュータプログラム。