WO2022176795A1

WO2022176795A1 - 画像認識システム、処理装置、サーバ、画像認識方法、及びコンピュータプログラム

Info

Publication number: WO2022176795A1
Application number: PCT/JP2022/005592
Authority: WO
Inventors: 麗岳
Original assignee: 住友電気工業株式会社
Priority date: 2021-02-22
Filing date: 2022-02-14
Publication date: 2022-08-25
Also published as: JPWO2022176795A1

Abstract

画像認識システムは、入力画像から注目領域を抽出する抽出部と、前記入力画像を認識する第１認識部と、前記注目領域の像を認識する第２認識部と、前記第１認識部及び前記第２認識部による認識結果を統合する統合部とを備える。

Description

画像認識システム、処理装置、サーバ、画像認識方法、及びコンピュータプログラム

　本開示は、画像認識システム、処理装置、サーバ、画像認識方法、及びコンピュータプログラムに関する。　本出願は、２０２１年２月２２日出願の日本出願第２０２１－０２６１５４号に基づく優先権を主張し、前記日本出願に記載された全ての記載内容を援用するものである。

　ＡＤＡＳ（先進運転支援システム）やＡＤ（自動運転）などを用いて、自動車の安全運転支援を行う際には、カメラで自動車の周囲を撮像し、得られた画像から対象物を認識する必要がある（例えば、特許文献１参照）。

　より安全な自動運転を実現するためには、周囲の環境が将来的にどのように変化するかを先読みする技術が必要となる。変化を先読みするためには、自車両から遠くに存在する物体をいち早く検出する必要がある。

特開２０２０－１７３５８４号公報

　本開示の一態様に係る画像認識システムは、入力画像から注目領域を抽出する抽出部と、前記入力画像を認識する第１認識部と、前記注目領域の像を認識する第２認識部と、前記第１認識部及び前記第２認識部による認識結果を統合する統合部とを備える。

　本開示の他の態様に係る処理装置は、入力画像から注目領域を抽出する抽出部と、前記入力画像を認識する第１認識部と、前記注目領域の像を、ネットワークを介して接続されるサーバに提供する注目領域像提供部と、前記サーバにおける前記注目領域の像の認識結果を前記サーバから取得する認識結果取得部と、前記第１認識部による認識結果及び前記認識結果取得部が取得した認識結果を統合する統合部とを備える。

　本開示の他の態様に係るサーバは、入力画像から注目領域を抽出した処理装置から、ネットワークを介して前記注目領域の像を取得する注目領域像取得部と、前記注目領域を認識する認識部と、前記認識部による認識結果を前記処理装置に提供する認識結果提供部とを備える。

　本開示の他の態様に係る画像認識方法は、入力画像から注目領域を抽出するステップと、前記入力画像を認識するステップと、前記注目領域の像を、ネットワークを介して接続されるサーバに提供するステップと、前記サーバにおける前記注目領域の像の認識結果を前記サーバから取得するステップと、前記認識するステップにおける認識結果及び前記サーバから取得した認識結果を統合するステップとを含む。

　本開示の他の態様に係る画像認識方法は、入力画像から注目領域を抽出した処理装置から、ネットワークを介して前記注目領域の像を取得するステップと、前記注目領域の像を認識するステップと、前記注目領域の像の認識結果を前記処理装置に提供するステップとを含む。

　本開示の他の態様に係るコンピュータプログラムは、コンピュータを、入力画像から注目領域を抽出する抽出部と、前記入力画像を認識する第１認識部と、前記注目領域の像を、ネットワークを介して接続されるサーバに提供する注目領域像提供部と、前記サーバにおける前記注目領域の像の認識結果を前記サーバから取得する認識結果取得部と、前記第１認識部による認識結果及び前記認識結果取得部が取得した認識結果を統合する統合部として機能させる。

　本開示の他の態様に係るコンピュータプログラムは、コンピュータを、入力画像から注目領域を抽出した処理装置から、ネットワークを介して前記注目領域の像を取得する注目領域像取得部と、前記注目領域の像を認識する認識部と、前記認識部による認識結果を前記処理装置に提供する認識結果提供部として機能させる。

　なお、コンピュータプログラムを、ＣＤ－ＲＯＭ（Ｃｏｍｐａｃｔ　Ｄｉｓｃ－Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）等のコンピュータ読取可能な非一時的な記録媒体やインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。また、本開示は、処理装置又はサーバの一部又は全部を実現する半導体集積回路として実現することもできる。

図１は、本開示の実施形態１に係る運転支援システムの全体構成を示す図である。図２は、本開示の実施形態１に係る車載システムの構成の一例を示すブロック図である。図３は、本開示の実施形態１に係るプロセッサの機能的な構成を示すブロック図である。図４は、画像取得部がカメラから取得した画像の一例を示す図である。図５は、抽出部による注目領域の抽出方法を説明するための図である。図６は、抽出部による注目領域の抽出方法を説明するための図である。図７は、第１検出部による物体種別の検出処理を説明するための図である。図８は、統合部による検出結果の統合処理の一例を説明するための図である。図９は、本開示の実施形態１に係る車載システムの処理手順の一例を示すフローチャートである。図１０は、本開示の実施形態２に係るプロセッサの機能的な構成を示すブロック図である。図１１は、本開示の実施形態２に係るサーバの構成の一例を示すブロック図である。図１２は、本開示の実施形態２に係るプロセッサの機能的な構成を示すブロック図である。図１３は、本開示の実施形態２に係る運転支援システムの処理手順の一例を示すシーケンス図である。図１４は、第１学習モデル及び第２学習モデルの作成手順の一例を示すシーケンス図である。図１５は、本開示の実施形態３に係るプロセッサの機能的な構成を示すブロック図である。図１６は、本開示の実施形態３に係るプロセッサの機能的な構成を示すブロック図である。図１７は、本開示の実施形態３に係る運転支援システムの処理手順の一例を示すシーケンス図である。

　［本開示が解決しようとする課題］
　遠くに存在する物体は、画像内でのサイズが小さいため、検出に時間を要する。例えば、小さいサイズのＢｏｕｎｄｉｎｇ　Ｂｏｘを画像内で走査しなければならないため、検出に時間を要する。このため、画像内での物体のサイズの大小によらずに物体の検出やシーンの認識などの画像認識処理を実行するためには、処理能力の高い処理装置を用いなければならず、高コストであるという課題がある。

　本開示は、このような事情に鑑みてなされたものであり、画像内での物体のサイズによらず、低コストで画像を認識することのできる画像認識システム、処理装置、サーバ、画像認識方法、及びコンピュータプログラムを提供することを目的とする。　

　［本開示の効果］
　本開示によると、画像内での物体のサイズによらず、低コストで画像を認識することができる。

　［本開示の実施形態の説明］
　最初に本開示の実施形態の概要を列記して説明する。
　（１）本開示の一実施形態に係る画像認識システムは、入力画像から注目領域を抽出する抽出部と、前記入力画像を認識する第１認識部と、前記注目領域の像を認識する第２認識部と、前記第１認識部及び前記第２認識部による認識結果を統合する統合部とを備える。

　この構成によると、抽出部により注目領域が抽出され、第２認識部により注目領域の像が認識される。例えば、認識処理を物体検出処理とする。この場合、注目領域を画像内でのサイズが小さい物体を含む領域とすることにより、画像内でのサイズが小さい物体については、注目領域に限定して第２認識部による物体検出処理が行われる。その一方、画像内でのサイズが大きい物体については、第１認識部による物体検出処理が行われる。つまり、画像内での物体のサイズに応じて認識部を切り分けることが可能である。これにより、１つの認識部でサイズの小さな物体からサイズの大きい物体までを検出する場合に比べ、低い処理能力で物体検出が可能である。また、小さいサイズの物体の検出対象領域を注目領域に限定することもできる。よって、画像内での物体のサイズによらず、低コストで画像を認識することができる。

　（２）好ましくは、前記画像認識システムは、第１処理装置と、前記第１処理装置とネットワークを介して接続される第２処理装置とを備え、前記第１処理装置は、前記抽出部と、前記第１認識部と、前記統合部とを含み、前記第２処理装置は、前記第２認識部を含む。

　この構成によると、２つの処理装置により、注目領域の像の認識処理と、それ以外の領域の認識処理とを分担して行うことができる。このため、第１処理装置の処理能力が低い場合であっても、画像を高速で認識することができる。

　（３）さらに好ましくは、前記第１処理装置は、移動体に設置され、前記入力画像は、前記移動体の周囲の像を含む。

　第１処理装置を移動体に設置することにより、例えば、移動体の近傍に存在する画像内でのサイズが大きい物体の検出処理を第１処理装置で実行し、移動体から遠方に存在する画像内でのサイズが小さい物体の検出処理を第２処理装置で実行することができる。このため、近傍に存在する物体を、遠方に存在する物体に比べて低遅延時間で検出することができる。

　（４）また、前記注目領域は、前記第１認識部が、所定の圧縮率で前記入力画像を圧縮及び伸張した画像又は所定の縮小率で前記入力画像を縮小及び拡大した画像からは検出することのできない物体を含む領域であってもよい。

　この構成によると、所定の圧縮率よりも高圧縮率で圧縮及び伸張した画像からは検出することのできない物体や所定の縮小率よりも高縮小率で縮小及び拡大した画像からは検出することのできない物体のような、画像内でのサイズが小さい物体を含む像を第２認識部で認識することができる。

　（５）また、前記注目領域は、前記第１認識部が、第１圧縮率で前記入力画像を圧縮及び伸張した画像からは検出することができず、かつ前記第１圧縮率よりも低い第２圧縮率で前記入力画像を圧縮及び伸張した画像から検出することのできる物体を含む領域を含み、前記第１認識部は、前記入力画像から、前記第１認識部が前記第１圧縮率で前記入力画像を圧縮及び伸張した画像から検出することのできる物体を検出し、前記第２認識部は、前記入力画像から、前記第１認識部が前記第１圧縮率で前記入力画像を圧縮及び伸張した画像から検出することのできない物体を検出してもよい。

　この構成によると、圧縮及び伸張した画像から検出可能な物体と圧縮率との関係に応じて、画像を認識する認識部を変えることができる。

　（６）また、前記注目領域は、前記第１認識部が、第１縮小率で前記入力画像を縮小及び拡大した画像からは検出することができず、かつ前記第１縮小率よりも低い第２縮小率で前記入力画像を縮小及び拡大した画像から検出することのできる物体を含む領域を含み、前記第１認識部は、前記入力画像から、前記第１認識部が前記第１縮小率で前記入力画像を縮小及び拡大した画像から検出することのできる物体を検出し、前記第２認識部は、前記入力画像から、前記第１認識部が前記第１縮小率で前記入力画像を縮小及び拡大した画像から検出することのできない物体を検出してもよい。

　この構成によると、縮小及び拡大した画像から検出可能な物体と圧縮率との関係に応じて、画像を認識する認識部を変えることができる。

　（７）また、前記第１認識部は、第１学習モデルに基づいて前記入力画像を認識し、前記第２認識部は、第２学習モデルに基づいて前記注目領域の像を認識し、前記第２処理装置は、前記第１学習モデル及び前記第２学習モデルを生成する生成部と、生成された前記第１学習モデルを前記第１処理装置に提供する提供部とを含んでいてもよい。

　この構成によると、第２処理装置で、一括して第１学習モデル及び第２学習モデルを生成することができる。このため、一括生成された第１学習モデル及び第２学習モデルを用いることにより、同様の基準で画像を認識することができる。

　（８）また、前記生成部は、第１画像セットを用いて前記第１学習モデルを生成し、前記第１画像セットを構成する画像に含まれる前記注目領域の像を用いて前記第２学習モデルを生成してもよい。

　この構成によると、同一の画像セットを用いて第１学習モデル及び第２学習モデルを生成することができる。このため、第１学習モデル及び第２学習モデルを用いることにより、同様の基準で画像を認識することができる。

　（９）本開示の他の実施形態に係る処理装置は、入力画像から注目領域を抽出する抽出部と、前記入力画像を認識する第１認識部と、前記注目領域の像を、ネットワークを介して接続されるサーバに提供する注目領域像提供部と、前記サーバにおける前記注目領域の像の認識結果を前記サーバから取得する認識結果取得部と、前記第１認識部による認識結果及び前記認識結果取得部が取得した認識結果を統合する統合部とを備える。

　この構成によると、注目領域の像の認識検出についてはサーバで集中的に処理させることができる。これにより、例えば、所定の圧縮率で入力画像を圧縮及び伸張した画像からは検出することのできない物体の検出処理をサーバに担当させ、所定の圧縮率で入力画像を圧縮及び伸張した画像から検出することのできる物体の検出処理を第１認識部に担当させることができる。また、入力画像内でのサイズが小さい物体の検出処理をサーバに担当させ、サイズが大きい物体の検出処理を第１認識部に担当させることができる。つまり、入力画像内での物体のサイズや、圧縮率に応じて認識部を切り分けることが可能である。これにより、１つの認識部でサイズの小さな物体からサイズの大きい物体までを検出する場合に比べ、低い処理能力で物体検出が可能である。よって、画像内での物体のサイズによらず、低コストで画像を認識することができる。

　（１０）本開示の他の実施形態に係るサーバは、入力画像から注目領域を抽出した処理装置から、ネットワークを介して前記注目領域の像を取得する注目領域像取得部と、前記注目領域を認識する認識部と、前記認識部による認識結果を前記処理装置に提供する認識結果提供部とを備える。

　この構成によると、注目領域の像の認識処理についてはサーバで集中的に処理させることができる。これにより、例えば、所定の圧縮率で入力画像を圧縮及び伸張した画像からは検出することのできない物体の検出処理をサーバに担当させ、所定の圧縮率で入力画像を圧縮及び伸張した画像から検出することのできる物体の検出処理を処理装置に担当させることができる。また、入力画像内でのサイズが小さい物体の検出処理をサーバに担当させ、サイズが大きい物体の検出処理を処理装置に担当させることができる。つまり、入力画像内での物体のサイズや、圧縮率に応じて認識部を切り分けることが可能である。これにより、１つの認識部でサイズの小さな物体からサイズの大きい物体までを検出する場合に比べ、低い処理能力で物体検出が可能である。よって、画像内での物体のサイズによらず、低コストで画像を認識することができる。

　（１１）本開示の他の実施形態に係る画像認識方法は、入力画像から注目領域を抽出するステップと、前記入力画像を認識するステップと、前記注目領域の像を、ネットワークを介して接続されるサーバに提供するステップと、前記サーバにおける前記注目領域の像の認識結果を前記サーバから取得するステップと、前記認識するステップにおける認識結果及び前記サーバから取得した認識結果を統合するステップとを含む。

　この構成は、上述の処理装置における特徴的な処理をステップとして含む。このため、この構成によると、上述の処理装置と同様の作用及び効果を奏することができる。

　（１２）本開示の他の実施形態に係る画像認識方法は、入力画像から注目領域を抽出した処理装置から、ネットワークを介して前記注目領域の像を取得するステップと、前記注目領域の像を認識するステップと、前記注目領域の像の認識結果を前記処理装置に提供するステップとを含む。

　この構成は、上述のサーバにおける特徴的な処理をステップとして含む。このため、この構成によると、上述のサーバと同様の作用及び効果を奏することができる。

　（１３）本開示の他の実施形態に係るコンピュータプログラムは、コンピュータを、入力画像から注目領域を抽出する抽出部と、前記入力画像を認識する第１認識部と、前記注目領域の像を、ネットワークを介して接続されるサーバに提供する注目領域像提供部と、前記サーバにおける前記注目領域の像の認識結果を前記サーバから取得する認識結果取得部と、前記第１認識部による認識結果及び前記認識結果取得部が取得した認識結果を統合する統合部として機能させる。

　この構成によると、コンピュータを、上述の処理装置として機能させることができる。このため、上述の処理装置と同様の作用及び効果を奏することができる。

　（１４）本開示の他の実施形態に係るコンピュータプログラムは、コンピュータを、入力画像から注目領域を抽出した処理装置から、ネットワークを介して前記注目領域の像を取得する注目領域像取得部と、前記注目領域の像を認識する認識部と、前記認識部による認識結果を前記処理装置に提供する認識結果提供部として機能させる。

　この構成によると、コンピュータを、上述のサーバとして機能させることができる。このため、上述のサーバと同様の作用及び効果を奏することができる。

　［本開示の実施形態の詳細］
　以下、本開示の実施形態について、図面を参照しながら説明する。なお、以下で説明する実施形態は、いずれも本開示の一具体例を示すものである。以下の実施形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定するものではない。また、以下の実施形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意に付加可能な構成要素である。また、各図は、模式図であり、必ずしも厳密に図示されたものではない。

　また、同一の構成要素には同一の符号を付す。それらの機能及び名称も同様であるため、それらの説明は適宜省略する。

　＜実施形態１＞
　〔運転支援システムの全体構成〕
　図１は、本開示の実施形態１に係る運転支援システムの全体構成を示す図である。

　図１を参照して、運転支援システム１は、無線通信が可能な道路上を走行する複数の車両２と、車両２と無線通信する１または複数の基地局６と、基地局６とインターネット等のネットワーク５を介して有線または無線で通信するサーバ７とを備える。

　基地局６は、マクロセル基地局、マイクロセル基地局、及びピコセル基地局などからなる。

　車両２には、通常の乗用車（自動車）だけでなく、路線バスや緊急車両などの公共車両も含まれる。また、車両２は、四輪車だけでなく、二輪車（バイク、オートバイ）であってもよい。

　各車両２は、後述するようにカメラを含む車載システム３を備えており、カメラで車両２の周囲を撮影することにより得られる画像データ（以下では、単に「画像」という）に対して所定の画像処理を施す。例えば、車載システム３は、画像を認識する処理を行う。一例として、車載システム３は、画像から、車両２、人間、交通信号機、道路標識を認識する認識処理を実行し、認識結果に基づいて、車両２の運転支援処理等を行う。なお、認識処理には、認識した物体の追跡処理が含まれていてもよい。また、車載システム３は、画像のシーンを認識する処理を実行してもよい。画像のシーンは、一例として、高速道路のシーン、一般道路のシーンなどの車両２の走行シーンを示すものであってもよい。

　サーバ７は、車載システム３との間で車両２の運転支援処理に必要なデータの送受信を行う。

　〔車載システム３の構成〕
　図２は、本開示の実施形態１に係る車載システム３の構成の一例を示すブロック図である。

　図２に示すように、車両２の車載システム３は、カメラ３１と、通信部３２と、制御部（ＥＣＵ：Ｅｌｅｃｔｒｏｎｉｃ　Ｃｏｎｔｒｏｌ　Ｕｎｉｔ）３３とを備える。

　カメラ３１は、車両２に搭載され、車両２の周囲（特に、車両２の前方）の映像を取り込む画像センサよりなる。カメラ３１は、単眼である。ただし、カメラ３１は、複眼であってもよい。映像は、時系列の複数の画像より構成される。

　通信部３２は、例えば５Ｇ（第５世代移動通信システム）対応の通信処理が可能な無線通信機よりなる。なお、通信部３２は、車両２に既設の無線通信機であってもよいし、搭乗者が車両２に持ち込んだ携帯端末であってもよい。通信部３２は、制御部３３を基地局６を介してネットワーク５に接続するための装置である。

　搭乗者の携帯端末は、車両２の車内ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）に接続されることにより、一時的に車載の無線通信機となる。

　制御部３３は、車両２のカメラ３１及び通信部３２を含む車両２に搭載される車載装置を制御するコンピュータ装置よりなる。車載装置には、例えば、ＧＰＳ受信機、ジャイロセンサなどが含まれる。制御部３３は、ＧＰＳ受信機が受信したＧＰＳ信号により自車両の車両位置を求める。また、制御部３３は、ジャイロセンサの検出結果に基づいて、車両２の方向を把握する。

　制御部３３は、プロセッサ３４と、メモリ３５とを備える。
　プロセッサ３４は、メモリ３５に格納されたコンピュータプログラムを実行するマイクロコンピュータなどの演算処理装置である。

　メモリ３５は、ＳＲＡＭ（Ｓｔａｔｉｃ　ＲＡＭ）またはＤＲＡＭ（Ｄｙｎａｍｉｃ　ＲＡＭ）などの揮発性のメモリ素子、フラッシュメモリ若しくはＥＥＰＲＯＭ（Ｅｌｅｃｔｒｉｃａｌｌｙ　Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）などの不揮発性のメモリ素子、または、ハードディスクなどの磁気記憶装置などにより構成されている。メモリ３５は、制御部３３で実行されるコンピュータプログラムや、制御部３３におけるコンピュータプログラム実行時に生成されるデータ等を記憶する。

　〔プロセッサ３４の機能構成〕
　図３は、本開示の実施形態１に係るプロセッサ３４の機能的な構成を示すブロック図である。

　図３を参照して、プロセッサ３４は、メモリ３５に記憶されたコンピュータプログラムを実行することにより実現される機能的な処理部として、画像取得部３６と、抽出部３７と、第１検出部３８と、第２検出部３９と、統合部４０と、運転支援処理部４１とを備える。

　画像取得部３６は、カメラ３１が撮影した車両２の前方の画像を時系列で順次取得する。画像取得部３６は、取得した画像を抽出部３７、第１検出部３８及び第２検出部３９に順次出力する。

　図４は、画像取得部３６がカメラ３１から取得した画像（以下、「入力画像」という）の一例を示す図である。

　例えば、入力画像５０には、道路５１上を走行する自動車５２及びオートバイ５３と、道路５１上に設置された横断歩道５４を歩行中の人間５５とが含まれる。また、入力画像５０には、横断歩道を示す道路標識５６が含まれる。

　再び図３を参照して、抽出部３７は、画像取得部３６から入力画像５０を取得し、入力画像５０から所定の物体を含む領域である注目領域を抽出する。

　注目領域とは、例えば、後述する第１検出部３８が、所定の圧縮率で入力画像５０を圧縮し、圧縮済み画像を伸張することにより復元した画像からは検出することのできない物体を含む領域である。より詳細には、注目領域は、第１検出部３８が、第１圧縮率（例えば、１／１０００）で入力画像５０を圧縮し、圧縮済み画像を伸張して復元した画像からは検出することができず、かつ第１圧縮率よりも低い第２圧縮率（例えば、１／２０）で入力画像５０を圧縮し、圧縮済み画像を伸張して復元した画像からは検出することのできる物体（以下、「小サイズ物体」という。）を含む領域である。小サイズ物体は、典型的には、入力画像５０中でのサイズが小さい物体であり、例えば、遠方に映っているオートバイ５３、人間５５などが該当する。ここで、物体の検出とは、物体の種別の検出を意味するものとする。つまり、遠方に物体が映っていることのみならず、その物体の種別（例えば、オートバイ５３又は人間５５）などを判別することを、物体の検出と呼ぶ。

　なお、画像の圧縮率は、圧縮済み画像のデータ量を圧縮前の画像のデータ量で除したものである。このため、圧縮率の値が小さいほど圧縮率が高く、圧縮率の値が大きいほど圧縮率が低い。

　また、小サイズ物体は、縮小率により定義してもよい。つまり、小サイズ物体は、第１検出部３８が第１縮小率（例えば、１／８）で入力画像５０を縮小し、縮小済み画像を拡大して復元した画像からは検出することができず、かつ第１縮小率よりも低い第２縮小率（例えば、１／２）で入力画像５０を縮小し、縮小済み画像を拡大して復元した画像からは検出することのできる物体としてもよい。なお、画像の縮小率は、縮小済み画像のサイズ（面積）を縮小前の画像のサイズで除したものである。このため、縮小率の値が小さいほど縮小率が高く、縮小率の値が大きいほど縮小率が低い。

　図５及び図６は、抽出部３７による注目領域の抽出方法を説明するための図である。
　図５を参照して、抽出部３７は、入力画像５０を複数のブロック６０に分割する。図５では、一例として、入力画像５０を６４（＝８×８）個のブロック６０に分割した例を示している。ブロック６０のサイズはあらかじめ定められており、全部が同じサイズであってもよいし、一部又は全部が異なるサイズであってもよい。また、ブロック６０の個数は６４個に限定されるものではない。

　抽出部３７は、各ブロックの像（以下、「ブロック画像」という）を、判定用学習モデルに入力することにより、ブロック画像中に小サイズ物体が含まれるか否かを判定する。なお、抽出部３７は、各ブロック画像を所定の縮小比率に基づいて縮小し、縮小したブロック画像を判定用学習モデルに入力してもよい。これにより、ブロック画像に含まれるノイズを除去した上で、小サイズ物体の判定処理を高速に行うことができる。

　なお、判定用学習モデルは、例えば、ＣＮＮ（Ｃｏｎｖｏｌｕｔｉｏｎ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）、ＲＮＮ（Ｒｅｃｕｒｒｅｎｔ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）、ＡｕｔｏＥｎｃｏｄｅｒなどである。小サイズ物体を含むブロック画像を教師データとして、ディープラーニングなどの機械学習手法により、判定用学習モデルの各パラメータが決定されているものとする。

　つまり、抽出部３７は、判定用学習モデルに未知のブロック画像を入力することにより、小サイズ物体が含まれることの確信度を算出する。抽出部３７は、確信度が所定の閾値以上のブロックを注目領域として抽出する。抽出部３７は、抽出した注目領域の情報を第２検出部３９に出力する。なお、注目領域情報は、例えば、注目領域の左上隅座標及び右下隅座標を含む。ただし、注目領域の表現方法はこれに限定されるものではない。例えば、注目領域情報は、注目領域の左上隅座標と注目領域の横方向の画素数及び縦方向の画素数とを含んでいてもよいし、注目領域を示す識別子を含んでいてもよい。

　ここで、道路標識５６、人間５５及びオートバイ５３は、小サイズ物体に該当するものとする。このため、図６を参照して、抽出部３７は、注目領域として、注目領域６１、注目領域６２及び注目領域６３を抽出する。

　なお、自動車５２は、小サイズ物体に該当しないものとする。このため、抽出部３７は、自動車５２を注目領域として抽出しない。

　再び図３を参照して、抽出部３７は、注目領域の抽出結果を第２検出部３９に出力する。第２検出部３９は、注目領域の像を認識する第２認識部として機能する。第２検出部３９は、抽出部３７から注目領域の抽出結果を受け、抽出結果に基づいて、画像取得部３６が取得した入力画像５０から注目領域の像を取得する。図６を参照して、例えば、第２検出部３９は、注目領域６１、注目領域６２及び注目領域６３の像をそれぞれ取得する。

　第２検出部３９は、取得した各注目領域の像（以下、「注目領域像」という）を第２学習モデルに入力することにより、注目領域像に含まれる小サイズ物体の種別を検出する。例えば、第２検出部３９は、注目領域６１の像に含まれる物体種別は横断歩道を示す道路標識５６であることを検出する。また、第２検出部３９は、注目領域６２の像に含まれる物体種別は人間５５であることを検出する。さらに、第２検出部３９は、注目領域６３の像に含まれる物体種別はオートバイ５３であることを検出する。

　なお、第２学習モデルは、例えば、ＣＮＮ、ＲＮＮ、ＡｕｔｏＥｎｃｏｄｅｒなどである。小サイズ物体を含むブロック画像を教師データとして、ディープラーニングなどの機械学習手法により、第２学習モデルの各パラメータが決定されているものとする。

　つまり、第２検出部３９は、第２学習モデルに未知の注目領域像を入力することにより、物体種別ごとの確信度を算出する。第２検出部３９は、算出した確信度のうち最大の確信度に対応する物体種別を、注目領域像に含まれる小サイズ物体の種別として検出する。例えば、注目領域６１の像について、小サイズ物体の種別がオートバイ５３であることの確信度が０．１、人間５５であることの確信度が０．２、自動車５２であることの確信度が０．３、横断歩道を示す道路標識５６であることの確信度が０．７であったとする。この場合、第２検出部３９は、注目領域６１の像に含まれる小サイズ物体の種別として横断歩道を示す道路標識５６を検出する。

　第２検出部３９は、検出結果として、注目領域の識別情報と、注目領域に含まれる小サイズ物体の種別と、当該種別に対する確信度とを、統合部４０に出力する。

　第１検出部３８は、入力画像５０を認識する第１認識部として機能する。第１検出部３８は、画像取得部３６から入力画像５０を受け、入力画像５０を分割した各ブロック６０のブロック画像を第１学習モデルに入力することにより、ブロック画像に含まれる物体の種別を検出する。ここで、第１検出部３８が検出の対象とする物体は、上記した第１圧縮率（例えば、１／１０００）で入力画像５０を圧縮し、圧縮済み画像を伸張することにより復元した画像から、第１検出部３８が検出することのできる物体（以下、「大サイズ物体」という。）である。大サイズ物体は、典型的には、入力画像５０中でのサイズが大きい物体であり、例えば、近傍に映っている自動車５２などが該当する。このため、第２検出部３９が検出の対象とする小サイズ物体は含まれない。ただし、第１検出部３８が小サイズ物体を検出することもあり得るし、第２検出部３９が大サイズ物体を検出することもあり得る。

　なお、第１検出部３８は、各ブロック画像を所定の縮小比率に基づいて縮小し、縮小したブロック画像を第１学習モデルに入力してもよい。これにより、ブロック画像に含まれるノイズを除去した上で、大サイズ物体の種別の検出処理を高速に行うことができる。

　図７は、第１検出部３８による物体種別の検出処理を説明するための図である。第１検出部３８は、入力画像５０からブロック６０の像を順次抽出し、各ブロック６０の像を縮小した上で、第１学習モデルに入力する。第１検出部３８は、ブロック６４の像に対する第１学習モデルの確信度に基づいて、ブロック６４に大サイズ物体が含まれ、その種別が横断歩道を示す道路標識５６であることを検出する。また、第１検出部３８は、ブロック６５Ａ～６５Ｆのそれぞれの像に対する第１学習モデルの確信度に基づいて、ブロック６５Ａ～６５Ｆのそれぞれに大サイズ物体が含まれ、大サイズ物体の種別が自動車５２であることを検出する。

　なお、第１学習モデルは、例えば、ＣＮＮ、ＲＮＮ、ＡｕｔｏＥｎｃｏｄｅｒなどである。大サイズ物体を含むブロック画像を教師データとして、ディープラーニングなどの機械学習手法により、第１学習モデルの各パラメータが決定されているものとする。

　つまり、第１検出部３８は、第１学習モデルに未知のブロック画像を入力することにより、物体種別ごとの確信度を算出する。第１検出部３８は、算出した確信度のうち最大の確信度に対応する物体種別を、ブロック画像に含まれる大サイズ物体の種別として検出する。例えば、ブロック６４の像について、大サイズ物体の種別がオートバイ５３であることの確信度が０．２、人間５５であることの確信度が０．３、自動車５２であることの確信度が０．１、横断歩道を示す道路標識５６であることの確信度が０．８であったとする。この場合、第１検出部３８は、ブロック６４の像に含まれる大サイズ物体の種別として横断歩道を示す道路標識５６を検出する。

　第１検出部３８は、検出結果として、ブロック６０の識別情報と、ブロック６０に含まれる大サイズ物体の種別と、当該種別に対する確信度とを、統合部４０に出力する。

　統合部４０は、第１検出部３８から入力画像の認識結果としての物体の検出結果と、第２検出部３９から注目領域像の認識結果としての物体の検出結果を受け、第１検出部３８及び第２検出部３９の検出結果を統合する。つまり、統合部４０は、第１検出部３８の検出結果と第２検出部３９の検出結果とをマージした検出結果を作成する。

　図８は、統合部４０による検出結果の統合処理の一例を説明するための図である。図８に示す入力画像５０には、マージされた検出結果が示されている。つまり、図６に示した第２検出部３９により検出された注目領域６１～６３に含まれる小サイズ物体の種別と、図７に示した第１検出部３８により検出されたブロック６４及び６５Ａ～６５Ｆに含まれる大サイズ物体の種別とがマージされる。なお、注目領域６１及びブロック６４は同一の領域である。この場合、注目領域６１から検出された道路標識５６の確信度は０．７であり、ブロック６４から検出された道路標識５６の確信度は０．８である。このため、確信度の高いブロック６４の検出結果がマージ後の検出結果とされる。ここでは、注目領域６１及びブロック６４の検出結果が同一のものとしているが、検出結果が異なる場合には確信度が高い方の検出結果が採用されることになる。

　統合部４０は、統合後の検出結果を運転支援処理部４１に出力する。運転支援処理部４１は、統合部４０から検出結果を受け、検出結果に基づいて車両２の運転支援処理を実行する。例えば、運転支援処理部４１は、横断歩道を示す道路標識５６の直前において車両２を一時停止させたり、自動車５２、オートバイ５３及び人間５５との衝突を回避するように車両２の操舵やブレーキ等を制御したりするための指令を車両２の各制御部に送信してもよい。

　〔車載システム３の処理の流れ〕
　図９は、本開示の実施形態１に係る車載システム３の処理手順の一例を示すフローチャートである。

　抽出部３７は、画像取得部３６から入力画像５０を順次取得し、入力画像５０を分割したブロック画像を判定用学習モデルに入力することにより、小サイズ物体を含む注目領域を抽出する（ステップＳ１）。

　第２検出部３９は、抽出部３７から注目領域の抽出結果を受け、抽出結果に基づいて、画像取得部３６が取得した入力画像５０から注目領域像を取得する。第２検出部３９は、注目領域像を第２学習モデルに入力することにより、小サイズ物体の種別とその確信度を検出する（ステップＳ２）。

　第１検出部３８は、画像取得部３６から入力画像５０を受け、入力画像５０を分割した各ブロック６０のブロック画像を縮小する（ステップＳ３）。なお、第１検出部３８は、入力画像５０を縮小した後に、縮小後の入力画像５０をブロック画像に分割してもよい。

　第１検出部３８は、縮小後の各ブロック画像を第１学習モデルに入力し、ブロック画像に含まれる大サイズ物体の種別とその確信度を検出する（ステップＳ４）。

　統合部４０は、ステップＳ２における小サイズ物体の検出結果と、ステップＳ４における大サイズ物体の検出結果とを統合する（ステップＳ５）。

　運転支援処理部４１は、ステップＳ５において統合された検出結果に基づいて、車両２の運転支援処理を実行する（ステップＳ６）。

　〔実施形態１の効果〕
　以上説明したように、本開示の実施形態１によると、抽出部３７により注目領域が抽出され、第２検出部３９により注目領域の像から物体が検出される。例えば、注目領域を画像内でのサイズが小さい物体を含む領域とすることにより、画像内でのサイズが小さい物体については、第２検出部３９による物体検出処理が行われる。その一方、サイズが大きい物体については、第１検出部３８による物体検出処理が行われる。つまり、画像内での物体のサイズに応じて検出部を切り分けることが可能である。これにより、１つの検出部でサイズの小さな物体からサイズの大きい物体までを検出する場合に比べ、低い処理能力で物体検出が可能である。また、小さいサイズの物体の検出対象領域を注目領域に限定することもできる。よって、画像内での物体のサイズによらず、物体を低コストで検出することができる。

　なお、注目領域は、所定の圧縮率で入力画像を圧縮及び伸張した画像からは検出することのできない物体又は所定の縮小率で入力画像を縮小及び拡大した画像からは検出することのできない物体を含む領域である。このため、所定の圧縮率よりも高圧縮率で圧縮伸張した画像からは検出することのできない物体や所定の縮小率よりも高縮小率で縮小及び拡大した画像からは検出することのできない物体のような、画像内でのサイズが小さい物体を第２検出部３９で検出することができる。

　また、注目領域は、第１検出部３８が、第１圧縮率で入力画像を圧縮及び伸張した画像からは検出することができず、かつ第１圧縮率よりも低い第２圧縮率で入力画像を圧縮及び伸張した画像から検出することのできる物体を含む領域を含む。第１検出部３８は、入力画像から、第１検出部３８が第１圧縮率で入力画像を圧縮及び伸張した画像から検出することのできる物体を検出する。第２検出部３９は、入力画像から、第１検出部３８が第１圧縮率で入力画像を圧縮及び伸張した画像から検出することのできない物体を検出する。このため、圧縮及び伸張した画像から検出可能な物体と圧縮率との関係に応じて、物体検出を行う検出部を変えることができる。

　また、注目領域は、第１検出部３８が、第１縮小率で入力画像を縮小及び拡大した画像からは検出することができず、かつ第１縮小率よりも低い第２縮小率で入力画像を縮小及び拡大した画像から検出することのできる物体を含む領域を含むものとしてもよい。第１検出部３８は、入力画像から、第１検出部３８が第１縮小率で入力画像を縮小及び拡大した画像から検出することのできる物体を検出することができる。第２検出部３９は、入力画像から、第１検出部３８が第１縮小率で入力画像を縮小及び拡大した画像から検出することのできない物体を検出することができる。このため、縮小及び拡大した画像から検出可能な物体と縮小率との関係に応じて、物体検出を行う検出部を変えることができる。

　＜実施形態２＞
　実施形態１では車載システム３が小サイズ物体及び大サイズ物体の種別の検出処理を実行した。実施形態２では、車載システム３及びサーバ７が協同して小サイズ物体及び大サイズ物体の種別の検出処理を実行する。
　運転支援システム１の構成は、実施形態１と同様である。

　〔プロセッサ３４の機能構成〕
　図１０は、本開示の実施形態２に係るプロセッサ３４の機能的な構成を示すブロック図である。

　図１０を参照して、プロセッサ３４は、メモリ３５に記憶されたコンピュータプログラムを実行することにより実現される機能的な処理部として、画像取得部３６と、抽出部３７と、第１検出部３８と、統合部４０と、運転支援処理部４１と、注目領域提供部４２と、検出結果取得部４３とを備える。

　注目領域提供部４２は、抽出部３７から注目領域の抽出結果を受け、抽出結果に基づいて、画像取得部３６が取得した入力画像５０から注目領域像を取得する。図６を参照して、注目領域提供部４２は、例えば、注目領域６１、注目領域６２及び注目領域６３の像をそれぞれ取得する。

　注目領域提供部４２は、取得した注目領域像を所定の圧縮率で圧縮し、圧縮済みの注目領域像を、注目領域の識別情報とともに通信部３２を介してサーバ７に送信する。

　検出結果取得部４３は、注目領域提供部４２がサーバ７に送信した注目領域像に含まれる小サイズ物体の種別の検出結果情報を、通信部３２を介してサーバ７から取得する。検出結果情報には、注目領域の識別情報と、注目領域像から検出された小サイズ物体の種別及び当該種別の確信度とが含まれる。例えば、検出結果情報は、注目領域６１の像に含まれる物体種別が横断歩道を示す道路標識５６であり、道路標識５６であることの確信度が０．７であること示す。また、検出結果情報は、注目領域６２の像に含まれる物体種別は人間５５であり、人間５５であることの確信度が０．８であることを示す。さらに、検出結果情報は、注目領域６３の像に含まれる物体種別がオートバイ５３であり、オートバイ５３であることの確信度が０．８５であることを示す。
　検出結果取得部４３は、サーバ７から取得した検出結果を統合部４０に出力する。

　統合部４０は、第１検出部３８及び検出結果取得部４３の各々から検出結果を受け、検出結果を統合する。検出結果の統合の方法は実施形態１と同様である。

　〔サーバ７の構成〕
　図１１は、本開示の実施形態２に係るサーバ７の構成の一例を示すブロック図である。
　図１１に示すように、サーバ７は、通信部７１と、プロセッサ７２と、メモリ７３とを備える。

　通信部７１は、例えば、有線又は無線によりサーバ７をネットワーク５に接続するための通信モジュールである。

　プロセッサ７２は、メモリ７３に格納されたコンピュータプログラムを実行するマイクロコンピュータなどの演算処理装置である。

　メモリ７３は、ＳＲＡＭまたはＤＲＡＭなどの揮発性のメモリ素子、フラッシュメモリ若しくはＥＥＰＲＯＭなどの不揮発性のメモリ素子、または、ハードディスクなどの磁気記憶装置などにより構成されている。メモリ７３は、プロセッサ７２で実行されるコンピュータプログラムや、プロセッサ７２におけるコンピュータプログラム実行時に生成されるデータ等を記憶する。

　〔プロセッサ７２の機能構成〕
　図１２は、本開示の実施形態２に係るプロセッサ７２の機能的な構成を示すブロック図である。

　図１２を参照して、プロセッサ７２は、メモリ７３に記憶されたコンピュータプログラムを実行することにより実現される機能的な処理部として、注目領域取得部７４と、第２検出部７５と、検出結果提供部７６とを備える。

　注目領域取得部７４は、車載システム３において圧縮済みの注目領域像を、注目領域像の識別情報とともに、通信部７１を介して車載システム３から受信する。

　注目領域取得部７４は、取得した圧縮済みの注目領域像を伸張することにより注目領域像を復元する。注目領域取得部７４は、復元した注目領域像を識別情報とともに第２検出部７５に出力する。

　第２検出部７５は、注目領域取得部７４から注目領域像を受け、注目領域像を第２学習モデルに入力することにより、注目領域像に含まれる小サイズ物体の種別を検出する。検出方法は、実施形態１に示した第２検出部３９と同様である。

　第２検出部７５は、検出結果として、注目領域の識別情報と、注目領域に含まれる小サイズ物体の種別と、当該種別に対する確信度とを、検出結果提供部７６に出力する。

　検出結果提供部７６は、第２検出部７５から検出結果を受け、当該検出結果を通信部７１を介して車載システム３に送信することにより、検出結果を車載システム３に提供する。

　〔運転支援システム１の処理の流れ〕
　図１３は、本開示の実施形態２に係る運転支援システム１の処理手順の一例を示すシーケンス図である。なお、図９に示した処理と同様の処理については、同一のステップ番号を付す。

　車載システム３の抽出部３７は、画像取得部３６から入力画像５０を順次取得し、入力画像５０を分割したブロック画像を判定用学習モデルに入力することにより、小サイズ物体を含む注目領域を抽出する（ステップＳ１）。

　車載システム３の注目領域提供部４２は、抽出部３７から注目領域の抽出結果を受け、抽出結果に基づいて、画像取得部３６が取得した入力画像５０から注目領域像を取得する。注目領域提供部４２は、取得した注目領域像を所定の圧縮率で圧縮する（ステップＳ１１）。

　また、注目領域提供部４２は、圧縮済みの注目領域像を、注目領域の識別情報とともに通信部３２を介してサーバ７に送信し、サーバ７の注目領域取得部７４が受信する（ステップＳ１２）。

　サーバ７の注目領域取得部７４は、取得した圧縮済みの注目領域像を伸張することにより注目領域像を復元する（ステップＳ１３）。

　サーバ７の第２検出部７５は、注目領域取得部７４から注目領域像を受け、注目領域像を第２学習モデルに入力することにより、注目領域像に含まれる小サイズ物体の種別とその確信度を検出する（ステップＳ２）。

　サーバ７の検出結果提供部７６は、ステップＳ２における小サイズ物体の検出結果を通信部７１を介して車載システム３に送信し、検出結果取得部４３が受信する（ステップＳ１４）。

　車載システム３の第１検出部３８は、画像取得部３６から入力画像５０を受け、入力画像５０を分割した各ブロック６０のブロック画像を縮小する（ステップＳ３）。なお、第１検出部３８は、入力画像５０を縮小した後に、縮小後の入力画像５０をブロック画像に分割してもよい。

　車載システム３の第１検出部３８は、縮小後の各ブロック画像を第１学習モデルに入力し、ブロック画像に含まれる大サイズ物体の種別とその確信度を検出する（ステップＳ４）。

　車載システム３の統合部４０は、ステップＳ１４において受信した小サイズ物体の検出結果と、ステップＳ４における大サイズ物体の検出結果とを統合する（ステップＳ５）。

　〔第１学習モデル及び第２学習モデルの作成方法について〕
　次に、第１学習モデル及び第２学習モデルの作成方法の一例について説明する。図１４は、第１学習モデル及び第２学習モデルの作成手順の一例を示すシーケンス図である。
　ここでは、車載システム３を２台とするが、車載システム３は３台以上あってもよい。

　車載システム３Ａ、３Ｂの各々において、車両２の周囲の撮像が行われる（ステップＳ１０１、Ｓ１０２）。

　車載システム３Ａ、３Ｂは、ステップＳ１０１、Ｓ１０２で得られた画像をそれぞれサーバ７に送信する（ステップＳ１０３、Ｓ１０４）。

　サーバ７は、車載システム３Ａ、３Ｂから受信した画像から教師データとなる画像を生成し、生成した教師データを用いて第１学習モデル及び第２学習モデルを生成する（ステップＳ１０５）。つまり、第１学習モデルの教師データの生成のもととなった画像セットと、第２学習モデルの教師データの生成のもととなった画像セットとは同じものとする。ただし、画像セットは車載システム３Ａ、３Ｂから収集せずに、サーバ７が独自に収集してもよい。

　サーバ７は、生成した第１学習モデルを車載システム３Ａ、３Ｂにそれぞれ送信する（ステップＳ１０６、Ｓ１０７）。第１学習モデルは、車載システム３、３Ｂの起動時に送信されてもよいし、所定の時間周期で定期的に送信されてもよい。なお、第２学習モデルはサーバ７での物体検出に用いられる。

　〔実施形態２の効果〕
　以上説明したように、本開示の実施形態２によると、サーバ７と車載システム３とで、注目領域に含まれる物体検出と、それ以外の領域に含まれる物体検出とを分担して行うことができる。このため、車載システム３の処理能力が低い場合であっても、物体検出を高速で行うことができる。

　また、移動体の近傍に存在する画像内でのサイズが大きい物体の検出処理を車載システム３で実行し、移動体から遠方に存在する画像内でのサイズが小さい物体の検出処理をサーバ７で実行することができる。このため、近傍に存在する物体を、遠方に存在する物体に比べて低遅延時間で検出することができる。

　また、サーバ７で、一括して第１学習モデル及び第２学習モデルを生成することができる。このため、一括生成された第１学習モデル及び第２学習モデルを用いることにより、同様の基準で物体を検出することができる。

　また、同一の画像セットを用いて第１学習モデル及び第２学習モデルを生成することができる。このため、第１学習モデル及び第２学習モデルを用いることにより、同様の基準で物体を検出することができる。

　＜実施形態３＞
　実施形態１では車載システム３が小サイズ物体及び大サイズ物体の種別の検出処理を実行し、実施形態２では、車載システム３及びサーバ７が協同して小サイズ物体及び大サイズ物体の種別の検出処理を実行した。実施形態３では、サーバ７が小サイズ物体及び大サイズ物体の種別の検出処理を実行する。
　運転支援システム１の構成は、実施形態１と同様である。

　〔プロセッサ３４の機能構成〕
　図１５は、本開示の実施形態３に係るプロセッサ３４の機能的な構成を示すブロック図である。

　図１５を参照して、プロセッサ３４は、メモリ３５に記憶されたコンピュータプログラムを実行することにより実現される機能的な処理部として、画像取得部３６と、抽出部３７と、運転支援処理部４１と、注目領域提供部４２と、検出結果取得部４３とを備える。

　注目領域提供部４２は、抽出部３７から注目領域の抽出結果を受け、注目領域の抽出結果に基づいて、画像取得部３６が取得した画像を圧縮する。ここで、注目領域提供部４２は、注目領域を注目領域以外の他の領域よりも低い圧縮率で圧縮する。注目領域提供部４２は、圧縮済み画像を注目領域の識別情報とともに通信部３２を介してサーバ７に送信する。

　検出結果取得部４３は、注目領域提供部４２がサーバ７に送信した圧縮済み画像に含まれる物体の種別の検出結果情報を、通信部３２を介してサーバ７から受信する。検出結果情報には、物体が検出されたブロックの識別情報又は物体の位置情報と、物体の種別情報とが含まれる。検出結果取得部４３は、サーバ７から取得した検出結果情報を運転支援処理部４１に出力する。

　運転支援処理部４１は、検出結果取得部４３から取得した検出結果情報に基づいて、車両２の運転支援処理を実行する。

　〔プロセッサ７２の機能構成〕
　図１６は、本開示の実施形態３に係るプロセッサ７２の機能的な構成を示すブロック図である。

　図１６を参照して、プロセッサ７２は、メモリ７３に記憶されたコンピュータプログラムを実行することにより実現される機能的な処理部として、注目領域取得部７４と、第２検出部７５と、検出結果提供部７６と、第１検出部７７と、統合部７８とを備える。

　注目領域取得部７４は、通信部７１を介して車載システム３から、圧縮済み画像を注目領域の識別情報とともに受信する。注目領域取得部７４は、取得した注目領域の識別情報に基づいて、圧縮済み画像を伸張することにより、入力画像５０を復元する。つまり、注目領域が他の領域に比べて低圧縮率で圧縮されている。このため、注目領域については、当該注目領域の圧縮方法に対応した伸張方法で伸張を行い、それ以外の領域については、当該領域の圧縮方法に対応した伸張方法で伸張を行う。

　第２検出部７５は、注目領域取得部７４から復元された注目領域像を受け、注目領域像を第２学習モデルに入力することにより、注目領域像に含まれる小サイズ物体の種別を検出する。検出方法は、実施形態１に示した第２検出部３９と同様である。

　第２検出部７５は、検出結果として、注目領域の識別情報と、注目領域に含まれる小サイズ物体の種別と、当該種別に対する確信度とを、統合部７８に出力する。

　第１検出部７７は、注目領域取得部７４から、復元された入力画像５０を受け、入力画像に含まれる各ブロック６０のブロック画像を第１学習モデルに入力することにより、ブロック画像に含まれる小サイズ物体の種別を検出する。検出方法は、実施形態１に示した第１検出部３８と同様である。なお、第１検出部７７は、各ブロック画像を所定の縮小比率に基づいて縮小し、縮小したブロック画像を第１学習モデルに入力してもよい。

　第１検出部７７は、検出結果として、ブロック６０の識別情報と、ブロック６０に含まれる大サイズ物体の種別と、当該種別に対する確信度とを、統合部７８に出力する。

　統合部４０は、第１検出部７７及び第２検出部７５の各々から検出結果を受け、第１検出部７７及び第２検出部７５の検出結果を統合する。検出結果の統合方法は、実施形態１に示した統合部４０と同様である。

　検出結果提供部７６は、統合された圧縮済み画像に含まれる物体の種別の検出結果情報を通信部７１を介して車載システム３に送信する。

　〔運転支援システム１の処理の流れ〕
　図１７は、本開示の実施形態３に係る運転支援システム１の処理手順の一例を示すシーケンス図である。なお、図９に示した処理と同様の処理については、同一のステップ番号を付す。

　車載システム３の注目領域提供部４２は、ステップＳ１で抽出された注目領域の抽出結果に基づいて、入力画像５０を圧縮する（ステップＳ２１）。ここで、注目領域提供部４２は、注目領域を注目領域以外の他の領域よりも低い圧縮率で圧縮する。

　注目領域提供部４２は、圧縮済み画像を注目領域の識別情報とともに通信部３２を介してサーバ７に送信し、サーバ７の注目領域取得部７４が受信する（ステップＳ２２）。

　サーバ７の注目領域取得部７４は、取得した注目領域の識別情報に基づいて、圧縮済み画像を伸張することにより、入力画像５０を復元する（ステップＳ２３）。

　サーバ７の第２検出部７５は、注目領域取得部７４から復元された注目領域像を受け、注目領域像を第２学習モデルに入力することにより、注目領域像に含まれる小サイズ物体の種別とその確信度を検出する（ステップＳ２）。

　サーバ７の第１検出部７７は、各ブロック画像を所定の縮小比率に基づいて縮小する（ステップＳ３）。なお、第１検出部７７は、ステップＳ２３において復元された入力画像５０を縮小した後に、縮小後の入力画像５０をブロック画像に分割してもよい。

　第１検出部７７は、縮小後の各ブロック画像を第１学習モデルに入力し、ブロック画像に含まれる大サイズ物体の種別とその確信度を検出する（ステップＳ４）。

　サーバ７の統合部７８は、ステップＳ２における小サイズ物体の検出結果と、ステップＳ４における大サイズ物体の検出結果とを統合する（ステップＳ５）。

　サーバ７の検出結果提供部７６は、統合された圧縮済み画像に含まれる物体の種別の検出結果情報を通信部７１を介して車載システム３に送信し、車載システム３の検出結果取得部４３が受信する（ステップＳ２４）。

　運転支援処理部４１は、ステップＳ２４において受信された物体の検出結果情報に基づいて、車両２の運転支援処理を実行する（ステップＳ６）。

　〔実施形態３の効果〕
　以上説明したように、本開示の実施形態３によると、第１検出部及び第２検出部がサーバ７に備えられており、車載システム３に備えられていない。このため、車載システム３の処理能力が低い場合であっても、車載システム３に物体の検出結果を提供することができ、車載システム３が車両２の運転支援処理を実行することができる。

　＜変形例＞
　上述の実施形態１～３では、第１検出部３８は、入力画像５０の認識処理として、入力画像５０に含まれる物体の種別の検出処理を行うこととしたが、入力画像５０の認識処理は、それ以外の処理であってもよい。例えば、第１検出部３８は、入力画像５０の認識処理として、入力画像５０のシーン（例えば、車両２の走行シーン）を認識する処理を実行してもよい。
　また、第２検出部３９は、注目領域像の認識処理として、注目領域像に含まれる物体の種別の検出処理を行うこととしたが、注目領域像の認識処理は、それ以外の処理であってもよい。例えば、第２検出部３９は、注目領域像の認識処理として、注目領域像のシーン（例えば、車両２の走行シーン）を認識する処理を実行してもよい。
　統合部４０は、第１検出部３８の認識結果と第２検出部３９の認識結果とを統合する。例えば、第１検出部３８により認識されたシーンと、第２検出部３９により認識されたシーンとをマージしてもよい。シーンの認識結果のマージは、実施形態１における物体の検出結果のマージと同様に確信度に基づいて行われてもよい。

　［付記］
　上記の各装置を構成する構成要素の一部または全部は、１または複数のシステムＬＳＩなどの半導体装置から構成されていてもよい。

　また、上記したコンピュータプログラムを、コンピュータ読取可能な非一時的な記録媒体、例えば、ＨＤＤ、ＣＤ－ＲＯＭ、半導体メモリなどに記録して流通させてもよい。また、コンピュータプログラムを、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送して流通させてもよい。
　また、上記各装置は、複数のコンピュータ又は複数のプロセッサにより実現されてもよい。
　さらに、上記実施形態の少なくとも一部を任意に組み合わせてもよい。

　今回開示された実施形態はすべての点で例示であって制限的なものではないと考えられるべきである。本開示の範囲は、上記した意味ではなく、請求の範囲によって示され、請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。

１　運転支援システム（画像認識システム）、２　車両（移動体）、３，３Ａ，３Ｂ　車載システム（第１処理装置）、５　ネットワーク、６　基地局、７　サーバ（第２処理装置）、３１　カメラ、３２，７１　通信部、３３　制御部、３４，７２　プロセッサ、３５，７３　メモリ、３６　画像取得部、３７　抽出部、３８，７７　第１検出部（第１認識部）、３９，７５　第２検出部（第２認識部）、４０，７８　統合部、４１　運転支援処理部、４２　注目領域提供部、４３　検出結果取得部、５０　入力画像、５１　道路、５２　自動車、５３　オートバイ、５４　横断歩道、５５　人間、５６　道路標識、６０，６４，６５Ａ～６５Ｆ　ブロック、６１～６３　注目領域、７４　注目領域取得部、７６　検出結果提供部

Claims

　入力画像から注目領域を抽出する抽出部と、
　前記入力画像を認識する第１認識部と、
　前記注目領域の像を認識する第２認識部と、
　前記第１認識部及び前記第２認識部による認識結果を統合する統合部とを備える、画像認識システム。
　前記画像認識システムは、第１処理装置と、前記第１処理装置とネットワークを介して接続される第２処理装置とを備え、
　前記第１処理装置は、前記抽出部と、前記第１認識部と、前記統合部とを含み、
　前記第２処理装置は、前記第２認識部を含む、請求項１に記載の画像認識システム。
　前記第１処理装置は、移動体に設置され、
　前記入力画像は、前記移動体の周囲の像を含む、請求項２に記載の画像認識システム。
　前記注目領域は、前記第１認識部が、所定の圧縮率で前記入力画像を圧縮及び伸張した画像又は所定の縮小率で前記入力画像を縮小及び拡大した画像からは検出することのできない物体を含む領域である、請求項１から請求項３のいずれか１項に記載の画像認識システム。
　前記注目領域は、前記第１認識部が、第１圧縮率で前記入力画像を圧縮及び伸張した画像からは検出することができず、かつ前記第１圧縮率よりも低い第２圧縮率で前記入力画像を圧縮及び伸張した画像から検出することのできる物体を含む領域を含み、
　前記第１認識部は、前記入力画像から、前記第１認識部が前記第１圧縮率で前記入力画像を圧縮及び伸張した画像から検出することのできる物体を検出し、
　前記第２認識部は、前記入力画像から、前記第１認識部が前記第１圧縮率で前記入力画像を圧縮及び伸張した画像から検出することのできない物体を検出する、請求項１から請求項４のいずれか１項に記載の画像認識システム。
　前記注目領域は、前記第１認識部が、第１縮小率で前記入力画像を縮小及び拡大した画像からは検出することができず、かつ前記第１縮小率よりも低い第２縮小率で前記入力画像を縮小及び拡大した画像から検出することのできる物体を含む領域を含み、
　前記第１認識部は、前記入力画像から、前記第１認識部が前記第１縮小率で前記入力画像を縮小及び拡大した画像から検出することのできる物体を検出し、
　前記第２認識部は、前記入力画像から、前記第１認識部が前記第１縮小率で前記入力画像を縮小及び拡大した画像から検出することのできない物体を検出する、請求項１から請求項４のいずれか１項に記載の画像認識システム。
　前記第１認識部は、第１学習モデルに基づいて前記入力画像を認識し、
　前記第２認識部は、第２学習モデルに基づいて前記注目領域の像を認識し、
　前記第２処理装置は、
　前記第１学習モデル及び前記第２学習モデルを生成する生成部と、
　生成された前記第１学習モデルを前記第１処理装置に提供する提供部とを含む、請求項２に記載の画像認識システム。
　前記生成部は、第１画像セットを用いて前記第１学習モデルを生成し、前記第１画像セットを構成する画像に含まれる前記注目領域の像を用いて前記第２学習モデルを生成する、請求項７に記載の画像認識システム。
　入力画像から注目領域を抽出する抽出部と、
　前記入力画像を認識する第１認識部と、
　前記注目領域の像を、ネットワークを介して接続されるサーバに提供する注目領域像提供部と、
　前記サーバにおける前記注目領域の像の認識結果を前記サーバから取得する認識結果取得部と、
　前記第１認識部による認識結果及び前記認識結果取得部が取得した認識結果を統合する統合部とを備える、処理装置。
　入力画像から注目領域を抽出した処理装置から、ネットワークを介して前記注目領域の像を取得する注目領域像取得部と、
　前記注目領域を認識する認識部と、
　前記認識部による認識結果を前記処理装置に提供する認識結果提供部とを備える、サーバ。
　入力画像から注目領域を抽出するステップと、
　前記入力画像を認識するステップと、
　前記注目領域の像を、ネットワークを介して接続されるサーバに提供するステップと、
　前記サーバにおける前記注目領域の像の認識結果を前記サーバから取得するステップと、
　前記認識するステップにおける認識結果及び前記サーバから取得した認識結果を統合するステップとを含む、画像認識方法。
　入力画像から注目領域を抽出した処理装置から、ネットワークを介して前記注目領域の像を取得するステップと、
　前記注目領域の像を認識するステップと、
　前記注目領域の像の認識結果を前記処理装置に提供するステップとを含む、画像認識方法。
　コンピュータを、
　入力画像から注目領域を抽出する抽出部と、
　前記入力画像を認識する第１認識部と、
　前記注目領域の像を、ネットワークを介して接続されるサーバに提供する注目領域像提供部と、
　前記サーバにおける前記注目領域の像の認識結果を前記サーバから取得する認識結果取得部と、
　前記第１認識部による認識結果及び前記認識結果取得部が取得した認識結果を統合する統合部として機能させるための、コンピュータプログラム。
　コンピュータを、
　入力画像から注目領域を抽出した処理装置から、ネットワークを介して前記注目領域の像を取得する注目領域像取得部と、
　前記注目領域の像を認識する認識部と、
　前記認識部による認識結果を前記処理装置に提供する認識結果提供部として機能させるための、コンピュータプログラム。