WO2019167303A1

WO2019167303A1 - 画像データ生成装置、画像認識装置、画像データ生成プログラム、及び、画像認識プログラム

Info

Publication number: WO2019167303A1
Application number: PCT/JP2018/028607
Authority: WO
Inventors: 英夫山田; 竜弥村松; 雅聡柴田; 修一榎田; 夕登甲斐
Original assignee: 株式会社エクォス・リサーチ; 国立大学法人九州工業大学
Priority date: 2018-02-28
Filing date: 2018-07-31
Publication date: 2019-09-06
Also published as: US20200242425A1; CN111183453A; EP3761264A1; JP2019152927A

Abstract

動的な対象を画像認識することを目的とする。　時空間画像認識装置１は、空間情報と時間情報を保持したまま動画データ４を時空間画像データに変換する時空間画像データ生成部２ａ、２ｂ、２ｃを備えており、これらは、それぞれ異なった走査経路で動画データ４をスキャンする。これにより、時空間画像データ生成部２ａ、２ｂ、２ｃは、それぞれ異なる走査経路でスキャンした時空間画像データ８ａ、８ｂ、８ｃ（図示せず）を生成して画像認識部３に出力する。画像認識部３は、時空間画像データ８ａ、８ｂ、８ｃを個別に畳み込み処理して２次元特徴マップ６０ａ、６０ｂ、６０ｃを生成した後、これらを統合してニューラルネットワークで解析し、画像認識結果を出力する。

Description

画像データ生成装置、画像認識装置、画像データ生成プログラム、及び、画像認識プログラム

　本発明は、画像データ生成装置、画像認識装置、画像データ生成プログラム、及び画像認識プログラムに関し、例えば、ＣＮＮを用いて歩行者等の各種画像を認識するものに関する。

　近年、人工知能を用いた深層学習が盛んに研究され、ＣＮＮを用いた２次元画像の画像認識の分野において大きな成果が報告されている。
　動画は２次元画像であるフレーム画像を時系列的に並べたものであるため、２次元画像に対する深層学習の技術を動画に適用したいとの要望が高まっている。
　このような２次元の画像認識技術を用いて動画を認識する技術として非特許文献１の「３Ｄ　Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋｓ　ｆｏｒ　Ｈｕｍａｎ　Ａｃｔｉｏｎ　Ｒｅｃｏｇｎｉｔｉｏｎ」や非特許文献２の「フレーム連結画像を用いたＣＮＮによるシーン認識」がある。
　非特許文献１の技術は、動画データに対して空間２次元と時間１次元から成る畳み込みフィルタを適用して、畳み込み処理を行うものである。
　非特許文献２の技術は、対象の動き（発話シーン）を撮影した一連のフレーム画像をタイル状に配置して連結することにより、１枚の２次元の画像で対象の経時変化を表すものである。これをＣＮＮによる画像認識装置に投入してシーンの認識を行う。

　しかし、非特許文献１の技術では、動画データに対して３次元の畳み込みフィルタを繰り返し使用するため、計算コストが多くなり、大規模な計算機を要するという問題があった。
　非特許文献２記載の技術では、２次元の畳み込みフィルタを用いるため、計算コストを低減することができるが、タイル状に隣接する画像の画素間には情報の関連性がなく、対象の認識精度が低下するという問題があった。

ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ｐａｔｔｅｒｎ　Ａｎａｌｙｓｉｓ　ａｎｄ　Ｍａｃｈｉｎｅ　Ｉｎｔｅｌｌｉｇｅｎｃｅ，　Ｖｏｌ．３５，　ｐｐ．２２１－２３１，２０１３，「３Ｄ　Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋｓ　ｆｏｒ　Ｈｕｍａｎ　Ａｃｔｉｏｎ　Ｒｅｃｏｇｎｉｔｉｏｎ」ＭＩＲＵ２０１６　第１９回　画像の認識・理解シンポジウム　ＰＳ１－２７「フレーム連結画像を用いたＣＮＮによるシーン認識」

　本発明は、動的な認識対象を画像認識することを目的とする。

（１）請求項１に記載の発明では、空間内での認識対象の位置を時間の経過に従って記録した時系列空間情報を取得する時系列空間情報取得手段と、前記取得した時系列空間情報を所定の方向に異なる走査経路で複数回走査して当該所定の方向における前記走査経路ごとのデータ値の列を取得するデータ値取得手段と、前記取得したデータ値の列を前記時系列空間情報の他の方向に対応して配列した画像データを前記走査経路ごとに生成する画像データ生成手段と、前記生成した画像データを出力する出力手段と、を具備したことを特徴とする画像データ生成装置を提供する。
（２）請求項２に記載の発明では、前記所定の方向が、前記時系列空間情報の空間方向であり、前記他の方向は、前記時系列空間情報の時間方向であることを特徴とする請求項１に記載の画像データ生成装置を提供する。
（３）請求項３に記載の発明では、前記データ値取得手段、前記画像データ生成手段、及び、前記出力手段が、前記異なる走査経路ごとに設けられており、これらの手段は、前記異なる走査経路ごとに前記時系列空間情報を並列処理することを特徴とする請求項１、又は請求項２に記載の画像データ生成装置を提供する。
（４）請求項４に記載の発明では、前記データ値取得手段、前記画像データ生成手段、及び、前記出力手段が、前記異なる走査経路ごとの処理を逐次処理することを特徴とする請求項１、又は請求項２に記載の画像データ生成装置を提供する。
（５）請求項５に記載の発明では、請求項１から請求項４までのうちの何れか１の請求項に記載の画像データ生成装置から、走査経路の異なる複数の画像データを取得する画像データ取得手段と、前記取得した複数の画像データから認識対象の特徴量を個別に取得する特徴量取得手段と、前記取得した個別の特徴量を統合して認識対象の認識結果を出力する統合手段と、を具備したことを特徴とする画像認識装置を提供する。
（６）請求項６に記載の発明では、前記特徴量取得手段が、畳み込み処理によって特徴量を取得し、前記統合手段は、ニューラルネットワークを用いて前記特徴量を統合する、ことを特徴とする請求項５に記載の画像認識装置を提供する。
（７）請求項７に記載の発明では、空間内での認識対象の位置を時間の経過に従って記録した時系列空間情報を取得する時系列空間情報取得機能と、前記取得した時系列空間情報を所定の方向に異なる走査経路で複数回走査して当該所定の方向における前記走査経路ごとのデータ値の列を取得するデータ値取得機能と、前記取得したデータ値の列を前記時系列空間情報の他の方向に対応して配列した画像データを前記走査経路ごとに生成する画像データ生成機能と、前記生成した画像データを出力する出力機能と、をコンピュータで実現する画像データ生成プログラムを提供する。
（８）請求項８に記載の発明では、請求項１から請求項４までのうちの何れか１の請求項に記載の画像データ生成装置から、走査経路の異なる複数の画像データを取得する画像データ取得機能と、前記取得した複数の画像データから認識対象の特徴量を個別に取得する特徴量取得機能と、前記取得した個別の特徴量を統合して認識対象の認識結果を出力する統合機能と、をコンピュータで実現する画像認識プログラムを提供する。

　本発明によれば、空間的な情報と時間的な情報を併せ持つ時空間画像データを生成することにより、動的な認識対象を画像認識することができる。

時空間画像認識装置の構成を説明するための図である。時空間画像データの構成を説明するための図である。ヒルベルトスキャンを説明するための図である。ヒルベルトスキャンの走査経路を説明するための図である。ヒルベルトスキャンの走査経路の変形例を説明するための図である。ＣＮＮの構成を説明するための図である。画像認識部を説明するための図である。時空間画像認識装置のハードウェア的な構成の一例を示した図である。時空間画像データ生成処理の手順を説明するためのフローチャートである。画像認識処理の手順を説明するためのフローチャートである。変形例を説明するための図である。

（１）実施形態の概要
　時空間画像認識装置１（図１）は、空間情報と時間情報を保持したまま動画データ４を２次元画像データである時空間画像データに変換する時空間画像データ生成部２ａ、２ｂ、２ｃを備えており、これらは、１枚分のフレーム画像データ６に対して、それぞれ異なった走査経路で動画データ４をスキャンする。
　これにより、時空間画像データ生成部２ａ、２ｂ、２ｃは、それぞれ異なる走査経路でスキャンした時空間画像データ８ａ、８ｂ、８ｃを生成して画像認識部３に出力する。
　画像認識部３は、時空間画像データ８ａ、８ｂ、８ｃを個別に畳み込み処理して２次元特徴マップ６０ａ、６０ｂ、６０ｃ（後述する）を生成した後、これらを統合してニューラルネットワークで解析し、画像認識結果を出力する。
　このように、時空間画像認識装置１は、異なる走査経路により生成された複数枚の時空間画像データ８ａ、８ｂ、８ｃを入力とする２次元ＣＮＮ（Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）により動画像を用いた画像認識を行うことができる。

（２）実施形態の詳細
　図１は、本実施形態に係る時空間画像認識装置１の構成を説明するための図である。
　時空間画像認識装置１は、例えば、車両に搭載され、車載のカメラが出力した動画データ４を解析して車外に存在する歩行者の有無と動作状態の分類（右直立、右歩行、左直立、左歩行など）を画像認識する。

　時空間画像認識装置１は、動画データ４を並列処理する時空間画像データ生成部２ａ、２ｂ、２ｃ、及び画像認識部３を備えている。
　以下、時空間画像データ生成部２ａ、２ｂ、２ｃを特に区別しない場合は単に時空間画像データ生成部２と記すことにし、他の構成要素についても同様に記すことにする。

　時空間画像データ生成部２は、認識対象の空間的な状態の時間的変化を記録した３次元情報（空間方向２次元、時間方向１次元の計３次元）である動画データ４を、後述するように空間方向に１次元展開して時間方向に配列することにより、２次元画像データに変換する画像データ生成装置である。
　この２次元画像データは、空間的、及び時間的な情報を表しているため、本願発明人らにより時空間画像データと命名された。

　時空間画像データ８（図２参照）は、２次元画像データであるため、空間情報、及び時間情報を記録した動画データ４に対して２次元画像データの画像認識技術を適用できるようになる。そのため、動画データ４に対して３次元フィルタを用いた従来技術に比べて計算コストを劇的に低減することができる。

　時空間画像データ生成部２は、動画データ４のフレームを構成する静止画像データを所定の走査経路でスキャンすることにより２次元の空間情報を１次元のデータに展開するのであるが、時空間画像データ生成部２ａ、２ｂ、２ｃは、それぞれ異なる走査経路で静止画像データをスキャンし、これによって３種類の時空間画像データ８を生成する。
　本実施形態では、時空間画像データ生成部２ａ、２ｂ、２ｃは、走査経路の異なるヒルベルトスキャン（後述）を行うものとする。

　なお、時空間画像データ生成部２ａ、２ｂは、ヒルベルトスキャンを行い、時空間画像データ生成部２ｃは、ラスタスキャンを行うといったように、異なる方式の走査方法を組み合わせてもよい。
　また、本実施形態では、３種類の時空間画像データ８を組み合わせたが、これは一例であって、２種類の時空間画像データ８を組み合わせたり、更に多くの種類の時空間画像データ８を組み合わせてもよい。

　画像認識部３は、時空間画像データ生成部２ａ、２ｂ、２ｃが生成した時空間画像データ８から個別に特徴量を抽出した後、これらを統合して画像認識を行い、画像認識結果を出力する。
　本実施形態では、これらの処理に、一例としてＣＮＮ（Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）を用いる。ＣＮＮは、深層学習を用いた人工知能によって画像認識処理を行うアルゴリズムであり、畳み込みニューラルネットワークと呼ばれている。ＣＮＮは、２次元画像データの画像認識方法として高い評価を得ており、広く利用されている。
　通常のＣＮＮは、１つの画像データを処理するように構成されているが、画像認識部３は、３つの時空間画像データ８を統合的に処理して画像認識するように構成されている。

　図２は、時空間画像データ８の構成を説明するための図である。
　図２（ａ）に示したように、カメラによって撮影された動画データ４は、時系列的に生成されたフレーム画像データ６ａ、６ｂ、…から構成されている。
　フレーム画像データ６は、ある瞬間において被写体（認識対象）を撮影した、空間方向の（ｘ、ｙ）成分を有する２次元の静止画像データである。

　動画データ４は、フレーム画像データ６を撮影時間に従って時間方向（ｔ軸とする）に時系列に順序づけて並べた静止画像データの集合であり、空間方向の２次元、時間方向の１次元を合計した３次元データとなる。
　ここで、動画データ４は、空間内での認識対象の位置を時間の経過に従って記録した時系列空間情報として機能している。

　時空間画像データ生成部２は、カメラから逐次送られてくるフレーム画像データ６を時系列的に所定枚数分を読み込む。
　このように、時空間画像データ生成部２は、カメラより時系列空間情報を取得する時系列空間情報取得手段を備えている。
　ここでは、一例として最初のフレーム画像データ６ａから最新のフレーム画像データ６ｆまでの６枚のフレーム画像データ６を読み込むことにする。
　なお、画像認識精度が許容範囲内に保たれる限度まで、フレーム画像データ６を所定枚数ごとに、あるいは、ランダムに読み込んだり、または、コマ落ちが生じてもよい。

　なお、フレーム画像データ６を読み込む順番については、この逆も可能である。
　すなわち、時空間画像データ生成部２は、カメラから逐次送られてくるフレーム画像データ６のうち、最新のものから過去のものへ時系列的に所定枚数分を読み込むようにしてもよい。この場合の一例としては、最新のフレーム画像データ６ｆから過去方向のフレーム画像データ６ａまでの６枚のフレーム画像データ６を読み込むことになる。

　時空間画像データ生成部２は、これらのフレーム画像データ６を読み込むと、まず、フレーム画像データ６ａに対して空間方向（ｘ軸とｙ軸で張られる面の面方向）にヒルベルト曲線（後述）を一筆書き的に設定する。そして、時空間画像データ生成部２は、当該ヒルベルト曲線に沿ってフレーム画像データ６ａの画素の画素値をスキャン（走査）して読み取り、これらを１列のデータ値の列に展開する。この処理は、ヒルベルトスキャンと呼ばれ、詳細は後述する。

　フレーム画像データ６ａをヒルベルトスキャンすることにより、フレーム画像データ６ａを撮影した時点での、空間的情報を含む空間方向の１次元データである１次元空間画像データ７ａが得られる。
　時空間画像データ生成部２は、同様にして、フレーム画像データ６ｂ～６ｆも図示しない１次元空間画像データ７ｂ～７ｆに変換する。
　後述するように、ヒルベルト曲線は屈曲しているため、これに沿ってスキャンすると、画像の局所性を極力保持したまま２次元画像を１次元化することができる。

　次いで、時空間画像データ生成部２は、図１（ｂ）に示したように、１次元空間画像データ７ａ～７ｆを時間方向に（即ち撮影時間の順番に）時系列的に配列して画像認識用の時空間画像データ８を生成する。

　時空間画像データ８は、一辺の方向が空間的情報（空間成分）を表し、これに直交する他方の辺が時間的情報（時間成分）を表す２次元画像データである。
　このように、時空間画像データ生成部２は、動画データ４を空間方向にヒルベルトスキャンして展開することにより３次元の時系列空間データである動画データ４を、空間的情報、及び時間的情報を保持しつつ、２次元の画像データである時空間画像データ８に変換する。
　なお、ここでは１次元空間画像データ７の配列を時系列順としたが、画像認識が可能な範囲で順序を変更することも可能である。

　以上が、時空間画像データ生成部２が時空間画像データ８を生成する手順であるが、時空間画像認識装置１は、走査経路の異なる３つの時空間画像データ生成部２ａ、２ｂ、２ｃを備えているため、動画データ４から、走査経路ごとの１次元空間画像データ７や時空間画像データ８を生成して画像認識部３に出力する。

　このため、時空間画像認識装置１は、時系列空間情報を所定の方向（この例では、空間方向）に異なる走査経路で複数回走査して（この例では３回走査して）当該所定の方向における走査経路ごとのデータ値の列を取得するデータ値取得手段と、これによって取得したデータ値の列を時系列空間情報の他の方向（この例では、時間方向）に対応して配列した画像データ（この例では、時系列画像データ）を走査経路ごとに生成する画像データ生成手段と、当該生成した画像データを出力する出力手段とを備えている。

　また、時空間画像データ生成部２ａ、２ｂ、２ｃは、異なる走査経路ごとに設けられており、動画データ４を並列処理するため、上記のデータ値取得手段、画像データ生成手段、及び、出力手段は、当該異なる走査経路ごとに設けられており、これらの手段は、当該異なる走査経路ごとに時系列空間情報を並列処理している。

　なお、本実施形態では、動画データ４を空間方向にスキャンして、その結果得られた１次元データを時間方向に配列したが、これは、一例であって、時間方向にスキャンし、その結果得られた１次元データを空間方向に配列してもよい。

　本実施形態では、スキャン方法としてヒルベルトスキャンを用いるが、次に、これについて説明する。
　図３は、時空間画像データ生成部２が行うヒルベルトスキャンを説明するための図である。
　ヒルベルトスキャンは、フレーム画像データ６に各画素を通過するヒルベルト曲線を設定し、これに沿ってスキャンすることにより、フレーム画像データ６の全体に渡って画素値を一筆書き的に読み取る処理である。

　ヒルベルト曲線は、図３（ａ）に示したようなコの字型の曲線を組み合わせて形成される空間全体を覆う曲線であり、空間充填曲線と呼ばれるものの一種である。空間充填曲線には、この他にペアノ曲線などもある。図に示した矢線は、スキャンの方向を示している。
　このように、時空間画像データ生成部２は、屈曲を繰り返す曲線として空間充填曲線を設定している。

　図３（ｂ）に示したような、ｍ×ｍ（ｍ＝２）個の画素１～４が配置された画像データ２０の例では、これらの画素を通過するヒルベルト曲線２１を設定し、矢線の方向に画素値をスキャンして読み取った画素値を１列に並べると、画素１～画素４が順に並んだ１次元空間画像データ２２が得られる。

　図３（ｃ）に示したような、ｍ×ｍ（ｍ＝４）個の画素１～Ｇが配置された画像データ２４の例では、これらの画素を通過するヒルベルト曲線２５を設定し、矢線の方向に画素値をスキャンして読み取った画素値を１列に並べると、画素１～画素Ｇが順に並んだ１次元空間画像データ２６が得られる。
　更に、より画素の多い画像データも同様に、ヒルベルト曲線に従ってスキャンする。

　ところで、例えば、図３（ｃ）の画像データ２４では、領域２７に画素１、２、５、６が局在しているが、これらの画素は１次元空間画像データ２６においても領域２８に局在している。
　同様に、画像データ２４で局在している画素３、４、７、８も１次元空間画像データ２６で局在してまとまっている。
　このようにヒルベルトスキャンを用いると、画素値の局所性をできるだけ保持したまま２次元データを１次元化することができる。

　画像認識は、画像の特徴をパターン認識するため、元画像の局所的な特徴をなるべく損なわないようにして時空間画像データ８を生成することが重要となる。
　そのため、ヒルベルト曲線は、フレーム画像データ６をスキャンするための走査線として適した曲線である。
　なお、これは、フレーム画像データ６をスキャンする曲線をヒルベルト曲線に限定するものではなく、ペアノ曲線などの他の空間充填曲線や、非空間充填曲線を用いることも可能である。

　本実施形態では、ヒルベルト曲線を画素単位で屈曲させるが、例えば、１つおきの画素で屈曲させ、１つおきの画素値を読み取るといったように、読み取りの間隔を粗くすることも可能である。間隔が細かいほど精度は上がるが、計算コストは増大する。そのため、読み取りの間隔は、画像認識に必要とされる局所性の程度に応じて決定すればよい。

　図４は、時空間画像データ生成部２ａ、２ｂ、２ｃが行うヒルベルトスキャンの走査経路の一例を説明するための図である。
　この図４では、時空間画像データ生成部２ａ、２ｂ、２ｃは、それぞれ同一のフレーム画像データ６に対して異なる走査経路のヒルベルトスキャンを行う。
　なお、ｘ座標が小さい側を左側、大きい側を右側、ｙ座標が小さい側を上側、大きい側を下側とする（それぞれ、図面に向かって左、右、上、下側の方向に対応する）。

　図４（ａ）は、時空間画像データ生成部２ａが行うヒルベルトスキャンの走査開始点と走査終了点を示している。
　時空間画像データ生成部２ａは、フレーム画像データ６の左端上部と左端下部を、それぞれ、走査開始点と走査終了点に設定し、フレーム画像データ６の全ての画素を通過するように走査経路（図示せず）をヒルベルト曲線にて設定する。

　図４（ｂ）は、時空間画像データ生成部２ｂが行うヒルベルトスキャンの走査開始点と走査終了点を示している。
　時空間画像データ生成部２ｂは、フレーム画像データ６の右端上部と右端下部を、それぞれ、走査開始点と走査終了点に設定し、フレーム画像データ６の全ての画素を通過するように走査経路（図示せず）をヒルベルト曲線にて設定する。

　図４（ｃ）は、時空間画像データ生成部２ｃが行うヒルベルトスキャンの走査開始点と走査終了点を示している。
　時空間画像データ生成部２ｃは、フレーム画像データ６の左端中央部に画素１つ分だけずらして走査開始点と走査終了点を設定し、フレーム画像データ６の全ての画素を通過するように走査経路（図示せず）をヒルベルト曲線にて設定する。

　このように、時空間画像データ生成部２ａ、２ｂ、２ｃは、異なる点を走査開始点と走査終了点に設定してヒルベルト曲線を設定するため、走査経路が異なる。
　これによって、時空間画像データ生成部２ａ、２ｂ、２ｃは、それぞれ、走査経路の異なる時空間画像データ８を生成することができる。
　なお、以上の走査開始点と走査終了点は、一例であって、任意の箇所に設定することが可能である。

　図５は、時空間画像データ生成部２ａ、２ｂ、２ｃが行うヒルベルトスキャンの走査経路の変形例を説明するための図である。
　図４で説明した実施形態では、同一のフレーム画像データ６に対して異なる走査経路のヒルベルトスキャンを行う場合について説明した。これに対して変形例では、１つのフレーム画像データ６ａから、複数（実施形態に合わせて３枚）のクリッピング画像６ａａ、６ａｂ、…をランダムにクリッピングし、このクリッピング画像６ａａ、…に対して同一走査経路のヒルベルトスキャンを行う。すなわち、同じ走査開始点と走査終了点を設定してヒルベルトスキャンする場合であっても、異なる領域のクリピング画像をスキャンすることで、元のフレーム画像データ６ａに対しては、走査経路を変化させたことになる。

　図５（ａ）に示したように、フレーム画像データ６ａは、一例として６４×３２個の画素から構成されているとする。
　これに対し、時空間画像データ生成部２は、このサイズより小さい領域をフレーム画像データ６ａにランダム（任意）に設定し、フレーム画像データ６ａから当該領域で形成されたクリッピング画像６ａａ、６ａｂ…を抜き出す。クリッピング画像６ａａ、…のサイズは、一例として６０×３０とする。

　なお、画像にヒルベルト曲線を設定する場合、一辺のサイズが２のｎ乗（ｎは自然数）であることが必要である。
　そこで、時空間画像データ生成部２は、図５（ｂ）に示したように、クリッピング画像６ａａの周囲に適当な画素を追加するパディングという処理を行って、６４×３２のクリッピング画像６ａａのサイズを復元する。
　そして、時空間画像データ生成部２は、復元したクリッピング画像６ａａにヒルベルト曲線を設定してスキャンし、追加した画素の画素値はメモリに読み込まずにスキップして１次元空間画像データ７ａを生成する。

　時空間画像データ生成部２は、同様に、フレーム画像データ６ｂ～６ｆを任意の範囲でクリッピングしてクリッピング画像６ｂａ、６ｂｂ、…、～６ｆａ、６ｆｂ、６ｆｃを生成し、これらをパディングしてからヒルベルトスキャンして１次元空間画像データ７ｂａ、７ｂｂ、…、～７ｆａ、７ｆｂ、７ｆｃを生成する。
　そして、時空間画像データ生成部２は、１次元空間画像データ７ｂａ、７ｂｂ、…、～７ｆａ、７ｆｂ、７ｆｃを時系列順に配設して時空間画像データ８ａ、８ｂ…８ｆを生成する。
　以上の例では、クリッピング画像６ａａ…をフレーム画像データ６ごとに任意の領域に設定したが、何らかの規則性に従って設定してもよい。

　以上の手順によって、時空間画像データ生成部２ａ、２ｂ、２ｃは、それぞれランダムにフレーム画像データ６ａをクリッピングして、クリッピング画像６ａａ、６ａｂ、６ａｃ（図示せず、以下同様）を生成する。
　なお、ｊ番目の時空間画像データ生成部２ｊ（２ａ、２ｂ、２ｃ）が、ｉ番目のフレーム画像データ６ｉをクリッピングした後パディングして生成したクリッピング画像をクリッピング画像６ｉｊと表すことにする。１次元空間画像データ７についても同様にｉｊを用いて表示することする。

　そして、時空間画像データ生成部２ａ、２ｂ、２ｃは、それぞれ、クリッピング画像６ａａ、６ａｂ、６ａｃに同じ走査経路を設定し、ヒルベルトスキャンする。
　走査経路は同じであるが、クリッピングにより、元のフレーム画像データ６に対する走査する範囲が異なるため、時空間画像データ生成部２ａ、２ｂ、２ｃは、異なる１次元空間画像データ７ａａ、７ａｂ、７ａｃを生成する。

　時空間画像データ生成部２ａ、２ｂ、２ｃは、フレーム画像データ６ｂ～６ｆについても同様に処理し、これによって、時空間画像データ生成部２ａは、１次元空間画像データ７ｂａ～７ｆａを生成し、時空間画像データ生成部２ｂは、１次元空間画像データ７ｂｂ～７ｆｂを生成し、時空間画像データ生成部２ｃは、１次元空間画像データ７ｂｃ～７ｆｃを生成する。
　そして、時空間画像データ生成部２ａは、１次元空間画像データ７ａａ～７ｆａから時空間画像データ８ａを生成し、時空間画像データ生成部２ｂは、１次元空間画像データ７ａｂ～７ｆｂから時空間画像データ８ｂを生成し、時空間画像データ生成部２ｃは、１次元空間画像データ７ａｃ～７ｆｃから時空間画像データ８ｃを生成する。
　このようにして、時空間画像データ生成部２ａ、２ｂ、２ｃは、異なる走査経路でヒルベルトスキャンした時空間画像データ８ａ、８ｂ、８ｃを生成することができる。

　なお、一般的に、フレーム画像データ６をクリッピングする処理は、以下に述べるように、ヒルベルトスキャンによる局所情報の非局在化を軽減するために利用される。
　即ち、ヒルベルトスキャンは、フレーム画像データ６における画素の局所性をなるべく保持したまま時空間画像データ８を生成することができる。
　しかし、局所性の全てが保存されるわけではなく、局在化していた画素が離れてしまう場合もある程度発生する。

　クリッピング後にサイズを復元したクリッピング画像６ｉｊにヒルベルト曲線を設定することにより、元のフレーム画像６ｉに対して、ヒルベルト曲線の開始点や画素を通過する経路がクリッピング画像６ｉｊごとに変化し、画素の非局在化を様々な画素に分散することができる。
　このように、時空間画像データ生成部２は、クリッピングによってもフレーム画像データごとに、曲線の設定範囲を変化させることにより曲線の設定条件を変化させることができる。

　このような、学習画像やフレーム画像データ６から一回り小さい画像をランダムで切り出して、空間的情報の保持を網羅的にする処理は、データオーギュメンテーションと呼ばれている。
　データオーギュメンテーションは、事前学習用の動画データ４と動画データ４の双方について行われる。

　以上、異なる走査経路を設定してヒルベルトスキャンする例として、図４で説明した走査開始点と走査終了点を変化させる例と、図５で説明したクリッピングする例について説明したが、両者を組み合わせるのが好ましい。
　本実施形態では、時空間画像データ生成部２ａ、２ｂ、２ｃは、それぞれ個別にフレーム画像データ６をランダムにクリッピングするとともに、それぞれ、異なる走査開始点と走査終了点を設定することとした。

　次に、画像認識部３のＣＮＮを説明する準備として、一般的なＣＮＮの構成について説明する。
　図６は、ＣＮＮ３０の構成を概念的に表したものである。
　図６に示すように、ＣＮＮ３０は、例えば、右直立、右歩行、左直立、左歩行、・・・など歩行者が取り得る各種の態様を分類クラスとして事前学習している。そして、ＣＮＮ３０は、２次元画像データを読み込んで、これから歩行者の態様が何れの分類クラスに属するかを以下の構成により画像認識し、その結果を出力する。

　ＣＮＮ３０は、特徴マップ生成層１８と全結合層１７を組み合わせて構成されている。
　特徴マップ生成層１８は、入力側から、畳み込み層１１、プーリング層１２、畳み込み層１３、プーリング層１４、畳み込み層１５、プーリング層１６の各層を積層して構成されており、その下流側に全結合層１７が配置されている。
　畳み込み層１１は、入力された２次元画像データ（本実施形態では、時空間画像データ８が２次元画像データに相当する）に対して２次元フィルタを画像上でスライドさせてフィルタリングすることにより画像の特徴的な濃淡構造を抽出する層であり、周波数解析に対応する処理を行う。

　プーリング層１２は、畳み込み層１１によって抽出された特徴を保持しつつデータをダウンサンプリングして縮小する。
　歩行者は、動的に動くため、フレーム画像データ６での撮影位置がずれるが、プーリング層１２の処理によって歩行者を表す空間的な特徴の位置のずれを吸収することができる。これによって、空間的な位置ずれに対する画像認識精度の頑強性を高めることができる。

　畳み込み層１３、１５と、プーリング層１４、１６の機能は、それぞれ、畳み込み層１１、プーリング層１２と同様である。
　以上のような畳み込み処理によって、特徴マップ生成層１８は、２次元画像データから特徴量を抽出して、２次元特徴マップ６０（畳み込み層１１～プーリング層１６を経て特徴量を抽出したデータ）を生成する。

　全結合層１７は、入力層５１、中間層５２、出力層５３から成る一般的なニューラルネットワークであり、２次元特徴マップ６０を１次元に展開して、回帰分析のような処理を行う層である。
　出力層５３は、右直立、右歩行、左直立、左歩行、・・・などの分類クラス別の出力部を備えており、例えば、右直立→５％、右歩行→８５％、左直立→２％、・・・などと、分類クラスごとの％によって画像認識結果５４を出力する。
　このように、画像認識部３は、画像の特徴の抽出と位置のずれの吸収を３回行った後、回帰分析的な処理を行って、歩行者の態様を画像認識する。

　なお、畳み込み層１１、１３、１５の２次元フィルタの値や、全結合層１７のパラメータは、学習を通してチューニングされている。
　学習は、分類クラスごとに多数の２次元画像データを用意し、これをＣＮＮ３０に入力して、その結果をバックプロパゲーションするなどして行う。

　図７は、画像認識部３を説明するための図である。
　画像認識部３は、時空間画像データ生成部２ａ、２ｂ、２ｃを用いた画像認識処理を統合するようにＣＮＮ３０の機能を拡張したものであり、画像認識装置として機能する。
　本実施形態では、全結合方式、クラススコア平均方式、及びＳＶＭ方式の３種類の統合方式を採用し、それぞれの画像認識精度を実験により評価した。

　図７（ａ）は、全結合方式のネットワーク構造を示した図である。
　画像認識部３は、時空間画像データ８ａ、８ｂ、８ｃごとの特徴マップ生成層１８ａ、１８ｂ、１８ｃを備えており、それぞれ、時空間画像データ生成部２ａ、２ｂ、２ｃから時空間画像データ８ａ、８ｂ、８ｃを受け取って、２次元特徴マップ６０ａ、６０ｂ、６０ｃを生成する。

　このように、画像認識部３は、走査経路の異なる複数の画像データを取得する画像データ取得手段と、当該複数の画像データから認識対象の特徴量を畳み込み処理によって個別に取得する特徴量取得手段を備えている。

　画像認識部３は、２次元特徴マップ６０ａ、６０ｂ、６０ｃを生成すると、これらをベクトル化して（即ち、成分を一列に並べて）全結合（連結）することにより統合して一つの２次元特徴マップ６０を生成し、これを入力層５１に入力する。
　中間層５２は、統合された２次元特徴マップ６０をニューラルネットワークによって解析し、出力層５３は、当該解析によって得られた画像認識結果を出力する。
　このように、画像認識部３は、２次元特徴マップ６０ａ、６０ｂ、６０ｃによる個別の特徴量を統合して認識対象の認識結果を出力する統合手段を備えている。

　図７（ｂ）は、クラススコア平均方式のネットワーク構造を示した図である。
　画像認識部３は、時空間画像データ８ａ、８ｂ、８ｃごとに特徴マップ生成層１８ａ～出力層５３ａ、特徴マップ生成層１８ｂ～出力層５３ｂ、特徴マップ生成層１８ｃ～出力層５３ｃを備えており、まず、時空間画像データ８ａ、８ｂ、８ｃごとの画像認識結果を計算する。
　画像認識部３は、更に平均値出力層５５を備えており、出力層５３ａ、５３ｂ、５３ｃが出力した画像認識結果を分類クラスごとに平均して出力する。
　このように、平均値出力層５５は、時空間画像データ８ａ、８ｂ、８ｃによる画像認識結果を平均処理によって統合し、得られた平均値を最終的な画像認識結果とする。

　図７（ｃ）は、ＳＶＭ方式のネットワーク構造を示した図である。
　画像認識部３は、時空間画像データ８ａ、８ｂ、８ｃごとに特徴マップ生成層１８ａ～中間層５２ａ、特徴マップ生成層１８ｂ～中間層５２ｂ、特徴マップ生成層１８ｃ～中間層５２ｃを備えている。

　更に、画像認識部３は、中間層５２ａ、５２ｂ、５２ｃの出力部に接続されたＳＶＭ層５７を備えている。
　ＳＶＭ層５７は、ＳＶＭ（Ｓｕｐｐｏｒｔ　Ｖｅｃｔｏｒ　Ｍａｃｈｉｎｅ）によって認識を行う層である。ＳＶＭは、識別器として広く利用されているものである。
　ＳＶＭ層５７には、時空間画像データ８ａ、８ｂ、８ｃが連結により統合して入力されるように構成されており、ＳＶＭ層５７は、これを用いて認識対象を識別する。そして、出力層５３は、識別結果を分類クラスごとに出力する。

　本願発明者は、以上の３種類の統合方式について比較評価を行った。その結果平均正答率は、全結合方式→８８．９％、クラススコア平均方式→８５．８％、ＳＶＭ方式→８６．３％となり、全結合方式の正答率が最も高かった。これらは、３次元フィルタを用いたＣＮＮ３０に比肩するものである。
　なお、図６に示した単一の時空間画像データ８を用いた場合の正答率は、８３．６％であり、何れの統合方式もこれより正答率が高かった。
　以上の実験により、複数の走査経路を併用することにより画像認識能力が向上することが分かった。

　本実施形態では、一例として、画像認識部３は、ＣＮＮ３０によって画像認識を行ったが、これは、画像認識方式を限定するものではなく、例えば、ＨＯＧ（Ｈｉｓｔｏｇｒａｍ　ｏｆ　Ｏｒｉｅｎｔｅｄ　Ｇｒａｄｉｅｎｔｓ）特徴量、ＣｏＨＯＧ（Ｃｏ－ｏｃｃｕｒｒｅｎｃｅ　ＨＯＧ）特徴量、あるいは、ＭＲ－ＣｏＨＯＧ（Ｍｕｌｔｉ　Ｒｅｓｏｌｕｔｉｏｎ　ＣｏＨＯＧ）特徴量といった、他の特徴量を用いる画像認識方式を採用することも可能である。

　図８は、時空間画像認識装置１のハードウェア的な構成の一例を示した図である。
　時空間画像認識装置１は、車載用に構成されているが、航空機や船舶などの他の形態の移動体に搭載したり、あるいは、スマートフォンなどの携帯端末に搭載したり、更には、パーソナルコンピュータなどの据え置き型の装置に搭載したりすることができる。

　時空間画像認識装置１は、ＣＰＵ４１、ＲＯＭ４２、ＲＡＭ４３、記憶装置４４、カメラ４５、入力部４６、及び出力部４７などがバスラインで接続されて構成されている。
　ＣＰＵ４１は、中央処理装置であって、記憶装置４４が記憶する時空間画像認識プログラムに従って動作し、上述した歩行者の画像認識を行う。

　ＲＯＭ４２は、読み出し専用のメモリであって、ＣＰＵ４１を動作させるための基本的なプログラムやパラメータを記憶している。
　ＲＡＭ４３は、読み書きが可能なメモリであって、ＣＰＵ４１が動画データ４から時空間画像データ８を生成したり、更に、時空間画像データ８から歩行者を画像認識する際のワーキングメモリを提供する。

　記憶装置４４は、ハードディスクなどの大容量の記憶媒体を用いて構成されており、時空間画像認識プログラムを記憶している。
　時空間画像認識プログラムは、ＣＰＵ４１に時空間画像データ生成部２や画像認識部３としての機能を発揮させるためのプログラムである。

　カメラ４５は、車外を動画撮影する車載カメラであって、所定のフレームレートでフレーム画像データ６を出力する。
　入力部４６は、時空間画像認識装置１を操作するための操作ボタンなどから構成され、出力部４７は、時空間画像認識装置１の設定画面などを表示するディスプレイなどから構成されている。

　本実施形態では、時空間画像認識装置１を車載装置とするが、カメラ４５を車両に設置し、ネットワーク通信によって動画をサーバに送信し、サーバで画像認識して認識結果を車両に送信するように構成することもできる。
　更には、時空間画像データ生成部２を車両に実装し、画像認識部３をサーバで実現し、時空間画像データ生成部２と画像認識部３の間を通信によって接続するように構成することもできる。

　次に、時空間画像認識装置１の動作について説明する。ここでは、全結合方式の場合について説明する。
　図９は、時空間画像データ生成部２ａが行う時空間画像データ８の生成処理手順を説明するためのフローチャートである。
　以下の処理は、ＣＰＵ４１が時空間画像認識プログラムに従って構成した時空間画像データ生成部２ａが行うものである。
　まず、カメラ４５が車外を撮影して動画データ４を逐次的に出力する。
　次に、ＣＰＵ４１は、動画フレームをＱ枚読み込む（ステップ５)。すなわち、ＣＰＵ４１は、出力される動画データ４における所定枚数Ｑ枚（例えば、６枚）のフレーム画像データ６を出力順にＲＡＭ４３に読み込む。

　次に、ＣＰＵ４１は、パラメータｉを０にセットしてＲＡＭ４３に記憶する（ステップ１０）。
　そして、ＣＰＵ４１は、ＲＡＭ４３からｉ番目のフレーム画像データ６を読み出し、これからクリッピング画像６ｉｊを生成してＲＡＭ４３に記憶する（ステップ１５）。
　フレーム画像データ６からクリッピング画像６ｉｊを生成する領域は、乱数を発生させて、これに基づいてランダムに決定する。
　なお、ｉ＝０番目のフレーム画像データ６は、Ｑ枚のうちの１枚目に対応する。即ち、ｉ番目のフレーム画像データ６は、Ｑ枚の内のｉ＋１枚目に対応する。

　次に、ＣＰＵ４１は、クリッピング画像６ｉｊをパディングしてサイズを復元し、これをＲＡＭ４３に記憶する。
　そして、ＣＰＵ４１は、ＲＡＭ４３に記憶した当該クリッピング画像６ｉｊにヒルベルト曲線を設定してヒルベルトスキャンを行い（ステップ２０）、１次元空間画像データ７を生成する（ステップ２５）。

　次に、ＣＰＵ４１は、生成した１次元空間画像データ７をＲＡＭ４３に記憶して時空間画像データ８を生成する（ステップ３０）。
　なお、ｉ＝０の場合は、まず、最初の１次元空間画像データ７ａ１をＲＡＭ４３に記憶し、ｉ＝１、２、…の場合には、既にＲＡＭ４３に記憶してある１次元空間画像データ７ａ１に時系列的に追加していく。

　次に、ＣＰＵ４１は、ＲＡＭ４３に記憶してあるｉに１をインクリメントした後（ステップ３５）、ｉがＱ未満か否かを判断する（ステップ４０）。
　ｉがＱ未満の場合（ステップ４０；Ｙ）、ＣＰＵ４１は、ステップ１５に戻り、次のフレーム画像データ６に対して同様の処理を行う。

　一方、ｉがＱ未満でない場合（ステップ４０；Ｎ）、ＲＡＭ４３に時空間画像データ８ａが完成したため、ＣＰＵ４１は、時空間画像データ８ａを画像認識部３に出力して（ステップ４５）、処理を終了する。
　以上、時空間画像データ生成部２ａの動作について説明したが、時空間画像データ生成部２ｂ、２ｃも同様の処理を平行して行い、時空間画像データ８ｂ、８ｂを画像認識部３に出力する。

　図１０は、画像認識部３が行う画像認識処理の手順を説明するためのフローチャートである。
　以下の処理は、ＣＰＵ４１が時空間画像認識プログラムに従って構成した画像認識部３が行うものである。なお、ＣＰＵ４１の処理に対応する機能部を括弧にて示す。
　ＣＰＵ４１（特徴マップ生成層１８ａ）は、時空間画像データ生成部２ａが出力した時空間画像データ８ａをＲＡＭ４３から読み込む（ステップ１０５）。

　次に、ＣＰＵ４１（特徴マップ生成層１８ａ）は、読み込んだ時空間画像データ８ａに対して畳み込み処理を行い、２次元特徴マップ６０ａを生成してＲＡＭ４３に記憶する（ステップ１１０）。
　ＣＰＵ４１（特徴マップ生成層１８ｂ、１８ｃ）は、時空間画像データ８ｂ、８ｃに対しても同様の処理を行い、２次元特徴マップ６０ｂ、６０ｃを生成してＲＡＭ４３に記憶する。

　次に、ＣＰＵ４１は、ＲＡＭ４３に２次元特徴マップ６０ａ、６０ｂ、６０ｃが揃ったか判断し、まだ、生成されていない２次元特徴マップ６０がある場合は（ステップ１１５；Ｎ）、ステップ１０５に戻る。
　一方、２次元特徴マップ６０ａ、６０ｂ、６０ｃが揃っている場合（ステップ１１５；Ｙ）、ＣＰＵ４１（全結合層１７）は、これらをＲＡＭ４３から読み出して結合することにより一つの２次元特徴マップ６０とし、入力層５１～出力層５３から成るニューラルネットワークに入力する（ステップ１２０）。

　次に、ＣＰＵ４１（出力層５３）は、画像認識結果を所定の出力先に出力する（ステップ１２５）。
　出力先は、例えば、車両の制御系であり、車両前方に歩行者が存在する場合に車速の制動を行ったりする。

　図１１は、実施形態の変形例を説明するための図である。
　上述した実施形態では、時空間画像認識装置１に走査経路ごとの時空間画像データ生成部２ａ、２ｂ、２ｃを設けたが、本変形例では、単一の時空間画像データ生成部２がフレーム画像データ６を異なる走査経路で３回ヒルベルトスキャンすることにより、時空間画像データ８ａ、８ｂ、８ｃを生成して画像認識部３に出力する。

　即ち、時空間画像データ生成部２は、フレーム画像データ６に対して異なる走査経路のヒルベルトスキャンを逐次行う。
　この例では、データ値取得手段、画像データ生成手段、及び、出力手段は、異なる走査経路ごとの処理を逐次処理している。

　実施形態の時空間画像認識装置１は、時空間画像データ生成部２が複数個設置されており並列処理するため処理速度が速いという特徴がある一方、その分ハードウェア資源を要するという特徴があり、変形例の時空間画像認識装置１は、逐次処理のため処理速度は遅くなるもののハードウェア資源に対する要求が小さいという特徴がある。
　何れを選択するかは、時空間画像認識装置１を実装する計算機のアーキテクチャや使用目的に応じて決めることができる。

　以上に説明した実施形態、及び変形例によって次のような効果を得ることができる。
（１）動画像データに含まれる空間情報と時間情報を２次元の時空間画像データで表現することができる。
（２）動画データ４（時系列画像）に複数通りの走査方法を適用することにより同一の動画データ４から複数の時空間画像データを生成することができる。
（３）複数の時空間画像データから個別に特徴量を抽出することができる。
（４）複数の時空間画像データから個別に抽出した特徴量を統合して画像認識することにより正答率を高めることができる。

　１　時空間画像認識装置
　２　時空間画像データ生成部
　３　画像認識部
　４　動画データ４
　６　フレーム画像データ
　６ｉｊ　クリッピング画像
　７　１次元空間画像データ
　８　時空間画像データ
１１、１３、１５　畳み込み層
１２、１４、１６　プーリング層
１７　全結合層
１８　特徴マップ生成層
２０、２４　画像データ
２１、２５　ヒルベルト曲線
２２、２６　１次元空間画像データ
２７、２８　領域
３０　ＣＮＮ
４１　ＣＰＵ
４２　ＲＯＭ
４３　ＲＡＭ
４４　記憶装置
４５　カメラ
４６　入力部
４７　出力部
５１　入力層
５２　中間層
５３　出力層
５５　平均値出力層
５７　ＳＶＭ層
６０　２次元特徴マップ

Claims

　空間内での認識対象の位置を時間の経過に従って記録した時系列空間情報を取得する時系列空間情報取得手段と、
　前記取得した時系列空間情報を所定の方向に異なる走査経路で複数回走査して当該所定の方向における前記走査経路ごとのデータ値の列を取得するデータ値取得手段と、
　前記取得したデータ値の列を前記時系列空間情報の他の方向に対応して配列した画像データを前記走査経路ごとに生成する画像データ生成手段と、
　前記生成した画像データを出力する出力手段と、
　を具備したことを特徴とする画像データ生成装置。
　前記所定の方向は、前記時系列空間情報の空間方向であり、前記他の方向は、前記時系列空間情報の時間方向であることを特徴とする請求項１に記載の画像データ生成装置。
　前記データ値取得手段、前記画像データ生成手段、及び、前記出力手段は、前記異なる走査経路ごとに設けられており、これらの手段は、前記異なる走査経路ごとに前記時系列空間情報を並列処理することを特徴とする請求項１、又は請求項２に記載の画像データ生成装置。
　前記データ値取得手段、前記画像データ生成手段、及び、前記出力手段は、前記異なる走査経路ごとの処理を逐次処理することを特徴とする請求項１、又は請求項２に記載の画像データ生成装置。
　請求項１から請求項４までのうちの何れか１の請求項に記載の画像データ生成装置から、走査経路の異なる複数の画像データを取得する画像データ取得手段と、
　前記取得した複数の画像データから認識対象の特徴量を個別に取得する特徴量取得手段と、
　前記取得した個別の特徴量を統合して認識対象の認識結果を出力する統合手段と、
　を具備したことを特徴とする画像認識装置。
　前記特徴量取得手段は、畳み込み処理によって特徴量を取得し、
　前記統合手段は、ニューラルネットワークを用いて前記特徴量を統合する、
　ことを特徴とする請求項５に記載の画像認識装置。
　空間内での認識対象の位置を時間の経過に従って記録した時系列空間情報を取得する時系列空間情報取得機能と、
　前記取得した時系列空間情報を所定の方向に異なる走査経路で複数回走査して当該所定の方向における前記走査経路ごとのデータ値の列を取得するデータ値取得機能と、
　前記取得したデータ値の列を前記時系列空間情報の他の方向に対応して配列した画像データを前記走査経路ごとに生成する画像データ生成機能と、
　前記生成した画像データを出力する出力機能と、
　をコンピュータで実現する画像データ生成プログラム。
　請求項１から請求項４までのうちの何れか１の請求項に記載の画像データ生成装置から、走査経路の異なる複数の画像データを取得する画像データ取得機能と、
　前記取得した複数の画像データから認識対象の特徴量を個別に取得する特徴量取得機能と、
　前記取得した個別の特徴量を統合して認識対象の認識結果を出力する統合機能と、
　をコンピュータで実現する画像認識プログラム。