JPWO2020236993A5 - - Google Patents

Download PDF

Info

Publication number
JPWO2020236993A5
JPWO2020236993A5 JP2021568891A JP2021568891A JPWO2020236993A5 JP WO2020236993 A5 JPWO2020236993 A5 JP WO2020236993A5 JP 2021568891 A JP2021568891 A JP 2021568891A JP 2021568891 A JP2021568891 A JP 2021568891A JP WO2020236993 A5 JPWO2020236993 A5 JP WO2020236993A5
Authority
JP
Japan
Prior art keywords
layer
output
unit
electronic device
convolutional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021568891A
Other languages
English (en)
Other versions
JP2022533206A (ja
JP7385681B2 (ja
Publication date
Application filed filed Critical
Priority claimed from PCT/US2020/033885 external-priority patent/WO2020236993A1/en
Publication of JP2022533206A publication Critical patent/JP2022533206A/ja
Publication of JPWO2020236993A5 publication Critical patent/JPWO2020236993A5/ja
Application granted granted Critical
Publication of JP7385681B2 publication Critical patent/JP7385681B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本開示の付加的および他の目的、特徴、および利点が、詳細な説明、図、および請求項に説明される。
本発明は、例えば、以下を提供する。
(項目1)
マシンビジョンのためのマルチタスク深層学習パラダイムにおけるニューラルネットワークであって、
エンコーダであって、前記エンコーダは、第1階層と、第2階層と、第3階層とを備え、
前記第1階層は、第1階層ユニットを備え、
前記第1階層ユニットは、1つ以上の第1ユニットブロックを備え、
前記第2階層は、前記第2階層内の1つ以上の第2階層ユニットにおいて前記第1階層から第1階層出力を受信し、
第2階層ユニットが、1つ以上の第2階層ブロックを備え、
前記第3階層は、前記第3階層内の1つ以上の第3階層ユニットにおいて前記第2階層から第2階層出力を受信し、
第3階層ユニットが、1つ以上の第3階層ブロックを備える、
エンコーダと、
デコーダであって、前記デコーダは、前記エンコーダからエンコーダ出力を受信するために、前記エンコーダに動作的に結合される、デコーダと、
1つ以上の損失関数層であって、前記1つ以上の損失関数層は、深層学習パラダイムにおける前記ニューラルネットワークの少なくとも前記エンコーダを訓練するために、1つ以上の損失を逆伝搬するように構成される、1つ以上の損失関数層と
を備える、ニューラルネットワーク。
(項目2)
前記第1階層ユニット内の前記1つ以上の第1ユニットブロックは、畳み込み層を備え、バッチ正規化層が論理的に続き、スケール層がさらに論理的に続き、前記1つ以上の第1ユニットブロックはさらに、前記スケール層に論理的に続く整流線形ユニットを備える、項目1に記載のニューラルネットワーク。
(項目3)
前記第2階層は、第1の第2階層ユニットと、第2の第2階層ユニットとを備え、
前記第1の第2階層ユニットは、前記第1階層から第1階層出力を受信し、第1の第2階層第1ユニットブロックと、第2の第2階層第1ユニットブロックとを備え、
前記第1の第2階層第1ユニットブロックおよび前記第2の第2階層第1ユニットブロックは両方とも、それぞれ、バッチ正規化層を備え、スケール層が続き、整流線形ユニットがさらに論理的に続き、
前記第1の第2階層第1ユニットブロック内の前記バッチ正規化層は、第1の畳み込み層に論理的に続き、
前記第2の第2階層第1ユニットブロック内の前記バッチ正規化層は、第2の畳み込み層に論理的に続き、
前記第1の畳み込み層は、前記第2の畳み込み層と異なる、
項目1に記載のニューラルネットワーク。
(項目4)
前記第2の第2階層ユニットは、前記第2の第2階層第1ユニットブロックおよび前記第1階層出力から連結された出力を受信する第1の第2階層第2ユニットブロックと、第2の第2階層第2ユニットブロックと、第3の第2階層第2ユニットブロックとを備え、
前記第1の第2階層第2ユニットブロック、前記第2の第2階層第2ユニットブロック、および前記第3の第2階層第2ユニットブロックは、それぞれ、前記バッチ正規化層を備え、前記スケール層が続き、前記整流線形ユニットがさらに論理的に続き、前記第1の第2階層第2ユニットブロック内の前記バッチ正規化層は、前記第2の畳み込み層に論理的に続き、
前記第2の第2階層第2ユニットブロック内の前記バッチ正規化層は、前記第1の畳み込み層に論理的に続き、
前記第3の第2階層第2ユニットブロック内の前記バッチ正規化層は、前記第2の畳み込み層に論理的に続き、
前記第3の第2階層第2ユニットブロックは、第2階層出力を発生させるように構成される、
項目3に記載のニューラルネットワーク。
(項目5)
前記第1階層によって発生された第1階層出力が、前記第2階層によって発生された第2階層出力と連結され、第3階層入力として前記第3階層に提供され、
前記第3階層は、第1の第3階層ユニットと、第2の第3階層ユニットとを備え、
前記第1の第3階層ユニットは、個別の第1ユニット階層的レベルに位置する複数の第3階層第1ユニットブロックを備え、
前記複数の第3階層第1ユニットブロックのうちの少なくともいくつかは、1つを上回る第1の拡張係数に対応する異なる拡張された畳み込み層を備える、
項目1に記載のニューラルネットワーク。
(項目6)
前記第2の第3階層ユニットは、個別の第2ユニット階層的レベルに位置する複数の第3階層第2ユニットブロックを備え、前記複数の第3階層第2ユニットブロックのうちの少なくともいくつかは、1つを上回る第2の拡張係数に対応する複数の拡張された畳み込み層を備え、前記複数の第3階層第1ユニットブロックおよび前記複数の第3階層第2ユニットブロックは、前記深層学習パラダイムにおける前記ニューラルネットワークの少なくともエンコーダを訓練するために、少なくとも1つの個別の拡張された畳み込み層と、複数の個別の残差ブロックとを備える、項目5に記載のニューラルネットワーク。
(項目7)
第2階層出力が、第3階層入力として前記第3階層に提供され、前記ニューラル出力のための最終連結出力として前記第3階層によって発生された第3階層出力とさらに連結され、前記深層学習パラダイムにおける前記ニューラルネットワークの少なくともエンコーダを訓練することは、少なくとも活性化層および交差エントロピ損失を使用して、前記1つ以上の損失を逆伝搬することを含む、項目1に記載のニューラルネットワーク。
(項目8)
ニューラルネットワークの埋込実装を伴うモバイル電子デバイスであって、
モバイル通信デバイスと、
マシンビジョンのためのマルチタスク深層学習パラダイムにおけるニューラルネットワークの埋込実装であって、前記埋込実装における前記ニューラルネットワークは、
複数のスーパーハイビジョンプロセッサまたはプロセッサコアを有するビジョン処理ユニットと、
エンコーダであって、前記エンコーダは、第1階層と、第2階層と、第3階層とを備え、
前記第1階層は、第1階層ユニットを備え、
前記第1階層ユニットは、1つ以上の第1ユニットブロックを備え、
前記第2階層は、前記第2階層内の1つ以上の第2階層ユニットにおいて前記第1階層から第1階層出力を受信し、
第2階層ユニットが、1つ以上の第2階層ブロックを備え、
前記第3階層は、前記第3階層内の1つ以上の第3階層ユニットにおいて前記第2階層から第2階層出力を受信し、
第3階層ブロックが、1つ以上の第3階層ブロックを備える、
エンコーダと
を備える、ニューラルネットワークの埋込実装と
を備える、モバイル電子デバイス。
(項目9)
前記埋込実装における前記ニューラルネットワークは、
前記エンコーダからエンコーダ出力を受信するために、前記エンコーダに動作的に結合される可視性デコーダ層と、
前記エンコーダから前記エンコーダ出力を受信するために、前記エンコーダに動作的に結合される特徴姿勢デコーダ層と、
前記エンコーダから前記エンコーダ出力を受信するために、前記エンコーダに動作的に結合される配向デコーダ層と
を備える、項目8に記載のモバイル電子デバイス。
(項目10)
前記第1階層ユニット内の前記1つ以上の第1ユニットブロックは、畳み込み層を備え、バッチ正規化層が論理的に続き、スケール層がさらに論理的に続き、前記1つ以上の第1ユニットブロックはさらに、前記スケール層に論理的に続く整流線形ユニットを備える、項目8に記載のモバイル電子デバイス。
(項目11)
前記第2階層は、第1の第2階層ユニットと、第2の第2階層ユニットとを備え、
前記第1の第2階層ユニットは、前記第1階層から第1階層出力を受信し、第1の第2階層第1ユニットブロックと、第2の第2階層第1ユニットブロックとを備え、
前記第1の第2階層第1ユニットブロックおよび前記第2の第2階層第1ユニットブロックは両方とも、それぞれ、バッチ正規化層を備え、スケール層が続き、整流線形ユニットがさらに論理的に続き、
前記第1の第2階層第1ユニットブロック内の前記バッチ正規化層は、第1の畳み込み層に論理的に続き、
前記第2の第2階層第1ユニットブロック内の前記バッチ正規化層は、第2の畳み込み層に論理的に続き、
前記第1の畳み込み層は、前記第2の畳み込み層と異なる、
項目8に記載のモバイル電子デバイス。
(項目12)
前記第1階層によって発生された第1階層出力が、前記第2階層によって発生された第2階層出力と連結され、第3階層入力として前記第3階層に提供され、
前記第3階層は、第1の第3階層ユニットと、第2の第3階層ユニットとを備え、
前記第1の第3階層ユニットは、個別の第1ユニット階層的レベルに位置する複数の第3階層第1ユニットブロックを備え、
前記複数の第3階層第1ユニットブロックのうちの少なくともいくつかは、1つを上回る第1の拡張係数に対応する異なる拡張された畳み込み層を備える、
項目8に記載のモバイル電子デバイス。
(項目13)
前記第2の第3階層ユニットは、個別の第2ユニット階層的レベルに位置する複数の第3階層第2ユニットブロックを備え、前記複数の第3階層第2ユニットブロックのうちの少なくともいくつかは、1つを上回る第2の拡張係数に対応する複数の拡張された畳み込み層を備え、前記複数の第3階層第1ユニットブロックおよび前記複数の第3階層第2ユニットブロックは、前記深層学習パラダイムにおける前記ニューラルネットワークの少なくともエンコーダを訓練するために、少なくとも1つの個別の拡張された畳み込み層と、複数の個別の残差ブロックとを備える、項目12に記載のモバイル電子デバイス。
(項目14)
第2階層出力が、第3階層入力として前記第3階層に提供され、前記ニューラル出力のための最終連結出力として前記第3階層によって発生された第3階層出力とさらに連結され、前記深層学習パラダイムにおける前記ニューラルネットワークの少なくともエンコーダを訓練することは、少なくとも活性化層および交差エントロピ損失を使用して、1つ以上の損失を逆伝搬することを含む、項目12に記載のモバイル電子デバイス。
(項目15)
マシンビジョンのためのマルチタスク深層学習パラダイム内のニューラルネットワークであって、
空間パス層であって、前記空間パス層は、空間パスにおいて入力データセット内の空間情報を保全するように構成され、前記空間パスは、前記空間情報をエンコードする、空間パス層と、
コンテキストパス層であって、前記コンテキストパス層は、コンテキストパスを使用することによって、前記ニューラルネットワークの受容フィールドを増加させるように構成され、前記コンテキストパスは、前記入力データセット内のコンテキスト情報をエンコードする、コンテキストパス層と、
特徴融合層であって、前記特徴融合層は、前記空間パス層からの第1の出力および前記コンテキストパスからの第2の出力を融合するように構成される、特徴融合層と
を備える、ニューラルネットワーク。
(項目16)
項目15に記載のマシンビジョンのためのマルチタスク深層学習パラダイム内のニューラルネットワークであって、前記空間パス層は、
エンコーダであって、前記エンコーダは、第1階層と、第2階層と、第3階層とを備え、
前記第1階層は、第1階層ユニットを備え、
前記第1階層ユニットは、1つ以上の第1ユニットブロックを備え、
前記第2階層は、前記第2階層内の1つ以上の第2階層ユニットにおいて前記第1階層から第1階層出力を受信し、
第2階層ユニットが、1つ以上の第2階層ブロックを備え、
前記第3階層は、前記第3階層内の1つ以上の第3階層ユニットにおいて前記第2階層から第2階層出力を受信し、
第3階層ブロックが、1つ以上の第3階層ブロックを備える、
エンコーダ
を備える、ニューラルネットワーク。
(項目17)
項目16に記載のマシンビジョンのためのマルチタスク深層学習パラダイム内のニューラルネットワークであって、前記空間パス層は、
デコーダであって、前記デコーダは、前記エンコーダからエンコーダ出力を受信するために、前記エンコーダに動作的に結合される、デコーダと、
1つ以上の損失関数層であって、前記1つ以上の損失関数層は、深層学習パラダイムにおける前記ニューラルネットワークの少なくとも前記エンコーダを訓練するために、1つ以上の損失を逆伝搬するように構成される、1つ以上の損失関数層と
を備える、ニューラルネットワーク。
(項目18)
項目16に記載のマシンビジョンのためのマルチタスク深層学習パラダイム内のニューラルネットワークであって、前記第2階層は、第1の第2階層ユニットと、第2の第2階層ユニットとを備え、
前記第1の第2階層ユニットは、前記第1階層から第1階層出力を受信し、第1の第2階層第1ユニットブロックと、第2の第2階層第1ユニットブロックとを備え、
前記第1の第2階層第1ユニットブロックおよび前記第2の第2階層第1ユニットブロックは両方とも、それぞれ、バッチ正規化層を備え、スケール層が続き、整流線形ユニットがさらに論理的に続き、
前記第1の第2階層第1ユニットブロック内の前記バッチ正規化層は、第1の畳み込み層に論理的に続き、
前記第2の第2階層第1ユニットブロック内の前記バッチ正規化層は、第2の畳み込み層に論理的に続き、
前記第1の畳み込み層は、前記第2の畳み込み層と異なり、
前記第1階層ユニット内の前記1つ以上の第1ユニットブロックは、畳み込み層を備え、バッチ正規化層が論理的に続き、スケール層がさらに論理的に続き、前記1つ以上の第1ユニットブロックはさらに、前記スケール層に論理的に続く整流線形ユニットを備える、
ニューラルネットワーク。
(項目19)
項目16に記載のマシンビジョンのためのマルチタスク深層学習パラダイム内のニューラルネットワークであって、前記コンテキストパス層は、
軽量モデルであって、前記軽量モデルは、少なくとも部分的に、軽量モデルによって前記ニューラルネットワークに提供される受容フィールドに基づいて、入力画像をダウンサンプリングするように構成される、軽量モデルと、
プーリング層であって、前記プーリング層は、前記軽量モデルに結合され、前記コンテキスト情報を捕捉するように構成される畳み込み層が論理的に続く、プーリング層と
を備える、ニューラルネットワーク。
(項目20)
項目19に記載のマシンビジョンのためのマルチタスク深層学習パラダイム内のニューラルネットワークであって、
注意精緻化層であって、前記注意精緻化層は、前記複数のプーリング層に動作的に結合され、特徴選択または組み合わせを誘導するための注意ベクトルを決定するように構成される、注意精緻化層と、
特徴融合層であって、前記特徴融合層は、前記空間パス層からの空間パス出力および前記コンテキストパス層からのコンテキストパス出力を融合するように構成される、特徴融合層と、
前記空間パス層を訓練するように構成される第1の損失関数と、
前記コンテキストパス層を訓練するように構成される第2の損失関数と
をさらに備える、ニューラルネットワーク。

Claims (19)

  1. ニューラルネットワークの埋込実装を伴うモバイル電子デバイスであって、
    モバイル通信デバイスと、
    マシンビジョンのためのマルチタスク深層学習パラダイムにおけるニューラルネットワークの埋込実装
    を備え、
    前記埋込実装における前記ニューラルネットワークは、
    複数のスーパーハイビジョン(SHV)プロセッサまたはプロセッサコアを有するビジョン処理ユニットと、
    エンコーダであって、前記エンコーダは、第1階層と、第2階層と、第3階層とを備え、各階層は、個別の数のユニットブロックを備え、各後続の階層は、直前の階層から個別の出力を受信し、前記直前の階層より高いネットワーク複雑性を有する、エンコーダと
    を備え、
    前記ニューラルネットワークの前記埋込実装は、
    前記エンコーダに動作可能に結合される可視性デコーダ層であって、前記可視性デコーダ層は、前記エンコーダから受信されたエンコーダ出力と前記可視性デコーダ層のバイナリ交差エントロピ損失とに少なくとも部分的に基づいて、1つ以上のマスクを決定するために使用される、可視性デコーダ層と、
    前記エンコーダに動作可能に結合される特徴姿勢デコーダ層であって、前記特徴姿勢デコーダ層は、前記エンコーダから前記エンコーダ出力を受信するために使用され、前記埋込実装への入力における1つ以上の特徴点から予測される特徴姿勢の分類損失に対応する、特徴姿勢デコーダ層と、
    前記エンコーダに動作可能に結合される配向デコーダ層であって、前記配向デコーダ層は、前記エンコーダから受信された前記エンコーダ出力と前記配向デコーダ層のカテゴリ配向損失とに少なくとも部分的に基づいて、前記埋込実装による予測を正則化するために使用される、配向デコーダ層と
    を備える、モバイル電子デバイス。
  2. 1階層ユニット、畳み込み層を備え、バッチ正規化層が論理的に続き、スケール層がさらに論理的に続き、
    前記第1階層ユニットは、前記スケール層に論理的に続く整流線形ユニットをさらに備え
    前記第2階層は、グループ化畳み込みを含むボトルネックブロックまたは半ボトルネックブロックを備え、
    前記複数のSHVプロセッサまたはプロセッサコアのうちの少なくとも1つは、前記ニューラルネットワークが、複数の命令を明示的に規定し、前記複数の命令を逐次的に実行するのではなく並行して実行することを可能にする、請求項に記載のモバイル電子デバイス。
  3. 前記第2階層は、第1の第2階層ユニットと、第2の第2階層ユニットとを備え、
    前記第1階層は、1つ以上の第1階層ユニットブロックをさらに備える第1階層ユニットを備え、
    前記第2階層は、第1の第2階層ユニットを備え、
    前記第1の第2階層ユニットは、前記第1階層から第1階層出力を受信し、第1の第2階層第1ユニットブロックと、第2の第2階層第1ユニットブロックとを備え、
    前記第1の第2階層第1ユニットブロックおよび前記第2の第2階層第1ユニットブロックは両方とも、それぞれ、対応するバッチ正規化層を備え、対応するスケール層が続き、対応する整流線形ユニットがさらに論理的に続き、
    前記第1の第2階層第1ユニットブロック内の前記対応するバッチ正規化層は、第1の畳み込み層に論理的に続き、
    前記第2の第2階層第1ユニットブロック内の前記対応するバッチ正規化層は、第2の畳み込み層に論理的に続き、
    前記第1の畳み込み層は、前記第2の畳み込み層と異なる、請求項に記載のモバイル電子デバイス。
  4. 前記第2の第2階層ユニットは、第2の第2階層第1ユニットブロックおよび第1階層出力から連結出力を受信する第1の第2階層第2ユニットブロックと、第2の第2階層第2ユニットブロックと、第3の第2階層第2ユニットブロックとを備え、
    前記第1の第2階層第2ユニットブロック、前記第2の第2階層第2ユニットブロック、および、前記第3の第2階層第2ユニットブロックは、それぞれ、前記バッチ正規化層を備え、前記スケール層が続き、前記整流線形ユニットがさらに論理的に続き、前記第1の第2階層第2ユニットブロック内の前記バッチ正規化層は、前記第2の畳み込み層に論理的に続き、
    前記第2の第2階層第2ユニットブロック内の前記バッチ正規化層は、前記第1の畳み込み層に論理的に続き、
    前記第3の第2階層第2ユニットブロック内の前記バッチ正規化層は、前記第2の畳み込み層に論理的に続き、
    前記第3の第2階層第2ユニットブロックは、第2階層出力を発生させるように構成される、請求項3に記載のモバイル電子デバイス。
  5. 少なくとも、1つ以上の第1の係数を用いて前記第2階層を構成することおよび1つ以上の第2の係数を用いて前記ニューラルネットワークの前記第3階層を構成することによって、分解能または被覆率の損失を伴わずに前記ニューラルネットワークの受容フィールドを非線形的に拡大することをさらに含み、
    前記1つ以上の第1の係数および前記1つ以上の第2の係数は、前記ニューラルネットワークの前記受容フィールドの拡大の非線形性を共同で定義し、
    前記第1階層によって発生された第1階層出力が、前記第2階層によって発生された第2階層出力と連結され、第3階層入力として前記第3階層に提供され、
    前記第3階層は、第1の第3階層ユニットと、第2の第3階層ユニットとを備え、
    前記第1の第3階層ユニットは、個別の第1ユニット階層的レベルに位置する複数の第3階層第1ユニットブロックを備え、
    前記複数の第3階層第1ユニットブロックのうちの少なくともいくつかは、1つを上回る第1の拡張係数に対応する異なる拡張された畳み込み層を備える、請求項に記載のモバイル電子デバイス。
  6. 前記第2の第3階層ユニットは、個別の第2ユニット階層的レベルに位置する複数の第3階層第2ユニットブロックを備え、前記複数の第3階層第2ユニットブロックのうちの少なくともいくつかは、1つを上回る第2の拡張係数にそれぞれ対応する複数の拡張された畳み込み層を備え、前記複数の第3階層第1ユニットブロックおよび前記複数の第3階層第2ユニットブロックは深層学習パラダイムにおける前記ニューラルネットワークの少なくとも前記エンコーダを訓練するために、少なくとも1つの個別の拡張された畳み込み層と、複数の個別の残差ブロックとを備える、請求項に記載のモバイル電子デバイス。
  7. 第2階層出力が、第3階層入力として前記第3階層に提供されニューラル出力のための最終連結出力として前記第3階層によって発生された第3階層出力とさらに連結され、前記深層学習パラダイムにおける前記ニューラルネットワークの少なくとも前記エンコーダを訓練することは、少なくとも活性化層および前記バイナリ交差エントロピ損失を使用して、1つ以上の損失を逆伝搬することを含む、請求項に記載のモバイル電子デバイス。
  8. 前記エンコーダからエンコーダ出力を受信するために、前記エンコーダに動作可能に結合されるデコーダをさらに備え、少なくとも前記埋込実装における前記第2階層および前記第3階層は、前記埋込実装の出力における分解能を維持する一方で逆畳み込み層を含まないように構成される、請求項1に記載のモバイル電子デバイス。
  9. 前記埋込実装における前記ニューラルネットワークは、カーネルスタックを同時に再順序付けする、請求項1に記載のモバイル電子デバイス。
  10. 前記埋込実装における前記ニューラルネットワークが、前記ニューラルネットワークの複数の畳み込み層を1つ以上のグループに、前記1つ以上のグループのグループにおけるフィルタの数がSHVプロセッサまたはプロセッサコアのレーンの複数の合計数に等しいように、グループ化することをさらに含み、前記SHVプロセッサまたはプロセッサコアは、プロセッサ命令において1つ以上のデータ要素を処理するために前記レーンの合計数の中で分割されるレジスタの合計数を備える、請求項1に記載のモバイル電子デバイス。
  11. 前記埋込実装は、
    前記埋込実装の前記ニューラルネットワークにおける低レベル情報またはデータをエンコードするために構成される空間パスと、
    前記埋込実装の前記ニューラルネットワークにおける高レベル情報またはデータをエンコードするために構成されるコンテキストパスと
    をさらに備え、
    前記空間パスは、第1の出力を発生させるように構成され、
    前記コンテキストパスは、第2の出力を発生させるように構成され、
    前記高レベル情報またはデータは、グローバルコンテキスト情報を備え、
    前記低レベル情報またはデータは、前記高レベル情報またはデータよりもさらなる詳細を備える、請求項1に記載のモバイル電子デバイス。
  12. 前記埋込実装は、
    前記空間パスからの前記第1の出力に関連する第1のデータを前記コンテキストパスからの前記第2の出力に関連する第2のデータと連結し、連結出力にする融合ブロックと、
    前記連結出力の連結データにおける複数のスケールを平衡させる正規化ブロックと
    をさらに備える、請求項11に記載のモバイル電子デバイス。
  13. 前記埋込実装は、行為のセットを実施するように構成され、前記行為のセットは、
    前記空間パスから前記第1の出力を受信することと、
    複数のダウンサンプリング層を通して前記空間パスの前記第1の出力を処理し、前記空間パスのためのダウンサンプリングされた出力を生産することと
    を含み、
    各ダウンサンプリング層は、個別のダウンサンプリング率に対応し、各後続のダウンサンプリング層は、直前のダウンサンプリング層を上回るダウンサンプリング率を有する、請求項12に記載のモバイル電子デバイス。
  14. 前記埋込実装は、行為のセットを実施するようにさらに構成され、前記行為のセットは、
    前記複数のダウンサンプリング層の最後のダウンサンプリング層の次からの第1のダウンサンプリングされた出力を最後のダウンサンプリング層および第1の注意層に伝送することと、
    前記第1の注意層が、第1の注意層出力を発生させることと、
    前記複数のダウンサンプリング層の前記最後のダウンサンプリング層からの第2のダウンサンプリングされた出力を第2の注意層に伝送することと、
    前記第2の注意層が、第2の注意層出力を発生させることと、
    第1の注意出力および第2の注意出力を連結のために前記融合ブロックに伝送することと
    をさらに含む、請求項13に記載のモバイル電子デバイス。
  15. 前記第1および第2の注意層は、それぞれ、アップサンプリングすることなく、コンテキストデータを捕捉し、前記ニューラルネットワークの予測を精緻化する、請求項14に記載のモバイル電子デバイス。
  16. 前記埋込実装は、プーリング層をさらに備え、前記プーリング層は、前記連結出力の前記連結データのための加重ベクトルを決定し、組み合わせられた連結データへの前記連結データのうちの少なくともいくつかの選択および組み合わせのために前記連結データを再加重する、請求項12に記載のモバイル電子デバイス。
  17. 前記埋込実装は、
    前記組み合わせられた連結データを入力として受信し、前記入力に少なくとも部分的に基づいて第1の畳み込み出力を発生させるように構成される第1の畳み込み層と、
    前記畳み込み層から前記畳み込み出力を受信し、前記空間パスおよび前記コンテキストパスによって発生された前記畳み込み出力からの複数のスケールを平衡させ、正規化された出力を発生させるように構成される正規化層と、
    前記正規化層から前記正規化された出力を受信し、活性化された出力を発生させるように構成される活性化関数と、
    前記活性化関数から前記活性化された出力を受信し、前記活性化された出力に少なくとも部分的に基づいて第2の畳み込み出力を決定するように構成される第2の畳み込み層と
    をさらに備える、請求項16に記載のモバイル電子デバイス。
  18. グループ化係数および第2の数のチャネルを使用して前記第2階層においてグループ化畳み込みを実施することであって、前記第1階層は、処理するための第1の数のチャネルを採用するが、グループ化畳み込みを実施しない、ことと、
    異なるグループ化係数および第3の数のチャネルを使用して前記第3階層において別個のグループ化畳み込みを実施することと
    をさらに含む、請求項1に記載のモバイル電子デバイス。
  19. 前記第2の数は、前記第1の数を上回り、前記第3の数は、前記第2の数を上回り、前記第3階層のための前記異なるグループ化係数は、前記第2階層のための前記グループ化係数を上回る、請求項18に記載のモバイル電子デバイス。
JP2021568891A 2019-05-21 2020-05-20 手姿勢推定 Active JP7385681B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962850542P 2019-05-21 2019-05-21
US62/850,542 2019-05-21
PCT/US2020/033885 WO2020236993A1 (en) 2019-05-21 2020-05-20 Hand pose estimation

Publications (3)

Publication Number Publication Date
JP2022533206A JP2022533206A (ja) 2022-07-21
JPWO2020236993A5 true JPWO2020236993A5 (ja) 2023-05-29
JP7385681B2 JP7385681B2 (ja) 2023-11-22

Family

ID=73457223

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021568891A Active JP7385681B2 (ja) 2019-05-21 2020-05-20 手姿勢推定

Country Status (5)

Country Link
US (1) US11775836B2 (ja)
EP (1) EP3973468A4 (ja)
JP (1) JP7385681B2 (ja)
CN (1) CN113874883A (ja)
WO (1) WO2020236993A1 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858524B (zh) * 2019-01-04 2020-10-16 北京达佳互联信息技术有限公司 手势识别方法、装置、电子设备及存储介质
JP2022537817A (ja) 2019-06-28 2022-08-30 マジック リープ, インコーポレイテッド 動的オクルージョンのための高速の手のメッシュ化
US11151412B2 (en) * 2019-07-01 2021-10-19 Everseen Limited Systems and methods for determining actions performed by objects within images
US11144790B2 (en) * 2019-10-11 2021-10-12 Baidu Usa Llc Deep learning model embodiments and training embodiments for faster training
CN112767300A (zh) * 2019-10-18 2021-05-07 宏达国际电子股份有限公司 自动生成手部的标注数据的方法和计算骨骼长度的方法
CN112613384B (zh) * 2020-12-18 2023-09-19 安徽鸿程光电有限公司 手势识别方法、手势识别装置及交互显示设备的控制方法
CN112651440B (zh) * 2020-12-25 2023-02-14 陕西地建土地工程技术研究院有限责任公司 基于深度卷积神经网络的土壤有效团聚体分类识别方法
CN112699837A (zh) * 2021-01-13 2021-04-23 新大陆数字技术股份有限公司 一种基于深度学习的手势识别方法及设备
CN112836594B (zh) * 2021-01-15 2023-08-08 西北大学 一种基于神经网络的三维手部姿态估计方法
CN113158774B (zh) * 2021-03-05 2023-12-29 北京华捷艾米科技有限公司 一种手部分割方法、装置、存储介质和设备
CN113222044B (zh) * 2021-05-25 2022-03-08 合肥工业大学 一种基于三元注意力和尺度关联融合的宫颈液基细胞分类方法
US20240161494A1 (en) * 2021-06-22 2024-05-16 Intel Corporation Methods and devices for gesture recognition
CN113674395B (zh) * 2021-07-19 2023-04-18 广州紫为云科技有限公司 一种基于单目rgb摄像头3d手部轻量级实时捕捉重建系统
KR102542683B1 (ko) * 2021-09-16 2023-06-14 국민대학교산학협력단 손 추적 기반 행위 분류 방법 및 장치
US20230093385A1 (en) * 2021-09-17 2023-03-23 Microsoft Technology Licensing, Llc Visibility-based attribute detection
CN113627397B (zh) * 2021-10-11 2022-02-08 中国人民解放军国防科技大学 一种手部姿态识别方法、系统、设备和存储介质
CN114038037B (zh) * 2021-11-09 2024-02-13 合肥工业大学 基于可分离残差注意力网络的表情标签修正和识别方法
CN114119635B (zh) * 2021-11-23 2024-05-24 电子科技大学成都学院 一种基于空洞卷积的脂肪肝ct图像分割方法
KR20230096730A (ko) * 2021-12-23 2023-06-30 삼성전자주식회사 웨어러블 장치 및 그 제어 방법
WO2023211444A1 (en) * 2022-04-28 2023-11-02 Innopeak Technology, Inc. Real-time on-device large-distance gesture recognition with lightweight deep learning models
CN115601593A (zh) * 2022-10-18 2023-01-13 苏州魔视智能科技有限公司(Cn) 一种图像分类方法、装置、设备及介质

Family Cites Families (107)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2885823B2 (ja) 1989-04-11 1999-04-26 株式会社豊田中央研究所 視覚認識装置
JPH0695192A (ja) 1991-05-01 1994-04-08 Matsushita Electric Ind Co Ltd 画像認識装置及び画像入力方法
US5291560A (en) 1991-07-15 1994-03-01 Iri Scan Incorporated Biometric personal identification system based on iris analysis
US5579471A (en) 1992-11-09 1996-11-26 International Business Machines Corporation Image query system and method
US5572596A (en) 1994-09-02 1996-11-05 David Sarnoff Research Center, Inc. Automated, non-invasive iris recognition system and method
US5850470A (en) 1995-08-30 1998-12-15 Siemens Corporate Research, Inc. Neural network for locating and recognizing a deformable object
WO1997029437A1 (en) 1996-02-09 1997-08-14 Sarnoff Corporation Method and apparatus for training a neural network to detect and classify objects with uncertain training data
US6121953A (en) 1997-02-06 2000-09-19 Modern Cartoons, Ltd. Virtual reality system for sensing facial movements
CA2199588A1 (en) 1997-03-10 1998-09-10 Efrem Hoffman Hierarchical data matrix pattern recognition and identification system
AU1365699A (en) 1997-10-27 1999-05-17 Imagen Incorporated Image search and retrieval system
US6138109A (en) 1997-12-23 2000-10-24 Caterpillar Inc. Neural network diagnostic classification of complex binary systems
US6865302B2 (en) 2000-03-16 2005-03-08 The Regents Of The University Of California Perception-based image retrieval
US6768509B1 (en) 2000-06-12 2004-07-27 Intel Corporation Method and apparatus for determining points of interest on an image of a camera calibration object
GB2364590B (en) 2000-07-07 2004-06-02 Mitsubishi Electric Inf Tech Method and apparatus for representing and searching for an object in an image
US7016532B2 (en) 2000-11-06 2006-03-21 Evryx Technologies Image capture and identification system and process
US7099510B2 (en) 2000-11-29 2006-08-29 Hewlett-Packard Development Company, L.P. Method and system for object detection in digital images
US6829384B2 (en) 2001-02-28 2004-12-07 Carnegie Mellon University Object finder for photographic images
US7152051B1 (en) * 2002-09-30 2006-12-19 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9153074B2 (en) 2011-07-18 2015-10-06 Dylan T X Zhou Wearable augmented reality eyeglass communication device including mobile phone and mobile computing via virtual touch screen gesture control and neuron command
JP3855939B2 (ja) 2003-01-31 2006-12-13 ソニー株式会社 画像処理装置、画像処理方法及び撮影装置
CA2521165A1 (en) 2003-04-03 2004-10-14 Dublin City University Shape matching method for indexing and retrieving multimedia data
US7362892B2 (en) 2003-07-02 2008-04-22 Lockheed Martin Corporation Self-optimizing classifier
EP2955662B1 (en) 2003-07-18 2018-04-04 Canon Kabushiki Kaisha Image processing device, imaging device, image processing method
WO2005022343A2 (en) 2003-08-29 2005-03-10 Exscientia, Llc System and methods for incrementally augmenting a classifier
US7593550B2 (en) 2005-01-26 2009-09-22 Honeywell International Inc. Distance iris recognition
US7379563B2 (en) 2004-04-15 2008-05-27 Gesturetek, Inc. Tracking bimanual movements
JP4217664B2 (ja) 2004-06-28 2009-02-04 キヤノン株式会社 画像処理方法、画像処理装置
US7668376B2 (en) 2004-06-30 2010-02-23 National Instruments Corporation Shape feature extraction and classification
US7644049B2 (en) 2004-11-19 2010-01-05 Intel Corporation Decision forest based classifier for determining predictive importance in real-time data analysis
US8488023B2 (en) 2009-05-20 2013-07-16 DigitalOptics Corporation Europe Limited Identifying facial expressions in acquired digital images
US7689008B2 (en) 2005-06-10 2010-03-30 Delphi Technologies, Inc. System and method for detecting an eye
US20060291697A1 (en) 2005-06-21 2006-12-28 Trw Automotive U.S. Llc Method and apparatus for detecting the presence of an occupant within a vehicle
US7603000B2 (en) 2005-08-31 2009-10-13 Siemens Medical Solutions Usa, Inc. System and method for learning relative distance in a shape space using image based features
US8890813B2 (en) 2009-04-02 2014-11-18 Oblong Industries, Inc. Cross-user hand tracking and shape recognition user interface
CN101055620B (zh) 2006-04-12 2011-04-06 富士通株式会社 形状比较装置和方法
US8131011B2 (en) 2006-09-25 2012-03-06 University Of Southern California Human detection and tracking system
KR101363017B1 (ko) 2007-08-23 2014-02-12 삼성전자주식회사 얼굴영상 촬영 및 분류 시스템과 방법
US8180112B2 (en) 2008-01-21 2012-05-15 Eastman Kodak Company Enabling persistent recognition of individuals in images
US8411910B2 (en) 2008-04-17 2013-04-02 Biometricore, Inc. Computationally efficient feature extraction and matching iris recognition
KR101030613B1 (ko) 2008-10-08 2011-04-20 아이리텍 잉크 아이이미지에서 관심영역정보 및 인식적 정보획득방법
US8290208B2 (en) 2009-01-12 2012-10-16 Eastman Kodak Company Enhanced safety during laser projection
US8374404B2 (en) 2009-02-13 2013-02-12 Raytheon Company Iris recognition using hyper-spectral signatures
CN101510218A (zh) 2009-03-26 2009-08-19 阿里巴巴集团控股有限公司 实现图片搜索的方法及网站服务器
US8472120B2 (en) 2010-02-28 2013-06-25 Osterhout Group, Inc. See-through near-eye display glasses with a small scale image source
US8553989B1 (en) 2010-04-27 2013-10-08 Hrl Laboratories, Llc Three-dimensional (3D) object recognition system using region of interest geometric features
CN103003814A (zh) 2010-05-14 2013-03-27 数据逻辑Adc公司 使用大型数据库进行对象识别的系统及方法
US8824747B2 (en) 2010-06-29 2014-09-02 Apple Inc. Skin-tone filtering
US8467599B2 (en) 2010-09-02 2013-06-18 Edge 3 Technologies, Inc. Method and apparatus for confusion learning
WO2014158345A1 (en) 2013-01-31 2014-10-02 University Of Iowa Research Foundation Methods and systems for vessel bifurcation detection
US8488888B2 (en) 2010-12-28 2013-07-16 Microsoft Corporation Classification of posture states
WO2012142756A1 (zh) 2011-04-20 2012-10-26 中国科学院自动化研究所 基于人眼图像的多特征融合身份识别方法
US8965822B2 (en) 2011-05-11 2015-02-24 Ari M. Frank Discovering and classifying situations that influence affective response
US8767016B2 (en) 2012-03-15 2014-07-01 Shun-Ching Yang Virtual reality interaction system and method
US9082011B2 (en) 2012-03-28 2015-07-14 Texas State University—San Marcos Person identification using ocular biometrics with liveness detection
EP2648133A1 (fr) 2012-04-04 2013-10-09 Biomerieux Identification de microorganismes par spectrometrie et classification structurée
US9101312B2 (en) 2012-04-18 2015-08-11 TBI Diagnostics LLC System for the physiological evaluation of brain function
JP2013250856A (ja) 2012-06-01 2013-12-12 Mitsubishi Electric Corp 監視システム
US9041622B2 (en) 2012-06-12 2015-05-26 Microsoft Technology Licensing, Llc Controlling a virtual object with a real controller device
US8873812B2 (en) 2012-08-06 2014-10-28 Xerox Corporation Image segmentation using hierarchical unsupervised segmentation and hierarchical classifiers
US9092896B2 (en) 2012-08-07 2015-07-28 Microsoft Technology Licensing, Llc Augmented reality display of scene behind surface
US8369595B1 (en) 2012-08-10 2013-02-05 EyeVerify LLC Texture features for biometric authentication
US10209946B2 (en) 2012-08-23 2019-02-19 Red Hat, Inc. Augmented reality personal identification
US8963806B1 (en) 2012-10-29 2015-02-24 Google Inc. Device authentication
US9111348B2 (en) 2013-03-15 2015-08-18 Toyota Motor Engineering & Manufacturing North America, Inc. Computer-based method and system of dynamic category object recognition
WO2014169238A1 (en) 2013-04-11 2014-10-16 Digimarc Corporation Methods for object recognition and related arrangements
US9147125B2 (en) 2013-05-03 2015-09-29 Microsoft Technology Licensing, Llc Hand-drawn sketch recognition
US10262462B2 (en) 2014-04-18 2019-04-16 Magic Leap, Inc. Systems and methods for augmented and virtual reality
US9207771B2 (en) 2013-07-08 2015-12-08 Augmenta Oy Gesture based user interface
US9542626B2 (en) 2013-09-06 2017-01-10 Toyota Jidosha Kabushiki Kaisha Augmenting layer-based object detection with deep convolutional neural networks
US9730643B2 (en) 2013-10-17 2017-08-15 Siemens Healthcare Gmbh Method and system for anatomical object detection using marginal space deep neural networks
US9202144B2 (en) 2013-10-30 2015-12-01 Nec Laboratories America, Inc. Regionlets with shift invariant neural patterns for object detection
US9489765B2 (en) 2013-11-18 2016-11-08 Nant Holdings Ip, Llc Silhouette-based object and texture alignment, systems and methods
US9857591B2 (en) 2014-05-30 2018-01-02 Magic Leap, Inc. Methods and system for creating focal planes in virtual and augmented reality
KR102378457B1 (ko) 2013-11-27 2022-03-23 매직 립, 인코포레이티드 가상 및 증강 현실 시스템들 및 방법들
KR20160083127A (ko) 2013-11-30 2016-07-11 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 얼굴 이미지 인식 방법 및 시스템
US9224068B1 (en) 2013-12-04 2015-12-29 Google Inc. Identifying objects in images
US20150186708A1 (en) 2013-12-31 2015-07-02 Sagi Katz Biometric identification system
US9501498B2 (en) 2014-02-14 2016-11-22 Nant Holdings Ip, Llc Object ingestion through canonical shapes, systems and methods
US9665606B2 (en) 2014-02-14 2017-05-30 Nant Holdings Ip, Llc Edge-based recognition, systems and methods
IL231862A (en) 2014-04-01 2015-04-30 Superfish Ltd Image representation using a neural network
US20150296135A1 (en) 2014-04-10 2015-10-15 Magna Electronics Inc. Vehicle vision system with driver monitoring
US9317785B1 (en) 2014-04-21 2016-04-19 Video Mining Corporation Method and system for determining ethnicity category of facial images based on multi-level primary and auxiliary classifiers
WO2015164373A1 (en) 2014-04-23 2015-10-29 Raytheon Company Systems and methods for context based information delivery using augmented reality
CN106716450B (zh) 2014-05-06 2020-05-19 河谷控股Ip有限责任公司 利用边缘向量的基于图像的特征检测
AU2015255652B2 (en) 2014-05-09 2018-03-29 Google Llc Systems and methods for using eye signals with secure mobile communications
EP3204871A4 (en) 2014-10-09 2017-08-16 Microsoft Technology Licensing, LLC Generic object detection in images
KR102357326B1 (ko) 2014-11-19 2022-01-28 삼성전자주식회사 얼굴 특징 추출 방법 및 장치, 얼굴 인식 방법 및 장치
US9418319B2 (en) * 2014-11-21 2016-08-16 Adobe Systems Incorporated Object detection using cascaded convolutional neural networks
JP2016126510A (ja) 2014-12-26 2016-07-11 カシオ計算機株式会社 画像生成装置、画像生成方法及びプログラム
JP6725547B2 (ja) 2015-03-20 2020-07-22 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 人工ニューラルネットワークの関連性スコア割当て
US10246753B2 (en) 2015-04-13 2019-04-02 uBiome, Inc. Method and system for characterizing mouth-associated conditions
KR102393228B1 (ko) 2015-05-11 2022-04-29 매직 립, 인코포레이티드 뉴럴 네트워크들을 활용하여 생체 인증 사용자 인식을 위한 디바이스들, 방법들 및 시스템들
US9911219B2 (en) 2015-05-13 2018-03-06 Intel Corporation Detection, tracking, and pose estimation of an articulated body
US11423311B2 (en) 2015-06-04 2022-08-23 Samsung Electronics Co., Ltd. Automatic tuning of artificial neural networks
MX2018003051A (es) 2015-09-11 2018-06-08 Eyeverify Inc Calidad de imagen y características, mejora de imagen y extracción de características para reconocimiento ocular-vascular y facial, y fusión de información ocular-vascular con facial y/o sub-facial para sistemas biométricos.
JP6514089B2 (ja) 2015-11-02 2019-05-15 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置、情報処理システム、および情報処理方法
WO2017156547A1 (en) 2016-03-11 2017-09-14 Magic Leap, Inc. Structure learning in convolutional neural networks
US10872699B2 (en) 2016-03-25 2020-12-22 Siemens Healthcare Gmbh Case-based reasoning in the cloud using deep learning
KR102450441B1 (ko) 2016-07-14 2022-09-30 매직 립, 인코포레이티드 홍채 식별을 위한 딥 뉴럴 네트워크
US20180024726A1 (en) 2016-07-21 2018-01-25 Cives Consulting AS Personified Emoji
KR20180020043A (ko) 2016-08-17 2018-02-27 삼성전자주식회사 다시점 영상 제어 방법 및 이를 지원하는 전자 장치
KR20180053108A (ko) 2016-11-11 2018-05-21 삼성전자주식회사 홍채 영역 추출 방법 및 장치
US10783394B2 (en) 2017-06-20 2020-09-22 Nvidia Corporation Equivariant landmark transformation for landmark localization
US10269159B2 (en) 2017-07-27 2019-04-23 Rockwell Collins, Inc. Neural network foreground separation for mixed reality
KR102602117B1 (ko) * 2017-10-26 2023-11-13 매직 립, 인코포레이티드 딥 멀티태스크 네트워크들에서 적응적 손실 밸런싱을 위한 그라디언트 정규화 시스템들 및 방법들
KR20200029785A (ko) 2018-09-11 2020-03-19 삼성전자주식회사 증강 현실에서 가상 객체를 표시하기 위한 측위 방법 및 장치
JP6801020B2 (ja) 2019-01-11 2020-12-16 セコム株式会社 画像認識装置、画像認識方法、及び画像認識プログラム

Similar Documents

Publication Publication Date Title
JPWO2020236993A5 (ja)
CN110135553B (zh) 卷积神经网络的调整方法及电子装置
CN110533712A (zh) 一种基于卷积神经网络的双目立体匹配方法
CN110188795A (zh) 图像分类方法、数据处理方法和装置
CN111259983B (zh) 基于深度学习的图像语义分割方法及存储介质
CN110163878A (zh) 一种基于双重多尺度注意力机制的图像语义分割方法
Tian et al. Instance and panoptic segmentation using conditional convolutions
CN112232165B (zh) 一种数据处理方法、装置、计算机及可读存储介质
CN114863407B (zh) 一种基于视觉语言深度融合的多任务冷启动目标检测方法
CN115984701A (zh) 一种基于编解码结构的多模态遥感图像语义分割方法
CN116469100A (zh) 一种基于Transformer的双波段图像语义分割方法
CN111160378A (zh) 基于单张图像的多任务增强的深度估计系统
CN114511798B (zh) 基于transformer的驾驶员分心检测方法及装置
CN116863194A (zh) 一种足溃疡图像分类方法、系统、设备及介质
Li et al. NDNet: Spacewise multiscale representation learning via neighbor decoupling for real-time driving scene parsing
CN117809200A (zh) 一种基于增强小目标特征提取的多尺度遥感图像目标检测方法
CN113205137A (zh) 一种基于胶囊参数优化的图像识别方法及系统
GB2608591A (en) Implementation of pooling and unpooling or reverse pooling in hardware
Jeevan et al. Resource-efficient Hybrid X-formers for Vision
CN117036436A (zh) 一种基于双编码器-解码器的单目深度估计方法及系统
CN115115835A (zh) 图像的语义分割方法、装置、设备、存储介质及程序产品
CN113688946B (zh) 基于空间关联的多标签图像识别方法
CN115829962A (zh) 医学图像分割装置、训练方法及医学图像分割方法
CN114781639A (zh) 面向边缘设备多层共享码本向量量化的深度模型压缩方法
CN113762241A (zh) 场景文字识别模型的训练方法与识别方法及装置