WO2021245896A1 - 分割認識方法、分割認識装置及びプログラム - Google Patents

分割認識方法、分割認識装置及びプログラム Download PDF

Info

Publication number
WO2021245896A1
WO2021245896A1 PCT/JP2020/022225 JP2020022225W WO2021245896A1 WO 2021245896 A1 WO2021245896 A1 WO 2021245896A1 JP 2020022225 W JP2020022225 W JP 2020022225W WO 2021245896 A1 WO2021245896 A1 WO 2021245896A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
boundary box
mask
image
target image
Prior art date
Application number
PCT/JP2020/022225
Other languages
English (en)
French (fr)
Inventor
泳青 孫
峻司 細野
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US17/928,851 priority Critical patent/US20230186478A1/en
Priority to PCT/JP2020/022225 priority patent/WO2021245896A1/ja
Priority to JP2022528361A priority patent/JP7323849B2/ja
Publication of WO2021245896A1 publication Critical patent/WO2021245896A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Definitions

  • the present invention relates to a division recognition method, a division recognition device and a program.
  • Semantic segmentation is a technique for assigning a category (recognizing an object in an image) to each pixel of a moving image or a still image. Semantic segmentation is applied to automatic driving, analysis of medical images, state and pose estimation of objects such as photographed persons.
  • FIG. 8 is a diagram showing a processing example of Mask-RCNN.
  • the target image 100 the CNN 101 (Convolutional Neural Network: CNN), the RPN 102 (Region Proposal Network), the feature map 103, the fixed size feature map 104, the fully connected layer 105, and the mask branch 106 are shown. Is represented.
  • the target image 100 includes a boundary box 200 (bounding box), a boundary box 201, and a boundary box 202.
  • teacher mask information The quality of mask information (hereinafter referred to as "teacher mask information”) input to the neural network as teacher data has a great influence on the performance of area division with weak teachers.
  • the benchmark data set (with boundary box information) for object shape division as the target image
  • it is used for the area division with weak teacher when the teacher mask information is generated by the existing area division with weak teacher using the Grabcut method.
  • the quality of the teacher mask information we received was investigated. In this survey, about 30% of the total teacher mask information was teacher mask information that was invalid, that is, teacher mask information that did not include an object image (foreground). Further, the area of the teacher mask represented by about 60% of the invalid teacher mask information was a small area of 64 ⁇ 64 pixels or less.
  • Non-Patent Document 2 invalid mask information generated by the Grabcut method is used as teacher data, and object shape division in an image and object recognition (giving category information) are executed. ,
  • the accuracy of object shape division of a small object image and the recognition accuracy of an object of a small object image may be low.
  • the accuracy of dividing the object shape of the object image in the target image and the accuracy of recognizing the object of the object image may be low.
  • the present invention provides a division recognition method, a division recognition device, and a program capable of improving the accuracy of object shape division of an object image in a target image and the recognition accuracy of an object of an object image.
  • the purpose is.
  • One aspect of the present invention is the division recognition method executed by the division recognition device, the division recognition method executed by the division recognition device, and the boundary including the coordinates and category information of each boundary box defined in the target image.
  • the object detection step for detecting the object image in the target image is associated with the foreground in the target image based on the boundary box information.
  • the filtering step of selecting effective teacher mask information from the teacher mask information and the weight information of the object detection model as the initial value of the weight information of the object recognition model that recognizes the object of the object image uses the filtering step of selecting effective teacher mask information from the teacher mask information and the weight information of the object detection model as the initial value of the weight information of the object recognition model that recognizes the object of the object image, using the boundary box branch step for recognizing the object image and the selected valid teacher mask information as teacher data. It is a division recognition method including a mask branch step that generates mask information having the shape of the object image by using the weight information of the model.
  • One aspect of the present invention is to input an object image in the target image into an object detection model using a machine learning method by inputting the boundary box information including the coordinates and category information of each boundary box defined in the target image into the object detection model.
  • the object detection unit to be detected the filtering unit that selects valid teacher mask information from the teacher mask information associated with the foreground in the target image based on the boundary box information, and the object of the object image.
  • the boundary box branch for recognizing the object image and the selected valid teacher mask information as teacher data, the object.
  • Divided recognition including a mask branch that generates mask information having the shape of the object image by using the weight information of the object recognition model as an initial value of the weight information of the divided shape model that divides the target image by the shape of the image. It is a device.
  • One aspect of the present invention is a program for operating a computer as the above-mentioned division recognition device.
  • the present invention it is possible to improve the accuracy of dividing the object shape of the object image in the target image and the recognition accuracy of the object of the object image.
  • object detection derivation of the boundary box
  • object shape division in the framework of object shape division generation of mask information having the shape of the object image
  • object recognition assignment of category information to the boundary box
  • the teacher mask information is divided and effectively used according to the purpose of the two tasks. This improves the accuracy of object shape division and the accuracy of object recognition.
  • the filtering process is executed for one or more weak teacher data. As a result, the selected valid mask information is used in the mask branch.
  • the object detection unit describes the boundary between the image (target image) that is the target of object shape division and object recognition and the boundary box information (predetermined correct area "ground truth”) that is predetermined for the target image.
  • the box "bounding box”) is used to detect an object image in the target image.
  • the filtering unit derives teacher mask information representing the extracted foreground by using a method of object shape division (foreground extraction) such as Grabcut, which uses a predetermined boundary box for the target image.
  • the filtering unit selects valid teacher mask information (effective teacher mask information) from the derived teacher mask information by executing a filtering process on the teacher mask information.
  • the division recognition unit uses the selected effective mask information as teacher data, and the weight information of the neural network of the object detection model learned by the first object detection unit as the initial value of the object shape division and the object recognition, and the object shape division. And object recognition.
  • the division recognition unit may transfer the object detection model learned by the first object detection unit to the shape division model and the object recognition model by using the transfer learning method.
  • the division recognition unit can perform object shape division (generation of mask information) and object recognition for object images of various sizes in the target image.
  • FIG. 1 is a diagram showing a configuration example of the division recognition system 1 in the embodiment.
  • the division recognition system 1 is a system that divides an object image according to the shape of the object image and recognizes the object of the object image (assigns a category to the object image).
  • the division recognition system 1 generates a mask of the shape of the object image and superimposes the mask on the object image in the target image.
  • the division recognition system 1 includes a storage device 2 and a division recognition device 3.
  • the division recognition device 3 includes an acquisition unit 30, a first object detection unit 31, a filtering unit 32, and a division recognition unit 33.
  • the division recognition unit 33 includes a second object detection unit 330, a boundary box branch 331, and a mask branch 332.
  • the storage device 2 stores the boundary box information updated by the boundary box branch 331 using the object recognition model.
  • the storage device 2 stores the mask information generated by the mask branch 332.
  • the mask information includes the coordinates of the mask image and the shape information of the mask image.
  • the shape of the mask image is almost the same as the shape of the object image.
  • the mask image is superimposed on the object image in the target image.
  • the acquisition unit 30 outputs a processing instruction signal to the storage device 2.
  • the acquisition unit 30 acquires the boundary box information (coordinates and sizes of each boundary box, category information of each boundary box) and the target image from the storage device 2.
  • the acquisition unit 30 combines the boundary box information as weak teacher data (the boundary box “bounding box” as the predetermined correct answer area “ground truth”) and the target image with the first object detection unit 31 and the filtering unit 32. Output to.
  • the first object detection unit 31 is a first object detection model based on a convolutional neural network such as "Faster R-CNN” based on the boundary box information acquired from the acquisition unit 30 and the target image.
  • Faster R-CNN a convolutional neural network
  • Reference 1 Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun, CVPR2015.
  • the first object detection unit 31 generates the first object detection model information (boundary box information, weight information of the first object detection model) based on the boundary box information and the target image.
  • the first object detection unit 31 outputs the target image and the first object detection model information to the second object detection unit 330.
  • the filtering unit 32 generates mask information representing the foreground in the target image based on the boundary box information acquired from the acquisition unit 30 and the target image.
  • the shape of the mask image is almost the same as the shape of the object image as the foreground.
  • the filtering unit 32 selects a valid foreground as an effective mask from one or more foregrounds in the target image.
  • the filtering unit 32 outputs the effective mask to the mask branch 332.
  • the second object detection unit 330 acquires the first object detection model information (boundary box information, weight information of the first object detection model) and the target image from the first object detection unit 31.
  • the second object detection unit 330 learns the weight information of the second object detection model by using the weight information of the first object detection model in the fine tuning method of transfer learning based on the neural network of the first object detection model.
  • the second object detection unit 330 outputs the second object detection model information (boundary box information, weight information of the second object detection model) and the target image to the boundary box branch 331 and the mask branch 332.
  • the boundary box branch 331 acquires the second object detection model information (boundary box information, weight information of the second object detection model) and the target image from the second object detection unit 330.
  • the boundary box branch 331 updates the boundary box information in the target image by learning the weight information of the object recognition model based on the target image and the second object detection model information.
  • the boundary box branch 331 records the boundary box information updated by the boundary box branch 331 in the storage device 2.
  • the mask branch 332 acquires the second object detection model information (boundary box information, weight information of the second object detection model) and the target image from the second object detection unit 330.
  • the mask branch 332 acquires a valid mask from the filtering unit 32.
  • the mask branch 332 is a shape division model based on the target image, the effective mask, the second object detection model information (boundary box information, the weight information of the second object detection model), and the weight information of the object recognition model. By learning the weight information, mask information having the shape of the object image is generated.
  • the mask branch 332 records the generated mask information in the storage device 2.
  • FIG. 2 is a diagram showing a processing example of the target image in the embodiment.
  • the boundary box 301 and the boundary box 302 are defined in the target image 300.
  • the boundary box branch 331 creates a boundary box 304 containing an object image based on the boundary box 301 and the boundary box 302.
  • the mask branch 332 superimposes the generated mask on the object image of the target image 300.
  • the shape of the mask image 305 is almost the same as the shape of the object image.
  • FIG. 3 is a diagram showing a configuration example of the mask branch 332 in the embodiment.
  • the mask branch 332 includes a connecting portion 3320, a fully coupled portion 3321, an activating portion 3322, a fully coupled portion 3323, an activating portion 3324, a size shaping portion 3325, and a convolution portion 3326.
  • the connecting unit 3320 acquires the category information (identification feature, classification feature) and the boundary box information from the second object detection unit 330.
  • the connecting unit 3320 connects the category information and the boundary box information.
  • the fully connected portion 3321 completely connects the outputs of the connecting portion 3320.
  • the activation unit 3322 executes the activation function "LeakyReLU" with respect to the output of the fully connected unit 3321.
  • the fully connected portion 3323 completely connects the outputs of the activated portion 3322.
  • the activation unit 3324 executes the activation function "LeakyReLU" with respect to the output of the fully connected unit 3323.
  • the size shaping unit 3325 shapes the size of the output of the activation unit 3324.
  • the convolution unit 3326 acquires the output of the size shaping unit 3325.
  • the convolution unit 3326 acquires an effective mask (segmentation feature) from the filtering unit 32.
  • the convolution unit 3326 generates mask information by performing a convolution process on the output of the activation unit 3324 using an effective mask.
  • the filtering unit 32 generates an effective mask based on the target image and the boundary box information. That is, the filtering unit 32 selects a valid foreground as an effective mask from the foreground in the target image based on the target image and the boundary box information (step S102). The filtering unit 32 advances the process to step S108.
  • the first object detection unit 31 generates the first object detection model information (Faster R-CNN), which is a model for detecting the object image in the target image, based on the target image and the boundary box information.
  • the first object detection unit 31 outputs the first object detection model information (boundary box information, weight information of the first object detection model) and the target image to the second object detection unit 330 (step S103).
  • the second object detection unit 330 generates the second object detection model information by learning the weight information of the second object detection model based on the target image and the first object detection model information.
  • the second object detection unit 330 outputs the second object detection model information (boundary box information, weight information of the second object detection model) and the target image to the boundary box branch 331 and the mask branch 332 (step S104). ..
  • the boundary box branch 331 updates the boundary box information in the target image by learning the weight information of the object recognition model based on the target image and the second object detection model information (step S105).
  • the boundary box branch 331 records the boundary box information updated using the object recognition model in the storage device 2 (step S106).
  • the boundary box branch 331 outputs the weight information of the object recognition model to the mask branch 332 (step S107).

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

分割認識方法は、対象画像に定められた各境界ボックスの座標及びカテゴリ情報を含む境界ボックス情報を、機械学習の手法を用いる物体検出モデルに入力することによって、対象画像における物体画像を検出する物体検出ステップと、境界ボックス情報に基づいて、対象画像における前景に対応付けられた教師マスク情報のうちから、有効な教師マスク情報を選出するフィルタリングステップと、物体画像の物体を認識する物体認識モデルの重み情報の初期値として物体検出モデルの重み情報を用いて、物体画像を認識する境界ボックスブランチステップと、選出された有効な教師マスク情報を教師データとして、物体画像の形状で対象画像を分割する分割形状モデルの重み情報の初期値として物体認識モデルの重み情報を用いて、物体画像の形状を有するマスク情報を生成するマスクブランチステップとを含む。

Description

分割認識方法、分割認識装置及びプログラム
 本発明は、分割認識方法、分割認識装置及びプログラムに関する。
 セマンティック・セグメンテーション(意味的領域分割)とは、動画像又は静止画像の各画素にカテゴリを割当てる(画像内のオブジェクトを認識する)技術である。セマンティック・セグメンテーションは、自動運転、医療用画像の解析、撮影された人物等のオブジェクトの状態及びポーズ推定等に応用されている。
 近年、深層学習を用いて画像を画素単位で領域分割する技術が、盛んに研究されている。画像を画素単位で領域分割する技術として、例えば、Mask-RCNN(Mask - Regions with Convolutional Neural Networks)という技術がある(非特許文献1参照)。
 図8は、Mask-RCNNの処理例を示す図である。図8には、対象画像100と、CNN101(Convolutional Neural Network : CNN)と、RPN102(Region Proposal Network)と、特徴マップ103と、固定サイズ特徴マップ104と、全結合層105と、マスクブランチ106とが表されている。図8では、対象画像100は、境界ボックス200(bounding box)と、境界ボックス201と、境界ボックス202とを含む。
 CNN101は、畳み込みニューラルネットワークがベースとなったバックボーン・ネットワークである。CNN101には、対象画像100における物体のカテゴリごとに、画素単位の境界ボックスが教師データとして入力される。対象画像100における物体の位置検出と画素単位のカテゴリの割り当てとが、全結合層105とマスクブランチ106との二つの分岐処理で並列に実行される。このような教師あり領域分割(教師あり物体形状分割)の手法は、高度な教師情報が画素単位で用意される必要があるため、手間や時間のコストが膨大である。
 画像内の物体画像ごと又は領域ごとのカテゴリ情報を用いて学習する手法は、弱教師あり領域分割(弱教師あり物体形状分割)と呼ばれている。弱教師あり学習による物体形状分割では、物体画像ごと又は領域ごとに教師データ(境界ボックス)が収集されるので、画素単位の教師データを収集する必要がなく、手間や時間のコストが大幅に削減される。
 弱教師あり領域分割の例が、非特許文献2に開示されている。非特許文献2にでは、予め用意された領域(bounding box)ごとのカテゴリ情報に対して、MCG(Multiscale combinatorial grouping)やGrabcutを用いて、画像内の前景と背景とが分離される。前景(マスク情報)が物体形状分割及び認識ネットワーク(例えば、Mas-RCNN)に教師データとして入力される。これによって、物体形状分割(前景の抽出)と物体の認識とが実行される。
Kaiming He, Georgia Gkioxari, Piotr Dollar, Ross Girshick, "Mask R-CNN," ICCV(International Conference on Computer Vision) 2017. Jifeng Dai, Kaiming He, Jian Sun, "BoxSup: Exploiting Bounding Boxes to Supervise Convolutional Networks for Semantic Segmentation," ICCV(International Conference on Computer Vision) 2015.
 教師データとしてニューラルネットワークに入力されるマスク情報(以下「教師マスク情報」という。)の質は、弱教師あり領域分割の性能に大きな影響を与える。
 物体形状分割のためのベンチマークデータセット(境界ボックス情報付き)を対象画像として、Grabcutの手法を用いる既存の弱教師あり領域分割によって教師マスク情報が生成された場合について、弱教師あり領域分割に使われた教師マスク情報の質が調査された。この調査では、全体の教師マスク情報のうちの約30%の教師マスク情報は、無効な教師マスク情報、すなわち物体画像(前景)が含まれていない教師マスク情報であった。また、無効な教師マスク情報のうちの約60%の教師マスク情報が表す教師マスクの領域は、64×64ピクセル以下の小さい領域であった。
 非特許文献2では、Grabcutの手法を用いて生成された無効なマスク情報が教師データとして用いられ、画像内の物体形状分割と物体の認識(カテゴリ情報の付与)とがを実行されたことで、サイズの小さい物体画像の物体形状分割の精度と、サイズの小さい物体画像の物体の認識精度とが低くなることがある。このように従来では、対象画像における物体画像の物体形状分割の精度と、物体画像の物体の認識精度とが低い場合がある。
 上記事情に鑑み、本発明は、対象画像における物体画像の物体形状分割の精度と、物体画像の物体の認識精度とを向上させることが可能である分割認識方法、分割認識装置及びプログラムを提供することを目的としている。
 本発明の一態様は、分割認識装置が実行する分割認識方法であって、分割認識装置が実行する分割認識方法であって、対象画像に定められた各境界ボックスの座標及びカテゴリ情報を含む境界ボックス情報を、機械学習の手法を用いる物体検出モデルに入力することによって、前記対象画像における物体画像を検出する物体検出ステップと、前記境界ボックス情報に基づいて、前記対象画像における前景に対応付けられた教師マスク情報のうちから、有効な教師マスク情報を選出するフィルタリングステップと、前記物体画像の物体を認識する物体認識モデルの重み情報の初期値として前記物体検出モデルの重み情報を用いて、前記物体画像を認識する境界ボックスブランチステップと、選出された前記有効な教師マスク情報を教師データとして、前記物体画像の形状で前記対象画像を分割する分割形状モデルの重み情報の初期値として前記物体認識モデルの重み情報を用いて、前記物体画像の形状を有するマスク情報を生成するマスクブランチステップとを含む分割認識方法である。
 本発明の一態様は、対象画像に定められた各境界ボックスの座標及びカテゴリ情報を含む境界ボックス情報を、機械学習の手法を用いる物体検出モデルに入力することによって、前記対象画像における物体画像を検出する物体検出部と、前記境界ボックス情報に基づいて、前記対象画像における前景に対応付けられた教師マスク情報のうちから、有効な教師マスク情報を選出するフィルタリング部と、前記物体画像の物体を認識する物体認識モデルの重み情報の初期値として前記物体検出モデルの重み情報を用いて、前記物体画像を認識する境界ボックスブランチと、選出された前記有効な教師マスク情報を教師データとして、前記物体画像の形状で前記対象画像を分割する分割形状モデルの重み情報の初期値として前記物体認識モデルの重み情報を用いて、前記物体画像の形状を有するマスク情報を生成するマスクブランチとを備える分割認識装置である。
 本発明の一態様は、上記の分割認識装置としてコンピュータを機能させるためのプログラムである。
 本発明により、対象画像における物体画像の物体形状分割の精度と、物体画像の物体の認識精度とを向上させることが可能である。
実施形態における、分割認識システムの構成例を示す図である。 実施形態における、対象画像の処理例を示す図である。 実施形態における、マスクブランチの構成例を示す図である。 実施形態における、分割認識システムの動作例を示す図である。 実施形態における、フィルタリング部の動作例を示す図である。 実施形態における、分割認識部の動作例を示す図である。 実施形態における、分割認識装置のハードウェア構成例を示す図である。 Mask-RCNNの処理例を示す図である。
 本発明の実施形態について、図面を参照して詳細に説明する。
 (概要)
 実施形態では、物体形状分割(物体画像の形状を有するマスク情報の生成)と物体認識(境界ボックスに対するカテゴリ情報の付与)とのフレームワークにおける、物体検出(境界ボックスの導出)と物体形状分割との二つのタスクの目的に合わせて、教師マスク情報が分けられて有効に利用される。これによって、物体形状分割の精度と、物体認識の精度とが向上する。
 つまり、物体検出部(物体検出タスク)と境界ボックスブランチ(物体認識タスク)では、全ての境界ボックス情報(各境界ボックスの座標、各境界ボックスのカテゴリ情報)が、有効な情報である。このため、物体検出タスクと物体認識タスクでは、全ての境界ボックス情報が利用される。
 これに対して、マスクブランチ(マスク情報生成タスク)では、無効なマスク情報は、物体形状分割の精度と物体認識の精度とに影響を与える。このため、1個以上の弱教師データに対して、フィルタリング処理が実行される。これによって、マスクブランチでは、選出された有効なマスク情報が利用される。
 以下では、物体検出部は、物体形状分割と物体認識との対象となる画像(対象画像)と、対象画像に予め定められた境界ボックス情報(予め定められた正解領域「ground truth」としての境界ボックス「bounding box」)を用いて、対象画像における物体画像を検出する。
 フィルタリング部は、対象画像に予め定められた境界ボックスを用いる、Grabcut等の物体形状分割(前景の抽出)の手法を用いて、抽出された前景を表す教師マスク情報を導出する。フィルタリング部は、その教師マスク情報にフィルタリング処理を実行することによって、導出された教師マスク情報のうちから有効な教師マスク情報(有効教師マスク情報)を選出する。
 分割認識部は、選出された有効マスク情報を教師データとし、第1物体検出部によって学習された物体検出モデルのニューラルネットワークの重み情報を物体形状分割と物体認識との初期値として、物体形状分割と物体認識とを実行する。ここで、分割認識部は、第1物体検出部によって学習された物体検出モデルを、転移学習の手法を用いて形状分割モデルと物体認識モデルとに転移させてもよい。これによって、分割認識部は、対象画像内の様々なサイズの物体画像に対して、物体形状分割(マスク情報の生成)と物体認識とを実行することができる。
 (実施形態)
 図1は、実施形態における、分割認識システム1の構成例を示す図である。分割認識システム1は、物体画像の形状で対象画像を分割し、物体画像の物体を認識する(物体画像にカテゴリを割り当てる)システムである。分割認識システム1は、物体画像の形状のマスクを生成し、対象画像内の物体画像にマスクを重畳する。
 分割認識システム1は、記憶装置2と、分割認識装置3とを備える。分割認識装置3は、取得部30と、第1物体検出部31と、フィルタリング部32と、分割認識部33とを備える。分割認識部33は、第2物体検出部330と、境界ボックスブランチ331と、マスクブランチ332とを備える。
 記憶装置2は、対象画像と境界ボックス情報とを記憶する。境界ボックス情報(弱教師データ)は、対象画像において各物体画像を囲む各境界ボックスの座標及びサイズと、各境界ボックスのカテゴリ情報とを含む。カテゴリ情報は、例えば、対象画像に撮影されたロボット又は車両等のオブジェクトのカテゴリを表す情報である。記憶装置2は、処理指示信号を取得部30から受信した場合、対象画像と境界ボックス情報とを取得部30に出力する。
 記憶装置2は、境界ボックスブランチ331によって物体認識モデルを用いて更新された境界ボックス情報を記憶する。記憶装置2は、マスクブランチ332によって生成されたマスク情報を記憶する。マスク情報は、マスク画像の座標とマスク画像の形状情報とを含む。マスク画像の形状は、物体画像の形状とほぼ同じである。マスク画像は、対象画像において物体画像に重畳される。
 取得部30は、処理指示信号を記憶装置2に出力する。取得部30は、境界ボックス情報(各境界ボックスの座標及びサイズ、各境界ボックスのカテゴリ情報)と対象画像とを、記憶装置2から取得する。取得部30は、弱教師データとしての境界ボックス情報(予め定められた正解領域「ground truth」としての境界ボックス「bounding box」)と対象画像とを、第1物体検出部31とフィルタリング部32とに出力する。
 第1物体検出部31(Faster R-CNN)は、取得部30から取得された境界ボックス情報と対象画像とに基づいて、「Faster R-CNN」等の畳み込みニューラルネットワークに基づく第1物体検出モデルを用いて、対象画像内の物体を検出する(参考文献1:Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun,CVPR2015.)。
 すなわち、第1物体検出部31は、境界ボックス情報と対象画像とに基づいて、第1物体検出モデル情報(境界ボックス情報、第1物体検出モデルの重み情報)を生成する。第1物体検出部31は、対象画像と第1物体検出モデル情報とを、第2物体検出部330に出力する。
 フィルタリング部32は、取得部30から取得された境界ボックス情報と対象画像とに基づいて、対象画像内の前景を表すマスク情報を生成する。マスク画像の形状は、前景としての物体画像の形状とほぼ同じである。フィルタリング部32は、対象画像内の1個以上の前景のうちから有効な前景を、有効マスクとして選出する。フィルタリング部32は、有効マスクをマスクブランチ332に出力する。
 第2物体検出部330(CNN Backbone)は、第1物体検出モデル情報(境界ボックス情報、第1物体検出モデルの重み情報)と対象画像とを、第1物体検出部31から取得する。第2物体検出部330は、第1物体検出モデルのニューラルネットワークに基づく転移学習のファインチューニング手法において、第1物体検出モデルの重み情報を用いて、第2物体検出モデルの重み情報を学習することによって、第2物体検出モデルを生成する。第2物体検出部330は、第2物体検出モデル情報(境界ボックス情報、第2物体検出モデルの重み情報)と対象画像とを、境界ボックスブランチ331とマスクブランチ332とに出力する。
 境界ボックスブランチ331(bounding box branch)は、第2物体検出モデル情報(境界ボックス情報、第2物体検出モデルの重み情報)と対象画像とを、第2物体検出部330から取得する。境界ボックスブランチ331は、対象画像と第2物体検出モデル情報とに基づいて、物体認識モデルの重み情報を学習することによって、対象画像内の境界ボックス情報を更新する。境界ボックスブランチ331は、境界ボックスブランチ331は、物体認識モデルを用いて更新された境界ボックス情報を、記憶装置2に記録する。
 マスクブランチ332(mask branch)は、第2物体検出モデル情報(境界ボックス情報、第2物体検出モデルの重み情報)と対象画像とを、第2物体検出部330から取得する。マスクブランチ332は、有効マスクをフィルタリング部32から取得する。マスクブランチ332は、対象画像と、有効マスクと、第2物体検出モデル情報(境界ボックス情報、第2物体検出モデルの重み情報)と、物体認識モデルの重み情報とに基づいて、形状分割モデルの重み情報を学習することによって、物体画像の形状を有するマスク情報を生成する。マスクブランチ332は、生成されたマスク情報を記憶装置2に記録する。
 図2は、実施形態における、対象画像の処理例を示す図である。図2では、境界ボックス301と境界ボックス302とが、対象画像300に定められている。境界ボックスブランチ331は、境界ボックス301と境界ボックス302とに基づいて、物体画像を包含する境界ボックス304を生成する。マスクブランチ332は、生成されたマスクを対象画像300の物体画像に重畳する。マスク画像305の形状は、物体画像の形状とほぼ同じである。
 図3は、実施形態における、マスクブランチ332の構成例を示す図である。マスクブランチ332は、連結部3320と、全結合部3321と、活性化部3322と、全結合部3323と、活性化部3324と、サイズ整形部3325と、畳み込み部3326とを備える。
 連結部3320は、カテゴリ情報(識別特徴、クラス化特徴)と、境界ボックス情報とを、第2物体検出部330から取得する。連結部3320は、カテゴリ情報と境界ボックス情報とを連結する。全結合部3321は、連結部3320の出力を完全連結する。活性化部3322は、全結合部3321の出力に対して、活性化関数「LeakyReLU」を実行する。
 全結合部3323は、活性化部3322の出力を完全連結する。活性化部3324は、全結合部3323の出力に対して、活性化関数「LeakyReLU」を実行する。サイズ整形部3325は、活性化部3324の出力のサイズを整形する。
 畳み込み部3326は、サイズ整形部3325の出力を取得する。畳み込み部3326は、有効マスク(セグメンテーション特徴)をフィルタリング部32から取得する。畳み込み部3326は、有効マスクを用いて、活性化部3324の出力に対して畳み込み処理を実行することによって、マスク情報を生成する。
 次に、分割認識システム1の動作例を説明する。
 図4は、実施形態における、分割認識システム1の動作例を示す図である。取得部30は、処理指示信号を記憶装置2に出力する。取得部30は、境界ボックス情報(各境界ボックスの座標、各境界ボックスのカテゴリ情報)と対象画像とを、処理指示信号の応答として、記憶装置2から取得する(ステップS101)。
 フィルタリング部32は、対象画像と境界ボックス情報とに基づいて、有効マスクを生成する。すなわち、フィルタリング部32は、対象画像と境界ボックス情報とに基づいて、対象画像内の前景のうちから有効な前景を、有効マスクとして選出する(ステップS102)。フィルタリング部32は、ステップS108に処理を進める。
 第1物体検出部31は、対象画像と境界ボックス情報とに基づいて、対象画像内の物体画像を検出するためのモデルである第1物体検出モデル情報(Faster R-CNN)を生成する。第1物体検出部31は、第1物体検出モデル情報(境界ボックス情報、第1物体検出モデルの重み情報)と対象画像とを、第2物体検出部330に出力する(ステップS103)。
 第2物体検出部330は、対象画像と第1物体検出モデル情報とに基づいて、第2物体検出モデルの重み情報を学習することによって、第2物体検出モデル情報を生成する。第2物体検出部330は、第2物体検出モデル情報(境界ボックス情報、第2物体検出モデルの重み情報)と対象画像とを、境界ボックスブランチ331とマスクブランチ332とに出力する(ステップS104)。
 境界ボックスブランチ331は、対象画像と第2物体検出モデル情報とに基づいて、物体認識モデルの重み情報を学習することによって、対象画像内の境界ボックス情報を更新する(ステップS105)。
 境界ボックスブランチ331は、物体認識モデルを用いて更新された境界ボックス情報を、記憶装置2に記録する(ステップS106)。境界ボックスブランチ331は、物体認識モデルの重み情報を、マスクブランチ332に出力する(ステップS107)。
 マスクブランチ332は、対象画像と、有効マスクと、第2物体検出モデル情報(境界ボックス情報、第2物体検出モデルの重み情報)と、物体認識モデルの重み情報とに基づいて、形状分割モデルの重み情報を学習することによって、物体画像の形状を有するマスク情報を生成する(ステップS108)。マスクブランチ332は、生成されたマスク情報を、記憶装置2に記録する(ステップS109)。
 図5は、実施形態における、フィルタリング部32の動作例(図4に示されたステップS102の詳細)を示す図である。フィルタリング部32は、対象画像と、境界ボックス情報(予め定められた正解領域「ground truth」としての境界ボックス「bounding box」)とを、取得部30から取得する(ステップS201)。
 フィルタリング部32は、境界ボックス情報に基づいて、前景と背景とに対象画像を分割する(ステップS202)。フィルタリング部32は、各境界ボックスのIoU(Intersection over Union)を導出する。IoUは、物体検出における評価指標の一つである。すなわち、IoUは、予め定められた正解領域としての境界ボックス情報と境界ボックス(予測領域)との和集合の面積に対する、境界ボックス情報と境界ボックス(予測領域)との積集合の面積である(ステップS203)。フィルタリング部32は、各境界ボックスのIoUに基づいて、有効な前景(物体画像)を有効マスクとして選出する(ステップS204)。
 フィルタリング部32は、例えば、IoUが第1閾値以上である境界ボックス内の前景を、有効マスクとして選出する。フィルタリング部32は、境界ボックスの面積に対する、その境界ボックス内の前景(物体画像)の面積の比率(充填率)に基づいて、有効な前景を有効マスクとして選出してもよい。例えば、フィルタリング部32は、充填率が第2閾値以上である境界ボックス内の前景を、有効マスクとして選出する。また、フィルタリング部32は、境界ボックスの画素数に基づいて、境界ボックス内の前景を有効マスクとして選出してもよい。例えば、フィルタリング部32は、画素数が第3閾値以上である境界ボックス内の前景を、有効マスクとして選出してもよい。
 図6は、実施形態における、分割認識部33の動作例を示す図である。分割認識部33において、第2物体検出部330は、第1物体検出モデル情報(第1物体検出モデルの重み情報)と対象画像とを、第1物体検出部31から取得する。マスクブランチ332は、有効マスクをフィルタリング部32から取得する(ステップS301)。
 第2物体検出部330は、第1物体検出モデルのニューラルネットワークに基づく転移学習のファインチューニング手法において、第1物体検出モデルの重み情報を用いて、第2物体検出モデルの重み情報を学習することによって、第2物体検出モデルを生成する(ステップS302)。
 境界ボックスブランチ331は、第2物体検出モデル情報(第2物体検出モデルの重み情報)と対象画像とに基づいて、物体認識モデルの重み情報を学習することによって、物体認識モデルを生成する(ステップS303)。境界ボックスブランチ331は、物体認識モデルの重み情報を用いて、対象画像の境界ボックス情報を更新する(ステップS304)。
 物体認識モデルの重み情報は、様々なサイズの物体画像を検出することが可能である。これに対して、マスクブランチ332における形状分割モデルでは、サイズの大きい有効マスクが入力データとなっている。このため、ステップS304の時点では、形状分割モデルは、サイズの大きい物体画像を対象画像において分割できるが、サイズの小さい物体画像を対象画像において精度よく分割することができない。
 そこで、マスクブランチ332は、物体認識モデルの特徴量に基づく転移学習のファインチューニング手法において、物体認識モデルの重み情報を用いて形状分割モデルの重み情報を学習することによって、形状分割モデルを生成する(ステップS305)。マスクブランチ332は、形状分割モデルを用いて、物体画像の形状で対象画像を分割することによって、物体画像の形状を有するマスク情報を生成する(ステップS305)。
 以上のように、第1物体検出部31は、対象画像に定められた各境界ボックスの座標及びカテゴリ情報を含む境界ボックス情報を、機械学習の手法を用いる物体検出モデルに入力することによって、対象画像における物体画像を検出する。フィルタリング部32は、境界ボックス情報に基づいて、対象画像における前景に対応付けられた教師マスク情報のうちから、有効な教師マスク情報を選出する。境界ボックスブランチ331は、物体画像の物体を認識する物体認識モデルの重み情報の初期値として物体検出モデルの重み情報を用いて、物体画像を認識する。マスクブランチ332は、選出された有効な教師マスク情報を教師データとして、物体画像の形状で対象画像を分割する分割形状モデルの重み情報の初期値として物体認識モデルの重み情報を用いて、物体画像の形状を有するマスク情報を生成する。
 このように、選出された有効な教師マスク情報を教師データとして、分割形状モデルの重み情報の初期値として物体認識モデルの重み情報を用いて、物体画像の形状を有するマスク情報を生成する。これによって、対象画像における物体画像の物体形状分割の精度と、物体画像の物体の認識精度とを向上させることが可能である。
 図7は、実施形態における、分割認識装置のハードウェア構成例を示す図である。分割認識システム1の各機能部のうちの一部又は全部は、CPU(Central Processing Unit)等のプロセッサ4が、不揮発性の記録媒体(非一時的な記録媒体)を有する記憶装置2とメモリ5とに記憶されたプログラムを実行することにより、ソフトウェアとして実現される。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM(Read Only Memory)、CD-ROM(Compact Disc Read Only Memory)等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置などの非一時的な記録媒体である。表示部6は、画像を表示する。
 分割認識システム1の各機能部の一部又は全部は、例えば、LSI(Large Scale Integration circuit)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)又はFPGA(Field Programmable Gate Array)等を用いた電子回路(electronic circuit又はcircuitry)を含むハードウェアを用いて実現されてもよい。
 以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
 本発明は、画像処理装置に適用可能である。
1…分割認識システム、2…記憶装置、3…分割認識装置、4…プロセッサ、5…メモリ、6…表示部、30…取得部、31…第1物体検出部、32…フィルタリング部、33…分割認識部、100…対象画像、101…CNN、102…RPN、103…特徴マップ、104…固定サイズ特徴マップ、105…全結合層、106…マスクブランチ、200…境界ボックス、201…境界ボックス、202…境界ボックス、300…対象画像、301…境界ボックス、302…境界ボックス、303…対象画像、304…境界ボックス、305…マスク画像、330…第2物体検出部、331…境界ボックスブランチ、332…マスクブランチ、3320…連結部、3321…全結合部、3322…活性化部、3323…全結合部、3324…活性化部、3325…サイズ整形部、3326…畳み込み部

Claims (7)

  1.  分割認識装置が実行する分割認識方法であって、
     対象画像に定められた各境界ボックスの座標及びカテゴリ情報を含む境界ボックス情報を、機械学習の手法を用いる物体検出モデルに入力することによって、前記対象画像における物体画像を検出する物体検出ステップと、
     前記境界ボックス情報に基づいて、前記対象画像における前景に対応付けられた教師マスク情報のうちから、有効な教師マスク情報を選出するフィルタリングステップと、
     前記物体画像の物体を認識する物体認識モデルの重み情報の初期値として前記物体検出モデルの重み情報を用いて、前記物体画像を認識する境界ボックスブランチステップと、
     選出された前記有効な教師マスク情報を教師データとして、前記物体画像の形状で前記対象画像を分割する分割形状モデルの重み情報の初期値として前記物体認識モデルの重み情報を用いて、前記物体画像の形状を有するマスク情報を生成するマスクブランチステップと
     を含む分割認識方法。
  2.  前記マスクブランチステップでは、転移学習の手法によって、前記分割形状モデルの重み情報の初期値として前記物体認識モデルの重み情報を用いる、
     請求項1に記載の分割認識方法。
  3.  前記フィルタリングステップでは、予め定められた正解領域としての前記境界ボックス情報と前記境界ボックスとの和集合の面積に対する前記境界ボックス情報と前記境界ボックスとの積集合の面積と、前記境界ボックスの面積に対する前記境界ボックス内の前景の面積の比率と、前記境界ボックスの画素数とのうちのいずれか一つに基づいて、前記有効な教師マスク情報を選出する、
     請求項1又は請求項2に記載の分割認識方法。
  4.  対象画像に定められた各境界ボックスの座標及びカテゴリ情報を含む境界ボックス情報を、機械学習の手法を用いる物体検出モデルに入力することによって、前記対象画像における物体画像を検出する物体検出部と、
     前記境界ボックス情報に基づいて、前記対象画像における前景に対応付けられた教師マスク情報のうちから、有効な教師マスク情報を選出するフィルタリング部と、
     前記物体画像の物体を認識する物体認識モデルの重み情報の初期値として前記物体検出モデルの重み情報を用いて、前記物体画像を認識する境界ボックスブランチと、
     選出された前記有効な教師マスク情報を教師データとして、前記物体画像の形状で前記対象画像を分割する分割形状モデルの重み情報の初期値として前記物体認識モデルの重み情報を用いて、前記物体画像の形状を有するマスク情報を生成するマスクブランチと
     を備える分割認識装置。
  5.  前記マスクブランチは、転移学習の手法によって、前記分割形状モデルの重み情報の初期値として前記物体認識モデルの重み情報を用いる、
     請求項4に記載の分割認識装置。
  6.  前記フィルタリング部は、予め定められた正解領域としての前記境界ボックス情報と前記境界ボックスとの和集合の面積に対する前記境界ボックス情報と前記境界ボックスとの積集合の面積と、前記境界ボックスの面積に対する前記境界ボックス内の前景の面積の比率と、前記境界ボックスの画素数とのうちのいずれか一つに基づいて、前記有効な教師マスク情報を選出する、
     請求項4又は請求項5に記載の分割認識装置。
  7.  請求項4から請求項6のいずれか一項に記載の分割認識装置としてコンピュータを機能させるためのプログラム。
PCT/JP2020/022225 2020-06-05 2020-06-05 分割認識方法、分割認識装置及びプログラム WO2021245896A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US17/928,851 US20230186478A1 (en) 2020-06-05 2020-06-05 Segment recognition method, segment recognition device and program
PCT/JP2020/022225 WO2021245896A1 (ja) 2020-06-05 2020-06-05 分割認識方法、分割認識装置及びプログラム
JP2022528361A JP7323849B2 (ja) 2020-06-05 2020-06-05 分割認識方法、分割認識装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/022225 WO2021245896A1 (ja) 2020-06-05 2020-06-05 分割認識方法、分割認識装置及びプログラム

Publications (1)

Publication Number Publication Date
WO2021245896A1 true WO2021245896A1 (ja) 2021-12-09

Family

ID=78830722

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/022225 WO2021245896A1 (ja) 2020-06-05 2020-06-05 分割認識方法、分割認識装置及びプログラム

Country Status (3)

Country Link
US (1) US20230186478A1 (ja)
JP (1) JP7323849B2 (ja)
WO (1) WO2021245896A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220405907A1 (en) * 2021-06-20 2022-12-22 Microsoft Technology Licensing, Llc Integrated system for detecting and correcting content

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180330238A1 (en) * 2017-05-09 2018-11-15 Neurala, Inc. Systems and methods to enable continual, memory-bounded learning in artificial intelligence and deep learning continuously operating applications across networked compute edges
CN108830277A (zh) * 2018-04-20 2018-11-16 平安科技(深圳)有限公司 语义分割模型的训练方法、装置、计算机设备和存储介质
US20200093464A1 (en) * 2018-09-24 2020-03-26 B-K Medical Aps Ultrasound Three-Dimensional (3-D) Segmentation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180330238A1 (en) * 2017-05-09 2018-11-15 Neurala, Inc. Systems and methods to enable continual, memory-bounded learning in artificial intelligence and deep learning continuously operating applications across networked compute edges
CN108830277A (zh) * 2018-04-20 2018-11-16 平安科技(深圳)有限公司 语义分割模型的训练方法、装置、计算机设备和存储介质
US20200093464A1 (en) * 2018-09-24 2020-03-26 B-K Medical Aps Ultrasound Three-Dimensional (3-D) Segmentation

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HE KAIMING; GKIOXARI GEORGIA; DOLLAR PIOTR; GIRSHICK ROSS: "Mask R-CNN", 2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV), 22 October 2017 (2017-10-22), pages 2980 - 2988, XP033283165, ISSN: 2380-7504, DOI: 10.1109/ICCV.2017.322 *
SHIMODA KAZU: "Weakly Supervised Dish Segmentation Using Estimation of a Plate Area", IEICE TECHNICAL REPORT, vol. 119, no. 252, 19 October 2019 (2019-10-19), pages 53 - 58, XP009532789, ISSN: 0913-5685 *

Also Published As

Publication number Publication date
JPWO2021245896A1 (ja) 2021-12-09
US20230186478A1 (en) 2023-06-15
JP7323849B2 (ja) 2023-08-09

Similar Documents

Publication Publication Date Title
US10860837B2 (en) Deep multi-task learning framework for face detection, landmark localization, pose estimation, and gender recognition
EP2339507B1 (en) Head detection and localisation method
US20220148328A1 (en) Pedestrian detection method and apparatus, computer-readable storage medium, and chip
CN108604303A (zh) 用于精准图像/视频场景分类的融合自下而上整体图像特征和自上而下实体分类的系统和方法
CN110378837B (zh) 基于鱼眼摄像头的目标检测方法、装置和存储介质
CN106971178A (zh) 行人检测和再识别的方法及装置
CN110097050B (zh) 行人检测方法、装置、计算机设备及存储介质
KR102140805B1 (ko) 위성 영상의 물체 식별을 위한 뉴럴 네트워크 학습 방법 및 장치
CN108875504B (zh) 基于神经网络的图像检测方法和图像检测装置
CN111461145A (zh) 一种基于卷积神经网络进行目标检测的方法
WO2021245896A1 (ja) 分割認識方法、分割認識装置及びプログラム
CN106909936B (zh) 一种基于双车辆可变形部件模型的车辆检测方法
Marban et al. Estimating position & velocity in 3d space from monocular video sequences using a deep neural network
Nayan et al. Real time multi-class object detection and recognition using vision augmentation algorithm
Badi et al. Feature extraction technique for static hand gesture recognition
Soni et al. Text region extraction from scene images using agf and mser
CN111652930B (zh) 一种图像目标检测方法、系统及设备
Lee et al. Global thresholding for scene understanding towards autonomous drone navigation
CN112949656B (zh) 水下地形匹配定位方法、设备及计算机存储介质
KR102528718B1 (ko) 근적외선 카메라를 사용한 딥 러닝 기반 드론 감지 시스템
JP7210380B2 (ja) 画像学習プログラム、画像学習方法、及び画像認識装置
Venkatesan et al. Advanced classification using genetic algorithm and image segmentation for Improved FD
CN107563284B (zh) 行人追踪方法及装置
Renugadevi Introduction: Deep Learning and Computer Vision
CN113971671A (zh) 实例分割方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20938845

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022528361

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20938845

Country of ref document: EP

Kind code of ref document: A1