WO2023120743A1 - 포인트 클라우드 기반 3차원 객체 인지 모델의 컨텍스트 별 학습 방법 - Google Patents

포인트 클라우드 기반 3차원 객체 인지 모델의 컨텍스트 별 학습 방법 Download PDF

Info

Publication number
WO2023120743A1
WO2023120743A1 PCT/KR2021/019369 KR2021019369W WO2023120743A1 WO 2023120743 A1 WO2023120743 A1 WO 2023120743A1 KR 2021019369 W KR2021019369 W KR 2021019369W WO 2023120743 A1 WO2023120743 A1 WO 2023120743A1
Authority
WO
WIPO (PCT)
Prior art keywords
recognition model
object recognition
context
image
input
Prior art date
Application number
PCT/KR2021/019369
Other languages
English (en)
French (fr)
Inventor
최충재
안일엽
정성욱
Original Assignee
한국전자기술연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자기술연구원 filed Critical 한국전자기술연구원
Publication of WO2023120743A1 publication Critical patent/WO2023120743A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/469Contour-based spatial representations, e.g. vector-coding
    • G06V10/476Contour-based spatial representations, e.g. vector-coding using statistical shape modelling, e.g. point distribution models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Definitions

  • the present invention relates to artificial intelligence technology, and more particularly, to a method for quickly and accurately recognizing a three-dimensional object from point cloud data based on lightweight deep learning.
  • point cloud data collected through a 3D sensor such as LiDAR
  • a 3D sensor such as LiDAR
  • a technique for estimating 3D coordinates (position, depth) of an object is used.
  • a deep learning-based object recognition model is created with a structure determined by the user, and after the user determines the object class to be classified as shown in FIG. 3, As shown, an object recognition model should be trained using an anchor box determined by a user.
  • the training process receives point cloud data, which is training data, converts it into a BEV (Bird Eye View) image, sets an object recognition model as defined by the user above, and converts it into the converted BEV image. It follows the process of training an object recognition model.
  • BEV Breast Eye View
  • the problem is the low accuracy of the object recognition model. There may be several causes, but one of the causes is to train a single object recognition model to recognize multiple types of objects.
  • an object of the present invention is a method for improving both the accuracy and speed of an object recognition model, limiting objects of interest to be recognized according to an image context, and object of interest.
  • An object of the present invention is to provide a method of adaptively determining an anchor box to be applied according to the class of , creating, setting, and learning an object recognition model.
  • an object recognition model learning method includes receiving three-dimensional image data; estimating the context of the input 3D image; selecting an object group matching the estimated context; determining anchor boxes for each object included in the selected object group; setting an object recognition model, which is an artificial intelligence model for recognizing objects, according to a decision result; and learning a set object recognition model using the input 3D image data.
  • the determining step may determine anchor boxes differently determined for each object.
  • the horizontal and vertical ratios of the anchor boxes may be determined.
  • the estimation step may include extracting features from input 3D image data; and estimating the context of the image based on the extracted features.
  • Features of the image may be geometric features of objects appearing in the image.
  • one context may be selected by comparing geometric features of objects appearing in the image with geometric features respectively mapped to a plurality of contexts stored in the DB.
  • the context may represent an environment in which a 3D image is captured.
  • An object recognition model may be created for each context.
  • the 3D image data may be point cloud data.
  • the object recognition model system includes an input unit for receiving three-dimensional image data; and an artificial intelligence model for estimating the context of the input 3D image, selecting an object group matching the estimated context, determining anchor boxes for each object included in the selected object group, and recognizing the objects. and a processor for setting an object recognition model according to a result of the determination and learning the set object recognition model using 3D image data input through an input unit.
  • a method for generating an object recognition model includes estimating a context of a 3D image; selecting an object group matching the estimated context; determining anchor boxes for each object included in the selected object group; and setting an object recognition model, which is an artificial intelligence model for recognizing objects, according to a result of the determination.
  • objects of interest to be recognized are limited according to the video context, and an anchor box to be applied is adaptively determined according to the class of the object of interest, and an object recognition model is created and set. By learning by doing, it is possible to improve both the accuracy and speed of the object recognition model in a trade-off relationship.
  • FIG. 1 is a diagram illustrating a deep learning-based object 3D coordinate recognition technology
  • FIG. 2 is a diagram illustrating an object recognition model
  • FIG. 3 is a diagram illustrating a class definition
  • FIG. 4 is a diagram illustrating an anchor box
  • 5 is a diagram illustrating a learning process
  • FIG. 6 is a conceptual diagram of a learning method for each context of a 3D object recognition model according to an embodiment of the present invention
  • FIG. 7 is a flowchart of a learning method for each context of a 3D object recognition model according to an embodiment of the present invention.
  • FIG. 8 is a block diagram of a 3D object recognition system according to another embodiment of the present invention.
  • FIG. 9 is a flowchart provided to explain a 3D object recognition method according to another embodiment of the present invention.
  • a learning method for each context of a point cloud-based 3D object recognition model is presented.
  • an object recognition model that is an artificial intelligence model for recognizing objects by limiting the class of objects of interest to be recognized according to the context of an image and adaptively determining the standard of an anchor box to be applied according to the object of interest. Create, set, and train.
  • 6 and 7 are conceptual diagrams and flowcharts of a learning method for each context of a 3D object recognition model according to an embodiment of the present invention.
  • Steps (1) of FIG. 6 and steps S110 and S120 of FIG. 7 correspond to this.
  • the BEV image can be either a 2D image or a 3D image.
  • a BEV image composed of a 3D image composed of an RGB image and a depth image may be implemented.
  • step S130 of FIG. 6 (2) and FIG. 7 corresponds to this.
  • the context represents an environment/place in which an image was captured. Referring to the upper center of FIG. 6 , factories, parks, and roads are referred to as contexts.
  • An interest object group is matched to each context.
  • An object of interest group is a set of objects that mainly exist in the image of the corresponding context.
  • An anchor box refers to a box that an object detection model moves while changing its size and direction in an image to detect an object. "2.” of step S130 of FIG. 6 (3) and FIG. 7 corresponds to this.
  • Anchor boxes are determined differently for each object. Referring to the lower center of FIG. 6, 1) the anchor boxes of the work vehicle and the forklift included in the object group of interest of the factory context are determined to be 10 ⁇ 3 and 11 ⁇ 3, respectively, and 2) in the object group of interest of the park context The anchor boxes of the included people, benches, and bicycles are determined to be 5 ⁇ 1, 5 ⁇ 5, and 2 ⁇ 5, respectively, and 3) the anchor boxes of the vehicles and buses included in the object group of interest in the road context are each 10 ⁇ 7. , it can be confirmed that each is determined to be 15 ⁇ 7.
  • Steps (4) of FIG. 6 and steps S140 to S170 of FIG. 7 correspond to this.
  • object recognition models are divided according to contexts. That is, a model for recognizing objects in a factory context image (factory recognition model), a model for recognizing objects in a park context image (park recognition model), and a model for recognizing objects in a road context image (road recognition model) model) is created as a separate object recognition model. As a result, each object recognition model can be lightweight.
  • the factory recognition model is created and set according to the loaded anchor box, and then learning is performed.
  • features of an input image are first extracted.
  • the features of the video refer to the geometrical features of the objects appearing in the video.
  • Geometric features ultimately extracted include the average height, average intensity, average normal vector, and average edge length of objects appearing in the image.
  • the average height is the average of the heights of objects appearing in the video
  • the average intensity is the average of the intensities of the objects appearing in the video
  • the average normal vector is the average of the normal vectors of the objects appearing in the video
  • the average edge length is It is the average of the edge lengths of objects appearing in the video.
  • the context of the image is estimated based on the extracted features. To this end, first, while matching the extracted features to the geometric features mapped to the plurality of contexts included in the context map, one context that best matches is selected. choose
  • the average height is 0.3, the average strength is 0.2, and the average edge length is 0.07; for the park context, the average height is 0.7, the average strength is 0.1, the average edge length is 0.13, and the roadway In the case of the context, when the average height is 1.2, the average strength is 0.7, and the average edge length is 0.03, the geometrical features extracted from the input image are the most similar to the geometrical features if the average height is 0.6, the average strength is 0.1, and the average edge length is 0.15
  • a park context with features will be selected. This may mean estimating the context of the input image as the park context.
  • the 3D object recognition system includes an input unit 210, a conversion unit 220, an object of interest DB 230, a processor 240, an object recognition model DB 250, and an output unit 260. consists of including
  • the input unit 210 receives point cloud data for learning from the training dataset DB.
  • the conversion unit 220 converts the point cloud data input through the input unit 210 into BEV images.
  • the object-of-interest DB 230 is a DB in which a context-object group table matching object-of-interest groups for each context and an object-anchor box table matching anchor box specifications for each object of interest are stored.
  • the object recognition model DB 250 is a DB in which object recognition models created/configured/learned for each context are stored.
  • the processor 240 estimates the context of the image and checks anchor box specifications for each object included in the object-of-interest group matched with the estimated context by referring to the object-of-interest DB 230 .
  • the processor 240 creates an object recognition model for each context, sets the confirmed anchor box standard, stores it in the object of interest DB 230, and trains the stored object recognition model.
  • FIG. 9 is a flowchart provided to explain a 3D object recognition method according to another embodiment of the present invention.
  • point cloud data generated from a 3D sensor (lidar, multi-view camera, RGB/Depth camera, etc.) is input to the input unit 210 (S310).
  • the conversion unit 220 converts the point cloud data input through step S310 into a BEV image (S320).
  • the processor 240 estimates the context of the BEV image converted in step S320 (S330), and selects an object recognition model of the estimated context from the object recognition model DB 250 (S340).
  • the processor 240 performs 3D object recognition by inputting the BEV image converted in step S320 to the object recognition model selected in step S340 (S350), and outputs the object recognition result through the output unit 260.
  • the object recognition model which is an artificial intelligence model for recognizing objects, is constructed by limiting the classes of objects of interest to be recognized according to the context of the video and adaptively determining the standard of an anchor box to be applied according to the object of interest. Methods for creating, setting, and learning were presented.
  • both accuracy and recognition speed which are in a trade-off relationship, can be improved.
  • the object recognition model assumed to recognize an object from point cloud data, but modification is possible.
  • point cloud data is pre-processed into BEV images, but it can be omitted or pre-processed in other ways, and the technical idea of the present invention can also be applied in this case.
  • the technical spirit of the present invention can also be applied to a computer-readable recording medium containing a computer program for performing the functions of the apparatus and method according to the present embodiment.
  • technical ideas according to various embodiments of the present invention may be implemented in the form of computer readable codes recorded on a computer readable recording medium.
  • the computer-readable recording medium may be any data storage device that can be read by a computer and store data.
  • the computer-readable recording medium may be ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical disk, hard disk drive, and the like.
  • computer readable codes or programs stored on a computer readable recording medium may be transmitted through a network connected between computers.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Geometry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

포인트 클라우드 기반 3차원 객체 인지 모델의 컨텍스트 별 학습 방법이 제공된다. 본 발명의 실시예에 따른 객체 인지 모델 학습 방법은, 3차원 영상 데이터를 입력받고, 입력된 3차원 영상의 컨텍스트를 추정하며, 추정된 컨텍스트에 매칭되는 객체 그룹을 선택하고, 선택된 객체 그룹에 포함된 각 객체들에 대한 앵커 박스들을 결정하며, 객체들을 인지하기 위한 인공지능 모델인 객체 인지 모델을 결정 결과에 따라 설정하고, 입력된 3차원 영상 데이터를 이용하여 설정된 객체 인지 모델을 학습시킨다. 이에 의해, 영상 컨텍스트에 따라 인식할 관심 객체들을 제한하고, 관심 객체의 클래스에 따라 적용할 앵커 박스를 적응적으로 결정하여, 객체 인지 모델을 생성하고 설정하여 학습시킴으로써, 트레이드 오프 관계에 있는 객체 인지 모델의 정확도와 속도 모두를 향상시킬 수 있게 된다.

Description

포인트 클라우드 기반 3차원 객체 인지 모델의 컨텍스트 별 학습 방법
본 발명은 인공지능 기술에 관한 것으로, 더욱 상세하게는 경량화 딥러닝 기반으로 포인트 클라우드 데이터로부터 3차원 객체를 빠르고 정확하게 인지하는 방법에 관한 것이다.
차량이나 로봇의 자율주행을 위해, 3D 센서, 이를 테면, LiDAR를 통해 수집된 포인트 클라우드 데이터에 대해, 도 1에 도시된 바와 같이, 특정 형태로 변환한 후에 딥러닝 기반으로 3D 객체를 인지하고, 객체의 3D 좌표(position, depth)를 추정하는 기술이 이용된다.
이를 위해서는 도 2에 도시된 바와 같이 사용자가 정한 구조로 딥러닝 기반의 객체 인지 모델을 생성하고, 도 3에 도시된 바와 같이 분류하고자 하는 객체 클래스(Object class)를 사용자가 결정한 후에, 도 4에 도시된 바와 같이 사용자가 정한 앵커 박스를 이용하여 객체 인지 모델을 학습시켜야 한다.
학습 과정은 도 5에 제시된 바와 같이, 트레이닝 데이터인 포인트 클라우드 데이터를 입력받아, BEV(Bird Eye View) 영상으로 변환한 후에, 위에서 사용자가 정한 대로 객체 인지 모델을 설정한 후에, 변환된 BEV 영상으로 객체 인지 모델을 학습시키는 과정에 따른다.
문제는 객체 인지 모델의 낮은 정확도이다. 여러 가지 원인이 있겠지만, 하나의 객체 인지 모델로 하여금 여러 종류의 객체를 인지하도록 학습시키는 것이 원인 중 하나이다.
또한, 인지해야 할 객체들은 매우 다양함에 반해 앵커 박스의 규격이 편협하다는 점도 중요한 원인이 된다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 객체 인지 모델의 정확도와 속도를 모두 향상시키기 위한 방안으로, 영상 컨텍스트에 따라 인식할 관심 객체들을 제한하고, 관심 객체의 클래스에 따라 적용할 앵커 박스를 적응적으로 결정하여, 객체 인지 모델을 생성하고 설정하여 학습시키는 방법을 제공함에 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 객체 인지 모델 학습 방법은, 3차원 영상 데이터를 입력받는 단계; 입력된 3차원 영상의 컨텍스트를 추정하는 단계; 추정된 컨텍스트에 매칭되는 객체 그룹을 선택하는 단계; 선택된 객체 그룹에 포함된 각 객체들에 대한 앵커 박스들을 결정하는 단계; 객체들을 인지하기 위한 인공지능 모델인 객체 인지 모델을 결정 결과에 따라 설정하는 단계; 및 입력된 3차원 영상 데이터를 이용하여, 설정된 객체 인지 모델을 학습시키는 단계;를 포함한다.
또한, 결정 단계는, 객체들 마다 각기 다르게 정해진 앵커 박스들로 결정할 수 있다. 그리고, 결정 단계는, 앵커 박스들의 가로와 세로 비율을 결정할 수 있다.
추정 단계는, 입력된 3차원 영상 데이터로부터 특징들을 추출하는 단계; 및 추출한 특징들을 기초로, 영상의 컨텍스트를 추정하는 단계;를 포함할 수 있다.
영상의 특징들은, 영상에 등장하는 객체들의 기하학적 특징들일 수 있다.
추정 단계는, 영상에 등장하는 객체들의 기하학적 특징들을 DB에 저장된 다수의 컨텍스트들에 각각 매핑되어 있는 기하학적 특징들과 비교하여, 하나의 컨텍스트를 선택할 수 있다.
컨텍스트는, 3차원 영상이 촬영된 환경을 나타낼 수 있다. 객체 인지 모델은, 컨텍스트 마다 생성될 수 있다. 3차원 영상 데이터는, 포인트 클라우드 데이터일 수 있다.
한편, 본 발명의 다른 실시예에 따른, 객체 인지 모델 시스템은, 3차원 영상 데이터를 입력받는 입력부; 및 입력된 3차원 영상의 컨텍스트를 추정하고, 추정된 컨텍스트에 매칭되는 객체 그룹을 선택하며, 선택된 객체 그룹에 포함된 각 객체들에 대한 앵커 박스들을 결정하고, 객체들을 인지하기 위한 인공지능 모델인 객체 인지 모델을 결정 결과에 따라 설정하며, 입력부를 통해 입력된 3차원 영상 데이터를 이용하여 설정된 객체 인지 모델을 학습시키는 프로세서;를 포함한다.
한편, 본 발명의 다른 실시예에 따른, 객체 인지 모델 생성 방법은, 3차원 영상의 컨텍스트를 추정하는 단계; 추정된 컨텍스트에 매칭되는 객체 그룹을 선택하는 단계; 선택된 객체 그룹에 포함된 각 객체들에 대한 앵커 박스들을 결정하는 단계; 및 객체들을 인지하기 위한 인공지능 모델인 객체 인지 모델을 결정 결과에 따라 설정하는 단계;를 포함한다.
한편, 본 발명의 다른 실시예에 따른, 컴퓨터로 읽을 수 있는 기록매체에는, 3차원 영상 데이터를 입력받는 단계; 입력된 3차원 영상의 컨텍스트를 추정하는 단계; 추정된 컨텍스트에 매칭되는 객체 그룹을 선택하는 단계; 선택된 객체 그룹에 포함된 각 객체들에 대한 앵커 박스들을 결정하는 단계; 객체들을 인지하기 위한 인공지능 모델인 객체 인지 모델을 결정 결과에 따라 설정하는 단계; 및 입력된 3차원 영상 데이터를 이용하여, 설정된 객체 인지 모델을 학습시키는 단계;를 포함하는 것을 특징으로 하는 객체 인지 모델 학습 방법을 수행할 수 있는 프로램이 기록된다.
이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, 영상 컨텍스트에 따라 인식할 관심 객체들을 제한하고, 관심 객체의 클래스에 따라 적용할 앵커 박스를 적응적으로 결정하여, 객체 인지 모델을 생성하고 설정하여 학습시킴으로써, 트레이드 오프 관계에 있는 객체 인지 모델의 정확도와 속도 모두를 향상시킬 수 있게 된다.
이는, 서비스 제공자 측면에서 데이터 처리시간의 단축(신속한 서비스 제공)과 연산자원과 저장공간의 감소(비용절감)를 기대할 수 있도록 하고, 서비스 이용자 측면에서 모바일/임베디드 기기에서 신속한 서비스를 가능하게 하고 자율주행차 및 로봇의 실시간 객체인식 연산을 가능하게 한다.
도 1은 딥러닝 기반 객체 3D 좌표 인지 기술을 예시한 도면,
도 2는 객체 인지 모델을 예시한 도면,
도 3은 클래스 정의를 예시한 도면,
도 4는 앵커 박스를 예시한 도면,
도 5는 학습 과정을 예시한 도면,
도 6은 본 발명의 일 실시예에 따른 3차원 객체 인지 모델의 컨텍스트 별 학습 방법의 개념도,
도 7은 본 발명의 일 실시예에 따른 3차원 객체 인지 모델의 컨텍스트 별 학습 방법의 순서도,
도 8은 본 발명의 다른 실시예에 따른 3D 객체 인지 시스템의 블럭도,
도 9는 본 발명의 또 다른 실시예에 따른 3D 객체 인지 방법의 설명에 제공되는 흐름도이다.
이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.
본 발명의 실시예에서는 포인트 클라우드 기반 3차원 객체 인지 모델의 컨텍스트 별 학습 방법을 제시한다.
본 발명의 실시예에서는 영상의 컨텍스트에 따라 인식할 관심 객체의 클래스를 제한하고, 관심 객체에 따라 적용할 앵커 박스의 규격을 적응적으로 결정하여, 객체들을 인지하기 위한 인공지능 모델인 객체 인지 모델을 생성하고 설정하며 학습시킨다.
도 6과 도 7은 본 발명의 일 실시예에 따른 3차원 객체 인지 모델의 컨텍스트 별 학습 방법의 개념도와 순서도이다.
도시된 바와 같이, 먼저, 트레이닝 데이터셋을 구성하는 포인트 클라우드 데이터를 입력받아, BEV(Bird Eye View) 영상으로 변환한다. 도 6의 (1)과 도 7의 S110단계 및 S120단계가 이에 해당한다.
여기서, BEV 영상은 2D 영상 또는 3D 영상 모두 가능하다. 후자의 경우 RGB 영상과 뎁스 영상으로 구성된 3D 영상으로 구성된 BEV 영상을 구현하면 된다.
다음, 변환된 BEV 영상의 컨텍스트를 추정하고, 추정된 컨텍스트에 매칭되는 관심 객체(Object Of Interest : OOI) 그룹을 선택한다. 도 6의 (2)과 도 7의 S130단계의 "1."이 이에 해당한다.
컨텍스트는 영상이 촬영된 환경/장소를 나타낸다. 도 6의 중앙 상부를 참조하면, 컨텍스트로 공장, 공원 및 도로를 언급하고 있다.
또한, 각 컨텍스트에는 관심 객체 그룹이 매칭되어 있다. 관심 객체 그룹은 해당 컨텍스트의 영상에 주로 존재하는 객체들의 집합니다.
도 6의 중앙 상부를 참조하면, 1) 공장에는 관심 객체 그룹으로 {작업차, 지게차} 가 매칭되어 있고, 2) 공원에는 관심 객체 그룹으로 {사람, 벤치, 자전거} 가 매칭되어 있으며, 3) 도로에는 관심 객체 그룹으로 {차량, 버스} 가 매칭되어 있음을 확인할 수 있다.
이후, 선택된 관심 객체 그룹에 포함된 각 객체들에 대한 앵커 박스(Anchor box)들을 결정한다. 앵커 박스는 객체 검출 모델이 객체를 검출하기 위해 영상에서 크기와 방향을 바꾸어 가면서 이동시키는 박스를 말한다. 도 6의 (3)과 도 7의 S130단계의 "2."가 이에 해당한다.
여기서는 앵커 박스의 가로와 세로 비율을 결정한다. 객체들 마다 앵커 박스들은 각기 다르게 결정된다. 도 6의 중앙 하부를 참조하면, 1) 공장 컨텍스트의 관심 객체 그룹에 포함된 작업차, 지게차의 앵커 박스는 각각 10×3, 11×3으로 각각 결정되고, 2) 공원 컨텍스트의 관심 객체 그룹에 포함된 사람, 벤치, 자전거의 앵커 박스는 각각 5×1, 5×5, 2×5로 각각 결정되며, 3) 도로 컨텍스트의 관심 객체 그룹에 포함된 차량, 버스의 앵커 박스는 각각 10×7, 15×7로 각각 결정되었음을 확인할 수 있다.
다음, 위에서 결정한 관심 객체 별 앵커 박스를 로드하여, 객체 인지 모델의 앵커 박스를 설정하고 학습시킨다. 도 6의 (4)와 도 7의 S140단계 내지 S170단계가 이에 해당한다.
도 6의 우측에 도시된 바와 같이 객체 인지 모델은 컨텍스트 별로 구분되어 있다. 즉, 공장 컨텍스트의 영상에서 객체를 인지하기 위한 모델(공장 인지 모델), 공원 컨텍스트의 영상에서 객체를 인지하기 위한 모델(공원 인지 모델), 도로 컨텍스트의 영상에서 객체를 인지하기 위한 모델(도로 인지 모델)은 별개의 객체 인식 모델로 생성된다. 이에 의해, 각 객체 인지 모델은 경량화시킬 수 있다.
한편, 도 7에 도시된 나타난 바와 같이, 해당 컨텍스트의 객체 인지 모델이 이미 생성되어 있다면(S150-Y), 객체 인지 모델을 다시 설정하지 않고 영상 데이터로 학습만 수행한다(S160).
이를 테면, 입력된 영상의 컨텍스트가 공원인데 공원 인지 모델이 이미 생성되어 있다면, 공원 인지 모델에 대한 앵커 박스의 재설정 없이 학습만 수행하는 것이다.
반면, 해당 컨텍스트의 객체 인지 모델이 생성되어 있지 않다면(S150-N), 객체 인지 모델을 생성한 후에 앵커 박스를 설정하고 학습을 수행한다(S170).
이를 테면, 입력된 영상의 컨텍스트가 공장인데 공장 인지 모델이 생성되어 있지 않은 경우, 공장 인지 모델을 생성하고 로드된 앵커 박스에 따라 설정한 후에 학습을 수행하는 것이다.
이하에서는, 영상의 컨텍스트를 추정하는 방법에 대해 상세히 설명한다.
영상의 컨텍스트를 추정하기 위해, 먼저 입력된 영상의 특징들을 추출한다. 영상의 특징들은 영상에 등장하는 객체들의 기하학적 특징들을 의미한다. 궁극적으로 추출하는 기하학적 특징들은, 영상에 등장하는 객체들의 평균 높이(Height), 평균 강도(Intensity), 평균 법선 벡터(Normal vector), 평균 엣지 길이(Edge length)를 포함한다.
구체적으로, 평균 높이는 영상에 등장하는 객체들의 높이들의 평균이고, 평균 강도는 영상에 등장하는 객체들의 강도들의 평균이며, 평균 법선 벡터는 영상에 등장하는 객체들의 법선 벡터들의 평균이고, 평균 엣지 길이는 영상에 등장하는 객체들의 엣지 길이들의 평균이다.
이후, 추출한 특징들을 기초로, 영상의 컨텍스트를 추정하는데, 이를 위해, 먼저, 추출한 특징들을 컨텍스트 맵에 수록된 다수의 컨텍스트들에 각각 매핑되어 있는 기하학적 특징들에 매칭시키면서, 가장 잘 매칭되는 컨텍스트 하나를 선택한다.
이를 테면, 공장 컨텍스트의 경우, 평균 높이는 0.3이고, 평균 강도는 0.2이며, 평균 엣지 길이는 0.07이고, 공원 컨텍스트의 경우, 평균 높이는 0.7이고, 평균 강도는 0.1이며, 평균 엣지 길이는 0.13이며, 도로 컨텍스트의 경우, 평균 높이는 1.2이고, 평균 강도는 0.7이며, 평균 엣지 길이는 0.03인 경우, 입력된 영상으로부터 추출한 기하학적 특징들이, 평균 높이 0.6, 평균 강도 0.1, 평균 엣지 길이 0.15라면, 이와 가장 유사한 기하학적 특징들을 갖는 공원 컨텍스트가 선택될 것이다. 이는, 입력된 영상의 컨텍스트를 공원 컨텍스트로 추정하는 것을 의미한다고 할 수 있다.
도 8은 본 발명의 다른 실시예에 따른 3D 객체 인지 시스템의 블럭도이다. 본 발명의 실시예에 따른 3D 객체 인지 시스템은, 입력부(210), 변환부(220), 관심 객체 DB(230), 프로세서(240), 객체 인지 모델 DB(250) 및 출력부(260)를 포함하여 구성된다.
입력부(210)는 트레이닝 데이터셋 DB로부터 학습용 포인트 클라우드 데이터를 입력받는다. 변환부(220)는 입력부(210)를 통해 입력되는 포인트 클라우드 데이터를 BEV 영상으로 변환한다.
관심 객체 DB(230)는 전술한 컨텍스트 별로 관심 객체 그룹을 매칭시켜 놓은 컨텍스트 - 객체 그룹 테이블과 관심 객체 별로 앵커 박스의 규격을 매칭시켜 놓은 객체 - 앵커 박스 테이블이 저장되어 있는 DB이다.
객체 인지 모델 DB(250)는 컨텍스트 별로 생성/설정/학습되는 객체 인지 모델들이 저장되어 있는 DB이다.
프로세서(240)는 영상의 컨텍스트를 추정하고, 관심 객체 DB(230)를 참조하여 추정된 컨텍스트에 매칭되어 있는 관심 객체 그룹에 포함된 각 객체들에 대한 앵커 박스 규격을 확인한다.
다음, 프로세서(240)는 컨텍스트 별 객체 인식 모델을 생성하고 확인된 앵커 박스 규격으로 설정하여 관심 객체 DB(230)에 저장하고, 저장된 객체 인식 모델을 학습시킨다.
이하에서는, 도 8에 제시된 시스템을 이용하여 3D 객체 인지를 수행하는 과정에 대해 도 9를 참조하여 상세히 설명한다. 도 9는 본 발명의 또 다른 실시예에 따른 3D 객체 인지 방법의 설명에 제공되는 흐름도이다.
도시된 바와 같이, 입력부(210)에 3D 센서(라이다, 다시점 카메라, RGB/Depth 카메라 등)로부터 생성된 포인트 클라우드 데이터가 입력되면(S310). 변환부(220)는 S310단계를 통해 입력된 포인트 클라우드 데이터를 BEV 영상으로 변환한다(S320).
다음, 프로세서(240)는 S320단계에서 변환된 BEV 영상의 컨텍스트를 추정하고(S330), 객체 인지 모델 DB(250)에서 추정된 컨텍스트의 객체 인지 모델을 선택한다(S340).
그리고, 프로세서(240)는 S320단계에서 변환된 BEV 영상을 S340단계에서 선택된 객체 인지 모델에 입력하여 3D 객체 인지를 수행하고(S350), 출력부(260)를 통해 객체 인지 결과를 출력한다.
지금까지, 포인트 클라우드 기반 3차원 객체 인지 모델의 컨텍스트 별 학습 방법에 대해 바람직한 실시예를 들어 상세히 설명하였다.
위 실시예에서는, 영상의 컨텍스트에 따라 인식할 관심 객체의 클래스를 제한하고, 관심 객체에 따라 적용할 앵커 박스의 규격을 적응적으로 결정하여, 객체들을 인지하기 위한 인공지능 모델인 객체 인지 모델을 생성하고 설정하며 학습시키는 방법을 제시하였다.
본 발명의 실시예에 따르면, 트레이드 오프 관계에 있는 정확도와 인식 속도 모두를 향상시킬 수 있게 된다.
이는, 서비스 제공자 측면에서 데이터 처리시간의 단축(신속한 서비스 제공)과 연산자원과 저장공간의 감소(비용절감)를 기대할 수 있도록 하고, 서비스 이용자 측면에서 모바일/임베디드 기기에서 신속한 서비스를 가능하게 하고 자율주행차 및 로봇의 실시간 객체인식 연산을 가능하게 한다.
그리고, 위 실시예에서, 객체 인식 모델은 포인트 클라우드 데이터로부터 객체를 인지하는 것을 상정하였는데, 변형이 가능하다. 예를 들어, 객체 인식 모델이 포인트 클라우드 데이터로부터 추출한 특징들을 입력 받아 객체를 인지하는 것으로 구현하는 것이 가능하다.
나아가, 포인트 클라우드 데이터를 BEV 영상으로 전처리하였는데, 이를 생략할 수 있음은 물론, 다른 방식으로 전처리하는 것도 가능하며, 이 경우에도 본 발명의 기술적 사상이 적용될 수 있다.
한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

Claims (12)

  1. 3차원 영상 데이터를 입력받는 단계;
    입력된 3차원 영상의 컨텍스트를 추정하는 단계;
    추정된 컨텍스트에 매칭되는 객체 그룹을 선택하는 단계;
    선택된 객체 그룹에 포함된 각 객체들에 대한 앵커 박스들을 결정하는 단계;
    객체들을 인지하기 위한 인공지능 모델인 객체 인지 모델을 결정 결과에 따라 설정하는 단계;
    입력된 3차원 영상 데이터를 이용하여, 설정된 객체 인지 모델을 학습시키는 단계;를 포함하는 것을 특징으로 하는 객체 인지 모델 학습 방법.
  2. 청구항 1에 있어서,
    결정 단계는,
    객체들 마다 각기 다르게 정해진 앵커 박스들로 결정하는 것을 특징으로 하는 객체 인지 모델 학습 방법.
  3. 청구항 2에 있어서,
    결정 단계는,
    앵커 박스들의 가로와 세로 비율을 결정하는 것을 특징으로 하는 객체 인지 모델 학습 방법.
  4. 청구항 1에 있어서,
    추정 단계는,
    입력된 3차원 영상 데이터로부터 특징들을 추출하는 단계;
    추출한 특징들을 기초로, 영상의 컨텍스트를 추정하는 단계;를 포함하는 것을 특징으로 하는 객체 인지 모델 학습 방법.
  5. 청구항 1에 있어서,
    영상의 특징들은,
    영상에 등장하는 객체들의 기하학적 특징들인 것을 특징으로 하는 객체 인지 모델 학습 방법.
  6. 청구항 5에 있어서,
    추정 단계는,
    영상에 등장하는 객체들의 기하학적 특징들을 DB에 저장된 다수의 컨텍스트들에 각각 매핑되어 있는 기하학적 특징들과 비교하여, 하나의 컨텍스트를 선택하는 것을 특징으로 하는 객체 인지 모델 학습 방법.
  7. 청구항 1에 있어서,
    컨텍스트는,
    3차원 영상이 촬영된 환경을 나타내는 것을 특징으로 하는 객체 인지 모델 학습 방법.
  8. 청구항 1에 있어서,
    객체 인지 모델은,
    컨텍스트 마다 생성되는 것을 특징으로 하는 객체 인지 모델 학습 방법.
  9. 청구항 1에 있어서,
    3차원 영상 데이터는,
    포인트 클라우드 데이터인 것을 특징으로 하는 객체 인지 모델 학습 방법.
  10. 3차원 영상 데이터를 입력받는 입력부; 및
    입력된 3차원 영상의 컨텍스트를 추정하고, 추정된 컨텍스트에 매칭되는 객체 그룹을 선택하며, 선택된 객체 그룹에 포함된 각 객체들에 대한 앵커 박스들을 결정하고, 객체들을 인지하기 위한 인공지능 모델인 객체 인지 모델을 결정 결과에 따라 설정하며, 입력부를 통해 입력된 3차원 영상 데이터를 이용하여 설정된 객체 인지 모델을 학습시키는 프로세서;를 포함하는 것을 특징으로 하는 객체 인지 시스템.
  11. 3차원 영상의 컨텍스트를 추정하는 단계;
    추정된 컨텍스트에 매칭되는 객체 그룹을 선택하는 단계;
    선택된 객체 그룹에 포함된 각 객체들에 대한 앵커 박스들을 결정하는 단계; 및
    객체들을 인지하기 위한 인공지능 모델인 객체 인지 모델을 결정 결과에 따라 설정하는 단계;를 포함하는 것을 특징으로 하는 객체 인지 모델 생성 방법.
  12. 3차원 영상 데이터를 입력받는 단계;
    입력된 3차원 영상의 컨텍스트를 추정하는 단계;
    추정된 컨텍스트에 매칭되는 객체 그룹을 선택하는 단계;
    선택된 객체 그룹에 포함된 각 객체들에 대한 앵커 박스들을 결정하는 단계;
    객체들을 인지하기 위한 인공지능 모델인 객체 인지 모델을 결정 결과에 따라 설정하는 단계; 및
    입력된 3차원 영상 데이터를 이용하여, 설정된 객체 인지 모델을 학습시키는 단계;를 포함하는 것을 특징으로 하는 객체 인지 모델 학습 방법을 수행할 수 있는 프로램이 기록된 컴퓨터로 읽을 수 있는 기록매체.
PCT/KR2021/019369 2021-12-20 2021-12-20 포인트 클라우드 기반 3차원 객체 인지 모델의 컨텍스트 별 학습 방법 WO2023120743A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2021-0182352 2021-12-20
KR1020210182352A KR20230093592A (ko) 2021-12-20 2021-12-20 포인트 클라우드 기반 3차원 객체 인지 모델의 컨텍스트 별 학습 방법

Publications (1)

Publication Number Publication Date
WO2023120743A1 true WO2023120743A1 (ko) 2023-06-29

Family

ID=86902933

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/019369 WO2023120743A1 (ko) 2021-12-20 2021-12-20 포인트 클라우드 기반 3차원 객체 인지 모델의 컨텍스트 별 학습 방법

Country Status (2)

Country Link
KR (1) KR20230093592A (ko)
WO (1) WO2023120743A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101839827B1 (ko) * 2017-09-06 2018-03-19 한국비전기술주식회사 원거리 동적 객체에 대한 얼굴 특징정보(연령, 성별, 착용된 도구, 얼굴안면식별)의 인식 기법이 적용된 지능형 감시시스템
KR20190084594A (ko) * 2018-01-08 2019-07-17 현대모비스 주식회사 3차원 영상정보 기반 객체 추적 장치 및 방법
KR102094341B1 (ko) * 2018-10-02 2020-03-27 한국건설기술연구원 인공지능 기반의 도로 노면 불량 객체 정보 분석 시스템 및 방법
WO2021009258A1 (en) * 2019-07-15 2021-01-21 Promaton Holding B.V. Object detection and instance segmentation of 3d point clouds based on deep learning
KR102272279B1 (ko) * 2021-03-30 2021-07-02 케이에스아이 주식회사 인공지능 알고리즘을 이용한 차량번호판 인식 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101839827B1 (ko) * 2017-09-06 2018-03-19 한국비전기술주식회사 원거리 동적 객체에 대한 얼굴 특징정보(연령, 성별, 착용된 도구, 얼굴안면식별)의 인식 기법이 적용된 지능형 감시시스템
KR20190084594A (ko) * 2018-01-08 2019-07-17 현대모비스 주식회사 3차원 영상정보 기반 객체 추적 장치 및 방법
KR102094341B1 (ko) * 2018-10-02 2020-03-27 한국건설기술연구원 인공지능 기반의 도로 노면 불량 객체 정보 분석 시스템 및 방법
WO2021009258A1 (en) * 2019-07-15 2021-01-21 Promaton Holding B.V. Object detection and instance segmentation of 3d point clouds based on deep learning
KR102272279B1 (ko) * 2021-03-30 2021-07-02 케이에스아이 주식회사 인공지능 알고리즘을 이용한 차량번호판 인식 방법

Also Published As

Publication number Publication date
KR20230093592A (ko) 2023-06-27

Similar Documents

Publication Publication Date Title
CN109034047B (zh) 一种车道线检测方法及装置
WO2016122069A1 (ko) 타이어 마모도 측정 방법 및 그 장치
US6853880B2 (en) Autonomous action robot
CN109271944A (zh) 障碍物检测方法、装置、电子设备、车辆及存储介质
CN103901884B (zh) 信息处理方法和信息处理设备
US10679369B2 (en) System and method for object recognition using depth mapping
WO2015105239A1 (ko) 차량 및 차선 위치 검출 시스템 및 방법
CN109344804A (zh) 一种激光点云数据的识别方法、装置、设备和介质
CN109117691A (zh) 可行驶区域检测方法、装置、设备及存储介质
CN109118532A (zh) 视觉景深估计方法、装置、设备及存储介质
CN112097732A (zh) 一种基于双目相机的三维测距方法、系统、设备及可读存储介质
WO2021235682A1 (en) Method and device for performing behavior prediction by using explainable self-focused attention
WO2018101603A1 (ko) 스테레오 카메라를 이용한 도로객체 인식방법 및 장치
CN109117690A (zh) 可行驶区域检测方法、装置、设备及存储介质
WO2019216474A1 (ko) 빈 피킹을 위한 빈 모델링 방법 및 그 장치
CN114120283A (zh) 一种道路场景三维语义分割中未知障碍物的判别方法
WO2018101746A2 (ko) 도로면 폐색 영역 복원 장치 및 방법
CN109885091B (zh) 一种无人机自主飞行控制方法及系统
WO2023120743A1 (ko) 포인트 클라우드 기반 3차원 객체 인지 모델의 컨텍스트 별 학습 방법
JP7400118B2 (ja) 駐車スペース検出方法、装置、デバイス及び記憶媒体
WO2021167189A1 (ko) 360도 주변 물체 검출 및 인식 작업을 위한 다중 센서 데이터 기반의 융합 정보 생성 방법 및 장치
WO2023038369A1 (en) Semantic three-dimensional (3d) building augmentation
WO2018131729A1 (ko) 단일 카메라를 이용한 영상에서 움직이는 객체 검출 방법 및 시스템
WO2023096133A1 (ko) 경량화된 자세 추정 모델 제공 장치 및 방법
WO2022131720A1 (ko) 건축물 이미지를 생성하는 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21969108

Country of ref document: EP

Kind code of ref document: A1