KR102480062B1 - Method for generate training data through 3D object recognition and synthesizing into virtual space, and computer program recorded on record-medium for executing method therefor - Google Patents

Method for generate training data through 3D object recognition and synthesizing into virtual space, and computer program recorded on record-medium for executing method therefor Download PDF

Info

Publication number
KR102480062B1
KR102480062B1 KR1020220019297A KR20220019297A KR102480062B1 KR 102480062 B1 KR102480062 B1 KR 102480062B1 KR 1020220019297 A KR1020220019297 A KR 1020220019297A KR 20220019297 A KR20220019297 A KR 20220019297A KR 102480062 B1 KR102480062 B1 KR 102480062B1
Authority
KR
South Korea
Prior art keywords
learning
image
images
learning data
data
Prior art date
Application number
KR1020220019297A
Other languages
Korean (ko)
Inventor
노성운
오승진
Original Assignee
주식회사 인피닉
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 인피닉 filed Critical 주식회사 인피닉
Priority to KR1020220019297A priority Critical patent/KR102480062B1/en
Application granted granted Critical
Publication of KR102480062B1 publication Critical patent/KR102480062B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/72Data preparation, e.g. statistical preprocessing of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/758Involving statistics of pixels or of feature values, e.g. histogram matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Image Analysis (AREA)

Abstract

The present invention proposes a method for generating training data. The method may include the steps of: allowing a training data design device to collect an annotation work object for training artificial intelligence (AI); allowing the training data design device to identify an object from the collected annotation work object and generating a 3D object; and allowing the training data design device to synthesize the generated 3D object into a virtual space to be trained and generate training data.

Description

3D 객체 인식 및 가상공간 합성을 통한 학습 데이터 생성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램{Method for generate training data through 3D object recognition and synthesizing into virtual space, and computer program recorded on record-medium for executing method therefor}Method for generating training data through 3D object recognition and synthesizing into virtual space, and computer program recorded on record-medium for executing the method executing method therefor}

본 발명은 인공지능(Artificial Intelligence, AI) 학습용 데이터 설계에 관한 것이다. 보다 상세하게는, 인공지능(AI) 학습용 데이터를 생성하는 과정에서, 수집된 작업 대상물을 3D 객체로 가공하여, 학습 효율을 높이기 위한 3D 객체 인식 및 가상공간 합성을 통한 학습 데이터 생성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램에 관한 것이다.The present invention relates to data design for artificial intelligence (AI) learning. More specifically, in the process of generating data for artificial intelligence (AI) learning, the collected work objects are processed into 3D objects, and learning data generation method and execution through 3D object recognition and virtual space synthesis to increase learning efficiency It relates to a computer program recorded on a recording medium in order to do so.

인공지능(AI)은 인간의 학습능력, 추론능력 및 지각능력 등의 일부 또는 전부를 컴퓨터 프로그램을 이용하여 인공적으로 구현하는 기술을 의미한다. 인공지능(AI)과 관련하여, 기계 학습(machine learning)은 다수의 파라미터로 구성된 모델을 이용하여 주어진 데이터로 파라미터를 최적화하는 학습을 의미한다. 이와 같은, 기계 학습은 학습용 데이터의 형태에서 따라, 지도 학습(supervised learning), 비지도 학습(unsupervised learning) 및 강화 학습(reinforcement learning)으로 구분된다.Artificial intelligence (AI) refers to a technology that artificially implements some or all of human learning abilities, reasoning abilities, and perception abilities using computer programs. In relation to artificial intelligence (AI), machine learning refers to learning to optimize parameters with given data using a model composed of multiple parameters. Such machine learning is classified into supervised learning, unsupervised learning, and reinforcement learning according to the form of learning data.

일반적으로, 인공지능(AI) 학습용 데이터의 설계는 데이터 구조의 설계, 데이터의 수집, 데이터의 정제, 데이터의 가공, 데이터의 확장, 및 데이터의 검증 단계로 진행된다.In general, the design of artificial intelligence (AI) learning data proceeds in the steps of data structure design, data collection, data refinement, data processing, data expansion, and data verification.

각각의 단계에서 대하여 보다 구체적으로 설명하면, 데이터 구조의 설계는 온톨로지(ontology) 정의, 분류 체계의 정의 등을 통해 이루어진다. 데이터의 수집은 직접 촬영, 웹 크롤링(web crawling) 또는 협회/전문 단체 등을 통해 데이터를 수집하여 이루어진다. 데이터 정제는 수집된 데이터 내에서 중복 데이터를 제거하고, 개인 정보 등을 비식별화하여 이루어진다. 데이터의 가공은 메타데이터(meta data)를 입력하고 어노테이션(annotation)을 수행하여 이루어진다. 데이터의 확장은 온톨로지 매핑(mapping)을 수행하고, 필요에 따라 온톨로지를 보완하거나 확장하여 이루어진다. 그리고, 데이터의 검증은 다양한 검증 도구를 활용하여 설정된 목표 품질에 따른 유효성을 검증하여 이루어진다.To describe each step in more detail, data structure design is performed through ontology definition, classification system definition, and the like. Data collection is performed by collecting data through direct filming, web crawling, or associations/professional organizations. Data purification is performed by removing redundant data from collected data and de-identifying personal information. Data processing is performed by inputting meta data and performing annotation. Data extension is performed by performing ontology mapping and supplementing or extending the ontology as needed. In addition, data verification is performed by verifying validity according to the set target quality using various verification tools.

여기서, 데이터 정제는 적게는 몇 천개에서, 많게는 수 백만개에 이르는 많은 수의 수집된 데이터를 정제하게 된다. 이때, 데이터 정제는 단순히 중복 데이터를 제거하는데 그치지 않고, 학습 대상과 관련성이 없는 데이터를 선택적으로 제거할 수 있는 기술이 필요하다.Here, data purification refines a large number of collected data ranging from a few thousand to several million. At this time, data purification does not stop at simply removing redundant data, and requires a technology capable of selectively removing data irrelevant to the learning target.

그리고, 데이터 가공 단계의 어노테이션은 이미지 속에 포함된 객체에 대하여 바운딩 박스(bounding box) 처리하고, 바운딩 박스 처리된 객체의 속성 정보를 입력하여 진행된다. 이와 같은 어노테이션은 데이터 라벨링(data labeling)이라 지칭되기도 한다. 그리고, 어노테이션의 작업 결과물에 해당되는 데이터셋(dataset)은 JSON(Java Script Object Notation) 파일 형태로 산출된다.Further, the annotation in the data processing step is performed by processing a bounding box on an object included in the image and inputting attribute information of the object included in the image. Such annotations are also referred to as data labeling. And, a dataset corresponding to the work result of the annotation is calculated in the form of a JSON (Java Script Object Notation) file.

이러한, 어노테이션 작업은 적게는 몇 천개에서, 많게는 수 백만개에 이르는 많은 수의 데이터를 대상으로 이루어지므로, 어노테이션 작업 결과물 또한 많은 수로 구성된다. 따라서, 많은 수의 어노테이션 작업 결과물이 올바르게 수행되었는지 제각각 검증하기 위하여 스크립트(script)를 활용하거나, 리뷰어(reviewer)가 직접 수작업으로 검증을 수행하게 된다.Since such annotation work is performed on a large number of data ranging from a few thousand to several million, annotation work results are also composed of a large number. Therefore, in order to individually verify whether a large number of annotation work results have been correctly performed, a script is used, or a reviewer manually performs the verification.

이 중에서, 검증자가 직접 수작업으로 검증을 수행하는 경우에는 어노테이션 작업을 수행하는 작업자와 리뷰어 간의 소통이 매우 중요하나, 소통이 원활이 이루어지지 않아, 결과적으로 어노테이션 작업 결과물에 존재하는 오류를 정확히 수정하지 못하는 어려움이 있었다. 따라서, 많은 수의 데이터를 보다 용이하게 가공할 수 있는 다양한 수단들이 요구되고 있는 실정이다.Among these, when the verifier manually performs the verification, communication between the operator performing the annotation work and the reviewer is very important, but the communication is not smooth, and as a result, errors in the annotation work result cannot be accurately corrected. there were difficulties Accordingly, there is a demand for various means capable of more easily processing a large number of data.

대한민국 공개특허공보 제10-2020-0042629호, ‘인공지능 학습을 위한 모바일 기기의 터치 기반 어노테이션과 이미지 생성 방법 및 그 장치’, (2020.04.24. 공개)Korean Patent Laid-open Publication No. 10-2020-0042629, ‘Method and apparatus for generating touch-based annotations and images in mobile devices for artificial intelligence learning’, (published on April 24, 2020)

본 발명의 일 목적은 인공지능(AI) 학습용 데이터를 생성하는 과정에서, 수집된 작업 대상물을 3D 객체로 가공하여, 학습 효율을 높이기 위한 3D 객체 인식을 통한 학습 데이터 생성 방법을 제공하는 것이다.One object of the present invention is to provide a learning data generation method through 3D object recognition to increase learning efficiency by processing collected work objects into 3D objects in the process of generating artificial intelligence (AI) learning data.

본 발명의 다른 목적은 인공지능(AI) 수집된 작업 대상물을 3D 객체로 가공하여, 학습 효율을 높이기 위한 3D 객체 인식을 통한 학습 데이터 생성 방법을 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램을 제공하는 것이다.Another object of the present invention is to provide a computer program recorded on a recording medium to execute a learning data generation method through 3D object recognition to increase learning efficiency by processing artificial intelligence (AI) collected work objects into 3D objects. will be.

본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.The technical problems of the present invention are not limited to the technical problems mentioned above, and other technical problems not mentioned will be clearly understood by those skilled in the art from the following description.

상술한 바와 같은 기술적 과제를 달성하기 위하여, 본 발명은 학습 데이터 생성 방법을 제안한다. 상기 방법은 학습 데이터 설계 장치가, 인공지능(Artificial Intelligence, AI) 학습을 위한 어노테이션(annotation) 작업 대상물을 수집하는 단계, 상기 학습 데이터 설계 장치가, 상기 수집한 어노테이션 작업 대상물에서 객체를 식별하여 3D 객체를 생성하는 단계 및 상기 학습 데이터 설계 장치가, 생성된 3D 객체를 학습 대상이 되는 가상 공간에 합성하여 학습 데이터를 생성하는 단계를 포함할 수 있다.In order to achieve the technical problem as described above, the present invention proposes a learning data generation method. The method includes a step in which a learning data design device collects annotation work objects for artificial intelligence (AI) learning, and the learning data design device identifies an object from the collected annotation work objects to generate 3D It may include generating an object and generating learning data by synthesizing the created 3D object into a virtual space to be learned by the learning data design device.

보다 구체적으로, 상기 수집하는 단계에서 상기 어노테이션 작업 대상물은 카메라(camera)에 의해 촬영된 2D 이미지 및 라이다(Lidar)를 통해 생성된 점군 데이터를 포함할 수 있다.More specifically, in the collecting step, the annotation work object may include a 2D image captured by a camera and point cloud data generated through lidar.

상기 수집하는 단계는 수집된 2D 이미지들 중 연속된 2D 이미지에서 식별된 객체 사이의 유사도를 산출하고, 상기 산출된 유사도가 사전에 설정된 임계 값보다 낮은 경우, 수집을 중단할 수 있다.In the collecting step, a similarity between objects identified in consecutive 2D images among collected 2D images may be calculated, and if the calculated similarity is lower than a preset threshold, collection may be stopped.

상기 수집하는 단계는 수집된 2D 이미지들 중 연속된 2D 이미지에서 식별된 객체 사이의 유사도를 산출하고, 상기 산출된 유사도가 사전에 설정된 임계 값보다 낮은 경우, 유사도 산출 전에 수집된 2D 이미지들과, 유사도 산출 후에 수집된 2D 이미지들을 학습 대상이 서로 다른 이미지로 인식하여 수집할 수 있다.The collecting step calculates a similarity between objects identified in consecutive 2D images among collected 2D images, and when the calculated similarity is lower than a preset threshold, 2D images collected before similarity calculation, The 2D images collected after calculating the similarity can be collected by recognizing them as images different from each other.

상기 수집하는 단계는 상기 연속된 2D 이미지에서 식별된 객체의 픽셀에 대한 RGB(Red, Green, Blue) 히스토그램을 생성하고, 생성된 RGB 히스토그램을 비교하여 유사도를 산출할 수 있다.The collecting may generate a red, green, blue (RGB) histogram for pixels of objects identified in the continuous 2D image, and calculate a similarity by comparing the generated RGB histograms.

상기 수집하는 단계는 상기 연속된 2D 이미지에서 RGB(Red, Green, Blue)에 따라 세 개의 이미지로 분할하고, 분할된 각 이미지의 엣지를 추출(edge detection)하고, 각 이미지 내에서 추출된 엣지에 의한 폐쇄 영역(enclosure)을 식별한 후, 식별된 폐쇄 영역이 상기 이미지 내에서 차지하고 있는 크기, 위치 또는 형상을 기초로 상기 유사성을 판단할 수 있다.The collecting step divides the continuous 2D image into three images according to RGB (Red, Green, Blue), extracts edges of each divided image, and detects edges in each image. After identifying an enclosure by the image, the similarity can be determined based on the size, location or shape that the identified enclosure occupies within the image.

상기 수집하는 단계는 상기 작업 대상물의 수집이 완료되면, 학습 대상이 서로 다른 이미지 그룹(group)에 포함된 이미지 수와 관련한 이미지 그룹별 수집 비율을 산출할 수 있다.In the collecting step, when the collection of the work object is completed, a collection ratio for each image group may be calculated in relation to the number of images included in different image groups.

상기 학습 데이터를 생성하는 단계에서 상기 산출된 이미지 그룹별 수집 비율을 상기 학습 데이터에 포함시킬 수 있다.In the generating of the learning data, the calculated collection ratio for each image group may be included in the learning data.

상기 3D 객체를 생성하는 단계는 상기 2D 이미지에 존재하는 객체 영역을 검출하고, 상기 객체 영역에 대한 RGB(Red, Green, Blue) 정보를 추출하는 단계, 상기 점군 데이터 중 상기 객체 영역에 매칭되는 포인트 정보를 추출하고, 상기 포인트 정보와 상기 추출된 RGB 정보를 정합하는 단계를 포함할 수 있다.The generating of the 3D object may include detecting an object area existing in the 2D image and extracting RGB (Red, Green, Blue) information for the object area, and points matching the object area among the point cloud data The method may include extracting information and matching the point information and the extracted RGB information.

상기 정합하는 단계는 상기 포인트 정보를 2D 이미지 좌표 상에 투영하고, 상기 투영된 이미지 좌표와 상기 추출된 RGB 정보를 기반으로, 상기 포인트 정보와 상기 추출된 RGB 정보를 정합할 수 있다.In the matching step, the point information may be projected onto 2D image coordinates, and the point information and the extracted RGB information may be matched based on the projected image coordinates and the extracted RGB information.

상기 3D 객체를 생성하는 단계는 사전에 기계 학습(machine learning)된 인공지능(Artificial Intelligence, AI)을 이용하여, 상기 RGB 정보 및 상기 포인트 정보를 추출하여 정합할 수 있다.In the generating of the 3D object, the RGB information and the point information may be extracted and matched using artificial intelligence (AI) that has been machine-learned in advance.

상기 학습 데이터를 생성하는 단계에서 상기 어노테이션 작업 대상물은 다양한 각도로 배치된 복수의 카메라에 의해 촬영된 2D 이미지를 포함하고, 상기 3D 객체를 생성하는 단계는 상기 복수의 카메라에 의해 촬영된 2D 이미지와, 상기 복수의 카메라에 대한 자세 정보를 통해 3D 객체를 생성할 수 있다.In the step of generating the learning data, the annotation work object includes 2D images taken by a plurality of cameras arranged at various angles, and in the step of generating the 3D object, the 2D images taken by the plurality of cameras and , A 3D object may be created through posture information of the plurality of cameras.

상술한 바와 같은 기술적 과제를 달성하기 위하여, 본 발명은 상술한 바와 같은 학습 데이터 생성 방법을 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램을 제안한다. 상기 컴퓨터 프로그램은 메모리(memory), 송수신기(transceiver) 및 상기 메모리에 상주된 명령어를 처리하는 프로세서(processor)를 포함하여 구성된 컴퓨팅 장치와 결합되어, 상기 프로세서가, 인공지능(Artificial Intelligence, AI) 학습을 위한 어노테이션(annotation) 작업 대상물을 수집하는 단계, 상기 프로세서가, 상기 수집한 어노테이션 작업 대상물에서 객체를 식별하여 3D 객체를 생성하는 단계 및 상기 프로세서가, 생성된 3D 객체를 학습 대상이 되는 가상 공간에 합성하여 학습 데이터를 생성하는 단계를 실행시키기 위하여, 기록매체에 기록된 컴퓨터 프로그램이 될 수 있다.In order to achieve the technical problem as described above, the present invention proposes a computer program recorded on a recording medium to execute the learning data generation method as described above. The computer program is combined with a computing device including a memory, a transceiver, and a processor that processes instructions resident in the memory, so that the processor learns artificial intelligence (AI). Collecting annotation work objects for the process, generating a 3D object by identifying objects from the collected annotation work objects, and creating a virtual space in which the created 3D object is a learning target It may be a computer program recorded on a recording medium to execute the step of generating learning data by synthesizing it.

기타 실시 예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.Details of other embodiments are included in the detailed description and drawings.

본 발명의 실시 예들에 따르면, 수집한 어노테이션 작업 대상물에서 객체를 식별하여 3D 객체를 생성하고, 생성된 3D 객체를 학습 대상이 되는 가상 공간에 합성하여 학습 데이터를 생성함으로써 학습 효율을 높일 수 있다.According to embodiments of the present invention, learning efficiency can be increased by identifying objects from the collected annotation work objects to create 3D objects, and creating learning data by synthesizing the created 3D objects in a virtual space to be learned.

본 발명의 효과들은 이상에서 언급한 효과로 제한되지 아니하며, 언급되지 않은 또 다른 효과들은 청구범위의 기재로부터 본 발명이 속한 기술분야의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.The effects of the present invention are not limited to the effects mentioned above, and other effects not mentioned will be clearly understood by those skilled in the art from the description of the claims.

도 1 및 도 2는 본 발명의 다양한 실시예에 따른 인공지능 학습 시스템의 구성도이다.
도 3은 본 발명의 일 실시예에 따른 학습 데이터 설계 장치의 논리적 구성도이다.
도 4는 본 발명의 일 실시예에 따른 학습 데이터 설계 장치의 하드웨어 구성도이다.
도 5는 본 발명의 일 실시예에 따른 학습 데이터 검증 장치의 논리적 구성도이다.
도 6은 본 발명의 일 실시예에 따른 학습 데이터 검증 장치의 하드웨어 구성도이다.
도 7은 본 발명의 일 실시예에 따른 학습 데이터 생성 방법을 설명하기 위한 순서도이다.
도 8은 본 발명의 일 실시예에 따른 행동 추정을 위한 기계 학습 방법을 설명하기 위한 순서도이다.
도 9는 본 발명의 일 실시예에 따른 피드백 방법을 설명하기 위한 순서도이다.
도 10은 본 발명의 다른 실시예에 따른 피드백 방법을 설명하기 위한 순서도이다.
도 11은 본 발명의 일 실시예에 따라 인공지능(AI) 기계 학습을 위한 데이터를 수집하는 차량을 설명하기 위한 예시도이다.
도 12는 본 발명의 일 실시예에 따라 키 포인트를 추출하기 위한 과정을 설명하기 위한 예시도이다.
도 13은 본 발명의 일 실시예에 따라 피드백 정보를 설명하기 위한 예시도이다.
1 and 2 are configuration diagrams of an artificial intelligence learning system according to various embodiments of the present invention.
3 is a logical configuration diagram of a learning data design device according to an embodiment of the present invention.
4 is a hardware configuration diagram of a learning data design device according to an embodiment of the present invention.
5 is a logical configuration diagram of an apparatus for verifying learning data according to an embodiment of the present invention.
6 is a hardware configuration diagram of an apparatus for verifying learning data according to an embodiment of the present invention.
7 is a flowchart illustrating a method for generating learning data according to an embodiment of the present invention.
8 is a flowchart illustrating a machine learning method for behavior estimation according to an embodiment of the present invention.
9 is a flowchart for explaining a feedback method according to an embodiment of the present invention.
10 is a flowchart for explaining a feedback method according to another embodiment of the present invention.
11 is an exemplary diagram for explaining a vehicle collecting data for artificial intelligence (AI) machine learning according to an embodiment of the present invention.
12 is an exemplary diagram for explaining a process for extracting a key point according to an embodiment of the present invention.
13 is an exemplary diagram for explaining feedback information according to an embodiment of the present invention.

본 명세서에서 사용되는 기술적 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아님을 유의해야 한다. 또한, 본명세서에서 사용되는 기술적 용어는 본 명세서에서 특별히 다른 의미로 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나, 과도하게 축소된 의미로 해석되지 않아야 한다. 또한, 본 명세서에서 사용되는 기술적인 용어가 본 발명의 사상을 정확하게 표현하지 못하는 잘못된 기술적 용어일 때에는, 당업자가 올바르게 이해할 수 있는 기술적 용어로 대체되어 이해되어야 할 것이다. 또한, 본 발명에서 사용되는 일반적인 용어는 사전에 정의되어 있는 바에 따라, 또는 전후 문맥상에 따라 해석되어야 하며, 과도하게 축소된 의미로 해석되지 않아야 한다.It should be noted that the technical terms used in this specification are only used to describe specific embodiments and are not intended to limit the present invention. In addition, technical terms used in this specification should be interpreted in terms commonly understood by those of ordinary skill in the art to which the present invention belongs, unless specifically defined otherwise in this specification, and are excessively inclusive. It should not be interpreted in a positive sense or in an excessively reduced sense. In addition, when the technical terms used in this specification are incorrect technical terms that do not accurately express the spirit of the present invention, they should be replaced with technical terms that those skilled in the art can correctly understand. In addition, general terms used in the present invention should be interpreted as defined in advance or according to context, and should not be interpreted in an excessively reduced sense.

또한, 본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, '구성된다' 또는 '가지다' 등의 용어는 명세서 상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.Also, singular expressions used in this specification include plural expressions unless the context clearly indicates otherwise. In this application, terms such as 'consisting of' or 'having' should not be construed as necessarily including all of the various components or steps described in the specification, and some of the components or steps are included. It should be construed that it may not be, or may further include additional components or steps.

또한, 본 명세서에서 사용되는 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성 요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.Also, terms including ordinal numbers such as first and second used in this specification may be used to describe various components, but the components should not be limited by the terms. These terms are only used for the purpose of distinguishing one component from another. For example, a first element may be termed a second element, and similarly, a second element may be termed a first element, without departing from the scope of the present invention.

어떤 구성 요소가 다른 구성 요소에 '연결되어' 있다거나 '접속되어' 있다고 언급된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성 요소가 존재할 수도 있다. 반면에, 어떤 구성 요소가 다른 구성 요소에 "'직접 연결되어' 있다거나 '직접 접속되어' 있다고 언급된 때에는, 중간에 다른 구성 요소가 존재하지 않는 것으로 이해되어야 할 것이다.When a component is referred to as being 'connected' or 'connected' to another component, it may be directly connected or connected to the other component, but other components may exist in the middle. On the other hand, when a component is referred to as "'directly connected' or 'directly connected' to another component, it should be understood that no other component exists in the middle.

이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 또한, 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 발명의 사상을 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 발명의 사상이 제한되는 것으로 해석되어서는 아니 됨을 유의해야 한다. 본 발명의 사상은 첨부된 도면 외에 모든 변경, 균등물 내지 대체물에 까지도 확장되는 것으로 해석되어야 한다.Hereinafter, preferred embodiments according to the present invention will be described in detail with reference to the accompanying drawings, but the same or similar components are given the same reference numerals regardless of reference numerals, and redundant description thereof will be omitted. In addition, in describing the present invention, if it is determined that a detailed description of a related known technology may obscure the gist of the present invention, the detailed description will be omitted. In addition, it should be noted that the accompanying drawings are only for easily understanding the spirit of the present invention, and should not be construed as limiting the spirit of the present invention by the accompanying drawings. The spirit of the present invention should be construed as extending to all changes, equivalents or substitutes other than the accompanying drawings.

한편 데이터 정제는 적게는 몇 천개에서, 많게는 수 백만개에 이르는 많은 수의 수집된 데이터를 정제하게 된다. 이때, 데이터 정제는 단순히 중복 데이터를 제거하는데 그치지 않고, 학습 대상과 관련성이 없는 데이터를 선택적으로 제거할 수 있는 기술이 필요하다.On the other hand, data purification refines a large number of collected data ranging from a few thousand to several million. At this time, data purification does not stop at simply removing redundant data, and requires a technology capable of selectively removing data irrelevant to the learning target.

그리고, 데이터 가공 단계의 어노테이션은 이미지 속에 포함된 객체에 대하여 바운딩 박스(bounding box) 처리하고, 바운딩 박스 처리된 객체의 속성 정보를 입력하여 진행된다. 이와 같은 어노테이션은 데이터 라벨링(data labeling)이라 지칭되기도 한다. 그리고, 어노테이션의 작업 결과물에 해당되는 데이터셋(dataset)은 JSON(Java Script Object Notation) 파일 형태로 산출된다.Further, the annotation in the data processing step is performed by processing a bounding box on an object included in the image and inputting attribute information of the object included in the image. Such annotations are also referred to as data labeling. And, a dataset corresponding to the work result of the annotation is calculated in the form of a JSON (Java Script Object Notation) file.

이러한, 어노테이션 작업은 적게는 몇 천개에서, 많게는 수 백만개에 이르는 많은 수의 데이터를 대상으로 이루어지므로, 어노테이션 작업 결과물 또한 많은 수로 구성된다. 따라서, 많은 수의 어노테이션 작업 결과물이 올바르게 수행되었는지 제각각 검증하기 위하여 스크립트(script)를 활용하거나, 리뷰어(reviewer)가 직접 수작업으로 검증을 수행하게 된다.Since such annotation work is performed on a large number of data ranging from a few thousand to several million, annotation work results are also composed of a large number. Therefore, in order to individually verify whether a large number of annotation work results have been correctly performed, a script is used, or a reviewer manually performs the verification.

이 중에서, 검증자가 직접 수작업으로 검증을 수행하는 경우에는 어노테이션 작업을 수행하는 작업자와 리뷰어 간의 소통이 매우 중요하나, 소통이 원활이 이루어지지 않아, 결과적으로 어노테이션 작업 결과물에 존재하는 오류를 정확히 수정하지 못하는 어려움이 있었다. 따라서, 많은 수의 데이터를 보다 용이하게 가공할 수 있는 다양한 수단들이 요구되고 있는 실정이다.Among these, when the verifier manually performs the verification, communication between the operator performing the annotation work and the reviewer is very important, but the communication is not smooth, and as a result, errors in the annotation work result cannot be accurately corrected. there were difficulties Accordingly, there is a demand for various means capable of more easily processing a large number of data.

이러한 한계를 극복하기 위하여, 본 발명은 어노테이션(annotation)한 작업 결과물을 검증하여 검증 결과를 피드백하고, 학습 효율을 높이기 위한 다양한 수단들을 제안하고자 한다.In order to overcome these limitations, the present invention proposes various means for verifying annotated work products, feeding back the verification results, and increasing learning efficiency.

도 1 및 도 2는 본 발명의 다양한 실시예에 따른 인공지능 학습 시스템의 구성도이다.1 and 2 are configuration diagrams of an artificial intelligence learning system according to various embodiments of the present invention.

도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 인공지능 학습 시스템은 학습 데이터 설계 장치(100), 하나 이상의 어노테이션 장치(200-1, 200-2, …, 200-n; 200), 학습 데이터 검증 장치(300) 및 인공지능 학습 장치(400)를 포함하여 구성될 수 있다.As shown in FIG. 1, the artificial intelligence learning system according to an embodiment of the present invention includes a learning data design device 100, one or more annotation devices 200-1, 200-2, ..., 200-n; 200 , It may be configured to include a learning data verification device 300 and an artificial intelligence learning device 400.

또한, 도 2에 도시된 바와 같이, 본 발명의 다른 실시예에 따른 인공지능 학습 시스템은 하나 이상의 어노테이션 장치(200-a, 200-b, …, 200-m; 200)와 학습 데이터 검증 장치(300-a, 300-b, …, 300-m; 300)가 하나로 이루어진 복수 개의 그룹(Group-a, Group-b …, Group-m), 학습 데이터 생성 장치(100) 및 인공지능 학습 장치(400)를 포함하여 구성될 수 있다.In addition, as shown in FIG. 2, the artificial intelligence learning system according to another embodiment of the present invention includes one or more annotation devices (200-a, 200-b, ..., 200-m; 200) and a learning data verification device ( 300-a, 300-b, ..., 300-m; 300) consisting of a plurality of groups (Group-a, Group-b ..., Group-m), the learning data generating device 100 and the artificial intelligence learning device ( 400) may be configured.

이와 같은, 다양한 실시예에 따른 인공지능 학습 시스템의 구성 요소들은 기능적으로 구분되는 요소들을 나타낸 것에 불과하므로, 둘 이상의 구성 요소가 실제 물리적 환경에서는 서로 통합되어 구현되거나, 하나의 구성 요소가 실제 물리적 환경에서는 서로 분리되어 구현될 수 있을 것이다.Since the components of the artificial intelligence learning system according to various embodiments are merely functionally distinct elements, two or more components are integrated and implemented in the actual physical environment, or one component is implemented in the actual physical environment. may be implemented separately from each other.

각각의 구성 요소에 대하여 설명하면, 학습 데이터 설계 장치(100)는 인공지능(AI)을 기계 학습시키기 위한 데이터를 설계 및 생성하는데 사용될 수 있는 장치이다.Each component is described, and the learning data design device 100 is a device that can be used to design and generate data for machine learning of artificial intelligence (AI).

이와 같은, 학습 데이터 설계 장치(100)는 기본적으로 학습 데이터 검증 장치(300)와 구분되는 장치이나, 실제 물리적 환경에서 학습 데이터 설계 장치(100)와 학습 데이터 검증 장치(300)가 하나의 장치로 통합되어 구현될 수도 있다.As such, the learning data design device 100 is basically a device that is distinguished from the learning data verification device 300, but in an actual physical environment, the learning data design device 100 and the learning data verification device 300 are integrated into one device. It may be integrated and implemented.

구체적으로, 학습 데이터 설계 장치(100)는 인공지능 학습 장치(400)로부터 인공지능(AI) 학습과 관련된 프로젝트의 속성을 수신할 수 있다. 학습 데이터 설계 장치(100)는 사용자의 제어 및 수신된 프로젝트의 속성을 기초로, 인공지능(AI) 학습을 위한 데이터 구조의 설계, 수집된 데이터의 정제, 데이터의 가공, 데이터의 확장 및 데이터의 검증을 수행할 수 있다.Specifically, the learning data design device 100 may receive attributes of a project related to artificial intelligence (AI) learning from the artificial intelligence learning device 400 . The learning data design device 100 is based on the user's control and the properties of the received project, designing a data structure for artificial intelligence (AI) learning, refining collected data, processing data, expanding data, and verification can be performed.

우선적으로, 학습 데이터 설계 장치(100)는 인공지능(AI) 학습을 위한 데이터 구조를 설계할 수 있다. 예를 들어, 학습 데이터 설계 장치(100)는 사용자의 제어 및 수신된 프로젝트의 속성을 기초로, 인공지능(AI) 학습을 위한 온톨로지(ontology), 인공지능(AI) 학습을 위한 데이터의 분류 체계를 정의할 수 있다.First of all, the learning data design device 100 may design a data structure for artificial intelligence (AI) learning. For example, the learning data design device 100 has an ontology for artificial intelligence (AI) learning and a data classification system for artificial intelligence (AI) learning based on the properties of the user's control and the received project. can define

학습 데이터 설계 장치(100)는 설계된 데이터 구조를 기초로, 인공지능(AI) 학습을 위한 데이터를 수집할 수 있다. 이를 위하여, 학습 데이터 설계 장치(100)는 외부로부터 3D 점군 데이터 및 2D 이미지들을 입력 받거나, 웹 크롤링(web crawling)을 수행하여 3D 점군 데이터 및 2D 이미지들을 수집하거나, 또는 외부 기관의 장치로부터 3D 점군 데이터 및 2D 이미지들을 다운로드 할 수 있다.The learning data design device 100 may collect data for artificial intelligence (AI) learning based on the designed data structure. To this end, the learning data design device 100 receives 3D point cloud data and 2D images from the outside, collects 3D point cloud data and 2D images by performing web crawling, or collects 3D point cloud data from a device of an external institution. Data and 2D images can be downloaded.

여기서, 3D 점군 데이터는 차량에 고정 설치된 라이다(lidar)에 의해 획득된 데이터이다. 차량에 고정 설치된 라이다는 레이저 펄스를 발사하고, 차량 주위에 위치하는 객체들에 의해 반사되어 돌아온 빛을 감지하여, 차량 주위에 대한 3차원 영상에 해당하는 3D 점군 데이터를 생성할 수 있다. 즉, 3D 점군 데이터를 구성하는 점군은 라이다에 의해 3차원 공간으로 발사된 레이저 펄스를 반사시킨 점(point)들의 집합을 의미한다. Here, the 3D point cloud data is data obtained by a lidar fixedly installed in the vehicle. A lidar fixed to a vehicle may generate 3D point cloud data corresponding to a 3D image of the surroundings of the vehicle by emitting laser pulses and detecting light reflected by objects located around the vehicle. That is, the point cloud constituting the 3D point cloud data refers to a set of points that reflect laser pulses emitted by LIDAR into a 3D space.

그리고, 2D 이미지는 차량에 고정 설치된 복수 개의 카메라에 의해 촬영된 이미지이다. 자율주행을 위하여 하나의 차량에는 다수 개의 카메라가 고정 설치되어, 차량 주위에 대한 2차원 이미지를 각각 촬영할 수 있다. 예를 들어, 하나의 차량에 6개의 카메라가 설치될 수 있으나, 이에 한정되지 않는다.And, the 2D image is an image taken by a plurality of cameras fixedly installed in the vehicle. For autonomous driving, a plurality of cameras are fixedly installed in one vehicle to take two-dimensional images of the surroundings of the vehicle, respectively. For example, six cameras may be installed in one vehicle, but is not limited thereto.

학습 데이터 설계 장치(100)는 수집된 3D 점군 데이터 및 2D 이미지들 중에서 중복되거나 또는 극히 유사한 데이터를 제거할 수 있다. 학습 데이터 설계 장치(100)는 수집된 3D 점군 데이터 및 2D 이미지들에 포함된 개인정보를 비식별화(de-identification)할 수 있다.The learning data design apparatus 100 may remove redundant or extremely similar data from among the collected 3D point cloud data and 2D images. The learning data design apparatus 100 may de-identify personal information included in the collected 3D point cloud data and 2D images.

학습 데이터 설계 장치(100)는 수집 및 정제된 3D 점군 데이터 및 2D 이미지들을 복수 개의 어노테이션 장치(200)에 분배하여 전송할 수 있다. 이 경우, 학습 데이터 설계 장치(100)는 어노테이션 장치(200)의 작업자(즉, 라벨러)에 대하여 사전에 할당된 양에 따라 3D 점군 데이터 및 2D 이미지들을 분배할 수 있다.The learning data design device 100 may distribute and transmit the collected and refined 3D point cloud data and 2D images to a plurality of annotation devices 200 . In this case, the learning data design device 100 may distribute 3D point cloud data and 2D images according to a pre-allocated amount for the operator (ie, labeler) of the annotation device 200.

학습 데이터 설계 장치(100)는 어노테이션 장치(200)로부터 직접 어노테이션 작업 결과물을 수신하거나, 또는 학습 데이터 검증 장치(300)로부터 어노테이션 작업 결과물 및 검수 결과를 수신할 수 있다.The learning data design device 100 may receive annotation work results directly from the annotation device 200 or receive annotation work results and inspection results from the learning data verification device 300 .

학습 데이터 설계 장치(100)는 수신된 어노테이션 작업 결과물을 패키징(packaging)하여 인공지능(AI) 학습용 데이터를 생성할 수 있다. 그리고, 학습 데이터 설계 장치(100)는 생성된 인공지능(AI) 학습용 데이터를 인공지능 학습 장치(400)에 전송할 수 있다.The learning data design device 100 may generate AI learning data by packaging the received annotation work result. And, the learning data design device 100 may transmit the generated artificial intelligence (AI) learning data to the artificial intelligence learning device 400 .

특징적으로, 학습 데이터 설계 장치(100)는 인공지능(Artificial Intelligence, AI) 학습을 위한 어노테이션(annotation) 작업 대상물을 수집하고, 수집한 어노테이션 작업 대상물에서 객체를 식별하여 3D 객체를 생성하고, 생성된 3D 객체를 학습 대상이 되는 가상 공간에 합성하여 학습 데이터를 생성할 수 있다.Characteristically, the learning data design device 100 collects annotation work objects for artificial intelligence (AI) learning, identifies objects from the collected annotation work objects, creates 3D objects, and generates 3D objects. Learning data may be created by synthesizing 3D objects into a virtual space to be learned.

또한, 학습 데이터 설계 장치(100)는 인공지능(AI) 학습을 위한 어노테이션 작업 대상물을 수집하고, 수집한 어노테이션 작업 대상물에서 객체를 식별하여 3D 객체를 생성하고, 생성된 3D 객체에 대한 2D 이미지의 복수의 키 포인트를 추출하고, 추출된 키 포인트를 사전에 구축된 인체 자세 모형 데이터 셋에 저장된 인체 자세 모형과 비교하여, 저장된 인체 자세 모형 데이터 셋 중 추출된 키 포인트와 매칭되는 인체 자세 모형을 추출하여 3D 객체의 행동을 추정할 수 있다.In addition, the learning data design device 100 collects annotation work objects for artificial intelligence (AI) learning, identifies objects from the collected annotation work objects to create 3D objects, and generates 2D images for the created 3D objects. Extracts a plurality of key points, compares the extracted key points with the human body posture model stored in the human body posture model data set built in advance, and extracts the human body posture model that matches the extracted key point among the stored human body posture model data sets to estimate the behavior of a 3D object.

한편, 학습 데이터 설계 장치(100)의 구체적인 구성 및 동작에 대해서는 추후 도 3 및 도 4를 참조하여 설명하기로 한다.Meanwhile, the specific configuration and operation of the learning data design device 100 will be described with reference to FIGS. 3 and 4 later.

이와 같은 특징을 가지는, 학습 데이터 생성 장치(100)는 어노테이션 장치(200), 학습 데이터 검증 장치(300) 및 인공지능 학습 장치(400)와 데이터를 송수신하고, 송수신된 데이터를 기초로 연산을 수행할 수 있는 장치라면 어떠한 장치라도 허용될 수 있다. 예를 들어, 학습 데이터 생성 장치(100)는 데스크탑(desktop), 워크스테이션(workstation) 또는 서버(server)와 같은 고정식 컴퓨팅 장치 중 어느 하나가 될 수 있으나, 이에 한정되는 것은 아니다.The learning data generation device 100 having such characteristics transmits and receives data with the annotation device 200, the learning data verification device 300, and the artificial intelligence learning device 400, and performs calculations based on the transmitted and received data. Any device that can do this is acceptable. For example, the learning data generating device 100 may be any one of a fixed computing device such as a desktop, workstation, or server, but is not limited thereto.

다음 구성으로, 어노테이션 장치(200)는 학습 데이터 설계 장치(100)에 의해 배포된 2D 이미지들 또는 3D 점군 데이터에 대하여, 어노테이션(annotation) 작업을 수행하는데 사용될 수 있는 로컬 컴퓨팅 장치이다. 이와 같은, 어노테이션 장치(200)의 전부 또는 일부는 어노테이션 작업자가 클라우딩 서비스(clouding service)를 통해 어노테이션 작업을 수행하는 장치가 될 수도 있다.With the following configuration, the annotation device 200 is a local computing device that can be used to perform annotation work on 2D images or 3D point cloud data distributed by the learning data design device 100. All or part of the annotation device 200 may be a device in which an annotation worker performs annotation work through a clouding service.

구체적으로, 어노테이션 장치(200)는 학습 데이터 설계 장치(100)로부터 수신된 2D 이미지들 또는 3D 점군 데이터 중에서 어노테이션 작업 대상이 되는 하나의 2D 이미지 또는 3D 점군 데이터를 디스플레이에 출력할 수 있다.Specifically, the annotation device 200 may output one 2D image or 3D point cloud data to be annotated to a display from among 2D images or 3D point cloud data received from the learning data design device 100.

어노테이션 장치(200)는 입출력장치를 통해 사용자로부터 입력된 신호에 따라 툴(tool)을 선택할 수 있다. 여기서, 툴은 2D 이미지 또는 3D 점군 데이터 속에 포함되어 있는 하나 이상의 객체(object)를 특정하는 바운딩 박스를 설정하기 위한 도구이다. The annotation device 200 may select a tool according to a signal input from a user through an input/output device. Here, the tool is a tool for setting a bounding box specifying one or more objects included in 2D image or 3D point cloud data.

어노테이션 장치(200)는 입출력장치를 통해 선택된 툴에 따른 좌표를 입력 받을 수 있다. 그리고, 어노테이션 장치(200)는 입력된 좌표를 기초로 바운딩 박스(bounding box)를 설정하여, 2D 이미지 또는 3D 점군 데이터 속에 포함된 객체를 특정할 수 있다. 여기서, 바운딩 박스는 이미지 속에 포함된 객체들 중에서 인공지능(AI) 학습의 대상이 되는 객체를 특정하기 위한 영역이다. 이와 같은, 바운딩 박스는 사각형(rectangle) 또는 정육면체(cube)의 형상을 가질 수 있으며, 이에 한정되는 것은 아니다.The annotation device 200 may receive coordinates according to the selected tool through an input/output device. Also, the annotation device 200 may specify an object included in the 2D image or 3D point cloud data by setting a bounding box based on the input coordinates. Here, the bounding box is an area for specifying an object to be learned by artificial intelligence (AI) among objects included in the image. Such a bounding box may have a rectangle or cube shape, but is not limited thereto.

예를 들어, 어노테이션 장치(200)는 입출력장치를 통해 두 개의 좌표를 입력 받고, 입력된 두 좌표를 2D 이미지 내에서 좌상단 꼭지점(vertex)의 좌표와 우하단 꼭지점의 좌표로 가지는 사각형을 기초로 바운딩 박스를 설정하여, 2D 이미지 속에 포함된 객체를 특정할 수 있다. 이 경우, 두 개의 좌표는 사용자가 한 종류의 입력 신호를 두 번 입력(예들 들어, 마우스 클릭)하여 설정되거나, 사용자가 두 종류의 입력 신호를 한번씩 입력(예를 들어, 마우스 드래그)하여 설정될 수 있으나, 이에 한정되는 것은 아니다.For example, the annotation device 200 receives two coordinates through an input/output device, and bounds the input two coordinates based on a rectangle having the coordinates of the upper left vertex and the coordinates of the lower right vertex in the 2D image. By setting a box, an object included in a 2D image can be specified. In this case, the two coordinates may be set by the user inputting one type of input signal twice (eg, mouse click) or by the user inputting two types of input signal once (eg, mouse drag). It may, but is not limited thereto.

어노테이션 장치(200)는 입출력장치를 통해 사용자로부터 입력된 신호에 따라, 어노테이션 작업의 대상이 되는 2D 이미지 또는 3D 점군 데이터, 또는 설정된 객체에 대한 메타데이터(metadata)를 생성할 수 있다. 여기서, 메타데이터는 3D 점군 데이터 또는 2D 이미지와, 3D 점군 데이터 또는 2D 이미지로부터 특정된 객체를 설명하기 위한 데이터이다. 이와 같은, 메타데이터에는 3D 점군 데이터 또는 2D 이미지로부터 특정된 객체의 카테고리, 객체가 화각에 의해 잘려진 비율, 객체가 다른 객체 또는 물체에 의해 가려진 비율, 객체의 트래킹 아이디, 이미지가 촬영된 시각, 이미지가 촬영된 날의 기상 조건 등이 포함될 수 있으며, 이에 한정되지 아니하고, 파일 크기, 이미지 크기, 저작권자, 해상도, 비트 값, 조리개 투과량, 노출 시간, ISO 감도, 초점 거리, 조리개 개방 수치, 화각, 화이트 밸런스, RGB 깊이, 클래스 명, 태그, 촬영 장소, 도로의 유형, 도로 표면 정보 또는 교통 체증 정보가 더 포함될 수도 있다.The annotation device 200 may generate 2D image or 3D point cloud data to be annotated, or metadata for a set object according to a signal input from a user through an input/output device. Here, the metadata is 3D point cloud data or 2D image, and data for describing an object specified from the 3D point cloud data or 2D image. Such metadata includes the category of the object specified from 3D point cloud data or 2D image, the rate at which the object is cut by the angle of view, the rate at which the object is obscured by other objects or objects, the tracking ID of the object, the time the image was taken, the image It may include, but is not limited to, the weather conditions of the day on which the photo was taken, file size, image size, copyright holder, resolution, bit value, aperture transmission, exposure time, ISO sensitivity, focal length, aperture value, angle of view, white Balance, RGB depth, class name, tag, shooting location, road type, road surface information, or traffic jam information may be further included.

어노테이션 장치(200)는 2D 이미지 또는 3D 점군 데이터로부터 설정된 객체와 생성된 메타데이터를 기초로, 어노테이션 작업 결과물을 생성할 수 있다. 이 경우, 어노테이션 작업 결과물을 JSON(Java Script Object Notation) 파일 형식을 가질 수 있으나, 이에 한정되는 것은 아니다. 어노테이션 장치(200)는 생성된 어노테이션 작업 결과물을 학습 데이터 설게 장치(100)에 전송할 수 있다. 그리고, 어노테이션 장치(200)는 생성된 어노테이션 작업 결과물 외에도, 검증을 위하여 객체가 설정된 2D 이미지 또는 3D 점군 데이터를 학습 데이터 설계 장치(100)에 전송할 수 있다.The annotation device 200 may generate an annotation work result based on an object set from 2D image or 3D point cloud data and generated metadata. In this case, the annotation work result may have a JSON (Java Script Object Notation) file format, but is not limited thereto. The annotation device 200 may transmit the generated annotation work result to the learning data design device 100 . Also, the annotation device 200 may transmit 2D image or 3D point cloud data in which an object is set to the learning data design device 100 for verification in addition to the generated annotation work result.

본 발명을 일 실시예에 따른 어노테이션 장치(200)는 어노테이션 작업 결과물과 객체가 설정된 2D 이미지 또는 3D 점군 데이터를 학습 데이터 설계 장치(100)에 전송하지 아니하고, 어노테이션 장치(200)를 구성하고 있는 입출력장치의 제어 데이터를 학습 데이터 설계 장치(100)에 전송할 수도 있다.The annotation device 200 according to an embodiment of the present invention does not transmit annotation work results and 2D image or 3D point cloud data in which objects are set to the learning data design device 100, and input/output constituting the annotation device 200 Control data of the device may be transmitted to the learning data design device 100.

여기서, 입출력장치의 제어 데이터는 어노테이션 장치(200)가 2D 이미지 또는 3D 점군 데이터에 대하여 어노테이션 작업을 수행하는 과정에서 사용자가 입출력장치를 제어하기 위하여 입력한 하나 이상의 신호를 시계열적으로 저장한 데이터가 될 수 있다. 여기서, 사용자는 작업자, 수행자, 라벨러 또는 데이터 라벨러 등으로 지칭될 수 있으며, 이에 한정되는 것은 아니다.Here, the control data of the input/output device is data in which one or more signals input by the user to control the input/output device are time-sequentially stored in the process of the annotation device 200 performing an annotation operation on 2D image or 3D point cloud data. It can be. Here, the user may be referred to as a worker, performer, labeler, or data labeler, but is not limited thereto.

예를 들어, 어노테이션 장치(200)가 이벤트-주도 아키텍처(event-driven architecture)에 따른 운영체제(operating system)에 의해 구동되는 경우, 입출력장치의 제어 데이터에 포함된 하나 이상의 신호는 어노테이션 장치(200)의 입출력장치의 제어에 대응하여 운영체제에 의해 생성된 이벤트 메시지(event message)가 될 수 있다. 그리고, 어노테이션 장치(200)는 운영체제에 의해 생성된 이벤트 메시지가 선입선출(first-in first-out) 구조로 저장된 시스템 큐(system queue)를 복제하여 입출력장치의 제어 데이터를 생성할 수도 있다. For example, when the annotation device 200 is driven by an operating system according to an event-driven architecture, one or more signals included in the control data of the input/output device may be sent to the annotation device 200. It may be an event message generated by the operating system in response to the control of the input/output device. Also, the annotation device 200 may generate control data of the input/output device by duplicating a system queue in which event messages generated by the operating system are stored in a first-in-first-out structure.

보다 구체적인 예로, 어노테이션 장치(200)의 운영체제가 윈도우즈(windows)에 해당하는 경우, 입출력장치의 제어 데이터에는 마우스의 왼쪽 버튼 클릭에 대응하여 생성된 WM_LBUUTONDOWN, 키보드의 입력에 대응하여 생성된 WM_KEYDOWN 등의 이벤트 메시지가 포함될 수 있다.As a more specific example, when the operating system of the annotation device 200 corresponds to Windows, the control data of the input/output device includes WM_LBUTONDOWN generated in response to a mouse left button click, WM_KEYDOWN generated in response to a keyboard input, and the like Event messages may be included.

상술한 바와 같은 특징을 가지는, 어노테이션 장치(200)는 학습 데이터 설계 장치(100)와 데이터를 송수신하고, 송수신된 데이터를 기초로 연산을 수행할 수 있는 장치라면 어떠한 장치라도 허용될 수 있다. 예를 들어, 어노테이션 장치(200)는 데스크탑, 워크스테이션 또는 서버와 같은 고정식 컴퓨팅 장치, 또는 스마트폰(smart phone), 랩탑(laptap), 태블릿(tablet), 패블릿(phablet), 휴대용 멀티미디어 재생장치(Portable Multimedia Player, PMP), 개인용 휴대 단말기(Personal Digital Assistants, PDA) 또는 전자책 단말기(E-book reader)과 같은 이동식 컴퓨팅 장치 중 어느 하나가 될 수 있다.The annotation device 200 having the characteristics described above may be any device capable of transmitting and receiving data to and from the learning data design device 100 and performing calculations based on the transmitted and received data. For example, the annotation device 200 may be a stationary computing device such as a desktop, workstation, or server, or a smart phone, laptop, tablet, phablet, or portable multimedia player. (Portable Multimedia Player, PMP), personal digital assistants (PDAs), or e-book readers (E-book reader).

다음 구성으로, 학습 데이터 검증 장치(300)는 인공지능(AI) 학습용 데이터를 검증하는데 사용될 수 있는 장치이다. 즉, 학습 데이터 검증 장치(300)는 어노테이션 장치(200)에 의해 생성된 어노테이션 작업 결과물이 사전에 설정된 목표 품질에 부합하는지 여부, 또는 어노테이션 작업 결과물이 인공지능(AI) 학습에 유효한지 여부를 검증할 수 있는 장치이다.With the following configuration, the learning data verification device 300 is a device that can be used to verify artificial intelligence (AI) learning data. That is, the learning data verification device 300 verifies whether the annotation task result generated by the annotation device 200 meets a pre-set target quality or whether the annotation task result is valid for artificial intelligence (AI) learning. It is a device that can

구체적으로, 학습 데이터 검증 장치(300)는 어노테이션 장치(200)로부터 어노테이션 작업 결과물을 수신할 수 있다. 여기서, 어노테이션 작업 결과물은 3D 점군 데이터 및 2D 이미지들로부터 특정된 객체의 좌표와, 이미지 또는 객체에 대한 메타데이터가 포함될 수 있다. 어노테이션 작업 결과물의 메타데이터에는 특정된 객체의 카테고리(category), 객체가 2D 이미지의 화각에 의해 잘려진 비율(truncation), 객체가 다른 객체 또는 물체에 의해 가려진 비율(occlusion), 객체의 트래킹 아이디(tracking identifier), 이미지가 촬영된 시각, 이미지가 촬영된 날의 기상 조건 등이 포함될 수 있으며, 이에 한정되는 것은 아니다. 이와 같은, 어노테이션 작업 결과물은 JSON(Java Script Object Notation) 파일 형식을 가질 수 있으나, 이에 한정되는 것도 아니다.Specifically, the learning data verification device 300 may receive an annotation job result from the annotation device 200 . Here, the annotation work result may include coordinates of an object specified from 3D point cloud data and 2D images, and metadata about the image or object. The metadata of the annotation work result includes the category of the specified object, the rate at which the object is truncated by the angle of view of the 2D image (truncation), the rate at which the object is occluded by other objects or objects (occlusion), and the tracking ID of the object (tracking). identifier), the time the image was taken, weather conditions on the day the image was taken, etc. may be included, but is not limited thereto. Such an annotation work result may have a JSON (Java Script Object Notation) file format, but is not limited thereto.

학습 데이터 검증 장치(300)는 수신된 어노테이션 작업 결과물을 검수할 수 있다. 이를 위하여, 학습 데이터 검증 장치(300)는 어노테이션 작업 결과물을 대상으로 스크립트(script)를 이용하여 검수를 수행할 수 있다. 여기서, 스크립트는 어노테이션 작업 결과물을 대상으로 사전에 설정된 목표 품질의 부합 여부 또는 데이터 유효성 여부를 검증하기 위한 코드이다.The learning data verification device 300 may inspect the received annotation work result. To this end, the learning data verification device 300 may perform inspection using a script for annotation work results. Here, the script is a code for verifying whether or not the target quality previously set for the annotation work result meets or whether the data is valid.

또한, 학습 데이터 검증 장치(300)는 리뷰어(reviwer)에 의해 직접 검수를 수행하고, 리뷰어로부터 입력 받은 검수 결과를 어노테이션 장치(200)에 전송할 수 있다.In addition, the learning data verification device 300 may directly perform inspection by a reviewer and transmit the inspection result input from the reviewer to the annotation device 200 .

그리고, 학습 데이터 검증 장치(300)는 어노테이션 장치(200)들로부터 수신된 어노테이션 작업 결과물 및 검수 결과를 학습 데이터 설계 장치(100)에 전송할 수 있다.In addition, the learning data verification device 300 may transmit annotation work results and verification results received from the annotation devices 200 to the learning data design device 100 .

특징적으로, 학습 데이터 검증 장치(300)는 인공지능(AI) 학습을 위한 어노테이션 작업 결과물을 수신하고, 어노테이션 작업 결과물의 검증을 수행하고, 검증 수행 결과 부적합으로 판단되는 경우, 부적합 사유에 대하여 사전에 구축된 피드백 풀(feedback pool)에 포함된 피드백 정보 중 판단된 부적합 사유에 해당하는 피드백 정보를 어노테이션 장치(200)에 전송할 수 있다.Characteristically, the learning data verification device 300 receives an annotation task result for artificial intelligence (AI) learning, performs verification of the annotation task result, and when the validation result is determined to be non-conforming, in advance about the cause of non-conformity. Among the feedback information included in the constructed feedback pool, feedback information corresponding to the reason for the determined non-conformity may be transmitted to the annotation device 200 .

한편, 학습 데이터 검증 장치(300)의 구체적인 구성 및 동작에 대해서는 추후 도 5 및 도 6을 참조하여 설명하기로 한다.Meanwhile, the specific configuration and operation of the learning data verification device 300 will be described with reference to FIGS. 5 and 6 later.

상술한 바와 같은 특징을 가지는, 학습 데이터 검증 장치(300)는 어노테이션 장치(200) 및 학습 데이터 설계 장치(100)와 데이터를 송수신하고, 송수신된 데이터를 기초로 연산을 수행할 수 있는 장치라면 어떠한 장치라도 허용될 수 있다. 예를 들어, 학습 데이터 검증 장치(300)는 데스크탑, 워크스테이션 또는 서버와 같은 고정식 컴퓨팅 장치 중 어느 하나가 될 수 있으나, 이에 한정되는 것은 아니다.The learning data verification device 300 having the characteristics described above is any device capable of transmitting and receiving data to and from the annotation device 200 and the learning data design device 100 and performing calculations based on the transmitted and received data. Any device may be acceptable. For example, the learning data verification device 300 may be any one of a fixed computing device such as a desktop, workstation, or server, but is not limited thereto.

다음 구성으로, 인공지능 학습 장치(400)는 인공지능(AI)을 기계 학습하는데 사용될 수 있는 장치이다.With the following configuration, the artificial intelligence learning device 400 is a device that can be used for machine learning of artificial intelligence (AI).

이와 같은, 인공지능 학습 장치(400)는 학습 데이터 설계 장치(100)와 데이터를 송수신하고, 송수신된 데이터를 이용하여 연산을 수행할 수 있는 장치라면 어떠한 장치라도 허용될 수 있다. 예를 들어, 인공지능 학습 장치(400)는 데스크탑, 워크스테이션 또는 서버와 같은 고정식 컴퓨팅 장치 중 어느 하나가 될 수 있으나, 이에 한정되는 것은 아니다.As such, the artificial intelligence learning device 400 may be any device capable of transmitting and receiving data to and from the learning data design device 100 and performing calculations using the transmitted and received data. For example, the artificial intelligence learning device 400 may be any one of a fixed computing device such as a desktop, workstation, or server, but is not limited thereto.

상술한 바와 같은, 학습 데이터 설계 장치(100), 하나 이상의 어노테이션 장치(200), 학습 데이터 검증 장치(300) 및 인공지능 학습 장치(400)는 장치들 사이를 직접 연결하는 보안 회선, 공용 유선 통신망 또는 이동 통신망 중 하나 이상이 조합된 네트워크를 이용하여 데이터를 송수신할 수 있다. As described above, the learning data design device 100, one or more annotation devices 200, the learning data verification device 300, and the artificial intelligence learning device 400 are a security line that directly connects devices, a public wired communication network Alternatively, data may be transmitted and received using a network in which one or more of the mobile communication networks are combined.

예를 들어, 공용 유선 통신망에는 이더넷(ethernet), 디지털가입자선(x Digital Subscriber Line, xDSL), 광동축 혼합망(Hybrid Fiber Coax, HFC), 광가입자망(Fiber To The Home, FTTH)가 포함될 수 있으나, 이에 한정되는 것도 아니다. 그리고, 이동 통신망에는 코드 분할 다중 접속(Code Division Multiple Access, CDMA), 와이드 밴드 코드 분할 다중 접속(Wideband CDMA, WCDMA), 고속 패킷 접속(High Speed Packet Access, HSPA), 롱텀 에볼루션(Long Term Evolution, LTE), 5세대 이동통신(5th generation mobile telecommunication)가 포함될 수 있으나, 이에 한정되는 것은 아니다.For example, public wired communication networks may include Ethernet, x Digital Subscriber Line (xDSL), Hybrid Fiber Coax (HFC), and Fiber To The Home (FTTH). It may be, but is not limited thereto. In addition, in the mobile communication network, Code Division Multiple Access (CDMA), Wideband CDMA (WCDMA), High Speed Packet Access (HSPA), Long Term Evolution, LTE) and 5th generation mobile telecommunication may be included, but is not limited thereto.

도 3은 본 발명의 일 실시예에 따른 학습 데이터 설계 장치의 논리적 구성도이다.3 is a logical configuration diagram of a learning data design device according to an embodiment of the present invention.

도 3에 도시된 바와 같이, 본 발명의 일 실시예에 따른 학습 데이터 설계 장치(100)는 통신부(105), 입출력부(110), 저장부(115), 작업 대상물 수집부(120), 3D 객체 생성부(125), 행동 추정부(130) 및 학습 데이터 생성부(135)를 포함하여 구성될 수 있다.As shown in FIG. 3, the learning data design device 100 according to an embodiment of the present invention includes a communication unit 105, an input/output unit 110, a storage unit 115, a work object collection unit 120, and a 3D It may be configured to include an object generator 125, an action estimator 130, and a learning data generator 135.

이와 같은, 학습 데이터 설계 장치(100)의 구성 요소들은 기능적으로 구분되는 요소들을 나타낸 것에 불과하므로, 둘 이상의 구성 요소가 실제 물리적 환경에서는 서로 통합되어 구현되거나, 하나의 구성 요소가 실제 물리적 환경에서는 서로 분리되어 구현될 수 있을 것이다.Since the components of the learning data design device 100 are merely functionally distinct elements, two or more components are integrated and implemented in an actual physical environment, or one component is mutually exclusive in an actual physical environment. It could be implemented separately.

각각의 구성 요소에 대하여 설명하면, 통신부(105)는 학습 데이터 수집 장치(미도시) 및 학습 데이터 검증 장치(300) 및 인공지능 학습 장치(400)와 데이터를 송수신할 수 있다.Describing each component, the communication unit 105 may transmit/receive data with the learning data collection device (not shown), the learning data verification device 300, and the artificial intelligence learning device 400.

구체적으로, 통신부(105)는 학습 데이터 수집 장치로부터 3D 점군 데이터 및 2D 이미지들을 수신할 수 있다. 통신부(105)는 3D 점군 데이터 및 2D 이미지들을 학습 데이터 수집 장치로부터 개별적으로 수신하거나, 또는 일괄적으로 수신할 수 있다.Specifically, the communication unit 105 may receive 3D point cloud data and 2D images from the learning data collection device. The communication unit 105 may receive 3D point cloud data and 2D images individually or collectively from the learning data collection device.

그리고, 통신부(105)는 학습 데이터를 생성하여 인공지능 학습 장치(400)에 전송할 수 있다.And, the communication unit 105 may generate learning data and transmit it to the artificial intelligence learning device 400 .

다음 구성으로, 입출력부(110)는 사용자 인터페이스(UI)를 통해 사용자로부터 신호를 입력 받거나, 연산 결과를 외부로 출력할 수 있다. 입출력부(110)는 수집된 어노테이션 작업 대상물, 생성된 3D 객체, 3D 객체를 가상 공간에 합성한 학습 데이터 등을 출력할 수 있다.With the following configuration, the input/output unit 110 may receive a signal from a user through a user interface (UI) or output an operation result to the outside. The input/output unit 110 may output collected annotation work objects, generated 3D objects, and learning data obtained by synthesizing 3D objects in a virtual space.

저장부(115)는 통신부(105)를 통해 수신된 3D 점군 데이터 및 2D 이미지들을 저장할 수 있다. 또한, 저장부(115)는 생성된 3D 객체, 3D 객체를 가상 공간에 합성한 학습 데이터 등을 저장할 수 있다.The storage unit 115 may store 3D point cloud data and 2D images received through the communication unit 105 . Also, the storage unit 115 may store generated 3D objects and learning data obtained by synthesizing 3D objects in a virtual space.

다음 구성으로, 작업 대상물 수집부(120)는 통신부(105)를 통해 인공지능(Artificial Intelligence, AI) 학습을 위한 어노테이션(annotation) 작업 대상물을 수집한다.With the following configuration, the work object collection unit 120 collects annotation work objects for artificial intelligence (AI) learning through the communication unit 105 .

여기서, 작업 대상물 수집부(120)는 수집된 2D 이미지들 중 연속된 2D 이미지에서 식별된 객체 사이의 유사도를 산출하고, 산출된 유사도가 사전에 설정된 임계 값보다 낮은 경우, 수집을 중단할 수 있다. 즉, 작업 대상물 수집부(120)는 작업 대상물을 수집하는 과정에서 중복되거나 매우 유사한 작업 대상물을 제거하기 위하여, 연속된 2D 이미지의 유사도를 통해 데이터를 정제할 수 있다.Here, the work object collection unit 120 may calculate a similarity between objects identified in consecutive 2D images among the collected 2D images, and stop collecting when the calculated similarity is lower than a preset threshold. . That is, in the process of collecting work objects, the work object collection unit 120 may refine data through the similarity of consecutive 2D images in order to remove overlapping or very similar work objects.

또한, 작업 대상물 수집부(120)는 수집된 2D 이미지들 중 연속된 2D 이미지에서 식별된 객체 사이의 유사도를 산출하고, 산출된 유사도가 사전에 설정된 임계 값보다 낮은 경우, 유사도 산출 전에 수집된 2D 이미지들과, 유사도 산출 후에 수집된 2D 이미지들을 학습 대상이 서로 다른 이미지로 인식하여 수집할 수 있다. 즉, 작업 대상물 수집부(120)는 연속된 2D 이미지들 중 연속된 2D 이미지의 유사도가 사전에 설정된 임계 값보다 낮은 경우, 학습 대상이 변경된 것으로 인식할 수 있다. 예를 들어, 매장에 위치한 사람의 움직임에 대한 2D 이미지를 수집 중에, 연속된 2D 이미지의 유사도가 설정된 임계 값보다 낮은 경우, 2D 이미지 내의 객체가 다른 사람으로 변경된 것으로 판단하고, 수집을 중단하거나, 별개의 학습 대상으로 인식하여, 학습 대상이 변경된 것으로 기록하거나, 별개의 데이터로 기록할 수 있다.In addition, the work object collection unit 120 calculates a similarity between objects identified in consecutive 2D images among the collected 2D images, and when the calculated similarity is lower than a preset threshold, the 2D collected prior to similarity calculation The images and the 2D images collected after calculating the similarity can be collected by recognizing them as images different from each other. That is, the work object collection unit 120 may recognize that the learning object has been changed when the similarity of the consecutive 2D images among the consecutive 2D images is lower than a preset threshold value. For example, while collecting 2D images of the movement of a person located in a store, if the similarity of successive 2D images is lower than a set threshold, it is determined that the object in the 2D image has changed to another person, and collection is stopped. It can be recognized as a separate learning object and recorded as a changed learning object or recorded as separate data.

이때, 작업 대상물 수집부(120)는 연속된 2D 이미지에서 식별된 객체의 픽셀에 대한 RGB(Red, Green, Blue) 히스토그램을 생성하고, 생성된 RGB 히스토그램을 비교하여 유사도를 산출할 수 있다. 여기서 RGB 히스토그램은 이미지에서 각 원색(RGB)의 밝기 분포를 나타내는 그래프이다. 예를 들어, RGB 히스토그램은 가로축이 컬러의 밝기 레벨을 표시하며, 세로축이 컬러의 밝기 레벨에 할당된 픽셀 수로 표시되고, 좌측으로 치우친 픽셀 수가 많을수록 색상이 어둡고 덜 선명하게 표현되며, 우측으로 치운 친 픽셀 수가 많을수록 색상이 더 밝고 진하게 표현될 수 있다. 이와 같이, 유사도 산출부(115)는 RGB 히스토그램을 통해 연속된 2D 이미지의 색상의 채도와 계조 상태, 화이트 밸런스의 성향 등을 비교하여 유사도를 산출할 수 있다.At this time, the work object collection unit 120 may generate a red, green, blue (RGB) histogram for pixels of objects identified in the continuous 2D image, and calculate a similarity by comparing the generated RGB histograms. Here, the RGB histogram is a graph representing the brightness distribution of each primary color (RGB) in an image. For example, in an RGB histogram, the horizontal axis indicates the brightness level of a color, and the vertical axis indicates the number of pixels allocated to the brightness level of a color. The more pixels there are, the brighter and darker the color can be expressed. As such, the similarity calculation unit 115 may calculate the similarity by comparing color saturation and gradation state, white balance tendency, etc. of consecutive 2D images through the RGB histogram.

또한, 작업 대상물 수집부(120)는 연속된 2D 이미지에서 RGB(Red, Green, Blue)에 따라 세 개의 이미지로 분할하고, 분할된 각 이미지의 엣지를 추출(edge detection)하고, 각 이미지 내에서 추출된 엣지에 의한 폐쇄 영역(enclosure)을 식별한 후, 식별된 폐쇄 영역이 상기 이미지 내에서 차지하고 있는 크기, 위치 또는 형상을 기초로 상기 유사성을 판단할 수 있다.In addition, the work object collection unit 120 divides the continuous 2D image into three images according to RGB (Red, Green, Blue), extracts the edge of each divided image, and After identifying an enclosure by the extracted edge, the similarity may be determined based on the size, position, or shape of the identified enclosure in the image.

또한, 작업 대상물 수집부(120)는 작업 대상물의 수집이 완료되면, 학습 대상이 서로 다른 이미지 그룹(group)에 포함된 이미지 수와 관련한 이미지 그룹별 수집 비율을 산출할 수 있다. 여기서 이미지 그룹별 수집 비율은 학습 데이터에 포함시켜 인공지능 학습 장치(400)의 학습 효율을 높일 수 있다. 예를 들어, 작업 대상물 수집부(120)는 수집된 2D 이미지 내에서 사람 A, 사람 B, 사람 C가 포함된 경우, "사람 A 60%, 사람 B 20%, 사람 C 20%"와 같이, 이미지 그룹별 수집 비율을 함께 기록할 수 있다. 여기서, 이미지 그룹별 수집 비율은 2D 이미지 각각의 메타 데이터로 기록하거나, 별도의 데이터로 기록할 수 있다.In addition, when the collection of work objects is completed, the work object collection unit 120 may calculate a collection ratio for each image group related to the number of images included in different image groups. Here, the collection ratio for each image group may be included in the learning data to increase the learning efficiency of the artificial intelligence learning device 400 . For example, when the work object collection unit 120 includes person A, person B, and person C in the collected 2D image, "person A 60%, person B 20%, person C 20%", The collection rate for each image group can be recorded together. Here, the collection rate for each image group may be recorded as metadata of each 2D image or as separate data.

다음 구성으로, 3D 객체 생성부(125)는 수집한 어노테이션 작업 대상물에서 객체를 식별하여 3D 객체를 생성할 수 있다.With the following configuration, the 3D object creation unit 125 may generate a 3D object by identifying objects from the collected annotation work objects.

구체적으로, 3D 객체 생성부(125)는 2D 이미지에 존재하는 객체 영역을 검출하고, 검출된 객체 영역에 RGB(Red, Green, Blue) 정보를 추출할 수 있다. 이후, 3D 객체 생성부(125)는 3D 점군 데이터 중 객체 영역에 매칭되는 포인트를 추출하고, 포인트 정보와 추출된 RGB 정보를 정합하여 3D 객체를 생성할 수 있다. 이때, 3D 객체 생성부(120)는 포인트 정보를 2D 이미지 좌표 상에 투영하고, 투영된 이미지 좌표와, 추출된 RGB 정보를 기반으로, 포인트 정보와 추출된 RGB 정보를 정합하여 3D 객체를 생성할 수 있다. 여기서, 3D 객체 생성부(125)는 사전에 기계 학습(machine learning)된 인공지능(Artificial Intelligence, AI)을 이용하여, 상기 RGB 정보 및 상기 포인트 정보를 추출하여 정합할 수 있다.Specifically, the 3D object generator 125 may detect an object area existing in the 2D image and extract RGB (Red, Green, Blue) information from the detected object area. Thereafter, the 3D object generator 125 may extract a point matching the object area from among the 3D point cloud data and generate a 3D object by matching the point information with the extracted RGB information. At this time, the 3D object generator 120 projects the point information onto the 2D image coordinates, and generates a 3D object by matching the point information and the extracted RGB information based on the projected image coordinates and the extracted RGB information. can Here, the 3D object generating unit 125 may extract and match the RGB information and the point information using artificial intelligence (AI), which has been machine-learned in advance.

또한, 3D 객체 생성부(125)는 다양한 각도로 배치된 복수의 카메라에 의해 촬영된 2D 이미지인 경우, 사전에 기계학습 된 인공지능을 이용하여, 2D 이미지에 등장하는 3D 객체의 종류를 파악하고, 3D 객체를 관찰하는 복수의 카메라의 자세를 파악한 후에, 파악된 카메라의 자세를 기초로, 3D 객체의 좌표를 추정할 수 있다. 그리고, 3D 객체 생성부(125)는 추정된 3D 객체의 좌표를 3D 객체의 종류, 카메라의 자세 정보와 함께 인공지능 모델을 학습시킬 수 있다.In addition, in the case of 2D images captured by a plurality of cameras arranged at various angles, the 3D object generation unit 125 identifies the type of 3D object appearing in the 2D image by using machine learning artificial intelligence in advance, , After determining the postures of a plurality of cameras observing the 3D object, the coordinates of the 3D object may be estimated based on the recognized postures of the cameras. In addition, the 3D object generator 125 may learn the artificial intelligence model with the coordinates of the estimated 3D object, the type of the 3D object, and the posture information of the camera.

다음 구성으로, 행동 추정부(130)는 3D 객체 생성부(125)에 의해 생성된 3D 객체에 대한 2D 이미지의 복수의 키 포인트를 추출하고, 추출된 키 포인트를 사전에 구축된 인체 자세 모형 데이터 셋에 저장된 인체 자세 모형과 비교하여, 저장된 인체 자세 모형 데이터 셋 중 추출된 키 포인트와 매칭되는 인체 자세 모형을 추출하여 3D 객체의 행동을 추정할 수 있다. 즉, 행동 추정부(130)는 3D 객체의 스켈레톤 데이터를 생성하고, 저장된 스켈레톤 데이터와 비교하여 3D 객체의 행동을 추정할 수 있다.With the following configuration, the action estimator 130 extracts a plurality of key points of the 2D image for the 3D object generated by the 3D object generator 125, and converts the extracted key points into pre-constructed human body posture model data. Compared with the human body posture model stored in the set, the behavior of the 3D object can be estimated by extracting a human body posture model that matches the key point extracted from the stored human body posture model data set. That is, the behavior estimator 130 may generate skeleton data of the 3D object and compare the stored skeleton data to estimate the behavior of the 3D object.

이때, 스켈레톤 데이터는 객체의 체형, 자세 또는 방향 변화의 기준이 되는 지점(예를 들어, 관절 등)의 위치에 대응되는 하나 이상의 키 포인트(key point)를 포함하여 구성될 수 있다. 이와 같은, 스켈레톤 데이터를 구성하는 하나 이상의 키 포인트는 객체의 속성에 따라 그 개수, 연결 관계 및 위치해야 하는 지점 등의 규격이 사전에 정의되어 있다. In this case, the skeleton data may include one or more key points corresponding to positions of points (eg, joints, etc.) that are reference points for changes in body shape, posture, or direction of the object. Specifications such as the number of one or more key points constituting the skeleton data, the number of the key points, the connection relationship, and the position to be located are defined in advance according to the property of the object.

예를 들어, 3차원 인체 자세(3D human pose) 모델에 따른 스켈레톤 데이터의 경우, 인체의 주요 골격에 따라 연결된 16개의 키 포인트로 구성되며, 키 포인트 1은 왼쪽 엉덩이, 키 포인트 2는 왼쪽 무릎, 키 포인트 3은 왼쪽 발, 키 포인트 4는 오른쪽 엉덩이, 키 포인트 5는 오른쪽 무릎, 키 포인트 6은 오른쪽 발, 키 포인트 7은 몸통 중앙, 키 포인트 8은 몸통 상체, 키 포인트 9는 목, 키 포인트 10은 머리 중심, 키 포인트 11은 오른쪽 어깨, 키 포인트 12는 오른쪽 팔꿈치, 키 포인트 13은 오른손, 키 포인트 14는 왼쪽 어깨, 키 포인트 15는 왼쪽 팔꿈치, 키 포인트 16은 왼손으로, 각각의 위치가 사전에 정의되어 있다.For example, in the case of skeleton data based on a 3D human pose model, it consists of 16 key points connected according to the main skeleton of the human body, key point 1 is the left hip, key point 2 is the left knee, Key point 3 is the left foot, key point 4 is the right hip, key point 5 is the right knee, key point 6 is the right foot, key point 7 is the center of the torso, key point 8 is the upper body, key point 9 is the neck, key point 10 is the center of the head, key point 11 is the right shoulder, key point 12 is the right elbow, key point 13 is the right hand, key point 14 is the left shoulder, key point 15 is the left elbow, key point 16 is the left hand, and each position is It is defined in advance.

행동 추정부(130)는 사전에 기계 학습(machine learning)된 인공지능(Artificial Intelligence, AI)을 이용하여, 추출된 키 포인트와 매칭되는 인체 자세 모형을 예측할 수 있다.The action estimator 130 may predict a human body posture model matched with the extracted key points using artificial intelligence (AI) that has been machine-learned in advance.

구체적으로, 행동 추정부(130)는 3D 객체를 사전에 정해진 프레임 단위로 키 포인트를 추출할 수 있다. 이때, 행동 추정부(130)는 ResNet(Residual Network) 모델을 기반으로, 관절 포지션을 예측하고, 예측된 관절 포지션을 인체 골격에 맞도록 연결하여 키 포인트를 추출할 수 있다. 이때, 행동 추정부(130)는 2D 이미지 및 3D 점군 데이터를 기반으로 키 포인트를 추출할 수 있다.In detail, the action estimator 130 may extract key points of the 3D object in units of predetermined frames. In this case, the action estimator 130 may predict a joint position based on a Residual Network (ResNet) model, and extract a key point by connecting the predicted joint position to fit the human skeleton. At this time, the action estimator 130 may extract key points based on the 2D image and 3D point cloud data.

이후, 행동 추정부(130)는 사전에 정해진 프레임 단위로 추출된 키 포인트를 통합하여 통합 키 포인트를 생성할 수 있다. 이때, 행동 추정부(130)는 골격을 트래킹(tracking)하기 위한 전처리 과정을 수행하고, 크기가 다른 2D 이미지를 처리하기 위해 좌표를 조정할 수 있다.Thereafter, the action estimator 130 may generate an integrated key point by integrating key points extracted in predetermined frame units. At this time, the action estimator 130 may perform a preprocessing process for tracking the skeleton and adjust coordinates to process 2D images of different sizes.

이후, 행동 추정부(130)는 추출된 키 포인트를 통합하되, 머리, 눈 및 귀를 포함하는 키 포인트를 제거하고, 목 또는 허벅지에 키 포인트가 없는 경우 해당 프레임을 삭제할 수 있다. 즉, 행동 추정부(130)는 인식에 도움이 되지 않는 키 포인트를 삭제하거나, 불필요한 2D 이미지는 삭제할 수 있다.Thereafter, the action estimator 130 integrates the extracted key points, removes key points including the head, eyes, and ears, and deletes the frame when there is no key point on the neck or thigh. That is, the action estimator 130 may delete key points that are not useful for recognition or delete unnecessary 2D images.

또한, 행동 추정부(130)는 연속된 제1 프레임 및 제2 프레임 사이의 키 포인트를 비교하여, 제2 프레임에 추출된 키 포인트가 누락된 것으로 판단되면, 제1 프레임의 키 포인트를 이용하여 제2 프레임의 키 포인트를 추가할 수 있다. 한편, 누락된 키 포인트를 추가하는 구체적인 내용은 도 12를 참조하여 후술하도록 한다.In addition, the action estimator 130 compares key points between consecutive first frames and second frames, and if it is determined that the key points extracted in the second frame are missing, the action estimator 130 uses the key points of the first frame A key point of the second frame may be added. Meanwhile, details of adding the missing key point will be described later with reference to FIG. 12 .

이후, 행동 추정부(130)는 생성된 통합 키 포인트에서 특징 데이터를 추출할 수 있다. 여기서, 특징 데이터는 윈도우 사이즈(window size), 최상단 키 포인트와 최하단 키 포인트 사이의 높이, 몸체의 속도, 정규화 한 관절 위치, 관절들의 속도, 관절 각도 및 팔과 다리 길이 중 적어도 하나를 포함할 수 있다. 예를 들어, 최상단 키 포인트와 최하단 키 포인트 사이의 높이는 윈도우 사이즈를 기준으로 목에서 허벅지까지의 길이를 의미하며, 모든 특징 데이터를 정규화 하는데 사용될 수 있다. 몸체의 속도는 현재 프레임의 목의 위치에서 이전 프레임의 목의 위치를 기준으로 산출될 수 있다. 관절들의 속도는 현재 프레임의 관절의 위치에서 이전 프레임의 관절의 위치를 기준으로 산출될 수 있다.Thereafter, the action estimator 130 may extract feature data from the generated integrated key point. Here, the feature data may include at least one of a window size, height between the uppermost key point and the lowermost key point, body velocity, normalized joint positions, joint velocities, joint angles, and arm and leg lengths. there is. For example, the height between the uppermost key point and the lowermost key point means the length from the neck to the thigh based on the window size, and can be used to normalize all feature data. The speed of the body may be calculated based on the position of the neck of the previous frame from the position of the neck of the current frame. The velocities of the joints may be calculated based on the joint positions of the previous frame from the positions of the joints of the current frame.

또한, 행동 추정부(130)는 추출된 특징 데이터를 주성분 분석(Principal Component Analysis: PCA)을 이용하여 차원(dimension)을 감소시킬 수 있다. 즉, 행동 추정부(130)는 측정된 특징 데이터들의 선형 조합(linear combination)에 의해 대표적인 주성분을 만들어 차원(dimension)을 줄일 수 있다. 그리고, 행동 추정부(130)는 추출된 특징 데이터를 통해 인공지능을 기계학습 시킬 수 있다. In addition, the action estimator 130 may reduce the dimension of the extracted feature data by using Principal Component Analysis (PCA). That is, the action estimator 130 may reduce the dimension by creating a representative principal component by a linear combination of the measured feature data. In addition, the action estimator 130 may machine-learn artificial intelligence through the extracted feature data.

다음 구성으로, 학습 데이터 생성부(135)는 출력된 인체 자세 모형을 통해 작업 대상물에 대한 프레임 단위로 행동 분류를 수행하고, 행동 분류에 따라 학습 데이터를 생성할 수 있다. 여기서, 학습 데이터 생성부(135)는 행동 분류에 따라 학습 대상이 되는 행동으로 분류된 프레임을 학습 데이터로 생성할 수 있다. 또한, 학습 데이터 생성부(135)는 행동 분류에 따라 분류된 프레임 별로 학습 데이터로 생성하기 위한 프레임 수를 제어할 수 있다. 또한, 학습 데이터 생성부(135)는 생성된 3D 객체를 학습 대상이 되는 가상 공간에 합성하여 학습 데이터를 생성할 수 있다.With the following configuration, the learning data generation unit 135 may perform action classification on a work object in frame units through the output human body posture model, and generate learning data according to the action classification. Here, the learning data generation unit 135 may generate a frame classified as a behavior to be learned as learning data according to the behavior classification. In addition, the learning data generation unit 135 may control the number of frames to be generated as learning data for each frame classified according to the behavior classification. In addition, the learning data generation unit 135 may generate learning data by synthesizing the generated 3D object into a virtual space to be learned.

도 4는 본 발명의 일 실시예에 따른 학습 데이터 설계 장치의 하드웨어 구성도이다.4 is a hardware configuration diagram of a learning data design device according to an embodiment of the present invention.

도 5에 도시된 바와 같이, 학습 데이터 설계 장치(100)는 프로세서(Processor, 150), 메모리(Memory, 155), 송수신기(Transceiver, 160), 입출력장치(Input/output device, 165), 데이터 버스(Bus, 170) 및 스토리지(Storage, 175)를 포함하여 구성될 수 있다. As shown in FIG. 5, the learning data design device 100 includes a processor 150, a memory 155, a transceiver 160, an input/output device 165, and a data bus. (Bus, 170) and storage (Storage, 175) can be configured.

프로세서(150)는 메모리(155)에 상주된 학습 데이터 생성 방법이 구현된 소프트웨어(180a)에 따른 명령어를 기초로, 학습 데이터 설계 장치(100)의 동작 및 기능을 구현할 수 있다. 메모리(155)에는 학습 데이터 생성 방법이 구현된 소프트웨어(180a)가 상주(loading)될 수 있다. 송수신기(160)는 어노테이션 장치(200), 학습 데이터 검증 장치(300) 및 인공지능 학습 장치(400)와 데이터를 송수신할 수 있다. 입출력장치(165)는 학습 데이터 설계 장치(100)의 동작에 필요한 데이터를 입력 받고, 이미지 및 구조 템플릿을 출력할 수 있다. 데이터 버스(170)는 프로세서(150), 메모리(155), 송수신기(160), 입출력장치(165) 및 스토리지(175)와 연결되어, 각각의 구성 요소 사이가 서로 데이터를 전달하기 위한 이동 통로의 역할을 수행할 수 있다.The processor 150 may implement operations and functions of the learning data design device 100 based on instructions according to the software 180a in which the learning data generation method is implemented resident in the memory 155 . Software 180a in which a learning data generation method is implemented may be loaded in the memory 155 . The transceiver 160 may transmit and receive data with the annotation device 200 , the learning data verification device 300 , and the artificial intelligence learning device 400 . The input/output device 165 may receive data necessary for the operation of the learning data design device 100 and output images and structure templates. The data bus 170 is connected to the processor 150, the memory 155, the transceiver 160, the input/output device 165, and the storage 175, and is a movement path for transferring data between each component. role can be fulfilled.

스토리지(175)는 학습 데이터 생성 방법이 구현된 소프트웨어(180a)의 실행을 위해 필요한 애플리케이션 프로그래밍 인터페이스(Application Programming Interface, API), 라이브러리(library) 파일, 리소스(resource) 파일 등을 저장할 수 있다. 스토리지(175)는 학습 데이터 생성 방법이 구현된 소프트웨어(180b)를 저장할 수 있다. 또한, 스토리지(175)는 스켈레톤 데이터 생성 방법의 수행에 필요한 데이터베이스(185)를 저장할 수 있다. 여기서, 데이터베이스(185)에는 객체의 유형별로 규격화된 구조 템플릿들이 포함되어 저장될 수 있으나, 이에 한정되는 것은 아니다.The storage 175 may store an application programming interface (API), a library file, a resource file, etc. necessary for the execution of the software 180a in which the learning data generation method is implemented. The storage 175 may store software 180b in which the learning data generation method is implemented. In addition, the storage 175 may store a database 185 necessary for performing a method of generating skeleton data. Here, the database 185 may include and store standardized structure templates for each type of object, but is not limited thereto.

본 발명의 일 실시예에 따르면, 메모리(155)에 상주되거나 또는 스토리지(175)에 저장된 학습 데이터 생성 방법을 구현하기 위한 소프트웨어(180a, 180b)는 프로세서(150)가 인공지능(Artificial Intelligence, AI) 학습을 위한 어노테이션(annotation) 작업 대상물을 수집하는 단계, 프로세서(150)가, 수집한 어노테이션 작업 대상물에서 객체를 식별하여 3D 객체를 생성하는 단계 및 프로세서(150)가, 생성된 3D 객체를 학습 대상이 되는 가상 공간에 합성하여 학습 데이터를 생성하는 단계를 실행시키기 위하여 기록매체에 기록된 컴퓨터 프로그램이 될 수 있다.According to an embodiment of the present invention, the software 180a, 180b for implementing the method of generating learning data resident in the memory 155 or stored in the storage 175 is provided by the processor 150 using artificial intelligence (AI). ) Collecting annotation work objects for learning, the processor 150 identifying objects from the collected annotation work objects and generating a 3D object, and the processor 150 learning the created 3D object It may be a computer program recorded on a recording medium in order to execute a step of generating learning data by synthesizing in a target virtual space.

또한 본 발명의 일 실시예에 따르면, 메모리(155)에 상주되거나 또는 스토리지(175)에 저장된 행동 추정 방법을 구현하기 위한 소프트웨어(180a, 180b)는 프로세서(150)가, 인공지능(Artificial Intelligence, AI) 학습을 위한 어노테이션(annotation) 작업 대상물을 수집하는 단계, 프로세서(150)가, 수집한 어노테이션 작업 대상물에서 객체를 식별하여 3D 객체를 생성하는 단계 및 프로세서(150)가, 생성된 3D 객체에 대한 2D 이미지의 복수의 키 포인트를 추출하고, 추출된 키 포인트를 사전에 구축된 인체 자세 모형 데이터 셋에 저장된 인체 자세 모형과 비교하여, 저장된 인체 자세 모형 데이터 셋 중 상기 추출된 키 포인트와 매칭되는 인체 자세 모형을 추출하여 3D 객체의 행동을 추정하는 단계를 실행시키기 위하여, 기록매체에 기록된 컴퓨터 프로그램이 될 수 있다.In addition, according to one embodiment of the present invention, the software 180a, 180b for implementing the behavior estimation method resident in the memory 155 or stored in the storage 175 includes the processor 150, artificial intelligence, AI) collecting annotation work objects for learning, the processor 150 identifying objects from the collected annotation work objects and generating a 3D object, and the processor 150 generating a 3D object Extracting a plurality of key points of the 2D image for the 2D image, comparing the extracted key points with human body posture models stored in a pre-constructed human body posture model data set, and matching the extracted key points among the stored human body posture model data sets In order to execute the step of estimating the behavior of the 3D object by extracting the human body posture model, it may be a computer program recorded on a recording medium.

보다 구체적으로, 프로세서(150)는 ASIC(Application-Specific Integrated Circuit), 다른 칩셋(chipset), 논리 회로 및/또는 데이터 처리 장치를 포함할 수 있다. 메모리(155)는 ROM(Read-Only Memory), RAM(Random Access Memory), 플래쉬 메모리, 메모리 카드, 저장 매체 및/또는 다른 저장 장치를 포함할 수 있다. 송수신기(160)는 유무선 신호를 처리하기 위한 베이스밴드 회로를 포함할 수 있다. 입출력장치(165)는 키보드(keyboard), 마우스(mouse), 및/또는 조이스틱(joystick) 등과 같은 입력 장치 및 액정표시장치(Liquid Crystal Display, LCD), 유기 발광 다이오드(Organic LED, OLED) 및/또는 능동형 유기 발광 다이오드(Active Matrix OLED, AMOLED) 등과 같은 영상 출력 장치 프린터(printer), 플로터(plotter) 등과 같은 인쇄 장치를 포함할 수 있다. More specifically, the processor 150 may include an Application-Specific Integrated Circuit (ASIC), another chipset, a logic circuit, and/or a data processing device. The memory 155 may include read-only memory (ROM), random access memory (RAM), flash memory, memory cards, storage media, and/or other storage devices. The transceiver 160 may include a baseband circuit for processing wired/wireless signals. The input/output device 165 includes an input device such as a keyboard, a mouse, and/or a joystick, and a Liquid Crystal Display (LCD), an Organic LED (OLED), and/or a liquid crystal display (LCD). Alternatively, an image output device such as an active matrix OLED (AMOLED) may include a printing device such as a printer or a plotter.

본 명세서에 포함된 실시 예가 소프트웨어로 구현될 경우, 상술한 방법은 상술한 기능을 수행하는 모듈(과정, 기능 등)로 구현될 수 있다. 모듈은 메모리(155)에 상주되고, 프로세서(150)에 의해 실행될 수 있다. 메모리(155)는 프로세서(150)의 내부 또는 외부에 있을 수 있고, 잘 알려진 다양한 수단으로 프로세서(150)와 연결될 수 있다.When the embodiments included in this specification are implemented as software, the above-described method may be implemented as a module (process, function, etc.) that performs the above-described functions. A module may reside in memory 155 and be executed by processor 150 . The memory 155 may be internal or external to the processor 150 and may be connected to the processor 150 by various well-known means.

도 4에 도시된 각 구성요소는 다양한 수단, 예를 들어, 하드웨어, 펌웨어(firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 본 발명의 일 실시예는 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 프로세서, 콘트롤러, 마이크로 콘트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.Each component shown in FIG. 4 may be implemented by various means, eg, hardware, firmware, software, or a combination thereof. In the case of hardware implementation, one embodiment of the present invention includes one or more Application Specific Integrated Circuits (ASICs), Digital Signal Processors (DSPs), Digital Signal Processing Devices (DSPDs), Programmable Logic Devices (PLDs), FPGAs ( Field Programmable Gate Arrays), processors, controllers, microcontrollers, microprocessors, etc.

또한, 펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명의 일 실시예는 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차, 함수 등의 형태로 구현되어, 다양한 컴퓨터 수단을 통하여 판독 가능한 기록매체에 기록될 수 있다. 여기서, 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 이러한, 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.In addition, in the case of implementation by firmware or software, an embodiment of the present invention is implemented in the form of a module, procedure, function, etc. that performs the functions or operations described above, and is stored on a recording medium readable through various computer means. can be recorded. Here, the recording medium may include program commands, data files, data structures, etc. alone or in combination. Program instructions recorded on the recording medium may be those specially designed and configured for the present invention, or those known and usable to those skilled in computer software. For example, recording media include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CD-ROMs (Compact Disk Read Only Memory) and DVDs (Digital Video Disks), floptical It includes hardware devices specially configured to store and execute program instructions, such as magneto-optical media such as a floptical disk, and ROM, RAM, flash memory, and the like. Examples of program instructions may include high-level language codes that can be executed by a computer using an interpreter or the like as well as machine language codes generated by a compiler. These hardware devices may be configured to operate as one or more pieces of software to perform the operations of the present invention, and vice versa.

도 5는 본 발명의 일 실시예에 따른 학습 데이터 검증 장치의 논리적 구성도이다.5 is a logical configuration diagram of an apparatus for verifying learning data according to an embodiment of the present invention.

도 5를 참조하면, 학습 데이터 검증 장치(300)는 통신부(305), 입출력부(310), 저장부(315), 응답 생성부(320), 검증 수행부(325) 및 피드백 생성부(330)를 포함하여 구성될 수 있다.Referring to FIG. 5 , the learning data verification device 300 includes a communication unit 305, an input/output unit 310, a storage unit 315, a response generation unit 320, a verification execution unit 325, and a feedback generation unit 330. ).

이와 같은, 학습 데이터 검증 장치(300)의 구성 요소들은 기능적으로 구분되는 요소들을 나타낸 것에 불과하므로, 둘 이상의 구성 요소가 실제 물리적 환경에서는 서로 통합되어 구현되거나, 하나의 구성 요소가 실제 물리적 환경에서는 서로 분리되어 구현될 수 있을 것이다.Since the components of the learning data verification device 300 are merely functionally distinct elements, two or more components are integrated and implemented in an actual physical environment, or one component is mutually exclusive in an actual physical environment. It could be implemented separately.

각각의 구성 요소에 대하여 설명하면, 통신부(305)는 어노테이션 장치(200) 및 인공지능 학습 장치(400) 중 하나 이상과 데이터를 송수신할 수 있다.Describing each component, the communication unit 305 may transmit/receive data with one or more of the annotation device 200 and the artificial intelligence learning device 400.

구체적으로, 통신부(305)는 어노테이션 장치(200)로부터 어노테이션 작업 결과물을 수신할 수 있다. 여기서, 어노테이션 작업 결과물은 어노테이션 작업의 대상이 된 이미지의 정보, 어노테이션 작업자로부터 입력된 좌표 정보 및 좌표 정보에 의해 특정된 객체의 속성 정보가 포함된 데이터이다. 예를 들어, 어노테이션 작업 결과물은 어노테이션 작업의 대상이 된 이미지의 정보, 어노테이션 작업자로부터 입력된 좌표 정보 및 좌표 정보에 의해 특정된 객체의 속성 정보가 JSON 파일 형식으로 표현된 데이터가 될 수 있다.Specifically, the communication unit 305 may receive annotation work results from the annotation device 200 . Here, the annotation work result is data including information of an image as a target of the annotation work, coordinate information input from an annotation worker, and attribute information of an object specified by the coordinate information. For example, the annotation work result may be data expressed in JSON file format with information of an image as a target of the annotation work, coordinate information input from an annotation worker, and attribute information of an object specified by the coordinate information.

그리고, 통신부(305)는 검증 및 패키징된 어노테이션 작업 결과물을 인공지능 학습 장치(400)에 전송할 수 있다.And, the communication unit 305 may transmit the verified and packaged annotation work result to the artificial intelligence learning device 400 .

다음 구성으로, 입출력부(310)는 사용자 인터페이스(User Interface, UI)를 통해 리뷰어(reviewer)로부터 신호를 입력 받거나, 또는 연산된 결과를 외부로 출력할 수 있다.With the following configuration, the input/output unit 310 may receive a signal from a reviewer through a user interface (UI) or output a calculated result to the outside.

여기서, 리뷰어는 어노테이션 작업 결과물의 검증을 수행하는 자를 의미한다. 이와 같은, 리뷰어는, 검증자, 수행자, 인스펙터(inspector) 등으로 지칭될 수 있으며, 이에 한정되는 것은 아니다.Here, the reviewer means a person who verifies the annotation work result. Such a reviewer may be referred to as a verifier, performer, inspector, etc., but is not limited thereto.

그리고, 입출력부(310)는 검증 결과와 피드백 정보를 어노테이션 장치(200)에 전송할 수 있다. 또한, 입출력부(310)는 어노테이션 작업 결과물을 작업하는 작업자로부터 어노테이션 작업에 대한 질의를 수신하고, 질의에 대한 응답을 어노테이션 장치(200)에 전송할 수 있다.Also, the input/output unit 310 may transmit verification results and feedback information to the annotation device 200 . Also, the input/output unit 310 may receive a query about an annotation job from a worker working on an annotation job result, and transmit a response to the inquiry to the annotation device 200 .

다음 구성으로, 저장부(315)는 부적합 사유에 대하여 사전에 구축된 피드백 풀(feedback pool)을 저장할 수 있다. 여기서, 피드백 풀은 판단된 부적합 사유와 매칭되는 리뷰어의 코멘트 및 작업 이미지 중 적어도 하나를 포함할 수 있다. 또한, 피드백 풀은 부적합 사유에 대한 리뷰어의 코멘트, 작업자로부터 수신한 질의 및 질의에 대한 응답 중 적어도 하나를 포함할 수 있다. 이러한 피드백 정보는 텍스트 또는 이미지 형태로 구성될 수 있다.With the following configuration, the storage unit 315 may store a pre-built feedback pool for non-conformity reasons. Here, the feedback pool may include at least one of a reviewer's comment and a work image that match the determined nonconformity reason. Also, the feedback pool may include at least one of a reviewer's comment on the reason for non-conformity, a question received from a worker, and a response to the question. This feedback information may be configured in text or image form.

다음 구성으로, 응답 생성부(320)는 어노테이션 장치(200)로부터 어노테이션 작업 결과물을 작업하는 작업자로부터 어노테이션 작업에 대한 질의를 수신하고, 저장부(315)에 저장된 피드백 풀에 포함된 피드백 정보를 통해 질의에 대한 응답을 수행할 수 있다.In the following configuration, the response generating unit 320 receives a query on an annotation job from a worker who works on an annotation job result from the annotation device 200, and through feedback information included in a feedback pool stored in the storage unit 315. Can respond to queries.

여기서, 응답 생성부(320)는 자연어 처리(NLP)를 기반으로, 사전에 기계 학습된 인공지능(AI)을 이용하여, 부적합 사유에 대한 리뷰어의 코멘트, 작업자로부터 수신한 질의 및 질의에 대한 응답 중 적어도 하나를 분석하고, 질의에 대한 응답을 생성하여 제공할 수 있다. 이때, 응답 생성부(320)는 텍스트 형태의 응답과 함께, 작업자가 수행하는 어노테이션 작업 결과물과 매칭되는 이미지에 오류 영역을 강조하여 응답을 제공할 수 있다.Here, the response generation unit 320 uses artificial intelligence (AI) that has been machine-learned in advance based on natural language processing (NLP), comments from reviewers on reasons for non-conformance, questions received from operators, and responses to questions. At least one of them may be analyzed, and a response to the query may be generated and provided. In this case, the response generation unit 320 may provide a response by emphasizing an error region in an image matching a result of an annotation work performed by an operator, along with a text-type response.

다음 구성으로, 검증 수행부(330)는 어노테이션 작업 결과물을 리뷰하는 리뷰어(reviewer)로부터 검증 결과와, 검증 결과가 부적합으로 판단된 경우 판단된 부적합 사유에 해당하는 코멘트를 입력 받을 수 있다.With the following configuration, the verification unit 330 may receive a verification result from a reviewer who reviews the annotation work result, and a comment corresponding to the determined non-conformance reason when the verification result is determined to be unsuitable.

여기서, 검증 수행부(330)는 리뷰어로부터 입력 받은 코멘트를 먼저 어노테이션 장치(200)에 전송하여, 코멘트를 참조로 재작성 된 어노테이션 작업 결과물을 수신하고, 재작성 된 어노테이션 작업 결과물에 대한 재검증을 수행할 수 있다.Here, the verification unit 330 first transmits the comments received from the reviewer to the annotation device 200, receives the rewritten annotation work result with reference to the comment, and re-verifies the rewritten annotation work result. can be done

다음 구성으로, 피드백 생성부(330)는 리뷰어로부터 입력 받은 코멘트와 함께 피드백 정보를 전송할 수 있다.With the following configuration, the feedback generation unit 330 may transmit feedback information together with comments received from reviewers.

또한, 피드백 생성부(330)는 리뷰어로부터 입력 받은 코멘트를 기준으로 피드백 풀에 포함된 피드백 정보 중 판단된 부적합 사유에 해당하는 피드백 정보를 추출할 수 있다.In addition, the feedback generation unit 330 may extract feedback information corresponding to the determined non-conformance reason from among feedback information included in the feedback pool based on the comments received from the reviewer.

여기서, 피드백 생성부(330)는 자연어 처리(Natural Language Processing: NLP)를 기반으로, 사전에 기계 학습(machine learning)된 인공지능(Artificial Intelligence, AI)을 이용하여, 부적합 사유를 분석하고, 부적합 사유에 대한 코멘트를 생성하여, 피드백 정보에 포함시킬 수 있다. 하지만 이에 한정된 것은 아니고, 피드백 생성부(330)는 자연어 처리(NLP)를 기반으로, 사전에 기계 학습된 인공지능(AI)을 이용하여, 피드백 풀에 저장된 부적합 사유와 매칭되는 리뷰어의 코멘트 및 작업 이미지 중 적어도 하나를 분석하고, 부적합 사유에 대한 코멘트를 생성하여, 피드백 정보를 포함시킬 수 있다. 이때, 피드백 생성부(330)는 피드백 정보를 챗봇(chatter robot) 형태로 전송할 수 있다.Here, the feedback generation unit 330 analyzes the reason for non-conformity using artificial intelligence (AI), which has been machine-learned in advance, based on natural language processing (NLP), and is non-conforming. A comment on the reason can be created and included in the feedback information. However, it is not limited thereto, and the feedback generating unit 330 is based on natural language processing (NLP) and uses machine-learned artificial intelligence (AI) in advance to match the reviewer's comments and tasks with the reason for non-conformity stored in the feedback pool. Feedback information may be included by analyzing at least one of the images and generating a comment on the reason for non-conformance. At this time, the feedback generating unit 330 may transmit the feedback information in the form of a chatbot (chatter robot).

도 6은 본 발명의 일 실시예에 따른 학습 데이터 검증 장치의 하드웨어 구성도이다.6 is a hardware configuration diagram of an apparatus for verifying learning data according to an embodiment of the present invention.

도 6에 도시된 바와 같이, 학습 데이터 검증 장치(300)는 프로세서(Processor, 350), 메모리(Memory, 355), 송수신기(Transceiver, 360), 입출력장치(Input/output device, 365), 데이터 버스(Bus, 370) 및 스토리지(Storage, 375)를 포함하여 구성될 수 있다. As shown in FIG. 6, the learning data verification device 300 includes a processor 350, a memory 355, a transceiver 360, an input/output device 365, and a data bus. (Bus, 370) and storage (Storage, 375) can be configured.

프로세서(350)는 메모리(355)에 상주된 검증 방법이 구현된 소프트웨어(380a)에 따른 명령어를 기초로, 학습 데이터 검증 장치(300)의 동작 및 기능을 구현할 수 있다. 메모리(355)에는 피드백 방법이 구현된 소프트웨어(380a)가 상주(loading)될 수 있다. 송수신기(360)는 어노테이션 장치(200) 및 인공지능 학습 장치(400)와 데이터를 송수신할 수 있다. 입출력장치(365)는 학습 데이터 검증 장치(300)의 동작에 필요한 데이터, 리뷰어의 검수 코멘트 등을 입력 받고, 피드백 풀에서 추출한 피드백 정보 등을 출력할 수 있다. 데이터 버스(370)는 프로세서(350), 메모리(355), 송수신기(360), 입출력장치(365) 및 스토리지(375)와 연결되어, 각각의 구성 요소 사이가 서로 데이터를 전달하기 위한 이동 통로의 역할을 수행할 수 있다.The processor 350 may implement operations and functions of the learning data verification apparatus 300 based on instructions according to the software 380a in which the verification method resides in the memory 355 . Software 380a implementing the feedback method may be loaded in the memory 355 . The transceiver 360 may transmit and receive data with the annotation device 200 and the artificial intelligence learning device 400 . The input/output device 365 may receive data necessary for the operation of the learning data verification device 300, reviewer comments, and the like, and output feedback information extracted from a feedback pool. The data bus 370 is connected to the processor 350, the memory 355, the transceiver 360, the input/output device 365, and the storage 375, and is a moving path for transferring data between each component. role can be fulfilled.

스토리지(375)는 피드백 방법이 구현된 소프트웨어(380a)의 실행을 위해 필요한 애플리케이션 프로그래밍 인터페이스(Application Programming Interface, API), 라이브러리(library) 파일, 리소스(resource) 파일 등을 저장할 수 있다. 스토리지(375)는 피드백 방법이 구현된 소프트웨어(380b)를 저장할 수 있다. 또한, 스토리지(375)는 피드백 방법의 수행에 필요한 정보들을 저장할 수 있다. 특히, 스토리지(375)는 피드백 풀을 저장하는 데이터베이스(385)를 포함하여 구성될 수 있다.The storage 375 may store an application programming interface (API), a library file, a resource file, and the like required for execution of the software 380a in which the feedback method is implemented. The storage 375 may store software 380b in which the feedback method is implemented. Also, the storage 375 may store information necessary for performing the feedback method. In particular, the storage 375 may be configured to include a database 385 to store the feedback pool.

본 발명의 실시예에 따르면, 메모리(355)에 상주되거나 또는 스토리지(375)에 저장된 피드백 방법을 구현하기 위한 소프트웨어(380a, 380b)는 프로세서(350)가 인공지능(Artificial Intelligence, AI) 학습을 위한 어노테이션(annotation) 작업 결과물을 수신하는 단계, 프로세서(350)가, 어노테이션 작업 결과물의 검증을 수행하는 단계 및 프로세서(350)가, 검증 수행 결과 부적합으로 판단되는 경우, 부적합 사유에 대하여 사전에 구축된 피드백 풀(feedback pool)에 포함된 피드백 정보 중 판단된 부적합 사유에 해당하는 피드백 정보를 전송하는 단계를 실행시키기 위하여, 기록매체에 기록된 컴퓨터 프로그램이 될 수 있다.According to an embodiment of the present invention, the software (380a, 380b) for implementing the feedback method resident in the memory 355 or stored in the storage 375 allows the processor 350 to perform artificial intelligence (AI) learning. Receiving an annotation work result for the process, the processor 350 verifying the annotation work result, and if the processor 350 determines that the validation result is non-conformity, the reason for non-conformity is established in advance. In order to execute the step of transmitting the feedback information corresponding to the reason for the nonconformity determined among the feedback information included in the feedback pool, it may be a computer program recorded on a recording medium.

보다 구체적으로, 프로세서(350)는 ASIC(Application-Specific Integrated Circuit), 다른 칩셋(chipset), 논리 회로 및/또는 데이터 처리 장치를 포함할 수 있다. 메모리(355)는 ROM(Read-Only Memory), RAM(Random Access Memory), 플래쉬 메모리, 메모리 카드, 저장 매체 및/또는 다른 저장 장치를 포함할 수 있다. 송수신기(360)는 유무선 신호를 처리하기 위한 베이스밴드 회로를 포함할 수 있다. 입출력장치(365)는 키보드(keyboard), 마우스(mouse), 및/또는 조이스틱(joystick) 등과 같은 입력 장치 및 액정표시장치(Liquid Crystal Display, LCD), 유기 발광 다이오드(Organic LED, OLED) 및/또는 능동형 유기 발광 다이오드(Active Matrix OLED, AMOLED) 등과 같은 영상 출력 장치 프린터(printer), 플로터(plotter) 등과 같은 인쇄 장치를 포함할 수 있다. More specifically, the processor 350 may include an Application-Specific Integrated Circuit (ASIC), another chipset, a logic circuit, and/or a data processing device. The memory 355 may include read-only memory (ROM), random access memory (RAM), flash memory, a memory card, a storage medium, and/or other storage devices. The transceiver 360 may include a baseband circuit for processing wired/wireless signals. The input/output device 365 includes an input device such as a keyboard, a mouse, and/or a joystick, and a Liquid Crystal Display (LCD), an Organic LED (OLED), and/or a liquid crystal display (LCD). Alternatively, an image output device such as an active matrix OLED (AMOLED) may include a printing device such as a printer or a plotter.

본 명세서에 포함된 실시 예가 소프트웨어로 구현될 경우, 상술한 방법은 상술한 기능을 수행하는 모듈(과정, 기능 등)로 구현될 수 있다. 모듈은 메모리(355)에 상주되고, 프로세서(350)에 의해 실행될 수 있다. 메모리(355)는 프로세서(350)의 내부 또는 외부에 있을 수 있고, 잘 알려진 다양한 수단으로 프로세서(350)와 연결될 수 있다.When the embodiments included in this specification are implemented as software, the above-described method may be implemented as a module (process, function, etc.) that performs the above-described functions. A module may reside in memory 355 and be executed by processor 350 . The memory 355 may be internal or external to the processor 350 and may be connected to the processor 350 by various well-known means.

도 6에 도시된 각 구성요소는 다양한 수단, 예를 들어, 하드웨어, 펌웨어(firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 본 발명의 일 실시예는 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 프로세서, 콘트롤러, 마이크로 콘트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.Each component shown in FIG. 6 may be implemented by various means, for example, hardware, firmware, software, or a combination thereof. In the case of hardware implementation, one embodiment of the present invention includes one or more Application Specific Integrated Circuits (ASICs), Digital Signal Processors (DSPs), Digital Signal Processing Devices (DSPDs), Programmable Logic Devices (PLDs), FPGAs ( Field Programmable Gate Arrays), processors, controllers, microcontrollers, microprocessors, etc.

또한, 펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명의 일 실시예는 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차, 함수 등의 형태로 구현되어, 다양한 컴퓨터 수단을 통하여 판독 가능한 기록매체에 기록될 수 있다. 여기서, 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 이러한, 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.In addition, in the case of implementation by firmware or software, an embodiment of the present invention is implemented in the form of a module, procedure, function, etc. that performs the functions or operations described above, and is stored on a recording medium readable through various computer means. can be recorded. Here, the recording medium may include program commands, data files, data structures, etc. alone or in combination. Program instructions recorded on the recording medium may be those specially designed and configured for the present invention, or those known and usable to those skilled in computer software. For example, recording media include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CD-ROMs (Compact Disk Read Only Memory) and DVDs (Digital Video Disks), floptical It includes hardware devices specially configured to store and execute program instructions, such as magneto-optical media, such as a floptical disk, and ROM, RAM, flash memory, and the like. Examples of program instructions may include high-level language codes that can be executed by a computer using an interpreter or the like as well as machine language codes generated by a compiler. These hardware devices may be configured to operate as one or more pieces of software to perform the operations of the present invention, and vice versa.

도 7은 본 발명의 일 실시예에 따른 학습 데이터 생성 방법을 설명하기 위한 순서도이다.7 is a flowchart illustrating a method for generating learning data according to an embodiment of the present invention.

도 7을 참조하면, 본 발명의 일 실시예에 따른 학습 데이터 설계 장치(100)는 인공지능(Artificial Intelligence, AI) 학습을 위한 어노테이션(annotation) 작업 대상물을 수집한다(S110).Referring to FIG. 7 , the learning data design device 100 according to an embodiment of the present invention collects annotation work objects for artificial intelligence (AI) learning (S110).

여기서, 학습 데이터 설계 장치(100)는 수집된 2D 이미지들 중 연속된 2D 이미지에서 식별된 객체 사이의 유사도를 산출하고, 산출된 유사도가 사전에 설정된 임계 값보다 낮은 경우, 수집을 중단할 수 있다. 즉, 작업 대상물 수집부(120)는 작업 대상물을 수집하는 과정에서 중복되거나 매우 유사한 작업 대상물을 제거하기 위하여, 연속된 2D 이미지의 유사도를 통해 데이터를 정제할 수 있다.Here, the learning data design apparatus 100 calculates a similarity between objects identified in consecutive 2D images among the collected 2D images, and stops collection when the calculated similarity is lower than a preset threshold. . That is, in the process of collecting work objects, the work object collection unit 120 may refine data through the similarity of consecutive 2D images in order to remove overlapping or very similar work objects.

또한, 학습 데이터 설계 장치(100)는 수집된 2D 이미지들 중 연속된 2D 이미지에서 식별된 객체 사이의 유사도를 산출하고, 산출된 유사도가 사전에 설정된 임계 값보다 낮은 경우, 유사도 산출 전에 수집된 2D 이미지들과, 유사도 산출 후에 수집된 2D 이미지들을 학습 대상이 서로 다른 이미지로 인식하여 수집할 수 있다. In addition, the learning data design device 100 calculates the similarity between objects identified in consecutive 2D images among the collected 2D images, and when the calculated similarity is lower than a preset threshold, the 2D data collected before calculating the similarity The images and the 2D images collected after calculating the similarity can be collected by recognizing them as images different from each other.

이때, 학습 데이터 설계 장치(100)는 연속된 2D 이미지에서 식별된 객체의 픽셀에 대한 RGB(Red, Green, Blue) 히스토그램을 생성하고, 생성된 RGB 히스토그램을 비교하여 유사도를 산출할 수 있다. In this case, the learning data design apparatus 100 may generate a red, green, blue (RGB) histogram for pixels of objects identified in the continuous 2D image, and compare the generated RGB histograms to calculate a degree of similarity.

또한, 학습 데이터 설계 장치(100)는 연속된 2D 이미지에서 RGB(Red, Green, Blue)에 따라 세 개의 이미지로 분할하고, 분할된 각 이미지의 엣지를 추출(edge detection)하고, 각 이미지 내에서 추출된 엣지에 의한 폐쇄 영역(enclosure)을 식별한 후, 식별된 폐쇄 영역이 상기 이미지 내에서 차지하고 있는 크기, 위치 또는 형상을 기초로 상기 유사성을 판단할 수 있다.In addition, the learning data design device 100 divides continuous 2D images into three images according to RGB (Red, Green, Blue), extracts edges of each divided image, and within each image After identifying an enclosure by the extracted edge, the similarity may be determined based on the size, position, or shape of the identified enclosure in the image.

또한, 학습 데이터 설계 장치(100)는 작업 대상물의 수집이 완료되면, 학습 대상이 서로 다른 이미지 그룹(group)에 포함된 이미지 수와 관련한 이미지 그룹별 수집 비율을 산출할 수 있다. 여기서 이미지 그룹별 수집 비율은 학습 데이터에 포함시켜 인공지능 학습 장치(400)의 학습 효율을 높일 수 있다In addition, when the collection of work objects is completed, the learning data design device 100 may calculate a collection ratio for each image group related to the number of images included in image groups with different learning objects. Here, the collection ratio for each image group can be included in the learning data to increase the learning efficiency of the artificial intelligence learning device 400.

다음으로, 학습 데이터 설계 장치(100)는 수집한 어노테이션 작업 대상물에서 객체를 식별하여 3D 객체를 생성할 수 있다(S120).Next, the learning data design device 100 may generate a 3D object by identifying objects from the collected annotation work objects (S120).

구체적으로, 학습 데이터 설계 장치(100)는 2D 이미지에 존재하는 객체 영역을 검출하고, 검출된 객체 영역에 RGB(Red, Green, Blue) 정보를 추출할 수 있다. 이후, 학습 데이터 설계 장치(100)는 3D 점군 데이터 중 객체 영역에 매칭되는 포인트를 추출하고, 포인트 정보와 추출된 RGB 정보를 정합하여 3D 객체를 생성할 수 있다. 이때, 학습 데이터 설계 장치(100)는 포인트 정보를 2D 이미지 좌표 상에 투영하고, 투영된 이미지 좌표와, 추출된 RGB 정보를 기반으로, 포인트 정보와 추출된 RGB 정보를 정합하여 3D 객체를 생성할 수 있다. 여기서, 학습 데이터 설계 장치(100)는 사전에 기계 학습(machine learning)된 인공지능(Artificial Intelligence, AI)을 이용하여, 상기 RGB 정보 및 상기 포인트 정보를 추출하여 정합할 수 있다.Specifically, the learning data design apparatus 100 may detect an object area existing in the 2D image and extract RGB (Red, Green, Blue) information from the detected object area. Thereafter, the learning data design apparatus 100 may extract a point matching the object region from among the 3D point cloud data and generate a 3D object by matching the point information with the extracted RGB information. At this time, the learning data design device 100 projects the point information onto the 2D image coordinates and creates a 3D object by matching the point information and the extracted RGB information based on the projected image coordinates and the extracted RGB information. can Here, the learning data design device 100 may extract and match the RGB information and the point information using artificial intelligence (AI) that has been machine-learned in advance.

또한, 학습 데이터 설계 장치(100)는 다양한 각도로 배치된 복수의 카메라에 의해 촬영된 2D 이미지인 경우, 사전에 기계학습 된 인공지능을 이용하여, 2D 이미지에 등장하는 3D 객체의 종류를 파악하고, 3D 객체를 관찰하는 복수의 카메라의 자세를 파악한 후에, 파악된 카메라의 자세를 기초로, 3D 객체의 좌표를 추정할 수 있다. 그리고, 3D 학습 데이터 설계 장치(100)는 추정된 3D 객체의 좌표를 3D 객체의 종류, 카메라의 자세 정보와 함께 인공지능 모델을 학습시킬 수 있다.In addition, in the case of a 2D image taken by a plurality of cameras arranged at various angles, the learning data design device 100 identifies the type of 3D object appearing in the 2D image by using machine learning artificial intelligence in advance, , After determining the postures of a plurality of cameras observing the 3D object, the coordinates of the 3D object may be estimated based on the recognized postures of the cameras. In addition, the 3D learning data design device 100 may learn the artificial intelligence model with the coordinates of the estimated 3D object along with the type of the 3D object and the posture information of the camera.

다음으로, 학습 데이터 설계 장치(100)는 S120 단계에서 생성된 3D 객체에 대한 2D 이미지의 복수의 키 포인트를 추출하고, 추출된 키 포인트를 사전에 구축된 인체 자세 모형 데이터 셋에 저장된 인체 자세 모형과 비교하여, 저장된 인체 자세 모형 데이터 셋 중 추출된 키 포인트와 매칭되는 인체 자세 모형을 추출하여 3D 객체의 행동을 추정할 수 있다.Next, the learning data design device 100 extracts a plurality of key points of the 2D image for the 3D object generated in step S120, and uses the extracted key points as a human body posture model stored in a previously built human body posture model data set. Compared to , the behavior of the 3D object can be estimated by extracting a human body posture model that matches the key point extracted from the stored human body posture model data set.

여기서, 학습 데이터 설계 장치(100)는 사전에 기계 학습(machine learning)된 인공지능(Artificial Intelligence, AI)을 이용하여, 추출된 키 포인트와 매칭되는 인체 자세 모형을 예측할 수 있다. 한편, 인공지능을 기계학습 시키기 위한 내용은 도 8을 참조하여 후술하도록 한다.Here, the learning data design device 100 may predict a human body posture model matched with the extracted key points using artificial intelligence (AI) that has been machine-learned in advance. Meanwhile, information for machine learning of artificial intelligence will be described later with reference to FIG. 8 .

그리고, 학습 데이터 설계 장치(100)는 출력된 인체 자세 모형을 통해 작업 대상물에 대한 프레임 단위로 행동 분류를 수행하고, 행동 분류에 따라 학습 데이터를 생성할 수 있다(S140).Then, the learning data design device 100 may perform action classification on a work object in frame units through the output human body posture model, and generate learning data according to the action classification (S140).

여기서, 학습 데이터 설계 장치(100)는 행동 분류에 따라 학습 대상이 되는 행동으로 분류된 프레임을 학습 데이터로 생성할 수 있다. 또한, 학습 데이터 설계 장치(100)는 행동 분류에 따라 분류된 프레임 별로 학습 데이터로 생성하기 위한 프레임 수를 제어할 수 있다. 또한, 학습 데이터 설계 장치(100)는 생성된 3D 객체를 학습 대상이 되는 가상 공간에 합성하여 학습 데이터를 생성할 수 있다. Here, the learning data design apparatus 100 may generate a frame classified as a behavior to be learned as learning data according to the behavior classification. In addition, the learning data design apparatus 100 may control the number of frames to be generated as learning data for each frame classified according to the behavior classification. In addition, the learning data design apparatus 100 may generate learning data by synthesizing the generated 3D object into a virtual space to be learned.

도 8은 본 발명의 일 실시예에 따른 행동 추정을 위한 기계 학습 방법을 설명하기 위한 순서도이다.8 is a flowchart illustrating a machine learning method for behavior estimation according to an embodiment of the present invention.

도 8을 참조하면, 학습 데이터 설계 장치(100)는 3D 객체를 사전에 정해진 프레임 단위로 키 포인트를 추출할 수 있다(S121). 이때, 학습 데이터 설계 장치(100)는 ResNet(Residual Network) 모델을 기반으로, 관절 포지션을 예측하고, 예측된 관절 포지션을 인체 골격에 맞도록 연결하여 키 포인트를 추출할 수 있다. 이때, 학습 데이터 설계 장치(100)는 2D 이미지 및 3D 점군 데이터를 기반으로 키 포인트를 추출할 수 있다.Referring to FIG. 8 , the learning data design apparatus 100 may extract key points of a 3D object in units of predetermined frames (S121). In this case, the learning data design apparatus 100 may predict joint positions based on a Residual Network (ResNet) model, and extract key points by connecting the predicted joint positions to match the human skeleton. In this case, the learning data design apparatus 100 may extract key points based on the 2D image and 3D point cloud data.

다음으로, 학습 데이터 설계 장치(100)는 사전에 정해진 프레임 단위로 추출된 키 포인트를 통합하여 통합 키 포인트를 생성할 수 있다(S122). 이때, 학습 데이터 설계 장치(100)는 골격을 트래킹(tracking)하기 위한 전처리 과정을 수행하고, 크기가 다른 2D 이미지를 처리하기 위해 좌표를 조정할 수 있다.Next, the learning data design apparatus 100 may generate an integrated key point by integrating key points extracted in units of predetermined frames (S122). At this time, the learning data design apparatus 100 may perform a preprocessing process for tracking the skeleton and adjust coordinates to process 2D images of different sizes.

여기서, 학습 데이터 설계 장치(100)는 추출된 키 포인트를 통합하되, 머리, 눈 및 귀를 포함하는 키 포인트를 제거하고, 목 또는 허벅지에 키 포인트가 없는 경우 해당 프레임을 삭제할 수 있다. 즉, 학습 데이터 설계 장치(100)는 인식에 도움이 되지 않는 키 포인트를 삭제하거나, 불필요한 2D 이미지는 삭제할 수 있다.Here, the learning data design device 100 integrates the extracted key points, removes key points including the head, eyes, and ears, and deletes the frame when there is no key point on the neck or thigh. That is, the learning data design device 100 may delete key points that are not useful for recognition or delete unnecessary 2D images.

또한, 학습 데이터 설계 장치(100)는 연속된 제1 프레임 및 제2 프레임 사이의 키 포인트를 비교하여, 제2 프레임에 추출된 키 포인트가 누락된 것으로 판단되면, 제1 프레임의 키 포인트를 이용하여 제2 프레임의 키 포인트를 추가할 수 있다.In addition, the learning data design apparatus 100 compares key points between consecutive first frames and second frames, and when it is determined that the key points extracted in the second frames are missing, the key points of the first frames are used. Thus, the key point of the second frame can be added.

다음으로, 학습 데이터 설계 장치(100)는 생성된 통합 키 포인트에서 특징 데이터를 추출할 수 있다(S124). 여기서, 특징 데이터는 윈도우 사이즈(window size), 최상단 키 포인트와 최하단 키 포인트 사이의 높이, 몸체의 속도, 정규화 한 관절 위치, 관절들의 속도, 관절 각도 및 팔과 다리 길이 중 적어도 하나를 포함할 수 있다. 예를 들어, 최상단 키 포인트와 최하단 키 포인트 사이의 높이는 윈도우 사이즈를 기준으로 목에서 허벅지까지의 길이를 의미하며, 모든 특징 데이터를 정규화 하는데 사용될 수 있다. 몸체의 속도는 현재 프레임의 목의 위치에서 이전 프레임의 목의 위치를 기준으로 산출될 수 있다. 관절들의 속도는 현재 프레임의 관절의 위치에서 이전 프레임의 관절의 위치를 기준으로 산출될 수 있다.Next, the learning data design device 100 may extract feature data from the generated integrated key point (S124). Here, the feature data may include at least one of a window size, height between the uppermost key point and the lowermost key point, body velocity, normalized joint positions, joint velocities, joint angles, and arm and leg lengths. there is. For example, the height between the uppermost key point and the lowermost key point means the length from the neck to the thigh based on the window size, and can be used to normalize all feature data. The speed of the body may be calculated based on the position of the neck of the previous frame from the position of the neck of the current frame. The velocities of the joints may be calculated based on the joint positions of the previous frame from the positions of the joints of the current frame.

여기서, 학습 데이터 설계 장치(100)는 추출된 특징 데이터를 주성분 분석(Principal Component Analysis: PCA)을 이용하여 차원(dimension)을 감소시킬 수 있다. 즉, 학습 데이터 설계 장치(100)는 측정된 특징 데이터들의 선형 조합(linear combination)에 의해 대표적인 주성분을 만들어 차원(dimension)을 줄일 수 있다.Here, the learning data design device 100 may reduce the dimension of the extracted feature data by using Principal Component Analysis (PCA). That is, the learning data design apparatus 100 may reduce the dimension by creating a representative principal component by linear combination of the measured feature data.

그리고, 학습 데이터 설계 장치(100)는 추출된 특징 데이터를 통해 인공지능을 기계학습 시킬 수 있다(S124).And, the learning data design device 100 may perform artificial intelligence machine learning through the extracted feature data (S124).

도 9는 본 발명의 일 실시예에 따른 피드백 방법을 설명하기 위한 순서도이다.9 is a flowchart for explaining a feedback method according to an embodiment of the present invention.

먼저, 학습 데이터 검증 장치(300)는 어노테이션 장치(200)로부터 어노테이션 작업 결과물을 작업하는 작업자로부터 어노테이션 작업에 대한 질의를 수신할 수 있다(S210).First, the learning data verification apparatus 300 may receive an inquiry about an annotation job from a worker working on an annotation job result from the annotation apparatus 200 (S210).

다음으로, 학습 데이터 검증 장치(300)는 피드백 풀에 포함된 피드백 정보를 통해 질의에 대한 응답을 수행할 수 있다(S220).Next, the learning data verification apparatus 300 may perform a response to the query through the feedback information included in the feedback pool (S220).

여기서, 학습 데이터 검증 장치(300)는 자연어 처리(NLP)를 기반으로, 사전에 기계 학습된 인공지능(AI)을 이용하여, 부적합 사유에 대한 리뷰어의 코멘트, 작업자로부터 수신한 질의 및 질의에 대한 응답 중 적어도 하나를 분석하고, 질의에 대한 응답을 생성하여 제공할 수 있다. 이때, 학습 데이터 설계 장치(100)는 텍스트 형태의 응답과 함께, 작업자가 수행하는 어노테이션 작업 결과물과 매칭되는 이미지에 오류 영역을 강조하여 응답을 제공할 수 있다.Here, the learning data verification device 300 is based on natural language processing (NLP) and uses artificial intelligence (AI) that has been machine-learned in advance to respond to comments from reviewers on reasons for non-conformance, queries received from operators, and queries received from operators. At least one of the responses may be analyzed, and a response to the query may be generated and provided. At this time, the learning data design device 100 may provide a response by emphasizing an error region in an image matching a result of an annotation work performed by an operator along with a response in the form of text.

그리고, 학습 데이터 검증 장치(300)는 생성된 응답을 어노테이션 장치(200)로 전송할 수 있다(S230).And, the learning data verification device 300 may transmit the generated response to the annotation device 200 (S230).

도 10은 본 발명의 다른 실시예에 따른 피드백 방법을 설명하기 위한 순서도이다.10 is a flowchart for explaining a feedback method according to another embodiment of the present invention.

먼저, 학습 데이터 검증 장치(300)는 어노테이션 장치(200)에 의해 어노테이션 작업을 수행하는 작업자로부터 작업 결과물을 수신할 수 있다(S340).First, the learning data verification apparatus 300 may receive a work result from a worker performing an annotation job by the annotation apparatus 200 (S340).

다음으로, 학습 데이터 검증 장치(300)는 S340 단계에서 수신한 작업 결과물에 대한 검증을 수행한다(S340). 즉 학습 데이터 검증 장치(300)는 어노테이션 작업 결과물을 리뷰하는 리뷰어(reviewer)로부터 검증 결과와, 검증 결과가 부적합으로 판단된 경우 판단된 부적합 사유에 해당하는 코멘트를 입력 받을 수 있다.Next, the learning data verification device 300 verifies the work result received in step S340 (S340). That is, the learning data verification apparatus 300 may receive a verification result from a reviewer who reviews the annotation work result and, if the verification result is determined to be unsuitable, a comment corresponding to the determined unsuitable reason.

여기서, 학습 데이터 검증 장치(300)는 리뷰어로부터 입력 받은 코멘트를 먼저 어노테이션 장치(200)에 전송하여, 코멘트를 참조로 재작성 된 어노테이션 작업 결과물을 수신하고, 재작성 된 어노테이션 작업 결과물에 대한 재검증을 수행할 수 있다.Here, the learning data verification device 300 first transmits the comments input from the reviewer to the annotation device 200, receives the rewritten annotation work product with reference to the comment, and re-verifies the rewritten annotation work product. can be performed.

다음으로, 학습 데이터 검증 장치(300)는 S360 단계에서 검증 결과, 작업 대상물이 적합한 경우 적합 결과를 어노테이션 장치(200)를 통해 작업자에게 전송할 수 있다(S370).Next, the learning data verification apparatus 300 may transmit the verification result in step S360, the suitability result when the work object is suitable, to the operator through the annotation apparatus 200 (S370).

여기서, 학습 데이터 검증 장치(300)는 S360 단계에서 검증 결과, 작업 대상물이 부적합한 경우, 피드백 정보를 생성할 수 있다(S380). 즉, 학습 데이터 검증 장치(300)는 자연어 처리(Natural Language Processing: NLP)를 기반으로, 사전에 기계 학습(machine learning)된 인공지능(Artificial Intelligence, AI)을 이용하여, 부적합 사유를 분석하고, 부적합 사유에 대한 코멘트를 생성할 수 있다. 하지만 이에 한정된 것은 아니고, 학습 데이터 검증 장치(300)는 자연어 처리(NLP)를 기반으로, 사전에 기계 학습된 인공지능(AI)을 이용하여, 피드백 풀에 저장된 부적합 사유와 매칭되는 리뷰어의 코멘트 및 작업 이미지 중 적어도 하나를 분석하고, 부적합 사유에 대한 코멘트를 생성하여, 피드백 정보를 포함시킬 수 있다. Here, the learning data verification device 300 may generate feedback information when the verification result in step S360 is that the work object is unsuitable (S380). That is, the learning data verification device 300 analyzes the reason for non-conformity using artificial intelligence (AI), which has been machine-learned in advance, based on natural language processing (NLP), You can create comments about the reason for nonconformity. However, it is not limited thereto, and the learning data verification device 300 is based on natural language processing (NLP), using artificial intelligence (AI) that has been machine-learned in advance, and matches the reviewer's comments and At least one of the work images may be analyzed, a comment on a reason for nonconformity may be generated, and feedback information may be included.

그리고, 학습 데이터 검증 장치(300)는 리뷰어로부터 입력 받은 코멘트와 함께 피드백 정보를 전송할 수 있다(S390). 이때, 학습 데이터 검증 장치(300)는 피드백 정보를 챗봇(chatter robot) 형태로 전송할 수 있다.Then, the learning data verification device 300 may transmit feedback information together with the comments received from the reviewer (S390). At this time, the learning data verification device 300 may transmit the feedback information in the form of a chatter robot.

도 11은 본 발명의 일 실시예에 따라 인공지능(AI) 기계 학습을 위한 데이터를 수집하는 차량을 설명하기 위한 예시도이다.11 is an exemplary diagram for explaining a vehicle collecting data for artificial intelligence (AI) machine learning according to an embodiment of the present invention.

본 발명의 일 실시예에 따른 학습 데이터 설계 장치(100)는 수집한 어노테이션 작업 대상물에서 객체를 식별하여 3D 객체를 생성하고, 생성된 3D 객체를 학습 대상이 되는 가상 공간에 합성하여 학습 데이터를 생성함으로써 학습 효율을 높일 수 있다. 이때, 학습 데이터 설계 장치(100)는 카메라를 통해 획득한 2D 이미지와, 라이다를 통해 획득한 3D 점군 데이터를 통해 3D 객체를 생성할 수 있다.The learning data design device 100 according to an embodiment of the present invention identifies objects from the collected annotation work objects, creates 3D objects, and synthesizes the created 3D objects into a virtual space to be learned to generate learning data This can increase the learning efficiency. At this time, the learning data design apparatus 100 may create a 3D object through a 2D image obtained through a camera and 3D point cloud data obtained through LIDAR.

예를 들어, 도 11에 도시된 바와 같이, 본 발명의 실시예에 따라 인공지능(AI) 기계 학습을 위한 데이터를 수집하는 차량(10)은 라이다(lidar)와 복수 개의 카메라(camera 1, camera 2, camera 3, camera 4, camera 5, camera)가 고정 설치될 수 있다.For example, as shown in FIG. 11 , a vehicle 10 that collects data for artificial intelligence (AI) machine learning according to an embodiment of the present invention includes lidar, a plurality of cameras 1, camera 2, camera 3, camera 4, camera 5, camera) can be fixedly installed.

차량(10)에 고정 설치된 라이다는 레이저 펄스를 발사하고, 차량 주위에 위치하는 객체들에 의해 반사되어 돌아온 빛을 감지하여, 차량 주위에 대한 3차원 영상에 해당하는 3D 점군 데이터를 생성할 수 있다. 따라서, 라이다에 의해 획득된 3D 점군 데이터는 라이다에 의해 3차원 공간으로 발사된 레이저 펄스를 반사시킨 점(point)들의 집합을 포함할 수 있다.A lidar fixed to the vehicle 10 emits a laser pulse, detects light reflected by objects located around the vehicle, and generates 3D point cloud data corresponding to a 3D image of the surroundings of the vehicle. there is. Accordingly, 3D point cloud data obtained by lidar may include a set of points that reflect laser pulses emitted by lidar into a 3-dimensional space.

차량(10)에 고정 설치된 카메라는 차량 주위에 대한 2차원 이미지를 각각 촬영할 수 있다. 도 12에는 차량(10)에 6개의 카메라가 고정 설치된 실시 예가 도시되어 있으나, 본 발명이 6개 보다 적거나 또는 6개 보다 많은 카메라에 의해 촬영된 2D 이미지를 기초로 구현될 수 있음은 본 발명이 속한 기술분야의 통상의 지식을 가진 자에게 자명할 것이다A camera fixedly installed in the vehicle 10 may take two-dimensional images of the surroundings of the vehicle. 12 shows an embodiment in which six cameras are fixedly installed in the vehicle 10, but the present invention can be implemented based on 2D images captured by less than or more than six cameras. It will be obvious to those skilled in the art

도 12는 본 발명의 일 실시예에 따라 키 포인트를 추출하기 위한 과정을 설명하기 위한 예시도이다.12 is an exemplary diagram for explaining a process for extracting a key point according to an embodiment of the present invention.

본 발명의 일 실시예에 따른 학습 데이터 설계 장치(100)는 수집한 어노테이션 작업 대상물에서 객체를 식별하여 3D 객체를 생성하고, 생성된 3D 객체의 행동을 추정하고, 행동에 따라 분류하여 선택적으로 학습 데이터를 생성함으로써 학습 효율을 높일 수 있다.The learning data design device 100 according to an embodiment of the present invention identifies objects from the collected annotation work objects, creates 3D objects, estimates the behavior of the created 3D objects, classifies them according to the behaviors, and selectively learns By generating data, learning efficiency can be increased.

여기서, 학습 데이터 설계 장치(100)는 또한, 행동 추정부(130)는 연속된 제1 프레임 및 제2 프레임 사이의 키 포인트를 비교하여, 제2 프레임에 추출된 키 포인트가 누락된 것으로 판단되면, 제1 프레임의 키 포인트를 이용하여 제2 프레임의 키 포인트를 추가할 수 있다.Here, in the learning data design device 100, the action estimator 130 compares key points between consecutive first frames and second frames and determines that the key points extracted in the second frame are missing. , key points of the second frame may be added using the key points of the first frame.

예를 들어, 도 12에 도시된 바와 같이, 이전 프레임(prev_frame)은 가려진 부분이 없기 때문에 모든 키 포인트(point a)들이 추출된 것을 확인할 수 있다. 그러나, 현재 프레임(curr_frame)은 누락된 키 포인트(point b)가 발생된 것을 확인할 수 있다. 즉, 객체가 사람인 경우, 카메라를 기준으로 옆모습이 촬영되는 경우, 몸통에 의해 팔이 가려지거나, 다리가 서로 교차하는 경우 가려지는 영역이 발생되기 때문에, 가려지는 영역은 키 포인트가 추출되지 않을 수 있다.For example, as shown in FIG. 12 , since the previous frame (prev_frame) has no occluded parts, it can be confirmed that all key points (point a) are extracted. However, it can be confirmed that the missing key point (point b) is generated in the current frame (curr_frame). That is, if the object is a person, if the profile is taken based on the camera, if the arm is covered by the torso or if the legs cross each other, a key point may not be extracted from the covered area. there is.

이에 따라, 학습 데이터 설계 장치(100)는 이전 프레임(prev_frame)의 키 포인트(point a)를 추적하여 가려진 키포인트(point b)를 추정하고, 해당 키 포인트를 현재 프레임(curr_frame)에 추가할 수 있다.Accordingly, the learning data design apparatus 100 may track the key point (point a) of the previous frame (prev_frame), estimate the obscured keypoint (point b), and add the corresponding key point to the current frame (curr_frame). .

도 13은 본 발명의 일 실시예에 따라 피드백 정보를 설명하기 위한 예시도이다.13 is an exemplary diagram for explaining feedback information according to an embodiment of the present invention.

본 발명의 일 실시예에 따른 학습 데이터 검증 장치(300)는 어노테이션한 작업 결과물을 검증하고, 검증 수행 결과 부적합으로 판단되는 경우, 부적합 사유에 대하여 사전에 구축된 피드백 풀(feedback pool)에 포함된 피드백 정보 중 판단된 부적합 사유에 해당하는 피드백 정보를 전송함으로써, 작업자와 리뷰어 간의 소통을 원활이 하여 어노테이션 작업의 정확성을 높일 수 있다.The learning data verification apparatus 300 according to an embodiment of the present invention verifies the annotated work result, and if it is determined to be non-conforming as a result of performing the verification, the feedback pool included in the pre-established feedback pool By transmitting the feedback information corresponding to the reason for the determined nonconformity among the feedback information, it is possible to improve the accuracy of the annotation work by facilitating communication between the operator and the reviewer.

예를 들어, 도 13의 (a)에 도시된 바와 같이, 어노테이션 작업자가 컵(cup)을 객체로 포함하는 작업 대상물에 어노테이션 작업을 수행하는 과정에서, 컵 손잡이를 누락하고 바운딩 박스(bounding box)를 설정한 경우, 학습 데이터 검증 장치(300)는 컵 또는 손잡이 등의 키워드를 기반으로 피드백 풀에서 답변 데이터를 검색하여, 어노테이션 장치(200)에 전송할 수 있다. 이때, 학습 데이터 검증 장치(300)는 텍스트 형태의 설명을 전달하거나, (b)에 도시된 바와 같이 동일한 객체가 포함된 가이드 이미지를 함께 어노테이션 장치(200)에 제공할 수 있다.For example, as shown in (a) of FIG. 13 , in the process of performing an annotation work on a work object including a cup as an object, the annotation operator omits the handle of the cup and creates a bounding box. When is set, the learning data verification device 300 may search for answer data from the feedback pool based on keywords such as cups or handles, and transmit it to the annotation device 200. At this time, the learning data verification device 300 may deliver a description in the form of a text, or may provide the guide image including the same object to the annotation device 200 as shown in (b).

이상과 같이, 본 명세서와 도면에는 본 발명의 바람직한 실시예에 대하여 개시하였으나, 여기에 개시된 실시예 외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다. 또한, 본 명세서와 도면에서 특정 용어들이 사용되었으나, 이는 단지 본 발명의 기술 내용을 쉽게 설명하고 발명의 이해를 돕기 위한 일반적인 의미에서 사용된 것이지, 본 발명의 범위를 한정하고자 하는 것은 아니다. 따라서, 상술한 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적해석에 의해 선정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.As described above, although preferred embodiments of the present invention have been disclosed in the present specification and drawings, it is in the technical field to which the present invention belongs that other modified examples based on the technical spirit of the present invention can be implemented in addition to the embodiments disclosed herein. It is self-evident to those skilled in the art. In addition, although specific terms have been used in the present specification and drawings, they are only used in a general sense to easily explain the technical content of the present invention and help understanding of the present invention, but are not intended to limit the scope of the present invention. Accordingly, the foregoing detailed description should not be construed as limiting in all respects and should be considered illustrative. The scope of the present invention should be selected by reasonable interpretation of the appended claims, and all changes within the equivalent scope of the present invention are included in the scope of the present invention.

학습 데이터 설계 장치: 100 어노테이션 장치: 200
학습 데이터 검증 장치: 300 인공지능 학습 장치: 400
통신부: 105, 305 입출력부: 110, 310
저장부: 115, 315 작업 대상물 수집부: 120
3D 객체 생성부: 125 행동 추정부: 130
학습 데이터 생성부: 135 응답 생성부: 320
검증 수행부: 325 피드백 생성부: 330
Learning data design unit: 100 Annotator unit: 200
Learning data verification device: 300 AI learning device: 400
Communication unit: 105, 305 I/O unit: 110, 310
Storage unit: 115, 315 Work object collection unit: 120
3D object creation unit: 125 behavior estimation unit: 130
Learning data generator: 135 Response generator: 320
Verification Execution Unit: 325 Feedback Generation Unit: 330

Claims (10)

학습 데이터 생성 장치가, 인공지능(Artificial Intelligence, AI) 학습을 위한 어노테이션(annotation) 작업 대상물을 수집하는 단계;
상기 학습 데이터 생성 장치가, 상기 수집한 어노테이션 작업 대상물에서 객체를 식별하여 3D 객체를 생성하는 단계; 및
상기 학습 데이터 생성 장치가, 상기 생성된 3D 객체를 학습 대상이 되는 가상 공간에 합성하여 학습 데이터를 생성하는 단계를 포함하는 것을 특징으로 하며,
상기 수집하는 단계에서
상기 어노테이션 작업 대상물은 카메라(camera)에 의해 촬영된 2D 이미지 및 라이다(Lidar)를 통해 생성된 3D 점군 데이터를 포함하는 것을 특징으로 하고,
상기 수집하는 단계는
수집된 2D 이미지들 중 연속된 2D 이미지에서 식별된 객체 사이의 유사도를 산출하고, 상기 산출된 유사도가 사전에 설정된 임계 값보다 낮은 경우, 유사도 산출 전에 수집된 2D 이미지들과, 유사도 산출 후에 수집된 2D 이미지들을 학습 대상이 서로 다른 이미지로 인식하여 학습 대상이 변경된 것으로 기록하는 것을 특징으로 하며,
학습 데이터를 생성하는 단계에서
상기 어노테이션 작업 대상물은 다양한 각도로 배치된 복수의 카메라에 의해 촬영된 2D 이미지를 포함하고,
상기 3D 객체를 생성하는 단계는
사전에 기계학습된 인공지능을 이용하여 상기 2D 이미지에 등장하는 3D 객체의 종류를 파악하고, 상기 복수의 카메라에 의해 촬영된 2D 이미지와, 상기 복수의 카메라에 대한 자세 정보를 통해 3D 객체를 생성하는 것을 특징으로 하는, 학습 데이터 생성 방법.
Collecting, by a learning data generating device, an annotation work object for artificial intelligence (AI) learning;
generating, by the learning data generation device, a 3D object by identifying an object from the collected annotation work objects; and
Characterized in that the learning data generation device comprises generating learning data by synthesizing the generated 3D object into a virtual space to be learned,
At the stage of collecting
The annotation work object is characterized in that it includes a 2D image captured by a camera and 3D point cloud data generated through Lidar,
The collecting step is
Among the collected 2D images, a similarity between objects identified in consecutive 2D images is calculated, and when the calculated similarity is lower than a preset threshold, the 2D images collected before similarity calculation and the similarity collected after similarity calculation are calculated. It is characterized by recognizing 2D images as images with different learning objects and recording that the learning objects have been changed,
At the stage of generating training data
The annotation work object includes 2D images captured by a plurality of cameras arranged at various angles,
The step of creating the 3D object is
Identifying the type of 3D object appearing in the 2D image using machine learning artificial intelligence in advance, and generating a 3D object through the 2D image captured by the plurality of cameras and the posture information of the plurality of cameras Characterized in that, learning data generation method.
제1 항에 있어서, 상기 수집하는 단계는
수집된 2D 이미지들 중 연속된 2D 이미지에서 식별된 객체 사이의 유사도를 산출하고, 상기 산출된 유사도가 사전에 설정된 임계 값보다 낮은 경우, 수집을 중단하는 것을 특징으로 하는, 학습 데이터 생성 방법.
The method of claim 1, wherein the collecting step
A similarity between objects identified in consecutive 2D images among the collected 2D images is calculated, and the collection is stopped when the calculated similarity is lower than a preset threshold.
제1 항에 있어서, 상기 수집하는 단계는
상기 연속된 2D 이미지에서 식별된 객체의 픽셀에 대한 RGB(Red, Green, Blue) 히스토그램을 생성하고, 생성된 RGB 히스토그램을 비교하여 유사도를 산출하는 것을 특징으로 하는, 학습 데이터 생성 방법.
The method of claim 1, wherein the collecting step
Characterized in that generating a red, green, blue (RGB) histogram for the pixels of the object identified in the continuous 2D image, and calculating a similarity by comparing the generated RGB histogram, learning data generation method.
제1 항에 있어서, 상기 수집하는 단계는
상기 연속된 2D 이미지에서 RGB(Red, Green, Blue)에 따라 세 개의 이미지로 분할하고, 분할된 각 이미지의 엣지를 추출(edge detection)하고, 각 이미지 내에서 추출된 엣지에 의한 폐쇄 영역(enclosure)을 식별한 후, 식별된 폐쇄 영역이 상기 이미지 내에서 차지하고 있는 크기, 위치 또는 형상을 기초로 상기 유사도를 판단하는 것을 특징으로 하는, 학습 데이터 생성 방법.
The method of claim 1, wherein the collecting step
The continuous 2D image is divided into three images according to RGB (Red, Green, Blue), edge detection of each divided image, and enclosure by the edge extracted from each image ), and then determining the similarity based on the size, position, or shape of the identified closed area occupied in the image.
제1 항에 있어서, 상기 수집하는 단계는
상기 작업 대상물의 수집이 완료되면, 학습 대상이 서로 다른 이미지 그룹(group)에 포함된 이미지 수와 관련한 이미지 그룹별 수집 비율을 산출하는 것을 특징으로 하는, 학습 데이터 생성 방법.
The method of claim 1, wherein the collecting step
Characterized in that, when the collection of the work object is completed, a collection ratio for each image group related to the number of images included in different image groups (groups) with learning objects is calculated.
제5 항에 있어서, 상기 학습 데이터를 생성하는 단계는
상기 산출된 이미지 그룹별 수집 비율을 상기 학습 데이터에 포함시키는 것을 특징으로 하는, 학습 데이터 생성 방법.
The method of claim 5, wherein generating the learning data
Characterized in that the calculated collection rate for each image group is included in the learning data, learning data generation method.
제1 항에 있어서, 상기 3D 객체를 생성하는 단계는
상기 2D 이미지에 존재하는 객체 영역을 검출하고, 상기 객체 영역에 대한 RGB(Red, Green, Blue) 정보를 추출하는 단계;
상기 3D 점군 데이터 중 상기 객체 영역에 매칭되는 포인트 정보를 추출하고, 상기 포인트 정보와 상기 추출된 RGB 정보를 정합하는 단계를 포함하는 것을 특징으로 하는, 학습 데이터 생성 방법.
The method of claim 1, wherein generating the 3D object
detecting an object area existing in the 2D image and extracting RGB (Red, Green, Blue) information for the object area;
And extracting point information matching the object region from among the 3D point cloud data, and matching the point information with the extracted RGB information.
메모리(memory);
송수신기(transceiver); 및
상기 메모리에 상주된 명령어를 처리하는 프로세서(processor)를 포함하여 구성된 컴퓨팅 장치와 결합되어,
상기 프로세서가, 인공지능(Artificial Intelligence, AI) 학습을 위한 어노테이션(annotation) 작업 대상물을 수집하는 단계;
상기 프로세서가, 상기 수집한 어노테이션 작업 대상물에서 객체를 식별하여 3D 객체를 생성하는 단계; 및
상기 프로세서가, 생성된 3D 객체를 학습 대상이 되는 가상 공간에 합성하여 학습 데이터를 생성하는 단계를 포함하여 실행시키되,
상기 수집하는 단계에서
상기 어노테이션 작업 대상물은 카메라(camera)에 의해 촬영된 2D 이미지 및 라이다(Lidar)를 통해 생성된 3D 점군 데이터를 포함하는 것을 특징으로 하고,
상기 수집하는 단계는
수집된 2D 이미지들 중 연속된 2D 이미지에서 식별된 객체 사이의 유사도를 산출하고, 상기 산출된 유사도가 사전에 설정된 임계 값보다 낮은 경우, 유사도 산출 전에 수집된 2D 이미지들과, 유사도 산출 후에 수집된 2D 이미지들을 학습 대상이 서로 다른 이미지로 인식하여 학습 대상이 변경된 것으로 기록하는 것을 특징으로 하며,
학습 데이터를 생성하는 단계에서
상기 어노테이션 작업 대상물은 다양한 각도로 배치된 복수의 카메라에 의해 촬영된 2D 이미지를 포함하고,
상기 3D 객체를 생성하는 단계는
사전에 기계학습된 인공지능을 이용하여 상기 2D 이미지에 등장하는 3D 객체의 종류를 파악하고, 상기 복수의 카메라에 의해 촬영된 2D 이미지와, 상기 복수의 카메라에 대한 자세 정보를 통해 3D 객체를 생성하는 것을 특징으로 하는, 기록매체에 기록된 컴퓨터 프로그램.
memory;
transceiver; and
In combination with a computing device configured to include a processor for processing instructions resident in the memory,
Collecting, by the processor, annotation work objects for artificial intelligence (AI) learning;
generating, by the processor, a 3D object by identifying an object from the collected annotation work objects; and
The processor includes the step of synthesizing the created 3D object into a virtual space to be learned to generate learning data,
At the stage of collecting
The annotation work object is characterized in that it includes a 2D image captured by a camera and 3D point cloud data generated through Lidar,
The collecting step is
Among the collected 2D images, a similarity between objects identified in consecutive 2D images is calculated, and when the calculated similarity is lower than a preset threshold, the 2D images collected before similarity calculation and the similarity collected after similarity calculation are calculated. It is characterized by recognizing 2D images as images with different learning objects and recording that the learning objects have been changed,
At the stage of generating training data
The annotation work object includes 2D images captured by a plurality of cameras arranged at various angles,
The step of creating the 3D object is
Identifying the type of 3D object appearing in the 2D image using machine learning artificial intelligence in advance, and generating a 3D object through the 2D image captured by the plurality of cameras and the posture information of the plurality of cameras Characterized in that, a computer program recorded on a recording medium.
제8 항에 있어서, 상기 수집하는 단계는
상기 연속된 2D 이미지에서 식별된 객체의 픽셀에 대한 RGB(Red, Green, Blue) 히스토그램을 생성하고, 생성된 RGB 히스토그램을 비교하여 유사도를 산출하는 것을 특징으로 하는, 기록매체에 기록된 컴퓨터 프로그램.
The method of claim 8, wherein the collecting step
A computer program recorded on a recording medium, characterized in that for generating a red, green, blue (RGB) histogram for the pixels of the object identified in the continuous 2D image, and calculating a similarity by comparing the generated RGB histogram.
제8 항에 있어서, 상기 수집하는 단계는
상기 연속된 2D 이미지에서 RGB(Red, Green, Blue)에 따라 세 개의 이미지로 분할하고, 분할된 각 이미지의 엣지를 추출(edge detection)하고, 각 이미지 내에서 추출된 엣지에 의한 폐쇄 영역(enclosure)을 식별한 후, 식별된 폐쇄 영역이 상기 이미지 내에서 차지하고 있는 크기, 위치 또는 형상을 기초로 상기 유사도를 판단하는 것을 특징으로 하는, 기록매체에 기록된 컴퓨터 프로그램.
The method of claim 8, wherein the collecting step
The continuous 2D image is divided into three images according to RGB (Red, Green, Blue), edge detection of each divided image, and enclosure by the edge extracted from each image ), and then determining the degree of similarity based on the size, position or shape occupied by the identified closed area in the image.
KR1020220019297A 2022-02-15 2022-02-15 Method for generate training data through 3D object recognition and synthesizing into virtual space, and computer program recorded on record-medium for executing method therefor KR102480062B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220019297A KR102480062B1 (en) 2022-02-15 2022-02-15 Method for generate training data through 3D object recognition and synthesizing into virtual space, and computer program recorded on record-medium for executing method therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220019297A KR102480062B1 (en) 2022-02-15 2022-02-15 Method for generate training data through 3D object recognition and synthesizing into virtual space, and computer program recorded on record-medium for executing method therefor

Publications (1)

Publication Number Publication Date
KR102480062B1 true KR102480062B1 (en) 2022-12-23

Family

ID=84536410

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220019297A KR102480062B1 (en) 2022-02-15 2022-02-15 Method for generate training data through 3D object recognition and synthesizing into virtual space, and computer program recorded on record-medium for executing method therefor

Country Status (1)

Country Link
KR (1) KR102480062B1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190096866A (en) * 2019-07-31 2019-08-20 엘지전자 주식회사 A Monitoring Method and Apparatus in the Vehicle, and a 3D Modeling Unit for Generating an Object Detection Mmodel therefor
KR20200042629A (en) 2018-10-16 2020-04-24 주식회사 키센스 Method for generating annotation and image based on touch of mobile device to learn artificial intelligence and apparatus therefor
KR20210090384A (en) * 2020-01-10 2021-07-20 현대모비스 주식회사 Method and Apparatus for Detecting 3D Object Using Camera and Lidar Sensor
KR102313918B1 (en) * 2021-05-14 2021-10-18 주식회사 인피닉 Synchronization method of 3D data and 2D image, and computer program recorded on record-medium for executing method thereof

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200042629A (en) 2018-10-16 2020-04-24 주식회사 키센스 Method for generating annotation and image based on touch of mobile device to learn artificial intelligence and apparatus therefor
KR20190096866A (en) * 2019-07-31 2019-08-20 엘지전자 주식회사 A Monitoring Method and Apparatus in the Vehicle, and a 3D Modeling Unit for Generating an Object Detection Mmodel therefor
KR20210090384A (en) * 2020-01-10 2021-07-20 현대모비스 주식회사 Method and Apparatus for Detecting 3D Object Using Camera and Lidar Sensor
KR102313918B1 (en) * 2021-05-14 2021-10-18 주식회사 인피닉 Synchronization method of 3D data and 2D image, and computer program recorded on record-medium for executing method thereof

Similar Documents

Publication Publication Date Title
US11763550B2 (en) Forming a dataset for fully-supervised learning
Zhang et al. Predicting failures of vision systems
US20220058818A1 (en) Object-centric three-dimensional auto labeling of point cloud data
WO2022001501A1 (en) Data annotation method and apparatus, and computer device and storage medium
KR102389998B1 (en) De-identification processing method and a computer program recorded on a recording medium to execute the same
KR102403169B1 (en) Method for providing guide through image analysis, and computer program recorded on record-medium for executing method therefor
JP7031685B2 (en) Model learning device, model learning method and computer program
CN115797736B (en) Training method, device, equipment and medium for target detection model and target detection method, device, equipment and medium
US10937150B2 (en) Systems and methods of feature correspondence analysis
Patel American sign language detection
KR102310599B1 (en) Method of generating skeleton data of 3D modeling for artificial intelligence learning, and computer program recorded on record-medium for executing method thereof
Yang Enhancing action recognition of construction workers using data-driven scene parsing
Selvam A deep learning framework for surgery action detection
KR102480062B1 (en) Method for generate training data through 3D object recognition and synthesizing into virtual space, and computer program recorded on record-medium for executing method therefor
KR20220060722A (en) Image data labelling apparatus and method thereof
KR102454538B1 (en) Method for behavior estimation using artificial intelligence, and computer program recorded on record-medium for executing method therefor
KR102449322B1 (en) Method for feedback on working with annotations, and computer program recorded on record-medium for executing method therefor
KR102310587B1 (en) Method of generating skeleton data for consecutive images, and computer program recorded on record-medium for executing method thereof
KR102599192B1 (en) Method for object detection, and computer program recorded on record-medium for executing method thereof
KR102403174B1 (en) Method for data purification according to importance, and computer program recorded on record-medium for executing method therefor
KR102485099B1 (en) Method for data purification using meta data, and computer program recorded on record-medium for executing method therefor
KR102395393B1 (en) Method for providing guide through sensing environment analysis, and computer program recorded on record-medium for executing method therefor
KR102599196B1 (en) Method for estimate job cost of work on generating training data, and computer program recorded on record-medium for executing method thereof
KR102658711B1 (en) Method for annotation using boundary designation
KR102546193B1 (en) Method for learning data classification using color information, and computer program recorded on record-medium for executing method thereof

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant