KR20230053278A - Raw data purification method for artificial intelligence learning according to importance evaluation and a computer program recorded on a recording medium to execute the same - Google Patents

Raw data purification method for artificial intelligence learning according to importance evaluation and a computer program recorded on a recording medium to execute the same Download PDF

Info

Publication number
KR20230053278A
KR20230053278A KR1020210136624A KR20210136624A KR20230053278A KR 20230053278 A KR20230053278 A KR 20230053278A KR 1020210136624 A KR1020210136624 A KR 1020210136624A KR 20210136624 A KR20210136624 A KR 20210136624A KR 20230053278 A KR20230053278 A KR 20230053278A
Authority
KR
South Korea
Prior art keywords
data
learning
artificial intelligence
raw data
collection device
Prior art date
Application number
KR1020210136624A
Other languages
Korean (ko)
Inventor
노성운
오승진
Original Assignee
주식회사 인피닉
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 인피닉 filed Critical 주식회사 인피닉
Priority to KR1020210136624A priority Critical patent/KR20230053278A/en
Publication of KR20230053278A publication Critical patent/KR20230053278A/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Abstract

The present invention provides a data cleansing method of a device for collecting data for artificial intelligence (AI) machine learning. The method of the present invention comprises the steps of: allowing a learning data collection device to use a sensor to collect data; allowing the learning data collection device to cleanse the collected data; and allowing the learning data collection device to evaluate the importance of the collected data; and allowing the learning data collection device to transmit the cleansed data to the data collection server. According to the present invention, the cleansing step can be performed by calculating the similarity between an object included in the data and an object subject to AI learning.

Description

중요도 평가에 따른 인공지능 학습을 위한 로우 데이터 정제 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램{Raw data purification method for artificial intelligence learning according to importance evaluation and a computer program recorded on a recording medium to execute the same}Raw data purification method for artificial intelligence learning according to importance evaluation and a computer program recorded on a recording medium to execute the raw data purification method for artificial intelligence learning according to importance evaluation same}

본 발명은 인공지능(Artificial Intelligence, AI) 기계 학습용 데이터의 수집에 관한 것이다. 보다 상세하게는, 인공지능(Artificial Intelligence, AI) 기계 학습용 데이터의 중요도 평가에 따른 인공지능 학습을 위한 로우 데이터 정제 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램에 관한 것이다.The present invention relates to the collection of data for artificial intelligence (AI) machine learning. More specifically, it relates to a method for refining raw data for artificial intelligence learning according to the importance evaluation of data for artificial intelligence (AI) machine learning and a computer program recorded on a recording medium to execute the method.

인공지능(AI)은 인간의 학습능력, 추론능력 및 지각능력 등의 일부 또는 전부를 컴퓨터 프로그램을 이용하여 인공적으로 구현하는 기술을 의미한다. 인공지능(AI)과 관련하여, 기계 학습(machine learning)은 다수의 파라미터로 구성된 모델을 이용하여 주어진 데이터로 파라미터를 최적화하는 학습을 의미한다. 이와 같은, 기계 학습은 학습용 데이터의 형태에서 따라, 지도 학습(supervised learning), 비지도 학습(unsupervised learning) 및 강화 학습(reinforcement learning)으로 구분된다.Artificial intelligence (AI) refers to a technology that artificially implements some or all of human learning abilities, reasoning abilities, and perception abilities using computer programs. In relation to artificial intelligence (AI), machine learning refers to learning to optimize parameters with given data using a model composed of multiple parameters. Such machine learning is classified into supervised learning, unsupervised learning, and reinforcement learning according to the form of learning data.

일반적으로, 인공지능(AI) 학습용 데이터의 설계는 데이터 구조의 설계, 데이터의 수집, 데이터의 정제, 데이터의 가공, 데이터의 확장 및 데이터의 검증 단계로 진행된다.In general, designing data for artificial intelligence (AI) learning proceeds in the steps of data structure design, data collection, data refinement, data processing, data expansion, and data verification.

각각의 단계에서 대하여 보다 구체적으로 설명하면, 데이터 구조의 설계는 온톨로지(ontology) 정의, 분류 체계의 정의 등을 통해 이루어진다. 데이터의 수집은 직접 촬영, 웹 크롤링(web crawling) 또는 협회/전문 단체 등을 통해 데이터를 수집하여 이루어진다. 데이터 정제는 수집된 데이터 내에서 중복 데이터를 제거하고, 개인 정보 등을 비식별화하여 이루어진다. 데이터의 가공은 어노테이션(annotation)을 수행하고, 메타데이터(metadata)를 입력하여 이루어진다. 데이터의 확장은 온톨로지 매핑(mapping)을 수행하고, 필요에 따라 온톨로지를 보완하거나 확장하여 이루어진다. 그리고, 데이터의 검증은 다양한 검증 도구를 활용하여 설정된 목표 품질에 따른 유효성을 검증하여 이루어진다.To describe each step in more detail, data structure design is performed through ontology definition, classification system definition, and the like. Data collection is performed by collecting data through direct filming, web crawling, or associations/professional organizations. Data purification is performed by removing redundant data from collected data and de-identifying personal information. Data processing is performed by performing annotation and inputting metadata. Data extension is performed by performing ontology mapping and supplementing or extending the ontology as needed. In addition, data verification is performed by verifying validity according to the set target quality using various verification tools.

한편, 차량의 자율주행(automatic driving)은 차량 스스로 판단하여 주행할 수 있는 시스템을 의미한다. 이와 같은, 자율주행은 시스템이 주행에 관여하는 정도와 운전차가 차량을 제어하는 정도에 따라 비자동화부터 완전 자동화까지 점진적인 단계로 구분될 수 있다. 일반적으로, 자율주행의 단계는 국제자동차기술자협회(SAE(Society of Automotive Engineers) International)에서 분류한 6단계의 레벨로 구분된다. 국제자동차기술자협회(SAE)가 분류한 6단계에 따르면, 레벨 0단계는 비자동화(no automation), 레벨 1단계는 운전자 보조(driver assistance), 레벨 2단계는 부분 자동화(partial automation), 레벨 3단계는 조건부 자동화(conditional automation), 레벨 4단계는 고도 자동화(high automation), 그리고 레벨 5단계는 완전 자동화(full automation) 단계이다.On the other hand, autonomous driving of a vehicle refers to a system that can judge and drive a vehicle by itself. Such autonomous driving may be classified into gradual stages from non-automation to complete automation according to the degree of involvement of the system in driving and the degree of control of the vehicle by the driver. In general, the level of autonomous driving is divided into six levels classified by the Society of Automotive Engineers (SAE) International. According to the six levels classified by the International Society of Automotive Engineers (SAE), level 0 is no automation, level 1 is driver assistance, level 2 is partial automation, and level 3 The stage is conditional automation, level 4 is high automation, and level 5 is full automation.

차량의 자율주행은 인지(perception), 측위(localization), 경로 계획(path planning) 및 제어(control)의 메커니즘을 통해 수행된다. 현재 여러 기업체들은 자율주행 메커니즘 중에서 인지 및 경로 계획을 인공지능(AI)을 이용하여 구현하기 위해 개발 중에 있다. Autonomous driving of vehicles is performed through mechanisms of perception, localization, path planning, and control. Currently, several companies are developing to implement recognition and path planning among autonomous driving mechanisms using artificial intelligence (AI).

이러한 차량의 자율주행에 사용될 수 있는 인공지능(AI)의 기계 학습에 사용되는 데이터는 차량에 설치된 다양한 종류의 센서들에 의해 수집된다. 예를 들어, 차량의 자율주행에 사용될 수 있는 인공지능(AI)의 기계 학습에 사용되는 데이터들은 차량에 고정 설치된 라이다(lidar), 카메라(camera), 레이더(radar), 초음파 센서(ultrasonic sensor) 및 GPS(Global Positioning System) 등에 의해 획득, 촬영 또는 감지된 데이터들이 될 수 있으며, 이에 한정되는 것도 아니다.Data used for machine learning of artificial intelligence (AI) that can be used for autonomous driving of these vehicles is collected by various types of sensors installed in the vehicle. For example, the data used for machine learning of artificial intelligence (AI) that can be used for autonomous driving of a vehicle is lidar, camera, radar, and ultrasonic sensor fixed to the vehicle. ) and GPS (Global Positioning System), etc., may be acquired, photographed, or sensed data, but are not limited thereto.

그러나, 인공지능(AI)의 기계 학습에 사용하기 위해 차량에 설치된 다양한 종류의 센서들을 이용하여 실시간으로 데이터들을 수집할 경우, 수집된 데이터들의 용량이 기하 급수적으로 커지게 되나 이동통신의 대역폭, 음영 지역 등에 의해 수집된 데이터들을 실시간으로 외부에 전송할 수 없는 어려움이 있다.However, when data is collected in real time using various types of sensors installed in vehicles for use in artificial intelligence (AI) machine learning, the volume of the collected data increases exponentially, but the bandwidth of mobile communication and There is a difficulty in transmitting data collected by region and the like to the outside in real time.

또한, 다양한 센서들에 의해 수집된 데이터 속에는 무의미한 데이터(useless data)가 포함되어 있거나, 또는 개인 정보(personal information)가 포함되어 있을 수 있다. 나아가, 데이터들을 수집하기 위한 다양한 센서들이 설치된 차량과 실제 자율주행을 수행할 차량의 물리적인 조건이 서로 다를 경우, 수집된 데이터들을 이용하여 기계 학습된 인공지능(AI)에 의한 자율주행의 성능을 보장할 수 없다는 한계가 있다.In addition, data collected by various sensors may include useless data or personal information. Furthermore, when the physical conditions of a vehicle equipped with various sensors for collecting data and a vehicle to perform autonomous driving are different, the performance of autonomous driving by machine learning artificial intelligence (AI) can be improved using the collected data. There are limitations that cannot be guaranteed.

데이터 수집 서버는 수많은 raw data에 비식별화, 중복 데이터 제거 등을 수행한 후 어노테이션 서버에 제공한다.The data collection server performs de-identification and redundant data removal on numerous raw data and provides them to the annotation server.

그러나, 데이터 수집 서버가 처리하는 raw data의 중요도는 모두 다 상이하다. 예를 들어, 인공지능 학습에 직접 연관된 객체를 포함하는 image는 중요도가 높을 수 있으나, 어떠한 객체도 포함되지 않은 image는 중요도가 낮을 수 있다.However, the importance of raw data processed by the data collection server is all different. For example, images containing objects directly related to artificial intelligence learning may have high importance, but images without any objects may have low importance.

따라서, 인공지능 학습 목표에 따라 중요도가 상대적으로 낮은 raw data를 정제함으로써 데이터의 효율성을 향상시킬 필요성이 있다.Therefore, there is a need to improve the efficiency of data by refining raw data of relatively low importance according to the AI learning goal.

대한민국 공개특허공보 제10-2020-0042629호, ‘인공지능 학습을 위한 모바일 기기의 터치 기반 어노테이션과 이미지 생성 방법 및 그 장치’, (2020.04.24. 공개)Korean Patent Laid-open Publication No. 10-2020-0042629, ‘Method and apparatus for generating touch-based annotations and images in mobile devices for artificial intelligence learning’, (published on April 24, 2020)

본 발명의 일 목적은 차량의 인공지능(Artificial Intelligence, AI) 기계 학습용 데이터의 중요도 평가에 따른 인공지능 학습을 위한 로우 데이터 정제 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램을 제공하는 것이다.One object of the present invention is to provide a raw data purification method for artificial intelligence learning according to the importance evaluation of data for artificial intelligence (AI) machine learning of a vehicle and a computer program recorded on a recording medium to execute the same.

본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.The technical problems of the present invention are not limited to the technical problems mentioned above, and other technical problems not mentioned will be clearly understood by those skilled in the art from the following description.

상술한 바와 같은 기술적 과제를 달성하기 위하여, 본 발명은 인공지능(Artificial Intelligence, AI)을 기계 학습(machine learning)시키기 위한 데이터 수집 장치의 데이터 정제 방법을 제안한다. 상기 방법은 학습 데이터 수집 장치가, 센서를 이용하여 데이터를 수집하는 단계; 상기 학습 데이터 수집 장치가, 수집된 데이터를 정제하는 단계; 및 상기 학습 데이터 수집 장치가, 상기 수집된 데이터에 대한 중요도를 평가하는 단계; 및 상기 학습 데이터 수집 장치가, 정제된 데이터를 데이터 수집 서버로 전송하는 단계;를 포함할 수 있다.In order to achieve the technical problem as described above, the present invention proposes a data purification method of a data collection device for machine learning (Artificial Intelligence, AI). The method includes the steps of, by a learning data collection device, collecting data using a sensor; refining the collected data by the learning data collection device; and evaluating, by the learning data collection device, importance of the collected data. and transmitting, by the learning data collection device, refined data to a data collection server.

구체적으로, 상기 정제하는 단계는, 상기 데이터에 포함된 객체와 인공지능 학습 대상이 되는 객체의 유사도를 산출하여 수행할 수 있으며, 상기 데이터에 포함된 객체와 인공지능 학습 대상이 되는 객체의 유사도가 threshold 이하인 raw data를 제거하여 정제할 수 있다.Specifically, the step of refining may be performed by calculating the similarity between the object included in the data and the object to be artificial intelligence learning, and the similarity between the object included in the data and the object to be artificial intelligence learning It can be refined by removing raw data below the threshold.

또한, 상기 정제하는 단계는, 상기 학습 데이터 수집 장치가, 상기 raw data의 촬영 시점에 관한 정보를 기초로 인공지능 학습과 관련된 환경과 다른 raw data를 제거하여 정제를 수행할 수 있다.In addition, in the refining, the learning data collection device may perform purification by removing raw data that is different from an environment related to artificial intelligence learning based on information about a capturing time point of the raw data.

그리고 본 발명은 상기 학습 데이터 수집 장치가, 상기 raw data의 수집 시점에 관한 meta data를 기초로, raw data의 정제율을 제어하고, 상기 수집된 meta data를 기초로 raw data가 인공지능 학습에 미치는 영향도를 산출할 수 있다.In the present invention, the learning data collection device controls the refinement rate of raw data based on the meta data related to the collection time of the raw data, and the raw data affects artificial intelligence learning based on the collected meta data. impact can be calculated.

상술한 바와 같은 기술적 과제를 달성하기 위하여, 본 발명은 상술한 바와 같은 정제 방법을 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램을 제안한다. 상기 컴퓨터 프로그램은 메모리(memory); 송수신기(transceiver); 및 상기 메모리에 상주된 명령어를 처리하는 프로세서(processor)를 포함하여 구성된 컴퓨팅 장치와 결합되어, 상기 프로세서가, 센서를 이용하여 데이터를 수집하는 단계; 상기 프로세서가, 수집된 데이터를 정제하는 단계; 및 상기 프로세서가, 상기 수집된 데이터에 대한 중요도를 평가하는 단계; 및 상기 프로세서가, 정제된 데이터를 데이터 수집 서버로 전송하는 단계;를 실행시키기 위하여, 기록매체에 기록된 컴퓨터 프로그램이 될 수 있다.In order to achieve the technical problem as described above, the present invention proposes a computer program recorded on a recording medium to execute the purification method as described above. The computer program may include a memory; transceiver; and a processor configured to process instructions residing in the memory, wherein the processor collects data using a sensor; Step, by the processor, refining the collected data; and evaluating, by the processor, importance of the collected data; and transmitting, by the processor, the refined data to a data collection server; in order to execute the, it may be a computer program recorded on a recording medium.

기타 실시 예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.Details of other embodiments are included in the detailed description and drawings.

본 발명의 실시 예들에 따르면, 학습 데이터 수집 장치는 비식별화 처리 등을 수행하기에 앞서, 중요도가 낮은 raw data를 정제할 수 있으며, 이를 통해 인공지능 학습에 효율이 낮은 데이터를 감소시킬 수 있는 효과가 있다.According to embodiments of the present invention, the learning data collection device can refine raw data of low importance prior to performing de-identification processing, etc., through which data with low efficiency in artificial intelligence learning can be reduced. It works.

특히, 학습 데이터 수집 장치는 raw data에 포함된 object와 인공지능 학습 대상이 되는 object의 유사도를 산출하고, 유사도가 threshold 이하인 raw data를 제거하여 정제를 수행할 수 있다.In particular, the learning data collection device calculates the similarity between an object included in the raw data and an object to be an artificial intelligence learning target, and removes raw data having a similarity below a threshold to perform purification.

또한, 학습 데이터 수집 장치는 raw data의 촬영 시점에 관한 정보(GPS, 기상 정보 등)를 기초로 인공지능 학습과 관련된 환경과 다른 raw data를 제거하여 정제를 수행할 수 있다.In addition, the learning data collection device may perform purification by removing raw data that is different from the environment related to artificial intelligence learning based on information (GPS, weather information, etc.) on the shooting time of the raw data.

본 발명의 효과들은 이상에서 언급한 효과로 제한되지 아니하며, 언급되지 않은 또 다른 효과들은 청구범위의 기재로부터 본 발명이 속한 기술분야의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.The effects of the present invention are not limited to the effects mentioned above, and other effects not mentioned will be clearly understood by those skilled in the art from the description of the claims.

본 명세서에서 사용되는 기술적 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아님을 유의해야 한다. 또한, 본 명세서에서 사용되는 기술적 용어는 본 명세서에서 특별히 다른 의미로 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나, 과도하게 축소된 의미로 해석되지 않아야 한다. 또한, 본 명세서에서 사용되는 기술적인 용어가 본 발명의 사상을 정확하게 표현하지 못하는 잘못된 기술적 용어일 때에는, 당업자가 올바르게 이해할 수 있는 기술적 용어로 대체되어 이해되어야 할 것이다. 또한, 본 발명에서 사용되는 일반적인 용어는 사전에 정의되어 있는 바에 따라, 또는 전후 문맥상에 따라 해석되어야 하며, 과도하게 축소된 의미로 해석되지 않아야 한다.It should be noted that the technical terms used in this specification are only used to describe specific embodiments and are not intended to limit the present invention. In addition, technical terms used in this specification should be interpreted in terms commonly understood by those of ordinary skill in the art to which the present invention belongs, unless specifically defined otherwise in this specification, and are overly inclusive. It should not be interpreted in a positive sense or in an excessively reduced sense. In addition, when the technical terms used in this specification are incorrect technical terms that do not accurately express the spirit of the present invention, they should be replaced with technical terms that those skilled in the art can correctly understand. In addition, general terms used in the present invention should be interpreted as defined in advance or according to context, and should not be interpreted in an excessively reduced sense.

또한, 본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "구성된다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.Also, singular expressions used in this specification include plural expressions unless the context clearly indicates otherwise. In this application, terms such as "consisting of" or "having" should not be construed as necessarily including all of the various components or steps described in the specification, and some of the components or steps are included. It should be construed that it may not be, or may further include additional components or steps.

또한, 본 명세서에서 사용되는 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성 요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다. Also, terms including ordinal numbers such as first and second used in this specification may be used to describe various components, but the components should not be limited by the terms. These terms are only used for the purpose of distinguishing one component from another. For example, a first element may be termed a second element, and similarly, a second element may be termed a first element, without departing from the scope of the present invention.

어떤 구성 요소가 다른 구성 요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성 요소가 존재할 수도 있다. 반면에, 어떤 구성 요소가 다른 구성 요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성 요소가 존재하지 않는 것으로 이해되어야 할 것이다.When a component is referred to as being “connected” or “connected” to another component, it may be directly connected or connected to the other component, but other components may exist in the middle. On the other hand, when a component is referred to as “directly connected” or “directly connected” to another component, it should be understood that no other component exists in the middle.

이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 또한, 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 발명의 사상을 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 발명의 사상이 제한되는 것으로 해석되어서는 아니 됨을 유의해야 한다. 본 발명의 사상은 첨부된 도면 외에 모든 변경, 균등물 내지 대체물에 까지도 확장되는 것으로 해석되어야 한다. Hereinafter, preferred embodiments according to the present invention will be described in detail with reference to the accompanying drawings, but the same or similar components are given the same reference numerals regardless of reference numerals, and redundant description thereof will be omitted. In addition, in describing the present invention, if it is determined that a detailed description of a related known technology may obscure the gist of the present invention, the detailed description will be omitted. In addition, it should be noted that the accompanying drawings are only for easily understanding the spirit of the present invention, and should not be construed as limiting the spirit of the present invention by the accompanying drawings. The spirit of the present invention should be construed as extending to all changes, equivalents or substitutes other than the accompanying drawings.

인공지능 학습을 위해 수집한 데이터는 단순히 몇 개에 불과한 수준이 아닌, 실시간으로 촬영된 매우 많은 수로 구성된다. 이와 같이 수집된 데이터를 학습 데이터 수집 장치가 데이터 수집 서버에 수많은 raw data들을 전송하는데 많은 부담이 존재한다. 또한, 일반적으로 수집 장치는 실시간 촬영을 통해 raw data들을 수집하므로, 수집된 raw data 중에는 서로 유사하여 인공지능 학습 효율이 낮은 데이터들이 포함될 수 있어 데이터 관리의 효율성이 부각된다.The data collected for artificial intelligence learning consists of very large numbers taken in real time, not just a few. There is a lot of burden for the learning data collection device to transmit a lot of raw data to the data collection server for the collected data. In addition, since the collection device generally collects raw data through real-time shooting, among the collected raw data, similar data with low artificial intelligence learning efficiency may be included, thereby highlighting the efficiency of data management.

본 발명의 일 실시예에 따른 인공지능 학습 시스템은 복수의 학습 데이터 수집 장치, 학습 데이터 생성 장치, 복수의 어노테이션 장치 및 인공지능 학습 장치를 포함하여 구성될 수 있다.An artificial intelligence learning system according to an embodiment of the present invention may include a plurality of learning data collection devices, a learning data generating device, a plurality of annotation devices, and an artificial intelligence learning device.

이와 같은, 일 실시예에 따른 인공지능 학습 시스템의 구성 요소들은 기능적으로 구분되는 요소들을 나타낸 것에 불과하므로, 둘 이상의 구성 요소가 실제 물리적 환경에서는 서로 통합되어 구현되거나, 하나의 구성 요소가 실제 물리적 환경에서는 서로 분리되어 구현될 수 있을 것이다.Since the components of the artificial intelligence learning system according to an embodiment are merely functionally distinct elements, two or more components are integrated and implemented in an actual physical environment, or one component is implemented in an actual physical environment. may be implemented separately from each other.

본 발명에 따른 학습 데이터 수집 장치는 차량에 적용되는 것을 기준으로 기술하지만, 차량에 설치되는 것에 한정되지 않으며, 인공지능 학습 데이터를 수집하기 위한 다양한 실시예를 포함하는 개념이다.The learning data collection device according to the present invention is described based on being applied to a vehicle, but is not limited to being installed in a vehicle, and is a concept including various embodiments for collecting artificial intelligence learning data.

각각의 구성 요소에 대하여 설명하면, 학습 데이터 수집 장치는 자율주행에 사용될 수 있는 인공지능(AI)을 기계 학습시키기 위한 데이터를 수집하기 위하여, 차량에 설치된 라이다(lidar), 카메라(camera), 레이더(radar) 및 초음파 센서(ultrasonic sensor) 중 하나 이상으로부터 실시간으로 데이터를 수집하는 장치이다. To describe each component, the learning data collection device collects data for machine learning of artificial intelligence (AI) that can be used for autonomous driving. A device that collects data in real time from one or more of a radar and an ultrasonic sensor.

특징적으로, 본 발명의 다양한 실시예에 따른 학습 데이터 수집 장치는 차량에 서로 다른 높이에 설치되어 동일한 방향을 동시에 실시간으로 촬영하는 복수 개의 카메라들을 효율적으로 제어할 수 있다. 학습 데이터 수집 장치는 수집된 데이터를 학습 데이터 생성 장치에 전송하기 이전에, 수집된 데이터에 포함된 객체를 자동으로 검출하고, 개인 정보를 자동으로 비식별 처리할 수 있다. 또한, 학습 데이터 수집 장치는 수집된 데이터를 학습 데이터 생성 장치와의 통신 품질에 따라 효율적으로 전송할 수 있다.Characteristically, the learning data collection device according to various embodiments of the present invention can efficiently control a plurality of cameras installed at different heights in a vehicle and simultaneously taking pictures in the same direction in real time. The learning data collecting device may automatically detect objects included in the collected data and automatically de-identify personal information before transmitting the collected data to the learning data generating device. In addition, the learning data collecting device can efficiently transmit the collected data according to communication quality with the learning data generating device.

이러한, 학습 데이터 수집 장치의 제어 대상이자, 차량에 설치되어 기계 학습용 데이터를 획득, 촬영 또는 감지하는 센서의 종류에는 라이다(lidar), 카메라(camera), 레이더(radar) 및 초음파 센서(ultrasonic sensor) 중 하나 이상이 포함될 수 있으나, 이에 한정되는 것은 아니다. 또한, 학습 데이터 수집 장치의 제어 대상이자, 차량에 설치되어 기계 학습용 데이터를 획득, 촬영 또는 감지하는 센서는 종류별로 하나씩 구비되는 것으로 한정되지 아니하며, 동일한 종류의 센서라 할지라도 복수 개로 구비될 수 있다.Types of sensors that are controlled by the learning data collection device and are installed in the vehicle to acquire, photograph, or detect machine learning data include lidar, camera, radar, and ultrasonic sensor. ), but may include one or more of them, but is not limited thereto. In addition, sensors that are controlled by the learning data collection device and are installed in the vehicle to acquire, photograph, or detect machine learning data are not limited to being provided one by one for each type, and may be provided in plural even if they are of the same type. .

다음 구성으로, 학습 데이터 생성 장치는 복수의 학습 데이터 수집 장치 각각으로부터 이동통신(mobile communication)을 이용하여 각각의 학습 데이터 수집 장치에 의해 실시간으로 수집된 데이터를 수신하고, 수신된 데이터를 복수의 어노테이션 장치에 분배하고, 각각의 어노테이션 장치로부터 수신된 어노테이션 작업 결과물을 기초로 인공지능(AI)을 기계 학습시키기 위한 데이터를 생성하는 장치이다. With the following configuration, the learning data generating device receives data collected in real time by each learning data collecting device from each of the plurality of learning data collecting devices using mobile communication, and converts the received data into a plurality of annotations. It is a device that distributes to devices and generates data for machine learning of artificial intelligence (AI) based on the annotation work result received from each annotation device.

구체적으로, 학습 데이터 생성 장치는 인공지능 학습 장치로부터 인공지능(AI) 학습과 관련된 프로젝트의 속성을 수신할 수 있다. 학습 데이터 생성 장치는 사용자의 제어 및 수신된 프로젝트의 속성을 기초로, 인공지능(AI) 학습을 위한 데이터 구조의 설계, 수집된 데이터의 정제, 데이터의 가공, 데이터의 확장 및 데이터의 검증을 수행할 수 있다.Specifically, the learning data generating device may receive attributes of a project related to artificial intelligence (AI) learning from the artificial intelligence learning device. The learning data generation device performs data structure design, collected data refinement, data processing, data expansion, and data verification for artificial intelligence (AI) learning, based on the user's control and the attributes of the received project. can do.

우선적으로, 학습 데이터 생성 장치는 인공지능(AI) 학습을 위한 데이터 구조를 설계할 수 있다. 예를 들어, 학습 데이터 생성 장치는 사용자의 제어 및 수신된 프로젝트의 속성을 기초로, 인공지능(AI) 학습을 위한 온톨로지(ontology), 인공지능(AI) 학습을 위한 데이터의 분류 체계를 정의할 수 있다.First of all, the learning data generating device may design a data structure for artificial intelligence (AI) learning. For example, the learning data generating device may define an ontology for artificial intelligence (AI) learning and a classification system of data for artificial intelligence (AI) learning based on the properties of the user's control and the received project. can

학습 데이터 생성 장치는 설계된 데이터 구조를 기초로, 인공지능(AI) 학습을 위한 데이터를 수집할 수 있다. 이를 위하여, 학습 데이터 생성 장치는 학습 데이터 수집 장치로부터 감지 데이터들, 3D 점군 데이터들, 2D 이미지들 및 거리 정보들을 수신할 수 있다. 그러나, 이에 한정되지 아니하고, 학습 데이터 생성 장치는 웹 크롤링(web crawling)을 수행하거나, 또는 외부 기관의 장치로부터 데이터들을 다운로드할 수도 있다.The learning data generating device may collect data for artificial intelligence (AI) learning based on the designed data structure. To this end, the learning data generating device may receive sensing data, 3D point cloud data, 2D images, and distance information from the learning data collecting device. However, it is not limited thereto, and the learning data generating device may perform web crawling or download data from an external organization's device.

학습 데이터 생성 장치는 수집된 감지 데이터들, 3D 점군 데이터들, 2D 이미지들 및 거리 정보들 중에서 중복되거나 또는 극히 유사한 데이터를 제거할 수 있다. 학습 데이터 생성 장치는 학습 데이터 수집 장치가 2D 이미지를 대상으로 자동으로 비식별 처리한 개인 정보가 올바른지 여부를 검증할 수 있다.The learning data generating apparatus may remove redundant or extremely similar data from among the collected sensing data, 3D point cloud data, 2D images, and distance information. The learning data generating device may verify whether the personal information automatically de-identified for the 2D image by the learning data collecting device is correct.

한편, 학습 데이터 생성 장치는 학습 데이터 수집 장치가 수행하는 객체 검출의 자동화를 지원하기 위하여, 다수의 2D 이미지들을 대상으로 기존의 어노테이션 작업의 결과물을 기초로 기계 학습된 객체 검출 인공지능(AI)을 구비할 수 있다. 그리고, 학습 데이터 생성 장치는 객체 검출 인공지능(AI)을 이용하여 객체 검출 규칙을 생성하고, 생성된 객체 검출 규칙을 복수 개의 학습 데이터 수집 장치에 대하여 배포할 수 있다.On the other hand, in order to support the automation of object detection performed by the learning data collection device, the learning data generating device uses object detection artificial intelligence (AI) machine-learned based on the result of an existing annotation task targeting a plurality of 2D images. can be provided In addition, the learning data generating device may generate an object detection rule using object detection artificial intelligence (AI) and distribute the generated object detection rule to a plurality of learning data collection devices.

이 경우, 객체 검출 규칙은 2D 이미지 내에서 식별된 객체를 검증할 수 있도록, 객체의 유형별로 분류된 엣지의 패턴들을 열거한 규칙이 될 수 있다. In this case, the object detection rule may be a rule enumerating edge patterns classified by object type so as to verify the object identified in the 2D image.

학습 데이터 생성 장치는 학습 데이터 수집 장치로부터 객체 검출 규칙에 대한 업데이트 요청을 수신할 수 있다. 이 경우, 업데이트 요청에는 기존의 객체 검출 규칙으로 올바르게 검증하지 못한 2D 이미지, 2D 이미지로부터 식별된 객체의 유형, 식별된 객체에 대하여 추출된 엣지의 패턴이 포함될 수 있으나, 이에 한정되는 것은 아니다. 학습 데이터 생성 장치는 수신된 업데이트 요청을 기초로, 객체 검출 인공지능(AI)의 강화 학습(reinforcement learning)을 수행할 수 있다. 그리고, 학습 데이터 생성 장치는 강화 학습의 결과로 새로운 객체 검출 규칙이 생성된 경우, 새로운 객체 검출 규칙을 복수 개의 학습 데이터 수집 장치들에 대하여 재배포할 수 있다.The learning data generating device may receive an update request for object detection rules from the learning data collecting device. In this case, the update request may include, but is not limited to, a 2D image that has not been properly verified by the existing object detection rule, a type of object identified from the 2D image, and a pattern of an edge extracted for the identified object. The learning data generating device may perform reinforcement learning of object detection artificial intelligence (AI) based on the received update request. Also, when a new object detection rule is generated as a result of reinforcement learning, the learning data generation device may redistribute the new object detection rule to a plurality of learning data collection devices.

한편, 학습 데이터 생성 장치는 수집 및 정제된 감지 데이터들, 3D 점군 데이터들, 2D 이미지들 및 거리 정보들을 복수 개의 어노테이션 장치에 분배하여 전송할 수 있다. 이 경우, 학습 데이터 생성 장치는 어노테이션 장치의 작업자(즉, 라벨러)에 대하여 사전에 할당된 양에 대응하여, 감지 데이터들, 3D 점군 데이터들, 2D 이미지들 및 거리 정보들을 분배할 수 있다.Meanwhile, the learning data generating device may distribute and transmit collected and refined sensing data, 3D point cloud data, 2D images, and distance information to a plurality of annotation devices. In this case, the learning data generating device may distribute sensing data, 3D point cloud data, 2D images, and distance information corresponding to a pre-allocated amount for an operator (ie, labeler) of the annotation device.

학습 데이터 생성 장치는 각각의 어노테이션 장치로부터 어노테이션 작업 결과물을 수신할 수 있다. 학습 데이터 생성 장치는 수신된 어노테이션 작업 결과물을 패키징(packaging)하여 인공지능(AI) 학습용 데이터를 생성할 수 있다. 그리고, 학습 데이터 생성 장치는 생성된 인공지능(AI) 학습용 데이터를 인공지능 학습 장치에 전송할 수 있다. The learning data generating device may receive annotation work results from each annotation device. The learning data generating device may generate artificial intelligence (AI) learning data by packaging the received annotation work result. And, the learning data generating device may transmit the generated artificial intelligence (AI) learning data to the artificial intelligence learning device.

이와 같은 특징을 가지는, 학습 데이터 생성 장치는 학습 데이터 수집 장치, 어노테이션 장치 및 인공지능 학습 장치와 데이터를 송수신하고, 송수신된 데이터를 기초로 연산을 수행할 수 있는 장치라면 어떠한 장치라도 허용될 수 있다. 예를 들어, 학습 데이터 생성 장치는 데스크탑(desktop), 워크스테이션(workstation) 또는 서버(server)와 같은 고정식 컴퓨팅 장치 중 어느 하나가 될 수 있으나, 이에 한정되는 것은 아니다.Any device capable of transmitting and receiving data to and from a learning data collection device, an annotation device, and an artificial intelligence learning device, and performing calculations based on the transmitted and received data may be accepted as the learning data generation device having such characteristics. . For example, the learning data generating device may be any one of a fixed computing device such as a desktop, workstation, or server, but is not limited thereto.

다음 구성으로, 어노테이션 장치는 라이다, 카메라, 레이더 또는 초음파로부터 수집된 데이터를 대상으로, 어노테이션 작업을 수행하는데 사용될 수 있는 장치이다. 즉, 어노테이션 장치는 학습 데이터 생성 장치에 의해 분배된 감지 데이터들, 3D 점군 데이터들, 2D 이미지들 및 거리 정보를 대상으로 어노테이션 작업을 수행하는데 사용될 수 있는 장치이다. With the following configuration, the annotation device is a device that can be used to perform annotation work on data collected from LIDAR, camera, radar, or ultrasound. That is, the annotation device is a device that can be used to perform annotation work on the sensed data distributed by the learning data generating device, 3D point cloud data, 2D images, and distance information.

이와 같은, 어노테이션 장치의 전부 또는 일부는 어노테이션 작업자가 클라우딩 서비스(clouding service)를 통해 어노테이션 작업을 수행하는 장치가 될 수도 있다.All or part of such an annotation device may be a device in which an annotation worker performs annotation work through a clouding service.

구체적으로, 어노테이션 장치는 학습 데이터 생성 장치로부터 수신된 감지 데이터들, 3D 점군 데이터들, 2D 이미지들 및 거리 정보들 중에서 어노테이션 작업 대상이 되는 하나의 감지 데이터, 3D 점군 데이터, 2D 이미지 또는 거리 정보를 디스플레이에 출력할 수 있다. Specifically, the annotation device selects one sensed data, 3D point cloud data, 2D image, or distance information to be annotated from among the sensed data, 3D point cloud data, 2D images, and distance information received from the learning data generating device. can be output to the display.

어노테이션 장치는 입출력장치를 통해 사용자로부터 입력된 신호에 따라 툴(tool)을 선택할 수 있다. 여기서, 툴은 감지 데이터, 3D 점군 데이터, 2D 이미지 또는 거리 정보 속에 포함되어 있는 하나 이상의 객체(object)를 특정하는 바운딩 박스를 설정하기 위한 도구이다. The annotation device may select a tool according to a signal input from a user through an input/output device. Here, the tool is a tool for setting a bounding box specifying one or more objects included in sensing data, 3D point cloud data, 2D image, or distance information.

어노테이션 장치는 입출력장치를 통해 선택된 툴에 따른 좌표를 입력 받을 수 있다. 그리고, 어노테이션 장치는 입력된 좌표를 기초로 바운딩 박스(bounding box)를 설정하여, 감지 데이터, 3D 점군 데이터, 2D 이미지 또는 거리 정보 속에 포함된 객체를 특정할 수 있다. The annotation device may receive coordinates according to the selected tool through an input/output device. In addition, the annotation device may specify an object included in sensing data, 3D point cloud data, 2D image, or distance information by setting a bounding box based on the input coordinates.

여기서, 바운딩 박스는 감지 데이터, 3D 점군 데이터, 2D 이미지 또는 거리 정보 속에 포함된 객체들 중에서 인공지능(AI) 학습의 대상이 되는 객체를 특정하기 위한 영역이다. 이와 같은, 바운딩 박스는 사각형(rectangle) 또는 정육면체(cube)의 형상을 가질 수 있으며, 이에 한정되는 것은 아니다.Here, the bounding box is an area for specifying an object to be learned by artificial intelligence (AI) among objects included in sensing data, 3D point cloud data, 2D image, or distance information. Such a bounding box may have a rectangle or cube shape, but is not limited thereto.

어노테이션 장치는 입출력장치를 통해 사용자로부터 입력된 신호에 따라, 어노테이션 작업의 대상이 되는 감지 데이터, 3D 점군 데이터, 2D 이미지, 거리 정보, 또는 설정된 객체에 대한 메타데이터(metadata)를 생성할 수 있다. 여기서, 메타데이터는 감지 데이터, 3D 점군 데이터, 2D 이미지, 거리 정보, 또는 객체를 설명하기 위한 데이터이다. 이와 같은, 메타데이터에는 특정된 객체의 카테고리, 객체가 화각에 의해 잘려진 비율, 객체가 다른 객체 또는 물체에 의해 가려진 비율, 객체의 트래킹 아이디, 이미지가 촬영된 시각, 이미지가 촬영된 날의 기상 조건 등이 포함될 수 있으며, 이에 한정되지 아니하고, 파일 크기, 이미지 크기, 저작권자, 해상도, 비트 값, 조리개 투과량, 노출 시간, ISO 감도, 초점 거리, 조리개 개방 수치, 화각, 화이트 밸런스, RGB 깊이, 클래스 명, 태그, 촬영 장소, 도로의 유형, 도로 표면 정보 또는 교통 체증 정보가 더 포함될 수도 있다.The annotation device may generate sensing data, 3D point cloud data, 2D image, distance information, or metadata for a set object to be annotated according to a signal input from a user through an input/output device. Here, the metadata is sensing data, 3D point cloud data, 2D image, distance information, or data for describing an object. Such metadata includes the category of the specified object, the rate at which the object is clipped by the angle of view, the rate at which the object is obscured by other objects or objects, the tracking ID of the object, the time the image was taken, and the weather conditions on the day the image was taken. may include, but are not limited to, file size, image size, copyright holder, resolution, bit value, aperture transmittance, exposure time, ISO sensitivity, focal length, aperture value, angle of view, white balance, RGB depth, class name , tag, shooting location, type of road, road surface information, or traffic jam information may be further included.

어노테이션 장치는 특정된 객체와 생성된 메타데이터를 기초로, 어노테이션 작업 결과물을 생성할 수 있다. 이 경우, 어노테이션 작업 결과물을 JSON(Java Script Object Notation) 파일 형식을 가질 수 있으나, 이에 한정되는 것은 아니다. 어노테이션 장치는 생성된 어노테이션 작업 결과물을 학습 데이터 생성 장치에 전송할 수 있다. The annotation device may generate an annotation work result based on the specified object and generated metadata. In this case, the annotation work result may have a JSON (Java Script Object Notation) file format, but is not limited thereto. The annotation device may transmit the generated annotation work result to the learning data generating device.

이와 같은 특징을 가지는, 어노테이션 장치는 학습 데이터 생성 장치와 데이터를 송수신하고, 송수신된 데이터를 기초로 연산을 수행할 수 있는 장치라면 어떠한 장치라도 허용될 수 있다. 예를 들어, 어노테이션 장치는 데스크탑(desktop), 워크스테이션(workstation) 또는 서버(server)와 같은 고정식 컴퓨팅 장치, 또는 스마트폰(smart phone), 랩탑(laptop), 태블릿(tablet), 패블릿(phablet), 휴대용 멀티미디어 재생장치(Portable Multimedia Player, PMP), 개인용 휴대 단말기(Personal Digital Assistants, PDA) 또는 전자책 단말기(E-book reader)과 같은 이동식 컴퓨팅 장치 중 어느 하나가 될 수 있다.As the annotation device having such characteristics, any device may be accepted as long as it is capable of transmitting and receiving data to and from the learning data generating device and performing calculations based on the transmitted and received data. For example, the annotation device may be a stationary computing device such as a desktop, workstation, or server, or a smartphone, laptop, tablet, or phablet. ), a portable multimedia player (PMP), a personal digital assistant (PDA), or an e-book reader.

다음 구성으로, 인공지능 학습 장치는 차량의 자율주행에 사용될 수 있는 인공지능(AI)을 기계 학습시키는데 사용될 수 있는 장치이다.With the following configuration, the artificial intelligence learning device is a device that can be used for machine learning of artificial intelligence (AI) that can be used for autonomous driving of a vehicle.

구체적으로, 인공지능 학습 장치는 차량의 자율주행에 사용될 수 있는 인공지능(AI)의 목적 달성을 위한 요구 사항을 학습 데이터 생성 장치에 전송할 수 있다. 인공지능 학습 장치는 학습 데이터 생성 장치로부터 인공지능(AI) 학습용 데이터를 수신할 수 있다. 그리고, 인공지능 학습 장치는 수신된 인공지능(AI) 학습용 데이터를 이용하여, 차량의 자율주행에 사용될 수 있는 인공지능(AI)을 기계 학습할 수 있다.Specifically, the artificial intelligence learning device may transmit requirements for achieving the purpose of artificial intelligence (AI) that can be used for autonomous vehicle driving to the learning data generating device. The artificial intelligence learning device may receive artificial intelligence (AI) learning data from the learning data generating device. In addition, the artificial intelligence learning device may perform machine learning of artificial intelligence (AI) that can be used for autonomous driving of a vehicle using the received artificial intelligence (AI) learning data.

이와 같은, 인공지능 학습 장치는 학습 데이터 생성 장치와 데이터를 송수신하고, 송수신된 데이터를 이용하여 연산을 수행할 수 있는 장치라면 어떠한 장치라도 허용될 수 있다. 예를 들어, 인공지능 학습 장치는 데스크탑, 워크스테이션 또는 서버와 같은 고정식 컴퓨팅 장치 중 어느 하나가 될 수 있으나, 이에 한정되는 것은 아니다.As such, the artificial intelligence learning device may be any device capable of transmitting and receiving data to and from the learning data generating device and performing calculations using the transmitted and received data. For example, the artificial intelligence learning device may be any one of a desktop, a workstation, or a fixed computing device such as a server, but is not limited thereto.

지금까지 상술한 바와 같은, 복수 개의 학습 데이터 수집 장치와 학습 데이터 생성 장치는 이동통신망을 이용하여 데이터를 송수신할 수 있다. 예를 들어, 이동통신망에는 코드 분할 다중 접속(Code Division Multiple Access, CDMA), 와이드 밴드 코드 분할 다중 접속(Wideband CDMA, WCDMA), 고속 패킷 접속(High Speed Packet Access, HSPA), 롱텀 에볼루션(Long Term Evolution, LTE), 5세대 이동통신(5th generation mobile telecommunication)가 포함될 수 있으나, 이에 한정되는 것은 아니다. As described above, the plurality of learning data collection devices and learning data generating devices may transmit and receive data using a mobile communication network. For example, in a mobile communication network, Code Division Multiple Access (CDMA), Wideband CDMA (WCDMA), High Speed Packet Access (HSPA), Long Term Evolution (Long Term Evolution) Evolution, LTE) and 5th generation mobile telecommunication may be included, but is not limited thereto.

또한, 학습 데이터 생성 장치, 복수 개의 어노테이션 장치 및 인공지능 학습 장치는 장치들 사이를 직접 연결하는 보안 회선, 공용 유선 통신망 또는 이동통신망 중 하나 이상이 조합된 네트워크를 이용하여 데이터를 송수신할 수 있다. 예를 들어, 공용 유선 통신망에는 이더넷(ethernet), 디지털가입자선(x Digital Subscriber Line, xDSL), 광동축 혼합망(Hybrid Fiber Coax, HFC), 광가입자망(Fiber To The Home, FTTH)가 포함될 수 있으나, 이에 한정되는 것도 아니다. In addition, the learning data generating device, the plurality of annotation devices, and the artificial intelligence learning device may transmit and receive data using a network in which one or more of a security line, a common wired communication network, or a mobile communication network directly connects devices. For example, public wired communication networks may include Ethernet, x Digital Subscriber Line (xDSL), Hybrid Fiber Coax (HFC), and Fiber To The Home (FTTH). It may be, but is not limited thereto.

이하, 상술한 바와 같은 학습 데이터 수집 장치의 제어 대상이자, 차량에 설치되어 기계 학습용 데이터를 획득, 촬영 또는 감지하는 센서들에 대하여 보다 구체적으로 설명하기로 한다.Hereinafter, sensors that are controlled by the above-described learning data collection device and are installed in a vehicle to acquire, photograph, or sense machine learning data will be described in more detail.

본 발명의 일 실시예에 따른 학습 데이터 수집 장치는 통신부, 입출력부, 다중 센서 제어부, 객체 식별부, 비식별화 처리부, 데이터 제공부 및 저장부를 포함하여 구성될 수 있다.An apparatus for collecting learning data according to an embodiment of the present invention may include a communication unit, an input/output unit, a multi-sensor control unit, an object identification unit, a de-identification processing unit, a data providing unit, and a storage unit.

이와 같은, 학습 데이터 수집 장치의 구성 요소들은 기능적으로 구분되는 요소들을 나타낸 것에 불과하므로, 둘 이상의 구성 요소가 실제 물리적 환경에서는 서로 통합되어 구현되거나, 하나의 구성 요소가 실제 물리적 환경에서는 서로 분리되어 구현될 수 있을 것이다.Since the components of the learning data collection device are merely functionally distinct elements, two or more components are integrated and implemented in an actual physical environment, or one component is implemented separately from each other in an actual physical environment. It could be.

각각의 구성 요소에 대하여 설명하면, 통신부는 차량에 설치된 다중 센서들과 학습 데이터 생성 장치와 데이터를 송수신할 수 있다.Describing each component, the communication unit may transmit/receive data between multiple sensors installed in the vehicle and the learning data generating device.

구체적으로, 통신부는 차량에 고정 설치된 레이더, 라이다, 카메라 및 초음파 센서로부터 감지 데이터, 3D 점군 데이터, 2D 이미지 및 거리 정보를 수신할 수 있다.Specifically, the communication unit may receive sensing data, 3D point cloud data, 2D image, and distance information from a radar, lidar, camera, and ultrasonic sensor fixedly installed in a vehicle.

통신부는 사전에 설정된 주기마다 학습 데이터 생성 장치와의 이동통신의 통신 품질을 측정할 수 있다. 예를 들어, 통신부는 사전에 설정된 주기마다 ICMP(Internet Control Message Protocol)의 ping 패킷(echo request)를 학습 데이터 생성 장치에 전송하고, 학습 데이터 생성 장치로부터 응답 패킷(echo reply)을 수신할 수 있다.The communication unit may measure communication quality of mobile communication with the learning data generating device at predetermined intervals. For example, the communication unit may transmit an Internet Control Message Protocol (ICMP) ping packet (echo request) to the learning data generating device at predetermined intervals and receive a response packet (echo reply) from the learning data generating device. .

통신부는 데이터 제공부의 제어에 따라, 감지 데이터, 3D 점군 데이터, 2D 이미지 및 거리 정보를 학습 데이터 생성 장치에 전송할 수 있다. 이 경우, 2D 이미지에는 객체 식별부에 의해 2D 이미지로부터 식별된 객체가 차지하고 있는 영역에 관한 정보 및 비식별 처리된 개인정보에 관한 정보가 포함될 수 있다.The communication unit may transmit sensing data, 3D point cloud data, 2D image, and distance information to the learning data generating device under the control of the data providing unit. In this case, the 2D image may include information about a region occupied by an object identified from the 2D image by the object identification unit and information about de-identified personal information.

그리고, 통신부는 객체 식별부 및 비식별화 처리부의 제어에 따라 객체 검출 규칙의 업데이트 요청 메시지 또는 비식별 처리 규칙의 업데이트 요청 메시지를 학습 데이터 생성 장치에 전송할 수 있다.The communication unit may transmit an update request message of an object detection rule or an update request message of a de-identification processing rule to the learning data generating device under the control of the object identification unit and the de-identification processing unit.

다음 구성으로, 입출력부는 사용자 인터페이스(UI)를 통해 사용자로부터 신호를 입력 받거나 연산 결과를 외부로 출력할 수 있다.With the following configuration, the input/output unit may receive a signal from a user through a user interface (UI) or output an operation result to the outside.

구체적으로, 입출력부는 학습 데이터 생성 장치와의 통신 품질을 측정하기 위한 주기를 사용자로부터 입력 받을 수 있다. 입출력부는 3D 점군 데이터, 2D 이미지, 감지 데이터 및 거리 정보를 저장하기 위한 버퍼(buffer)의 기본 크기 및 버퍼에 우선적으로 저장할 데이터의 우선순위를 사용자로부터 입력 받을 수 있다.Specifically, the input/output unit may receive a period for measuring communication quality with the learning data generating device from the user. The input/output unit may receive input from a user of a basic size of a buffer for storing 3D point cloud data, 2D image, sensing data, and distance information, and a priority of data to be preferentially stored in the buffer.

다음 구성으로, 다중 센서 제어부는 차량에 고정 설치된 레이더, 라이다, 카메라 및 초음파 센서 중 하나 이상을 제어하고, 레이더, 라이다, 카메라 및 초음파 센서 중 하나 이상으로부터 실시간으로 데이터를 수집할 수 있다. With the following configuration, the multi-sensor controller may control one or more of a radar, lidar, camera, and ultrasonic sensor fixedly installed in a vehicle, and collect data from one or more of the radar, lidar, camera, and ultrasonic sensor in real time.

그리고, 다중 센서 제어부는 레이더, 라이다, 카메라 및 초음파 센서 중 하나 이상으로부터 실시간으로 수집된 데이터를 데이터 제공부의 버퍼에 저장할 수 있다.And, the multi-sensor controller may store data collected in real time from at least one of radar, lidar, camera, and ultrasonic sensor in a buffer of the data providing unit.

기본적으로, 데이터 제공부는 사전에 설정된 주기마다 학습 데이터 생성 장치와의 이동통신의 통신 품질을 측정하고, 측정된 통신 품질에 대응하여 버퍼의 크기를 조정할 수 있다.Basically, the data providing unit may measure the communication quality of mobile communication with the learning data generating device at predetermined intervals and adjust the size of the buffer in response to the measured communication quality.

구체적으로, 데이터 제공부는 통신부를 통해, 설정된 주기마다 ICMP의 ping 패킷을 학습 데이터 생성 장치에 전송하고, 학습 데이터 생성 장치로부터 수신된 응답 패킷에 포함된 RTT(Round Trip Time)와 TTL(Time To Live)을 기초로 버퍼의 크기를 결정할 수 있다. 이 경우, 데이터 제공부는 레이더, 라이다, 카메라 및 초음파 센서가 설치된 차량의 이동 속도에 반비례하여, ICMP의 ping 패킷을 전송할 주기를 조절할 수 있다. Specifically, the data providing unit transmits ICMP ping packets to the learning data generating device at set intervals through the communication unit, and RTT (Round Trip Time) and TTL (Time To Live) included in the response packet received from the learning data generating device ), the size of the buffer can be determined based on In this case, the data providing unit may adjust a period for transmitting ICMP ping packets in inverse proportion to a moving speed of a vehicle equipped with a radar, lidar, camera, and ultrasonic sensor.

한편, 응답 패킷에 포함된 TTL을 기초로 모든 패킷이 손실되는 것으로 판단되는 경우, 데이터 제공부는 학습 데이터 생성 장치와 직접 이동통신을 수행하지 아니하고, 다른 학습 데이터 수집 장치를 경유하여 학습 데이터 생성 장치와 이동통신을 수행하도록 제어할 수도 있다.On the other hand, when it is determined that all packets are lost based on the TTL included in the response packet, the data providing unit does not directly perform mobile communication with the learning data generating device, but communicates with the learning data generating device via another learning data collecting device. It can also be controlled to perform mobile communication.

만약, 데이터 제공부에 의해 결정된 버퍼의 크기가 사전에 설정된 기본 전송 크기보다 작은 경우, 데이터 제공부는 레이더, 라이다, 카메라 및 초음파 센서 중 하나 이상으로부터 수집된 데이터 중 일부를 제거(discard)할 수 있다. 이 경우, 기본 전송 크기는 사전에 설정된 기본 수집 시간동안 레이더, 라이다, 카메라 및 초음파 센서에 의해 동시에 획득, 촬영 및 감지된 데이터를 모두 합한 데이터의 크기가 될 수 있다.If the size of the buffer determined by the data provider is smaller than the preset basic transmission size, the data provider may discard some of the data collected from one or more of radar, lidar, camera, and ultrasonic sensor. there is. In this case, the basic transmission size may be the size of data obtained by summing all data simultaneously acquired, photographed, and sensed by radar, LIDAR, camera, and ultrasonic sensor during a preset basic collection time.

우선, 데이터 제공부는 사전에 설정된 우선순위에 따라, 레이더에 의해 획득된 감지 데이터, 라이다에 의해 획득된 3D 점군 데이터, 카메라에 의해 촬영된 2D 이미지 및 초음파 센서에 의해 감지된 거리 정보를 순서대로 제거할 수 있다.First of all, the data providing unit sequentially transmits detection data acquired by radar, 3D point cloud data acquired by lidar, 2D image captured by camera, and distance information detected by ultrasonic sensor according to preset priorities. can be removed

이 경우, 데이터 제공부는 레이더에 의해 획득된 감지 데이터를 기초로 차량이 객체로부터 이격된 거리를 추정하고, 추정된 거리를 기준으로 레이더에 의해 획득된 감지 데이터, 라이다에 의해 획득된 3D 점군 데이터, 카메라에 의해 촬영된 2D 이미지 및 초음파 센서에 의해 감지된 거리 정보 사이의 우선순위를 조정할 수 있다. In this case, the data provider estimates the distance the vehicle is separated from the object based on the detection data obtained by the radar, and based on the estimated distance, the detection data obtained by the radar and the 3D point cloud data obtained by the LIDAR , it is possible to adjust the priority between the 2D image captured by the camera and the distance information sensed by the ultrasonic sensor.

또한, 데이터 제공부는 우선순위에 따라 카메라에 의해 촬영된 2D 이미지들을 제거해야 하는 경우, 기본 수집 시간동안 카메라에 의해 촬영된 복수 개의 2D 이미지들 중에서 객체가 포함되지 않은 2D 이미지를 우선적으로 제거할 수 있다. In addition, when the data providing unit needs to remove 2D images captured by a camera according to priority, a 2D image that does not include an object may be preferentially removed from among a plurality of 2D images captured by a camera during the basic collection time. there is.

다음 구성으로, 저장부는 학습 데이터 수집 장치의 동작에 필요한 데이터를 저장할 수 있다.With the following configuration, the storage unit may store data necessary for the operation of the learning data collection device.

구체적으로, 저장부는 3D 점군 데이터, 2D 이미지, 감지 데이터 및 거리 정보를 저장하기 위한 버퍼(buffer)를 포함하여 구성될 수 있다. 그리고, 저장부는 영상 처리 및 데이터 전송에 필요한 규칙 및 기초 데이터를 저장하기 위한 데이터베이스(database)를 포함하여 구성될 수 있다.Specifically, the storage unit may include a buffer for storing 3D point cloud data, 2D image, sensing data, and distance information. The storage unit may include a database for storing rules and basic data required for image processing and data transmission.

저장부를 구성하는 데이터베이스에는 객체 검출 규칙, 비식별 처리 규칙 및 객체의 유형별 3D 모델이 저장될 수 있다. 여기서, 객체 검출 규칙은 2D 이미지 내에서 식별된 객체를 검증할 수 있도록 객체의 유형별로 분류된 엣지의 패턴들을 열거한 규칙이 될 수 있다. 비식별 처리 규칙은 2D 이미지 내에서 비식별 처리할 영역을 결정할 수 있도록 객체 내에 존재하는 비식별 영역에 대한 엣지의 패턴들을 열거한 규칙이 될 수 있다. 그리고, 3D 모델은 객체의 유형별로 분류된 객체의 3차원 형상 데이터이다.Object detection rules, non-identification processing rules, and 3D models for each type of object may be stored in the database constituting the storage unit. Here, the object detection rule may be a rule listing edge patterns classified according to object types so as to verify objects identified in the 2D image. The de-identification processing rule may be a rule enumerating edge patterns of de-identification areas existing in an object so as to determine a de-identification process area in a 2D image. Also, the 3D model is three-dimensional shape data of objects classified according to object types.

이하, 상술한 바와 같은 학습 데이터 수집 장치의 논리적 구성요소를 구현하기 위한 하드웨어에 대하여 보다 구체적으로 설명한다.Hereinafter, hardware for implementing the above-described logical components of the learning data collection device will be described in more detail.

학습 데이터 수집 장치는 프로세서(Processor), 메모리(Memory), 송수신기(Transceiver), 입출력장치(Input/output device), 데이터 버스(Bus) 및 스토리지(Storage)를 포함하여 구성될 수 있다. The learning data collection device may include a processor, memory, transceiver, input/output device, data bus, and storage.

프로세서는 메모리에 상주된 본 발명의 실시예들에 따른 방법이 구현된 소프트웨어에 따른 명령어를 기초로, 학습 데이터 수집 장치의 동작 및 기능을 구현할 수 있다. 메모리에는 본 발명의 실시예들에 따른 방법이 구현된 소프트웨어가 상주(loading)될 수 있다. 송수신기는 레이더, 라이다, 카메라, 초음파 센서 및 학습 데이터 생성 장치와 데이터를 송수신할 수 있다. 입출력장치는 학습 데이터 수집 장치의 동작에 필요한 데이터를 입력 받고, 수집된 감지 데이터, 3D 점군 데이터, 2D 이미지 및 거리 정보를 출력할 수 있다. 데이터 버스는 프로세서, 메모리, 송수신기 입출력장치 및 스토리지와 연결되어, 각각의 구성 요소 사이가 서로 데이터를 전달하기 위한 이동 통로의 역할을 수행할 수 있다.The processor may implement operations and functions of the learning data collection device based on instructions according to software in which the method according to the embodiments of the present invention is implemented, which resides in the memory. Software in which a method according to embodiments of the present invention is implemented may be loaded in the memory. The transceiver may transmit and receive data to and from radar, lidar, cameras, ultrasonic sensors, and learning data generating devices. The input/output device may receive data necessary for the operation of the learning data collection device and output collected sensing data, 3D point cloud data, 2D image, and distance information. The data bus is connected to a processor, a memory, a transceiver input/output device, and a storage, and may serve as a movement path for transferring data between respective components.

스토리지는 본 발명의 실시예들에 따른 방법이 구현된 소프트웨어의 실행을 위해 필요한 애플리케이션 프로그래밍 인터페이스(Application Programming Interface, API), 라이브러리(library) 파일, 리소스(resource) 파일 등을 저장할 수 있다. 스토리지는 본 발명의 실시예들에 따른 방법이 구현된 소프트웨어 및 데이터베이스를 저장할 수 있다. 데이터베이스에는 객체 검출 규칙, 비식별 처리 규칙 및 객체의 유형별 3D 모델이 저장될 수 있다. The storage may store an application programming interface (API), a library file, a resource file, and the like required for execution of software in which a method according to embodiments of the present invention is implemented. The storage may store software and a database in which a method according to embodiments of the present invention is implemented. Object detection rules, non-identification processing rules, and 3D models for each type of object may be stored in the database.

본 발명의 일 실시예에 따르면, 메모리에 상주되거나 또는 스토리지에 저장된 센서들의 제어 방법을 구현하기 위한 소프트웨어는 프로세서가 차량에 서로 다른 높이에 설치된 복수 개의 카메라들에 의해 동시에 촬영된 2D 이미지들을 수집하는 단계. 프로세서가 상기 복수 개의 카메라들 사이의 우선순위를 기초로, 상기 우선순위가 가장 높은 카메라에 의해 촬영된 2D 이미지에 포함된 객체를 식별하는 단계, 및 프로세서가 상기 우선순위가 가장 높은 카메라에 의해 촬영된 2D 이미지 및 상기 식별된 객체에 관한 정보를 학습 데이터 생성 장치에 전송하는 단계를 실행시키기 위하여 기록매체에 기록된 컴퓨터 프로그램이 될 수 있다.According to one embodiment of the present invention, software for implementing a method of controlling sensors resident in a memory or stored in a storage includes a processor that collects 2D images simultaneously taken by a plurality of cameras installed at different heights in a vehicle. step. Identifying, by a processor, an object included in a 2D image captured by a camera having the highest priority based on a priority among the plurality of cameras, and capturing by a processor the camera having the highest priority It may be a computer program recorded on a recording medium to execute the step of transmitting the 2D image and information about the identified object to the learning data generating device.

보다 구체적으로, 프로세서는 ASIC(Application-Specific Integrated Circuit), 다른 칩셋(chipset), 논리 회로 및/또는 데이터 처리 장치를 포함할 수 있다. 메모리는 ROM(Read-Only Memory), RAM(Random Access Memory), 플래쉬 메모리, 메모리 카드, 저장 매체 및/또는 다른 저장 장치를 포함할 수 있다. 송수신기(160)는 유무선 신호를 처리하기 위한 베이스밴드 회로를 포함할 수 있다. 입출력장치(165)는 키보드(keyboard), 마우스(mouse), 및/또는 조이스틱(joystick) 등과 같은 입력 장치 및 액정표시장치(Liquid Crystal Display, LCD), 유기 발광 다이오드(Organic LED, OLED) 및/또는 능동형 유기 발광 다이오드(Active Matrix OLED, AMOLED) 등과 같은 영상 출력 장치 프린터(printer), 플로터(plotter) 등과 같은 인쇄 장치를 포함할 수 있다. More specifically, the processor may include an Application-Specific Integrated Circuit (ASIC), other chipsets, logic circuits, and/or data processing devices. The memory may include read-only memory (ROM), random access memory (RAM), flash memory, memory cards, storage media, and/or other storage devices. The transceiver 160 may include a baseband circuit for processing wired/wireless signals. The input/output device 165 includes an input device such as a keyboard, a mouse, and/or a joystick, and a Liquid Crystal Display (LCD), an Organic LED (OLED), and/or a liquid crystal display (LCD). Alternatively, an image output device such as an active matrix OLED (AMOLED) may include a printing device such as a printer or a plotter.

본 명세서에 포함된 실시 예가 소프트웨어로 구현될 경우, 상술한 방법은 상술한 기능을 수행하는 모듈(과정, 기능 등)로 구현될 수 있다. 모듈은 메모리에 상주되고, 프로세서에 의해 실행될 수 있다. 메모리는 프로세서의 내부 또는 외부에 있을 수 있고, 잘 알려진 다양한 수단으로 프로세서와 연결될 수 있다.When the embodiments included in this specification are implemented as software, the above-described method may be implemented as a module (process, function, etc.) that performs the above-described functions. A module resides in memory and can be executed by a processor. The memory may be internal or external to the processor and may be coupled with the processor in a variety of well-known means.

각 구성요소는 다양한 수단, 예를 들어, 하드웨어, 펌웨어(firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 본 발명의 일 실시예는 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 프로세서, 콘트롤러, 마이크로 콘트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.Each component may be implemented by various means, eg, hardware, firmware, software, or a combination thereof. In the case of hardware implementation, one embodiment of the present invention includes one or more Application Specific Integrated Circuits (ASICs), Digital Signal Processors (DSPs), Digital Signal Processing Devices (DSPDs), Programmable Logic Devices (PLDs), FPGAs ( Field Programmable Gate Arrays), processors, controllers, microcontrollers, microprocessors, etc.

또한, 펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명의 일 실시예는 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차, 함수 등의 형태로 구현되어, 다양한 컴퓨터 수단을 통하여 판독 가능한 기록매체에 기록될 수 있다. 여기서, 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 이러한, 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.In addition, in the case of implementation by firmware or software, an embodiment of the present invention is implemented in the form of a module, procedure, function, etc. that performs the functions or operations described above, and is stored on a recording medium readable through various computer means. can be recorded. Here, the recording medium may include program commands, data files, data structures, etc. alone or in combination. Program instructions recorded on the recording medium may be those specially designed and configured for the present invention, or those known and usable to those skilled in computer software. For example, recording media include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CD-ROMs (Compact Disk Read Only Memory) and DVDs (Digital Video Disks), floptical It includes hardware devices specially configured to store and execute program instructions, such as magneto-optical media, such as a floptical disk, and ROM, RAM, flash memory, and the like. Examples of program instructions may include high-level language codes that can be executed by a computer using an interpreter or the like as well as machine language codes generated by a compiler. These hardware devices may be configured to operate as one or more pieces of software to perform the operations of the present invention, and vice versa.

다음 구성으로, 비식별화 처리부는 객체 식별부에 의해 식별된 객체의 유형에 대응하여, 2D 이미지의 일부를 비식별(de-identify) 처리할 수 있다.With the following configuration, the de-identification processing unit may de-identify a part of the 2D image in correspondence to the type of object identified by the object identification unit.

구체적으로, 비식별화 처리부는 객체 식별부가 3D 모델을 이용하여 객체 영역을 설정하면, 3D 모델에 사전에 부여된 비식별 처리 영역에 대응하는 영역에 대하여 비식별 처리를 수행할 수 있다.Specifically, the de-identification processing unit may perform de-identification processing on a region corresponding to the de-identification processing region previously assigned to the 3D model when the object identification unit sets the object region using the 3D model.

이를 위하여, 비식별화 처리부는 2D 이미지의 엣지를 추출하고, 데이터베이스로부터 객체 식별부에 의해 식별된 객체의 유형 및 2D 이미지로부터 추출된 엣지의 패턴에 대응하는 비식별 규칙을 조회할 수 있다. 데이터베이스로부터 비식별 처리 규칙이 조회되는 경우, 비식별화 처리부는 조회된 비식별 처리 규칙에 따라, 2D 이미지의 일부를 비식별 처리할 수 있다. 이 경우, 비식별 처리 규칙은 학습 데이터 생성 장치에 의해 배포되며, 2D 이미지 내에서 비식별 처리할 영역을 결정할 수 있도록, 객체 내에 존재하는 비식별 영역에 대한 엣지의 패턴을 열거한 규칙이다.To this end, the de-identification processing unit may extract an edge of the 2D image, and search a database for a de-identification rule corresponding to the type of object identified by the object identification unit and the pattern of the edge extracted from the 2D image. When a de-identification processing rule is retrieved from the database, the de-identification processing unit may de-identify a part of the 2D image according to the retrieved de-identification processing rule. In this case, the de-identification processing rule is distributed by the learning data generating device, and is a rule enumerating edge patterns for de-identification areas existing in the object so as to determine areas to be de-identified within the 2D image.

비식별 처리부는 데이터베이스로부터 비식별 처리 규칙이 조회되지 않은 경우, 해당 2D 이미지, 3D 점군 데이터로부터 식별된 객체의 유형 및 2D 이미지로부터 추출된 엣지의 포함을 포함시켜, 비식별 처리 규칙에 대한 업데이트 요청 메시지를 생성할 수 있다. 비식별 처리부는 업데이트 요청 메시지가 생성되면, 생성된 업데이트 요청 메시지를 통신부를 통해 학습 데이터 생성 장치에 전송할 수 있다.The de-identification processing unit requests an update to the de-identification processing rule by including the 2D image, the type of object identified from the 3D point cloud data, and the edge extracted from the 2D image when the de-identification processing rule is not retrieved from the database. messages can be created. When the update request message is generated, the de-identification processing unit may transmit the generated update request message to the learning data generating device through the communication unit.

한편, 비식별 처리부는 비식별 처리를 수행함에 있어, 비식별 처리를 수행할 영역의 경계선과 2D 이미지로부터 추출된 엣지에 의한 폐쇄 영역(enclosure)의 경계선(boundary line)이 사전에 설정된 최소 이격 거리 내로 인접한 경우, 비식별 처리를 수행할 영역의 경계선과 폐쇄 영역의 경계선이 최소 이격 거리 이상으로 이격되도록, 비식별 처리를 수행할 영역의 크기를 감소시킬 수 있다. 이 경우, 최소 이격 거리는 두 경계선 사이에 위치하는 픽셀의 최소 개수가 될 수 있다.On the other hand, in performing de-identification processing, the de-identification processing unit performs de-identification processing, the boundary line of the area to be de-identified and the boundary line of the enclosure by the edge extracted from the 2D image is a preset minimum separation distance When adjacent to the inside, the size of the region to be de-identified may be reduced so that the boundary of the region to be de-identified is separated from the boundary of the closed region by a minimum distance or more. In this case, the minimum separation distance may be the minimum number of pixels positioned between the two boundary lines.

이와 같이, 비식별 처리부는 비식별 처리를 수행할 영역의 경계선과 2D 이미지의 엣지가 서로 겹치지 않고, 최소 이격 거리 이상으로 이격되게 함으로써, 개인정보의 비식별 처리가 어노테이션 작업에 미치는 영향을 최소화할 수 있다.In this way, the de-identification processing unit minimizes the effect of de-identification processing of personal information on the annotation work by ensuring that the boundary of the area to be de-identified and the edge of the 2D image do not overlap each other and are separated by a minimum distance or more. can

한편, 상술한 바와 같은 비식별 처리부는 2D 이미지의 일부를 블러링 처리하여 비식별 처리를 수행할 수 있다. 이 경우, 비식별 처리의 대상이 되는 2D 이미지의 선명도(visibility)는 차량의 이동속도에 따라 변화될 수 있으므로, 비식별 처리부는 비식별 처리를 위한 블러링의 강도를 카메라가 설치된 차량의 이동속도에 반비례하게 설정할 수도 있다.Meanwhile, the de-identification processing unit as described above may perform de-identification processing by blurring a part of the 2D image. In this case, since the visibility of the 2D image that is subject to de-identification processing may change according to the moving speed of the vehicle, the de-identification processing unit sets the intensity of blurring for de-identification processing to the moving speed of the vehicle in which the camera is installed. It can also be set in inverse proportion to .

그리고, 비식별 처리부는 블러링 처리를 수행하기 이전에, 비식별 처리를 수행할 영역을 크롭(crop)한 후, 크롭된 영상을 포함시켜 복원 데이터를 생성할 수도 있다.Also, the de-identification processing unit may crop an area to be subjected to de-identification processing before performing blurring processing, and then include the cropped image to generate restored data.

이하, 상술한 바와 같은 본 발명의 다양한 실시예에 따른 중요도 평가에 따른 인공지능 학습을 위한 로우 데이터 정제 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램에 대하여, 구체적으로 설명하기로 한다. Hereinafter, a method for refining raw data for artificial intelligence learning according to importance evaluation according to various embodiments of the present invention as described above and a computer program recorded on a recording medium for executing the method will be described in detail.

본 발명은 데이터 수집 서버가 비식별화 처리 등을 수행하기에 앞서, 중요도가 낮은 raw data를 정제 할 수 있다. 이를 위하여, 데이터 수집 서버는 raw data 각각에 대한 중요도를 평가할 수 있으며, raw data의 중요도는 기본적으로 인공지능 학습 대상이 되는 object의 포함 여부, 촬영 환경 정보일 수 있다.In the present invention, prior to the data collection server performing de-identification processing, etc., raw data of low importance can be refined. To this end, the data collection server may evaluate the importance of each raw data, and the importance of the raw data may basically include whether an object to be an artificial intelligence learning target is included or not, and photographing environment information.

또한, 데이터 수집 서버는 raw data에 포함된 object와 인공지능 학습 대상이 되는 object의 유사도를 산출하고, 유사도가 threshold 이하인 raw data를 제거하여 정제를 수행할 수 있다.In addition, the data collection server may calculate the similarity between an object included in the raw data and an object to be an artificial intelligence learning target, and remove raw data having a similarity lower than a threshold to perform purification.

그리고 데이터 수집 서버는 raw data의 촬영 시점에 관한 정보(GPS, 기상 정보 등)를 기초로 인공지능 학습과 관련된 환경과 다른 raw data를 제거하여 정제를 수행할 수 있다.In addition, the data collection server may perform purification by removing raw data that is different from the environment related to artificial intelligence learning based on information (GPS, weather information, etc.) on the shooting time of raw data.

이상과 같이, 본 명세서와 도면에는 본 발명의 바람직한 실시예에 대하여 개시하였으나, 여기에 개시된 실시예 외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다. 또한, 본 명세서와 도면에서 특정 용어들이 사용되었으나, 이는 단지 본 발명의 기술 내용을 쉽게 설명하고 발명의 이해를 돕기 위한 일반적인 의미에서 사용된 것이지, 본 발명의 범위를 한정하고자 하는 것은 아니다. 따라서, 상술한 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니 되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 선정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.As described above, although preferred embodiments of the present invention have been disclosed in the present specification and drawings, it is in the technical field to which the present invention belongs that other modified examples based on the technical spirit of the present invention can be implemented in addition to the embodiments disclosed herein. It is self-evident to those skilled in the art. In addition, although specific terms have been used in the present specification and drawings, they are only used in a general sense to easily explain the technical content of the present invention and help understanding of the present invention, but are not intended to limit the scope of the present invention. Accordingly, the foregoing detailed description should not be construed as limiting in all respects and should be considered illustrative. The scope of the present invention should be selected by reasonable interpretation of the appended claims, and all changes within the equivalent scope of the present invention are included in the scope of the present invention.

Claims (5)

인공지능(Artificial Intelligence, AI)을 기계 학습(machine learning)시키기 위한 데이터 수집 장치의 데이터 정제 방법으로서,
학습 데이터 수집 장치가, 센서를 이용하여 데이터를 수집하는 단계;
상기 학습 데이터 수집 장치가, 수집된 데이터를 정제하는 단계; 및
상기 학습 데이터 수집 장치가, 상기 수집된 데이터에 대한 중요도를 평가하는 단계; 및
상기 학습 데이터 수집 장치가, 정제된 데이터를 데이터 수집 서버로 전송하는 단계;를 포함하고,
상기 정제하는 단계는,
상기 데이터에 포함된 객체와 인공지능 학습 대상이 되는 객체의 유사도를 산출하여 수행하는 것을 특징으로 하는, 중요도 평가에 따른 인공지능 학습을 위한 로우 데이터 정제 방법.
As a data purification method of a data collection device for machine learning of artificial intelligence (AI),
Collecting, by a learning data collection device, data using a sensor;
refining the collected data by the learning data collection device; and
Evaluating, by the learning data collection device, importance of the collected data; and
Transmitting, by the learning data collection device, refined data to a data collection server;
The purification step is
Raw data purification method for artificial intelligence learning according to importance evaluation, characterized in that the similarity between the object included in the data and the object to be artificial intelligence learning is calculated and performed.
제1항에 있어서,
상기 정제하는 단계는,
상기 데이터에 포함된 객체와 인공지능 학습 대상이 되는 객체의 유사도가 threshold 이하인 raw data를 제거하여 정제하는 것을 특징으로 하는, 중요도 평가에 따른 인공지능 학습을 위한 로우 데이터 정제 방법.
According to claim 1,
The purification step is
A method for refining raw data for artificial intelligence learning according to importance evaluation, characterized in that raw data having a similarity between an object included in the data and an object to be artificial intelligence learning is less than a threshold is removed and refined.
제2항에 있어서,
상기 정제하는 단계는,
상기 학습 데이터 수집 장치가, 상기 raw data의 촬영 시점에 관한 정보를 기초로 인공지능 학습과 관련된 환경과 다른 raw data를 제거하여 정제를 수행하는 것을 특징으로 하는, 중요도 평가에 따른 인공지능 학습을 위한 로우 데이터 정제 방법.
According to claim 2,
The purification step is
For artificial intelligence learning according to importance evaluation, characterized in that the learning data collection device performs purification by removing raw data that is different from the environment related to artificial intelligence learning based on the information about the time of shooting of the raw data. Raw data cleaning method.
제3항에 있어서,
상기 학습 데이터 수집 장치가,
상기 raw data의 수집 시점에 관한 meta data를 기초로, raw data의 정제율을 제어하고, 상기 수집된 meta data를 기초로 raw data가 인공지능 학습에 미치는 영향도를 산출하는 것을 특징으로 하는, 중요도 평가에 따른 인공지능 학습을 위한 로우 데이터 정제 방법.
According to claim 3,
The learning data collection device,
Based on the meta data related to the collection time of the raw data, the raw data purification rate is controlled, and based on the collected meta data, the degree of influence of the raw data on artificial intelligence learning is calculated, characterized in that the importance level Raw data purification method for artificial intelligence learning according to evaluation.
메모리(memory);
송수신기(transceiver); 및
상기 메모리에 상주된 명령어를 처리하는 프로세서(processor)를 포함하여 구성된 컴퓨팅 장치와 결합되어,
상기 프로세서가, 센서를 이용하여 데이터를 수집하는 단계;
상기 프로세서가, 수집된 데이터를 정제하는 단계; 및
상기 프로세서가, 상기 수집된 데이터에 대한 중요도를 평가하는 단계; 및
상기 프로세서가, 정제된 데이터를 데이터 수집 서버로 전송하는 단계;를 실행하되,
상기 정제하는 단계는,
상기 데이터에 포함된 객체와 인공지능 학습 대상이 되는 객체의 유사도를 산출하여 수행하는 것을 특징으로 하는, 기록매체에 기록된 컴퓨터 프로그램.
memory;
transceiver; and
In combination with a computing device configured to include a processor for processing instructions resident in the memory,
Collecting, by the processor, data using a sensor;
Step, by the processor, refining the collected data; and
Evaluating, by the processor, importance of the collected data; and
Executing, by the processor, transmitting the refined data to a data collection server;
The purification step is
A computer program recorded on a recording medium, characterized in that the similarity between the object included in the data and the object to be artificial intelligence learning is calculated and performed.
KR1020210136624A 2021-10-14 2021-10-14 Raw data purification method for artificial intelligence learning according to importance evaluation and a computer program recorded on a recording medium to execute the same KR20230053278A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210136624A KR20230053278A (en) 2021-10-14 2021-10-14 Raw data purification method for artificial intelligence learning according to importance evaluation and a computer program recorded on a recording medium to execute the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210136624A KR20230053278A (en) 2021-10-14 2021-10-14 Raw data purification method for artificial intelligence learning according to importance evaluation and a computer program recorded on a recording medium to execute the same

Publications (1)

Publication Number Publication Date
KR20230053278A true KR20230053278A (en) 2023-04-21

Family

ID=86098576

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210136624A KR20230053278A (en) 2021-10-14 2021-10-14 Raw data purification method for artificial intelligence learning according to importance evaluation and a computer program recorded on a recording medium to execute the same

Country Status (1)

Country Link
KR (1) KR20230053278A (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200042629A (en) 2018-10-16 2020-04-24 주식회사 키센스 Method for generating annotation and image based on touch of mobile device to learn artificial intelligence and apparatus therefor

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200042629A (en) 2018-10-16 2020-04-24 주식회사 키센스 Method for generating annotation and image based on touch of mobile device to learn artificial intelligence and apparatus therefor

Similar Documents

Publication Publication Date Title
KR102356910B1 (en) Method for preemptively detecting object, and computer program recorded on record-medium for executing method therefor
KR102343059B1 (en) Data collecting system for artificial intelligence machine learning, and device therefor
JP2019505034A5 (en)
KR102389998B1 (en) De-identification processing method and a computer program recorded on a recording medium to execute the same
KR102403169B1 (en) Method for providing guide through image analysis, and computer program recorded on record-medium for executing method therefor
KR102343056B1 (en) A method of reducing data load of images for annotation, and computer program recorded on record-medium for executing method thereof
KR102310613B1 (en) Method for tracking object in continuous 2D image, and computer program recorded on record-medium for executing method therefor
KR102310606B1 (en) Method for correcting difference of multiple sensors, and computer program recorded on record-medium for executing method therefor
KR102310602B1 (en) Method for correcting difference of multiple sensors, and computer program recorded on record-medium for executing method therefor
KR102310612B1 (en) Method for predicting object of 2D image using object information of point group of a lidar, and computer program recorded on record-medium for executing method therefor
CN112885130B (en) Method and device for presenting road information
KR102310592B1 (en) Annotation method capable of guiding change of working regulation, and computer program recorded on record-medium for executing method thereof
KR102343061B1 (en) Method for de-identifying personal information, and computer program recorded on record-medium for executing method therefor
KR102310601B1 (en) Control method of multiple sensors for data collection, and computer program recorded on record-medium for executing method thereof
KR102310608B1 (en) Method for processing data of machine learning for automatic driving based on radar and lidar, and computer program recorded on record-medium for executing method therefor
KR102310604B1 (en) Method for processing data collected by multiple sensors, and computer program recorded on record-medium for executing method therefor
KR102313922B1 (en) A method of increasing quality for data of connected 3D points group, and computer program recorded on record-medium for executing method thereof
KR20230053278A (en) Raw data purification method for artificial intelligence learning according to importance evaluation and a computer program recorded on a recording medium to execute the same
KR20230053280A (en) A data purification method of a collection device and a computer program recorded on a recording medium to execute the same
KR20230053277A (en) A method for de-identifying personal information that improves the degradation of artificial intelligence learning effects and a computer program recorded on a recording medium to execute the method.
KR102313940B1 (en) Method for tracking object in continuous 3D data, and computer program recorded on record-medium for executing method therefor
KR102343062B1 (en) Control method for sensors with height difference, and computer program recorded on record-medium for executing method therefor
KR102403174B1 (en) Method for data purification according to importance, and computer program recorded on record-medium for executing method therefor
KR102310605B1 (en) Control method of multiple sensors for data collection, and computer program recorded on record-medium for executing method thereof
KR102395393B1 (en) Method for providing guide through sensing environment analysis, and computer program recorded on record-medium for executing method therefor