KR102375579B1 - Method for adjusting neural network training data based on user device, system and computer program for the same method - Google Patents

Method for adjusting neural network training data based on user device, system and computer program for the same method Download PDF

Info

Publication number
KR102375579B1
KR102375579B1 KR1020210157731A KR20210157731A KR102375579B1 KR 102375579 B1 KR102375579 B1 KR 102375579B1 KR 1020210157731 A KR1020210157731 A KR 1020210157731A KR 20210157731 A KR20210157731 A KR 20210157731A KR 102375579 B1 KR102375579 B1 KR 102375579B1
Authority
KR
South Korea
Prior art keywords
image
neural network
generated
learning
user
Prior art date
Application number
KR1020210157731A
Other languages
Korean (ko)
Inventor
김형복
이진석
윤석원
Original Assignee
주식회사 테스트웍스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 테스트웍스 filed Critical 주식회사 테스트웍스
Priority to KR1020210157731A priority Critical patent/KR102375579B1/en
Application granted granted Critical
Publication of KR102375579B1 publication Critical patent/KR102375579B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Abstract

The present invention relates to a learning data processing method, a system and a computer program. According to the present invention, a neural network learning data processing method through a user device screen includes the steps of: displaying a learning image on an area of the user device screen; providing a user input interface generated using an output of the neural network for the learning image; and receiving a user's response to the user input interface. Preferably, the learning image is updated according to the user's response. According to the present invention, it is possible to process the learning image for learning a deep learning-based object recognition model based on pre-learned learning data.

Description

사용자 디바이스 기반의 신경망 학습 데이터 가공 방법, 시스템 및 컴퓨터 프로그램{Method for adjusting neural network training data based on user device, system and computer program for the same method}Method for adjusting neural network training data based on user device, system and computer program for the same method

본 발명은 학습 데이터의 가공 방법, 시스템 및 컴퓨터 프로그램에 관한 것이다.The present invention relates to a method, system and computer program for processing learning data.

최근 딥러닝의 성능이 향상됨에 따라 다양한 분야에서 딥러닝이 이용되고 있다. 특히, 이미지 내 객체 인식을 위해 딥러닝이 많이 이용되고 있다.Recently, as the performance of deep learning has improved, deep learning is being used in various fields. In particular, deep learning is widely used for object recognition in images.

이미지 내 객체 인식율을 높이기 위해서는 신경망 모델의 성능 자체 뿐만 아니라 신경망을 학습시키기 위한 학습 데이터도 중요하다. 객체 검출을 위해 일반적으로 수행되는 신경망의 지도 학습(Supervised learning)을 위한 학습 데이터에는 객체 검출을 위해서 미리 객체의 위치나 클래스가 이미지 상에 레이블링 될 필요가 있다.In order to increase the object recognition rate in an image, not only the performance of the neural network model itself but also the training data for training the neural network are important. In training data for supervised learning of neural networks, which is generally performed for object detection, the position or class of an object needs to be labeled on an image in advance for object detection.

일반적으로 신경망의 학습을 위해서는 수천에서 수만 건의 레이블링된 학습데이터가 필요하며 따라서 레이블링된 학습데이터가 많이 제공되면 될수록 더 효과적으로 진행될 수 있다.In general, thousands to tens of thousands of labeled training data are required for training of a neural network, so the more labeled training data is provided, the more effective it can be.

학습을 위한 방대한 양의 이미지와 이미지에 대하여 검출 결과들이 레이블링된 학습데이터를 구하는 것은 쉽지 않으며 일반적으로 수작업으로 학습 데이터들이 생성되고 있는 상황에서 학습의 품질을 높이기 위하여 정확한 정보가 레이블링 된 학습 데이터들을 수집하는 것은 더욱 어렵다.It is not easy to obtain learning data labeled with detection results for a large amount of images and images for learning, and in general, learning data labeled with accurate information are collected to improve the quality of learning in a situation where learning data is generated manually. It is more difficult to do

이와 관련하여 신경망 기반의 오토 레이블링을 수행하는 기술들이 활용되고 있으나(선행특허 : 미국공개특허공보 2021-0256326 (2021.08.19)) 학습 데이터로 직접 활용을 위한 무결성의 검증은 여전히 필요하다. In this regard, techniques for performing neural network-based auto-labeling are being used (Prior Patent: US Patent Publication No. 2021-0256326 (2021.08.19)), but verification of integrity for direct use as learning data is still required.

본 발명은 모바일 기반의 객체 인식을 위한 학습 데이터의 가공 방법을 제공함에 있다.An object of the present invention is to provide a method of processing learning data for mobile-based object recognition.

구체적으로, 본 발명은 신경망의 출력 타입 또는 객체의 타입에 따른 사용자 인터페이스를 제공하여 학습 데이터를 효율적으로 가공하도록 하는 방법을 제공함에 있다.Specifically, the present invention provides a method for efficiently processing learning data by providing a user interface according to an output type of a neural network or an object type.

상술한 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 사용자 디바이스 화면을 통한 신경망 학습 데이터 가공 방법은 상기 사용자 디바이스 화면의 일 영역에 학습 이미지를 표시하는 단계; 상기 학습 이미지에 대한 신경망의 출력을 이용하여 생성된 사용자 입력 인터페이스를 제공하는 단계; 및 상기 사용자 입력 인터페이스에 대한 사용자의 응답을 수신하는 단계를 포함하고, 상기 학습 이미지는 상기 사용자의 응답에 따라 갱신되는 것이 바람직하다.A method for processing neural network learning data through a user device screen according to an embodiment of the present invention for achieving the above object includes: displaying a learning image on an area of the user device screen; providing a user input interface generated using an output of a neural network for the training image; and receiving a user's response to the user input interface, wherein the training image is preferably updated according to the user's response.

상기 표시되는 학습 이미지는, 상기 학습 이미지를 포함하는 데이터 세트 내 각각의 객체 별 특징을 미리 결정된 차원의 특징 공간에 매핑하여 생성된 객체 별 분포 상 이상 매핑된 객체를 포함한다.The displayed training image includes an object that is abnormally mapped on a distribution for each object generated by mapping a feature of each object in a data set including the training image to a feature space of a predetermined dimension.

상기 표시되는 학습 이미지는, 상기 학습 이미지를 포함하는 데이터 세트 내 각각의 객체 별 특징을 미리 결정된 차원의 특징 공간에 매핑하여 생성된 객체 별 분포를 구분하는 벡터를 기준으로 추출되는 것이 바람직하다.The displayed training image is preferably extracted based on a vector for classifying the distribution of each object generated by mapping the features of each object in the data set including the training image to a feature space of a predetermined dimension.

상기 사용자 입력 인터페이스는 신경망의 출력 타입에 따라 결정된 인터페이스로 표시되는 것이 바람직하다.The user input interface is preferably displayed as an interface determined according to the output type of the neural network.

상기 사용자 입력 인터페이스는 상기 학습 이미지의 신경망의 객체 분류 결과와 상기 학습 이미지 내 일 객체의 특징정보를 이용하여 생성된 질문 텍스트를 포함하는 것이 바람직하다.Preferably, the user input interface includes a question text generated by using the object classification result of the neural network of the training image and characteristic information of an object in the training image.

상기 질문 텍스트는 상기 학습 이미지에 대한 신경망의 객체 분류 결과와 상기 객체의 대표 이미지의 신경망의 분류 결과를 이용하여 순환 신경망을 통해 생성되는 것이 바람직하다.Preferably, the question text is generated through a recurrent neural network using the object classification result of the neural network for the training image and the neural network classification result of the representative image of the object.

상술한 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 서버의 사용자 디바이스 화면을 통한 신경망 학습 데이터 가공 방법은 상기 사용자 디바이스 화면의 일 영역에 표시할 학습 이미지를 선별하는 단계; 상기 학습 이미지에 대한 신경망의 출력을 이용하여 생성된 사용자 입력 인터페이스에 대한 사용자의 응답을 수신하는 단계; 및 상기 수신된 사용자의 응답에 따라 상기 학습 이미지의 레이블링 정보를 갱신하는 단계를 포함한다.A method for processing neural network learning data through a user device screen of a server according to an embodiment of the present invention for achieving the above object includes: selecting a learning image to be displayed on an area of the user device screen; receiving a user's response to a user input interface generated using an output of a neural network for the training image; and updating the labeling information of the training image according to the received user's response.

상기 선별하는 단계는 상기 학습 이미지를 포함하는 데이터 세트 내 각각의 객체 별 특징을 미리 결정된 차원의 특징 공간에 매핑하여 생성된 객체 별 분포 상 이상 매핑된 객체를 포함하는 이미지를 학습 이미지로 선별하는 것이 바람직하다.In the selecting step, the image including the abnormally mapped object in the distribution for each object generated by mapping the characteristics of each object in the data set including the training image to a feature space of a predetermined dimension is selected as the training image. desirable.

상기 선별하는 단계는 상기 학습 이미지를 포함하는 데이터 세트 내 각각의 객체 별 특징을 미리 결정된 차원의 특징 공간에 매핑하여 생성된 객체 별 분포를 구분하는 벡터를 기준으로 상기 벡터에 인접한 객체를 포함하는 이미지를 학습 이미지로 선별하는 것이 바람직하다.The selecting includes an image including an object adjacent to the vector based on a vector for classifying the distribution of each object generated by mapping the feature of each object in the data set including the training image to a feature space of a predetermined dimension It is desirable to select as a learning image.

상기 사용자 입력 인터페이스는 상기 학습 이미지의 신경망의 객체 분류 결과와 상기 학습 이미지 내 일 객체의 특징정보를 이용하여 생성된 질문 텍스트를 포함하고, 상기 질문 텍스트는 상기 학습 이미지에 대한 신경망의 객체 분류 결과와 상기 객체의 대표 이미지의 신경망의 분류 결과를 이용하여 순환 신경망을 통해 생성되는 것이 바람직하다.The user input interface includes a question text generated by using the object classification result of the neural network of the training image and feature information of an object in the training image, and the question text includes the object classification result of the neural network for the training image and It is preferable that the representative image of the object is generated through a recurrent neural network using a neural network classification result.

상술한 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 사용자 디바이스 화면을 통한 신경망 학습 데이터가공 방법을 수행하는 사용자 디바이스는 상기 사용자 디바이스 화면의 일 영역에 학습 이미지를 표시하는 표시부; 상기 학습 이미지에 대한 신경망의 출력을 이용하여 생성된 사용자 입력 인터페이스를 제공하고, 상기 사용자 입력 인터페이스에 대한 사용자의 응답을 수신하는 인터페이스 제공부를 포함하고, 상기 학습 이미지는 상기 사용자의 응답에 따라 갱신되는 것이 바람직하다.A user device for performing a neural network learning data processing method through a user device screen according to an embodiment of the present invention for achieving the above object includes: a display unit for displaying a learning image on an area of the user device screen; and an interface providing unit for providing a user input interface generated by using the output of the neural network to the learning image, and receiving a user's response to the user input interface, wherein the learning image is updated according to the user's response it is preferable

상술한 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 사용자 디바이스 화면을 통한 신경망 학습 데이터 가공 방법을 제공하는 서버는 상기 사용자 디바이스 화면의 일 영역에 표시할 학습 이미지를 선별하는 이미지 선별부; 상기 학습 이미지의 신경망의 객체 분류 결과와 상기 학습 이미지 내 일 객체의 특징정보를 이용하여 질문을 생성하는 질문 생성부; 상기 학습 이미지에 대한 신경망의 출력 및 상기 생성된 질문을 이용하여 생성된 사용자 입력 인터페이스에 대한 사용자의 응답을 수신하는 응답 수신부; 및 상기 수신된 사용자의 응답에 따라 상기 학습 이미지의 레이블링 정보를 갱신하는 학습 데이터 갱신부를 포함한다. A server for providing a method for processing neural network learning data through a user device screen according to an embodiment of the present invention for achieving the above object includes: an image selection unit for selecting a learning image to be displayed on an area of the user device screen; a question generator for generating a question using the object classification result of the neural network of the training image and feature information of an object in the training image; a response receiver configured to receive an output of the neural network for the training image and a user response to a user input interface generated using the generated question; and a learning data updater for updating the labeling information of the learning image according to the received user's response.

한편, 상술한 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 기록 매체에 저장된 프로그램은 상술한 학습 데이터 가공 방법을 실행하기 위한 프로그램 코드를 포함할 수 있다.Meanwhile, the program stored in the recording medium according to an embodiment of the present invention for achieving the above object may include a program code for executing the above-described learning data processing method.

본 발명에 따르면, 기 학습된 학습 데이터를 기초로 딥러닝 기반 객체 인식 모델을 학습시키기 위한 학습 이미지를 가공할 수 있다.According to the present invention, it is possible to process a learning image for learning a deep learning-based object recognition model based on pre-learned learning data.

또한, 사용자 디바이스의 인터페이스를 이용하여 보다 효율적으로 사용자가 학습 데이터의 레이블링을 수행할 수 있도록 한다.In addition, by using the interface of the user device, the user can perform the labeling of the learning data more efficiently.

또한, 본 발명은 학습 데이터의 레이블링을 위한 질문을 효과적으로 생성하여 사용자의 레이블링을 보다 수월하게 할 수 있다.In addition, the present invention can effectively generate a question for labeling learning data, thereby making it easier for a user to label.

도 1은 본 발명의 일 실시예에 따른 학습 데이터 가공 방법을 수행하는 시스템을 나타낸 예시도이다.
도 2는 본 발명의 일 실시예에 따른 사용자 디바이스의 학습 데이터 가공 방법을 나타낸 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 사용자 인터페이스를 나타낸 예시도이다.
도 4는 본 발명의 일 실시예에 따른 서버의 학습 데이터 가공 방법을 나타낸 흐름도이다.
도 5 및 6은 본 발명의 일 실시예에 따른 학습 이미지 선별 방법을 나타낸 예시도이다.
도 7은 본 발명의 일 실시예에 따른 질문 생성 모델을 나타낸 예시도이다.
도 8은 본 발명의 일 실시예에 따른 사용자 인터페이스를 나타낸 예시도이다.
도 9은 본 발명의 일 실시예에 따른 학습 데이터 가공 서버의 구성을 나타낸 블록도이다.
1 is an exemplary diagram illustrating a system for performing a learning data processing method according to an embodiment of the present invention.
2 is a flowchart illustrating a learning data processing method of a user device according to an embodiment of the present invention.
3 is an exemplary diagram illustrating a user interface according to an embodiment of the present invention.
4 is a flowchart illustrating a method of processing learning data by a server according to an embodiment of the present invention.
5 and 6 are exemplary views illustrating a learning image selection method according to an embodiment of the present invention.
7 is an exemplary diagram illustrating a question generation model according to an embodiment of the present invention.
8 is an exemplary diagram illustrating a user interface according to an embodiment of the present invention.
9 is a block diagram showing the configuration of a learning data processing server according to an embodiment of the present invention.

이하의 내용은 단지 본 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만 본 발명의 원리를 구현하고 본 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다. 또한, 본 명세서에 열거된 모든 조건부 용어 및 실시 예들은 원칙적으로, 본 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이와 같이 특별히 열거된 실시 예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다.The following is merely illustrative of the principles of the invention. Therefore, those skilled in the art will be able to devise various devices that, although not explicitly described or shown herein, embody the principles of the present invention and are included within the spirit and scope of the present invention. In addition, all conditional terms and examples listed herein are, in principle, expressly intended only for the purpose of understanding the concept of the present invention, and it should be understood that they are not limited to the specifically enumerated embodiments and states as such. do.

상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해질 것이며, 그에 따라 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. The above objects, features and advantages will become more apparent through the following detailed description in relation to the accompanying drawings, and accordingly, those of ordinary skill in the art to which the present invention pertains can easily implement the technical idea of the present invention. There will be.

또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. In addition, in the description of the present invention, if it is determined that a detailed description of a known technology related to the present invention may unnecessarily obscure the gist of the present invention, the detailed description thereof will be omitted.

이하에는 첨부된 도면을 참조하여 본 발명의 다양한 실시 예에 대하여 상세하게 설명한다.Hereinafter, various embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 학습 데이터 가공 방법을 나타낸 흐름도이다.1 is a flowchart illustrating a learning data processing method according to an embodiment of the present invention.

도 1을 참조하면, 객체 인식을 위한 학습 데이터 가공 시스템은 서버(200)가 사용자 디바이스(100)를 통해 학습 이미지를 제공하고, 사용자의 응답을 학습 이미지에 반영함으로써 학습 데이터를 갱신할 수 있도록 한다.Referring to FIG. 1 , the learning data processing system for object recognition allows the server 200 to update the learning data by providing a learning image through the user device 100 and reflecting the user's response to the learning image. .

구체적으로 서버(200)는 사용자 디바이스(100)로 학습 이미지와 학습 이미지의 레이블링을 위한 질문 등을 생성하여 제공하면, 사용자 디바이스(100)는 미리 결정된 인터페이스를 통해 사용자에게 학습 이미지와 질문을 표시하고 응답을 입력할 수 있도록 한다.Specifically, when the server 200 generates and provides a learning image and a question for labeling the learning image to the user device 100, the user device 100 displays the learning image and the question to the user through a predetermined interface, Allows you to enter a response.

예를 들어 학습 이미지에 대한 응답을 2가지 중 어느 하나를 결정하는 식으로 요구하는 경우에는 어느 하나를 선택하도록 하는 인터페이스를 사용자 디바이스(100)의 화면으로 표시하고 사용자의 응답을 수신할 수 있다.For example, when a response to the learning image is requested in a manner of determining one of two, an interface for selecting one may be displayed on the screen of the user device 100 and the user's response may be received.

또한, 본 실시예에서는 인터페이스를 사용자 디바이스(100)의 잠금 화면을 통해 제공하여 사용자가 사용자 디바이스(100)를 사용하는 본연의 목적 상 추가되는 인터페이스 상 동선의 추가를 최소화하고 이를 통해 효율적인 데이터 수집이 가능하도록 한다. In addition, in this embodiment, the interface is provided through the lock screen of the user device 100 to minimize the addition of a moving line on the interface added for the original purpose of the user using the user device 100 and efficient data collection through this make it possible

구체적으로 인터페이스를 통해 수집되는 정보는 학습 이미지 내 객체에 대한 정보로서 미리 출력된 정보의 오류 여부를 판단한 정확한 정답(Ground Truth) 값으로 학습 이미지에 대한 객체 관련 정보를 레이블링 하기 위함이다.In detail, the information collected through the interface is information about the object in the training image, and it is to label the object-related information on the training image as an accurate ground truth value that determines whether or not the previously output information is an error.

본 실시예에서 레이블링은 지도 학습에 이용되는 출력 결과 값을 학습 이미지에 대응하여 저장하는 것으로 어노테이션(annotation), 태깅(tagging) 등의 표현과 혼용하여 사용될 수 있으며 특정 표현에 한정되지 않는다.In the present embodiment, labeling is to store an output result value used for supervised learning in response to a learning image, and may be used in combination with expressions such as annotation and tagging, and is not limited to a specific expression.

서버(200)는 사용자 디바이스(100)의 응답을 통해 학습 데이터의 레이블링 정보를 갱신할 수 있으며 이를 통해 전체 학습 데이터 셋의 품질을 높일 수 있다.The server 200 may update the labeling information of the learning data through the response of the user device 100 , and through this, the quality of the entire learning data set may be improved.

이하, 도 2를 참조하여 본 실시예에 따른 사용자 디바이스(100) 화면을 통한 신경망 학습 데이터 가공 방법에 대하여 설명한다.Hereinafter, a method of processing neural network learning data through the screen of the user device 100 according to the present embodiment will be described with reference to FIG. 2 .

먼저 사용자 디바이스(100) 화면의 일 영역에 학습 이미지를 표시한다(S100).First, a learning image is displayed on one area of the screen of the user device 100 (S100).

또한, 사용자 디바이스(100)는 학습 이미지와 함께 학습 이미지에 대한 신경망의 출력을 이용하여 생성된 사용자 입력 인터페이스를 제공할 수 있다(S200).In addition, the user device 100 may provide a user input interface generated by using the output of the neural network for the training image together with the training image (S200).

사용자 입력 인터페이스는 사용자 디바이스(100) 상의 시각적으로 표현되는 GUI(Graphic User Interface)로 생성될 수 있으며 사용자는 직접 눈으로 표시되는 정보를 확인하고 이에 대한 응답을 입력할 수 있다.The user input interface may be created as a graphical user interface (GUI) that is visually expressed on the user device 100 , and the user may directly check information displayed with the eyes and input a response thereto.

도 3을 참조하면, 도 3은 본 실시예에 따른 사용자 인터페이스를 예시하는 도로서 사용자 디바이스(100) 상에 시각적으로 제공될 수 있다.Referring to FIG. 3 , FIG. 3 may be visually provided on the user device 100 as a road illustrating a user interface according to the present embodiment.

구체적으로 본 실시예에 따른 인터페이스에는 학습 이미지를 표시하는 부분(110)과 학습 이미지에 대하여 획득하고자 하는 응답을 질문하는 질문 표시 부분(120) 및 응답을 입력하는 부분(130)을 포함할 수 있다.Specifically, the interface according to the present embodiment may include a part 110 for displaying a learning image, a question display part 120 for asking a response to be obtained with respect to the learning image, and a part 130 for inputting a response. .

따라서, 사용자는 해당 학습 이미지를 눈으로 확인하고 질문에 따라 고양이가 존재하는 것으로 판단되므로 Yes에 해당하는 방향으로 사용자 디바이스(100)의 터치 화면을 드래그 하거나 터치하는 것으로 응답을 입력할 수 있다.Accordingly, the user checks the learning image with his/her eyes, and it is determined that the cat is present according to the question. Therefore, the user can input the response by dragging or touching the touch screen of the user device 100 in the direction corresponding to Yes.

즉, 사용자 디바이스(100)는 사용자 입력 인터페이스에 대한 사용자의 응답을 직접 수신하고(S300) 이를 서버(200)로 제공할 수 있다(S400).That is, the user device 100 may directly receive the user's response to the user input interface (S300) and provide it to the server 200 (S400).

다음, 서버(200)는 사용자 디바이스(100)로 제공된 학습 이미지를 상기 사용자의 응답에 따라 갱신하여 만약 학습 이미지에 대한 레이블링 결과에 오류가 있는 경우 이를 정정할 수 있다.Next, the server 200 may update the training image provided to the user device 100 according to the user's response, and if there is an error in the labeling result for the training image, it may be corrected.

이때, 표시되는 학습 이미지는 서버(200)에서 직접 추출될 수 있다.In this case, the displayed learning image may be directly extracted from the server 200 .

구체적으로 서버(200)는 학습 이미지를 포함하는 데이터 세트 내 각각의 객체 별 특징을 미리 결정된 차원의 특징 공간에 매핑하여 데이터베이스로 관리할 수 있으며, 특징 공간을 활용하여 학습 이미지를 추출할 수 있다.Specifically, the server 200 may map the characteristics of each object in the data set including the training image to a feature space of a predetermined dimension and manage it as a database, and may extract a learning image by utilizing the feature space.

이하, 도 4를 참조하여 본 실시예에 따른 서버(200)의 동작에 대하여 보다 상세히 설명한다.Hereinafter, the operation of the server 200 according to the present embodiment will be described in more detail with reference to FIG. 4 .

먼저 서버(200)는 사용자 디바이스(100) 화면의 일 영역에 표시할 학습 이미지를 선별한다(S10).First, the server 200 selects a learning image to be displayed on one area of the screen of the user device 100 (S10).

구체적으로 서버(200)는 학습 이미지의 선별을 위하여 데이터 세트 내 검출된 객체의 특징 정보를 이용할 수 있다.Specifically, the server 200 may use characteristic information of the object detected in the data set to select the training image.

도 5를 참조하면, 서버(200)는 신경망의 연산을 통해 이미지 내 추출된 객체의 특징 정보를 특징 공간(40) 내 매핑 시킴으로써 학습 데이터 세트 내 이미지들을 관리할 수 있다.Referring to FIG. 5 , the server 200 may manage the images in the training data set by mapping the feature information of the object extracted from the image through the operation of the neural network in the feature space 40 .

이때 동일한 종류의 객체는 유사한 특징들을 공유하므로 공통 객체에 대한 이미지들의 특징 정보들은 특징 공간 내 유사한 위치로 클러스터링 될 수 있다.In this case, since the same type of object shares similar features, feature information of images of the common object may be clustered at similar positions in the feature space.

구체적으로 매핑되는 특징 정보는 신경망의 컨볼루션 레이어의 출력 결과를 이용할 수 있으며, 복수의 컨볼루션 연산을 통해 이미지 내 객체의 특징들은 강조되어 압축될 수 있다.Specifically, the mapped feature information may use the output result of the convolution layer of the neural network, and the features of the object in the image may be emphasized and compressed through a plurality of convolution operations.

서버(200)는 특징 공간(40)을 활용하여 특징 정보들의 특징 공간 내 분포 중 이상 매핑된 객체(객체에 대한 특징 정보를 포함하는 이미지)를 추출할 수 있다.The server 200 may use the feature space 40 to extract an abnormally mapped object (an image including feature information on the object) from the distribution of feature information in the feature space.

이상 매핑이란 예를 들어 특징 공간 내 분류 1(호랑이)에 해당하는 클러스터와, 분류 2(고양이)에 해당하는 클러스터가 있을 때, 분류 1의 클러스터 내에 분류 2로 분류된 객체의 매핑 정보(42)가 존재하는 경우 해당 분류는 오류가 있을 수 있음을 가정하고 학습 이미지로 추출할 수 있다.Anomaly mapping is, for example, when there is a cluster corresponding to classification 1 (tiger) and a cluster corresponding to classification 2 (cat) in the feature space, mapping information of an object classified as classification 2 in the cluster of classification 1 (42) If is present, the classification can be extracted as a training image assuming that there may be errors.

반대로 분류 2의 클러스터 내에 분류 1로 분류된 객체의 매핑 정보(44)가 존재하는 경우 해당 객체에 대한 원본 이미지를 학습 이미지로 추출하는 것도 가능하다.Conversely, when mapping information 44 of an object classified as classification 1 exists in the cluster of classification 2, it is also possible to extract an original image of the object as a training image.

이때 클러스터 내를 판단하기 위한 구체적인 방법으로 동일 객체로 분류된 특징 정보들의 객체 별 중심 위치를 기준으로 다른 분류의 중심 위치(46)가 더 가까운 객체가 존재하는 경우 해당 객체에 대한 이미지를 학습 이미지로 추출할 수 있다.At this time, as a specific method for judging within a cluster, if there is an object that is closer to the center position 46 of another classification based on the center position of each object of feature information classified as the same object, the image of the object is used as a learning image. can be extracted.

또는 군집 데이터의 경계 영역을 통해 추출하는 것도 가능하다.Alternatively, it is possible to extract through the boundary region of the cluster data.

도 6을 참조하면, 레이블링 되지 않은 데이터들의 경우 데이터들의 특징 정보를 미리 결정된 규칙에 따라 클러스터링 하여 특징 정보가 유사한 데이터들을 그룹화할 수 있다.Referring to FIG. 6 , in the case of unlabeled data, data having similar characteristic information may be grouped by clustering characteristic information of the data according to a predetermined rule.

미리 레이블링 되지 않은 데이터들의 군집화를 위해서는 각 데이터들을 가장 가까운 중심점으로 할당하고, 중심점과의 특징 공간 내 거리를 기반으로 군집을 생성할 수 있다.For clustering of data that is not pre-labeled, each data can be assigned to the nearest centroid, and a cluster can be created based on the distance from the centroid in the feature space.

이때, 군집으로 지정된 데이터들을 기반으로 해당 군집의 중심점을 업데이트를 지속적으로 수행하면서 군집을 갱신할 수 있으며 군집들 간의 경계가 생성될 수 있다.In this case, the cluster may be updated while continuously updating the center point of the corresponding cluster based on the data designated as the cluster, and a boundary between the clusters may be generated.

바람직하게 군집들 간의 경계는 차원에 따라 특징 공간 내 직선 또는 평면으로 생성될 수 있으며 해당 경계를 정의하는 벡터를 이용하여 학습 이미지를 추출할 수 있다.Preferably, the boundary between the clusters may be generated as a straight line or a plane in the feature space according to a dimension, and a learning image may be extracted using a vector defining the boundary.

예를 들어 도 6과 같이 군집 간의 경계를 정의하는 벡터(50)와 접하는 위치에 있는 객체(52,54,56) 또는 벡터(50)와 소정 거리 이내의 객체를 포함하는 이미지들을 학습 이미지로 추출할 수 있다. 일반적으로 군집의 중점 부분에서 멀어질수록 명확하지 않은 데이터들이 포진할 확률이 높으므로 경계 영역의 데이터를 학습 이미지로 우선 샘플링할 수 있다.For example, as shown in FIG. 6 , images including objects 52 , 54 , 56 at positions tangent to the vector 50 defining the boundary between clusters or objects within a predetermined distance from the vector 50 are extracted as training images. can do. In general, as the distance from the central part of the cluster increases, the probability of unambiguous data is higher, so the data in the boundary region can be sampled first as a training image.

다음, 서버(200)는 상기 학습 이미지에 대한 신경망의 출력을 이용하여 생성된 사용자 입력 인터페이스에 대한 사용자의 응답을 수신한다(S20).Next, the server 200 receives the user's response to the user input interface generated by using the output of the neural network for the training image (S20).

이때, 서버(200)는 사용자 입력 인터페이스에 추출된 학습 이미지와 함께 사용자의 응답을 유도하기 위한 질문을 함께 제공함으로써 사용 편의성을 높일 수 있다.In this case, the server 200 may increase the ease of use by providing a question for inducing a user's response together with the extracted learning image on the user input interface.

본 실시예에서는 질문의 생성을 위하여 추가적인 신경망을 이용하는 것도 가능하다.In this embodiment, it is also possible to use an additional neural network for generating a question.

도 7을 참조하면, 질문 생성을 위한 질문 생성 모델은 이미지 선별부(210)에서 선별된 이미지의 특징 정보와 속성(attribute) 분류 결과를 생성하는 신경망(212), 신경망의 속성을 추출하는 속성 추출부(214), 추출된 속성과 신경망(212)의 중간 출력으로 특징 정보를 이용하여 자연어 형태의 질문을 생성하는 질문 생성부(220)로 구성될 수 있다.Referring to FIG. 7 , the question generation model for generating a question includes a neural network 212 that generates characteristic information and attribute classification results of the image selected by the image selection unit 210 , and attribute extraction that extracts attributes of the neural network The unit 214 may be composed of a question generator 220 that generates a question in a natural language form using the extracted attributes and feature information as an intermediate output of the neural network 212 .

즉, 질문 생성 모델은 분류 결과 외에 사용자 디바이스(100)에 표시할 학습 이미지가 선정되면 해당 이미지 내 객체의 특징 정보도 함께 이용할 수 있다. 구체적으로 객체의 특징 정보는 특징 정보에 따른 분류 값들을 이용하여 질문의 형태 또는 질문에 이용되는 특정 단어를 추출하는데 이용할 수 있다.That is, when a learning image to be displayed on the user device 100 is selected in addition to the classification result, the question generation model may also use feature information of an object in the image. Specifically, the characteristic information of the object may be used to extract a specific word used in a question or a form of a question by using classification values according to the characteristic information.

따라서, 특징 정보는 컨볼루션 연산으로 생성된 특징 맵 외 해당 이미지의 1차적인 레이블링 정보, 또는 데이터 셋 내의 다른 분류의 중심점 과의 거리 정보 등을 더 포함할 수 있다.Accordingly, the feature information may further include, in addition to the feature map generated by the convolution operation, primary labeling information of the corresponding image, or distance information from the center point of another classification in the data set.

즉 서버(200)는 학습 이미지 내 포함된 객체와 관련된 질문을 생성하기 위해 이미지 자체의 특징 정보 외 다른 분류와의 특징 공간 내 관계, 레이블링 정보들을 이용할 수 있다.That is, the server 200 may use a relation in a feature space with a classification other than the feature information of the image itself and labeling information to generate a question related to an object included in the training image.

또한 서버(200)는 대상 학습 이미지와 비교를 위한 분류 내 대표 이미지를 더욱 이용하여 학습 이미지와 비교를 통해 속성을 추출하는 것도 가능하다.In addition, it is also possible for the server 200 to extract attributes through comparison with the training image by further using the representative image in the classification for comparison with the target learning image.

즉, 대표 이미지와 학습 이미지는 각각 신경망(212)에 입력되어 특징 정보와 특징 정보에 따른 분류 결과로 속성 점수(Attribute Score)를 추출한다.That is, the representative image and the learning image are input to the neural network 212, respectively, and an attribute score is extracted as a result of classification according to the characteristic information and the characteristic information.

다음, 속성 추출부(214)는 양 이미지의 속성 간의 대조(Attribute contrast)나 시각적인 특징들의 대조(Visual contrast) 등을 통해 질문 생성에 이용할 속성의 쌍을 최종 적으로 추출할 수 있다.Next, the attribute extraction unit 214 may finally extract a pair of attributes to be used for generating a question through attribute contrast between attributes of both images or visual contrast between images.

질문 생성부(220)는 추출된 속성 쌍(예를 들어 분류 결과의 쌍, Tiger-Cat, Angry - Surprise 등)과 신경망의 컨볼루션 연산을 통해 생성된 특징 정보를 이용하여 자연어 처리에 적합한 순환 신경망(Recurrent Neural Network) 기반의 LSTM(Long-Short Term Memory) 모델을 이용하여 질문(80)을 생성할 수 있다.The question generator 220 uses the extracted attribute pair (eg, a pair of classification results, Tiger-Cat, Angry-Surprise, etc.) and feature information generated through a convolution operation of the neural network in a recurrent neural network suitable for natural language processing. The question 80 may be generated using a Recurrent Neural Network (LSTM)-based Long-Short Term Memory (LSTM) model.

즉, CNN 모델의 이미지 임베딩과 RNN 기반의 자연어 임베딩을 이용하여 신경망의 출력 타입 및 속성을 포함하는 자연어 형태의 질문을 생성할 수 있다.That is, by using the image embedding of the CNN model and the natural language embedding based on the RNN, it is possible to generate a question in the form of a natural language including the output type and properties of the neural network.

이상의 과정을 통해 생성된 질문은 학습 이미지와 함께 인터페이스 상에 표시되며 이를 통해 사용자는 질문에 해당하는 응답을 입력하고 서버는 응답을 수신한다(S30)The question generated through the above process is displayed on the interface together with the learning image, through which the user inputs a response corresponding to the question, and the server receives the response (S30)

다음 서버(200)는 수신된 사용자의 응답에 따라 상기 학습 이미지의 레이블링 정보를 갱신하여 학습 데이터를 업데이트 한다(S40). 구체적으로 서버(200)는 학습 이미지의 1차적인 레이블링 정보가 잘못된 경우 사용자의 응답에 따른 레이블링 정보를 생성할 수 있다.Next, the server 200 updates the training data by updating the labeling information of the training image according to the received user's response (S40). Specifically, when the primary labeling information of the training image is incorrect, the server 200 may generate labeling information according to the user's response.

또한 본 실시예에서 인터페이스는 객체에 대한 신경망의 출력 타입에 따라 결정될 수 있다.Also, in this embodiment, the interface may be determined according to the output type of the neural network for the object.

예를 들어서 신경망이 클래스를 분류하는 목적인 경우 해당 클래스를 선택하기 위한 인터페이스가 선택형으로 제공될 수 있다.For example, if the purpose of the neural network is to classify a class, an interface for selecting a corresponding class may be provided as an option.

도 9를 참조하면 분류 결과의 단순 정오 여부의 판단을 위하는 경우 바이너리 형태의 선택 인터페이스(92)가 제공될 수 있으며, 특정 객체의 존재 여부(94) 또는 위치까지 레이블링이 필요한 경우 해당 위치를 선택하도록 구획하여 존재하는 영역을 선택하도록 인터페이스(96)를 제공하는 것도 가능하다.Referring to FIG. 9 , a binary type selection interface 92 may be provided for determining whether the classification result is simple noon, and when labeling is required to the existence 94 or position of a specific object, the corresponding position is selected. It is also possible to provide an interface 96 to select an area to be partitioned into.

또는 라디오 버튼과 같은 형태로 객체의 분류 값을 실제로 제공해 주고 해당 객체를 직접 선택하도록 사용자에게 인터페이스(95, 97)로 요청하는 것도 가능하다. Alternatively, it is also possible to provide a classification value of an object in the form of a radio button and request the user to directly select the object through the interfaces 95 and 97 .

이하, 본 실시예에 따른 서버(200)의 구성에 대하여 설명한다.Hereinafter, the configuration of the server 200 according to the present embodiment will be described.

서버(200)는 이미지 선별부(210), 질문 생성부(220), 응답 수신부(230) 및 학습 데이터 갱신부(240)를 포함할 수 있다.The server 200 may include an image selector 210 , a question generator 220 , a response receiver 230 , and a learning data updater 240 .

이미지 선별부(210)는 사용자 디바이스(100) 화면의 일 영역에 표시할 학습 이미지를 선별한다. 구체적으로 데이터 세트 내 검출된 객체의 특징 정보를 이용할 수 있다.The image selection unit 210 selects a learning image to be displayed on one area of the screen of the user device 100 . Specifically, feature information of an object detected in the data set may be used.

상술한 바와 같이 이미지 선별부(210)는 학습 데이터 세트 내 이미지 별로 추출된 특징 정보들이 특징 공간에 매핑 된 상태에서 이상 매핑 된 이미지들을 학습 이미지로 추출할 수 있다.As described above, the image selector 210 may extract abnormally mapped images as training images in a state in which feature information extracted for each image in the training data set is mapped to a feature space.

예를 들어 동일 분류의 클러스터 내부에 다른 분류의 특징 정보를 갖는 이미지를 학습 이미지로 추출하거나 군집들의 경계를 정의하는 기준 벡터를 이용하여 경계선에 위치하는 학습 이미지들을 추출할 수 있다. For example, an image having characteristic information of a different classification within a cluster of the same classification may be extracted as a training image, or training images located at the boundary may be extracted using a reference vector defining the boundary of the clusters.

질문 생성부(220)는 사용자 입력 인터페이스에 추출된 학습 이미지와 함께 사용자의 응답을 유도하기 위한 질문을 함께 제공함으로써 사용 편의성을 높이며, 질문의 생성을 위하여 추가적인 신경망을 이용하는 것도 가능하다.The question generator 220 provides a question for inducing a user's response together with the extracted learning image on the user input interface, thereby increasing ease of use, and it is also possible to use an additional neural network to generate the question.

질문 생성을 위한 질문 생성 모델은 학습 이미지를 선별하고, 선별된 이미지의 특징 정보와 속성 분류 결과를 생성하는 신경망, 신경망의 속성을 추출하고 추출된 속성을 이용하여 자연어 형태의 질문을 생성한다.The question generation model for question generation selects a training image, a neural network that generates characteristic information and attribute classification results of the selected image, and extracts the properties of the neural network, and generates a question in a natural language form using the extracted properties.

응답 수신부(230)는 생성된 질문과 학습 이미지를 사용자 디바이스(100)에 제공하고, 사용자 입력 인터페이스에 대한 사용자의 응답을 수신한다.The response receiving unit 230 provides the generated question and the learning image to the user device 100 , and receives a user's response to the user input interface.

학습 데이터 갱신부(240)는 수신된 사용자의 응답에 따라 상기 학습 이미지의 레이블링 정보를 갱신하여 학습 데이터를 업데이트 한다.The training data updater 240 updates the training data by updating the labeling information of the training image according to the received user's response.

도시하지는 않았으나 사용자 디바이스(100)는 사용자 디바이스 화면의 일 영역에 학습 이미지를 표시하는 표시부 및 상기 학습 이미지에 대한 신경망의 출력을 이용하여 생성된 사용자 입력 인터페이스를 제공하고, 상기 사용자 입력 인터페이스에 대한 사용자의 응답을 수신하는 인터페이스 제공부를 포함할 수 있다.Although not shown, the user device 100 provides a user input interface generated using a display unit for displaying a learning image in one area of the user device screen and an output of a neural network for the learning image, and provides a user for the user input interface. It may include an interface providing unit for receiving a response of.

이때 인터페이스는 상술한 바와 같이 GUI 형태로 제공될 수 있으며 따라서 표시부와 인터페이스 제공부는 일체로 구성되는 것도 가능하다.In this case, the interface may be provided in the form of a GUI as described above, and thus the display unit and the interface providing unit may be integrally configured.

수신된 사용자의 응답은 사용자 디바이스의 통신 모듈을 통해 서버(200)로 전달될 수 있다.The received user's response may be transmitted to the server 200 through a communication module of the user device.

이상 본 발명에 따르면, 기 학습된 학습 데이터를 기초로 딥러닝 기반 객체 인식 모델을 학습시키기 위한 학습 이미지를 가공할 수 있다.As described above, according to the present invention, it is possible to process a learning image for learning a deep learning-based object recognition model based on pre-learned learning data.

또한, 사용자 디바이스의 인터페이스를 이용하여 보다 효율적으로 사용자가 학습 데이터의 레이블링을 수행할 수 있도록 한다.In addition, by using the interface of the user device, the user can perform the labeling of the learning data more efficiently.

또한, 본 발명은 학습 데이터의 레이블링을 위한 질문을 효과적으로 생성하여 사용자의 레이블링을 보다 수월하게 할 수 있다.In addition, the present invention can effectively generate a question for labeling learning data, thereby making it easier for a user to label.

나아가, 여기에 설명되는 다양한 실시예는 예를 들어, 소프트웨어, 하드웨어 또는 이들의 조합된 것을 이용하여 컴퓨터 또는 이와 유사한 장치로 읽을 수 있는 기록매체 내에서 구현될 수 있다.Furthermore, various embodiments described herein may be implemented in a computer-readable recording medium using, for example, software, hardware, or a combination thereof.

하드웨어적인 구현에 의하면, 여기에 설명되는 실시예는 ASICs (application specific integrated circuits), DSPs (digital signal processors), DSPDs (digital signal processing devices), PLDs (programmable logic devices), FPGAs (field programmable gate arrays, 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 전기적인 유닛 중 적어도 하나를 이용하여 구현될 수 있다. 일부의 경우에 본 명세서에서 설명되는 실시예들이 제어 모듈 자체로 구현될 수 있다.According to the hardware implementation, the embodiments described herein include ASICs (application specific integrated circuits), DSPs (digital signal processors), DSPDs (digital signal processing devices), PLDs (programmable logic devices), FPGAs (field programmable gate arrays, It may be implemented using at least one of processors, controllers, micro-controllers, microprocessors, and other electrical units for performing functions. The described embodiments may be implemented in the control module itself.

소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상기 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다. 적절한 프로그램 언어로 쓰여진 소프트웨어 어플리케이션으로 소프트웨어 코드가 구현될 수 있다. 상기 소프트웨어 코드는 메모리 모듈에 저장되고, 제어모듈에 의해 실행될 수 있다.According to the software implementation, embodiments such as the procedures and functions described in this specification may be implemented as separate software modules. Each of the software modules may perform one or more functions and operations described herein. The software code may be implemented as a software application written in a suitable programming language. The software code may be stored in the memory module and executed by the control module.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. The above description is merely illustrative of the technical idea of the present invention, and those of ordinary skill in the art to which the present invention pertains may make various modifications, changes and substitutions within the scope without departing from the essential characteristics of the present invention. will be.

따라서, 본 발명에 개시된 실시 예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구 범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.Accordingly, the embodiments disclosed in the present invention and the accompanying drawings are for explaining, not limiting, the technical spirit of the present invention, and the scope of the technical spirit of the present invention is not limited by these embodiments and the accompanying drawings . The protection scope of the present invention should be construed by the following claims, and all technical ideas within the scope equivalent thereto should be construed as being included in the scope of the present invention.

Claims (14)

사용자 디바이스에서 수행되는 사용자 디바이스 화면을 통한 신경망 학습 데이터 가공 방법에 있어서,
상기 사용자 디바이스 화면의 일 영역에 학습 이미지를 표시하는 단계;
상기 학습 이미지에 대한 신경망의 출력을 이용하여 생성된 사용자 입력 인터페이스를 제공하는 단계; 및
상기 사용자 입력 인터페이스에 대한 사용자의 응답을 수신하는 단계를 포함하고,
상기 사용자 입력 인터페이스는 질문 생성 모델을 통해 생성된 질문 텍스트를 포함하고,
상기 질문 생성 모델은 상기 학습 이미지를 포함하는 데이터 세트 내 각각의 객체 별 특징을 미리 결정된 차원의 특징 공간에 매핑하여 생성된 객체 별 분포의 중심점에 대응되는 이미지를 대표 이미지로 선별하고,
상기 학습 이미지 및 대표 이미지의 이미지 쌍에 대한 상기 신경망의 중간 출력으로 컨볼루션 연산 후 생성된 시각적 특징간의 대조로 정의되는 제1 특징 정보 쌍 및,
상기 이미지 쌍에 대한 상기 신경망의 분류 결과에 따라 생성된 속성 간의 대조로 정의되는 제2 특징 정보 쌍을 순환 신경망의 순차 입력으로 하여 자연어 형태의 상기 질문 텍스트를 생성하는 것을 특징으로 하는 신경망 학습 데이터 가공 방법.
In the method of processing neural network learning data through the user device screen performed in the user device,
displaying a learning image on an area of the screen of the user device;
providing a user input interface generated using an output of a neural network for the training image; and
receiving a user's response to the user input interface;
The user input interface includes a question text generated through a question generation model,
The question generation model selects, as a representative image, an image corresponding to the center point of the distribution of each object generated by mapping the characteristics of each object in the data set including the training image to a feature space of a predetermined dimension,
a first pair of feature information defined as a contrast between visual features generated after a convolution operation with an intermediate output of the neural network for an image pair of the training image and the representative image;
Neural network learning data processing, characterized in that the second characteristic information pair defined as a contrast between the properties generated according to the classification result of the neural network for the image pair is sequentially input to the recurrent neural network to generate the question text in the natural language form method.
제 1 항에 있어서,
상기 표시되는 학습 이미지는,
상기 학습 이미지를 포함하는 데이터 세트 내 각각의 객체 별 특징을 미리 결정된 차원의 특징 공간에 매핑하여 생성된 객체 별 분포 상 이상 매핑된 객체를 포함하는 것을 특징으로 하는 신경망 학습 데이터 가공 방법.
The method of claim 1,
The displayed learning image is,
A method for processing neural network learning data, characterized in that it includes an object mapped abnormally on a distribution for each object generated by mapping the characteristic of each object in the data set including the training image to a feature space of a predetermined dimension.
제 1 항에 있어서,
상기 표시되는 학습 이미지는,
상기 학습 이미지를 포함하는 데이터 세트 내 각각의 객체 별 특징을 미리 결정된 차원의 특징 공간에 매핑하여 생성된 객체 별 분포를 구분하는 벡터를 기준으로 추출되는 것을 특징으로 하는 신경망 학습 데이터 가공 방법.
The method of claim 1,
The displayed learning image is,
A method for processing neural network learning data, characterized in that the extraction is performed based on a vector for classifying the distribution of each object generated by mapping the features of each object in the data set including the training image to a feature space of a predetermined dimension.
제 1 항에 있어서,
상기 사용자 입력 인터페이스는 신경망의 출력 타입에 따라 결정된 인터페이스로 표시되는 것을 특징으로 하는 신경망 학습 데이터 가공 방법.
The method of claim 1,
The user input interface is a neural network learning data processing method, characterized in that displayed as an interface determined according to the output type of the neural network.
삭제delete 삭제delete 서버의 사용자 디바이스 화면을 통한 신경망 학습 데이터 가공 방법에 있어서,
상기 사용자 디바이스 화면의 일 영역에 표시할 학습 이미지를 선별하는 단계;
상기 학습 이미지에 대한 신경망의 출력을 이용하여 생성된 사용자 입력 인터페이스에 대한 사용자의 응답을 수신하는 단계; 및
상기 수신된 사용자의 응답에 따라 상기 학습 이미지의 레이블링 정보를 갱신하는 단계를 포함하고,
상기 사용자 입력 인터페이스는 질문 생성 모델을 통해 생성된 질문 텍스트를 포함하고,
상기 질문 생성 모델은 상기 학습 이미지를 포함하는 데이터 세트 내 각각의 객체 별 특징을 미리 결정된 차원의 특징 공간에 매핑하여 생성된 객체 별 분포의 중심점에 대응되는 이미지를 대표 이미지로 선별하고,
상기 학습 이미지 및 대표 이미지의 이미지 쌍에 대한 상기 신경망의 중간 출력으로 컨볼루션 연산 후 생성된 시각적 특징간의 대조로 정의되는 제1 특징 정보 쌍 및,
상기 이미지 쌍에 대한 상기 신경망의 분류 결과에 따라 생성된 속성 간의 대조로 정의되는 제2 특징 정보 쌍을 순환 신경망의 순차 입력으로 하여 자연어 형태의 상기 질문 텍스트를 생성하는 것을 특징으로 하는 신경망 학습 데이터 가공 방법.
In the method of processing neural network learning data through the user device screen of the server,
selecting a learning image to be displayed on an area of the screen of the user device;
receiving a user's response to a user input interface generated using an output of a neural network for the training image; and
Comprising the step of updating the labeling information of the learning image according to the received user's response,
The user input interface includes a question text generated through a question generation model,
The question generation model selects, as a representative image, an image corresponding to the center point of the distribution of each object generated by mapping the characteristics of each object in the data set including the training image to a feature space of a predetermined dimension,
a first pair of feature information defined as a contrast between visual features generated after a convolution operation with an intermediate output of the neural network for an image pair of the training image and the representative image;
Neural network learning data processing, characterized in that the second characteristic information pair defined as a contrast between the properties generated according to the classification result of the neural network for the image pair is sequentially input to the recurrent neural network to generate the question text in the natural language form method.
제 7 항에 있어서,
상기 선별하는 단계는 상기 학습 이미지를 포함하는 데이터 세트 내 각각의 객체 별 특징을 미리 결정된 차원의 특징 공간에 매핑하여 생성된 객체 별 분포 상 이상 매핑된 객체를 포함하는 이미지를 학습 이미지로 선별하는 것을 특징으로 하는 신경망 학습 데이터 가공 방법.
8. The method of claim 7,
In the selecting step, an image including an object mapped abnormally on a distribution for each object generated by mapping the characteristics of each object in the data set including the training image to a feature space of a predetermined dimension is selected as a training image. A neural network learning data processing method characterized.
제 7 항에 있어서,
상기 선별하는 단계는 상기 학습 이미지를 포함하는 데이터 세트 내 각각의 객체 별 특징을 미리 결정된 차원의 특징 공간에 매핑하여 생성된 객체 별 분포를 구분하는 벡터를 기준으로 상기 벡터에 인접한 객체를 포함하는 이미지를 학습 이미지로 선별하는 것을 특징으로 하는 신경망 학습 데이터 가공 방법.
8. The method of claim 7,
The selecting includes an image including an object adjacent to the vector based on a vector for classifying the distribution of each object generated by mapping the feature of each object in the data set including the training image to a feature space of a predetermined dimension A method of processing neural network learning data, characterized in that it is selected as a learning image.
삭제delete 사용자 디바이스 화면을 통한 신경망 학습 데이터가공 방법을 수행하는 사용자 디바이스에 있어서,
상기 사용자 디바이스 화면의 일 영역에 학습 이미지를 표시하는 표시부;
상기 학습 이미지에 대한 신경망의 출력을 이용하여 생성된 사용자 입력 인터페이스를 제공하고, 상기 사용자 입력 인터페이스에 대한 사용자의 응답을 수신하는 인터페이스 제공부를 포함하고,
상기 사용자 입력 인터페이스는 질문 생성 모델을 통해 생성된 질문 텍스트를 포함하고,
상기 질문 생성 모델은 상기 학습 이미지를 포함하는 데이터 세트 내 각각의 객체 별 특징을 미리 결정된 차원의 특징 공간에 매핑하여 생성된 객체 별 분포의 중심점에 대응되는 이미지를 대표 이미지로 선별하고,
상기 학습 이미지 및 대표 이미지의 이미지 쌍에 대한 상기 신경망의 중간 출력으로 컨볼루션 연산 후 생성된 시각적 특징간의 대조로 정의되는 제1 특징 정보 쌍 및,
상기 이미지 쌍에 대한 상기 신경망의 분류 결과에 따라 생성된 속성 간의 대조로 정의되는 제2 특징 정보 쌍을 순환 신경망의 순차 입력으로 하여 자연어 형태의 상기 질문 텍스트를 생성하는 것을 특징으로 하는 사용자 디바이스.
In the user device for performing the neural network learning data processing method through the user device screen,
a display unit for displaying a learning image on an area of the screen of the user device;
and an interface providing unit that provides a user input interface generated by using the output of the neural network for the training image and receives a user's response to the user input interface,
The user input interface includes a question text generated through a question generation model,
The question generation model selects, as a representative image, an image corresponding to the center point of the distribution of each object generated by mapping the characteristics of each object in the data set including the training image to a feature space of a predetermined dimension,
a first pair of feature information defined as a contrast between visual features generated after a convolution operation with an intermediate output of the neural network for an image pair of the training image and the representative image;
The user device, characterized in that the second characteristic information pair defined as a contrast between the properties generated according to the classification result of the neural network for the image pair as a sequential input of the recurrent neural network to generate the question text in a natural language form.
사용자 디바이스 화면을 통한 신경망 학습 데이터 가공 방법을 제공하는 서버에 있어서,
상기 사용자 디바이스 화면의 일 영역에 표시할 학습 이미지를 선별하는 이미지 선별부;
상기 학습 이미지의 신경망의 객체 분류 결과와 상기 학습 이미지 내 일 객체의 특징정보를 이용하여 질문을 생성하는 질문 생성부;
상기 학습 이미지에 대한 신경망의 출력 및 상기 생성된 질문을 이용하여 생성된 사용자 입력 인터페이스에 대한 사용자의 응답을 수신하는 응답 수신부; 및
상기 수신된 사용자의 응답에 따라 상기 학습 이미지의 레이블링 정보를 갱신하는 학습 데이터 갱신부를 포함하고,
상기 사용자 입력 인터페이스는 질문 생성 모델을 통해 생성된 질문 텍스트를 포함하고,
상기 질문 생성 모델은 상기 학습 이미지를 포함하는 데이터 세트 내 각각의 객체 별 특징을 미리 결정된 차원의 특징 공간에 매핑하여 생성된 객체 별 분포의 중심점에 대응되는 이미지를 대표 이미지로 선별하고,
상기 학습 이미지 및 대표 이미지의 이미지 쌍에 대한 상기 신경망의 중간 출력으로 컨볼루션 연산 후 생성된 시각적 특징간의 대조로 정의되는 제1 특징 정보 쌍 및,
상기 이미지 쌍에 대한 상기 신경망의 분류 결과에 따라 생성된 속성 간의 대조로 정의되는 제2 특징 정보 쌍을 순환 신경망의 순차 입력으로 하여 자연어 형태의 상기 질문 텍스트를 생성하는 것을 특징으로 하는 서버.
In the server providing a method of processing neural network learning data through a user device screen,
an image selection unit for selecting a learning image to be displayed on an area of the screen of the user device;
a question generator for generating a question by using the object classification result of the neural network of the training image and feature information of an object in the training image;
a response receiver configured to receive an output of the neural network for the training image and a user response to a user input interface generated using the generated question; and
And a learning data update unit for updating the labeling information of the learning image according to the received user's response,
The user input interface includes a question text generated through a question generation model,
The question generation model selects, as a representative image, an image corresponding to the center point of the distribution of each object generated by mapping the characteristics of each object in the data set including the training image to a feature space of a predetermined dimension,
a first pair of feature information defined as a contrast between visual features generated after a convolution operation with an intermediate output of the neural network for an image pair of the training image and the representative image;
The server, characterized in that the second characteristic information pair defined as a contrast between the properties generated according to the classification result of the neural network for the image pair as a sequential input of the recurrent neural network to generate the question text in a natural language form.
제 1 항 내지 제 4 항 및 제 7 항 내지 제 9 항 중 어느 한 항에 따른 신경망 학습 데이터 가공 방법 을 수행하는 프로그램이 저장된 컴퓨터 판독 가능한 기록 매체.A computer-readable recording medium storing a program for performing the neural network learning data processing method according to any one of claims 1 to 4 and 7 to 9. 제 1 항 내지 제 4 항 및 제 7 항 내지 제 9 항 중 어느 한 항에 따른 신경망 학습 데이터 가공 방법 을 실행하기 위한 프로그램 코드를 포함하는 컴퓨터 판독 가능한 기록 매체에 저장된 프로그램.A program stored in a computer-readable recording medium comprising a program code for executing the neural network learning data processing method according to any one of claims 1 to 4 and 7 to 9.
KR1020210157731A 2021-11-16 2021-11-16 Method for adjusting neural network training data based on user device, system and computer program for the same method KR102375579B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210157731A KR102375579B1 (en) 2021-11-16 2021-11-16 Method for adjusting neural network training data based on user device, system and computer program for the same method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210157731A KR102375579B1 (en) 2021-11-16 2021-11-16 Method for adjusting neural network training data based on user device, system and computer program for the same method

Publications (1)

Publication Number Publication Date
KR102375579B1 true KR102375579B1 (en) 2022-03-17

Family

ID=80936371

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210157731A KR102375579B1 (en) 2021-11-16 2021-11-16 Method for adjusting neural network training data based on user device, system and computer program for the same method

Country Status (1)

Country Link
KR (1) KR102375579B1 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170008373A (en) * 2015-07-13 2017-01-24 고려대학교 산학협력단 Image captcha providing method and server
KR20180069452A (en) * 2016-12-15 2018-06-25 삼성전자주식회사 Method for training the neural network, method for recogning using neural network and apparatus thereof
KR20200075094A (en) * 2018-12-10 2020-06-26 울산과학기술원 Apparatus and method for generating object classifier
KR20200090963A (en) * 2015-12-03 2020-07-29 구글 엘엘씨 Image based captcha challenges
KR20210057611A (en) * 2019-11-12 2021-05-21 엘지전자 주식회사 Artificial intelligence apparatus and method for recognizing object included in image data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170008373A (en) * 2015-07-13 2017-01-24 고려대학교 산학협력단 Image captcha providing method and server
KR20200090963A (en) * 2015-12-03 2020-07-29 구글 엘엘씨 Image based captcha challenges
KR20180069452A (en) * 2016-12-15 2018-06-25 삼성전자주식회사 Method for training the neural network, method for recogning using neural network and apparatus thereof
KR20200075094A (en) * 2018-12-10 2020-06-26 울산과학기술원 Apparatus and method for generating object classifier
KR20210057611A (en) * 2019-11-12 2021-05-21 엘지전자 주식회사 Artificial intelligence apparatus and method for recognizing object included in image data

Similar Documents

Publication Publication Date Title
AU2020201988B2 (en) Selectiontell: a natural language interface for selection in image
US11341366B2 (en) Cross-modality processing method and apparatus, and computer storage medium
US11961227B2 (en) Method and device for detecting and locating lesion in medical image, equipment and storage medium
AU2020202601B2 (en) Utilizing object attribute detection models to automatically select instances of detected objects in images
US20190370587A1 (en) Attention-based explanations for artificial intelligence behavior
US11631234B2 (en) Automatically detecting user-requested objects in images
WO2020086773A1 (en) Software test case maintenance
US20220285024A1 (en) Facilitating interpretability of classification model
CN114424251A (en) Preparing a training data set using a machine learning algorithm
US11755191B2 (en) Synthetic image data generation incorporating user-provided objects and relationships
CN116583883A (en) Rule extraction-based deep neural network interpretation method, system and medium
US11164036B2 (en) Human-assisted machine learning through geometric manipulation and refinement
JP5294738B2 (en) Semi-supervised visual clustering
CN114519401A (en) Image classification method and device, electronic equipment and storage medium
CN113128565B (en) Automatic image annotation system and device oriented to agnostic pre-training annotation data
KR102375579B1 (en) Method for adjusting neural network training data based on user device, system and computer program for the same method
US11587330B2 (en) Visual analytics platform for updating object detection models in autonomous driving applications
US11682135B2 (en) Systems and methods for detecting and correcting orientation of a medical image
CN110738261B (en) Image classification and model training method and device, electronic equipment and storage medium
WO2023146470A2 (en) Dual-level model for segmentation
CN116188478A (en) Image segmentation method, device, electronic equipment and storage medium
US20220327312A1 (en) Automatic image annotations
Yu et al. An iterative framework with active learning to match segments in road networks
GB2585972A (en) Utilizing object attribute detection models to automatically select instances of detected objects in images
US20240013028A1 (en) Processing device, processing method, and non-transitory computer readable medium storing program

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant