KR102167628B1

KR102167628B1 - 인공 지능 데이터 셋을 위한 영상 수집 장치 및 방법

Info

Publication number: KR102167628B1
Application number: KR1020180133228A
Authority: KR
Inventors: 류은석; 박은수
Original assignee: 가천대학교 산학협력단
Priority date: 2018-11-02
Filing date: 2018-11-02
Publication date: 2020-10-19
Also published as: KR20200054349A

Abstract

본 명세서에 개시된 인공 지능의 학습용 영상 수집 방법은 질의어를 수신받는 동작, 질의어에 대응하는 대상 개체에 대한 검색어를 생성하는 동작, 검색어에 대응하는 영상을 검색하고 검색된 영상의 URL을 추출하여 영상들을 전송받는 동작 및 영상에 대하여 기계 학습 모델을 적용하고, 대상 개체로 인식되는 부분을 분할하여 분할 영상으로 저장하는 동작을 포함할 수 있다.

Description

인공 지능 데이터 셋을 위한 영상 수집 장치 및 방법{IMAGE COLLECTING APPRATUS AND METHOD FOR AI DATA SET}

본 발명은 영상을 수집하는 장치 방법에 관한 것으로서, 더욱 상세하게는 인공 지능(기계 학습, 딥 러닝 등)의 학습 데이터를 위한 영상을 수집하는 기술이다.

인공 지능(Artificial Intelligence)은 인간의 지능적인 능력과 기능들을 기계가 대신하도록 하는 것을 목적으로 하는 지능과 그 응용을 다루는 기술 분야로서, 본 명세서에서는 기계 학습(Machine Learning), 딥 러닝(Deep Learning)도 포함한다.

최근 인공 지능이 자동차 산업, 언어 처리 관련 산업, 의료 산업, 금융 산업 등에 사용되고 있고, 인공 지능에 사용되는 학습방법 또한 다양한 방식이 존재한다.

인공 지능 엔진(모델)을 학습하기 위해서는 대량의 영상 데이터가 필요하지만, 연구자들 및 일반 사용자가 대량의 영상 데이터를 획득 가능한 경로는 한정되어 있다.

대량의 영상 데이터를 획득 가능한 경로로서 영상 데이터 제공 서버, 웹 크롤링(Web Crawling) 등이 있으나, 특정 개체를 검색하여 획득한 해당 영상 데이터들에는 많은 노이즈, 즉 다른 개체 영상이 포함된 경우가 많은 문제점이 있다.

J. Deng, W. Dong, R. Socher, L. Li, Kai Li and Li Fei-Fei. ImageNet-A large-scale hierarchical image database. 2009 IEEE Conference on Computer Vision and Pattern Recognition. 248-255

인공 지능의 학습용 영상 데이터를 수집 또는 제공하는 종래 기술은 노이즈가 많이 포함되어 있는 문제점에 대해서, 최소한의 노이즈가 포함되어 있는 인공 지능의 학습용 영상 데이터를 수집하는 기술이 필요하게 되었다.

또한, 특정 인공 지능 방법에서만 인식 가능성이 높지 않도록, 편향되지 않은 인공 지능의 학습용 영상 데이터를 수집하는 기술이 필요하다.

또한, 인공 지능의 학습을 위한 복수의 개체 영상을 손쉽게 수집하는 기술이 필요하다.

본 명세서는 인공 지능의 학습용 영상 수집 방법을 제시한다. 상기 영상 수집 방법은 질의어를 수신받는 동작, 상기 질의어에 대응하는 대상 개체에 대한 검색어를 생성하는 동작, 상기 검색어에 대응하는 영상을 검색하고 검색된 상기 영상의 URL을 추출하여 상기 영상들을 전송받는 동작 및 상기 영상에 대하여 기계 학습 모델을 적용하고, 상기 대상 개체로 인식되는 부분을 분할하여 분할 영상으로 저장하는 동작을 포함할 수 있다.

상기 수집 방법 및 그 밖의 실시 예는 다음과 같은 특징을 포함할 수 있다.

상기 수집 방법의 상기 검색어를 생성하는 동작은 상기 질의어의 유사어를 포함하여 대상 개체에 대한 복수의 검색어를 생성하는 동작을 포함할 수 있고, 상기 질의어에 대하여 온톨로지(Ontology)를 적용하고, 상기 대상 개체의 하위 개체에 대응하는 검색어를 포함하여 생성하는 동작을 포함할 수 있고, 상기 온톨로지를 적용한 결과 상기 대상 개체의 하위 개체가 미리 설정된 기준 이상으로 존재하는 경우, 전송받은 영상에 대하여 각 하위 개체에 대응하여 기계 학습 모델을 적용하고, 각 하위 개체 마다 상기 분할 영상을 구별되게 저장할 수 있다.

상기 수집 방법의 상기 기계 학습 모델을 적용하는 동작은, 상이한 복수의 기계 학습 모델을 적용하고, 상기 복수의 기계 학습 모델 중 적어도 어느 하나에서 상기 대상 개체로 인식되는 부분을 분할하여 분할 영상으로 저장하는 동작일 수 있고, 상기 분할 영상의 대상 개체에 대한 상기 복수의 기계 학습 모델의 신뢰성 정도(Confidence Score)를 저장하는 동작을 더 포함할 수 있고, 상기 복수의 기계 학습 모델 중 어느 하나에서만 상기 대상 개체로 인식되는 영상을 구별 가능하도록 상기 분할 영상을 저장할 수 있다.

한편, 본 명세서는 영상 수집 장치를 제시한다. 상기 영상 수집 장치는 질의어를 전송받고, 영상을 검색하고 검색된 상기 영상의 URL을 추출하여 상기 영상들을 전송받는 인터페이스부, 상기 질의어에 대응하는 대상 개체에 대한 검색어를 생성하고, 상기 인터페이스부로의 영상 검색을 상기 검색어에 기반하도록 제어하는 검색어 생성부 및 전송받은 상기 영상에 대하여 기계 학습 모델을 적용하고, 상기 대상 개체로 인식되는 부분을 분할하여 분할 영상으로 저장하는 판단부를 포함할 수 있다.

한편, 본 명세서는 영상 수집 시스템을 제시한다. 상기 영상 수집 시스템은 전송받은 질의어에 대응하는 대상 개체에 대한 검색어를 생성하고, 상기 검색어에 기반하여 영상을 검색하고, 검색된 상기 영상의 URL을 추출하는 영상 수집 장치 및 상기 영상에 대하여 기계 학습 모델을 적용하고, 상기 대상 개체로 인식되는 부분을 분할하여 상기 영상 수집 장치로 전송하는 영상 판단 장치를 포함하고, 상기 영상 수집 장치는 상기 URL에 대응하는 영상 또는 상기 URL 중 어느 하나와 상기 검색어를 상기 영상 판단 장치로 전송할 수 있다.

한편, 본 명세서는 다른 영상 수집 시스템을 제시한다. 상기 영상 수집 시스템은 전송받은 질의어에 대응하는 대상 개체에 대하여 온톨로지(Ontology)를 적용하여 상기 대상 개체를 포함하는 하위 개체에 대응하는 검색어를 포함하여 생성하는 온톨로지 장치, 상기 온톨로지 장치로부터 전송받은 검색어에 기반하여 영상을 검색하고, 검색된 상기 영상의 URL을 추출하는 영상 수집 장치 및 상기 영상에 대하여 기계 학습 모델을 적용하고, 상기 대상 개체로 인식되는 부분을 분할하여 상기 영상 수집 장치로 전송하는 영상 판단 장치를 포함하고, 상기 영상 수집 장치는 상기 URL에 대응하는 영상 또는 상기 URL 중 어느 하나와 상기 검색어를 상기 영상 판단 장치로 전송할 수 있다.

본 명세서에 개시된 실시 예들에 의하면, 최소한의 노이즈가 포함되어 있는 인공 지능의 학습용 영상 데이터를 수집하는 기술을 제공할 수 있다.

본 명세서에 개시된 실시 예들에 의하면, 편향되지 않은 인공 지능의 학습용 영상 데이터를 수집하는 기술을 제공할 수 있다.

본 명세서에 개시된 실시 예들에 의하면, 인공 지능의 학습을 위한 복수의 개체 영상을 손쉽게 수집하는 기술을 제공할 수 있다.

도 1 및 도 2는 영상 수집 시스템을 개략적으로 도시한다.
도 3은 영상 수집 방법에 대한 동작을 나타내는 흐름도이다.
도 4 및 도 5는 검색어 생성 동작을 설명하는 도면이다.
도 6은 영상 데이터에 대상 개체가 존재하는지 판단하고, 분할 영상을 저장하는 동작을 설명하는 도면이다.
도 7은 영상 수집 장치의 예시적인 블록 다이어그램이다.

본 명세서에 개시된 기술은 영상 수집 장치에 적용될 수 있다. 그러나 본 명세서에 개시된 기술은 이에 한정되지 않고, 상기 기술의 기술적 사상이 적용될 수 있는 모든 전자 장치 및 방법에도 적용될 수 있다.

본 명세서에서 사용되는 기술적 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 명세서에 개시된 기술의 사상을 한정하려는 의도가 아님을 유의해야 한다. 또한, 본 명세서에서 사용되는 기술적 용어는 본 명세서에서 특별히 다른 의미로 정의되지 않는 한, 본 명세서에 개시된 기술이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나, 과도하게 축소된 의미로 해석되지 않아야 한다. 또한, 본 명세서에서 사용되는 기술적인 용어가 본 명세서에 개시된 기술의 사상을 정확하게 표현하지 못하는 잘못된 기술적 용어일 때에는, 본 명세서에 개시된 기술이 속하는 분야에서 통상의 지식을 가진 자가 올바르게 이해할 수 있는 기술적 용어로 대체되어 이해되어야 할 것이다. 또한, 본 명세서에서 사용되는 일반적인 용어는 사전에 정의되어 있는 바에 따라, 또는 전후 문맥 상에 따라 해석되어야 하며, 과도하게 축소된 의미로 해석되지 않아야 한다.

본 명세서에서 사용되는 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성 요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.

이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예들을 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.

또한, 본 명세서에 개시된 기술을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 기술의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 기술의 사상을 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 그 기술의 사상이 제한되는 것으로 해석되어서는 아니 됨을 유의해야 한다.

도 1은 영상 수집 장치(110) 및 영상 판단 장치(120)를 포함하는 영상 수집 시스템의 실시예를 개략적으로 도시한다. 영상 수집 장치(110)는 네트워크(130)를 통하여 하나 이상의 검색 장치(140) 및 영상 판단 장치(120)와 통신할 수 있다.

영상 수집 장치(110) 및 영상 판단 장치(120)는 네트워크에 유선 또는 무선으로 연결되어 서로 또는 검색 장치(140)를 포함한 다른 장치와 통신을 수행할 수 있다. 또한, 영상 수집 장치(110)는 사용자 단말기(미도시)와 통신을 통하여 사용자가 원하는 인공 지능 학습용 영상 검색을 위한 질의어를 전송받을 수 있다.

본 명세서에 개시된 실시예의 영상 수집 장치(110) 및 영상 판단 장치(120)는 서버 뿐만 아니라, 퍼스널 컴퓨터(PC, Personal Computer), 랩탑 컴퓨터, 태블릿 컴퓨터, 스마트폰 등의 카메라를 보유한 범용적인 전자 장치를 포함한다.

본 명세서에서 개시되는 네트워크는 예를 들어, 무선 네트워크, 유선 네트워크, 인터넷과 같은 공용 네트워크, 사설 네트워크, 모바일 통신 네트워크용 광역 시스템(global system for mobile communication network; GSM) 네트워크, 범용 패킷 무선 네트워크(general packet radio network; GPRS), 근거리 네트워크(local area network; LAN), 광역 네트워크(wide area network; WAN), 거대도시 네트워크(metropolitan area network; MAN), 셀룰러 네트워크, 공중 전화 교환 네트워크(public switched telephone network; PSTN), 개인 네트워크(personal area network), 블루투스, Wi-Fi 다이렉트(Wi-Fi Direct), 근거리장 통신(Near Field communication), 초 광 대역(UltraWide band), 이들의 조합, 또는 임의의 다른 네트워크일 수 있지만 이들로 한정되는 것은 아니다.

영상 수집 장치(110)는 사용자 단말기로부터 전송받은 질의어에 기반하여 상기 질의어에 대응하는 검색어를 생성하고, 상기 검색어에 기반하여 영상을 검색할 수 있다.

영상 수집 장치(110)의 검색은 웹 서버, 서치 엔진(Search engine), 검색 서버 등으로 검색어를 전송하는 방식이거나 보유한 별도의 저장 데이터베이스에서 검색을 수행하는 방식일 수 있다.

영상 수집 장치(110)는 검색된 영상의 URL(Uniform Resource Locator)을 추출하여 상기 URL에 대응하는 영상을 웹 서버, 서치 엔진, 검색 서버 등이나 상기 URL에 해당하는 장치로부터 영상들을 전송받을 수 있다.

영상 수집 장치(110)는 전송받은 영상을 영상 판단 장치(120)로 전송하거나, 검색을 통하여 추출한 URL을 영상 판단 장치(120)로 전송할 수 있다.

영상 수집 장치(110)는 영상 또는 URL 이외에 상기 영상의 검색에 사용된 검색어를 영상 판단 장치(120)로 함께 전송할 수 있다.

영상 판단 장치(120)는 영상 수집 장치(110)로부터 전송받은 영상 또는 URL을 통해서 전송받은 영상에 대하여 검색어에 해당하는 기계 학습 모델(Machine Learning Model)을 적용할 수 있다.

본 명세서에서 기계 학습은 인공 지능(Aritificial Intelligence), 딥 러닝(Deep Learning)을 포함하여 지칭한다.

영상 판단 장치(120)는 기계 학습 모델을 적용한 결과, 상기 검색어에 대응하는 개체로 판단된 경우, 상기 영상에서 대상 개체를 인식하고 영상에서 대상 개체가 존재하는 부분만 분할하여 영상 수집 장치(110)로 전송할 수 있다.

도 2는 영상 수집 장치(210), 영상 판단 장치(220) 및 온톨로지 장치(230)를 포함하는 영상 수집 시스템의 실시예를 개략적으로 도시한다. 영상 수집 장치(210)는 네트워크(240)를 통하여 하나 이상의 검색 장치(250), 온톨로지 장치(230) 및 영상 판단 장치(220)와 통신할 수 있다.

영상 수집 장치(210)는 사용자 단말기(미도시)로부터 전송받은 질의어를 온톨로지 장치(230)로 전송할 수 있다.

온톨로지 장치(230)는 전송받은 질의어에 대응하는 대상 개체에 대하여 온톨로지(Ontology)를 적용하여 상기 질의어에 대응하는 확장된 검색어를 생성하고, 상기 검색어를 영상 수집 장치(210)로 전송할 수 있다.

영상 수집 장치(210)는 상기 검색어에 기반하여 영상을 검색할 수 있고, 상기 검색은 웹 서버, 서치 엔진, 검색 서버 등으로 검색어를 전송하는 방식이거나 보유한 별도의 저장 데이터베이스에서 검색을 수행하는 방식일 수 있다.

영상 수집 장치(210)는 검색된 영상의 URL을 추출하여 상기 URL에 대응하는 영상을 웹 서버, 서치 엔진, 검색 서버 등이나 상기 URL에 해당하는 장치로부터 영상들을 전송받아 영상 판단 장치(220)로 전송하거나, 검색을 통하여 추출한 URL을 영상 판단 장치(220)로 전송할 수 있다.

영상 수집 장치(210)는 영상 또는 URL 이외에 온톨로지 장치(230)로부터 전송받은 상기 영상의 검색에 사용된 검색어를 영상 판단 장치(220)로 함께 전송할 수 있다.

영상 판단 장치(220)는 영상 수집 장치(210)로부터 전송받은 영상 또는 URL을 통해서 전송받은 영상에 대하여 검색어에 해당하는 기계 학습 모델을 적용하고, 검색어에 대응하는 개체로 판단된 경우, 영상에서 인식된 대상 개체가 존재하는 부분만 분할하여 영상 수집 장치(210)로 전송할 수 있다.

도 3은 인공 지능 학습을 위한 영상 수집 방법에 대한 동작을 나타내는 흐름도이다. 이하에서 설명되는 영상 수집 방법은, 영상 수집 장치에서 수행되거나 도 1 또는 도 2의 영상 수집 시스템에 포함된 온톨로지 장치(230), 영상 수집 장치(110, 210) 또는 영상 판단 장치(120, 220)에서 일부의 동작을 나누어 수행될 수 있고, 편의상 모든 동작이 영상 수집 장치에서 수행되는 것으로 설명하나 이에 한정되는 것은 아니다.

영상 수집 장치(110, 210)는 사용자 단말기(미도시)로부터 인공 지능 학습을 위한 영상 수집을 위하여 질의어를 수신받고(S310), 질의어에 대응하는 대상 개체에 대한 검색어를 생성(S320)할 수 있다.

질의어에 대응하는 대상 개체에 대한 검색어를 생성하는 동작은 질의어에 온톨로지(Ontology)를 적용하여 질의어의 유사어로서 대상 개체를 지칭하는 다른 지칭 명칭을 검색어에 포함하는 것일 수 있다.

영상 수집 장치(110, 210)는 보유한 데이터베이스에서 질의어의 유사어를 검색하거나, 별도의 웹 서버, 서치 엔진, 검색 서버로 질의어를 전송하여 유사어를 전송받는 방식으로 유사어를 포함한 검색어를 생성할 수 있다.

영상 수집 장치(110, 210)는 질의어에 대하여 온톨로지(Ontology)를 적용하여 질의어의 유사어로서 대상 개체를 지칭하는 다른 지칭하는 명칭을 검색어에 포함할 수 있다.

도 4를 참조하면, 사용자 단말로부터 전송받은 질의어인 "과일"의 온톨로지를 검색하면(적용하면) "과일"과 동등한 위치(410)의 유사어로서 "과실", "열매"가 존재하는 것을 확인할 수 있으므로, 영상 수집 장치(110, 210)는 질의어인 "과일"과 온톨로지 적용 결과 "과일"과 동등한 위치의 유사어들인 "과실", "열매"를 검색어에 포함할 수 있다.

또한 영상 수집 장치(110, 210)는 질의어의 외국어 유사어도 검색어에 포함할 수 있으며, 도 4를 참조하면 전송받은 질의어인 "과일"의 온톨로지 유사어로 외국어인 "Fruit"도 검색어에 포함할 수 있다.

도 4에서는 영어 유사어를 예시로 들었으나, 영상 수집 장치(110, 210)는 검색어 생성시 외국어 종류를 특별히 한정하지 않는다.

다른 실시예에서, 영상 수집 장치(110, 210)는 질의어에 대하여 온톨로지를 적용하여 질의어에 대응하는 대상 개체의 하위 개체가 하나 이상 존재하는 경우, 하위 개체에 대응하는 검색어를 포함하여 검색어를 생성할 수 있다.

도 4를 참조하면, 사용자 단말로부터 전송받은 질의어인 "과일"의 온톨로지를 검색하면(적용하면) "과일"의 하위 개체인 관계(420)를 가진 개체들로서 "수박", "오렌지" 등이 존재하는 것을 확인할 수 있으므로, 영상 수집 장치(110, 210)는 질의어인 "과일"과 온톨로지 적용 결과 "과일"의 하위 개체인 "수박", "오렌지"를 검색어에 포함하거나, 하위 개체들에 대응하는 검색어들만 이용하여 검색어를 생성할 수 있다.

온톨로지 적용 결과 질의어의 하위 개체들에 대응하는 검색어들을 포함하여 검색어를 생성하는 경우, 하위 개체들의 온톨로지를 검색하여 하위 개체들과 동등한 위치의 외국어를 포함하는 유사어들도 포함하여 검색어를 생성할 수 있다.

일 실시예에서, 영상 수집 장치(110, 210)는 온톨로지 적용 결과 질의어의 하위 개체들에 대응하는 검색어들을 포함하여 생성된 검색어에 기반하여 검색을 수행한 경우, 하위 개체별로 서로 구별이 가능한 방법으로 예를 들어, 하위 개체별 각각 폴더를 생성하여 영상 데이터를 저장하거나, 하위 개체별 리스트를 생성하여 영상 데이터 목록을 기입하고 이를 사용자 단말로 전송할 수 있다.

다른 실시예에서, 영상 수집 장치(110, 210)는 질의어에 대하여 온톨로지를 적용하여 질의어에 대응하는 대상 개체의 하위 개체의 층(Layer)이 하나 이상 존재하는 경우, 미리 설정된 거리 이하에 대응하는 층의 하위 개체에 대응하는 검색어만 포함하여 검색어를 생성할 수 있다.

도 5를 참조하면, 사용자 단말로부터 전송받은 질의어인 "사람"의 온톨로지를 검색하면(적용하면) "사람"의 하위 분류 속성으로서 "성별" (511), "인종" (512)의 두 가지 분류 속성이 존재하고, "성별" (511) 분류 속성에 해당하는 거리 1을 가진 하위 개체들로서 "남자" (521), "여자" (522) 가 존재하고, "인종" (512) 분류 속성에 해당하는 거리 1을 가진 하위 개체들로서 "동양인" (523), "백인" (524), "흑인" (525)이 존재하고 "남자" (521)는 다시 특정 분류 속성(531)을 가지고 "사람"으로부터 거리 2를 가지는 별도의 하위 개체(미도시)가 존재함을 확인할 수 있다.

이 경우, 영상 수집 장치(110, 210)는 질의어에 대응하는 개체로부터 거리 1을 가진 하위 개체들에 대응하는 검색어들인 "남자" (521), "여자" (522), "동양인" (523), "백인" (524), "흑인" (525)만 검색어에 포함하여 생성할 수 있다.

도 4 또는 도 5를 참조하여 설명한 실시예들에 따르면, 사용자가 다수의 개체에 대한 영상 수집을 원하는 경우, 해당 개체의 상위 개념에 해당하는 질의어를 통해서 손쉽게 다수의 질의어에 해당하는 영상을 수집할 수 있는 효과가 있다.

영상 수집 장치(110, 210)는 전송받은 질의어에 대응하는 대상 개체에 대한 검색어를 생성한 후, 검색어에 대응하는 영상을 검색하고 해당 영상의 URL을 추출하여 영상 데이터를 전송받을 수 있다(S330).

일 실시예에서, 영상 수집 장치(110, 210)는 영상 제공 전용 장치에 검색어를 전송하고 검색어에 대한 응답으로서 영상 데이터를 전송받거나, 웹 서버, 서치 엔진, 검색 서버 등으로 검색어를 전송하고 검색어에 대한 응답으로서 수신한 웹 페이지의 파싱(Parsing)을 수행하여 웹 페이지에 포함된 영상 데이터의 URL을 추출하고, 해당 URL에 기반한 통신을 수행하여 영상 데이터를 전송받을 수 있다.

영상 수집 장치(110, 210)는 전송받은 영상 데이터에 대하여 검색어에 대응되는 기계 학습 모델을 적용하여 영상 데이터가 해당 검색어에 대응되는 개체가 포함되어 있는지 판단할 수 있다(S340).

영상 데이터에 검색어에 대응되는 기계 학습 모델을 적용하여 영상 데이터가 해당 검색어에 대응되는 개체가 포함되어 있는지 판단하는 방법은 통상의 기계 학습 모델을 이용한 개체 인식 기술로서 특별히 그 기계 학습 종류를 한정하지 않으며 본 명세서에서는 자세한 설명을 생략한다.

영상 수집 장치(110, 210)는 영상 데이터가 해당 검색어에 대응되는 개체가 포함되어 있는 것으로 판단한 경우, 영상 데이터에서 해당 검색어에 대응되는 개체가 존재하는 부분을 분할하여 분할 영상으로 저장할 수 있다(S350).

분할 영상은 해당 검색어에 대응되는 개체의 외곽(Boundary, Edge)을 따라서 세그먼테이션(Segmentation)을 수행한 후 분할 영상으로 저장하거나, 해당 검색어에 대응되는 개체를 포함하는 특정 도형, 예를 들면 사각형에 해당하는 부분을 크롭핑(Cropping)하여 분할 영상으로 저장할 수 있다.

따라서, 검색어에 해당하는 영상 데이터에 대해서 기계 학습 모델을 적용하여 검색어에 대응되는 개체가 존재하는지 판단한 후 영상을 저장하고 이후 이를 기계 학습용 영상 데이터 셋(Set)으로 사용자에게 제공함으로써, 노이즈를 감소시킨 인공 지능용 영상 데이터 셋을 제공할 수 있는 효과가 있다.

일 실시예에서, 영상 수집 장치(110, 210)는 영상 데이터에 복수의 기계 학습 모델을 적용하고, 복수의 기계 학습 모델 중 어느 하나라도 영상 데이터에 검색어에 대응되는 개체가 존재한다고 판단하는 경우 영상 데이터에서 해당 검색어에 대응되는 개체가 존재하는 부분을 분할하여 분할 영상으로 저장할 수 있다.

도 6을 참조하면, 검색어인 "오렌지", "Orange"의 검색 결과로서 전송받은 영상 데이터들(610)을 개별적으로 복수의 기계 학습 모델(621, 622)에 입력하여 각 기계 학습 모델(621, 622)에 의하여 판단된 결과(631, 632)에 따라 어느 하나라도 영상 데이터에 검색어에 대응되는 개체가 존재한다고 판단하는 경우 영상 데이터에서 해당 검색어에 대응되는 개체가 존재하는 부분을 분할하여 분할 영상으로 저장할 수 있다.

예를 들어, 검색어인 "오렌지", "Orange"의 검색 결과로서 전송받은 영상 데이터(615)가 복수의 기계 학습 모델(621, 622)에 입력되어 해당 검색어에 대응되는 개체가 존재하는지 판단 결과, 제1 기계 학습 모델(621)은 존재하는 것으로 판단하고, 제2 기계 학습 모델(622)은 존재하지 않는 것으로 판단한 경우, 영상 데이터(615)에서 대상 개체가 존재하는 부분만 크롭핑(640)하여 분할 영상으로 저장할 수 있다.

복수의 기계 학습 모델은 서로 학습 방법이 다르거나, 같은 종류의 학습 방법이라도 구조 또는 적용된 모델 파라미터가 다를 수 있다.

따라서, 사용자에게 제공되는 인공 지능용 영상 데이터 셋은 특정 종류의 기계 학습 모델이나 특정 파라미터에 편향되지 않은 인공 지능의 학습용 영상 데이터를 수집하는 기술을 제공할 수 있다.

다른 실시예에서, 영상 수집 장치(110, 210)는 영상 데이터에 복수의 기계 학습 모델을 적용하고 복수의 기계 학습 모델 중 어느 하나라도 영상 데이터에 검색어에 대응되는 개체가 존재한다고 판단하는 경우 영상 데이터 셋으로 저장하는 경우, 해당 영상 데이터에 대한 기계 학습 모델의 신뢰도 정도(Confidence Score)가 미리 설정된 기계 학습 모델의 신뢰도 값 이상의 경우만 영상 데이터 셋으로 저장할 수 있다.

예를 들어, 검색어인 "오렌지", "Orange"의 검색 결과로서 전송받은 영상 데이터(615)가 복수의 기계 학습 모델(621, 622)에 입력되어 해당 검색어에 대응되는 개체가 존재하는지 판단 결과 제1 기계 학습 모델(621)만 해당 개체가 존재하는 것으로 판단한 경우라도, 제1 기계 학습 모델(621)의 판단 결과(631)인 신뢰도 값이 미리 설정된 특정 값보다 작으면 영상 데이터 셋으로 저장하지 않음으로써 특정 파라미터에 편향되지 않은 인공 지능의 학습용 영상 데이터를 제공하면서도 노이즈를 감소시킨 영상 데이터를 제공할 수 있는 효과가 있다.

다른 실시예에서, 영상 수집 장치(110, 210)는 영상 데이터에 복수의 기계 학습 모델을 적용하고 복수의 기계 학습 모델 중 어느 하나라도 영상 데이터에 검색어에 대응되는 개체가 존재한다고 판단하는 경우 영상 데이터 셋으로 저장하는 경우, 해당 영상 데이터와 함께 검색어에 대응되는 개체가 존재한다고 판단한 기계 학습 모델의 판단 결과인 해당 영상 데이터에 대한 기계 학습 모델의 신뢰도 정도를 함께 저장하여 사용자에게 제공할 수 있다.

이 경우, 사용자는 영상 데이터에 대한 기계 학습 모델의 신뢰도 정도를 이용하여, 해당 영상 데이터를 인공 지능 학습에 사용할지 여부를 결정할 수 있는 효과가 있다.

다른 실시예에서, 영상 수집 장치(110, 210)는 영상 데이터에 복수의 기계 학습 모델을 적용하고 복수의 기계 학습 모델 중 어느 하나라도 영상 데이터에 검색어에 대응되는 개체가 존재한다고 판단하는 경우 영상 데이터 셋으로 저장하는 경우, 해당 영상 데이터의 분할 영상 데이터의 특정 데이터 필드에 특정 값으로 표시를 하거나, 해당 영상 데이터에서 분할 영상을 저장할 때 특정 표시를 이용한 제목으로 저장하거나, 별도의 리스트에 해당 분할 영상을 포함시켜 저장하고 이후 사용자에게 제공할 수 있다.

이 경우, 사용자는 한 기계 학습 모델만 대상 개체가 존재한다고 판단한 영상 데이터를 구별 가능하므로, 해당 영상 데이터를 인공 지능 학습에 사용할지 여부를 결정할 수 있는 효과가 있다.

도 7은 영상 수집 장치(110, 210)의 구성을 나타내는 예시 적인 블록 다이어그램이다. 본 명세서에 개시된 영상 수집 장치(110, 210)는 저장부(710), 인터페이스부(720), 검색어 생성부(730) 및 판단부(740)를 포함할 수 있다.

저장부(710)는 인터페이스부(720)가 전송받은 영상 데이터, 검색어 생성부(730) 및 판단부(740)의 중간 데이터, 최종 데이터 또는 사용자 데이터 중에서 적어도 어느 하나를 저장할 수 있고, 자기 저장 매체(magnetic storage media) 또는 플래시 저장 매체(flash storage media)를 포함할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.

인터페이스부(720)는 사용자 단말기로부터 질의어를 전송받고 해당 질의어에 대해검색어 생성부(730)가 생성한 검색어들에 기반하여 검색된 영상 데이터를 전송받을 수 있으며, 유선 및/또는 무선 통신 모듈을 포함할 수 있다. 예를 들어, 인터페이스부(720)는, 와이파이(Wireless Fidelity, Wi-Fi), 블루투스(Bluetooth), 지그비(Zigbee), 엔에프씨(near field communication: NFC), 와이브로(Wireless Broadband Internet: Wibro) 등의 무선 통신모듈과 이더넷(Ethernet) 등의 유선 랜(LAN)과 같은 유선 통신 모듈 등을 포함할 수 있다. 상기 인터페이스부(720)는 네트워크를 통해 사용자 단말기 또는 온톨로지 장치, 웹 서버, 서치 엔진, 검색 서버 등과 유무선 통신을 수행할 수 있다.

검색어 생성부(730)는 인터페이스부(720)가 전송받은 질의어에 대응하는 대상 개체에 대한 검색어를 생성할 수 있으며, 검색어 생성부(730)는 질의어에 대하여 온톨로지를 적용하고 질의어에 대응하는 대상 개체의 하위 개체가 하나 이상 존재하는 경우 하위 개체에 대응하는 검색어를 포함하여 검색어를 생성하거나, 질의어에 대응하는 대상 개체의 하위 개체의 층(Layer)이 하나 이상 존재하는 경우 미리 설정된 거리 이하에 대응하는 층의 하위 개체에 대응하는 검색어만 포함하여 검색어를 생성할 수 있다.

검색어 생성부(730)는 생성된 검색어를 인터페이스부(720)로 전달하여 검색어에 기반하여 영상 검색을 수행하도록 제어할 수 있고, 인터페이스부(720)는 전달받은 검색어에 기반하여 영상을 검색할 수 있고, 상기 검색은 웹 서버, 서치 엔진, 검색 서버 등으로 검색어를 전송하는 방식이거나 보유한 별도의 저장 데이터베이스(미도시)에서 검색을 수행하는 방식일 수 있다.

판단부(740)는 인터페이스부(720)가 전송받은 영상 데이터에 대하여 기계 학습 모델을 적용하여 영상 데이터가 해당 검색어에 대응되는 개체가 포함되어 있는 것으로 판단한 경우, 영상 데이터에서 해당 검색어에 대응되는 개체가 존재하는 부분을 분할하여 분할 영상으로 저장할 수 있고, 일 실시예로서 복수의 기계 학습 모델을 적용하여 복수의 기계 학습 모델 중 어느 하나라도 영상 데이터에 검색어에 대응되는 개체가 존재한다고 판단하는 경우 영상 데이터에서 해당 검색어에 대응되는 개체가 존재하는 부분을 분할하여 분할 영상으로 저장할 수 있다.

검색어 생성부(730) 또는 판단부(740)는 프로세서(processor)와 같이 데이터를 처리할 수 있는 모든 종류의 장치를 포함할 수 있다. 여기서, '프로세서(processor)'는, 예를 들어 프로그램 내에 포함된 코드 또는 명령으로 표현된 기능을 수행하기 위해 물리적으로 구조화된 회로를 갖는, 하드웨어에 내장된 데이터 처리 장치를 의미할 수 있다. 이와 같이 하드웨어에 내장된 데이터 처리 장치의 일 예로써, 마이크로 프로세서(microprocessor), 중앙처리장치(central processing unit: CPU), 프로세서 코어(processor core), 멀티프로세서(multiprocessor), ASIC(application-specific integrated circuit), FPGA(field programmable gate array) 등의 처리 장치를 망라할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.

본 문서에서 사용된 용어 "모듈" 또는 "부"는, 예를 들어, 하드웨어, 소프트웨어 또는 펌웨어(firmware) 중 하나 또는 둘 이상의 조합을 포함하는 단위(unit)를 의미할 수 있다. "모듈" 또는 "부"는, 예를 들어, 유닛(unit), 로직(logic), 논리블록 (logical block), 부품(component), 또는 회로(circuit) 등의 용어와 바꾸어 사용(interchangeably use)될 수 있다. "모듈" 또는 "부"는, 일체로 구성된 부품의 최소 단위 또는 그 일부가 될 수 있다. "모듈" 또는 "부"는 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수도 있다. "모듈" 또는 "부"는 기계적으로 또는 전자적으로 구현될 수 있다. 예를 들어, "모듈" 또는 "부"는, 알려졌거나 앞으로 개발될, 어떤 동작들을 수행하는 ASIC(application-specific integrated circuit) 칩, FPGAs(field-programmable gate arrays) 또는 프로그램 가능 논리 장치(programmable-logic device) 중 적어도 하나를 포함할 수 있다.

다양한 실시예에 따른 장치(예: 모듈들 또는 그 기능들) 또는 방법(예: 동작들)의 적어도 일부는, 예컨대, 프로그램 모듈의 형태로 컴퓨터로 읽을 수 있는 저장매체(computer-readable storage media)에 저장된 명령어로 구현될 수 있다. 상기 명령어가 프로세서에 의해 실행될 경우, 상기 하나 이상의 프로세서가 상기 명령어에 해당하는 기능을 수행할 수 있다. 컴퓨터로 읽을 수 있는 저장매체는, 예를 들어, 메모리가 될 수 있다.

컴퓨터로 판독 가능한 기록 매체는, 하드디스크, 플로피디스크, 마그네틱 매체(magnetic media)(예: 자기테이프), 광기록 매체(optical media)(예: CD-ROM(compact disc read only memory), DVD(digital versatile disc), 자기-광 매체(magneto-optical media)(예: 플롭티컬 디스크(floptical disk)), 하드웨어 장치(예: ROM(read only memory), RAM(random access memory), 또는 플래시 메모리 등) 등을 포함할 수 있다. 또한, 프로그램 명령에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 상술한 하드웨어 장치는 다양한 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지다.

다양한 실시예에 따른 모듈 또는 프로그램 모듈은 전술된 구성요소들 중 적어도 하나 이상을 포함하거나, 일부가 생략되거나, 또는 추가적인 다른 구성요소를 더 포함할 수 있다. 다양한 실시예에 따른 모듈, 프로그램 모듈 또는 다른 구성요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱(heuristic)한 방법으로 실행될 수 있다. 또한, 일부 동작은 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.

이상에서 본 명세서의 기술에 대한 바람직한 실시 예가 첨부된 도면들을 참조하여 설명되었다. 여기서, 본 명세서 및 청구 범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니되며, 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 한다.

본 발명의 범위는 본 명세서에 개시된 실시 예들로 한정되지 아니하고, 본 발명은 본 발명의 사상 및 특허청구범위에 기재된 범주 내에서 다양한 형태로 수정, 변경, 또는 개선될 수 있다.

Claims

컴퓨팅 장치에서 프로세서에 의해 수행되는 방법으로서,
질의어를 수신받는 동작;
상기 질의어에 대응하는 대상 개체에 대한 검색어를 생성하는 동작;
상기 검색어에 대응하는 영상을 검색하고 검색된 상기 영상의 URL을 추출하여 상기 영상들을 전송받는 동작; 및
상기 영상에 대하여 기계 학습 모델을 적용하고, 상기 대상 개체로 인식되는 부분을 분할하여 분할 영상으로 저장하는 동작을 포함하고,
상기 기계 학습 모델을 적용하는 동작은, 상이한 복수의 기계 학습 모델을 적용하고, 상기 복수의 기계 학습 모델 중 적어도 어느 하나에서 상기 대상 개체로 인식되는 부분을 분할하여 분할 영상으로 저장하고,
상기 복수의 기계 학습 모델 중 어느 하나에서만 상기 대상 개체로 인식되는 영상을 구별 가능하도록 상기 분할 영상을 저장하는 영상 수집 방법.
제1 항에 있어서,
상기 검색어를 생성하는 동작은 상기 질의어의 유사어를 포함하여 대상 개체에 대한 복수의 검색어를 생성하는 동작을 포함하는 영상 수집 방법.
제1 항에 있어서,
상기 검색어를 생성하는 동작은 상기 질의어에 대하여 온톨로지(Ontology)를 적용하고, 상기 대상 개체의 하위 개체에 대응하는 검색어를 포함하여 생성하는 동작을 포함하는 영상 수집 방법.
제3 항에 있어서,
상기 온톨로지를 적용한 결과 상기 대상 개체의 하위 개체가 미리 설정된 기준 이상으로 존재하는 경우, 전송받은 영상에 대하여 각 하위 개체에 대응하여 기계 학습 모델을 적용하고, 각 하위 개체 마다 상기 분할 영상을 구별되게 저장하는 영상 수집 방법.
삭제
제1 항에 있어서,
상기 분할 영상의 대상 개체에 대한 상기 복수의 기계 학습 모델의 신뢰성 정도(Confidence Score)를 저장하는 동작을 더 포함하는 영상 수집 방법.
삭제
질의어를 전송받고, 영상을 검색하고 검색된 상기 영상의 URL을 추출하여 상기 영상들을 전송받는 인터페이스부;
상기 질의어에 대응하는 대상 개체에 대한 검색어를 생성하고, 상기 인터페이스부로의 영상 검색을 상기 검색어에 기반하도록 제어하는 검색어 생성부; 및
전송받은 상기 영상에 대하여 기계 학습 모델을 적용하고, 상기 대상 개체로 인식되는 부분을 분할하여 분할 영상으로 저장하는 판단부를 포함하고,
상기 판단부는 상이한 복수의 기계 학습 모델을 적용하고, 상기 복수의 기계 학습 모델 중 적어도 어느 하나에서 상기 대상 개체로 인식되는 부분을 분할하여 분할 영상으로 저장하되, 상기 복수의 기계 학습 모델 중 어느 하나에서만 상기 대상 개체로 인식되는 영상을 구별 가능하도록 상기 분할 영상을 저장하는 영상 수집 장치.
제8 항에 있어서,
상기 검색어 생성부는 상기 질의어의 유사어를 포함하여 대상 개체에 대한 복수의 검색어를 생성하는 영상 수집 장치.
제8 항에 있어서,
상기 검색어 생성부는 상기 질의어에 대하여 온톨로지(Ontology)를 적용하고, 상기 대상 개체의 하위 개체에 대응하는 검색어를 포함하여 생성하는 영상 수집 장치.
제10 항에 있어서,
상기 온톨로지를 적용한 결과 상기 대상 개체의 하위 개체가 미리 설정된 기준 이상으로 존재하는 경우, 상기 판단부는 전송받은 영상에 대하여 각 하위 개체에 대응하여 기계 학습 모델을 적용하고, 각 하위 개체 마다 상기 분할 영상을 구별되게 저장하는 영상 수집 장치.
삭제
제8 항에 있어서,
상기 판단부는 상기 분할 영상의 대상 개체에 대한 상기 복수의 기계 학습 모델의 신뢰성 정도(Confidence Score)를 더 저장하는 영상 수집 장치.
삭제
전송받은 질의어에 대응하는 대상 개체에 대한 검색어를 생성하고, 상기 검색어에 기반하여 영상을 검색하고, 검색된 상기 영상의 URL을 추출하는 영상 수집 장치; 및
상기 영상에 대하여 기계 학습 모델을 적용하고, 상기 대상 개체로 인식되는 부분을 분할하여 상기 영상 수집 장치로 전송하는 영상 판단 장치를 포함하고,
상기 영상 수집 장치는 상기 URL에 대응하는 영상 또는 상기 URL 중 어느 하나와 상기 검색어를 상기 영상 판단 장치로 전송하고,
상기 영상 판단 장치는 상이한 복수의 기계 학습 모델을 적용하고, 상기 복수의 기계 학습 모델 중 적어도 어느 하나에서 상기 대상 개체로 인식되는 부분을 분할하여 상기 영상 수집 장치로 전송하되, 상기 복수의 기계 학습 모델 중 어느 하나에서만 상기 대상 개체로 인식되는 영상을 구별 가능하도록 상기 영상 수집 장치로 전송하는 영상 수집 시스템.
전송받은 질의어에 대응하는 대상 개체에 대하여 온톨로지(Ontology)를 적용하여 상기 대상 개체를 포함하는 하위 개체에 대응하는 검색어를 포함하여 생성하는 온톨로지 장치;
상기 온톨로지 장치로부터 전송받은 검색어에 기반하여 영상을 검색하고, 검색된 상기 영상의 URL을 추출하는 영상 수집 장치; 및
상기 영상에 대하여 기계 학습 모델을 적용하고, 상기 대상 개체로 인식되는 부분을 분할하여 상기 영상 수집 장치로 전송하는 영상 판단 장치를 포함하고,
상기 영상 수집 장치는 상기 URL에 대응하는 영상 또는 상기 URL 중 어느 하나와 상기 검색어를 상기 영상 판단 장치로 전송하고,
상기 영상 판단 장치는 상이한 복수의 기계 학습 모델을 적용하고, 상기 복수의 기계 학습 모델 중 적어도 어느 하나에서 상기 대상 개체로 인식되는 부분을 분할하여 상기 영상 수집 장치로 전송하되, 상기 복수의 기계 학습 모델 중 어느 하나에서만 상기 대상 개체로 인식되는 영상을 구별 가능하도록 상기 영상 수집 장치로 전송하는 영상 수집 시스템.
컴퓨터에서
질의어를 입력받는 동작;
상기 질의어에 대응하는 대상 개체에 대한 검색어를 생성하는 동작;
상기 검색어에 대응하는 영상을 검색하고 검색된 상기 영상의 URL을 추출하여 상기 영상들을 전송받는 동작; 및
상기 영상에 대하여 기계 학습 모델을 적용하고, 상기 대상 개체로 인식되는 부분을 분할하여 분할 영상으로 저장하는 동작을 포함하고,
상기 기계 학습 모델을 적용하는 동작은, 상이한 복수의 기계 학습 모델을 적용하고, 상기 복수의 기계 학습 모델 중 적어도 어느 하나에서 상기 대상 개체로 인식되는 부분을 분할하여 분할 영상으로 저장하고,
상기 복수의 기계 학습 모델 중 어느 하나에서만 상기 대상 개체로 인식되는 영상을 구별 가능하도록 상기 분할 영상을 저장하는 영상 수집 방법을 실행시키기 위하여 매체에 저장된 컴퓨터프로그램.