KR102204829B1

KR102204829B1 - 딥러닝 기반의 어노테이션 툴을 제공하는 방법 및 시스템

Info

Publication number: KR102204829B1
Application number: KR1020200071210A
Authority: KR
Inventors: 권장우
Original assignee: 인하대학교 산학협력단
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2021-01-19

Abstract

딥러닝 기반의 어노테이션 툴을 제공하는 방법 및 시스템이 개시된다. 일 실시예에 따른 컴퓨터로 구현되는 어노테이션 툴 시스템에 의해 수행되는 어노테이션 툴(tool) 제공 방법은, 학습 영상 정보를 이용하여 객체를 인식하기 위한 학습 모델을 학습시키는 단계; 상기 학습된 학습 모델에 어노테이션을 생성하기 위한 영상 정보를 입력하는 단계; 상기 학습된 학습 모델을 이용하여 상기 영상 정보로부터 어노테이션을 생성하는 단계; 상기 생성된 어노테이션에 대한 협동형 작업 방식 기반의 편집 작업을 수행함에 따라 어노테이션을 조정하는 조정부; 및 상기 조정된 어노테이션을 포함하는 영상 정보를 출력하는 단계를 포함할 수 있다.

Description

딥러닝 기반의 어노테이션 툴을 제공하는 방법 및 시스템{METHOD AND SYSTEM FOR PROVIDING ANNOTATION TOOLS FOR LEARNING}

아래의 설명은 어노테이션 툴(tool)을 제공하는 방법 및 시스템에 관한 것이다.

딥러닝은 얼굴 인식, 전신 인식, 자세 인식, 음성 인식, 객체 인식, 데이터 마이닝 등 다양한 인식에 적용되고 있다. 특히, 영상으로부터 특정 객체를 인식하는 객체 인식과 딥러닝 학습 네트워크를 접목시키는 연구는 다양한 방식으로 활발히 이루어지고 있다. 인공 지능을 학습하기 위해서는 어노테이션(annotation) 작업을 수행하고, 어노테이션된 이미지를 이용하여 학습을 진행하는데, 종래 어노테이션을 생성하는 과정은 컴퓨터를 이용하여 학습에 사용되는 이미지를 로딩하고, 로딩된 이미지에서 마우스 등으로 블록을 지정하여 지정된 블록에 대한 어노테이션을 생성한다. 하지만, 종래 기술은 어노테이션을 생성하기 위한 해당 사용자가 모든 이미지들 각각에 대한 어노테이션 작업을 수행하기 때문에 시간과 비용이 많이 들고, 데이터를 수집하기에도 어려운 문제점이 있다.

딥러닝 기반의 어노테이션 툴을 통해 자동으로 영상 정보의 어노테이션을 생성하는 방법 및 시스템을 제공할 수 있다.

협동형 작업 방식을 통해 어노테이션 작업을 수행하는 방법 및 시스템을 제공할 수 있다.

컴퓨터로 구현되는 어노테이션 툴 시스템에 의해 수행되는 어노테이션 툴(tool) 제공 방법은, 학습 영상 정보를 이용하여 객체를 인식하기 위한 학습 모델을 학습시키는 단계; 상기 학습된 학습 모델에 어노테이션을 생성하기 위한 영상 정보를 입력하는 단계; 상기 학습된 학습 모델을 이용하여 상기 영상 정보로부터 어노테이션을 생성하는 단계; 상기 생성된 어노테이션에 대한 협동형 작업 방식 기반의 편집 작업을 수행함에 따라 어노테이션을 조정하는 단계; 및 상기 조정된 어노테이션을 포함하는 영상 정보를 출력하는 단계를 포함할 수 있다.

상기 학습시키는 단계는, 상기 학습 영상 정보를 이용하여 객체를 인식하기 위한 딥러닝 네트워크 기반의 학습 모델을 구축하고, 학습 영상 정보로부터 어노테이션 하고자 하는 객체를 인식하기 위한 대화형 방식 기반의 질의 응답을 통해 상기 구축된 학습 모델을 학습시키는 단계를 포함하고, 상기 학습 모델은, RNN, LSTM 기반의 학습 모델로 구축될 수 있다.

상기 학습시키는 단계는, 상기 학습 영상 정보와 관련된 적어도 하나 이상의 질의를 수행하고, 상기 수행된 질의에 대한 사용자의 응답을 상기 구축된 학습 모델에 입력하여 상기 학습 영상 정보로부터 어노테이션 하고자 하는 객체를 식별하는 단계를 포함할 수 있다.

상기 조정하는 단계는, 상기 생성된 어노테이션을 포함하는 영상 정보를 복수 개의 프레임 영역으로 분할하고, 협동형 작업 방식 기반의 어노테이션 편집 작업을 통해 상기 분할된 복수 개의 프레임 영역을 통합하는 단계를 포함할 수 있다.

상기 조정하는 단계는, 상기 어노테이션의 편집 작업을 위하여 분할된 복수 개의 프레임 영역을 작업자에게 할당하고, 상기 작업자로부터 어노테이션 편집 작업이 수행된 프레임 영역을 전달받고, 상기 전달받은 프레임 영역을 조합하여 영상 정보로 통합하는 단계를 포함할 수 있다.

컴퓨터로 구현되는 어노테이션 툴 시스템은, 학습 영상 정보를 이용하여 객체를 인식하기 위한 학습 모델을 학습시키는 학습부; 상기 학습된 학습 모델에 어노테이션을 생성하기 위한 영상 정보를 입력하는 입력부; 상기 학습된 학습 모델을 이용하여 상기 영상 정보로부터 어노테이션을 생성하는 생성부; 상기 생성된 어노테이션에 대한 협동형 작업 방식 기반의 편집 작업을 수행함에 따라 어노테이션을 조정하는 조정부; 및 상기 조정된 어노테이션을 포함하는 영상 정보를 출력하는 출력부를 포함할 수 있다.

상기 학습부는, 상기 학습 영상 정보를 이용하여 객체를 인식하기 위한 딥러닝 네트워크 기반의 학습 모델을 구축하고, 학습 영상 정보로부터 어노테이션 하고자 하는 객체를 인식하기 위한 대화형 방식 기반의 질의 응답을 통해 상기 구축된 학습 모델을 학습시키는 것을 포함하고, 상기 학습 모델은, RNN, LSTM 기반의 학습 모델로 구축될 수 있다.

상기 학습부는, 상기 학습 영상 정보와 관련된 적어도 하나 이상의 질의를 수행하고, 상기 수행된 질의에 대한 사용자의 응답을 상기 구축된 학습 모델에 입력하여 상기 학습 영상 정보로부터 어노테이션 하고자 하는 객체를 식별할 수 있다.

상기 조정부는, 상기 생성된 어노테이션을 포함하는 영상 정보를 복수 개의 프레임 영역으로 분할하고, 협동형 작업 방식 기반의 어노테이션 편집 작업을 통해 상기 분할된 복수 개의 프레임 영역을 통합할 수 있다.

상기 조정부는, 상기 어노테이션의 편집 작업을 위하여 분할된 복수 개의 프레임 영역을 작업자에게 할당하고, 상기 작업자로부터 상기 어노테이션 편집 작업이 수행된 프레임 영역을 전달받고, 상기 전달받은 프레임 영역을 조합하여 영상 정보로 통합할 수 있다.

딥러닝 기반의 어노테이션 툴을 통해 영상 정보와 관련된 객체에 대한 어노테이션을 보다 정확하고 빠르게 생성할 수 있다.

어노테이션의 편집 작업을 위한 협동형 작업 방식을 통해 분할된 프레임 영역을 통합하여 딥러닝 작업 결과를 미세 조정함으로써 보다 완성도 높은 어노테이션을 제공할 수 있다.

도 1은 일 실시예에 따른 어노테이션 툴 시스템에서 어노테이션 툴을 제공하는 동작을 설명하기 위한 예이다.
도 2는 일 실시예에 따른 어노테이션 툴 시스템의 구성을 설명하기 위한 블록도이다.
도 3은 일 실시예에 따른 어노테이션 툴 시스템에서 어노테이션 툴을 제공하는 방법을 설명하기 위한 흐름도이다.
도 4는 일 실시예에 따른 어노테이션 툴 시스템에서 협동형 작업 방식을 설명하기 위한 예이다.
도 5는 일 실시예에 따른 어노테이션 툴 시스템에서 어노테이션 하고자 하는 객체를 인식하는 방법을 설명하기 위한 흐름도이다.

이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.

실시예에서는 정지된 이미지 데이터가 아닌 적어도 하나 이상의 이미지 프레임으로 구성된 동영상의 어노테이션을 생성하기 위한 어노테이션 툴 시스템 및 방법을 설명하기로 한다. 구체적으로, 학습 영상 정보를 이용하여 객체를 인식시키기 위한 딥러닝 네트워크 기반의 학습 모델을 구축하고, 객체를 인식하기 위한 질의 응답을 수행함에 따라 구축된 학습 모델을 학습시킬 수 있다. 학습된 학습 모델에 새로운 영상 정보를 학습 모델의 입력 데이터로 입력하여 학습시킴에 따라 학습 결과로서 새로운 영상 정보로부터 자동으로 어노테이션을 생성할 수 있다. 또한, 복수 명의 사용자와의 협동형 작업 방식을 통해 딥러닝 기반의 어노테이션 작업 결과를 미세 조정하는 어노테이션 툴 시스템 및 방법을 설명하기로 한다. 구체적으로, 어노테이션 편집 작업을 분할하여 협동형 작업 방식에 기반하여 다수의 사용자에게 동시에 프레임 영역을 할당하고, 프레임 영역에 대하여 편집이 수행된 프레임 영역을 통합하여 어노테이션 편집 작업을 수행할 수 있다.

도 1은 일 실시예에 따른 어노테이션 툴 시스템에서 어노테이션 툴을 제공하는 동작을 설명하기 위한 예이다.

어노테이션 툴 시스템은 어노테이션을 생성하기 위한 어노테이션 툴(100)을 제공할 수 있다. 어노테이션 툴(100)은 사용자로부터 영상 정보를 선택받아 어노테이션을 생성하기 위한 유저 인터페이스를 제공할 수 있다. 어노테이션 툴(100)은 영상 정보로부터 어노테이션을 생성하기 위한 적어도 하나 이상의 기능을 제공할 수 있다. 예를 들면, 어노테이션 툴(110)은 동영상(비디오)를 선택하는 기능, 동영상을 편집하는 기능, 프레임을 병합하여 동영상을 재구성하는 기능, 동영상에서 프레임 영역을 분할하는 기능, 어노테이션 편집 공동 작업 기능, 동영상의 이동 객체에 어노테이션 할 이미지 또는 텍스트를 입력하는 기능, 동영상에서 이동 객체를 선택하는 기능, 동영상에서 이동 객체를 추적하는 기능, 비디오의 프레임 또는 샷을 정렬하는 기능, 어노테이션 편집 작업 기능(이동 객체 별 어노테이션을 확인 또는 수정하는 기능, 어노테이션 미리보기를 재생하는 기능, 어노테이션의 위치를 변경하는 기능 등)을 제공할 수 있다. 이외에도 어노테이션 툴에 다양한 기능들이 제공될 수 있다.

어노테이션 툴 시스템은 어노테이션 툴(100)을 통해 학습 영상 정보가 입력됨을 수신할 수 있다. 예를 들면, 어노테이션 툴 시스템은 사용자로부터 선택된 동영상을 인식할 수 있고, 인식된 동영상으로부터 학습 모델을 통해 객체(110)를 식별할 수 있다. 도 5를 참고하면, 어노테이션 하고자 하는 객체를 인식하는 방법을 설명하기 위한 흐름도이다. 어노테이션 툴 시스템은 구축된 학습 모델을 통하여 학습 영상 정보로부터 객체를 인식하기 위한 대화형 방식 기반의 질의 응답을 수행할 수 있다. 단계(510)에서 학습 영상 정보를 이용하여 객체를 인식하기 위한 딥러닝 네트워크 기반의 학습 모델을 구축할 수 있다. 예를 들면, RNN, LSTM 기반의 학습 모델로 구축될 수 있다.

단계(520)에서 어노테이션 툴 시스템은 학습 영상 정보와 관련된 적어도 하나 이상의 질의를 수행할 수 있다. 어노테이션 툴 시스템은 학습 영상 정보를 인식함에 따라 적어도 하나 이상의 질의를 생성할 수 있다. 예를 들면, 어노테이션 툴 시스템은 학습 영상 정보로부터 인식된 객체와 관련된 질의를 생성할 수 있다. 또는, 어노테이션 툴 시스템은 학습 영상 정보로부터 인식된 객체와 관련된 질의를 생성하기 위한 객체와 관련된 정보의 검색을 통하여 질의를 생성할 수 있다. 이외에도, 어노테이션 툴 시스템은 학습 영상 정보에 대한 질의를 다양하게 생성할 수 있다.

단계(530)에서 어노테이션 툴 시스템은 수행된 질의에 대한 사용자의 응답을 이용하여 구축된 학습 모델을 학습시킴에 따라 학습 영상 정보로부터 어노테이션 하고자 하는 객체를 식별할 수 있다. 다시 말해서, 어노테이션 툴 시스템은 질의에 대한 사용자의 응답을 학습 모델의 훈련 데이터로 입력하여 학습 영상 정보로부터 객체를 식별할 수 있다.

구체적으로, 어노테이션 툴 시스템은 구축된 학습 모델을 이용하여 학습 영상 정보로부터 대화형 방식을 통하여 어노테이션 하고자 하는 객체를 인식할 수 있다. 어노테이션 툴 시스템은 학습을 처음 수행할 때, 대화형 방식에 기반한 상호 작용을 통해 객체 인식을 위한 작업을 결정할 수 있다. 어노테이션 툴 시스템은 학습 영상 정보로 입력된 동영상에서 적어도 하나 이상의 서로 다른 종류의 객체를 인식할 수 있다. 예를 들면, 복수 개의 자동차가 존재하는 학습 영상 정보가 있다고 가정하기로 한다. 어노테이션 툴 시스템은 동영상으로부터 자동차들을 객체로 인식할 수 있고, 객체로 인식된 자동차들 중 어노테이션 하고자 하는 자동차 정보를 입력받을 수 있다. 어노테이션 툴 시스템은 인식된 적어도 하나 이상의 서로 다른 종류의 객체와 관련하여 학습을 수행할 것인지 여부를 판단하기 위한 질의 응답을 수행할 수 있다. 어노테이션 툴 시스템은 질의에 대한 응답을 이용하여 구축된 학습 모델을 학습시킴에 따라 학습 영상 정보로부터 어노테이션 하고자 하는 객체를 식별할 수 있다. 또는, 학습을 처음 수행할 때, 사용자로부터 어노테이션 하고자 하는 객체 또는 객체 영역(예를 들면, 자동차 또는 자동차를 포함하는 영역)이 수동으로 선택될 수 있다. 이때, 학습을 처음 수행할 때만, 사용자로부터 초기 학습 영상 정보에서 객체 또는 객체 영역이 선택될 수 있으며, 이후에는, 사용자로부터 객체 또는 객체 영역의 선택없이 자동으로 학습을 수행할 수 있다.

어노테이션 툴 시스템은 인식된 객체와 관련된 질의를 생성할 수 있다. 일례로, 어노테이션 툴 시스템은 어노테이션 툴을 통해 학습 영상 정보에 포함된 모든 차량(자동차)을 선택할 것인지 사용자에게 질의할 수 있다. 이때, 질의와 관련된 메시지가 어노테이션 툴에 출력될 수 있다. 메시지에는 질의에 대한 응답을 입력받기 위한 유저 인터페이스가 함께 제공될 수 있다. 사용자는 질의와 관련된 메시지를 확인한 후, 긍정 응답 또는 부정 응답을 입력할 수 있다. 사용자로부터 학습 영상 정보 내의 모든 차량을 자동으로 선택할 것으로 응답됨에 따라 어노테이션 툴 시스템은 다음 질문인 차종을 질의할 수 있다. 마찬가지로, 앞서 설명한 바와 같이, 어노테이션 툴 시스템은 세단, SUV 등과 같이 차종을 선택받기 위한 메시지를 어노테이션 툴에 출력할 수 있다. 이때, 메시지는 사용자로부터 차종을 선택받기 위한 차종 정보 리스트가 포함될 수 있고, 차종 정보 리스트로부터 차종이 선택될 수 있다. 또는, 사용자로부터 차종 정보가 입력될 수도 있다. 만약, 사용자로부터 세단 차종이 선택됨에 따라 어노테이션 툴 시스템은 다음 질문인 차량의 색상을 질의할 수 있다. 어노테이션 툴 시스템은 차량의 색상을 선택받기 위한 메시지를 어노테이션 툴에 출력할 수 있다. 이때, 메시지를 통하여 사용자로부터 차량의 색상을 선택 받거나 색상 정보가 입력됨을 수신할 수 있다. 어노테이션 툴 시스템은 메시지의 응답을 통하여 학습 모델을 학습시킴에 따라 학습 영상 정보로부터 어노테이션 하고자 하는 객체를 식별할 수 있다. 이때, 어노테이션 툴 시스템은 객체의 형태에 따라 학습 영상 정보로부터 객체를 추출할 수 있다. 예를 들면, 어노테이션 툴 시스템은 객체의 형태에 기초하여 다각형 형태로 객체를 추출할 수 있다. 어노테이션 툴 시스템은 식별된 객체와 관련된 객체 정보를 획득할 수 있다. 이때, 객체를 식별하기 위하여 학습 모델을 학습시킴에 따라 객체 정보를 획득하게 된다.

또한, 어노테이션 툴 시스템은 학습 영상 정보 중 어느 위치의 프레임에서 처음에 객체가 인식되더라도, 인식된 프레임에서의 객체를 기준으로 인식된 프레임 이외의 나머지 프레임에서도 객체가 동일하게 식별될 수 있다. 예를 들면, 어노테이션 툴 시스템은 학습 영상 정보 중 특정 위치의 프레임에서 식별된 객체를 기준으로 객체의 움직임을 추적하여 나머지 프레임에서도 동일한 객체를 추출할 수 있다.

어노테이션 툴 시스템은 학습 영상 정보를 이용하여 학습 모델을 학습시킴에 따라 학습된 학습 모델에 어노테이션을 생성하기 위한 영상 정보(새로운 영상 정보)를 입력할 수 있다. 어노테이션 툴 시스템은 학습된 학습 모델을 이용하여 영상 정보로부터 어노테이션을 생성할 수 있다. 어노테이션 툴 시스템은 생성된 어노테이션을 포함하는 영상 정보를 어노테이션 툴에 출력시킬 수 있다. 예를 들면, 어노테이션 툴 시스템은 영상 정보로부터 객체를 인식할 수 있고, 인식된 객체 주변에 생성된 어노테이션을 매핑시킬 수 있다. 어노테이션 툴 시스템은 생성된 어노테이션을 포함하는 영상 정보에 설정된 특정 위치에 제공할 수 있다. 이때, 사용자에 의하여 어노테이션을 제공하기 위한 위치가 설정될 수 있다.

또한, 어노테이션 툴 시스템은 영상 정보로부터 생성된 어노테이션에 대한 편집 작업을 위한 협동형 작업 방식을 통해 분할된 프레임 영역을 통합할 수 있다. 어노테이션 툴 시스템은 영상 정보로부터 생성된 어노테이션의 편집 작업을 위하여 분할된 프레임 영역을 작업자에게 할당하고, 작업자로부터 할당된 프레임 영역의 편집 작업이 수행된 프레임 영역을 전달받고, 전달받은 프레임 영역을 조합하여 영상 정보로 통합할 수 있다. 이와 같이, 어노테이션 편집 작업을 분할하여 다수의 사용자가 동시에 공동 작업이 가능하게 된다.

어노테이션 툴 시스템은 다수의 사용자에게 분할된 프레임 영역에 대한 편집 작업이 정상적으로 이루어지고 있는지 여부를 모니터링할 수 있다. 일례로, 어노테이션 툴 시스템은 각각의 사용자에게 분할된 프레임 영역을 할당하기 위하여, 사전에 사용자 정보를 저장하고 있을 수 있다. 어노테이션 툴 시스템은 사용자 정보에 기초하여 분할된 프레임 영역이 작업 중인지 여부를 감시할 수 있다. 구체적으로, 어노테이션 편집 작업을 감시하는 감시자가 존재할 수 있다. 예를 들면, 어노테이션 편집 작업을 위하여 관리자와 직원(사용자)가 존재할 수 있다. 어노테이션 툴 시스템은 프레임 영역을 할당받은 사용자가 어노테이션 툴을 온(on)하고 있을 경우, 어노테이션 편집 작업을 수행하고 있다고 판단할 수 있다. 어노테이션 툴 시스템은 각각의 사용자에게 할당된 프레임 영역에 대한 어노테이션 편집 작업이 완료됨에 따라 편집 작업이 수행된 프레임 영역을 전달받을 수 있다. 이때, 기 설정된 기간 동안 편집 작업이 완료된 프레임 영역을 전달받지 못할 경우, 편집 작업을 수행하지 않은 사용자를 어노테이션 편집 작업에서 배제시키고, 전달받지 못한 프레임 영역을 다른 사용자에게 편집 작업을 할당할 수 있다.

도 2는 일 실시예에 따른 어노테이션 툴 시스템의 구성을 설명하기 위한 블록도이고, 도 3은 일 실시예에 따른 어노테이션 툴 시스템에서 어노테이션 툴을 제공하는 방법을 설명하기 위한 흐름도이다.

어노테이션 툴 시스템(200)은 학습부(210), 입력부(220), 생성부(230), 조정부(240) 및 출력부(250)를 포함할 수 있다. 이러한 어노테이션 툴 시스템(200)의 구성요소들은 어노테이션 툴 시스템에 저장된 프로그램 코드가 제공하는 명령에 따라 프로세서에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. 어노테이션 툴 시스템(200) 및 어노테이션 툴 시스템(200)의 구성요소들은 도 3의 어노테이션 툴 제공 방법이 포함하는 단계들(310 내지 350)을 수행하도록 어노테이션 툴 시스템을 제어할 수 있다. 이때, 어노테이션 툴 시스템(200) 및 어노테이션 툴 시스템(200)의 구성요소들은 메모리가 포함하는 운영체제의 코드와 적어도 하나의 프로그램의 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다.

프로세서는 어노테이션 툴 제공 방법을 위한 프로그램의 파일에 저장된 프로그램 코드를 메모리에 로딩할 수 있다. 예를 들면, 어노테이션 툴 시스템에서 프로그램이 실행되면, 프로세서는 운영체제의 제어에 따라 프로그램의 파일로부터 프로그램 코드를 메모리에 로딩하도록 어노테이션 툴 시스템을 제어할 수 있다. 이때, 어노테이션 툴 시스템(200) 및 어노테이션 툴 시스템(200)이 포함하는 학습부(210), 입력부(220), 생성부(230), 조정부(240) 및 출력부(250) 각각은 메모리에 로딩된 프로그램 코드 중 대응하는 부분의 명령을 실행하여 이후 단계들(310 내지 350)을 실행하기 위한 어노테이션 툴 시스템(200)의 서로 다른 기능적 표현들일 수 있다.

단계(310)에서 학습부(210)는 학습 영상 정보를 이용하여 객체를 인식하기 위한 학습 모델을 학습시킬 수 있다. 이때, 학습 영상 정보란, 객체를 인식시키기 위한 훈련 데이터를 의미할 수 있으며, 동영상을 포함할 수 있다. 학습부(210)는 학습 영상 정보를 이용하여 객체를 인식하기 위한 딥러닝 네트워크 기반의 학습 모델을 구축하고, 학습 영상 정보로부터 어노테이션 하고자 하는 객체를 인식하기 위한 대화형 방식 기반의 질의 응답을 통해 구축된 학습 모델을 학습시킬 수 있다. 이때, 학습 모델은 RNN, LSTM 기반의 학습 모델로 구축될 수 있다. 학습부(210)는 학습 영상 정보와 관련된 적어도 하나 이상의 질의를 수행하고, 수행된 질의에 대한 사용자의 응답을 구축된 학습 모델에 입력하여 학습 영상 정보로부터 어노테이션 하고자 하는 객체를 식별할 수 있다.

단계(320)에서 입력부(220)는 학습된 학습 모델에 어노테이션을 생성하기 위한 영상 정보를 입력할 수 있다.

단계(330)에서 생성부(230)는 학습된 학습 모델을 이용하여 영상 정보로부터 어노테이션을 생성할 수 있다.

단계(340)에서 조정부(240)는 생성된 어노테이션에 대한 협동형 작업 방식 기반의 편집 작업을 수행함에 따라 어노테이션을 조정할 수 있다. 협동형 작업 방식이란, 영상 정보로부터 생성된 어노테이션을 미세 조정하기 위한 편집 작업을 복수 명의 사용자가 어노테이션 작업을 분할하여 동시 또는 기 설정된 기간 동안에 작업을 수행하는 방식을 의미할 수 있다. 조정부(240)는 생성된 어노테이션을 포함하는 영상 정보를 복수 개의 프레임 영역으로 분할하고, 협동형 작업 방식 기반의 어노테이션 편집 작업을 통해 분할된 복수 개의 프레임 영역을 통합할 수 있다. 조정부(240)는 어노테이션 편집 작업을 위하여 분할된 복수 개의 프레임 영역을 작업자에게 할당하고, 작업자로부터 편집 작업이 수행된 프레임 영역을 전달받고, 전달받음 프레임 영역을 조합하여 영상 정보로 통합할 수 있다.

단계(350)에서 출력부(250)는 조정된 어노테이션을 포함하는 영상 정보를 출력할 수 있다.

도 4는 일 실시예에 따른 어노테이션 툴 시스템에서 협동형 작업 방식을 설명하기 위한 예이다.

어노테이션 툴 시스템은 영상 정보로부터 생성된 어노테이션의 편집 작업을 위한 협동형 작업 방식을 통해 분할된 프레임 영역(410, 411)을 통합할 수 있다. 어노테이션 툴 시스템은 어노테이션을 포함하는 영상 정보를 어노테이션 툴을 통해 출력할 수 있다. 영상 정보에 대하여 생성된 어노테이션의 확인 유무가 작업자에 의하여 수행될 수 있다.

일례로, 어노테이션 툴 시스템은 학습 모델의 학습 결과로서 영상 정보에 대한 어노테이션을 획득할 수 있다. 어노테이션 툴 시스템은 획득된 어노테이션에 대한 편집 작업을 위하여 영상 정보로부터 생성된 어노테이션의 편집 작업을 위하여 분할된 프레임 영역(410, 411)을 작업자에게 할당할 수 있다. 예를 들면, 어노테이션 툴 시스템은 영상 정보로부터 기 설정된 크기 또는 무작위의 프레임 영역으로 구분할 수 있다. 이때, 프레임 영역은 영상 정보의 순서대로 또는 순서에 상관없이 적어도 하나 이상의 프레임들로 구성될 수 있다. 어노테이션 툴 시스템은 구분된 프레임 영역을 작업자에게 할당할 수 있다. 예를 들면, 작업자를 할당하는 방식이 존재할 수 있다. 일례로, 기 설정된 기간 동안 편집 작업이 가능한 작업자의 정보(예를 들면, 일정 정보)에 기초하여 작업자가 선택될 수 있다. 어노테이션 툴 시스템은 선택된 작업자에게 프레임 영역을 할당할 수 있다. 또는, 선택된 작업자로부터 편집 작업을 수행하고자 하는 프레임 영역이 선택되어 편집 작업이 수행될 수 있다. 여기서, 편집 작업이란, 영상 정보의 어노테이션이 생성된 위치, 어노테이션의 유무, 어노테이션의 정확성 여부 등을 포함하는 어노테이션 정보를 확인하는 수정 작업(420)을 의미할 수 있다. 예를 들면, 영상 정보에 생성된 어노테이션의 위치가 기 설정된 기준에 부합하지 않을 경우, 작업자에 의하여 어노테이션의 생성 위치가 일부 수정될 수 있다. 또 다른 예로서, 영상 정보에 생성된 어노테이션의 내용이 부정확할 경우, 작업자에 의하여 어노테이션의 내용이 일부 수정될 수 있다. 또한, 어노테이션 툴 시스템은 영상 정보의 일부(프레임 영역)을 분할하여 각각의 작업자에게 편집 작업을 맡기는 것이 아니라, 동일한 영상 정보의 구간을 서로 다른 작업자에게 편집 작업을 맡겨 확인을 수행하도록 함으로써 어노테이션 정보의 정확성을 높일 수 있다. 어노테이션 툴 시스템은 작업자에 의하여 편집 작업이 수행된 프레임 영역을 전달받을 수 있고, 전달받은 프레임 영역을 조합하여 영상 정보(430, 431)로 통합시킬 수 있다. 이때, 어노테이션 툴 시스템은 작업자에 의하여 편집 작업이 수행된 프레임 영역만 전달받음으로써 보다 빠르고 정확하게 영상 정보(430, 431)를 통합시킬 수 있다. 또한, 어노테이션 툴 시스템은 작업자에게 프레임 영역을 할당하기 전에 프레임에 존재하는 프레임 식별 정보(예를 들면, 각각의 시간 정보, 프레임 넘버 등의 상세 정보)에 기초하여 영상 정보(430, 431)를 통합시킬 수 있다. 이와 같이, 어노테이션 툴 시스템은 각각의 작업자로부터 프레임 영역에 대한 편집 작업이 수행됨으로써 일자리 창출을 유도할 수 있다. 프레임 영역의 편집 작업은 어노테이션 툴이 설치된 어느 곳에서나 가능하기 때문에 재택 근무도 가능하다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

컴퓨터로 구현되는 어노테이션 툴 시스템에 의해 수행되는 어노테이션 툴(tool)을 이용한 영상 정보의 어노테이션 제공 방법에 있어서,
학습 영상 정보를 이용하여 객체를 인식하기 위한 학습 모델을 학습시키는 단계;
상기 학습된 학습 모델에 어노테이션을 생성하기 위한 영상 정보를 입력하는 단계;
상기 학습된 학습 모델을 이용하여 상기 영상 정보로부터 어노테이션을 생성하는 단계;
상기 생성된 어노테이션에 대한 협동형 작업 방식 기반의 편집 작업을 수행함에 따라 어노테이션을 조정하는 단계; 및
상기 조정된 어노테이션을 포함하는 영상 정보를 출력하는 단계
를 포함하고,
상기 어노테이션 툴은, 사용자로부터 영상 정보를 선택받아 어노테이션을 생성하기 위한 유저 인터페이스를 제공하는 것을 포함하고,
상기 학습시키는 단계는,
상기 학습 영상 정보를 이용하여 객체를 인식하기 위한 딥러닝 네트워크 기반의 학습 모델을 구축하고, 학습 영상 정보로부터 어노테이션 하고자 하는 객체를 인식하기 위한 대화형 방식 기반의 질의 응답을 통해 상기 구축된 학습 모델을 학습시키고, 상기 학습 영상 정보와 관련된 적어도 하나 이상의 질의를 수행하고, 상기 수행된 질의에 대한 사용자의 응답을 상기 구축된 학습 모델에 입력하여 상기 학습 영상 정보로부터 어노테이션 하고자 하는 객체를 식별하고, 상기 학습 영상 정보 중 특정 위치의 프레임에서 식별된 객체를 기준으로 객체의 움직임을 추적하여 나머지 프레임에서도 동일한 객체를 추출하는 단계
를 포함하고,
상기 조정하는 단계는,
상기 생성된 어노테이션을 포함하는 영상 정보를 복수 개의 프레임 영역으로 분할하고, 상기 어노테이션의 편집 작업을 위하여 분할된 복수 개의 프레임 영역을 작업자에게 할당하고, 상기 작업자에게 할당된 프레임 영역에 대한 편집 작업이 정상적으로 이루어지고 있는지 여부를 모니터링하고, 상기 작업자로부터 편집 작업이 수행된 프레임 영역을 전달받고, 상기 전달받은 프레임 영역을 조합하여 영상 정보로 통합하는 단계
를 포함하는 어노테이션 제공 방법.
제1항에 있어서,
상기 학습 모델은, RNN, LSTM 기반의 학습 모델로 구축되는
어노테이션 제공 방법.
삭제
제1항에 있어서,
상기 조정하는 단계는,
협동형 작업 방식 기반의 어노테이션 편집 작업을 통해 상기 분할된 복수 개의 프레임 영역을 통합하는 단계
를 포함하는 어노테이션 제공 방법.
삭제
컴퓨터로 구현되는 어노테이션 툴 시스템에 있어서,
학습 영상 정보를 이용하여 객체를 인식하기 위한 학습 모델을 학습시키는 학습부;
상기 학습된 학습 모델에 어노테이션을 생성하기 위한 영상 정보를 입력하는 입력부;
상기 학습된 학습 모델을 이용하여 상기 영상 정보로부터 어노테이션을 생성하는 생성부;
상기 생성된 어노테이션에 대한 협동형 작업 방식 기반의 편집 작업을 수행함에 따라 어노테이션을 조정하는 조정부; 및
상기 조정된 어노테이션을 포함하는 영상 정보를 출력하는 출력부
를 포함하고,
상기 어노테이션 툴은, 사용자로부터 영상 정보를 선택받아 어노테이션을 생성하기 위한 유저 인터페이스를 제공하는 것을 포함하고,
상기 학습부는,
상기 학습 영상 정보를 이용하여 객체를 인식하기 위한 딥러닝 네트워크 기반의 학습 모델을 구축하고, 학습 영상 정보로부터 어노테이션 하고자 하는 객체를 인식하기 위한 대화형 방식 기반의 질의 응답을 통해 상기 구축된 학습 모델을 학습시키고, 상기 학습 영상 정보와 관련된 적어도 하나 이상의 질의를 수행하고, 상기 수행된 질의에 대한 사용자의 응답을 상기 구축된 학습 모델에 입력하여 상기 학습 영상 정보로부터 어노테이션 하고자 하는 객체를 식별하고, 상기 학습 영상 정보 중 특정 위치의 프레임에서 식별된 객체를 기준으로 객체의 움직임을 추적하여 나머지 프레임에서도 동일한 객체를 추출하는 것을 포함하고,
상기 조정부는,
상기 생성된 어노테이션을 포함하는 영상 정보를 복수 개의 프레임 영역으로 분할하고, 상기 어노테이션의 편집 작업을 위하여 분할된 복수 개의 프레임 영역을 작업자에게 할당하고, 상기 작업자에게 할당된 프레임 영역에 대한 편집 작업이 정상적으로 이루어지고 있는지 여부를 모니터링하고, 상기 작업자로부터 편집 작업이 수행된 프레임 영역을 전달받고, 상기 전달받은 프레임 영역을 조합하여 영상 정보로 통합하는
어노테이션 툴 시스템.
제6항에 있어서,
상기 학습 모델은, RNN, LSTM 기반의 학습 모델로 구축되는
어노테이션 툴 시스템.
삭제
제6항에 있어서,
상기 조정부는,
협동형 작업 방식 기반의 어노테이션 편집 작업을 통해 상기 분할된 복수 개의 프레임 영역을 통합하는
것을 특징으로 하는 어노테이션 툴 시스템.
삭제