WO2020067632A1

WO2020067632A1 - 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법, 장치, 프로그램 및 그 영상 학습 방법

Info

Publication number: WO2020067632A1
Application number: PCT/KR2019/008402
Authority: WO
Inventors: 박민우
Original assignee: 주식회사 크라우드웍스
Priority date: 2018-09-27
Filing date: 2019-07-09
Publication date: 2020-04-02
Also published as: US11295169B2; JP6715358B2; JP2020052999A; KR102015939B1; US20210241031A1

Abstract

인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법, 장치, 프로그램 및 그 영상 학습 방법이 제공된다. 상기 방법은, 인공지능 영상 학습을 위한 원시 동영상을 수신하는 단계, 수신한 원시 동영상에서 미리 정해진 시간 구간 당 미리 정해진 개수의 프레임 이미지를 추출하는 단계, 객체 검출 알고리즘을 이용하여 각각의 프레임 이미지 상에서 미리 정해진 하나 이상의 유형의 하나 이상의 학습 대상 객체를 검출하는 단계, 각각의 프레임 이미지 상에서 학습 대상 객체를 제외한 배경을 제거하는 단계, 배경이 제거된 제n프레임 이미지 상의 학습 대상 객체 각각의 이동량을 측정하는 단계 및 제n 프레임 이미지 상의 검출된 하나 이상의 학습 대상 객체 각각의 이동량의 측정 결과와 미리 정해진 기준을 비교하여 제n 프레임 이미지를 학습 대상 프레임 이미지로 선정하는 단계를 포함한다.

Description

인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법, 장치, 프로그램 및 그 영상 학습 방법

본 발명은 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법, 그 장치, 프로그램 및 그 영상 학습 방법에 관한 것이다.

인공지능(artificial intelligence, AI)은 기계로부터 만들어진 지능을 의미한다. 인간의 지능으로 할 수 있는 사고, 학습 등을 컴퓨터가 할 수 있도록 하는 방법을 연구하는 컴퓨터 공학 및 정보기술의 한 분야로서, 컴퓨터가 인간의 지능적인 행동을 모방할 수 있도록 하는 것을 인공지능이라고 한다.

인공지능은 꾸준히 연구개발이 이루어지고 있으며, 이미지 지능화에서 음성 및 텍스트 지능화로, 현재는 비디오 영상 지능화에 대한 연구개발이 이루어지고 있어 급속한 성장 중이며, 비디오 영상 지능화의 산업적 파급효과는 매우 크다.

인공지능 학습을 위한 학습데이터를 만드는 과정에 있어서, 획득한 데이터를 전처리하는 작업은, 학습데이터를 만드는 시간 중 약 70~80%의 시간을 차지한다.

또한, 비디오 영상 데이터의 양은 기존의 이미지 또는 음성 데이터의 양과 비교하여 수십배에서 수백배까지도 차이가 난다.

비디오 영상 데이터를 이용하여 학습 데이터를 생성하는 것은, 기존의 이미지 또는 음성 데이터를 이용한 학습 데이터 생성과 비교하여 방대한 데이터 용량 때문에 데이터의 전처리 작업에서 시간과 비용이 매우 증가하는 문제가 있다.

따라서, 본 발명이 해결하고자 하는 과제는 데이터의 전처리 작업에서 시간과 비용을 최소화 할 수 있는 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법을 제공하는 것이다.

본 발명이 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

상술한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법은, 컴퓨터에 의해 수행되는 방법으로서, 인공지능 영상 학습을 위한 원시 동영상을 수신하는, 원시 동영상 수신 단계, 수신한 상기 원시 동영상에서 미리 정해진 시간 구간 당 미리 정해진 개수의 프레임 이미지를 추출하는, 프레임 이미지 추출 단계, 객체 검출 알고리즘을 이용하여 각각의 상기 프레임 이미지 상에서 미리 정해진 하나 이상의 유형의 하나 이상의 학습 대상 객체를 검출하는, 학습 대상 객체 검출 단계, 각각의 상기 프레임 이미지 상에서 상기 학습 대상 객체를 제외한 배경을 제거하는, 배경 제거 단계, 배경이 제거된 제n(n은 2이상의 자연수) 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체의 위치와 상기 제n 프레임 이미지의 직전의 배경이 제거된 제n-1 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체의 위치를 비교하여, 상기 제n 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체 각각의 이동량을 측정하는, 객체의 이동량 측정 단계 및 상기 제n 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체 각각의 이동량의 측정 결과와 미리 정해진 기준을 비교하여 상기 제n 프레임 이미지를 학습 대상 프레임 이미지로 선정하는, 학습 대상 프레임 이미지 선정 단계를 포함한다.

상기 학습 대상 프레임 이미지 선정 단계는, 검출된 상기 하나 이상의 학습 대상 객체 중 미리 정해진 개수 이상의 상기 학습 대상 객체의 이동량이 상기 미리 정해진 기준 이상인 경우에는, 상기 제n 프레임 이미지를 상기 학습 대상 프레임 이미지로 선정하고, 그렇지 않은 경우에는, 상기 제n 프레임 이미지를 상기 학습 대상 프레임 이미지로 선정하지 않는다.

상술한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법은, 선정된 상기 학습 대상 프레임 이미지를 가공 처리하여 학습용 동영상 셋을 생성하는, 학습용 동영상 셋 생성 단계를 더 포함한다.

상기 학습용 동영상 셋 생성 단계에서 상기 학습 대상 프레임 이미지는, 상기 프레임 이미지 추출 단계에서 상기 하나 이상의 학습 대상 객체가 검출되기 전의 프레임 이미지이고, 상기 학습용 동영상 셋 생성 단계는, 상기 학습 대상 프레임 이미지 상에서 상기 미리 정해진 하나 이상의 유형의 하나 이상의 학습 대상 객체를 검출하는, 객체 검출 단계 및 상기 학습 대상 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체에 대하여 주석화 처리하는, 주석화 처리 단계를 더 포함한다.

상기 학습용 동영상 셋 생성 단계에서 상기 학습 대상 프레임 이미지는, 상기 학습 대상 객체 검출 단계에서 상기 하나 이상의 학습 대상 객체가 검출된 프레임 이미지이고, 상기 학습용 동영상 셋 생성 단계는, 상기 학습 대상 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체에 대하여 주석화 처리하는, 주석화 처리 단계를 더 포함한다.

상술한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 인공지능 영상 학습 방법은, 컴퓨터에 의해 수행되는 방법으로서, 학습용 동영상 셋을 이용하여 인공지능 영상 학습을 수행하는 단계를 포함하고, 상기 학습용 동영상은, 인공지능 영상 학습을 위한 원시 동영상을 수신하는, 원시 동영상 수신 단계와, 수신한 상기 원시 동영상에서 미리 정해진 시간 구간 당 미리 정해진 개수의 프레임 이미지를 추출하는, 프레임 이미지 추출 단계와, 객체 검출 알고리즘을 이용하여 각각의 상기 프레임 이미지 상에서 미리 정해진 하나 이상의 유형의 하나 이상의 학습 대상 객체를 검출하는, 학습 대상 객체 검출 단계와, 각각의 상기 프레임 이미지 상에서 상기 학습 대상 객체를 제외한 배경을 제거하는, 배경 제거 단계와, 배경이 제거된 제n(n은 2이상의 자연수) 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체의 위치와 상기 제n 프레임 이미지의 직전의 배경이 제거된 제n-1 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체의 위치를 비교하여, 상기 제n 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체 각각의 이동량을 측정하는, 객체의 이동량 측정 단계와, 상기 제n 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체 각각의 이동량의 측정 결과와 미리 정해진 기준을 비교하여 상기 제n 프레임 이미지를 학습 대상 프레임 이미지로 선정하는, 학습 대상 프레임 이미지 선정 단계와, 선정된 상기 학습 대상 프레임 이미지를 가공 처리하여 학습용 동영상 셋을 생성하는, 학습용 동영상 셋 생성 단계를 포함하는 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법에 의해서 생성된 것을 특징으로 한다.

상술한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 장치는, 인공지능 영상 학습을 위한 원시 동영상을 수신하는, 원시 동영상 수신부, 수신한 상기 원시 동영상에서 미리 정해진 시간 구간 당 미리 정해진 개수의 프레임 이미지를 추출하는, 프레임 이미지 추출부, 객체 검출 알고리즘을 이용하여 각각의 상기 프레임 이미지 상에서 미리 정해진 하나 이상의 유형의 하나 이상의 학습 대상 객체를 검출하는, 학습 대상 객체 검출부, 각각의 상기 프레임 이미지 상에서 상기 학습 대상 객체를 제외한 배경을 제거하는, 배경 제거부, 배경이 제거된 제n(n은 2이상의 자연수) 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체의 위치와 상기 제n 프레임 이미지의 직전의 배경이 제거된 제n-1 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체의 위치를 비교하여, 상기 제n 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체 각각의 이동량을 측정하는, 객체의 이동량 측정부 및 상기 제n 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체 각각의 이동량의 측정 결과와 미리 정해진 기준을 비교하여 상기 제n 프레임 이미지를 학습 대상 프레임 이미지로 선정하는, 학습 대상 프레임 이미지 선정부를 포함한다.

상술한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 장치는, 선정된 상기 학습 대상 프레임 이미지를 가공 처리하여 학습용 동영상 셋을 생성하는, 학습용 동영상 셋 생성부를 더 포함한다.

상술한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 인공지능 영상 학습 장치는, 학습용 동영상 셋을 이용하여 인공지능 영상 학습을 수행하는, 인공지능 영상 학습 수행부를 포함하고, 상기 학습용 동영상은, 인공지능 영상 학습을 위한 원시 동영상을 수신하는, 원시 동영상 수신부와, 수신한 상기 원시 동영상에서 미리 정해진 시간 구간 당 미리 정해진 개수의 프레임 이미지를 추출하는, 프레임 이미지 추출부와, 객체 검출 알고리즘을 이용하여 각각의 상기 프레임 이미지 상에서 미리 정해진 하나 이상의 유형의 하나 이상의 학습 대상 객체를 검출하는, 학습 대상 객체 검출부와, 각각의 상기 프레임 이미지 상에서 상기 학습 대상 객체를 제외한 배경을 제거하는, 배경 제거부와, 배경이 제거된 제n(n은 2이상의 자연수) 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체의 위치와 상기 제n 프레임 이미지의 직전의 배경이 제거된 제n-1 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체의 위치를 비교하여, 상기 제n 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체 각각의 이동량을 측정하는, 객체의 이동량 측정부와, 상기 제n 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체 각각의 이동량의 측정 결과와 미리 정해진 기준을 비교하여 상기 제n 프레임 이미지를 학습 대상 프레임 이미지로 선정하는, 학습 대상 프레임 이미지 선정부와, 선정된 상기 학습 대상 프레임 이미지를 가공 처리하여 학습용 동영상 셋을 생성하는, 학습용 동영상 셋 생성부를 포함하는 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 장치에 의해서 생성된 것을 특징으로 한다.

상술한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 프로그램은, 하드웨어인 컴퓨터를 이용하여, 상술한 방법 중 어느 하나의 방법을 실행하기 위해 기록 매체에 저장된다.

본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.

상기 본 발명에 의하면, 동영상의 학습 데이터 생성에 있어서 동영상 데이터 중 일부만을 학습 데이터로 선정함으로써 데이터의 전처리 작업에서 시간 및 비용을 최소화할 수 있다.

또한, 상기 본 발명에 의하면, 학습 데이터 선정에 있어서 불필요한 데이터는 줄이고, 필요한 데이터만을 선정할 수 있다.

또한, 상기 본 발명에 의하면, 학습 대상 객체와 배경을 구분하여 학습 대상 객체의 변화량을 정확하게 측정할 수 있다.

본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법을 설명하기 위한 순서도이다.

도 2는 본 발명의 학습 대상 객체의 이동량을 측정하기 위한 방법을 설명하기 위한 도면이다.

도 3은 본 발명의 학습 대상 프레임 이미지 선정 방법을 설명하기 위한 도면이다.

도 4는 본 발명의 일 실시예에 따른 학습 대상 프레임 이미지 샘플링 과정을 설명하기 위한 도면이다.

도 5는 학습용 동영상 셋을 생성하는 단계를 포함한 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법을 설명하기 위한 순서도이다.

도 6은 본 발명의 학습 대상 프레임 이미지가 학습 대상 객체가 검출되기 전의 프레임 이미지인 경우 학습용 동영상 셋을 생성하는 단계를 설명하기 위한 순서도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

공간적으로 상대적인 용어인 "아래(below)", "아래(beneath)", "하부(lower)", "위(above)", "상부(upper)" 등은 도면에 도시되어 있는 바와 같이 하나의 구성요소와 다른 구성요소들과의 상관관계를 용이하게 기술하기 위해 사용될 수 있다. 공간적으로 상대적인 용어는 도면에 도시되어 있는 방향에 더하여 사용시 또는 동작 시 구성요소들의 서로 다른 방향을 포함하는 용어로 이해되어야 한다. 예를 들어, 도면에 도시되어 있는 구성요소를 뒤집을 경우, 다른 구성요소의 "아래(below)"또는 "아래(beneath)"로 기술된 구성요소는 다른 구성요소의 "위(above)"에 놓여질 수 있다. 따라서, 예시적인 용어인 "아래"는 아래와 위의 방향을 모두 포함할 수 있다. 구성요소는 다른 방향으로도 배향될 수 있으며, 이에 따라 공간적으로 상대적인 용어들은 배향에 따라 해석될 수 있다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다.

도 1을 참고하면, 본 발명의 일 실시예에 따른 동영상의 학습 대상 프레임 이미지 샘플링 방법은, 인공지능 영상 학습을 위한 원시 동영상을 수신하는, 원시 동영상 수신 단계(S100), 수신한 원시 동영상에서 미리 정해진 시간 구간 당 미리 정해진 개수의 프레임 이미지를 추출하는, 프레임 이미지 추출 단계(S200), 각각의 프레임 이미지 상에서 미리 정해진 하나 이상의 유형의 하나 이상의 학습 대상 객체를 검출하는, 학습 대상 객체 검출 단계(S300), 각각의 프레임 이미지 상에서 학습 대상 객체를 제외한 배경을 제거하는, 배경 제거 단계(S400), 제n 프레임 이미지 상의 검출된 하나 이상의 학습 대상 객체 각각의 이동량을 측정하는, 학습 대상 객체 이동량 측정 단계(S500) 및 하나 이상의 학습 대상 객체 각각의 이동량의 측정 결과와 미리 정해진 기준을 비교하여 제n 프레임 이미지를 학습 대상 프레임 이미지로 선정하는, 학습 대상 프레임 이미지 선정 단계(S600)를 포함한다.

원시 동영상 수신 단계(S100)에서 원시 동영상은 각종 카메라 등에서 수집되는 동영상을 포함한다.

일 실시예로, 자동차의 자율 주행을 위한 인공지능 영상 학습 데이터를 생성하기 위해 원시 동영상을 수신하는 경우, 원시 동영상은, 차량용 블랙박스 영상, 자동차가 다닐 수 있는 도로를 비추고 있는 CCTV 영상 또는 자율 주행을 위한 학습 데이터 생성을 위하여 카메라를 부착한 자동차로부터 획득한 동영상 등, 자율 주행을 위한 학습 데이터 생성이 가능한 동영상이 모두 포함되며, 상기 예에 한정되지 않는다.

다른 실시예로, 병변 또는 질환을 진단하기 위한 인공지능 영상 학습 데이터를 생성하기 위해 원시 동영상을 수신하는 경우, 원시 동영상은, 각종 영상 의료 기기에 의해 획득된 동영상을 포함하고, 예를 들어, CT(Computer tomography) 영상, 핵자기공명 컴퓨터 단층촬영 영상(Nuclear Magnetic Resonance Computed Tomography, NMR-CT), 양전자 단층촬영 영상(positron emission tomography; PET), CBCT(conebeamCT), 전자빔 단층촬영 영상(Electron beam tomography), 엑스레이(X-ray), 자기공명영상(margnetic resonance imaging) 등이 포함될 수 있으나, 영상 의료 기기에 의해 획득된 동영상은 모두 포함되며, 상기 예에 한정되지 않는다.

또 다른 실시예로, 범죄 현장을 감지하기 위한 인공지능 영상 학습 데이터를 생성하기 위해 원시 동영상을 수신하는 경우, 원시 동영상은, 공공으로 설치된 CCTV 및 개인이 설치한 CCTV 등에 의해 획득된 동영상을 포함한다.

프레임 이미지 추출 단계(S200)는, 수신한 원시 동영상에서 컴퓨터 또는 사용자의 설정에 의해 정해진 개수의 프레임 이미지를 추출한다.

수신한 원시 동영상에서 정해진 개수의 프레임 이미지를 추출하는 것은, 미리 정해진 시간의 구간에서 미리 정해진 개수의 프레임을 추출하는 것으로서, 예를 들어, 컴퓨터는 초당 30프레임 또는 초당 60프레임을 추출할 수 있으며, 사용자 또는 컴퓨터에 의해 미리 정해진 기준에 의해 프레임을 추출하는 것은 모두 포함되며, 상기 예에 한정되지 않는다.

학습 대상 객체 검출 단계(S300)는, 추출된 프레임 이미지 각각에 대하여 학습 대상 객체를 검출하는 것으로서, 추출된 프레임 이미지 각각에서 하나 이상의 학습 대상 객체를 검출하고, 학습 대상 객체는 하나 이상의 유형을 포함한다.

학습 대상 객체의 종류로는, 예를 들어, 사람, 자동차, 자전거, 건물, 전봇대, 오토바이, 나무, 꽃, 강아지, 고양이, 도로, 교통 표지판, 과속 방지턱, 교통용 콘, 차선 등을 포함하며, 상기 예에 한정되지 않고, 객체로서 구별이 가능한 것들을 모두 포함한다.

각 학습 대상 객체의 유형으로는, 예를 들어, 전면, 후면, 우측면, 좌측면 등을 포함하고, 각 학습 대상 객체의 유형은 상기 예에 한정되지 않고, 상기 예보다 세분화시켜 구분할 수 있으며, 상기 예와는 전혀 다른 유형으로서 구분할 수도 있다.

학습 대상 객체 검출로서 하나 이상의 유형의 하나 이상의 객체를 검출하는 것은, 객체 검출 알고리즘을 이용하여 검출하는 것이고, 객체 검출 알고리즘은 예를 들어, R-CNN 모델을 포함한다.

배경 제거 단계(S400)는, 추출한 프레임 이미지 상에서 검출된 학습 대상 객체를 제외한 것들을 배경으로 처리하고, 배경 부분을 모두 제거하는 것이다.

프레임 이미지 상에서 배경을 제거하는 방법으로서는, 일 실시예로 배경에 해당 되는 영역을 0 또는 1로 처리하여 제거한다.

학습 대상 객체 이동량 측정 단계(S500)는, 배경이 제거된 제n(n은 2이상의 자연수) 프레임 이미지 상의 검출된 하나 이상의 학습 대상 객체의 위치와 제n 프레임 이미지의 직전의 배경이 제거된 제n-1 프레임 이미지 상의 검출된 하나 이상의 학습 대상 객체의 위치를 비교하여, 제n 프레임 이미지 상의 검출된 하나 이상의 학습 대상 객체 각각의 이동량을 측정하는 단계이다.

학습 대상 객체 이동량 측정에 관한 구체적인 실시예는 도 2에서 후술한다.

학습 대상 프레임 이미지 선정 단계(S600)는, 제n 프레임 이미지 상의 검출된 하나 이상의 학습 대상 객체 각각의 이동량의 측정 결과와 미리 정해진 기준을 비교하여 제n 프레임 이미지를 학습 대상 프레임 이미지로 선정한다.

학습 대상 프레임 이미지 선정에 관한 구체적인 방법은 도 3 및 도 4에서 후술한다.

도 2를 참고하여, 학습 대상 객체 이동량 측정 단계(S500)에서의 이동량 측정 방법에 대하여 설명한다.

도 2의 (a)는 제n-1 프레임 이미지(11), 도 2의 (b)는 제n 프레임 이미지(12)를 도시하고 있다.

학습 대상 객체의 이동량 측정은 제n-1 프레임 이미지(11) 상에서의 학습 대상 객체(21)와 제n 프레임 이미지(12) 상에서의 학습 대상 객체(22)의 위치를 비교하는 것이다.

제n-1 프레임 이미지(11) 상에서의 학습 대상 객체(21)와 제n 프레임 이미지(12) 상에서의 학습 대상 객체(22)는 동일한 형태의 객체로서, 학습 대상 객체의 동일한 위치에 해당하는 부분을 먼저 선정한다.

학습 대상 객체의 동일한 위치에 해당하는 부분의 선정은, 컴퓨터가 제n-1 프레임 이미지(11) 상의 학습 대상 객체(21)에서 특정 부분을 A로 선정하였다고 할 때, 제n 프레임 이미지(12) 상의 학습 대상 객체(22)상에서 A와 동일한 위치에 해당하는 부분을 A'로 선정한다.

컴퓨터는 학습 대상 객체의 동일한 위치에 해당하는 부분을 선정한 후, 제n-1 프레임 이미지(11)와 제n 프레임 이미지(12)가 동일한 평면 상에 놓은 후, A 및 A'에 대한 좌표를 추출한다.

컴퓨터는 A 및 A'에 대한 좌표를 추출한 후, A좌표 및 A'좌표의 차이를 이용하여 이동량을 측정한다.

도 3을 참고하면, 학습 대상 프레임 이미지 선정 방법은, 검출된 하나 이상의 학습 대상 객체 중 미리 정해진 개수 이상의 학습 대상 객체의 이동량이 미리 정해진 기준 이상인지(S610)를 판단하여, 검출된 하나 이상의 학습 대상 객체 중 미리 정해진 개수 이상의 학습 대상 객체의 이동량이 미리 정해진 기준 이상인 경우에는, 제n 프레임 이미지를 학습 대상 프레임 이미지로 선정(S611)하고, 검출된 하나 이상의 학습 대상 객체 중 미리 정해진 개수 이상의 학습 대상 객체의 이동량이 미리 정해진 기준 이상에 해당되지 않는 경우에는 제n 프레임 이미지를 학습 대상 프레임 이미지로 선정하지 않는 것이다(S612).

학습 대상 객체의 이동량의 기준을 설정하여, 미리 정해진 기준 이상인 것에 해당되는 프레임 이미지만, 학습 대상 프레임 이미지로서 선정함으로써, 불필요한 데이터는 줄이고, 필요한 데이터만을 선정할 수 있다.

따라서, 학습 대상 프레임 이미지는, 추출된 프레임 이미지 모두가 학습 대상 프레임 이미지로서 선정되지 않고, 객체의 이동량이 적어 학습에 있어 영향이 크지 않은 데이터들을 제외하고, 일부만이 학습 대상 프레임 이미지로서 선정됨으로써, 학습 데이터 셋은, 데이터의 양이 방대함에도 빠르고 정확하게 생산될 수 있다.

또한, 나아가, 학습 데이터 셋은 불필요한 데이터를 제거하여 생산됨으로써, 학습에 소요되는 시간도 줄일 수 있다.

도 4를 참고하면, 도 4의 (a)는 프레임 이미지 추출 단계(S200)에 의해 추출된 프레임 이미지(10)를 도시하고 있으며, 프레임 이미지(10)는 학습 대상 객체(20) 및 배경(30)을 포함한다.

도 4의 (b)는 도 4의 (a)인 프레임 이미지(10)에서, 배경 제거 단계(S400)에 의해 배경(30)이 제거된 것을 나타낸 도면으로, 프레임 이미지(10)는 학습 대상 객체(20)만을 포함한다.

도 4의 (c)는 제n(n은 2이상의 자연수) 프레임 이미지 상의 검출된 하나 이상의 학습 대상 객체(21)의 위치와 제n 프레임 이미지의 직전의 배경이 제거된 제n-1 프레임 이미지 상의 검출된 하나 이상의 학습 대상 객체(22)의 위치를 비교하는 것을 나타낸 도면이다.

컴퓨터는 각각의 학습 대상 객체(21, 22)간의 비교를 통하여, 학습 대상 객체의 이동량을 측정할 수 있다.

학습 대상 객체(21, 22)의 위치 비교를 통하여, 이동량을 측정한 후, 컴퓨터는 검출된 하나 이상의 학습 대상 객체(20) 중 미리 정해진 개수 이상의 학습 대상 객체의 이동량이 미리 정해진 기준 이상인 경우에는, 제n 프레임 이미지를 상기 학습 대상 프레임 이미지로 선정하고, 그렇지 않은 경우에는, 제n 프레임 이미지를 학습 대상 프레임 이미지로 선정하지 않는다.

일 실시예로, 컴퓨터는 제1 프레임 이미지 상에서 검출된 학습 대상 객체와 제2 프레임 이미지 상에서 검출된 학습 대상 객체의 이동량을 비교하여 이동량이 미리 정해진 기준 이상인 경우에는, 제2 프레임 이미지를 학습 대상 프레임 이미지로 선정한다. 이동량이 미리 정해진 기준 이상에 해당되지 않는 경우에는, 제2 프레임 이미지를 학습 대상 프레임 이미지로 선정하지 않는다.

학습 대상 프레임 이미지를 선정하는 단계는, 선정된 추출된 프레임 이미지를 모두 비교하여 실시하는 것이다.

따라서, 컴퓨터는 제2 프레임 이미지를 학습 대상 프레임 이미지로 선정 또는 선정하지 않은 것에 그치지 않고, 다시 제2 프레임 이미지 상에서 검출된 학습 대상 객체와 제3 프레임 이미지 상에서 검출된 학습 대상 객체의 이동량을 비교하여, 이동량이 미리 정해진 기준 이상인 경우에는, 제3 프레임 이미지를 학습 대상 프레임 이미지로 선정한다.

프레임 이미지 상의 객체의 이동량을 측정하고 학습 대상 프레임 이미지로 선정 또는 선정하지 않는 단계는, 제n(n은 2이상의 자연수) 프레임 이미지 상의 검출된 하나 이상의 학습 대상 객체와 제n-1 프레임 이미지 상의 검출된 하나 이상의 학습 대상 객체의 위치를 비교하는 것으로서, 추출된 모든 프레임 이미지 상의 검출된 하나 이상의 학습 대상 객체에 대하여 비교하여 학습 대상 프레임으로 선정 또는 선정하지 않는 것이 완료될 때까지 반복한다.

또한, 학습 대상 객체(20)는 하나 이상으로서, 컴퓨터는 하나의 프레임 이미지(10) 상에 복수의 학습 대상 객체(20)가 있는 경우에도, 각각의 학습 대상 객체(20)를 비교하여 이동량을 측정한다.

하나의 프레임 이미지(10) 상에 복수의 학습 대상 객체(20)를 포함하는 경우에는, 일 실시예로, 컴퓨터는 복수의 학습 대상 객체(20) 전부의 이동량을 측정하여, 미리 정해진 개수의 학습 대상 객체(20)의 이동량이 미리 정해진 기준 이상인 경우 해당 프레임 이미지(10)를 학습 대상 프레임 이미지로 선정한다.

다른 실시예로, 컴퓨터는 복수의 학습 대상 객체(20) 전부의 이동량을 측정하여, 복수의 학습 대상 객체(20) 전부의 이동량이 미리 정해진 기준 이상인 경우 해당 프레임 이미지(10)를 학습 대상 프레임 이미지로 선정한다.

또 다른 실시예로, 컴퓨터는 복수의 학습 대상 객체(20) 중 미리 정해진 개수의 학습 대상 객체(20)의 이동량만을 측정하여, 측정한 학습 대상 객체(20)의 이동량 중 미리 정해진 개수의 학습 대상 객체(20)의 이동량이 미리 정해진 기준 이상인 경우 해당 프레임 이미지(10)를 학습 대상 프레임 이미지로 선정한다.

또 다른 실시예로, 컴퓨터는 복수의 학습 대상 객체(20) 중 미리 정해진 개수의 학습 대상 객체(20)의 이동량만을 측정하여, 측정한 학습 대상 객체(20) 전부의 이동량이 미리 정해진 기준 이상인 경우 해당 프레임 이미지(10)를 학습 대상 프레임 이미지로 선정한다.

도 4의 (c)의 이동량 측정에 의해 선정된 학습 대상 프레임 이미지는, 도 4의 (d)와 같이, 추출된 프레임 이미지(11, 12, 13, 14, 15) 중에서 선정된 학습 대상 프레임 이미지(12, 14)로서 선정된다.

도 5를 참고하면, 본 발명의 동영상의 학습 대상 프레임 이미지 샘플링 방법은 선정된 학습 대상 프레임 이미지를 가공 처리하여 학습용 동영상 셋을 생성하는 단계(S700)를 더 포함한다.

선정된 학습 대상 프레임 이미지를 가공 처리하여 학습용 동영상 셋을 생성하는 단계(S700)에서, 학습 대상 프레임 이미지는, 학습 대상 객체가 검출되기 전의 프레임 이미지 또는 학습 대상 객체가 검출된 프레임 이미지를 포함한다.

도 6을 참고하면, 학습 대상 프레임 이미지가 학습 대상 객체가 검출되기 전의 프레임 이미지인 경우 학습용 동영상 셋을 생성하는 단계(S700)는, 학습 대상 프레임 이미지 상에서 미리 정해진 하나 이상의 유형의 하나 이상의 학습 대상 객체를 검출하는 단계(S710) 및 학습 대상 프레임 이미지 상의 검출된 하나 이상의 학습 대상 객체에 대하여 주석화 처리하는 단계(S720)를 포함한다.

학습 대상 프레임 이미지 상에서 미리 정해진 하나 이상의 유형의 하나 이상의 학습 대상 객체를 검출하는 단계(S710)는, 상술한 도 1의 학습 대상 객체를 검출하는 단계(S300)와 동일하게 적용된다.

학습 대상 객체가 검출되기 전의 프레임 이미지인 학습 대상 프레임 이미지가, 학습 대상 객체를 검출하는 단계를 거치게 되는 것은, 이후 진행될 학습 대상 프레임 이미지 상의 학습 대상 객체에 대하여 주석화를 처리하고, 이를 이용하여 학습용 동영상 셋을 생성 단계를 위한 것이다.

학습 대상 프레임 이미지 상의 검출된 하나 이상의 학습 대상 객체에 대하여 주석화 처리하는 단계(S720)에서, 주석화 처리는, 라벨링(labeling), 컬러링(coloring) 또는 레이어링(layering)을 포함하고, 학습 대상 객체가 무엇인지 표시하는 것은 모두 주석화 처리로서 포함될 수 있다.

학습 대상 프레임 이미지 상의 검출된 하나 이상의 학습 대상 객체는, 예를 들어, 박스(box)등의 형태로서, 영역이 구분되도록 표시되어 있다.

따라서, 학습 대상 객체로서 구분되어 표시된 영역에 대하여, 각 객체가 무엇인지 설명이 작성될 수 있으며, 라벨링(labeling)은, 간단하게는 하나의 단어로 작성될 수 있고, 하나의 단어가 아닌, 문장으로서도 자세하게 작성될 수 있다.

하나 이상의 사용자가 직접 라벨링을 할 수 있으며, 컴퓨터가 사용자로부터 라벨링 명령을 받아 입력할 수 있다.

사용자가 라벨링을 하는 경우에, 라벨링의 방법으로는, 직접 설명을 작성하거나 복수의 탭 중에서 선택할 수도 있다.

또한, 컴퓨터가 학습에 의하여 이전에 라벨링 되었던 객체와 현재 라벨링 대상 객체가 동일하다고 판단되는 경우에는, 컴퓨터는 현재 라벨링 대상 객체에 대하여 이전 객체와 동일하게 라벨링 할 수 있다.

컬러링(coloring) 또는 레이어링(layering)을 통해 주석화 처리하는 경우에도, 라벨링과 동일하게 하나 이상의 사용자가 직접 컬러링 또는 레이어링을 할 수 있으며, 컴퓨터가 사용자로부터 컬러링 또는 레이어링 명령을 받아 입력할 수 있다.

또한, 컴퓨터가 학습에 의하여 이전에 컬러링 또는 레이어링 되었던 객체와 현재 컬러링 또는 레이어링 대상 객체가 동일하다고 판단되는 경우에는, 컴퓨터는 현재 컬러링 또는 레이어링 대상 객체에 대하여 이전 객체와 동일하게 컬러링 또는 레이어링 할 수 있다.

한편, 학습 대상 프레임 이미지가 하나 이상의 학습 대상 객체가 검출된 프레임 이미지인 경우 학습용 동영상 셋을 생성하는 단계(S700)는, 학습 대상 프레임 이미지 상의 검출된 하나 이상의 학습 대상 객체에 대하여 주석화 처리하는 단계(S720)를 포함한다.

검출된 하나 이상의 학습 대상 객체에 대하여 주석화 처리하는 단계(S720)는, 상술한 내용과 동일하다.

본 발명의 다른 실시예에 따른 인공지능 영상 학습 방법은, 학습용 동영상 셋을 이용하여 인공지능 영상 학습을 수행하는 단계를 포함하고, 학습용 동영상은, 상술한 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법에 의해 생성된 학습용 동영상이다.

따라서, 학습용 동영상의 생성을 위한 방법은, 상술한 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법과 동일하게 적용되며, 본 발명의 다른 실시예에 따른 인공지능 영상 학습 방법은, 생성된 학습용 동영상 셋을 이용하여 인공지능 영상 학습을 수행한다.

본 발명의 또 다른 실시예에 따른 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 장치는, 원시 동영상 수신부, 프레임 이미지 추출부, 학습 대상 객체 검출부, 배경 제거부, 객체의 이동량 측정부 및 학습 대상 프레임 이미지 선정부를 포함한다.

원시 동영상 수신부는, 인공지능 영상 학습을 위해 원시 동영상을 수신한다.

프레임 이미지 추출부는, 수신한 원시 동영상에서 미리 정해진 시간 구간 당 미리 정해진 개수의 프레임 이미지를 추출한다.

학습 대상 객체 검출부는, 객체 검출 알고리즘을 이용하여 각각의 프레임 이미지 상에서 미리 정해진 하나 이상의 유형의 하나 이상의 학습 대상 객체를 검출한다.

배경 제거부는, 각각의 상기 프레임 이미지 상에서 학습 대상 객체를 제외한 배경을 제거한다.

객체의 이동량 측정부는, 배경이 제거된 제n(n은 2이상의 자연수) 프레임 이미지 상의 검출된 하나 이상의 학습 대상 객체의 위치와 제n 프레임 이미지의 직전의 배경이 제거된 제n-1 프레임 이미지 상의 검출된 하나 이상의 학습 대상 객체의 위치를 비교하여, 제n 프레임 이미지 상의 검출된 하나 이상의 학습 대상 객체 각각의 이동량을 측정한다.

학습 대상 프레임 이미지 선정부는, 제n 프레임 이미지 상의 검출된 하나 이상의 학습 대상 객체 각각의 이동량의 측정 결과와 미리 정해진 기준을 비교하여 제n 프레임 이미지를 학습 대상 프레임 이미지로 선정한다.

본 발명의 또 다른 실시예에 따른 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 장치는, 선정된 상기 학습 대상 프레임 이미지를 가공 처리하여 학습용 동영상 셋을 생성하는, 학습용 동영상 셋 생성부를 더 포함한다.

인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 장치의 각 구성은, 도 1 내지 도 6의 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법에서 설명한 내용과 동일하게 적용된다.

본 발명의 또 다른 실시예에 따른 인공지능 영상 학습 장치는, 학습용 동영상 셋을 이용하여 인공지능 영상 학습을 수행하는, 인공지능 영상 학습 수행부를 포함하고, 학습용 동영상은, 상술한 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 장치에 의해 생성된 학습용 동영상이다.

본 발명의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수도 있다.

이상, 첨부된 도면을 참조로 하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다.

Claims

컴퓨터에 의해 수행되는 방법으로서,

인공지능 영상 학습을 위한 원시 동영상을 수신하는, 원시 동영상 수신 단계;

수신한 상기 원시 동영상에서 미리 정해진 시간 구간 당 미리 정해진 개수의 프레임 이미지를 추출하는, 프레임 이미지 추출 단계;

객체 검출 알고리즘을 이용하여 각각의 상기 프레임 이미지 상에서 미리 정해진 하나 이상의 유형의 하나 이상의 학습 대상 객체를 검출하는, 학습 대상 객체 검출 단계;

각각의 상기 프레임 이미지 상에서 상기 학습 대상 객체를 제외한 배경을 제거하는, 배경 제거 단계;

배경이 제거된 제n(n은 2이상의 자연수) 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체의 위치와 상기 제n 프레임 이미지의 직전의 배경이 제거된 제n-1 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체의 위치를 비교하여, 상기 제n 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체 각각의 이동량을 측정하는, 객체의 이동량 측정 단계; 및

상기 제n 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체 각각의 이동량의 측정 결과와 미리 정해진 기준을 비교하여 상기 제n 프레임 이미지를 학습 대상 프레임 이미지로 선정하는, 학습 대상 프레임 이미지 선정 단계를 포함하는,

인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법.
제1항에 있어서,

상기 학습 대상 프레임 이미지 선정 단계는,

검출된 상기 하나 이상의 학습 대상 객체 중 미리 정해진 개수 이상의 상기 학습 대상 객체의 이동량이 상기 미리 정해진 기준 이상인 경우에는, 상기 제n 프레임 이미지를 상기 학습 대상 프레임 이미지로 선정하고, 그렇지 않은 경우에는, 상기 제n 프레임 이미지를 상기 학습 대상 프레임 이미지로 선정하지 않는,

인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법.
제1항에 있어서,

선정된 상기 학습 대상 프레임 이미지를 가공 처리하여 학습용 동영상 셋을 생성하는, 학습용 동영상 셋 생성 단계를 더 포함하는,

인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법.
제3항에 있어서,

상기 학습용 동영상 셋 생성 단계에서 상기 학습 대상 프레임 이미지는,

상기 프레임 이미지 추출 단계에서 상기 하나 이상의 학습 대상 객체가 검출되기 전의 프레임 이미지이고,

상기 학습용 동영상 셋 생성 단계는,

상기 학습 대상 프레임 이미지 상에서 상기 미리 정해진 하나 이상의 유형의 하나 이상의 학습 대상 객체를 검출하는, 객체 검출 단계; 및

상기 학습 대상 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체에 대하여 주석화 처리하는, 주석화 처리 단계를 더 포함하는,

인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법.
제3항에 있어서,

상기 학습용 동영상 셋 생성 단계에서 상기 학습 대상 프레임 이미지는,

상기 학습 대상 객체 검출 단계에서 상기 하나 이상의 학습 대상 객체가 검출된 프레임 이미지이고,

상기 학습용 동영상 셋 생성 단계는,

상기 학습 대상 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체에 대하여 주석화 처리하는, 주석화 처리 단계를 더 포함하는,

인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법.
컴퓨터에 의해 수행되는 방법으로서,

학습용 동영상 셋을 이용하여 인공지능 영상 학습을 수행하는 단계를 포함하고,

상기 학습용 동영상은,

인공지능 영상 학습을 위한 원시 동영상을 수신하는, 원시 동영상 수신 단계와,

수신한 상기 원시 동영상에서 미리 정해진 시간 구간 당 미리 정해진 개수의 프레임 이미지를 추출하는, 프레임 이미지 추출 단계와,

객체 검출 알고리즘을 이용하여 각각의 상기 프레임 이미지 상에서 미리 정해진 하나 이상의 유형의 하나 이상의 학습 대상 객체를 검출하는, 학습 대상 객체 검출 단계와,

각각의 상기 프레임 이미지 상에서 상기 학습 대상 객체를 제외한 배경을 제거하는, 배경 제거 단계와,

배경이 제거된 제n(n은 2이상의 자연수) 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체의 위치와 상기 제n 프레임 이미지의 직전의 배경이 제거된 제n-1 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체의 위치를 비교하여, 상기 제n 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체 각각의 이동량을 측정하는, 객체의 이동량 측정 단계와,

상기 제n 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체 각각의 이동량의 측정 결과와 미리 정해진 기준을 비교하여 상기 제n 프레임 이미지를 학습 대상 프레임 이미지로 선정하는, 학습 대상 프레임 이미지 선정 단계와, 및

선정된 상기 학습 대상 프레임 이미지를 가공 처리하여 학습용 동영상 셋을 생성하는, 학습용 동영상 셋 생성 단계를 포함하는 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법에 의해서 생성된 것을 특징으로 하는,

인공지능 영상 학습 방법.
인공지능 영상 학습을 위한 원시 동영상을 수신하는, 원시 동영상 수신부;

수신한 상기 원시 동영상에서 미리 정해진 시간 구간 당 미리 정해진 개수의 프레임 이미지를 추출하는, 프레임 이미지 추출부;

객체 검출 알고리즘을 이용하여 각각의 상기 프레임 이미지 상에서 미리 정해진 하나 이상의 유형의 하나 이상의 학습 대상 객체를 검출하는, 학습 대상 객체 검출부;

각각의 상기 프레임 이미지 상에서 상기 학습 대상 객체를 제외한 배경을 제거하는, 배경 제거부;

배경이 제거된 제n(n은 2이상의 자연수) 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체의 위치와 상기 제n 프레임 이미지의 직전의 배경이 제거된 제n-1 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체의 위치를 비교하여, 상기 제n 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체 각각의 이동량을 측정하는, 객체의 이동량 측정부; 및

상기 제n 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체 각각의 이동량의 측정 결과와 미리 정해진 기준을 비교하여 상기 제n 프레임 이미지를 학습 대상 프레임 이미지로 선정하는, 학습 대상 프레임 이미지 선정부를 포함하는,

인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 장치.
제7항에 있어서,

선정된 상기 학습 대상 프레임 이미지를 가공 처리하여 학습용 동영상 셋을 생성하는, 학습용 동영상 셋 생성부를 더 포함하는,

인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 장치.
학습용 동영상 셋을 이용하여 인공지능 영상 학습을 수행하는, 인공지능 영상 학습 수행부를 포함하고,

상기 학습용 동영상은,

인공지능 영상 학습을 위한 원시 동영상을 수신하는, 원시 동영상 수신부와,

수신한 상기 원시 동영상에서 미리 정해진 시간 구간 당 미리 정해진 개수의 프레임 이미지를 추출하는, 프레임 이미지 추출부와,

객체 검출 알고리즘을 이용하여 각각의 상기 프레임 이미지 상에서 미리 정해진 하나 이상의 유형의 하나 이상의 학습 대상 객체를 검출하는, 학습 대상 객체 검출부와,

각각의 상기 프레임 이미지 상에서 상기 학습 대상 객체를 제외한 배경을 제거하는, 배경 제거부와,

배경이 제거된 제n(n은 2이상의 자연수) 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체의 위치와 상기 제n 프레임 이미지의 직전의 배경이 제거된 제n-1 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체의 위치를 비교하여, 상기 제n 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체 각각의 이동량을 측정하는, 객체의 이동량 측정부와,

상기 제n 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체 각각의 이동량의 측정 결과와 미리 정해진 기준을 비교하여 상기 제n 프레임 이미지를 학습 대상 프레임 이미지로 선정하는, 학습 대상 프레임 이미지 선정부와, 및

선정된 상기 학습 대상 프레임 이미지를 가공 처리하여 학습용 동영상 셋을 생성하는, 학습용 동영상 셋 생성부를 포함하는 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 장치에 의해서 생성된 것을 특징으로 하는,

인공지능 영상 학습 장치.
하드웨어인 컴퓨터를 이용하여, 제1항 내지 제5항 중 어느 한 항의 방법을 실행하기 위해 기록 매체에 저장된, 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 프로그램.