KR102310587B1 - 연속된 이미지들에 대한 스켈레톤 데이터 생성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 - Google Patents

연속된 이미지들에 대한 스켈레톤 데이터 생성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 Download PDF

Info

Publication number
KR102310587B1
KR102310587B1 KR1020210019298A KR20210019298A KR102310587B1 KR 102310587 B1 KR102310587 B1 KR 102310587B1 KR 1020210019298 A KR1020210019298 A KR 1020210019298A KR 20210019298 A KR20210019298 A KR 20210019298A KR 102310587 B1 KR102310587 B1 KR 102310587B1
Authority
KR
South Korea
Prior art keywords
image
annotation
data
identifying
key point
Prior art date
Application number
KR1020210019298A
Other languages
English (en)
Inventor
김도훈
Original Assignee
주식회사 인피닉
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 인피닉 filed Critical 주식회사 인피닉
Priority to KR1020210019298A priority Critical patent/KR102310587B1/ko
Application granted granted Critical
Publication of KR102310587B1 publication Critical patent/KR102310587B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20036Morphological image processing
    • G06T2207/20044Skeletonization; Medial axis transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/004Annotating, labelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Geometry (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 연속된 이미지들 속에 동일하게 포함된 객체에 대한 스켈레톤 데이터를 생성할 수 있는 방법을 제안한다. 상기 방법은 인공지능(Artificial Intelligence, AI) 학습을 위한 어노테이션(annotation) 작업의 대상이 되는 제1 이미지가 로딩(loading)되면, 상기 제1 이미지와 시간적으로 연속되게 촬영된 제2 이미지를 식별하는 단계; 상기 제1 이미지 속에 포함된 객체(object) 중에서 상기 제2 이미지 속에 포함된 객체와 동일한 객체를 식별하는 단계; 상기 제2 이미지 속에 포함된 객체에 어노테이션된 스켈레톤 데이터를 기초로, 상기 제1 이미지 속에 포함된 객체에 적용할 구조 템플릿(structure template)을 식별하는 단계; 및 상기 식별된 구조 템플릿을 상기 제1 이미지 위에 오버레이(overlay)하여 출력하는 단계를 포함할 수 있다. 이 경우, 상기 스켈레톤 데이터는 이미지 속에 포함된 객체의 체형(body shape), 자세(pose) 또는 방향(direction)을 식별하기 위한 객체의 3차원 골격과 관련된 데이터이고, 상기 구조 템플릿은 객체의 속성에 따라 사전에 정의된 개수의 키 포인트(key point)와, 사전에 정의된 키 포인트 사이의 연결 관계를 가지는 데이터 구조가 될 수 있다.

Description

연속된 이미지들에 대한 스켈레톤 데이터 생성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램{Method of generating skeleton data for consecutive images, and computer program recorded on record-medium for executing method thereof}
본 발명은 인공지능(Artificial Intelligence, AI) 학습용 데이터 설계에 관한 것이다. 보다 상세하게는, 연속된 이미지들 속에 동일하게 포함된 객체에 대한 스켈레톤 데이터를 생성할 수 있는 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램에 관한 것이다.
인공지능(AI)은 인간의 학습능력, 추론능력 및 지각능력 등의 일부 또는 전부를 컴퓨터 프로그램을 이용하여 인공적으로 구현하는 기술을 의미한다. 인공지능(AI)과 관련하여, 기계 학습(machine learning)은 다수의 파라미터로 구성된 모델을 이용하여 주어진 데이터로 파라미터를 최적화하는 학습을 의미한다. 이와 같은, 기계 학습은 학습용 데이터의 형태에서 따라, 지도 학습(supervised learning), 비지도 학습(unsupervised learning) 및 강화 학습(reinforcement learning)으로 구분된다.
일반적으로, 인공지능(AI) 학습용 데이터의 설계는 데이터 구조의 설계, 데이터의 수집, 데이터의 정제, 데이터의 가공, 데이터의 확장, 및 데이터의 검증 단계로 진행된다.
각각의 단계에서 대하여 보다 구체적으로 설명하면, 데이터 구조의 설계는 온톨로지(ontology) 정의, 분류 체계의 정의 등을 통해 이루어진다. 데이터의 수집은 직접 촬영, 웹 크롤링(web crawling) 또는 협회/전문 단체 등을 통해 데이터를 수집하여 이루어진다. 데이터 정제는 수집된 데이터 내에서 중복 데이터를 제거하고, 개인 정보 등을 비식별화하여 이루어진다. 데이터의 가공은 메타데이터(meta data)를 입력하고 어노테이션(annotation)을 수행하여 이루어진다. 데이터의 확장은 온톨로지 매핑(mapping)을 수행하고, 필요에 따라 온톨로지를 보완하거나 확장하여 이루어진다. 그리고, 데이터의 검증은 다양한 검증 도구를 활용하여 설정된 목표 품질에 따른 유효성을 검증하여 이루어진다.
일반적으로, 데이터 가공 단계의 어노테이션은 이미지 속에 포함된 객체에 대하여 바운딩 박스(bounding box) 처리하고, 바운딩 박스 처리된 객체의 속성 정보를 입력하여 진행된다. 이와 같은 어노테이션은 데이터 라벨링(data labeling)이라 지칭되기도 한다. 그리고, 어노테이션의 작업 결과물에 해당되는 데이터셋(dataset)은 JSON(Java Script Object Notation) 파일 형태로 산출된다.
한편, 단순히 이미지 속에 포함된 객체의 속성을 식별하는 경우에는 바운딩 박스 처리를 통한 어노테이션으로 충분하다. 그러나, 이미지 속에 포함된 객체의 체형(body shape), 자세(pose) 또는 방향(direction) 등을 식별하기 위해서는 이미지 속에 포함된 객체의 스켈레톤 데이터(skeleton data)가 필요하다.
스켈레톤 데이터는 객체의 체형, 자세 또는 방향 변화의 기준이 되는 지점(예를 들어, 관절 등)의 위치에 대응되는 하나 이상의 키 포인트(key point)를 포함하여 구성될 수 있다. 이와 같은, 스켈레톤 데이터를 구성하는 하나 이상의 키 포인트는 객체의 속성에 따라 그 개수, 연결 관계 및 위치해야 하는 지점 등의 규격이 사전에 정의되어 있다.
예를 들어, 3차원 인체 자세(3D human pose) 모델에 따른 스켈레톤 데이터의 경우, 인체의 주요 골격에 따라 연결된 16개의 키 포인트로 구성되며, 키 포인트 1은 왼쪽 엉덩이, 키 포인트 2는 왼쪽 무릎, 키 포인트 3은 왼쪽 발, 키 포인트 4는 오른쪽 엉덩이, 키 포인트 5는 오른쪽 무릎, 키 포인트 6은 오른쪽 발, 키 포인트 7은 몸통 중앙, 키 포인트 8은 몸통 상체, 키 포인트 9는 목, 키 포인트 10은 머리 중심, 키 포인트 11은 오른쪽 어깨, 키 포인트 12는 오른쪽 팔꿈치, 키 포인트 13은 오른손, 키 포인트 14는 왼쪽 어깨, 키 포인트 15는 왼쪽 팔꿈치, 키 포인트 16은 왼손으로, 각각의 위치가 사전에 정의되어 있다.
따라서, 인공지능(AI) 학습을 위한 이미지의 어노테이션 과정에서 스켈레톤 데이터를 생성하기 위해서는, 어노테이션을 수행하는 작업자가 객체의 속성에 대응하는 스켈레톤 데이터의 규격을 식별하고, 식별된 규격에 따른 키 포인트가 누락되지 않으며, 키 포인트가 정확한 지점에 위치하도록 어노테이션을 수행하여야 하는 어려움이 있다.
대한민국 공개특허공보 제10-2018-0122247호, ‘이종 센서들로부터 추출된 스켈레톤 정보를 이용하여 기계학습 데이터 및 주석을 생성하는 장치 및 그 방법’, (2018.11.12. 공개)
본 발명의 일 목적은 연속된 이미지들 속에 동일하게 포함된 객체에 대한 스켈레톤 데이터를 생성할 수 있는 방법을 제공하는 것이다.
본 발명의 다른 목적은 연속된 이미지들 속에 동일하게 포함된 객체에 대한 스켈레톤 데이터를 생성할 수 있는 방법을 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램을 제공하는 것이다.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상술한 바와 같은 기술적 과제를 달성하기 위하여, 본 발명은 연속된 이미지들 속에 동일하게 포함된 객체에 대한 스켈레톤 데이터를 생성할 수 있는 방법을 제안한다. 상기 방법은 인공지능(Artificial Intelligence, AI) 학습을 위한 어노테이션(annotation) 작업의 대상이 되는 제1 이미지가 로딩(loading)되면, 상기 제1 이미지와 시간적으로 연속되게 촬영된 제2 이미지를 식별하는 단계; 상기 제1 이미지 속에 포함된 객체(object) 중에서 상기 제2 이미지 속에 포함된 객체와 동일한 객체를 식별하는 단계; 상기 제2 이미지 속에 포함된 객체에 어노테이션된 스켈레톤 데이터를 기초로, 상기 제1 이미지 속에 포함된 객체에 적용할 구조 템플릿(structure template)을 식별하는 단계; 및 상기 식별된 구조 템플릿을 상기 제1 이미지 위에 오버레이(overlay)하여 출력하는 단계를 포함할 수 있다. 이 경우, 상기 스켈레톤 데이터는 이미지 속에 포함된 객체의 체형(body shape), 자세(pose) 또는 방향(direction)을 식별하기 위한 객체의 3차원 골격과 관련된 데이터이고, 상기 구조 템플릿은 객체의 속성에 따라 사전에 정의된 개수의 키 포인트(key point)와, 사전에 정의된 키 포인트 사이의 연결 관계를 가지는 데이터 구조가 될 수 있다.
상기 방법은 상기 오버레이하여 출력하는 단계 이후에 작업자의 제어에 따라, 상기 구조 템플릿에 포함된 하나 이상의 키 포인트의 위치를 이동시키는 단계; 및 상기 이동된 키 포인트의 위치 좌표 및 상기 키 포인트 사이의 연결 관계를 기초로, 상기 이미지 속에 포함된 객체(object)에 대응하는 스켈레톤 데이터를 생성하는 단계를 더 포함할 수도 있다.
보다 구체적으로, 상기 제2 이미지를 식별하는 단계는 상기 제1 이미지를 어노테이션 작업의 대상으로 포함하는 프로젝트와 관련된 이미지들 중에서, 상기 제1 이미지의 어노테이션 작업을 수행하는 작업자가 어노테이션을 기 수행하였던 이미지를 상기 제2 이미지로 식별할 수 있다.
상기 식별된 제2 이미지가 복수 개인 경우, 상기 제2 이미지를 식별하는 단계는 상기 작업자가 어노테이션을 기 수행하였던 이미지 중에서 상기 제1 이미지의 촬영 장소 좌표와 촬영 장치명이 동일하고, 상기 제1 이미지의 촬영 시각과의 시간 차이가 가장 작은 이미지를 상기 제2 이미지로 식별할 수 있다.
상기 동일한 객체를 식별하는 단계는 상기 제1 이미지 및 제2 이미지 내에서 객체가 차지하고 있는 크기, 위치 또는 형상의 유사성을 기준으로, 상기 제1 이미지 속에 포함된 객체와 상기 제2 이미지 속에 포함된 객체가 서로 동일한 객체에 해당하는지 판단할 수 있다.
예를 들어, 상기 동일한 객체를 식별하는 단계는 상기 제1 이미지 및 제2 이미지 각각을 RGB(Red, Green, Blue)에 따라 세 개의 이미지로 분할하고, 분할된 각 이미지의 엣지를 추출(edge detection)하고, 각 이미지 내에서 추출된 엣지에 의한 폐쇄 영역(enclosure)을 식별한 후, 식별된 폐쇄 영역이 상기 이미지 내에서 차지하고 있는 크기, 위치 또는 형상을 기초로 상기 유사성을 판단할 수 있다.
상기 오버레이하여 출력하는 단계는 상기 제2 이미지 속에 포함된 객체의 위치와 상기 제1 이미지 속에 포함된 객체의 위치의 차이 값을 산출하고, 산출된 차이 값에 대응하여 상기 구조 템플릿에 포함된 키 포인트의 위치를 변경한 후, 상기 제1 이미지 위에 오버레이하여 출력할 수 있다.
이 경우, 상기 오버레이하여 출력하는 단계는 상기 산출된 차이 값에 대응하여 변경된 키 포인트의 위치 좌표를 기초로, 상기 구조 템플릿에 포함된 제1 키 포인트와 제2 키 포인트 사이를 연결하는 제1 간선(edge)과, 상기 제2 키 포인트와 제3 키포인트 사이를 연결하는 제2 간선 사이의 각도가 사전에 설정된 임계 각도 범위를 벗어나는 경우, 상기 제1 간선과 상기 제2 간선 사이의 각도가 상기 임계 각도 범위 내에 들어오도록 상기 제1 키 포인트 또는 제3 키포인트의 위치를 재변경할 수 있다.
또한, 상기 오버레이하여 출력하는 단계는 상기 객체가 상기 제1 이미지 내에서 차지하고 있는 크기, 위치 또는 형상과 상기 객체가 상기 제2 이미지 내에서 차지하고 있는 크기, 위치 또는 형상을 대비한 결과를 기초로, 상기 구조 템플릿에 포함된 모든 키 포인트에 상기 차이 값을 적용할 것인지, 또는 상기 구조 템플릿에 포함된 일부 키 포인트에만 상기 차이 값을 적용할지 여부를 결정할 수도 있다.
상술한 바와 같은 기술적 과제를 달성하기 위하여, 본 발명은 스켈레톤 데이터를 생성할 수 있는 방법을 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램을 제안한다. 상기 컴퓨터 프로그램은 메모리(memory); 입출력장치(input output device); 및 상기 메모리에 상주된 명령어를 처리하는 프로세서(processor)를 포함하여 구성된 컴퓨팅 장치와 결합될 수 있다. 그리고, 상기 컴퓨터 프로그램은 상기 프로세서가, 인공지능(AI) 학습을 위한 어노테이션 작업의 대상이 되는 제1 이미지가 상기 메모리에 로딩되면, 상기 제1 이미지와 시간적으로 연속되게 촬영된 제2 이미지를 식별하는 단계; 상기 프로세서가, 상기 제1 이미지 속에 포함된 객체 중에서 상기 제2 이미지 속에 포함된 객체와 동일한 객체를 식별하는 단계; 상기 프로세서가, 상기 제2 이미지 속에 포함된 객체에 어노테이션된 스켈레톤 데이터를 기초로, 상기 제1 이미지 속에 포함된 객체에 적용할 구조 템플릿을 식별하는 단계; 및 상기 프로세서가, 상기 식별된 구조 템플릿을 상기 제1 이미지 위에 오버레이하여 상기 입출력장치를 통해 출력하는 단계를 실행시키기 위하여 기록매체에 기록될 수 있다.
기타 실시 예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
본 발명의 실시 예들에 따르면, 인공지능(AI) 학습을 위한 이미지 속에 포함된 객체를 대상으로 스켈레톤 데이터를 생성함에 있어, 연속된 이미지에 대하여 기 수행된 어노테이션 결과를 활용함으로써, 보다 빠른 어노테이션을 가능하게 한다.
따라서, 본 발명의 실시 예들에 따르면, 연속 촬영된 다수의 이미지에 각각 포함된 객체의 체험, 자세 또는 방향을 학습시키기 위한 스켈레톤 데이터를 보다 신속하고 정확하게 생성할 수 있게 된다.
본 발명의 효과들은 이상에서 언급한 효과로 제한되지 아니하며, 언급되지 않은 또 다른 효과들은 청구범위의 기재로부터 본 발명이 속한 기술분야의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1 내지 도 3은 본 발명의 다양한 실시예에 따른 인공지능 학습 시스템의 구성도이다.
도 4는 본 발명의 일 실시예에 따른 어노테이션 장치의 논리적 구성도이다.
도 5는 본 발명의 일 실시예에 따른 어노테이션 장치의 하드웨어 구성도이다.
도 6 내지 도 10은 본 발명의 일 실시예에 따라 스켈레톤 데이터를 생성하는 과정을 설명하기 위한 예시도이다.
도 11 내지 도 14는 본 발명의 일 실시예에 따라 연속된 이미지들에 대한 스켈레톤 데이터를 생성하는 과정을 설명하기 위한 예시도이다.
도 15는 본 발명의 일 실시예에 따른 스켈레톤 데이터 생성 방법을 설명하기 위한 순서도이다.
도 16은 본 발명의 일 실시예에 따른 기 수행된 어노테이션 결과를 활용한 구조 템플릿 식별 방법을 설명하기 위한 순서도이다.
본 명세서에서 사용되는 기술적 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아님을 유의해야 한다. 또한, 본 명세서에서 사용되는 기술적 용어는 본 명세서에서 특별히 다른 의미로 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나, 과도하게 축소된 의미로 해석되지 않아야 한다. 또한, 본 명세서에서 사용되는 기술적인 용어가 본 발명의 사상을 정확하게 표현하지 못하는 잘못된 기술적 용어일 때에는, 당업자가 올바르게 이해할 수 있는 기술적 용어로 대체되어 이해되어야 할 것이다. 또한, 본 발명에서 사용되는 일반적인 용어는 사전에 정의되어 있는 바에 따라, 또는 전후 문맥상에 따라 해석되어야 하며, 과도하게 축소된 의미로 해석되지 않아야 한다.
또한, 본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "구성된다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.
또한, 본 명세서에서 사용되는 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성 요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.
어떤 구성 요소가 다른 구성 요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성 요소가 존재할 수도 있다. 반면에, 어떤 구성 요소가 다른 구성 요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성 요소가 존재하지 않는 것으로 이해되어야 할 것이다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 또한, 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 발명의 사상을 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 발명의 사상이 제한되는 것으로 해석되어서는 아니 됨을 유의해야 한다. 본 발명의 사상은 첨부된 도면 외에 모든 변경, 균등물 내지 대체물에 까지도 확장되는 것으로 해석되어야 한다.
한편, 상술한 바와 같이 스켈레톤 데이터는 이미지 속에 포함된 객체의 체형, 자세 또는 방향 등을 식별할 수 있도록, 객체의 속성에 따라 키 포인트의 개수, 연결 관계 및 위치해야 하는 지점 등의 규격이 사전에 정의되어 있다. 따라서, 인공지능(AI) 학습을 위한 이미지의 어노테이션 과정에서 스켈레톤 데이터를 생성하기 위해서는, 어노테이션을 수행하는 작업자가 객체의 속성에 대응하는 스켈레톤 데이터의 규격을 식별하고, 식별된 규격에 따른 키 포인트가 누락되지 않으며, 키 포인트가 정확한 지점에 위치하도록 어노테이션을 수행하여야 하는 어려움이 있다.
이러한 어려움을 극복하기 위하여, 본 발명은 규격화된 구조의 템플릿(structure template)을 활용하거나, 또는 연속된 이미지에 대하여 기 수행된 어노테이션 결과를 활용하여, 이미지 속에 포함된 객체의 스켈레톤 데이터를 생성할 수 있는 수단들을 제안하고자 한다.
도 1 내지 도 3은 본 발명의 다양한 실시예에 따른 인공지능 학습 시스템의 구성도이다.
도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 인공지능 학습 시스템은 하나 이상의 어노테이션 장치(100-1, 100-2, 100-3, …, 100-n; 100) 및 인공지능 학습 장치(300)를 포함하여 구성될 수 있다.
도 2에 도시된 바와 같이, 본 발명의 다른 실시예에 따른 인공지능 학습 시스템은 어노테이션 장치(100) 및 인공지능 학습 장치(300) 외에 학습 데이터 설계 장치(200)를 추가적으로 포함하여 구성될 수 있다.
또한, 도 3에 도시된 바와 같이, 본 발명의 또 다른 실시예에 따른 인공지능 학습 시스템은 어노테이션 장치(100), 학습 데이터 설계 장치(200) 및 인공지능 학습 장치(300)가 공개된 네트워크(public network)를 통해 서로 연결될 수도 있다. 이 경우, 어노테이션 장치(100)의 일부는 클라우딩 서비스(clouding service)에 의해 어노테이션을 수행하는 장치가 될 수도 있다.
이와 같은, 다양한 실시예에 따른 인공지능 학습 시스템의 구성 요소들은 기능적으로 구분되는 요소들을 나타낸 것에 불과하므로, 둘 이상의 구성 요소가 실제 물리적 환경에서는 서로 통합되어 구현되거나, 하나의 구성 요소가 실제 물리적 환경에서는 서로 분리되어 구현될 수 있을 것이다.
각각의 구성 요소에 대하여 설명하면, 어노테이션 장치(100)는 학습 데이터 설계 장치(200) 또는 인공지능 학습 장치(300)로부터 제공된 이미지에 대하여 어노테이션을 수행하는데 사용될 수 있는 장치이다.
특히, 본 발명에 따른 어노테이션 장치(100)는 이미지 속에 포함된 객체를 대상으로 스켈레톤 데이터를 생성함에 있어, 규격화된 구조의 템플릿(structure template)을 활용하거나, 또는 연속된 이미지에 대하여 기 수행된 어노테이션 결과를 활용할 수 있는 특징을 가지고 있다.
이와 같은, 어노테이션 장치(100)는 학습 데이터 설계 장치(200) 또는 인공지능 학습 장치(300)와 데이터를 송수신하고, 송수신된 데이터를 이용하여 연산을 수행할 수 있는 장치라면 어떠한 장치라도 허용될 수 있다.
예를 들어, 어노테이션 장치(100)는 데스크탑(desktop), 워크스테이션(workstation) 또는 서버(server)와 같은 고정식 컴퓨팅 장치 중 어느 하나가 될 수 있으나, 이에 한정되지 아니하고, 스마트폰(smart phone), 랩탑(laptaop), 태블릿(tablet), 패블릿(phablet), 휴대용 멀티미디어 재생장치(Portable Multimedia Player, PMP), 개인용 휴대 단말기(Personal Digital Assistants, PDA) 또는 전자책 단말기(E-book reader)과 같은 이동식 컴퓨팅 장치 중 어느 하나가 될 수도 있다.
상술한 바와 같은, 어노테이션 장치(100)에 대한 구체적인 구성 및 동작에 대해서는 추후 도 4 내지 도 16을 참조하여 설명하기로 한다.
다음 구성으로, 학습 데이터 설계 장치(200)는 인공지능(AI) 학습용 데이터를 설계 및 생성하는데 사용될 수 있는 장치이다. 이와 같은, 학습 데이터 설계 장치(200)는 기본적으로 인공지능 학습 장치(300)와 구분되는 장치이나, 실제 물리적 환경에서 인공지능 학습 장치(300)에 통합되어 구현될 수도 있다.
구체적으로, 학습 데이터 설계 장치(200)는 인공지능 학습 장치(300)로부터 인공지능(AI) 학습과 관련된 프로젝트의 속성을 수신할 수 있다. 학습 데이터 설계 장치(200)는 사용자의 제어 및 프로젝트의 속성을 기초로, 인공지능(AI) 학습을 위한 데이터 구조의 설계, 수집된 데이터의 정제, 데이터의 가공, 데이터의 확장 및 데이터의 검증을 수행할 수 있다.
특히, 학습 데이터 설계 장치(200)는 인공지능(AI) 학습을 위한 데이터 가공을 위하여, 어노테이션의 대상이 되는 이미지를 어노테이션 장치(100)에 전송할 수 있다. 학습 데이터 설계 장치(200)는 어노테이션 장치(100)로부터 어노테이션 작업 결과물을 수신할 수 있다. 이 경우, 어노테이션 작업 결과물은 JSON(Java Script Object Notation) 파일 형식을 가질 수 있다. 이와 다르게, 학습 데이터 설계 장치(200)는 JSON과 다른 형식의 어노테이션 작업 결과물을 수신한 후, 수신된 결과물을 기초로 JSON 파일을 생성할 수도 있다. 그리고, 학습 데이터 설계 장치(200)는 수신 또는 생성된 JSON 파일을 검수(inspection)한 후, 이를 패키징하여 인공지능 학습 장치(300)에 전송할 수 있다.
이와 같은, 학습 데이터 설계 장치(200)는 어노테이션 장치(100) 및 인공지능 학습 장치(300)와 데이터를 송수신하고, 송수신된 데이터를 이용하여 연산을 수행할 수 있는 장치라면 어떠한 장치라도 허용될 수 있다. 예를 들어, 학습 데이터 설계 장치(200)는 데스크탑, 워크스테이션 또는 서버와 같은 고정식 컴퓨팅 장치 중 어느 하나가 될 수 있으나, 이에 한정되는 것은 아니다.
다음 구성으로, 인공지능 학습 장치(300)는 인공지능(AI) 학습용 데이터를 기초로, 인공지능(AI)의 기계 학습을 수행하는데 사용될 수 있는 장치이다.
구체적으로, 인공지능 학습 장치(300)는 어노테이션 장치(100)로부터 직접 또는 학습 데이터 설계 장치(200)로부터 패키징된 JSON 파일을 수신할 수 있다. 그리고, 인공지능 학습 장치(300)는 수신된 JSON 파일을 이용하여 인공지능(AI)의 기계 학습을 수행할 수 있다.
이와 같은, 인공지능 학습 장치(300)는 어노테이션 장치(100) 또는 학습 데이터 설계 장치(200)와 데이터를 송수신하고, 송수신된 데이터를 이용하여 연산을 수행할 수 있는 장치라면 어떠한 장치라도 허용될 수 있다. 예를 들어, 인공지능 학습 장치(300)는 데스크탑, 워크스테이션 또는 서버와 같은 고정식 컴퓨팅 장치 중 어느 하나가 될 수 있으나, 이에 한정되는 것은 아니다.
상술한 바와 같은, 하나 이상의 어노테이션 장치(100), 학습 데이터 설계 장치(200) 및 인공지능 학습 장치(300)는 장치들 사이에 직접 연결된 보안회선, 공용 유선 통신망 또는 이동 통신망 중 하나 이상이 조합된 네트워크를 이용하여 데이터를 송수신할 수 있다.
예를 들어, 공용 유선 통신망에는 이더넷(ethernet), 디지털가입자선(x Digital Subscriber Line, xDSL), 광동축 혼합망(Hybrid Fiber Coax, HFC), 광가입자망(Fiber To The Home, FTTH)가 포함될 수 있으나, 이에 한정되는 것도 아니다. 그리고, 이동 통신망에는 코드 분할 다중 접속(Code Division Multiple Access, CDMA), 와이드 밴드 코드 분할 다중 접속(Wideband CDMA, WCDMA), 고속 패킷 접속(High Speed Packet Access, HSPA), 롱텀 에볼루션(Long Term Evolution, LTE), 5세대 이동통신(5th generation mobile telecommunication)가 포함될 수 있으나, 이에 한정되는 것은 아니다.
이하, 상술한 바와 같은, 어노테이션 장치(100)의 구성에 대하여 보다 구체적으로 설명하기로 한다.
도 4는 본 발명의 일 실시예에 따른 어노테이션 장치의 논리적 구성도이다.
도 4에 도시된 바와 같이, 어노테이션 장치(100)는 통신부(105), 입출력부(110), 저장부(115), 템플릿 제공부(120), 어노테이션 작업부(125) 및 스켈레톤 생성부(130)를 포함하여 구성될 수 있다.
이와 같은, 어노테이션 장치(100)의 구성 요소들은 기능적으로 구분되는 요소들을 나타낸 것에 불과하므로, 둘 이상의 구성 요소가 실제 물리적 환경에서는 서로 통합되어 구현되거나, 하나의 구성 요소가 실제 물리적 환경에서는 서로 분리되어 구현될 수 있을 것이다.
각각의 구성 요소에 대하여 설명하면, 통신부(105)는 학습 데이터 설계 장치(200) 및 인공지능 학습 장치(300)와 데이터를 송수신할 수 있다.
구체적으로, 통신부(105)는 학습 데이터 설계 장치(200) 또는 인공지능 학습 장치(300)로부터 하나 이상의 이미지를 수신할 수 있다.
여기서, 이미지는 인공지능(AI) 학습을 위한 어노테이션 작업의 대상이 되는 이미지이다. 이와 같은, 이미지는 학습 데이터 설계 장치(200) 또는 인공지능 학습 장치(300)가 설계한 데이터 가공 계획에 따라, 어노테이션 작업의 대상이 되는 이미지를 개별적으로 수신하거나, 또는 복수 개의 이미지를 일괄적으로 수신할 수 있다.
통신부(105)는 스켈레톤 생성부(130)에 의해 생성된 스켈레톤 데이터를 포함하는 어노테이션 작업 결과를 학습 데이터 설계 장치(200) 또는 인공지능 학습 장치(300)에 전송할 수 있다.
여기서, 스켈레톤 데이터는 이미지 속에 포함된 객체(object)의 체형(body shape), 자세(pose) 또는 방향(direction)을 식별하기 위한 객체의 3차원 골격과 관련된 데이터이다.
이와 같은, 스켈레톤 데이터는 객체의 체형, 자세 또는 방향 변화의 기준이 되는 지점(예를 들어, 관절 등)의 위치에 대응되는 하나 이상의 키 포인트(key point)를 포함하여 구성될 수 있다. 스켈레톤 데이터에 포함된 하나 이상의 키 포인트는 객체의 체형, 자세 또는 방향 변화의 기준이 되는 지점을 의미한다. 그리고, 스켈레톤 데이터를 구성하는 하나 이상의 키 포인트는 객체의 속성에 따라 그 개수, 연결 관계 및 위치해야 하는 지점 등의 규격이 사전에 정의되어 있다.
예를 들어, 3차원 인체 자세(3D human pose) 모델에 따른 스켈레톤 데이터의 경우, 인체의 주요 골격에 따라 연결된 16개의 키 포인트로 구성될 수 있다. 그리고, 16개의 키 포인트 중에서 키 포인트 1은 왼쪽 엉덩이, 키 포인트 2는 왼쪽 무릎, 키 포인트 3은 왼쪽 발, 키 포인트 4는 오른쪽 엉덩이, 키 포인트 5는 오른쪽 무릎, 키 포인트 6은 오른쪽 발, 키 포인트 7은 몸통 중앙, 키 포인트 8은 몸통 상체, 키 포인트 9는 목, 키 포인트 10은 머리 중심, 키 포인트 11은 오른쪽 어깨, 키 포인트 12는 오른쪽 팔꿈치, 키 포인트 13은 오른손, 키 포인트 14는 왼쪽 어깨, 키 포인트 15는 왼쪽 팔꿈치, 키 포인트 16은 왼손으로, 각각의 위치가 사전에 정의되어 있다.
그리고, 통신부(150)는 학습 데이터 설계 장치(200) 또는 인공지능 학습 장치(300)로부터 프로젝트의 속성, 이미지의 속성 또는 작업자의 속성을 수신할 수 있다.
여기서, 프로젝트의 속성에는 인공지능(AI)의 학습과 관련된 프로젝트에 대한 학습 목적, 학습 기간, 학습에 필요한 이미지의 수, 이미지에서 식별하고자 하는 객체의 속성, 객체의 스켈레톤 데이터와 관련된 규격 등이 포함될 수 있으나, 이에 한정되는 것은 아니다.
이미지의 속성에는 이미지의 파일명, 이미지의 크기(너비, 높이), 해상도, 비트 수준, 압축 형식, 촬영 장치명, 노출 시간, ISO 감도, 초점 거리, 조리개 개방 값, 촬영 장소 좌표(GPS 위도, 경도), 촬영 시각 등이 포함될 수 있으나, 이에 한정되는 것은 아니다.
작업자의 속성에는 작업자의 명칭, 식별번호, 할당된 작업량, 작업에 따른 비용, 작업 결과 평가 등이 포함될 수 있으나, 이에 한정되는 것은 아니다.
다음 구성으로, 입출력부(110)는 사용자 인터페이스(User Interface, UI)를 통해 작업자로부터 신호를 입력 거나, 또는 연산된 결과를 외부로 출력할 수 있다.
여기서, 작업자는 어노테이션 작업을 수행하는 자를 의미한다. 이와 같은, 작업자는 사용자, 수행자, 라벨러 또는 데이터 라벨러 등으로 지칭될 수 있으며, 이에 한정되는 것은 아니다.
구체적으로, 입출력부(110)는 어노테이션 작업의 대상이 되는 이미지를 출력할 수 있다. 특히, 입출력부(110)는 이미지 위에 구조 템플릿을 오버레이(overlay)하여 출력할 수 있다.
여기서, 구조 템플릿은 객체의 속성에 따라 사전에 정의된 개수의 키 포인트와, 사전에 정의된 키 포인트 사이의 연결 관계를 가지는 데이터 구조를 의미한다. 이와 같은, 구조 템플릿은 최종적으로 스켈레톤 데이터를 생성하는데 사용될 수 있다.
입출력부(110)는 스켈레톤 데이터에 포함될 키 포인트(즉, 구조 템플릿에 포함된 키 포인트)의 위치를 이동시키기 위한 제어 신호를 작업자로부터 입력 받을 수 있다.
입출력부(110)는 스켈레톤 데이터에 포함될 객체의 속성 정보를 설정하기 위한 제어 신호를 작업자로부터 입력 받을 수 있다.
여기서, 객체의 속성 정보에는 객체의 유형, 객체에 대한 체형, 자세 또는 방향에 관한 정보가 포함될 수 있으나, 이에 한정되는 것은 아니다.
그리고, 입출력부(110)는 작업자의 제어에 따라, 구조 템플릿이 3차원 회전된 형상을 출력할 수도 있다.
다음 구성으로, 저장부(115)는 어노테이션 작업에 필요한 데이터를 저장할 수 있다.
구체적으로, 저장부(115)는 통신부(105)를 통해 수신된 이미지를 저장할 수 있다. 저장부(115)는 통신부(105)를 통해 수신된 프로젝트의 속성, 이미지의 속성 또는 작업자의 속성을 저장할 수 있다.
저장부(115)는 입출력부(110)를 통해 입력된 제어 신호에 따라 위치가 이동된 키 포인트를 포함하는 구조 템플릿을 임시 저장할 수 있다. 저장부(115)는 입출력부(110)를 통해 입력된 객체의 속성을 임시 저장할 수 있다.
특히, 저장부(115)는 객체의 유형별로 규격화된 구조 템플릿들이 구비된 데이터베이스(database)를 저장할 수 있다.
다음 구성으로, 템플릿 제공부(120)는 인공지능(AI) 학습을 위한 어노테이션 작업의 대상이 되는 이미지가 메모리에 로딩(loading)되면, 스켈레톤 데이터의 생성에 활용될 수 있는 구조 템플릿을 제공할 수 있다.
본 발명의 일 실시예에 따르면, 템플릿 제공부(120)는 어노테이션 작업의 대상이 되는 현재 이미지에 한정되어 구조 템플릿을 식별할 수 있다.
구체적으로, 템플릿 제공부(120)는 통신부(105)를 통해 사전에 설정된 프로젝트의 속성, 이미지의 속성 또는 작업자의 속성에 따라, 저장부(115)의 데이터베이스로부터 하나의 구조 템플릿을 식별할 수 있다.
예를 들어, 템플릿 제공부(120)는 구조 템플릿을 적용할 객체가 이미지 내에서 차지하고 있는 크기, 위치 또는 형상에 따라, 저장부(115)의 데이터베이스로부터 하나의 구조 템플릿을 식별할 수 있다.
그리고, 템플릿 제공부(120)는 입출력부(110)를 통해, 식별된 구조 템플릿을 이미지 위에 오버레이(overlay)하여 출력할 수 있다.
특히, 템플릿 제공부(120)는 구조 템플릿을 이미지 위에 오버레이 함에 있어, 구조 템플릿에 포함된 키 포인트 중에서 사전에 설정된 하나 이상의 기준 키 포인트가 사전에 설정된 특징점 위에 위치시킬 수 있다.
여기서, 특징점은 객체의 골격 중에서 뼈가 분기하는 관절의 위치, 또는 객체의 신체 기관 중에서 움직임이 최소인 신체 기관의 위치에 따라 사전에 정의된 지점이 될 수 있다.
예를 들어, 16개의 키 포인트로 구성되는 3차원 인체 자세 모델에 따른 구조 템플릿의 경우, 키 포인트 10을 객체의 머리 중심에 위치시킬 수 있다.
이와 같은, 기준 키 포인트가 위치할 특징점의 위치를 식별하기 위하여, 템플릿 제공부(120)는 객체의 크기, 위치 및 형상과 특징점의 위치로 구성된 데이터셋(dataset)을 이용하여 기계학습된 제3의 인공지능(AI)에 대하여, 구조 템플릿을 적용할 객체가 이미지 내에서 차지하고 있는 크기, 위치 또는 형상을 기초로 질의하여, 기준 키 포인트가 위치할 특징점의 위치를 식별할 수 있다.
지금까지 상술한 바와 다르게, 본 발명의 다른 실시예에 따르면, 템플릿 제공부(120)는 연속된 이미지에 대하여 기 수행된 어노테이션 결과를 활용하여 구조 템플릿을 식별할 수 있다.
구체적으로, 템플릿 제공부(120)는 어노테이션 작업의 대상이 되는 제1 이미지가 로딩되면, 제1 이미지와 시간적으로 연속되게 촬영된 제2 이미지를 식별할 수 있다.
이를 위하여, 템플릿 제공부(120)는 제1 이미지를 어노테이션 작업의 대상으로 포함하는 프로젝트와 관련된 이미지들 중에서 제1 이미지의 어노테이션 작업을 수행하는 작업자가 어노테이션을 기 수행하였던 이미지를 제2 이미지로 식별할 수 있다. 즉, 제2 이미지는 제1 이미지와 동일한 프로젝트에 속하는 이미지들 중에서 작업자가 어노테이션 작업을 기 수행한 이미지가 될 수 있다.
만약, 작업자가 어노테이션을 기 수행하였던 이미지가 복수 개인 경우, 템플릿 제공부(120)는 이미지의 속성을 기초로, 작업자가 어노테이션을 기 수행하였던 이미지 중에서 제1 이미지의 촬영 장소 좌표와 촬영 장치명이 동일한 이미지를 식별할 수 있다. 그리고, 템플릿 제공부(120)는 제1 이미지의 촬영 장소 좌표와 촬영 장치명이 동일한 이미지 중에서 제1 이미지의 촬영 시각과 시간 차이가 가장 작은 이미지를 제2 이미지로 식별할 수 있다.
제2 이미지를 식별한 이후, 템플릿 제공부(120)는 제1 이미지 속에 포함된 객체 중에서 제2 이미지 속에 포함된 객체와 동일한 객체를 식별할 수 있다.
이를 위하여, 템플릿 제공부(120)는 제1 이미지 및 제2 이미지 내에서 객체가 차지하고 있는 크기, 위치 또는 형상의 유사성을 기준으로, 제1 이미지 속에 포함된 객체와 제2 이미지 속에 포함된 객체가 서로 동일한 객체에 해당하는지 판단할 수 있다.
이 경우, 템플릿 제공부(120)는 객체의 크기, 위치 또는 형상의 유사성을 판단하기 위하여, 제1 이미지 및 제2 이미지에 대하여 이미지 처리(image processing)를 수행할 수 있다.
예를 들어, 템플릿 제공부(120)는 제1 이미지 및 제2 이미지 각각을 RGB(Red, Green, Blue)에 따라 세 개의 이미지로 분할할 수 있다. 템플릿 제공부(120)는 세 개의 이미지로 분할된 각 이미지의 엣지를 추출(edge detection)할 수 있다. 보다 상세하게, 템플릿 제공부(120)는 각 이미지의 엣지 추출을 위하여, LoG(Laplacian of Gaussian) 알고리즘 또는 DoG(Difference of Gaussian) 알고리즘 중 어느 하나를 이용할 수 있다.
LoG 알고리즘을 이용할 경우, 템플릿 제공부(120)는 가우시안 필터(Gaussian filter)를 이용하여 이미지 내에 존재하는 잡음을 제거할 수 있다. 템플릿 제공부(120)는 잡음이 제거된 이미지에 라플라시안 필터(Laplacian)를 적용할 수 있다. 그리고, 템플릿 제공부(120)는 라플라시안 필터가 적용된 이미지에 영교차(zerocrossing)을 검출하여 엣지를 추출할 수 있다.
DoG 알고리즘을 이용할 경우, 템플릿 제공부(120)는 이미지로부터 분산이 서로 다른 가우시안 마스크(Gaussian mask)를 두 개 생성한다. 템플릿 제공부(120)는 생성된 하나의 마스크에서 다른 하나의 마스크를 뺀다. 그리고, 템플릿 제공부(120)는 뺀 마스크를 이미지에 적용하여 엣지를 추출할 수 있다.
템플릿 제공부(120)는 각 이미지 내에서 추출된 엣지에 의한 폐쇄 영역(enclosure)을 하나 이상 식별할 수 있다. 이 경우, 템플릿 제공부(120)는 엣지 영역이 폐쇄되었는지 명확히 하기 위하여, 각 이미지에 이진화(binarization)를 먼저 처리할 수 있다.
템플릿 제공부(120)는 식별된 폐쇄 영역이 이미지 내에서 차지하고 있는 크기, 위치 또는 형상을 기초로, 제1 이미지 내의 객체와 및 제2 이미지 내의 객체 사이의 유사성을 판단할 수 있다.
동일한 객체를 식별한 이후, 템플릿 제공부(120)는 제2 이미지 속에 포함된 동일한 객체에 어노테이션된 스켈레톤 데이터를 기초로, 제1 이미지 속에 포함된 객체에 적용할 구조 템플릿을 식별할 수 있다.
그리고, 템플릿 제공부(120)는 입출력부(110)를 통해, 식별된 구조 템플릿을 제1 이미지 위에 오버레이(overlay)하여 출력할 수 있다.
특히, 템플릿 제공부(120)는 제2 이미지를 통해 식별된 구조 템플릿을 제1 이미지 위에 오버레이함에 있어, 구조 템플릿의 위치 좌표가 제1 이미지에 포함된 객체에 대응되도록 자동 보정할 수 있다.
구체적으로, 제2 이미지 속에 포함된 객체의 위치와 제1 이미지 속에 포함된 객체의 위치의 차이 값을 산출할 수 있다. 그리고, 템플릿 제공부(120)는 산출된 차이 값에 대응하여 구조 템플릿에 포함된 키 포인트의 위치를 변경한 후, 제1 이미지 위에 오버레이하여 출력할 수 있다.
이와 같은, 자동 보정된 구조 템플릿의 위치 좌표가 올바른 보정인지 검증하기 위하여, 템플릿 제공부(120)는 산출된 차이 값에 대응하여 변경된 키 포인트의 위치 좌표를 기초로, 구조 템플릿에 포함된 제1 키 포인트와 제2 키 포인트 사이를 연결하는 제1 간선(edge)과, 제2 키 포인트와 제3 키 포인트 사이를 연결하는 제2 간선 사이의 각도가 사전에 설정된 임계 각도 범위를 벗어나는지 판단할 수 있다.
판단 결과, 제1 간선과 제2 간선 사이의 각도가 임계 각도 범위 내인 경우, 템플릿 제공부(120)는 구조 템플릿의 위치 좌표가 올바른 것으로 판단할 수 있다. 이와 다르게, 제1 간선과 제2 간선 사이의 각도가 임계 각도 범위를 벗어나는 경우, 템플릿 제공부(120)는 제1 간선과 제2 간선 사이의 각도가 임계 각도 범위 내로 들어오도록 제1 키 포인트 또는 제3 키 포인트의 위치를 재변경할 수 있다.
나아가, 템플릿 제공부(120)는 구조 템플릿에 포함된 키 포인트의 위치를 변경함에 있어, 객체가 제1 이미지 내에서 차지하고 있는 크기, 위치 또는 형상과, 객체가 제2 이미지 내에서 차지하고 있는 크기, 위치 또는 형상을 대비한 결과를 기초로, 구조 템플릿에 포함된 모든 키 포인트에 차이 값을 적용할 것인지, 또는 구조 템플릿에 포함된 일부 키포인트에만 차이 값을 적용할지 여부를 결정할 수 있다.
즉, 템플릿 제공부(120)는 제1 이미지 내의 객체가 제2 이미지 내의 객체 형상이 어느 정도 유지되며 이동된 상황인 경우, 구조 템플릿에 포함된 모든 키 포인트의 위치 좌표를 일괄적으로 자동 보정할 수 있다. 이와 다르게, 템플릿 제공부(120)는 제1 이미지 내의 객체가 제2 이미지 내의 객체 형상이 변형되어 이동된 상황인 경우, 구조 템플릿에 포함된 키 포인트 일부의 위치 좌표만을 자동 보정할 수 있다.
다음 구성으로, 어노테이션 작업부(125)는 템플릿 제공부(120)에 의해 제공된 구조 템플릿에 포함된 하나 이상의 키 포인트의 위치를 이동시키는 어노테이션을 수행할 수 있다.
구체적으로, 어노테이션 작업부(125)는 입출력부(110)를 통해 입력된 제어 신호에 따라, 템플릿 제공부(120)를 통해 이미지 위에 오버레이하여 출력된 구조 템플릿의 키 포인트의 위치를 이동시킬 수 있다.
이와 같은, 키 포인트의 위치 이동이 올바른 이동인지 검증하기 위하여, 어노테이션 작업부(125)는 이동된 키 포인트의 위치 좌표를 기초로, 구조 템플릿에 포함된 제1 키 포인트와 제2 키 포인트 사이를 연결하는 제1 간선(edge)과, 제2 키 포인트와 제3 키 포인트 사이를 연결하는 제2 간선 사이의 각도가 사전에 설정된 임계 각도 범위를 벗어나는지 판단할 수 있다.
판단 결과, 제1 간선과 제2 간선 사이의 각도가 임계 각도 범위 내인 경우, 어노테이션 작업부(125)는 키 포인트의 위치 이동이 올바른 것으로 판단할 수 있다. 이와 다르게, 제1 간선과 제2 간선 사이의 각도가 임계 각도 범위를 벗어나는 경우, 어노테이션 작업부(125)는 키 포인트의 위치 이동에 오류가 존재함을 입출력부(110)의 사용자 인터페이스(UI)를 통해 출력할 수 있다.
본 발명의 일 실시예에 따르면, 어노테이션 작업부(125)는 객체의 일 부분 중에서 이미지 상에서 명확하게 확인할 수 있는 부분과 이미지 상에서 명확하게 확인할 수 없는 부분을 구분할 수 있는 기능을 제공할 수 있다.
구체적으로, 어노테이션 작업부(125)는 구조 템플릿에 포함된 키 포인트 중에서 이미지 속에 포함된 객체에 대응시킬 수 있는 키 포인트와, 이미지 속에 포함된 객체에 대응시킬 수 없는 키 포인트를 입출력부(110)를 통해 서로 다른 사용자 인터페이스(UI)로 출력할 수 있다.
본 발명의 또 다른 실시예에 따르면, 어노테이션 작업부(125)는 구조 템플릿에 포함된 키 포인트가 정확한 지점에 위치하였는지 작업자가 확인할 수 있는 기능을 제공할 수 있다.
구체적으로, 어노테이션 작업부(125)는 작업자의 제어에 따라, 구조 템플릿이 3차원 회전된 형상을 입출력부(110)의 사용자 인터페이스(UI)를 통해 출력할 수 있다.
상술한 바와 같은 키 포인트의 위치 이동이 완료되면, 어노테이션 작업부(125)는 입출력부(110)를 통해 입력된 작업자의 제어 신호에 따라, 이미지 속에 포함된 객체에 대한 속성 정보를 설정할 수 있다. 여기서, 객체의 속성 정보에는 객체의 유형, 객체에 대한 체형, 자세 또는 방향에 관한 정보가 포함될 수 있으나, 이에 한정되는 것은 아니다.
본 발명의 또 다른 실시예에 따르면, 어노테이션 작업부(125)는 작업자에 의해 객체에 대한 속성 정보가 설정되기 이전에, 객체에 대한 속성 정보를 선제적으로 제안할 수 있다.
구체적으로, 어노테이션 작업부(125)는 이동된 키 포인트의 위치 좌표 및 키 포인트 사이의 연결 관계를 기초로, 작업자에게 제안할 체형, 자세 또는 방향 정보를 식별할 수 있다. 그리고, 어노테이션 작업부(125)는 식별된 제안할 체형, 자세 또는 방향 정보를 입출력부(110)의 사용자 인터페이스(UI)를 통해 출력할 수 있다.
다음 구성으로, 스켈레톤 생성부(130)는 어노테이션 작업부(125)에 의해 수행된 어노테이션 작업 결과를 기초로 스켈레톤 데이터를 생성할 수 있다.
구체적으로, 스켈레톤 생성부(130)는 구조 템플릿에 포함된 키 포인트의 위치 좌표 및 키 포인트의 연결 관계를 기초로, 이미지 속에 포함된 객체에 대응하는 스켈레톤 데이터를 생성할 수 있다. 이 경우, 스켈레톤 데이터는 객체의 속성 정보가 포함되어 생성될 수 있다.
그리고, 스켈레톤 생성부(130)는 통신부(105)를 통해, 생성된 스켈레톤 데이터를 포함하는 어노테이션 작업 결과를 학습 데이터 설계 장치(200) 또는 인공지능 학습 장치(300)에 전송할 수 있다. 이 경우, 어노테이션 작업 결과는 JSON(Java Script Object Notation) 파일 형식을 가질 수 있으나, 이에 한정되는 것은 아니다.
이하, 상술한 바와 같은 어노테이션 장치(100)의 논리적 구성요소를 구현하기 위한 하드웨어에 대하여 보다 구체적으로 설명한다.
도 5는 본 발명의 일 실시예에 따른 어노테이션 장치의 하드웨어 구성도이다.
도 5에 도시된 바와 같이, 어노테이션 장치(100)는 프로세서(Processor, 150), 메모리(Memory, 155), 송수신기(Transceiver, 160), 입출력장치(Input/output device, 165), 데이터 버스(Bus, 170) 및 스토리지(Storage, 175)를 포함하여 구성될 수 있다.
프로세서(150)는 메모리(155)에 상주된 스켈레톤 데이터 생성 방법이 구현된 소프트웨어(180a)에 따른 명령어를 기초로, 어노테이션 장치(100)의 동작 및 기능을 구현할 수 있다. 메모리(155)에는 스켈레톤 데이터 생성 방법이 구현된 소프트웨어(180a)가 상주(loading)될 수 있다. 송수신기(160)는 학습 데이터 설계 장치(200) 및 인공지능 학습 장치(300)와 데이터를 송수신할 수 있다. 입출력장치(165)는 어노테이션 장치(100)의 동작에 필요한 데이터를 입력 받고, 이미지 및 구조 템플릿을 출력할 수 있다. 데이터 버스(170)는 프로세서(150), 메모리(155), 송수신기(160), 입출력장치(165) 및 스토리지(175)와 연결되어, 각각의 구성 요소 사이가 서로 데이터를 전달하기 위한 이동 통로의 역할을 수행할 수 있다.
스토리지(175)는 스켈레톤 데이터 생성 방법이 구현된 소프트웨어(180a)의 실행을 위해 필요한 애플리케이션 프로그래밍 인터페이스(Application Programming Interface, API), 라이브러리(library) 파일, 리소스(resource) 파일 등을 저장할 수 있다. 스토리지(175)는 스켈레톤 데이터 생성 방법이 구현된 소프트웨어(180b)를 저장할 수 있다. 또한, 스토리지(175)는 스켈레톤 데이터 생성 방법의 수행에 필요한 데이터베이스(185)를 저장할 수 있다. 여기서, 데이터베이스(185)에는 객체의 유형별로 규격화된 구조 템플릿들이 포함되어 저장될 수 있으나, 이에 한정되는 것은 아니다.
본 발명의 제1 실시예에 따르면, 메모리(155)에 상주되거나 또는 스토리지(175)에 저장된 스켈레톤 데이터 생성 방법을 구현하기 위한 소프트웨어(180a, 180b)는 프로세서(150)가 인공지능(AI) 학습을 위한 어노테이션 작업의 대상이 되는 이미지가 메모리(155)에 로딩되면 스켈레톤 데이터의 생성에 활용될 수 있는 구조 템플릿을 식별하는 단계, 프로세서(150)가 구조 템플릿을 이미지 위에 오버레이하여 입출력장치(165)를 통해 출력하는 단계, 프로세서(150)가 입출력장치(165)를 통해 입력된 작업자의 제어에 따라 구조 템플릿에 포함된 하나 이상의 키 포인트의 위치를 이동시키는 단계, 및 프로세서(150)가 이동된 키 포인트의 위치 좌표 및 상기 키 포인트 사이의 연결 관계를 기초로 이미지 속에 포함된 객체에 대응하는 스켈레톤 데이터를 생성하는 단계를 실행시키기 위하여 기록매체에 기록된 컴퓨터 프로그램이 될 수 있다.
본 발명의 제2 실시예에 따르면, 메모리(155)에 상주되거나 또는 스토리지(175)에 저장된 스켈레톤 데이터 생성 방법을 구현하기 위한 소프트웨어(180a, 180b)는 프로세서(150)가 인공지능(AI) 학습을 위한 어노테이션 작업의 대상이 되는 제1 이미지가 메모리(155)에 로딩되면 제1 이미지와 시간적으로 연속되게 촬영된 제2 이미지를 식별하는 단계, 프로세서(150)가 제1 이미지 속에 포함된 객체 중에서 제2 이미지 속에 포함된 객체와 동일한 객체를 식별하는 단계, 프로세서(150)가 제2 이미지 속에 포함된 객체에 어노테이션된 스켈레톤 데이터를 기초로 제1 이미지 속에 포함된 객체에 적용할 구조 템플릿을 식별하는 단계, 프로세서(150)가 식별된 구조 템플릿을 제1 이미지 위에 오버레이하여 입출력장치(165)를 통해 출력하는 단계를 실행시키기 위하여 기록매체에 기록된 컴퓨터 프로그램이 될 수 있다.
보다 구체적으로, 프로세서(150)는 ASIC(Application-Specific Integrated Circuit), 다른 칩셋(chipset), 논리 회로 및/또는 데이터 처리 장치를 포함할 수 있다. 메모리(155)는 ROM(Read-Only Memory), RAM(Random Access Memory), 플래쉬 메모리, 메모리 카드, 저장 매체 및/또는 다른 저장 장치를 포함할 수 있다. 송수신기(160)는 유무선 신호를 처리하기 위한 베이스밴드 회로를 포함할 수 있다. 입출력장치(165)는 키보드(keyboard), 마우스(mouse), 및/또는 조이스틱(joystick) 등과 같은 입력 장치 및 액정표시장치(Liquid Crystal Display, LCD), 유기 발광 다이오드(Organic LED, OLED) 및/또는 능동형 유기 발광 다이오드(Active Matrix OLED, AMOLED) 등과 같은 영상 출력 장치 프린터(printer), 플로터(plotter) 등과 같은 인쇄 장치를 포함할 수 있다.
본 명세서에 포함된 실시 예가 소프트웨어로 구현될 경우, 상술한 방법은 상술한 기능을 수행하는 모듈(과정, 기능 등)로 구현될 수 있다. 모듈은 메모리(155)에 상주되고, 프로세서(150)에 의해 실행될 수 있다. 메모리(155)는 프로세서(150)의 내부 또는 외부에 있을 수 있고, 잘 알려진 다양한 수단으로 프로세서(150)와 연결될 수 있다.
도 5에 도시된 각 구성요소는 다양한 수단, 예를 들어, 하드웨어, 펌웨어(firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 본 발명의 일 실시예는 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 프로세서, 콘트롤러, 마이크로 콘트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.
또한, 펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명의 일 실시예는 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차, 함수 등의 형태로 구현되어, 다양한 컴퓨터 수단을 통하여 판독 가능한 기록매체에 기록될 수 있다. 여기서, 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 이러한, 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이하, 지금까지 상술한 바와 같은 본 발명의 다양한 실시예에 따른 인공지능 학습 시스템의 특징들에 대하여, 도면을 참조하여 구체적으로 설명하기로 한다.
도 6 내지 도 10은 본 발명의 일 실시예에 따라 스켈레톤 데이터를 생성하는 과정을 설명하기 위한 예시도이다.
도 6을 참조하면, 본 발명의 일 실시예에 따른 인공지능 학습 시스템의 어노테이션 장치(100)는 인공지능(AI) 학습을 위한 어노테이션 작업의 대상이 되는 이미지(10)가 메모리에 로딩되면, 이미지(10) 속에 포함된 하나 이상의 객체(20)의 스켈레톤 데이터(40)를 생성하기 위한 구조 템플릿(30)을 식별할 수 있다.
여기서, 구조 템플릿(30)은 객체(20)의 속성에 따라 사전에 정의된 개수의 키 포인트(31)와, 사전에 정의된 키 포인트(31) 사이의 연결 관계(33)를 가지는 데이터 구조를 의미한다.
도 7을 참조하면, 어노테이션 장치(100)는 식별된 구조 템플릿(30)을 이미지(10) 속에 포함된 객체(20)의 위에 오버레이하여 출력할 수 있다.
이 경우, 어노테이션 장치(100)는 구조 템플릿(30)에 포함된 키 포인트(31) 중에서 사전에 설정된 하나 이상의 기준 키 포인트(31-sp)가 사전에 설정된 특징점(31-sp) 위에 위치시킬 수 있다.
여기서, 특징점(31-sp)은 객체(20)의 골격 중에서 뼈가 분기하는 관절의 위치, 또는 객체의 신체 기관 중에서 움직임이 최소인 신체 기관의 위치에 따라 사전에 정의된 지점이 될 수 있다.
도 8을 참조하면, 어노테이션 장치(100)는 작업자의 제어에 따라, 구조 템플릿(30)에 포함된 하나 이상의 키 포인트(31)의 위치를 이동(31-old에서 31-new로 이동)시키는 어노테이션을 수행할 수 있다.
특히, 어노테이션 장치(100)는 객체(20)의 일 부분 중에서 이미지(10) 상에서 명확하게 확인할 수 있는 부분과 이미지(10) 상에서 명확하게 확인할 수 없는 부분을 구분할 수 있는 기능을 제공할 수 있다.
예를 들어, 어노테이션 장치(100)는 이미지(10) 상에서 명확하게 확인할 수 없는 부분에 대응하는 키 포인트(31)의 색상을 다른 색상으로 표현하거나 또는 음영 처리함으로써, 이미지(10) 상에서 명확하게 확인할 수 있는 부분에 대응하는 키 포인트(31)와 구분할 수 있는 기능을 제공할 수 있다.
도 9를 참조하면, 어노테이션 장치(100)는 키 포인트의 위치 이동이 올바른 이동인지 검증할 수 있다.
구체적으로, 어노테이션 장치(100)는 이동된 키 포인트의 위치 좌표를 기초로, 구조 템플릿(30)에 포함된 제1 키 포인트(31-1)와 제2 키 포인트(31-2) 사이를 연결하는 제1 간선(33-1)과, 제2 키 포인트(31-2)와 제3 키 포인트(31-3) 사이를 연결하는 제2 간선(33-2) 사이의 각도(d)가 사전에 설정된 임계 각도 범위를 벗어나는지 판단할 수 있다.
판단 결과, 제1 간선(33-1)과 제2 간선(33-2) 사이의 각도(d)가 임계 각도 범위 내인 경우, 어노테이션 장치(100)는 키 포인트의 위치 이동이 올바른 것으로 판단할 수 있다. 이와 다르게, 제1 간선(33-1)과 제2 간선(33-2) 사이의 각도(d)가 임계 각도 범위를 벗어나는 경우, 어노테이션 장치(100)는 키 포인트의 위치 이동에 오류가 존재함을 사용자 인터페이스(UI)를 통해 출력할 수 있다.
그리고, 어노테이션 장치(100)는 작업자의 제어에 따라, 이미지(10) 속에 포함된 객체(20)에 대한 속성 정보를 설정할 수 있다. 여기서, 객체(20)의 속성 정보에는 객체의 유형, 객체에 대한 체형, 자세 또는 방향에 관한 정보가 포함될 수 있으나, 이에 한정되는 것은 아니다.
도 10을 참조하면, 어노테이션 장치(100)는 구조 템플릿(30)에 포함된 키 포인트(31)의 위치 좌표, 키 포인트(31)의 연결 관계(33), 및 객체의 속성 정보를 포함하여 스켈레톤 데이터(40)를 생성할 수 있다.
그리고, 어노테이션 장치(100)는 생성된 스켈레톤 데이터(40)를 포함하는 어노테이션 작업 결과를 학습 데이터 설계 장치(200) 또는 인공지능 학습 장치(300)에 전송할 수 있다.
상술한 바와 같은 본 발명의 실시예에 따르면, 인공지능(AI) 학습을 위한 이미지(10) 속에 포함된 객체(20)를 대상으로 스켈레톤 데이터(40)를 생성함에 있어, 키 포인트(31)의 개수와 연결 관계(33) 등이 규격화 되어 있는 템플릿(30)을 활용함으로써, 스켈레톤 데이터(40)에 포함되어야 하는 키 포인트(31)가 누락되지 않으며, 키 포인트(31) 사이의 연결 관계(33)가 정확하게 설정될 수 있다.
또한, 본 발명의 실시예에 따르면, 이미지(10) 상에서 명확하게 확인할 수 없는 객체(20)의 일부분에 대응하는 키 포인트(31)를 구분될 수 있게 설정함으로써, 작업자가 객체(20)의 3차원 골격에 따른 스켈레톤 데이터를 보다 명확하게 확인하며 어노테이션을 수행할 수 있게 된다.
결과적으로, 본 발명의 실시 예에 따르면, 이미지(10) 속에 포함된 객체(20)의 체형, 자세 또는 방향을 정확하게 학습시킬 수 있는 스켈레톤 데이터(40)를 생성할 수 있게 되는 것이다.
도 11 내지 도 14는 본 발명의 일 실시예에 따라 연속된 이미지들에 대한 스켈레톤 데이터를 생성하는 과정을 설명하기 위한 예시도이다.
도 11을 참조하면, 본 발명의 일 실시예에 따른 인공지능 학습 시스템의 어노테이션 장치(100)는 인공지능(AI) 학습을 위한 어노테이션 작업의 대상이 되는 제1 이미지(10)가 메모리에 로딩되면, 제1 이미지(10)와 시간적으로 연속되게 촬영된 제2 이미지(10-old)를 식별할 수 있다.
구체적으로, 어노테이션 장치(100)는 제1 이미지(10)를 어노테이션 작업의 대상으로 포함하는 프로젝트와 관련된 이미지들 중에서 제1 이미지(10)의 어노테이션 작업을 수행하는 작업자가 어노테이션을 기 수행하였던 이미지를 제2 이미지(10-old)로 식별할 수 있다. 즉, 제2 이미지(10-old)는 제1 이미지(10)와 동일한 프로젝트에 속하는 이미지들 중에서 작업자가 어노테이션 작업을 기 수행한 이미지가 될 수 있다.
만약, 작업자가 어노테이션을 기 수행하였던 이미지가 복수 개인 경우, 어노테이션 장치(100)는 이미지의 속성을 기초로, 작업자가 어노테이션을 기 수행하였던 이미지 중에서 제1 이미지(10)의 촬영 장소 좌표와 촬영 장치명이 동일한 이미지를 식별할 수 있다. 그리고, 어노테이션 장치(100)는 제1 이미지(10)의 촬영 장소 좌표와 촬영 장치명이 동일한 이미지 중에서 제1 이미지(10)의 촬영 시각과 시간 차이가 가장 작은 이미지를 제2 이미지(10-old)로 식별할 수 있다.
도 12를 참조하면, 어노테이션 장치(100)는 제1 이미지(10) 속에 포함된 객체(20) 중에서 제2 이미지 속에 포함된 객체(20-old)와 동일한 객체를 식별할 수 있다.
구체적으로, 어노테이션 장치(100)는 제1 이미지(10) 및 제2 이미지(10-old) 내에서 객체(20, 20-old)가 차지하고 있는 크기, 위치 또는 형상의 유사성을 기준으로, 제1 이미지(10) 속에 포함된 객체(20)와 제2 이미지(10-old) 속에 포함된 객체(20-old)가 서로 동일한 객체에 해당하는지 판단할 수 있다.
이 경우, 어노테이션 장치(100)는 객체(20, 20-old)의 유사성을 판단하기 위하여, 제1 이미지(10) 및 제2 이미지(10-old)에 대하여 엣지 추출, 이진화 및 폐쇄 영역 식별 등의 이미지 처리를 수행할 수도 있다.
도 13 및 도 14를 참조하면, 어노테이션 장치(100)는 제2 이미지(10-old) 속에 포함된 동일한 객체(20-old)에 어노테이션된 스켈레톤 데이터(40)를 기초로, 제1 이미지(10)에 포함된 객체(20)에 적용할 구조 템플릿(30)을 식별할 수 있다.
그리고, 식별된 구조 템플릿(30)을 기초로, 제1 이미지(10)의 어노테이션을 수행하는 과정은 도 7 내지 도 10을 참조하여 설명한 바와 동일하므로, 반복하여 설명하지 않는다.
상술한 바와 같은, 본 발명의 실시예에 따르면, 인공지능(AI) 학습을 위한 이미지(10) 속에 포함된 객체(20)를 대상으로 스켈레톤 데이터(40)를 생성함에 있어, 연속된 이미지(10-old)에 대하여 기 수행된 어노테이션 결과를 활용함으로써 보다 빠른 어노테이션을 가능하게 한다.
따라서, 본 발명의 실시예에 따르면, 연속 촬영된 다수의 이미지(10-old, 10)에 각각 포함된 객체(20-old, 20)의 체험, 자세 또는 방향을 학습시키기 위한 스켈레톤 데이터(40)를 보다 신속하고 정확하게 생성할 수 있게 되는 것이다.
이하, 상술한 바와 같은, 어노테이션 장치(100)의 동작에 대하여 보다 구체적으로 설명하기로 한다.
도 15는 본 발명의 일 실시예에 따른 스켈레톤 데이터 생성 방법을 설명하기 위한 순서도이다.
도 15를 참조하여 본 발명의 일 실시예에 따른 스켈레톤 데이터 생성 방법을 설명함에 있어, 도 6 내지 도 10을 참조하여 설명한 바와 동일한 설명은 반복하여 기재하지 않는다.
도 15를 참조하면, 어노테이션 장치(100)는 작업자의 제어에 따라, 인공지능(AI) 학습을 위한 어노테이션 작업의 대상이 되는 이미지를 메모리에 로딩(loading)할 수 있다(S100).
어노테이션 장치(100)는 이미지가 메모리에 로딩되면, 스켈레톤 데이터의 생성에 활용될 수 있는 구조 템플릿을 식별할 수 있다(S200).
구체적으로, 본 발명의 일 실시예에 따르면, 어노테이션 장치(100)는 프로젝트의 속성, 이미지의 속성 또는 작업자의 속성에 따라, 데이터베이스로부터 하나의 구조 템플릿을 식별할 수 있다.
이와 다르게, 본 발명의 다른 실시예에 다르면, 어노테이션 장치(100)는 연속된 이미지에 대하여 기 수행된 어노테이션 결과를 활용하여 구조 템플릿을 식별할 수도 있다. 이러한 과정에 대해서는 추후 도 16을 참조하여 후술하기로 한다.
어노테이션 장치(100)는 식별된 구조 템플릿을 이미지 위에 오버레이하여 출력할 수 있다(S300).
특히, 어노테이션 장치(100)는 구조 템플릿을 이미지 위에 오버레이 함에 있어, 구조 템플릿에 포함된 키 포인트 중에서 사전에 설정된 하나 이상의 기준 키 포인트가 사전에 설정된 특징점 위에 위치시킬 수 있다.
여기서, 특징점은 객체의 골격 중에서 뼈가 분기하는 관절의 위치, 또는 객체의 신체 기관 중에서 움직임이 최소인 신체 기관의 위치에 따라 사전에 정의된 지점이 될 수 있다.
이와 같이, 구조 템플릿에 포함된 키 포인트들 중에서 기준이 되는 키 포인트를 미리 위치시킴으로써, 작업자의 어노테이션 작업 편의를 향상시킬 수 있게 된다.
어노테이션 장치(100)는 작업자의 제어에 따라, 구조 템플릿에 포함된 하나 이상의 키 포인트의 위치를 이동시킬 수 있다(S400). 그리고, 어노테이션 장치(100)는 작업자의 제어에 따라, 이미지에 포함된 객체에 대한 속성 정보를 설정할 수 있다(S500).
어노테이션 장치(100)는 구조 템플릿에 포함된 키 포인트의 위치 좌표, 키 포인트의 연결 관계 및 객체의 속성 정보를 기초로, 스켈레톤 데이터를 생성할 수 있다(S600). 그리고, 어노테이션 장치(100)는 생성된 스켈레톤 데이터를 포함하는 어노테이션 작업 결과를 학습 데이터 설계 장치(200) 또는 인공지능 학습 장치(300)에 전송할 수 있다.
도 16은 본 발명의 일 실시예에 따른 기 수행된 어노테이션 결과를 활용한 구조 템플릿 식별 방법을 설명하기 위한 순서도이다.
도 16을 참조하여 본 발명의 일 실시예에 따른 연속된 이미지에 대한 스켈레톤 데이터 생성 방법을 설명함에 있어, 도 11 내지 도 14를 참조하여 설명한 바와 동일한 설명은 반복하여 기재하지 않는다.
도 16을 참조하면, 어노테이션 장치(100)는 어노테이션 작업의 대상이 되는 제1 이미지가 메모리에 로딩되면, 제1 이미지와 시간적으로 연속되게 촬영된 제2 이미지를 식별할 수 있다(S210).
어노테이션 장치(100)는 제1 이미지 속에 포함된 객체 중에서 제2 이미지 속에 포함된 객체와 동일한 객체를 식별할 수 있다(S220).
그리고, 어노테이션 장치(100)는 제2 이미지 속에 포함된 동일한 객체에 어노테이션된 스켈레톤 데이터를 기초로, 제1 이미지에 포함된 객체에 적용할 수 있는 구조 템플릿을 식별할 수 있다(S230).
이상과 같이, 본 명세서와 도면에는 본 발명의 바람직한 실시예에 대하여 개시하였으나, 여기에 개시된 실시예 외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다. 또한, 본 명세서와 도면에서 특정 용어들이 사용되었으나, 이는 단지 본 발명의 기술 내용을 쉽게 설명하고 발명의 이해를 돕기 위한 일반적인 의미에서 사용된 것이지, 본 발명의 범위를 한정하고자 하는 것은 아니다. 따라서, 상술한 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니 되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 선정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.
어노테이션 장치: 100-1, 100-2, 100-3, …, 100-n; 100
학습 데이터 설계 장치: 200 인공지능 학습 장치: 300
통신부: 105 입출력부: 110
저장부: 115 템플릿 제공부: 120
어노테이션 작업부: 125 스켈레톤 생성부: 130

Claims (10)

  1. 어노테이션 장치가, 인공지능(Artificial Intelligence, AI) 학습을 위한 어노테이션(annotation) 작업의 대상이 되는 제1 이미지와 시간적으로 연속되게 촬영된 제2 이미지를 식별하는 단계;
    상기 어노테이션 장치가, 상기 제1 이미지 속에 포함된 객체(object) 중에서 상기 제2 이미지 속에 포함된 객체와 동일한 객체를 식별하는 단계;
    상기 어노테이션 장치가, 상기 제2 이미지 속에 포함된 객체에 어노테이션된 스켈레톤 데이터를 기초로, 상기 제1 이미지 속에 포함된 객체에 적용할 구조 템플릿(structure template)을 식별하는 단계; 및
    상기 어노테이션 장치가, 상기 식별된 구조 템플릿을 상기 제1 이미지 위에 오버레이(overlay)하여 출력하는 단계를 포함하되,
    상기 스켈레톤 데이터는 이미지 속에 포함된 객체의 체형(body shape), 자세(pose) 또는 방향(direction)을 식별하기 위한 객체의 3차원 골격과 관련된 데이터이고,
    상기 구조 템플릿은 객체의 속성에 따라 사전에 정의된 개수의 키 포인트(key point)와, 사전에 정의된 키 포인트들 사이의 연결 관계를 가지는 데이터 구조인 것을 특징으로 하는, 스켈레톤 데이터 생성 방법.
  2. 제1 항에 있어서, 상기 오버레이하여 출력하는 단계 이후에
    상기 어노테이션 장치가, 작업자의 제어에 따라, 상기 구조 템플릿에 포함된 하나 이상의 키 포인트의 위치를 이동시키는 단계; 및
    상기 어노테이션 장치가, 상기 이동된 키 포인트의 위치 좌표 및 상기 이동된 키 포인트들 사이의 연결 관계를 기초로, 상기 이미지 속에 포함된 객체(object)에 대응하는 스켈레톤 데이터를 생성하는 단계를 더 포함하는 것을 특징으로 하는, 스켈레톤 데이터 생성 방법.
  3. 제1 항에 있어서, 상기 제2 이미지를 식별하는 단계는
    상기 제1 이미지를 어노테이션 작업의 대상으로 포함하는 프로젝트와 관련된 이미지들 중에서, 상기 제1 이미지의 어노테이션 작업을 수행하는 작업자가 어노테이션을 기 수행하였던 이미지를 상기 제2 이미지로 식별하는 것을 특징으로 하는, 스켈레톤 데이터 생성 방법.
  4. 제3 항에 있어서, 상기 제2 이미지를 식별하는 단계는
    상기 작업자가 어노테이션을 기 수행하였던 이미지 중에서 상기 제1 이미지의 촬영 장소 좌표와 촬영 장치명이 동일하고, 상기 제1 이미지의 촬영 시각과의 시간 차이가 가장 작은 이미지를 상기 제2 이미지로 식별하는 것을 특징으로 하는, 스켈레톤 데이터 생성 방법.
  5. 제1 항에 있어서, 상기 동일한 객체를 식별하는 단계는
    상기 제1 이미지 및 제2 이미지 내에서 객체가 차지하고 있는 크기, 위치 또는 형상의 유사성을 기준으로, 상기 제1 이미지 속에 포함된 객체와 상기 제2 이미지 속에 포함된 객체가 서로 동일한 객체에 해당하는지 판단하는 것을 특징으로 하는, 스켈레톤 데이터 생성 방법.
  6. 제5 항에 있어서, 상기 동일한 객체를 식별하는 단계는
    상기 제1 이미지 및 제2 이미지 각각을 RGB(Red, Green, Blue)에 따라 세 개의 이미지로 분할하고, 분할된 각 이미지의 엣지를 추출(edge detection)하고, 각 이미지 내에서 추출된 엣지에 의한 폐쇄 영역(enclosure)을 식별한 후, 식별된 폐쇄 영역이 상기 이미지 내에서 차지하고 있는 크기, 위치 또는 형상을 기초로 상기 유사성을 판단하는 것을 특징으로 하는, 스켈레톤 데이터 생성 방법.
  7. 제1 항에 있어서, 상기 오버레이하여 출력하는 단계는
    상기 제2 이미지 속에 포함된 객체의 위치와 상기 제1 이미지 속에 포함된 객체의 위치의 차이 값을 산출하고, 산출된 차이 값에 대응하여 상기 구조 템플릿에 포함된 키 포인트의 위치를 변경한 후, 상기 제1 이미지 위에 오버레이하여 출력하는 것을 특징으로 하는, 스켈레톤 데이터 생성 방법.
  8. 제7 항에 있어서, 상기 오버레이하여 출력하는 단계는
    상기 산출된 차이 값에 대응하여 변경된 키 포인트의 위치 좌표를 기초로, 상기 구조 템플릿에 포함된 제1 키 포인트와 제2 키 포인트 사이를 연결하는 제1 간선(edge)과, 상기 제2 키 포인트와 제3 키포인트 사이를 연결하는 제2 간선 사이의 각도가 사전에 설정된 임계 각도 범위를 벗어나는 경우, 상기 제1 간선과 상기 제2 간선 사이의 각도가 상기 임계 각도 범위 내에 들어오도록 상기 제1 키 포인트 또는 제3 키포인트의 위치를 재변경하는 것을 특징으로 하는, 스켈레톤 데이터 생성 방법.
  9. 제7 항에 있어서, 상기 오버레이하여 출력하는 단계는
    상기 객체가 상기 제1 이미지 내에서 차지하고 있는 크기, 위치 또는 형상과 상기 객체가 상기 제2 이미지 내에서 차지하고 있는 크기, 위치 또는 형상을 대비한 결과를 기초로, 상기 구조 템플릿에 포함된 모든 키 포인트에 상기 차이 값을 적용할 것인지, 또는 상기 구조 템플릿에 포함된 일부 키 포인트에만 상기 차이 값을 적용할지 여부를 결정하는 것을 특징으로 하는, 스켈레톤 데이터 생성 방법.
  10. 메모리(memory);
    입출력장치(input output device); 및
    상기 메모리에 상주된 명령어를 처리하는 프로세서(processor)를 포함하여 구성된 컴퓨팅 장치와 결합되어,
    상기 프로세서가, 인공지능(AI) 학습을 위한 어노테이션 작업의 대상이 되는 제1 이미지와 시간적으로 연속되게 촬영된 제2 이미지를 식별하는 단계;
    상기 프로세서가, 상기 제1 이미지 속에 포함된 객체 중에서 상기 제2 이미지 속에 포함된 객체와 동일한 객체를 식별하는 단계;
    상기 프로세서가, 상기 제2 이미지 속에 포함된 객체에 어노테이션된 스켈레톤 데이터를 기초로, 상기 제1 이미지 속에 포함된 객체에 적용할 구조 템플릿을 식별하는 단계; 및
    상기 프로세서가, 상기 식별된 구조 템플릿을 상기 제1 이미지 위에 오버레이하여 상기 입출력장치를 통해 출력하는 단계를 실행시키되,
    상기 스켈레톤 데이터는 이미지 속에 포함된 객체의 체형, 자세 또는 방향을 식별하기 위한 객체의 3차원 골격과 관련된 데이터이고,
    상기 구조 템플릿은 객체의 속성에 따라 사전에 정의된 개수의 키 포인트와, 사전에 정의된 키 포인트들 사이의 연결 관계를 가지는 데이터 구조인 것을 특징으로 하는, 기록매체에 기록된 컴퓨터 프로그램.
KR1020210019298A 2021-02-10 2021-02-10 연속된 이미지들에 대한 스켈레톤 데이터 생성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 KR102310587B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210019298A KR102310587B1 (ko) 2021-02-10 2021-02-10 연속된 이미지들에 대한 스켈레톤 데이터 생성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210019298A KR102310587B1 (ko) 2021-02-10 2021-02-10 연속된 이미지들에 대한 스켈레톤 데이터 생성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램

Publications (1)

Publication Number Publication Date
KR102310587B1 true KR102310587B1 (ko) 2021-10-13

Family

ID=78150815

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210019298A KR102310587B1 (ko) 2021-02-10 2021-02-10 연속된 이미지들에 대한 스켈레톤 데이터 생성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램

Country Status (1)

Country Link
KR (1) KR102310587B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230076966A (ko) * 2021-11-23 2023-06-01 한국공학대학교산학협력단 인간 친화형 로봇의 감정 표현을 위한 몸짓 시각화 정보 생성 방법 및 장치

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120162217A1 (en) * 2010-12-22 2012-06-28 Electronics And Telecommunications Research Institute 3d model shape transformation method and apparatus
US20160026253A1 (en) * 2014-03-11 2016-01-28 Magic Leap, Inc. Methods and systems for creating virtual and augmented reality
JP2018036621A (ja) * 2016-08-30 2018-03-08 北京百度網訊科技有限公司 情報入力方法および装置
KR20180080051A (ko) * 2017-01-03 2018-07-11 한국전자통신연구원 기계 학습 방법 및 장치
KR20180122247A (ko) 2017-05-02 2018-11-12 한국전자통신연구원 이종 센서들로부터 추출된 스켈레톤 정보를 이용하여 기계학습 데이터 및 주석을 생성하는 장치 및 그 방법
KR20180126220A (ko) * 2017-05-17 2018-11-27 삼성전자주식회사 객체를 식별하는 방법 및 디바이스
KR20200037816A (ko) * 2017-08-02 2020-04-09 스트롱 포스 아이오티 포트폴리오 2016, 엘엘씨 대규모 데이터 세트들을 갖는 산업 사물 인터넷 데이터 수집 환경에서의 검출을 위한 방법들 및 시스템들
KR20200042629A (ko) * 2018-10-16 2020-04-24 주식회사 키센스 인공지능 학습을 위한 모바일 기기의 터치 기반 어노테이션과 이미지 생성 방법 및 그 장치
US20200184278A1 (en) * 2014-03-18 2020-06-11 Z Advanced Computing, Inc. System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120162217A1 (en) * 2010-12-22 2012-06-28 Electronics And Telecommunications Research Institute 3d model shape transformation method and apparatus
US20160026253A1 (en) * 2014-03-11 2016-01-28 Magic Leap, Inc. Methods and systems for creating virtual and augmented reality
US20200184278A1 (en) * 2014-03-18 2020-06-11 Z Advanced Computing, Inc. System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform
JP2018036621A (ja) * 2016-08-30 2018-03-08 北京百度網訊科技有限公司 情報入力方法および装置
KR20180080051A (ko) * 2017-01-03 2018-07-11 한국전자통신연구원 기계 학습 방법 및 장치
KR20180122247A (ko) 2017-05-02 2018-11-12 한국전자통신연구원 이종 센서들로부터 추출된 스켈레톤 정보를 이용하여 기계학습 데이터 및 주석을 생성하는 장치 및 그 방법
KR20180126220A (ko) * 2017-05-17 2018-11-27 삼성전자주식회사 객체를 식별하는 방법 및 디바이스
KR20200037816A (ko) * 2017-08-02 2020-04-09 스트롱 포스 아이오티 포트폴리오 2016, 엘엘씨 대규모 데이터 세트들을 갖는 산업 사물 인터넷 데이터 수집 환경에서의 검출을 위한 방법들 및 시스템들
KR20200042629A (ko) * 2018-10-16 2020-04-24 주식회사 키센스 인공지능 학습을 위한 모바일 기기의 터치 기반 어노테이션과 이미지 생성 방법 및 그 장치

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230076966A (ko) * 2021-11-23 2023-06-01 한국공학대학교산학협력단 인간 친화형 로봇의 감정 표현을 위한 몸짓 시각화 정보 생성 방법 및 장치
KR102669074B1 (ko) * 2021-11-23 2024-05-24 한국공학대학교산학협력단 인간 친화형 로봇의 감정 표현을 위한 몸짓 시각화 정보 생성 방법 및 장치

Similar Documents

Publication Publication Date Title
KR102014385B1 (ko) 수술영상 학습 및 학습 기반 수술동작 인식 방법 및 장치
KR102310585B1 (ko) 용이하게 객체를 지정할 수 있는 어노테이션 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
KR102356909B1 (ko) 인공지능 학습용 데이터의 객체를 지정하고 속성을 설정하는 어노테이션 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
KR102310599B1 (ko) 3차원 모델에 따른 스켈레톤 데이터 생성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
US10740940B2 (en) Automatic generation of fundus drawings
US11282601B2 (en) Automatic bounding region annotation for localization of abnormalities
US9886546B2 (en) Methods and apparatus to label radiology images
KR102389998B1 (ko) 비식별 처리 방법 및 이를 실행시키기 위하여 기록매체에 기록된 컴퓨터 프로그램
KR102403169B1 (ko) 이미지 분석을 통한 가이드 제공 방법 및 이를 실행시키기 위하여 기록매체에 기록된 컴퓨터 프로그램
KR102343043B1 (ko) 실시간 작업 변경 사항에 대응하는 어노테이션 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
KR102433002B1 (ko) 다중 바인딩 박스 선택을 통한 어노테이션 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
KR102439429B1 (ko) 객체 추출이 용이한 어노테이션 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
KR102310595B1 (ko) 제안된 정보를 이용하여 객체 속성을 설정할 수 있는 어노테이션 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
KR102310587B1 (ko) 연속된 이미지들에 대한 스켈레톤 데이터 생성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
CN111353325A (zh) 关键点检测模型训练方法及装置
KR102310588B1 (ko) 인공지능 학습을 위한 스켈레톤 데이터 생성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
US20200202578A1 (en) Method and device to control a virtual reality display unit
US20230071291A1 (en) System and method for a precise semantic segmentation
KR102430398B1 (ko) 지점 지정을 통한 어노테이션 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
KR102419219B1 (ko) 어노테이션 작업을 위한 보안 관리 시스템, 보안 관리 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
Herrera et al. Implementation of a Digital Image Processing Algorithm on a Colibri IMX6 Embedded Industrial System for Optical Mark Recognition
KR102417531B1 (ko) 학습 데이터 생성장치 및 그 장치의 구동방법, 그리고 컴퓨터 판독가능 기록매체
KR102449322B1 (ko) 어노테이션 작업에 대한 피드백 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
KR102454538B1 (ko) 인공지능을 이용한 행동 추정 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
KR102480062B1 (ko) 3d 객체 인식 및 가상공간 합성을 통한 학습 데이터 생성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램

Legal Events

Date Code Title Description
GRNT Written decision to grant