KR102112754B1 - 기계학습 기반의 영상 인식 방법 및 기계학습 기반의 영상 인식 시스템 - Google Patents

기계학습 기반의 영상 인식 방법 및 기계학습 기반의 영상 인식 시스템 Download PDF

Info

Publication number
KR102112754B1
KR102112754B1 KR1020180078910A KR20180078910A KR102112754B1 KR 102112754 B1 KR102112754 B1 KR 102112754B1 KR 1020180078910 A KR1020180078910 A KR 1020180078910A KR 20180078910 A KR20180078910 A KR 20180078910A KR 102112754 B1 KR102112754 B1 KR 102112754B1
Authority
KR
South Korea
Prior art keywords
window
background
image recognition
machine learning
image
Prior art date
Application number
KR1020180078910A
Other languages
English (en)
Other versions
KR20200005324A (ko
Inventor
이훈희
정다운
최한림
손승희
류동영
주광혁
Original Assignee
한국항공우주연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국항공우주연구원 filed Critical 한국항공우주연구원
Priority to KR1020180078910A priority Critical patent/KR102112754B1/ko
Publication of KR20200005324A publication Critical patent/KR20200005324A/ko
Application granted granted Critical
Publication of KR102112754B1 publication Critical patent/KR102112754B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

기계학습 기반의 영상 인식 방법 및 기계학습 기반의 영상 인식 시스템이 개시된다. 본 발명의 일실시예에 따른 기계학습 기반의 영상 인식 방법은, 학습용 영상을 처리하여 선정한 배경조각에 관한 데이터를 기계학습 DB에 기록하는 단계와, 입력되는 실제 영상 내에 상기 배경조각이 포함되는지 판단하는 단계, 및 상기 판단 결과 포함되는 경우 상기 기계학습 DB에서 상기 데이터를 검색하고, 검색된 상기 데이터를 이용하여 상기 실제 영상과 관련하여 인식되는 정보를 화면에 출력하는 단계를 포함한다.

Description

기계학습 기반의 영상 인식 방법 및 기계학습 기반의 영상 인식 시스템{METHOD AND SYSTEM FOR RECOGNIZING IMAGES BASED ON MACHINE LEARNING}
본 발명은 기계학습 기반으로 카메라 영상으로부터 객체(Object)와 함께 배경(Background)을 통합적으로 인식하는 기술에 관한 것으로, 학습용 영상에서 객체의 역할을 할 수 있는 유익한 배경조각을 선정해 기계학습 하고 이를 객체와 조합하여, 입력된 실제 영상에 대한 인식 성능을 향상시킬 수 있는 기계학습 기반의 영상 인식 방법 및 기계학습 기반의 영상 인식 시스템에 관한 것이다.
도 1은 종래의 일실시예에 따른 기계학습 시스템에서 영상을 인식하는 일례를 나타내는 도면이다.
도 1을 참조하면, 종래의 일실시예에 따른 기계학습 시스템(100)은 기계학습을 위해 사용되는 학습용 영상을 처리하는 메커니즘이 주로 사람이 정의하는 객체(Object) 중심적이었다.
예를 들어, 기계학습 시스템(100)은 학습용 영상 내의 자전거, 비행기, 사람 등과 같은 특정화된 객체 이외의 것을 전부 배경으로 간주하여 분할하거나 제거해야 할 대상으로 연구가 되어 왔다.
예를 들어, 임의의 지역을 원거리에서 촬영한 영상에서, 기계학습 시스템(100)은 해당 영상을 '집'과 '도로' '숲' 등으로 분할할 수는 있지만, '집'이 아닌 '도로'와 '숲'과 같은 배경에서 단일 객체 역할을 할 수 있는 요소를 특정해서 학습할 수는 없었다.
또한 영상 속 객체의 그림자 역시 배경으로 간주되었으며 배경을 구분하거나 인식하기 위한 처리는 오히려 성능을 저하시키는 원인이 되었다.
종래의 기계학습 시스템(100)은 분류 기술, 위치 찾기 기술, 다중 감지 기술, 분할 기술, 정합 기술 등에 다양하게 응용되고 있다. 예를 들어, 분류 기술은 객체인 '고양이'가 있는 영상을 분류하는 기술이고, 위치 찾기 기술은 영상 속 객체 '고양이'의 위치를 특정하는 기술이고, 다중 감지 기술은 영상 속 '고양이', '오리', '개'와 같은 다양한 객체를 동시에 인식하는 기술이고, 분할 기술은 영상 내에서 각 영상 내에서 객체의 모양을 결정해 분할, 분리해 내는 기술을 지칭할 수 있다.
따라서 상술의 기계학습 시스템(100)을 이용한 다양한 시스템에서는, 입력된 영상에서 객체를 추출해 내지 못할 경우 매우 불안정한 상태에 놓이게 될 수 있다.
이에 따라, 기존의 객체 중심적 기계학습 시스템(100)에 의해 객체로 정의할 수 없는 형태가 영상 속에서 감지된다면 이를 객체 역할이 가능한 배경조각으로서 이용하여 영상에서 정보를 인식할 수 있도록 기술이 요구되고 있다.
본 발명의 실시예는 학습용 영상에서 객체(Object)를 제외한 배경의 일부(이하, '배경조각')를 의미 있는 객체로서 추출하여, 기존의 객체 중심의 기계학습에서 배경을 인식 못하는 문제를 해결하고, 객체와 배경조각과의 조합에 의해 인식 성능을 향상시키는 것을 목적으로 한다.
또한, 본 발명의 실시예는 객체와 배경조각들 간의 관계 정보를 이용하여 각 객체의 위치를 보다 정확하게 계산하고 이를 바탕으로 카메라의 움직임 정보를 취득하는 것을 목적으로 한다.
본 발명의 일실시예에 따른 기계학습 기반의 영상 인식 방법은, 학습용 영상을 처리하여 선정한 배경조각에 관한 데이터를 기계학습 DB에 기록하는 단계와, 입력되는 실제 영상 내에 상기 배경조각이 포함되는지 판단하는 단계, 및 상기 판단 결과 포함되는 경우 상기 기계학습 DB에서 상기 데이터를 검색하고, 검색된 상기 데이터를 이용하여 상기 실제 영상과 관련하여 인식되는 정보를 화면에 출력하는 단계를 포함한다.
또한, 본 발명의 일실시예에 따른 기계학습 기반의 영상 인식 시스템은, 학습용 영상을 처리하여 선정한 배경조각에 관한 데이터를, 기계학습 DB에 기록하는 학습 처리부, 및 입력되는 실제 영상 내에, 상기 배경조각이 포함되는지 판단하고, 상기 판단 결과 포함되는 경우, 상기 기계학습 DB에서 상기 데이터를 검색하고, 검색된 상기 데이터를 이용하여, 상기 실제 영상과 관련하여 인식되는 정보를 화면에 출력하는 인식 처리부를 포함한다.
본 발명의 일실시예에 따르면, 학습용 영상에서 객체를 제외한 배경의 일부(이하, '배경조각')를 의미 있는 객체로서 추출하여, 기존의 객체 중심의 기계학습에서 배경을 인식 못하는 문제를 해결하고, 객체와 배경조각과의 조합에 의해 인식 성능과 정확도를 높일 수 있다.
본 발명의 일실시예에 따르면, 입력된 실제 영상에서 객체가 추출되지 않는 경우에도, 학습된 배경조각을 이용해 위치, 방향 등의 항법 정보를 인식할 수 있는 환경을 제공할 수 있다.
본 발명의 일실시예에 따르면, 객체와 배경조각들 간의 관계 정보를 이용하여 각 객체의 위치를 보다 정확하게 계산하고 이를 바탕으로 카메라의 움직임 정보를 취득할 수 있다.
본 발명의 일실시예에 따르면, 수치 지형 정보를 참조하는 시스템, 영상에서 정합 기준점을 찾는 시스템, 영상에서 항법 정보를 추출하는 시스템, 및 기계학습 기반의 응용제품 등에 적용 가능한 통합 인식 시스템을 제공할 수 있다.
도 1은 종래의 일실시예에 따른 기계학습 시스템에서 영상을 인식하는 일례를 나타내는 도면이다.
도 2는 본 발명의 일실시예에 따른 기계학습 기반의 영상 인식 시스템의 구성을 도시한 블록도이다.
도 3a은 본 발명의 일실시예에 따른 영상 인식 시스템에서, 학습용 영상에서 추출하려는 윈도우 영역의 구성을 도시한 도면이다.
도 3b는 본 발명의 일실시예에 따른 영상 인식 시스템에서, 학습용 영상에서 복수의 윈도우 영역을 추출하는 일례를 도시한 도면이다.
도 4는 본 발명의 일실시예에 따른 영상 인식 시스템에서, 학습용 영상을 이용하여 배경조각을 기계학습하는 과정을 도시한 도면이다.
도 5는 본 발명의 일실시예에 따른 영상 인식 시스템에서, 실제 영상으로부터 배경조각을 인식하여 정보를 출력하는 과정을 도시한 도면이다.
도 6은 본 발명의 일실시예에 따른 영상 인식 시스템에서, 복수의 윈도우 영역을 순차적으로 추출하는 과정을 나타낸 도면이다.
도 7a, 7b는 본 발명의 일실시예에 따른 영상 인식 시스템에서, 배경 영역을 복수의 격자로 분할하여 윈도우 영역을 추출하는 일례를 도시한 도면이다.
도 8은 본 발명의 일실시예에 따른 영상 인식 시스템에서, 학습용 영상에서 배경조각을 선정하여 기계학습 DB를 구축하는 과정을 도시한 도면이다.
도 9는 본 발명의 일실시예에 따른 기계학습 기반의 영상 인식 방법의 순서를 도시한 흐름도이다.
이하, 첨부된 도면들을 참조하여 본 발명의 일실시예에 따른 기계학습 기반의 영상 인식 방법 및 영상 인식 시스템에 대해 상세히 설명한다. 그러나, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
도 2는 본 발명의 일실시예에 따른 기계학습 기반의 영상 인식 시스템의 구성을 도시한 블록도이다.
도 2를 참조하면, 본 발명의 일실시예에 따른 영상 인식 시스템(200)은, 학습 처리부(210), 기계학습 DB(220) 및 인식 처리부(230)를 포함하여 구성할 수 있다.
학습 처리부(210)는 학습용 영상을 처리하여 선정한 배경조각에 관한 데이터를, 기계학습 DB(220)에 기록한다.
즉, 학습 처리부(210)는 기계학습 과정에서 입력되는 학습용 영상 속 배경 영역의 일부를, 객체(Object)의 역할이 가능한 '배경조각'으로서 선정할 수 있다.
여기서 배경 영역은 학습용 영상에서 자전거, 사람, 돌고래, 자동차, 비행기, 집 등과 같은 특정화된 객체를 제외한 전 영역을 지칭할 수 있으며, 학습 처리부(210)는 학습용 영상에서 객체의 추출과 함께 혹은 학습용 영상에서 추출되는 객체가 없더라도, 배경조각의 선정을 수행할 수 있다.
구체적으로, 학습 처리부(210)는 학습용 영상의 배경 영역에서 배경조각의 후보가 되는 적어도 하나의 윈도우(window) 영역을 추출하고, 추출된 윈도우 영역 중에서 인식 성능이 높게 산출되는 윈도우 영역을, 객체의 역할이 가능한 배경조각으로 선정할 수 있다.
예를 들어, 도 3a 및 도 3b를 참조하면, 학습 처리부(210)는 도 3b에 도시한 학습용 영상(320)으로부터, 도 3a에 도시한 복수의 파라미터를 가지는 사각형 형태의 윈도우 영역(Window 1, Window 2, Window 3, Window 4)(310)을 추출할 수 있다.
이때, 학습 처리부(210)는 음영, 해상도, 밝기, 색상, 위치 및 방향 중 적어도 하나의 설정된 촬영 조건에 따라, 대량의 학습용 영상(320)을 실데이터에서 찾거나, 가상으로 합성한 학습용 영상(320)을 준비할 수 있다.
복수의 파라미터는 윈도우 영역(310)의 가로 크기와, 세로 크기, 수평 움직임 폭, 수직 움직임 폭, 중심점 위치, 회전각 및 다른 윈도우 영역 간의 관계 정보(예를 들면 거리, 간격) 중 적어도 하나일 수 있다.
각 파라미터의 값은 사전에 설정될 수 있으나, 각 윈도우 영역(310)을 추출하는 과정에서 변경될 수 있다.
예를 들어, 도 6의 학습용 영상(630, 640)을 참조하면, 학습 처리부(210)는 학습용 영상(630)에서 설정한 4개의 윈도우 영역(Window 1, Window 2, Window 3, Window 4) 간의 관계 정보(예를 들어, 거리, 간격, 방향 등)에 따라 중심점 위치를 조정하여 윈도우 영역의 분포를 설정하고, 윈도우 영역 각각의 파라미터를 조정하여, 학습용 영상(640)에서와 같이 윈도우 영역의 크기를 변경할 수 있다.
또한 상기 윈도우 영역의 형태는 사각형으로 한정되지 않고 삼각형이나 원형 등 어떠한 모양이든 가능하지만, 본 명세서에서는 파라미터의 조정을 통한 윈도우 영역의 제어가 용이하도록 사각형의 윈도우 영역을 추출하는 것을 예시한다.
학습 처리부(210)는 학습용 영상의 배경 영역의 일부 또는 전 영역에서 배경조각을 선정할 수 있으며, 전 영역에서 객체 역할이 가능한 배경조각을 선정하게 될 경우 학습용 영상('달 표면')의 객체 지도를 자동으로 생성할 수 있다.
학습 처리부(210)는 다양한 방식으로 학습용 영상의 배경 영역에서 윈도우 영역을 추출할 수 있다.
일례로, 학습 처리부(210)는 상기 배경 영역을 격자 구조로 분할하고, 격자 구조로 분할한 배경 영역 중에서 추출할 n개의 윈도우 영역에 대한 상기 파라미터를 설정할 수 있다.
예를 들어, 도 7a를 참조하면, 학습 처리부(210)는 배경 영역을, 배경 영역 전체(격자 1)와, 배경 영역을 4등분한 영역(격자 2 내지 격자 5)을 포함해, 5개 영역의 격자로 분할할 수 있다.
학습 처리부(210)는 배경 영역으로부터 정해진 개수(n)의 윈도우 영역을 추출할 수 있다.
도 7b를 참조하면, 학습 처리부(210)는 격자 구조의 배경 영역에서 추출하려는 총 4개의 윈도우 영역의 중심점 위치와 가로 세로 크기를 설정하여, 예컨대 격자 1에서 윈도우 영역(Window 1, Window 2)을 추출하고, 격자 5에서 윈도우 영역(Window 3, Window 4)을 추출할 수 있다.
다른 일례로, 학습 처리부(210)는 배경 영역을 방향에 따라 동부, 서부, 남부, 북부와 같은 복수의 지역으로 나누고 각 지역을 크기에 따라 다시 세부 구역으로 분할하여 추출할 수도 있다.
또한, 학습 처리부(210)는 앞서 추출한 윈도우 영역을 이용하여, 다른 윈도우 영역과의 위치 관계 또는 거리 관계에 따라 나머지 윈도우 영역을 추출할 수도 있다.
구체적으로, 도 6을 참조하면, 학습 처리부(210)는 학습용 영상(610 내지 640) 속 배경 영역 내 임의의 영역을 제1 윈도우 영역(Window 2)으로서 추출하고, 상기 제1 윈도우 영역에 대한 중심점에서 반경 m 이내의 원(C2) 상에 위치하는 제2 윈도우 영역(Window 1)을 추출하고, 상기 제1 및 제2 윈도우 영역의 중심점을 이은 선(L1)으로부터 일정 거리 이내에 위치하는 제3 윈도우 영역(Window 4, Window 3)을 추출할 수 있다.
학습 처리부(210)는 추출된 n개의 윈도우 영역 중에서 상기 배경조각을 선정할 수 있다. 일례로, 학습 처리부(210)는 학습용 영상 내 배경 영역을 적어도 포함하여, 윈도우 영역을 추출하고, 상기 윈도우 영역의 추출 개수가, 사용자가 정한 m(상기 m은 1 이상의 자연수)에 도달하면, 추출된 m개의 윈도우 영역 각각을, 상기 배경조각으로 선정할 수 있다.
즉, 학습 처리부(210)는 도 4에 도시된 것처럼 학습용 영상의 배경 영역에서 정해진 m(m=4)개의 윈도우 영역이 모두 선택되면 각 윈도우 영역을 배경조각으로 선정할 수 있다.
구체적으로, 학습 처리부(210)는 상기 추출된 n개의 윈도우 영역 각각에 대해, 콘볼루셔널 인공신경망 기반의 인공신경망 계층의 중간 혹은 말단에서 계산된 중심점 위치 오차, 중심점 기준으로 한 윈도우 영역의 회전각 오차, 실제 촬영 지역 식별 유무 및 가로 크기 오차 및 세로 크기 오차, 윈도우 영역 간의 거리 오차 중 적어도 하나를 조합하여, 학습에 사용된 윈도우 영역을 제외한 다른 윈도우 영역을 사용하여 성능을 산출하고, 상기 성능이 최소 기준값을 만족하지 않은 윈도우 영역을 삭제하고, 삭제한 개수 만큼, 상기 윈도우 영역을 추가로 추출하고, 상기 추가 추출된 윈도우 영역에 대해 성능을 산출하는 과정을 반복할 수 있다.
여기서, 상기 성능은 불특정 윈도우 영역에 관한 감지율과, 추출된 윈도우 영역을 이용한 위치 식별의 정확도 중 적어도 하나를 포함할 수 있다.
특히, 정확도는 감지된 윈도우 영역이 배경 내에 객체로서 식별 역할을 할 수 있는지를 나타내는 것으로, 종래의 일반 객체 추출 시 정확도를 판단하는 데 적용하는 최소 기준값 이상의 값으로 설정될 수 있다. 즉 학습 처리부(210)는 일반 객체 수준의 정확도를 가지는 윈도우 영역을, 배경조각으로 선정할 수 있다.
학습 처리부(210)는 산출된 성능이 최소 기준값을 만족하지 않은 윈도우 영역을 삭제하여, 배경조각의 후보에서 제외할 수 있다. 또한, 학습 처리부(210)는 삭제한 개수 만큼, 상기 윈도우 영역을 추가로 추출하고, 상기 추가 추출된 윈도우 영역에 대해, 성능을 산출할 수 있다.
실시예에 따라, 학습 처리부(210)는 학습용 영상과 별도로 마련된 검증용 데이터를 이용하여, 상기 n개의 윈도우 영역 별 성능을 오름차순으로 정렬한 후 상기 성능이 상위인 윈도우 영역을 상기 배경조각으로서 재선정할 수도 있다.
이때, 학습 처리부(210)는 상기 학습용 영상에 대한 상기 성능을 고려하여 상기 m을 조정할 수 있다.
예를 들어, 학습 처리부(210)는 상기 학습용 영상에서 추출한 m개의 윈도우 영역 각각의 성능에 대한 평균치를 상기 학습용 영상의 평균 성능으로서 간주하고, 상기 성능이 최소기준값 보다 높으면 m을 높이는 조정을 하여 최소 기준값 보다 다소 성능이 낮은 윈도우를 더 채택할 수 있다.
학습 처리부(210)는 m개의 윈도우 영역이 배경조각으로 선정되면, 고유ID 및 명칭 중 적어도 하나를 각 윈도우 영역에 부여할 수 있다.
예를 들어, 학습 처리부(210)는 중심점 위치와 가로 크기, 세로 크기, 방향을 참조하여, 윈도우 영역(Window 1)에 명칭 '북부지역 B구역'을 부여하고, 윈도우 영역(Window 2)에 명칭 '동부지역 D구역'을 부여하고, 윈도우 영역(Window 3)에 명칭 '남부지역 A구역'을 부여하고, 윈도우 영역(Window 4)에 명칭 '서부지역 C구역'을 부여할 수 있다.
학습 처리부(210)는 배경조각으로 선정된 윈도우 영역에 부여되는 고유ID, 명칭, 중심점 위치, 가로 크기, 세로 크기, 윈도우 영역의 회전각도 및 성능(감지율, 정확도) 중 적어도 하나를 포함하는 데이터를, 기계학습 DB(220)에 기록할 수 있다.
기계학습 DB(220)는 학습용 영상을 처리하여 감지하고 식별된 객체, 선정된 배경조각 및 이 객체와 배경조각을 학습한 결과인 인공신경망 계수(가중치, 바이어스 등)와 계층 구조에 관한 데이터를 기록, 유지한다.
일례로, 기계학습 DB(220)는 추출된 객체의 크기, 모양, 영상 속 위치, 방향, 다른 객체와의 관계 중 적어도 하나의 객체데이터를 해당 객체와 연관시켜 기록할 수 있다.
또한, 기계학습 DB(220)는 선정된 배경조각의 파라미터, 고유ID, 명칭, 객체 또는 다른 배경조각과의 관계 중 적어도 하나의 데이터를 해당 배경조각과 연관시켜 기록할 수 있다.
인식 처리부(230)는 입력되는 실제 영상 내에, 상기 배경조각이 포함되는지 판단한다.
인식 처리부(230)는 기계학습 DB(220)으로부터 학습된 인공신경망 계수와 계층 구조를 이용하여 상기 판단 결과 포함되는지 여부를 계산한다. 상기 배경조각에 대응되는 상기 데이터를 검색하고, 검색된 상기 데이터를 이용하여, 상기 실제 영상과 관련한 인식 정보를 화면에 출력한다.
예를 들어, 도 5를 참조하면, 인식 처리부(230)는 입력되는 실제 영상(510)에서 배경조각의 유무를 판단하고, 실제 영상(510) 내에 배경조각이 존재하면, 해당 배경조각에 대응하여 기록된 데이터(520)를 기계학습 DB(220)에서 검색하여 화면에 출력할 수 있다.
이를 통해, 인식 처리부(230)는 입력된 실제 영상에서 객체가 식별되지 않는 경우에도, 학습된 배경조각을 이용해 위치, 방향 등의 항법 정보를 인식할 수 있다.
또한, 인식 처리부(230)는 상기 배경조각과 연관된 위치, 크기, 회전각도 및 중심점 위치 중 적어도 하나의 데이터에 기초하여, 상기 실제 영상으로부터 인식되는 촬영 카메라 또는 객체의 움직임에 관한 인식 정보를 작성해 출력할 수 있다.
즉, 인식 처리부(230)는 객체와 배경조각들 간의 관계 정보를 이용하여 각 객체의 위치를 보다 정확하게 계산하고 이를 바탕으로 카메라의 움직임 정보를 취득할 수 있다.
다른 일례로, 인식 처리부(230)는 실제 영상에서 객체가 식별되는 경우, 기계학습 DB(220) 내의 객체에 관해 기록된 객체데이터를, 배경조각에 관한 데이터와 조합하여, 상기 인식 정보를 작성해 출력할 수 있다.
예를 들어, 인식 처리부(230)는 기계학습 DB(220) 내의 객체를 학습한 인공신경망 계수 및 구조를 이용하여 배경조각을 재학습(Transfer Learning)할 수 있다. 결국, 배경조각에 관한 데이터를 객체('비행기')에 관한 객체데이터와 조합하여, 실제 영상과 관련하여 인식되는 정보(520)로서 화면에 출력할 수도 있다.
이와 같이, 인식 처리부(230)는 학습용 영상에서 객체를 제외한 배경의 일부(이하, '배경조각')를 의미 있는 객체로서 추출하여, 기존의 객체 중심의 기계학습에서 배경을 인식 못하는 문제를 해결하고, 객체와 배경조각과의 조합에 의해 인식 성능과 정확도를 높일 수 있다.
도 3a은 본 발명의 일실시예에 따른 영상 인식 시스템에서, 학습용 영상에서 추출하려는 윈도우 영역의 구성을 도시한 도면이고, 도 3b는 학습용 영상에서 복수의 윈도우 영역을 추출하는 일례를 도시한 도면이다.
도 3a 및 도 3b를 참조하면, 본 발명의 일실시예에 따른 영상 인식 시스템은, 학습용 영상(320)의 배경 영역으로부터 도 3a에 도시한 복수의 파라미터를 가지는 사각형 형태의 윈도우 영역(Window 1, Window 2, Window 3, Window 4)(310)을 추출할 수 있다.
여기서 윈도우 영역(310)은 사각형으로 한정되지 않고 삼각형이나 원형 등 어떠한 모양이든 가능하며, 복수의 파라미터는 중심점 위치, 중심점 기준으로 한 윈도우 영역의 회전각, 가로 크기 및 세로 크기, 윈도우 영역 간 거리 중 적어도 하나일 수 있다.
도 4는 본 발명의 일실시예에 따른 영상 인식 시스템에서, 학습용 영상을 이용하여 배경조각을 기계학습하는 과정을 도시한 도면이다.
도 4에는 본 발명의 일실시예에 따른 기계학습 기반의 영상 인식 시스템 내 학습 처리부(400)에서, 학습용 영상을 처리하여 선정한 배경조각에 관한 데이터를, 기계학습 DB에 기록하는 구체적인 과정을 설명하고 있다.
일례로, 학습 처리부(400)는 기계학습을 위해 입력된 학습용 영상(도 3b의 320 참조)으로부터, 배경조각의 후보가 되는 윈도우 영역의 위치 및 사이즈를 선정하여 정해진 개수의 윈도우 영역을 추출할 수 있다.
구체적으로, 학습 처리부(400)는 기계학습을 위한 학습용 영상에서 윈도우 영역의 크기와 위치, 개수를 선정한다. 윈도우 영역을 구성하기 위해 앞서 설명한 윈도우 영역의 설정 가능한 파라미터를 이용하는데 만약 학습 시간과 학습 시스템의 컴퓨팅 성능이 떨어지는 경우 무작위로 파라미터의 값을 결정하여 윈도우 영역을 구성할 수 있다.
이때 가장 좋은 것은 영상의 모든 영역에 대해서 최대한 많은 개수의 다양한 조합으로 생성된 데이터를 이용하는 것이다. 특히 달 표면과 같이 대기가 없는 곳은 태양의 조명 조건 만이 유일한 변수이므로 이러한 정적 환경에서 학습 처리부(400)는 한번에 객체 역할이 가능한 최대의 배경 조각을 찾아내 달 표면 전체 영역의 객체 지도를 자동으로 생성할 수 있다.
또한, 학습 처리부(400)는 기존의 기계학습 방식과 위치, 방향 및 크기에 기초하여 추출된 윈도우 영역의 인식의 정확도를 산출하기 위한 판별 네트워크를 구성할 수 있다.
학습 처리부(400)는 윈도우 영역의 파라미터 구성에 따라 생성된 데이터를 기존의 기계학습 방법(예, 영상의 경우 CNN)을 이용하여 학습을 시키되, 객체 역할을 할 수 있는지 판별하기 위해 위치, 방향, 크기, mAP 등에 기초해 정확도를 산출하는 판별 네트워크(산출식)를 말단에 부착할 수 있다.
여기서 산출식은 기존의 YOLO, SSD, Faster RCNN 등을 사용하여도 무방하며, 학습 처리부(400)는 감지(추출)된 윈도우 영역의 개수, 윈도우 영역 별 위치와 방향, 크기를 사용하여 정확도를 산출할 수도 있다.
또한, 학습 처리부(400)는 산출된 정확도에 따라 윈도우 영역을 오름차순으로 정렬하고, 최소 기준값 이상의 상위의 정확도를 가지는 윈도우 영역을 배경조각으로 선정할 수 있다.
이때 학습 처리부(400)는 학습용과는 별도로 분류된 검증용 데이터를 이용하여 산출된 윈도우 영역 별 정확도를 오름차순으로 정렬할 수 있다.
학습 처리부(400)는 윈도우 영역 별 정확도가 최소 기준값을 상회하면 객체 역할을 할 수 있는 배경조각으로 간주(선정)하고, 배경조각으로 선정된 윈도우 영역에 대해 식별할 수 있는 명칭이나 고유ID를 부여할 수 있다.
여기서 학습 처리부(400)는 기존의 객체 중심 기계학습 시스템에서 학습용 영상으로부터 추출한 객체(예를 들어 "비행기")의 정확도 판별 시 적용되는 기준 정확도와 동일한 값을 최소 기준값으로 사용 함으로써, 학습용 영상에서 객체와 배경조각을 같은 수준으로 취급 가능하도록 할 수 있다.
이후, 학습 처리부(400)는 배경조각으로 선정된 윈도우 영역 각각에 대해 명칭 또는 고유ID를 부여하여, 기계학습 DB에 기록할 수 있다.
예를 들어, 학습 처리부(400)는 윈도우 영역(Window 1)에 명칭 '북부지역 B구역'을 부여하고, 윈도우 영역(Window 2)에 명칭 '동부지역 D구역'을 부여하고, 윈도우 영역(Window 3)에 명칭 '남부지역 A구역'을 부여하고, 윈도우 영역(Window 4)에 명칭 '서부지역 C구역'을 부여할 수 있다.
도 5는 본 발명의 일실시예에 따른 영상 인식 시스템에서, 실제 영상으로부터 배경조각을 인식하여 정보를 출력하는 과정을 도시한 도면이다.
도 5에는, 본 발명의 일실시예에 따른 기계학습 기반의 영상 인식 시스템 내 인식 처리부(500)에서, 입력되는 실제 영상(510)에서 인식되는 정보(520)를 화면에 출력하는 구체적인 과정이 도시되어 있다.
여기서, 인식 처리부(500)는 전이 학습(Transfer Learning)된 기계학습 시스템을 이용하여, 배경조각의 위치와 방향, 크기, 인식평가에 근거해, 입력되는 실제 영상(510)으로부터 인식되는, 실제 촬영 지역과 촬영 카메라의 움직임 혹은 객체의 움직임을 포함한 다양한 정보(520)를 작성해 출력할 수 있다.
인식 처리부(500)는 실제 영상(510)이 입력되면, 일반적인 객체("비행기")와 배경조각을 분류하여 실제 영상(510) 속에서 정보(520)를 인식해 출력할 수 있다. 여기서 정보(520)는 객체와 배경조각 자체일 수 있고, 기계학습 과정에서 객체와 배경조각에 관해 기록된 데이터(명칭이나 고유ID 등)를 조합한 정보일 수 있다.
다른 일례로, 인식 처리부(500)는 비행기, 우주선, 차량 등을 학습시킨 종래의 시스템에 앞서 선정된 구역 4개를 추가로 전이학습시키거나 혹은 처음부터 같이 학습시킬 수 있으며, 학습 후에 객체("비행기")를 영상(510) 위에 등장시키면 주변 구역의 위치와 이름을 인식 결과(520)로서 화면에 출력할 수 있다.
도 6은 본 발명의 일실시예에 따른 영상 인식 시스템에서, 복수의 윈도우 영역을 순차적으로 추출하는 과정을 나타낸 도면이다.
도 6을 참조하면, 영상 인식 시스템은 객체가 감지되지 않는 학습용 영상(610 내지 640)의 경우, 배경 영역에서 객체의 역할이 가능한 복수의 윈도우 영역을 추출할 수 있다.
이때, 영상 인식 시스템은 앞서 추출한 윈도우 영역을 이용하여, 다른 윈도우 영역과의 위치 관계 또는 거리 관계에 따라 나머지 윈도우 영역을 순차적으로 추출할 수 있다.
즉, 영상 인식 시스템은 기계학습 과정에서 이미 배경 영역인 '달 표면'의 크레이터의 중심점과 윈도우 영역과의 관계를 알고 있으므로, 실제 영상에서 다수의 윈도우 영역의 사이즈와 크기, 방향 위치 관계 거리를 고려해서 윈도우 영역을 순차적으로 감지해 나갈 수 있다.
구체적으로, 영상 인식 시스템은 배경 영역인 '달 표면'에서 크레이터를 객체로 간주해 배경조각으로 선정하기 위해, 배경 영역에서 음영이나 무늬, 색상이 상이한 부분을 윈도우 영역('Window 1')으로 감지할 수 있다.
또한 영상 인식 시스템은 하나의 윈도우 영역('Window 2')이 감지되면, 감지된 'Window 2'의 중심점으로부터 일정 거리 이내의 원('C1') 주위에 크레이터 중심이 존재하고, 다시 일정 거리 이내의 원('C2') 주위에서 두 번째 윈도우 영역('윈도우 1')를 감지할 수 있다.
또한 영상 인식 시스템은 감지된 2개의 윈도우 영역('Window 2', 'Window 1')의 중심점을 이은 선('L1')으로부터 크레이터 중심점 및 다른 윈도우 영역('윈도우 3', '윈도우 4')의 위치를 찾을 수 있다.
영상 인식 시스템은 정해진 개수('4개')의 윈도우 영역이 모두 감지되면, Triangulation과 Bundle Adjustment를 이용하여 실제 영상을 촬영하고 있는 카메라의 움직임 정보를 얻을 수 있다.
또한 영상 인식 시스템은 파라미터 값 조정을 통해 각 윈도우 영역의 크기를 변경(보정)하고, 윈도우 영역의 크기가 변경되면, 각 윈도우 영역의 크기 변경 변화를 통해서도 해당 영상을 촬영하는 카메라의 움직임 정보를 얻을 수 있다.
영상 인식 시스템은 각 윈도우 영역을 배경조각으로 선정하여 명칭과 고유ID를 부여하고, 이를 카메라의 움직임 정보와 함께 기계학습 DB에 기록할 수 있다.
이를 통해 영상 인식 시스템은 종래 시스템과 비교하여 객체의 위치 식별 정확도를 향상시킬 수 있으며, 객체가 감지되지 않는 경우에도 항법 정보 및 카메라의 움직임 정보를 용이하게 획득할 수 있다.
도 7a, 7b는 본 발명의 일실시예에 따른 영상 인식 시스템에서, 배경 영역을 복수의 격자로 분할하여 윈도우 영역을 추출하는 일례를 도시한 도면이다.
도 7a 및 도 7b를 참조하면, 본 발명의 일실시예에 따른 영상 인식 시스템은, 학습용 영상의 배경 영역을 p개(상기 p는 1 이상의 자연수, 예를 들어, p=5) 영역의 격자로 분할하고, 상기 p개 영역의 격자에서의 중심점 위치와, 가로 크기 및 세로 크기를 설정하여 윈도우 영역을 추출할 수 있다.
예를 들어, 영상 인식 시스템은 도 7a에 도시된 것처럼 학습용 영상의 배경 영역을, 배경 영역 전체(격자 1)와, 배경 영역을 4등분한 영역(격자 2 내지 격자 5)을 포함해, 5개 영역의 격자로 분할할 수 있다.
또한, 영상 인식 시스템은 도 7b에 도시된 것처럼 격자 각각에서 추출하려는 윈도우 영역의 중심점 위치와 가로 세로 크기를 설정하여, 예컨대 격자 1에서 윈도우 영역(Window 1, Window 2)을 추출하고, 격자 5에서 윈도우 영역(Window 3, Window 4)을 추출할 수 있다.
다른 일례로, 영상 인식 시스템은 배경 영역을 3개 영역의 격자로 분할한 경우, 격자 1에서 2개 윈도우 영역의 중심점 위치를 설정하고, 격자 2에서 1개 윈도우 영역의 중심점 위치를 설정하고, 격자 3에서 중심점 위치를 설정하지 않으면, 윈도우 영역의 총 추출 개수는 격자 별로 합산하면 '3'이 될 수 있다.
도 8은 본 발명의 다른 실시예에 따른 영상 인식 시스템의 구성을 도시한 도면이다.
도 8을 참조하면, 본 발명의 일실시예에 따른 영상 인식 시스템(800)은, 학습 처리부(810)와, 인식 처리부(820) 및 기계학습 DB(830)를 포함하여 구성할 수 있다.
학습 처리부(810)는 학습용 영상 내 배경 영역을 적어도 포함하여, n(상기 n은 1 이상의 자연수)개의 윈도우 영역을 추출하고, n개의 윈도우 영역 각각에 대해 산출된 성능을 고려하여 선택한 후보 영역의 개수가, 사용자가 정한 m(상기 m은 1 이상의 자연수)개에 도달하면, 상기 m개의 후보 영역 각각을, 상기 배경조각으로서 선정하여 기계학습 DB(830)에 유지할 수 있다.
일례로, 학습 처리부(810)는 n개의 윈도우 영역 각각에 대해, 콘볼루셔널 인공신경망(도 8의 '인공신경망 A') 기반의 인공신경망 계층의 중간 혹은 말단에서 계산된 중심점 위치 오차, 중심점 기준으로 한 윈도우 영역의 회전각 오차, 실제 촬영 지역 식별 유무, 가로 크기 오차와 세로 크기 오차 및 윈도우 영역 간의 거리 오차 중 적어도 하나를 조합하여, 상기 성능을 산출할 수 있다.
또한, 학습 처리부(810)는 n개의 윈도우 영역 중에서 상기 성능이 최소 기준값을 만족하는 윈도우 영역을, 후보 영역으로 선택할 수 있다.
또한, 학습 처리부(810)는 n개의 윈도우 영역을 상기 성능에 따라 오름차순으로 정렬했을 때 최소 기준값 이상이면서 상위에 정렬되는 윈도우 영역을, 상기 후보 영역으로 선택할 수도 있다.
예를 들어, 학습 처리부(810)는 n이 '10'이고, m이 '3'으로 설정된 경우, 격자 구조로 분할한 배경 영역에서 격자를 하나의 윈도우 영역으로 하여 10개의 윈도우 영역을 순차적으로 추출할 수도 있고, 배경 영역에서 위치를 지정하지 않고 10개의 윈도우 영역을 랜덤하게 추출할 수도 있다.
학습 처리부(810)는 추출한 10개의 윈도우 영역에 대한 성능(정확도, 감지율 포함)을 산출하고, 산출한 성능이 최소기준값('c') 이상인 6개의 윈도우 영역을 모두 후보 영역으로 선택할 수도 있고, 또는 산출한 성능에 따라 10개의 윈도우 영역을 오름차순으로 정렬했을 때 상위 3개의 윈도우 영역을, 후보 영역으로 선택할 수 있다. 선택된 후보 영역의 개수가 미리 정해진 m개('3개')에 도달 함에 따라, 학습 처리부(810)는 성능이 우수한 m개('3개')의 후보 영역을 배경조각으로 선정할 수 있다.
이때, 상기 후보 영역의 개수가 상기 m개에 도달하지 않으면, 학습 처리부(810)는 상기 성능이 최소 기준값을 만족하지 않은 윈도우 영역을 삭제하고, 삭제한 개수 만큼, 상기 윈도우 영역을 추가로 추출하여, 추가 추출된 윈도우 영역에 대해 성능을 산출할 수 있다.
학습 처리부(810)는 상기 m개의 후보 영역 각각의 성능을 평균한 값이, 최소 기준값 보다 임계치 이상 크면, 상기 m을 증가시키는 조정을 할 수 있다.
다시 말해, 학습 처리부(810)는 배경조각으로 선정된 각 후보 영역의 성능 평균치가 최소 기준값 보다 월등하게 큰 경우에는, 배경조각으로 선정되지 않은 나머지 후보 영역 중에서 배경조각을 추가로 선정할 수 있도록 상기 m을 증가시킬 수 있다.
학습 처리부(810)는 상기 증가된 m에 도달할 때까지, 상기 n개의 윈도우 영역을 상기 성능에 따라 오름차순으로 정렬했을 때 상위에 정렬되는 윈도우 영역 중에서 순서대로 상기 후보 영역을 추가로 선택하고, 추가로 선택한 후보 영역을, 배경조각으로서 더 선정할 수 있다.
학습 처리부(810)는 기계학습 DB(820) 내 객체에 관해 산출된 성능을 고려하여 상기 최소 기준값을 결정하고, 상기 배경조각을 기계학습 DB(820)에 기록 시, 상기 배경조각에 관해 산출된 성능을 더 고려하여, 상기 최소 기준값을 조정할 수 있다.
다시 말해, 최소 기준값은, 기존의 일반적인 기계학습을 통해 학습되어 기계학습 DB(820)에 유지된 객체들의 성능을 이용하여 결정될 수 있으며 이를 통해 객체와 동급의 성능(정확도와 감지율)을 가지는 후보 영역이, 배경조각으로서 선정되도록 할 수 있다.
기계학습 DB(830)에 기록된 배경조각은, 전이 기계학습을 통해 인공신경망(도 8의 '인공신경망 B')에 학습될 수 있으며, 학습 처리부(810)는 기존의 기계학습을 통해 상기 인공신경망에 학습된 객체와, 상기 배경조각에 대한 성능을 산출하고, 객체 및 배경조각의 성능에 대한 평균치 혹은 최소값을 이용하여 상기 최소 기준값을 피드백 조정할 수 있다.
이를 통해, 학습 처리부(810)는 최소한 이미 선정된 객체와 배경조각의 성능을 유지할 수 있으며, 반복적인 기계학습을 통해 배경조각으로 선정되는 윈도우 영역들의 성능 평균치를 높일 수 있어, 장기적으로 영상 인식과 정확도를 높일 수 있다.
학습 처리부(810)는 학습용 영상에 대한 상기 성능을 인식하고, 상기 인식된 성능을 고려하여 상기 m과 상기 n을 조정할 수 있다.
이를 통해, 학습 처리부(810)는 촬영 지역, 기상 환경, 시간대 등에 따라 해상도와 명암이 다른 학습용 영상 각각에 대해, 배경조각 선정을 위한 최적화된 m과 n을 결정하도록 할 수 있다.
인식 처리부(820)는 실제 영상이 입력되면, 기계학습 DB(830)에 기록된 객체 및 배경조각을 이용하여 정보를 인식하는 기능을 할 수 있다.
이하, 도 9에서는 본 발명의 실시예들에 따른 기계학습 기반의 영상 인식 시스템(200)의 작업 흐름을 상세히 설명한다.
도 9은 본 발명의 일실시예에 따른 기계학습 기반의 영상 인식 방법의 순서를 도시한 흐름도이다.
본 실시예에 따른 기계학습 기반의 영상 인식 방법은, 상술한 기계학습 기반의 영상 인식 시스템(200)에 의해 수행될 수 있다.
도 9을 참조하면, 단계(910)에서, 영상 인식 시스템(200)은, 학습용 영상을 처리하여 선정한 배경조각을, 기계학습 DB에 기록한다.
즉, 영상 인식 시스템(200)은 학습용 영상의 배경 영역에서 배경조각의 후보가 되는 적어도 하나의 윈도우(window) 영역을 추출하고, 추출된 윈도우 영역 중에서 인식 정확도가 높게 산출되는 윈도우 영역을, 객체의 역할이 가능한 배경조각으로 선정할 수 있다.
예를 들어, 도 3a 및 도 3b를 참조하면, 영상 인식 시스템(200)은 도 3b에 도시한 학습용 영상(320)으로부터, 도 3a에 도시한 복수의 파라미터를 가지는 사각형 형태의 4개의 윈도우 영역(Window 1, Window 2, Window 3, Window 4)을 추출할 수 있다.
또한, 영상 인식 시스템(200)은 배경 영역('달 표면')에서 태양광 등에 의해 밝기가 다른 배경 영역과 상이한 부분을 포함하도록 윈도우 영역을 추출하거나, 크레이터(구덩이)와 같이 음영이 상이한 부분을 포함하도록 윈도우 영역을 추출한 후, 앞서 추출한 윈도우 영역을 이용하여, 다른 윈도우 영역과의 위치 관계 또는 거리 관계에 따라 나머지 윈도우 영역을 추출할 수도 있다.
또한, 영상 인식 시스템(200)은 학습용 영상의 배경 영역에서 정해진 개수('4개')의 윈도우 영역이 모두 추출되면, 각각의 윈도우 영역 각각에 대해 산출되는 정확도가 최소 기준값을 상회하는 경우에 각 윈도우 영역을 배경조각으로 선정할 수 있다.
여기서 상기 정확도는 딥 러닝 기반의 FAST 객체 탐색 기법 중 하나인 욜로(YOLO), SSD, Faster RCNN 중 어느 하나에 기초한 산출식에 따라 산출될 수 있다.
영상 인식 시스템(200)은 선정된 배경조각의 파라미터, 크기, 모양, 영상 속 위치, 방향, 객체 또는 다른 배경조각과의 관계 중 적어도 하나의 데이터를 해당 배경조각과 연관시켜 기계학습 DB(220)에 기록할 수 있다.
마찬가지로, 영상 인식 시스템(200)은 학습용 영상을 처리하여 추출한 객체의 크기, 모양, 영상 속 위치, 방향, 다른 객체와의 관계 중 적어도 하나의 객체데이터를 해당 객체와 연관시켜 기계학습 DB(220)에 기록할 수 있다.
단계(920)에서, 영상 인식 시스템(200)은, 실제 영상이 입력되는지 확인한다. 실제 영상이 입력되지 않는 경우, 단계(920)를 반복 수행하여 실제 영상의 입력을 대기한다.
실제 영상이 입력되는 경우, 단계(930)에서, 영상 인식 시스템(200)은, 상기 실제 영상 내에 상기 배경조각이 포함되는지 판단한다.
상기 실제 영상 내에 상기 배경조각이 포함되는 경우, 단계(940)에서, 영상 인식 시스템(200)은, 상기 배경조각에 관한 데이터를 이용하여, 상기 실제 영상으로부터 인식되는 정보를 작성해 화면에 출력한다.
예를 들어, 도 5를 참조하면, 영상 인식 시스템(200)은 입력되는 실제 영상(510)에서 배경조각의 유무를 판단하고, 실제 영상(510) 내에 배경조각이 존재하면, 해당 배경조각에 대응하여 기록된 데이터(520)를 기계학습 DB(220)에서 검색하여 화면에 출력할 수 있다.
이를 통해, 영상 인식 시스템(200)은 입력된 실제 영상에서 객체가 추출되지 않는 경우에도, 학습된 배경조각을 이용해 위치, 방향 등의 항법 정보를 인식할 수 있다.
또한, 영상 인식 시스템(200)은 객체와 배경조각들 간의 관계 정보를 이용하여 각 객체의 위치를 보다 정확하게 계산하고 이를 바탕으로 카메라의 움직임 정보를 취득할 수 있다.
또한, 영상 인식 시스템(200)은 배경조각에 관한 데이터를 객체('비행기')에 관한 객체데이터와 조합하여, 실제 영상과 관련하여 인식되는 정보로서 화면에 출력할 수 있다.
이와 같이, 본 발명에 따르면, 학습용 영상에서 객체의 역할을 할 수 있는 유익한 배경조각을 선정해 기계학습 하고 이를 객체와 조합하여, 입력된 실제 영상에 대한 인식 성능을 향상시킬 수 있다.
본 발명의 실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
200: 영상 인식 시스템
210: 학습 처리부
220: 기계학습 DB
230: 인식 처리부

Claims (18)

  1. 기계학습 기반의 영상 인식 시스템에 의해 구현되는 기계학습 기반의 영상 인식 방법에 있어서,
    상기 영상 인식 시스템에서, 학습용 영상 내 배경 영역을 적어도 포함하여, n(상기 n은 1 이상의 자연수)개의 윈도우 영역을 추출하는 단계;
    상기 영상 인식 시스템에서, 상기 n개의 윈도우 영역 각각에 대해 산출된 성능을 고려하여 선택한 후보 영역의 개수가, 사용자가 정한 m(상기 m은 1 이상의 자연수)개에 도달하면, 상기 m개의 후보 영역 각각을, 배경조각으로서 선정하는 단계;
    상기 영상 인식 시스템에서, 상기 학습용 영상을 처리하여 선정한 상기 배경조각을, 기계학습 DB에 기록하는 단계;
    상기 영상 인식 시스템에서, 입력되는 실제 영상 내에, 상기 배경조각이 포함되는지 판단하는 단계; 및
    상기 판단 결과 포함되는 경우,
    상기 영상 인식 시스템에서, 상기 기계학습 DB으로부터 상기 배경조각에 대응되는 데이터를 검색하고, 검색된 상기 데이터를 이용하여 상기 실제 영상과 관련한 인식 정보를 화면에 출력하는 단계
    를 포함하는 기계학습 기반의 영상 인식 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 영상 인식 시스템에서, 상기 m개의 후보 영역 각각의 성능을 평균한 값이, 최소 기준값 보다 임계치 이상 크면, 상기 m을 증가시키는 조정을 하는 단계;
    상기 영상 인식 시스템에서, 상기 증가된 m에 도달할 때까지, 상기 n개의 윈도우 영역을 상기 성능에 따라 오름차순으로 정렬했을 때 상위에 정렬되는 윈도우 영역 중에서, 상기 후보 영역을 추가로 선택하는 단계; 및
    상기 영상 인식 시스템에서, 상기 추가로 선택한 후보 영역을, 상기 배경조각으로서 더 선정하는 단계
    를 더 포함하는 기계학습 기반의 영상 인식 방법.
  4. 제3항에 있어서,
    상기 영상 인식 시스템에서, 상기 기계학습 DB 내 객체에 관해 산출된 성능을 고려하여, 상기 최소 기준값을 결정하는 단계; 및
    상기 영상 인식 시스템에서, 상기 배경조각을 상기 기계학습 DB에 기록 시, 상기 배경조각에 관해 산출된 성능을 더 고려하여, 상기 최소 기준값을 조정하는 단계;
    를 더 포함하는 기계학습 기반의 영상 인식 방법.
  5. 제1항에 있어서,
    상기 영상 인식 시스템에서, 상기 n개의 윈도우 영역 각각에 대해, 콘볼루셔널 인공신경망 기반의 인공신경망 계층의 중간 혹은 말단에서 계산된 중심점 위치 오차, 중심점 기준으로 한 윈도우 영역의 회전각 오차, 실제 촬영 지역 식별 유무, 가로 크기 오차와 세로 크기 오차 및 윈도우 영역 간의 거리 오차 중 적어도 하나를 조합하여, 상기 성능을 산출하는 산출 단계;
    상기 영상 인식 시스템에서, 상기 n개의 윈도우 영역 중에서 상기 성능이 최소 기준값을 만족하는 윈도우 영역을, 상기 후보 영역으로 선택하는 단계;
    상기 후보 영역의 개수가 상기 m개에 도달하지 않으면,
    상기 영상 인식 시스템에서, 상기 성능이 최소 기준값을 만족하지 않은 윈도우 영역을 삭제하고, 삭제한 개수 만큼, 상기 윈도우 영역을 추가로 추출하는 단계; 및
    상기 영상 인식 시스템에서, 상기 추가 추출된 윈도우 영역에 대해, 상기 산출 단계를 반복하는 단계
    를 더 포함하는 기계학습 기반의 영상 인식 방법.
  6. 제5항에 있어서,
    상기 산출 단계는,
    상기 학습용 영상에서 추출된 윈도우 영역 중에서 선정되는 배경조각의 비율에 관한 감지율과, 배경조각으로 선정된 윈도우 영역을 이용한 위치 식별의 정확도 중 적어도 하나를 포함하여, 상기 성능을 산출하는 단계
    를 포함하는 기계학습 기반의 영상 인식 방법.
  7. 제5항에 있어서,
    상기 영상 인식 시스템에서, 상기 학습용 영상과 별도로 마련된 검증용 데이터를 이용하여, n개의 윈도우 영역 별 성능을 오름차순으로 정렬한 후 상기 성능이 상위인 윈도우 영역을 상기 배경조각으로서 선정하는 단계
    를 더 포함하는 기계학습 기반의 영상 인식 방법.
  8. 제1항에 있어서,
    상기 영상 인식 시스템에서, 상기 학습용 영상에 대한 상기 성능을 인식하는 단계; 및
    상기 영상 인식 시스템에서, 상기 인식된 성능을 고려하여, 상기 m과 상기 n을 조정하는 단계
    를 더 포함하는 기계학습 기반의 영상 인식 방법.
  9. 제1항에 있어서,
    상기 기록하는 단계는,
    상기 배경조각으로 선정된 윈도우 영역에 부여되는 고유ID, 명칭, 중심점 위치, 가로 크기, 세로 크기, 윈도우 영역의 회전각도, 성능, 다른 배경조각 간 거리 및 기계학습 후의 인공신경망 계수 및 구조 중 적어도 하나를 포함하는 상기 데이터를, 상기 배경조각에 대응시켜 상기 기계학습 DB에 기록하는 단계
    를 포함하는 기계학습 기반의 영상 인식 방법.
  10. 제1항에 있어서,
    상기 윈도우 영역을 추출하는 단계는,
    상기 영상 인식 시스템에서, 상기 배경 영역을 격자 구조로 분할하는 단계; 및
    상기 영상 인식 시스템에서, 상기 격자 구조로 분할한 배경 영역 중에서 추출할 n개의 윈도우 영역에 대한 중심점 위치와, 가로 크기 및 세로 크기 및 회전각도 중 적어도 하나의 파라미터를 설정하는 단계
    를 포함하는 기계학습 기반의 영상 인식 방법.
  11. 제1항에 있어서,
    상기 출력하는 단계는,
    상기 배경조각에 관한 위치, 크기, 방향, 중심점 및 다른 배경조각 간 거리 중 적어도 하나의 데이터에 근거하여, 상기 인식 정보로서, 촬영 카메라 또는 객체의 움직임을 작성해 출력하는 단계
    를 포함하는 기계학습 기반의 영상 인식 방법.
  12. 제1항에 있어서,
    상기 실제 영상에서 객체가 추출되는 경우,
    상기 출력하는 단계는,
    상기 객체에 관해 기록된 객체데이터를, 상기 배경조각에 관한 데이터와 조합하여, 상기 인식 정보를 작성해 출력하는 단계
    를 포함하는 기계학습 기반의 영상 인식 방법.
  13. 학습용 영상 내 배경 영역을 적어도 포함하여, n(상기 n은 1 이상의 자연수)개의 윈도우 영역을 추출하고, 상기 n개의 윈도우 영역 각각에 대해 산출된 성능을 고려하여 선택한 후보 영역의 개수가, 사용자가 정한 m(상기 m은 1 이상의 자연수)개에 도달하면, 상기 m개의 후보 영역 각각을, 배경조각으로서 선정하고, 상기 학습용 영상을 처리하여 선정한 상기 배경조각을, 기계학습 DB에 기록하는 학습 처리부; 및
    입력되는 실제 영상 내에, 상기 배경조각이 포함되는지 판단하고, 상기 판단 결과 포함되는 경우, 상기 기계학습 DB으로부터 상기 배경조각에 대응되는 데이터를 검색하고, 검색된 상기 데이터를 이용하여 상기 실제 영상과 관련한 인식 정보를 화면에 출력하는 인식 처리부
    를 포함하는 기계학습 기반의 영상 인식 시스템.
  14. 삭제
  15. 제13항에 있어서,
    상기 학습 처리부는,
    상기 m개의 후보 영역 각각의 성능을 평균한 값이, 최소 기준값 보다 임계치 이상 크면, 상기 m을 증가시키는 조정을 하고,
    상기 증가된 m에 도달할 때까지, 상기 n개의 윈도우 영역을 상기 성능에 따라 오름차순으로 정렬했을 때 상위에 정렬되는 윈도우 영역 중에서, 상기 후보 영역을 추가로 선택하고,
    상기 추가로 선택한 후보 영역을, 상기 배경조각으로서 더 선정하는
    기계학습 기반의 영상 인식 시스템.
  16. 제15항에 있어서,
    상기 학습 처리부는,
    상기 기계학습 DB 내 객체에 관해 산출된 성능을 고려하여, 상기 최소 기준값을 결정하고, 상기 배경조각을 상기 기계학습 DB에 기록 시, 상기 배경조각에 관해 산출된 성능을 더 고려하여, 상기 최소 기준값을 조정하는
    기계학습 기반의 영상 인식 시스템.
  17. 제13항에 있어서,
    상기 학습 처리부는,
    상기 n개의 윈도우 영역 각각에 대해, 콘볼루셔널 인공신경망 기반의 인공신경망 계층의 중간 혹은 말단에서 계산된 중심점 위치 오차, 중심점 기준으로 한 윈도우 영역의 회전각 오차, 실제 촬영 지역 식별 유무, 가로 크기 오차와 세로 크기 오차 및 윈도우 영역 간의 거리 오차 중 적어도 하나를 조합하여, 상기 성능을 산출하는 산출하고,
    상기 n개의 윈도우 영역 중에서 상기 성능이 최소 기준값을 만족하는 윈도우 영역을, 상기 후보 영역으로 선택하고,
    상기 후보 영역의 개수가 상기 m개에 도달하지 않으면,
    상기 성능이 최소 기준값을 만족하지 않은 윈도우 영역을 삭제하고, 삭제한 개수 만큼, 상기 윈도우 영역을 추가로 추출하고,
    상기 추가 추출된 윈도우 영역에 대해, 상기 성능을 산출하는
    기계학습 기반의 영상 인식 시스템.
  18. 제13항에 있어서,
    상기 인식 처리부는,
    상기 배경조각에 관한 위치, 크기, 방향, 중심점 및 다른 배경조각 간 거리 중 적어도 하나의 데이터에 근거하여, 상기 인식 정보로서, 촬영 카메라 또는 객체의 움직임을 작성해 출력하는
    기계학습 기반의 영상 인식 시스템.
KR1020180078910A 2018-07-06 2018-07-06 기계학습 기반의 영상 인식 방법 및 기계학습 기반의 영상 인식 시스템 KR102112754B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180078910A KR102112754B1 (ko) 2018-07-06 2018-07-06 기계학습 기반의 영상 인식 방법 및 기계학습 기반의 영상 인식 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180078910A KR102112754B1 (ko) 2018-07-06 2018-07-06 기계학습 기반의 영상 인식 방법 및 기계학습 기반의 영상 인식 시스템

Publications (2)

Publication Number Publication Date
KR20200005324A KR20200005324A (ko) 2020-01-15
KR102112754B1 true KR102112754B1 (ko) 2020-05-19

Family

ID=69156798

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180078910A KR102112754B1 (ko) 2018-07-06 2018-07-06 기계학습 기반의 영상 인식 방법 및 기계학습 기반의 영상 인식 시스템

Country Status (1)

Country Link
KR (1) KR102112754B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240043344A (ko) 2022-09-27 2024-04-03 주식회사 엘지유플러스 기계 학습을 이용한 영상 처리 장치 및 그 제어방법

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102498615B1 (ko) * 2020-04-24 2023-02-14 군산대학교산학협력단 인공지능 기반의 나이트비전 시스템

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170270674A1 (en) 2016-03-17 2017-09-21 Avigilon Corporation System and method for training object classifier by machine learning

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100930249B1 (ko) * 2008-02-29 2009-12-09 한국과학기술원 영상으로부터 얻은 정보를 이용하여 인터넷을 검색하는장치 및 그 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170270674A1 (en) 2016-03-17 2017-09-21 Avigilon Corporation System and method for training object classifier by machine learning

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Hao Wang 외 2명. CreaterIDNet: An End-to-End Fully Convolutional Neural Network for Crater Detection and Identification in Remotely Sensed Planetary Images. 2018.07.05.
T. F. Stepinski1 외 2명. Detecting Impact Craters in Planetary Images Using Machine Learning. 2014년

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240043344A (ko) 2022-09-27 2024-04-03 주식회사 엘지유플러스 기계 학습을 이용한 영상 처리 장치 및 그 제어방법

Also Published As

Publication number Publication date
KR20200005324A (ko) 2020-01-15

Similar Documents

Publication Publication Date Title
EP3690704B1 (en) Distributed and self-validating dense object detection in digital images
CN110874841B (zh) 参照边缘图像的客体检测方法及装置
Workman et al. Wide-area image geolocalization with aerial reference imagery
CN109117836B (zh) 一种基于焦点损失函数的自然场景下文字检测定位方法和装置
Tokarczyk et al. Features, color spaces, and boosting: New insights on semantic classification of remote sensing images
KR102309711B1 (ko) 유용한 학습 데이터를 취사 선별하기 위한 cnn 기반 학습 방법 및 학습 장치 그리고 이를 이용한 테스트 방법 및 테스트 장치
CN107833213B (zh) 一种基于伪真值自适应法的弱监督物体检测方法
CN108596055B (zh) 一种复杂背景下高分辨遥感图像的机场目标检测方法
Bellens et al. Improved classification of VHR images of urban areas using directional morphological profiles
Lian et al. DeepWindow: Sliding window based on deep learning for road extraction from remote sensing images
JP2020038662A (ja) 車線候補ピクセルを分類して車線を検出する学習方法及び学習装置そしてこれを利用したテスト方法及びテスト装置{learning method, learning device for detecting lane through classifying lane candidate pixels and test method, test device using the same}
KR102279376B1 (ko) CNN(Convolutional Neural Network)을 사용하여 차선을 검출하기 위한 학습 방법 및 학습 장치 그리고 이를 이용한 테스트 방법 및 테스트 장치
US10430691B1 (en) Learning method and learning device for object detector based on CNN, adaptable to customers' requirements such as key performance index, using target object merging network and target region estimating network, and testing method and testing device using the same to be used for multi-camera or surround view monitoring
CN108885699A (zh) 字符识别方法、装置、存储介质及电子设备
CN103268358B (zh) 多源控制点影像数据库构建及更新方法
AU2016315938A1 (en) Systems and methods for analyzing remote sensing imagery
US10489674B2 (en) Information extraction using image data
US20110282897A1 (en) Method and system for maintaining a database of reference images
KR102320985B1 (ko) 멀티 카메라 시스템 내의 더블 임베딩 구성을 이용하여 도로 이용자 이벤트를 검출하기 위해 이용될 세그먼테이션 성능 향상을 위한 학습 방법 및 학습 장치 그리고 이를 이용한 테스팅 방법 및 테스팅 장치
KR102337367B1 (ko) 원거리 검출 또는 군사 목적을 위해, 이미지 컨캐터네이션을 이용한, cnn 기반의 하드웨어 최적화가 가능한 객체 검출기를 학습하는 방법 및 학습 장치, 이를 이용한 테스팅 방법 및 테스팅 장치
CN110033481A (zh) 用于进行图像处理的方法和设备
CN108154158B (zh) 一种面向增强现实应用的建筑物图像分割方法
KR102112754B1 (ko) 기계학습 기반의 영상 인식 방법 및 기계학습 기반의 영상 인식 시스템
CN112766417A (zh) 一种利用现场照片识别目标地块土地利用现状地类的方法及系统
Nice et al. Sky pixel detection in outdoor imagery using an adaptive algorithm and machine learning

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant