KR20170096298A

KR20170096298A - 컨볼루션 신경망 기반의 영상 패턴화를 이용한 딥러닝 시스템 및 이를 이용한 영상 학습방법

Info

Publication number: KR20170096298A
Application number: KR1020160017501A
Authority: KR
Inventors: 변진영; 이상준; Van Hau Nguyen; 전재욱
Original assignee: 성균관대학교산학협력단
Priority date: 2016-02-15
Filing date: 2016-02-15
Publication date: 2017-08-24
Also published as: KR101803471B1

Abstract

본 발명은 컨볼루션 신경망 기반의 영상 패턴화를 이용한 딥러닝 시스템 및 이를 이용한 영상 학습방법에 관한 것으로, 입력 영상을 입력하는 영상 입력부; 영상 입력부로부터 받은 입력 영상을 패턴화된 다수의 패턴 영상으로 생성하는 패턴화 모듈; 영상 입력부로부터 받은 입력 영상과 패턴화 모듈로부터 수신 받은 패턴 영상을 학습시키는 컨볼루션 신경망(CNN: Convolution Neural Network)을 기반으로 하는 CNN 학습부; 상기 CNN 학습부로부터 학습정보와 상기 영상 입력부로부터 받은 입력 영상을 전달받는 CNN 실행부; 및 상기 CNN 실행부로부터 영상 정보를 받아 영상 정보의 객체를 종류별로 분류하는 최종 분류부를 포함한다.
이와 같은 본 발명은 다양한 환경문제(흔들림, 조도, 노이즈, 인식률 저하 등)에 취약한 영상 학습 정보의 질을 높일 수 있는 영상 학습장치 및 이를 이용한 딥러닝 시스템을 제공한다.

Description

컨볼루션 신경망 기반의 영상 패턴화를 이용한 딥러닝 시스템 및 이를 이용한 영상 학습방법{DEEP LEARNING SYSTEM AND LEARNING METHOD USING OF CONVOLUTIONAL NEURAL NETWORK BASED IMAGE PATTERNING}

본 발명 딥러닝 시스템 및 이를 이용한 영상 학습방법에 관한 것으로, 보다 상세하게는 사람의 뇌와 유사하게 RGB 값뿐만 아니라 패턴화한 영상 정보를 이용한 컨볼루션 신경망(CNN) 기반의 딥러닝 시스템 및 이를 이용한 영상 학습방법에 관한 것이다.

CNN(Convolutional Neural Network)은 인간의 뇌 구조를 모방한 것으로, 인간의 뇌가 최소 단위인 뉴런으로 이루어져 있는 것처럼 CRNN(Convolutional Recursive Neural Network)은 단일 CNN들의 군집으로 모델링 하는 것이다.

종래기술에선 일반적으로 RGB의 입력 정보만을 사용하여 CNN 장치를 만들어져 왔고, RGB 영상만을 사용할 때에는 별도의 특징 정보를 추출하는 과정이 없으므로 영상의 회전과 조도 변화, 노이즈에 모두 취약한 환경적인 문제가 발생하는 문제점이 있었다.

도 1은 컨볼루션 신경망(CNN) 기반의 일반적인 딥러닝 시스템 구조를 예시한 도면이다. 도 1에 나타낸 바와 같이, 영상 입력부(110)로부터 학습을 위한 입력 영상이 들어오고 이 학습 영상을 바로 학습부 CNN(114)으로 전달한다. 학습부 CNN(112)을 통해 얻은 학습 정보(114)와 영상 입력부(110)를 통해 새로 들어오는 입력 영상을 실행부 CNN(120)에 전달하고, 최종 분류부(140)에서 최종적으로 객체의 종류를 분류한다.

도 2는 딥러닝에 사용되는 일반적인 컨볼루션 신경망(CNN) 구조의 모식도이다. 도 2는 도 1의 학습부 CNN(112)과 실행부 CNN(120)에 해당되는 부분을 도식화한 것으로, CNN이 인간의 뉴런처럼 다중으로 얽히고, 여러 층에 걸쳐 구성되어있다. 즉, 단일 CNN이 다중으로 사용되어 딥러닝에 사용되는 일반적인 CNN 구조를 이룬다.

도 3은 일반적인 단일 컨볼루션 신경망(CNN) 구조의 모식도이고, 도 4는 단일 컨볼루션 신경망 기반의 딥러닝 시스템의 입출력 구조를 나타낸 도면이다.

도 3 및 도 4에 나타낸 바와 같이, 입력 정보(410)들은 일반적인 단일 CNN의 구조(300)의 입력부(310)에 해당하고, 출력 정보(420)는 일반적인 단일 CNN의 구조(300)의 출력부(312)에 해당한다. 종래기술의 컨볼루션 신경망 기반 딥러닝 시스템에서는 입력 정보(410)들에 학습을 통해 얻은 가중치(412)를 적용하고 이 값들을 합해 출력(420)을 얻는 시스템이다.

즉, 도 1 내지 도 4에 예시된 바와 같이, 종래의 일반적인 컨볼루션 신경망 기반의 딥러닝 시스템에서 RGB 영상만을 이용할 경우, 영상 입력 시스템을 새로 설치하거나 입력 영상이 흔들릴 경우 입력 영상의 각도 차이가 발생하는 문제가 발생할 수 있고, 또한 실외와 같이 조도 변화가 큰 환경에서 사용할 경우 조도 변화에 의한 문제가 발생할 수 있으며 특징 정보가 부족한 경우 인식률이 떨어지는 문제가 발생할 수 있다. 또한 CRNN의 층들을 거치면서 환경적 문제들이 추출되어 문제가 심화 될 수 있다.

대한민국 공개특허공보 특2000-0023915호(공개일자: 2000년05월06일) 대한민국 등록특허공보 제10-1114135호(등록일자: 2012년02월01일)

본 발명에 따른 컨볼루션 신경망 기반의 영상 패턴화를 이용한 딥러닝 시스템 및 이를 이용한 영상 학습방법은 다음과 같은 해결과제를 가진다.

첫째, 본 발명은 다양한 환경문제(흔들림, 조도, 노이즈, 인식률 저하 등)에 취약한 영상 학습 정보의 질을 높일 수 있는 컨볼루션 신경망(CNN) 기반의 영상 패턴 정보를 이용한 딥러닝 시스템을 제공하고자 함이다.

둘째, 본 발명은 본 발명은 다양한 루트를 통해 영상을 입력하고, 입력 영상을 패턴화하고 조합하여 다양한 특징 및 대량의 영상 데이터를 생성하여 보다 정확하고 높은 수준의 영상 학습 데이터를 획득할 수 있는 딥러닝 시스템 및 그 학습방법을 제공하고자 함이다.

본 발명의 해결과제는 이상에서 언급한 것들에 한정되지 않으며, 언급되지 아니한 다른 해결과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상술한 과제를 해결하고자 하는 본 발명의 제1 특징은, 입력 영상을 입력하는 영상 입력부; 영상 입력부로부터 받은 입력 영상을 패턴화된 다수의 패턴 영상으로 생성하는 패턴화 모듈; 영상 입력부로부터 받은 입력 영상과 패턴화 모듈로부터 수신 받은 패턴 영상을 학습시키는 컨볼루션 신경망(CNN: Convolution Neural Network)을 기반으로 하는 CNN 학습부; 상기 CNN 학습부로부터 학습정보와 상기 영상 입력부로부터 받은 입력 영상을 전달받는 CNN 실행부; 및 상기 CNN 실행부로부터 영상 정보를 받아 영상 정보의 객체를 종류별로 분류하는 최종 분류부를 포함한다.

여기서, 상기 영상 입력부는, 카메라와 연결되어 직접적인 입력 영상을 수신하거나, 무선 네트워크 또는 인터넷 네트워크로부터 수신 받아 입력 가능한 장치인 것이 바람직하고, 상기 패턴화 모듈은, 영상 입력부로부터 수신된 영상을 다수개의 패턴 영상으로 분류하는 패턴 분류부; 및 패턴 분류부로부터 적어도 하나 이상의 패턴 영상을 수신 받고 조합하여 조합 영상을 생성하는 패턴 조합부를 포함하는 것이 바람직하다.

더하여, 상기 패턴화 모듈은, 영상 입력부로부터 수신된 영상에서 각 환경 조건에 영향을 최소화하도록 대응되는 다수개의 패턴 영상으로 분류하는 것이 바람직하고, 패턴 영상은, 국소 이진 패턴 영상(Local Binary Pattern), 국소 삼진화 패턴 영상(Local Ternary Pattern), 로컬 미분 패턴(Local Derivative Pattern) 영상 및 로컬 테트라 패턴(Local Tetra Pattern) 영상 중 적어도 하나를 포함하는 것이 바람직하다.

또한, 상기 CNN 학습부는, 패턴화 모듈 및 영상 입력부로부터 받은 영상의 각 특징을 추출하는 특징 추출 모듈; 및 추출된 특징을 적어도 하나 이상으로 조합하여 학습 정보를 생성하는 특징 조합부를 포함하는 것이 바람직하고, 상기 패턴화 모듈은, 영상 입력부로부터 받은 입력 영상을 패턴화된 다수의 패턴 영상으로 생성하고, 생성된 패턴 영상을 실행부로 전달하는 것이 바람직하다.

더하여, 상기 학습부에서 학습한 학습 정보를 저장하고, 저장된 학습 정보를 상기 실행부로 전달하는 학습 정보 저장부를 더 포함하는 것이 바람직하고, 상기 학습정보는, 패턴 영상의 가중치 정보인 것이 바람직하다.

그리고, 상기 실행부는, 상기 영상 입력부로부터 입력 영상; 입력 영상이 패턴화 모듈을 통해 패턴 영상의 데이터; 및 상기 학습부로부터 생성된 학습정보를 전달받는 것이 바람하고, 상기 컨볼루션 신경망은 다수의 입력층과 하나의 출력층으로 구성된 단일신 신경망 구조인 것이 바람직하며, 상기 컨볼루션 신경망은 다수의 입력층과 다수의 출력층으로 구성된 다중 신경망 구조인 것이 바람직하다.

본 발명의 제2 특징은, 상술한 딥러닝 시스템을 이용하는 것으로, (a) 영상 입력부가 입력 영상을 입력하는 단계; (b) 패턴화 모듈이 상기 영상 입력부로부터 받은 입력 영상을 패턴화된 다수의 패턴 영상으로 생성하는 단계; (c) CNN 학습부가 영상 입력부로부터 받은 입력 영상과 패턴화 모듈로부터 수신 받은 패턴 영상을 컨볼루션 신경망(CNN:Convolution Neural Network)을 기반으로 하여 학습시키는 단계; (d) CNN 실행부가 상기 CNN 학습부로부터 학습정보와 상기 영상 입력부로부터 받은 입력 영상을 전달받는 단계; 및 (e) 최종 분류부가 상기 CNN 실행부로부터 영상 정보를 받아 영상 정보의 객체를 종류별로 분류하는 단계를 포함한다.

여기서, 상기 (c) 단계는, 특징 추출 모듈이 패턴화 모듈 및 영상 입력부로부터 받은 영상의 각 특징을 추출하는 단계; 및 조합부가 추출된 특징을 적어도 하나 이상으로 조합하여 학습 정보를 생성하는 단계를 포함하는 것이 바람직하고, 상기 패턴화 모듈은, 영상 입력부로부터 수신된 영상에서 각 환경 조건에 영향을 최소화하도록 대응되는 다수개의 패턴 영상으로 분류하는 것이 바람직하다.

더하여, 바람직하게는 패턴 영상은, 국소 이진 패턴 영상(Local Binary Pattern), 국소 삼진화 패턴 영상(Local Ternary Pattern), 로컬 미분 패턴(Local Derivative Pattern) 영상 및 로컬 테트라 패턴(Local Tetra Pattern) 영상 중 적어도 하나를 포함하는 것일 수 있다.

또한, 상기 (d) 단계는, 상기 영상 입력부로부터 입력 영상, 입력 영상이 패턴화 모듈을 통해 패턴 영상의 데이터 및 상기 학습부로부터 생성된 학습정보를 전달받는 단계인 것이 바람직하다.

본 발명의 제3 특징은, 하드웨어와 결합되어 청구항 13의 컨볼루션 신경망 기반의 영상 패턴화를 이용한 영상 학습방법을 실행시키기 위하여 매체에 저장된 컴퓨터프로그램을 그 특징으로 한다.

본 발명에 따른 컨볼루션 신경망 기반의 영상 패턴화를 이용한 딥러닝 시스템 및 이를 이용한 영상 학습방법은 다음과 같은 효과를 가진다.

첫째, 본 발명은 입력 영상을 각 환경 조건에 강인한 패턴으로 패턴화함으로써, 다양한 환경문제(흔들림, 조도, 노이즈, 인식률 저하 등)에 취약한 영상 학습 정보의 질을 높일 수 있는 컨볼루션 신경망(CNN) 기반의 영상 패턴 정보를 이용한 딥러닝 시스템 및 그 학습방법을 제공한다.

둘째, 본 발명은 다양한 루트를 통해 영상을 입력하고, 입력 영상을 패턴화 하여 다양한 특징 및 대량의 영상 데이터가 생성하여 보다 정확하고 높은 수준의 영상 학습 데이터를 획득할 수 있는 컨볼루션 신경망(CNN) 기반의 영상 패턴 정보를 이용한 딥러닝 시스템 및 그 학습방법을 제공한다.

셋째, 본 발명은 n개의 패턴 영상을 적어도 2개 이상 조합시켜 다수개의 조합된 패턴 영상 데이터를 생성한 후 CNN 합습부로 전달하여 각각 환경 조건에 강인한 패턴이 조합된 패턴 영상 데이터를 생성하게 됨으로써, 학습 데이터로서 보다 선택적이고 풍부한 데이터를 획득할 수 있게 된다.

넷째, 컨볼루션 신경망(CNN)의 각 레이어 층에서 특징을 추출하는 과정에서 발생할 수 있는 오류를 보정할 수 있고, 레이어 층마다 다른 패턴을 적용할 수 있다는 점에서 보다 양질의 학습정보를 획득할 수 있는 컨볼루션 신경망(CNN) 기반 영상 패턴화를 이용한 딥러닝 시스템 및 그 학습방법을 제공한다.

본 발명의 효과는 이상에서 언급한 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

도 1은 컨볼루션 신경망(CNN) 기반의 일반적인 딥러닝 시스템 구조를 예시한 도면이다.
도 2는 딥러닝에 사용되는 일반적인 컨볼루션 신경망(CNN) 구조의 모식도이다.
도 3은 일반적인 단일 컨볼루션 신경망(CNN) 구조의 모식도이다.
도 4는 단일 컨볼루션 신경망(CNN) 기반의 딥러닝 시스템의 입출력 구조를 나타낸 도면이다.
도 5는 본 발명의 실시예에 따른 컨볼루션 신경망 기반의 영상 패턴화를 이용한 딥러닝 시스템의 블록 구성을 나타낸 도면이다.
도 6은 본 발명의 실시예에 따른 컨볼루션 신경망 기반의 영상 패턴화를 이용한 딥러닝 시스템에 사용되는 패턴화 모듈의 블록 구성을 예시한 도면이다.
도 7은 본 발명의 실시예에 따른 패턴화 모듈에서 사용되는 패턴화 기법으로서 국소 이진 패턴 영상(Local Binary Pattern: LBP) 처리 모식도이다.
도 8는 본 발명의 실시예에 따른 패턴화 모듈에서 사용되는 패턴화 기법으로서 국소 삼진 패턴 영상(Local Ternary Pattern : LTP) 처리 모식도이다.
도 9는 본 발명의 실시예에 따른 패턴화 모듈에서 사용되는 패턴화 기법으로서 국소 미분 패턴 영상(Local Derivative Pattern : LDP) 처리 모식도이다.
도 10은 본 발명의 실시예에 따른 영상 패턴화를 이용한 딥러닝 시스템에 적용되는 단일 CNN 구조의 모식도이다.
도 11은 본 발명의 실시예에 따른 딥러닝 시스템에 적용되는 단일 CNN 구조의 모식도이다.
도 12는 본 발명의 실시예에 따른 딥러닝 시스템에 적용되는 다중 CNN 구조의 모식도이다.

이하, 첨부한 도면을 참조하여, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 설명한다. 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 용이하게 이해할 수 있는 바와 같이, 후술하는 실시예는 본 발명의 개념과 범위를 벗어나지 않는 한도 내에서 다양한 형태로 변형될 수 있다. 가능한 한 동일하거나 유사한 부분은 도면에서 동일한 도면부호를 사용하여 나타낸다.

본 명세서에서 사용되는 전문용어는 단지 특정 실시예를 언급하기 위한 것이며, 본 발명을 한정하는 것을 의도하지는 않는다. 여기서 사용되는 단수 형태들은 문구들이 이와 명백히 반대의 의미를 나타내지 않는 한 복수 형태들도 포함한다.

본 명세서에서 사용되는 "포함하는"의 의미는 특정 특성, 영역, 정수, 단계, 동작, 요소 및/또는 성분을 구체화하며, 다른 특정 특성, 영역, 정수, 단계, 동작, 요소, 성분 및/또는 군의 존재나 부가를 제외 시키는 것은 아니다.

본 명세서에서 사용되는 기술용어 및 과학용어를 포함하는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 일반적으로 이해하는 의미와 동일한 의미를 가진다. 사전에 정의된 용어들은 관련기술문헌과 현재 개시된 내용에 부합하는 의미를 가지는 것으로 추가 해석되고, 정의되지 않는 한 이상적이거나 매우 공식적인 의미로 해석되지 않는다.

이하에서 본 발명의 바람직한 실시예를 도면을 참조하여 상세히 설명하기로 한다.

도 5는 본 발명의 실시예에 따른 컨볼루션 신경망 기반의 영상 패턴화를 이용한 딥러닝 시스템의 블록 구성을 나타낸 도면이다. 도 5에 나타낸 바와 같이, 본 발명의 실시예에 따른 컨볼루션 신경망 기반의 영상 패턴화를 이용한 딥러닝 시스템은, 입력 영상을 입력하는 영상 입력부(412); 영상 입력부로부터 받은 입력 영상을 패턴화된 다수의 패턴 영상으로 생성하는 패턴화 모듈(414); 영상 입력부로부터 받은 입력 영상과 패턴화 모듈로부터 수신 받은 패턴 영상을 학습시키는 컨볼루션 신경망(CNN: Convolutional Neural Network)을 기반으로 하는 CNN 학습부(416); 상기 CNN 학습부로부터 학습정보와 상기 영상 입력부로부터 받은 입력 영상을 전달받는 CNN 실행부(430); 및 상기 CNN 실행부로부터 영상 정보를 받아 영상 정보의 객체를 종류별로 분류하는 최종 분류부(440)를 포함하여 구성된다.

그리고, 본 발명의 또 다른 실시예로서, 컨볼루션 신경망 기반의 영상 패턴화를 이용한 영상 학습방법은 도 5의 딥러닝 시스템을 이용하는 것으로, (a) 영상 입력부(412)가 입력 영상을 입력하는 단계; (b) 패턴화 모듈(414)이 상기 영상 입력부로부터 받은 입력 영상을 패턴화된 다수의 패턴 영상으로 생성하는 단계; (c) CNN 학습부(416)가 영상 입력부로부터 받은 입력 영상과 패턴화 모듈로부터 수신 받은 패턴 영상을 컨볼루션 신경망(CNN: Convolutional Neural Network)을 기반으로 하여 학습시키는 단계; (d) CNN 실행부(430)가 상기 CNN 학습부(416)로부터 학습정보와 상기 영상 입력부로부터 받은 입력 영상을 전달받는 단계; 및 (e) 최종 분류부(440)가 상기 CNN 실행부로부터 영상 정보를 받아 영상 정보의 객체를 종류별로 분류하는 단계를 포함하여 구성된다.

보다 구체적으로, 도 5에 나타낸 바와 같이, 본 발명의 실시예에 따른 딥러닝 시스템 및 이를 이용한 영상 학습방법에 에서 영상 입력부 및 패턴화 모듈(414)을 통해 얻은 입력정보들은 CNN의 구조의 입력부에 해당하고, CNN 학습부(416) 및 CNN 실행부(430)는 패턴 영상 및 가중치 정보를 출력하는 출력부에 해당한다. 즉, 입력 정보마다 입력 정보에 학습을 통해 얻은 가중치를 적용한 값과, 입력 정보들의 관계를 패턴화한 패턴 정보에 패턴 가중치를 적용한 값을 얻고 이를 합한다. 그리고 입력의 수만큼 존재하는 합한 값들을 최종적으로 합해 출력 정보를 얻는다.

여기서, 딥러닝(Deep Learning) 기술은, 컴퓨터가 사람처럼 생각하고 배울 수 있도록 하는 인공지능(AI) 기술로서, 인공신경망 이론을 기반으로 복잡한 비선형 문제를 기계가 스스로 학습해결 할 수 있도록 한다. 딥러닝은 인간의 두뇌가 수많은 데이터 속에서 패턴을 발견한 뒤 사물을 구분하는 정보처리 방식을 모방해 컴퓨터가 사물을 분별하도록 기계를 학습시키는 기술이다.

딥러닝 기술을 적용하면 사람이 모든 판단 기준을 정해주지 않아도 컴퓨터가 스스로 인지·추론·판단할 수 있게 되고, 음성·이미지 인식과 사진 분석 등에 광범위하게 활용하는 것이 가능하다.

즉, 딥러닝(deep learning)은 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화(abstractions, 다량의 데이터나 복잡한 자료들 속에서 핵심적인 내용 또는 기능을 요약하는 작업)를 시도하는 기계학습(machine learning) 알고리즘의 집합으로 정의되며, 큰 틀에서 사람의 사고방식을 컴퓨터에게 가르치는 기계학습의 한 분야라고 이야기할 수 있다.

어떠한 데이터가 있을 때 이를 컴퓨터가 알아들을 수 있는 형태(예를 들어 이미지의 경우는 픽셀정보를 열벡터로 표현하는 등)로 표현(representation)하고 이를 학습에 적용하기 위해 많은 연구(어떻게 하면 더 좋은 표현기법을 만들고 또 어떻게 이것들을 학습할 모델을 만들지에 대한)가 진행되고 있으며, 이러한 노력의 결과로 deep neural networks, convolutional deep neural networks, deep belief networks와 같은 다양한 딥러닝 기법들이 컴퓨터 비젼, 음성인식, 자연어처리, 음성/신호처리 등의 분야에 적용되어 최첨단의 결과들을 보여주고 있다.

특히, 컴퓨터 비전의 주요 분야인 영상 인식 및 사물 인식 분야에서의 딥러닝 기술의 중요성이 대두 되고 있는데, 자동 음성인식 분야의 자동 음성 번역 및 이해 분야로의 확장과 마찬가지로, 이미지 분류 분야는 자동 영상 캡션닝(captioning)이라는 더욱 도전적인 분야로 확장되고 있다. 자동 영상 캡셔닝은 딥러닝을 핵심 기반 기술로 사용하는 분야로서, 적용 사례로는 360°카메라 화면을 이해할 수 있도록 딥러닝을 통해 학습된 자동차 탑재용 컴퓨터 등이 있다.

그리고, 컨볼루션 신경망(convolutional neural networks, CNN)은 2차원 영상을 처리에 특화되어 인식문제에 주로 사용되어 왔고, 기본적인 핵심 특징으로, 첫 번째는 국소 수용 면(local receptive field)을 두어 영상 일부를 표현하는 특징(feature) 추출에 중점 두었고, 두 번째는 이러한 특징을 나타내는 가중치들을 영상 전 영역에서 공유할 수 있게 하였다는 점에서 막대한 수의 매개변수를 줄이고 영상 위치에 상관없이 특징을 공유할 수 있게 되는 장점이 있다.

세 번째 특징은 하나의 계층을 쌓고 노드 수를 줄여 상위 계층을 만드는 과정은 반복하면 상위 계층으로 갈수록 일반화가 이루어지게 된다. 최근 딥러닝이 많은 관심을 받게 되면서, convolutional RBM (restricted Boltzmann machine)을 계층화한 convolutional deep beliefnetworks, deep CNN)과 같이 CNN을 deep 구조화 하는 연구들이 진행되어 왔으며 영상 내 객체 인식 및 분류 문제에서 뛰어난 성능을 보이고 있다.

이와 같이, 본 발명의 실시예는 다양한 환경적인 문제로 인한 학습 정보의 질이 떨어지는 문제점을 해결하기 위해, 입력 영상을 각각의 환경에 강인한 패턴 영상으로 분류하고 조합한 후 학습시킴으로써, 다양한 환경문제(흔들림, 조도, 노이즈, 인식률 저하 등)에 취약한 영상 학습 정보의 질을 높일 수 있을 뿐만 아니라, 컨볼루션 신경망(CNN)의 각 레이어 층에서 특징을 추출하는 과정에서 발생할 수 있는 오류를 보정할 수 있고, 레이어 층마다 다른 패턴을 적용할 수 있다는 점에서 보다 양질의 학습정보를 획득할 수 있는 컨볼루션 신경망(CNN) 기반 영상 패턴화를 이용한 딥러닝 시스템을 제공한다.

그리고, 도 5에서 예시한 영상 입력부(412)는, 카메라와 연결되어 직접적인 입력 영상을 수신하거나, 무선 네트워크 또는 인터넷 네트워크로부터 수신 받아 입력 가능한 장치로서, 카메라를 통해 촬영된 영상을 직접적으로 수신하여 입력하거나 무선 네트워크 또는 인터넷 네트워크를 통해 모바일 기기 또는 PC 등을 통해 영상을 수신 받는 것도 가능하다. 이와 같은 다양한 루트를 통해 영상을 입력 받음으로써, 다양한 환경 및 대량의 영상 데이터가 빅데이터로서의 기능을 수행하여 본 발명의 실시예에 따른 학습장치를 통해 보다 정확하고 높은 수준의 영상 학습 데이트를 획득할 수 있게 된다.

도 6은 본 발명의 실시예에 따른 컨볼루션 신경망 기반의 영상 패턴화를 이용한 딥러닝 시스템에 사용되는 패턴화 모듈(414)의 블록 구성을 예시한 도면이다. 도 6에 나타낸 바와 같이, 패턴화 모듈(414)은, 영상 입력부(412)로부터 수신된 영상을 다수개의 패턴 영상으로 분류하는 패턴 분류부(414a); 및 패턴 분류부(414a)로부터 적어도 하나 이상의 패턴 영상을 수신 받고 조합하여 조합 영상을 생성하는 패턴 조합부(414b)를 포함하여 구성되는 것이 바람직하다.

여기서 패턴 분류부(414a)가 입력된 영상을 패턴화하여 패턴 영상으로 분류하는 것은 영상 입력부(412)로부터 수신된 영상에서 각 환경 조건에 영향을 최소화 하도록 대응되는 다수개의 패턴 영상으로 분류하기 위함이다. 즉, 입력 영상을 각각의 환경에 강인한 패턴 영상으로 분류하고 조합한 후 학습시킴으로써, 다양한 환경문제(흔들림, 조도, 노이즈, 인식률 저하 등)에 취약한 영상 학습 정보의 질을 높일 수 있는 영상 학습장치를 제공하게 된다.

그리고, 패턴 조합부(414b)는 패턴 분류부(414a)로부터 패턴화된 각각의 패턴 영상을 서로 조합하여 패턴화된 조합 영상 데이터를 생성하는 기능을 수행한다. 이와 같이 패턴 영상을 조합하는 것은, 도 6에 예시된 바와 같이, n개의 패턴 영상을 적어도 2개 이상 조합시켜 다수개의 조합된 패턴 영상 데이터를 생성한 후 CNN 합습부(416)로 전달하게 되면, 각각 환경 조건에 강인한 패턴이 조합된 패턴 영상 데이터를 생성하게 되어, 학습 데이터로서 보다 선택적이고 풍부한 데이터를 획득할 수 있기 때문이다.

즉, 본 발명의 실시예에 적용되는 패턴화 모듈(414)은 동일한 입력 영상을 이용해 n개의 패턴화한 영상을 생성하고 이를 조합해 사용한다. 예를 들어 카메라의 각도가 틀어질 수 있으며 실외에서 촬영해야 하는 환경적인 문제가 있을 경우, 영상 입력부(412)로부터 받은 입력 영상을 패턴화 모듈(414)에 받아 패턴화 모듈(414) 내부에서 회전에 강인한 패턴과 조도에 강인한 패턴으로 변환하고 이를 CNN 학습부(416)에 전달하게 됨으로써, 보다 선택적인 데이터 획득 및 이를 통한 우수한 학습 데이터를 생성할 수 있게 된다.

그리고, 본 발명의 실시예에 적용되는 패턴화 모듈(414)에 의해 입력 영상이 패턴화되어 분류된 패턴 영상은, 국소 이진 패턴 (Local Binary Pattern) 영상, 국소 삼진화 패턴(Local Ternary Pattern) 영상, 로컬 미분 패턴(Local Derivative Pattern) 영상 및 로컬 테트라 패턴(Local Tetra Pattern) 영상 등과 같은 영상 패턴 처리 기법을 이용하여 특정 환경 조건에 대응되어 강인한 패턴 영상을 획득할 수 있다.

도 7은 본 발명의 실시예에 따른 패턴화 모듈(414)에서 사용되는 패턴화 기법으로서 국소 이진 패턴 영상(Local Binary Pattern: LBP) 처리 모식도이다. 도 7에 나타낸 바와 같이, 입력 영상이 흔들릴 경우 입력 영상의 각도 차이가 발생하게 되는데, 이와 같은 환경 조건에 강인한 패턴을 형성하기 위해, 패턴화 모듈(214)에서 국소 이진 패턴(Local Binary Pattern) 영상으로 패턴화하여 이를 해결한다.

여기서, 국소 이진 패턴(Local Binary Pattern)은 도 7에 나타낸 바와 같이, 윈도우의 중심 픽셀의 값과, 그 주변 픽셀의 값을 비교해 0 및 1로 나타내는 패턴을 말한다. 즉, 중앙 픽셀 값보다 큰 값을 1로 나타내고, 작은 값을 0으로 나타내며, 1이 나오는 개수를 얻을 수 있으며, 이 개수만으로 비교할 경우 방향에 무관하게 영상 데이터를 비교할 수 있게 됨으로써, 영상이 흔들려 각도 차이가 발생하는 환경 조건에 강인한 패턴 영상을 획득할 수 있게 된다.

도 8는 본 발명의 실시예에 따른 패턴화 모듈에서 사용되는 패턴화 기법으로서 국소 삼진 패턴 영상(Local Ternary Pattern: LTP) 처리 모식도이다. 도 8에 나타낸 바와 같이, 실외와 같이 조도 변화가 큰 환경에서 사용할 경우 조도 변화에 의한 문제가 발생하게 되는데, 이와 같은 환경 조건에 강인한 패턴을 형성하기 위해, 패턴화 모듈(414)에서 입력 영상을 국소 삼진 패턴(Local Ternary Pattern) 영상으로 패턴화하여 이를 해결한다.

국소 삼진 패턴(Local Ternary Pattern)은 국소 이진 패턴(LBP)에 문턱(threshold) 값(k)를 추가하고, -1, 0, 1로 나타내는 패턴을 말한다. 사이즈는 국소 이진 패턴(LBP)의 두 배가 되지만 조도 변화에 강인해지는 것이 실험적으로 증명되었다는 점에서, 조도 변화의 환경 조건에 강인한 패턴 영상을 획득할 수 있게 된다.

도 9는 본 발명의 실시예에 따른 패턴화 모듈에서 사용되는 패턴화 기법으로서 국소 미분 패턴 영상(Local Derivative Pattern: LDP) 처리 모식도이다. 도 9에 나타낸 바와 같이, 특징 정보가 부족한 경우 인식률이 떨어지는 문제가 발생 되는데, 이와 같은 환경 조건에 강인한 패턴을 형성하기 위해, 패턴화 모듈(414)에서 입력 영상을 국소 미분 패턴(Local Derivative Pattern) 영상으로 패턴화하여 이를 해결한다.

국소 미분 패턴(Local Derivative Pattern)은 도 9에 나타낸 바와 같이, 2차 도함수 방향 변화(derivative direction variations)를 이용하는 패턴으로 좀 더 구체화된 정보를 제공할 수 있게 되어, 특징 정보가 부족한 환경 조건에 강인한 패턴 영상을 획득할 수 있게 된다.

더하여, 또 다른 본 발명의 실시예로서, 패턴화 모듈(214)에서 사용되는 패턴화 기법으로서 국소 테트라 패턴(Local Derivative Pattern) 영상 처리 기법이 사용될 수 있음은 물론이다. 국소 테트라 패턴(Local Tetra Pattern) 영상 처리 기법은, 국소 이진 패턴(LBP), 국소 삼진 패턴(LTP) 및 국소 미분 패턴(LDP)의 특징을 합친 패턴으로서, 중앙 픽셀 값과 주변 픽셀 값들 사이의 관계를 4개의 방향성으로 나타낸 패턴이다. 이는 구체화된 정보를 얻을 수 있고, 각도, 조도에 강인하며 더 많은 특징정보를 가진다는 점에서, 다양한 환경 조건에 취약한 입력 영상에 대한 영향을 최소화 할 수 있게 된다.

그리고, 본 발명의 실시예에 따른 딥러닝 시스템에 사용되는 CNN 학습부(413)는, 패턴화 모듈(414) 및 영상 입력부(412)로부터 받은 영상의 각 특징을 추출하는 특징 추출 모듈과, 추출된 특징을 적어도 하나 이상으로 조합하여 학습 정보를 생성하는 특징 조합부를 포함하여 구성되는 것이 바람직하다.

즉, CNN 학습부(413)는 입력 영상 및 패턴화 모듈(414)을 통해 패턴화된 패턴 영상 등의 데이터를 수신 받고, 컨볼루션 신경망 구조를 기반으로 다양한 특징으로 추출하고 이를 조합하여 가중치 데이터인 학습정보를 생성하여 CNN 실행부(430)로 전달하게 된다.

예를 들어 100개의 데이터가 CNN 학습부(413)로 각각 들어가고, 특징 추출 모듈(416a)을 통해 특징 추출 과정을 거쳐 25개를 압축되었다고 가정했을 때, 특징 조합부(416b)에서 상기 25개와 25개를 같이 사용해 50개의 데이터를 CNN 학습부(413) 외부로 보내어 가중치로 적용되는 학습정보를 획득할 때 사용하게 된다.

이와 같은 본 발명의 실시예에 따른 컨볼루션 신경망 기반의 영상 패턴화를 이용한 딥러닝 시스템은, 도 5에 나타낸 바와 같이, CNN 학습부(413) 통해 CNN 구조에서 각 입력층의 패턴 영상과 패턴 영상에 대응되는 학습정보(가중치)를 획득하게 되고, 단일 또는 다중 CNN 구조를 통해 학습정보(가중치) CNN 실행부(430)로 전달하여, 출력부인 CNN 실행부(430)에서 영상 입력부(412)에서 받은 원 영상과 패턴화 모듈(414)을 거친 패턴 영상에 상기 가중치를 곱하여 최종 분류부(440)로 전달하고, 최종 분류부(440)에서 소프트-맥스 분류(soft-max classification) 등의 알고리즘을 이용해 객체를 분류하게 된다.

도 10은 본 발명의 실시예에 따른 영상 패턴화를 이용한 딥러닝 시스템에 적용되는 단일 CNN 구조의 모식도이다.

도 10 나타낸 바와 같이, 입력(510)정보들은 일반적인 단일 CNN의 구조의 입력부에 해당하고, 출력(530)은 일반적인 단일 CNN의 구조의 출력부에 해당한다. 입력 정보(510)마다 입력 정보에 학습을 통해 얻은 가중치를 적용한 값과, 입력 정보(510)들의 관계를 패턴화한 패턴 정보(520)에 패턴 가중치(522)를 적용한 값을 얻고 이를 합한다. 그리고 입력의 수만큼 존재하는 합한 값들을 최종적으로 합해 출력(530) 정보를 얻게 된다.

도 11은 본 발명의 실시예에 따른 딥러닝 시스템에 적용되는 단일 CNN 구조의 모식도이고, 도 12는 본 발명의 실시예에 따른 딥러닝 시스템에 적용되는 다중 CNN 구조의 모식도이다.

도 11 및 도 12에 나타낸 바와 같이, 본 발명의 실시예에 따른 딥러닝 시스템은 다수의 입력층과 하나의 출력층으로 구성되는 단일 CNN 구조가 적용될 수 있다. 종래의 CNN 구조는 단순히 입력 정보에 가중치(트레이닝 과정을 통해 얻은 파라미터 값)을 곱한 것을 더해 출력하는 구조였으나, 본 발명의 실시예에서 제안하는 단일 또는 다중 CNN 구조에서는 입력에 가중치를 곱하고 패턴 정보를 더하여 컨볼루션 신경망을 구성한다는 점에서 차이가 있다.

그리고, 본 발명의 실시예에서는 입력 정보간의 관계를 장치에 사용하기 위해, 입력 정보간의 관계를 이용해 생성한(예를 들어 LBP라면 일반적으로 8개의 입력 값과 그 값들의 관계, 이 경우엔 차이 값을 기준으로 0과 1로 구분하여 패턴화한다. ) 패턴 정보 역시 입력으로 사용하는 것이 가능하다.

본 명세서에서 설명되는 실시예와 첨부된 도면은 본 발명에 포함되는 기술적 사상의 일부를 예시적으로 설명하는 것에 불과하다. 따라서, 본 명세서에 개시된 실시예들은 본 발명의 기술적 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이므로, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아님은 자명하다. 본 발명의 명세서 및 도면에 포함된 기술적 사상의 범위 내에서 당업자가 용이하게 유추할 수 있는 변형 예와 구체적인 실시 예는 모두 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

412: 영상 입력부, 414: 패턴화 모듈
416: CNN 학습부 430: CNN 실행부
440: 최종 분류부

Claims

입력 영상을 입력하는 영상 입력부;
영상 입력부로부터 받은 입력 영상을 패턴화된 다수의 패턴 영상으로 생성하는 패턴화 모듈;
영상 입력부로부터 받은 입력 영상과 패턴화 모듈로부터 수신 받은 패턴 영상을 학습시키는 컨볼루션 신경망(CNN: Convolution Neural Network)을 기반으로 하는 CNN 학습부;
상기 CNN 학습부로부터 학습정보와 상기 영상 입력부로부터 받은 입력 영상을 전달받는 CNN 실행부; 및
상기 CNN 실행부로부터 영상 정보를 받아 영상 정보의 객체를 종류별로 분류하는 최종 분류부를 포함하는 것을 특징으로 하는 컨볼루션 신경망 기반의 영상 패턴화를 이용한 딥러닝 시스템.
청구항 1에 있어서,
상기 영상 입력부는,
카메라와 연결되어 직접적인 입력 영상을 수신하거나,
무선 네트워크 또는 인터넷 네트워크로부터 수신 받아 입력 가능한 장치인 것을 특징으로 하는 컨볼루션 신경망 기반의 영상 패턴화를 이용한 딥러닝 시스템.
청구항 1에 있어서,
상기 패턴화 모듈은,
영상 입력부로부터 수신된 영상을 다수개의 패턴 영상으로 분류하는 패턴 분류부; 및
패턴 분류부로부터 적어도 하나 이상의 패턴 영상을 수신 받고 조합하여 조합 영상을 생성하는 패턴 조합부를 포함하는 것을 특징으로 하는 컨볼루션 신경망 기반의 영상 패턴화를 이용한 딥러닝 시스템.
청구항 1에 있어서,
상기 패턴화 모듈은,
영상 입력부로부터 수신된 영상에서 각 환경 조건에 영향을 최소화하도록 대응되는 다수개의 패턴 영상으로 분류하는 것을 특징으로 하는 컨볼루션 신경망 기반의 영상 패턴화를 이용한 딥러닝 시스템.
청구항 1에 있어서,
패턴 영상은,
국소 이진 패턴 영상(Local Binary Pattern), 국소 삼진화 패턴 영상(Local Ternary Pattern), 로컬 미분 패턴(Local Derivative Pattern) 영상 및 로컬 테트라 패턴(Local Tetra Pattern) 영상 중 적어도 하나를 포함하는 것을 특징으로 하는 컨볼루션 신경망 기반의 영상 패턴화를 이용한 딥러닝 시스템.
청구항 1에 있어서,
상기 CNN 학습부는,
패턴화 모듈 및 영상 입력부로부터 받은 영상의 각 특징을 추출하는 특징 추출 모듈; 및
추출된 특징을 적어도 하나 이상으로 조합하여 학습 정보를 생성하는 특징 조합부를 포함하는 것을 특징으로 하는 컨볼루션 신경망 기반의 영상 패턴화를 이용한 딥러닝 시스템.
청구항 1에 있어서,
상기 패턴화 모듈은,
영상 입력부로부터 받은 입력 영상을 패턴화된 다수의 패턴 영상으로 생성하고, 생성된 패턴 영상을 실행부로 전달하는 것을 특징으로 하는 컨볼루션 신경망 기반의 영상 패턴화를 이용한 딥러닝 시스템.
청구항 1에 있어서,
상기 학습부에서 학습한 학습 정보를 저장하고, 저장된 학습 정보를 상기 실행부로 전달하는 학습 정보 저장부를 더 포함하는 것을 특징으로 하는 컨볼루션 신경망 기반의 영상 패턴화를 이용한 딥러닝 시스템.
청구항 1에 있어서,
상기 학습정보는,
패턴 영상의 가중치 정보인 것을 특징으로 하는 컨볼루션 신경망 기반의 영상 패턴화를 이용한 딥러닝 시스템.
청구항 1에 있어서,
상기 실행부는,
상기 영상 입력부로부터 입력 영상;
입력 영상이 패턴화 모듈을 통해 패턴 영상의 데이터; 및
상기 학습부로부터 생성된 학습정보를 전달받는 것을 특징으로 하는 컨볼루션 신경망 기반의 영상 패턴화를 이용한 딥러닝 시스템.
청구항 1에 있어서,
상기 컨볼루션 신경망은 다수의 입력층과 하나의 출력층으로 구성된 단일신 신경망 구조인 것을 특징으로 하는 컨볼루션 신경망 기반의 영상 패턴화를 이용한 딥러닝 시스템.
청구항 1에 있어서,
상기 컨볼루션 신경망은 다수의 입력층과 다수의 출력층으로 구성된 다중 신경망 구조인 것을 특징으로 하는 컨볼루션 신경망 기반의 영상 패턴화를 이용한 딥러닝 시스템.
청구항 1의 딥러닝 시스템을 이용하는 것으로,
(a) 영상 입력부가 입력 영상을 입력하는 단계;
(b) 패턴화 모듈이 상기 영상 입력부로부터 받은 입력 영상을 패턴화된 다수의 패턴 영상으로 생성하는 단계;
(c) CNN 학습부가 영상 입력부로부터 받은 입력 영상과 패턴화 모듈로부터 수신 받은 패턴 영상을 컨볼루션 신경망(CNN:Convolution Neural Network)을 기반으로 하여 학습시키는 단계;
(d) CNN 실행부가 상기 CNN 학습부로부터 학습정보와 상기 영상 입력부로부터 받은 입력 영상을 전달받는 단계; 및
(e) 최종 분류부가 상기 CNN 실행부로부터 영상 정보를 받아 영상 정보의 객체를 종류별로 분류하는 단계를 포함하는 것을 특징으로 하는 컨볼루션 신경망 기반의 영상 패턴화를 이용한 영상 학습방법.
청구항 13에 있어서,
상기 (c) 단계는,
특징 추출 모듈이 패턴화 모듈 및 영상 입력부로부터 받은 영상의 각 특징을 추출하는 단계; 및
조합부가 추출된 특징을 적어도 하나 이상으로 조합하여 학습 정보를 생성하는 단계를 포함하는 것을 특징으로 하는 컨볼루션 신경망 기반의 영상 패턴화를 이용한 영상 학습방법.
청구항 13에 있어서,
상기 패턴화 모듈은,
영상 입력부로부터 수신된 영상에서 각 환경 조건에 영향을 최소화하도록 대응되는 다수개의 패턴 영상으로 분류하는 것을 특징으로 하는 컨볼루션 신경망 기반의 영상 패턴화를 이용한 영상 학습방법.
청구항 13에 있어서,
패턴 영상은,
국소 이진 패턴 영상(Local Binary Pattern), 국소 삼진화 패턴 영상(Local Ternary Pattern), 로컬 미분 패턴(Local Derivative Pattern) 영상 및 로컬 테트라 패턴(Local Tetra Pattern) 영상 중 적어도 하나를 포함하는 것을 특징으로 하는 컨볼루션 신경망 기반의 영상 패턴화를 이용한 영상 학습방법.
청구항 13에 있어서,
상기 (d) 단계는,
상기 영상 입력부로부터 입력 영상, 입력 영상이 패턴화 모듈을 통해 패턴 영상의 데이터 및 상기 학습부로부터 생성된 학습정보를 전달받는 단계인 것을 특징으로 하는 컨볼루션 신경망 기반의 영상 패턴화를 이용한 영상 학습방법.
하드웨어와 결합되어 청구항 13의 컨볼루션 신경망 기반의 영상 패턴화를 이용한 영상 학습방법을 실행시키기 위하여 매체에 저장된 컴퓨터프로그램.