KR20200087335A

KR20200087335A - 합산곱신경망을 이용한 영상 처리 방법 및 장치

Info

Publication number: KR20200087335A
Application number: KR1020180173431A
Authority: KR
Inventors: 김윤; 문귀성; 안상섭
Original assignee: 강원대학교산학협력단; 주식회사 지오비전
Priority date: 2018-12-31
Filing date: 2018-12-31
Publication date: 2020-07-21

Abstract

본 발명은 합산곱신경망(CNN)을 이용한 영상 처리 기술에 관한 것으로, 새로운 로스 함수 또는 외곽선 필터를 제안하고, 이를 기반으로 하는 새로운 영상 처리 방법 및 장치들을 제공한다. 본 발명의 일 실시예로서 합성곱신경망(CNN)을 이용한 영상인식방법은 이미지 데이터를 입력받는 단계와 이미지 데이터에 대한 N개의 입력 특징맵들 중 M개의 외곽선 필터들을 적용하여 M개의 하이패스맵들을 생성하고, 나머지 특징맵들에 대해서 기존 로스 함수들을 적용하여 N-M개의 일반맵들을 생성하는 단계와 M개의 하이패스맵들과 N-M개의 일반맵들을 연속 결합하여 N개의 출력 특징맵들을 출력하는 단계를 포함할 수 있다. 이때, M개의 외곽선 필터들은 행렬로 정의되며, 각 행렬들은 포함하는 성분들의 합이 '0'이고, 행렬 내 성분들은 양수 및 음수를 포함할 수 있다.

Description

합산곱신경망을 이용한 영상 처리 방법 및 장치{An image processing method by using a convolution neural network and an apparatus thereof}

본 발명은 합산곱신경망(CNN: Convolution Neural Network)을 이용한 영상 처리 기술에 관한 것으로, 특히 CNN 방식에 적용될 새로운 로스 함수 및 이를 이용한 외곽선 필터를 제안하고, 이를 기반으로 하는 CNN 방식 및 이를 이용한 영상 처리 방법 및 장치에 관한 것이다.

종래에 영상을 인식하는 방법을 만드는 것은 아주 어려웠다. 대부분은 전문가가 특수한 목적으로 사용할 영상 및 이미지들을 확보한 후, 그 환경에 맞게 원하는 영상을 전처리하고 원하는 영역을 추출하고 추출된 영역에 대해 특징을 뽑고 그 특징들을 기계학습을 통하여 분류하여 인식하는 방법을 사용하였다.

도 1은 종래의 영상 처리 방법을 설명하는 도면이다.

도 1을 참조하면, 입력된 영상에 대해서 전문가가 영상 전처리 과정을 수행하고 (S1010, S1020), 영상의 특징을 추출한 후 (S1030), 클래스를 분류하여 영상처리 장치가 학습을 할 수 있도록 제어한다 (S1040). 이때, S1020 및 S1030 단계는 수동으로 각 전문가에 의해 처리되며, 이에 따라 결과가 도출된다 (S1050).

최근에는 다양한 영상 처리 방법들이 개발되고 있으며, 실생활에 적용되고 있다. 영상 처리 방법들은 다양한 분야에 적용될 수 있으며, 일 예로 해변 등에서 사람들의 안전을 살필 수 있는 지능형 감시 시스템이 개발되고 있다.

그럼에도, 물놀이 안전 사고는 해마다 많이 발생한다. 사고를 막기 위해 전문적인 구조인력과 구명장비들이 보충되고 있지만 많은 피서객들을 살피는 것은 한계가 있다. 최근 개발되는 지능형 영상 처리 기법을 활용한 기존 시스템들은 파도 및 빛 반사가 많은 지역에서 사람들을 잘 인식하지 못하는 문제도 노출하고 있다.

근래에는 이러한 영상 처리 방법들의 문제를 해결하기 위한 것으로서, 합성곱신경망(CNN)을 이용한 지능형 감시 시스템 모델들이 개발되고 있다. CNN 모델은 훈련데이터를 잘 분리하도록 학습이 되지만, 어떤 특징들을 찾아서 검출되는지 정확히 알기 어려운 문제점이 있다.

본 발명과 관련된 종래 기술로서 한국 특허 출원 제10-2017-0087862호인 딥 러닝 기반 보안 서비스 제공 시스템 및 방법이 있다. 해당 발명은 딥 러닝 기반 보안 서비스 제공 시스템 및 방법에 관한 것으로서, 센서의 감지에 따른 센싱 신호 수신 시점에 카메라를 통해 촬영된 영상에 나타나는 감시 대상 객체를 딥 러닝 방식을 통해 분석하여 감시 대상 객체에 대한 식별 정확도를 높여 감시 대상 객체가 아닌 객체로 인한 오보율을 낮추는 동시에 영상을 구성하는 복수의 이미지 중 감시 대상 객체가 식별된 이미지의 영상 특징을 반복 학습하여 감시 대상 객체의 식별이 가능한 최적의 이미지가 제공되도록 하여 센서에 의해 감지된 감시 대상에 대한 보고 누락이 발생하지 않도록 지원하는 방법에 관한 것이다. 다만, 해당 발명은 특정 인물에 대한 감시를 위한 방법으로 다수의 사람들, 특히 일반적인 이미지를 기반으로 영상 내에서 '사람'이라는 불특정 다수들을 식별해낼 수 없다. 또한, 본 발명과 관련된 종래 기술로서 한국 특허 출원 제10-2018-0033533호로서 가상 3차원 심층 신경망을 이용하는 영상 분석 장치 및 방법이 있다. 해당 발명은 가상 3차원 심층 신경망을 이용하는 영상 분석 장치 및 방법으로서, 영상 분석 장치는 복수의 2차원 영상 데이터를 미리 설정된 순서대로 쌓는 영상 획득부와 영상 획득부로부터의 쌓은 형태의 복수의 2차원 영상 데이터에 대한 서로 다른 형태들의 복수의 정보에 기초하여 복수의 3차원 데이터를 생성하는 3차원 영상 생성부, 및 3차원 영상 생성부로부터의 복수의 3차원 데이터 각각에 대해 2차원 합성곱 신경망을 적용하고 복수의 3차원 데이터에 대한 2차원 합성곱신경망의 적용 결과들을 합치는 딥러닝 알고리즘 분석부를 포함하고 있다. 해당 발명은 2차원 이미지를 3차원으로 구성하고, 이에 대해서 다시 합성곱신경망 방식을 적용하는 것으로서, 본원 발명에서 제안하는 기술적 특징에 대해서는 개시하지 못하고 있다.

본 발명의 목적은 향상된 영상 처리 방법을 제공하는 것이다.

본 발명의 다른 목적은 CNN 등 영상 처리 방법들에 객체의 외곽선 특징들을 반영시킬 새로운 로스 함수를 설계하고 이를 이용한 새로운 외곽선 필터를 제공하는 것이다.

본 발명의 또 다른 목적은, 새로운 로스 함수가 적용된 CNN을 기반으로 한 영상 처리 방법을 제공하는 것이다.

본 발명의 또 다른 목적은 상술한 방법들을 지원하거나, 적용되는 장치를 제공하는 것이다.

본 발명에서 이루고자 하는 기술적 목적들은 이상에서 언급한 사항들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 이하 설명할 본 발명의 실시예들로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 고려될 수 있다.

이하에서는 본 발명의 실시예들로서 합산곱신경망(CNN)을 이용한 영상 처리 기술들에 관한 것이다.

본 발명의 일 실시예로서 합성곱신경망(CNN)을 이용한 영상인식방법은 이미지 데이터를 입력받는 단계와 이미지 데이터에 대한 N개의 입력 특징맵들 중 M개의 새로운 로스 함수를 적용하여 M개의 하이패스맵들을 생성하고, 나머지 특징맵들에 대해서 기존의 일반적인 로스 함수들을 적용하여 N-M개의 일반맵들을 생성하는 단계와 M개의 하이패스맵들과 N-M개의 일반맵들을 연속 결합하여 N개의 출력 특징맵들을 출력하는 단계를 포함할 수 있다. 이때, M개의 외곽선 필터들은 행렬로 정의되며, 각 행렬들은 포함하는 성분들의 합이 '0'이고, 각 행렬들의 성분들은 양수 및 음수를 포함할 수 있다.

이때, 새로운 로스 함수는 이미지 데이터의 객체를 판단하기 위해 CNN에서 객체의 외곽선에 대한 특성을 추출하도록 설계될 수 있다. 또한, 새로운 로스 함수는 하이패스맵에 해당하는 필터들을 외곽선 필터의 모양으로 학습되도록 설계될 수 있다.

기존 로스 함수는 이미지 데이터에 대한 분석값과 정답의 오차 간에 손실이 작아지는 방향으로 학습을 진행하도록 설계될 수 있다.

N개의 출력 특징맵들에 대해서 최대 풀링 방식 또는 평균 풀링 방식이 적용될 수 있다. 최대 풀링 방식 또는 평균 풀링 방식이 적용된 이후, 다시 기설정된 횟수의 컨볼루션이 N개의 특징맵들에 대해서 적용되어 최종 특징맵들이 도출될 수 있다.

최종 특징맵들로부터 객체를 인식해내기 위해, 덴스 레이어에서 클래스를 분류할 수 있다.

본 발명의 다른 실시예로서 합성곱신경망(CNN)을 이용한 영상인식장치는 영상수신부 및 컨볼루션 레이어를 포함할 수 있다.

이때, 영상인식장치는 영상수신부를 통해 이미지 데이터를 입력받고, 컨볼루션 레이어에서 이미지 데이터에 대한 N개의 입력 특징맵들 중 M개의 새로운 로스 함수를 적용하여 M개의 하이패스맵들을 생성하고, 나머지 특징맵들에 대해서 기존 로스 함수들을 적용하여 N-M개의 일반맵들을 생성하되, M개의 하이패스맵들과 N-M개의 일반맵들을 연속 결합하여 N개의 출력 특징맵들을 출력하도록 구성되되, M개의 외곽선 필터들은 행렬로 정의되며, 각 행렬들은 포함하는 성분들의 합이 '0'이고, 성분들은 양수 및 음수를 포함하는 것을 특징으로 할 수 있다.

상기 영상인식장치는 풀링 레이어를 더 포함하고, 풀링 레이어는 N개의 출력 특징맵들에 대해서 최대 풀링 방식 또는 평균 풀링 방식을 적용할 수 있다. 최대 풀링 방식 또는 평균 풀링 방식이 적용된 이후, 다시 기설정된 횟수의 컨볼루션이 N개의 특징맵들에 대해서 적용되어 최종 특징맵들이 도출될 수 있다.

상기 영상인식장치는 덴스 레이어를 더 포함하고, 덴스 레이어에서 최종 특징맵들로부터 객체를 인식해내기 위해 클래스를 분류할 수 있다.

본 발명의 또 다른 실시예로서 영상인식방법들이 수행되도록 구성되는 알고리즘이 포함된 기록매체가 구성될 수 있다.

상술한 본 발명의 양태들은 본 발명의 바람직한 실시예들 중 일부에 불과하며, 본원 발명의 기술적 특징들이 반영된 다양한 실시예들이 당해 기술분야의 통상적인 지식을 가진 자에 의해 이하 상술할 본 발명의 상세한 설명을 기반으로 도출되고 이해될 수 있다.

본 발명의 실시예들에 따르면 다음과 같은 효과가 있다.

첫째, 향상된 영상 처리 방법을 제공하기 위해 CNN 등에 외곽선 필터를 만드는 새로운 로스 함수를 설계하여 학습된 외곽선 필터를 생성할 수 있다.

둘째, 본 발명에서 제안하는 외곽선 필터를 학습하는 새로운 로스 함수를 CNN에 적용함으로써 복잡한 영상 안에 있는 움직이는 객체를 정확하게 감지할 수 있다.

셋째, 본 발명에서 제안하는 외곽선 필터를 학습하는 새로운 로스 함수로 학습시킴으로써 종래 영상인식방법들과 달리 적은 데이터로 학습을 하더라도 영상을 더욱 정확하게 분석할 수 있다.

본 발명의 실시예들에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 이하의 본 발명의 실시예들에 대한 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 도출되고 이해될 수 있다. 즉, 본 발명을 실시함에 따른 의도하지 않은 효과들 역시 본 발명의 실시예들로부터 당해 기술분야의 통상의 지식을 가진 자에 의해 도출될 수 있다.

본 발명에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되고, 첨부된 도면들은 본 발명에 대한 다양한 실시예들을 제공한다. 또한, 첨부된 도면들은 상세한 설명과 함께 본 발명의 실시 형태들을 설명하기 위해 사용된다.
도 1은 종래의 영상 처리 방법을 설명하는 도면이다.
도 2는 CNN 과정의 일례를 설명하기 위한 도면이다.
도 3은 그림이 그려지는 과정을 설명하기 위한 도면이다.
도 4는 특정 이미지에서 외곽선을 도출하는 필터들을 설명하기 위한 도면이다.
도 5는 본 발명의 실시예로서 직관적 CNN 모델의 핵심 구조를 설명하기 위한 도면이다.
도 6은 도 5에서 설명한 직관적 CNN 모델을 보다 구체적으로 설명하기 위한 도면이다.
도 7은 종래 영상 인식 방법들과 본원 발명에 따른 직관적 CNN 방법의 출력 결과를 설명하기 위한 도면이다.
도 8은 본 발명의 실시예로서 직관적 CNN이 구현되는 장치를 설명하기 위한 도면이다.

이하에서는 본 발명의 실시예들로서 합산곱신경망(CNN: Convolution Neural Network)을 이용한 영상 처리 기술을 제공한다. 특히, CNN 방식에 적용될 새로운 로스 함수를 제안하고, 이를 기반으로 하는 CNN 방식 및 이를 이용한 영상 처리 방법 및 장치들에 대해서 설명한다.

이하의 실시예들은 본 발명의 구성요소들과 특징들을 소정 형태로 결합한 것들이다. 각 구성요소 또는 특징은 별도의 명시적 언급이 없는 한 선택적인 것으로 고려될 수 있다. 각 구성요소 또는 특징은 다른 구성요소나 특징과 결합되지 않은 형태로 실시될 수 있다. 또한, 일부 구성요소들 및/또는 특징들을 결합하여 본 발명의 실시예를 구성할 수도 있다. 본 발명의 실시예들에서 설명되는 동작들의 순서는 변경될 수 있다. 어느 실시예의 일부 구성이나 특징은 다른 실시예에 포함될 수 있고, 또는 다른 실시예의 대응하는 구성 또는 특징과 교체될 수 있다.

도면에 대한 설명에서, 본 발명의 요지를 흐릴 수 있는 절차 또는 단계 등은 기술하지 않았으며, 당업자의 수준에서 이해할 수 있을 정도의 절차 또는 단계는 또한 기술하지 아니하였다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함(comprising 또는 including)"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. 또한, "일(a 또는 an)", "하나(one)", "그(the)" 및 유사 관련어는 본 발명을 기술하는 문맥에 있어서(특히, 이하의 청구항의 문맥에서) 본 명세서에 달리 지시되거나 문맥에 의해 분명하게 반박되지 않는 한, 단수 및 복수 모두를 포함하는 의미로 사용될 수 있다.

또한, 본 발명의 실시예들에서 사용되는 특정(特定) 용어들 및/또는 기호들은 본 발명의 이해를 돕기 위해서 제공된 것이며, 이러한 특정 용어의 사용은 본 발명의 기술적 사상을 벗어나지 않는 범위에서 다른 형태로 변경될 수 있다.

이하, 본 발명에 따른 바람직한 실시 형태를 첨부된 도면을 참조하여 상세하게 설명한다. 첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 발명의 예시적인 실시형태를 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 실시형태를 나타내고자 하는 것이 아니다.

1. 합산곱신경망 (CNN)

CNN은 해당 프로그램 또는 CNN이 적용 또는 구현된 장치에 영상이 입력되면, 종래 영상 처리 방법과 달리 전문가가 영상을 전처리하고 특징을 추출하는 과정 없이, 자동으로 영상의 특징이 추출되고 이 특징들로 영상을 인식하여 결과를 알려주는 영상처리기법이다.

CNN 알고리즘은 먼저 사진/이미지에서 기본적인 특징을 찾고, 그 특징들을 조합해서 복잡한 특징을 찾아내며, 그 다음 찾은 모든 특징들을 토대로 이미지를 분류할 수 있다. 예를 들어, A라는 이미지를 입력하면서 "이것은 강아지다"라고 정답을 미리 알려주면서 학습시키면, CNN이 탑재된 기계는 A 이미지의 특징들을 추출해서 강아지에 대한 정보를 저장한다. 이후 A'라는 이미지를 입력하면서 "이것은 강아지다"라고 다시 정답을 미리 알려주면서 학습을 시키면 기계는 또 A'의 이미지의 특징들을 추출해서 강아지에 대한 정보를 추가로 학습한다. 이와 같이 수 백번, 수 천번 반복해서 강아지 이미지들을 학습시키면, 나중에 개와 관련된 A'' 이미지를 기계에 입력하면 A'' 이미지의 객체(object)가 강아지인지 아닌지를 기계가 판단하여 결과를 도출할 수 있다.

CNN에는 두 가지 신경망이 있다. 첫 번째는 특징을 추출하는 신경망이고, 두 번째는 추출된 특징들을 분류하는 신경망이다. 특징을 추출하는 신경망은 컨볼루션 레이어(Convolution Layer) 및 풀링 레이어(Pooling Layer)를 포함하며 각각 컨볼루션과 풀링을 하는 과정을 수행하고, 분류하는 신경망은 덴스 레이어(Dense Layer)를 포함하며, 출력 과정을 수행한다.

컨볼루션 레이어는 입력되는 이미지 데이터에 대해서 소정의 필터들을 이용하여 합산곱 즉 컨볼루션을 수행한다. 즉, 컨볼루션 레이어는 필터를 이용하여 이미지 데이터의 특징(feature)들을 추출하여 특징맵(Feature map)을 구성하는 구성 요소를 의미한다. 컨볼루션 레이어는 학습 가능한 필터들의 집합으로 구성되고, 모든 필터는 작은 공간성이 있지만 입력량의 전체 공간으로 확장될 수 있다.

풀링 레이어는 컨볼루션 레이어에서 출력되는 출력 데이터(Active Map 또는 Feature Map)를 입력받고, 해당 출력 데이터의 크기를 줄이거나 특정 데이터를 강조하는 용도로 사용된다. 풀링 레이어는 많은 픽셀들의 이미지 특성상 특징을 줄이기 위해 컨볼루션 레이어에서 출력한 특징맵들에 대해서 서브샘플링(subsampling)을 수행하는 구성 요소를 의미한다. 풀링 레이어는 입력 공간을 추상화하는 레이어로 서브샘플링을 통해 자원을 축소한다. 이때, 각 필터당 최대값을 추출하는 최대 폴링(max pooling) 방식과 각 필터의 결과값을 평균하여 도출하는 평균 폴링(average pooling) 방식이 있다. 최대 풀링 방식은 출력 데이터의 각 구간에서 최대 값을 추출하는 것이고, 평균 풀링 방식은 각 구간의 평균값을 출력하는 것이다. 결과적으로, 풀링 레이어를 통과하면, 행렬의 크기가 감소하게 되지만, 채널의 수에는 변경이 없다.

즉, CNN은 입력된 이미지에서 특징을 찾고, 결과를 도출하기 위해 특징을 부각시킨 새로운 이미지를 만드는 과정을 수행한다. 이때, 입력된 이미지를 입력 특징 맵, 새로 만들어진 이미지는 출력 특징 맵이라고 부를 수 있다.

덴스 레이어는 CNN의 마지막에 적용되며, 컨볼루션 레이어 및 풀링 레이어에서에 전달된 특징들을 분류하는 구성 요소이다. 즉, 컨볼루션 레이어와 폴링 레이어를 번갈아 가면서 가용한 특징을 추출한 후 마지막으로 덴스 레이어를 통해 분류한다.

따라서, 컨볼루션 레이어와 풀링 레이어가 반복 적용되어 객체 또는 객체의 일부를 찾는 특징들이 만들어지고, 덴스 레이어는 이러한 특징들을 클래스로 분류하여 분류된 특징에 개와 관련된 특징들이 포함되면 결과값을 '개'로 분류하고, 자동차와 관련된 특징들이 포함되면 결과값을 '자동차'로 분류한다. 결과적으로 과거의 영상인식방법과는 다르게, CNN의 경우 영상만 입력해주면 알아서 기계(즉, 장치)가 해당 영상을 분석 및 인식하여 결과를 도출할 수 있다.

본 발명의 실시예들에서, 채널이라는 용어가 사용된다. 입력되는 이미지 데이터에 대한 채널의 개수는 해당 이미지 데이터에 적용되는 필터의 개수에 대응된다. 입력 이미지 데이터의 이미지 픽셀들은 각각 실수로 표현될 수 있다. 컬러 이미지는 색을 표현함에 있어서 각각의 픽셀을 빨강(R: Red), 녹색(G: Green) 및 파랑(B: Blue)와 같이 3개의 실수로 표현한 3차원 데이터이다. 컬러 이미지는 각 색깔에 따라 3개의 채널로 구성될 수 있으며, 흑백은 2차원의 데이터로 1개의 채널로 구성될 수 있다. 예를 들어, 높이가 30 픽셀이며, 폭이 30 픽셀인 컬러 사진의 데이터의 형상은 (30, 30, 3)으로 표현될 수 있으며, 동일 픽셀의 흑백 사진의 경우는 (30, 30, 1)로 표현될 수 있다. CNN 모델의 컨볼루션 레이어에 입력되는 입력 이미지는 한 개 이상의 필터가 적용되므로, 1개의 필터는 특징맵의 채널이 된다. 즉, 컨볼루션 레이어에 n 개의 필터가 적용된다면, 출력 데이터도 동일하게 n 개의 채널이 된다.

필터(Filter)는 이미지의 특징을 찾아내기 위한 공용 파라미터이다. 필터는 다른 말로 커널(Kernel)로 불릴 수 있다. 필터는 보통 5X5 또는 3X3와 같이 정사각 행렬로 정의될 수 있다. CNN에서 학습의 대상은 필터이다. 입력된 이미지 데이터가 여러 채널을 갖는 경우, 컨볼루션 레이어는 채널 별로 필터를 순회(stride)하여 합성곱을 계산한 후, 채널별 특징 맵을 구성한다. 이후 컨볼루션 레이어는 각 채널별 특징 맵을 합하여 최종 특징 맵을 출력한다. 결과적으로, 이미지 데이터의 채널 수와 관계없이 필터 별로 1개의 특징 맵이 만들어진다. 본 발명의 실시예들에서는 CNN 등 영상 처리 방법에 이미지 객체의 외곽선 특징을 반영시키기 위한 새로운 로스 함수를 정의하고, 이를 토대로 생성 및/또는 학습된 필터를 외곽선 필터라고 부를 수 있다.

다음 도 2는 CNN 과정의 일례를 설명하기 위한 도면이다.

CNN이 적용된 장치는 기계학습, 즉 딥러닝을 수행하여 학습 과정을 거친다. 도 2의 상단은 CNN에서 기계(즉, 장치)가 학습하는 과정을 나타낸다. CNN이 적용 또는 탑재된 장치에 데이터 즉, 이미지가 입력되면(S2010), 입력된 이미지에서 로우 데이터, 즉 원본 데이터가 추출된다(S2030).

이후 컨볼루선 레이어 및 풀링 레이어가 반복 적용되어 특징을 추출하는 과정이 수행되고(S2050), 이러한 특징들을 기반으로 특징 맵이 구성된다(S2070).

분류기, 즉 덴스 레이어는 추출된 특징들을 분류하여 결과값을 출력 및 저장한다(S2090).

도 2 상단에 설명한 학습 과정은 앞서 설명한 바와 같이 수백번 내지 수만번을 거쳐 충분히 수행된다. 예를 들어, 분류기를 통해 도출된 결과값은 S2070 단계에서 특징맵을 추출하는 과정에 반영된다. 이때, 컨볼루션 레이어에서는 추출된 원본 특징에 로스 함수(Loss Function)를 적용하여 실험값과 정답의 오차 간에 손실이 작아지는 방향으로 학습을 진행한다.

도 2의 하단은 CNN 과정에서 충분히 학습 과정을 거친 후에 실제 결과값을 도출하기 위한 테스트를 수행하는 테스트 단계를 나타낸다. 도 2 하단을 참조하면, S2020 단계 내지 S2080 단계는 S2010 단계 내지 S2070 단계와 동일하게 수행된다. 다만, 분류기 또는 덴스 레이어에서는 학습 단계에서 학습되어 인식하고 있는 값을 기반으로 입력된 영상 이미지가 어떤 객체에 대한 것인지에 대한 결과를 도출할 수 있다 (S2085).

2. 외곽선 필터 설계

본 발명이 적용되는 CNN 방식은 인사이트 CNN(insight CNN) 또는 직관 CNN으로 불릴 수 있다. 본 발명의 실시예들은 1절에서 설명한 CNN의 특징을 기반으로 구현될 수 있다. 즉, 이하에서 설명하는 실시예들에서 특별히 다르게 정의하지 않는 이상, 이하 기술될 용어와 앞서 설명한 용어가 동일한 경우에는 동일한 의미를 갖는다.

인사이트 CNN은 영상의 핵심적인 특징이 무엇일까에 대한 물음에서 시작하였다. 사람이 영상을 어떻게 인식하는지 살펴볼 수 있는 가장 좋은 방법은 그림을 그리는 방법으로부터 찾을 수 있다.

도 3은 그림이 그려지는 과정을 설명하기 위한 도면이다.

도 3을 참조하면, 그림을 그리기 위해서 일반적으로 가장 먼저 밑그림을 그린다. 그 다음 많은 선들을 다듬고 기본색을 칠하고 명암 및 패턴 등을 그려 그림을 완성한다.

이때 본 발명이 착안된 포인트는 그림의 결과는 밑그림을 그리는 단계에서 이미 정해진다는 것이다. 다시 말하면, 특정 그림이 어떤 것을 객체로 하는지에 대해서 색깔이나 명암 및 패턴보다도 밑그림, 즉 그림의 외곽선이 그 그림의 객체를 결정하는 가장 큰 특징인 것을 알 수 있다. 이러한 아이디어에 착안해 영상 인식 방법으로 사용되는 CNN에 추출되는 특징맵에 밑그림처럼 특징을 나타낼 수 있도록 학습 방향을 안내해주는 새로운 필터를 설계할 필요가 있다.

도 4는 특정 이미지에서 외곽선을 도출하는 필터들을 설명하기 위한 도면이다.

종래 영상 분석 방법들에서 영상의 밑그림의 특징을 추출하는 외곽선 필터들이 존재한다. 외곽선 필터는 로버츠(Roberts) 필터, 프리윗(Prewitt) 필터 및 소벨(Sobel) 필터 등이 존재하며, 각각 도 4(a), 도 4(b) 및 도 4(c) 해당 필터들의 일례를 나타낸다. 각 외곽선 필터는 도 4에 도시된 바와 같이 행렬로서 표현될 수 있다.

본 발명에서는 이러한 종래 외곽선 필터들의 성질을 파악하여, CNN에 적용할 수 있는 새로운 로스 함수를 정의하여 외곽선 필터를 학습시키는 방법을 제안한다. 종래 외곽선 필터들의 첫 번째 특징은 모든 필터 내 성분들의 총 합이 '0'이 된다는 것이다. 또한, 두 번째 특징은 필터의 각 성분들은 '0'을 포함하나 모두 '0'이 아니며, 음수 및 양수가 존재한다는 것이다. 이러한 기존 외곽선 필터들의 특징을 기반으로, CNN 모델을 새로운 외곽선 필터를 학습하도록 설계할 수 있다.

현재 CNN 모델(도 2 참조)의 학습 단계에서, CNN 방식은 소프트 맥스 크로스 엔트로피 로스 (SoftMax-Cross Entropy Loss) 함수를 사용하여 학습을 수행한다. 기존 로스 함수로 사용하는 크로스 엔트로피 함수는 다음 수학식 1과 같다.

수학식 1에서 N은 CNN을 통해 분류할 최종 객체의 개수, 즉 클래스의 개수 (i=1,...,N)를 의미하고, yi는 i번째 클래스의 정답값을 의미하며, ai는 i번째 클래스의 분석값을 의미한다.

도 5는 본 발명의 실시예로서 직관적 CNN 모델의 핵심 구조를 설명하기 위한 도면이다.

직관적 CNN에서는 컨볼루션 레이어에서 적용되는 로스 필터들 중 일부 또는 전부를 새로운 외곽선 필터로 학습함으로써, CNN이 이미지의 객체를 판단하기 위해 밑그림의 특성을 추출할 수 있도록 방향을 안내할 수 있다.

예를 들어서, 컨볼루션 레이어에서는 두 종류의 로스 함수들이 사용될 수 있다. 보다 상세하게, 컨볼루션 레이어에서 처음 도출하는 특징 맵들은 기존 로스 함수(또는, 제1 로스 함수)가 적용되어 일반적으로 학습되는 일반 맵(General Map)과 새로운 로스 함수(또는, 제2 로스 함수)가 적용되어 외곽선 필터로 학습되는 하이 패스 맵(High Pass Map)을 포함할 수 있다.

이때, 하이 패스 맵을 도출하기 위해 학습되는 외곽선 필터들을 'Wh'라 정의한다. 다음 수학식 2는 도 4를 토대로 도출한 외곽선 필터들의 두 가지 특징이 CNN에 적용되도록 설계된 로스 함수로서 새로운 외곽선 필터의 일례를 나타낸다.

수학식 2에서 'N' (i=1, 2, ..., N)은 최종적으로 분류할 클래스의 개수를 의미하고, 'M' (j=1, 2, ..., M, M

N)은 하이 패스 맵들을 도출하기 위해 사용되는 새로운 외곽선 필터들의 개수를 의미한다.

3. 새로운 외곽선 필터를 이용한 직관적 CNN의 학습 과정

이하에서는 본 발명의 실시예로서 제1절 및 제2절에서 설명한 CNN 모델 및 새로운 외곽선 필터를 이용한 직관적 CNN의 학습 과정에 대해서 설명한다.

직관적 CNN 모델에서 가중치의 학습은 기존 가중치 값에서 새로운 로스 함수를 기존 가중치로 편미분한 값이 빼지면서 갱신이 된다. 다음 수학식 3은 직관적 CNN 모델이 새로운 로스 함수를 이용하여 학습하는 과정을 나타낸다.

수학식 3에서 Wi는 CNN에서 사용되는 컨볼루션의 모든 가중치들 중에서 i번째에 해당하는 가중치를 의미한다. 예를 들어, Wi(t)는 현재 해당하는 가중치의 값을 의미하고 Wi(t+1)은 학습이 진행되어 수정된 가중치 값을 의미한다.

수학식 3에서 E_total은 로스 함수 값 또는 에러 함수 값을 의미하며,

의 의미는 현재 가중치가 매우 작은 값이 증가할 때 로스가 증가하는 값을 의미한다. 본 발명의 실시예들에서 직관적 CNN 모델은 새로운 로스 함수가 작아지는 방향으로 학습하는 것을 목표로 하기 때문에, 수학식 3은 현재 가중치 값에서 새로운 로스 함수에 가중치로 편미분을 취한 값을 빼서 로스가 작아지는 방향으로 가중치를 갱신하는 것을 의미한다.

이러한 방식으로 직관적 CNN이 학습되면, 하이 패스 맵에서 가중치들을 제외한 나머지는 외곽선 필터인 'Wh'에 관련된 항이 미분되어 사라진다. 다음 수학식 4는 수학식 3에 수학식 2를 적용한 결과를 나타낸다.

하이 패스 맵에 대한 가중치들은 수학식 4와 같이 갱신이 되는데, 수학식 4에서

항은 외곽선 필터의 첫 번째 특징인 필터의 모든 요소들의 합이 '0'이라는 조건을 나타낸다. 또한,

항은 외곽선 필터의 두 번째 특징으로 외곽선 필터의 요소들이 모두 '0'이 아니라 양수 값과 음수 값이 적절하게 존재하도록 안내하는 역할을 한다.

다시 도 5를 참조하면, 분석할 컬러 이미지가 직관적 CNN 모델에 입력된다. 컬러 이미지는 3차원 이미지로서 빨간색(R), 초록색(G), 파란색(B)의 3개 채널로 분류되고 (S5010), 이후 각 채널들은 2차원의 흑백 데이터로 전환된다 (S5020).

이후, 컨볼루션 레이어에서 총 N개의 특징 맵들 중 M개에는, 외곽선 특징을 반영시키기 위해, 학습할 때 새로운 로스 함수가 적용되고, N-M개(또는, L개)의 특징맵들에는 기존 로스 함수가 적용된다. 따라서, M개의 하이 패스 맵이 생성되고 (S5031), N-M개의 일반 맵이 생성된다 (S5033).

S5031 단계 및 S5033 단계에서 모든 특징맵들에 외곽선 필터를 학습시키기 위한 새로운 로스 함수를 적용시키지 않는 이유는 직관적 CNN 모델이 외곽선 특징을 기반으로 영상을 처리하되, 기존 딥러닝 방식으로 기계가 스스로 다른 특징을 학습하도록 유도하기 위함이다. 또는, 이와 다른 실시예로서 모든 특징맵들에 외곽선 특징을 반영시키기 위해 새로운 로스 함수를 적용시킬 수 있다.

다음으로, M개의 하이 패스 맵과 N-M 개의 일반 맵이 연속(concatenation) 방식으로 결합된다 (S5040). 결합된 N개의 특징 맵들은 기존 CNN 방식과 같이 컨볼루션 레이어 및 풀링 레이어에서 객체의 특징들이 추출되고 (S5050), 덴스 레이어에서 각 객체들에 대한 클래스를 분류한다 (S5060).

도 6은 도 5에서 설명한 직관적 CNN 모델을 보다 구체적으로 설명하기 위한 도면이다.

도 6을 참조하면, 직관적 CNN에 컬러 이미지 입력으로 RGB 이미지가 입력된다 (S6010). RGB 이미지는 각각 R, G, B의 세 개의 채널로 분류되고, R, G 및 B 채널들은 각각 흑백 채널로 전환된다 (S6020).

도 6에서는 입력 이미지에 총 32개의 필터가 적용되는 것을 가정하여 설명한다. 따라서, 컨볼루션 레이어에서는 32개의 특징맵이 출력되는데, 이때 특징맵 32개 중 24개에는 3X3 크기의 새로이 정의된 새로운 로스 함수가 적용된다. 즉, 24개의 특징맵들은 새로운 외곽선 필터들이 학습되는 하이 패스 맵이고, 나머지 8개의 채널은 3X3 크기의 기존 로스 함수가 적용 및 학습되는 일반 맵이다. 따라서, 컨볼루션 레이어에서는 24개의 하이 패스 맵 및 8개의 일반 맵을 출력한다 (S6031, S6033).

컨볼루션 레이어에서는 24개의 하이 패스 맵과 8개의 일반 맵을 연속 방식으로 결합하여 32개의 특징맵을 출력한다 (S6040).

이후, 풀링 레이어에서는 2X2 최대 풀링 방식으로 스트라이드하여 풀링 레이어에 입력된 32개의 특징맵들의 크기를 줄이거나, 특정 이미지를 추출할 수 있다. 풀링 레이어를 거치더라도 32개의 채널의 개수는 변함이 없다. 풀링 레이어를 거친 특징맵들은 다시 컨볼루션 레이어에 입력되어, 1X1 컨볼루션, Residual Block, 3X3 컨볼루션이 도 6과 같이 기설정된 횟수만큼 적용되어, 128개의 채널이 출력된다 (S6050).

컨볼루션 레이어 및 풀링 레이어를 거쳐 출력된 128개의 채널(즉, 특징맵)들에 대해서 덴스 레이어에서 클래스별 분류과정을 거쳐 최종적으로 2개의 채널이 출력된다 (S6060).

도 7은 종래 영상 인식 방법들과 본원 발명에 따른 직관적 CNN 방법의 출력 결과를 설명하기 위한 도면이다.

직관적 CNN 방법의 결과를 비교하기 위해, 해운대 CCTV 영상을 이용하였다. 이때, 학습 데이터를 위해 6장, 평가 데이터를 위해 3장, 테스트로는 다수의 동영상을 사용하였다. 그리고 다음 표 1과 같이 직관적 CNN 모델과 대조군으로 Semantic Segmentation의 대표 모델인 FCN(Fully Convolutional Networks) 모델들이 사용되었다.

모델종류	처리속도/정확도	설명
FCN-vgg(pre training)	2FPS / 0.98339	약 100만장의 데이터로 미리 학습된 필터를 사용한 모델
FCN-vgg	2FPS / 0.98223	위와 동일하나 미리 학습이 안되어 있는 모델
FCN-vgg-insight	2FPS / 0.98767	앞의 32개 레이어에 외곽선 Loss를 추가한 모델
Insight CNN	4.1FPS / 0.98907	해운대 영상에 맞게 새로 구축한 모델(외곽선 Loss포함)

도 7(a)는 선행학습 모델로 FCN-vgg로 ImageNet의 100만장의 데이터로 미리 학습된 가중치를 초기값으로 사용한 모델이다. 도 7(b)는 FCN-vgg로 가중치의 초기값을 랜덤으로 사용한 모델이다. 도 7(c)는 FCN-vgg-insight로 FCN 모델에 본원 발명에서 제안한 새로운 외곽선 필터로 학습하도록 안내하는 로스 함수를 추가하였고, 가중치의 초기값은 랜덤으로 설정한 모델이다. 마지막으로 도 7(d)는 본원 발명에서 설명한 직관적 CNN 방식으로 도출한 영상 인식 결과 화면이다.

도 7에서 각 실험 결과는 굵은 실선으로 구분된 영역이 사람으로 검지한 영역이다. 도 7의 결과들을 살펴보면 본 발명에서 제안하는 직관적 CNN의 결과가 가장 사람들을 뚜렷이 잘 찾는 것을 확인할 수 있다.

도 7(a)를 참조하면, ImageNet 데이터로 많은 학습을 미리 했었던 첫 번째 모델 FCN-vgg(pre training)은 대체적으로 준수한 성능을 보인다.

그런데 도 7(b)를 참조하면, 미리 학습하지 않고 가중치 초기값을 랜덤으로 세팅한 두 번째 모델인 FCN-vgg은 다양한 색상으로 표현되는 해안가 영상에서는 사람들을 제대로 인식하지 못한다. 이것은 다양한 색상에 대한 특징들을 뽑도록 학습이 잘되지 않았기 때문이다.

도 7(c)를 참조하면, 세 번째 모델인 FCN-vgg-insight은 FCN-vgg 모델에 외곽선 특징맵을 만들도록 새로운 로스 함수로 학습한 필터, 즉 섹션 2에서 제안한 외곽선 필터를 추가하였을 뿐인데, 100만장 이상의 데이터로 학습한 FCN-vgg(pre training) 모델보다 정확도가 더 높음을 확인할 수 있다. 즉, 어떤 영상에서든 외곽선 특징은 영상 특징의 핵심이라는 것을 의미하며, 학습 데이터가 적어도 영상의 핵심 특징이 잘 학습되도록 안내한다는 것을 의미한다.

따라서 직관적 CNN은 학습 데이터가 많지 않은 경우에도, 도출하고자 하는 객체에 대한 외곽선 특징을 잘 추출하도록 안내함으로써, 영상 인식을 보다 정확하게 도출해 낼 수 있는 좋은 영상 인식 모델이다.

도 8은 본 발명의 실시예로서 직관적 CNN이 구현되는 장치를 설명하기 위한 도면이다.

앞선 실시예들에서 설명한 직관적 CNN 모델은 기존의 영상 인식 장치, 새로운 영상 인식 장치, 컴퓨터 및/또는 전자 기록 매체 등에 설치될 수 있다. 이때, 그 형상이나 이름에 관계 없이 직관적 CNN 모델이 설치된 장치는 직관적 CNN 장치라고 부를 수 있다.

도 8을 참조하면, 직관적 CNN 장치는 영상 수신부(8010), 컨볼루션 레이어(8020), 폴링 레이어(8030), 덴스 레이어(8040) 및 결과 처리부(8050)을 포함할 수 있다.

영상 수신부(8010)는 분석할 이미지가 입력되는 곳이다. 컨볼루션 레이어(8020)는 앞선 실시예들에서 설명한 새로운 외곽선 필터를 학습하는 역할을 수행하며, 더 나아가 입력 이미지 데이터의 일부에 대해 새로운 로스 함수를 적용하여 하이 패스 맵을 출력하고, 나머지에 대해서는 기존 로스 함수를 적용하여 일반맵을 출력 수 있다. 또한, 컨볼루션 레이어는 외곽선 필터를 직접 생성 및 학습하거나, 분석하고자 하는 이미지의 객체에 따라 미리 설계된 외곽선 필터들을 학습 및 메모리할 수 있다.

풀링 레이어(8030)는 컨볼루션 레이어(8020)에서 출력된 특징 맵들에 대해서 소정의 필터를 순환 적용하여 특징 맵의 크기를 줄이거나 특정 이미지를 강조하도록 할 수 있다.

덴스 레이어(8040)는 풀링 레이어에서 출력된 특징맵들에 대해서 입력 이미지의 객체별로 클래스를 분류할 수 있다.

결과 처리부(8050)는 컨볼루션 레이어, 풀링 레이어 및/또는 덴스 레이어와 연동되는 이미지 출력부로서 디스플레이 장치를 포함할 수 있다.

상술한 컨볼루션 레이어, 풀링 레이어 및/또는 덴스 레이어는 각각 독립된 구성 요소일 수 있으나, 하나의 CPU, 프로세서 또는 제어 유닛에 함께 구성될 수 있다.

상술한 본 발명의 실시예들은 본 발명의 필수적 특징을 벗어나지 않는 범위에서 다른 특정한 형태로 구체화될 수 있다. 따라서, 상술한 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다. 또한, 특허청구범위에서 명시적인 인용 관계가 있지 않은 청구항들을 결합하여 실시예를 구성하거나 출원 후의 보정에 의해 새로운 청구항으로 포함할 수 있다.

Claims

합성곱신경망(CNN)을 이용한 영상인식방법에 있어서,
이미지 데이터를 입력받는 단계;
상기 이미지 데이터에 대한 N개의 입력 특징맵들 중 M개의 새로운 로스 함수를 적용하여 M개의 하이패스맵들을 생성하고, 나머지 특징맵들에 대해서 기존 로스 함수들을 적용하여 N-M개의 일반맵들을 생성하는 단계; 및
상기 M개의 하이패스맵들과 상기 N-M개의 일반맵들을 연속 결합하여 N개의 출력 특징맵들을 출력하는 단계를 포함하며,
상기 M개의 외곽선 필터들은 행렬로 정의되며, 각 행렬들은 포함하는 성분들의 합이 '0'이고, 상기 성분들은 양수 및 음수를 포함하는 것을 특징으로 하는, 영상인식방법.
제1항에 있어서,
상기 새로운 로스 함수는 상기 이미지 데이터의 객체를 판단하기 위해 상기 CNN에서 상기 객체의 외곽선에 대한 특성을 추출하도록 설계되는, 영상인식방법.
제1에 있어서,
상기 기존 로스 함수는 상기 이미지 데이터에 대한 분석값과 정답의 오차 간에 손실이 작아지는 방향으로 학습을 진행하도록 구성되는, 영상인식방법.
제1항에 있어서,
상기 N개의 출력 특징맵들에 대해서 최대 풀링 방식이 적용되는, 영상인식방법.
제1항에 있어서,
상기 N개의 출력 특징맵들에 대해서 평균 풀링 방식이 적용되는, 영상인식방법.
제4항 또는 제5항에 있어서,
상기 최대 풀링 방식 또는 상기 평균 풀링 방식이 적용된 이후, 다시 기설정된 횟수의 컨볼루션이 N개의 특징맵들에 대해서 적용되어 최종 특징맵들이 도출되는, 영상인식방법.
제6항에 있어서,
상기 최종 특징맵들로부터 객체를 인식해내기 위해, 덴스 레이어에서 클래스를 분류하는, 영상인식방법.
합성곱신경망(CNN)을 이용한 영상인식장치는,
영상수신부; 및
컨볼루션 레이어를 포함하되,
상기 영상인식장치는:
상기 영상수신부를 통해 이미지 데이터를 입력받고,
상기 컨볼루션 레이어에서 상기 이미지 데이터에 대한 N개의 입력 특징맵들 중 M개의 새로운 로스 함수들을 적용하여 M개의 하이패스맵들을 생성하고, 나머지 특징맵들에 대해서 기존 로스 함수들을 적용하여 N-M개의 일반맵들을 생성하되, 상기 M개의 하이패스맵들과 상기 N-M개의 일반맵들을 연속 결합하여 N개의 출력 특징맵들을 출력하도록 구성되되,
상기 M개의 외곽선 필터들은 행렬로 정의되며, 각 행렬들은 포함하는 성분들의 합이 '0'이고, 상기 성분들은 양수 및 음수를 포함하는 것을 특징으로 하는, 영상인식장치.
제8항에 있어서,
상기 새로운 로스 함수는 상기 이미지 데이터의 객체를 판단하기 위해 상기 CNN에서 상기 객체의 외곽선에 대한 특성을 추출하도록 설계되는, 영상인식장치.
제8에 있어서,
상기 기존 로스 함수는 상기 이미지 데이터에 대한 분석값과 정답의 오차 간에 손실이 작아지는 방향으로 학습을 진행하도록 구성되는, 영상인식장치.
제8항에 있어서,
상기 영상인식장치는 풀링 레이어를 더 포함하고,
상기 풀링 레이어는 상기 N개의 출력 특징맵들에 대해서 최대 풀링 방식을 적용하는, 영상인식장치.
제8항에 있어서,
상기 영상인식장치는 풀링 레이어를 더 포함하고,
상기 풀링 레이어는 상기 N개의 출력 특징맵들에 대해서 평균 풀링 방식을 적용하는, 영상인식장치.
제11항 또는 제12항에 있어서,
상기 최대 풀링 방식 또는 상기 평균 풀링 방식이 적용된 이후, 다시 기설정된 횟수의 컨볼루션이 N개의 특징맵들에 대해서 적용되어 최종 특징맵들이 도출되는, 영상인식장치.
제13항에 있어서,
상기 영상인식장치는 덴스 레이어를 더 포함하고,
상기 덴스 레이어에서 상기 최종 특징맵들로부터 객체를 인식해내기 위해 클래스를 분류하는, 영상인식장치.
제1항 내지 제7항에 있어서,
상기 영상인식방법들이 수행되도록 구성되는 알고리즘이 포함된 기록매체.