KR20220065321A

KR20220065321A - 영상 인식 기반 앵무새 종 인식 장치 및 방법

Info

Publication number: KR20220065321A
Application number: KR1020200151697A
Authority: KR
Inventors: 이의철; 장우혁; 성시원
Original assignee: 상명대학교산학협력단
Priority date: 2020-11-13
Filing date: 2020-11-13
Publication date: 2022-05-20
Also published as: KR102528739B1

Abstract

본 발명은 앵무새 종 인식 기술에 관한 것으로, 보다 구체적으로 영상 인식을 통해 앵무새의 종을 인식하는 기술에 관한 것이다. 상술한 바와 같이 본 발명의 일 실시 예에 따르면, 딥러닝을 이용하여 앵무새 종을 자동으로 인식할 수 있다.

Description

영상 인식 기반 앵무새 종 인식 장치 및 방법{APPARATUS AND METHOD FOR PARROT SPECIES IDENTIFICATION BASED ON IMAGE RECOGNITION}

본 발명은 앵무새 종 인식 기술에 관한 것으로, 더욱 상세하게는 영상 인식 기반의 앵무새 종 인식 장치 및 방법에 관한 것이다.

멸종위기에 처한 야생동식물종의 국제거래에 관한 국제 협약(CITES)에 의해 약 5,000여종의 동물이 멸종위기종으로 등재되어 보호받고 있다. 이에 따라, 멸종 위기에 처한 보호 대상의 야생동물은 공항 또는 항만에서 별도의 허가 및 통관 절차를 거쳐 수출입된다. 하지만, 공항 또는 항만에서는 모든 멸종위기 동물의 종을 확인하는 작업을 수행하기 때문에 통관 과정에 많은 시간과 비용이 소요된다.

본 발명의 배경기술은 대한민국 공개특허 10-2014-0122881호에 개시되어 있다.

본 발명이 이루고자 하는 기술적 과제는 딥러닝을 기반으로 멸종위기의 앵무새 종을 인식할 수 있는 영상 인식 기반 앵무새 종 인식 장치를 제공하는 것이다.

본 발명이 이루고자 하는 기술적 과제는 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 발명의 일 측면에 따르면, 영상 인식 기반 앵무새 종 인식 장치가 제공된다.

본 발명의 일 실시 예에 따른 영상 인식 기반 앵무새 종 인식 장치는 앵무새 영상에서 대상 영역을 생성하는 영역생성부, 생성된 대상 영역에 대한 검출 및 분류를 수행하는 영역검출부 및 대상 영역의 검출 및 분류 결과를 기반으로 앵무새 종을 인식하는 인식부를 포함할 수 있다.

본 발명의 다른 일 측면에 따르면, 영상 인식 기반 앵무새 종 인식 방법이 제공된다.

본 발명의 일 실시 예에 따른 영상 인식 기반 앵무새 종 인식 방법은 앵무새 영상에서 대상 영역을 생성하는 단계, 생성된 대상 영역에 대한 객체 검출 및 분류를 수행하는 단계 및 대상 영역의 검출 및 분류 결과를 기반으로 앵무새 종을 인식하는 단계를 포함할 수 있다.

본 발명의 실시 예에 따르면, 영상 인식 기반 앵무새 종 인식 장치는 딥러닝을 기반으로 멸종위기의 앵무새 종을 인식할 수 있다.

본 발명의 실시 예에 따르면, 영상 인식 기반 앵무새 종 인식 장치는 앵무새의 머리 영역을 이용하여 앵무새 종을 자동으로 인식할 수 있다.

본 발명의 효과는 상기한 효과로 한정되는 것은 아니며, 본 발명의 설명 또는 청구범위에 기재된 발명의 구성으로부터 추론 가능한 모든 효과를 포함하는 것으로 이해되어야 한다.

도 1은 본 발명의 일 실시 예에 따른 영상 인식 기반 앵무새 종 인식 장치를 예시한 블록도.
도 2는 본 발명의 일 실시 예에 따른 영상 인식 기반 앵무새 종 인식 장치가 생성한 대상 영역을 예시한 도면.
도 3은 본 발명의 일 실시 예에 따른 영상 인식 기반 앵무새 종 인식 장치가 이용하는 싱글 샷 멀티박스 디텍터(Single Shot MultiBox Detector, SSD) 신경망의 구조를 예시한 도면.
도 4및 도 5는 본 발명의 일 실시 예에 따른 영상 인식 기반 앵무새 종 인식 장치가 이용하는 샴 네트워크(Siamese Network) 신경망을 설명하기 위한 도면.
도 6은 본 발명의 일 실시 예에 따른 영상 인식 기반 앵무새 종 인식 장치의 인식 프로세스를 설명하기 위한 도면.
도 7은 본 발명의 일 실시 예에 따른 영상 인식 기반 앵무새 종 인식 장치의 순서도를 예시한 도면.

이하에서는 첨부한 도면을 참조하여 본 발명을 설명하기로 한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 따라서 여기에서 설명하는 실시예로 한정되는 것은 아니다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결(접속, 접촉, 결합)"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 부재를 사이에 두고 "간접적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 구비할 수 있다는 것을 의미한다.

본 명세서에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

도 1은 본 발명의 일 실시 예에 따른 영상 인식 기반 앵무새 종 인식 장치를 예시한 블록도이고, 도 2는 본 발명의 일 실시 예에 따른 영상 인식 기반 앵무새 종 인식 장치가 생성한 대상 영역을 예시한 도면이고, 도 3은 본 발명의 일 실시 예에 따른 영상 인식 기반 앵무새 종 인식 장치가 이용하는 싱글 샷 멀티박스 디텍터(Single Shot MultiBox Detector, SSD) 신경망의 구조를 예시한 도면이고, 도 4및 도 5는 본 발명의 일 실시 예에 따른 영상 인식 기반 앵무새 종 인식 장치가 이용하는 샴 네트워크(Siamese Network) 신경망을 설명하기 위한 도면이고, 도 6은 본 발명의 일 실시 예에 따른 영상 인식 기반 앵무새 종 인식 장치의 인식 프로세스를 설명하기 위한 도면이다.

도 1을 참조하면, 영상 인식 기반 앵무새 종 인식 장치(100)는 영역생성부(110), 영역검출부(130) 및 인식부(150)를 포함한다.

영역생성부(110)는 앵무새 영상에서 대상 영역을 생성한다. 여기서, 대상 영역은 앵무새의 머리 영역을 포함할 수 있다. 영역생성부(110)는 도 2와 같이 대상 영역에 라벨(label)값을 부여할 수 있으며, 라벨값은 xmin, ymin, xmax, ymax, class id등을 포함할 수 있다.

영역검출부(130)는 생성된 대상 영역에 대한 검출 및 분류를 수행한다. 구체적으로, 영역검출부(130)는 기학습된 싱글 샷 멀티박스 디텍터(Single Shot MultiBox Detector, SSD) 신경망을 이용하여 대상 영역에 대한 종(parrot species) 검출 및 분류를 수행한다. SSD 신경망은 물체 인식을 위한 검출 모델로, 컨볼루션 과정을 거치며 추출되는 특징맵(feature map)에서 객체 탐지(Object Detection)를 수행하는 것을 특징으로 한다.

도 3을 참조하면, 싱글 샷 멀티박스 디텍터(Single Shot MultiBox Detector, SSD) 신경망은 대상 영역에 라벨값이 부여된 앵무새 영상을 입력으로 한다. SSD 신경망은 특징맵 추출 네트워크인 VGG-16 모델을 이용하여 입력된 영상에서의 특징맵을 추출한다. VGG-16 모델은 가중치(weight)를 “he_normal”으로 초기화하며, 초기화 시 정규분포를 이용한다. 또한, kernel_regularizer의 파라미터(parameter) 값은 l2(1e-4)값으로 설정하며, learning_rate = 0.5로 시작하여 에포크(epoch)마다 오차가 정점일 때 1%씩 균일하게 감소시켜 학습하고, 옵티마이저(optimizer) 함수는 Adam(0.001)로 설정한다. 싱글 샷 멀티박스 디텍터(Single Shot MultiBox Detector, SSD) 신경망이 사용하는 손실 함수(loss function)는 아래 수학식 1 내지 3와 같다.

[수학식 1]

[수학식 2]

[수학식 3]

싱글 샷 멀티박스 디텍터(Single Shot MultiBox Detector, SSD) 신경망VGG-16 이외에도 MobileNetV2 등의 다양한 구조를 특징맵 추출 네트워크로 이용할 수 있다. 싱글 샷 멀티박스 디텍터(Single Shot MultiBox Detector, SSD) 신경망은 컨볼루션 레이어(Convolutional layers)를 거쳐 나온 추출된 특징맵에서의 객체 탐지(Object Detection)를 통해 대상 영역에 대한 종 검출 및 분류를 수행한다.

도 4를 참조하면, 영역검출부(130)는 기설정된 기준에 따라 종 검출 및 분류 신뢰도를 판단하여, 싱글 샷 멀티박스 디텍터(Single Shot MultiBox Detector, SSD) 신경망을 이용한 대상 영역의 종 검출 및 분류 신뢰도가 90% 미만일 경우, 앵무새 영상에서 대상 영역만을 크롭(crop)한다. 이후, 영역검출부(130)는 크롭된 대상 영역과 외부 데이터베이스에 저장된 앵무새 영상을 이용하여 데이터 세트를 구성한다. 구체적으로, 영역검출부(130)는 동일인과 동일인을 비교하는Genuine(1) 라벨 및 동일인과 타인을 비교하는 Imposter(0) 라벨로 데이터 세트를 구성한다.

여기서, 영역검출부(130)는 무선 통신망을 통해 외부 데이터베이스로부터 앵무새 영상을 수신할 수 있다. 외부 데이터베이스는 다양한 각도에서 추출된 앵무새 영상을 포함하며, 총 11종의 앵무새 영상을 포함할 수 있다. 예를 들어, 외부 데이터베이스는 고핀, 듀컵, 백색유황, 붉은관유황, 스칼렛, 오색앵무, 청금강, 카멜롯, 큰유황, 홍금강, 회색앵무 종의 앵무새 영상을 포함할 수 있다.

도 5를 참조하면, 영역검출부(130)는 데이터 세트를 입력으로 하여 기학습된 샴 네트워크(Siamese Network) 신경망을 통해 대상 영역에 대한 종 검출 및 분류를 수행한다. 샴 네트워크(Siamese Network) 신경망은 두 개의 영상인 데이터 세트를 각각 하나의 네트워크에 입력하여 최종적으로 두 개의 영상이 같은 클래스(class)에 속할 확률을 값으로 출력하는 모델이다. 샴 네트워크(Siamese Network) 신경망은 대칭성을 이루어 컨볼루션 레이어에서 가중치(weight)값을 공유하는 것을 특징으로 한다.

샴 네트워크(Siamese Network) 신경망은 구성된 데이터 세트를 입력으로 하여 ResNet-34컨볼루션 레이어를 거쳐 나온 특징맵을 추출한다. ResNet-34는 가중치(weight)를 “Xavier”으로 초기화 하며, 이것은 균일 분포(uniform distribution)에서 추출된 랜덤(random) 값을 의미한다. 또한, kernel_regularizer의 파라미터(parameter) 값은 l2(1e-4)값으로 설정하고, learning_rate = 0.5로 시작하여 에포크(epoch)마다 오차가 정점일 때 1%씩 균일하게 감소시켜 학습하고, 옵티마이저(optimizer) 함수는 Adam(0.001)로 설정한다.

샴 네트워크(Siamese Network) 신경망이 사용하는 손실 함수(loss function)는 아래 수학식 4로 나타낸다. 여기서

는 표준편차가 0인 평균 가우스 분포로

의 노드 수 이다.

은 두 이미지에 대한 정답 값,

은 두 이미지에 대한 예측 값이다. 여기서

인덱스는

단위,

으로 정의된다.

[수학식 4]

샴 네트워크(Siamese Network) 신경망은 이외에도 ResNet, DenseNet, VGGNet 등의 네트워크를 컨볼루션 레이어로 이용할 수 있다. 샴 네트워크(Siamese Network) 신경망은 두 개의 네트워크에서 나온 특징들을 아래의 수학식 5를 이용하여 산출한다. 여기서 n은 입력 영상 개수이다.

[수학식 5]

이후, 샴 네트워크(Siamese Network) 신경망은 시그모이드(sigmoid) 함수를 통하여 0~1 사이의 값을 확률 값으로 출력하여 대상 영역에 대한 종 검출 및 분류를 수행한다.

다시 도 1을 참조하면, 인식부(150)는 대상 영역의 검출 및 분류 결과를 기반으로 앵무새 종을 인식한다. 예를 들어, 인식부(150)는 도 6과 같이 샴 네트워크(Siamese Network) 신경망을 거쳐 검출 및 분류된 대상 영역의 종을 인식한 후, 인식 결과를 화면, 음성 등으로 출력할 수 있다. 또한, 인식부(150)는 SSD 신경망을 이용한 대상 영역의 종 검출 및 분류 신뢰도가 90% 이상일 경우, SSD 신경망을 거쳐 검출 및 분류된 대상 영역의 종을 인식한 후, 인식 결과를 화면, 음성 등으로 출력할 수 있다.

도 7은 본 발명의 일 실시 예에 따른 영상 인식 기반 앵무새 종 인식 장치의 순서도를 예시한 도면이다.

도 7을 참조하면, 단계 S710에서 영상 인식 기반 앵무새 종 인식 장치(100)는 앵무새 영상에서 대상 영역을 생성한다. 여기서, 대상 영역은 앵무새의 머리 영역을 포함할 수 있다. 영상 인식 기반 앵무새 종 인식 장치(100)는 앞서 설명한 바와 같이 대상 영역에 라벨(label)값을 부여할 수 있으며, 라벨값은 xmin, ymin, xmax, ymax, class id등을 포함할 수 있다.

단계 S720에서 영상 인식 기반 앵무새 종 인식 장치(100)는 생성된 대상 영역에 대한 검출 및 분류를 수행한다. 구체적으로, 영상 인식 기반 앵무새 종 인식 장치(100)는 기학습된 싱글 샷 멀티박스 디텍터(Single Shot MultiBox Detector, SSD) 신경망을 이용하여 대상 영역에 대한 종(parrot species) 검출 및 분류를 수행한다. 싱글 샷 멀티박스 디텍터(Single Shot MultiBox Detector, SSD) 신경망은 물체 인식을 위한 검출 모델로, 컨볼루션 과정을 거치며 추출되는 특징맵(feature map)에서 객체 탐지(Object Detection)를 수행하는 것을 특징으로 한다.

앞서 설명한 바와 같이, 싱글 샷 멀티박스 디텍터(Single Shot MultiBox Detector, SSD) 신경망은 대상 영역에 라벨값이 부여된 앵무새 영상을 입력으로 한다. 싱글 샷 멀티박스 디텍터(Single Shot MultiBox Detector, SSD) 신경망은 특징맵 추출 네트워크인 VGG-16 모델을 이용하여 입력된 영상에서의 특징맵을 추출한다. 싱글 샷 멀티박스 디텍터(Single Shot MultiBox Detector, SSD) 신경망은 VGG-16 이외에도 MobileNetV2 등의 다양한 구조를 특징맵 추출 네트워크로 이용할 수 있다. 이후, 싱글 샷 멀티박스 디텍터(Single Shot MultiBox Detector, SSD) 신경망은 컨볼루션 레이어(Convolutional layers)를 거쳐 나온 추출된 특징맵에서의 객체 탐지(Object Detection)를 통해 대상 영역에 대한 종 검출 및 분류를 수행한다.

단계 S730에서 영상 인식 기반 앵무새 종 인식 장치(100)는 기설정된 기준에 따라 종 검출 및 분류 신뢰도를 판단하여, 싱글 샷 멀티박스 디텍터(Single Shot MultiBox Detector, SSD) 신경망을 이용한 대상 영역의 종 검출 및 분류 신뢰도가 90% 미만일 경우, 단계 S740에서 영상 인식 기반 앵무새 종 인식 장치(100)는 앵무새 영상에서 대상 영역만을 크롭(crop)한다.

또한, 싱글 샷 멀티박스 디텍터(Single Shot MultiBox Detector, SSD) 신경망을 이용한 대상 영역의 종 검출 및 분류 신뢰도가 90% 이상일 경우, 단계 S770에서 영상 인식 기반 앵무새 종 인식 장치(100)는 싱글 샷 멀티박스 디텍터(Single Shot MultiBox Detector, SSD) 신경망을 거쳐 검출 및 분류된 대상 영역의 종을 인식한 후, 인식 결과를 화면, 음성 등으로 출력할 수 있다.

단계 S750에서 영상 인식 기반 앵무새 종 인식 장치(100)는 크롭된 대상 영역과 외부 데이터베이스에 저장된 앵무새 영상을 이용하여 데이터 세트를 구성한다. 구체적으로, 영상 인식 기반 앵무새 종 인식 장치(100)는 동일인과 동일인을 비교하는Genuine(1) 라벨 및 동일인과 타인을 비교하는 Imposter(0) 라벨로 데이터 세트를 구성한다.

여기서, 영상 인식 기반 앵무새 종 인식 장치(100)는 무선 통신망을 통해 외부 데이터베이스로부터 앵무새 영상을 수신할 수 있다. 외부 데이터베이스는 다양한 각도에서 추출된 앵무새 영상을 포함하며, 총 11종의 앵무새 영상을 포함할 수 있다. 예를 들어, 외부 데이터베이스는 고핀, 듀컵, 백색유황, 붉은관유황, 스칼렛, 오색앵무, 청금강, 카멜롯, 큰유황, 홍금강, 회색앵무 종의 앵무새 영상을 포함할 수 있다.

단계 S760에서 영상 인식 기반 앵무새 종 인식 장치(100)는 데이터 세트를 입력으로 하여 기학습된 샴 네트워크(Siamese Network) 신경망을 통해 대상 영역에 대한 종 검출 및 분류를 수행한다. 샴 네트워크(Siamese Network) 신경망은 두 개의 영상인 데이터 세트를 각각 하나의 네트워크에 입력하여 최종적으로 두 개의 영상이 같은 클래스(class)에 속할 확률을 값으로 출력하는 모델이다. 샴 네트워크(Siamese Network) 신경망은 대칭성을 이루어 컨볼루션 레이어에서 가중치(weight)값을 공유하는 것을 특징으로 한다.

샴 네트워크(Siamese Network) 신경망은 구성된 데이터 세트를 입력으로 하여 컨볼루션 레이어를 거쳐 나온 특징맵을 추출한다. 본 발명에서는 ResNet-34를 컨볼루션 레이어로 이용하였으며, 이외에도 ResNet, DenseNet, VGGNet 등의 네트워크를 컨볼루션 레이어로 이용할 수 있다.

단계 S770에서 영상 인식 기반 앵무새 종 인식 장치(100)는 대상 영역의 검출 및 분류 결과를 기반으로 앵무새 종을 인식한다. 예를 들어, 영상 인식 기반 앵무새 종 인식 장치(100)는 샴 네트워크(Siamese Network) 신경망을 거쳐 검출 및 분류된 대상 영역의 종을 인식한 후, 인식 결과를 화면, 음성 등으로 출력할 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 후술하는 청구범위에 의하여 나타내어지며, 청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims

영상 인식 기반 앵무새 종 인식 장치에 있어서,
앵무새 영상에서 대상 영역을 생성하는 영역생성부;
상기 생성된 대상 영역에 대한 검출 및 분류를 수행하는 영역검출부; 및
상기 대상 영역의 검출 및 분류 결과를 기반으로 앵무새 종을 인식하는 인식부를 포함하는 영상 인식 기반 앵무새 종 인식 장치.
제 1항에 있어서,
상기 영역검출부는
싱글 샷 멀티박스 디텍터(Single Shot MultiBox Detector, SSD) 신경망을 이용하여 검출 및 분류를 수행하는 영상 인식 기반 앵무새 종 인식 장치.
영상 인식 기반 앵무새 종 인식 방법에 있어서,
앵무새 영상에서 대상 영역을 생성하는 단계;
상기 생성된 대상 영역에 대한 객체 검출 및 분류를 수행하는 단계; 및
상기 대상 영역의 검출 및 분류 결과를 기반으로 앵무새 종을 인식하는 단계를 포함하는 영상 인식 기반 앵무새 종 인식 방법.
제 3항에 있어서,
상기 생성된 대상 영역에 대한 객체 검출 및 분류를 수행하는 단계는
싱글 샷 멀티박스 디텍터(Single Shot MultiBox Detector, SSD) 신경망을 이용하여 객체 검출 및 분류를 수행하는 영상 인식 기반 앵무새 종 인식 방법.