KR20200115704A

KR20200115704A - 영상 인식 장치 및 방법

Info

Publication number: KR20200115704A
Application number: KR1020190027143A
Authority: KR
Inventors: 백장운; 김광주; 문기영; 임길택; 정윤수; 최윤원; 한병길
Original assignee: 한국전자통신연구원
Priority date: 2019-03-08
Filing date: 2019-03-08
Publication date: 2020-10-08

Abstract

본 발명은 카메라 센서에서 획득한 영상을 이용하여 경량 심층신경망 기반의 영상 인식을 제공하는 영상 인식 장치 및 방법에 관한 것으로, 카메라 센서와 영상 처리 보드를 결합하여 엣지 단에서 객체 검출 및 추적 등의 지능형 영상 처리를 수행가능한 영상 인식 장치 및 방법을 제공한다.

Description

영상 인식 장치 및 방법{APPARATUS AND METHOD FOR IMAGE RECONGNITION}

본 발명은 영상 인식 장치 및 방법에 관한 것으로, 상세하게는 경량 심층신경망 기반의 영상 인식 장치 및 방법에 관한 것이다.

종래에는 CCTV의 카메라에서 수집한 이미지 프레임이 인터넷 망을 통해 관제 센터의 영상 분석 서버에 전달되면, 고성능 GPU를 장착한 영상 분석 서버에서 심층신경망 기반의 객체 검출 알고리즘을 구동하여 객체를 검출 및 추적하는 방식으로 생활 방범이나 교통 관제를 위한 정보를 추출하였다. 이와 같은 방식은 CCTV와 영상 분석 서버 간의 통신에 소요되는 시간으로 인하여 발생하는 지연을 피할 수 없고, 실시간으로 객체 검출 및 이벤트 탐지를 하기 위해서는 영상 분석 서버가 담당할 수 있는 CCTV의 영상 채널의 수가 제한되는 문제점이 있다.

근래 들어 CCTV의 카메라에서 수집한 영상을 CCTV에서 직접 분석하여 객체를 검출하고 객체 정보를 수집하며 이벤트를 탐지하는 지능형 CCTV가 개발되기 시작하였다. 하지만, 근래의 지능형 CCTV 는 성능 상의 한계로 인하여 영상 분석 서버가 제공하는 심층신경망에 비해 계산량이 적은 기계 학습(서포트 벡터 머신, 결정 트리)을 이용하거나 움직임 변화량(옵티컬 플로우) 기반의 영상 분석 알고리즘을 이용한다. 이러한 방법은 심층신경망 기술에 비하여 영상 인식 성능이 현저히 낮다.

심층신경망 기반의 객체 검출 알고리즘은 우수한 객체 검출 성능을 제공하지만, 높은 수준의 계산량이 요구되므로 고성능 GPU를 탑재한 하드웨어에서만 실시간 동작이 가능하다. 결국, 고성능 GPU를 탑재하기 힘든 지능형 CCTV는 심층신경망에 기반한 객체 검출 방법을 실시간으로 처리할 수 없다는 한계점이 있다.

따라서, CCTV에 고성능 GPU를 탑재하지 않고도 CCTV에서 직접 심층신경망에 기반한 객체 검출 방법을 실시간으로 처리가능한 영상 인식 장치 및 방법이 필요하다.

전술한 문제를 해결하기 위하여, 본 발명은 심층신경망에 기반한 객체 검출 방법을 실시간으로 처리가능한 영상 인식 장치 및 방법을 제공하고자 한다.

본 발명에 따른 경량 심층신경망 기반의 영상 인식 장치는 입력 이미지를 촬영하는 카메라 센서 및 상기 입력 이미지를 분석하는 영상 처리 보드를 포함하고, 상기 영상 처리 보드는 심층신경망 학습 모델에 따른 심층신경망에 기반하여 상기 입력 이미지를 분석하고 적어도 하나의 객체를 검출하는 객체검출부 및 상기 적어도 하나의 객체를 추적하여 객체 정보를 추출하는 객체정보부를 포함한다.

상기 심층신경망은, 적어도 하나의 계층 및 각 계층별 필터를 포함하고, 각 계층에 대한 입력특징맵 및 상기 계층별 필터를 컨볼루션 연산하여 각 계층에 대한 출력특징맵을 계산하는 컨볼루션 신경망이다.

상기 컨볼루션 연산은, 상기 입력특징맵의 채널별로 컨볼루션 연산을 수행하는 깊이별 컨볼루션(depthwise convolution) 및 상기 입력특징맵의 위치별로 컨볼루션 연산을 수행하는 위치별 컨볼루션(pointwise convolution)을 분리하여 계산한다.

일 예에서, 상기 입력특징맵 및 상기 계층별 필터는 바이너리 형식으로 표현되고, 상기 심층신경망은 바이너리 연산 기반의 컨볼루션 신경망이다.

상기 심층신경망의 계층별 필터는 상기 심층신경망 학습 모델에 따라 초기화된다.

상기 입력이미지의 크기, 상기 계층별 필터의 개수 및 상기 계층의 개수를 조절하여 상기 심층신경망의 메모리 사용량을 조절가능하다.

상기 영상 처리 보드는, GPU, DSP, FPGA 및 CPU 중 적어도 하나를 포함하고, 상기 객체검출부는 GPU, DSP, FPGA, 또는 CPU에서 실행된다.

상기 카메라 센서는 단위시간마다 일련의 입력 이미지를 촬영하고, 상기 객체정보부는 상기 적어도 하나의 객체의 각각에 대하여 객체 ID를 부여하고, 상기 일련의 입력 이미지 안에서 상기 객체 ID 별로 상기 객체 정보를 추출한다.

상기 객체 정보는, 상기 객체의 움직임을 추적하는 추적 정보를 포함하고, 상기 객체정보부는, 상기 추적 정보를 활용하여 상기 단위 시간에 발생한 이벤트를 탐지한다.

상기 영상 처리 보드는 상기 카메라 센서와 일체형으로 구성된다.

본 발명에 따른 경량 심층신경망 기반의 영상 인식 방법은, 이미지를 입력받는 단계, 적어도 하나의 계층 및 계층별 필터를 포함하는 심층신경망에 기반하여 상기 이미지를 분석하고 적어도 하나의 객체를 검출하는 단계 및 상기 적어도 하나의 객체를 추적하여 객체 정보를 추출하는 단계를 포함한다.

상기 객체를 검출하는 단계는, 각 계층에 대한 입력특징맵 및 상기 계층별 필터를 컨볼루션 연산하여 각 계층에 대한 출력특징맵을 계산하는 단계를 포함한다.

상기 계산하는 단계는, 상기 입력특징맵의 채널별로 컨볼루션 연산을 수행하는 깊이별 컨볼루션을 수행하는 단계 및 상기 입력특징맵의 위치별로 컨볼루션 연산을 수행하는 위치별 컨볼루션을 수행하는 단계를 포함한다.

상기 이미지를 입력받는 단계는 단위시간마다 촬영된 일련의 이미지를 입력 받으며, 상기 객체 정보를 추출하는 단계는, 상기 적어도 하나의 객체의 각각에 대하여 객체 ID를 부여하고, 상기 일련의 이미지 안에서 상기 객체 ID 별로 상기 객체 정보를 추출한다.

상기 객체 정보를 네트워크를 통해 관제 센터에 전송하는 단계를 더 포함한다.

본 발명에 따른 영상 제공 장치 및 방법은 고성능 GPU 없이도 엣지 카메라에서 심층신경망 기반의 객체 검출 알고리즘을 실행하여 객체 검출 및 객체 정보를 제공할 수 있다.

또한, 본 발명에 따른 영상 제공 장치 및 방법은 경량 심층신경망을 이용하여 메모리 사용량 및 처리 속도를 개선할 수 있다.

나아가, 본 발명에 따른 영상 제공 장치 및 방법은 엣지 카메라에서 객체 검출 및 객체 정보를 수집함으로써 영상 관제 서버의 부하가 감소되고 서버와의 통신 장애 시에도 객체 검출 및 정보 수집 결과를 로컬에 저장하여 데이터 수집의 신뢰도가 높다.

한편, 본 발명은 영상 인식 장치의 구현 방식이 상이한 다양한 실시예를 제시하며, 응용 환경에 적합한 영상 인식 장치를 선택할 수 있다.

도 1은 본 발명에 따른 영상 인식 장치를 개략적으로 도시한다.
도 2는 실시예에 따른 영상 인식 장치의 블록도이다.
도 3은 실시예에 따른 객체검출부 및 객체정보부를 도시한다.
도 4는 실시예에 따른 영상 인식 방법의 과정을 도시한 순서도이다.
도 5는 일 예에 따른 객체 검출 과정을 도시한다.
도 6은 예시적인 영상 인식 장치의 블록도이다.

본 발명이 구현되는 양상을 이하의 바람직한 각 실시예를 들어 설명한다. 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 본 발명의 기술적 사상의 범주 내에서 그 외의 다른 다양한 형태로 구현될 수 있음은 자명하다. 본 명세서에서 사용된 용어 역시 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprise)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 요소가 하나 이상의 다른 구성요소, 단계, 동작 및/또는 요소의 존재 또는 추가됨을 배제하지 않는다.

이하, 첨부 도면을 참조하여 바람직한 각 실시예를 통해 본 발명의 구성에 대하여 상세히 설명한다. 본 발명의 전술한 목적 및 그 이외의 목적과 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부된 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다.

도 1은 본 발명에 따른 영상 인식 장치를 개략적으로 도시한다.

본 발명에 따른 영상 인식 장치(100)는 이미지를 촬영하고, 촬영된 이미지를 분석하여 적어도 하나의 객체를 검출하고 검출된 객체에 대한 객체 정보를 추적 및 수집한다. 영상 인식 장치(100)는 생활 방범용 또는 도로 교통 정보 수집용으로 활용가능하다. 예를 들어, 영상 인식 장치(100)는 교통 상황을 촬영하는 지능형 CCTV(이하에서 '엣지 카메라'라고도 칭한다)에 대응한다. 영상 인식 장치(100)는 교통 상황을 촬영한 이미지를 경량의 심층 신경망 기반의 객체 검출 알고리즘에 따라 분석하여 적어도 하나의 객체를 검출한다. 박스(110)는 영상 인식 장치(100)가 심층신경망을 이용하여 객체를 검출한 결과를 예시적으로 보여준다. 예를 들어, 영상 인식 장치(100)는 교통 상황 이미지를 분석하여 박스(110)에서 차량 객체, 트럭 객체, 차량 번호판 객체, 자전거 객체, 사람 객체 및 얼굴 객체 등을 검출한다.

도 2는 실시예에 따른 영상 인식 장치의 블록도이다.

영상 인식 장치(100)는 카메라 센서(210)를 포함한다. 카메라 센서(210)는 입력 이미지를 촬영한다.

영상 인식 장치(100)는 영상 처리 보드(220)를 포함한다. 영상 처리 보드는(220)는 카메라 센서(210)에서 촬영한 입력 이미지를 분석한다. 즉, 영상 처리 보드(220)는 경량의 심층신경망 객체 검출 알고리즘을 구동하여 실시간으로 입력 이미지를 처리하기 위한 하드웨어 장치를 제공한다.

영상 처리 보드(220)는 카메라 센서와 일체형으로 구성될 수 있다. 예를 들어, 영상 처리 보드(220)는 영상 인식 장치(100)에 임베디드된다. 영상 처리 보드(220)는 고성능 GPU를 탑재하지 않으며, 영상 인식 장치(100)의 내부에 설치된다.

영상 처리 보드(220)는 심층신경망 학습 모델에 따른 심층신경망에 기반하여 입력 이미지를 분석하고 적어도 하나의 객체를 검출하는 객체검출부를 포함한다. 또한, 영상 처리 보드(220)는 객체검출부에서 검출한 적어도 하나의 객체를 추적하여 객체 정보를 추출하는 객체정보부를 포함한다. 객체검출부 및 객체정보부에 대하여는 도 3을 참조하여 후술한다.

영상 인식 장치(100)는 외부의 관제 서버와 통신하기 위한 통신 인터페이스(230)를 포함한다. 그밖에 영상 인식 장치(100)는 입력 이미지, 심층신경망 학습 모델 및 객체 정보 등을 저장하기 위한 저장부(미도시)를 포함한다.

도 3은 실시예에 따른 객체검출부 및 객체정보부를 도시한다.

영상 인식 장치(100)의 영상 처리 보드(220)는 심층신경망 학습 모델에 따른 심층신경망에 기반하여 입력 이미지를 분석하고 적어도 하나의 객체를 검출하는 객체검출부(310)를 포함한다.

객체검출부(310)는 수신한 입력 이미지를 심층신경망에 기반하여 분석한다. 이를 위하여 객체검출부(310)는 심층신경망 학습 모델을 활용한다.

영상 처리 보드(220)는 객체검출부(310)에서 검출한 적어도 하나의 객체를 추적하여 객체 정보를 추출하는 객체정보부(320)를 포함한다. 예를 들어, 객체정보부(320)는 영상 처리 보드(220)에서 구동되는 응용 프로그램일 수 있다. 객체정보부(320)는 생활 방범이나 교통 관제와 같은 응용 환경에 따라 목적에 맞게 사용자가 개발한다.

단계(330)에서 객체정보부(320)는 카메라 센서(210)로부터 수신한 입력 이미지를 객체검출부(310)에게 제공한다. 객체검출부(310)는 심층신경망 객체 검출 알고리즘에 따라 입력 이미지를 분석하여 적어도 하나의 객체를 검출한다.

단계(340)에서 객체정보부(320)는 객체검출부(310)가 검출한 다중 객체 검출 결과를 수신한다. 객체정보부(320)는 다중 객체 검출 결과에 기반하여 각 객체를 추적하고, 각 객체의 정보를 수집한다. 또한, 객체정보부(320)는 추적 및 수집한 객체 정보를 이용하여 이벤트(예를 들어, 침입, 배회, 주/정차, 및 차량 사고 등)를 탐지한다.

예를 들어, 객체정보부(320)는 생활 방범용 객체 정보를 추출한다. 이 경우에, 객체정보부(320)는 카메라 센서(210)에서 수신한 이미지 프레임을 객체검출부(310)에 전달하고, 객체검출부(310)는 심층신경망 객체 검출 알고리즘을 사용하여 보행자, 차량, 이륜차, 차량 번호판 및 얼굴 등의 객체를 검출하여 객체정보부(320)에 전달한다. 객체정보부(320)는 추적기를 사용하여 검출한 객체에 ID를 부여하고 객체를 추적한다. 객체정보부(320)는 추적 정보를 활용하여 침입, 배회, 주/정차와 같은 이벤트 정보를 추출한다. 또한, 객체정보부(320)는 각 객체에 대한 수집 정보를 내부 저장장치에 저장할 뿐만 아니라 수집한 객체 정보를 통신 인터페이스(230)에 전달하여 네트워크를 통해 통합관제센터로 전송한다.

예를 들어, 객체정보부(320)는 교통 관제용 객체 정보를 추출한다. 이 경우에, 객체정보부(320)는 도로/교차로에 설치된 영상 인식 장치(100)의 카메라 센서(210)에서 수신한 이미지 프레임을 객체검출부(310)에 전달하고, 객체검출부(310)는 심층신경망 객체 검출 알고리즘을 사용하여 차량, 보행자, 이륜차 등의 객체를 검출하여 객체정보부(320)에 전달한다. 객체정보부(320)는 추적기를 사용하여 검출한 객체에 ID를 부여하고 객체를 추적한다. 객체정보부(320)는 추적하는 교통 객체를 기반으로 교통량과 같은 이벤트 정보를 산출하고, 교통량 외에 다양한 이벤트 정보를 응용 목적에 맞게 수집할 수 있다. 객체정보부(320)는 수집한 교통 정보를 로컬 저장장치에 저장할 뿐만 아니라 통신 인터페이스(230)에 전달하여 네트워크를 통해 통합관제센터로 전송한다.

도 4는 실시예에 따른 영상 인식 방법의 과정을 도시한 순서도이다.

단계(410)에서 객체정보부(320)는 카메라 센서(210)에서 촬영한 이미지를 수신한다. 객체정보부(320)는 수신한 이미지 분석 및 객체 검출을 객체검출부(310)에게 요청한다.

단계(420)에서 객체검출부(310)는 적어도 하나의 계층 및 계층별 필터를 포함하는 심층신경망에 기반하여 단계(410)에서 수신한 이미지를 분석하고 적어도 하나의 객체를 검출한다.

심층신경망은 적어도 하나의 계층 및 각 계층별 필터를 포함한다. 예를 들어, 심층신경망은 각 계층에 대한 입력특징맵 및 계층별 필터를 컨볼루션 연산하여 각 계층에 대한 출력특징맵을 계산하는 컨볼루션 신경망이다. 심층신경망 학습 모델은 각 계층별 가중치(weight)를 정의하는 필터의 값을 결정한다. 예를 들어, 심층신경망의 제 1 계층은 입력 이미지와 제 1 계층의 필터의 컨볼루션 연산을 수행하여 제 1 출력특징맵을 출력한다. 제 1 계층의 제 1 출력특징맵은 제 2 계층의 입력특징맵이 되고 제 2 계층은 입력특징맵과 제 2 계층의 필터의 컨볼루션 연산을 수행하여 제 2 출력특징맵을 출력한다. 이와 같은 방식으로 제 N 계층의 출력특징맵은 후속하는 제 N+1 계층의 입력이 된다. 결국, 심층신경망의 각 계층은 이전 계층의 출력특징맵을 입력으로 하여 컨볼루션 연산을 처리한다.

심층신경망의 최종 계층의 출력특징맵은 심층신경망을 이용한 입력 이미지 분석의 최종적인 결과값으로서, 객체를 분류하거나 검출하는데 사용된다. 이를테면, 심층신경망을 활용한 객체 검출 알고리즘은 출력특징맵으로부터 이미지에서 객체가 있을 확률이 높은 영역(Region Proposals)을 찾고, 이 영역의 객체의 클래스 확률을 동시에 산출한다.

한편, 객체 검출에 사용되는 특징맵을 생성하는 여러 종류의 심층신경망 네트워크 모델이 있으며, 본 발명에 따른 영상 인식 장치(100)는 경량 심층신경망을 사용하여 임베디드 시스템에 수반되는 하드웨어 상의 제약을 극복한다.

단계(420)에서 객체검출부(310)는 우선 심층신경망 학습 모델을 로딩하여 심층신경망을 초기화한다. 객체검출부(310)는 심층신경망 학습 모델의 로딩 시에 심층신경망의 계층별 필터를 심층신경망 학습 모델에 따라 학습 모델의 필터 값으로 초기화한다. 또한, 객체검출부(310)는 심층신경망 기반의 객체 검출에 소요되는 메모리를 할당한다. 구체적으로, 객체검출부(310)는 입력 이미지, 심층신경망의 각 계층별 필터, 각 계층의 컨볼루션(convolution) 계산 결과값인 특징맵(feature map)을 저장할 공간을 할당한다.

단계(420)에서 객체검출부(310)는 경량 심층신경망을 활용하여 단계(410)에서 수신한 입력 이미지를 분석한다. 객체검출부(310)의 객체 검출 과정에 대하여는 도 5를 참조하여 이하에서 살펴본다.

도 5는 일 예에 따른 객체 검출 과정을 도시한다.

도 4를 참조하여 단계(420)의 객체를 검출하는 단계는 각 계층에 대한 입력특징맵 및 계층별 필터를 컨볼루션 연산하여 각 계층에 대한 출력특징맵을 계산하는 단계를 포함한다. 각 계층에 대한 출력특징맵을 계산하는 단계는 입력특징맵의 채널별로 컨볼루션 연산을 수행하는 깊이별 컨볼루션을 수행하는 단계(510) 및 입력특징맵의 위치별로 컨볼루션 연산을 수행하는 위치별 컨볼루션을 수행하는 단계(520)를 포함한다.

영상 인식 장치(100)를 위한 경량 심층신경망은 작은 메모리 사용량 및 빠른 처리 속도가 요구된다. 이를 위하여, 객체검출부(310)는 심층신경망에서의 컨볼루션 연산을 입력특징맵의 채널별로 컨볼루션 연산을 수행하는 깊이별 컨볼루션(depthwise convolution, 510) 및 입력특징맵의 위치별로 컨볼루션 연산을 수행하는 위치별 컨볼루션(pointwise convolution, 520)으로 분리하여 계산한다. 즉, 객체검출부(310)는 심층신경망 컨볼루션의 계산 속도를 빠르게 하기 위하여 기존 컨볼루션을 입력 특징맵의 채널별로 컨볼루션 연산을 하는 깊이별 컨볼루션(510)과 위치별 컨볼루션(1*1 convolution, 520)을 분리하여 계산하는 깊이별 분리가능한 컨볼루션(Depthwise Separable Convolution)을 사용한다. 도 4를 참조하여 객체검출부(310는 단계(420)에서 깊이별 컨볼루션(510) 및 위치별 컨볼루션(520)을 분리하여 계산한 결과로 출력특징맵(530)을 출력한다.

단계(420)에서 심층신경망의 계산을 깊이별 분리가능한 컨볼루션으로 수행하는 경우의 연산 비용에 대하여 살펴보면, 입력특징맵, 출력특징맵 및 컨볼루션 필터의 크기는 다음의 수학식 1과 같이 표현할 수 있다.

(수학식 1)

Input feature map(F)의 크기 = D_F x D_F x M

Output feature map(G)의 크기 = D_G x D_G x N

Convolution kernel(K)의 크기 = D_K x D_K x M x N

D_F: input feature map의 width and height

M: input feature map의 channel 수(output depth)

D_G: output feature map의 width and height

N: output feature map의 channel 수(output depth)

기존 방식에 따라 심층신경망 컨볼루션 연산을 수행하는 경우의 연산 비용은 다음의 수학식 2로 표현된다.

(수학식 2)

(기존 컨볼루션 연산의 비용) = D_K x D_K x M x N x D_F x D_F

한편, 본 발명의 깊이별 분리가능한 컨볼루션 연산을 수행하는 경우의 연산 비용은 다음의 수학식 3에 따라 표현가능하다.

(수학식 3)

(깊이별 컨볼루션 연산의 비용) = D_K x D_K x M x D_F x D_F(식 3-1)

(위치별 컨볼루션 연산의 비용) = 1 x 1 x M x N x D_F x D_F (식 3-2)

깊이별 분리가능한 컨볼루션 연산의 비용(전체 컨볼루션 연산의 비용)

= (깊이별 컨볼루션 연산의 비용) + (위치별 컨볼루션 연산의 비용)

= D_K x D_K x M x D_F x D_F + M x N x D_F x D_F (식 3-3)

따라서, 기존 컨볼루션 연산 대비 본 발명의 깊이별 분리가능한 컨볼루션 연산 비용은 다음의 수학식 4와 같이 대비될 수 있다.

(수학식 4)

(깊이별 분리가능한 컨볼루션 연산의 비용)/(기존 컨볼루션 연산의 비용)

= (수학식 3-3)/(수학식 2)

= (D_K x D_K x M x D_F x D_F + M x N x D_F x D_F)/(D_K x D_K x M x N x D_F x D_F)

= 1/N + 1/D_F ²

즉, N 값이 크고 D_F가 3x3 필터인 경우에, 깊이별 분리가능한 컨볼루션 연산을 사용하면 기존 컨볼루션 연산보다 연산 비용이 대략 1/9 정도 감소할 것이다. 일 예에서, 객체검출부(310)는 심층신경망의 각 계층에 대하여 3x3 필터를 사용하고, 기본 심층신경망 네트워크 구조는 MobileNet을 사용할 수 있다.

또한, 단계(420)에서 객체검출부(310)는 심층신경망의 컨볼루션 계산 시간을 현저히 단축하고 컨볼루션 계산에 소요되는 메모리 사용량을 줄이기 위하여 바이너리 연산 기반의 심층 신경망을 사용한다. 즉, 심층신경망의 입력특징맵 및 각 계층별 필터는 바이너리 형식으로 표현되고, 심층신경망은 바이너리 연산 기반의 컨볼루션 신경망이다. 예를 들어, 바이너리 연산 기반의 심층 신경망의 기본 네트워크 구조는 MobileNet을 사용한다. 이와 같은 바이너리 컨볼루션 신경망은 도 6(C)를 참조하여 영상처리보드(220)가 CPU를 포함하는 경우에 사용될 수 있다.

기존 컨볼루션 연산은 elementwise multiplication 그리고 add로 이루어진다. 반면에 본 발명에 따른 바이너리 연산 기반의 컨볼루션은 특징맵과 필터가 모두 바이너리 값이므로 elementwise XNOR와 Bit counting으로 이루어지므로 기존 컨볼루션 연산에 비해 연산 속도가 매우 빠르다. 예를 들어, 바이너리 연산 기반의 컨볼루션은 기존 컨볼루션 대비 처리 속도가 대략 52배 빠르다. 또한, 본 발명에 따른 바이너리 연산 기반의 컨볼루션을 수행하는 심층신경망은 학습 모델의 가중치 파일의 크기가 예를 들어 32배 감축된다. 이는 기존 심층신경망에서 float 타입으로 저장되는 특징맵 값과 필터 값을 바이너리 연산 기반의 심층신경망은 특징맵과 필터를 바이너리 값으로 저장하기 때문이다.

한편, 심층신경망에 사용되는 대부분의 메모리는 특징맵이 차지한다. 본 발명의 영상 인식 장치(100)와 같은 임베디드 시스템에서는 대용량의 메모리를 사용할 수 없으므로 응용 프로그램이 요구하는 정확도를 제공하면서 가능한 적은 메모리를 효율적으로 사용하는 것이 요구된다. 심층신경망의 입력이미지의 크기가 작을수록, 네트워크 계층의 개수가 작을수록, 각 계층의 필터의 개수가 작을수록 메모리 사용량은 줄어든다. 객체검출부(310)는 입력이미지의 크기, 심층신경망의 계층별 필터의 개수 및 계층의 개수를 조절하여 심층신경망의 메모리 사용량을 조절할 수 있다. 즉, 객체검출부(310)는 입력이미지의 크기와 각 계층의 필터 개수(또는 비율)를 하이퍼 파라미터(hyper parameter)로 조절하면서 심층신경망 객체 검출 엔진 학습 시에 객체정보부(320)에 적합한 최적의 값을 찾을 수 있다.

이후, 단계(420)에서 객체검출부(310)는 객체 검출 결과를 객체정보부(320)에게 전달한다. 예를 들어 검출 결과는 심층신경망의 마지막 계층의 출력특징맵(530)이다.

단계(430)에서 객체정보부(320)는 적어도 하나의 객체를 추적하여 객체 정보를 추출한다.

객체정보부(320)는 단계(410)에서 단위시간마다 촬영된 일련의 이미지를 카메라 센서(210)로부터 입력받는다. 단계(430)에서 객체정보부(320)는 객체검출부(310)가 단계(420)에서 검출한 적어도 하나의 객체의 각각에 대하여 객체 ID를 부여하고, 단계(410)에서 수신한 일련의 이미지 안에서, 객체 ID 별로 객체 정보를 추출한다.

객체 정보는 객체 ID, 객체 추적 정보 및 이벤트 정보를 포함한다. 객체정보부(320)는 일련의 이미지 안에서 객체의 움직임을 추적하는 추적 정보를 활용하여 단위 시간에 발생한 이벤트를 탐지할 수 있다. 단계(430)는 앞서 살펴본 도 3의 단계(340)에 대응한다.

단계(440)에서 객체정보부(320)는 단계(440)에서 추출한 객체 정보를 관제 서버로 전송한다. 관제 서버는 복수의 영상 인식 장치(100)로부터 객체 정보를 수신하고 추가적인 분석을 수행하고 객체 정보 및 분석 결과를 공유할 수 있다.

도 6은 예시적인 영상 인식 장치의 블록도이다. 본 발명에 따른 실시예는 객체검출부(310)를 실행하는 하드웨어에 따라 3 가지 타입의 엣지 카메라를 제시한다. 응용 환경과 목적에 따라 3가지 타입 중 하나를 선택하여 사용할 수 있다. 이를 위하여, 영상 처리 보드(220)는 GPU, DSP, FPGA 및 CPU 중 적어도 하나를 포함하고, 객체검출부(310)는 GPU, DSP, FPGA, 또는 CPU에서 실행된다.

도 6(A)는 객체검출부(310)를 임베디드용 GPU에서 실행한다. 카메라 센서(210)는 보통 초당 30프레임의 이미지프레임을 촬영하여 CPU로 전달한다. 객체정보부(320)는 CPU에서 동작하고, 카메라 센서(210)에서 촬영한 이미지 프레임을 받아 심층신경망 객체 검출 알고리즘을 수행하도록 객체검출부(310)를 호출한다. 객체검출부(310)는 GPU에서 처리된다. GPU는 다수의 계산 유닛을 가지고 심층신경망의 연산을 병렬로 처리하기 때문에 속도가 빠르다. 심층신경망용 임베디드용 GPU는 100개 이상의 계산 유닛(core)를 가지고 있다. 경량 심층신경망 기반의 객체 검출 알고리즘은 임베디드 GPU에서 실시간으로 처리될 수 있다. 심층신경망 학습 모델(weights)는 저장부(flash memory)에 저장되고, 실행 시 GPU 내부 메모리에 로딩되어 동작한다. 응용 프로그램에서 수집한 객체 정보는 로컬 저장장치에 저장된다. 또한, 통신인터페이스(230)를 통해 관제 서버로 전송될 수 있다. 객체검출부(310)가 GPU에서 동작하는 경우 처리 속도가 빠르고, 객체정보부(320) 및 심층신경망 객체 검출 엔진을 비롯한 객체검출부(310)에 대한 업데이트가 용이하다. 다른 예에서, GPU대신 DSP를 사용할 수 있다.

도 6(B)는FPGA에서 객체검출부(310)를 실행한다. 객체정보부(320)는 CPU에서 동작하고, 카메라 센서(210)에서 이미지 프레임을 받아 심층신경망 객체 검출 알고리즘을 수행하도록 객체검출부(310)를 호출한다. 객체검출부(310)는 FPGA로 구현된다. FPGA는 하드웨어적으로 심층신경망을 최적화하여 처리 속도가 빠르다. 경량 심층신경망 기반의 객체 검출 알고리즘은 FPGA로 실시간으로 처리될 수 있다. 심층신경망 학습 모델은 저장장치(flash memory)에 저장되고, 실행 시 DRAM으로 로딩되어 동작한다. 심층신경망 실행 시 필요한 특징맵을 위한 메모리는 DRAM에 할당된다. 객체정보부(320)에서 수집한 객체 정보는 로컬 저장장치에 저장된다. 또한, 통신 인터페이스(230)를 통해 관제 서버로 전송될 수 있다. 객체검출부(310)를 FPGA로 구현할 경우 처리 속도가 빠르고, 전력 소모가 작으며, 온칩 형태로 크기가 작아 카메라 기구 내에 내장하기 쉽다.

도 6(C)는 CPU에서 객체검출부(310)를 바로 실행한다. 객체정보부(320)는 CPU에서 동작하고, 카메라 센서(210)에서 이미지 프레임을 받아 심층신경망 객체 검출 알고리즘을 수행하도록 객체검출부(310)를 호출한다. 객체검출부(310)는 CPU에서 동작한다. 바이너리 연산 기반의 경량심층신경망은 SIMD 연산을 지원하는 CPU에서 실시간으로 처리될 수 있다. 심층신경망 학습 모델는 저장장치(flash memory)에 저장되고, 실행 시 DRAM으로 로딩되어 동작한다. 심층신경망 실행 시 필요한 특징맵을 위한 메모리는 DRAM에 할당된다. 객체정보부(320)에서 수집한 객체 정보는 로컬 저장장치에 저장된다. 또한, 통신 인터페이스(230)를 통해 관제 서버로 전송될 수 있다. 객체검출부(310)를 CPU에서 실행할 경우 전력소모가 작으며, 크기가 작아 카메라 기구 내에 내장하기 쉽다. 가격이 저렴하고, 심층신경망 객체검출엔진의 수정/업데이트가 용이하다.

한편, 본 발명의 실시예에 따른 장치 및 방법은 컴퓨터 시스템에서 구현되거나, 또는 기록매체에 기록될 수 있다. 컴퓨터 시스템은 적어도 하나 이상의 프로세서와, 메모리와, 사용자 입력 장치와, 데이터 통신 버스와, 사용자 출력 장치와, 저장소를 포함할 수 있다. 전술한 각각의 구성 요소는 데이터 통신 버스를 통해 데이터 통신을 한다.

컴퓨터 시스템은 네트워크에 커플링된 네트워크 인터페이스를 더 포함할 수 있다. 프로세서는 중앙처리 장치(central processing unit (CPU))이거나, 혹은 메모리 및/또는 저장소에 저장된 명령어를 처리하는 반도체 장치일 수 있다.

메모리 및 저장소는 다양한 형태의 휘발성 혹은 비휘발성 저장매체를 포함할 수 있다. 예컨대, 메모리는 ROM 및 RAM을 포함할 수 있다.

따라서, 본 발명의 실시예에 따른 영상 인식 방법 컴퓨터에서 실행 가능한 방법으로 구현될 수 있다. 본 발명의 실시예에 따른 영상 인식 방법이 컴퓨터 장치에서 수행될 때, 컴퓨터로 판독 가능한 명령어들이 본 발명에 따른 정보 제공 방법을 수행할 수 있다.

한편, 상술한 본 발명에 따른 영상 인식 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체로는 컴퓨터 시스템에 의하여 해독될 수 있는 데이터가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래시 메모리, 광 데이터 저장장치 등이 있을 수 있다. 또한, 컴퓨터로 판독 가능한 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다.

이제까지 본 발명을 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양하게 변경 또는 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명을 위한 예시적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

100: 영상 인식 장치
210: 카메라 센서
220: 영상 처리 보드
230: 통신 인터페이스
310: 객체검출부
320: 객체정보부

Claims

경량 심층신경망 기반의 영상 인식 장치에 있어서,
입력 이미지를 촬영하는 카메라 센서; 및
상기 입력 이미지를 분석하는 영상 처리 보드;
를 포함하고,
상기 영상 처리 보드는,
심층신경망 학습 모델에 따른 심층신경망에 기반하여 상기 입력 이미지를 분석하고 적어도 하나의 객체를 검출하는 객체검출부; 및
상기 적어도 하나의 객체를 추적하여 객체 정보를 추출하는 객체정보부
를 포함하는 영상 인식 장치.
제 1 항에 있어서,
상기 심층신경망은,
적어도 하나의 계층 및 각 계층별 필터를 포함하고,
각 계층에 대한 입력특징맵 및 상기 계층별 필터를 컨볼루션 연산하여 각 계층에 대한 출력특징맵을 계산하는 컨볼루션 신경망인, 영상 인식 장치.
제 2 항에 있어서,
상기 컨볼루션 연산은, 상기 입력특징맵의 채널별로 컨볼루션 연산을 수행하는 깊이별 컨볼루션(depthwise convolution) 및 상기 입력특징맵의 위치별로 컨볼루션 연산을 수행하는 위치별 컨볼루션(pointwise convolution)을 분리하여 계산하는, 영상 인식 장치.
제 2 항에 있어서,
상기 입력특징맵 및 상기 계층별 필터는 바이너리 형식으로 표현되고,
상기 심층신경망은 바이너리 연산 기반의 컨볼루션 신경망인, 영상 인식 장치.
제 2 항에 있어서,
상기 심층신경망의 계층별 필터는 상기 심층신경망 학습 모델에 따라 초기화되는, 영상 인식 장치.
제 2 항에 있어서.
상기 입력 이미지의 크기, 상기 계층별 필터의 개수 및 상기 계층의 개수를 조절하여 상기 심층신경망의 메모리 사용량을 조절가능한, 영상 인식 장치.
제 1 항에 있어서,
상기 영상 처리 보드는, GPU, DSP, FPGA 및 CPU 중 적어도 하나를 포함하고,
상기 객체검출부는 GPU, DSP, FPGA, 또는 CPU에서 실행되는, 영상 인식 장치.
제 1 항에 있어서,
상기 카메라 센서는 단위시간마다 일련의 입력 이미지를 촬영하고,
상기 객체정보부는 상기 적어도 하나의 객체의 각각에 대하여 객체 ID를 부여하고, 상기 일련의 입력 이미지 안에서 상기 객체 ID 별로 상기 객체 정보를 추출하는, 영상 인식 장치.
제 8 항에 있어서,
상기 객체 정보는, 상기 객체의 움직임을 추적하는 추적 정보를 포함하고,
상기 객체정보부는, 상기 추적 정보를 활용하여 상기 단위 시간에 발생한 이벤트를 탐지하는, 영상 인식 장치.
제 1 항에 있어서,
상기 영상 처리 보드는 상기 카메라 센서와 일체형으로 구성되는, 영상 인식 장치.
경량 심층신경망 기반의 영상 인식 방법에 있어서,
이미지를 입력받는 단계;
적어도 하나의 계층 및 계층별 필터를 포함하는 심층신경망에 기반하여 상기 이미지를 분석하고 적어도 하나의 객체를 검출하는 단계; 및
상기 적어도 하나의 객체를 추적하여 객체 정보를 추출하는 단계
를 포함하는 영상 인식 방법.
제 11 항에 있어서,
상기 객체를 검출하는 단계는,
각 계층에 대한 입력특징맵 및 상기 계층별 필터를 컨볼루션 연산하여 각 계층에 대한 출력특징맵을 계산하는 단계
를 포함하는, 영상 인식 방법.
제 12 항에 있어서,
상기 계산하는 단계는,
상기 입력특징맵의 채널별로 컨볼루션 연산을 수행하는 깊이별 컨볼루션을 수행하는 단계; 및
상기 입력특징맵의 위치별로 컨볼루션 연산을 수행하는 위치별 컨볼루션을 수행하는 단계
를 포함하는, 영상 인식 방법.
제 11 항에 있어서,
상기 이미지를 입력받는 단계는 단위시간마다 촬영된 일련의 이미지를 입력 받으며,
상기 객체 정보를 추출하는 단계는,
상기 적어도 하나의 객체의 각각에 대하여 객체 ID를 부여하고, 상기 일련의 이미지 안에서 상기 객체 ID 별로 상기 객체 정보를 추출하는, 영상 인식 방법.
제 11 항에 있어서,
상기 객체 정보를 네트워크를 통해 관제 센터에 전송하는 단계
를 더 포함하는, 영상 인식 방법.