KR102344373B1 - 특징맵 생성방법 및 특징맵 생성장치 - Google Patents

특징맵 생성방법 및 특징맵 생성장치 Download PDF

Info

Publication number
KR102344373B1
KR102344373B1 KR1020200019412A KR20200019412A KR102344373B1 KR 102344373 B1 KR102344373 B1 KR 102344373B1 KR 1020200019412 A KR1020200019412 A KR 1020200019412A KR 20200019412 A KR20200019412 A KR 20200019412A KR 102344373 B1 KR102344373 B1 KR 102344373B1
Authority
KR
South Korea
Prior art keywords
feature map
roi
feature
combined
generating
Prior art date
Application number
KR1020200019412A
Other languages
English (en)
Other versions
KR20210049655A (ko
Inventor
위동윤
강명구
Original Assignee
네이버 주식회사
라인 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 네이버 주식회사, 라인 가부시키가이샤 filed Critical 네이버 주식회사
Publication of KR20210049655A publication Critical patent/KR20210049655A/ko
Application granted granted Critical
Publication of KR102344373B1 publication Critical patent/KR102344373B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2137Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on criteria of topology preservation, e.g. multidimensional scaling or self-organising maps
    • G06K9/6251
    • G06K9/00362
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Abstract

본 출원은 특징맵 생성방법 및 특징맵 생성장치에 관한 것으로서, 본 발명의 일 실시예에 의한 Mask R-CNN(Region-Convolutional Neural Network) 기반의 객체검출을 위한 특징맵 생성방법은, 백본 네트워크(backbone network)로부터, 원본 이미지에 대한 서로 다른 스케일을 가지는 복수의 특징맵(feature map)들을 수신하는 단계; 상기 원본 이미지에 포함된 관심영역(RoI: Region of interest)에 대응하는 상기 특징맵 상의 관심좌표를, 각각의 특징맵별로 생성하는 단계; 및 상기 특징맵으로부터 상기 관심좌표에 대응하는 RoI 특징맵을 추출하고, 각각의 스케일별 RoI 특징맵들을 결합하여 하나의 결합 특징맵을 생성하는 단계를 포함할 수 있다.

Description

특징맵 생성방법 및 특징맵 생성장치 {Apparatus and method for generating feature maps}
본 출원은 특징맵 생성방법 및 특징맵 생성장치에 관한 것으로, 특히 Mask R-CNN(Region-Convolutional Neural Network) 기반의 객체검출을 위한 특징맵 생성방법 및 특징맵 생성장치에 관한 것이다.
최근, 인공지능 기술의 발전으로 인해 인공지능 기술을 이용해서 이미지에 존재하는 객체가 무엇인지를 판정하는 딥러닝 기술의 연구가 활발히 이루어지고 있다.
이미지에 존재하는 객체를 판정하는 방법으로 합성곱신경망(Convolutional Neural Network: CNN) 기술이 주로 사용되고 있다. CNN은 입력 이미지에 대해 소정의 콘볼루션 필터를 적용하여 이미지의 특징 추출을 위한 특징맵의 생성 과정을 반복수행하고, 이를 기초로 전연결계층(fully connected layer)을 생성한 후 분류기를 통해 상기 입력 이미지의 객체가 무엇인지를 확률적으로 연산하여 그 연산 결과 값에 따른 손실(loss)이 최소화되도록 상기 콘볼루션 필터의 가중치를 학습시키는 방식을 의미한다.
본 출원은 Mask R-CNN(Region-Convolutional Neural Network) 기반의 객체검출을 위한 특징맵을 생성할 수 있는 특징맵 생성방법 및 특징맵 생성장치를 제공하고자 한다.
본 출원은 백본 네트워크에서 생성한 멀티 스케일 특징맵들을 결합하여 하나의 결합 특징맵을 생성할 수 있는 특징맵 생성방법 및 특징맵 생성장치를 제공하고자 한다.
본 출원은 멀티 스케일 특징맵들을 결합한 결합 특징맵에 채널 집중 기법을 적용하여, 가중치를 재설정한 최종 특징맵을 생성할 수 있는 특징맵 생성방법 및 특징맵 생성장치를 제공하고자 한다.
본 발명의 일 실시예에 의한 특징맵 생성방법은, Mask R-CNN(Region-Convolutional Neural Network) 기반의 객체검출을 위한 특징맵 생성방법에 관한 것으로, 백본 네트워크(backbone network)로부터, 원본 이미지에 대한 서로 다른 스케일을 가지는 복수의 특징맵(feature map)들을 수신하는 단계; 상기 원본 이미지에 포함된 관심영역(RoI: Region of interest)에 대응하는 상기 특징맵 상의 관심좌표를, 각각의 특징맵별로 생성하는 단계; 및 상기 특징맵으로부터 상기 관심좌표에 대응하는 RoI 특징맵을 추출하고, 각각의 스케일별 RoI 특징맵들을 결합하여 하나의 결합 특징맵을 생성하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 의한 특징맵 생성장치는, Mask R-CNN(Region-Convolutional Neural Network) 기반의 객체검출을 위한 특징맵 생성장치에 관한 것으로, 백본 네트워크(backbone network)로부터, 원본 이미지에 대한 서로 다른 스케일을 가지는 복수의 특징맵(feature map)들을 수신하면, 상기 원본 이미지에 포함된 관심영역(RoI: Region of interest)에 대응하는 상기 특징맵 상의 관심좌표를, 각각의 특징맵별로 생성하는 관심영역정렬부; 및 상기 특징맵으로부터 상기 관심좌표에 대응하는 RoI 특징맵을 추출하고, 각각의 스케일별 RoI 특징맵들을 결합하여 하나의 결합 특징맵을 생성하는 특징맵결합부를 포함할 수 있다.
본 발명의 다른 실시예에 의한 특징맵 생성장치는, 프로세서; 및 상기 프로세서에 커플링된 메모리를 포함하는 것으로서, 상기 메모리는 상기 프로세서에 의하여 실행되도록 구성되는 하나 이상의 모듈을 포함하고, 상기 하나 이상의 모듈은, 백본 네트워크(backbone network)로부터, 원본 이미지에 대한 서로 다른 스케일을 가지는 복수의 특징맵(feature map)들을 수신하고, 상기 원본 이미지에 포함된 관심영역(RoI: Region of interest)에 대응하는 상기 특징맵 상의 관심좌표를, 각각의 특징맵별로 생성하며, 상기 특징맵으로부터 상기 관심좌표에 대응하는 RoI 특징맵을 추출하고, 각각의 스케일별 RoI 특징맵들을 결합하여 하나의 결합 특징맵을 생성하는 명령어를 포함할 수 있다.
덧붙여 상기한 과제의 해결수단은, 본 발명의 특징을 모두 열거한 것이 아니다. 본 발명의 다양한 특징과 그에 따른 장점과 효과는 아래의 구체적인 실시형태를 참조하여 보다 상세하게 이해될 수 있을 것이다.
본 발명의 일 실시예에 의한 특징맵 생성방법 및 특징맵 생성장치에 의하면, 상이한 스케일을 가지는 복수의 특징맵들을 결합한 결합 특징맵을 생성하는 것이 가능하다. 즉, 결합 특징맵에는 상이한 스케일의 특징맵들에 포함된 각각의 정보들이 통합되어 포함될 수 있으므로, 이를 이용하면 보다 정확한 객체추출이나 포즈 추정 등을 수행하는 것이 가능하다.
본 발명의 일 실시예에 의한 특징맵 생성방법 및 특징맵 생성장치에 의하면, 채널 집중 기법을 이용하여 결합 특징맵의 채널 방향 가중치들을 재설정할 수 있다.
본 발명의 일 실시예에 의한 특징맵 생성방법 및 특징맵 생성장치에 의하면, RoIAlign 기법 등을 이용하여, 특징맵 내의 관심영역을 정확하게 정렬시킬 수 있으므로, 객체추출 성능 등을 향상시킬 수 있다.
다만, 본 발명의 실시예들에 따른 특징맵 생성방법 및 특징맵 생성장치가 달성할 수 있는 효과는 이상에서 언급한 것들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도1은 본 발명의 일 실시예에 의한 객체추출시스템을 나타내는 개략도이다.
도2 및 도3은 본 발명의 일 실시예에 의한 특징맵 생성 장치를 나타내는 블록도이다.
도4는 본 발명의 일 실시예에 의한 특징맵 생성 장치의 동작을 나타내는 개략도이다.
도5는 본 발명의 일 실시예에 의한 특징맵 결합부의 동작을 나타내는 개략도이다.
도6은 본 발명의 다른 실시예에 의한 가중치 재설정을 나타내는 개략도이다.
도7은 본 발명의 일 실시예에 의한 특징맵 생성방법을 나타내는 순서도이다.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 즉, 본 발명에서 사용되는 '부'라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, '부'는 어떤 역할들을 수행한다. 그렇지만 '부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 '부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '부'들로 결합되거나 추가적인 구성요소들과 '부'들로 더 분리될 수 있다.
또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
도1은 본 발명의 일 실시예에 의한 객체추출시스템을 나타내는 개략도이다. 도1을 참조하면 본 발명의 일 실시예에 의한 객체추출시스템은, 백본 네트워크(B), 특징맵 생성장치(100) 및 헤드 네트워크(H)를 포함할 수 있다.
객체추출시스템은 딥러닝(deep learning) 등의 머신러닝(machine learning) 기법을 이용하여 샘플 이미지들을 학습할 수 있으며, 학습한 결과를 바탕으로 입력받은 원본이미지(i1)에 포함된 객체들을 추출할 수 있다.
예를들어, 객체추출시스템은 원본 이미지(i1) 내에 포함된 다양한 크기의 인체들을 검출하고, 각각의 인체들의 포즈(pose)를 추정할 수 있다. 여기서, 객체추출시스템은 검출이미지(i2)에 도시한 바와 같이, 인체에 해당하는 영역은 별도의 색상으로 표시하고, 각각의 인체들의 포즈는 스켈레톤 형상의 키포인트(keypoint)로 나타낼 수 있다.
원본이미지(i1) 내에는 다양한 크기 및 포즈의 인체들이 포함될 수 있으며, 각각의 인체들은 2차원의 형상으로 나타날 수 있다. 객체추출시스템은 원본 이미지(i1) 내에 포함된 인체를 찾은 후 각각의 인체들의 손, 발, 머리, 몸통 등 각 부위의 형상과 연결구조를 찾는 하향식(top-down) 포즈 추정을 수행할 수 있다. 여기서, 객체추출시스템은 인체 검출기 모델(human detector model)과 단일 인물 포즈 추정모델(single person pose estimation model)이 통합된 싱글 모델 기법(single model based method)을 활용하는 것일 수 있다. 즉, 객체추출시스템은 백본네트워크(backbone network, B)에서 생성한 특징맵들을 이용하여, 인체 검출 및 각각의 인체들에 대한 포즈 추정을 할 수 있다. 이 경우, 원본 이미지(i1)에 포함된 각각의 인체들을 추출하여 크롭(crop)하는 별도의 인체검출기를 필요로 하지 않으므로, 계산효율을 높일 수 있다.
구체적으로, 백본 네트워크(B)는 원본 이미지(i1)를 입력받을 수 있으며, 원본 이미지(i1)에 대한 Mask R-CNN(Convolutional Neural Network)을 수행하여 원본 이미지(i1)에 대한 특징맵을 생성할 수 있다. 이때, 백본 네트워크(B)는 다양한 크기의 객체들을 검출하기 위하여, 서로 다른 스케일의 특징맵들을 복수개 생성할 수 있다. 실시예에 따라서는, ResNet-FPN 프레임워크를 백본 네트워크(B)로 활용하여 멀티 스케일 특징맵을 생성할 수 있으며, 이외에도 멀티스케일 특징맵을 생성할 수 있는 것이면 어떠한 것도 백본 네트워크(B)로 활용할 수 있다. 여기서, 백본 네트워크(B)는 원본 이미지(i1)에서 객체가 위치하는 것으로 추정되는 후보영역에 해당하는 관심영역(RoI: Region of Interest)들을 미리 설정할 수 있다.
특징맵 생성장치(100)는 원본 이미지(i1) 내의 관심영역에 대응하는 특징맵 상의 관심좌표들을 생성할 수 있으며, 특징맵으로부터 각각의 관심좌표에 대응하는 RoI 특징맵들을 추출할 수 있다. 이후, 각각의 스케일별 RoI 특징맵들을 결합하여 하나의 결합 특징맵을 생성할 수 있다. 즉, 하나의 결합 특징맵 내에 다양한 크기의 RoI 특징맵들의 특징이 모두 포함되도록 결합시킬 수 있다. 또한, 결합 특징맵에 대한 채널 방향 또는 공간 방향의 가중치를 조절하여, 최종 특징맵을 생성할 수 있다.
헤드 네트워크(H)는 특징맵 생성장치(100)로부터 제공받은 최종 특징맵을 이용하여, 필요한 결과물을 추출할 수 있다. 예를 들면, 인체 검출 및 포즈 추정 등을 수행하기 위하여, 헤드 네트워크(H)는 검출된 인체와 각각의 인체들의 키포인트들을 표시하여 검출이미지(i2)를 생성할 수 있다.
도2는 본 발명의 일 실시예에 의한 특징맵 생성장치를 나타내는 블록도이다. 도2를 참조하면 본 발명의 일 실시예에 의한 특징맵 생성장치(100)는, 관심영역 정렬부(110) 및 특징맵 결합부(120)를 포함할 수 있다.
관심영역 정렬부(110)는, 백본 네트워크(B)로부터 원본 이미지(i1)에 대한 복수의 특징맵(feature map)들을 수신할 수 있다. 도4에 도시한 바와 같이, 백본 네트워크(B)는 Mask R-CNN을 적용하여, 원본 이미지(i1)로부터 스케일이 상이한 각각의 특징맵(F1, F2, F3, F4)를 생성할 수 있다. 여기서, 각각의 특징맵(F1, F2, F3, F4)에는 원본 이미지(i1) 내의 관심영역에 대응하는 각각의 관심영역(R1, R2, R3, R4)들이 포함될 수 있다.
관심영역 정렬부(110)는 원본 이미지(i1)에 포함된 관심영역에 대응하는 특징맵 상의 관심좌표를 각각의 특징맵별로 생성할 수 있다. 예를들어, 원본 이미지(i1)의 크기가 128Х128이고, 원본 이미지(i1)의 좌상단 15×15 영역이 관심영역일 수 있으며, 백본 네트워크(B)는 원본이미지(i1)에 Mask R-CNN을 적용하여 25Х25의 특징맵을 생성할 수 있다. 이 경우, 원본 이미지(i1)의 좌상단 15Х15에 해당하는 관심영역은 특징맵의 좌상단 2.93Х2.93 영역에 해당한다. 즉, 128Х128의 원본 이미지(i1)가 25×25의 특징맵으로 작아졌으므로, 128/25 = 5.12에 해당하고, 15/5.12 = 2.93이므로, 특징맵 내의 관심영역은 좌상단 2.93Х2.93에 해당하게 된다.
종래에는 2.93을 반올림하여 특징맵 좌상단의 3Х3 부분을 관심영역으로 설정하였으나, 이 경우 실제 원본이미지(i1) 내의 관심영역의 위치와 특징맵(F1, F2, F3, F4) 내의 관심좌표에 대한 정렬이 정확하게 이루어지지 않게 된다. 즉, 원본 이미지의 관심영역과, 관심영역에 대응하여 특징맵 내에 설정되는 관심좌표에 대한 정렬이 불량하게 되므로, 객체 추출 등의 성능에 큰 영향을 미칠 수 있다.
이를 해소하기 위하여, 관심영역 정렬부(110)는 RoIAlign 기법을 활용할 수 있다. 즉, RoIAlign 기법을 이용하여, 소수점으로 나타난 각각의 관심좌표들을 쌍선형 보간법으로 정렬시킬 수 있으므로, 이를 통하여 관심좌표가 정확하게 관심영역에 대응하도록 보정하는 것이 가능하다. 이외에도, 실시예에 따라서는 RoIPooling 등 관심영역을 추출할 수 있는 다양한 기법들을 활용할 수 있다.
특징맵 결합부(120)는 특징맵으로부터 관심좌표에 대응하는 RoI 특징맵을 추출하고, 각각의 스케일별 RoI 특징맵들을 결합하여 하나의 결합 특징맵을 생성할 수 있다. 구체적으로, 도5에 도시한 바와 같이, RoI 특징맵(R1, R2, R3, R4)들을 업샘플링(upsampling)하여, 각각의 스케일별 RoI 특징맵(R1, R2, R3, R4)들의 공간 해상도(spatial resolution)을 일치시킬 수 있다. 이후 공간 해상도가 일치된 RoI 특징맵들에 각각 1×1 컨볼루션 필터를 적용하여, RoI 특징맵들의 채널수를 축소시킬 수 있다. 이때, 백본 네트워크(B)에서 생성한 특징맵의 개수가 N개이면, 채널수를 1/N개로 축소시키도록 1×1 컨볼루션 필터를 설정할 수 있다.
이후, 도5에 도시한 바와 같이, RoI 특징맵들을 적층하여 결합 특징맵(M1)을 생성할 수 있으며, 이때 각각의 RoI 특징맵들을 채널 방향으로 순차적으로 적층할 수 있다. 이 경우, 채널수를 1/N개로 축소시키고, N 개의 RoI 특징맵들을 적층하는 것이므로, 적층에 의하여 형성된 결합 특징맵(M1)의 채널수는, 기존의 RoI 특징맵(R1, R2, R3, R4)의 채널수와 동일하게 유지될 수 있다.
여기서, RoI 특징맵들은 각각 스케일에 따라 상이한 정보 등을 포함할 수 있으며, 결합 특징맵(M1)에는 각각의 RoI 특징맵들에 포함된 정보들이 모두 포함될 수 있다. 따라서, 결합 특징맵(M1)을 이용하면 보다 정확한 객체추출이나 포즈 추정 등을 수행하는 것이 가능하다.
추가적으로, 특징맵 결합부(120)는 결합 특징맵(M1)의 가중치를 재설정하여 최종 특징맵(M2)을 생성할 수 있다. 도5에 도시한 바와 같이, 결합 특징맵(M1)에 채널 집중 기법(W, channel-wise attention)을 적용하여 가중치 유닛을 생성하고, 가중치 유닛을 결합 특징맵(M1)에 곱하여, 최종 특징맵(M2)을 생성할 수 있다. 구체적으로, 채널 집중 기법(W)은, 도5에 도시한 바와 같이, 결합 특징맵(M1)을 평균 풀링(Avg pool)한 후, 완전 결합(FC, fully connected) 레이어를 적용하여 가중치 유닛을 생성할 수 있다. 여기서, 평균 풀링 이외에 최대 풀링(MAX Pooling) 등 다양한 방식의 풀링을 적용하여 채널 집중 기법(W)을 구현하는 것도 가능하다.
또한, 실시예에 따라서는, 채널 집중 기법을 대신하여 공간 집중 기법(Spatial-wise attention)을 적용하거나, 채널 집중과 공간 집중을 동시에 적용하여 가중치 유닛을 생성하는 것도 가능하다. 즉, 도6에 도시한 바와 같이, 먼저 채널 집중 기법(W1)을 적용하고, 이후 직렬적으로 공간 집중 기법(W2)을 적용하여 최종 특징맵(M2)을 생성하는 것도 가능하다.
한편, 도3에 도시한 바와 같이, 본 발명의 일 실시예에 의한 특징맵 생성장치(100)는, 프로세서(10), 메모리(40) 등의 물리적인 구성을 포함할 수 있으며, 메모리(40) 내에는 프로세서(10)에 의하여 실행되도록 구성되는 하나 이상의 모듈이 포함될 수 있다. 구체적으로, 하나 이상의 모듈에는, 관심영역 정렬모듈 및 특징맵 결합모듈 등이 포함될 수 있다.
프로세서(10)는, 다양한 소프트웨어 프로그램과, 메모리(40)에 저장되어 있는 명령어 집합을 실행하여 여러 기능을 수행하고 데이터를 처리하는 기능을 수행할 수 있다. 주변인터페이스부(30)는, 특징맵 생성장치(100)의 입출력 주변 장치를 프로세서(10), 메모리(40)에 연결할 수 있으며, 메모리 제어기(20)는 프로세서(10)나 특징맵 생성장치(100)의 구성요소가 메모리(40)에 접근하는 경우에, 메모리 액세스를 제어하는 기능을 수행할 수 있다. 실시예에 따라서는, 프로세서(10), 메모리 제어기(20) 및 주변인터페이스부(30)를 단일 칩 상에 구현하거나, 별개의 칩으로 구현할 수 있다.
메모리(40)는 고속 랜덤 액세스 메모리, 하나 이상의 자기 디스크 저장 장치, 플래시 메모리 장치와 같은 불휘발성 메모리 등을 포함할 수 있다. 또한, 메모리(40)는 프로세서(10)로부터 떨어져 위치하는 저장장치나, 인터넷 등의 통신 네트워크를 통하여 엑세스되는 네트워크 부착형 저장장치 등을 더 포함할 수 있다.
도3에 도시한 바와 같이, 본 발명의 일 실시예에 의한 특징맵 생성장치(100)는, 메모리(40)에 운영체제를 비롯하여, 응용프로그램에 해당하는 관심영역 정렬모듈 및 특징맵 결합모듈 등을 포함할 수 있다. 여기서, 각각의 모듈들은 상술한 기능을 수행하기 위한 명령어의 집합으로, 메모리(40)에 저장될 수 있다. 따라서, 본 발명의 일 실시예에 의한 특징맵 생성장치(100)는, 프로세서(10)가 메모리(40)에 액세스하여 각각의 모듈에 대응하는 명령어를 실행할 수 있다. 다만, 관심영역 정렬모듈 및 특징맵 결합모듈은 상술한 관심영역 정렬부 및 특징맵 결합부에 각각 대응하므로 여기서는 자세한 설명을 생략한다.
도7은 본 발명의 일 실시예에 의한 특징맵 생성방법을 나타내는 순서도이다. 본 발명의 일 실시예에 의한 특징맵 생성방법은, Mask R-CNN(Region-Convolutional Neural Network) 기반의 객체검출을 위한 것으로, 각 단계는 상술한 특징맵 생성장치에 의하여 수행될 수 있다.
도7을 참조하면, 특징맵 생성장치는 백본 네트워크(backbone network)로부터, 원본 이미지에 대한 서로 다른 스케일을 가지는 복수의 특징맵(feature map)들을 수신할 수 있다(S10). 여기서, 백본 네트워크는 다양한 크기의 객체들을 검출하기 위하여, 서로 다른 스케일의 특징맵들을 복수개 생성할 수 있으며, 실시예에 따라서는 ResNet-FPN 프레임워크를 백본 네트워크로 활용할 수 있다.
이후, 특징맵 생성장치는 원본 이미지에 포함된 관심영역(RoI: Region of interest)에 대응하는 특징맵 상의 관심좌표를, 각각의 특징맵별로 생성할 수 있다(S20). 특징맵은 원본 이미지에 비하여 크기가 줄어들 수 있으며, 이때 원본 이미지에 포함된 관심영역을 나타내는 특징맵 상의 관심좌표는, 소수점으로 나타나는 경우도 발생할 수 있다. 이 경우, 소수점을 반올림하여 반영하는 경우에는, 관심좌표에 대한 정렬이 불량하게 되므로, 객체 추출 등의 성능에 큰 영향을 미칠 수 있다. 이를 해소하기 위하여, 여기서는 RoIAlign 기법을 이용할 수 있다. 즉, RoIAlign 기법에 의하면, 소수점으로 나타난 각각의 관심좌표들을 쌍선형 보간법으로 정렬시킬 수 있으므로, 관심좌표가 정확하게 관심영역에 대응하도록 보정하는 것이 가능하다. 실시예에 따라서는, RoIAlign 기법 이외에, RoIPooling 등 관심영역 추출을 위한 다양한 기법들을 적용하는 것도 가능하다.
이후, 특징맵 생성장치는, 특징맵으로부터 관심좌표에 대응하는 RoI 특징맵을 추출하고, 각각의 스케일별 RoI 특징맵들을 결합하여 하나의 결합 특징맵을 생성할 수 있다(S30).
구체적으로, 특징맵 생성장치는 RoI 특징맵들을 업샘플링(upsampling)하여, 각각의 스케일별 RoI 특징맵들의 공간 해상도(spatial resolution)을 일치시킬 수 있다. 이후, RoI 특징맵들에 1×1 컨볼루션 필터를 적용하여, RoI 특징맵들의 채널수를 축소시킬 수 있으며, 채널수를 축소시킨 RoI 특징맵들을 적층하여, 결합 특징맵을 생성할 수 있다.
이때, 백본 네트워크에서 생성한 특징맵의 개수가 N개이면, 채널수를 1/N개로 축소시킬 수 있으며, RoI 특징맵들을 적층할 때에는, 각각의 RoI 특징맵들을 채널방향으로 순차적으로 적층하여 결합 특징맵을 형성할 수 있다. 즉, 적층에 의하여 형성된 결합 특징맵의 채널수를, 기존의 RoI 특징맵의 채널수와 동일하게 유지시킬 수 있다.
결합 특징맵이 생성되면, 특징맵 생성장치는 결합 특징맵의 가중치를 재설정하여 최종 특징맵을 생성할 수 있다(S40). 즉, 결합 특징맵에 채널 집중기법을 적용하여 가중치 유닛을 생성하고, 가중치 유닛을 결합 특징맵에 곱하는 방식으로 가중치를 재설정하여, 최종 특징맵을 생성할 수 있다. 이 경우, 결합 특징맵을 평균 풀링이나 맥스 풀링 등의 방식으로 풀링(pooling)한 후, 완전 결합(fully connected) 레이어를 적용하여 가중치 유닛을 생성할 수 있다.
이외에도, 실시예에 따라서는, 채널 집중 기법을 대신하여 공간 집중 기법을 적용하거나, 채널 집중 기법과 공간 집중(spatial attention)을 동시에 적용하여 가중치 유닛을 생성하는 것도 가능하다. 이후, 가중치 유닛을 결합 특징맵에 곱하여, 최종 특징맵을 생성할 수 있다.
전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수개 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 애플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.
본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다. 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 본 발명에 따른 구성요소를 치환, 변형 및 변경할 수 있다는 것이 명백할 것이다.
100: 특징맵 생성장치 110: 관심영역 정렬부
120: 특징맵 결합부 B: 백본 네트워크
H: 헤드 네트워크

Claims (11)

  1. Mask R-CNN(Region-Convolutional Neural Network) 기반의 객체검출을 위한 특징맵 생성방법에 있어서,
    백본 네트워크(backbone network)로부터, 원본 이미지에 대한 서로 다른 스케일을 가지는 복수의 특징맵(feature map)들을 수신하는 단계;
    상기 원본 이미지에 포함된 관심영역(RoI: Region of interest)에 대응하는 상기 특징맵 상의 관심좌표를, 각각의 특징맵별로 생성하는 단계;
    상기 특징맵으로부터 상기 관심좌표에 대응하는 RoI 특징맵을 추출하고, 각각의 스케일별 RoI 특징맵들을 결합하여 하나의 결합 특징맵을 생성하는 단계; 및
    상기 결합 특징맵의 가중치를 재설정하여 최종 특징맵을 생성하는 단계를 포함하는 것으로,
    상기 결합 특징맵을 생성하는 단계는
    상기 RoI 특징맵들을 업샘플링(upsampling)하여, 각각의 스케일별 RoI 특징맵들의 공간 해상도(spatial resolution)을 일치시키는 단계;
    상기 RoI 특징맵들에 컨볼루션 필터를 적용하여, 상기 RoI 특징맵들의 채널 수를 축소시키는 단계; 및
    상기 RoI 특징맵들을 적층하여 상기 결합 특징맵을 생성하는 단계를 포함하고,
    상기 최종 특징맵을 생성하는 단계는
    상기 결합 특징맵에 채널 집중기법을 적용하여 가중치 유닛을 생성하고, 상기 가중치 유닛을 상기 결합 특징맵에 곱하여, 상기 최종 특징맵을 생성하며,
    상기 축소시키는 단계에서 축소되는 채널 수는 상기 백본 네트워크에서 생성한 상기 특징맵의 개수에 따라 결정되는 것을 특징으로 하는 특징맵 생성방법.
  2. 삭제
  3. 삭제
  4. 제1항에 있어서, 상기 결합 특징맵을 생성하는 단계는
    상기 RoI 특징맵들을 채널방향으로 순차적으로 적층하여, 상기 결합 특징맵을 형성하는 것을 특징으로 하는 특징맵 생성방법.
  5. 삭제
  6. 삭제
  7. 제1항에 있어서, 상기 최종 특징맵을 생성하는 단계는
    상기 결합 특징맵을 풀링(pooling)한 후, 완전 결합(fully connected) 레이어를 적용하여 상기 가중치 유닛을 생성하는 것을 특징으로 하는 특징맵 생성방법.
  8. 제1항에 있어서, 상기 최종 특징맵을 생성하는 단계는
    상기 결합 특징맵에 공간 집중(spatial attention)을 더 적용하여 가중치 유닛을 생성하고, 상기 가중치 유닛을 상기 결합 특징맵에 곱하여, 상기 최종 특징맵을 생성하는 것을 특징으로 하는 특징맵 생성방법.
  9. 하드웨어와 결합되어 제1항, 제4항, 제7항 및 제8항 중 어느 한 항의 특징맵 생성방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
  10. Mask R-CNN(Region-Convolutional Neural Network) 기반의 객체검출을 위한 특징맵 생성장치에 있어서,
    백본 네트워크(backbone network)로부터, 원본 이미지에 대한 서로 다른 스케일을 가지는 복수의 특징맵(feature map)들을 수신하면, 상기 원본 이미지에 포함된 관심영역(RoI: Region of interest)에 대응하는 상기 특징맵 상의 관심좌표를, 각각의 특징맵별로 생성하는 관심영역정렬부; 및
    상기 특징맵으로부터 상기 관심좌표에 대응하는 RoI 특징맵을 추출하고, 각각의 스케일별 RoI 특징맵들을 결합하여 하나의 결합 특징맵을 생성하며, 상기 결합 특징맵의 가중치를 재설정하여 최종 특징맵을 생성하는 특징맵결합부를 포함하는 것으로,
    상기 특징맵결합부는
    상기 RoI 특징맵들을 업샘플링(upsampling)하여 각각의 스케일별 RoI 특징맵들의 공간 해상도(spatial resolution)을 일치시키고, 상기 RoI 특징맵들에 컨볼루션 필터를 적용하여 상기 RoI 특징맵들의 채널 수를 축소시킨 후, 상기 업샘플링된 RoI 특징맵들을 적층하여 상기 결합 특징맵을 생성하되, 상기 축소되는 채널 수는 상기 백본 네트워크에서 생성한 상기 특징맵의 개수에 따라 결정되는 것으로,
    상기 특징맵결합부는
    상기 결합 특징맵에 채널 집중기법을 적용하여 가중치 유닛을 생성하고, 상기 가중치 유닛을 상기 결합 특징맵에 곱하여, 상기 최종 특징맵을 생성하는 것을 특징으로 하는 특징맵 생성장치.
  11. 프로세서; 및
    상기 프로세서에 커플링된 메모리를 포함하는 것으로서,
    상기 메모리는 상기 프로세서에 의하여 실행되도록 구성되는 하나 이상의 모듈을 포함하고,
    상기 하나 이상의 모듈은,
    백본 네트워크(backbone network)로부터, 원본 이미지에 대한 서로 다른 스케일을 가지는 복수의 특징맵(feature map)들을 수신하고,
    상기 원본 이미지에 포함된 관심영역(RoI: Region of interest)에 대응하는 상기 특징맵 상의 관심좌표를, 각각의 특징맵별로 생성하며,
    상기 특징맵으로부터 상기 관심좌표에 대응하는 RoI 특징맵을 추출하고, 각각의 스케일별 RoI 특징맵들을 결합하여 하나의 결합 특징맵을 생성한 후, 상기 결합 특징맵의 가중치를 재설정하여 최종 특징맵을 생성하는
    명령어를 포함하는 것으로,
    상기 결합 특징맵은
    상기 RoI 특징맵들을 업샘플링(upsampling)하여 각각의 스케일별 RoI 특징맵들의 공간 해상도(spatial resolution)을 일치시키고, 상기 RoI 특징맵들에 컨볼루션 필터를 적용하여 상기 RoI 특징맵들의 채널 수를 축소시킨 후, 상기 업샘플링된 RoI 특징맵들을 적층하여 생성하되, 상기 축소되는 채널 수는 상기 백본 네트워크에서 생성한 상기 특징맵의 개수에 따라 결정되는 것이고,
    상기 최종 특징맵은
    상기 결합 특징맵에 채널 집중기법을 적용하여 가중치 유닛을 생성하고, 상기 가중치 유닛을 상기 결합 특징맵에 곱하여 생성하는 것을 특징으로 하는 특징맵 생성장치.
KR1020200019412A 2019-10-25 2020-02-18 특징맵 생성방법 및 특징맵 생성장치 KR102344373B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20190133748 2019-10-25
KR1020190133748 2019-10-25

Publications (2)

Publication Number Publication Date
KR20210049655A KR20210049655A (ko) 2021-05-06
KR102344373B1 true KR102344373B1 (ko) 2021-12-29

Family

ID=75916031

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200019412A KR102344373B1 (ko) 2019-10-25 2020-02-18 특징맵 생성방법 및 특징맵 생성장치

Country Status (1)

Country Link
KR (1) KR102344373B1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102417870B1 (ko) * 2021-08-10 2022-07-06 인트플로우 주식회사 영상에 기반하여 동물 개체의 상태를 식별하는 장치 및 방법
CN113705387B (zh) * 2021-08-13 2023-11-17 国网江苏省电力有限公司电力科学研究院 一种用于激光清除架空线路异物的干扰物检测和跟踪方法
KR102650701B1 (ko) * 2021-11-05 2024-03-25 중앙대학교 산학협력단 전처리 네트워크를 이용한 이미지 내 작은 객체 검출률 향상 시스템 및 방법
KR102589551B1 (ko) * 2022-10-12 2023-10-13 중앙대학교 산학협력단 다중 스케일 객체 검출 방법 및 그 장치

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180027887A (ko) * 2016-09-07 2018-03-15 삼성전자주식회사 뉴럴 네트워크에 기초한 인식 장치 및 뉴럴 네트워크의 트레이닝 방법
KR102013372B1 (ko) * 2016-10-18 2019-08-23 동국대학교 산학협력단 영상 특징맵 생성 장치 및 방법
US10007865B1 (en) * 2017-10-16 2018-06-26 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN by using multi-scale feature maps and testing method and testing device using the same

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Jeremiah W. Johnson, Computer Vision and Pattern Recognition, Machine Learning, (2018.05.01) 1부.*

Also Published As

Publication number Publication date
KR20210049655A (ko) 2021-05-06

Similar Documents

Publication Publication Date Title
KR102344373B1 (ko) 특징맵 생성방법 및 특징맵 생성장치
US10769411B2 (en) Pose estimation and model retrieval for objects in images
US11030525B2 (en) Systems and methods for deep localization and segmentation with a 3D semantic map
US10936911B2 (en) Logo detection
US10235771B2 (en) Methods and systems of performing object pose estimation
US10872227B2 (en) Automatic object recognition method and system thereof, shopping device and storage medium
US9519968B2 (en) Calibrating visual sensors using homography operators
US10402724B2 (en) Method for acquiring a pseudo-3D box from a 2D bounding box by regression analysis and learning device and testing device using the same
US20200184697A1 (en) Image Modification Using Detected Symmetry
US11663463B2 (en) Center-biased machine learning techniques to determine saliency in digital images
CN110807459B (zh) 车牌矫正方法、装置以及可读存储介质
WO2022134842A1 (zh) 一种建筑特征的识别方法及装置
CN114387346A (zh) 一种图像识别、预测模型处理方法、三维建模方法和装置
US20220301176A1 (en) Object detection method, object detection device, terminal device, and medium
WO2023109086A1 (zh) 文字识别方法、装置、设备及存储介质
US20220245834A1 (en) Image processing method and apparatus
CN114463503A (zh) 三维模型和地理信息系统的融合方法及装置
US20230298317A1 (en) Method and device for detecting object and vehicle
CN114005169B (zh) 人脸关键点检测方法、装置、电子设备及存储介质
WO2023162132A1 (ja) 画像変換装置、方法およびプログラム
JP7393655B2 (ja) 経路認識プログラム、情報処理装置および経路認識方法
JP2018200175A (ja) 情報処理装置、情報処理方法及びプログラム
KR20240028917A (ko) 인공지능 태스크 수행을 위한 중첩 분할 이미지 생성 방법 및 장치
Li et al. Adaptive Weighted Face Alignment by Multi-Scale Feature and Offset Prediction
KR20230034887A (ko) 딥러닝 기반의 특징점 추출 방법 및 특징점 추출을 위한 학습 방법

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right