KR102128789B1 - 심층 합성곱 뉴럴 네트워크를 위한 효율적인 팽창 합성곱 기법을 제공하는 방법 및 장치 - Google Patents

심층 합성곱 뉴럴 네트워크를 위한 효율적인 팽창 합성곱 기법을 제공하는 방법 및 장치 Download PDF

Info

Publication number
KR102128789B1
KR102128789B1 KR1020190130746A KR20190130746A KR102128789B1 KR 102128789 B1 KR102128789 B1 KR 102128789B1 KR 1020190130746 A KR1020190130746 A KR 1020190130746A KR 20190130746 A KR20190130746 A KR 20190130746A KR 102128789 B1 KR102128789 B1 KR 102128789B1
Authority
KR
South Korea
Prior art keywords
feature map
channels
channel
convolution operation
expansion
Prior art date
Application number
KR1020190130746A
Other languages
English (en)
Inventor
허용석
김재선
Original Assignee
아주대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아주대학교산학협력단 filed Critical 아주대학교산학협력단
Priority to KR1020190130746A priority Critical patent/KR102128789B1/ko
Application granted granted Critical
Publication of KR102128789B1 publication Critical patent/KR102128789B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • G06F17/153Multidimensional correlation or convolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Mathematical Optimization (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

본 개시는 소정의 채널 개수로 구성된 제1 특징 지도를 획득하는 단계; 상기 제1 특징 지도가 포함하는 복수의 채널들 중 제1 채널 집합 및 제2 채널 집합을 결정하는 단계; 상기 제1 채널 집합을 포함하는 제1 부분 채널 특징 지도에 제1 팽창 합성곱 연산을 수행하고, 상기 제2 채널 집합을 포함하는 제2 부분 채널 특징 지도에 제2 팽창 합성곱 연산을 수행함으로써, 제1 부분 출력 특징 지도 및 제2 부분 출력 특징 지도를 획득하는 단계; 및 상기 제1 부분 출력 특징 지도 및 상기 제2 부분 출력 특징 지도를 결합하는 단계를 더 포함하는 팽창 합성곱 수행 방법을 개시한다.

Description

심층 합성곱 뉴럴 네트워크를 위한 효율적인 팽창 합성곱 기법을 제공하는 방법 및 장치{METHOD AND APPARATUS FOR PROVIDING EFFICIENT DILATED CONVOLUTION TECHNIQUE FOR DEEP CONVOLUTIONAL NEURAL NETWORK}
본 개시(disclosure)의 기술적 사상은 이미지 분석을 통한 의미론적 분할 방법에 관한 것으로, 특히 합성곱 뉴럴 네트워크를 이용한 이미지 분석 방법에 관한 것이다.
이 부분에 기술된 내용은 단순히 본 실시예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.
인공지능(Artificial Intelligence, AI) 시스템은 컴퓨터 시스템이며, 기존 Rule 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 똑똑해지는 시스템이다. 인공지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 Rule 기반 스마트 시스템은 점차 딥러닝 기반 인공지능 시스템으로 대체되고 있다.
인공지능 시스템은 다양한 분야에서 사용된다. 예를 들면, 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함한다. 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다. 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험정보를 지식데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 생성/분류), 지식 관리(데이터 활용) 등을 포함한다. 동작 제어는 차량의 자율 주행, 로봇의 움직임을 제어하는 기술로서, 움직임 제어(항법, 충돌, 주행), 조작 제어(행동 제어) 등을 포함한다.
일반적으로, 인공지능 시스템은 머신 러닝을 기반으로 제공된다. 머신 러닝은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술을 의미하며, 머신 러닝을 위한 알고리즘은 다양한 형태의 뉴럴 네트워크를 이용하여 구현된다. 인공지능 시스템의 발전에 따라 뉴럴 네트워크에서의 더 효율적인 연산 방법을 개발하기 위한 시도가 계속되고 있다.
본 개시의 기술적 사상에 따른 실시예들이 이루고자 하는 기술적 과제는 효율적인 합성곱 연산 방법 및 효율적인 합성곱 연산을 위한 장치를 제공하는데 있다.
본 개시의 기술적 사상이 이루고자 하는 기술적 과제는 이상에서 언급한 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제는 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
본 개시는 합성곱 연산을 수행하여 입력 특징점 지도의 채널 수를 축소하고, 채널 축에서 복수의 특정 채널을 선택해서 팽창 합성곱 연산을 한다. 그리고, 복수의 특정 채널을 다시 선택하고 팽창 비율을 다르게 하여 팽창 합성곱 연산을 한다. 이러한 과정을 반복하여 생성한 결과를 모두 결합한다.
본 개시의 일 양태에 따르면, 팽창 합성곱 수행 방법에 있어서, 상기 방법은, 소정의 채널 개수로 구성된 제1 특징 지도를 획득하는 단계; 상기 제1 특징 지도가 포함하는 복수의 채널들 중 제1 채널 집합 및 제2 채널 집합을 결정하는 단계; 상기 제1 채널 집합을 포함하는 제1 부분 채널 특징 지도에 제1 팽창 합성곱 연산을 수행하고, 상기 제2 채널 집합을 포함하는 제2 부분 채널 특징 지도에 제2 팽창 합성곱 연산을 수행함으로써, 제1 부분 출력 특징 지도 및 제2 부분 출력 특징 지도를 획득하는 단계; 및 상기 제1 부분 출력 특징 지도 및 상기 제2 부분 출력 특징 지도를 결합하는 단계;를 포함하는 방법이 개시된다.
예시적인 실시예에 따르면, 상기 방법은, 소정의 채널 개수로 구성된 입력 특징 지도를 획득하는 단계를 더 포함하고, 상기 제1 특징 지도를 획득하는 단계는, 상기 획득한 입력 특징 지도에 합성곱 연산을 수행함으로써, 상기 소정의 채널 개수로 구성된 제1 특징 지도를 획득하는 것일 수 있다.
예시적인 실시예에 따르면, 상기 제1 특징 지도는 상기 입력 특징 지도보다 적은 채널 개수를 가질 수 있다.
예시적인 실시예에 따르면, 상기 제1 특징 지도의 채널 개수는 상기 입력 특징 지도의 소정의 채널 개수를 소정의 자연수로 나눈 개수일 수 있다.
예시적인 실시예에 따르면, 상기 제1 채널 집합 및 상기 제2 채널 집합은 상기 제1 특징 지도가 포함하는 복수의 채널 중 일부 채널을 포함할 수 있다.
예시적인 실시예에 따르면, 상기 제1 채널 집합 및 상기 제2 채널 집합에 포함되는 채널은 서로 상이할 수 있다.
예시적인 실시예에 따르면, 상기 제1 채널 집합 및 상기 제2 채널 집합을 결정하는 단계는, 소정의 샘플링 레이트를 이용하여 상기 제1 특징 지도가 포함하는 복수의 채널들 중 일부 채널들을 샘플링하는 단계; 및 상기 샘플링된 채널들에 기초하여 상기 제1 채널 집합 및 상기 제2 채널 집합을 결정하는 것일 수 있다.
예시적인 실시예에 따르면, 상기 샘플링하는 단계는, 기 팽창 합성곱 연산에서 수행되는 팽창 비율에 기초하여 샘플링 시작 채널을 결정하는 것일 수 있다.
예시적인 실시예에 따르면, 상기 제1 채널 집합에 포함되는 시작 채널 및 상기 제2 채널 집합에 포함되는 시작 채널은 상이한 것일 수 있다.
예시적인 실시예에 따르면, 상기 제1 채널 집합을 포함하는 제1 부분 채널 특징 지도에 제1 팽창 합성곱 연산을 수행하고, 상기 제2 채널 집합을 포함하는 제2 부분 채널 특징 지도에 제2 팽창 합성곱 연산을 수행함으로써, 제1 부분 출력 특징 지도 및 제2 부분 출력 특징 지도를 획득하는 단계는, 제1 팽창 비율에 기초하여 상기 제1 팽창 합성곱 연산을 수행하고, 제2 팽창 비율에 기초하여 상기 제2 팽창 합성곱 연산을 수행하는 것일 수 있다.
예시적인 실시예에 따르면, 상기 제1 팽창 비율과 상기 제2 팽창 비율은 상이할 수 있다.
예시적인 실시예에 따르면, 상기 제1 팽창 합성곱 연산 및 상기 제2 팽창 합성곱 연산은, 소정의 크기 가로 및 소정의 크기의 세로로 구성된 팽창 합성곱 필터를 이용하여 수행될 수 있다.
예시적인 실시예에 따르면, 상기 방법은, 상기 제1 부분 출력 특징 지도 및 상기 제2 부분 출력 특징 지도를 결합된 최종 특징 지도를 생성하는 단계; 및 기 생성된 최종 특징 지도를 출력하는 단계를 더 포함할 수 있다.
예시적인 실시예에 따르면, 상기 제1 팽창 합성곱 연산과 상기 제2 팽창 합성곱 연산은 병렬적으로 수행될 수 있다.
본 개시의 다른 양태에 따르면, 팽창 합성곱 수행하는 디바이스에 있어서, 상기 디바이스는, 메모리; 및 소정의 채널 개수로 구성된 제1 특징 지도를 획득하고, 상기 제1 특징 지도가 포함하는 복수의 채널들 중 제1 채널 집합 및 제2 채널 집합을 결정하고, 상기 제1 채널 집합을 포함하는 제1 부분 채널 특징 지도에 제1 팽창 합성곱 연산을 수행하고, 상기 제2 채널 집합을 포함하는 제2 부분 채널 특징 지도에 제2 팽창 합성곱 연산을 수행함으로써, 제1 부분 출력 특징 지도 및 제2 부분 출력 특징 지도를 획득하고, 상기 제1 부분 출력 특징 지도 및 상기 제2 부분 출력 특징 지도를 결합하도록 설정된 프로세서;를 포함하는 디바이스가 개시된다.
본 개시의 기술적 사상에 의한 실시예들에 따르면, 성능 저하를 최소로 하면서도 합성곱에 필요한 연산량을 효과적으로 줄이면서 넓고 다양한 수용 영역을 가질 수 있는 효과가 있다.
본 개시의 기술적 사상에 의한 실시예들이 얻을 수 있는 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 개시에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.
도 1 및 도 2는 합성곱 뉴럴 네트워크를 이용한 입력 데이터 프로세싱 방법을 설명하기 위한 도면이다.
도 3은 일반적인 합성곱 연산 및 일반적인 팽창 합성곱 연산을 설명하기 위한 도면이다.
도 4및 도 5는 일반적인 합성곱 연산 및 일반적인 팽창 합성곱 연산을 시각화한 도면이다.
도 6은 본 개시의 일 실시예에 따른 팽창 합성곱 연산을 시각화한 도면이다.
도 7은 본 개시의 일 실시예에 따른 팽창 합성곱 연산 방식을 설명하기 위한 도면이다.
도 8은 본 개시의 일 실시예에 따른 팽창 합성곱 연산 방식을 설명하기 위한 도면이다.
도 9는 본 개시의 ESC 모듈을 이용한 ESCNet(ESC Network)의 구조를 도시한다.
도 10은 본 개시의 일 실시예에 따른 팽창 합성곱 연산 방법의 순서도이다.
도 11은 본 개시의 일 실시예에 따른 팽창 합성곱 연산을 수행하는 디바이스의 블록도이다.
본 개시의 기술적 사상은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 이를 상세히 설명하고자 한다. 그러나, 이는 본 개시의 기술적 사상을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 개시의 기술적 사상의 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본 개시의 기술적 사상은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 이를 상세한 설명을 통해 상세히 설명하고자 한다. 그러나, 이는 본 개시의 기술적 사상을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 개시의 기술적 사상의 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본 개시의 기술적 사상을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 개시의 기술적 사상의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 본 명세서의 설명 과정에서 이용되는 숫자(예를 들어, 제1, 제2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.
또한, 본 개시에서, 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다.
또한, 본 개시에 기재된 "~부", "~기", "~자", "~모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 프로세서(Processor), 마이크로 프로세서(Micro Processor), 어플리케이션 프로세서(Application Processor), 마이크로 컨트롤러(Micro Controller), CPU(Central Processing Unit), GPU(Graphics Processing Unit), APU(Accelerate Processor Unit), DSP(Digital Signal Processor), ASIC(Application Specific Integrated Circuit), FPGA(Field Programmable Gate Array) 등과 같은 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
그리고 본 개시에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주기능 별로 구분한 것에 불과함을 명확히 하고자 한다. 즉, 이하에서 설명할 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 이하에서 설명할 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있음은 물론이다.
이하, 본 개시의 기술적 사상에 의한 실시예들을 차례로 상세히 설명한다.
도 1 및 도 2는 합성곱 뉴럴 네트워크를 이용한 이미지 프로세싱 방법을 설명하기 위한 도면이다.
디바이스가 이미지 프로세싱을 통해 정확도가 높은 판단 결과를 얻기 위해 최근에는 뉴럴 네트워크(Neural Network)를 사용하고 있다. 뉴럴 네트워크는 인간의 뉴럴 네트워크와 유사한 구조로 가지는 네트워크로써, 뉴럴 네트워크의 일 예로는 합성곱(Convolutional) 뉴럴 네트워크를 들 수 있다.
본 개시의 일 실시예에 따르면, 디바이스는 합성곱 뉴럴 네트워크를 이용하여, 이미지 내의 적어도 하나의 오브젝트의 특성을 식별할 수 있다. 디바이스는 이미지 내의 적어도 하나의 오브젝트의 특성을 식별하기 위해 다양한 필터를 사용할 수 있다. 이하에서는 합성곱 뉴럴 네트워크에 대해 자세히 설명한다.
도 1을 참조하면, 디바이스는 입력 데이터(101)를 획득할 수 있다. 입력 데이터(101)는 입력 특징 지도(Feature Map)일 수 있다. 또한 입력 데이터(101)는 다양한 이미지 데이터를 포함할 수 있을 뿐만 아니라, 텍스트 데이터, 동영상 데이터 등을 포함할 수 있으며, 상기 예시에 제한되지 않는다.
본 개시의 일 실시예에 따르면, 인공 지능 시스템을 이용하는 소정의 디바이스는 합성곱 뉴럴 네트워크(100)를 통해 입력 데이터(101)를 프로세싱할 수 있다. 합성곱 뉴럴 네트워크(100)는 복수의 계층(102)들을 포함할 수 있다. 각 계층(102)에서는 입력 데이터(101)에 가중치(112)를 포함한 필터(111)를 적용하여 출력 결과를 생성할 수 있다.
본 개시의 일 실시예에 따르면, 출력 결과는 출력 특징 지도(Feature Map)일 수 있다. 각 계층(102)에서 특징 지도는 적어도 하나가 생성될 수 있고, 각 계층(102)에서는 적어도 하나의 입력 데이터에 적어도 하나의 필터(111)가 적용될 수 있다. 각 필터(111)들이 포함하는 가중치(112)는 합성곱 뉴럴 네트워크(1000)의 학습에 의해 업데이트 될 수 있다.
필터(111)란 입력 데이터(101)를 프로세싱 하기 위해 사용되는 가중치(112)를 가지는 행렬을 의미할 수 있다. 필터의 일 예로는 노이즈를 제거하는 low-pass 필터, 모서리를 무디게 하는 Gaussian 필터, 모서리를 날카롭게 하는 high-pass 필터들을 들 수 있다. 필터는 커널(Kernal), 마스크(Mask)라고도 할 수 있으며, 입력 데이터의 특징을 추출하기 위해 프로세싱 수행시 적용되는 값을 의미한다. 다시 말해서, 필터(111)는 입력된 데이터의 어떤 특징을 추출할지에 따라 가중치(112)가 달라질 수 있다.
합성곱 뉴럴 네트워크는 입력 데이터(101)에 적용하는 필터(111)의 종류가 상이할 수 있다. 즉, 합성곱 뉴럴 네트워크(100)는 식별하고자 하는 오브젝트의 특성에 따라 상이한 필터를 적용할 수 있다. 또한 합성곱 뉴럴 네트워크는 다양한 방식으로 입력 데이터(101)와 필터(111)를 연산할 수도 있다. 입력 데이터(101)의 모든 데이터와 필터(111)를 합성곱 연산할 수도 있고, 입력 데이터(101)중 일부 데이터와 필터(111)를 합성곱 연산할 수도 있다. 이는 이하에서 더 자세히 설명한다.
본 개시의 일 실시예에 따르면, 합성곱 뉴럴 네트워크(100)의 첫번째 계층에서는 필터와 입력 데이터(101)를 합성곱 연산함으로써 첫번째 특징 지도를 생성할 수 있고, 뉴럴 네트워크의 두번째 계층에서는 첫번째 만들어진 특징 지도와 필터를 합성곱 연산함으로써, 두번째 특징 지도를 생성할 수 있다. 물론 상기 예시에 제한되지 않는다.
즉, 합성곱 뉴럴 네트워크(100)는 판단 시 정확도를 높이기 위해 또는 목적하는 작업의 성공율을 높이기 위해 입력 데이터(101)를 프로세싱할 수 있다. 합성곱 뉴럴 네트워크(100)는 복수의 계층을 통해 입력 데이터(101)를 프로세싱함으로써 출력 결과(103)에 의해 더 정확한 판단을 수행할 수 있다. 추가적으로 합성곱 뉴럴 네트워크(100)는 출력 신호를 출력하기 전, 출력 신호를 단순화 하는 풀링(Pooling) 동작을 수행할 수도 있다.
도 2는 합성곱 뉴럴 네트워크를 통한 입력 데이터의 프로세싱을 다른 형태로 도식화 한 도면이다. 앞서 설명한 바와 같이 합성곱 뉴럴 네트워크에서는 입력 데이터(101)에 필터(111)를 적용한다.
도 1을 참조하면, 입력 데이터(101) 내의 소정의 픽셀(제1 픽셀)(201)은 주변을 둘러싼 픽셀에 의해 영향을 받는다. 따라서, 인공 지능 시스템을 이용하는 소정의 디바이스는 프로세싱을 위해 합성곱 연산을 수행한다. 합성곱 연산이란, 가중치를 가진 행렬인 필터(111)를 이미지 데이터에 적용하는 것을 의미할 수 있다.
예를 들면, 합성곱 연산이란 소정의 픽셀 값 및 소정의 픽셀 주위의 픽셀 값에 각각 필터의 가중치를 곱하고, 필터 내의 각각 대응하는 셀들의 결과 값(M행 N열의 값)들을 모두 합산하는 연산일 수 있다.
도 2에서는 1/9의 가중치를 3x3 크기의 필터(111)를 입력 데이터(101)에 적용한다. 입력 데이터(101)내의 픽셀 값이 2인 제 1 픽셀(201)에 필터(111)를 적용하면 필터(111)의 크기에 따라 제 1 픽셀(201) 주위의 픽셀인 나머지 8개의 픽셀 또한 함께 연산된다. 필터를 적용한 연산은 아래와 같다
(1/9)x2+(1/9)x2+(1/9)x4+(1/9)x6+(1/9)x2+(1/9)x5+(1/9)x5+(1/9)x5+(1/9)x5 = 4
따라서 출력 결과(103)는 입력 데이터(101)의 제 1 픽셀(201)의 값이 2에서 4로 변경된 데이터이며, 다른 픽셀 또한 동일한 방식으로 연산될 수 있다. 다시 말해서, 출력 결과(103)는 입력 데이터(101)를 필터(1104)로 훑어서(sweep) 변형된 데이터를 의미할 수 있다. 즉, 합성곱이란 주위(예를 들면, 특정 픽셀의 주변 픽셀)의 값들을 반영해 중앙(예를 들면, 특정 픽셀)의 값을 변화시키는 것을 의미할 수 있다.
또한 일 실시예에 따르면, 입력 데이터(101)와 출력 결과(103)는 특징 지도일 수 있다. 합성곱 뉴럴 네트워크는 생성한 특징 지도를 기초로 오브젝트의 색상이 어떤 색상인지, 오브젝트의 형태가 어떤 형태인지, 오브젝트가 오버랩 되었는지 등을 판단할 수 있다.
도 3은 일반적인 합성곱 연산 및 일반적인 팽창 합성곱 연산을 설명하기 위한 도면이다.
도 1 및 도 2에서 설명한 바와 같이, 합성곱 뉴럴 네트워크에서는 다양한 방식으로 합성곱 연산을 수행할 수 있다. 도 2에서 설명한 바와 같이 합성곱 뉴럴 네트워크(또는 디바이스)는 일반적인 합성곱 연산을 수행할 수도 있고, 이하에서 설명하는 팽창 합성곱 연산을 수행할 수도 있다.
팽창 합성곱 연산은 소정 형태의 합성곱 연산으로, 수용 영역을 효과적으로 확대하는 연산 방식이다. 추가 파라미터를 적용하지 않고도 수용 영역을 확대하여 합성곱 연산을 수행함으로써 계산 복잡성을 감소시키고 연산 속도를 증가시킬 수 있다. 수용 영역이란 입력 데이터 내의 특정 영역을 의미하며, 합성곱을 연산을 수행하는 영역 단위일 수 있다.
도 3을 참조하면, 도 3의 (a)는 일반적인 합성곱 연산을 도시한다. 일반적인 합성곱 연산에서는 3x3 필터를 사용할 때, 출력 결과의 하나의 값이 3x3 수용 영역에 관한 정보와 대응될 수 있다.
도 3의 (b)는 팽창 합성곱 연산을 도시한다. 팽창 합성곱 연산에서는 3x3 필터를 사용할 때, 출력 결과의 하나의 값이 5x5 수용 영역에 관한 정보와 대응될 수 있다. 즉, 동일한 크기의 수용 영역을 갖는 일반적인 합성곱 연산과 비교하여, 팽창 합성곱 연산은 연산량을 효과적으로 감소시키며 추가 파라미터를 적용하지 않고도 더 빠른 시간에 입력 데이터에 대한 정보를 획득할 수 있다.
일반적인 합성곱 연산의 경우, 입력 데이터의 전체적인 데이터 특성을 고려하기 위해 큰 필터를 적용해야 하여 이 경우, 파라미터가 추가된다. 따라서, 일반적인 합성곱 연산의 경우 수용 영역을 증가시키기 위해서는 연산량이 증가하고, 연산량의 증가에 따라 연산 속도가 감소한다. 그러나 팽창 합성곱 연산은 일반적인 합성곱 연산에 비해 다소 정확도가 감소할 수는 있으나, 파라미터의 추가 없이 전체적인 데이터의 특성을 판단할 수 있다. 따라서, 팽창 합성곱 연산은 효율적인 의미론을 위해 최근의 많은 인공지능 시스템에서 채택되고 있다.
일반 합성곱 연산 및 팽창 합성곱 연산에 대한 내용은 이하에서 더 자세히 설명한다.
도 4 및 도 5는 일반적인 합성곱 연산 및 일반적인 팽창 합성곱 연산을 시각화한 도면이다.
도 4 는 설명의 편의를 위해 일반적인 합성곱 연산을 2D 형태로 시각화한 것이며, 도 5는 팽창 합성곱 연산을 2D 형태로 시각화한 것이다. 도 4 및 도 5의 수용 영역은 모두 같으며, "H(Height), W(Width)" 축은 입력 특징 지도의 공간 도메인(Spatial domain)인 세로와 가로 길이를 의미하고, "C(Channel)" 축은 채널 도메인(Channel domain)의 길이를 의미할 수 있다.
또한 "C"축의 m은 입력 특징 지도의 채널 인덱스를 의미할 수 있으며, r은 팽창 합성곱의 팽창 비율을 의미할 수 있다. 팽창 합성곱의 팽창 비율은 도 5 및 도 6의 예에서 모두 2로 가정한다.
도 4를 참조하면, 하나의 원을 입력 데이터 내의 연산되는 값이라 가정했을 때, 일반적인 합성곱은 수용 영역 내의 모든 데이터를 연산한다. 따라서, 연산량이 축소되지 않는다.
이와 다르게, 팽창 합성곱은 도 5에서 도시한 바와 같이, 수용 영역 내의 일부 데이터만을 연산할 수 있다. 즉, 팽창 합성곱 연산의 경우, 수용 영역은 동일하지만 연산량이 축소될 수 있으며, 팽창 비율에 따라 공간 도메인을 기준으로 일부 데이터만이 연산될 수 있다.
도 5를 참조하면, 팽창 합성곱은 모든 채널과 일부 공간 도메인의 데이터만을 연산할 수 있다. 따라서, 팽창 합성곱은 공간 도메인에서 연산량을 크게 줄였지만, 채널 도메인에서는 연산량은 줄이지 않고 모든 채널에 대해 연산을 수행한다.
다만, 본 개시에서 제안하는 합성곱 연산은 도 5에 도시한 바와 상이하게 모든 채널을 연산하지 않고 일부 채널만 선택하여 연산을 수행한다. 이는 이하에서 더 자세히 설명한다.
도 6은 본 개시의 일 실시예에 따른 팽창 합성곱 연산을 시각화한 도면이다.
최근 컴퓨터 비전 분야에서 대규모의 학습 데이터를 이용하여 데이터 기반의 특성(예를 들면, 특징점)을 추출하여 분류하는데 사용하는 심층 합성곱 뉴럴 네트워크(신경망) 연구가 우수한 성능을 내며 각광을 받고 있다. 하지만 정확도를 높이려면 뉴럴 네트워크의 구조를 거대하게 해야 하는데, 이러한 경우 뉴럴 네트워크의 추론 속도가 느리고 메모리 사용량이 매우 크다.
이에 따라 정확도를 조금 손해보더라도 네트워크 구조가 작아 연산 속도가 빠르고 메모리 사용량이 적은 효율적인 뉴럴 네트워크를 개발하기 위해 그룹 합성곱, Depthwise Separable 합성곱, 팽창 합성곱 등의 효율적인 합성곱 기법이 사용된다.
하지만 이러한 합성곱 기법들은 합성곱 필터의 공간 도메인, 혹은 채널 도메인 중 하나에 대해서만 연산량을 줄이는 방식이다. 따라서, 본 개시에서는 합성곱 필터의 공간 도메인 및 채널 도메인에서 모두 연산량을 효과적으로 줄일 수 있는 효율적인 팽창 합성곱 기법을 제안한다.
본 개시에 따른 팽창 합성곱 기법은 기존의 팽창 합성곱 기법에 비해 공간 도메인에서 필터 가중치의 개수를 늘리지 않으면서 크기를 크게 하여 수용 영역을 넓히는 합성곱 기법이다.
앞선 도 3 내지 도 5를 통해 설명한 바와 같이 팽창 합성곱 연산은 같은 크기의 수용 영역을 가질 때, 일반적인 합성곱보다 연산량을 효과적으로 줄일 수 있다. 하지만 도 5를 참조하면 기존의 팽창 합성곱 연산은 공간 도메인에서만 연산량을 줄이고, 채널 도메인에서는 연산량을 줄이지 않는다. 따라서 본 개시에서는 공간 도메인 및 채널 도메인에서 모두 연산량을 줄임으로써 더욱 효과적인 팽창 합성곱 연산을 제안한다.
도 6을 참조하면, 본 개시에서 제안하는 팽창 합성곱 연산은 수용 영역 내의 일부 데이터만을 연산할 수 있다. 도 5와는 상이하게 공간 도메인을 기준으로 일부 데이터만이 연산되는 것이 아닌, 공간 도메인과 채널 도메인을 기준으로 일부 데이터만이 연산될 수 있다. 따라서 기존의 팽창 합성곱 연산에 비해 더 효율적으로 연산량을 축소할 수 있다.
즉, 본 개시에서 제안하는 팽창 합성곱 연산은 연산량을 축소하기 위해 입력 데이터의 모든 채널을 반복적으로 사용하지 않는 공간-채널 팽창 합성곱 연산(Spatio-Channel Dilated Convolution (SCDC))을 의미할 수 있다.
SCDC는 특정한 채널 인덱스 특징 맵을 사용할 수 있다. 특징 맵의 채널 인덱스를 선택하기 위해 채널 샘플링 방식을 사용하며, 각각 상이한 팽창 비율을 가진 T 개의 다른 필터를 디자인 하고, 다른 필터와 겹치지 않는 채널 인덱스를 사용할 수 있다. 본 개시의 팽창 합성곱 연산 방식은 이하의 도 7에서 더 자세히 설명한다.
도 7은 본 개시의 일 실시예에 따른 팽창 합성곱 연산 방식을 설명하기 위한 도면이다.
도 7은 본 개시가 제안하는 합성곱 연산 방식의 순서를 블록 단위로 설명한다. 본 개시가 제안하는 합성곱 모듈의 입력으로 특징 지도 X(Feature Map X)가 들어가며 특징 지도 Y(Feature Map Y)를 출력한다. 다시 말해, 특징 지도 X는 입력 특징 지도일 수 있으며, 특징 지도 Y는 출력 특징 지도일 수 있다.
도 7에 도시한 바와 같이, 제안하는 합성곱 연산은 1) Conv(일반 합성곱) 층, 2) Channel Select(채널 선택) 층, 3) 병렬 DConv(팽창 합성곱) 층, 4) Feature Fusion(특징 결합) 층을 통해 수행될 수 있다.
Conv(일반 합성곱) 층은 입력 특징 지도 X 에 일반적인 합성곱 연산(예를 들면, 2D 합성곱 연산)을 수행하여 채널 디멘션(Channel Dimension)이 축소된 낮은 디멘션의(low-dimensional) 특징 지도 X' 을 생성하고 출력할 수 있다. 이때,
Figure 112019107304672-pat00001
,
Figure 112019107304672-pat00002
이고, M은 입력 특징 지도의 채널 수, Ain, Bin은 각각 입력 특징 지도의 세로, 가로의 길이이다. Conv(일반 합성곱) 층 에서는 미리 정의된 자연수 K가 사용될 수 있으며, 미리 정의된 자연수 K에 의해 특징 지도 X' 의 채널은 M/K로 설정될 수 있다.
Channel Select(채널 선택) 층에서는 위의 Conv(일반 합성곱)층에서 생성된 특징 지도 X' 에 대해서 M/K 개의 채널 중 M/KT 개를 선택하여 채널 인덱스 집합 Ct를 T 개 생성할 수 있다. 이때, t=0,1,2,,T-1 일 수 있다. Ct는 아래 식 (1)와 같이 정의할 수 있다.
Figure 112019107304672-pat00003
, (1)
여기서,
Figure 112019107304672-pat00004
이고, rt는 DConv층에서 X't를 팽창 합성곱 연산을 할 때 사용할 팽창 비율일 수 있으며, rt = Z(t)로 정의할 수 있다. 이때, Z( )는 t를 입력 받아서 팽창 비율을 출력하는 임의의 함수 일 수 있다. 예를 들어, Z(t)=t+1, 또는 Z(t)=2t로 정의하여 사용할 수 있다. 물론 상기 예시에 제한되지 않는다. f(,)는 임의의 채널 선택 함수로, 아래의 식 (2)와 같은 입출력 구조를 가질 수 있다.
Figure 112019107304672-pat00005
, (2)
여기서,
Figure 112019107304672-pat00006
이다. 예를 들어, f(X',T,r)는 T를 샘플링 레이트로 이용하여 일정한 간격으로 채널을 샘플링하고, 그 채널들을 출력하는 함수로 정의할 수 있다. 이 때, 팽창 비율 rt에 따라 샘플링 시작 채널을 정하면 서로 중복되지 않는 채널 집합 Ct를 T 개 생성할 수 있다.
병렬 DConv (팽창 합성곱) 층은 각 특징 지도 X't에 서로 다른 팽창 비율 rt를 갖는 합성곱을 병렬적으로 수행하여 T 개의 특징 지도
Figure 112019107304672-pat00007
를 출력한다.
다시 말해서, 병렬 DConv(팽창 합성곱) 층은 Channel Select(채널 선택) 층에서의 선택된 채널들을 포함하는 복수 개의 부분적인 특징 지도(X'0, X'1 ... X'T -1)에 팽창 합성곱 연산을 수행할 수 있으며, 복수의 부분적인 특징 지도(X'0, X'1 ... X'T - 1)에 대한 팽창 합성곱 연산 수행시 사용되는 팽창 비율 rt은 각각 상이할 수 있다.
이때, N/T은 출력 특징 지도의 채널 수, Aout, Bout은 각각 출력 특징 지도의 세로, 가로의 길이이다. T 개의 특징 지도
Figure 112019107304672-pat00008
의 출력 과정은 아래 식 (3)과 같이 정의될 수 있다.
Figure 112019107304672-pat00009
, (3)
여기서, X(t)∈X't, w(t)∈Wt, Y(t)∈Yt,o(Yt,o은 Yt의 o번째 채널)이고, Wt는 팽창 합성곱 필터의 가중치이고,
Figure 112019107304672-pat00010
이다. 이때, n은 필터의 세로, 가로의 길이이다. c는 채널, k, l은 각각 공간 도메인에서의 특징 지도의 세로, 가로 위치이다. i, j는 각각 공간 도메인에서의 필터 가중치의 세로, 가로 위치이다.
Feature Fusion (특징 결합) 층은 T 개의 특징 지도 Yt을 결합하여 하나의 최종 특징 지도
Figure 112019107304672-pat00011
를 생성하고 출력한다.
본 개시에서 제안된 팽창 합성곱 연산은 기존의 ESPNet(S. Mehta, M. Rastegari, A. Caspi, L. Shapiro, and H. Hajishirzi, "Espnet: Efficient spatial pyramid of dilated convolutions for semantic segmentation," in The European Conference on Computer Vision (ECCV), September 2018)에 비해 정확한 결과를 생성할 수 있다. 전술한 도 7의 합성곱 연산을 수행하는 모듈을 ESC(Efficient Spatio-Channel dilated convolution) 모듈이라 할 수 있다.
도 8은 본 개시의 일 실시예에 따른 팽창 합성곱 연산 방식을 설명하기 위한 도면이다.
도 8은 본 개시에서 제안하는 팽창 합성곱 연산을 수행하는 다른 실시예를 개시한다.
도 8은 도 7에서 설명한 실시예와 상이하게 Conv(일반 합성곱) 층을 제외한 팽창 합성곱 연산을 도시한다. 즉, Conv(일반 합성곱) 층을 제외하고 입력 특징 지도 X에 대해 채널 선택, 병렬 팽창 합성곱 및 특징 결합이 수행될 수도 있다.
다시 말해서 일반 합성곱을 수행하는 단계는 본 개시에서 제안하는 ESC 모듈에 포함될 수도 있고 포함되지 않을수도 있다.
도 9는 본 개시의 ESC 모듈을 이용한 ESCNet(ESC Network)의 구조를 도시한다.
도 9를 참조하면, ESCNet은 도 7 내지 도 8에서 설명한 ESP 모듈을 포함한 인코더 구조(인코더 네트워크) 및 디코더 구조(디코더 네트워크)를 포함하며, 이를 통해 시맨틱 정보를 추출할 수 있다.
도 9의 파라미터 αl은 네트워크의 뎁스(Depth)를 제어하기 위해 함께 적층(stack)된 ESC 모듈의 수이며, ㅣ은 네트워크의 공간 레벨을 의미할 수 있다. 즉, ESC Х αl은 αl 개의 ESC 모듈이 함께 적층된 것을 의미한다. 스택 모듈에 따라 입력 기능 맵의 공간 크기는 원래 입력 이미지보다 2l 배 작을 수 있다.
ESCNet의 경우, 다운 샘플링(Down sampling) 된 원본 이미지와 중간 기능 맵을 연결하여 정보 흐름을 개선할 수 있다. 다운 샘플링은 인코더의 빨간색 레이어에서 수행되며, 인코더의 출력은 원본 입력 이미지의 공간 크기의 1/8 배일 수 있다. 도 9에서는 α2 = 2, α3 = 8로 설정되어 있으나, 상기 예시에 제한되지 않는다.
디코더 구조는 인코더 구조보다 훨씬 적은 파라미터를 가질 수 있다. 디코더 구조에서는 업 샘플링(Up sampling) 및 역합성곱(Deconvolution) 연산을 수행할 수 있다. 디코더에서의 역합성곱 연산은 트랜스포즈드 합성곱(Transposed Convolution)을 이용할 수 있다. 또한 업 샘플링은 디코더의 녹색 레이어 층에서 수행되며, 디코더의 출력은 원본 입력 이미지와 동일한 공간 크기를 가질 수 있다.
도 8에서 설명한 파라미터 K, T 및 도 9에서 설명한 파라미터 αl은 사용자의 입력에 의해 설정될 수 있다. 즉, ESC 모듈 및 ESCNet에서는 연산량, 입력 이미지의 종류 등 다양한 요인에 따라 본 개시에서 제안하는 팽창 합성곱 연산에 사용되는 파라미터들이 조절될 수 있다.
아래의 표 1은 ESC 모듈의 파라미터 조절에 따른 성능 및 기존 ESP 모듈과의 성능 비교를 나타낸다. 성능 비교 실험을 위해서는 NVIDIA Titan Xp (Pascal) GPU with 3840 CUDA cores를 사용하였다.
Module K T Skip-connection HFF Params mIoU ( % ) Speed(FPS)
ESP 5 o o 349 K 53.3 162.6
ESC 1 4 2 266K 53.1 247.2
o 50.6 226.9
o 52.8 234.2
o o 51.5 217.1
ESC 2 4 4 176K 54.9 242.7
o 52.2 224.2
o 55.9 220.6
o o 53.7 204.1
ESC 3 2 4 341K 56.4 206.7
o 54.8 192.9
o 56.0 191.7
o o 54.1 179.5
참고적으로, Skip Connection은 입력 데이터를 출력에 바로 연결 시키는 것을 의미할 수 있으며 mIoU(mean Intersection over union)는 분할 성능 평가를 위해 사용되는 측정 척도이며, HFF(Hierarchical Feature Fusion)는 계층 특징 결합을 의미할 수 있다. 표 1의 성능 측정을 위해 측정된 구성들은 당업자에게 자명하므로 자세한 설명은 생략한다.
표 1을 참조하면, 본 개시에서 제안한 ESC 모듈은 기존의 ESP 모듈에 비해 정확도가 높거나 유사하며, 연산속도가 빠른 효과가 있다. 특히 본 개시의 ESC 모듈은 파라미터를 조절함으로써 정확도와 연산 속도를 조절할 수 있다.
아래의 표 2는 다양한 종류의 네트워크와 도 9에서 제안한 ESCNet의 성능 비교를 나타낸다.
Networks # of Params Speed(FPS) mIoU ( % )
FCN-8s 134M - 65.3
RefineNet 118M - 73.6
PSPNet 66M - 78.4
DeepLab-v2 44M - 70.4
SegNet 29.45M 17 57.0
ICNet 7.8M 30 69.5
BiSeNet 5.8M 105 68.4
ERFNet 2.07M 42 68.0
ContextNet 0.85M 42 66.1
ESPNetv2-1 0.725M 83 62.1
EDANet 0.689M 108 67.3
CGNet 0.496M 50 64.8
ESPNet 0.364M 112 60.3
ENet 0.364M 77 58.3
ESPNetv2-2 0.099M 142 54.7
ESCNet 1 0.196M 163 61.5
ESCNet 2 0.364M 145 63.4
FCN-8s는 J. Long, E. Shelhamer, and T. Darrell, "Fully convolutional networks for semantic segmentation,"에서 제안된 네트워크를 의미하며, RefineNet은 G. Lin, A. Milan, C. Shen, and I. Reid, "Refinenet: Multi-path refinement networks for high-resolution semantic segmentation" 에서 제안된 네트워크를 의미한다.
PSPNet은 H. Zhao, J. Shi, X. Qi, X. Wang, and J. Jia, "Pyramid scene parsing network"에서 제안된 네트워크이며, DeepLab-v2.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille,"Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs"에서 제안된 네트워크를 의미한다.
SegNet은 V. Badrinarayanan, A. Kendall, and R. Cipolla, "Segnet: A deep convolutional encoder-decoder architecture for image segmentation" 에서 제안된 네트워크이며, ICNet은 . Zhao, X. Qi, X. Shen, J. Shi, and J. Jia, "Icnet for real-time semantic segmentation on high-resolution images,에서 제안된 네트워크를 의미한다.
BiSeNet은 C. Yu, J. Wang, G. C. A. Peng, C. Gao, G. Yu, and N. Sang, "Bisenet: Bilateral segmentation network for real-time semantic segmentation"에서 제안된 네트워크이며, ERFNet E. Romera, J. M. Alvarez, L. M. Bergasa, and R. Arroyo, "Erfnet: Effcient residual factorized convnet for real-time semantic segmentation"에서 제안된 네트워크를 의미한다.
ContextNet은 R. P. K. Poudel, U. Bonde, S. Liwicki, and C. Zach, "Contextnet: Exploring context and detail for semantic segmentation in real-time"에서 제안된 네트워크를 의미하며, ESPNetv2-1은 S. Mehta, M. Rastegari, L. G. Shapiro, and H. Hajishirzi, "Espnetv2: A light-weight, power efficient, and general purpose convolutional neural network"에서 제안된 네트워크를 의미한다.
EDANet은 S.-Y. Lo, H.-M. Hang, S.-W. Chan, and J.-J. Lin, "Efcient dense modules of asymmetric convolution for real-time semantic segmentation,"에서 제안된 네트워크를 의미하며, CGNet은. Wu, S. Tang, R. Zhang, and Y. Zhang, "Cgnet: A light-weight context guided network for semantic segmentation"에서 제안된 네트워크를 의미한다.
ESPNet은 표 1에서 설명한 ESPNet과 동일하며, ENet은 . Paszke, A. Chaurasia, S. Kim, and E. Culurciello, "Enet: A deep neural network architecture for real-time semantic segmentation"에서 제안된 네트워크를 의미한다.
또한 ESPNetv2-2은 S. Mehta, M. Rastegari, L. G. Shapiro, and H. Hajishirzi, "Espnetv2: A light-weight, power efficient, and general purpose convolutional neural network"에서 제안된 네트워크를 의미한다.
도 10는 본 개시의 일 실시예에 따른 팽창 합성곱 연산을 제공하는 방법의 순서도이다.
단계 1001에서, 디바이스는 소정의 채널 개수로 구성된 제1 특징 지도를 획득할 수 있다.
또한 본 개시의 일 실시예에 따르면, 디바이스는 소정의 채널 개수로 구성된 입력 특징 지도를 획득할 수 있으며, 제1 특징 지도는 입력 특징 지도에 합성곱 연산을 수행함으로써, 획득된 소정의 채널 개수로 구성된 특징 지도 일수 있다.
또한 본 개시의 일 실시예에 따르면, 입력 특징 지도 및 제1 특징 지도는, 소정의 크기의 가로 및 소정의 크기의 세로로 구성된 특징 지동일 수 있으며, 제1 특징 지도는 입력 특징 지도보다 적은 채널 개수를 가질 수 있다.
단계 1003에서, 디바이스는 제1 특징 지도가 포함하는 복수의 채널들 중 제1 채널 집합 및 제2 채널 집합을 결정할 수 있다.
본 개시의 일 실시예에 따르면, 제1 채널 집합 및 제2 채널 집합은 상기 제1 특징 지도가 포함하는 복수의 채널 중 일부 채널을 포함할 수 있다. 또한 제1 채널 집합 및 제2 채널 집합에 포함되는 채널은 서로 상이할 수 있다.
본 개시의 일 실시예에 따르면, 디바이스는 소정의 샘플링 레이트를 이용하여 제1 특징 지도가 포함하는 복수의 채널들 중 일부 채널들을 샘플링하고, 샘플링된 채널들에 기초하여 제1 채널 집합 및 제2 채널 집합을 결정할 수 있다.
본 개시의 일 실시예에 따르면, 디바이스는, 팽창 합성곱 연산에서 수행되는 팽창 비율에 기초하여 샘플링 시작 채널을 결정할 수 있으며, 제1 채널 집합에 포함되는 시작 채널 및 제2 채널 집합에 포함되는 시작 채널은 상이할 수 있다.
예를 들어, 제1 채널 집합에 포함되는 채널은 제1 채널 인덱스부터 시작될 수 있으며, 제2 채널 집합에 포함되는 제2 채널 인덱스부터 시작될 수 있다. 각 채널 집합에 포함되는 가장 작은 채널 인덱스를 시작 채널이라 할 수 있다.
단계 1005에서, 디바이스는 제1 채널 집합을 포함하는 제1 부분 채널 특징 지도에 제1 팽창 합성곱 연산을 수행하고, 제2 채널 집합을 포함하는 제2 부분 채널 특징 지도에 제2 팽창 합성곱 연산을 수행함으로써, 제1 부분 출력 특징 지도 및 제2 부분 출력 특징 지도를 획득할 수 있다.
본 개시의 일 실시예에 따르면, 디바이스(또는 뉴럴 네트워크)는 제1 채널 집합을 포함하는 제1 부분 채널 특징 지도에 제1 팽창 합성곱 연산을 수행할 수 있다. 또한 디바이스는 제2 채널 집합을 포함하는 제2 부분 채널 특징 지도에 제2 팽창 합성곱 연산을 수행할 수 있으며, 제1 팽창 합성곱 연산과 제2 팽창 합성곱 연산은 병렬적으로 수행될 수 있다.
또한 본 개시의 일 실시예에 따르면, 디바이스는, 제1 팽창 비율에 기초하여 제1 팽창 합성곱 연산을 수행하고, 제2 팽창 비율에 기초하여 제2 팽창 합성곱 연산을 수행할 수 있으며, 제1 팽창 비율과 제2 팽창 비율은 상이할 수 있다.
또한 본 개시의 일 실시예에 따르면, 제1 팽창 합성곱 연산 및 제2 팽창 합성곱 연산은, 소정의 크기 가로 및 소정의 크기의 세로로 구성된 팽창 합성곱 필터를 이용하여 수행될 수 있다.
단계 1007에서, 디바이스는 제1 부분 출력 특징 지도 및 제2 부분 출력 특징 지도를 결합할 수 있다.
또한 디바이스는 제1 부분 출력 특징 지도 및 제2 부분 출력 특징 지도를 결합된 최종 특징 지도를 생성할 수 있으며, 생성된 최종 특징 지도를 출력할 수 있다.
도 11은 본 개시의 일 실시예에 따른 팽창 합성곱 연산을 제공하는 디바이스의 블록도이다.
도 11에 도시되는 바와 같이, 본 개시의 디바이스(1100)는 프로세서(1101) 및 메모리(1103)를 포함할 수 있다. 다만, 디바이스(1100)의 구성 요소가 전술한 예에 한정되는 것은 아니다. 예를 들어, 디바이스(1100)는 전술한 구성 요소들 보다 더 많은 구성 요소를 포함하거나 더 적은 구성 요소를 포함할 수 있다. 또한 프로세서(1101)는 적어도 하나일 수 있으며, 메모리(1103) 또한 적어도 하나일 수 있다. 또한 프로세서(1101) 및 메모리(1103)가 하나의 칩으로 결합된 형태일 수도 있다.
본 개시의 일 실시예에 따르면, 프로세서(1101)는 디바이스(1100)의 동작에 필요한 프로그램 및 데이터를 저장할 수 있다. 프로세서(1101)는 소정의 채널 개수로 구성된 제1 특징 지도를 획득하고, 제1 특징 지도가 포함하는 복수의 채널들 중 제1 채널 집합 및 제2 채널 집합을 결정하고, 제1 채널 집합을 포함하는 제1 부분 채널 특징 지도에 제1 팽창 합성곱 연산을 수행하고, 제2 채널 집합을 포함하는 제2 부분 채널 특징 지도에 제2 팽창 합성곱 연산을 수행함으로써, 제1 부분 출력 특징 지도 및 제2 부분 출력 특징 지도를 획득하고, 제1 부분 출력 특징 지도 및 제2 부분 출력 특징 지도를 결합할 수 있다.
또한 본 개시의 일 실시예에 따르면, 프로세서(1101)는 소정의 채널 개수로 구성된 입력 특징 지도를 획득하고, 획득한 입력 특징 지도에 합성곱 연산을 수행함으로써, 소정의 채널 개수로 구성된 제1 특징 지도를 획득할 수 있다.
또한 본 개시의 일 실시예에 따르면, 프로세서(1101)는 소정의 샘플링 레이트를 이용하여 제1 특징 지도가 포함하는 복수의 채널들 중 일부 채널들을 샘플링하고, 샘플링된 채널들에 기초하여 제1 채널 집합 및 제2 채널 집합을 결정할 수 있다.
또한 본 개시의 일 실시예에 따르면, 프로세서(1101)는 팽창 합성곱 연산에서 수행되는 팽창 비율에 기초하여 샘플링 시작 채널을 결정할 수 있으며, 제1 팽창 비율에 기초하여 제1 팽창 합성곱 연산을 수행하고, 제2 팽창 비율에 기초하여 상기 제2 팽창 합성곱 연산을 수행할 수 있다.
또한 본 개시의 일 실시예에 따르면, 프로세서(1101)는 제1 부분 출력 특징 지도 및 제2 부분 출력 특징 지도를 결합된 최종 특징 지도를 생성하고 생성된 최종 특징 지도를 출력할 수 있다. 또한 프로세서(1101)는 제1 팽창 합성곱 연산과 제2 팽창 합성곱 연산은 병렬적으로 수행할 수 있다.
본 개시의 일 실시예에 따르면, 메모리(1103)는 프로세서(1101)를 통해 생성되거나, 획득한 데이터 중 적어도 하나를 저장할 수 있다. 메모리(1103)는 롬(ROM), 램(RAM), 하드디스크, CD-ROM 및 DVD 등과 같은 저장 매체 또는 저장 매체들의 조합으로 구성될 수 있다.
한편, 본 명세서와 도면에 개시된 본 개시의 실시 예들은 본 개시의 기술 내용을 쉽게 설명하고 본 개시의 이해를 돕기 위해 특정 예를 제시한 것일 뿐이며, 본 개시의 범위를 한정하고자 하는 것은 아니다. 즉 본 개시의 기술적 사상에 바탕을 둔 다른 변형예들이 실시 가능하다는 것은 본 개시의 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다. 또한 상술된 각각의 실시예는 필요에 따라 서로 조합되어 운용할 수 있다.
1100: 디바이스
1101: 프로세서
1103: 메모리

Claims (15)

  1. 팽창 합성곱을 수행하는 컴퓨터로 구현된 디바이스의 팽창 합성곱 수행 방법에 있어서,
    소정의 채널 개수로 구성된 제1 특징 지도를 획득하는 단계;
    상기 제1 특징 지도가 포함하는 복수의 채널들 중 제1 채널 집합 및 제2 채널 집합을 결정하는 단계;
    상기 제1 채널 집합을 포함하는 제1 부분 채널 특징 지도에 제1 팽창 합성곱 연산을 수행하고, 상기 제2 채널 집합을 포함하는 제2 부분 채널 특징 지도에 제2 팽창 합성곱 연산을 수행함으로써, 제1 부분 출력 특징 지도 및 제2 부분 출력 특징 지도를 획득하는 단계; 및
    상기 제1 부분 출력 특징 지도 및 상기 제2 부분 출력 특징 지도를 결합하는 단계;
    를 포함하고,
    상기 제1 채널 집합 및 상기 제2 채널 집합을 결정하는 단계는,
    상기 팽창 합성곱 연산에서 수행되는 팽창 비율에 기초하여 샘플링 시작 채널을 결정하는 단계;
    소정의 샘플링 레이트를 이용하여 상기 제1 특징 지도가 포함하는 복수의 채널들 중 일부 채널들을 샘플링하는 단계; 및
    상기 샘플링된 채널들에 기초하여 상기 제1 채널 집합 및 상기 제2 채널 집합을 결정하는 단계를 포함하는 방법.
  2. 제1항에 있어서,
    상기 제1 특징 지도를 획득하는 단계는,
    소정의 채널 개수로 구성된 입력 특징 지도를 획득하는 단계; 및
    상기 획득한 입력 특징 지도에 합성곱 연산을 수행함으로써, 상기 소정의 채널 개수로 구성된 제1 특징 지도를 획득하는 단계를 포함하는, 방법.
  3. 제2항에 있어서,
    상기 제1 특징 지도는 상기 입력 특징 지도보다 적은 채널 개수를 가지는 것인, 방법.
  4. 제2항에 있어서,
    상기 제1 특징 지도의 채널 개수는 상기 입력 특징 지도의 소정의 채널 개수를 소정의 자연수로 나눈 개수인 것인, 방법.
  5. 제1항에 있어서,
    상기 제1 채널 집합 및 상기 제2 채널 집합은 상기 제1 특징 지도가 포함하는 복수의 채널 중 일부 채널을 포함하는 것인, 방법.
  6. 제1항에 있어서,
    상기 제1 채널 집합 및 상기 제2 채널 집합에 포함되는 채널은 서로 상이한 것인, 방법.
  7. 삭제
  8. 삭제
  9. 제1항에 있어서,
    상기 제1 채널 집합에 포함되는 시작 채널 및 상기 제2 채널 집합에 포함되는 시작 채널은 상이한 것인, 방법.
  10. 제1항에 있어서,
    상기 제1 채널 집합을 포함하는 제1 부분 채널 특징 지도에 제1 팽창 합성곱 연산을 수행하고, 상기 제2 채널 집합을 포함하는 제2 부분 채널 특징 지도에 제2 팽창 합성곱 연산을 수행함으로써, 제1 부분 출력 특징 지도 및 제2 부분 출력 특징 지도를 획득하는 단계는,
    제1 팽창 비율에 기초하여 상기 제1 팽창 합성곱 연산을 수행하고, 제2 팽창 비율에 기초하여 상기 제2 팽창 합성곱 연산을 수행하는 것인, 방법.
  11. 제10항에 있어서,
    상기 제1 팽창 비율과 상기 제2 팽창 비율은 상이한 것인, 방법.
  12. 제10항에 있어서,
    상기 제1 팽창 합성곱 연산 및 상기 제2 팽창 합성곱 연산은, 소정의 크기 가로 및 소정의 크기의 세로로 구성된 팽창 합성곱 필터를 이용하여 수행되는 것인, 방법.
  13. 제1항에 있어서,
    상기 방법은,
    상기 제1 부분 출력 특징 지도 및 상기 제2 부분 출력 특징 지도를 결합된 최종 특징 지도를 생성하는 단계; 및
    상기 생성된 최종 특징 지도를 출력하는 단계를 더 포함하는 방법.
  14. 제1항에 있어서,
    상기 제1 팽창 합성곱 연산과 상기 제2 팽창 합성곱 연산은 병렬적으로 수행되는 것인, 방법.
  15. 팽창 합성곱을 수행하는 디바이스에 있어서,
    상기 디바이스는,
    메모리; 및
    소정의 채널 개수로 구성된 제1 특징 지도를 획득하고, 상기 제1 특징 지도가 포함하는 복수의 채널들 중 제1 채널 집합 및 제2 채널 집합을 결정하고, 상기 제1 채널 집합을 포함하는 제1 부분 채널 특징 지도에 제1 팽창 합성곱 연산을 수행하고, 상기 제2 채널 집합을 포함하는 제2 부분 채널 특징 지도에 제2 팽창 합성곱 연산을 수행함으로써, 제1 부분 출력 특징 지도 및 제2 부분 출력 특징 지도를 획득하고, 상기 제1 부분 출력 특징 지도 및 상기 제2 부분 출력 특징 지도를 결합하도록 설정된 프로세서를 포함하고,
    상기 프로세서는,
    상기 팽창 합성곱 연산에서 수행되는 팽창 비율에 기초하여 샘플링 시작 채널을 결정하고, 소정의 샘플링 레이트를 이용하여 상기 제1 특징 지도가 포함하는 복수의 채널들 중 일부 채널들을 샘플링하고, 샘플링된 일부 채널들에 기초하여 상기 제1 채널 집합 및 상기 제2 채널 집합을 결정하는 디바이스.
KR1020190130746A 2019-10-21 2019-10-21 심층 합성곱 뉴럴 네트워크를 위한 효율적인 팽창 합성곱 기법을 제공하는 방법 및 장치 KR102128789B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190130746A KR102128789B1 (ko) 2019-10-21 2019-10-21 심층 합성곱 뉴럴 네트워크를 위한 효율적인 팽창 합성곱 기법을 제공하는 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190130746A KR102128789B1 (ko) 2019-10-21 2019-10-21 심층 합성곱 뉴럴 네트워크를 위한 효율적인 팽창 합성곱 기법을 제공하는 방법 및 장치

Publications (1)

Publication Number Publication Date
KR102128789B1 true KR102128789B1 (ko) 2020-07-01

Family

ID=71601736

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190130746A KR102128789B1 (ko) 2019-10-21 2019-10-21 심층 합성곱 뉴럴 네트워크를 위한 효율적인 팽창 합성곱 기법을 제공하는 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102128789B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950713A (zh) * 2020-08-23 2020-11-17 云知声智能科技股份有限公司 提升通道随机混合操作运行速度的方法及装置
CN113111889A (zh) * 2021-03-10 2021-07-13 国网浙江省电力有限公司宁波供电公司 用于边缘计算端的目标检测网络处理方法
KR20220012733A (ko) * 2020-07-23 2022-02-04 중앙대학교 산학협력단 샴 네트워크 기반 동일 객체 재인식 방법 및 그 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180260956A1 (en) * 2017-03-10 2018-09-13 TuSimple System and method for semantic segmentation using hybrid dilated convolution (hdc)
US20190095795A1 (en) * 2017-03-15 2019-03-28 Samsung Electronics Co., Ltd. System and method for designing efficient super resolution deep convolutional neural networks by cascade network training, cascade network trimming, and dilated convolutions

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180260956A1 (en) * 2017-03-10 2018-09-13 TuSimple System and method for semantic segmentation using hybrid dilated convolution (hdc)
US20190095795A1 (en) * 2017-03-15 2019-03-28 Samsung Electronics Co., Ltd. System and method for designing efficient super resolution deep convolutional neural networks by cascade network training, cascade network trimming, and dilated convolutions

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
M Tan, QV Le, MixConv: Mixed Depthwise Convolutional Kernels. 2019.08.01. *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220012733A (ko) * 2020-07-23 2022-02-04 중앙대학교 산학협력단 샴 네트워크 기반 동일 객체 재인식 방법 및 그 장치
KR102442497B1 (ko) * 2020-07-23 2022-09-08 중앙대학교 산학협력단 샴 네트워크 기반 동일 객체 재인식 방법 및 그 장치
CN111950713A (zh) * 2020-08-23 2020-11-17 云知声智能科技股份有限公司 提升通道随机混合操作运行速度的方法及装置
CN113111889A (zh) * 2021-03-10 2021-07-13 国网浙江省电力有限公司宁波供电公司 用于边缘计算端的目标检测网络处理方法

Similar Documents

Publication Publication Date Title
CN109101975B (zh) 基于全卷积神经网络的图像语义分割方法
KR102128789B1 (ko) 심층 합성곱 뉴럴 네트워크를 위한 효율적인 팽창 합성곱 기법을 제공하는 방법 및 장치
US20220215227A1 (en) Neural Architecture Search Method, Image Processing Method And Apparatus, And Storage Medium
CN114202672A (zh) 一种基于注意力机制的小目标检测方法
CN113033570B (zh) 一种改进空洞卷积和多层次特征信息融合的图像语义分割方法
Zhang et al. Accurate and fast image denoising via attention guided scaling
CN111476719B (zh) 图像处理方法、装置、计算机设备及存储介质
CN111696110B (zh) 场景分割方法及系统
CN110689599A (zh) 基于非局部增强的生成对抗网络的3d视觉显著性预测方法
CN113870335A (zh) 一种基于多尺度特征融合的单目深度估计方法
CN114049381A (zh) 一种融合多层语义信息的孪生交叉目标跟踪方法
CN113658189B (zh) 一种跨尺度特征融合的实时语义分割方法和系统
CN112001923B (zh) 一种视网膜图像分割方法及装置
CN114067389A (zh) 一种面部表情的分类方法和电子设备
CN112802197A (zh) 动态场景下基于全卷积神经网络的视觉slam方法及系统
CN116091823A (zh) 一种基于快速分组残差模块的单特征无锚框目标检测方法
CN113837941A (zh) 图像超分模型的训练方法、装置及计算机可读存储介质
US20230410465A1 (en) Real time salient object detection in images and videos
CN113313162A (zh) 一种多尺度特征融合目标检测的方法及系统
CN113436224A (zh) 一种基于显式构图规则建模的智能图像裁剪方法及装置
CN112633260A (zh) 视频动作分类方法、装置、可读存储介质及设备
CN117456330A (zh) 一种基于MSFAF-Net的低照度目标检测方法
CN112132207A (zh) 基于多分支特征映射目标检测神经网络构建方法
CN116403062A (zh) 一种点云目标检测方法、系统、设备及介质
CN114708423A (zh) 基于改进Faster RCNN的水下目标检测方法

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant