WO2022097814A1

WO2022097814A1 - 3d 라이다의 고속 객체 인식을 위한 채널별 컨볼루션 기반의 합성곱 신경망 구조

Info

Publication number: WO2022097814A1
Application number: PCT/KR2020/016791
Authority: WO
Inventors: 박태형
Original assignee: 충북대학교 산학협력단
Priority date: 2020-11-09
Filing date: 2020-11-25
Publication date: 2022-05-12
Also published as: KR20220063026A; US20230280467A1; EP4024284A1; JP2023509104A; JP7364680B2; DE202020005928U1; EP4024284A4

Abstract

본 발명은 3D 라이다의 고속 객체 인식을 위한 채널별 컨볼루션 기반의 합성곱 신경망 구조에 관한 것으로서, 라이다 데이터의 각 채널 내 특징을 추출하기 위한 채널 내부 컨볼루션 네트워크, 상기 채널 내부 컨볼루션 네트워크의 각 채널별 출력을 이용하여 각 채널 간의 특징을 추출하고, 추출한 각 채널 간의 특징을 나타내는 특징맵을 생성하기 위한 채널 외부 컨볼루션 네트워크 및 상기 채널 외부 컨볼루션 네트워크에서 생성된 특징맵을 이용하여 객체의 위치 및 클래스를 탐색하는 디텍션 네트워크를 포함한다. 본 발명에 의하면, 3D 라이다의 고속 객체 인식 과정에서, 라이다에서 들어오는 로(RAW) 데이터를 직접 사용하기 때문에 데이터 손실이 발생하지 않는 다는 효과가 있다.

Description

3D 라이다의 고속 객체 인식을 위한 채널별 컨볼루션 기반의 합성곱 신경망 구조

본 발명은 합성곱 신경망에 관한 것으로서, 더욱 상세하게는 3D 라이다의 고속 객체 인식을 위한 채널별 컨볼루션 기반의 합성곱 신경망 구조에 관한 것이다.

3D 라이다(LiDAR)는 자율주행 자동차에서 많이 사용하는 센서로서, 라이다 본체에서 레이저를 발사하고 반사되어 돌아오는 시간을 가지고 주변 물체의 거리를 측정하는 장치이다. 카메라와 달리 라이다는 빛의 영향을 덜 받기 때문에 주야간 관계 없이 주변 물체 감지가 가능하다.

라이다 데이터는 점(point)의 집합으로 구성되어 있으며 이를 포인트 클라우드(pointcloud)라고 한다. 각 점(point)에는 위치(x, y, z)와 반사도(I) 데이터가 포함되어 있다.

라이다 데이터를 출력하면 여러개의 점으로 구성된 배경과 물체가 있는 것을 확인할 수 있다. 라이다 데이터에서 객체(주로 사람, 자동차)의 위치 및 클래스(class)를 찾는 일련의 과정을 객체 인식(object recognition)이라고 한다.

3D 라이다를 이용한 객체인식 방법은 여러 가지가 있지만, 최근 몇 년 동안 가장 성능이 좋은 방법은 합성곱 신경망(Convolutional Neural Network, CNN)을 사용하는 것이다.

CNN은 입력 데이터가 들어오면 여러 번의 컨볼루션 과정을 통해 특징을 추출하고, 추출한 특징을 이용하여 객체를 인식한다. 기존의 CNN에서 입력 데이터로 사용하는 방법은 3D 라이다 데이터를 복셀(voxel)이나 이미지(image)로 변환하여 사용하는 방식이다. 이러한 기존 CNN의 객체 인식 과정은 도 1과 같다.

도 1은 기존 CNN을 이용한 객체 인식 과정을 도시한 것이다.

도 1을 참조하면, 기존 CNN을 이용한 객체 인식 과정은, 라이다에서 감지된 포인트 클라우드 데이터를 복셀 또는 이미지로 변환하는 과정을 거치고, 변환된 데이터를 입력으로 하여 CNN을 수행하여 결과 데이터를 출력하는 방식이다.

이러한 종래 CNN을 이용한 객체 인식 방식의 문제점은 변환 방식에 따라 다양하지만, 그 중에서 공통되는 문제점은 라이다를 통해 생성된 로(raw) 데이터를 변환하기 때문에 손실되는 데이터가 발생한다는 것이다.

종래 복셀 변환 방식과 이미지 변환 방식 각각의 단점은 다음과 같다.

먼저, 포인트 클라우드를 복셀로 변환하는 방법의 경우, 3D 컨볼루션을 사용해야 하는데 연산량이 많아져 수행시간에 영향을 준다는 문제점이 있다.

또한, 포인트 클라우드를 이미지로 변환하는 방법의 경우, 2D 데이터를 입력으로 사용하므로 출력도 2D와 관련된 데이터가 나오기 때문에, 정확한 3D 자세를 찾기 위해서는 추가 알고리즘이 적용되야 해서, 결국 수행시간에 영향을 준다는 문제점이 있다.

이러한 기존의 방법을 개선하기 위해서는 포인트 클라우드를 복셀이나 이미지로 변환하는 과정을 없애야 하는 방안이 필요하다.

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 3D 라이다의 고속 객체 인식 과정에서 포인트 클라우드 데이터를 복셀이나 이미지로 변환하는 과정을 없애기 위한, 채널별 컨볼루션 기반의 합성곱 신경망 구조를 제공하는데 그 목적이 있다.

본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

이와 같은 목적을 달성하기 위한 본 발명은 3D 라이다의 고속 객체 인식을 위한 채널별 컨볼루션 기반의 합성곱 신경망 구조에 관한 것으로서, 라이다 데이터의 각 채널 내 특징을 추출하기 위한 채널 내부 컨볼루션 네트워크, 상기 채널 내부 컨볼루션 네트워크의 각 채널별 출력을 이용하여 각 채널 간의 특징을 추출하고, 추출한 각 채널 간의 특징을 나타내는 특징맵을 생성하기 위한 채널 외부 컨볼루션 네트워크 및 상기 채널 외부 컨볼루션 네트워크에서 생성된 특징맵을 이용하여 객체의 위치 및 클래스를 탐색하는 디텍션 네트워크를 포함한다.

상기 채널 내부 컨볼루션 네트워크는, 각 채널 별로 컨볼루션을 진행하는 하나 이상의 컨볼루션 레이어와 풀링을 진행하는 풀링 레이어를 하나의 세트로 하여, 소정 갯수의 세트를 연속하여 구비하고, 각 채널 별로 라이다의 채널 데이터가 입력되고, 각 채널의 특징을 나타내는 특징 데이터를 출력할 수 있다.

상기 채널 외부 컨볼루션 네트워크는, 상기 각 채널별 특징 데이터를 합친 입력 특징맵을 입력으로 하여 컨볼루션을 진행하는 하나 이상의 컨볼루션 레이어를 구비하고, 상기 입력 특징맵과 상기 컨볼루션 레이어의 결과인 결과 특징맵을 연결하여 최종 특징맵을 출력할 수 있다.

상기 디텍션 네트워크는, 상기 결과 특징맵을 입력으로 하여 컨볼루션을 진행하는 하나 이상의 컨볼루션 레이어와, 상기 컨볼루션 레이어를 통해 나오는 결과 데이터를 이용하여 객체의 클래스와 점수를 출력하는 클래스 레이어와, 상기 컨볼루션 레이어를 통해 나오는 결과 데이터를 이용하여 객체의 위치, 박스의 크기 및 객체의 각도를 표시하는 박스 레이어를 구비할 수 있다.

본 발명에 의하면, 3D 라이다의 고속 객체 인식 과정에서, 라이다에서 들어오는 로(RAW) 데이터를 직접 사용하기 때문에 데이터 손실이 발생하지 않는 다는 효과가 있다.

또한, 본 발명에 의하면, 포인트 클라우드 데이터를 변환하는 방식이 아닌, 원래 라이다에서 있는 채널을 이용하기 때문에 변환 알고리즘이 따로 필요 없으므로, 채널 내부 컨볼루션 네트워크의 경우 같은 채널내 데이터만 컨볼루션을 적용하기 때문에 컨볼루션 차원이 낮아 처리속도가 빠르다는 효과가 있다.

도 1은 기존 CNN을 이용한 객체 인식 과정을 도시한 것이다.

도 2는 본 발명의 일 실시예에 따른 3D 라이다의 고속 객체 인식 과정을 도시한 것이다.

도 3은 본 발명의 일 실시예에 따른 3D 라이다의 고속 객체 인식을 위한 채널별 컨볼루션 기반의 합성곱 신경망 구조를 보여주는 도면이다.

도 4는 포인트 클라우드 데이터의 표시 방법을 예시한 도면이다.

도 5는 라이다의 물체 감지 방식을 설명하기 위한 예시도이다.

도 6은 본 발명의 일 실시예에 따른 합성곱 신경망 구조에서 채널 내부 컨볼루션 네트워크의 구성을 도시한 것이다.

도 7은 본 발명의 일 실시예에 따른 합성곱 신경망 구조에서 채널 외부 컨볼루션 네트워크의 구성을 도시한 것이다.

도 8은 본 발명의 일 실시예에 따른 합성곱 신경망 구조에서 디텍션 네트워크의 구성을 도시한 것이다.

본 발명은 3D 라이다의 고속 객체 인식을 위한 채널별 컨볼루션 기반의 합성곱 신경망 구조에 관한 것으로서, 라이다 데이터의 각 채널 내 특징을 추출하기 위한 채널 내부 컨볼루션 네트워크, 상기 채널 내부 컨볼루션 네트워크의 각 채널별 출력을 이용하여 각 채널 간의 특징을 추출하고, 추출한 각 채널 간의 특징을 나타내는 특징맵을 생성하기 위한 채널 외부 컨볼루션 네트워크 및 상기 채널 외부 컨볼루션 네트워크에서 생성된 특징맵을 이용하여 객체의 위치 및 클래스를 탐색하는 디텍션 네트워크를 포함한다.

본 명세서에서 개시된 실시 예의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 개시에서 제안하고자 하는 실시 예는 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 당해 기술분야에서 통상의 지식을 가진 자에게 실시 예들의 범주를 완전하게 알려주기 위해 제공되는 것일 뿐이다.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 개시된 실시 예에 대해 구체적으로 설명하기로 한다.

본 명세서에서 사용되는 용어는 개시된 실시 예들의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 관련 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 명세서의 상세한 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 명세서의 전반에 걸친 내용을 토대로 정의되어야 한다.

본 명세서에서의 단수의 표현은 문맥상 명백하게 단수인 것으로 특정하지 않는 한, 복수의 표현을 포함한다.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에서 사용되는 "부"라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, "부"는 어떤 역할들을 수행한다. 그렇지만 "부"는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부"는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부"는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부"들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부"들로 결합되거나 추가적인 구성요소들과 "부"들로 더 분리될 수 있다.

또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

도 2를 참조하면, 본 발명의 일 실시예에 따른 3D 라이다의 고속 객체 인식 과정은 라이다에서 감지된 포인트 클라우드 데이터를 입력으로 하여 CNN(Convolutional Neural Network)을 수행하여 결과 데이터를 출력하는 방식이다.

이러한 본 발명의 CNN을 이용한 3D 라이다의 고속 객체 인식 과정은 기존 방식과 대비하여 포인트 클라우드 데이터를 복셀 또는 이미지로 변환하는 과정이 생략되어 있다. 이를 위하여 본 발명에서는 다음과 같은 채널별 컨볼루션 기반의 합성곱 신경망 구조를 제안한다.

도 3을 참조하면, 본 발명에서 제안하는 3D 라이다의 고속 객체 인식을 위한 채널별 컨볼루션 기반의 합성곱 신경망 구조(100)는 라이다의 채널 내 특징을 추출하는 채널 내부 컨볼루션 네트워크(110), 라이다의 채널 간 특징을 추출하는 채널 외부 컨볼루션 네트워크(120), 객체의 위치와 클래스(class)를 찾는 디텍션(Detection) 네트워크(130)의 총 3개의 네트워크로 구성되어 있다.

채널 내부 컨볼루션 네트워크(110)는 채널 내 특징을 추출하는 네트워크이다.

이러한 채널 내부 컨볼루션 네트워크(110)의 구성을 설명하기 전에 라이다 데이터의 특징을 설명하면 다음과 같다.

도 4에서 (a)는 라이다 데이터인 포인트 클라우드의 출력 데이터이고, (b)는 출력 데이터를 정렬한 정렬 데이터를 도시한 것이다. 즉, 도 4 (a)는 거리에 따라 출력되는 라이다 데이터를 표시한 것이고, (b)는 라이다 데이터를 정렬한 정렬 데이터를 표시한 것이다.

라이다 데이터 L은 다음과 같이 구성되어 있다.

L={p _i,j}

p _i,j={x _i,j, y _i,j, z _i,j, I _ij} (1)

도 4 (b)에 표시된 정렬 데이터를 수식으로 나타내면 다음과 같다.

L= [C ₁ C ₂ ... C _i] ^T

C _i=[p _i,1 p _i,2 ... p _i,j] (2)

여기서, L은 전체 라이다 데이터를 의미하고, i는 채널을 의미하고, C _i는 채널 i에 속해있는 점의 집합을 의미하고, j는 각 채널에 있는 인덱스를 의미하고, p _i,j는 하나의 포인트를 나타낸다. p _i,j 안에는 위치(x,y,z)와 반사도(I)값이 포함되어 있다.

라이다는 수직해상도는 낮지만 수평해상도가 높기 때문에 같은 채널에 있는 점들은 많은 유사성을 가지게 된다. 이를 도면을 참조하여 설명하면 다음과 같다.

도 5의 예시에서, 라이다가 두 개의 물체를 감지했을 때, (a)에서 라이다에서 측정한 데이터를 정렬해서 보면, (b)에서 보는 바와 같이, 동일한 채널(i가 같음)의 라이다 데이터의 경우, 지면 측정하던 중에 물체가 인식된 부분에서 거리와 반사도 값이 달라진다. 그리고 물체 영역을 지나가면 지면을 측정하기 때문에 거리와 반사도 값이 다시 달라진다. 만약 연속으로 다른 물체가 있는 경우, 거리는 같지만 반사도에서 차이가 발생하기 때문에, 이를 통해 해당하는 물체 정보를 얻을 수 있다.

360° 스캔이 가능한 라이다의 경우, 같은 채널에 있는 점들은 많은 유사성을 가지게 된다. 예를 들면, 평지를 스캔했을 때 같은 채널에 있는 라이다 데이터 거리 및 반사도 값은 비슷하다. 그러나 도 5 (a)와 같이, 객체가 있는 경우 중간에 거리나 반사도 값이 다른 경우가 생긴다. 따라서, 채널별 데이터는 서로 관계가 깊기 때문에 데이터를 채널 별로 분리한다. 그리고, 분리된 채널 데이터를 이용해 채널 내부 컨볼루션을 진행한다.

이러한 라이다의 채널 특성을 이용하여 채널 내부 컨볼루션 네트워크를 도 6과 같이 나타날 수 있다.

도 6에서, F _i는 채널 i에서 결과로 나온 특징 데이터이다.

도 6의 실시예에서 채널 내부 컨볼루션 네트워크(110)는 각 채널 당 12개의 컨볼루션 레이어(convolution layer)와 4개의 풀링 레이어(pooling layer)로 구성되어 있는 것을 확인할 수 있다. 그리고, 채널 내부 컨볼루션 네트워크(110) 전체로 보면 컨볼루션 레이어는 12×i개, 풀링 레이어는 4×i개를 포함하고 있다.

그리고, 컨볼루션 레이어의 컨볼루션 마스크 크기는 1×3으로 구성되어 있다. 각 라이다 채널 별로 라이다 데이터의 x,y,z,I 값에 대해 컨볼루션을 진행한다. 3번의 컨볼루션을 진행하고 1번의 풀링을 진행하는 것을 1세트로 해서 총 4세트를 진행한다.

다음, 채널 외부 컨볼루션 네트워크(120)는 채널 간 특징을 추출하는 네트워크이다. 도 5 (b)를 세로 방향으로 보면, 물체가 연속으로 감지되다가 물체가 없어지면 지면을 감지하는 것을 확인할 수 있다. 이를 다시 말하면 동일한 인덱스(j가 같음)에 있는 경우에도 물체의 특징을 뽑을 수가 있다는 것을 의미한다. 이러한 채널 간의 특성을 이용해서 채널 외부 컨볼루션 네트워크를 다음 도 7과 같이 나타낼 수 있다.

도 7에서 채널 외부 컨볼루션 네트워크(120)는 채널 내부 컨볼루션 네트워크에서 나온 F _i를 입력으로 사용하여 특징맵

을 생성한다.

도 7에서 보는 바와 같이, 본 발명의 일 실시예에서 채널 외부 컨볼루션 네트워크(120)는 3개의 컨볼루션 레이어로 구성된다. 그리고 컨볼루션 레이어의 마스크 크기는 3×3을 사용한다. 그리고, 채널 외부 컨볼루션 네트워크(120) 끝단에서는 컨볼루션 결과 특징맵(F′)과 입력으로 사용했던 특징맵(F)을 연결하여 새로운 특징맵(

)을 만든다.

채널 외부 컨볼루션 네트워크(120)의 입력 데이터는 채널 내부 컨볼루션 네트워크의 결과(F ₁, F ₂,..., F _i)를 합친 하나의 F를 사용하고, 출력 데이터는

으로 특징맵의 크기는 F 와 동일하다.

다음, 디텍션 네트워크(130)는 채널 외부 컨볼루션 네트워크(120)에서 구한 특징맵

을 이용하여 객체의 위치 및 클래스를 찾는 네트워크이다.

도 8을 참조하면, 디텍션 네트워크(130)는 객체의 클래스와 점수(c, s)를 출력하는 클래스(class) 레이어와, 객체의 위치, 크기 및 회전(w, h, l, d, θ)을 알아내는 박스(box) 레이어로 구성되어 있다.

도 8의 실시예에서 디텍션 네트워크(130)는 4개의 컨볼루션 레이어를 가지고, 마스크 크기는 3×3을 사용한다. 그리고, 디텍션 네트워크(130)에서 4번의 컨볼루션 레이어를 거쳐서 나오는 최종 데이터는 클래스 레어어와 박스 레이어의 입력으로 사용한다.

클래스 레이어는 해당 객체의 클래스와 점수(c, s)를 출력하도록 구성되어 있다. 그리고, 박스 레이어는 객체의 위치, 박스의 크기 및 객체의 각도(w, h, l, d, θ)를 표시하도록 구성되어 있다.

본 발명에서는 라이다 채널 기반의 채널별 컨볼루션 기반의 합성곱 신경 망 구조를 제안하였다. 기존에는 3차원 컨볼루션 사용하거나 데이터를 변환한 객체인식 방법을 사용했지만, 본 발명에서 제안하는 방법은 라이다 데이터의 특징을 이용해 객체를 인식하는 네트워크이다. 즉, 객체인식을 위해 라이다 데이터를 채널별로 특징을 추출할 수 있게 채널 내부 컨볼루션 네트워크를 사용하고, 다음으로 채널 외부 컨볼루션 네트워크를 이용해 채널 간 특징을 추출하고, 마지막으로 디텍션 네트워크를 이용해 객체를 찾는 방식이다.

기존의 3D 라이다의 객체 인식 과정에서 복셀 변환이나 이미지 변환 방법은 결국 네트워크의 입력 데이터로 사용하기 위해 라이다 데이터를 변환해야 한다. 그러나 이러한 데이터 변환은 결국 로(RAW) 데이터의 일부가 손실 될 수 있고, 데이터 변환을 위한 변환 알고리즘을 추가하거나 후처리 알고리즘을 추가해야 하고, 복셀 한정으로 3D 컨볼루션을 사용하기 때문에 수행시간이 길어진다.

이러한 점을 개선하기 위하여, 본 발명에서 제안하는 방법의 경우 라이다에서 들어오는 로 데이터를 직접 사용하기 때문에 데이터 손실이 발생하지 않고, 데이터 변환이 아닌 원래 라이다에서 있는 채널을 이용하기 때문에 변환 알고리즘이 따로 필요없다. 또한, 채널 내부 컨볼루션 네트워크의 경우, 같은 채널 내 데이터만 컨볼루션을 적용하기 때문에 컨볼루션 차원이 낮아 처리속도가 빠르다.

이상 본 발명을 몇 가지 바람직한 실시 예를 사용하여 설명하였으나, 이들 실시 예는 예시적인 것이며 한정적인 것이 아니다. 본 발명이 속하는 기술분야에서 통상의 지식을 지닌 자라면 본 발명의 사상과 첨부된 특허청구범위에 제시된 권리범위에서 벗어나지 않으면서 다양한 변화와 수정을 가할 수 있음을 이해할 것이다.

Claims

3D 라이다의 고속 객체 인식을 위한 채널별 컨볼루션 기반의 합성곱 신경망 구조에서,

라이다 데이터의 각 채널 내 특징을 추출하기 위한 채널 내부 컨볼루션 네트워크;

상기 채널 내부 컨볼루션 네트워크의 각 채널별 출력을 이용하여 각 채널 간의 특징을 추출하고, 추출한 각 채널 간의 특징을 나타내는 특징맵을 생성하기 위한 채널 외부 컨볼루션 네트워크; 및

상기 채널 외부 컨볼루션 네트워크에서 생성된 특징맵을 이용하여 객체의 위치 및 클래스를 탐색하는 디텍션 네트워크

를 포함하는 합성곱 신경망 구조.
청구항 1에 있어서,

상기 채널 내부 컨볼루션 네트워크는,

각 채널 별로 컨볼루션을 진행하는 하나 이상의 컨볼루션 레이어와 풀링을 진행하는 풀링 레이어를 하나의 세트로 하여, 소정 갯수의 세트를 연속하여 구비하고,

각 채널 별로 라이다의 채널 데이터가 입력되고, 각 채널의 특징을 나타내는 특징 데이터를 출력하는 것을 특징으로 하는 합성곱 신경망 구조.
청구항 2에 있어서,

상기 채널 외부 컨볼루션 네트워크는,

상기 각 채널별 특징 데이터를 합친 입력 특징맵을 입력으로 하여 컨볼루션을 진행하는 하나 이상의 컨볼루션 레이어를 구비하고,

상기 입력 특징맵과 상기 컨볼루션 레이어의 결과인 결과 특징맵을 연결하여 최종 특징맵을 출력하는 것을 특징으로 하는 합성곱 신경망 구조.
청구항 3에 있어서,

상기 디텍션 네트워크는,

상기 결과 특징맵을 입력으로 하여 컨볼루션을 진행하는 하나 이상의 컨볼루션 레이어와, 상기 컨볼루션 레이어를 통해 나오는 결과 데이터를 이용하여 객체의 클래스와 점수를 출력하는 클래스 레이어와, 상기 컨볼루션 레이어를 통해 나오는 결과 데이터를 이용하여 객체의 위치, 박스의 크기 및 객체의 각도를 표시하는 박스 레이어를 구비하는 것을 특징으로 하는 합성곱 신경망 구조.