KR20240020812A

KR20240020812A - 설명 가능한 3d 형상 학습을 위한 컨볼루션 신경망 구조, 및 이를 이용한 3d 형상 학습을 위한 방법 및 시스템

Info

Publication number: KR20240020812A
Application number: KR1020220099006A
Authority: KR
Inventors: 채동규; 김성겸
Original assignee: 한양대학교 산학협력단
Priority date: 2022-08-09
Filing date: 2022-08-09
Publication date: 2024-02-16
Also published as: WO2024035000A1

Abstract

설명 가능한 3D 형상 학습을 위한 컨볼루션 신경망 구조, 및 이를 이용한 3D 형상 학습을 위한 방법 및 시스템이 개시된다. 일 실시예에 따른 형상 학습 시스템에 의해 수행되는 형상 학습을 위한 방법은, 3차원 형상 데이터에서 측지 특징 및 기하학적 특징을 추출하는 단계; 및 상기 3차원 형상 데이터를 구성하는 면을 기준으로 상기 추출된 측지 특징 및 상기 추출된 기하학적 특징에 대한 컨볼루션 연산을 통해 오브젝트를 분류하는 단계를 포함할 수 있다.

Description

설명 가능한 3D 형상 학습을 위한 컨볼루션 신경망 구조, 및 이를 이용한 3D 형상 학습을 위한 방법 및 시스템{CONVOLUTIONAL NEURAL NETWORK STRUCTURE FOR EXPLANATORY 3D SHAPE LEARNING, AND 3D SHAPE LEARNING METHOD AND SYSTEM USING CONVOLUTIONAL NEURAL NETWORK STRUCTURE}

아래의 설명은 3차원 형상 학습 기술에 관한 것이다.

딥러닝을 이용한 3D 형상 분석은 주로 멀티 뷰(Multi-view)와 복셀(Voxel) 방식으로 이루어져 있으며, 최근에는 그래프(Graph)와 메시(Mesh) 방식을 이용한 모델들에 대한 관심이 커지고 있는 추세이다.

멀티 뷰와 복셀 기반의 모델은 불규칙한 3D 형상을 신경망으로 처리하기 위해 규칙이 있는 표현으로 변환한다. 이러한 방법은 일반적인 컨볼루션 연산을 수행할 수 있지만, 표현 변환에서 발생하는 토폴로지 연결성의 손실 및 데이터의 밀도 축소로 인해 노이즈에 민감해져 불안정한 결과가 도출되거나 높은 계산량이 요구된다.

그래프 방식은 그래프의 노드와 엣지 사이의 경로(path)와 같은 측지 기반의 특징을 사용하며 비-유클리드(Non-Euclidean) 공간의 컨볼루션 연산을 수행한다. 또한, 메시 방식은 노드와 면의 위치 및 방향과 같은 기하학적 특징을 사용하고 3D 형상에 맞춰진 컨볼루션 연산을 수행한다. 이러한 방법은 특정한 3D 형상 데이터 셋을 처리하기 위해 낮은 수준의 특징을 경험적으로 사용하기 때문에 모든 유형의 3D 형상을 처리하는 데에 한계가 있을 수 있다.

또한, 딥러닝은 내부의 비선형성으로 인해 추론의 이유를 설명할 수 없다. 이를 해결하기 위해 설명 가능한 인공지능(eXplainable Artificial Intelligence) 연구가 활발하게 진행되고 있다. 그러나, 2D 이미지에서는 모델 설명 기법 연구가 많이 진행되었지만, 3D 형상에서는 일반적인 방법을 적용할 수 없어 모델과 데이터에 특화된 기술이 조금씩 연구되고 있다.

3차원 형상 데이터에서 측지 특징 및 기하학적 특징을 추출하고, 3차원 형상 데이터를 구성하는 면을 기준으로 추출된 측지 특징 및 추출된 기하학적 특징에 대한 컨볼루션 연산을 통해 오브젝트를 분류하는 방법 및 시스템을 제공할 수 있다.

3차원 형상 데이터의 측지 특징 및 기하학적 특징을 감지하면서 동시에 공간 정보를 유지하는 설명 가능한 3차원 형상 학습을 위한 컨볼루션 기반의 신경망 모델을 제공할 수 있다.

형상 학습 시스템에 의해 수행되는 형상 학습을 위한 방법은, 3차원 형상 데이터에서 측지 특징 및 기하학적 특징을 추출하는 단계; 및 상기 3차원 형상 데이터를 구성하는 면을 기준으로 상기 추출된 측지 특징 및 상기 추출된 기하학적 특징에 대한 컨볼루션 연산을 통해 오브젝트를 분류하는 단계를 포함할 수 있다.

형상 학습을 위한 방법은, 설명 가능한 3차원 형상 학습을 위한 컨볼루션 기반의 신경망 모델을 이용하여 상기 3차원 형상 데이터로부터 오브젝트를 분류한 결과를 시각화하는 단계를 더 포함할 수 있다.

상기 설명 가능한 3차원 형상 학습을 위한 컨볼루션 기반의 신경망 모델은, 상기 3차원 형상 데이터에서 각 대상 면과 인접 면을 이용하여 측지 특징 및 기하학적 특징을 추출하는 기술자 레이어와, 상기 추출된 측지 특징 및 기하학적 특징을 이용하여 컨볼루션 연산을 수행하는 컨볼루션 레이어로 구성된 것일 수 있다.

상기 3차원 형상 데이터는, 상기 3차원 형상 데이터를 구성하는 노드, 엣지 및 면이 불규칙한 구조로 구성된 것일 수 있다.

상기 추출하는 단계는, 상기 3차원 형상 데이터를 구성하는 면에 대하여 각 면을 단위로 인접한 복수 개의 면에 대한 식별 정보를 리스트 형태로 구성하고, 상기 리스트 형태로 구성된 식별 정보를 통해 각 면의 노드 및 엣지에 대한 정보를 획득하도록 데이터 구조를 생성하는 단계를 포함할 수 있다.

상기 추출하는 단계는, 순서 불변 커널 매핑(Order-Invariant Kernel Mapping)을 이용하여 3차원 형상 데이터로부터 측지 특징을 추출하는 단계를 포함할 수 있다.

상기 추출하는 단계는, 상기 3차원 형상 데이터에서 대상 면과 주변 면의 위치 및 방향에 기초하여 기하학적 특징을 추출하는 단계를 포함할 수 있다.

상기 추출하는 단계는, 상기 3차원 형상 데이터에서 대상 면과 주변 면 사이의 거리 비율 및 사이각 정보에 기초하여 기하학적 특징을 추출하는 단계를 포함할 수 있다.

상기 분류하는 단계는, 상기 측지 특징 및 기하학적 특징을 통합한 각 면에 대한 특징 벡터를 컨볼루션 레이어에 입력하는 단계를 포함할 수 있다.

상기 분류하는 단계는, 상기 각 면에 대한 특징 벡터에 기초하여 각 면을 계승하는 특징 벡터와, 상기 특정 면과 특정 면의 인접 면 사이의 관계를 집계하는 특징 벡터를 이용하여 1차원 컨볼루션을 수행하는 단계를 포함할 수 있다.

상기 추출하는 단계는, 상기 수행된 1차원 컨볼루션을 통해 면의 수가 유지되도록 결과가 출력됨에 따라 GAP(Global Average Pooling) 연산을 수행하여 각 클래스에 대한 점수를 획득하고, 상기 획득된 점수를 기반으로 오브젝트 분류를 수행하는 단계를 포함할 수 있다.

형상 학습을 위한 방법 방법을 상기 형상 학습 시스템에 실행시키기 위해 비-일시적인 컴퓨터 판독가능한 기록 매체에 저장되는 컴퓨터 프로그램을 포함할 수 있다.

형상 학습 시스템은, 3차원 형상 데이터에서 측지 특징 및 기하학적 특징을 추출하는 특징 추출부; 및 상기 3차원 형상 데이터를 구성하는 면을 기준으로 상기 추출된 측지 특징 및 상기 추출된 기하학적 특징에 대한 컨볼루션 연산을 통해 오브젝트를 분류하는 오브젝트 분류부를 포함할 수 있다.

상기 형상 학습 시스템은, 설명 가능한 3차원 형상 학습을 위한 컨볼루션 기반의 신경망 모델을 이용하여 상기 3차원 형상 데이터로부터 오브젝트를 분류한 결과를 시각화할 수 있다.

3차원 형상 데이터에서 측지 특징 및 기하학적 특징을 추출하고, 3차원 형상 데이터를 구성하는 면을 기준으로 추출된 측지 특징 및 추출된 기하학적 특징에 대한 컨볼루션 연산을 수행함으로써 오브젝트 분류 성능을 향상시킬 수 있다.

설명 가능한 3차원 형상 학습을 위한 컨볼루션 기반의 신경망 모델을 통해 모델의 변형없이 추론 결과를 시각화할 수 있다.

도 1은 일 실시예에 있어서, 형상 학습 시스템의 구성을 설명하기 위한 블록도이다.
도 2는 일 실시예에 있어서, 형상 학습을 위한 방법을 설명하기 위한 흐름도이다.
도 3은 일 실시예에 있어서, 설명 가능한 모델의 동작을 설명하기 위한 도면이다.
도 4는 대상 면과 이웃 면 사이의 측지 경로를 설명하기 위한 도면이다.
도 5는 일 실시예에 있어서, 대상 면과 이웃 면 사이의 기하학적 관계를 설명하기 위한 도면이다.
도 6은 일 실시예에 있어서, 설명 가능한 모델의 컨볼루션 레이어의 구조를 설명하기 위한 도면이다.
도 7 내지 도 10은 일 실시예에 있어서, 설명 가능한 모델의 결과를 설명하기 위한 예이다.

이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.

도 1은 일 실시예에 있어서, 형상 학습 시스템의 구성을 설명하기 위한 블록도이고, 도 2는 일 실시예에 있어서, 형상 학습을 위한 방법을 설명하기 위한 흐름도이다.

형상 학습 시스템(100)의 프로세서는 특징 추출부(110) 및 오브젝트 분류부(120)를 포함할 수 있다. 이러한 프로세서의 구성요소들은 형상 학습 시스템에 저장된 프로그램 코드가 제공하는 제어 명령에 따라 프로세서에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. 프로세서 및 프로세서의 구성요소들은 도 2의 형상 학습을 위한 방법이 포함하는 단계들(210 내지 220)을 수행하도록 형상 학습 시스템을 제어할 수 있다. 이때, 프로세서 및 프로세서의 구성요소들은 메모리가 포함하는 운영체제의 코드와 적어도 하나의 프로그램의 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다.

프로세서는 형상 학습을 위한 방법을 위한 프로그램의 파일에 저장된 프로그램 코드를 메모리에 로딩할 수 있다. 예를 들면, 형상 학습 시스템에서 프로그램이 실행되면, 프로세서는 운영체제의 제어에 따라 프로그램의 파일로부터 프로그램 코드를 메모리에 로딩하도록 형상 학습 시스템을 제어할 수 있다. 이때, 특징 추출부(110) 및 오브젝트 분류부(120) 각각은 메모리에 로딩된 프로그램 코드 중 대응하는 부분의 명령을 실행하여 이후 단계들(210 내지 220)을 실행하기 위한 프로세서의 서로 다른 기능적 표현들일 수 있다.

단계(210)에서 특징 추출부(110)는 3차원 형상 데이터에서 측지 특징 및 기하학적 특징을 추출할 수 있다. 그래프 이론에서 측지 정보는 두 노드 간의 거리를 두 점을 잇는 최단 경로로 표현된다. 3차원 형상 데이터에서 이웃한 면(이하, '이웃 면'으로 기재)에 대해서는 동일한 노드와 엣지를 가지기 때문에 동일한 측지 정보를 갖게 된다. 만약, 데이터가 벡터 공간 상에 표현될 수 있다면, 노드와 엣지를 벡터로 표현하여 연산이 수행될 수 있다. 노드와 엣지를 벡터로 표현하여 연산한다는 점을 이용하여 설계된 연산 방법으로 측지 컨볼루션이 존재하지만, 노드와 엣지의 순서에 따라 불안정한 결과가 나올 수 있다. 이에, 특징 추출부(110)는 순서 불변 커널 매핑(Order-Invariant Kernel Mapping)을 이용하여 3차원 형상 데이터로부터 측지 특징을 추출할 수 있다. 특징 추출부(110)는 대상 면과 주변 면의 노드 및 엣지의 정보를 순서에 상관없이 연산함으로써 공간 정보를 손실 없이 측지 특징을 추출할 수 있다. 또한, 특징 추출부(110)는 대상 면과 주변 면의 위치 및 방향을 토대로 3차원 형상 데이터로부터 기하학적 특징을 추출할 수 있다. 특징 추출부(110)는 대상 면과 주변 면 사이의 거리 비율 및 사이각 정보에 기초하여 순서에 상관없는 연산을 수행함으로써 데이터 크기에 의존하지 않고 강인한 결과를 획득할 수 있다.

단계(220)에서 오브젝트 분류부(120)는 3차원 형상 데이터를 구성하는 면을 기준으로 추출된 측지 특징 및 추출된 기하학적 특징에 대한 컨볼루션 연산을 통해 오브젝트를 분류할 수 있다. 오브젝트 분류부(120)는 면 단위 연산을 통해 대상 면과 이웃 면의 정보를 통합할 수 있다. 오브젝트 분류부(120)는 1차원 컨볼루션 연산을 사용하여 2차원 이미지 분류 문제에서 사용하는 모델 설명 기법을 적용할 수 있다.

도 3은 일 실시예에 있어서, 설명 가능한 모델의 동작을 설명하기 위한 도면이다.

3차원 형상 데이터는 컴퓨터 그래픽에서 활발히 사용되는 데이터이다. 그러나, 데이터의 불규칙한 특징으로 인해 신경망으로 학습하는 것은 어렵다. 3차원 형상 데이터를 단순한 구조로 변환하여 처리하는 기술은 공강 정보 손실로 인해 신경망의 추론을 설명하기 어렵다. 실시예에서는 3차원 형상 데이터의 측지 및 기하학적 특성을 감지하면서 동시에 공간 정보를 유지하는 설명 가능한 모델(ExMeshCNN)(300)을 통해 효율적으로 데이터를 처리하고 설명을 시각화하고자 한다.

설명 가능한 모델(300)은 설명 가능한 3차원 형상 학습을 위한 컨볼루션 기반의 신경망 모델을 의미한다. 설명 가능한 모델(300)은 기술자 레이어(310) 및 컨볼루션 레이어(320)로 구성될 수 있다. 기술자 레이어(310)는 3차원 형상 데이터에서 각 대상 면과 인접 면을 이용하여 측지 특징을 추출하는 측지 기술자(311)와, 3차원 형상 데이터에서 각 대상 면과 인접 면을 이용하여 기하학적 특징을 추출하는 기하학적 기술자(312)를 포함할 수 있다. 컨볼루션 레이어(320)는 추출된 측지 특징 및 기하학적 특징을 이용하여 컨볼루션 연산을 수행할 수 있다.

설명 가능한 모델(300)의 첫 번째 레이어에서는 학습 가능한 엣지 기반 측지 기술자(311)와 면 기반 기하학적 기술자(312)를 장착하여 1D-CNN 연산으로 구현되는 면에서 상위 수준의 특징을 획득할 수 있다. 그런 다음, 면별 컨볼루션을 수행하는 컨볼루션 레이어(320)에서는 기술자 레이어(310)를 따르며, 이웃 면 내의 지역 특징을 학습하는 것을 목표로 한다. 마지막으로 GAP 연산과 소프트맥스(softmax) 레이어는 출력을 로짓(logit)으로 만든다. 결과적으로 설명 가능한 모델(300)은 입력에서 출력까지 공간 정보를 유지하면서 종단 간 방식으로 메시를 학습함으로써 입력 속성 방법을 적용하여 모델 해석 가능성을 허용한다.

형상 학습 시스템은 설명 가능한 모델(300)을 이용하여 3차원 형상 데이터로부터 오브젝트를 분류할 수 있다. 이때, 3차원 형상 데이터는 노드, 엣지, 면이 불규칙한 구조로 되어 있기 때문에 신경망 모델의 입력으로 넣을 수 없다. 이에, 형상 학습 시스템은 데이터 전처리 과정을 수행할 수 있다. 구체적으로, 형상 학습 시스템은 3차원 형상 데이터에 대하여 각 면을 단위로 인접한 3개의 면에 대한 식별 정보를 리스트 형태로 생성할 수 있다. 형상 학습 시스템은 식별 정보를 통해 각 면의 노드 및 엣지에 대한 정보를 획득할 수 있도록 데이터 구조를 생성할 수 있다.

도 4는 일 실시예에 있어서, 대상 면과 이웃 면 사이의 측지 경로를 설명하기 위한 도면이다.

형상 학습 시스템은 3차원 형상 데이터에서 측지 특징 및 기하학적 특징을 추출하고, 3차원 형상 데이터를 구성하는 면(face)를 기준으로 컨볼루션 연산을 통해 오브젝트를 분류할 수 있다. 또한, 형상 학습 시스템은 2차원 이미지 분류 모델을 설명하는 일반적인 기법을 차원에서도 쉽게 적용할 수 있도록 설계하여 모델의 행동을 설명할 수 있다.

보다 상세하게는, 기술자 레이어는 메시를 구성하는 면에서 측지 특징 및 기하학적 특징을 마이닝하려고 시도하는 첫 번째 레이어이다. 여기서, 측지 특징 및 기하학적 특징을 캡쳐하기 위해 두 가지 유형의 학습 가능한 기술자가 제안될 수 있다.

측지 기술자의 목표는 기존 메쉬 기반 모델이 두 면 사이의 측지 관계를 정의하는데 어려움으로 인해 종종 무시되었던 면의 측지 지역 특징을 추출하는 것이다. 일반적으로 두 정점(꼭지점) 사이의 측지 거리는 두 정점을 연결하는 최단 경로 상의 엣지 수로 정의된다. 형상 학습 시스템은 면 수준(level)에서 특징 추출 및 컨볼루션을 수행하는 것이기 때문에 측지 거리를 사용하여 면 간의 관계를 나타낼 수 있다. 그러나, 단순히 면 사이에 측지 거리를 적용할 때의 문제를 해결하기 위해 측지 기술자를 도입하기로 한다.

대상 면을 이라고 하자. 그런 다음 와 인접한 면 사이의 측지 관계를 추정하기 위해 에 정렬된 정점과 엣지를 고려한다. 의 중심점을 라고 하고, 의 세 정점들 중 어느 하나를 j∈{1, 2, 3}인 라고 하자. 그리고 나서, 와 사이의 관계를 라 한다. 또한, (k∈1, 2)가 에 속하는 정점을 제외하고, 의 인접 면 중에서 와 함께 측지적으로 연결된 정점이라고 하자. 와 사이의 관계를 의미하는 를 나타낸다. 결국, 대상 면 과 그 이웃 면(즉, )사이의 측지 거리는 의 중심점 와 에 속하는 정점 사이의 최단 경로 상의 엣지 수가 된다.

그러나, 한 가지 문제가 발생될 수 있다. 도 4와 같이, 와 인접 면들은 최단 경로 길이가 2와 같다. 예를 들면, 중심점 와 및 중심점 와 사이의 측지 경로의 최단 경로 길이는 2이며, 실제로는 다른 모든 경우에 동일하다. 결국, 측지 거리는 면 특징으로 차별적이고 의미있는 정보를 포함하지 않을 것이다. 측지 거리에 대한 대안으로, 경로의 곡률을 추가로 고려하여 특징을 추출할 수 있는 측지 컨볼루션이 고려될 수 있다. 이는 길이가 동일하더라도 최단 경로(예를 들면, 도 1에 나타난 경로 1 및 경로 2)의 곡률에 따라 달라지기 때문에 전술한 문제를 해결할 수 있다. 측지 컨볼루션에 있어서, 정점 의 법선 벡터는 중심점 에서 까지의 경로의 중간에 위치하며 곡률을 고려하는 하기 위해 필요하다. 법선 벡터 는 정점 를 둘러쌓인 면들의 법선 벡터를 평균하여 간단히 구할 수 있다.

불행하게도, 측지 경로의 측지 컨볼루션에는 순서가 정해져 있지 않은 특성으로 인해 약간의 모호성이 존재한다. 예를 들면, 도 4와 같이, 는 서로 이웃하는 2개의 정점 와 를 가지며, ()과 ()를 경로를 생성한다. 이때, 두 경로의 순서가 정의되어 있지 않기 때문에, 두 경로를 포함하는 컨볼루션 연산의 결과는 매번 다를 수 있다.

이러한 문제를 해결하기 위해, 측지 거리와 측지 컨볼루션 대신 를 특징 공간에 매핑하는 다음의 기술자가 제안될 수 있다.

수학식 1:

여기서, 는 대상 면과 그 3개의 위상 이웃 면의 인덱스를 포함한다. j는 세 개의 이웃 면의 인덱스이다. 텀는 순서와 상관없이 두 경로 사이의 상대적인 관계를 나타낸다. , 및 의 각각은 학습 가능한 파라미터이며, 1-D CNN의 필터와 동일하다. 표준 1-D CNN 형식을 따라 측지 기술자를 구현하기 때문에 설명 가능한 모델(ExMeshCNN)은 입력에서 끝까지 공간 정보를 보유할 수 있으므로 이후 입력 속성 방법으로 작업하기에 적합하다.

도 5는 일 실시예에 있어서, 대상 면과 이웃 면 사이의 기하학적 관계를 설명하기 위한 도면이다.

메시 데이터의 면에 널리 사용되는 기하학적 특징에는 면의 법선 벡터, 중심 및 모서리 각도가 포함된다. 그러나, 이것들은 다소 휴리스틱하고 낮은 수준의 특징이기 때문에 높은 수준의 표현을 자동으로 캡쳐할 수 있는 학습 가능한 기술자가 제안될 수 있다.

의 위치를 나타내는 중심점은 이고, 그 이웃 면의 중심점은 이라고 하자. 이 경우, 와 사이의 유클리드 거리는 낮은 수준의 특징일 수 있다. 다음으로, 의 법선 벡터 와 인접 면의 법선 벡터 로부터 두 면 사이의 각도를 획득하기 위해 교차곱 ×가 계산될 수 있으며, 이는 또 다른 낮은 수준의 특징일 수 있다. 낮은 수준의 특징 외에도 다음과 같은 커널 매핑을 이용하여 높은 수준의 특징이 획득될 수 있다.

수학식 2:

여기서, 는 가우시안처럼 임의의 커널 함수이고, 는 파라미터들의 셋을 의미한다. 위의 커널은 유클리드 거리와 대상 면과 인접 면 사이의 각도를 고려한다. 그러나, 대상 면과 세 개의 인접 면의 순서가 정해져 있지 않은 특성으로 인해 유사한 모호성이 발생하며, 이는 동일한 면 셋이 포함되더라도 다른 결과를 초래하게 된다.

따라서, 순서에 영향을 받지 않는 다음과 같은 기술자가 제안될 수 있다.

수학식 3:

여기서, j는 인접 면의 인덱스를 나타내며, 는 학습 가능한 파라미터들의 셋이며, 이는 1D-CNN의 필터와 같다. 처음 두 항은 대상 면의 위치와 방향을 학습하고, 나머지 두 항은 기하학적 거리와 각도의 관점에서 대상 면과 이웃 간의 관계에 초점을 맞춘다.

요약하자면, 설명 가능한 모델(ExMeshCNN)의 첫 번째 레이어는 각 대상 면 과 인접 면에서 1D 컨볼루션 연산으로 구현되는 측지 기술자와 기하학적 기술자(와 )로 구성된다. 다음과 같이, 두 기술자의 결과를 연결하여 다음 컨볼루션 레이어에 입력될 수 있다.

수학식 4:

여기서, 는 각 면에 대한 특징 벡터이다.

도 6은 일 실시예에 있어서, 설명 가능한 모델의 컨볼루션 레이어의 구조를 설명하기 위한 도면이다.

N을 입력 메시를 구성하는 면의 수라고 하자. 기술자 레이어를 통과한 후, 메시를 면 특징 벡터 로 구성된 행렬로 표현될 수 있다. 를 면 특징 벡터(또는 다음 CNN의 입력 채널 수)의 차원으로 정의한다. 그러면, 행렬의 크기는 N×C₁이다.

다음으로, 설명 가능한 모델에 기술자 레이어의 출력이 통과할 일련의 1D-CNN 레이어가 설계될 수 있다. 각 레이어에 대해 입력 행렬은 두 가지 유형의 특징 벡터 와 의 조합으로 확장될 수 있다. 구체적으로, 와 는 다음과 같이 정의될 수 있다.

수학식 5:

여기서, 는 를 그대로 계승하는 특징 벡터이고, 는 i번째 면과 그 이웃 사이의 관계를 집계하는 특징 벡터이고, 세 이웃의 순서에 영향을 받지 않도록 설계될 수 있다. j는 인접 면의 인덱스를 나타낸다. 여기서, 룩업 테이블 는 각 면(한 개의 대상 면과 세 개의 인접 면)에 대한 네 개의 특징 벡터를 효율적으로 집계하기 위해 활용될 수 있다. 그 결과, 입력 행렬의 크기가 일시적으로 N×C에서 2N×C로 증가하였으며, 여기서 C는 임의의 CNN 레이어의 입력 채널 수에 해당한다.

다음으로, 위의 입력 형태에 특화된 1-D 컨볼루션이 수행될 수 있다. 을 임의의 컨볼루션 필터라고 하자. 여기서, 각 필터 활성화 는 다음과 같이 계산될 수 있다.

수학식 6:

여기서, 1-D 컨볼루션 은 각각 와 로 파라미터화되고 각각 와 에만 초점을 맞춘 두 개의 커널을 포함한다. 각 커널의 결과는 활성화 출력을 만들기 위해 추가된다. 따라서, 컨볼루션의 윈도우 크기는 2가 된다. 하나는 에 대해서 하는 에 대해서이다. 그리고, 스트라이드를 2로 설정하여 1-D 컨볼루션을 면별 방식으로 수행하게 된다. 이에, 컨볼루션은 면 순서에 영향을 받지 않는다.

이러한, 방법으로 각 l번째 레이어는 입력 (N×C_l) 크기를 소비하며, 이 입력을 크기 (2N×C_l)로 확장한 다음 1-D 컨볼루션 필터를 통해 출력의 (2N×C_l+1) 크기로 변환한다. 그 결과, 각 레이어마다 채널 수는 바뀌지만 너비는 면의 수인 N과 동일하게 유지된다. 이 메커니즘을 통해 의사결정을 위한 각 면의 돌출을 쉽게 이해할 수 있다.

마지막 CNN 레이어에서 출력 채널의 수는 클래스 K의 수와 같아야 한다. 그런 다음, GAP(Global Average Pooling) 연산을 수행하여 각 클래스에 대한 점수가 획득될 수 있으며, 마지막으로 점수를 기반으로 분류가 이루어질 수 있다. GAP는 정확도를 유지하면서 파라미터 수를 크게 줄이는 데 도움이 될 뿐만 아니라 분류에 대한 각 면의 기여를 더 쉽게 역투영한다.

도 7 내지 도 10은 일 실시예에 있어서, 설명 가능한 모델의 결과를 설명하기 위한 예이다.

설명 가능한 모델의 구조는 면 수준의 컨볼루션과 입력 면의 수를 보존하는 최종 GAP 연산으로 볼 수 있다. 3차원 메시 데이터에 대해 전문화되지 않았음에도 불구하고 기존의 시각적 속성 방법과 협업하여 분류에 대한 두드러진 표현을 강조할 수 있다. 도 7 내지 도 10에서는 Layer-wise Relevance Propagation(LRP) and Gradient-weighted Class Activation Mapping(Grad-CAM)와 같은 대표적인 시각적 속성 방법을 설명 가능한 모델에서 어떻게 작동하는지 보여주기로 한다.

우선적으로 LRP에 대하여 설명하기로 한다. LRP는 분해 전략에 의한 설명을 채택한다. 모델의 최종 출력을 관련성 점수로 간주한 다음 출력 레이어에서 입력 레이어로 관련성 점에 대한 각 뉴런의 기여를 역전파한다. 이때, 각 레이어에 속하는 뉴런의 기여도의 합은 모든 레이어에 대해 동일해야 한다는 제약이 있다. LRP를 적용하기 위하여 관련성 은 다음과 같이 소프트맥스 출력으로 할당될 수 있다.

수학식 7:

여기서, L은 마지막 소프트맥스 레이어를 나타내고, 는 번째 클래스에 대한 출력 로짓(logit)이다. 는 이전 레이어에 분포하며, 의 값은 모든 레이어에 보존된다. 또한, 각 뉴런의 기여도가 음의 값을 가질 수 없다는 제약을 유지하기 위해 LRP를 수행할 때 컨볼루션에서 다음과 같은 작은 수정을 가한다.

수학식 8:

각 레이어 l에 대해 다음과 같이 분해가 진행될 수 있다.

수학식 9:

여기서, i는 번째 레이어에서 채널을 인덱스하고, 는 번째 채널이 연결된 모든 상위 레이어 채널에서 실행된다. 는 이전 레이어의 출력 특징 맵을 나타낸다. 이러한 방식으로, 출력에서의 관련성 의 점수의 합을 보존하면서 각 레이어에 속하는 뉴런에 재분배될 수 있다.

마지막으로, 첫 번째 기술자 레이어에서 다음과 같이 각각 로 표시된 면 수준 관련성 점수에 관련성을 분배할 수 있다.

수학식 10:

이제, i는 면을 인덱스하고, 는 의 낮은 수준 특징을 나타낸다. 모든 면의 관련성 점수가 집계됨으로써 해당 예측에 대한 각 면의 상대적 기여가 시각화될 수 있다.

다음으로, Grad-CAM에 대하여 설명하기로 한다. LRP가 출력의 관련성 점수를 입력 공간으로 재분배하려고 하는 동안 Grad-CAM은 마지막 레이어의 정보에 초점을 맞춘다. 구체적으로, 최종 컨볼루션 레이어로 흐르는 클래스별 그레디언트를 계산한 다음 입력의 중요한 영역을 나타내는 대략적인 지역화(localization) 맵이 생성될 수 있다.

∈이 마지막 CNN 레이어에서 번째 채널의 특징 맵이라고 하자. 그러면, 각 클래스 c에 대한 뉴런 중요도 가중치 는 다음과 같이 계산될 수 있다.

이는 대상 클래스 c에 대한 k번째 채널의 특징 맵의 중요성을 캡쳐한다. 는 GAP 연산을 의미한다. 특징 맵 N의 크기는 면의 수와 같음에 유의한다.

마지막으로, 로 표현되는 대상 클래스 c에 대한 크기 N의 클래스 차별적 지역화 맵은 다음과 같이 계산될 수 있다.

수학식 11:

여기서, ReLU는 클래스 c에 대한 긍적적인 효과만을 고려하기 위해 사용된다. 설명 가능한 모델은 표준 완전 연결 레이어없이 1D-CNN과 GAP 연산으로 구성됨으로 Grad-CAM을 수정없이 모델에 직접 적용할 수 있다. 클래스 차별적 지역화 맵의 크기와 면 수가 동일한 N이기 때문에 중요도 점수를 입력 면에 역투영하기 쉽다.

실시예에 따르면, 설명 가능한 모델의 분류 정확도를 평가하기 위한 데이터 셋으로 ModelNet40, Manifold40, SHREC11, Cube를 사용하고, 세그멘테이션 성능을 평가하기 위한 데이터 셋으로 COSEG가 사용될 수 있다. Manifold40는 ModelNet40의 2-Manifold 조건이 가해진 데이터 셋이며, SHREC11은 훈련 데이터를 각각 10, 16으로 설정하여 테스트하는 작은 데이터 셋이다. Cube는 육면체의 한 면에 얇게 오브젝트를 깎아 놓은 형태의 데이터 셋이다.

표 1 내지 표 4는 각 데이터 별 모델의 성능을 나타낸 것이다. 표 1과 표 2는 기존 모델과의 분류 성능을 비교한 표이고, 표 3은 기존 모델과의 세그멘테이션 성능을 비교한 표이고, 표 4는 기존 모델과의 파라미터 수를 비교한 표이다.

실시예에서 제안된 방법의 성능을 기존의 방법과 비교하기 위해 유사한 방법을 사용한 그래프, 메시 기반의 모델과 비교될 수 있다. 실험 결과로 알 수 있듯이, 실시예에서 제안된 방법은 다른 기존의 방법에 비해 여러 데이터 셋에서 높은 정확도를 보인다. 또한, 세그멘테이션에서도 높은 정확도를 보인다. 실시예에서 제안된 모델은 아래 표에 기술된 모델 중에서 가장 가벼운 모델임에도 불구하고 우수한 성능을 보임을 확인할 수 있다.

표 1:

표 2:

표 3:

표 4:

도 7 내지 도 10은 2차원 이미지 분류 모델을 설명할 때 일반적으로 사용하는 LRP와 Grad-CAM을 설명 가능한 모델에 적용한 결과를 나타낸 것이다. 기존의 방법은 설명 기법을 적용하기 위해 모델을 전반적으로 변형하거나 추가적인 방법론이 사용되지만, 실시예에서는 아무런 변화 없이도 설명 기법을 사용하여 모델의 추론 결과를 설명할 수 있다. 도 7 내지 도 10에서 각 이미지의 빨간색은 모델 추론 결과에 중요한 부분을 표시한 것이다.

도 7은 훈련된 설명 가능한 모델에서 LRP를 수행하여 얻은 결과를 나타내며 도 8은 설명 가능한 모델에서 Grad-CAM을 적용한 결과를 나타낸 것이다. 또한, 도 9와 도 10은 3차원 메시에 표시된 모든 표면 돌출을 관찰하기 위해 동일한 메시를 다양한 각도로 회전한 결과를 나타낸 것이다. 설명 가능한 모델이 최종 결정을 내리기 위해 몇 가지 차별적 특징을 학습하고 LRP와 Grad-CAM이 특징들을 성공적으로 캡처했다는 것을 다시 한 번 확인할 수 있다. 예를 들어, 아래에서 자동차를 관찰할 때 바퀴가 중요한 특징임을 알 수 있고, 정면에서 보면 자동차의 앞유리도 중요하다는 것을 알 수 있다. 침대의 경우, 프레임과 지저분한 이부자리 등이 중요한 특징으로 꼽히지만 침대의 평평한 바닥은 고려되지 않는 것으로 보인다. 결과적으로, 설명 가능한 3 모델은 메시 데이터에서 클래스 차별적 특징을 잘 포착하며, 설명 가능한 모델에서 LRP 및 Grad-CAM을 수행하여 쉽게 시각화할 수 있음을 확인할 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

형상 학습 시스템에 의해 수행되는 형상 학습을 위한 방법에 있어서,
3차원 형상 데이터에서 측지 특징 및 기하학적 특징을 추출하는 단계; 및
상기 3차원 형상 데이터를 구성하는 면을 기준으로 상기 추출된 측지 특징 및 상기 추출된 기하학적 특징에 대한 컨볼루션 연산을 통해 오브젝트를 분류하는 단계
를 포함하는 형상 학습을 위한 방법.
제1항에 있어서,
설명 가능한 3차원 형상 학습을 위한 컨볼루션 기반의 신경망 모델을 이용하여 상기 3차원 형상 데이터로부터 오브젝트를 분류한 결과를 시각화하는 단계
를 더 포함하는 형상 학습을 위한 방법.
제2항에 있어서,
상기 설명 가능한 3차원 형상 학습을 위한 컨볼루션 기반의 신경망 모델은,
상기 3차원 형상 데이터에서 각 대상 면과 인접 면을 이용하여 측지 특징 및 기하학적 특징을 추출하는 기술자 레이어와, 상기 추출된 측지 특징 및 기하학적 특징을 이용하여 컨볼루션 연산을 수행하는 컨볼루션 레이어로 구성된 것을 특징으로 하는 형상 학습을 위한 방법.
제1항에 있어서,
상기 3차원 형상 데이터는, 상기 3차원 형상 데이터를 구성하는 노드, 엣지 및 면이 불규칙한 구조로 구성된 것을 특징으로 하는 형상 학습을 위한 방법.
제1항에 있어서,
상기 추출하는 단계는,
상기 3차원 형상 데이터를 구성하는 면에 대하여 각 면을 단위로 인접한 복수 개의 면에 대한 식별 정보를 리스트 형태로 구성하고, 상기 리스트 형태로 구성된 식별 정보를 통해 각 면의 노드 및 엣지에 대한 정보를 획득하도록 데이터 구조를 생성하는 단계
를 포함하는 형상 학습을 위한 방법.
제1항에 있어서,
상기 추출하는 단계는,
순서 불변 커널 매핑(Order-Invariant Kernel Mapping)을 이용하여 3차원 형상 데이터로부터 측지 특징을 추출하는 단계
를 포함하는 형상 학습을 위한 방법.
제1항에 있어서,
상기 추출하는 단계는,
상기 3차원 형상 데이터에서 대상 면과 주변 면의 위치 및 방향에 기초하여 기하학적 특징을 추출하는 단계
를 포함하는 형상 학습을 위한 방법.
제7항에 있어서,
상기 추출하는 단계는,
상기 3차원 형상 데이터에서 대상 면과 주변 면 사이의 거리 비율 및 사이각 정보에 기초하여 기하학적 특징을 추출하는 단계
를 포함하는 형상 학습을 위한 방법.
제1항에 있어서,
상기 분류하는 단계는,
상기 측지 특징 및 기하학적 특징을 통합한 각 면에 대한 특징 벡터를 컨볼루션 레이어에 입력하는 단계
를 포함하는 형상 학습을 위한 방법.
제9항에 있어서,
상기 분류하는 단계는,
상기 각 면에 대한 특징 벡터에 기초하여 각 면을 계승하는 특징 벡터와, 상기 특정 면과 특정 면의 인접 면 사이의 관계를 집계하는 특징 벡터를 이용하여 1차원 컨볼루션을 수행하는 단계
를 포함하는 형상 학습을 위한 방법.
제10항에 있어서,
상기 추출하는 단계는,
상기 수행된 1차원 컨볼루션을 통해 면의 수가 유지되도록 결과가 출력됨에 따라 GAP(Global Average Pooling) 연산을 수행하여 각 클래스에 대한 점수를 획득하고, 상기 획득된 점수를 기반으로 오브젝트 분류를 수행하는 단계
를 포함하는 형상 학습을 위한 방법.
제1항 내지 제11항 중 어느 한 항의 형상 학습을 위한 방법 방법을 상기 형상 학습 시스템에 실행시키기 위해 비-일시적인 컴퓨터 판독가능한 기록 매체에 저장되는 컴퓨터 프로그램.
형상 학습 시스템에 있어서,
3차원 형상 데이터에서 측지 특징 및 기하학적 특징을 추출하는 특징 추출부; 및
상기 3차원 형상 데이터를 구성하는 면을 기준으로 상기 추출된 측지 특징 및 상기 추출된 기하학적 특징에 대한 컨볼루션 연산을 통해 오브젝트를 분류하는 오브젝트 분류부
를 포함하는 형상 학습 시스템.
제13항에 있어서,
상기 형상 학습 시스템은,
설명 가능한 3차원 형상 학습을 위한 컨볼루션 기반의 신경망 모델을 이용하여 상기 3차원 형상 데이터로부터 오브젝트를 분류한 결과를 시각화하는 것을 특징으로 하는 형상 학습 시스템.