WO2023163356A1

WO2023163356A1 - 딥러닝 기반 피쳐 맵 압축 효율 향상을 위한 방법

Info

Publication number: WO2023163356A1
Application number: PCT/KR2022/021454
Authority: WO
Inventors: 심동규; 권나성
Original assignee: 광운대학교 산학협력단
Priority date: 2022-02-25
Filing date: 2022-12-28
Publication date: 2023-08-31

Abstract

본 발명은 딥러닝 기반 피쳐 맵 압축 효율 향상을 위한 방법일 수 있다. 선택적으로 부호화기에서 피쳐 맵을 전송할 수 있고, 심층 신경망 네트워크를 이용하여 전송된 피쳐 맵의 화질을 복원한 후, 전송하지 않은 피쳐 맵을 예측하여 생성할 수 있다.

Description

딥러닝 기반 피쳐 맵 압축 효율 향상을 위한 방법

본 발명은 영상에서 추출된 피쳐 맵을 부호화/복호화하는 방법에 관한 것으로, 부호화 과정에서 발생한 압축 손상을 감소시키는 뉴럴 네트워크 및 송신 엣지에서 전송하지 않은 피쳐 맵을 예측/생성하는 뉴럴 네트워크를 포함하는 복호화 구조를 제안한다.

딥러닝을 활용한 심층 신경망이 적용되는 산업 분야가 확장됨에 따라 심층 신경망을 산업 기계에 적용하는 경우가 증가하고 있다. 기계 간 통신을 활용한 응용에 사용하기 위해 인간의 시각적 특성뿐만 아니라 기계 내에 있는 심층 신경망에서 중요하게 작용하는 특성을 고려한 압축 방법이 활발히 연구되고 있다.

딥러닝 분야가 발전함에 따라 영상에서 객체 탐지를 위한 연구가 활발히 진행되고 있다. 객체 탐지를 수행할 때, 객체의 크기에 상관없이 동일한 탐지 결과를 요구하므로 영상 내에서 객체의 크기에 대한 강인성이 요구된다. 이에 따라 크기에 대한 강인성을 갖기 위해 피쳐 피라미드 네트워크(FPN; Feature Pyramid Network) 구조가 네트워크의 특징 추출기 역할을 수행하여 다양한 해상도의 피쳐 맵을 출력한다.

피쳐 피라미드 네트워크 특성상 하나의 영상에 대해 계층별로 다해상도의 피쳐 맵을 출력하기 때문에 수신 엣지로 전송해야 하는 데이터양이 증가할 수 있다. 데이터양을 감소시키기 위해 부호화기에서 압축률을 높임으로써 데이터의 손상을 야기시킬 수 있다. 이로 인해 수신 엣지에서 수행되는 머신 태스크의 성능이 저하될 수 있다. 따라서 적은 양의 데이터를 선택적으로 전송할 수 있는 기술과 동시에 전송된 피쳐 맵의 압축 손상을 감소시키는 기술이 요구된다.

본 발명의 실시예들에 따른 과제는 전술한 문제점을 해결하기 위한 시스템 및 방법을 제안한다.

또한, 본 발명의 실시예들에 따른 과제는 피쳐 피라미드의 효과적인 전송을 위한 방법을 제안한다.

본 발명은 딥러닝 기반 피쳐 맵 압축 효율 향상을 위한 방법일 수 있다. 선택적으로 부호화기에서 피쳐 맵을 전송할 수 있고, 심층 신경망 네트워크를 이용하여 전송된 피쳐 맵의 화질을 복원한 후, 전송되지 않은 피쳐 맵을 예측하여 생성할 수 있다.

구체적으로, 본 발명에 따른 신경망 기반 피쳐 맵(feature map) 복호화 방법 및 장치는 비트스트림으로부터 피쳐 맵 그룹을 복호화하고, 상기 복호화된 피쳐 맵 그룹에 대하여 역 패킹을 수행함으로써 상기 나머지 피쳐 맵들을 획득하고, 상기 나머지 피쳐 맵들 중 적어도 하나의 피쳐 맵에 기초하여 상기 스킵된 피쳐 맵을 생성하고, 상기 나머지 피쳐 맵들 및 상기 스킵된 피쳐 맵에 기초하여 최종 피쳐 맵을 복원할 수 있다.

본 발명에 따른 신경망 기반 피쳐 맵 복호화 방법 및 장치에 있어서, 상기 피쳐 맵 그룹은 시그널링이 스킵(skip)된 피쳐 맵을 제외한 나머지 피쳐 맵들을 포함할 수 있다.

본 발명에 따른 신경망 기반 피쳐 맵 복호화 방법 및 장치에 있어서, 상기 스킵된 피쳐 맵 및 상기 나머지 피쳐 맵들은 하나의 계층 구조 내에서 각각 서로 다른 해상도를 가질 수 있다.

본 발명에 따른 신경망 기반 피쳐 맵 복호화 방법 및 장치에 있어서, 상기 피쳐 맵 그룹을 복호화하는 단계는, 상기 비트스트림으로부터 피쳐 맵 그룹 헤더 정보를 복호화 하는 단계를 포함할 수 있다.

본 발명에 따른 신경망 기반 피쳐 맵 복호화 방법 및 장치에 있어서, 상기 피쳐 맵 그룹 헤더 정보는 상기 나머지 피쳐 맵들 각각을 지시하기 위한 인덱스 정보, 상기 나머지 피쳐 맵들의 채널 크기 정보 또는 상기 나머지 피쳐 맵들의 부호화에 이용된 부호화기 종류 정보 중 적어도 하나를 포함할 수 있다.

본 발명에 따른 신경망 기반 피쳐 맵 복호화 방법 및 장치에 있어서, 상기 피쳐 맵 그룹 헤더 정보는 상기 나머지 피쳐 맵들의 채널 개수 정보 또는 데이터 정렬 방식 정보 중 적어도 하나를 더 포함할 수 있다.

본 발명에 따른 신경망 기반 피쳐 맵 복호화 방법 및 장치에 있어서, 상기 나머지 피쳐 맵들을 획득하는 단계는, 상기 피쳐 맵 그룹 내에서 미리 정의된 순서에 따라 피쳐 맵 인덱스가 정렬되어 2차원 패킹된 데이터를, 상기 채널 개수 또는 상기 데이터 정렬 방식 정보 중 적어도 하나에 기초하여 복수의 피쳐 맵들로 분리하여 역 정렬을 수행함으로써 상기 복호화된 피쳐 맵 그룹에 대하여 역 패킹이 수행될 수 있다.

본 발명에 따른 신경망 기반 피쳐 맵 복호화 방법 및 장치에 있어서, 상기 스킵된 피쳐 맵은 상기 획득된 나머지 피쳐 맵들 중에서 상기 스킵된 피쳐 맵의 인접 하위 계층의 피쳐 맵에 대하여 업샘플링을 수행함으로써 생성될 수 있다.

본 발명에 따른 신경망 기반 피쳐 맵 복호화 방법 및 장치에 있어서, 상기 스킵된 피쳐 맵을 생성하는 단계는, 상기 나머지 피쳐 맵들 중에서 상기 스킵된 피쳐 맵에 인접한 하위 계층의 피쳐 맵에 대하여 업샘플링을 수행하는 단계, 상기 나머지 피쳐 맵들 중에서 상기 스킵된 피쳐 맵에 인접한 상위 계층의 피쳐 맵에 대하여 다운샘플링을 수행하는 단계, 상기 업샘플링된 인접한 하위 계층의 피쳐 맵 및 상기 다운샘플링된 인접한 하위 계층의 피쳐 맵에 대하여 요소별 가중 합(element-wise weighted-summation)을 수행하는 단계를 포함할 수 있다.

본 발명에 따른 신경망 기반 피쳐 맵 복호화 방법 및 장치에 있어서, 상기 스킵된 피쳐 맵을 생성하는 단계는, 컨볼루션 레이어 및 GDN(Generalized Divisive Normalization) 레이어를 포함하는 피쳐 맵 예측 네트워크를 이용하여 수행될 수 있다.

본 발명에 따른 신경망 기반 피쳐 맵 복호화 방법 및 장치에 있어서, 상기 최종 피쳐 맵을 복원하는 단계는, 상기 나머지 피쳐 맵들 및 상기 스킵된 피쳐 맵 각각에 대하여 상기 최종 피쳐 맵과 동일한 해상도를 갖도록 업샘플링을 수행하는 단계, 상기 업샘플링된 나머지 피쳐 맵들 및 상기 업샘플링된 스킵된 피쳐 맵에 대하여 접합(concatenation) 연산을 수행하는 단계를 포함할 수 있다.

본 발명에 따른 신경망 기반 피쳐 맵 복호화 방법 및 장치에 있어서, 상기 나머지 피쳐 맵들 중 적어도 하나의 피쳐 맵에 대하여 화질 개선을 수행하는 단계를 더 포함하고, 상기 스킵된 피쳐 맵은 상기 화질 개선이 수행된 피쳐 맵을 이용하여 생성될 수 있다.

본 발명에 따른 신경망 기반 피쳐 맵 복호화 방법 및 장치에 있어서, 상기 화질 개선을 수행하는 단계는, 컨볼루션 레이어 및 GDN(Generalized Divisive Normalization) 레이어를 포함하는 피쳐 맵 화질 개선 네트워크를 이용하여 수행할 수 있다.

본 발명의 일 실시예에 따르면, 데이터를 선택적으로 전송함으로써 전송되는 데이터의 양을 줄이고 전송 효율을 높일 수 있다.

또한, 본 발명의 일 실시예에 따르면, 피쳐 맵의 압축 손상을 감소시킬 수 있다.

도 1은 본 발명의 일 실시예에 따른 피쳐 맵 추출 및 부호화 과정을 나타내는 도면이다.

도 2는 본 발명의 일 실시예에 따른 피쳐 피라미드 네트워크 구조도를 예시하는 도면이다.

도 3은 본 발명의 일 실시예에 따른 피쳐 맵 복원 과정을 나타내는 도면이다.

도 4는 본 발명의 일 실시예에 따른 피라미드 피쳐 맵 화질 개선 네트워크를 설명하기 위한 블록도이다.

도 5는 본 발명의 일 실시예에 따른 피라미드 피쳐 맵 예측 네트워크를 설명하기 위한 블록도이다.

도 6은 본 발명의 실시예에 따른 피라미드 피쳐 맵 예측 과정을 예시하는 도면이다.

본 개시의 신경망 기반 피쳐 맵(feature map) 복호화 방법에 있어서, 비트스트림으로부터 피쳐 맵 그룹을 복호화하는 단계로서, 상기 피쳐 맵 그룹은 시그널링이 스킵(skip)된 피쳐 맵을 제외한 나머지 피쳐 맵들을 포함하고, 상기 스킵된 피쳐 맵 및 상기 나머지 피쳐 맵들은 하나의 계층 구조 내에서 각각 서로 다른 해상도를 가짐, 상기 복호화된 피쳐 맵 그룹에 대하여 역 패킹을 수행함으로써 상기 나머지 피쳐 맵들을 획득하는 단계, 상기 나머지 피쳐 맵들 중 적어도 하나의 피쳐 맵에 기초하여 상기 스킵된 피쳐 맵을 생성하는 단계, 및 상기 나머지 피쳐 맵들 및 상기 스킵된 피쳐 맵에 기초하여 최종 피쳐 맵을 복원하는 단계를 포함할 수 있다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. ‘및/또는’ 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함한다" 또는 "가진다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.

본 발명의 일 실시예에서, 영상으로부터 피쳐 맵을 추출하고, 피쳐 맵 정보를 패킹한 후, 부호화하여 하나 또는 복수의 비트스트림을 생성하는 과정을 도 1을 참조하여 설명한다. 도 1에 도시된 프로세스는 영상 부호화 장치, 피쳐 맵 부호화 장치, 영상 전송 장치 등에 의해 수행될 수 있다. 본 실시예를 설명함에 있어서, 설명의 편의를 위해 영상 부호화 장치에 의해 수행되는 경우를 전제로 한다.

도 1을 참조하면, 영상 부호화 장치는 영상 전처리기, 피쳐 맵 추출기, 피쳐 맵 정보 패킹 수행기, 피쳐 맵 정보 부호화기를 포함할 수 있다. 영상 부호화 장치에 포함된 상술한 구성들은 각각 독립적인 별개 구성으로 구현될 수도 있고, 단일 구성으로 구현될 수도 있다.

영상 전처리기는, 입력 영상의 컬러 포맷 변환, 해상도 조정 등의 전처리를 수행할 수 있다. 예를 들어, 영상 전처리기는 영상의 컬러 포맷을 RGB, YUV 등으로 선택적으로 변환할 수 있다.

피쳐 맵 추출기는, 영상을 입력 받아 하나 또는 복수의 피쳐 피라미드 네트워크의 피쳐 맵을 출력할 수 있다. 다시 말해, 피쳐 맵 추출기는 피쳐 피라미드 네트워크 구조를 기반으로 입력 영상으로부터 피쳐 맵을 추출할 수 있다. 피쳐 피라미드 네트워크는 다중 레이어(multi-layer) 구조를 가지는 복수의 피쳐 맵을 생성하는 네트워크를 나타내며, 피쳐 피라미드 네트워크로부터 생성되는 피쳐 맵은 각각의 레이어 별로 서로 다른 해상도 또는 스케일을 가질 수 있다. 피쳐 피라미드 네트워크로부터 생성되는 피쳐맵은 피라미드 피쳐 맵으로 지칭될 수 있다.

피쳐 맵 정보 패킹 수행기는 영상으로부터 추출된 피쳐 피라미드 네트워크의 피쳐 맵(즉, 피라미드 피쳐 맵)을 하나 또는 복수의 피쳐 맵 그룹으로 군집화를 수행할 수 있다. 그리고, 피쳐 맵 정보 패킹 수행기는 군집화된 피쳐 맵 그룹 내 피쳐 맵에 대한 정렬을 수행할 수 있다.

도 2를 참조하면, 피라미드 피쳐 맵은 도 2에 도시된 바와 같은 피쳐 피라미드 네트워크를 통해 생성될 수 있다. 피쳐 피라미드 네트워크 구조는 복수의 컨벌루션 층(또는 레이어)으로 구성되어 있을 수 있고, 도 2의 예시와 같은 구조를 가질 수 있다. 일 예로서, 입력 영상의 크기가

이고, 피라미드 피쳐 맵의 층이 n이라고 할 때, 제n 피라미드 피쳐 맵의 크기는

일 수 있다. 이때, n의 범위는 0≤n＜N이고, N은 피쳐 피라미드 네트워크의 총 층의 개수를 의미할 수 있다.

도 2의 예시는 N=4인 피쳐 피라미드 네트워크의 구조도 예시이고, N은 컨벌루션 층 수에 따라 변경될 수 있다. 계층별(레이어별) 피라미드 피쳐 맵을 추출하는 과정에서, 상위 계층의 피라미드 피쳐 맵을 생성하기 위해 하위 계층의 피라미드 피쳐 맵과의 합 연산이 수행될 수 있다. 일 예로서, 상기 합 연산에 앞서 상기 하위 계층의 피라미드 피쳐 맵에 대한 업샘플링이 수행될 수 있다. 제n 피라미드 피쳐 맵은 제n+1 피라미드 피쳐 맵 대비 상위 계층으로 지칭될 수 있다. 최상위 계층은 도 2에서 제0 피라미드 피쳐 맵일 수 있다. 최상위 계층의 피쳐 맵은 상대적으로 가장 높은 해상도 또는 스케일을 가지는 피쳐 맵일 수 있다.

전술한 바와 같이, 피쳐 피라미드 네트워크 특성상 하나의 영상에 대해 계층별로 다해상도의 피쳐 맵을 출력하기 때문에 수신 엣지(또는 수신단)로 전송해야 하는 데이터양이 증가할 수 있다.

따라서, 본 발명의 실시예에서는, 피라미드 피쳐 맵을 선택적으로 전송하고, 전송되지 않은 피라미드 피쳐 맵에 대한 예측을 수행함으로써, 상술한 문제를 개선하기 위한 방법을 제안한다. 앞서 설명한 피쳐 피라미드 네트워크에서의 합 연산으로 인해 피라미드 피쳐 맵의 계층 간 중복성이 존재할 수 있다. 선별적으로 피라미드 피쳐 맵을 전송하고, 이러한 중복성을 기반으로 전송되지 않은 피라미드 피쳐 맵에 대한 예측을 효과적으로 수행할 수 있다.

일 실시예에서, 수신 엣지로 전송될 피쳐 맵에 대한 인덱스 정보가 피쳐 맵 그룹 헤더(feature map group header) 내에서 전송될 수 있다. 전송될 피쳐 맵을 지시하기 위하여 피라미드 피쳐 맵에 할당되는 인덱스는 표 1과 같이 구성될 수 있다. 또는, 수신 엣지로 전송되지 않는 피쳐 맵에 대한 인덱스 정보가 피쳐 맵 그룹 헤더를 통해 전송될 수 있다. 피쳐 맵 그룹 헤더에서는 송신 엣지(또는 송신단)에서 전송될 피쳐 맵(또는 전송되지 않는 피쳐 맵)에 대한 정보가 이미지 또는 동영상 단위로 전송될 수 있다. 또한, 전송될 피쳐 맵(또는 전송되지 않는 피쳐 맵)의 인덱스 및 해당 피쳐 맵의 채널 크기, 복호화기 종류 등이 피쳐 맵 그룹 헤더를 통해 전송될 수 있다.

인덱스	피쳐 맵
0	제0 피라미드 피쳐 맵
1	제1 피라미드 피쳐 맵
2	제2 피라미드 피쳐 맵
3	제3 피라미드 피쳐 맵
...	...
N-1	제N-1 피라미드 피쳐 맵

전송될 피쳐 맵은 피쳐 맵 인덱스 및 채널 인덱스의 오름차순 또는 내림차순 순서대로 피쳐맵을 정렬하여 2차원 형태로 패킹될 수 있다. 이때, 피쳐 맵 정렬 방식은 피쳐 맵 그룹 헤더를 통해 전송될 수 있다.

피쳐 맵 정보 부호화기는, 피쳐 피라미드 네트워크의 피쳐 맵을 부호화할 부호화기 종류를 선택하여 부호화를 수행할 수 있다. 선택할 수 있는 부호화기의 종류는 피쳐 맵 그룹 헤더를 통해 전송될 수 있다. 부호화기는 예측 및 변환 결합 구조 부호화기(예를 들어, VVC, HEVC), 뉴럴 네트워크 기반의 부호화기 등이 존재할 수 있다. 부호화기 종류는 사용자가 직접 결정하거나, 또는 머신 태스크의 성능과 비트율을 고려하여 선택될 수도 있다.

본 발명의 일 실시예에서, 피쳐 맵의 복원 또는 복호화는 도 3에 도시된 바와 같이 수행될 수 있다. 도 3에 도시된 프로세스는 영상 복호화 장치, 영상 복원 장치, 피쳐 맵 복호화 장치, 피쳐 맵 복원 장치, 영상 디스플레이 장치 등에 의해 수행될 수 있다. 본 실시예를 설명함에 있어서, 설명의 편의를 위해 영상 복호화 장치에 의해 수행되는 경우를 전제로 한다.

도 3을 참조하면, 영상 복호화 장치는 피쳐 맵 복호화기, 피쳐 맵 역 패킹 수행기, 피라미드 피쳐 맵 화질 개선 네트워크, 피라미드 피쳐 맵 예측 네트워크를 포함할 수 있다. 영상 복호화 장치에 포함된 상술한 구성들은 각각 독립적인 별개 구성으로 구현될 수도 있고, 단일 구성으로 구현될 수도 있다.

영상 복호화 장치는 수신된 비트스트림을 하나 또는 복수의 피라미드 피쳐 맵으로 복호화를 수행한 후, 피라미드 피쳐 맵 화질 개선 네트워크를 통해 피쳐 맵의 압축 손상을 감소시킬 수 있고, 전송되지 않은 피라미드 피쳐 맵을 예측 네트워크를 통해 생성함으로써 피라미드 피쳐 맵을 최종적으로 복원할 수 있다.

피쳐 맵 정보 복호화기는, 전송받은 비트스트림을 복호화하여 하나 또는 복수의 피쳐 맵 그룹을 출력할 수 있다. 피쳐 맵 그룹은 복수의 피라미드 피쳐 맵을 포함할 수 있다. 일 예로서, 피쳐 맵 정보 복호화기는, 피쳐 맵 그룹 헤더에서 복호화기 종류의 인덱스를 파싱한 후, 해당 복호화기를 이용하여 비트스트림을 복호화할 수 있다. 또한, 피쳐 맵 정보 복호화기는 피쳐 맵 그룹 헤더에서 수신 엣지로 전송되는(또는 전송되지 않는) 피라미드 피쳐 맵에 대한 인덱스 정보를 상기 비트스트림으로부터 획득할 수 있다. 본 발명에서, 상기 수신 엣지로 전송되지 않는 피라미드 피쳐 맵은 시그널링이 스킵(skip)된 피쳐 맵, 스킵된 피쳐 맵으로 지칭될 수 있다.

피쳐 맵 역 패킹 수행기는, 피쳐 맵 부호화 과정에서 패킹된 피쳐 맵 그룹을 하나 또는 복수의 피쳐 피라미드 네트워크의 피쳐 맵으로 분리하는 과정일 수 있다. 피쳐 맵 그룹 내 데이터 종류가 피쳐 피라미드 네트워크의 피쳐 맵인 경우, 피쳐 맵 그룹 헤더에서 파싱한 해당 피쳐 맵의 채널 개수 및 데이터 정렬 방식 정보를 이용하여 피쳐 맵 그룹을 피쳐 맵으로 분리한 후, 역 정렬을 수행할 수 있다.

피라미드 피쳐 맵 화질 개선 네트워크는 부호화/복호화 과정에서 피라미드 피쳐 맵에 발생하는 압축 손상을 감소시키는 네트워크일 수 있다. 부호화기에서 피쳐 피라미드 네트워크 기반 구조를 가진 네트워크로부터 추출된 피1라미드 피쳐 맵의 부호화를 진행하여 비트스트림을 복호화기로 전송할 수 있다. 또는, 복호화기에서 수신된 피라미드 피쳐 맵에 대하여 화질 개선 프로세스를 수행(또는 적용)할 수 있다.

일 실시예에서, 피라미드 피쳐 맵은 선택적으로 특정 층의 피라미드 피쳐 맵만 전송될 수 있다. 영상 복호화 장치는 수신한 비트스트림을 복호화한 후, 피쳐 맵 그룹 헤더에서 전송되는 피쳐 맵의 인덱스를 파싱한 후, 파싱된 인덱스에 대응되는 피라미드 피쳐 맵에 대한 복호화를 수행할 수 있다. 그리고, 복호화된 피라미드 피쳐 맵을 피라미드 피쳐 맵 화질 개선 네트워크에 입력할 수 있다.

다른 실시예에서, 전송되지 않는 피라미드 피쳐 맵에 대한 인덱스가 시그널링 될 수 있다. 본 발명에서, 수신 엣지로 전송되지 않는 피쳐 맵(피라미드 피쳐 맵)은 영상 복호화 장치는 전송되지 않은 피라미드 피쳐 맵을 제외한 나머지 피쳐맵을 복호화하고, 그 결과물을 피라미드 피쳐 맵 화질 개선 네트워크에 입력할 수 있다.

또한, 화질 개선 네트워크로부터 출력된 피라미드 피쳐 맵은 피라미드 피쳐 맵 예측 네트워크에 입력될 수 있다. 이에 관한 프로세스는 도 6에서 후술한다.

도 4를 참조하면, 하나 또는 복수의 복호화된 피라미드 피쳐 맵은 피라미드 피쳐 맵 화질 개선 네트워크를 통해 압축 손상이 감소된 피라미드 피쳐 맵으로 복원될 수 있다. 본 발명에서, 피라미드 피쳐 맵 화질 개선 네트워크는 피쳐 맵 화질 개선 네트워크, 화질 개선 네트워크로 지칭될 수 있다.

부호화기로부터 수신된 피라미드 피쳐 맵들은 접합(concatenation) 연산을 수행하여 피라미드 피쳐 맵 화질 개선 네트워크에 입력될 수 있다. 서로 다른 해상도를 갖는 피쳐 맵이 피라미드 피쳐 맵 화질 개선 네트워크에 입력되는 경우, 피라미드 피쳐 맵에 대하여 동일한 크기로 업 샘플링 또는 다운 샘플링이 수행된 후, 접합 연산이 수행될 수 있다.

컨벌루션 뉴럴 네트워크는 두 개 이상의 9x9 크기의 커널로 구성된 컨벌루션 층으로 구성될 수 있다. 도 4에 도시된 바와 같이, 컨벌루션 층 사이에 활성화 함수 GDN(Generalized Divisive Normalization)을 적용하는 GDN 유닛이 삽입될 수 있다. GDN은 다양한 분포의 데이터를 정규 분포 형태로 변환 또는 역변환을 수행할 수 있는 정규화 기술이다. GDN은 아래 수학식 1에 기초하여 수행될 수 있다.

수학식 1을 참조하면, k번째 GDN 활성화 함수에 입력되는 값은 k번째 컨벌루션 층으로부터 출력된 3차원 데이터이고, 너비, 높이, 채널 순서로 각각 m, n, i을 통해

로 표현할 수 있다. k번째 활성화 함수로부터 출력되는 값은

로 표현할 수 있고, 출력 값은 K+1번째 컨벌루션 층으로 입력될 수 있다. 각각의 K번째 활성화 함수의 출력에서 m,n에 위치한

은 k번째 활성화 함수의 i채널에 대한 학습 변수인

와 K번째 활성화 함수의 i채널과 j채널에 대한 학습 변수인

가 작용되어

로 출력되는 과정일 수 있다.

일 실시예에서, 피쳐 맵 화질 개선 네트워크의 출력은 피쳐 맵 전처리기에 의해 전처리가 수행된 피쳐 맵과 컨벌루션 뉴럴 네트워크의 최종 출력을 요소별 합(element-wise summation) 연산을 수행한 피쳐 맵일 수 있다.

피라미드 피쳐 맵 화질 개선 네트워크를 훈련시키는 과정은 다음과 같을 수 있다. 뉴럴 네트워크의 손실 함수는 평균 제곱 오차이거나 또는 교차 엔트로피 오차일 수 있다. 피라미드 피쳐 맵에 대한 예측/변환 결합 구조 기반 부호화/복호화기 또는 뉴럴 네트워크 기반 부호화/복호화기로 부호화/복호화된 피쳐 맵이 입력(또는 입력 이미지, 훈련 영상, 훈련 데이터)으로 사용될 수 있고, 압축 손상이 포함되지 않은 원본 피라미드 피쳐 맵을 정답(또는 타겟, 타겟 출력)으로 선정하여 화질 개선 네트워크를 학습시킬 수 있다. 상술한 학습 또는 훈련은 화질 개선 네트워크의 입력이 정답과 정합하거나 기 정의된 수치만큼 이에 근사한 출력을 생성할 때까지 화질 개선 네트워크의 가중치들에 대한 업데이트를 수행하는 과정을 포함할 수 있다.

일 실시예에서, 피라미드 피쳐 맵 화질 개선 네트워크에서 출력은 피라미드 피쳐 맵 예측 네트워크에 입력될 수 있다. 피라미드 피쳐 맵 예측 네트워크는 피라미드 피쳐 맵 계층 간의 중복성을 활용하여 인접한 계층의 피쳐 맵을 사용하여 송신 엣지로부터 수신되지 않은 피쳐 맵을 생성(또는 예측)하는 네트워크일 수 있다. 이하의 도면을 참조하여 설명한다.

도 5은 본 발명의 일 실시예에 따른 피라미드 피쳐 맵 예측 네트워크를 설명하기 위한 블록도이다.

도 5를 참조하면, 송신 엣지로부터 전송되지 않은 피라미드 피쳐 맵은 피라미드 피쳐 맵 예측 네트워크를 통해 생성(또는 예측)될 수 있다. 본 발명에서, 피라미드 피쳐 맵 예측 네트워크는 피쳐 맵 예측 네트워크, 예측 네트워크로 지칭될 수 있다.

실시예로서, 피라미드 피쳐 맵 화질 개선 네트워크를 통해 복원된 피라미드 피쳐 맵은 피라미드 피쳐 맵 예측 네트워크에 입력될 수 있다. 입력한 피라미드 피쳐 맵과 생성할 피라미드 피쳐 맵이 동일한 해상도를 갖도록 업 샘플링 또는 다운 샘플링 연산을 수행할 수 있다. 컨벌루션 뉴럴 네트워크는 두 개 이상의 9x9 크기의 커널로 구성된 컨벌루션 층으로 구성할 수 있고, 컨벌루션 층 사이에 활성화 함수 GDN(또는 GDN 유닛)을 삽입하여 생성할 수 있다. 피라미드 피쳐 맵 예측 네트워크의 출력은 전송되지 않은 해상도(또는 레이어, 스케일)의 피라미드 피쳐 맵을 예측하고 출력할 수 있다.

피라미드 피쳐 맵 예측 네트워크를 훈련시키는 과정은 다음과 같을 수 있다. 뉴럴 네트워크의 손실 함수는 평균 제곱 오차이거나 또는 교차 엔트로피 오차일 수 있다. 피라미드 피쳐 맵에 대한 예측/변환 결합 구조 기반 부호화/복호화기 또는 뉴럴 네트워크 기반 부호화/복호화기로 부호화/복호화된 피쳐 맵이 입력(또는 입력 이미지, 훈련 영상, 훈련 데이터)으로 사용될 수 있고, 압축 손상이 포함되지 않은 원본 피라미드 피쳐 맵을 정답(또는 타겟, 타겟 출력)으로 선정하여 예측 네트워크를 학습시킬 수 있다.

예를 들어, 제n 피라미드 피쳐 맵을 전송하지 않고, 제n+1 피라미드 피쳐 맵, 제n+2 피라미드 피쳐 맵, 제n+3 피라미드 피쳐 맵을 전송한 경우, 압축 손상이 존재하는 제n+1 피라미드 피쳐 맵, 제n+2 피라미드 피쳐 맵, 제n+3 피라미드 피쳐 맵을 네트워크의 입력으로 사용할 수 있고, 압축 손상이 없는 제n 피라미드 피쳐 맵을 정답으로 선정하여 네트워크를 학습시킬 수 있다. 상술한 학습 또는 훈련은 예측 네트워크의 입력이 정답과 정합하거나 기 정의된 수치만큼 이에 근사한 출력을 생성할 때까지 예측 네트워크의 가중치들에 대한 업데이트를 수행하는 과정을 포함할 수 있다.

부호화기(또는 송신 엣지)에서는 피라미드 피쳐 맵 네트워크에서 생성된 피라미드 피쳐 맵 중 복호화기(또는 수신 엣지)에 선택적으로 특정 층의 피쳐 맵만 전송할 수 있다. 즉, 실시예에 따라 피라미드 피쳐 맵 중 일부의 피쳐 맵만 선택적으로 전송할 수 있다.

도 6은 부호화기에서 일부 피쳐 맵을 전송하지 않은 경우, 피쳐 맵 예측 네트워크를 사용하여 피쳐 맵을 생성하는 과정에 대한 예시이다. 예를 들어, 제n 피라미드 피쳐 맵과 제n+2 피라미드 피쳐 맵을 전송하지 않고, 제n+1 피라미드 피쳐 맵과 제n+3 피라미드 피쳐 맵을 전송한 경우, 제n 피라미드 피쳐 맵과 제n+2 피라미드 피쳐 맵을 생성할 수 있다.

제n 피라미드 피쳐 맵을 생성하기 위하여 필요한 제n+2 피라미드 피쳐 맵을 생성함에 있어서, 어떠한 피라미드 피쳐 맵을 사용할지 여부에 따라 도 6-1 또는 도 6-2 방법으로 피쳐 맵을 생성할 수 있다.

도 6-1은 제n+2 피라미드 피쳐 맵을 생성할 경우, 제n+3 피라미드 피쳐 맵만을 사용하여 제n+2 피라미드 피쳐 맵을 생성하는 예시이다. 제n+3 피라미드 피쳐 맵을 피라미드 피쳐 맵 예측 네트워크의 입력으로 하여 제n+2 피라미드 피쳐 맵을 생성할 수 있다. 이때, 제n+3 피라미드 피쳐 맵에 대한 업샘플링이 수행될 수 있다. 이 후, 생성한 제n+2 피라미드 피쳐 맵과 복원된 제n+1 피라미드 피쳐 맵, 제n+3 피라미드 피쳐 맵을 제n 피라미드 피쳐 맵과 동일한 크기를 갖도록 업 샘플링을 수행할 수 있다. 업 샘플링된 각각의 피라미드 피쳐 맵에 대하여 접합 연산을 수행하고, 이를 네트워크에 입력하여 제n 피라미드 피쳐 맵을 생성할 수 있다. 일 실시예에서, 상기 제n 피라미드 피쳐 맵은 최상위 계층의 피쳐 맵으로서, 최종적으로 획득되는 최종 피쳐 맵일 수 있다.

도 6-2는 제n+2 피라미드 피쳐 맵을 생성할 경우, 제n+1 피라미드 피쳐 맵과 제n+3 피라미드 피쳐 맵을 사용하여 제n+2 피라미드 피쳐 맵을 생성하는 예시이다. 제n+1 피라미드 피쳐 맵을 다운 샘플링한 피쳐 맵과 제n+3 피라미드 피쳐 맵을 업 샘플링한 피쳐 맵을 요소별 가중 합(element-wise weighted-summation)을 수행하여 제n+2 피라미드 피쳐 맵을 생성할 수 있다. 제n+1 피라미드 피쳐 맵과 제n+3 피라미드 피쳐 맵을 요소별 가중 합을 수행하여 제n+2 피라미드 피쳐 맵을 생성하기 위해 다음의 수학식2가 이용될 수 있다.

( 0 ≤ H ＜ Height, 0 ≤ W ＜ WIDTH )

은 제n+2 피라미드 피쳐 맵이고,

는 가중치로 [0,1] 범위 내로 설정할 수 있다. H는 해당 피쳐 맵의 높이이고, W는 해당 피쳐 맵의 너비를 나타낸다.

이 후, 생성된 제n+2 피라미드 피쳐 맵, 복원된 제n+1 피라미드 피쳐 맵, 복원된 제n+3 피라미드 피쳐 맵을 제n 피라미드 피쳐 맵과 동일한 크기를 갖도록 업 샘플링을 수행할 수 있다. 업 샘플링된 각각의 피라미드 피쳐 맵에 대하여 접합 연산을 수행하고, 이를 네트워크에 입력하여 제n 피라미드 피쳐 맵을 생성할 수 있다. 일 실시예에서, 상기 제n 피라미드 피쳐 맵은 최상위 계층의 피쳐 맵으로서, 최종적으로 획득되는 최종 피쳐 맵일 수 있다.

한편, 본 실시예에 따른 영상 분석 방법은 다양한 컴퓨터 수단을 통해 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 본 발명을 위해 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터 판독 가능 매체의 예에는 롬(rom), 램(ram), 플래시 메모리(flash memory) 등과 같이 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러(compiler)에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터(interpreter) 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함한다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 적어도 하나의 소프트웨어 모듈로 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이, 본 실시예에서는 3차원 영상 데이터를 분석하기 위한 심층 신경망의 구조를 구성하는 방법을 제공한다. 본 실시예에 따른 가상 3차원 심층 신경망 구조는 입력된 의료 영상에서 질병 진단을 내리거나 또는 병변의 위치를 찾아내거나 또는 비디오에서 사람의 행동을 인식하는 등의 3차원 영상 데이터 분석에 활용될 수 있다.

이상 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims

신경망 기반 피쳐 맵(feature map) 복호화 방법에 있어서,

비트스트림으로부터 피쳐 맵 그룹을 복호화하는 단계로서, 상기 피쳐 맵 그룹은 시그널링이 스킵(skip)된 피쳐 맵을 제외한 나머지 피쳐 맵들을 포함하고, 상기 스킵된 피쳐 맵 및 상기 나머지 피쳐 맵들은 하나의 계층 구조 내에서 각각 서로 다른 해상도를 가짐;

상기 복호화된 피쳐 맵 그룹에 대하여 역 패킹을 수행함으로써 상기 나머지 피쳐 맵들을 획득하는 단계;

상기 나머지 피쳐 맵들 중 적어도 하나의 피쳐 맵에 기초하여 상기 스킵된 피쳐 맵을 생성하는 단계; 및

상기 나머지 피쳐 맵들 및 상기 스킵된 피쳐 맵에 기초하여 최종 피쳐 맵을 복원하는 단계를 포함하는, 피쳐 맵 복호화 방법.
제1항에 있어서,

상기 피쳐 맵 그룹을 복호화하는 단계는,

상기 비트스트림으로부터 피쳐 맵 그룹 헤더 정보를 복호화 하는 단계를 포함하고,

상기 피쳐 맵 그룹 헤더 정보는 상기 나머지 피쳐 맵들 각각을 지시하기 위한 인덱스 정보, 상기 나머지 피쳐 맵들의 채널 크기 정보 또는 상기 나머지 피쳐 맵들의 부호화에 이용된 부호화기 종류 정보 중 적어도 하나를 포함하는, 피쳐 맵 복호화 방법.
제2항에 있어서,

상기 피쳐 맵 그룹 헤더 정보는 상기 나머지 피쳐 맵들의 채널 개수 정보 또는 데이터 정렬 방식 정보 중 적어도 하나를 더 포함하는, 피쳐 맵 복호화 방법.
제3항에 있어서,

상기 나머지 피쳐 맵들을 획득하는 단계는,

상기 피쳐 맵 그룹 내에서 미리 정의된 순서에 따라 피쳐 맵 인덱스가 정렬되어 2차원 패킹된 데이터를, 상기 채널 개수 또는 상기 데이터 정렬 방식 정보 중 적어도 하나에 기초하여 복수의 피쳐 맵들로 분리하여 역 정렬을 수행함으로써 상기 복호화된 피쳐 맵 그룹에 대하여 역 패킹을 수행하는, 피쳐 맵 복호화 방법.
제1항에 있어서,

상기 스킵된 피쳐 맵은 상기 획득된 나머지 피쳐 맵들 중에서 상기 스킵된 피쳐 맵의 인접 하위 계층의 피쳐 맵에 대하여 업샘플링을 수행함으로써 생성되는, 피쳐 맵 복호화 방법.
제1항에 있어서,

상기 스킵된 피쳐 맵을 생성하는 단계는,

상기 나머지 피쳐 맵들 중에서 상기 스킵된 피쳐 맵에 인접한 하위 계층의 피쳐 맵에 대하여 업샘플링을 수행하는 단계;

상기 나머지 피쳐 맵들 중에서 상기 스킵된 피쳐 맵에 인접한 상위 계층의 피쳐 맵에 대하여 다운샘플링을 수행하는 단계; 및

상기 업샘플링된 인접한 하위 계층의 피쳐 맵 및 상기 다운샘플링된 인접한 하위 계층의 피쳐 맵에 대하여 요소별 가중 합(element-wise weighted-summation)을 수행하는 단계를 포함하는, 피쳐 맵 복호화 방법.
제1항에 있어서,

상기 스킵된 피쳐 맵을 생성하는 단계는,

컨볼루션 레이어 및 GDN(Generalized Divisive Normalization) 레이어를 포함하는 피쳐 맵 예측 네트워크를 이용하여 수행되는, 피쳐 맵 복호화 방법.
제1항에 있어서,

상기 최종 피쳐 맵을 복원하는 단계는,

상기 나머지 피쳐 맵들 및 상기 스킵된 피쳐 맵 각각에 대하여 상기 최종 피쳐 맵과 동일한 해상도를 갖도록 업샘플링을 수행하는 단계; 및

상기 업샘플링된 나머지 피쳐 맵들 및 상기 업샘플링된 스킵된 피쳐 맵에 대하여 접합(concatenation) 연산을 수행하는 단계를 포함하는, 피쳐 맵 복호화 방법.
제1항에 있어서,

상기 나머지 피쳐 맵들 중 적어도 하나의 피쳐 맵에 대하여 화질 개선을 수행하는 단계를 더 포함하고,

상기 스킵된 피쳐 맵은 상기 화질 개선이 수행된 피쳐 맵을 이용하여 생성되는, 피쳐 맵 복호화 방법.
제9항에 있어서,

상기 화질 개선을 수행하는 단계는,

컨볼루션 레이어 및 GDN(Generalized Divisive Normalization) 레이어를 포함하는 피쳐 맵 화질 개선 네트워크를 이용하여 수행되는, 피쳐 맵 복호화 방법.
신경망 기반의 신호 처리 장치에 있어서,

상기 신호 처리 장치를 제어하는 프로세서; 및

상기 프로세서와 결합되고, 데이터를 저장하는 메모리를 포함하되,

상기 프로세서는,

비트스트림으로부터 피쳐 맵 그룹을 복호화하되, 상기 피쳐 맵 그룹은 시그널링이 스킵(skip)된 피쳐 맵을 제외한 나머지 피쳐 맵들을 포함하고, 상기 스킵된 피쳐 맵 및 상기 나머지 피쳐 맵들은 하나의 계층 구조 내에서 각각 서로 다른 해상도를 가지며,

상기 복호화된 피쳐 맵 그룹에 대하여 역 패킹을 수행함으로써 상기 나머지 피쳐 맵들을 획득하고,

상기 나머지 피쳐 맵들 중 적어도 하나의 피쳐 맵에 기초하여 상기 스킵된 피쳐 맵을 생성하고,

상기 나머지 피쳐 맵들 및 상기 스킵된 피쳐 맵에 기초하여 최종 피쳐 맵을 복원하는, 신경망 기반의 신호 처리 장치.