KR102605657B1 - 심층 신경회로에서의 데이터 변환 장치 및 방법 - Google Patents

심층 신경회로에서의 데이터 변환 장치 및 방법 Download PDF

Info

Publication number
KR102605657B1
KR102605657B1 KR1020210083336A KR20210083336A KR102605657B1 KR 102605657 B1 KR102605657 B1 KR 102605657B1 KR 1020210083336 A KR1020210083336 A KR 1020210083336A KR 20210083336 A KR20210083336 A KR 20210083336A KR 102605657 B1 KR102605657 B1 KR 102605657B1
Authority
KR
South Korea
Prior art keywords
tensor
horizontal
vertical
channel
input
Prior art date
Application number
KR1020210083336A
Other languages
English (en)
Other versions
KR20220006464A (ko
Inventor
유정재
고종국
유원영
이근동
이수웅
이승재
이용식
정다운
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to US17/370,585 priority Critical patent/US20220012589A1/en
Publication of KR20220006464A publication Critical patent/KR20220006464A/ko
Application granted granted Critical
Publication of KR102605657B1 publication Critical patent/KR102605657B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Abstract

본 발명은 심층 신경회로에서의 데이터 변환 장치에 관한 것이다.
본 발명은 입력단과 출력단의 경우 영상 해상도가 높고 채널이 얇으며, 중간의 심층 레이어의 경우 영상 해상도가 낮고 채널이 두꺼운 형태 특징을 갖는 딥러닝 네트워크 상에서의 데이터 학습 장치에 있어서, 심층 레이어 중에서 초기 추정 값을 생성할 때, 해당 레이어에서 입력 받은 데이터의 모든 원소들 간의 연관성을 고려하는 전역적 특징정보를 추출하는 특징정보 추출부; 생성한 전역적 특징정보 초기 추정 값 또는 이후의 레이어에서 순차적으로 생성하는 중간 출력을 최종출력과 같은 해상도의 확대데이터를 생성하는 채널-영상 직접 변환부; 및 사전에 준비한 Ground Truth 값과 상기 채널-영상 직접 변환부에 의해 생성된 확대데이터 간의 차이를 계산하고, 이 오차가 작아지도록 네트워크 파라미터들을 갱신하는 비교 학습부를 포함한다.

Description

심층 신경회로에서의 데이터 변환 장치 및 방법{Data conversion device and method in deep neural circuit}
본 발명은 심층 신경회로에서의 데이터 변환 장치에 관한 것으로, 더욱 상세하게는 UNet 구조의 딥러닝 뉴럴 네트워크에서, 입력 데이터의 모든 원소들 간의 관계를 고려하는 전역특징 추출과, 긴 채널이면서 저해상도의 중간결과를 단일 채널이면서 높은 해상도의 결과로 확대하는 데이터 변환 방법을 제공하는 심층 신경회로에서의 데이터 변환 장치에 관한 것이다.
UNet 구조라고 지칭하는 네트워크는 도 1에 도시된 바와 같이, 입력단(1)과 출력단(7)에서는 레이어의 채널(Channel)은 짧고 수평길이(Spatial Width), 수직길이(Spatial Height)가 긴 반면, 네트워크의 중간부위인 심층 레이어(3, 4, 5)에서는 반대로 채널(Channel)이 길고 수평길이(Spatial Width), 수직길이(Spatial Height)가 긴 대칭형의 네트워크 구조를 의미한다.
이러한 네트워크를 학습하는 간단한 방법은 출력단(7)의 결과와 사전에 준비한 Ground Truth(8) 값 간의 차이를 계산(9)하여, 이 오차가 작아지도록 네트워크 파라미터들을 갱신하는 교사학습(Supervised Learning) 방식이다.
이때의 문제점은 최종 출력단에서만 오차를 계산하기 때문에 과적합(Overfitting)이 발생하기 쉽다는 점이다.
이러한 단점을 보완하기 위해 사용하는 방법이 심층 레이어에서 초기 추정 값(10)을 생성하여 동일 크기로 축소된 Ground Truth(11)과 비교하여 오차(14)를 계산하고 학습하는 방식이다.
이렇게 하면 심층 레이어(4)가 비용함수에 바로 연결되고, 심층 레이어(2~4)에서의 학습 효율성이 향상되는 효과를 얻는다.
한가지 문제점은 이렇게 중간 위치에서 초기 추정 값을 오차를 계산할 때, 원본 Ground Truth(8)가 아닌, 축소된 Ground Truth(11)과 비교하기 때문에 상대적으로 오차 값이 작아지는 효과가 발생한다는 점이다.
실제로 심층 레이어에서의 초기 추정 값 오차(14)를 최종단의 오차(9)와 동일한 비율로 더하고 최적화를 수행하면, 깊이지도 추정의 경우, Smoothing된 값으로 편향된 결과를 얻게 된다.
이러한 문제점을 해결하려면 심층 레이어에서 축소 추정 값(10)의 오차 대신, 심층 레이어에서 최종 출력과 동일한 크기로 확대추정한 값(12)을 생성하여, 원본 Ground Truth(8)와 오차(13)를 계산하는 방식이며, 깊이추정 분야에서 이러한 접근법을 사용한 방법이 높은 성능을 보이는 것으로 발표되었다.
본 발명은 종래 문제점을 해결하기 위한 것으로, 딥러닝 뉴럴 네트워크에서, 입력 받은 데이터의 모든 원소들 간의 연관성을 고려하는 전역적 특징정보를 추출하는 방법과, 최종 출력보다 해상도가 낮은 심층 레이어에서 최종출력과 같은 해상도의 확대데이터를 생성하는 심층 신경회로에서의 데이터 변환 장치를 제공하고자 한다.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 심층 신경회로에서의 데이터 변환 장치는 입력단과 출력단의 경우 영상 해상도가 높고 채널이 얇으며, 중간의 심층 레이어의 경우 영상 해상도가 낮고 채널이 두꺼운 형태 특징을 갖는 딥러닝 네트워크 상에서의 데이터 학습 장치에 있어서, 심층 레이어 중에서 초기 추정 값을 생성할 때, 해당 레이어에서 입력 받은 데이터의 모든 원소들 간의 연관성을 고려하는 전역적 특징정보를 추출하는 특징정보 추출부; 상기 생성한 전역적 특징정보 초기 추정 값 또는 이후의 레이어에서 순차적으로 생성하는 중간 출력을 최종출력과 같은 해상도의 확대데이터를 생성하는 채널-영상 직접 변환부; 및 사전에 준비한 Ground Truth 값과 상기 채널-영상 직접 변환부에 의해 생성된 확대데이터 간의 차이를 계산하고, 이 오차가 작아지도록 네트워크 파라미터들을 갱신하는 비교 학습부를 포함한다.
상기 전역적 특징정보 추출부는 입력 텐서안의 모든 원소들간의 비선형적인 가중치 합으로 출력 텐서안의 원소들을 계산하는 것이 바람직하다.
상기 전역적 특징정보 추출부는 중간 심층 레이어에서 전달받은 입력 텐서의 채널, 행, 열 방향으로 길이만큼의 입출력 노드를 갖는 FC-Layer(Fully Connected Layer)를 하나씩 생성하고, 이들 FC-Layer를 적용하는 연산을 직렬 연결하여 결과를 출력한다.
상기 전역적 특징정보 추출부에서의 연산과정을 순차적으로 설명하면, 입력 텐서로부터 H 길이의 열 벡터가 W*C개만큼 추출되어 각각 FCcol을 통과한 후, 입력 텐서 안에서의 기존 값을 대체하고, 모든 값이 대체된 텐서로부터, W 길이의 행 벡터가 H*C개만큼 추출되어 각각 FCrow을 통과한 후, 기존 값을 대체하며, C 길이의 채널 벡터가 H*W개만큼 추출되어 각각 FCrow을 통과한 후, 기존 값을 대체한다.
그리고 상기 채널-영상 직접 변환부는, 입력 텐서에 대해서, 채널축을 2*k으로 압축하고, 수평, 수직 방향의 단일 원소축에 대해서 앞부분 채널 k개의 원소를 영상 수평방향으로 매핑하는 수평 변환 텐서를 생성한 후, 뒷부분의 k개의 원소를 이용하여 영상 수직방향으로 매핑하는 수직 변환 텐서를 생성한다. 수평 변환 텐서를 다시 수직방향으로 선형보간법을 통하여 확대한 ‘수평변환 수직보간 텐서’를 생성하고, 수직 변환 텐서를 수평방향으로 선형보간하여 확대한 ‘수직변환 수평보간 텐서’를 생성한다. 상기 생성된 ‘수평변환 수직보간 텐서’와 ‘수직변환 수평보간 텐서’를 평균 연산하여 최종적으로 수평, 수직 방향으로 k배 확대된 텐서를 생성한다.
본 발명의 일 실시예에 따른 심층 신경회로에서의 데이터 변환 방법은 입력단과 출력단은 영상 해상도는 높고, 채널은 얇고, 중간의 심층 레이어는 영상 해상도는 낮고, 채널은 두꺼운 형태 특징을 갖는 딥러닝 네트워크에서의 전역적 특징정보를 추출 방법에 있어서, 입력 텐서인 중간 심층 레이어로부터 채널, 행, 열 방향으로 길이만큼의 입출력 노드를 갖는 FC-Layer(Fully Connected Layer)를 하나씩 생성하는 단계; 및 이들 FC-Layer를 적용하는 연산을 직렬 연결하여 결과를 출력하는 단계를 포함한다.
상기 심층 레이어에서 생성한 초기 추정 값 또는 이후의 레이어에서 순차적으로 생성하는 중간 출력을 최종출력과 같은 해상도의 확대데이터를 생성하는 단계를 더 포함한다.
상기 확대하여 생성하는 단계는, 입력 텐서에 대해서, 채널축을 2*k으로 압축하는 단계; 앞부분 채널 k개의 원소를 영상 수평방향으로 매핑하는 수평 변환 텐서를 생성하는 단계; 뒷부분의 k개의 원소를 이용하여 영상 수직방향으로 매핑하는 수직 변환 텐서를 생성하는 단계; 수평 변환 텐서를 다시 수직방향으로 선형보간법을 통하여 확대한 ‘수평변환 수직보간 텐서’를 생성하는 단계; 수직 변환 텐서를 수평방향으로 선형보간하여 확대한 ‘수직변환 수평보간 텐서’를 생성하는 단계; 및 상기 생성된 ‘수평변환 수직보간 텐서’와 ‘수직변환 수평보간 텐서’를 평균 연산하여 최종적으로 수평, 수직 방향으로 k배 확대된 텐서를 생성하는 단계를 포함한다.
본 발명의 일 실시예에 따른 딥러닝 네트워크에서의 채널-영상 직접변환 방법은 입력단과 출력단은 영상 해상도는 높고, 채널은 얇고, 중간의 심층 레이어는 영상 해상도는 낮고, 채널은 두꺼운 형태 특징을 갖는 딥러닝 네트워크에서의 채널-영상 직접변환 방법에 있어서, 입력 텐서에 대해서, 채널축을 2*k으로 압축하는 단계; 앞부분 채널 k개의 원소를 영상 수평방향으로 매핑하는 수평 변환 텐서를 생성한 후, 뒷부분의 k개의 원소를 이용하여 영상 수직방향으로 매핑하는 수직 변환 텐서를 생성하는 단계; 수평 변환 텐서를 다시 수직방향으로 선형보간법을 통하여 확대한 ‘수평변환 수직보간 텐서’를 생성하고, 수직 변환 텐서를 수평방향으로 선형보간하여 확대한 ‘수직변환 수평보간 텐서’를 생성하는 단계; 및 상기 생성된 ‘수평변환 수직보간 텐서’와 ‘수직변환 수평보간 텐서’를 연산하여 최종적으로 수평, 수직 방향으로 k배 확대된 텐서를 생성하는 단계를 포함한다.
본 발명의 일 실시예에 따르면, 영상 수평, 수직 축 방향으로 픽셀 단위에서 비선형적인 확대를 가능하게 함으로써, UNet 구조의 딥러닝 신경망 네트워크에서, 출력단의 결과와 사전에 준비한 Ground Truth 값 간의 차이를 계산하여, 이 오차가 작아지도록 네트워크 파라미터들을 갱신하는 교사학습(Supervised Learning) 방식의 문제점인 과적합을 해소하면서도, 학습의 효율성을 향상시킬 수 있는 효과가 있다.
도 1은 일반적인 UNet 구조의 네트워크 구조를 설명하기 위한 참고도.
도 2는 본 발명의 일 실시예에 따른 심층 신경회로에서의 데이터 변환 장치를 설명하기 위한 구성블록도.
도 3은 본 발명의 일 실시예에서 입력 텐서에 대한 전역적 특징 추출을 위한 분할형 전연결 레이어 개념도.
도 4는 본 발명의 일 실시예에서 연산을 프로그램상에서 실제 구현하는 방법을 설명하기 위한 순서도.
도 5는 본 발명의 일 실시예에서 확대된 해상도가 높은 확대데이터와 사전에 준비한 Ground Truth 값을 비교하는 상태를 설명하기 위한 참고도.
도 6은 본 발명의 일 실시예에서 '채널-영상 직접변환을 통하여 이루고자 하는 데이터의 확대 개념을 설명하기 위한 참고도.
도 7은 본 발명의 일 실시예에서 영상 평면상에서의 한 픽셀에 대응하는 데이터를 확대하는 과정을 설명하기 위한 참고도.
도 8은 본 발명의 일 실시예에서 '채널-영상 직접 변환' 입력 텐서 전체에 대하여 적용했을 때의 데이터 크기 변화를 설명하기 위한 개념도.
도 9는 본 발명의 일실시예에 따른 본 발명의 일 실시예에 따른 심층 신경회로에서의 데이터 변환 방법을 설명하기 위한 순서도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
도 2는 본 발명에 따른 심층 신경회로에서의 데이터 변환 장치를 설명하기 위한 구성블록도이다.
도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 심층 신경회로에서의 데이터 변환 장치는 전역적 특징정보 추출부(100), 채널-영상 직접 변환부(200) 및 비교 학습부(300)를 포함한다.
전역적 특징정보 추출부(100)는 입력단(1)과 출력단(7)의 경우 영상 해상도가 높고 채널이 얇으며, 중간의 심층 레이어(2 내지 6)의 경우 영상 해상도가 낮고 채널이 두꺼운 형태 특징을 갖는 딥러닝 네트워크 상의 심층 레이어 중에서 초기 추정 값을 생성할 때, 해당 레이어에서 입력 받은 데이터의 모든 원소들 간의 연관성을 고려하는 전역적 특징정보를 추출한다.
이를 위해, 전역적 특징정보 추출부(100)는 입력 텐서가 중간 심층 레이어(4)이면, 도 3에 도시된 바와 같이, 중간 심층 레이어(4)에서 전달받은 입력 텐서의 채널, 행, 열 방향으로 길이만큼의 입출력 노드를 갖는 Fully Connected Layer(FC-Layer)(4-1, 4-2, 4-3)를 하나씩 생성한다.
이후, 전역적 특징정보 추출부(100)는 이들 FC-Layer를 적용하는 연산을 직렬 연결하여 입력 텐서와 동일크기(C*H*W)의 출력 텐서를 계산한다. 이때 출력 텐서안의 원소들은 입력 텐서안의 모든 원소들간의 비선형적인 가중치 합으로 계산된다.
예를 들어 도 4와 같이 C*H*W(C: 채널 길이, H: 행 개수, W: 열 개수) 크기의 텐서가 입력된 상황을 가정해 본다.
먼저, 입력 텐서로부터 H 길이의 열 벡터가 W*C개만큼 추출되어 각각 FCcol을 통과한 후, 입력 텐서 안에서의 기존 값을 대체한다(41).
이렇게 모든 값이 대체된 텐서로부터, 이번에는 W 길이의 행 벡터가 H*C개만큼 추출되어 각각 FCrow을 통과한 후, 기존 값을 대체한다(42).
마지막으로 C 길이의 채널 벡터가 H*W개만큼 추출되어 각각 FCrow을 통과한 후, 기존 값을 대체한다(43).
그리고 채널-영상 직접 변환부(200)는 도 5에 도시된 바와 같이, 상기 생성한 전역적 특징정보 초기 추정 값 또는 이후의 레이어에서 순차적으로 생성하는 중간 출력을 최종출력과 같이 해상도가 높은 확대데이터(12)로 확대하여 생성한다.
이를 위해, 채널-영상 직접 변환부(200)는 도 6에 도시된 바와 같이, C*H*W 텐서를 입력으로, 수평, 수직 방향으로 k배 확대된 단일 채널 데이터(12)를 생성해야 하는 상황으로 가정한다.
도 7은 본 발명의 일 실시예에서 영상 평면상에서의 한 픽셀에 대응하는 데이터를 확대하는 과정을 설명하기 위한 참고도이다.
도 7에 도시된 바와 같이, 채널-영상 직접 변환부(200)는 우선 입력 텐서에 대해서, 채널축을 2*k으로 압축(71)한다. 여기서, 입력 텐서는 우선 딥러닝 네트워크의 어떤 레이어에서 전역적 특징정보를 추출하기 위해 채널, 행, 열의 3축을 갖는 3D 데이터(71)를 의미한다.
그리고 수평, 수직 방향의 단일 원소축에 대해서 앞부분 채널 k개의 원소를 이용하여 영상 수평방향으로 매핑하는 수평 변환 텐서(72)를 생성한다.
뒷부분의 k개의 원소를 이용하여 영상 수직방향으로 매핑하는 수직 변환 텐서(73)를 생성한다.
이어서, 수평 변환 텐서(72)를 다시 수직방향으로 선형보간법을 통하여 확대한 ‘수평변환 수직보간 텐서(74)’를 생성하고, 수직 변환 텐서를 수평방향으로 선형보간하여 확대한 ‘수직변환 수평보간 텐서(75)’를 생성한다.
상기 생성된 ‘수평변환 수직보간 텐서(74)’와 ‘수직변환 수평보간 텐서(75)’를 연산하여 최종적으로 수평, 수직 방향으로 k배 확대된 텐서(76)를 생성한다. 본 실 시예에서는 생성된 수평변환 수직보간 텐서(74)와 수직변환 수평보간 텐서(75)를 평균 연산하여 처리하였으나, 생성된 수평변환 수직보간 텐서(74)와 수직변환 수평보간 텐서(75)를 합산하여 처리할 수도 있다.
비교 학습부(300)는 사전에 준비한 Ground Truth 값과 상기 채널-영상 직접 변환부에 의해 생성된 확대된텐서(76) 간의 차이를 계산하고, 이 오차가 작아지도록 네트워크 파라미터들을 갱신한다.
본 발명의 일 실시예에 따르면, 영상 수평, 수직 축 방향으로 픽셀 단위에서 비선형적인 확대를 가능하게 함으로써, UNet 구조의 딥러닝 신경망 네트워크에서, 출력단의 결과와 사전에 준비한 Ground Truth 값 간의 차이를 계산하여, 이 오차가 작아지도록 네트워크 파라미터들을 갱신하는 교사학습(Supervised Learning) 방식의 문제점인 과적합을 해소하면서도, 학습의 효율성을 향상시킬 수 있는 효과가 있다.
이하, 하기에서는 본 발명의 일 실시예에 따른 심층 신경회로에서의 데이터 변환 방법에 대하여 도 8을 참조하여 설명하기로 한다.
먼저, 본 발명은 도 1에 도시된 바와 같이, 입력단(1)과 출력단(7)은 영상 해상도는 높고, 채널은 얇고, 중간의 심층 레이어(2 내지 6)는 영상 해상도는 낮고, 채널은 두꺼운 형태 특징을 갖는 딥러닝 네트워크(Unet구조)에 적용된다.
도 9는 본 발명의 일실시예에 따른 본 발명의 일 실시예에 따른 심층 신경회로에서의 데이터 변환 방법을 설명하기 위한 순서도이다.
본 발명의 일실시예에 따른 심층 신경회로에서의 데이터 변환 방법에 대하여 도 9를 참조하여 설명하기로 한다.
먼저, 입력 텐서로부터 채널, 행, 열 방향으로 길이만큼의 입출력 노드를 갖는 FC-Layer(Fully Connected Layer)를 하나씩 생성한다(S100).
이들 FC-Layer를 적용하는 연산을 직렬 연결하여 결과를 출력한다(S200).
상기 심층 레이어에서 생성한 초기 추정 값인 중간 출력을 최종출력과 같은 해상도의 확대데이터를 생성한다(S300). 여기서, 상기 중간 출력을 최종출력과 같은 해상도의 확대데이터를 생성하는 단계는 이후의 심층 레이어에서 순차적으로 생성하는 중간 출력을 이용할 수도 있다.
여기서, FC-Layer(Fully Connected Layer)를 하나씩 생성하는 단계(S100)와 상기 텐서를 계산하는 단계(S200)는, 심층 레이어에서 초기 추정 값을 생성할 때, 해당 레이어에서 입력 받은 데이터의 모든 원소들 간의 연관성을 고려하는 전역적 특징정보를 추출하는 방법이다.
이러한 전역적 특징정보를 추출하는 방법은 ‘분할형 전연결 레이어(Decomposed Fully Connected Layer : DFC)'이 이용된다.
우선 딥러닝 네트워크의 어떤 레이어에서 전역적 특징정보를 추출하기 위해 채널, 행, 열의 3축을 갖는 3D 데이터(21)를 입력 받은 상황을 가정한다. 이때의 3D 데이터를 텐서라 한다.
도 3은 본 발명의 일 실시예에서 입력 텐서에 대한 전역적 특징 추출을 위한 분할형 전연결 레이어 개념도이다.
도 3에 도시된 바와 같이, 입력 텐서(4)로부터 채널, 행, 열 방향으로 길이만큼의 입출력 노드를 갖는 Fully Connected Layer(FC-Layer)(4-1, 4-2, 4-3)를 하나씩 생성한다.
이들 FC-Layer를 적용하는 연산을 직렬 연결하여 결과를 출력한다.
예를 들어 C*H*W(C: 채널 길이, H: 행 개수, W: 열 개수) 크기의 텐서가 입력된 상황을 가정해 본다.
먼저, 입력 텐서로(4)부터 H 길이의 열 벡터가 W*C개만큼 추출되어 각각 FCcol을 통과한 후 입력 텐서 안에서의 기존 값을 대체한다(41).
이렇게 모든 값이 대체된 텐서로부터, 이번에는 W 길이의 행 벡터가 H*C개만큼 추출되어 각각 FCrow을 통과한 후 기존 값을 대체한다(42).
마지막으로 C 길이의 채널 벡터가 H*W개만큼 추출되어 각각 FCch을 통과한 후 기존 값을 대체한다(43).
도 4은 본 발명의 일 실시예에서 연산을 프로그램상에서 실제 구현하는 방법을 설명하기 위한 순서도이다.
도 4에 도시된 바와 같이, FCrow(41), FCcol(42), FCch(43)은 각각 도 3에서의 4-1, 4-2 및 4-3을 실제 구현하는 방법이다.
보다시피 FCch(43)은 단일 픽셀 합성곱(1*1 convolution) 연산으로 구현하며, FCcol(42), FCrow(41)은 텐서에 대한 Transpose(Transch,row, Transch,col) 연산과 Pointwise convolution으로 구성된다.
이때 Transpose 연산이란 입력 텐서의 두 축방향을 교체하는 연산을 의미한다.
본 발명의 일 실시예에 따른 방법을 실제로 활용할 때는 이 연산을 활용하는 전체 네트워크의 특성에 따라 추가적인 채널 분할과 2D 합성곱 연산이 함께 사용될 수 있다.
위와 같은 방법으로 심층 레이어에서 전역특징을 추출하여 생성한 초기 추정 데이터를 도 1의 13과 같이 최종출력 크기의 Ground Truth(8)과 비교하기 위해서는 최종출력과 동일크기로 확대(12)하는 처리가 필요하다.
이를 위해 본 발명의 일 실시예에 따른 심층 신경회로에서의 ‘채널-영상 직접변환(Direct Channel to Space Transformation) 방법을 더 포함한다.
즉, 본 발명의 일 실시예에 따른 심층 신경회로에서의 데이터 변환 장치의 채널-영상 직접변환 방법은 도 5에 도시된 바와 같이, 생성한 초기 추정 값 또는 이후의 레이어에서 순차적으로 생성하는 중간 출력을 최종출력(8)과 같은 해상도의 확대데이터(12)를 생성하는 방법이다.
도 6은 본 발명의 일 실시예에서 '채널-영상 직접변환을 통하여 이루고자 하는 데이터의 확대 개념을 설명하기 위한 참고도이다.
우선 도 6에 도시된 바와 같이, C*H*W 텐서를 입력으로, 수평, 수직 방향으로 k배 확대된 단일 채널 데이터(도 1의 12)를 생성해야 하는 상황을 가정한다.
도 7은 본 발명의 일 실시예에서 영상 평면상에서의 한 픽셀에 대응하는 데이터를 확대하는 과정을 설명하기 위한 참고도이다.
도 7에 도시된 바와 같이, 우선 입력 텐서에 대해서, 채널축을 2*k으로 압축(71)한다.
그리고 수평, 수직 방향의 단일 원소축에 대해서 앞부분 채널 k개의 원소를 이용하여 영상 수평방향으로 매핑하는 수평 변환 텐서(72)를 생성한다.
뒷부분의 k개의 원소를 이용하여 영상 수직방향으로 매핑하는 수직 변환 텐서(73)를 생성한다.
수평 변환 텐서(72)를 다시 수직방향으로 선형보간법을 통하여 확대한 ‘수평변환 수직보간 텐서(74)’를 생성하고, 수직 변환 텐서를 수평방향으로 선형보간하여 확대한 ‘수직변환 수평보간 텐서(75)’를 생성한다.
상기 생성된 ‘수평변환 수직보간 텐서(74)’와 ‘수직변환 수평보간 텐서(75)’를 평균 연산하여 최종적으로 수평, 수직 방향으로 k배 확대된 텐서(76)를 생성한다.
도 8은 본 발명의 일 실시예에서 '채널-영상 직접 변환' 입력 텐서 전체에 대하여 적용했을 때의 데이터 크기 변화를 설명하기 위한 개념도이다.
도 8은 본 발명의 일 실시예에서 '채널-영상 직접변환' 입력 텐서 전체에 대해서 적용했을 때의 데이터 크기 변화를 설명하기 위한 참고도이다.
도 8에 도시된 바와 같이, 도 7에서 한 픽셀 단위로 적용하였던 변환방법의 단계별 결과인 71 내지 76을, 전체 텐서 데이터에 대해서 적용할 때 대응하는 단계별 결과가 도 8의 81 내지 86과 같이 대응될 수 있다.
본 발명의 일 실시예에 따르면, 딥러닝 네트워크에서 입력 텐서안의 모든 원소들 간의 상관관계에 따라 계산되는 전역적인 특징 정보의 추출이 가능하고, ‘채널-영상 직접변환’을 이용하면, 영상 해상도는 낮으면서 채널축이 긴 입력 텐서를 단일 채널이면서 영상해상도가 높은 확대데이터로 변환하며, 이 과정에서 영상 수평, 수직 축 방향으로 픽셀단위에서 비선형적인 확대가 가능한 효과가 있다.
이상, 본 발명의 구성에 대하여 첨부 도면을 참조하여 상세히 설명하였으나, 이는 예시에 불과한 것으로서, 본 발명이 속하는 기술분야에 통상의 지식을 가진자라면 본 발명의 기술적 사상의 범위 내에서 다양한 변형과 변경이 가능함은 물론이다. 따라서 본 발명의 보호 범위는 전술한 실시예에 국한되어서는 아니되며 이하의 특허청구범위의 기재에 의하여 정해져야 할 것이다.

Claims (7)

  1. 입력단과 출력단의 경우 영상 해상도가 높고 채널이 얇으며, 중간의 심층 레이어의 경우 영상 해상도가 낮고 채널이 두꺼운 형태 특징을 갖는 딥러닝 네트워크 상에서의 데이터 학습 장치에 있어서,
    심층 레이어 중에서 초기 추정 값을 생성할 때, 해당 레이어에서 입력 받은 데이터의 모든 원소들 간의 연관성을 고려하는 전역적 특징정보를 추출하는 전역적 특징정보 추출부;
    상기 생성한 전역적 특징정보 초기 추정 값 또는 이후의 레이어에서 순차적으로 생성하는 중간 출력을 최종출력과 같은 해상도의 확대데이터를 생성하는 채널-영상 직접 변환부; 및
    사전에 준비한 Ground Truth 값과 상기 채널-영상 직접 변환부에 의해 생성된 확대데이터 간의 차이를 계산하고, 이 오차가 작아지도록 네트워크 파라미터들을 갱신하는 비교 학습부를 포함하되,
    상기 채널-영상 직접 변환부는,
    입력 텐서에 대해서, 채널축을 2*k으로 압축하고,
    앞부분 채널 k개의 원소를 영상 수평방향으로 매핑하는 수평 변환 텐서를 생성한 후, 뒷부분의 k개의 원소를 이용하여 영상 수직방향으로 매핑하는 수직 변환 텐서를 생성하며,
    수평 변환 텐서를 다시 수직방향으로 선형보간법을 통하여 확대한 ‘수평변환 수직보간 텐서’를 생성하고, 수직 변환 텐서를 수평방향으로 선형보간하여 확대한 ‘수직변환 수평보간 텐서’를 생성하고,
    상기 생성된 ‘수평변환 수직보간 텐서’와 ‘수직변환 수평보간 텐서’를 평균 연산하여 최종적으로 수평, 수직 방향으로 k배 확대된 텐서를 생성하는 것을 특징으로 하는 심층 신경회로에서의 데이터 변환 장치.
  2. 제1항에 있어서,
    입력 텐서가 중간 심층 레이어 중 하나인 경우, 전역적 특징을 추출하기 위한 입력 텐서인 중간 심층 레이어로부터 채널 길이만큼의 입출력 노드를 갖는 FC-Layer(Fully Connected Layer)인 FCch, 중간 심층 레이어로부터 행 방향으로 길이만큼의 입출력 노드를 갖는 FCcol 및 중간 심층 레이어로부터 열 방향으로 길이만큼의 입출력 노드를 갖는 FCrow를 하나씩 생성하고,
    이들 FC-Layer를 적용하는 연산을 직렬 연결하여 결과를 출력하되,
    입력 텐서로부터 H(행의 개수) 길이의 열 벡터가 W(열 개수)*C(채널 길이)개 만큼 추출되어 각각 FCcol을 통과한 후, 입력 텐서 안에서의 기존 값을 대체하고, 이어서, 모든 값이 대체된 텐서로부터, W 길이의 행 벡터가 H*C개만큼 추출되어 각각 FCrow을 통과한 후 기존 값을 대체하며, 마지막으로 C 길이의 채널 벡터가 H*W개만큼 추출되어 각각 FCch을 통과한 후 기존 값을 대체하고,
    FCch은 단일 픽셀 합성곱(1*1 convolution) 연산을 수행하고, FCcol, FCrow은 텐서에 대한 Transpose(Transch,row, Transch,col) 연산과 Pointwise convolution을 수행하는 것을 특징으로 하는
    심층 신경회로에서의 데이터 변환 장치.
  3. 삭제
  4. 입력 텐서가 중간 심층 레이어 중 하나인 경우, 전역적 특징을 추출하기 위한 입력 텐서인 중간 심층 레이어로부터 채널 길이만큼의 입출력 노드를 갖는 FC-Layer(Fully Connected Layer)인 FCch, 중간 심층 레이어로부터 행 방향으로 길이만큼의 입출력 노드를 갖는 FCcol 및 중간 심층 레이어로부터 열 방향으로 길이만큼의 입출력 노드를 갖는 FCrow를 하나씩 생성하는 단계; 및
    이들 FC-Layer를 적용하는 연산을 직렬 연결하여 결과를 출력하는 단계를 포함하되,
    상기 연산을 직렬 연결하여 결과를 출력하는 단계는,
    입력 텐서로부터 H(행의 개수) 길이의 열 벡터가 W(열 개수)*C(채널 길이)개 만큼 추출되어 각각 FCcol을 통과한 후, 입력 텐서 안에서의 기존 값을 대체하고, 이어서, 모든 값이 대체된 텐서로부터, W 길이의 행 벡터가 H*C개만큼 추출되어 각각 FCrow을 통과한 후 기존 값을 대체하며, 마지막으로 C 길이의 채널 벡터가 H*W개만큼 추출되어 각각 FCch을 통과한 후 기존 값을 대체하고,
    FCch은 단일 픽셀 합성곱(1*1 convolution) 연산을 수행하고, FCcol, FCrow은 텐서에 대한 Transpose(Transch,row, Transch,col) 연산과 Pointwise convolution을 수행하는 것을 특징으로 하고,
    상기 심층 레이어에서 생성한 초기 추정 값 또는 이후의 레이어에서 순차적으로 생성하는 중간 출력을 최종출력과 같은 해상도의 확대데이터를 생성하는 단계를 포함하며,
    상기 확대하여 생성하는 단계는,
    입력 텐서에 대해서, 채널축을 2*k으로 압축하는 단계;
    앞부분 채널 k개의 원소를 영상 수평방향으로 매핑하는 수평 변환 텐서를 생성하는 단계;
    뒷부분의 k개의 원소를 이용하여 영상 수직방향으로 매핑하는 수직 변환 텐서를 생성하는 단계;
    수평 변환 텐서를 다시 수직방향으로 선형보간법을 통하여 확대한 ‘수평변환 수직보간 텐서’를 생성하는 단계;
    수직 변환 텐서를 수평방향으로 선형보간하여 확대한 ‘수직변환 수평보간 텐서’를 생성하는 단계; 및
    상기 생성된 ‘수평변환 수직보간 텐서’와 ‘수직변환 수평보간 텐서’를 평균 연산하여 최종적으로 수평, 수직 방향으로 k배 확대된 텐서를 생성하는 단계를 포함하는 것을 특징으로 하는 심층 신경회로에서의 데이터 변환 방법.
  5. 삭제
  6. 삭제
  7. 입력단과 출력단은 영상 해상도는 높고, 채널은 얇고, 중간의 심층 레이어는 영상 해상도는 낮고, 채널은 두꺼운 형태 특징을 갖는 딥러닝 네트워크에서의 채널-영상 직접변환 방법에 있어서,
    입력 텐서에 대해서, 채널축을 2*k으로 압축하는 단계;
    앞부분 채널 k개의 원소를 영상 수평방향으로 매핑하는 수평 변환 텐서를 생성한 후, 뒷부분의 k개의 원소를 이용하여 영상 수직방향으로 매핑하는 수직 변환 텐서를 생성하는 단계;
    수평 변환 텐서를 다시 수직방향으로 선형보간법을 통하여 확대한 ‘수평변환 수직보간 텐서’를 생성하고, 수직 변환 텐서를 수평방향으로 선형보간하여 확대한 ‘수직변환 수평보간 텐서’를 생성하는 단계; 및
    상기 생성된 ‘수평변환 수직보간 텐서’와 ‘수직변환 수평보간 텐서’를 연산하여 최종적으로 수평, 수직 방향으로 k배 확대된 텐서를 생성하는 단계를 포함하는 딥러닝 네트워크에서의 채널-영상 직접변환 방법.
KR1020210083336A 2020-07-08 2021-06-25 심층 신경회로에서의 데이터 변환 장치 및 방법 KR102605657B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/370,585 US20220012589A1 (en) 2020-07-08 2021-07-08 Data conversion device and method in deep neural circuit

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200084312 2020-07-08
KR20200084312 2020-07-08

Publications (2)

Publication Number Publication Date
KR20220006464A KR20220006464A (ko) 2022-01-17
KR102605657B1 true KR102605657B1 (ko) 2023-11-29

Family

ID=80051751

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210083336A KR102605657B1 (ko) 2020-07-08 2021-06-25 심층 신경회로에서의 데이터 변환 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102605657B1 (ko)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102532749B1 (ko) * 2017-11-16 2023-05-16 삼성전자주식회사 약한 지도 학습에 기초한 뉴럴 네트워크의 계층적 학습 방법 및 장치

Also Published As

Publication number Publication date
KR20220006464A (ko) 2022-01-17

Similar Documents

Publication Publication Date Title
CN109903228B (zh) 一种基于卷积神经网络的图像超分辨率重建方法
CN111652899B (zh) 一种时空部件图的视频目标分割方法
CN109271933B (zh) 基于视频流进行三维人体姿态估计的方法
CN112396607B (zh) 一种可变形卷积融合增强的街景图像语义分割方法
CN111028150B (zh) 一种快速时空残差注意力视频超分辨率重建方法
CN112750082B (zh) 基于融合注意力机制的人脸超分辨率方法及系统
US9076234B2 (en) Super-resolution method and apparatus for video image
CN111062872A (zh) 一种基于边缘检测的图像超分辨率重建方法及系统
CN112070670B (zh) 全局-局部分离注意力机制的人脸超分辨率方法及系统
CN110728682A (zh) 一种基于残差金字塔池化神经网络的语义分割方法
CN103985085A (zh) 图像超分辨率放大的方法和装置
JP2015232869A (ja) 画像処理装置、画像処理方法及び画像処理プログラム
JPWO2011111819A1 (ja) 画像処理装置、画像処理プログラム、および、画像を生成する方法
CN109191511A (zh) 一种基于卷积神经网络的双目立体匹配方法
CN111696038A (zh) 图像超分辨率方法、装置、设备及计算机可读存储介质
CN104657962A (zh) 基于级联线性回归的图像超分辨重建方法
Dai et al. Dictionary-based multiple frame video super-resolution
CN105513033A (zh) 一种非局部联合稀疏表示的超分辨率重建方法
CN111445432A (zh) 一种基于信息融合卷积神经网络的图像显著性检测方法
JP7174568B2 (ja) 超解像装置およびそのプログラム
CN113902620A (zh) 一种基于可变形卷积网络的视频超分辨率系统及方法
CN114331842A (zh) 结合地形特征的dem超分辨率重建方法
KR102605657B1 (ko) 심층 신경회로에서의 데이터 변환 장치 및 방법
CN113129231B (zh) 一种基于对抗生成网络生成高清图像的方法及系统
CN113888491A (zh) 基于非局部特征的多级高光谱图像递进超分方法及系统

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant