KR20220116800A - 영역 정보를 활용한 가장자리 탐지 장치 및 그 방법 - Google Patents

영역 정보를 활용한 가장자리 탐지 장치 및 그 방법 Download PDF

Info

Publication number
KR20220116800A
KR20220116800A KR1020210020093A KR20210020093A KR20220116800A KR 20220116800 A KR20220116800 A KR 20220116800A KR 1020210020093 A KR1020210020093 A KR 1020210020093A KR 20210020093 A KR20210020093 A KR 20210020093A KR 20220116800 A KR20220116800 A KR 20220116800A
Authority
KR
South Korea
Prior art keywords
data
circuit
prototype
feature
feature data
Prior art date
Application number
KR1020210020093A
Other languages
English (en)
Inventor
박영현
서준
문재균
Original Assignee
에스케이하이닉스 주식회사
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이하이닉스 주식회사, 한국과학기술원 filed Critical 에스케이하이닉스 주식회사
Priority to KR1020210020093A priority Critical patent/KR20220116800A/ko
Priority to US17/456,313 priority patent/US20220262006A1/en
Publication of KR20220116800A publication Critical patent/KR20220116800A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

본 기술에 의한 가장자리 탐지 장치는 입력 이미지에서 제 1 특징 데이터와 제 2 특징 데이터를 추출하는 특징 추출 회로; 제 1 특징 데이터와 입력 레이블을 이용하여 물체의 전경 정보와 배경 정보를 포함하는 프로토타입 데이터를 생성하는 프로토타입 생성 회로; 제 1 특징 데이터와 프로토타입 데이터를 이용하여 물체의 영역을 탐지하여 분할 마스크를 생성하는 영역 탐지 회로; 및 분할 마스크와 제 2 특징 데이터를 조합하여 가장자리 맵을 생성하는 가장자리 추출 회로를 포함한다.

Description

영역 정보를 활용한 가장자리 탐지 장치 및 그 방법{DEVICE FOR DETECTING EDGE USING SEGMENTATION INFORMATION AND METHOD THEREOF}
본 기술은 영역 정보를 활용하여 입력된 이미지에서 물체의 가장자리를 탐지하는 장치와 그 방법에 관한 것이다.
이미지에서 물체의 가장자리를 탐지하는 기술은 물체 재구축, 이미지 생성, 및 의약 영상 처리 등 다양한 목적으로 활용될 수 있다.
최근 가장자리 탐지를 위하여 신경망 기술을 적용함으로써 성능을 향상시키고 있다.
그러나 종래에는 신경망 학습을 위해 아주 많은 데이터가 필요한 문제가 있다.
이에 따라 적은 수의 학습 데이터를 이용하여 신경망을 학습시키는 경우에도 가장자리 탐지 성능을 향상시키는 기술이 요구되고 있다.
US 10410353 B2 US 10482603 B1
Deng, R., Shen, C., Liu, S., Wang, H., Liu, X.: Learning to predict crisp boundaries. In: Proceedings of the European Conference on Computer Vision (ECCV). pp. 562?578 (2018)
본 기술은 적은 수의 학습 데이터를 가지고 신경망을 학습시켜 가장자리를 탐지하는 장치 및 그 방법을 제공한다.
본 기술은 영역 정보를 활용하여 가장자리를 탐지할 수 있는 장치 및 방법을 제공한다.
본 발명의 일 실시예에 의한 가장자리 탐지 장치는 입력 이미지에서 제 1 특징 데이터와 제 2 특징 데이터를 추출하는 특징 추출 회로; 제 1 특징 데이터와 입력 레이블을 이용하여 물체의 전경 정보와 배경 정보를 포함하는 프로토타입 데이터를 생성하는 프로토타입 생성 회로; 제 1 특징 데이터와 프로토타입 데이터를 이용하여 물체의 영역을 탐지하여 분할 마스크를 생성하는 영역 탐지 회로; 및 분할 마스크와 제 2 특징 데이터를 조합하여 가장자리 맵을 생성하는 가장자리 추출 회로를 포함한다.
본 발명의 일 실시예에 의한 가장자리 탐지 방법은 입력 이미지를 인코딩하여 제 1 특징 데이터와 제 2 특징 데이터를 출력하는 제 1 단계; 제 1 특징 데이터와 입력 레이블을 이용하여 물체의 전경 정보와 배경 정보를 포함하는 프로토타입 데이터를 생성하는 제 2 단계; 제 1 특징 데이터와 프로토타입 데이터를 이용하여 물체의 영역을 탐지하여 분할 마스크를 생성하는 제 3 단계; 및 분할 마스크와 제 2 특징 데이터를 조합하여 가장자리 맵을 생성하는 제 4 단계를 포함한다.
본 기술을 통해 신경망을 학습시키는데 필요한 학습 데이터 개수가 작은 경우에도 가장자리 탐지 성능을 향상시킬 수 있다.
본 기술은 영역 정보를 이용하여 가장자리를 탐지함으로써 가장자리 탐지 성능을 향상시킬 수 있다.
도 1은 본 발명의 일 실시예에 의한 가장자리 탐지 장치를 나타내는 블록도.
도 2는 본 발명의 일 실시예에 의한 특징 추출 회로를 나타내는 블록도.
도 3은 본 발명의 일 실시예에 의한 프로토타입 생성 회로를 나타내는 블록도.
도 4는 본 발명의 일 실시예에 의한 가장자리 탐지 회로를 나타내는 블록도.
도 5는 본 발명의 일 실시예에 의한 디코더 회로를 나타내는 블록도.
도 6은 본 발명의 일 실시예에 의한 프로토타입 생성 회로와 영역 탐지 회로의 학습 동작을 설명하는 블록도.
도 7은 본 발명의 일 실시예에 의한 프로토타입 생성 회로와 학습 동작을 설명하는 블록도.
이하에서는 첨부한 도면을 참조하여 본 발명의 실시예를 개시한다.
도 1은 본 발명의 일 실시예에 의한 가장자리 탐지 장치(1000)를 나타내는 블록도이다.
이하에서는 추론 동작을 중심으로 가장자리 탐지 장치(1000)의 구성을 설명하고, 학습 동작에 관련된 내용은 아래에서 다시 구체적으로 개시한다.
가장자리 탐지 장치(1000)는 특징 추출 회로(100), 프로토타입 생성 회로(200), 영역 탐지 회로(300), 및 가장자리 추출 회로(400)를 포함한다.
특징 추출 회로(100)는 입력 이미지에서 특징 데이터를 추출한다.
이하에서 입력 이미지는 추론 동작 시 특징 추출 회로(100)에 입력되는 이미지를 지칭한다.
특징 데이터는 프로토타입 생성 회로(200)에 제공되는 제 1 특징 데이터와 가장자리 탐지 회로(400)에 제공되는 제 2 특징 데이터를 포함한다.
특징 추출 회로(100)는 입력 이미지의 크기를 감소시키면서 각 픽셀의 차원을 증가시키는 방식으로 특징 데이터를 생성할 수 있다.
프로토타입 생성 회로(200)는 제 1 특징 데이터 또는 그 일부와 입력 레이블을 조합하여 프로토타입 데이터를 생성한다.
입력 레이블은 입력 이미지에 대응하여 물체의 전경 정보와 배경 정보를 포함하는 이미지로서 예를 들어 비트맵 이미지로 표현될 수 있다.
프로토타입 데이터는 전경 프로토타입 데이터와 배경 프로토타입 데이터를 포함한다.
영역 탐지 회로(300)는 제 1 특징 데이터와 프로토타입 데이터를 이용하여 분할 마스크를 생성한다.
분할 마스크는 입력 이미지에서 가장자리를 추출할 물체가 위치하는 영역을 탐지한 것이다.
가장자리 추출 회로(400)는 제 2 특징 데이터와 분할 마스크를 이용하여 가장자리 맵을 생성한다.
가장자리 추출 회로(400)는 가장자리를 탐지하는 과정에서 분할 마스크를 참조하여 물체가 위치하는 영역에 집중하여 가장자리 맵을 생성한다.
도 2는 본 발명의 일 실시예에 의한 특징 추출 회로(100)를 나타내는 블록도이다.
특징 추출 회로(100)는 제 1 특징 추출 회로(110)를 포함한다.
제 1 특징 추출 회로(110)는 ImageNet을 이용하여 미리 훈련된 신경망 회로를 포함할 수 있다.
제 1 특징 추출 회로(110)는 다수의 인코더 회로(111 ~ 114)를 포함할 수 있다.
다수의 인코더 회로는 입력 이미지의 크기를 일정한 비율로 감소시키되, 각 픽셀에 대응하는 데이터의 차원을 증가시키면서 입력 이미지에 대응하는 특징 데이터를 생성한다.
본 실시예에서 다수의 인코더 회로는 각각 입력된 이미지의 크기를 가로세로 각각 1/2로 감소시킨다.
예를 들어 입력 이미지의 크기가 320 x 320이라고 가정하면, 제 1 인코더 회로(111)에서 출력되는 제 1 인코딩 데이터(E1)의 크기는 160 x 160, 제 2 인코더 회로(112)에서 출력되는 제 2 인코딩 데이터(E2)의 크기는 80 x 80, 제 3 인코더 회로(113)에서 출력되는 제 3 인코딩 데이터(E3)의 크기는 40 x 40, 제 4 인코더 회로(114)에서 출력되는 제 4 인코딩 데이터(E4)의 크기는 20 x 20이다.
제 1 내지 제 인코딩 4 데이터(E1 ~ E4)는 가로세로 픽셀의 개수가 감소하는 대신에, 각 픽셀에 대응하는 정보는 차원이 증가한다.
예를 들어 입력 이미지의 한 픽셀이 1차원인 경우, 제 1 인코딩 데이터(E1)의 한 픽셀은 4차원, 제 2 인코딩 데이터(E2)의 한 픽셀은 16차원, 제 3 인코딩 데이터(E3)의 한 픽셀은 64차원, 제 4 인코딩 데이터(E4)의 한 픽셀은 256차원을 가진다.
인코더 회로의 개수는 실시예에 따라 증가 또는 감소될 수 있다.
특징 추출 회로(100)는 제 2 특징 추출 회로(120)를 더 포함한다.
제 2 특징 추출 회로(120)는 미리 훈련된 신경망 회로를 포함할 수 있다.
본 실시예에서 제 2 특징 추출 회로(120)는 다수의 병목 회로(121 ~ 125)를 포함할 수 있다.
다수의 병목 회로는 가장자리 추출에 적합하도록 입력 이미지와 인코딩 데이터를 변환하여 병목 데이터를 생성한다.
이때 입력 이미지 또는 인코딩 데이터의 크기는 변경되지 않는다.
제 1 병목 회로(121)는 입력 이미지를 변환하여 제 1 병목 데이터(S1)를 생성하고, 제 2 병목 회로(122)는 제 1 인코딩 데이터(E1)를 변환하여 제 2 병목 데이터(S2)를 생성하고, 제 3 병목 회로(123)는 제 2 인코딩 데이터(E2)를 변환하여 제 3 병목 데이터(S3)를 생성하고, 제 4 병목 회로(124)는 제 3 인코딩 데이터(E3)를 변환하여 제 4 병목 데이터(S4)를 생성하고, 제 5 병목 회로(125)는 제 4 인코딩 데이터(E4)를 변환하여 제 5 병목 데이터(S5)를 생성한다.
본 실시예에서 제 1 특징 데이터는 제 1 내지 제 4 인코딩 데이터를 포함하고, 제 2 특징 데이터는 제 1 내지 제 5 병목 데이터를 포함한다.
도 3은 본 발명의 일 실시예에 의한 프로토타입 생성 회로(200)를 나타내는 블록도이다.
프로토타입 생성 회로(200)는 추론 과정에서 입력 이미지를 인코더 회로(110)에 제공하였을 때 제공되는 제 1 특징 데이터와 입력 이미지에 대응하는 지원 레이블을 이용하여 프로토타입 데이터를 생성한다.
전술한 바와 같이 입력 레이블은 입력 이미지에 대응하여 물체의 전경 정보와 배경 정보를 포함하는 이미지이다.
본 실시예에서 프로토타입 생성 회로(200)에 제공되는 제 1 특징 데이터는 도 2의 제 4 인코딩 데이터(E4)이다.
이하에서는, 입력 이미지에 대응하는 제 4 인코딩 데이터를 E4i로 표시한다.
프로토타입 생성 회로(200)는 다운스케일 회로(210)와 마스킹 회로(220) 및 풀링 회로(230)를 포함한다.
다운스케일 회로(210)는 입력 레이블의 크기를 제 4 인코딩 데이터(E4i)의 크기에 맞게 축소하고 각 픽셀이 차지하는 차원의 개수를 제 4 인코딩 데이터(E4i)의 크기에 맞게 조절한다.
예를 들어 제 4 인코딩 데이터(E4i)의 크기가 20 x 20이고 차원의 개수가 256차원인 경우, 다운스케일 회로(210)는 지원 레이블의 크기를 20 x 20으로 조절하고 차원의 개수를 256으로 조절한다.
마스킹 회로(220)는 입력 레이블을 이용하여 제 4 인코딩 데이터(E4i)를 마스킹하는 역할을 한다.
예를 들어 마스킹 회로(220)는 동일한 위치의 픽셀에서 동일한 위치의 차원 데이터끼리 곱셈 연산을 수행하여 결과물을 출력한다.
풀링 회로(230)는 마스킹 회로(220)의 연산 결과로부터 전경 프로토타입 데이터와 배경 프로토타입 데이터를 생성한다.
전경 프로토타입 데이터 및 배경 프로토타입 데이터는 각각 마스킹 회로(220)에서 출력되는 데이터의 차원 개수와 동일한 벡터 데이터이다.
프로토타입 데이터에서 각 차원의 값은 평균 풀링 기법을 통해 결정될 수 있다.
예를 들어 전경 프로토타입 데이터는 물체에 대응하는 전경에 대응하는 데이터들을 차원별로 평균한 데이터이고, 배경 프로토타입 데이터는 물체가 위치하지 않는 배경에 대응하는 데이터들을 차원 별로 평균한 데이터이다.
추론 과정에서는 마스킹 회로(220)에서 출력되는 데이터의 차원 개수에 관계없이 전경 프로토타입 데이터와 배경 프로토타입은 각각 1개씩 생성할 수 있다.
학습과정에서는 영역 탐지 회로(300)의 손실 함수를 계산하기 위해서 마스킹 회로(220)에서 출력되는 데이터의 차원이 n x N 개인 경우 N 개의 차원마다 1개씩의 전경 프로토타입 데이터와 배경 프로토타입 데이터가 생성되어 총 n 개의 프로토타입 데이터를 생성할 수 있다(n, N은 자연수).
학습 과정에 대해서는 아래에서 다시 구체적으로 개시한다.
도 3에서 영역 탐지 회로(300)는 프로토타입 데이터와 입력 이미지에 대응하는 제 4 인코더 데이터(E4i)를 이용하여 분할 마스크를 생성한다.
분할 마스크는 입력 이미지에서 가장자리 추출의 대상이 되는 물체가 위치하는 영역을 탐지한 데이터로서 제 4 인코더 데이터(E4i), 전경 프로토타입 데이터 및 배경 프로토타입 데이터를 이용하여 결정될 수 있다.
예를 들어, 영역 탐지 회로(300)는 제 4 인코더 데이터(E4i)의 픽셀 데이터와 전경 프로토타입 데이터와의 거리 및 제 4 인코더 데이터(E4i)의 픽셀 데이터와 배경 프로토타입 데이터와의 거리를 비교하여 각 픽셀이 전경에 속하는지 배경에 속하는지 결정할 수 있다.
도 4는 본 발명의 일 실시예에 의한 가장자리 추출 회로(400)를 나타내는 블록도이다.
가장자리 추출 회로(400)는 신호 합성 회로(410)와 디코더 회로(420)를 포함한다.
신호 합성 회로(410)는 제 2 특징 데이터와 분할 마스크를 합성하여 디코딩 과정에서 분할 마스크를 참조하여 가장자리 탐지를 수행하도록 한다.
신호 합성 회로(410)는 다수의 병목 데이터를 분할 마스크를 이용하여 마스킹하여 다수의 마스킹 데이터를 생성한다.
전술한 바와 같이 제 1 내지 제 5 병목 데이터(S1 ~ S5)는 스케일이 다른 멀티 스케일의 특징 데이터이다.
도 4에 도시된 바와 같이 분할 마스크는 가장 작은 스케일을 가지므로 분할 마스크와 분할 마스크의 크기를 증가시킨 후 이를 이용하여 대응하는 병목 데이터를 마스킹하여 마스킹 데이터를 생성한다.
이를 위하여 신호 합성 회로(410)는 다수의 마스킹 회로(411 ~ 415)와 다수의 업스케일링 회로(416 ~ 419)를 포함한다.
예를 들어, 마스킹 회로(411)는 제 1 병목 데이터(S1)와 업스케일링 회로(416)의 출력을 연산하여 제 1 마스킹 데이터(M1)를 출력한다.
업스케일링 회로(416)의 출력은 분할 마스크의 크기를 4회 업스케일링하여 크기를 제 1 병목 데이터(S1)의 크기와 일치시킨 신호에 대응한다.
마스킹 회로(412)는 제 2 병목 데이터(S2)와 업스케일링 회로(417)의 출력을 연산하여 제 2 마스킹 데이터(M2)를 출력한다.
업스케일링 회로(417)의 출력은 분할 마스크의 크기를 3회 업스케일링하여 크기를 제 2 병목 데이터(S2)의 크기와 일치시킨 신호에 대응한다.
마스킹 회로(413)는 제 3 병목 데이터(S3)와 업스케일링 회로(418)의 출력을 연산하여 제 3 마스킹 데이터(M3)를 출력한다.
업스케일링 회로(418)의 출력은 분할 마스크의 크기를 2회 업스케일링하여 크기를 제 3 병목 데이터(S3)의 크기와 일치시킨 신호에 대응한다.
마스킹 회로(414)는 제 4 병목 데이터(S4)와 업스케일링 회로(419)의 출력을 연산하여 제 4 마스킹 데이터(M4)를 출력한다.
업스케일링 회로(419)의 출력은 분할 마스크의 크기를 1회 업스케일링하여 크기를 제 4 병목 데이터(S4)의 크기와 일치시킨 신호에 대응한다.
마스킹 회로(415)는 제 5 병목 데이터(S5)와 분할 마스크를 연산하여 제 5 마스킹 데이터(M5)를 출력한다.
마스킹 회로의 연산 방식은 전술한 바와 동일하므로 반복 설명을 생략한다.
디코더 회로(420)는 멀티 스케일의 다수의 마스킹 데이터(M1 ~ M5)를 이용하여 가장자리 탐지 데이터(D1)를 생성한다.
디코더 회로(420)는 예를 들어 CNN(Convolutional Neural Network)과 같은 신경망을 포함할 수 있다.
디코더 회로(420)는 다수의 디코딩 회로를 포함하는데 본 실시예에서는 제 1 내지 제 5 디코딩 회로(510 ~ 550)를 포함한다.
본 실시예에서 디코더 회로(420)는 멀티 스케일의 마스킹 데이터를 순차적으로 디코딩하여 최종적으로 가장자리 탐지 데이터(D1)를 생성한다.
이를 위하여 제 1 내지 제 5 디코딩 회로(510 ~ 550)는 각각 대응하는 마스킹 데이터와 이전 단계의 디코딩 결과를 이용하여 신경망 연산을 수행한다.
예를 들어, 제 1 디코딩 회로(510)는 제 2 디코딩 회로(520)의 출력(D2)을 업스케일링한 데이터와 제 1 마스킹 데이터(M1)를 연접한 후 그 결과를 이용하여 컨벌루션 연산을 수행한다.
제 2 내지 제 4 디코딩 회로(520 ~ 540)의 동작도 이와 유사하다.
다만, 제 5 디코딩 회로(550)는 제 5 마스킹 데이터(M5)만을 이용하여 컨벌루션 연산을 수행하여 결과를 출력한다.
도 5는 제 1 디코딩 회로(510)를 나타내는 블록도이다.
본 실시예에서 제 1 디코딩 회로(510)는 순차적으로 연결된 제 1 내지 제 3 컨벌루션 회로(501, 502, 503), 연접 연산 회로(504), 업스케일링 회로(505, 506)를 포함한다.
제 1 컨벌루션 회로(501)는 제 2 컨벌루션 회로(502)의 출력에 대해서 컨벌루션 연산을 수행하여 제 1-1 디코더 데이터(D1,1)를 출력하고, 제 2 컨벌루션 회로(502)는 제 3 컨벌루션 회로(503)의 출력에 대해서 컨벌루션 연산을 수행하여 제 1-2 디코더 데이터(D1,2)를 출력하고, 제 3 컨벌루션 회로(503)는 연접 연산 회로(504)의 출력에 대해서 컨벌루션 연산을 수행한다.
연접 연산 회로(504)는 제 1 마스킹 데이터(M1), 업스케일링 회로(505, 506)의 출력을 연접하여 출력한다.
연접 연산을 통해 차원의 수가 증가할 수 있다. 예를 들어 제 1 마스킹 데이터(M1)의 크기와 차원이 320 x 320과 20이고, 업스케일 회로(505, 506) 각각의 출력의 크기와 차원이 320 x 320과 10인 경우, 연접 연산 회로(504)의 출력의 크기와 차원은 320 x 320과 40이다.
업스케일링 회로(505)는 제 2-1 디코더 데이터(D2,1)를 업스케일링하고, 업스케일링 회로(506)는 제 2-2 디코더 데이터(D2,2)를 업스케일링한다.
제 2 내지 제 5 디코딩 회로(520 ~ 550)는 제 1 디코딩 회로(510)와 실질적으로 동일한 구성을 가지므로 구체적인 설명은 생략한다.
도 6 및 도 7은 본 발명의 일 실시예에 의한 가장자리 탐지 장치(1000)의 학습 방법을 설명하는 블록도이다.
가장자리 탐지 장치(1000)의 학습을 위하여 사용되는 데이터 셋은 지원 이미지, 지원 레이블, 질의 이미지, 질의 레이블을 포함한다.
예를 들어 데이터 셋에 포함되는 물체 종류(클래스)는 8백 개이며 클래스마다 5개의 지원 이미지와 5개의 질의 이미지가 포함될 수 있다.
데이터 셋에 포함되는 지원 이미지 및 질의 이미지마다 전경 정보와 배경 정보를 포함하는 지원 레이블과 질의 레이블이 존재하므로, 지원 레이블과 질의 레이블의 개수는 총 8천개이다.
학습 과정에서는 전술한 지원 이미지, 지원 레이블, 질의 이미지 및 질의 레이블이 사용된다.
매 학습 단계는 하나의 클래스를 기준으로 진행될 수 있으며 다음 학습 단계는 다른 클래스를 기준으로 진행될 수 있다.
도 6은 학습 과정에서 영역 탐지 회로(300)에서의 손실 함수를 계산하는 방법을 설명한다.
특징 추출 회로의 인코더 회로(110)는 질의 이미지에 대응하는 제 4 인코딩 데이터와 지원 이미지에 대응하는 제 4 인코딩 데이터를 생성한다.
이하에서는, 질의 이미지에 대응하는 제 4 인코딩 데이터를 질의 특징 데이터(E4q), 지원 이미지에 대응하는 제 4 인코딩 데이터를 지원 특징 데이터(E4s)로도 표시할 수 있다.
프로토타입 생성 회로(200)에는 지원 이미지에 대응하는 지원 특징 데이터(E4s)와 지원 레이블이 인가된다.
전술한 바와 같이 프로토타입 생성 회로(200)는 학습 과정에서 마스킹 회로(220)에서 출력되는 데이터의 차원이 n x N 개인 경우 N 개의 차원마다 1개씩의 전경 프로토타입 데이터와 배경 프로토타입 데이터가 생성되어 총 n 개의 프로토타입 데이터를 생성한다(n, N은 자연수).
이를 위하여 풀링 회로(230)는 N 개의 차원 단위로 한 쌍의 프로토타입 데이터를 생성한다. 즉, n 개의 전경 프로토타입 데이터와 n 개의 배경 프로토타입 데이터를 생성한다.
매 학습 단계에서는 선택된 클래스에 대응하는 하나 또는 둘 이상의 지원 이미지와 이에 대응하는 지원 레이블을 이용하여 프로토타입 데이터를 결정한다.
둘 이상의 지원 이미지와 이에 대응하는 지원 레이블을 이용하는 경우 사용되는 지원 이미지에 대응하여 n 개의 프로토타입 데이터가 다수개 생성될 수 있다.
이 경우 n 개의 프로토타입 데이터 다수 개를 차원별로 평균하여 최종적으로 n 개의 프로토타입 데이터를 생성할 수 있다.
학습 과정에서는 질의 특징 데이터(E4q)가 영역 탐지 회로(300)에 인가된다.
영역 탐지 회로(300)는 n 개의 프로토타입 데이터와 질의 특징 데이터(E4q)를 이용하여 n개의 분할 마스크를 생성한다.
즉 영역 탐지 회로(300)는 n 개의 프로토타입 데이터 중 하나의 프로토타입 데이터와 질의 특징 데이터(E4q)를 이용하여 n 개의 분할 마스크 중 하나를 생성한다.
n 개의 분할 마스크와 질의 레이블을 비교하여 영역 탐지 손실 함수(Lseg)를 계산할 수 있다.
영역 탐지 손실 함수(Lseg)를 위하여 예를 들어 질의 레이블과 n 개의 분할 마스크 각각에 대해서 평균 제곱 에러(Mean-squared error)를 계산할 수 있다.
매 학습 단계에서 데이터 셋에 포함된 하나 또는 둘 이상의 질의 이미지를 사용할 수 있다.
만일 둘 이상의 질의 이미지를 사용한다면 각 질의 이미지에 대응하는 영역 탐지 손실 함수가 다수 개 산출되는데 이들의 평균을 영역 탐지 손실 함수(Lseg)로 정할 수 있다.
도 7은 가장자리 탐지 장치(1000)의 학습 방법을 설명하는 블록도이다.
가장자리 탐지 장치(1000)의 학습 과정에서는 프로토타입 생성 회로(200)는 추론 과정에서와 마찬가지로 하나 또는 둘 이상의 지원 이미지에 대응하는 지원 특징 데이터(E4s)와 지원 레이블을 이용하여 하나의 프로토타입 데이터를 생성한다.
또한 영역 탐지 회로(300)는 질의 이미지에 대응하는 질의 특징 데이터(E4q)와 프로토타입 데이터를 이용하여 하나의 분할 마스크를 생성한다.
가장자리 추출 회로(400)는 1개의 분할 마스크와 질의 이미지에 대응하는 제 2 특징 데이터를 이용하여 가장자리 맵을 생성한다.
학습을 위해서는 가장자리 추출 회로(400)에서 추출된 가장자리 맵과 질의 이미지에 대응하는 실제 가장자리 맵을 비교하여 가장자리 손실 함수를 계산한다.
가장자리 손실 함수(Ledge)는 종래의 기법을 사용하여 계산할 수 있다.
예를 들어, 가장자리 손실 함수(Ledge)는 비특허문헌 1에 소개된 크로스엔트로피 손실 함수(Lce)와 다이스 손실 함수(Ldice)의 합으로 계산할 수 있다.
만일 둘 이상의 질의 이미지를 사용한다면 각 질의 이미지에 대응하는 가장자리 손실 함수가 다수 개 산출되는데 이들의 평균을 가장자리 손실 함수(Ledge)로 정할 수 있다.
본 실시예에서는 영역 탐지 손실 함수(Lseg)와 가장자리 손실 함수(Ledge)의 합을 총 손실 함수로 결정한다.
각 학습 단계에서는 총 손실 함수의 값을 최소화하는 방향으로 특징 추출 회로(100), 영역 탐지 회로(300), 및 가장자리 추출 회로(400)에 포함되는 신경망 계수를 조절할 수 있다.
예를 들어 도 2의 제 2 특징 추출 회로(120), 영역 탐지 회로(300), 및 도 4의 디코더 회로(420)에 포함되는 신경망 계수를 조절할 수 있다.
이후 데이터 셋에 포함된 새로운 클래스를 선택하여 학습 단계를 반복할 수 있다.
본 발명의 권리범위는 이상의 개시로 한정되는 것은 아니다. 본 발명의 권리범위는 청구범위에 문언적으로 기재된 범위와 그 균등범위를 기준으로 해석되어야 한다.
1000: 가장자리 탐지 장치
100: 특징 추출 회로
110: 제 1 특징 추출 회로
111, 112, 113, 114: 인코더 회로
120: 제 2 특징 추출 회로
121, 122, 123, 124, 125: 병목 회로
200: 프로토타입 생성 회로
210: 다운스케일 회로
220: 마스킹 회로
230: 풀링 회로
300: 영역 탐지 회로
400: 가장자리 추출 회로
410: 신호 합성 회로
420: 디코더 회로

Claims (20)

  1. 입력 이미지에서 제 1 특징 데이터와 제 2 특징 데이터를 추출하는 특징 추출 회로;
    상기 제 1 특징 데이터와 입력 레이블을 이용하여 물체의 전경 정보와 배경 정보를 포함하는 프로토타입 데이터를 생성하는 프로토타입 생성 회로;
    상기 제 1 특징 데이터와 상기 프로토타입 데이터를 이용하여 물체의 영역을 탐지하여 분할 마스크를 생성하는 영역 탐지 회로; 및
    상기 분할 마스크와 상기 제 2 특징 데이터를 조합하여 가장자리 맵을 생성하는 가장자리 추출 회로
    를 포함하는 가장자리 탐지 장치.
  2. 청구항 1에 있어서, 상기 특징 추출 회로는
    상기 입력 이미지에서 상기 제 1 특징 데이터를 추출하는 제 1 특징 추출 회로; 및
    상기 입력 이미지 및 상기 제 1 특징 데이터에서 제 2 특징 데이터를 추출하는 제 2 특징 추출 회로
    를 포함하는 가장자리 탐지 장치.
  3. 청구항 2에 있어서, 상기 제 1 특징 추출 회로는 상기 입력 이미지의 크기를 순차적으로 변화시키는 연산을 통해 상기 제 1 특징 데이터에 대응하는 다수의 인코딩 데이터를 출력하는 다수의 인코딩 회로를 포함하고, 상기 제 2 특징 추출 회로는 상기 입력 이미지 및 상기 다수의 인코딩 데이터에 대해서 연산을 수행하여 상기 제 2 특징 데이터에 대응하는 멀티 레벨의 병목 데이터를 출력하는 다수의 병목 회로를 포함하는 가장자리 탐지 장치.
  4. 청구항 1에 있어서, 상기 프로토타입 생성 회로는 상기 입력 레이블을 이용하여 상기 제 1 특징 데이터를 마스킹하는 마스킹 회로; 및 상기 마스킹 회로의 출력에서 상기 전경 정보에 대응하는 전경 프로토타입 데이터와 상기 배경 정보에 대응하는 배경 프로토타입 데이터를 생성하는 풀링 회로를 포함하는 가장자리 탐지 장치.
  5. 청구항 4에 있어서, 상기 프로토타입 생성 회로는 상기 입력 레이블의 크기를 상기 제 1 특징 데이터의 크기로 축소하는 다운스케일 회로를 더 포함하는 가장자리 탐지 장치.
  6. 청구항 1에 있어서, 상기 영역 탐지 회로는 상기 제 1 특징 데이터의 각 픽셀과 상기 배경 정보를 나타내는 벡터 사이의 거리 및 상기 제 1 특징 데이터의 각 픽셀과 상기 전경 정보를 나타내는 벡터 사이의 거리를 비교하여 상기 분할 마스크를 생성하는 가장자리 탐지 장치.
  7. 청구항 1에 있어서, 상기 가장자리 추출 회로는
    상기 분할 마스크를 이용하여 상기 제 2 특징 데이터를 마스킹하여 마스킹 데이터를 출력하는 신호 합성 회로; 및
    상기 마스킹 데이터를 디코딩하여 상기 가장자리 맵을 생성하는 디코더 회로
    를 포함하는 가장자리 탐지 장치.
  8. 청구항 7에 있어서, 상기 제 2 특징 데이터는 크기가 상이한 멀티 레벨의 병목 데이터를 포함하고, 상기 신호 합성 회로는 상기 분할 마스크의 크기를 순차적으로 증가시키는 다수의 업스케일링 회로를 포함하여 상기 분할 마스크 또는 상기 다수의 업스케일링 회로의 출력을 이용하여 상기 다수의 병목 데이터를 마스킹하여 멀티 레벨의 상기 마스킹 데이터를 출력하는 가장자리 탐지 장치.
  9. 청구항 8에 있어서, 상기 디코더 회로는 상기 다수의 병목 데이터를 디코딩하는 순차적으로 연결된 다수의 디코딩 회로를 포함하되, 상기 다수의 디코딩 회로 중 어느 하나는 상기 다수의 병목 데이터 중 어느 하나와 상기 다수의 디코딩 회로 중 다른 하나에서 출력되는 디코딩 데이터를 연접하여 연산을 수행하는 신경망 회로를 포함하고, 상기 다수의 디코딩 회로 중 최종 디코딩 회로에서 상기 가장자리 맵을 출력하는 가장자리 탐지 장치.
  10. 청구항 9에 있어서, 상기 다수의 디코딩 회로 중 어느 하나는 순차적으로 연결된 다수의 컨벌루션 신경망을 포함하고 상기 다수의 컨벌루션 신경망 중 어느 하나에서 디코딩 데이터를 출력하는 가장자리 탐지 장치.
  11. 청구항 1에 있어서, 학습 과정에서 상기 특징 추출 회로는 질의 이미지에 대응하는 질의 특징 데이터를 생성하여 상기 영역 탐지 회로에 제공하고, 지원 이미지에 대응하는 지원 특징 데이터를 생성하여 상기 프로토타입 생성 회로에 제공하는 가장자리 탐지 장치.
  12. 청구항 11에 있어서, 상기 학습 과정에서 상기 프로토타입 생성 회로는 상기 지원 특징 데이터와 상기 지원 이미지의 전경 정보와 배경 정보를 포함하는 지원 레이블을 이용하여 상기 프로토타입 데이터를 생성하는 가장자리 탐지 장치.
  13. 청구항 12에 있어서, 상기 학습 과정에서 총 손실 함수는 상기 영역 탐지 손실 함수와 가장자리 손실 함수의 합으로 결정하되,
    상기 영역 탐지 손실 함수를 계산하기 위하여 상기 프로토타입 생성 회로는 상기 지원 특징 데이터에 포함된 다수의 차원을 다수 개의 단위로 구분하고 각 단위마다 하나의 전경 정보와 배경 정보가 대응하도록 다수 개의 프로토타입 데이터를 생성하고, 상기 영역 탐지 회로는 상기 다수 개의 프로토타입 데이터와 상기 질의 특징 데이터를 이용하여 다수 개의 분할 마스크를 생성하는 가장자리 탐지 장치.
  14. 청구항 13에 있어서, 상기 가장자리 손실 함수를 계산하기 위하여 상기 프로토타입 생성 회로는 상기 지원 특징 데이터에 하나의 전경 정보와 배경 정보가 대응하도록 하나의 프로토타입 데이터를 생성하고, 상기 영역 탐지 회로는 상기 하나의 프로토타입 데이터와 상기 질의 특징 데이터를 이용하여 하나의 분할 마스크를 생성하는 가장자리 탐지 장치.
  15. 입력 이미지를 인코딩하여 제 1 특징 데이터와 제 2 특징 데이터를 출력하는 제 1 단계;
    상기 제 1 특징 데이터와 입력 레이블을 이용하여 물체의 전경 정보와 배경 정보를 포함하는 프로토타입 데이터를 생성하는 제 2 단계;
    상기 제 1 특징 데이터와 상기 프로토타입 데이터를 이용하여 물체의 영역을 탐지하여 분할 마스크를 생성하는 제 3 단계; 및
    상기 분할 마스크와 상기 제 2 특징 데이터를 조합하여 가장자리 맵을 생성하는 제 4 단계
    를 포함하는 가장자리 탐지 방법.
  16. 청구항 15에 있어서, 상기 제 1 단계는
    입력 이미지를 순차적으로 인코딩하여 멀티 레벨의 상기 제 1 특징 데이터를 생성하는 단계; 및
    상기 입력 이미지와 멀티 레벨의 상기 제 1 특징 데이터를 연산하여 멀티 레벨의 상기 제 2 특징 데이터를 출력하는 단계
    를 포함하는 가장자리 탐지 방법.
  17. 청구항 15에 있어서, 상기 제 2 단계는
    상기 입력 레이블을 이용하여 상기 제 1 특징 데이터를 마스킹하여 마스킹된 데이터를 생성하는 단계; 및
    상기 마스킹된 데이터에서 상기 전경 정보에 대응하는 전경 프로토타입 데이터와 상기 배경 정보에 대응하는 배경 프로토타입 데이터를 생성하는 단계
    를 포함하는 가장자리 탐지 방법.
  18. 청구항 17에 있어서, 상기 제 3 단계는
    상기 제 1 특징 데이터의 각 픽셀과 상기 전경 프로토타입 데이터 사이의 거리 및 상기 배경 프로토타입 데이터 사이의 거리를 측정하여 상기 분할 마스크를 생성하는 가장자리 탐지 방법.
  19. 청구항 16에 있어서, 상기 제 4 단계는
    상기 분할 마스크 또는 상기 분할 마스크를 업스케일링한 맵을 이용하여 상기 멀티 레벨의 제 2 특징 데이터를 마스킹하여 멀티 레벨의 마스킹 데이터를 출력하는 단계; 및
    상기 멀티 레벨의 마스킹 데이터를 순차적으로 디코딩하는 단계
    를 포함하는 가장자리 탐지 방법.
  20. 청구항 19에 있어서, 상기 순차적으로 디코딩하는 단계 중 어느 하나의 디코딩 단계는
    상기 멀티 레벨의 마스킹 데이터를 다른 하나의 디코딩 단계에서 출력된 디코딩 데이터를 연접하여 연접 데이터를 출력하는 단계; 및
    상기 연접 데이터에 대해서 신경망 연산을 수행하여 디코딩 데이터를 출력하는 단계
    를 포함하는 가장자리 탐지 방법.
KR1020210020093A 2021-02-15 2021-02-15 영역 정보를 활용한 가장자리 탐지 장치 및 그 방법 KR20220116800A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210020093A KR20220116800A (ko) 2021-02-15 2021-02-15 영역 정보를 활용한 가장자리 탐지 장치 및 그 방법
US17/456,313 US20220262006A1 (en) 2021-02-15 2021-11-23 Device for detecting an edge using segmentation information and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210020093A KR20220116800A (ko) 2021-02-15 2021-02-15 영역 정보를 활용한 가장자리 탐지 장치 및 그 방법

Publications (1)

Publication Number Publication Date
KR20220116800A true KR20220116800A (ko) 2022-08-23

Family

ID=82800481

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210020093A KR20220116800A (ko) 2021-02-15 2021-02-15 영역 정보를 활용한 가장자리 탐지 장치 및 그 방법

Country Status (2)

Country Link
US (1) US20220262006A1 (ko)
KR (1) KR20220116800A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115588024A (zh) * 2022-11-25 2023-01-10 东莞市兆丰精密仪器有限公司 一种基于人工智能的复杂工业影像边缘提取方法及装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116758289B (zh) * 2023-08-14 2023-10-24 中国石油大学(华东) 一种自补偿学习的小样本图像分割方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10410353B2 (en) 2017-05-18 2019-09-10 Mitsubishi Electric Research Laboratories, Inc. Multi-label semantic boundary detection system
US10482603B1 (en) 2019-06-25 2019-11-19 Artificial Intelligence, Ltd. Medical image segmentation using an integrated edge guidance module and object segmentation network

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220398737A1 (en) * 2021-06-10 2022-12-15 Nanjing University Of Posts And Telecommunications Medical image segmentation method based on u-network
US11861860B2 (en) * 2021-09-29 2024-01-02 Amazon Technologies, Inc. Body dimensions from two-dimensional body images

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10410353B2 (en) 2017-05-18 2019-09-10 Mitsubishi Electric Research Laboratories, Inc. Multi-label semantic boundary detection system
US10482603B1 (en) 2019-06-25 2019-11-19 Artificial Intelligence, Ltd. Medical image segmentation using an integrated edge guidance module and object segmentation network

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Deng, R., Shen, C., Liu, S., Wang, H., Liu, X.: Learning to predict crisp boundaries. In: Proceedings of the European Conference on Computer Vision (ECCV). pp. 562?578 (2018)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115588024A (zh) * 2022-11-25 2023-01-10 东莞市兆丰精密仪器有限公司 一种基于人工智能的复杂工业影像边缘提取方法及装置

Also Published As

Publication number Publication date
US20220262006A1 (en) 2022-08-18

Similar Documents

Publication Publication Date Title
CN109299274B (zh) 一种基于全卷积神经网络的自然场景文本检测方法
CN109191382B (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
CN112149619B (zh) 一种基于Transformer模型自然场景文字识别方法
KR20220066945A (ko) 이미지 프로세싱 방법, 장치, 전자 디바이스 및 컴퓨터 판독가능 저장 매체
CN110929665B (zh) 一种自然场景曲线文本检测方法
CN112183501B (zh) 深度伪造图像检测方法及装置
CN110147788B (zh) 一种基于特征增强crnn的金属板带产品标签文字识别方法
CN112801280B (zh) 视觉深度自适应神经网络的一维卷积位置编码方法
KR20220116800A (ko) 영역 정보를 활용한 가장자리 탐지 장치 및 그 방법
CN115131797B (zh) 一种基于特征增强金字塔网络的场景文本检测方法
CN111401247B (zh) 一种基于级联卷积神经网络的人像分割方法
CN114140786B (zh) 基于HRNet编码与双分支解码的场景文本识别方法
CN113052775B (zh) 一种图像去阴影方法及装置
Ma et al. Fusioncount: Efficient crowd counting via multiscale feature fusion
CN112258436A (zh) 图像处理模型的训练方法、装置、图像处理方法及模型
CN110992374A (zh) 一种基于深度学习的头发精细化分割方法及系统
CN114332133A (zh) 基于改进CE-Net的新冠肺炎CT图像感染区分割方法及系统
CN107169498B (zh) 一种融合局部和全局稀疏的图像显著性检测方法
CN113705575B (zh) 一种图像分割方法、装置、设备及存储介质
CN110826534A (zh) 一种基于局部主成分分析的人脸关键点检测方法及系统
CN113065561A (zh) 基于精细字符分割的场景文本识别方法
CN113096133A (zh) 一种基于注意力机制的语义分割网络的构建方法
Zhu et al. TransText: Improving scene text detection via transformer
CN110516669B (zh) 一种复杂环境下多层级多尺度融合的文字检测方法
Haris et al. An efficient super resolution based on image dimensionality reduction using accumulative intensity gradient

Legal Events

Date Code Title Description
A201 Request for examination