KR20220047560A - 이미지 내의 관심 물품을 분할하기 위해 이미지를 분석하는 컴퓨터 구현 방법 - Google Patents

이미지 내의 관심 물품을 분할하기 위해 이미지를 분석하는 컴퓨터 구현 방법 Download PDF

Info

Publication number
KR20220047560A
KR20220047560A KR1020227000205A KR20227000205A KR20220047560A KR 20220047560 A KR20220047560 A KR 20220047560A KR 1020227000205 A KR1020227000205 A KR 1020227000205A KR 20227000205 A KR20227000205 A KR 20227000205A KR 20220047560 A KR20220047560 A KR 20220047560A
Authority
KR
South Korea
Prior art keywords
convolution
separable
image
point
module
Prior art date
Application number
KR1020227000205A
Other languages
English (en)
Inventor
차영진
최우람
Original Assignee
유니버시티 오브 매니토바
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 유니버시티 오브 매니토바 filed Critical 유니버시티 오브 매니토바
Publication of KR20220047560A publication Critical patent/KR20220047560A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • G06N3/0481
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30108Industrial image inspection
    • G06T2207/30132Masonry; Concrete

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

이미지 내의 관심 물품을 분할하기 위해 이미지를 분석하는 컴퓨터 구현 방법은, (i) n1 픽셀의 폭, n2 픽셀의 높이 및 d 채널의 깊이를 갖는 이미지를 수신하는 단계; (ii) 관심 물품을 분할하도록 구성된 기계 학습 알고리즘을 사용하여 이미지를 처리하는 단계로서, 상기 기계 학습 알고리즘은: 적어도 하나의 컨벌루션 계층; 상기 적어도 하나의 컨벌루션 계층 다음에, 일련의 분리 가능한 컨벌루션을 포함하는 적어도 하나의 분리 가능한 컨벌루션 모듈로서, 각각의 분리 가능한 컨벌루션은 깊이별 컨벌루션 및 점별 컨벌루션을 포함하는, 상기 적어도 하나의 분리 가능한 컨벌루션 모듈; 상기 적어도 하나의 분리 가능한 컨벌루션 모듈 다음의 풀링 모듈; 및 상기 풀링 모듈 다음의 디코더 모듈을 포함하는, 컨벌루션 신경망을 포함하는, 상기 관심 물품을 분할하도록 구성된 기계 학습 알고리즘을 사용하여 상기 이미지를 처리하는 단계; 및 (iii) 상기 기계 학습 알고리즘에 의해 존재한다고 결정되는 경우 관심 물품의 위치가 표시된 이미지를 디스플레이하는 단계를 포함한다.

Description

이미지 내의 관심 물품을 분할하기 위해 이미지를 분석하는 컴퓨터 구현 방법
본 발명은 일반적으로 이미지 내의 관심 물품을 분할하기 위해 이미지를 분석하는 컴퓨터 구현 방법에 관한 것으로, 보다 구체적으로는 적어도 하나의 컨벌루션 계층(convolution layer), 적어도 하나의 분리 가능한 컨벌루션 모듈, 풀링 모듈(pooling module) 및 디코더 모듈(decoder module)을 갖는 기계 학습 알고리즘을 포함하는 방법에 관한 것이다.
인프라 구조의 자동화된 평가에 관한 연구에서 컴퓨터 비전 알고리즘 구현을 기반으로 하는 방법이 인간의 육안 검사를 보완할 수 있는 잠재적인 방법으로 제안되었다. 그러나 컴퓨터 비전 알고리즘은 환경 조건의 변화에 매우 민감하기 때문에 제한적이다. 게다가 세심한 특징을 추출할 능력이 없기 때문에 실제 현장에서 구현할 수 없다[1].
최근에는, 이러한 한계를 극복하기 위해 컴퓨터 비전 알고리즘 대신 컨벌루션 신경망(convolutional neural networks: CNN)이 구현되어졌다. CNN은 종종 딥 러닝(Deep learning: DL)이라고 하는데, 그 이유는 계층의 필터가 원본 데이터에서 자동으로 계층적으로 기능을 학습하는 심층 작업 계층으로 구성되기 때문이다[2], [3]. 그 후, 그래픽 처리 유닛(Graphics Processing Unit: GPU)[4] 상에서의 매우 신속한 계산은 DL 연구의 돌파구였으며 그 이후로 GPU의 구현은 표준화되었다. 지난 수 년 동안 CNN 아키텍처의 구성은 계산 비용을 줄이면서 더 나은 성능을 달성하기 위해 연구되어왔다[5], [6], [7], [8]. 그 결과, 많은 연구자들이 미세 조정 및 전이 학습을 사용하여 DL 작업(예컨대, 분류, 객체 검출 및 분할)에 직접 채택할 수 있는 사전 훈련된 모델을 공유했다[9].
참고 문헌 [1], [10], [11]은 구조적 건강상태 모니터링(SHM)에서 DL의 잠재력을 탐구했다. 저자들은 DL 방법이 자동으로 특징을 추출할 수 있고 이 잠재력은 슬라이딩 윈도우 기술을 사용하여 크랙(crack) 또는 배경에 대한 이미지의 작은 영역 각각을 분류하기 위한 산업 수준의 응용으로 이어질 수 있음을 보여주었다. 이후 이 접근법은 자율 드론(drone) 시스템과 결합되었다[12]. 그러나 이러한 이전의 방법들에서 손상 지역화(damage localization)는 객체의 크기보다 슬라이딩 윈도우의 크기에 의존했다. 따라서 유연한 지역화 방법이 요구되었고, 손상 지역화에 대한 SHM 연구[14,15,16]에서는 보다 빠른 R-CNN[13]을 채택하였다. 그러나 특히 대각선 방향으로 이미지 공간에 존재하는 얇고 길쭉한 비정형 특징(예컨대, 크랙)은 애매모호한 지역화를 초래한다. 따라서 검출된 크랙의 정량화(즉, 두께나 길이 측정)를 위해서는 추가적인 공정이 필요하다. 위의 어려움과 단점을 해결하기 위해 손상 검출을 분류 또는 객체 검출의 문제가 아니라 픽셀 수준 분할로 간주한다.
객체 분할은 이미지의 장면을 완전히 이해하는 것을 목표로 하는 핵심 DL 작업이다. 객체 분할은 의료 이미지 분석[17], 자율 주행 차량[18] 등등에서 성공적으로 구현되어왔다. 도 1에 도시된 바와 같이, 분할은 전체 이미지가 아닌 각 픽셀이 분류된다는 점을 제외하고는 이미지 분류와 유사하며, 픽셀 값으로서 이진수 "1" 및 "0"은 각각 크랙 픽셀 및 배경 픽셀을 나타낸다.
DL을 구현하는 크랙 분할 방법은 최근의 연구[19], [20], [21], [22], [23]에서 개발되었다. 그러나 이러한 이전의 방법들은 단조로운 배경에서만 크랙을 분할하고 훈련된 모델은 배경이 복잡한 이미지에서 크랙을 찾는 데 적합하지 않을 수 있다.
따라서 이러한 응용은 이미지에 복잡한 특징이나 기하학적 구조가 없는 표면이 포함된 경우에만 유효하며 실제 응용에서는 그럴 가능성이 없다. 더 빠른 R-CNN과 깊이 카메라의 조합을 사용하여 복잡한 배경을 가진 콘크리트 스폴링(concrete spalling)의 부피를 측정하기 위한 하이브리드 분할 방법이 [24]에 의해 제안되었다. 그러나 그 적용된 깊이 카메라의 낮은 해상도로 인해 크랙 정량화에 성공적으로 적용되지 못했다. 따라서 디지털 이미지에서 크랙을 2차원(2-D)으로 분할하는 것은 여전히 중요한 방법이다.
본 발명의 일 양태에 따르면, 이미지에서 관심 물품을 분할하기 위해 이미지를 분석하는 컴퓨터 구현 방법에 있어서,
n1 픽셀의 폭, n2 픽셀의 높이 및 d 채널의 깊이를 갖는 이미지를 수신하는 단계;
관심 물품을 분할하도록 구성된 기계 학습 알고리즘을 사용하여 이미지를 처리하는 단계로서, 상기 기계 학습 알고리즘은:
적어도 하나의 컨벌루션 계층;
상기 적어도 하나의 컨벌루션 계층 다음에, 일련의 분리 가능한 컨벌루션을 포함하는 적어도 하나의 분리 가능한 컨벌루션 모듈로서, 각각의 분리 가능한 컨벌루션은 깊이별 컨벌루션(depthwise convolution) 및 점별 컨벌루션(pointwise convolution)을 포함하는, 상기 적어도 하나의 분리 가능한 컨벌루션 모듈;
상기 적어도 하나의 분리 가능한 컨벌루션 모듈 다음의 풀링 모듈; 및
상기 풀링 모듈 다음의 디코더 모듈을 포함하는, 컨벌루션 신경망을 포함하는, 상기 관심 물품을 분할하도록 구성된 기계 학습 알고리즘을 사용하여 상기 이미지를 처리하는 단계; 및
상기 기계 학습 알고리즘에 의해 존재한다고 결정되는 경우 관심 물품의 위치가 표시된 이미지를 디스플레이하는 단계를 포함하는, 이미지에서 관심 물품을 분할하기 위해 이미지를 분석하는 컴퓨터 구현 방법이 제공된다.
예컨대 RGB 이미지의 경우 채널 깊이 d = 3이다.
적어도 하나의 방식에서, 적어도 하나의 컨벌루션 계층은,
각각이 w1 픽셀의 폭, h1 픽셀의 높이 및 스트라이드(stride) s1을 갖는 d1 채널의 깊이를 갖는 f1 필터를 갖는 제1 컨벌루션 계층; 및
상기 제1 컨벌루션 계층 다음에, 각각이 w2 픽셀의 폭, h2 픽셀의 높이 및 스트라이드 s2를 갖는 d2 채널의 깊이를 갖는 f2 필터를 갖는 제2 컨벌루션 계층을 포함하고,
f2 = nf1,
s2 = ns1,
n은 정수이다.
예시된 방식에서, n = 2이다.
예시된 방식에서, f1 = 32이다.
예시된 방식에서, s1 = 1이다.
적어도 하나의 방식에서, 적어도 하나의 분리 가능한 컨벌루션 모듈은,
스트라이드 s3를 갖는 상기 일련의 분리 가능한 컨벌루션 중 최종 하나를 제외하고 각각 하나의 스트라이드를 갖는 일련의 SC1 분리 가능한 컨벌루션을 포함하는 제1 분리 가능한 컨벌루션 모듈;
상기 제1 분리 가능한 컨벌루션 모듈 다음에, 스트라이드 s4를 갖는 상기 일련의 분리 가능한 컨벌루션 중 최종 하나를 제외하고 각각 하나의 스트라이드를 갖는 일련의 SC2 분리 가능한 컨벌루션을 포함하는 제2 분리 가능한 컨벌루션 모듈;
상기 제2 분리 가능한 컨벌루션 모듈 다음에, 스트라이드 s5를 갖는 상기 일련의 분리 가능한 컨벌루션 중 최종 하나를 제외하고 각각 하나의 스트라이드를 갖는 일련의 SC3 분리 가능한 컨벌루션을 포함하는 제3 분리 가능한 컨벌루션 모듈;
상기 제3 분리 가능한 컨벌루션 모듈 다음에, 스트라이드 s6을 갖는 상기 일련의 분리 가능한 컨벌루션 중 최종 하나를 제외하고 각각 하나의 스트라이드를 갖는 일련의 SC4 분리 가능한 컨벌루션을 포함하는 제4 분리 가능한 컨벌루션 모듈;
DW 픽셀의 폭, DH 픽셀의 높이 및 nd 채널의 깊이를 갖는 각각의 깊이별 컨벌루션 필터; 및
1 픽셀의 폭, 1 픽셀의 높이 및 nd 채널의 깊이를 갖는 각각의 점별 컨벌루션 필터를 포함한다.
즉, 깊이별 컨벌루션 및 점별 컨벌루션 필터 모두는 동일한 깊이를 갖는다.
다른 방식에서, 처리될 이미지에 따라 다른 스트라이드를 사용할 수 있다. 특히 1보다 큰 값의 스트라이드는 더 빠른 처리를 위해 알고리즘의 계산 부담을 줄인다.
적어도 하나의 방식에서, s3, s4 및 s5 각각은 N1과 동일하고, S6은 N2와 동일하다.
즉, 성능 향상을 위해, 스트라이드 s3, s4 및 s5는 동일한 값을 가지며 S6는 다른 값이다.
예시된 방식에서, s3, s4, s5 각각은 2(즉, N1 = 2)와 같고, s6은 1(즉, N2 = 1)과 같다.
적어도 하나의 방식에서, 제4 분리 가능한 컨벌루션 모듈은 x회 수행되고, 여기서 x는 2보다 큰 정수이다.
예시된 방식에서, x = 6이다.
적어도 하나의 방식에서, 적어도 하나의 분리 가능한 컨벌루션 모듈의 각각의 분리 가능한 컨벌루션에서, 깊이별 컨벌루션은 점별 컨벌루션 다음에 수행된다.
적어도 하나의 방식에서, 각각의 분리 가능한 컨벌루션 모듈과 관련하여, 일련의 분리 가능한 컨벌루션 중 첫번째 분리 가능한 컨벌루션 다음의 상기 일련의 분리 가능한 컨벌루션 중 각 하나의 점별 컨벌루션은 일련의 분리 가능한 컨벌루션 중 직전의 분리 가능한 컨벌루션의 출력 특징 맵을 일련의 분리 가능한 컨벌루션 중 각 초기의 분리 가능한 컨벌루션의 입력 특징 맵과 연결함으로써 형성된 결합된 특징 맵에서 수행된다.
적어도 하나의 방식에서, 풀링 모듈은,
초기 점별 컨벌루션;
상기 초기 점별 컨벌루션 다음의 일련의 병렬 연결된 아트러스 분리 가능한 컨벌루션(atrous separable convolution)으로서, 각각의 아트러스 분리 가능한 컨벌루션은 점별 컨벌루션 및 상기 점별 컨벌루션 다음의 팽창된 깊이별 컨벌루션(dilated depthwise convolution)을 포함하는, 상기 일련의 병렬 연결된 아트러스 분리 가능한 컨벌루션; 및
일련의 아트러스 분리 가능한 컨벌루션 다음의 최종 점별 컨벌루션을 포함한다.
적어도 하나의 방식에서, 일련의 아트러스 분리 가능한 컨벌루션은,
팽창률 r1을 갖는 팽창된 깊이별 컨벌루션을 갖는 제1 아트러스 분리 가능한 컨벌루션;
팽창률 r2를 갖는 팽창된 깊이별 컨벌루션을 갖는 제2 아트러스 분리 가능한 컨벌루션으로서, r2 = r1 + y인, 상기 제2 아트러스 분리 가능한 컨벌루션;
팽창률 r3을 갖는 팽창된 깊이별 컨벌루션을 갖는 제3 아트러스 분리 가능한 컨벌루션으로서, r3 = r2 + y인, 상기 제3 아트러스 분리 가능한 컨벌루션; 및
팽창률 r4를 갖는 팽창된 깊이별 컨벌루션을 갖는 제4 아트러스 분리 가능한 컨벌루션으로서, r4 = r3 + y인, 상기 제4 아트러스 분리 가능한 컨벌루션을 포함한다.
즉, 각 후속의 아트러스 분리 가능한 컨벌루션의 팽창된 깊이별 컨벌루션 필터의 팽창률은 직전의 아트러스 분리 가능한 컨벌루션의 팽창률과 공통 상수(이 경우 y)만큼 관련된다.
예시된 방식에서, y= 1이다.
다른 방식에서, y는 예컨대 2 또는 3과 같을 수 있다.
적어도 하나의 방식에서, 초기 및 최종 점별 컨벌루션과 각각의 아트러스 분리 가능한 컨벌루션 다음에는 정류 선형 유닛 활성화 함수(retified linear unit activation function)가 뒤따른다.
적어도 하나의 방식에서, 디코더 모듈은 풀링 모듈의 출력, 상기 적어도 하나의 컨벌루션 계층 중 선택된 하나의 출력, 및 상기 적어도 하나의 분리 가능한 컨벌루션 모듈 중 선택된 하나의 출력을 그 입력으로서 수신하도록 구성된다.
적어도 하나의 방식에서, 디코더 모듈은,
상기 풀링 모듈의 출력을 업-샘플링하여 형성된 제1 특징 맵과 상기 적어도 하나의 분리 가능한 컨벌루션 모듈 중 선택된 하나의 출력에 대해 점별 컨벌루션을 수행하여 형성된 제2 특징 맵을 연결함으로써 형성된 결합된 특징 맵에 대해 수행되고 깊이별 컨벌루션이 뒤따르는 점별 컨벌루션을 포함하는 제1 분리 가능한 컨벌루션;
상기 제1 분리 가능한 컨벌루션 다음에, 제2 분리 가능한 컨벌루션의 출력을 생성하기 위해 깊이별 컨벌루션이 뒤따르는 점별 컨벌루션을 포함하는 제2 분리 가능한 컨벌루션;
상기 제2 분리 가능한 컨벌루션 다음에, 제2 분리 가능한 컨벌루션의 출력을 업-샘플링하여 형성된 제1 특징 맵과 상기 적어도 하나의 컨벌루션 계층 중 선택된 하나의 출력에 대해 점별 컨벌루션을 수행하여 형성된 제2 특징 맵을 연결함으로써 형성된 결합된 특징 맵에 대해 수행되는 제3 점별 컨벌루션;
상기 제3 점별 컨벌루션 다음의 활성화 함수; 및
상기 활성화 함수 다음의 손실 함수(loss function)를 포함한다.
적어도 하나의 방식에서, 활성화 함수는 소프트맥스(softmax) 함수이다.
적어도 하나의 방식에서, 손실 함수는 평균 교집합 영역 면적/ 합집합 영역 면적(mean intersection-over-union) 손실 함수이다.
적어도 하나의 방식에서, 적어도 하나의 컨벌루션 계층 각각은 최종의 정류 선형 유닛 활성화 함수를 포함하고, 그 다음에 상기 적어도 하나의 컨벌루션 계층 각각의 출력이 생성된다.
적어도 하나의 방식에서, 적어도 하나의 분리 가능한 컨벌루션 모듈의 각 분리 가능한 컨벌루션 다음에는 정류 선형 유닛 활성화 함수가 뒤따른다.
적어도 하나의 방식에서, 풀링 모듈은 활성화 함수를 포함하고, 컨벌루션 신경망을 훈련하기 위해 그 후의 드롭아웃 계층(dropout layer)을 포함한다.
본 발명의 일 양태는 광범위한 배경 특징 및 크랙과 유사한 패턴을 무효화할 수 있는 완전한 딥 러닝 알고리즘을 통해 실시간 분할 방법을 구축하는 것이다.
본 발명은 이제 다음과 같은 첨부 도면과 함께 기술될 것이다.
도 1은 분할의 일예이다.
도 2는 편리한 참조를 위해 본 명세서에서 SDDNet으로 참조되는 본 발명의 방식에 따른 기계 학습 알고리즘의 아키텍처의 개략도이다.
도 3은 4개의 분리 가능한 컨벌루션을 포함하는 DenSep 모듈의 다이어그램이다.
도 4는 컨벌루션 연산의 비교를 도시한다.
도 5a 내지 도 5c는 각각 실제 크랙, 실제 크랙을 포함하는 이미지 및 도 5c에 도시된 것과 같은 크랙 유사 특징을 도시한다.
도 6은 팽장된 깊이별 컨벌루션을 도시한다.
도 7은 변형된 아트러스 공간 피라미드 풀링(ASPP) 모듈을 도시한다.
도 8은 디코더 모듈을 도시한다.
도 9는 훈련 반복(traning iteration)에 대한 평균 교집합 영역 면적/ 합집합 영역 면적(mean intersection-over-union: mIoU) 손실의 그래프이다.
도 10은 2개의 상이한 훈련 접근법을 사용하는 SDD-R6D64의 비교 프로파일의 그래프이다.
도 11a 내지 도 11c는 SDD-R6D64와, 보다 구체적으로 mIoU = 0.830[1920x1440]; mIoU = 0.909[1280x720]; 및 mIoU = 0.898[1276x1920] 각각의 분할 결과를 보여준다.
도 12는 단조로운 배경 이미지에 대해 훈련된 SDD-R6D64의 분할 결과를 보여준다.
도면에서 유사한 참조 문자는 다른 도면에서 대응하는 부분을 나타낸다.
첨부된 도면은 이미지 내의 관심 물품을 분할하기 위해 이미지를 분석하기 위한 컴퓨터 구현 방식을 예시한다.
시맨틱(semantic) 손상 검출 네트워크
ResNet[6] 및 DenseNet[8]과 같은 잘 알려진 딥 러닝(DL) 모델 또는 아키텍처는 ImageNet[25]의 1K 클래스(class)와 같은 많은 수의 클래스를 인식하도록 개발되었다. 이에 반해, 구조적 건강상태 모니터링(Structural Health Monitoring: SHM) 연구자들은 소수의 클래스를 다룬다. 따라서 출원인은 작업 및 도메인(domain) 별 CNN 아키텍처가 독립적으로 개발되어야 하며 성능 저하 없이 계산 효율성의 중요한 개선이 있을 것이라고 주장한다. 이러한 이유로 DenseNet과 DeepLabV3+[26]에서 영감을 받은 시맨틱 손상 검출 네트워크(Semantic Damage Detection Network: SDDNet)인 본래의 CNN 네트워크가 SHM의 특정 목적을 위해 제안되었다.
제안된 새로운 CNN 아키텍처는 인코더-디코더[27] 구성이다. 도 2는 디코더 모듈 이전의 모든 연산들이 인코더로서 기능하는 SDDNet의 개략적인 아키텍처를 보여준다. 도면에서, 처음 두 연산은 표준 컨벌루션(도 2의 "Conv")이고 나머지는 새로 개발되거나 변형된 모듈들이다. DenSep 모듈은 분리 가능한 컨벌루션들[28]로 구성되며, 이들 각각은 점별(point-wise: PW) 및 깊이별(depth-wise: DW) 컨벌루션의 연속적인 연산이다. 각각의 표준 컨벌루션은 단일 연산을 포함하지만, 각각의 모듈은 여러 연산들을 포함한다. 따라서 도 2에 도시된 소괄호와 대괄호는 다른 내용을 나타낸다. 표준 컨벌루션에 덧붙인 소괄호 안의 첫 번째 값은 필터의 수이다. 대괄호 안의 첫 번째 값은 해당 모듈에 포함된 분리 가능한 컨벌루션의 수를 나타낸다. 소괄호와 대괄호 모두의 안의 두 번째 값은 각 연산 또는 모듈의 출력 스트라이드(도 2의 "s")이고, "s=2"는 필터가 계산에서 두 픽셀을 이동함을 의미한다.
도 2에 도시된 바와 같이, 두 번째 "Conv.(64, s=2)" 계층으로부터 "DenSep[5, s=2]"까지 출력 스트라이드 2를 네 번 적용하는 것은 공간 차원(spatial dimension)을 1/16만큼 줄이는 결과를 갖는다. 차원을 줄이는 것은 계산 효율성을 보장하고 GPU 메모리를 절약하기 위해 모든 DL 작업에서 필수적이다. 이후 SDDNet은 본래의 ASPP에서 변형된 아트러스 공간 피라미드 풀링(atrous spatial pyramid pooling: ASPP)에 의해 다중 스케일 특징 추출 전에 상위 수준 특징들을 추출하기 위해 출력 스트라이드 1로 DenSep 모듈을 여러 번 단순히 반복한다[26]. 다중 스케일 특징의 공간 차원은 입력 이미지의 공간 차원보다 훨씬 작다. 따라서 디코더 모듈은 제안된 네트워크의 종단에서 하위 수준의 특징을 연결하여 공간 차원을 복원하도록 설계되었다.
본 명세서에서, 모든 PW 컨벌루션의 필터 크기는 1x1이고 그 외에는 3x3이다. 배치(batch) 정규화[29] 계층들은 모든 컨벌루션 연산을 따른다. 표준 및 DW 컨벌루션은 특징 맵의 차원들(즉, 컨벌루션 출력들)을 유지하기 위해 제로 패딩(zero padding)을 포함한다. 활성화 함수와 관련하여 정류 선형 유닛(Rectified Linear Unit: ReLU)[30]이 일반적으로 사용된다. 제안된 네트워크의 시작 부분에 있는 두 개의 표준 컨벌루션 다음에는 ReLU가 뒤따르며, DenSep, ASPP 및 디코더 모듈 각각에도 ReLU들이 있다. DenseNet 아키텍처와 유사한 SDDNet에는 몇 가지 단축키(shortcut)가 있다[8]. 각 연산의 상세한 절차는 [31]에서 확인할 수 있다.
A. DenSep 모듈
분리 가능한 컨벌루션을 포함하는 DenSep 모듈은 SDDNet의 핵심이다. 4개의 분리 가능한 컨벌루션이 있는 DenSep 모듈의 예가 도 3에 도시되어 있다. 분리 가능한 컨벌루션에서, DW 및 PW 필터를 순차적으로 적용하여 표준 컨벌루션에 비해 훨씬 빠르게 계산이 수행된다[7], [28] 및 [26]. 그러나 DenSep, ASPP 및 디코더 모듈을 포함하여 SDDNet의 모든 분리 가능한 컨벌루션은 도 3에 도시된 바와 같이 더 빠른 계산을 달성하기 위해 역순으로 적용된다. 모든 PW 컨벌루션은 입력의 깊이를 감소시키는 기능을 수행하여 계산 비용을 급격히 줄인다[6]. 각 분리 가능한 컨벌루션의 출력은 각 DenSep 모듈 내에서 나중에 분리 가능한 컨벌루션의 모든 입력 특징 맵에 연결하도록 설계된다. 처음 3개의 DenSep 모듈의 최종 분리 가능한 컨벌루션에는 스트라이드 2가 선택적으로 수반되어 특징 맵의 공간 차원을 1/16로 줄인다. 단순화를 위해, ReLU는 도면에 표시되지는 않았지만 모든 DW 필터 다음에 적용된다.
표준(standard), PW 컨벌루션, DW 컨벌루션의 비교는 도 4에 도시된다. 도 4에서, 표준 컨벌루션은 401로, PW 컨벌루션은 403으로, DW 컨벌루션은 405로 표시된다. 1x1 컨벌루션은 분리 가능한 컨벌루션의 PW 컨벌루션과 기술적으로 동일하다는 점에 주목하자. 모든 컨벌루션 연산은 곱셈을 포함하며, 곱셈의 횟수는 계산의 횟수로 간주될 수 있다. KxKxDin 차원을 갖는 특징 맵에 적용되는 각 연산의 계산 비용은 표준, PW 및 DW 컨벌루션에 대해 각각 (1) 내지 (3)으로 계산될 수 있다. 방정식에서 Din 및 Dout은 각각 특징 맵의 입력 및 출력 깊이 크기를 나타낸다는 점에 주목하자. 본 명세서에서 사용하는 역순의 분리 가능한 컨벌루션은 PW와 DW 컨벌루션의 연속적인 연산으로 정의된다. 따라서 분리 가능한 컨벌루션의 계산 비용은 (2)와 (3)을 합산하여 얻을 수 있다.
9 x K2 x Din x Dout (1)
K2 x Din x Dout (2)
9 x K2 x Dout (3)
위의 방정식에 기초하여, DenSep 모듈과 표준 컨벌루션이 있는 모듈과 관련된 곱셈의 횟수는 표 1에 도시된 바와 같이 계산된다. 모듈의 곱셈의 합을 비교하면 DenSep 모듈은 표준 컨벌루션 모듈과 비교하여 계산 비용의 약 70%를 줄인다. 예컨대 D의 크기가 32인 경우 계산의 횟수는 약 30%로 줄어든다(즉, 235 = 6.5D+27 및 784 = 24.5D(표 1)).
B. 아트러스 공간 피라미드 풀링 모듈
분할의 CNN 모델이 불규칙한 모양(예컨대, 크랙)을 가진 객체를 처리하도록 설계된 경우 CNN 모델은 작은 영역에만 초점을 맞추는 것보다 넓은 시야(FOV)가 필요할 수 있다. 그 이유는 그러한 객체는 특징 수가 적기 때문에 정확한 분류를 보장하기 위해 주변 정보를 수집해야 할 필요가 있기 때문이다. 예컨대, 도 5a-5c에 도시된 바와 같이, 각 확대 영역(즉, 작은 FOV)의 특징은 원래 이미지(도 5b)의 주변 정보 없이는 크랙(도 5a) 또는 크랙 유사 특징(도 5c)으로 명확하게 분류될 수 없다. 주변 정보를 수집하는 한 가지 방법은 필터의 크기를 늘리는 것인데, 이는 필연적으로 계산 비용의 기하급수적인 증가로 이어진다. 이러한 단점을 해결하기 위해, 변형된 아트러스 공간 피라미드 풀링(ASPP) 모듈이 SDDNet에서 채택된다. 원래의 ASPP는 DeepLabV3+에서 제안되었다.
원래의 ASPP는 표준 순서(즉, DW에는 PW가 뒤따름)로 글로벌 평균 풀링(Global Average Pooling: GAP), PW 컨벌루션 및 3개의 아트러스 분리 가능한 컨벌루션으로 구성되며, 분리 가능한 컨벌루션과의 유일한 차이점은 팽창된 DW 필터를 사용하는 것이다(도 6 참조). 본 명세서에서, 원래의 ASPP는 다음과 같이 변경된다: PW 컨벌루션은 유지되고, ASC는 계산 비용을 줄이기 위해 표준 순서에서 역순으로 변경되며, GAP는 네트워크를 강력하게 정규화하기 때문에 제거되는 반면 SDDNet은 성능 저하를 초래하는 상당히 작은 수의 파라미터(parameter)를 갖는다. 팽창된 DW 필터[32]는 도 6에 도시되어 있으며, 여기서 팽창률("r"로 표시됨)은 필터의 인접 요소로 건너뛰는 횟수를 의미한다. 더 큰 팽창률을 가진 ASC는 필터의 파라미터의 수를 유지하면서 더 큰 FOV를 통해 특징을 캡처(capture)하는 필터로 해석될 수 있다.
도 7에 도시된 바와 같이, 변경된 ASPP 모듈은 단순히 PW와 ASC의 각 출력을 연결("ⓒ")하고 연결된 특징 맵을 나타내기 위해 PW 컨벌루션을 적용한다. 따라서 다양한 팽창률로 ASC를 연결하면 큰 FOV를 추가로 계산하지 않고도 다중 스케일 특징을 추출할 수 있다. ASPP 모듈의 모든 팽창된 DW 컨벌루션은 각각이 1 내지 4의 팽창률을 갖는 3개의 필터로 구성된다. 과적합을 방지하기 위해 드롭아웃(dropout)[33]은 훈련에서 ASPP 모듈의 종단에서 사용된다. ReLU와 관련하여, 모든 ASC 및 PW 다음에는 ReLU가 뒤따른다.
C. 디코더 모듈
디코더 모듈은 미세-입자화된(fine-grained) 분할을 생성하도록 설계된다. 이 모듈은 도 8에 도시된 바와 같이 2단계 복원을 포함한다. 첫 번째 단계에서 공간 차원이 입력 이미지의 1/16인 디코더 모듈의 입력 특징 맵이 스케일 인자 "4"에 의해 업샘플링(up-sampled)된다. 이는 두 번째 DenSep 모듈로부터의 저-수준 특징 맵과 연결되어 있다(도 2 및 도 8 참조). 연결된 특징 맵은 이제 2개의 분리 가능한 컨벌루션을 통과한 다음 스케일 인자 "4"에 의해 다시 업샘플링된다. 그 후, 특징 맵은 입력 이미지와 동일한 공간 차원을 갖는 첫 번째 표준 컨벌루션으로부터의 다른 저-수준 특징 맵과 연결된다(도 2 및 도 8 참조). 최종적으로, 3x3 컨벌루션이 최종으로 연결된 특징 맵에 적용되어 분할(도 8의 "Seg.") 결과를 생성한다. 이 모듈에서, ReLU는 모든 PW 및 DW 컨벌루션 다음에 사용된다. 소프트맥스(softmax) 함수 다음의 평균 교집합 영역 면적/ 합집합 영역 면적(mean intersection-over-union: mIoU) 손실은 손실을 계산(도 8의 "손실 계산")하고 훈련 오류를 역전파[3]하는 데 사용된다.
D. 모델 사용자 정의
SDDNet은 상이한 깊이 값(D)과 DenSep 모듈의 반복 횟수를 설정하여 사용자 정의될 수 있다. 이하, 각 사용자 정의 모델은 SDD-R#D#로 표시되며, 여기서 R#과 D#은 각각 DenSep 모듈의 반복 횟수와 D값을 나타낸다. SDD-R6D64가 최종 모델로 고려되었지만 SDD-R6D32도 본 명세서에서 논의된다. 6회 반복되는 DenSep 모듈의 PW 필터의 수는 본 명세서에서 보고된 사용자 정의 모델에 대해 0.5D 대신 D로 설정되었다(도 3 참조).
데이터 세트 생성
제안된 SDDNet은 지도 학습(supervised learning)을 사용하여 훈련되며, 모델에 여러 데이터를 입력해야 한다. 그러나 특정 목적에 맞는 공개 데이터 세트는 없다. 따라서 데이터 세트는 수동으로 생성되었다. 데이터 세트는 다양한 픽셀 해상도를 가진 200개의 디지털 이미지들로 구성된다. 이 이미지들은 인터넷에서 수집하거나 수동으로 촬영했다: 55개의 이미지는 스마트폰을 사용하여 수동으로 촬영되었다. 104개의 이미지가 데이터 센터 허브(Datacenterhub)에서 수집되었다[34]. 41개의 이미지가 구글(Google) 이미지에서 다운로드되었다. 따라서 각 이미지는 다양한 조건(예컨대, 다양한 거리, 광도, FOV 및 이미지 품질) 하에서 촬영되었다. 모든 축에서 이미지의 공간 차원은 513에서 1920픽셀 사이이다. 이미지의 최소 크기는 513x513이며, 이미지의 최대 크기는 대략 고화질 이미지 크기(즉, 1920x1080)이다.
각 이미지의 지상 실측 자료는 크랙에 속한 픽셀을 수동으로 선택하여 얻었으며, 선택한 픽셀은 1(크랙)로, 그렇지 않으면 0(배경)으로 라벨(label)되었다. 이미지 라벨링은 상용 사진 편집 애플리케이션인 Affinity Photo(https: //affinity.serif.com/en-gb/photo)를 사용하여 수행되었다. 결과적으로 1로 라벨링된 총 픽셀의 수는 0으로 라벨링된 픽셀 수보다 약 260배 적었으며(이미지의 예는 해당 결과와 함께 나중에 표시됨), 모든 CNN 모델은 최적화의 문제에 직면할 가능성이 있다. 데이터 세트는: 훈련을 위한 160개의 이미지와 테스트를 위한 40개의 이미지로서 2개의 하위 세트(subset)로 나뉜다. 데이터 세트에 라벨링된 크랙은 크랙 특징의 특성에 따라 다음과 같이 분류될 수 있다:
- 두꺼운 크랙: 두께가 5픽셀 이상인 크랙.
- 얇은 크랙: 두께가 1 내지 4픽셀인 크랙.
- 흐릿한(Blurry) 크랙: 여전히 잘 인식할 수 있는 흐릿한 특징이 있는 두꺼운(즉, 두껍게 흐릿한) 또는 얇은(즉, 얇게 흐릿한) 크랙.
- 희미한(Faint) 크랙: 주의 깊게 관찰하지 않고는 인식할 수 없는 크랙.
- 크랙 유사 특징: 주변 정보 없이 크랙과 유사한 특징.
그러나 기존에 계산할 수 있는 방법이 없었기 때문에 크랙의 수, 희미함의 정도 등 보다 자세한 특성은 계산되지 않았다. 샘플 라벨은 다음의 링크에서 보여진다: "https://github.com/choiw-public/SDDNet." 이하, 그 생성된 데이터 세트를 크랙200 데이터 세트(Crack200 dataset)라고 한다.
훈련 세부 사항
SDD-R6D64의 훈련과 관련하여, 먼저 일부 변형 후 도시 경관(Cityscape) 데이터 세트[35]에 대해 모델을 사전 훈련되었고 그 다음에 크랙200 데이터 세트에 대한 추가 훈련을 수행했다. SDDNet은 텐서플로우 딥 러닝 프레임 워크(Tensorflow deep learning framework)를 사용하여 파이썬(Python) 프로그래밍 언어로 코딩되었다[36]. SDDNet은 워크스테이션에 배포되었으며 기술 사양은 다음과 같다:
- CPU: 인텔 코어 i7-6850K
- GPU : 엔비디아 지포스 타이탄(Nvidia Geforce Titan) Xp x 4개
- 램(RAM): 128 기가바이트(GB)
위의 GPU는 SDDNet 모델 훈련에만 사용되었다. 테스트에서, 출원인은 실시간 성능을 강조하기 위해 구형 GPU인 엔비디아 타이탄 엑스(Nvidia Geforce Titan X)를 사용하였다.
A. 훈련 전략
입력 크기는 원본 훈련 이미지에서 무작위로 잘라낸 513x513 픽셀로 설정되었다. 이러한 특정 잘림(cropping) 크기는 다음과 같은 이유로 선택되었다: 실험적으로 모든 원본 이미지의 1/4 잘림 크기보다 큰 크기가 최상의 결과를 제공한다는 것을 발견했다. 그 이유는 잘린 이미지에 충분한 맥락 관련 정보가 포함되어 있기 때문일 가능성이 크다. 또한 홀수 513은 스트라이드(stride)가 있는 컨벌루션이 적용될 때 산술적으로 유리했다. 모델이 수렴될 때 더 큰 입력 크기로 추가 훈련되었다. 이러한 추가 훈련은 ASPP 모듈에서 팽창된 DW 필터를 조정하도록 구성되었고, 이에 따라 테스트에서 훈련된 모델은 큰 이미지에서 더 양호했다. 훈련이 완료되면 제안된 아키텍처가 완전한 컨벌루션 방식을 따르기 때문에 그 훈련된 모델은 모든 이미지 크기를 받아들일 수 있다[37]. 여기에 설명된 훈련 전략은 변형된 도시 경관 데이터 세트에 대한 사전 훈련 및 크랙200 데이터 세트에 대한 미세-조정 모두에 적용되었다.
B. 손실 함수와 하이퍼 파라미터
모델을 훈련하기 위해, IoU 손실을 변형한 mIoU 손실을 사용했다[38]. mIoU 손실은 "C"개의 클래스 수를 갖는 "n"의 배치(batch) 크기에서 (4)에 의해 계산되었다. 방정식에서 "I(x, y)" 및 "U(x, y)"는 근사 교집합과 합집합의 합을 나타내며, 여기서 "x"는 소프트맥스(softmax) 함수에서 파생된 확률 집합이고, "y"는 원(one)-핫(hot)-인코딩된 실제 라벨들의 집합이다. 분할 작업에서 가장 빈번히 사용되는 mIoU 점수는 "1 -" 항을 무효화하고 (4)에서 원-핫-인코딩된 예측에 "x"를 대입하여 계산할 수 있다.
Figure pct00001
모델 최적화와 관련하여, 애덤 최적화기(Adam optimizer)[39]가 사용되었다. 모멘텀(momentum), 드롭아웃 비율(dropout rate) 및 가중치 감소는 일반적으로 두 데이터 세트의 훈련에 대해 각각 0.9, 0.5 및 0.00004로 설정되었다. (5)에 의해 계산된 순환 학습률 방침[40]을 기반으로 각 훈련 반복("iter.")에서 학습률을 예정했으며, 여기서 "X"는 (6)에 의해 정의된다. 출원인은 경험적으로 "Y"를 0.99996으로 설정했다. "Ir1", "Ir2" 및 "스텝(step)"을 포함한 다른 하이퍼미터는 표 2에 나열되어 있다.
Figure pct00002
C. 도시 경관(Cityscape) 데이터 세트에 대한 사전 훈련
사전 훈련은 특히 상대적으로 작은 데이터 세트에 대한 훈련에서 효과적인 초기화 방법이기 때문에 널리 사용되는 방법이다[9]. 크랙200 데이터 세트에서 SDD-R6D64를 훈련하기 전에 변형된 도시 경관 데이터 세트에서 모델을 사전 훈련했다. 도시 경관 데이터 세트는 원래 다양한 도시에서 촬영된 3,475개의 이미지에서 30개의 상이한 유형의 객체 이미지로 구성되었다. 다중 클래스 데이터 세트에서 모델의 훈련 가능성을 확인하기 위해 이 데이터 세트를 선택했다. 또한 도시 경관 데이터 세트의 이미지 특징이 이 데이터 세트의 이미지 특징과 유사하다고 생각했다. 그러나 제안된 모델은 소수의 클래스를 효과적으로 다루기 위한 것이다. 따라서 동일한 클래스의 유사한 객체를 결합하고 일부 객체의 라벨을 0(즉, 배경)으로 변환하여 원본 데이터 세트를 변형하였다. 변형된 도시 경관 데이터 세트는 표 3에 보여진다. SDD-R6D64는 변형된 도시 경관 데이터 세트에 대해 약 2일 동안 사전 훈련되었으며, 손실(loss) 그래프는 도 9와 같다. 사전 훈련에서 입력 크기는 100K번째 반복으로 513x513에서 1009x1009로 변경되었고 180K번째까지 반복하여 추가로 훈련되었다. 사전 훈련된 모델은 반복할 때마다 가중치가 달라지며 크랙200에서 미세 조정하는 데 가장 적합한 모델을 정의하는 명확한 표준이 없었다. 수렴 기간 내의 모델들은 크랙200의 미세 조정에 유사한 기여를 하는 것으로 간주했다. 배치(batch) 크기가 8이고 입력 차원이 1009x1009인 것을 고려할 때 변형된 도시 경관 데이터 세트의 모든 이미지를 이 모델에 반영하는 데 약 40K 반복이면 충분했다. 따라서 mIoU 손실의 단순-이동-평균(simple-moving-average)(도 9의 SMA)은 도 9에서와 같이 40K 반복 기간으로 계산되었다. 140K와 180K 사이의 모델은 SMA가 0.240±0.006이었고 무작위로 사전 훈련된 모델로서 수렴 기간 내의 모델 중 하나를 선택했다. 디코더 모듈의 최종 PW 필터를 제외한 모든 사전 훈련된 필터는 크랙200 데이터 세트에서 본 모델을 훈련할 때 초기 필터로서 사용되었다. 이 기술은 미세-조정으로 알려진다[9].
결과 및 실험 평가
SDD-R6D64는 훈련 절차 외에 크랙200 데이터 세트에 대해 훈련되었다. 그 훈련된 모델은 크랙200의 테스트 세트에서 테스트되었다. 해당 평가 메트릭(metric) 및 시각화는 이하에 보고된다.
A. 테스트 세트의 학습 프로파일
이 하위 섹션에서는, 크랙200의 테스트 세트의 분할 결과가 다른 훈련 전략과 비교되고 해당 논의가 제공된다. 테스트 세트로부터의 프로파일(profile)이 손실 그래프의 정보를 포함했기 때문에 훈련 반복에 대한 손실 그래프는 여기에서 생략된다. 크랙200 데이터 세트에 대한 총 훈련 기간은 약 6시간이었다.
도 10은 변형된 도시 경관 데이터 세트에 대한 사전 훈련의 효과를 보여준다. 도면에서 대괄호 안의 숫자는 훈련에서 입력 이미지의 크기를 나타낸다. "미세 조정(Fine-tuned)"은 모델이 사전 훈련된 모델의 필터를 사용하여 초기화된 다음 크랙 데이터 세트에서 훈련되었음을 의미한다. "스크래치(Scratch)"는 사전 훈련된 모델을 채택하지 않고 크랙 데이터 세트에서 직접 훈련되었다는 것을 나타낸다. 도면에서 알 수 있듯이, 미세 조정된 모델은 모든 훈련 반복에 대한 스크래치로부터 훈련된 모델보다 성능이 우수했다.
미세 조정 과정은 도 10에서와 같이 mloU가 약 0.8인 40K번째 반복에서 거의 수렴되었다고 판단하여 미세 조정을 일시 중지하였다. 그 후 입력 크기를 513x513 픽셀에서 1009x1009 픽셀로 변경하고 50K번째 반복까지 미세 조정을 재개했다. 결과적으로, 정밀도(Pre.), 재현율(Re.) 및 F1 점수는 방정식 (7) 내지 (9)에 의해 계산된 표 4에서 열거된 바와 같이 약간 더 나은 0.846의 mIoU를 얻었다. 이 표에서는, 변형된 ASPP 모듈의 효율성을 확인하기 위해 "ASPP 없이 미세 조정(Fine-tuned without ASPP)"의 요약된 결과 또한 제공된다.
표 4에서 알 수 있듯이, 변형된 ASPP 모듈을 사용하여 미세 조정된 SDD-R6D64가 최상의 전체 결과를 얻었다. 따라서 0.846의 mIoU를 달성한 모델이 최종 모델로 간주되었다.
Figure pct00003
B. 분할 결과
이 하위 섹션에서는, 대표적인 분할 결과가 포괄적인 시각화로 제공된다. 도면에 도시된 이미지는 데모 규칙(demonstration rule)을 따른다: 원본 이미지와 분할 결과를 보여주는 이미지는 각각 "Raw" 및 "Seg."로 표시된다. 분할 결과에서, 진정 긍정(true positive: TP), 거짓 부정(false negative: FN) 및 거짓 긍정(false positive: FP) 픽셀들은 각각 빨간색, 녹색 및 파란색으로 표시된다. TP와 FN 픽셀의 조합은 지상 실측 자료(ground truth)로서 해석되고, TP와 FP의 조합은 훈련된 모델에 의해 크랙 픽셀로 예측된 픽셀들이다. 각 도면의 캡션(caption)D은 해당 mIoU 값을 포함하며, mIoU 값 옆의 대괄호 안에는 이미지의 크기도 제공된다. 도면들에서, 분할 이미지의 일부 영역은, 크랙 특징들이 이미지들보다 훨씬 작고 여러 크랙들이 거의 눈에 띄지 않는 곳에서 혼잡해진다. 따라서 각 영역은 관심 영역(ROI)으로 표시되고 제안된 모델의 특성을 최대한 완전하게 표현하기 위해 확대된다.
도 11a 내지 도 11c는 SDD-R6D64의 분할 결과를 보여준다. 훈련된 모델은 테스트된 도면들이 도 11a에 도시된 것과 같은 복잡한 크랙 유사 특징을 포함하는 경우에도 배경 특징 및 검출된 크랙을 성공적으로 무효화했다. 또한 SDD-R6D64는 소수의 픽셀에 있는 매우 미세한 크랙을 분할하는 능력을 보여주었다. 일반적인 실패는 다음과 같이 관찰되었다: 1) 대부분의 FN 예측은 TP 픽셀의 가장자리에 있었지만 특히 미세한 크랙들에서 크랙의 확정적인 가장자리를 얻을 수 없기 때문에 이러한 거짓 예측들이 허용된다고 생각한다; 2) 도 11b의 ROI-1 부분, 도 11c의 ROI-1 부분, 도 11c의 ROI-3 부분과 같은 희미한 크랙이 적절하게 분할되지 않았다(FN 픽셀 참조); 3) 도 11c의 ROI-2 부분에 도시된 바와 같이 스폴링(spalling) 영역에 존재하는 크랙도 적절하게 분할되지 않았다(FN 픽셀 참조). 추가 테스트 결과는 "https://github.com/choiw-public/SDDNet" 링크에서 확인할 수 있다.
C. 비교 연구 및 논의
이전에 다음과 같이 언급되었다: 1) 도메인 특정 모델 및 작업 특정 모델을 구축하는 것이 훨씬 유익하다; 2) 단조로운 배경 이미지로 모델을 훈련시키는 것은 적절한 접근 방식이 아니다.
위의 항목 1)과 관련하여, SDDNet을 크랙 분할을 위한 최신 CNN 중 하나인 딥 크랙(DeepCrack)[41]과 비교했다. [41]의 저자는 6개의 사용자 정의된 딥 크랙 모델의 성능을 보고하고 다른 분할 모델과 비교했다. 그 결과는 딥 크랙 모델이 다른 분할 모델보다 성능이 우수했으며, 각 딥 크랙 모델은 정밀도(precision), 재현율(recall), F1 및 mIoU에서 서로 다른 장점을 가지고 있음을 보여주었다. 딥 크랙 모델 중 상위 3개를 사용자 정의된 SDDNet 모델과 비교했다. 각 사용자 정의된 딥 크랙 모델에 대한 자세한 내용은 [41]에서 제공된다. SDDNet의 우수성을 더욱 강조하기 위해 모델 SDD-R6D32를 딥 크랙 모델이나 최종 모델(SDD-R6D64)보다 훨씬 적은 수의 파라미터를 갖도록 사용자 정의하였다. 딥 크랙 모델의 핵심은 VGG-16의 층[5]으로 구성되었으며, VGG-16은 이미지를 1K 클래스로 분류하기 위해 개발되었다는 점에 주목하자. 딥 크랙 모델에서 파라미터(즉, 가중치)의 총 수는 1400만(M)인 반면, SDD-R6D32에는 0.160M 파라미터만 있었다. 이는 딥 크랙 모델보다 약 88배 작은 것이다. 공정한 비교를 보장하기 위해 다음을 고려했다: 1) 훈련과 테스트 각각에서 딥 크랙의 훈련 세트와 테스트 세트를 사용했다; 2) 딥 크랙 모델이 사전 훈련되지 않았기 때문에 SDD-R6D32는 사전 훈련되지 않았다. 많은 수의 파라미터들로 인해 딥 크랙 모델이 더 나은 결과를 보일 것으로 예상되었지만, SDD-R6D32는 표 5에서와 같이 모든 측면에서 약간 더 나은 결과를 보여주었다. 처리 시간과 관련하여, 딥 크랙-Aug는 544x384 이미지를 109ms(9.174 FPS)로 처리했다. SDD-R6D32는 동일한 크기의 이미지를 13.54ms(75.816 FPS)로 처리했으며 모든 딥 크랙 모델보다 최소 8배 더 빨랐다. 두 번째 주장을 뒷받침하기 위해, 딥 크랙 및 크랙200 데이터 세트에서 SDD-R6D64를 개별적으로 훈련시켰다. 비교 결과는 표 6에 도시된다. SDD-R6D64 모델의 파라미터의 수는 SDD-R6D32의 파라미터의 수보다 3배 많았지만(표 5 참조) 딥 크랙 모델의 파라미터의 수보다는 여전히 26배 적었다. 또한 표 6에서 볼 수 있듯이, SDD-R6D64는 딥 크랙 모델의 어느 것(표 5 참조)보다 약간 더 나은 평가 메트릭(표 6에서 "a"로 표시된 점수 세트)을 반환했다. SDD-R6D64의 처리 시간은 66.628 FPS로 기록되었으며 모든 딥 크랙 모델보다 여전히 7배 이상 빨랐다. 딥 크랙의 훈련 세트(즉, 단조로운 배경)에서 훈련된 모델(SDD-R6D64)은 복잡한 배경(즉, 크랙200의 테스트 세트)의 이미지 테스트에 대해 더 나쁜 결과(표 6에서 "b"로 표시된 점수 세트)를 반환했지만, 반면에 크랙200의 훈련 세트에서 훈련된 모델은 크랙200 및 딥 크랙의 두 테스트 세트에서 일치하는 메트릭(표 6에서 "c" 및 "d"로 표시된 점수 세트)을 기록했다. 이들 결과는 단조로운 배경 이미지로 모델을 훈련하는 것이 실제 실무에서 유효하지 않을 수 있음을 나타낸다. 또한 크랙200의 훈련 세트에서만 훈련된 SDD-R6D64도 딥 크랙의 훈련 이미지가 사용되지 않았지만 표 5에서의 모든 딥 크랙 모델보다 더 나은 결과("c"로 표시된 점수 세트)를 반환했다. 정밀도 점수가 "0.874a"에서 "0.231b"로 크게 감소한 결과 단조로운 배경 이미지에 대해 훈련된 모델이 매우 높은 FP 예측 결과를 낳는 것으로 나타났다(식(7) 참조). 이 결과는 단조로운 배경 이미지에 대해 훈련된 모델을 사용하여 크랙 유사 특징과 복잡한 배경을 무효화할 수 있는 민감성을 명확하게 나타낸다. 대조적으로, 크랙200에서 훈련된 모델은 높은 정밀도 점수(0.875c 및 0.805d)를 유지했으며, 이는 최종적인 모델이 크랙 유사 특징과 복잡한 배경을 효과적으로 무효화했음을 의미한다. 위의 관찰에 대한 직관적인 테스트 결과가 도 12에 제시되어 있으며, 이는 도 11a에 도시된 결과와 대조된다.
큰 영상에 대한 본 모델의 실시간 성능을 검증하기 위해 표 7에 나타난 바와 같이 3개의 상이한 크기의 이미지(1920x1080, 1025x512 및 720x480)를 테스트하였다. 이러한 표에서 볼 수 있는 바와 같이, 제안된 모델은 80.40ms(12 FPS)의 HD 이미지를 처리하였다. 또한 1025x512 픽셀보다 작은 이미지는 실시간으로 처리되어 이전 작업의 결과와 비교해 현저히 개선되었다. 예컨대, [21]은 원래의 CNN 네트워크인 크랙넷(CrackNet)-II를 제안했으며 이 모델은 1260ms에서 1025x512 픽셀의 이미지를 처리했다. 그러나 최종적인 모델은 CrackNet-II보다 46배 더 빠른 27.50ms(36 FPS)로 동일한 크기의 이미지를 처리했다.
본 명세서에서 논의된 SDDNet의 장점에도 불구하고 모델 성능은 열악한 품질의 크랙 특징(희미한 크랙을 분할할 수 없음)으로 인해 영향을 받았다. 따라서 특정 애플리케이션(예컨대, 실시간 아스팔트 및 철도 검사)에는 고속으로 미세한 특징을 캡처할 수 있는 카메라가 필요할 수 있지만, 이는 객체를 분할하는 데 사용되는 모든 딥 러닝 모델에서 공통적인 문제이다. SDDNet의 성능 외에도 본 모델은 실제 실무에서 효과적으로 사용할 수 있는 잠재력을 보여준다. 드론(drone), 착용가능한(wearable) 장치 등과 같은 실제 장치에 모델을 배포할 때 한 가지 주요 관심사는 저장 공간(storage)이다. SDD-R6D64는 하드웨어 구성, 물리적 크기 축소 및 기술적 요구사항 저감 뿐만 아니라 SHM 장비 구축 비용 절감에 유리한 3 메가바이트(MB) 미만이 필요했다.
결론
본 명세서에서, 새로운 딥 러닝 아키텍처인 SDDNet-V1은 구조물의 표면 크랙을 실시간으로 분할하기 위해 제안되었다. SDDNet은 표준 컨벌루션, 여러 DenSep 모듈, 변형된 ASPP 모듈 및 디코더 모듈로 구성되었다. 본 명세서에서의 양태 중 하나는 광범위한 배경 특징의 이미지에서 크랙을 분할하는 것이었다. 그러나 연구 당시에 이러한 양태와 일치하는 공개 데이터 세트는 없었다. 따라서 크랙200 데이터 세트는 수동으로 생성되었다. SDDNet은 변형된 도시 경관 데이터 세트에서 사전 훈련되었고 그 다음에 그 성능을 개선하기 위해 크랙200 데이터 세트에서 훈련되었다. 훈련된 모델은 크랙200 데이터 세트의 테스트 세트에서 테스트되었으며, 그 결과의 여러 이미지가 제공되고 논의되었다. 본 명세서에서는 제안된 모델의 성능을 최근 모델과 비교하여 평가하도록 수행되었다. 그 결과는 도메인 특정 모델 및 작업 특정 모델을 구축하는 것이 유익하고 단조로운 배경 이미지에 대한 모델을 훈련하는 것이 실제 실무에서는 유효하지 않다는 것을 보여주었다. 제안된 모델은 다음의 결과를 기초로 하여 크랙 분할에 있어서 최상의 옵션 중 하나가 될 것으로 예상된다:
- SDDNet은 복잡한 배경과 크랙 유사 특징을 효과적으로 무효화할 수 있었다.
- SDDNet은 크랙 특징이 너무 희미하지 않는 한 크랙을 성공적으로 분할하였다.
- 따라서 SDDNet은 mIoU는 0.846 그리고 F1 점수는 0.819를 기록했다.
- SDDNet은 본 모델이 비교 모델보다 88배 작은 크기임에도 불구하고 최근 개발에 비해 모든 측면에서 더 나은 성능을 보여주었다.
- SDDNet은 1025x512 픽셀의 이미지에서 실시간 성능(36 FPS)을 보여주었으며, 이는 최근 개발에서보다 46배 빠른 것이었다.
- SDDNet은 장치에 3MB 미만의 저장 공간이 필요하므로 하드웨어 구성에 있어 유연한 선택이 가능했다.
이미지 품질에 대한 민감성에 대한 일반적인 문제는 딥 러닝 모델보다 카메라 사양과 관련이 있기 때문에 본 명세서에서 다루지 않았다.
본 명세서에서, 크랙은 토목 기반 시설에서 가장 흔한 손상 유형 중 하나이기 때문에 분할 객체 또는 관심 물품으로 선정하였다.
다른 손상 유형에 비해 크랙은 종종 육안으로 볼 수 없고 감지하기 힘든 특징이 있기 때문에 미세한 입자(grain)를 얻기가 더욱 어렵다.
전술한 바와 같이, 본 발명은 콘크리트 표면의 크랙과 같은 이미지 내의 관심 물품을 분할하기 위해 이미지를 분석하는 컴퓨터 구현 방법에 관한 것으로,
도 2의 도면부호 201로 나타낸 바와 같이, n1 픽셀의 폭, n2 픽셀의 높이 및 d 채널의 깊이를 갖는 이미지를 수신하는 단계;
관심 물품을 분할하도록 구성된 기계 학습 알고리즘을 사용하여 이미지를 처리하는 단계로서, 도 2의 도면부호 202로 나타낸 상기 기계 학습 알고리즘은,
적어도 하나의 컨벌루션 계층;
상기 적어도 하나의 컨벌루션 계층 다음에, 일련의 분리 가능한 컨벌루션을 포함하는 적어도 하나의 분리 가능한 컨벌루션 모듈로서, 각각의 분리 가능한 컨벌루션은 깊이별 컨벌루션 및 점별 컨벌루션을 포함하는, 상기 적어도 하나의 분리 가능한 컨벌루션 모듈;
상기 적어도 하나의 분리 가능한 컨벌루션 모듈 다음의 풀링 모듈; 및
상기 풀링 모듈 다음의 디코더 모듈을 포함하는, 컨벌루션 신경망을 포함하는, 상기 관심 물품을 분할하도록 구성된 기계 학습 알고리즘을 사용하여 상기 이미지를 처리하는 단계; 및
도 2의 도면부호 205로 나타낸 바와 같이, 상기 기계 학습 알고리즘에 의해 존재한다고 결정되는 경우 관심 물품의 위치가 표시된 이미지를 디스플레이하는 단계를 포함한다.
예컨대, RGB 이미지의 경우 채널 깊이 d = 3이다.
도 2를 참조하면, 예시된 구성에서, 적어도 하나의 컨벌루션 계층은:
각각이 w1 픽셀의 폭, h1 픽셀의 높이 및 스트라이드(stride) s1을 갖는 d1 채널의 깊이를 갖는 f1 필터를 갖는 제1 컨벌루션 계층; 및
상기 제1 컨벌루션 계층 다음에, 각각이 w2 픽셀의 폭, h2 픽셀의 높이 및 스트라이드 s2를 갖는 d2 채널의 깊이를 갖는 f2 필터를 갖는 제2 컨벌루션 계층을 포함하고,
f2 = nf1,
s2 = ns1,
n은 정수이다.
예시된 구성에서 n = 2, f1 = 32 및 s1 = 1이다.
도 3을 참조하면, 예시된 구성에서, 적어도 하나의 분리 가능한 컨벌루션 모듈은:
스트라이드 s3을 갖는 상기 일련의 분리 가능한 컨벌루션 중 최종 하나를 제외하고 각각 하나의 스트라이드를 갖는 일련의 SC1 분리 가능한 컨벌루션을 포함하는 제1 분리 가능한 컨벌루션 모듈;
상기 제1 분리 가능한 컨벌루션 모듈 다음에, 스트라이드 s4를 갖는 상기 일련의 분리 가능한 컨벌루션 중 최종 하나를 제외하고 각각 하나의 스트라이드를 갖는 일련의 SC2 분리 가능한 컨벌루션을 포함하는 제2 분리 가능한 컨벌루션 모듈;
상기 제2 분리 가능한 컨벌루션 모듈 다음에, 스트라이드 s5를 갖는 상기 일련의 분리 가능한 컨벌루션 중 최종 하나를 제외하고 각각 하나의 스트라이드를 갖는 일련의 SC3 분리 가능한 컨벌루션을 포함하는 제3 분리 가능한 컨벌루션 모듈;
상기 제3 분리 가능한 컨벌루션 모듈 다음에, 스트라이드 s6을 갖는 상기 일련의 분리 가능한 컨벌루션 중 최종 하나를 제외하고 각각 하나의 스트라이드를 갖는 일련의 SC4 분리 가능한 컨벌루션을 포함하는 제4 분리 가능한 컨벌루션 모듈;
DW 픽셀의 폭, DH 픽셀의 높이 및 nd 채널의 깊이를 갖는 각각의 깊이별 컨벌루션 필터; 및
1 픽셀의 폭, 1 픽셀의 높이 및 nd 채널의 깊이를 갖는 각각의 점별 컨벌루션 필터를 포함한다.
즉, 깊이별 컨벌루션 필터와 점별 컨벌루션 필터 모두 동일한 깊이를 갖는다.
다른 구성에서는, 처리될 이미지에 따라 다른 스트라이드가 사용될 수 있다. 특히 1보다 큰 값의 스트라이드는 더 빠른 처리를 위해 알고리즘의 계산 부담을 줄인다.
예시된 구성에서, s3, s4 및 s5 각각은 N1과 동일하고, S6은 N2와 동일하다. 즉, 성능 향상을 위해 스트라이드 s3, s4 및 s5는 동일한 값을 가지며 S6는 다른 값을 갖는다. 예시된 구성에서, s3, s4, s5 각각은 2와 동일하고(즉, N1 = 2), S6은 1과 동일하다(즉, N2 = 1).
예시된 구성에서, 제4 분리 가능한 컨벌루션 모듈은 x번 수행되며, 여기서 x는 2보다 큰 정수이다. 예시된 구성에서, x = 6이다.
예시된 구성에서, 적어도 하나의 분리 가능한 컨벌루션 모듈의 각각의 분리 가능한 컨벌루션에서, 깊이별 컨벌루션은 점별 컨벌루션 다음에 수행된다.
예시된 구성에서, 각각의 분리 가능한 컨벌루션 모듈과 관련하여, 일련의 분리 가능한 컨벌루션 중 첫번째 분리 가능한 컨벌루션 다음의 상기 일련의 분리 가능한 컨벌루션 중 각 하나의 점별 컨벌루션은 일련의 분리 가능한 컨벌루션 중 직전의 분리 가능한 컨벌루션의 출력 특징 맵을 일련의 분리 가능한 컨벌루션 중 각 초기의 분리 가능한 컨벌루션의 입력 특징 맵과 연결함으로써 형성된 결합된 특징 맵에서 수행된다.
도 7을 참조하면, 예시된 구성에서 풀링 모듈은:
초기 점별 컨벌루션;
상기 초기 점별 컨벌루션 다음의 일련의 병렬 연결된 아트러스(atrous) 분리 가능한 컨벌루션으로서, 각각의 아트러스 분리 가능한 컨벌루션은 점별 컨벌루션 및 상기 점별 컨벌루션 다음의 팽창된 깊이별 컨벌루션을 포함하는, 상기 일련의 병렬 연결된 아트러스 분리 가능한 컨벌루션; 및
일련의 아트러스 분리 가능한 컨벌루션 다음의 최종 점별 컨벌루션을 포함한다.
예시된 구성에서, 상기 일련의 아트러스 분리 가능한 컨벌루션은:
팽창률 r1을 갖는 팽창된 깊이별 컨벌루션을 갖는 제1 아트러스 분리 가능한 컨벌루션;
팽창률 r2를 갖는 팽창된 깊이별 컨벌루션을 갖는 제2 아트러스 분리 가능한 컨벌루션으로서, r2 = r1 + y인, 상기 제2 아트러스 분리 가능한 컨벌루션;
팽창률 r3을 갖는 팽창된 깊이별 컨벌루션을 갖는 제3 아트러스 분리 가능한 컨벌루션으로서, r3 = r2 + y인, 상기 제3 아트러스 분리 가능한 컨벌루션; 및
팽창률 r4를 갖는 팽창된 깊이별 컨벌루션을 갖는 제4 아트러스 분리 가능한 컨벌루션으로서, r4 = r3 + y인, 상기 제4 아트러스 분리 가능한 컨벌루션을 포함한다.
즉, 각 후속의 아트러스 분리 가능한 컨벌루션의 팽창된 깊이별 컨벌루션 필터의 팽창률은 직전의 아트러스 분리 가능한 컨벌루션의 팽창률과 공통 상수(이 경우 y)만큼 관련된다. 예시된 구성에서, y = 1이다. 다른 구성에서, y는 예컨대 2 또는 3과 같을 수 있다.
예시된 구성에서, 초기 및 최종 점별 컨벌루션과 각각의 아트러스 분리 가능한 컨벌루션 다음에는 정류 선형 유닛 활성화 함수가 뒤따른다.
도 8을 참조하면, 예시된 구성에서, 상기 디코더 모듈은 풀링 모듈의 출력, 상기 적어도 하나의 컨벌루션 계층 중 선택된 하나의 출력 및 상기 적어도 하나의 분리 가능한 컨벌루션 모듈 중 선택된 하나의 출력을 그 입력으로서 수신하도록 구성된다.
예시된 구성에서, 상기 디코더 모듈은:
상기 풀링 모듈의 출력을 업-샘플링하여 형성된 제1 특징 맵과 상기 적어도 하나의 분리 가능한 컨벌루션 모듈 중 선택된 하나의 출력에 대해 점별 컨벌루션을 수행하여 형성된 제2 특징 맵을 연결함으로써 형성된 결합된 특징 맵에 대해 수행되고 깊이별 컨벌루션이 뒤따르는 점별 컨벌루션을 포함하는 제1 분리 가능한 컨벌루션;
상기 제1 분리 가능한 컨벌루션 다음에, 제2 분리 가능한 컨벌루션의 출력을 생성하기 위해 깊이별 컨벌루션이 뒤따르는 점별 컨벌루션을 포함하는 제2 분리 가능한 컨벌루션;
상기 제2 분리 가능한 컨벌루션 다음에, 제2 분리 가능한 컨벌루션의 출력을 업-샘플링하여 형성된 제1 특징 맵과 상기 적어도 하나의 컨벌루션 계층 중 선택된 하나의 출력에 대해 점별 컨벌루션을 수행하여 형성된 제2 특징 맵을 연결함으로써 형성된 결합된 특징 맵에 대해 수행되는 제3 점별 컨벌루션;
상기 제3 점별 컨벌루션 다음의 활성화 함수; 및
상기 활성화 함수 다음의 손실 함수를 포함한다.
예시된 구성에서, 상기 활성화 함수는 소프트맥스 함수이다.
예시된 구성에서, 상기 손실 함수는 평균 교집합 영역 면적/ 합집합 영역 면적(mean intersection-over-union) 손실 함수이다.
예시된 구성에서, 적어도 하나의 컨벌루션 계층 각각은 최종의 정류 선형 유닛 활성화 함수를 포함하고, 그 다음에 상기 적어도 하나의 컨벌루션 계층 각각의 출력이 생성된다.
예시된 구성에서, 적어도 하나의 분리 가능한 컨벌루션 모듈의 각각의 분리 가능한 컨벌루션 다음에는 정류 선형 유닛 활성화 함수가 뒤따른다.
예시된 구성에서, 상기 풀링 모듈은 활성화 함수, 및 컨벌루션 신경망을 훈련하기 위해 그 후의 드롭아웃 계층(dropout layer)을 포함한다.
또 다른 양태에서, 그리고 앞서 설명한 바와 같이, 본 발명은 일반적으로 다양하고 복잡한 배경 및 크랙 유사 특징을 광범위하게 무효화하면서 실시간 성능을 달성할 수 있는 이미지의 콘크리트 크랙을 분할하기 위한 완전한 딥 러닝 방법에 관한 것이다. 이 방법은 표준 컨벌루션, 고밀도로 연결된 분리 가능한 컨벌루션(DenSep) 모듈, 변형된 아트러스 공간 피라미드 풀링(ASPP) 모듈 및 디코더 모듈을 포함하는 컨벌루션 신경망(CNN)을 구현하는 단계를 포함한다. 본 명세서에서 시맨틱 손상 검출 네트워크(SDDNet)라고도 언급된 이러한 CNN은 수동으로 생성된 크랙 데이터 세트에 대해 훈련되고, 그 훈련된 네트워크는 테스트 세트에서 0.846의 평균 교집합 면적/ 합집합 면적(mIoU)을 기록한다. 각 테스트 이미지는 분석되고, 대표적인 분할 결과가 제공된다. 그 결과는 특징들이 너무 희미하지 않는 한 CNN 분할이 효과적으로 크랙되는 것을 보여준다. 이 CNN은 또한 다른 알고리즘과 비교하여 파라미터 수가 비교 모델보다 88배 적음에도 불구하고 더 나은 평가 메트릭을 반환하는 것으로 나타난다. 또한 이 모델은 최근 작업보다 46배 빠른 1025x512 픽셀로 실시간(36 FPS)으로 이미지를 처리한다.
청구항들의 범위는 실시예에 기재된 바람직한 실시예에 의해 제한되어서는 안되며 전체로서 명세서와 일치하는 가장 넓은 해석이 주어져야 한다.
참고 문헌
[1] Y.-J. Cha, W. Choi, and O. Bu"yu"ko"ztu"rk, "Deep learning-based crack damage detection using convolutional neural networks," Computer-Aided Civil and Infrastructure Engineering, vol. 32, DOI 10.1111/mice.12263, no. 5, pp. 361 -378, May. 2017.
[2] Y. LeCun, Y. Bengio, and G. Hinton,"Deep learning," nature, vol. 521, no. 7553, p. 436, 2015.
[3] I. Goodfellow, Y. Bengio, and A. Courville, Deep Learning. MIT Press, 2016, http://www.deeplearningbook.org.
[4] D. Steinkraus, I. Buck, and P. Simard, "Using gpus for machine learning algorithms," in ICDAR'05, DOI 10.1 109/ICDAR.2005.251 , pp. 1 1 15- 1 120. IEEE, 2005.
[5] K. Simonyan and A. Zisserman,"Very deep convolutional networks for large-scale image recognition," arXiv preprint arXiv: 1409.1556, 2014.
[6] K. He, X. Zhang, S. Ren, and J. Sun,"Deep residual learning for image recognition," in Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 770-778, 2016.
[7] F. Chollet, "Xception: Deep learning with depthwise separable convolu- tions," in Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 1251 -1258, 2017.
[8] G. Huang, Z. Liu, L. Van Der Maaten, and K. Q. Weinberger,"Densely connected convolutional networks," in Proceedings of the IEEE confer- ence on computer vision and pattern recognition, pp. 4700^4708, 2017.
[9] J. Yosinski, J. Clune, Y. Bengio, and H. Lipson,"How transferable are features in deep neural networks?" in Advances in neural information processing systems, pp. 3320-3328, 2014.
[10] B. Li, K. C. Wang, A. Zhang, E. Yang, and G. Wang,"Automatic clas- sification of pavement crack using deep convolutional neural network," International Journal of Pavement
Engineering, pp. 1 -7, 2018.
[11] N. T. H. Nguyen, T. H. Le, S. Perry, and T. T. Nguyen,"Pavement crack detection using convolutional neural network," in Proceedings of the Ninth International Symposium on Information and Communication Technology, pp. 251 -256. ACM, 2018.
[12] D. Kang and Y.-J. Cha,"Autonomous uavs for structural health moni- taring using deep learning and an ultrasonic beacon system with geo- tagging," Computer-Aided Civil and Infrastructure Engineering, vol. 33, DOI 10.1111/mice.12375, no. 10, pp. 885-902, Oct. 2018.
[13] S. Ren, K. He, R. Girshick, and J. Sun, "Faster r-cnn: Towards real-time object detection with region proposal networks," in Advances in neural information processing systems, pp. 91 -99, 2015.
[14] Y.-J. Cha, W. Choi, G. Suh, S. Mahmoudkhani, and O. Bu"yu"ko"ztu"rk, "Autonomous structural visual inspection using region-based deep learn- ing for detecting multiple damage types," Computer-Aided Civil and Infrastructure Engineering, vol. 33, DOI 10.1111/mice.12334, no. 9, pp. 731 -747, Sep. 2018.
[15] H. Maeda, Y. Sekimoto, T. Seto, T. Kashiyama, and H. Omata, "Road damage detection and classification using deep neural networks with smartphone images," Computer-Aided Civil and Infrastructure Engineer- ing, vol. 33, DO1 10.1111/mice.12387, no. 12, pp. 1 127-1 141 , Dec. 2018.
[16] Y. Xue and Y. Li,"A fast detection method via region-based fully convolutional neural networks for shield tunnel lining defects," Computer-Aided Civil and Infrastructure Engineering, vol. 33, DOI 10.1111/mice.12367, no. 8, pp. 638-654, Aug. 2018.
[17] O. Ronneberger, P. Fischer, and T. Brox, "U-net: Convolutional networks for biomedical image segmentation," in International Conference on Medical image computing and computer-assisted intervention, pp. 234-241. Springer, 2015.
[18] M. Siam, S. Elkerdawy, M. Jagersand, and S. Yogamani, "Deep se- mantic segmentation for automated driving: Taxonomy, roadmap and challenges," in 2017 IEEE 20th International Conference on Intelligent Transportation Systems (ITSC), pp. 1 -8. IEEE, 2017.
[19] F. Nayyeri, L. Hou, J. Zhou, and H. Guan, "Foreground-background separation technique for crack detection," Computer-Aided Civil and Infrastructure Engineering, 2018.
[20] X. Yang, H. Li, Y. Yu, X. Luo, T. Huang, and X. Yang,"Automatic pixel-level crack detection and measurement using fully convolutional network," Computer-Aided Civil and Infrastructure Engineering, vol. 33, DOI 10.1111/mice.12412, no. 12, pp. 1090-1 109, Dec. 2018.
[21] A. Zhang, K. C. Wang, Y. Fei, Y. Liu, S. Tao, C. Chen, J. Q. Li, and B. Li, "Deep learning-based fully automated pavement crack detection on 3d asphalt surfaces with an improved cracknet," Journal of Computing in Civil Engineering, vol. 32, DOI 10.1061 /(ASCE)CP.1943- 5487.0000775, no. 5, p. 04018041 , Sep. 2018.
[22] C. V. Dung et al.,"Autonomous concrete crack detection using deep fully convolutional neural network," Automation in Construction, vol. 99, DOI 10.1016/j.autcon.2018.11.028, pp. 52-58, Mar. 2019.
[23] F. Ni, J. Zhang, and Z. Chen, "Pixel-level crack delineation in images with convolutional feature fusion," Structural Control and Health Mon- itoring, vol. 26, DOI 10.1002/stc.2286, no. 1, p. e2286, Jan. 2019.
[24] G. H. Beckman, D. Polyzois, and Y.-J. Cha, "Deep learning-based automatic volumetric damage quantification using depth camera," Au- tomation in Construction, vol. 99, DOI 10.1016/j.autcon.2018.12.006, pp. 114-124, Mar. 2019.
[25] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei,"Imagenet: A large-scale hierarchical image database," 2009.
[26] L.-C. Chen, Y. Zhu, G. Papandreou, F. Schroff, and H. Adam,"Encoder- decoder with atrous separable convolution for semantic image segmen- tation," in Proceedings of the European Conference on Computer Vision (ECCV), pp. 801-818, 2018.
[27] V. Badrinarayanan, A. Kendall, and R. Cipolla, "Segnet: A deep con- volutional encoder-decoder architecture for image segmentation," IEEE transactions on pattern analysis and machine intelligence, vol. 39, no. 12, pp. 2481-2495, 2017.
[28] A. G. Howard, M. Zhu, B. Chen, D. Kalenichenko, W. Wang, T. Weyand, M. Andreetto, and H. Adam,"Mobilenets: Efficient convo- lutional neural networks for mobile vision applications," arXiv preprint arXiv:1704.04861, 2017.
[29] S. Ioffe and C. Szegedy,"Batch normalization: Accelerating deep network training by reducing internal covariate shift," arXiv preprint arXiv: 1502.03167, 2015.
[30] V. Nair and G. E. Hinton, "Rectified linear units improve restricted boltz- mann machines," in Proceedings of the 27th international conference on machine learning (ICML-10), pp. 807-814, 2010.
[31] V. Dumoulin and F. Visin,"A guide to convolution arithmetic for deep learning," arXiv preprint arXiv: 1603.07285, 2016.
[32] L.-C. Chen, G. Papandreou, F. Schroff, and H. Adam,"Rethinking atrous convolution for semantic image segmentation," arXiv preprint arXiv: 1706.05587, 2017.
[33] N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov,"Dropout: a simple way to prevent neural networks from over- fitting," The Journal of Machine Learning Research, vol. 15, no. 1, pp. 1929-1958, 2014.
[34] C. Sim, E. Villalobos, J. P. Smith, P. Rojas, S. Pujol, A. Puranam, and L. Laughery, "Performance of low-rise reinforced concrete buildings in the 2016 ecuador earthquake," 2016.
[35] M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Be- nenson, U. Franke, S. Roth, and B. Schiele, "The cityscapes dataset for semantic urban scene understanding," in Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 3213-3223, 2016.
[36] M. Abadi, P. Barham, J. Chen, Z. Chen, A. Davis, J. Dean, M. Devin, S. Ghemawat, G. Irving, M. Isard et al.,"Tensorflow: A system for large- scale machine learning," in 12th USENIX Symposium on Operating Systems Design and Implementation (OSDI 16), pp. 265-283, 2016.
[37] J. Long, E. Shelhamer, and T. Darrell,"Fully convolutional networks for semantic segmentation," in Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 3431-3440, 2015.
[38] M. A. Rahman and Y. Wang, "Optimizing intersection-over-union in deep neural networks for image segmentation," in International symposium on visual computing, pp. 234-244. Springer, 2016.
[39] D. P. Kingma and J. Ba,"Adam: A method for stochastic optimization," arXiv preprint arXiv:1412.6980, 2014.
[40] L. N. Smith, "Cyclical learning rates for training neural networks," in 2017 IEEE Winter Conference on Applications of Computer Vision (WACV), pp. 464^472. IEEE, 2017.
[41] Y. Liu, J. Yao, X. Lu, R. Xie, and L. Li,"Deepcrack: A deep hierarchical feature learning architecture for crack segmentation," Neurocomputing, vol. 338, DO1 10.1016/j.neucom.2019.01.036, pp. 139-153, 2019.
Figure pct00004
Figure pct00005
Figure pct00006
Figure pct00007
Figure pct00008
Figure pct00009
Figure pct00010

Claims (17)

  1. 이미지 내의 관심 물품을 분할하기 위해 이미지를 분석하는 컴퓨터 구현 방법에 있어서,
    n1 픽셀의 폭, n2 픽셀의 높이 및 d 채널의 깊이를 갖는 이미지를 수신하는 단계;
    관심 물품을 분할하도록 구성된 기계 학습 알고리즘을 사용하여 이미지를 처리하는 단계로서, 상기 기계 학습 알고리즘은:
    적어도 하나의 컨벌루션 계층;
    상기 적어도 하나의 컨벌루션 계층 다음에, 일련의 분리 가능한 컨벌루션을 포함하는 적어도 하나의 분리 가능한 컨벌루션 모듈로서, 각각의 분리 가능한 컨벌루션은 깊이별 컨벌루션 및 점별 컨벌루션을 포함하는, 상기 적어도 하나의 분리 가능한 컨벌루션 모듈;
    상기 적어도 하나의 분리 가능한 컨벌루션 모듈 다음의 풀링 모듈; 및
    상기 풀링 모듈 다음의 디코더 모듈을 포함하는, 컨벌루션 신경망을 포함하는, 상기 관심 물품을 분할하도록 구성된 기계 학습 알고리즘을 사용하여 상기 이미지를 처리하는 단계; 및
    상기 기계 학습 알고리즘에 의해 존재한다고 결정되는 경우 관심 물품의 위치가 표시된 이미지를 디스플레이하는 단계를 포함하는, 이미지 내의 관심 물품을 분할하기 위해 이미지를 분석하는 컴퓨터 구현 방법.
  2. 제1항에 있어서,
    상기 적어도 하나의 컨벌루션 계층은,
    각각이 w1 픽셀의 폭, h1 픽셀의 높이 및 스트라이드(stride) s1을 갖는 d1 채널의 깊이를 갖는 f1 필터를 갖는 제1 컨벌루션 계층; 및
    상기 제1 컨벌루션 계층 다음에, 각각이 w2 픽셀의 폭, h2 픽셀의 높이 및 스트라이드 s2를 갖는 d2 채널의 깊이를 갖는 f2 필터를 갖는 제2 컨벌루션 계층을 포함하고,
    f2 = nf1,
    s2 = ns1,
    n은 정수인, 이미지 내의 관심 물품을 분할하기 위해 이미지를 분석하는 컴퓨터 구현 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 적어도 하나의 분리 가능한 컨벌루션 모듈은,
    스트라이드 s3을 갖는 상기 일련의 분리 가능한 컨벌루션 중 최종 하나를 제외하고 각각 하나의 스트라이드를 갖는 일련의 SC1 분리 가능한 컨벌루션을 포함하는 제1 분리 가능한 컨벌루션 모듈;
    상기 제1 분리 가능한 컨벌루션 모듈 다음에, 스트라이드 s4를 갖는 상기 일련의 분리 가능한 컨벌루션 중 최종 하나를 제외하고 각각 하나의 스트라이드를 갖는 일련의 SC2 분리 가능한 컨벌루션을 포함하는 제2 분리 가능한 컨벌루션 모듈;
    상기 제2 분리 가능한 컨벌루션 모듈 다음에, 스트라이드 s5를 갖는 상기 일련의 분리 가능한 컨벌루션 중 최종 하나를 제외하고 각각 하나의 스트라이드를 갖는 일련의 SC3 분리 가능한 컨벌루션을 포함하는 제3 분리 가능한 컨벌루션 모듈;
    상기 제3 분리 가능한 컨벌루션 모듈 다음에, 스트라이드 s6을 갖는 상기 일련의 분리 가능한 컨벌루션 중 최종 하나를 제외하고 각각 하나의 스트라이드를 갖는 일련의 SC4 분리 가능한 컨벌루션을 포함하는 제4 분리 가능한 컨벌루션 모듈;
    DW 픽셀의 폭, DH 픽셀의 높이 및 nd 채널의 깊이를 갖는 각각의 깊이별 컨벌루션 필터; 및
    1 픽셀의 폭, 1 픽셀의 높이 및 nd 채널의 깊이를 갖는 각각의 점별 컨벌루션 필터를 포함하는, 이미지 내의 관심 물품을 분할하기 위해 이미지를 분석하는 컴퓨터 구현 방법.
  4. 제3항에 있어서,
    s3, s4 및 s5 각각은 N1과 동일하고, S6은 N2와 동일한, 이미지 내의 관심 물품을 분할하기 위해 이미지를 분석하는 컴퓨터 구현 방법.
  5. 제3항 또는 제4항에 있어서,
    상기 제4 분리 가능한 컨벌루션 모듈은 x회 수행되며, x는 2보다 큰 정수인, 이미지 내의 관심 물품을 분할하기 위해 이미지를 분석하는 컴퓨터 구현 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 적어도 하나의 분리 가능한 컨벌루션 모듈의 각각의 분리 가능한 컨벌루션에서, 깊이별 컨벌루션은 점별 컨벌루션 다음에 수행되는, 이미지 내의 관심 물품을 분할하기 위해 이미지를 분석하는 컴퓨터 구현 방법.
  7. 제6항에 있어서,
    각각의 분리 가능한 컨벌루션 모듈과 관련하여, 일련의 분리 가능한 컨벌루션 중 첫번째 분리 가능한 컨벌루션 다음의 상기 일련의 분리 가능한 컨벌루션 중 각 하나의 점별 컨벌루션은 일련의 분리 가능한 컨벌루션 중 직전의 분리 가능한 컨벌루션의 출력 특징 맵을 일련의 분리 가능한 컨벌루션 중 각 초기의 분리 가능한 컨벌루션의 입력 특징 맵과 연결함으로써 형성된 결합된 특징 맵에서 수행되는, 이미지 내의 관심 물품을 분할하기 위해 이미지를 분석하는 컴퓨터 구현 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 풀링 모듈은,
    초기 점별 컨벌루션;
    상기 초기 점별 컨벌루션 다음의 일련의 병렬 연결된 아트러스(atrous) 분리 가능한 컨벌루션으로서, 각각의 아트러스 분리 가능한 컨벌루션은 점별 컨벌루션 및 상기 점별 컨벌루션 다음의 팽창된 깊이별 컨벌루션을 포함하는, 상기 일련의 병렬 연결된 아트러스 분리 가능한 컨벌루션; 및
    일련의 아트러스 분리 가능한 컨벌루션 다음의 최종 점별 컨벌루션을 포함하는, 이미지 내의 관심 물품을 분할하기 위해 이미지를 분석하는 컴퓨터 구현 방법.
  9. 제8항에 있어서,
    상기 일련의 아트러스 분리 가능한 컨벌루션은,
    팽창률 r1을 갖는 팽창된 깊이별 컨벌루션을 갖는 제1 아트러스 분리 가능한 컨벌루션;
    팽창률 r2를 갖는 팽창된 깊이별 컨벌루션을 갖는 제2 아트러스 분리 가능한 컨벌루션으로서, r2 = r1 + y인, 상기 제2 아트러스 분리 가능한 컨벌루션;
    팽창률 r3을 갖는 팽창된 깊이별 컨벌루션을 갖는 제3 아트러스 분리 가능한 컨벌루션으로서, r3 = r2 + y인, 상기 제3 아트러스 분리 가능한 컨벌루션; 및
    팽창률 r4를 갖는 팽창된 깊이별 컨벌루션을 갖는 제4 아트러스 분리 가능한 컨벌루션으로서, r4 = r3 + y인, 상기 제4 아트러스 분리 가능한 컨벌루션을 포함하는, 이미지 내의 관심 물품을 분할하기 위해 이미지를 분석하는 컴퓨터 구현 방법.
  10. 제8항 또는 제9항에 있어서,
    상기 초기 및 최종 점별 컨벌루션과 각각의 아트러스 분리 가능한 컨벌루션 다음에는 정류 선형 유닛 활성화 함수가 뒤따르는, 이미지 내의 관심 물품을 분할하기 위해 이미지를 분석하는 컴퓨터 구현 방법.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서,
    상기 디코더 모듈은 풀링 모듈의 출력, 상기 적어도 하나의 컨벌루션 계층 중 선택된 하나의 출력 및 상기 적어도 하나의 분리 가능한 컨벌루션 모듈 중 선택된 하나의 출력을 그 입력으로서 수신하도록 구성되는, 이미지 내의 관심 물품을 분할하기 위해 이미지를 분석하는 컴퓨터 구현 방법.
  12. 제11항에 있어서,
    상기 디코더 모듈은,
    상기 풀링 모듈의 출력을 업-샘플링하여 형성된 제1 특징 맵과 상기 적어도 하나의 분리 가능한 컨벌루션 모듈 중 선택된 하나의 출력에 대해 점별 컨벌루션을 수행하여 형성된 제2 특징 맵을 연결함으로써 형성된 결합된 특징 맵에 대해 수행되고 깊이별 컨벌루션이 뒤따르는 점별 컨벌루션을 포함하는 제1 분리 가능한 컨벌루션;
    상기 제1 분리 가능한 컨벌루션 다음에, 제2 분리 가능한 컨벌루션의 출력을 생성하기 위해 깊이별 컨벌루션이 뒤따르는 점별 컨벌루션을 포함하는 제2 분리 가능한 컨벌루션;
    상기 제2 분리 가능한 컨벌루션 다음에, 제2 분리 가능한 컨벌루션의 출력을 업-샘플링하여 형성된 제1 특징 맵과 상기 적어도 하나의 컨벌루션 계층 중 선택된 하나의 출력에 대해 점별 컨벌루션을 수행하여 형성된 제2 특징 맵을 연결함으로써 형성된 결합된 특징 맵에 대해 수행되는 제3 점별 컨벌루션;
    상기 제3 점별 컨벌루션 다음의 활성화 함수; 및
    상기 활성화 함수 다음의 손실 함수를 포함하는, 이미지 내의 관심 물품을 분할하기 위해 이미지를 분석하는 컴퓨터 구현 방법.
  13. 제12항에 있어서,
    상기 활성화 함수는 소프트맥스(softmax) 함수인, 이미지 내의 관심 물품을 분할하기 위해 이미지를 분석하는 컴퓨터 구현 방법.
  14. 제12항 또는 제13항에 있어서,
    상기 손실 함수는 평균 교집합 영역 면적/ 합집합 영역 면적(mean intersection-over-union) 손실 함수인, 이미지 내의 관심 물품을 분할하기 위해 이미지를 분석하는 컴퓨터 구현 방법.
  15. 제1항 내지 제14항 중 어느 한 항에 있어서,
    적어도 하나의 컨벌루션 계층 각각은 최종의 정류 선형 유닛 활성화 함수를 포함하고, 그 다음에 상기 적어도 하나의 컨벌루션 계층 각각의 출력이 생성되는, 이미지 내의 관심 물품을 분할하기 위해 이미지를 분석하는 컴퓨터 구현 방법.
  16. 제1항 내지 제15항 중 어느 한 항에 있어서,
    적어도 하나의 분리 가능한 컨벌루션 모듈의 각 분리 가능한 컨벌루션 다음에는 정류 선형 유닛 활성화 함수가 뒤따르는, 이미지 내의 관심 물품을 분할하기 위해 이미지를 분석하는 컴퓨터 구현 방법.
  17. 제1항 내지 제16항 중 어느 한 항에 있어서,
    상기 풀링 모듈은 활성화 함수, 및 컨벌루션 신경망을 훈련하기 위해 그 후의 드롭아웃 계층(dropout layer)을 포함하는, 이미지 내의 관심 물품을 분할하기 위해 이미지를 분석하는 컴퓨터 구현 방법.
KR1020227000205A 2019-06-04 2020-06-03 이미지 내의 관심 물품을 분할하기 위해 이미지를 분석하는 컴퓨터 구현 방법 KR20220047560A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962857123P 2019-06-04 2019-06-04
US62/857,123 2019-06-04
US201962871483P 2019-07-08 2019-07-08
US62/871,483 2019-07-08
PCT/CA2020/050758 WO2020243826A1 (en) 2019-06-04 2020-06-03 Computer-implemented method of analyzing an image to segment article of interest therein

Publications (1)

Publication Number Publication Date
KR20220047560A true KR20220047560A (ko) 2022-04-18

Family

ID=73651887

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227000205A KR20220047560A (ko) 2019-06-04 2020-06-03 이미지 내의 관심 물품을 분할하기 위해 이미지를 분석하는 컴퓨터 구현 방법

Country Status (5)

Country Link
US (1) US12020437B2 (ko)
EP (1) EP3980967A1 (ko)
KR (1) KR20220047560A (ko)
CA (1) CA3140924A1 (ko)
WO (1) WO2020243826A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118172787A (zh) * 2024-05-09 2024-06-11 南昌航空大学 一种轻量级文档版面分析方法

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11602132B2 (en) 2020-10-06 2023-03-14 Sixgill, LLC System and method of counting livestock
US11715276B2 (en) * 2020-12-22 2023-08-01 Sixgill, LLC System and method of generating bounding polygons
CN112801104B (zh) * 2021-01-20 2022-01-07 吉林大学 基于语义分割的图像像素级伪标签确定方法及系统
CN113344041B (zh) * 2021-05-20 2022-12-23 上海大学 一种基于多模型融合卷积神经网络的pcb缺陷图像识别方法
CN113420643B (zh) * 2021-06-21 2023-02-10 西北工业大学 基于深度可分离空洞卷积的轻量级水下目标检测方法
CN113658117B (zh) * 2021-08-02 2023-09-15 安徽省交通控股集团有限公司 一种基于深度学习的沥青混合料中集料边界识别与划分方法
CN113869292B (zh) * 2021-12-02 2022-03-01 智道网联科技(北京)有限公司 用于自动驾驶的目标检测方法、装置及设备
CN115239733B (zh) * 2022-09-23 2023-01-03 深圳大学 裂缝检测方法、装置、终端设备以及存储介质
CN116844051B (zh) * 2023-07-10 2024-02-23 贵州师范大学 一种融合aspp和深度残差的遥感图像建筑物提取方法
CN117274256B (zh) * 2023-11-21 2024-02-06 首都医科大学附属北京安定医院 一种基于瞳孔变化的疼痛评估方法、系统及设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6961011B2 (ja) * 2016-12-09 2021-11-05 ベイジン ホライズン インフォメーション テクノロジー カンパニー リミテッド データ管理のためのシステム及び方法
EP3514733A1 (en) 2018-01-18 2019-07-24 Aptiv Technologies Limited A device and a method for image classification using a convolutional neural network
EP3890591A4 (en) * 2018-12-04 2022-08-10 Jiang, Ruowei AUTOMATIC IMAGE-BASED SKIN DIAGNOSTICS USING DEEP LEARNING
US10977530B2 (en) * 2019-01-03 2021-04-13 Beijing Jingdong Shangke Information Technology Co., Ltd. ThunderNet: a turbo unified network for real-time semantic segmentation
WO2021235566A1 (ko) * 2020-05-19 2021-11-25 주식회사 룰루랩 다중 피부 병변 검출 시스템, 다형 피부 병변 검출 방법 및 이를 구현하기 위한 프로그램이 기록되고 컴퓨터로 읽을 수 있는 기록매체

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118172787A (zh) * 2024-05-09 2024-06-11 南昌航空大学 一种轻量级文档版面分析方法

Also Published As

Publication number Publication date
WO2020243826A1 (en) 2020-12-10
EP3980967A1 (en) 2022-04-13
US20220254030A1 (en) 2022-08-11
US12020437B2 (en) 2024-06-25
CA3140924A1 (en) 2020-12-10

Similar Documents

Publication Publication Date Title
KR20220047560A (ko) 이미지 내의 관심 물품을 분할하기 위해 이미지를 분석하는 컴퓨터 구현 방법
Choi et al. SDDNet: Real-time crack segmentation
Srivastava et al. A survey of deep learning techniques for vehicle detection from UAV images
CN111104903B (zh) 一种深度感知交通场景多目标检测方法和系统
US20180114071A1 (en) Method for analysing media content
Zhong et al. Multi-scale feature fusion network for pixel-level pavement distress detection
Singh et al. Road damage detection and classification in smartphone captured images using mask r-cnn
CN110287826B (zh) 一种基于注意力机制的视频目标检测方法
Aradhya Object detection and tracking using deep learning and artificial intelligence for video surveillance applications
CN103530619A (zh) 基于rgb-d数据构成的少量训练样本的手势识别方法
Guo et al. A novel transformer-based network with attention mechanism for automatic pavement crack detection
Kang et al. Context pyramidal network for stereo matching regularized by disparity gradients
Fang et al. Sewer defect instance segmentation, localization, and 3D reconstruction for sewer floating capsule robots
Hua et al. Convolutional networks with bracket-style decoder for semantic scene segmentation
Tsutsui et al. Distantly supervised road segmentation
WO2023105800A1 (en) Object detection device, object detection method, and object detection system
Gooda et al. Automatic detection of road cracks using EfficientNet with residual U-net-based segmentation and YOLOv5-based detection
CN112115786A (zh) 基于注意力U-net的单目视觉里程计方法
Guan et al. Improved RefineDNet algorithm for precise environmental perception of autonomous earthmoving machinery under haze and fugitive dust conditions
US20240013521A1 (en) Sequence processing for a dataset with frame dropping
Cho et al. Detection of moving objects in multi-complex environments using selective attention networks (SANet)
Kim et al. Panoptic blind image inpainting
Liu et al. Deep learning based water leakage detection for shield tunnel lining
Giannopoulos et al. 4d convolutional neural networks for multi-spectral and multi-temporal remote sensing data classification
CN111047571A (zh) 一种具有自适应选择训练过程的图像显著目标检测方法