KR102131273B1 - 영상분할을 위한 신경망 학습장치 및 방법 - Google Patents
영상분할을 위한 신경망 학습장치 및 방법 Download PDFInfo
- Publication number
- KR102131273B1 KR102131273B1 KR1020180086684A KR20180086684A KR102131273B1 KR 102131273 B1 KR102131273 B1 KR 102131273B1 KR 1020180086684 A KR1020180086684 A KR 1020180086684A KR 20180086684 A KR20180086684 A KR 20180086684A KR 102131273 B1 KR102131273 B1 KR 102131273B1
- Authority
- KR
- South Korea
- Prior art keywords
- learning
- resolution
- batch
- patches
- image
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 28
- 238000003709 image segmentation Methods 0.000 title claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 52
- 230000008569 process Effects 0.000 claims abstract description 18
- 238000005070 sampling Methods 0.000 claims abstract description 15
- 238000002372 labelling Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 7
- 230000007423 decrease Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000013480 data collection Methods 0.000 description 2
- 230000007786 learning performance Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
본 발명은 영상분할을 위한 신경망 학습장치 및 방법에 관한 것으로, 원영상의 패치들을 입력하는 영상입력부와, 입력된 상기 패치들을 다단계의 다운샘플링을 통해 해상도가 단계적으로 다른 동일 배치들로 변환하는 다운샘플링 처리부와, 상기 다운샘플링 처리부에서 처리된 패치들을 동일 해상도별 배치로 처리하는 배치 처리부와, 해상도별 상기 배치들을 입력받아, 해상도가 낮은 배치로부터 높은 배치까지 단계적으로 학습하여 최종 학습 파라미터를 제공하는 학습처리부를 포함한다.
Description
본 발명은 영상분할을 위한 신경망 학습장치 및 방법에 관한 것으로, 더 상세하게는 초고화질 영상에서 영상분할 학습 성공률을 높일 수 있는 영상분할을 위한 신경망 학습장치 및 방법에 관한 것이다.
영상 기술의 발전에 의해 미세 객체를 초고화질로 촬영할 수 있게 됨에 따라 반도체 등 미세 구조의 제조분야에서도 초고화질 비전을 이용하여 미세 패턴 구조를 촬영하고, 촬영 영상을 인식하는 기술이 제안되었다.
영상의 인식 방법으로서 영상의 분할은 영상의 표현을 좀 더 의미있고, 해석하기 용이한 것으로 단순화하거나 변환하는 방법이다. 특히 영상에서 물체와 경계를 찾는데 사용된다.
또한, 인공지능 분야의 기술 발전에 기인하여 다양한 영상의 영상분할을 학습하고, 학습된 결과에 따라 이후 영상들에서 객체를 인식하는 기술이 제안되고 있다.
하지만, 초고화질 영상의 특성에 의해 현재까지는 학습 성공률이 낮아 적용이 어렵다는 한계가 있었다.
종래 영상 인식에 신경망 학습을 적용한 예로는 공개특허 10-2016-0131848호(객체 인식 장치 및 방법, 2016년 11월 16일 공개)가 있다.
위의 공개특허에서는 원영상의 샘플 분할 맵(segmentation map)을 포함하는 복수의 영상 학습 집합으로부터 특징을 추출하여 학습하는 장치 및 방법에 대해 기재하고 있다.
하지만, 이러한 방법은 상대적으로 저해상도의 영상에는 적용할 수 있으나, 초고해상도 영상에 적용하는 경우 학습 성공률이 저하될 수 있으며, 학습 성공률 저하의 원인에 대하여 아래에서 상세히 설명한다.
도 1은 일반적인 영상에서 객체 인식을 위한 학습데이터 수집과정을 보인 설명도이다.
도 1의 좌측 사진은 초고해상도 입력영상(원영상)이며, 우측 사진은 원영상에서 미리 분할하여 구분한 레이블링(labeling) 영상이다.
입력영상의 패치(patch)들과 레이블링 영상의 동일 영역의 패치들을 학습데이터 집합으로 하여, 신경망 학습장치는 입력영상의 패치 입력에 따라 동일 영역의 레이블링 영상 패치를 출력하도록 학습된다.
이때 패치의 크기(면적)은 다양하게 지정될 수 있으며, 최초 레이블링 영상의 패치들은 작업자가 미리 분할한 것일 수 있다.
통상 심층신경망 분할기의 입력으로 원영상의 패치들을 입력하고, 레이블링 영상의 패치들을 출력할 수 있도록 학습되며, 심층신경망 분할긴느 수많은 파라미터를 갖는 비선형 함수이며, 위에서 선별된 학습데이터 집합을 이용하여 올바른 파라미터 값을 결정하는 과정인 학습을 한다.
최초 파라미터 값은 임의의 값으로 설정되어 있으며, 임의의 파라미터 값이 학습결과와 가까울수록 학습시간을 단축할 수 있다.
상기 심층신경망 분할기에 입력되는 원영상의 패치들은 묶음 단위인 배치(batch)로서 입력된다.
하지만, 원영상이 초고해상도일 때, 패치들의 해상도도 높은 해상도가 되도록 한다. 패치의 해상도가 낮은 경우에는 원영상의 전체적인 구조적 특징을 학습하기 어렵기 때문이다. 여기서 패치의 해상도는 원영상에서 하나의 패치가 차지하는 면적으로 이해될 수도 있다.
도 2는 초고해상도 원영상에서 서로 다른 해상도의 패치를 나타낸 설명도이다.
도 2에서 고해상도 패치(1)와 저해상도 패치(2)는 서로 면적에 차이가 있으며, 면적의 차이(해상도의 차이)에 의하여 고해상도 패치(1)는 원영상의 전체적인 구조적 특징을 학습하기 유리하며, 저해상도 패치(1)는 원영상의 전체적인 구조적 특징을 학습하기 어렵다.
따라서 입력 영상의 해상도가 높을수록 패치의 해상도도 크게 해야 한다.
그러나 패치의 해상도를 크게 하면, 신경망 학습장치의 메모리의 한계에 의해 하나의 배치에는 상대적으로 작은 수의 패치가 포함될 수밖에 없다.
즉, 배치의 크기가 작아지게 되며, 배치의 크기가 작아지는 경우 초기에 학습하는 배치에 포함된 패치에 의해 학습 성능이 결정되기 때문에 학습이 정확하게 이루어지지 않는 경우가 발생할 수 있다.
이처럼 학습에 실패하는 경우 파라미터가 결정되지 않아, 이후 입력되는 인식할 영상을 제대로 분할하지 못하게 되는 문제점이 있었다.
도 3은 위에서 설명한 종래의 학습방법을 정리한 흐름도이다.
도 3에 도시한 바와 같이 초고해상도의 원본 영상이 입력(S31)되면, 다수의 패치가 포함된 배치를 구성(S32)하고, 파라미터를 갱신하는 과정인 학습을 수행(S33)한다.
이때 최초의 학습은 임의의 파라미터를 이용하며, 학습이 성공하면 최종 학습에 의해 결정된 파라미터를 이용하여 입력되는 원영상을 분할한다.
앞서 설명한 바와 같이 종래 초고해상도 원영상의 패치는 해상도가 높고, 해상도가 높은 패치를 다수 포함하는 배치는 크기가 매우 작게 되어 학습 성능이 저하되며, 학습에 실패할 수 있는 문제점이 있었다.
본 발명이 해결하고자 하는 기술적 과제는, 초고해상도 원영상의 영상분할을 위한 학습장치 및 방법에 있어서, 배치의 크기 감소 없이 학습을 수행하여 학습 성공률을 높일 수 있는 영상분할을 위한 신경망 학습장치 및 방법을 제공함에 있다.
본 발명의 일측면에 따른 영상분할을 위한 신경망 학습장치는, 원영상의 패치들을 입력하는 영상입력부와, 입력된 상기 패치들을 다단계의 다운샘플링을 통해 해상도가 단계적으로 다른 동일 배치들로 변환하는 다운샘플링 처리부와, 상기 다운샘플링 처리부에서 처리된 패치들을 동일 해상도별 배치로 처리하는 배치 처리부와, 해상도별 상기 배치들을 입력받아, 해상도가 낮은 배치로부터 높은 배치까지 단계적으로 학습하여 최종 학습 파라미터를 제공하는 학습처리부를 포함한다.
본 발명의 실시예에 따르면, 상기 학습처리부는, 입력된 원영상의 패치들과 대응되는 레이블링 영상의 패치들을 출력할 수 있도록 학습 파라미터를 수정하는 것일 수 있다.
본 발명의 실시예에 따르면, 상기 학습처리부는, 해상도가 가장 낮은 배치를 초기 학습 파라미터를 이용하여 학습하고, 학습결과인 출력 파라미터를 이용하여 그 다음으로 해상도가 낮은 배치의 학습에 이용하는 것을 단계적으로 수행하여, 해상도가 가장 높은 배치의 학습 후 상기 최종 학습 파라미터를 생성할 수 있다.
본 발명의 실시예에 따르면, 해상도가 가장 높은 배치의 해상도는 원영상의 해상도일 수 있다.
본 발명의 실시예에 따르면, 상기 배치는 패치들의 집합이며, 하나의 배치에는 해상도가 상대적으로 낮은 패치들이 해상도가 상대적으로 높은 패치들보다 더 많이 포함된다.
본 발명의 다른 측면에 따른 영상분할을 위한 신경망 학습방법은, a) 원영상의 패치들을 단계적으로 다운샘플링하여, 해상도가 단계적으로 다른 동일 패치들을 생성하는 단계와, b) 해상도가 단계적으로 다른 패치들을 그룹화하여 해상도별 배치로 처리하는 단계와, c) 해상도가 가장 낮은 배치부터 가장 높은 배치까지 단계적으로 학습하여 최종 학습 파라미터를 생성하는 단계를 포함할 수 있다.
본 발명의 실시예에 따르면, 상기 c) 단계의 학습은, 입력된 원영상의 패치들과 대응되는 레이블링 영상의 패치들을 출력할 수 있도록 학습 파라미터를 수정하는 과정일 수 있다.
본 발명의 실시예에 따르면, 상기 c) 단계는, c1) 해상도가 가장 낮은 배치를 초기 학습 파라미터를 이용하여 학습하는 과정과, c2) 상기 c1 과정의 출력 파라미터를 이용하여 그 다음으로 해상도가 낮은 배치의 학습에 이용하는 과정을 포함하여, 해상도가 낮은 배치로부터 가장 높은 배치까지 단계적으로 학습하되, 이전 단계의 학습 결과인 출력 파라미터를 다음 단계의 학습 파라미터로 사용할 수 있다.
본 발명의 실시예에 따르면, 해상도가 가장 높은 배치의 해상도는 원영상의 해상도인 것을 특징으로 할 수 있다.
본 발명의 실시예에 따르면, 상기 배치는 패치들의 집합이며, 하나의 배치에는 해상도가 상대적으로 낮은 패치들이 해상도가 상대적으로 높은 패치들보다 더 많이 포함될 수 있다.
본 발명은 원영상의 고해상도 패치들을 단계별로 다운 샘플링하고, 최소 해상도의 패치들을 포함하는 배치에 대한 학습을 진행하여 학습 파라미터를 결정하고, 결정된 학습 파라미터를 다시 이용하여 다음 단계의 낮은 해상도의 패치들을 포함하는 배치에 대한 학습을 단계적으로 진행함으로써, 배치 크기 저하에 따른 학습 성공률 저하를 방지할 수 있는 효과가 있다.
도 1은 일반적인 영상에서 객체 인식을 위한 학습데이터 수집과정을 보인 설명도이다.
도 2는 초고해상도 원영상에서 서로 다른 해상도의 패치를 나타낸 설명도이다.
도 3은 종래 학습방법의 흐름도이다.
도 4는 본 발명의 바람직한 실시예에 따른 객체 인식을 위한 신경망 학습 장치의 구성도이다.
도 5는 본 발명의 바람직한 실시예에 따른 객체 인식을 위한 신경망 학습방법의 흐름도이다.
도 6은 다운샘플링된 원영상과 패치의 관계도이다.
도 2는 초고해상도 원영상에서 서로 다른 해상도의 패치를 나타낸 설명도이다.
도 3은 종래 학습방법의 흐름도이다.
도 4는 본 발명의 바람직한 실시예에 따른 객체 인식을 위한 신경망 학습 장치의 구성도이다.
도 5는 본 발명의 바람직한 실시예에 따른 객체 인식을 위한 신경망 학습방법의 흐름도이다.
도 6은 다운샘플링된 원영상과 패치의 관계도이다.
이하, 본 발명 객체 인식을 위한 신경망 학습장치 및 방법에 대하여 첨부한 도면을 참조하여 상세히 설명한다.
본 발명의 실시 예들은 당해 기술 분야에서 통상의 지식을 가진 자에게 본 발명을 더욱 완전하게 설명하기 위해 제공되는 것이며, 아래에 설명되는 실시 예들은 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 아래의 실시 예들로 한정되는 것은 아니다. 오히려, 이들 실시 예는 본 발명을 더욱 충실하고 완전하게 하며 당업자에게 본 발명의 사상을 완전하게 전달하기 위하여 제공되는 것이다.
본 명세서에서 사용된 용어는 특정 실시 예를 설명하기 위하여 사용되며, 본 발명을 제한하기 위한 것이 아니다. 본 명세서에서 사용된 바와 같이 단수 형태는 문맥상 다른 경우를 분명히 지적하는 것이 아니라면, 복수의 형태를 포함할 수 있다. 또한, 본 명세서에서 사용되는 경우 "포함한다(comprise)" 및/또는"포함하는(comprising)"은 언급한 형상들, 숫자, 단계, 동작, 부재, 요소 및/또는 이들 그룹의 존재를 특정하는 것이며, 하나 이상의 다른 형상, 숫자, 동작, 부재, 요소 및/또는 그룹들의 존재 또는 부가를 배제하는 것이 아니다. 본 명세서에서 사용된 바와 같이, 용어 "및/또는"은 해당 열거된 항목 중 어느 하나 및 하나 이상의 모든 조합을 포함한다.
본 명세서에서 제1, 제2 등의 용어가 다양한 부재, 영역 및/또는 부위들을 설명하기 위하여 사용되지만, 이들 부재, 부품, 영역, 층들 및/또는 부위들은 이들 용어에 의해 한정되지 않음은 자명하다. 이들 용어는 특정 순서나 상하, 또는 우열을 의미하지 않으며, 하나의 부재, 영역 또는 부위를 다른 부재, 영역 또는 부위와 구별하기 위하여만 사용된다. 따라서, 이하 상술할 제1 부재, 영역 또는 부위는 본 발명의 가르침으로부터 벗어나지 않고서도 제2 부재, 영역 또는 부위를 지칭할 수 있다.
이하, 본 발명의 실시 예들은 본 발명의 실시 예들을 개략적으로 도시하는 도면들을 참조하여 설명한다. 도면들에 있어서, 예를 들면, 제조 기술 및/또는 공차에 따라, 도시된 형상의 변형들이 예상될 수 있다. 따라서, 본 발명의 실시 예는 본 명세서에 도시된 영역의 특정 형상에 제한된 것으로 해석되어서는 아니 되며, 예를 들면 제조상 초래되는 형상의 변화를 포함하여야 한다.
도 4는 본 발명의 바람직한 실시예에 따른 객체 인식을 위한 신경망 학습장치의 구성도이다.
도 4를 참조하면 본 발명의 바람직한 실시예에 따른 객체 인식을 위한 신경망 학습장치는, 초고해상도 원영상의 고해상도 패치를 입력하는 영상입력부(10)와, 입력된 상기 원영상의 고해상도 패치들을 단계별로 다운 샘플링(down sampling)하여 단계별로 해상도가 다른 패치를 생성하는 다운샘플링 처리부(20)와, 상기 다운샘플링 처리부(20)에서 처리된 각기 다른 해상도의 패치를 동일 해상도별 배치를 구성하는 배치구성부(30)와, 상기 배치구성부(30)에서 구성된 배치들 중 해상도가 가장 낮은 패치들을 포함하는 배치를 학습하여 학습 파라미터를 결정하고, 결정된 학습 파라미터를 이용하여 단계적으로 해상도가 높은 패치들을 포함하는 배치를 학습하여 최종 학습 파라미터를 결정하는 학습처리부(40)를 포함한다.
이하, 상기와 같이 구성되는 본 발명의 바람직한 실시예에 따른 객체 인식을 위한 신경망 학습장치의 구성과 작용에 대하여 더 상세히 설명한다.
먼저, 영상입력부(10)는 초고해상도의 영상에서 지정된 학습 데이터 영역인 패치들을 입력한다. 이때 입력되는 패치들은 해상도가 높은 패치들이다.
해상도가 높은 패치를 사용해야 하는 이유는 앞서 도 2를 참조하여 설명한 바 있다. 초고해상도 원영상에서 패치의 해상도가 낮으면(면적이 작으면) 원영상의 전체적인 구조적 특징을 학습하기 어렵기 때문이다.
상기 영상입력부(10)에서 입력된 해상도가 높은 패치들은 다운샘플링 처리부(20)에서 해상도가 조절된다.
상기 다운샘플링 처리부(20)는 제1 내지 제n다운샘플링 처리부(20-1~20-n)를 포함한다. 상기 영상입력부(10)의 해상도가 높은 패치들은 제1다운샘플링 처리부(20-1)에 입력되어 설정된 정도로 해상도를 줄여, 제1패치를 생성한다.
이때 해상도를 줄인다는 의미는 패치들의 종횡비가 유지되는 상태로 크기를 줄이는 것으로 이해될 수 있다. 즉 원래의 패치에 비하여 제1패치는 크기가 작은 것으로, 해상도의 감소에 따라 제1패치의 파일 크기는 원래의 패치의 파일 크기보다 작아지게 된다.
상기 제1다운샘플링 처리부(20-1)에서 처리된 제1패치는 다시 제2다운샘플링 처리부(20-2)로 입력됨과 아울러 제1다운샘플링 처리부(20-1)에 저장 후 배치구성부(30)로 입력된다.
상기 제1다운샘플링 처리부(20-1)에서 처리된 제1패치를 입력받은 제2다운샘플링 처리부(20-2)는 원래의 제1패치들의 해상도를 다시 줄여 제2패치를 생성한다.
제2패치는 제1패치에 비하여 종횡비는 동일하고, 크기가 작은 특징이 있다.
이처럼 원래의 패치를 제1패치, 제2패치와 같이 단계적으로 해상도를 줄이면, 패치의 크기는 줄어들지만 포함하는 영상의 정보는 동일하게 되기 때문에 원래의 패치에 포함된 영상정보는 유지된다.
위의 과정을 제n-1다운샘플링 처리부(20-n-1)와 제n다운샘플링 처리부(20n)까지 수행하여 단계적으로 해상도가 낮아지는 패치들을 생성할 수 있다.
상기 n은 양의 정수로서, 원래의 패치를 n회의 다운샘플링을 통해 제n패치를 생성할 수 있다. 이러한 과정에 의해 n가지 해상도를 가지는 패치들을 생성하게 된다.
상기 제n다운샘플링 처리부(20-n)에서 처리된 제n패치들이 가장 낮은 해상도의 패치들이 되며, 그 다음의 낮은 해상도의 패치들은 제n-1다운샘플링 처리부(20-n-1)에서 처리된 제n-1패치들이 된다.
상기 다운샘플링 처리부(20)의 제1 내지 제n다운샘플링 처리부(20-1~20-n) 각각에서 처리된 제1 내지 제n패치들은 배치구성부(30)로 제공되어 메모리가 허용하는 범위 내에서 패치들의 집합인 배치를 구성한다.
이때 모든 배치들의 용량은 동일한 것일 수 있으며, 따라서 해상도가 가장 낮은 제n패치들의 집합인 제n배치에 가장 많은 패치들이 포함된다. 다시말해서 제n배치가 가장 크고, 제1패치들의 집합인 제1배치가 가장 작다.
여기서 배치의 크고 작음은 파일 용량의 크기가 아닌 배치 내에 포함되는 패치의 수가 많으면 배치가 '크다'라고 표현하고, 패치의 n가 작으면 배치가 '작다'라고 표현한다. 이때의 패치 수의 많고 적음은 상대적인 개념이다.
상기 제1 내지 제n배치는 학습처리부(40)로 제공된다.
상기 학습처리부(40)는 제1 내지 제n학습처리부(40-1~40-n)를 포함한다. 이때 제1 내지 제n학습처리부(40-1~40-n)는 각각에 입력되는 제1 내지 제n배치를 이용하여 동시에 학습을 수행하는 것이 아닌 단계적으로 학습을 수행한다.
구체적으로 가장 해상도가 낮은 패치들을 포함하는 제n배치를 이용한 학습을 먼저 수행한다. 즉, 제n학습처리부(40-n)는 제n배치를 입력받아 학습하며, 이때의 학습은 임의로 결정된 초기 파라미터를 이용한다.
제n학습처리부(40-n)는 초기 파라미터를 이용하여 입력된 배치의 패치들에 대응하는 레이블링 패치들을 출력할 수 있도록 파라미터 값을 조절하는 학습을 한다.
이때, 저해상도 패치를 사용한 학습의 문제점인 전체적인 구조적 특징의 학습이 어렵다는 문제점은 상기 제n패치들이 해상도는 낮지만, 원영상의 고해상도 패치들을 다운 샘플링한 것이기 때문에 초고해상도 패치 영역의 영상을 그대로 가지고 있으며, 따라서 전체적인 구조적 특징도 학습할 수 있다.
다만, 해상도 저하에 의해 학습 결과인 파라미터에 오류가 있을 수 있으며, 이는 단계적인 학습을 통해 보정될 수 있다.
상기 제n학습처리부(40-n)에서 결정된 파라미터는 제n-1학습처리부(40-n-1)에 제공되고, 제n-1학습처리부(40-n-1)는 배치구성부(30)에서 배치 처리된 제n-1배치를 학습하되, 제n학습처리부(40-n)에서 결정된 파라미터를 이용하여 학습한다.
앞서 언급한 바와 같이 학습은 학습 데이터 집합을 이용하여 올바른 파라미터 값을 결정하는 과정이기 때문에 제n-1학습처리부(40-n-1)에서는 상기 제n학습처리부(40-n)의 학습 파라미터를 수정하고, 학습이 완료되면 수정된 파라미터를 제공할 수 있다.
이와 같은 과정을 반복하여 가장 큰 해상도를 가지는 제1패치들을 학습하는 제1학습처리부(40-1)에는 이전 상태에서 학습처리된 제2학습처리부(40-2)에서 결정된 파라미터에 따라 학습을 수행하면서 파라미터의 수정이 필요한 경우에 수정을 하여, 최종 학습 파라미터를 출력한다.
이처럼 본 발명은 다운 샘플링을 통해 초고해상도 원영상의 고해상도 패치들의 해상도를 줄이고, 해상도가 감소되었지만 원래의 패치에 포함된 대상의 영상정보를 모두 포함하는 패치들의 집합인 배치의 크기를 크게 함으로써, 전체 구조에 대한 학습이 가능하게 된다.
또한, 낮은 해상도의 배치로부터 높은 해상도의 배치까지 단계적으로 학습을 수행함으로써, 낮은 해상도의 패치들을 포함하는 배치를 학습했을 때 발생할 수 있는 학습 실패를 방지할 수 있다.
위의 예에서는 제1다운샘플링 처리부(20-1)에서 배치구성부(30)를 통해 제1학습처리부(40)로 제공하는 제1배치가 1차 다운샘플링된 배치로 설명하였으나, 원영상의 패치와 동일한 해상도를 가지는 패치들의 집합일 수 있으며, 이때 제n-1다운샘플링 처리부(20-n)의 제1패치들을 n-1회 다운샘플링된 배치가 된다.
도 5는 본 발명의 바람직한 실시예에 따른 객체 인식을 위한 신경망 학습방법의 흐름도이다.
도 5에 도시한 바와 같이 본 발명은 원영상의 배치들을 여러 단계의 다운샘플링하여, 다수의 하여 서로 다른 해상도의 패치들을 제공하는 단계(S51)와, 상기 서로 다른 해상도의 패치들 각각을 해상도별로 배치 구성하는 단계(S52)와, 해상도가 낮은 배치부터 높은 배치까지 단계적으로 학습하여 최종 파라미터를 결정하는 단계(S53)로 구성될 수 있다.
이와 같은 본 발명은 다양한 방식으로 응용될 수 있다.
예를 들어 도 4에서 영상입력부(10)는 배치를 입력하는 방식이 아닌 원영상을 그대로 입력하는 것일 수 있다. 이때 다운샘플링 처리부(20)는 배치의 크기는 유지한 상태로 원영상을 다운샘플링할 수 있다.
도 6에는 다운샘플링된 원영상과 패치의 관계를 도시하였다.
패치의 크기를 유지하면서, 원영상을 다운 샘플링하면 패치는 더 넓은 영역을 포함하게 되며, 이는 전체 구조의 학습에 더 유리하게 된다.
이러한 패치는 실질적으로 파일 용량이 감소하는 것은 아니지만 배치를 구성할 때, 더 많은 영상에 대한 배치를 포함하여 학습함으로써, 학습 성공률을 높일 수 있다.
본 발명은 상기 실시예에 한정되지 않고 본 발명의 기술적 요지를 벗어나지 아니하는 범위 내에서 다양하게 수정, 변형되어 실시될 수 있음은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어서 자명한 것이다.
Claims (10)
- 원영상의 패치들을 입력하는 영상입력부;
입력된 상기 패치들을 다단계의 다운샘플링을 통해 해상도가 단계적으로 다른 동일 패치들로 변환하는 다운샘플링 처리부;
상기 다운샘플링 처리부에서 처리된 패치들을 동일 해상도별 묶음인 배치로 묶어 처리하는 배치 처리부; 및
해상도별 상기 배치들을 입력받아, 해상도가 가장 낮은 배치로부터 가장 높은 배치까지 단계적으로 학습하여 최종 학습 파라미터를 제공하되,
해상도가 가장 낮은 배치의 학습은 초기 학습 파라미터를 이용하여 학습하고, 해상도가 가장 낮은 배치의 학습 결과인 출력 파라미터를 그 다음으로 해상도가 낮은 배치의 학습에 이용하는 과정을 해상도가 가장 높은 배치의 학습까지 단계적으로 수행하여 최종 학습 파라미터를 생성하는 학습처리부를 포함하는 영상분할을 위한 신경망 학습장치. - 제1항에 있어서,
상기 학습처리부는,
입력된 원영상의 패치들과 대응되는 레이블링 영상의 패치들을 출력할 수 있도록 학습 파라미터를 수정하는 것을 특징으로 하는 영상분할을 위한 신경망 학습장치. - 삭제
- 제1항에 있어서,
해상도가 가장 높은 배치의 해상도는 원영상의 해상도인 것을 특징으로 하는 영상분할을 위한 신경망 학습장치. - 제1항에 있어서,
상기 배치는 패치들의 집합이며,
하나의 배치에는 해상도가 상대적으로 낮은 패치들이 해상도가 상대적으로 높은 패치들보다 더 많이 포함되는 것을 특징으로 하는 영상분할을 위한 신경망 학습장치. - a) 원영상의 패치들을 단계적으로 다운샘플링하여, 해상도가 단계적으로 다른 동일 패치들을 생성하는 단계;
b) 해상도가 단계적으로 다른 패치들을 그룹화하여 해상도별 배치로 처리하는 단계; 및
c) 해상도가 가장 낮은 배치부터 가장 높은 배치까지 단계적으로 학습하여 최종 학습 파라미터를 생성하는 단계를 포함하되,
상기 c) 단계는,
c1) 해상도가 가장 낮은 배치를 초기 학습 파라미터를 이용하여 학습하는 과정;
c2) 상기 c1 과정의 출력 파라미터를 이용하여 그 다음으로 해상도가 낮은 배치의 학습에 이용하는 과정을 포함하여,
해상도가 가장 낮은 배치로부터 가장 높은 배치까지 단계적으로 학습하되, 이전 단계의 학습 결과인 출력 파라미터를 다음 단계의 학습 파라미터로 사용하는 것을 특징으로 하는 영상분할을 위한 신경망 학습방법. - 제6항에 있어서,
상기 c) 단계의 학습은,
입력된 원영상의 패치들과 대응되는 레이블링 영상의 패치들을 출력할 수 있도록 학습 파라미터를 수정하는 과정인 것을 특징으로 하는 영상분할을 위한 신경망 학습방법. - 삭제
- 제6항에 있어서,
해상도가 가장 높은 배치의 해상도는 원영상의 해상도인 것을 특징으로 하는 영상분할을 위한 신경망 학습방법. - 제6항에 있어서,
상기 배치는 패치들의 집합이며,
하나의 배치에는 해상도가 상대적으로 낮은 패치들이 해상도가 상대적으로 높은 패치들보다 더 많이 포함되는 것을 특징으로 하는 영상분할을 위한 신경망 학습방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180086684A KR102131273B1 (ko) | 2018-07-25 | 2018-07-25 | 영상분할을 위한 신경망 학습장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180086684A KR102131273B1 (ko) | 2018-07-25 | 2018-07-25 | 영상분할을 위한 신경망 학습장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200011789A KR20200011789A (ko) | 2020-02-04 |
KR102131273B1 true KR102131273B1 (ko) | 2020-08-05 |
Family
ID=69571031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180086684A KR102131273B1 (ko) | 2018-07-25 | 2018-07-25 | 영상분할을 위한 신경망 학습장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102131273B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022099118A1 (en) * | 2020-11-09 | 2022-05-12 | Canon U.S.A., Inc. | Detection of image sharpness in frequency domain |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004252940A (ja) | 2002-07-22 | 2004-09-09 | Mitsubishi Electric Research Laboratories Inc | 画像内のオブジェクトを検出するシステムおよび方法 |
-
2018
- 2018-07-25 KR KR1020180086684A patent/KR102131273B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004252940A (ja) | 2002-07-22 | 2004-09-09 | Mitsubishi Electric Research Laboratories Inc | 画像内のオブジェクトを検出するシステムおよび方法 |
Non-Patent Citations (3)
Title |
---|
"DeepEdge: A Multi-Scale Bifurcated Deep Network for Top-Down Contour Detection", The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015.04.* |
"RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation", The IEEE Conference on Computer Vision and Pattern Recognition, 2017.07.* |
Image Segmentation-Based Multi-Focus Image Fusion Through Multi-Scale Convolutional Neural Network", IEEE, 2017.08. |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022099118A1 (en) * | 2020-11-09 | 2022-05-12 | Canon U.S.A., Inc. | Detection of image sharpness in frequency domain |
Also Published As
Publication number | Publication date |
---|---|
KR20200011789A (ko) | 2020-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109154988B (zh) | 级联卷积神经网络 | |
EP3427195B1 (en) | Convolutional neural networks, particularly for image analysis | |
US11301965B2 (en) | Method and image processing device for image super resolution, image enhancement, and convolutional neural network model training | |
CN110532897B (zh) | 零部件图像识别的方法和装置 | |
CN109949224B (zh) | 一种基于深度学习的联级超分辨率重建的方法及装置 | |
CN110874563A (zh) | 通过cnn的多个图像输出的提供集成的特征图的方法及装置 | |
WO2019184462A1 (en) | Image processing apparatus, image processing method thereof, image processing system, and training method thereof | |
US11176672B1 (en) | Machine learning method, machine learning device, and machine learning program | |
EP3120322A1 (en) | Method for processing input low-resolution (lr) image to output high-resolution (hr) image | |
CN113841162B (zh) | 深度神经网络中的深度优先卷积 | |
CN108734677B (zh) | 一种基于深度学习的盲去模糊方法及系统 | |
CN111626267B (zh) | 一种利用空洞卷积的高光谱遥感图像分类方法 | |
CN110598788A (zh) | 目标检测方法、装置、电子设备及存储介质 | |
CN116863194A (zh) | 一种足溃疡图像分类方法、系统、设备及介质 | |
CN108932715B (zh) | 一种基于深度学习的冠状动脉造影图分割的优化方法 | |
CN112241646A (zh) | 车道线识别方法、装置、计算机设备和存储介质 | |
KR102131273B1 (ko) | 영상분할을 위한 신경망 학습장치 및 방법 | |
KR20190138434A (ko) | 기계 학습 장치 및 기계 학습 장치의 학습 방법 | |
CN116611995B (zh) | 一种基于深度展开网络的手写文本图像超分辨率重建方法 | |
CN114943655B (zh) | 基于循环深度卷积生成对抗网络结构的图像修复系统 | |
CN113128614B (zh) | 基于图像梯度的卷积方法、基于方向卷积的神经网络及分类方法 | |
CN113592723B (zh) | 视频增强方法及装置、电子设备、存储介质 | |
CN110211041B (zh) | 一种基于感受野集成的神经网络图像分类器的优化方法 | |
JP6942204B2 (ja) | データ処理システムおよびデータ処理方法 | |
KR20210061800A (ko) | 희소 신경망 생성 방법 및 이를 위한 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |