WO2023113437A1

WO2023113437A1 - 메모리를 이용하는 의미론적 영상 분할 장치 및 방법

Info

Publication number: WO2023113437A1
Application number: PCT/KR2022/020264
Authority: WO
Inventors: 손광훈; 김진
Original assignee: 연세대학교 산학협력단
Priority date: 2021-12-15
Filing date: 2022-12-13
Publication date: 2023-06-22
Also published as: KR20230090648A

Abstract

본 발명은 미리 학습된 인공 신경망으로 구현되어 인가되는 입력 영상에 대해 신경망 연산으로 특징을 추출하여 표현자맵을 획득하는 표현자 추출부, 도메인에 무관하게 식별되어야 하는 다수의 클래스 각각의 일반화된 특징을 나타내는 다수의 대표 표현자 벡터로 구성된 대표 표현자가 저장된 메모리, 표현자맵의 채널 방향의 다수의 픽셀 벡터 각각과 다수의 대표 표현자 벡터 사이의 유사도에 따라 다수의 픽셀 벡터 각각이 각 클래스에 대응할 확률을 나타내는 가중치맵을 표현자맵과 결합하여 결합 표현자맵을 획득하고, 결합 표현자맵의 채널 방향의 다수의 픽셀 벡터 각각에 대해 신경망 연산하여 다수의 결합 클래스 벡터를 획득하는 표현자 결합부 및 미리 학습된 인공 신경망으로 구현되어 다수의 결합 클래스 벡터 각각에 대해 신경망 연산하여 입력 영상의 각 픽셀의 클래스를 식별하고, 식별된 클래스별로 입력 영상을 구분하여 의미론적 분할 영상을 획득하는 영상 분할부를 포함하여, 메모리에 저장된 대표 표현자 벡터를 기반으로 도메인에 무관하게 입력되는 영상을 의미론적으로 정확하게 분할할 수 있으므로, 학습되지 않았거나 이전 입력되지 않은 미지의 도메인에서 획득된 입력 영상이 인가되더라도 영상을 의미론적으로 분할할 수 있는 의미론적 영상 분할 장치 및 방법을 제공한다.

Description

메모리를 이용하는 의미론적 영상 분할 장치 및 방법

본 발명은 의미론적 영상 분할 장치 및 방법에 관한 것으로, 메모리를 이용하는 의미론적 영상 분할 장치 및 방법에 관한 것이다.

의미론적 영상 분할(semantic segmentation)은 입력되는 영상에 포함된 객체의 클래스 별에 따라 영상을 분할하는 것을 기법을 의미한다. 최근의 지도학습을 통한 합성곱 신경망(CNN)의 발전과 함께 의미론적 영상 분할에서 우수한 성능 향상을 이룰 수 있었다. 그러나 대부분의 기존 학습 알고리즘들은 학습 데이터와 테스트 데이터의 도메인이 같다고 가정하고 학습되었다. 즉 학습 데이터의 영상과 테스트 데이터의 영상이 유사한 촬영 조건 및 환경에서 획득된 영상인 것으로 가정하여 학습되었다. 그러나 실제로 테스트에 입력되는 영상은 학습 데이터와 상이한 도메인에서 획득되는 경우가 많다. 따라서 테스트 환경에서 도메인 변화가 나타나는 경우 심각한 성능 저하를 유발하였다.

이와 같은 도메인 변화 이슈는 실제 세상(real world)에서 자율주행(autonomous driving) 그리고 의료영상 등 사람의 역할을 대신하는 작업의 경우 치명적으로 작용한다. 실제 세상의 데이터는 다양한 조도, 날씨, 그리고 위치의 변화에 따른 예상하지 못한 이미지들로 구성되어 있기 때문이다. 실제 세상에서 의미론적 영상 분할의 영상과 정답을 만들기 위해 많은 시간과 돈이 필요하다. 따라서 모든 종류의 다양한 환경에서의 데이터를 수집하기란 불가능에 가깝다. 이를 위해 최근에는 가상환경(i.e. 게임 시뮬레이션 등)을 통해 다양한 환경에서의 의미론적 영상 분할 입력 영상과 정답을 쉽게 취득하는 방법이 제안되었다. 그럼에도 가상환경과 실제 영상의 데이터 분포가 애초에 많이 다르다는 문제와 제한된 학습 데이터로 실제 세상의 전체 데이터 분포를 모델링 해야 한다는 문제가 남는다.

이를 해결하기 위하여 최근에 도메인 일반화 기술이 개발되었다. 도메인 일반화 기술은 신경망이 이전에 본적 없는 임의의 도메인에서도 강인하게 요구되는 동작을 수행할 수 있도록 만드는 기술이다. 의미론적 영상 분할에서의 도메인 일반화를 위해 입력 영상의 스타일(texture, illumination)을 지우는 기술과 입력 영상의 스타일을 다양하게 만드는 기술이 제안되었다. 하지만 도메인에 따라 바뀌는 정보는 위와 같은 스타일 외에도 관찰자나 의미론적 개체 간의 관계처럼 더 구조적이고 문맥 의존적인 정보로 구성되어 있다. 따라서 위와 같은 방법에도 불구하고 학습 도메인에 과적합 되거나 서로 다른 도메인 데이터를 학습에 사용했을 때 도메인에 의존적이지 않은 의미론적 개체의 본질적인(intrinsic) 표현자를 학습하는데 어려움을 보이고 있다.

본 발명의 목적은 도메인에 무관하게 입력되는 영상에 포함된 객체를 의미론적으로 정확하게 분할할 수 있는 의미론적 영상 분할 장치 및 방법을 제공하는데 있다.

본 발명의 다른 목적은 다양한 도메인의 영상에서 추출되어 도메인에 무관하게 클래스별로 일반화된 대표 표현자 벡터가 메모리에 미리 저장되고, 메모리에 저장된 대표 표현자 벡터에 기반하여 입력된 영상에 포함된 객체 영역을 의미론적으로 정확하게 분류할 수 있는 의미론적 영상 분할 장치 및 방법을 제공하는데 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 의미론적 영상 분할 장치는 미리 학습된 인공 신경망으로 구현되어 인가되는 입력 영상에 대해 신경망 연산으로 특징을 추출하여 표현자맵을 획득하는 표현자 추출부; 도메인에 무관하게 식별되어야 하는 다수의 클래스 각각의 일반화된 특징을 나타내는 다수의 대표 표현자 벡터로 구성된 대표 표현자가 저장된 메모리; 상기 표현자맵의 채널 방향의 다수의 픽셀 벡터 각각과 상기 다수의 대표 표현자 벡터 사이의 유사도에 따라 다수의 픽셀 벡터 각각이 각 클래스에 대응할 확률을 나타내는 가중치맵을 상기 표현자맵과 결합하여 결합 표현자맵을 획득하고, 상기 결합 표현자맵의 채널 방향의 다수의 픽셀 벡터 각각에 대해 신경망 연산하여 다수의 결합 클래스 벡터를 획득하는 표현자 결합부; 및 미리 학습된 인공 신경망으로 구현되어 상기 다수의 결합 클래스 벡터 각각에 대해 신경망 연산하여 상기 입력 영상의 각 픽셀의 클래스를 식별하고, 식별된 클래스별로 상기 입력 영상을 구분하여 의미론적 분할 영상을 획득하는 영상 분할부를 포함한다.

상기 표현자 결합부는 상기 메모리에 저장된 상기 다수의 대표 표현자 벡터를 리드하고, 상기 표현자맵의 다수의 픽셀 벡터 각각과 상기 다수의 대표 표현자 벡터 각각 사이의 코사인 유사도를 계산하고 정규화하여 다수의 픽셀 벡터 각각이 다수의 클래스 각각 대응할 확률을 나타내는 가중치를 계산하는 유사도 계산부; 각 대표 표현자 벡터에 대해 계산된 가중치를 가중합하여 대응하는 픽셀 벡터에 대한 다수의 가중 벡터를 획득하는 가중 벡터 획득부; 상기 다수의 가중 벡터로 구성된 가중 벡터맵을 상기 표현자맵과 결합하여 상기 결합 표현자맵을 획득하는 표현자 결합부; 및 인공 신경망으로 구현되어 상기 결합 표현자맵의 채널 방향 픽셀 벡터 각각에 대해 신경망 연산하여 상기 다수의 결합 클래스 벡터를 추출하는 결합 클래스 벡터 추출부를 포함할 수 있다.

상기 의미론적 영상 분할 장치는 상기 의미론적 영상 분할 장치의 학습 시에 입력되는 학습 데이터의 학습 영상에서 추출된 표현자맵에 대해 신경망 연산으로 획득되는 표현자 특징맵에 대해 상기 학습 영상과 함께 상기 학습 데이터로 미리 획득된 진리 분할 영상에서 추출되는 다수의 클래스 마스크로 마스킹하여, 상기 표현자 특징맵에서 각 클래스에 대응하는 다수의 픽셀 벡터들을 구분하고, 구분된 픽셀들을 평균값 풀링하여 획득되는 다수의 클래스 특징 벡터 각각과 상기 다수의 대표 표현자 벡터 중 대응하는 대표 표현자 벡터를 기지정된 비율로 가중합하여 상기 메모리에 저장된 상기 다수의 대표 표현자 벡터를 업데이트하는 메모리 업데이트부를 더 포함할 수 있다.

상기 메모리 업데이트부는 인공 신경망을 이용하여 표현자맵의 각 픽셀 벡터에 대해 신경망 연산하여 다수의 표현자 특징 벡터를 추출하고, 추출된 다수의 표현자 특징 벡터 각각을 상기 표현자맵의 대응하는 픽셀 벡터에 가산하여 상기 표현자 특징맵을 획득하는 표현자 특징맵 획득부; 상기 진리 분할 영상에서 구분된 클래스에 따라 각각 특정 클래스에 해당하는 영역만을 검출하도록 이진 마스크 형태로 구성되는 다수의 클래스 마스크를 획득하는 클래스 마스크 획득부; 및 상기 표현자 특징맵을 상기 다수의 클래스 마스크 각각으로 마스킹하여 상기 표현자 특징맵에서 각 클래스에 따른 픽셀 벡터들을 구분하고, 클래스별로 구분된 픽셀 벡터들에 대해 평균값 풀링하여 다수의 클래스 벡터를 획득하며, 상기 다수의 대표 표현자 벡터 각각에 대응하는 클래스 벡터를 미리 지정된 모멘텀 값에 따라 가중합하여 획득되는 다수의 대표 표현자 벡터를 업데이트된 대표 표현자로서 저장하는 업데이트부를 포함할 수 있다.

상기 의미론적 영상 분할 장치는 학습 시에 결합되어 상기 메모리에서 리드된 상기 다수의 대표 표현자 벡터에 대한 손실을 나타내는 리드 손실과 상기 의미론적 분할 영상의 손실을 나타내는 분할 손실을 계산하고 합하여 역전파하고, 업데이트된 대표 표현자 의한 업데이트 손실을 계산하여 상기 메모리 업데이트부로 역전파하는 손실 계산부를 더 포함할 수 있다.

상기 손실 계산부는 상기 메모리에 저장된 대표 표현자의 다수의 대표 표현자 벡터가 업데이트될 때, 임베딩 벡터 공간에서 상기 다수의 대표 표현자 벡터가 서로 이격되도록 상기 업데이트 손실을 계산하고, 입력되는 학습 영상에서 각 픽셀의 클래스를 식별한 대한 진리값을 상기 진리 분할 영상으로부터 획득하고, 상기 학습 영상에서 추출된 표현자맵을 업샘플링한 업샘플링 표현자맵의 다수의 픽셀 벡터에 상기 다수의 대표 표현자 벡터를 가중한 결과 대비 진리값을 가중한 비율에 따라 상기 리드 손실을 계산하며, 상기 의미론적 분할 영상과 상기 진리 분할 영상 사이의 크로스 엔트로피 손실을 상기 분할 손실로 계산할 수 있다.

상기 메모리 업데이트부는 메타 트레이닝, 메타 테스트 및 메모리 업데이트로 구분되어 수행되는 학습 중 상기 메타 트레이닝 시에 제1 학습 데이터의 제1 학습 영상를 인가받아 이전 저장된 대표 표현자를 간이 대표 표현자로 업데이트하고, 상기 메타 테스트 시에 상기 제1 학습 영상을 다시 인가받아 메타 트레이닝에 따라 상기 손실 계산부에서 역전파된 업데이트 손실에 따라 가중치가 업데이트된 인공 신경망을 이용하여 간이 대표 표현자를 재업데이트하고, 상기 제1 학습 데이터와 상이한 도메인에서 획득된 제2 학습 데이터의 학습 영상을 인가받고, 메타 트레이닝에 따라 상기 손실 계산부에서 역전파된 업데이트 손실에 따라 가중치가 업데이트된 인공 신경망을 이용하여 간이 대표 표현자를 재업데이트하며, 상기 메모리 업데이트 시에 상기 메타 테스트에 따라 상기 손실 계산부에서 다시 역전파된 업데이트 손실에 따라 가중치가 재업데이트된 인공 신경망을 이용하여 상기 제1 학습 데이터에 대해 신경망 연산하여 재업데이트된 대표 표현자를 최종 업데이트할 수 있다.

상기 손실 계산부는 상기 메타 트레이닝 시에 간이 대표 표현자로 업데이트됨에 따른 상기 업데이트 손실을 계산하여 상기 메모리 업데이트부로 역전파하고, 상기 업데이트 손실과 별도로 상기 리드 손실 및 상기 분할 손실을 계산하고 합하여 획득되는 1차 손실을 상기 표현자 결합부로 역전파하며, 상기 메타 테스트 시에 상기 메타 트레이닝에 의해 가중치가 업데이트된 인공 신경망과 재업데이트된 대표 표현자에 따른 리드 손실 및 분할 손실을 계산하고 합하여 획득되는 2차 손실을 상기 표현자 결합부로 역전파할 수 있다.

상기 목적을 달성하기 위한 본 발명의 다른 실시예에 따른 의미론적 영상 분할 방법은 미리 학습된 인공 신경망을 이용하여 입력되는 입력 영상에 대해 신경망 연산으로 특징을 추출하여 표현자맵을 획득하는 단계; 도메인에 무관하게 식별되어야 하는 다수의 클래스 각각의 일반화된 특징을 나타내는 다수의 대표 표현자 벡터로 구성된 대표 표현자가 저장된 메모리에서 상기 다수의 대표 표현자 벡터를 리드하는 단계; 상기 표현자맵의 채널 방향의 다수의 픽셀 벡터 각각과 상기 다수의 대표 표현자 벡터 사이의 유사도에 따라 다수의 픽셀 벡터 각각이 각 클래스에 대응할 확률을 나타내는 가중치맵을 상기 표현자맵과 결합하여 결합 표현자맵을 획득하고, 상기 결합 표현자맵의 채널 방향의 다수의 픽셀 벡터 각각에 대해 미리 학습된 인공 신경망으로 신경망 연산하여 다수의 결합 클래스 벡터를 획득하는 단계; 및 미리 학습된 인공 신경망을 이용하여 상기 다수의 결합 클래스 벡터 각각에 대해 신경망 연산하여 상기 입력 영상의 각 픽셀의 클래스를 식별하고, 식별된 클래스별로 상기 입력 영상을 구분하여 의미론적 분할 영상을 획득하는 단계를 포함한다.

본 발명의 실시예에 따른 의미론적 영상 분할 장치 및 방법은 학습 시에 다양한 도메인에서 획득된 영상에서 추출된 객체의 클래스 특징을 도메인에 무관하게 일반화하여 대표 표현자 벡터로서 메모리에 저장하고, 이후 메모리에 저장된 대표 표현자 벡터를 기반으로 도메인에 무관하게 입력되는 영상을 의미론적으로 정확하게 분할할 수 있다. 즉 학습되지 않았거나 이전 입력되지 않은 미지의 도메인에서 획득된 입력 영상이 인가되더라도 영상을 의미론적으로 분할할 수 있다.

도 1은 본 발명의 일 실시예에 따른 의미론적 영상 분할 장치의 개략적 구조를 나타낸다.

도 2는 도 1의 메모리 업데이트부의 상세 구성의 일 예를 나타낸다.

도 3은 도 2의 메모리 업데이트부의 동작을 설명하기 위한 도면이다.

도 4는 도 1의 표현자 결합부의 상세 구성의 일 예를 나타낸다.

도 5는 도 4의 메모리 업데이트부의 동작을 설명하기 위한 도면이다.

도 6은 본 발명의 일 실시예에 따른 의미론적 영상 분할 방법을 나타낸다.

도 7은 도 6의 영상 분할 방법의 동작을 설명하기 위한 도면이다.

본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다.

이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로써, 본 발명을 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 설명하는 실시예에 한정되는 것이 아니다. 그리고, 본 발명을 명확하게 설명하기 위하여 설명과 관계없는 부분은 생략되며, 도면의 동일한 참조부호는 동일한 부재임을 나타낸다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "...부", "...기", "모듈", "블록" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

도 1을 참조하면, 본 실시예에 따른 의미론적 영상 분할 장치는 영상 획득부(100), 표현자 추출부(200), 메모리 업데이트부(300), 메모리(400), 표현자 결합부(500), 영상 분할부(600) 및 손실 계산부(700)를 포함할 수 있다.

영상 획득부(100)는 포함된 각 객체의 클래스에 따라 영역이 구분될 입력 영상(x)을 획득한다. 즉 의미론적으로 분할되어야 하는 영상을 입력 영상(x)으로 획득한다. 이때 영상 획득부(100)는 다양한 도메인의 입력 영상(x)을 획득할 수 있다.

예로서 영상 획득부(100)는 바다나, 산 또는 도심에서 촬영된 영상과 같이 촬영된 장소에 따른 특성이 서로 상이한 도메인의 영상을 획득할 수 있으며, 맑은 날씨나 흐린 날씨, 비오는 날씨 또는 눈오는 날씨 등과 같이 기후적이 특성이 상이한 도메인의 영상을 획득할 수 있다. 또한 촬영 장비나 설정 조건에 따른 특성이 상이한 도메인의 영상을 획득할 수도 있으며, 경우에 따라서는 실제 촬영된 영상이 아니라 게임이나 시뮬레이션 등을 이용하여 합성된 영상을 입력 영상(x)으로 획득할 수도 있다. 죽 서로 상이한 도메인에서 획득되어 서로 다른 스타일을 갖는 다양한 도메인의 영상을 입력 영상(x)으로 획득할 수 있다.

표현자 추출부(200)는 미리 학습된 인공 신경망으로 구현되어, 영상 획득부(100)가 획득한 입력 영상을 인가받아 학습된 방식에 따라 신경망 연산을 수행하여 표현자맵(R)을 획득한다. 표현자 추출부(200)는 신경망 연산으로 입력 영상의 특징을 추출하여 표현자맵(R)을 획득한다.

여기서 t번째 학습 시에 입력되는 영상(x_t)에 대해 가중치(Ψ_t)를 갖는 인공 신경망으로 구현되는 표현자 추출부(200)의 신경망 연산 함수를 F(x_t; Ψ_t)라 할 수 있으며, 표현자맵(R_t)은 수학식 1로 표현될 수 있다.

메모리 업데이트부(300)는 구비된 인공 신공망을 이용하여 표현자맵(R)에 대해 신경망 연산하여 표현자맵(R)의 다수의 픽셀 벡터 각각에 대한 특징 벡터를 추출하여 표현자 특징맵을 구성하고, 학습을 위해 미리 획득된 진리 분할 영상에서 획득되는 다수의 클래스 마스크를 이용하여 표현자 특징맵에서 각 클래스를 대표하는 클래스 벡터를 추출하며, 추출된 클래스 벡터로 메모리(400)에 미리 저장된 다수의 대표 표현자 벡터(c₁ ~ c_k) 중 대응하는 클래스에 해당하는 대표 표현자 벡터 각각을 업데이트한다.

본 실시예에서 메모리 업데이트부(300)는 영상 분할 장치의 학습 시에, 다양한 도메인에서 획득된 학습 데이터의 학습 영상에서 추출된 표현자맵(R)으로부터 각 클래스별로 저장할 만한 특징을 클래스 벡터로서 추출하여 메모리(400)에 이전 저장된 대표 표현자 벡터(c₁ ~ c_k)를 반복적으로 업데이트한다. 따라서 메모리 업데이트부(300)는 학습 종료 후 메모리(400)에 최종 업데이트되어 저장된 다수의 대표 표현자 벡터(c₁ ~ c_k) 각각이 특정 도메인에 과적합되지 않고 일반화된 클래스의 특성만을 표현하는 대표 표현자로 저장되도록 한다.

메모리(400)는 의미론적 영상 분할 장치가 구분해야 하는 다수의 클래스 각각에 대응하는 다수의 대표 표현자 벡터(c₁ ~ c_k)로 구성되는 대표 표현자(M ∋ {c₁ ~ c_k})를 저장한다. 여기서 대표 표현자(M)에 포함되는 다수의 대표 표현자 벡터(c₁ ~ c_k) 각각은 학습 시에 메모리 업데이트부(300)에 의해 반복적으로 업데이트되어 입력 영상(x)의 도메인에 무관하게 대응하는 클래스에 대해서 일반화된 특징을 나타낼 수 있다.

대표 표현자(M)는 의미론적 영상 분할 장치가 구분할 수 있는 클래스의 개수(여기서는 k)에 따른 대표 표현자 벡터(c₁ ~ c_k)를 포함할 수 있으며, 다수의 대표 표현자 벡터(c₁ ~ c_k)의 초기값은 미리 지정되어 저장될 수 있다.

도 2는 도 1의 메모리 업데이트부의 상세 구성의 일 예를 나타내고, 도 3은 도 3의 메모리 업데이트부의 동작을 설명하기 위한 도면이다.

도 2를 참조하면, 메모리 업데이트부(300)는 표현자 특징맵 획득부(310), 클래스 마스크 획득부(320) 및 업데이트부(330)를 포함할 수 있다.

표현자 특징맵 획득부(310)는 표현자맵(R)에서 다수의 픽셀 각각에 대한 채널 방향 벡터인 픽셀 벡터를 인가받아 신경망 연산하여 해당 픽셀의 표현자의 특징을 추출하고, 추출된 표현자 특징 벡터를 표현자맵(R)의 대응하는 픽셀 벡터에 가산하여 표현자 특징맵을 획득한다.

표현자 특징맵 획득부(310)는 표현자 특징 추출부(311) 및 표현자 특징 가산부(312)를 포함할 수 있다. 표현자 특징 추출부(311)는 인공 신경망으로 구현되고, 표현자맵(R)의 다수의 픽셀 벡터 각각에 대해 신경망 연산하여, 해당 픽셀 벡터의 특징을 추출하여 표현자 특징 벡터를 획득한다. 그리고 표현자 특징 가산부(312)는 표현자 특징 추출부(311)에서 표현자맵(R)의 다수의 픽셀 벡터 각각에 대응하여 획득된 다수의 표현자 특징 각각을 대응하는 픽셀 벡터에 가산하여 표현자 특징맵을 획득한다. 이때 표현자 특징 가산부(312)는 도 3에 도시된 바와 같이 획득된 다수의 표현자 특징 벡터를 잔차(Residual)맵 형태로 구성한 후, 표현자맵(R)과 결합할 수도 있다.

한편, 클래스 마스크 획득부(320)는 학습 시에 학습 영상과 함께 획득되는 진리 분할 영상을 인가받고, 인가된 진리 분할 영상을 이용하여 각 클래스에 따른 다수의 클래스 마스크를 생성한다. 여기서 다수의 클래스 마스크는 도 3에 도시된 바와 같이, 표현자 특징맵에서 대응하는 클래스의 픽셀 영역만이 남겨지고 나머지 영역은 제거되도록 하기 위한 이진 마스크이다.

업데이트부(330)는 클래스 마스크 획득부(320)에서 획득된 다수의 클래스 마스크를 이용하여 표현자 특징맵을 클래스에 따라 영역을 구분하고, 구분된 각 영역에 대한 클래스 특징 벡터를 추출하여, 메모리(400)에 미리 저장된 다수의 대표 표현자 벡터(c₁ ~ c_k) 중 대응하는 클래스에 해당하는 대표 표현자 벡터를 업데이트한다.

업데이트부(330)는 표현자 벡터 획득부(331)와 표현자 벡터 업데이트부(332)를 포함할 수 있다.

표현자 벡터 획득부(331)는 표현자 특징맵을 인가받고, 다수의 클래스 마스크 각각을 이용하여 표현자 특징맵을 각 클래스에 따라 구분하여 마스킹한다. 각 클래스 마스크가 대응하는 클래스 영역만을 남기고 나머지 영역을 제거하도록 구성되므로, 표현자 특징맵은 도 3에 도시된 바와 같이, 다수의 클래스 마스크에 의해 각 클래스에 따른 다수의 클래스 영역으로 구분될 수 있다. 이에 표현자 벡터 획득부(331)는 표현자 특징맵에서 각 클래스 마스크에 의해 마스킹된 클래스 영역에 해당하는 픽셀 벡터들을 평균값 풀링하여 해당 클래스에서 기억할만한 정보로 추출된 클래스 벡터를 획득한다. 즉 표현자 벡터 획득부(331)는 다수의 클래스 마스크를 이용하여 표현자 특징맵에 대해 MAP(Masked Average Pooling)를 수행하여 다수의 클래스 벡터를 획득한다.

표현자 벡터 업데이트부(332)는 미리 지정된 모멘텀 값(m)에 따라 메모리(400)에 미리 저장된 다수의 대표 표현자 벡터(c₁ ~ c_k) 각각에 대응하는 클래스 벡터를 가중합하여 획득된 다수의 클래스 벡터가 저장된 다수의 대표 표현자 벡터(c₁ ~ c_k)에 반영되도록 업데이트한다. 여기서 모멘텀 값(m)은 대표 표현자 벡터(c₁ ~ c_k)에 대한 클래스 벡터의 반영율로서 0 ~ 1 사이의 값을 갖는다. 모멘텀 값(m)이 작을수록 업데이트된 대표 표현자 벡터(c₁ ~ c_k)에서 클래스 벡터의 영향력이 증가한다. 따라서 모멘텀 값(m)이 너무 작으면, 클래스 벡터에 의한 대표 표현자 벡터(c₁ ~ c_k)의 변화가 크게 발생하여, 업데이트된 대표 표현자 벡터(c₁ ~ c_k)의 특성이 현재 입력된 영상의 도메인에 편중될 수 있다. 반면, 모멘텀 값(m)이 너무 크면, 업데이트된 대표 표현자 벡터(c₁ ~ c_k)의 변화가 미미하여 학습 시간이 길어질 수 있다. 이에 본 실시예에서는 모멘텀 값(m)이 일 예로 0.8(m = 0.8)로 설정되는 것으로 가정한다.

t번째 학습에서 표현자 특징 추출부(311)가 가중치(Θ_t)를 갖는 인공 신경망으로 구현되면, 표현자 특징 추출부(311)의 신경망 연산 함수를 U(R_t; Θ_t)라 할 수 있으며, 다수의 대표 표현자 벡터(c₁ ~ c_k)를 원소로 포함하는 대표 표현자(M_t ∋ {c₁ ~ c_k})는 수학식 2와 같이 업데이트 될 수 있다.

결과적으로 메모리 업데이트부(300)는 현재 인가된 영상(x_t)에서 미리 획득된 진리 분할 영상에 따른 클래스 영역별 특징 벡터를 추출하여, 메모리(400)에 이전 저장된 대표 표현자(M_t)를 업데이트된 대표 표현자(M_t+1)로 업데이트한다.

메모리 업데이트부(300)는 영상 분할 장치의 학습 시에 구비되고, 학습이 종료된 이후에는 제거될 수 있다.

다시 도 1을 참조하면, 표현자 결합부(500)는 표현자 추출부(200)에서 추출된 표현자맵(R)의 각 픽셀 벡터와 메모리(400)에 저장된 다수의 대표 표현자 벡터(c₁ ~ c_k) 사이의 유사도에 따른 클래스 가중치(w)를 대표 표현자 벡터(c₁ ~ c_k)각각에 가중합하여 획득되는 메모리 리드맵을 표현자맵(R)과 결합하여 결합 표현자맵을 획득하고, 결합 표현자맵에서 각 픽셀 벡터에 대해 신경망 연산하여 각 픽셀 벡터의 클래스 특성이 강화되도록 한다.

즉 표현자 결합부(500)는 현재 입력된 입력 영상에서의 특징을 추출하여 획득된 표현자맵(R)의 각 픽셀이 메모리(400)에 저장된 대표 표현자 벡터(c₁ ~ c_k) 각각에 대응할 확률을 가중하여 표현자맵(R)에 결합함으로써 표현자맵(R)의 각 픽셀과 다수의 클래스 사이의 관계를 표현하는 결합 표현자맵을 획득한다. 그리고 표현자 결합부(500) 또한 미리 학습된 인공 신경망을 포함함으로써, 결합 표현자맵의 다수의 픽셀 벡터 각각에 대해 신경망 연산을 하여 대응하는 클래스가 강조되는 결합 클래스 벡터를 획득한다.

도 4는 도 1의 표현자 결합부의 상세 구성의 일 예를 나타내고, 도 5는 도 4의 메모리 업데이트부의 동작을 설명하기 위한 도면이다.

도 4를 참조하면, 표현자 결합부(500)는 유사도 계산부(510), 가중 벡터 획득부(520), 표현자 결합부(530) 및 결합 클래스 벡터 추출부(540)를 포함할 수 있다.

유사도 계산부(510)는 표현자 추출부(200)로부터 표현자맵(R)을 인가받고, 메모리(400)에 저장된 대표 표현자(M_t)를 인가받아 표현자맵(R)의 각 픽셀 벡터(R_j)와 대표 표현자(M_t)의 다수의 대표 표현자 벡터(c₁ ~ c_k) 각각 사이의 코사인 유사도를 계산하고, 소프트맥스(softmax) 함수로 연산하여, 표현자맵(R)의 각 픽셀 벡터(R_j)가 대표 표현자 벡터(c_i)가 대응할 확률을 나타내는 가중치(w_i,j)를 수학식 3과 같이 획득할 수 있다.

그리고 가중 벡터 획득부(520)는 각 픽셀 벡터(R_j)의 각 대표 표현자 벡터(c_i)에 대한 가중치(w_i,j)가 계산되면, 수학식 4와 같이 각 대표 표현자 벡터(c_i)에 대한 가중치(w_i,j)를 가중합하여 해당 픽셀 벡터(R_j)에 대한 가중 벡터(MR(R_j))를 획득한다.

표현자 결합부(530)는 도 5에서와 같이 가중 벡터 획득부(520)에서 획득된 다수의 가중 벡터(MR(R_j))로 가중 벡터맵을 구성하고, 구성된 가중 벡터맵을 표현자맵(R)과 결합(Concatenate)하여 결합 표현자맵을 획득한다.

결합 클래스 벡터 추출부(540)는 인공 신경망으로 구현되어 결합 표현자맵이 획득되면, 획득된 결합 표현자맵에서 각 픽셀 위치에 따른 채널 방향 벡터를 인가받아 신경망 연산하여 다수의 결합 클래스 벡터를 획득하고, 획득된 다수의 결합 클래스 벡터를 영상 분할부(600)로 전달한다.

영상 분할부(600)는 미리 학습된 인공 신경망으로 구현되어 표현자 결합부(500)로부터 다수의 결합 클래스 벡터를 인가받아 신경망 연산하여 다수의 결합 클래스 벡터 각각의 클래스를 판별하고, 판별 결과에 따라 결합 클래스 벡터에 대응하는 픽셀 위치의 클래스를 판별된 클래스로 지정한다. 즉 입력 영상(x)의 다수의 픽셀 각각에 클래스를 지정하고, 서로 다른 클래스의 픽셀들의 영역을 구분함으로써 영상을 의미론적으로 분할한다.

본 실시예에서 영상 분할부(600)는 표현자 결합부(500)에 의해 표현자맵(R)의 각 픽셀 위치에서 일반화된 클래스 특성이 반영된 다수의 결합 클래스 벡터를 인가받아 해당 픽셀의 클래스를 식별하므로, 입력된 영상(x)을 정확하게 의미론적으로 분할할 수 있다.

손실 계산부(700)는 영상 분할부(600)에서 분할되어 출력된 의미론적 분할 영상이 객체의 클래스에 따라 정상적으로 분할되었는지 여부를 판별하여 분할 손실(L_seg)을 계산할 수 있다. 분할 손실(L_seg)은 기존의 의미론적 분할 장치의 학습 방법에서도 이용되는 손실로서 크로스 엔트로피 손실(cross entropy loss)로 계산될 수 있다. 분할 손실(L_seg)을 계산하는 방식은 공지되어 있으므로 여기서는 상세하게 설명하지 않는다.

다만 본 실시예의 의미론적 영상 분할 장치에서는 메모리(400)에 다수의 대표 표현자 벡터(c₁ ~ c_k)가 반복 업데이트되어 저장되고, 메모리(400)에 저장된 다수의 대표 표현자 벡터(c₁ ~ c_k)를 이용하여 의미론적 영상 분할을 수행하므로, 손실 계산부(700)는 업데이트되어 저장되는 대표 표현자 벡터(c₁ ~ c_k)가 각 클래스를 대표할 수 있도록 하는 업데이트 손실(L_update)을 계산한다.

상기한 바와 같이, 다수의 대표 표현자 벡터(c₁ ~ c_k)는 도메인에 무관하게 각 클래스의 특징을 대표할 수 있어야 한다. 즉 다수의 대표 표현자 벡터(c₁ ~ c_k)는 서로 유사하지 않아야 하며, 따라서 업데이트 시에 다수의 대표 표현자 벡터(c₁ ~ c_k)는 벡터 공간 상에서 서로 최대한 이격되어야 한다.

이에 손실 계산부(700)는 t번째 학습 시에 메모리(400)에 저장된 대표 표현자(M_t)가 메모리 업데이트부(300)가 의해 업데이트될 때, 다수의 대표 표현자 벡터(c₁ ~ c_k)가 서로 멀어지도록 수학식 5에 따라 업데이트 손실(L_update)을 계산할 수 있다.

또한 손실 계산부(700)는 메모리에 저장된 다수의 대표 표현자 벡터(c₁ ~ c_k)에서 표현자맵(R)의 각 픽셀의 클래스에 대응하는 대표 표현자 벡터가 정확하게 가중되어 리드되도록 하는 리드 손실(L_read)을 더 계산할 수 있다.

손실 계산부(700)는 t번째 학습 시에 입력되는 학습 영상(x_t)의 j번째 픽셀에 대한 진리값(y_t,j)을 진리 분할 영상으로부터 획득하고, 표현자맵(R_t)을 학습 영상(x_t)의 크기로 업샘플링(upsample)한 이후, j번째 픽셀에 대한 표현자 벡터(Upsample(R_t)_j)에 다수의 대표 표현자 벡터를 가중한 결과에 대비하여 가중한 표현자 벡터(Upsample(R_t)_j)에 진리값(y_t,j)을 가중한 비율에 따라 수학식 6과 같이 리드 손실(L_read)을 계산할 수 있다.

다만 본 실시예에서 손실 계산부(700)는 분할 손실(L_seg)과 리드 손실(L_read)을 가중합하여 영상 분할부(600), 표현자 결합부(500) 및 표현자 추출부(200)로 역전파하는 반면, 업데이트 손실(L_update)은 분할 손실(L_seg)과 리드 손실(L_read)과 별도로 계산되어 독립적으로 메모리 업데이트부(300) 및 표현자 추출부(200)로 역전파된다.

손실 계산부(700)는 메모리 업데이트부(300)와 함께 의미론적 영상 분할 장치의 학습 시에만 구비되고, 학습이 종료된 이후에는 제거될 수 있다.

기존의 의미론적 영상 분할 장치에서는 학습 영상과 입력 영상의 도메인이 상이한 경우, 도메인의 차이로 인해 영상에서 스타일 특성이 상이하게 발생되지만, 각 영상의 스타일 특성과 클래스 특성을 구분되지 않아 동일 클래스의 객체일지라도 다른 클래스로 인식하거나 서로 다른 클래스의 객체를 동일 클래스로 잘못 식별하여 영상 분할이 비정상적으로 수행되는 경우가 빈번하게 발생하였다.

그러나 본 실시예에서는 메모리 업데이트부(300)가 다양한 도메인에서 획득된 학습 영상에서 클래스별로 획득된 특징을 이용하여 메모리(400)에 저장된 대표 표현자 벡터(c₁ ~ c_k)를 반복적으로 누적 업데이트함으로써, 도메인에 따른 스타일 특성이 반영되지 않고 클래스에 따라 일반화된 클래스 특성을 나타내는 대표 표현자 벡터(c₁ ~ c_k)를 메모리(400)에 저장할 수 있다. 그리고 표현자 결합부(500)는 메모리(400)에 일반화되어 저장된 대표 표현자 벡터(c₁ ~ c_k)를 리드하여 현재 획득된 입력 영상(x)에서 추출된 표현자맵(R)의 각 픽셀 벡터에 가중한 후, 각 픽셀의 클래스를 식별하여 구분함으로써 도메인에 무관하게 입력 영상(x)을 정확하게 의미론적으로 분할할 수 있다.

도 6은 본 발명의 일 실시예에 따른 의미론적 영상 분할 방법을 나타내고, 도 7은 도 6의 영상 분할 방법의 동작을 설명하기 위한 도면이다.

본 실시예의 영상 분할 방법은 크게 학습 단계와 테스트 단계로 구분될 수 있다.

상기한 바와 같이, 본 실시예에 따른 영상 분할 장치는 인공 신경망을 포함하여 구성될 뿐만 아니라, 도메인에 무관하게 일반화된 각 클래스에 대한 대표 표현자(M)가 메모리(400)에 미리 저장되어 있어야 한다. 따라서 본 실시예의 영상 분할 장치는 실제로 입력 영상(x)이 입력되어 영상을 분할하는 테스트 단계 이전에 학습 단계를 통해 인공 신경망의 가중치를 결정하고 메모리(400)에 저장되는 대표 표현자를 업데이트하기 위한 학습이 수행되어야 한다. 그리고 본 실시예에서는 영상 분할 장치가 메타 학습(Meta-learning) 기법에 따라 학습이 수행된다. 메타 학습 기법에서는 기존의 인공 신경망 학습 기법과 달리 메타 트레이닝 단계와 메타 테스팅 단계의 2단계 동작이 반복되는 방식으로 학습이 수행된다. 또한 본 실시예에서 메타 테스트 단계에서는 메모리(400)의 대표 표현자를 업데이트하는 메모리 업데이트 단계가 포함될 수 있다.

도 6 및 도 7을 참조하면, 우선 학습 단계 중 메타 트레이닝 단계를 수행한다. 메타 트레이닝 단계에서는 먼저 다양한 도메인에서 학습 영상과 진리 분할 영상이 함께 획득된 다수의 학습 데이터 중에서 메타 트레이닝을 위한 트레이닝 도메인(D_tr)을 임의로 선택하고, 선택된 트레이닝 도메인(D_tr)에서 제1 학습 데이터의 학습 영상(x_tr)을 선택한다(S11). 그리고 인공 신경망으로 구현되는 표현자 추출부(200)가 선택된 제1 학습 영상(x_tr)에 대해 신경망 연산(F(x_t;Ψ_t))을 수행하여 제1 표현자맵(R_t)을 추출한다(S12).

이에 메모리(400)에 저장된 대표 표현자(M_t)를 리드하고, 표현자맵(R)의 각 픽셀 벡터와 대표 표현자(M_t)의 다수의 대표 표현자 벡터(c₁ ~ c_k) 사이의 유사도에 따라 계산되는 가중 벡터맵을 표현자맵(R)과 결합하여 결합 표현자맵을 획득한다(S13).

결합 표현자맵을 획득하는 단계(S13)는 구체적으로 표현자맵(R)의 각 픽셀 벡터와 메모리(400)에서 리드된 대표 표현자(M_t)의 다수의 대표 표현자 벡터(c₁ ~ c_k) 각각 사이의 코사인 유사도를 계산하고 소프트맥스함수로 정규화하여, 각 픽셀 벡터가 다수의 대표 표현자 벡터(c₁ ~ c_k) 각각에 따른 클래스에 대응할 확률을 나타내는 다수의 가중 벡터(MR(R_j))를 획득하고, 다수의 가중 벡터(MR(R_j))로 구성되는 가중 벡터맵을 표현자맵(R)과 결합하여 결합 표현자맵을 획득한다.

이때 손실 계산부(700)는 메모리(400)에서 리드된 대표 표현자(M_t)를 기반으로 획득되는 다수의 가중 벡터(MR(R_j))에 대한 리드 손실(L_read)을 계산할 수 있다.

한편, 제1 표현자맵(R_t)의 각 픽셀 벡터에 대한 특징을 인공 신경망으로 신경망 연산하여 추출함으로써 표현자 특징맵을 획득하고, 진리 분할 영상에서 획득되는 다수의 클래스 마스크를 이용하여 표현자 특징맵에서 각 클래스를 대표하는 클래스 벡터를 획득하며, 획득된 클래스 벡터를 이용하여 메모리(400)에 이전 저장된 대표 표현자(M_t)를 간이 대표 표현자(

)로 간이 업데이트한다(S14). 도 6에서는 편의를 위하여 결합 표현자맵을 획득하는 단계(S13) 이후 간이 업데이트하는 단계(S14)가 수행되는 것으로 도시하였으나, 결합 표현자맵을 획득하는 단계(S13)와 간이 업데이트하는 단계(S14)는 동시에 병렬로 수행될 수 있다.

간이 업데이트하는 단계(S14)는 구체적으로 제1 표현자맵(R_t)의 다수의 픽셀 벡터 각각에 대해 인공 신경망으로 신경망 연산을 수행하여 표현자 특징 벡터를 추출하고, 추출된 표현자 특징 벡터를 표현자맵의 대응하는 픽셀 벡터에 가중하여 표현자 특징맵을 획득하며, 제1 학습 영상(x_tr)에 대응하는 진리 분할 영상로부터 각 클래스 영역을 추출하기 위한 다수의 클래스 마스크를 획득하여, 획득된 표현자 특징맵에서 각 클래스 마스크에 의해 마스킹 되는 영역의 픽셀 벡터들에 대해 평균값 풀링하여 다수의 클래스 특징 벡터를 획득한다. 그리고 획득된 다수의 클래스 특징 벡터 각각과 메모리(400)에 저장된 대표 표현자(M_t ∋ {c₁ ~ c_k})의 다수의 대표 표현자 벡터(c₁ ~ c_k) 중 대응하는 대표 표현자 벡터를 미리 지정된 모멘텀 값(m)에 따라 가중합하여, 대표 표현자(M_t)를 간이 대표 표현자(

)로 간이 업데이트한다(S14).

이때 손실 계산부(700)는 메모리(400)의 대표 표현자(M_t)가 간이 대표 표현자(

)로 간이 업데이트됨에 따른 업데이트 손실(L_update)을 수학식 5에 따라 계산할 수 있다.

그리고 결합 표현자맵을 획득하는 단계(S13)에서 결합 표현자맵이 획득되면, 획득된 결합 표현자맵에서 각 픽셀 위치에 따른 채널 방향 벡터에 대해 인공 신경망으로 신경망 연산하여 다수의 결합 클래스 벡터를 획득하고, 획득된 다수의 결합 클래스 벡터 각각의 클래스를 식별하여 클래스별로 구분함으로써, 제1 의미론적 분할 영상을 획득한다(S15).

이때 손실 계산부(700)는 제1 의미론적 분할 영상과 진리 분할 영상 사이의 크로스 엔트로피 손실(cross entropy loss)을 분할 손실(L_seg)로서 계산할 수 있다.

이후 손실 계산부(700)는 계산된 업데이트 손실(L_update)을 대표 표현자를 업데이트하는 과정에 이용된 인공 신경망으로 역전파하여 학습시킨다(S15).

또한 손실 계산부(700)는 계산된 분할 손실(L_seg)과 리드 손실(L_read)을 결합한 1차 손실을 메모리 업데이트를 위한 인공 신경망과 별도로 영상 분할을 위해 이용된 인공 신경망으로 역전파하여 메타 트레이닝 학습을 수행한다(S17).

메타 트레이닝 학습에 의해 표현자 추출부(200)를 구현하는 인공 신경망의 가중치(Ψ_t)와 표현자 특징 추출부(311)를 구현하는 인공 신경망의 가중치(Θ_t)는 수학식 7과 같이 Ψ'_t 와 Θ'_t 로 업데이트된다.

이때 영상 분할부(600)를 구현하는 인공 신경망의 가중치(Φ_t)도 함께 Φ'_t 로 업데이트되지만 설명의 편의를 위하여 수학식 7에서는 생략하였다.

한편, 메타 트레이닝 단계가 수행되면, 메타 테스트 단계를 수행한다.

메타 테스트 단계는 메타 트레이닝 단계에서 수행된 학습 결과를 기반으로 추가 학습을 수행하는 단계로서, 우선 메타 트레이닝 단계에서 선택된 제1 학습 데이터를 재선택한다(S21). 그리고 메타 트레이닝 단계에서 업데이트된 가중치(Ψ'_t)를 갖는 인공 신경망을 이용하여 재선택된 제1 학습 데이터에 대해 신경망 연산을 하여 제1 표현자맵(R'_t)을 재추출(R'_t ← F(x_tr|Ψ'_t))하고, 재추출된 제1 표현자맵(R'_t)과 진리 분할 영상에서 획득되는 다수의 클래스 마스크를 이용하여, 메모리(400)에 간이 업데이트되어 저장된 간이 대표 표현자(

)를 대표 표현자(M'_t)로 업데이트(M'_t ← U(R'_t, M'_t;Θ'_t))한다(S22).

다만 메타 테스트 단계에서 업데이트 손실(L_update)이 적용되지 않는다. 이는 메타 테스트 단계가 실제 테스트 단계에서와 동일하게 동작해야 하기 때문이다.

따라서 메타 테스트 단계가 수행된 이후, 메모리 업데이트 단계가 수행된다. 메모리 업데이트 단계에서는 제1 학습 영상(x_tr)을 추가적으로 재선택한다(S31). 그리고 추가 재선택된 제1 학습 영상(x_tr)에 대해 메타 테스트 탄계에서 가중치가 업데이트된 인공 신경망으로 신경망 연산하여 메모리(400)에 저장된 대표 표현자(M_t)를 수학식 9와 같이 최종 업데이트한다(S32).

메타 트레이닝 단계와 메타 테스트 단계 및 메모리 업데이트 단계를 통해 t번째 학습이 완료되면 학습 종료 여부를 판별한다(S33). 여기서 학습은 계산된 제2 손실이 기지정된 기준 손실 이하이거나, 반복 수행된 학습 횟수가 기지정된 기준 횟수 이상이면 종료될 수 있다.

만일 학습이 종료되지 않은 것으로 판별되면, 다시 메타 트레이닝 단계부터 수행하기 위해 제1 학습 데이터를 선택한다(S11). 그러나 학습이 종료된 것으로 판별되면, 의미론적으로 분할되어야 하는 입력 영상(x)을 획득한다(S41). 그리고 획득된 입력 영상(x)에 대해 학습된 인공 신경망으로 신경망 연산(F(x;Ψ))을 수행하여 표현자맵(R)을 추출한다(S42). 표현자맵(R)이 추출되면, 메모리(400)에 최종 업데이트되어 저장된 대표 표현자(M)를 리드한다(S43). 이후 표현자맵(R)의 각 픽셀 벡터와 대표 표현자(M_t의 다수의 대표 표현자 벡터(c₁ ~ c_k) 사이의 유사도에 따라 계산되는 가중 벡터맵을 표현자맵(R)과 결합하여 결합 표현자맵을 획득한다(S44).

결합 표현자맵이 획득되면, 획득된 결합 표현자맵에서 각 픽셀 위치에 따른 채널 방향 벡터에 대해 학습된 인공 신경망으로 신경망 연산하여 다수의 결합 클래스 벡터를 획득하고, 획득된 다수의 결합 클래스 벡터 각각의 클래스를 식별하여 클래스별로 구분함으로써, 입력 영상(x)에 대한 의미론적 분할 영상을 획득한다(S45).

결과적으로 본 실시예에 따른 의미론적 영상 분할 장치의 영상 분할 방법은 학습 시에 메타 트레이닝 단계와 메타 테스트 단계를 구분하여 서로 다른 도메인의 학습 영상으로 학습을 수행하여 메모리(400)에 저장되는 대표 표현자(M)가 특정 도메인에 과적합되지 않고 일반화된 클래스 특징을 저장하도록 함으로써, 도메인 변화에 강건하게 영상을 의미론적으로 분할할 수 있도록 한다. 특히 학습에 이용되지 않은 도메인이나 이전 입력되지 않은 미지의 도메인에서 획득된 입력 영상이 인가되더라도 영상을 의미론적으로 분할할 수 있다.

본 발명에 따른 방법은 컴퓨터에서 실행시키기 위한 매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다. 여기서 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스 될 수 있는 임의의 가용 매체일 수 있고, 또한 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함하며, ROM(판독 전용 메모리), RAM(랜덤 액세스 메모리), CD(컴팩트 디스크)-ROM, DVD(디지털 비디오 디스크)-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등을 포함할 수 있다.

본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다.

따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims

미리 학습된 인공 신경망으로 구현되어 인가되는 입력 영상에 대해 신경망 연산으로 특징을 추출하여 표현자맵을 획득하는 표현자 추출부;

도메인에 무관하게 식별되어야 하는 다수의 클래스 각각의 일반화된 특징을 나타내는 다수의 대표 표현자 벡터로 구성된 대표 표현자가 저장된 메모리;

상기 표현자맵의 채널 방향의 다수의 픽셀 벡터 각각과 상기 다수의 대표 표현자 벡터 사이의 유사도에 따라 다수의 픽셀 벡터 각각이 각 클래스에 대응할 확률을 나타내는 가중치맵을 상기 표현자맵과 결합하여 결합 표현자맵을 획득하고, 상기 결합 표현자맵의 채널 방향의 다수의 픽셀 벡터 각각에 대해 신경망 연산하여 다수의 결합 클래스 벡터를 획득하는 표현자 결합부; 및

미리 학습된 인공 신경망으로 구현되어 상기 다수의 결합 클래스 벡터 각각에 대해 신경망 연산하여 상기 입력 영상의 각 픽셀의 클래스를 식별하고, 식별된 클래스별로 상기 입력 영상을 구분하여 의미론적 분할 영상을 획득하는 영상 분할부를 포함하는 의미론적 영상 분할 장치.
제1항에 있어서, 상기 표현자 결합부는

상기 메모리에 저장된 상기 다수의 대표 표현자 벡터를 리드하고, 상기 표현자맵의 다수의 픽셀 벡터 각각과 상기 다수의 대표 표현자 벡터 각각 사이의 코사인 유사도를 계산하고 정규화하여 다수의 픽셀 벡터 각각이 다수의 클래스 각각 대응할 확률을 나타내는 가중치를 계산하는 유사도 계산부;

각 대표 표현자 벡터에 대해 계산된 가중치를 가중합하여 대응하는 픽셀 벡터에 대한 다수의 가중 벡터를 획득하는 가중 벡터 획득부;

상기 다수의 가중 벡터로 구성된 가중 벡터맵을 상기 표현자맵과 결합하여 상기 결합 표현자맵을 획득하는 표현자 결합부; 및

인공 신경망으로 구현되어 상기 결합 표현자맵의 채널 방향 픽셀 벡터 각각에 대해 신경망 연산하여 상기 다수의 결합 클래스 벡터를 추출하는 결합 클래스 벡터 추출부를 포함하는 의미론적 영상 분할 장치.
제2항에 있어서, 상기 의미론적 영상 분할 장치는

상기 의미론적 영상 분할 장치의 학습 시에 입력되는 학습 데이터의 학습 영상에서 추출된 표현자맵에 대해 신경망 연산으로 획득되는 표현자 특징맵에 대해 상기 학습 영상과 함께 상기 학습 데이터로 미리 획득된 진리 분할 영상에서 추출되는 다수의 클래스 마스크로 마스킹하여, 상기 표현자 특징맵에서 각 클래스에 대응하는 다수의 픽셀 벡터들을 구분하고, 구분된 픽셀들을 평균값 풀링하여 획득되는 다수의 클래스 특징 벡터 각각과 상기 다수의 대표 표현자 벡터 중 대응하는 대표 표현자 벡터를 기지정된 비율로 가중합하여 상기 메모리에 저장된 상기 다수의 대표 표현자 벡터를 업데이트하는 메모리 업데이트부를 더 포함하는 의미론적 영상 분할 장치.
제3항에 있어서, 상기 메모리 업데이트부는

인공 신경망을 이용하여 표현자맵의 각 픽셀 벡터에 대해 신경망 연산하여 다수의 표현자 특징 벡터를 추출하고, 추출된 다수의 표현자 특징 벡터 각각을 상기 표현자맵의 대응하는 픽셀 벡터에 가산하여 상기 표현자 특징맵을 획득하는 표현자 특징맵 획득부;

상기 진리 분할 영상에서 구분된 클래스에 따라 각각 특정 클래스에 해당하는 영역만을 검출하도록 이진 마스크 형태로 구성되는 다수의 클래스 마스크를 획득하는 클래스 마스크 획득부; 및

상기 표현자 특징맵을 상기 다수의 클래스 마스크 각각으로 마스킹하여 상기 표현자 특징맵에서 각 클래스에 따른 픽셀 벡터들을 구분하고, 클래스별로 구분된 픽셀 벡터들에 대해 평균값 풀링하여 다수의 클래스 벡터를 획득하며, 상기 다수의 대표 표현자 벡터 각각에 대응하는 클래스 벡터를 미리 지정된 모멘텀 값에 따라 가중합하여 획득되는 다수의 대표 표현자 벡터를 업데이트된 대표 표현자로서 저장하는 업데이트부를 포함하는 의미론적 영상 분할 장치.
제3항에 있어서, 상기 의미론적 영상 분할 장치는

학습 시에 결합되어 상기 메모리에서 리드된 상기 다수의 대표 표현자 벡터에 대한 손실을 나타내는 리드 손실과 상기 의미론적 분할 영상의 손실을 나타내는 분할 손실을 계산하고 합하여 역전파하고, 업데이트된 대표 표현자 의한 업데이트 손실을 계산하여 상기 메모리 업데이트부로 역전파하는 손실 계산부를 더 포함하는 의미론적 영상 분할 장치.
제5항에 있어서, 상기 손실 계산부는

상기 메모리에 저장된 대표 표현자의 다수의 대표 표현자 벡터가 업데이트될 때, 임베딩 벡터 공간에서 상기 다수의 대표 표현자 벡터가 서로 이격되도록 상기 업데이트 손실을 계산하고,

입력되는 학습 영상에서 각 픽셀의 클래스를 식별한 대한 진리값을 상기 진리 분할 영상으로부터 획득하고, 상기 학습 영상에서 추출된 표현자맵을 업샘플링한 업샘플링 표현자맵의 다수의 픽셀 벡터에 상기 다수의 대표 표현자 벡터를 가중한 결과 대비 진리값을 가중한 비율에 따라 상기 리드 손실을 계산하며,

상기 의미론적 분할 영상과 상기 진리 분할 영상 사이의 크로스 엔트로피 손실을 상기 분할 손실로 계산하는 의미론적 영상 분할 장치.
제5항에 있어서, 상기 메모리 업데이트부는

메타 트레이닝, 메타 테스트 및 메모리 업데이트로 구분되어 수행되는 학습 중 상기 메타 트레이닝 시에 제1 학습 데이터의 제1 학습 영상를 인가받아 이전 저장된 대표 표현자를 간이 대표 표현자로 업데이트하고,

상기 메타 테스트 시에 상기 제1 학습 영상을 다시 인가받아 메타 트레이닝에 따라 상기 손실 계산부에서 역전파된 업데이트 손실에 따라 가중치가 업데이트된 인공 신경망을 이용하여 간이 대표 표현자를 재업데이트하고,

상기 제1 학습 데이터와 상이한 도메인에서 획득된 제2 학습 데이터의 학습 영상을 인가받고, 메타 트레이닝에 따라 상기 손실 계산부에서 역전파된 업데이트 손실에 따라 가중치가 업데이트된 인공 신경망을 이용하여 간이 대표 표현자를 재업데이트하며,

상기 메모리 업데이트 시에 상기 메타 테스트에 따라 상기 손실 계산부에서 다시 역전파된 업데이트 손실에 따라 가중치가 재업데이트된 인공 신경망을 이용하여 상기 제1 학습 데이터에 대해 신경망 연산하여 재업데이트된 대표 표현자를 최종 업데이트하는 의미론적 영상 분할 장치.
제7항에 있어서, 상기 손실 계산부는

상기 메타 트레이닝 시에 간이 대표 표현자로 업데이트됨에 따른 상기 업데이트 손실을 계산하여 상기 메모리 업데이트부로 역전파하고, 상기 업데이트 손실과 별도로 상기 리드 손실 및 상기 분할 손실을 계산하고 합하여 획득되는 1차 손실을 상기 표현자 결합부로 역전파하며,

상기 메타 테스트 시에 상기 메타 트레이닝에 의해 가중치가 업데이트된 인공 신경망과 재업데이트된 대표 표현자에 따른 리드 손실 및 분할 손실을 계산하고 합하여 획득되는 2차 손실을 상기 표현자 결합부로 역전파하는 의미론적 영상 분할 장치.
제6항에 있어서, 상기 손실 계산부는

상기 업데이트 손실(L_update)을 수학식

(여기서 M_t[c_i]와 M_t[c_j] 는 각각 t번째 학습 시에 메모리에 저장된 대표 표현자(M_t)에 포함된 i 및 j번째 클래스에 대한 대표 표현자 벡터를 나타낸다.)

에 따라 계산하고,

상기 리드 손실(L_read)을 수학식

(여기서 y_t,j 는 t번째 학습 영상의 j번째 픽셀에 대한 진리값을 나타내고, Upsample(R_t)_j 는 업샘플링 표현자맵(Upsample(R_t))의 j번째 픽셀 벡터를 나타낸다.)

에 따라 계산하는 의미론적 영상 분할 장치.
미리 학습된 인공 신경망을 이용하여 입력되는 입력 영상에 대해 신경망 연산으로 특징을 추출하여 표현자맵을 획득하는 단계;

도메인에 무관하게 식별되어야 하는 다수의 클래스 각각의 일반화된 특징을 나타내는 다수의 대표 표현자 벡터로 구성된 대표 표현자가 저장된 메모리에서 상기 다수의 대표 표현자 벡터를 리드하는 단계;

상기 표현자맵의 채널 방향의 다수의 픽셀 벡터 각각과 상기 다수의 대표 표현자 벡터 사이의 유사도에 따라 다수의 픽셀 벡터 각각이 각 클래스에 대응할 확률을 나타내는 가중치맵을 상기 표현자맵과 결합하여 결합 표현자맵을 획득하고, 상기 결합 표현자맵의 채널 방향의 다수의 픽셀 벡터 각각에 대해 미리 학습된 인공 신경망으로 신경망 연산하여 다수의 결합 클래스 벡터를 획득하는 단계; 및

미리 학습된 인공 신경망을 이용하여 상기 다수의 결합 클래스 벡터 각각에 대해 신경망 연산하여 상기 입력 영상의 각 픽셀의 클래스를 식별하고, 식별된 클래스별로 상기 입력 영상을 구분하여 의미론적 분할 영상을 획득하는 단계를 포함하는 의미론적 영상 분할 방법.
제10항에 있어서, 상기 다수의 결합 클래스 벡터를 획득하는 단계는

상기 표현자맵의 다수의 픽셀 벡터 각각과 상기 다수의 대표 표현자 벡터 각각 사이의 코사인 유사도를 계산하고 정규화하여 다수의 픽셀 벡터 각각이 다수의 클래스 각각 대응할 확률을 나타내는 가중치를 계산하는 단계;

각 대표 표현자 벡터에 대해 계산된 가중치를 가중합하여 대응하는 픽셀 벡터에 대한 다수의 가중 벡터를 획득하는 단계;

상기 다수의 가중 벡터로 구성된 가중 벡터맵을 상기 표현자맵과 결합하여 상기 결합 표현자맵을 획득하는 단계; 및

인공 신경망을 이용하여 상기 결합 표현자맵의 채널 방향 픽셀 벡터 각각에 대해 신경망 연산하여 상기 다수의 결합 클래스 벡터를 추출하는 단계를 포함하는 의미론적 영상 분할 방법.
제11항에 있어서, 상기 의미론적 영상 분할 방법은

상기 표현자맵을 획득하는 단계 이전 수행되는 학습 단계를 더 포함하고,

상기 학습 단계는

제1 학습 데이터의 제1 학습 영상을 인가받아 제1 표현자맵을 추출하고 상기 메모리에 저장된 대표 표현자를 리드하여 상기 제1 학습 영상에 대한 제1 분할 영상을 획득하고, 상기 제1 표현자맵과 상기 제1 학습 데이터의 진리 분할 영상을 이용하여 상기 메모리에 저장된 상기 대표 표현자를 간이 대표 표현자로 업데이트하며, 상기 간이 대표 표현자로의 업데이트에 대한 업데이트 손실과 획득된 제1 분할 영상에 대한 1차 손실을 계산하여 역전파하는 메타 트레이닝 단계;

상기 제1 학습 영상를 다시 인가받아 상기 메타 트레이닝 단계에서 역전파된 업데이트 손실에 따라 가중치가 업데이트된 인공 신경망을 이용하여 간이 대표 표현자를 재업데이트하고, 상기 제1 학습 데이터와 다른 도메인에서 획득된 제2 학습 데이터의 제2 학습 영상을 인가받아, 메타 트레이닝 단계에서 역전파된 업데이트 손실에 따라 가중치가 업데이트된 인공 신경망을 이용하여 제2 분할 영상을 다시 획득하며, 다시 획득된 제2 분할 영상에 대한 2차 손실을 계산하여 역전파하는 메타 테스트 단계; 및

상기 제1 학습 영상을 다시 인가받아 이용하여 간이 대표 표현자에서 재업데이트된 대표 표현자를 최종 업데이트하는 메모리 업데이트 단계를 포함하는 의미론적 영상 분할 방법.
제12항에 있어서, 상기 메타 트레이닝 단계는

상기 제1 학습 영상을 인가받아 인공 신경망으로 신경망 연산하여 상기 제1 표현자맵을 추출하는 단계;

상기 메모리에 저장된 대표 표현자를 리드하고, 리드된 대표 표현자의 다수의 대표 표현자 벡터와 상기 제1 표현자맵을 기반으로 상기 제1 분할 영상을 획득하는 단계;

상기 제1 학습 데이터의 진리 분할 영상을 이용하여 상기 제1 표현자맵의 각 클래스별 영역을 구분하고 구분된 클래스별 영역의 특징을 추출하여 상기 메모리에 저장된 상기 대표 표현자를 간이 대표 표현자로 업데이트하는 단계;

상기 간이 대표 표현자에 포함된 다수의 대표 표현자 벡터로부터 업데이트 손실을 계산하여 역전파하는 단계; 및

상기 제1 표현자맵과 상기 대표 표현자에 포함된 다수의 대표 표현자 벡터 사이의 관계에 따른 리드 손실과 상기 제1 학습 데이터의 진리 분할 영상과 상기 제1 분할 영상 사이의 차이에 따른 분할 손실을 계산하고, 상기 리드 손실과 상기 분할 손실을 합하여 상기 1차 손실을 계산하고 역전파하는 단계를 포함하는 의미론적 영상 분할 방법.
제13항에 있어서, 상기 간이 대표 표현자로 업데이트하는 단계는

상기 제1 학습 영상에서 추출된 표현자맵의 각 픽셀 벡터에 대해 신경망 연산하여 다수의 표현자 특징 벡터를 추출하고, 추출된 다수의 표현자 특징 벡터 각각을 상기 표현자맵의 대응하는 픽셀 벡터에 가산하여 표현자 특징맵을 획득하는 단계;

상기 진리 분할 영상에서 구분된 클래스에 따라 각각 특정 클래스에 해당하는 영역만을 검출하도록 이진 마스크 형태로 구성되는 다수의 클래스 마스크를 획득하는 단계;

상기 표현자 특징맵을 상기 다수의 클래스 마스크 각각으로 마스킹하여 상기 표현자 특징맵에서 각 클래스에 따른 픽셀 벡터들을 구분하고, 클래스별로 구분된 픽셀 벡터들에 대해 평균값 풀링하여 다수의 클래스 벡터를 획득하는 단계;

상기 다수의 대표 표현자 벡터 각각에 대응하는 클래스 벡터를 미리 지정된 모멘텀 값에 따라 가중합하여 획득되는 다수의 대표 표현자 벡터를 업데이트여 상기 간이 대표 표현자를 획득하고, 획득된 상기 간이 대표 표현자를 상기 메모리에 저장하는 단계를 포함하는 의미론적 영상 분할 방법.
제14항에 있어서, 상기 메타 테스트 단계는

상기 제1 학습 영상을 재인가받아 상기 메타 트레이닝 단계에서 가중치가 업데이트된 인공 신경망을 이용하여 상기 메모리에 저장된 간이 대표 표현자를 재업데이트하는 단계;

상기 제2 학습 영상을 인가받아 가중치가 업데이트된 인공 신경망으로 신경망 연산하여 제2 표현자맵을 추출하는 단계;

상기 메모리에 재업데이트되어 저장된 대표 표현자를 리드하고, 리드된 대표 표현자의 다수의 대표 표현자 벡터와 상기 제2 표현자맵을 기반으로 상기 제2 분할 영상을 획득하는 단계; 및

상기 제2 표현자맵과 재업데이트되어 저장된 대표 표현자에 포함된 다수의 대표 표현자 벡터 사이의 관계에 따른 리드 손실과 상기 제2 학습 데이터의 진리 분할 영상과 상기 제2 분할 영상 사이의 차이에 따른 분할 손실을 계산하고, 상기 리드 손실과 상기 분할 손실을 합하여 상기 2차 손실을 계산하고 역전파하는 단계를 포함하는 의미론적 영상 분할 방법.
제15항에 있어서, 상기 업데이트 손실(L_update)은

상기 메모리에 저장된 대표 표현자의 다수의 대표 표현자 벡터가 임베딩 벡터 공간에서 서로 이격되도록 수학식

(여기서 M_t[c_i]와 M_t[c_j] 는 각각 t번째 학습 시에 메모리에 저장된 대표 표현자(M_t)에 포함된 i 및 j번째 클래스에 대한 대표 표현자 벡터를 나타낸다.)

에 따라 계산되는 의미론적 영상 분할 방법.
제15항에 있어서, 상기 리드 손실(L_read)은

입력되는 학습 영상의 각 픽셀의 클래스를 식별한 대한 진리값을 상기 진리 분할 영상으로부터 획득하고, 상기 학습 영상에서 추출된 표현자맵을 업샘플링한 업샘플링 표현자맵의 다수의 픽셀 벡터에 상기 다수의 대표 표현자 벡터를 가중한 결과 대비 진리값을 가중한 비율에 따라 수학식

(여기서 y_t,j 는 t번째 학습 영상의 j번째 픽셀에 대한 진리값을 나타내고, Upsample(R_t)_j 는 업샘플링 표현자맵(Upsample(R_t))의 j번째 픽셀 벡터를 나타낸다.)

에 따라 계산되는 의미론적 영상 분할 방법.
제15항에 있어서, 상기 분할 손실(L_seg)은

입력되는 학습 영상에서 획득된 의미론적 분할 영상과 진리 분할 영상 사이의 크로스 엔트로피 손실로 계산되는 의미론적 영상 분할 방법.