KR20210073569A

KR20210073569A - 이미지 시맨틱 세그멘테이션 네트워크를 트레이닝하기 위한 방법, 장치, 디바이스 및 저장 매체

Info

Publication number: KR20210073569A
Application number: KR1020217014500A
Authority: KR
Inventors: 저쿤 지에; 웨이 류
Original assignee: 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date: 2019-03-26
Filing date: 2020-03-16
Publication date: 2021-06-18
Also published as: JP2022505762A; CN109978893A; KR102635987B1; WO2020192469A1; EP3951713A4; US20210241107A1; JP7375006B2; CN109978893B; EP3951713A1

Abstract

이미지 시맨틱 세그멘테이션 네트워크 트레이닝 방법. 상기 방법은: 트레이닝 이미지 세트에 기초하여 제1 이미지 시맨틱 세그멘테이션 네트워크를 트레이닝하는 단계, 여기서 상기 트레이닝 이미지 세트의 트레이닝 이미지는 주석 정보(annotation information)를 포함하고; 마스크 네트워크를 사용하여 상기 제1 이미지 시맨틱 세그멘테이션 네트워크의 네트워크 가중치에 대해 마스크 프로세싱을 수행하여, 제2 이미지 시맨틱 세그멘테이션 네트워크를 획득하는 단계, 여기서 상기 마스크 네트워크는 이미지 특징 분포(image feature distribution)에 민감하지 않은 상기 제1 이미지 시맨틱 세그멘테이션 네트워크의 네트워크 가중치를 선택하도록 구성되며; 그리고 상기 트레이닝 이미지 세트 및 테스트 이미지 세트에 기초하여 상기 제2 이미지 시맨틱 세그멘테이션 네트워크를 트레이닝하는 단계를 포함하며, 여기서 상기 테스트 이미지 세트의 테스트 이미지는 주석 정보를 포함하지 않으며, 상기 트레이닝 이미지 세트의 분포는 상기 테스트 이미지 세트의 분포와 다르다.

Description

이미지 시맨틱 세그멘테이션 네트워크를 트레이닝하기 위한 방법, 장치, 디바이스 및 저장 매체

본 출원은 2019년 3월 26일 중국특허청에 출원되고 발명의 명칭이 "이미지 시맨틱 세그멘테이션 네트워크를 트레이닝하기 위한 방법, 장치, 디바이스 및 저장 매체"인 중국특허출원 No. 201910231466.5에 대한 우선권을 주장하며, 상기 문헌은 본 명세서에 그 전문이 참조로서 포함된다.

본 출원의 실시예는 이미지 시맨틱 세그멘테이션 분야에 관한 것이며, 특히 이미지 시맨틱 세그멘테이션 네트워크를 트레이닝하기 위한 방법, 장치, 디바이스 및 저장 매체에 관한 것이다.

이미지 시맨틱 세그멘테이션은 이미지에 포함된 서로 다른 객체를 구별하고 각 객체의 카테고리를 인식하는 기술이다. 인공 지능 분야에서 이미지 시맨틱 세그멘테이션 네트워크는 일반적으로 컨볼루션 신경망을 기반으로 한 트레이닝을 통해 획득된다.

관련 기술에서는 컨볼루션 신경망 기반의 초기 이미지 시맨틱 세그멘테이션 네트워크를 구축할 때 트레이닝 이미지 세트를 이용하여 초기 이미지 시맨틱 세그멘테이션 네트워크를 트레이닝시키고, 네트워크 트레이닝이 완료되면 이미지 시맨틱 세그멘테이션 네트워크를 획득한다. 이미지 시맨틱 세그멘테이션 네트워크의 이미지 시맨틱 세그멘테이션 효과를 결정하기 위해 트레이닝에 의해 테스트 이미지 세트를 사용하여 테스트된다. 학습 이미지 세트의 각 학습 이미지에는 주석 정보가 포함되어 있고, 테스트 이미지 세트의 각 테스트 이미지에는 주석 정보가 포함되어 있지 않으며, 주석 정보는 이미지의 픽셀이 속하는 객체의 카테고리를 참조한다.

그렇지만, 전술한 방법을 사용하여 트레이닝된 이미지 시맨틱 세그멘테이션 네트워크는 이미지의 특징 분포에 민감하다. 학습 이미지 세트의 분포가 테스트 이미지 세트의 분포와 일치하지 않는 경우 이미지 시맨틱 세그멘테이션 네트워크를 사용하여 테스트 이미지 세트를 테스트한 후 얻은 테스트 결과의 정확도가 상대적으로 낮다.

본 출원에서 제공하는 다양한 실시예에 따라, 이미지 시맨틱 세그멘테이션 네트워크를 트레이닝하기 위한 방법, 장치, 디바이스 및 저장 매체가 제공된다.

컴퓨터 장치에 의해 실행되는 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 방법으로서, 상기 방법은:

트레이닝 이미지 세트(training image set)에 기초하여 제1 이미지 시맨틱 세그멘테이션 네트워크를 트레이닝하는 단계 - 상기 트레이닝 이미지 세트의 트레이닝 이미지는 주석 정보(annotation information)를 포함함 - ;

마스크 네트워크를 사용하여 상기 제1 이미지 시맨틱 세그멘테이션 네트워크의 네트워크 가중치에 대해 마스크 프로세싱을 수행하여, 제2 이미지 시맨틱 세그멘테이션 네트워크를 획득하는 단계 - 상기 마스크 네트워크는 이미지 특징 분포(image feature distribution)에 민감하지 않은 상기 제1 이미지 시맨틱 세그멘테이션 네트워크의 네트워크 가중치를 선택하도록 구성됨 - ; 및

상기 트레이닝 이미지 세트 및 테스트 이미지 세트에 기초하여 상기 제2 이미지 시맨틱 세그멘테이션 네트워크를 트레이닝하는 단계 - 상기 테스트 이미지 세트의 테스트 이미지는 주석 정보를 포함하지 않으며, 상기 트레이닝 이미지 세트의 분포는 상기 테스트 이미지 세트의 분포와 다름 - ;

를 포함한다.

목표 이미지 시맨틱 세그멘테이션 네트워크를 구비한 컴퓨터 장치에 적용 가능한 이미지 시맨틱 세그멘테이션 방법으로서, 상기 목표 이미지 시맨틱 세그멘테이션 네트워크는 전술한 관점에 설정된 바와 같은 방법을 사용하여 트레이닝되며, 상기 이미지 시맨틱 세그멘테이션 방법은:

테스트 이미지 세트에서 테스트 이미지를 획득하는 단계;

상기 테스트 이미지를 상기 목표 이미지 시맨틱 세그멘테이션 네트워크에 입력하고, 상기 목표 이미지 시맨틱 세그멘테이션 네트워크에 의해 출력된 목표 이미지 시맨틱 세그멘테이션 결과를 획득하는 단계 - 상기 목표 이미지 시맨틱 세그멘테이션 결과는 상기 테스트 이미지의 픽셀이 속하는 객체에 대응하는 카테고리를 포함함 - ; 및

상기 목표 이미지 시맨틱 세그멘테이션 결과에 기초하여, 상기 테스트 이미지에 대응하는 분할된 이미지를 표시하는 단계 - 상기 분할된 이미지에는 객체의 상이한 카테고리의 주석이 달림 -

를 포함한다.

이미지 시맨틱 세그멘테이션 네트워크 트레이닝 장치로서, 상기 장치는:

트레이닝 이미지 세트에 기초하여 제1 이미지 시맨틱 세그멘테이션 네트워크를 트레이닝하도록 구성되어 있는 제1 트레이닝 모듈 - 상기 트레이닝 이미지 세트의 트레이닝 이미지는 주석 정보를 포함함 - ;

마스크 네트워크를 사용하여 상기 제1 이미지 시맨틱 세그멘테이션 네트워크의 네트워크 가중치에 대해 마스크 프로세싱을 수행하여, 제2 이미지 시맨틱 세그멘테이션 네트워크를 획득하도록 구성되어 있는 마스킹 모듈 - 상기 마스크 네트워크는 이미지 특징 분포에 민감하지 않은 상기 제1 이미지 시맨틱 세그멘테이션 네트워크의 네트워크 가중치를 선택하도록 구성됨 - ; 및

상기 트레이닝 이미지 세트 및 테스트 이미지 세트에 기초하여 상기 제2 이미지 시맨틱 세그멘테이션 네트워크를 트레이닝하도록 구성되어 있는 제2 트레이닝 모듈 - 상기 테스트 이미지 세트의 테스트 이미지는 주석 정보를 포함하지 않으며, 상기 트레이닝 이미지 세트의 분포는 상기 테스트 이미지 세트의 분포와 다름 - ;

를 포함한다.

컴퓨터 판독 가능형 명령을 저장하는 비휘발성 저장 매체로서, 상기 컴퓨터 판독 가능형 명령은 하나 이상의 프로세서에 의해 실행될 때 상기 하나 이상의 프로세서가 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 방법 또는 이미지 시맨틱 세그멘테이션 방법의 단계를 수행하게 한다.

컴퓨터 장치로서, 메모리 및 프로세서를 포함하고, 상기 메모리는 컴퓨터 판독 가능형 명령을 저장하고, 상기 컴퓨터 판독 가능형 명령은 상기 프로세서에 의해 실행될 때 프로세서가 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 방법 또는 이미지 시맨틱 세그멘테이션 방법의 단계를 수행하게 한다.

컴퓨터 프로그램 제품으로서, 상기 컴퓨터 프로그램 제품은 컴퓨터 장치 상에서 실행될 때, 컴퓨터 장치가 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 방법 또는 이미지 시맨틱 세그멘테이션 방법의 단계를 수행하게 한다.

본 출원의 하나 이상의 실시예의 세부 사항은 첨부된 도면 및 아래 설명에서 제공된다. 본 출원의 다른 특징, 목적 및 이점은 명세서, 도면 및 청구 범위로부터 명백해진다.

이하에서는 본 출원의 실시예의 기술적 솔루션을 보다 명확하게 설명하기 위해 실시예를 설명하는 데 필요한 첨부 도면을 간략히 설명한다. 명백히, 다음 설명에서 첨부된 도면은 본 출원의 일부 실시예에 불과하며, 당업자는 창의적인 노력 없이 이러한 첨부된 도면으로부터 다른 첨부 도면을 얻을 수 있다.
도 1은 본 출원의 예시적인 실시예에 따른 구현 환경의 개략도이다.
도 2는 본 출원의 일 실시예에 따른 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 방법의 흐름도이다.
도 3은 도 2에 도시된 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 방법의 원리도이다.
도 4는 본 출원의 또 다른 실시예에 따른 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 방법의 흐름도이다.
도 5는 실수 값 마스크를 사용하여 제1 가중치 어레이에 대해 마스크 프로세싱을 수행하는 원리도이다.
도 6은 본 출원의 다른 실시예에 따른 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 방법의 흐름도이다.
도 7은 이미지 특징에 따라 판별기에 의해 이미지가 속하는 이미지 세트를 결정하는 원리도이다.
도 8은 제1 가중치 어레이에 대해 마스크 프로세싱을 수행하고 섭동을 증가시키는 원리도이다.
도 9는 테스트 이미지의 시맨틱 세그멘테이션 후 얻은 시맨틱 세그멘테이션 효과의 비교도이다.
도 10은 본 출원의 일 실시예에 따른 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 장치의 구조적 블록도이다.
도 11은 본 출원의 예시적인 실시예에 따른 컴퓨터 장치의 개략적인 구조도이다.

본 출원의 목적, 기술적 솔루션 및 이점을 보다 명확하게 하기 위해, 이하에서는 첨부된 도면 및 실시예를 참조하여 본 출원을 상세히 설명한다. 본 명세서에 설명된 특정 실시예는 단지 본 출원을 설명하기 위해 사용된 것이지 본 출원을 제한하려는 의도가 아님을 이해해야 한다.

이해의 편의를 위해, 본 출원의 실시예에서 일부 용어는 다음에서 간단히 설명된다.

네트워크 가중치: 컨볼루션 신경망에서 컨볼루션 커널의 각 단위는 네트워크 트레이닝을 통해 획득되는 자신의 네트워크 가중치에 대응한다. 3×3 컨볼루션 커널을 예로 들면 컨볼루션 커널은 9 개의 단위를 포함하며 이에 따라 컨볼루션 커널에는 9 개의 네트워크 가중치가 있다. 컨볼루션 커널을 사용하여 이미지의 픽셀에 대해 컨볼루션 프로세싱을 수행하는 경우(즉, 컨볼루션 커널을 사용하여 이미지에 대해 특징 추출이 수행된다), 컨볼루션 커널에서 해당 네트워크 가중치를 픽셀 값에 곱하고, 곱셈이 가산된 다음 출력된다.

마스크: 본 출원의 실시예에서 마스크는 컨볼루션 커널의 네트워크 가중치를 스크리닝하도록 구성된다. 마스크를 사용하여 컨볼루션 커널에서 마스크 프로세싱을 수행하는 경우 이미지 특성 분포에 민감하지 않은 네트워크 가중치의 통과율이 이미지 특성 분포에 민감한 네트워크 가중치의 통과율보다 높아 이미지 특징 분포에 민감하지 않은 네트워크 가중치를 선택하는 효과를 얻을 수 있다. 선택적으로, 마스크는 실수 값 마스크 또는 이진 마스크일 수 있으며, 여기서 이진 마스크는 실수 값 마스크에 대해 이진화 처리를 수행함으로써 획득된다.

판별기: 특성이 속하는 분포 필드를 결정하기 위한 기계 학습 모델이다. 본 출원의 실시예에서 판별기는 이미지 시맨틱 세그멘테이션 모델에 의해 출력된 이미지 특징이 속하는 분포 필드(트레이닝 이미지 세트 또는 테스트 이미지 세트)를 결정하도록 구성된다.

이미지 시맨틱 세그멘테이션 분야에서는 트레이닝 이미지 세트를 이용하여 네트워크 트레이닝을 수행한 후 테스트 이미지 세트를 이용하여 트레이닝된 네트워크를 테스트하는 것이 일반적인 방식이다. 관련 기술에서는 주석 정보(annotation information)가 포함된 트레이닝 이미지 세트를 이용하여 이미지 시맨틱 세그멘테이션 네트워크를 트레이닝한 후, 획득한 이미지 시맨틱 세그멘테이션 네트워크(컨볼루션 커널)의 네트워크 가중치는 트레이닝 이미지 세트에서 트레이닝 이미지의 특징 분포를 따른다. 따라서 테스트 이미지 세트에서 테스트 이미지의 특징 분포가 학습 이미지의 특성 분포와 일치하지 않는 경우 이미지 시맨틱 세그멘테이션 네트워크는 테스트 이미지에 대한 일반화(generalization)가 불량하여 테스트의 정확도에 영향을 미친다.

예를 들어, 무인 운전 분야에 적용되는 이미지 시맨틱 세그멘테이션 네트워크의 트레이닝에서 트레이닝 이미지 세트에는 A 도시의 도로 이미지가 포함되어 있고 테스트 이미지 세트에는 B 도시의 도로 이미지가 포함되어 있는 경우, 이미지 시맨틱 세그멘테이션 네트워크를 사용하여 테스트 이미지에 시맨틱 세그멘테이션을 수행하는 효과는 서로 다른 도시의 도로 이미지의 다른 특징 분포로 인해 열악하다. 이것은 부적절한 트레이닝 모드가 아니라 트레이닝 이미지 세트와 테스트 이미지 세트의 일관되지 않은 분포로 인해 발생한다.

본 출원의 실시예에서, 이미지 시맨틱 세그멘테이션 네트워크의 트레이닝 과정에 마스크 네트워크를 창의적으로 도입하고, 이미지 특성 분포에 민감한 네트워크 가중치를 스크리닝하고 이미지 특성 분포에 민감하지 않은 네트워크 가중치를 유지하기 위해 마스크 네트워크를 사용하여 트레이닝된 이미지 시맨틱 세그멘테이션 네트워크에 대해 네트워크 가중치 스크리닝을 수행하며, 이에 의해 (트레이닝 이미지 분포와 일치하지 않는) 테스트 이미지에 대한 가중치 스크리닝 후 획득된 이미지 시맨틱 세그멘테이션 네트워크의 일반화를 개선하며, 테스트 이미지에 대한 가중치 스크리닝 후 획득된 이미지 시맨틱 세그멘테이션 네트워크의 시맨틱 세그멘테이션 효과를 개선한다.

본 출원의 실시예에 따른 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 방법은 다음 시나리오 중 어느 하나에서 사용될 수 있다.

1. 이 방법은 보조 운전 분야의 도로 이미지 시맨틱 세그멘테이션 네트워크의 트레이닝 시나리오에 적용될 수 있다. 도로 이미지 시맨틱 세그멘테이션 네트워크는 도로, 이정표, 보행자, 차량 및 신호등과 같은 도로 이미지에서 도로 요소를 인식하고 인식 결과를 차량의 보조 운전 시스템으로 전송하여 보조 운전 시스템이 도로 요소에 따른 차량의 주행 상태를 제어할 수 있도록 구성할 수 있다. 도로 이미지 시맨틱 세그멘테이션 네트워크를 트레이닝하는 과정에서 트레이닝 이미지 세트와 테스트 이미지 세트의 분포가 일치하지 않을 수 있다. 예를 들어, 트레이닝 이미지 세트와 테스트 이미지 세트의 이미지는 다른 도시, 다른 계절 또는 다른 기간에 수집된다. 본 출원의 실시예에서 제공하는 방법을 사용하여 도로 이미지 시맨틱 세그멘테이션 네트워크를 트레이닝함으로써, 도로 이미지 시맨틱 세그멘테이션 네트워크를 상이한 분포의 도로 이미지로 일반화하는 것이 개선될 수 있어서, 도로 이미지에서 도로 요소의 인식 정확도를 향상시킬 수 있다.

2. 상기 방법은 얼굴 인식 분야에서 얼굴 이미지 시맨틱 세그멘테이션 네트워크의 트레이닝 시나리오에 적용될 수 있다. 얼굴 이미지 시맨틱 세그멘테이션 네트워크는 이미지 속의 얼굴을 인식하도록 구성될 수 있으며, 그 결과 이미지 내의 얼굴에 대한 주석, 미화, 인증 등이 가능하다. 얼굴 이미지 시맨틱 세그멘테이션 네트워크를 트레이닝하는 과정에서 분포는 트레이닝 이미지 세트와 테스트 이미지 세트가 일치하지 않을 수 있다. 예를 들어 트레이닝 이미지 세트와 테스트 이미지 세트의 이미지는 서로 다른 인종, 서로 다른 피부색 또는 서로 다른 스타일에 대응한다. 본 출원의 실시예에서 제공하는 방법을 사용하여 얼굴 이미지 시맨틱 세그멘테이션 네트워크를 트레이닝함으로써, 서로 다른 분포의 얼굴 이미지에 대한 얼굴 이미지 시맨틱 세그멘테이션 네트워크의 일반화를 개선할 수 있어 이미지 내의 얼굴 인식 정확도를 향상시킬 수 있다.

3. 본 방법은 신체 검출 분야에서 신체 이미지 시맨틱 세그멘테이션 네트워크의 트레이닝 시나리오에 적용될 수 있다. 신체 이미지 시맨틱 세그멘테이션 네트워크는 이미지에서 신체를 인식하도록 구성되어 이미지의 신체 영역에 후속 주석을 달 수 있고, 이미지의 신체 수를 계산하고, 신체 형태를 평가하는 등의 작업을 수행할 수 있다. 신체 이미지 시맨틱 세그멘테이션 네트워크를 트레이닝하는 과정에서, 트레이닝 이미지 세트 및 테스트 이미지 세트의 분포가 일치하지 않을 수 있다. 예를 들어, 트레이닝 이미지 세트와 테스트 이미지 세트의 이미지는 서로 다른 획득 환경(실내 또는 실외), 서로 다른 인종 또는 서로 다른 신체 모양을 가지므로 신체 감지의 정확도에 영향을 미칠 수 있다. 본 출원의 실시예에서 제공하는 방법을 사용하여 신체 이미지 시맨틱 세그멘테이션 네트워크를 트레이닝함으로써, 신체 이미지 시맨틱 세그멘테이션 네트워크를 다른 분포의 신체 이미지로 일반화하여 이미지에서 신체의 검출 정확도를 향상시킬 수 있다. .

확실히, 전술한 시나리오에 적용되는 것 외에도, 본 출원의 실시예에서 제공되는 방법은 이미지 시맨틱 세그멘테이션 모델의 트레이닝을 필요로 하는 다른 시나리오, 특히 트레이닝 이미지 세트의 분포와 테스트 이미지 세트의 분포가 일치하지 않는 시나리오에도 적용될 수 있다. 본 출원의 실시예는 특정 애플리케이션 시나리오를 제한하려는 것이 아니다.

가능한 구현에서, 본 출원의 실시예에 의해 제공되는 이미지 시맨틱 세그멘테이션 네트워크를 트레이닝하기 위한 방법은 개인용 컴퓨터 또는 서버와 같은 강력한 데이터 처리 능력을 가진 컴퓨터 장치에 적용될 수 있다. 위의 방법에 따라 트레이닝된 이미지 시맨틱 세그멘테이션 네트워크는 애플리케이션 프로그램 또는 애플리케이션 프로그램의 일부로 구현되어 단말에 설치되어 단말이 이미지 시맨틱 세그멘테이션 능력을 갖도록 할 수 있다. 대안으로, 위의 방법에 따라 트레이닝된 이미지 시맨틱 세그멘테이션 네트워크를 애플리케이션 프로그램의 백그라운드 서버에 적용하여 서버가 단말에서 응용 프로그램에 대한 이미지 시맨틱 세그멘테이션 서비스를 제공할 수 있다.

도 1은 본 출원의 예시적인 실시예에 따른 구현 환경의 개략도이다. 구현 환경은 단말(110) 및 서버(120)를 포함한다. 단말(110)은 통신 네트워크를 통해 서버(120)와 데이터 통신한다. 선택적으로, 통신 네트워크는 유선 네트워크 또는 무선 네트워크일 수 있고, 통신 네트워크는 근거리 네트워크, 대도시 네트워크 및 광역 네트워크 중 적어도 하나일 수 있다.

단말(110)에는 이미지 시맨틱 세그멘테이션이 필요한 애플리케이션 프로그램이 설치된다. 애플리케이션 프로그램은 보조 운전 응용 프로그램, 모니터링 애플리케이션 프로그램, 촬영 애플리케이션 프로그램, 이미지 매팅 애플리케이션 프로그램 등일 수 있으며, 이는 본 출원의 실시예에 제한되지 않는다. 선택적으로, 단말은 휴대폰, 태블릿 컴퓨터 또는 노트북 휴대용 노트북 컴퓨터와 같은 이동 단말일 수 있거나, 데스크톱 컴퓨터, 프로젝션 컴퓨터, 차량 내 컴퓨터 등과 같은 단말일 수 있으며, 이는 본 출원의 실시예에서 제한되지 않는다.

서버(120)는 물리적 서버 또는 클라우드 서버일 수 있는 서버 또는 서버 그룹으로 구성된 서버 클러스터로 구현될 수 있다. 가능한 구현에서, 서버(120)는 단말(110)에서 애플리케이션 프로그램의 백그라운드 서버이다.

본 출원의 실시예에서, 서버(120)는 트레이닝 이미지 세트(121) 및 테스트 이미지 세트(122)에 따라 트레이닝된 이미지 시맨틱 세그멘테이션 네트워크(123)를 저장한다. 가능한 애플리케이션 시나리오에서, 이미지 시맨틱 세그멘테이션이 필요한 경우 목표 이미지에 대해 수행될 경우, 애플리케이션 프로그램은 단말(110)을 통해 목표 이미지를 서버(120)로 전송한다. 목표 이미지를 수신하면, 서버(120)는 목표 이미지를 이미지 시맨틱 세그멘테이션 네트워크(123)에 입력하고, 이미지 시맨틱 세그멘테이션을 수행한다. 이미지 시맨틱 세그멘테이션 네트워크(123)에서 출력된 결과는 단말(110)로 피드백되고, 단말(110)의 애플리케이션 프로그램은 이미지 시맨틱 세그멘테이션 결과를 분석하여 표시한다.

다른 가능한 구현에서, 이미지 시맨틱 세그멘테이션 네트워크(123)가 단말(110)에서 애플리케이션 프로그램의 일부로 구현되는 경우, 단말(110)은 서버(120)를 사용하지 않고 로컬에서 목표 이미지에 대한 이미지 시맨틱 세그멘테이션을 수행할 수 있고, 이에 의해 이미지 시맨틱 세그멘테이션 속도를 개선하고 서버와의 상호 작용으로 인한 지연을 줄인다.

이미지 시맨틱 세그멘테이션 네트워크를 트레이닝하는 프로세스는 예시적인 실시예를 사용하여 아래에 설명되어 있다.

도 2를 참조하면, 도 2는 본 출원의 일 실시예에 따른 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 방법의 흐름도이다. 이 실시예에서, 트레이닝 방법은 설명을 위한 예로서 컴퓨터 장치에 적용된다. 컴퓨터 장치는 도 1에 도시된 바와 같이 서버(120)일 수 있고, 이 방법에는 다음 단계가 포함된다:

단계 201. 트레이닝 이미지 세트에 기초하여 제1 이미지 시맨틱 세그멘테이션 네트워크를 트레이닝하며, 상기 트레이닝 이미지 세트의 트레이닝 이미지는 주석 정보를 포함한다.

다른 응용 분야에서, 제1 이미지 시맨틱 세그멘테이션 네트워크를 트레이닝하기 위해 사용되는 트레이닝 이미지 세트는 상이하다. 복수의 예시적인 응용 분야가 아래에 예시된다.

I. 보조 운전 분야: 트레이닝된 이미지 시맨틱 세그멘테이션 네트워크는 이미지에서 상이한 도로 요소를 인식하기 위해 사용되기 때문에, 트레이닝 이미지 세트의 트레이닝 이미지는 도로 요소를 포함하는 도로 이미지이다.

II. 얼굴 인식 분야: 트레이닝된 이미지 시맨틱 세그멘테이션 네트워크는 이미지에 포함된 얼굴을 인식하는 데 사용되므로 트레이닝 이미지 세트의 트레이닝 이미지에는 다른 각도와 다른 표정을 가진 얼굴이 포함되어야 한다.

III. 신체 감지 분야: 트레이닝된 이미지 시맨틱 세그멘테이션 네트워크는 이미지에 포함된 신체를 인식하는 데 사용되므로 트레이닝 이미지 세트의 트레이닝 이미지에는 모양과 각도가 다른 사람의 몸통이 포함되어야 한다.

선택적으로, 주석 정보는 트레이닝 이미지의 픽셀에 대응하는 객체가 속하는 카테고리를 포함한다. 예를 들어, 트레이닝 이미지가 도로 이미지인 경우, 주석 정보는 픽셀에 대응하는 도로 요소가 속하는 카테고리를 포함하고, 카테고리는 도로, 이정표, 보행자, 차량, 그리고 신호등 중 적어도 하나를 포함할 수 있다.

선택적으로, 트레이닝 이미지 세트의 트레이닝 이미지는 실제로 찍은 사진이거나(이후 수동 카테고리 주석이 필요하다), 게임 화면에서 찍은 스크린 샷이다(픽셀이 속하는 객체의 카테고리는 게임 애플리케이션에서 직접 획득될 수 있다).

제1 이미지 시맨틱 세그멘테이션 네트워크를 트레이닝하는 모드와 관련하여, 가능한 구현에서, 컴퓨터 장치는 트레이닝 이미지를 구성된 초기 이미지 시맨틱 세그멘테이션 네트워크에 입력하고, 초기 이미지 시맨틱 세그멘테이션 네트워크에 의해 출력된 픽셀에 대응하는 예측 카테고리를 획득하므로, 픽셀의 예측 카테고리와 주석 정보의 주석 카테고리 사이의 오차에 따라 역 전파 알고리즘(back propagation algorithm)을 통해 초기 이미지 시맨틱 세그먼테이션 네트워크의 파라미터를 업데이트하고, 최종적으로 제1 이미지 시맨틱 세그먼테이션 모델을 트레이닝으로 획득한다.

선택적으로, 본 출원의 실시예에서 제1 이미지 시맨틱 세그멘테이션 네트워크는 입력 계층, 복수의 컨볼루션 계층 및 출력 계층을 포함하는 완전 컨볼루션 네트워크 구조를 채택하고, 각 컨볼루션 계층은 복수의 컨볼루션 커널을 포함한다. 본 출원의 실시예는 제1 이미지 시맨틱 세그멘테이션 네트워크의 특정 네트워크 구조를 제한하지 않는다.

개략적으로, 제1 이미지 시맨틱 세그멘테이션 네트워크의 주요 구조는 VGG16 및 잔여 네트워크(ResNets)이다.

개략적으로, 도 3에 도시된 바와 같이, 컴퓨터 장치는 출력된 이미지 특징(33)을 얻기 위해 제1 이미지 시맨틱 세그멘테이션 네트워크(32)에 설정된 트레이닝 이미지 내의 트레이닝 이미지(31)를 입력하고, 이에 따라 제1 이미지 시맨틱 세그멘테이션 네트워크(32)는 이미지 특징(33) 및 트레이닝 이미지(31)의 주석 정보(34)를 기반으로 트레이닝된다.

단계 202. 마스크 네트워크를 사용하여 제1 이미지 시맨틱 세그멘테이션 네트워크의 네트워크 가중치에 대해 마스크 프로세싱을 수행하여 제2 이미지 시맨틱 세그멘테이션 네트워크를 획득하고, 마스크 네트워크는 이미지 특징 분포에 민감하지 않은 제1 이미지 시맨틱 세그멘테이션 네트워크의 네트워크 가중치를 선택하도록 구성된다.

본 출원의 실시예에서, 네트워크 가중치 스크리닝을 위한 마스크 네트워크가 도입된다. 제1 이미지 시맨틱 세그멘테이션 네트워크가 학습 이미지 세트를 기반으로 트레이닝된 후, 테스트 이미지 세트를 사용하여 직접 테스트하는 대신 마스크 네트워크를 사용하여 제1 이미지 시맨틱 세그멘테이션 네트워크에서 네트워크 가중치 스크리닝이 수행된다. 이미지 특징 분포에 민감한 네트워크 가중치를 선별하고 이미지 특징 분포에 민감하지 않은 네트워크 가중치를 유지하여 특징 분포에 민감하지 않은 제2 이미지 시맨틱 세그멘테이션 네트워크를 얻는다.

선택적으로 마스크 네트워크의 네트워크 구조는 제1 이미지 시맨틱 세그멘테이션 네트워크의 구조와 동일하며, 즉, 마스크 네트워크의 컨볼루션 레이어 수가 제1 이미지 시맨틱 세그멘테이션 네트워크 및 컨볼루션 커널의 것과 동일하고, 해당 컨볼루션 레이어에서 크기와 수 모두가 동일하다. 이에 상응해서, 마스크 프로세싱 후, 제2 이미지 시맨틱 세그멘테이션 네트워크의 네트워크 구조는 제1 이미지 시맨틱 세그멘테이션 네트워크의 네트워크 구조와 일치한다.

개략적으로, 도 3에 도시된 바와 같이, 컴퓨터 장치는 제2 이미지 시맨틱 세그멘테이션 네트워크(36)를 획득하기 위해 마스크 네트워크(35)를 통해 제1 이미지 시맨틱 세그멘테이션 네트워크(32)에서 마스크 프로세싱을 수행한다.

제2 이미지 시맨틱 세그멘테이션 네트워크는 제1 이미지 시맨틱 세그멘테이션 네트워크에 비해 특징 분포에 민감하지 않은 네트워크 가중치를 유지하므로, 제2 이미지 시맨틱 세그멘테이션 네트워크는 다른 분포를 갖는 이미지 세트를 테스트하기 위해 더 나은 일반화를 갖는다.

단계 203. 트레이닝 이미지 세트 및 테스트 이미지 세트에 기초하여 제2 이미지 시맨틱 세그멘테이션 네트워크를 트레이닝하며, 테스트 이미지 세트의 테스트 이미지는 주석 정보를 포함하지 않으며, 테스트 이미지 세트의 분포는 테스트 이미지 세트의 분포와 다르다.

네트워크 가중치 스크리닝을 통해 제2 이미지 시맨틱 세그멘테이션 네트워크를 획득한 후, 컴퓨터 장치는 다른 분포의 트레이닝 이미지 세트 및 테스트 이미지 세트를 사용하여 제2 이미지 시맨틱 세그멘테이션 네트워크를 추가로 트레이닝한다.

다른 응용 분야에서 트레이닝 이미지 세트의 분포가 테스트 이미지 세트의 분포와 다르다는 것은 다른 의미를 갖는다. 복수의 예시적인 응용 분야가 아래에 예시된다.

I. 보조 운전 분야: 트레이닝 이미지 세트의 분포가 테스트 이미지 세트의 분포와 다르다는 것은 도시의 차이, 계절의 차이, 기간의 차이 중 적어도 하나를 의미한다. 예를 들어, 트레이닝 이미지 세트의 트레이닝 이미지를 도시 A에서 획득하고 테스트 이미지 세트의 테스트 이미지를 도시 B에서 획득하는 경우, 트레이닝 이미지 세트의 분포가 테스트 이미지 세트의 분포와 다르다.

II. 안면 인식 분야: 트레이닝 이미지 세트의 분포가 테스트 이미지 세트의 분포와 다르다는 것은 인종 차이, 피부색 차이, 스타일 차이 중 적어도 하나를 의미한다(트레이닝 이미지 세트는 현실적인 스타일이고 테스트 이미지 세트는 만화 스타일이다). 예를 들어, 트레이닝 이미지 세트의 트레이닝 이미지가 아시아인 얼굴을 포함하는 이미지이고 테스트 이미지 세트의 테스트 이미지가 유럽인 얼굴 및 미국인 얼굴을 포함하는 이미지인 경우, 트레이닝 이미지 세트의 분포가 테스트 이미지 세트와 다르다.

III. 신체 감지 분야: 트레이닝 이미지 세트의 분포가 테스트 이미지 세트의 분포와 다르다는 것은 획득 환경의 차이, 인종의 차이, 모양의 차이 중 적어도 하나를 의미한다. 예를 들어, 트레이닝 이미지 세트의 트레이닝 이미지가 실내에서 획득한 신체 이미지이고 테스트 이미지 세트의 테스트 이미지가 실외에서 획득한 신체 이미지인 경우, 트레이닝 이미지 세트의 분포가 테스트 이미지 세트와 다르다.

가능한 구현에서, 컴퓨터 장치는 트레이닝 이미지를 제2 이미지 시맨틱 세그멘테이션 네트워크에 입력하므로, 제2 이미지 시맨틱 세그멘테이션 네트워크의 파라미터는 학습 이미지의 주석 정보 및 제2 이미지 시맨틱 세그멘테이션 네트워크의 예측된 카테고리에 따라 역 전파 알고리즘을 통해 업데이트되도록 한다(제1 이미지 시맨틱 세그멘테이션 네트워크의 네트워크 가중치를 변경하지 않고 유지하고, 마스크 네트워크를 업데이트하고, 업데이트된 마스크 네트워크를 사용하여 제1 이미지 시맨틱 세그멘테이션 네트워크에서 마스크 프로세싱을 수행하므로 제2 이미지 시맨틱 세그멘테이션 네트워크의 업데이트 효과를 달성한다).

개략적으로, 도 3에 도시된 바와 같이, 컴퓨터 장치는 출력된 제1 이미지 특징(38)을 얻기 위해 제2 이미지 시맨틱 세그멘테이션 네트워크(36)에 트레이닝 이미지(31)를 입력하므로, 제2 이미지 시맨틱 세그멘테이션 네트워크(36)는 제1 이미지 특징(38) 및 트레이닝 이미지(31)의 주석 정보(34)에 기초하여 트레이닝된다.

가능한 구현에서, 컴퓨터 장치는 트레이닝 이미지 및 테스트 이미지를 제2 이미지 시맨틱 세그멘테이션 네트워크에 입력하고, 적대 트레이닝 모드에서 판별기를 트레이닝하여 제2 이미지 시맨틱 세그멘테이션 네트워크에 의해 추출된 특징이 트레이닝 이미지 세트 또는 테스트 이미지 세트에 속하는지를 결정하므로, 제2 이미지 시맨틱 세그멘테이션 네트워크를 분배에 민감하지 않은 이미지 특징을 추출하게 한다.

개략적으로, 도 3에 도시된 바와 같이, 컴퓨터 장치는 트레이닝 이미지(31) 및 테스트 이미지(37)를 제2 이미지 시맨틱 세그멘테이션 네트워크(36)에 입력하여 트레이닝 이미지(31)에 대응하는 제1 이미지 특징(38) 및 테스트 이미지(37)에 대응하는 제2 이미지 특징(39)을 획득하여, 제1 이미지 특징(38) 및 제2 이미지 특징(39)에 기초하여 제2 이미지 시맨틱 세그멘테이션 네트워크(36)에 대한 적대적 트레이닝을 수행한다.

요약하면, 본 출원의 실시예에서, 트레이닝 이미지 세트를 기반으로 제1 이미지 시맨틱 세그멘테이션 네트워크가 트레이닝된 후, 특징 분포에 민감하지 않은 네트워크 가중치를 선택하기 위해 마스크 네트워크를 통해 제1 이미지 시맨틱 세그멘테이션 네트워크에 대해 네트워크 가중치 스크리닝이 수행되어, 대응하는 제2 이미지 시맨틱 세그멘테이션 네트워크를 획득하고, 그런 다음 제2 이미지 시맨틱 세그멘테이션 네트워크가 테스트 이미지 세트 및 트레이닝 이미지 세트를 사용하여 트레이닝된다. 마스크 네트워크는 특징 분포에 민감한 네트워크 가중치를 필터링할 수 있기 때문에 트레이닝 이미지 세트의 분포가 테스트 이미지 세트의 분포와 다르더라도 네트워크 가중치 스크리닝 후 얻은 제2 이미지 시맨틱 세그멘테이션 네트워크가 테스트 이미지 세트에 대해 더 우수한 일반화를 가지며, 이에 의해 테스트 이미지 세트의 테스트 정확도를 향상시킨다.

선택적으로, 컴퓨터 장치는 적대적 트레이닝 모드에서 네트워크 가중치 스크리닝 후에 획득된 제2 이미지 시맨틱 세그멘테이션 모델을 트레이닝하여, 분포에 민감하지 않은 특징을 추출하도록 제2 이미지 시맨틱 세그멘테이션 네트워크의 능력을 향상시킨다. 도 4를 참조하면, 도 4는 본 출원의 또 다른 실시예에 따른 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 방법의 흐름도이다. 이 방법에는 다음 단계가 포함된다:

단계 401. 트레이닝 이미지 세트에 기초하여 제1 이미지 시맨틱 세그멘테이션 네트워크를 트레이닝하며, 트레이닝 이미지 세트의 트레이닝 이미지는 주석 정보를 포함한다.

이 단계의 구현을 위해, 단계 201을 참조할 수 있다.

단계 402. 제1 이미지 시맨틱 세그멘테이션 네트워크에 대응하는 제1 가중치 어레이를 획득하며, 제1 가중치 어레이는 제1 이미지 시맨틱 세그멘테이션 네트워크의 컨볼루션 커널에 대응하는 네트워크 가중치를 포함한다.

가능한 구현에서, 컴퓨터 장치는 제1 이미지 시맨틱 세그멘테이션 네트워크의 컨볼루션 커널에 대응하는 네트워크 가중치를 획득하고, 컨볼루션 커널에 대응하는 네트워크 가중치에 기초하여 제1 가중치 어레이를 구성한다. 선택적으로 제1 가중치 어레이는 네트워크 가중치로 구성된 가중치 행렬이다.

선택적으로, 제1 이미지 시맨틱 세그멘테이션 네트워크가 트레이닝된 후, 제1 이미지 시맨틱 세그멘테이션 네트워크의 네트워크 가중치가 고정된다. 후속 트레이닝 프로세스에서, 마스크 네트워크는 제2 이미지 시맨틱 세그멘테이션 네트워크를 얻기 위해 제1 이미지 시맨틱 세그멘테이션 네트워크에서 네트워크 가중치를 스크리닝하도록 트레이닝된다.

개략적으로, 도 5에 도시된 바와 같이, 컴퓨터 장치는 제1 이미지 시맨틱 세그멘테이션 네트워크에 대응하는 제1 가중치 어레이(51)를 획득한다. 제1 가중치 어레이(51)는 9 개의 네트워크 가중치(어레이 내의 원)를 포함하고, 상이한 패턴은 상이한 네트워크 가중치를 나타낸다.

이 실시예는 개략적 설명을 위한 예로서 3×3 컨볼루션 커널에 대응하는 네트워크 가중치만을 취한다. 실제 적용에서, 제1 가중치 어레이는 컨볼루션 커널에 대응하는 다수의 네트워크 가중치를 포함하며, 이는 본 실시예에서 제한되지 않는다.

단계 403. 마스크 네트워크에 대응하는 실수 값 마스크를 사용하여 제1 가중치 어레이에 대한 마스크 프로세싱을 수행하여 제2 가중치 어레이를 획득한다.

본 출원의 실시예에서, 마스크 네트워크의 네트워크 구조는 제1 이미지 시맨틱 세그멘테이션 네트워크의 네트워크 구조와 동일하고, 마스크 네트워크의 네트워크 가중치 수는 제1 이미지 시맨틱 세그멘테이션 네트워크의 네트워크 가중치 수와 동일하다. 따라서 가능한 구현에서, 컴퓨터 장치는 마스크 네트워크의 컨볼루션 커널에 대응하는 네트워크 가중치를 획득하여 제1 가중치 어레이와 동일한 크기를 가진 실수 값 마스크를 생성한다. 선택적으로 실수 값 마스크는 (마스크 네트워크에서) 네트워크 가중치로 구성된 가중치 행렬이다.

마스크 프로세싱 프로세스에서, 선택적으로, 컴퓨터 장치는 실수 값 마스크 및 제1 가중치 어레이에 대해 점적 곱셈(pointwise multiplication)을 수행하여 제2 가중치 어레이를 획득한다. 실수 값 마스크의 실수(real number)가 클수록 제1 가중치 어레이에서 해당 네트워크 가중치의 통과율이 높아진다.

개략적으로, 제1 이미지 시맨틱 세그멘테이션 네트워크에 대응하는 제1 가중치 어레이는

이고, 마스크 네트워크에 대응하는 실수 값 마스크는

이므로, 마스크 프로세싱 후 얻은 제2 가중치 어레이는

이다.

구현 과정에서 실수 값 마스크를 직접 사용하여 제1 가중치 어레이에 대해 마스크 프로세싱을 수행하는 효과가 좋지 않은 것으로 나타났다. 따라서, 가능한 구현에서, 컴퓨터 장치는 먼저 (필터링 효과를 달성하기 위해) 실수 값 마스크에 대해 이진화 처리를 수행한 다음, 이진화 처리 후에 얻은 실수 값 마스크에 대해 마스크 프로세싱을 수행한다. 도 4에 기초하여, 도 6에 도시된 바와 같이, 이 단계에는 다음 단계가 포함될 수 있다:

단계 403A. 임계 값 함수를 사용하여 실수 값 마스크에 대해 이진화 처리를 수행하여 이진 마스크를 생성하며, 이진 마스크는 0과 1의 어레이이며, 이진 마스크의 크기는 제1 가중치 어레이의 크기와 동일하다.

임계 값 함수(threshold function)는 실수 값 마스크에 대응하는 이진 마스크를 얻기 위해 실수 값 마스크의 실수 값을 0 또는 1로 변환하는 데 사용된다. 선택적으로 임계 값 함수는 다음과 같이 나타낼 수 있다:

(1)

또한, 이진화 처리 후 얻어진 이진 마스크

는 다음과 같이 표현될 수 있다:

=

개략적인 예에서, 마스크 네트워크의 실수 값 마스크는 0.01로 초기화되고,

는 0.005로 설정된다. 즉, 초기화된 실수 값 마스크에 대해 이진화 처리를 수행하여 얻은 이진 마스크의 값 임계 값 함수를 통해 1이다.

개략적으로, 도 5에 도시된 바와 같이, 컴퓨터 장치가 실수 값 마스크(52)를 획득한 후, 임계 값 함수(53)를 통해 실수 값 마스크(52)에 대해 이진화 처리가 수행되어 이진 마스크(54)를 획득한다. 이진 마스크(54)에 채워진 검은 색은 0으로 표시되고, 이진 마스크(54)에 흰색은 1로 표시된다.

단계 403B. 제1 가중치 어레이와 이진 마스크에 대해 점적 곱셈을 수행하여 제2 가중치 어레이를 획득한다.

더욱이, 컴퓨터 장치는 제2 가중치 어레이를 얻기 위해 제1 가중치 어레이 및 이진 마스크에 대해 점적 곱셈을 수행한다. 점적 곱셈은 제1 가중치 어레이의 i 번째 행과 j 번째 열의 네트워크 가중치에 이진 마스크의 i 번째 행과 j 번째 열의 마스크 값을 곱하는 것을 말한다.

이진 마스크에 대응하는 마스크 값이 1인 경우, 제1 가중치 어레이에서 해당 네트워크 가중치의 통과율은 100%이고, 즉 네트워크 가중치가 유지된다. 이진 마스크에 대응하는 마스크 값이 0인 경우, 제1 가중치 어레이에서 해당 네트워크 가중치의 통과율은 0%이고, 즉 네트워크 가중치가 필터링되어 네트워크 가중치 스크리닝 효과를 얻을 수 있다.

개략적으로, 도 5에 도시된 바와 같이, 이진 마스크(54)를 이용하여 제1 가중치 어레이(51)에 대해 마스크 프로세싱이 수행되는 경우, 이진 마스크(54)에서의 제1 행과 제1 열, 제1 행과 제3 열, 제2 행과 제2 열, 제3 행과 제2 열, 그리고 제3 행과 제3 열에 대응하는 마스크 값은 1이고, 획득된 제1 가중치 어레이(51)에서의 제1 행과 제1 열, 제1 행과 제3 열, 제2 행과 제2 열, 제3 행과 제2 열 그리고 제3 행 및 제3 열에 대응하는 네트워크 가중치는 제2 가중치 어레이(55)에 유지되고, 제1 행과 제2 열, 제2 행과 제1 열, 제2 행과 제3 열 그리고 제3 행과 제1 열에 대응하는 네트워크 가중치는 필터링되어, 최종적으로 제2 가중치 어레이(55)를 획득한다.

제1 이미지 시맨틱 세그멘테이션 네트워크의 네트워크 가중치가 고정되어 있기 때문에, 마스크 네트워크가 후속으로 업데이트된 후, 컴퓨터 장치는 업데이트된 이진 마스크를 기반으로 제1 가중치 어레이에 대해 마스크 프로세싱을 수행하여 제2 가중치 어레이를 얻을 수 있다.

단계 404. 제2 가중치 어레이에 기초하여 제2 이미지 시맨틱 세그멘테이션 네트워크를 생성한다.

제2 가중치 어레이가 획득된 후, 컴퓨터 장치는 대응하는 제2 이미지 시맨틱 세그멘테이션 네트워크를 생성하고, 여기서 제2 이미지 시맨틱 세그멘테이션 네트워크는 제2 가중치 어레이에 포함된 네트워크 가중치를 채택한다. 위의 단계의 예에 따르면, 생성된 제2 이미지 시맨틱 세그멘테이션 네트워크

는 다음과 같이 표현될 수 있다:

, 여기서

는 제1 이미지 시맨틱 세그멘테이션 네트워크이다.

도 4에 기초하여, 도 6에 도시된 바와 같이, 이 단계에는 다음 단계가 포함될 수 있다:

단계 404A. 제2 가중치 어레이에 기초하여 제1 이미지 시맨틱 세그멘테이션 네트워크의 각 컨볼루션 커널에서 네트워크 가중치 업데이트를 수행한다.

이진 마스크는 제1 가중치 어레이와 동일한 크기를 가지므로 획득된 제2 가중치 어레이는 제1 가중치 어레이와 동일한 크기를 갖는다. 컴퓨터 장치는 제2 가중치 어레이에 포함된 네트워크 가중치에 기초하여 제1 이미지 시맨틱 세그멘테이션 네트워크에서 대응하는 네트워크 가중치를 업데이트한다.

제1 가중치 어레이와 비교하여, 특징 분포에 민감한 제2 가중치 어레이의 네트워크 가중치가 필터링된다. 따라서 제2 가중치 어레이의 네트워크 가중치를 사용하여 이미지 시맨틱 세그멘테이션 네트워크에 의해 추출된 이미지 특징은 (제1 가중치 어레이를 사용하는 경우와 비교하면) 분포에 민감하지 않다.

단계 404B. 네트워크 가중치 업데이트 후 획득된 제1 이미지 시맨틱 세그멘테이션 네트워크를 제2 이미지 시맨틱 세그멘테이션 네트워크로 결정한다.

또한, 컴퓨터 장치는 네트워크 가중치 업데이트 후 획득된 이미지 시맨틱 세그멘테이션 네트워크를 제2 이미지 시맨틱 세그멘테이션 네트워크로 결정한다. 제1 이미지 시맨틱 세그멘테이션 네트워크와 비교하면, 분포에 민감한 제2 이미지 시맨틱 세그멘테이션 네트워크의 네트워크 가중치가 필터링된다.

단계 405. 트레이닝 이미지 세트 및 테스트 이미지 세트에 기초하여 판별기의 판별기 손실을 계산하며, 판별기는 이미지 특징에 기초하여 이미지가 속하는 이미지 세트를 결정하도록 구성된다. 제2 이미지 시맨틱 세그멘테이션 네트워크의 경우, 본 출원의 실시예에서, 판별기는 네트워크에 의해 추출된 이미지 특징이 트레이닝 이미지 세트 또는 테스트 이미지 세트에 속하는지를 결정하기 위해 적대적 트레이닝 모드(adversarial training mode)에서 트레이닝되고, 제2 이미지 시맨틱 세그멘테이션 네트워크는 분포에 민감하지 않은 이미지 특징을 이미지로부터 추출하도록 트레이닝되어 있으므로 판별기는 이미지 특징이 속하는 이미지 세트를 결정할 수 없다(즉, 트레이닝 이미지 세트 및 테스트 이미지 세트에 속할 확률은 0.5이다).

가능한 구현에서, 컴퓨터 장치가 판별기 손실을 계산하는 프로세스는 다음 단계를 포함할 수 있다:

I. 목표 이미지 특징, 트레이닝 이미지 세트에 속하는 목표 이미지 또는 테스트 이미지 세트를 얻기 위해 목표 이미지를 제2 이미지 시맨틱 세그멘테이션 네트워크에 입력한다.

본 출원의 실시예에서, 컴퓨터 장치에 의해 구성된 판별기는 입력된 이미지 특징에 기초하여 이미지가 속하는 이미지 세트를 결정하도록 구성된다. 따라서, 판별기의 판별기 손실을 계산하기 전에 트레이닝 이미지 세트 또는 테스트 이미지 세트의 목표 이미지를 제2 이미지 시맨틱 세그멘테이션 네트워크에 입력해야 하며, 제2 이미지 시맨틱 세그멘테이션 네트워크는 목표 이미지 상의 특성 추출을 수행하여 대응하는 목표 이미지 특징을 획득한다.

개략적으로, 도 7에 도시된 바와 같이, 컴퓨터 장치는 트레이닝 이미지(31)를 제2 이미지 시맨틱 세그멘테이션 네트워크(36)에 입력하여 제1 이미지 특징(38)을 획득하고, 테스트 이미지(37)를 제2 이미지 특징 분할 네트워크(36)에 입력하여 제2 이미지 특징(39)을 획득한다.

II. 판별기에 목표 이미지 특성을 입력하여 판별 결과를 획득한다.

또한, 컴퓨터 장치는 추출된 목표 이미지 특징을 판별기에 입력하고 판별기에 의해 출력된 판별 결과를 획득한다. 판별 결과는 목표 이미지 (특징)이 트레이닝 이미지 세트에 속할 확률과 트레이닝 이미지 세트에 속할 확률을 포함한다.

선택적으로, 판별기는 완전히 연결된 컨볼루션 신경망 구조를 채택할 수 있으며, 본 출원의 실시예는 판별기의 특정 구조를 제한하지 않는다.

개략적으로, 도 7에 도시된 바와 같이, 컴퓨터 장치가 판별기(71)에 제1 이미지 특징(38)을 입력한 후, 판별기(71)에 의해 출력된 결과는 다음과 같다: 목표 이미지는 트레이닝 이미지 세트에 속하는 X의 확률과 테스트 이미지 세트에 속하는 1-X의 확률을 갖는다.

III. 목표 이미지가 속하는 이미지 세트와 판별 결과에 기초하여 판별기 손실을 계산한다.

컴퓨터 장치는 판별 결과에서 목표 이미지가 속하는 이미지 세트와 목표 이미지가 실제로 속하는 이미지 세트를 기반으로 판별기 손실 함수를 통해 판별기 손실을 계산하므로 판별기의 파라미터는 판별기의 판별 정확도를 향상시키기 위해 판별기 손실에 기초하여 후속 업데이트된다. 판별기의 목표는 판별 결과가 목표 이미지가 실제로 속하는 이미지 세트에 대한 경향이 있다는 것이다.

선택적으로, 판별기의 판별기 손실 함수는 다음과 같이 표현될 수 있다:

(2)

여기서

는 목표 이미지의 각 픽셀의 수평 및 수직 좌표이고,

는 목표 이미지가 실제로 속하는 이미지 세트를 나타낸다(목표 이미지가 학습 이미지 세트에 속하는 경우

는 0이고 목표 이미지가 테스트 이미지 세트에 속하는 경우

는 1이다),

는 제2 이미지 시맨틱 세그멘테이션 네트워크에 의해 학습 이미지에서 추출된 이미지 특징이고,

는 제2 이미지 시맨틱 세그멘테이션 네트워크에 의해 테스트 이미지에서 추출된 이미지 특징이며,

는 판별기이다.

단계 406. 트레이닝 이미지 세트에 기초하여 제2 이미지 시맨틱 세그멘테이션 네트워크의 세그멘테이션 손실을 계산한다.

가능한 구현에서, 컴퓨터 장치는 트레이닝 이미지 세트의 트레이닝 이미지를 제2 이미지 시맨틱 세그멘테이션 네트워크에 입력하고, 제2 이미지 시맨틱 세그멘테이션 네트워크에 의해 출력된 시맨틱 세그멘테이션 결과를 획득하여, 시맨틱 세그멘테이션 결과 및 주석 정보에 따른 교차 엔트로피 분류 손실을 계산한다.

또한, 제2 이미지 시맨틱 세그멘테이션 네트워크가 분포에 민감하지 않은 영상 특징을 추출하도록 하기 위해 제2 이미지 시맨틱 세그멘테이션 네트워크의 교차 엔트로피 분류 손실을 계산할 때, (제2 이미지 시맨틱 세그멘테이션 네트워크를 통해 테스트 이미지를 추출하여 획득되는) 테스트 이미지 특징에 대한 판별기의 판별 결과(적대 손실)도 도입되므로 교차 엔트로피 분류 손실과 적대 손실이 제2 이미지 시맨틱 세그멘테이션 네트워크의 세그멘테이션 손실로 결정된다.

선택적으로, 제2 이미지 시맨틱 세그멘테이션 네트워크의 세그멘테이션 손실은 다음과 같이 표현될 수 있다:

(3)

여기서

는 목표 이미지의 각 픽셀의 수평 및 수직 좌표이고,

는 목표 이미지가 실제로 속하는 이미지 세트를 나타내고(목표 이미지가 학습 이미지 세트에 속하는 경우

는 0이고 목표 이미지가 테스트 이미지 세트에 속하는 경우

는 1이다),

는 이미지의 h 번째 행과 w 번째 열에 있는 픽셀의 실측 값(ground-truth)이고,

는 이미지의 h 번째 행과 w 번째 열의 픽셀에 대한 예측 값이고,

는 픽셀 레벨 교차 엔트로피 분류 손실이고,

는 판별기 D의 적대적 손실이다.

단계 407. 세그멘테이션 손실 및 판별기 손실에 기초하여 제2 이미지 시맨틱 세그멘테이션 네트워크 및 판별기에 대해 적대적 트레이닝을 수행한다.

판별기의 판별기 손실 및 제2 이미지 시맨틱 세그멘테이션 네트워크의 세그멘테이션 손실이 결정된 후, 단말은 세그멘테이션 손실 및 판별기 손실에 기초하여 제2 이미지 시맨틱 세그멘테이션 네트워크 및 판별기의 파라미터에 대해 역 전파 트레이닝을 수행하고, 수렴 조건을 만족하는 경우 제2 이미지 시맨틱 세그멘테이션 네트워크와 판별기의 트레이닝이 완료된다.

요약하면, 본 출원의 실시예에서는 트레이닝 이미지 세트를 기반으로 제1 이미지 시맨틱 세그멘테이션 네트워크를 트레이닝한 후 마스크 네트워크를 통해 제1 이미지 시맨틱 세그멘테이션 네트워크에 대해 네트워크 가중치 스크리닝을 수행하여 특성 분포에 민감하지 않은 네트워크 가중치를 선택하여, 대응하는 제2 이미지 시맨틱 세그멘테이션 네트워크를 획득하고, 그런 다음 제2 이미지 시맨틱 세그멘테이션 네트워크가 테스트 이미지 세트와 학습 이미지 세트를 사용하여 트레이닝된다. 마스크 네트워크는 특징 분포에 민감한 네트워크 가중치를 필터링할 수 있기 때문에 트레이닝 이미지 세트의 분포가 테스트 이미지 세트의 분포와 다르더라도 네트워크 가중치 스크리닝 후 얻은 제2 이미지 시맨틱 세그멘테이션 네트워크가 테스트 이미지 세트에 대해 더 우수한 일반화를 가지며, 이에 의해 테스트 이미지 세트의 테스트 정확도를 향상시킨다.

또한, 임계 값 함수를 통해 마스크 네트워크의 실수 값 마스크에 대해 이진화 처리를 수행하므로 획득한 이진 마스크를 사용하여 이미지 시맨틱 세그멘테이션 네트워크에 대해 네트워크 가중치 스크리닝을 수행하며, 이는 가중치 스크리닝 효과를 개선하고 가중치 스크리닝 계산량을 감소시키므로 이미지 시맨틱 세그멘테이션 네트워크의 트레이닝 속도를 향상시킨다.

더욱이, 판별기를 구성함으로써 그리고 마스크 프로세싱 후 획득한 이미지 시맨틱 세그멘테이션 네트워크와 적대 트레이닝 모드에서 판별기를 학습함으로써, 이미지 시맨틱 세그멘테이션 네트워크가 분포에 민감하지 않은 이미지 특징을 추출하는 능력이 더욱 향상되며, 이에 의해 테스트 이미지 세트에 대한 이미지 시맨틱 세그멘테이션 네트워크의 일반화를 개선한다.

테스트 이미지 세트에서 이미지의 일반화 및 테스트 정확도를 더욱 향상시키기 위해, 가능한 구현에서, 임계 값 함수를 통해 실수 값 마스크에 대해 이진화 처리가 수행된다. 이진 마스크가 생성된 후 컴퓨터 장치는 제1 가중치 어레이와 이진 마스크에 대해 점적 곱셈을 수행하여 중간 가중치 어레이를 얻은 다음, 중간 가중치 어레이와 섭동 어레이에 기초하여 제2 가중치 어레이를 생성하며, 여기서 섭동 어레이는 중간 가중치 어레이에서 네트워크 가중치에 대한 섭동을 증가시키는 데 사용되며 섭동 어레이는 제1 가중치 어레이와 동일한 크기를 갖는다.

마스크와 섭동 함수를 갖는 마스크 네트워크는

로 표현될 수 있으며, 여기서

는 마스크 네트워크의 네트워크 가중치이고

는 섭동 어레이이다.

개략적으로, 도 8에 도시된 바와 같이, 컴퓨터 장치는 임계 값 함수(53)를 통해 실수 값 마스크(52)에 대해 이진화 처리를 수행하고, 이진 마스크(54)가 획득된 후, 중간 가중치 어레이(56)를 획득하기 위해 이진 마스크(54) 및 제1 가중치 어레이(51)에 대해 점적 곱셈이 수행된다. 더욱이, 컴퓨터 장치는 중간 가중치 어레이(56) 및 섭동 어레이(57)에 점적 추가(pointwise addition)를 수행하여 최종적으로 제2 가중치 어레이(55)를 획득한다.

제2 이미지 시맨틱 세그멘테이션 네트워크가 후속으로 트레이닝되는 경우, 실수 값 마스크와 마스크 네트워크의 섭동 어레이가 동시에 업데이트된다.

상기 실시예에서 제공한 트레이닝 방법에 의해 이미지 시맨틱 세그멘테이션 네트워크를 트레이닝한 후, 컴퓨터 장치는 트레이닝된 목표 이미지 시맨틱 세그멘테이션 네트워크를 이용하여 테스트 이미지 세트를 테스트하여 시맨틱 세그멘테이션 결과에 따라 네트워크의 이미지 시맨틱 세그멘테이션 품질을 결정할 수 있다.

가능한 구현에서, 테스트 이미지 세트에서 테스트 이미지를 획득한 후, 컴퓨터 장치는 테스트 이미지를 목표 이미지 시맨틱 세그멘테이션 네트워크에 입력하고, 목표 이미지 시맨틱 세그멘테이션 네트워크에 의해 출력된 목표 이미지 시맨틱 세그멘테이션 결과를 획득하며, 목표 이미지 시맨틱 세그멘테이션 결과는 테스트 이미지의 픽셀이 속하는 객체에 대응하는 카테고리를 포함한다.

또한, 컴퓨터 장치는 목표 이미지 시맨틱 세그멘테이션 결과에 따라 테스트 이미지에 대응하는 분할 이미지를 표시하여 분할된 이미지를 기반으로 네트워크의 이미지 시맨틱 세그멘테이션 품질을 결정하며, 이 분할된 이미지에 객체의 상이한 카테고리의 주석이 달린다. 선택적으로, 컴퓨터 장치는 각 카테고리에 주석 색상을 미리 할당하므로 각 픽셀은 픽셀이 속하는 객체에 대응하는 카테고리에 따라 대응하는 주석 색상으로 채워지므로 테스트 이미지에 대응하는 분할된 이미지가 생성된다. 도 9를 참조하면, 도 9는 테스트 이미지의 시맨틱 세그멘테이션 후 얻은 시맨틱 세그멘테이션 효과의 비교도이다. 도 9로부터 알 수 있는 바와 같이, 본 출원의 실시예에서 제공되는 트레이닝 방법을 사용하지 않는 경우와 비교하여, 본 출원의 실시예에서 제공되는 트레이닝 방법을 적용한 후, 테스트 이미지 세트의 분포가 트레이닝 이미지 세트의 분포와 다른 경우, 테스트 이미지에 대한 이미지 시맨틱 세그멘테이션 네트워크의 시맨틱 세그멘테이션 결과가 더 정확하다.

도 10은 본 출원의 일 실시예에 따른 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 장치의 구조적 블록도이다. 장치는 상기 실시예에 따른 컴퓨터 장치에 배치될 수 있다. 도 10에 도시된 바와 같이, 장치는 제1 트레이닝 모듈(1010), 마스킹 모듈(1020) 및 제2 트레이닝 모듈(1030)을 포함한다. 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 장치에 포함된 모듈은 소프트웨어, 하드웨어 또는 그 조합에 의해 전체 또는 부분적으로 구현될 수 있다.

제1 트레이닝 모듈(1010)은 트레이닝 이미지 세트에 기초하여 제1 이미지 시맨틱 세그멘테이션 네트워크를 트레이닝하도록 구성되며, 트레이닝 이미지 세트 내의 트레이닝 이미지는 주석 정보를 포함한다.

마스킹 모듈(1020)은 마스크 네트워크를 통해 제1 이미지 시맨틱 세그멘테이션 네트워크의 네트워크 가중치에 대해 마스크 프로세싱을 수행하고, 제2 이미지 시맨틱 세그멘테이션 네트워크를 획득하도록 구성되며, 마스크 네트워크는 이미지 특징 분포에 민감하지 않은 제1 이미지 시맨틱 세그멘테이션 네트워크의 네트워크 가중치를 선택하도록 구성된다.

제2 트레이닝 모듈(1030)은 트레이닝 이미지 세트 및 테스트 이미지 세트에 기초하여 제2 이미지 시맨틱 세그멘테이션 네트워크를 트레이닝하도록 구성되며, 테스트 이미지 세트의 테스트 이미지는 주석 정보를 포함하지 않으며, 트레이닝 이미지 세트의 분포는 테스트 이미지 세트의 분포와는 다르다.

일 실시예에서, 마스크 네트워크의 네트워크 구조는 제1 이미지 시맨틱 세그멘테이션 네트워크의 구조와 동일하고, 마스크 네트워크의 네트워크 가중치의 수는 제1 이미지 시맨틱 세그멘테이션 네트워크에서와 동일하다. 마스킹 모듈(1020)은 획득 유닛, 마스킹 유닛 및 생성 유닛을 포함한다.

획득 유닛은 제1 이미지 시맨틱 세그멘테이션 네트워크에 대응하는 제1 가중치 어레이를 획득하도록 구성되며, 제1 가중치 어레이는 제1 이미지 시맨틱 세그멘테이션 네트워크의 컨볼루션 커널에 대응하는 네트워크 가중치를 포함한다.

마스킹 유닛은 마스크 네트워크에 대응하는 실수 값 마스크를 통해 제1 가중치 어레이에 대해 마스크 프로세싱을 수행하고, 제2 가중치 어레이를 획득하도록 구성되며, 실수 값 마스크는 마스크 네트워크 내의 컨볼루션 커널에 대응하는 네트워크 가중치를 포함한다.

생성 유닛은 제2 가중치 어레이에 기초하여 제2 이미지 시맨틱 세그멘테이션 네트워크를 생성하도록 구성된다.

일 실시예에서, 마스킹 유닛은: 임계 값 함수를 통해 실수 값 마스크에 대해 이진화 처리를 수행하고, 이진 마스크를 생성하고, 여기서 이진 마스크는 0과 1의 어레이이고, 이진 마스크의 크기는 제1 가중치 어레이와 동일하며; 그리고 제1 가중치 어레이 및 이진 마스크에 대해 점적 곱셈을 수행하여 제2 가중치 어레이를 획득하도록 구성된다.

일 실시예에서, 마스킹 유닛은 추가로: 중간 가중치 어레이를 획득하기 위해 제1 가중치 어레이 및 이진 마스크에 대해 점적 곱셈을 수행하고; 중간 가중치 어레이 및 섭동 어레이에 기초하여 제2 가중치 어레이를 생성하도록 구성되고, 여기서 섭동 어레이는 중간 가중치 어레이의 네트워크 가중치에 대해 섭동을 증가 시키도록 구성된다. 일 실시예에서, 생성 유닛은 제2 가중치 어레이에 기초하여 제1 이미지 시맨틱 세그멘테이션 네트워크의 각 컨볼루션 커널에 대해 네트워크 가중치 업데이트를 수행하고; 그리고 네트워크 가중치 업데이트 후 획득된 제1 이미지 시맨틱 세그멘테이션 네트워크를 제2 이미지 시맨틱 세그멘테이션 네트워크로 결정하도록 구성된다.

일 실시예에서, 제2 트레이닝 모듈(1030)은 제1 계산 유닛, 제2 계산 유닛 및 적대적 트레이닝 유닛을 포함한다.

제1 계산 유닛은 트레이닝 이미지 세트에 기초하여 제2 이미지 시맨틱 세그멘테이션 네트워크의 세그멘테이션 손실을 계산하도록 구성된다.

제2 계산 유닛은 트레이닝 이미지 세트 및 테스트 이미지 세트에 기초하여 판별기의 판별기 손실을 계산하도록 구성되며, 판별기는 이미지 특징에 기초하여 이미지가 속하는 이미지 세트를 결정하도록 구성된다.

적대적 트레이닝 유닛은 세그멘테이션 손실 및 판별기 손실에 기초하여 제2 이미지 시맨틱 세그멘테이션 네트워크 및 판별기에 대해 적대적 트레이닝을 수행하도록 구성된다.

일 실시예에서, 제2 계산 유닛은: 트레이닝 이미지 세트 또는 테스트 이미지 세트에 속하는 목표 이미지를 제2 이미지 시맨틱 세그멘테이션 네트워크에 입력하여 목표 이미지 특징을 획득하고; 식별 결과를 얻기 위해 판별기에 목표 이미지 특징을 입력하며; 그리고 목표 이미지가 속하는 이미지 세트 및 식별 결과에 기초하여 판별기 손실을 계산하도록 구성된다.

일 실시예에서, 장치가 보조 운전 분야에 적용되는 경우, 트레이닝 이미지 세트의 분포가 테스트 이미지 세트의 분포와 다르다는 것은 도시의 차이, 계절의 차이 및 기간의 차이 중 적어도 하나를 포함하거나; 또는 장치가 얼굴 인식 분야에 적용되는 경우, 트레이닝 이미지 세트의 분포가 테스트 이미지 세트의 분포와 다르다는 것은 인종 차이, 피부색 차이 및 스타일 차이 중 적어도 하나를 포함하거나; 또는 장치가 신체 감지 분야에 적용되는 경우, 트레이닝 이미지 세트의 분포가 테스트 이미지 세트의 분포와 다르다는 것은 획득 환경 차이, 인종 차이 및 모양 차이 중 적어도 하나를 포함한다.

상기 실시예에 따른 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 장치의 경우, 전술한 기능 모듈의 분할만 설명을 위한 예로 취한다. 실제 적용에서 위의 기능은 요구 사항에 따라 서로 다른 기능 모듈에 할당되며, 즉, 장치의 내부 구조가 서로 다른 기능 모듈로 분할되어 위의 모든 기능 또는 일부 기능을 완료할 수 있다. 또한, 전술한 실시예에 따른 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 장치 및 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 방법은 동일한 개념에 속하며, 구체적인 구현 과정은 방법 실시예에서 상세히 설명한다. 도 11은 본 출원의 예시적인 실시예에 따른 컴퓨터 장치의 개략적인 구조도이다. 구체적으로, 컴퓨터 장치(1100)는 중앙 처리 장치(CPU)(1101), 랜덤 액세스 메모리(RAM)(1102) 및 읽기 전용 메모리(ROM)(1103)를 포함하는 시스템 메모리(1104) 및 시스템 메모리(1104)를 연결하는 시스템 버스(1105) 및 CPU(1101)를 포함한다. 컴퓨터 장치(1100)는 컴퓨터의 구성 요소들 간의 정보 전송을 지원하는 기본 입력/출력(I/O) 시스템(1106) 및 운영 체제(1113)를 저장하도록 구성된 대용량 저장 장치(1107) 및 애플리케이션 프로그램(1114) 및 다른 프로그램 모듈(1115)을 더 포함한다.

기본 I/O 시스템(1106)은 정보를 표시하도록 구성된 디스플레이(1108)와 사용자가 정보를 입력하는 데 사용되는 마우스 또는 키보드와 같은 입력 장치(1109)를 포함한다. 디스플레이(1208) 및 입력 장치(1109)는 모두 시스템 버스(1105)에 연결된 입력/출력 컨트롤러(1110)를 사용하여 CPU(1101)에 연결된다. 기본 I/O 시스템(1106)은 키보드, 마우스 및 전자 스타일러스와 같은 여러 다른 장치의 입력을 수신 및 처리하도록 구성된 입력/출력 컨트롤러(1110)를 더 포함할 수 있다. 유사하게, 입력/출력 제어기(1110)는 디스플레이 스크린, 프린터 또는 다른 유형의 출력 장치에 출력을 더 제공한다.

대용량 저장 장치(1107)는 시스템 버스(1105)에 연결된 대용량 저장 컨트롤러(도시되지 않음)를 사용하여 CPU(1101)에 연결된다. 대용량 저장 장치(1107) 및 이와 관련된 컴퓨터 판독 가능형 매체는 컴퓨터 장치에 비휘발성 저장 장치를 제공한다. 즉, 대용량 저장 장치(1107)는 하드 디스크 또는 CD-ROI 드라이브와 같은 컴퓨터 판독 가능형 매체(도시되지 않음)를 포함할 수 있다.

일반적으로, 컴퓨터 판독 가능형 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독 가능형 명령, 데이터 구조, 프로그램 모듈 또는 임의의 방법 또는 기술을 사용하여 구현되는 기타 데이터와 같은 정보를 저장하는 휘발성 및 비휘발성의 제거 가능 및 제거 불가능한 매체를 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EPROM, EEPROM, 플래시 메모리 또는 다른 고체 저장 기술, CD-ROM, DVD 또는 다른 광학 저장소, 자기 카세트, 자기 테이프, 자기 디스크 저장 또는 다른 자기 저장 장치를 포함한다. 확실히, 당업자는 컴퓨터 저장 매체가 전술한 여러 유형에 제한되지 않는다는 것을 알 수 있다. 시스템 메모리(1104) 및 대용량 저장 장치(1107)는 총칭하여 메모리로 지칭될 수 있다.

메모리는 하나 이상의 프로그램을 저장한다. 하나 이상의 프로그램은 하나 이상의 CPU(1101)에 의해 실행되도록 구성되고 이미지 시맨틱 세그멘테이션 네트워크를 트레이닝하기 위한 방법을 구현하기 위한 명령을 포함하고, CPU(1101)는 전술한 방법 실시예에서 제공되는 방법을 구현하기 위해 하나 이상의 프로그램을 실행한다.

본 출원의 실시예에 따르면, 컴퓨터 장치(1100)는 인터넷과 같은 네트워크를 통해 네트워크상의 원격 컴퓨터에 더 연결되어 실행될 수 있다. 즉, 컴퓨터 장치(1100)는 시스템 버스(1105)에 연결된 네트워크 인터페이스 유닛(1111)을 이용하여 네트워크(1112)에 연결되거나, 네트워크 인터페이스 유닛(1111)을 이용하여 다른 유형의 네트워크 또는 원격 컴퓨터 시스템(도시되지 않음)에 연결될 수 있다.

메모리는 하나 이상의 프로그램을 더 포함한다. 하나 이상의 프로그램은 메모리에 저장되고 본 출원의 실시예에서 제공된 방법으로 컴퓨터 장치에 의해 실행될 단계를 포함한다.

본 출원의 실시예는 컴퓨터 판독 가능한 저장 매체를 더 제공한다. 컴퓨터 판독 가능형 저장 매체는 적어도 하나의 명령, 적어도 하나의 프로그램, 코드 세트 또는 명령 세트를 저장한다. 적어도 하나의 명령, 적어도 하나의 프로그램, 코드 세트, 또는 명령 세트는 전술한 실시예 중 임의의 것에 따라 이미지 시맨틱 세그멘테이션 모델을 트레이닝하기 위한 방법을 구현하기 위해 프로세서에 의해 로드되거나 실행된다.

본 출원은 또한 컴퓨터 프로그램 제품을 제공한다. 컴퓨터 프로그램 제품은 컴퓨터 상에서 실행될 때, 컴퓨터로 하여금 전술한 방법 실시예에 의해 제공된 이미지 시맨틱 세그멘테이션 모델을 트레이닝하기 위한 방법을 수행하게 한다.

일 실시예에서, 메모리 및 프로세서를 포함하는 컴퓨터 장치가 제공된다. 메모리는 컴퓨터 판독 가능형 명령을 저장한다. 컴퓨터 판독 가능형 명령은 프로세서에 의해 실행될 때, 프로세서로 하여금 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 방법 또는 이미지 시맨틱 세그멘테이션 방법의 단계를 수행하게 한다. 여기에서 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 방법 또는 이미지 시맨틱 세그멘테이션 방법의 단계는 전술한 실시예에 따른 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 방법 또는 이미지 시맨틱 세그멘테이션 방법의 단계일 수 있다.

일 실시예에서, 컴퓨터 판독 가능형 명령을 저장하는 컴퓨터 판독 가능형 저장 매체가 제공된다. 컴퓨터 판독 가능형 명령은 프로세서에 의해 실행될 때, 프로세서로 하여금 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 방법 또는 이미지 시맨틱 세그멘테이션 방법의 단계를 수행하게 한다. 여기에서 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 방법 또는 이미지 시맨틱 세그멘테이션 방법의 단계는 전술한 실시예에 따른 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 방법 또는 이미지 시맨틱 세그멘테이션 방법의 단계일 수 있다.

일 실시예에서, 컴퓨터 프로그램 제품이 제공된다. 컴퓨터 프로그램 제품은 컴퓨터 장치에 의해 실행될 때, 컴퓨터 장치로 하여금 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 방법 또는 이미지 시맨틱 세그멘테이션 방법의 단계를 수행하게 하고, 프로세서로 하여금 이미지 처리 방법의 단계를 수행하게 한다. 여기에서 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 방법 또는 이미지 시맨틱 세그멘테이션 방법의 단계는 전술한 실시예에 따른 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 방법 또는 이미지 시맨틱 세그멘테이션 방법의 단계일 수 있다.

당업자는 실시예의 방법의 단계의 전부 또는 일부가 관련 하드웨어를 지시하는 프로그램에 의해 구현될 수 있음을 이해할 수 있다. 프로그램은 컴퓨터 판독 가능형 저장 매체에 저장될 수 있다. 컴퓨터 판독 가능형 저장 매체는 전술한 실시예에서 메모리에 포함된 컴퓨터 판독 가능형 저장 매체이거나, 독립적으로 존재하며 단말에 조립되지 않은 컴퓨터 판독 가능형 저장 매체일 수 있다. 컴퓨터 판독 가능형 저장 매체는 적어도 하나의 명령, 적어도 하나의 프로그램, 코드 세트 또는 명령 세트를 저장한다. 적어도 하나의 명령, 적어도 하나의 프로그램, 코드 세트, 또는 명령 세트는 전술한 방법 실시예 중 임의의 것에 따라 이미지 시맨틱 세그멘테이션 모델을 트레이닝하기 위한 방법을 구현하기 위해 프로세서에 의해 로드되거나 실행된다.

선택적으로, 컴퓨터 판독 가능형 저장 매체는 읽기 전용 메모리(ROM), 랜덤 액세스 메모리(RAM), 솔리드 스테이트 드라이브(SSD), 광 디스크 등을 포함할 수 있다. RAM은 저항 랜덤 액세스 메모리(ReRAM) 및 동적 랜덤 액세스 메모리(DRAM)를 포함할 수 있다. 본 출원의 전술한 실시예의 시퀀스 번호는 단지 설명을 위한 것일 뿐, 실시예 간의 선호도를 의미하지는 않는다.

당업자는 전술한 실시예의 단계의 전부 또는 일부가 하드웨어로 구현될 수 있거나 관련 하드웨어를 지시하는 프로그램에 의해 구현될 수 있음을 이해할 수 있다. 프로그램은 컴퓨터 판독 가능형 저장 매체에 저장될 수 있다. 저장 매체는 읽기 전용 메모리, 자기 디스크, 광 디스크 등일 수 있다.

전술한 실시예의 기술적 특징은 무작위로 결합될 수 있다. 설명을 간결하게 하기 위해, 전술한 실시예의 기술적 특징의 가능한 모든 조합이 설명된 것은 아니다. 그러나 이러한 기술적 특징의 조합은 충돌이 존재하지 않는 한 본 명세서에 기록된 범위 내에 있는 것으로 간주된다.

전술한 실시예는 본 출원의 여러 구현을 구체적이고 상세하게 설명할 뿐이며, 본 출원의 특허 범위에 대한 제한으로 해석될 수 없다. 당업자에 있어서, 본 출원의 아이디어에서 벗어나지 않고 몇 가지 변형 및 개선이 이루어질 수 있다. 이러한 변환 및 개선 사항은 본 출원의 보호 범위에 속한다. 따라서 본 출원 특허의 보호 범위는 첨부된 청구 범위에 따른다.

Claims

컴퓨터 장치에 의해 실행되는 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 방법으로서,
트레이닝 이미지 세트(training image set)에 기초하여 제1 이미지 시맨틱 세그멘테이션 네트워크를 트레이닝하는 단계 - 상기 트레이닝 이미지 세트의 트레이닝 이미지는 주석 정보(annotation information)를 포함함 - ;
마스크 네트워크를 사용하여 상기 제1 이미지 시맨틱 세그멘테이션 네트워크의 네트워크 가중치에 대해 마스크 프로세싱을 수행하여, 제2 이미지 시맨틱 세그멘테이션 네트워크를 획득하는 단계 - 상기 마스크 네트워크는 이미지 특징 분포(image feature distribution)에 민감하지 않은 상기 제1 이미지 시맨틱 세그멘테이션 네트워크의 네트워크 가중치를 선택하도록 구성됨 - ; 및
상기 트레이닝 이미지 세트 및 테스트 이미지 세트에 기초하여 상기 제2 이미지 시맨틱 세그멘테이션 네트워크를 트레이닝하는 단계 - 상기 테스트 이미지 세트의 테스트 이미지는 주석 정보를 포함하지 않으며, 상기 트레이닝 이미지 세트의 분포는 상기 테스트 이미지 세트의 분포와 다름 - ;
를 포함하는 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 방법.
제1항에 있어서,
상기 마스크 네트워크의 네트워크 구조는 상기 제1 이미지 시맨틱 세그멘테이션 네트워크의 네트워크 구조와 동일하고, 상기 마스크 네트워크의 네트워크 가중치의 수는 상기 제1 이미지 시맨틱 세그멘테이션 네트워크의 네트워크 가중치의 수와 동일하며; 그리고
상기 마스크 네트워크를 사용하여 상기 제1 이미지 시맨틱 세그멘테이션 네트워크의 네트워크 가중치에 대해 마스크 프로세싱을 수행하여, 제2 이미지 시맨틱 세그멘테이션 네트워크를 획득하는 단계는:
상기 제1 이미지 시맨틱 세그멘테이션 네트워크에 대응하는 제1 가중치 어레이를 획득하는 단계 - 상기 제1 가중치 어레이는 상기 제1 이미지 시맨틱 세그멘테이션 네트워크의 컨볼루션 커널(convolution kernels)에 대응하는 네트워크 가중치를 포함함 - ;
상기 마스크 네트워크에 대응하는 실수 값 마스크(real-valued mask)를 사용하여, 상기 제1 가중치 어레이에 대해 마스크 프로세싱을 수행하여 제2 가중치 어레이를 획득하는 단계 - 상기 실수 값 마스크는 상기 마스크 네트워크의 컨볼루션 커널에 대응하는 네트워크 가중치를 포함함 - ; 및
상기 제2 가중치 어레이에 기초하여 상기 제2 이미지 시맨틱 세그멘테이션 네트워크를 생성하는 단계
를 포함하는, 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 방법.
제2항에 있어서,
상기 마스크 네트워크에 대응하는 실수 값 마스크를 사용하여, 상기 제1 가중치 어레이에 대해 마스크 프로세싱을 수행하여 제2 가중치 어레이를 획득하는 단계는:
임계 값 함수(threshold function)를 사용하여 상기 실수 값 마스크에 대해 이진화 처리를 수행하여 이진 마스크를 생성하는 단계 - 상기 이진 마스크는 0과 1의 어레이이고, 상기 이진 마스크의 크기는 상기 제1 가중치 어레이의 크기와 동일함 - ; 및
상기 제1 가중치 어레이 및 상기 이진 마스크에 대해 점적 곱셈(pointwise multiplication)을 수행하여 제2 가중치 어레이를 획득하는 단계
를 포함하는, 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 방법.
제3항에 있어서,
상기 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 방법은:
상기 제1 가중치 어레이 및 상기 이진 마스크에 대해 점적 곱셈을 수행하여 중간 가중치 어레이를 획득하는 단계; 및
상기 중간 가중치 어레이 및 섭동 어레이(perturbation array)에 기초하여 상기 제2 가중치 어레이를 생성하는 단계 - 상기 섭동 어레이는 상기 중간 가중치 어레이의 네트워크 가중치에 대한 섭동을 증가시키도록 구성됨 - ;
를 더 포함하는 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 방법.
제2항 내지 제4항 중 어느 한 항에 있어서,
상기 제2 가중치 어레이에 기초하여 상기 제2 이미지 시맨틱 세그멘테이션 네트워크를 생성하는 단계는:
상기 제2 가중치 어레이에 기초하여 상기 제1 이미지 시맨틱 세그멘테이션 네트워크의 각 컨볼루션 커널에 대해 네트워크 가중치 업데이트를 수행하는 단계; 및
상기 네트워크 가중치 업데이트 후에 획득된 상기 제1 이미지 시맨틱 세그멘테이션 네트워크를 상기 제2 이미지 시맨틱 세그멘테이션 네트워크로 결정하는 단계
를 포함하는, 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 방법.
제1항 내지 제4항 중 어느 한 항에 있어서,
상기 트레이닝 이미지 세트 및 테스트 이미지 세트에 기초하여 상기 제2 이미지 시맨틱 세그멘테이션 네트워크를 트레이닝하는 단계는:
상기 트레이닝 이미지 세트에 기초하여 상기 제2 이미지 시맨틱 세그멘테이션 네트워크의 세그멘테이션 손실(segmentation loss)을 계산하는 단계;
상기 트레이닝 이미지 세트 및 상기 테스트 이미지 세트에 기초하여 판별기의 판별기 손실을 계산하는 단계 - 상기 판별기는 이미지 특징에 기초하여 이미지가 속하는 이미지 세트를 결정하도록 구성됨 - ; 및
상기 세그멘테이션 손실 및 상기 판별기 손실에 기초하여 상기 제2 이미지 시맨틱 세그멘테이션 네트워크 및 상기 판별기에 대해 적대적 트레이닝(adversarial training)을 수행하는 단계
를 포함하는, 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 방법.
제6항에 있어서,
상기 트레이닝 이미지 세트 및 상기 테스트 이미지 세트에 기초하여 판별기의 판별기 손실을 계산하는 단계는:
제2 이미지 시맨틱 세그멘테이션 네트워크에 목표 이미지를 입력하여 목표 이미지 특징을 획득하는 단계 - 상기 목표 이미지는 상기 트레이닝 이미지 세트 또는 테스트 이미지 세트에 속함 - ;
상기 판별기에 상기 목표 이미지 특징을 입력하여 판별 결과를 획득하는 단계; 및
상기 목표 이미지가 속하는 이미지 세트 및 상기 판별 결과에 기초하여 상기 판별기 손실을 계산하는 단계
를 포함하는, 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 방법.
제1항 내지 제4항 중 어느 한 항에 있어서,
상기 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 방법이 보조 운전(assisted driving) 분야에 적용되는 경우, 상기 트레이닝 이미지 세트와 상기 테스트 이미지 세트의 상이한 분포는 도시 차이, 계절 차이, 시간 차이 중 적어도 하나를 포함하거나;
또는,
상기 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 방법이 안면 인식(face recognition) 분야에 적용되는 경우, 상기 트레이닝 이미지 세트의 분포가 상기 테스트 이미지 세트의 분포와 다른 것은 인종 차이, 피부색 차이, 및 스타일 차이 중 적어도 하나를 포함하거나;
또는,
상기 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 방법이 신체 검출(body detection) 분야에 적용되는 경우, 상기 트레이닝 이미지 세트의 분포가 상기 테스트 이미지 세트의 분포와 다른 것은 획득 환경의 차이, 인종의 차이, 및 모양의 차이 중 적어도 하나를 포함하는, 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 방법.
목표 이미지 시맨틱 세그멘테이션 네트워크를 구비한 컴퓨터 장치에 적용 가능한 이미지 시맨틱 세그멘테이션 방법으로서,
상기 목표 이미지 시맨틱 세그멘테이션 네트워크는 제1항 내지 제8항 중 어느 한 항에 따른 방법을 사용하여 트레이닝되며, 상기 이미지 시맨틱 세그멘테이션 방법은:
테스트 이미지 세트에서 테스트 이미지를 획득하는 단계;
상기 테스트 이미지를 상기 목표 이미지 시맨틱 세그멘테이션 네트워크에 입력하고, 상기 목표 이미지 시맨틱 세그멘테이션 네트워크에 의해 출력된 목표 이미지 시맨틱 세그멘테이션 결과를 획득하는 단계 - 상기 목표 이미지 시맨틱 세그멘테이션 결과는 상기 테스트 이미지의 픽셀이 속하는 객체에 대응하는 카테고리를 포함함 - ; 및
상기 목표 이미지 시맨틱 세그멘테이션 결과에 기초하여, 상기 테스트 이미지에 대응하는 분할된 이미지를 표시하는 단계 - 상기 분할된 이미지에는 객체의 상이한 카테고리의 주석이 달림 -
를 포함하는 이미지 시맨틱 세그멘테이션 방법.
이미지 시맨틱 세그멘테이션 네트워크 트레이닝 장치로서,
트레이닝 이미지 세트(training image set)에 기초하여 제1 이미지 시맨틱 세그멘테이션 네트워크를 트레이닝하도록 구성되어 있는 제1 트레이닝 모듈 - 상기 트레이닝 이미지 세트의 트레이닝 이미지는 주석 정보(annotation information)를 포함함 - ;
마스크 네트워크를 사용하여 상기 제1 이미지 시맨틱 세그멘테이션 네트워크의 네트워크 가중치에 대해 마스크 프로세싱을 수행하여, 제2 이미지 시맨틱 세그멘테이션 네트워크를 획득하도록 구성되어 있는 마스킹 모듈 - 상기 마스크 네트워크는 이미지 특징 분포(image feature distribution)에 민감하지 않은 상기 제1 이미지 시맨틱 세그멘테이션 네트워크의 네트워크 가중치를 선택하도록 구성됨 - ; 및
상기 트레이닝 이미지 세트 및 테스트 이미지 세트에 기초하여 상기 제2 이미지 시맨틱 세그멘테이션 네트워크를 트레이닝하도록 구성되어 있는 제2 트레이닝 모듈 - 상기 테스트 이미지 세트의 테스트 이미지는 주석 정보를 포함하지 않으며, 상기 트레이닝 이미지 세트의 분포는 상기 테스트 이미지 세트의 분포와 다름 - ;
를 포함하는 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 장치.
제10항에 있어서,
상기 마스크 네트워크의 네트워크 구조는 상기 제1 이미지 시맨틱 세그멘테이션 네트워크의 네트워크 구조와 동일하고, 상기 마스크 네트워크의 네트워크 가중치의 수는 상기 제1 이미지 시맨틱 세그멘테이션 네트워크의 네트워크 가중치의 수와 동일하며; 그리고
상기 마스킹 모듈은:
상기 제1 이미지 시맨틱 세그멘테이션 네트워크에 대응하는 제1 가중치 어레이를 획득하도록 구성되어 있는 획득 유닛 - 상기 제1 가중치 어레이는 상기 제1 이미지 시맨틱 세그멘테이션 네트워크의 컨볼루션 커널(convolution kernels)에 대응하는 네트워크 가중치를 포함함 - ;
상기 마스크 네트워크에 대응하는 실수 값 마스크(real-valued mask)를 사용하여, 상기 제1 가중치 어레이에 대해 마스크 프로세싱을 수행하여 제2 가중치 어레이를 획득하도록 구성되어 있는 마스킹 유닛 - 상기 실수 값 마스크는 상기 마스크 네트워크의 컨볼루션 커널에 대응하는 네트워크 가중치를 포함함 - ; 및
상기 제2 가중치 어레이에 기초하여 상기 제2 이미지 시맨틱 세그멘테이션 네트워크를 생성하도록 구성되어 있는 생성 유닛
을 포함하는, 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 장치.
제11항에 있어서,
상기 마스킹 유닛은:
임계 값 함수를 사용하여 상기 실수 값 마스크에 대해 이진화 처리를 수행하여 이진 마스크를 생성하며 - 상기 이진 마스크는 0과 1의 어레이이고, 상기 이진 마스크의 크기는 상기 제1 가중치 어레이의 크기와 동일함 - ; 그리고
상기 제1 가중치 어레이 및 상기 이진 마스크에 대해 점적 곱셈(pointwise multiplication)을 수행하여 제2 가중치 어레이를 획득하도록 구성되어 있는, 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 장치.
제12항에 있어서,
상기 마스킹 유닛은:
상기 제1 가중치 어레이 및 상기 이진 마스크에 대해 점적 곱셈을 수행하여 중간 가중치 어레이를 획득하며; 그리고
상기 중간 가중치 어레이 및 섭동 어레이(perturbation array)에 기초하여 상기 제2 가중치 어레이를 생성하도록 추가로 구성되어 있으며,
상기 섭동 어레이는 상기 중간 가중치 어레이의 네트워크 가중치에 대한 섭동을 증가시키도록 구성되어 있는, 이미지 시맨틱 세그멘테이션 네트워크 트레이닝 장치.
컴퓨터 장치로서,
메모리 및 프로세서를 포함하고, 상기 메모리는 컴퓨터 판독 가능형 명령을 저장하고, 상기 컴퓨터 판독 가능형 명령은 상기 프로세서에 의해 실행될 때 프로세서가 제1항 내지 제9항 중 어느 한 항에 따른 방법의 동작을 수행하게 하는, 컴퓨터 장치.
컴퓨터 판독 가능형 명령을 저장하는 비휘발성 저장 매체로서,
상기 컴퓨터 판독 가능형 명령은 하나 이상의 프로세서에 의해 실행될 때 상기 하나 이상의 프로세서가 제1항 내지 제9항 중 어느 한 항에 따른 방법의 동작을 수행하게 하는, 비휘발성 저장 매체.