KR102529574B1

KR102529574B1 - 소프트 교차-엔트로피 손실을 갖는 시맨틱 분할

Info

Publication number: KR102529574B1
Application number: KR1020217012976A
Authority: KR
Inventors: 다마키 고지마
Original assignee: 소니그룹주식회사
Priority date: 2018-11-12
Filing date: 2019-10-10
Publication date: 2023-05-10
Also published as: EP3861526A1; KR20210066889A; US11188799B2; WO2020099957A1; JP7218805B2; CN113056769B; JP2022518322A; US20200151497A1; CN113056769A

Abstract

소프트 교차-엔트로피 손실을 갖는 시맨틱 분할을 위한 시스템 및 방법이 제공된다. 이 시스템은 다중-클래스 분류 작업을 위해 시맨틱 분할 네트워크의 입력 계층에 제1 컬러 이미지를 입력한다. 시맨틱 분할 네트워크는 보조 스트라이드에서, 입력된 제1 컬러 이미지에 기초하여 시맨틱 분할 네트워크의 보조 계층의 출력으로서 제1 피처 맵을 생성한다. 이 시스템은 생성된 제1 피처 맵을 보조 계층으로부터 추출하고 추출된 제1 피처 맵에 기초하여 다중-클래스 분류 작업의 클래스 세트에 관해 소프트 라벨 세트로서 확률 맵을 계산한다. 시스템은 추가로, 보조 스트라이드에 대한 계산된 확률 맵과 실측 확률 맵 사이의 보조 교차-엔트로피 손실을 계산하고 계산된 보조 교차-엔트로피 손실에 기초하여 다중-클래스 분류 작업을 위해 시맨틱 분할 네트워크를 훈련시킨다.

Description

소프트 교차-엔트로피 손실을 갖는 시맨틱 분할

관련출원에 대한 상호-참조/참조에 의한 포함

본 출원은, 그 전체 내용이 참조에 의해 본 명세서에 포함되는, 2018년 11월 12일 출원된, 미국가출원 제62/758,781호의 우선권을 주장한다.

분야

본 개시내용의 다양한 실시예는 머신 학습 및 컴퓨터 비전에 관한 것이다. 더 구체적으로, 본 개시내용의 다양한 실시예는 소프트 교차 엔트로피 손실을 갖는 시맨틱 분할(semantic segmentation)을 위한 시스템 및 방법에 관한 것이다.

시맨틱 분할은 장면 이해의 핵심 컴포넌트 중 하나이며 시맨틱 라벨이 개개의 픽셀에 할당되는 작업이다. 자율 주행 자동차, 드론, 엔터테인먼트 로봇, 증강 현실 디바이스 및 감시 등의 자율 모바일 에이전트로 애플리케이션 분야가 광범위하다. 이들 애플리케이션은 효율적인 추론 속도와 고해상도 이미지 처리 능력을 요구한다. 시맨틱 분할에서의 최근 발전은 시각적 인지 작업에서 상당한 진전을 보였다. 그러나, 자원-제약된 컴퓨팅 환경, 특히 제한된 메모리와 컴퓨팅 자원으로 동작하는 모바일 환경에서 고해상도 이미지에 관해 실행할 수 있는 효율적인 올인원 모델을 획득하는 것은 여전히 어려운 일이다. 고해상도 이미지에 관해 원하는 레벨의 분류 정확도를 획득하기 위하여, 시맨틱 분할을 위한 종래의 모델은 큰 파라미터 크기를 생성하고 훈련 시간 동안 상당히 큰 메모리를 점유하므로, 자율 차량 등의 모바일 훈련 환경에서는 유용하지 않다.

종래의 및 전통적인 접근법의 추가적인 제한 및 단점은, 설명되는 시스템과 도면을 참조한 본 출원의 나머지 부분에 개시되는 본 개시내용의 일부 양태들과의 비교를 통해 본 기술분야의 통상의 기술자에게 명백해질 것이다.

소프트 교차-엔트로피 손실을 갖는 시맨틱 분할을 위한 시스템 및 방법은, 사실상, 청구항들에서 더 완전하게 개시되고, 도면들 중 적어도 하나에 도시되거나, 및/또는 이와 관련하여 설명되는 바와 같이 제공된다.

본 개시내용의 이들 및 다른 피처들과 이점들은, 전체적으로 유사한 참조 번호는 유사한 부분을 나타내는 첨부된 도면들과 함께, 본 개시내용의 이하의 상세한 설명의 검토로부터 이해될 수 있을 것이다.

도 1은 본 개시내용의 한 실시예에 따른 입력 이미지 프레임의 시맨틱 분할을 위한 환경을 나타내는 다이어그램이다.
도 2는 본 개시내용의 한 실시예에 따른 입력 이미지 프레임의 시맨틱 분할을 위한 예시적인 시스템의 블록도이다.
도 3은 본 개시내용의 한 실시예에 따른 입력 이미지 프레임의 시맨틱 분할을 위한 예시적인 전자 디바이스의 블록도이다.
도 4는 본 개시내용의 한 실시예에 따른 다중-클래스 분류 작업을 위한 시맨틱 분할 네트워크의 훈련을 위한 예시적인 동작을 나타내는 다이어그램이다.
도 5a는 본 개시내용의 한 실시예에 따른 시맨틱 분할 네트워크의 예시적인 아키텍처를 나타내는 다이어그램이다.
도 5b, 도 5c 및 도 5d는 본 개시내용의 한 실시예에 따른 도 5a의 예시적인 아키텍처에서의 브랜치 블록 및 업샘플링 계층을 나타내는 다이어그램이다.
도 6은 본 개시내용의 한 실시예에 따른 시맨틱 분할 네트워크의 또 다른 예시적인 아키텍처를 나타내는 다이어그램이다.
도 7은 본 개시내용의 한 실시예에 따른 도 3의 전자 디바이스 상의 도 4의 시맨틱 분할 네트워크의 예시적인 구현을 나타내는 다이어그램이다.
도 8은 본 개시내용의 한 실시예에 따른 소프트 교차-엔트로피 손실(soft cross-entropy loss)을 갖는 시맨틱 분할을 위한 예시적인 방법을 나타내는 플로차트이다.

이하의 설명된 구현은 소프트 교차-엔트로피 손실을 갖는 시맨틱 분할을 위한 개시된 시스템 및 방법에서 발견될 수 있다. 본 개시내용의 예시적인 양태들은 시맨틱 분할 네트워크의 분류 정확성과 압축성 사이의 균형을 유지하면서 실시간 추론에 적합하도록 시맨틱 분할 네트워크를 훈련시키는 시스템을 제공한다. 개시된 시스템은 시맨틱 분할 네트워크의 훈련을 정규화하고 훈련 시간 동안 메모리 이용량을 감소시키기 위해 보조 손실로서 소프트 교차-엔트로피(CE) 손실을 이용한다. 분류 작업을 위한 종래의 하드 라벨 할당과는 대조적으로, 개시된 시스템은 각각의 보조 스트라이드(auxiliary stride)에 관한 확률 분포로서 소프트-할당된 라벨을 생성하고, 보조 손실 함수로서 소프트 타겟에 관한 교차-엔트로피를 적용한다. 여기서, 소프트 할당은 피처 맵(feature map)의 각각의 값에 2진 값(0 또는 1) 중 하나가 할당되는 전형적인 하드 할당과는 상이할 수 있다. 소프트 할당에서, 각각의 소프트-할당된 라벨은 0과 1 사이의 부동 소수점 값이며 피처 맵의 각각의 값에 대한 클래스-확률을 인코딩한다. 모든 소프트 할당된 라벨은 다중-클래스 분류 작업의 클래스 세트에 관한 확률 맵 또는 확률 분포라고 할 수 있다.

소프트 CE 손실을 보조 손실로서 이용하면, 훈련 시간 동안 경사 계산(gradient computation)을 위한 메모리 이용량이 크게 감소할 수 있다. 소프트 CE 보조 손실은 메모리를 절약하므로, 시맨틱 분할 네트워크의 훈련을 위한 입력으로 훨씬 높은 해상도 이미지가 제공될 수 있다. 이것은, 특히 종래의 방법이 배치 크기(batch size)와 메모리 공간 사이의 균형을 유지하기 위해 입력 이미지를 자르려고 할 때 고해상도 시맨틱 분할된 이미지를 획득하는데 도움이 될 수 있다. 소프트 CE 손실의 이용은 고해상도 공간에 경사를 저장하는데 요구될 수 있는 점수 맵을 스케일-업할 필요성을 피할 수 있음으로써, 보조 손실 스트라이드 수의 더 큰 가용성으로 적은 메모리 이용량을 보장할 수 있다. 추가로, 소프트 CE 손실의 이용은, 가장 가까운 이웃을 이용하여 라벨을 보조 스트라이드로 다운샘플링할 필요가 없으므로 시맨틱 컨텍스트 정보의 손실을 방지할 수 있다. 시맨틱 분할 네트워크의 경량 훈련은, 고해상도 이미지 입력에 관해 실행될 수 있고 실시간 추론 및 다중-클래스 분류 작업, 특히 시맨틱 분할과 인스턴스 분할을 함께 결합하는 총괄 분할(panoptic segmentation) 작업에 적합한 올인원 모델(all-in-one model)을 생성할 수 있다.

도 1은, 본 개시내용의 한 실시예에 따른 입력 이미지 프레임의 시맨틱 분할을 위한 환경을 나타내는 다이어그램이다. 도 1을 참조하면, 환경(100)이 도시되어 있다. 환경(100)은, 시스템(102), 이미지 캡처 디바이스(104), 전자 디바이스(106), 및 통신 네트워크(108)를 포함한다. 시스템(102)은 통신 네트워크(108)를 통해 이미지 캡처 디바이스(104) 및 전자 디바이스(106)에 통신가능하게 결합될 수 있다. 시스템(102)은 예를 들어 시스템(102)의 메모리에 저장된 애플리케이션의 일부로서 시맨틱 분할 네트워크(110)를 포함할 수 있다.

시스템(102)은 다중-클래스 분류 작업을 위해 시맨틱 분할 네트워크(110)를 훈련시키도록 구성될 수 있는 적절한 로직, 회로, 인터페이스, 및/또는 코드를 포함할 수 있다. 일단 훈련되고 나면, 시맨틱 분할 네트워크(110)는 입력 이미지 프레임의 각각의 픽셀을 다중-클래스 분류 작업의 클래스 세트 중의 한 클래스로 분류할 수 있다. 추가적으로, 시맨틱 분할 네트워크(110)는, 일단 훈련되고 나면, 동작을 취하거나 실시간 또는 준 실시간 추론을 생성하기 위해 시맨틱 분할된 이미지 프레임을 요구할 수 있는 애플리케이션을 위해 배치될 수 있다. 예를 들어, 시스템(102)은 본 기술분야의 통상의 기술자에게 잘 알려진 수개의 기술을 이용하여 복수의 분산형 클라우드 기반의 자원으로서 구현될 수 있다. 시스템(102) 구현의 다른 예는, 차량내 전자 제어 유닛(ECU), 차량내 서버, 웹/클라우드 서버, 애플리케이션 서버, 미디어 서버, CE(Consumer Electronic) 디바이스, 카메라, 및 차량을 포함할 수 있지만, 이것으로 제한되는 것은 아니다.

이미지 캡처 디바이스(104)는, 이미지 캡처 디바이스(104)의 시야(field-of-view)(FOV) 영역의 컬러 이미지 프레임 시퀀스를 캡처하도록 구성될 수 있는 적절한 로직, 회로, 인터페이스, 및/또는 코드를 포함할 수 있다. 캡처된 컬러 이미지 프레임 시퀀스는, 예를 들어 시맨틱 분할 네트워크(110)를 훈련시키기 위해, 또는 테스트 환경(예를 들어, 벤치마킹을 위해) 또는 애플리케이션-특유의 배치에서, 예를 들어 자율 주행 차량과 관련된 애플리케이션에서 훈련된 시맨틱 분할 네트워크(110)에 대한 입력으로서 이용될 수 있다,

제한이 아닌 예로서, 이미지 캡처 디바이스(104)는, 장면에 및/또는 장면 내의 관심 대상에 초점을 맞추기 위해 렌즈 또는 렌즈용 액츄에이터 등의 적절한 광학 기기를 가질 수 있다. 이미지 캡처 디바이스(104)의 구현의 예는, 디지털 카메라, 차량 카메라, 비디오 캠, DSLR(Digital Single-Lens Reflex) 카메라, 전문가용 비디오 카메라, 및 대시 캠(dash cam)을 포함할 수 있지만 이것으로 제한되는 것은 아니다. 도 1에서는 시스템(102) 및 이미지 캡처 디바이스(104)가 2개의 별개의 엔티티로서 도시되어 있지만, 본 개시내용은 이것으로 제한되는 것은 아니다. 따라서, 일부 실시예에서, 이미지 캡처 디바이스(104)의 전체 기능은 본 개시내용의 범위로부터 벗어나지 않고 시스템(102)에 포함될 수 있다.

전자 디바이스(106)는, 시맨틱 분할 네트워크(110)의 출력을 이용하여 실시간 또는 준 실시간 추론을 생성하거나, 결정을 내리거나 예측 결과를 출력할 수 있는 애플리케이션 엔진의 일부로서 시맨틱 분할 네트워크(110)를 배치하도록 구성될 수 있는 적절한 로직, 회로, 인터페이스, 및/또는 코드를 포함할 수 있다. 시맨틱 분할 네트워크(110)는 일단 시맨틱 분할 네트워크(110)가 다중-클래스 분류 작업을 위해 시스템(102)에서 훈련되고 나면 전자 디바이스(106)에 배치될 수 있다.

전자 디바이스(106)의 기능은, 고속 컴퓨팅 디바이스, 또는 카메라 등의 휴대형 디바이스, 및/또는 서버 등의 비휴대형 디바이스에서 구현될 수 있다. 전자 디바이스(106)의 예는, 차량내 ECU, 차량 카메라, 디지털 카메라, 디지털 캠코더, 카메라 폰, 스마트 폰, 가상 현실 디바이스, 게임 콘솔, 모바일 디바이스, 또는 하드웨어 비디오 재생기를 포함할 수 있지만, 이것으로 제한되는 것은 아니다. 전자 디바이스(106)의 다른 예는, 텔레비전, 홈 엔터테인먼트 시스템, 증강 현실 디바이스, 및 (스마트 안경 등의) 스마트 착용기기를 포함할 수 있지만, 이것으로 제한되는 것은 아니다.

통신 네트워크(108)는 통신 매체를 포함할 수 있고, 이를 통해, 시스템(102), 이미지 캡처 디바이스(104) 및 전자 디바이스(106)가 서로 통신할 수 있다. 통신 네트워크(108)의 예는, 인터넷, 클라우드 네트워크, Wi-Fi(Wireless Fidelity) 네트워크, PAN(Personal Area Network), LAN(Local Area Network) 또는 MAN(Metropolitan Area Network)을 포함할 수 있지만 이것으로 제한되는 것은 아니다. 환경(100) 내의 다양한 디바이스들은 다양한 유선 및 무선 통신 프로토콜에 따라 통신 네트워크(108)에 접속하도록 구성될 수 있다. 이러한 유선 및 무선 통신 프로토콜의 예는, TCP/IP(Transmission Control Protocol and Internet Protocol), UDP(User Datagram Protocol), HTTP(Hypertext Transfer Protocol), FTP(File Transfer Protocol), Zig Bee, EDGE, IEEE 802.11, Li-Fi(light fidelity), 802.16, IEEE 802.11s, IEEE 802.11g, 멀티-홉 통신, 무선 액세스 포인트(AP), 디바이스 대 디바이스 통신, 셀룰러 통신 프로토콜, 및 Bluetooth(BT) 통신 프로토콜을 포함할 수 있지만, 이것으로 제한되는 것은 아니다.

시맨틱 분할 네트워크(110)는 인코더-디코더 아키텍처를 갖는 다중-스테이지 신경망(Neural Network)(NN)일 수 있다. 시맨틱 분할 네트워크(110)는 인코더 네트워크(112)를 포함할 수 있다. 인코더 네트워크(112)는, 입력된 컬러 이미지 내의 장면의 공간적 및 시맨틱 컨텍스트 정보를 피처 맵으로 인코딩할 수 있는 복수의 NN 계층(112a... 112n)을 포함할 수 있다. 인코더 네트워크(112)는 초기 스트라이드에서 입력된 컬러 이미지를 수신할 수 있고, 초기 스트라이드의 배수일 수 있는 제1 스트라이드에서 피처 맵을 출력할 수 있다. 여기서, 스트라이드란, 입력된 컬러 이미지의 크기에 대한 피처 맵의 크기 비율을 나타내는, 출력 스트라이드를 지칭할 수 있다. 예를 들어, 1024 x 1024 픽셀 해상도를 갖는 입력된 컬러 이미지가 초기 스트라이드 1에서 인코더 네트워크(112)에 제공된다. 스트라이드 32에서, 인코더 네트워크(112)는 입력된 컬러 이미지에 대한 피처 맵을 출력할 수 있다. 피처 맵은 입력된 컬러 이미지 내의 공간적 및 시맨틱 컨텍스트 정보를 인코딩할 수 있다. 스트라이드 32에서, 피처 맵의 크기는 입력된 컬러 이미지 크기의 1/32(즉, 1/32)일 수 있다.

시맨틱 분할 네트워크(110)는, 인코더 네트워크(112)의 출력(112n)에 접속될 수 있는 디코더 네트워크(114)를 더 포함할 수 있다. 디코더 네트워크(114)는 인코더 네트워크(112)의 출력(112n)으로부터 피처 맵을 제1 스트라이드에서 입력으로서 수신할 수 있고, 초기 스트라이드에서 최종 점수 맵을 다시 출력할 수 있다. 구체적으로, 디코더 네트워크(114)는 최종 점수 맵의 크기가 입력된 컬러 이미지의 크기와 동일하도록 피처 맵을 초기 스트라이드로 다시 업샘플링할 수 있다. 이 시점에서 입력된 컬러 이미지 내의 각각의 픽셀은 최종 점수 맵의 점수 값에 대응한다. 디코더 네트워크(114)는 최종 점수 맵을 출력하기 위해 출력 피처 맵을 디코딩할 수 있는 복수의 NN 계층(114a... 114n)을 포함할 수 있다. 최종 점수 맵은, 다중-클래스 분류 작업의 상이한 클래스들에 기초한 입력된 컬러 이미지의 각각의 픽셀에 대한 점수를 포함할 수 있다.

시맨틱 분할 네트워크(110)는 컴퓨팅 네트워크 또는 인공 뉴런의 시스템이라고 지칭될 수 있으며, 여기서 시맨틱 분할 네트워크(110)의 각각의 NN 계층은 인공 뉴런을 노드로서 포함한다. 시맨틱 분할 네트워크(110)의 모든 노드의 출력은, 시맨틱 분할 네트워크(110)의 선행 또는 후속 NN 계층(들)의 적어도 하나의 노드에 결합될 수 있다. 유사하게, 시맨틱 분할 네트워크(110)의 모든 노드의 입력은, 시맨틱 분할 네트워크(110)의 선행 또는 후속 NN 계층(들)의 적어도 하나의 노드에 결합될 수 있다. 시맨틱 분할 네트워크(110)의 최종 계층 내의 노드(들)는 적어도 하나의 이전 계층으로부터 입력을 수신할 수 있다. NN 계층의 수 및 각각의 NN 계층 내의 노드의 수는 시맨틱 분할 네트워크(110)의 하이퍼-파라미터로부터 결정될 수 있다. 이러한 하이퍼-파라미터는, 컬러 이미지 프레임의 훈련 데이터세트에 관해 시맨틱 분할 네트워크(110)를 훈련하기 전에 또는 훈련 동안에 설정될 수 있다.

시맨틱 분할 네트워크(110)의 각각의 노드는, 시맨틱 분할 네트워크(110)가 훈련되는 동안 조정가능한, 파라미터 세트를 갖는 수학적 함수에 대응할 수 있다. 이들 파라미터는 예를 들어, 가중치 파라미터, 정규화 파라미터 등을 포함할 수 있다. 각각의 노드는 시맨틱 분할 네트워크(110)의 다른 계층(들)(예를 들어, 이전 계층(들)) 내의 노드로부터의 하나 이상의 입력에 기초하여 출력을 계산하기 위해 수학적 함수를 이용할 수 있다.

시맨틱 분할 네트워크(110)는 예를 들어, 소프트웨어 프로그램, 소프트웨어 프로그램의 코드, 라이브러리, 애플리케이션, 스크립트, 또는 시스템(102) 및 전자 디바이스(106) 등의 처리 디바이스에 의한 실행을 위한 기타의 로직/명령어 등의 전자 데이터를 포함할 수 있다. 추가적으로 또는 대안으로서, 시맨틱 분할 네트워크(110)는, 프로세서, (예를 들어, 하나 이상의 동작을 수행하거나 수행을 제어하는) 마이크로프로세서, FPGA(field-programmable gate array), 또는 ASIC(application-specific integrated circuit) 등의, 하드웨어를 이용하여 구현될 수 있다. 일부 실시예에서, 시맨틱 분할 네트워크(110)는 하드웨어 및 소프트웨어 프로그램 양쪽 모두의 조합을 이용하여 구현될 수 있다.

동작시, 다중-클래스 분류 작업, 예를 들어 시맨틱 또는 총괄 이미지 분할에 관해 시맨틱 분할 네트워크(110)를 훈련시키기 위해 프로세스가 초기화될 수 있다. 시맨틱 분할 네트워크(110)의 훈련에서, 시맨틱 분할 네트워크(110)의 각각의 노드에 대한 파라미터 세트 중 하나 이상이 업데이트될 수 있다. 일부 훈련 방법의 예는, 경사 하강, 확률적 경사 하강, 배치 경사 하강, 경사 부스트, Adam, 및 메타-휴리스틱을 포함할 수 있지만, 이것으로 제한되는 것은 아니다.

프로세스의 일부로서, 시스템(102)은 시맨틱 분할 네트워크(110)의 입력 계층(112a)에 제1 컬러 이미지를 입력할 수 있다. 예로서, 시맨틱 분할 네트워크(110)는, 상이한 복잡한 상황들에서 자율 차량 제어를 위한 장면의 복잡한 시맨틱 구조를 이해하도록 훈련될 수 있다. 복잡한 상황 중 하나는, 도로에서 운전 가능한 영역을 찾거나 인도, 지형, 장애물, 다른 자동차, 벽, 기둥 등을 구별하는 작업과 관련될 수 있다.

시맨틱 분할 네트워크(110)는, 예를 들어, 입력된 제1 컬러 이미지로부터 공간 정보 및 시맨틱 컨텍스트 정보를 추출하기 위한 별개의 경로들을 포함할 수 있다. 공간 정보 및 컨텍스트 정보 양쪽 모두는, 시맨틱 분할 네트워크(110)에 의해 최종 점수 맵이 생성되기 전에 나중에 융합될 수 있다. 보조 스트라이드에서, 입력된 제1 컬러 이미지에 기초하여, 시맨틱 분할 네트워크(110)는 시맨틱 분할 네트워크(110)의 보조 계층(116)의 출력으로서 제1 피처 맵을 생성할 수 있다. 시스템(102)은 생성된 제1 피처 맵을 보조 계층(116)으로부터 추출하고, 추출된 제1 피처 맵에 기초하여 다중-클래스 분류 작업의 클래스 세트에 관한 소프트 라벨 세트로서 확률 맵을 계산할 수 있다. 이들 소프트 라벨 세트는, 클래스 라벨로서 2진 숫자(0 및 1)를 포함하는 하드 할당 라벨과는 대조적으로 0과 1 사이의 확률 값을 나타내는 부동 소수점 숫자를 포함할 수 있다.

전형적으로, 원래 스트라이드에 저장된 모든 시맨틱 컨텍스트 정보를 보존하기 위하여, 추출된 제1 피처 맵을 입력된 제1 컬러 이미지의 원래 스트라이드로 업샘플링하고 보조 교차-엔트로피(CE) 손실을 이용하는 것이 요구될 수 있다. 그러나, 추출된 제1 피처 맵이 스케일-업된다면, 고해상도 공간에 경사를 저장할 것이 요구될 수 있고, 이것은 훈련에 대해 메모리 효율적이지 않을 수 있으며 보조 CE 손실의 이용을 위한 스트라이드 수를 제한할 수 있다. 한편, 최종 점수 맵이 보조 스트라이드로 다운샘플링된다면, 시맨틱 컨텍스트 정보의 일부가 상실될 수 있다. 위의 문제를 해결하기 위해, 시스템(102)은 계산된 확률 맵과 보조 스트라이드에서의 실측 확률 맵(ground truth probability map) 사이의 보조 CE 손실(소프트 CE 손실이라고도 함)을 계산할 수 있다. 보조 CE 손실은 시맨틱 분할 네트워크(110)를 훈련시키기 위한 프로세스의 일부로서 계산될 수 있고, 원래 스트라이드에서 입력된 제1 컬러 이미지에 저장된 모든 시맨틱 컨텍스트 정보를 보존하는데 도움이 될 수 있다. 시스템(102)은 계산된 보조 교차-엔트로피 손실에 기초하여 다중-클래스 분류 작업을 위해 시맨틱 분할 네트워크(110)를 훈련시킬 수 있다.

추가적으로 또는 대안으로서, 시스템(102)은 시맨틱 분할 네트워크(110)의 출력 계층(114n)으로부터 최종 점수 맵을 추출하고 추출된 최종 점수 맵에 기초하여 최종 교차-엔트로피 손실을 계산할 수 있다. 최종 점수 맵은 입력된 컬러 이미지에 대한 시맨틱 분할 네트워크(110)의 출력에 대응할 수 있다. 계산된 최종 교차-엔트로피 손실은 예를 들어 히스토그램 가중 소프트-맥스 교차-엔트로피 손실일 수 있다. 시스템(102)은, 계산된 보조 교차-엔트로피 손실 및 계산된 최종 교차-엔트로피 손실에 기초하여 시맨틱 분할 네트워크(110)에 대한 전역적 손실-측정치를 추정할 수 있다. 시맨틱 분할 네트워크(110)는 추정된 전역적 손실-측정치에 기초하여 훈련될 수 있다. 더 구체적으로, 시맨틱 분할 네트워크(110)의 훈련은 추정된 전역적 손실-측정치가 최소가 될 때까지 시맨틱 분할 네트워크(110)의 상이한 계층들에 대한 가중치의 업데이트에 대응할 수 있다.

일단 훈련 후, 시맨틱 분할 네트워크(110)는 또한, 적절한 디바이스에 배치될 준비가 된, 훈련된 시맨틱 분할 네트워크(110)라고 지칭될 수 있다. 훈련 후, 확률 맵의 계산 및 보조 CE 손실의 계산과 관련된 동작이 수행될 필요가 없으며 시맨틱 분할 네트워크(110)만이 시맨틱 분할 네트워크(110)에 대한 입력으로 컬러 이미지에 대한 분류 결과를 생성하는데 이용될 수 있다. 시스템(102)은 훈련된 시맨틱 분할 네트워크(110)를 자신의 네트워크에 및 자신의 애플리케이션을 위해 배치할 수 있다. 추가적으로 또는 대안으로서, 시스템(102)은 전자 디바이스(106) 등의 다른 외부 디바이스에 훈련된 시맨틱 분할 네트워크를 배치할 수 있다.

예를 들어, 시맨틱 이미지 분할을 위해 훈련된 시맨틱 분할 네트워크(110)를 이용하기 위한 예시적인 시나리오가 여기서 설명된다. 시스템(102)은 훈련된 시맨틱 분할 네트워크(110)에 제2 컬러 이미지를 입력한 후, 훈련된 시맨틱 분할 네트워크(110)의 출력 계층(114n)으로부터, 입력된 제2 컬러 이미지의 각각의 픽셀에 대한 분류 결과를 추출할 수 있다. 제한이 아닌 예로서, 분류 결과는 클래스의 최대 점수 지수를 포함할 수 있다. 즉, 제2 컬러 이미지의 모든 픽셀에 대해, 최대 점수 지수는 각각의 픽셀에 대한 최대 점수(확률)를 갖는 (분류 작업의 클래스 ID/라벨 세트 중) 최종 클래스 ID를 나타낼 수 있다. 훈련된 시맨틱 분할 네트워크(110)는 제2 컬러 이미지에 대한 확률 맵을 자체적으로 출력할 수 있으므로, 분류 결과는 클래스의 최대 점수 지수의 계산에 기초하여 획득될 수 있다. 예를 들어, 훈련된 시맨틱 분할 네트워크(110)의 출력은 볼륨 텐서([num_class x height x width])로 표현될 수 있다. 2D에서 최종 클래스 ID 맵 또는 최종 점수 맵을 획득하기 위해, 출력은 입력된 컬러 이미지의 크기(즉, 높이 x 폭(픽셀 단위))로 재성형될 필요가 있을 수 있고, 여기서 각각의 픽셀은 소정의 클래스 ID 및 컬러 값에 할당된다. 이를 위해, 시스템(102)은 볼륨 텐서에 argmax 연산을 적용하여 클래스 채널의 최대 점수 지수를 추출할 수 있다.

분류 결과에 기초하여, 시스템(102)은 대응하는 컬러 세트로 채워진 영역 세트를 포함하는 시맨틱 분할된 이미지를 생성할 수 있다. 영역 세트의 각각의 영역은 클래스 세트의 특정한 클래스에 대응한다. 예를 들어, 입력으로서 도시 거리 이미지의 경우, 시맨틱 분할된 이미지는, 자동차, 건물, 도로 등과 같이, 할당받은 클래스에 따라 상이하게 채색된 각각의 픽셀을 가진 상이한 영역들을 포함할 수 있다.

도 2는 본 개시내용의 한 실시예에 따른 입력 이미지 프레임의 시맨틱 분할을 위한 예시적인 시스템의 블록도이다. 도 2는 도 1의 요소들과 연계하여 설명된다. 도 2를 참조하면, 시스템(102)의 블록도(200)가 도시되어 있다. 시스템(102)은, 회로(202), 메모리(204), 입력/출력(I/O) 디바이스(206), 네트워크 인터페이스(208), 애플리케이션 인터페이스(210), 및 영구 데이터 스토리지(212)를 포함할 수 있다. 시스템(102)은 또한, 예를 들어 반자율 또는 자율 차량에서 이미지 기반의 결정을 위한 소프트웨어 애플리케이션의 일부로서 시맨틱 분할 네트워크(110)를 포함할 수 있다. 회로(202)는, 메모리(204), I/O 디바이스(206), 네트워크 인터페이스(208), 애플리케이션 인터페이스(210) 및 영구 데이터 스토리지(212)에 통신가능하게 결합될 수 있다. 하나 이상의 실시예에서, 시스템(102)은 또한, 하나 이상의 이미지 캡처 디바이스, 예를 들어 이미지 캡처 디바이스(104)를 통해 이미지/비디오를 캡처하기 위한 프로비전/기능(provision/functionality)을 포함할 수 있다.

회로(202)는, 입력된 컬러 이미지 프레임 상의 다중-클래스 분류 작업을 위해 시맨틱 분할 네트워크(110)를 훈련시키도록 구성될 수 있는 적절한 로직, 회로, 인터페이스, 및/또는 코드를 포함할 수 있다. 일단 훈련되고 나면, 시맨틱 분할 네트워크(110)는, 라이브/미리캡처된 비디오 피드의 이미지 프레임의 실시간 시맨틱/총괄적 이미지 분할을 위해 다른 전자 디바이스(예를 들어, 전자 디바이스(106)) 또는 시스템(102)에 배치될 수 있다. 회로(202)는, 본 기술분야의 통상의 기술자에게 공지되어 있을 수 있는, 다수의 프로세서 기술에 기초하여 구현될 수 있다. 회로(202)의 구현의 예는, 그래픽 처리 유닛(GPU), 감축된 명령어 세트 컴퓨팅(RISC) 프로세서, 주문형 집적 회로(ASIC) 프로세서, 복잡한 명령어 세트 컴퓨팅(CISC) 프로세서, 마이크로제어기, 인공 지능(AI) 가속기 칩, 코프로세서, 중앙 처리 유닛(CPU) 및/또는 이들의 조합일 수 있다.

메모리(204)는 회로(202)에 의해 실행가능한 명령어를 저장하도록 구성될 수 있는 적절한 로직, 회로, 및/또는 인터페이스를 포함할 수 있다. 추가적으로, 메모리(204)는 시맨틱 분할 네트워크(110)의 프로그램 코드 및/또는 시맨틱 분할 네트워크(110)의 프로그램 코드를 포함할 수 있는 소프트웨어 애플리케이션을 저장하도록 구성될 수 있다. 메모리(204)의 구현의 예는, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 전기적으로 소거가능하고 프로그램가능한 판독 전용 메모리(EEPROM), 하드 디스크 드라이브(HDD), 솔리드-스테이트 드라이브(SSD), CPU 캐시, 및/또는 보안 디지털(SD) 카드를 포함할 수 있지만, 이것으로 제한되는 것은 아니다.

I/O 디바이스(206)는, 사용자와 시스템(102) 사이의 I/O 인터페이스로서 동작하도록 구성될 수 있는 적절한 로직, 회로, 및/또는 인터페이스를 포함할 수 있다. I/O 디바이스(206)는 시스템(102)의 상이한 동작 컴포넌트들과 통신하도록 구성될 수 있는 다양한 입력 및 출력 디바이스를 포함할 수 있다. I/O 디바이스(206)의 예는, 터치 스크린, 키보드, 마우스, 조이스틱, 마이크로폰, 및 디스플레이 스크린을 포함할 수 있지만 이것으로 제한되는 것은 아니다.

네트워크 인터페이스(208)는, 시스템(102)의 상이한 컴포넌트들이 통신 네트워크(108)를 통해 환경(100)에서 전자 디바이스(106) 등의 다른 디바이스와 통신하는 것을 용이화하도록 구성될 수 있는 적절한 로직, 회로, 인터페이스, 및/또는 코드를 포함할 수 있다. 네트워크 인터페이스(208)는 유선 또는 무선 통신을 지원하기 위해 알려진 기술들을 구현하도록 구성될 수 있다. 네트워크 인터페이스(208)의 컴포넌트들은, 안테나, 무선 주파수(RF) 트랜시버, 하나 이상의 증폭기, 튜너, 하나 이상의 발진기, 디지털 신호 프로세서, 코더 디코더(CODEC) 칩셋, 식별 모듈 및/또는 로컬 버퍼를 포함할 수 있지만 이것으로 제한되는 것은 아니다.

네트워크 인터페이스(208)는, 인터넷, 인트라넷 등의 네트워크, 및/또는 셀룰러 전화 네트워크, WLAN(무선 근거리 통신망), 개인 영역 네트워크 및/또는 대도시 영역 네트워크(MAN) 등의 무선 네트워크와 오프라인 및 온라인 무선 통신을 통해 통신하도록 구성될 수 있다. 무선 통신은, GSM(Global System for Mobile Communications), EDGE(Enhanced Data GSM Environment), W-CDMA(wideband code division multiple access), CDMA(code division multiple access), LTE, TDMA(time division multiple access), Bluetooth, (IEEE 802.11, IEEE 802.11b, IEEE 802.11g, IEEE 802.11n 및/또는 기타 임의의 IEEE 802.11 프로토콜 등의) Wi-Fi(Wireless Fidelity), VoIP(voice over Internet Protocol), Wi-MAX, 사물 인터넷(IoT) 기술, 머신-타입 통신(MTC) 기술, 전자 메일, 인스턴트 메시징 및/또는 SMS(Short Message Service)를 위한 프로토콜 등의, 복수의 통신 표준, 프로토콜 및 기술들 중 임의의 것을 이용할 수 있다.

애플리케이션 인터페이스(210)는 사용자가 시스템(102)과 상호작용하기 위한 매체로서 구성될 수 있다. 애플리케이션 인터페이스(210)는 사용자에 의해 설정된 선호사항 및 시스템(102)의 구성에 따라 변경될 수 있는 동적 인터페이스를 갖도록 구성될 수 있다. 일부 실시예에서, 애플리케이션 인터페이스(210)는 시스템(102)에 설치된 하나 이상의 애플리케이션의 사용자 인터페이스에 대응할 수 있다.

영구 데이터 스토리지(212)는, 회로(202)에 의해 실행가능한 프로그램 명령어, 운영 체제, 및/또는 로그 및 애플리케이션-특유의 데이터베이스 등의 애플리케이션-특유의 정보를 저장하도록 구성될 수 있는 적절한 로직, 회로 및/또는 인터페이스를 포함할 수 있다. 영구 데이터 스토리지(212)는 컴퓨터 실행가능한 명령어 또는 데이터 구조를 운반하거나 저장하고 있는 컴퓨터 판독가능한 저장 매체를 포함할 수 있다. 이러한 컴퓨터 판독가능한 저장 매체는, 회로(202) 등의 범용 또는 특별 목적 컴퓨터에 의해 액세스될 수 있는 임의의 이용가능한 매체를 포함할 수 있다.

제한이 아닌 예로서, 이러한 컴퓨터 판독가능한 저장 매체는, CD-ROM(Compact Disc Read-Only Memory) 또는 기타 광학적 디스크 스토리지, 자기 디스크 스토리지 또는 기타의 자기 저장 디바이스(예를 들어, 하드 디스크 드라이브(HDD)), 플래시 메모리 디바이스(예를 들어, 솔리드 스테이트 드라이브(SSD), 보안 디지털(SD) 카드, 기타의 솔리드 스테이트 메모리 디바이스), 또는 컴퓨터 실행가능 명령어 또는 데이터 구조의 형태로 된 특정한 프로그램 코드를 운반하거나 저장하는데 이용될 수 있고 범용 또는 특별 목적 컴퓨터에 의해 액세스될 수 있는 기타 임의의 저장 매체를 포함한 그러나 이것으로 제한되지 않는 유형의 또는 비일시적인 컴퓨터 판독가능한 매체를 포함할 수 있다. 상기의 조합은 또한, 컴퓨터-판독가능한 저장 매체의 범위 내에 포함될 수 있다.

컴퓨터 실행가능 명령어는, 예를 들어, 회로(202)가 시스템(102)과 연관된 소정의 동작 또는 동작 세트를 수행하게 하도록 구성된 명령어 및 데이터를 포함할 수 있다. 도 1에 설명된 바와 같이 시스템(102)에 의해 실행되는 기능 또는 동작은 회로(202)에 의해 수행될 수 있다. 회로(202)의 동작은, 예를 들어, 도 4, 5a, 5b, 5c 및 5d에서 상세하게 설명된다.

도 3은 본 개시내용의 한 실시예에 따른 입력 이미지 프레임의 시맨틱 분할을 위한 예시적인 전자 디바이스의 블록도이다. 도 3을 참조하면, 전자 디바이스(106)의 블록도(300)가 도시되어 있다. 전자 디바이스(106)는, 회로(302), 메모리(304), I/O 디바이스(306), 네트워크 인터페이스(308), 및 애플리케이션 인터페이스(310)를 포함할 수 있다. 시맨틱 분할 네트워크(110)는, 일단 훈련되고 나면, 예를 들어, 반자율 또는 자율 차량에 대한 또 다른 소프트웨어 애플리케이션의 일부로서 전자 디바이스(106)에 배치될 수 있다. 회로(302)는, 메모리(304), I/O 디바이스(306), 네트워크 인터페이스(308), 및 애플리케이션 인터페이스(310)에 통신가능하게 결합될 수 있다. 적어도 하나의 실시예에서, 전자 디바이스(106)는 또한, 하나 이상의 이미지 캡처 디바이스, 예를 들어 이미지 캡처 디바이스(104)를 통해 이미지/비디오를 캡처하는 프로비젼/기능을 포함할 수 있다.

회로(302)는, 시맨틱 분할 네트워크(110)가 (예를 들어, 라이브 비디오 피드로부터의) 입력된 컬러 이미지 프레임에 관한 다중-클래스 분류 작업에 대해 훈련된 후, 시맨틱 분할 네트워크(110)를 구현하도록 구성될 수 있는 적절한 로직, 회로, 인터페이스, 및/또는 코드를 포함할 수 있다. 회로(302)는, 본 기술분야의 통상의 기술자에게 공지되어 있을 수 있는, 다수의 프로세서 기술에 기초하여 구현될 수 있다. 회로(302)의 예시적인 구현은 차량내 ECU의 프로세서(들)일 수 있다. 회로(302)의 추가의 예시적 구현은, 그래픽 처리 유닛(GPU), 감축된 명령어 세트 컴퓨팅(RISC) 프로세서, 주문형 집적 회로(ASIC) 프로세서, 복잡한 명령어 세트 컴퓨팅(CISC) 프로세서, 마이크로제어기, 인공 지능(AI) 가속기 칩(들), 코프로세서, 중앙 처리 유닛(CPU) 및/또는 이들의 조합일 수 있다.

메모리(304)는 회로(302)에 의해 실행가능한 명령어를 저장하도록 구성될 수 있는 적절한 로직, 회로, 및/또는 인터페이스를 포함할 수 있다. 추가로, 메모리(304)는, 시맨틱 분할 네트워크(110)의 보조 계층(들)에 대한 보조 교차-엔트로피(CE) 손실에 기초하여 미리훈련된 시맨틱 분할 네트워크(110)를 저장하도록 구성될 수 있다. 메모리(304)는 또한, 시맨틱 분할 네트워크(110)의 프로그램 코드 및/또는 시맨틱 분할 네트워크(110)의 프로그램 코드를 포함할 수 있는 소프트웨어 애플리케이션을 저장할 수 있다. 메모리(304)의 구현의 예는, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 전기적으로 소거가능하고 프로그램가능한 판독 전용 메모리(EEPROM), 하드 디스크 드라이브(HDD), 솔리드-스테이트 드라이브(SSD), CPU 캐시, 및/또는 보안 디지털(SD) 카드를 포함할 수 있지만, 이것으로 제한되는 것은 아니다.

I/O 디바이스(306)는, 사용자와 전자 디바이스(106) 사이의 I/O 인터페이스로서 동작하도록 구성될 수 있는 적절한 로직, 회로, 및/또는 인터페이스를 포함할 수 있다. I/O 디바이스(306)는 전자 디바이스(106)의 상이한 동작 컴포넌트들과 통신하도록 구성될 수 있는 다양한 입력 및 출력 디바이스를 포함할 수 있다. I/O 디바이스(306)의 예는, 터치 스크린, 키보드, 마우스, 조이스틱, 마이크로폰, 및 디스플레이 스크린을 포함할 수 있지만 이것으로 제한되는 것은 아니다.

네트워크 인터페이스(308)는, 전자 디바이스(106)의 상이한 컴포넌트들이, 통신 네트워크(108)를 통해 환경(100)에서 다른 디바이스와 통신하는 것을 용이화하도록 구성될 수 있는 적절한 로직, 회로, 인터페이스, 및/또는 코드를 포함할 수 있다. 네트워크 인터페이스(308)는 유선 또는 무선 통신을 지원하기 위해 알려진 기술들을 구현하도록 구성될 수 있다. 네트워크 인터페이스(308)의 컴포넌트들은, 안테나, 무선 주파수(RF) 트랜시버, 하나 이상의 증폭기, 튜너, 하나 이상의 발진기, 디지털 신호 프로세서, 코더 디코더(CODEC) 칩셋, 식별 모듈 및/또는 로컬 버퍼를 포함할 수 있지만 이것으로 제한되는 것은 아니다.

네트워크 인터페이스(308)는, 인터넷, 인트라넷 등의 네트워크, 및/또는 셀룰러 전화 네트워크, WLAN(무선 근거리 통신망), 개인 영역 네트워크 및/또는 대도시 영역 네트워크(MAN) 등의 무선 네트워크와 오프라인 및 온라인 무선 통신을 통해 통신하도록 구성될 수 있다. 무선 통신은, GSM(Global System for Mobile Communications), EDGE(Enhanced Data GSM Environment), W-CDMA(wideband code division multiple access), CDMA(code division multiple access), LTE, TDMA(time division multiple access), Bluetooth, (IEEE 802.11, IEEE 802.11b, IEEE 802.11g, IEEE 802.11n 및/또는 기타 임의의 IEEE 802.11 프로토콜 등의) Wi-Fi(Wireless Fidelity), VoIP(voice over Internet Protocol), Wi-MAX, 사물 인터넷(IoT) 기술, 머신-타입 통신(MTC) 기술, 전자 메일, 인스턴트 메시징 및/또는 SMS(Short Message Service)를 위한 프로토콜 등의, 복수의 통신 표준, 프로토콜 및 기술들 중 임의의 것을 이용할 수 있다.

애플리케이션 인터페이스(310)는 사용자가 전자 디바이스(106)와 상호작용하기 위한 매체로서 구성될 수 있다. 애플리케이션 인터페이스(310)는 사용자에 의해 설정된 선호사항 및 전자 디바이스(106)의 구성에 따라 변경될 수 있는 동적 인터페이스를 갖도록 구성될 수 있다. 일부 실시예에서, 애플리케이션 인터페이스(310)는 전자 디바이스(106)에 설치된 하나 이상의 애플리케이션의 사용자 인터페이스에 대응할 수 있다. 예를 들어, 애플리케이션 인터페이스는 자율 주행 차량의 MID(multi-information display)에 디스플레이될 수 있고, 사용자가 전자 디바이스(106)에서 처리되는 정보를 시각화하는 것을 허용할 수 있다. 도 1에 설명된 바와 같이, 전자 디바이스(106)에 의해 실행되는 기능 또는 동작은 회로(302)에 의해 수행될 수 있다. 회로(302)의 동작은 예를 들어 도 7에서 상세하게 설명된다.

도 4는 본 개시내용의 한 실시예에 따른 다중-클래스 분류 작업을 위한 시맨틱 분할 네트워크의 훈련을 위한 예시적인 동작을 나타내는 다이어그램이다. 도 4는, 도 1, 도 2, 및 도 3의 요소들과 연계하여 설명된다. 도 4를 참조하면, 여기서 설명된 바와 같이, 다중-클래스 분류 작업에 대한 시맨틱 분할 네트워크(402)의 훈련을 위한 동작 세트를 나타내는 다이어그램(400)이 도시되어 있다. 여기서, 다중-클래스 분류 작업은, 입력 이미지 프레임의 시맨틱 분할을 위한 조밀 분류(dense classification) 작업 및 입력 이미지 프레임의 개개의 픽셀에 클래스 라벨이 할당되는 작업일 수 있다. 시맨틱 분할 네트워크(402)는 도 1의 시맨틱 분할 네트워크(402)에 대응할 수 있고, 예를 들어, 복수의 스테이지를 갖는 완전 콘볼루션 네트워크(fully convolutional network)(FCN) 아키텍처 상에서 모델링될 수 있다. 404에서 418까지의 이하의 예시적인 동작들은 시맨틱 분할 네트워크(402)의 훈련 프로세스의 상세사항을 강조한다. 이하의 예시적인 동작들은 또한, 시맨틱 분할 네트워크(402)의 훈련에 있어서 보조 스트라이드에서의 보조 손실(예를 들어, 시맨틱 분할 네트워크(402)의 보조 계층의 피처 맵에 대한 소프트-할당된 라벨에 대한 보조 교차-엔트로피 손실)의 애플리케이션을 예시한다.

404에서, 데이터 취득 동작이 수행될 수 있다. 데이터 취득 동작에서, 회로(202)는 컬러 이미지 시퀀스를 포함할 수 있는 훈련 데이터세트를 취득할 수 있다. 훈련 데이터세트의 한 예는, 시맨틱 이미지 분할을 위해 심층 신경망을 훈련시키고, 도시 거리 장면을 이해하고, 훈련된 심층 신경망의 상대적 성능과 정확도를 벤치마킹하는데 이용될 수 있는, 도시 거리 이미지의 데이터세트일 수 있다. 도시된 바와 같이, 예를 들어, 훈련 데이터세트 내의 컬러 이미지 시퀀스는, 차량, 도로, 보행자, 포장 도로, 간판 및 조명기구 등의 도시 구조물 및 객체를 포함할 수 있는, 도시 거리 장면의 제1 컬러 이미지(404a)를 포함한다.

본 명세서에 도시된 바와 같이, 시맨틱 분할 네트워크(402)는 인코더-디코더 아키텍처에 기초할 수 있고, 인코더 네트워크(402a), 및 인코더 네트워크(402a)의 출력에 접속된 디코더 네트워크(402b)를 포함할 수 있다. 시맨틱 분할 네트워크(402)의 예시적인 블록-레벨 아키텍처가 예를 들어 도 5에 제공된다. 전술된 계층/블록의 상세사항은 또한, 예를 들어, 도 5a, 5b, 5c 및 5d에서 상세히 다루어진다.

회로(202)는, 다중-클래스 분류 작업, 예를 들어 시맨틱 이미지 분할 작업을 위한 시맨틱 분할 네트워크(402)의 입력 계층에 제1 컬러 이미지(404a)를 입력할 수 있다. 인코더 네트워크(402a)는 초기 스트라이드에서 입력으로서 제1 컬러 이미지(404a)를 수신하고 피처 맵을 출력할 수 있다. 출력 피처 맵은 초기 스트라이드의 배수일 수 있는 제1 스트라이드에 있을 수 있다. 여기서, 스트라이드란, 제1 컬러 이미지(404a)의 크기에 대한 피처 맵의 크기 비율을 나타내는 출력 스트라이드를 지칭할 수 있다. 예를 들어, 크기 2048 x 1024 픽셀의 제1 컬러 이미지(404a)에 대해 초기 스트라이드가 "1"이면, 인코더 네트워크(402a)의 출력에서의 스트라이드 32는 출력 피처 맵의 크기가 64 x 32임(즉, 제1 컬러 이미지(404a) 크기의 1/32)을 나타낼 수 있다.

회로(202)는, 시맨틱 분할 네트워크(402)로부터 보조 계층을 선택할 수 있다. 선택된 보조 계층은, 최적의 파라미터 크기 및 감소된 메모리 이용률을 달성하도록, 시맨틱 분할 네트워크(402)를 훈련하는데 있어서 보조 손실(즉, 보조 교차-엔트로피(CE) 손실)이 적용될 수 있는 보조 스트라이드(예를 들어, 1과 32 사이)에 대응할 수 있다. 적어도 하나의 실시예에서, 보조 계층은 시맨틱 분할 네트워크(402)에 대한 성능 측정치에 기초하여 시맨틱 분할 네트워크(402)의 디코더 네트워크(402b)로부터 선택될 수 있다. 예를 들어, 표 1에 도시된 바와 같이, 성능 측정치는 시맨틱 분할 네트워크(402)의 훈련에서 상이한 스트라이드들에서 계산된 파라미터들에 의한 메모리 이용량에 기초할 수 있다. 표 1에 기초하여, 보조 CE 손실은 [8, 16, 32]의 스트라이드에서 시맨틱 분할 네트워크(402)를 훈련시키는데 선호될 수 있는 반면, 업샘플링된 점수에 관한 Hard-CE 손실은 32의 스트라이드에서만 유지될 수 있다. 이것은 보조 CE 손실이 시맨틱 분할 네트워크(402)에 대한 큰 입력 크기를 지원할 수 있다는 것을 나타낼 수 있다.

표 1에서, Soft-CE 손실이란, 시맨틱 분할 네트워크(402)의 보조 계층의 피처/점수 맵에 대해 소프트 할당된 라벨(즉, 0과 1 사이의 확률 분포)에 관한 CE 손실을 말한다. Hard-CE 손실이란, 시맨틱 분할 네트워크(402)의 보조 계층의 피처/점수 맵에 대해 하드 할당된 라벨(즉, 2진 라벨 0 및 1)에 관한 CE 손실을 말한다.

표 1: 시맨틱 분할 네트워크(402)를 훈련시키는 동안 보조 손실 메모리 이용량의 삭감 연구

표 2: 유효성확인 세트 성능에 영향을 미치는 상이한 보조 손실 전략들을 갖는 삭감 연구

여기서 표 1 및 표 2에 제공된 데이터는 단순히 실험 데이터로 간주되어야 하며 본 개시내용을 제한하는 것으로 해석되어서는 안된다는 점에 유의해야 한다. 예를 들어, 표 2에 표시된 것처럼 성능-측정치는 유효성확인 데이터세트에 관한 %million IoU(Intersection-over-Union)에 기초할 수 있다. 표 2는 보조 손실 유형이 유효성확인 데이터세트에 관한 시맨틱 분할 네트워크(402)의 성능에 어떻게 영향을 미칠 수 있는지를 보여준다. 표 2에 추가로 나와 있는 바와 같이, 복수의 보조 스트라이드에 적용된 Soft-CE 보조 손실은 최상으로 달성될 수 있다. 시맨틱 분할 네트워크(402)는, 입력된 제1 컬러 이미지(404a)에 기초하여 시맨틱 분할 네트워크(402)의 보조 계층(또는 선택된 보조 계층(들))의 출력으로서 보조 스트라이드에서 제1 피처 맵을 생성할 수 있다.

406에서, 피처 맵 추출 동작이 수행될 수 있다. 피처 맵 추출 동작에서, 회로(202)는 생성된 제1 피처 맵을 시맨틱 분할 네트워크(402)의 보조 계층으로부터 추출할 수 있다. 예를 들어, 표 1과 표 2에 기초하여, 스트라이드 [4, 8, 16, 32]에서의 보조 계층이 선택되고 보조 계층으로부터의 각각의 피처 맵이 추출되어, 이러한 보조 계층에서, 시맨틱 분할 네트워크(402)의 훈련의 일부로서, 보조 손실이 적용될 수 있게 할 수 있다.

전형적으로, 훈련 프로세스에서, 보조 손실은, 네트워크를 정규화하여 큰 스트라이드 피처에서 인코딩된 더 양호한 시맨틱 컨텍스트를 학습하는데 종종 이용된다. 그러나, 많은 보조 손실을 갖는 것은, 훈련을 위해 메모리(예를 들어, GPU 메모리)를 소비하고, 제한된 범위에서 배치 크기와 입력 해상도를 제한할 수 있다(즉, 입력을 잘라낼 필요가 있음). 이것은 또한, 표 1에 표시된 데이터에서도 예시된다. 전형적으로, 큰 스트라이드(예를 들어, 16/32)에서, 보조 손실을 계산하기 위해 실측 확률 맵이 이용된다. 실측 확률 맵이 다운샘플링되는 경우(예를 들어, 입력 해상도의 1/32), 실측 확률 맵의 공간 정보가 절삭되고, 풍부한 공간 컨텍스트 정보가 상실될 수 있다. 전형적인 솔루션은, 보조 스트라이드의 피처 맵을 초기 스트라이드(즉, 제1 컬러 이미지(404a)의 입력 해상도/크기)로 업샘플링하고 보조 손실을 계산하는 것일 수 있지만, 이것은 메모리를 희생할 수 있다. 따라서, 피처 맵에 2진 값(0 또는 1)이 할당되는 하드 할당 대신, 피처 맵에 소프트 라벨이 할당된 소프트 할당(즉, 0과 1 사이의 부동 소수점 값을 갖는 확률 분포)이 선호될 수 있다.

408에서, 확률 맵 계산 동작이 수행될 수 있다. 확률 맵 계산 동작에서, 회로(202)는, 추출된 제1 피처 맵에 기초하여, 다중-클래스 분류 작업의 클래스 세트에 관해 소프트 라벨 세트로서 확률 맵을 계산할 수 있다. 소프트 라벨 세트는 0과 1 사이의 부동 소수점 값을 포함할 수 있고, 다중-클래스 분류 작업의 클래스 세트에 관한 확률 분포를 나타낼 수 있다. 예를 들어, 시맨틱 분할 네트워크(402)의 보조 계층으로부터 추출된 제1 피처 맵의 각각의 값에 대해, 각각의 소프트 라벨이 계산되고 할당될 수 있다. 각각의 소프트 라벨은 0과 1의 부동 소수점 값일 수 있고, 클래스 세트(예를 들어, 클래스 0, 1... 24) 중의 특정한 클래스(예를 들어, 클래스 ID)를 나타낼 수 있다. 표 3은 예를 들어, 표 3에 제공된 도시 거리 장면에 대한 8개의 클래스 목록과 8개의 클래스 ID를 제공한다.

표 3: 도시 거리 장면에 대한 클래스들 및 클래스 ID들

소프트 할당은, 2진 값들 중 하나가 피처 맵의 각각의 값에 할당되는 전형적인 하드 할당과는 상이할 수 있다. 보조 스트라이드에 대한 모든 소프트 라벨을 포함하는 결과 행렬은, 다중-클래스 분류 작업의 클래스 세트에 관한 확률 맵 또는 확률 분포라고 할 수 있다.

보조 손실이 계산될 수 있기 전에, 회로(202)는 또한, 보조 스트라이드에서, 클래스 세트에 관한 다중 라벨 확률 분포로서 실측 확률 맵(408a)을 계산할 수 있다. 보조 스트라이드에서 실측 확률 맵(408a)을 획득하기 위한 종래의 접근 법은, 초기 스트라이드(예를 들어, 1)의 실측 맵을 보조 스트라이드(예를 들어, 32)로 다운샘플링하는 것일 수 있다. 그러나, 그것은 제1 컬러 이미지(404a)에 원래 존재하는 공간 정보를 절삭할 수 있고 이러한 풍부한 공간 컨텍스트 정보가 상실될 수 있다. 따라서, 실측 확률 맵(408a)은, 보조 계층 이전의 시맨틱 분할 네트워크(402)의 하나 이상의 계층의 확률 맵에 기초하여 계산될 수 있다. 예를 들어, 보조 계층 이전의 하나 이상의 계층의 확률 맵은 평균 풀링되어(average pooled) 실측 확률 맵(408a)을 생성할 수 있다. 보조 계층에 대한 확률 맵과 유사하게, 실측 확률 맵(408a)은 또한 소프트 라벨을 포함할 수 있고, 실측 확률의 크기는 보조 스트라이드에 대한 확률 맵의 크기와 동일할 수 있다.

410에서, 보조 손실 계산 동작이 수행될 수 있다. 보조 손실 계산 동작에서, 회로(202)는 보조 스트라이드에서 계산된 확률 맵과 보조 스트라이드에서 계산된 실측 확률 맵(408a) 사이의 보조 CE 손실을 계산할 수 있다. 여기서, 보조 CE 손실은, 대개 분류 작업의 경우에 해당되는, 하드 라벨 할당에서의 CE 손실(Hard-CE)이라는 용어와 구별하기 위해 소프트-CE 손실이라고도 할 수 있다. 예로서, 소프트-CE 손실은 다음과 같이 방정식 (1)로 주어질 수 있다:

(1)

여기서,

는 보조 계층에 의해 생성된 확률 맵이고,

는 스트라이드 j에서의 평균 풀링된 실측 확률 맵이고,

는 클래스이며,

은 스트라이드에서의 픽셀들이다.

방정식 (1)을 이용한 계산은 비용 볼륨 p, q에 관한 Kullback-Leibler(KL) 발산을 갖는 것과 동일할 수 있고, 여기서 q는 스트라이드 내에 있는 클래스간 확률을 인코딩한다. 여기서 각각의

는 원-핫 바이너리 맵(one-hot binary map)이 아닐 수 있다는 점에 유의한다. 큰 스트라이드에서도, 소프트-CE 손실은 각각의 스트라이드 사이에 있는 시맨틱 컨텍스트 정보를 학습할 수 있다. 스트라이드 1에서의 확률 맵은 라벨의 원-핫 인코딩에 의해 작성된 다음, 각각의 보조 스트라이드에 평균 풀링될 수 있다. 풀링 후, 확률 맵은 소프트-CE 손실을 계산하는데 이용될 수 있는 다중-라벨 분포를 포함할 수 있다. 이를 통해, 시맨틱 분할 네트워크(402)가 훈련되는 동안 공간 및 시맨틱 컨텍스트 정보가 메모리 효율적인 방식으로 보존될 수 있다. 소프트-CE 손실의 애플리케이션과 함께, 경사 계산은 훈련 시간 동안 극적으로 적은 메모리를 이용할 수 있다. 소프트-CE 손실이 메모리 효율적일 수 있으므로; 따라서, 시맨틱 분할 네트워크(402)의 훈련을 위한 입력으로서 큰 크기(예를 들어, 2048 픽셀 x 1024 픽셀)를 갖는 이미지를 제공하는 것이 가능할 수 있다. 대조적으로, 많은 종래의 훈련 방법은 배치 크기와 메모리 공간 사이의 균형을 유지하기 위해 입력 이미지를 자르려고 시도한다. 또한, 표 1 및 표 2를 참조하면, 소프트-CE 손실의 이용은, 특히 시맨틱 분할 네트워크(402)의 훈련에서 (예를 들어, 감소된 크기의 경사 파라미터를 갖는) 역전파 방법에 대해 메모리 이용량을 억제하는데 도움이 될 수 있다. 또한, 소프트-CE 손실은 시맨틱 분할 네트워크(402)의 훈련에서 더 큰 입력 해상도(예를 들어, HD(High-Definition), Full-HD, 또는 4K 해상도)를 갖는 입력 및 더 양호한 IoU 성능을 보이는 더 큰 미니배치 크기(minibatch size)를 허용할 수 있다.

412에서, 최종 점수 맵 추출이 수행될 수 있다. 최종 점수 맵 추출에서, 회로(202)는 시맨틱 분할 네트워크(402)의 출력 계층으로부터 최종 점수 맵을 추출할 수 있다. 최종 점수 맵은 입력된 제1 컬러 이미지(404a)에 대한 시맨틱 분할 네트워크(402)의 출력에 대응할 수 있고 인코더 네트워크(402a)의 초기 스트라이드에서 디코더 네트워크(402b)에 의해 생성될 수 있다.

적어도 하나의 실시예에서, 보조 스트라이드(예를 들어, "4")에서의 초기 점수 맵은, 디코더 네트워크(402b)의 채점 계층(예를 들어, 도 5a의 채점 계층(526) 또는 도 6의 채점 계층(622))에 의해 계산될 수 있다. 이 경우, 채점 계층은 시맨틱 분할 네트워크(402)의 출력 계층보다 선행할 수 있다. 초기 점수 맵의 크기가 입력된 컬러 이미지(즉, 제1 컬러 이미지(404a))의 크기보다 작기 때문에; 따라서, 픽셀별 분류의 경우, 초기 점수 맵은 초기 스트라이드(예를 들어, 1)로 업샘플링될 필요가 있다. 따라서, 출력 계층에서, 디코더 네트워크(402b)는 초기 스트라이드, 즉, "1"에서 초기 점수 맵을 최종 점수 맵으로 업샘플링할 수 있다.

제한이 아닌 예로서, 디코더 네트워크(402b)는 제1 스트라이드(예를 들어, 32)에서 인코더 네트워크(402a)로부터 피처 맵을 수신할 수 있고, 초기 스트라이드(예를 들어, 1)에서 최종 점수 맵을 다시 출력할 수 있다. 여기서, 최종 점수 맵의 해상도는 시맨틱 분할 네트워크(402)에 대한 입력으로서 제공되는 제1 컬러 이미지(404a)의 해상도와 동일할 수 있다. 즉, 제1 컬러 이미지(404a)의 각각의 픽셀에 대해, 대응하는 점수 값이 최종 점수 맵에 존재할 수 있다.

414에서, 최종 손실 계산이 수행될 수 있다. 최종 손실 계산에서, 회로(202)는 추출된 최종 점수 맵에 기초하여 최종 CE 손실을 계산할 수 있다. 최종 CE 손실은, 예를 들어, 추출된 최종 점수 맵과 초기 스트라이드(즉, 1)에서 실측 확률 맵 사이에서 계산된 히스토그램 가중된 소프트-맥스 교차-엔트로피 손실일 수 있다.

416에서, 전역적 손실-측정치 추정이 수행될 수 있다. 전역적 손실-측정치 추정에서, 회로(202)는 계산된 보조 교차-엔트로피 손실 및 계산된 최종 교차-엔트로피 손실에 기초하여 시맨틱 분할 네트워크(402)에 대한 전역적 손실-측정치를 추정할 수 있다. 예를 들어, 시맨틱 분할 네트워크(402)를 훈련시키기 위해, 하이브리드 손실 함수의 값으로서 전역적 손실-측정치는 다음과 같이 방정식 (2)를 이용하여 추정될 수 있다:

(2)

여기서, L은 하이브리드 손실 함수일 수 있고,

는, 412에서 최종 점수 맵에 관해 계산된 히스토그램 가중된 소프트-맥스 CE-손실일 수 있고,

는 각각의 보조 스트라이드에 관한 (410에서의) 보조 손실일 수 있고,

는 선형 조합에 대한 계수 파라미터일 수 있다.

418에서, 네트워크 훈련 동작이 수행될 수 있다. 네트워크 훈련 동작에서, 회로(202)는 (410에서 추정된) 보조 CE 손실에 기초하여 다중-클래스 분류 작업을 위해 시맨틱 분할 네트워크(402)를 훈련시킬 수 있다. 추가로, 소정 실시예에서, 시맨틱 분할 네트워크(402)는 추정된 전역적 손실-측정치에 기초하여 추가로 훈련될 수 있다. 예를 들어, 시맨틱 분할 네트워크(402)의 훈련에서, 시맨틱 분할 네트워크(402)의 상이한 계층들 내의 노드/뉴런에 대한 가중치는 추정된 전역적 손실-측정치가 최소가 될 때까지 반복적으로 업데이트될 수 있다. 이것은, 보조 CE 손실과 최종 CE 손실 양쪽 모두가 반복적으로 계산될 수 있고, 가중치가 적절한 최적화 방법에 기초하여 업데이트될 수 있다는 것을 의미할 수 있다. 예를 들어, 베타 = [0.9, 0.999] 및 초기 학습률 1e^3, 미니배치 크기 18을 갖는 Adam 최적화 방법이 이용될 수 있다. 또한, 50 epoch 당 0.5의 단계 학습률 감쇠 계수(step learning rate decay factor)가 이용될 수 있다.

종래의 FCN-기반의 네트워크와 달리, 시맨틱 분할 네트워크(402)는, 일단 훈련되고 나면, 감소된 계산 복잡성, 감소된 파라미터 크기, 및 시맨틱 분할 네트워크(402)의 출력에서 입력 이미지 프레임의 시맨틱 컨텍스트와 공간적 컨텍스트 사이의 균형을 제공할 수 있다. 대조적으로, 종래의 FCN-기반의 네트워크는, 더 높은 계산 복잡성(예를 들어, Giga Floating Point Operations(GFLOPS) 또는 백만 IoU 측면에서), 훈련에서의 더 많은 수의 경사 계산으로 인한 더 큰 파라미터 크기, 종래의 시맨틱 분할 네트워크의 더 깊은 계층에서의 시맨틱 컨텍스트 및 공간 컨텍스트의 더 큰 손실을 갖는다. 일단 훈련되고 나면, 시맨틱 분할 네트워크(402)는 컬러 이미지에서 캡처된 장면의 복잡한 시맨틱 구조를 이해하는데 적합할 수 있으며, 특히 시맨틱 분할 네트워크(402)의 출력을 이용하여 실시간 추론을 생성하고 복잡한 상황에서 적절한 결정을 내리는 애플리케이션에 적합할 수 있다. 예를 들어, 실시간 애플리케이션 중 하나는 자율 주행 차량(SDV)과 관련될 수 있다. SDV는 훈련된 시맨틱 분할 네트워크(402)를 배치하고 상황들에서 자율 제어를 위한 장면을 이해하기 위해 주변 환경의 실시간 비디오 피드를 배치된 시맨틱 분할 네트워크(402)에 제공할 수 있다. 배치된 시맨틱 분할 네트워크(402)의 출력은, 주행가능 영역(점유 맵)을 식별하거나 보도, 지형, 장애물, 보행자, 다른 차량, 벽, 기둥 등을 구별하는데 이용될 수 있다. 도 4에서, 404에서 418까지의 개개의 동작이 설명되었지만, 본 개시내용은 그렇게 제한되지 않을 수 있다. 따라서, 소정 실시예에서, 이러한 개개의 동작은, 개시된 실시예들의 본질을 손상시키지 않으면서 특정한 구현에 따라 추가 동작들로 추가로 분할되거나, 더 적은 수의 동작들로 결합되거나, 제거될 수 있다.

훈련 후, (408에서의) 확률 맵의 계산 및 (410에서의) 보조 CE 손실의 계산과 관련된 동작이 수행될 필요가 없을 수 있으므로, 훈련된 시맨틱 분할 네트워크(402)의 배치시에 동작 세트로부터 제거될 수 있다. 이러한 경우에, 훈련된 시맨틱 분할 네트워크(402)만이, 훈련된 시맨틱 분할 네트워크(402)에 대한 입력으로서 컬러 이미지에 대한 분류 결과를 생성하는데 이용될 수 있다.

도 5a는 본 개시내용의 한 실시예에 따른 시맨틱 분할 네트워크의 예시적인 아키텍처를 나타내는 다이어그램이다. 도 5를 참조하면, 시맨틱 분할 네트워크(500)의 예시적인 아키텍처가 도시되어 있다. 시맨틱 분할 네트워크(500)는 도 1의 시맨틱 분할 네트워크(500) 및 도 4의 시맨틱 분할 네트워크(402)의 한 예일 수 있다.

예시적인 아키텍처에서, 입력 계층(502), 콘볼루션 계층(504), 복수의 백본 블록을 포함하는 백본 계층(506)이 도시되어 있다. 백본 계층(506)에 후속해서, 공간 피라미드 풀링 계층(508) 및 1x1 콘볼루션/ReLU 계층(510), 제1 업샘플링 계층(512) 및 제1 풀링 계층(514)이 뒤따를 수 있다. 제1 풀링 계층(514)에 후속해서, ReLU6(516), 1x1 콘볼루션/배치 정규화 계층(518), 제2 업샘플링 계층(520), 및 제2 풀링 계층(522)이 뒤따를 수 있다. 제2 풀링 계층(522)에 후속해서 또한, ReLU6(524), 채점 계층(526) 및 출력 계층(528)이 뒤따를 수 있다. 추가적으로, 예시적인 아키텍처는 제1 브랜치(530) 및 제2 브랜치(532)를 포함할 수 있다. 제1 브랜치(530) 및 제2 브랜치(532) 양쪽 모두는 백본 계층(506)의 상이한 블록으로부터 분할될 수 있고 제2 풀링 계층(522) 및 제1 풀링 계층(514)에서 각각 병합될 수 있다.

입력 계층(502)은 입력으로서 컬러 이미지를 수신할 수 있고 입력을 콘볼루션 계층(504)에 전달할 수 있다. 콘볼루션 계층(504)은, 콘볼루션 함수, ReLU 및 배치 정규화 함수를 포함할 수 있다. 콘볼루션 계층(504)의 출력은 백본 계층(506)에 전달될 수 있는 피처 맵일 수 있다.

백본 계층(506)의 복수의 백본 블록은 블록1 & 2, 블록3, 블록4, 블록5, 블록6, 및 블록7을 포함할 수 있다. 복수의 백본 블록은 조밀하게-접속된 콘볼루션 신경망(이하, 조밀-망(dense-net)이라고 함)에 기초한다. 각각의 백본 블록은 콘볼루션 계층 그룹을 포함하는 적어도 하나의 조밀-블록을 포함할 수 있으며, 여기서 콘볼루션 계층 그룹의 각각의 콘볼루션 계층은 모든 이전 콘볼루션 계층에 접속될 수 있다. 또한, 각각의 콘볼루션 계층에서, 이전 계층으로부터의 피처 맵들이 연결될 수 있다. 조밀-블록은 또한, 하나 이상의 콘볼루션 계층 사이에 하나 이상의 전이 계층(transition layer)을 포함할 수 있다. 각각의 전이 계층은 백본 계층(506)의 그들 각각의 조밀-블록에서 이전 계층(들)의 활성화/피처 맵을 다운샘플링할 수 있고, 적절한 활성화 함수(예를 들어, ReLU) 및 배치 정규화 함수를 포함할 수 있다.

여기서, 시맨틱 분할 네트워크(500)는 공간 경로(534) 및 컨텍스트 경로(536)로 분기될 수 있다. 공간 경로와 컨텍스트 경로는 다시 풀링될 수 있다. 공간 경로(534)는, 시맨틱 분할 네트워크(500)가 훈련되는 동안 시맨틱 분할 네트워크(500)의 각각의 스트라이드에서 입력된 컬러 이미지의 공간 정보를 보존할 수 있다. 유사하게, 컨텍스트 경로(536)는, 시맨틱 분할 네트워크(500)는 훈련되는 동안, 각각의 스트라이드에서 입력된 컬러 이미지의 시맨틱 컨텍스트 정보를 보존할 수 있다.

공간 피처 분기(Spatial Feature Branching): 블록1 & 2의 제1 콘볼루션 블록의 출력은 공간 피처를 추출하기 위해 제1 브랜치(530)를 따라 분할될 수 있다. 여기서, 제1 브랜치(530)는 시맨틱 분할 네트워크(500)의 공간 경로(534)를 형성할 수 있다. 제1 콘볼루션 블록은, 입력된 컬러 이미지로부터 원시 형상 정보를 캡처하는 방법을 학습하는 경향이 있으므로, 제1 브랜치(530)는, 예를 들어, 나중에 제2 풀링 계층(522)과 융합될, 스트라이드 8로, 공간 피처를 추출할 수 있다.

컨텍스트 추출: 대부분이 입력된 컬러 이미지의 공간 해상도에서 비롯되는 계산 복잡성을 감소시키기 위하여, 조밀-블록 내의 전이 계층(들)은, 백본 계층(506)의 제1 조밀-블록에 피처 맵(들)이 제공되기 전에, 피처 맵(들)을 더 높은 스트라이드 레벨, 예를 들어, 8로 다운샘플링할 수 있다. 여기서, 복수의 백본 블록은 시맨틱 분할 네트워크(500)의 컨텍스트 경로(536)를 형성할 수 있다. 각각의 조밀-블록 내에서, 다수의 다운샘플링 스테이지(즉, 전이 계층)가 세번이 아닌 두번으로 감소될 수 있고 조밀-블록의 조밀-계층 내의 피처 맵에 팽창된 콘볼루션(dilated convolution)이 적용되어 파라미터 크기 및 계산 복잡성의 희생없이 수용 필드 크기를 증가시킬 수 있다.

공간 피라미드 풀링(Spatial Pyramid Pooling): 공간 피라미드 풀링 계층(508)은, 입력 피처 공간의 크기가 자동으로 주어진 복수의 스케일에 걸쳐 백본 계층(506)으로부터 출력 피처 맵(들)의 평균 풀링을 수행할 수 있는 동적 공간 풀링 방법을 채용할 수 있다. 예를 들어, 처음에, 전역적 평균 풀링이 수행될 수 있고, 여기서 피처 높이 및 폭 [h0, w0]은 공간 피라미드 풀링 계층(508)에서 이용되는 필터 커널의 크기 [kh₀, kw₀]와 동일할 수 있다. 전역적 평균 풀링에 후속해서 축소(downsizing) 동작이 뒤따를 수 있고, 여기서 필터 커널은 0.5배 만큼 축소될 수 있는 반면 필터 커널의 양쪽 [khj, kwj]는 4보다 크거나 같을 수 있다, 즉, khj = 4 또는 kwj = 4. 이것은 DPSP(Dynamic Pyramid Spatial Pooling)라고 지칭될 수 있다. DPSP 이후, DPSP로부터의 출력 피처 맵은 1x1 콘볼루션의 애플리케이션을 위해 1x1 콘볼루션/ReLU 계층(510)에 제공될 수 있고, 후속해서, 배치 정규화 및 ReLU 함수가 뒤따를 수 있다. 공간 피라미드 풀링 계층(508)의 출력은 입력된 컬러 이미지의 시맨틱 컨텍스트 정보를 포함할 수 있다.

융합 및 업샘플링(Fusion and Up-sample): 제2 풀링 계층(522)에서, (제2 브랜치(532) 및 공간 피라미드 풀링 계층(508)으로부터의) 시맨틱 컨텍스트 정보가 함께 융합될 수 있다. 유사하게, 제1 풀링 계층(514)에서, 제2 풀링 계층(522)으로부터의 시맨틱 컨텍스트 정보는 공간 정보(또는 제1 브랜치(530)로부터의 공간 피처)와 함께 융합될 수 있다. 제1 브랜치(530) 및 제2 브랜치(532)에 대한 융합은, ReLU 함수를 후속 동반하는 요소별 합산에 의해 수행될 수 있다. 제1 풀링 계층(514) 이전에, 제1 업샘플링 계층(512)은 공간 피라미드 풀링 계층(508)의 출력을 업샘플링하는데 이용될 수 있다. 유사하게, 제2 풀링 계층(522) 이전에, 제2 업샘플링 계층(520)은 제1 풀링 계층(514)의 출력을 추가로 업샘플링하는데 이용될 수 있다. 제1 브랜치(530) 이후에만, 배치 노옴(Batch Norm)을 갖는 추가 1x1 콘볼루션이 제1 풀링 계층(514)의 출력에 적용되어 피처 크기를 다음 스트라이드 레벨에 정렬할 수 있다. 제1 업샘플링 계층(512)의 출력 피처 맵 크기는 예를 들어 168일 수 있는 반면, 제2 업샘플링 계층(520)에 대한 출력 피처 맵 크기는 128이다. 공간 정보가 시맨틱 컨텍스트 정보와 융합되는 제2 풀링 계층(522) 이후, 스트라이드 8로 업스케일링된, 제2 풀링 계층(522)의 출력 피처 맵은, 입력된 컬러 이미지에 대한 최종 점수 맵을 출력할 수 있는 채점 계층(526)에 전달될 수 있다.

여기서, 도 5에 제공된 예시적인 아키텍처는 소프트-CE 손실에 관한 훈련을 위한 예로서 제공된 것일 뿐이며, 본 개시내용의 범위를 제한하는 것으로 해석되어서는 안된다는 점에 유의해야 한다. 시맨틱 분할 네트워크(500)의 훈련을 위한 개시된 동작(도 1 및 도 4)은 또한, 인코더-디코더 유형 아키텍처를 갖는 임의의 시맨틱 분할 네트워크에도 적용가능하다.

도 5b, 도 5c 및 도 5d는 본 개시내용의 한 실시예에 따른 도 5a의 예시적인 아키텍처에서의 브랜치 블록 및 업샘플링 계층을 나타내는 다이어그램이다. 도 5b, 도 5c 및 도 5d는, 도 1, 도 2, 도 3, 도 4 및 도 5a의 요소들과 연계하여 설명된다. 도 5b, 도 5c 및 도 5d를 참조하면, 도 5a의 시맨틱 분할 네트워크의 제1 브랜치(530), 제2 브랜치(532) 및 업샘플링 계층(538)이 도시되어 있다.

제1 브랜치(530)는, 3x3 콘볼루션, 후속하는 상위 경계가 6인 배치 정규화/ReLU 활성화, 1x1 콘볼루션, 및 배치 정규화를 포함할 수 있다. 여기서, ReLU란 정류된 선형 함수(rectified linear function)를 말한다. 제1 브랜치(530)는 시맨틱 분할 네트워크(500)의 공간 경로(534)를 따라 공간 정보로서 입력된 컬러 이미지의 공간 피처를 추출할 수 있다. 공간 경로(534)는 시맨틱 분할 네트워크(500)의 훈련 기간 동안 입력된 컬러 이미지의 공간 정보를 보존하는 것을 도울 수 있다.

제2 브랜치(532)는 1x1 콘볼루션 및 배치 정규화를 포함할 수 있다. 업샘플링 계층(538)은, 쌍선형 업샘플링 함수, 3x3 깊이별(Depth-Wise) 콘볼루션, 1x1 포인트별(Point-Wise) 콘볼루션, 및 배치 정규화를 포함할 수 있다. 업샘플링 계층(538)은, 제1 업샘플링 계층(512) 및 제2 업샘플링 계층(520) 양쪽 모두에 적용될 수 있으며, 이들 양쪽 모두는 적절한 스트라이드에서 피처 맵을 업스케일링하는데 이용된다.

도 6은 본 개시내용의 한 실시예에 따른 시맨틱 분할 네트워크의 또 다른 예시적인 아키텍처를 나타내는 다이어그램이다. 도 6은 도 1, 도 2, 도 3, 도 4, 도 5a 및 도 5b, 도 5c 및 도 5d의 요소들과 연계하여 설명된다. 도 6을 참조하면, 시맨틱 분할 네트워크(600)의 예시적인 아키텍처가 도시되어 있다. 시맨틱 분할 네트워크(600)는 도 1의 시맨틱 분할 네트워크(110) 및 도 4의 시맨틱 분할 네트워크(402)의 한 예일 수 있다.

예시적인 아키텍처에서, 시맨틱 분할 네트워크(600)는, 인코더 네트워크(602), 및 인코더 네트워크(602)의 출력에 접속된 디코더 네트워크(604)를 포함할 수 있다. 인코더 네트워크(602)는, 입력 계층(606), 조밀-블록 시퀀스(608), 및 전이 계층 시퀀스(610)를 포함할 수 있다. 인코더 네트워크(602)는 또한, 피라미드 공간 풀링 계층(612) 및 공간 경로 블록(614)을 포함할 수 있다.

디코더 네트워크(604)는, 업샘플링 계층(616), 콘볼루션 계층(618), 풀링 계층(620), 채점 계층(622), 및 출력 계층(624)을 포함할 수 있다. 공간 경로 블록(614)(제1 브랜치(530)과 동일)은, 조밀-블록 시퀀스(608) 중 하나로부터 분기할 수 있고 디코더 네트워크(604)의 풀링 계층(620)과 다시 병합될 수 있다. 조밀-블록 시퀀스(608)의 각각의 조밀-블록은, 제1 배치 정규화 계층(608a), 1x1 콘볼루션 계층(608b), 제2 배치 정규화 계층(608c), 3x3 깊이별(DW) 분리가능한 콘볼루션 계층(608d), 1x1 포인트별(PW) 분리가능한 콘볼루션 계층(608e), 및 연결 계층(608f)을 포함할 수 있다. 시맨틱 분할 네트워크의 블록/계층에 대한 상세사항은 이미, 도 1 및 도 5a, 도 5b, 도 5c 및 5d에서 제공되었으므로, 간결화를 위해 개시내용에서 생략된다.

도 7은 본 개시내용의 한 실시예에 따른 도 3의 전자 디바이스 상의 도 4의 시맨틱 분할 네트워크의 예시적인 구현을 나타내는 다이어그램이다. 도 7은 도 1, 도 3, 도 4, 도 5a, 도 5b, 도 5c, 도 5d 및 6의 요소들과 연계하여 설명된다. 도 7을 참조하면, 전자 디바이스(106) 상의 시맨틱 분할 네트워크(402)의 구현을 나타내는 다이어그램(700)이 도시되어 있다. 일단 시맨틱 분할 네트워크(402)가 도 4의 404 내지 418의 동작에 기초하여 시스템(102) 상에서 훈련되고 나면, 시맨틱 분할 네트워크(402)는 전자 디바이스(106) 등의 상이한 디바이스들 상에 배치될 준비가 될 수 있다.

일단 전자 디바이스(106) 상에 배치되고 나면, 메모리(304)는 시맨틱 분할 네트워크(402)를 저장하고 시맨틱 분할 네트워크(402)의 출력을 필요로 할 수 있는 애플리케이션의 프로그램 코드와 시맨틱 분할 네트워크(402)의 기능을 통합할 수 있다. 예시적인 애플리케이션은 자율 주행 차량의 자율 제어 애플리케이션일 수 있다. 자율 제어 애플리케이션은 시맨틱 분할 네트워크(402)의 출력에 의존하여 카메라 센서의 FOV 내의 다양한 객체 유형들을 구별하고, 실시간/준 실시간으로 적절한 운전 결정 또는 추론을 취할 수 있다.

전자 디바이스(106)에서, 회로(302)는 시맨틱 분할 네트워크(402)의 입력 계층에 컬러 이미지(702)를 입력할 수 있다. 예를 들어, 입력된 컬러 이미지(702)는, 자동차, 건물, 조명 기구, 간판, 도로, 보행자 등을 포함하는 도시 거리 장면과 연관될 수 있다. 일단 입력된 컬러 이미지(702)가 수신되고 나면, 시맨틱 분할 네트워크(402)는, 초기 스트라이드(즉, 1)에서의 점수 맵을 포함할 수 있는, 분류 결과 계산(704)을 수행할 수 있다. 점수 맵의 크기는 입력된 컬러 이미지(702)의 크기와 동일할 수 있으므로, 점수 맵의 각각의 포인트는 입력된 컬러 이미지(702)의 대응하는 픽셀의 클래스 라벨을 나타낼 수 있다.

분류 결과의 계산은 클래스의 최대 점수 지수를 포함할 수 있다. 훈련된 시맨틱 분할 네트워크(402)는 입력된 컬러 이미지(702)에 대한 확률 맵을 자체적으로 출력할 수 있으므로, 분류 결과는 클래스의 최대 점수 지수의 계산에 기초하여 획득될 수 있다. 예를 들어, 훈련된 시맨틱 분할 네트워크(402)의 출력은 볼륨 텐서([num_class x height x width])로 표현될 수 있다. 2D에서 최종 클래스 ID 맵 또는 최종 점수 맵을 획득하기 위해, 출력은 입력된 컬러 이미지(702)의 크기(즉, 높이 x 폭(픽셀 단위))로 재성형될 필요가 있을 수 있고, 여기서 각각의 픽셀은 소정의 클래스 ID 및 컬러 값에 할당된다. 이를 위해, 전자 디바이스(106)는 볼륨 텐서에 argmax 연산을 적용하여 클래스 채널의 최대 점수 지수를 추출할 수 있다. 그 후, 회로(302)는, 시맨틱 분할 네트워크(402)의 출력 계층으로부터, 입력된 컬러 이미지(702)의 각각의 픽셀에 대한 분류 결과를 추출할 수 있다. 분류 결과는, 예를 들어, 입력된 컬러 이미지(702)의 해상도와 동일한 해상도의 점수 맵을 포함할 수 있다. 점수 맵의 각각의 값은, 입력된 컬러 이미지(702)의 각각의 픽셀에 대해, 클래스 라벨 세트 중에서, 한 클래스 라벨을 예측할 수 있다.

그 다음, 회로(302)는 분류 결과에 기초하여 시맨틱 분할된 이미지(706)를 생성할 수 있다. 시맨틱 분할된 이미지(706)는 대응하는 컬러 세트로 채워진 영역 세트(708)를 포함할 수 있고, 영역 세트(708)의 각각의 영역은 다중-클래스 분류 작업의 특정한 클래스에 대응할 수 있다. 예를 들어, 시맨틱 분할된 이미지(706)는 나무 라벨에 속하는 픽셀을 하나의 컬러로, 자동차 라벨에 속하는 픽셀을 또 다른 컬러로, 건물 라벨에 속하는 픽셀을 또 다른 컬러로 나타낸다.

도 8은 본 개시내용의 한 실시예에 따른 소프트 교차-엔트로피 손실을 갖는 시맨틱 분할을 위한 예시적인 방법을 나타내는 플로차트이다. 도 8을 참조하면, 플로차트(800)가 도시되어 있다. 예시적인 방법의 동작은, 임의의 컴퓨팅 시스템, 예를 들어 도 2의 시스템(102)에 의해 실행될 수 있다. 플로차트(800)의 동작은 802에서 시작하여 804로 진행할 수 있다.

804에서, 제1 컬러 이미지는 시맨틱 분할 네트워크(110)의 입력 계층에 입력될 수 있다. 적어도 하나의 실시예에서, 회로(202)는 시맨틱 분할 네트워크(110)의 입력 계층에 제1 컬러 이미지를 입력할 수 있다. 시맨틱 분할 네트워크(110)는, 입력된 제1 컬러 이미지에 기초하여, 시맨틱 분할 네트워크(110)의 보조 계층의 출력으로서 보조 스트라이드에서 제1 피처 맵을 생성할 수 있다.

806에서, 제1 피처 맵은 시맨틱 분할 네트워크(110)의 보조 계층으로부터 추출될 수 있다. 적어도 하나의 실시예에서, 회로(202)는 시맨틱 분할 네트워크(110)의 보조 계층으로부터 제1 피처 맵을 추출할 수 있다.

808에서, 소프트 라벨 세트로서의 확률 맵은 추출된 제1 피처 맵에 기초하여 다중-클래스 분류 작업의 클래스 세트에 관해 계산될 수 있다. 적어도 하나의 실시예에서, 회로(202)는, 추출된 제1 피처 맵에 기초하여 다중-클래스 분류 작업의 클래스 세트에 관해 소프트 라벨 세트로서 확률 맵을 계산할 수 있다.

810에서, 보조 스트라이드에서 계산된 확률 맵과 실측 확률 맵 사이에서 보조 CE 손실이 계산될 수 있다. 적어도 하나의 실시예에서, 회로(202)는 보조 스트라이드에서 계산된 확률 맵과 실측 확률 맵 사이의 보조 CE 손실을 계산할 수 있다.

812에서, 시맨틱 분할 네트워크(110)는 계산된 보조 CE 손실에 기초하여 다중-클래스 분류 작업을 위해 훈련될 수 있다. 적어도 하나의 실시예에서, 회로(202)는 계산된 보조 CE 손실에 기초하여 다중-클래스 분류 작업을 위해 시맨틱 분할 네트워크(110)를 훈련시킬 수 있다. 제어는 종료로 간다.

본 개시내용의 다양한 실시예는, 소프트 교차-엔트로피 손실을 갖는 시맨틱 분할을 위한 시스템을 동작시키기 위해 머신 및/또는 컴퓨터에 의해 실행가능한 명령어들을 저장한 비일시적인 컴퓨터 판독가능한 매체 및/또는 저장 매체를 제공할 수 있다. 명령어들은, 머신 및/또는 컴퓨터로 하여금, 다중-클래스 분류 작업을 위해 시맨틱 분할 네트워크의 입력 계층에 제1 컬러 이미지를 입력하는 것을 포함하는 동작들을 수행하게 할 수 있다. 다중-클래스 분류 작업은 제1 컬러 이미지의 각각의 픽셀을 클래스 세트 중 하나로 분류하는 것에 대응할 수 있다. 동작들은, 보조 스트라이드에서 시맨틱 분할 네트워크에 의해, 입력된 제1 컬러 이미지에 기초하여 시맨틱 분할 네트워크의 보조 계층의 출력으로서 제1 피처 맵을 생성하는 것을 더 포함할 수 있다. 동작들은 생성된 제1 피처 맵을 보조 계층으로부터 추출하고 추출된 제1 피처 맵에 기초하여 다중-클래스 분류 작업의 클래스 세트에 관해 소프트 라벨 세트로서 확률 맵을 계산하는 단계를 더 포함할 수 있다. 동작은 보조 스트라이드에서 계산된 확률 맵과 실측 확률 맵 사이의 보조 교차-엔트로피 손실을 계산하는 것 및 계산된 보조 교차-엔트로피 손실에 기초하여 다중-클래스 분류 작업을 위해 시맨틱 분할 네트워크를 훈련하는 것을 더 포함할 수 있다.

본 개시내용의 다양한 실시예는, 소프트 교차-엔트로피 손실을 갖는 시맨틱 분할을 위한 전자 디바이스를 동작시키기 위해 머신 및/또는 컴퓨터에 의해 실행가능한 명령어들을 저장한 비일시적인 컴퓨터 판독가능한 매체 및/또는 저장 매체를 제공할 수 있다. 명령어들은, 머신 및/또는 컴퓨터로 하여금, 시맨틱 분할 네트워크의 보조 계층에 대한 보조 교차-엔트로피 손실에 기초하여 미리훈련된 시맨틱 분할 네트워크를 저장하는 것을 포함하는 동작을 수행하게 할 수 있다. 동작들은, 시맨틱 분할 네트워크의 입력 계층에 컬러 이미지를 입력하는 것, 시맨틱 분할 네트워크의 출력 계층으로부터, 입력된 컬러 이미지의 각각의 픽셀에 대한 분류 결과를 추출하는 것을 더 포함할 수 있다. 동작들은, 추출된 최종 점수 맵에 기초하여 시맨틱 분할된 이미지를 생성하는 것을 더 포함할 수 있다. 시맨틱 분할된 이미지는 대응하는 컬러 세트로 채워진 영역 세트를 포함할 수 있고, 영역 세트의 각각의 영역은 다중-클래스 분류 작업의 한 클래스에 대응할 수 있다.

본 개시내용의 소정 실시예들은 소프트 교차-엔트로피 손실을 갖는 시맨틱 분할을 위한 시스템 및 방법에서 발견될 수 있다. 본 개시내용의 다양한 실시예는 회로(202)(도 2)를 포함할 수 있는 시스템(102)(도 1)을 제공할 수 있다. 회로(202)는 다중-클래스 분류 작업을 위해 시맨틱 분할 네트워크(110)의 입력 계층(110a)에 제1 컬러 이미지를 입력하도록 구성될 수 있다. 다중-클래스 분류 작업은 제1 컬러 이미지의 각각의 픽셀을 클래스 세트 중 하나로 분류하는 것에 대응할 수 있다. 시맨틱 분할 네트워크(110)는, 입력된 제1 컬러 이미지에 기초하여, 시맨틱 분할 네트워크(110)의 보조 계층(116)의 출력으로서 보조 스트라이드에서 제1 피처 맵을 생성할 수 있다. 회로(202)는 추가로, 생성된 제1 피처 맵을 보조 계층(116)으로부터 추출하고 추출된 제1 피처 맵에 기초하여 다중-클래스 분류 작업의 클래스 세트에 관해 소프트 라벨 세트로서 확률 맵을 계산하도록 구성될 수 있다. 그 후, 회로(202)는 추가로, 보조 스트라이드에 대한 계산된 확률 맵과 실측 확률 맵 사이의 보조 교차-엔트로피 손실을 계산하고 계산된 보조 교차-엔트로피 손실에 기초하여 다중-클래스 분류 작업을 위해 시맨틱 분할 네트워크(110)를 훈련시키도록 구성될 수 있다.

한 실시예에 따르면, 시맨틱 분할 네트워크(110)는 인코더 네트워크(112) 및 인코더 네트워크(112)의 출력(112n)에 접속된 디코더 네트워크(114)를 포함할 수 있다. 인코더 네트워크(112)는 초기 스트라이드에서 입력으로서 제1 컬러 이미지를 수신할 수 있고, 제1 스트라이드에서 제2 피처 맵을 출력할 수 있다. 제1 스트라이드는 초기 스트라이드의 배수일 수 있다. 디코더 네트워크(114)는 제1 스트라이드에서 제2 피처 맵을 수신할 수 있고 초기 스트라이드에서 최종 점수 맵을 다시 출력할 수 있다.

한 실시예에 따르면, 회로(202)는 추가로, 시맨틱 분할 네트워크(110)에 대한 성능 측정치에 기초하여 시맨틱 분할 네트워크(110)의 디코더 네트워크(114)로부터 보조 계층(116)을 선택하도록 구성될 수 있다.

한 실시예에 따르면, 보조 스트라이드는 제1 컬러 이미지의 크기에 대한 제1 피처 맵의 크기의 비율에 대응할 수 있다. 마찬가지로, 제1 스트라이드는 제1 컬러 이미지의 크기에 대한 제2 피처 맵의 크기의 비율에 대응할 수 있다.

한 실시예에 따르면, 시맨틱 분할 네트워크(110)는, 시맨틱 분할 네트워크(110)의 출력 계층(528) 이전에 나중에 다시 풀링될 수 있는 공간 경로(534) 및 컨텍스트 경로(536)로 분기될 수 있다. 여기서, 공간 경로(534)는 시맨틱 분할 네트워크(110)가 훈련되는 동안 시맨틱 분할 네트워크(110)의 각각의 스트라이드에서 제1 컬러 이미지의 공간 정보를 보존할 수 있다. 유사하게, 컨텍스트 경로(536)는, 시맨틱 분할 네트워크(110)가 훈련되는 동안, 각각의 스트라이드에서 제1 컬러 이미지의 시맨틱 컨텍스트 정보를 보존할 수 있다.

한 실시예에 따르면, 인코더 네트워크(602)는, 입력 계층(606), 조밀-블록 시퀀스(608), 전이 계층 시퀀스(610), 피라미드 공간 풀링 계층(612), 및 공간 경로 블록(614)을 포함할 수 있다. 유사하게, 디코더 네트워크(604)는, 업샘플링 계층(616), 콘볼루션 계층(618), 풀링 계층(620) 및 채점 계층(622)을 포함할 수 있다. 공간 경로 블록(614)은, 조밀-블록(608)의 시퀀스 중 하나로부터 분기하여 디코더 네트워크(114)의 풀링 계층(620)과 다시 병합할 수 있다. 한 실시예에 따르면, 조밀-블록 시퀀스(608)의 각각의 조밀-블록은, 제1 배치 정규화 계층(608a), 1x1 콘볼루션 계층(608b), 제2 배치 정규화 계층(608c), 3x3 깊이별(DW) 분리가능한 콘볼루션 계층(608d), 1x1 포인트별(PW) 분리가능한 콘볼루션 계층(608e), 및 연결 계층(608f)을 포함할 수 있다.

한 실시예에 따르면, 회로(202)는 추가로, 보조 계층(116) 이전의 시맨틱 분할 네트워크(110)의 하나 이상의 계층의 확률 맵에 기초하여 클래스 세트에 관해 다중-라벨 확률 분포로서 실측 확률 맵(408a)을, 보조 스트라이드에서, 계산하도록 구성될 수 있다.

한 실시예에 따르면, 회로(202)는 추가로, 시맨틱 분할 네트워크(110)의 출력 계층(114n)으로부터 최종 점수 맵을 추출하도록 구성될 수 있다. 최종 점수 맵은 입력된 컬러 이미지에 대한 시맨틱 분할 네트워크(110)의 출력에 대응할 수 있다. 회로(202)는 추가로, 추출된 최종 점수 맵에 기초하여 최종 교차-엔트로피 손실을 계산하도록 구성될 수 있다. 계산된 최종 교차-엔트로피 손실은 예를 들어 히스토그램 가중 소프트-맥스 교차-엔트로피 손실일 수 있다. 회로(202)는 추가로, 계산된 보조 교차-엔트로피 손실 및 계산된 최종 교차-엔트로피 손실에 기초하여 시맨틱 분할 네트워크(110)에 대한 전역적 손실-측정치를 추정하고, 또한 추정된 전역적 손실-측정치에 기초하여 시맨틱 분할 네트워크(110)를 훈련시키도록 구성될 수 있다. 시맨틱 분할 네트워크(110)의 훈련은 추정된 전역적 손실-측정치가 최소가 될 때까지 시맨틱 분할 네트워크(110)의 상이한 계층들에 대한 가중치의 업데이트에 대응할 수 있다.

한 실시예에 따르면, 회로(202)는 추가로, 훈련된 시맨틱 분할 네트워크(110)에 제2 컬러 이미지를 입력하고, 훈련된 시맨틱 분할 네트워크(110)의 출력 계층(114n)으로부터, 입력된 제2 컬러 이미지의 각각의 픽셀에 대한 분류 결과를 추출하도록 구성될 수 있다. 그 후, 분류 결과에 기초하여, 회로(202)는 추가로, 대응하는 컬러 세트로 채워진 영역 세트를 포함하는 시맨틱 분할된 이미지를 생성하도록 구성될 수 있다. 영역 세트의 각각의 영역은 클래스 세트 중의 한 클래스에 대응할 수 있다.

본 개시내용은, 하드웨어, 또는 하드웨어와 소프트웨어의 조합으로 실현될 수 있다. 본 개시내용은, 적어도 하나의 컴퓨터 시스템에서 중앙집중식 방식으로, 또는 상이한 요소들이 수 개의 상호접속된 컴퓨터 시스템들에 걸쳐 분산되어 있을 수 있는 분산형 방식으로 실현될 수 있다. 여기서 설명된 방법을 실행하도록 적합화된 컴퓨터 시스템 또는 다른 장치가 적절할 수도 있다. 하드웨어 및 소프트웨어의 조합은, 로딩되고 실행될 때, 여기서 설명된 방법을 실행하도록 컴퓨터 시스템을 제어할 수 있는 컴퓨터 프로그램을 갖춘 범용 컴퓨터 시스템일 수 있다. 본 개시내용은 다른 기능들도 역시 수행하는 집적 회로의 일부를 포함하는 하드웨어로 실현될 수도 있다.

본 개시내용은 또한, 여기서 설명된 방법들의 구현을 가능케하고 컴퓨터 시스템에 로딩될 때 이들 방법을 실행할 수 있는 모든 피처들을 포함하는 컴퓨터 프로그램 제품에 임베딩될 수도 있다. 컴퓨터 프로그램은, 본 문맥에서, 정보 처리 능력을 가진 시스템으로 하여금, 특정 기능을, 곧바로, 또는 a) 또 다른 언어, 코드 또는 표기로의 변환; b) 상이한 자료 형태로의 재생산 중 어느 하나 또는 양쪽 모두 이후에, 수행하게 하도록 의도된 한 세트의 명령어로 이루어진, 임의의 언어로 된, 임의의 표현, 코드 또는 표기를 의미한다.

본 개시내용이 소정 실시예들을 참조하여 설명되었지만, 본 기술분야의 통상의 기술자라면, 본 개시내용의 범위로부터 벗어나지 않고 다양한 변경이 이루어질 수 있고 균등물로 대체될 수 있다는 것을 이해할 것이다. 또한, 특정한 상황 또는 재료를 본 개시내용의 교시에 맞게 그 본질적 범위로부터 벗어나지 않고 적합하게 개작하도록 많은 수정이 이루어질 수 있다. 따라서, 본 개시내용은 개시된 특정 실시예에 제한되지 않으며, 본 개시내용은 첨부된 청구항들의 범위 내에 속하는 모든 실시예를 포함하는 것으로 의도된다.

Claims

시스템으로서,
회로
를 포함하고,
상기 회로는:
다중-클래스 분류 작업을 위해 시맨틱 분할 네트워크(semantic segmentation network)의 입력 계층에 제1 컬러 이미지를 입력하고 ― 상기 시맨틱 분할 네트워크는 보조 스트라이드(auxiliary stride)에서, 상기 입력된 제1 컬러 이미지에 기초하여 상기 시맨틱 분할 네트워크의 보조 계층의 출력으로서 제1 피처 맵(feature map)을 생성함 ―;
상기 생성된 제1 피처 맵을 상기 보조 계층으로부터 추출하고;
상기 추출된 제1 피처 맵에 기초하여, 상기 다중-클래스 분류 작업의 클래스 세트(set of classes)에 관해 소프트 라벨 세트(set of soft labels)로서 확률 맵을 계산하고;
상기 보조 스트라이드에 대한 상기 계산된 확률 맵과 실측 확률 맵 사이의 보조 교차-엔트로피 손실(auxiliary cross-entropy loss)을 계산하고;
상기 시맨틱 분할 네트워크의 출력 계층으로부터 최종 점수 맵을 추출하고 ― 상기 최종 점수 맵은 상기 입력된 컬러 이미지에 대한 상기 시맨틱 분할 네트워크의 출력에 대응함 ―;
상기 추출된 최종 점수 맵에 기초하여 최종 교차-엔트로피 손실을 계산하고;
상기 계산된 보조 교차-엔트로피 손실 및 상기 계산된 최종 교차-엔트로피 손실에 기초하여 상기 다중-클래스 분류 작업을 위해 상기 시맨틱 분할 네트워크를 훈련시키도록
구성되는, 시스템.
제1항에 있어서, 상기 시맨틱 분할 네트워크는 인코더 네트워크, 및 상기 인코더 네트워크의 출력에 접속된 디코더 네트워크를 포함하고,
상기 인코더 네트워크는 초기 스트라이드에서 상기 입력으로서 상기 제1 컬러 이미지를 수신하고 제1 스트라이드에서 제2 피처 맵을 출력하며,
상기 제1 스트라이드는 상기 초기 스트라이드의 배수이고,
상기 디코더 네트워크는 상기 제1 스트라이드에서 상기 제2 피처 맵을 수신하고 상기 초기 스트라이드에서 최종 점수 맵을 다시 출력하는, 시스템.
제2항에 있어서, 상기 회로는 추가로, 상기 시맨틱 분할 네트워크에 대한 성능-측정치(performance-measure)에 기초하여 상기 시맨틱 분할 네트워크의 디코더 네트워크로부터 상기 보조 계층을 선택하도록 구성되는, 시스템.
제2항에 있어서, 상기 보조 스트라이드는 상기 제1 컬러 이미지의 크기에 대한 상기 제1 피처 맵의 크기의 비율에 대응하고,
상기 제1 스트라이드는 상기 제1 컬러 이미지의 크기에 대한 상기 제2 피처 맵의 크기의 비율에 대응하는, 시스템.
제2항에 있어서, 상기 인코더 네트워크는 입력 계층, 조밀-블록 시퀀스(sequence of Dense-Blocks), 전이 계층 시퀀스(sequence of transition layers), 피라미드 공간 풀링 계층, 및 공간 경로 블록을 포함하고,
상기 디코더 네트워크는 업샘플링 계층, 콘볼루션 계층, 풀링 계층, 채점 계층, 및 출력 계층을 포함하며,
상기 공간 경로 블록은 상기 조밀-블록 시퀀스 중 하나로부터 분기되어 상기 디코더 네트워크의 풀링 계층과 다시 병합되는, 시스템.
제5항에 있어서, 상기 조밀-블록 시퀀스의 각각의 조밀-블록은 제1 배치 정규화 계층, 1x1 콘볼루션 계층, 제2 배치 정규화 계층, 3x3 깊이별(Depth-Wise)(DW) 분리가능한 콘볼루션 계층, 1x1 포인트별(Point-Wise)(PW) 분리가능한 콘볼루션 계층, 및 연결 계층을 포함하는, 시스템.
제1항에 있어서, 상기 시맨틱 분할 네트워크는 공간 경로 및 컨텍스트 경로로 분기되고,
상기 공간 경로 및 상기 컨텍스트 경로는 상기 시맨틱 분할 네트워크의 출력 계층 이전에 다시 풀링되며,
상기 공간 경로는 상기 시맨틱 분할 네트워크가 훈련되는 동안, 상기 시맨틱 분할 네트워크의 각각의 스트라이드에서 상기 제1 컬러 이미지의 공간 정보를 보존하고,
상기 컨텍스트 경로는 상기 시맨틱 분할 네트워크가 훈련되는 동안, 각각의 스트라이드에서 상기 제1 컬러 이미지의 시맨틱 컨텍스트 정보를 보존하는, 시스템.
제1항에 있어서, 상기 회로는 추가로, 상기 보조 계층 이전의 상기 시맨틱 분할 네트워크의 하나 이상의 계층의 확률 맵들에 기초하여 상기 클래스 세트에 관해 다중-라벨 확률 분포로서 상기 실측 확률 맵을, 상기 보조 스트라이드에서, 계산하도록 구성되는, 시스템.
삭제
제1항에 있어서, 상기 계산된 최종 교차-엔트로피 손실은 히스토그램 가중된 소프트-맥스 교차-엔트로피 손실(histogram weighted soft-max cross-entropy loss)인, 시스템.
제1항에 있어서, 상기 회로는 추가로:
상기 계산된 보조 교차-엔트로피 손실 및 상기 계산된 최종 교차-엔트로피 손실에 기초하여 상기 시맨틱 분할 네트워크에 대한 전역적 손실-측정치를 추정하고;
상기 추정된 전역적 손실-측정치에 추가로 기초하여 상기 시맨틱 분할 네트워크를 훈련시키도록
구성되는, 시스템.
제11항에 있어서, 상기 시맨틱 분할 네트워크를 훈련시키는 것은 상기 추정된 전역적 손실-측정치가 최소가 될 때까지 상기 시맨틱 분할 네트워크의 상이한 계층들에 대한 가중치들의 업데이트에 대응하는, 시스템.
제1항에 있어서, 상기 다중-클래스 분류 작업은 상기 제1 컬러 이미지의 각각의 픽셀을 상기 클래스 세트 중 하나로 분류하는 것에 대응하는, 시스템.
제1항에 있어서, 상기 회로는 추가로:
상기 훈련된 시맨틱 분할 네트워크에 제2 컬러 이미지를 입력하고;
상기 훈련된 시맨틱 분할 네트워크의 출력 계층으로부터, 상기 입력된 제2 컬러 이미지의 각각의 픽셀에 대한 분류 결과를 추출하며;
상기 분류 결과에 기초하여 대응하는 컬러 세트로 채워진 영역 세트를 포함하는 시맨틱 분할된 이미지를 생성하도록
구성되고,
상기 영역 세트의 각각의 영역은 상기 클래스 세트의 특정한 클래스에 대응하는, 시스템.
전자 디바이스로서,
시맨틱 분할 네트워크의 보조 계층에 대한 보조 교차-엔트로피 손실 및 최종 교차-엔트로피 손실에 기초하여 미리훈련된 시맨틱 분할 네트워크를 저장하도록 구성된 메모리 ― 상기 최종 교차-엔트로피 손실은 상기 시맨틱 분할 네트워크의 출력 계층으로부터 추출된 최종 점수 맵에 기초하고, 상기 최종 점수 맵은 컬러 이미지에 대한 상기 시맨틱 분할 네트워크의 출력에 대응함 ―; 및
회로
를 포함하고,
상기 회로는:
상기 시맨틱 분할 네트워크의 입력 계층에 상기 컬러 이미지를 입력하고;
상기 시맨틱 분할 네트워크의 상기 출력 계층으로부터, 상기 입력된 컬러 이미지의 각각의 픽셀에 대한 분류 결과를 추출하고;
상기 추출된 분류 결과에 기초하여 시맨틱 분할된 이미지를 생성하도록
구성되고,
상기 시맨틱 분할된 이미지는 대응하는 컬러 세트로 채워진 영역 세트를 포함하고,
상기 영역 세트의 각각의 영역은 다중-클래스 분류 작업의 특정한 클래스에 대응하는, 전자 디바이스.
방법으로서,
다중-클래스 분류 작업을 위해 시맨틱 분할 네트워크의 입력 계층에 제1 컬러 이미지를 입력하는 단계 ― 상기 시맨틱 분할 네트워크는 보조 스트라이드에서, 상기 입력된 제1 컬러 이미지에 기초하여 상기 시맨틱 분할 네트워크의 보조 계층의 출력으로서 제1 피처 맵을 생성함 ―;
상기 제1 피처 맵을 상기 보조 계층으로부터 추출하는 단계;
상기 추출된 제1 피처 맵에 기초하여, 상기 다중-클래스 분류 작업의 클래스 세트에 관해 소프트 라벨 세트로서 확률 맵을 계산하는 단계;
상기 보조 스트라이드에 대한 상기 계산된 확률 맵과 실측 확률 맵 사이의 보조 교차-엔트로피 손실을 계산하는 단계;
상기 시맨틱 분할 네트워크의 출력 계층으로부터 최종 점수 맵을 추출하는 단계 ― 상기 최종 점수 맵은 상기 입력된 컬러 이미지에 대한 상기 시맨틱 분할 네트워크의 출력에 대응함 ―;
상기 추출된 최종 점수 맵에 기초하여 최종 교차-엔트로피 손실을 계산하는 단계; 및
상기 계산된 보조 교차-엔트로피 손실 및 상기 계산된 최종 교차-엔트로피 손실에 기초하여 상기 다중-클래스 분류 작업을 위해 상기 시맨틱 분할 네트워크를 훈련시키는 단계
를 포함하는, 방법.
제16항에 있어서, 상기 보조 계층 이전의 상기 시맨틱 분할 네트워크의 하나 이상의 계층의 확률 맵에 기초하여 상기 클래스 세트에 관해 다중-라벨 확률 분포로서 상기 실측 확률 맵을, 상기 보조 스트라이드에서, 계산하는 단계를 더 포함하는, 방법.
삭제
제16항에 있어서,
상기 계산된 보조 교차-엔트로피 손실 및 상기 계산된 최종 교차-엔트로피 손실에 기초하여 상기 시맨틱 분할 네트워크에 대한 전역적 손실-측정치를 추정하는 단계; 및
상기 추정된 전역적 손실-측정치에 추가로 기초하여 상기 다중-클래스 분류 작업에 관해 상기 시맨틱 분할 네트워크를 훈련시키는 단계
를 더 포함하는, 방법.
제16항에 있어서,
상기 훈련된 시맨틱 분할 네트워크에 제2 컬러 이미지를 입력하는 단계;
상기 훈련된 시맨틱 분할 네트워크의 출력 계층으로부터, 상기 입력된 제2 컬러 이미지의 각각의 픽셀에 대한 분류 결과로서 최종 점수 맵을 추출하는 단계; 및
상기 추출된 최종 점수 맵에 기초하여 대응하는 컬러 세트로 채워진 영역 세트를 포함하는 시맨틱 분할된 이미지를 생성하는 단계
를 더 포함하고,
상기 영역 세트의 각각의 영역은 상기 클래스 세트의 특정한 클래스에 대응하는, 방법.