KR102657335B1

KR102657335B1 - 자율 주행에서의 시맨틱 적대적 생성 기반 기능 테스트 방법

Info

Publication number: KR102657335B1
Application number: KR1020210055608A
Authority: KR
Inventors: 악셀 벤트; 리앙 구; 린칸 추; 리우 렌
Original assignee: 로베르트 보쉬 게엠베하
Priority date: 2020-04-30
Filing date: 2021-04-29
Publication date: 2024-04-16
Also published as: JP2021174556A; US11301724B2; CN113590457A; DE102021204172A1; KR20210134240A; US20210342647A1; JP7359802B2

Abstract

시스템은 객체로부터 이미지 정보를 획득하도록 구성되는 카메라를 포함한다. 시스템은 또한 카메라와 통신하는 프로세서로서, 이미지 정보를 포함하는 입력 데이터를 수신하고, 인코더를 통해 입력을 인코딩하고, 입력 데이터의 속성을 정의하는 잠재 변수를 획득하고, 적어도 잠재 변수 및 적대적 노이즈를 이용하여 입력 데이터의 순차적 재구성을 생성하고, 잠재 공간에서의 평균 이동을 학습하기 위해 적어도 입력 및 재구성의 비교를 이용하여 입력 데이터와 순차적 재구성 사이의 잔차(residual)를 획득하며, 비교에 기초하여 적대적 노이즈에 비교된 입력의 테스트 결과를 나타내는 평균 이동을 출력하도록 프로그래밍되는 프로세서를 포함한다.

Description

자율 주행에서의 시맨틱 적대적 생성 기반 기능 테스트 방법{A SEMANTIC ADVERSARIAL GENERATION BASED FUNCTION TESTING METHOD IN AUTONOMOUS DRIVING}

본 개시내용은 자율 주행에서 수집된 이미지를 포함하는 입력 이미지의 자율 조작 및 테스트에 관한 것이다.

강건성 및 잠재적인 취약성을 이해하는 것은 심층 신경망(Deep Neural Network)(DNN) 모델에 대한 기능적 테스트에서, 특히 자율 주행과 같은 안전 중요 용례에서 중요한 과제이다. 최근에, DNN 기반 모델은 이미지 분류, 객체 검지, 시맨틱 분할(semantic segmentation) 등과 같은 컴퓨터 비전의 도메인에서의 정확도의 면에서 상당한 성능을 나타내었다. 이들 모듈은 일반적으로 자율 주행에서의 인식 시스템으로서 핵심 구성요소일 수 있다. 따라서, 이러한 모델에 대한 철저한 기능 테스트는 자율 주행에서 그것을 채택함에 있어 중요하다.

일 실시예에 따르면, 시스템은 객체로부터 이미지 정보를 획득하도록 구성되는 카메라를 포함한다. 시스템은 또한 카메라와 통신하는 프로세서로서, 이미지 정보를 포함하는 입력 데이터를 수신하고, 인코더를 통해 입력을 인코딩하고, 입력 데이터의 속성을 정의하는 잠재 변수를 획득하고, 적어도 잠재 변수 및 적대적 노이즈를 이용하여 입력 데이터의 순차적 재구성을 생성하고, 잠재 공간에서의 평균 이동(mean shift)을 학습하기 위해 적어도 입력 및 재구성의 비교를 이용하여 입력 데이터와 순차적 재구성 사이의 잔차(residual)를 획득하며, 비교에 기초하여 적대적 노이즈에 비교된 입력의 테스트 결과를 나타내는 평균 이동을 출력하도록 프로그래밍되는 프로세서를 포함한다.

제2 실시예에 따르면, 장치는 적어도 객체의 이미지를 포함하는 입력 데이터를 수신하고, 인코더를 통해 입력 데이터를 인코딩하고, 입력 데이터의 속성을 정의하는 잠재 변수를 획득하고, 적어도 잠재 변수 및 적대적 노이즈를 이용하여 입력 데이터의 순차적 재구성을 생성하고, 잠재 공간에서의 평균 이동을 학습하기 위해 적어도 입력 및 재구성의 비교를 이용하여 입력 데이터와 순차적 재구성 사이의 잔차를 획득하고, 비교에 기초하여 적대적 노이즈에 비교된 입력의 테스트 결과를 나타내는 평균 이동을 출력하도록 프로그래밍되는 프로세서를 포함한다.

제3 실시예에 따르면, 컴퓨터 프로그램 제품은, 컴퓨터에 의해 실행될 때, 컴퓨터가 입력 데이터를 수신하고, 인코더를 통해 입력을 인코딩하고, 입력 데이터의 속성을 정의하는 잠재 변수를 획득하고, 적어도 잠재 변수 및 적대적 노이즈를 이용하여 입력 데이터의 순차적 재구성을 생성하고, 적어도 입력과 잠재 공간에서의 평균 이동의 재구성의 비교를 이용하여 입력 데이터와 순차적 재구성 사이의 잔차를 획득하며, 비교에 기초하여 적대적 노이즈에 비교된 입력의 테스트 결과를 나타내는 평균 이동을 출력하게 하는 명령어를 저장한다.

도 1은 시스템을 구현하기 위한 데이터 주석 시스템(100)을 도시한다.
도 2는 시맨틱 적대적 훈련 시스템(200)의 실시예를 개시한다.
도 3은 제한된 블랙-박스 쿼리(limited black-box query)를 갖는 시맨틱 적대적 학습 시스템(30)을 개시한다.
도 4는 얽힘해제 표현(disentangled representation)을 갖는 생성기의 사전 훈련 프로세스를 구비한 시스템을 개시한다.
도 5a는 원본 이미지의 클러스터 뷰이다.
도 5b는 학습된 적대적 예제를 갖는 원본 이미지의 클러스터 뷰이다.
도 5c는 학습된 적대적 입력과 원본 입력 사이의 픽셀값 차이의 클러스터 뷰이다.

본 개시내용의 실시예가 본원에 설명된다. 그러나, 개시된 실시예는 단지 예이고, 다른 실시예는 다양하고 대안적인 형태를 취할 수 있다는 것이 이해되어야 한다. 도면은 반드시 실척(scale)인 것이 아니고; 특정 구성요소의 상세를 보여주기 위해서 일부 특징부가 과장되거나 최소화될 수 있다. 따라서, 본원에 개시된 특정 구조적 및 기능적 상세는 제한적인 것으로 해석되어서는 안되며, 단지 실시예를 다양하게 채용하기 위해 관련 기술 분야의 통상의 기술자에게 교시하기 위한 대표적인 기초로서 해석되어야 한다. 관련 기술 분야의 통상의 기술자가 이해하는 바와 같이, 도면 중 임의의 하나를 참조하여 도시되고 설명된 다양한 특징이 하나 이상의 다른 도면에 도시되는 특징과 조합되어, 명시적으로 도시되거나 설명되지 않은 실시예를 생성할 수 있다. 예시된 특징들의 조합은 전형적인 용례를 위한 대표적인 실시예를 제공한다. 그러나, 본 개시내용의 교시에 부합하는 특징의 다양한 조합 및 수정이 특정 용례 또는 구현예를 위해 바람직할 수 있다.

강력한 적대적 공격 방법은 강건한 심층 신경망(DNN)을 구성하는 방법을 이해하고 및 방어 기술을 철저하게 테스트하는 데 중요하다. 바닐라 DNN(vanilla DNN) 및 다양한 방어 기술에 의해 생성되는 것의 양자 모두를 무산시킬 수 있는 블랙-박스 적대적 공격 알고리즘이 도움이 될 수 있다. 타깃이 된 DNN에 대한 양성 입력에 대한 "최적" 적대적 예제를 찾는 대신에, 하나의 해결책은 DNN의 내부 계층 또는 가중치에 액세스할 필요 없이 입력 주위에 중심이 있는 작은 영역에 걸친 확률 밀도 분포를 찾는 것일 수 있으며, 분포로부터 도출된 샘플이 적대적 예제일 가능성이 있다. 적대적 훈련은 최상의 방어 기술 중 하나로 남아 있고, 적대적 예제는 방어된 DNN들에 걸쳐서는 평범한 DNN들에 걸쳐서만큼 이전가능하지 않다.

적대적 공격에서의 최근의 진보는 DNN 모델에서의 기능 테스트에 대해 어떠한 큰 잠재력을 갖는다. 기능 테스트에서의 하나의 과제는 양호한 커버리지를 갖는 테스트 사례를 효율적으로 수집하거나 생성하고 DNN 모델의 잠재적인 취약성을 어떻게 드러낼 것인가 이다. 적대적 샘플 학습은 DNN 모델로부터 획득된 그래디언트 정보(gradient information)로 적대적 공간을 검색함으로써 종단간 해법(end-to-end solution)을 가질 기회를 제공한다. 모델 그래디언트로부터 일부 노이즈를 추가함으로써 판다를 긴팔원숭이로 오분류하도록 분류기를 기만할 수 있는 모델에서, DNN 모델은 모델이 이미 양호한 성능을 갖는 테스트 사례에 대한 적대적 테스트 사례에 대해 초점을 맞출 수 있다.

DNN 모델에 대한 기능 테스트에 적대적 공격 학습을 적용하는 것은 사소하지 않은 작업이다. 주류 적대적 공격 방법에는 다수의 과제가 존재한다. 첫째로, 대부분의 적대적 공격 방법은 시맨틱스(semantics)를 갖는 예제를 생성하지 않는다. 이들 방법은 인간이 인지할 수 없는 가능한 한 작은 노이즈를 추가함으로써 타깃 모델을 실패시키는 것을 목표로 하고, 따라서 생성된 적대적 예제는 인간에게 원본 이미지와 동일하게 보인다. 그러므로, 이들 노이즈는 인간이 DNN 모델의 약점을 이해하기 위한 물리적 의미 또는 시맨틱스를 갖지 않는다. 둘째로, 대규모의 공격(large body of attack) 방법은 적대적 예제, 즉 화이트-박스 접근법을 생성하기 위해 타깃 모델의 아키텍처 및 파라미터 상세를 인지할 필요가 있다. 이는 기능 테스트를 위한 그 용례를 제한하는데, 그 이유는 다수의 모델을 테스트하기 위해 이들 상세를 획득하는 것은 매우 많은 비용이 들기 때문이다. 소수의 블랙-박스 기반 접근법이 제안되고 또한 단지 비-시맨틱 적대적 예제에만 적용된다. 부가적으로, 모델의 적대적 풍경(adversarial landscape)을 드러내기 위한 메커니즘 또는 방법이 존재하지 않는다. 예를 들어, 현재 방법에서는, 우리는 학습된 적대적 예제의 공통 패턴들이 무엇인지를 알지 못한다. 이 패턴들이 해당 방법을 개선하는 데 유용하도록 설명 가능한지 여부는 명확하지 않을 수 있다. 객체 검지 모델을 위한 제한된 블랙-박스 쿼리를 갖는, 이하에 도시되는 시맨틱 적대적 생성 기반 기능 테스트 방법은 이러한 과제를 처리할 수 있다.

도 1은 시스템을 구현하기 위한 데이터 주석 시스템(100)을 도시한다. 데이터 주석 시스템(100)은 적어도 하나의 컴퓨팅 시스템(102)을 포함할 수 있다. 컴퓨팅 시스템(102)은 메모리 유닛(108)에 동작적으로 접속되는 적어도 하나의 프로세서(104)를 포함할 수 있다. 프로세서(104)는 중앙 처리 유닛(CPU)(106)의 기능을 구현하는 하나 이상의 집적 회로를 포함할 수 있다. CPU(106)는 x86, ARM, 파워, 또는 MIPS 명령어 세트 패밀리 중 하나와 같은 명령어 세트를 구현하는 상업적으로 이용가능한 처리 유닛일 수 있다. 동작 중에, CPU(106)는 메모리 유닛(108)으로부터 검색되는 저장된 프로그램 명령어를 실행할 수 있다. 저장된 프로그램 명령어는 본원에서 설명되는 동작을 수행하기 위해 CPU(106)의 동작을 제어하는 소프트웨어를 포함할 수 있다. 일부 예에서, 프로세서(104)는 CPU(106), 메모리 유닛(108), 네트워크 인터페이스, 및 입력/출력 인터페이스의 기능을 단일 집적 디바이스 내에 통합하는 시스템 온 칩(SoC)일 수 있다. 컴퓨팅 시스템(102)은 동작의 다양한 양태를 관리하기 위한 운영 시스템을 구현할 수 있다.

메모리 유닛(108)은 명령어 및 데이터를 저장하기 위한 휘발성 메모리 및 비휘발성 메모리를 포함할 수 있다. 비휘발성 메모리는, NAND 플래시 메모리, 자기 및 광학 저장 매체, 또는 컴퓨팅 시스템(102)이 비활성화되거나 전력을 상실할 때 데이터를 보유하는 임의의 다른 적합한 데이터 저장 디바이스와 같은 솔리드-스테이트 메모리를 포함할 수 있다. 휘발성 메모리는 프로그램 명령어 및 데이터를 저장하는 정적 및 동적 랜덤 액세스 메모리(RAM)를 포함할 수 있다. 예를 들어, 메모리 유닛(108)은 기계 학습 모델(110) 또는 알고리즘, 기계 학습 모델(110)에 대한 훈련 데이터세트(112), 원시 소스 데이터세트(115)를 저장할 수 있다.

컴퓨팅 시스템(102)은 외부 시스템 및 디바이스와의 통신을 제공하도록 구성되는 네트워크 인터페이스 디바이스(122)를 포함할 수 있다. 예를 들어, 네트워크 인터페이스 디바이스(122)는 IEEE(Institute of Electrical and Electronics Engineers) 802.11 표준 패밀리에 의해 규정된 바와 같은 유선 및/또는 무선 이더넷 인터페이스를 포함할 수 있다. 네트워크 인터페이스 디바이스(122)는 셀룰러 네트워크(예를 들어, 3G, 4G, 5G)와 통신하기 위한 셀룰러 통신 인터페이스를 포함할 수 있다. 네트워크 인터페이스 디바이스(122)는 외부 네트워크(124) 또는 클라우드에 통신 인터페이스를 제공하도록 추가로 구성될 수 있다.

외부 네트워크(124)는 월드 와이드 웹 또는 인터넷으로 지칭될 수 있다. 외부 네트워크(124)는 컴퓨팅 디바이스들 사이에 표준 통신 프로토콜을 확립할 수 있다. 외부 네트워크(124)는 정보 및 데이터가 컴퓨팅 디바이스와 네트워크 사이에서 용이하게 교환되게 할 수 있다. 하나 이상의 서버(130)는 외부 네트워크(124)와 통신할 수 있다.

컴퓨팅 시스템(102)은 디지털 및/또는 아날로그 입력 및 출력을 제공하도록 구성될 수 있는 입력/출력(I/O) 인터페이스(120)를 포함할 수 있다. I/O 인터페이스(120)는 외부 디바이스와 통신하기 위한 부가적인 직렬 인터페이스(예를 들어, 범용 직렬 버스(USB) 인터페이스)를 포함할 수 있다.

컴퓨팅 시스템(102)은 시스템(100)이 제어 입력을 수신하는 것을 가능하게 하는 임의의 디바이스를 포함할 수 있는 인간-기계 인터페이스(HMI) 디바이스(118)를 포함할 수 있다. 입력 디바이스의 예는 키보드, 마우스, 터치스크린, 음성 입력 디바이스, 및 다른 유사한 디바이스와 같은 인간 인터페이스 입력을 포함할 수 있다. 컴퓨팅 시스템(102)은 디스플레이 디바이스(132)를 포함할 수 있다. 컴퓨팅 시스템(102)은 그래픽 및 텍스트 정보를 디스플레이 디바이스(132)에 출력하기 위한 하드웨어 및 소프트웨어를 포함할 수 있다. 디스플레이 디바이스(132)는 전자 디스플레이 스크린, 프로젝터, 프린터 또는 사용자 또는 조작자에게 정보를 표시하기 위한 다른 적절한 디바이스를 포함할 수 있다. 컴퓨팅 시스템(102)은 네트워크 인터페이스 디바이스(122)를 통해 원격 HMI 및 원격 디스플레이 디바이스와의 상호작용을 허용하도록 추가로 구성될 수 있다.

시스템(100)은 하나 또는 다수의 컴퓨팅 시스템을 사용하여 구현될 수 있다. 이 예는 기술된 특징 모두를 구현하는 단일 컴퓨팅 시스템(102)을 도시하고 있지만, 다양한 특징 및 기능이 서로 통신하는 다수의 컴퓨팅 유닛에 의해 분리되고 구현될 수 있는 것이 의도된다. 선택된 특정 시스템 아키텍처는 다양한 인자에 의존할 수 있다.

시스템(100)은 원시 소스 데이터세트(115)를 분석하도록 구성되는 기계 학습 알고리즘(110)을 구현할 수 있다. 원시 소스 데이터세트(115)는 기계 학습 시스템에 대한 입력 데이터세트를 나타낼 수 있는 원시 또는 미처리 센서 데이터를 포함할 수 있다. 원시 소스 데이터세트(115)는 비디오, 비디오 세그먼트, 이미지, 텍스트 기반 정보, 및 원시 또는 부분적으로 처리된 센서 데이터(예를 들어, 객체의 레이더 맵)를 포함할 수 있다. 일부 예에서, 기계 학습 알고리즘(110)은 미리결정된 기능을 수행하도록 설계되는 신경망 알고리즘일 수 있다. 예를 들어, 신경망 알고리즘은 자동차 용례에서 비디오 이미지 내의 보행자를 식별하기 위해 구성될 수 있다.

컴퓨터 시스템(100)은 기계 학습 알고리즘(110)을 위한 훈련 데이터세트(112)를 저장할 수 있다. 훈련 데이터세트(112)는 기계 학습 알고리즘(110)을 훈련하기 위한 이전에 구성된 데이터의 세트를 나타낼 수 있다. 훈련 데이터세트(112)는 신경망 알고리즘과 관련된 가중 인자를 학습하기 위해 기계 학습 알고리즘(110)에 의해 사용될 수 있다. 훈련 데이터세트(112)는 기계 학습 알고리즘(110)이 학습 프로세스를 통해 복제하려고 시도하는 대응하는 성과 또는 결과를 갖는 소스 데이터의 세트를 포함할 수 있다. 이 예에서, 훈련 데이터세트(112)는 보행자 및 대응하는 존재 및 위치 정보를 갖는 소스 비디오 및 이를 갖지 않는 소스 비디오를 포함할 수 있다. 소스 비디오는 보행자가 식별되는 다양한 시나리오를 포함할 수 있다.

기계 학습 알고리즘(110)은 훈련 데이터세트(112)를 입력으로 사용하여 학습 모드에서 동작될 수 있다. 기계 학습 알고리즘(110)은 훈련 데이터세트(112)로부터의 데이터를 사용하여 다수의 반복에 걸쳐 실행될 수 있다. 각각의 반복에 의해, 기계 학습 알고리즘(110)은 달성된 결과에 기초하여 내부 가중 인자를 갱신할 수 있다. 예를 들어, 기계 학습 알고리즘(110)은 출력 결과(예를 들어, 주석, 잠재 변수, 적대적 노이즈 등)를 훈련 데이터세트(112)에 포함된 것들과 비교할 수 있다. 훈련 데이터세트(112)는 예상된 결과를 포함하기 때문에, 기계 학습 알고리즘(110)은 성능이 인정 가능한 때를 결정할 수 있다. 기계 학습 알고리즘(110)이 미리결정된 성능 레벨(예를 들어, 훈련 데이터세트(112)와 관련된 성과와의 100% 일치)을 달성한 후에, 기계 학습 알고리즘(110)은 훈련 데이터세트(112)에 존재하지 않는 데이터를 사용하여 실행될 수 있다. 훈련된 기계 학습 알고리즘(110)은 주석처리된 데이터를 생성하기 위해 새로운 데이터세트에 적용될 수 있다.

기계 학습 알고리즘(110)은 원시 소스 데이터(115) 내의 특정 특징을 식별하도록 구성될 수 있다. 원시 소스 데이터(115)는 주석 결과가 요구되는 복수의 인스턴스 또는 입력 데이터세트를 포함할 수 있다. 예를 들어, 기계 학습 알고리즘(110)은 비디오 이미지 내의 보행자의 존재를 식별하고 그 출현에 주석을 달도록 구성될 수 있다. 기계 학습 알고리즘(110)은 특정 특징의 존재를 식별하기 위해 원시 소스 데이터(115)를 처리하도록 프로그래밍될 수 있다. 기계 학습 알고리즘(110)은 원시 소스 데이터(115)의 특징을 미리결정된 특징(예를 들어, 보행자)으로서 식별하도록 구성될 수 있다. 원시 소스 데이터(115)는 다양한 소스로부터 유도될 수 있다. 예를 들어, 원시 소스 데이터(115)는 기계 학습 시스템에 의해 수집되는 실제 입력 데이터일 수 있다. 원시 소스 데이터(115)는 시스템을 테스트하기 위해 기계에 의해 생성될 수 있다. 일 예로서, 원시 소스 데이터(115)는 카메라로부터의 원시 비디오 이미지를 포함할 수 있다.

예에서, 기계 학습 알고리즘(110)은 원시 소스 데이터(115)를 처리하고 이미지의 표현의 표시(indication)를 출력할 수 있다. 이러한 출력은 또한 이미지의 증강된 표현(augmented representation)을 포함할 수 있다. 기계 학습 알고리즘(110)은 생성된 각각의 출력에 대한 신뢰도 레벨 또는 인자를 생성할 수 있다. 예를 들어, 미리결정된 높은 신뢰도 임계값을 초과하는 신뢰도 값은 기계 학습 알고리즘(110)이 식별된 특징이 특정 특징에 대응하는 것을 확신한다는 것을 나타낼 수 있다. 낮은 신뢰도 임계값보다 작은 신뢰도 값은 기계 학습 알고리즘(110)이 특정 특징이 존재하는지에 대해 약간의 불확실성을 갖는다는 것을 나타낼 수 있다.

도 2는 시맨틱 적대적 훈련 시스템(200)의 실시예를 개시한다. 일 예에서, 신호등 검지 문제가 이용될 수 있다. 높은 레벨에서, 시스템은 먼저 VAE(Variational Auto-Encoder)와 같은 얽힘해제 표현 학습 기반 접근법으로 시맨틱 적대적 생성기를 학습하고, 이어서 타깃 모델을 테스트하기 위해 시맨틱스를 갖는 적대적 예제를 생성할 수 있다. 적대적 예제 및 테스트 결과가 요약되고 보고될 수 있다. 데이터 소스 입력은 객체 이미지(201)(예를 들어, 신호등을 갖는 운전 장면)를 포함할 수 있고, 시맨틱 적대적 학습 구성요소(203), 시맨틱 적대적 생성 및 테스트(205), 및 시맨틱 적대적 보고(207)와 같은 구성요소를 포함한다. 이와 같이, 시맨틱 적대적 훈련 시스템(200)은 자율 주행 시나리오에 이용될 수 있다.

시맨틱 적대적 학습 구성요소(203)는 VAE, 베타-VAE 등과 같은 얽힘해제 표현 학습 접근법으로 시맨틱 적대적 생성기를 학습할 수 있다(도 3에 관해서 아래에서 나타내는 바 참조). 이 구성요소는 먼저 얽힘해제 표현으로 생성기를 훈련시키고, 이어서 사전 훈련된 생성기의 잠재 공간에서의 각각의 훈련 데이터에 대한 적대적 평균 이동의 분포를 학습할 수 있다. 평균 이동을 생성기에 주입함으로써, 상기 시스템은 적대적 예제를 생성할 수 있다. 이들 적대적 예제는 이어서 이후의 훈련을 위해 이용될 수 있다. 따라서, 통상적으로 식별되는 객체는 상기 시스템이 어떻게 식별을 예측할 수 있는지를 확인하기 위해 적대적 노이즈를 추가함으로써 시뮬레이션될 수 있다. 적대적 노이즈는 콘트라스트, 배경 색상, 밝기 등과 같은 이미지, 객체, 또는 비디오의 다양한 속성의 변화일 수 있다.

상기 시스템은 얽힘해제 표현으로 생성기를 사전 훈련시킬 수 있다. 상기 시스템은 해석가능한 잠재 표현으로 이미지 생성기를 학습하려고 시도할 수 있다. 시스템은 이어서 이러한 예제가 어떠한 시맨틱 변화를 갖는지를 해석할 수 있다. 얽힘해제 표현 모델, 예를 들어 VAE가 일 실시예에서 채택될 수 있다. 아래의 도 4에 도시되는 바와 같이, VAE 모델은 얽힘해제된 잠재 공간을 학습한 다음 이러한 잠재 공간으로부터 새로운 이미지를 생성할 수 있다. 이러한 잠재적 차원(latent dimension)들의 바람직한 특성은 이들이 시맨틱스를 가질 수 있다는 것이다. 예를 들어, 하나의 차원은 신호등의 색상 변화를 포착할 수 있고, 다른 차원은 객체의 다양한 회전 또는 다른 특성을 나타낼 수 있다.

적대적 생성기 학습 구성요소는 사전 훈련된 생성기의 잠재 공간에서의 평균 이동의 분포를 학습할 수 있으며, 평균 이동은 타깃 모델을 실패시키는 이미지를 생성할 수 있다. 따라서, 상기 시스템은 의도적으로 시스템의 실패를 야기하여 시스템을 더 양호하게 훈련시키려고 시도할 수 있다. 따라서, 상기 시스템은 타깃 모델을 향한 제한된 쿼리를 갖는 블랙-박스 방법을 이용할 수 있다. 전형적인 시스템이 이미지 공간 내의 작은 노이즈를 탐색할 수 있는 대신에, 상기 시스템은 잠재 공간에서의 평균 이동을 학습하려고 시도할 수 있다.

도 3은 제한된 블랙-박스 쿼리를 갖는 시맨틱 적대적 학습 시스템(30)을 개시한다. 특정 입력 이미지(301)에 대해, 목표는 모델을 실패시키기 위한 적대적 이미지를 생성하기 위해 이러한 이미지에 대한 평균 이동 벡터를 학습하는 것일 수 있다. 따라서, 실패가 발생할 때, 상기 시스템은 현재의 검지 방법의 약점을 학습할 수 있다. 도 3에 도시되는 바와 같이, 특정 입력 이미지(301)에 대해, 목표는 모델을 실패시키기 위한 적대적 이미지를 생성하기 위해 이러한 이미지에 대한 평균 이동 벡터를 학습하는 것일 수 있다. 프로세스는 먼저 VAE로 이미지를 평균 벡터로 인코딩하고, 그 후 작은 평균을 갖는 랜덤 이동 벡터(random shift vector)로 시작한다. 그 후, 상기 시스템은 현재 평균 이동 벡터 주위의 데이터 샘플의 세트를 교란하고, 이들을 사용하여 새로운 테스트 이미지를 생성할 수 있다. 다음으로, 이들 테스트 이미지를 타깃 모델에 공급하면, 상기 시스템은 테스트 스코어를 획득할 수 있다. 이들 테스트 스코어(309)는 고전적 SGD(Stochastic gradient descent) 접근법으로서 이동 벡터의 평균을 갱신하기 위해 사용되는 그래디언트(311)를 추정하기 위해 사용될 수 있다. 이 프로세스는 적대적 예제가 발견되거나 제한된 쿼리 예산이 충족됨에 따라 정지한다.

입력(301)은 얽힘해제 표현 적대적 생성기(303) 내로 공급될 수 있다. 입력(301)은 이미지 또는 비디오뿐만 아니라 다른 것일 수도 있다. 이후 생성기(303)는 생성된 객체(305)를 출력할 수 있다. 생성기(303)는 입력(301)의 다양한 속성을 변경할 수 있다. 생성된 객체(305)는 블랙-박스 검지기(307)에 공급될 수 있다. 추후 그래디언트 추정(311)에 사용되는 테스트 결과(309)가 출력될 수 있다. 303에서의 속성의 변화와 함께 테스트 스코어(309)의 변화는 평균 이동 벡터를 갱신하기 위해 사용되는 그래디언트를 추정하는데 사용된다. 그래디언트 추정은 309에서의 테스트 스코어 변화와 303에서의 속성의 변화 사이의 비율에 의해 근사될 수 있다. 그래디언트 투영(gradient projection)(313)은 평균 이동(315) 내로 공급될 수 있고, 이는 다시 생성기(303) 내로 공급된다.

상기 시스템은 사전 훈련된 VAE 생성기 및 적대적 평균 이동으로 입력 이미지에 대한 적대적 예제를 생성할 수 있다. 상기 시스템은 입력 이미지의 인코딩된 평균 잠재 벡터에 평균 이동 벡터를 가산한 다음, 가산 결과를 디코더를 통해 전달하여 적대적 예제를 생성할 수 있다. 상기 시스템은 학습된 시맨틱 적대적 예제로 타깃 모델의 강건성을 의미론적으로 요약하고(semantically summarize) 정량화할 수 있다. 상기 시스템은 적대적 예제의 모든 평균 이동 벡터(315)를 클러스터 처리하고 적대적 패턴을 시각적으로 요약하기 위해 이용될 수 있다. 클러스터 처리 결과는 평균 벡터가 얽힘해제 표현 학습에 의해 시맨틱스를 포함하기 때문에 시맨틱 함의를 지닌다.

평균 이동(315)은 특정 적대적 노이즈와 함께 검지 문제에 있어서의 약점을 식별하기 위해 이용될 수 있다. 예를 들어, 상기 시스템은 적대적 노이즈가 밝기를 조정할 때 입력 이미지에 대한 밝기의 변화로 상기 시스템이 갖고 있는 문제를 식별하는 것이 가능할 수 있다. 상기 시스템은 이어서 생성기(303) 내로 공급되고 있는 평균 이동(315)의 출력에서 알 수 있는 바와 같이 이러한 결과를 상기 시스템 내로 공급할 수 있다. 따라서, 상기 시스템은 개선할 이들 특정 적대적 노이즈에 집중할 수 있다.

도 4에 도시되는 바와 같이, 시스템(400)은 얽힘해제 표현을 갖는 생성기의 사전 훈련 프로세스를 포함할 수 있다. 얽힘해제 표현은 예를 들어 VAE를 이용할 수 있다. 입력(401)(예를 들어, 신호등 이미지)은 VAE(403)에 공급될 수 있다. 입력(401)은 이미지 또는 비디오와 같은 임의의 유형의 데이터 입력을 포함할 수 있다. VAE(403)는 제1 패스(pass)에 인코더를 포함할 수 있다. 또한, 제2 패스, 제3 패스 내지 제N 패스를 포함하는 다수의 패스가 있을 수 있다. 잠재 변수는 각각의 순방향 패스 동안 이전에 갱신된 잠재 변수로부터의 재구성과 입력 데이터 사이의 잔차를 학습하도록 순차적으로 갱신될 수 있다. 네트워크는 얽힘해제 시맨틱 벡터(x')로서 재구성을 출력할 수 있다. VAE는 gθ일 수 있는 인코더 네트워크 및 fθ로서 정의되는 디코더를 포함할 수 있다.

VAE(403)의 디코더는 각각의 내부 단계(, ..., )를 출력할 수 있고, 그들의 대응하는 잔차(Δ₁, ..., Δ₁₀)가 출력될 수 있다. 결과에 따르면 디코더의 출력 및 잔차가 함께 작동하여 각각의 단계에서 학습된 얽힘해제 인자를 포착 및 출력할 수 있다는 것으로 볼 수 있다. 예를 들어, 각각의 단계의 인자는 X-위치, Y-위치, 크기, 회전+형상, 및 형상, 색상, 기호, 배향, 배경 등일 수 있다. 일 예에서, 재구성된 이미지의 X-위치는 제1 단계 동안 생성된다. 단계 2에서, X-위치 및 Y-위치 모두가 생성될 수 있다. 이 프로세스는 계속될 수 있고, 각각의 단계에서 디코더(307)의 출력 및 잔차는 학습된 잠재 인코딩에 따라 이미지를 변환한다.

"잔차 학습" 메커니즘은 동일한(또는 유사한) 인코더(gθ) 및 디코더(fθ)를 갖는 d 순방향 패스(d forward pass)로 구성될 수 있다. 잠재 변수는 입력 데이터와 누산된 재구성 사이의 잔차의 인코딩으로부터 순차적으로 샘플링될 수 있다. 각각의 단계에서, 추가된 잠재 변수는 현재 잔차로부터 학습된 분포를 따를 수 있는 반면, 이전 잠재 변수는 그 대응하는 잔차로부터 학습된 동일한 분포를 따를 수 있다.

VAE(403)는 얽힘해제 표현(405)을 출력할 수 있다. 얽힘해제 표현(405)은 원본 입력(401)을 변경한 얽힘해제 시맨틱 벡터(407)를 가질 수 있다. 예를 들어, 얽힘해제 시맨틱 벡터(407)는 이미지에 의해 표현된 객체가 변경된 것으로 보이도록 이미지의 속성(예를 들어, 잠재 변수)을 변경할 수 있다. 얽힘해제 시맨틱 벡터(407)는 컬러에 대한 변화를 포함할 수 있다. 예를 들어, 하나의 영역에 녹색 신호등을 나타내는 것이 아니라, VAE는 적색 신호등을 출력하도록 이미지를 변경할 수 있다. 얽힘해제 시맨틱 벡터(407)는 객체를 표현하기 위해 이용되는 기호에 대한 변화를 포함할 수 있다. 예를 들어, 신호등을 중실원으로 나타내기 보다는, VAE는 신호등으로 화살표와 같은 기호를 출력하도록 해당 이미지를 변경할 수 있다. 다른 예에서, 얽힘해제 시맨틱 벡터(407)는 신호등의 배향의 변화를 포함할 수 있다. 또 다른 예에서, 얽힘해제 시맨틱 벡터(407)는 배경 색상의 변화를 포함할 수 있다.

도 5a는 원본 이미지의 클러스터 뷰이다. 도 5b는 학습된 적대적 예제를 갖는 원본 이미지의 클러스터 뷰이다. 적대적 예제는 따라서 이미지와 관련된 상이한 속성을 가질 수 있다. 이러한 속성은 색상, 기호, 배향, 배경 등을 포함할 수 있다. 도 5c는 학습된 적대적 입력과 원본 입력 사이의 픽셀값 차이의 클러스터 뷰이다. 클러스터의 저부 부분과 도면의 우하부의 픽셀은 변화량을 나타낼 수 있고 더 큰 차이 값을 가질 수 있다.

도 5a는 2개의 성분을 갖는 t-분포 확률적 임베딩(t-sne)에 의한 클러스터 처리 결과를 나타내며, 이어서 2D 평면에서 이미지를 시각화한다. 좌측의 것은 원본 이미지를 도시하고, 우측의 것은 대응하는 적대적 생성을 도시한다. 도 5a의 이미지는 쉽게 검지되고 분류될 수 있는 원본 이미지일 수 있다. 시스템은 원본 이미지의 상부에 적대적 예제를 추가할 수 있다. 도 5b에 대해, 시스템은 그것의 상부에 적대적 예제를 시각화할 수 있다. 도 5c는 적대적 이미지와 원본 이미지 사이의 화소값 차이를 시각화한다.

도면은 적대적 이미지에 대한 패턴의 변화를 나타낼 수 있으며(밝기는 변화량을 나타낸다: 더 밝은 픽셀은 더 큰 차이값을 갖는다): 좌측의 클러스터는 원본 이미지로부터의 신호등의 다수의 녹색 픽셀의 제거를 나타낼 수 있으며; 우측 상부의 클러스터는 황색 픽셀을 감소시키며; 저부의 2개의 클러스터는 신호등의 윤곽의 제거를 나타낼 수 있다.

시스템은 아래에 나타낸 바와 같이, 적대적 예제가 요구하는 변화의 양에 대한 적대적 예제의 스코어 강하(score drop)의 비로서(예를 들어, 테스트 결과로서) 강건성의 모델을 이용함으로써 강건성을 정량화하는 것이 가능할 수 있다.

M_rbt = |Zm_org - Zm_gen|/|S_org - S_adv|

|S_org - S_adv|는 스코어 차이이며 |Zm_org - Zm_gen|은 평균 벡터 L1 거리이다. 측정은 모델 성능을 감소시키기 위해 얼마나 많은 조작 노력이 필요한지를 나타낼 수 있다. 시스템은 또한 각각의 클러스터에 대한 강건성을 측정할 수 있고, 그에 따라 모델이 상이한 패턴에 의해서 공격받을 때 모델이 얼마나 강건한지를 이해할 수 있다. 공격 패턴은 시맨틱 잠재 공간에서의 변화, 즉 Zm_org - Zm_gen에 의해 이해되고 설명될 수 있다. 예를 들어, 큰 변화를 갖는 잠재적 차원(latent dim)은 특정 색상을 감소시키거나 물체 윤곽을 변화시키는 것으로 해석될 수 있다.

본원에 개시되는 프로세스, 방법, 또는 알고리즘은 임의의 기존의 프로그래밍 가능한 전자 제어 유닛 또는 전용 전자 제어 유닛을 포함할 수 있는 프로세싱 장치, 제어기, 또는 컴퓨터에 전달가능하고/그에 의해서 구현될 수 있다. 유사하게, 프로세스, 방법 또는 알고리즘은 ROM 디바이스와 같은 기입 불가능한 저장 매체에 영구적으로 저장되는 정보 및 플로피 디스크, 자기 테이프, CD, RAM 디바이스, 및 다른 자기 및 광학 매체와 같은 기입가능한 저장 매체에 변경가능하게 저장되는 정보를 포함하지만 이에 제한되지 않는 다수의 형태로 제어기 또는 컴퓨터에 의해 실행가능한 데이터 및 명령어로서 저장될 수 있다. 프로세스, 방법 또는 알고리즘은 또한 소프트웨어 실행가능 객체에서 구현될 수 있다. 대안적으로, 프로세스, 방법, 또는 알고리즘은 주문형 집적 회로(ASIC), 필드-프로그램가능 게이트 어레이(FPGA), 상태 머신, 제어기 또는 다른 하드웨어 구성요소 또는 디바이스 같은 적절한 하드웨어 구성요소 또는 하드웨어, 소프트웨어 및 펌웨어 구성요소의 조합을 사용하여 전체적으로 또는 부분적으로 구현될 수 있다.

예시적인 실시예가 전술되었지만, 이들 실시예는 청구항에 의해 포함되는 모든 가능한 형태를 설명하는 것이 의도되지 않는다. 본 명세서에서 사용된 단어들은 제한보다는 설명의 단어들이며, 본 개시내용의 사상 및 범위를 벗어나지 않고서 다양한 변경들이 이루어질 수 있음을 이해해야 한다. 전술된 바와 같이, 다양한 실시예의 특징은 명시적으로 설명되거나 예시되지 않을 수 있는 본 발명의 추가의 실시예를 형성하도록 조합될 수 있다. 다양한 실시예가 하나 이상의 희망 특성과 관련하여 장점을 제공하는 것으로 또는 다른 실시예 또는 종래 기술의 구현예에 비해 바람직한 것으로 설명되었지만, 관련 기술 분야의 통상의 기술자는 특정 용례 및 구현예에 의존하는 희망하는 전체적인 시스템 속성을 달성하기 위해서 하나 이상의 특징 또는 특성이 절충될 수 있다는 것을 이해한다. 이들 속성은 비용, 강도, 내구성, 수명 주기 비용, 시장성, 외관, 패키징, 크기, 서비스성, 중량, 제조성, 조립 용이성 등을 포함할 수 있지만 이들에 제한되지 않는다. 이와 같이, 임의의 실시예가 1개 이상의 특징과 관련하여 다른 실시예 또는 종래 기술의 실시예보다 덜 바람직한 것으로서 설명될 경우, 이들 실시예는 본 발명의 범위 외부에 있지 않고 특정한 용례에 대해 바람직할 수 있다.

Claims

시스템이며,
객체로부터 이미지 정보를 획득하도록 구성되는 카메라; 및
카메라와 통신하는 프로세서로서,
이미지 정보를 포함하는 입력 데이터를 수신하고;
인코더를 통해 상기 입력 데이터를 인코딩하고;
상기 입력 데이터의 속성을 정의하는 잠재 변수를 획득하고, 적어도 상기 잠재 변수 및 적대적 노이즈를 이용하여 상기 입력 데이터의 순차적 재구성을 생성하고, 상기 입력 데이터에 대한 잠재 공간에서의 평균 이동을 학습하기 위해 적어도 상기 입력 데이터 및 상기 순차적 재구성의 비교를 이용하여 상기 입력 데이터와 상기 순차적 재구성 사이의 잔차를 획득하며,
상기 비교에 기초하여 상기 적대적 노이즈에 비교된 상기 입력 데이터의 테스트 결과를 나타내는 평균 이동을 출력하도록 프로그래밍되는
프로세서를 포함하고,
상기 적대적 노이즈는 상기 입력 데이터의 밝기, 색상, 또는 콘트라스트를 변경하는 시스템.
제1항에 있어서, 상기 평균 이동의 출력은 생성기에 송신되며, 상기 평균 이동에 응답하여 상기 생성기는 추가적인 적대적 노이즈를 생성하도록 구성되는 시스템.
제1항에 있어서, 상기 시스템은 상기 비교의 그래디언트 추정과 관련된 평균 이동 벡터를 출력하도록 추가로 구성되는 시스템.
제1항에 있어서, 상기 적대적 노이즈는 제2 입력 이미지를 포함하는 시스템.
제1항에 있어서, 상기 인코더는 신경망 인코더인 시스템.
삭제
제1항에 있어서, 상기 입력 데이터는 상기 카메라로부터 획득되는 비디오 정보를 포함하는 시스템.
장치이며,
프로세서로서,
적어도 객체의 이미지를 포함하는 입력 데이터를 수신하고;
인코더를 통해 상기 입력 데이터를 인코딩하고;
상기 입력 데이터의 속성을 정의하는 잠재 변수를 획득하고, 적어도 상기 잠재 변수 및 적대적 노이즈를 이용하여 상기 입력 데이터의 순차적 재구성을 생성하고, 상기 입력 데이터에 대한 잠재 공간에서의 평균 이동을 학습하기 위해 적어도 상기 입력 데이터 및 상기 순차적 재구성의 비교를 이용하여 상기 입력 데이터와 상기 순차적 재구성 사이의 잔차를 획득하며,
상기 비교에 기초하여 상기 적대적 노이즈에 비교된 상기 입력 데이터의 테스트 결과를 나타내는 평균 이동을 출력하도록 프로그래밍되는 프로세서를 포함하고,
상기 적대적 노이즈는 상기 입력 데이터의 밝기, 색상, 또는 콘트라스트를 변경하는 장치.
제8항에 있어서, 상기 테스트 결과는 수치값을 포함하는 장치.
제8항에 있어서, 상기 평균 이동의 출력은 추가적인 적대적 노이즈를 생성하기 위해 송신되는 장치.
제8항에 있어서, 상기 프로세서는 제1 시퀀스에서 제1 잠재 변수 및 제2 잠재 변수의 잔차를 비교하고 제2 시퀀스에서 제1 잠재 변수와 제2 잠재 변수 사이의 잔차를 비교하도록 추가로 프로그래밍되는 장치.
제8항에 있어서, 상기 인코더는 신경망 인코더인 장치.
제8항에 있어서, 상기 적대적 노이즈는 적어도 상기 객체의 이미지를 포함하는 상기 입력 데이터에 대한 변경을 포함하는 제2 입력 이미지를 포함하는 장치.
기계 판독 가능한 저장 매체에 저장되어 있고 명령어를 저장하는 컴퓨터 프로그램이며, 상기 명령어는 컴퓨터에 의해 실행될 때 컴퓨터가
입력 데이터를 수신하고;
인코더를 통해 상기 입력 데이터를 인코딩하고;
상기 입력 데이터의 속성을 정의하는 잠재 변수를 획득하고, 적어도 상기 잠재 변수 및 적대적 노이즈를 이용하여 상기 입력 데이터의 순차적 재구성을 생성하고, 적어도 상기 입력 데이터와 상기 입력 데이터에 대한 잠재 공간에서의 평균 이동의 상기 순차적 재구성의 비교를 이용하여 상기 입력 데이터와 상기 순차적 재구성 사이의 잔차를 획득하며;
상기 비교에 기초하여 상기 적대적 노이즈에 비교된 상기 입력 데이터의 테스트 결과를 나타내는 평균 이동을 출력하게 하고,
상기 적대적 노이즈는 상기 입력 데이터의 밝기, 색상, 또는 콘트라스트를 변경하는 컴퓨터 프로그램.
제14항에 있어서, 상기 입력 데이터는 상기 컴퓨터와 통신하는 카메라로부터 수신되는 이미지를 포함하는 컴퓨터 프로그램.
제14항에 있어서, 상기 인코더는 신경망을 포함하는 컴퓨터 프로그램.
제14항에 있어서, 상기 입력 데이터는 복수의 이미지의 데이터 세트를 포함하는 컴퓨터 프로그램.
제14항에 있어서, 상기 컴퓨터 프로그램은 각각의 추가 시퀀스 동안 하나의 잠재 변수만을 갱신하기 위한 명령어를 추가로 포함하는 컴퓨터 프로그램.
제14항에 있어서, 상기 적대적 노이즈는 적어도 객체의 이미지를 포함하는 상기 입력 데이터에 대한 변경을 포함하는 제2 입력 이미지를 포함하는 컴퓨터 프로그램.
삭제