KR20230020933A - 다중 세분성들의 라벨들이 있는 데이터 세트를 사용하는 뉴럴 네트워크 트레이닝 - Google Patents

다중 세분성들의 라벨들이 있는 데이터 세트를 사용하는 뉴럴 네트워크 트레이닝 Download PDF

Info

Publication number
KR20230020933A
KR20230020933A KR1020220097470A KR20220097470A KR20230020933A KR 20230020933 A KR20230020933 A KR 20230020933A KR 1020220097470 A KR1020220097470 A KR 1020220097470A KR 20220097470 A KR20220097470 A KR 20220097470A KR 20230020933 A KR20230020933 A KR 20230020933A
Authority
KR
South Korea
Prior art keywords
granularity
neural network
data
item
labeled
Prior art date
Application number
KR1020220097470A
Other languages
English (en)
Inventor
지옹 양
요우 홍 엥
판 유
Original Assignee
모셔널 에이디 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 모셔널 에이디 엘엘씨 filed Critical 모셔널 에이디 엘엘씨
Publication of KR20230020933A publication Critical patent/KR20230020933A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/64Circuits for processing colour signals
    • H04N9/74Circuits for processing colour signals for obtaining special effects
    • H04N9/75Chroma key
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/60Rotation of whole images or parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • G06V10/141Control of illumination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Traffic Control Systems (AREA)
  • Image Analysis (AREA)

Abstract

본 개시내용은 상이한 세분성들로 라벨링된 데이터 항목들을 포함하는 트레이닝 데이터 세트를 사용하여 뉴럴 네트워크를 트레이닝하기 위한 시스템들 및 방법들을 설명한다. 트레이닝하는 동안, 트레이닝 데이터 세트 내의 각각의 항목은 뉴럴 네트워크를 통해 공급될 수 있다. 더 높은 세분성의 라벨들을 갖는 항목들의 경우, 네트워크의 출력과 항목의 라벨 간의 비교에 기초하여 네트워크의 가중치들이 조정될 수 있다. 더 낮은 세분성의 라벨들을 갖는 항목들의 경우, 네트워크의 출력은 출력을 더 높은 세분성으로부터 더 낮은 세분성으로 변환하는 변환 함수을 통해 공급될 수 있다. 이어서 변환된 출력과 항목의 라벨 간의 비교에 기초하여 네트워크의 가중치들이 조정될 수 있다.

Description

다중 세분성들의 라벨들이 있는 데이터 세트를 사용하는 뉴럴 네트워크 트레이닝{TRAINING A NEURAL NETWORK USING A DATA SET WITH LABELS OF MULTIPLE GRANULARITIES}
자율주행 차량들은 사람 및/또는 화물(예를 들면, 포장물들, 물건들, 또는 다른 물품들)을 한 장소로부터 다른 장소로 운송하는 데 사용될 수 있다. 예를 들어, 자율주행 차량은 사람의 위치로 운행하고, 사람이 자율주행 차량을 탑승하기를 기다리며, 지정된 목적지(예를 들면, 사람에 의해 선택된 위치)로 운행할 수 있다. 환경에서 운행하기 위해, 이러한 자율주행 차량들은 주변에 있는 대상체들을 검출하기 위한 다양한 유형들의 센서들을 장비하고 있다. 이러한 센서들 중 하나 이상의 완전한 또는 부분적인 폐색은 자율주행 차량의 성능 저하로 이어질 수 있다.
도 1은 자율주행 능력(autonomous capability)을 갖는 자율주행 차량의 예를 도시한다.
도 2는 예시적인 "클라우드" 컴퓨팅 환경을 도시한다.
도 3은 컴퓨터 시스템을 도시한다.
도 4는 자율주행 차량에 대한 예시적인 아키텍처를 도시한다.
도 5는 인지 모듈에 의해 사용될 수 있는 입력들 및 출력들의 예를 도시한다.
도 6a 내지 도 6c는 파편이 광학 센서의 시야를 어떻게 적어도 부분적으로 폐색할 수 있는지의 예들을 도시한다.
도 7은 광학 센서로부터 상이한 거리들에 있는 다양한 유형들의 파편의 이미저리(imagery)를 캡처하기 위한 시스템을 도시한다.
도 8은 도 7에 묘사(depict)된 시스템에 의해 생성되는 이미저리가 뉴럴 네트워크를 트레이닝하기 위한 이미저리를 합성하는 데 어떻게 사용될 수 있는지를 도시한다.
도 9는 광학 센서 폐색들을 검출하고 특성 분석하도록 뉴럴 네트워크를 트레이닝하기 위한 뉴럴 네트워크 트레이닝 아키텍처를 도시한다.
도 10은 합성 부분 폐색 트레이닝 데이터 세트의 생성을 위한 예시적인 루틴을 묘사한다.
도 11은 다수의 세분성 레벨들을 갖는 트레이닝 데이터를 사용하여 뉴럴 네트워크를 트레이닝하기 위한 예시적인 루틴을 묘사한다.
이하의 설명에서는, 설명 목적으로 본 개시내용에 대한 완전한 이해를 제공하기 위해 다수의 특정 세부 사항들이 제시된다. 그렇지만, 본 개시내용에 의해 설명되는 실시예들이 이러한 특정 세부 사항들이 없더라도 실시될 수 있다는 것이 명백할 것이다. 일부 경우에, 본 개시내용의 양태들을 불필요하게 모호하게 하는 것을 피하기 위해 잘 알려진 구조들 및 디바이스들은 블록 다이어그램 형태로 예시되어 있다.
시스템들, 디바이스들, 모듈들, 명령어 블록들, 데이터 요소들 등을 나타내는 것들과 같은, 개략적인 요소들의 특정 배열들 또는 순서들이 설명의 편의를 위해 도면들에 예시되어 있다. 그렇지만, 본 기술 분야의 통상의 기술자라면 도면들에서의 개략적인 요소들의 특정 순서 또는 배열이, 그러한 것으로 명시적으로 설명되지 않는 한, 프로세스들의 특정 프로세싱 순서 또는 시퀀스, 또는 프로세스들의 분리가 필요하다는 것을 암시하는 것으로 의미되지 않는다는 것을 이해할 것이다. 게다가, 도면에 개략적인 요소를 포함시키는 것은, 그러한 것으로 명시적으로 설명되지 않는 한, 모든 실시예들에서 그러한 요소가 필요하다는 것 또는 일부 실시예들에서 그러한 요소에 의해 표현되는 특징들이 다른 요소들에 포함되지 않거나 다른 요소들과 결합되지 않을 수 있다는 것을 암시하는 것으로 의미되지 않는다.
게다가, 2 개 이상의 다른 개략적인 요소 간의 또는 이들 사이의 연결, 관계 또는 연관을 예시하기 위해 실선들 또는 파선들 또는 화살표들과 같은 연결 요소들이 도면들에서 사용되는 경우에, 임의의 그러한 연결 요소들의 부재는 연결, 관계 또는 연관이 존재하지 않을 수 있다는 것을 암시하는 것으로 의미되지 않는다. 환언하면, 본 개시내용을 모호하게 하지 않기 위해 요소들 사이의 일부 연결들, 관계들 또는 연관들이 도면들에 예시되어 있지 않다. 추가적으로, 예시의 편의를 위해, 요소들 사이의 다수의 연결들, 관계들 또는 연관들을 나타내기 위해 단일의 연결 요소가 사용될 수 있다. 예를 들어, 연결 요소가 신호들, 데이터 또는 명령어들(예를 들면, "소프트웨어 명령어들")의 통신을 나타내는 경우에, 본 기술 분야의 통상의 기술자라면 그러한 요소가, 통신을 수행하기 위해 필요할 수 있는, 하나 또는 다수의 신호 경로들(예를 들면, 버스)을 나타낼 수 있다는 것을 이해할 것이다.
제1, 제2, 제3 등의 용어들이 다양한 요소들을 설명하는 데 사용되지만, 이러한 요소들이 이러한 용어들에 의해 제한되어서는 안 된다. 제1, 제2, 제3 등의 용어들은 하나의 요소를 다른 요소와 구별하는 데만 사용된다. 예를 들어, 설명된 실시예들의 범위를 벗어나지 않으면서, 제1 접촉은 제2 접촉이라고 지칭될 수 있고, 유사하게 제2 접촉은 제1 접촉이라고 지칭될 수 있다. 제1 접촉과 제2 접촉은 양쪽 모두 접촉이지만, 동일한 접촉은 아니다.
본 명세서에서의 다양한 설명된 실시예들에 대한 설명에서 사용되는 전문용어는 특정 실시예들을 설명하기 위해서만 포함되어 있으며, 제한하는 것으로 의도되지 않는다. 다양한 설명된 실시예들에 대한 설명 및 첨부된 청구항들에서 사용되는 바와 같이, 단수 형태들("한", "어떤" 및 "그")은 복수 형태들도 포함하는 것으로 의도되고, 문맥이 달리 명확히 나타내지 않는 한, "하나 이상" 또는 "적어도 하나"와 상호 교환 가능하게 사용될 수 있다. "및/또는"이라는 용어가, 본 명세서에서 사용되는 바와 같이, 연관된 열거된 항목들 중 하나 이상의 항목의 임의의 및 모든 가능한 조합들을 지칭하고 포괄한다는 것이 또한 이해될 것이다. "포함한다(includes)", 포함하는(including), 포함한다(comprises)" 및/또는 "포함하는(comprising)"이라는 용어들이, 본 설명에서 사용될 때, 언급된 특징들, 정수들, 단계들, 동작들, 요소들, 및/또는 컴포넌트들의 존재를 명시하지만, 하나 이상의 다른 특징, 정수, 단계, 동작, 요소, 컴포넌트, 및/또는 이들의 그룹의 존재 또는 추가를 배제하지 않는다는 것이 추가로 이해될 것이다.
본 명세서에서 사용되는 바와 같이, "통신" 및 "통신하다"라는 용어들은 정보(또는, 예를 들어, 데이터, 신호들, 메시지들, 명령어들, 커맨드들 등에 의해 표현되는 정보)의 수신, 접수, 송신, 전달, 제공 등 중 적어도 하나를 지칭한다. 하나의 유닛(예를 들면, 디바이스, 시스템, 디바이스 또는 시스템의 컴포넌트, 이들의 조합들 등)이 다른 유닛과 통신한다는 것은 하나의 유닛이 직접적으로 또는 간접적으로 다른 유닛으로부터 정보를 수신하고/하거나 다른 유닛으로 정보를 전송(예를 들면, 송신)할 수 있다는 것을 의미한다. 이것은 본질적으로 유선 및/또는 무선인 직접 또는 간접 연결을 지칭할 수 있다. 추가적으로, 송신되는 정보가 제1 유닛과 제2 유닛 사이에서 수정, 프로세싱, 중계 및/또는 라우팅될 수 있을지라도 2 개의 유닛은 서로 통신하고 있을 수 있다. 예를 들어, 제1 유닛이 정보를 수동적으로 수신하고 정보를 제2 유닛으로 능동적으로 송신하지 않을지라도 제1 유닛은 제2 유닛과 통신하고 있을 수 있다. 다른 예로서, 적어도 하나의 중간 유닛(예를 들면, 제1 유닛과 제2 유닛 사이에 위치하는 제3 유닛)이 제1 유닛으로부터 수신되는 정보를 프로세싱하고 프로세싱된 정보를 제2 유닛으로 송신하는 경우 제1 유닛은 제2 유닛과 통신하고 있을 수 있다. 일부 실시예들에서, 메시지는 데이터를 포함하는 네트워크 패킷(예를 들면, 데이터 패킷 등)을 지칭할 수 있다.
본 명세서에서 사용되는 바와 같이, "~ 경우"라는 용어는, 선택적으로, 문맥에 따라 "~할 때", 또는 "~시에" 또는 "~라고 결정하는 것에 응답하여", "~을 검출하는 것에 응답하여" 등을 의미하는 것으로 해석된다. 유사하게, 문구 "~라고 결정되는 경우" 또는 "[언급된 조건 또는 이벤트]가 검출되는 경우"는, 선택적으로, 문맥에 따라, "~라고 결정할 시에", "~라고 결정하는 것에 응답하여", "[언급된 조건 또는 이벤트]를 검출할 시에", "[언급된 조건 또는 이벤트]를 검출하는 것에 응답하여" 등을 의미하는 것으로 해석된다. 또한, 본 명세서에서 사용되는 바와 같이, "갖는다"(has, have), "갖는(having)" 등의 용어들은 개방형(open-ended) 용어들인 것으로 의도된다. 게다가, 문구 "~에 기초하여"는, 달리 명시적으로 언급되지 않는 한, "~에 적어도 부분적으로 기초하여"를 의미하는 것으로 의도된다.
그 예가 첨부 도면들에 예시되어 있는 실시예들에 대해 이제 상세하게 언급될 것이다. 이하의 상세한 설명에서, 다양한 설명된 실시예들에 대한 완전한 이해를 제공하기 위해 수많은 특정 세부 사항들이 제시된다. 그렇지만, 다양한 설명된 실시예들이 이러한 특정 세부 사항들이 없더라도 실시될 수 있다는 것이 본 기술 분야의 통상의 기술자에게 명백할 것이다. 다른 경우에, 실시예들의 양태들을 불필요하게 모호하게 하지 않기 위해 잘 알려진 방법들, 절차들, 컴포넌트들, 회로들, 및 네트워크들은 상세하게 설명되지 않았다.
일반적 개관
일반적으로 설명하면, 본 개시내용의 양태들은, 자율주행 차량의 카메라의 렌즈에 부착된 물체들과 같은, 카메라 폐색들을 인식하도록 뉴럴 네트워크를 트레이닝하는 것에 관한 것이다. 더 구체적으로, 본 개시내용의 양태들은 그러한 폐색들의 경계들을 검출하도록 뉴럴 네트워크를 트레이닝하는 데 사용 가능한 입력 데이터를 합성적으로 생성하는 것은 물론, 합성적으로 생성된 데이터와 비합성적으로 생성된 데이터의 조합을 사용하여 그러한 뉴럴 네트워크를 트레이닝하는 것에 관한 것이다. 본 명세서에서 개시되는 바와 같이, 카메라 폐색 검출 뉴럴 네트워크에 대한 합성 입력 데이터는, 알려진 폐색 경계들을 갖는 합성 폐색 이미지들을 생성하기 위해, (예를 들면, 알려진 색상의) 알려진 배경 상에 폐색 이미지들의 제어된 생성, 알려진 배경에 기초한 이미지들의 분석에 의해 폐색 경계들을 검출하는 것, 및 해당 알려진 배경을 다양한 다른 배경 이미지들(예를 들면, 현실 세계 이미저리)로 대체하는 것에 의해 생성될 수 있다. 이 기술은, 폐색 경계들을 정확하게 검출할 수 있는 능력을 유지하면서, 대안적인 기술들보다 더 정확한 합성 폐색 이미지들을 생성할 수 있다. 이어서 뉴럴 네트워크는, 비합성 폐색 이미지가 주어진 경우, 이미지에 대한 예상된 폐색 경계들을 생성할 수 있는 트레이닝된 네트워크를 생성하기 위해, 알려진 폐색 경계들을 갖는 합성 폐색 이미지들과 알려지지 않은 폐색 경계들을 갖는 비합성 폐색 이미지들(예를 들면, 제작 환경(production environment)으로부터 획득됨) 양쪽 모두에 기초하여 트레이닝될 수 있다. 그 후에, 트레이닝된 네트워크가 (예를 들면, 제작 시에) 카메라 폐색들 및 그러한 폐색들의 추정된 경계들을 검출하기 위해 적용될 수 있다. 폐색들 및 경계들의 더 정확한 검출은 차례로, 예컨대, 자율주행 차량의 더 정확하고 안전한 작동을 가능하게 하는 것에 의해, 카메라 데이터의 더 정확하고 안전한 사용을 결과할 수 있다.
본 기술 분야의 통상의 기술자에 의해 이해될 것인 바와 같이, 뉴럴 네트워크들의 정확한 트레이닝은 종종 큰 입력 데이터 세트들을 필요로 할 수 있다. 일부 경우에, 네트워크를 정확하게 트레이닝하기에 충분한 비합성 입력 데이터를 획득하는 것이 어렵거나 불가능할 수 있다. 자주 발생하지 않는 "에지 케이스(edge case)" 시나리오들을 처리하도록 의도된 뉴럴 네트워크들의 경우에 특히 그러할 수 있다. 그러한 에지 케이스의 일 예는, 물 또는 다른 물질(예를 들면, 나뭇잎, 진흙, 모래 등)이 차량의 카메라의 렌즈에 부착되어 차량의 환경의 캡처를 방해하는 경우와 같은, 자율주행 차량에서의 카메라 폐색들일 수 있다. 그러한 경우들은 중대한 안전 문제들을 제기할 수 있는데, 차량의 카메라가 차량의 작동을 제어하기 위해 전체적으로 또는 부분적으로 사용되는 경우에 특히 그렇다. 인간 작업자가 그러한 폐색들 및 그러한 폐색들의 정도를 인식하는 것은 사소할 수 있지만, 프로그램적으로 그렇게 하는 것은 더 어렵다. 전형적으로, 카메라 이미지들은 2차원 데이터로서(예를 들면, 2차원 픽셀 행렬로서) 분석되며, 폐색을 캡처하는 픽셀들과 차량의 환경을 캡처하는 사진들을 정확하게 구별하는 것이 프로그램적 관점에서 어려울 수 있다. 폐색된 이미지들을 폐색되지 않은 이미지들과 프로그램적으로 구별하고 그러한 폐색의 정도를 검출하도록 컴퓨팅 디바이스를 트레이닝하는 한 가지 접근 방식은 폐색된 이미지들과 폐색되지 않은 이미지들 양쪽 모두를 포함하는 입력들에 대해 뉴럴 네트워크를 트레이닝하는 것일 수 있다. 그렇지만, 폐색된 이미저리의 상대적 희소성 - 예를 들면, 에지 케이스로서의 그의 성질로 인한 것임 - 은 정확한 트레이닝을 방해할 수 있다.
입력 데이터를 합성적으로 생성하는 한 가지 기술은, 적대적 생성 네트워크(generative adversarial network, GAN)와 같은, 뉴럴 네트워크 프레임워크를 사용하는 것일 수 있다. 그러한 프레임워크는 합성 폐색 이미지들을 생성하도록 (예를 들면, 비합성 폐색 이미지들에 기초하여) 트레이닝될 수 있다. 그렇지만, 이러한 접근 방식은 다수의 단점들이 있다. 예를 들어, 그러한 네트워크의 출력은 공공 도로들 상의 자율주행 차량에서 사용하기 위해 네트워크를 트레이닝하기에 충분한 품질이 아닐 수 있다. 더욱이, 그러한 네트워크가 충분한 품질의 합성 데이터를 제공할 수 있더라도, 그러한 네트워크는 일반적으로 이미지의 어떤 부분들이 폐색되었고 이미지의 어떤 부분들이 폐색되지 않았는지를 정확하게 나타낼 수 없을 것이다. 그렇지만, 폐색의 성질과 정도는 다양한 맥락들에서, 예컨대, 자율주행 차량의 안전하고 정확한 작동에 중요할 수 있다. 예를 들어, 그러한 차량은 경미한 폐색 조건들(예를 들면, 1 내지 2% 폐색) 하에서는 대응 조치(예를 들면, 렌즈 청소 장치)를 구현하면서 계속 작동할 수 있지만, 중대한 폐색들(예를 들면, 75% 이상)이 존재할 때는 의도한 대로 작동하지 않을 수 있다. GAN에 의해 생성되는(GAN-generated) 합성 이미지들은 이미지의 어느 부분들이 폐색되는지에 대한 데이터를 포함하지 않을 수 있기 때문에, 이러한 이미지들은 그러한 응용들에 적절하지 않을 수 있다.
합성 데이터를 생성하는 다른 가능한 기술은 하나의 배경 이미지로부터 폐색들의 이미지들을 직접 크로핑하고 크로핑된 폐색 이미지를 (예를 들면, 차량의 환경의) 배경 이미지들 상에 중첩(superimpose)시키는 것일 수 있다. 예를 들어, 폐색을 포함하는 비합성 이미지는 (예를 들면, 배경을 크로핑하는 것에 의해) 폐색을 분리하기 위해 프로세싱될 수 있다. 해당 크로핑된 폐색은 이어서 새로운 배경의 합성 폐색 이미지를 생성하기 위해 폐색되지 않은 배경 이미지 상에 중첩될 수 있다. 폐색의 위치들이 알려져 있기 때문에, 이미지는 해당 위치들을 나타내는 폐색 데이터와 연관될 수 있다. 이러한 방식으로, 폐색을 갖는 하나의 비합성 이미지가 그 폐색을 갖는 하나 이상의 합성 이미지를 생성하는 데 사용될 수 있다. 그렇지만, 이러한 "복사 및 붙여넣기(copy-and-paste)" 기술은 단점들도 있다. 구체적으로는, 그러한 합성 이미지들은, 크로핑 및 오버레이(crop-and-overlay) 작업을 통해 캡처되지 않은 폐색과 배경 사이의 상호 작용들로 인해, 현실 세계 폐색들을 부정확하게 반영할 수 있다. 예를 들어, 일부 폐색들은 부분적으로 투명할 수 있고, 따라서 카메라의 센서를 부분적으로만 가릴 수 있다. 폐색의 가장자리들에서 특히 그러할 수 있다. 예를 들어, 완전히 불투명한 물체라도 물체 주위에, 카메라의 센서가 배경 환경을 부분적으로 캡처할 수 있는, "페더링"을 야기할 수 있다. 크로핑 및 오버레이 작업은 일반적으로 그러한 부분 폐색들을 캡처할 수 없을 것이다.
본 개시내용의 실시예들은 카메라 폐색들을 나타내는 매우 정확한 입력 데이터의 합성 생성을 제공하는 것에 의해 이러한 문제들을 해결한다. 구체적으로, 본 개시내용의 실시예들에 따르면, "그린 스크린(green screen)" 또는 알려진 색상 범위의 다른 배경과 같은, 알려진 배경을 배경으로 하여 폐색 물체(예를 들면, 나뭇잎, 물, 진흙 등)가 캡처될 수 있다. 캡처를 용이하게 하기 위해, 폐색 물체가, 예를 들어, 유리 패널 또는 캡처 카메라의 렌즈와 같은, 투명한 물체에 부착될 수 있다. 이어서 크로마 키잉(chroma keying)이 알려진 배경을 제거하는 데 사용될 수 있어, (예를 들면, 폐색의 부분적으로 투명한 부분들을 포함하는) 폐색을 정확하게 캡처하는 이미지를 결과할 수 있다. 그 후에, 합성 폐색 이미지들을 생성하기 위해 폐색이 새로운 배경들 상에 중첩될 수 있다. 이 메커니즘은, 이미지의 어느 부분들이 폐색을 나타내고 어느 부분들이 환경을 나타내는지를 (예를 들면, 픽셀 단위로) 결정할 수 있는 것과 같은, 위에서 논의된 크로핑 및 오버레이 기술과 유사한 이점들을 제공한다. 그렇지만, 이 메커니즘은 해당 크로핑 및 오버레이 기술의 단점들을 방지한다. 예를 들어, 크로마 키잉 메커니즘은, 예컨대, 반투명 물체들 또는 가장자리들이 페더링을 야기하는 물체들에 의한, 부분적으로 투명한 폐색들의 캡처를 가능하게 한다. 따라서, 이러한 합성 이미지 생성 기술은 대량의 매우 정확한 입력 데이터의 생성을 가능하게 한다.
합성 폐색 이미지들의 생성 외에도, 본 개시내용의 실시예들은, 추가로, 폐색을 포함하는 이미지의 폐색된 부분들을 (예를 들면, 픽셀 레벨에서) 검출하도록 뉴럴 네트워크를 트레이닝하는 것에 관한 것이다. 종종, 주어진 유형의 출력을 생성하기 위해, 뉴럴 네트워크는 해당 유형의 입력으로 트레이닝되어야 한다. 그에 따라, 이미지의 어느 부분들이 폐색되는지를 검출하도록 뉴럴 네트워크를 트레이닝하기 위해, 폐색을 갖는 이미지들 및 이미지들의 어느 부분들이 폐색을 포함하는지를 식별해 주는 정보 양쪽 모두를 포함하는 입력들을 제공할 필요가 있을 수 있다. 그렇지만, 비합성 이미지들에 대한 이러한 정보를 제공하는 것은 어렵거나 번거로울 수 있다. 예를 들어, 이러한 정보를 제공하는 것은 일반적으로 인간이 각각의 이미지를 수동으로 검토하고 이미지의 어느 부분들이 폐색되는지를, 주어진 세분성으로, 지정하는 것을 필요로 할 수 있다. 이 프로세스는 상당한 시간을 필요로 할 수 있고 제한된 정확도를 가질 수 있는데, 세분성이 증가함에 따라 특히 그렇다. 예를 들어, 인간들은 이미지의 어느 부분들이 폐색되는지를 나타내는 정확한 픽셀 레벨 이미지 주석(image annotation)들을 대량으로 생성하지 못할 수 있다. 위에서 언급된 바와 같이, 본 개시내용의 실시예들은 합성 폐색 이미지들 및 어느 부분들(예를 들면, 어느 픽셀들)이 폐색되는지에 대한 대응하는 표시들(때로는 주석들이라고 지칭됨)의 생성을 제공하는 것에 의해 이 문제를 해결할 수 있다. 그렇지만, 그러한 합성 이미지들만으로 뉴럴 네트워크를 트레이닝하는 것은 바람직하지 않을 수 있다. 예를 들어, 비합성 입력들에 적용하는 동안 트레이닝된 네트워크의 정확도를 감소시키는 합성 이미지들과 비합성 이미지들 사이에 미묘한 차이들이 있을 수 있다.
이를 해결하기 위해, 본 개시내용의 실시예들은 합성 이미지들과 비합성 이미지들의 조합을 입력 데이터로서 사용하여 폐색을 포함하는 비합성 이미지들에 대한 매우 정확한(예를 들면, 픽셀 레벨) 주석들을 생성하도록 트레이닝될 수 있는 뉴럴 네트워크 아키텍처를 제공한다. 보다 구체적으로, 이미지들의 어느 부분들이 폐색되는지의 (예를 들면, 픽셀 단위의) 표시들을 생성하기 위해 합성 이미지들과 비합성 이미지들 양쪽 모두가 뉴럴 네트워크에 입력되는 머신 러닝 아키텍처가 본 명세서에서 설명된다. 입력 합성 이미지들은 어느 픽셀들이 폐색되는지(있는 경우)를 나타내는 주석들을 수반할 수 있으며, 따라서 합성 이미지에 기초하여 트레이닝할 때, 뉴럴 네트워크는 뉴럴 네트워크에 의해 생성되는 표시들과 주석들 사이의 손실에 기초하여 트레이닝될 수 있다. 입력 비합성 이미지들은 어느 픽셀들이 폐색되는지를 나타내는 주석들이 없을 수 있고, 그 대신에 이진 폐색 라벨들(예를 들면, 폐색됨(blocked) 또는 폐색되지 않음(unblocked))과 연관될 수 있다. 그러한 이진 라벨링된 입력 데이터에 기초한 트레이닝의 경우, 네트워크는 어느 부분들이 폐색되는지의 표시를 폐색이 존재하는지 여부에 대한 이진 표시자로 변환하는 변환 함수를 포함할 수 있다. 예를 들어, 변환 함수는 이미지의 문턱 백분율(예를 들면, n%)이 폐색될 때 이진 "폐색됨" 표시자를 생성하는 문턱 함수일 수 있다. 이진 라벨링된 입력 데이터를 포함하는 입력들의 경우, 뉴럴 네트워크는 그러면 어느 부분들이 폐색되는지의 표시들을 생성하기 위해 입력 데이터를 프로세싱하는 것, 변환 함수를 통해 표시들을 이진 출력으로 변환하는 것, 및 이진 출력을 입력에 대한 이진 라벨과 비교하는 것에 의해 트레이닝될 수 있다. 이러한 방식으로, 네트워크는 이진 라벨링된 데이터(예를 들면, 비합성 데이터)와 더 세분화된 주석이 달린 데이터(예를 들면, 픽셀 레벨 주석들을 갖는 합성 데이터)의 조합에 기초하여 트레이닝될 수 있다. 따라서 그러한 트레이닝으로부터 결과되는 모델은 새로운 입력 데이터를 획득하고 이미지의 어느 부분들(예를 들면, 어떤 픽셀들)이 폐색되는지를 나타내는 주석들을 결정할 수 있다. 그 결과, 그러한 모델은, 자율주행 차량들과 같은, 다양한 시나리오들에서 매우 정확한 폐색 검출을 제공할 수 있다.
본 개시내용을 바탕으로 본 기술 분야의 통상의 기술자에 의해 이해될 것인 바와 같이, 본 명세서에 개시된 실시예들은 카메라들의 폐색들을 검출하고 특성 분석할 수 있는, 자가 운전 차량들 내에 포함되거나 자가 운전 차량들의 작동을 지원하는 컴퓨팅 디바이스들과 같은, 컴퓨팅 시스템들의 능력을 개선시킨다. 이러한 검출 및 특성 분석은, 차례로, 카메라 이미지들을 입력들로서 사용하는 디바이스들의 더 정확하고 안전하며 신뢰할 수 있는 작동을 제공한다. 예를 들어, 자율주행 차량은 카메라에 대한 폐색을 검출하고 검출된 폐색의 정도에 상응하는 시정 조치를 취할 수 있다. 더욱이, 현재 개시된 실시예들은 컴퓨팅 시스템들 내에 내재된 기술적 문제들, 구체적으로, 제한된 데이터를 사용하여 뉴럴 네트워크를 훈련시키는 어려움, 세분화된(예를 들면, 픽셀 레벨) 폐색 주석들로 매우 정확한 합성 데이터를 생성하는 어려움, 및 부분 폐색들을 포함하는 비합성 이미지들에 정확하고 세분화된 폐색 주석들을 제공하도록 뉴럴 네트워크를 트레이닝하는 어려움을 해결한다. 이러한 기술적 문제들은, 알려진 배경 상에 부분 폐색의 이미지들을 사용하여 합성 이미지를 생성하는 것 및 추가적인 배경들에 부분 폐색들을 적용하기 위해 크로마 키잉 기술들을 적용하는 것 및 이진 주석이 달린(예를 들면, 비합성) 이미지들과 더 세분화된 주석이 달린(예를 들면, 합성) 이미지들의 조합으로 머신 러닝 모델을 트레이닝하는 것을 포함한, 본 명세서에서 설명되는 다양한 기술적 해결책들에 의해 해결된다. 따라서, 본 개시내용은 일반적으로 컴퓨터 비전 시스템들 및 컴퓨팅 시스템들에서 개선을 나타낸다.
첨부 도면들과 함께 살펴볼 때, 본 개시내용이 이하의 설명을 참조하는 것에 의해 더 잘 이해되는 것처럼 본 개시내용의 전술한 양태들 및 부수적인 장점들 중 다수가 더 쉽게 이해될 것이다.
하드웨어 개관
도 1은 자율주행 능력을 갖는 자율주행 차량(100)의 예를 도시한다.
본 명세서에서 사용되는 바와 같이, "자율주행 능력"이라는 용어는, 완전 자율주행 차량, 고도 자율주행 차량, 및 조건부 자율주행 차량을 제한 없이 포함하는, 실시간 인간 개입 없이 차량이 부분적으로 또는 완전하게 작동될 수 있게 하는 기능, 특징, 또는 설비를 지칭한다.
본 명세서에서 사용되는 바와 같이, 자율주행 차량(autonomous vehicle, AV)은 자율주행 능력을 갖는 차량이다.
본 명세서에서 사용되는 바와 같이, "차량"은 상품 또는 사람의 운송 수단을 포함한다. 예를 들어, 자동차, 버스, 기차, 비행기, 드론, 트럭, 보트, 선박, 잠수함, 비행선 등. 무인 자동차는 차량의 예이다.
본 명세서에서 사용되는 바와 같이, "궤적"은 AV를 제1 시공간적 위치로부터 제2 시공간적 위치로 운행시키는 경로 또는 루트를 지칭한다. 일 실시예에서, 제1 시공간적 위치는 초기 또는 시작 위치라고 지칭되고 제2 시공간적 위치는 목적지, 최종 위치, 목표, 목표 위치, 또는 목표 장소라고 지칭된다. 일부 예들에서, 궤적은 하나 이상의 세그먼트(예를 들면, 도로 섹션)로 구성되고, 각각의 세그먼트는 하나 이상의 블록(예를 들면, 차선 또는 교차로의 부분들)으로 구성된다. 일 실시예에서, 시공간적 위치들은 현실 세계 위치들에 대응한다. 예를 들어, 시공간적 위치들은 사람을 태우거나 내려주기 위한 또는 상품을 싣거나 내리기 위한 픽업(pick up) 위치 또는 하차(drop-off) 위치이다.
본 명세서에서 사용되는 바와 같이, "센서(들)"는 센서를 둘러싸는 환경에 관한 정보를 검출하는 하나 이상의 하드웨어 컴포넌트를 포함한다. 하드웨어 컴포넌트들 중 일부는 감지 컴포넌트들(예를 들면, 이미지 센서들, 생체 측정 센서들), 송신 및/또는 수신 컴포넌트들(예를 들면, 레이저 또는 무선 주파수 파 송신기들 및 수신기들), 아날로그 대 디지털 변환기들과 같은 전자 컴포넌트들, 데이터 저장 디바이스(예컨대, RAM 및/또는 비휘발성 저장소), 소프트웨어 또는 펌웨어 컴포넌트들, 및 주문형 집적 회로(application-specific integrated circuit, ASIC), 마이크로프로세서 및/또는 마이크로컨트롤러와 같은 데이터 프로세싱 컴포넌트들을 포함할 수 있다.
본 명세서에서 사용되는 바와 같이, "장면 묘사(scene description)"는 AV 차량 상의 하나 이상의 센서에 의해 검출되거나 AV 외부의 소스에 의해 제공되는 하나 이상의 분류된 또는 라벨링된 대상체를 포함하는 데이터 구조(예를 들면, 리스트) 또는 데이터 스트림이다.
본 명세서에서 사용되는 바와 같이, "도로"는 차량에 의해 횡단될 수 있는 물리적 영역이고, 명명된 주요 도로(예를 들면, 도시 거리, 주간 프리웨이(interstate freeway) 등)에 대응할 수 있거나, 또는 명명되지 않은 주요 도로(예를 들면, 주택 또는 사무실 건물에서의 사유 도로(driveway), 주차장의 섹션, 공터의 섹션, 시골 구역에의 비포장 경로 등)에 대응할 수 있다. 일부 차량들(예를 들면, 4륜 구동 픽업 트럭들, 스포츠 유틸리티 차량들 등)은 차량 주행에 특히 적합하지 않은 다양한 물리적 구역들을 횡단할 수 있기 때문에, "도로"는 임의의 지자체 또는 다른 정부 또는 행정처에 의해 주요 도로로서 공식적으로 규정되지 않은 물리적 구역일 수 있다.
본 명세서에서 사용되는 바와 같이, "차선"은 차량에 의해 횡단될 수 있는 도로의 한 부분이고, 차선 마킹들 사이의 공간의 대부분 또는 전부에 대응할 수 있거나, 또는 차선 마킹들 사이의 공간의 단지 일부(예를 들면, 50% 미만)에 대응할 수 있다. 예를 들어, 멀리 이격된 차선 마킹들을 갖는 도로는 차선 마킹들 사이에 둘 이상의 차량을 수용할 수 있음으로써, 하나의 차량이 차선 마킹들을 횡단하지 않으면서 다른 차량을 추월할 수 있고, 따라서 차선 마킹들 사이의 공간보다 좁은 차선을 갖거나 차선 마킹들 사이에 2 개의 차선을 갖는 것으로 해석될 수 있다. 차선은 차선 마킹들의 부재 시에도 해석될 수 있다. 예를 들어, 차선은 환경의 물리적 특징물들, 예를 들면, 시골 지역에서의 주요 도로를 따라 있는 바위들 및 나무들에 기초하여 규정될 수 있다.
"하나 이상"은 하나의 요소에 의해 수행되는 기능, 둘 이상의 요소에 의해, 예를 들면, 분산 방식으로 수행되는 기능, 하나의 요소에 의해 수행되는 여러 기능들, 여러 요소들에 의해 수행되는 여러 기능들, 또는 이들의 임의의 조합을 포함한다.
본 명세서에서 사용되는 바와 같이, AV 시스템은 AV의 작동을 지원하는 하드웨어, 소프트웨어, 저장된 데이터 및 실시간으로 생성되는 데이터의 어레이와 함께 AV를 지칭한다. 일 실시예에서, AV 시스템은 AV 내에 통합된다. 일 실시예에서, AV 시스템은 여러 위치들에 걸쳐 확산되어 있다. 예를 들어, AV 시스템의 소프트웨어 중 일부는 도 2와 관련하여 아래에서 설명되는 클라우드 컴퓨팅 환경(200)과 유사한 클라우드 컴퓨팅 환경에서 구현된다.
일반적으로, 본 문서는 완전 자율주행 차량, 고도 자율주행 차량, 및 조건부 자율주행 차량, 예컨대, 제각기, 소위 레벨 5 차량, 레벨 4 차량 및 레벨 3 차량을 포함하는 하나 이상의 자율주행 능력을 갖는 임의의 차량에 적용 가능한 기술들을 개시한다(차량의 자율성의 레벨 분류에 대한 세부 사항은 그 전체가 참고로 포함되는, SAE 국제 표준 J3016: 온로드 자동차 자동 운전 시스템에 관한 용어의 분류 및 정의(Taxonomy and Definitions for Terms Related to On-128-172020-02-28 Road Motor Vehicle Automated Driving Systems) 참조). 본 문서에서 설명되는 기술들은 또한 부분적 자율주행 차량 및 운전자 보조 차량, 예컨대, 소위 레벨 2 차량 및 레벨 1 차량에도 적용 가능하다(SAE 국제 표준 J3016: 온로드 자동차 자동 운전 시스템에 관한 용어의 분류 및 정의 참조). 일 실시예에서, 레벨 1, 레벨 2, 레벨 3, 레벨 4 및 레벨 5 차량 시스템들 중 하나 이상은 센서 입력들의 프로세싱에 기초하여 특정 작동 조건들 하에서 특정 차량 작동들(예를 들면, 조향, 제동, 및 맵 사용)을 자동화할 수 있다. 본 문서에서 설명되는 기술들은, 완전 자율주행 차량으로부터 인간 운전 차량에 이르는, 임의의 레벨들에 있는 차량들에 혜택을 줄 수 있다.
도 1을 참조하면, AV 시스템(120)은, 대상체들(예를 들면, 자연 장애물들(191), 차량들(193), 보행자들(192), 자전거 타는 사람들, 및 다른 장애물들)을 피하고 도로 규칙들(예를 들면, 운영 규칙들 또는 운전 선호사항들)을 준수하면서, AV(100)를 궤적(198)을 따라 환경(190)을 통해 목적지(199)(때때로 최종 위치라고 지칭됨)까지 작동시킨다.
일 실시예에서, AV 시스템(120)은 컴퓨터 프로세서들(146)로부터 작동 커맨드들을 수신하고 이에 따라 작동하도록 설비된 디바이스들(101)을 포함한다. 일 실시예에서, 컴퓨팅 프로세서들(146)은 도 3을 참조하여 아래에서 설명되는 프로세서(304)와 유사하다. 디바이스들(101)의 예들은 조향 컨트롤(102), 브레이크(103), 기어, 액셀러레이터 페달 또는 다른 가속 제어 메커니즘, 윈드실드 와이퍼, 사이드 도어 록, 윈도 컨트롤, 및 방향 지시등을 포함한다.
일 실시예에서, AV 시스템(120)은, AV의 위치, 선속도와 각속도 및 선가속도와 각가속도, 및 헤딩(heading)(예를 들면, AV(100)의 선단(leading end)의 배향)과 같은, AV(100)의 상태 또는 조건의 속성들을 측정 또는 추론하기 위한 센서들(121)을 포함한다. 센서들(121)의 예는 GPS, 차량 선가속도 및 각도 변화율(angular rate) 양쪽 모두를 측정하는 IMU(inertial measurement unit), 바퀴 슬립률(wheel slip ratio)을 측정 또는 추정하기 위한 바퀴 속력 센서, 바퀴 브레이크 압력 또는 제동 토크 센서, 엔진 토크 또는 바퀴 토크 센서, 그리고 조향각 및 각도 변화율 센서이다.
일 실시예에서, 센서들(121)은 또한 AV의 환경의 속성들을 감지하거나 측정하기 위한 센서들을 포함한다. 예를 들어, 가시 광, 적외선 또는 열(또는 양쪽 모두) 스펙트럼의 단안 또는 스테레오 비디오 카메라들(122), LiDAR(123), RADAR, 초음파 센서들, 비행 시간(time-of-flight, TOF) 깊이 센서들, 속력 센서들, 온도 센서들, 습도 센서들, 및 강수 센서들.
일 실시예에서, AV 시스템(120)은 컴퓨터 프로세서들(146)과 연관된 머신 명령어들 또는 센서들(121)에 의해 수집되는 데이터를 저장하기 위한 데이터 저장 유닛(142) 및 메모리(144)를 포함한다. 일 실시예에서, 데이터 저장 유닛(142)은 도 3과 관련하여 아래에서 기술되는 ROM(308) 또는 저장 디바이스(310)와 유사하다. 일 실시예에서, 메모리(144)는 아래에서 설명되는 메인 메모리(306)와 유사하다. 일 실시예에서, 데이터 저장 유닛(142) 및 메모리(144)는 환경(190)에 관한 과거 정보, 실시간 정보, 및/또는 예측 정보를 저장한다. 일 실시예에서, 저장된 정보는 맵들, 운전 수행, 교통 혼잡 업데이트들 또는 기상 조건들을 포함한다. 일 실시예에서, 환경(190)에 관련된 데이터는 원격에 위치하는 데이터베이스(134)로부터 통신 채널을 통해 AV(100)로 송신된다.
일 실시예에서, AV 시스템(120)은 다른 차량의 상태들 및 조건들, 예컨대, 위치, 선속도와 각속도, 선가속도와 각가속도, 및 AV(100)를 향한 선형 헤딩(linear heading)과 각도 헤딩(angular heading)의 측정된 또는 추론된 속성들을 통신하기 위한 통신 디바이스들(140)을 포함한다. 이러한 디바이스들은 V2V(Vehicle-to-Vehicle) 및 V2I(Vehicle-to-Infrastructure) 통신 디바이스들 및 포인트 투 포인트(point-to-point) 또는 애드혹(ad hoc) 네트워크들 또는 양쪽 모두를 통한 무선 통신을 위한 디바이스들을 포함한다. 일 실시예에서, 통신 디바이스들(140)은 (무선 및 광학 통신을 포함하는) 전자기 스펙트럼 또는 다른 매체(예를 들면, 공기 및 음향 매체)를 통해 통신한다. V2V(Vehicle-to-Vehicle), V2I(Vehicle-to-Infrastructure) 통신(및 일부 실시예들에서, 하나 이상의 다른 유형의 통신)의 조합이 때때로 V2X(Vehicle-to-Everything) 통신이라고 지칭된다. V2X 통신은 전형적으로, 자율주행 차량들과의 통신 및 자율주행 차량들 간의 통신을 위한 하나 이상의 통신 표준을 준수한다.
일 실시예에서, 통신 디바이스들(140)은 통신 인터페이스들을 포함한다. 예를 들어, 유선, 무선, WiMAX, WiFi, 블루투스, 위성, 셀룰러, 광학, 근거리(near field), 적외선, 또는 무선(radio) 인터페이스들. 통신 인터페이스들은 원격에 위치하는 데이터베이스(134)로부터 AV 시스템(120)으로 데이터를 송신한다. 일 실시예에서, 원격에 위치하는 데이터베이스(134)는 도 2에 설명된 바와 같은 클라우드 컴퓨팅 환경(200)에 내장되어 있다. 통신 인터페이스들(140)은 센서들(121)로부터 수집되는 데이터 또는 AV(100)의 작동에 관련된 다른 데이터를 원격에 위치하는 데이터베이스(134)로 송신한다. 일 실시예에서, 통신 인터페이스들(140)은 텔레오퍼레이션(teleoperation)에 관련되는 정보를 AV(100)로 송신한다. 일부 실시예들에서, AV(100)는 다른 원격(예를 들면, "클라우드") 서버들(136)과 통신한다.
일 실시예에서, 원격에 위치하는 데이터베이스(134)는 또한 디지털 데이터를 저장 및 송신한다(예를 들면, 도로 및 거리 위치들과 같은 데이터를 저장함). 그러한 데이터는 AV(100) 상의 메모리(144)에 저장되거나, 원격에 위치하는 데이터베이스(134)로부터 통신 채널을 통해 AV(100)로 송신된다.
일 실시예에서, 원격에 위치하는 데이터베이스(134)는 유사한 하루 중 시간(time of day)에 궤적(198)을 따라 이전에 주행했던 차량들의 운전 속성들(예를 들면, 속력 프로필 및 가속도 프로필)에 관한 과거 정보를 저장 및 송신한다. 일 구현에서, 그러한 데이터는 AV(100) 상의 메모리(144)에 저장될 수 있거나, 또는 원격에 위치하는 데이터베이스(134)로부터 통신 채널을 통해 AV(100)로 송신될 수 있다.
AV(100) 상에 위치하는 컴퓨팅 디바이스들(146)은 실시간 센서 데이터 및 사전 정보(prior information) 양쪽 모두에 기초하여 제어 행동들을 알고리즘적으로 생성하여, AV 시스템(120)이 그의 자율주행 운전 능력을 실행할 수 있게 한다.
일 실시예에서, AV 시스템(120)은 AV(100)의 사용자(예를 들면, 탑승자 또는 원격 사용자)에게 정보 및 경고들을 제공하고 그로부터 입력을 수신하기 위한, 컴퓨팅 디바이스들(146)에 결합된 컴퓨터 주변기기들(132)을 포함한다. 일 실시예에서, 주변기기들(132)은 도 3을 참조하여 아래에서 논의되는 디스플레이(312), 입력 디바이스(314), 및 커서 컨트롤러(316)와 유사하다. 결합은 무선 또는 유선이다. 인터페이스 디바이스들 중 임의의 둘 이상이 단일 디바이스에 통합될 수 있다.
도 2는 예시적인 "클라우드" 컴퓨팅 환경을 예시한다. 클라우드 컴퓨팅은 구성 가능한 컴퓨팅 자원들(예를 들면, 네트워크들, 네트워크 대역폭, 서버들, 프로세싱, 메모리, 스토리지, 애플리케이션들, 가상 머신들, 및 서비스들)의 공유 풀에 대한 편리한 온 디맨드 네트워크 액세스를 가능하게 하기 위한 서비스 전달(service delivery)의 일 모델이다. 전형적인 클라우드 컴퓨팅 시스템들에서는, 하나 이상의 대규모 클라우드 데이터 센터가 클라우드에 의해 제공되는 서비스들을 전달하는 데 사용되는 머신들을 수용한다. 이제 도 2를 참조하면, 클라우드 컴퓨팅 환경(200)은 클라우드(202)를 통해 상호 연결되는 클라우드 데이터 센터들(204a, 204b 및 204c)을 포함한다. 데이터 센터들(204a, 204b 및 204c)은 클라우드 컴퓨팅 서비스들을 클라우드(202)에 연결된 컴퓨터 시스템들(206a, 206b, 206c, 206d, 206e 및 206f)에 제공한다.
클라우드 컴퓨팅 환경(200)은 하나 이상의 클라우드 데이터 센터를 포함한다. 일반적으로, 클라우드 데이터 센터, 예를 들어, 도 2에 도시된 클라우드 데이터 센터(204a)는 클라우드, 예를 들어, 도 2에 도시된 클라우드(202) 또는 클라우드의 특정 부분을 구성하는 서버들의 물리적 배열을 지칭한다. 예를 들어, 서버들은 클라우드 데이터 센터 내에 룸, 그룹, 로우(row), 및 랙(rack)으로 물리적으로 배열된다. 클라우드 데이터 센터는 하나 이상의 서버 룸을 포함하는 하나 이상의 구역(zone)을 갖는다. 각각의 룸은 하나 이상의 서버 로우를 가지며, 각각의 로우는 하나 이상의 랙을 포함한다. 각각의 랙은 하나 이상의 개별 서버 노드를 포함한다. 어떤 구현에서, 구역, 룸, 랙, 및/또는 로우 내의 서버들은, 전력 요구사항, 에너지 요구사항, 열적 요구사항, 가열 요구사항, 및/또는 다른 요구사항들을 포함하는, 데이터 센터 설비의 물리적 인프라스트럭처 요구사항들에 기초하여 그룹들로 배열된다. 일 실시예에서, 서버 노드들은 도 3에서 설명되는 컴퓨터 시스템과 유사하다. 데이터 센터(204a)는 많은 랙들을 통해 분산된 많은 컴퓨팅 시스템들을 갖는다.
클라우드(202)는 클라우드 데이터 센터들(204a, 204b, 및 204c)을 상호연결시키고 클라우드 컴퓨팅 서비스들에 대한 컴퓨팅 시스템들(206a 내지 206f)의 액세스를 용이하게 하는 것을 돕는 네트워크 및 네트워킹 자원들(예를 들어, 네트워킹 장비, 노드들, 라우터들, 스위치들, 및 네트워킹 케이블들)과 함께 클라우드 데이터 센터들(204a, 204b 및 204c)을 포함한다. 일 실시예에서, 네트워크는 지상 또는 위성 연결들을 사용하여 배포되는 유선 또는 무선 링크들을 사용하여 결합되는 하나 이상의 로컬 네트워크, 광역 네트워크, 또는 인터네트워크의 임의의 조합을 나타낸다. 네트워크를 통해 교환되는 데이터는, IP(Internet Protocol), MPLS(Multiprotocol Label Switching), ATM(Asynchronous Transfer Mode), 및 프레임 릴레이 등과 같은, 임의의 수의 네트워크 계층 프로토콜들을 사용하여 전송된다. 게다가, 네트워크가 다수의 서브 네트워크들의 조합을 나타내는 실시예들에서, 기저 서브 네트워크들(underlying sub-networks) 각각에서 상이한 네트워크 계층 프로토콜들이 사용된다. 일부 실시예들에서, 네트워크는, 공중 인터넷과 같은, 하나 이상의 상호연결된 인터네트워크를 나타낸다.
컴퓨팅 시스템들(206a 내지 206f) 또는 클라우드 컴퓨팅 서비스 소비자들은 네트워크 링크들 및 네트워크 어댑터들을 통해 클라우드(202)에 연결된다. 일 실시예에서, 컴퓨팅 시스템들(206a 내지 206f)은 다양한 컴퓨팅 디바이스들, 예를 들어, 서버, 데스크톱, 랩톱, 태블릿, 스마트폰, IoT(Internet of Things) 디바이스, 자율주행 차량(자동차, 드론, 셔틀, 기차, 버스 등을 포함함) 및 소비자 전자기기로서 구현된다. 일 실시예에서, 컴퓨팅 시스템들(206a 내지 206f)은 다른 시스템들 내에 또는 그 일부로서 구현된다.
도 3은 컴퓨터 시스템(300)을 예시한다. 일 구현에서, 컴퓨터 시스템(300)은 특수 목적 컴퓨팅 디바이스이다. 특수 목적 컴퓨팅 디바이스는 기술들을 수행하도록 고정 배선(hard-wired)되거나, 또는 기술들을 수행하도록 영속적으로 프로그래밍되어 있는 하나 이상의 ASIC(application-specific integrated circuit) 또는 FPGA(field programmable gate array)와 같은 디지털 전자 디바이스들을 포함하거나, 또는 펌웨어, 메모리, 다른 스토리지 또는 그 조합 내의 프로그램 명령어들에 따라 기술들을 수행하도록 프로그래밍되어 있는 하나 이상의 범용 하드웨어 프로세서를 포함할 수 있다. 그러한 특수 목적 컴퓨팅 디바이스들은 또한 커스텀 고정 배선 로직, ASIC들, 또는 FPGA들을 커스텀 프로그래밍과 조합하여 기술들을 달성할 수 있다. 다양한 실시예들에서, 특수 목적 컴퓨팅 디바이스들은 기술들을 구현하기 위한 고정 배선 및/또는 프로그램 로직을 포함하는 데스크톱 컴퓨터 시스템들, 휴대용 컴퓨터 시스템들, 핸드헬드 디바이스들, 네트워크 디바이스들, 또는 임의의 다른 디바이스이다.
일 실시예에서, 컴퓨터 시스템(300)은 정보를 통신하기 위한 버스(302) 또는 다른 통신 메커니즘, 및 정보를 프로세싱하기 위한, 버스(302)와 결합된 하드웨어 프로세서(304)를 포함한다. 하드웨어 프로세서(304)는, 예를 들어, 범용 마이크로프로세서이다. 컴퓨터 시스템(300)은 프로세서(304)에 의해 실행될 명령어들 및 정보를 저장하기 위한, 버스(302)에 결합된 메인 메모리(306), 예컨대, RAM(random access memory) 또는 다른 동적 저장 디바이스를 또한 포함한다. 일 구현에서, 메인 메모리(306)는 프로세서(304)에 의해 실행될 명령어들의 실행 동안 임시 변수들 또는 다른 중간 정보를 저장하는 데 사용된다. 그러한 명령어들은, 프로세서(304)에 의해 액세스 가능한 비일시적 저장 매체에 저장되어 있을 때, 컴퓨터 시스템(300)을 명령어들에 지정된 동작들을 수행하도록 커스터마이징되는 특수 목적 머신으로 만든다.
일 실시예에서, 컴퓨터 시스템(300)은, 프로세서(304)에 대한 명령어들 및 정적 정보를 저장하기 위한, 버스(302)에 결합된 ROM(read only memory)(308) 또는 다른 정적 저장 디바이스를 더 포함한다. 정보 및 명령어들을 저장하기 위한, 자기 디스크, 광학 디스크, 솔리드 스테이트 드라이브, 또는 3차원 크로스 포인트 메모리와 같은, 저장 디바이스(310)가 제공되고 버스(302)에 결합된다.
일 실시예에서, 컴퓨터 시스템(300)은 정보를 컴퓨터 사용자에게 디스플레이하기 위한 CRT(cathode ray tube), LCD(liquid crystal display), 플라스마 디스플레이, LED(light emitting diode) 디스플레이, 또는 OLED(organic light emitting diode) 디스플레이와 같은 디스플레이(312)에 버스(302)를 통해 결합된다. 정보 및 커맨드 선택들을 프로세서(304)로 전달하기 위한 영숫자 키 및 다른 키를 포함하는 입력 디바이스(314)가 버스(302)에 결합된다. 다른 유형의 사용자 입력 디바이스는 방향 정보 및 커맨드 선택들을 프로세서(304)에 전달하고 디스플레이(312) 상에서의 커서 움직임을 제어하기 위한, 마우스, 트랙볼, 터치식 디스플레이, 또는 커서 방향 키들과 같은, 커서 컨트롤러(316)이다. 이러한 입력 디바이스는 전형적으로, 디바이스가 평면에서의 위치들을 지정할 수 있게 하는 2 개의 축, 즉 제1 축(예를 들면, x 축) 및 제2 축(예를 들면, y 축)에서의 2 자유도를 갖는다.
일 실시예에 따르면, 본 명세서에서의 기술들은 프로세서(304)가 메인 메모리(306)에 포함된 하나 이상의 명령어의 하나 이상의 시퀀스를 실행하는 것에 응답하여 컴퓨터 시스템(300)에 의해 수행된다. 그러한 명령어들은, 저장 디바이스(310)와 같은, 다른 저장 매체로부터 메인 메모리(306) 내로 판독된다. 메인 메모리(306)에 포함된 명령어 시퀀스들의 실행은 프로세서(304)가 본 명세서에 설명된 프로세스 단계들을 수행하게 한다. 대안적인 실시예들에서, 소프트웨어 명령어들 대신에 또는 소프트웨어 명령어들과 조합하여 고정 배선 회로가 사용된다.
"저장 매체"라는 용어는, 본 명세서에서 사용되는 바와 같이, 머신이 특정 방식으로 작동하게 하는 명령어들 및/또는 데이터를 저장하는 임의의 비일시적 매체를 지칭한다. 그러한 저장 매체는 비휘발성 매체 및/또는 휘발성 매체를 포함한다. 비휘발성 매체는, 예를 들어, 광학 디스크, 자기 디스크, 솔리드 스테이트 드라이브, 또는 3차원 크로스 포인트 메모리, 예컨대, 저장 디바이스(310)를 포함한다. 휘발성 매체는 동적 메모리, 예컨대, 메인 메모리(306)를 포함한다. 통상적인 형태의 저장 매체는, 예를 들어, 플로피 디스크, 플렉서블 디스크, 하드 디스크, 솔리드 스테이트 드라이브, 자기 테이프, 또는 임의의 다른 자기 데이터 저장 매체, CD-ROM, 임의의 다른 광학 데이터 저장 매체, 홀 패턴들을 갖는 임의의 물리적 매체, RAM, PROM, 및 EPROM, FLASH-EPROM, NV-RAM, 또는 임의의 다른 메모리 칩, 또는 카트리지를 포함한다.
저장 매체는 송신 매체와 별개이지만 송신 매체와 함께 사용될 수 있다. 송신 매체는 저장 매체들 사이에서 정보를 전달하는 데 참여한다. 예를 들어, 송신 매체는 버스(302)를 구성하는 전선들을 포함한, 동축 케이블, 구리 와이어 및 광섬유를 포함한다. 송신 매체는 또한, 전파(radio-wave) 및 적외선 데이터 통신 동안 생성되는 것과 같은, 음향파 또는 광파의 형태를 취할 수 있다.
일 실시예에서, 실행을 위해 하나 이상의 명령어의 하나 이상의 시퀀스를 프로세서(304)로 전달하는 데 다양한 형태의 매체가 관여된다. 예를 들어, 명령어들은 초기에 원격 컴퓨터의 자기 디스크 또는 솔리드 스테이트 드라이브에 보유된다. 원격 컴퓨터는 자신의 동적 메모리에 명령어들을 로드하고 모뎀을 사용하여 전화선을 통해 명령어들을 전송한다. 컴퓨터 시스템(300)에 로컬인 모뎀은 전화선을 통해 데이터를 수신하고 적외선 송신기를 사용하여 데이터를 적외선 신호로 변환한다. 적외선 검출기는 적외선 신호로 전달되는 데이터를 수신하고 적절한 회로는 데이터를 버스(302)에 배치한다. 버스(302)는 데이터를 메인 메모리(306)로 전달하고, 프로세서(304)는 메인 메모리로부터 명령어들을 검색하여 실행한다. 메인 메모리(306)에 의해 수신되는 명령어들은 프로세서(304)에 의해 실행되기 전이나 실행된 후에 선택적으로 저장 디바이스(310)에 저장될 수 있다.
컴퓨터 시스템(300)은 버스(302)에 결합된 통신 인터페이스(318)를 또한 포함한다. 통신 인터페이스(318)는 로컬 네트워크(322)에 연결되는 네트워크 링크(320)에 대한 양방향 데이터 통신(two-way data communication) 결합을 제공한다. 예를 들어, 통신 인터페이스(318)는 ISDN(integrated service digital network) 카드, 케이블 모뎀, 위성 모뎀, 또는 대응하는 유형의 전화선에 대한 데이터 통신 연결을 제공하는 모뎀이다. 다른 예로서, 통신 인터페이스(318)는 호환 가능한 LAN(local area network)에 대한 데이터 통신 연결을 제공하기 위한 LAN 카드이다. 일부 구현들에서, 무선 링크들이 또한 구현된다. 임의의 그러한 구현에서, 통신 인터페이스(318)는 다양한 유형의 정보를 나타내는 디지털 데이터 스트림을 전달하는 전기 신호, 전자기 신호, 또는 광학 신호를 전송 및 수신한다.
네트워크 링크(320)는 전형적으로 하나 이상의 네트워크를 통한 다른 데이터 디바이스들로의 데이터 통신을 제공한다. 예를 들어, 네트워크 링크(320)는 로컬 네트워크(322)를 통해 호스트 컴퓨터(324)에 대한 연결 또는 ISP(Internet Service Provider)(326)에 의해 운영되는 클라우드 데이터 센터 또는 장비에 대한 연결을 제공한다. ISP(326)는 차례로 지금은 "인터넷(328)"이라고 통상적으로 지칭되는 월드 와이드 패킷 데이터 통신 네트워크(world-wide packet data communication network)를 통해 데이터 통신 서비스들을 제공한다. 로컬 네트워크(322) 및 인터넷(328) 양쪽 모두는 디지털 데이터 스트림을 전달하는 전기 신호, 전자기 신호, 또는 광학 신호를 사용한다. 컴퓨터 시스템(300)으로 그리고 컴퓨터 시스템(300)으로부터 디지털 데이터를 전달하는, 다양한 네트워크들을 통한 신호들 및 통신 인터페이스(318)를 통한 네트워크 링크(320) 상의 신호들은 송신 매체의 예시적인 형태들이다. 일 실시예에서, 네트워크(320)는 위에서 설명된 클라우드(202) 또는 클라우드(202)의 일부를 포함한다.
컴퓨터 시스템(300)은 네트워크(들), 네트워크 링크(320), 및 통신 인터페이스(318)를 통해 메시지들을 전송하고, 프로그램 코드를 포함한, 데이터를 수신한다. 일 실시예에서, 컴퓨터 시스템(300)은 프로세싱하기 위한 코드를 수신한다. 수신된 코드는 수신될 때 프로세서(304)에 의해 실행되고/되거나 추후 실행을 위해 저장 디바이스(310) 또는 다른 비휘발성 스토리지에 저장된다.
자율주행 차량 아키텍처
도 4는 자율주행 차량(예를 들면, 도 1에 도시된 AV(100))에 대한 예시적인 아키텍처(400)를 도시한다. 아키텍처(400)는 인지 모듈(402)(때때로 인지 회로라고 지칭됨), 계획 모듈(404)(때때로 계획 회로라고 지칭됨), 제어 모듈(406)(때때로 제어 회로라고 지칭됨), 로컬화 모듈(408)(때때로 로컬화 회로라고 지칭됨), 및 데이터베이스 모듈(410)(때때로 데이터베이스 회로라고 지칭됨)을 포함한다. 각각의 모듈은 AV(100)의 작동에서 소정의 역할을 한다. 다함께, 모듈들(402, 404, 406, 408 및 410)은 도 1에 도시된 AV 시스템(120)의 일부일 수 있다. 일부 실시예들에서, 모듈들(402, 404, 406, 408, 및 410) 중 임의의 시스템은 컴퓨터 소프트웨어(예를 들면, 컴퓨터로 판독가능한 매체(computer-readable medium) 상에 저장된 실행가능 코드) 및 컴퓨터 하드웨어(예를 들면, 하나 이상의 마이크로프로세서, 마이크로컨트롤러, ASIC(application-specific integrated circuit))의 조합, 하드웨어 메모리 디바이스들, 다른 유형들의 집적 회로들, 다른 유형들의 컴퓨터 하드웨어, 또는 이러한 것들 중 일부 또는 전부의 조합이다.
사용 중에, 계획 모듈(404)은 목적지(412)를 나타내는 데이터를 수신하고 목적지(412)에 도달(예를 들면, 도착)하기 위해 AV(100)에 의해 주행될 수 있는 궤적(414)(때때로 루트라고 지칭됨)을 나타내는 데이터를 결정한다. 계획 모듈(404)이 궤적(414)을 나타내는 데이터를 결정하기 위해, 계획 모듈(404)은 인지 모듈(402), 로컬화 모듈(408), 및 데이터베이스 모듈(410)로부터 데이터를 수신한다.
인지 모듈(402)은, 예를 들면, 도 1에 또한 도시된 바와 같이, 하나 이상의 센서(121)를 사용하여 인근의 물리적 대상체들을 식별한다. 대상체들은 분류되고(예를 들면, 보행자, 자전거, 자동차, 교통 표지판 등과 같은 유형으로 그룹화되고), 분류된 대상체들(416)을 포함하는 장면 묘사가 계획 모듈(404)에 제공된다.
계획 모듈(404)은 또한 AV 위치(418)를 나타내는 데이터를 로컬화 모듈(408)로부터 수신한다. 로컬화 모듈(408)은 위치를 계산하기 위해 센서들(121)로부터의 데이터 및 데이터베이스 모듈(410)로부터의 데이터(예를 들면, 지리적 데이터)를 사용하여 AV 위치를 결정한다. 예를 들어, 로컬화 모듈(408)은 GNSS(Global Navigation Satellite System) 센서로부터의 데이터 및 지리적 데이터를 사용하여 AV의 경도와 위도를 계산한다. 일 실시예에서, 로컬화 모듈(408)에 의해 사용되는 데이터는 도로 기하학적 속성의 고정밀 맵, 도로망 연결 속성을 기술하는 맵, 도로 물리적 속성(예컨대, 교통 속력, 교통량, 차량 교통 차선과 자전거 타는 사람 교통 차선의 개수, 차선 폭, 차선 교통 방향, 또는 차선 마커 유형 및 위치, 또는 그 조합)을 기술하는 맵, 및 도로 특징부, 예컨대, 횡단보도, 교통 표지판 또는 다양한 유형의 다른 주행 신호(travel signal)의 공간적 위치를 기술하는 맵을 포함한다.
제어 모듈(406)은 궤적(414)을 나타내는 데이터 및 AV 위치(418)를 나타내는 데이터를 수신하고, AV(100)가 목적지(412)로 궤적(414)을 주행하게 할 방식으로 AV의 제어 기능들(420a 내지 420c)(예를 들면, 조향, 스로틀링, 제동, 점화)을 작동시킨다. 예를 들어, 궤적(414)이 좌회전을 포함하는 경우, 제어 모듈(406)은, 조향 기능의 조향각이 AV(100)가 좌회전하게 하고 스로틀링 및 제동이 AV(100)가 이러한 회전이 이루어지기 전에 지나가는 보행자들 또는 차량들을 위해 일시정지 및 대기하게 하는 방식으로, 제어 기능들(420a 내지 420c)을 작동시킬 것이다.
자율주행 차량 입력들
도 5는 인지 모듈(402)(도 4)에 의해 사용되는 입력들(502a 내지 502d)(예를 들면, 도 1에 도시된 센서들(121)) 및 출력들(504a 내지 504d)(예를 들면, 센서 데이터)의 예를 도시한다. 하나의 입력(502a)은 LiDAR(Light Detection and Ranging) 시스템(예를 들면, 도 1에 도시된 LiDAR(123))이다. LiDAR는 그의 가시선에 있는 물리적 대상체들에 관한 데이터를 획득하기 위해 광(예를 들면, 적외선 광과 같은 광 버스트)을 사용하는 기술이다. LiDAR 시스템은 출력(504a)으로서 LiDAR 데이터를 생성한다. 예를 들어, LiDAR 데이터는 환경(190)의 표현을 구성하는 데 사용되는 3D 또는 2D 포인트들(포인트 클라우드들이라도 알려져 있음)의 집합체이다.
다른 입력(502b)은 RADAR 시스템이다. RADAR는 인근의 물리적 대상체들에 관한 데이터를 획득하기 위해 전파를 사용하는 기술이다. RADAR는 LiDAR 시스템의 가시선 내에 있지 않은 대상체들에 관한 데이터를 획득할 수 있다. RADAR 시스템(502b)은 출력(504b)으로서 RADAR 데이터를 생성한다. 예를 들어, RADAR 데이터는 환경(190)의 표현을 구성하는 데 사용되는 하나 이상의 무선 주파수 전자기 신호이다.
다른 입력(502c)은 카메라 시스템이다. 카메라 시스템은 인근의 물리적 대상체들에 관한 정보를 획득하기 위해 하나 이상의 카메라(예를 들면, CCD(charge-coupled device)와 같은 광 센서를 사용하는 디지털 카메라들)를 사용한다. 카메라 시스템은 출력(504c)으로서 카메라 데이터를 생성한다. 카메라 데이터는 종종 이미지 데이터(예를 들면, RAW, JPEG, PNG 등과 같은 이미지 데이터 포맷의 데이터)의 형태를 취한다. 일부 예들에서, 카메라 시스템은, 카메라 시스템이 깊이를 인지하는 것을 가능하게 하는, 예를 들면, 입체시(stereopsis)(스테레오 비전)를 위한, 다수의 독립적인 카메라들을 갖는다. 비록 카메라 시스템에 의해 인지되는 대상체들이 여기서 "인근"으로 기술되지만, 이것은 AV를 기준으로 한 것이다. 사용 중에, 카메라 시스템은 멀리 있는, 예를 들어, AV의 앞으로(ahead) 최대 1 킬로미터 이상에 있는 대상체들을 "보도록" 구성될 수 있다. 그에 따라, 카메라 시스템은 멀리 떨어져 있는 대상체들을 인지하도록 최적화되어 있는 센서들 및 렌즈들과 같은 특징부들을 가질 수 있다.
다른 입력(502d)은 TLD(traffic light detection) 시스템이다. TLD 시스템은 하나 이상의 카메라를 사용하여, 시각적 운행 정보를 제공하는 교통 신호등, 거리 표지판, 및 다른 물리적 대상체들에 관한 정보를 획득한다. TLD 시스템은 출력(504d)으로서 TLD 데이터를 생성한다. TLD 데이터는 종종 이미지 데이터(예를 들면, RAW, JPEG, PNG 등과 같은 이미지 데이터 포맷의 데이터)의 형태를 취한다. TLD 시스템은, 시각적 운행 정보를 제공하는 가능한 한 많은 물리적 대상체들에 관한 정보를 획득하기 위해 TLD 시스템이 넓은 시야를 가진 카메라(예를 들면, 광각 렌즈 또는 어안 렌즈를 사용함)를 사용함으로써, AV(100)가 이러한 대상체들에 의해 제공되는 모든 관련 운행 정보에 액세스하도록 한다는 점에서, 카메라를 포함하는 시스템과 상이하다. 예를 들어, TLD 시스템의 시야각은 약 120도 이상일 수 있다.
일부 실시예들에서, 출력들(504a 내지 504d)은 센서 융합 기술을 사용하여 결합된다. 따라서, 개별 출력들(504a 내지 504d) 중 어느 하나가 AV(100)의 다른 시스템들에 제공되거나(예를 들면, 도 4에 도시된 바와 같은 계획 모듈(404)에 제공되거나), 또는 결합된 출력이 동일한 유형의 단일 결합 출력 또는 다수의 결합 출력들의 형태(동일한 결합 기술을 사용하는 것 또는 동일한 출력들을 결합시키는 것 또는 양쪽 모두) 또는 상이한 유형의 단일 결합 출력 또는 다수의 결합 출력들의 형태(예를 들면, 상이한 각자의 결합 기술들을 사용하는 것 또는 상이한 각자의 출력들을 결합시키는 것 또는 양쪽 모두) 중 어느 하나로 다른 시스템들에 제공될 수 있다. 일부 실시예들에서, 조기 융합(early fusion) 기술이 사용된다. 조기 융합 기술은 하나 이상의 데이터 프로세싱 단계가 결합된 출력에 적용되기 전에 출력들을 결합시키는 것을 특징으로 한다. 일부 실시예들에서, 늦은 융합(late fusion) 기술이 사용된다. 늦은 융합 기술은 하나 이상의 데이터 프로세싱 단계가 개별 출력들에 적용된 후에 출력들을 결합시키는 것을 특징으로 한다.
센서 폐색 검출
위에서 언급된 바와 같이, 카메라(502c)와 같은, 2D 센서의 출력에 의존할 때 발생할 수 있는 한 가지 문제는 폐색 - 먼지, 물, 안개, 파편, 또는 다른 물질이 카메라의 렌즈 또는 하우징에 부착되거나, 센서가 센서의 주변 환경의 2D 이미지를 캡처하는 것을 방해하는 것 - 이다. 자율주행 차량들의 맥락에서, 그러한 폐색은 중대한 안전 문제를 나타낼 수 있다. 그에 따라, 그러한 폐색을 검출하고 해결하는 것이 유익하다. 더욱이, 그러한 폐색의 성질과 정도에 대한 지식은 적절한 시정 조치를 결정하는 데 유익할 수 있다. 예를 들어, 중대한 폐색은 차량 작동의 즉각적인 중단을 필요로 할 수 있는 반면, 경미한 폐색은 다른 시정 조치(예를 들면, 렌즈 청소 장치를 관여시키는 것, 차량을 서행시키는 것 등) 또는 경미한 폐색에도 불구하고 차량이 계속 안전하게 작동할 수 있다는 결정을 결과할 수 있다.
도 6a 내지 도 6c는 파편이 광학 센서의 시야를 어떻게 적어도 부분적으로 폐색할 수 있는지의 예들을 도시한다. 도 6a는 나뭇잎이 광학 센서의 시야를 부분적으로 폐색하는 동안 AV(100)의 광학 센서에 의해 수집되는 예시적인 이미저리를 도시한다. 도 6a에서, 나뭇잎이 광학 센서와 연관된 센서 창에 붙어 있다. 이러한 폐색은 바람의 변화 이후에 또는 심지어 자동차가 정지하는 것에 응답하여 끝날 수 있지만, 폐색이 얼마나 오래 지속되는지에 상관없이 AV(100)가 그의 주변 환경을 모니터링할 수 있는 능력에 여전히 영향을 미칠 수 있다. 도 6a의 이미저리는 초점이 약간만 벗어난 나뭇잎을 보여준다. 이것은 광학 센서가 매우 큰 피사계 심도를 가지는 경우 또는 나뭇잎의 곡률이 나뭇잎이 날아가 광학 센서와 연관된 센서 창에 바싹 붙게 되는 것을 방지하는 경우일 수 있다.
도 6b는 도로 파편의 주변부만이 명확하게 구별될 수 있을 정도로 도로 파편이 광학 센서에 너무 가까이 있는 다른 예를 도시한다. 이는 도로 파편을 특성 분석하는 것이 어렵게 될 정도로 도로 파편이 센서 창에 맞닿은 평평하거나 평탄한 표면을 가지는 경우일 수 있다. 일반적으로, 광학 센서의 큰 피사계 심도로 인해, 물체들은 센서 창과 접촉할 때만 이렇게 흐릿하게 보일 것이다.
도 6c는 도로 파편이 비닐 봉지의 형태를 취하는 다른 예를 도시한다. 이 경우에, 비닐 봉지가 광학 센서의 시야의 많은 부분을 덮더라도, 이미저리의 적어도 일부 덮인 부분들을 통해 유용한 이미저리가 여전히 수취될 수 있다. 이러한 이유로, 폐색 검출 시스템이 이미지의 어떤 부분들이 폐색되는지를 특성 분석할 뿐만 아니라 폐색된 부분들 중 어느 부분이 적어도 부분적으로 투명하고 따라서 관련 정보를 여전히 캡처하는지 여부를 특성 분석하는 것이 유익할 수 있다.
위에서 논의된 바와 같이, 인간들은 도 6a 내지 도 6c의 예들로부터 폐색이 발생했다고 쉽게 추론할 수 있지만, 컴퓨팅 디바이스가 그렇게 하는 것이 더 어려울 수 있다. 즉, 컴퓨팅 디바이스는 일반적으로 (예를 들면, 충분한 특수 프로그래밍이 없으면) 도 6a 내지 도 6c의 폐색 예들과 폐색 없이 촬영된 카메라 이미지들을 구별하지 못할 수 있다. 컴퓨팅 디바이스가 폐색을 갖는 예들과 폐색을 갖지 않는 예들을 구별할 수 있도록 하는 한 가지 접근 방식은 머신 러닝 기술들을 활용하는 것이다. 그렇지만, 이러한 기술들은 전형적으로 정확한 머신 러닝 모델을 생성하기 위해 대량의 데이터를 필요로 한다. 실제로, 폐색은 비교적 드물게 발생할 수 있으며, 따라서 그러한 모델을 트레이닝하기 위해 비합성 이미저리만을 사용하는 것은 어려울 수 있다.
본 개시내용의 실시예들은 카메라 폐색들을 나타내는 매우 정확한 입력 데이터의 합성 생성을 제공하는 것에 의해 이러한 문제들을 해결한다. 구체적으로, 본 개시내용의 실시예들에 따르면, "그린 스크린" 또는 알려진 색상 범위의 다른 배경과 같은, 알려진 배경을 배경으로 하여 폐색 물체(예를 들면, 나뭇잎, 물, 먼지 등)가 캡처될 수 있다. 도 7은 그러한 배경을 배경으로 하여 폐색 물체의 이미지를 캡처하기 위한 예시적인 시스템(700)을 도시한다. 도 7에서 폐색 물체는 하나의 도로 파편(704)인 반면, 배경은 크로마 키 배경(718)이다. 도로 파편(704)의 이미지는 광학 센서(702)에 의해 캡처될 수 있다. 예컨대, 광학 센서(702)로부터 상이한 거리들에 있는 다양한 유형들의 도로 파편(704)의 이미저리를 캡처하기 위해, 도로 파편(704) 및/또는 센서(702)의 위치가 변화될 수 있다. 일부 실시예들에서, 광학 센서(702)로부터 일정한 거리들에 도로 파편(704)을 위치시키는 것을 돕기 위해 거리들이 표식들(706 내지 716)에 의해 표시될 수 있다. 일 실시예에서, 도로 파편(704)은 낚싯줄 또는 광학 센서(702)에 의해 포착될 가능성이 없는 다른 지지 구조체에 의해 크로마 키 배경(718)의 전방(front)에 매달려 있다. 지지 구조체는 이미지들로부터의 그의 제거가 더 쉽도록 하기 위해 크로마 키 배경(718)과 동일하거나 유사한 색상을 가질 수 있다. 다른 실시예에서, 도로 파편(704)은, 창문과 같은, 투명한 매체에 부착되거나, 센서(702)에(예를 들면, 센서의 렌즈 또는 하우징 상에) 직접 부착된다. 크로마 키 배경(718)은 블루 스크린(blue screen) 또는 그린 스크린의 형태를 포함하는 다양한 형태들을 취할 수 있다. 크로마 키 배경(718)은 도로 파편(704)의 이미저리가 그의 배경으로부터 추출될 수 있도록 하고, 도로 파편의 이미저리의 다양한 부분들의 투명도를 보여주는 분석을 수행하는 것을 더 용이하게 만든다. 예를 들어, 도로 파편(704)이 도 6c에 묘사된 것과 유사한 비닐 봉지의 형태를 취하는 경우에, 비닐 봉지를 통해 비치는 크로마 키 배경(718)의 색상의 강도 또는 양은 비닐 봉지의 투명도의 정확한 결정을 가능하게 한다. 단일의 도로 파편(704)만이 묘사되어 있지만, 일부 실시예들에서, 다수의 물체들이 광학 센서의 시야를 폐색하는 구성을 보여주기 위해 다수의 도로 파편들(704)이 한꺼번에 이미징될 수 있음을 이해해야 한다. 도로 파편(704)이 폐색의 일 예이지만, 다른 것들이 가능하다. 예를 들어, 도로 파편(704)에 추가적으로 또는 대안적으로 도 7의 구성에서 물방울, 진흙 튀김(mud splatter), 응결 등을 보여주는 투명 창이 사용될 수 있다.
도 7은 또한 시스템(700)이 도로 파편(704) 및/또는 센서(702)에 상대적으로 이동될 수 있는 하나 이상의 광원(720)을 포함할 수 있는 방법을 보여준다. 이것은 시스템(700)이 더 다양한 상황들에서 도로 파편의 조명을 더 정확하게 모델링할 수 있게 한다. 조명이 도로 파편의 모습에 큰 영향을 미칠 수 있다는 것을 감안할 때 조명 변동을 제어하는 것은 도로 파편에 대한 더 다양한 모습들을 제공하는 데 도움이 될 수 있다. 예를 들어, 역광 조명(back lighting)이 있는 도로 파편은 광원/위치에 따라 아주 상이한 모습 및/또는 투명도를 가질 수 있다. 역광 조명된 비닐 봉지는 조명에 따라 상이한 투명도를 가질 수 있다. 조명은 또한 태양이 광학 센서의 시야 내에 존재하는 효과를 시뮬레이션하는 데 사용될 수 있다.
도 8은 뉴럴 네트워크를 트레이닝하는 데 적합한 합성 입력 데이터를 생성하기 위해, 시스템(700)에 의해 캡처된 부분 폐색 이미지(802)로부터 추출된 데이터를 별도의 배경 이미지(808)(예를 들면, 폐색이 없는 차량의 센서에 의해 캡처됨)와 결합시키기 위한 프로세스를 시각적으로 예시한다. 도 8의 프로세스는, 예를 들어, 도 3의 컴퓨팅 시스템(300)에 의해 구현될 수 있다.
도 8에서, 이미지(802)는 (예를 들면, 크로마 키 배경(718)에 대응하는) 단색(solid color) 배경(803) 상의 도로 파편의 이미저리를 포함한다. 크로마 키잉 작업을 수행하는 것에 의해 단일 색상 배경(803)으로부터 도로 파편의 이미저리가 추출될 수 있다. 크로마 키잉 작업을 위한 다양한 파라미터들은 이미지(802)의 세부 사항들에 따라 설정될 수 있다. 예를 들어, 도로 파편을 배경으로부터 분리하기 위한 문턱 투명도 값은 배경(803)을 정확하게 제거하기에 충분히 높은 값(예를 들면, 90%, 95%, 97%, 98%, 99% 등)으로 설정될 수 있다. 크로마 키잉 작업은 (이미지에 묘사된 도로 파편에 대응하는) 광학 센서의 시야의 폐색된 부분들을 흰색으로 표시하고 광학 센서의 시야의 폐색되지 않은 부분들을 검은색으로 표시하는 마스크(804)를 생성할 수 있다. 마스크(804)는 RGB 또는 이진 마스크의 형태를 취할 수 있다. 크로마 키잉 작업은 또한 흰색 영역과 검은색 영역 사이의 전환이 잘 정의될 수 있게 하여 파편의 가장자리에서 파편의 투명도의 점진적인 변화를 보여주고 있다. 크로마 키잉 작업은 또한 도로 파편을 구성하는 이미지(803)의 부분을 나타내는 텍스처 레이어(texture layer)(806)의 생성을 가능하게 할 수 있다. 따라서 이 텍스처 레이어(806)는 도로 파편은 포함하지만 배경 색상(803)은 제외한 이미지를 결과하기 위해 마스크(804)의 흰색 부분을 채우는 데 사용될 수 있다. 텍스처 레이어(806)의 체크 무늬 부분이 텍스처 레이어(806)의 투명한 부분들을 나타낸다는 점에 유의해야 한다. 일부 실시예들에서, 도로 파편 물체의 추출된 픽셀들이 추출된 픽셀들의 주변부를 마스크(804)의 백색 영역 외부에 배치하기 위해 증가될 수 있다. 텍스처 레이어(806)에서 도로 파편의 크기를 증가시키는 것은 크로마 키 배경으로부터 결과되는 도로 파편 물체의 주변부를 따라 임의의 색상 프린징(color fringing)이 포함되는 것을 방지하는 것을 돕기 위해 수행될 수 있다. 일부 실시예들에서, 도로 파편의 이미지는, 배경 색상(803)의 제거 이전 또는 이후에, 크로마 키잉 작업을 진행하기 전에 데이터 세트들에 더 많은 변동들을 제공하기 위해 다양한 양들만큼 회전될 수 있다. 예를 들어, 단일 이미지로부터 많은 수의 폐색 이미저리를 생성하기 위해 이미지(802)가 1도 내지 15도만큼 반경 방향으로 오프셋될 수 있다. 도로 파편의 다수의 이미지들이 합성된 이미지에 추가되어야 하는 일부 실시예들에서, 상이한 도로 파편 조각들이 상이한 양들만큼 회전될 수 있다.
텍스처 레이어(806)가 마스크(804)와 결합될 수 있고 합성된 트레이닝 이미지(810)를 생성하기 위해 배경 이미지(808) 상에 오버레이될 수 있다. 배경 이미지(808)는 비합성 폐색 이미지에서 다른 방식으로 캡처될 수 있는 적절한 배경을 나타낼 수 있다. 예를 들어, 배경 이미지(808)는 AV(100) 상의 광학 센서에 의해 캡처될 수 있으며 따라서 AV(100)의 환경을 나타낼 수 있다. 배경 이미지(808)는 거리들, 간선도로 및/또는 교통 교차로들의 이미저리를 포함할 수 있다. 합성된 이미지들의 정확도를 증가시키기 위해, 배경 이미지(808)를 캡처하는 데 사용되는 이미지 센서는 도로 파편 또는 폐색 항목들을 캡처하는 데 사용되는 광학 센서(702)와 동일하거나 유사할 수 있다.
일부 실시예들에서, 마스크(804)는 합성된 트레이닝 이미지(810)와 함께 메타데이터로서 저장될 수 있다. 예를 들어, 마스크(804)가 결과적인 합성 이미지(810)의 어느 픽셀들이 도로 파편에 의해 폐색되고 어느 픽셀들이 도로 파편에 의해 폐색되지 않는지를 좌우하기 때문에 마스크(804)는 픽셀 레벨 폐색 주석으로서 사용될 수 있다. 일부 실시예들에서, 이미지 레벨 폐색 주석은 합성된 이미지 생성의 일부로서 생성될 수 있다. 이미지 레벨 폐색 주석은 이미저리(810)가 '폐색된' 이미지를 구성하는지 여부를 나타내는 이진 값이다. 일 실시예에서, 이진 값은 폐색되는 시야의 양이 미리 결정된 문턱 값을 초과하는지 여부를 나타낸다. 아래에서 논의되는 바와 같이, 폐색 문턱 값은 머신 러닝 모델을 트레이닝하기 위한 작동 요구사항들에 따라 설정될 수 있다. 예를 들어, 문턱치는 이미지가 중대한 폐색을 포함하는지 여부에 대한 인간 작업자의 평가와 매칭하도록 설정될 수 있다. 중대한 폐색은, 차례로, 이미저리의 사용에 적어도 부분적으로 의존할 수 있다. 예를 들어, 더 경미한 폐색들이 AV(100)의 작동에 더 큰 영향을 미칠 수 있기 때문에 AV(100)의 자율주행 운행에 더 중요한 광학 센서들에 대한 문턱치는 더 낮을 수 있다. 일 실시예에서, 문턱치는 50%, 60%, 70%, 80%, 또는 90% 중 하나 이상으로 설정된다.
도 8은 단일 합성 이미지(810)의 생성을 묘사하지만, 도 8의 프로세스는 머신 러닝 모델의 정확한 트레이닝을 위해 충분한 수의 합성 이미지들(810)을 생성하기 위해 여러 번 반복될 수 있다. 예를 들어, 디바이스(300)는 AV(100)의 작동 동안 센서 데이터로부터 그러한 이미지들을 추출하는 것을 통해 다양한 배경 이미지들(808)을 제공받을 수 있거나 생성하도록 구성될 수 있다. 유사하게, 디바이스(300)는 알려진 배경(803) 상에 폐색 물체들을 포함하는 다수의 이미지들(802)을 제공받을 수 있다. 이미지(802)와 이미지(808)의 각각의 상이한 조합은 상이한 합성 이미지(810)를 결과할 수 있으며, 따라서 대량의 합성 이미지들(810)의 신속한 생성을 가능하게 할 수 있다. 예를 들어, 폐색 물체들을 갖는 100 개의 이미지(802)와 10,000 개의 배경 이미지(808)의 조합은 100만 개의 별개의 합성 이미지(810)를 결과할 것이다. 폐색 물체를 다수의 배향들로 회전시키는 것과 같은, 이미지들(802)을 프로그램적으로 변경하는 것은 이 숫자를 더욱 증가시킬 것이다. 그에 따라, 도 8의 프로세스는 대량의 합성 이미지들(810)의 즉각적인 생성을 가능하게 할 수 있어, 매우 정확한 머신 러닝 모델들의 트레이닝을 가능하게 할 수 있다.
위에서 언급된 바와 같이, 도 8의 프로세스는 매우 정확한 합성 이미지 생성을 제공할 수 있지만, 합성 이미지들에만 기초하여 머신 러닝 모델을 트레이닝하는 것이 모든 경우에 바람직한 것은 아닐 수 있다. 예를 들어, 그러한 트레이닝은 과적합(overfitting)을 초래할 수 있으며, 이에 따라 머신 러닝 모델은 합성 이미지들에서 비합성 이미지들에 존재하지 않는 특색들을 식별하고, 따라서 비합성 이미지들에서 폐색을 정확하게 검출하지 않으면서 합성 이미지들에서 폐색을 매우 정확하게 검출하는 것을 가능하게 한다. 모델의 목표는 비합성 이미지들에서 폐색을 검출하는 것일 수 있으므로, 이는 바람직하지 않은 결과이다.
이를 해결하기 위해, 본 개시내용의 실시예들은 합성 이미지들과 비합성 이미지 양쪽 모두에 기초하여 머신 러닝 모델의 트레이닝을 제공할 수 있고, 이에 의해 합성 데이터를 사용하지 않는 트레이닝으로부터 결과되는 유해한 데이터 부족 없이 합성 이미지들에 대한 과적합을 피할 수 있다. 일 실시예에서, 뉴럴 네트워크 머신 러닝 모델이 사용되고, 이미지의 어느 부분들(예를 들면, 픽셀들)이 폐색이고 어느 부분들이 그렇지 않은지(예를 들면, 폐색을 제외한 센서의 환경을 반영하는지)를 검출하도록 트레이닝된다. 이미지의 어느 부분들이 폐색되는지를 검출하도록 뉴럴 네트워크를 트레이닝하기 위해, 폐색을 갖는 이미지들 및 이미지들의 어느 부분들이 폐색을 포함하는지를 식별해 주는 정보 양쪽 모두를 포함하는 입력들을 제공할 필요가 있을 수 있다. 위에서 언급된 바와 같이, 본 명세서에서 개시되는 프로세스는 합성 이미지들에 대한 그러한 정보의 신속한 생성을 가능하게 할 수 있다. 그렇지만, 비합성 이미지들에 대한 이러한 정보를 제공하는 것은 어렵거나 번거로울 수 있다. 예를 들어, 이러한 정보를 제공하는 것은 일반적으로 인간이 각각의 이미지를 수동으로 검토하고 이미지의 어느 부분들이 폐색되는지를, 주어진 세분성으로, 지정하는 것을 필요로 할 수 있다. 이 프로세스는 상당한 시간을 필요로 할 수 있고 제한된 정확도를 가질 수 있는데, 세분성이 증가함에 따라 특히 그렇다. 그에 따라, 비합성 이미지들과 같은, 인간에 의해 분류된 이미지들은 폐색 정보가 합성 동안 직접 결정될 수 있는 합성 정보보다 덜 세분화된 폐색 정보를 가질 수 있다. 예를 들어, 인간에 의해 분류된 이미지들은 이진 폐색 표시자들(예를 들면, 폐색 존재함 또는 폐색 존재하지 않음), 또는 합성 이미지들에 비해 저 세분성(low granularity) 표시자들(예를 들면, 주어진 사분면에 폐색이 존재함)을 가질 수 있다.
이를 해결하기 위해, 본 개시내용의 실시예들은 (예를 들면, 픽셀 단위 레벨의) 고 세분성(high granularity) 폐색 정보를 갖는 이미지들과 저 세분성 폐색 정보(예를 들면, 이진 폐색 표시자)를 갖는 이미지들의 조합을 입력 데이터로서 사용하여 폐색들을 포함하는 비합성 이미지들에 대한 매우 정확한(예를 들면, 픽셀 레벨) 주석들을 생성하도록 트레이닝될 수 있는 뉴럴 네트워크 아키텍처를 제공한다. 그러한 아키텍처의 예는 뉴럴 네트워크 트레이닝 아키텍처(900)로서 도 9에 도시되어 있다. 아키텍처(900)는, 예를 들어, 도 3에서 설명된 디바이스(300) 상에서 구현될 수 있다. 아키텍처(900)의 전부 또는 일부는 (예를 들면, 컴퓨터 프로세서들(146)을 통해) 도 1의 AV(100)와 같은, 자율주행 차량에서 추가로 구현될 수 있다. 예를 들어, 아키텍처(900)는 트레이닝 목적으로 AV(100) 외부의 디바이스(300)에 구현될 수 있고, 파선(914)으로 둘러싸인 블록들과 같은, 아키텍처(900)의 일부는 트레이닝 후에 (예를 들면, AV(100)의 작동을 제어하기 위해) 비합성 입력 데이터에 대한 추론을 수행하기 위해 AV(100) 내에서 구현될 수 있다.
도 9에 도시된 바와 같이, 뉴럴 네트워크 트레이닝 아키텍처(900)는 이미지(901)에 대응하는 데이터를, 입력으로서, 획득하고, 뉴럴 네트워크(902)에 따라 데이터를 프로세싱하며, 입력 데이터에 대한 픽셀 레벨 폐색 데이터(904)를 출력하도록 구성된 뉴럴 네트워크(902)를 포함한다. 이미지(901)는, 예를 들어, 도 8의 프로세스를 통해 생성되는 합성 이미지일 수 있다. 대안적으로, 이미지(901)는, 예를 들면, AV(100)의 작동 동안 캡처되는, 비합성 이미지일 수 있다. 뉴럴 네트워크(902) 내에서의 프로세싱은 입력을 대응하는 픽셀 레벨 폐색 데이터(904)로 변환하기 위해 다양한 동작들을 포함할 수 있다. 예를 들어, 뉴럴 네트워크(902)는 이미지 데이터로부터 특징들을 추출하기 위해 이미지 데이터가 하나 이상의 콘볼루션을 통과하는 콘볼루션 뉴럴 네트워크일 수 있다. 뉴럴 네트워크(902)는, 이미지 데이터의 특징들이 노드들을 잠재적으로 활성화시키기 위해 은닉 계층들 내의 개별 노드들의 가중치들과 곱해지는, 하나 이상의 은닉 계층(예를 들면, 완전 연결 계층)을 더 포함할 수 있으며, 은닉 계층들은 출력 계층에 연결되고, 출력 계층은, 예를 들면, 각각의 픽셀이 폐색에 대응하는지 여부를 나타낸다.
처음에, 뉴럴 네트워크(902)는 트레이닝되어 있지 않을 수 있다. 이에 따라, 초기 상태에서 아키텍처(900)에 의해 생성되는 출력 픽셀 레벨 폐색 데이터(904)는 낮은 정확도(예를 들면, 우연보다 낫지 않음)를 가질 수 있다. 그에 따라, 알려진 폐색 정보를 갖는 이미지들(901)이 네트워크(902)를 트레이닝하기 위해 네트워크(902)를 통과할 수 있어, 네트워크(902)의 출력(픽셀 레벨 폐색 주석들(904))이 알려진 폐색 정보와 매칭하게 하는 방식으로 네트워크의 특성들(예를 들면, 은닉 계층들의 콘볼루션들 및/또는 가중치들)이 설정될 수 있게 한다.
알려진 픽셀 레벨 폐색 데이터(907)를 갖는 이미지(901)의 경우에, 그러한 알려진 픽셀 레벨 폐색 데이터(907)로부터 직접 트레이닝이 이루어질 수 있다. 예시적으로, 이미지(901)가 도 8의 프로세스에 의해 생성되는 합성 이미지인 경우, 이미지(901)는, 픽셀이 폐색에 대응하는지 여부(및, 잠재적으로, 그러한 폐색의 투명도)를 픽셀 단위로 나타내는, (예를 들면, 마스크(804)에 대응하는) 알려진 픽셀 레벨 폐색 주석 데이터(907)를 수반할 수 있다. 따라서 이미지(901)에 대해 뉴럴 네트워크(902)에 의해 생성되는 출력 픽셀 레벨 폐색 정보(904)는, 출력 픽셀 레벨 폐색 정보(904)가 알려진 픽셀 레벨 폐색 데이터(907)와 더 가깝게 매칭하도록 (예를 들면, 역전파를 통해) 뉴럴 네트워크(902)를 조정하기 위해, 도 9에서 비교(906)(예를 들어, 손실 함수를 나타낼 수 있음)로서 도시된 바와 같이, 알려진 픽셀 레벨 폐색 데이터(907)와 비교될 수 있다.
위에서 논의된 바와 같이, 합성 이미지들에만 기초한 트레이닝은 바람직하지 않을 수 있으며 과적합과 같은 단점들을 초래할 수 있다. 더욱이, 비합성 데이터는 합성 데이터만큼 세분화된 주석들을 포함하지 않을 수 있다. 예를 들어, 그러한 비합성 데이터는 알려진 이진 폐색 주석들(908)만을 가질 수 있다. 그에 따라, 아키텍처(900)는, 폐색을 포함하거나 포함하지 않는 것으로 수동으로 태깅되는 비합성 이미지 데이터와 같은, 알려진 픽셀 레벨 폐색 주석 데이터(907)를 갖지 않는 이미지 데이터에 기초하는 트레이닝을 추가로 가능하게 한다. 아키텍처(900)에서, 대응하는 알려진 픽셀 레벨 폐색 주석 데이터(907)를 갖지 않는 이미지들(901)을 나타내는 데이터는 알려진 픽셀 레벨 폐색 주석 데이터(907)를 갖는 이미지들과 동일한 방식으로 뉴럴 네트워크(902)를 통해 프로세싱되며, 따라서 픽셀 레벨 폐색 정보(904)를 생성한다. 그러한 예에서의 이미지(901)는 알려진 픽셀 레벨 폐색 주석 데이터(907)를 갖지 않는 것으로 가정되기 때문에, 비교(906)가 불가능할 수 있다. 그 대신에, 뉴럴 네트워크(902)에 의해 출력되는 픽셀 레벨 폐색(904)은 변환 함수를 통해 출력 이진 폐색 데이터(910)로 변환된다. 예시적으로, 변환 함수는, 출력 픽셀 레벨 폐색 데이터(904)가 문턱치를 충족시키는 경우, 출력 이진 폐색 데이터(910)가 참이 되도록 하는, 이진화(thresholding)를 나타낼 수 있다. 문턱치는, 예를 들면, 알려진 이진 폐색 데이터(908)를 수동으로 생성한 인간 작업자의 의도된 문턱치에 상응하는 적절한 값으로 설정될 수 있다. 그에 따라, 뉴럴 네트워크(902)의 출력 이진 폐색 데이터(910)는 인간 작업자가 입력 이미지(901)를 폐색됨으로서 태깅할 것인지 여부에 대한 네트워크(902)의 추정을 나타낼 수 있다. 그 후에, 이 출력 이진 폐색 데이터(910)는, 예를 들어, 네트워크(902)의 손실 함수를 나타낼 수 있는, 비교(912)에서 알려진 이진 폐색 데이터(908)와 비교된다. 이어서 이 비교(912)의 결과는 출력 이진 폐색 데이터(910)가 알려진 이진 폐색 데이터(908)와 매칭하도록 안내되고, 따라서 네트워크(902)를 트레이닝하기 위해 네트워크(902)를 수정하는 데 사용된다.
실제로, 알려진 픽셀 레벨 폐색 데이터(907)를 갖는 이미지들과 알려진 이진 폐색 데이터(908)를 갖는 이미지들(901) 양쪽 모두를 포함한 다수의 이미지들(901)을 아키텍처(900)를 통과시키는 것에 의해 뉴럴 네트워크(902)의 트레이닝이 이루어질 수 있다. 이러한 방식으로, 트레이닝된 네트워크(902)가 생성된다. 그 후에, 추론 동안, 상자(914)로 표시된 요소들은 알려진 픽셀 레벨 폐색 데이터(907)와 알려진 이진 폐색 데이터(908) 양쪽 모두가 없을 수 있는 이미지(901)에 대응하는 새로운 비-트레이닝 데이터로부터 출력 픽셀 레벨 폐색 데이터(904)를 생성하는 데 사용될 수 있다. 그럼에도 불구하고, 네트워크(902)는, AV(100) 내의 프로세서와 같은, 디바이스가 그러한 입력 이미지(901)에 대한 출력 픽셀 레벨 폐색 데이터(904)를 생성하도록 할 수 있다. 그에 따라, 네트워크(902)를 구현하는 디바이스는 객관적인 평가를 통해 인간의 주관적인 평가를 그대로 재현하여, 이미지의 어떤 부분들이 폐색되는지, 및 잠재적으로 각각의 부분이 어느 정도 폐색되는지를 결정할 수 있다. 이것은, 차례로, AV(100)와 같은, 이미지들(901)을 생성하는 센서 데이터에 의존하는 디바이스의 더 정확하고 안전한 작동을 가능하게 한다.
예시적인 합성 부분 폐색 트레이닝 데이터 세트 생성 루틴
도 10은 합성 부분 폐색 트레이닝 데이터 세트의 생성을 위한 예시적인 루틴(1000)을 묘사하는 플로차트이다. 루틴(1000)은, 예를 들어, 도 2의 컴퓨팅 시스템(206)에 의해 구현될 수 있다.
루틴(1000)은, 컴퓨팅 시스템(206)이 크로마 키 배경에 대한 부분 폐색 이미지들을 나타내는 데이터를 획득하는, 블록(1002)에서 시작한다. 이미지들은 예시적으로, 도 7의 시스템(700)과 같은, 이미징 시스템에 의해 캡처될 수 있다. 각각의 이미지는, 그린 스크린과 같은, 하나 이상의 크로마 키 배경의 전방에서의 부분 폐색(예를 들면, 도로 파편, 물, 진흙, 응결 등)을 나타낼 수 있다. 부분 폐색들의 크기, 형상, 배향, 및 유형은 이미지들 간에 다를 수 있다. 예를 들어, 획득된 데이터 내의 폐색들의 크기, 형상, 배향, 및 유형은, 자율주행 차량과 같은, 타깃 디바이스의 작동 동안 경험될 수 있는 부분 폐색들의 대표적인 샘플을 제공하도록 선택될 수 있다. 폐색들의 수는 이미지들 간에 다를 수 있다. 예를 들어, 일부 이미지들은 폐색을 구성하는 단일 항목을 묘사할 수 있는 반면, 다른 이미지들은 이미지의 상이한 부분들에 있는 다수의 항목들 또는 상이한 유형들의 폐색을 묘사할 수 있다. 상이한 하루 중 시간들 동안 및/또는 특정 유형들의 날씨 동안 폐색의 모양을 시뮬레이션하기 위해 이미지들 내에서의 폐색에 대한 조명의 강도, 위치 및 색상이 변화될 수 있다. 일부 실시예들에서, 폐색은 폐색의 움직임을 시뮬레이션하기 위해 이미지 캡처 동안 바람 효과를 적용받을 수 있다. 폐색의 움직임은 이미지에 모션 블러(motion blur)를 야기할 수 있으며, 이는 결과적인 이미지에 상이한 투명도 효과들을 생성할 수 있다. 게다가, 크로마 키 배경이 이미지들 간에 다를 수 있다.
블록(1004)에서, 컴퓨팅 시스템(206)은 이미지들로부터 폐색의 이미저리를 추출하기 위해 크로마 키잉 작업을 수행한다. 크로마 키잉 작업은 예시적으로 각각의 이미지에 대한 관련 크로마 키 배경에 대응하는 색상을 전부 제거하며, 이에 의해 폐색 항목의 이미저리만을 남기도록 작용한다. 따라서 크로마 키잉 작업은 컴퓨팅 시스템(206)이 폐색을 구성하는 픽셀들(크로마 키잉 작업에 의해 제거되지 않은 픽셀들)과 배경을 구성하는 픽셀들을 구별할 수 있도록 한다.
일부 실시예들에서, 크로마 키잉 작업은 폐색의 부분 투명도(partial transparency)를 고려할 수 있다. 예를 들어, 반투명 폐색은 크로마 키 배경을 부분적으로 폐색할 수 있지만 완전히 폐색하지는 않을 수 있다. 따라서 크로마 키잉 작업은 부분적으로 투명한 폐색을 나타내는 픽셀들에 대해 부분 투명도를 설정할 수 있다. 일 예에서, 크로마 키잉 작업은 부분 폐색 이미지에서의 픽셀 색상이 크로마 키 배경 색상과 폐색 색상의 가중 평균이라고 가정하고, 따라서 (예를 들면, 배경 색상이 제거되고 픽셀 색상이 크로마 키 배경 색상과 얼마나 가깝게 매칭하는지 폐색 색상과 얼마나 가깝게 매칭하는지에 따라 결정되는 투명도 값으로 픽셀이 폐색의 색상을 띠도록) 픽셀 색상, 폐색 색상, 및 배경 색상 간의 차이에 기초하여 픽셀에 대한 색상 및 투명도 값을 설정한다.
블록(1006)에서, 컴퓨팅 시스템(206)은 합성 부분 폐색 이미지들을 생성하기 위해 하나 이상의 배경 이미지 상에 폐색의 추출된 이미저리를 중첩시킨다. 일부 실시예들에서, 추출된 이미저리는 텍스처를 생성하는 데 사용된다. 이어서 크로마 키잉 작업에서 폐색에 대응하는 것으로 식별되는 이미지의 영역에 텍스처가 적용될 수 있다. 일부 실시예들에서, 더 다양한 합성 부분 폐색 이미지들을 생성하기 위해 배경 이미지들 상에 폐색의 이미저리를 중첩시키기 전에 폐색의 크기/스케일 및/또는 배향이 변경될 수 있다. 예를 들어, 폐색은 더 큰 폐색을 구성하기 위해 더 크게 만들어질 수 있거나, 더 작은 폐색을 구성하기 위해 더 작게 만들어질 수 있다. 각각의 추출된 폐색 이미저리는 배경 이미지 상에 여러 번, 예를 들어, 다양한 크기 또는 배향으로, 중첩될 수 있다. 더욱이, 각각의 추출된 폐색 이미저리는 다수의 상이한 배경 이미지들 상에 중첩될 수 있다. 이러한 방식으로, 적은 수의 캡처된 부분 폐색 이미지들로부터 매우 다양한 합성 부분 폐색 이미지들이 생성될 수 있다.
추가적으로, 블록(1008)에서, 컴퓨팅 시스템(206)은 각각의 합성 부분 폐색 이미지에 대한 주석 데이터를 생성하며, 주석 데이터는 폐색을 구성하는 각각의 합성 부분 폐색 이미지의 부분들을 배경 이미지들을 나타내는 부분들과 구별해 준다. 예시적으로, 주석 데이터는 블록(1004)에서 추출되는 이미저리에 대응하는 각각의 합성 폐색 이미지의 개별 픽셀들(예를 들면, 크로마 키 작업 동안 제거되지 않은 해당 픽셀들)을 식별해 줄 수 있다. 반대로, 주석 데이터는 배경 이미지에 대응하는 픽셀들을 폐색이 아니라 배경을 구성하는 것으로서 식별해 줄 수 있다. 일부 경우에, 주석 데이터는, 예컨대, 불투명도 값을 폐색으로서 식별되는 각각의 픽셀과 연관시키는 것에 의해, 폐색에 대한 투명도를 추가로 나타낼 수 있다. 아래에서 언급되는 바와 같이, 주석 데이터는 따라서 각각의 합성 부분 폐색 이미지에 대한 고 세분성 라벨들을 제공할 수 있다.
블록(1010)에서, 컴퓨팅 시스템(206)은 주석 데이터 및 합성 부분 폐색 이미지들을 사용하여 머신 러닝 모델을 트레이닝한다. 예를 들어, 합성 부분 폐색 이미지들은 이미저리 내의 부분 폐색들을 식별하도록 콘볼루션 뉴럴 네트워크를 트레이닝하기 위해 네트워크를 통과할 수 있다. 위에서 언급된 바와 같이, 정확한 결과들을 생성하도록 머신 러닝 모델을 트레이닝하는 것은 많은 양의 데이터를 필요로 할 수 있다. 그에 따라, 캡처된 부분 폐색 이미지들의 제한된 세트로부터 매우 다양한 합성 부분 폐색 이미지들을 생성할 수 있는 루틴(1000)의 능력은 트레이닝을 수행하는 데 유익할 수 있다.
위에서 논의된 바와 같이, 일부 경우에, 합성 데이터에만 기초하여 머신 러닝 모델을 트레이닝하는 것은 바람직하지 않을 수 있다. 예를 들어, 모델은, 예를 들어, 합성 이미지들과 비합성 이미지들을 구별하도록 학습하는 것에 의해, 합성 데이터에 과적합될 수 있다. 이러한 과적합은 (원하는 배포 환경일 수 있는) 합성되지 않은 환경들에서 사용하는 동안 모델을 부정확하게 만들 수 있다. 그에 따라, 일부 실시예들에서, 블록(1012)에서의 트레이닝은 루틴(1000)의 구현 동안 생성된 것과 같은 합성 데이터와 수동으로 주석이 달린 폐색 데이터와 같은 비합성 데이터의 조합으로 모델을 트레이닝하는 것을 포함할 수 있다. 일부 그러한 경우에, 비합성 데이터는 합성 데이터보다 낮은 세분성의 주석들과 연관될 수 있다. 예를 들어, 픽셀 레벨 주석들을 갖지 않고, 비합성 데이터는 이진 또는 다른 비픽셀 레벨 주석(non-pixel-level annotation)을 사용하여 수동으로 분류될 수 있다. 다수의 세분성 레벨들을 갖는 트레이닝 데이터를 사용하여 뉴럴 네트워크를 트레이닝하기 위한 하나의 예시적인 루틴(1100)이 도 11에 도시되어 있다. 따라서, 블록(1012)의 구현은 도 11의 루틴(1100)의 구현을 포함할 수 있다.
위에서 언급된 바와 같이, 도 11은 다수의 세분성 레벨들을 갖는 트레이닝 데이터를 사용하여, 콘볼루션 뉴럴 네트워크과 같은, 뉴럴 네트워크를 트레이닝하기 위한 예시적인 루틴(1100)을 묘사한다. 루틴(1100)은, 예를 들어, 도 2의 컴퓨팅 시스템(206)에 의해 구현될 수 있다. 예시적으로, 루틴(1100)은 자율주행 차량이 센서의 폐색을 구성하는 2차원 센서 데이터의 부분들을 식별할 수 있도록 하는 모델을 트레이닝하는 데 사용될 수 있으며, 따라서 차량의 보다 정확하고 안전한 작동을 가능하게 한다.
루틴(1100)은, 컴퓨팅 시스템(206)이 고 세분성 라벨들을 갖는 데이터와 저 세분성 라벨들을 갖는 데이터 양쪽 모두를 포함하는 트레이닝 데이터를 획득하는, 블록(1102)에서 시작된다. 데이터는, 예를 들어, 카메라 이미저리와 같은, 2D 이미저리를 나타낼 수 있다. 고 세분성 라벨들은, 폐색과 같은, 네트워크가 구별하도록 트레이닝되어야 하는 특징을 구성하는 이미저리의 특정 부분들(있는 경우)을 나타낼 수 있다. 폐색이 뉴럴 네트워크가 구별하도록 트레이닝될 수 있는 특징의 일 예이지만, 다른 특징들이 가능하다. 예를 들어, 루틴(1100)은, 보행자들, 대상체들의 유형들 등과 같은, 이미저리 내의 다른 묘사들의 존재 또는 부재를 구별하도록 모델을 트레이닝하는 데 사용될 수 있다. 저 세분성 라벨들은 특징이 대응하는 이미지에 존재하는지 여부를 유사하게 나타낼 수 있지만, 고 세분성 라벨들보다 낮은 세분성으로 그렇게 할 수 있다. 일 실시예에서, 고 세분성 라벨들은 이미지의 어느 픽셀들이 특징에 대응하는지(또는 반대로 그렇지 않은지)를 나타내는 픽셀 레벨 주석들인 반면, 저 세분성 라벨들은 픽셀 레벨 주석들을 제공하지 않고 그 대신에, 지역적 주석들(예를 들면, 이미지의 어느 쪽 절반, 어느 사분위수 등이 이미저리를 포함하는지) 또는 이진 주석들(예를 들면, 이미지 내에서의 특징의 존재 또는 부재를 나타냄)과 같은, 더 낮은 세분성의 주석들을 제공한다. 다른 실시예에서, 고 세분성 라벨들은 지역적 주석들인 반면, 저 세분성 라벨들은 이진 주석들이다.
그 후에, 컴퓨팅 시스템(206)은, 뉴럴 네트워크가, 일단 트레이닝되면, 주어진 입력의 어느 부분들이 네트워크가 검출하도록 트레이닝된 특징을 구성하는지를 나타내는 출력을, 고 세분성 라벨들을 갖는 트레이닝 데이터의 세분성과 동일한 세분성으로, 제공할 수 있도록, 고 세분성 출력을 위해 네트워크를 트레이닝한다. 예를 들어, 입력 데이터 세트의 고 세분성 부분이 폐색의 픽셀 레벨 주석들을 제공하는 경우, 네트워크는 얼마간의 폐색을 포함하는 입력 이미지가 주어지면 폐색의 픽셀 레벨 주석들을 출력하도록 트레이닝될 수 있다.
뉴럴 네트워크를 트레이닝하는 것은 예시적으로, 블록(1104)에서, 트레이닝 데이터 세트로부터의 항목들을 네트워크를 통해 반복적으로 공급하는 것 및 네트워크의 출력과 개별 데이터 항목에 대한 라벨 간의 비교에 기초하여 네트워크의 가중치들을 업데이트하는 것을 포함한다. 트레이닝 데이터 세트로부터의 각각의 항목에 대해, 루틴(1100)은 이어서, 블록(1106)에 도시된 바와 같이, 항목이 고 세분성 라벨과 연관되는지 저 세분성 라벨과 연관되는지에 따라 달라진다.
항목이 고 세분성 라벨과 연관되는 경우에, 루틴(1100)은, 뉴럴 네트워크가 고 세분성 라벨과 네트워크의 출력의 비교에 기초하여 업데이트되는, 블록(1108)으로 진행한다. 예를 들어, 시스템(206)은 고 세분성 라벨에 대한 예측된 값들에 대응하는 네트워크의 출력과 고 세분성 라벨에 대한 실제 값들 사이의 차이에 기초하여 네트워크의 가중치들을 업데이트하기 위해 역전파를 구현할 수 있다. 따라서 많은 반복들을 통해, 네트워크는 고 세분성 라벨들에 대한 값들을 정확하게 예측하도록 트레이닝될 수 있다.
항목이 저 세분성 라벨과 연관되는 경우에, 루틴(1100)은, 네트워크의 출력이 고 세분성으로부터 저 세분성으로 변환되는, 블록(1110)으로 진행한다. 변환을 구현하기 위해, 컴퓨팅 시스템(206)은 고 세분성 출력을, 트레이닝 데이터 세트 내의 특정 데이터에 맞춰져 있을 수 있는, 변환 함수를 통과시킬 수 있다. 예를 들어, 저 세분성 데이터가 이진 데이터인 경우, 변환 함수는 출력의 문턱 양이 주어진 특징을 나타내는지 여부(예를 들면, 문턱 수의 픽셀들, 영역들 등이 폐색을 구성하는지 여부)를 결정하고, 문턱치가 충족될 때는 "true" 값을 출력하고 반대로 문턱치가 충족되지 않을 때는 "false" 값을 출력할 수 있다. 저 세분성 데이터가 특징의 지역적 표시인 경우, 변환 함수는, 예컨대, 한 영역의 적어도 문턱치가 고 세분성 출력에서의 특징을 갖는 것으로 표시될 때 그 영역에서의 특징의 "현재" 표시자를 출력하는 것에 의해, 해당 영역에 대응하는 출력의 일부를 문턱치와 대조하여 유사하게 평가할 수 있다. 일 실시예에서, 변환 함수는 그 자체가 머신 러닝 모델일 수 있다. 예를 들어, 변환 함수 머신 러닝 모델은 주어진 특징을 나타내는 고 세분성 출력을 생성하기 위한 뉴럴 네트워크가 트레이닝되는 동안 간단한 이진화 함수(thresholding function)로서 작용하도록 한 세트의 가중치들로 초기화될 수 있다. 뉴럴 네트워크에서 충분한 정확도가 달성될 때, 변환 함수 모델이 트레이닝되는 동안 뉴럴 네트워크의 가중치들이 일정하게 유지될 수 있다. 일 예에서, 뉴럴 네트워크 및 변환 함수 머신 러닝 모델(그 자체가 뉴럴 네트워크일 수 있음)은, 예컨대, 반복적으로 2 개의 모델 중 하나는 일정하게 유지하고 다른 하나는 각각의 반복에서 트레이닝되는 것에 의해, 동시에 트레이닝될 수 있다. 그에 따라, 네트워크의 고 세분성 출력은, 항목의 라벨에 대한 세분성과 매칭하게, 더 낮은 세분성으로 변환된다.
그 후에, 블록(1112)에서, 저 세분성 라벨과 네트워크의 변환된 출력의 비교에 기초하여 네트워크가 업데이트된다. 예를 들어, 시스템(206)은 저 세분성 라벨에 대한 예측된 값들에 대응하는 네트워크의 변환된 출력과 저 세분성 라벨에 대한 실제 값들 사이의 차이에 기초하여 네트워크의 가중치들을 업데이트하기 위해 역전파를 구현할 수 있다. 따라서 많은 반복들을 통해, 네트워크는, 변환될 때, 항목에 할당되는 저 세분성 라벨과 매칭하는 고 세분성 라벨들에 대한 값들을 정확하게 예측하도록 트레이닝될 수 있다.
이어서 루틴(1100)은, 블록(1114)에 도시된 바와 같이, 트레이닝 데이터 세트 내에 데이터가 더 존재하는지 여부에 따라 달라진다. 만약 그렇다면, 루틴(1100)은 블록(1104)으로 돌아가서, 위에서 설명된 바와 같이, 트레이닝 데이터 세트로부터의 추가적인 항목들이 네트워크의 가중치들을 업데이트하는 데 사용된다. 데이터 세트에 추가의 트레이닝 데이터가 존재하지 않을 때, 루틴(1100)은, 트레이닝된 모델이 추론 동안 사용하기 위해 목적지 컴퓨팅 디바이스에 배포, 출력 또는 전송될 수 있는, 블록(1116)으로 진행한다. 예를 들어, 2D 이미저리에 대한 픽셀 레벨 폐색 표시들을 제공하도록 트레이닝된 모델은, 자율주행 차량이 센서의 폐색의 존재 및 정도를 정확하게 검출하고 그러한 폐색이 발생하면 적절한 시정 조치를 취할 수 있게 하기 위해, 차량에 배포, 출력, 또는 전송될 수 있다(예를 들면, 카메라(112)로부터 획득되는 센서 데이터에 기초하여 도 1의 프로세서(146)에 의해 구현됨). 그러한 시정 조치는, 예를 들어, (예를 들면, 와이퍼 메커니즘 등을 통한) 센서의 청소, 조작자에 대한 통지, 속도를 줄이고 도로에서 나가는 것과 같은 최소 위험 기동의 실행 등을 포함할 수 있다. 따라서, 루틴(1100)을 통해 트레이닝되는 바와 같은 뉴럴 네트워크는 자율주행 차량들 또는 다른 맥락들에서 센서 데이터의 더 안전하고 더 정확한 사용을 제공할 수 있다.
본 개시의 다양한 예시적인 실시예들은 이하의 조항들에 의해 설명될 수 있다:
조항 1. 하나 이상의 하드웨어 프로세서에 의해 구현되는 컴퓨터로 구현되는 방법(computer-implemented method)에 있어서,
하나 이상의 하드웨어 프로세서를 사용하여, 부분 폐색 이미지들을 나타내는 데이터를 획득하는 단계 - 각각의 부분 폐색 이미지는 크로마 키 배경의 전방에서의 폐색을 묘사함 - ;
하나 이상의 하드웨어 프로세서를 사용하여, 복수의 합성 부분 폐색 이미지들을 포함하는 트레이닝 데이터 세트를 생성하는 단계로서, 트레이닝 데이터 세트를 생성하는 단계는, 합성 부분 폐색 이미지들 중 각각의 합성 부분 폐색 이미지에 대해,
부분 폐색 이미지들 중 한 부분 폐색 이미지로부터 폐색의 이미저리를 추출하기 위해 크로마 키잉 작업을 수행하는 단계;
합성 부분 폐색 이미지를 생성하기 위해 배경 이미지 상에 폐색의 추출된 이미저리를 중첩시키는 단계; 및
합성 부분 폐색 이미지에 대한 주석 데이터를 생성하는 단계 - 주석 데이터는 폐색의 추출된 이미저리를 나타내는 합성 부분 폐색 이미지의 부분들을 배경 이미지를 나타내는 합성 부분 폐색 이미지의 부분들과 구별해 줌 - 를 포함하는 것인, 트레이닝 데이터 세트를 생성하는 단계; 및
하나 이상의 하드웨어 프로세서를 사용하여, 자율주행 차량의 센서로부터의 데이터에 대응하는, 자율주행 차량의 센서 상의 폐색을 나타내는 입력 이미지 데이터의 부분들을 식별하기 위해 복수의 합성 부분 폐색 이미지들을 사용하여 뉴럴 네트워크를 트레이닝하는 단계를 포함하는 컴퓨터로 구현되는 방법.
조항 2. 조항 1에 있어서, 주석 데이터는, 폐색의 중첩된 추출된 이미저리에 의해 폐색되는 배경 이미지의 픽셀들을 식별해 주는 것인, 컴퓨터로 구현되는 방법.
조항 3. 조항 1 또는 조항 2에 있어서, 크로마 키 배경은 그린 스크린인 것인, 컴퓨터로 구현되는 방법.
조항 4. 조항 1 내지 조항 3 중 어느 한 조항에 있어서, 폐색은, 부분 폐색 이미지들을 캡처하는 이미징 디바이스의 렌즈에 부착된 물질인 것인, 컴퓨터로 구현되는 방법.
조항 5. 조항 1 내지 조항 4 중 어느 한 조항에 있어서, 뉴럴 네트워크는 콘볼루션 뉴럴 네트워크인 것인, 컴퓨터로 구현되는 방법.
조항 6. 조항 1 내지 조항 5 중 어느 한 조항에 있어서, 차량 장착 이미징 디바이스에 의해 캡처되는 복수의 배경 이미지들로부터 무작위로(randomly), 차량 장착 이미징 디바이스를 지닌 차량이 도로를 운행하는 동안, 배경 이미지를 선택하는 단계를 더 포함하는, 컴퓨터로 구현되는 방법.
조항 7. 조항 6에 있어서, 차량 장착 이미징 디바이스는, 부분 폐색 이미지들을 캡처하는 데 사용되는 이미징 디바이스와 실질적으로 동일한 것인, 컴퓨터로 구현되는 방법.
조항 8. 조항 1 내지 조항 7 중 어느 한 조항에 있어서, 크로마 키잉 작업을 수행하는 단계는, 폐색의 추출된 이미저리의 부분들을 투명도 값들과 연관시키는 단계를 포함하는 것인, 컴퓨터로 구현되는 방법.
조항 9. 조항 1 내지 조항 8 중 어느 한 조항에 있어서, 트레이닝 데이터 세트를 생성하는 단계는, 부분 폐색 이미지들 중 적어도 하나의 부분 폐색 이미지에 대해, 폐색의 추출된 이미저리를 회전시키는 단계를 포함하는 것인, 컴퓨터로 구현되는 방법.
조항 10. 조항 1 내지 조항 9 중 어느 한 조항에 있어서, 부분 폐색 이미지들의 적어도 하나의 합성 부분 폐색 이미지에 대해, 폐색의 추출된 이미저리는 2 개의 폐색 부분들을 묘사하고, 트레이닝 데이터 세트를 생성하는 단계는, 적어도 하나의 합성 부분 폐색 이미지에 대해,
추출된 이미저리의 제1 폐색 부분을 제1 양만큼 회전시키는 단계; 및
추출된 이미저리의 제2 폐색 부분을 제1 양과는 상이한 제2 양만큼 회전시키는 단계를 포함하는 것인, 컴퓨터로 구현되는 방법.
조항 11. 조항 10에 있어서, 상이한 배경 이미지들 위에 추출된 이미저리를 중첩시키기 전에 폐색 항목의 추출된 이미저리의 제1 폐색 부분의 크기를 제1 양만큼 조정하고, 폐색 항목의 추출된 이미저리의 제2 서브세트의 해상도를 제2 양만큼 조정하는 단계를 더 포함하는, 컴퓨터로 구현되는 방법.
조항 12. 조항 1에 있어서, 크로마 키잉 작업을 수행하는 단계는, 문턱 값 아래의 투명도 값을 갖는 임의의 이미저리를 추출하는 단계를 포함하는 것인, 컴퓨터로 구현되는 방법.
조항 13. 조항 13에 있어서, 문턱 값은 적어도 90%인 것인, 컴퓨터로 구현되는 방법.
조항 14. 조항 1에 있어서, 부분 폐색 이미지들의 적어도 하나의 합성 부분 폐색 이미지에 대해, 트레이닝 데이터 세트를 생성하는 단계는, 합성 부분 폐색 이미지를 생성하기 위해 폐색의 추출된 이미저리와 제2 폐색의 이미저리 둘 다를 배경 이미지 상에 중첩시키는 단계를 포함하는 것인, 컴퓨터로 구현되는 방법.
조항 15. 조항 14에 있어서, 부분 폐색 이미지들 중 적어도 하나로부터 제2 폐색의 이미저리를 추출하기 위해 크로마 키잉 작업을 수행하는 단계를 더 포함하는, 컴퓨터로 구현되는 방법.
조항 16. 조항 1 내지 조항 15 중 어느 한 조항에 있어서, 부분 폐색 이미지들은, 적어도 2 개의 이미지들을 캡처하는 디바이스로부터 상이한 거리들에 있는 주어진 폐색을 묘사하는 적어도 2 개의 이미지들을 포함하는 것인, 컴퓨터로 구현되는 방법.
조항 17. 조항 1 내지 조항 16 중 어느 한 조항에 있어서, 부분 폐색 이미지들의 제1 서브세트는 제1 조명 레벨에서 캡처되고, 부분 폐색 이미지들의 제2 서브세트는 제1 조명 레벨과는 상이한 제2 조명 레벨에서 캡처되는 것인, 컴퓨터로 구현되는 방법.
조항 18. 조항 17에 있어서, 폐색을 조명하는 데 사용되는 광원은, 제1 조명 레벨을 생성하기 위한 제1 위치에 그리고 제2 조명 레벨을 생성하기 위한 제1 위치와는 상이한 제2 위치에 위치되는 것인, 컴퓨터로 구현되는 방법.
조항 19. 조항 18에 있어서, 광원에 의해 방출되는 광의 양은, 제2 조명 레벨에 대해서보다 제1 조명 레벨에 대해서 더 많은 것인, 컴퓨터로 구현되는 방법.
조항 20. 조항 18에 있어서, 광원은, 제1 방향으로 배향되고 제1 조명 레벨을 생성하기 위해 제1 양의 광을 방출하는 방향성 광원이고, 광원은 제2 방향으로 배향되고 제2 조명 레벨을 생성하기 위해 제2 양의 광을 방출하는 것인, 컴퓨터로 구현되는 방법.
조항 21. 시스템에 있어서,
컴퓨터로 실행가능한 명령어(computer-executable instruction)들을 포함하는 데이터 저장소; 및
컴퓨터로 실행가능한 명령어들을 실행하도록 구성된 프로세서
를 포함하고, 컴퓨터로 실행가능한 명령어들의 실행은 시스템이,
부분 폐색 이미지들을 나타내는 데이터를 획득하게 하고 - 각각의 부분 폐색 이미지는 크로마 키 배경의 전방에서의 폐색을 묘사함 - ;
복수의 합성 부분 폐색 이미지들을 포함하는 트레이닝 데이터 세트를, 적어도 합성 부분 폐색 이미지들 중 각각의 합성 부분 폐색 이미지에 대해,
부분 폐색 이미지들 중 한 부분 폐색 이미지로부터 폐색의 이미저리를 추출하기 위해 크로마 키잉 작업을 수행하는 것;
합성 부분 폐색 이미지를 생성하기 위해 배경 이미지 상에 폐색의 추출된 이미저리를 중첩시키는 것; 및
합성 부분 폐색 이미지에 대한 주석 데이터를 생성하는 것 - 주석 데이터는 폐색의 추출된 이미저리를 나타내는 합성 부분 폐색 이미지의 부분들을 배경 이미지를 나타내는 합성 부분 폐색 이미지의 부분들과 구별해 줌 - 를 포함함 -
에 의해 생성하게 하며;
자율주행 차량의 센서로부터의 데이터에 대응하는, 자율주행 차량의 센서 상의 폐색을 나타내는 입력 이미지 데이터의 부분들을 식별하기 위해 복수의 합성 부분 폐색 이미지들을 사용하여 뉴럴 네트워크를 트레이닝하게 하는 것인, 시스템.
조항 22. 컴퓨터로 실행가능한 명령어들을 포함하는 하나 이상의 비일시적인 컴퓨터로 판독가능한 매체에 있어서, 컴퓨터로 실행가능한 명령어들은, 프로세서를 포함하는 컴퓨팅 시스템에 의해 실행될 때, 컴퓨팅 시스템이,
부분 폐색 이미지들을 나타내는 데이터를 획득하게 하고 - 각각의 부분 폐색 이미지는 크로마 키 배경의 전방에서의 폐색을 묘사함 - ;
복수의 합성 부분 폐색 이미지들을 포함하는 트레이닝 데이터 세트를, 적어도 합성 부분 폐색 이미지들 중 각각의 합성 부분 폐색 이미지에 대해,
부분 폐색 이미지들 중 한 부분 폐색 이미지로부터 폐색의 이미저리를 추출하기 위해 크로마 키잉 작업을 수행하는 것;
합성 부분 폐색 이미지를 생성하기 위해 배경 이미지 상에 폐색의 추출된 이미저리를 중첩시키는 것; 및
합성 부분 폐색 이미지에 대한 주석 데이터를 생성하는 것 - 주석 데이터는 폐색의 추출된 이미저리를 나타내는 합성 부분 폐색 이미지의 부분들을 배경 이미지를 나타내는 합성 부분 폐색 이미지의 부분들과 구별해 줌 -
에 의해 생성하게 하며;
자율주행 차량의 센서로부터의 데이터에 대응하는, 자율주행 차량의 센서 상의 폐색을 나타내는 입력 이미지 데이터의 부분들을 식별하기 위해 복수의 합성 부분 폐색 이미지들을 사용하여 뉴럴 네트워크를 트레이닝하게 하는 것인, 컴퓨터로 실행가능한 명령어들을 포함하는 하나 이상의 비일시적인 컴퓨터로 판독가능한 매체.
본 개시의 다양한 추가적인 예시적인 실시예들은 이하의 추가적인 조항들에 의해 설명될 수 있다:
조항 1. 하나 이상의 하드웨어 프로세서에 의해 구현되는 컴퓨터로 구현되는 방법에 있어서,
하나 이상의 하드웨어 프로세서를 사용하여, 제2 세분성보다 높은 제1 세분성으로, 제1 세분성으로 라벨링된 항목의 제1 서브세트 및 제1 세분성보다 낮은 상기 제2 세분성으로 라벨링된 항목의 제2 서브세트를 포함하는 트레이닝 데이터 세트에 기초하여 데이터를 출력하기 위해 뉴럴 네트워크를 트레이닝하는 단계
를 포함하고, 뉴럴 네트워크를 트레이닝하는 단계는,
제2 세분성보다 높은 제1 세분성으로 라벨링된 항목의 제1 서브세트 내의 각각의 항목에 대해,
제1 세분성으로 라벨링된 항목에 대응하는 출력을 생성하기 위해 제1 세분성으로 라벨링된 항목을 뉴럴 네트워크를 통과시키는 단계; 및
제1 세분성으로 라벨링된 항목에 대응하는 출력과 제1 세분성에 대응하는 항목의 라벨 간의 비교에 기초하여 뉴럴 네트워크의 가중치들을 업데이트하는 단계;
제1 세분성보다 낮은 제2 세분성으로 라벨링된 항목의 제2 서브세트 내의 각각의 항목에 대해,
제2 세분성으로 라벨링된 항목에 대응하는 출력을 생성하기 위해 제2 세분성으로 라벨링된 항목을 뉴럴 네트워크를 통과시키는 단계;
제2 세분성으로 라벨링된 항목에 대응하는 출력을 제2 세분성으로의 변환된 출력으로 변환하기 위해 제2 세분성으로 라벨링된 항목에 대응하는 출력을 변환 함수를 통과시키는 단계; 및
제2 세분성으로의 변환된 출력과 제2 세분성에 대응하는 항목의 라벨 간의 비교에 기초하여 뉴럴 네트워크의 가중치들을 업데이트하는 단계를 포함하는 것인, 컴퓨터로 구현되는 방법.
조항 2. 조항 1에 있어서, 뉴럴 네트워크는 콘볼루션 뉴럴 네트워크인 것인, 컴퓨터로 구현되는 방법.
조항 3. 조항 1 또는 조항 2에 있어서, 제1 세분성으로 라벨링된 항목의 제1 서브세트는, 제1 서브세트의 이미지들 내에서의 특징의 위치들을 식별해 주는 픽셀 레벨 주석들을 갖는 이미지들인 것인, 컴퓨터로 구현되는 방법.
조항 4. 조항 3에 있어서, 제2 세분성으로 라벨링된 항목의 제2 서브세트는, 제2 서브세트의 이미지들 내에서의 특징의 위치들을 식별해 주는 비픽셀 레벨 지역적 주석들 또는 특징이 제2 서브세트의 이미지들 내에 존재하는지 여부를 식별해 주는 이진 주석들 중 적어도 하나를 갖는 이미지들인 것인, 컴퓨터로 구현되는 방법.
조항 5. 조항 1 또는 조항 2에 있어서, 제1 세분성으로 라벨링된 항목의 제1 서브세트는 제2 서브세트의 이미지들 내에서의 특징의 위치들을 식별해 주는 비픽셀 레벨 지역적 주석들을 갖는 이미지들이고, 제2 세분성으로 라벨링된 항목의 제2 서브세트는 특징이 제2 서브세트의 이미지들 내에 존재하는지 여부를 식별해 주는 이진 주석들을 갖는 이미지들인 것인, 컴퓨터로 구현되는 방법.
조항 6. 조항 3 내지 조항 5 중 어느 한 조항에 있어서, 특징은 센서 폐색인 것인, 컴퓨터로 구현되는 방법.
조항 7. 조항 1 내지 조항 6 중 어느 한 조항에 있어서, 변환 함수는, 제1 세분성의 라벨을 제2 세분성의 라벨로 변환하는 이진화 함수인 것인, 컴퓨터로 구현되는 방법.
조항 8. 조항 7에 있어서, 변환 함수는 머신 러닝 모델인 것인, 컴퓨터로 구현되는 방법.
조항 9. 조항 8에 있어서, 머신 러닝 모델은 제2 뉴럴 네트워크인 것인, 컴퓨터로 구현되는 방법.
조항 10. 조항 8 또는 조항 9에 있어서, 머신 러닝 모델은 뉴럴 네트워크와 동시에 트레이닝되는 것인, 컴퓨터로 구현되는 방법.
조항 11. 조항 1 내지 조항 10 중 어느 한 조항에 있어서, 제1 세분성보다 낮은 제2 세분성으로 라벨링된 항목의 제2 서브세트는 수동으로 주석이 달린 항목들을 포함하는 것인, 컴퓨터로 구현되는 방법.
조항 12. 조항 1 내지 조항 11 중 어느 한 조항에 있어서, 제2 세분성보다 높은 제1 세분성으로 라벨링된 항목의 제1 서브세트는 프로그램적으로 생성된 합성 항목들을 포함하는 것인, 컴퓨터로 구현되는 방법.
조항 13. 조항 12에 있어서, 프로그램적으로 생성된 합성 항목들을 생성하는 단계를 더 포함하고, 프로그램적으로 생성된 합성 항목들을 생성하는 단계는, 프로그램적으로 생성된 합성 항목들 각각에 대해,
부분 특징 이미지로부터 특징의 이미저리를 추출하기 위해 크로마 키잉 작업을 수행하는 단계;
프로그램적으로 생성된 합성 항목을 생성하기 위해 배경 이미지 상에 특징의 추출된 이미저리를 중첩시키는 단계; 및
프로그램적으로 생성된 합성 항목들에 대한 주석 데이터를 생성하는 단계 - 주석 데이터는 특징의 추출된 이미저리를 나타내는 프로그램적으로 생성된 합성 항목들의 부분들을 배경 이미지를 나타내는 프로그램적으로 생성된 합성 항목들의 부분들과 구별해 줌 - 를 포함하는 것인, 컴퓨터로 구현되는 방법.
조항 14. 조항 1 내지 조항 13 중 어느 한 조항에 있어서, 입력들과 대조하여 추론을 수행하고 제1 세분성으로 출력들을 제공하기 위해 트레이닝한 것에 후속하여 뉴럴 네트워크를 배포하는 단계를 더 포함하는, 컴퓨터로 구현되는 방법.
조항 15. 조항 14에 있어서, 입력들과 대조하여 추론을 수행하고 제1 세분성으로 출력들을 제공하기 위해 트레이닝한 것에 후속하여 뉴럴 네트워크를 배포하는 단계는, 뉴럴 네트워크를 자율주행 차량에 배포하는 단계를 포함하는 것인, 컴퓨터로 구현되는 방법.
조항 16. 조항 15에 있어서, 뉴럴 네트워크를 자율주행 차량에 배포하는 단계는, 자율주행 차량이, 자율주행 차량의 센서로부터의 데이터에 대응하는, 자율주행 차량의 센서 상의 폐색을 나타내는 입력 이미지 데이터의 부분들을 식별할 수 있게 하는 것인, 컴퓨터로 구현되는 방법.
조항 17. 시스템에 있어서,
컴퓨터로 실행가능한 명령어들을 포함하는 데이터 저장소; 및
컴퓨터로 실행가능한 명령어들을 실행하도록 구성된 프로세서
를 포함하고, 컴퓨터로 실행가능한 명령어들의 실행은 시스템이,
제2 세분성보다 높은 제1 세분성으로, 제1 세분성으로 라벨링된 항목의 제1 서브세트 및 제1 세분성보다 낮은 제2 세분성으로 라벨링된 항목의 제2 서브세트를 포함하는 트레이닝 데이터 세트에 기초하여 데이터를 출력하기 위해 뉴럴 네트워크를 트레이닝하게 하는 것으로서, 뉴럴 네트워크를 트레이닝하는 것은,
제2 세분성보다 높은 제1 세분성으로 라벨링된 항목의 제1 서브세트 내의 각각의 항목에 대해,
제1 세분성으로 라벨링된 항목에 대응하는 출력을 생성하기 위해 제1 세분성으로 라벨링된 항목을 뉴럴 네트워크를 통과시키는 것; 및
제1 세분성으로 라벨링된 항목에 대응하는 출력과 제1 세분성에 대응하는 항목의 라벨 간의 비교에 기초하여 뉴럴 네트워크의 가중치들을 업데이트하는 것;
제1 세분성보다 낮은 제2 세분성으로 라벨링된 항목의 제2 서브세트 내의 각각의 항목에 대해,
제2 세분성으로 라벨링된 항목에 대응하는 출력을 생성하기 위해 제2 세분성으로 라벨링된 항목을 뉴럴 네트워크를 통과시키는 것;
제2 세분성으로 라벨링된 항목에 대응하는 출력을 제2 세분성으로의 변환된 출력으로 변환하기 위해 제2 세분성으로 라벨링된 항목에 대응하는 출력을 변환 함수를 통과시키는 것; 및
제2 세분성으로의 변환된 출력과 제2 세분성에 대응하는 항목의 라벨 간의 비교에 기초하여 뉴럴 네트워크의 가중치들을 업데이트하는 것을 포함하는 것인, 뉴럴 네트워크를 트레이닝하게 하고;
입력들과 대조하여 추론을 수행하고 제1 세분성으로 출력들을 제공하기 위해 후속 배포를 위한 트레이닝된 뉴럴 네트워크를 저장하게 하는 것인, 시스템.
조항 18. 조항 17에 있어서, 제1 세분성으로 라벨링된 항목의 제1 서브세트는, 제1 서브세트의 이미지들 내에서의 특징의 위치들을 식별해 주는 픽셀 레벨 주석들을 갖는 이미지들인 것인, 시스템.
조항 19. 조항 18에 있어서, 특징은 센서 폐색인 것인, 시스템.
조항 20. 조항 17 내지 조항 19 중 어느 한 조항에 있어서, 입력들과 대조하여 추론을 수행하고 제1 세분성으로 출력들을 제공하도록 트레이닝한 것에 후속하여 뉴럴 네트워크를 배포하는 것이, 뉴럴 네트워크를 자율주행 차량에 배포하는 것을 포함하고, 뉴럴 네트워크를 자율주행 차량에 배포하는 것은, 자율주행 차량이, 자율주행 차량의 센서로부터의 데이터에 대응하는, 자율주행 차량의 센서 상의 센서 폐색을 나타내는 입력 이미지 데이터의 부분들을 식별할 수 있게 하는 것인, 시스템.
조항 21. 컴퓨터로 실행가능한 명령어들을 포함하는 하나 이상의 비일시적인 컴퓨터로 판독가능한 매체에 있어서, 컴퓨터로 실행가능한 명령어들은, 프로세서를 포함하는 컴퓨팅 시스템에 의해 실행될 때, 컴퓨팅 시스템이,
제2 세분성다 높은 제1 세분성으로, 제1 세분성으로 라벨링된 항목의 제1 서브세트 및 제1 세분성보다 낮은 제2 세분성으로 라벨링된 항목의 제2 서브세트를 포함하는 트레이닝 데이터 세트에 기초하여 데이터를 출력하기 위해 뉴럴 네트워크를 트레이닝하게 하는 것으로서, 뉴럴 네트워크를 트레이닝하는 것은,
제2 세분성보다 높은 제1 세분성으로 라벨링된 항목의 제1 서브세트 내의 각각의 항목에 대해,
제1 세분성으로 라벨링된 항목에 대응하는 출력을 생성하기 위해 제1 세분성으로 라벨링된 항목을 뉴럴 네트워크를 통과시키는 것; 및
제1 세분성으로 라벨링된 항목에 대응하는 출력과 제1 세분성에 대응하는 항목의 라벨 간의 비교에 기초하여 뉴럴 네트워크의 가중치들을 업데이트하는 것;
제1 세분성보다 낮은 제2 세분성으로 라벨링된 항목의 제2 서브세트 내의 각각의 항목에 대해,
제2 세분성으로 라벨링된 항목에 대응하는 출력을 생성하기 위해 제2 세분성으로 라벨링된 항목을 뉴럴 네트워크를 통과시키는 것;
제2 세분성으로 라벨링된 항목에 대응하는 출력을 제2 세분성으로의 변환된 출력으로 변환하기 위해 제2 세분성으로 라벨링된 항목에 대응하는 출력을 변환 함수를 통과시키는 것; 및
제2 세분성으로의 변환된 출력과 제2 세분성에 대응하는 항목의 라벨 간의 비교에 기초하여 뉴럴 네트워크의 가중치들을 업데이트하는 것을 포함하는 것인, 뉴럴 네트워크를 트레이닝하게 하고;
입력들과 대조하여 추론을 수행하고 제1 세분성으로 출력들을 제공하기 위해 후속 배포를 위한 트레이닝된 뉴럴 네트워크를 저장하게 하는 것인, 컴퓨터로 실행가능한 명령어들을 포함하는 하나 이상의 비일시적인 컴퓨터로 판독가능한 매체.
전술한 설명에서, 실시예들은 구현마다 달라질 수 있는 다수의 특정 세부 사항들을 참조하여 설명되었다. 그에 따라, 상세한 설명 및 도면들은 제한적인 의미보다는 예시적인 의미로 간주되어야 한다. 청구항들의 범위의 유일한 독점적인 지표, 및 출원인들이 청구항들의 범위이도록 의도한 것은, 본 출원에서 특정 형태로 나오는 일련의 청구항들의 문언적 등가 범위이며, 임의의 후속 보정을 포함한다. 그러한 청구항들에 포함된 용어들에 대한 본 명세서에 명시적으로 기재된 임의의 정의들은 청구항들에서 사용되는 그러한 용어들의 의미를 결정한다. 추가적으로, 전술한 설명 및 이하의 청구항들에서 "더 포함하는"이라는 용어가 사용될 때, 이 문구에 뒤따르는 것은 추가적인 단계 또는 엔티티, 또는 이전에 언급된 단계 또는 엔티티의 서브단계/서브엔티티일 수 있다.

Claims (21)

  1. 하나 이상의 하드웨어 프로세서에 의해 구현되는 컴퓨터로 구현되는 방법(computer-implemented method)에 있어서,
    상기 하나 이상의 하드웨어 프로세서를 사용하여, 제2 세분성(granularity)보다 높은 제1 세분성으로 데이터를, 상기 제1 세분성으로 라벨링된 항목의 제1 서브세트 및 상기 제1 세분성보다 낮은 상기 제2 세분성으로 라벨링된 항목의 제2 서브세트를 포함하는 트레이닝 데이터 세트에 기초하여 출력하기 위해 뉴럴 네트워크를 트레이닝하는 단계
    를 포함하고, 상기 뉴럴 네트워크를 트레이닝하는 단계는,
    상기 제2 세분성보다 높은 상기 제1 세분성으로 라벨링된 상기 항목의 제1 서브세트 내의 각각의 항목에 대해,
    상기 제1 세분성으로 라벨링된 상기 항목에 대응하는 출력을 생성하기 위해 상기 제1 세분성으로 라벨링된 상기 항목을 상기 뉴럴 네트워크를 통과시키는 단계; 및
    상기 제1 세분성으로 라벨링된 상기 항목에 대응하는 상기 출력과 상기 제1 세분성에 대응하는 상기 항목의 라벨 간의 비교에 기초하여 상기 뉴럴 네트워크의 가중치들을 업데이트하는 단계;
    상기 제1 세분성보다 낮은 상기 제2 세분성으로 라벨링된 상기 항목의 제2 서브세트 내의 각각의 항목에 대해,
    상기 제2 세분성으로 라벨링된 상기 항목에 대응하는 출력을 생성하기 위해 상기 제2 세분성으로 라벨링된 상기 항목을 상기 뉴럴 네트워크를 통과시키는 단계;
    상기 제2 세분성으로 라벨링된 상기 항목에 대응하는 상기 출력을 상기 제2 세분성으로의 변환된 출력으로 변환하기 위해 상기 제2 세분성으로 라벨링된 상기 항목에 대응하는 상기 출력을 변환 함수를 통과시키는 단계; 및
    상기 제2 세분성으로의 변환된 출력과 상기 제2 세분성에 대응하는 상기 항목의 라벨 간의 비교에 기초하여 상기 뉴럴 네트워크의 가중치들을 업데이트하는 단계를 포함하는 것인, 하나 이상의 하드웨어 프로세서에 의해 구현되는 컴퓨터로 구현되는 방법.
  2. 제1항에 있어서, 상기 뉴럴 네트워크는 콘볼루션 뉴럴 네트워크인 것인, 컴퓨터로 구현되는 방법.
  3. 제1항 또는 제2항에 있어서, 상기 제1 세분성으로 라벨링된 상기 항목의 제1 서브세트는, 상기 제1 서브세트의 이미지들 내에서의 특징의 위치들을 식별해 주는 픽셀 레벨 주석(pixel-level annotation)들을 갖는 이미지들인 것인, 컴퓨터로 구현되는 방법.
  4. 제3항에 있어서, 상기 제2 세분성으로 라벨링된 상기 항목의 제2 서브세트는, 상기 제2 서브세트의 이미지들 내에서의 상기 특징의 위치들을 식별해 주는 비픽셀 레벨 지역적 주석(non-pixel-level regional annotation)들 또는 상기 특징이 상기 제2 서브세트의 이미지들 내에 존재하는지 여부를 식별해 주는 이진 주석들 중 적어도 하나를 갖는 이미지들인 것인, 컴퓨터로 구현되는 방법.
  5. 제1항 또는 제2항에 있어서, 상기 제1 세분성으로 라벨링된 상기 항목의 제1 서브세트는 상기 제2 서브세트의 이미지들 내에서의 특징의 위치들을 식별해 주는 비픽셀 레벨 지역적 주석들을 갖는 이미지들이고, 상기 제2 세분성으로 라벨링된 상기 항목의 제2 서브세트는 상기 특징이 상기 제2 서브세트의 이미지들 내에 존재하는지 여부를 식별해 주는 이진 주석들을 갖는 이미지들인 것인, 컴퓨터로 구현되는 방법.
  6. 제3항 내지 제5항 중 어느 한 항에 있어서, 상기 특징은 센서 폐색(sensor blockage)인 것인, 컴퓨터로 구현되는 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서, 상기 변환 함수는, 상기 제1 세분성의 라벨을 상기 제2 세분성의 라벨로 변환하는 이진화 함수(thresholding function)인 것인, 컴퓨터로 구현되는 방법.
  8. 제7항에 있어서, 상기 변환 함수는 머신 러닝 모델인 것인, 컴퓨터로 구현되는 방법.
  9. 제8항에 있어서, 상기 머신 러닝 모델은 제2 뉴럴 네트워크인 것인, 컴퓨터로 구현되는 방법.
  10. 제8항 또는 제9항에 있어서, 상기 머신 러닝 모델은 상기 뉴럴 네트워크와 동시에 트레이닝되는 것인, 컴퓨터로 구현되는 방법.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서, 상기 제1 세분성보다 낮은 상기 제2 세분성으로 라벨링된 상기 항목의 제2 서브세트는 수동으로 주석이 달린 항목들을 포함하는 것인, 컴퓨터로 구현되는 방법.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서, 상기 제2 세분성보다 높은 상기 제1 세분성으로 라벨링된 상기 항목의 제1 서브세트는 프로그램적으로 생성된 합성 항목들을 포함하는 것인, 컴퓨터로 구현되는 방법.
  13. 제12항에 있어서, 상기 프로그램적으로 생성된 합성 항목들을 생성하는 단계를 더 포함하고, 상기 프로그램적으로 생성된 합성 항목들을 생성하는 단계는, 상기 프로그램적으로 생성된 합성 항목들 각각에 대해,
    부분 특징 이미지로부터 특징의 이미저리(imagery)를 추출하기 위해 크로마 키잉 작업(chroma keying operation)을 수행하는 단계;
    상기 프로그램적으로 생성된 합성 항목을 생성하기 위해 배경 이미지 상에 상기 특징의 추출된 이미저리를 중첩(superimpose)시키는 단계; 및
    상기 프로그램적으로 생성된 합성 항목들에 대한 주석 데이터를 생성하는 단계 - 상기 주석 데이터는 상기 특징의 추출된 이미저리를 나타내는 상기 프로그램적으로 생성된 합성 항목들의 부분들을 상기 배경 이미지를 나타내는 상기 프로그램적으로 생성된 합성 항목들의 부분들과 구별해 줌 - 를 포함하는 것인, 컴퓨터로 구현되는 방법.
  14. 제1항 내지 제13항 중 어느 한 항에 있어서, 입력들과 대조하여(against) 추론을 수행하고 상기 제1 세분성으로 출력들을 제공하기 위해 트레이닝한 것에 후속하여 상기 뉴럴 네트워크를 배포(deploy)하는 단계를 더 포함하는, 컴퓨터로 구현되는 방법.
  15. 제14항에 있어서, 입력들과 대조하여 추론을 수행하고 상기 제1 세분성으로 출력들을 제공하기 위해 트레이닝한 것에 후속하여 상기 뉴럴 네트워크를 배포하는 단계는, 상기 뉴럴 네트워크를 자율주행 차량에 배포하는 단계를 포함하는 것인, 컴퓨터로 구현되는 방법.
  16. 제15항에 있어서, 상기 뉴럴 네트워크를 자율주행 차량에 배포하는 단계는, 상기 자율주행 차량이, 상기 자율주행 차량의 센서로부터의 데이터에 대응하는, 상기 자율주행 차량의 센서 상의 폐색을 나타내는 입력 이미지 데이터의 부분들을 식별할 수 있게 하는 것인, 컴퓨터로 구현되는 방법.
  17. 시스템에 있어서,
    컴퓨터로 실행가능한 명령어(computer-executable instruction)들을 포함하는 데이터 저장소; 및
    상기 컴퓨터로 실행가능한 명령어들을 실행하도록 구성된 프로세서
    를 포함하고, 상기 컴퓨터로 실행가능한 명령어들의 실행은 상기 시스템이,
    제2 세분성보다 높은 제1 세분성으로 데이터를, 상기 제1 세분성으로 라벨링된 항목의 제1 서브세트 및 상기 제1 세분성보다 낮은 상기 제2 세분성으로 라벨링된 항목의 제2 서브세트를 포함하는 트레이닝 데이터 세트에 기초하여 출력하기 위해 뉴럴 네트워크를 트레이닝하게 하는 것으로서, 상기 뉴럴 네트워크를 트레이닝하는 것은,
    상기 제2 세분성보다 높은 상기 제1 세분성으로 라벨링된 상기 항목의 제1 서브세트 내의 각각의 항목에 대해,
    상기 제1 세분성으로 라벨링된 상기 항목에 대응하는 출력을 생성하기 위해 상기 제1 세분성으로 라벨링된 상기 항목을 상기 뉴럴 네트워크를 통과시키는 것; 및
    상기 제1 세분성으로 라벨링된 상기 항목에 대응하는 상기 출력과 상기 제1 세분성에 대응하는 상기 항목의 라벨 간의 비교에 기초하여 상기 뉴럴 네트워크의 가중치들을 업데이트하는 것;
    상기 제1 세분성보다 낮은 상기 제2 세분성으로 라벨링된 상기 항목의 제2 서브세트 내의 각각의 항목에 대해,
    상기 제2 세분성으로 라벨링된 상기 항목에 대응하는 출력을 생성하기 위해 상기 제2 세분성으로 라벨링된 상기 항목을 상기 뉴럴 네트워크를 통과시키는 것;
    상기 제2 세분성으로 라벨링된 상기 항목에 대응하는 상기 출력을 상기 제2 세분성으로의 변환된 출력으로 변환하기 위해 상기 제2 세분성으로 라벨링된 상기 항목에 대응하는 상기 출력을 변환 함수를 통과시키는 것; 및
    상기 제2 세분성으로의 변환된 출력과 상기 제2 세분성에 대응하는 상기 항목의 라벨 간의 비교에 기초하여 상기 뉴럴 네트워크의 가중치들을 업데이트하는 것을 포함하는 것인, 상기 뉴럴 네트워크를 트레이닝하게 하고;
    입력들과 대조하여 추론을 수행하고 상기 제1 세분성으로 출력들을 제공하기 위해 후속 배포를 위한 상기 트레이닝된 뉴럴 네트워크를 저장하게 하는 것인, 시스템.
  18. 제17항에 있어서, 상기 제1 세분성으로 라벨링된 상기 항목의 제1 서브세트는, 상기 제1 서브세트의 이미지들 내에서의 특징의 위치들을 식별해 주는 픽셀 레벨 주석들을 갖는 이미지들인 것인, 시스템.
  19. 제18항에 있어서, 상기 특징은 센서 폐색인 것인, 시스템.
  20. 제17항 내지 제19항 중 어느 한 항에 있어서, 입력들과 대조하여 추론을 수행하고 상기 제1 세분성으로 출력들을 제공하기 위해 트레이닝한 것에 후속하여 상기 뉴럴 네트워크를 배포하는 것이, 상기 뉴럴 네트워크를 자율주행 차량에 배포하는 것을 포함하고, 상기 뉴럴 네트워크를 자율주행 차량에 배포하는 것은, 상기 자율주행 차량이, 상기 자율주행 차량의 센서로부터의 데이터에 대응하는, 상기 자율주행 차량의 센서 상의 센서 폐색을 나타내는 입력 이미지 데이터의 부분들을 식별할 수 있게 하는 것인, 시스템.
  21. 컴퓨터로 실행가능한 명령어들을 포함하는 하나 이상의 비일시적인 컴퓨터로 판독가능한 매체(computer-readable media)에 있어서, 상기 컴퓨터로 실행가능한 명령어들은, 프로세서를 포함하는 컴퓨팅 시스템에 의해 실행될 때, 상기 컴퓨팅 시스템이,
    제2 세분성다 높은 제1 세분성으로 데이터를, 상기 제1 세분성으로 라벨링된 항목의 제1 서브세트 및 상기 제1 세분성보다 낮은 상기 제2 세분성으로 라벨링된 항목의 제2 서브세트를 포함하는 트레이닝 데이터 세트에 기초하여 출력하기 위해 뉴럴 네트워크를 트레이닝하게 하는 것으로서, 상기 뉴럴 네트워크를 트레이닝하는 것은,
    상기 제2 세분성보다 높은 상기 제1 세분성으로 라벨링된 상기 항목의 제1 서브세트 내의 각각의 항목에 대해,
    상기 제1 세분성으로 라벨링된 상기 항목에 대응하는 출력을 생성하기 위해 상기 제1 세분성으로 라벨링된 상기 항목을 상기 뉴럴 네트워크를 통과시키는 것; 및
    상기 제1 세분성으로 라벨링된 상기 항목에 대응하는 상기 출력과 상기 제1 세분성에 대응하는 상기 항목의 라벨 간의 비교에 기초하여 상기 뉴럴 네트워크의 가중치들을 업데이트하는 것;
    상기 제1 세분성보다 낮은 상기 제2 세분성으로 라벨링된 상기 항목의 제2 서브세트 내의 각각의 항목에 대해,
    상기 제2 세분성으로 라벨링된 상기 항목에 대응하는 출력을 생성하기 위해 상기 제2 세분성으로 라벨링된 상기 항목을 상기 뉴럴 네트워크를 통과시키는 것;
    상기 제2 세분성으로 라벨링된 상기 항목에 대응하는 상기 출력을 상기 제2 세분성으로의 변환된 출력으로 변환하기 위해 상기 제2 세분성으로 라벨링된 상기 항목에 대응하는 상기 출력을 변환 함수를 통과시키는 것; 및
    상기 제2 세분성으로의 변환된 출력과 상기 제2 세분성에 대응하는 상기 항목의 라벨 간의 비교에 기초하여 상기 뉴럴 네트워크의 가중치들을 업데이트하는 것을 포함하는 것인, 상기 뉴럴 네트워크를 트레이닝하게 하고;
    입력들과 대조하여 추론을 수행하고 상기 제1 세분성으로 출력들을 제공하기 위해 후속 배포를 위한 상기 트레이닝된 뉴럴 네트워크를 저장하게 하는 것인, 컴퓨터로 실행가능한 명령어들을 포함하는 하나 이상의 비일시적인 컴퓨터로 판독가능한 매체.
KR1020220097470A 2021-08-04 2022-08-04 다중 세분성들의 라벨들이 있는 데이터 세트를 사용하는 뉴럴 네트워크 트레이닝 KR20230020933A (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202163229199P 2021-08-04 2021-08-04
US202163229335P 2021-08-04 2021-08-04
US63/229,199 2021-08-04
US63/229,335 2021-08-04

Publications (1)

Publication Number Publication Date
KR20230020933A true KR20230020933A (ko) 2023-02-13

Family

ID=84540552

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020220097469A KR20230020932A (ko) 2021-08-04 2022-08-04 스케일링가능하고 사실적인 카메라 폐색 데이터 세트 생성
KR1020220097470A KR20230020933A (ko) 2021-08-04 2022-08-04 다중 세분성들의 라벨들이 있는 데이터 세트를 사용하는 뉴럴 네트워크 트레이닝

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020220097469A KR20230020932A (ko) 2021-08-04 2022-08-04 스케일링가능하고 사실적인 카메라 폐색 데이터 세트 생성

Country Status (4)

Country Link
KR (2) KR20230020932A (ko)
CN (2) CN115705722A (ko)
DE (2) DE102022119216A1 (ko)
GB (2) GB2611408B (ko)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100516638B1 (ko) * 2001-09-26 2005-09-22 엘지전자 주식회사 화상 통신 시스템
US20140368669A1 (en) * 2012-10-04 2014-12-18 Google Inc. Gpu-accelerated background replacement
US9646227B2 (en) * 2014-07-29 2017-05-09 Microsoft Technology Licensing, Llc Computerized machine learning of interesting video sections
US10535138B2 (en) * 2017-11-21 2020-01-14 Zoox, Inc. Sensor data segmentation
US11496661B2 (en) * 2018-02-22 2022-11-08 Sony Corporation Image processing apparatus and image processing method
EP3540691B1 (en) * 2018-03-14 2021-05-26 Volvo Car Corporation Method of segmentation and annotation of images
US11830195B2 (en) * 2018-08-06 2023-11-28 Shimadzu Corporation Training label image correction method, trained model creation method, and image analysis device
EP3657379A1 (en) * 2018-11-26 2020-05-27 Connaught Electronics Ltd. A neural network image processing apparatus for detecting soiling of an image capturing device
US10867210B2 (en) * 2018-12-21 2020-12-15 Waymo Llc Neural networks for coarse- and fine-object classifications

Also Published As

Publication number Publication date
GB2611167B (en) 2024-04-03
KR20230020932A (ko) 2023-02-13
DE102022119217A1 (de) 2023-02-09
DE102022119216A1 (de) 2023-02-09
GB2611408A (en) 2023-04-05
GB2611167A (en) 2023-03-29
CN115705723A (zh) 2023-02-17
GB202211257D0 (en) 2022-09-14
CN115705722A (zh) 2023-02-17
GB202211259D0 (en) 2022-09-14
GB2611408B (en) 2024-04-03

Similar Documents

Publication Publication Date Title
CN111104849B (zh) 运载工具的导航期间的、地图中的环境特征的自动注释
US11214281B2 (en) Sequential fusion for 3D object detection
US11092456B2 (en) Object location indicator system and method
EP3647734A1 (en) Automatic generation of dimensionally reduced maps and spatiotemporal localization for navigation of a vehicle
KR20210078439A (ko) 카메라 대 lidar 교정 및 검증
GB2594118A (en) Automated object annotation using fused camera/LiDAR data points
US20210211568A1 (en) Systems and methods for traffic light detection
US11280630B2 (en) Updating map data
EP3647733A1 (en) Automatic annotation of environmental features in a map during navigation of a vehicle
KR102549258B1 (ko) 이미지 시맨틱스 네트워크로부터의 단안 3d 대상체 검출
KR20220052846A (ko) Lidar를 사용한 대상체 식별
KR20230082520A (ko) 운전가능한 도로 세그먼트들의 자동 주석 달기
KR20230020933A (ko) 다중 세분성들의 라벨들이 있는 데이터 세트를 사용하는 뉴럴 네트워크 트레이닝
US20230042450A1 (en) Training a neural network using a data set with labels of multiple granularities
US20230039935A1 (en) Scalable and realistic camera blockage dataset generation