KR20220058492A - 긴급 차량 오디오 및 시각적 감지를 융합한 기계 학습 모델 - Google Patents

긴급 차량 오디오 및 시각적 감지를 융합한 기계 학습 모델 Download PDF

Info

Publication number
KR20220058492A
KR20220058492A KR1020220005406A KR20220005406A KR20220058492A KR 20220058492 A KR20220058492 A KR 20220058492A KR 1020220005406 A KR1020220005406 A KR 1020220005406A KR 20220005406 A KR20220005406 A KR 20220005406A KR 20220058492 A KR20220058492 A KR 20220058492A
Authority
KR
South Korea
Prior art keywords
feature vector
autonomous vehicle
vehicle
autonomous
neural network
Prior art date
Application number
KR1020220005406A
Other languages
English (en)
Inventor
커청 쑤
홍이 선
치 루오
왕유
제준 린
웨슬리 레이놀즈
봉 유
쟝타오 후
징하오 미아오
Original Assignee
바이두 유에스에이 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 바이두 유에스에이 엘엘씨 filed Critical 바이두 유에스에이 엘엘씨
Publication of KR20220058492A publication Critical patent/KR20220058492A/ko

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions
    • G08G1/0962Arrangements for giving variable traffic instructions having an indicator mounted inside the vehicle, e.g. giving voice messages
    • G08G1/0967Systems involving transmission of highway information, e.g. weather, speed limits
    • G08G1/096708Systems involving transmission of highway information, e.g. weather, speed limits where the received information might be used to generate an automatic action on the vehicle control
    • G08G1/096725Systems involving transmission of highway information, e.g. weather, speed limits where the received information might be used to generate an automatic action on the vehicle control where the received information generates an automatic action on the vehicle control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • B60W60/0015Planning or execution of driving tasks specially adapted for safety
    • B60W60/0016Planning or execution of driving tasks specially adapted for safety of the vehicle or its occupants
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W10/00Conjoint control of vehicle sub-units of different type or different function
    • B60W10/18Conjoint control of vehicle sub-units of different type or different function including control of braking systems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/02Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to ambient conditions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • B60W60/0025Planning or execution of driving tasks specially adapted for specific operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/803Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • G08G1/0133Traffic data processing for classifying traffic situation
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/04Detecting movement of traffic to be counted or controlled using optical or ultrasonic detectors
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions
    • G08G1/0962Arrangements for giving variable traffic instructions having an indicator mounted inside the vehicle, e.g. giving voice messages
    • G08G1/0965Arrangements for giving variable traffic instructions having an indicator mounted inside the vehicle, e.g. giving voice messages responding to signals from another vehicle, e.g. emergency vehicle
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions
    • G08G1/0962Arrangements for giving variable traffic instructions having an indicator mounted inside the vehicle, e.g. giving voice messages
    • G08G1/0967Systems involving transmission of highway information, e.g. weather, speed limits
    • G08G1/096766Systems involving transmission of highway information, e.g. weather, speed limits where the system is characterised by the origin of the information transmission
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/123Traffic control systems for road vehicles indicating the position of vehicles, e.g. scheduled vehicles; Managing passenger vehicles circulating according to a fixed timetable, e.g. buses, trains, trams
    • G08G1/133Traffic control systems for road vehicles indicating the position of vehicles, e.g. scheduled vehicles; Managing passenger vehicles circulating according to a fixed timetable, e.g. buses, trains, trams within the vehicle ; Indicators inside the vehicles or at stops
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/326Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for microphones
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0002Automatic control, details of type of controller or control system architecture
    • B60W2050/0004In digital systems, e.g. discrete-time systems involving sampling
    • B60W2050/0005Processor details or data handling, e.g. memory registers or chip architecture
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • B60W2050/0028Mathematical models, e.g. for simulation
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • B60W2554/40Dynamic objects, e.g. animals, windblown objects
    • B60W2554/404Characteristics
    • B60W2554/4041Position
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • B60W2554/40Dynamic objects, e.g. animals, windblown objects
    • B60W2554/404Characteristics
    • B60W2554/4044Direction of movement, e.g. backwards
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Mechanical Engineering (AREA)
  • Transportation (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Human Computer Interaction (AREA)
  • Automation & Control Theory (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Atmospheric Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Emergency Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Remote Sensing (AREA)
  • Analytical Chemistry (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Otolaryngology (AREA)
  • Combustion & Propulsion (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Traffic Control Systems (AREA)

Abstract

다양한 실시형태에 따라, 자율 주행 차량(ADV)을 작동하기 위한 시스템, 방법 및 매체를 설명한다. 실시형태에서 복수의 기계 학습 모델을 사용하여 자율 주행 차량에 장착되는 센서에 의해 캡처된 오디오 데이터 및 시각적 데이터로부터 특징을 각각 추출하고, 다음 추출된 이러한 특징을 융합하여 연결 특징 벡터를 구축한다. 연결 특징 벡터는 다층 퍼셉트론(MLP)에 입력으로서 제공되어, 주위 환경 중 긴급 차량의 존재 여부와 관련되는 감지 결과를 생성한다. 자율 주행 차량은 감지 결과를 사용하여 적절한 조치를 취함으로써 로컬의 교통 규칙을 준수할 수 있다.

Description

긴급 차량 오디오 및 시각적 감지를 융합한 기계 학습 모델{MACHINE LEARNING MODEL TO FUSE EMERGENCY VEHICLE AUDIO AND VISUAL DETECTION}
본 발명의 실시형태는 전반적으로 자율 주행 차량 작동에 관한 것이다. 더 구체적으로, 본 발명의 실시형태는 복수의 리소스로부터의 긴급 차량 감지를 위한 센서 데이터 융합에 관한 것이다.
자율 주행 모드로 운전되는(예를 들어, 무인 운전) 차량은 탑승자, 특히는 운전자를 일부 운전과 관계되는 직책에서 해방시킬 수 있다. 자율 주행 모드로 운전될 경우, 차량은 차량용 센서를 사용하여 각 위치를 탐색할 수 있기에, 차량이 최소한의 인간-컴퓨터 인터렉션의 경우 또는 어떠한 승객도 없는 경우에 주행할 수 있다.
긴급 차량(예를 들어, 경찰차, 소방차 및 구급차)이 도로에 있는 것이 감지될 경우, 자율 주행 차량은 적절한 조치를 취하여 로컬의 교통 규칙을 준수할 필요가 있다. 따라서, 자율 주행 차량 주위 환경 중의 긴급 차량을 정확하게 감지하는 것은 주행 중의 자율 주행 차량에 있어서 아주 중요하고, 자율 주행 차량(ADV)이 불필요한 주차를 하지 않도록 한다. 감지 정확성을 향상시키는 방법으로는 복수의 리소스로부터의 정보(예를 들어, 자율 주행 차량의 센서로부터의 이미지 및 음성)를 사용하여 단일 리소스의 불안정성을 제거하는 것이다. 이러한 방법은 복수의 리소스로부터의 정보를 융합할 필요가 있다.
본 발명은 긴급 차량 오디오 및 시각적 감지를 융합한 기계 학습 모델을 제공하는데 있다. 본 발명이 해결하고자 하는 과제는 이상에서 언급한 과제에 한정되지 않으며, 언급되지 않은 본 발명의 다른 과제 및 장점들은 하기의 설명에 의해서 이해될 수 있고, 본 발명의 실시 예에 의해보다 분명하게 이해될 것이다. 또한, 본 발명이 해결하고자 하는 과제 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 알 수 있을 것이다.
본 출원의 일 양태는, 컴퓨터로 구현되는 자율 주행 차량의 작동 방법으로서, 상기 자율 주행 차량의 자율 주행 시스템에서 오디오 신호 스트림 및 이미지 프레임 시퀀스를 수신하는 단계 - 상기 오디오 신호 스트림은 상기 자율 주행 차량에 장착되는 하나 이상의 오디오 캡처 장치에 의해 상기 자율 주행 차량의 주위 환경에서 캡처된 것이고, 상기 이미지 프레임 시퀀스는 상기 자율 주행 차량에 장착되는 하나 이상의 이미지 캡처 장치를 사용하여 상기 자율 주행 차량의 주위 환경에서 캡처된 것임 - ; 상기 자율 주행 시스템이 캡처된 오디오 신호 스트림에서 제1 특징 벡터를 추출하고, 캡처된 이미지 프레임 시퀀스에서 제2 특징 벡터를 추출하는 단계; 상기 자율 주행 시스템이 상기 제1 특징 벡터와 상기 제2 특징 벡터를 연결하여 연결 특징 벡터를 구축하는 단계; 및 상기 연결 특징 벡터를 기반으로, 상기 자율 주행 시스템을 통해 제1 신경 네트워크 모델을 사용하여 상기 자율 주행 차량의 주위 환경 중 긴급 차량의 존재를 결정하는 단계를 포함하는 컴퓨터로 구현되는 자율 주행 차량의 작동 방법을 제공한다.
본 출원의 다른 양태는, 명령어가 저장되어 있는 비일시적 기계 판독 가능 매체로서, 상기 명령어가 프로세서에 의해 실행될 경우 상기 프로세서가 자율 주행 차량(ADV)을 작동시키는 동작을 수행하되, 상기 동작은, 상기 자율 주행 차량의 자율 주행 시스템에서 오디오 신호 스트림 및 이미지 프레임 시퀀스를 수신하는 단계 - 상기 오디오 신호 스트림은 상기 자율 주행 차량에 장착되는 하나 이상의 오디오 캡처 장치에 의해 상기 자율 주행 차량의 주위 환경에서 캡처된 것이고, 상기 이미지 프레임 시퀀스는 상기 자율 주행 차량에 장착되는 하나 이상의 이미지 캡처 장치를 사용하여 상기 자율 주행 차량의 주위 환경에서 캡처된 것임 - ; 상기 자율 주행 시스템이 캡처된 오디오 신호 스트림에서 제1 특징 벡터를 추출하고, 캡처된 이미지 프레임 시퀀스에서 제2 특징 벡터를 추출하는 단계; 상기 자율 주행 시스템이 상기 제1 특징 벡터와 상기 제2 특징 벡터를 연결하여 연결 특징 벡터를 구축하는 단계; 및 상기 연결 특징 벡터를 기반으로, 상기 자율 주행 시스템을 통해 제1 신경 네트워크 모델을 사용하여 상기 자율 주행 차량의 주위 환경 중 긴급 차량의 존재를 결정하는 단계를 포함하는 비일시적 기계 판독 가능 매체를 제공한다.
본 출원의 다른 양태는, 데이터 처리 시스템으로서, 프로세서; 및 상기 프로세서와 연결되어 명령어를 저장하는 메모리를 포함하고, 상기 명령어가 상기 프로세서에 의해 실행될 경우 상기 프로세서가 자율 주행 차량(ADV)을 작동시키는 동작을 수행하도록 하되, 상기 동작은, 상기 자율 주행 차량의 자율 주행 시스템에서 오디오 신호 스트림 및 이미지 프레임 시퀀스를 수신하는 단계 - 상기 오디오 신호 스트림은 상기 자율 주행 차량에 장착되는 하나 이상의 오디오 캡처 장치에 의해 상기 자율 주행 차량의 주위 환경에서 캡처된 것이고, 상기 이미지 프레임 시퀀스는 상기 자율 주행 차량에 장착되는 하나 이상의 이미지 캡처 장치를 사용하여 상기 자율 주행 차량의 주위 환경에서 캡처된 것임 - ; 상기 자율 주행 시스템이 캡처된 오디오 신호 스트림에서 제1 특징 벡터를 추출하고, 캡처된 이미지 프레임 시퀀스에서 제2 특징 벡터를 추출하는 단계; 상기 자율 주행 시스템이 상기 제1 특징 벡터와 상기 제2 특징 벡터를 연결하여 연결 특징 벡터를 구축하는 단계; 및 상기 연결 특징 벡터를 기반으로, 상기 자율 주행 시스템을 통해 제1 신경 네트워크 모델을 사용하여 상기 자율 주행 차량의 주위 환경 중 긴급 차량의 존재를 결정하는 단계를 포함하는 데이터 처리 시스템을 제공한다.
본 출원의 다른 양태는, 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램을 제공하고, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우 상기 일 양태에 따른 방법을 구현하도록 한다.
본 발명의 실시형태는 첨부된 도면의 각 도면에 한정되지 않고 예시적으로 도시되며, 도면에서 동일한 참조 부호는 유사한 구성 요소를 가리킨다.
도 1은 일 실시형태에 따른 네트워크화 시스템을 도시한 블록도이다.
도 2는 일 실시형태에 따른 자율 주행 차량의 예시를 도시한 블록도이다.
도 3a 및 도 3b는 일 실시형태에 따른 자율 주행 차량과 함께 사용되는 감지 및 계획 시스템의 예시를 도시한 블록도이다.
도 4는 일 실시형태에 따른 긴급 차량 감지 시스템의 예시를 도시한다.
도 5는 일 실시형태에 따른 긴급 차량 감지 시스템을 더 도시한다.
도 6은 일 실시형태에 따른 긴급 차량 감지 과정을 도시한다.
아래에서 논의되는 세부 사항을 참조하여 본 발명의 다양한 실시형태 및 양태를 설명하며, 첨부된 도면은 다양한 실시형태를 도시한다. 아래 설명과 도면은 본 발명에 대한 설명이며, 본 발명을 한정하려는 것으로 해석되어서는 안된다. 본 발명의 다양한 실시형태에 대한 전반적인 이해를 제공하기 위해 많은 특정 세부사항을 설명한다. 그러나, 일부 경우, 본 발명의 실시형태에 대한 간결한 논의를 제공하기 위해 공지되었거나 통상적인 세부사항들에 대한 설명은 생략한다.
본 명세서에서 “일 실시형태” 또는 “실시형태”에 대한 언급은 상기 실시형태와 결합하여 설명된 특정된 특징, 구조 또는 특성이 본 발명의 적어도 일 실시형태에 포함될 수 있음을 의미한다. 본 명세서의 각 부분에 나타나는 문구 “일 실시형태에서”는 전부 동일한 실시형태를 가리키는 것은 아니다.
다양한 실시형태에 따라, 자율 주행 차량(ADV)을 작동하기 위한 시스템, 방법 및 매체를 설명한다. 실시형태는 복수의 기계 학습 모델을 사용하여 자율 주행 차량에 장착되는 센서에 의해 캡처된 오디오 데이터 및 시각적 데이터로부터 특징을 각각 추출하고, 다음 추출되는 이러한 특징을 융합하여 연결 특징 벡터를 구축한다. 연결 특징 벡터는 다층 퍼셉트론(MLP)에 입력으로 제공되어, 주위 환경 중 긴급 차량의 존재 여부와 관련되는 감지 결과를 생성한다. 자율 주행 차량은 감지 결과를 사용하여 적절한 조치를 취함으로써 로컬의 교통 규칙을 준수할 수 있다.
오디오 데이터와 시각적 데이터의 결정 레벨 융합(이후 융합)과 비교해보면, 본 발명에서의 실시형태는 긴급 차량을 더 정확하게 감지할 수 있다.
일 실시형태에서, 자율 주행 차량(ADV)의 작동 방법은, 자율 주행 차량의 자율 주행 시스템 (ADV)에서 오디오 신호 스트림 및 이미지 프레임 시퀀스를 수신하는 단계 - 여기서, 오디오 신호 스트림은 자율 주행 차량에 장착되는 하나 이상의 오디오 캡처 장치를 사용하여 자율 주행 차량의 주위 환경에서 캡처된 것이고, 이미지 프레임 시퀀스는 자율 주행 차량에 장착되는 하나 이상의 이미지 캡처 장치를 사용하여 주위 환경에서 캡처된 것임 - ; 및 자율 주행 시스템으로 캡처된 오디오 신호 스트림에서 제1 특징 벡터를 추출하고, 캡처된 이미지 프레임 시퀀스에서 제2 특징 벡터를 추출하는 단계를 포함한다. 상기 방법은 자율 주행 시스템으로 제1 특징 벡터와 제2 특징 벡터를 연결하여 연결 특징 벡터를 구축하는 단계; 및 연결 특징 벡터를 기반으로, 자율 주행 시스템을 통해 제1 신경 네트워크 모델을 사용하여 자율 주행 차량의 주위 환경 중 긴급 차량 존재를 결정하는 단계를 더 포함한다.
일 실시형태에서, 제1 신경 네트워크 모델은 다층 퍼셉트론(MLP) 네트워크이고, 이는 긴급 차량의 위치를 더 출력할 수 있으며, 또한 긴급 차량의 이동 방향을 더 출력할 수도 있다. 자율 주행 차량의 위치를 결정하는 것에 응답하여, 자율 주행 시스템은 긴급 차량의 위치 및 이동 방향을 기반으로 자율 주행 차량을 제어할 수 있으며, 상기 제어는 자율 주행 차량을 현재 주행 차선으로부터 유도하거나 자율 주행 차량을 브레이크하여 감속시키는 중 적어도 하나를 포함한다.
일 실시형태에서, 제1 특징 벡터를 추출하는 단계는 3개의 상이한 신경 네트워크를 사용하여 캡처된 오디오 신호 스트림에서 3개의 상이한 특징 벡터를 추출하는 단계를 더 포함한다. 이 3개의 상이한 특징 벡터는 기본 오디오 특징 벡터, 멜 주파수 캡스트럼 계수(MFCC)특징 벡터 및 Mel 히스토그램 특징 벡터일 수 있다. 다음, 이 3개의 상이한 특징 벡터는 단일 오디오 특징 벡터로 연결될 수 있고, 상기 오디오 특징 벡터는 MLP에 피드백되어 더 처리된다.
본문에서 설명되는 실시형태는 실행 가능한 컴퓨터 프로그램 명령이 저장될 수 있는 비일시적 기계 판독 가능 매체를 포함할 수 있고, 컴퓨터 프로그램 명령이 하나 이상의 데이터 처리 시스템에 의해 실행될 경우, 상기 실행 가능한 컴퓨터 프로그램 명령은 하나 이상의 데이터 처리 시스템이 본문에서 설명되는 하나 이상의 방법을 수행할 수 있도록 한다. 상기 명령은 플래시 메모리 또는 다른 형태의 메모리와 같은 비휘발성 메모리에 저장될 수 있다. 이러한 실시형태는 시스템적인 청구항으로서 구현될 수 있다.
상술한 내용은 본 발명의 모든 실시방안의 상세한 리스트를 포함하지 않는다. 모든 시스템 및 방법은 본 발명에서 설명되는 다양한 양태 및 실시형태에 따른 모든 적절한 조합으로 구현될 수 있다.
자율 주행 차량
도 1은 본 발명의 일 실시형태에 따른 자율 주행 차량 네트워크 구성을 도시한 블록도이다. 도 1을 참조하면, 네트워크 구성(100)은 네트워크(102)를 통해 하나 이상의 서버(103 내지 104)에 통신적으로 연결될 수 있는 자율 주행 차량(ADV) (101)을 포함한다. 하나의 자율 주행 차량이 도시되어 있지만, 복수의 자율 주행 차량이 네트워크(102)를 통해 상호 연결될 수 있으며 및/또는 서버(103 내지 104)에 연결될 수 있다. 네트워크(102)는 유선 또는 무선의 근거리 통신망(LAN), 인터넷과 같은 광역 통신망(WAN), 셀룰러 네트워크, 위성 네트워크 또는 이들의 조합과 같은 임의의 유형의 네트워크일 수 있다. 서버(103 내지 104)는 네트워크 또는 클라우드 서버, 애플리케이션 서버, 백엔드 서버 또는 이들의 조합과 같은 임의의 유형의 서버 또는 서버 클러스터일 수 있다. 서버(103 내지 104)는 데이터 분석 서버, 콘텐츠 서버, 교통 정보 서버, 지도 및 관심 지점(MPOI) 서버 또는 위치 서버일 수 있다.
자율 주행 차량은 자율 주행 모드로 구성될 수 있는 차량을 가리키고, 상기 자율 주행 모드에서 차량은 운전자로부터의 입력이 아주 적거나 없는 경우 내비게이트하여 환경을 통과한다. 이러한 자율 주행 차량은 센서 시스템을 포함할 수 있고, 상기 센서 시스템에는 차량 운전 환경과 관련되는 정보를 감지하는 것으로 구성되는 하나 이상의 센서가 구비된다. 상기 차량 및 이와 관련되는 컨트롤러는 감지되는 정보를 사용하여 내비게이트하여 환경을 통과한다. 자율 주행 차량(101)은 수동 모드, 전자동 주행 모드 또는 부분적 자율 주행 모드에서 운전될 수 있다.
일 실시형태에서, 자율 주행 차량(101)은 자율 주행 시스템(ADS)(110), 차량 제어 시스템(111), 무선 통신 시스템(112), 사용자 인터페이스 시스템(113), 및 센서 시스템(115)을 포함하나 이에 한정되는 것은 아니다. 자율 주행 차량(101)은 일반 차량에 포함되는 엔진, 바퀴, 핸들, 변속기와 같은 일부 통상의 부재를 더 포함할 수 있고, 상기 부재는 차량 제어 시스템(111) 및/또는 자율 주행 시스템(110)에 의해 다양한 통신 신호 및/또는 명령을 사용하여 제어될 수 있고, 상기 다양한 통신 신호 및/또는 명령은 예를 들어, 가속 신호 또는 명령, 감속 신호 또는 명령, 전향 신호 또는 명령, 브레이크 신호 또는 명령 등이다.
부재(110 내지 115)는 인터커넥터, 버스, 네트워크 또는 이들의 조합에 의해 통신적으로 서로 연결될 수 있다. 예를 들어, 부재(110 내지 115)는 컨트롤러 근거리 통신망 (CAN) 버스에 의해 통신적으로 서로 연결될 수 있다. CAN버스는 호스트 컴퓨터가 없는 애플리케이션에서 마이크로 컨트롤러 및 장치가 서로 통신하도록 설계된 차량 버스 표준이다. 이는 최초에 자동차 내 다중 전기 배선용으로 설계된 메시지 기반의 프로토콜이지만, 다른 많은 환경에도 사용된다.
도 2를 참조하면, 일 실시형태에서, 센서 시스템(115)은 하나 이상의 카메라(211), 위성항법시스템(GPS) 유닛(212), 관성 측정 유닛(IMU)(213), 레이더 유닛(214) 및 라이다(LIDAR) 유닛(215)을 포함하나 이에 한정되는 것은 아니다. GPS유닛(212)은 트랜시버를 포함할 수 있고, 상기 트랜시버는 자율 주행 차량에 관한 위치 정보를 제공하도록 작동될 수 있다. IMU유닛(213)은 관성 가속도에 기반하여 자율 주행 차량의 위치 및 방향 변화를 센싱할 수 있다. 레이더 유닛(214)은 라디오 신호를 이용하여 자율 주행 차량의 로컬 환경 내의 객체를 센싱하는 시스템을 나타낼 수 있다. 일부 실시형태에서, 레이더 유닛(214)은 객체를 센싱하는 외에, 객체의 속도 및/또는 전진 방향을 센싱할 수 있다. 라이다 유닛(215)은 레이저를 사용하여 자율 주행 차량이 속한 환경 중의 객체를 센싱할 수 있다. 다른 시스템 부재를 제외하고, 라이다 유닛(215)은 하나 이상의 레이저 소스, 레이저 스캐너 및 하나 이상의 탐지기를 더 포함할 수 있다. 카메라(211)는 자율 주행 차량 주위 환경의 이미지를 수집하기 위한 하나 이상의 장치를 포함할 수 있다. 카메라(211)는 스틸 카메라 및/또는 비디오 카메라일 수 있다. 카메라는 예를 들어 카메라를 회전 및/또는 경사진 플랫폼에 장착함으로써 기계적으로 이동할 수 있다.
센서 시스템(115)은 소나 센서, 적외선 센서, 스티어링 센서, 스로틀 센서, 브레이크 센서 및 오디오 센서(예를 들어, 마이크)와 같은 다른 센서를 더 포함할 수 있다. 오디오 센서는 자율 주행 차량 주위의 환경에서 소리를 수집하는 것으로 구성될 수 있다. 스티어링 센서는 핸들, 차량의 바퀴 또는 이들의 조합의 전향 각도를 센싱하는 것으로 구성될 수 있다. 스로틀 센서 및 브레이크 센서는 각각 차량의 스로틀 위치 및 브레이크 위치를 센싱한다. 일부 경우, 스로틀 센서 및 브레이크 센서는 통합형 스로틀/브레이크 센서로 통합될 수 있다.
일 실시형태에서, 차량 제어 시스템(111)은 스티어링 유닛(201), 스로틀 유닛(202)(가속 유닛이라고도 함) 및 브레이크 유닛(203)을 포함하나 이에 한정되는 것은 아니다. 스티어링 유닛(201)은 차량의 방향 또는 전진 방향을 조정하기 위한 것이다. 스로틀 유닛(202)은 모터 또는 엔진의 속도를 제어하기 위한 것이고, 모터 또는 엔진의 속도는 나아가 차량의 속도 및 가속도를 제어한다. 브레이크 유닛(203)은 마찰을 제공하여 차량의 바퀴 또는 타이어가 감속되어 차량이 감속되도록 한다. 유의해야 할 것은, 도 2에 도시된 바와 같이 부재는 하드웨어, 소프트웨어 또는 이들의 조합으로 구현될 수 있다.
도 1을 참조하면, 무선 통신 시스템(112)은 자율 주행 차량(101)과 장치, 센서, 다른 차량 등과 같은 외부 시스템 사이의 통신을 허용한다. 예를 들어, 무선 통신 시스템(112)은 하나 이상의 장치와 직접 무선 통신할 수 있고, 또는 통신 네트워크를 통해 무선 통신할 수 있으며, 예를 들어, 네트워크(102)를 통해 서버(103 내지 104)와 통신한다. 무선 통신 시스템(112)은 WiFi와 같은 임의의 셀룰러 통신 네트워크 또는 무선 근거리 통신망(WLAN)을 사용하여 다른 부재 또는 시스템과 통신할 수 있다. 무선 통신 시스템(112)은 예를 들어 적외선 링크, 불루투스 등을 사용하여 장치(예를 들어, 승객의 모바일 장치, 디스플레이 장치, 차량(101) 내의 스피커)와 직접 통신할 수 있다. 사용자 인터페이스 시스템(113)은 차량(101) 내에서 구현되는 주변 장치의 일부일 수 있고, 예를 들어 키보드, 터치 스크린 디스플레이 장치, 마이크 및 스피커 등을 포함한다.
자율 주행 차량(101)의 기능 중 일부 또는 전부는 특히 자율 주행 모드에서 작동될 경우에 자율 주행 시스템(110)에 의해 제어되거나 관리될 수 있다. 자율 주행 시스템(110)은 필요한 하드웨어(예를 들어, 프로세서, 메모리, 저장 장치) 및 소프트웨어(예를 들어, 운영 체제, 계획 및 라우팅 프로그램)을 포함하여, 센서 시스템(115), 제어 시스템(111), 무선 통신 시스템(112) 및/또는 사용자 인터페이스 시스템(113)으로부터 정보를 수신하고, 수신되는 정보를 처리하며, 시작점으로부터 목적지까지의 노선 또는 경로를 계획하고, 다음 계획 및 제어 정보에 기반하여 차량(101)을 주행한다. 대체 가능하게, 자율 주행 시스템(110)은 차량 제어 시스템(111)과 통합될 수 있다.
예를 들어, 승객으로서의 사용자는 예를 들어 사용자 인터페이스를 통해 여정의 시작 위치 및 목적지를 지정할 수 있다. 자율 주행 시스템(110)은 여정 관련 데이터를 얻는다. 예를 들어, 자율 주행 시스템(110)은 MPOI서버에서 위치 및 노선 데이터를 획득할 수 있고, MPOI서버는 서버(103 내지 104)의 일부일 수 있다. 위치 서버는 위치 서비스를 제공하고, MPOI서버는 지도 서비스 및 일부 위치의 POI를 제공한다. 대체 가능하게, 해당 위치 및 MPOI정보는 자율 주행 시스템(110)의 영구 저장 장치에 로컬로 캐시될 수 있다.
자율 주행 차량(101)이 노선을 따라 이동할 경우, 자율 주행 시스템(110)은 교통 정보 시스템 또는 서버(TIS)로부터 실시간 교통 정보를 획득할 수 있다. 유의해야 할 것은, 서버(103 내지 104)는 제3 자의 엔티티에 의해 작동될 수 있다. 대체 가능하게, 서버(103 내지 104)의 기능은 자율 주행 시스템(110)과 통합될 수 있다. 실시간 교통 정보, MPOI 정보 및 위치 정보 및 센서 시스템(115)에 의해 감지되거나 센싱된 실시간 로컬 환경 데이터(예를 들어, 장애물, 객체, 부근 차량)에 기반하여, 자율 주행 시스템(110)은 가장 바람직한 노선을 계획할 수 있고 계획한 노선에 따라 예를 들어 제어 시스템(111)을 통해 차량(101)을 주행하여, 지정된 목적지에 안전하고 효과적으로 도달한다.
서버(103)는 데이터 분석 시스템일 수 있고, 이로써 다양한 클라이언트를 위해 데이터 분석 서비스를 수행한다. 일 실시형태에서, 서버(103)는 데이터 컬렉터(121) 및 기계 학습 엔진(122)을 포함한다. 데이터 컬렉터(121)는 다양한 차량(자율 주행 차량 또는 인간 운전자가 주행하는 일반 차량)으로부터 주행 통계 데이터(123)를 수집한다. 주행 통계 데이터(123)는 전송된 주행 명령(예를 들어, 스로틀, 브레이크, 전향 명령)을 지시하고 차량의 센서에 의해 상이한 시간점에서 캡처되는 차량의 응답(예를 들어, 속도, 가속, 감속, 방향)을 지시하는 정보를 포함한다. 주행 통계 데이터(123)는 상이한 시간점에서 주행 환경을 설명하는 정보를 더 포함하고, 예를 들어, 노선(시작 위치 및 목적지 위치를 포함함), MPOI, 도로 상황, 날씨 상황 등이다.
주행 통계 데이터(123)에 기반하고, 다양한 목적에서 출발하여, 기계 학습 엔진(122)은 한 그룹의 규칙, 알고리즘 및/또는 예측 모델(124)을 생성 또는 트레이팅한다. 다음, 알고리즘 및/또는 예측 모델 (124)을 자율 주행 차량에 업로드하여, 자율 주행 과정에서 실시간으로 사용할 수 있도록 한다.
도 3a 및 도 3b는 일 실시형태에 따른 자율 주행 차량과 함께 사용되는 자율 주행 시스템의 예시를 도시한 블록도이다. 시스템(300)은 도 1의 자율 주행 차량(101)의 일부로 구현될 수 있고, 자율 주행 시스템(110), 제어 시스템(111) 및 센서 시스템(115)을 포함하나 이에 한정되는 것은 아니다. 도 3a 내지 도 3b를 참조하면, 자율 주행 시스템(110)은 측위 모듈(301), 감지 모듈(302), 예측 모듈(303), 결정 모듈(304), 계획 모듈(305), 제어 모듈(306), 라우팅 모듈(307)을 포함하나 이에 한정되는 것은 아니다.
모듈(301 내지 307) 중의 일부 또는 전부는 소프트웨어, 하드웨어 또는 이들의 조합으로 구현될 수 있다. 예를 들어, 이러한 모듈은 영구 저장 장치(352)에 실장될 수 있고, 메모리(351)에 로딩되며, 하나 이상의 프로세서(미도시)를 통해 실행된다. 유의해야 할 것은, 이러한 모듈 중의 일부 또는 전부는 도 2의 차량 제어 시스템(111)의 일부 또는 전부 모듈에 통신적으로 연결되거나 이들과 통합될 수 있다. 모듈(301 내지 307) 중의 일부는 통합 모듈로 통합될 수 있다.
측위 모듈(301)은 자율 주행 차량(300)의 현재 위치(예를 들어, GPS 유닛(212)을 이용함)를 결정하고 사용자의 여정 또는 노선과 관련되는 임의의 데이터를 관리한다. 측위 모듈(301)(지도 및 노선 모듈이라고도 함)은 사용자의 여정 또는 노선과 관련되는 임의의 데이터를 관리한다. 사용자는 예를 들어 사용자 인터페이스를 통해 로그인하고 여정의 시작 위치 및 목적지를 지정할 수 있다. 측위 모듈(301)은 자율 주행 차량(300)의 지도 및 노선 데이터(311)와 같은 다른 부재와 통신하여, 여정 관련 데이터를 획득한다. 예를 들어, 측위 모듈(301)은 위치 서버 및 지도와 POI(MPOI)서버로부터 위치 및 노선 데이터를 획득할 수 있다. 위치 서버는 위치 서비스를 제공하고, MPOI서버는 지도 서비스 및 일부 위치의 POI를 제공하며, 이로써 지도 및 노선 데이터(311)의 일부로서 캐시될 수 있다. 자율 주행 차량(300)이 노선을 따라 이동할 경우, 측위 모듈(301)은 교통 정보 시스템 또는 서버로부터 실시간 교통 정보를 획득할 수도 있다.
센서 시스템(115)에서 제공되는 센서 데이터 및 측위 모듈(301)에 의해 획득되는 위치 결정 정보에 기반하여, 감지 모듈(302)은 주위 환경의 감지를 결정한다. 감지 정보는 일반 운전자가 운전하고 있는 차량 주위에서 감지되는 물건을 나타낼 수 있다. 감지는 예를 들어 객체 형태로 사용되는 차선 구성, 교통 신호등, 다른 차량의 상대적 위치, 보행자, 건축물, 횡단 보도 또는 다른 교통 관련 표지(예를 들어, 정지 표지, 양보 표지)등을 포함할 수 있다. 차선 구성은 차선의 형상(예를 들어, 직선 또는 굴곡), 차선의 폭, 도로 중의 차선 개수, 일방통행 또는 양방향 통행 차선, 병합 또는 분리 차선, 출구 차선과 같은 하나 이상의 차선을 설명하는 정보를 포함한다.
감지 모듈(302)은 하나 이상의 카메라에 의해 수집되는 이미지를 처리하고 분석하여, 자율 주행 차량 환경 중의 객체 및/또는 특징을 인식하는 컴퓨터 비전 시스템 또는 컴퓨터 비전 시스템의 기능을 포함할 수 있다. 객체는 교통 신호, 도로 경계, 다른 차량, 보행자 및/또는 장애물 등을 포함할 수 있다. 컴퓨터 비전 시스템은 객체 인식 알고리즘, 비디오 추적 및 다른 컴퓨터 비전 기술을 사용할 수 있다. 일부 실시형태에서, 컴퓨터 비전 시스템은 환경을 매핑하고, 객체를 추적하며, 객체의 속도를 추정할 수 있다. 감지 모듈(302)은 레이더 및/또는 라이다와 같은 다른 센서에서 제공되는 다른 센서 데이터에 기반하여 객체를 감지할 수 있다.
감지 모듈(302)은 긴급 차량 검출 모듈(308)을 포함할 수 있고, 긴급 차량 검출 모듈(308)은 오디오 데이터 및 시각적 데이터 양자를 사용하여 자율 주행 차량의 주위 환경에 존재하는 긴급 차량을 감지할 수 있다.
각각의 객체에 있어서, 예측 모듈(303)은 이러한 경우에 객체의 표현 방법을 예측한다. 예측은 감지 데이터에 기반하여 수행되는 것으로, 상기 감지 데이터는 한 그룹의 지도/노선 데이터(311) 및 교통 규칙(312)의 시간점을 고려하여 주행 환경을 감지한다. 예를 들어, 객체가 반대 방향의 차량이고 현재 주행 환경에 사거리가 포함되면, 예측 모듈(303)은 차량이 앞으로 직진하여 이동하거나 회전할지 여부를 예측한다. 감지 데이터가 사거리에 교통 신호등이 없는 것을 나타내면, 예측 모듈(303)은 차량이 사거리에 진입하기 전에 완전히 멈출 필요가 있는 것을 예측할 수 있다. 감지 데이터가 차량이 현재 좌회전 또는 우회전을 위한 유일한 차선에 있는 것을 나타내면, 예측 모듈(303)은 차량이 각각 좌회전 또는 우회전할 가능성이 더 높을 것으로 예측할 수 있다.
각각의 객체에 있어서, 결정 모듈(304)은 객체를 처리하는 방법에 관한 결정을 내린다. 예를 들어, 특정 객체(예를 들어, 교차 노선 중의 다른 차량) 및 객체를 설명하는 메타데이터(예를 들어, 속도, 방향, 회전 각도)에 있어서, 결정 모듈(304)은 상기 객체와 마주치는 방법을(예를 들어, 추월, 양보, 정지, 초과) 결정한다. 결정 모듈(304)은 교통 규칙 또는 주행 규칙(312)과 같은 규칙 세트에 따라 해당 결정을 내릴 수 있고, 상기 규칙 세트는 영구 저장 장치(352)에 저장될 수 있다. 영구 저장 장치(352)에 요약표(313)가 더 포함되어도 된다.
라우팅 모듈(307)은 시작점으로부터 목적지까지의 하나 이상의 노선 또는 경로를 제공하는 것으로 구성된다. 시작 위치로부터 목적지 위치까지의 주어진 여정에 있어서, 예를 들어 사용자가 수신한 주어진 여정으로부터, 라우팅 모듈(307)은 노선 및 지도 데이터(311)를 획득하고, 시작 위치로부터 목적지 위치까지 도달하는 모든 가능한 노선 또는 경로를 결정한다. 라우팅 모듈(307)은 지형도 형태의 기준선을 생성할 수 있고, 이는 시작 위치로부터 목적지 위치까지 도달하는 각각의 노선을 결정한다. 기준선은 예를 들어 다른 차량, 장애물 또는 교통 상황의 임의의 간섭을 받지 않는 이상적 노선 또는 경로를 가리킨다. 즉, 도로에 다른 차량, 보행자 또는 장애물이 없다면, 자율 주행 차량은 정확하게 또는 밀접하게 기준선을 따라가야 한다. 다음, 지형도를 결정 모듈(304) 및/또는 계획 모듈(305)에 제공한다. 결정 모듈(304) 및/또는 계획 모듈(305)은 모든 가능한 노선을 검사하고, 다른 모듈에 의해 제공되는 다른 데이터에 따라 가장 바람직한 노선 중의 하나를 선택하고 변경하며, 여기서 다른 데이터는 예를 들어 측위 모듈(301)로부터의 교통 상황, 감지 모듈(302)에 의해 감지되는 주행 환경 및 예측 모듈(303)에 의해 예측되는 교통 상황이다. 시간점에 따른 특정 주행 환경에 있어서, 제어 자율 주행 차량을 제어하기 위한 실제 경로 또는 노선은 라우팅 모듈(307)에 의해 제공되는 기준선에 근접하거나 상이할 수 있다.
감지되는 객체 중의 각각의 결정에 기반하여, 계획 모듈(305)은 라우팅 모듈(307)에 의해 제공되는 기준선을 기초로 사용하여, 자율 주행 차량을 위해 경로 또는 노선 또는 궤적, 및 주행 파라미터(예를 들어, 거리, 속도 및/또는 회전 각도)를 계획한다. 다시 말해서, 주어진 객체에 있어서, 결정 모듈(304)은 상기 객체에 대해 무엇을 할 것인지 결정하고, 계획 모듈(305)은 어떻게 할 것인지 결정한다. 예를 들어, 주어진 객체에 있어서, 결정 모듈(304)은 상기 객체를 초과하도록 결정할 수 있고, 계획 모듈(305)은 상기 객체의 좌측 또는 우측에서 초과할 것인지 여부를 결정할 수 있다. 계획 및 제어 데이터는 계획 모듈(305)에 의해 생성되고, 차량(300)이 다음 이동 주기(예를 들어, 다음 노선/경로 구간)에서 이동하는 방법을 설명하는 정보를 포함한다. 예를 들어, 계획 및 제어 데이터는 차량(300)이 시속 30 마일(mph)의 속도로 10 미터 이동하고, 다음 시속 25 마일(mph)의 속도로 우측 차선으로 변경하도록 지시할 수 있다.
계획 및 제어 데이터에 기반하여, 제어 모듈(306)은 계획 및 제어 데이터에 의해 한정되는 궤적(노선 또는 경로라고도 함)에 따라, 적절한 명령 또는 신호를 CAN 버스 모듈(321)을 통해 차량 제어 시스템(111)에 전송함으로써 자율 주행 차량을 제어 및 운전한다. 계획 및 제어 데이터는 경로 또는 노선을 따라 상이한 시간점에서 적절한 차량 설정 또는 주행 파라미터(예를 들어, 스로틀, 브레이크, 전향 명령)를 사용하여 차량을 노선 또는 경로의 제1 지점으로부터 제2 지점까지 운전하기에 충족한 정보를 포함한다.
일 실시형태에서, 계획 단계는 복수의 계획 주기(주행 주기라고도 함)에서 수행되고, 예를 들어, 각각의 시간 간격이 100밀리 초(ms)인 주기에서 수행된다. 계획 주기 또는 주행 주기 중의 각각에 있어서, 계획 및 제어 데이터에 기반하여 하나 이상의 제어 명령을 전송한다. 즉, 100 ms마다, 계획 모듈(305)은 타깃 위치 및 자율 주행 차량이 타깃 위치에 도달하는데 수요되는 시간을 포함하는 다음 노선 구간 또는 경로 구간을 계획한다. 대체 가능하게, 계획 모듈(305)은 구체적인 속도, 방향 및/또는 전향각 등을 규정할 수 있다. 일 실시형태에서, 계획 모듈(305)은 다음 기설정된 기간(예를 들어, 5초)을 위해 노선 구간 또는 경로 구간을 계획한다. 각각의 계획 주기에 있어서, 계획 모듈(305)은 이전 주기에서 계획한 타깃 위치에 기반하여 현재 주기(예를 들어, 다음 5초)에 사용되는 타깃 위치를 계획한다. 다음, 제어 모듈(306)은 현재 주기의 계획 및 제어 데이터에 기반하여 하나 이상의 제어 명령(예를 들어, 스로틀, 브레이크, 스티어링 제어 명령)을 생성한다.
유의해야 할 것은, 결정 모듈(304) 및 계획 모듈(305)은 통합 모듈로 통합될 수 있다. 결정 모듈(304)/계획 모듈(305)은 자율 주행 차량의 주행 경로를 결정하는 내비게이션 시스템 또는 내비게이션 시스템의 기능을 포함할 수 있다. 예를 들어, 내비게이션 시스템은 최종 목적지로 이어지는 차선 기반 경로를 따라 자율 주행 차량이 전진하면서, 감지되는 장애물을 기본적으로 피하도록 하는 경로를 따라 자율 주행 차량의 이동에 영향을 미치는 일련의 속도 및 전진 방향을 결정할 수 있다. 목적지는 사용자 인터페이스 시스템(113)에 의한 사용자 입력에 따라 설정될 수 있다. 내비게이션 시스템은 자율 주행 차량이 운전되는 동시에 주행 경로를 동적으로 업데이트할 수 있다. 내비게이션 시스템은 GPS 시스템 및 하나 이상의 지도로부터의 데이터를 병합하여, 자율 주행 차량(101)에 사용되는 주행 경로를 결정할 수 있다.
긴급 차량 감지
도 4는 일 실시형태에 따른 긴급 차량 감지 시스템(400)의 예시를 도시한다. 긴급 차량 검출 모듈(308)은 특징 레벨에서 오디오 데이터 및 시각적 데이터를 융합할 수 있다. 긴급 차량 검출 모듈(308)은 오디오 서브 모듈(407) 및 시각적 서브 모듈(409)을 포함한다.
오디오 서브 모듈(407)은 자율 주행 차량(101)에 장착되는 오디오 센서(403)에 의해 자율 주행 차량의 주위 환경에서 캡처된 오디오 데이터(404)를 수신할 수 있고, 오디오 데이터에서 오디오 특징 벡터(411)를 추출한다. 시각적 서브 모듈(409)은 시각적 센서(405)에 의해 캡처된 시각적 데이터(406)를 수신할 수 있고, 트레이닝된 신경 네트워크 모델(예를 들어, 콘볼루션 네트워크(CNN))를 캡처된 시각적 데이터에 응용하여 시각적 특징 벡터(417)를 추출한다. 오디오 특징 벡터(411) 및 시각적 특징 벡터(417)는 오디오-시각적 특징 벡터(410)로 연결될 수 있으며, 오디오-시각적 특징 벡터(410)는 다층 퍼셉트론(MLP)(419)에 입력으로서 피드백될 수 있다.
일 실시형태에서, 오디오 센서(403)(오디오 캡처 장치라고도 함)는 자율 주행 차량(101)의 상이한 위치에 장착되는 복수의 마이크를 포함할 수 있다. 마이크는 자율 주행 차량에서 고정되고 위치가 알려진 마이크 어레이를 형성할 수 있고, 마이크 어레이는 자율 주행 차량(101) 주위에서 상이한 방향의 소리를 센싱하기 위해 배치된다. 시각적 센서 또는 이미지 센서(405)(이미지 캡처 장치라고도 함)는 자율 주행 차량(101)의 상이한 위치에 장착되는 복수의 카메라를 포함할 수 있다. 오디오 센서(403) 및 시각적 센서(405)는 동기화된 동일 객체(예를 들어, 긴급 차량 )로부터 오디오 신호 및 이미지를 캡처할 수 있도록 보정될 수 있다. 따라서, 지정된 임의의 주행 주기에서, 주위 환경으로부터 캡처된 오디오 신호 스트림 및 주위 환경으로부터 캡처된 이미지 프레임 시퀀스를 동기화할 수 있다.
일 실시형태에서, 오디오 서브 모듈(407)은 하나 이상의 기설정된 알고리즘 또는 하나 이상의 신경 네트워크 모델을 구현하는 소프트웨어 모듈일 수 있다. 시각적 서브 모듈(409)은 트레이닝된 신경 네트워크 모델(예를 들어, 콘볼루션 네트워크(CNN))일 수 있다.
일 실시형태에서, 오디오 서브 모듈(407)은 주위 환경로부터 캡처된 오디오 신호 스트림을 수치(즉, 수치 어레이)로 변환하여 나타낼 수 있다. 다음, 오디오 서브 모듈(407)은 수치 어레이를 복수의 블록으로 분할하여 이미지 프레임 시퀀스 중의 이미지 프레임의 개수와 매칭할 수 있다. 수치 어레이의 블록에서 상이한 추상화 레벌의 특징을 추출하여 오디오 특징 벡터(411)를 형성할 수 있다. 도 5에서는 수치 어레이에서 특징을 추출하는 세부 사항을 논의한다.
일 실시형태에서, 시각적 서브 모듈(409)은 긴급 차량을 인식하기 위해 트레이닝된 CNN모델을 사용하여 시각적 특징을 추출한다. 이미지 프레임 시퀀스에 의해 나타나는 시각적 데이터는 트레이닝된 CNN에 입력으로서 피드백될 수 있다. 각각의 이미지 프레임은 CNN을 통해 앞으로 전파될 수 있다. 그러나, 이미지 프레임이 CNN의 각각의 계층을 통해 앞으로 전파되어 출력 계층에 도달하도록 허용하는 대신, CNN은 미리 지정되는 계층(예를 들어, 활성화 또는 응집 계층)에서 전파를 멈추고, 미리 지정되는 계층에서 값을 추출하여 시각적 특징 벡터(417)로 사용할 수 있다.
CNN은 자율 주행 차량이 현재 주행 중인 특정 도로 구간을 주행하는 복수의 긴급 차량에서 수집되거나 상이한 도로 구간을 주행하는 긴급 차량에서 수집된 시각적 데이터를 사용하여 트레이닝을 수행할 수 있다.
일 실시형태에서, 긴급 차량 검출 모듈(308)은 오디오 특징 벡터(411) 및 시각적 특징 벡터(417)를 오디오-시각적 특징 벡터(410)로 연결할 수 있다. 2개의 특징 벡터(411, 417)를 연결하는 과정은 오디오 데이터와 시각적 데이터의 특징 레벨 융합을 수행하는 과정이다. 일 실시형태에서, 2개의 특징 벡터(411, 417)는 단일 벡터로 직접 연결될 수 있고 임의의 보정을 수행할 필요가 없다. 이러한 방법을 통해, 각각의 블록으로부터의 오디오 특징은 대응되는 이미지 프레임으로부터의 시각적 특징과 연결될 수 있다. 다른 실시형태에서, 가중 특징 레벨 융합 방법을 사용하였고, 가중 인자에 따라 각각의 특징 벡터(411, 417)에서 특징을 선택할 수 있다. 가중 인자는 경험에 의해 결정되는 신호 대 잡음비일 수 있고, 상이한 날씨 조건에서 하루 중의 상이한 시간에 특정 도로 구간 소음 레벨 측정에 사용될 수 있다. 상기 비율은 자율 주행 차량(101)에 의해 자율 주행 차량(101)이 도로 구간에서 주행할 경우의 시간 및 날씨에 기반하여 자동적으로 조정될 수 있다. 일 실시형태에서, 주위 환경이 소란할수록, 더 많은 오디오 특징을 선택하여 오디오 데이터로부터의 낮은 품질의 정보를 보상할 필요가 있다. 다른 방법은 트레이닝된 신경 네트워크를 통해 이 2개의 특징 벡터(411, 417)를 융합하는 것이고, 상기 신경 네트워크는 오디오 특징 벡터(411) 및 시각적 특징 벡터(417)에서 어떤 특징을 획득하여 연결된 오디오-시각적 특징 벡터(410)를 형성할 지를 결정할 수 있다.
도 4에서 더 도시된 바와 같이, MLP(419)는 연결된 오디오-시각적 특징 벡터(410)를 입력으로 하여, 주위 환경 중 긴급 차량이 존재하는 가능성을 표시하는 확률(421), 긴급 차량의 위치(423) 및 긴급 차량의 이동 방향(425)을 출력한다.
일 실시형태에서, MLP(419)는 입력층과 출력층 사이에 하나 이상의 계층을 구비하는 피드 포워드 신경 네트워크일 수 있다. MLP(419)에서, 데이터는 하나의 방향을 따라 입력층에서 출력층으로 흐른다. MLP(419)는 역전파 학습 알고리즘을 사용하여 트레이닝할 수 있고, 상기 역전파 학습 알고리즘은 오디오 데이터 및 시각적 데이터에서 추출되는 연결된 오디오 -시각적 특징을 사용하며, 상기 오디오 데이터 및 시각적 데이터는 상기 특정 도로 구간에서 주행하거나 임의의 도로 구간에서 주행하는 복수의 긴급 차량에 의해 수집된 것이다.
일 실시형태에서, 긴급 차량의 위치(423)는 긴급 차량의 방향 및 긴급 차량에서 자율 주행 차량(101)까지의 거리를 통해 측정된다. 긴급 차량의 방향은 자율 주행 차량(101)을 나타내는 선과 자율 주행 차량(101)에서 긴급 차량까지 연장되는 선 사이의 각도로 나타낼 수 있다. 자율 주행 차량(101)을 나타내는 선은 자율 주행 차량(101)의 주행 방향을 따라 자율 주행 차량(101)을 통과하는 선일 수 있다. 긴급 차량의 이동 방향(425)은 긴급 차량이 자율 주행 차량(101)을 향해 이동하는 것인지 자율 주행 차량(101)에서 멀어지는 것인지 가리킨다.
일 실시형태에서, 긴급 차량 검출 모듈(308)로부터의 출력 정보는 자율 주행 시스템(110)에 의해 CAN버스 모듈(321)을 통해 차량 제어 시스템(111)에 전송되는 명령 또는 신호를 생성하는데 사용될 수 있다. 상기 명령 또는 신호에 기반하여, 차량 제어 시스템(111)은 자율 주행 차량(101)이 적절한 조치를 취하도록 제어할 수 있다.
일 실시형태에서, 긴급 차량이 자율 주행 차량(101)을 향해 이동하는 것으로 결정된 것에 응답하여, 자율 주행 차량(101)은 현재 주행 차선으로부터 유도하거나 브레이크를 감속시키거나 도로변으로 가이드할 수 있다. 만약 긴급 차량이 자율 주행 차량(101)에서 멀어지면, 자율 주행 차량(101)은 간섭을 받지 않고 계속하여 현재 경로를 따라 주행할 수 있다.
도 5는 일 실시형태에 따른 긴급 차량 감지 시스템(400)을 더 도시한다. 더 구체적으로, 도 5는 오디오 서브 모듈(407)을 상세하게 도시한다.
일 실시형태에서, 오디오 서브 모듈(407)은 상이한 레벨의 오디오 특징을 추출하기 위한 복수의 기계 학습 모델을 포함할 수 있다. 신경 네트워크 모델(예를 들어, CNN)(503)은 오디오 센서(403)에 의해 캡처된 원시 오디오 데이터에서 오디오 신호(509)를 추출할 수 있다. 상술한 바와 같이, 오디오 센서(403)에 의해 캡처된 오디오 신호 스트림은 수치 어레이로 변환될 수 있고, 다음 시각적 센서(405)에 의해 캡처된 이미지 프레임 시퀀스 중의 이미지 프레임 개수와 동일한 블록(창구)으로 분할된다. 추출된 오디오 신호(509)는 특징(예를 들어, 오디오 신호의 각각의 창구(블록)의 주파수, 진폭 및 문구)을 포함하는 벡터일 수 있다.
일 실시형태에서, 멜 주파수 캡스트럼 계수(MFCC) 특징 추출기(505)는 오디오 센서(403)에 의해 캡처된 원시 오디오 데이터에서 MFCC 특징(511)을 추출할 수 있다. MFCC는 Mel 주파수 캡스트럼(MFC)을 공동으로 구성하는 계수이고, MFC는 소리의 단기 전력 스펙트럼을 내타내며, 이는 주파수의 비선형 Mel 눈금의 로그 전력 스펙트럼의 선형 코사인 변환을 기반으로 한다. 추출된 MFCC 특징(511)은 특징 벡터이다.
MFCC 특징 추출기(505)는 트레이닝된 신경 네트워크 모델 또는 MFCC 추출 알고리즘을 구현하는 소프트웨어 애플리케이션일 수 있다. 일 실시형태에서, 상기 알고리즘은 오디오 데이터에서 MFCC 특징을 추출하는 동작을 수행할 수 있는바, 상기 동작은 오디오 데이터에서 오디오 신호에 대해 윈도잉하고, 이산 푸리에 변환(DFT)을 적용하며, 진폭 로그를 취한 다음 Mel 눈금에서 주파수를 변환시키고, 이어서 역 DCT를 적용하는 것을 포함한다.
Mel 스펙트로그램 추출기(507)는 오디오 센서(403)에 의해 캡처된 원시 오디오 데이터에서 Mel 스펙트로그램 특징(515)을 추출할 수 있다. Mel 스펙트로그램은 주파수를 Mel 눈금으로 변환시킨 스펙트로그램이다. 스펙트로그램은 신호 주파수가 시간에 따라 변화되는 주파수 스펙트럼을 직관적으로 표현한 것이다. Mel 스펙트로그램 추출기(507)는 트레이닝된 신경 네트워크 모델 또는 Mel 스펙트로그램 특징 추출 알고리즘을 구현하는 소프트웨어 애플리케이션일 수 있다. 추출된 Mel 스펙트럼 특징(511)은 특징 벡터일 수 있다.
일 실시형태에서, 오디오 신호 특징 벡터(509), MFCC 특징 벡터(511) 및 Mel 스펙트로그램 특징 벡터(515)는 연결되어 오디오 특징 벡터(411)를 형성할 수 있고, 오디오 특징 벡터(411)는 나아가 시각적 특징 벡터(417)와 연결되어 오디오-시각적 특징 벡터(410)를 형성한다.
일 실시형태에서, 3개의 특징 벡터(509, 511, 515)는 프레임/블록 레벨에서 동기화되고, 이러한 벡터의 연결은 특징 벡터를 단일 특징 벡터로 간단하게 조합하는 것을 통해 수행될 수 있다.
도 6은 일 실시형태에 따른 긴급 차량을 감지하는 과정(600)을 도시한다. 과정(600)은 소프트웨어, 하드웨어 또는 이들의 조합을 포함하는 프로세싱 로직에 의해 수행될 수 있다. 예를 들어, 과정(600)은 도 4에서 설명되는 자율 주행 시스템에 의해 수행될 수 있다.
도 6에 도시된 바와 같이, 동작(601)에서, 프로세싱 로직은 오디오 신호 스트림 및 이미지 프레임 시퀀스를 수신하고, 오디오 신호 스트림은 자율 주행 차량에 장착되는 하나 이상의 오디오 캡처 장치를 사용하여 자율 주행 차량의 주위 환경에서 캡처된 것이고, 이미지 프레임 시퀀스는 자율 주행 차량에 장착되는 하나 이상의 이미지 캡처 장치를 사용하여 주위 환경에서 캡처된 것이다. 동작(602)에서, 프로세싱 로직은 캡처된 오디오 신호 스트림에서 제1 특징 벡터를 추출하고, 캡처된 이미지 프레임 시퀀스에서 제2 특징 벡터를 추출한다. 동작(603)에서, 프로세싱 로직은 제1 특징 벡터 및 제2 벡터를 연결하여 연결 특징 벡터(concatenated feature vector)를 구축한다. 동작(604)에서, 프로세싱 로직은 연결 특징 벡터를 기반으로, 제1 신경 네트워크 모델을 사용하여 자율 주행 차량의 주위 환경 중 긴급 차량의 존재를 결정한다.
상술한 설명에서 도시되고 설명된 부재 중 일부 또는 전부는 소프트웨어, 하드웨어 또는 이들의 조합에서 구현될 수 있음에 유의해야 한다. 예를 들어, 해당 부재는 영구 저장 장치 중의 소프트웨어에 실장 및 저장되도록 구현될 수 있으며, 상기 소프트웨어는 프로세서(미도시)를 통해 메모리에 로딩되고 메모리에서 실행되어 본 발명에 따른 과정 또는 동작을 구현할 수 있다. 대체 가능하게, 해당 부재는 전용 하드웨어(예를 들어, 집적 회로(예를 들어, 전용 집적 회로 또는 ASIC), 디지털 신호 프로세서(DSP) 또는 필드 프로그래머블 게이트 어레이(FPGA))에 프로그래밍 또는 임베디드되는 실행 가능 코드로 구현될 수 있으며, 상기 실행 가능 코드는 애플리케이션으로부터의 대응되는 구동 순서 및/또는 운영 체제에 의해 액세스될 수 있다. 이밖에, 해당 부재는 하나 또는 복수의 특정 명령을 통해 소프트웨어 부재에 의해 액세스 가능한 명령 세트의 일부로서 프로세서 또는 프로세서 코어에서 특정 하드웨어 로직으로 구현될 수 있다.
전술한 상세한 설명 중 일부는 컴퓨터 메모리 내 데이터 비트에 대한 연산의 알고리즘 및 부호 표현에 따라 나타난다. 이러한 알고리즘의 설명과 표현은 데이터 처리 분야의 기술자가 이들의 작업 내용을 본 분야의 다른 기술자에게 가장 효과적으로 전달하기 위해 사용되는 방식이다. 본문에서, 알고리즘은 통상적으로 기대하는 결과로 이어지는 일관된 동작 시퀀스인 것으로 간주된다. 이러한 동작은 물리량에 대한 물리적 제어가 필요한 동작을 가리킨다.
그러나 모든 이러한 유사한 용어는 적절한 물리량과 관련되도록 의도된 것이며, 단지 이러한 양에 적용되기 위한 간편한 표기일 뿐이다. 이상 논의에서 달리 명시되지 않는 한, 명세서 전체에서, 용어(청구범위에 기술된 용어와 같음)를 이용하여 수행된 논의는 컴퓨터 시스템 또는 유사한 전자 컴퓨팅 장치의 동작 및 프로세싱을 가리키는 것으로 이해해야 하며, 상기 컴퓨터 시스템 또는 전자 컴퓨팅 장치는 컴퓨터 시스템의 레지스터 및 메모리 내의 물리(전자)량으로 표현되는 데이터를 제어하고, 상기 데이터를 컴퓨터 시스템 메모리 또는 레지스터 또는 다른 유형의 정보 저장 장치, 전송 또는 디스플레이 장치에서 물리량으로 유사하게 표현되는 다른 데이터로 변환시킨다.
본 발명의 실시형태는 또한 본문에서의 동작을 수행하기 위한 기기에 관한 것이다. 이러한 컴퓨터 프로그램은 비일시적 컴퓨터 판독 가능 매체에 저장된다. 기계 판독 가능 매체는 기계(예를 들어, 컴퓨터)에 의해 판독 가능한 형태로 정보를 저장하기 위한 임의의 메커니즘을 포함한다. 예를 들어, 기계 판독 가능(예를 들어, 컴퓨터 판독 가능) 매체는 기계(예를 들어, 컴퓨터) 판독 가능 저장 매체(예를 들어, 판독 전용 메모리(“”랜덤 액세스 메모리(“RAM”자기 디스크 저장 매체, 광 저장 매체, 플래시 메모리 장치)를 포함한다.
전술한 도면에 도시된 과정 또는 방법은 하드웨어(예를 들어, 회로, 전용 로직 등), 소프트웨어(예를 들어, 비일시적 컴퓨터 판독 가능 매체에서 구현 됨) 또는 이들의 조합을 포함하는 처리 로직에 의해 수행될 수 있다. 상기 과정 또는 방법이 일부 순차적 동작에 의해 설명되었지만, 상기 동작 중 일부는 상이한 순서에 따라 수행될 수 있음을 이해해야 한다. 이밖에, 일부 동작은 순차적이 아니라 병렬로 수행될 수 있다.
본 발명의 실시형태는 임의의 특정 프로그래밍 언어를 참조하여 설명된 것이 아니다. 다양한 프로그래밍 언어를 사용하여 본문에 기술된 바와 같이 본 발명의 실시형태의 교시를 구현할 수 있음을 이해해야 한다.
상기 명세서에서, 본 발명의 구체적인 예시적 실시형태를 참조하여 본 발명의 실시형태를 설명한다. 청구범위에 기술된 본 발명의 보다 광범위한 사상 및 범위를 벗어나지 않으면서 본 발명에 대한 다양한 수정이 이루어질 수 있음은 명백할 것이다. 따라서, 본 명세서와 도면은 한정적 의미가 아닌 설명적 의미로 이해되어야 한다.

Claims (23)

  1. 컴퓨터로 구현되는 자율 주행 차량의 작동 방법으로서,
    상기 자율 주행 차량의 자율 주행 시스템에서 오디오 신호 스트림 및 이미지 프레임 시퀀스를 수신하는 단계 - 상기 오디오 신호 스트림은 상기 자율 주행 차량에 장착되는 하나 이상의 오디오 캡처 장치에 의해 상기 자율 주행 차량의 주위 환경에서 캡처된 것이고, 상기 이미지 프레임 시퀀스는 상기 자율 주행 차량에 장착되는 하나 이상의 이미지 캡처 장치를 사용하여 상기 자율 주행 차량의 주위 환경에서 캡처된 것임 - ;
    상기 자율 주행 시스템이 캡처된 오디오 신호 스트림에서 제1 특징 벡터를 추출하고, 캡처된 이미지 프레임 시퀀스에서 제2 특징 벡터를 추출하는 단계;
    상기 자율 주행 시스템이 상기 제1 특징 벡터와 상기 제2 특징 벡터를 연결하여 연결 특징 벡터를 구축하는 단계; 및
    상기 연결 특징 벡터를 기반으로, 상기 자율 주행 시스템을 통해 제1 신경 네트워크 모델을 사용하여 상기 자율 주행 차량의 주위 환경 중 긴급 차량의 존재를 결정하는 단계를 포함하는 컴퓨터로 구현되는 자율 주행 차량의 작동 방법.
  2. 제1항에 있어서,
    상기 제1 신경 네트워크 모델은 다층 퍼셉트론(MLP) 네트워크인 컴퓨터로 구현되는 자율 주행 차량의 작동 방법.
  3. 제1항에 있어서,
    상기 제1 신경 네트워크 모델을 사용하여 상기 긴급 차량의 위치 및 상기 긴급 차량의 이동 방향을 결정하는 단계를 더 포함하는 컴퓨터로 구현되는 자율 주행 차량의 작동 방법.
  4. 제3항에 있어서,
    상기 자율 주행 차량의 상기 위치를 결정한 것에 응답하여, 상기 긴급 차량의 상기 위치 및 상기 이동 방향에 기반하여 상기 자율 주행 차량을 제어하는 단계를 더 포함하고, 상기 제어는 상기 자율 주행 차량을 현재 주행 차선으로부터 유도하거나 상기 자율 주행 차량을 브레이크하여 감속시키는 중 적어도 하나를 포함하는 컴퓨터로 구현되는 자율 주행 차량의 작동 방법.
  5. 제1항에 있어서,
    상기 제1 특징 벡터를 추출하는 단계는,
    제2 신경 네트워크 모델을 사용하여 캡처된 오디오 신호 스트림에서 제3 특징 벡터를 추출하는 단계 - 상기 제3 특징 벡터는 기본 오디오 특징 벡터임 - ;
    제3 신경 네트워크 모델을 사용하여 캡처된 오디오 신호 스트림에서 제4 특징 벡터를 추출하는 단계 - 상기 제4 특징 벡터는 멜 주파수 캡스트럼 계수(MFCC)특징 벡터임 - ; 및
    상기 제3 특징 벡터와 상기 제4 특징 벡터를 단일 특징 벡터로 연결하는 단계를 포함하는 컴퓨터로 구현되는 자율 주행 차량의 작동 방법.
  6. 제5항에 있어서,
    제4 신경 네트워크 모델을 사용하여 캡처된 오디오 신호 스트림에서 제5 특징 벡터를 추출하는 단계 - 상기 제5 특징 벡터는 Mel 히스토그램 특징 벡터임 - ; 및
    상기 제3 특징 벡터, 상기 제4 특징 벡터 및 상기 제5 특징 벡터를 상기 단일 특징 벡터로 연결하는 단계를 더 포함하는 컴퓨터로 구현되는 자율 주행 차량의 작동 방법.
  7. 제1항에 있어서,
    상기 자율 주행 시스템은 콘볼루션 신경 네트워크를 사용하여 상기 제2 특징 벡터를 추출하는 컴퓨터로 구현되는 자율 주행 차량의 작동 방법.
  8. 제1항에 있어서,
    상기 하나 이상의 오디오 캡처 장치는 하나 이상의 마이크를 포함하고, 상기 하나 이상의 이미지 캡처 장치는 하나 이상의 카메라를 포함하는 컴퓨터로 구현되는 자율 주행 차량의 작동 방법.
  9. 명령어가 저장되어 있는 비일시적 기계 판독 가능 매체로서,
    상기 명령어가 프로세서에 의해 실행될 경우 상기 프로세서가 자율 주행 차량(ADV)을 작동시키는 동작을 수행하되, 상기 동작은,
    상기 자율 주행 차량의 자율 주행 시스템에서 오디오 신호 스트림 및 이미지 프레임 시퀀스를 수신하는 단계 - 상기 오디오 신호 스트림은 상기 자율 주행 차량에 장착되는 하나 이상의 오디오 캡처 장치에 의해 상기 자율 주행 차량의 주위 환경에서 캡처된 것이고, 상기 이미지 프레임 시퀀스는 상기 자율 주행 차량에 장착되는 하나 이상의 이미지 캡처 장치를 사용하여 상기 자율 주행 차량의 주위 환경에서 캡처된 것임 - ;
    상기 자율 주행 시스템이 캡처된 오디오 신호 스트림에서 제1 특징 벡터를 추출하고, 캡처된 이미지 프레임 시퀀스에서 제2 특징 벡터를 추출하는 단계;
    상기 자율 주행 시스템이 상기 제1 특징 벡터와 상기 제2 특징 벡터를 연결하여 연결 특징 벡터를 구축하는 단계; 및
    상기 연결 특징 벡터를 기반으로, 상기 자율 주행 시스템을 통해 제1 신경 네트워크 모델을 사용하여 상기 자율 주행 차량의 주위 환경 중 긴급 차량의 존재를 결정하는 단계를 포함하는 비일시적 기계 판독 가능 매체.
  10. 제9항에 있어서,
    상기 제1 신경 네트워크 모델은 다층 퍼셉트론(MLP) 네트워크인 비일시적 기계 판독 가능 매체.
  11. 제9항에 있어서,
    상기 동작은,
    상기 제1 신경 네트워크 모델을 사용하여 상기 긴급 차량의 위치 및 상기 긴급 차량의 이동 방향을 결정하는 단계를 더 포함하는 비일시적 기계 판독 가능 매체.
  12. 제11항에 있어서,
    상기 동작은,
    상기 자율 주행 차량의 상기 위치를 결정한 것에 응답하여, 상기 긴급 차량의 상기 위치 및 상기 이동 방향에 기반하여 상기 자율 주행 차량을 제어하는 단계를 더 포함하고, 상기 제어는 상기 자율 주행 차량을 현재 주행 차선으로부터 유도하거나 상기 자율 주행 차량을 브레이크하여 감속시키는 중 적어도 하나를 포함하는 비일시적 기계 판독 가능 매체.
  13. 제9항에 있어서,
    상기 제1 특징 벡터를 추출하는 단계는,
    제2 신경 네트워크 모델을 사용하여 캡처된 오디오 신호 스트림에서 제3 특징 벡터를 추출하는 단계 - 상기 제3 특징 벡터는 기본 오디오 특징 벡터임 - ;
    제3 신경 네트워크 모델을 사용하여 캡처된 오디오 신호 스트림에서 제4 특징 벡터를 추출하는 단계 - 상기 제4 특징 벡터는 멜 주파수 캡스트럼 계수(MFCC)특징 벡터임 - ; 및
    상기 제3 특징 벡터와 상기 제4 특징 벡터를 단일 특징 벡터로 연결하는 단계를 포함하는 비일시적 기계 판독 가능 매체.
  14. 제13항에 있어서,
    상기 동작은,
    제4 신경 네트워크 모델을 사용하여 캡처된 오디오 신호 스트림에서 제5 특징 벡터를 추출하는 단계 - 상기 제5 특징 벡터는 Mel 히스토그램 특징 벡터임 - ; 및
    상기 제3 특징 벡터, 상기 제4 특징 벡터 및 상기 제5 특징 벡터를 상기 단일 특징 벡터로 연결하는 단계를 더 포함하는 비일시적 기계 판독 가능 매체.
  15. 제9항에 있어서,
    상기 자율 주행 시스템은 콘볼루션 신경 네트워크를 사용하여 상기 제2 특징 벡터를 추출하는 비일시적 기계 판독 가능 매체.
  16. 제9항에 있어서,
    상기 하나 이상의 오디오 캡처 장치는 하나 이상의 마이크를 포함하고, 상기 하나 이상의 이미지 캡처 장치는 하나 이상의 카메라를 포함하는 비일시적 기계 판독 가능 매체.
  17. 데이터 처리 시스템으로서,
    프로세서; 및
    상기 프로세서와 연결되어 명령어를 저장하는 메모리를 포함하고,
    상기 명령어가 상기 프로세서에 의해 실행될 경우 상기 프로세서가 자율 주행 차량(ADV)을 작동시키는 동작을 수행하도록 하되, 상기 동작은,
    상기 자율 주행 차량의 자율 주행 시스템에서 오디오 신호 스트림 및 이미지 프레임 시퀀스를 수신하는 단계 - 상기 오디오 신호 스트림은 상기 자율 주행 차량에 장착되는 하나 이상의 오디오 캡처 장치에 의해 상기 자율 주행 차량의 주위 환경에서 캡처된 것이고, 상기 이미지 프레임 시퀀스는 상기 자율 주행 차량에 장착되는 하나 이상의 이미지 캡처 장치를 사용하여 상기 자율 주행 차량의 주위 환경에서 캡처된 것임 - ;
    상기 자율 주행 시스템이 캡처된 오디오 신호 스트림에서 제1 특징 벡터를 추출하고, 캡처된 이미지 프레임 시퀀스에서 제2 특징 벡터를 추출하는 단계;
    상기 자율 주행 시스템이 상기 제1 특징 벡터와 상기 제2 특징 벡터를 연결하여 연결 특징 벡터를 구축하는 단계; 및
    상기 연결 특징 벡터를 기반으로, 상기 자율 주행 시스템을 통해 제1 신경 네트워크 모델을 사용하여 상기 자율 주행 차량의 주위 환경 중 긴급 차량의 존재를 결정하는 단계를 포함하는 데이터 처리 시스템.
  18. 제17항에 있어서,
    상기 제1 신경 네트워크 모델은 다층 퍼셉트론 (MLP)네트워크인 데이터 처리 시스템.
  19. 제17항에 있어서,
    상기 동작은,
    상기 제1 신경 네트워크 모델을 사용하여 상기 긴급 차량의 위치 및 상기 긴급 차량의 이동 방향을 결정하는 단계를 더 포함하는 데이터 처리 시스템 .
  20. 제19항에 있어서,
    상기 동작은,
    상기 자율 주행 차량의 상기 위치를 결정한 것에 응답하여, 상기 긴급 차량의 상기 위치 및 상기 이동 방향에 기반하여 상기 자율 주행 차량을 제어하는 단계를 더 포함하고, 상기 제어는 상기 자율 주행 차량을 현재 주행 차선으로부터 유도하거나 상기 자율 주행 차량을 브레이크하여 감속시키는 중 적어도 하나를 포함하는 데이터 처리 시스템.
  21. 제17항에 있어서,
    상기 제1 특징 벡터를 추출하는 단계는,
    제2 신경 네트워크 모델을 사용하여 캡처된 오디오 신호 스트림에서 제3 특징 벡터를 추출하는 단계 - 상기 제3 특징 벡터는 기본 오디오 특징 벡터임 - ;
    제3 신경 네트워크 모델을 사용하여 캡처된 오디오 신호 스트림에서 제4 특징 벡터를 추출하는 단계 - 상기 제4 특징 벡터는 멜 주파수 캡스트럼 계수(MFCC)특징 벡터임 - ; 및
    상기 제3 특징 벡터와 상기 제4 특징 벡터를 단일 특징 벡터로 연결하는 단계를 포함하는 데이터 처리 시스템.
  22. 제21항에 있어서,
    상기 동작은,
    제4 신경 네트워크 모델을 사용하여 캡처된 오디오 신호 스트림에서 제5 특징 벡터를 추출하는 단계 - 상기 제5 특징 벡터는 Mel 히스토그램 특징 벡터임 - ; 및
    상기 제3 특징 벡터, 상기 제4 특징 벡터 및 상기 제5 특징 벡터를 상기 단일 특징 벡터로 연결하는 단계를 더 포함하는 데이터 처리 시스템.
  23. 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램으로서,
    상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우 제1항 내지 제8항 중 어느 한 항에 따른 방법을 구현하도록 하는 컴퓨터 프로그램
KR1020220005406A 2021-01-14 2022-01-13 긴급 차량 오디오 및 시각적 감지를 융합한 기계 학습 모델 KR20220058492A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/149,659 US11620903B2 (en) 2021-01-14 2021-01-14 Machine learning model to fuse emergency vehicle audio and visual detection
US17/149,659 2021-01-14

Publications (1)

Publication Number Publication Date
KR20220058492A true KR20220058492A (ko) 2022-05-09

Family

ID=78938063

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220005406A KR20220058492A (ko) 2021-01-14 2022-01-13 긴급 차량 오디오 및 시각적 감지를 융합한 기계 학습 모델

Country Status (5)

Country Link
US (1) US11620903B2 (ko)
EP (1) EP3965066B1 (ko)
JP (1) JP7340046B2 (ko)
KR (1) KR20220058492A (ko)
CN (1) CN113799789A (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11884298B2 (en) * 2020-10-23 2024-01-30 Tusimple, Inc. Safe driving operations of autonomous vehicles
US11620903B2 (en) * 2021-01-14 2023-04-04 Baidu Usa Llc Machine learning model to fuse emergency vehicle audio and visual detection
WO2022246194A1 (en) * 2021-05-21 2022-11-24 Google Llc Machine-learned language models which generate intermediate textual analysis in service of contextual text generation
US20230339394A1 (en) * 2022-04-22 2023-10-26 Velo.Ai, Inc Artificially intelligent mobility safety system

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7245767B2 (en) * 2003-08-21 2007-07-17 Hewlett-Packard Development Company, L.P. Method and apparatus for object identification, classification or verification
US20180137756A1 (en) * 2016-11-17 2018-05-17 Ford Global Technologies, Llc Detecting and responding to emergency vehicles in a roadway
US10417498B2 (en) * 2016-12-30 2019-09-17 Mitsubishi Electric Research Laboratories, Inc. Method and system for multi-modal fusion model
US10394239B2 (en) * 2017-04-04 2019-08-27 At&T Intellectual Property I, L.P. Acoustic monitoring system
US10431082B2 (en) 2017-06-19 2019-10-01 GM Global Technology Operations LLC Systems and methods for emergency vehicle response in an autonomous vehicle
US10319228B2 (en) 2017-06-27 2019-06-11 Waymo Llc Detecting and responding to sirens
US10452923B2 (en) * 2017-11-28 2019-10-22 Visual Semantics, Inc. Method and apparatus for integration of detected object identifiers and semantic scene graph networks for captured visual scene behavior estimation
US20220147602A1 (en) * 2018-03-07 2022-05-12 Private Identity Llc System and methods for implementing private identity
US20220150068A1 (en) * 2018-03-07 2022-05-12 Private Identity Llc System and methods for implementing private identity
US20220147607A1 (en) * 2018-03-07 2022-05-12 Private Identity Llc System and methods for implementing private identity
US11282385B2 (en) * 2018-04-24 2022-03-22 Qualcomm Incorproated System and method of object-based navigation
WO2020073147A1 (en) * 2018-10-08 2020-04-16 Qualcomm Incorporated Vehicle entry detection
WO2020084787A1 (en) * 2018-10-26 2020-04-30 Nec Corporation A source separation device, a method for a source separation device, and a non-transitory computer readable medium
KR102211939B1 (ko) * 2018-12-07 2021-02-04 서울대학교산학협력단 질의 응답 장치 및 방법
CN111401100B (zh) * 2018-12-28 2021-02-09 广州市百果园信息技术有限公司 视频质量评估方法、装置、设备及存储介质
US11645745B2 (en) * 2019-02-15 2023-05-09 Surgical Safety Technologies Inc. System and method for adverse event detection or severity estimation from surgical data
CN111836111A (zh) * 2019-04-17 2020-10-27 微软技术许可有限责任公司 生成弹幕的技术
US11501532B2 (en) * 2019-04-25 2022-11-15 International Business Machines Corporation Audiovisual source separation and localization using generative adversarial networks
WO2020256475A1 (ko) * 2019-06-21 2020-12-24 주식회사 머니브레인 텍스트를 이용한 발화 동영상 생성 방법 및 장치
US20220358703A1 (en) * 2019-06-21 2022-11-10 Deepbrain Ai Inc. Method and device for generating speech video on basis of machine learning
US11120566B2 (en) * 2019-06-28 2021-09-14 Baidu Usa Llc Determining vanishing points based on feature maps
US11635299B2 (en) * 2020-02-06 2023-04-25 Mitsubishi Electric Research Laboratories, Inc. Method and system for scene-aware interaction
WO2021187776A1 (en) * 2020-03-17 2021-09-23 Samsung Electronics Co., Ltd. Methods and systems for grouping of media based on similarities between features of the media
KR102437039B1 (ko) * 2020-07-02 2022-08-26 주식회사 딥브레인에이아이 영상 생성을 위한 학습 장치 및 방법
US11908468B2 (en) * 2020-09-21 2024-02-20 Amazon Technologies, Inc. Dialog management for multiple users
KR20230088381A (ko) * 2020-10-16 2023-06-19 핀드롭 시큐리티 인코포레이티드 오디오비주얼 딥페이크 검출
US20210103747A1 (en) 2020-12-17 2021-04-08 Hassnaa Moustafa Audio-visual and cooperative recognition of vehicles
US11620903B2 (en) * 2021-01-14 2023-04-04 Baidu Usa Llc Machine learning model to fuse emergency vehicle audio and visual detection

Also Published As

Publication number Publication date
CN113799789A (zh) 2021-12-17
JP2022048199A (ja) 2022-03-25
EP3965066B1 (en) 2024-01-31
JP7340046B2 (ja) 2023-09-06
EP3965066A2 (en) 2022-03-09
US11620903B2 (en) 2023-04-04
US20220223037A1 (en) 2022-07-14
EP3965066A3 (en) 2022-06-22

Similar Documents

Publication Publication Date Title
US11620903B2 (en) Machine learning model to fuse emergency vehicle audio and visual detection
US11372417B2 (en) Method for predicting exiting intersection of moving obstacles for autonomous driving vehicles
KR102607029B1 (ko) 긴급 차량의 오디오 및 시각적 검출의 사후 융합
CN112793584B (zh) 紧急车辆音频检测
JP2021147030A (ja) シナリオに基づく自動運転車両の制御
KR102359497B1 (ko) 단일 차량 동작용으로 설계된 자율 주행 시스템에 따른 차량 플래툰 구현
KR102599790B1 (ko) 자율 주행 차량을 이용하는 모델 트레이닝 및 온보드 검증을 위한 오디오 로깅
EP3998609A2 (en) Automatic audio data labelling utilizing autonomous driving vehicle
KR102597917B1 (ko) 자율 주행 차량을 위한 음원 검출 및 위치 측정
US11453404B2 (en) Gear based vehicle load inference system
US20210370941A1 (en) Precautionary slowdown speed planning
JP7229278B2 (ja) 経路計画のための二次計画法に基づき、片側に寄せる方法
US20240218911A1 (en) Brake pad wear detection and warning for autonomous driving vehicles
US20210155237A1 (en) Method for optimizing three-point turn of autonomous driving vehicles

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E601 Decision to refuse application