KR20220012962A

KR20220012962A - 자율 주행 차량을 위한 음원 검출 및 위치 측정

Info

Publication number: KR20220012962A
Application number: KR1020220005368A
Authority: KR
Inventors: 홍이 순; 케청 쑤; 치 루오; 제준 린; 웨이 왕; 웨슬리 레이놀즈; 지앙타오 후; 징하오 미아오
Original assignee: 바이두 유에스에이 엘엘씨
Priority date: 2021-01-13
Filing date: 2022-01-13
Publication date: 2022-02-04
Also published as: EP4026747A1; CN114764022A; US11430466B2; KR102597917B1; US20220223170A1; JP2022058592A

Abstract

자율 주행 차량(ADV)을 활용하는 음원 검출 및 위치측정을 위한 시스템들 및 방법들이 개시된다. 방법은 ADV 상에 탑재된 다수의 오디오 센서들로부터 오디오 데이터를 수신하는 단계를 포함한다. 오디오 데이터는 오디오 센서들에 의해 캡처되고 하나 이상의 음원들에 의해 방출되는 사운드들을 포함한다. 수신된 오디오 데이터에 기초하여, 방법은 다수의 음원 정보를 결정하는 단계를 추가로 포함한다. 각각의 음원 정보는 특정 사운드의 존재와 연관된 신뢰도 스코어를 포함한다. 방법은 데이터 표현을 생성하여, ADV의 주행 환경 내에 특정 사운드가 존재하는지 여부를 리포트하는 단계를 추가로 포함한다. 데이터 표현은 결정된 음원 정보를 포함한다. 수신된 오디오 데이터 및 생성된 데이터 표현은 ADV의 자율 주행 동안 특정 음원을 실시간으로 인식하기 위해 머신 러닝 알고리즘을 후속적으로 트레이닝시키도록 활용된다.

Description

자율 주행 차량을 위한 음원 검출 및 위치 측정{SOUND SOURCE DETECTION AND LOCALIZATION FOR AUTONOMOUS DRIVING VEHICLE}

본 개시내용의 실시예들은 일반적으로 자율 주행 차량들을 동작시키는 것에 관한 것이다. 보다 구체적으로, 본 개시내용의 실시예들은 자율 주행 차량을 위한 음원 검출 및 위치측정에 관한 것이다.

자율 모드(예컨대, 무인(driverless))에서 동작하는 차량들은 탑승자들, 특히 운전자를 몇몇 운전 관련 책임(driving-related responsibility)들로부터 구제할 수 있다. 자율 모드에서 동작할 때, 차량은 온보드 센서들을 사용하여 다양한 위치들로 내비게이트하여 차량이 최소의 인간 상호작용으로 또는 일부 경우들에 있어서는 어떠한 승객도 없이 이동하게 할 수 있다.

모션 계획 및 제어는 자율 주행에서 중요한 동작들이다. 그러나, 종래의 모션 계획 동작들은 상이한 유형들의 차량들에 대한 특징부들의 차이들을 고려하지 않고서, 주어진 경로를 완료하는 어려움을 주로 그의 곡률 및 속력으로부터 추정한다. 동일한 모션 계획 및 제어가 모든 유형들의 차량들에 적용되는데, 이는 일부 환경들 하에서 정확하지 않을 수 있고 매끄럽지 않을 수 있다.

추가로, 모션 계획 및 제어의 동작들은 일반적으로, 주변 장애물들 또는 물체들의 인지를 필요로 한다. 그들은 또한, 특정 음원(예컨대, 응급 차량)의 실시간 검출을 필요로 하고, 음원에 대해 실시간으로 응답한다. 그러한 음원의 검출 및 위치측정에 대해 상이한 솔루션들이 존재하지만, 그들 솔루션들에서 여러 개의 별개의 단계들은 시간 소모적이고, 모든 단서들을 고려하지 못한다.

본 발명은 자율 주행 차량(autonomous driving vehicle, ADV)이 주행 환경 내에서 동작하고 있는 동안 상기 ADV를 활용하는 음원 검출 및 위치측정을 위한 컴퓨터 구현 방법으로서,

상기 ADV 상에 탑재된 복수의 오디오 센서들로부터 오디오 데이터를 수신하는 단계 - 상기 오디오 데이터는 상기 복수의 오디오 센서들에 의해 캡처되고 하나 이상의 음원들에 의해 방출되는 사운드들을 포함함 -;

기 수신된 오디오 데이터에 기초하여, 복수의 음원 정보를 결정하는 단계 - 각각의 음원 정보는 특정 사운드의 존재와 연관된 신뢰도 스코어를 포함함 -; 및

데이터 표현을 생성하여, 상기 ADV의 상기 주행 환경 내에 상기 특정 사운드가 존재하는지 여부를 리포트하는 단계 - 상기 데이터 표현은 상기 결정된 복수의 음원 정보를 포함함 - 를 포함하고,

상기 수신된 오디오 데이터 및 상기 생성된 데이터 표현은 상기 ADV의 자율 주행 동안 상기 특정 음원을 실시간으로 인식하기 위해 머신 러닝 알고리즘을 후속적으로 트레이닝시키도록 활용된다.

본 개시내용의 실시예들은 도면에서 제한이 아니라 예로서 예시되며, 도면에서 유사한 참조부호들은 유사한 요소들을 나타낸다.
도 1은 하나의 실시예에 따른 네트워킹된 시스템을 예시하는 블록도이다.
도 2는 하나의 실시예에 따른 자율 주행 차량(autonomous driving vehicle, ADV)의 일례를 예시하는 블록도이다.
도 3a 및 도 3b는 하나의 실시예에 따른, 자율 주행 차량과 함께 사용되는 자율 주행 시스템의 일례를 예시하는 블록도들이다.
도 4a 및 도 4b는 하나의 실시예에 따른, 음원 검출 및 위치측정을 위한 시스템을 예시하는 블록도들이다.
도 5는 하나의 실시예에 따른, 음원 검출 및 위치측정을 위한 시스템의 사용을 갖는 예시적 주행 시나리오를 예시하는 도면이다.
도 6a 및 도 6b는 하나의 실시예에 따른, 머신 러닝 알고리즘들/모델들을 트레이닝시키는 시스템을 예시하는 블록도들이다.
도 7은 하나의 실시예에 따른, ADV를 활용하는 음원 검출 및 위치측정을 위한 예시적 방법의 흐름도이다.

본 개시내용의 다양한 실시예들 및 양태들은 아래에서 논의되는 세부사항들을 참조하여 기술될 것이고, 첨부 도면은 다양한 실시예들을 예시할 것이다. 아래의 설명 및 도면은 본 개시내용을 예시하며, 본 발명을 제한하는 것으로 이해되어서는 안 된다. 본 개시내용의 다양한 실시예들에 대한 철저한 이해를 제공하기 위해 수많은 특정 세부사항들이 기술된다. 그러나, 소정 경우들에 있어서, 주지의 또는 종래의 세부사항들은 본 개시내용의 실시예들의 간결한 논의를 제공하기 위해 기술되지 않는다.

명세서에서 "하나의 실시예" 또는 "일 실시예"에 대한 언급은, 그 실시예와 관련하여 기술된 특정 특징부, 구조, 또는 특성이 개시내용의 적어도 하나의 실시예에 포함될 수 있음을 의미한다. 명세서 내의 다양한 곳들에서의 구문 "하나의 실시예에서"의 출현이 반드시 모두가 동일한 실시예를 지칭하는 것은 아니다.

본 출원의 양태들은 하나 이상의 음원들의 검출, 위치측정, 및 추적을 수행할 수 있는 1회 사운드 검출(예컨대, 사이렌 사운드 검출) 및 위치측정 알고리즘(이는 YOHO("you only hear once")로 지칭될 수 있음)에 관한 것이다.

일 양태에 따르면, 자율 주행 차량(ADV)이 주행 환경 내에서 동작하고 있는 동안 ADV를 활용하는 음원 검출 및 위치측정을 위한 컴퓨터 구현 방법이 기술된다. 방법은 ADV 상에 탑재된 다수의 오디오 센서들로부터 오디오 데이터를 수신하는 단계를 포함한다. 오디오 데이터는 오디오 센서들에 의해 캡처되고 하나 이상의 음원들에 의해 방출되는 사운드들을 포함한다. 수신된 오디오 데이터에 기초하여, 방법은 다수의 음원 정보를 결정하는 단계를 추가로 포함한다. 각각의 음원 정보는 특정 사운드의 존재와 연관된 신뢰도 스코어를 포함한다. 방법은 데이터 표현을 생성하여, ADV의 주행 환경 내에 특정 사운드가 존재하는지 여부를 리포트하는 단계를 추가로 포함한다. 데이터 표현은 결정된 음원 정보를 포함한다. 수신된 오디오 데이터 및 생성된 데이터 표현은 ADV의 자율 주행 동안 특정 음원을 실시간으로 인식하기 위해 머신 러닝 알고리즘을 후속적으로 트레이닝시키도록 활용된다.

다른 양태들은 전술된 양태와 유사한 동작들을 수행하고 본 명세서에서 더 상세히 후술되는 음원 검출 및 위치측정을 위한 비일시적 머신 판독가능 매체 및 시스템에 관한 것이다.

도 1은 본 개시내용의 하나의 실시예에 따른 자율 주행 네트워크 구성을 예시하는 블록도이다. 도 1을 참조하면, 네트워크 구성(100)은 네트워크(102)를 통해 하나 이상의 서버들(103, 104)에 통신가능하게 커플링될 수 있는 자율 주행 차량(ADV)(101)을 포함한다. 하나의 ADV가 도시되어 있지만, 다수의 ADV들이 네트워크(102)를 통해 서로에게 커플링될 수 있고/있거나 서버들(103, 104)에 커플링될 수 있다. 네트워크(102)는 근거리 통신망(local area network, LAN), 인터넷, 셀룰러 네트워크, 위성 네트워크와 같은 광역 통신망(wide area network, WAN), 또는 이들의 조합, 유선 또는 무선과 같은 임의의 유형의 네트워크들일 수 있다. 서버(들)(103, 104)는 임의의 종류의 서버들 또는 서버들의 클러스터, 예컨대 웹 또는 클라우드 서버들, 애플리케이션 서버들, 백엔드 서버들, 또는 이들의 조합일 수 있다. 서버들(103, 104)은 데이터 분석 서버들, 콘텐츠 서버들, 교통 정보 서버들, 지도 및 관심 지점(map and point of interest, MPOI) 서버들, 또는 위치 서버들 등일 수 있다.

ADV는 차량이 운전자로부터의 입력이 거의 또는 전혀 없는 환경을 통해 내비게이트하는 자율 모드에 있도록 구성될 수 있는 차량을 지칭한다. 그러한 ADV는 차량이 동작하는 환경에 관한 정보를 검출하도록 구성되는 하나 이상의 센서들을 갖는 센서 시스템을 포함할 수 있다. 차량 및 그의 연관된 제어기(들)는 검출된 정보를 사용하여 환경을 통해 내비게이트한다. ADV(101)는 수동 모드, 완전 자율 모드, 또는 부분 자율 모드에서 동작할 수 있다.

하나의 실시예에서, ADV(101)는 자율 주행 시스템(autonomous driving system, ADS)(110), 차량 제어 시스템(111), 무선 통신 시스템(112), 사용자 인터페이스 시스템(113), 및 센서 시스템(115)을 포함하지만, 이들로 제한되지 않는다. ADV(101)는, 예를 들어, 가속 신호들 또는 커맨드들, 감속 신호들 또는 커맨드들, 스티어링 신호들 또는 커맨드들, 브레이킹 신호들 또는 커맨드들 등과 같은 다양한 통신 신호들 및/또는 커맨드들에 의해 제어될 수 있는 일반 차량들 내에 포함되는 소정의 공통 컴포넌트들, 예컨대 엔진, 휠들, 스티어링 휠, 변속기 등을 추가로 포함할 수 있다.

컴포넌트들(110 내지 115)은 상호접속부, 버스, 네트워크, 또는 이들의 조합을 통해 서로에게 통신가능하게 커플링될 수 있다. 예를 들어, 컴포넌트들(110 내지 115)은 제어기 영역 네트워크(controller area network, CAN) 버스를 통해 서로에게 통신가능하게 커플링될 수 있다. CAN 버스는 마이크로제어기들 및 디바이스들이 호스트 컴퓨터 없이 애플리케이션들로 서로에게 통신할 수 있도록 설계된 차량 버스 표준이다. 그것은, 원래 자동차들 내의 다중 전기 배선을 위해 설계된 메시지 기반 프로토콜이지만, 또한 많은 다른 상황들에서도 사용된다.

이제 도 2를 참조하면, 하나의 실시예에서, 센서 시스템(115)은 하나 이상의 카메라들(211), 글로벌 포지셔닝 시스템(global positioning system, GPS) 유닛(212), 관성 측정 유닛(inertial measurement unit, IMU)(213), 레이더 유닛(214), 및 광 검출 및 레인지(light detection and range, LiDAR) 유닛(215)을 포함하지만, 그것은 이들로 제한되지 않는다. GPS 시스템(212)은 ADV의 포지션에 관한 정보를 제공하도록 동작가능한 송수신기를 포함할 수 있다. IMU 유닛(213)은 관성 가속도에 기초하여 ADV의 포지션 및 배향 변화들을 감지할 수 있다. 레이더 유닛(214)은 무선 신호들을 활용하여 ADV의 국부적 환경 내의 물체들을 감지하는 시스템을 표현할 수 있다. 일부 실시예들에서, 물체들을 감지하는 것 외에도, 레이더 유닛(214)은 물체들의 속력 및/또는 기수방위(heading)를 추가적으로 감지할 수 있다. LIDAR 유닛(215)은 레이저들을 사용하여 ADV가 위치되는 환경 내의 물체들을 감지할 수 있다. LIDAR 유닛(215)은, 다른 시스템 컴포넌트들 중에서도, 하나 이상의 레이저 소스들, 레이저 스캐너, 및 하나 이상의 검출기들을 포함할 수 있다. 카메라들(211)은 ADV 주변 환경의 이미지들을 캡처하기 위한 하나 이상의 디바이스들을 포함할 수 있다. 카메라들(211)은 정지 카메라들 및/또는 비디오 카메라들일 수 있다. 카메라는, 예를 들어, 회전용 및/또는 틸팅용 플랫폼 상에 카메라를 탑재함으로써, 기계적으로 이동가능할 수 있다.

센서 시스템(115)은 다른 센서들, 예컨대 소나 센서, 적외선 센서, 스티어링 센서, 트로틀 센서, 브레이킹 센서, 및 오디오 센서(예컨대, 마이크로폰)를 추가로 포함할 수 있다. 오디오 센서는 ADV 주변 환경으로부터의 사운드를 캡처하도록 구성될 수 있다. 스티어링 센서는 차량의 스티어링 휠, 휠들의 스티어링 각도, 또는 이들의 조합을 감지하도록 구성될 수 있다. 트로틀 센서 및 브레이킹 센서는 각각 차량의 트로틀 포지션 및 브레이킹 포지션을 감지한다. 일부 상황들에 있어서, 트로틀 센서 및 브레이킹 센서는 일체형 트로틀/브레이킹 센서로서 일체화될 수 있다.

하나의 실시예에서, 차량 제어 시스템(111)은 스티어링 유닛(201), 트로틀 유닛(202)(가속 유닛으로도 지칭됨), 및 브레이킹 유닛(203)을 포함하지만 이들로 제한되지 않는다. 스티어링 유닛(201)은 차량의 방향 또는 기수방위를 조정하기 위한 것이다. 트로틀 유닛(202)은 모터 또는 엔진의 속력을 제어하기 위한 것이고, 모터 또는 엔진은 차례차례 차량의 속력 및 가속을 제어한다. 브레이킹 유닛(203)은 차량의 휠들 또는 타이어들의 속력을 줄이기 위해 마찰을 제공함으로써 차량을 감속시키기 위한 것이다. 도 2에 도시된 바와 같은 컴포넌트들은 하드웨어, 소프트웨어, 또는 이들의 조합으로 구현될 수 있음에 유의한다.

도 1을 다시 참조하면, 무선 통신 시스템(112)은 ADV(101)와 외부 시스템들, 예컨대 디바이스들, 센서들, 다른 차량들 등 사이의 통신을 허용하기 위한 것이다. 예를 들어, 무선 통신 시스템(112)은, 직접적으로 또는 통신 네트워크를 통해 하나 이상의 디바이스들과, 예컨대 네트워크(102)를 통해 서버들(103, 104)과 무선으로 통신할 수 있다. 무선 통신 시스템(112)은 임의의 셀룰러 통신 네트워크 또는 무선 근거리 통신망(wireless local area network, WLAN)을 사용하여, 예컨대 WiFi를 사용하여, 다른 컴포넌트 또는 시스템과 통신할 수 있다. 무선 통신 시스템(112)은, 예를 들어 적외선 잉크, 블루투스 등을 사용하여, 디바이스(예컨대, 승객의 모바일 디바이스, 디스플레이 디바이스, 차량(101) 내의 스피커)와 직접 통신할 수 있다. 사용자 인터페이스 시스템(113)은, 예를 들어 키보드, 터치 스크린 디스플레이 디바이스, 마이크로폰, 및 스피커 등을 포함하는, 차량(101) 내에 구현되는 주변기기 디바이스들의 부분일 수 있다.

ADV(101)의 기능들 중 일부 또는 전부는, 특히 자율 주행 모드에서 동작할 때, ADS(110)에 의해 제어되거나 관리될 수 있다. ADS(110)는, 센서 시스템(115), 제어 시스템(111), 무선 통신 시스템(112), 및/또는 사용자 인터페이스 시스템(113)으로부터 정보를 수신하고, 수신된 정보를 프로세싱하고, 시작 포인트로부터 목적지 포인트까지의 루트 또는 경로를 계획하고, 이어서 계획 및 제어 정보에 기초하여 차량(101)을 주행시키기 위해, 필수적인 하드웨어(예컨대, 프로세서(들), 메모리, 저장소) 및 소프트웨어(예컨대, 운영 체제, 계획 및 라우팅 프로그램들)를 포함한다. 대안적으로, ADS(110)는 차량 제어 시스템(111)과 일체화될 수 있다.

예를 들어, 승객으로서의 사용자가, 예를 들어 사용자 인터페이스를 통해, 이동의 시작 위치 및 목적지를 특정할 수 있다. ADS(110)는 이동 관련 데이터를 획득한다. 예를 들어, ADS(110)는 서버들(103, 104)의 부분일 수 있는 MPOI 서버로부터 위치 및 루트 데이터를 획득할 수 있다. 위치 서버는 위치 서비스들을 제공하고, MPOI 서버는 지도 서비스들 및 소정 위치들의 POI들을 제공한다. 대안적으로, 그러한 위치 및 MPOI 정보는 ADS(110)의 영구 저장 디바이스에 국부적으로 캐싱될 수 있다.

ADV(101)가 루트를 따라 이동하고 있는 동안, ADS(110)는 또한 교통 정보 시스템 또는 서버(traffic information system/server, TIS)로부터 실시간 교통 정보를 획득할 수 있다. 서버들(103, 104)은 제3자 엔티티에 의해 동작될 수 있음에 유의한다. 대안적으로, 서버들(103, 104)의 기능들은 ADS(110)와 일체화될 수 있다. 실시간 교통 정보, MPOI 정보, 및 위치 정보뿐만 아니라 센서 시스템(115)에 의해 검출되거나 감지되는 실시간 국부적 환경 데이터(예컨대, 장애물들, 물체들, 인근 차량들)에 기초하여, ADS(110)는 최적의 루트를 계획할 수 있고, 계획된 루트에 따라, 예를 들어 제어 시스템(111)을 통해, 차량(101)을 주행시켜서, 특정된 목적지에 안전하고 효율적으로 도달하게 할 수 있다.

서버(103)는 다양한 클라이언트들을 위한 데이터 분석 서비스들을 수행하기 위한 데이터 분석 시스템일 수 있다. 하나의 실시예에서, 데이터 분석 시스템(103)은 머신 러닝 엔진(122)을 포함한다. 본 명세서에서 더 상세히 후술되는 바와 같이, 머신 러닝 엔진(122)은 모션 계획 및 제어를 위해 하나의 또는 다수의 음원들(예컨대, 응급 차량들)의 검출 및 위치측정과 같은 다양한 목적들을 위해 일정 세트의 규칙들, 알고리즘들, 및/또는 예측 모델들(124)을 생성하거나 트레이닝시킨다. 알고리즘들(124)은 이어서 ADV 상에 업로드되어, 자율 주행 동안 실시간으로 활용될 수 있다.

도 3a 및 도 3b는 하나의 실시예에 따른, ADV와 함께 사용되는 자율 주행 시스템의 일례를 예시하는 블록도들이다. 시스템(300)은 ADS(110), 제어 시스템(111), 및 센서 시스템(115)을 포함하는 도 1의 ADV(101)의 부분으로서 구현될 수 있지만 이들로 제한되지 않는다. 도 3a 및 도 3b를 참조하면, ADS(110)는 위치측정 모듈(301), 인지 모듈(302), 예측 모듈(303), 결정 모듈(304), 계획 모듈(305), 제어 모듈(306), 라우팅 모듈(307), 및 음원 검출 및 위치측정(308)을 포함하지만, 이들로 제한되지 않는다. 일부 실시예들에서, ADS(110)는 또한, 머신 러닝 엔진(122)을 포함할 수 있지만, 머신 러닝 엔진(122)은 (이전에 기술된 바와 같은) 서버(103)와 같은 원격 서버 상에 설치될 수 있다.

모듈들(301 내지 308) 중 일부 또는 전부(및 일부 실시예들에서, 엔진(122))는 소프트웨어, 하드웨어, 또는 이들의 조합으로 구현될 수 있다. 예를 들어, 이들 모듈들은 영구 저장 디바이스(352)에 설치될 수 있고, 메모리(351) 내에 로딩될 수 있고, 하나 이상의 프로세서들(도시되지 않음)에 의해 실행될 수 있다. 이들 모듈들 중 일부 또는 전부는 도 2의 차량 제어 시스템(111)의 일부 또는 전체 모듈들에 통신가능하게 커플링될 수 있거나 이들과 일체화될 수 있음에 유의한다. 모듈들(301 내지 308) 중 일부(및 일 실시예에서, 엔진(122))는 일체형 모들로서 함께 통합될 수 있다.

위치측정 모듈(301)은 ADV(300)(예컨대, 레버리징 GPS 유닛(212))의 현재 위치를 결정하고, 사용자의 이동 또는 루트에 관련된 임의의 데이터를 관리한다. 위치측정 모듈(301)(지도 및 루트 모듈로도 지칭됨)은 사용자의 이동 또는 루트에 관련된 임의의 데이터를 관리한다. 사용자는, 예를 들어 사용자 인터페이스를 통해, 로그인할 수 있고, 이동의 시작 위치 및 목적지를 특정할 수 있다. 위치측정 모듈(301)은 지도 및 루트 데이터(311)와 같은 ADV(300)의 다른 컴포넌트들과 통신하여 이동 관련 데이터를 획득한다. 예를 들어, 위치측정 모듈(301)은 위치 서버 및 지도 및 POI(MPOI) 서버로부터 위치 및 루트 데이터를 획득할 수 있다. 위치 서버는 위치 서비스들을 제공하고, MPOI 서버는 지도 서비스들 및 소정 위치들의 POI들을 제공하며, 이들은 지도 및 루트 데이터(311)의 부분으로서 캐싱될 수 있다. ADV(300)가 루트를 따라 이동하고 있는 동안, 위치측정 모듈(301)은 또한 교통 정보 시스템 또는 서버로부터 실시간 교통 정보를 획득할 수 있다.

센서 시스템(115)에 의해 제공되는 센서 데이터 및 위치측정 모듈(301)에 의해 획득된 위치측정 정보에 기초하여, 주변 환경의 인지가 인지 모듈(302)에 의해 결정된다. 인지 정보는, 일반 운전자가, 운전자가 운전하고 있는 차량 주변에서 인지하는 것을 표현할 수 있다. 인지는 차선 구성, 신호등 신호들, 다른 차량의 상대적 포지션, 보행자, 건물, 횡단보도, 또는 다른 교통 관련 표지판들(예컨대, 정지 표지판들, 양보 표지판들) 등을, 예를 들어 물체의 형태로 포함할 수 있다. 차선 구성은, 예를 들어 차선의 형상(예컨대, 직선 또는 곡선), 차선의 폭, 도로에 차선들이 얼마나 많은가, 일방 또는 양방 통행 차선, 병합 또는 분리 차선들, 나가기 차선 등과 같은 차선 또는 차선들을 서술하는 정보를 포함한다.

인지 모듈(302)은 ADV의 환경에서 물체들 및/또는 특징부들을 식별하기 위해 하나 이상의 카메라들에 의해 캡처되는 이미지들을 프로세싱하고 분석하는 컴퓨터 시각 시스템 또는 컴퓨터 시각 시스템의 기능들을 포함할 수 있다. 물체들은 교통 신호들, 도로 경계들, 다른 차량들, 보행자들, 및/또는 장애물들 등을 포함할 수 있다. 컴퓨터 시각 시스템은 물체 인식 알고리즘, 비디오 트래킹, 및 다른 컴퓨터 시각 기법들을 사용할 수 있다. 일부 실시예들에서, 컴퓨터 시각 시스템은 환경을 맵핑할 수 있고, 물체들을 추적할 수 있고, 물체들의 속력을 추정할 수 있고, 등등을 할 수 있다. 인지 모듈(302)은 또한, 레이더 및/또는 LIDAR와 같은 다른 센서들에 의해 제공된 다른 센서 데이터에 기초하여 물체들을 검출할 수 있다.

물체들 각각에 대해, 예측 모듈(303)은 환경들 하에서 물체가 무엇을 거동할지를 예측한다. 예측은 지도/루트 정보(311) 및 트래픽 규칙들(312)의 세트를 고려하여 그 시점에서 주행 환경을 인지하는 인지 데이터에 기초하여 수행된다. 예를 들어, 물체가 반대편 방향에 있는 차량이고 현재 주행 환경이 교차로를 포함하는 경우, 예측 모듈(303)은 차량이 일직선으로 이동할 가능이 있는지 아니면 회전할 가능성이 있는지를 예측할 것이다. 인지 데이터가 교차로에 어떠한 신호등도 없음을 나타내는 경우, 예측 모듈(303)은 차량이 교차로에 진입하기 전에 완전히 멈춰야 할 수도 있음을 예측할 수 있다. 인지 데이터가, 차량이 현재 좌회전 전용 차선에 있거나 우회전 전용 차선에 있음을 나타내는 경우, 예측 모듈(303)은 각각 차량이 좌회전을 행하거나 우회전을 행할 가능성이 더 큼을 예측할 수 있다.

물체들 각각에 대해, 결정 모듈(304)은 물체를 어떻게 핸들링할지에 관한 결정을 행한다. 예를 들어, 특정 물체(예컨대, 교차 루트 내의 다른 차량)뿐만 아니라 물체를 서술하는 그의 메타데이터(예컨대, 속력, 방향, 회전각)에 대해, 결정 모듈(304)은 물체와 어떻게 조우할지(예컨대, 추월, 양보, 정지, 통과)를 결정한다. 결정 모듈(304)은 영구 저장 디바이스(352)에 저장될 수 있는, 교통 규칙들 또는 주행 규칙들(312)과 같은 규칙들의 세트에 따라 그러한 결정들을 행할 수 있다.

라우팅 모듈(307)은 시작 지점으로부터 목적지 지점까지의 하나 이상의 루트들 또는 경로들을 제공하도록 구성된다. 시작 위치로부터 목적지 위치까지의, 예를 들어 사용자로부터 수신된, 주어진 이동에 대해, 라우팅 모듈(307)은 루트 및 지도 정보(311)를 획득하고, 목적지 위치에 도달하기 위한 시작 위치로부터의 모든 가능한 루트들 또는 경로들을 결정한다. 라우팅 모듈(307)은 목적지 위치에 도달하기 위해 그것이 시작 위치로부터 결정하는 루트들 각각에 대한 지형도의 형태로 기준 라인을 생성할 수 있다. 기준 라인은 다른 차량들, 장애물들, 또는 교통 상황과 같은 다른 것들로부터의 어떠한 간섭 없이 이상적인 루트 또는 경로를 지칭한다. 즉, 도로 상에 어떠한 다른 차량, 보행자들, 또는 장애물들도 없는 경우, ADV는 기준 라인을 정확하게 또는 긴밀하게 추종해야 한다. 이어서, 지형도들이 결정 모듈(304) 및/또는 계획 모듈(305)에 제공된다. 결정 모듈(304) 및/또는 계획 모듈(305)은, 위치측정 모듈(301)로부터의 교통 상황들, 인지 모듈(302)에 의해 인지되는 주행 환경, 및 예측 모듈(303)에 의해 예측되는 교통 상황과 같은, 다른 모듈들에 의해 제공되는 다른 데이터를 고려하여, 가능한 루트들 모두를 검사하여 가장 최적의 루트들 중 하나를 선택하고 수정한다. ADV를 제어하기 위한 실제 경로 또는 루트는 시점에서의 특정 구동 환경에 따라 라우팅 모듈(307)에 의해 제공되는 기준 라인에 가까울 수 있거나 또는 그와는 상이할 수 있다.

인지된 물체들 각각에 대한 결정에 기초하여, 계획 모듈(305)은 라우팅 모듈(307)에 의해 제공된 기준 라인을 기초로서 사용하여 ADV에 대한 경로 또는 루트뿐만 아니라 주행 파라미터들(예컨대, 거리, 속력, 및/또는 회전각)을 계획한다. 즉, 주어진 물체에 대해, 결정 모듈(304)은 물체와 관련하여 무엇을 할 것인지를 결정하는 한편, 계획 모듈(305)은 그것을 어떻게 할지를 결정한다. 예를 들어, 주어진 물체에 대해, 결정 모듈(304)은 물체를 통과시킬 것을 결정할 수 있는 한편, 계획 모듈(305)은 물체의 좌측으로 통과할지 우측으로 통과할지를 결정할 수 있다. 차량(300)이 다음 이동 사이클(예컨대, 다음 루트/경로 세그먼트)에서 어떻게 이동할지를 서술하는 정보를 포함하는 계획 및 제어 데이터가 계획 모듈(305)에 의해 생성된다. 예를 들어, 계획 및 제어 데이터는 시간당 30 마일(30 mph)의 속력으로 10 미터를 이동하고, 이어서 25 mph의 속력으로 우측 차선으로 변경할 것을 차량(300)에 명령할 수 있다.

계획 및 제어 데이터에 기초하여, 제어 모듈(306)은, 계획 및 제어 데이터에 의해 정의된 루트 또는 경로에 따라, 적절한 커맨드들 또는 신호들을 차량 제어 시스템(111)으로 전송함으로써, ADV를 제어하고 주행시킨다. 계획 및 제어 데이터는 경로 또는 루트를 따라 상이한 시점들에서 적절한 차량 설정들 또는 주행 파라미터들(예컨대, 트로틀, 브레이킹, 스티어링 커맨드들)을 사용하여 루트 또는 경로의 제1 지점으로부터 제2 지점까지 차량을 주행시키기에 충분한 정보를 포함한다.

하나의 실시예에서, 계획 단계는, 예를 들어 100밀리초(ms)의 매 시간 구간에서와 같은, 주행 사이클로도 지칭되는 다수의 계획 사이클들에서 수행된다. 계획 사이클들 또는 주행 사이클들 각각에 대해, 하나 이상의 제어 커맨드들이 계획 및 제어 데이터에 기초하여 발행될 것이다. 즉, 매 100 ms마다, 계획 모듈(305)은, 예를 들어 타깃 포지션 및 ADV가 타깃 포지션에 도달하기 위해 필요한 시간을 포함하는, 다음 루트 세그먼트 또는 경로 세그먼트를 계획한다. 대안적으로, 계획 모듈(305)은 특정 속력, 방향, 및/또는 스티어링 각 등을 추가로 특정할 수 있다. 하나의 실시예에서, 계획 모듈(305)은 5초와 같은 다음의 미리결정된 시간 동안 루트 세그먼트 또는 경로 세그먼트를 계획한다. 각각의 계획 사이클에 대해, 계획 모듈(305)은 이전 사이클에서 계획된 타깃 포지션에 기초하여 현재 사이클(예컨대, 다음의 5초)에 대한 타깃 포지션을 계획한다. 이어서, 제어 모듈(306)은 현재 사이클의 계획 및 제어 데이터에 기초하여 하나 이상의 제어 커맨드들(예컨대, 트로틀, 브레이크, 스티어링 제어 커맨드들)을 생성한다.

결정 모듈(304) 및 계획 모듈(305)은 일체형 모듈로서 일체화될 수 있음에 유의한다. 결정 모듈(304)/계획 모듈(305)은 ADV에 대한 주행 경로를 결정하기 위해 내비게이션 시스템 또는 내비게이션 시스템의 기능들을 포함할 수 있다. 예를 들어, 내비게이션 시스템은, 궁극적인 목적지로 이어지는 도로 기반 경로를 따라 ADV를 일반적으로 전진시키면서 인지된 장애물들을 실질적으로 회피하는 경로를 따라 ADV의 이동에 영향을 미치는 일련의 속력들 및 지향성 기수방위들을 결정할 수 있다. 목적지는 사용자 인터페이스 시스템(113)을 통해 사용자 입력들에 따라 설정될 수 있다. 내비게이션 시스템은 ADV가 동작 중인 동안에 주행 경로를 동적으로 업데이트할 수 있다. 내비게이션 시스템은 ADV에 대한 주행 경로를 결정하기 위해 GPS로부터의 데이터 및 하나 이상의 지도들을 포함할 수 있다.

도 3a 및 또한 도 4a 및 도 4b(이들은 하나의 실시예에 따른, 음원 검출 및 위치측정을 위한 시스템을 예시하는 블록도들임)를 계속해서 참조하면, 음원 검출 및 위치측정 모듈(308)은 센서 시스템(115)의 오디오 센서들(411)(예컨대, 마이크로폰들 또는 마이크로폰 어레이)에 의해 제공되는 오디오 데이터(313)를 수신할 수 있다. 오디오 데이터(313)는 ADV가 루트를 따라 동작하고 있는 동안의 상이한 시점들에서 하나의 또는 다수의 음원들(또는 물체들)에 의해 방출된 기록되거나 캡처된 사운드를 포함할 수 있다. 도 3a에 도시된 바와 같이, 오디오 데이터(313)는 영구 저장 디바이스(352)에 저장될 수 있다. 하나의 실시예에서, 음원(또는 물체)은 응급 차량, 예컨대 구급차, 경찰차, 소방차 등일 수 있다.

수신되거나 입력된 오디오 데이터(313)에 기초하여, 음원 검출 및 위치측정 모듈(308)은 다양한 음원 정보를 결정하고 생성하여, ADV의 주행 환경 내에 특정 사운드(예컨대, 사이렌 사운드)가 존재하는지 여부를 리포트할 수 있다. 예를 들어, 모듈(308)은 특정 사운드의 존재에 대한 신뢰도 스코어들(또는 가능성들)을 결정할 수 있다. 하나의 실시예에서, 신뢰도 스코어들은 캡처된 사운드의 도플러 효과(Doppler-effect)에 기초하여 결정될 수 있다. 각각의 신뢰 스코어는 특정 범위(예컨대, 0 ~ 1 값) 내에 있을 수 있으며, 여기서 0은 최저 신뢰도 또는 가능성을 표현하고, 1은 최고 신뢰도 또는 가능성을 표현한다. 0 ~ 1 범위가 이러한 예에서 사용되지만, 이것은 제한이 아니고, 임의의 수치 범위가 신뢰도 스코어들을 표현하는 데 사용될 수 있음에 유의한다.

오디오 센서들(411)에 의한 음원 위치측정을 사용하거나 수행하여, 모듈(308)은 ADV 상에 탑재된 각각의 오디오 센서(411)의 포지션에 기초하여, 대응하는 오디오 센서(411)(즉, 음원에 의해 생성된 사운드를 캡처하는 오디오 센서(411))에 대한 각각의 음원의 방향, 음원과 대응하는 오디오 센서 사이의 거리, 및 각각의 가능한 검출된 사운드(또는 음원)의 상대적 포지션 사이의 거리를 결정할 수 있다. 음원 위치측정은 또한, 모듈(308)이 사운드(또는 음원)의 정확하거나 절대적인 포지션, 사운드의 접근/이탈 상태, 및/또는 현재 타임스탬프에서의 사운드의 세기를 결정(또는 계산)할 수 있게 한다. 그러한 음원 위치측정 방법 또는 기법은 일반적으로 당업자에게 알려져 있고, 따라서, 간결성을 위해 본 명세서에서 상세히 기술되지 않을 것이다. 하나의 실시예에서, 모듈(308)은 데이터 표면(314)(예컨대, 그리드)의 부분으로서 음원 정보(예컨대, 신뢰도 스코어들, 음원의 방향, 음원과 오디오 센서 사이의 거리, 각각의 가능한 검출된 사운드의 상대적 포지션, 사운드의 정확한 포지션, 사운드의 접근/이탈 상태, 사운드의 세기 등)를 생성할 수 있다. 도 3a에 도시된 바와 같이, 데이터 표현(314)은 영구 저장 디바이스(352)에 저장될 수 있다.

이제 도 4b를 참조하면, 데이터 표현(314)은 주행 환경을 커버하는 다수의 영역들(박스들로 표현됨)을 포함할 수 있다. 데이터 표현(314)은 데이터 표현 내에 특정 사운드(예컨대, 사이렌 사운드)가 존재하는 지 여부를 리포트하도록 역할한다. 도 4b에 도시된 예에서, 데이터 표현(314)은 고정된 크기의 M개의 영역들을 가지며, 여기서 M은 0 초과의 정수이다. 각각의 영역(또는 영역들의 서브세트)은 ADV의 주행 환경을 부분적으로 커버하는 특정 오디오 센서(411)에 대응할 수 있다. 데이터 표현(314)은 톱-다운 뷰(top-down view)로서 시각화될 수 있으며, 이때 데이터 표현(314)의 중심은 ADV(예컨대, 도 1의 ADV(101))의 포지션을 표현한다. 일부 실시예들에서, 데이터 표현(314)의 각각의 영역은 5x5 제곱미터(m2) 또는 10x10 m2와 같은, 주행 환경에서의 특정 크기를 커버하도록 구성되지만, 이것은 제한이 아니다. 하나의 실시예에서, 데이터 표현(314)의 각각의 영역은 그 영역 내에 특정 사운드가 존재하는지 여부를 나타내는 결과들(421)의 벡터를 리포트한다. 각각의 벡터(421)는 영역 식별자(ID) 및 (전술된 바와 같은) 음원 정보를 포함할 수 있지만, 이들로 제한되지 않는다.

도 5는 하나의 실시예에 따른, 음원 검출 및 위치측정을 위한 시스템의 사용을 갖는 예시적 주행 시나리오를 예시하는 도면이다. 도 5를 참조하면, ADV(101)는 ADV 주위(예컨대, 좌측, 우측, 전방, 및 후방)에 탑재되는 다수의 오디오 센서들(411)(예컨대, 마이크로폰 어레이)을 포함할 수 있지만, 오디오 센서들의 개수는 제한이 아니다. ADV(101)가 루트를 따라 주행하고 있는 동안, 하나 이상의 오디오 센서들(411)은 각각 음원들(509, 510)(예컨대, 경찰차, 구급차, 소방차 등)로부터 생성된 다수의 사운드들을 검출할 수 있다. 일례로서, 후방 오디오 센서(411)는 음원(509)으로부터 생성된 사운드를 완전히 검출하지만, 나머지 오디오 센서들 각각은 사운드를 부분적으로만 검출하거나 검출하지 못한다. 이러한 시나리오에서, 후방 오디오 센서(411)와 연관된 데이터 표현 영역(들)의 신뢰도 스코어는 1의 값에 더 가까울 것인 반면, 나머지 센서들과 연관된 신뢰도 스코어들은 0의 값에 더 가까울 것이다. 또한, (전술된 바와 같은) 음원 위치측정을 사용하여, 후방 오디오 센서(411)에 대한 음원(509)의 방향, 음원(509)과 후방 오디오 센서(411) 사이의 거리, 및 음원(509)에 의해 생성된 사운드의 상대적 포지션이 결정될 수 있다. 음원(509)에 의해 생성된 사운드의 정확한 또는 절대적 포지션, 사운드의 접근/이탈 상태, 및/또는 현재 타임스탬프에서의 사운드의 세기가 또한 결정될 수 있다.

동시에, 우측(또는 승객 측) 오디오 센서(411)는 음원(510)으로부터 생성된 사운드를 완전히 검출하지만, 나머지 오디오 센서들 각각은 사운드를 부분적으로만 검출하거나 검출하지 못한다. 이러한 시나리오에서, 우측 오디오 센서(411)와 연관된 데이터 표현 영역(들)의 신뢰도 스코어는 1의 값에 더 가까울 것인 반면, 나머지 센서들과 연관된 신뢰도 스코어들은 0의 값에 더 가까울 것이다. 또한, (전술된 바와 같은) 음원 위치측정을 사용하여, 우측 오디오 센서(411)에 대한 음원(510)의 방향, 음원(510)과 우측 오디오 센서(411) 사이의 거리, 및 음원(510)에 의해 생성된 사운드의 상대적 포지션이 결정될 수 있다. 음원(510)에 의해 생성된 사운드의 정확한 또는 절대적 포지션, 사운드의 접근/이탈 상태, 및/또는 현재 타임스탬프에서의 사운드의 세기가 또한 결정될 수 있다.

도 6a 및 도 6b는 하나의 실시예에 따른, 머신 러닝 알고리즘들/모델들을 트레이닝시키는 시스템을 예시하는 블록도들이다. 도 6a를 참조하면, (음원 검출 및 위치측정 모듈(308)에 의해 생성된) 입력 오디오 데이터(313) 및 출력 데이터 표현(314)이 머신 러닝(122)에 제공되어, 모션 계획 및 제어를 위한 하나의 또는 다수의 음원들(예컨대, 응급 차량들)의 검출 및 위치측정에 대한 일정 세트의 규칙들, 알고리즘들, 및/또는 예측 모델들(124)을 생성할 수 있다. 알고리즘들/모델들(124)(예컨대, 심층 신경 네트워크(deep neural network)들, 콘볼루션 심층 신경 네트워크(convolutional deep neural network)들, 심층 신뢰 네트워크(deep belief network)들 및/또는 순환 신경 네트워크(recurrent neural network)들)은 입력 오디오 데이터(313)와 오디오 라벨들(예컨대, 사이렌 사운드와 같은 특정 사운드를 나타내는 라벨) 사이의 관계들을 일반화하고 찾아서 출력(610)을 생성할 수 있다. 하나의 실시예에서, 알고리즘들/모델들(124)은 영구 저장 디바이스(352)에 또는 원격 서버(예컨대, 서버(103)) 상에 저장될 수 있다.

도 6b를 참조하면, 출력(610)은 데이터 표현(예컨대, 그리드)으로서 표현될 수 있으며, 이때 신뢰도 스코어들 및/또는 음원 정보(도시되지 않음)가 데이터 표현의 소정 영역들에 채워진다. 도 6b의 예에서, 특정 사운드(예컨대, 사이렌 사운드)는 0.7 및 0.9의 신뢰도 스코어들(이는 가우스 분포(Gaussian distribution)일 수 있음)을 갖는 영역들에 존재할 가능성이 있으며, 이때 ADV의 전방은 점선 화살표를 향해 북쪽으로 향한다. 따라서, 사이렌 사운드는 ADV의 좌측에, 그리고 다른 사운드는 그의 우측 후방에 기인한다고 결정될 수 있다.

하나의 실시예에서, 알고리즘들/모델들(124)은 이어서 ADV 상에 업로드되어, 자율 주행 동안 실시간으로 활용될 수 있다. 즉, 모델들(124)에 의해 생성된 출력(610)은 ADS(110)에 의해 사용되어, 특정 사운드가 검출될 때 이에 따라 ADV를 동작시키기 위한 통신 신호들 및/또는 커맨드들을 생성하는 데 사용될 수 있다. 예를 들어, 하나의 또는 다수의 사이렌 사운드들이 검출될 때, ADS(110)는 데이터 표현(출력(610)) 내의 각각의 영역으로부터의 음원 정보에 기초하여 ADV의 주행 환경 내의 안전한 위치로 정지하거나 풀오버(pull over)하도록 ADV를 제어할 수 있다.

도 7은 하나의 실시예에 따른, ADV를 활용하는 음원 검출 및 위치측정을 위한 예시적 방법의 흐름도이다. 방법 또는 프로세스(700)는 소프트웨어, 하드웨어, 또는 이들의 조합을 포함할 수 있는 프로세싱 로직에 의해 수행될 수 있다. 예를 들어, 프로세스(700)는 도 1의 ADS(110)에 의해 수행될 수 있다.

도 7을 참조하면, 블록(701)에서, 프로세싱 로직은 ADV 상에 탑재된 다수의 오디오 센서들(예컨대, 마이크로폰 어레이)로부터 오디오 데이터를 수신한다. 오디오 데이터는 오디오 센서들에 의해 캡처되고 하나 이상의 음원들(예컨대, 응급 차량들)에 의해 방출되는 사운드들을 포함한다. 블록(702)에서, 수신된 오디오 데이터에 기초하여, 프로세싱 로직은 다수의 음원 정보를 결정한다. 각각의 음원 정보는 특정 사운드(예컨대, 사이렌 사운드)의 존재와 연관된 신뢰도 스코어를 포함한다. 블록(703)에서, 프로세싱 로직은 데이터 표현(예컨대, 그리드)을 생성하여, ADV의 주행 환경 내에 특정 사운드가 존재하는지 여부를 리포트한다. 데이터 표현은 결정된 음원 정보를 포함한다. 수신된 오디오 데이터 및 생성된 데이터 표현은 ADV의 자율 주행 동안 특정 음원을 실시간으로 인식하기 위해 머신 러닝 알고리즘을 후속적으로 트레이닝시키도록 활용된다.

위에서 기술되고 도시된 컴포넌트들 중 일부 또는 전부는 소프트웨어, 하드웨어, 또는 이들의 조합으로 구현될 수 있음에 유의한다. 예를 들어, 그러한 컴포넌트들은, 설치되고 영구 저장 디바이스에 저장되는 소프트웨어로서 구현될 수 있는데, 이는 본 출원 전체에 걸쳐 기술된 프로세스들 또는 동작들을 수행하기 위해 프로세서(도시되지 않음)에 의해 메모리에서 로딩되고 실행될 수 있다. 대안적으로, 그러한 컴포넌트들은 집적 회로(예컨대, 주문형 IC 또는 ASIC), 디지털 신호 프로세서(digital signal processor, DSP), 또는 필드 프로그래밍가능 게이트 어레이(field programmable gate array, FPGA)와 같은 전용 하드웨어 내에 프로그래밍되거나 임베드된 실행가능 코드로서 구현될 수 있는데, 이들은 애플리케이션으로부터 대응하는 드라이버 및/또는 운영 체제를 통해 액세스될 수 있다. 더욱이, 그러한 컴포넌트들은 하나 이상의 특정 명령들을 통해 소프트웨어 컴포넌트에 의해 액세스가능한 명령 세트의 일부로서 프로세서 또는 프로세서 코어 내의 특정 하드웨어 로직으로서 구현될 수 있다.

앞선 상세한 설명의 일부 부분들은 컴퓨터 메모리 내의 데이터 비트들에 대한 동작들의 심볼 표현들 및 알고리즘들과 관련하여 제시되었다. 이들 알고리즘 서명들 및 표현들은 당업자들이 그들의 작업의 실체를 다른 당업자들에게 가장 효과적으로 전달하기 위해 사용하는 방식들이다. 알고리즘은 본 명세서에서, 그리고 일반적으로, 원하는 결과로 이어지는 동작들의 자가-일관성 시퀀스가 되는 것으로 생각된다. 동작들은 물리적 수량들의 물리적 조작들을 필요로 하는 동작들이다.

그러나, 이들 및 유사한 용어들 전부는 적절한 물리적 수량들과 연관되어야 하고, 단지 이들 수량들에 적용되는 편리한 라벨들임을 염두에 두어야 한다. 위의 논의로부터 명백한 바와 같이 달리 구체적으로 진술되지 않는 한, 설명 전체에 걸쳐서, 아래의 청구범위에 설명된 것들과 같은 용어들을 활용하는 논의들은 컴퓨터 시스템의 레지스터들 및 메모리들 내의 물리적(전자적) 수량들로서 표현되는 데이터를, 컴퓨터 시스템 메모리들 또는 레지스터들 또는 다른 그러한 정보 저장소, 송신 또는 디스플레이 디바이스들 내에 물리적 수량들로서 유사하게 표현되는 다른 데이터로 조작하고 변형하는 컴퓨터 시스템 또는 유사한 전자적 컴퓨팅 디바이스의 액션 및 프로세스들을 지칭한다는 것이 이해된다.

하나의 실시예에서, 비일시적 컴퓨터 판독가능 매체에 저장되어 있는 컴퓨터 프로그램을 더 제공하고, 상기 컴퓨터 프로그램이 실행되어 전술한 자율 주행 차량(autonomous driving vehicle, ADV)이 주행 환경 내에서 동작하고 있는 동안 상기 ADV를 활용하는 음원 검출 및 위치측정을 위한 컴퓨터 구현 방법을 수행한다.

본 개시내용의 실시예들은 또한, 본 명세의의 동작들을 수행하기 위한 장치에 관한 것이다. 그러한 컴퓨터 프로그램은 비일시적 컴퓨터 판독가능 매체에 저장된다. 머신 판독가능 매체는 머신(예컨대, 컴퓨터)에 의해 판독가능한 형태로 정보를 저장하기 위한 임의의 메커니즘을 포함한다. 예를 들어, 머신 판독가능(예컨대, 컴퓨터 판독가능) 매체는 머신(예컨대, 컴퓨터) 판독가능 저장 매체(예컨대, 판독 전용 메모리(read only memory, “ROM”), 랜덤 액세스 메모리(random access memory, “RAM”), 자기 디스크 저장 매체, 광학 저장 매체, 플래시 메모리 디바이스)를 포함한다.

앞선 도면들에 묘사된 프로세스들 또는 방법들은 하드웨어(예컨대, 회로부, 전용 로직 등), 소프트웨어(예컨대, 비일시적 컴퓨터 판독가능 매체 상에서 구체화됨), 또는 둘 모두의 조합을 포함하는 프로세싱 로직에 의해 수행될 수 있다. 프로세스들 또는 방법들이 일부 순차적 동작들과 관련하여 전술되었지만, 설명된 동작들 중 일부는 상이한 순서로 수행될 수 있음이 이해되어야 한다. 게다가, 일부 동작들은 순차적이 아니라 병행하여 수행될 수 있다.

본 개시내용의 실시예들은 임의의 특정 프로그래밍 언어를 참조하여 기술되지 않는다. 다양한 프로그래밍 언어들은 본 명세서에 기술된 바와 같은 본 개시내용의 실시예들의 교시를 구현하는 데 사용될 수 있음이 이해될 것이다.

전술한 명세서에서, 본 개시내용의 실시예들은 그의 특정 예시적 실시예들을 참조하여 기술되었다. 아래의 청구범위에서 설명되는 바와 같은 본 개시내용의 더 넓은 사상 및 범주로부터 벗어남이 없이 다양한 수정들이 이루어질 수 있음이 명백할 것이다. 따라서, 명세서 및 도면들이 제한적인 의미가 아니라 예시적인 의미로 간주되어야 한다.

Claims

자율 주행 차량(autonomous driving vehicle, ADV)이 주행 환경 내에서 동작하고 있는 동안 상기 ADV를 활용하는 음원 검출 및 위치측정을 위한 컴퓨터 구현 방법으로서,
상기 ADV 상에 탑재된 복수의 오디오 센서들로부터 오디오 데이터를 수신하는 단계 - 상기 오디오 데이터는 상기 복수의 오디오 센서들에 의해 캡처되고 하나 이상의 음원들에 의해 방출되는 사운드들을 포함함 -;
상기 수신된 오디오 데이터에 기초하여, 복수의 음원 정보를 결정하는 단계 - 각각의 음원 정보는 특정 사운드의 존재와 연관된 신뢰도 스코어를 포함함 -; 및
데이터 표현을 생성하여, 상기 ADV의 상기 주행 환경 내에 상기 특정 사운드가 존재하는지 여부를 리포트하는 단계 - 상기 데이터 표현은 상기 결정된 복수의 음원 정보를 포함함 - 를 포함하고,
상기 수신된 오디오 데이터 및 상기 생성된 데이터 표현은 상기 ADV의 자율 주행 동안 상기 특정 음원을 실시간으로 인식하기 위해 머신 러닝 알고리즘을 후속적으로 트레이닝시키도록 활용되는, 방법.
제1항에 있어서,
상기 복수의 음원 정보를 결정하는 단계는, 상기 복수의 오디오 센서들로 음원 위치측정을 수행하여, 상기 음원들의 대응하는 오디오 센서들에 대해 상기 음원들의 방향들, 상기 음원들과 상기 음원들의 대응하는 오디오 센서들 사이의 거리들, 상기 캡처된 사운드들의 상대적 포지션들, 상기 캡처된 사운드들의 절대적 포지션들, 상기 캡처된 사운드들의 접근/이탈 상태들, 또는 현재 타임스탬프들과 연관된 상기 캡처된 사운드들의 세기들 중 적어도 하나를 결정하는 단계를 포함하는, 방법.
제2항에 있어서,
각각의 음원 정보는 대응하는 오디오 센서에 대해 음원의 방향, 상기 음원과 상기 대응하는 오디오 센서 사이의 거리, 캡처된 사운드의 상대적 포지션, 캡처된 사운드의 절대적 포지션, 캡처된 사운드의 접근/이탈 상태, 또는 현재 타임스탬프와 연관된 캡처된 사운드의 세기 중 적어도 하나를 추가로 포함하는, 방법.
제3항에 있어서,
상기 데이터 표현은 상기 ADV의 상기 주행 환경을 총체적으로 커버하는 복수의 영역들을 포함하는 그리드이고, 각각의 영역은, 상기 복수의 오디오 센서들로부터 오디오 센서에 대응하고 상기 영역 내에 상기 특정 사운드가 존재하는지 여부를 나타내는 결과들의 벡터를 리포트하고, 상기 결과들의 벡터는 영역 식별자(ID) 및 하나의 음원 정보를 포함하는, 방법.
제4항에 있어서,
각각의 영역은 상기 주행 환경 내에서 특정 크기를 부분적으로 커버하도록 구성되는, 방법.
제1항에 있어서,
상기 음원들은 응급 차량들이고, 상기 특정 사운드는 사이렌 사운드인, 방법.
제1항에 있어서,
상기 신뢰도 스코어는 0 내지 1의 범위 내에 있는, 방법.
제4항에 있어서,
상기 그리드의 중심은 상기 ADV의 포지션을 표현하는, 방법.
프로세서에 의해 실행될 때, 상기 프로세서로 하여금, 동작들을 수행하게 하는 명령어들이 저장되는 비일시적 머신 판독가능 매체로서, 상기 동작들은,
자율 주행 차량(ADV) 상에 탑재된 복수의 오디오 센서들로부터 오디오 데이터를 수신하는 동작 - 상기 오디오 데이터는 상기 복수의 오디오 센서들에 의해 캡처되고 하나 이상의 음원들에 의해 방출되는 사운드들을 포함함 -;
상기 수신된 오디오 데이터에 기초하여, 복수의 음원 정보를 결정하는 동작 - 각각의 음원 정보는 특정 사운드의 존재와 연관된 신뢰도 스코어를 포함함 -; 및
데이터 표현을 생성하여, 상기 ADV의 주행 환경 내에 상기 특정 사운드가 존재하는지 여부를 리포트하는 동작 - 상기 데이터 표현은 상기 결정된 복수의 음원 정보를 포함함 - 을 포함하고,
상기 수신된 오디오 데이터 및 상기 생성된 데이터 표현은 상기 ADV의 자율 주행 동안 상기 특정 음원을 실시간으로 인식하기 위해 머신 러닝 알고리즘을 후속적으로 트레이닝시키도록 활용되는, 비일시적 머신 판독가능 매체.
제9항에 있어서,
상기 복수의 음원 정보를 결정하는 동작은, 상기 복수의 오디오 센서들로 음원 위치측정을 수행하여, 상기 음원들의 대응하는 오디오 센서들에 대해 상기 음원들의 방향들, 상기 음원들과 상기 음원들의 대응하는 오디오 센서들 사이의 거리들, 상기 캡처된 사운드들의 상대적 포지션들, 상기 캡처된 사운드들의 절대적 포지션들, 상기 캡처된 사운드들의 접근/이탈 상태들, 또는 현재 타임스탬프들과 연관된 상기 캡처된 사운드들의 세기들 중 적어도 하나를 결정하는 동작을 포함하는, 비일시적 머신 판독가능 매체.
제10항에 있어서,
각각의 음원 정보는 대응하는 오디오 센서에 대해 음원의 방향, 상기 음원과 상기 대응하는 오디오 센서 사이의 거리, 캡처된 사운드의 상대적 포지션, 캡처된 사운드의 절대적 포지션, 캡처된 사운드의 접근/이탈 상태, 또는 현재 타임스탬프와 연관된 캡처된 사운드의 세기 중 적어도 하나를 추가로 포함하는, 비일시적 머신 판독가능 매체.
제11항에 있어서,
상기 데이터 표현은 상기 ADV의 상기 주행 환경을 총체적으로 커버하는 복수의 영역들을 포함하는 그리드이고, 각각의 영역은, 상기 복수의 오디오 센서들로부터 오디오 센서에 대응하고 상기 영역 내에 상기 특정 사운드가 존재하는지 여부를 나타내는 결과들의 벡터를 리포트하고, 상기 결과들의 벡터는 영역 식별자(ID) 및 하나의 음원 정보를 포함하는, 비일시적 머신 판독가능 매체.
제12항에 있어서,
각각의 영역은 상기 주행 환경 내에서 특정 크기를 부분적으로 커버하도록 구성되는, 비일시적 머신 판독가능 매체.
제9항에 있어서,
상기 음원들은 응급 차량들이고, 상기 특정 사운드는 사이렌 사운드인, 비일시적 머신 판독가능 매체.
제9항에 있어서,
상기 신뢰도 스코어는 0 내지 1의 범위 내에 있는, 비일시적 머신 판독가능 매체.
제12항에 있어서,
상기 그리드의 중심은 상기 ADV의 포지션을 표현하는, 비일시적 머신 판독가능 매체.
음원 검출 및 위치측정을 위한 시스템으로서,
프로세서; 및
상기 프로세서에 커플링되어, 상기 프로세서에 의해 실행될 때, 상기 프로세서로 하여금, 동작들을 수행하게 하는 명령어들을 저장하는 메모리를 포함하고, 상기 동작들은,
자율 주행 차량(ADV) 상에 탑재된 복수의 오디오 센서들로부터 오디오 데이터를 수신하는 동작 - 상기 오디오 데이터는 상기 복수의 오디오 센서들에 의해 캡처되고 하나 이상의 음원들에 의해 방출되는 사운드들을 포함함 -;
상기 수신된 오디오 데이터에 기초하여, 복수의 음원 정보를 결정하는 동작 - 각각의 음원 정보는 특정 사운드의 존재와 연관된 신뢰도 스코어를 포함함 -; 및
데이터 표현을 생성하여, 상기 ADV의 주행 환경 내에 상기 특정 사운드가 존재하는지 여부를 리포트하는 동작 - 상기 데이터 표현은 상기 결정된 복수의 음원 정보를 포함함 - 을 포함하고,
상기 수신된 오디오 데이터 및 상기 생성된 데이터 표현은 상기 ADV의 자율 주행 동안 상기 특정 음원을 실시간으로 인식하기 위해 머신 러닝 알고리즘을 후속적으로 트레이닝시키도록 활용되는, 시스템.
제17항에 있어서,
상기 복수의 음원 정보를 결정하는 동작은, 상기 복수의 오디오 센서들로 음원 위치측정을 수행하여, 상기 음원들의 대응하는 오디오 센서들에 대해 상기 음원들의 방향들, 상기 음원들과 상기 음원들의 대응하는 오디오 센서들 사이의 거리들, 상기 캡처된 사운드들의 상대적 포지션들, 상기 캡처된 사운드들의 절대적 포지션들, 상기 캡처된 사운드들의 접근/이탈 상태들, 또는 현재 타임스탬프들과 연관된 상기 캡처된 사운드들의 세기들 중 적어도 하나를 결정하는 동작을 포함하는, 시스템.
제18항에 있어서,
각각의 음원 정보는 대응하는 오디오 센서에 대해 음원의 방향, 상기 음원과 상기 대응하는 오디오 센서 사이의 거리, 캡처된 사운드의 상대적 포지션, 캡처된 사운드의 절대적 포지션, 캡처된 사운드의 접근/이탈 상태, 또는 현재 타임스탬프와 연관된 캡처된 사운드의 세기 중 적어도 하나를 추가로 포함하는, 시스템.
제19항에 있어서,
상기 데이터 표현은 상기 ADV의 상기 주행 환경을 총체적으로 커버하는 복수의 영역들을 포함하는 그리드이고, 각각의 영역은, 상기 복수의 오디오 센서들로부터 오디오 센서에 대응하고 상기 영역 내에 상기 특정 사운드가 존재하는지 여부를 나타내는 결과들의 벡터를 리포트하고, 상기 결과들의 벡터는 영역 식별자(ID) 및 하나의 음원 정보를 포함하는, 시스템.
제20항에 있어서,
각각의 영역은 상기 주행 환경 내에서 특정 크기를 부분적으로 커버하도록 구성되는, 시스템.
제17항에 있어서,
상기 음원들은 응급 차량들이고, 상기 특정 사운드는 사이렌 사운드인, 시스템.
제17항에 있어서,
상기 신뢰도 스코어는 0 내지 1의 범위 내에 있는, 시스템.
제20항에 있어서,
상기 그리드의 중심은 상기 ADV의 포지션을 표현하는, 시스템.
비일시적 컴퓨터 판독가능 매체에 저장되어 있는 컴퓨터 프로그램에 있어서, 상기 컴퓨터 프로그램이 실행되어 제1항 내지 제8항 중 어느 한 항에 따른 컴퓨터 구현 방법을 수행하는, 컴퓨터 프로그램.