KR20220024193A - 타깃 검출 방법, 장치, 기기, 저장 매체 및 프로그램 제품 - Google Patents

타깃 검출 방법, 장치, 기기, 저장 매체 및 프로그램 제품 Download PDF

Info

Publication number
KR20220024193A
KR20220024193A KR1020217042833A KR20217042833A KR20220024193A KR 20220024193 A KR20220024193 A KR 20220024193A KR 1020217042833 A KR1020217042833 A KR 1020217042833A KR 20217042833 A KR20217042833 A KR 20217042833A KR 20220024193 A KR20220024193 A KR 20220024193A
Authority
KR
South Korea
Prior art keywords
image
information
dimensional
collected
pixel point
Prior art date
Application number
KR1020217042833A
Other languages
English (en)
Inventor
신주 마
시난 리우
싱유 젱
완리 오우양
Original Assignee
센스타임 그룹 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 센스타임 그룹 리미티드 filed Critical 센스타임 그룹 리미티드
Publication of KR20220024193A publication Critical patent/KR20220024193A/ko

Links

Images

Classifications

    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

본 발명의 실시예는 타깃 검출 방법, 장치, 기기, 저장 매체 및 프로그램 제품을 제공하고, 여기서, 상기 타깃 검출 방법은 이미지 수집부재에 의해 수집된 이미지 및 상기 이미지 수집부재의 내부 파라미터를 획득하는 단계; 수집된 이미지 및 내부 파라미터에 기반하여, 수집된 이미지 중 각 픽셀점의 세계 좌표계에서의 3차원 좌표 정보를 결정하는 단계; 수집된 이미지 및 수집된 이미지 중 각 픽셀점의 세계 좌표계에서의 3차원 좌표 정보에 따라, 수집된 이미지에 대응되는 3차원 정보 이미지를 생성하는 단계 - 3차원 정보 이미지 중의 픽셀점의 정렬 순서는 수집된 이미지 중의 픽셀점의 정렬 순서와 동일함 - ; 및 3차원 정보 이미지에 기반하여, 수집된 이미지에 포함된 타깃 객체의 세계 좌표계에서의 3차원 검출 정보를 결정하는 단계를 포함한다.

Description

타깃 검출 방법, 장치, 기기, 저장 매체 및 프로그램 제품
관련 출원의 상호 참조
본 발명은 출원번호가 202010792241.X이고, 출원일이 2020년 08월 08일이며, 발명의 명칭이 “타깃 검출 방법, 장치, 기기 및 저장 매체”인 중국 특허 출원에 기반하여 제출하였고, 상기 중국 특허 출원의 우선권을 주장하는 바, 상기 중국 특허 출원의 모든 내용은 인용 방식으로 본 발명에 병합된다.
본 발명은 컴퓨터 비전 기술분야에 관한 것으로, 특히 타깃 검출 방법, 장치, 기기, 저장 매체 및 프로그램 제품에 관한 것이다.
타깃 검출은 컴퓨터 기술을 이용하여 일반적인 보행자 검출, 장애물 검출과 같은 이미지 또는 비디오 중의 관심 타깃을 검출 및 인식하는 것을 의미하고, 컴퓨터 기술의 발전과 컴퓨터 비전 원리의 광범위한 적용에 따라, 딥러닝 기반의 타깃 검출 기술은 이미 로봇 분야, 자율 주행 분야, 행동 인식 분야와 같은 다양한 분야에 광범위하게 적용되고 있다.
타깃 검출 기술에서, 2차원 타깃 검출 기술의 발전은 비교적 성숙되었고, 2차원 타깃 검출 작업에 비해, 3차원 타깃 검출 작업의 난이도는 더 크고 더 복잡하며 중요하다. 간편하고 효과적인 3차원 타깃 검출 방식을 제공하는 방법은 시급히 해결해야 할 문제이다.
본 발명의 실시예는 적어도 타깃 검출 방안을 제공한다.
제1 양태에서, 본 발명의 실시예는,
이미지 수집부재에 의해 수집된 이미지 및 상기 이미지 수집부재의 내부 파라미터를 획득하는 단계; 수집된 이미지 및 상기 내부 파라미터에 기반하여, 상기 수집된 이미지 중 각 픽셀점의 세계 좌표계에서의 3차원 좌표 정보를 결정하는 단계; 상기 수집된 이미지 및 상기 수집된 이미지 중 각 픽셀점의 세계 좌표계에서의 3차원 좌표 정보에 따라, 상기 수집된 이미지에 대응되는 3차원 정보 이미지를 생성하는 단계 - 상기 3차원 정보 이미지 중의 픽셀점의 정렬 순서는 상기 수집된 이미지 중의 픽셀점의 정렬 순서와 동일함 - ; 및 상기 3차원 정보 이미지에 기반하여, 상기 수집된 이미지에 포함된 타깃 객체의 상기 세계 좌표계에서의 3차원 검출 정보를 결정하는 단계를 포함하는 타깃 검출 방법을 제공한다.
제2 양태에서, 본 발명의 실시예는,
이미지 수집부재에 의해 수집된 이미지 및 상기 이미지 수집부재의 내부 파라미터를 획득하도록 구성되는 획득 모듈; 수집된 이미지 및 상기 내부 파라미터에 기반하여, 상기 수집된 이미지 중 각 픽셀점의 세계 좌표계에서의 3차원 좌표 정보를 결정하도록 구성되는 결정 모듈; 상기 수집된 이미지 및 상기 수집된 이미지 중 각 픽셀점의 세계 좌표계에서의 3차원 좌표 정보에 따라, 상기 수집된 이미지에 대응되는 3차원 정보 이미지를 생성하도록 구성되는 생성 모듈 - 상기 3차원 정보 이미지 중의 픽셀점의 정렬 순서는 상기 수집된 이미지 중의 픽셀점의 정렬 순서와 동일함 - ; 및 상기 3차원 정보 이미지에 기반하여, 상기 수집된 이미지에 포함된 타깃 객체의 상기 세계 좌표계에서의 3차원 검출 정보를 결정하도록 구성되는 검출 모듈을 포함하는 타깃 검출 장치를 제공한다.
제3 양태에서, 본 발명의 실시예는 프로세서, 메모리 및 버스를 포함하는 전자 기기를 제공하고, 상기 메모리에는 상기 프로세서에 의해 실행 가능한 기계 판독 가능 명령이 저장되며, 전자 기기가 작동될 경우, 상기 프로세서와 상기 메모리 사이는 버스를 통해 통신하고, 상기 기계 판독 가능 명령이 상기 프로세서에 의해 실행될 경우 제1 양태에 따른 타깃 검출 방법의 단계를 수행한다.
제4 양태에서, 본 발명의 실시예는 컴퓨터 판독 가능 저장 매체를 제공하고, 상기 컴퓨터 판독 가능 저장 매체에는 컴퓨터 프로그램이 저장되며, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우 제1 양태에 따른 타깃 검출 방법의 단계를 수행한다.
제5 양태에서, 본 발명의 실시예는 컴퓨터 판독 가능 코드를 포함하는 컴퓨터 프로그램 제품을 제공하고, 상기 컴퓨터 판독 가능 코드가 전자 기기에서 실행될 경우, 상기 전자 기기 중의 프로세서는 제1 양태에 따른 타깃 검출 방법의 단계를 수행한다.
본 발명의 실시예에서, 이미지 수집부재가 이미지를 수집한 후, 상기 수집된 이미지에 기반하여, 이미지 구조가 동일하고 각 픽셀점의 세계 좌표계에서의 3차원 좌표 정보가 증가된 3차원 정보 이미지를 획득할 수 있고, 상기 3차원 정보 이미지에 기반하여 타깃 객체에 대한 3차원 타깃 검출을 완료할 수 있으며, 이미지 수집부재는 레이더 장치에 비해 휴대성이 높고 비용이 저렴한 장점을 가지고, 레이더 장치가 수집한 포인트 클라우드 데이터에 비해, 이미지 수집부재는 근거리 영역 내에서도 부피가 작은 타깃 객체를 포함하는 시야 범위 내의 완전한 타깃 객체를 획득할 수 있으므로, 근거리 영역의 타깃 객체에 대한 3차원 타깃 검출을 정확하게 완료할 수 있다.
본 발명의 상기 목적, 특징 및 장점을 보다 명확하고 용이하게 이해하기 위해, 아래에서 바람직한 실시예와 첨부 도면을 결부하여 상세하게 설명한다.
본 발명의 실시예의 기술적 해결수단을 보다 명확하게 설명하기 위하여, 이하 실시예에서 사용되는 첨부 도면을 간단히 설명하고, 여기에서의 도면은 명세서에 병합되어 본 명세서의 일부분으로 구성되며, 이러한 도면은 본 발명에 부합되는 실시예를 도시하고, 명세서와 함께 본 발명의 기술적 해결수단을 설명하기 위해 사용된다. 이해해야 할 것은, 이하 도면은 본 발명의 일부 실시예일 뿐이므로 본 발명의 한정으로 보아서는 아니 되며, 당업자는 진보성 창출에 힘쓸 필요 없이 이러한 도면으로부터 다른 도면을 얻을 수 있을 것이다.
도 1a는 3차원 공간에서 타깃 객체의 검출 결과 모식도이다.
도 1b는 2차원 이미지에서 타깃 객체의 검출 결과 모식도이다.
도 1c는 본 발명의 실시예에서 제공되는 타깃 검출 방법의 흐름도이다.
도 2는 본 발명의 실시예에서 제공되는 픽셀점의 세계 좌표계에서의 3차원 좌표 정보를 결정하는 방법 흐름도이다.
도 3은 본 발명의 실시예에서 제공되는 픽셀점의 세계 좌표계에서의 3차원 좌표 정보를 결정하는 장면 모식도이다.
도 4는 본 발명의 실시예에서 제공되는 3차원 정보 이미지를 생성하는 첫 번째 방법 흐름도이다.
도 5는 본 발명의 실시예에서 제공되는 3차원 정보 이미지를 생성하는 두 번째 방법 흐름도이다.
도 6은 본 발명의 실시예에서 제공되는 타깃 객체의 3차원 검출 정보를 결정하는 방법 흐름도이다.
도 7은 본 발명의 실시예에서 제공되는 타깃 객체의 3차원 검출 정보를 결정하는 방법 흐름도이다.
도 8은 본 발명의 실시예에서 제공되는 타깃 객체의 3차원 검출 정보를 결정하는 신경망 모식도이다.
도 9a는 본 발명의 실시예에서 제공되는 신경망의 트레이닝 방법 모식도이다.
도 9b는 본 발명의 실시예에서 제공되는 신경망의 트레이닝 방법 모식도이다.
도 10은 본 발명의 실시예에서 제공되는 타깃 차량의 제어 방법 흐름도이다.
도 11a는 본 발명의 실시예에서 제공되는 타깃 검출 방법의 논리 흐름도이다.
도 11b는 본 발명의 실시예에서 제공되는 검출할 이미지의 모식도이다.
도 11c는 본 발명의 실시예에서 제공되는 깊이 이미지의 모식도이다.
도 11d는 본 발명의 실시예에서 제공되는 3차원 정보 이미지의 모식도이다.
도 12는 본 발명의 실시예에서 제공되는 타깃 검출 장치의 구조 모식도이다.
도 13은 본 발명의 실시예에서 제공되는 전자 기기의 모식도이다.
본 발명의 실시예의 목적, 기술적 해결수단 및 장점을 보다 명확하게 하기 위해, 아래에서 본 발명의 실시예 중의 첨부 도면을 참조하여 본 발명의 실시예 중의 기술적 해결수단을 명확하고 완전하게 설명하되, 설명된 실시예는 본 발명의 일부 실시예일 뿐 전체 실시예가 아님이 분명하다. 여기의 도면에서 통상적으로 설명되거나 도시되는 본 발명의 실시예의 컴포넌트는 여러가지 상이한 구성으로 배열 및 설계할 수 있다. 따라서, 첨부 도면에서 제공되는 본 발명의 실시예에 대한 상세한 설명은 보호하고자 하는 본 발명의 범위를 한정하려는 것이 아니라, 본 발명의 선택적 실시예를 나타내는 것에 불과하다. 본 발명의 실시예를 기반으로, 당업자가 진보성 창출에 힘쓸 필요 없이 획득한 모든 다른 실시예는 전부 본 발명의 보호 범위 내에 속한다.
유의해야 할 것은, 이하 도면에서 유사한 부호 및 문자는 유사한 항목을 나타내므로, 하나의 도면에서 어느 하나의 항목이 정의되는 경우, 이후의 도면에서 추가 정의 및 해석될 필요가 없다.
본문에서 용어 “및/또는”은 단지 연관 관계를 설명하기 위한 것으로, 3가지 관계가 존재할 수 있음을 나타내는데, 예를 들어 “A 및/또는 B”는, A만 존재, A와 B가 동시에 존재, B만 존재하는 3가지 경우를 나타낼 수 있다. 이 밖에, 본문에서 용어 “적어도 하나”는 여러가지 중의 임의의 한 가지 또는 여러가지 중의 적어도 두 가지의 임의의 조합을 나타내는데, 예를 들어 A, B, C 중의 적어도 하나를 포함한다는 것은 A, B 및 C로 구성된 집합에서 선택된 임의의 하나 또는 복수의 요소를 포함한다는 것을 나타낼 수 있다.
타깃 검출은 컴퓨터 기술을 이용하여 일반적인 보행자 검출, 장애물 검출과 같은 이미지 또는 비디오 중의 관심 타깃을 검출 및 인식하는 것을 의미한다. 타깃 검출에서, 2차원 타깃 검출 및 3차원 타깃 검출을 포함하는데, 2차원 타깃 검출 결과는 이미지에 포함된 타깃 객체의 2차원 검출 프레임을 표시할 수 있고, 3차원 타깃 검출 결과는 이미지에 포함된 타깃 객체의 3차원 검출 프레임을 표시할 수 있으며, 2차원 타깃 검출에 비해 3차원 타깃 검출이 더 복잡하고 중요하다.
컴퓨터 비전에서 3차원 타깃 검출은 중요한 작업으로서, 상기 작업은 3차원 공간 내에서 타깃의 좌표와 형상 및 방향을 검출해야 한다. 이미지 데이터에 깊이 정보가 결여되므로, 이미지 기반의 3차원 검출 시스템은 이미지 중 각 픽셀의 깊이 정보를 획득하기 위해, 일반적으로 타깃 이미지에 대해 먼저 깊이 추정을 수행해야 하며, 다음 RGB 이미지 및 추정된 깊이 맵을 시스템의 입력으로 사용하여, 이미지 중 타깃의 3차원 정보를 산출한다. 도 1a 및 도 1b에 도시된 바와 같이, 각각 3차원 공간에서의 타깃 객체(자동차)의 검출 결과 및 2차원 이미지에서의 타깃 객체의 검출 결과이다. 여기서, 직사각형 프레임(11)은 검출 결과이고, 직사각형 프레임(12)은 수동 라벨링 결과이다.
관련 기술에서, 이미지 기반의 3차원 검출 방법은 다음과 같은 부족점이 있다. 한편, 이미지 데이터에는 대응되는 깊이 정보가 결여되므로, 타깃의 3차원 정보(위치, 형상, 방향)를 효과적으로 추정할 수 없고; 다른 한편, 이미지 데이터와 3차원 공간은 서로 상이한 좌표계에 속하므로, 이미지 데이터를 직접 이용하여 3차원 공간 중의 결과를 산출하면 큰 오류가 발생하여, 성능이 심하게 저하되며; 또 다른 한편, 카메라 파라미터를 이용하면 깊이 데이터를 3차원 공간에 매핑할 수 있으나, 이 방법은 이미지 픽셀을 3차원 포인트 클라우드로 매핑할 수 있다. 따라서, 다음과 같은 추가 문제가 발생할 수 있다. 예를 들면, 전체 시스템에 상이한 형태의 데이터(이미지 데이터 및 포인트 클라우드 데이터)가 포함되는데, 시스템에는 반드시 상이한 모듈이 포함되어 각각 이 두 가지 데이터를 처리해야 하고, 통합된 방식으로 처리할 수 없다. 다른 예를 들면, 두 가지 상이한 형태의 데이터를 단계적으로 트레이닝해야 하므로, 모델은 전체적으로 최적화될 수 없다. 이 밖에, 현재의 포인트 클라우드 지향 딥러닝 기술의 발전은 이미지 지향 딥러닝 기술보다 훨씬 뒤떨어져, 시스템에는 포인트 클라우드 데이터를 처리하는 모듈이 전체 검출 시스템의 성능을 제한하는 병목 현상이 나타나게 될 것이다.
레이저 장치가 포인트 클라우드 이미지를 수집하는 방식에 기반하여 타깃 객체에 대해 3차원 타깃 검출을 수행하는 경우, 검출을 수행하는 물체에 레이더 장치를 장착해야 하는데, 예를 들어 3차원 타깃 검출을 수행하는 로봇에 레이더 장치를 장착해야 하고, 레이더 장치를 장착하여 3차원 타깃 검출을 수행하는 방식은 비용이 높고 휴대성이 떨어진다. 이 밖에, 레이더 장치가 포인트 클라우드 이미지를 수집하는 방식을 통해 3차원 타깃 검출을 수행하는 경우, 레이더 장치는 레이더 사각지대와 저해상도 문제가 있기 때문에, 근거리의 레이더 사각지대 또는 부피가 작은 타깃 객체의 경우, 타깃에 대응되는 유효 포인트 클라우드 데이터를 생성할 수 없게 된다. 따라서, 레이더 장치가 포인트 클라우드 이미지를 수집하는 방식으로 타깃 검출을 수행하는 경우, 비용이 높고 휴대성이 떨어지며, 근거리 영역 또는 부피가 작은 물체를 검출할 때 정확도가 낮은 문제가 있다.
상기 연구를 기반으로, 본 발명의 실시예는 타깃 검출 방법을 제공하는 바, 즉 이미지 수집부재에 의해 수집된 이미지를 획득한 후, 수집된 이미지 및 이미지 수집부재의 내부 파라미터를 통해, 수집된 이미지 중 각 픽셀점의 세계 좌표계에서의 3차원 좌표 정보를 결정한 다음, 수집된 이미지 및 수집된 이미지 중 각 픽셀점의 세계 좌표계에서의 3차원 좌표 정보에 따라, 픽셀점 정렬 순서와 수집된 이미지 중의 픽셀점 정렬 순서가 일치한 3차원 정보 이미지를 획득할 수 있다. 픽셀점의 정렬 순서가 변경되지 않기 때문에, 3차원 정보 이미지는 여전히 수집된 이미지와 동일한 이미지 구조를 유지할 수 있고, 이에 기반하여 수집된 이미지에 포함된 타깃 객체의 세계 좌표계에서의 3차원 검출 정보를 효과적으로 결정할 수 있다.
볼 수 있다시피, 본 발명의 실시예는 타깃 검출을 수행하는 경우, 이미지 수집부재가 이미지를 수집한 후, 상기 수집된 이미지에 기반하여, 이미지 구조가 동일하고 각 픽셀점의 세계 좌표계에서의 3차원 좌표 정보가 증가된 3차원 정보 이미지를 획득할 수 있다. 상기 3차원 정보 이미지에 기반하여 타깃 객체에 대한 3차원 타깃 검출을 완료할 수 있다. 이미지 수집부재는 레이더 장치에 비해 휴대성이 높고 비용이 저렴한 장점을 가지고; 레이더 장치가 수집한 포인트 클라우드 데이터에 비해, 이미지 수집부재는 근거리 영역 내에서도 부피가 작은 타깃 객체를 포함하는 시야 범위 내의 완전한 타깃 객체를 획득할 수 있으므로, 근거리 영역의 타깃 객체에 대한 3차원 타깃 검출을 정확하게 완료할 수 있다.
본 발명의 실시예를 용이하게 이해하기 위해, 우선 본 발명의 실시예에서 공개되는 타깃 검출 방법에 대해 상세하게 소개할 것이다. 본 발명의 실시예에서 제공되는 타깃 검출 방법의 수행 주체는 일반적으로 소정의 산출 능력을 가진 컴퓨터 기기이고, 상기 컴퓨터 기기는 예를 들어 단말 기기 또는 서버 또는 다른 처리 기기를 포함한다. 일부 가능한 구현 방식에서, 상기 타깃 검출 방법은 프로세서가 메모리에 저장된 컴퓨터 판독 가능 명령을 호출하는 방식을 통해 구현될 수 있다.
도 1c를 참조하면, 본 발명의 실시예에서 제공되는 타깃 검출 방법의 흐름도이고, 상기 타깃 검출 방법은 하기와 같은 단계 S101 내지 단계 S104를 포함한다.
단계 S101에서, 이미지 수집부재에 의해 수집된 이미지 및 상기 이미지 수집부재의 내부 파라미터를 획득한다.
예시적으로, 이미지 수집부재는 가시광선(적: Red; 녹: Green; 청: Blue, RGB) 카메라 또는 RGB 카메라와 같은 RGB 이미지를 수집할 수 있는 카메라 컴포넌트를 포함할 수 있고, 대응되는 수집된 이미지는 RGB 이미지일 수 있다.
예시적으로, 이미지 수집부재의 내부 파라미터는 이미지 좌표계를 카메라 좌표계로 변환하기 위해 사용되는 카메라 내부 파라미터 매트릭스의 일부 또는 전부 파라미터를 포함할 수 있으며, 본 발명의 실시예는 이에 대해 한정하지 않는다.
단계 S102에서, 수집된 이미지 및 내부 파라미터에 기반하여, 수집된 이미지 중 각 픽셀점의 세계 좌표계에서의 3차원 좌표 정보를 결정한다.
예시적으로, 수집된 이미지에 기반하여 이미지 좌표계를 설정할 수 있고, 구축된 이미지 좌표계에 기반하여 각 픽셀점의 이미지 좌표계에서의 픽셀 좌표값을 결정할 수 있으며, 이미지 좌표계 및 카메라 좌표계 사이의 변환 관계(이미지 수집부재의 내부 파라미터)에 기반하여, 수집된 이미지에 포함된 각 픽셀점의 카메라 좌표계에서의 X축 및 Y축을 따른 좌표값을 결정할 수 있다. 또한, 세계 좌표계 및 카메라 좌표계 사이의 상호 변환 관계(이미지 수집부재의 외부 파라미터)에 기반하여, 수집된 이미지에 포함된 각 픽셀점의 세계 좌표계에서의 X축 및 Y축을 따른 좌표값을 결정할 수 있다. 카메라 좌표계와 세계 좌표계가 일치하는 경우, 각 픽셀점의 카메라 좌표계에서의 좌표값을 직접 상기 픽셀점의 세계 좌표계에서의 좌표값으로 사용할 수 있다.
각 픽셀점의 세계 좌표계에서의 Z축 방향을 따른 좌표값의 경우, 상기 픽셀점의 카메라 좌표계에서의 깊이 정보에 따라 결정할 수 있다. 일부 실시형태에서, 수집된 이미지 및 깊이 이미지를 결정하기 위한 사전 트레이닝된 신경망에 따라, 상기 수집된 이미지에 대응되는 깊이 이미지를 결정하여, 수집된 이미지 중의 각 픽셀점의 카메라 좌표계에서의 깊이 정보를 획득할 수 있다. 이로써, 이미지 좌표계에서의 각 픽셀점의 픽셀 좌표값 및 상기 픽셀점의 카메라 좌표계에서의 깊이 정보를 결부하여, 상기 픽셀점의 세계 좌표계에서의 3차원 좌표 정보를 결정할 수 있고, 구현 과정은 아래에서 상세하게 설명할 것이다.
단계 S103에서, 수집된 이미지 및 수집된 이미지 중 각 픽셀점의 세계 좌표계에서의 3차원 좌표 정보에 따라, 수집된 이미지에 대응되는 3차원 정보 이미지를 생성하되;
3차원 정보 이미지 중의 픽셀점의 정렬 순서는 수집된 이미지 중의 픽셀점의 정렬 순서와 동일하다.
예시적으로, 수집된 이미지에 포함된 복수의 픽셀점은 설정된 질감, 색조 및 정렬 순서 등 정보에 따라 이미지 구조를 구성할 수 있다. 이미지 구조는 수집된 이미지에 포함된 검출할 타깃 객체에 대응되는 구조 정보를 반영할 수 있고, 수집된 이미지 중의 픽셀점의 정렬 순서가 변경되지 않는 경우, 수집된 이미지의 이미지 구조도 변경되지 않으며, 즉 이미지에 포함된 타깃 객체의 형상이 변경되지 않는다. 따라서, 3차원 정보 이미지 중의 픽셀점의 정렬 순서와 수집된 이미지 중의 픽셀점의 정렬 순서가 동일한 경우, 3차원 정보 이미지는 여전히 수집된 이미지와 동일한 이미지 구조를 유지할 수 있고, 이에 기반하여 수집된 이미지에 포함된 타깃 객체의 세계 좌표계에서의 3차원 검출 정보를 효과적으로 결정할 수 있다.
일부 실시형태에서, 수집된 이미지 및 수집된 이미지 중 각 픽셀점의 세계 좌표계에서의 3차원 좌표 정보에 따라, 수집된 이미지에 대응되는 3차원 정보 이미지를 생성하는 단계는,
각 픽셀점에 대응되는 3차원 좌표 정보 및 상기 픽셀점의 수집된 이미지에서의 인덱스 정보에 따라, 상기 3차원 정보 이미지를 생성하는 단계를 포함할 수 있되; 여기서, 3차원 정보 이미지 중의 각 픽셀점의 채널 정보는 적어도 상기 픽셀점의 세계 좌표계에서의 3차원 좌표 정보를 포함한다.
예시적으로, 수집된 이미지에서의 각 픽셀점의 인덱스 정보는 상기 픽셀점의 수집된 이미지에서의 위치를 나타낼 수 있는데, 예를 들어, 수집된 이미지는 m*n개의 픽셀점을 포함하고, 인덱스 정보 (i, j)를 통해 픽셀점의 수집된 이미지에서의 인덱스 정보를 나타낼 수 있으며, (i, j)는 상기 픽셀점이 수집된 이미지에서 i행 및 j열에 위치함을 나타낼 수 있다.
수집된 이미지에 포함된 타깃 객체에 대해 3차원 타깃 검출을 수행하는 경우, 타깃 객체를 구성하는 각 픽셀점의 3차원 좌표 정보를 알아야 하고, 이에 기반하여 각 픽셀점에 대응되는 3차원 좌표 정보 및 상기 픽셀점의 수집된 이미지에서의 인덱스 정보를 결부하여, 이미지 형태를 구비한 3차원 정보 이미지를 재구축할 수 있다. 이로써, 상기 3차원 정보 이미지를 구축하는 경우, 수집된 이미지에서의 각 픽셀점의 인덱스 정보 및 3차원 좌표 정보를 동시에 고려했기 때문에, 구축된 3차원 정보 이미지는 수집된 이미지와 동일한 이미지 구조를 가지고, 즉 포함된 타깃 객체의 형상은 변경되지 않는다. 이 밖에, 3차원 정보 이미지에 포함된 각 픽셀점에 대응되는 3차원 좌표 정보를 재결합하여, 상기 3차원 정보 이미지에 포함된 타깃 객체에 3차원 타깃 검출을 수행할 수 있다.
본 발명의 실시예에서, 수집된 이미지에 대응되는 3차원 정보 이미지를 생성하는 경우, 수집된 이미지에서의 각 픽셀점의 인덱스 정보에 따라 생성한 것이므로, 3차원 정보 이미지는 여전히 수집된 이미지와 동일한 이미지 구조를 유지할 수 있다. 이 밖에, 수집된 이미지에 비해, 상기 3차원 정보 이미지에는 각 픽셀점에 대해 상기 픽셀점의 세계 좌표계에서의 3차원 좌표 정보가 증가되었기 때문에, 상기 3차원 정보 이미지에 기반하여 타깃 객체의 세계 좌표계에서의 3차원 검출 정보를 검출할 수 있다.
단계 S104에서, 3차원 정보 이미지에 기반하여, 수집된 이미지에 포함된 타깃 객체의 세계 좌표계에서의 3차원 검출 정보를 결정한다.
예시적으로, 타깃 객체는 상이한 응용 장면에서 상이한 형태를 포함하며, 자율 주행 분야에서 타깃 객체는 차량, 보행자, 난간 등 3차원 타깃 검출할 타깃 객체를 포함할 수 있다.
3차원 정보 이미지를 획득한 후, 상기 3차원 정보 이미지에 기반하여 타깃 객체에 대해 3차원 타깃 검출을 수행할 수 있다. 상기 3차원 정보 이미지에는 수집된 이미지와 동일한 이미지 구조가 포함되기에, 상기 3차원 정보 이미지를 통해 수집된 이미지에 포함된 타깃 객체의 세계 좌표계에서의 3차원 검출 정보를 검출할 수 있다.
예시적으로, 각 타깃 객체의 세계 좌표계에서의 3차원 검출 정보는 상기 타깃 객체의 중심점의 세계 좌표계에서의 위치 좌표, 상기 타깃 객체의 세계 좌표계에서의 길이, 폭, 높이 및 상기 타깃 객체의 세계 좌표계에서의 방향 각도를 포함할 수 있다. 상기 방향 각도는 사전 설정된 타깃 객체의 양의 방향과 사전 설정된 방향의 협각을 통해 나타낼 수 있으며, 예를 들어 타깃 객체가 차량인 경우, 차량의 차머리 방향과 사전 설정된 방향의 협각으로 상기 차량의 방향 각도를 나타낼 수 있다.
예시적으로, 타깃 객체에 대응되는 3차원(three-dimensional, 3D) 검출 프레임의 위치 정보를 통해 타깃 객체의 3차원 검출 정보를 나타낼 수 있다. 일부 실시형태에서, 타깃 객체의 세계 좌표계에서의 길이, 폭 및 높이는 각각 타깃 객체에 대응되는 3D 검출 프레임의 길이, 폭 및 높이를 통해 나태낼 수 있고, 타깃 객체의 중심점은 상기 타깃 객체에 대응되는 3D 검출 프레임의 중심점을 통해 나타낼 수 있으며, 타깃 객체의 방향 각도는 상기 타깃 객체에 대응되는 3D 검출 프레임의 방향 각도를 통해 나타낼 수 있다. 일반적으로, 타깃 객체에 대응되는 3D 검출 프레임은 상기 타깃 객체의 외접 직육면체로 나타낼 수 있다.
본 발명의 실시예에서, 이미지 수집부재가 이미지를 수집한 후, 상기 수집된 이미지에 기반하여, 이미지 구조가 동일하고 각 픽셀점의 세계 좌표계에서의 3차원 좌표 정보가 증가된 3차원 정보 이미지를 획득할 수 있으며, 상기 3차원 정보 이미지에 기반하여 타깃 객체에 대한 3차원 타깃 검출을 완료할 수 있다. 이미지 수집부재는 레이더 장치에 비해 휴대성이 높고 비용이 저렴한 장점을 가지고, 레이더 장치가 수집한 포인트 클라우드 데이터에 비해, 이미지 수집부재는 근거리 영역 내에서도 부피가 작은 타깃 객체를 포함하는 시야 범위 내의 완전한 타깃 객체를 획득할 수 있으므로, 근거리 영역의 타깃 객체에 대한 3차원 타깃 검출을 정확하게 완료할 수 있다.
이하 실시예를 결부하여 상기 단계 S101 내지 단계 S104를 상세하게 설명한다.
상기 수집된 이미지 및 내부 파라미터에 기반하여, 수집된 이미지 중 각 픽셀점의 세계 좌표계에서의 3차원 좌표 정보를 결정하는 단계 S102의 경우, 도 2에 도시된 바와 같이, 하기와 같은 단계 S1021 내지 단계 S1022를 포함할 수 있다.
단계 S1021에서, 수집된 이미지에 기반하여, 수집된 이미지에 대응되는 깊이 이미지를 생성하되, 깊이 이미지에는 수집된 이미지 중의 각 픽셀점의 깊이 정보가 포함된다.
단계 S1022에서, 수집된 이미지 중 각 픽셀점의 이미지 좌표계에서의 2차원 좌표 정보, 상기 픽셀점의 깊이 정보 및 내부 파라미터에 기반하여, 상기 픽셀점의 세계 좌표계에서의 3차원 좌표 정보를 결정한다.
예시적으로, 수집된 이미지에 대응되는 깊이 이미지를 결정하는 경우, 깊이 이미지를 결정하기 위한 사전 트레이닝된 신경망에 따라 상기 수집된 이미지에 대응되는 깊이 이미지를 결정하여, 수집된 이미지 중의 각 픽셀점의 깊이 정보를 획득할 수 있으며, 예를 들어 카메라 좌표계에서의 깊이 정보일 수 있다.
여기서, 수집된 이미지에 대응되는 깊이 이미지를 결정하기 위한 신경망은 사전 수집된 대량의 샘플 이미지 및 상기 샘플 이미지의 라벨링된 설정 픽셀점의 카메라 좌표계에서의 깊이 정보를 통해 트레이닝하여 획득될 수 있고, 본 발명의 실시예는 깊이 이미지를 결정하는 신경망의 트레이닝 과정에 대해 한정하지 않는다.
수집된 이미지 중의 각 픽셀점에 대응되는 깊이 정보를 획득한 후, 먼저 각 픽셀점의 카메라 좌표계에서의 3차원 좌표 정보를 결정한 다음, 상기 픽셀점의 세계 좌표계에서의 3차원 좌표 정보를 결정할 수 있다. 각 픽셀점의 세계 좌표계에서의 3차원 좌표 정보는 세계 좌표계에서 X축 방향을 따른 좌표값, Y축 방향을 따른 좌표값 및 Z축 방향을 따른 좌표값을 포함할 수 있다. 산출의 편의를 위해, 본 발명의 실시예는 카메라 좌표계와 세계 좌표계가 일치하도록 할 수 있고, 즉 카메라 좌표계의 좌표 원점과 세계 좌표계의 좌표 원점, 카메라 좌표계의 X축과 세계 좌표계의 X축, 카메라 좌표계의 Y축과 세계 좌표계의 Y축 및 카메라 좌표계의 Z축과 세계 좌표계의 Z축이 일치하도록 하는 것이다. 도 3에 도시된 바와 같이, 카메라 좌표계와 세계 좌표계가 일치하는 경우이고, 상기 경우에 Fc는 카메라 좌표계 또는 세계 좌표계의 원점을 나타내며, Xc는 카메라 좌표계 또는 세계 좌표계의 X축을 나타내고, Yc는 카메라 좌표계 또는 세계 좌표계의 Y축을 나타내며, Zc는 카메라 좌표계 또는 세계 좌표계의 Z축을 나타낸다. 픽셀점 P를 수집된 이미지에서 제i행 및 제j열의 픽셀점으로 가정한다. 일부 실시형태에서, 하기와 같은 공식 (1)에 따라 픽셀점 P의 세계 좌표계에서의 3차원 좌표 정보를 결정할 수 있다.
Figure pct00001
여기서,
Figure pct00002
는 수집된 이미지의 픽셀점 P의 세계 좌표계에서의 Z축 방향을 따른 좌표값을 나타내고;
Figure pct00003
는 수집된 이미지의 픽셀점 P의 세계 좌표계에서의 X축 방향을 따른 좌표값을 나타내며;
Figure pct00004
는 수집된 이미지의 픽셀점 P의 세계 좌표계에서의 Y축 방향을 따른 좌표값을 나타내고;
Figure pct00005
는 수집된 이미지의 픽셀점 P의 픽셀 좌표계에서의 u축 방향을 따른 좌표값을 나타내며;
Figure pct00006
는 수집된 이미지의 픽셀점 P의 픽셀 좌표계에서의 v축 방향을 따른 좌표값을 나타내고;
Figure pct00007
는 수집된 이미지의 픽셀점 P의 깊이값을 나타내며; (Cx, Cy)는 이미지 수집부재의 광점 C의 세계 좌표계에서의 좌표값을 나타내되, 여기서 Cx는 이미지 수집부재의 광축과 수집된 이미지의 교차점의 세계 좌표계에서의 X축 방향을 따른 좌표값을 나타내고; Cy는 이미지 수집부재의 광축과 수집된 이미지의 교차점의 세계 좌표계에서의 Y축 방향을 따른 좌표값을 나타내며; f는 이미지 수집부재의 초점 거리를 나타낸다.
상기 과정에서, 세계 좌표계와 카메라 좌표계가 일치하는 경우, 사용된 카메라 파라미터 정보는 이미지 수집부재의 광축과 수집된 이미지의 교차점의 세계 좌표계에서의 X축 방향을 따른 좌표값, 이미지 수집부재의 광축과 수집된 이미지의 교차점의 세계 좌표계에서의 Y축 방향을 따른 좌표값 및 이미지 수집부재의 초점 거리를 포함한다. 상기 방식은 자율 주행 분야에서 타깃 차량에 설치된 이미지 수집부재의 광심을 직접 원점으로 하여, 세계 좌표계와 미지 수집부재에 대응되는 카메라 좌표계가 일치하도록 함으로써, 상기 공식을 직접 사용하여 각 픽셀점의 세계 좌표계에서의 3차원 좌표 정보를 결정할 수 있다.
본 발명의 실시예에서, 수집된 이미지에 기반하여 상기 수집된 이미지의 각 픽셀점에 대응되는 깊이 정보를 빠르게 예측해낼 수 있고, 또한 각 픽셀점의 이미지 좌표계에서의 2차원 좌표 정보, 대응되는 깊이 정보에 기반하여, 이미지 수집부재의 내부 파라미터를 재결합하여, 수집된 이미지 중 각 픽셀점의 세계 좌표계에서의 3차원 좌표 정보를 빠르게 획득할 수 있다. 각 픽셀점의 세계 좌표계에서의 3차원 좌표 정보를 획득한 후, 각 픽셀점의 세계 좌표계에서의 3차원 좌표 정보에 기반하여, 수집된 이미지에 대응되는 3차원 정보 이미지를 생성할 수 있다.
하나의 실시형태에서, 상기 각 픽셀점에 대응되는 3차원 좌표 정보 및 상기 픽셀점의 수집된 이미지에서의 인덱스 정보에 따라, 3차원 정보 이미지를 생성하는 단계 S103의 경우, 도 4에 도시된 바와 같이, 하기와 같은 단계 S1031 내지 단계 S1032를 포함할 수 있다.
단계 S1031에서, 각 픽셀점에 대응되는 3차원 좌표 정보를 3차원 정보 이미지에서 상기 픽셀점에 대응되는 다채널 정보로 사용한다.
단계 S1032에서, 3차원 정보 이미지에서 상기 픽셀점에 대응되는 다채널 정보 및 상기 픽셀점의 수집된 이미지에서의 인덱스 정보에 기반하여, 3차원 정보 이미지를 생성한다.
예시적으로, 수집된 이미지가 RGB 이미지인 것으로 예를 들면, RGB 이미지 중 각 픽셀점은 RGB 이미지에서 3채널 정보, 즉 R 채널에서의 채널값, G 채널에서의 채널값 및 B 채널에서의 채널값을 포함한다. 각 픽셀점의 R 채널에서의 채널값, G 채널에서의 채널값 및 B 채널에서의 채널값은 상기 픽셀점의 RGB 이미지에서의 색상 정보를 나타낼 수 있다.
3차원 정보 이미지를 이미지 표현 형태로 사용하고, 이도 복수의 픽셀점으로 구성된다. 3차원 정보 이미지와 수집된 이미지가 동일한 이미지 구조를 갖도록 하기 위해, 각 픽셀점에 대응되는 3차원 좌표 정보를 획득한 후, 상기 픽셀점의 수집된 이미지에서의 인덱스 정보에 따라, 상기 픽셀점에 대응되는 3차원 좌표 정보를 순차적으로 상기 픽셀점의 수집된 이미지에서의 다채널 정보로 교체한 후, 예를 들어 상기 RGB 이미지에서의 각 픽셀점의 3채널 정보로 교체한 후, 3차원 정보 이미지를 생성할 수 있다.
이러한 방식으로, 3차원 정보 이미지에서 각 픽셀점의 3차원 정보 이미지에서의 다채널 정보는 상기 픽셀점의 세계 좌표계에서의 X축 채널을 따른 좌표값, 세계 좌표계에서의 Y축 채널을 따른 좌표값 및 세계 좌표계에서의 Z축 채널을 따른 좌표값을 포함한다. 3차원 정보 이미지는 수집된 이미지와 비교하여, 포함된 픽셀점의 개수가 변경되지 않고, 픽셀점의 정렬 순서 방식도 변경되지 않으므로, 3차원 정보 이미지는 대응되는 수집된 이미지와 동일한 이미지 구조를 가진다. 따라서, 수집된 이미지에 포함된 타깃 객체의 구조 정보를 인식하여, 상기 3차원 정보 이미지에 기반하여 수집된 이미지에 포함된 타깃 객체에 대해 3차원 타깃 검출을 용이하게 수행할 수 있다.
다른 실시형태에서, 상기 각 픽셀점에 대응되는 3차원 좌표 정보 및 상기 픽셀점의 수집된 이미지에서의 인덱스 정보에 따라, 3차원 정보 이미지를 생성하는 단계 S103의 경우, 도 5에 도시된 바와 같이, 하기와 같은 단계 S1033 내지 단계 S1034를 포함할 수 있다.
단계 S1033에서, 각 픽셀점에 대응되는 3차원 좌표 정보 및 상기 픽셀점의 수집된 이미지에서의 정보를 3차원 정보 이미지에서 상기 픽셀점에 대응되는 다채널 정보로 사용한다.
단계 S1034에서, 3차원 정보 이미지에서 상기 픽셀점에 대응되는 다채널 정보 및 상기 픽셀점의 수집된 이미지에서의 인덱스 정보에 기반하여, 3차원 정보 이미지를 생성한다.
아울러, 3차원 정보 이미지가 수집된 이미지와 일치한 이미지 구조를 갖도록 하기 위해, 각 픽셀점에 대응되는 3차원 좌표 정보를 획득한 후, 상기 픽셀점의 수집된 이미지에서의 인덱스 정보에 따라, 상기 픽셀점에 3차원 좌표 정보로 구성된 3채널 정보를 추가하여, 수집된 이미지에 대응되는 3차원 정보 이미지를 생성할 수 있고, 수집된 이미지가 RGB 이미지인 것으로 예를 들면, 상기 방식에 따라 획득된 3차원 정보 이미지의 각 픽셀점은 6채널 정보를 포함할 수 있고, 즉 R 채널에서의 채널값, G 채널에서의 채널값 및 B 채널에서의 채널값, 세계 좌표계에서의 X축 채널을 따른 좌표값, 세계 좌표계에서의 Y축 채널을 따른 좌표값 및 세계 좌표계에서의 Z축 채널을 따른 좌표값을 포함한다.
상기 방식에 따라 생성된 3차원 정보 이미지는 수집된 이미지와 비교하여, 포함된 픽셀점의 개수가 변경되지 않고, 픽셀점의 정렬 순서 방식도 변경되지 않으므로, 3차원 정보 이미지는 대응되는 수집된 이미지와 비교했을 때, 수집된 이미지와 일치한 이미지 구조를 가진다. 이 외에, 3차원 정보 이미지는 수집된 이미지의 정보도 유지하며, 예를 들어 수집된 이미지의 색상 정보를 포함할 수 있으므로, 상기 3차원 정보 이미지에 기반하여 수집된 이미지에 포함된 타깃 객체에 대해 정확한 타깃 검출을 용이하게 수행할 수 있다.
상기 3차원 정보 이미지에 기반하여, 수집된 이미지에 포함된 타깃 객체의 세계 좌표계에서의 3차원 검출 정보를 결정하는 단계 S104의 경우, 도 6에 도시된 바와 같이, 하기와 같은 단계 S1041 내지 단계 S1044를 포함할 수 있다.
단계 S1041에서, 수집된 이미지에 포함된 타깃 객체의 2차원 검출 정보에 기반하여, 3차원 정보 이미지를 크롭하여, 적어도 하나의 3차원 정보 이미지 블록을 획득하되, 각 3차원 정보 이미지 블록에는 적어도 하나의 타깃 객체가 포함된다.
예시적으로, 2차원 타깃 검출을 수행하기 위한 사전 트레이닝된 신경망을 통해 수집된 이미지에 대해 타깃 검출을 수행하여, 상기 수집된 이미지에 포함된 타깃 객체의 2차원 검출 정보를 획득할 수 있다. 타깃 객체의 2차원 검출 정보는 타깃 객체의 2차원 검출 프레임의 수집된 이미지에서의 위치 영역일 수 있다.
수집된 이미지에 포함된 타깃 객체의 2차원 검출 프레임에 따라, 3차원 정보 이미지에서 상기 2차원 검출 프레임과 동일한 사이즈의 3차원 정보 샘플 이미지 블록을 크롭하여 획득할 수 있으므로, 타깃 객체를 포함하지 않는 영역을 필터링하여, 나중에 3차원 정보 이미지 블록에 대해 타깃 검출을 직접 수행할 수 있으며, 상기 방식은 검출 범위를 축소시켜 검출 효율을 향상시킬 수 있다.
단계 S1042에서, 각 3차원 정보 이미지 블록에 대해 특징 추출을 수행하여, 상기 3차원 정보 이미지 블록에 대응되는 복수의 특징 이미지를 획득하되, 복수의 특징 이미지에는 타깃 객체의 깊이 정보를 나타내는 깊이 특징 이미지가 포함된다.
여기서, 사전 트레이닝된 신경망 중의 특징 추출 네트워크에 기반하여 각 3차원 정보 이미지 블록에 대응되는 복수의 특징 이미지를 추출할 수 있다. 3차원 정보 이미지 블록에 대해 특징 추출을 수행하기 전, 사이즈가 상이한 3차원 정보 이미지 블록에 대해 특징 추출 네트워크에 입력된 3차원 정보 이미지 블록의 사이즈가 일치하도록 사이즈를 조정할 수 있다.
특징 추출 네트워크는 복수의 콘볼루션 커널을 포함할 수 있고, 각 콘볼루션 커널은 3차원 정보 이미지 블록에 대응되는 하나의 특징 이미지를 추출하기 위해 사용된다. 복수의 특징 이미지에는 타깃 객체의 깊이 정보를 나타내는 깊이 특징 이미지, 타깃 객체의 길이 정보를 나타내는 특징 이미지, 타깃 객체의 폭 정보를 나타내는 특징 이미지 및 타깃 객체의 중심점 위치 정보를 나타내는 특징 이미지가 포함될 수 있다.
단계 S1043에서, 각 3차원 정보 이미지 블록에 대응되는 깊이 특징 이미지에 기반하여, 적어도 하나의 3차원 정보 이미지 블록을 분류하여, 각 타입의 3차원 정보 이미지 블록에 대응되는 3차원 타깃 검출 네트워크를 결정한다.
각 3차원 정보 이미지 블록에 포함된 타깃 객체의 세계 좌표계에서의 깊이 정보는 상이할 수 있고, 사전에 각 3차원 정보 이미지 블록에 대응되는 깊이 특징 이미지에 기반하여, 복수의 3차원 정보 이미지 블록을 분류할 수 있으며, 예를 들어 타깃 객체에 대응되는 깊이 정보에 기반하여, 복수의 3차원 정보 이미지 블록을 분류하여, 각 타입의 3차원 정보 이미지에 대응되는 3차원 타깃 검출 네트워크를 결정할 수 있다.
예시적으로, 사전 트레이닝된 신경망에는 복수의 3차원 타깃 검출 네트워크가 포함될 수 있고, 각 3차원 타깃 검출 네트워크는 일종의 3차원 정보 이미지 블록에 포함된 타깃 객체의 3차원 검출 정보를 예측할 수 있으며, 예를 들어 사전 트레이닝된 신경망에는 3개의 타깃 검출 네트워크가 포함되고, 첫 번째 타깃 검출 네트워크는 깊이 정보가 0보다 크고 L1보다 작거나 같은 3차원 정보 이미지 블록을 검출하기 위해 사용되며, 두 번째 타깃 검출 네트워크는 깊이 정보가 L1보다 크고 L2보다 작거나 같은 3차원 정보 이미지 블록을 검출하기 위해 사용되고, 세 번째 타깃 검출 네트워크는 깊이 정보가 L3보다 큰 3차원 정보 이미지 블록을 검출하기 위해 사용된다.
상이한 깊이 정보에 대해 3차원 타깃 검출을 수행하는 사전 트레이닝된 복수의 3차원 타깃 검출 네트워크를 통해, 각 3차원 타깃 검출 네트워크가 동일한 깊이 범위를 가진 3차원 정보 이미지 블록을 검출하도록 할 수 있다. 이로써, 한편은 동일한 깊이 범위를 가진 3차원 정보 이미지 블록 중의 타깃 객체에 대응되는 3차원 검출 정보는 차이가 작으므로, 3차원 타깃 검출 네트워크가 3차원 타깃 검출을 수행할 때 검출 정확도가 향상되도록 할 수 있고; 다른 한편은 3차원 정보 이미지에 상이한 깊이 정보를 가진 복수의 타깃 객체가 포함될 때, 복수의 3차원 타깃 검출 네트워크를 통해 3차원 타깃 검출을 동시에 수행하여, 검출 정확도를 향상시킬 수 있다.
상기 방식에 따라, 각 3차원 정보 이미지 블록에 대응되는 깊이 특징 이미지에 기반하여, 각 3차원 정보 이미지 블록에 대응되는 깊이 정보를 결정한 후, 상기 3차원 정보 이미지 블록에 대응되는 3차원 타깃 검출 네트워크를 결정할 수 있다.
단계 S1044에서, 각 3차원 정보 이미지 블록에 대해, 상기 3차원 정보 이미지 블록에 대응되는 3차원 타깃 검출 네트워크 및 상기 3차원 정보 이미지 블록에 대응되는 복수의 특징 이미지에 따라, 상기 3차원 정보 이미지 블록 중의 타깃 객체의 세계 좌표계에서의 3차원 검출 정보를 결정한다.
3차원 타깃 검출 네트워크에 기반하여 대응되는 3차원 정보 이미지에 대해 3차원 타깃 검출을 수행하는 경우, 상기 3차원 정보 이미지 블록에 대응되는 복수의 특징 이미지를 고려해야 하는데, 예를 들어 상기 언급된 타깃 객체의 깊이 정보를 나타내는 깊이 특징 이미지, 타깃 객체의 길이 정보를 나타내는 특징 이미지, 타깃 객체의 폭 정보를 나타내는 특징 이미지 및 타깃 객체의 중심점 위치 정보를 나타내는 특징 이미지 등이고, 각 3차원 타깃 검출 네트워크는 이러한 특징 이미지에 기반하여, 대응되는 3차원 정보 이미지 블록에 포함된 타깃 객체의 3차원 검출 정보를 예측할 수 있다.
본 발명의 실시예에서, 우선 수집된 이미지에 포함된 타깃 객체에 대응되는 2차원 검출 정보에 기반하여 3차원 정보 이미지를 크롭하여, 복수의 3차원 정보 이미지 블록을 획득할 수 있고, 상기 방식은 타깃 객체를 포함하지 않는 검출 영역을 필터링하여, 검출 범위를 축소시키고 검출 효율을 향상시킬 수 있으며, 이 밖에, 3차원 정보 이미지 블록에 대해 3차원 타깃 검출을 수행하는 경우, 사전 구축된 복수의 3차원 타깃 검출 네트워크에 기반하여 동시에 검출함으로써, 검출 정확도 및 속도를 향상시킬 수 있다.
상기 각 3차원 정보 이미지 블록에 대해, 상기 3차원 정보 이미지 블록에 대응되는 3차원 타깃 검출 네트워크 및 상기 3차원 정보 이미지 블록에 대응되는 복수의 특징 이미지에 따라, 상기 3차원 정보 이미지 블록 중의 타깃 객체의 세계 좌표계에서의 3차원 검출 정보를 결정하는 단계 S1044의 경우, 도 7에 도시된 바와 같이, 하기와 같은 단계 S10441 내지 단계 S10443을 포함할 수 있다.
단계 S10441에서, 각 3차원 정보 이미지 블록에 대해, 설정된 풀링 사이즈 및 풀링 스텝 길이에 따라, 상기 3차원 정보 이미지 블록에 대응되는 각 특징 이미지에 대해 최대 풀링 처리를 수행하여, 상기 특징 이미지 풀링 처리 후 대응되는 풀링값을 획득한다.
예시적으로, 특징 추출을 수행하는 특징 추출 네트워크가 복수의 콘볼루션 커널을 포함하면, 각 3차원 정보 이미지 블록에 대해 대응되는 복수의 특징 이미지를 획득할 수 있다. 각 특징 이미지는 상기 3차원 정보 이미지 블록에 포함된 타깃 객체의 속성 특징을 포함하는데, 예를 들어 상기 3차원 정보 이미지 블록에 포함된 타깃 객체의 질감 속성 특징, 색상 속성 특징, 깊이 속성 특징, 길이 속성 특징, 폭 속성 특징, 중심점 위치 속성 특징 등을 포함할 수 있다.
그 중 하나의 3차원 정보 이미지 블록에 대응되는 각 특징 이미지에 대해 최대 풀링 처리를 수행하여, 상기 특징 이미지의 풀링 처리 후 대응되는 풀링값을 획득할 수 있다. 예를 들어 그 중 하나의 특징 이미지를 예로 들면, 상기 특징 이미지는 4*4의 특징값을 포함하고, 2*2의 풀링 사이즈 및 2의 스텝 길이에 따라 최대 풀링 처리를 수행하여, 2*2개의 풀링값을 획득할 수 있으며, 상기 특징 이미지와 동일한 사이즈의 풀링 사이즈에 따라 최대 풀링 처리를 수행하면, 1*1개의 풀링값을 획득할 수 있다.
일부 실시형태에서, 3차원 정보 이미지 블록에 대응되는 각 특징 이미지에 대해 풀링 처리를 수행하기 전, 먼저 상기 3차원 정보 이미지 블록에 대응되는 2진 마스크 이미지를 결정할 수 있으며, 상기 2진 마스크 이미지는 타깃 객체를 나타내는 영역에서의 값이 1이며, 비타깃 객체를 나타내는 영역에서의 값이 0이며, 3차원 정보 이미지 블록에 대응되는 2진 마스크 이미지를 획득한 후, 먼저 상기 2진 마스크 이미지에 기반하여 상기 3차원 정보 이미지 블록에 대응되는 각 특징 이미지에 대해 스크리닝 처리를 수행하여, 각 특징 이미지에서 타깃 객체를 나타내는 특징값을 스크리닝할 수 있고, 비타깃 객체의 특징값을 0으로 변경한다. 이로써 나중에 상기 3차원 정보 이미지 블록에 대해 풀링 처리를 수행하는 경우, 한편 풀링 처리의 속도를 향상시킬 수 있고, 다른 한편 비타깃 객체의 특징 값을 0으로 변경하였기에, 비타깃 객체로서의 배경 영역의 간섭 특징값을 제거할 수 있으므로, 보다 정확한 풀링값을 획득하여 나중에 3차원 타깃 검출의 정확도를 향상시킬 수 있다.
단계 S10442에서, 상기 3차원 정보 이미지 블록의 각 특징 이미지에 대응되는 풀링값을 상기 3차원 정보 이미지 블록에 대응되는 타깃 검출 특징 벡터로 형성한다.
각 3차원 정보 이미지 블록에 대해, 상기 3차원 정보 이미지 블록에 대응되는 복수의 특징 이미지의 풀링값에 기반하여 3차원 정보 이미지 블록에 대응되는 타깃 검출 특징 벡터를 구성할 수 있고, 상기 타깃 검출 특징 벡터를 통해 상기 3차원 정보 이미지 블록에 포함된 타깃 객체의 전면적 특징 정보를 나태내며, 상기 전면적 특징 정보는 상기 언급된 타깃 객체의 질감 속성 특징, 색상 속성 특징, 깊이 속성 특징, 길이 속성 특징, 폭 속성 특징 및 중심점 위치 속성 특징 등을 포함할 수 있다.
예시적으로, 각 3차원 정보 이미지 블록에 대해 10개의 특징 이미지가 포함되고, 각 특징 이미지는 1*1개의 풀링값에 대응되면, 상기 3차원 정보 이미지 블록에 대응되는 타깃 검출 특징 벡터는 10개의 특징값을 포함하며; 각 특징 이미지가 2*2개의 풀링값에 대응되면, 상기 3차원 정보 이미지 블록에 대응되는 타깃 검출 특징 벡터는 10*4개의 특징값을 포함한다.
단계 S10443에서, 상기 3차원 정보 이미지 블록에 대응되는 타깃 검출 특징 벡터 및 상기 3차원 정보 이미지 블록에 대응되는 3차원 타깃 검출 네트워크에 기반하여, 상기 3차원 정보 이미지 블록 중의 타깃 객체의 세계 좌표계에서의 3차원 검출 정보를 결정한다.
상기 3차원 정보 이미지 블록에 대응되는 타깃 검출 특징 벡터를 상기 3차원 정보 이미지 블록에 대응되는 3차원 타깃 검출 네트워크에 입력하여, 상기 3차원 정보 이미지 블록에 포함된 타깃 객체의 세계 좌표계에서의 3차원 검출 정보를 결정할 수 있다.
이하 도 8을 결부하여, 상기 3차원 정보 이미지 블록 중의 타깃 객체의 3차원 검출 정보를 결정하는 과정에 대해 추가적인 설명을 할 것이다.
도 8에 도시된 바와 같이, 3개의 3차원 정보 이미지 블록(81)을 특징 추출 네트워크(82)에 입력하여, 상기 3차원 정보 이미지 블록(81)에 대응되는 복수의 특징 이미지(83)를 획득할 수 있다. 또한, 여기서 3차원 정보 이미지 블록(81) 중 각 픽셀점의 세계 좌표계에서의 대응되는 깊이 정보에 기반하여, 3차원 정보 이미지 블록(81)에 대해 임계값 분할을 수행하여, 3차원 정보 이미지 블록에 대응되는 2진 마스크 이미지(84)를 획득한 다음, 먼저 상기 2진 마스크 이미지(84)에 기반하여 3차원 정보 이미지 블록(81)에 대응되는 각 특징 이미지(83)에 대해 스크리닝 처리를 수행한 후, 스크리닝 처리 후의 특징 이미지에 대해 풀링 처리를 수행하여, 각 특징 이미지에 포함된 타깃 객체에 대응되는 풀링값(82)을 획득하며, 이에 기반하여 상기 3차원 정보 이미지 블록(81)에 대응되는 타깃 검출 특징 벡터를 생성할 수 있다. 또한, 풀링값(85)에 대해 유형 예측 처리를 수행하고, 타깃 객체의 깊이 정보를 나타내는 풀링값에 기반하여 각 3차원 정보 이미지 블록 각각에 대응되는 3차원 타깃 검출 네트워크(87)를 결정하며, 나아가 상기 3차원 정보 이미지 블록에 대응되는 타깃 검출 특징 벡터를 대응되는 3차원 타깃 검출 네트워크에 입력하여, 3차원 타깃 검출을 완료할 수 있다.
본 발명의 실시예에서, 3차원 정보 이미지 블록의 각 특징 이미지에 대해 풀링 처리를 수행함으로써, 3차원 타깃 검출할 유효 특징 정보를 용이하게 추출하고, 이로써 3차원 타깃 검출의 효율을 향상시킨다.
상기 여러번 언급한 3차원 검출 정보는 사전 트레이닝된 신경망에 의해 검출되어 획득되고, 신경망은 타깃 샘플 객체의 라벨링된 3차원 검출 정보를 포함하는 샘플 이미지를 이용하여 트레이닝함으로써 획득된 것이다.
대량의 샘플 이미지를 사전에 수집할 수 있고, 각 샘플 이미지에 대해 타깃 샘플 객체 라벨링을 수행하며, 각 샘플 이미지에 포함된 타깃 샘플 객체에 대응되는 라벨링된 3차원 검출 정보를 결정하고, 상기 라벨링된 3차원 검출 정보는 사전 설정된 타깃 샘플 객체의 세계 좌표계에서의 3차원 좌표 정보에 기반하여 결정할 수 있다.
일부 실시형태에서, 도 9a에 도시된 바와 같이, 신경망은 단계 S901 내지 단계 S905를 포함하는 하기와 같은 단계를 통해 트레이닝하여 획득된다.
단계 S901에서, 이미지 수집부재에 의해 수집된 샘플 이미지 및 상기 이미지 수집부재의 내부 파라미터를 획득한다.
상기 과정은 상기 수집된 이미지 및 이미지 수집부재의 내부 파라미터를 획득하는 과정과 유사하고, 당해 과정에서 공개되지 않은 기술적 세부사항은 상기 이미지 수집부재의 내부 파라미터에 대한 과정 설명을 참고하면서 이해하기 바란다.
단계 S902에서, 수집된 샘플 이미지 및 내부 파라미터에 기반하여, 수집된 샘플 이미지 중 각 샘플 픽셀점의 세계 좌표계에서의 3차원 좌표 정보를 결정한다.
상기 과정은 상기 각 수집된 이미지 중 각 픽셀점의 세계 좌표계에서의 3차원 좌표 정보를 결정하는 방식과 유사하고, 당해 과정에서 공개되지 않은 기술적 세부사항은 상기 각 수집된 이미지 중 각 픽셀점의 세계 좌표계에서의 3차원 좌표 정보를 결정하는 과정에 대한 설명을 참고하면서 이해하기 바란다.
단계 S903에서, 수집된 샘플 이미지 및 수집된 샘플 이미지 중 각 샘플 픽셀점의 세계 좌표계에서의 3차원 좌표 정보에 따라, 수집된 샘플 이미지에 대응되는 3차원 정보 샘플 이미지를 생성하되; 3차원 정보 샘플 이미지 중의 샘플 픽셀점의 정렬 순서는 수집된 샘플 이미지 중의 샘플 픽셀점의 정렬 순서와 동일하다.
상기 과정은 상기 3차원 정보 이미지를 생성하는 방식과 유사하고, 당해 과정에서 공개되지 않은 기술적 세부사항은 상기 3차원 정보 이미지를 생성하는 과정에 대한 설명을 참조하면서 이해하기 바란다.
단계 S904에서, 3차원 정보 샘플 이미지 및 트레이닝할 신경망에 기반하여, 샘플 이미지에 포함된 타깃 샘플 객체의 세계 좌표계에서의 3차원 검출 정보를 예측하여 획득한다.
일부 실시형태에서, 트레이닝할 신경망에는 다양한 3차원 타깃 검출 네트워크가 포함되고, 3차원 정보 샘플 이미지 및 트레이닝할 신경망에 기반하여, 샘플 이미지에 포함된 타깃 샘플 객체의 세계 좌표계에서의 3차원 검출 정보를 예측하여 획득하는 단계 S904의 경우, 도 9b에 도시된 바와 같이, 하기와 같은 단계 S9041 내지 단계 S9044를 포함할 수 있다.
단계 S9041에서, 샘플 이미지에 포함된 타깃 샘플 객체의 2차원 검출 정보에 기반하여, 3차원 정보 샘플 이미지를 크롭하여, 적어도 하나의 3차원 정보 샘플 이미지 블록을 획득하되, 각 3차원 정보 이미지 블록에는 적어도 하나의 타깃 객체가 포함된다.
단계 S9042에서, 적어도 하나의 3차원 정보 샘플 이미지 블록에 대해 특징 추출을 수행하여, 각 3차원 정보 샘플 이미지 블록에 대응되는 복수의 특징 샘플 이미지를 획득하되, 복수의 특징 샘플 이미지에는 타깃 샘플 객체의 깊이 정보를 나타내는 깊이 특징 샘플 이미지가 포함된다.
단계 S9043에서, 적어도 하나의 3차원 정보 샘플 이미지에 각각 대응되는 깊이 특징 샘플 이미지에 기반하여, 적어도 하나의 3차원 정보 샘플 이미지 블록을 분류하여, 각 3차원 정보 샘플 이미지 블록에 대응되는 3차원 타깃 검출 네트워크를 결정한다.
단계 S9044에서, 각 3차원 정보 샘플 이미지 블록에 대해, 신경망에서 상기 3차원 정보 샘플 이미지 블록에 대응되는 3차원 타깃 검출 네트워크 및 상기 3차원 정보 샘플 이미지 블록에 대응되는 복수의 특징 샘플 이미지에 따라, 상기 3차원 정보 샘플 이미지 블록 중의 타깃 샘플 객체의 세계 좌표계에서의 3차원 검출 정보를 예측한다.
상기 과정은 상기 각 3차원 정보 이미지 블록 중의 타깃 객체의 세계 좌표계에서의 3차원 검출 정보를 예측하는 방식과 유사하다. 여기서, 다양한 3차원 타깃 검출 네트워크의 설정을 통해 트레이닝하여, 다양한 3차원 타깃 검출 네트워크를 획득할 수 있고, 깊이 정보가 상이한 3차원 정보 이미지 블록에 대해 3차원 타깃 검출을 수행하여, 응용 과정에서 검출 정확도 및 속도를 향상시킬 수 있다.
단계 S905에서, 예측하여 획득된 3차원 검출 정보 및 라벨링된 3차원 검출 정보에 기반하여, 트레이닝할 신경망 중의 네트워크 파라미터값을 조정하여, 3차원 검출 정보를 결정하기 위한 신경망을 획득한다.
상기 방식에 기반하여 각 샘플 이미지에 포함된 타깃 샘플 객체의 3차원 검출 정보를 예측하여 획득할 수 있고, 나아가 예측하여 획득된 3차원 검출 정보 및 실제 라벨링된 3차원 검출 정보에 기반하여 트레이닝할 신경망의 손실 함수에 대응되는 손실값을 획득한 다음, 상기 손실값에 기반하여 네트워크 파라미터값을 조정하여, 3차원 검출 정보를 결저하기 위한 신경망을 획득할 수 있다.
일부 실시형태에서, 예측하여 획득된 3차원 검출 정보 및 실제 라벨링된 3차원 검출 정보에 대응되는 손실값은 타깃 샘플 객체의 사이즈에 대한 손실값, 타깃 샘플 객체의 중심점에 대한 손실값 및 타깃 샘플 객체의 방향 각도에 대한 손실값 등을 포함할 수 있고, 여러번 트레이닝을 통해 손실값이 설정된 손실 임계값보다 작도록 하거나, 트레이닝 횟수가 설정된 트레이닝 횟수에 도달한 후 네트워크 파라미터값의 조정을 완료하여, 트레이닝된 신경망을 획득하도록 할 수 있다.
하나의 실시형태에서, 본 발명의 실시예에서 제공되는 타깃 검출 방식은 자율 주행 분야에 적용될 수 있고, 여기서 이미지 수집부재는 타깃 차량에 위치할 수 있다. 이로써, 수집된 이미지에 포함된 타깃 객체의 3차원 검출 정보를 결정한 후, 도 10에 도시된 바와 같이, 본 발명의 실시예에서 제공되는 타깃 검출 방법은 하기와 같은 단계 S1001 내지 단계 S1002를 더 포함한다.
단계 S1001에서, 각 타깃 객체의 3차원 검출 정보에 기반하여, 상기 타깃 객체와 타깃 차량 사이의 거리 정보를 결정한다.
단계 S1002에서, 각 타깃 객체의 3차원 검출 정보, 거리 정보 및 타깃 차량의 현재 포즈 데이터에 기반하여, 타깃 차량의 주행을 제어한다.
각 타깃 객체에 대응되는 3차원 검출 정보에 기반하여, 타깃 객체의 세계 좌표계에서의 사이즈, 방향 각도 및 중심점 위치 좌표 등을 포함할 수 있고, 이에 기반하여 타깃 객체의 세계 좌표계에서의 포즈 데이터를 나타낼 수 있다. 이 밖에, 각 타깃 객체의 중심점 위치 좌표에 기반하여 상기 타깃 객체와 타깃 차량 사이의 거리 정보를 획득할 수 있다.
각 타깃 객체의 3차원 검출 정보, 타깃 차량과의 거리 정보 및 타깃 차량의 현재 포즈 데이터에 기반하여, 타깃 차량이 장애물인 타깃 객체를 피하도록 제어할 수 있다.
예시적으로, 이미지 수집부재가 타깃 차량에 위치하는 경우, 이미지 수집부재의 광심을 원점으로 하여 세계 좌표계를 설정할 수 있으므로, 타깃 객체의 중심점과 원점의 세계 좌표계에서의 거리를 통해 타깃 객체와 타깃 차량 사이의 거리 정보를 나타낼 수 있다.
예시적으로, 타깃 차량의 주행을 제어하는 과정에서, 우선 타깃 객체와 타깃 차량 사이의 거리를 통해, 타깃 차량이 타깃 객체에 대응되는 위험 영역에 진입하였는지 여부를 결정할 수 있고, 예를 들어 상기 거리가 설정된 안전 거리보다 작은 경우, 타깃 차량이 상기 타깃 객체에 대응되는 위험 영역에 진입한 것으로 결정할 수 있으며, 나아가 상기 타깃 객체에 대응되는 3차원 포즈 데이터 및 타깃 차량의 현재 포즈 데이터에 기반하여, 현재 주행 경로에 따라 주행시 충돌 발생 여부를 결정한다. 충돌이 발생하지 않는 것으로 결정되는 경우, 원시 경로를 따라 계속 주행할 수 있고, 충돌이 발생하는 것으로 결정되는 경우, 주행 경로를 조정하거나 속도를 늦추어 장애물을 피할 수 있다.
본 발명의 실시예에서, 수집된 이미지에 포함된 타깃 객체의 3차원 검출 정보를 검출 한 후, 이에 기반하여 각 타깃 객체와 타깃 차량 사이의 거리 정보를 획득할 수 있고, 각 타깃 객체의 3차원 검출 정보가 상기 타깃 객체의 세계 좌표계에서의 포즈 데이터를 나타낼 수 있음을 고려한다. 따라서, 상기 타깃 객체의 3차원 검출 정보, 타깃 차량과의 거리 정보 및 타깃 차량의 현재 포즈 데이터에 기반하여 타깃 차량의 주행을 제어함으로써, 타깃 차량의 주행 안전성을 향상시킬 수 있다.
본 발명의 실시에는 이미지 기반의 3차원 검출 시스템의 이미지 데이터 좌표계 변환 방법을 제공하는데, 좌표계를 변환하는 동시에 이미지 구조를 유지함으로써 검출 시스템의 정확도를 더 향상시킬 수 있다. 실시예에서, 먼저 검출할 이미지의 깊이 이미지를 산출한 다음, 이미지를 촬영한 카메라의 내부 파라미터를 획득하고; 깊이 이미지 및 카메라의 내부 파라미터를 이용하여 각 픽셀점의 3차원 공간 위치를 산출한 후, 이를 이미지 데이터 형태로 조직하며; 마지막으로 이미지 지향 딥러닝 기술을 이용하여 타깃의 3차원 정보를 획득한다.
도 11a는 본 발명의 실시예에서 제공되는 타깃 검출 방법의 논리 흐름도이고, 도 11a에 도시된 바와 같이, 이미지 수집부재가 카메라인 것으로 예를 들며, 상기 방법은 적어도 하기와 같은 단계를 포함한다.
단계 S1101에서, 카메라에 의해 촬영된 검출할 이미지를 획득한다.
여기서, 도 11b에 도시된 바와 같이, 검출할 이미지는 타깃 객체의 2차원 이미지이미고, 대응되는 깊이 정보가 결여되기에 타깃 객체의 3차원 정보(위치, 형상, 방향)를 효과적으로 추정할 수 없다.
단계 S1102에서, 검출할 이미지의 깊이 이미지를 획득한다.
여기서, 검출할 이미지의 깊이 이미지는 도 11c에 도시된 바와 같고, 타깃 객체(자동차) 부분의 깊이값은 다른 부분의 깊이값과 상이하다. 이미지 깊이 추정 방법을 통해 이미지 데이터에 결여된 깊이 정보를 보완할 수 있다. 깊이 추정을 사용하여 검출할 이미지의 깊이 이미지를 획득함으로써, 2차원 이미지에 결여된 깊이 정보를 효과적으로 보완할 수 있다.
유의해야 할 것은, 관련 기술 중의 깊이 추정 알고리즘은 일반적으로 검출할 이미지를 촬영할 때의 카메라 파라미터를 획득하는 이러한 요구사항을 충족시킬 수 있으며, 본 발명의 실시예는 깊이 추정 알고리즘에 대해 한정하지 않는다.
단계 S1103에서, 검출할 이미지를 촬영할 때의 카메라 파라미터를 획득한다.
여기서, 상기 카메라 파라미터는 초점 거리 및 주점을 포함할 수 있는 카메라의 내부 파라미터이다.
단계 S1104에서, 검출할 이미지 중 각 픽셀점의 3차원 좌표 정보를 결정한다.
여기서, 검출할 이미지의 각 픽셀의 3차원 좌표계에서의 위치를 산출한다.
검출할 이미지의 각 픽셀점에 대해 이미지 좌표계에서의 이의 인덱스 정보를 획득하는데, 예를 들어 인덱스값 (i, j)는 상기 픽셀점이 검출할 이미지에서 i행 j열에 위치하는 것을 나타낼 수 있고; 깊이 이미지에서 상기 인덱스값의 깊이값 d를 획득하며; 이전 단계에서 카메라 내부 파라미터를 획득하고, 공식 (1)을 이용하여 상기 픽셀점의 3차원 공간에서의 좌표를 산출함으로써, 검출할 이미지 중 모든 픽셀점의 3차원 좌표 정보를 획득한다.
단계 S1105에서, 각 픽셀점의 3차원 좌표 정보에 기반하여, 3차원 정보 이미지를 생성한다.
여기서, 도 11d에 도시된 바와 같이, 3차원 정보 이미지를 통해 검출할 이미지 중 각 픽셀점의 3차원 좌표 정보를 이미지 형태로 조직한다. 실시예에서, 각 픽셀점의 3차원 좌표 정보의 원시 이미지에서의 인덱스값에 따라, 산출된 3차원 좌표를 상이한 채널로 간주하여 이미지에 다시 돌려보내는데, 예를 들어 원시 RGB 채널을 대체하는 것이다.
이와 같이 이미지 형태로 좌표 변환 후의 픽셀 정보를 조직함으로써, 포인트 클라우드 데이터를 도입한 후 전체 시스템에 이미지의 하나의 데이터 표현 형태만 존재하도록 하는 것을 방지하며, 시스템을 간결하고 효율적으로 유지시킨다.
단계 S1106에서, 신경망을 이용하여 3차원 정보 이미지를 검출하여, 타깃 객체의 검출 결과를 획득한다.
여기서, 이미지 데이터 지향 딥러닝 기술을 이용하여 3차원 타깃 검출을 수행하는데, 에를 들어 3차원 물체의 포즈를 추정하는 것이다. 타깃의 3차원 정보 추정은 이미지 지향 딥러닝 기술만 이용하면 되고, 본 발명의 예시는 신경망에 대해 한정하지 않는다.
본 발명의 실시예는 깊이 추정 방법을 이용하여 검출할 이미지의 깊이 이미지를 획득함으로써, 2차원 이미지에 결여된 깊이 정보를 효과적으로 보완할 수 있다. 본 발명의 실시예는 좌표계 변환을 도입하고, 카메라의 내부 파라미터 및 추정된 깊이 이미지를 통해 이미지 좌표계에서 3차원 좌표계로의 일대일로 대응되는 매핑을 설정하며, 이미지 좌표계와 3차원 세계 좌표계 사이의 모호성을 제거하여, 시스템의 검출 성능을 크게 향상시킬 수 있다. 아울러, 데이터 좌표계 변환을 수행하는 과정에서 생성된 3차원 좌표점을 원시 이미지의 좌표 인덱스에 따라 이미지 표현 형태로 조직하여, 이미지 구조를 유지한다. 이미지 형태로 좌표 변환 후의 픽셀 정보를 조직함으로써, 포인트 클라우드 데이터를 도입한 후 전체 시스템에 이미지의 하나의 데이터 표현 형태만 존재하도록 하는 것을 방지하며, 시스템을 간결하고 효율적으로 유지시킨다.
본 발명의 실시예는 관련 기술과 비교하여 하기와 같은 유익한 효과를 가진다. 제1 양태는 높은 정확도인 바, 좌표계 변환을 사용하지 않은 방법(또는 좌표계 변환을 사용하였지만, 변환된 데이터를 이미지 표현 형태로 조직하지 않음)과 비교하면, 본 시스템에서 획득할 수 있는 검출 성능이 더 높고; 제2 양태는 간결한 모델 트레이닝/테스트 과정인 바, 종래의 다른 방법은 이미지 좌표계를 3차원 좌표계로 변환한 다음, 픽셀점을 포인트 클라우드 데이터로 간주하며, 상이한 구조의 신경망을 사용하여 후속 단계에서 별도로 트레이닝해야 하고, 본 시스템은 처음부터 끝까지 이미지 형태로 데이터를 사용함으로써, 시스템의 전체 트레이닝/테스트 과정이 보다 간편하며; 제3 양태는 단대단(end-to-end) 트레이닝을 지원하는 것인 바, 종래의 방법은 단계적으로 모델을 트레이닝해야 한다. 제1 단계에서는 2차원 이미지 지향 신경망을 사용하여 트레이닝하고, 제2 단계에서는 3차원 포인트 클라우드 지향 신경망을 사용하여 트레이닝한다. 2개의 단계는 상호 작용할 수 없으므로 최적화될 수 없다. 본 시스템은 2개의 부분을 통합시킬 수 있고, 통합적으로 2차원 이미지 지향 신경망을 사용하여 트레이닝함으로써, 단대단 트레이닝을 지원할 수 있다.
일부 실시형태에서, 본 발명의 실시예에서 제공되는 타깃 검출 방법은 이미지 데이터 기반의 자동/보조 운전 시스템에 적용될 수 있다. 다른 일부 실시형태에서, 본 발명의 실시예에서 제공되는 타깃 검출 방법은 이동 단말기(예를 들어, 휴대폰)의 증강 현실(Augmented Reality, AR) 시스템 및/또는 가상 현실(Virtual Reality, VR) 시스템에 적용되어, AR 시스템 및/또는 VR 시스템 중의 3차원 타깃 검출을 구현할 수 있다.
당업자는 실시형태의 상기 방법에 기재된 각 단계의 순서가 엄격한 실행 순서가 아닌 것으로 구현 과정에 대해 어떠한 한정도 구성하지 않고, 각 단계의 실행 순서는 응당 기능 및 가능한 내적 논리에 의해 결정되어야 함을 이해할 수 있다.
동일한 기술적 구상에 기반하여, 본 발명의 실시예는 또한 타깃 검출 방법에 대응되는 타깃 검출 장치를 제공하고, 본 발명의 실시예의 장치가 해결하고자 하는 과제의 원리는 본 발명의 실시예의 상기 타깃 검출 방법과 유사하므로, 장치의 구현은 방법의 구현을 참조할 수 있다.
도 12를 참조하면, 본 발명의 실시예에서 제공되는 타깃 검출 장치의 모식도이고, 상기 타깃 검출 장치(1200)는 획득 모듈(1201), 결정 모듈(1202), 생성 모듈(1203) 및 검출 모듈(1204)을 포함한다.
획득 모듈(1201)은 이미지 수집부재에 의해 수집된 이미지 및 상기 이미지 수집부재의 내부 파라미터를 획득하도록 구성된다.
결정 모듈(1202)은 수집된 이미지 및 내부 파라미터에 기반하여, 수집된 이미지 중 각 픽셀점의 세계 좌표계에서의 3차원 좌표 정보를 결정하도록 구성된다.
생성 모듈(1203)은 수집된 이미지 및 수집된 이미지 중 각 픽셀점의 세계 좌표계에서의 3차원 좌표 정보에 따라, 수집된 이미지에 대응되는 3차원 정보 이미지를 생성하도록 구성되되; 3차원 정보 이미지 중의 픽셀점의 정렬 순서는 수집된 이미지 중의 픽셀점의 정렬 순서와 동일하다.
검출 모듈(1204)은 3차원 정보 이미지에 기반하여, 수집된 이미지에 포함된 타깃 객체의 세계 좌표계에서의 3차원 검출 정보를 결정하도록 구성된다.
하나의 가능한 실시형태에서, 타깃 검출 장치(1200)는 제어 모듈(1205)을 더 포함하고, 이미지 수집부재는 타깃 차량에 위치하고, 수집된 이미지에 포함된 타깃 객체의 3차원 검출 정보를 결정한 후, 제어 모듈(1205)은,
각 타깃 객체의 3차원 검출 정보에 기반하여, 각 상기 타깃 객체와 타깃 차량 사이의 거리 정보를 결정하고;
각 타깃 객체의 3차원 포즈 데이터, 거리 정보 및 타깃 차량의 현재 포즈 데이터에 기반하여, 타깃 차량의 주행을 제어하도록 구성된다.
하나의 가능한 실시형태에서, 결정 모듈(1202)은,
수집된 이미지에 기반하여, 수집된 이미지에 대응되는 깊이 이미지를 생성하되, 깊이 이미지에는 수집된 이미지 중의 각 픽셀점에 대응되는 깊이 정보가 포함되고;
수집된 이미지 중 각 픽셀점의 이미지 좌표계에서의 2차원 좌표 정보, 각 상기 픽셀점의 깊이 정보 및 내부 파라미터에 기반하여, 각 상기 픽셀점의 세계 좌표계에서의 3차원 좌표 정보를 결정하도록 구성된다.
하나의 가능한 실시형태에서, 생성 모듈(1203)은,
각 픽셀점에 대응되는 3차원 좌표 정보 및 각 상기 픽셀점의 수집된 이미지에서의 인덱스 정보에 따라, 3차원 정보 이미지를 생성하도록 구성되되, 3차원 정보 이미지 중의 각 픽셀점의 채널 정보는 적어도 각 상기 픽셀점의 세계 좌표계에서의 3차원 좌표 정보를 포함한다.
하나의 가능한 실시형태에서, 생성 모듈(1203)은,
각 픽셀점에 대응되는 3차원 좌표 정보를 3차원 정보 이미지에서 각 상기 픽셀점에 대응되는 다채널 정보로 사용하고;
3차원 정보 이미지에서 각 상기 픽셀점에 대응되는 다채널 정보 및 각 상기 픽셀점의 수집된 이미지에서의 인덱스 정보에 기반하여, 3차원 정보 이미지를 생성하도록 구성된다.
하나의 가능한 실시형태에서, 생성 모듈(1203)은,
각 픽셀점에 대응되는 3차원 좌표 정보 및 각 상기 픽셀점의 수집된 이미지에서의 정보를 3차원 정보 이미지에서 각 상기 픽셀점에 대응되는 다채널 정보로 사용하고;
3차원 정보 이미지에서 각 상기 픽셀점에 대응되는 다채널 정보 및 각 상기 픽셀점의 수집된 이미지에서의 인덱스 정보에 기반하여, 3차원 정보 이미지를 생성하도록 구성된다.
하나의 가능한 실시형태에서, 검출 모듈(1204)은,
수집된 이미지에 포함된 타깃 객체의 2차원 검출 정보에 기반하여, 3차원 정보 이미지를 크롭하여, 적어도 하나의 3차원 정보 이미지 블록을 획득하되, 각 3차원 정보 이미지 블록에는 적어도 하나의 타깃 객체가 포함되고;
각 3차원 정보 이미지 블록에 대해 특징 추출을 수행하여, 각 상기 3차원 정보 이미지 블록에 대응되는 복수의 특징 이미지를 획득하되, 복수의 특징 이미지에는 타깃 객체의 깊이 정보를 나타내는 깊이 특징 이미지가 포함되며;
각 3차원 정보 이미지에 대응되는 깊이 특징 이미지에 기반하여, 적어도 하나의 3차원 정보 이미지 블록을 분류하여, 각 타입의 3차원 정보 이미지 블록에 대응되는 3차원 타깃 검출 네트워크를 결정하고;
각 3차원 정보 이미지 블록에 대해, 각 상기 3차원 정보 이미지 블록에 대응되는 3차원 타깃 검출 네트워크 및 각 상기 3차원 정보 이미지 블록에 대응되는 복수의 특징 이미지에 따라, 각 상기 3차원 정보 이미지 블록 중의 타깃 객체의 세계 좌표계에서의 3차원 검출 정보를 결정하도록 구성된다.
하나의 가능한 실시형태에서, 검출 모듈(1204)은,
각 3차원 정보 이미지 블록에 대해, 설정된 풀링 사이즈 및 풀링 스텝 길이에 따라, 각 상기 3차원 정보 이미지 블록에 대응되는 각 특징 이미지에 대해 최대 풀링 처리를 수행하여, 각 상기 특징 이미지의 풀링 처리 후 대응되는 풀링값을 획득하고;
각 상기 3차원 정보 이미지 블록의 각 특징 이미지에 대응되는 풀링값을 각 상기 3차원 정보 이미지 블록에 대응되는 타깃 검출 특징 벡터로 형성하며;
각 상기 3차원 정보 이미지 블록에 대응되는 타깃 검출 특징 벡터 및 각 상기 3차원 정보 이미지 블록에 대응되는 3차원 타깃 검출 네트워크에 기반하여, 각 상기 3차원 정보 이미지 블록 중의 타깃 객체의 세계 좌표계에서의 3차원 검출 정보를 결정하도록 구성된다.
하나의 가능한 실시형태에서, 타깃 검출 장치(1200)는 트레이닝 모듈(1206)을 더 포함하고, 트레이닝 모듈(1206)은,
트레이닝 구성이 3차원 검출 정보를 검출하는 신경망으로, 신경망을 타깃 샘플 객체의 라벨링된 3차원 검출 정보를 포함하는 샘플 이미지를 이용하여 트레이닝함으로써 획득하도록 구성된다.
장치 중의 각 모듈의 처리 흐름 및 각 모듈 사이의 상호 작용 흐름에 관한 설명은 상기 방법 실시예 중의 관련 설명을 참조할 수 있으며, 여기에서 더이상 반복하여 설명하지 않는다.
도 1 중의 타깃 검출 방법에 대응하여, 본 발명의 실시예는 또한 전자 기기(1300)을 제공하며, 도 13에 도시된 바와 같이, 본 발명의 실시예에서 제공되는 전자 기기의 모식도이고, 상기 전자 기기는,
프로세서(131), 메모리(132) 및 버스(133)를 포함하며; 메모리(132)는 실행 명령을 저장하도록 구성되고, 내부 저장 장치(1321) 및 외부 메모리(1322)를 포함하며; 여기의 내부 저장 장치(1321)를 내부 메모리라고도 하고, 프로세서(131) 중의 연산 데이터 및 하드 디스크 등 외부 메모리(1322)와 교환되는 데이터를 임시 저장하도록 구성되며, 프로세서(131)는 내부 저장 장치(1321)와 외부 메모리(1322)를 통해 데이터를 교환하고, 전자 기기(1300)가 작동되는 경우, 프로세서(131)와 메모리(132) 사이는 버스(133)를 통해 통신되어, 프로세서(131)가 아래와 같은 명령을 실행하도록 한다. 이미지 수집부재에 의해 수집된 이미지 및 상기 이미지 수집부재의 내부 파라미터를 획득하고; 수집된 이미지 및 내부 파라미터에 기반하여, 수집된 이미지 중 각 픽셀점의 세계 좌표계에서의 3차원 좌표 정보를 결정하며; 수집된 이미지 및 수집된 이미지 중 각 픽셀점의 세계 좌표계에서의 3차원 좌표 정보에 따라, 수집된 이미지에 대응되는 3차원 정보 이미지를 생성하되; 3차원 정보 이미지 중의 픽셀점의 정렬 순서는 수집된 이미지 중의 픽셀점의 정렬 순서와 동일하고; 3차원 정보 이미지에 기반하여, 수집된 이미지에 포함된 타깃 객체의 세계 좌표계에서의 3차원 검출 정보를 결정하도록 한다.
본 발명의 실시예는 또한 컴퓨터 판독 가능 저장 매체를 제공하고, 상기 컴퓨터 판독 가능 저장 매체에는 컴퓨터 프로그램이 저장되어 있으며, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우 상기 방법 실시예에 따른 타깃 검출 방법의 단계를 수행한다. 여기서, 상기 저장 매체는 휘발성 또는 비휘발성 컴퓨터 판독 가능 저장 매체일 수 있다.
본 발명의 실시예에서 제공되는 타깃 검출 방법의 컴퓨터 프로그램 제품은 프로그램 코드가 저장된 컴퓨터 판독 가능 저장 매체를 포함하고, 상기 프로그램 코드에 포함된 명령은 상기 방법 실시예에 따른 타깃 검출 방법의 단계를 수행하는데에 사용할 수 있고, 상기 방법 실시예를 참조할 수 있다.
본 발명의 실시예는 또한 컴퓨터 프로그램을 제공하고, 상기 컴퓨터 프로그램이 프로세서의 의해 실행될 경우, 전술한 실시예의 임의의 하나의 방법을 구현한다. 상기 컴퓨터 프로그램 제품은 하드웨어, 소프트웨어 또는 이들의 조합을 통해 구현될 수 있다. 하나의 선택 가능한 실시예에서, 상기 컴퓨터 프로그램 제품은 컴퓨터 저장 매체로 구현되고, 다른 하나의 선택 가능한 실시예에서, 컴퓨터 프로그램 제품은 소프트웨터로 구현되며, 예를 들어 소프트웨어 개발 키트(Software Development Kit, SDK) 등이다.
당업자는 설명의 편의와 간결함을 위해 상기에서 설명된 시스템 및 장치의 동작 과정은 전술한 방법 실시예 중의 대응되는 과정을 참조할 수 있음을 이해할 수 있다. 본 발명에서 제공된 몇개의 실시예에서, 개시된 시스템, 장치 및 방법은 다른 방식으로 구현될 수 있음을 이해해야 할 것이다. 이상에서 설명한 장치 실시예는 단지 예시적인 것이며, 예를 들면 상기 유닛의 구획은 단지 논리적 기능 구획일 뿐이고, 실제 구현시 다른 구획 방식이 있을 수 있으며, 예를 들면 복수의 유닛 또는 컴포넌트는 다른 하나의 시스템에 조합 또는 집적될 수 있거나, 일부 특징은 생략되거나 실행되지 않을 수 있다. 또한, 기재 또는 토론된 서로 간의 커플링 또는 직접 커플링 또는 통신 연결은 일부 인터페이스를 통한 것일 수 있고, 장치 또는 유닛의 간접 커플링 또는 통신 연결은 전기적, 기계적 또는 다른 형식일 수 있다.
이상에서 분리 컴포넌트로 설명된 유닛은 물리적으로 분리되거나 분리되지 않을 것일 수 있고, 유닛으로 표시된 컴포넌트는 물리적 유닛일 수 있거나, 물리적 유닛이 아닐 수 있으며, 하나의 장소에 위치하거나, 복수의 네트워크 유닛에 분포될 수 있다. 실제 수요에 따라 그 중의 일부 또는 전부 유닛을 선택하여 본 실시예의 해결수단의 목적을 구현할 수 있다.
이 밖에, 본 발명의 각 실시예의 각 기능 유닛은 하나의 프로세싱 유닛에 집적될 수 있거나, 각 유닛이 별도로 물리적으로 존재할 수 있거나, 둘 또는 둘 이상의 유닛이 하나의 유닛에 집적될 수 있다.
상기 기능이 만약 소프트웨어 기능 유닛의 형식으로 구현되고 별도의 제품으로 판매되거나 사용될 경우, 프로세서에 의해 실행 가능한 비휘발성 컴퓨터 판독가능 저장 매체에 저장될 수 있다. 이러한 이해에 기반해보면, 본 발명의 기술적 해결수단은 본질적으로 또는 선행기술에 기여하는 부분 또는 해당 기술적 해결수단의 일부는 소프트웨어 제품의 형식으로 구현될 수 있고, 해당 컴퓨터 소프트웨어 제품은 하나의 저장 매체에 저장되며, 약간의 명령을 포함하여 하나의 컴퓨터 기기(개인용 컴퓨터, 서버 또는 네트워크 기기 등일 수 있음)가 본 발명의 각 실시예에 따른 방법의 전부 또는 일부 단계를 수행하도록 할 수 있다. 전술한 저장 매체는 USB 메모리, 외장 하드, 판독 전용 메모리(ROM, Read-Only Memory), 랜덤 액세스 메모리(RAM, Random Access Memory), 디스켓 또는 CD 등 프로그램 코드를 저장할 수 있는 여러가지 매체를 포함한다.
마지막으로 설명해야 할 것은, 상술한 실시예는 본 발명의 실시형태일 뿐이고, 본 발명의 기술적 해결수단을 설명하기 위한 것으로, 이에 대해 한정하지 않으며, 본 발명의 보호범위도 이에 한정되지 않는다. 전술한 실시예를 참조하여 본 발명을 상세하게 설명하였지만, 당업자는 본 발명에서 공개된 기술범위 내에서 전술한 실시예에 기재된 기술적 해결수단에 대해 수정 또는 변경을 용이하게 이룰 수 있거나, 또는 그 중 일부 기술특징에 대해 동등한 대체를 이룰 수 있으며; 이러한 수정, 변경 또는 대체는 상응한 기술적 해결수단의 본질이 본 발명의 실시예에 따른 기술적 해결수단의 사상 및 범위를 벗어나지 않도록 하고, 모두 본 발명의 보호범위 내에 포함되어야 한다. 따라서, 본 발명의 보호범위는 청구범위의 보호범위를 기준으로 해야 한다.
산업상 이용 가능성
본 발명의 실시예에서, 이미지 수집부재가 이미지를 수집한 후, 상기 수집된 이미지에 기반하여, 이미지 구조가 동일하고 각 픽셀점의 세계 좌표계에서의 3차원 좌표 정보가 증가된 3차원 정보 이미지를 획득할 수 있고, 상기 3차원 정보 이미지에 기반하여 타깃 객체에 대한 3차원 타깃 검출을 완료할 수 있으며, 이미지 수집부재는 레이더 장치에 비해 휴대성이 높고 비용이 저렴한 장점을 가지고, 레이더 장치가 수집한 포인트 클라우드 데이터에 비해, 이미지 수집부재는 근거리 영역 내에서도 부피가 작은 타깃 객체를 포함하는 시야 범위 내의 완전한 타깃 객체를 획득할 수 있으므로, 근거리 영역의 타깃 객체에 대한 3차원 타깃 검출을 정확하게 완료할 수 있다.

Claims (20)

  1. 타깃 검출 방법으로서,
    이미지 수집부재에 의해 수집된 이미지 및 상기 이미지 수집부재의 내부 파라미터를 획득하는 단계;
    수집된 이미지 및 상기 내부 파라미터에 기반하여, 상기 수집된 이미지 중 각 픽셀점의 세계 좌표계에서의 3차원 좌표 정보를 결정하는 단계;
    상기 수집된 이미지 및 상기 수집된 이미지 중 각 픽셀점의 세계 좌표계에서의 3차원 좌표 정보에 따라, 상기 수집된 이미지에 대응되는 3차원 정보 이미지를 생성하는 단계 - 상기 3차원 정보 이미지 중의 픽셀점의 정렬 순서는 상기 수집된 이미지 중의 픽셀점의 정렬 순서와 동일함 - ; 및
    상기 3차원 정보 이미지에 기반하여, 상기 수집된 이미지에 포함된 타깃 객체의 상기 세계 좌표계에서의 3차원 검출 정보를 결정하는 단계를 포함하는 타깃 검출 방법.
  2. 제1항에 있어서,
    상기 이미지 수집부재는 타깃 차량에 위치하고, 상기 수집된 이미지에 포함된 타깃 객체의 3차원 검출 정보를 결정한 후, 상기 타깃 검출 방법은,
    각 타깃 객체의 3차원 검출 정보에 기반하여, 각 상기 타깃 객체와 상기 타깃 차량 사이의 거리 정보를 결정하는 단계; 및
    각 상기 타깃 객체의 상기 3차원 검출 정보, 상기 거리 정보 및 상기 타깃 차량의 현재 포즈 데이터에 기반하여, 상기 타깃 차량의 주행을 제어하는 단계를 더 포함하는 타깃 검출 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 수집된 이미지 및 상기 내부 파라미터에 기반하여, 상기 수집된 이미지 중 각 픽셀점의 세계 좌표계에서의 3차원 좌표 정보를 결정하는 단계는,
    상기 수집된 이미지에 기반하여, 상기 수집된 이미지에 대응되는 깊이 이미지를 생성하는 단계 - 상기 깊이 이미지에는 상기 수집된 이미지 중의 각 픽셀점의 깊이 정보가 포함됨 - ; 및
    이미지 좌표계에서의 상기 수집된 이미지 중 각 픽셀점의 2차원 좌표 정보, 각 상기 픽셀점의 깊이 정보 및 상기 내부 파라미터에 기반하여, 상기 세계 좌표계에서의 각 상기 픽셀점의 3차원 좌표 정보를 결정하는 단계를 포함하는 타깃 검출 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 수집된 이미지 및 상기 수집된 이미지 중 각 픽셀점의 세계 좌표계에서의 3차원 좌표 정보에 따라, 상기 수집된 이미지에 대응되는 3차원 정보 이미지를 생성하는 단계는,
    상기 수집된 이미지 중 각 픽셀점에 대응되는 3차원 좌표 정보 및 각 상기 픽셀점의 상기 수집된 이미지에서의 인덱스 정보에 따라, 상기 3차원 정보 이미지를 생성하는 단계를 포함하되, 상기 3차원 정보 이미지 중의 각 픽셀점의 채널 정보는 적어도 각 상기 픽셀점의 세계 좌표계에서의 3차원 좌표 정보를 포함하는 타깃 검출 방법.
  5. 제4항에 있어서,
    상기 수집된 이미지 중 각 픽셀점에 대응되는 3차원 좌표 정보 및 각 상기 픽셀점의 상기 수집된 이미지에서의 인덱스 정보에 따라, 상기 3차원 정보 이미지를 생성하는 단계는,
    상기 수집된 이미지 중 각 픽셀점에 대응되는 3차원 좌표 정보를 상기 3차원 정보 이미지에서 각 상기 픽셀점에 대응되는 다채널 정보로 사용하는 단계; 및
    상기 3차원 정보 이미지에서 각 상기 픽셀점에 대응되는 다채널 정보 및 각 상기 픽셀점의 상기 수집된 이미지에서의 인덱스 정보에 기반하여, 상기 3차원 정보 이미지를 생성하는 단계를 포함하는 타깃 검출 방법.
  6. 제4항에 있어서,
    상기 수집된 이미지 중 각 픽셀점에 대응되는 3차원 좌표 정보 및 각 상기 픽셀점의 상기 수집된 이미지에서의 인덱스 정보에 따라, 상기 3차원 정보 이미지를 생성하는 단계는,
    상기 수집된 이미지 중 각 픽셀점에 대응되는 3차원 좌표 정보 및 각 상기 픽셀점의 상기 수집된 이미지에서의 정보를 상기 3차원 정보 이미지에서 각 상기 픽셀점에 대응되는 다채널 정보로 사용하는 단계; 및
    상기 3차원 정보 이미지에서 각 상기 픽셀점에 대응되는 다채널 정보 및 각 상기 픽셀점의 상기 수집된 이미지에서의 인덱스 정보에 기반하여, 상기 3차원 정보 이미지를 생성하는 단계를 포함하는 타깃 검출 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 3차원 정보 이미지에 기반하여, 상기 수집된 이미지에 포함된 타깃 객체의 상기 세계 좌표계에서의 3차원 검출 정보를 결정하는 단계는,
    상기 수집된 이미지에 포함된 타깃 객체의 2차원 검출 정보에 기반하여, 상기 3차원 정보 이미지를 크롭하여, 적어도 하나의 3차원 정보 이미지 블록을 획득하는 단계 - 각 상기 3차원 정보 이미지 블록에는 적어도 하나의 타깃 객체가 포함됨 - ;
    각 상기 3차원 정보 이미지 블록에 대해 특징 추출을 수행하여, 각 상기 3차원 정보 이미지 블록에 대응되는 복수의 특징 이미지를 획득하는 단계 - 상기 복수의 특징 이미지에는 각 상기 타깃 객체의 깊이 정보를 나타내는 깊이 특징 이미지가 포함됨 - ;
    각 상기 3차원 정보 이미지 블록에 대응되는 깊이 특징 이미지에 기반하여, 상기 적어도 하나의 3차원 정보 이미지 블록을 분류하여, 각 타입의 3차원 정보 이미지 블록에 대응되는 3차원 타깃 검출 네트워크를 결정하는 단계; 및
    각 상기 3차원 정보 이미지 블록에 대해, 각 상기 3차원 정보 이미지 블록에 대응되는 3차원 타깃 검출 네트워크 및 각 상기 3차원 정보 이미지 블록에 대응되는 상기 복수의 특징 이미지에 따라, 각 상기 3차원 정보 이미지 블록 중의 타깃 객체의 상기 세계 좌표계에서의 3차원 검출 정보를 결정하는 단계를 포함하는 타깃 검출 방법.
  8. 제7항에 있어서,
    상기 각 3차원 정보 이미지 블록에 대해, 각 상기 3차원 정보 이미지 블록에 대응되는 3차원 타깃 검출 네트워크 및 각 상기 3차원 정보 이미지 블록에 대응되는 상기 복수의 특징 이미지에 따라, 각 상기 3차원 정보 이미지 블록 중의 타깃 객체의 상기 세계 좌표계에서의 3차원 검출 정보를 결정하는 단계는,
    각 3차원 정보 이미지 블록에 대해, 설정된 풀링 사이즈 및 풀링 스텝 길이에 따라, 각 상기 3차원 정보 이미지 블록에 대응되는 각 특징 이미지에 대해 최대 풀링 처리를 수행하여, 각 상기 특징 이미지의 풀링 처리 후 대응되는 풀링값을 획득하는 단계;
    각 상기 3차원 정보 이미지 블록의 각 특징 이미지에 대응되는 풀링값을 각 상기 3차원 정보 이미지 블록에 대응되는 타깃 검출 특징 벡터로 형성하는 단계; 및
    각 상기 3차원 정보 이미지 블록에 대응되는 타깃 검출 특징 벡터 및 각 상기 3차원 정보 이미지 블록에 대응되는 3차원 타깃 검출 네트워크에 기반하여, 각 상기 3차원 정보 이미지 블록 중의 타깃 객체의 상기 세계 좌표계에서의 3차원 검출 정보를 결정하는 단계를 포함하는 타깃 검출 방법.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서,
    상기 3차원 검출 정보는 신경망에 의해 검출되어 획득되고, 상기 신경망은 타깃 샘플 객체의 라벨링된 3차원 검출 정보를 포함하는 샘플 이미지를 이용하여 트레이닝함으로써 획득된 것인 타깃 검출 방법.
  10. 타깃 검출 장치로서,
    이미지 수집부재에 의해 수집된 이미지 및 상기 이미지 수집부재의 내부 파라미터를 획득하도록 구성되는 획득 모듈;
    수집된 이미지 및 상기 내부 파라미터에 기반하여, 상기 수집된 이미지 중 각 픽셀점의 세계 좌표계에서의 3차원 좌표 정보를 결정하도록 구성되는 결정 모듈;
    상기 수집된 이미지 및 상기 수집된 이미지 중 각 픽셀점의 세계 좌표계에서의 3차원 좌표 정보에 따라, 상기 수집된 이미지에 대응되는 3차원 정보 이미지를 생성하도록 구성되는 생성 모듈 - 상기 3차원 정보 이미지 중의 픽셀점의 정렬 순서는 상기 수집된 이미지 중의 픽셀점의 정렬 순서와 동일함 - ; 및
    상기 3차원 정보 이미지에 기반하여, 상기 수집된 이미지에 포함된 타깃 객체의 상기 세계 좌표계에서의 3차원 검출 정보를 결정하도록 구성되는 검출 모듈을 포함하는 타깃 검출 장치.
  11. 제10항에 있어서,
    상기 타깃 검출 장치는 제어 모듈을 더 포함하고, 상기 이미지 수집부재는 타깃 차량에 위치하며, 상기 수집된 이미지에 포함된 타깃 객체의 3차원 검출 정보를 결정한 후, 상기 제어 모듈은,
    각 타깃 객체의 3차원 검출 정보에 기반하여, 각 상기 타깃 객체와 상기 타깃 차량 사이의 거리 정보를 결정하고;
    각 상기 타깃 객체의 상기 3차원 검출 정보, 상기 거리 정보 및 상기 타깃 차량의 현재 포즈 데이터에 기반하여, 상기 타깃 차량의 주행을 제어하도록 구성되는 타깃 검출 장치.
  12. 제10항 또는 제11항에 있어서,
    상기 결정 모듈은,
    상기 수집된 이미지에 기반하여, 상기 수집된 이미지에 대응되는 깊이 이미지를 생성하고 - 상기 깊이 이미지에는 상기 수집된 이미지 중의 각 픽셀점의 깊이 정보가 포함됨 - ;
    상기 수집된 이미지 중 각 픽셀점의 이미지 좌표계에서의 2차원 좌표 정보, 각 상기 픽셀점의 깊이 정보 및 상기 내부 파라미터에 기반하여, 각 상기 픽셀점의 상기 세계 좌표계에서의 3차원 좌표 정보를 결정하도록 구성되는 타깃 검출 장치.
  13. 제10항 내지 제12항 중 어느 한 항에 있어서,
    상기 생성 모듈은,
    상기 수집된 이미지 중 각 픽셀점에 대응되는 3차원 좌표 정보 및 각 상기 픽셀점의 상기 수집된 이미지에서의 인덱스 정보에 따라, 상기 3차원 정보 이미지를 생성하도록 구성되되, 상기 3차원 정보 이미지 중의 각 픽셀점의 채널 정보는 적어도 각 상기 픽셀점의 세계 좌표계에서의 3차원 좌표 정보를 포함하는 타깃 검출 장치.
  14. 제13항에 있어서,
    상기 생성 모듈은,
    상기 수집된 이미지 중 각 픽셀점에 대응되는 3차원 좌표 정보를 상기 3차원 정보 이미지에서 각 상기 픽셀점에 대응되는 다채널 정보로 사용하고;
    상기 3차원 정보 이미지에서 각 상기 픽셀점에 대응되는 다채널 정보 및 각 상기 픽셀점의 상기 수집된 이미지에서의 인덱스 정보에 기반하여, 상기 3차원 정보 이미지를 생성하도록 구성되는 타깃 검출 장치.
  15. 제13항에 있어서,
    상기 생성 모듈은,
    상기 수집된 이미지 중 각 픽셀점에 대응되는 3차원 좌표 정보 및 각 상기 픽셀점의 상기 수집된 이미지에서의 정보를 상기 3차원 정보 이미지에서 각 상기 픽셀점에 대응되는 다채널 정보로 사용하고;
    상기 3차원 정보 이미지에서 각 상기 픽셀점에 대응되는 다채널 정보 및 각 상기 픽셀점의 상기 수집된 이미지에서의 인덱스 정보에 기반하여, 상기 3차원 정보 이미지를 생성하도록 구성되는 타깃 검출 장치.
  16. 제10항 내지 제15항 중 어느 한 항에 있어서,
    상기 검출 모듈은,
    상기 수집된 이미지에 포함된 타깃 객체의 2차원 검출 정보에 기반하여, 상기 3차원 정보 이미지를 크롭하여, 적어도 하나의 3차원 정보 이미지 블록을 획득하고 - 각 상기 3차원 정보 이미지 블록에는 적어도 하나의 타깃 객체가 포함됨 - ;
    각 상기 3차원 정보 이미지 블록에 대해 특징 추출을 수행하여, 각 상기 3차원 정보 이미지 블록에 대응되는 복수의 특징 이미지를 획득하며 - 상기 복수의 특징 이미지에는 각 상기 타깃 객체의 깊이 정보를 나타내는 깊이 특징 이미지가 포함됨 - ;
    각 상기 3차원 정보 이미지 블록에 대응되는 깊이 특징 이미지에 기반하여, 상기 적어도 하나의 3차원 정보 이미지 블록을 분류하여, 각 타입의 3차원 정보 이미지 블록에 대응되는 3차원 타깃 검출 네트워크를 결정하고;
    각 상기 3차원 정보 이미지 블록에 대해, 각 상기 3차원 정보 이미지 블록에 대응되는 3차원 타깃 검출 네트워크 및 각 상기 3차원 정보 이미지 블록에 대응되는 상기 복수의 특징 이미지에 따라, 각 상기 3차원 정보 이미지 블록 중의 타깃 객체의 상기 세계 좌표계에서의 3차원 검출 정보를 결정하도록 구성되는 타깃 검출 장치.
  17. 제16항에 있어서,
    상기 검출 모듈은,
    각 3차원 정보 이미지 블록에 대해, 설정된 풀링 사이즈 및 풀링 스텝 길이에 따라, 각 상기 3차원 정보 이미지 블록에 대응되는 각 특징 이미지에 대해 최대 풀링 처리를 수행하여, 각 상기 특징 이미지의 풀링 처리 후 대응되는 풀링값을 획득하고;
    각 상기 3차원 정보 이미지 블록의 각 특징 이미지에 대응되는 풀링값을 각 상기 3차원 정보 이미지 블록에 대응되는 타깃 검출 특징 벡터로 형성하며;
    각 상기 3차원 정보 이미지 블록에 대응되는 타깃 검출 특징 벡터 및 각 상기 3차원 정보 이미지 블록에 대응되는 3차원 타깃 검출 네트워크에 기반하여, 각 상기 3차원 정보 이미지 블록 중의 타깃 객체의 상기 세계 좌표계에서의 3차원 검출 정보를 결정하도록 구성되는 타깃 검출 장치.
  18. 전자 기기로서,
    프로세서, 메모리 및 버스를 포함하고, 상기 메모리에는 상기 프로세서에 의해 실행 가능한 기계 판독 가능 명령이 저장되며, 전자 기기가 작동될 경우, 상기 프로세서와 상기 메모리 사이는 버스를 통해 통신하고, 상기 기계 판독 가능 명령이 상기 프로세서에 의해 실행될 경우 제1항 내지 제9항 중 어느 한 항에 따른 타깃 검출 방법의 단계를 수행하는 전자 기기.
  19. 컴퓨터 판독 가능 저장 매체로서,
    상기 컴퓨터 판독 가능 저장 매체에는 컴퓨터 프로그램이 저장되고, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우 제1항 내지 제9항 중 어느 한 항에 따른 타깃 검출 방법의 단계를 수행하는 컴퓨터 판독 가능 저장 매체.
  20. 컴퓨터 판독 가능 코드를 포함하는 컴퓨터 프로그램 제품으로서,
    상기 컴퓨터 판독 가능 코드가 전자 기기에서 작동될 경우, 상기 전자 기기 중의 프로세서는 제1항 내지 제9항 중 어느 한 항에 따른 타깃 검출 방법의 단계를 수행하는 컴퓨터 프로그램 제품.
KR1020217042833A 2020-08-08 2021-04-27 타깃 검출 방법, 장치, 기기, 저장 매체 및 프로그램 제품 KR20220024193A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010792241.X 2020-08-08
CN202010792241.XA CN111931643A (zh) 2020-08-08 2020-08-08 一种目标检测方法、装置、电子设备及存储介质
PCT/CN2021/090359 WO2022033076A1 (zh) 2020-08-08 2021-04-27 目标检测方法、装置、设备、存储介质及程序产品

Publications (1)

Publication Number Publication Date
KR20220024193A true KR20220024193A (ko) 2022-03-03

Family

ID=73308121

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217042833A KR20220024193A (ko) 2020-08-08 2021-04-27 타깃 검출 방법, 장치, 기기, 저장 매체 및 프로그램 제품

Country Status (3)

Country Link
KR (1) KR20220024193A (ko)
CN (1) CN111931643A (ko)
WO (1) WO2022033076A1 (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931643A (zh) * 2020-08-08 2020-11-13 商汤集团有限公司 一种目标检测方法、装置、电子设备及存储介质
CN112926395A (zh) * 2021-01-27 2021-06-08 上海商汤临港智能科技有限公司 目标检测方法、装置、计算机设备及存储介质
CN112907757A (zh) * 2021-04-08 2021-06-04 深圳市慧鲤科技有限公司 一种导航提示方法、装置、电子设备及存储介质
KR102591835B1 (ko) 2021-08-13 2023-10-24 한국전자통신연구원 딥러닝 기반 의상 속성 분류 장치 및 방법
CN114655207B (zh) * 2022-05-13 2022-10-18 中汽创智科技有限公司 一种数据处理方法、装置、设备及存储介质
CN115100423B (zh) * 2022-06-17 2023-10-10 四川省寰宇众恒科技有限公司 一种基于视图采集数据实现实时定位系统及方法
CN115035492B (zh) * 2022-06-21 2024-01-23 苏州浪潮智能科技有限公司 车辆识别方法、装置、设备和存储介质
CN115115687A (zh) * 2022-06-24 2022-09-27 合众新能源汽车有限公司 车道线测量方法及装置
CN117308967B (zh) * 2023-11-30 2024-02-02 中船(北京)智能装备科技有限公司 一种目标对象位置信息的确定方法、装置及设备

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5554261B2 (ja) * 2011-02-24 2014-07-23 アルパイン株式会社 立体物検出装置および立体物検出方法
US10304191B1 (en) * 2016-10-11 2019-05-28 Zoox, Inc. Three dimensional bounding box estimation from two dimensional images
CN106875444B (zh) * 2017-01-19 2019-11-19 浙江大华技术股份有限公司 一种目标物定位方法及装置
CN110826357B (zh) * 2018-08-07 2022-07-26 北京市商汤科技开发有限公司 对象三维检测及智能驾驶控制的方法、装置、介质及设备
CN109671102B (zh) * 2018-12-03 2021-02-05 华中科技大学 一种基于深度特征融合卷积神经网络的综合式目标跟踪方法
CN109784194B (zh) * 2018-12-20 2021-11-23 北京图森智途科技有限公司 目标检测网络构建方法和训练方法、目标检测方法
CN111382613B (zh) * 2018-12-28 2024-05-07 中国移动通信集团辽宁有限公司 图像处理方法、装置、设备和介质
CN109961522B (zh) * 2019-04-02 2023-05-05 阿波罗智联(北京)科技有限公司 图像投射方法、装置、设备和存储介质
CN110427797B (zh) * 2019-05-28 2023-09-15 东南大学 一种基于几何条件限制的三维车辆检测方法
CN110689008A (zh) * 2019-09-17 2020-01-14 大连理工大学 一种面向单目图像的基于三维重建的三维物体检测方法
CN111274943B (zh) * 2020-01-19 2023-06-23 深圳市商汤科技有限公司 一种检测方法、装置、电子设备及存储介质
CN111931643A (zh) * 2020-08-08 2020-11-13 商汤集团有限公司 一种目标检测方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2022033076A1 (zh) 2022-02-17
CN111931643A (zh) 2020-11-13

Similar Documents

Publication Publication Date Title
KR20220024193A (ko) 타깃 검출 방법, 장치, 기기, 저장 매체 및 프로그램 제품
CN109919993B (zh) 视差图获取方法、装置和设备及控制系统
CN112287860B (zh) 物体识别模型的训练方法及装置、物体识别方法及系统
CN110889464B (zh) 检测目标对象的神经网络训练、目标对象的检测方法及装置
CN110879994A (zh) 基于形状注意力机制的三维目测检测方法、系统、装置
CN114365200A (zh) 结构注释
CN111028350B (zh) 一种利用双目立体相机构建栅格地图的方法
CN111753698A (zh) 一种多模态三维点云分割系统和方法
CN111274943A (zh) 一种检测方法、装置、电子设备及存储介质
CN112287824A (zh) 基于双目视觉的三维目标检测方法、装置及系统
CN112287859A (zh) 物体识别方法、装置和系统,计算机可读存储介质
CN112154448A (zh) 目标检测方法、设备及可移动平台
CN112991254A (zh) 视差估计系统、方法、电子设备及计算机可读存储介质
KR20190060679A (ko) 이동 객체의 자세 학습 방법 및 장치
CN114140758A (zh) 一种目标检测方法、装置及计算机设备
CN116563488A (zh) 一种基于点云体柱化的三维目标检测方法
CN115909268A (zh) 一种动态障碍物检测方法及装置
CN113012191B (zh) 一种基于点云多视角投影图的激光里程计算法
CN112329616B (zh) 目标检测方法、装置、设备以及存储介质
CN112668596A (zh) 三维物体识别方法及装置、识别模型训练方法及装置
KR101920159B1 (ko) 지원점 보간법을 이용한 스테레오 매칭 방법 및 장치
CN115588187A (zh) 基于三维点云的行人检测方法、装置、设备以及存储介质
JP2024521816A (ja) 無制約画像手ぶれ補正
CN113920733A (zh) 一种基于深度网络的交通体量估计方法及系统
CN113887289A (zh) 一种单目三维物体检测方法、装置、设备及产品