KR20210042275A - 스몰 타깃 검출 방법 및 장치 - Google Patents

스몰 타깃 검출 방법 및 장치 Download PDF

Info

Publication number
KR20210042275A
KR20210042275A KR1020210040639A KR20210040639A KR20210042275A KR 20210042275 A KR20210042275 A KR 20210042275A KR 1020210040639 A KR1020210040639 A KR 1020210040639A KR 20210040639 A KR20210040639 A KR 20210040639A KR 20210042275 A KR20210042275 A KR 20210042275A
Authority
KR
South Korea
Prior art keywords
small target
detection model
training
sample
image
Prior art date
Application number
KR1020210040639A
Other languages
English (en)
Other versions
KR102523886B1 (ko
Inventor
강 허
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20210042275A publication Critical patent/KR20210042275A/ko
Application granted granted Critical
Publication of KR102523886B1 publication Critical patent/KR102523886B1/ko

Links

Images

Classifications

    • G06K9/00791
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06K9/3258
    • G06K9/342
    • G06K9/54
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • G06N3/0472
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • G06K2209/21
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/09Recognition of logos

Abstract

본 발명의 실시예는 스몰 타깃 검출 방법 및 장치를 공개한다. 일 측면에 따른 스몰 타깃 검출 방븝은, 스몰 타깃을 포함하는 원본 이미지를 획득하는 단계; 원본 이미지를 저해상도 이미지로 축소하는 단계; 경량의 분할 네트워크를 사용하여 저해상도 이미지에서 스몰 타깃을 포함하는 후보 영역을 식별하는 단계; 후보 영역에 대응되는 원본 이미지의 영역을 관심 영역으로 하고, 관심 영역에서 미리 트레이닝된 검출 모델을 실행하여, 스몰 타깃의 원본 이미지에서의 위치를 결정하는 단계;를 포함한다. 상기 실시 형태는 2단계 검출 방법을 설계하였고, 먼저 경량 분할 네트워크를 통해 관심 영역을 검색한 후, 관심 영역에서 검출 모델을 실행함으로써, 계산량을 크게 줄일 수 있다.

Description

스몰 타깃 검출 방법 및 장치{A METHOD AND A DEVICE FOR DETECTING SMALL TARGET}
본 발명의 실시예는 컴퓨터 기술분야에 관한 것으로, 구체적으로 스몰 타깃을 검출하는 방법 및 장치에 관한 것이다.
타깃 검출은 자율 주행 분야에서 하나의 중요한 연구 방향이다. 주요 탐지 타깃은 정지 타깃과 이동 타깃 두 가지로 나뉜다. 정지 타깃은 신호등, 교통 표지판, 차선, 장애물 등과 같은 것이고, 이동 타깃은 차량, 보행자, 비동력 차량 등과 같은 것이다. 그 중 교통 표지판 검출은 주행 중인 무인 주행 차량에 풍부하고 필수적인 네비게이션 정보를 제공하며, 이는 매우 중요한 근본적인 작업이다.
AR 네비게이션 등 애플리케이션에서 현재 도로 구간의 교통 표지판을 실시간으로 검출하고 사용자에게 대응되게 프롬프트하는 것은 매우 중요하다. 차량 탑재 동영상에서, 교통 표지판의 사이즈 분포 범위가 넓고 대량의 스몰 타깃(20 픽셀 이하)가 존재하는데, 스몰 타깃 검출은 검출 알고리즘 자체를 테스트해야할 뿐만 아니라, 이미지의 높은 해상도 유지를 필요로 하기 때문에, 차량 머신의 제한된 컴퓨팅 성능에 대한 커다란 테스트가 된다.
교통 표지판 식별의 시효성을 확보하기 위해, 기존의 수단들은 대부분 YOLO 모델을 사용하여 입력 이미지를 트레이닝시키고, 획득한 예측값을 통해 교통 표시판이 속하는 분류를 예측함으로써 식별을 완료한다. YOLO모델의 트레이닝 네트워크는 C1~C7까지 총 7개의 콘볼루션 트레이닝층과 2개의 완전 연결 계층을 포함하는 CNN 모델이므로, 비교적 빠른 속도로 식별을 완료할 수 있지만, 교통 표지판은 일반적으로 수집된 원본 이미지 중 매우 작은 부분만 차지하고, 특징맵이 1개의 콘볼루션 계층을 지날때마다 그 크기가 계속하여 축소되므로, 기존의 YOLO 모델 방법을 사용하여 다중 콘볼루션을 진행하면, 비교적 작은 이미지의 특징을 잃어버리기 쉬워 교통 표지판 식별의 성공율에 영향을 미친다.
본 발명의 실시예는 스몰 타깃 검출 방법 및 장치를 제공한다.
일 측면에 따른 스몰 타깃 검출 방법은, 스몰 타깃을 포함하는 원본 이미지를 획득하는 단계; 원본 이미지를 저해상도 이미지로 축소하는 단계; 경량의 분할 네트워크를 사용하여 저해상도 이미지에서 스몰 타깃을 포함하는 후보 영역을 식별하는 단계; 및 후보 영역에 대응되는 원본 이미지의 영역을 관심 영역으로 하고, 관심 영역에서 미리 트레이닝된 검출 모델을 실행하여, 스몰 타깃의 원본 이미지에서의 위치를 결정하는 단계;를 포함한다.
일부 실시예에서, 검출 모델은, 초기 검출 모델의 네트워크 구조를 결정하고 초기 검출 모델의 네트워크 파라미터를 초기화하고; 트레이닝 샘플 세트를 획득하고 - 트레이닝 샘플은 샘플 이미지와 샘플 이미지 중 스몰 타깃의 위치를 표시하기 위한 라벨링 정보를 포함함 -; 트레이닝 샘플을 복제, 멀티 스케일 변화, 편집 중의 적어도 하나의 방식을 통해 증강시키고; 증강 후의 트레이닝 샘플 세트 중의 트레이닝 샘플 중의 샘플 이미지와 라벨링 정보를 각각 초기 검출 모델의 입력 및 예상 출력으로 하고, 기계학습 방법을 이용하여 초기 검출 모델을 트레이닝하며; 및 트레이닝하여 획득한 초기 검출 모델을 미리 트레이닝된 검출 모델로 결정하는 방식을 통해 트레이닝된다.
일부 실시예에서, 트레이닝 샘플은, 샘플 이미지에서 스몰 타깃을 커팅하고; 스몰 타깃을 줌(zoom) 및/또는 회전 조작한 후 샘플 이미지의 다른 위치에 랜덤으로 붙여 새로운 샘플 이미지를 획득하는 방식을 통해 편집된다.
일부 실시예에서, 상기 방법은, 분할 네트워크의 트레이닝 샘플을 제작시, 원래 태스크 검출에 사용된 구형 박스 내의 픽셀점을 양성 샘플로 설정하고, 구형 박스 밖의 픽셀점을 음성 샘플로 설정하는 단계; 길이와 폭이 사전에 결정된 픽셀 수량보다 작은 스몰 타깃의 구형 박스를 바깥으로 확장하는 단계; 및 바깥으로 확장된 구형 박스 내의 픽셀을 모두 양성 샘플로 설정하는 단계;를 더 포함한다.
일부 실시예에서, 검출 모델은 심층 신경망이다.
일부 실시예에서, 검출 모델은 각각의 예측 계층 특징을 융합한 후 주의 모듈을 인입하여, 상이한 채널의 특징을 위해 하나의 적합한 가중치를 학습한다.
다른 측면에 따른 스몰 타깃 검출 장치는, 스몰 타깃을 포함하는 원본 이미지를 획득하는 획득 유닛; 원본 이미지를 저해상도 이미지로 축소하는 축소 유닛; 경량의 분할 네트워크를 사용하여 저해상도 이미지에서 스몰 타깃을 포함하는 후보 영역을 식별하는 제1 검출 유닛; 및 후보 영역에 대응되는 원본 이미지의 영역을 관심 영역으로 하고, 관심 영역에서 미리 트레이닝된 검출 모델을 실행하여, 스몰 타깃의 원본 이미지에서의 위치를 결정하는 제2 검출 유닛;을 포함한다.
일부 실시예에서, 본 발명의 실시예에서 제공되는 상기 장치는 트레이닝 유닛을 더 포함하되, 상기 트레이닝 유닛은, 초기 검출 모델의 네트워크 구조를 결정하고 초기 검출 모델의 네트워크 파라미터를 초기화하고; 트레이닝 샘플 세트를 획득하고 - 트레이닝 샘플은 샘플 이미지와 샘플 이미지 중 스몰 타깃의 위치를 표시하기 위한 라벨링 정보를 포함함 - ; 트레이닝 샘플을 복제, 멀티 스케일 변화, 편집 중의 적어도 하나의 방식을 통해 증강시키고; 증강 후의 트레이닝 샘플 세트 중의 트레이닝 샘플 중의 샘플 이미지와 라벨링 정보를 각각 초기 검출 모델의 입력 및 예상 출력으로 하고, 기계학습 장치를 이용하여 초기 검출 모델을 트레이닝하며; 트레이닝하여 획득한 초기 검출 모델을 미리 트레이닝된 검출 모델로 결정한다.
일부 실시예에서, 트레이닝 유닛은, 샘플 이미지에서 스몰 타깃을 커팅하고; 스몰 타깃을 줌(zoom) 및/또는 회전 조작한 후 샘플 이미지의 다른 위치에 랜덤으로 붙여 새로운 샘플 이미지를 획득한다.
일부 실시예에서, 제1 검출 유닛은, 분할 네트워크의 트레이닝 샘플을 제작시, 원래 태스크 검출에 사용된 구형 박스 내의 픽셀점을 양성 샘플로 설정하고, 구형 박스 밖의 픽셀점을 음성 샘플로 설정하며; 길이와 폭이 사전에 결정된 픽셀 수량보다 작은 스몰 타깃의 구형 박스를 바깥으로 확장하고; 바깥으로 확장시킨 구형 박스 내의 픽셀을 모두 양성 샘플로 설정하도록 구성된다.
일부 실시예에서, 검출 모델은 심층 신경망이다.
일부 실시예에서, 검출 모델은 각각의 예측 계층 특징을 융합한 후 주의 모듈을 인입하여, 상이한 채널의 특징을 위해 하나의 적합한 가중치를 학습한다.
또 다른 측면에 따른 전자 기기는, 적어도 하나의 프로세서; 적어도 하나의 프로그램이 저장된 저장 장치를 포함하고, 적어도 하나의 프로그램이 적어도 하나의 프로세서에 의해 실행될 경우, 적어도 하나의 프로세서가 상술한 방법을 구현한다.
또 다른 측면에따른 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능한 저장 매체는, 프로그램이 프로세서에 의해 실행될 경우 상술한 방법이 구현된다.
또 다른 측면에따른 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램은, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우 상술한 방법이 구현된다.
본 발명의 실시예에서 제공되는 스몰 타깃 검출 방법 및 장치는 주요하게 트레이닝 방법, 모델 구조, 2단계 검출 이 3개 방면으로부터 해결하며, 그 중 트레이닝 방법과 모델 구조는 주로 모델이 스몰 타깃에 대한 검출 능력을 향상시키는데 사용되고, 2단계 검출은 이미지와 무관한 영역의 계산량을 감소시키는데 사용되어, 연산 속도를 향상시킨다.
본 발명은 AR네비게이션 프로젝트를 위해 실시간 교통 표지판 검출 알고리즘을 제공할 수 있고, 스몰 타깃 검출에서 보다 우수한 성능을 보여주므로, 사용자의 네비게이션 체험을 향상시킬 수 있다.
아래 첨부 도면에 도시된 비 제한적인 실시예의 상세한 설명에 대한 열독 및 참조를 통해 본 발명의 다른 특징, 목적 및 장점이 보다 명백해질 것이다.
도 1은 본 발명의 일 실시예가 적용될 수 있는 예시적 시스템 아키텍처이다.
도 2는 본 발명에 따른 스몰 타깃 검출 방법의 일 실시예의 흐름도이다.
도 3은 본 발명에 따른 스몰 타깃 검출 방법의 일 응용 장면의 모식도이다.
도 4는 본 발명에 따른 스몰 타깃 검출 방법의 다른 실시예의 흐름도이다.
도 5는 본 발명에 따른 스몰 타깃 검출 방법의 검출 모델의 네트워크 구조도이다.
도 6은 본 발명에 따른 스몰 타깃 검출 장치의 일 실시예의 구조 모식도이다.
도 7은 본 발명의 실시예를 구현하는데 적합한 전자 기기의 컴퓨터 시스템의 구조 모식도이다.
본 실시예들에서 사용되는 용어는 본 실시예들에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 부분에서 상세히 그 의미를 기재할 것이다. 따라서, 본 실시예들에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 실시예들 전반에 걸친 내용을 토대로 정의되어야 한다.
본 실시예들은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는바, 일부 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 실시예들을 특정한 개시형태에 대해 한정하려는 것이 아니며, 본 실시예들의 사상 및 기술범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 명세서에서 사용한 용어들은 단지 실시예들의 설명을 위해 사용된 것으로, 본 실시예들을 한정하려는 의도가 아니다.
본 실시예들에 사용되는 용어들은 다르게 정의되지 않는 한, 본 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미가 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 실시예들에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않아야 한다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이러한 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 본 명세서에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 정신과 범위를 벗어나지 않으면서 일 실시예로부터 다른 실시예로 변경되어 구현될 수 있다. 또한, 각각의 실시예 내의 개별 구성요소의 위치 또는 배치도 본 발명의 정신과 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 행하여지는 것이 아니며, 본 발명의 범위는 특허청구범위의 청구항들이 청구하는 범위 및 그와 균등한 모든 범위를 포괄하는 것으로 받아들여져야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 구성요소를 나타낸다.
한편, 본 명세서에서 하나의 도면 내에서 개별적으로 설명되는 기술적 특징은 개별적으로 구현될 수도 있고, 동시에 구현될 수도 있다.
본 명세서에서, "~유닛(unit)"은 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.
아래 첨부 도면 및 실시예를 참조하여 본 발명을 더 상세히 설명한다. 여기서 설명되는 구체적인 실시예는 관련 발명을 해석하기 위한 것일 뿐 본 발명은 이에 한정되지 않음을 이해할 수 있을 것이다. 이 밖에, 설명의 편의를 위해 도면에는 해당 발명과 관련된 부분만이 도시되었음을 유의해야 한다.
모순되지 않는 한 본 발명의 실시예 및 실시예의 특징은 서로 조합될 수 있음을 유의해야 한다. 아래 첨부 도면을 참조하고 실시예를 참조하여 본 발명을 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예가 적용될 수 있는 예시적 시스템 아키텍처이다.
도 1에 도시된 바와 같이, 시스템 아키텍처(100)는 차량(101)및 교통 표지판(102)을 포함할 수 있다.
차량(101)은 일반 동력 엔진 차량일 수 있고 무인 주행 차량일 수도 있다. 차량(101)에는 컨트롤러(1011), 네트워크(1012) 및 센서(1013)가 설치될 수 있다. 네트워크(1012)는 컨트롤러(1011)와 센서(1013) 사이에 통신 링크의 매체를 제공하기 위한 것이다. 네트워크(1012)는 다양한 연결 타입을 포함할 수 있는 바, 예를 들면 유선, 무선 통신 링크 또는 광섬유 케이블 등이다.
컨트롤러(또는, 차량용 브레인이라고도 함)(1011)는 차량(101)의 스마트 제어를 책임진다. 컨트롤러(1011)는 프로그래머블 로직 컨트롤러(Programmable Logic Controller, PLC), 단일침 마이크로 컴퓨터, 산업용 컨트롤 컴퓨터 등과 같은 별도로 설치된 컨트롤러일 수 있고, 입력/출력 포트를 구비하고, 연산 및 제어 기능이 있는 전자 소자로 이루어진 다른 기기일 수도 있으며, 차량 주행 제어 타입 애플리케이션이 설치된 컴퓨터 기기일 수도 있다. 컨트롤러에는 트레이닝을 거친 분할 네트워크와 검출 모델이 설치된다.
센서(1013)는 카메라, 중력 센서, 휠 속도 센서, 온도 센서, 습도 센서, 레이저 레이더, 밀리파 레이더 등과 같은 다양한 타입의 센서일 수 있다. 일부 상황에서, 차량(101)에는 GNSS(Global Navigation Satellite System, 글로벌 네비게이션 위성 시스템) 기기 및 SINS(Strap-down Inertial Navigation System, 스트랩 다운형 관성 네비게이션 시스템) 등이 설치될 수도 있다.
차량(101)이 주행 과정에서 교통 표지판(102)을 촬영한다. 비교적 먼 거리에서 촬영하여 얻은 이미지 이든지, 근 거리이서 촬영하여 얻은 이미지 이든지 막론하고, 이미지 중의 교통 표지판은 모두 스몰 타깃이다.
차량(101)은 교통 표지판이 포함된 촬영된 원본 이미지를 컨트롤러에 의해 식별하여, 교통 표지판의 위치를 결정해낸다. 또한 OCR식별을 진행하여 교통 표지판의 내용을 식별해낼 수도 있다. 다음, 음성 또는 문자 형식으로 교통 표지판의 내용을 출력한다.
본 발명의 실시예에서 제공되는 스몰 타깃 검출 방법은 일반적으로 컨트롤러(1011)에 의해 수행되고, 상응하게, 스몰 타깃 검출 장치는 일반적으로 컨트롤러(1011)에 설치된다.
도 1 중의 컨트롤러(1011), 네트워크(1012) 및 센서(1013)의 개수는 예시적인 것일 뿐이며, 실제 필요에 따라 차량(101)은 임의의 개수의 컨트롤러, 네트워크 및 센서를 구비할 수 있다.
도 2는 본 발명에 따른 스몰 타깃 검출 방법의 일 실시예의 흐름도이다.
스몰 타깃 검출 방법은 하기와 같은 단계를 포함한다.
단계(201)에서, 스몰 타깃을 포함하는 원본 이미지를 획득한다.
본 실시예에서, 스몰 타깃 검출 방법의 수행 주체(예를 들어, 도 1에 도시된 컨트롤러(1011))는 차량용 카메라를 통해 전방 이미지를 수집할 수 있고, 수집한 원본 이미지는 스몰 타깃을 포함한다. 스몰 타깃은 길이와 폭의 픽셀 수량이 사전 결정값(예를 들어 20)보다 작은 타깃 물체의 이미지를 가리킨다.
단계(202)에서, 원본 이미지를 저해상도 이미지로 축소한다.
본 실시예에서, 원본 사진 길이 및 폭 방향에서 각각 4(또는 다른 배수)로 나누어 저해상도 이미지를 얻을 수 있다. 축소 과정에 길이 및 폭의 비율은 변하지 않는다.
단계(203)에서, 경량의 분할 네트워크를 사용하여 저해상도 이미지에서 스몰 타깃을 포함하는 후보 영역을 식별한다.
본 실시예에서, 제1 단계 검출시 타깃이 존재할 수 있는 대략적인 위치만 위치 결정하여야 하고, 정확한 외부 테두리가 필요하지 않기에, 경량의 분할 네트워크가 사용되며, 그 최종 출력 히트 맵(heat map)에서 일정한 임계값보다 큰 포인트를 타깃이 존재하는 의심 포인트로 간주한다. U-Net과 유사한 분할 네트워크를 사용할 수 있으며, 백본(backbone) 네트워크로는 경량화를 위해 shufflenet를 사용한다.
분할 네트워크의 트레이닝 샘플을 제작 시, 원래 태스크 검출에 사용된 구형 박스 내의 픽셀점을 양성 샘플로 설정하고, 구형 박스 밖의 픽셀점을 음성 샘플로 설정한다. 길이 및 폭 방향에서의 줌(zoom)이 존재하기에, 스몰 타깃에서의 리콜 레이트(rate)를 보장하기 위해, 트레이닝 샘플을 제작할 경우, 길이 및 폭이 사전 결정값보다 작게 하고, 예를 들어 20픽셀인 타깃의 구형 박스를 바깥으로 1배 확장시킨 다음, 바깥으로 확장시킨 구형 박스 내의 픽셀을 모두 양성 샘플로 설정한다.
단계(204)에서, 후보 영역에 대응되는 원본 이미지의 영역을 관심 영역으로 하고, 관심 영역에서 미리 트레이닝된 검출 모델을 실행하여, 스몰 타깃의 원본 이미지에서의 위치를 결정한다.
본 실시예에서, 분할 네트워크가 출력한 결과 중의 노이즈 포인트를 필터링한 후, 나머지 모든 의심 타깃 포인트를 둘러싸는 하나의 최소 외접 구형을 형성하고, 줌을 거치지 않은 고해상도 이미지에서 상기 구형에 대응되는 영역을 관심 영역으로 한다. 그 후에, 상기 관심 영역에서 검출 모델을 실행한다. 이렇게 고해상도 사진의 일부 영역만 처리하면 되므로 계산량을 감소시킨다.
상술한 바와 같이, 스몰 타깃을 보다 우수하게 검출해내기 위해, 사진은 고해상도를 유지해야 하고, 사진이 크면 계산량도 증가하므로 차량 머신 환경에서 실시간 처리를 진행할 수 없게 된다. 한편, 교통 표지판은 사진에서 차지하는 비율이 매우 작고 대부분이 배경 영역이므로, 배경 영역의 계산량이 전체 계산량의 큰 부분을 차지하며, 고해상도에서 배경 영역을 처리하는 것인 시간 소모가 크고 무의미하다. 따라서, 본 발명은 2단계 검출 방식을 사용하며, 우선 하나의 경량의 분할 네트워크를 통해 저해상도의 사진에서 의심 타깃의 대략적인 위치를 위치 결정한 다음, 모든 의심 타깃이 포함되어 있는 최소 외접 구형을 구하고, 마지막으로 상기 최소 외접 구형에 대응되는 고해상도 이미지 블록에서 검출 모델을 실행함으로써, 스몰 타깃의 검출율을 보장하는 상황 하에서 계산량을 감소시킨다.
상기 2단계의 처리를 거친 후, 검출 모델의 평균 계산량은 원래 계산량의 약 25%로 감소되고, 두 개의 모델을 합한 평균 계산량은 원래 계산량의 약 45%로 감소된다.
도 3은 본 발명에 따른 스몰 타깃 검출 방법의 일 응용 장면의 모식도이다.
도 3의 응용 장면에서, 차량은 주행 과정에서 전방 이미지를 실시간으로 수집한다. 획득한 원본 이미지의 길이 및 폭을 4로 나누어 저해상도 이미지로 축소시킨다. 저해상도 이미지를 경량의 분할 네트워크에 입력하여, 교통 표지판을 포함하는 후보 영역을 식별한다. 다음, 원본 이미지에서 후보 영역에 대응되는 원본 이미지의 영역을 찾아 관심 영역으로 한다. 관심 영역의 이미지를 커팅해내어, 미리 트레이닝된 검출 모델이 입력하여, 교통 표지판이 원본 이미지에서의 구체적인 위치를 결정하고, 점선 박스로 도시한다.
본 발명의 상기 실시예에서 제공되는 방법은 2차 검출을 거치므로, 계산량을 감소시키고 식별 속도와 정확도를 향상시킨다.
도 4는 본 발명에 따른 스몰 타깃 검출 방법의 다른 실시예의 흐름도이다.
스몰 타깃 검출 방법의 프로세스는 하기와 같은 단계를 포함한다.
단계(401)에서, 초기 검출 모델의 네트워크 구조를 결정하고, 초기 검출 모델의 네트워크 파라미터를 초기화한다.
본 실시예에서, 스몰 타깃 검출 방법을 수행하는 전자 기기(예를 들어, 도 1에 도시된 컨트롤러(1011))는 검출 모델을 트레이닝할 수 있다. 또는, 제3의 서버에 의해 검출 모델을 트레이닝한 다음 차량의 컨트롤러에 설치할 수도 있다. 검출 모델은 신경망 모델이고, 기존의 임의의 타깃 검출용 신경망일 수 있다.
본 실시예의 일부 선택 가능한 구현 형태에서, 검출 모델은 YOLO계열 네트워크와 같은 심층 신경망이다. YOLO(You Only Look Once)는 심층 신경망에 기반한 객체 식별 및 위치 결정 알고리즘이고, 가장 큰 특정은 실행 속도가 매우 빠른 것이며, 실시간 시스템에 사용될 수 있다. 현재 YOLO는 이미 v3버전(YOLO3)까지 발전하였으나, 새로운 버전도 기전 버전을 토대로 계속 개진하여 진화된 것이다. YOLO3 원래의 구조 설계에서, 업 샘플링을 통해 저해상도 특징맵은 고해상도 특징맵과 융합된다. 그러나 이러한 융합은 고해상도 특징맵에서만 발생하고, 상이한 척도의 특징을 충분히 융합시킬 수 없다.
상이한 계층의 특징을 보다 잘 융합하기 위해, 본 발명은 우선 백본 네트워크에서 8배, 16배 및 32배로 다운 샘플링된 특징을 기초 특징을 선택하고, 다음 상이한 크기의 타깃을 예측하기 위해, 예측 특징맵의 크기는 각각 사진을 8배, 16배 및 32배로 다운 샘플링한 크기로 설정된다. 각각의 예측 특징맵의 특징은 모두 3개의 기초 특징층에서 획득한 것이고, 다운 샘플링 또는 업 샘플링을 통해 동일한 사이즈로 통일시킨 후 융합한다. 사진을 다운 샘플링 16배로 다운 샘플링한 예측 계층을 예로 들면, 이의 특징은 각각 3개의 기초 특징층으로부터 획득되고, 통일한 사이즈로 통일시키기 위해, 8배로 다운 샘플링한 기초 특징층에 대해 1배의 다운 샘플링을 진행하며, 32배로 다운 샘플링된 기초 특징층에 대해 1배의 업 샘플링을 진행한 다음, 다시 두 개의 특징층을 16배로 다운 샘플링한 기초 특징층과 융합시킨다.
상이한 척도의 특징만 단순히 융합하면, 이 3개의 예측 계층 중의 특징의 비중은 모두 마찬가지이므로, 각기 상이한 예측 타깃에 따라 집중적으로 사용할 수 없다. 따라서, 각각의 예측 계층 특징이 융합된 후 다시 주의 모듈을 인입하여, 상이한 채널의 특징을 위해 하나의 적합한 가중치를 학습하고, 이렇게 각각의 예측 계층은 자체가 필요로 하는 예측 타깃의 특성에 따라, 융합 후의 특징을 집중적으로 사용할 수 있다. 네트워크 구조는 도 5에 도시된 바와 같다. 주의 모듈의 파라미터의 학습 방식은 선행 기술이므로 여기서 더이상 설명하지 않는다.
본 발명은 검출 네트워크로 YOLO3을 사용할 수 있고, 앵커(anchor) 포인트에 기반한 이러한 검출 방법에서 anchor의 설계 및 할당이 매우 중요하며, 스몰 타깃에 매칭될 수 있는 anchor의 수량이 매우 적기 때문에, 모델에 의한 스몰 타깃에 대한 학습이 부족함을 직접적으로 초래할 수 있어, 스몰 타깃을 잘 검출할 수 없다. 이를 위해 동적인 anchor 매칭 메커니즘을 사용하여, ground truth(기본 참값)의 크기에 따라 anchor와 ground truth 매칭시의 IOU(신뢰 점수) 임계값을 적응적으로 선택하고, 타깃이 비교적 작을 때, IOU 임계값을 낮게 조절하여, 더욱 많은 스몰 타깃이 트레이닝에 참여하여, 모델이 스몰 타겟 검출에서의 성능을 향상시킬 수 있다. 트레이닝 샘플을 제작할 경우, 타깃의 크기를 이미 알고 있기에, 타깃 크기에 따라 적합한 IOU 임계값을 선택한다.
단계(402)에서, 트레이닝 샘플 세트를 획득한다.
본 실시예에서, 트레이닝 샘플은 샘플 이미지와 샘플 이미지 중 스몰 타깃의 위치를 표시하기 위한 라벨링 정보를 포함한다.
단계(403)에서, 트레이닝 샘플을 복제, 멀티 스케일 변화, 편집 중의 적어도 하나의 방식을 통해 증강시킨다.
본 실시예에서, 이것은 주로 트레이닝 데이터 중 스몰 타깃 수량이 부족한 경우에 대해 사용되는 전략이다. 한편으로는 데이터 세트 중 스몰 타깃을 포함하는 사진을 복수 개로 복제하여, 데이터 중 스몰 타깃의 수량을 직접 증가시키고, 다른 한편으로는 사진 중의 스몰 타깃을 커팅하고, 줌, 회전 등 조작을 진행한 후, 다시 이미지 다른 위치에 랜덤으로 붙인다. 이렇게 스몰 타깃의 수량을 증가할 수 있을 뿐만 아니라, 더욱 많은 변화를 도입할 수 있어 트레이닝 데이터의 할당을 풍부하게 한다.
선택 가능하게, 트레이닝 사진을 상이한 척도로 줌한 후 트레이닝함으로써, 기존 데이터 세트 중의 타깃 척도 변화를 풍부하게 할 수 있고, 모델이 상이한 척도 타깃의 검출 태스크에 적응될 수 있도록 한다.
단계(404)에서, 증강 후의 트레이닝 샘플 세트 중의 트레이닝 샘플 중의 샘플 이미지와 라벨링 정보를 각각 초기 검출 모델의 입력 및 예상 출력으로 하고, 기계학습 방법을 이용하여 초기 검출 모델을 트레이닝한다.
본 실시예에서, 수행 주체는 트레이닝 샘플 세트 중의 트레이닝 샘플 중의 샘플 이미지를 초기 검출 모델에 입력하여, 상기 샘플 이미지 중 스몰 타깃의 위치 정보를 얻어 상기 트레이닝 샘플 중의 라벨링 정보를 초기 검출 모델의 예상 출력으로 하고, 기계학습 방법을 이용하여 초기 검출 모델을 트레이닝할 수 있다. 구체적으로, 우선 사전 설정된 손실 함수에 의해 산출하여 얻은 위치 정보와 상기 트레이닝 샘플 중의 라벨링 정보 사이의 차이를 이용하고, 예를 들어, L2함수를 손실 함수로 사용하여 산출하여 얻은 위치 정보와 상기 트레이닝 샘플 중의 라벨링 정보 사이의 차이를 이용한다. 다음, 산출하여 얻은 차이에 기반하여, 초기 검출 모델의 네트워크 파라미터를 조절하고, 사전 설정된 트레이닝 종료 조건을 만족하는 경우, 트레이닝을 종료할 수 있다. 예를 들어, 여기서 사전 설정된 트레이닝 종료 조건은 트레이닝 시간이 사전에 설정된 시간 길이를 초과하는 것, 트레이닝 횟수가 사전에 설정된 횟수를 초과하는 것 및 산출하여 얻은 차이가 사전에 설정된 차이 임계값보다 작은 것 중의 하나를 포함할 수 있으나, 이에 제한되지 않는다.
여기서, 다양한 구현 형태를 사용하고, 생성된 위치 정보와 상기 트레이닝 샘플 중의 라벨링 정보 사이의 차이에 기반하여, 초기 검출 모델의 네트워크 파라미터를 조절할 수 있다. 예를 들어, BP(Back Propagation, 역전파) 알고리즘 또는 SGD(Stochastic Gradient Descent, 확률적 경사 하강) 알고리즘을 사용하여 초기 검출 모델의 네트워크 파라미터를 조절할 수 있다.
단계(405)에서, 트레이닝하여 획득한 초기 검출 모델을 미리 트레이닝된 검출 모델로 결정한다.
본 실시예에서, 트레이닝 단계의 수행 주체는 단계(404)에서 트레이닝하여 얻은 초기 검출 모델을 미리 트레이닝된 검출 모델로 결정할 수 있다.
도 6은 본 발명에 따른 스몰 타깃 검출 장치의 일 실시예의 구조 모식도이다.
도 6을 참조하면, 장치(600) 실시예는 도 2에 도시된 방법 실시예와 대응되고, 상기 장치(600)는 구체적으로 다양한 전자 기기에 응용될 수 있다.
도 6에 도시된 바와 같이, 본 실시예의 스몰 타깃 검출 장치(600)는, 획득 유닛(601), 축소 유닛(602), 제1 검출 유닛(603) 및 제2 검출 유닛(604)을 포함한다. 여기서, 획득 유닛(601)은 스몰 타깃을 포함하는 원본 이미지를 획득하고; 축소 유닛(602)은 원본 이미지를 저해상도 이미지로 축소하며; 제1 검출 유닛(603)은 경량의 분할 네트워크를 사용하여 저해상도 이미지에서 스몰 타깃을 포함하는 후보 영역을 식별하고; 제2 검출 유닛(604)은 후보 영역에 대응되는 원본 이미지의 영역을 관심 영역으로 하고, 관심 영역에서 미리 트레이닝된 검출 모델을 실행하여, 스몰 타깃의 원본 이미지에서의 위치를 결정한다.
본 실시예에서, 스몰 타깃 검출 장치(600)의 획득 유닛(601), 축소 유닛(602), 제1 검출 유닛(603), 제2 검출 유닛(604)의 구체적인 처리는 도 2의 대응되는 실시예 중의 단계(201), 단계(202), 단계(203), 단계(204)를 참조할 수 있다.
본 실시예의 일부 선택 가능한 구현 형태에서, 장치(600)는, 초기 검출 모델의 네트워크 구조를 결정하고, 초기 검출 모델의 네트워크 파라미터를 초기화하고; 트레이닝 샘플 세트를 획득하며, 트레이닝 샘플은 샘플 이미지와 샘플 이미지 중 스몰 타깃의 위치를 표시하기 위한 라벨링 정보를 포함하고; 트레이닝 샘플을 복제, 멀티 스케일 변화, 편집 중의 적어도 하나의 방식을 통해 증강시키며; 증강 후의 트레이닝 샘플 세트 중의 트레이닝 샘플 중의 샘플 이미지와 라벨링 정보를 각각 초기 검출 모델의 입력 및 예상 출력으로 하고, 기계학습 장치를 이용하여 초기 검출 모델을 트레이닝하며; 트레이닝하여 획득한 초기 검출 모델을 미리 트레이닝된 검출 모델로 결정하는 트레이닝 유닛(미도시)을 더 포함한다.
본 실시예의 일부 선택 가능한 구현 형태에서, 트레이닝 유닛(미도시)은 또한, 샘플 이미지에서 스몰 타깃을 커팅하고; 스몰 타깃을 줌(zoom) 및/또는 회전 조작한 후 샘플 이미지의 다른 위치에 랜덤으로 붙여 새로운 샘플 이미지를 획득한다.
본 실시예의 일부 선택 가능한 구현 형태에서, 제1 검출 유닛(603)은, 분할 네트워크의 트레이닝 샘플을 제작시, 원래 태스크 검출에 사용된 구형 박스 내의 픽셀점을 양성 샘플로 설정하고, 구형 박스 밖의 픽셀점을 음성 샘플로 설정하며; 길이와 폭이 사전에 결정된 픽셀 수량보다 작은 스몰 타깃의 구형 박스를 바깥으로 확장하고; 바깥으로 확장시킨 구형 박스 내의 픽셀을 모두 양성 샘플로 설정한다.
본 실시예의 일부 선택 가능한 구현 형태에서, 검출 모델은 심층 신경망이다.
본 실시예의 일부 선택 가능한 구현 형태에서, 검출모델은 각각의 예측 계층 특징을 융합한 후 주의 모듈을 인입하여, 상이한 채널의 특징을 위해 하나의 적합한 가중치를 학습한다.
도 7은 본 발명의 실시예를 구현하는데 적합한 전자 기기의 컴퓨터 시스템의 구조 모식도이다.
도 7에 도시된 전자 기기(700)(예를 들면, 도 1의 컨트롤러(1011))는 하나의 예시일 뿐, 본 발명의 실시예의 기능 또는 사용범위에 대한 어떠한 한정도 아니다.
도 7에 도시된 바와 같이, 전자 기기(700)는 판독 전용 메모리(ROM)(702)에 저장된 프로그램 또는 저장 장치(708)로부터 랜덤 액세스 메모리(RAM)(703)로 로딩된 프로그램에 따라 다양하고 적절한 동작 및 처리를 수행할 수 있는 처리 장치(예를 들면 중앙 처리 장치, 그래픽 처리 장치 등)(701)를 포함한다. RAM(703)에는 또한 전자 기기(700)의 조작에 필요한 다양한 프로그램 및 데이터가 저장된다. 처리 장치(701), ROM(702) 및 RAM(703)은 버스(704)를 통해 서로 연결된다. 입/출력(I/O) 인터페이스(705) 역시 버스(704)에 연결된다.
일반적으로, 예를 들어 터치 스크린, 터치 패드, 키보드, 마우스, 카메라, 마이크, 가속도계, 자이로스코프 등을 포함하는 입력 장치(706); 예를 들어 액정 디스플레이(LCD), 스피커, 진동기 등을 포함하는 출력 장치(707); 예를 들어 자기 테이프, 하드 드라이버 등을 포함하는 저장 장치(708); 및 통신 장치(709)는 I/O 인터페이스(705)에 연결될 수 있다. 통신 장치(709)는 전자 기기(700)가 무선 또는 유선으로 다른 기기와 통신하여 데이터를 교환하도록 허용할 수 있다. 비록 도 7에서 다양한 장치를 갖는 전자 기기(700)를 나타냈지만, 모든 도시된 장치를 실시하거나 구비할 필요는 없음을 이해해야 한다. 전자 기기(700)는 보다 많거나 보다 적은 장치를 대체적으로 실시하거나 구비할 수 있다. 도 7에 도시된 각각의 블록은 하나의 장치를 대표할 수 있고, 수요에 따라 다수의 장치를 대표할 수도 있다.
특히, 본 발명의 실시예에 따르면, 앞에서 흐름도를 참조하여 설명한 과정은 컴퓨터 소프트웨어 프로그램으로서 구현될 수 있다. 예를 들어, 본 발명의 실시예는 컴퓨터 판독 가능 매체에 베어링된 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품을 포함하고, 상기 컴퓨터 프로그램은 흐름도에 도시된 방법을 수행하기 위한 프로그램 코드를 포함한다. 이런 실시예에서, 상기 컴퓨터 프로그램은 통신 장치(709)를 통해 네트워크로부터 다운로드 및 설치될 수 있거나 및/또는 ROM(702)으로부터 설치될 수 있다. 상기 컴퓨터 프로그램이 처리 장치(701)에 의해 실행될 때, 본 발명의 방법에 한정된 상기 기능들이 수행된다. 본 발명에 기재된 컴퓨터 판독 가능 매체는 컴퓨터 판독 가능 신호 매체 또는 컴퓨터 판독 가능 매체 또는 이 양자의 임의의 조합 일 수 있음에 유의해야 한다. 컴퓨터 판독 가능 매체는 예를 들어, 전자, 자기, 광학, 전자기, 적외선 또는 반도체 시스템, 장치 또는 소자, 또는 이들의 임의의 조합일 수 있지만, 이에 한정되지 않는다. 컴퓨터 판독 가능 매체의 보다 구체적인 예는 하나 또는 복수의 도선에 의해 전기적 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 가능 프로그램 가능 읽기 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 컴팩트 디스크 판독 전용 메모리(CD-ROM), 광학 저장 장치, 자기 저장 장치 또는 이들의 임의의 적절한 조합을 포함할 수 있지만, 이에 한정되지 않는다. 본 발명에서, 컴퓨터 판독 가능 매체는 명령 실행 시스템, 장치 또는 소자 또는 이들과 결합되어 사용될 수 있는 프로그램을 포함하거나 저장할 수 있는 임의의 타입의 매체일 수 있다. 본 발명에서, 컴퓨터 판독 가능 신호 매체는 컴퓨터 판독 가능 프로그램 코드를 베어링하는 베이스 밴드 또는 캐리어의 일부로 전파되는 데이터 신호를 포함할 수 있다. 이러한 전파된 데이터 신호는 전자기 신호, 광학 신호, 또는 상기 임의의 적절한 조합을 포함하지만 이에 한정되지 않는 다양한 형태를 취할 수 있다. 컴퓨터 판독 가능 신호 매체는 또한 명령 실행 시스템, 장치 또는 소자에 사용되거나 이와 결합하여 사용하기 위한 프로그램을 전송, 전파 또는 전송할 수 있는 컴퓨터 판독 가능 매체 이외의 임의의 컴퓨터 판독 가능 매체일 수 있다. 컴퓨터 판독 가능 매체에 포함된 프로그램 코드는 전기선, 광섬유 케이블, RF(무선 주파수) 등, 또는 상기의 임의의 적절한 조합을 포함하지만 이에 한정되지 않는 임의의 적절한 매체에 의해 전송될 수 있다.
상기 컴퓨터 판독 가능 매체는 상기 전자 기기에 포함될 수 있거나 상기 전자 기기에 조립되지 않고 별도로 존재할 수 있다. 상기 컴퓨터 판독 가능 매체에는 적어도 하나의 프로그램이 저장되어, 상기 적어도 하나의 프로그램이 상기 전자 기기에 의해 실행 시 상기 전자 기기로 하여금, 스몰 타깃을 포함하는 원본 이미지를 획득하는 단계; 원본 이미지를 저해상도 이미지로 축소하는 단계; 경량의 분할 네트워크를 사용하여 저해상도 이미지에서 스몰 타깃을 포함하는 후보 영역을 식별해내는 단계; 및 후보 영역에 대응되는 원본 이미지의 영역을 관심 영역으로 하고, 관심 영역에서 미리 트레이닝된 검출 모델을 실행하여, 스몰 타깃의 원본 이미지에서의 위치를 결정하는 단계를 수행하도록 한다.
본 발명의 동작을 수행하기 위한 컴퓨터 프로그램 코드는 하나 또는 하나 이상의 프로그래밍 언어, 또는 그들의 조합으로 작성될 수 있다. 상기 프로그래밍 언어는 Java, Smalltalk, C++를 비롯한 객체 지향 프로그래밍 언어와 "C" 언어 또는 유사한 프로그래밍 언어를 비롯한 기존 절차적 프로그래밍 언어를 포함한다. 프로그램 코드는 완전히 사용자의 컴퓨터에서 실행되거나, 부분적으로 사용자의 컴퓨터에서 실행되거나, 독립형 소프트웨어 패키지로서 실행되거나, 일부는 사용자의 컴퓨터에서 실행되고 일부는 원격 컴퓨터에서 실행되거나, 또는 완전히 원격 컴퓨터 또는 서버에서 실행될 수 있다. 원격 컴퓨터의 경우 원격 컴퓨터는 LAN 또는 WAN을 포함한 모든 종류의 네트워크를 통해 사용자의 컴퓨터에 연결되거나 외부 컴퓨터에 연결될 수 있다(예를 들어, 인터넷 서비스 제공 업체를 이용하여 인터넷을 통해 연결).
도면의 흐름도 및 블록도는 본 발명의 다양한 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 구현 가능한 아키텍처, 기능 및 동작을 도시한다. 이 점에서, 흐름도 또는 블록도의 각 블록은 지정된 논리적 기능을 구현하기 위한 하나 또는 하나 이상의 실행 가능한 명령을 포함하는 모듈, 프로그램 세그먼트 또는 코드의 일부를 나타낼 수 있다. 일부 대안적인 구현에서, 블록에 표기된 기능은 또한 도면에 도시된 것과 다른 순서로 구현될 수 있음에 유의해야 한다. 예를 들어, 연속적으로 표현된 2개의 블록은 실제로 병렬 실행될 수 있고, 관련 기능에 따라 때때로 역순으로 실행될 수도 있다. 또한, 블록도 및/또는 흐름도의 각 블록, 및 블록도 및/또는 흐름도에서 블록의 조합은 지정된 기능 또는 동작을 수행하는 전용 하드웨어 기반 시스템에서 구현될 수 있거나 전용 하드웨어와 컴퓨터 명령어를 조합하여 구현할 수도 있음에 유의해야 한다.
본 발명의 실시예들에 설명된 유닛들은 소프트웨어 또는 하드웨어에 의해 구현될 수 있다. 설명된 유닛은 또한 프로세서, 예를 들어 획득 유닛, 축소 유닛, 제1 검출 유닛 및 제2 검출 유닛을 포함하는 프로세서에 설치될 수도 있다. 여기서 이들 유닛의 명칭은 경우에 따라서는 유닛 자체로 한정되지 않으며, 예를 들어, 획득 유닛은 “사용자 웹페이지 브라우징 요청을 수신하는 유닛”으로 기술될 수도 있다.
상기 설명은 본 발명의 바람직한 실시예 및 적용된 기술의 원리에 대한 설명일 뿐이다. 본 발명이 속하는 기술분야의 통상의 기술자들은 본 발명에 언급된 본 발명의 범위는 상기 기술적 특징의 특정 조합에 따른 기술적 해결수단에 한정되지 않으며, 동시에 본 발명의 사상을 벗어나지 않으면서 상기 기술적 특징 또는 그 등가 특징에 대해 임의로 조합하여 형성된 다른 기술적 해결수단, 예를 들어, 상기 특징과 본 발명에 공개된(단 이에 한정되지 않음) 유사한 기능을 구비하는 기술적 특징을 서로 교체하여 형성된 기술적 해결수단을 포함함을 이해하여야 한다.

Claims (15)

  1. 스몰 타깃 검출 방법으로서,
    스몰 타깃을 포함하는 원본 이미지를 획득하는 단계;
    상기 원본 이미지를 저해상도 이미지로 축소하는 단계;
    경량의 분할 네트워크를 사용하여 상기 저해상도 이미지에서 상기 스몰 타깃을 포함하는 후보 영역을 식별하는 단계; 및
    상기 후보 영역에 대응되는 원본 이미지의 영역을 관심 영역으로 하고, 상기 관심 영역에서 미리 트레이닝된 검출 모델을 실행하여, 상기 스몰 타깃의 상기 원본 이미지에서의 위치를 결정하는 단계;를 포함하는 방법.
  2. 제1항에 있어서,
    상기 검출 모델은,
    초기 검출 모델의 네트워크 구조를 결정하고 상기 초기 검출 모델의 네트워크 파라미터를 초기화하고;
    트레이닝 샘플 세트를 획득하고 - 상기 트레이닝 샘플은 샘플 이미지와 샘플 이미지 중 스몰 타깃의 위치를 표시하기 위한 라벨링 정보를 포함함 -;
    상기 트레이닝 샘플을 복제, 멀티 스케일 변화, 편집 중의 적어도 하나의 방식을 통해 증강시키고;
    증강 후의 트레이닝 샘플 세트 중의 트레이닝 샘플 중의 샘플 이미지와 라벨링 정보를 각각 상기 초기 검출 모델의 입력 및 예상 출력으로 하고, 기계학습 방법을 이용하여 상기 초기 검출 모델을 트레이닝하며; 및
    트레이닝하여 획득한 상기 초기 검출 모델을 상기 미리 트레이닝된 검출 모델로 결정하는 방식으로 트레이닝되는 방법.
  3. 제2항에 있어서,
    상기 트레이닝 샘플은,
    상기 샘플 이미지에서 스몰 타깃을 커팅(cutting)하고; 및
    상기 스몰 타깃을 줌(zoom) 및/또는 회전 조작한 후, 상기 샘플 이미지의 다른 위치에 랜덤으로 붙여 새로운 샘플 이미지를 획득하는 방식을 통해 편집되는 방법.
  4. 제1항에 있어서,
    상기 분할 네트워크의 트레이닝 샘플을 제작시, 원래 태스크 검출에 사용된 구형 박스 내의 픽셀점을 양성 샘플로 설정하고, 상기 구형 박스 밖의 픽셀점을 음성 샘플로 설정하는 단계;
    길이와 폭이 사전에 결정된 픽셀 수량보다 작은 스몰 타깃의 구형 박스를 바깥으로 확장시키는 단계; 및
    바깥으로 확장된 구형 박스 내의 픽셀을 양성 샘플로 설정하는 단계;를 더 포함하는 방법.
  5. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 검출 모델은,
    심층 신경망인 방법.
  6. 제5항에 있어서,
    상기 검출 모델은,
    각각의 예측 계층 특징을 융합한 후 주의 모듈을 인입하여, 상이한 채널의 특징을 위해 하나의 적합한 가중치를 학습하는 방법.
  7. 스몰 타깃 검출 장치로서,
    스몰 타깃을 포함하는 원본 이미지를 획득하는 획득 유닛;
    상기 원본 이미지를 저해상도 이미지로 축소하는 축소 유닛;
    경량의 분할 네트워크를 사용하여 상기 저해상도 이미지에서 상기 스몰 타깃을 포함하는 후보 영역을 식별하는 제1 검출 유닛; 및
    상기 후보 영역에 대응되는 원본 이미지의 영역을 관심 영역으로 하고, 상기 관심 영역에서 미리 트레이닝된 검출 모델을 실행하여, 상기 스몰 타깃의 상기 원본 이미지에서의 위치를 결정하는 제2 검출 유닛;을 포함하는 장치.
  8. 제7항에 있어서,
    상기 장치는 트레이닝 유닛을 더 포함하되, 상기 트레이닝 유닛은,
    초기 검출 모델의 네트워크 구조를 결정하고 상기 초기 검출 모델의 네트워크 파라미터를 초기화하고;
    트레이닝 샘플 세트를 획득하고 - 상기 트레이닝 샘플은 샘플 이미지와 샘플 이미지 중 스몰 타깃의 위치를 표시하기 위한 라벨링 정보를 포함함 - ;
    상기 트레이닝 샘플을 복제, 멀티 스케일 변화, 편집 중의 적어도 하나의 방식을 통해 증강시키고;
    증강 후의 트레이닝 샘플 세트 중의 트레이닝 샘플 중의 샘플 이미지와 라벨링 정보를 각각 상기 초기 검출 모델의 입력 및 예상 출력으로 하고, 기계학습 장치를 이용하여 상기 초기 검출 모델을 트레이닝하며;
    트레이닝하여 획득한 상기 초기 검출 모델을 상기 미리 트레이닝된 검출 모델로 결정하는 하는 장치.
  9. 제8항에 있어서,
    상기 트레이닝 유닛은,
    샘플 이미지에서 스몰 타깃을 커팅하고;
    상기 스몰 타깃을 줌(zoom) 및/또는 회전 조작한 후, 상기 샘플 이미지의 다른 위치에 랜덤으로 붙여 새로운 샘플 이미지를 획득하는 장치.
  10. 제7항에 있어서,
    상기 제1 검출 유닛은,
    상기 분할 네트워크의 트레이닝 샘플을 제작시, 원래 태스크 검출에 사용된 구형 박스 내의 픽셀점을 양성 샘플로 설정하고, 상기 구형 박스 밖의 픽셀점을 음성 샘플로 설정하며;
    길이와 폭이 사전에 결정된 픽셀 수량보다 작은 스몰 타깃의 구형 박스를 바깥으로 확장하고;
    바깥으로 확장된 구형 박스 내의 픽셀을 양성 샘플로 설정하는 장치.
  11. 제7항 내지 제10항 중 어느 한 항에 있어서,
    상기 검출 모델은,
    심층 신경망인 장치.
  12. 제11항에 있어서,
    상기 검출 모델은,
    각각의 예측 계층 특징을 융합한 후 주의 모듈을 인입하여, 상이한 채널의 특징을 위해 하나의 적합한 가중치를 학습하는 장치.
  13. 전자 기기로서,
    적어도 하나의 프로세서;
    적어도 하나의 프로그램이 저장된 저장 장치를 포함하고,
    상기 적어도 하나의 프로그램이 상기 적어도 하나의 프로세서에 의해 실행될 경우, 상기 적어도 하나의 프로세서가 제1항 내지 제6항 중 어느 한 항에 따른 방법을 구현하는 전자 기기.
  14. 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능한 저장 매체로서,
    상기 프로그램이 프로세서에 의해 실행될 경우 제1항 내지 제6항 중 어느 한 항에 따른 방법이 구현되는 컴퓨터 판독 가능한 저장 매체.
  15. 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램으로서,
    상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우 제1항 내지 제6항 중 어느 한 항에 따른 방법이 구현되는 컴퓨터 프로그램.
KR1020210040639A 2020-05-27 2021-03-29 스몰 타깃 검출 방법 및 장치 KR102523886B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010461384.2 2020-05-27
CN202010461384.2A CN111626208B (zh) 2020-05-27 2020-05-27 用于检测小目标的方法和装置

Publications (2)

Publication Number Publication Date
KR20210042275A true KR20210042275A (ko) 2021-04-19
KR102523886B1 KR102523886B1 (ko) 2023-04-21

Family

ID=72272663

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210040639A KR102523886B1 (ko) 2020-05-27 2021-03-29 스몰 타깃 검출 방법 및 장치

Country Status (3)

Country Link
JP (1) JP7262503B2 (ko)
KR (1) KR102523886B1 (ko)
CN (1) CN111626208B (ko)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113095434A (zh) * 2021-04-27 2021-07-09 深圳市商汤科技有限公司 目标检测方法及装置、电子设备、存储介质
CN113139483A (zh) * 2021-04-28 2021-07-20 北京百度网讯科技有限公司 人体行为识别方法、装置、设备、存储介质以及程序产品
CN113360791A (zh) * 2021-06-29 2021-09-07 北京百度网讯科技有限公司 电子地图的兴趣点查询方法、装置、路侧设备及车辆
CN113553979A (zh) * 2021-07-30 2021-10-26 国电汉川发电有限公司 一种基于改进yolo v5的安全服检测方法和系统
CN113591569A (zh) * 2021-06-28 2021-11-02 北京百度网讯科技有限公司 障碍物检测方法、装置、电子设备以及存储介质
CN113989592A (zh) * 2021-10-28 2022-01-28 三一建筑机器人(西安)研究院有限公司 一种语义分割图像样本的扩充方法、装置及电子设备
CN115620157A (zh) * 2022-09-21 2023-01-17 清华大学 一种卫星图像的表征学习方法及装置
CN115984084A (zh) * 2022-12-19 2023-04-18 中国科学院空天信息创新研究院 一种基于动态可拆分网络的遥感分布式数据处理方法
WO2023153781A1 (en) * 2022-02-08 2023-08-17 Samsung Electronics Co., Ltd. Method and electronic device for processing input frame for on-device ai model

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112418345B (zh) * 2020-12-07 2024-02-23 深圳小阳软件有限公司 细粒度小目标快速识别的方法和装置
CN112633218B (zh) * 2020-12-30 2023-10-13 深圳市优必选科技股份有限公司 人脸检测方法、装置、终端设备及计算机可读存储介质
CN112801169B (zh) * 2021-01-25 2024-02-06 中国人民解放军陆军工程大学 一种基于改进yolo算法的伪装目标检测方法、系统、装置及存储介质
CN113158743B (zh) * 2021-01-29 2022-07-12 中国科学院自动化研究所 基于先验知识的小目标实时检测与定位方法、系统、设备
CN113011297A (zh) * 2021-03-09 2021-06-22 全球能源互联网研究院有限公司 基于边云协同的电力设备检测方法、装置、设备及服务器
CN113223026A (zh) * 2021-04-14 2021-08-06 山东师范大学 基于轮廓的目标果实图像实例分割方法及系统
CN113295298A (zh) * 2021-05-19 2021-08-24 深圳市朗驰欣创科技股份有限公司 测温方法、测温装置、终端设备及存储介质
CN113221823A (zh) * 2021-05-31 2021-08-06 南通大学 一种基于改进轻量级YOLOv3的交通信号灯倒计时识别方法
CN113221925B (zh) * 2021-06-18 2022-11-11 北京理工大学 一种基于多尺度图像的目标检测方法及装置
CN113628208B (zh) * 2021-08-30 2024-02-06 北京中星天视科技有限公司 船舶检测方法、装置、电子设备和计算机可读介质
CN114595759A (zh) * 2022-03-07 2022-06-07 卡奥斯工业智能研究院(青岛)有限公司 一种护具识别方法、装置、电子设备及存储介质
CN114298912B (zh) * 2022-03-08 2022-10-14 北京万里红科技有限公司 图像采集方法、装置、电子设备及存储介质
CN117541771A (zh) * 2022-08-01 2024-02-09 马上消费金融股份有限公司 图像识别模型训练方法及图像识别方法
CN115731243B (zh) * 2022-11-29 2024-02-09 北京长木谷医疗科技股份有限公司 基于人工智能及注意力机制的脊柱图像分割方法及装置
CN116912604B (zh) * 2023-09-12 2024-01-16 浙江大华技术股份有限公司 模型训练方法、图像识别方法、装置以及计算机存储介质
CN117746028A (zh) * 2024-02-08 2024-03-22 暗物智能科技(广州)有限公司 一种未标注物品的视觉检测方法、装置、设备及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020009446A (ja) * 2018-07-06 2020-01-16 タタ・コンサルタンシー・サーヴィシズ・リミテッド ディープネットワークを使用する自動オブジェクトアノテーションのための方法およびシステム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4420459B2 (ja) * 2005-06-14 2010-02-24 キヤノン株式会社 画像処理装置およびその方法
CN104598912A (zh) * 2015-01-23 2015-05-06 湖南科技大学 一种基于cpu与gpu协同计算的交通灯检测识别方法
US10740607B2 (en) * 2017-08-18 2020-08-11 Autel Robotics Co., Ltd. Method for determining target through intelligent following of unmanned aerial vehicle, unmanned aerial vehicle and remote control
CN109829456B (zh) * 2017-11-23 2022-05-17 腾讯科技(深圳)有限公司 图像识别方法、装置及终端
US10973486B2 (en) * 2018-01-08 2021-04-13 Progenics Pharmaceuticals, Inc. Systems and methods for rapid neural network-based image segmentation and radiopharmaceutical uptake determination
CN108229575A (zh) * 2018-01-19 2018-06-29 百度在线网络技术(北京)有限公司 用于检测目标的方法和装置
CN110119734A (zh) * 2018-02-06 2019-08-13 同方威视技术股份有限公司 刀具检测方法及装置
WO2020020472A1 (en) * 2018-07-24 2020-01-30 Fundación Centro Tecnoloxico De Telecomunicacións De Galicia A computer-implemented method and system for detecting small objects on an image using convolutional neural networks
CN109344821A (zh) * 2018-08-30 2019-02-15 西安电子科技大学 基于特征融合和深度学习的小目标检测方法
CN110909756A (zh) * 2018-09-18 2020-03-24 苏宁 用于医学图像识别的卷积神经网络模型训练方法和装置
CN110298226B (zh) * 2019-04-03 2023-01-06 复旦大学 一种毫米波图像人体携带物的级联检测方法
CN109858472B (zh) * 2019-04-09 2023-08-04 武汉领普科技有限公司 一种嵌入式实时人形检测方法和装置
CN110503112B (zh) * 2019-08-27 2023-02-03 电子科技大学 一种增强特征学习的小目标检测及识别方法
CN110866925B (zh) * 2019-10-18 2023-05-26 拜耳股份有限公司 一种用于图像分割的方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020009446A (ja) * 2018-07-06 2020-01-16 タタ・コンサルタンシー・サーヴィシズ・リミテッド ディープネットワークを使用する自動オブジェクトアノテーションのための方法およびシステム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Meng Dong 외 4명, A CNN-Based Approach for Automatic License Plate Recognition in the Wild, British Machine Vision Conference, pp.1-12 (2017.09) 1부.* *
Yingying Zhu 외 3명, Cascaded Segmentation-Detection Networks for Text-Based Traffic Sign Detection, IEEE Transactions on Intelligent Transportation Systems, pp.209-219 (2017.12.25.) 1부.* *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113095434A (zh) * 2021-04-27 2021-07-09 深圳市商汤科技有限公司 目标检测方法及装置、电子设备、存储介质
CN113139483A (zh) * 2021-04-28 2021-07-20 北京百度网讯科技有限公司 人体行为识别方法、装置、设备、存储介质以及程序产品
CN113139483B (zh) * 2021-04-28 2023-09-29 北京百度网讯科技有限公司 人体行为识别方法、装置、设备、存储介质以及程序产品
CN113591569A (zh) * 2021-06-28 2021-11-02 北京百度网讯科技有限公司 障碍物检测方法、装置、电子设备以及存储介质
CN113360791B (zh) * 2021-06-29 2023-07-18 北京百度网讯科技有限公司 电子地图的兴趣点查询方法、装置、路侧设备及车辆
CN113360791A (zh) * 2021-06-29 2021-09-07 北京百度网讯科技有限公司 电子地图的兴趣点查询方法、装置、路侧设备及车辆
CN113553979A (zh) * 2021-07-30 2021-10-26 国电汉川发电有限公司 一种基于改进yolo v5的安全服检测方法和系统
CN113553979B (zh) * 2021-07-30 2023-08-08 国电汉川发电有限公司 一种基于改进yolo v5的安全服检测方法和系统
CN113989592A (zh) * 2021-10-28 2022-01-28 三一建筑机器人(西安)研究院有限公司 一种语义分割图像样本的扩充方法、装置及电子设备
WO2023153781A1 (en) * 2022-02-08 2023-08-17 Samsung Electronics Co., Ltd. Method and electronic device for processing input frame for on-device ai model
CN115620157A (zh) * 2022-09-21 2023-01-17 清华大学 一种卫星图像的表征学习方法及装置
CN115984084A (zh) * 2022-12-19 2023-04-18 中国科学院空天信息创新研究院 一种基于动态可拆分网络的遥感分布式数据处理方法
CN115984084B (zh) * 2022-12-19 2023-06-06 中国科学院空天信息创新研究院 一种基于动态可拆分网络的遥感分布式数据处理方法

Also Published As

Publication number Publication date
CN111626208B (zh) 2023-06-13
KR102523886B1 (ko) 2023-04-21
CN111626208A (zh) 2020-09-04
JP7262503B2 (ja) 2023-04-21
JP2021179971A (ja) 2021-11-18

Similar Documents

Publication Publication Date Title
KR20210042275A (ko) 스몰 타깃 검출 방법 및 장치
KR102189262B1 (ko) 엣지 컴퓨팅을 이용한 교통 정보 수집 장치 및 방법
CN112015847B (zh) 一种障碍物的轨迹预测方法、装置、存储介质及电子设备
CN111582189B (zh) 交通信号灯识别方法、装置、车载控制终端及机动车
CN109961522B (zh) 图像投射方法、装置、设备和存储介质
CN107084740B (zh) 一种导航方法和装置
CN111797526A (zh) 一种仿真测试场景构建方法及装置
EP3660735B1 (en) A compressive environmental feature representation for vehicle behavior prediction
US20200278217A1 (en) Method and apparatus for a context-aware crowd-sourced sparse high definition map
CN112561840A (zh) 视频裁剪方法、装置、存储介质及电子设备
CN115019060A (zh) 目标识别方法、目标识别模型的训练方法及装置
CN110097600B (zh) 用于识别交通标志牌的方法及装置
US20230091574A1 (en) Driving assistance processing method and apparatus, computer-readable medium, and electronic device
US11908095B2 (en) 2-D image reconstruction in a 3-D simulation
Moseva et al. Development of a Platform for Road Infrastructure Digital Certification
CN112036517B (zh) 图像缺陷分类方法、装置及电子设备
CN115061386A (zh) 智能驾驶的自动化仿真测试系统及相关设备
CN115114302A (zh) 道路标牌数据更新方法、装置、电子设备及存储介质
CN112651351A (zh) 一种数据处理的方法和装置
CN110807397A (zh) 一种预测目标物运动状态的方法及装置
CN111060114A (zh) 用于生成高精度地图的特征图的方法和装置
CN110705493A (zh) 车辆行驶环境的检测方法、系统、电子设备及存储介质
CN116958915B (zh) 目标检测方法、装置、电子设备及存储介质
CN115546769B (zh) 道路图像识别方法、装置、设备、计算机可读介质
CN115019278B (zh) 一种车道线拟合方法、装置、电子设备和介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant