KR102622941B1 - 작은 객체의 검출 및 인식 성능 향상을 위한 영상 처리 장치 및 방법 - Google Patents

작은 객체의 검출 및 인식 성능 향상을 위한 영상 처리 장치 및 방법 Download PDF

Info

Publication number
KR102622941B1
KR102622941B1 KR1020220036076A KR20220036076A KR102622941B1 KR 102622941 B1 KR102622941 B1 KR 102622941B1 KR 1020220036076 A KR1020220036076 A KR 1020220036076A KR 20220036076 A KR20220036076 A KR 20220036076A KR 102622941 B1 KR102622941 B1 KR 102622941B1
Authority
KR
South Korea
Prior art keywords
image
interest
region
input
size
Prior art date
Application number
KR1020220036076A
Other languages
English (en)
Other versions
KR20230139851A (ko
Inventor
원치선
Original Assignee
국방과학연구소
동국대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 국방과학연구소, 동국대학교 산학협력단 filed Critical 국방과학연구소
Priority to KR1020220036076A priority Critical patent/KR102622941B1/ko
Publication of KR20230139851A publication Critical patent/KR20230139851A/ko
Application granted granted Critical
Publication of KR102622941B1 publication Critical patent/KR102622941B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 작은 객체의 검출 및 인식 성능 향상을 위한 영상 처리 장치 및 방법을 위하여, 제1 영상 내에 존재하는 관심 영역을 영상 조각으로 잘라내고, 상기 영상 조각을 심층 신경망의 입력 크기에 맞게 크기 변환한 제2 영상의 여백에 붙여 상기 심층 신경망에 대한 입력 영상을 생성하는 입력 영상 생성부, 및 상기 심층 신경망을 포함하며 상기 입력 영상을 기초로 상기 관심 영역 내의 객체를 인식하는 영상 인식부를 포함하는, 영상 처리 장치를 제공한다.

Description

작은 객체의 검출 및 인식 성능 향상을 위한 영상 처리 장치 및 방법 {APPARATUS AND METHOD OF IMAGE PROCESSING TO IMPROVE DETECTION AND RECOGNITION PERFORMANCE FOR SAMLL OBJECTS}
본 발명의 실시예들은 영상 처리 장치 및 방법에 관한 것으로서, 더 상세하게는 작은 객체의 검출 및 인식 성능 향상을 위한 영상 처리 장치 및 방법에 관한 것이다.
영상 내에 존재하는 특정 객체를 검출하고 인식하는 문제는 심층 신경망 (Deep Neural Network)의 발전과 함께 최근에 그 성능이 비약적으로 향상되고 있다. 예를 들어, 합성곱 신경망(CNN, Convolutional Neural Network)을 기반으로 하는 YOLO(You Look Only Once)가 제안되어, 동영상에 존재하는 특정 객체를 박스(Bounding Box)로 둘러싸서 검출하고 검출된 객체를 실시간으로 분류하거나 인식하는 문제에 대한 검출 및 인식 성능 향상에 큰 기여를 하고 있다. 그러나 이와 같이 객체의 검출과 인식이 실시간으로 처리 될 수 있다는 장점을 가진 YOLO의 문제점으로 지적되고 있는 것은 너무 작은 객체에 대한 인식 성능이 만족스럽지 못하다는 것이다. 이를 극복하기 위해 초기 버전의 YOLO를 개선한 YOLOv2 및 YOLOv3가 발표되었으며 최근에는 실시간 처리 측면에서 이를 더욱 개선한 YOLOv4와 YOLOv5도 제안되었다.
이와 같이 작은 크기의 객체에 대한 인식율의 저하 문제를 해결하기 위해 지금까지는 주로 신경망의 구조를 변경하는 방법을 적용하였다. 그러나 아무리 훈련이 잘 된 신경망이라도 작은 크기의 객체에서 추출할 수 있는 특징 정보가 객체들 사이의 차이를 인식할 수 있을 만큼 충분하지 않다는 근본적인 한계를 갖고 있다. 특히, 카메라에서 취득한 동영상에 대해 객체 추출과 인식을 실시간으로 처리해야 하는 상황에서 심층 신경망의 입력 영상의 크기를 카메라에서 취득한 고해상도를 그대로 사용할 수 없다. 예를 들어, 보통의 HD(High Definition)급 카메라에서 취득한 영상의 해상도는 1920x1080이지만 YOLO와 같이 실시간 처리를 위해 개발된 심층 신경망의 경우 입력 영상의 크기를 대부분 416x416 (혹은 480x480, 640x640 등)으로 설정하여 훈련시키고 있다. 따라서 카메라에서 취득한 1920x1080 영상을 훈련된 YOLO의 입력 신호로 제공하기 이전에 영상의 크기를 변환하여 416x416로 축소할 필요가 있다. 결과적으로, 원래의 1920x1080 해상도에 존재하는 객체들이 416x416으로 축소된 영상에서는 그 크기가 작아져서 해당 객체의 검출과 인식을 더욱 어렵게 한다.
본 발명은 상기와 같은 문제점을 포함하여 여러 문제점들을 해결하기 위한 것으로서, 미리 훈련된 심층 신경망(Deep Neural Network)을 활용하여 영상 내에 특정 객체가 위치한 관심 영역(Region of Interest)이나 작은 객체의 국부적인 영상 특징을 부각하여 검출 및 인식 성능을 향상시키기 위한 영상 처리 장치 및 방법을 제공하는 것을 목적으로 한다. 그러나 이러한 과제는 예시적인 것으로, 이에 의해 본 발명의 범위가 한정되는 것은 아니다.
본 발명의 일 관점에 따르면, 제1 영상 내에 존재하는 관심 영역을 영상 조각으로 잘라내고, 상기 영상 조각을 심층 신경망의 입력 크기에 맞게 크기 변환한 제2 영상의 여백에 붙여 상기 심층 신경망에 대한 입력 영상을 생성하는 입력 영상 생성부, 및 상기 심층 신경망을 포함하며 상기 입력 영상을 기초로 상기 관심 영역 내의 객체를 인식하는 영상 인식부를 포함하는, 영상 처리 장치가 제공된다.
상기 입력 영상 생성부는, 상기 제1 영상에서 에지 크기(edge magnitude)값의 공간적인 밀도를 계산하여, 상기 관심 영역을 결정하는, 관심 영역 추출부를 포함할 수 있다.
상기 관심 영역 추출부는, 상기 제1 영상의 이전 영상 프레임에서 검출된 특정 객체를 추적하면서 상기 관심 영역을 업데이트할 수 있다.
상기 관심 영역 추출부는, 상기 영상 조각을 미리 지정된 크기의 배율로 크기 변환하여 상기 관심 영역의 크기를 변환할 수 있다.
상기 입력 영상 생성부는, 상기 제1 영상에서 에지 크기(edge magnitude)값의 공간적인 밀도를 계산하여, 상기 제2 영상에서 밝기의 변화가 가장 작은 평탄 영역을 결정하여 상기 평탄 영역에 상기 영상 조각을 붙여 상기 입력 영상을 생성하는 영상 조각 삽입부를 포함할 수 있다.
상기 영상 조각 삽입부는, 상기 제2 영상의 이전 영상 프레임에서 사용한 상기 평탄 영역 내의 객체의 움직임에 따라 상기 평탄 영역을 업데이트하여 사용할 수 있다.
상기 입력 영상 생성부는, 상기 제2 영상에 삽입될 상기 영상 조각을 미리 지정된 복수의 배율로 각각 확대한 복수의 영상 조각을 상기 제2 영상에 겹치지 않게 삽입하여 상기 입력 영상을 생성하고, 상기 영상 인식부는, 상기 입력 영상을 기초로 상기 복수의 영상 조각의 인식 결과를 통합하여 최종 인식 결과를 판정할 수 있다.
본 발명의 일 관점에 따르면, 컴퓨팅 장치에 의해 수행되는 영상 처리 방법에 있어서, 제1 영상 내에 존재하는 관심 영역을 영상 조각으로 잘라내는 단계, 상기 영상 조각을 심층 신경망의 입력 크기에 맞게 크기 변환한 제2 영상의 여백에 붙여 상기 심층 신경망에 대한 입력 영상을 생성하는 단계, 및 상기 입력 영상을 기초로 상기 관심 영역 내의 객체를 인식하는 단계를 포함하는, 영상 처리 방법이 제공된다.
상기 관심 영역을 영상 조각으로 잘라내는 단계는, 상기 제1 영상에서 에지 크기(edge magnitude)값의 공간적인 밀도를 계산하여, 상기 관심 영역을 결정하는 단계를 포함할 수 있다.
상기 관심 영역을 영상 조각으로 잘라내는 단계는, 상기 제1 영상의 이전 영상 프레임에서 검출된 특정 객체를 추적하면서 상기 관심 영역을 업데이트하는 단계를 더 포함할 수 있다.
상기 관심 영역을 영상 조각으로 잘라내는 단계는, 상기 영상 조각을 미리 지정된 크기의 배율로 크기 변환하여 상기 관심 영역의 크기를 변환하는 단계를 더 포함할 수 있다.
상기 입력 영상을 생성하는 단계는, 상기 제1 영상에서 에지 크기(edge magnitude)값의 공간적인 밀도를 계산하여, 상기 제2 영상에서 밝기의 변화가 가장 작은 평탄 영역을 결정하여 상기 평탄 영역에 상기 영상 조각을 붙여 상기 입력 영상을 생성하는 단계를 포함할 수 있다.
상기 입력 영상을 생성하는 단계는, 상기 제2 영상의 이전 영상 프레임에서 사용한 상기 평탄 영역 내의 객체의 움직임에 따라 상기 평탄 영역을 업데이트하여 사용하는 단계를 포함할 수 있다.
상기 입력 영상을 생성하는 단계는, 상기 제2 영상에 삽입될 상기 영상 조각을 미리 지정된 복수의 배율로 각각 확대한 복수의 영상 조각을 상기 제2 영상에 겹치지 않게 삽입하여 상기 입력 영상을 생성하는 단계를 포함하고, 상기 관심 영역 내의 객체를 인식하는 단계는, 상기 입력 영상을 기초로 상기 복수의 영상 조각의 인식 결과를 통합하여 최종 인식 결과를 판정하는 단계를 포함할 수 있다.
본 발명의 일 관점에 따르면, 컴퓨터를 이용하여 상술한 방법을 실행시키기 위하여 기록매체에 저장된 컴퓨터 프로그램이 제공된다.
전술한 것 외의 다른 측면, 특징, 이점은 이하의 발명을 실시하기 위한 구체적인 내용, 청구범위 및 도면으로부터 명확해질 것이다.
상기한 바와 같이 이루어진 본 발명의 일 실시예에 따르면, 작은 객체의 검출 및 인식 성능 향상을 위한 영상 처리 장치 및 방법을 구현할 수 있다. 물론 이러한 효과에 의해 본 발명의 범위가 한정되는 것은 아니다.
도 1은 본 발명의 일 실시예에 따른 영상 처리 장치의 구성 및 동작을 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 영상 처리 장치의 프로세서 구성을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 영상 처리 방법을 보여주는 순서도이다.
도 4는 원 영상의 크기를 줄이는 과정에서 발생하는 문제점을 설명하기 위한 도면이다.
도 5 내지 도 9는 본 발명의 일 실시예에 따른 영상 처리 방법을 설명하기 위한 도면이다.
도 10은 본 발명의 일 실시예에 따른 영상 처리 방법에 따라 객체를 인식하는 방법을 설명하기 위한 도면이다.
본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 본 발명의 효과 및 특징, 그리고 그것들을 달성하는 방법은 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 다양한 형태로 구현될 수 있다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예들을 상세히 설명하기로 하며, 도면을 참조하여 설명할 때 동일하거나 대응하는 구성 요소는 동일한 도면부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
이하의 실시예에서, 제1 이나 제2 등의 용어는 한정적인 의미가 아니라, 일 구성 요소를 다른 구성 요소와 구별하는 목적으로 사용되었다. 그리고 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한, 포함하다 또는 가지다 등의 용어는 명세서 상에 기재된 특징 또는 구성요소가 존재함을 의미하는 것이고, 하나 이상의 다른 특징들 또는 구성요소가 부가될 가능성을 배제하는 것은 아니다.
도면에서는 설명의 편의를 위하여 구성 요소들이 그 크기가 과장 또는 축소될 수 있다. 예컨대, 도면에서 나타난 각 구성의 크기 및 두께는 설명의 편의를 위해 임의로 나타내었으므로, 본 발명이 반드시 도시된 바에 한정되지 않는다.
이하의 실시예에서, 영역, 구성 요소, 부, 블록 또는 모듈 등의 부분이 다른 부분 위에 또는 상에 있다고 할 때, 다른 부분의 바로 위에 있는 경우뿐만 아니라, 그 중간에 다른 영역, 구성 요소, 부, 블록 또는 모듈 등이 개재되어 있는 경우도 포함한다. 그리고 영역, 구성 요소, 부, 블록 또는 모듈 등이 연결되었다고 할 때, 영역, 구성 요소, 부, 블록 또는 모듈들이 직접적으로 연결된 경우뿐만 아니라 영역, 구성요소, 부, 블록 또는 모듈들 중간에 다른 영역, 구성 요소, 부, 블록 또는 모듈들이 개재되어 간접적으로 연결된 경우도 포함한다.
이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 여러 실시예에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 영상 처리 장치의 구성 및 동작을 설명하기 위한 도면이고, 도 2는 본 발명의 일 실시예에 따른 영상 처리 장치의 프로세서 구성을 설명하기 위한 도면이다.
먼저, 도 1을 참조하면, 본 발명의 일 실시예에 따른 영상 처리 장치(1)는 메모리(10), 프로세서(20), 통신 모듈(30) 및 입출력 인터페이스(40)를 포함할 수 있다. 하지만 본 발명은 이에 한정되지 않으며, 영상 처리 장치(1)는 다른 구성요소를 더 포함할 수도 있고 일부 구성요소가 생략될 수도 있다. 영상 처리 장치(1)의 일부 구성요소는 복수의 장치로 분리될 수도 있고, 복수개의 구성요소들이 하나의 장치로 병합될 수도 있다.
메모리(10)는 컴퓨터에서 판독 가능한 기록 매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 또한, 메모리(10)에는 영상 처리 장치(1)를 제어하기 위한 프로그램 코드 및 영상 처리 방법에 이용되는 데이터가 일시적 또는 영구적으로 저장될 수 있다.
프로세서(20)는 제1 영상 내에 존재하는 관심 영역을 영상 조각으로 잘라내고, 영상 조각을 심층 신경망의 입력 크기에 맞게 크기 변환한 제2 영상의 여백에 붙여 심층 신경망에 대한 입력 영상을 생성하고, 입력 영상을 기초로 관심 영역 내의 객체를 인식할 수 있다.
통신 모듈(30)은 네트워크를 통해 외부 장치와 통신하기 위한 기능을 제공할 수 있다. 일례로, 영상 처리 장치(1)의 프로세서(20)가 메모리(10)와 같은 기록 장치에 저장된 프로그램 코드에 따라 생성한 요청이 통신 모듈(30)의 제어에 따라 네트워크를 통해 외부 장치로 전달될 수 있다. 역으로, 외부 장치의 프로세서의 제어에 따라 제공되는 제어 신호나 명령, 컨텐츠, 파일 등이 네트워크를 거쳐 통신 모듈(30)을 통해 영상 처리 장치(1)로 수신될 수 있다. 예를 들어 통신 모듈(30)을 통해 수신된 외부 장치의 제어 신호나 명령 등은 프로세서(20)나 메모리(10)로 전달될 수 있고, 컨텐츠나 파일 등은 영상 처리 장치(1)가 더 포함할 수 있는 저장 매체로 저장될 수 있다.
통신 방식은 제한되지 않으며, 네트워크가 포함할 수 있는 통신망(일례로, 이동통신망, 유선 인터넷, 무선 인터넷, 방송망)을 활용하는 통신 방식뿐만 아니라 기기들간의 근거리 무선 통신 역시 포함될 수 있다. 예를 들어, 네트워크는, PAN(personal area network), LAN(local area network), CAN(campus area network), MAN(metropolitan area network), WAN(wide area network), BBN(broadband network), 인터넷 등의 네트워크 중 하나 이상의 임의의 네트워크를 포함할 수 있다. 또한, 네트워크는 버스 네트워크, 스타 네트워크, 링 네트워크, 메쉬 네트워크, 스타-버스 네트워크, 트리 또는 계층적(hierarchical) 네트워크 등을 포함하는 네트워크 토폴로지 중 임의의 하나 이상을 포함할 수 있으나, 이에 제한되지 않는다.
또한, 통신 모듈(30)은 외부 장치와 네트워크를 통해 통신할 수 있다. 통신 방식은 제한되지 않지만, 네트워크는 근거리 무선통신망일 수 있다. 예를 들어, 네트워크는 블루투스(Bluetooth), BLE(Bluetooth Low Energy), Wifi 통신망일 수 있다.
또한, 본 발명에 따른 영상 처리 장치(1)는 입출력 인터페이스(40)를 포함할 수 있다. 입출력 인터페이스(40)는 입출력 장치와의 인터페이스를 위한 수단일 수 있다. 예를 들어, 입력 장치는 키보드 또는 마우스 등의 장치를, 그리고 출력 장치는 어플리케이션의 통신 세션을 표시하기 위한 디스플레이와 같은 장치를 포함할 수 있다. 다른 예로 입출력 인터페이스(40)는 터치스크린과 같이 입력과 출력을 위한 기능이 하나로 통합된 장치와의 인터페이스를 위한 수단일 수도 있다. 보다 구체적인 예로, 영상 처리 장치(1)의 프로세서(20)는 메모리(10)에 로딩된 컴퓨터 프로그램의 명령을 처리함에 있어서 외부 서버가 제공하는 데이터를 이용하여 구성되는 서비스 화면이나 컨텐츠가 입출력 인터페이스(40)를 통해 디스플레이에 표시될 수 있다.
또한, 다른 실시예들에서 영상 처리 장치(1)는 도 1의 구성요소들보다 더 많은 구성요소들을 포함할 수도 있다. 예를 들어, 상술한 입출력 장치 중 적어도 일부를 포함하도록 구현되거나 또는 내부 구성요소들에 전력을 공급하는 배터리 및 충전 장치, 각종 센서, 데이터베이스 등과 같은 다른 구성요소들을 더 포함할 수도 있다.
이하 도 2를 참조하여, 본 발명의 일 실시예에 따른 영상 처리 장치(1)의 프로세서(20)의 내부 구성에 대하여 상세히 검토한다. 후술되는 프로세서(20)는 이해의 용이를 위하여 도 1에 도시된 영상 처리 장치(1)의 프로세서(20)임을 가정하고 설명한다.
본 발명의 일 실시예에 따른 영상 처리 장치(1)의 프로세서(20)는 입력 영상 생성부(200) 및 영상 인식부(300)를 포함할 수 있다. 또한, 입력 영상 생성부(200)는 관심 영역 추출부(230), 영상 크기 변환부(240), 및 영상 조각 삽입부(250)를 포함할 수 있다. 몇몇 실시예에 따라 프로세서(20)의 구성요소들은 선택적으로 프로세서(20)에 포함되거나 제외될 수도 있다. 또한, 몇몇 실시예에 따라 프로세서(20)의 구성요소들은 프로세서(20)의 기능의 표현을 위해 분리 또는 병합될 수도 있다.
이러한 프로세서(20) 및 프로세서(20)의 구성요소들은 도 3의 영상 처리 방법이 포함하는 단계들(S110 내지 S130)을 수행하도록 영상 처리 장치(1)를 제어할 수 있다. 예를 들어, 프로세서(20) 및 프로세서(20)의 구성요소들은 메모리(10)가 포함하는 운영체제의 코드와 적어도 하나의 프로그램의 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다. 여기서, 프로세서(20)의 구성요소들은 영상 처리 장치(1)에 저장된 프로그램 코드가 제공하는 명령에 따라 프로세서(20)에 의해 수행되는 프로세서(20)의 서로 다른 기능들(different functions)의 표현들일 수 있다. 프로세서(20)의 내부 구성 및 구체적인 동작에 대해서는 도 3의 영상 처리 방법의 순서도를 참조하여 설명하기로 한다.
도 3은 본 발명의 일 실시예에 따른 영상 처리 방법을 보여주는 순서도이다.
도 3을 참조하면, 단계 S110에서, 관심 영역 추출부(230)는, 제1 영상 내에 존재하는 관심 영역을 영상 조각으로 잘라낼 수 있다. 예를 들어, 관심 영역 추출부(230)는, 원 영상 내에 존재하는 관심 영역을 영상 조각으로 잘라낼 수 있다.
본 발명의 일 실시예에 따른 관심 영역 추출부(230)는 제1 영상에서 에지 크기(edge magnitude)값의 공간적인 밀도를 계산하여, 관심 영역을 결정할 수 있다. 구체적으로, 관심 영역 추출부(230)는 제1 영상의 영역(예, 사각형의 좌상, 좌하, 중앙, 우상, 혹은 우하 등의 영역) 단위로 밝기 변화를 나타내는 에지(edge)를 검출하고, 제1 영상의 각 영역 단위로 영상 밝기의 공간적 변화량을 계산하여 에지의 변화량이 가장 큰 영역에 객체가 존재하는 것으로 판단하여 해당 영역을 관심 영역으로 결정할 수 있다.
또한, 관심 영역 추출부(230)는 제1 영상의 이전 영상 프레임에서 검출된 특정 객체를 추적하면서 관심 영역을 업데이트할 수 있다.
삭제
또한, 관심 영역 추출부(230)는 영상 조각을 미리 지정된 크기의 배율로 크기 변환하여 관심 영역의 크기를 변환할 수 있다.
단계 S120에서, 입력 영상 생성부(200)는, 영상 조각을 심층 신경망의 입력 크기에 맞게 크기 변환한 제2 영상의 여백에 붙여 심층 신경망에 대한 입력 영상을 생성할 수 있다.
본 발명의 일 실시예에 따른 영상 조각 삽입부(250)는 제1 영상에서 에지 크기(edge magnitude)값의 공간적인 밀도를 계산하여, 제2 영상에서 밝기의 변화가 가장 작은 평탄 영역을 결정하여 평탄 영역에 영상 조각을 붙여 입력 영상을 생성할 수 있다. 구체적으로, 영상 조각 삽입부(250)는 제1 영상의 영역(예, 사각형의 좌상, 좌하, 중앙, 우상, 혹은 우하 등의 영역) 단위로 밝기 변화를 나타내는 에지(edge)를 검출하고, 제1 영상의 각 영역 단위로 영상 밝기의 공간적 변화량을 계산하여 에지의 변화량이 가장 작은 평탄 영역에 관심 객체가 존재하지 않을 것으로 보고 이 평탄 영역에 해당되는 제2 영상에 영상 조각을 붙여 입력 영상을 생성할 수 있다.
또한, 영상 조각 삽입부(250)는 제2 영상의 이전 영상 프레임에서 사용한 평탄 영역 내의 객체의 움직임에 따라 평탄 영역을 업데이트하여 사용할 수 있다.
또한, 입력 영상 생성부(200)는, 제2 영상에 삽입될 영상 조각을 미리 지정된 복수의 배율로 각각 확대한 복수의 영상 조각을 제2 영상에 겹치지 않게 삽입하여 입력 영상을 생성할 수 있다.
단계 S130에서, 영상 인식부(300)는, 입력 영상을 기초로 관심 영역 내의 객체를 인식할 수 있다. 구체적으로, 영상 인식부(300)는 심층 신경망을 포함하며 심층 신경망에 입력된 입력 영상을 기초로 관심 영역 내의 객체를 인식할 수 있다.
또한, 영상 인식부(300)는, 입력 영상을 기초로 복수의 영상 조각의 인식 결과를 통합하여 최종 인식 결과를 판정할 수 있다.
본 발명에 따른 심층 신경망은 미리 학습될 수 있다. 예를 들어, 본 발명에 따른 심층 신경망은 YOLO(You Look Only Once), CNN(Convolution Neural Network), RNN(Recurrent Neural Network) 또는 ANN(Artificial Neural Network)일 수 있다. 다만, 본 발명의 심층 신경망은 상기 예시에 한정되는 것은 아니며, 다양한 형태의 인공 신경망으로 구현될 수 있다.
도 4는 원 영상의 크기를 줄이는 과정에서 발생하는 문제점을 설명하기 위한 도면이다.
도 4를 참조하면, 종래 기술에 따라 원 영상의 크기를 심층 신경망의 크기로 축소하는 과정에서 작은 객체를 검출 또는 인식하지 못할 수 있다.
예를 들어, 도 4에 도시된 바와 같이, 원 영상(50)은 카메라로 취득한 1920x1080 크기의 원 영상이고, 축소 영상(60)은 원 영상(50)을 YOLO 신경망의 입력으로 사용하기 위해 416x416의 크기로 줄인 영상이다.
도 4에 도시된 바와 같이, 제1 영역(51)의 작은 선박이 영상의 크기를 줄이는 과정에서 제2 영역(61)과 같이 더욱 작아져서 객체를 검출하고 인식할 만큼 충분한 국부적인 영상 특징을 보존하지 못하는 경우가 발생할 수 있다.
이와 같이 실시간 처리를 위해 불가피하게 영상의 크기를 줄여서 사용하는 경우와 영상의 전체적인 특징뿐만 아니라 국부적인 특징이 중요한 영상 인식의 문제에서 영상의 관심 영역(Region of Interest)을 부각시켜 심층신경망의 입력으로 사용할 수 있는 새로운 영상 처리 기법이 필요하다.
도 5 내지 도 9는 본 발명의 일 실시예에 따른 영상 처리 방법을 설명하기 위한 도면이다.
먼저, 도 5를 참조하면, 본 발명의 일 실시예에 따른 입력 영상 생성부(200)와 영상 인식부(300)의 영상 신호의 흐름이 도시되어 있다.
미리 훈련된 심층 신경망은 훈련 및 인식 실행 시간의 감축과 네트워크의 크기를 한정하기 위해 입력 영상의 크기를 224x224, 299x299, 416x416, 480x480 등으로 고정하여 사용한다. 그러나, 이와 같이 심층 신경망의 고정된 입력 영상 크기는 카메라에서 취득한 1920x1080의 크기의 고해상도의 원 영상에 비하면 상당히 작은 크기로 원 영상을 신경망 입력 영상의 크기에 맞게 줄여서 사용하여야 한다. 원 영상의 크기를 줄이는 과정에서 영상 내에 존재하는 객체(object)의 크기마저 작아지면서 작은 크기의 객체를 검출하거나 인식하는데 어려움이 발생한다. 본 발명은 심층 신경망의 입력 크기에 맞춰 크기 변환된 테스트 영상의 여백에 작은 객체를 포함한 원 영상의 관심 영역(RoI: Region of Interest)을 오려 붙여(cut & paste) 심층 신경망의 입력 영상으로 사용함으로써 관심 영역에 있는 작은 객체가 더 작아지지 않고 원래(혹은 확장된)의 크기로 검출 및 인식 될 수 있도록 하여 인식 성능을 향상시키는 영상 처리 방법에 관한 것이다.
본 발명은 영상의 관심 영역(ROI: Region of Interest)에 대해 검출 및 인식 성능을 향상시키는 것으로, 영상 내에 존재하는 관심 영역은 작은 객체를 포함하는 부분이나, 영상의 국부적인 특징(local feature)를 잘 나타낼 수 있는 영역을 포함한다.
본 발명은 도 5에 도시된 바와 같이 임의의 크기를 갖는 원 영상을 입력 받아 미리 훈련된 심층 신경망의 입력 영상 크기에 맞게 입력 영상 생성부(200)에서 영상의 크기를 조절하는 과정에서 원 영상의 관심 영역에 해당되는 부분을 크기 변환된 영상의 여백에 합성(삽입)하는 것에 관한 것이다.
도 6을 함께 참조하면, 본 발명의 일 실시 예에 따른 입력 영상 생성부(200)에서 관심 영역의 영상 조각을 영상 크기 변환된 영상에 삽입하여 합성 영상을 영상 인식부(300)의 입력으로 제공하는 과정이 도시되어 있다.
예를 들어, 도 6에 도시된 바와 같이, 관심 영역 추출부(230)에서 원 영상(71)에서 글자를 포함한 관심 영역(72)을 추출하고, 영상 조각 삽입부(250)에서 관심 영역(72)을 심층 신경망에서 요구하는 영상의 크기로 변환한 영상과 합성하여 입력 영상을 생성하고, 생성한 입력 영상을 심층 신경망의 입력으로 사용할 수 있다.
도 7은 본 발명의 일 실시 예에 따른 입력 영상 생성부(200)를 상세히 설명하는 도면이다. 또한, 도 8은 본 발명의 일 실시예에 따른 관심 영역 추출부(230)를 상세히 설명하는 도면이다.
도 7 및 도 8을 함께 참조하면, 관심 영역 추출부(230)는 원 영상에서 작은 객체가 존재하거나 국부적인 영상 특징을 포함하는 관심 영역에 대하여, 관심 영역을 포함하는 사각형(Bounding Box) 영역을 잘라서(cut) 추출함으로써 영상 조각(image patch)을 획득할 수 있다.
관심 영역 추출부(230)는 관심 영역 추출 모드, 사용자 제공 관심 영역 추출 위치, 관심 영역 크기 배율 값을 받아 도 8과 같은 시스템에 의해 관심 영역에 해당되는 영상 조각과 그 영상 조각을 둘러싸는 사각형(bounding box)의 크기 정보를 출력할 수 있다.
예를 들어, 도 8에 도시된 바와 같이, 원 영상 내에 관심 영역을 결정하는 방법(231)은 입력된 관심 영역 추출 모드에 의해 원 영상에 특정 패턴(혹은, 에지(edge)의 공간적인 밀도와 같은 영상 특징)을 분석하여 결정하거나(232), 원 영상의 중심 픽셀의 위치를 중심으로 결정하거나(233), 또는 사용자가 직접 지정한 위치의 영역을 선택(234)하는 방법이 활성화될 수 있다. 또한, 원 영상 내에 관심 영역을 결정하는 방법(231)은 원 영상의 이전 영상 프레임에서 검출된 특정 객체를 추적하면서 관심 영역을 업데이트 하여 결정하는 방법이 활성화될 수도 있다.
본 발명에 따르면, 영상 조각으로 잘라 낼 관심 영역을 응용 문제에 따라 다양하게 결정할 수 있다.
관심 영역 추출부(230)는 관심 영역 추출 모드에 따라 선택된 관심 영역에 대한 위치 정보(235)를 바탕으로 관심 영역에 해당되는 영상 조각을 원 영상으로부터 잘라낼 수 있다(236).
추출된 영상 조각은 사용자가 제공한 관심 영역 크기 배율 (scale factor)에 따라 확대, 축소, 혹은 원 영상과 동일한 크기를 유지하는 스케일링 처리를 수행한 후(237) 추출된 영상 조각과 영상 조각의 크기 정보(Bounding Box의 중심점 및 가로/세로 크기)가 출력될 수 있다.
예를 들어, 관심 영역 추출부(230)는 원 영상의 관심 영역에서 추출한 영상 조각을 심층 신경망의 입력 크기에 맞게 크기 변환한 영상의 여백에 붙이기 이전에 여러 배율로 영상 조각을 확대 혹은 축소할 수 있다. 예컨대, 관심 영역 추출부(230)는 관심 영역에 해당되는 영상 조각을 1 이상의 배율로 크기 변환하여 관심 영역을 확대할 수 있다. 또는, 관심 영역 추출부(230)는 관심 영역에 해당되는 영상 조각을 배율 1로 크기 변환없이 그대로 사용할 수 있다. 또는, 관심 영역 추출부(230)는 관심 영역에 해당되는 영상 조각을 1 미만의 배율로 크기 변환하여 관심 영역을 축소할 수 있다. 또한, 추출된 영상 조각과 영상 조각의 크기 정보는 도 7의 영상 조각 삽입부(250)에 입력되어 영상 인식부(300)의 입력 크기에 맞게 크기 변환된 영상에 삽입될 수 있다.
입력 영상 생성부(200)는, 영상 인식부(300)의 입력 크기에 맞게 크기 변환된 영상에 삽입될 영상 조각을 미리 지정된 복수의 배율로 각각 확대한 복수의 영상 조각을 영상 인식부(300)의 입력 크기에 맞게 크기 변환된 영상에 겹치지 않게 삽입하여 입력 영상을 생성할 수 있다.
영상 인식부(300)는, 입력 영상을 기초로 복수의 영상 조각의 인식 결과를 통합하여 최종 인식 결과를 판정할 수 있다.
도 9는 본 발명의 일 실시 예에 따른 영상 조각 삽입부(250)를 상세히 설명하는 도면이다. 예를 들어, 도 9는 영상 조각 삽입부(250)의 일 예를 나타내는 상세도이다.
도 9를 참조하면, 삽입 위치를 결정하기 위하여, 미리 설정된 영상 조각 삽입 모드에 따라 평탄 영역 검출 기반 삽입 위치 결정 모듈(252), 영상의 모서리 영역 삽입 위치 결정 모듈(253), 사용자 제공 삽입 위치 결정 모듈(254) 중에 하나가 활성화된다.
평탄 영역 검출 기반 삽입 위치 결정 모듈(252)은 크기 변환된 원 영상에서 밝기의 변화가 가장 작은 영역을 찾아 영상 조각의 삽입 위치를 결정할 수 있다. 예를 들어, 평탄 영역 검출 기반 삽입 위치 결정 모듈(252)은 원 영상에서 에지 크기(edge magnitude)값의 공간적인 밀도를 계산하여 밝기의 변화가 가장 작은 평탄 영역을 결정할 수 있다. 예를 들어, 평탄 영역 검출 기반 삽입 위치 결정 모듈(252)은 영상을 좌상, 좌하, 중앙, 우상, 혹은 우하 등의 영역 단위로 밝기 변화를 나타내는 에지(edge)를 검출하고, 제1 영상의 각 영역 단위로 영상 밝기의 공간적 변화량을 계산하여 에지의 변화량이 가장 작은 평탄 영역에 관심 객체가 존재하지 않을 것으로 보고 이 평탄 영역을 영상 조각의 삽입 위치로 결정할 수 있다.
영상의 모서리 영역 삽입 위치 결정 모듈(253)은 디폴트로 사용할 수 있는 모듈로 영상의 4개 가장자리 중에 하나(예를 들어, 좌측 상단 모서리)를 삽입 위치로 사용할 수 있다.
사용자가 특정 위치에 영상 조각을 삽입하기를 원하는 경우에는 사용자 제공 삽입 위치 결정 모듈(254)에서 삽입 위치를 결정할 수 있다.
또한, 영상 조각 삽입부(250)는 미리 설정된 영상 조각 삽입 모드에 따라 원 영상의 이전 영상 프레임에서 사용한 삽입 영역을 그대로 사용할 수 있다.
또한, 영상 조각 삽입부(250)는 미리 설정된 영상 조각 삽입 모드에 따라 원 영상의 이전 영상 프레임에서 사용한 삽입 영역 내의 객체의 움직임에 따라 삽입 영역을 업데이트하여 사용할 수 있다.
이와 같이 결정된 영상 조각 삽입 위치에 따라 영상 조각 삽입 모듈(256)에서 추출된 영상 조각을 크기 변환된 원 영상에 삽입하고, 그 결과 합성 영상을 출력할 수 있다.
본 발명에 따르면, 영상 조각을 붙일 삽입 위치를 다양하게 결정할 수 있다.
도 10은 본 발명의 일 실시예에 따른 영상 처리 방법에 따라 객체를 인식하는 방법을 설명하기 위한 도면이다.
도 10을 참조하면, 본 발명을 실제 심층 신경망에 적용하여 얻은 결과가 도시되어 있다.
본 발명은 영상의 국부적인 특징을 포함하는 영역이나 작은 객체가 존재하는 관심 영역에서의 인식 및 검출 성능을 향상시키기 위한 것으로 본 발명을 적용하지 않았을 경우에 놓칠 수 있는 작은 객체를 검출할 수 있는 기능을 제공한다. 일 예로 해상에서 선박을 검출하고 검출된 선박의 종류를 인식하는 신경망에 대해 본 발명을 적용한 결과를 도 10에서 볼 수 있다.
예를 들어, 도 10에 도시된 바와 같이, 제1 영역(400)에 해당되는 영상 조각(Bounding Box)은 원 영상의 제2 영역(500)에 해당되는 관심 영역을 축소하지 않고 그대로(즉, 관심 영역 크기 배율을 1로 설정) 잘라내어(cut) 크기 변환된(축소된) 영상의 좌측 상단의 모서리에 삽입(paste)되어 심층 신경망의 입력 영상으로 제공될 수 있다.
도 10에 도시된 바와 같이, 크기 변환된 원 영상의 관심 영역(500)에서는 작은 선박(510)이 검출 및 인식되지 못했으나, 제1 영역(400)에서는 작은 선박(600)이 검출 및 인식될 수 있다. 예컨대, 도 10에서 점선 박스로 표시된 선박들이 검출 및 인식된 선박들이다.
본 발명에 따르면, 원 영상의 관심 영역을 적당한 크기 배율로 확대하여 동영상에서 실시간으로 결과를 모니터링하는 경우에 결과의 시각적 판독성의 향상에도 도움을 줄 수 있다.
본 발명에 따르면, 미리 훈련된 심층 신경망에 대해 테스트(혹은 추론 inference) 과정에 사용될 수 있을 뿐만 아니라 심층 신경망의 훈련 시 훈련 영상에도 적용하여 다양한 크기와 위치에서 객체를 학습할 수 있도록 할 수 있다.
본 발명에 따르면, 높은 해상도로 취득한 원 영상과 심층 신경망에서 요구하는 입력 영상의 크기 사이의 차이에 의해 발생할 수 있는 문제를 해결할 수 있다. 특히, 상대적으로 상당히 작은 크기를 요구하는 심층 신경망의 입력 영상으로 원 영상을 축소하는 과정에서 원 영상의 국부적인 특성이나 작은 객체가 더욱 작아지는 문제를 해결하기 위해 원 영상의 관심 영역 (예, 작은 객체를 포함하는 영역)을 축소하지 않거나 적절한 배율로 확장한 영상 조각을 심층 신경망의 입력 영상의 여백에 삽입하여 삽입된 영상 조각 내의 객체가 검출 및 인식될 수 있다.
본 발명에 따르면, 사전에 훈련된 심층 신경망을 그대로 사용하면서 테스트 영상만을 조작하여 작은 객체에 대한 인식 성능을 향상시킬 수 있다.
본 발명에 따르면, 심층 신경망의 입력 크기에 맞춰 원 영상을 축소하면서 원 영상 내에 존재하는 작은 크기의 객체가 더욱 작아져서 발생하는 객체의 미검출 혹은 오검출의 문제를 해결할 수 있다.
본 발명에 따르면, 심층 신경망의 입력 크기에 맞춰 원 영상을 축소하면서 원 영상 내에 존재하는 작은 크기의 객체가 더욱 작아져서 해당 객체의 검출 및 인식 결과를 모니터 상에 확인하기 어려운 문제를 해결하기 위해 작은 객체를 포함한 관심 영역을 영상의 여백에 확대하여 디스플레이함으로써 시각적 효과를 높일 수 있다.
본 발명에 따르면, 심층 신경망의 입력 크기에 맞춰 원 영상을 축소하면서 원 영상 내에 존재하는 국부적인 영상 특성(local image feature)이 약화되는 것을 방지하기 위해 영상의 국부적인 특징을 보존할 수 있는 영상 조각을 축소된 영상의 여백에 보존할 수 있다.
이상에서 설명된 장치 및/또는 시스템은, 하드웨어 구성요소, 소프트웨어 구성요소 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction) 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
1: 영상 처리 장치
200: 입력 영상 생성부
230: 관심 영역 추출부
240: 영상 크기 변환부
250: 영상 조각 삽입부
300: 영상 인식부

Claims (15)

  1. 제1 영상 내에 존재하는 관심 영역을 영상 조각으로 잘라내고, 상기 영상 조각을 심층 신경망의 입력 크기에 맞게 크기 변환한 제2 영상의 여백에 붙여 상기 심층 신경망에 대한 입력 영상을 생성하는 입력 영상 생성부; 및
    상기 심층 신경망을 포함하며 상기 입력 영상을 기초로 상기 관심 영역 내의 객체를 인식하는 영상 인식부;
    를 포함하고,
    상기 입력 영상 생성부는, 상기 제2 영상에 삽입될 상기 영상 조각을 미리 지정된 복수의 배율로 각각 확대한 복수의 영상 조각을 상기 제2 영상에 겹치지 않게 삽입하여 상기 입력 영상을 생성하고,
    상기 영상 인식부는, 상기 입력 영상을 기초로 상기 복수의 영상 조각의 인식 결과를 통합하여 최종 인식 결과를 판정하는, 영상 처리 장치.
  2. 제1항에 있어서,
    상기 입력 영상 생성부는, 상기 제1 영상에서 밝기 변화를 나타내는 에지(edge)를 기초로 상기 관심 영역을 결정하는, 관심 영역 추출부를 포함하는, 영상 처리 장치.
  3. 제2항에 있어서,
    상기 관심 영역 추출부는, 상기 제1 영상의 이전 영상 프레임에서 검출된 특정 객체를 추적하면서 상기 관심 영역을 업데이트하는, 영상 처리 장치.
  4. 제2항에 있어서,
    상기 관심 영역 추출부는, 상기 영상 조각을 미리 지정된 크기의 배율로 크기 변환하여 상기 관심 영역의 크기를 변환하는, 영상 처리 장치.
  5. 제1항에 있어서,
    상기 입력 영상 생성부는, 상기 제1 영상에서 밝기 변화를 나타내는 에지(edge)의 밝기 변화값을 나타내는 에지 크기(edge magnitude)값의 제1 영상에서의 공간적 변화량을 제1 영상의 영역 단위로 계산하여, 상기 에지 크기값을 기초로 상기 제2 영상에서 밝기의 변화가 가장 작은 평탄 영역을 결정하여 상기 평탄 영역에 상기 영상 조각을 붙여 상기 입력 영상을 생성하는, 영상 조각 삽입부를 포함하는, 영상 처리 장치.
  6. 제5항에 있어서,
    상기 영상 조각 삽입부는, 상기 제2 영상의 이전 영상 프레임에서 사용한 상기 평탄 영역 내의 객체의 움직임에 따라 상기 평탄 영역을 업데이트하여 사용하는, 영상 처리 장치.
  7. 삭제
  8. 컴퓨팅 장치에 의해 수행되는 영상 처리 방법에 있어서,
    제1 영상 내에 존재하는 관심 영역을 영상 조각으로 잘라내는 단계;
    상기 영상 조각을 심층 신경망의 입력 크기에 맞게 크기 변환한 제2 영상의 여백에 붙여 상기 심층 신경망에 대한 입력 영상을 생성하는 단계; 및
    상기 입력 영상을 기초로 상기 관심 영역 내의 객체를 인식하는 단계;
    를 포함하고,
    상기 입력 영상을 생성하는 단계는,
    상기 제2 영상에 삽입될 상기 영상 조각을 미리 지정된 복수의 배율로 각각 확대한 복수의 영상 조각을 상기 제2 영상에 겹치지 않게 삽입하여 상기 입력 영상을 생성하는 단계를 포함하고,
    상기 관심 영역 내의 객체를 인식하는 단계는,
    상기 입력 영상을 기초로 상기 복수의 영상 조각의 인식 결과를 통합하여 최종 인식 결과를 판정하는 단계를 포함하는, 영상 처리 방법.
  9. 제8항에 있어서,
    상기 관심 영역을 영상 조각으로 잘라내는 단계는,
    상기 제1 영상에서 밝기 변화를 나타내는 에지(edge)를 기초로 상기 관심 영역을 결정하는 단계를 포함하는, 영상 처리 방법.
  10. 제9항에 있어서,
    상기 관심 영역을 영상 조각으로 잘라내는 단계는,
    상기 제1 영상의 이전 영상 프레임에서 검출된 특정 객체를 추적하면서 상기 관심 영역을 업데이트하는 단계를 더 포함하는, 영상 처리 방법.
  11. 제9항에 있어서,
    상기 관심 영역을 영상 조각으로 잘라내는 단계는,
    상기 영상 조각을 미리 지정된 크기의 배율로 크기 변환하여 상기 관심 영역의 크기를 변환하는 단계를 더 포함하는, 영상 처리 방법.
  12. 제8항에 있어서,
    상기 입력 영상을 생성하는 단계는,
    상기 제1 영상에서 밝기 변화를 나타내는 에지(edge)의 밝기 변화값을 나타내는 에지 크기(edge magnitude)값의 제1 영상에서의 공간적 변화량을 제1 영상의 영역 단위로 계산하여, 상기 에지 크기값을 기초로 상기 제2 영상에서 밝기의 변화가 가장 작은 평탄 영역을 결정하여 상기 평탄 영역에 상기 영상 조각을 붙여 상기 입력 영상을 생성하는 단계를 포함하는, 영상 처리 방법.
  13. 제12항에 있어서,
    상기 입력 영상을 생성하는 단계는,
    상기 제2 영상의 이전 영상 프레임에서 사용한 상기 평탄 영역 내의 객체의 움직임에 따라 상기 평탄 영역을 업데이트하여 사용하는 단계를 포함하는, 영상 처리 방법.
  14. 삭제
  15. 컴퓨팅 장치를 이용하여 제8항 내지 제13항 중 어느 한 항의 방법을 구성하는 단계들을 실행시키기 위하여 기록매체에 저장된 컴퓨터 프로그램.
KR1020220036076A 2022-03-23 2022-03-23 작은 객체의 검출 및 인식 성능 향상을 위한 영상 처리 장치 및 방법 KR102622941B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220036076A KR102622941B1 (ko) 2022-03-23 2022-03-23 작은 객체의 검출 및 인식 성능 향상을 위한 영상 처리 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220036076A KR102622941B1 (ko) 2022-03-23 2022-03-23 작은 객체의 검출 및 인식 성능 향상을 위한 영상 처리 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20230139851A KR20230139851A (ko) 2023-10-06
KR102622941B1 true KR102622941B1 (ko) 2024-01-10

Family

ID=88296310

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220036076A KR102622941B1 (ko) 2022-03-23 2022-03-23 작은 객체의 검출 및 인식 성능 향상을 위한 영상 처리 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102622941B1 (ko)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102161905B1 (ko) * 2019-01-10 2020-10-06 이윤기 후방 차량 검출 장치 및 방법
KR102263717B1 (ko) * 2019-09-03 2021-06-10 중앙대학교 산학협력단 객체 검출 및 추적을 통한 이상행동 분석 장치 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Golnaz Ghiasi et al., "Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation", Computer Vision and Pattern Recognition, (2021.06.23.)*

Also Published As

Publication number Publication date
KR20230139851A (ko) 2023-10-06

Similar Documents

Publication Publication Date Title
US11798132B2 (en) Image inpainting method and apparatus, computer device, and storage medium
US20230045519A1 (en) Target Detection Method and Apparatus
WO2022227770A1 (zh) 目标对象检测模型的训练方法、目标对象检测方法和设备
CN110622177A (zh) 实例分割
JP2023527615A (ja) 目標対象検出モデルのトレーニング方法、目標対象検出方法、機器、電子機器、記憶媒体及びコンピュータプログラム
US20230368033A1 (en) Information processing device, control method, and program
CN110807362A (zh) 一种图像检测方法、装置和计算机可读存储介质
CN113947188A (zh) 目标检测网络的训练方法和车辆检测方法
Mahurkar Integrating yolo object detection with augmented reality for ios apps
WO2020022329A1 (ja) 物体検出認識装置、方法、及びプログラム
CN114429640A (zh) 图纸分割方法、装置及电子设备
KR101517538B1 (ko) 중심 가중치 맵을 이용한 중요도 영역 검출 장치 및 방법, 이를 위한 프로그램을 기록한 기록 매체
JP5067882B2 (ja) 画像処理装置、画像処理方法およびプログラム
KR102622941B1 (ko) 작은 객체의 검출 및 인식 성능 향상을 위한 영상 처리 장치 및 방법
KR20120075626A (ko) 웹 기반 서비스에서의 전자해도 처리 장치 및 방법
CN111488776B (zh) 对象检测方法、对象检测装置和电子设备
JP6326622B2 (ja) 人物検出装置
CN113537026B (zh) 建筑平面图中的图元检测方法、装置、设备及介质
CN115861922A (zh) 一种稀疏烟火检测方法、装置、计算机设备及存储介质
KR20230134846A (ko) 멀티스케일 객체탐지 장치 및 방법
KR102285269B1 (ko) 빅데이터 기반 Geo AI를 활용한 이미지 분석 장치 및 방법
CN114549809A (zh) 手势识别方法以及相关设备
CN112801960A (zh) 图像处理方法及装置、存储介质、电子设备
CN113496223A (zh) 文本区域检测模型的建立方法以及装置
CN115050086B (zh) 样本图像生成方法、模型训练方法、图像处理方法和装置

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right