WO2020246834A1

WO2020246834A1 - 이미지 객체 인식 장치 및 방법

Info

Publication number: WO2020246834A1
Application number: PCT/KR2020/007303
Authority: WO
Inventors: 김녹원
Original assignee: 주식회사 딥엑스
Priority date: 2019-06-04
Filing date: 2020-06-04
Publication date: 2020-12-10
Also published as: KR102097905B1; US11636670B2; CN113330450A; US20230237792A1; US20220083797A1

Abstract

본 개시의 일 실시예에 따른 이미지 객체 인식 장치는, 객체를 포함한 이미지를 수신하고, 수신된 이미지 내에 포함된 객체의 인식률을 향상하기 위해 수신된 이미지를 영상 개선 처리하여 전처리된 이미지를 출력하도록 구성된 전처리 모듈 및 전처리된 이미지를 객체 인식용 인공신경망의 입력층으로 입력하여 이미지 내에 포함된 객체를 인식하도록 구성된 객체 인식 모듈을 포함할 수 있다.

Description

이미지 객체 인식 장치 및 방법

본 개시는 이미지 객체 인식 장치 및 방법에 관한 것으로, 보다 상세하게는, 이미지를 영상 개선 처리하여 전처리된 이미지를 출력하고 전처리된 이미지를 객체 인식용 인공신경망에 입력하여 이미지 내의 객체를 인식하는 이미지 객체 인식 장치 및 방법에 관한 것이다.

최근, 인공지능 및 빅데이터를 이용한 기술을 카메라가 장착된 장치에 접목시켜서 카메라로부터 촬영된 이미지 내의 객체를 탐지하거나 인식하는 연구가 진행되고 있다. 예를 들어, 인공지능 기반의 객체 인식기는 자율 주행 자동차, 감시카메라, 드론 등의 카메라를 구비한 장치들에 적용될 수 있다. 이러한 인공지능 기반 객체 인식기가 카메라에 의해 촬영된 이미지 내의 객체를 미리 결정된 수준 이상의 인식율로 인식하였을 때, 이러한 카메라 및 객체 인식기를 구비한 장치들이 인식된 객체를 기초로 자율주행 등과 같은 서비스를 제공하는 것이 가능하다.

자율주행은 어떠한 조건에서도 주변의 주행 환경을 높은 수준으로 이해하고 인식해야 운행의 안전이 보장될 수 있다. 이에 따라, 전방 충돌 방지 등과 같은 지능형 주행 및 자율주행과 관련된 모든 기능을 구현하기 위해서는 주행 환경이 인식되는 것이 선행되어야 한다. 자율주행을 위한 객체 인식 기술은 차량이나 드론에 구비된 카메라나 레이더(Radar)와 같은 센서로 주변 환경을 파악하여 정보를 얻을 뿐만 아니라 다양하고 신속하게 변하는 주행 환경 내에 존재하는 다양한 사물을 높은 정확도로 실시간으로 인식해야 할 필요가 있다.

근래에 들어, 기계 학습을 통한 딥러닝 프로세서를 활용한 객체 인식 기술이 개발되고 있다. 종래의 자율 주행 자동차는 발열로 인한 안정성 저하로, 감시카메라와 드론의 경우, 높은 소모 전력량으로 인해 고성능 범용의 딥러닝 프로세서를 적용하기에 어려움이 있었다. 따라서, 인공지능을 이용한 자율 주행에 요구되는 성능을 만족하면서 전력 소모와 발열을 최소화할 수 있는 기술이 필요하다.

본 개시의 일 실시예에 따른 이미지 객체 인식 장치 및 방법은, 이미지를 수신하고 수신된 이미지 내의 객체의 인식률을 향상시키기 위하여 수신된 이미지를 영상 개선 처리하고, 객체 인식용 인공신경망을 통해 영상 개선 처리된 이미지 내에 포함된 객체를 인식함으로써, 보다 높은 정확도로 객체를 인식하는 장치 및 방법을 제공할 수 있다.

본 개시의 일 실시예에 따른 이미지 객체 인식 장치는, 객체를 포함한 이미지를 수신하고, 수신된 이미지 내에 포함된 객체의 인식률을 향상하기 위해 수신된 이미지를 영상 개선 처리하여 전처리 이미지를 출력하도록 구성된 전처리 모듈 및 전처리 이미지를 객체 인식용 인공신경망의 입력층으로 입력하여 이미지 내에 포함된 객체를 인식하도록 구성된 객체 인식 모듈을 포함하고, 전처리 모듈은, 객체 인식용 인공신경망에서의 수신된 이미지 내에 포함된 객체의 인식률을 향상하기 위해, 수신된 객체를 포함한 이미지를 전처리용 인공신경망의 입력층으로 입력하여 상기 전처리 이미지를 출력하도록 더 구성되고, 전처리 모듈은, 복수의 참조 이미지를 전처리용 인공신경망의 입력층으로 입력하여 객체 인식용 인공신경망을 통한 객체 인식률의 향상에 최적화된 복수의 참조 전처리 이미지가 추론되도록 전처리용 인공신경망을 학습시키는 학습 모듈을 포함한다. 여기서, 복수의 참조 이미지의 각각은 객체를 포함한다.

일 실시예에 따르면, 객체 인식 모듈은, 복수의 참조 전처리 이미지를 객체 인식용 인공신경망의 입력층으로 입력하여 복수의 참조 전처리 이미지의 각각에 포함된 객체의 인식 결과에 대한 피드백 결과를 생성하도록 더 구성되고, 전처리 모듈은 피드백 결과를 이용하여 전처리용 인공신경망을 학습시키도록 더 구성된다.

일 실시예에 따르면, 객체 인식 모듈은 전처리 이미지 내에 포함된 객체의 인식 결과에 대한 피드백 결과를 생성하도록 더 구성되고, 전처리 모듈은 전처리 이미지 내에 포함된 객체의 인식 결과에 대한 피드백 결과를 이용하여 전처리용 인공신경망을 학습시키도록 더 구성된다.

일 실시예에 따르면, 객체 인식용 인공신경망은 복수의 레이어를 포함한 딥 뉴럴 네트워크를 포함하며, 객체 인식 모듈은, 객체 인식용 인공신경망을 통해 입력된 전처리 이미지에 포함된 객체의 종류 및 위치를 추론하도록 더 구성된다.

본 개시의 일 실시예에 따른 이미지 객체 인식 장치는, 객체를 포함한 이미지를 수신하고, 수신된 이미지 내에 포함된 객체의 인식률을 향상하기 위해 수신된 이미지를 Denoise 연산 처리, Deblur 연산 처리, High Dynamic Range 연산 처리, Color Tone Mapping 연산 처리, Defog 연산 처리, Brightness 연산 처리, Contrast 연산 처리, Auto White Balance 연산 처리, Back Light Compensation 연산 처리 또는 Decompression 연산 처리 중 적어도 하나의 영상 개선 처리하여 전처리된 이미지를 출력하도록 구성된 전처리 모듈 및 전처리된 이미지를 객체 인식용 인공신경망의 입력층으로 입력하여 이미지 내에 포함된 객체를 인식하도록 구성된 객체 인식 모듈을 포함한다.

일 실시예에 따르면, 전처리 모듈은, 수신된 이미지를 나타내는 이미지 파라미터를 조정하여 수신된 이미지의 영상 개선 처리를 수행하도록 더 구성된다.

일 실시예에 따르면, 이미지 파라미터가 상기 수신된 이미지를 나타내는 복수의 이미지 서브 파라미터를 포함하고, 전처리 모듈은, 복수의 이미지 서브 파라미터의 각각을 순차적으로 영상 개선 처리하도록 구성된다.

본 개시의 일 실시예에 따른 이미지 객체 인식 방법은, 객체를 포함한 이미지를 수신하는 단계, 전처리 모듈에 의해 수신된 이미지 내에 포함된 객체의 인식률을 향상하기 위해 수신된 이미지를 영상 개선 처리하여 전처리 이미지를 출력하는 단계 및 객체 인식 모듈에 의해 전처리 이미지를 객체 인식용 인공신경망의 입력층으로 입력하여 이미지 내에 포함된 객체를 인식하는 단계를 포함하고, 전처리 모듈에 의해 전처리 이미지를 출력하는 단계는, 객체 인식용 인공신경망에서의 수신된 이미지 내에 포함된 객체의 인식률을 향상하기 위해, 수신된 객체를 포함한 이미지를 전처리용 인공신경망의 입력층으로 입력하여 전처리 이미지를 출력하는 단계를 포함하고, 전처리 모듈에 의해 전처리 이미지를 출력하는 단계는, 복수의 참조 이미지를 전처리용 인공신경망의 입력층으로 입력하여 객체 인식용 인공신경망을 통한 객체 인식률의 향상에 최적화된 참조 전처리 이미지가 추론되도록 전처리용 인공신경망을 학습시키는 단계를 포함한다. 여기서, 복수의 참조 이미지의 각각은 객체를 포함한다.

본 개시의 일 실시예에 따른 이미지 객체 인식 방법은, 객체를 포함한 이미지를 수신하는 단계, 전처리 모듈에 의해 수신된 이미지 내에 포함된 객체의 인식률을 향상하기 위해 수신된 이미지를 Denoise 연산 처리, Deblur 연산 처리, High Dynamic Range 연산 처리, Color Tone Mapping 연산 처리, Defog 연산 처리, Brightness 연산 처리, Contrast 연산 처리, Auto White Balance 연산 처리, Back Light Compensation 연산 처리, Decompression 연산 처리 중 적어도 하나의 영상 개선 처리하여 전처리된 이미지를 출력하는 단계 및 객체 인식 모듈에 의해 전처리된 이미지를 객체 인식용 인공신경망의 입력층으로 입력하여 이미지 내에 포함된 객체를 인식하는 단계를 포함한다.

본 개시의 다양한 실시예들에 따르면, 외부기기로부터 수신된 이미지를 객체 인식용 인공신경망에 의해 실행되는 객체의 인식률을 향상시키도록 영상 개선 처리하고, 객체 인식용 인공신경망을 통해 영상 개선 처리된 이미지내에 포함된 객체를 인식함으로써, 높은 정확도로 객체를 인식할 수 있다.

본 개시의 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급되지 않은 다른 효과들은 청구범위의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

본 개시의 실시예들은, 이하 설명하는 첨부 도면들을 참조하여 설명될 것이며, 여기서 유사한 참조 번호는 유사한 요소들을 나타내지만, 이에 한정되지는 않는다.

도 1은 광량의 변화에 따른 인식률 및 이에 따른 영상결과의 예시를 나타낸 도면이다.

도 2는 선명도의 변화에 따른 인식률 및 이에 따른 영상결과의 예시를 나타낸 도면이다.

도 3은 본 개시의 일 실시예에 따른 이미지 객체 인식 장치의 내부 구성을 간략히 나타내는 블록도이다.

도 4는 본 개시의 다른 실시예에 따른 이미지 객체 인식 장치의 내부 구성을 간략히 나타내는 블록도이다.

도 5는 일 실시예에 따른 이미지에 포함된 객체를 인식하고 피드백 데이터를 제공하는 과정을 나타낸 블록도이다.

도 6은 일 실시예에 따른 전처리 모듈에 의해 수신된 이미지의 영상 개선 처리를 수행하는 과정을 나타낸 블록도이다.

도 7은 본 개시의 일 실시예에 따른 객체 인식 모듈에 의해 이미지에 포함된 객체를 인식하는 과정을 나타낸 예시도이다.

도 8은 이미지에 포함된 객체를 인식한 결과를 나타낸 예시도이다.

도 9은 본 개시의 일 실시예에 따른 이미지 객체 인식 방법을 나타낸 순서도이다.

이하, 본 개시의 실시를 위한 구체적인 내용을 첨부된 도면을 참조하여 상세히 설명한다. 다만, 이하의 설명에서는 본 개시의 요지를 불필요하게 흐릴 우려가 있는 경우, 널리 알려진 기능이나 구성에 관한 구체적 설명은 생략하기로 한다.

첨부된 도면에서, 동일하거나 대응하는 구성요소에는 동일한 참조부호가 부여되어 있다. 또한, 이하의 실시예들의 설명에 있어서, 동일하거나 대응되는 구성요소를 중복하여 기술하는 것이 생략될 수 있다. 그러나 구성요소에 관한 기술이 생략되어도, 그러한 구성요소가 어떤 실시예에 포함되지 않는 것으로 의도되지는 않는다.

개시된 실시예의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 개시는 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 개시가 완전하도록 하고, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것일 뿐이다.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 개시된 실시예에 대해 구체적으로 설명하기로 한다.

본 명세서에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 관련 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.

본 명세서에서의 단수의 표현은 문맥상 명백하게 단수인 것으로 특정하지 않는 한, 복수의 표현을 포함한다. 또한 복수의 표현은 문맥상 명백하게 복수인 것으로 특정하지 않는 한, 단수의 표현을 포함한다.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다.

또한, 명세서에서 사용되는 "부" 또는 "모듈"이라는 용어는 소프트웨어 또는 하드웨어 구성요소를 의미하며, "부" 또는 "모듈"은 어떤 역할들을 수행한다. 그렇지만 "부" 또는 "모듈"은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부" 또는 "모듈"은 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부" 또는 "모듈"은 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부" 또는 "모듈"들은 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부" 또는 "모듈"들로 결합되거나 추가적인 구성요소들과 "부" 또는 "모듈"들로 더 분리될 수 있다.

본 개시의 일 실시예에 따르면 "부" 또는 "모듈"은 프로세서 및 메모리로 구현될 수 있다. 용어 "프로세서"는 범용 프로세서, 중앙 처리 장치 (CPU), 마이크로프로세서, 디지털 신호 프로세서 (DSP), 제어기, 마이크로제어기, 상태 머신 등을 포함하도록 넓게 해석되어야 한다. 몇몇 환경에서는, "프로세서"는 주문형 반도체 (ASIC), 프로그램가능 로직 디바이스 (PLD), 필드 프로그램가능 게이트 어레이 (FPGA) 등을 지칭할 수도 있다. 용어 "프로세서"는, 예를 들어, DSP 와 마이크로프로세서의 조합, 복수의 마이크로프로세서들의 조합, DSP 코어와 결합한 하나 이상의 마이크로프로세서들의 조합, 또는 임의의 다른 그러한 구성들의 조합과 같은 처리 디바이스들의 조합을 지칭할 수도 있다.

또한, 본 명세서에서, 용어 "서버" 또는 "클라이언트"는 "서버 장치" 또는 "클라이언트 장치"를 각각 포함할 수 있다.

또한, 용어 "메모리"는 전자 정보를 저장 가능한 임의의 전자 컴포넌트를 포함하도록 넓게 해석되어야 한다. 용어 메모리는 임의 액세스 메모리 (RAM), 판독-전용 메모리 (ROM), 비-휘발성 임의 액세스 메모리 (NVRAM), 프로그램가능 판독-전용 메모리 (PROM), 소거-프로그램가능 판독 전용 메모리 (EPROM), 전기적으로 소거가능 PROM (EEPROM), 플래쉬 메모리, 자기 또는 광학 데이터 저장장치, 레지스터들 등과 같은 프로세서-판독가능 매체의 다양한 유형들을 지칭할 수도 있다. 프로세서가 메모리로부터 정보를 판독하고/하거나 메모리에 정보를 기록할 수 있다면 메모리는 프로세서와 전자 통신 상태에 있다고 불린다. 프로세서에 집적된 메모리는 프로세서와 전자 통신 상태에 있다.

또한, 용어 "실시간(real time)"은 전자 교환 시스템이나 공통 제어시스템에서 계속하여 입력되는 정보를 중단시킴 없이 계속하여 처리해야 하며 입력처리를 감당하지 못할 경우에도 입력이 대기 또는 지연될 수 없다는 것을 포함할 수 있다. 또한, "실시간"은 컴퓨터에 의한 정보 처리 방식으로 데이터가 발생한 시점에서 필요한 계산 처리를 즉시 수행하여 그 결과를 데이터가 발생한 곳 또는 데이터가 필요한 곳에 되돌려 보내는 방식을 포함할 수 있다. 또한, "실시간"은, 물리적인 과정이 진행되는 실제의 시간으로 자료 발생과 동시에 그 자료를 처리하고 필요한 결과를 얻어내기까지 소요되는 시간을 의미하며 컴퓨터를 이용하는 형태의 하나로 사용자가 요구하는 자료를 처리하여 결과를 즉시 알려주는 방식을 포함할 수 있고, 데이터가 입력되는 즉시 처리하는 컴퓨터작업 처리 방식을 포함할 수 있다.

또한, 용어 "이미지(image)"는 이미지 센서에 의해 촬상된 단일의 이미지뿐만 아니라, 하나의 이미지 센서에 의해 촬상된 복수의 이미지 또는 영상(video)을 포함할 수 있다. 이에 더하여, 이미지는 복수의 이미지 센서에 의해 촬상된 복수의 이미지 또는 영상을 포함할 수 있다.

본 개시의 다양한 일 실시예에 따르면, 객체 인식 장치는 객체를 포함한 이미지를 수신하고, 객체 인식용 인공신경망을 이용하여 수신된 이미지의 객체를 인식하도록 구성될 수 있다. 객체 인식 장치에서 동일한 객체를 포함하고 이미지 파라미터가 상이한 복수의 이미지에 포함된 객체를 인식하는 정확도, 즉 객체 인식률은 상이할 수 있다. 여기서, 이미지 파라미터는 이미지의 특징을 나타내는 임의의 파라미터 또는 그 조합을 지칭할 수 있다. 또는, 이미지 파라미터는 이미지의 세부 특징의 각각을 나타내는 임의의 서브 파라미터를 포함할 수 있다. 예를 들어, 이미지 파라미터는 이미지의 Demosaicing, WDR(Wide Dynamic Range) 또는 HDR(High Dynamic Range), Deblur, Denoise, Color Tone mapping, White Balance, Decompression 중 적어도 하나와 연관된 서브 파라미터를 포함할 수 있으며, 이에 한정되지 않으며, 이미지의 특징을 나타낼 수 있는 임의의 파라미터 또는 서브 파라미터를 포함할 수 있다.

도 1은 광량의 변화에 따른 인식률 및 이에 따른 영상결과(110)의 예시를 나타낸 도면이다. 도 1에 도시된 그래프(120)는 광량의 변화에 따른 인식률을 나타낸 그래프로, ImageNet이라는 5만장의 영상 데이터에서 각 이미지에 광량을 조절한 상태에서 GoogleNet이라는 딥러닝 인식 모델을 사용하여 인식률을 측정한 실험 결과이다.

일 실시예에 따르면, 수신된 이미지의 객체 인식률은 이미지를 나타내는 특징, 즉 이미지 파라미터 또는 서브 파라미터 중 하나인 광량에 따라 달라질 수 있다. 광량의 변화에 따른 영상결과(110)를 참조하면, 수신된 이미지가 갖고 있는 광량의 평균값인 Δμ의 값을 변화시켜 영상의 광량을 변화시킬 수 있으며, Δμ의 값이 클수록 광량이 밝아지는 것이 확인된다. 동일한 객체를 촬상한 이미지의 광량을 변화시킨 복수의 이미지 중 선호하는 이미지는 사람마다 상이할 수 있다. 즉, 사람마다 가지고 있는 망막 내 시세포(예를 들어, 원뿔세포(cone cell) 등)가 각각 상이하기 때문에, 그러한 이미지를 본 사람들의 각각은 다른 이미지를 선호할 수 있다.

이에 반하여, 객체 인식 장치를 가진 컴퓨팅 장치의 경우 객체 인식용 인공신경망을 이용하여 객체가 인식되기 때문에 영상이 선택됨에 있어서, 이와 같은 선호도가 전혀 기여되지 않는다. 예를 들어, 선호도에 따라, 사람은 Δμ의 값이 50인 영상을 객체 인식을 위한 가장 적절한 영상으로 선택할 수 있으나, 도 1에서 보이는 바와 같이, Δμ의 값이 0일 때 객체 인식 장치의 객체 인식 모듈에서의 객체 인식률이 가장 높았다. 즉, 광량이 적절한 값을 가질 때, 딥러닝 인식 모델의 인식률이 가장 높다는 것을 의미한다. 본 실시예에서는, 객체 인식 모듈로서 GoogleNet 모델이 이용되었으나, 이에 한정되지 않으며, 인공신경망을 이용한 다양한 객체 인식 모듈이 이용될 수 있다.

도 2는 선명도의 변화에 따른 인식률 및 이에 따른 영상결과(210)의 예시를 나타낸 도면이다. 도 1에서 설명한 바와 같이, 객체 인식률은 광량뿐만 아니라, 이미지 파라미터 또는 서브 파라미터 중 하나인 선명도에 따라 달라질 수 있다. 수신된 이미지가 갖고 있는 선명도와 관련된 σ의 값을 변화시켜 영상의 선명도를 변화시킬 수 있다. 선명도의 변화에 따른 영상결과(210)를 참조하면, σ의 값이 0일 때(즉, 원본(Original)일 때) 예시가 가장 선명하며, σ의 값이 클수록 영상이 점점 흐려지는 것을 확인할 수 있다.

도 2에 도시된 그래프(220)는 선명도의 변화에 따른 인식률을 나타낸 그래프로, ImageNet이라는 5만장의 영상 데이터에서 각 이미지에 선명도를 조절한 상태에서 GoogleNet이라는 딥러닝 인식 모델을 사용하여 인식률을 측정한 실험 결과이다. 도 2에 도시된 그래프(220)를 참조하면, σ의 값이 0일 때(즉, 원본(Original)일 때), 객체 인식 장치의 객체 인식 모듈에서의 객체 인식률이 가장 높게 나타난다. 즉, 선명도와 관련된 σ의 값이 가장 작을 때 딥러닝 인식 모델의 인식률이 가장 높은 것을 의미한다. 이상에서 설명한 바와 같이, 객체 인식 모듈로서 GoogleNet 모델이 이용되었으나, 이에 한정되지 않으며, 인공신경망을 이용한 다양한 객체 인식 모듈이 이용될 수 있다.

도 1 및 도 2를 참조하면, 컴퓨터 장치를 이용한 객체 인식 기술은 영상의 광량이 적절한 값을 가지고, 선명도가 높을 때 딥러닝 인식 모델의 인식률이 높다는 것을 알 수 있다.

이상에서 설명한 바와 같이, 사람이 선호하는 고화질의 영상과 인공신경망 기반 객체 인식 장치의 인식률을 극대화시킬 수 있는 영상은 차이가 있을 수 있다. 예를 들어, 개를 견종별로 분류하는 확률은 사람보다 컴퓨터 장치가 더 뛰어날 수 있다. 즉, 입력되는 이미지를 객체 인식용 인공신경망의 입력층에 입력하기 이전에 객체 인식용 인공신경망을 통한 객체 인식률을 극대화하기 위해 수신된 이미지를 영상 개선 처리될 수 있다. 이러한 영상 개선 처리에 대해 도 3 내지 8을 참조하여 상세히 설명된다.

기존의 영상 전처리 기술은 사람이 선호하는 고화질 영상을 출력하기 위해 구현된 반면, 본 특허에서 목표하는 영상 처리 기술은 인공신경망 기반 객체 인식 장치의 인식률을 향상시키는 것을 목표로 한다.

도 3은 본 개시의 일 실시예에 따른 이미지 객체 인식 장치(300)의 내부 구성을 간략히 나타내는 블록도이다. 도 3에 도시된 바와 같이, 이미지 객체 인식 장치(300)는, 통신 모듈(310), 저장부(320) 및 프로세서(330)를 포함할 수 있다. 여기서, 프로세서(330)는 전처리 모듈(332) 및 객체 인식 모듈(334)을 포함하도록 구성될 수 있다.

도시된 바와 같이, 이미지 객체 인식 장치(300)의 통신 모듈(310)은 통신 네트워크(350)를 통해 자동차(370), 드론(360) 등과 같은 외부 장치와 통신할 수 있다. 예를 들어, 이러한 외부 장치는 객체를 포함한 이미지를 촬상하거나 생성하도록 구성된 이미지 센서 및 이러한 이미지 내 인식된 객체를 기초로 임의의 서비스(예시: 자율주행)를 제공할 수 있다. 통신 네트워크(350)는 WLAN(Wireless LAN), Bluetooth 및 지그비(ZigBee) 등과 같은 무선 네트워크 및/또는 설치환경에 따라 이더넷(Ethernet), 유선 홈 네트워크, 전력선 통신망(Power Line Communication), 전화선 통신망 및 RS-serial 통신 등의 유선 네트워크 로 다양하게 선택되어 구성될 수 있다.

통신 모듈(310)은, 통신 네트워크(350)를 통해 외부 장치(360, 370) 중 적어도 하나로부터 객체를 포함한 이미지를 수신하도록 구성될 수 있다. 여기서, 이미지는 외부 장치(360, 370)에 구비된 촬영부를 통해 촬영된 이미지 및/또는 외부 장치에 저장된 이미지일 수 있으나, 이에 한정되지 않는다. 통신 모듈(310)은 외부 장치(360, 370)로부터 수신된 이미지를 프로세서(330)로 제공할 수 있다. 또한, 통신 모듈(310)은 프로세서(330)에 의해 인식되거나 탐지된 이미지 내의 객체에 대한 정보 또는 그러한 정보를 분석 또는 가공한 정보를 통신 네트워크(350)를 통해 송신하도록 구성된다.

프로세서(330)는 통신 모듈(310)을 통해 수신된 이미지를 영상 개선 처리하고, 객체 인식용 인공신경망을 이용하여 이미지 내에 포함된 객체를 인식할 수 있다. 일 실시예에서, 프로세서(330)는 CPU(central processing unit), GPU(graphic processing unit), DSP(digital signal processor), FPGA (Field Programmable Gate Array), ASIC (Application Specific Integrated Circuit) 중 적어도 하나를 포함하여 임의의 연산 동작을 수행할 수 있고, 수신되는 이미지를 저장부(320)에 저장할 수도 있다. 또한, 프로세서(330)는 수신된 이미지로부터 인식된 객체에 대한 정보 또는 이러한 인식된 객체를 가공한 정보를 저장부(320)에 저장하거나, 통신 모듈(310)을 통해 이미지를 송신한 외부 장치에 제공할 수 있다.

프로세서(330)의 전처리 모듈(332)은 수신된 이미지 내에 포함된 객체의 인식률을 향상하기 위해 수신된 이미지를 영상 개선 처리하여 전처리된 이미지를 출력하도록 구성될 수 있다. 예를 들어, 수신된 이미지의 영상 개선 처리는 Denoise 연산 처리, Deblur 연산 처리, High Dynamic Range 연산 처리, Color Tone Mapping 연산 처리, Defog 연산 처리, Brightness 연산 처리, Contrast 연산 처리, Auto White Balance 연산 처리, Back Light Compensation 연산 처리, Decompression 연산 처리 중 적어도 하나의 연산 처리를 포함할 수 있다.

일 실시예에서, 전처리 모듈(332)은 수신된 이미지를 나타내는 이미지 파라미터를 조정하여 수신된 이미지의 영상 개선 처리를 수행하도록 구성될 수 있다. 여기서, 이미지 파라미터는, 수신된 이미지의 디블러(Deblur), 디노이즈(Denoise), WDR(Wide Dynamic Range) 또는 HDR(High Dynamic Range), 색상 톤 매핑(color tone mapping) 및 디모자이킹(Demosaicing) 중 적어도 하나를 나타내는 이미지 서브 파라미터를 포함할 수 있으나, 이에 한정되지 않으며, 앞서 언급된 영상 개선 처리에 연관된 서브 파라미터를 포함할 수 있다.

영상 개선 처리는 객체인식용 인공신경망에 수신된 이미지를 입력하기 이전에 이미지를 전처리하는 연산 처리를 포함할 수 있으며, 영상을 전처리하는 기술은 영상 신호 처리 기술, 기계학습 방법을 이용하여 영상을 전처리하는 기술 및 딥러닝 학습 방법을 이용하여 영상을 전처리하는 기술 중 적어도 하나를 포함할 수 있다.

일 실시예에 따르면, 전처리 모듈(332)은 수신된 이미지의 특징을 나타내는 하나 이상의 이미지 파라미터에 대한 영상 신호 처리를 수행할 수 있다. 예를 들어, 복수의 이미지 파라미터의 각각은 순차적으로 영상 신호 처리될 수 있다. 즉, 복수의 이미지 파라미터 중 하나의 파라미터가 전처리된 이후 처리된 파라미터를 가진 영상에 대해 다른 이미지 파라미터의 전처리가 진행되도록 구성될 수 있다.

다른 실시예에 따르면, 전처리 모듈(332)은 수신된 이미지의 특징을 나타내는 하나 이상의 이미지 파라미터를 전처리하기 위한 영상 전처리 모델을 이용하도록 구성될 수 있다. 여기서, 영상 전처리 모델은 다양한 참조 이미지 또는 영상을 이용하여 학습될 수 있으며, 객체를 포함한 이미지가 입력되면, 객체인식용 인공신경망에서 입력 이미지의 객체 인식률을 최대화시키기 위하여 이러한 이미지의 전처리한 이미지를 출력하도록 구성될 수 있다. 일 예로, 영상 전처리 모델은 영상 전처리 확률 모델을 포함하고, 학습 데이터(예를 들어, 전처리용 인공신경망에 다양한 참조 이미지 또는 영상)를 입력하여 객체 인식률을 최대화시킬 수 있는 전처리 이미지를 추론하도록 기계학습 알고리즘을 통해 학습될 수 있다. 다른 예로, 영상 전처리 모델은 학습된 인공신경망(예를 들어, 딥 뉴럴 네트워크 등)을 포함하고, AI 학습을 통해 학습될 수 있다.

전처리 모듈(332)이 수신된 이미지의 특징을 나타내는 이미지 파라미터를 조정하여 수신된 이미지의 영상 개선 처리를 한다고 설명하였으나, 이에 한정되지 않는다. 이미지의 객체 인식률을 높이기 위해 필요에 따라 수신된 이미지에 대해 임의의 개선 처리 과정을 수행될 수 있다. 일 실시예에서, 수신된 이미지가 압축 이미지인 경우, 전처리 모듈(332)은 압축으로 인해 손실된 부분을 원본 이미지에 가깝도록 보정할 수 있다.

프로세서(330)의 객체 인식 모듈(334)은 전처리된 이미지를 객체 인식용 인공신경망의 입력층으로 입력하여 이미지 내에 포함된 객체를 인식하도록 구성될 수 있다. 예를 들어, 객체 인식 모듈(334)은 전처리된 이미지 내에 포함된 하나 이상의 객체의 종류 및 위치가 추론할 수 있다. 여기서, 객체 인식용 인공신경망은 참조 이미지를 입력 받아 참조 이미지 내의 객체를 인식하기 위해 학습되고, 이미지가 입력되었을 때 이미지 내의 객체를 추론하기 위한 임의의 인공신경망을 포함할 수 있다.

일 실시예에 따르면, 객체 인식용 인공신경망은 복수의 레이어를 포함한 딥 뉴럴 네트워크 (DNN: Deep Neural Network)를 포함할 수 있다. 예를 들어, 객체 인식용 인공신경망은 미리 학습된 콘볼루션 신경망(CNN: Convolutional Neural Network)일 수 있으며, 미리 학습된 콘볼루션 신경망을 이용하여 수신된 이미지 내에 포함된 하나 이상의 객체의 종류 및 위치가 추론할 수 있다. 여기서, 미리 학습된 콘볼루션 신경망은 입력된 입력 값에 대해 합성곱(convolution) 연산들을 수행하는 하나 이상의 계층들로 구성될 수 있으며, 입력값으로부터 합성곱(convolution) 연산을 수행하여 출력값을 추론할 수 있다. 이렇게 인식된 객체에 대한 정보는 프로세서(330)에 의해 가공될 수 있으며, 이렇게 인식된 객체에 대한 정보 또는 이를 가공한 정보는 통신 모듈(310)을 통해 그 이미지를 송신한 외부 장치로 송신할 수 있다.

일 실시예에 따르면, 객체 인식 모듈(334)은, 객체 인식용 인공신경망에 의해 인식된, 전처리된 이미지 내에 포함된 객체의 인식 결과(예를 들어, 인식률)에 대한 피드백 데이터를 생성하도록 더 구성될 수 있다. 전처리 모듈(332)은, 생성된 피드백 데이터를 기초로 수신된 이미지를 영상 개선 처리하는데 사용된 변수를 조정하도록 더 구성될 수 있다. 객체 인식 모듈(334)이 피드백 데이터를 생성하고, 생성된 피드백 데이터를 기초로 이미지의 영상 개선 처리하는 과정에 대해서는 도 5를 참조하여 상세히 설명한다.

도 4는 본 개시의 다른 실시예에 따른 이미지 객체 인식 장치(400)의 내부 구성을 간략히 나타내는 블록도이다. 도 4의 이미지 객체 인식 장치(400)는 도 3의 이미지 객체 인식 장치(300)의 구성과 동일 또는 유사한 구성을 포함할 수 있다. 이미지 객체 인식 장치(400)는 이미지 센서(410), 저장부(420), 프로세서(430)를 포함할 수 있다. 여기서, 프로세서(430)는 전처리 모듈(432) 및 객체 인식 모듈(434)을 포함할 수 있다. 도 4의 이미지 객체 인식 장치(400)의 저장부(420)는 도 3의 이미지 객체 인식 장치(300)의 저장부(420)와 동일 또는 유사한 구성을 포함할 수 있다. 도 4의 프로세서(430)의 전처리 모듈(432)은 도 3의 프로세서(330)의 전처리 모듈(332)과 동일 또는 유사한 구성을 포함할 수 있다. 도 4의 프로세서(430)의 객체 인식 모듈(434)은 도 3의 프로세서(330)의 객체 인식 모듈(334)과 동일 또는 유사한 구성을 포함할 수 있다. 도 4의 이미지 객체 인식 장치(400)의 설명과 도 3의 이미지 객체 인식 장치(300)의 설명 중 중복되는 내용은 생략된다.

이미지 객체 인식 장치(400)는 객체를 포함한 이미지를 촬상하거나 생성하도록 구성된 이미지 센서(410)를 포함할 수 있다. 즉, 도 3의 이미지 객체 인식 장치(300)와 달리, 이미지 객체 인식 장치(400)는 이미지 센서(410)를 포함하고 있어서, 이미지 센서(410)로부터 촬상된 이미지를 프로세서(430)에 전달하고, 프로세서(430)의 전처리 모듈(432) 및 객체 인식 모듈(434)을 이용하여 이미지 내의 객체를 인식할 수 있다. 도 4에서는 이미지 센서(410)를 이미지 객체 인식 장치(400)에 포함하도록 구성되어 있으나, 이에 한정되지 않으며, 이미지 센서(410)가 이미지 객체 인식 장치(400)에 포함되어 있지 않으나 이미지 센서(410)와 이미지 객체 인식 장치(400)가 하나의 장치에 포함되도록 구성될 수 있다.

도 5는 일 실시예에 따른 이미지에 포함된 객체를 인식하고 피드백 데이터를 제공하는 과정을 나타낸 블록도이다. 도 5의 전처리 모듈(532)은 도 3의 전처리 모듈(332) 및 도 4의 전처리 모듈(432)에 대응될 수 있다. 도 5의 객체 인식 모듈(534)은 도 3의 객체 인식 모듈(334) 및 도 4의 객체 인식 모듈(434)에 대응될 수 있다. 도 5에서는 도 3 또는 도 4에서 설명된 것과 동일 또는 유사한 구성요소들에 대해서는, 반복을 피하기 위해 상세한 설명이 생략될 수 있으며, 변경 또는 추가적인 부분만 설명할 수 있다.

이상에서 설명한 바와 같이, 이미지 객체 인식 장치(300)의 통신 모듈(310)은 통신 네트워크(350)를 이용하여 외부 장치로부터 객체를 포함한 이미지를 수신할 수 있고, 수신된 이미지를 프로세서의 전처리 모듈(532)로 제공할 수 있다. 이와 달리, 이미지 객체 인식 장치(400)와 동일한 장치 내에 이미지 센서(410)가 장착되어 있어서, 이미지 센서(410)에 의해 촬상된 이미지가 프로세서의 전처리 모듈(532)로 전송될 수 있다.

전처리 모듈(532)은 입력된 이미지를 영상 개선 처리할 수 있다. 일 실시예에서, 전처리 모듈(532)은 이미지의 신호 처리를 위하여 사용되는 임의의 함수 및 변수를 이용할 수 있다.

다른 실시예에서, 전처리 모듈(532)은, 영상 전처리 모델을 통해 입력된 이미지를 전처리하여 전처리된 이미지를 출력하도록 구성될 수 있다. 여기서, 영상 전처리 모델은 객체 인식용 인공신경망에서 이미지 내의 객체 인식률을 극대화하기 위한 임의의 확률 모델일 수 있다. 또 다른 예로서, 영상 전처리 모델은 CNN(CNN: convolutional neural networks), Deblur Network, Denoise Network 등과 이미지 전처리 네트워크를 포함할 수 있다.

또 다른 실시예에서, 전처리 모듈(532)은 객체의 인식에 최적화된 전처리 이미지가 출력값으로 출력되도록 학습된 전처리용 인공신경망에 의해 구현될 수 있다. 학습된 전처리용 인공신경망은 복수의 참조 이미지와 복수의 참조 이미지 각각에 대한 객체 인식 결과를 입력값으로 입력받아, 각각 참조 이미지에 포함된 객체의 인식에 최적화된 전처리 이미지가 출력값으로 출력되도록 반복 학습되어 사전 학습된 인공신경망일 수 있다. 여기서, 참조 이미지는 열화(image degradation)된 이미지와 원본 이미지로 구성된 한 쌍의 학습 데이터일 수 있다.

일 실시예에 따르면, 전처리 모듈(532)는 학습 모듈(미도시)를 더 포함하도록 구성될 수 있다. 객체 인식 장치의 학습 모듈은 복수의 참조 이미지와 복수의 참조 이미지 각각에 대한 객체 인식 결과를 기초로 객체의 인식에 최적화된 전처리 이미지를 추론하는 전처리용 인공신경망을 생성할 수 있다. 생성된 전처리 인공신경망은 객체의 인식에 최적화된 전처리 이미지를 추론할 수 있도록 기계학습 알고리즘을 통해 학습될 수 있다. 예를 들어, 학습 모듈은 인공신경망을 학습시켜 객체의 인식에 최적화되는 전처리 이미지 패턴을 추론하고, 이를 바탕으로 전처리 이미지를 출력할 수 있도록 학습시킬 수 있다. 따라서, 전처리 모듈은 학습 모듈에 의해 생성 및 학습된 전처리용 인공신경망을 이용하여 전처리 이미지를 추출할 수 있다.

전처리 모듈(532)은 학습된 인공신경망을 이용하여 외부 장치로부터 수신한 이미지 또는 이미지 센서로부터 촬상된 이미지를 입력값으로 입력받아 객체의 인식에 최적화된 전처리 이미지를 추론할 수 있고, 추론된 전처리 이미지를 객체 인식 모듈(534)로 제공할 수 있다.

객체 인식 모듈(534)은, 전처리된 이미지를 객체 인식용 인공신경망의 입력층으로 입력하여 이미지 내에 포함된 객체를 인식할 수 있고, 객체 인식용 인공신경망에 의해 인식된, 전처리된 이미지 내에 포함된 객체의 인식 결과에 대한 피드백 데이터를 생성할 수 있다. 일 실시예에 따르면, 객체 인식용 인공신경망은 미리 학습된 딥 뉴럴 네트워크(DNN: Deep Neural Network)일 수 있으나, 이에 한정되지 않는다. 다른 실시예에 따르면, 객체 인식 모듈(534)은 판독기 네트워크(예, VGG, ResNet, YOLO, SSD 등)를 이용하여 입력된 이미지 내의 객체를 탐지하거나 인식하도록 구성될 수 있다.

일 실시예에 따르면, 객체의 인식 결과에 대한 피드백 데이터는 이미지 내에 포함된 객체가 인식되었는지 여부를 포함할 수 있다. 예를 들어, 객체가 인식되었는지 여부는, 객체 인식률이 일정 이상의 임계 인식률을 초과했는지에 기초하여 판단될 수 있다. 또 다른 예로서, 객체 인식에 대한 확률 뿐만 아니라 신뢰도(confidence level)을 산출하여 이미지 내의 객체의 인식 여부가 결정될 수 있다. 객체의 인식 결과에 대한 피드백 데이터는 객체가 인식되었는지 여부 뿐만 아니라 객체의 인식 결과에 대한 임의의 가공 정보를 포함할 수 있다. 이렇게 생성된 피드백 데이터는 전처리 모듈(532)로 제공될 수 있다.

객체의 인식 결과에 대한 피드백 데이터는 피드백 데이터는 객체 인식 여부에 한정되지 않으며, 객체 인식에 대한 응답시간에 기초한 객체 인식 속도, 객체 인식의 정확도(또는, 객체 인식률), 객체를 인식한 이미지의 파라미터 등과 같이 객체 인식 중에 발생하는 다양한 파라미터 또는 객체 인식에 관여되는 다양한 요소를 포함할 수 있다.

전처리 모듈(532)은, 생성된 피드백 데이터를 기초로 수신된 이미지를 영상 개선 처리하는데 사용된 변수를 조정할 수 있다. 여기서, 변수는 수신된 이미지에 대해 영상 개선 처리 기술(예를 들어, 신호 처리 연산)을 수행할 때, 변화되는 값일 수 있다. 예를 들어, 이러한 변수는 이미지 파라미터를 결정하는 요인을 포함할 수 있다.

일 실시예에서, 전처리 모듈(532)은 이미지 파라미터를 조정하여 수신된 이미지의 영상 개선 처리를 수행할 수 있다. 예를 들어, 전처리 모듈(532)은 가우시안 필터인 다음 수식을 이용하여 수신된 이미지의 블러(blur) 파라미터 또는 서브 파라미터를 조정해 영상 개선 처리할 수 있다.

여기서,　σ는 블러링의 정도를 결정하는 변수를 나타내며, 변수 σ의 값이 클수록 이미지를 더욱 더 블러시킬 수 있다. 예를 들어, 전처리 모듈(532)은 객체 인식 모듈(534)에 의해 생성된 피드백 데이터에 기초하여 변수 σ의 값을 조정할 수 있고, 조정된 변수에 의해 수신된 이미지를 영상 개선 처리함으로써, 객체 인식률에 최적화된 전처리 이미지를 출력할 수 있다.

다른 실시예에 따르면, 전처리 모듈(532)이 영상 전처리 모델을 생성하여 입력된 이미지를 영상 개선 처리하는 경우, 객체 인식 모듈(534)에 의해 생성된 피드백 데이터를 이용하여 영상 전처리 모델을 학습시켜 영상 전처리 모델을 재구축 또는 업데이트할 수 있다. 예를 들어, 영상 전처리 모델이 인공신경망으로 이루어진 경우, 전처리 모듈(532)은 피드백 데이터를 분석하고, 분석된 결과에 기초하여 인공신경망에 포함된 가중치 값들을 수정할 수 있다.

구체적으로, 전처리 모듈(532)는 객체 인식용 인공신경망의 객체 인식률을 극대화할 수 있는 전처리 이미지를 출력할 수 있도록, 사전 학습된 객체 인식용 인공신경망을 통해 출력된 출력값인, 전처리된 이미지 내에 포함된 객체의 인식 결과와 이에 대한 피드백 데이터에 기초하여 전처리용 인공신경망의 파라미터(예: 가중치)를 학습시킬 수 있다. 객체 인식 모듈은 객체 인식용 인공신경망의 입력값으로 전처리용 인공신경망의 출력값인 객체 인식에 최적화된 전처리 이미지를 입력하여 객체를 인식할 수 있다. 객체 인식용 인공신경망에 의한 객체 인식 결과와 피드백 데이터를 이용하여 전처리용 인공신경망의 가중치를 학습시킬 수 있고, 학습된 전처리용 인공신경망으로 객체 인식에 최적화된 전처리 이미지가 객체 인식용 인공신경망에 제공됨으로써, 객체 인식용 인공신경망의 인식률이 향상될 수 있다.

전처리용 인공신경망 및 객체 인식용 인공신경망은 딥러닝 모델과 같이 사전 학습된 네트워크 일 수 있으나, 이에 한정되지 않는다. 이상에서 설명한 바와 같이, 학습 모듈을 더 포함하도록 구성되어 전처리용 인공신경망 및 객체 인식용 인공신경망 중 적어도 하나를 생성하고 학습시킬 수 있다. 인공신경망은 딥러닝 알고리즘과 같이 다양한 기계 학습 알고리즘을 사용하여 학습시킬 수 있다.

도 6은 일 실시예에 따른 전처리 모듈(632)에 의해 수신된 이미지의 영상 개선 처리를 수행하는 과정을 나타낸 블록도이다. 도 6의 전처리 모듈(632)은 도 3의 전처리 모듈(332) 및 도 4의 전처리 모듈(432)에 대응될 수 있다 이상에서 설명한 바와 같이, 전처리 모듈(632)은 외부 장치로부터 수신되거나 이미지 센서로부터 촬상된 이미지를 입력받아, 수신된 이미지를 나타내는 이미지 파라미터를 조정하여 수신된 이미지의 영상 개선 처리를 수행할 수 있다. 여기서, 이미지 파라미터는, 수신된 이미지의 디블러(Deblur), 디노이즈(Denoise), WDR(Wide Dynamic Range) 또는 HDR(High Dynamic Range), 색상 톤 매핑(color tone mapping), 디모자이킹(Demosaicing) 중 적어도 하나를 나타내는 이미지 서브 파라미터를 포함할 수 있다.

일 실시예에 따르면, 전처리 모듈(632)은, 복수의 이미지 서브 파라미터의 각각을 순차적으로 영상 개선 처리하도록 구성될 수 있다. 예를 들어, 복수의 이미지 서브 파라미터의 각각을 신호 처리할 때 복수의 이미지 서브 파라미터의 각각을 신호 처리할 때, 먼저 처리된 서브 파라미터의 신호 처리된 결과를 다음에 처리될 서브 파라미터의 신호 처리 시 반영될 수 있다. 도시된 바와 같이, 전처리 모듈(632)은 디블러에 대한 영상 신호 처리를 수행하고, 디블러에 대한 신호처리가 완료된 이미지의 디노이즈에 대한 영상 신호 처리를 수행하고, 디노이즈에 대한 신호처리가 완료된 이미지의 HDR 또는 WDR에 대한 영상 신호 처리를 수행하고, HDR 또는 WDR에 대한 신호처리가 완료된 이미지의 색상 톤 매핑에 대한 영상 신호 처리를 수행하고, 색상 톤 매핑에 대한 신호 처리가 완료된 이미지의 디모자이킹에 대한 영상 신호 처리를 수행하도록 구성될 수 있다.

일 실시예에 따르면, 전처리 모듈(632)은 이미지 내에 포함된 객체 인식에 최적화된 전처리 이미지를 추론하도록 하나의 미리 학습된 인공신경망을 이용하여 입력된 이미지에 전처리 연산을 수행할 수 있다. 도 6를 참조하면, 미리 학습된 인공신경망은 외부기기로부터 수신된 이미지를 입력층에 입력할 수 있다. 인공신경망은 입력받은 이미지를 나타내는 이미지 서브 파라미터(예를 들어, 디블러(Deblur), 디노이즈(Denoise), WDR(Wide Dynamic Range) 또는 HDR(High Dynamic Range), 색상 톤 매핑(color tone mapping) 및 디모자이킹(Demosaicing)을 도 6에 도시된 바와 같이, 디블러(Deblur), 디노이즈(Denoise), WDR(Wide Dynamic Range) 또는 HDR(High Dynamic Range), 색상 톤 매핑(color tone mapping) 및 디모자이킹(Demosaicing)의 순서에 따라 순차적으로 조정하여, 객체 인식에 최적화된 전처리 이미지를 출력층으로 출력할 수 있다.

다른 실시예에서, 전처리 모듈(332)은 하나의 학습된 인공신경망이 각각의 서브 파라미터를 순차적으로 조정하는 것이 아닌, 수신된 이미지에 대해 다수의 학습된 인공신경망(예를 들어, 디블러(Deblur) 파라미터를 조정하여 객체 인식에 최적화된 전처리 이미지를 출력하도록 학습된 디블러 조정용 인공신경망, WDR 또는 HDR 파라미터를 조정하여 객체 인식에 최적화된 전처리 이미지를 출력하도록 학습된 WDR 또는 HDR 조정용 인공신경망 등) 각각을 이용하여 서브 파라미터를 순차적으로 조정해 전처리 이미지를 출력할 수도 있다.

도 6에서는 디블러, 디노이즈, WDR 또는 HDR, 색상 톤 매핑, 디모자이킹을 나타내는 서브 파라미터가 이미지의 서브 파라미터로서 예시적으로 도시되었으나, 이에 한정되지 않으며, 이미지 서브파라미터는 이미지를 나타내는 임의의 서브 파라미터를 포함할 수 있다. 또한, 서브 파라미터를 조정하는 순서는 도 6에 도시된 순서에 한정되지 않으며, 객체 인식용 인공신경망에서의 이미지 객체 인식률의 향상을 위해 최적화된 전처리 이미지가 출력되도록 이러한 조정 순서는 변경될 수 있다.

도 7은 본 개시의 일 실시예에 따른 객체 인식 모듈에 의해 이미지에 포함된 객체를 인식하는 과정을 나타낸 예시도이다. 일 실시예에서, 객체 인식 모듈은 R-CNN(Regions with Convolutional Neural Network)을 이용하여 수신된 이미지에 포함된 객체를 인식할 수 있다. R-CNN은 도 7에 도시된 바와 같이, 입력된 이미지에서 선택적 탐색(Selective Search) 알고리즘을 이용하여 후보 영역들을 생성할 수 있다. 생성된 각 후보 영역들을 동일한 크기로 변환하고, CNN을 통해 이미지에 포함된 객체의 특징을 추출할 수 있다. 추출된 특징을 이용하여 후보 영역 내의 객체를 서포트 벡터 머신(Support Vector Machine)을 이용하여 객체를 분류할 수 있다. 도 7에 도시된 바와 같이, 인식한 객체를 이미지에 포함된 객체를 사람, 나무, 차량, 등 여러가지로 분류할 수 있다. 객체 인식 모듈은 분류된 객체를 기초로 이미지 내의 객체를 탐지하거나 인식할 수 있다.

도 7에서는 객체 인식 모듈이 R-CNN을 이용하는 것으로 예시적으로 개시하고 있으나, 이에 한정되지 않으며, 객체 인식 모듈은 이미지 내의 객체를 인식할 수 있는 임의의 인공신경망을 이용할 수 있다. 또한, R-CNN(Regions with Convolutional Neural Network)와 같은 객체 인식용 인공신경망은 AlexNet 또는 GoogleNet과 같이 사전 훈련된 네트워크를 이용하여 새로운 이미지 데이터에 포함된 객체를 인식할 수 있다. 대안적으로, 이미지 객체 인식 장치가 학습 모듈을 더 포함하도록 구성되어 학습 모듈을 통해 객체 인식용 인공신경망을 학습시킬 수 있다. 객체 인식용 인공신경망은 수천에서 수만장의 학습 데이터(학습 이미지)를 분석하여 각 객체를 구분하기 위한 특징을 학습될 수 있고, 각 객체의 차이를 식별하는 방법을 학습될 수 있다.

도 8은 이미지에 포함된 객체를 인식한 결과를 나타낸 예시도이다. 도 8을 참조하면, 딥 뉴럴 네트워크를 통해 촬상시 흔들린 이미지(810)의 객체를 인식한 경우, 객체 인식률이 61%로 나오며, 정상적으로 촬상된 (Ground truth) 이미지(820)의 객체를 딥 뉴럴 네트워크를 통해 인식하는 경우, 객체 인식률이 74%로 나오는 것을 확인할 수 있다.

일 실시예에서, 본 개시의 이미지 객체 인식 장치의 전처리 모듈은 수신된 이미지를 디블러(Deblur) 처리하여 영상 개선 처리할 수 있고, 객체 인식 모듈은 딥 뉴럴 네트워크를 이용하여 흔들린 이미지(810)를 디블러 처리한 이미지에 포함된 객체를 인식할 수 있다. 전처리 모듈을 통해 영상 개선 처리된 이미지의 객체를 인식한 결과, 흔들린 이미지(810)가 도 8에 도시된 복원 이미지(830)와 같이, 복원되었고, 객체 인식률이 82%로 흔들린 상태로 촬상된 이미지(810)보다 객체의 인식률이 높다는 것을 알 수 있다. 즉, 객체 인식용 인공신경망을 통한 이미지의 객체 인식을 하는데 있어서, 이미지를 객체 인식용 인공신경망에 입력하기 이전에 전처리 모듈은 입력 이미지를 전처리함으로써 객체 인식용 인공신경망을 통한 이미지 내의 객체를 인식하는 확률을 향상시킬 수 있다.

도 9은 본 개시의 일 실시예에 따른 이미지 객체 인식 방법을 나타낸 순서도이다. 먼저, 이미지 객체 인식 방법(900)은, 통신 모듈에 의해 객체를 포함한 이미지를 수신하는 단계(910)를 포함할 수 있다. 이러한 이미지는 이미지 객체 인식 장치 내의 통신 모듈을 통해 외부 장치로부터 수신된 이미지 및 이미지 객체 장치 내의 이미지 센서에 의해 촬상된 이미지 중 적어도 하나의 이미지를 포함할 수 있다.

전처리 모듈은 수신된 이미지 내에 포함된 객체의 인식률을 향상하기 위해 객체를 인식하기 전에 수신된 이미지를 영상 개선 처리하여 전처리된 이미지를 출력할 수 있다(920). 전처리 모듈은 이미지 파라미터를 조정하여 수신된 이미지의 영상 개선 처리를 수행할 수 있다. 전처리된 이미지는 객체 인식 모듈로 제공될 수 있다.

객체 인식 모듈은 전처리된 이미지를 객체 인식용 인공신경망의 입력층으로 입력하여 이미지 내에 포함된 객체를 인식할 수 있다(930). 일 실시예에서, 객체 인식용 인공신경망은 미리 학습된 콘볼루션 신경망(CNN: Convolutional Neural Network)일 수 있으나, 이에 한정되지 않는다. 예를 들어, 객체 인식 모듈은 미리 학습된 콘볼루션 신경망을 이용하여 수신된 이미지 내에 포함된 하나 이상의 객체의 종류 및 위치가 추론할 수 있다.

상술한 이미지 객체 인식 장치는 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수도 있다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 상기 실시예들을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.

본원에 기술된 기법들은 다양한 수단에 의해 구현될 수도 있다. 예를 들어, 이러한 기법들은 하드웨어, 펌웨어, 소프트웨어, 또는 이들의 조합으로 구현될 수도 있다. 본원의 개시와 연계하여 설명된 다양한 예시적인 논리적 블록들, 모듈들, 회로들, 및 알고리즘 단계들은 전자 하드웨어, 컴퓨터 소프트웨어, 또는 양자의 조합들로 구현될 수도 있음을 당업자들은 더 이해할 것이다. 하드웨어 및 소프트웨어의 이러한 상호교환성을 명확하게 설명하기 위해, 다양한 예시적인 컴포넌트들, 블록들, 모듈들, 회로들, 및 단계들이 그들의 기능성의 관점에서 일반적으로 위에서 설명되었다. 그러한 기능이 하드웨어로서 구현되는지 또는 소프트웨어로서 구현되는 지의 여부는, 특정 애플리케이션 및 전체 시스템에 부과되는 설계 제약들에 따라 달라진다. 당업자들은 각각의 특정 애플리케이션을 위해 다양한 방식들로 설명된 기능을 구현할 수도 있으나, 그러한 구현 결정들은 본 개시의 범위로부터 벗어나게 하는 것으로 해석되어서는 안된다.

하드웨어 구현에서, 기법들을 수행하는 데 이용되는 프로세싱 유닛들은, 하나 이상의 ASIC들, DSP들, 디지털 신호 프로세싱 디바이스들 (digital signal processing devices; DSPD들), 프로그램가능 논리 디바이스들 (programmable logic devices; PLD들), 필드 프로그램가능 게이트 어레이들 (field programmable gate arrays; FPGA들), 프로세서들, 제어기들, 마이크로제어기들, 마이크로프로세서들, 전자 디바이스들, 본원에 설명된 기능들을 수행하도록 설계된 다른 전자 유닛들, 컴퓨터, 또는 이들의 조합 내에서 구현될 수도 있다.

따라서, 본원의 개시와 연계하여 설명된 다양한 예시적인 논리 블록들, 모듈들, 및 회로들은 범용 프로세서, DSP, ASIC, FPGA나 다른 프로그램 가능 논리 디바이스, 이산 게이트나 트랜지스터 로직, 이산 하드웨어 컴포넌트들, 또는 본원에 설명된 기능들을 수행하도록 설계된 것들의 임의의 조합으로 구현되거나 수행될 수도 있다. 범용 프로세서는 마이크로프로세서일 수도 있지만, 대안에서, 프로세서는 임의의 종래의 프로세서, 제어기, 마이크로제어기, 또는 상태 머신일 수도 있다. 프로세서는 또한, 컴퓨팅 디바이스들의 조합, 예를 들면, DSP와 마이크로프로세서, 복수의 마이크로프로세서들, DSP 코어와 연계한 하나 이상의 마이크로프로세서들, 또는 임의의 다른 그러한 구성의 조합으로서 구현될 수도 있다.

펌웨어 및/또는 소프트웨어 구현에 있어서, 기법들은 랜덤 액세스 메모리 (random access memory; RAM), 판독 전용 메모리 (read-only memory; ROM), 불휘발성 RAM (non-volatile random access memory; NVRAM), PROM (programmable read-only memory), EPROM (erasable programmable read-only memory), EEPROM (electrically erasable PROM), 플래시 메모리, 컴팩트 디스크 (compact disc; CD), 자기 또는 광학 데이터 스토리지 디바이스 등과 같은 컴퓨터 판독가능 매체 상에 저장된 명령들로서 구현될 수도 있다. 명령들은 하나 이상의 프로세서들에 의해 실행가능할 수도 있고, 프로세서(들)로 하여금 본원에 설명된 기능의 특정 양태들을 수행하게 할 수도 있다.

소프트웨어로 구현되면, 상기 기능들은 하나 이상의 명령들 또는 코드로서 컴퓨터 판독 가능한 매체 상에 저장되거나 또는 컴퓨터 판독 가능한 매체를 통해 전송될 수도 있다. 컴퓨터 판독가능 매체들은 한 장소에서 다른 장소로 컴퓨터 프로그램의 전송을 용이하게 하는 임의의 매체를 포함하여 컴퓨터 저장 매체들 및 통신 매체들 양자를 포함한다. 저장 매체들은 컴퓨터에 의해 액세스될 수 있는 임의의 이용 가능한 매체들일 수도 있다. 비제한적인 예로서, 이러한 컴퓨터 판독가능 매체는 RAM, ROM, EEPROM, CD-ROM 또는 다른 광학 디스크 스토리지, 자기 디스크 스토리지 또는 다른 자기 스토리지 디바이스들, 또는 소망의 프로그램 코드를 명령들 또는 데이터 구조들의 형태로 이송 또는 저장하기 위해 사용될 수 있으며 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함할 수 있다. 또한, 임의의 접속이 컴퓨터 판독가능 매체로 적절히 칭해진다.

예를 들어, 소프트웨어가 동축 케이블, 광섬유 케이블, 연선, 디지털 가입자 회선 (DSL), 또는 적외선, 무선, 및 마이크로파와 같은 무선 기술들을 사용하여 웹사이트, 서버, 또는 다른 원격 소스로부터 전송되면, 동축 케이블, 광섬유 케이블, 연선, 디지털 가입자 회선, 또는 적외선, 무선, 및 마이크로파와 같은 무선 기술들은 매체의 정의 내에 포함된다. 본원에서 사용된 디스크 (disk) 와 디스크 (disc)는, CD, 레이저 디스크, 광 디스크, DVD (digital versatile disc), 플로피디스크, 및 블루레이 디스크를 포함하며, 여기서 디스크들 (disks) 은 보통 자기적으로 데이터를 재생하고, 반면 디스크들 (discs) 은 레이저를 이용하여 광학적으로 데이터를 재생한다. 위의 조합들도 컴퓨터 판독가능 매체들의 범위 내에 포함되어야 한다.

소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터들, 하드 디스크, 이동식 디스크, CD-ROM, 또는 공지된 임의의 다른 형태의 저장 매체 내에 상주할 수도 있다. 예시적인 저장 매체는, 프로세가 저장 매체로부터 정보를 판독하거나 저장 매체에 정보를 기록할 수 있도록, 프로세서에 커플링될 수 있다. 대안으로, 저장 매체는 프로세서에 통합될 수도 있다. 프로세서와 저장 매체는 ASIC 내에 존재할 수도 있다. ASIC은 유저 단말 내에 존재할 수도 있다. 대안으로, 프로세서와 저장 매체는 유저 단말에서 개별 컴포넌트들로서 존재할 수도 있다.

본 개시의 앞선 설명은 당업자들이 본 개시를 행하거나 이용하는 것을 가능하게 하기 위해 제공된다. 본 개시의 다양한 수정예들이 당업자들에게 쉽게 자명할 것이고, 본원에 정의된 일반적인 원리들은 본 개시의 취지 또는 범위를 벗어나지 않으면서 다양한 변형예들에 적용될 수도 있다. 따라서, 본 개시는 본원에 설명된 예들에 제한되도록 의도된 것이 아니고, 본원에 개시된 원리들 및 신규한 특징들과 일관되는 최광의의 범위가 부여되도록 의도된다.

비록 예시적인 구현예들이 하나 이상의 독립형 컴퓨터 시스템의 맥락에서 현재 개시된 주제의 양태들을 활용하는 것을 언급할 수도 있으나, 본 주제는 그렇게 제한되지 않고, 오히려 네트워크나 분산 컴퓨팅 환경과 같은 임의의 컴퓨팅 환경과 연계하여 구현될 수도 있다. 또 나아가, 현재 개시된 주제의 양상들은 복수의 프로세싱 칩들이나 디바이스들에서 또는 그들에 걸쳐 구현될 수도 있고, 스토리지는 복수의 디바이스들에 걸쳐 유사하게 영향을 받게 될 수도 있다. 이러한 디바이스들은 PC들, 네트워크 서버들, 및 핸드헬드 디바이스들을 포함할 수도 있다.

비록 본 주제가 구조적 특징들 및/또는 방법론적 작용들에 특정한 언어로 설명되었으나, 첨부된 청구항들에서 정의된 주제가 위에서 설명된 특정 특징들 또는 작용들로 반드시 제한되는 것은 아님이 이해될 것이다. 오히려, 위에서 설명된 특정 특징들 및 작용들은 청구항들을 구현하는 예시적인 형태로서 설명된다.

이 명세서에서 언급된 방법은 특정 실시예들을 통하여 설명되었지만, 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽혀 질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 실시예들을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.

본 명세서에서는 본 개시가 일부 실시예들과 관련하여 설명되었지만, 본 발명이 속하는 기술분야의 통상의 기술자가 이해할 수 있는 본 개시의 범위를 벗어나지 않는 범위에서 다양한 변형 및 변경이 이루어질 수 있다. 또한, 그러한 변형 및 변경은 본 명세서에 첨부된 특허청구의 범위 내에 속하는 것으로 생각되어야 한다.

Claims

이미지에 포함된 객체를 인식하는 장치에 있어서,

상기 객체를 포함한 이미지를 수신하고, 상기 수신된 이미지 내에 포함된 객체의 인식률을 향상하기 위해 상기 수신된 이미지를 영상 개선 처리하여 전처리 이미지를 출력하도록 구성된 전처리 모듈; 및

상기 전처리 이미지를 객체 인식용 인공신경망의 입력층으로 입력하여 상기 이미지 내에 포함된 객체를 인식하도록 구성된 객체 인식 모듈을 포함하고,

상기 전처리 모듈은, 상기 객체 인식용 인공신경망에서의 상기 수신된 이미지 내에 포함된 객체의 인식률을 향상하기 위해, 상기 수신된 객체를 포함한 이미지를 전처리용 인공신경망의 입력층으로 입력하여 상기 전처리 이미지를 출력하도록 더 구성되고,

상기 전처리 모듈은, 복수의 참조 이미지를 상기 전처리용 인공신경망의 입력층으로 입력하여 상기 객체 인식용 인공신경망을 통한 객체 인식률의 향상에 최적화된 복수의 참조 전처리 이미지가 추론되도록 상기 전처리용 인공신경망을 학습시키는 학습 모듈 - 상기 복수의 참조 이미지의 각각은 객체를 포함함 - 을 포함하는, 이미지 객체 인식 장치.
제1항에 있어서,

상기 객체 인식 모듈은, 상기 복수의 참조 전처리 이미지를 상기 객체 인식용 인공신경망의 입력층으로 입력하여 상기 복수의 참조 전처리 이미지의 각각에 포함된 객체의 인식 결과에 대한 피드백 결과를 생성하도록 더 구성되고,

상기 전처리 모듈은 상기 피드백 결과를 이용하여 상기 전처리용 인공신경망을 학습시키도록 더 구성된, 이미지 객체 인식 장치.
제1항에 있어서,

상기 객체 인식 모듈은 상기 전처리 이미지 내에 포함된 객체의 인식 결과에 대한 피드백 결과를 생성하도록 더 구성되고,

상기 전처리 모듈은 상기 전처리 이미지 내에 포함된 객체의 인식 결과에 대한 피드백 결과를 이용하여 상기 전처리용 인공신경망을 학습시키도록 더 구성된,

이미지 객체 인식 장치.
제1항에 있어서,

상기 객체 인식용 인공신경망은 복수의 레이어를 포함한 딥 뉴럴 네트워크를 포함하며,

상기 객체 인식 모듈은, 상기 객체 인식용 인공신경망을 통해 입력된 상기 전처리 이미지에 포함된 객체의 종류 및 위치를 추론하도록 더 구성된,

이미지 객체 인식 장치.
이미지에 포함된 객체를 인식하는 장치에 있어서,

상기 객체를 포함한 이미지를 수신하고, 상기 수신된 이미지 내에 포함된 객체의 인식률을 향상하기 위해 상기 수신된 이미지를 Denoise 연산 처리, Deblur 연산 처리, High Dynamic Range 연산 처리, Color Tone Mapping 연산 처리, Defog 연산 처리, Brightness 연산 처리, Contrast 연산 처리, Auto White Balance 연산 처리, Back Light Compensation 연산 처리 또는 Decompression 연산 처리 중 적어도 하나의 영상 개선 처리하여 전처리된 이미지를 출력하도록 구성된 전처리 모듈; 및

상기 전처리된 이미지를 객체 인식용 인공신경망의 입력층으로 입력하여 상기 이미지 내에 포함된 객체를 인식하도록 구성된 객체 인식 모듈을 포함하는,

이미지 객체 인식 장치.
제5항에 있어서,

상기 전처리 모듈은, 상기 수신된 이미지를 나타내는 이미지 파라미터를 조정하여 상기 수신된 이미지의 영상 개선 처리를 수행하도록 더 구성된, 이미지 객체 인식 장치.
제6항에 있어서,

상기 이미지 파라미터가 상기 수신된 이미지를 나타내는 복수의 이미지 서브 파라미터를 포함하고,

상기 전처리 모듈은, 상기 복수의 이미지 서브 파라미터의 각각을 순차적으로 영상 개선 처리하도록 구성된,

이미지 객체 인식 장치.
이미지에 포함된 객체를 인식하는 방법에 있어서,

상기 객체를 포함한 이미지를 수신하는 단계;

전처리 모듈에 의해 상기 수신된 이미지 내에 포함된 객체의 인식률을 향상하기 위해 상기 수신된 이미지를 영상 개선 처리하여 전처리 이미지를 출력하는 단계; 및

객체 인식 모듈에 의해 상기 전처리 이미지를 객체 인식용 인공신경망의 입력층으로 입력하여 상기 이미지 내에 포함된 객체를 인식하는 단계를 포함하고,

상기 전처리 모듈에 의해 전처리 이미지를 출력하는 단계는, 상기 객체 인식용 인공신경망에서의 상기 수신된 이미지 내에 포함된 객체의 인식률을 향상하기 위해, 상기 수신된 객체를 포함한 이미지를 전처리용 인공신경망의 입력층으로 입력하여 상기 전처리 이미지를 출력하는 단계를 포함하고,

상기 전처리 모듈에 의해 전처리 이미지를 출력하는 단계는, 복수의 참조 이미지를 상기 전처리용 인공신경망의 입력층으로 입력하여 상기 객체 인식용 인공신경망을 통한 객체 인식률의 향상에 최적화된 참조 전처리 이미지가 추론되도록 상기 전처리용 인공신경망을 학습시키는 단계 - 상기 복수의 참조 이미지의 각각은 객체를 포함함 -를 포함하는,

이미지 객체 인식 방법.
이미지에 포함된 객체를 인식하는 방법에 있어서,

상기 객체를 포함한 이미지를 수신하는 단계;

전처리 모듈에 의해 상기 수신된 이미지 내에 포함된 객체의 인식률을 향상하기 위해 상기 수신된 이미지를 Denoise 연산 처리, Deblur 연산 처리, High Dynamic Range 연산 처리, Color Tone Mapping 연산 처리, Defog 연산 처리, Brightness 연산 처리, Contrast 연산 처리, Auto White Balance 연산 처리, Back Light Compensation 연산 처리, Decompression 연산 처리 중 적어도 하나의 영상 개선 처리하여 전처리된 이미지를 출력하는 단계; 및

객체 인식 모듈에 의해 상기 전처리된 이미지를 객체 인식용 인공신경망의 입력층으로 입력하여 상기 이미지 내에 포함된 객체를 인식하는 단계를 포함하는, 이미지 객체 인식 방법.