KR102379637B1

KR102379637B1 - 딥 러닝 인공신경망 기반 영상 인식 방법 및 시스템

Info

Publication number: KR102379637B1
Application number: KR1020190143989A
Authority: KR
Inventors: 박경남
Original assignee: 이지스로직 주식회사
Priority date: 2019-11-12
Filing date: 2019-11-12
Publication date: 2022-03-30
Also published as: KR20210057848A

Abstract

본 발명은 딥 러닝 기반 영상 인식 방법에 있어서, 트레이닝 영상 데이터를 사용하여 딥 러닝 프레임 워크에 기초하여 딥 러닝 모델을 트레이닝하여 적어도 2 개의 딥 러닝 모델을 얻는 단계; 검증된 영상 데이터에 대한 인식 정확도의 내림차순으로 획득된 딥 러닝 모델로부터 상기 획득된 딥 러닝 모델의 수 이하에 해당하는 미리 결정된 수의 딥 러닝 모델을 선택하는 단계; 및 선택된 딥 러닝 모델 중 적어도 하나를 사용하여 인식될 영상 데이터를 인식하는 단계;를 포함하는, 딥 러닝 인공신경망 기반 영상 인식 방법과 이에 사용되는 시스템이 제공된다.
본 발명에 따르면, 딥러닝 영상 인식 방법 및 장치, 및 컴퓨터 판독 가능 저장 매체에 의해 딥 러닝 프레임 워크 관련 기술의 기술적 문제를 부분적으로 해결하거나 완화시키는 효과를 가진다.

Description

딥 러닝 인공신경망 기반 영상 인식 방법 및 시스템{Deep learning artificial Neural Network based image recognition method and system}

본 발명은 영상 인식 방법 및 시스템에 관한 것으로서, 보다 상세하게는 딥 러닝 인공신경망 기반 영상 인식 방법 및 시스템에 관한 것이다.

일반적으로, 딥러닝은 트레이닝 데이터를 통해 학습된 속성을 기반으로 예측 및 분류하는 기계학습의 한 분야로서 다양한 상황에 대해 프로그램이 근사적인 판단을 내릴 수 있도록 하는 기술이다.

관찰된 값(예를 들어, 영상)은 다양한 픽셀의 강도 값의 벡터로, 또는 더 추상적으로, 일련의 에지, 특정 형상을 갖는 영역 등으로 다양한 방식으로 표현될 수 있다.

딥 러닝의 이점은 기능 학습 및 계층적 기능 추출을 위해 효율적인 자율적 또는 반 자율적 알고리즘으로 기능의 수동 획득을 대체하는 것이다.

딥 러닝은 이론과 실제를 결합한 규율이다. 새로운 알고리즘 이론이 등장함에 따라 다양한 딥 러닝 프레임 워크가 계속 등장하고 있지만 딥 러닝 프레임 워크에 의해 제공되는 기능은 비교적 단순하고 사용자 경험의 저하를 초래시킨다.

따라서 딥러닝 영상 인식 방법 및 장치, 및 컴퓨터 판독 가능 저장 매체에 의해 딥 러닝 프레임 워크 관련 기술의 기술적 문제를 부분적으로 해결하거나 완화시킬 필요가 있다.

한국공개특허 제10-2014-0000559호의 "영상인식 방법 및 그 시스템", 2014.01.03 공개

상기한 바와 같은 종래 기술의 문제점을 해결하기 위하여, 본 발명은 딥러닝 영상 인식 방법 및 장치, 및 컴퓨터 판독 가능 저장 매체에 의해 딥 러닝 프레임 워크 관련 기술의 기술적 문제를 부분적으로 해결하거나 완화시키는데 목적이 있다.

본 발명의 다른 목적들은 이하의 실시례에 대한 설명을 통해 쉽게 이해될 수 있을 것이다.

상기한 바와 같은 목적을 달성하기 위해, 본 발명의 일측면에 따르면, 딥 러닝 기반 영상 인식 방법에 있어서, 트레이닝 영상 데이터를 사용하여 딥 러닝 프레임 워크에 기초하여 딥 러닝 모델을 트레이닝하여 적어도 2 개의 딥 러닝 모델을 얻는 단계; 검증된 영상 데이터에 대한 인식 정확도의 내림차순으로 획득된 딥 러닝 모델로부터 상기 획득된 딥 러닝 모델의 수 이하에 해당하는 미리 결정된 수의 딥 러닝 모델을 선택하는 단계; 및 선택된 딥 러닝 모델 중 적어도 하나를 사용하여 인식될 영상 데이터를 인식하는 단계;를 포함하는, 딥 러닝 인공신경망 기반 영상 인식 방법이 제공된다.

상기 트레이닝 영상 데이터, 상기 검증된 영상 데이터 및 상기 인식될 영상 데이터 중 적어도 하나에 대해 영상 전처리를 수행하는 단계를 더 포함할 수 있다.

상기 영상 전처리를 수행하는 단계는, 상기 영상 전처리가 랜덤 자르기, 회전, 뒤집기, 밝기 조정 및 대비 조정 중 적어도 하나를 포함할 수 있다.

상기 영상 전처리된 영상 데이터를 사전 확립된 메모리 데이터베이스에 저장하는 단계를 더 포함할 수 있다.

상기 인식될 영상 데이터를 인식하는 단계는, 상기 선택된 딥 러닝 모델을 사용자에게 제공하는 단계; 및 사용자에 의해 선택된 딥 러닝 모델을 획득하고, 사용자에 의해 선택된 딥 러닝 모델을 사용하여 인식될 영상 데이터를 인식하는 단계;를 포함할 수 있다.

상기 적어도 2 개의 딥 러닝 모델을 얻는 단계는, 트레이닝 프로세스에 대한 상태 정보를 사용자에게 푸시하는 단계를 포함할 수 있다.

상기 적어도 2 개의 딥 러닝 모델을 얻는 단계는, 실시간으로 웹 애플리케이션 프로그래밍 인터페이스를 사용하여 트레이닝중인 딥 러닝 모델에 대한 성능 곡선을 그리는 단계를 포함할 수 있다.

상기 적어도 2 개의 딥 러닝 모델을 얻는 단계는, 다수의 딥 러닝 프레임워크가 동일하거나 2개 이상일 수 있다.

본 발명의 다른 측면에 따르면, 딥 러닝 기반 영상 인식 장치에 있어서, 프로세서; 및 상기 프로세서에 의해 실행될 때, 상기 프로세서로 하여금, 트레이닝 영상 데이터를 사용함으로써, 딥 러닝 프레임 워크에 기초하여 딥 러닝 모델을 트레이닝시켜 적어도 2 개의 딥 러닝 모델을 획득하도록 하는 명령어가 저장된 메모리;를 포함하고, 상기 프로세서는, 검증된 영상 데이터에 대한 인식 정확도의 내림차순으로 획득된 딥 러닝 모델로부터 미리 결정된 수의 딥 러닝 모델을 선택하고, 상기 미리 결정된 수가 획득된 딥 러닝 모델의 수보다 작거나 같도록 하며, 선택된 딥 러닝 모델 중 적어도 하나를 사용하여 인식될 영상 데이터를 인식하도록 하는, 딥 러닝 인공신경망 기반 영상 인식 시스템이 제공된다.

상기 명령어는, 상기 프로세서에 의해 실행될 때, 상기 프로세서로 하여금, 트레이닝 영상 데이터, 검증 영상 데이터 및 인식될 영상 데이터 중 적어도 하나에 대해 영상 전처리를 수행하게 할 수 있다.

상기 영상 전처리는, 랜덤 자르기, 회전, 뒤집기, 밝기 조정 및 콘트라스트 조정 중 적어도 하나를 포함할 수 있다.

상기 명령어는, 상기 프로세서에 의해 실행될 때, 상기 프로세서로 하여금 메모리 데이터베이스를 확립하고, 사전 처리된 영상 데이터베이스를 사전 설정된 메모리 데이터베이스에 저장하도록 할 수 있다.

상기 명령어는, 상기 프로세서에 의해 실행될 때, 상기 프로세서로 하여금, 선택된 딥 트레이닝 모델을 사용자에게 제공하고, 사용자에 의해 선택된 딥 러닝 모델을 획득하며, 사용자에 의해 선택된 딥 러닝 모델을 사용하여 인식될 영상 데이터를 인식하도록 할 수 있다.

상기 명령어는, 상기 프로세서에 의해 실행될 때, 상기 프로세서로 하여금 적어도 2 개의 딥 러닝 모델을 얻기 위해 트레이닝 영상 데이터를 사용함으로써 딥 러닝 프레임 워크에 기초하여 딥 러닝 모델을 트레이닝하는 과정에서, 트레이닝 과정에 대한 상태 정보를 사용자에게 푸시하도록 할 수 있다.

상기 명령어는, 상기 프로세서에 의해 실행될 때, 상기 프로세서로 하여금 적어도 2 개의 딥 러닝 모델을 얻기 위해 트레이닝 영상 데이터를 사용함으로써 딥 러닝 프레임 워크에 기초하여 딥 러닝 모델을 트레이닝하는 과정에서, 웹 애플리케이션 프로그래밍 인터페이스를 사용하여 현재 학습되고 있는 딥 러닝 모델의 성능 곡선을 실시간으로 그리도록 할 수 있다.

본 발명에 따른 딥 러닝 인공신경망 기반 영상 인식 방법 및 시스템에 의하면, 딥러닝 영상 인식 방법 및 장치, 및 컴퓨터 판독 가능 저장 매체에 의해 딥 러닝 프레임 워크 관련 기술의 기술적 문제를 부분적으로 해결하거나 완화시키는 효과를 가진다.

도 1은 본 발명의 일 실시례에 따른 딥 러닝 기반 영상 인식 방법을 도시한 흐름도이다.
도 2는 본 발명의 다른 실시례에 따른 딥 러닝 기반 영상 인식 방법을 도시한 흐름도이다.
도 3은 본 발명의 또 다른 실시례에 따른 딥 러닝 기반 영상 인식 방법을 도시한 흐름도이다.
도 4는 본 발명의 또 다른 실시례에 따른 딥 러닝 기반 영상 인식 방법을 도시한 흐름도이다.
도 5는 본 발명의 일 실시례에 따른 딥 러닝 기반 영상 인식 장치를 도시한 구성도이다.
도 6은 본 발명의 다른 실시례에 따른 딥 러닝 기반 영상 인식 장치를 도시한 구성도이다.
도 7은 본 발명의 일 실시례에 따른 컴퓨터 장치를 도시한 구성도이다.

본 발명은 다양한 변경을 가할 수 있고, 여러 가지 실시례를 가질 수 있는 바, 특정 실시례들을 도면에 예시하고, 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니고, 본 발명의 기술 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 식으로 이해되어야 하고, 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 하기 실시례에 한정되는 것은 아니다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 실시례를 상세히 설명하며, 도면 부호에 관계없이 동일하거나 대응하는 구성요소에 대해서는 동일한 참조 번호를 부여하고, 이에 대해 중복되는 설명을 생략하기로 한다.

도 1은 본 발명의 일 실시례에 따른 딥 러닝 기반 영상 인식 방법을 도시한 흐름도이다.

도 1을 참조하면, 단계 101은 선택적인 단계로서, 처리될 영상 데이터에 대해 영상 전처리가 수행하게된다. 일부 실시례들에서, 처리될 영상 데이터는 딥 러닝 프레임 워크에 기초하여 딥 러닝 모델을 트레이닝하기 위한 트레이닝 영상 데이터, 트레이닝된 딥 러닝 모델을 검증하기 위한 검증 영상 데이터 및 인식될 영상 데이터 중 하나 이상을 포함할 수 있다. 그러나 이 방법에서는 영상 전처리 프로세스가 필요하지 않다는 것이 예시되어야한다. 즉, 본 방법은 원본 영상을 직접 처리하거나, 제 3 자가 처리한 영상 데이터를 처리할 수 있다. 이와 같이, 전처리 수행단계(101)는 선택사항이다.

단계 102에서, 딥 러닝 모델은 트레이닝된 영상 데이터를 사용하여 딥 러닝 프레임 워크에 기초하여 트레이닝된 적어도 2 개의 딥 학습 모델을 획득한다. 일부 실시례에서, 딥 러닝 프레임 워크의 수는 2 개 이상일 수 있다.

본 실시례에서 딥 러닝 프레임 워크는 PyTorch, Tensorflow, Caffe, Keras, MXNet 등일 수 있으며, 본 실시례에 제한되지 않는다. 트레이닝 영상 데이터를 이용하여 딥 학습 프레임 워크에 기초한 딥 러닝 모델을 트레이닝함으로써 적어도 2 개의 딥 러닝 모델이 획득될 수 있다. 예를 들어, 상이한 초기 파라미터를 설정하고 동일한 트레이닝 영상 데이터를 사용함으로써 상이한 딥 러닝 모델이 얻어질 수 있다.

선택적으로, 복수의 상이한 딥 러닝 모델은 동일한 트레이닝 영상 데이터를 이용하여 상이한 딥 러닝 프레임 워크에 기초하여 딥 러닝 모델을 트레이닝하거나, 동일한 트레이닝 영상 데이터를 이용하여, 상이한 활성화 기능을 갖는 딥 러닝 모델을 트레이닝함으로써, 또는 다른 트레이닝 영상 데이터 등을 사용하여 동일하거나 다른 딥 러닝 모델을 트레이닝함으로써 상이한 딥 러닝 모델이 얻어질 수 있다.

이들 상이한 딥 러닝 모델은 대응하는 초기 파라미터 설정 하에서 대응하는 트레이닝 영상 데이터로부터 대응하는 딥 러닝 프레임 워크에 의해 학습된 특징을 반영할 수 있어서, 딥 러닝 모델은 동일한 검증 영상 데이터에 대해 상이한 인식 정확도를 가질 수 있다.

단계 103에서, 검증된 영상 데이터에 대한 인식 정확도의 내림차순으로 획득된 딥 러닝 모델로부터 미리 결정된 수의 딥 러닝 모델이 선택된다.

미리 정해진 수는 획득된 딥 러닝 모델의 수보다 작거나 같을 수 있으며, 미리 정해진 수는 특정 구현에서 시스템 성능 및 또는 구현 요구 사항 등에 따라 설정될 수 있으며, 본 발명에 제한되지 않는다. 예를 들어, 미리 정해진 수는 2일 수 있다.

본 실시례에서, 트레이닝을 통해 복수의 딥 러닝 모델이 획득된 후, 종종 검증 세트 또는 검증 영상 데이터에 대해 트레이닝된 딥 러닝 모델의 인식 정확도를 검증할 필요가 있다. 따라서, 본 실시례에서, 검증 영상 데이터에 대한 트레이닝을 통해 획득된 각 딥 러닝 모델의 인식 정확도에 따라, 미리 결정된 수의 딥 러닝 모델이 인식 정확도의 내림차순으로 선택된다. 예를 들어, 소정 개수가 2인 경우, 검증 세트를 위한 트레이닝을 통해 획득된 딥 러닝 모델의 인식 정확도에 따라 트레이닝을 통해 획득된 딥 러닝 모델 중에서 정확도가 가장 높은 딥 러닝 모델 및 두 번째로 정확도가 높은 딥 러닝 모델을 선택할 수 있다.

미리 결정된 수의 딥 러닝 모델을 선택하는 단계 이후, 선택된 딥 러닝 모델 중 적어도 하나를 사용하여 인식될 영상 데이터를 인식하는 단계를 수행할 수 있는데, 이는 선택된 딥 러닝 모델을 사용자에게 제공하는 단계(104)와, 사용자에 의해 선택된 딥 러닝 모델을 획득하고, 사용자에 의해 선택된 딥 러닝 모델을 사용하여 인식될 영상 데이터를 인식하는 단계(105)를 포함할 수 있다.

단계 104는 선택적인 단계로서, 선택된 딥 러닝 모델이 사용자에게 제공될 수 있다.

본 실시례에서, 검증 세트에 대한 인식 정확도의 내림차순으로 트레이닝을 통해 획득된 딥 러닝 모델로부터 소정의 딥 러닝 모델이 선택된 후, 선택된 딥 러닝 모델이 사용자에게 제공될 수 있다.

특정 구현에서, 미리 정해진 수의 딥 러닝 모델이 검증 세트에 대한 인식 정확도의 내림차순으로 선택된 후에, 선택된 딥 러닝 모델이 저장될 수 있고, 저장된 딥 러닝 모델이 사용자에게 제공되어 사용자가 사용할 딥 러닝 모델을 선택할 수 있다. 예를 들어, 디스플레이 상에 디스플레이되는 사용자 인터페이스에 복수의 옵션 및 대응하는 설명이 제공되어, 사용자가 사용하기 위한 옵션을 선택할 수 있다.

단계 105는 선택적인 단계로서, 사용자에 의해 선택된 딥 러닝 모델이 획득되고, 인식될 영상 데이터는 사용자에 의해 선택된 딥 러닝 모델을 사용하여 인식될 수 있으며, 이러한 구체적인 과정에 의하여 선택적인 단계에 해당될 수 있다.

본 실시례에서, 새로운 영상 데이터가 수신된 후, 사용되는 딥 러닝 모델은 예를 들어, 사용자 인터페이스 상에서 사용자에 의해 선택될 수 있는 옵션에 따라 결정될 수 있고, 인식될 영상 데이터는 딥 러닝 모델을 사용하여 인식될 수 있다.

보다 일반적으로, 획득된 딥 러닝 모델들로부터 소정 개수의 딥 러닝 모델들이 검증 영상 데이터에 대한 인식 정확도의 내림차순으로 선택된 후, 인식될 영상 데이터는 선택된 딥 러닝 모델중 적어도 하나를 사용하여 인식될 수 있다. 예를 들어, 적어도 하나의 딥 러닝 모델은 사용자에 의해 수동으로 선택되지 않을 수 있지만, 컴퓨터, 서버 등에 의해 자동으로 선택될 수 있다(예를 들어, 최고 정확도를 갖는 딥 러닝 모델, 트레이닝 수렴 속도가 가장 빠른 딥 러닝 모델, 인식 속도가 가장 빠른 딥 러닝 모델 또는 다른 조건을 만족하는 딥 러닝 모델). 즉, 이 단계는 사용자의 참여없이 완전히 자동화될 수 있다.

딥 러닝 기반 영상 인식 방법에서, 처리될 영상 데이터에 대해 영상 전처리가 수행된 후, 딥 러닝 모델은 트레이닝 영상 데이터를 사용하여 적어도 2 개의 딥 러닝 모델을 획득함으로써 딥 러닝 프레임 워크에 기초하여 트레이닝될 수 있다. 검증 세트에 대한 인식 정확도의 내림차순으로 트레이닝을 통해 획득된 딥 러닝 모델로부터 미리 결정된 수의 딥 러닝 모델이 선택되고, 선택된 딥 러닝 모델이 사용자에게 제공되고, 사용자에 의해 선택된 딥 러닝 모델이 획득된다. 인식될 영상 데이터는 사용자에 의해 선택된 딥 러닝 모델을 사용하여 인식된다.

이러한 방식으로, 딥 러닝 프레임워크를 제공하기 위한 전반적인 솔루션이 실현될 수 있으며, 이는 사용자가 딥 러닝 모델을 획득한 다음, 획득된 딥 러닝 모델을 통해 수신된 영상 데이터를 인식하는 데 편리하고, 영상 인식의 정확성을 향상시키고 사용자 경험을 향상시킬 수 있다.

일부 실시례에서, 딥 러닝 프레임 워크의 수는 2 개 이상일 수 있는데, 선택된 딥 러닝 모델을 사용자에게 제공하는 단계(102)에서, 다수의 딥 러닝 프레임워크가 동일하거나 2개 이상일 수 있다.

도 2는 본 발명의 다른 실시례에 따른 딥 러닝 기반 영상 인식 방법을 도시한 흐름도이다.

도 2에 도시된 바와 같이, 도 1에 도시된 실시례의 단계 101은 다음 단계를 포함할 수 있다.

단계 201에서, 처리될 영상 데이터에 대해 랜덤 자르기, 회전, 뒤집기, 밝기 조정 및 대비 조정 중 하나 이상의 동작이 수행된다.

본 실시례에서, 영상 데이터가 트레이닝되기 전에, 먼저 처리될 영상 데이터에 대해 영상 전처리를 수행해야 하고, 이는 처리될 영상 데이터에 대해 랜덤 자르기, 회전, 뒤집기, 밝기 조정 및 또는 콘트라스트 조정 등과 같은 동작을 수행하는 것을 포함한다.

또한, 단계 201 뒤에, 본 방법은 다음 단계를 더 포함할 수 있다.

단계 202에서, 전처리된 영상 데이터는 사전 확립된 메모리 데이터베이스에 저장된다.

본 실시례에서, 미리 확립된 메모리 데이터베이스는 Lightning Memory-Mapped Database(이하 간략히 LMDB) 또는 LevelDB 등과 같은 딥 러닝 데이터베이스 일 수 있다.

물론, 다른 유형의 데이터베이스가 상기 메모리 데이터베이스로서 사용될 수도 있다. 사용되는 메모리 데이터베이스의 특정 유형은 본 실시례에서 제한되지 않는다.

본 실시례에서, 처리될 영상 데이터에 대해 영상 전처리가 수행된 후, 단계 102는 직접 수행될 수 있고, 또는 단계 202가 먼저 수행될 수 있고, 단계 102가 수행되는 경우, 단계 102에서, 딥 러닝 모델을 얻기 위해, 메모리 데이터베이스에 저장된 트레이닝 영상 데이터를 사용함으로써, 딥 러닝 프레임 워크에 기초하여 딥 러닝 모델이 트레이닝될 수 있다.

도 3은 본 발명의 또 다른 실시 예에 따른 딥 러닝 기반 영상 인식 방법을 도시한 흐름도이다.

도 3에 도시된 바와 같이, 도 1에 도시된 실시례의 단계 102 뒤에, 본 방법은 다음 단계를 더 포함할 수 있다

단계 301에서, 트레이닝 영상 데이터를 사용하여 딥 러닝 프레임 워크에 기초하여 딥 러닝 모델을 트레이닝 하는 프로세스에서, 적어도 2 개의 딥 러닝 모델을 획득하기 위해, 트레이닝 프로세스에 대한 상태 정보가 사용자에게 푸시된다.

본 실시례에서, 사용자가 트레이닝 과정에 집중하는 것을 용이하게 하기 위해, 트레이닝 영상 데이터를 사용하여 딥 러닝 프레임 워크에 기초하여 딥 러닝 모델을 트레이닝시키는 과정에서 딥 러닝 모델을 얻는 단계, 오류, 정보 또는 경고 등과 같은 트레이닝 프로세스에 대한 상태 정보는 WeChat 또는 QQ 등과 같이 사용자에 의해 등록된 인스턴트 메시징 소프트웨어의 계정으로 실시간으로 푸시될 수 있다.

물론, 트레이닝 과정에 대한 상태 정보는 사용자가 등록한 이메일 계정으로 실시간으로 푸시될 수도 있고, 트레이닝 과정에 대한 상태 정보는 또한 짧은 메시지. 트레이닝 과정에 대한 상태 정보를 사용자에게 푸시할 수 있는 한, 트레이닝 과정에 대한 상태 정보를 푸시하는 방식은 본 실시례에서 제한되지 않는다.

도 4는 본 발명의 또 다른 실시례에 따른 딥 러닝 기반 영상 인식 방법의 예시적인 흐름도이다.

도 4는 본 발명의 또 다른 실시 예에 따른 딥 러닝 기반 영상 인식 방법을 도시한 흐름도이다.

단계 401에서, 트레이닝 영상 데이터를 사용하여 딥 러닝 프레임 워크를 기반으로 딥 러닝 모델을 트레이닝시키는 과정에서, 적어도 2 개의 딥 러닝 모델을 획득하는 단계에서, 현재 트레이닝되고 있는 딥 러닝 모델에 대한 성능 곡선이 웹 애플리케이션 프로그래밍 인터페이스(API)를 사용하여 실시간으로 도출된다.

단계 402에서, 도출된 성능 곡선이 제시된다.

본 실시례에서, 트레이닝 영상 데이터를 이용하여 딥 러닝 프레임 워크를 기반으로 딥 러닝 모델을 트레이닝 \는 과정에서 딥 러닝 모델, 트레이닝 손실과 같은 성능 곡선, 트레이닝 정확도 및 또는 컨퓨전 매트릭스(confusion matrix) 등을 얻는다. 현재 학습되고 있는 딥 러닝 모델 중 하나는 웹 API(예를 들어, 크레용 또는 텐서 보드 등)를 사용하여 실시간으로 그려 질 수 있고,사용자에게 제시된다.

본 발명의 일부 실시례에 따른 딥 러닝 기반 영상 인식 방법은 사용자가 딥 러닝 모델을 획득하기에 편리한 딥 러닝 프레임 워크의 전반적인 솔루션을 제공하고, 이를 통해 수신된 영상 데이터의 인식을 실현할 수 있다. 딥 러닝 모델을 획득하여 영상 인식의 정확성을 향상시키고,사용자 경험을 향상시킨다.

도 5는 본 발명의 일 실시례에 따른 딥 러닝 기반 영상 인식 장치를 도시한 구성도이다. 본 발명의 일 실시례에 따른 딥 러닝 기반 영상 인식 장치는 본 발명의 실시례에 따른 딥 러닝 기반 영상 인식 방법을 수행할 수 있다.

도 5에 도시된 바와 같이, 딥 러닝 기반 영상 인식 장치는 선택적 영상 전처리 모듈(51), 트레이닝 모듈(52), 모델 스크리닝 모듈(53), 선택적 제공 모듈(54) 및 인식 모듈(55)을 포함할 수 있다.

선택적 영상 전처리 모듈(51)은 처리될 영상 데이터에 대해 영상 전처리를 수행하도록 구성된다.

트레이닝 모듈(52)은 트레이닝 영상 데이터를 사용하여 딥 러닝 프레임 워크에 기초한 딥 러닝 모델을 트레이닝시켜 적어도 2 개의 딥 러닝 모델을 획득하도록 구성된다. 본 실시례에서 딥 러닝 프레임 워크는 PyTorch, Tensorflow, Caffe, Keras, MXNet 등일 수 있으며, 본 실시례에 제한되지 않는다. 트레이닝 모듈(52)은 트레이닝 영상 데이터를 이용하여 딥 러닝 프레임 워크에 기초하여 딥 러닝 모델을 트레이닝시키며, 이는 적어도 2 개의 딥 러닝 모델을 얻을 수 있다.

모델 스크리닝 모듈(53)은 검증 영상 데이터에 대한 인식 정확도의 내림차순으로 트레이닝 모듈(52)에 의해 획득된 딥 러닝 모델로부터 미리 결정된 수의 딥 러닝 모델을 선택하도록 구성되고; 여기서 미리 결정된 수는 획득된 딥 러닝 모델의 수 이하이다. 소정의 수는 특정 구현에서 시스템 성능 및 또는 구현 요구 사항 등에 따라 설정될 수 있으며, 본 실시례에 제한되지 않는다. 예를 들어, 미리 정해진 수는 2일 수 있다.

본 실시례에서, 트레이닝 모듈(52)은 딥 학습 모델을 얻기 위해 트레이닝을 수행 한 후, 검증 세트에 대한 딥 학습 모델의 인식 정확도를 검증할 필요가 있다. 따라서, 본 실시례에서, 모델 스크리닝 모듈(53)은 검증 세트에 대한 트레이닝을 통해 획득된 딥 러닝 모델의 인식 정확도의 내림차순으로 미리 결정된 수의 딥 러닝 모델을 선택한다.

예를 들어, 기 설정된 개수가 2인 경우, 모델 스크리닝 모듈(53)은 획득된 딥 러닝 모델의 인식 정확도에 따라 트레이닝을 통해 획득된 딥 러닝 모델 중에서 가장 높은 인식 정확도와 두 번째로 높은 인식 정확도를 갖는 딥 러닝 모델을 검증 세트에 대한 교육을 통해 선택할 수 있다.

선택적 제공 모듈(54)은 모델 스크리닝 모듈(53)에 의해 선택된 딥 러닝 모델을 사용자에게 제공하도록 구성된다. 본 실시례에서, 모델 스크리닝 모듈(53)은 검증 세트에 대한 인식 정확도의 내림차순으로 트레이닝을 통해, 획득된 딥 러닝 모델로부터 미리 결정된 수의 딥 러닝 모델을 선택한 후, 제공 모듈(54)은 선택된 딥러닝 모델을 사용자에게 제공할 수 있다.

특정 구현에서, 모델 스크리닝 모듈(53)은 검증 세트에 대한 인식 정확도의 내림차순으로 미리 결정된 수의 딥 러닝 모델을 선택한 후에, 모델 스크리닝 모듈(53)은 선택된 딥 러닝 모델을 제공한 다음 제공 모델을 저장할 수 있다. 모델 스크리닝 모델(53)에 의해 저장된 딥 러닝 모델을 사용자에게 제공하여, 사용자가 사용하기 위한 딥 러닝 모델을 선택할 수 있도록 한다.

선택적 인식 모듈(55)은 사용자에 의해 선택된 딥 러닝 모델을 획득하고, 사용자에 의해 선택된 딥 러닝 모델을 통해 인식될 영상 데이터를 인식하도록 구성된다.

본 실시례에서, 새로운 영상 데이터가 수신된 후, 인식 모듈(55)은 사용자에 의해 선택된 딥 러닝 모델을 획득하고, 사용자에 의해 선택된 딥 러닝 모델을 통해 수신된 영상 데이터의 인식을 실현할 수 있다.

상술 한 바와 같이, 인식 모듈(55)은 획득된 딥 러닝 모델 중 소정 개수의 딥 러닝 모델이 선택된 후, 사용자의 참여없이 선택된 딥 러닝 모델 중 적어도 하나를 이용하여 인식될 영상 데이터를 인식할 수 있다. 검증 영상 데이터에 대한 인식 정확도의 내림차순. 예를 들어, 적어도 하나의 딥 러닝 모델은 사용자에 의해 수동으로 선택되지 않을 수 있지만, 컴퓨터, 서버 등에 의해 자동으로 선택될 수 있다(예를 들어, 정확도가 가장 높은 딥 러닝 모델, 트리이닝 수렴 속도가 가장 빠른 딥 러닝 모델, 인식 속도가 가장 빠른 딥 러닝 모델 또는 다른 조건을 만족하는 딥 러닝 모델이 이러한 딥 러닝 모델에서 인식된다.).

딥 러닝 기반 영상 인식 장치에서, 선택적 영상 전처리 모듈(51)은 처리될 영상 데이터에 대해 영상 전처리를 수행한 후, 트레이닝 모듈(52)은 적어도 트리이닝 영상 데이터를 이용하여 딥 러닝 프레임 워크에 기초하여 딥 러닝 모델을 트리이닝시킨다. 두 개의 딥 러닝 모델에 이어, 모델 스크리닝 모듈(53)은 검증 세트에 대한 인식 정확도의 내림차순으로 트레이닝을 통해 획득된 딥 러닝 모델로부터 미리 결정된 수의 딥 기대 모델을 선택하고, 선택적인 제공 모듈(54)은 선택된 딥 러닝을 제공한다. 선택적 인식 모듈(55)은 사용자에 의해 선택된 딥 러닝 모델을 획득하고, 사용자에 의해 선택된 딥 러닝 모델을 사용하여 수신된 영상 데이터를 인식할 수 있다. 이러한 방식으로, 딥 러닝 프레임 워크를 제공하기위한 전반적인 솔루션이 실현될 수 있으며, 이는 사용자가 딥 러닝 모델을 획득 한 다음, 획득된 딥 러닝 모델을 통해 수신된 영상 데이터의 인식을 실현함으로써 영상의 정확성을 향상 시킨다.

도 6은 본 발명의 다른 실시례에 따른 딥 러닝 기반 영상 인식 장치의 예시적인 구조도이다.

도 6은 도 5에 도시된 딥 러닝 기반 영상 인식 장치와 상이하다. 영상 전처리 모듈(51)은 처리될 영상 데이터에 대해 랜덤 자르기, 회전, 뒤집기, 밝기 조정 및 콘트라스트 조정과 같은 다음의 동작 중 하나 또는 조합을 수행하도록 구체적으로 구성될 수 있다.

본 실시례에서, 트레이닝 모듈(52)이 영상 데이터를 트레이닝시키기 전에, 영상 전처리 모듈(51)은 먼저 처리될 영상 데이터에 대해 영상 전처리를 수행해야하고, 이는 처리될 영상 데이터에 대해 랜덤 자르기, 회전, 뒤집기, 밝기 조정 및 또는 콘트라스트 조정 등과 같은 동작을 수행하는 것을 포함한다.

또한, 딥 러닝 기반 영상 인식 장치는 데이터베이스 설정 모듈(56) 및 저장 모듈(57)을 포함하는데, 데이터베이스 설정 모듈(56)은 메모리 데이터베이스를 구축하도록 구성되고, 저장 모듈(57)은 영상 전처리 모듈(51)이 처리될 영상 데이터에 대해 영상 전처리를 수행한 후, 데이터베이스 설정 모듈(56)에 의해 사전 확립된 메모리 데이터베이스에 처리된 영상 데이터를 저장하도록 구성된다.

본 실시례에서, 데이터 설정 모듈(56)에 의해 사전 구축된 메모리 데이터베이스는 LMDB 또는 LevelDB 등과 같은 딥 러닝 데이터베이스 일 수 있다. 물론, 다른 유형의 데이터베이스도 상기 메모리로서 사용될 수 있다. 사용되는 메모리 데이터베이스의 특정 유형은 본 실시례에서 제한되지 않는다.

영상 전처리 모듈(51)은 처리될 영상 데이터에 대해 영상 전처리를 수행한 후, 저장 모듈(57)은 데이터베이스 설정 모듈(56)에 의해 사전 확립된 메모리 데이터베이스에 처리된 영상 데이터를 저장할 수 있다.

또한, 딥 러닝 기반 영상 인식 장치는 메시지 푸싱 모듈(58)을 포함할 수 있다. 메시지 푸싱 모듈(58)은 딥 러닝 모델을 얻기 위해 트레이닝 영상 데이터를 사용하는 딥 러닝 프레임 워크에 기초하여 딥 러닝 모델을 트레이닝시키는 과정에서 트레이닝 과정에 대한 상태 정보를 사용자에게 푸시하도록 구성된다.

본 실시례에서, 사용자가 트레이닝 과정에 집중하는 것을 용이하게 하기 위해, 트레이닝 영상 데이터를 이용하여 딥 러닝 프레임 워크에 기초하여 딥 러닝 모델을 트레이닝시키는 과정에서, 딥 러닝 모델을 얻기 위해, 메시지 푸싱 모듈(58)은 에러, 정보 또는 경고 등과 같은 트레이닝 프로세스에 대한 상태 정보를 WeChat 또는 QQ 등과 같이 사용자에 의해 등록된 인스턴트 메시징 소프트웨어의 계정으로 실시간으로 푸시할 수 있다.

물론, 메시지 푸싱 모듈(58)은 또한 트레이닝 프로세스에 대한 상태 정보를 사용자에 의해 등록된 이메일의 계정으로 실시간 푸시할 수 있거나, 메시지 푸싱 모듈(58)은 또한 트레이닝 프로세스에 대한 상태 정보를 단문 메시지를 통한 사용자의 휴대 전화. 메시지 푸싱 모듈(58)에 의해 트레이닝 과정에 대한 상태 정보를 푸시하는 방식은 트레이닝 과정에 대한 상태 정보가 사용자에게 푸시될 수 있는 한, 본 실시례에서 제한되지 않는다.

또한, 딥 러닝 기반 영상 인식 장치는 실시간 모니터링 모듈(59) 및 프리젠테이션 모듈(510)을 더 포함할 수 있다.

실시간 모니터링 모듈(59)은 트레이닝 영상 데이터를 사용하여 트레이닝 모듈(52)에 의해 딥 러닝 프레임 워크에 기초하여 딥 러닝 모델을 트레이닝시키는 과정에서 딥 러닝 모델을 얻기 위해 웹 API를 사용하여 실시간으로 딥 러닝 모델에 대한 성능 곡선을 도출되도록 구성된다.

프리젠테이션 모듈(510)은 실시간 모니터링 모듈(59)에 의해 도출된 성능 곡선을 제시하도록 구성된다.

본 실시례에서, 트레이닝 영상 데이터를 이용하여 딥 러닝 프레임 워크를 기반으로 딥 러닝 모델을 트레이닝하는 과정에서 딥 러닝 모델, 트레이닝 손실과 같은 성능 곡선, 트레이닝 정확도, 및 또는 컨퓨전 매트릭스 등을 얻는다. 현재 트레이닝되고 있는 딥 러닝 모델의 웹 인터페이스는 실시간 모니터링 모듈(59)에 의해 웹 API(예를 들어, 크레용 또는 텐서 보드 등)를 사용하여 실시간으로 도출될 수 있고 사용자에게 제시된다.

본 발명의 일부 실시례에 따른 딥 러닝 기반 영상 인식 장치는 딥 러닝 모델을 획득하기에 편리한 딥 러닝 프레임 워크의 전반적인 솔루션을 제공하고, 이를 통해 수신된 영상 데이터의 인식을 실현할 수 있다. 딥 러닝 모델을 획득하여 영상 인식의 정확성을 향상시키고, 사용자 경험을 향상시킨다.

도 7은 본 발명의 일 실시례에 따른 컴퓨터 장치를 도시한 구성도이다.

도 7에서와 같이, 컴퓨터 장치는 메모리에 저장되고 프로세서상에서 실행 가능한 메모리, 프로세서 및 컴퓨터 프로그램을 포함할 수 있다. 프로세서에 의해 실행될 때, 컴퓨터 프로그램은 본 개시의 일부 실시례에 따른 딥 러닝 기반 영상 인식 방법을 수행할 수 있다.

컴퓨터 장치는 단말 장치 또는 서버일 수 있다. 컴퓨터 장치의 특정 형태는 본 실시례에서 제한되지 않는다.

도 7에 도시된 컴퓨터 장치(12)는 예시일 뿐이며, 본 발명의 실시례들의 기능 및 사용 범위에 어떠한 제한도 부과해서는 안된다.

컴퓨터 장치(12)는 범용 컴퓨팅 장치의 형태로 구현된다. 컴퓨터 장치(12)의 구성 요소는 하나 이상의 프로세서 또는 처리 장치(16), 시스템 메모리(28), 상이한 시스템 구성 요소(시스템 메모리(28) 및 처리 장치(16) 포함)를 연결하기 위한 버스(18)를 포함할 수 있지만, 이에 제한되지는 않는다.

컴퓨터 장치(12)는 전형적으로 다양한 컴퓨터 시스템 판독 가능 매체를 포함한다. 이들 매체는 휘발성 및 비 휘발성 매체, 이동식 및 비 이동식 매체를 포함하여 컴퓨터 장치(12)에 의해 액세스될 수있는 임의의 이용 가능한 매체 일 수 있다.

시스템 메모리(28)는 랜덤 액세스 메모리(RAM)(30) 및 또는 캐시 메모리(32)와 같은 휘발성 메모리 형태의 컴퓨터 시스템 판독 가능 매체를 포함할 수 있다. 컴퓨터 장치(12)는 다른 이동식 / 비- 이동식 및 휘발성 / 비 휘발성 컴퓨터 시스템 저장 매체. 단지 예로서, 저장 시스템(34)은 비 이동식 및 비 휘발성 자기 매체(도 7에 도시되지 않음)(일반적으로 "하드 드라이버"로 지칭 됨)로부터 판독 및 기록하는데 사용될 수 있다. 도 7에 도시된 바와 같이, 이동식 및 비 휘발성 자기 디스크(예를 들어, "플로피 디스크")로부터 읽고 쓰기 위한 자기 디스크 드라이버 및 이동식 및 비 휘발성 광 디스크에서 읽고 쓰기 위한 광학 디스크 드라이버(예를 들어, CD-ROM(Compact Disc Read Only Memory), 이하에서는 DVD-ROM(Digital Video Disc Read Only Memory) 또는 기타 광 매체(Optical Media)와 같은 경우가 있다. 하나 이상의 데이터 매체 인터페이스를 통한 버스(18), 메모리(28)는 본 개시의 다양한 실시례의 기능을 수행하도록 구성된(예를 들어, 적어도 하나의) 프로그램 모듈 그룹을 갖는 적어도 하나의 프로그램 제품을 포함할 수 있다.

적어도 하나의 프로그램 모듈(42)을 갖는 프로그램 / 유틸리티(40)는 예를 들어 메모리(28)에 저장될 수 있다. 이러한 프로그램 모듈(42)은 운영 체제, 하나 이상의 애플리케이션, 다른 프로그램 모듈 및 프로그램 데이터를 포함하지만, 이에 제한되지 않으며, 이들 예의 각각 또는 일부 조합은 네트워크 환경의 구현을 포함할 수 있다. 프로그램 모듈(42)은 일반적으로 본 개시의 실시례에서 설명된 기능 및 또는 방법을 수행한다.

컴퓨터 장치(12)는 또한 하나 이상의 외부 장치(14)(예를 들어, 키보드, 포인팅 장치, 디스플레이 등)와 통신할 수 있고, 또한 사용자가 컴퓨터와 상호 작용할 수 있게 하는 하나 이상의 장치와 통신할 수 있다. 컴퓨터 장치(12)가 하나 이상의 다른 컴퓨팅 장치와 통신할 수 있게 하는 장치(12) 및 또는 임의의 장치(예를 들어, 네트워크 카드, 모뎀 등)를 포함할 수 있다. 이 통신은 입 / 출력(I / O) 인터페이스(22)를 통해 수행될 수 있다. 또한, 컴퓨터 장치(12)는 하나 이상의 네트워크(예를 들어, 근거리 통신망(LAN), 광역 통신 장치)와 통신할 수도 있다. 네트워크 어댑터(20)를 통한 네트워크(이하 간단히 WAN) 및 또는 공공 네트워크(예를 들어, 인터넷)를 가질 수 있다. 도 7에 도시된 바와 같이, 네트워크 어댑터(20)는 버스(18)를 통해 컴퓨터 장치(12)의 다른 모듈과 통신한다.

처리 유닛(16)은 시스템 메모리(28)에 저장된 프로그램, 예를 들어 본 발명의 실시례에 따른 딥 러닝 기반 영상 인식 방법을 실행함으로써 다양한 종류의 기능적 애플리케이션 및 데이터 처리를 실행한다.

본 발명의 실시례는 컴퓨터 프로그램이 저장되는 비 일시적 컴퓨터 판독 가능 저장 매체를 추가로 제공한다. 컴퓨터 프로그램은 프로세서에 의해 실행될 때, 본 개시의 실시례에 따른 딥 러닝 기반 영상 인식 방법을 수행할 수 있다.

컴퓨터 판독 가능 신호 매체는 기저 대역에서 또는 반송파의 일부로서 전파하는 데이터 신호를 포함할 수 있고, 데이터 신호는 컴퓨터 판독 가능 프로그램 코드를 운반한다. 전파된 데이터 신호는 전자기 신호, 광학 신호 또는 이들의 임의의 적절한 조합을 포함하지만, 이에 제한되지 않는 다양한 형태를 취할 수 있다. 컴퓨터 판독 가능 신호 매체는 또한 컴퓨터 판독 가능 저장 매체 이외의 임의의 컴퓨터 판독 가능 매체 일 수 있으며, 이는 명령 실행 시스템, 장치 또는 장치에 의해 또는 이와 관련하여 사용하기 위한 프로그램을 송신, 전파 또는 송신할 수 있다.

컴퓨터 판독 가능 매체에 구현된 프로그램 코드는 무선, 유선, 광섬유 케이블, RF 등 또는 이들의 임의의 적절한 조합을 포함하지만, 이에 제한되지 않는 임의의 적절한 매체를 사용하여 전송될 수 있다.

본 개시의 실시례에 따른 동작을 수행하기위한 컴퓨터 프로그램 코드는 하나 이상의 프로그래밍 언어, 또는 Java, 스몰 토크, C ++와 같은 객체 지향 프로그래밍 언어를 포함하고 또한 종래의 절차적 프로그래밍을 포함하는 이들의 조합을 사용하여 작성될 수 있다. "C"언어 또는 유사한 프로그래밍 언어와 같은 언어. 프로그램 코드는 사용자 컴퓨터에서 완전히 실행될 수 있거나, 사용자 컴퓨터에서 부분적으로 실행될 수 있거나, 독립형 소프트웨어 패키지로서 실행될 수 있거나, 사용자 컴퓨터와 부분적으로 원격 컴퓨터에서 실행될 수 있거나, 또는 원격 컴퓨터 또는 서버에서 완전히 실행된다. 원격 컴퓨터의 경우, 원격 컴퓨터는 근거리 네트워크(이하, LAN) 또는 광역 네트워크(이하, 짧은 WAN)를 포함하는 임의의 종류의 네트워크를 통해 사용자 컴퓨터에 연결되거나 연결될 수 있다.

본 발명의 실시례는 컴퓨터 프로그램 제품을 제공한다. 컴퓨터 프로그램 제품의 명령은 프로세서에 의해 실행될 때, 본 개시의 실시례에 따른 딥 러닝 기반 영상 인식 방법을 실행할 수 있다.

이와 같이 본 발명에 대해서 첨부된 도면을 참조하여 설명하였으나, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 다양한 수정 및 변형이 이루어질 수 있음은 물론이다. 그러므로, 본 발명의 범위는 설명된 실시례에 한정되어서는 아니되며, 후술하는 특허청구범위뿐만 아니라 이러한 특허청구범위와 균등한 것들에 의해 정해져야 한다.

12 : Computer device 14: 외부장치
16 : 처리 유닛 18 : 버스
20 : 네트워크 어댑터 22 : 입출력 인터페이스
28 : 시스템 메모리 30 : 랜덤 액세스 메모리(RAM)
32 : 캐시 메모리 34 : 저장 시스템
40 : 유틸리티 42 : 프로그램 모듈
51 : 영상 전처리 모듈 52 : 트레이닝 모듈
53 : 모델 스크리닝 모듈 54 : 선택적 제공 모듈
55 : 인식 모듈 56 : 데이터베이스 구축 모듈
57 : 저장 모듈 58 : 메시지 푸싱 모듈
59 : 실시간 모니터링 모듈 510 : 프리젠테이션 모듈

Claims

딥 러닝 기반 영상 인식 방법에 있어서,
트레이닝 영상 데이터를 사용하여 딥 러닝 프레임 워크에 기초하여 딥 러닝 모델을 트레이닝하여 적어도 2 개의 딥 러닝 모델을 얻는 단계;
검증된 영상 데이터에 대한 인식 정확도의 내림차순으로 획득된 딥 러닝 모델로부터 상기 획득된 딥 러닝 모델의 수 이하에 해당하는 미리 결정된 수의 딥 러닝 모델을 선택하는 단계;
선택된 딥 러닝 모델 중 적어도 하나를 사용하여 인식될 영상 데이터를 인식하는 단계;
상기 트레이닝 영상 데이터, 상기 검증된 영상 데이터 및 상기 인식될 영상 데이터 중 적어도 하나에 대해 영상 전처리를 수행하는 단계;
를 포함하고,
상기 인식될 영상 데이터를 인식하는 단계는,
상기 선택된 딥 러닝 모델을 사용자에게 제공하는 단계; 및
사용자에 의해 선택된 딥 러닝 모델을 획득하고, 사용자에 의해 선택된 딥 러닝 모델을 사용하여 인식될 영상 데이터를 인식하는 단계;
를 포함하고,
상기 적어도 2 개의 딥 러닝 모델을 얻는 단계는,
트레이닝 프로세스에 대한 상태 정보를 사용자에게 푸시하는 단계를 포함하고,
상기 적어도 2 개의 딥 러닝 모델을 얻는 단계는,
실시간으로 웹 애플리케이션 프로그래밍 인터페이스를 사용하여 트레이닝중인 딥 러닝 모델에 대한 성능 곡선을 그리는 단계를 포함하고,
상기 영상 전처리를 수행하는 단계는,
상기 영상 전처리가 랜덤 자르기, 회전, 뒤집기, 밝기 조정 및 대비 조정 중 적어도 하나를 포함하는 것을 특징으로 하는 딥 러닝 인공신경망 기반 영상 인식 방법.
삭제
청구항 1에 있어서,
상기 영상 전처리된 영상 데이터를 사전 확립된 메모리 데이터베이스에 저장하는 단계를 더 포함하는, 딥 러닝 인공신경망 기반 영상 인식 방법.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제