WO2019074316A1

WO2019074316A1 - 이미지 및 영상의 등록, 검색, 재생을 모바일 디바이스 및 서버에서 분할하여 수행하는 컨벌루션 인공신경망 기반 인식 시스템

Info

Publication number: WO2019074316A1
Application number: PCT/KR2018/012022
Authority: WO
Inventors: 양승호; 한상준
Original assignee: 주식회사 웰시스템코리아
Priority date: 2017-10-12
Filing date: 2018-10-12
Publication date: 2019-04-18
Also published as: US20220292328A1; JP2020537274A; US11966829B2; KR101949881B1

Abstract

본 발명은 컨벌루션 인공 신경망에 기반한 이미지 및 영상 인식 시스템 및 그 방법에 관한 것이다. 그러한 인식 시스템은, 하위 계층의 분석을 수행하고, 사용자의 질의 사항을 서버(5)로 전송 및 수신하여 관리하는 모바일 디바이스(3)와; 모바일 디바이스(3)와 네트워크를 통하여 연결되며, 컨벌류션 인공 신경망의 중위 및 상위 계층에 해당하는 신경망의 각 층에서 데이터 처리를 수행하고 특정한 사물(이미지) 및 영상을 등록, 분석, 검색, 분류하는 서버(5)와; 그리고 컨텐츠 제공자가 등록한 이미지 및 영상의 인공 신경망 처리의 FC 레이어값과, 모바일 디바이스(3)로부터 전송된 이미지 및 영상의 인공 신경망 처리의 FC 레이어값을 비교하는 검색기(7)를 포함한다.

Description

이미지 및 영상의 등록, 검색, 재생을 모바일 디바이스 및 서버에서 분할하여 수행하는 컨벌루션 인공신경망 기반 인식 시스템

본 발명은 컨벌루션 인공 신경망 기반의 인식 시스템에 관한 것으로서, 보다 상세하게는 모바일 디바이스에 탑재된 카메라로부터 입력받은 영상에서 검색을 위한 정보를 도출하고, 컨벌루션 인공신경망을 기반으로 하여 데이터 학습에 의하여 사물을 판별하고, 사전에 등록된 데이터의 디지털 지문을 생성하고, 컨벌루션 인공신경망 또는 인메모리 트리 검색 기술을 통해 대상을 검색하고, 타겟과 콘텐츠의 결합 정보를 모바일 디바이스로 전송하여 검색한 대상에 연결된 콘텐츠를 재생하는 기술에 관한 것이다.

일반적으로 인공 신경망은 인간의 뇌가 패턴을 인식하는 방식을 모사한 알고리즘을 의미한다. 인공 신경망은 시각, 청각 입력 데이터를 퍼셉트론이나 분류, 군집을 이용하여 해석하는데, 이렇게 해석한 결과를 이용하면 이미지, 소리, 문자, 시계열 데이터에서 특정 패턴을 인식할 수 있다.

인공 신경망을 이용하면 각종 분류(classification) 및 군집화(clustering)가 가능한 바, 분류나 군집화를 원하는 데이터 위에 여러 가지 층(layer)을 얹어서 원하는 작업을 하게 된다.

각 층에서는 라벨링이 되어있지 않은 데이터를 서로 비교하여 유사도를 구해주거나, 라벨링이 되어있는 데이터를 기반으로 검색기를 학습하여 자동으로 데이터를 분류할 수 있다.

보다 상세하게는, 인공 신경망으로 특징을 추출하고 그 특징을 다시 다른 기계학습 알고리즘의 입력값으로 사용하여 분류나 군집화를 할 수 있다.

이러한 인공 신경망은 심층 신경망을 포함하는 바, 심층 신경망은 신경망 알고리즘 중에서 여러 개의 층으로 이루어진 신경망을 의미한다.

한 개의 층은 여러 개의 노드로 구성되고, 각 노드에서는 실제로 연산이 일어나며, 이 연산 과정은 인간의 신경망을 구성하는 뉴런에서 일어나는 과정을 모사하도록 설계된다.

노드는 일정 크기 이상의 자극을 받으면 반응을 하는데, 그 반응의 크기는 입력 값과 노드의 계수(또는 가중치, weights)를 곱한 값과 대략 비례한다. 일반적으로 노드는 여러 개의 입력을 받으며 입력 갯수 만큼의 계수를 갖는다. 따라서, 이 계수를 조절함으로써 여러 입력에 서로 다른 가중치를 부여할 수 있다.

최종적으로 곱한 값들은 전부 더해지고 그 합은 활성 함수(activation function)의 입력으로 들어가게 된다. 활성 함수의 결과가 노드의 출력에 해당하며 이 출력값이 궁극적으로 분류나 회귀 분석에 쓰인다.

각 층은 여러 개의 노드로 이루어지며 입력값에 따라 각 노드의 활성화/비활성화 여부가 결정된다. 이때, 입력 데이터는 첫 번째 층의 입력이 되며, 그 이후엔 각 층의 출력이 다시 다음 층의 입력이 되는 방식이다.

모든 계수는 학습 과정에서 계속 조금씩 변하는데, 결과적으로 각 노드가 어떤 입력을 중요하게 여기는지를 반영한다. 그리고 신경망의 학습(training)은 이 계수를 업데이트하는 과정이다.

이러한 심층 신경망에서는 각 층마다 서로 다른 층위의 특징이 학습된다.

즉, 낮은 층위의 특징은 단순하고 구체적인 특징이 학습되며 (예:이미지를 이루는 수평선, 수직선, 대각선), 높은 층위의 특징은 더욱 복잡하고 추상적인 특징이 학습된다. (예:사람 모양, 자동차 모양, 고양이 모양, 얼굴 모양.)

이런 추상화 학습과정을 통해 심층 신경망이 아주 큰, 고차원의 데이터를 이해하며, 이 과정에는 수 억, 수 십억 개의 계수가 관여하게 된다. (이 과정에서 비선형함수가 사용된다.)

또한, 심층 신경망은 데이터를 이용해 데이터의 잠재적인 구조(latent structures)를 파악할 수 있다. 즉, 사진, 글, 비디오, 음성, 음악의 잠재적인 구조(어떤 물체가 사진에 있는지, 글의 내용과 감정이 무엇인지, 음성의 내용과 감정이 무엇인지 등)를 파악할 수 있다. 이를 통해 데이터가 라벨링되어 있지 않아도 데이터간의 유사성을 효과적으로 파악할 수 있으며, 결과적으로 심층 신경망은 데이터 군집화에 효과적이다.

예를 들어, 신경망을 이용해 대량의 사진 데이터를 받아서 비슷한 사진끼리 모아서 분류할 수 있다.

이러한 심층 신경망이 일반적인 기계 학습과 다른 점은 특징 추출(feature extraction)이 자동적으로 이루어진다는 점이다.

기존에는 효과적인 특징을 추출하기 위해 관련 분야 전문가가 오랜 시간동안 직접 특징을 추출하는 수식이나 방법을 고안해서 적용해야 했다. 이 방법은 개발, 평가 및 보완에 많은 시간이 걸리는 문제점이 있다.

심층 신경망은 이런 과정을 컴퓨터가 대신 하도록 알고리즘을 짠 것으로, 사람에 비해 훨씬 빠르고 효과적으로 수행하도록 학습시킨다.

라벨링이 되어있지 않은 데이터를 학습하는 경우에도 신경망은 데이터의 특징을 자동적으로 추출할 수 있다. 이 자동 추출은 여러 가지 방법이 있는데, 보통 이 과정은 신경망을 통과시켰을 때의 출력이 입력과 같아지도록 학습하게 된다.

라벨이 어떤 종류이든지(입력을 그대로 사용/별도의 라벨을 사용) 신경망은 입력과 출력의 상관관계를 찾는다. 경우에 따라서는 라벨링된 데이터로 신경망을 어느 정도 학습시킨 뒤 라벨링이 되어있지 않은 데이터를 추가하여 계속 학습시킬 수도 있다. 이 방법을 이용하면 신경망의 성능을 극대화할 수 있다.

심층 신경망의 마지막 층은 출력층이다. 출력층의 활성 함수는 로지스틱(logistic) 혹은 소프트 맥스(softmax)인 경우가 대부분이며 출력층에서는 최종적으로 특정 라벨의 확률을 구할 수 있다. 예를 들어 사진을 입력으로 넣었을 때 사진의 물체가 사람인지, 고양이인지, 개인지 각각의 확률을 구할 수 있다.

이러한 인공 신경망의 학습 목적은 출력의 오류를 최소화하는 데 있다.

우선 학습이 시작되기 전에 뉴럴넷의 모든 계수를 초기화한다. 그리고 반복적으로 데이터를 입력하여 학습을 진행한다. 만일 학습이 원활하게 진행되었다면 계수는 적절한 값으로 업데이트 되어 있을 것이고, 이 인공 신경망으로 각종 분류와 예측이 가능하다.

학습 과정 내부에선 이러한 계수의 업데이트 과정이 반복적으로 일어난다.

계수 업데이트의 원리는 우선 계수를 추정하고 그 계수를 사용했을 때 발생하는 에러를 측정한 뒤 그 에러에 기반해서 계수를 약간씩 업데이트 하는 방식이다.

이때, 신경망의 여러 계수를 합쳐서 모델이라고 부르며, 모델은 초기화 된 상태일 수도 있고, 학습이 완료된 상태일 수도 있다.

초기화된 모델은 의미있는 작업을 못하지만 학습이 진행될수록 모델은 임의의 값이 아닌, 실제와 유사한 결과를 출력하게 된다.

이는 인공 신경망이 데이터가 입력되기 전에는 아무것도 모르는 상태이기 때문이며, 계수를 임의의 값으로 초기화하는 이유도 마찬가지이다. 그리고 데이터를 읽어가면서 계수를 조금씩 올바른 방향으로 업데이트하게 된다.

그러나, 종래에는 특정한 이미지를 특징점 서술자 검색 기술을 기반으로한 증강현실을 구현하거나, 또는 일반 사물에 대한 인공신경망 학습 방법에 한정하여 산발적으로 존재한 문제점이 있다.

또한, 종래 기술에서는 특정 사물인식은 특징점 추출자, 특징점 서술자를 사용한 검색 방법으로, 일반 사물인식은 특징점 서술자를 Bag of Words 기법으로 분류 학습을 하거나 인공신경망을 활용하는 방법이 존재하였으나, 각각 특정 사물 인식에서 특징점 서술자 방식의 검색은 모바일 디바이스의 연산량이 많고 서버로 대량의 정보를 보내야 되므로 서버측 네트워크 트래픽이 과도하게 발생 및 모바일 디바이스에서는 통신환경에 큰 영향을 받는 문제점이 있다.

또한 일반 사물 인식에서는 특징점 서술자 방식은 인식률이 낮고, 인공신경망 구조의 경우 특정 사물 인식과 결함이 곤란하거나, 기존 방식에서는 이미지 회전에 취약한 특성 정보를 가지고 있는 것이 한계인 문제점이 있다.

따라서, 본 발명은 이와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은 특정 사물 인식과 일반 사물 인식을 하나의 과정에서 처리함으로써 빠른 이미지 검색이 검색 및 대량의 이미지 데이터베이스 구축이 가능하며, 또한 모바일 디바이스의 연산량을 최소화하고, 서버의 부하를 최소화 할 수 있는 인공 신경망 시스템을 제공하는 것이다.

또한, 본 발명은 특정 사물 인식에 있어서, 회전 불변 특성을 가지는 인공신경망을 활용함으로써 인식률을 높일 수 있는 인공 신경망 시스템을 제공하는 것이다.

상기한 목적을 달성하기 위하여, 본 발명의 일 실시예는,

컨텐츠 제공자가 이미지 타겟 및 컨텐츠를 서버(5)의 K-D 트리 구조의 검색기(7)에 등록하는 제 1단계(S10);

모바일 디바이스(3) 사용자가 제 1단계(S10)에서 등록된 컨텐츠를 제공받기 위하여 카메라(10)로 대상물을 촬영하고, 상기 모바일 디바이스(3)가 획득된 이미지 및 영상 데이터를 컨벌류션 인공 신경망의 하위계층인 L1 내지 L6계층에 의하여 처리하는 제 2단계(S20)와;

제 2단계(S20)에서 처리된 데이터를 서버(5)가 전송받아서 상기 컨벌류션 인공 신경망의 중, 상위 계층인 L7 내지 L12계층에 의하여 처리함으로써 상기 획득된 이미지 및 영상 데이터의 주된 방향으로 결정하여 회전 불변의 특징을 재생성하는 제 3단계(S30)와;

제 2단계(S20)에서 처리된 데이터 중 상기 컨벌류션 인공 신경망의 완전 연결층의 FC 레이어값을 서버(5)의 K-D 트리 검색기(7)에 전송하여 검색함으로써 컨텐츠 제공자가 등록한 최근접 타켓을 검색하는 제 4단계(S40)와;

최근접 타켓의 유사도와 문턱값을 비교하여 타겟 검색 성공여부를 판단하는 제 5단계(S50)와; 그리고

타켓과 컨텐츠 결합 정보를 모바일 디바이스(3)로 전송하여 검색한 대상에 연결된 컨텐츠를 재생하는 제 6단계(S60)를 포함하는 인공신경망 기반의 인식 방법을 제공한다.

또한, 본 발명의 다른 실시예는,

하위 계층의 분석을 수행하고, 사용자의 질의 사항을 서버(5)로 전송 및 수신하여 관리하는 모바일 디바이스(3)와;

모바일 디바이스(3)와 네트워크를 통하여 연결되며, 컨벌류션 인공 신경망의 중위 및 상위 계층에 해당하는 신경망의 각 층에서 데이터 처리를 수행하고 특정한 사물(이미지) 및 영상을 등록, 분석, 검색, 분류하는 서버(5)와; 그리고

컨텐츠 제공자가 등록한 이미지 및 영상의 인공 신경망 처리의 FC 레이어값과, 모바일 디바이스(3)로부터 전송된 이미지 및 영상의 인공 신경망 처리의 FC 레이어값을 비교하는 검색기(7)를 포함하는 인공 신경망 기반 인식 시스템을 제공한다.

본 발명의 일 실시예에 따른 컨벌루션 인공신경망 기반 인식 시스템을 다음과 같은 장점이 있다.

첫째, 하나의 완성된 컨벌루션 인공 신경망을 2개의 연결된 컨벌루션 인공 신경망으로 분리하고, 이 중 하위 계층에 해당하는 신경망은 모바일 디바이스에서, 중, 상위 계층에 해당하는 신경망은 서버에서 처리함으로써 서버로 전송하는 데이터의 크기가 줄어들어 트래픽, 통신 속도 개선, 인식 처리에 대한 부하의 일부를 모바일 디바이스가 담당하여 서버의 부하 경감, 원천 데이터는 서버에 존재하므로 콘텐츠 제공자가 신규 데이터를 추가하는 것이 용이한 장점이 있다.

둘째, 이미지 학습을 토대로 한 일반 사물 인식 기술과, 이미지 특징 정합을 토대로 한 특정 사물 인식 기술의 장점을 결합하고, 이를 컨벌루션 인공 신경망 기반 인식 시스템으로 구현하였다.

즉, 대량의 이미지를 다층의 컨벌루션 인공 신경망을 통해 학습을 할 경우, 하위 계층일수록 이미지의 국소 영역 특징 정보를 추출하는 종래의 특징 기반 이미지 인식의 특징 추출자 역할을 하는 계층으로 학습되는 경향이 있고, 상위 계층일수록 종래의 학습 기반 이미지 인식의 의미 검색과 종래의 특징 기반 이미지 인식의 특징 정합 역할을 하는 계층으로 학습되는 경향이 있는 바,

이에 따라, 하나의 완성된 컨벌루션 인공 신경망을 이용하여 하위 계층, 상위 계층의 출력값을 각각 처리하도록 변형하고, 이때 얻어진 컨벌루션 인공 신경망을 통해 사물의 범주를 이해하는 목적으로 상위 계층의 출력값을 이용하면서, 하위 계층과 중간 계층의 출력값을 결합한 결과를 이용해 이를 특징 집합과 같이 취급하여 사전에 특정한 이미지를 등록할 수 있는 단계, 이미지 검색 질의에 대해 동일한 계층의 출력값을 결합한 결과와 비교/정합하여 검색하는 단계, 적정한 문턱값을 결정하여 정합 결과의 정합 여부를 판정하는 단계를 통해 기존의 특징 추출 연산없이도 사물의 범주를 분류하는 완성된 컨벌루션 인공 신경망을 그대로 이용하며 중간 결과값을 비교하는 정도의 가벼운 처리만으로 특정 사물 인식을 동시에 실시할 수 있다.

셋째, 콘텐츠 제공자는 사용자에게 광고, 학습, 정보 제공등 다양한 콘텐츠를 제공하는 자로서, 본 시스템에 특정 사물 인식을 위한 타겟과 이에 연결되는 콘텐츠를 등록하거나, 본 플랫폼에서 사전에 설계된 범주에 콘텐츠를 등록하는 과정에서 사용자가 취해야 할 행동의 제한이 줄어들어 더 많은 사용자들에게 콘텐츠 제공이 가능하다.

넷째, 기존의 일반 사물 인식을 이용하여 해당 제품과 동일하지는 않지만 유사한 제품에 대해서도 컨텐츠를 제공할 수 있어서 많은 사용자에게 콘텐츠 및 광고를 제공할 수 있다.

다섯째, 잡지나 어학 교재등 제품을 구입한 사용자를 특정하여 콘텐츠를 제공하는 경우, QR코드 혹은 쿠폰 번호를 제공할 필요없이 특정 사물 인식 기술을 통해 제품 구매자만 접근할 수 있는 페이지 또는 판매 과정에서 인쇄물을 전달하는 방법 등으로 쉽게 접근할 수 있다.

여섯째, 모바일 디바이스에 의하여 제품, 사물, 포스터, 전단지, 교재, 잡지, 영화, 드라마, 스포츠 중계, 홈쇼핑 방송 등의 컨텐츠를 제공하는 경우, 사용자로 하여금 특정 사물 인식 방식의 한계였던 대상 인지의 문제를, 일반 사물 인식으로 확장하여, 굳이 사용자가 해당 사물이 대상인지 아닌지를 생각할 필요 없이 대부분의 사물, 상황, 장면을 비추어 콘텐츠를 제공받는 경험을 지속적으로 제공하여, 사용성을 높이고 활용 가치가 있는 서비스를 제공하여 사용자의 서비스 종속(Lock-in)을 유도할 수 있고, 이를 통해 종래에 비교하여 다수의 상시 사용 사용자를 확보할 수 있고, 이는 사용자에게는 만족의 경험, 콘텐츠 제공자에게는 유통 경로의 확대의 기회가 될 수 있다.

도 1은 본 발명의 일 실시예에 따른 컨벌류션 인공 신경망에 기반한 인식 시스템의 전체 구조를 보여주는 도면이다.

도 2는 도 1에 도시된 모바일 디바이스의 구조를 개략적으로 보여주는 도면이다.

도 3은 도 1에 도시된 서버의 구조를 개략적으로 보여주는 도면이다.

도 4는 도 1에 도시된 모바일 디바이스 및 서버에서 컨벌류션 인공 신경망이 분할되어 처리되는 과정을 개략적으로 보여주는 블록도이다.

도 5는 도 1에 도시된 모바일 디바이스 및 서버에서 제 2모듈 및 제 3모듈에이 컨벌루션 인공 신경망에 의하여 데이터를 처리하고, 검색기에 등록하는 과정을 개략적으로 보여주는 블럭도이다.

도 6은 도 1에 도시된 모바일 디바이스 및 서버에서 제 4 내지 6모듈이 컨벌루션 인공 신경망에 의하여 타켓 검색 및 쿼리 응답 과정을 개략적으로 보여주는 블럭도이다.

도 7은 본 발명의 다른 실시예에 따른 컨벌류션 인공 신경망에 기반한 인식 방법을 보여주는 순서도이다.

도 8은 모바일 디바이스의 검색 쿼리의 결과 판정과 컨텐츠 재생 과정을 보여주는 순서도이다.

이하, 본 발명의 일 실시예에 따른 이미지 및 영상의 등록, 검색, 재생을 모바일 디바이스 및 서버에서 분할하여 수행하는 컨벌루션 인공신경망 기반 인식 시스템을 상세하게 설명한다.

도 1 내지 도 3에 도시된 바와 같이, 본 출원이 제안하는 시스템(1)은,

하위 계층의 분석을 수행하고, 사용자의 질의 사항을 서버(5)로 전송 및 수신하여 관리하는 모바일 디바이스(3)와; 모바일 디바이스(3)와 네트워크를 통하여 연결되며, 컨벌류션 인공 신경망의 중위 및 상위 계층에 해당하는 신경망의 각 층에서 데이터 처리를 수행하고 특정한 사물 이미지 및 영상을 등록, 분석, 검색, 분류하는 서버(5)와; 그리고 컨텐츠 제공자가 등록한 이미지 및 영상의 인공 신경망 처리의 FC 레이어값과, 모바일 디바이스(3)로부터 전송된 이미지 및 영상의 인공 신경망 처리의 FC 레이어값을 비교하는 검색기(7)를 포함한다.

이러한 구조를 갖는 시스템에 있어서,

모바일 디바이스(3)는 이미지 혹은 동영상 정보를 얻을 수 있고 이를 네트워크를 통하여 전송할 수 있는 장치를 의미하는 바, 예를 들면 스마트폰, 태플릿 PC 등을 의미한다.

이러한 모바일 디바이스(3)는 영상 및 이미지를 획득하는 카메라(10)와; 카메라(10)에 의하여 획득한 영상 및 이미지 데이터를 처리하는 컨벌류션 인공 신경망의 하위 2계층인 레이어 1 내지 6계층을 실행하는 하위 계층 처리모듈(12)과; 상기 모듈에 의하여 처리된 데이터를 저장하는 메모리(14)와; 이미지를 표시하는 표시창(16)을 포함한다.

상기 하위 계층 처리모듈(12)은 통상적인 컨벌류션 인공 신경망에 의하여 국소영역및 크기불변 특징을 도출하게 된다.

보다 상세하게 설명하면, 컨벌류션 신경망은 입력층, 은닉층, 출력층으로 구성된다. 이때 은닉층은 한 층으로 구성될 수도 있고, 다층으로 구성될 수도 있으며, 본 발명에서는 6층으로 구성된다.

또한, 각 층은 다수의 노드로 구성되고, 각 노드는 값을 갖는다. 각 노드는 전방노드 및 후방노드와 웨이트로 연결되는 바, 이 웨이트는 연결 가중치를 의미한다.

그리고, 각 층에는 활성화함수가 있는 바, 이전 노드의 값과, 웨이트의 연결 가중치와, 이전 노드가 가진 활성화 함수를 이용해 해당 노드값을 구한다.

이러한 컨벌루션 신경망의 학습과정을 도 4를 참조하여 설명한다.

먼저 이미지 데이터를 입력하며, 예를 들면 410*410 픽셀(Pixel)에 채널이 합해진 3차원 이미지 데이터를 준비한다.

그리고, 제 1계층(L1)을 수행하는 바, 4*4 필터(Filter)를 적용하여 디멘션(Dimension)을 204*204*128 크기로 축소하여 특징맵(Feature maps)들을 생성한다.(아래 도면 참조)

이때, 필요하면 패딩(Pedding)과정을 수행할 수도 있다. 즉, 패딩은 주로 출력 데이터의 크기를 조정하기 위하여 사용된다. 예를 들면, 4*4 입력데이터에 3*3필터를 적용하면 출력은 2*2가 되어 입력 데이터보다 2만큼 감소하게 된다.

이는 컨벌루션 연산을 다수회 실시하는 심층 신경망에서는 문제가 될 수 있다. 컨벌루션 연산을 실시할 때 마다 크기가 감소하면 어느 시점에서는 출력 데이터의 크기가 1이 되므로, 더 이상 컨벌루션 연산을 실시할 수 없게 된다. 따라서, 이러한 경우를 방지하기 위하여 패딩 과정을 실시하게 된다.

이러한 패딩 과정을 상세하게 설명하면, 벌루션 연산을 수행하기 전에 입력데이터의 주변을 특정값, 예를 들면 0으로 채우게 된다.

즉, 아래 도면은 4*4크기의 입력 데이터에 폭이 1인 패딩을 적용한 경우로서 입력 데이터의 사방 1픽셀을 특정값으로 채운다.

따라서, 처음 크기가 4*4인 입력 데이터에 패딩이 추가되어 6*6이 된다.

이와 같이 4*4인 입력데이터가 패딩이 추가되어 6*6이 되고, 3*3 크기의 필터를 적용하면 4*4크기의 출력데이터가 생성된다. 물론, 패딩을 1로 설정하였지만 이에 한정되는 것은 아니고 2나 3 등으로도 설정할 수 있다.

본 발명의 제 1계층(L1)에서는 패딩을 0으로 한다.

아울러, 스트라이드(Stride)를 수행할 수도 있다. 스트라이드는 필터가 적용되는 위치의 간격을 의미하는 바, 스트라이드가 1일 수도 있고, 2일수도 있다.

예를 들어, 아래 도면과 같이, 1인 경우에는 필터를 적용하는 윈도우가 한 칸씩 이동하고, 2인 경우에는 두칸씩 이동한다.

본 발명의 제 1계층(L1)에서는 스트라이드를 2로 설정한다.

이와 같이 제 1계층(L1)을 수행한 후, 제 2계층(L2)을 수행한다.

즉, 204*204*128 크기의 특징맵을 3*3 필터(Filter)를 적용하여 한 번 더 특징맵(Feature maps)을 생성한다. 이때 패딩은 1로 하고, 스트라이드도 1로 설정한다.

제 2계층(L2)을 수행한 후, 맥스 풀링(Max pooling)을 실시하는 제 3계층(L3)을 수행한다.

풀링은 패딩과 스트라이드처럼 데이터의 공간적 크기를 축소하기 위하여 사용된다. 이러한 풀링은 출력 데이터의 크기를 입력 데이터의 크기 그대로 유지하고, 풀링층에서만 크기를 조절함으로써 이미지내의 위치 변경에 따른 감도를 낮춰 이전층의 미세한 평행이동이 다음 층에 영향을 미치지 않도록 하는 기능을 수행한다.

즉, 상기에 도시된 바와 같이, 풀링층은 세분화된 층, 예를 들면 4*4칸에 들어 있는 값에서 특정값을 가져오거나 평균값을 가져올 때 4*4에 들어 있는 일부 숫자가 변하더라도 가장 큰 값을 가져오기 때문에 이전 층에서 생긴 미세한 변화는 다음층에 영향을 미치지 않는다.

이때, 풀링층은 이전 층 노드의 국소적인 부분을 통합하게 된다. 특히 국소적인 부분의 최대값을 취하는 처리를 맥스풀링이라고 한다.

또한, 풀링층에서는 풀링의 윈도우 크기와 스트라이드값은 동일한 값으로 설정한다.

본 3계층에서는 팩스 풀링을 2*2 크기로 실시함으로써 102*102*128 크기의 이미지 데이터를 얻는다.

이와 같이 제 3계층(L3)을 수행한 후, 제 4계층(L4)을 수행한다.

즉, 102*102*128 크기의 특징맵을 4*4 필터(Filter)를 적용하여 한 번 더 특징맵(Feature maps)을 생성한다. 이때 패딩은 0으로 하고, 스트라이드는 2로 설정한다. 따라서, 50*50*256 크기의 특징맵을 생성하게 된다.

제 4계층(L4)을 수행한 후, 제 5계층(L5)을 수행하는 바, 50*50*256 크기의 특징맵을 3*3 필터(Filter)를 적용하여 한 번 더 특징맵(Feature maps)을 생성한다. 이때 패딩은 1로 하고, 스트라이드도 1로 설정한다.

따라서, 50*50*256 크기의 특징맵을 생성하게 된다.

이와 같이 제 5계층(L5)을 수행한 후, 팩스 풀링을 실시함으로써 제 6계층(L6)을 수행한다.

즉, 50*50*256 크기의 특징맵을 2*2 크기로 맥스 풀링을 실시함으로써 25*25*256 크기의 이미지 데이터를 얻는다.

그리고, 상기 25*25*256 크기의 이미지 데이터를 압축하여 출력값으로 도출한다. 이때 출력값은 약 336kb의 크기로 출력되나 이에 한정되지는 않고 데이터의 종류에 따라 적절하게 출력될 수 있다.

상기에서는 모바일 디바이스(3)에서 6개의 계층을 수행하는 것으로 설명하였지만, 본 발명은 이에 한정되는 것은 아니고 모바일 디바이스(3)의 성능에 따라서 적절하게 변경가능하다.

이와 같이 모바일 디바이스(3)에서 제 1 내지 제 6계층(L1-L6)을 수행함으로써 도출될 출력값은 서버(5)로 전송하여 제 7 내지 제 12계층(L7-L12)을 수행하게 된다.

상기 서버(5)는, 모바일 디바이스(3)로부터 전송받은 컨벌루션 인공신경망 하위 계층의 출력값을 입력 이미지의 주된 방향으로 결정하여 회전 불변의 특징을 재생성하는 제 1모듈(M1)과; 컨텐츠 제공자로부터 전송된 이미지 타겟을 인공 신경망에 의하여 처리하는 제 2모듈(M2)과; 제 2모듈(M2)에서 전송된 하위 계층 정보를 Fully-connected 결합함으로 특징 서술자 계층에서 얻은 정보를 검색기(7)에 등록하는 제 3모듈(M3)과; 모바일 디바이스(3)의 제 1모듈(M1)에서 전송된 하위 계층 정보를 완전 연결함으로써 특징 서술자 계층에서 얻은 정보를 검색기(7)로 전송하여 검색을 실시하는 제 4모듈(M4)과; 최근접 타켓의 유사도와 문턱값을 비교하여 타겟 검색 성공여부를 판단하는 제 5모듈(M5)과; 그리고 일반적 이미지 및 영상의 형태를 인식하기 위한 검색기(7) 계층의 입력값을 얻는 제 6모듈(M6)을 포함한다.

이러한 구조를 갖는 서버(5)에 있어서, 제 1모듈(M1)은 제 7 내지 제 12계층(L7-L12)을 수행한다.

즉, 모바일 디바이스(3)에서 전송된 데이터가 서버(5)에 수신되면, 제 7계층(L7)이 수행되는 바, 25*25*256 크기의 특징맵을 3*3 필터(Filter)를 적용하여 한 번 더 특징맵(Feature maps)을 생성한다. 이때 패딩은 0으로 하고, 스트라이드는 2로 설정한다.

따라서, 12*12*512 크기의 특징맵을 생성하게 된다.

이와 같이 제 7계층(L7)을 수행한 후, 제 8계층(L8)을 수행하는 바, 12*12*512 크기의 특징맵을 3*3 필터(Filter)를 적용하여 한 번 더 특징맵(Feature maps)을 생성한다. 이때 패딩은 1로 하고, 스트라이드도 1로 설정한다.

따라서, 12*12*512 크기의 특징맵을 생성하게 된다.

그리고, 제 9계층(L9)에서는 8계층(L8)과 같은 과정을 한 번 더 반복하게 된다.

즉, 12*12*512 크기의 특징맵을 3*3 필터(Filter)를 적용하여 특징맵(Feature maps)을 생성하되, 패딩은 1로 하고, 스트라이드도 1로 설정한다.

따라서, 12*12*512 크기의 특징맵을 생성하게 된다.

제 9계층(L9)의 완료 후, 맥스 풀링을 하는 제 10계층(L10)을 수행하게 된다.

즉, 12*12*512 크기의 특징맵을 2*2 크기로 맥스 풀링을 실시함으로써 6*6*512 크기의 이미지 데이터를 얻는다.

이와 같이 제 1모듈(M1)에 의하여 제 1 내지 제 10계층(L1-L10)을 수행한 후, 제 2모듈(M2)에 의하여 제 11계층(L11)에서 완전 연결층을 생성하게 된다.

즉, 완전 연결층은 앞층 노드와 본 층의 노드가 모두 웨이트로 연결되어 있는 층을 의미한다. 이때 노드값은 연결가중치와 활성화 함수로 연산될 수 있다.

완전 연결층은 웨이트로 노드와 노드를 연결하고 조합하므로 이 층을 처리하려면 계산량이 증가하는 바, 노드 개수가 많은 층에서는 연산에 시간이 오래 걸린다. 이러한 완전 연결층은 은닉층 후반 또는 출력층에 주로 사용된다.

이와 같이 제 11계층(L11)에서 1차로 완전 연결층을 생성한 후, 제 12계층(L12)에서 완전 연결층을 추가적으로 생성할 수 있다.

그리고, 제 12계층(L12)에서 완전 연결층을 생성한 후, 소프트 맥스(Softmax)를 통하여 출력값을 분류하게 된다.

소프트 맥스는 주로 출력 노드(output Node)에서 분류(classification)할 때 사용된다. 즉, 여러 개의 시그모이드 값을 모두 합산한 후 노말라이징( normalize)한 확률로 계산한 것이다. 이는 Logistic Regression을 2개 이상의 multiple categorical variable 로 확장 시키고자 함이다. 즉 k개의 카테고리 변수에 대한 분류에서 어떤 카테고리에 속할지에 해당하는 “확률 값”을 계산한다.

이와 같이 제 12계층(L12)에서는 소프트 맥스를 통하여 출력된 레이어의 출력값을 최종적으로 분류함으로써 일반 사물 인식을 수행하게 된다.

한편, 상기한 바와 같이 모바일 디바이스(3)의 하위계층(1-6계층)과, 서버(5)에서의 중,상위계층(7-12계층)의 출력값을 통하여 일반 사물 인식을 수행하는 바,

본 발명은 제 2모듈(M2)에 의하여 일반 사물인식 뿐만 아니라 특정 사물 인식도 동일 과정에서 처리할 수 있다.

이러한 특정 사물 인식 과정은 도 5에 도시되는 바, 컨텐츠 제공자가 웹서버(5)에 이미지를 등록하게 된다.

도시된 바와 같이, 제 2모듈(M2)은 웹서버(5)에 장착됨으로써 모바일 디바이스(3)에서 처리되는 하위 계층과, 서버(5)에서 처리되는 중, 상위 계층을 모두 처리하게 된다.

이러한 제 2모듈(M2)은 상기 제 1 내지 제 12계층(L1-L12)을 모두 연속적으로 처리하며 동일한 과정이므로 이하 상세한 설명은 생략한다.

그리고, 상기 제 3모듈(M3)은 최근접 타겟을 KD-Tree 검색기(7)에 등록하게 된다.

즉, 서버(5)측에 관리자 웹을 통하여 이미지 타겟 등록 요청이 있을 경우, 상기 제 12계층(L12)에서 소프트 맥스를 취하기 직전에 FC 레이어의 결과값을 도출하고, 이 결과값을 특정 컨텐츠 타켓으로 KD-Tree 검색기(7)에 등록한다.

상기 KD트리는 바이너리 서치 트리(Binary search tree)를 다차원 공간으로 확장한 것으로써 기본 구조와 알고리즘은 바이너리 서치트리와 유사하지만 트리의 레벨 차원을 교대로 비교하는 특징이 있다.

이러한 k-d tree에서 노드를 검색하는 방법은 주로 두 가지 방법을 사용하는 바, 첫번째가 레인지 서치(range search) 방법으로서 찾고자 하는 키 값의 범위를 정하고 이 범위에 포함되는 노드를 찾게 된다.

두번째는 최근접 서치(nearest neighbour search) 방법으로 주어진 키 값에 가장 근접한 노드를 찾는 것으로 hyper cube를 사용하여 노드의 양쪽으로 공간을 분할해 가면서 찾는 방법이다.

제 4모듈(M4)은 모바일 디바이스(3)의 제 1모듈(M1)에서 전송된 하위 계층 정보를 완전 연결함으로써 제 12계층(L12)의 FC 레이어값을 상기 KD-Tree 검색기(7)에 전송하여 최근접 타켓을 검색하게 된다.

즉, 2개의 완전 연결층중 두번째 완전 연결층에서 하위 계층 정보를 Fully-connected 결합함으로 얻어진 특징 서술자인 16KB(4Byte * 4096)의 특징 정보를 K-D 트리 구조의 검색기(7)에 전송한다.

제 5모듈(M5)은 K-D 트리 구조의 검색기(7)에서, 컨텐츠 제공자가 등록한 최근접 타켓과 모바일 디바이스(3) 사용자가 전송한 이미지를 서로 비교하여 유사도가 문턱값 이상 혹은 미만인지를 판단하여 성공여부를 판단하게 된다.

즉, KD-Tree 검색기(7)에서는 최근접 타켓의 유사도가 문턱값 이상으로 일치할 경우는 특정 사물 인식과 일치하는 타켓을 검색하는데 성공한 것으로 판단한다.

성공으로 판단한 경우, 해당 이미지에 연결된 동작 수행 정보를 모바일 디바이스(3)에 전송함으로써 해당 동작을 수행할 수 있도록 한다.

반대로, 최근접 타켓의 유사도가 문턱값 미만일 경우에는 제 12계층(L12)의 출력값에 소프트 맥스를 취한 값으로 가장 유사한 카테고리를 선정하게 된다.

만약, 유사한 이미지가 없다고 판별한 경우, 일반적인 사물(이미지)의 형태를 인식하기 위한 검색기(7) 계층의 출력을 얻어 해당하는 일반사물을 판정하고 일반 사물(사람, 달마시안, 장미, 컴퓨터 등)로 추측된 추측값이 임계값 이상인지 판별하여, 임계값 이상인 경우 해당하는 동작 수행 정보를 모바일 디바 이스에 전송한다.

이때, 해당하는 동작 수행 정보를 찾지 못한 경우는 동작없음 상태를 모바일 디바이스(3)에 전송한다.

그리고, 국소영역의 특징을 도출하는 계층에서 얻은 값의 표준편차를 구하여 임계값 이하일 경우 또는 서버(5)로 부터 검색 결과로 응답받은 검색 결과가 동작 없음일 경우, 마지막으로 처리한 컨벌루션 인공신경망의 결과값을 임시 저장한 후, 모바일 디바이스(3)의 카메라(10)로부터 새로이 영상을 취득하여 이전 프레임의 처리 결과와 임계값 이상의 차이가 없을 경우, 새로이 취득한 해당 프레임 데이터는 무시하게 된다.

제 6모듈(M6)은 상기 타켓과 연결된 컨텐츠를 재생하는 바, 컨텐츠 제공자가 기 등록한 컨텐츠를 관련 타켓과 연동함으로써 모바일 디바이스(3)상에서 재생하게 된다.

종래의 특정 사물 인식 기술을 이용하는 경우는, 전단지, 포스터, 제품 패키지 등과 같이 인식할 대상을 사용자가 미리 가지고 있어야 하고, 이를 검색 대상으로 인지하여 모바일 디바이스(3)를 이용하여 검색하는 데 이르는 행동의 흐름이 필요하였으나, 불특정 다수를 대상으로 하는 광고 영역에서는 이는 접근성의 제약이 되는 문제점이 있었다.

또한 제품을 구매는 하지 않았더라도 적어도 지금 손에 들고 있고, 인쇄된 안내 등을 통해 해당 제품이 본 시스템에서 검색할 수 있도록 등록되어 있다는 언급이 있어야 했다.

그러나, 본 발명은 이러한 기존의 방식에 더하여 “일반 사물 인식”을 이용하여 반드시 해당 제품은 아니지만 동일한 범주에 속한 유사 제품에 대해서도 콘텐츠를 제공할 수 있도록 하여 보다 많은 사용자에게 콘텐츠를 제공할 수 있다.

또한, 경우에 따라 특정한 대상을 상대로 콘텐츠를 제공할 수 있는 바, 특히, 잡지나 어학 교재등 제품을 구입한 사용자를 특정하여 콘텐츠를 제공하는 경우, 종래의 일반 사물 인식 기술로는 이를 구현할 수 없어서 QR코드를 사용한다던지, 사용자에게 쿠폰 번호를 제공하였으나, 특정 사물 인식 기술을 통해 제품 구매자만 접근할 수 있는 페이지 또는 판매 과정에서 인쇄물을 전달하는 방법 등으로 해결할 수 있다.

한편, 모바일 디바이스(3)는 위치정보를 취득할 수 있는 경우, 예를 들면 사용자가 권한을 허용하였고 동시에 GPS 위성신호를 취득하거나 Beacon 또는 Wifi 로부터 위치 정보를 추측할 수 있는 정보를 수신할 수 있는 상태인 경우, 검색 요청 정보의 부가정보로서 위치정보를 서버(5)로 보낼 수 있으며, 서버(5)에서는 검색 결과의 동작 수행 정보에 위치 제한 여부를 판별하여 동작 허용 유무를 판정할 수 있다.

이때, 동작 제한인 경우 모바일 디바이스(3)에 인식 결과와 더불어 동작 제한 정보를 같이 보내어, 모바일 디바이스(3)에서 사용자에게 동작이 제한되었음을 표시한다.

이하, 본 발명의 바람직한 실시예에 따른 인공 신경망 시스템에 의하여 이미지 및 영상을 인식하는 방법에 대하여 더욱 상세하게 설명한다.

본 발명이 제공하는 인공 신경망 기반 인식 방법은,

컨텐츠 제공자가 이미지 타겟 및 컨텐츠를 서버(5)의 K-D 트리 구조의 검색기(7)에 등록하는 제 1단계(S10); 모바일 디바이스(3) 사용자가 제 1단계(S10)에서 등록된 컨텐츠를 제공받기 위하여 카메라(10)로 대상물을 촬영하고, 상기 모바일 디바이스(3)가 획득된 이미지 및 영상 데이터를 컨벌류션 인공 신경망의 하위계층인 L1 내지 L6계층에 의하여 처리하는 제 2단계(S20)와; 제 2단계(S20)에서 처리된 데이터를 서버(5)가 전송받아서 상기 컨벌류션 인공 신경망의 중, 상위 계층인 L7 내지 L12계층에 의하여 처리함으로써 상기 획득된 이미지 및 영상 데이터의 주된 방향으로 결정하여 회전 불변의 특징을 재생성하는 제 3단계(S30)와; 제 2단계(S20)에서 처리된 데이터 중 상기 컨벌류션 인공 신경망의 완전 연결층의 FC 레이어값을 서버(5)의 K-D 트리 검색기(7)에 전송하여 검색함으로써 컨텐츠 제공자가 등록한 최근접 타켓을 검색하는 제 4단계(S40)와; 최근접 타켓의 유사도와 문턱값을 비교하여 타겟 검색 성공여부를 판단하는 제 5단계(S50)와; 그리고 타켓과 컨텐츠 결합 정보를 모바일 디바이스(3)로 전송하여 검색한 대상에 연결된 컨텐츠를 재생하는 제 6단계(S60)를 포함한다.

상기한 순서로 구성된 이미지 및 영상 인식방법에 있어서, 제 1단계(S10)에서는 컨텐츠 제공자가 이미지 타겟 및 컨텐츠를 웹서버(5)의 K-D 트리 구조의 검색기(7)에 등록하게 된다.

이러한 제 1단계(S10)에서는, 웹서버(5)에서 이미지 데이터를 준비하고, 데이터에 필터를 적용하고, 패딩 및 스트라이드를 실시하여 특징맵들을 생성하는 계층이 적어도 하나 이상 진행되고, 맥스 풀링(Max pooling)을 적어도 1회 이상 실시하며, 맥스 풀링된 데이터에 필터를 적용하고, 패딩 및 스트라이드를 실시하여 특징맵들을 생성하는 계층이 추가로 실시된다.

보다 상세하게 설명하면, 먼저 웹서버(5)에서, 이미지 데이터를 입력하며, 예를 들면 410*410 픽셀(Pixel)에 채널이 합해진 3차원 이미지 데이터를 준비한다.

그리고, 제 1계층(L1)을 수행하는 바, 4*4 필터(Filter)를 적용하여 디멘션(Dimension)을 204*204*128 크기로 축소하여 특징맵(Feature maps)들을 생성한다.

이와 같이 4*4인 입력데이터가 패딩이 추가되어 6*6이 되고, 3*3 크기의 필터를 적용하면 4*4크기의 출력데이터가 생성된다. 본 발명의 제 1계층(L1)에서는 패딩을 0으로 한다.

아울러, 스트라이드(Stride)를 수행할 수도 있다. 스트라이드는 필터가 적용되는 위치의 간격을 의미하는 바, 스트라이드가 1일 수도 있고, 2일수도 있다. 본 발명의 제 1계층(L1)에서는 스트라이드를 2로 설정한다.

제 4계층(L4)을 수행한 후, 제 5계층(L5)을 수행하는 바, 50*50*256 크기의 특징맵을 3*3 필터(Filter)를 적용하여 한 번 더 특징맵(Feature maps)을 생성한다. 이때 패딩은 1로 하고, 스트라이드도 1로 설정한다. 따라서, 50*50*256 크기의 특징맵을 생성하게 된다.

그리고, 제 7계층(L7)에서는 25*25*256 크기의 특징맵을 3*3 필터(Filter)를 적용하여 한 번 더 특징맵(Feature maps)을 생성한다. 이때 패딩은 0으로 하고, 스트라이드는 2로 설정한다.

따라서, 12*12*512 크기의 특징맵을 생성하게 된다.

그리고, 제 9계층(L9)에서는 8계층과 같은 과정을 한 번 더 반복하게 된다.

따라서, 12*12*512 크기의 특징맵을 생성하게 된다.

이와 같이 제 10계층(L10)을 수행한 후, 제 11계층(L11)에서 완전 연결층을 생성하게 된다.

그리고, 1차로 완전 연결층을 생성한 후, 제 12계층(L12)에서 완전 연결층을 추가적으로 생성할 수 있다.

그리고, 2차 완전 연결층의 FC 레이어값을 웹서버(5)의 메모리(14)상에 저장된 K-D 트리 구조의 검색기(7)에 저장함으로써 등록한다.

이와 같이 컨텐츠 제공자가 이미지 및 영상을 웹서버(5)의 K-D 트리 구조의 검색기(7)에 등록하는 제 1단계(S10)가 완료되면, 일반 수요자는 소지하고 있는 모바일 디바이스(3)의 카메라(10)로 대상물을 촬영함으로써 해당 대상물을 인식하고 해당 컨텐츠를 제공받는 제 2 내지 6단계(S20-S60)가 순서대로 진행될 수 있다.

먼저 제 2단계(S20)에서는, 모바일 디바이스(3) 사용자가 카메라(10)로 대상물을 촬영하고(S21), 획득된 이미지 및 영상 데이터를 컨벌류션 인공 신경망의 하위 계층(L1-L6)에 의하여 처리한다(S22)(S23).

이러한 제 2단계(S20)의 하위 계층 처리 과정은 모바일 디바이스(3)에서 진행되는 점을 제외하고는 제 1단계(S10)의 하위 계층 처리과정과 동일하게 진행된다.

즉, 모바일 디바이스(3)에 장착된 카메라(10)로 대상물을 촬영함으로써 이미지 데이터를 획득한다(S21).

그리고, 이미지 데이터를 이용하여 제 1계층(L1)에서 필터(Filter)를 적용하여 특징맵(Feature maps)들을 생성하고, 패딩을 실시하고, 스트라이드를 수행하고,제 2계층(L2)에서 필터를 적용하여 한 번 더 특징맵(Feature maps)을 생성하고, 패딩 및 스트라이드를 실시한다.

그리고, 제 3계층(L3)에서 맥스 풀링(Max pooling)을 실시하고, 제 4계층(L4)에서는 한 번 더 특징맵(Feature maps)을 생성하고, 패딩 및 스트라이드를 실시한다.

또한 제 5계층(L5)에서도 동일하게 특징맵을 생성하되. 패딩 및 스트라이드를 실시한다. 그리고, 제 6계층(L6)에서는 팩스 풀링을 실시하고 패딩 및 스트라이드를 실시한다.

이와 같이 제 2단계(S20)를 완료한 후, 제 3단계(S30)가 진행된다.

제 3단계(S30)에서는 제 2단계(S20)의 모바일 디바이스(3)에서 처리된 데이터가 서버(5)에 전송되어 중, 상위 계층에 의하여 처리한다. 이때, 서버(5)에서 처리되는 중, 상위 계층의 처리과정은 상기 제 1단계(S10)에서 컨텐츠 제공자가 서버(5)에 이미지를 등록하는 과정의 상위 계층과 동일하다.

즉, 제 7계층(L7)에서는 특징맵을 필터를 적용하여 한 번 더 특징맵(Feature maps)을 생성한다. 이때 패딩 및 스트라이드를 실시한다.

이와 같이 제 7계층(L7)을 수행한 후, 제 8계층(L8)을 수행하는 바, 특징맵을필터를 적용하여 한 번 더 특징맵을 생성한다. 이때 패딩 및 스트라이드도 실시한다.

그리고, 제 9계층(L9)에서도 제 8계층(L8)과 동일한 과정을 반복함으로써 특징맵을 생성하게 된다.

제 10계층(L10)에서는 맥스 풀링을 실시하고, 제 11계층(L11)에서 1차 완전 연결층을 생성하고, 제 12계층(L12)에서 2차 완전 연결층을 생성하게 된다.

그리고, 제 12계층(L12)에서 완전 연결층을 생성한 후, 소프트 맥스(Softmax)를 통하여 출력값을 분류함으로써 일반 사물 인식을 수행하게 된다.

제 3단계(S30)가 완료된 후, 제 4단계(S40)가 진행되는 바, 제 12계층(L12)의 FC 레이어값을 메모리(14)상에 탑재된 K-D 트리 검색기(7)에 전송하여(S32) 검색함으로써 컨텐츠 제공자가 등록한 최근접 타켓을 검색하게 된다(S41).

제 4단계(S40)가 완료된 후, 제 5단계(S50)가 진행된다.

제 5단계(S50)에서는 K-D 트리 검색기(7)에 입력된 이미지의 FC 레이어값과 컨텐츠 제공자가 기 등록한 최근접 타켓의 유사도를 비교하게 된다(S51).

최근접 타켓의 유사도가 문턱값 이상으로 일치할 경우는 특정 사물 인식과 일치하는 타켓을 검색하는데 성공한 것으로 판단한다(S61).

반대로, 최근접 타켓의 유사도가 문턱값 미만일 경우에는 제 3단계(S30)의 제 12계층(L12)의 출력값에 소프트 맥스를 취한 값으로 가장 유사한 카테고리를 선정하게 된다(S52).

선정된 카테고리의 유사도와 문턱값을 비교한 결과(S53), 유사도가 문턱값 이상인 경우 컨텐츠 메타 데이터를 검색, 재생하고(S61), 유사도가 문턱값 이하인 경우 카메라(10)에 의하여 새로운 이미지를 취득하게 된다(S54).

즉, 유사한 이미지가 없다고 판별한 경우, 일반적인 사물(이미지)의 형태를 인식하기 위한 검색기(7) 계층의 출력을 얻어 해당하는 일반사물을 판정하고 일반 사물(사람, 달마시안, 장미, 컴퓨터 등)로 추측된 추측값이 임계값 이상인지 판별하여, 임계값 이상인 경우 해당하는 동작 수행 정보를 모바일 디바 이스에 전송한다.

이와 같이 제 5단계(S50)가 완료된 후, 제6단계가 진행된다.

제 6단계(S60)에서는 상기 타켓과 연결된 컨텐츠를 재생하는 과정이 진행되는 바, 컨텐츠 제공자가 기 등록한 컨텐츠를 관련 타켓과 연동함으로써 모바일 디바이스(3)상에서 재생하게 된다.

본 발명은 컨벌루션 인공 신경망 기반 인식 시스템에 관한 것으로서, 보다 상세하게는 모바일 디바이스에 탑재된 카메라로부터 입력받은 영상에서 검색을 위한 정보를 도출하고, 컨벌루션 인공신경망을 기반으로 하여 데이터 학습을 통한 사물을 판별하고, 컨벌루션 인공신경망을 기반으로 하여 사전에 등록된 데이터의 디지털 지문을 생성하고, 컨벌루션 인공신경망 또는 인메모리 트리 검색 기술을 통해 대상을 검색하고, 타겟과 콘텐츠의 결합 정보를 모바일 디바이스로 전송하여 검색한 대상에 연결된 콘텐츠를 재생하는 기술분야에 이용 가능하다.

Claims

컨텐츠 제공자가 이미지 타겟 및 컨텐츠를 서버(5)의 K-D 트리 구조의 검색기(7)에 등록하는 제 1단계(S10);

모바일 디바이스(3) 사용자가 제 1단계(S10)에서 등록된 컨텐츠를 제공받기 위하여 카메라(10)로 대상물을 촬영하고, 상기 모바일 디바이스(3)가 획득된 이미지 및 영상 데이터를 컨벌류션 인공 신경망의 하위계층인 L1 내지 L6계층에 의하여 처리하는 제 2단계(S20)와;

제 2단계(S20)에서 처리된 데이터를 서버(5)가 전송받아서 상기 컨벌류션 인공 신경망의 중, 상위 계층인 L7 내지 L12계층에 의하여 처리함으로써 상기 획득된 이미지 및 영상 데이터의 주된 방향으로 결정하여 회전 불변의 특징을 재생성하는 제 3단계(S30)와;

제 3단계(S30)에서 처리된 데이터 중 상기 컨벌류션 인공 신경망의 완전 연결층의 FC 레이어값을 서버(5)의 K-D 트리 검색기(7)에 전송하여 검색함으로써 컨텐츠 제공자가 등록한 최근접 타켓을 검색하는 제 4단계(S40)와;

최근접 타켓의 유사도와 문턱값을 비교하여 타겟 검색 성공여부를 판단하는 제 5단계(S50)와; 그리고

타켓과 컨텐츠 결합 정보를 모바일 디바이스(3)로 전송하여 검색한 대상에 연결된 컨텐츠를 재생하는 제 6단계(S60)를 포함하는 인공신경망 기반의 인식 방법.
제 1항에 있어서,

제 1단계(S10)에서는, 서버(5)에 포함된 상기 컨벌류션 인공 신경망을 통하여 다수의 계층을 순차적으로 수행함으로써 이미지 타켓 및 컨텐츠가 상기 검색기(7)에 등록되는 바, 상기 다수의 계층은,

서버(5)에서 이미지 데이터를 준비하고, 데이터에 필터를 적용하고, 패딩 및 스트라이드를 실시하여 특징맵들을 생성하는 적어도 하나의 계층과; 맥스 풀링(Max pooling)을 1차로 실시하는 계층과; 맥스 풀링된 데이터에 필터를 적용하고, 패딩 및 스트라이드를 실시하여 특징맵들을 생성하는 적어도 하나의 계층과; 맥스 풀링을 2차로 실시하는 계층과; 맥스 풀링된 데이터에 필터를 적용하고 패딩 및 스트라이드를 실시하여 특징맵들을 생성하는 적어도 하나의 계층과; 맥스 풀링을 3차로 실시하는 계층과; 적어도 하나 이상의 완전 연결층과; 완전 연결층의 FC 레이어값을 웹서버(5)의 메모리(14)상에 저장된 K-D 트리 구조의 검색기(7)에 저장함으로써 등록하는 계층과; 완전 연결층의 출력값에 대하여 소프트 맥스(Softmax)를 통하여 출력값을 분류하는 계층을 포함하는 인공신경망 기반의 인식 방법.
제 1항에 있어서,

제 2단계(S20)에서는, 상기 모바일 디바이스(3)가 상기 컨벌류션 인공 신경망에 의하여 이미지 및 영상 데이터를 처리하는 바, 상기 제 2단계(S20)는, 모바일 디바이스(3)의 카메라(10)에 의하여 이미지 및 영상을 획득하는 단계와; 상기 획득된 이미지 및 영상 데이터에 필터를 적용하고, 패딩 및 스트라이드를 실시하여 특징맵들을 생성하는 적어도 하나의 계층이 진행되는 단계와; 맥스 풀링(Max pooling)을 1차로 실시하는 단계와; 맥스 풀링된 데이터에 필터를 적용하고, 패딩 및 스트라이드를 실시하여 특징맵들을 생성하는 적어도 하나의 계층이 진행되는 단계와; 맥스 풀링을 2차로 실시하는 단계와; 2차로 맥스 풀링된 데이터에 필터를 적용하고 패딩 및 스트라이드를 실시하여 특징맵들을 생성하는 적어도 하나의 계층이 진행되는 단계를 포함함으로써 데이터를 서버(5)로 전송하는 것을 특징으로 하는 인공 신경망 기반의 인식 방법.
제 3항에 있어서,

제 3단계(S30)에서는, 상기 컨벌류션 인공 신경망에 의하여 회전불변의 재생성을 처리하는 바, 제 3단계(S30)는, 모바일 디바이스(3)에서 서버(5)로 전송된 데이터에 필터를 적용하고 패딩 및 스트라이드를 실시하여 특징맵을 생성하는 단계와; 맥스 풀링을 3차로 실시하는 계층이 진행되는 단계와; 적어도 하나 이상의 완전 연결층이 진행되는 단계와; 완전 연결층의 출력값에 대하여 소프트 맥스(Softmax)를 통하여 출력값을 분류하는 단계를 포함하는 인공 신경망 기반의 인식 방법.
제 1항에 있어서,

제 5단계(S50)에서는, 타켓 검색 성공여부 판단시, 최근접 타켓의 유사도가 문턱값 이상으로 일치할 경우는 특정 사물 인식과 일치하는 타켓을 검색하는데 성공한 것으로 판단하고, 최근접 타켓의 유사도가 문턱값 미만일 경우에는 출력값에 소프트 맥스를 취한 값으로 유사한 카테고리를 선정하는 인공 신경망 기반의 인식 방법.
제 5항에 있어서,

제 5단계(S50)에서, 타켓 검색 성공 여부 판단시, 선정된 카테고리의 유사도와 문턱값을 비교한 결과, 유사도가 문턱값 이상인 경우 컨텐츠 메타 데이터를 검색, 재생하고, 유사도가 문턱값 이하인 경우 카메라(10)의 의하여 새로운 이미지를 취득하는 것을 특징으로 하는 인공 신경망 기반의 인식 방법.
하위 계층의 분석을 수행하고, 사용자의 질의 사항을 서버(5)로 전송 및 수신하여 관리하는 모바일 디바이스(3)와;

모바일 디바이스(3)와 네트워크를 통하여 연결되며, 컨벌류션 인공 신경망의 중위 및 상위 계층에 해당하는 신경망의 각 층에서 데이터 처리를 수행하고 특정한 사물(이미지) 및 영상을 등록, 분석, 검색, 분류하는 서버(5)와; 그리고

컨텐츠 제공자가 등록한 이미지 및 영상의 인공 신경망 처리의 FC 레이어값과, 모바일 디바이스(3)로부터 전송된 이미지 및 영상의 인공 신경망 처리의 FC 레이어값을 비교하는 검색기(7)를 포함하는 인공 신경망 기반 인식 시스템.
제 7항에 있어서,

상기 모바일 디바이스(3)는 영상 및 이미지를 획득하는 카메라(10)와; 상기 카메라(10)에 의하여 획득한 영상 및 이미지 데이터를 처리하는 컨벌류션 인공 신경망의 하위 2계층을 실행하는 하위 계층 처리모듈(12)과; 상기 하위 계층 처리모듈(12)에 의하여 처리된 데이터를 저장하는 메모리(14)와; 이미지를 표시하는 표시창(16)을 포함하는 인공 신경망 기반 인식 시스템.
제 8항에 있어서,

상기 하위 계층 처리모듈(12)은, 상기 카메라(10)에 의하여 획득된 데이터에 필터를 적용하고, 패딩 및 스트라이드를 실시하여 특징맵들을 생성하는 적어도 하나의 계층이 진행되고, 맥스 풀링(Max pooling)을 적어도 1회 실시하고, 맥스 풀링된 데이터에 필터를 적용하고, 패딩 및 스트라이드를 실시하여 특징맵들을 생성하는 적어도 하나의 계층이 진행되며, 데이터를 상기 서버(5)로 전송하는 것을 특징으로 하는 인공 신경망 기반 인식 시스템.
제 7항에 있어서,

상기 서버(5)는 상기 모바일 디바이스(3)로부터 전송받은 컨벌루션 인공신경망 하위 계층의 출력값을 입력 이미지의 주된 방향으로 결정하여 회전 불변의 특징을 재생성하는 제 1모듈(M1)과;

상기 컨텐츠 제공자로부터 전송된 이미지 타겟을 인공 신경망에 의하여 처리하는 제 2모듈(M2)과;

제 2모듈(M2)에서 전송된 하위 계층 정보를 Fully-connected 결합함으로 특징 서술자 계층에서 얻은 정보를 검색기(7)에 등록하는 제 3모듈(M3)과;

모바일 디바이스(3)의 제 1모듈(M1)에서 전송된 하위 계층 정보를 완전 연결함으로써 특징 서술자 계층에서 얻은 정보를 상기 검색기(7)로 전송하여 검색을 실시하는 제 4모듈(M4)과;

최근접 타켓의 유사도와 문턱값을 비교하여 타겟 검색 성공여부를 판단하는 제 5모듈(M5)과; 그리고

일반적 이미지 및 영상의 형태를 인식하기 위한 검색기(7) 계층의 입력값을 얻는 제 6모듈(M6)을 포함하는 인공 신경망 기반 인식 시스템.
제 10항에 있어서,

상기 제 1모듈(M1)은, 상기 모바일 디바이스(3)에서 상기 서버(5)로 전송된 데이터에 필터를 적용하고 패딩 및 스트라이드를 실시하여 특징맵을 생성하고, 맥스 풀링을 실시하며, 적어도 하나 이상의 완전 연결층이 진행되고, 완전 연결층의 출력값에 대하여 소프트 맥스(Softmax)를 통하여 출력값을 분류하는 것을 특징으로 하는 인공 신경망 기반 인식 시스템.
제 10항에 있어서,

상기 제 3모듈(M3)은, 완전 연결층의 FC 레이어값을 웹서버(5)의 메모리(14)상에 저장된 K-D 트리 구조의 검색기(7)에 전송함으로써 컨텐츠 제공자가 등록한 최근접 타켓을 등록하는 것을 특징으로 하는 인공 신경망 기반 인식 시스템.
제 11항에 있어서,

상기 제 5모듈(M5)은, 최근접 타켓의 유사도가 문턱값 이상으로 일치할 경우는 특정 사물 인식과 일치하는 타켓을 검색하는데 성공한 것으로 판단하고, 최근접 타켓의 유사도가 문턱값 미만일 경우에는 완전 연결층의 출력값에 소프트 맥스를 취한 값으로 유사한 카테고리를 선정하며,

선정된 카테고리의 유사도와 문턱값을 비교한 결과, 유사도가 문턱값 이상인 경우 컨텐츠 메타 데이터를 검색, 재생하고, 유사도가 문턱값 이하인 경우 상기 카메라(10)의 의하여 새로운 이미지를 취득하는 것을 특징으로 하는 인공 신경망 기반 인식시스템.
제 10항에 있어서,

상기 제 6모듈(M6)은 상기 타켓과 연결된 컨텐츠를 재생하는 바, 컨텐츠 제공자가 기 등록한 컨텐츠를 관련 타켓과 연동함으로써 상기 모바일 디바이스(3)상에서 재생하는 것을 특징으로 하는 인공 신경망 기반 인식 시스템.