KR102504607B1 - Multidimensional visualization system using deep learning object detection ratio and filtering technology and the method using the same - Google Patents

Multidimensional visualization system using deep learning object detection ratio and filtering technology and the method using the same Download PDF

Info

Publication number
KR102504607B1
KR102504607B1 KR1020200151404A KR20200151404A KR102504607B1 KR 102504607 B1 KR102504607 B1 KR 102504607B1 KR 1020200151404 A KR1020200151404 A KR 1020200151404A KR 20200151404 A KR20200151404 A KR 20200151404A KR 102504607 B1 KR102504607 B1 KR 102504607B1
Authority
KR
South Korea
Prior art keywords
image
bounding box
server
deep learning
area
Prior art date
Application number
KR1020200151404A
Other languages
Korean (ko)
Other versions
KR20220064846A (en
Inventor
황상곤
임대현
김동완
Original Assignee
주식회사 에이직스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 에이직스 filed Critical 주식회사 에이직스
Priority to KR1020200151404A priority Critical patent/KR102504607B1/en
Publication of KR20220064846A publication Critical patent/KR20220064846A/en
Application granted granted Critical
Publication of KR102504607B1 publication Critical patent/KR102504607B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/235Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on user input or interaction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

본 발명은 이미지 객체인식을 활용하여 다중 객체를 검출하고, 이에 따른 검출 필터링 기술을 도입한 뒤 유격된 군집화를 해결하여 시각화 할 수 있는 딥러닝 기반의 객체인식을 활용한 이미지 시각화 시스템 및 방법에 관한 것으로, a) 분류하기 위해 입력받은 이미지를 서버로 전송하는 단계, b) 상기 서버에서 상기 이미지에 포함되는 객체를 검출하는 단계, c) 상기 b) 단계에서 검출된 객체들의 바운딩 박스(bounding box) 정보를 추출하는 단계, d) 상기 c) 단계에서 추출된 객체별 바운딩 박스의 면적을 구하고, 상기 바운딩 박스와 상기 이미지의 면적비율을 계산하는 단계, e) 상기 d) 단계에서 계산된 면적비율이 가장 큰 객체를 선택하고, 선택된 객체로부터 합성곱 신경망을 통해 특징맵을 추출하는 단계, f) 상기 e) 단계에서 추출된 특징맵들을 T-SNE(T-Stochastic Neighbor Embedding) 알고리즘을 통해 이미지를 군집화하는 단계 및 g) 상기 f) 단계에서 군집화된 이미지 좌표들을 시각화하는 단계를 포함하는 것을 특징으로 한다.The present invention relates to an image visualization system and method using deep learning-based object recognition that can detect multiple objects using image object recognition, introduce detection filtering technology accordingly, and then solve and visualize spaced clustering. a) transmitting the input image to the server for classification, b) detecting objects included in the image in the server, c) bounding boxes of the objects detected in step b) extracting information; d) obtaining the area of the bounding box for each object extracted in step c) and calculating the area ratio between the bounding box and the image; e) the area ratio calculated in step d) Selecting the largest object and extracting a feature map from the selected object through a convolutional neural network, f) Clustering the feature maps extracted in step e) through T-SNE (T-Stochastic Neighbor Embedding) algorithm and g) visualizing the image coordinates clustered in step f).

Description

딥러닝 객체 검출 비율 및 필터링 기술을 활용한 다차원 시각화 시스템 및 방법{Multidimensional visualization system using deep learning object detection ratio and filtering technology and the method using the same}Multidimensional visualization system using deep learning object detection ratio and filtering technology and the method using the same}

본 발명은 딥러닝 기반의 객체인식을 활용한 다중 객체 검출 비율 및 필터링 기술을 적용한 다차원 시각화 시스템 및 방법에 관한 것으로, 구체적으로는 이미지 데이터에 딥러닝 객체인식을 활용하여 Bounding Box를 검출하고, 검출된 영역의 특징을 추출하여 필터링한 후 이를 확률적 분포 알고리즘에 적용시켜 시각화하는 것을 특징으로 하는, 딥러닝 기반의 객체인식을 활용한 다차원 이미지 시각화 시스템 및 방법에 관한 것이다. The present invention relates to a multi-dimensional visualization system and method to which multi-object detection ratio and filtering technology using deep learning-based object recognition are applied. It relates to a multidimensional image visualization system and method using deep learning-based object recognition, which is characterized by extracting and filtering the features of a degraded area and then applying it to a probabilistic distribution algorithm to visualize.

최근 들어 데이터의 표현과 수용 방식이 급격히 변화되고 있는 상황이지만, 대부분의 보편적인 시각화 솔루션 또는 어플리케이션 모델의 경우 차트 및 텍스트 기반의 정보만을 활용하여 시각화 서비스를 제공하고 있다.Recently, the way of expressing and accepting data is rapidly changing, but in the case of most general visualization solutions or application models, visualization services are provided using only chart and text-based information.

이에 따라, 비정형 데이터 중 활발한 연구가 진행되고 있는 이미지 분석 기법을 기반으로 새로운 표현 방식이 적용된 서비스 모델 제공의 필요성이 대두되고 있다.Accordingly, the necessity of providing a service model to which a new expression method is applied is emerging based on an image analysis technique, which is actively researched among unstructured data.

따라서 이미지 분류에 따른 다양한 시각화 표현을 위해, 자동 분류 및 필터링 기술의 필요성을 파악하고, 확률분포 및 연관 관계를 활용하여 새로운 개념의 다차원 공간 시각화 서비스 모델의 개발이 필요한 시점이다. Therefore, it is time to identify the need for automatic classification and filtering technology for various visualizations according to image classification, and to develop a new concept multidimensional space visualization service model by utilizing probability distribution and correlation.

이미지의 자동 분류를 위해 다양한 딥러닝 객체인식 기술을 활용하여, 이미지 데이터로부터 각각의 객체들을 분류하는 모델을 생성하고 데이터의 특징을 추출하여 벡터로 표현하여야 한다.For automatic classification of images, various deep learning object recognition technologies should be used to create a model that classifies each object from image data, extract features of the data, and express them as vectors.

또한, 추출된 고차원의 벡터 정보를 시각화하여 표현하기 위해 각각의 특징을 저차원으로 투영하여 군집화 할 수 있는 확률적 분포 알고리즘을 활용하는 방법이 요구되고 있다.In addition, in order to visualize and express the extracted high-dimensional vector information, a method using a probabilistic distribution algorithm capable of clustering by projecting each feature to a low-dimensional is required.

“실시간 수치데이터의 이미지 기반 시각화 방식에 대한 연구”(조은희, 김현욱, 류한영, 디지털디자인학연구 제11권 제4호, 2011.10.)“Research on image-based visualization of real-time numerical data” (Eunhee Cho, Hyunwook Kim, Hanyoung Ryu, Digital Design Studies Vol. 11, No. 4, 2011.10.)

본 발명은 상기한 바와 같은 문제점을 해결하기 위해 안출된 것으로, 고차원 데이터의 차원 축소를 통해 새로운 시각화 서비스를 제공하는 것을 목적으로 한다. The present invention has been made to solve the above problems, and an object of the present invention is to provide a new visualization service through dimensionality reduction of high-dimensional data.

또한 본 발명은 이미지 데이터에 딥러닝 객체인식을 활용하여 다중 객체를 검출하고, 검출된 각 객체의 Bounding Box를 생성하며, 이로부터 선별된 객체의 특징을 추출하여 필터링한 후 이를 확률적 분포 알고리즘에 적용시켜 시각화하는 것을 목적으로 한다. In addition, the present invention detects multiple objects by utilizing deep learning object recognition in image data, creates a bounding box for each detected object, extracts and filters the characteristics of the selected object from it, and then applies it to a probabilistic distribution algorithm. It aims to apply and visualize.

상기한 바와 같은 문제점을 해결하기 위하여, 본 발명은 a) 분류하기 위해 입력받은 이미지를 서버로 전송하는 단계, b) 상기 서버에서 상기 이미지에 포함되는 객체를 검출하는 단계, c) 상기 b) 단계에서 검출된 객체들의 바운딩 박스(bounding box) 정보를 추출하는 단계, d) 상기 c) 단계에서 추출된 객체별 바운딩 박스의 면적을 구하고, 상기 바운딩 박스와 상기 이미지의 면적비율을 계산하는 단계, e) 상기 d) 단계에서 계산된 면적비율이 가장 큰 객체를 선택하고, 선택된 객체로부터 합성곱 신경망을 통해 특징맵을 추출하는 단계, f) 상기 e) 단계에서 추출된 특징맵들을 T-SNE(T-Stochastic Neighbor Embedding) 알고리즘을 통해 이미지를 군집화하는 단계 및 g) 상기 f) 단계에서 군집화된 이미지 좌표들을 시각화하는 단계를 포함하는 것을 특징으로 한다.In order to solve the above problems, the present invention is a) transmitting an input image to a server for classification, b) detecting an object included in the image in the server, c) the b) step extracting bounding box information of the objects detected in step d) obtaining the area of the bounding box for each object extracted in step c) and calculating the area ratio between the bounding box and the image; e ) Selecting an object having the largest area ratio calculated in step d) and extracting a feature map from the selected object through a convolutional neural network, f) T-SNE (T -Stochastic Neighbor Embedding) algorithm, and g) visualizing the clustered image coordinates in step f).

또한, 상기 c) 단계의 상기 바운딩 박스는 상기 b) 단계에서 검출된 객체를 둘러싼 직사각형인 것을 특징으로 한다.In addition, the bounding box of step c) may be a rectangle surrounding the object detected in step b).

또한, 상기 c) 단계는 상기 바운딩 박스의 최외곽 꼭지점들의 좌표를 구해, 상기 바운딩 박스의 가로 및 세로 길이를 구하고, 상기 d) 단계는 상기 c) 단계에서 구해진 상기 바운딩 박스의 가로 및 세로 길이를 이용해 각 바운딩 박스의 면적을 연산하는 것을 특징으로 한다.Further, in the step c), the coordinates of the outermost vertices of the bounding box are obtained to obtain the horizontal and vertical lengths of the bounding box, and in the step d), the horizontal and vertical lengths of the bounding box obtained in step c) are obtained. It is characterized in that the area of each bounding box is calculated using

또한, 상기 e) 단계는 선택된 객체를 VGG-16 네트워크에 통과시켜 특징맵을 추출하는 것을 특징으로 한다.In addition, the step e) is characterized in that a feature map is extracted by passing the selected object through a VGG-16 network.

상기한 바와 같은 본 발명의 다양한 실시예에 의한 딥러닝 기반의 객체인식을 활용한 이미지 시각화 시스템 및 방법은, 대량의 다차원 데이터에서 불필요한 특징들을 제거한 데이터를 학습함으로서 군집화 성능을 향상시킬 수 있으며, 군집된 정보들을 시각화 할 수 있는 효과가 있다.As described above, the image visualization system and method using deep learning-based object recognition according to various embodiments of the present invention can improve clustering performance by learning data from which unnecessary features are removed from a large amount of multidimensional data. It has the effect of visualizing the information presented.

또한 본 발명에 의하면, 객체 검출에 따른 이미지 필터링 방법을 활용하여, 미생물, 세포 등의 정밀분석이 필요한 의료산업 시장에 활용이 가능하며, 빅데이터 시대에 부합하는 획기적인 이미지 시각화 인터페이스와 그래픽의 변화를 가져옴으로써, 전자상거래는 물론 온라인 교육 시장 또는 VR을 결합한 문화 시장에도 접근이 기대된다.In addition, according to the present invention, by utilizing the image filtering method according to object detection, it can be used in the medical industry market that requires precise analysis of microorganisms, cells, etc. By bringing it, it is expected to access not only e-commerce, but also the online education market or the cultural market combined with VR.

아울러 본 발명은 오프라인 및 모바일 시장에 적극 대응할 수 있도록 멀티 터치 스크립트를 적용하여 서비스 모델을 개발함으로써, DID 멀티비전을 활용한 사이니지 시장에서의 홍보 및 시장 선점효과를 기대할 수 있다.In addition, the present invention develops a service model by applying a multi-touch script to actively respond to offline and mobile markets, so that promotion in the signage market using DID multi-vision and market preoccupation can be expected.

도 1은 본 발명의 일실시예에 따른 딥러닝 기반의 객체인식을 활용한 이미지 시각화 방법의 순서도이고,
도 2는 본 발명의 일실시예에 따른 딥러닝 기반의 객체인식을 활용한 이미지 시각화 방법의 a) 단계의 개략도이며,
도 3은 본 발명의 일실시예에 따른 딥러닝 기반의 객체인식을 활용한 이미지 시각화 방법의 b) 단계에서 수행하는 Faster R-CNN에 대한 개략도이고,
도 4는 본 발명의 일실시예에 따른 딥러닝 기반의 객체인식을 활용한 이미지 시각화 방법의 b) 단계의 개략도이고,
도 5는 본 발명의 일실시예에 따른 딥러닝 기반의 객체인식을 활용한 이미지 시각화 방법의 c) 단계 및 d) 단계의 개략도이며,
도 6은 본 발명의 일실시예에 따른 딥러닝 기반의 객체인식을 활용한 이미지 시각화 방법의 e) 단계에서 수행하는 VGG-16 알고리즘에 대한 개략도이고,
도 7은 본 발명의 일실시예에 따른 딥러닝 기반의 객체인식을 활용한 이미지 시각화 시스템의 블록도이다.
1 is a flowchart of an image visualization method using deep learning-based object recognition according to an embodiment of the present invention;
2 is a schematic diagram of step a) of an image visualization method using deep learning-based object recognition according to an embodiment of the present invention;
3 is a schematic diagram of Faster R-CNN performed in step b) of an image visualization method using deep learning-based object recognition according to an embodiment of the present invention;
4 is a schematic diagram of step b) of an image visualization method using deep learning-based object recognition according to an embodiment of the present invention;
5 is a schematic diagram of steps c) and d) of an image visualization method using deep learning-based object recognition according to an embodiment of the present invention;
6 is a schematic diagram of a VGG-16 algorithm performed in step e) of an image visualization method using deep learning-based object recognition according to an embodiment of the present invention;
7 is a block diagram of an image visualization system using deep learning-based object recognition according to an embodiment of the present invention.

이하 첨부된 도면을 참고하여 본 발명의 일실시예에 의한 딥러닝 기반의 객체인식을 활용한 이미지 시각화 방법에 관하여 상세히 설명한다.Hereinafter, an image visualization method using deep learning-based object recognition according to an embodiment of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일실시예에 따른 딥러닝 기반의 객체인식을 활용한 이미지 시각화 분류 방법의 순서도이다.1 is a flowchart of an image visualization classification method using deep learning-based object recognition according to an embodiment of the present invention.

도 1에 도시된 바와 같이, 본 발명의 일실시예에 의한 딥러닝 기반의 객체인식을 활용한 이미지 시각화 방법은, 순차적으로 수행되는 a) 단계, b) 단계, c) 단계, d) 단계, e) 단계 및 f) 단계를 포함할 수 있다.As shown in FIG. 1, the image visualization method using deep learning-based object recognition according to an embodiment of the present invention is sequentially performed in steps a), b), c), d), Step e) and step f) may be included.

본 발명은 a) 분류하기 위해 입력받은 이미지를 서버로 전송하는 단계, b) 상기 서버에서 상기 이미지에 포함되는 객체를 검출하는 단계, c) 상기 b) 단계에서 검출된 객체들의 바운딩 박스(bounding box) 정보를 추출하는 단계, d) 상기 c) 단계에서 추출된 객체별 바운딩 박스의 면적을 구하고, 상기 바운딩 박스와 상기 이미지의 면적비율을 계산하는 단계, e) 상기 d) 단계에서 계산된 면적비율이 가장 큰 객체를 선택하고, 선택된 객체로부터 합성곱 신경망을 통해 특징맵을 추출하는 단계, f) 상기 e) 단계에서 추출된 특징맵들을 T-SNE(T-Stochastic Neighbor Embedding) 알고리즘을 통해 이미지를 군집화하는 단계 및 g) 상기 f) 단계에서 군집화된 이미지 좌표들을 시각화하는 단계를 포함할 수 있다. In the present invention, a) transmitting an input image to a server for classification, b) detecting an object included in the image in the server, c) a bounding box of the objects detected in step b) ) extracting information, d) obtaining the area of the bounding box for each object extracted in step c), and calculating the area ratio between the bounding box and the image, e) the area ratio calculated in step d) Selecting the largest object and extracting a feature map from the selected object through a convolutional neural network; and g) visualizing the image coordinates clustered in step f).

도 2는 본 발명의 일실시예에 따른 딥러닝 기반의 객체인식을 활용한 이미지 시각화 방법의 a) 단계의 개략도이다.2 is a schematic diagram of step a) of an image visualization method using deep learning-based object recognition according to an embodiment of the present invention.

a) 단계는 분류하기 위해 입력받은 이미지를 서버(100)로 전송한다. a) 단계는 웹 관리자에 의해 수동으로 수행되거나, 사용자들이 이미지를 특정 공간에 업로드하면, 관리장치가 자동으로 업로드된 이미지를 상기 서버(100)로 전송하는 등의 실시예가 있을 수 있다.Step a) transmits the input image to the server 100 for classification. Step a) may be manually performed by a web administrator, or when users upload an image to a specific space, the management device automatically transmits the uploaded image to the server 100.

b) 단계는 서버(100)로 전송된 이미지에 포함되는 객체를 검출하고, c) 단계는 b) 단계에서 검출된 객체들의 바운딩 박스(bounding box) 정보들을 추출한다. b) 단계와 c) 단계는 순차적으로 수행되거나, 동시에 수행될 수 있다.Step b) detects an object included in the image transmitted to the server 100, and step c) extracts bounding box information of the objects detected in step b). Steps b) and c) may be performed sequentially or concurrently.

이미지에 포함되는 객체란, 이미지에 포함되는 것들 중, 의미 있는 부분을 의미한다. b) 단계에서는 Faster R-CNN(Faster Regions-Convolutional Neural Networks) 신경망을 통해서 이미지에 포함되는 객체를 인식할 수 있다.An object included in an image means a meaningful part among things included in the image. In step b), an object included in the image may be recognized through a Faster Regions-Convolutional Neural Networks (R-CNN) neural network.

도 3은 Faster R-CNN에 대한 개략도로, Faster R-CNN은 한 이미지에 다수의 객체들을 학습하기 위한 딥러닝 모델로, Region Proposal 생성을 새로운 방식으로 대체하고, 이를 모델 내부로 통합시켜 end-to-end 방식으로 구성한 인공 신경망이다.3 is a schematic diagram of Faster R-CNN. Faster R-CNN is a deep learning model for learning multiple objects in one image. Region Proposal generation is replaced with a new method and integrated into the model to end- It is an artificial neural network constructed in a to-end manner.

도 4는 b) 단계와 c) 단계를 설명하기 위해 a) 단계에서 업로드 되는 이미지의 일예를 도시한 것이다.4 illustrates an example of an image uploaded in step a) to explain steps b) and c).

도 4에는 산책하는 강아지와 강아지를 산책시키는 남자가 도시되어 있는데, 여기서 객체는 강아지와 남자일 수 있으며, 강아지는 제1객체(A1), 남자는 제2객체(A2)라고 한다. 4 shows a dog taking a walk and a man taking the dog for a walk. Here, the objects may be a dog and a man, and the dog is referred to as a first object A1 and the man referred to as a second object A2.

b) 단계는 Faster R-CNN 등의 딥러닝 또는 머신러닝과 같은 방식으로 도 4에 도시된 제1객체(A1)와 제2객체(A2)를 검출한다. Step b) detects the first object A1 and the second object A2 shown in FIG. 4 in the same way as deep learning or machine learning such as Faster R-CNN.

c) 단계에서 추출하는 바운딩 박스(bounding box)란, 객체를 둘러싸는 가장 작은 테두리 선을 말한다. 본 실시예에서 바운딩 박스는 기울어지지 않은 직사각형 형상일 수 있다. The bounding box extracted in step c) refers to the smallest border line surrounding an object. In this embodiment, the bounding box may have a non-inclined rectangular shape.

c) 단계는 제1객체(A1)의 제2객체(A2) 각각의 최외곽 픽셀의 위치정보, 즉 각 객체 바운딩 박스의 꼭지점의 위치정보를 구한다. 즉, 상기 c) 단계는 상기 바운딩 박스의 최외곽 꼭지점들의 좌표를 구해, 상기 바운딩 박스의 가로 및 세로 길이를 구한다(도 5). Step c) obtains location information of the outermost pixels of each of the second objects A2 of the first object A1, that is, location information of the vertex of each object's bounding box. That is, in the step c), the coordinates of the outermost vertices of the bounding box are obtained, and the horizontal and vertical lengths of the bounding box are obtained (FIG. 5).

상기 d) 단계는 c) 단계에서 검출된 객체별 바운딩 박스의 면적을 구하고, 상기 바운딩 박스의 면적과 상기 전체 이미지의 면적의 비를 나타내는 면적비율을 계산한다. In step d), the area of the bounding box for each object detected in step c) is obtained, and an area ratio representing the ratio between the area of the bounding box and the area of the entire image is calculated.

즉, d) 단계는 상기 c) 단계에서 구해진 상기 바운딩 박스의 가로 및 세로 길이를 이용해 각 바운딩 박스의 면적을 연산하고, 해당 이미지와 제1객체(A1)와 제2객체(A2) 별 바운딩 박스의 면적 비율을 계산하여, Oir(Object image ratio)를 구한다.That is, in step d), the area of each bounding box is calculated using the horizontal and vertical lengths of the bounding boxes obtained in step c), and the bounding boxes for each image, first object A1, and second object A2 are calculated. By calculating the area ratio of , Oir (Object image ratio) is obtained.

Oir(Object image ratio) = 객체별 바운딩 박스의 면적 / 전체 이미지 면적Oir(Object image ratio) = area of bounding box for each object / total image area

e) 단계는 상기 d) 단계에서 계산된 면적비율이 가장 큰 객체를 선택하거나 기준치 이상인 객체를 선택하고, 선택된 객체로부터 합성곱 신경망을 통해 특징맵을 추출할 수 있다. In step e), an object having the largest area ratio calculated in step d) may be selected or an object having an area ratio greater than or equal to a reference value may be selected, and a feature map may be extracted from the selected object through a convolutional neural network.

상기 e) 단계는 d) 단계에서 계산된 면적비율이 기준치 이상인 객체를 선택할 수 있으며, 여기서 기준치는 필요에 따라 달라질 수 있으며, 기설정될 수 있다.Step e) may select an object whose area ratio calculated in step d) is greater than or equal to a reference value, where the reference value may vary as needed or may be preset.

이때 면적비율이 기준치 이상인 객체가 여러 개인 경우, 면적비율 순서대로 가중치를 부여하여 객체를 선택할 수 있다. In this case, if there are several objects whose area ratio is greater than or equal to the reference value, the objects may be selected by assigning weights in order of area ratio.

도 5에 도시된 본 실시예에서 e) 단계는 면적비율이 작은 제1객체(A1)는 제외하고, 면적비율이 큰 제2객체(A2)만을 선택할 수 있다. In the present embodiment shown in FIG. 5, in step e), only the second object A2 with a large area ratio can be selected, excluding the first object A1 with a small area ratio.

상기 e) 단계는 선택된 객체를 합성곱 신경망을 통해 특징맵을 추출한다. Step e) extracts a feature map of the selected object through a convolutional neural network.

본 실시예의 e) 단계에서는 사전 훈련된 VGG-16(VGG-16 Convlolutional Neural Networks) 신경망을 이용해 선택된 객체의 특징맵을 추출할 수 있다. In step e) of the present embodiment, a feature map of the selected object may be extracted using a pre-trained VGG-16 Convolutional Neural Networks (VGG-16) neural network.

도 6은 VGG-16 알고리즘의 개략적인 방식에 대해서 도시한 것이다.6 shows a schematic scheme of the VGG-16 algorithm.

도 6을 참고하여 VGG-16 알고리즘에 관하여 간략히 설명하면, VGG-16 알고리즘은 먼저 224×224×3 이미지를 입력받을 수 있다. 이미지 규격의 마지막 3은 RGB를 의미하는 것이다. 이후 VGG-16 알고리즘은 1층에서 64개의 3×3×3 필터 커널로 입력이미지를 컨볼루션하며, 보폭(stride)과 zero padding에 대하여 별도로 설정해줄 수 있다. 1층에서는 결과적으로 64장의 224×224 특성맵들이 생성되며, 활성화시키기 위해 ReLU 함수가 적용된다. ReLU함수는 마지막 16층을 제외하고는 항상 적용되며, VGG-16 알고리즘의 적용이 끝나면 1,000개의 뉴런으로 구성되고, 출력값들은 softmax 함수로 활성화된다. 1,000개의 뉴런으로 구성되었다는 것은 1,000개의 클래스로 분류하는 목적으로 만들어진 네트워크라는 뜻이다.Referring briefly to the VGG-16 algorithm with reference to FIG. 6, the VGG-16 algorithm may first receive a 224×224×3 image. The last 3 of the image specification means RGB. Afterwards, the VGG-16 algorithm convolves the input image with 64 3×3×3 filter kernels in the first layer, and stride and zero padding can be set separately. In the first layer, 64 224×224 feature maps are created as a result, and the ReLU function is applied to activate them. The ReLU function is always applied except for the last 16 layers, and after the application of the VGG-16 algorithm, it consists of 1,000 neurons, and the output values are activated with the softmax function. Being composed of 1,000 neurons means that the network was created for the purpose of classifying into 1,000 classes.

f) 단계는 e) 단계에서 추출된 객체별 특징맵들을 T-SNE(T-Stochastic Neighbor Embedding) 알고리즘을 통해 이미지를 군집화한다. T-SNE는 데이터의 차원 축소에 사용되는 기계 학습 알고리즘 중 하나이다. T-SNE는 비선형 차원 축소 기법으로, 고차원의 데이터를 2차원 또는 3차원 등으로 줄여 가시화하는데 유용하게 사용되고 있다. In step f), the feature maps for each object extracted in step e) are image clustered through T-SNE (T-Stochastic Neighbor Embedding) algorithm. T-SNE is one of the machine learning algorithms used for dimensionality reduction of data. T-SNE is a non-linear dimensionality reduction technique, which is useful for visualizing high-dimensional data by reducing it to 2D or 3D.

T-SNE는 데이터 간 거리를 stochastic probaility로 변환한 뒤 임베딩하여 고차원의 벡터로 표현되는 데이터 간의 neighbor structure를 보존하는 2차원의 embedding vector를 학습함으로써, 고차원의 데이터를 2차원의 지도로 표현할 수 있는 확률적 분포 알고리즘이다. 즉, 각 다차원 데이터들 간의 거리를 확률적으로 계산하여 군집화 할 수 있다. T-SNE transforms the distance between data into stochastic probaility and then embeds it to learn a 2-dimensional embedding vector that preserves the neighbor structure between data expressed as a high-dimensional vector. It is a stochastic distribution algorithm. That is, the distance between each multidimensional data can be probabilistically calculated and clustered.

g) 단계는 f) 단계에서 군집화된 이미지 좌표들을 시각화하여 사용자에게 제공할 수 있다. g) 단계는 Three.js 등의 WebGL 컴포넌트를 활용하여 웹 브라우저 상에 군집화된 이미지 좌표들을 시각화할 수 있다.In step g), the image coordinates clustered in step f) may be visualized and provided to the user. In step g), clustered image coordinates can be visualized on a web browser by utilizing a WebGL component such as Three.js.

도 7은 본 발명의 일실시예에 따른 딥러닝 기반의 객체인식을 활용한 이미지 시각화 시스템의 블록도이다.7 is a block diagram of an image visualization system using deep learning-based object recognition according to an embodiment of the present invention.

도 7에 도시된 바와 같이, 본 발명의 일실시예에 따른 딥러닝 기반의 객체인식을 활용한 이미지 시각화 시스템은, 웹 브라우저(10), 관리서버(20), 이미지 분석 서버(30), 이미지 분석 결과 DB(31) 및 이미지 결과 서버(40)를 포함할 수 있다.As shown in FIG. 7, the image visualization system using deep learning-based object recognition according to an embodiment of the present invention includes a web browser 10, a management server 20, an image analysis server 30, an image An analysis result DB 31 and an image result server 40 may be included.

웹 브라우저(10)는 관리자 또는 사용자가 이미지를 업로드하거나, 이미지의 분석 관리를 수행한다. 구체적으로, a) 단계를 수행하거나 또는 상술한 본 발명의 a) 단계 ~ f) 단계가 수행된 이후, g) 단계가 웹 브라우저(10) 상에서 실행되어 T-SNE 알고리즘의 결과가 시각화되어 출력될 수 있다.In the web browser 10, an administrator or user uploads an image or analyzes and manages the image. Specifically, after step a) is performed or steps a) to f) of the present invention described above are performed, step g) is executed on the web browser 10 to visualize and output the result of the T-SNE algorithm. can

관리서버(20)는 접속하는 관리자 또는 사용자의 라이센스를 체크하고, 파일의 추가, 삭제, 압축 및 전송을 관리하며, T-SNE 알고리즘을 수행하도록 후술할 이미지 분석 서버(30)로 신호를 전송하는 역할을 한다. 관리서버(20)는 프레임워크DB(21)와 연동될 수 있으며, 프레임워크DB(21)에는 관리서버(20)의 동작 및 로그정보들이 저장될 수 있다.The management server 20 checks the license of an administrator or user who is connected, manages the addition, deletion, compression, and transmission of files, and transmits a signal to the image analysis server 30 to be described later to perform the T-SNE algorithm. play a role The management server 20 may be linked with the framework DB 21, and operation and log information of the management server 20 may be stored in the framework DB 21.

이미지 분석 서버(30)는 상기 관리서버(20)로부터 관리자 또는 사용자가 업로드한 이미지 파일을 수신하며, 상술한 b) 단계 ~ f) 단계를 수행하는 주체가 된다. 즉, 관리서버(20)로부터 이미지를 전달 받으면, 이미지 상에서 객체 검출, 바운딩 박스 검출, 면적비 계산, VGG-16 알고리즘 실행, 특징맵 추출과 같은 T-SNE 알고리즘이 적용되기 전의 단계들이 수행되며, 이후 T-SNE 알고리즘을 통해 f) 단계를 수행할 수 있다. 이미지 분석 서버(30)의 작업 결과는 이미지 분석 결과DB(31)에 저장될 수 있으며, 이미지 결과 서버(40)로 전송될 수 있다.The image analysis server 30 receives an image file uploaded by an administrator or a user from the management server 20 and becomes a subject that performs steps b) to f). That is, when an image is received from the management server 20, steps before the T-SNE algorithm is applied, such as object detection, bounding box detection, area ratio calculation, VGG-16 algorithm execution, and feature map extraction, are performed on the image, and then Step f) may be performed through the T-SNE algorithm. The work result of the image analysis server 30 may be stored in the image analysis result DB 31 and may be transmitted to the image result server 40 .

이미지 결과 서버(40)는 사용자가 접속하여 이미지 분석 결과를 확인할 수 있도록 출력하는 역할을 한다.The image result server 40 serves to output so that the user can access and check the image analysis result.

상기 웹 브라우저(10), 관리서버(20), 이미지 분석 서버(30), 이미지 결과 서버(40) 및 사용자 단말기(50) 사이에는 방확벽 및 보안망이 설치될 수 있다.A firewall and security network may be installed between the web browser 10, the management server 20, the image analysis server 30, the image result server 40, and the user terminal 50.

본 발명은 상기한 실시예에 한정되지 아니하며, 적용범위가 다양함은 물론이고, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 다양한 변형 실시가 가능한 것은 물론이다. The present invention is not limited to the above embodiments, and the scope of application is diverse, and various modifications and implementations are possible without departing from the gist of the present invention claimed in the claims.

10 : 웹 브라우저
20 : 관리서버
21 : 프레임워크DB
30 : 이미지 분석 서버
31 : 이미지 분석 결과DB
40 : 이미지 결과 서버
50 : 사용자 단말기
100 : 서버
A1 : 제1객체
A2 : 제2객체
10: Web browser
20: management server
21 : Framework DB
30: image analysis server
31: Image analysis result DB
40: Image result server
50: user terminal
100: server
A1: first object
A2: Second object

Claims (5)

a) 웹 브라우저에서 분류하기 위해 입력받은 이미지를 서버로 전송하는 단계;
b) 상기 서버에서 상기 이미지에 포함되는 객체를 검출하는 단계;
c) 상기 서버에서 상기 b) 단계에서 검출된 객체들의 바운딩 박스(bounding box) 정보를 추출하는 단계;
d) 상기 서버에서 상기 c) 단계에서 추출된 객체별 바운딩 박스의 면적을 구하고, 상기 바운딩 박스와 상기 이미지의 면적비율을 계산하는 단계;
e) 상기 서버에서 상기 d) 단계에서 계산된 면적비율이 가장 큰 객체를 선택하거나 기준치 이상인 객체를 선택하고, 선택된 객체로부터 합성곱 신경망을 통해 특징맵을 추출하는 단계;
f) 상기 서버에서 상기 e) 단계에서 추출된 특징맵들을 T-SNE(T-Stochastic Neighbor Embedding) 알고리즘을 통해 이미지를 군집화하는 단계; 및
g) 상기 웹 브라우저에서 상기 f) 단계에서 군집화된 이미지 좌표들을 시각화하는 단계;를 포함하는 딥러닝 기반의 객체인식을 활용한 이미지 시각화 방법에 있어서,
상기 b) 단계는 Faster R-CNN(Faster Regions-Convolutional Neural Networks) 신경망을 통해서 이미지에 포함되는 객체를 인식하고,
상기 c) 단계는 상기 바운딩 박스의 최외곽 꼭지점들의 좌표를 구해, 상기 바운딩 박스의 가로 및 세로 길이를 구하고,
상기 d) 단계는 상기 c) 단계에서 구해진 상기 바운딩 박스의 가로 및 세로 길이를 이용해 각 바운딩 박스의 면적을 연산하며,
상기 e) 단계는 면적비율이 기준치 이상인 객체가 여러 개인 경우, 면적비율 순서대로 가중치를 부여하여 객체를 선택하고,
상기 f) 단계는 고차원의 데이터들 간의 거리를 확률적으로 계산하여 군집화하는 것을 특징으로 하는 딥러닝 기반의 객체인식을 활용한 이미지 시각화 방법.
a) transmitting an input image to a server to be classified in a web browser;
b) detecting an object included in the image by the server;
c) extracting bounding box information of the objects detected in the step b) in the server;
d) obtaining an area of a bounding box for each object extracted in step c) in the server, and calculating an area ratio between the bounding box and the image;
e) selecting an object having the largest area ratio calculated in step d) or an object having an area ratio greater than or equal to a reference value, and extracting a feature map from the selected object through a convolutional neural network;
f) clustering images from the feature maps extracted in step e) in the server through a T-Stochastic Neighbor Embedding (T-SNE) algorithm; and
In the image visualization method using deep learning-based object recognition, including g) visualizing the image coordinates clustered in step f) in the web browser,
Step b) recognizes an object included in the image through a Faster Regions-Convolutional Neural Networks (R-CNN) neural network,
In the step c), the coordinates of the outermost vertices of the bounding box are obtained, and the horizontal and vertical lengths of the bounding box are obtained;
Step d) calculates the area of each bounding box using the horizontal and vertical lengths of the bounding boxes obtained in step c);
In the step e), if there are several objects whose area ratios are greater than the reference value, weights are given in order of area ratios to select objects,
Step f) is an image visualization method using deep learning-based object recognition, characterized in that for clustering by probabilistically calculating the distance between high-dimensional data.
제1항에 있어서,
상기 c) 단계의 상기 바운딩 박스는 상기 b) 단계에서 검출된 객체를 둘러싼 직사각형인 것을 특징으로 하는 딥러닝 기반의 객체인식을 활용한 이미지 시각화 방법.
According to claim 1,
The image visualization method using deep learning-based object recognition, characterized in that the bounding box of step c) is a rectangle surrounding the object detected in step b).
삭제delete 제1항에 있어서,
상기 e) 단계는 선택된 객체를 VGG-16 네트워크에 통과시켜 특징맵을 추출하는 것을 특징으로 하는 딥러닝 기반의 객체인식을 활용한 이미지 시각화 방법.
According to claim 1,
Step e) is an image visualization method using deep learning-based object recognition, characterized in that for extracting a feature map by passing the selected object through a VGG-16 network.
삭제delete
KR1020200151404A 2020-11-12 2020-11-12 Multidimensional visualization system using deep learning object detection ratio and filtering technology and the method using the same KR102504607B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200151404A KR102504607B1 (en) 2020-11-12 2020-11-12 Multidimensional visualization system using deep learning object detection ratio and filtering technology and the method using the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200151404A KR102504607B1 (en) 2020-11-12 2020-11-12 Multidimensional visualization system using deep learning object detection ratio and filtering technology and the method using the same

Publications (2)

Publication Number Publication Date
KR20220064846A KR20220064846A (en) 2022-05-19
KR102504607B1 true KR102504607B1 (en) 2023-03-02

Family

ID=81801051

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200151404A KR102504607B1 (en) 2020-11-12 2020-11-12 Multidimensional visualization system using deep learning object detection ratio and filtering technology and the method using the same

Country Status (1)

Country Link
KR (1) KR102504607B1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101825459B1 (en) * 2016-08-05 2018-03-22 재단법인대구경북과학기술원 Multi-class objects detection apparatus and method thereof
KR101995294B1 (en) * 2018-12-24 2019-07-03 (주)제이엘케이인스펙션 Image analysis apparatus and method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101825459B1 (en) * 2016-08-05 2018-03-22 재단법인대구경북과학기술원 Multi-class objects detection apparatus and method thereof
KR101995294B1 (en) * 2018-12-24 2019-07-03 (주)제이엘케이인스펙션 Image analysis apparatus and method

Also Published As

Publication number Publication date
KR20220064846A (en) 2022-05-19

Similar Documents

Publication Publication Date Title
US20210158554A1 (en) Artificial intelligence for generating depth map
CN111738280A (en) Image identification method, device, equipment and readable storage medium
US11475572B2 (en) Systems and methods for object detection and recognition
CN112801063B (en) Neural network system and image crowd counting method based on neural network system
CN111695630A (en) Image recognition model updating method and related equipment
KR20190126857A (en) Detect and Represent Objects in Images
Singh et al. SiteForge: Detecting and localizing forged images on microblogging platforms using deep convolutional neural network
CN110942456B (en) Tamper image detection method, device, equipment and storage medium
CN115131634A (en) Image recognition method, device, equipment, storage medium and computer program product
KR102504607B1 (en) Multidimensional visualization system using deep learning object detection ratio and filtering technology and the method using the same
CN113705293A (en) Image scene recognition method, device, equipment and readable storage medium
Ramachandra et al. Perceptual metric learning for video anomaly detection
Weng et al. Image inpainting technique based on smart terminal: A case study in CPS ancient image data
CN113205044B (en) Deep fake video detection method based on characterization contrast prediction learning
Soni et al. Image copy-move forgery detection using deep convolutional neural networks
CN112926368A (en) Method and device for identifying obstacle
Sajedi Adaptive image steganalysis
Bhadra et al. MFEMANet: an effective disaster image classification approach for practical risk assessment
CN117292442B (en) Cross-mode and cross-domain universal face counterfeiting positioning method
Alam et al. Role of Social Media Imagery in Disaster Informatics
KR20230076712A (en) Video-objects contextualization system and method
CN115563289B (en) Industry classification label generation method and device, electronic equipment and readable medium
Chaudhuri et al. A deep action-oriented video image classification system for text detection and recognition
KR20230077586A (en) System and method for storing video-objects contextualization data
Hossain et al. Authenticated media uploading framework for mobile cloud computing

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right