KR20220097814A - 데이터 통합 분석 학습을 이용한 데이터 분류 장치 및 방법 - Google Patents

데이터 통합 분석 학습을 이용한 데이터 분류 장치 및 방법 Download PDF

Info

Publication number
KR20220097814A
KR20220097814A KR1020200189633A KR20200189633A KR20220097814A KR 20220097814 A KR20220097814 A KR 20220097814A KR 1020200189633 A KR1020200189633 A KR 1020200189633A KR 20200189633 A KR20200189633 A KR 20200189633A KR 20220097814 A KR20220097814 A KR 20220097814A
Authority
KR
South Korea
Prior art keywords
data
learning
vector
text
processing
Prior art date
Application number
KR1020200189633A
Other languages
English (en)
Other versions
KR102533775B1 (ko
Inventor
임창원
이영섭
이종가
박정훈
배강일
Original Assignee
중앙대학교 산학협력단
동국대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 중앙대학교 산학협력단, 동국대학교 산학협력단 filed Critical 중앙대학교 산학협력단
Priority to KR1020200189633A priority Critical patent/KR102533775B1/ko
Publication of KR20220097814A publication Critical patent/KR20220097814A/ko
Application granted granted Critical
Publication of KR102533775B1 publication Critical patent/KR102533775B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06K9/627
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/469Contour-based spatial representations, e.g. vector-coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Abstract

데이터 통합 분석 학습을 이용한 데이터 분류 장치 및 방법이 제공된다. 본 발명의 실시예에 따른 데이터 통합 분석 학습을 이용한 데이터 분류 장치는, 이미지 데이터 및 텍스트 데이터를 획득하도록 형성되는 데이터 획득부; 획득한 상기 이미지 데이터 및 상기 텍스트 데이터의 전처리를 각각 수행하여 전처리 데이터를 생성하도록 형성되는 데이터 전처리부; 상기 전처리 데이터를 획득하여 상기 데이터의 특징인 통합 벡터 특징을 추출하도록 형성되는 데이터 특징 추출부; 및 상기 통합 벡터 특징을 이용하여 데이터 학습을 수행하여 학습 결과를 생성하고, 상기 학습 결과를 이용하여 신규 데이터의 분류를 수행하도록 형성되는 데이터 학습부;를 포함한다.

Description

데이터 통합 분석 학습을 이용한 데이터 분류 장치 및 방법{Data classification device and method using integrated data analysis learning}
본 발명은 데이터 통합 분석 학습을 이용한 데이터 분류 장치 및 방법에 관한 것으로, 특히, 이미지 데이터와 텍스트 데이터를 분석하여 통합한 후 기계학습 알고리즘을 이용하여 학습한 학습 결과를 이용하여 데이터를 분류하는 데이터 통합 분석 학습을 이용한 데이터 분류 장치 및 방법에 관한 것이다.
최근 인공지능 및 프로세서의 발달로 인하여 수많은 정보를 빠른 시간 안에 정확히 처리할 수 있는 기술이 발전하고 있다. 이러한 기술의 일 예로 기계학습 또는 머신 러닝이라 불리우는 다량의 데이터를 처리할 수 있는 기술이 존재한다. 기계학습이란, 기계가 일일이 코드로 명시하지 않은 동작을 데이터로부터 학습하여 실행할 수 있도록 하는 알고리즘을 의미한다.
즉, 일 예로 컴퓨터가 다량의 데이터를 획득하여 기계학습을 수행하면 이후 어떤 데이터가 들어오게 된다면 학습 결과와 알고리즘을 이용하여 해당 데이터를 분류하는 기술이 기계학습으로 일컬어 질 수 있다. 이러한 기계학습의 경우 대량의 데이터를 컴퓨터가 학습하고, 학습한 결과를 이용하여 데이터의 분류를 수행하기 때문에 사용자가 일일이 그 결과물을 검토하기 힘들며, 따라서 결과물에 대한 신뢰도, 다시 말해 분류의 정확도가 높아져야 하는 문제점이 존재한다.
한국공개특허 제10-2020-0084940호
상기와 같은 종래 기술의 문제점을 해결하기 위해, 본 발명의 일 실시예는 이미지 데이터와 텍스트 데이터를 통합하여 분석함으로써 보다 높은 정확도의 학습 결과를 획득할 수 있는 데이터 통합 분석 학습을 이용한 데이터 분류 장치 및 방법을 제공하고자 한다.
또, 본 발명의 일 실시예는 이미지 데이터와 텍스트 데이터를 통합하여 분석함으로써 종래보다 높은 정확도로 입력되는 데이터를 분류할 수 있는 데이터 통합 분석 학습을 이용한 데이터 분류 장치 및 방법을 제공하고자 한다.
위와 같은 과제를 해결하기 위한 본 발명의 일 측면에 따르면, 데이터 통합 분석 학습을 이용한 데이터 분류 장치가 제공된다. 상기 데이터 통합 분석 학습을 이용한 데이터 분류 장치는, 이미지 데이터 및 텍스트 데이터를 획득하도록 형성되는 데이터 획득부; 획득한 상기 이미지 데이터 및 상기 텍스트 데이터의 전처리를 각각 수행하여 전처리 데이터를 생성하도록 형성되는 데이터 전처리부; 상기 전처리 데이터를 획득하여 상기 데이터의 특징인 통합 벡터 특징을 추출하도록 형성되는 데이터 특징 추출부; 및 상기 통합 벡터 특징을 이용하여 데이터 학습을 수행하여 학습 결과를 생성하고, 상기 학습 결과를 이용하여 신규 데이터의 분류를 수행하도록 형성되는 데이터 학습부;를 포함한다.
상기 데이터 획득부는, 상기 이미지 데이터를 획득하는 이미지 데이터 획득 모듈; 및 상기 텍스트 데이터를 획득하는 텍스트 데이터 획득 모듈;을 포함하여 형성될 수 있다.
상기 데이터 전처리부는, 상기 이미지 데이터의 전처리인 이미지 전처리를 수행하는 이미지 데이터 전처리 모듈; 및 상기 텍스트 데이터의 전처리인 텍스트 전처리를 수행하는 텍스트 데이터 전처리 모듈;을 포함하며, 상기 이미지 전처리는 상기 이미지 데이터의 크기를 기 설정된 크기로 규격화 처리하여 이미지 전처리 데이터를 생성하고, 상기 텍스트 전처리는 상기 텍스트를 형태소로 분류하여 학습하고, skip-gram 알고리즘을 이용하여 중심 단어로부터 주변 단어를 추측하도록 처리하여 텍스트 전처리 데이터를 생성할 수 있다.
상기 데이터 특징 추출부는, 상기 이미지 전처리 데이터의 특징을 추출하기 위해 CNN 알고리즘을 이용하여 이미지 데이터 벡터를 추출하도록 형성되는 이미지 데이터 벡터 추출 모듈; 상기 텍스트 전처리 데이터의 특징을 추출하기 위해 CNN 알고리즘을 이용하여 텍스트 데이터 벡터를 추출하도록 형성되는 텍스트 데이터 벡터 추출 모듈; 및 상기 이미지 데이터 벡터와 텍스트 데이터 벡터를 통합한 통합 벡터의 특징을 CNN 알고리즘을 이용하여 추출하도록 형성되는 통합 벡터 특징 추출 모듈;을 포함할 수 있다.
상기 통합 벡터는, 상기 텍스트 데이터 벡터와 상기 이미지 데이터 벡터가 행별로 교차 배치되어 형성되며, 상기 이미지 데이터 벡터를 상기 텍스트 데이터 벡터와 동일한 개수만큼 이용하기 위해 상기 이미지 데이터 벡터가 부족한 개수만큼 상기 이미지 데이터 벡터를 복제하여 형성될 수 있다.
상기 데이터 학습부는, 상기 통합 벡터 특징을 이용하여 데이터 학습을 수행하여 상기 기본 데이터 학습 결과를 생성하는 기본 데이터 학습 모듈; 및 분류를 위해 획득한 상기 신규 데이터를 상기 학습 결과를 이용하여 분류하도록 형성되는 신규 데이터 분류 모듈;을 포함할 수 있다.
상기 신규 데이터 분류 모듈은, 상기 신규 데이터의 분류 결과가 기 설정된 정확도 이상인 경우, 해당 신규 데이터를 상기 기본 데이터 학습 결과를 생성하기 위한 데이터로 사용하기 위해 상기 데이터 전처리부로 전달할 수 있다.
본 발명의 일 측면에 따르면, 데이터 분류 장치를 이용하는 데이터 통합 분석 학습을 이용한 데이터 분류 방법이 제공된다. 상기 데이터 통합 분석 학습을 이용한 데이터 분류 방법은, 이미지 데이터 및 텍스트 데이터를 획득하는 단계; 획득한 상기 이미지 데이터 및 상기 텍스트 데이터의 전처리를 각각 수행하여 전처리 데이터를 생성하는 단계; 상기 전처리 데이터를 획득하여 상기 데이터의 특징인 통합 벡터 특징을 추출하는 단계; 및 상기 통합 벡터 특징을 이용하여 데이터 학습을 수행하여 학습 결과를 생성하고, 상기 학습 결과를 이용하여 신규 데이터의 분류를 수행하는 단계;를 포함한다.
상기 전처리 데이터를 생성하는 단계;는 상기 이미지 데이터의 전처리인 이미지 전처리를 수행하는 단계; 및 상기 텍스트 데이터의 전처리인 텍스트 전처리를 수행하는 단계;를 포함하며, 상기 이미지 전처리는 상기 이미지 데이터의 크기를 기 설정된 크기로 규격화 처리하여 이미지 전처리 데이터를 생성하고, 상기 텍스트 전처리는 상기 텍스트를 형태소로 분류하여 학습하고, skip-gram 알고리즘을 이용하여 중심 단어로부터 주변 단어를 추측하도록 처리하여 텍스트 전처리 데이터를 생성할 수 있다.
상기 통합 벡터 특징을 추출하는 단계;는, 상기 이미지 전처리 데이터의 특징을 추출하기 위해 CNN 알고리즘을 이용하여 이미지 데이터 벡터를 추출하는 단계; 상기 텍스트 전처리 데이터의 특징을 추출하기 위해 CNN 알고리즘을 이용하여 텍스트 데이터 벡터를 추출하는 단계; 및 상기 이미지 데이터 벡터와 텍스트 데이터 벡터를 통합한 통합 벡터의 특징을 CNN 알고리즘을 이용하여 추출하는 단계;를 포함할 수 있다.
상기 통합 벡터는, 상기 텍스트 데이터 벡터와 상기 이미지 데이터 벡터가 행별로 교차 배치되어 형성되며, 상기 이미지 데이터 벡터를 상기 텍스트 데이터 벡터와 동일한 개수만큼 이용하기 위해 상기 이미지 데이터 벡터가 부족한 개수만큼 상기 이미지 데이터 벡터를 복제하여 형성될 수 있다.
상기 신규 데이터의 분류를 수행하는 단계;는, 상기 통합 벡터 특징을 이용하여 데이터 학습을 수행하여 상기 기본 데이터 학습 결과를 생성하는 단계; 및 분류를 위해 획득한 상기 신규 데이터를 상기 학습 결과를 이용하여 분류하는 단계;를 포함할 수 있다.
상기 신규 데이터를 상기 학습 결과를 이용하여 분류하는 단계;는, 상기 신규 데이터의 분류 결과가 기 설정된 정확도 이상인 경우, 해당 신규 데이터를 상기 기본 데이터 학습 결과를 생성하기 위한 데이터로 사용하기 위해 상기 전처리 데이터를 생성하는 단계로 전달할 수 있다.
본 발명의 일 실시예에 따른 데이터 통합 분석 학습을 이용한 데이터 분류 장치 및 방법은 이미지 데이터와 텍스트 데이터를 통합하여 분석함으로써 보다 높은 정확도의 학습 결과를 획득할 수 있다.
또, 본 발명의 일 실시예에 따른 데이터 통합 분석 학습을 이용한 데이터 분류 장치 및 방법은 종래보다 높은 정확도로 입력되는 데이터를 분류할 수 있는 효과가 있다.
도 1은 본 발명의 실시예에 따른 데이터 통합 분석 학습을 이용한 데이터 분류 장치를 나타낸 블록도이다.
도 2는 도 1의 데이터 획득부를 나타낸 블록도이다.
도 3은 도 1의 데이터 전처리부를 나타낸 블록도이다.
도 4는 도 1의 데이터 특징 추출부를 나타낸 블록도이다.
도 5는 도 1의 데이터 학습부를 나타낸 블록도이다.
도 6은 본 발명의 실시예에 따른 데이터 통합 분석 학습을 이용한 데이터 분류 방법을 나타낸 순서도이다.
도 7은 도 6의 단계 S620을 나타낸 순서도이다.
도 8은 도 6의 단계 S630을 나타낸 순서도이다.
도 9는 도 6의 단계 S640을 나타낸 순서도이다.
도 10은 본 발명의 일 실시에에 따른 데이터 통합 분석 장치 및 데이터 통합 분석 학습을 수행하는 과정을 도식화한 도이다.
이하, 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 동일 또는 유사한 구성요소에 대해서는 동일한 참조부호를 붙였다.
이하에서는 도 1 내지 도 5를 이용하여 본 발명의 일 실시예에 따른 데이터 통합 분석 학습을 이용한 데이터 분류 장치에 대해 상세히 설명하도록 한다.
도 1은 본 발명의 실시예에 따른 데이터 통합 분석 학습을 이용한 데이터 분류 장치를 나타낸 블록도이고 도 2는 도 1의 데이터 획득부를 나타낸 블록도이며, 도 3은 도 1의 데이터 전처리부를 나타낸 블록도이고, 도 4는 도 1의 데이터 특징 추출부를 나타낸 블록도이며, 도 5는 도 1의 데이터 학습부를 나타낸 블록도이다.
도 1을 참고하면, 본 발명의 일 실시예에 따른 데이터 통합 분석 학습을 이용한 데이터 분류 장치(100, 이하 데이터 분류 장치)는 특정 물체에 대한 이미지 데이터 및 텍스트 데이터를 획득하고, 획득한 데이터를 전처리한 후 통합하여 통합 벡터 특징을 추출하며, 통합 벡터 특징을 이용하여 기계학습을 수행하고, 학습 결과를 이용하여 신규 데이터의 분류를 수행하도록 형성된다. 본 발명은 이하에서 이미지 데이터는 꽃을 촬영한 이미지로, 텍스트 데이터는 꽃을 설명한 텍스트로 정의하여 꽃의 분류를 위해 사용되는 데이터 분류 장치에 대하여 설명하지만, 본 발명은 반드시 이에 한정되는 것은 아니며, 실체가 존재하며, 실체에 대한 텍스트 설명이 가능한 모든 물체에 적용될 수 있다.
이를 위해 본 발명의 데이터 분류 장치(100)는, 데이터 획득부(110), 데이터 전처리부(120), 데이터 특징 추출부(130) 및 데이터 학습부(140)를 포함하도록 형성될 수 있다.
데이터 획득부(110)는 이미지 데이터 및 텍스트 데이터를 획득하도록 형성된다. 일반적으로 기계학습은 이미지 데이터만을 획득하여 수행되거나, 텍스트 데이터만을 획득하여 수행되거나, 두 데이터 모두를 이용하여 수행될 수 있다. 여기서, 보다 정확도가 높은 기계학습을 수행하기 위해서는 제공되는 데이터의 양이 증가하여야 한다.
이미지 데이터만을 이용하여 기계학습을 수행하는 경우에는 꽃에 대한 촬영 각도 등의 차이에 의해 각각의 각도에 대한 충분한 데이터를 획득할 수 없다는 문제점이 존재할 수 있으며, 텍스트 데이터만을 획득하여 기계학습을 수행하는 경우, 텍스트 데이터에 의존하기 때문에 분류를 위한 데이터로 꽃의 이미지 데이터가 입력되는 경우, 이미지 데이터와 텍스트 기계학습 결과를 매칭하기 어려운 문제점이 존재한다.
따라서, 본 발명의 데이터 분류 장치(100)는 이러한 문제점을 극복하기 위해 이미지 데이터와 텍스트 데이터를 모두 이용하여 기계학습을 수행하고, 학습 결과 종래보다 높은 정확도를 가지고 입력 데이터를 분류할 수 있는 효과가 있다.
데이터 획득부(110)는 이를 위해 도 2에 도시된 바와 같이 이미지 데이터 획득 모듈(111) 및 텍스트 데이터 획득 모듈(113)을 포함하여 형성될 수 있다. 이미지 데이터 획득 모듈(111)은 꽃의 이미지를 이미지 데이터로 획득하기 위해 구비될 수 있으며, 텍스트 데이터 획득 모듈(113)은 꽃의 외관을 텍스트로 설명한 텍스트 데이터를 획득하기 위해 구비될 수 있다.
데이터 전처리부(120)는 이미지 데이터 및 텍스트 데이터의 전처리를 각각 수행하여 전처리 데이터를 생성하기 위해 형성된다. 데이터 전처리부(120)는 이를 위해 이미지 데이터 전처리 모듈(121) 및 텍스트 데이터 전처리 모듈(123)을 포함하여 형성될 수 있다.
이미지 데이터 전처리 모듈(121)은 이미지 전처리를 수행하도록 형성된다. 이미지 전처리는 이미지 데이터의 크기를 기 설정된 크기로 규격화하는 것을 의미한다. 이미지 데이터는 서로 다른 크기로 입력될 수 있다. 이 경우, 이미지의 크기에 따라 이미지 데이터의 특징 추출 결과 서로 다른 크기의 벡터가 획득될 수 있으며 이로 인해 데이터를 일정하게 학습하기 어렵다는 문제점이 존재한다. 따라서, 이미지 데이터 전처리 모듈(121)은 이미지 데이터의 크기를 규격화하는 이미지 전처리를 수행하여 이미지 전처리 데이터를 생성함으로써, 항상 동일한 크기의 이미지 데이터를 학습하고 동일한 크기의 벡터를 획득하도록 할 수 있다.
텍스트 데이터 전처리 모듈(123)는 텍스트 전처리를 수행한다. 텍스트 전처리는 텍스트를 형태소로 분류하여 학습하고, 중심 단어로부터 주변 단어를 추측하는 스킵-그램(skip-gram) 알고리즘을 이용하는 것을 의미한다.
데이터 전처리부(120)는 이미지 데이터와 텍스트 데이터를 각각 이미지 데이터 전처리 모듈(121) 및 텍스트 데이터 전처리 모듈(123)에서 전처리한 이미지 전처리 데이터 및 텍스트 전처리 데이터를 포함하는 전처리 데이터를 후술되는 데이터 특징 추출부(130)로 전달할 수 있다.
데이터 특징 추출부(130)는 전처리 데이터를 획득하여 데이터의 특징인 통합 벡터 특징을 추출하도록 형성된다. 데이터 특징 추출부(130)는 이를 위해 도 4에 도시된 바와 같이 이미지 데이터 벡터 추출 모듈(131), 텍스트 데이터 벡터 추출 모듈(133) 및 통합 벡터 특징 추출 모듈(135)을 포함하여 형성될 수 있다.
이미지 데이터 벡터 추출 모듈(131)은 이미지 데이터의 특징을 추출하기 위해 형성된다. 이미지 데이터 벡터 추출 모듈(131)은 전처리 데이터 중 이미지 전처리 데이터를 획득하고, 획득한 이미지 전처리 데이터의 특징을 추출하기 위해 익히 알려진 CNN 알고리즘을 사용할 수 있다. 이때, 이미지 전처리 데이터는 기 설정된 규격의 크기로 전처리되었기 때문에 추출되는 이미지 전처리 데이터의 특징은 최초 입력된 이미지 데이터의 크기와 상관 없이 동일한 크기로 추출될 수 있다.
텍스트 데이터 벡터 추출 모듈(133)은 텍스트 데이터의 특징을 추출하기 위해 형성된다. 텍스트 데이터 벡터 추출 모듈(133)은 전처리 데이터 중 텍스트 전처리 데이터를 획득하고, 획득한 텍스트 전처리 데이터의 특징을 추출하기 위해 익히 알려진 CNN 알고리즘을 사용할 수 있다.
통합 벡터 특징 추출 모듈(135)은 이미지 데이터 벡터와 텍스트 데이터 벡터를 통합한 통합 벡터의 특징을 추출하도록 형성된다. 통합 벡터 특징 추출 모듈(135)은 통합 벡터를 생성하기 위해 이미지 데이터 벡터와 텍스트 데이터 벡터를 서로 교차 배치할 수 있다.
일 예로, 텍스트 데이터 벡터가 3x1x256의 크기로 형성되고 이미지 데이터 벡터가 1x1x256의 크기로 형성되는 경우, 통합 벡터 특징 추출 모듈(135)은 통합 벡터를 생성하기 위해 이미지 데이터 벡터를 두 번 복제하여 총 3개의 이미지 데이터 벡터를 획득한다. 이후, 통합 벡터 특징 추출 모듈(135)은 텍스트 데이터 벡터의 한 행과 이미지 데이터 벡터를 교차하여 배치하여 총 6x1x256크기의 행렬로 표현되는 통합 벡터를 획득할 수 있다.
통합 벡터 특징 추출 모듈(135)은 텍스트 데이터 벡터와 이미지 데이터 벡터를 이용하여 통합 벡터를 획득하면, 획득한 통합 벡터에 CNN 알고리즘을 적용하여 통합 벡터의 특징인 통합 벡터 특징을 획득할 수 있다.
데이터 학습부(140)는 데이터 특징 추출부(130)에서 획득한 통합 벡터 특징을 이용하여 데이터 학습을 수행하여 학습 결과를 생성하고, 학습 결과를 이용하여 신규 데이터의 분류를 수행할 수 있다. 데이터 학습부(140)는 이를 위해 기본 데이터 학습 모듈(141), 가상 데이터 학습 모듈(143) 및 신규 데이터 분류 모듈(145)을 포함하여 형성될 수 있다.
기본 데이터 학습 모듈(141)은 통합 벡터 특징을 이용하여 데이터 학습을 수행하여 기본 데이터 학습 결과를 생성하도록 형성된다. 본 발명의 데이터 분류 장치(100)가 데이터 분류를 수행하기 위해서는 데이터의 학습이 요구된다. 따라서, 기본 데이터 학습 모듈(141)은 최초에 획득한 데이터 풀로부터 획득한 학습용 데이터들의 통합 벡터 특징을 이용하여 데이터 학습을 수행하고, 수행 결과로 기본 데이터 학습 결과를 생성할 수 있다.
가상 데이터 학습 모듈(143)은 학습용 가상 데이터를 생성하고, 생성한 학습용 가상 데이터를 이용하여 데이터 학습을 수행하고 가상 데이터 학습 결과를 생성하도록 형성된다.
일반적으로 기계학습을 통해 획득하는 결과물의 정확도는 공급되는 학습용 데이터의 양과 질에 의존한다. 하지만, 학습용 데이터를 관리자가 직접 생성하여 제공하는 것에는 물리적으로 한계가 존재한다. 따라서, 보다 쉽게 정확도를 증가시키기 위해 가상 데이터 학습 모듈(143)은 스스로 학습용 가상 데이터를 생성하고, 생성한 학습용 가상 데이터를 이용하여 학습하고 학습 결과로 가상 데이터 학습 결과를 생성할 수 있다.
이를 위해 본 발명의 일 실시예에서 가상 데이터 학습 모듈(143)은 적대적 생성 신경망(Generative Adversarial Network) 모델을 이용할 수 있다. 적대적 생성 신경망(GAN)은 생성자와 구분자를 경쟁적으로 학습시키며, 구분자가 생성자에서 생성된 데이터를 진짜 데이터와 구분할 수 없는 경우 해당 생성 데이터를 출력하는 것을 반복하는 모델로 설명될 수 있다.
따라서 가상 데이터 학습 모듈(143)은 적대적 생성 신경망을 이용하여 가상 데이터를 생성하고, 생성한 가상 데이터를 데이터 전처리부(120) 또는 데이터 특징 추출부(130)로 전달하여 가상 통합 특징 벡터를 출력하도록 하고, 출력된 가상 통합 특징 벡터를 이용하여 가상 데이터 학습 결과를 생성한다.
신규 데이터 분류 모듈(145)은 분류를 위해 획득하는 신규 데이터를 학습 결과를 이용하여 분류하도록 형성된다. 신규 데이터 분류 모듈(145)은 학습용 데이터가 아닌 실제로 분류를 요청하는 신규 데이터를 획득하면, 획득한 신규 데이터를 기본 데이터 학습 결과 및 가상 데이터 학습 결과를 포함하는 데이터 학습 결과를 이용하여 분류하고, 분류 결과를 출력할 수 있다.
이때, 신규 데이터 분류 모듈(145)은 신규 데이터의 분류 결과가 기 설정된 정확도 이상인 경우 분류 결과를 출력함과 동시에 해당 신규 데이터를 기본 데이터 학습 결과를 생성하기 위한 데이터로 사용하기 위해 데이터 전처리부(120)로 해당 신규 데이터를 전달하도록 형성될 수 있다.
한편, 도 6 내지 도 9에는 본 발명의 다른 실시예에 다른 데이터 통합 분석 학습을 이용한 데이터 분류 방법의 순서도가 나타나고 있다. 도 6은 본 발명의 실시예에 따른 데이터 통합 분석 학습을 이용한 데이터 분류 방법을 나타낸 순서도이고, 도 7은 도 6의 단계 S620을 나타낸 순서도이며, 도 8은 도 6의 단계 S630을 나타낸 순서도이고, 도 9는 도 6의 단계 S640을 나타낸 순서도이다.
이하에서는 도 6 내지 도 9를 이용하여 본 발명의 일 실시예에 따른 데이터 통합 분석 학습을 이용한 데이터 분류 방법에 대해 상세히 설명하도록 하며, 설명의 편의상 도 1 내지 도 5에 도시된 본 발명의 데이터 분류 장치를 이용하는 것으로 한다. 하지만, 본 발명은 이에 반드시 해당되는 것은 아니며, 유사한 동작을 수행할 수 있는 장치 또는 시스템에서도 사용 가능함이 자명하다.
도 6을 참고하면, 본 발명의 일 실시예에 따른 데이터 통합 분석 학습을 이용한 데이터 분류 방법(600, 이하 데이터 분류 방법이라 함)은 특정 물체에 대한 이미지 데이터 및 텍스트 데이터를 획득하고, 획득한 데이터를 전처리한 후 통합하여 통합 벡터 특징을 추출하며, 통합 벡터 특징을 이용하여 기계학습을 수행하고, 학습 결과를 이용하여 신규 데이터의 분류를 수행하도록 형성될 수 있다. 본 발명은 이하에서 이미지 데이터는 꽃을 촬영한 이미지로, 텍스트 데이터는 꽃을 설명한 텍스트로 정의하여 꽃의 분류를 위해 사용되는 데이터 분류 장치에 대하여 설명하지만, 본 발명은 반드시 이에 한정되는 것은 아니며, 실체가 존재하며, 실체에 대한 텍스트 설명이 가능한 모든 물체에 적용될 수 있다.
이를 위해 본 발명의 데이터 분류 방법(600)은 도 6에 도시된 바와 같이 이미지 데이터 및 텍스트 데이터를 획득하는 단계(S610), 전처리 데이터를 생성하는 단계(S620), 통합 벡터 특징을 추출하는 단계(S630) 및 학습 결과를 생성하고 신규 데이터 분류를 수행하는 단계(S640)를 포함하도록 형성된다.
이미지 데이터 및 텍스트 데이터를 획득하는 단계(S610)는 데이터 획득부를 이용하여 이미지 데이터 및 텍스트 데이터를 획득한다. 일반적으로 기계학습은 이미지 데이터만을 획득하여 수행되거나, 텍스트 데이터만을 획득하여 수행되거나, 두 데이터 모두를 이용하여 수행될 수 있다. 여기서, 보다 정확도가 높은 기계학습을 수행하기 위해서는 제공되는 데이터의 양이 증가하여야 한다.
이미지 데이터만을 이용하여 기계학습을 수행하는 경우에는 꽃에 대한 촬영 각도 등의 차이에 의해 각각의 각도에 대한 충분한 데이터를 획득할 수 없다는 문제점이 존재할 수 있으며, 텍스트 데이터만을 획득하여 기계학습을 수행하는 경우, 텍스트 데이터에 의존하기 때문에 분류를 위한 데이터로 꽃의 이미지 데이터가 입력되는 경우, 이미지 데이터와 텍스트 기계학습 결과를 매칭하기 어려운 문제점이 존재한다.
따라서, 본 발명의 데이터 분류 방법은 이러한 문제점을 극복하기 위해 이미지 데이터와 텍스트 데이터를 모두 이용하여 기계학습을 수행하며, 학습 결과 종래보다 높은 정확도를 가지고 입력 데이터를 분류할 수 있는 효과가 있다.
단계 S610은 꽃의 이미지를 이미지 데이터로 획득할 수 있으며 꽃의 외관을 텍스트로 설명한 텍스트를 텍스트 데이터로 획득할 수도 있다.
다음으로 본 발명의 데이터 분류 방법은 전처리 데이터를 생성한다(단계 S620). 단계 S620은 단계 S610에서 획득한 이미지 데이터 및 텍스트 데이터의 전처리를 각각 수행하여 전처리 데이터를 생성하기 위해 형성된다. 단계 S620은 이를 위해 도 7에 도시된 바와 같이 이미지 전처리를 수행하는 단계(S621) 및 텍스트 전처리를 수행하는 단계(S623)를 포함할 수 있다.
이미지 전처리를 수행하는 단계(S621)는 이미지 데이터의 전처리인 이미지 전처리를 수행한다. 이미지 전처리는 이미지 데이터의 크기를 기 설정된 크기로 규격화하는 것을 의미한다. 이미지 데이터는 서로 다른 크기로 입력될 수 있다. 이 경우, 이미지의 크기에 따라 이미지 데이터의 특징 추출 결과 서로 다른 크기의 벡터가 획득될 수 있으며 이로 인해 데이터를 일정하게 학습하기 어렵다는 문제점이 존재한다. 따라서, 단계 S621은 이미지 데이터의 크기를 규격화하는 이미지 전처리를 수행하여 이미지 전처리 데이터를 생성함으로써, 항상 동일한 크기의 이미지 데이터를 학습하고 동일한 크기의 벡터를 획득하도록 할 수 있다.
텍스트 전처리를 수행하는 단계(S623)는 텍스트 데이터의 전처리인 텍스트 전처리를 수행한다. 텍스트 전처리는 텍스트를 형태소로 분류하여 학습하고, 중심 단어로부터 주변 단어를 추측하는 스킵-그램(skip-gram) 알고리즘을 이용하는 것을 의미한다.
단계 S620은 이미지 데이터와 텍스트 데이터를 각각 단계 S621 및 단계 S623에서 전처리한 이미지 전처리 데이터 및 텍스트 전처리 데이터를 포함하는 전처리 데이터를 후술되는 단계 S630으로 전달할 수 있다.
다음으로 본 발명은 통합 벡터 특징을 추출한다(단계 S630). 단계 S630은 전처리 데이터를 획득하여 데이터의 특징인 통합 벡터 특징을 추출하도록 형성된다. 단계 S630은 이를 위해 도 8에 도시된 바와 같이 이미지 데이터 벡터를 추출하는 단계(S631), 텍스트 데이터 벡터를 추출하는 단계(S633) 및 통합 벡터 특징을 추출하는 단계(S635)를 포함하여 형성될 수 있다.
이미지 데이터 벡터를 추출하는 단계(S631)는 이미지 데이터의 특징을 추출하기 위해 형성된다. 단계 S631에서는 전처리 데이터 중 이미지 전처리 데이터를 획득하고, 획득한 이미지 전처리 데이터의 특징을 추출하기 위해 익히 알려진 CNN 알고리즘을 사용할 수 있다. 이때, 이미지 전처리 데이터는 기 설정된 규격의 크기로 전처리되었기 때문에 추출되는 이미지 전처리 데이터의 특징은 최초 입력된 이미지 데이터의 크기와 상관없이 동일한 크기로 추출될 수 있다.
텍스트 데이터 벡터를 추출하는 단계(S633)는 텍스트 데이터의 특징을 추출하기 위해 형성된다. 단계 S633은 전처리 데이터 중 텍스트 전처리 데이터를 획득하고, 획득한 텍스트 전처리 데이터의 특징을 추출하기 위해 익히 알려진 CNN 알고리즘을 사용할 수 있다.
통합 벡터 특징을 추출하는 단계(S635)는 이미지 데이터 벡터와 텍스트 데이터 벡터를 통합한 통합 벡터의 특징을 추출하도록 형성된다. 단계 S635는 통합 벡터를 생성하기 위해 이미지 데이터 벡터와 텍스트 데이터 벡터를 서로 교차 배치할 수 있다.
일 예로, 텍스트 데이터 벡터가 3x1x256의 크기로 형성되고 이미지 데이터 벡터가 1x1x256의 크기로 형성되는 경우, 단계 S635는 통합 벡터를 생성하기 위해 이미지 데이터 벡터를 두 번 복제하여 총 3개의 이미지 데이터 벡터를 획득한다. 이후, 단계 S635는 텍스트 데이터 벡터의 한 행과 이미지 데이터 벡터를 교차하여 배치하여 총 6x1x256크기의 행렬로 표현되는 통합 벡터를 획득할 수 있다.
단계 S635는 텍스트 데이터 벡터와 이미지 데이터 벡터를 이용하여 통합 벡터를 획득하면, 획득한 통합 벡터에 CNN 알고리즘을 적용하여 통합 벡터의 특징인 통합 벡터 특징을 획득할 수 있다.
마지막으로 본 발명의 일 실시예에 따른 데이터 분류 방법은, 학습 결과를 생성하고 신규 데이터 분류를 수행한다(단계 S640). 단계 S640은 단계 S630에서 획득한 통합 벡터 특징을 이용하여 데이터 학습을 수행하여 학습 결과를 생성하고, 학습 결과를 이용하여 신규 데이터의 분류를 수행할 수 있다. 단계 S640은 이를 위해 도 9에 도시된 바와 같이 기본 데이터 학습 결과를 생성하는 단계(S641), 가상 데이터 학습 결과를 생성하는 단계(S643) 및 신규 데이터를 학습 결과를 이용하여 분류하는 단계(S645)를 포함하여 형성될 수 있다.
기본 데이터 학습 결과를 생성하는 단계(S641)는 통합 벡터 특징을 이용하여 데이터 학습을 수행하여 기본 데이터 학습 결과를 생성하도록 형성된다. 본 발명의 데이터 분류 방법이 데이터 분류를 수행하기 위해서는 데이터의 학습이 요구된다. 따라서, 단계 S641은 최초에 획득한 데이터 풀로부터 획득한 학습용 데이터들의 통합 벡터 특징을 이용하여 데이터 학습을 수행하고, 수행 결과로 기본 데이터 학습 결과를 생성할 수 있다.
가상 데이터 학습 결과를 생성하는 단계(S643)는 학습용 가상 데이터를 생성하고, 생성한 학습용 가상 데이터를 이용하여 데이터 학습을 수행하고 가상 데이터 학습 결과를 생성하도록 형성된다.
일반적으로 기계학습을 통해 획득하는 결과물의 정확도는 공급되는 학습용 데이터의 양과 질에 의존한다. 하지만, 학습용 데이터를 관리자가 직접 생성하여 제공하는 것에는 물리적으로 한계가 존재한다. 따라서, 보다 쉽게 정확도를 증가시키기 위해 단계 S643에서는 스스로 학습용 가상 데이터를 생성하고, 생성한 학습용 가상 데이터를 이용하여 학습하고 학습 결과로 가상 데이터 학습 결과를 생성할 수 있다.
이를 위해 본 발명의 일 실시예에서 단계 S643은 적대적 생성 신경망(Generative Adversarial Network) 모델을 이용할 수 있다. 적대적 생성 신경망(GAN)은 생성자와 구분자를 경쟁적으로 학습시키며, 구분자가 생성자에서 생성된 데이터를 진짜 데이터와 구분할 수 없는 경우 해당 생성 데이터를 출력하는 것을 반복하는 모델로 설명될 수 있다.
따라서 단계 S643은 적대적 생성 신경망을 이용하여 가상 데이터를 생성하고, 생성한 가상 데이터를 단계 S620 또는 단계 S630으로 전달하여 가상 통합 특징 벡터를 출력하도록 하고, 출력된 가상 통합 특징 벡터를 이용하여 가상 데이터 학습 결과를 생성한다.
마지막으로 본 발명의 데이터 분류 방법은 신규 데이터를 학습 결과를 이용하여 분류한다(단계 S645). 단계 S645는 분류를 위해 획득하는 신규 데이터를 학습 결과를 이용하여 분류하도록 형성된다. 단계 S645는 학습용 데이터가 아닌 실제로 분류를 요청하는 신규 데이터를 획득하면, 획득한 신규 데이터를 기본 데이터 학습 결과 및 가상 데이터 학습 결과를 포함하는 데이터 학습 결과를 이용하여 분류하고, 분류 결과를 출력할 수 있다.
이때, 단계 S645는 신규 데이터의 분류 결과가 기 설정된 정확도 이상인 경우 분류 결과를 출력함과 동시에 해당 신규 데이터를 기본 데이터 학습 결과를 생성하기 위한 데이터로 사용하기 위해 단계 S620으로 해당 신규 데이터를 전달할 수도 있다.
한편, 도 1 내지 도 9에 도시된 본 발명의 데이터 통합 분석 학습을 이용한 데이터 분류 장치(100) 및 데이터 통합 분석 학습을 이용한 데이터 분류 방법(600)은 도 10에 도시된 과정을 통해 수행될 수 있다.
도 10을 참고하면, 본 발명의 데이터 분류 장치(100) 및 데이터 분류 방법(600)은 텍스트 데이터 및 이미지 데이터를 이용하여 통합 벡터 특징을 획득하기 위해 (a) 내지 (c) 단계를 이용할 수 있다.
본 발명은 텍스트 데이터(Td)와 이미지 데이터(Id)를 각각 획득한다. 도 10은 데이터 분류 장치(100)의 경우 데이터 특징 추출부(130)에서 수행될 수 있으며, 데이터 분류 방법(600)의 경우 통합 벡터 특징을 추출하는 단계(S630)에서 수행될 수 있다. 도 10에서 획득되는 텍스트 데이터(Td) 및 이미지 데이터(Id)는 데이터 분류 장치(100)의 경우 데이터 전처리부(120)에서 전처리 된 텍스트 전처리 데이터 및 이미지 전처리 데이터 일 수 있으며, 데이터 분류 방법(600)의 경우 전처리 데이터를 생성하는 단계인 S620에서 생성된 텍스트 전처리 데이터 및 이미지 전처리 데이터 일 수 있다.
단계 (a)에서, 텍스트 데이터(Td)는 3x1x256의 벡터로 제공되고, 이미지 데이터(Id)는 1x1x256의 벡터로 제공된다. 본 발명에 의하면, 텍스트 데이터(Td)와 이미지 데이터(Id)를 합성하여 통합 벡터를 만들기 위해서는 두 데이터가 동일한 형태여야 한다. 따라서, 단계 (a)는 통합 벡터를 생성하기 위해 데이터의 형태를 일치시키기 위해 수행되며 바람직하게는 이미지 데이터(Id)를 두 개 복제하여 총 3개의 이미지 데이터(Id)를 구비할 수 있다.
따라서, 단계 (a)의 최종 부산물은 하나의 텍스트 데이터(Td)와 세 개의 이미지 데이터(Id)이며, 이는 도 10에 도시된 바와 같이 텍스트 데이터(Td)는 서로 다른 3개의 행(가, 나, 다)이 형성되어 있지만, 이미지 데이터(Id)는 서로 동일한 3개의 행(A)이 형성되는 것으로 표현될 수 있다.
이후, 본 발명은 단계 (b)를 수행하여 통합 벡터를 생성한다. 통합 벡터는 텍스트 데이터(Td)와 이미지 데이터(Id)의 합성으로 형성되며, 본 발명에서는 두 데이터가 동일한 형태로 구비되기 때문에 서로 교차하도록 배열하여 통합 벡터를 생성할 수 있다. 도 10에서는, 단계 (a)에서 획득한 텍스트 데이터(Td) 및 이미지 데이터(Id)가 각각 3x1x256의 배열을 가지는 벡터로 형성되며, 텍스트 데이터(Td)는 가, 나, 다 3개의 행을 가지고 이미지 데이터(Id)는 A, A, A 3개의 행을 가지기 때문에 단계 (b)에 도시되는 바와 같이 가, A, 나, A, 다, A 총 6개의 행을 가지는 6x1x256의 통합 벡터를 생성할 수 있다.
이때, 설명의 편의상 본 발명에서는 텍스트 데이터(Td)와 이미지 데이터(Id)가 교차 배열되는 것으로 설명하였지만, 설정에 따라 이미지 데이터(Id)와 텍스트 데이터(Td)가 교차 배열되어 A, 가, A, 나, A, 다 순서의 행을 가지는 6x1x256의 통합 벡터를 생성할 수도 있다.
마지막으로 도 10에서 본 발명은 단계 (b)에서 생성된 통합 벡터에 CNN 알고리즘을 적용하여 convolution과 Max pooling을 수행하여 통합 벡터의 특징을 획득하도록 할 수 있다. 이때, 통합 벡터의 특징은 텍스트 데이터(Td) 또는 이미지 데이터(Id) 단독의 특징이 아닌 두 데이터를 통합한 데이터의 특징이기 때문에 기존의 두 데이터 각각의 특징을 이용하는 기술보다 높은 정확도를 가질 수 있다.
한편, 이러한 종래 기술 대비 본 발명의 정확도 측정 및 비교 실험 결과가 하기 표 1에 표시되고 있다.
데이터 통합 모델 분류 정확도
표현학습 통합 m-RNN 82.91%
m-CNN 78.56%
Baj et al.(2018) 92.52%
Modified m-CNN(본 발명) 93.69%
분류자 통합 Text CNN & VGG16 Co-prediction 81.63%
Ensemble 82.12%
TEXT CNN(Kim,2014) & VGG16 Co-prediction 89.22%
Ensemble 90.81%
LSTM & VGG16 Co-prediction 90.54%
Ensemble 90.94%
BLSTM & VGG16 Co-prediction 91.12%
Ensemble 92.28%
일반적인 기계학습에서는 데이터 통합을 수행할 수 있는 두 가지 포인트가 존재하며, 본 발명에서는 두 포인트에서의 데이터 통합을 각각 표현 학습 통합(Fusion in the learned representations) 및 분류자 통합(Fusion in the classifiers)으로 정의하였다.
표 1의 실험 결과를 획득하기 위한 이미지 데이터로는 Oxford 102 Category Flower 데이터 셋(Nilsback & Zisserman, 2008)을 사용하였다. 데이터 셋에는 총 102가지 종류의 꽃 사진이 8,189개 포함되어 있으며, 꽃의 종류별로 40 내지 258장의 사진이 구비되어 있다. 따라서, 본 발명은 본 실험에서 총 8,189개의 이미지 데이터를 획득할 수 있다.
한편 표 1의 실험 결과를 획득하기 위한 텍스트 데이터로는 이미지 데이터로 사용한 옥스포드 데이터 셋에 포함된 꽃의 텍스트 설명 데이터 셋 및 Reed et al.(2016)의 옥스포드 데이터 셋을 설명한 텍스트 데이터 셋을 이용하였다. 텍스트 데이터 셋은 영어로 표현되어 있기 때문에 본 발명에서는 상술한 바와 같이 한국어 텍스트 데이터 셋을 Skip-Gram 전처리 하기 위해 편의상 네이버 파파고 신경 기계 번역(Lee at al., 2016)을 이용하였다.
상기 표 1은 두 가지 데이터를 이용하여 꽃의 분류를 수행한 정확도를 나타낸 도이며, 본 발명의 모델을 Modified m-CNN으로 명명하였으며, 나머지는 종래 기술 모델을 의미한다. 표현학습 통합의 m-CNN을 제외하고는 모두 80% 이상의 분류 정확도를 나타내며, 특히 익히 알려진 통합 학습 모델인 m-RNN 및 m-CNN은 각각 82.91% 및 78.56%의 정확도로 종래 기술 모델 중 최하위권의 정확도를 가지는 것을 확인할 수 있다. 또 분류자 통합 모델은 최하 81.63% 내지 92.28%의 정확도를 나타낸다.
본 실험에서는 본 발명의 가상 데이터 학습 모듈(143) 및 가상 데이터 학습 결과를 생성하는 단계(S643)를 사용하지 않았으며, 가상 데이터 학습을 수행하지 않더라도 정확도가 가장 높게 나타났기 때문에, 가상 데이터 학습을 수행하는 경우에는 더 높은 정확도를 나타낼 수 있을 것이며, 따라서 종래 모델들보다 유의미하게 높은 정확도를 가진다는 장점이 존재한다.
이상에서 본 발명의 일 실시예에 대하여 설명하였으나, 본 발명의 사상은 본 명세서에 제시되는 실시 예에 제한되지 아니하며, 본 발명의 사상을 이해하는 당업자는 동일한 사상의 범위 내에서, 구성요소의 부가, 변경, 삭제, 추가 등에 의해서 다른 실시 예를 용이하게 제안할 수 있을 것이나, 이 또한 본 발명의 사상범위 내에 든다고 할 것이다.
100: 데이터 통합 분석 학습을 이용한 데이터 분류 장치
110: 데이터 획득부
111: 이미지 데이터 획득 모듈
113: 텍스트 데이터 획득 모듈
120: 데이터 전처리부
121: 이미지 데이터 전처리 모듈
123: 텍스트 데이터 전처리 모듈
130: 데이터 특징 추출부
131: 이미지 데이터 벡터 추출 모듈
133: 텍스트 데이터 벡터 추출 모듈
135: 통합 벡터 특징 추출 모듈
140: 데이터 학습부
141: 기본 데이터 학습 모듈
143: 가상 데이터 학습 모듈
145: 신규 데이터 분류 모듈

Claims (13)

  1. 이미지 데이터 및 텍스트 데이터를 획득하도록 형성되는 데이터 획득부;
    획득한 상기 이미지 데이터 및 상기 텍스트 데이터의 전처리를 각각 수행하여 전처리 데이터를 생성하도록 형성되는 데이터 전처리부;
    상기 전처리 데이터를 획득하여 상기 데이터의 특징인 통합 벡터 특징을 추출하도록 형성되는 데이터 특징 추출부; 및
    상기 통합 벡터 특징을 이용하여 데이터 학습을 수행하여 학습 결과를 생성하고, 상기 학습 결과를 이용하여 신규 데이터의 분류를 수행하도록 형성되는 데이터 학습부;를 포함하는 데이터 통합 분석 학습을 이용한 데이터 분류 장치.
  2. 제 1항에 있어서,
    상기 데이터 획득부는,
    상기 이미지 데이터를 획득하는 이미지 데이터 획득 모듈; 및
    상기 텍스트 데이터를 획득하는 텍스트 데이터 획득 모듈;을 포함하여 형성되는 데이터 통합 분석 학습을 이용한 데이터 분류 장치.
  3. 제 1항에 있어서,
    상기 데이터 전처리부는,
    상기 이미지 데이터의 전처리인 이미지 전처리를 수행하는 이미지 데이터 전처리 모듈; 및
    상기 텍스트 데이터의 전처리인 텍스트 전처리를 수행하는 텍스트 데이터 전처리 모듈;을 포함하며,
    상기 이미지 전처리는 상기 이미지 데이터의 크기를 기 설정된 크기로 규격화 처리하여 이미지 전처리 데이터를 생성하고,
    상기 텍스트 전처리는 상기 텍스트를 형태소로 분류하여 학습하고, skip-gram 알고리즘을 이용하여 중심 단어로부터 주변 단어를 추측하도록 처리하여 텍스트 전처리 데이터를 생성하는 데이터 통합 분석 학습을 이용한 데이터 분류 장치.
  4. 제 3항에 있어서,
    상기 데이터 특징 추출부는,
    상기 이미지 전처리 데이터의 특징을 추출하기 위해 CNN 알고리즘을 이용하여 이미지 데이터 벡터를 추출하도록 형성되는 이미지 데이터 벡터 추출 모듈;
    상기 텍스트 전처리 데이터의 특징을 추출하기 위해 CNN 알고리즘을 이용하여 텍스트 데이터 벡터를 추출하도록 형성되는 텍스트 데이터 벡터 추출 모듈; 및
    상기 이미지 데이터 벡터와 텍스트 데이터 벡터를 통합한 통합 벡터의 특징을 CNN 알고리즘을 이용하여 추출하도록 형성되는 통합 벡터 특징 추출 모듈;을 포함하는 데이터 통합 분석 학습을 이용한 데이터 분류 장치.
  5. 제 4항에 있어서,
    상기 통합 벡터는, 상기 텍스트 데이터 벡터와 상기 이미지 데이터 벡터가 행별로 교차 배치되어 형성되며, 상기 이미지 데이터 벡터를 상기 텍스트 데이터 벡터와 동일한 개수만큼 이용하기 위해 상기 이미지 데이터 벡터가 부족한 개수만큼 상기 이미지 데이터 벡터를 복제하여 형성되는 데이터 통합 분석 학습을 이용한 데이터 분류 장치.
  6. 제 1항에 있어서,
    상기 데이터 학습부는,
    상기 통합 벡터 특징을 이용하여 데이터 학습을 수행하여 상기 기본 데이터 학습 결과를 생성하는 기본 데이터 학습 모듈; 및
    분류를 위해 획득한 상기 신규 데이터를 상기 학습 결과를 이용하여 분류하도록 형성되는 신규 데이터 분류 모듈;을 포함하는 데이터 통합 분석 학습을 이용한 데이터 분류 장치.
  7. 제 6항에 있어서,
    상기 신규 데이터 분류 모듈은, 상기 신규 데이터의 분류 결과가 기 설정된 정확도 이상인 경우, 해당 신규 데이터를 상기 기본 데이터 학습 결과를 생성하기 위한 데이터로 사용하기 위해 상기 데이터 전처리부로 전달하는 데이터 통합 분석 학습을 이용한 데이터 분류 장치.
  8. 제 1항 내지 제 7항 중 어느 한 항의 데이터 분류 장치를 이용하는 데이터 통합 분석 학습을 이용한 데이터 분류 방법에 있어서,
    이미지 데이터 및 텍스트 데이터를 획득하는 단계;
    획득한 상기 이미지 데이터 및 상기 텍스트 데이터의 전처리를 각각 수행하여 전처리 데이터를 생성하는 단계;
    상기 전처리 데이터를 획득하여 상기 데이터의 특징인 통합 벡터 특징을 추출하는 단계; 및
    상기 통합 벡터 특징을 이용하여 데이터 학습을 수행하여 학습 결과를 생성하고, 상기 학습 결과를 이용하여 신규 데이터의 분류를 수행하는 단계;를 포함하는 데이터 통합 분석 학습을 이용한 데이터 분류 방법.
  9. 제 8항에 있어서,
    상기 전처리 데이터를 생성하는 단계;는
    상기 이미지 데이터의 전처리인 이미지 전처리를 수행하는 단계; 및
    상기 텍스트 데이터의 전처리인 텍스트 전처리를 수행하는 단계;를 포함하며,
    상기 이미지 전처리는 상기 이미지 데이터의 크기를 기 설정된 크기로 규격화 처리하여 이미지 전처리 데이터를 생성하고,
    상기 텍스트 전처리는 상기 텍스트를 형태소로 분류하여 학습하고, skip-gram 알고리즘을 이용하여 중심 단어로부터 주변 단어를 추측하도록 처리하여 텍스트 전처리 데이터를 생성하는 데이터 통합 분석 학습을 이용한 데이터 분류 방법.
  10. 제 9항에 있어서,
    상기 통합 벡터 특징을 추출하는 단계;는,
    상기 이미지 전처리 데이터의 특징을 추출하기 위해 CNN 알고리즘을 이용하여 이미지 데이터 벡터를 추출하는 단계;
    상기 텍스트 전처리 데이터의 특징을 추출하기 위해 CNN 알고리즘을 이용하여 텍스트 데이터 벡터를 추출하는 단계; 및
    상기 이미지 데이터 벡터와 텍스트 데이터 벡터를 통합한 통합 벡터의 특징을 CNN 알고리즘을 이용하여 추출하는 단계;를 포함하는 데이터 통합 분석 학습을 이용한 데이터 분류 방법.
  11. 제 10항에 있어서,
    상기 통합 벡터는, 상기 텍스트 데이터 벡터와 상기 이미지 데이터 벡터가 행별로 교차 배치되어 형성되며, 상기 이미지 데이터 벡터를 상기 텍스트 데이터 벡터와 동일한 개수만큼 이용하기 위해 상기 이미지 데이터 벡터가 부족한 개수만큼 상기 이미지 데이터 벡터를 복제하여 형성되는 데이터 통합 분석 학습을 이용한 데이터 분류 방법.
  12. 제 8항에 있어서,
    상기 신규 데이터의 분류를 수행하는 단계;는,
    상기 통합 벡터 특징을 이용하여 데이터 학습을 수행하여 상기 기본 데이터 학습 결과를 생성하는 단계; 및
    분류를 위해 획득한 상기 신규 데이터를 상기 학습 결과를 이용하여 분류하는 단계;를 포함하는 데이터 통합 분석 학습을 이용한 데이터 분류 방법.
  13. 제 12항에 있어서,
    상기 신규 데이터를 상기 학습 결과를 이용하여 분류하는 단계;는,
    상기 신규 데이터의 분류 결과가 기 설정된 정확도 이상인 경우, 해당 신규 데이터를 상기 기본 데이터 학습 결과를 생성하기 위한 데이터로 사용하기 위해 상기 전처리 데이터를 생성하는 단계로 전달하는 데이터 통합 분석 학습을 이용한 데이터 분류 방법.
KR1020200189633A 2020-12-31 2020-12-31 데이터 통합 분석 학습을 이용한 데이터 분류 장치 및 방법 KR102533775B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200189633A KR102533775B1 (ko) 2020-12-31 2020-12-31 데이터 통합 분석 학습을 이용한 데이터 분류 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200189633A KR102533775B1 (ko) 2020-12-31 2020-12-31 데이터 통합 분석 학습을 이용한 데이터 분류 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20220097814A true KR20220097814A (ko) 2022-07-08
KR102533775B1 KR102533775B1 (ko) 2023-05-19

Family

ID=82407586

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200189633A KR102533775B1 (ko) 2020-12-31 2020-12-31 데이터 통합 분석 학습을 이용한 데이터 분류 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102533775B1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200084940A (ko) 2018-12-24 2020-07-14 순천대학교 산학협력단 Cnn 기반 병해 및 손상 과일 분류 장치 및 방법
KR20200087977A (ko) * 2019-01-14 2020-07-22 강원대학교산학협력단 멀티모달 문서 요약 시스템 및 방법
KR20200098379A (ko) * 2019-02-12 2020-08-20 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 이미지 기반의 데이터 처리 방법, 장치, 기기 및 판독 가능 저장 매체
KR20200144417A (ko) * 2019-06-18 2020-12-29 빅펄 주식회사 멀티모달 콘텐츠 분석 시스템 및 그 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200084940A (ko) 2018-12-24 2020-07-14 순천대학교 산학협력단 Cnn 기반 병해 및 손상 과일 분류 장치 및 방법
KR20200087977A (ko) * 2019-01-14 2020-07-22 강원대학교산학협력단 멀티모달 문서 요약 시스템 및 방법
KR20200098379A (ko) * 2019-02-12 2020-08-20 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 이미지 기반의 데이터 처리 방법, 장치, 기기 및 판독 가능 저장 매체
KR20200144417A (ko) * 2019-06-18 2020-12-29 빅펄 주식회사 멀티모달 콘텐츠 분석 시스템 및 그 방법

Also Published As

Publication number Publication date
KR102533775B1 (ko) 2023-05-19

Similar Documents

Publication Publication Date Title
US11899927B2 (en) Simulated handwriting image generator
Oszust et al. Polish sign language words recognition with Kinect
Hoque et al. Real time bangladeshi sign language detection using faster r-cnn
Kadhim et al. A Real-Time American Sign Language Recognition System using Convolutional Neural Network for Real Datasets.
JP2012160178A (ja) オブジェクト認識デバイス、オブジェクト認識を実施する方法および動的アピアランスモデルを実施する方法
Ahmed et al. Hand sign to Bangla speech: a deep learning in vision based system for recognizing hand sign digits and generating Bangla speech
CN113870395A (zh) 动画视频生成方法、装置、设备及存储介质
Khan et al. An efficient sign language translator device using convolutional neural network and customized ROI segmentation
CN115130613B (zh) 虚假新闻识别模型构建方法、虚假新闻识别方法与装置
Martinez-Martin et al. Deep learning techniques for Spanish sign language interpretation
Augusto Borges Oliveira et al. Improving viseme recognition using GAN-based frontal view mapping
Mahesha et al. Crime scene analysis using deep learning
KR102533775B1 (ko) 데이터 통합 분석 학습을 이용한 데이터 분류 장치 및 방법
US11756244B1 (en) System and method for handwriting generation
Sudhakar et al. Image caption generation using deep neural networks
AU2021106049A4 (en) An enhancing visual data caption generation using machine learning
US11132514B1 (en) Apparatus and method for applying image encoding recognition in natural language processing
CN113887373A (zh) 基于城市智慧体育的并行融合网络的姿态识别方法和系统
Kumar et al. A deep neural framework for continuous sign language recognition by iterative training
Rawale et al. Image captioning generator system with caption to speech conversion mechanism
Prietch et al. Discussion on Image Processing for Sign Language Recognition: An overview of the problem complexity
Nasr et al. SemGAN: Text to Image Synthesis from Text Semantics using Attentional Generative Adversarial Networks
Chanda et al. Automatic hand gesture recognition with semantic segmentation and deep learning
Kamble et al. Deep Learning-Based Sign Language Recognition and Translation
Shimanuki Joint generation of image and text with GANs

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right