KR102533775B1

KR102533775B1 - 데이터 통합 분석 학습을 이용한 데이터 분류 장치 및 방법

Info

Publication number: KR102533775B1
Application number: KR1020200189633A
Authority: KR
Inventors: 임창원; 이영섭; 이종가; 박정훈; 배강일
Original assignee: 중앙대학교 산학협력단; 동국대학교 산학협력단
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2023-05-19
Also published as: KR20220097814A

Abstract

데이터 통합 분석 학습을 이용한 데이터 분류 장치 및 방법이 제공된다. 본 발명의 실시예에 따른 데이터 통합 분석 학습을 이용한 데이터 분류 장치는, 이미지 데이터 및 텍스트 데이터를 획득하도록 형성되는 데이터 획득부; 획득한 상기 이미지 데이터 및 상기 텍스트 데이터의 전처리를 각각 수행하여 전처리 데이터를 생성하도록 형성되는 데이터 전처리부; 상기 전처리 데이터를 획득하여 상기 데이터의 특징인 통합 벡터 특징을 추출하도록 형성되는 데이터 특징 추출부; 및 상기 통합 벡터 특징을 이용하여 데이터 학습을 수행하여 학습 결과를 생성하고, 상기 학습 결과를 이용하여 신규 데이터의 분류를 수행하도록 형성되는 데이터 학습부;를 포함한다.

Description

데이터 통합 분석 학습을 이용한 데이터 분류 장치 및 방법{Data classification device and method using integrated data analysis learning}

본 발명은 데이터 통합 분석 학습을 이용한 데이터 분류 장치 및 방법에 관한 것으로, 특히, 이미지 데이터와 텍스트 데이터를 분석하여 통합한 후 기계학습 알고리즘을 이용하여 학습한 학습 결과를 이용하여 데이터를 분류하는 데이터 통합 분석 학습을 이용한 데이터 분류 장치 및 방법에 관한 것이다.

최근 인공지능 및 프로세서의 발달로 인하여 수많은 정보를 빠른 시간 안에 정확히 처리할 수 있는 기술이 발전하고 있다. 이러한 기술의 일 예로 기계학습 또는 머신 러닝이라 불리우는 다량의 데이터를 처리할 수 있는 기술이 존재한다. 기계학습이란, 기계가 일일이 코드로 명시하지 않은 동작을 데이터로부터 학습하여 실행할 수 있도록 하는 알고리즘을 의미한다.

즉, 일 예로 컴퓨터가 다량의 데이터를 획득하여 기계학습을 수행하면 이후 어떤 데이터가 들어오게 된다면 학습 결과와 알고리즘을 이용하여 해당 데이터를 분류하는 기술이 기계학습으로 일컬어 질 수 있다. 이러한 기계학습의 경우 대량의 데이터를 컴퓨터가 학습하고, 학습한 결과를 이용하여 데이터의 분류를 수행하기 때문에 사용자가 일일이 그 결과물을 검토하기 힘들며, 따라서 결과물에 대한 신뢰도, 다시 말해 분류의 정확도가 높아져야 하는 문제점이 존재한다.

한국공개특허 제10-2020-0084940호

상기와 같은 종래 기술의 문제점을 해결하기 위해, 본 발명의 일 실시예는 이미지 데이터와 텍스트 데이터를 통합하여 분석함으로써 보다 높은 정확도의 학습 결과를 획득할 수 있는 데이터 통합 분석 학습을 이용한 데이터 분류 장치 및 방법을 제공하고자 한다.

또, 본 발명의 일 실시예는 이미지 데이터와 텍스트 데이터를 통합하여 분석함으로써 종래보다 높은 정확도로 입력되는 데이터를 분류할 수 있는 데이터 통합 분석 학습을 이용한 데이터 분류 장치 및 방법을 제공하고자 한다.

위와 같은 과제를 해결하기 위한 본 발명의 일 측면에 따르면, 데이터 통합 분석 학습을 이용한 데이터 분류 장치가 제공된다. 상기 데이터 통합 분석 학습을 이용한 데이터 분류 장치는, 이미지 데이터 및 텍스트 데이터를 획득하도록 형성되는 데이터 획득부; 획득한 상기 이미지 데이터 및 상기 텍스트 데이터의 전처리를 각각 수행하여 전처리 데이터를 생성하도록 형성되는 데이터 전처리부; 상기 전처리 데이터를 획득하여 상기 데이터의 특징인 통합 벡터 특징을 추출하도록 형성되는 데이터 특징 추출부; 및 상기 통합 벡터 특징을 이용하여 데이터 학습을 수행하여 학습 결과를 생성하고, 상기 학습 결과를 이용하여 신규 데이터의 분류를 수행하도록 형성되는 데이터 학습부;를 포함한다.

상기 데이터 획득부는, 상기 이미지 데이터를 획득하는 이미지 데이터 획득 모듈; 및 상기 텍스트 데이터를 획득하는 텍스트 데이터 획득 모듈;을 포함하여 형성될 수 있다.

상기 데이터 전처리부는, 상기 이미지 데이터의 전처리인 이미지 전처리를 수행하는 이미지 데이터 전처리 모듈; 및 상기 텍스트 데이터의 전처리인 텍스트 전처리를 수행하는 텍스트 데이터 전처리 모듈;을 포함하며, 상기 이미지 전처리는 상기 이미지 데이터의 크기를 기 설정된 크기로 규격화 처리하여 이미지 전처리 데이터를 생성하고, 상기 텍스트 전처리는 상기 텍스트를 형태소로 분류하여 학습하고, skip-gram 알고리즘을 이용하여 중심 단어로부터 주변 단어를 추측하도록 처리하여 텍스트 전처리 데이터를 생성할 수 있다.

상기 데이터 특징 추출부는, 상기 이미지 전처리 데이터의 특징을 추출하기 위해 CNN 알고리즘을 이용하여 이미지 데이터 벡터를 추출하도록 형성되는 이미지 데이터 벡터 추출 모듈; 상기 텍스트 전처리 데이터의 특징을 추출하기 위해 CNN 알고리즘을 이용하여 텍스트 데이터 벡터를 추출하도록 형성되는 텍스트 데이터 벡터 추출 모듈; 및 상기 이미지 데이터 벡터와 텍스트 데이터 벡터를 통합한 통합 벡터의 특징을 CNN 알고리즘을 이용하여 추출하도록 형성되는 통합 벡터 특징 추출 모듈;을 포함할 수 있다.

상기 통합 벡터는, 상기 텍스트 데이터 벡터와 상기 이미지 데이터 벡터가 행별로 교차 배치되어 형성되며, 상기 이미지 데이터 벡터를 상기 텍스트 데이터 벡터와 동일한 개수만큼 이용하기 위해 상기 이미지 데이터 벡터가 부족한 개수만큼 상기 이미지 데이터 벡터를 복제하여 형성될 수 있다.

상기 데이터 학습부는, 상기 통합 벡터 특징을 이용하여 데이터 학습을 수행하여 상기 기본 데이터 학습 결과를 생성하는 기본 데이터 학습 모듈; 및 분류를 위해 획득한 상기 신규 데이터를 상기 학습 결과를 이용하여 분류하도록 형성되는 신규 데이터 분류 모듈;을 포함할 수 있다.

상기 신규 데이터 분류 모듈은, 상기 신규 데이터의 분류 결과가 기 설정된 정확도 이상인 경우, 해당 신규 데이터를 상기 기본 데이터 학습 결과를 생성하기 위한 데이터로 사용하기 위해 상기 데이터 전처리부로 전달할 수 있다.

본 발명의 일 측면에 따르면, 데이터 분류 장치를 이용하는 데이터 통합 분석 학습을 이용한 데이터 분류 방법이 제공된다. 상기 데이터 통합 분석 학습을 이용한 데이터 분류 방법은, 이미지 데이터 및 텍스트 데이터를 획득하는 단계; 획득한 상기 이미지 데이터 및 상기 텍스트 데이터의 전처리를 각각 수행하여 전처리 데이터를 생성하는 단계; 상기 전처리 데이터를 획득하여 상기 데이터의 특징인 통합 벡터 특징을 추출하는 단계; 및 상기 통합 벡터 특징을 이용하여 데이터 학습을 수행하여 학습 결과를 생성하고, 상기 학습 결과를 이용하여 신규 데이터의 분류를 수행하는 단계;를 포함한다.

상기 전처리 데이터를 생성하는 단계;는 상기 이미지 데이터의 전처리인 이미지 전처리를 수행하는 단계; 및 상기 텍스트 데이터의 전처리인 텍스트 전처리를 수행하는 단계;를 포함하며, 상기 이미지 전처리는 상기 이미지 데이터의 크기를 기 설정된 크기로 규격화 처리하여 이미지 전처리 데이터를 생성하고, 상기 텍스트 전처리는 상기 텍스트를 형태소로 분류하여 학습하고, skip-gram 알고리즘을 이용하여 중심 단어로부터 주변 단어를 추측하도록 처리하여 텍스트 전처리 데이터를 생성할 수 있다.

상기 통합 벡터 특징을 추출하는 단계;는, 상기 이미지 전처리 데이터의 특징을 추출하기 위해 CNN 알고리즘을 이용하여 이미지 데이터 벡터를 추출하는 단계; 상기 텍스트 전처리 데이터의 특징을 추출하기 위해 CNN 알고리즘을 이용하여 텍스트 데이터 벡터를 추출하는 단계; 및 상기 이미지 데이터 벡터와 텍스트 데이터 벡터를 통합한 통합 벡터의 특징을 CNN 알고리즘을 이용하여 추출하는 단계;를 포함할 수 있다.

상기 신규 데이터의 분류를 수행하는 단계;는, 상기 통합 벡터 특징을 이용하여 데이터 학습을 수행하여 상기 기본 데이터 학습 결과를 생성하는 단계; 및 분류를 위해 획득한 상기 신규 데이터를 상기 학습 결과를 이용하여 분류하는 단계;를 포함할 수 있다.

상기 신규 데이터를 상기 학습 결과를 이용하여 분류하는 단계;는, 상기 신규 데이터의 분류 결과가 기 설정된 정확도 이상인 경우, 해당 신규 데이터를 상기 기본 데이터 학습 결과를 생성하기 위한 데이터로 사용하기 위해 상기 전처리 데이터를 생성하는 단계로 전달할 수 있다.

본 발명의 일 실시예에 따른 데이터 통합 분석 학습을 이용한 데이터 분류 장치 및 방법은 이미지 데이터와 텍스트 데이터를 통합하여 분석함으로써 보다 높은 정확도의 학습 결과를 획득할 수 있다.

또, 본 발명의 일 실시예에 따른 데이터 통합 분석 학습을 이용한 데이터 분류 장치 및 방법은 종래보다 높은 정확도로 입력되는 데이터를 분류할 수 있는 효과가 있다.

도 1은 본 발명의 실시예에 따른 데이터 통합 분석 학습을 이용한 데이터 분류 장치를 나타낸 블록도이다.
도 2는 도 1의 데이터 획득부를 나타낸 블록도이다.
도 3은 도 1의 데이터 전처리부를 나타낸 블록도이다.
도 4는 도 1의 데이터 특징 추출부를 나타낸 블록도이다.
도 5는 도 1의 데이터 학습부를 나타낸 블록도이다.
도 6은 본 발명의 실시예에 따른 데이터 통합 분석 학습을 이용한 데이터 분류 방법을 나타낸 순서도이다.
도 7은 도 6의 단계 S620을 나타낸 순서도이다.
도 8은 도 6의 단계 S630을 나타낸 순서도이다.
도 9는 도 6의 단계 S640을 나타낸 순서도이다.
도 10은 본 발명의 일 실시에에 따른 데이터 통합 분석 장치 및 데이터 통합 분석 학습을 수행하는 과정을 도식화한 도이다.

이하, 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 동일 또는 유사한 구성요소에 대해서는 동일한 참조부호를 붙였다.

이하에서는 도 1 내지 도 5를 이용하여 본 발명의 일 실시예에 따른 데이터 통합 분석 학습을 이용한 데이터 분류 장치에 대해 상세히 설명하도록 한다.

도 1은 본 발명의 실시예에 따른 데이터 통합 분석 학습을 이용한 데이터 분류 장치를 나타낸 블록도이고 도 2는 도 1의 데이터 획득부를 나타낸 블록도이며, 도 3은 도 1의 데이터 전처리부를 나타낸 블록도이고, 도 4는 도 1의 데이터 특징 추출부를 나타낸 블록도이며, 도 5는 도 1의 데이터 학습부를 나타낸 블록도이다.

도 1을 참고하면, 본 발명의 일 실시예에 따른 데이터 통합 분석 학습을 이용한 데이터 분류 장치(100, 이하 데이터 분류 장치)는 특정 물체에 대한 이미지 데이터 및 텍스트 데이터를 획득하고, 획득한 데이터를 전처리한 후 통합하여 통합 벡터 특징을 추출하며, 통합 벡터 특징을 이용하여 기계학습을 수행하고, 학습 결과를 이용하여 신규 데이터의 분류를 수행하도록 형성된다. 본 발명은 이하에서 이미지 데이터는 꽃을 촬영한 이미지로, 텍스트 데이터는 꽃을 설명한 텍스트로 정의하여 꽃의 분류를 위해 사용되는 데이터 분류 장치에 대하여 설명하지만, 본 발명은 반드시 이에 한정되는 것은 아니며, 실체가 존재하며, 실체에 대한 텍스트 설명이 가능한 모든 물체에 적용될 수 있다.

이를 위해 본 발명의 데이터 분류 장치(100)는, 데이터 획득부(110), 데이터 전처리부(120), 데이터 특징 추출부(130) 및 데이터 학습부(140)를 포함하도록 형성될 수 있다.

데이터 획득부(110)는 이미지 데이터 및 텍스트 데이터를 획득하도록 형성된다. 일반적으로 기계학습은 이미지 데이터만을 획득하여 수행되거나, 텍스트 데이터만을 획득하여 수행되거나, 두 데이터 모두를 이용하여 수행될 수 있다. 여기서, 보다 정확도가 높은 기계학습을 수행하기 위해서는 제공되는 데이터의 양이 증가하여야 한다.

이미지 데이터만을 이용하여 기계학습을 수행하는 경우에는 꽃에 대한 촬영 각도 등의 차이에 의해 각각의 각도에 대한 충분한 데이터를 획득할 수 없다는 문제점이 존재할 수 있으며, 텍스트 데이터만을 획득하여 기계학습을 수행하는 경우, 텍스트 데이터에 의존하기 때문에 분류를 위한 데이터로 꽃의 이미지 데이터가 입력되는 경우, 이미지 데이터와 텍스트 기계학습 결과를 매칭하기 어려운 문제점이 존재한다.

따라서, 본 발명의 데이터 분류 장치(100)는 이러한 문제점을 극복하기 위해 이미지 데이터와 텍스트 데이터를 모두 이용하여 기계학습을 수행하고, 학습 결과 종래보다 높은 정확도를 가지고 입력 데이터를 분류할 수 있는 효과가 있다.

데이터 획득부(110)는 이를 위해 도 2에 도시된 바와 같이 이미지 데이터 획득 모듈(111) 및 텍스트 데이터 획득 모듈(113)을 포함하여 형성될 수 있다. 이미지 데이터 획득 모듈(111)은 꽃의 이미지를 이미지 데이터로 획득하기 위해 구비될 수 있으며, 텍스트 데이터 획득 모듈(113)은 꽃의 외관을 텍스트로 설명한 텍스트 데이터를 획득하기 위해 구비될 수 있다.

데이터 전처리부(120)는 이미지 데이터 및 텍스트 데이터의 전처리를 각각 수행하여 전처리 데이터를 생성하기 위해 형성된다. 데이터 전처리부(120)는 이를 위해 이미지 데이터 전처리 모듈(121) 및 텍스트 데이터 전처리 모듈(123)을 포함하여 형성될 수 있다.

이미지 데이터 전처리 모듈(121)은 이미지 전처리를 수행하도록 형성된다. 이미지 전처리는 이미지 데이터의 크기를 기 설정된 크기로 규격화하는 것을 의미한다. 이미지 데이터는 서로 다른 크기로 입력될 수 있다. 이 경우, 이미지의 크기에 따라 이미지 데이터의 특징 추출 결과 서로 다른 크기의 벡터가 획득될 수 있으며 이로 인해 데이터를 일정하게 학습하기 어렵다는 문제점이 존재한다. 따라서, 이미지 데이터 전처리 모듈(121)은 이미지 데이터의 크기를 규격화하는 이미지 전처리를 수행하여 이미지 전처리 데이터를 생성함으로써, 항상 동일한 크기의 이미지 데이터를 학습하고 동일한 크기의 벡터를 획득하도록 할 수 있다.

텍스트 데이터 전처리 모듈(123)는 텍스트 전처리를 수행한다. 텍스트 전처리는 텍스트를 형태소로 분류하여 학습하고, 중심 단어로부터 주변 단어를 추측하는 스킵-그램(skip-gram) 알고리즘을 이용하는 것을 의미한다.

데이터 전처리부(120)는 이미지 데이터와 텍스트 데이터를 각각 이미지 데이터 전처리 모듈(121) 및 텍스트 데이터 전처리 모듈(123)에서 전처리한 이미지 전처리 데이터 및 텍스트 전처리 데이터를 포함하는 전처리 데이터를 후술되는 데이터 특징 추출부(130)로 전달할 수 있다.

데이터 특징 추출부(130)는 전처리 데이터를 획득하여 데이터의 특징인 통합 벡터 특징을 추출하도록 형성된다. 데이터 특징 추출부(130)는 이를 위해 도 4에 도시된 바와 같이 이미지 데이터 벡터 추출 모듈(131), 텍스트 데이터 벡터 추출 모듈(133) 및 통합 벡터 특징 추출 모듈(135)을 포함하여 형성될 수 있다.

이미지 데이터 벡터 추출 모듈(131)은 이미지 데이터의 특징을 추출하기 위해 형성된다. 이미지 데이터 벡터 추출 모듈(131)은 전처리 데이터 중 이미지 전처리 데이터를 획득하고, 획득한 이미지 전처리 데이터의 특징을 추출하기 위해 익히 알려진 CNN 알고리즘을 사용할 수 있다. 이때, 이미지 전처리 데이터는 기 설정된 규격의 크기로 전처리되었기 때문에 추출되는 이미지 전처리 데이터의 특징은 최초 입력된 이미지 데이터의 크기와 상관 없이 동일한 크기로 추출될 수 있다.

텍스트 데이터 벡터 추출 모듈(133)은 텍스트 데이터의 특징을 추출하기 위해 형성된다. 텍스트 데이터 벡터 추출 모듈(133)은 전처리 데이터 중 텍스트 전처리 데이터를 획득하고, 획득한 텍스트 전처리 데이터의 특징을 추출하기 위해 익히 알려진 CNN 알고리즘을 사용할 수 있다.

통합 벡터 특징 추출 모듈(135)은 이미지 데이터 벡터와 텍스트 데이터 벡터를 통합한 통합 벡터의 특징을 추출하도록 형성된다. 통합 벡터 특징 추출 모듈(135)은 통합 벡터를 생성하기 위해 이미지 데이터 벡터와 텍스트 데이터 벡터를 서로 교차 배치할 수 있다.

일 예로, 텍스트 데이터 벡터가 3x1x256의 크기로 형성되고 이미지 데이터 벡터가 1x1x256의 크기로 형성되는 경우, 통합 벡터 특징 추출 모듈(135)은 통합 벡터를 생성하기 위해 이미지 데이터 벡터를 두 번 복제하여 총 3개의 이미지 데이터 벡터를 획득한다. 이후, 통합 벡터 특징 추출 모듈(135)은 텍스트 데이터 벡터의 한 행과 이미지 데이터 벡터를 교차하여 배치하여 총 6x1x256크기의 행렬로 표현되는 통합 벡터를 획득할 수 있다.

통합 벡터 특징 추출 모듈(135)은 텍스트 데이터 벡터와 이미지 데이터 벡터를 이용하여 통합 벡터를 획득하면, 획득한 통합 벡터에 CNN 알고리즘을 적용하여 통합 벡터의 특징인 통합 벡터 특징을 획득할 수 있다.

데이터 학습부(140)는 데이터 특징 추출부(130)에서 획득한 통합 벡터 특징을 이용하여 데이터 학습을 수행하여 학습 결과를 생성하고, 학습 결과를 이용하여 신규 데이터의 분류를 수행할 수 있다. 데이터 학습부(140)는 이를 위해 기본 데이터 학습 모듈(141), 가상 데이터 학습 모듈(143) 및 신규 데이터 분류 모듈(145)을 포함하여 형성될 수 있다.

기본 데이터 학습 모듈(141)은 통합 벡터 특징을 이용하여 데이터 학습을 수행하여 기본 데이터 학습 결과를 생성하도록 형성된다. 본 발명의 데이터 분류 장치(100)가 데이터 분류를 수행하기 위해서는 데이터의 학습이 요구된다. 따라서, 기본 데이터 학습 모듈(141)은 최초에 획득한 데이터 풀로부터 획득한 학습용 데이터들의 통합 벡터 특징을 이용하여 데이터 학습을 수행하고, 수행 결과로 기본 데이터 학습 결과를 생성할 수 있다.

가상 데이터 학습 모듈(143)은 학습용 가상 데이터를 생성하고, 생성한 학습용 가상 데이터를 이용하여 데이터 학습을 수행하고 가상 데이터 학습 결과를 생성하도록 형성된다.

일반적으로 기계학습을 통해 획득하는 결과물의 정확도는 공급되는 학습용 데이터의 양과 질에 의존한다. 하지만, 학습용 데이터를 관리자가 직접 생성하여 제공하는 것에는 물리적으로 한계가 존재한다. 따라서, 보다 쉽게 정확도를 증가시키기 위해 가상 데이터 학습 모듈(143)은 스스로 학습용 가상 데이터를 생성하고, 생성한 학습용 가상 데이터를 이용하여 학습하고 학습 결과로 가상 데이터 학습 결과를 생성할 수 있다.

이를 위해 본 발명의 일 실시예에서 가상 데이터 학습 모듈(143)은 적대적 생성 신경망(Generative Adversarial Network) 모델을 이용할 수 있다. 적대적 생성 신경망(GAN)은 생성자와 구분자를 경쟁적으로 학습시키며, 구분자가 생성자에서 생성된 데이터를 진짜 데이터와 구분할 수 없는 경우 해당 생성 데이터를 출력하는 것을 반복하는 모델로 설명될 수 있다.

따라서 가상 데이터 학습 모듈(143)은 적대적 생성 신경망을 이용하여 가상 데이터를 생성하고, 생성한 가상 데이터를 데이터 전처리부(120) 또는 데이터 특징 추출부(130)로 전달하여 가상 통합 특징 벡터를 출력하도록 하고, 출력된 가상 통합 특징 벡터를 이용하여 가상 데이터 학습 결과를 생성한다.

신규 데이터 분류 모듈(145)은 분류를 위해 획득하는 신규 데이터를 학습 결과를 이용하여 분류하도록 형성된다. 신규 데이터 분류 모듈(145)은 학습용 데이터가 아닌 실제로 분류를 요청하는 신규 데이터를 획득하면, 획득한 신규 데이터를 기본 데이터 학습 결과 및 가상 데이터 학습 결과를 포함하는 데이터 학습 결과를 이용하여 분류하고, 분류 결과를 출력할 수 있다.

이때, 신규 데이터 분류 모듈(145)은 신규 데이터의 분류 결과가 기 설정된 정확도 이상인 경우 분류 결과를 출력함과 동시에 해당 신규 데이터를 기본 데이터 학습 결과를 생성하기 위한 데이터로 사용하기 위해 데이터 전처리부(120)로 해당 신규 데이터를 전달하도록 형성될 수 있다.

한편, 도 6 내지 도 9에는 본 발명의 다른 실시예에 다른 데이터 통합 분석 학습을 이용한 데이터 분류 방법의 순서도가 나타나고 있다. 도 6은 본 발명의 실시예에 따른 데이터 통합 분석 학습을 이용한 데이터 분류 방법을 나타낸 순서도이고, 도 7은 도 6의 단계 S620을 나타낸 순서도이며, 도 8은 도 6의 단계 S630을 나타낸 순서도이고, 도 9는 도 6의 단계 S640을 나타낸 순서도이다.

이하에서는 도 6 내지 도 9를 이용하여 본 발명의 일 실시예에 따른 데이터 통합 분석 학습을 이용한 데이터 분류 방법에 대해 상세히 설명하도록 하며, 설명의 편의상 도 1 내지 도 5에 도시된 본 발명의 데이터 분류 장치를 이용하는 것으로 한다. 하지만, 본 발명은 이에 반드시 해당되는 것은 아니며, 유사한 동작을 수행할 수 있는 장치 또는 시스템에서도 사용 가능함이 자명하다.

도 6을 참고하면, 본 발명의 일 실시예에 따른 데이터 통합 분석 학습을 이용한 데이터 분류 방법(600, 이하 데이터 분류 방법이라 함)은 특정 물체에 대한 이미지 데이터 및 텍스트 데이터를 획득하고, 획득한 데이터를 전처리한 후 통합하여 통합 벡터 특징을 추출하며, 통합 벡터 특징을 이용하여 기계학습을 수행하고, 학습 결과를 이용하여 신규 데이터의 분류를 수행하도록 형성될 수 있다. 본 발명은 이하에서 이미지 데이터는 꽃을 촬영한 이미지로, 텍스트 데이터는 꽃을 설명한 텍스트로 정의하여 꽃의 분류를 위해 사용되는 데이터 분류 장치에 대하여 설명하지만, 본 발명은 반드시 이에 한정되는 것은 아니며, 실체가 존재하며, 실체에 대한 텍스트 설명이 가능한 모든 물체에 적용될 수 있다.

이를 위해 본 발명의 데이터 분류 방법(600)은 도 6에 도시된 바와 같이 이미지 데이터 및 텍스트 데이터를 획득하는 단계(S610), 전처리 데이터를 생성하는 단계(S620), 통합 벡터 특징을 추출하는 단계(S630) 및 학습 결과를 생성하고 신규 데이터 분류를 수행하는 단계(S640)를 포함하도록 형성된다.

이미지 데이터 및 텍스트 데이터를 획득하는 단계(S610)는 데이터 획득부를 이용하여 이미지 데이터 및 텍스트 데이터를 획득한다. 일반적으로 기계학습은 이미지 데이터만을 획득하여 수행되거나, 텍스트 데이터만을 획득하여 수행되거나, 두 데이터 모두를 이용하여 수행될 수 있다. 여기서, 보다 정확도가 높은 기계학습을 수행하기 위해서는 제공되는 데이터의 양이 증가하여야 한다.

따라서, 본 발명의 데이터 분류 방법은 이러한 문제점을 극복하기 위해 이미지 데이터와 텍스트 데이터를 모두 이용하여 기계학습을 수행하며, 학습 결과 종래보다 높은 정확도를 가지고 입력 데이터를 분류할 수 있는 효과가 있다.

단계 S610은 꽃의 이미지를 이미지 데이터로 획득할 수 있으며 꽃의 외관을 텍스트로 설명한 텍스트를 텍스트 데이터로 획득할 수도 있다.

다음으로 본 발명의 데이터 분류 방법은 전처리 데이터를 생성한다(단계 S620). 단계 S620은 단계 S610에서 획득한 이미지 데이터 및 텍스트 데이터의 전처리를 각각 수행하여 전처리 데이터를 생성하기 위해 형성된다. 단계 S620은 이를 위해 도 7에 도시된 바와 같이 이미지 전처리를 수행하는 단계(S621) 및 텍스트 전처리를 수행하는 단계(S623)를 포함할 수 있다.

이미지 전처리를 수행하는 단계(S621)는 이미지 데이터의 전처리인 이미지 전처리를 수행한다. 이미지 전처리는 이미지 데이터의 크기를 기 설정된 크기로 규격화하는 것을 의미한다. 이미지 데이터는 서로 다른 크기로 입력될 수 있다. 이 경우, 이미지의 크기에 따라 이미지 데이터의 특징 추출 결과 서로 다른 크기의 벡터가 획득될 수 있으며 이로 인해 데이터를 일정하게 학습하기 어렵다는 문제점이 존재한다. 따라서, 단계 S621은 이미지 데이터의 크기를 규격화하는 이미지 전처리를 수행하여 이미지 전처리 데이터를 생성함으로써, 항상 동일한 크기의 이미지 데이터를 학습하고 동일한 크기의 벡터를 획득하도록 할 수 있다.

텍스트 전처리를 수행하는 단계(S623)는 텍스트 데이터의 전처리인 텍스트 전처리를 수행한다. 텍스트 전처리는 텍스트를 형태소로 분류하여 학습하고, 중심 단어로부터 주변 단어를 추측하는 스킵-그램(skip-gram) 알고리즘을 이용하는 것을 의미한다.

단계 S620은 이미지 데이터와 텍스트 데이터를 각각 단계 S621 및 단계 S623에서 전처리한 이미지 전처리 데이터 및 텍스트 전처리 데이터를 포함하는 전처리 데이터를 후술되는 단계 S630으로 전달할 수 있다.

다음으로 본 발명은 통합 벡터 특징을 추출한다(단계 S630). 단계 S630은 전처리 데이터를 획득하여 데이터의 특징인 통합 벡터 특징을 추출하도록 형성된다. 단계 S630은 이를 위해 도 8에 도시된 바와 같이 이미지 데이터 벡터를 추출하는 단계(S631), 텍스트 데이터 벡터를 추출하는 단계(S633) 및 통합 벡터 특징을 추출하는 단계(S635)를 포함하여 형성될 수 있다.

이미지 데이터 벡터를 추출하는 단계(S631)는 이미지 데이터의 특징을 추출하기 위해 형성된다. 단계 S631에서는 전처리 데이터 중 이미지 전처리 데이터를 획득하고, 획득한 이미지 전처리 데이터의 특징을 추출하기 위해 익히 알려진 CNN 알고리즘을 사용할 수 있다. 이때, 이미지 전처리 데이터는 기 설정된 규격의 크기로 전처리되었기 때문에 추출되는 이미지 전처리 데이터의 특징은 최초 입력된 이미지 데이터의 크기와 상관없이 동일한 크기로 추출될 수 있다.

텍스트 데이터 벡터를 추출하는 단계(S633)는 텍스트 데이터의 특징을 추출하기 위해 형성된다. 단계 S633은 전처리 데이터 중 텍스트 전처리 데이터를 획득하고, 획득한 텍스트 전처리 데이터의 특징을 추출하기 위해 익히 알려진 CNN 알고리즘을 사용할 수 있다.

통합 벡터 특징을 추출하는 단계(S635)는 이미지 데이터 벡터와 텍스트 데이터 벡터를 통합한 통합 벡터의 특징을 추출하도록 형성된다. 단계 S635는 통합 벡터를 생성하기 위해 이미지 데이터 벡터와 텍스트 데이터 벡터를 서로 교차 배치할 수 있다.

일 예로, 텍스트 데이터 벡터가 3x1x256의 크기로 형성되고 이미지 데이터 벡터가 1x1x256의 크기로 형성되는 경우, 단계 S635는 통합 벡터를 생성하기 위해 이미지 데이터 벡터를 두 번 복제하여 총 3개의 이미지 데이터 벡터를 획득한다. 이후, 단계 S635는 텍스트 데이터 벡터의 한 행과 이미지 데이터 벡터를 교차하여 배치하여 총 6x1x256크기의 행렬로 표현되는 통합 벡터를 획득할 수 있다.

단계 S635는 텍스트 데이터 벡터와 이미지 데이터 벡터를 이용하여 통합 벡터를 획득하면, 획득한 통합 벡터에 CNN 알고리즘을 적용하여 통합 벡터의 특징인 통합 벡터 특징을 획득할 수 있다.

마지막으로 본 발명의 일 실시예에 따른 데이터 분류 방법은, 학습 결과를 생성하고 신규 데이터 분류를 수행한다(단계 S640). 단계 S640은 단계 S630에서 획득한 통합 벡터 특징을 이용하여 데이터 학습을 수행하여 학습 결과를 생성하고, 학습 결과를 이용하여 신규 데이터의 분류를 수행할 수 있다. 단계 S640은 이를 위해 도 9에 도시된 바와 같이 기본 데이터 학습 결과를 생성하는 단계(S641), 가상 데이터 학습 결과를 생성하는 단계(S643) 및 신규 데이터를 학습 결과를 이용하여 분류하는 단계(S645)를 포함하여 형성될 수 있다.

기본 데이터 학습 결과를 생성하는 단계(S641)는 통합 벡터 특징을 이용하여 데이터 학습을 수행하여 기본 데이터 학습 결과를 생성하도록 형성된다. 본 발명의 데이터 분류 방법이 데이터 분류를 수행하기 위해서는 데이터의 학습이 요구된다. 따라서, 단계 S641은 최초에 획득한 데이터 풀로부터 획득한 학습용 데이터들의 통합 벡터 특징을 이용하여 데이터 학습을 수행하고, 수행 결과로 기본 데이터 학습 결과를 생성할 수 있다.

가상 데이터 학습 결과를 생성하는 단계(S643)는 학습용 가상 데이터를 생성하고, 생성한 학습용 가상 데이터를 이용하여 데이터 학습을 수행하고 가상 데이터 학습 결과를 생성하도록 형성된다.

일반적으로 기계학습을 통해 획득하는 결과물의 정확도는 공급되는 학습용 데이터의 양과 질에 의존한다. 하지만, 학습용 데이터를 관리자가 직접 생성하여 제공하는 것에는 물리적으로 한계가 존재한다. 따라서, 보다 쉽게 정확도를 증가시키기 위해 단계 S643에서는 스스로 학습용 가상 데이터를 생성하고, 생성한 학습용 가상 데이터를 이용하여 학습하고 학습 결과로 가상 데이터 학습 결과를 생성할 수 있다.

이를 위해 본 발명의 일 실시예에서 단계 S643은 적대적 생성 신경망(Generative Adversarial Network) 모델을 이용할 수 있다. 적대적 생성 신경망(GAN)은 생성자와 구분자를 경쟁적으로 학습시키며, 구분자가 생성자에서 생성된 데이터를 진짜 데이터와 구분할 수 없는 경우 해당 생성 데이터를 출력하는 것을 반복하는 모델로 설명될 수 있다.

따라서 단계 S643은 적대적 생성 신경망을 이용하여 가상 데이터를 생성하고, 생성한 가상 데이터를 단계 S620 또는 단계 S630으로 전달하여 가상 통합 특징 벡터를 출력하도록 하고, 출력된 가상 통합 특징 벡터를 이용하여 가상 데이터 학습 결과를 생성한다.

마지막으로 본 발명의 데이터 분류 방법은 신규 데이터를 학습 결과를 이용하여 분류한다(단계 S645). 단계 S645는 분류를 위해 획득하는 신규 데이터를 학습 결과를 이용하여 분류하도록 형성된다. 단계 S645는 학습용 데이터가 아닌 실제로 분류를 요청하는 신규 데이터를 획득하면, 획득한 신규 데이터를 기본 데이터 학습 결과 및 가상 데이터 학습 결과를 포함하는 데이터 학습 결과를 이용하여 분류하고, 분류 결과를 출력할 수 있다.

이때, 단계 S645는 신규 데이터의 분류 결과가 기 설정된 정확도 이상인 경우 분류 결과를 출력함과 동시에 해당 신규 데이터를 기본 데이터 학습 결과를 생성하기 위한 데이터로 사용하기 위해 단계 S620으로 해당 신규 데이터를 전달할 수도 있다.

한편, 도 1 내지 도 9에 도시된 본 발명의 데이터 통합 분석 학습을 이용한 데이터 분류 장치(100) 및 데이터 통합 분석 학습을 이용한 데이터 분류 방법(600)은 도 10에 도시된 과정을 통해 수행될 수 있다.

도 10을 참고하면, 본 발명의 데이터 분류 장치(100) 및 데이터 분류 방법(600)은 텍스트 데이터 및 이미지 데이터를 이용하여 통합 벡터 특징을 획득하기 위해 (a) 내지 (c) 단계를 이용할 수 있다.

본 발명은 텍스트 데이터(Td)와 이미지 데이터(Id)를 각각 획득한다. 도 10은 데이터 분류 장치(100)의 경우 데이터 특징 추출부(130)에서 수행될 수 있으며, 데이터 분류 방법(600)의 경우 통합 벡터 특징을 추출하는 단계(S630)에서 수행될 수 있다. 도 10에서 획득되는 텍스트 데이터(Td) 및 이미지 데이터(Id)는 데이터 분류 장치(100)의 경우 데이터 전처리부(120)에서 전처리 된 텍스트 전처리 데이터 및 이미지 전처리 데이터 일 수 있으며, 데이터 분류 방법(600)의 경우 전처리 데이터를 생성하는 단계인 S620에서 생성된 텍스트 전처리 데이터 및 이미지 전처리 데이터 일 수 있다.

단계 (a)에서, 텍스트 데이터(Td)는 3x1x256의 벡터로 제공되고, 이미지 데이터(Id)는 1x1x256의 벡터로 제공된다. 본 발명에 의하면, 텍스트 데이터(Td)와 이미지 데이터(Id)를 합성하여 통합 벡터를 만들기 위해서는 두 데이터가 동일한 형태여야 한다. 따라서, 단계 (a)는 통합 벡터를 생성하기 위해 데이터의 형태를 일치시키기 위해 수행되며 바람직하게는 이미지 데이터(Id)를 두 개 복제하여 총 3개의 이미지 데이터(Id)를 구비할 수 있다.

따라서, 단계 (a)의 최종 부산물은 하나의 텍스트 데이터(Td)와 세 개의 이미지 데이터(Id)이며, 이는 도 10에 도시된 바와 같이 텍스트 데이터(Td)는 서로 다른 3개의 행(가, 나, 다)이 형성되어 있지만, 이미지 데이터(Id)는 서로 동일한 3개의 행(A)이 형성되는 것으로 표현될 수 있다.

이후, 본 발명은 단계 (b)를 수행하여 통합 벡터를 생성한다. 통합 벡터는 텍스트 데이터(Td)와 이미지 데이터(Id)의 합성으로 형성되며, 본 발명에서는 두 데이터가 동일한 형태로 구비되기 때문에 서로 교차하도록 배열하여 통합 벡터를 생성할 수 있다. 도 10에서는, 단계 (a)에서 획득한 텍스트 데이터(Td) 및 이미지 데이터(Id)가 각각 3x1x256의 배열을 가지는 벡터로 형성되며, 텍스트 데이터(Td)는 가, 나, 다 3개의 행을 가지고 이미지 데이터(Id)는 A, A, A 3개의 행을 가지기 때문에 단계 (b)에 도시되는 바와 같이 가, A, 나, A, 다, A 총 6개의 행을 가지는 6x1x256의 통합 벡터를 생성할 수 있다.

이때, 설명의 편의상 본 발명에서는 텍스트 데이터(Td)와 이미지 데이터(Id)가 교차 배열되는 것으로 설명하였지만, 설정에 따라 이미지 데이터(Id)와 텍스트 데이터(Td)가 교차 배열되어 A, 가, A, 나, A, 다 순서의 행을 가지는 6x1x256의 통합 벡터를 생성할 수도 있다.

마지막으로 도 10에서 본 발명은 단계 (b)에서 생성된 통합 벡터에 CNN 알고리즘을 적용하여 convolution과 Max pooling을 수행하여 통합 벡터의 특징을 획득하도록 할 수 있다. 이때, 통합 벡터의 특징은 텍스트 데이터(Td) 또는 이미지 데이터(Id) 단독의 특징이 아닌 두 데이터를 통합한 데이터의 특징이기 때문에 기존의 두 데이터 각각의 특징을 이용하는 기술보다 높은 정확도를 가질 수 있다.

한편, 이러한 종래 기술 대비 본 발명의 정확도 측정 및 비교 실험 결과가 하기 표 1에 표시되고 있다.

데이터 통합	모델	분류	정확도
표현학습 통합	m-RNN		82.91%
	m-CNN		78.56%
	Baj et al.(2018)		92.52%
	Modified m-CNN(본 발명)		93.69%
분류자 통합	Text CNN & VGG16	Co-prediction	81.63%
	Text CNN & VGG16	Ensemble	82.12%
	TEXT CNN(Kim,2014) & VGG16	Co-prediction	89.22%
	TEXT CNN(Kim,2014) & VGG16	Ensemble	90.81%
	LSTM & VGG16	Co-prediction	90.54%
	LSTM & VGG16	Ensemble	90.94%
	BLSTM & VGG16	Co-prediction	91.12%
	BLSTM & VGG16	Ensemble	92.28%

일반적인 기계학습에서는 데이터 통합을 수행할 수 있는 두 가지 포인트가 존재하며, 본 발명에서는 두 포인트에서의 데이터 통합을 각각 표현 학습 통합(Fusion in the learned representations) 및 분류자 통합(Fusion in the classifiers)으로 정의하였다.

표 1의 실험 결과를 획득하기 위한 이미지 데이터로는 Oxford 102 Category Flower 데이터 셋(Nilsback & Zisserman, 2008)을 사용하였다. 데이터 셋에는 총 102가지 종류의 꽃 사진이 8,189개 포함되어 있으며, 꽃의 종류별로 40 내지 258장의 사진이 구비되어 있다. 따라서, 본 발명은 본 실험에서 총 8,189개의 이미지 데이터를 획득할 수 있다.

한편 표 1의 실험 결과를 획득하기 위한 텍스트 데이터로는 이미지 데이터로 사용한 옥스포드 데이터 셋에 포함된 꽃의 텍스트 설명 데이터 셋 및 Reed et al.(2016)의 옥스포드 데이터 셋을 설명한 텍스트 데이터 셋을 이용하였다. 텍스트 데이터 셋은 영어로 표현되어 있기 때문에 본 발명에서는 상술한 바와 같이 한국어 텍스트 데이터 셋을 Skip-Gram 전처리 하기 위해 편의상 네이버 파파고 신경 기계 번역(Lee at al., 2016)을 이용하였다.

상기 표 1은 두 가지 데이터를 이용하여 꽃의 분류를 수행한 정확도를 나타낸 도이며, 본 발명의 모델을 Modified m-CNN으로 명명하였으며, 나머지는 종래 기술 모델을 의미한다. 표현학습 통합의 m-CNN을 제외하고는 모두 80% 이상의 분류 정확도를 나타내며, 특히 익히 알려진 통합 학습 모델인 m-RNN 및 m-CNN은 각각 82.91% 및 78.56%의 정확도로 종래 기술 모델 중 최하위권의 정확도를 가지는 것을 확인할 수 있다. 또 분류자 통합 모델은 최하 81.63% 내지 92.28%의 정확도를 나타낸다.

본 실험에서는 본 발명의 가상 데이터 학습 모듈(143) 및 가상 데이터 학습 결과를 생성하는 단계(S643)를 사용하지 않았으며, 가상 데이터 학습을 수행하지 않더라도 정확도가 가장 높게 나타났기 때문에, 가상 데이터 학습을 수행하는 경우에는 더 높은 정확도를 나타낼 수 있을 것이며, 따라서 종래 모델들보다 유의미하게 높은 정확도를 가진다는 장점이 존재한다.

이상에서 본 발명의 일 실시예에 대하여 설명하였으나, 본 발명의 사상은 본 명세서에 제시되는 실시 예에 제한되지 아니하며, 본 발명의 사상을 이해하는 당업자는 동일한 사상의 범위 내에서, 구성요소의 부가, 변경, 삭제, 추가 등에 의해서 다른 실시 예를 용이하게 제안할 수 있을 것이나, 이 또한 본 발명의 사상범위 내에 든다고 할 것이다.

100: 데이터 통합 분석 학습을 이용한 데이터 분류 장치
110: 데이터 획득부
111: 이미지 데이터 획득 모듈
113: 텍스트 데이터 획득 모듈
120: 데이터 전처리부
121: 이미지 데이터 전처리 모듈
123: 텍스트 데이터 전처리 모듈
130: 데이터 특징 추출부
131: 이미지 데이터 벡터 추출 모듈
133: 텍스트 데이터 벡터 추출 모듈
135: 통합 벡터 특징 추출 모듈
140: 데이터 학습부
141: 기본 데이터 학습 모듈
143: 가상 데이터 학습 모듈
145: 신규 데이터 분류 모듈

Claims

이미지 데이터 및 텍스트 데이터를 획득하도록 형성되는 데이터 획득부;
획득한 상기 이미지 데이터 및 상기 텍스트 데이터의 전처리를 각각 수행하여 전처리 데이터를 생성하도록 형성되는 데이터 전처리부;
상기 전처리 데이터를 획득하여 상기 데이터의 특징인 통합 벡터 특징을 추출하도록 형성되는 데이터 특징 추출부; 및
상기 통합 벡터 특징을 이용하여 데이터 학습을 수행하여 학습 결과를 생성하고, 상기 학습 결과를 이용하여 신규 데이터의 분류를 수행하도록 형성되는 데이터 학습부;를 포함하고,
상기 데이터 전처리부는,
상기 이미지 데이터의 전처리인 이미지 전처리를 수행하는 이미지 데이터 전처리 모듈; 및
상기 텍스트 데이터의 전처리인 텍스트 전처리를 수행하는 텍스트 데이터 전처리 모듈;을 포함하며,
상기 이미지 전처리는 상기 이미지 데이터의 크기를 기 설정된 크기로 규격화 처리하여 이미지 전처리 데이터를 생성하고,
상기 텍스트 전처리는 상기 텍스트를 형태소로 분류하여 학습하고, skip-gram 알고리즘을 이용하여 중심 단어로부터 주변 단어를 추측하도록 처리하여 텍스트 전처리 데이터를 생성하며,
상기 데이터 특징 추출부는,
상기 이미지 전처리 데이터의 특징을 추출하기 위해 CNN 알고리즘을 이용하여 이미지 데이터 벡터를 추출하도록 형성되는 이미지 데이터 벡터 추출 모듈;
상기 텍스트 전처리 데이터의 특징을 추출하기 위해 CNN 알고리즘을 이용하여 텍스트 데이터 벡터를 추출하도록 형성되는 텍스트 데이터 벡터 추출 모듈; 및
상기 이미지 데이터 벡터와 텍스트 데이터 벡터를 통합한 통합 벡터의 특징을 CNN 알고리즘을 이용하여 추출하도록 형성되는 통합 벡터 특징 추출 모듈;을 포함하고,
상기 통합 벡터는, 상기 텍스트 데이터 벡터와 상기 이미지 데이터 벡터가 행별로 교차 배치되어 형성되며, 상기 이미지 데이터 벡터를 상기 텍스트 데이터 벡터와 동일한 개수만큼 이용하기 위해 상기 이미지 데이터 벡터가 부족한 개수만큼 상기 이미지 데이터 벡터를 복제하여 형성되는 데이터 통합 분석 학습을 이용한 데이터 분류 장치.
제 1항에 있어서,
상기 데이터 획득부는,
상기 이미지 데이터를 획득하는 이미지 데이터 획득 모듈; 및
상기 텍스트 데이터를 획득하는 텍스트 데이터 획득 모듈;을 포함하여 형성되는 데이터 통합 분석 학습을 이용한 데이터 분류 장치.
삭제
삭제
삭제
제 1항에 있어서,
상기 데이터 학습부는,
상기 통합 벡터 특징을 이용하여 데이터 학습을 수행하여 기본 데이터 학습 결과를 생성하는 기본 데이터 학습 모듈; 및
분류를 위해 획득한 상기 신규 데이터를 상기 학습 결과를 이용하여 분류하도록 형성되는 신규 데이터 분류 모듈;을 포함하는 데이터 통합 분석 학습을 이용한 데이터 분류 장치.
제 6항에 있어서,
상기 신규 데이터 분류 모듈은, 상기 신규 데이터의 분류 결과가 기 설정된 정확도 이상인 경우, 해당 신규 데이터를 상기 기본 데이터 학습 결과를 생성하기 위한 데이터로 사용하기 위해 상기 데이터 전처리부로 전달하는 데이터 통합 분석 학습을 이용한 데이터 분류 장치.
제 1항, 제 2항, 제 6항 및 제 7항 중 어느 한 항의 데이터 분류 장치를 이용하는 데이터 통합 분석 학습을 이용한 데이터 분류 방법에 있어서,
이미지 데이터 및 텍스트 데이터를 획득하는 단계;
획득한 상기 이미지 데이터 및 상기 텍스트 데이터의 전처리를 각각 수행하여 전처리 데이터를 생성하는 단계;
상기 전처리 데이터를 획득하여 상기 데이터의 특징인 통합 벡터 특징을 추출하는 단계; 및
상기 통합 벡터 특징을 이용하여 데이터 학습을 수행하여 학습 결과를 생성하고, 상기 학습 결과를 이용하여 신규 데이터의 분류를 수행하는 단계;를 포함하며,
상기 전처리 데이터를 생성하는 단계;는
상기 이미지 데이터의 전처리인 이미지 전처리를 수행하는 단계; 및
상기 텍스트 데이터의 전처리인 텍스트 전처리를 수행하는 단계;를 포함하며,
상기 이미지 전처리는 상기 이미지 데이터의 크기를 기 설정된 크기로 규격화 처리하여 이미지 전처리 데이터를 생성하고,
상기 텍스트 전처리는 상기 텍스트를 형태소로 분류하여 학습하고, skip-gram 알고리즘을 이용하여 중심 단어로부터 주변 단어를 추측하도록 처리하여 텍스트 전처리 데이터를 생성하고,
상기 통합 벡터 특징을 추출하는 단계;는,
상기 이미지 전처리 데이터의 특징을 추출하기 위해 CNN 알고리즘을 이용하여 이미지 데이터 벡터를 추출하는 단계;
상기 텍스트 전처리 데이터의 특징을 추출하기 위해 CNN 알고리즘을 이용하여 텍스트 데이터 벡터를 추출하는 단계; 및
상기 이미지 데이터 벡터와 텍스트 데이터 벡터를 통합한 통합 벡터의 특징을 CNN 알고리즘을 이용하여 추출하는 단계;를 포함하며,
상기 통합 벡터는, 상기 텍스트 데이터 벡터와 상기 이미지 데이터 벡터가 행별로 교차 배치되어 형성되며, 상기 이미지 데이터 벡터를 상기 텍스트 데이터 벡터와 동일한 개수만큼 이용하기 위해 상기 이미지 데이터 벡터가 부족한 개수만큼 상기 이미지 데이터 벡터를 복제하여 형성되는 데이터 통합 분석 학습을 이용한 데이터 분류 방법.
삭제
삭제
삭제
제 8항에 있어서,
상기 신규 데이터의 분류를 수행하는 단계;는,
상기 통합 벡터 특징을 이용하여 데이터 학습을 수행하여 상기 기본 데이터 학습 결과를 생성하는 단계; 및
분류를 위해 획득한 상기 신규 데이터를 상기 학습 결과를 이용하여 분류하는 단계;를 포함하는 데이터 통합 분석 학습을 이용한 데이터 분류 방법.
제 12항에 있어서,
상기 신규 데이터를 상기 학습 결과를 이용하여 분류하는 단계;는,
상기 신규 데이터의 분류 결과가 기 설정된 정확도 이상인 경우, 해당 신규 데이터를 상기 기본 데이터 학습 결과를 생성하기 위한 데이터로 사용하기 위해 상기 전처리 데이터를 생성하는 단계로 전달하는 데이터 통합 분석 학습을 이용한 데이터 분류 방법.