KR102311644B1

KR102311644B1 - 데이터분석장치 및 그 동작 방법

Info

Publication number: KR102311644B1
Application number: KR1020210013234A
Authority: KR
Inventors: 이재민; 하태현
Original assignee: 한국과학기술정보연구원
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2021-10-12

Abstract

본 발명은 분석대상 데이터(예: 특허 데이터, 상표 데이터, 및 논문 데이터)에 특화된 임베딩(Embedding) 벡터를 추출하여 이를 데이터 분석에 활용하기 위한 데이터분석장치 및 그 동작 방법에 관한 것이다.

Description

데이터분석장치 및 그 동작 방법{DATA ANALYSIS APPARATUS, AND CONTROL METHOD THEREOF}

본 발명은 분석대상 데이터(예: 특허 데이터, 상표 데이터, 및 논문 데이터)에 특화된 임베딩(Embedding) 벡터를 추출하여 이를 데이터 분석에 활용하기 위한 기술에 관한 것이다.

연구 및 기술개발, 그리고 보유기술과 비즈니스 영역(제품, 서비스)의 추출 등을 위한 데이터 분석은 다양한 분야에 걸쳐서 그 중요도가 날로 커지고 있다.

이러한 데이터 분석에 있어서는 특허 데이터 분석을 그 대표적인 예로 들 수 있다.

이와 관련하여, 기존의 특허 데이터 분석의 경우 키워드 기반의 검색엔진을 활용하는 것이 일반적이었다.

그러나, 이처럼 특허 데이터 분석에 키워드 기반의 검색엔진을 활용하는 경우, 사용자가 원하는 기술 또는 특징이 컨텍스트로 포함된 특허 데이터뿐만 아니라, 전혀 무관한 특허 데이터인 노이즈까지 검색결과로 나올 수 있기 때문에 이에 기반한 데이터 분석의 실효성이 높지 않은 것이 현실이다.

이에, 본 발명에서는 특허 데이터뿐만 아니라, 상표 데이터 및 논문 데이터를 아우르는 다양한 분석대상 데이터를 보다 실효성 있게 분석할 수 있는 새로운 환경을 마련하고자 한다.

본 발명은 상기한 사정을 감안하여 창출된 것으로서, 본 발명에서 도달하고자 하는 목적은, 분석대상 데이터(예: 특허 데이터, 상표 데이터, 및 논문 데이터)에 특화된 임베딩(Embedding) 벡터를 추출하여 이를 데이터 분석에 활용하는데 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 데이터분석장치는, 분석대상 데이터의 텍스트를 대상으로 사전훈련언어모델을 파인 튜닝(Fine-Tuning)하여 상기 사전훈련언어모델로부터 상기 분석대상 데이터를 위한 전용언어모델을 생성하는 생성부; 상기 전용언어모델을 통해 상기 분석대상 데이터에 대한 임베딩(Embedding) 벡터를 추출하는 추출부; 및 상기 임베딩 벡터에 기초하여 상기 분석대상 데이터에 관한 분석 서비스를 제공하는 제공부를 포함하는 것을 특징으로 한다.

구체적으로, 상기 생성부는, 상기 분석대상 데이터가 가지는 특정 데이터 필드의 텍스트가 입력 값이 되고, 상기 분석대상 데이터를 분류하는 분류코드가 출력 값이 되는 학습 데이터 셋을 상기 사전훈련언어모델을 통해서 학습하여 상기 전용언어모델을 생성할 수 있다.

구체적으로, 상기 생성부는, 상기 분석대상 데이터에 부여될 수 있는 분류코드를 포함한 완전연결계층(Fully connected layer)을 상기 사전훈련언어모델에 연결시켜, 상기 완전연결계층을 기반으로 상기 사전훈련언어모델을 지도 학습할 수 있다.

구체적으로, 상기 추출부는, 상기 전용언어모델의 생성에 따라 상기 전용언어모델에 연결된 상태인 상기 완전연결계층을 제거하여, 상기 전용언어모델로 입력되는 상기 특정 데이터 필드의 텍스트에 대한 임베딩 벡터를 추출할 수 있다.

구체적으로, 상기 제공부는, 상기 분석대상 데이터에 대한 분류코드의 추천이 요구되는 경우, 상기 전용언어모델에 대한 상기 완전연결계층의 연결을 유지시켜, 상기 분석대상 데이터가 가지는 특정 데이터 필드의 텍스트 입력 시 상기 전용언어모델을 거쳐 상기 완전연결계층을 통해 출력되는 분류코드를 반환할 수 있다.

구체적으로, 상기 제공부는, 특정 기업이 보유한 분석대상 데이터에 대한 비교 분석이 요구되는 경우, 상기 특정 기업이 보유한 분석대상 데이터에 대해서 추출되는 임베딩(Embedding) 벡터의 평균값을 상기 특정 기업에 대한 대표 임베딩 벡터로 산출하며, 상기 특정 기업의 대표 임베딩 벡터를 상기 특정 기업과는 다른 타 기업의 대표 임베딩 벡터와 비교하여 기업 간 유사도를 판단할 수 있다.

구체적으로, 상기 전용언어모델은, 제1분석대상 데이터와 상기 제1분석대상 데이터와는 이종의 데이터인 제2분석대상 데이터의 텍스트 모두를 대상으로 상기 사전훈련언어모델을 파인 튜닝한 언어모델인 연계언어모델을 포함할 수 있다.

구체적으로, 상기 제공부는, 상기 제1분석대상 데이터와 상기 제2분석대상 데이터 간 비교 분석이 요구되는 경우, 상기 연계언어모델을 통해서 상기 제1분석대상 데이터와 상기 제2분석대상 데이터 각각에 대해 추출되는 임베딩 벡터를 상호 비교하여 유사도가 임계치 이하 또는 이상인 분석대상 데이터 쌍을 검출할 수 있다.

구체적으로, 상기 제공부는, 상기 제1분석대상 데이터와 상기 제2분석대상 데이터 간 분류코드 연계가 요구되는 경우, 상기 연계언어모델을 통해서 상기 제1분석대상 데이터와 상기 제2분석대상 데이터 각각에 대해 추출되는 임베딩 벡터를 상기 제1분석대상 데이터와 상기 제2분석대상 데이터 각각의 분류코드 별로 평균하며, 상기 제1분석대상 데이터와 상기 제2분석대상 데이터 각각의 분류코드 별 임베딩 벡터의 평균 값을 상기 제1분석대상 데이터와 상기 제2분석데이터 간에 상호 비교하여 유사도가 임계치 이상인 분류코드 쌍을 검출할 수 있다.

구체적으로, 상기 분석대상 데이터는, 특허 데이터, 상표 데이터, 및 논문 데이터 중 적어도 하나를 포함할 수 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 데이터분석장치의 동작 방법은, 분석대상 데이터의 텍스트를 대상으로 사전훈련언어모델을 파인 튜닝(Fine-Tuning)하여 상기 사전훈련언어모델로부터 상기 분석대상 데이터를 위한 전용언어모델을 생성하는 생성단계; 상기 전용언어모델을 통해 상기 분석대상 데이터에 대한 임베딩(Embedding) 벡터를 추출하는 추출단계; 및 상기 임베딩 벡터에 기초하여 상기 분석대상 데이터에 관한 분석 서비스를 제공하는 제공단계를 포함하는 것을 특징으로 한다.

구체적으로, 상기 생성단계는, 상기 분석대상 데이터가 가지는 특정 데이터 필드의 텍스트가 입력 값이 되고, 상기 분석대상 데이터를 분류하는 분류코드가 출력 값이 되는 학습 데이터 셋을 상기 사전훈련언어모델을 통해서 학습하여 상기 전용언어모델을 생성할 수 있다.

구체적으로, 상기 생성단계는, 상기 분석대상 데이터에 부여될 수 있는 분류코드를 포함한 완전연결계층(Fully connected layer)을 상기 사전훈련언어모델에 연결시켜, 상기 완전연결계층을 기반으로 상기 사전훈련언어모델을 지도 학습할 수 있다.

구체적으로, 상기 추출단계는, 상기 전용언어모델의 생성에 따라 상기 전용언어모델에 연결된 상태인 상기 완전연결계층을 제거하여, 상기 전용언어모델로 입력되는 상기 특정 데이터 필드의 텍스트에 대한 임베딩 벡터를 추출할 수 있다.

구체적으로, 상기 제공단계는, 상기 분석대상 데이터에 대한 분류코드의 추천이 요구되는 경우, 상기 전용언어모델에 대한 상기 완전연결계층의 연결을 유지시켜, 상기 분석대상 데이터가 가지는 특정 데이터 필드의 텍스트 입력 시 상기 전용언어모델을 거쳐 상기 완전연결계층을 통해 출력되는 분류코드를 반환할 수 있다.

구체적으로, 상기 제공단계는, 특정 기업이 보유한 분석대상 데이터에 대한 비교 분석이 요구되는 경우, 상기 특정 기업이 보유한 분석대상 데이터에 대해서 추출되는 임베딩(Embedding) 벡터의 평균값을 상기 특정 기업에 대한 대표 임베딩 벡터로 산출하며, 상기 특정 기업의 대표 임베딩 벡터를 상기 특정 기업과는 다른 타 기업의 대표 임베딩 벡터와 비교하여 기업 간 유사도를 판단할 수 있다.

구체적으로, 상기 제공단계는, 상기 제1분석대상 데이터와 상기 제2분석대상 데이터 간 비교 분석이 요구되는 경우, 상기 연계언어모델을 통해서 상기 제1분석대상 데이터와 상기 제2분석대상 데이터 각각에 대해 추출되는 임베딩 벡터를 상호 비교하여 유사도가 임계치 이하 또는 이상인 분석대상 데이터 쌍을 검출할 수 있다.

구체적으로, 상기 제공단계는, 상기 제1분석대상 데이터와 상기 제2분석대상 데이터 간 분류코드 연계가 요구되는 경우, 상기 연계언어모델을 통해서 상기 제1분석대상 데이터와 상기 제2분석대상 데이터 각각에 대해 추출되는 임베딩 벡터를 상기 제1분석대상 데이터와 상기 제2분석대상 데이터 각각의 분류코드 별로 평균하며, 상기 제1분석대상 데이터와 상기 제2분석대상 데이터 각각의 분류코드 별 임베딩 벡터의 평균 값을 상기 제1분석대상 데이터와 상기 제2분석데이터 간에 상호 비교하여 유사도가 임계치 이상인 분류코드 쌍을 검출할 수 있다.

이에, 본 발명의 데이터분석장치 및 그 동작 방법에서는, 분석대상 데이터(예: 특허 데이터, 상표 데이터, 및 논문 데이터)에 등장하는 단어, 표현 등 해당 데이터에 특화된 임베딩(Embedding) 벡터를 기계학습을 기반으로 추출하여 이를 활용한 데이터 분석 서비스를 제공함으로써, 데이터 분석이 있어서 그 실효성을 제고할 수 있다.

도 1은 본 발명의 일 실시예에 따른 분석대상 데이터 분석 환경을 설명하기 위한 예시도.
도 2는 본 발명의 일 실시예에 따른 데이터분석장치의 구성을 설명하기 위한 구성도.
도 3 내지 도 5는 본 발명의 일 실시예에 따른 학습 데이터 셋을 설명하기 위한 예시도.
도 6 내지 도 11은 본 발명의 일 실시예에 따른 전용언어모델(연계언어모델)을 설명하기 위한 예시도.
도 12 내지 도 16은 본 발명의 일 실시예에 따른 데이터 분석 서비스를 설명하기 위한 예시도.
도 17은 본 발명의 일 실시예에 따른 데이터분석장치의 동작 방법을 설명하기 위한 순서도

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 설명한다.

본 발명의 일 실시예에서는, 연구 및 기술개발, 그리고 보유기술과 비즈니스 영역(제품, 서비스)의 추출 등을 위한 데이터 분석 기술을 다룬다.

이와 관련하여 데이터 분석에 있어서 대표적인 예로 들 수 있는 특허 데이터 분석의 경우, 키워드 기반의 검색엔진을 활용하는 것이 일반적이다.

이에, 본 발명의 일 실시예에서는 전술한 특허 데이터뿐만 아니라, 상표 데이터 및 논문 데이터를 아우르는 다양한 분석대상 데이터를 보다 실효성 있게 분석할 수 있는 새로운 방안을 제공하고자 한다.

이와 관련하여, 도 1에는 본 발명의 일 실시예에 따른 분석대상 데이터 분석 환경을 예시적으로 보여주고 있다.

도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 분석대상 데이터 분석 환경에는, 특허 데이터, 상표 데이터, 및 논문 데이터를 아우르는 다양한 분석대상 데이터를 분석하는 데이터분석장치(100)를 포함할 수 있다.

이러한, 데이터분석장치(100)는 분석대상 데이터에 특화된 임베딩(Embedding) 벡터를 기계학습을 기반으로 추출하여 이를 데이터 분석에 활용하는 장치를 일컫는 것으로서, 예컨대 서버의 형태로 구현될 수 있다.

이러한, 데이터분석장치(100)가 서버의 형태로 구현되는 경우, 예컨대, 웹 서버, 데이터베이스 서버, 프록시 서버 등의 형태로 구현될 수 있으며, 네트워크 부하 분산 메커니즘, 내지 서비스 장치가 인터넷 또는 다른 네트워크 상에서 동작할 수 있도록 하는 다양한 소프트웨어 중 하나 이상이 설치될 수 있으며, 이를 통해 컴퓨터화된 시스템으로도 구현될 수 있다.

이때, 네트워크는 http 네트워크일 수 있으며, 전용 회선(private line), 인트라넷 또는 임의의 다른 네트워크일 수 있고, 또한 본 발명의 일 실시예에 따른 광고 제공 시스템 내 각 구성 간의 연결은, 데이터가 임의의 해커 또는 다른 제3자에 의한 공격을 받지 않도록 보안 네트워크로 연결될 수 있다.

이상, 본 발명의 일 실시예에 따른 분석대상 데이터 분석 환경에서는, 전술한 구성을 통해 데이터 분석의 실효성을 제고할 수 있는데, 이하에서는 이를 실현하기 위한 데이터분석장치(100)의 구성에 대해서 보다 구체적으로 설명하기로 한다.

이와 관련하여, 도 2에서는 본 발명의 일 실시예에 따른 데이터분석장치(100)의 개략적인 구성을 보여주고 있다.

도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 데이터분석장치(100)는 전용언어모델을 생성하는 생성부(10), 임베딩(Embedding) 벡터를 추출하는 추출하는 추출부(20), 및 분석 서비스를 제공하는 제공부(30)를 포함할 수 있다.

이상의 생성부(10), 추출부(20), 및 제공부(30)를 포함하는 데이터분석장치(100)의 전체 구성 내지는 적어도 일부는 하드웨어 모듈 형태 또는 소프트웨어 모듈 형태로 구현되거나, 하드웨어 모듈과 소프트웨어 모듈이 조합된 형태로 구현될 수 있다.

여기서, 소프트웨어 모듈이란, 예컨대, 데이터분석장치(100) 내에서 연산을 제어하는 프로세서에 의해 실행되는 명령어로 이해될 수 있으며, 이러한 명령어는 데이터분석장치(100) 내 메모리에 탑재된 형태를 가질 수 있다.

한편, 본 발명의 일 실시예에 따른 데이터분석장치(100)는 전술한 구성 이외에, 유무선 통신망 접속을 지원하기 위한 통신 기능을 담당하는 RF 모듈인 통신부(40)의 구성을 더 포함할 수 있다.

이상 본 발명의 일 실시예에 따른 데이터분석장치(100)는 전술한 구성을 통해서 분석대상 데이터에 특화된 임베딩(Embedding) 벡터를 기계학습을 기반으로 추출하여 이를 데이터 분석에 활용할 수 있는데, 이하에서는 이를 실현하기 위한 데이터분석장치(100) 내 각 구성에 대한 보다 구체적인 설명을 이어 가기로 한다.

생성부(10)는 분석대상 데이터를 위한 전용언어모델을 생성하는 기능을 수행한다.

보다 구체적으로, 생성부(10)는 분석대상 데이터의 텍스트를 대상으로 사전훈련언어모델을 파인 튜닝(Fine-Tuning)하여 사전훈련언어모델로부터 분석대상 데이터를 위한 전용언어모델을 생성하게 된다.

여기서, 사전훈련언어모델에는 예컨대, 사전 학습이 완료된 기본언어모델인 예컨대, 버트(BERT basic)가 이에 해당될 수 있다.

이때, 생성부(10)는 분석대상 데이터가 가지는 특정 데이터 필드의 텍스트가 입력 값이 되고, 분석대상 데이터를 분류하는 분류코드가 출력 값이 되는 학습 데이터 셋을 구성하여, 사전훈련언어모델을 통해 이를 학습하는 방식으로 전용언어모델을 생성될 수 있도록 한다.

이와 관련하여, 생성부(10)는 분석대상 데이터가 특허 데이터인 경우, 예컨대, 도 3에서와 같이 특허 데이터가 가지는 특허명을 입력 값(X)으로 하고, 특허 데이터의 분류코드인 cpc 코드를 출력 값(Y)으로 하는 학습 데이터 셋을 구성하게 된다.

여기서, cpc 분류코드는 앞에 4자리 분류체계까지만 고려되며, 코드 자체는 텍스트이므로 출력 값(Y) 반영 시 매칭된 인덱스 번호로 변경하여 활용될 수 있다.

참고로, 이러한 특허 데이터의 분류코드는 그 정의에 따라 IPC 코드를 포함할 수 있음은 물론이다.

또한, 생성부(10)는 분석대상 데이터가 상표 데이터인 경우, 예컨대, 도 4에서와 같이 상표 데이터가 가지는 상표명을 입력 값(X)으로 하고, 상표 데이터가 가지는 분류코드인 유사군 코드를 출력 값(Y)으로 하는 데이터 셋을 구성하게 된다.

여기서, 입력 값(X)이 되는 상표명은 하나의 출원상표에 대해 같은 유사군 코드(sim_code)를 가지는 지정상품(prod_kor) 들의 순서를 바꾼 N-gram 문장으로 구성되며(공백을 두고 하나의 문장으로 구성), 유사군 코드 자체는 텍스트이므로 출력 값(Y) 반영 시 매칭된 인덱스 번호로 변경하여 활용될 수 있다.

또한, 생성부(10)는 분석대상 데이터가 논문 데이터인 경우, 예컨대, 도 5에서와 같이 논문 데이터의 제목 및 초록 중 적어도 하나를 입력 값(X)으로 하고, 논문 데이터의 분류코드를 출력 값(Y)로 하는 데이터 셋을 구성하게 된다.

여기서, 출력 값(Y)되는 논문 데이터의 분류코드의 경우, 데이터 제공업체에 따라 상이하며(예: 크라리베이트 - web of science category, 스코퍼스 - ASJC 코드), 분류코드 자체는 텍스트이므로 출력 값(Y) 반영 시 매칭된 인덱스 번호로 변경하여 활용될 수 있다.

나아가, 생성부(10)는 분석대상 데이터에 대한 학습 데이터 셋의 구성이 완료되면, 분석대상 데이터에 부여될 수 있는 분류코드를 포함한 완전연결계층(FC, Fully connected layer)을 상기 사전훈련언어모델에 연결시켜, 완전연결계층을 기반으로 사전훈련언어모델을 지도 학습하여 분석대상 데이터만을 위한 전용언어모델을 생성할 수 있다.

이와 관련하여, 생성부(10)는 분석대상 데이터가 특허 데이터인 경우, 예컨대, 도 6 (a)와 같이 특허 데이터에 부여될 수 있는 cpc 코드(예: 653개)를 포함한 완전연결계층(FC, Fully connected layer)을 사전훈련언어모델에 연결시키고, 이를 통한 사전훈련언어모델의 지도 학습을 통해서 특허 데이터만을 위한 전용언어모델을 생성하게 된다.

또한, 생성부(10)는 분석대상 데이터가 상표 데이터인 경우, 예컨대, 도 7 (a)와 같이 상표 데이터에 부여될 수 있는 유사군 코드(예: 511개)를 포함한 완전연결계층(FC, Fully connected layer)을 사전훈련언어모델에 연결시키고, 이를 통한 사전훈련언어모델의 지도 학습을 통해서 상표 데이터만을 위한 전용언어모델을 생성하게 된다.

또한, 생성부(10)는 분석대상 데이터가 논문 데이터인 경우, 예컨대, 도 8 (a)와 같이 논문 데이터에 부여될 수 있는 분류코드(예: ASJC 코드-334개)를 포함한 완전연결계층(FC, Fully connected layer)을 사전훈련언어모델에 연결시키고, 이를 통한 사전훈련언어모델의 지도 학습을 통해서 논문 데이터만을 위한 전용언어모델을 생성하게 된다.

한편, 생성부(10)는 이러한 전용언어모델의 생성에 있어서, 제1분석대상 데이터와 제1분석대상 데이터와는 이종의 데이터인 제2분석대상 데이터의 텍스트 모두를 대상으로 사전훈련언어모델을 파인 튜닝(Fine-Tuning)하여 사전훈련언어모델로부터 제1분석대상 데이터와 제2분석데이터 모두를 위한(연계 분석을 위한) 연계언어모델을 생성할 수 있다.

이와 관련하여, 생성부(10)는 제1분석대상 데이터가 특허 데이터이고, 제2분석대상 데이터가 상표 데이터인 경우, 예컨대, 도 9에서와 같이 특허 데이터에 부여될 수 있는 cpc 코드(예: 653개)와 상표 데이터에 부여될 수 있는 cpc 코드(예: 653개)와 유사군 코드(예: 511개)를 포함한 완전연결계층(FC, Fully connected layer)을 사전훈련언어모델에 연결시키고, 이를 통한 사전훈련언어모델의 교번 지도 학습을 통해서 특허 데이터와 상표 데이터 모두를 위한(연계 분석을 위한) 연계언어모델을 생성하게 된다.

또한, 생성부(10)는 분석대상 데이터가 특허 데이터이고, 제2분석대상 데이터가 논문 데이터인 경우, 예컨대, 도 10에서와 같이 특허 데이터에 부여될 수 있는 cpc 코드(예: 653개)와 논문 데이터에 부여될 수 있는 분류코드(예: ASJC 코드-334개)를 포함한 완전연결계층(FC, Fully connected layer)을 사전훈련언어모델에 연결시키고, 이를 통한 사전훈련언어모델의 교번 지도 학습을 통해서 특허 데이터와 논문 데이터 모두를 위한(연계 분석을 위한) 연계언어모델을 생성하게 된다.

추출부(20)는 분석대상 데이터에 대한 임베딩(Embedding) 벡터를 추출하는 기능을 수행한다.

보다 구체적으로, 추출부(20)는 전용언어모델의 생성(학습)이 완료되면, 전용언어모델을 통해 분석대상 데이터에 대한 임베딩(Embedding) 벡터를 추출하게 된다.

이때, 추출부(20)는 전용언어모델의 생성에 따라 지도 학습 과정에서 전용언어모델에 연결된 상태인 완전연결계층을 제거하여, 전용언어모델로 입력되는 분석대상 데이터에 대한 임베딩 벡터를 추출할 수 있다.

이와 관련하여, 추출부(20)는 전용언어모델로부터 특허 데이터에 대한 임베딩 벡터를 추출하는 경우, 예컨대, 도 6 (b)에서와 같이 특허 데이터에 대한 지도 학습 과정에서 전용언어모델에 연결된 상태인 완전연결계층을 제거하여, 전용언어모델로 입력되는 특허명에 대해서 임베딩 벡터를 추출하게 된다.

또한, 추출부(20)는 전용언어모델로부터 상표 데이터에 대한 임베딩 벡터를 추출하는 경우, 예컨대, 도 7 (b)에서와 같이 상표 데이터에 대한 지도 학습 과정에서 전용언어모델에 연결된 상태인 완전연결계층을 제거하여, 전용언어모델로 입력되는 상표명에 대해서 임베딩 벡터를 추출하게 된다.

또한, 추출부(20)는 전용언어모델로부터 논문 데이터에 대한 임베딩 벡터를 추출하는 경우, 앞서 예시한 도 8 (b)에서와 같이 상표 데이터에 대한 지도 학습 과정에서 전용언어모델에 연결된 상태인 완전연결계층을 제거하여, 전용언어모델로 입력되는 논문 제목 또는 초록에 대해서 임베딩 벡터를 추출하게 된다.

한편, 추출부(20)는 연계언어모델의 생성에 따라 지도 학습 과정에서 연계언어모델에 연결된 상태인 완전연결계층을 제거하여, 연계언어모델로 입력되는 제1분석대상 데이터 및 제2분석데이터에 대한 임베딩 벡터를 추출할 수 있다.

이와 관련하여, 추출부(20)는 연계언어모델로부터 특허 데이터와 상표 데이터 각각에 대한 임베딩 벡터를 추출하는 경우, 예컨대, 도 11에서와 같이 특허 데이터와 상표 데이터에 대한 연계 지도 학습 과정에서 연계언어모델에 연결된 상태인 완전연결계층을 제거하여, 연계언어모델로 입력되는 특허명과 상표명 각각에 대해서 임베딩 벡터를 추출하게 된다.

제공부(30)는 분석대상 데이터에 관한 분석 서비스를 제공하는 기능을 수행한다.

보다 구체적으로, 제공부(30)는 분석대상 데이터에 대한 임베딩 벡터의 추출이 완료되면, 추출된 임베딩 벡터에 기초하여 분석대상 데이터에 관한 분석 서비스를 제공하게 된다.

이때, 제공부(30)는 분석대상 데이터에 대한 분류코드의 추천이 요구되는 경우, 전용언어모델에 대해 완전연결계층의 연결을 유지시켜, 분석대상 데이터가 가지는 특정 데이터 필드의 텍스트 입력 시 전용언어모델을 거쳐 완전연결계층을 통해 출력되는 분류코드를 반환할 수 있다.

이와 관련하여, 제공부(30)는 신규 입력되는 특허 데이터에 대한 분류코드 추천이 요구되는 경우, 예컨대, 도 12 (a)에서와 같이 특허 데이터를 학습한 전용언어모델에 대해 완전연결계층의 연결을 유지시켜, 신규 특허 데이터의 특허명 입력 시 전용언어모델을 거쳐 완전연결계층을 통해 출력되는 cpc 코드를 반환(추천)할 수 있다.

또한, 제공부(30)는 신규 입력되는 상표 데이터에 대한 분류코드 추천이 요구되는 경우, 예컨대, 도 12 (b)에서와 같이 상표 데이터를 학습한 전용언어모델에 대해 완전연결계층의 연결을 유지시켜, 신규 상표 데이터의 상표명 입력 시 전용언어모델을 거쳐 완전연결계층을 통해 출력되는 유사군 코드를 반환(추천)할 수 있다.

그리고, 제공부(30)는 특정 기업이 보유한 분석대상 데이터에 대한 비교 분석이 요구되는 경우, 특정 기업이 보유한 분석대상 데이터에 대해서 추출되는 임베딩(Embedding) 벡터의 평균값을 특정 기업에 대한 대표 임베딩 벡터로 산출하고, 산출된 특정 기업의 대표 임베딩 벡터를 상기 특정 기업과는 다른 타 기업의 대표 임베딩 벡터와 비교하여 기업 간 유사도(거리)를 판단할 수 있다.

이와 관련하여, 제공부(30)는 특정 기업이 보유한 특허 데이터에 대한 비교 분석이 요구되는 경우, 예컨대, 도 13 (a)에서와 같이, 특정 기업이 보유한 특허 데이터에 대해서 추출되는 임베딩(Embedding) 벡터의 평균값을 특정 기업에 대한 대표 임베딩 벡터로 산출하고, 산출된 특정 기업의 대표 임베딩 벡터를 상기 특정 기업과는 다른 타 기업의 특허 데이터에 관한 대표 임베딩 벡터와 비교함으로써, 비교 결과에 따라 기업 간 유사도(예: 코사인 유사도)를 판단하게 된다.

또한, 제공부(30)는 특정 기업이 보유한 상표 데이터에 대한 비교 분석이 요구되는 경우, 예컨대, 도 13 (b)에서와 같이, 특정 기업이 보유한 상표 데이터에 대해서 추출되는 임베딩(Embedding) 벡터의 평균값을 특정 기업에 대한 대표 임베딩 벡터로 산출하고, 산출된 특정 기업의 대표 임베딩 벡터를 상기 특정 기업과는 다른 타 기업의 상표 데이터에 관한 대표 임베딩 벡터와 비교함으로써, 비교 결과에 따라 기업 간 유사도(예: 코사인 유사도)를 판단하게 된다.

나아가, 제공부(30)는 특정 기업이 보유한 제1분석대상 데이터와 제2분석대상 데이터 간 비교 분석이 요구되는 경우, 연계언어모델을 통해서 제1분석대상 데이터와 제2분석대상 데이터 각각에 대해 추출되는 임베딩 벡터를 상호 비교하여 유사도가 임계치 이하 또는 이상인 분석대상 데이터 쌍을 검출할 수 있다.

이와 관련하여, 제공부(30)는 특정 기업이 보유한 특허 데이터와 상표 데이터 간 비교 분석이 요구되는 경우, 예컨대, 도 14에서와 같이 연계언어모델을 통해서 특허 데이터와 상표 데이터 각각에 대해 추출되는 임베딩 벡터를 상호 비교하여 유사도가 임계치 이하 또는 이상인 분석대상 데이터 쌍을 검출하여, 상표 데이터 중 특허 데이터와의 유사도가 임계치 이하인 상표 데이터인 저장 상표를 찾아내는 것이 가능해 진다.

또한, 제공부(30)는 특정 기업이 보유한 특허 데이터와 논문 데이터 간 비교 분석이 요구되는 경우, 예컨대, 도 15에서와 같이 연계언어모델을 통해서 특허 데이터와 논문 데이터 각각에 대해 추출되는 임베딩 벡터를 상호 비교하여 비교 결과 유사도가 임계치 이상인 분석대상 데이터 쌍을 검출하여, 특허 데이터와 유사한 논문 데이터 혹은 논문 데이터와 유사한 특허 데이터를 찾아내는 것이 가능해진다.

그 밖에, 제공부(30)는 특정 기업이 보유한 제1분석대상 데이터와 제2분석대상 데이터 간 분류코드 연계가 요구되는 경우, 연계언어모델을 통해서 제1분석대상 데이터와 제2분석대상 데이터 각각에 대해 추출되는 임베딩 벡터를 제1분석대상 데이터와 제2분석대상 데이터 각각의 분류코드 별로 평균하며, 제1분석대상 데이터와 상기 제2분석대상 데이터 각각의 분류코드 별 임베딩 벡터의 평균 값을 제1분석대상 데이터와 상기 제2분석데이터 간에 상호 비교하여 유사도가 임계치 이상인 분류코드 쌍을 검출할 수 있다.

이와 관련하여, 제공부(30)는 특정 기업이 보유한 특허 데이터와 상표 데이터 간 분류코드 연계가 요구되는 경우, 예컨대, 도 16에서와 같이, 연계언어모델을 통해서 특허 데이터와 상표 데이터 각각에 대해 추출되는 임베딩 벡터를 각각의 분류코드 별로 평균하며, 특허 데이터와 상표 데이터 각각의 분류코드 별 임베딩 벡터의 평균 값을 특허 데이터와 상표 데이터 간에 상호 비교하여 비교 결과 유사도 임계치 이상인 cpc 코드와 유사군 코드 쌍을 상호 연결하는 것이 가능해진다.

이상에서 살펴본 바와 같이, 본 발명의 일 실시예에 따른 데이터분석장치(100)의 구성에 따르면, 분석대상 데이터(예: 특허 데이터, 상표 데이터, 및 논문 데이터)에 등장하는 단어, 표현 등 해당 데이터에 특화된 임베딩(Embedding) 벡터를 기계학습을 기반으로 추출하여 이를 활용한 다양한 데이터 분석 서비스를 제공하는 것이 가능해지므로, 데이터 분석이 있어서 그 실효성을 제고할 수 있다.

이하에서는, 도 17을 참조하여 본 발명의 일 실시예에 따른 데이터분석장치(20)의 동작 방법을 설명하기로 한다.

먼저, 생성부(10)는 분석대상 데이터의 텍스트를 대상으로 사전훈련언어모델을 파인 튜닝(Fine-Tuning)하여 사전훈련언어모델로부터 분석대상 데이터를 위한 전용언어모델을 생성한다(S10-S30).

이와 관련하여, 생성부(10)는 분석대상 데이터가 특허 데이터인 경우, 앞서 예시한 도 3에서와 같이 특허 데이터가 가지는 특허명을 입력 값(X)으로 하고, 특허 데이터의 분류코드인 cpc 코드를 출력 값(Y)으로 하는 학습 데이터 셋을 구성하게 된다.

또한, 생성부(10)는 분석대상 데이터가 상표 데이터인 경우, 앞서 예시한 도 4에서와 같이 상표 데이터가 가지는 상표명을 입력 값(X)으로 하고, 상표 데이터가 가지는 분류코드인 유사군 코드를 출력 값(Y)으로 하는 데이터 셋을 구성하게 된다.

또한, 생성부(10)는 분석대상 데이터가 논문 데이터인 경우, 앞서 예시한 도 5에서와 같이 논문 데이터의 제목 및 초록 중 적어도 하나를 입력 값(X)으로 하고, 논문 데이터의 분류코드를 출력 값(Y)로 하는 데이터 셋을 구성하게 된다.

이와 관련하여, 생성부(10)는 분석대상 데이터가 특허 데이터인 경우, 앞서 예시한, 도 6 (a)와 같이 특허 데이터에 부여될 수 있는 cpc 코드(예: 653개)를 포함한 완전연결계층(FC, Fully connected layer)을 사전훈련언어모델에 연결시키고, 이를 통한 사전훈련언어모델의 지도 학습을 통해서 특허 데이터만을 위한 전용언어모델을 생성하게 된다.

또한, 생성부(10)는 분석대상 데이터가 상표 데이터인 경우, 앞서 예시한 도 7 (a)와 같이 상표 데이터에 부여될 수 있는 유사군 코드(예: 511개)를 포함한 완전연결계층(FC, Fully connected layer)을 사전훈련언어모델에 연결시키고, 이를 통한 사전훈련언어모델의 지도 학습을 통해서 상표 데이터만을 위한 전용언어모델을 생성하게 된다.

또한, 생성부(10)는 분석대상 데이터가 논문 데이터인 경우, 앞서 예시한 도 8 (a)와 같이 논문 데이터에 부여될 수 있는 분류코드(예: ASJC 코드-334개)를 포함한 완전연결계층(FC, Fully connected layer)을 사전훈련언어모델에 연결시키고, 이를 통한 사전훈련언어모델의 지도 학습을 통해서 논문 데이터만을 위한 전용언어모델을 생성하게 된다.

이와 관련하여, 생성부(10)는 제1분석대상 데이터가 특허 데이터이고, 제2분석대상 데이터가 상표 데이터인 경우, 앞서 예시한 도 9에서와 같이 특허 데이터에 부여될 수 있는 cpc 코드(예: 653개)와 상표 데이터에 부여될 수 있는 cpc 코드(예: 653개)와 유사군 코드(예: 511개)를 포함한 완전연결계층(FC, Fully connected layer)을 사전훈련언어모델에 연결시키고, 이를 통한 사전훈련언어모델의 교번 지도 학습을 통해서 특허 데이터와 상표 데이터 모두를 위한(연계 분석을 위한) 연계언어모델을 생성하게 된다.

또한, 생성부(10)는 분석대상 데이터가 특허 데이터이고, 제2분석대상 데이터가 논문 데이터인 경우, 앞서 예시한 도 10에서와 같이 특허 데이터에 부여될 수 있는 cpc 코드(예: 653개)와 논문 데이터에 부여될 수 있는 분류코드(예: ASJC 코드-334개)를 포함한 완전연결계층(FC, Fully connected layer)을 사전훈련언어모델에 연결시키고, 이를 통한 사전훈련언어모델의 교번 지도 학습을 통해서 특허 데이터와 논문 데이터 모두를 위한(연계 분석을 위한) 연계언어모델을 생성하게 된다.

나아가, 추출부(20)는 전용언어모델의 생성(학습)이 완료되면, 전용언어모델을 통해 분석대상 데이터에 대한 임베딩(Embedding) 벡터를 추출한다(S40-S50).

이와 관련하여, 추출부(20)는 전용언어모델로부터 특허 데이터에 대한 임베딩 벡터를 추출하는 경우, 앞서 예시한 도 6 (b)에서와 같이 특허 데이터에 대한 지도 학습 과정에서 전용언어모델에 연결된 상태인 완전연결계층을 제거하여, 전용언어모델로 입력되는 특허명에 대해서 임베딩 벡터를 추출하게 된다.

또한, 추출부(20)는 전용언어모델로부터 상표 데이터에 대한 임베딩 벡터를 추출하는 경우, 앞서 예시한 도 7 (b)에서와 같이 상표 데이터에 대한 지도 학습 과정에서 전용언어모델에 연결된 상태인 완전연결계층을 제거하여, 전용언어모델로 입력되는 상표명에 대해서 임베딩 벡터를 추출하게 된다.

이와 관련하여, 추출부(20)는 연계언어모델로부터 특허 데이터와 상표 데이터 각각에 대한 임베딩 벡터를 추출하는 경우, 앞서 예시한 도 11에서와 같이 특허 데이터와 상표 데이터에 대한 연계 지도 학습 과정에서 연계언어모델에 연결된 상태인 완전연결계층을 제거하여, 연계언어모델로 입력되는 특허명과 상표명 각각에 대해서 임베딩 벡터를 추출하게 된다.

이후, 제공부(30)는 분석대상 데이터에 대한 임베딩 벡터의 추출이 완료되면, 추출된 임베딩 벡터에 기초하여 분석대상 데이터에 관한 분석 서비스를 제공한다(S60).

이와 관련하여, 제공부(30)는 신규 입력되는 특허 데이터에 대한 분류코드 추천이 요구되는 경우, 앞서 예시한 도 12 (a)에서와 같이 특허 데이터를 학습한 전용언어모델에 대해 완전연결계층의 연결을 유지시켜, 신규 특허 데이터의 특허명 입력 시 전용언어모델을 거쳐 완전연결계층을 통해 출력되는 cpc 코드를 반환(추천)할 수 있다.

또한, 제공부(30)는 신규 입력되는 상표 데이터에 대한 분류코드 추천이 요구되는 경우, 앞서 예시한 도 12 (b)에서와 같이 상표 데이터를 학습한 전용언어모델에 대해 완전연결계층의 연결을 유지시켜, 신규 상표 데이터의 상표명 입력 시 전용언어모델을 거쳐 완전연결계층을 통해 출력되는 유사군 코드를 반환(추천)할 수 있다.

이와 관련하여, 제공부(30)는 특정 기업이 보유한 특허 데이터에 대한 비교 분석이 요구되는 경우, 앞서 예시한 도 13 (a)에서와 같이, 특정 기업이 보유한 특허 데이터에 대해서 추출되는 임베딩(Embedding) 벡터의 평균값을 특정 기업에 대한 대표 임베딩 벡터로 산출하고, 산출된 특정 기업의 대표 임베딩 벡터를 상기 특정 기업과는 다른 타 기업의 특허 데이터에 관한 대표 임베딩 벡터와 비교함으로써, 비교 결과에 따라 기업 간 유사도(예: 코사인 유사도)를 판단하게 된다.

또한, 제공부(30)는 특정 기업이 보유한 상표 데이터에 대한 비교 분석이 요구되는 경우, 앞서 예시한 도 13 (b)에서와 같이, 특정 기업이 보유한 상표 데이터에 대해서 추출되는 임베딩(Embedding) 벡터의 평균값을 특정 기업에 대한 대표 임베딩 벡터로 산출하고, 산출된 특정 기업의 대표 임베딩 벡터를 상기 특정 기업과는 다른 타 기업의 상표 데이터에 관한 대표 임베딩 벡터와 비교함으로써, 비교 결과에 따라 기업 간 유사도(예: 코사인 유사도)를 판단하게 된다.

이와 관련하여, 제공부(30)는 특정 기업이 보유한 특허 데이터와 상표 데이터 간 비교 분석이 요구되는 경우, 앞서 예시한 도 14에서와 같이 연계언어모델을 통해서 특허 데이터와 상표 데이터 각각에 대해 추출되는 임베딩 벡터를 상호 비교하여 유사도가 임계치 이하 또는 이상인 분석대상 데이터 쌍을 검출하여, 상표 데이터 중 특허 데이터와의 유사도가 임계치 이하인 상표 데이터인 저장 상표를 찾아내는 것이 가능해 진다.

또한, 제공부(30)는 특정 기업이 보유한 특허 데이터와 논문 데이터 간 비교 분석이 요구되는 경우, 앞서 예시한 도 15에서와 같이 연계언어모델을 통해서 특허 데이터와 논문 데이터 각각에 대해 추출되는 임베딩 벡터를 상호 비교하여 비교 결과 유사도가 임계치 이상인 분석대상 데이터 쌍을 검출하여, 특허 데이터와 유사한 논문 데이터 혹은 논문 데이터와 유사한 특허 데이터를 찾아내는 것이 가능해진다.

이와 관련하여, 제공부(30)는 특정 기업이 보유한 특허 데이터와 상표 데이터 간 분류코드 연계가 요구되는 경우, 앞서 예시한, 도 16에서와 같이, 연계언어모델을 통해서 특허 데이터와 상표 데이터 각각에 대해 추출되는 임베딩 벡터를 각각의 분류코드 별로 평균하며, 특허 데이터와 상표 데이터 각각의 분류코드 별 임베딩 벡터의 평균 값을 특허 데이터와 상표 데이터 간에 상호 비교하여 비교 결과 유사도 임계치 이상인 cpc 코드와 유사군 코드 쌍을 상호 연결하는 것이 가능해진다.

이상에서 살펴본 바와 같이, 본 발명의 일 실시예에 따른 데이터분석장치(100)의 동작 방법에 따르면, 분석대상 데이터(예: 특허 데이터, 상표 데이터, 및 논문 데이터)에 등장하는 단어, 표현 등 해당 데이터에 특화된 임베딩(Embedding) 벡터를 기계학습을 기반으로 추출하여 이를 활용한 다양한 데이터 분석 서비스를 제공하는 것이 가능해지므로, 데이터 분석이 있어서 그 실효성을 제고할 수 있다.

한편, 본 명세서에서 설명하는 기능적인 동작과 주제의 구현물들은 디지털 전자 회로로 구현되거나, 본 명세서에서 개시하는 구조 및 그 구조적인 등가물들을 포함하는 컴퓨터 소프트웨어, 펌웨어 혹은 하드웨어로 구현되거나, 이들 중 하나 이상의 결합으로 구현 가능하다. 본 명세서에서 설명하는 주제의 구현물들은 하나 이상의 컴퓨터 프로그램 제품, 다시 말해 처리 시스템의 동작을 처리하기 위하여 혹은 이것에 의한 실행을 위하여 유형의 프로그램 저장매체 상에 인코딩된 컴퓨터 프로그램 명령에 관한 하나 이상의 모듈로서 구현될 수 있다.

컴퓨터로 판독 가능한 매체는 기계로 판독 가능한 저장 장치, 기계로 판독 가능한 저장 기판, 메모리 장치, 혹은 이들 중 하나 이상의 조합일 수 있다.

본 명세서에서 "시스템"이나 "장치"라 함은 예컨대 프로그래머블 프로세서, 컴퓨터 혹은 다중 프로세서나 컴퓨터를 포함하여 데이터를 처리하기 위한 모든 기구, 장치 및 기계를 포괄한다. 처리 시스템은, 하드웨어에 부가하여, 예컨대 프로세서 펌웨어를 구성하는 코드, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제 혹은 이들 중 하나 이상의 조합 등 요청 시 컴퓨터 프로그램에 대한 실행 환경을 형성하는 코드를 포함할 수 있다.

컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 스크립트 혹은 코드로도 알려져 있음)은 컴파일되거나 해석된 언어나 선험적 혹은 절차적 언어를 포함하는 프로그래밍 언어의 어떠한 형태로도 작성될 수 있으며, 독립형 프로그램이나 모듈, 컴포넌트, 서브루틴 혹은 컴퓨터 환경에서 사용하기에 적합한 다른 유닛을 포함하여 어떠한 형태로도 전개될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 반드시 대응하는 것은 아니다. 프로그램은 요청된 프로그램에 제공되는 단일 파일 내에, 혹은 다중의 상호 작용하는 파일(예컨대, 하나 이상의 모듈, 하위 프로그램 혹은 코드의 일부를 저장하는 파일) 내에, 혹은 다른 프로그램이나 데이터를 보유하는 파일의 일부(예컨대, 마크업 언어 문서 내에 저장되는 하나 이상의 스크립트) 내에 저장될 수 있다. 컴퓨터 프로그램은 하나의 사이트에 위치하거나 복수의 사이트에 걸쳐서 분산되어 통신 네트워크에 의해 상호 접속된 다중 컴퓨터나 하나의 컴퓨터 상에서 실행되도록 전개될 수 있다.

한편, 컴퓨터 프로그램 명령어와 데이터를 저장하기에 적합한 컴퓨터로 판독 가능한 매체는, 예컨대 EPROM, EEPROM 및 플래시메모리 장치와 같은 반도체 메모리 장치, 예컨대 내부 하드디스크나 외장형 디스크와 같은 자기 디스크, 자기광학 디스크 및 CD-ROM과 DVD-ROM 디스크를 포함하여 모든 형태의 비휘발성 메모리, 매체 및 메모리 장치를 포함할 수 있다. 프로세서와 메모리는 특수 목적의 논리 회로에 의해 보충되거나, 그것에 통합될 수 있다.

본 명세서에서 설명한 주제의 구현물은 예컨대 데이터 서버와 같은 백엔드 컴포넌트를 포함하거나, 예컨대 애플리케이션 서버와 같은 미들웨어 컴포넌트를 포함하거나, 예컨대 사용자가 본 명세서에서 설명한 주제의 구현물과 상호 작용할 수 있는 웹 브라우저나 그래픽 유저 인터페이스를 갖는 클라이언트 컴퓨터와 같은 프론트엔드 컴포넌트 혹은 그러한 백엔드, 미들웨어 혹은 프론트엔드 컴포넌트의 하나 이상의 모든 조합을 포함하는 연산 시스템에서 구현될 수도 있다. 시스템의 컴포넌트는 예컨대 통신 네트워크와 같은 디지털 데이터 통신의 어떠한 형태나 매체에 의해서도 상호 접속 가능하다.

본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 마찬가지로, 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.

또한, 본 명세서에서는 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 시스템 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 시스템들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징될 수 있다는 점을 이해하여야 한다

이와 같이, 본 명세서는 그 제시된 구체적인 용어에 본 발명을 제한하려는 의도가 아니다. 따라서, 상술한 예를 참조하여 본 발명을 상세하게 설명하였지만, 당업자라면 본 발명의 범위를 벗어나지 않으면서도 본 예들에 대한 개조, 변경 및 변형을 가할 수 있다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

본 발명에 따른 데이터분석장치 및 그 동작 방법에 따르면, 분석대상 데이터(예: 특허 데이터, 상표 데이터, 및 논문 데이터)에 특화된 임베딩(Embedding) 벡터를 추출하여 이를 데이터 분석에 활용할 수 있다는 점에서, 기존 기술의 한계를 뛰어 넘음에 따라 관련 기술에 대한 이용만이 아닌 적용되는 장치의 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있는 발명이다.

100: 데이터분석장치
10: 생성부 20: 추출부
30: 제공부

Claims

분석대상 데이터의 텍스트를 대상으로 사전훈련언어모델을 파인 튜닝(Fine-Tuning)하여 상기 사전훈련언어모델로부터 상기 분석대상 데이터를 위한 전용언어모델을 생성하는 생성부;
상기 전용언어모델을 통해 상기 분석대상 데이터에 대한 임베딩(Embedding) 벡터를 추출하는 추출부; 및
상기 임베딩 벡터에 기초하여 상기 분석대상 데이터에 관한 분석 서비스를 제공하는 제공부를 포함하는 것을 특징으로 하는 데이터분석장치.
상기 제공부는,
상기 전용언어모델이 제1분석대상 데이터와 상기 제1분석대상 데이터와는 이종의 데이터인 제2분석대상 데이터의 텍스트 모두를 대상으로 상기 사전훈련언어모델을 파인 튜닝한 언어모델인 연계언어모델을 포함하며, 상기 제1분석대상 데이터와 상기 제2분석대상 데이터 간 비교 분석이 요구되는 경우, 상기 연계언어모델을 통해서 상기 제1분석대상 데이터와 상기 제2분석대상 데이터 각각에 대해 추출되는 임베딩 벡터를 상호 비교하여 유사도가 임계치 이하 또는 이상인 분석대상 데이터 쌍을 검출하는 것을 특징으로 하는 데이터분석장치.
분석대상 데이터의 텍스트를 대상으로 사전훈련언어모델을 파인 튜닝(Fine-Tuning)하여 상기 사전훈련언어모델로부터 상기 분석대상 데이터를 위한 전용언어모델을 생성하는 생성부;
상기 전용언어모델을 통해 상기 분석대상 데이터에 대한 임베딩(Embedding) 벡터를 추출하는 추출부; 및
상기 임베딩 벡터에 기초하여 상기 분석대상 데이터에 관한 분석 서비스를 제공하는 제공부를 포함하며,
상기 제공부는,
상기 전용언어모델이 제1분석대상 데이터와 상기 제1분석대상 데이터와는 이종의 데이터인 제2분석대상 데이터의 텍스트 모두를 대상으로 상기 사전훈련언어모델을 파인 튜닝한 언어모델인 연계언어모델을 포함하며, 상기 제1분석대상 데이터와 상기 제2분석대상 데이터 간 분류코드 연계가 요구되는 경우, 상기 연계언어모델을 통해서 상기 제1분석대상 데이터와 상기 제2분석대상 데이터 각각에 대해 추출되는 임베딩 벡터를 상기 제1분석대상 데이터와 상기 제2분석대상 데이터 각각의 분류코드 별로 평균하며, 상기 제1분석대상 데이터와 상기 제2분석대상 데이터 각각의 분류코드 별 임베딩 벡터의 평균 값을 상기 제1분석대상 데이터와 상기 제2분석대상데이터 간에 상호 비교하여 유사도가 임계치 이상인 분류코드 쌍을 검출하는 것을 특징으로 하는 데이터분석장치.
제 1 항 또는 제 2 항에 있어서,
상기 생성부는,
상기 분석대상 데이터가 가지는 특정 데이터 필드의 텍스트가 입력 값이 되고, 상기 분석대상 데이터를 분류하는 분류코드가 출력 값이 되는 학습 데이터 셋을 상기 사전훈련언어모델을 통해서 학습하여 상기 전용언어모델을 생성하는 것을 특징으로 하는 데이터분석장치.
제 3 항에 있어서,
상기 생성부는,
상기 분석대상 데이터에 부여될 수 있는 분류코드를 포함한 완전연결계층(Fully connected layer)을 상기 사전훈련언어모델에 연결시켜, 상기 완전연결계층을 기반으로 상기 사전훈련언어모델을 지도 학습하는 것을 특징으로 하는 데이터분석장치.
제 4 항에 있어서,
상기 추출부는,
상기 전용언어모델의 생성에 따라 상기 전용언어모델에 연결된 상태인 상기 완전연결계층을 제거하여, 상기 전용언어모델로 입력되는 상기 특정 데이터 필드의 텍스트에 대한 임베딩 벡터를 추출하는 것을 특징으로 하는 데이터분석장치.
제 5 항에 있어서,
상기 제공부는,
상기 분석대상 데이터에 대한 분류코드의 추천이 요구되는 경우, 상기 전용언어모델에 대한 상기 완전연결계층의 연결을 유지시켜, 상기 분석대상 데이터가 가지는 특정 데이터 필드의 텍스트 입력 시 상기 전용언어모델을 거쳐 상기 완전연결계층을 통해 출력되는 분류코드를 반환하는 것을 특징으로 하는 데이터분석장치.
제 1 항 또는 제 2 항에 있어서,
상기 제공부는,
특정 기업이 보유한 분석대상 데이터에 대한 비교 분석이 요구되는 경우, 상기 특정 기업이 보유한 분석대상 데이터에 대해서 추출되는 임베딩(Embedding) 벡터의 평균값을 상기 특정 기업에 대한 대표 임베딩 벡터로 산출하며, 상기 특정 기업의 대표 임베딩 벡터를 상기 특정 기업과는 다른 타 기업의 대표 임베딩 벡터와 비교하여 기업 간 유사도를 판단하는 것을 특징으로 하는 데이터분석장치.
삭제
삭제
제 1 항 또는 제 2 항에 있어서,
상기 분석대상 데이터는,
특허 데이터, 상표 데이터, 및 논문 데이터 중 적어도 하나를 포함하는 것을 특징으로 하는 데이터분석장치.
분석대상 데이터의 텍스트를 대상으로 사전훈련언어모델을 파인 튜닝(Fine-Tuning)하여 상기 사전훈련언어모델로부터 상기 분석대상 데이터를 위한 전용언어모델을 생성하는 생성단계;
상기 전용언어모델을 통해 상기 분석대상 데이터에 대한 임베딩(Embedding) 벡터를 추출하는 추출단계; 및
상기 임베딩 벡터에 기초하여 상기 분석대상 데이터에 관한 분석 서비스를 제공하는 제공단계를 포함하며,
상기 제공단계는,
상기 전용언어모델이, 제1분석대상 데이터와 상기 제1분석대상 데이터와는 이종의 데이터인 제2분석대상 데이터의 텍스트 모두를 대상으로 상기 사전훈련언어모델을 파인 튜닝한 언어모델인 연계언어모델을 포함하며, 상기 제1분석대상 데이터와 상기 제2분석대상 데이터 간 비교 분석이 요구되는 경우, 상기 연계언어모델을 통해서 상기 제1분석대상 데이터와 상기 제2분석대상 데이터 각각에 대해 추출되는 임베딩 벡터를 상호 비교하여 유사도가 임계치 이하 또는 이상인 분석대상 데이터 쌍을 검출하는 것을 특징으로 하는 데이터분석장치의 동작 방법.
분석대상 데이터의 텍스트를 대상으로 사전훈련언어모델을 파인 튜닝(Fine-Tuning)하여 상기 사전훈련언어모델로부터 상기 분석대상 데이터를 위한 전용언어모델을 생성하는 생성단계;
상기 전용언어모델을 통해 상기 분석대상 데이터에 대한 임베딩(Embedding) 벡터를 추출하는 추출단계; 및
상기 임베딩 벡터에 기초하여 상기 분석대상 데이터에 관한 분석 서비스를 제공하는 제공단계를 포함하며,
상기 제공단계는,
상기 전용언어모델이, 제1분석대상 데이터와 상기 제1분석대상 데이터와는 이종의 데이터인 제2분석대상 데이터의 텍스트 모두를 대상으로 상기 사전훈련언어모델을 파인 튜닝한 언어모델인 연계언어모델을 포함하며, 상기 제1분석대상 데이터와 상기 제2분석대상 데이터 간 분류코드 연계가 요구되는 경우, 상기 연계언어모델을 통해서 상기 제1분석대상 데이터와 상기 제2분석대상 데이터 각각에 대해 추출되는 임베딩 벡터를 상기 제1분석대상 데이터와 상기 제2분석대상 데이터 각각의 분류코드 별로 평균하며, 상기 제1분석대상 데이터와 상기 제2분석대상 데이터 각각의 분류코드 별 임베딩 벡터의 평균 값을 상기 제1분석대상 데이터와 상기 제2분석대상데이터 간에 상호 비교하여 유사도가 임계치 이상인 분류코드 쌍을 검출하는 것을 특징으로 하는 데이터분석장치의 동작 방법.
제 11 항 또는 제 12 항에 있어서,
상기 생성단계는,
상기 분석대상 데이터가 가지는 특정 데이터 필드의 텍스트가 입력 값이 되고, 상기 분석대상 데이터를 분류하는 분류코드가 출력 값이 되는 학습 데이터 셋을 상기 사전훈련언어모델을 통해서 학습하여 상기 전용언어모델을 생성하는 것을 특징으로 하는 데이터분석장치의 동작 방법.
제 13 항에 있어서,
상기 생성단계는,
상기 분석대상 데이터에 부여될 수 있는 분류코드를 포함한 완전연결계층(Fully connected layer)을 상기 사전훈련언어모델에 연결시켜, 상기 완전연결계층을 기반으로 상기 사전훈련언어모델을 지도 학습하는 것을 특징으로 하는 데이터분석장치의 동작 방법.
제 14 항에 있어서,
상기 추출단계는,
상기 전용언어모델의 생성에 따라 상기 전용언어모델에 연결된 상태인 상기 완전연결계층을 제거하여, 상기 전용언어모델로 입력되는 상기 특정 데이터 필드의 텍스트에 대한 임베딩 벡터를 추출하는 것을 특징으로 하는 데이터분석장치의 동작 방법.
제 15 항에 있어서,
상기 제공단계는,
상기 분석대상 데이터에 대한 분류코드의 추천이 요구되는 경우, 상기 전용언어모델에 대한 상기 완전연결계층의 연결을 유지시켜, 상기 분석대상 데이터가 가지는 특정 데이터 필드의 텍스트 입력 시 상기 전용언어모델을 거쳐 상기 완전연결계층을 통해 출력되는 분류코드를 반환하는 것을 특징으로 하는 데이터분석장치의 동작 방법.
제 11 항 또는 제 12 항에 있어서,
상기 제공단계는,
특정 기업이 보유한 분석대상 데이터에 대한 비교 분석이 요구되는 경우, 상기 특정 기업이 보유한 분석대상 데이터에 대해서 추출되는 임베딩(Embedding) 벡터의 평균값을 상기 특정 기업에 대한 대표 임베딩 벡터로 산출하며, 상기 특정 기업의 대표 임베딩 벡터를 상기 특정 기업과는 다른 타 기업의 대표 임베딩 벡터와 비교하여 기업 간 유사도를 판단하는 것을 특징으로 하는 데이터분석장치의 동작 방법.
삭제
삭제
제 11 항 또는 제 12 항에 있어서,
상기 분석대상 데이터는,
특허 데이터, 상표 데이터, 및 논문 데이터 중 적어도 하나를 포함하는 것을 특징으로 하는 데이터분석장치의 동작 방법.