KR20230000420A

KR20230000420A - 특허 문헌을 이용한 학습 데이터 구축 방법 및 장치와 이를 이용한 학습 데이터 구축 시스템

Info

Publication number: KR20230000420A
Application number: KR1020220059137A
Authority: KR
Inventors: 윤정호; 장영진
Original assignee: 주식회사 워트인텔리전스
Priority date: 2021-06-24
Filing date: 2022-05-13
Publication date: 2023-01-02

Abstract

본 발명의 일실시예는 서버가, 기술분류에 매칭된 적어도 하나의 기업명을 추출하는 단계; 상기 서버가, 상기 추출된 기업명이 인명 데이터에 포함되어 있는 적어도 하나의 기준 특허를 추출하는 단계; 상기 서버가, 상기 기준 특허의 특징 데이터와 적어도 하나의 동일한 특징 데이터를 갖는 비교 대상 특허 하나 이상을 추출하는 단계; 상기 서버가, 상기 기준 특허와 상기 추출된 비교 대상 특허 각각에 대하여 문헌간 유사도를 산출하는 단계; 및 상기 서버가, 추출된 하나 이상의 상기 비교 대상 특허 중 상기 기준 특허와 상기 문헌간 유사도가 기 설정된 유사등급 이상인 비교 대상 특허를 상기 추출된 기업명과 매칭된 상기 기술분류에 포함되는 특허로 판단하는 단계;를 포함하는, 특허 문헌을 이용한 학습 데이터 구축 방법을 제공한다.

Description

특허 문헌을 이용한 학습 데이터 구축 방법 및 장치와 이를 이용한 학습 데이터 구축 시스템{APPARATUS AND METHOD FOR BUILDING TRAINING DATA USING PATENT DOCUMENT AND BUILDING TRAINING DATA SYSTEM USING THE SAME}

본 발명은 특허 문헌을 이용한 학습 데이터 구축 방법 및 장치와 이를 이용한 학습 데이터 구축 시스템에 관한 것이다. 구체적으로, 기술분류에 매칭된 기업명 정보를 이용하여, 동일한 특징을 가지는 특허 문헌을 자동으로 기술 분류하기 위한 학습 데이터를 구축하는 것을 특징으로 한다.

기존의 특허는 정형화된 문헌 메타데이터의 데이터베이스화 및 주로 PDF 파일 형식으로 공유가 이루어졌다. 한편, 키워트와 같은 특허 검색 서비스에서 특허 전문을 제공하는 서비스가 늘어나고 있고, 특허의 대규모 텍스트를 빅데이터 분석 등에 활용하여 기존의 정보 서비스를 뛰어넘는 고부가가치 서비스에 관련된 시도가 늘어나고 있다.

하지만, 특허의 경우 기술 분야가 다양하고, 그 내용이 복잡하며 신규한 경우가 대부분이다.

특허 데이터를 활용하는 사람들은 자신들의 연구개발 분야에 대한 특허만을 확인하고자 하는 니즈가 있으며, 해당 분야의 특허들의 분석을 통해 R&D 방향을 결정하기를 원한다.

따라서, 특허 데이터가 효율적으로 활용되기 위해서는 방대한 양의 특허의 기술분류를 자동화할 수 있는 인공지능(AI) 모델이 필요한 실정이다.

인공지능(AI)은 인간의 학습능력, 추론능력 및 지각능력 등의 일부 또는 전부를 컴퓨터 프로그램을 이용하여 인공적으로 구현하는 기술을 의미한다. 인공지능(AI)과 관련하여, 기계 학습(machine learning)은 다수의 파라미터로 구성된 모델을 이용하여 주어진 데이터로 파라미터를 최적화하는 학습을 의미한다. 이와 같은, 기계 학습은 학습용 데이터의 형태에서 따라, 지도 학습(supervised learning), 비지도 학습(unsupervised learning) 및 강화 학습(reinforcement learning)으로 구분된다.

일반적으로, 인공지능(AI) 학습용 데이터의 설계는 데이터 구조의 설계, 데이터의 수집, 데이터의 정제, 데이터의 가공, 데이터의 확장 및 데이터의 검증 단계로 진행된다.

각각의 단계에서 대하여 보다 구체적으로 설명하면, 데이터 구조의 설계는 온톨로지(ontology) 정의, 분류 체계의 정의 등을 통해 이루어진다. 데이터의 수집은 협회/전문 단체 등을 통해 데이터를 수집하여 이루어진다. 데이터 정제는 수집된 데이터 내에서 중복 데이터를 제거하고, 개인 정보 등을 비식별화하여 이루어진다. 데이터의 가공은 어노테이션(annotation)을 수행하고, 메타데이터(metadata)를 입력하여 이루어진다. 데이터의 확장은 온톨로지 매핑(mapping)을 수행하고, 필요에 따라 온톨로지를 보완하거나 확장하여 이루어진다. 그리고, 데이터의 검증은 다양한 검증 도구를 활용하여 설정된 목표 품질에 따른 유효성을 검증하여 이루어진다.

특허 데이터 가공은 메타 데이터를 입력하는 과정으로, 기존의 메타 데이터의 입력 작업은 작업자가 특허의 내용을 파악하고, 중요한 키워드를 도출하여 입력함으로써 진행된다.

앞서 설명한 바와 같이, 특허 데이터에서 가장 활용가치가 높은 메타데이터는 특허의 기술적 특징을 기반으로 한 기술분류데이터이다.

하지만, 상술한 바와 같이, 특허 데이터는 매주 10만건의 최신 특허가 새롭게 공개되고 있기 때문에, 매번 새로운 특허들에 대해 기술분류에 대한 메타데이터를 입력하기 어려운 실정이다.

따라서, 이미 구축된 기술분류의 데이터를 활용하여 새롭게 등장하는 최신 특허의 메타데이터를 자동으로 판단하는 AI 학습에 이용될 수 있는 학습 데이터셋을 구축할 수 있는 기술이 필요한 실정이다.

본 발명이 이루고자 하는 기술적 과제는, 기술분류를 이용하여 특허의 기술분류를 자동으로 수행하기 위한 AI 학습에 이용될 수 있는 특허 문헌을 이용한 학습 데이터 구축 방법 및 장치와 이를 이용한 학습 데이터 구축 시스템을 제공하는 것이다.

본 발명이 이루고자 하는 기술적 과제는 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

상기 기술적 과제를 달성하기 위하여, 본 발명의 일실시예는 서버가, 기술분류에 매칭된 적어도 하나의 기업명을 추출하는 단계; 상기 서버가, 상기 추출된 기업명이 인명 데이터에 포함되어 있는 적어도 하나의 기준 특허를 추출하는 단계; 상기 서버가, 상기 기준 특허의 특징 데이터와 적어도 하나의 동일한 특징 데이터를 갖는 비교 대상 특허 하나 이상을 추출하는 단계; 상기 서버가, 상기 기준 특허와 상기 추출된 비교 대상 특허 각각에 대하여 문헌간 유사도를 산출하는 단계; 및 상기 서버가, 추출된 하나 이상의 상기 비교 대상 특허 중 상기 기준 특허와 상기 문헌간 유사도가 기 설정된 유사등급 이상인 비교 대상 특허를 상기 추출된 기업명과 매칭된 상기 기술분류에 포함되는 특허로 판단하는 단계;를 포함하는, 특허 문헌을 이용한 학습 데이터 구축 방법을 제공한다.

본 발명의 실시예에 있어서, 상기 기술분류는, KSIC 산업분류, IPC 기술분류 코드, HS 품목 분류 코드 및 기술 특징 중 적어도 하나를 이용해 분류된 것일 수 있다.

본 발명의 실시예에 있어서, 상기 인명 데이터는, 출원인 데이터, 발명자 데이터, 양도인 데이터, 양수인 데이터, 현재권리자 데이터, 대리인 데이터, 심사관 데이터, 대표출원인 코드, 특허고객번호 및 출원인 식별 기호 중 적어도 하나를 포함할 수 있다.

본 발명의 실시예에 있어서, 상기 특징 데이터는, IPC 기술분류 코드, CPC 기술분류 코드, UPC 기술분류 코드, FI 기술분류 코드, F-term 기술분류 코드 및 인명 데이터 중 적어도 하나를 포함할 수 있다.

본 발명의 실시예에 있어서, 상기 문헌간 유사도를 산출하는 단계는, 상기 서버가, 상기 기준 특허를 DTM, TF-IDF 및 Word2Vec 중 어느 하나를 이용해 벡터화 하는 단계; 상기 서버가, 상기 비교 대상 특허 각각을 DTM, TF-IDF 및 Word2Vec 중 어느 하나를 이용해 벡터화 하는 단계; 및 상기 서버가, 상기 기준 특허의 벡터값과 상기 비교 대상 특허 각각의 벡터값을 코사인 유사도를 이용해 비교하여 상기 문헌간 유사도를 산출하는 단계를 더 포함할 수 있다.

본 발명의 실시예에 있어서, 상기 문헌간 유사도는, 0 부터 1 사이에 분포되는 값이고, 상기 서버는, 상기 기준 특허와 상기 비교 대상 특허 각각에 대하여 상기 산출된 문헌간 유사도의 분포에 따라 상기 산출된 문헌간 유사도를 복수의 등급으로 분류하는 단계; 및, 상기 서버는, 상기 분류된 복수의 등급 각각에 대하여 상기 문헌간 유사도의 등급 대표값을 산출하는 단계를 더 포함하고; 상기 기 설정된 유사등급은, 상기 복수의 등급 각각에 대해 산출된 상기 등급 대표값 중 어느 하나를 이용해 설정될 수 있다.

상기 기술적 과제를 달성하기 위하여, 본 발명의 다른 실시예는 기술분류에 매칭된 적어도 하나의 기업명을 추출하는 기업명 추출부; 상기 추출된 기업명이 인명 데이터에 포함되어 있는 적어도 하나의 기준 특허를 추출하는 기준 특허 추출부; 상기 기준 특허의 특징 데이터와 적어도 하나의 동일한 특징 데이터를 갖는 비교 대상 특허 하나 이상을 추출하는 비교 대상 특허 추출부; 상기 기준 특허와 상기 추출된 비교 대상 특허 각각에 대하여 문헌간 유사도를 산출하는 문헌 유사도 산출부; 및 추출된 하나 이상의 상기 비교 대상 특허 중 상기 기준 특허와 상기 문헌간 유사도가 기 설정된 유사등급 이상인 비교 대상 특허를 상기 추출된 기업명과 매칭된 상기 기술분류에 포함되는 특허로 판단하는 기술분류 판단부를 포함하는, 특허 문헌을 이용한 학습 데이터 구축 장치를 제공한다.

본 발명의 실시예에 있어서, 상기 문헌 유사도 산출부는, 상기 기준 특허를 DTM, TF-IDF 및 Word2Vec 중 어느 하나를 이용해 벡터화 하고, 상기 비교 대상 특허 각각을 DTM, TF-IDF 및 Word2Vec 중 어느 하나를 이용해 벡터화 하는 특허 벡터화 모듈; 및 상기 서버가, 상기 기준 특허의 벡터값과 상기 비교 대상 특허 각각의 벡터값을 코사인 유사도를 이용해 비교하여 상기 문헌간 유사도를 산출하는 코사인 유사도 산출 모듈을 포함할 수 있다.

본 발명의 실시예에 있어서, 상기 문헌간 유사도는, 0 부터 1 사이에 분포되는 값이고, 상기 문헌 유사도 산출부는, 상기 기준 특허와 상기 비교 대상 특허 각각에 대하여 상기 산출된 문헌간 유사도의 분포에 따라 상기 산출된 문헌간 유사도를 복수의 등급으로 분류하고, 상기 분류된 복수의 등급 각각에 대하여 상기 문헌간 유사도의 등급 대표값을 산출하는 등급 분류 모듈을 더 포함하고, 상기 기 설정된 유사등급은, 상기 복수의 등급 각각에 대해 산출된 상기 등급 대표값 중 어느 하나를 이용해 설정될 수 있다.

상기 기술적 과제를 달성하기 위하여, 본 발명의 다른 실시예는 특허 문헌을 이용한 학습 데이터 구축 방법을 이용한, 학습 데이터 구축 시스템을 제공한다.

본 발명에 따르면, 기술분류를 이용하여 특허의 기술분류를 자동으로 수행하기 위한 AI 학습에 이용될 수 있다.

본 발명의 효과는 상기한 효과로 한정되는 것은 아니며, 본 발명의 상세한 설명 또는 특허청구범위에 기재된 발명의 구성으로부터 추론 가능한 모든 효과를 포함하는 것으로 이해되어야 한다.

도 1은 본 발명의 일 실시예에 따른 특허 문헌을 이용한 학습 데이터 구축 시스템의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 특허 문헌을 이용한 학습 데이터 구축 방법의 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 문헌간 유사도 산출의 흐름도이다.
도 4는 예시적인 실시예들에서 사용되기에 적합한 예시적인 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 나타내는 도면이다.

이하에서는 첨부한 도면을 참조하여 본 발명을 설명하기로 한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 따라서 여기에서 설명하는 실시예로 한정되는 것은 아니다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결(접속, 접촉, 결합)"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 부재를 사이에 두고 "간접적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 구비할 수 있다는 것을 의미한다.

본 명세서에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

이하 첨부된 도면을 참고하여 본 발명의 실시예를 상세히 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 특허 문헌을 이용한 학습 데이터 구축 시스템의 구성도이다.

도 1을 참조하여 설명하면, 서버(1)는 수집부(10), 정제부(20), 기업명 추출부(30), 기준 특허 추출부(40), 비교 대상 특허 추출부(50), 문헌 유사도 산출부(60), 기술분류 판단부(70), AI 모델 생성부(80), 데이터베이스부(90)를 포함할 수 있다.

서버(1)는 외부 서버(2)와 로컬 영역 네트워크(Local Area Network: LAN), 광역 네트워크(Wide Area Network: WAN), 셀룰라 네트워크 또는 인터넷 등과 같은 네트워크를 통해 상호 통신 가능하게 연결된다.

수집부(10)는 외부 서버(2)로부터 특허를 수집할 수 있다. 구체적으로, 수집부는 특허 데이터를 보유한 외부 서버(2)로부터 특허 원시 데이터를 수집할 수 있다. 여기서 외부 서버(2)는 한국, 미국, 일본, 유럽, 중국 등 각 국가의 특허 DB를 보유하고 있는 서버를 의미한다. 또한, 여기서 원시 데이터란 외부 서버(2)에서 수집되는 특허 데이터를 의미한다. 수집부(10)는 기 설정된 주기(예를 들어, 1주일) 또는 사용자의 입력에 대응하여 외부 서버(2)에 특허 데이터의 송신을 요청할 수 있다.

정제부(20)는 상기 수집부(10)에서 수집된 특허 데이터를 정제하여 특허 원천 데이터를 생성할 수 있다. 여기서, 데이터 정제란 수집한 원시 데이터를 파싱하고, 개인정보를 비식별화 하며, 인덱싱을 하는 일련의 과정을 의미하는 것으로, 본 실시예에서는 파싱, 개인정보 비식별화, 인덱싱 과정에 대해서만 설명하나, 이에 한정되는 것은 아니다. 예를 들어, 특허 문헌의 출원번호 양식을 기 설정된 양식으로 정제하거나, 동일한 출원인이나 출원인명이 상이한 경우 이를 동일하게 변경하는 과정들도 정제 과정에 포함될 수 있음을 물론이다.

예를 들어, 정제부(20)는 출원인 정보, 발명자 정보 등의 일부 주소를 *** 형태로 변환하는 정제 과정을 수행할 수 있다.

기업명 추출부(30)는 기술분류에 매칭된 적어도 하나의 기업명을 추출할 수 있다. 구체적으로, 기업명 추출부(30)는 특허의 기술적 특징에 대하여 기술분류와 매칭되어 저장된 기업명을 확인하고, 이를 추출할 수 있다. 여기서, 기술분류란 KSIC 산업분류, IPC 기술분류 코드, HS 품목 분류 코드 및 기술 특징 중 적어도 하나를 이용해 분류된 것으로, 특허 문헌을 분류한 모든 기술분류 체계를 의미할 수 있다. 아울러, 기술분류 체계에서 각각의 세부기술은 해당 기술 분야에 대해 사업을 영위하고 있는 기업명이 매칭되어 저장될 수 있다. 또한, 여기서 기업명은 개인, 기업, 산학, 연구원 등 모든 사업 주체를 포함할 수 있다. 이하에서는 기업명 추출부(30)가 하나의 세부기술에 대해 하나의 기업명을 추출하는 것으로 설명하나 이에 한정되는 것은 아니며, 기업명 추출부(30)는 하나의 세부기술에 대해 복수의 기업명을 추출할 수 있음은 물론이다.

기준 특허 추출부(40)는 상기 추출된 기업명이 인명 데이터에 포함되어 있는 적어도 하나의 기준 특허를 추출할 수 있다. 구체적으로, 기준 특허 추출부(40)는 상기 추출된 기업명을 확인하고, 상기 기업명이 상기 정제부(20)에서 정제한 데이터 중 인명 데이터에 포함되어 있는 특허를 확인하고, 해당 특허를 기준 특허로 추출할 수 있다. 여기서 기준 특허란, 해당 기술분야에 포함되는 특허 원천 데이터를 의미할 수 있다. 또한, 여기서 인명 데이터란 특허 원천 데이터 중, 출원인 데이터, 발명자 데이터, 양도인 데이터, 양수인 데이터, 현재권리자 데이터, 대리인 데이터, 심사관 데이터, 대표출원인 코드, 특허고객번호 및 출원인 식별 기호 중 적어도 하나를 의미할 수 있다.

이하에서는, 기준 특허 추출부(40)가 하나의 기업명에 대하여 하나의 기준 특허를 추출하는 것으로 설명하나 이에 한정되는 것은 아니며, 하나의 기업명에 대하여 복수의 기준 특허를 추출할 수 있음은 물론이다.

비교 대상 특허 추출부(50)는 상기 추출된 기준 특허와 적어도 하나의 동일한 특징 데이터를 갖는 비교 대상 특허를 하나 이상 추출할 수 있다. 구체적으로, 비교 대상 특허 추출부(50)는 상기 추출된 기준 특허의 특징 데이터를 확인하고, 동일한 특징 데이터를 갖는 특허를 선별하여 추출할 수 있다. 여기서, 특징 데이터란 IPC 기술분류 코드, CPC 기술분류 코드, UPC 기술분류 코드, FI 기술분류 코드, F-term 기술분류 코드, 인명 데이터와 같이 특허의 기술을 파악할 수 있는 데이터를 의미할 수 있다.

이하에서는, 특징 데이터 중 IPC 기술분류 코드를 이용하는 것으로 설명하도록 한다.

비교 대상 특허 추출부(50)는 기준 특허의 IPC 기술분류 코드를 확인할 수 있다. 여기서, IPC 기술분류 코드는 국제특허분류체계로, 특허를 기술분야별로 분류한 코드를 의미한다. IPC 기술분류 코드는 섹션, 클래스, 서브클래스, 메인그룹, 서브그룹의 5단계 계층 구조를 갖으며, 본 실시예에서는 서브클래스 그룹을 이용하는 것으로 설명하나 이에 한정되는 것은 아니다. 즉, 비교 대상 특허 추출부(50)는 확인한 기준 특허의 IPC 기술분류 코드와 동일한 IPC 기술분류 코드를 포함하는 특허를 추출할 수 있다.

문헌 유사도 산출부(60)는 상기 기준 특허와 상기 추출된 비교 대상 특허 각각에 대하여 문헌간 유사도를 산출할 수 있다. 구체적으로, 문헌 유사도 산출부(60)는 상기 기준 특허와 상기 추출된 비교 대상 특허 각각을 벡터화하고, 벡터값들 간의 비교를 통해 문헌간 유사도를 산출할 수 있다.

문헌 유사도 산출부(60)는, 특허 벡터화 모듈(62), 코사인 유사도 산출 모듈(64) 및 등급 분류 모듈(66)을 포함할 수 있다.

특허 벡터화 모듈(62)은 상기 기준 특허를 DTM, TF-IDF 및 Word2Vec 중 어느 하나를 이용해 벡터화하고, 상기 비교 대상 특허 각각을 DTM, TF-IDF 및 Word2Vec 중 어느 하나를 이용해 벡터화함으로써, 상기 기준 특허와 비교 대상 특허 각각을 방향을 갖는 수치값으로 나타낼 수 있다.

코사인 유사도 산출 모듈(64)은 상기 기준 특허의 벡터값과 상기 비교 대상 특허 각각의 벡터값을 코사인 유사도를 이용해 비교하여 상기 문헌간 유사도를 산출할 수 있다. 여기서, 코사인 유사도란 벡터 간의 유사도를 비교할 때, 대 벡터 간의 사잇각을 구해서 얼마나 유사한지 수치로 나타내는 것일 수 있다. 예를들어, 두 벡터간의 사잇각이 0도이면, 코사인 유사도는 1이며, 두 벡터는 완전한 동일 벡터일 수 있다. 또는, 두 벡터의 사잇각이 90도이면 코사인 유사도는 0이 되고, 두 벡터는 상관 관계가 없다고 볼 수 있다. 따라서, 코사인 유사도를 이용한 문헌간 유사도는 0부터 1사이에 분포되는 값일 수 있다. 본 발명의 일 실시예에서는 문헌간 유사도의 방법으로는 코사인 유사도를 이용하는 것으로 설명하나, 이에 한정되는 것은 아니며 다양한 문헌간 유사도 기법이 적용될 수도 있음은 물론이다. 여기서, 유사도 수치가 높다는 것은 기준 특허와 비교 대상 특허 간에 특허 내용이 유사하다는 것을 의미하며, 해당 기술분류에 속하는 특허일 가능성이 높다는 것을 의미한다.

등급 분류 모듈(66)은 상기 기준 특허와 상기 비교 대상 특허 각각에 대하여 상기 산출된 문헌간 유사도의 분포에 따라 상기 산출된 문헌간 유사도를 복수의 등급으로 분류할 수 있다. 구체적으로, 등급 분류 모듈(66)은 상기 산출된 문헌간 유사도의 분포를 확인하고, 유사 등급을 복수의 등급으로 분류할 수 있다. 예를 들어, 상기 산출된 문헌간 유사도의 분포가 0.1, 0.2, 0.23, 0.25, 0.36, 0.4, 0.55, 0.6으로 나타나는 경우, 등급 분류 모듈(66)은 0.1 부터 0.2 까지 제1 등급, 0.22 부터 0.25 까지 제2 등급, 0.36 부터 0.4 까지 제3 등급, 0.55 부터 0.6 까지 제4 등급으로 분류할 수 있다. 또는, 전체 분포의 평균값인 0.44를 기준으로 0.44보다 작은 유사도 분포를 제1 등급, 0.44보다 큰 유사도 분포를 제2 등급으로 분류할 수도 있다. 즉, 등급 분류 모듈(66)은 문헌간 유사도 분포를 확인하고 사용자의 설정에 따라 유사 등급을 분류할 수 있다.

기술분류 판단부(70)는 추출된 하나 이상의 상기 비교 대상 특허 중 상기 기준 특허와 상기 문헌간 유사도가 기 설정된 유사등급 이상인 비교 대상 특허를 상기 추출된 기업명과 매칭된 상기 기술분류에 포함되는 특허로 판단할 수 있다. 구체적으로, 기술분류 판단부(70)는 문헌 유사도 산출부(60)에서 분류된 유사 등급을 확인하고, 유사 등급 각각에 대하여 대표값을 산출할 수 있다. 여기서 대표값이란, 유사 등급 각각에 속하는 문헌간 유사도의 평균값, 중앙값, 최소값, 최대값 중 어느 하나를 이용해 산출될 수 있다. 즉, 기술분류 판단부(70)는 유사 등급 각각의 대표값을 산출함으로써, 유사 등급 각각을 대표하는 수치를 산출할 수 있다.

기술분류 판단부(70)는 복수의 유사 등급에 대하여 각각 산출된 유사 등급 대표값 중, 적어도 하나를 이용해 비교 대상 특허가 상기 추출된 기업명과 매칭된 상기 기술분류에 포함되는지 여부를 판단할 수 있다. 여기서, 복수의 유사 등급에 대하여 각각 산출된 유사 등급 대표값 중, 비교 대상 특허가 기술분류에 포함되는지 판단하기 위한 대표값은 사용자의 설정에 따라 변경될 수 있다.

AI 모델 생성부(80)는 기술분류를 자동으로 수행하기 위한 AI 모델을 생성할 수 있다. 구체적으로, AI 모델 생성부(80)는 기술분류를 이용하여 특허의 기술분류를 자동으로 수행한 결과 데이터를 학습함으로써, 기술분류를 자동으로 수행할 수 있다.

데이터베이스부(90)는 서버(1)에서 사용하는 각종 정보를 저장할 수 있다. 데이터베이스부(90)는 기술분류 저장 모듈(92), 특허 저장 모듈(94) 및 기술분류 매칭 특허 저장 모듈(96)을 포함할 수 있다.

기술분류 저장 모듈(92)은 기술분류를 저장하는 모듈일 수 있다. 여기서, 기술분류는 KSIC 산업분류, IPC 기술분류 코드, HS 품목 분류 코드 및 기술 특징 중 적어도 하나를 이용해 분류된 것으로, 특허 문헌을 분류한 모든 기술분류 체계를 의미할 수 있다. 아울러, 기술분류 체계에서 각각의 세부기술은 해당 기술 분야에 대해 사업을 영위하고 있는 기업명이 매칭되어 저장될 수 있다.

특허 저장 모듈(94)은 수집된 특허를 저장할 수 있다. 구체적으로, 특허 저장 모듈(94)은 특허 데이터를 보유한 외부 서버(2)로부터 수집된 특허 원시 데이터를 저장할 수 있다. 또한, 특허 저장 모듈은 정제부(20)에서 정제한 특허 원천 데이터를 저장할 수 있다. 여기서, 데이터 정제란 수집한 원시 데이터를 파싱하고, 개인정보를 비식별화 하며, 인덱싱을 하는 일련의 과정을 의미한다.

기술분류 매칭 특허 저장 모듈(96)은 기술분류 판단부(70)에서 판단된 결과를 저장할 수 있다. 구체적으로, 기술분류 매칭 특허 저장 모듈(96)은 기술분류 판단부(70)에서 하나의 비교 대상 특허의 기술분야가 결정되는 경우, 해당 특허의 메타데이터에 결정된 기술분야를 저장할 수 있다.

도 2는 본 발명의 일 실시예에 따른 특허 문헌을 이용한 학습 데이터 구축 방법의 흐름도이다. 도면에서는 상기 방법을 복수 개의 단계로 나누어 기재하였으나, 적어도 일부의 단계들은 순서를 바꾸어 수행되거나, 다른 단계와 결합되어 함께 수행되거나, 생략되거나, 세부 단계들로 나뉘어 수행되거나, 또는 도시되지 않은 하나 이상의 단계가 부가되어 수행될 수 있다. 또한 실시예에 따라 상기 방법에 도시되지 않은 하나 이상의 단계들이 상기 방법과 함께 수행될 수도 있다.

서버(1)는 기업명을 추출한다(S202). 구체적으로, 서버(1)는 기술분류에 매칭된 적어도 하나의 기업명을 추출할 수 있다. 여기서, 기술분류란 KSIC 산업분류, IPC 기술분류 코드, HS 품목 분류 코드 및 기술 특징 중 적어도 하나를 이용해 분류된 것으로, 특허 문헌을 분류한 모든 기술분류 체계를 의미할 수 있다. 아울러, 기술분류 체계에서 각각의 세부기술은 해당 기술 분야에 대해 사업을 영위하고 있는 기업명이 매칭되어 저장될 수 있다.

다음으로, 서버(1)는 기준 특허를 추출한다(S204). 추체적으로, 서버(1)는 상기 추출된 기업명을 확인하고, 상기 기업명이 서버(1)에 저장된 특허 중, 인명 데이터에 포함되어 있는 특허를 확인하고, 해당 특허를 기준 특허로 추출할 수 있다. 여기서 기준 특허란, 해당 기술분야에 포함되는 특허 원천 데이터를 의미할 수 있다. 또한, 여기서 인명 데이터란 특허 원천 데이터 중, 출원인 데이터, 발명자 데이터, 양도인 데이터, 양수인 데이터, 현재권리자 데이터, 대리인 데이터, 심사관 데이터, 대표출원인 코드, 특허고객번호 및 출원인 식별 기호 중 적어도 하나를 의미할 수 있다.

다음으로, 서버(1)는 비교 대상 특허를 추출한다(S206). 구체적으로, 서버(1)는 상기 추출된 기준 특허의 특징 데이터를 확인하고, 동일한 특징 데이터를 갖는 특허를 선별하여 추출할 수 있다. 여기서, 특징 데이터란 IPC 기술분류 코드, CPC 기술분류 코드, UPC 기술분류 코드, FI 기술분류 코드, F-term 기술분류 코드, 인명 데이터와 같이 특허의 기술을 파악할 수 있는 데이터를 의미할 수 있다.

다음으로, 서버(1)는 문헌간 유사도를 산출한다(S208). 구체적으로, 서버(1)는 상기 기준 특허와 상기 추출된 비교 대상 특허 각각을 벡터화하고, 벡터값들 간의 비교를 통해 문헌간 유사도를 산출할 수 있다.

다음으로, 서버(1)는 문헌간 유사도 비교 결과가 기 설정된 문헌 등급 이상인지 여부를 판단한다(S210). 구체적으로, 서버(1)는 출된 하나 이상의 상기 비교 대상 특허 중 상기 기준 특허와 상기 문헌간 유사도가 기 설정된 유사등급 이상인 비교 대상 특허를 상기 추출된 기업명과 매칭된 상기 기술분류에 포함되는 특허로 판단할 수 있다.

다음으로, 서버(1)는 기술분류 매칭 특허를 저장한다(S212). 구체적으로, 서버(1)는 하나의 비교 대상 특허의 기술분야가 결정되는 경우, 해당 특허의 메타데이터에 결정된 기술분야를 저장할 수 있다.

도 3은 본 발명의 일 실시예에 따른 문헌간 유사도 산출의 흐름도이다. 도면에서는 상기 방법을 복수 개의 단계로 나누어 기재하였으나, 적어도 일부의 단계들은 순서를 바꾸어 수행되거나, 다른 단계와 결합되어 함께 수행되거나, 생략되거나, 세부 단계들로 나뉘어 수행되거나, 또는 도시되지 않은 하나 이상의 단계가 부가되어 수행될 수 있다. 또한 실시예에 따라 상기 방법에 도시되지 않은 하나 이상의 단계들이 상기 방법과 함께 수행될 수도 있다.

서버(1)는 기준 특허를 벡터화한다(S302). 구체적으로, 서버(1)는 상기 기준 특허를 DTM, TF-IDF 및 Word2Vec 중 어느 하나를 이용해 벡터화할 수 있다.

다음으로, 서버(1)는 비교 대상 특허 각각을 벡터화한다(S304). 구체적으로, 서버(1)는 상기 비교 대상 특허 각각을 DTM, TF-IDF 및 Word2Vec 중 어느 하나를 이용해 벡터화할 수 있다.

다음으로, 서버(1)는 상기 기준 특허의 벡터값과 상기 비교 대상 특허의 벡터값을 코사인 유사도를 이용해 비교한다(S306). 구체적으로, 서버(1)는 상기 기준 특허의 벡터값과 상기 비교 대상 특허 각각의 벡터값을 코사인 유사도를 이용해 비교하여 상기 문헌간 유사도를 산출할 수 있다. 여기서, 코사인 유사도란 벡터 간의 유사도를 비교할 때, 대 벡터 간의 사잇각을 구해서 얼마나 유사한지 수치로 나타내는 것일 수 있다. 예를들어, 두 벡터간의 사잇각이 0도이면, 코사인 유사도는 1이며, 두 벡터는 완전한 동일 벡터일 수 있다.

다음으로, 서버(1)는 문헌간 유사도를 유사 등급으로 분류한다(S308). 구체적으로, 서버(1)는 상기 기준 특허와 상기 비교 대상 특허 각각에 대하여 상기 산출된 문헌간 유사도의 분포에 따라 상기 산출된 문헌간 유사도를 복수의 등급으로 분류할 수 있다.

다음으로, 서버(1)는 유사 등급의 대표값을 산출한다(S310). 구체적으로, 서버(1)는 상기 S308 단계에서 분류된 유사 등급을 확인하고, 유사 등급 각각에 대하여 대표값을 산출할 수 있다. 여기서 대표값이란, 유사 등급 각각에 속하는 문헌간 유사도의 평균값, 중앙값, 최소값, 최대값 중 어느 하나를 이용해 산출될 수 있다.

도 4는 예시적인 실시예들에서 사용되기에 적합한 예시적인 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 도시한다.

도4에 도시된 예시적인 컴퓨팅 환경(400)은 컴퓨팅 장치(410)를 포함한다. 통상적으로, 각 구성은 상이한 기능 및 능력을 가질 수 있고, 이하에 기술되지 않았더라도 그 구성에 적합한 컴포넌트를 추가적으로 포함할 수 있다. 컴퓨팅 장치(410)는 특허 문헌을 이용한 학습 데이터 구축을 위한 장치(예를 들어, 서버(1))일 수 있다.

컴퓨팅 장치(410)는 적어도 하나의 프로세서(412), 컴퓨터 판독 가능 저장 매체(414) 및 버스(460)를 포함한다. 프로세서(412)는 버스(460)와 연결되고, 버스(460)는 컴퓨터 판독 가능 저장 매체(414)를 포함하여 컴퓨팅 장치(410)의 다른 다양한 컴포넌트들을 프로세서(412)에 연결한다.

프로세서(412)는 컴퓨팅 장치(410)로 하여금 앞서 언급된 예시적인 실시예에 따라 동작하도록 할 수 있다. 예컨대, 프로세서(412)는 컴퓨터 판독 가능 저장 매체(414)에 저장된 컴퓨터 실행 가능 명령어를 실행할 수 있고, 컴퓨터 판독 가능 저장 매체(414)에 저장된 컴퓨터 실행 가능 명령어는 프로세서(412)에 의해 실행되는 경우 컴퓨팅 장치(410)로 하여금 소정의 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.

컴퓨터 판독 가능 저장 매체(414)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드(예컨대, 애플리케이션(430)에 포함되는 명령어), 프로그램 데이터(예컨대, 애플리케이션(430)에 의해 사용되는 데이터) 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능 저장 매체(414)에 저장된 애플리케이션(430)은 프로세서(412)에 의해 실행 가능한 명령어의 소정의 집합을 포함한다.

도 4에 도시된 메모리(416) 및 저장 장치(418)는 컴퓨터 판독 가능 저장 매체(414)의 예이다. 메모리(416)에는 프로세서(412)에 의해 실행될 수 있는 컴퓨터 실행 가능 명령어가 로딩될 수 있다. 또한, 메모리(416)에는 프로그램 데이터가 저장될 수 있다. 예컨대, 이러한 메모리(416)는 랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적합한 조합일 수 있다. 다른 예로서, 저장 장치(418)는 정보의 저장을 위한 하나 이상의 착탈 가능하거나 착탈 불가능한 컴포넌트를 포함할 수 있다. 예컨대, 저장 장치(418)는 하드 디스크, 플래시 메모리, 자기 디스크, 광 디스크, 컴퓨팅 장치(410)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.

컴퓨팅 장치(410)는 또한 하나 이상의 입출력 장치(470)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(420)를 포함할 수 있다. 입출력 인터페이스(420)는 버스(460)에 연결된다. 입출력 장치(470)는 입출력 인터페이스(420)를 통해 컴퓨팅 장치(410)(의 다른 컴포넌트들)에 연결될 수 있다. 입출력 장치(470)는 포인팅 장치, 키보드, 터치 입력 장치, 음성 입력 장치, 센서 장치 및/또는 촬영 장치와 같은 입력 장치 및/또는 디스플레이 장치, 프린터, 스피커 및/또는 네트워크 카드와 같은 출력 장치를 포함할 수 있다

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

1 : 서버
2 : 외부서버
10 : 수집부
20 : 정제부
30 : 기업명 추출부
40 : 기준 특허 추출부
50 : 비교 대상 특허 추출부
60 : 문헌 유사도 산출부
62 : 특허 벡터화 모듈
64 : 코사인 유사도 산출 모듈
66 : 등급 분류 모듈
70 : 기술분류 판단부
80 : AI모델 생성부
90 : 데이터베이스부
92 : 기술분류 저장 모듈
94 : 특허 저장 모듈
96 : 기술분류 매칭 특허 저장 모듈
400 : 컴퓨팅 환경
410 : 컴퓨팅 장치
412 : 프로세서
414 : 컴퓨팅 판독 가능 저장 매체
416 : 메모리
418 : 저장 장치
420 : 입출력 인터페이스
430 : 애플리케이션
460 : 버스
470 : 입출력 장치

Claims

서버가, 기술분류에 매칭된 적어도 하나의 기업명을 추출하는 단계;
상기 서버가, 상기 추출된 기업명이 인명 데이터에 포함되어 있는 적어도 하나의 기준 특허를 추출하는 단계;
상기 서버가, 상기 기준 특허의 특징 데이터와 적어도 하나의 동일한 특징 데이터를 갖는 비교 대상 특허 하나 이상을 추출하는 단계;
상기 서버가, 상기 기준 특허와 상기 추출된 비교 대상 특허 각각에 대하여 문헌간 유사도를 산출하는 단계; 및
상기 서버가, 추출된 하나 이상의 상기 비교 대상 특허 중 상기 기준 특허와 상기 문헌간 유사도가 기 설정된 유사등급 이상인 비교 대상 특허를 상기 추출된 기업명과 매칭된 상기 기술분류에 포함되는 특허로 판단하는 단계;를 포함하는, 특허 문헌을 이용한 학습 데이터 구축 방법.
청구항 1에 있어서,
상기 기술분류는,
KSIC 산업분류, IPC 기술분류 코드, HS 품목 분류 코드 및 기술 특징 중 적어도 하나를 이용해 분류된 것인, 특허 문헌을 이용한 학습 데이터 구축 방법.
청구항 1에 있어서,
상기 인명 데이터는,
출원인 데이터, 발명자 데이터, 양도인 데이터, 양수인 데이터, 현재권리자 데이터, 대리인 데이터, 심사관 데이터, 대표출원인 코드, 특허고객번호 및 출원인 식별 기호 중 적어도 하나를 포함하는 것을 특징으로 하는, 특허 문헌을 이용한 학습 데이터 구축 방법.
청구항 1에 있어서,
상기 특징 데이터는,
IPC 기술분류 코드, CPC 기술분류 코드, UPC 기술분류 코드, FI 기술분류 코드, F-term 기술분류 코드 및 인명 데이터 중 적어도 하나를 포함하는 것을 특징으로 하는, 특허 문헌을 이용한 학습 데이터 구축 방법.
청구항 1에 있어서,
상기 문헌간 유사도를 산출하는 단계는,
상기 서버가, 상기 기준 특허를 DTM, TF-IDF 및 Word2Vec 중 어느 하나를 이용해 벡터화 하는 단계;
상기 서버가, 상기 비교 대상 특허 각각을 DTM, TF-IDF 및 Word2Vec 중 어느 하나를 이용해 벡터화 하는 단계; 및
상기 서버가, 상기 기준 특허의 벡터값과 상기 비교 대상 특허 각각의 벡터값을 코사인 유사도를 이용해 비교하여 상기 문헌간 유사도를 산출하는 단계를 더 포함하는, 특허 문헌을 이용한 학습 데이터 구축 방법.
청구항 1에 있어서,
상기 문헌간 유사도는, 0 부터 1 사이에 분포되는 값이고,
상기 서버는, 상기 기준 특허와 상기 비교 대상 특허 각각에 대하여 상기 산출된 문헌간 유사도의 분포에 따라 상기 산출된 문헌간 유사도를 복수의 등급으로 분류하는 단계; 및,
상기 서버는, 상기 분류된 복수의 등급 각각에 대하여 상기 문헌간 유사도의 등급 대표값을 산출하는 단계를 더 포함하고;
상기 기 설정된 유사등급은,
상기 복수의 등급 각각에 대해 산출된 상기 등급 대표값 중 어느 하나를 이용해 설정되는 것을 특징으로 하는 특허 문헌을 이용한 학습 데이터 구축 방법.
기술분류에 매칭된 적어도 하나의 기업명을 추출하는 기업명 추출부;
상기 추출된 기업명이 인명 데이터에 포함되어 있는 적어도 하나의 기준 특허를 추출하는 기준 특허 추출부;
상기 기준 특허의 특징 데이터와 적어도 하나의 동일한 특징 데이터를 갖는 비교 대상 특허 하나 이상을 추출하는 비교 대상 특허 추출부;
상기 기준 특허와 상기 추출된 비교 대상 특허 각각에 대하여 문헌간 유사도를 산출하는 문헌 유사도 산출부; 및
추출된 하나 이상의 상기 비교 대상 특허 중 상기 기준 특허와 상기 문헌간 유사도가 기 설정된 유사등급 이상인 비교 대상 특허를 상기 추출된 기업명과 매칭된 상기 기술분류에 포함되는 특허로 판단하는 기술분류 판단부를 포함하는, 특허 문헌을 이용한 학습 데이터 구축 장치.
청구항 7에 있어서,
상기 기술분류는,
KSIC 산업분류, IPC 기술분류 코드, HS 품목 분류 코드 및 기술 특징 중 적어도 하나를 이용해 분류된 것인, 특허 문헌을 이용한 학습 데이터 구축 장치.
청구항 7에 있어서,
상기 인명 데이터는,
출원인 데이터, 발명자 데이터, 양도인 데이터, 양수인 데이터, 현재권리자 데이터, 대리인 데이터, 심사관 데이터, 대표출원인 코드, 특허고객번호 및 출원인 식별 기호 중 적어도 하나를 포함하는 것을 특징으로 하는, 특허 문헌을 이용한 학습 데이터 구축 장치.
청구항 7에 있어서,
상기 특징 데이터는,
IPC 기술분류 코드, CPC 기술분류 코드, UPC 기술분류 코드, FI 기술분류 코드, F-term 기술분류 코드 및 인명 데이터 중 적어도 하나를 포함하는 것을 특징으로 하는, 특허 문헌을 이용한 학습 데이터 구축 장치.
청구항 7에 있어서,
상기 문헌 유사도 산출부는,
상기 기준 특허를 DTM, TF-IDF 및 Word2Vec 중 어느 하나를 이용해 벡터화 하고, 상기 비교 대상 특허 각각을 DTM, TF-IDF 및 Word2Vec 중 어느 하나를 이용해 벡터화 하는 특허 벡터화 모듈; 및
상기 서버가, 상기 기준 특허의 벡터값과 상기 비교 대상 특허 각각의 벡터값을 코사인 유사도를 이용해 비교하여 상기 문헌간 유사도를 산출하는 코사인 유사도 산출 모듈을 포함하는 것을 특징으로 하는, 특허 문헌을 이용한 학습 데이터 구축 장치.
청구항 7에 있어서,
상기 문헌간 유사도는, 0 부터 1 사이에 분포되는 값이고,
상기 문헌 유사도 산출부는,
상기 기준 특허와 상기 비교 대상 특허 각각에 대하여 상기 산출된 문헌간 유사도의 분포에 따라 상기 산출된 문헌간 유사도를 복수의 등급으로 분류하고, 상기 분류된 복수의 등급 각각에 대하여 상기 문헌간 유사도의 등급 대표값을 산출하는 등급 분류 모듈을 더 포함하고,
상기 기 설정된 유사등급은,
상기 복수의 등급 각각에 대해 산출된 상기 등급 대표값 중 어느 하나를 이용해 설정되는 것을 특징으로 하는 특허 문헌을 이용한 학습 데이터 구축 장치.
청구항 1 내지 청구항 6 중 어느 한 항에 따른 특허 문헌을 이용한 학습 데이터 구축 방법을 이용한, 데이터 구축 시스템.