KR20190029339A

KR20190029339A - 출원인 정보 채우기 시스템 및 방법

Info

Publication number: KR20190029339A
Application number: KR1020170116749A
Authority: KR
Inventors: 박창희; 이혜숙; 이정흠; 김진식; 박혜연
Original assignee: 특허법인 플러스
Priority date: 2017-09-12
Filing date: 2017-09-12
Publication date: 2019-03-20
Also published as: KR102497151B1

Abstract

본 발명에 따른 출원인 정보 채우기 시스템은, 특허문헌의 정보가 필드별로 구분된 특허데이터가 저장된 데이터베이스; 상기 데이터베이스에 저장된 특허데이터 중 출원인 정보가 누락된 특허데이터인 분석대상 특허데이터의 추천 출원인 필드에 추천 출원인 리스트를 생성하는 추천 출원인 리스트 생성 장치;를 포함하여 이루어질 수 있다.
이러한 본 발명에 의하면, 분석대상 특허데이터의 추천 출원인 필드에 추천 출원인 리스트를 생성함으로써, 분석대상 특허데이터의 누락된 출원인 정보를 사용자가 적절히 채울 수 있도록 해줄 수 있고, 이에 따라 출원인 정보가 누락된 특허를 정량 또는 정성 분석하는 경우 상기 누락된 출원인 정보가 적절히 채워질 수 있게 되어 보다 정확한 특허 분석 결과를 얻을 수 있게 된다.

Description

출원인 정보 채우기 시스템 및 방법{APPLICANT INFORMATION FILLING SYSTEM AND METHOD}

본 발명은 출원인 정보 채우기 시스템 및 방법에 관한 것으로서, 보다 구체적으로는 데이터베이스에 저장된 특허데이터 중 출원인 정보가 누락된 특허데이터의 출원인 정보를 채우기 위한 시스템 및 방법에 관한 것이다.

특허 정보는 기술 정보, 권리 정보 및 경영 정보의 성격을 가지며, 글로벌한 국제 경쟁에서 그 중요성이 증가되고 있다. 기술 정보로서 기술 개발 동향 및 개별 특허에 적용된 기술적 아이디어를 알 수 있고, 권리 정보로서 개별 특허의 권리 범위 및 국내외 권리화 정도를 파악할 수 있으며, 경영 정보로서 경쟁 기업의 기술 개발 동향 등을 파악할 수 있다.

특허 정보는 각국 특허청이 제공해 주는 특허 정보 시스템, 민간 기업이 개발한 특허 정보 시스템, 또는 개별 기업이 자사의 목적에 맞게 구축한 특허 정보 시스템 등을 이용하여 입수할 수 있다.

한편, 각국 특허청은 특허 정보를 Open API 데이터로 제공하고 있다. 이때 특허청이 제공하는 데이터에는 특허 분석에 사용되는 각종 항목(예를 들어, 출원인, 국적 등)이 채워지지 않은 경우가 있고, 이에 따라 특허청이 제공하는 데이터를 그대로 사용하여 특허 분석을 수행할 경우에는 그 분석 결과가 정확하지 않을 수 있다.

특히, 종래 선발명주의를 채택하고 있던 미국의 경우, 등록 또는 양도 절차를 거치지 않음으로 인해 양수인(assignee) 정보가 존재하지 않게 되어 출원인 정보가 누락된 경우가 많이 있고, 이에 따라 특허청이 제공하는 데이터에도 출원인 정보가 다수 누락되어 있게 된다.

이와 같이 출원인 정보가 누락된 특허를 정량 또는 정성 분석하는 경우, 출원인 정보가 누락되어 있음으로 인해 그릇된 분석 결과를 얻을 수 있다. 따라서, 출원인 정보가 누락된 특허에 대해 출원인 정보를 보완하는 기술이 마련될 필요가 있다.

한편, 특허문헌 1에는 특허데이터를 이용하여 사용자의 목적에 부합하는 데이터베이스를 구축하고, 관심 분야의 특허 데이터에 대하여 서지적 정보 및 특허 원문을 통해 특허의 기술 내용과 권리 사항을 확인할 수 있는 사용자 맞춤형 특허정보 데이터 베이스 구축 시스템에 관한 내용이 개시되어 있다.

한국 등록특허공보 제10-0862565호(공개일: 2008.10.09)

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 출원인 정보가 누락된 특허데이터(즉, 분석대상 특허데이터)의 추천 출원인 필드에 추천 출원인 리스트를 생성함으로써, 분석대상 특허데이터의 누락된 출원인 정보를 사용자가 적절히 채울 수 있도록 해주는 시스템 및 방법을 제공하는 것에 그 목적이 있다.

상기와 같은 목적을 달성하기 위하여, 본 발명의 일 실시예에 따른 출원인 정보 채우기 시스템은, 특허문헌의 정보가 필드별로 구분된 특허데이터가 저장된 데이터베이스; 상기 데이터베이스에 저장된 특허데이터 중 출원인 정보가 누락된 특허데이터인 분석대상 특허데이터의 추천 출원인 필드에 추천 출원인 리스트를 생성하는 추천 출원인 리스트 생성 장치;를 포함하는 출원인 정보 채우기 시스템에 있어서, 상기 추천 출원인 리스트 생성 장치는, 상기 분석대상 특허데이터의 발명자 명칭을 어절단위로 추출하고, 추출한 발명자 명칭의 어절단위 중 어느 하나 이상의 어절단위와 동일한 어절단위를 발명자 명칭으로 포함하고 있는 특허데이터를 후보 특허로 추출하는 후보 특허 추출부; 상기 후보 특허 추출부에 의해 추출된 후보 특허의 초록과 상기 분석대상 특허데이터의 초록 간 유사도를 계산하는 유사도 계산부; 및 상기 유사도 계산부에 의해 계산된 유사도를 기준으로 상기 후보 특허를 정렬한 추천 출원인 리스트를 상기 분석대상 특허데이터의 추천 출원인 필드에 생성하는 추천 출원인 리스트 생성부; 를 포함하여 이루어질 수 있다.

여기서, 상기 후보 특허 추출부는, (a) 상기 분석대상 특허데이터의 IPC와 일치하는 특허데이터인지 여부, (b) 상기 분석대상 특허데이터의 출원일로부터 기설정된 기간 내에 출원된 특허데이터인지 여부, 및 (c) 상기 분석대상 특허데이터의 발명자 국적과 동일한 특허데이터인지 여부, 중 하나 이상을 더 고려하여, 상기 특허데이터를 상기 후보 특허로 추출할 수 있다.

여기서, 상기 후보 특허 추출부는, (a) 상기 특허데이터의 IPC가 상기 분석대상 특허데이터 IPC의 메인그룹(main group)까지 일치할 경우 상기 특허데이터를 상기 후보 특허로 추출하거나, (b) 상기 특허데이터의 IPC가 상기 분석대상 특허데이터 IPC의 서브클래스(sub-class)까지 일치할 경우 상기 특허데이터를 상기 후보 특허로 추출할 수 있다.

여기서, 상기 후보 특허 추출부는, 상기 특허데이터 중 출원국가 정보가 EP, WO 또는 US 인 특허데이터만을 후보 특허로 추출할 수 있다.

여기서, 상기 유사도 계산부는 다음 수식을 이용한 코사인 유사도(Cosine Similarity) 함수를 이용하여 후보 특허의 초록과 분석대상 특허데이터의 초록간 유사도를 계산할 수 있다.

[수식]

{A : 후보 특허의 초록을 나타내는 제1 벡터,

B : 분석대상 특허데이터의 초록을 나타내는 제2 벡터,

Sim(A,B) : 제1 벡터 A와 제2 벡터 B의 유사도를 계산한 값}

여기서, 상기 유사도 계산부는, (a) 초록의 불용어(stopwords)를 제거하지 않고 상기 후보 특허의 초록과 상기 분석대상 특허데이터의 초록 간 유사도를 계산할 수 있고, (b) 초록의 불용어(stopwords)를 제거하고 상기 후보 특허의 초록과 상기 분석대상 특허데이터의 초록 간 유사도를 계산할 수 있다.

여기서, 상기 유사도 계산부는, 상기 후보 특허 및 분석대상 특허데이터의 초록의 불용어(stopwords)를 제거하지 않고 계산한 제1 유사도와, 상기 후보 특허 및 분석대상 특허데이터의 초록의 불용어(stopwords)를 제거하고 계산한 제2 유사도를 종합하여 유사도를 계산할 수 있다.

또한, 상기 추천 출원인 리스트 생성장치는, 상기 추천 출원인 리스트 생성부에 의해 생성된 추천 출원인 리스트 중 사용자가 선택한 후보 특허에 관한 추천 출원인 선택 이력을 기록하고, 상기 추천 출원인 선택 이력을 주기적으로 수집하여 추천 출원인 리스트 중 사용자가 선택하는 후보 특허에 대한 학습을 실행하는 딥러닝부;를 더 포함할 수 있다.

또한, 분석대상 특허데이터의 패밀리특허의 출원인 정보를 분석대상 특허데이터의 출원인 정보로 채우는 출원인 자동 채움 장치;를 더 포함할 수 있다.

한편, 본 발명의 일 실시예에 따른 출원인 정보 채우기 방법은, 데이터베이스에 저장된 특허데이터 중 출원인 정보가 누락된 특허데이터인 분석대상 특허데이터의 발명자 명칭을 어절단위로 추출하고, 추출한 발명자 명칭의 어절단위 중 하나 이상의 어절단위와 동일한 어절단위를 발명자 명칭으로 포함하고 있는 특허데이터를 후보 특허로 추출하는 단계; 상기 후보 특허의 초록과 상기 분석대상 특허데이터의 초록간 유사도를 계산하는 단계; 상기 계산된 유사도를 기준으로 상기 후보 특허를 정렬한 추천 출원인 리스트를 상기 분석대상 특허데이터의 추천 출원인 필드에 저장하는 단계; 를 포함하여 이루어질 수 있다.

여기서, 상기 후보 특허를 추출하는 단계는, (a) 상기 분석대상 특허데이터의 IPC와 일치하는 특허데이터인지 여부, (b) 상기 분석대상 특허데이터의 출원일로부터 기설정된 기간 내에 출원된 특허데이터인지 여부, 및 (c) 상기 분석대상 특허데이터의 발명자 국적과 동일한 특허데이터인지 여부, 중 하나 이상을 더 고려하여 상기 후보 특허를 추출할 수 있다.

여기서, 상기 후보 특허를 추출하는 단계는, (a) 상기 특허데이터의 IPC가 상기 분석대상 특허데이터 IPC의 메인그룹(main group)까지 일치할 경우 상기 후보 특허로 추출하거나, (b) 상기 특허데이터의 IPC가 상기 분석대상 특허데이터 IPC의 서브클래스(sub-class)까지 일치할 경우 상기 특허데이터를 후보 특허로 추출하는 것을 특징으로 할 수 있다.

여기서, 상기 후보 특허를 추출하는 단계는, 상기 특허데이터 중 출원국가 정보가 EP, WO 또는 US 인 특허데이터만을 후보 특허로 추출할 수 있다.

여기서, 상기 유사도를 계산하는 단계는, 다음 수식을 이용한 코사인 유사도 함수를 이용하여 후보 특허의 초록과 분석대상 특허데이터의 초록간 유사도를 계산하는 것을 특징으로 할 수 있다.

[수식]

{A : 후보 특허의 초록을 나타내는 제1 벡터,

B : 분석대상 특허데이터의 초록을 나타내는 제2 벡터,

Sim(A,B) : 제1 벡터 A와 제2 벡터 B의 유사도를 계산한 값}

여기서, 상기 유사도를 계산하는 단계는, (a) 초록의 불용어(stopwords)를 제거하고 후보 특허의 초록과 분석대상 특허데이터의 초록 간 유사도를 계산할 수 있고, (b) 초록의 불용어(stopwords)를 제거하지 않고 후보 특허의 초록과 분석대상 특허데이터의 초록 간 유사도를 계산할 수 있다.

여기서, 상기 유사도를 계산하는 단계는, 후보 특허 및 분석대상 특허데이터의 초록의 불용어(stopwords)를 제거하고 계산한 제1 유사도와, 후보 특허 및 분석대상 특허데이터의 초록의 불용어(stopwords)를 제거하지 않고 계산한 제2 유사도를 종합하여 유사도를 계산하는 것을 특징으로 할 수 있다.

본 발명에 의하면, 분석대상 특허데이터의 추천 출원인 필드에 추천 출원인 리스트를 생성함으로써, 분석대상 특허데이터의 누락된 출원인 정보를 사용자가 적절히 채울 수 있도록 해줄 수 있다. 이에 따라, 본 발명에 의하면 출원인 정보가 누락된 특허를 정량 또는 정성 분석하는 경우 상기 누락된 출원인 정보가 적절히 채워질 수 있게 되어 보다 정확한 특허 분석 결과를 얻을 수 있게 된다.

도 1은 본 발명의 일 실시예에 따른 출원인 정보 채우기 시스템을 사용자 인터페이스 장치와 함께 나타낸 도면이다.
도 2는 특허문헌 정보가 필드별로 구분된 특허데이터가 사용자 인터페이스 장치를 통해 출력되는 화면을 예시적으로 나타낸 도면이다.
도 3은 추천 출원인 리스트 생성 장치를 개략적으로 나타낸 도면이다.
도 4는 후보 특허와 유사도를 예시적으로 나타낸 도면이다.
도 5는 데이터베이스에 저장된 필드 테이블의 일부를 예시적으로 나타낸 도면이다.
도 6은 분석대상 특허데이터의 추천 출원인 필드에 생성되는 추천 출원인 리스트가 사용자 인터페이스 장치를 통해 출력되는 화면을 예시적으로 나타낸 도면이다.
도 7은 분석대상 특허데이터의 출원인 필드가 채워진 모습이 사용자 인터페이스 장치를 통해 출력되는 화면을 예시적으로 나타낸 도면이다.
도 8은 추천 출원인 선택 이력을 예시적으로 나타낸 도면이다.
도 9는 본 발명의 일 실시예에 따른 출원인 정보 채우기 방법의 흐름도이다.

이하에서는 첨부한 도면을 참조하여 본 발명에 대해 상세하게 설명한다. 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략하기로 한다.

도 1은 본 발명의 일 실시예에 따른 출원인 정보 채우기 시스템(1000)을 사용자 인터페이스 장치(2000)와 함께 나타낸 도면으로서, 도 1에 나타낸 바와 같이 본 발명의 일 실시예에 따른 출원인 정보 채우기 시스템(1000)은 사용자 인터페이스 장치(2000)와 연결될 수 있다.

사용자 인터페이스 장치(2000)는 본 발명에 따른 출원인 정보 채우기 시스템(1000)과 연결되어, 출원인 정보 채우기 시스템(1000)을 작동시키거나 출원인 정보 채우기 시스템(1000)이 수행한 결과를 출력하는 소프트웨어를 포함하여 이루어질 수 있다. 사용자는 사용자 인터페이스 장치(2000)를 통해 출원인 정보 채우기 시스템(1000)을 이용할 수 있다.

본 발명에 따른 출원인 정보 채우기 시스템(1000)은 데이터베이스(100) 및 추천 출원인 리스트 생성 장치(200)를 포함하여 이루어질 수 있다.

데이터베이스(100)에는 특허문헌 정보가 필드별로 구분된 특허데이터가 저장되어 있다.

도 2는 특허문헌 정보가 필드별로 구분된 특허데이터가 사용자 인터페이스 장치를 통해 출력되는 화면을 예시적으로 나타낸 도면으로서, 특허문헌 정보는 도 2에 도시된 바와 같이 출원국 정보, 출원번호 정보, 발명의 명칭 정보, 출원인 정보, 등록일 정보 등과 같이 특허문헌과 관련이 있는 각종 정보를 의미한다.

그리고 특허데이터는 특허문헌 정보가 출원국, 출원번호, 발명의 명칭, 출원인 및 등록일 등의 필드별로 구분된 데이터를 의미한다.

데이터베이스(100)에는 이러한 특허데이터가 저장되어 있으며, 도 2에 도시된 바와 같이 특허데이터 중에는 출원인 정보가 누락된 특허데이터가 존재할 수 있다. 예를 들어, 미국등록특허 제7186565호의 경우, 한국 특허청이 제공하는 특허문헌의 정보에는 출원인이 누락되어 있으며, 이를 그대로 데이터베이스(100)에 저장하게 되면 미국등록특허 제7186565호의 특허데이터는 출원인이 누락되어 있게 된다.

추천 출원인 리스트 생성 장치(200)는 데이터베이스(100)에 저장된 특허데이터 중 출원인 정보가 누락된 특허데이터인 분석대상 특허데이터의 추천 출원인 필드에 추천 출원인 리스트를 생성한다.

도 3은 추천 출원인 리스트 생성 장치(200)를 개략적으로 나타낸 도면으로서, 추천 출원인 리스트 생성 장치(200)는 후보 특허 추출부(210), 유사도 계산부(220) 및 추천 출원인 리스트 생성부(230)를 포함하여 이루어질 수 있다.

후보 특허 추출부(210)는 분석대상 특허데이터의 발명자 명칭을 어절단위로 추출하고, 추출한 발명자 명칭의 어절단위 중 하나 이상의 어절단위와 동일한 어절단위를 발명자 명칭으로 포함하고 있는 특허데이터를 후보 특허로 추출한다. 여기서, 어절단위는 띄어쓰기에 의해 구분되는 텍스트 단위를 의미한다.

예를 들어, 상기 미국등록특허 제7186565호의 발명자는 Kristin Schrimer, Niels Bols 및 Mario Schrirmer이다. 후보 특허 추출부(210)는 발명자 명칭을 어절단위로 추출하며, 그 결과는 Kristin, Schrimer, Niels, Bols, Mario 및 Schrirmer가 된다.

이후 후보 특허 추출부(210)는 분석대상 특허데이터를 제외한 특허데이터 중에서, Kristin, Schrimer, Niels, Bols, Mario 및 Schrirmer 중 어느 하나 이상의 어절단위와 동일한 어절단위를 발명자 명칭으로 포함하고 있는 특허데이터를 후보 특허로 추출한다.

후보 특허 추출부(210)는 추출한 분석대상 특허데이터의 발명자 명칭의 어절단위 중 하나 이상의 어절단위와 동일한 어절단위를 발명자 명칭으로 포함하고 있는 특허데이터뿐만 아니라, 추출한 분석대상 특허데이터의 발명자 명칭의 어절단위 중 하나 이상의 어절단위와 유사한 어절단위를 발명자 명칭으로 포함하고 있는 특허데이터를 후보 특허로 추출할 수도 있다.

한편, 분석대상 특허데이터의 발명자 명칭에 흔한 성 또는 이름이 포함된 경우, 이로부터 추출되는 후보 특허의 수가 지나치게 많아질 수 있고, 이에 따라 분석대상 특허데이터와 관련성이 적은 특허데이터까지 후보 특허로 추출되게 되어 불필요한 후보 특허가 많아지게 된다.

따라서, 후보 특허 추출부(210)는 특허데이터의 IPC가 분석대상 특허데이터의 IPC와 일치하는지 여부, 특허데이터의 출원일이 분석대상 특허데이터의 출원일로부터 기설정된 기간 내인지 여부, 및 특허데이터의 발명자 국적이 분석대상 특허데이터의 발명자 국적과 동일한지 여부 중 하나 이상을 더 고려하여, 데이터베이스(100)에 저장된 특허데이터 중에서 후보 특허를 추출할 수 있다.

구체적으로, 후보 특허 추출부(210)는 분석대상 특허데이터의 IPC와 일치하는 특허데이터만을 후보 특허로 추출할 수 있다.

IPC는 크게 8개의 섹션으로 분류되며, 각 섹션별로 클래스(class), 서브클래스(sub-class), 메인그룹(main group) 및 서브그룹(sub-group)의 계층적 구조로 나누어져 있다.

예를 들어, 상기 미국등록특허 제7186565호의 IPC는 C12Q-001/18을 포함하며, C12Q-001/18에서 C는 섹션, 12는 클래스, Q는 서브클래스, 001은 메인그룹, 18은 서브그룹을 의미한다. 이 경우, 후보 특허 추출부(210)는 C12Q-001/18과 동일한 IPC를 포함하는 특허데이터를 후보 특허로 추출할 수 있다.

이때, 후보 특허 추출부(210)는 추출되는 후보 특허의 범위를 확장하기 위해, 메인그룹(main group)까지 일치하는 특허데이터를 후보 특허로 추출할 수 있고, 필요에 따라서는 서브클래스(sub-class)까지 일치하는 특허데이터를 후보 특허로 추출할 수도 있다. 이와 같은 IPC에 대한 한정사항은 후보 특허의 추출 수 또는 분석대상 특허데이터의 성격에 따라 적절히 조절될 수 있다.

또한, 후보 특허 추출부(210)는 분석대상 특허데이터의 출원일로부터 기설정된 기간 이내에 출원된 특허데이터만을 후보 특허로 추출할 수 있다. 여기서, 기설정된 기간은 사용자에 의해 설정될 수 있으며, 일 예로 기설정된 기간은 10년일 수 있다.

예를 들어, 기설정된 기간이 10년일 경우, 상기 미국등록특허 제7186565호의 출원일은 2001.07.20이므로, 출원일이 1991.07.20 ~ 2001.07.20인 특허데이터만이 후보 특허로 추출되게 된다.

또한, 후보 특허 추출부(210)는 분석대상 특허데이터의 발명자 국적과 동일한 특허데이터를 후보 특허로 추출할 수 있다. 분석대상 특허데이터의 발명자의 명칭과 특허데이터의 발명자의 명칭이 동일하다 하더라도, 분석대상 특허데이터의 발명자와 특허데이터의 발명자는 동명이인일 수 있는바, 발명자 명칭뿐만 아니라 발명자의 국적도 함께 고려함으로써 불필요한 후보 특허를 추출하는 것을 방지할 수 있다.

예를 들어, 상기 미국등록특허 제7186565호의 경우, 발명자 Kristin Schirmer의 국적은 독일(DE)이다. 후보 특허 추출부(210)에 의해 어절단위로 추출되는 발명자 명칭은 Kristin, Schirmer이며, 후보 특허 추출부(210)는 발명자 명칭에 Kristin 또는 Schirmer이 포함되어 있는 특허데이터 중 발명자의 국적이 독일이 아닌 특허데이터는 제외하고 후보 특허를 추출할 수 있다.

또한, 후보 특허 추출부(210)는 출원국가 정보가 EP, WO 또는 US인 특허데이터만을 후보 특허로 추출할 수 있다. 이는 주로 미국 특허가 분석대상 특허데이터가 되기 때문에, 주요 영어권 국가이자 출원인, 발명자 및 초록이 영어로 제공되는 EP, WO 또는 US 특허데이터만으로도 충분한 후보 특허를 획득할 수 있으며, 또한 추출되는 후보 특허의 수를 감소시킬 수 있다.

이와 같이 후보 특허를 다양한 방법으로 한정하여 추출함에 따라 추출되는 후보 특허의 수를 감소시킬 수 있고, 이에 따라 추천 출원인 리스트 생성 장치(200)가 추천 출원인 리스트를 생성하기까지 소요되는 시간이 단축될 수 있다.

한편, 후보 특허 추출부(210)에 의해 후보 특허가 추출되면, 유사도 계산부(220)는 후보 특허 추출부(210)에 의해 추출된 후보 특허의 초록과 분석대상 특허데이터의 초록 간의 유사도를 계산한다.

여기서 유사도란 후보 특허의 초록과 분석대상 특허데이터의 초록 간에 유사한 정도를 나타내는 지표로서, 후보 특허의 초록과 분석대상 특허데이터의 초록 간에 겹치는 단어(word, term)가 많을수록 유사도가 높게 계산된다.

초록 간 유사도는 Common Features Model, Ratio Model, Simple Matching Coefficient, Jaccard Similarity, Overlap Similarity, Cosine Similarity 등 다양한 방법을 통해 계산될 수 있다.

본 발명의 일 실시예에 따르면, 유사도 계산부(220)는 후보 특허의 초록과 분석대상 특허데이터의 초록 간 유사도를 계산하기 위해 Cosine Similarity(코사인 유사도) 함수를 이용할 수 있다.

초록에 포함된 하나하나의 단어는 각각의 차원을 구성하고, 초록은 각 단어가 해당 초록에 나타나는 회수로 표현되는 벡터를 가질 수 있다.

유사도 계산부(220)는 후보 특허의 초록을 제1 벡터로 표현하고, 이와 비교대상이 되는 분석대상 특허데이터의 초록을 제2 벡터로 표현할 수 있다.

상기 제1 벡터와 제2 벡터 사이의 유사도는 하기 수식에 의해 계산될 수 있다.

여기서 벡터 A는 후보 특허의 초록을 나타내는 제1 벡터이고, 벡터 B는 분석대상 특허데이터의 초록을 나타내는 제2 벡터이다.

유사도 Sim(A,B)는 제1 벡터 A와 제2 벡터 B의 유사도를 계산한 값으로, 유사도 Sim(A,B)는 후보 특허의 초록과 분석대상 특허데이터의 초록 간에 매칭되는 단어의 수가 많을수록 커진다. 유사도 Sim(A,B)는 0 이상 1 이하의 값을 가질 수 있으며, 1에 가까울수록 후보 특허의 초록과 분석대상 특허데이터의 초록이 유사하다는 것을 의미한다.

도 4는 후보 특허 및 유사도를 예시적으로 나타낸 도면이다. 유사도 계산부(220)는 후보 특허의 초록과 분석대상 특허데이터의 초록 간에 유사도를 계산하고, 계산된 유사도는 분석대상 특허데이터 및/또는 각 후보 특허의 특허데이터에 저장될 수 있다. 도 4에 도시된 바와 같이 후보 특허 및 이에 대응되는 유사도가 데이터화되어 데이터베이스(100)에 저장될 수 있다.

한편, 유사도 계산부(220)는 분석대상 특허데이터의 초록과 후보 특허의 초록간 유사도 계산 시 각 초록의 불용어(stopwords)를 제거하지 않고 유사도를 계산할 수 있고, 유사도 계산부(220)는 분석대상 특허데이터의 초록과 후보 특허의 초록간 유사도 계산 시 각 초록의 불용어(stopwords)를 제거하고 유사도를 계산할 수도 있다.

불용어(stopwords)란 유사도 계산시 제외하는 단어로서, 관사, 조사, 접속사 등 색인 단어로 의미가 없는 단어를 의미한다.

불용어를 제거하지 않고 그대로 유사도를 계산하는 경우와 불용어를 제거하고 유사도를 계산하는 경우, 동일한 분석대상 특허데이터의 초록과 후보 특허의 초록 간 유사도를 계산한다 하더라도 다른 결과가 나올 수 있다.

불용어를 제거하지 않고 그대로 유사도를 계산하는 경우, 문장의 어순 및 사용하는 단어 등이 유사도에 고려될 수 있게 되어 초록의 작성자가 동일할 경우 유사도가 높게 나올 수 있다.

불용어를 제거하고 유사도를 계산하는 경우, 상기한 바와 같은 문장의 어순 또는 사용하는 단어 등이 유사도에 고려되지 않으나, 넓은 범위의 관련 기술 분야의 초록이라 하더라도 대응되는 단어가 다수 존재할 수 있게 되어 비교적 높은 유사도를 갖는 후보 특허를 추출할 수 있다.

나아가, 유사도 계산부(220)는 초록의 불용어를 제거하지 않고 제1 유사도를 계산하고, 초록의 불용어를 제거하고 제2 유사도를 계산한 이후, 상기 제1 유사도와 제2 유사도를 종합하여 분석대상 특허데이터의 초록과 후보 특허의 초록간 유사도를 계산할 수도 있다.

여기서 제1 유사도와 제2 유사도를 종합한다는 것은 제1 유사도와 제2 유사도의 평균을 의미할 수 있다.

한편, 도 5는 데이터베이스에 저장된 필드 테이블의 일부를 예시적으로 나타낸 도면으로서, 도시된 바와 같이 특허데이터에는 추천 출원인 리스트 필드가 존재할 수 있다. 추천 출원인 리스트 생성부(230)는 유사도 계산부(220)에 의해 계산된 유사도를 기준으로 후보 특허를 정렬한 추천 출원인 리스트를 분석대상 특허데이터의 추천 출원인 필드에 생성한다.

여기서 유사도는, 불용어를 제거하지 않고 계산한 유사도, 불용어를 제거하고 계산한 유사도, 및 불용어를 제거하지 않고 계산한 제1 유사도 및 불용어를 제거하고 계산한 제2 유사도를 종합한 유사도 중 어느 하나일 수 있다.

도 6은 분석대상 특허데이터의 추천 출원인 필드에 생성되는 추천 출원인 리스트가 사용자 인터페이스 장치를 통해 출력되는 화면을 예시적으로 나타낸 도면으로서, 상기 예로 든 미국등록특허 제7186565호의 초록과 각 후보 특허의 초록 간 유사도는, 도 6에 도시된 바와 같이 추천 출원인 리스트의 표시화면 중 각 후보 특허의 왼편 상단에 나타날 수 있다.

추천 출원인 리스트 생성부(230)는 유사도 계산부(220)에 의해 계산된 유사도가 높은 순서에서 낮은 순서로 후보 특허를 정렬한 추천 출원인 리스트를 분석대상 특허데이터의 추천 출원인 필드에 생성할 수 있다.

도 6을 참고하면, 추천 출원인 리스트 중 가장 높은 유사도를 갖는 후보 특허는 유사도 0.621319를 갖는 미국등록특허 제6514713호이고, 그 다음으로 높은 유사도를 갖는 후보 특허는 유사도 0.612764를 갖는 미국등록특허 제6379909호이며, 도시된 바와 같이 유사도 계산부(220)에 의해 계산된 유사도가 높은 순서에서 낮은 순서로 정렬한 추천 출원인 리스트가 분석대상 특허데이터의 추천 출원인 필드에 생성될 수 있다.

이후, 사용자는 사용자 인터페이스 장치(2000)를 통해 분석대상 특허데이터의 추천 출원인 리스트를 제공받을 수 있고, 제공받은 추천 출원인 리스트 중 가장 적합한 후보 특허를 선택할 수 있게 된다. 사용자가 후보 특허를 선택하게 되면 분석대상 특허데이터의 출원인 필드가 사용자가 선택한 후보 특허의 출원인 정보와 동일한 출원인 정보로 채워지게 된다.

도 7은 분석대상 특허데이터의 출원인 필드가 채워진 모습이 사용자 인터페이스 장치를 통해 출력되는 화면을 예시적으로 나타낸 도면이다. 일 예로, 사용자가 상기 미국등록특허 제7186565호와 가장 유사도가 높은 후보 특허로서 미국등록특허 제6514713호를 선택하게 되면, 분석대상 특허데이터인 미국등록특허 제7186565호의 출원인 필드에는 사용자가 선택한 미국등록특허 제6514713호의 출원인 정보가 채워지게 되며, 출원인은 Hybritech Incorporated가 됨을 알 수 있다.

이와 같이, 본 발명에 의하면, 분석대상 특허데이터의 추천 출원인 필드에 추천 출원인 리스트를 생성함으로써, 분석대상 특허데이터의 누락된 출원인 정보를 사용자가 적절히 채울 수 있도록 할 수 있다. 이에 따라, 본 발명에 의하면 출원인 정보가 누락된 특허를 정량 또는 정성 분석하는 경우에 상기 누락된 출원인 정보가 적절히 채워질 수 있게 되어 보다 정확한 특허 분석 결과를 얻을 수 있게 된다.

나아가, 본 발명은 추천 출원인 리스트 생성부(230)에 의해 생성된 추천 출원인 리스트 중 사용자가 선택한 후보 특허에 관한 추천 출원인 선택 이력을 기록하고, 상기 추천 출원인 선택 이력을 주기적으로 수집하여 추천 출원인 리스트 중 사용자가 선택하는 후보 특허에 대한 학습을 실행하는 딥러닝부(240)를 더 포함할 수 있다.

도 5에 도시된 바와 같이, 데이터베이스에 저장된 필드 테이블에는 추천 출원인 선택 이력 필드가 존재할 수 있고, 해당 필드에는 사용자가 추천 출원인 리스트 중 후보 특허를 선택한 추천 출원인 선택 이력이 기록되어 저장될 수 있다.

도 8은 추천 출원인 선택 이력을 예시적으로 나타낸 도면으로서, 사용자가 선택한 후보 특허의 특허관리번호, 출원인명, 및 사용자에 대한 정보 등이 기록될 수 있다. 딥러닝부(240)는 상기 추천 출원인 선택 이력을 주기적으로 수집하여 추천 출원인 리스트 중 사용자가 선택하는 후보 특허를 학습할 수 있다.

이와 같이 딥러닝부(240)는 최종적으로 사용자가 선택하는 후보 특허를 학습하여 이를 후보 특허 추출부(210)에 알릴 수 있고, 이후 후보 특허 추출부(210)는 상기 학습 결과를 고려하여 후보 특허를 추출하게 됨으로써, 본 발명에 따른 출원인 정보 채우기 시스템(1000)의 성능이 향상될 수 있다.

한편, 도 3과 같이, 본 발명의 일 실시예에 따른 출원인 정보 채우기 시스템(1000)은 분석대상 특허데이터의 패밀리특허의 출원인 정보를 분석대상 특허데이터의 출원인 정보로 채우는 출원인 자동 채움 장치(300)를 더 포함할 수 있다.

패밀리 특허정보는 특허청에서 제공하는 특허문헌의 정보로부터 획득하여 데이터베이스(100)에 저장될 수 있고, 패밀리특허가 존재할 경우 출원인 자동 채움 장치(300)는 분석대상 특허데이터의 패밀리특허의 출원인 정보를 상기 분석대상 특허데이터의 출원인 정보로 자동으로 채우는 역할을 한다.

이때, 분석대상 특허데이터의 패밀리특허가 다수 존재하는 경우, 정해진 우선순위에 따라 다수의 패밀리특허 중 우선순위가 높은 패밀리특허의 출원인 정보를 분석대상 특허데이터의 출원인 정보로 할 수 있다.

예를 들어, 우선순위는 패밀리특허의 국가정보가 WO(PCT), EP(유럽), PJ(일본 PAJ), JP(일본), US(미국), KPA(한국 KPA), KR(한국)의 순서로 정해질 수 있으며, 여기서 WO(PCT) 국가 정보를 갖는 패밀리특허의 우선순위가 가장 높고 KR(한국) 국가 정보를 갖는 패밀리특허의 우선순위가 가장 낮도록 정해질 수 있다. 이와 같은 우선순위는 이에 한정되는 것은 아니며, 다양한 변경 실시가 가능하다.

이와 같이 패밀리특허가 존재하는 분석대상 특허데이터는 출원인 자동 채움 장치(300)에 의해 출원인 정보가 자동으로 채워지게 되어, 누락된 출원인 정보를 채우는 것이 간편해질 수 있다.

도 9는 본 발명의 일 실시예에 따른 출원인 정보 채우기 방법을 나타낸 흐름도로서, 이하에서는 도 9를 참고하여 본 발명의 일 실시예에 따른 출원인 정보 채우기 방법에 대해 설명하기로 한다.

본 발명의 일 실시예에 따른 출원인 정보 채우기 방법은, 먼저 후보 특허 추출부(210)가 분석대상 특허데이터의 발명자 명칭을 어절단위로 추출하고, 추출한 발명자 명칭의 어절단위 중 하나 이상의 어절단위와 동일한 발명자 명칭을 포함하는 특허데이터를 후보 특허로 추출한다(S100).

이때, 후보 특허 추출부(210)는 추출한 분석대상 특허데이터의 발명자 명칭의 어절단위 중 하나 이상의 어절단위와 유사한 발명자 명칭을 포함하는 특허데이터까지 후보 특허로 추출할 수 있다.

여기서, 후보 특허 추출부(210)는 분석대상 특허데이터의 IPC와 일치하는 특허데이터인지 여부, 분석대상 특허데이터의 출원일로부터 기설정된 기간 내에 출원된 특허데이터인지 여부 및 분석대상 특허데이터의 발명자 국적과 동일한 특허데이터인지 여부 중 하나 이상을 더 고려하여 후보 특허를 추출할 수 있다.

특히, 특허데이터의 IPC가 분석대상 특허데이터 IPC의 서브클래스까지 일치할 경우 상기 특허데이터를 후보 특허로 추출하거나, 특허데이터의 IPC가 분석대상 특허데이터 IPC의 메인 그룹까지 일치할 경우 상기 특허데이터를 후보 특허로 추출할 수 있다.

또한, 후보 특허 추출부(210)는 특허데이터 중 출원국가 정보가 EP, WO 또는 US인 특허데이터만을 후보 특허로 추출할 수도 있다.

다음으로, 유사도 계산부(220)는 후보 특허 추출부(210)에서 추출된 후보 특허의 초록과 분석대상 특허데이터의 초록간 유사도를 계산한다(S200).

여기서, 본 발명의 일 실시예에 따르면, 유사도 계산부(220)는 후보 특허의 초록과 분석대상 특허데이터의 초록 간 유사도를 계산하기 위해 Cosine Similarity(코사인 유사도) 함수를 이용할 수 있다.

또한, 유사도 계산부(220)는 분석대상 특허데이터의 초록과 후보 특허의 초록간 유사도 계산 시 각 초록의 불용어(stopwords)를 제거하지 않고 유사도를 계산할 수 있다. 또한, 유사도 계산부(220)는 분석대상 특허데이터의 초록과 후보 특허의 초록간 유사도 계산 시 각 초록의 불용어(stopwords)를 제거하고 유사도를 계산할 수도 있다.

나아가, 유사도 계산부(220)는 불용어를 제거하지 않고 제1 유사도를 계산하고, 불용어를 제거하고 제2 유사도를 계산한 이후, 상기 제1 유사도와 제2 유사도를 종합하여 분석대상 특허데이터의 초록과 후보 특허의 초록간 유사도를 계산할 수도 있다.

이때, 유사도는 불용어를 제거하지 않고 계산한 유사도, 불용어를 제거하고 계산한 유사도, 또는 불용어를 제거하지 않고 계산한 제1 유사도 및 불용어를 제거하고 계산한 제2 유사도를 종합한 유사도 중 어느 하나일 수 있다.

다음으로, 추천 출원인 리스트 생성부(230)은 상기 계산된 유사도를 기준으로 상기 후보 특허를 정렬한 추천 출원인 리스트를 상기 분석대상 특허데이터의 추천 출원인 필드에 생성한다(S300).

이때, 추천 출원인 리스트는 유사도 계산부(220)에서 계산된 유사도가 높은 순서에서 낮은 순서로 후보 특허를 정렬한 것일 수 있다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능함은 물론이다. 따라서, 본 발명의 기술적 사상은 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명의 기술적 사상의 범주에 속한다고 할 것이다.

1000 : 출원인 정보 채우기 시스템
100 : 데이터베이스
200 : 추천 출원인 리스트 생성 장치
210 : 후보 특허 추출부
220 : 유사도계산부
230 : 추천 출원인 리스트 생성부
240 : 딥러닝부
300 : 출원인 자동 채움 장치
2000 : 사용자 인터페이스 장치

Claims

특허문헌의 정보가 필드별로 구분된 특허데이터가 저장된 데이터베이스;
상기 데이터베이스에 저장된 특허데이터 중 출원인 정보가 누락된 특허데이터인 분석대상 특허데이터의 추천 출원인 필드에 추천 출원인 리스트를 생성하는 추천 출원인 리스트 생성 장치;를 포함하는 출원인 정보 채우기 시스템에 있어서,
상기 추천 출원인 리스트 생성 장치는,
상기 분석대상 특허데이터의 발명자 명칭을 어절단위로 추출하고, 추출한 발명자 명칭의 어절단위 중 어느 하나 이상의 어절단위와 동일한 어절단위를 발명자 명칭으로 포함하고 있는 특허데이터를 후보 특허로 추출하는 후보 특허 추출부;
상기 후보 특허 추출부에 의해 추출된 후보 특허의 초록과 상기 분석대상 특허데이터의 초록 간 유사도를 계산하는 유사도 계산부; 및
상기 유사도 계산부에 의해 계산된 유사도를 기준으로 상기 후보 특허를 정렬한 추천 출원인 리스트를 상기 분석대상 특허데이터의 추천 출원인 필드에 생성하는 추천 출원인 리스트 생성부;
를 포함하는 것을 특징으로 하는 출원인 정보 채우기 시스템.
제1항에 있어서,
상기 후보 특허 추출부는,
(a) 상기 분석대상 특허데이터의 IPC와 일치하는 특허데이터인지 여부,
(b) 상기 분석대상 특허데이터의 출원일로부터 기설정된 기간 내에 출원된 특허데이터인지 여부, 및
(c) 상기 분석대상 특허데이터의 발명자 국적과 동일한 특허데이터인지 여부,
중 하나 이상을 더 고려하여, 상기 특허데이터를 상기 후보 특허로 추출하는 것을 특징으로 하는 출원인 정보 채우기 시스템.
제2항에 있어서,
상기 후보 특허 추출부는,
(a) 상기 특허데이터의 IPC가 상기 분석대상 특허데이터 IPC의 메인그룹(main group)까지 일치할 경우 상기 특허데이터를 상기 후보 특허로 추출하거나,
(b) 상기 특허데이터의 IPC가 상기 분석대상 특허데이터 IPC의 서브클래스(sub-class)까지 일치할 경우 상기 특허데이터를 상기 후보 특허로 추출하는 것을 특징으로 하는 출원인 정보 채우기 시스템.
제1항에 있어서,
상기 후보 특허 추출부는,
상기 특허데이터 중 출원국가 정보가 EP, WO 또는 US 인 특허데이터만을 후보 특허로 추출하는 것을 특징으로 하는 출원인 정보 채우기 시스템.
제1항에 있어서,
상기 유사도 계산부는 다음 수식을 이용한 코사인 유사도(Cosine Similarity) 함수를 이용하여 후보 특허의 초록과 분석대상 특허데이터의 초록간 유사도를 계산하는 것을 특징으로 하는 출원인 정보 채우기 시스템.
[수식]

{A : 후보 특허의 초록을 나타내는 제1 벡터,
B : 분석대상 특허데이터의 초록을 나타내는 제2 벡터,
Sim(A,B) : 제1 벡터 A와 제2 벡터 B의 유사도를 계산한 값}
제1항에 있어서,
상기 유사도 계산부는,
(a) 초록의 불용어(stopwords)를 제거하지 않고 상기 후보 특허의 초록과 상기 분석대상 특허데이터의 초록 간 유사도를 계산할 수 있고,
(b) 초록의 불용어(stopwords)를 제거하고 상기 후보 특허의 초록과 상기 분석대상 특허데이터의 초록 간 유사도를 계산할 수 있는 것을 특징으로 하는 출원인 정보 채우기 시스템.
제6항에 있어서,
상기 유사도 계산부는,
상기 후보 특허 및 분석대상 특허데이터의 초록의 불용어(stopwords)를 제거하지 않고 계산한 제1 유사도와, 상기 후보 특허 및 분석대상 특허데이터의 초록의 불용어(stopwords)를 제거하고 계산한 제2 유사도를 종합하여 유사도를 계산하는 것을 특징으로 하는 출원인 정보 채우기 시스템.
제1항에 있어서,
상기 추천 출원인 리스트 생성장치는,
상기 추천 출원인 리스트 생성부에 의해 생성된 추천 출원인 리스트 중 사용자가 선택한 후보 특허에 관한 추천 출원인 선택 이력을 기록하고, 상기 추천 출원인 선택 이력을 주기적으로 수집하여 추천 출원인 리스트 중 사용자가 선택하는 후보 특허에 대한 학습을 실행하는 딥러닝부;를 더 포함하는 것을 특징으로 하는 출원인 정보 채우기 시스템.
제1항에 있어서,
분석대상 특허데이터의 패밀리특허의 출원인 정보를 분석대상 특허데이터의 출원인 정보로 채우는 출원인 자동 채움 장치;를 더 포함하는 것을 특징으로 하는 출원인 정보 채우기 시스템.
데이터베이스에 저장된 특허데이터 중 출원인 정보가 누락된 특허데이터인 분석대상 특허데이터의 발명자 명칭을 어절단위로 추출하고, 추출한 발명자 명칭의 어절단위 중 하나 이상의 어절단위와 동일한 어절단위를 발명자 명칭으로 포함하고 있는 특허데이터를 후보 특허로 추출하는 단계;
상기 후보 특허의 초록과 상기 분석대상 특허데이터의 초록간 유사도를 계산하는 단계;
상기 계산된 유사도를 기준으로 상기 후보 특허를 정렬한 추천 출원인 리스트를 상기 분석대상 특허데이터의 추천 출원인 필드에 저장하는 단계;
를 포함하는 출원인 정보 채우기 방법.
제10항에 있어서,
상기 후보 특허를 추출하는 단계는,
(a) 상기 분석대상 특허데이터의 IPC와 일치하는 특허데이터인지 여부,
(b) 상기 분석대상 특허데이터의 출원일로부터 기설정된 기간 내에 출원된 특허데이터인지 여부, 및
(c) 상기 분석대상 특허데이터의 발명자 국적과 동일한 특허데이터인지 여부,
중 하나 이상을 더 고려하여 상기 후보 특허를 추출하는 것을 특징으로 하는 출원인 정보 채우기 방법.
제11항에 있어서,
상기 후보 특허를 추출하는 단계는,
(a) 상기 특허데이터의 IPC가 상기 분석대상 특허데이터 IPC의 메인그룹(main group)까지 일치할 경우 상기 후보 특허로 추출하거나,
(b) 상기 특허데이터의 IPC가 상기 분석대상 특허데이터 IPC의 서브클래스(sub-class)까지 일치할 경우 상기 특허데이터를 후보 특허로 추출하는 것을 특징으로 하는 출원인 정보 채우기 방법.
제10항에 있어서,
상기 후보 특허를 추출하는 단계는,
상기 특허데이터 중 출원국가 정보가 EP, WO 또는 US 인 특허데이터만을 후보 특허로 추출하는 것을 특징으로 하는 출원인 정보 채우기 방법.
제10항에 있어서,
상기 유사도를 계산하는 단계는,
다음 수식을 이용한 코사인 유사도 함수를 이용하여 후보 특허의 초록과 분석대상 특허데이터의 초록간 유사도를 계산하는 것을 특징으로 하는 출원인 정보 채우기 방법.
[수식]

{A : 후보 특허의 초록을 나타내는 제1 벡터,
B : 분석대상 특허데이터의 초록을 나타내는 제2 벡터,
Sim(A,B) : 제1 벡터 A와 제2 벡터 B의 유사도를 계산한 값}
제10항에 있어서,
상기 유사도를 계산하는 단계는,
(a) 초록의 불용어(stopwords)를 제거하고 후보 특허의 초록과 분석대상 특허데이터의 초록 간 유사도를 계산할 수 있고,
(b) 초록의 불용어(stopwords)를 제거하지 않고 후보 특허의 초록과 분석대상 특허데이터의 초록 간 유사도를 계산할 수 있는 것을 특징으로 하는 출원인 정보 채우기 방법.
제15항에 있어서,
상기 유사도를 계산하는 단계는,
후보 특허 및 분석대상 특허데이터의 초록의 불용어(stopwords)를 제거하고 계산한 제1 유사도와, 후보 특허 및 분석대상 특허데이터의 초록의 불용어(stopwords)를 제거하지 않고 계산한 제2 유사도를 종합하여 유사도를 계산하는 것을 특징으로 하는 출원인 정보 채우기 방법.