KR20230141147A

KR20230141147A - 특허의 기술분야별 분류 방법 및 비일시성의 컴퓨터 판독 가능 기록 매체

Info

Publication number: KR20230141147A
Application number: KR1020220040313A
Authority: KR
Inventors: 이석희; 김민아; 황준석
Original assignee: 서울대학교산학협력단
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2023-10-10

Abstract

본 발명은, 분류 대상 특허를 입력 받아 특허 문서에 기재된 텍스트와 이미지를 인식하는 단계와; 상기 이미지에 대한 분석을 통해 순서도 여부를 식별하는 단계와; 상기 특허 문서 내 텍스트 중 핵심 키워드를 기반으로 한 제1 유사도와, 순서도가 아닌 비순서도 이미지를 기반으로 한 제2 유사도와, 순서도에 사용된 텍스트 중 핵심 키워드를 기반으로 한 제3 유사도를 각각 산출하는 단계; 및 제1 내지 제3 유사도에 대하여 가중치를 부여하여 산출된 최종 유사도를 근거로 분류 대상 특허를 특정 기술 분류 그룹으로 배정하는 단계;를 포함하는, 특허의 기술분야별 분류 방법 및 이를 실행하기 위한 프로그램 코드가 기록된 비일시성의 컴퓨터 판독 가능 기록 매체에 관한 것이다.

Description

특허의 기술분야별 분류 방법 및 비일시성의 컴퓨터 판독 가능 기록 매체 {Method and non-transitory computer-readable recording medium for classifying patent by technical field}

본 발명은 특허 문헌간 유사도 산출을 기반으로 하여 특허를 기술분야별로 자동 분류하는 방법 및 이를 실행하기 위한 프로그램 코드가 기록된 비일시성의 컴퓨터 판독 가능 기록 매체에 관한 것이다.

지식재산권의 확보는 기업의 기술 경쟁력 확보를 위해 점점 더 중요해지고 있으며, 특히 지식재산권 중 특허는 기업의 핵심 기술 및 요소 기술을 포함하고 있기 때문에 특허 분석을 통한 기업 가치 측정 및 경쟁 기술 분야 분석 등의 연구가 활발히 진행되고 있다.

이를 위해서는 수많은 특허 문헌들 중 유사한 기술 분야별로 분류하는 작업이 필요한데, 현재 이와 같은 기술 분류는 IPC(국제특허분류, International Patent Classification), CPC(협력적 특허분류, Cooperative Patent Classification) 등의 분류 코드에 의존하고 있는 실정이다.

그러나 이와 같은 분류 코드를 통한 방법은 대략적인 기술 분야로만 분류할 수 있어 보다 세분화된 기술분야별로 분류하는 것이 불가능한 문제가 있다.

공개특허공보 제10-2012-0021789호 (2012.03.09)

본 발명은 상기와 같은 문제를 해결하기 위한 것으로서, 분류 대상 특허 대하여 보다 세분화된 기술분야별로 자동 분류할 수 있고, 높은 정확도의 분류 성능을 갖는 특허의 기술분야별 분류 방법을 제공하는 것을 기술적 과제로 한다.

본 발명이 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 발명의 일 실시예에 따르면, 분류 대상 특허를 입력 받아 특허 문서에 기재된 텍스트와 이미지를 인식하는 단계와; 상기 이미지에 대한 분석을 통해 순서도 여부를 식별하는 단계와; 상기 특허 문서 내 텍스트 중 핵심 키워드를 기반으로 한 제1 유사도와, 순서도가 아닌 비순서도 이미지를 기반으로 한 제2 유사도와, 순서도에 사용된 텍스트 중 핵심 키워드를 기반으로 한 제3 유사도를 각각 산출하는 단계; 및 제1 내지 제3 유사도에 대하여 가중치를 부여하여 산출된 최종 유사도를 근거로 분류 대상 특허를 특정 기술 분류 그룹으로 배정하는 단계;를 포함하는, 특허의 기술분야별 분류 방법이 개시된다.

또한, 상기 제1 유사도는 상기 특허 문서의 발명의 명칭, 요약 및 청구항 항목의 텍스트를 추출하여 산출될 수 있다.

또한, 상기 제2 및 제3 유사도는 상기 특허 문서의 도면 중 대표 도면의 이미지를 이용하여 산출될 수 있다.

또한, 상기 순서도에 사용된 텍스트는 광학 문자 인식(OCR, Optical Character Recognition) 기술을 통해 인식 및 추출될 수 있다.

또한, 상기 핵심 키워드는 CRA(Centering Resonance Analysis)를 통해 추출된 키워드 사이의 네트워크 분석을 통해 산출될 수 있다.

또한, 상기 최종 유사도의 산출시 사용되는 가중치는 분류 데이터를 이용한 머신 러닝을 통해 업데이트될 수 있다.

또한, 상기 제1 내지 제3 유사도의 산출시, 상기 분류 대상 특허의 특허 분류 코드를 기반으로 한 제4 유사도가 함께 산출되며, 상기 최종 유사도의 산출시 상기 제4 유사도에 대한 계산이 추가로 적용될 수 있다.

이 외에도, 본 발명의 방법을 실행하기 위한 프로그램 코드가 기록된 비일시성의 컴퓨터 판독 가능 기록 매체가 더 제공된다.

본 발명의 실시예에 따르면, 특허 문서 내 텍스트와 이미지를 인식하고, 이미지를 순서도 이미지와 비순서도 이미지로 구분하여, 문서 내 텍스트를 기반으로 한 제1 유사도, 비순서도 이미지를 기반으로 한 제2 유사도, 순서도 내 기호에 사용된 텍스트를 기반으로 한 제3 유사도를 산출하여 이를 종합하여 유사도를 산출함으로써, 분류 대상 특허에 대하여 분류 대상 특허 대하여 보다 세분화된 기술분야별로 자동 분류할 수 있고 분류 정확도 또한 향상시킬 수 있는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 특허의 기술분야별 자동 분류 시스템을 나타낸 블록 다이어그램.
도 2는 본 발명의 일 실시예에 따른 특허의 기술분야별 분류 방법을 나타낸 순서도.
도 3은 분류 대상 특허의 특허 문헌의 일 예를 예시한 도면.
도 4는 분류 대상 특허의 순서도 이미지를 예시한 도면.

본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함한다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

이하, 본 발명에 의한 특허의 기술분야별 분류 방법의 실시예를 첨부도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성 요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.

도 1은 본 발명의 일 실시예에 따른 특허의 기술분야별 자동 분류 시스템을 나타낸 블록 다이어그램이다.

도 1과 같이, 본 실시예에 따른 특허의 기술분야별 자동 분류 시스템은, 입력 수단(10), 처리 수단(20), 데이터베이스(30)를 포함한다.

입력 수단(10)은 사용자로부터 분류 대상 특허를 입력 받을 수 있도록 구성되며, 사용자로부터 텍스트 형태로 입력 받거나 특허 문서(예를 들어, 공개공보, 등록공보 등)의 파일 형태로 입력 받을 수 있도록 구성 가능하다. 또한, 입력 수단(10)은, 사용자가 특허 문서에 대한 문헌 번호(예를 들어, 공개번호, 등록번호)를 입력받는 경우 특허 문서을 제공하는 웹사이트로부터 해당 특허 문서를 다운로드 받거나 특허 문헌의 텍스트 및 도면 이미지를 받아올 수 있도록 구성되는 것도 가능하다.

처리 수단(20)은 특허 문서의 텍스트 및 이미지를 인식하여 이를 근거로 데이터 베이스(30)의 기 분류 데이터와의 유사도 분석을 수행하여 유사도를 산출하고, 이를 근거로 하여 분류 대상 특허를 기술 분야별로 자동 분류한다.

처리 수단(20)은 입력된 특허 문서로부터 텍스트를 인식하고 분석하는 텍스트 인식 및 분석 모듈(21)과, 입력된 특허 문서로부터 이미지를 인식하고 분석하는 이미지 인식 및 분석 모듈(22)과, 텍스트 및 이미지 분석 결과로부터 기 분류 데이터의 특허들과의 유사도를 산출하는 유사도 산출 모듈(23)과, 유사도 산출 결과를 근거로 분류 대상 특허에 대한 기술 분류를 수행하는 기술 분류 모듈(24)을 포함한다.

데이터베이스(30)는 기수행한 기술 분류 결과에 대한 데이터, 예를 들어 기술 분야별 특허 리스트, 각 특허의 텍스트 및 이미지 분석 결과, 유사도 산출 결과 등이 저장되며, 분류 대상 특허의 유사도 판단의 기준이 되는 데이터들을 제공한다.

도 2는 본 발명의 일 실시예에 따른 특허의 기술분야별 분류 방법을 나타낸 순서도이다.

도 2를 참조하여 본 실시예에 따른 특허의 기술분야별 분류 방법을 설명하면, 먼저 입력 수단(10)을 통해 분류 대상 특허를 입력 받고, 텍스트 인식 및 분석 모듈(21)과 이미지 인식 및 분석 모듈(22)을 통해 분류 대상 특허의 특허 문서에 기재된 텍스트와 이미지를 인식한다(S10). 텍스트 및 이미지 인식은 공지의 텍스트 마이닝이나 딥 러닝 등의 인공 지능을 이용한 인식 기술을 사용할 수 있다.

도 3은 분류 대상 특허의 특허 문헌의 일 예를 예시한 도면으로서, 특정 특허에 대한 등록특허공보를 예시하고 있다.

특허 문서의 인식 대상 텍스트와 이미지는 특허 문서 전체를 대상으로 수행하도록 수행하는 것도 가능하나, 처리 효율성의 향상을 위하여 특허 문서의 설정된 항목의 텍스트나 이미지에 대해서만 수행 가능하다.

예를 들어, 인식 대상 텍스트로서 발명의 명칭(41), 요약(42), 청구범위 등에 기재된 텍스트만을 인식하도록 설정할 수 있고, 인식 대상 이미지로서 대표도면(43)의 이미지만을 인식하도록 설정 가능하다.

다음으로, 이미지 인식 및 분석 모듈(22)을 통해 인식된 이미지를 분석하여 해당 이미지가 순서도인지 여부를 식별한다(S11). 순서도에 대한 인식을 위하여 규칙 기반 이미지 분류 기술을 적용할 수 있다. 순서도는 일정한 종류(입력/출력, 터미널, 처리, 흐름선 등)의 기호들로 구성되어 매우 규칙적인 형태를 가지기 때문에, 규칙 기반 이미지 분류 기술을 통해 높은 정확도로 순서도에 대한 식별이 가능하다. 도 4는 분류 대상 특허의 순서도 이미지를 예시한 도면으로서, 규칙 기반 이미지 분류 기술을 이용하여 순서도 이미지를 식별하는 것을 보이고 있다.

다음으로, 유사도 산출 모듈(23)을 통해, 특허 문서 내 텍스트 중 핵심 키워드를 기반으로 한 제1 유사도와, 순서도가 아닌 비순서도 이미지를 기반으로 한 제2 유사도와, 순서도에 사용된 텍스트 중 핵심 키워드를 기반으로 한 제3 유사도를 각각 산출한다(S12).

특허 문서 내 텍스트 중 핵심 키워드, 즉, 핵심이 되는 명사(주어 및 목적어)를 추출하기 위하여 CRA(Centering Resonance Analysis)를 적용할 수 있다. CRA(Centering Resonance Analysis) 과정에서 추출된 키워드 사이의 네트워크 분석을 통해 핵심이 되는 키워드를 추출할 수 있다.

특허 문서의 텍스트 중 핵심 키워드를 산출하고, 이를 기 분류 데이터들의 핵심 키워드들 사이의 유사성, 사용 빈도 등을 분석하여 제1 유사도를 산출한다. 유사도 분석의 대상을 앞서 설명한 바와 같이, 발명의 명칭(41), 요약(42) 및 청구항 항목으로 한정되게 설정하는 것도 가능하다.

그리고, 순서도가 아닌 비순서도 이미지를 기 분류 데이터들의 비순서도 이미지와 비교 분석하여 제2 유사도를 산출한다. 제2 유사도 산출을 위한 비순서도 이미지의 경우에도 대표 도면(43)의 이미지로 한정되게 설정하는 것이 가능하다.

또한, 순서도에 사용된 텍스트를 인식하여 추출하고, 추출된 텍스트 중 핵심 키워드를 산출한 후, 이를 기 분류 데이터들의 순서도에 사용된 텍스트의 핵심 키워드와 비교 분석하여 제3 유사도를 산출한다. 순서도에 사용된 텍스트는 광학 문자 인식(OCR, Optical Character Recognition) 기술을 통해 인식 및 추출될 수 있고, 핵심 키워드는 앞선 설명과 같이 CRA(Centering Resonance Analysis)를 적용하여 추출 가능하다.

한편, 제1 내지 제3 유사도의 산출시, 분류 대상 특허의 특허 분류 코드, 예를 들어, 국제특허분류(44), CPC 특허 분류(45)를 기반으로 한 제4 유사도를 함께 산출하는 것도 가능하다.

다음으로, 이상에서 산출된 제1 내지 제3 유사도(혹은 제4 유사도)에 대하여 가중치를 부여하여 최종 유사도를 산출한다(S13). 가중치는 유사도의 정확성에 영향을 많이 주는 순으로 설정 가능하며, 이와 같은 가중치 또한 데이터베이스(30)의 기 분류 데이터를 이용한 머신 러닝을 통해 업데이트될 수 있으며, 이와 같은 학습 과정을 통해 분류 정확도를 갈수록 향상시킬 수 있다.

최종 유사도는 제1 내지 제3 유사도만을 사용하여 산출할 수 있고, 특허분류코드를 기반으로 한 제4 유사도까지 함께 계산하여 산출할 수도 있다.

마지막으로, 이상에서 산출된 최종 유사도를 근거로 하여 분류 대상 특허를 특정 기술 분류 그룹으로 배정한다(S14). 최종 유사도값을 기분류 데이터의 기술 분류 그룹들의 특허들과의 유사도값과 비교 분석하여, 가장 유사도값이 높은 기술 분류에 해당하는 기술 분류를 분류 대상 특허의 기술 분류로 특정한다.

이와 같이 분류 대상 특허에 대한 기술 분류 및 유사도는 다양하게 활용 가능한데, 예를 들어, 기존 특허의 기술가치평가 데이터 및 해당 특허와의 유사도를 이용하여 기술가치평가 액수를 결정하는 근거 자료로 활용 가능하다.

이상 설명된 본 발명에 따른 실시예는 다양한 컴퓨터 구성요소를 통하여 실행될 수 있는 프로그램 코드의 형태로 구현되어 비일시성의 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 코드, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 코드는 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 코드를 저장하고 실행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 코드의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위하여 적어도 하나의 소프트웨어 모듈로 변경될 수 있으며, 그 역도 마찬가지이다.

상기에서는 본 발명의 특정의 실시예를 참조하여 설명하였지만, 해당 기술 분야에서 통상의 지식을 가진 자라면 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

10: 입력 수단 20: 처리 수단
21: 텍스트 인식 및 분석 모듈 22: 이미지 인식 및 분석 모듈
23: 유사도 산출 모듈 24: 기술 분류 모듈
30: 데이터베이스 41: 발명의 명칭
42: 요약 43: 대표도
44: 국제특허분류 45: CPC특허분류

Claims

분류 대상 특허를 입력 받아 특허 문서에 기재된 텍스트와 이미지를 인식하는 단계;
상기 이미지에 대한 분석을 통해 순서도 여부를 식별하는 단계;
상기 특허 문서 내 텍스트 중 핵심 키워드를 기반으로 한 제1 유사도와, 순서도가 아닌 비순서도 이미지를 기반으로 한 제2 유사도와, 순서도에 사용된 텍스트 중 핵심 키워드를 기반으로 한 제3 유사도를 각각 산출하는 단계; 및
제1 내지 제3 유사도에 대하여 가중치를 부여하여 산출된 최종 유사도를 근거로 분류 대상 특허를 특정 기술 분류 그룹으로 배정하는 단계;를 포함하는, 특허의 기술분야별 분류 방법.
제1항에 있어서,
상기 제1 유사도는 상기 특허 문서의 발명의 명칭, 요약 및 청구항 항목의 텍스트를 추출하여 산출되는 것을 특징으로 하는, 특허의 기술분야별 분류 방법.
제1항에 있어서,
상기 제2 및 제3 유사도는 상기 특허 문서의 도면 중 대표 도면의 이미지를 이용하여 산출되는 것을 특징으로 하는, 특허의 기술분야별 분류 방법.
제1항에 있어서,
상기 순서도에 사용된 텍스트는 광학 문자 인식(OCR, Optical Character Recognition) 기술을 통해 인식 및 추출되는 것을 특징으로 하는, 특허의 기술분야별 분류 방법.
제1항에 있어서,
상기 핵심 키워드는 CRA(Centering Resonance Analysis)를 통해 추출된 키워드 사이의 네트워크 분석을 통해 산출되는 것을 특징으로 하는, 특허의 기술분야별 분류 방법.
제1항에 있어서,
상기 최종 유사도의 산출시 사용되는 가중치는 분류 데이터를 이용한 머신 러닝을 통해 업데이트되는 것을 특징으로 하는, 특허의 기술분야별 분류 방법.
제1항에 있어서,
상기 제1 내지 제3 유사도의 산출시, 상기 분류 대상 특허의 특허 분류 코드를 기반으로 한 제4 유사도가 함께 산출되며,
상기 최종 유사도의 산출시 상기 제4 유사도에 대한 계산이 추가로 적용되는 것을 특징으로 하는, 특허의 기술분야별 분류 방법.
제1항 내지 제7항 중 어느 한 항에 따른 방법을 실행하기 위한 프로그램 코드가 기록된 비일시성의 컴퓨터 판독 가능 기록 매체.