WO2016099019A1

WO2016099019A1 - 특허문서 분류 시스템 및 방법

Info

Publication number: WO2016099019A1
Application number: PCT/KR2015/010661
Authority: WO
Inventors: 송인석; 고병열; 윤혜성
Original assignee: 한국과학기술정보연구원
Priority date: 2014-12-15
Filing date: 2015-10-08
Publication date: 2016-06-23
Also published as: KR101521862B1

Abstract

본 발명은 특허문서 분류 시스템 및 방법에 관한 것으로, 각 특허문서를 분석하여 개념요소들을 추출하고, 각 개념요소에 기능속성을 부여하는 개념요소 추출부, 각 특허문서의 개념요소들을 기능속성별로 군집화하여 개념요소 유사도 값을 산출하고, 상기 산출된 개념요소 유사도 값을 포함하는 개념구조를 특허문서별로 생성하는 개념구조 생성부, 특허문서간 개념구조 유사도 값을 구하고, 상기 구해진 개념구조 유사도 값을 근거로 특허문서를 분류하는 분류부를 포함한다.

Description

특허문서 분류 시스템 및 방법

본 발명은 특허문서 분류 시스템 및 방법에 관한 것으로, 보다 상세하게는 특허문서를 분석하여 개념구조를 추출하고, 기능속성 분석 및 유사도 측정을 통해 파악되는 특허문서간의 상호 의미적 관계에 따라 특허문서를 분류하는 특허문서 분류 시스템 및 방법에 관한 것이다.

한미 FTA(Free Trade Agreement) 체결로 특허, 상표, 저작권 등으로 구성되는 지적재산권에 대한 권리의 기한연장에 따라 특허 보호가 강화됨으로써 국가산업 경쟁력과 직결되는 특허정보에 대한 관심이 어느 때보다 요구되고 있다.

특허정보란 산업재산권과 관련된 정보로서 특허 출원된 기술 내용 및 권리로 주장된 사항, 출원인 및 발명자 등의 인적사항, 기타 서지사항 등에 대한 정보를 의미한다. 산업이 고도화, 복잡화, 다양화됨에 따라 엄청난 특허기술 정보량이 쏟아지고 있는데 기업이 변화하고 있는 산업 사회에서 생존하기 위해서 이러한 정보를 적절하게 기업경영전략에 반영하지 않으면 안 된다.

오늘날 특허문서는 발명자의 지적 재산권을 공식적으로 부여할 뿐만 아니라, 글로벌 무한 기술경쟁 환경에서 특허DB는 기업의 연구개발 기획과 국가의 과학기술 정책수립을 뒷받침하는, 즉 의사결정 지원을 위한 조사와 분석의 필수 정보자원 중 하나로서 매우 중요한 위치를 차지하고 있다. 아울러 다른 분야와 마찬가지로 특허문서도 중국 등 신흥국가를 포함 등 전 세계적으로 그 규모가 지속적으로 증가하고 있고, 새롭게 부각되고 있는 빅 데이터 분석을 통해 얻고자 하는 정보수준에 대한 요구도 높아지고 있다. 따라서 신속하고 정확한 수요 정보의 접근과 보다 심층적인 분석환경의 확보는 특히 중요한 과제라 할 수 있다.

일반적으로 특허DB의 조사와 분석은 주제어 선정, 검색식 구성, 분류코드 활용을 통해 문서를 조회 한 후, 초록, 도면, 청구항 등 세부 내용을 검토하여 분석 대상을 선정하여 이루어진다. 해당 단계에 경험이 축적되고 숙달되면 노하우를 기반으로 일정 수준의 품질을 확보할 수 있으나 개별 특정 주제에 대한 조사 분석일 때 주로 실효성이 있고, 각 단계에서 다음 단계로 넘어가는 과정에서 불가피하게 발생하는 부적합한 결과, 즉 노이즈 제거 작업에는 여전히 상당 부분의 전문가의 지적 노력과 시간 비용이 소요되고 있어, 기술적으로 보완과 개선이 필요하다.

또한, 분류 건수가 상당하고, 정확한 분류를 위해서는 청구항을 비롯한 전체적인 상세설명에 대한 이해가 필요하기 때문에 분류자에게도 적지않은 스트레스를 주고 있다.

이에 따라, 특허 문서를 자동으로 정확히 분류할 수 있는 방법이 요구되고 있는 실정이다.

본 발명의 목적은 특허문서를 분석하여 개념구조를 추출하고, 기능속성 분석 및 유사도 측정을 통해 파악되는 특허문서간의 상호 의미적 관계에 따라 특허문서를 분류하는 특허문서 분류 시스템 및 방법을 제공함에 있다.

상기 목적들을 달성하기 위하여 본 발명의 일 측면에 따르면, 각 특허문서를 분석하여 개념요소들을 추출하고, 각 개념요소에 기능속성을 부여하는 개념요소 추출부, 각 특허문서의 개념요소들을 기능속성별로 군집화하여 개념요소 유사도 값을 산출하고, 상기 산출된 개념요소 유사도 값을 포함하는 개념구조를 특허문서별로 생성하는 개념구조 생성부, 특허문서간 개념구조 유사도 값을 구하고, 상기 구해진 개념구조 유사도 값을 근거로 특허문서를 분류하는 분류부를 포함하는 특허문서 분류 시스템이 제공된다.

상기 특허문서 분류 시스템은 제품, 기술에 대한 개체명이 저장된 개체명 사전 데이터베이스, 개체들의 기능속성분류를 위한 규칙이 설정된 기능속성분류 데이터베이스를 더 포함할 수 있다.

상기 개념요소 추출부는, 개체명 사전 데이터베이스를 참조하여 특허문서의 기 정의된 영역에서 후보문장을 식별하는 후보문장 식별모듈, 상기 식별된 후보 문장에서 의존문법기반의 구문분석을 통해 개념요소를 나타내는 문자열을 추출하는 문자열 추출모듈, 기능분류 데이터베이스를 참조하여 상기 추출된 문자열에 기능속성을 부여하는 기능속성 부여모듈을 포함하되, 상기 추출된 문자열은 개념요소일 수 있다.

상기 개념구조 생성부는, 각 특허문서단위로 동일한 기능속성이 부여된 개념요소들을 군집하는 개념요소 군집모듈, 기 정의된 유사도 계산 분석 모델을 이용하여 각 기능속성별로 개념요소 개체들간의 유사도 값을 산출하는 유사도 산출모듈, 기능속성, 개념요소들, 개념요소들의 유사도 값을 포함하는 개념구조를 특허문서단위로 생성하는 개념구조 생성모듈을 포함할 수 있다.

상기 분류부는, 특허문서간 개념구조를 구성하는 개념요소들의 유사도 값을 구하는 개념요소 유사도 산출모듈, 특허문서간 기능속성 유사도 값을 구하는 기능속성 유사도 산출모듈, 상기 구해진 개념요소들의 유사도 값 또는 기능속성 유사도 값을 이용하여 특허문서간 개념구조 유사도 값을 구하는 개념구조 유사도 산출모듈, 상기 특허문서간 개념구조 유사도 값을 근거로 특허문서를 분류하는 분류모듈을 포함할 수 있다.

본 발명의 다른 측면에 따르면, (a) 각 특허문서를 분석하여 개념요소들을 추출하고, 각 개념요소에 기능속성을 부여하는 단계, (b) 각 특허문서의 개념요소들을 기능속성별로 군집화하여 개념요소 유사도 값을 산출하고, 상기 산출된 개념요소 유사도 값을 포함하는 개념구조를 특허문서별로 생성하는 단계, (c) 특허문서간 개념구조 유사도 값을 구하고, 상기 구해진 개념구조 유사도 값을 근거로 특허문서를 분류하는 단계를 포함하는 특허문서 분류 시스템의 특허문서 분류 방법이 제공된다.

상기 (a)단계는, 개체명 사전 데이터베이스를 참조하여 특허문서의 기 정의된 영역에서 후보문장을 식별하는 단계, 상기 식별된 후보 문장에서 의존문법기반의 구문분석을 통해 개념요소를 나타내는 문자열을 추출하는 단계, 기능분류 데이터베이스를 참조하여 상기 추출된 문자열에 기능속성을 부여하는 단계를 포함하되, 상기 추출된 문자열이 개념요소일 수 있다.

상기 (b)단계는, 각 특허문서단위로 동일한 기능속성이 부여된 개념요소들을 군집하는 단계, 기 정의된 유사도 계산 분석 모델을 이용하여 각 기능속성별로 개념요소 개체들간의 유사도 값을 산출하는 단계, 기능속성, 개념요소들, 개념요소들의 유사도 값을 포함하는 개념구조를 특허문서단위로 생성하는 단계를 포함할 수 있다.

상기 (c)단계는, 특허문서간 개념구조를 구성하는 개념요소들의 유사도 값을 구하는 단계, 특허문서간 기능속성 유사도 값을 구하는 단계, 상기 구해진 개념요소들의 유사도 값 또는 기능속성 유사도 값을 이용하여 특허문서간 개념구조 유사도 값을 구하는 단계, 상기 특허문서간 개념구조 유사도 값을 근거로 특허문서를 분류하는 단계를 포함할 수 있다.

본 발명의 또 다른 측면에 따르면, 특허문서 분류 시스템에 의해 실행될 때, (a) 각 특허문서를 분석하여 개념요소들을 추출하고, 각 개념요소에 기능속성을 부여하는 단계, (b) 각 특허문서의 개념요소들을 기능속성별로 군집화하여 개념요소 유사도 값을 산출하고, 상기 산출된 개념요소 유사도 값을 포함하는 개념구조를 특허문서별로 생성하는 단계, (c) 특허문서간 개념구조 유사도 값을 구하고, 상기 구해진 개념구조 유사도 값을 근거로 특허문서를 분류하는 단계를 포함하는 특허문서 분류 방법을 실행하기 위한 프로그램이 수록된 컴퓨터로 판독 가능한 기록 매체가 제공된다.

본 발명에 따르면, 특허문서에 대하여 자연언어처리 기반의 텍스트 마이닝을 통해 개념구조를 식별하고, 개념요소의 기능적 속성과 유사도 분석을 통해, 특허 개념구조 간의 연관관계를 분석하여 특허를 분류함으로써, 주제어(키워드) 중심의 1차원적인 접근에서 불가피하게 발생하는 노이즈를 최소화할 수 있고, 지적 노력 및 시간 비용을 절감하고 주제적 관점에서 심층적인 분석을 효율적으로 수행할 수 있다.

도 1은 본 발명의 실시예에 따른 특허문서 분류를 위한 시스템을 나타낸 도면.

도 2는 본 발명의 실시예에 따른 특허문서 분류 시스템의 구성을 개략적으로 나타낸 블럭도.

도 3은 도 2에 도시된 개념요소 추출부의 구성을 나타낸 도면.

도 4는 도 2에 도시된 개념구조 생성부의 구성을 나타낸 도면.

도 5는 도 2에 도시된 분류부의 구성을 나타낸 도면.

도 6은 본 발명의 실시예에 따른 특허문서 분류 방법을 나타낸 흐름도.

도 7은 본 발명의 실시예에 따른 특허문서로부터 개념요소 추출 및 기능속성을 부여하는 방법을 나타낸 흐름도.

도 8은 본 발명의 실시예에 따른 개념구조를 생성하는 방법을 나타낸 흐름도.

본 발명의 전술한 목적과 기술적 구성 및 그에 따른 작용 효과에 관한 자세한 사항은 본 발명의 명세서에 첨부된 도면에 의거한 이하 상세한 설명에 의해 보다 명확하게 이해될 것이다.

이하, 첨부된 도면들을 참조하여 본 발명에 따른 '특허문서 분류 시스템 및 방법'을 상세하게 설명한다. 설명하는 실시 예들은 본 발명의 기술 사상을 당업자가 용이하게 이해할 수 있도록 제공되는 것으로 이에 의해 본 발명이 한정되지 않는다. 또한, 첨부된 도면에 표현된 사항들은 본 발명의 실시 예들을 쉽게 설명하기 위해 도식화된 도면으로 실제로 구현되는 형태와 상이할 수 있다.

한편, 이하에서 표현되는 각 구성부는 본 발명을 구현하기 위한 예일 뿐이다. 따라서, 본 발명의 다른 구현에서는 본 발명의 사상 및 범위를 벗어나지 않는 범위에서 다른 구성부가 사용될 수 있다. 또한, 각 구성부는 순전히 하드웨어 또는 소프트웨어의 구성만으로 구현될 수도 있지만, 동일 기능을 수행하는 다양한 하드웨어 및 소프트웨어 구성들의 조합으로 구현될 수도 있다. 또한, 하나의 하드웨어 또는 소프트웨어에 의해 둘 이상의 구성부들이 함께 구현될 수도 있다.

또한, 어떤 구성요소들을 '포함'한다는 표현은, '개방형'의 표현으로서 해당 구성요소들이 존재하는 것을 단순히 지칭할 뿐이며, 추가적인 구성요소들을 배제하는 것으로 이해되어서는 안 된다.

도 1은 본 발명의 실시예에 따른 특허문서 분류를 위한 시스템을 나타낸 도면이다.

도 1을 참조하면, 특허문서 분류를 위한 시스템은 특허 제공 서버(100)와 특허문서 분류 시스템(200)이 통신망을 통해 연결되어 있다.

특허 제공 서버(100)는 특허문서 등이 저장된 특허 데이터베이스를 포함하여, 특허문서를 특허문서 분류 시스템(200)에 제공한다.

특허문서 분류 시스템(200)은 특허 제공 서버(100)로부터 특허문서를 수집하고, 수집된 특허문서를 분석하여 특허문서를 분류한다.

즉, 특허문서 분류 시스템(200)은 특허 제공 서버(100)로부터 수집된 각 특허문서를 분석하여 개념요소들을 추출하고, 각 개념요소에 기능속성을 부여한 후, 각 특허문서의 기능속성별 개념요소 유사도 값을 산출하고, 산출된 개념요소 유사도 값을 포함하는 개념구조를 특허문서별로 생성한다. 그런 후, 특허문서 분류 시스템(200)은 특허문서간 개념구조 유사도 값을 구하고, 그 개념구조 유사도 값을 근거로 특허문서를 분류한다. 여기서, 개념구조는 특허문서로서 성립하기 위한 최소 개체의 집합으로서, 최소 개체는 해결하고자 하는 문제에 대한 발명자 고유의 해결방법, 즉 기술, 그 기술이 적용되는 대상 개체, 즉 제품을 포함한다. 기술 및 제품의 기능속성은 특허분석 방법론 중 하나인 TRIZ(a problem-solving, analysis and forecasting tool drived from patterns of invention in the global literatur) 방법론(Altshuler, 1946) 기반하고 있는 function-oriented search model(Litvin, 2004))에 기초하여 작용(action)과 대상(object)의 속성의 조합으로 정의한다.

이러한 특허문서 분류 시스템(200)은 다양한 통신 규격을 통해 다른 전자 장치들과 통신할 수 있고, 다양한 데이터 처리 연산을 수행할 수 있는 전자 장치를 통해 구현될 수 있다. 예를 들어, 특허문서 분류 시스템(200)은 서버(Server) 장치의 형태로 구현될 수 있으며, 이러한 서버 장치의 형태 이외에도 다양한 전자 장치의 형태로 구현될 수 있다. 또한, 특허문서 분류 시스템(200)은 단일의 전자 장치의 형태로 구현되거나, 둘 이상의 전자 장치가 결합 된 형태로 구현될 수 있다.

이러한 특허문서 분류 시스템(200)에 대한 상세한 설명은 도 2를 참조하기로 한다.

여기에서는 특허문서를 제공하는 특허 제공 서버(100)가 특허문서 분류 시스템(200) 외부에 존재하는 것으로 설명하였으나, 특허문서 분류 시스템(200)이 특허문서들이 저장된 데이터베이스를 내부에 구비할 수도 있다.

도 2는 본 발명의 실시예에 따른 특허문서 분류 시스템의 구성을 개략적으로 나타낸 블럭도, 도 3은 도 2에 도시된 개념요소 추출부의 구성을 나타낸 도면, 도 4는 도 2에 도시된 개념구조 생성부의 구성을 나타낸 도면, 도 5는 도 2에 도시된 분류부의 구성을 나타낸 도면이다.

도 2를 참조하면, 특허문서 분류 시스템(200)은 데이터베이스(210), 인터페이스부(220), 개념요소 추출부(230), 개념구조 생성부(240), 분류부(250), 제어부(260)를 포함한다.

데이터베이스(210)는 개체명 사전 데이터베이스(212), 기능속성분류 데이터베이스(214), 개념구조 데이터베이스(216)를 포함한다.

개체명 사전 데이터베이스(212)에는 제품, 기술에 대한 개체명이 저장되어 있다.

개체명 사전데이터베이스(212)는 상표 데이터베이스, wordnet과 같은 외부 공개 또는 상용 전문용어 데이터베이스로부터 식별 및 추출된 문자열 개체와 속성이 저장될 수 있다.

개체명 사전 데이터베이스(212)는 텍스트 마이닝 결과 및 개체명 식별 결과 값을 근거로 새로운 개체 문자열이 등록, 수정, 삭제될 수 있다.

기능속성분류 데이터베이스(214)에는 개체들의 기능속성분류를 위한 규칙이 저장되어 있다.

기능속성분류 데이터베이스(214)는 TRIZ기반의 작용(action)과 대상(object)의 개체(인스턴스)와 그 조합으로 구성된 기능 분류 매트릭스 및 해당 유형별로 수집 또는 식별하여 구축된 개체 데이터를 포함한다. 여기서, 작용은 이동(move), 제공(add), 제거(remove), 유지(hold), 운동(deflect), 변환(change), 구성(inclusion), 실행(operation) 등을 포함할 수 있고, 대상은 물질, 성질, 정보/개념, 제품 등을 포함할 수 있다.

기능속성분류 데이터베이스(214)는 표 1과 같은 기능분류 매트릭스를 포함한다.

	물질(substance)	성질(Field)	정보/개념(info)	제품(artifact)
이동(move)	m-s	m-f	m-i	m-a
제공(add)	a-s	a-f	a-i	a-a
제거(remove)	r-s	r-f	r-i	r-a
유지(hold)	h-s	f-f	h-i	h-a
운동(deflect)	d-s	d-f	d-i	d-a
변환(change)	c-s	c-f	c-i	c-a
구성(inclusion)	I-s	I-f	I-i	I-a
실행(operation)	o-s	o-f	o-i	o-p

action-object기반의 기능 분류 매트릭스는 TRIZ function oriented search를 토대로 구성되었으나, 분류 매트릭스와 같이 요구되는 분석 수준에 따라 세분화 또는 확장될 수 있다.

개념구조 데이터베이스(216)에는 개념구조 생성부(240)에서 생성된 개념구조에 대한 정보가 저장된다. 즉, 개념구조 분석데이터베이스(216)에는 개념요소(기술, 제품), 개념요소 유사도 값, 개념구조, 개념구조 유사도 행렬 등이 저장된다.

인터페이스부(220)는 통신망을 통해 특허제공서버로부터 특허문서를 수집한다.

인터페이스부(220)는 개체 유형, 기능속성 유형, 유사도 값 등을 입력받아 조건을 만족하는 특허문서를 검색할 수 있도록 한다.

개념요소 추출부(230)는 각 특허문서를 분석하여 개념요소들을 추출하고, 각 개념요소에 기능속성을 부여한다. 여기서, 개념요소는 제품, 기술을 포함하므로, 개념요소 추출부(230)는 특허문서로부터 개념요소 표현의 패턴 분석을 이용하여 제품과 기술에 대한 개체를 식별할 수 있다. 이때, 개념요소 추출부(230)는 자연어 처리방법, 기계적 알고리즘 처리방법 등을 이용하여 특허문서로부터 개념요소를 추출할 수 있다.

한편, 개념요소 추출부(230)는 인터페이스부(220)를 통해 개체명 수집실행 횟수, 처리문서단위 갯수, 처리문서단위 개수 당 식별률에 대한 임계치 값과 대상 문서영역(예컨대, 제목, 초록, 상세설명, 도면, 청구항) 등의 환경변수 설정정보를 입력받아 설정할 수 있다. 이 경우, 개념요소 추출부(230)는 환경변수 설정정보에 따라 지정된 문서개수만큼 임의의 문서세트 선정하고, 지정된 문서영역을 로딩한다. 이후, 개념요소 추출부(230)는 개체명 사전과 각 개체유형별로 정의된 패턴인식규칙을 로딩하여 지정된 문서영역으로부터 개체명을 식별하거나 인식하여 추출한다. 개념요소 추출부(230)는 개체명을 식별 또는 인식되지 않은 문서개수와 식별률 값을 참조하여 지정한 회수의 개체명 수집 프로세스를 실행하며, 최소 식별률을 만족시키지 못한 경우 중단한다. 관리자는 미식별문서를 조회하여 새로운 개체명 또는 인식 규칙을 등록하고, 최소 인식률을 충족하지 못한 문서세트에 재실행할 수 있다.

개념요소 추출부(230)에 대해 도 3을 참조하면, 개념요소 추출부(230)는 후보문장 식별모듈(232), 문자열 추출모듈(234), 기능속성 부여모듈(236)을 포함한다.

후보문장 식별모듈(232)은 개체명 사전 데이터베이스(212)를 참조하여 특허문서의 기 정의된 영역에서 후보문장을 식별한다.

후보문장 식별모듈(232)은 지정된 문서영역에 대하여 개체명 사전 데이터베이스(212)을 참조하여 후보문장을 식별한다. 예를 들면, 제목, 초록, 상세기술, 청구항 첫 문단 등의 영역을 분석하여 개체명 사전에 등록된 문자열을 포함하는 후보 문장을 식별한다. 이때, 후보문장 식별모듈(232)는 문서구조에 따라 전체 또는 임의의 범위를 지정하여 후보문장을 식별할 수도 있다.

후보문장 식별모듈(232)은 기 설정된 환경변수 설정정보를 근거로 특허제공서버로부터 순차적으로 특허문서를 로딩하여 후보문장을 식별할 수 있다. 이때 새로운 환경 변수값을 지정할 수 있다. 그런 후, 후보문장 식별모듈(232)은 환경변수 설정정보에 따라 지정된 문서영역에서 개체명이 식별되거나 인식된 문장을 후보문장으로 식별한다.

문자열 추출모듈(234)은 후보문장 식별모듈(232)에서 식별된 후보 문장에서 의존문법기반의 구문분석을 통해 개념요소를 나타내는 문자열을 추출한다. 이때 추출된 문자열이 개념요소일 수 있고, 문자열 추출모듈(234)은 텍스트 마이닝, 자연어 처리기법, 형태소 분석 등 다양한 방법을 이용하여 문자열을 추출할 수 있다. 즉, 문자열 추출모듈(234)은 개념요소(개체명) 식별 및 인식을 위해 개체명 사전 데이터베이스(212) 및 불용어 사전(미도시)을 참조하여 주 문장의 비 의존 명사구 표제어를 식별하고, 최장일치 분석을 통해 개체명을 식별하거나 인식한다. 이때, 구문구조 분석은 의존관계 분석을 지원하는 스탠포드 파서(Stanford Parser)와 같은 오픈소스를 활용할 수 있다.

즉, 문자열 추출모듈(234)은 후보문장의 의존문법기반의 구문구조를 분석하여 주문장의 명사구와 그 명사구의 표제어(head word)를 식별 또는 개체명 인식을 실행한다. 예를 들어 'anti-piracy system for protecting distributed software applications from unauthorized use'와 같은 서술형 명사구의 경우 아래와 같은 의존문법기반의 구문구조분석을 통해 'anti-piracy system'을 제품으로 식별할 수 있다.

(ROOT (NP (NP ( JJ anti-piracy) ( NN system) ) (PP (IN for) (S (VP (VBG protecting) (NP (VBN distributed) (NN software) (NNS applications)) (PP (IN from) (NP (JJ unauthorized) (NN use)))))) (. .)))

또 다른 예로서, 'solid polymer electrolyte membrane'와 같은 단순 명사의 경우, 구문구조 분석을 통해 '(ROOT (NP (NP ( JJ solid) ( NN polymer)) (NP ( NN electrolyte) ( NN membrane)) ))'를 개체로 식별할 수 있다.

기능속성 부여모듈(236)은 기능속성분류 데이터베이스(214)를 참조하여 문자열 추출모듈(234)에서 추출된 문자열에 기능속성을 부여한다.

기능속성 부여모듈(236)은 기능속성분류 데이터베이스(214)를 참조로, 구문구조를 분석하여 해당 개체의 기능속성을 식별한다.

예를 들어, 'a system for reporting(add) security information(information) relating to a mobile device'의 경우, 아래와 같은 의존문법기반의 구문구조 분석결과를 얻을 수 있다.

(ROOT (NP (NP (DT a) (NN system)) (PP (IN for) (S (VP ( VBG reporting) (NP (NP ( NN security) ( NN information)) (VP (VBG relating) (PP (TO to) (NP (DT a) (JJ mobile) (NN device)))))))) (. .)))

이 경우, 기능속성 부여모듈(236)은 기능속성 분류 매트릭스를 참조하여 'reporting'과 'security information'을 각각 제공(add) 유형과 정보(information) 유형으로 'reporting security information'를 전체 문자열의 기능속성으로 인식하여 제공-정보(a-i) 유형으로 기능속성을 부여할 수 있다.

기능속성 부여모듈(236)은 개체 문자열과 기능속성을 해당 특허문서 정보와 함께 개념구조 데이터베이스(216)에 저장한다.

개념구조 생성부(240)는 각 특허문서의 개념요소들을 기능속성별로 군집하여 개념요소 유사도 값을 산출하고, 산출된 개념요소 유사도 값을 포함하는 개념구조를 특허문서별로 생성한다. 즉, 개념구조 생성부(240)는 개념요소 추출부(230)에서 추출된 개체들 간의 의미적 유사도를 산출하고, 동일한 기능속성의 개체를 포함하고 있는 특허문서들에 대하여 개념구조 간의 유사도 행렬을 생성한다. 다시 말하면, 개념구조 생성부(240)는 제품유형 개체 또는 기술유형 개체들을 각각 유형별로 구분하고, action-object 분류 매트릭스 상 동일한 기능속성 유형별로 유사도를 측정한다.

개념구조 생성부(240)는 개체 유사도 측정을 위한 계산모델을 선택한다. 이 때, 유사도 임계치에 대한 환경변수를 지정 변경할 수 있다.

개념구조 생성부(240)는 개념구조 데이터베이스(216)에 저장된 개체 문자열에 대하여 유사도 값을 산출하여 저장한다. 그런 후, 개념구조 생성부(240)는 개념구조, 즉 문서단위의 개체집합 간의 유사도 행렬을 생성하여 개념구조 데이터베이스(216)에 저장한다.

개념구조 생성부(240)에 대해 도 4를 참조하면, 개념구조 생성부(240)는 개념요소 군집모듈(242), 유사도 산출모듈(244), 개념구조 생성모듈(246)을 포함한다.

개념요소 군집모듈(242)은 각 특허문서단위로 동일한 기능속성이 부여된 개념요소들을 군집한다.

유사도 산출모듈(244)은 기 정의된 유사도 계산 분석 모델을 이용하여 각 기능속성별로 개념요소 개체들간의 유사도 값을 산출한다. 개념요소는 속성값을 갖는 개체이며 두 개체간의 유사도 측정은 표제어(head word)와 수식부로 분리하는 의존구조(dependecy tree) 분석, 각 단어의 원형 식별(lemmatisation), 불용어 포함 여부, 문자열의 길이를 활용하여 계산될 수 있다. 두 개체 문자열 a와 b의 유사도는 각각 개체 유사도 및 기능속성 유사도 값을 구하고 그 합으로 정의된다. 각각의 유사도는 구문구조속성과 기능속성을 참조하여, 하기 수학식의 최소 편집거리 척도 중 대표적인 DamerauLevenshtein distance로 산출된다.

즉, 개체 유사도는 수학식 1 내지 수학식 4를 이용하여 구할 수 있다.

[수학식 1]

[수학식 2]

[수학식 3]

[수학식 4]

여기서, LD는 DamerauLevenshtein distance, 즉 두 문자열의 최소편집거리를 의미하여 문자열 a, b의 유사도를 두 문자열이 동일한 문자열이 되기 위해 필요한 삽입, 삭제, 교체의 편집 횟수를 계산하여 산출하는 것을 의미한다.

C(S) 는 문자열 S 의 개체 클래스, H(S) 는 문자열 S 의 표제어, E‘ 는 개체집합, F는 불용어 또는 단일어로는 개체를 표현함에 있어 의미 변별력이 없는 단어의 집합을 의미한다. 각각의 수식은 구문구조 분석에 따라 식별된 표제어가 F에 속하는 경우와 그렇지 않은 경우, 그리고 표제어의 동일하거나 다른 경우를 고려하고 있다.

편집 거리(d)는 수학식 5를 이용하여 구할 수 있다.

[수학식 5]

그러나, 같은 편집거리라도 문자열 길이에 따라 유사도가 다르므로, 문자열 길이를 고려하여 수학식 6과 같이 정규화한다

[수학식 6]

개념구조 생성모듈(246)은 기능속성, 개념요소들, 개념요소들의 유사도 값을 포함하는 개념구조를 특허문서단위로 생성한다.

분류부(250)는 특허문서간 개념구조 유사도 값을 구하고, 구해진 개념구조 유사도 값을 근거로 특허문서를 분류한다.

분류부(250)에 대해 도 5를 참조하면, 분류부(250)는 개념요소 유사도 산출모듈(252), 기능속성 유사도 산출모듈(254), 개념구조 유사도 산출모듈(256), 분류모듈(258)을 포함한다.

개념요소 유사도 산출모듈(252)은 특허문서간 개념구조를 구성하는 개념요소들의 유사도 값을 구한다. 개념요소 유사도 산출모듈(252)이 개념요소들의 유사도 값을 구하는 방법은 유사도 산출모듈이 개념요소 유사도 값을 산출하는 방법과 동일하므로 그 설명은 생략하기로 한다.

기능속성 유사도 산출모듈(254)은 특허문서간 기능속성 유사도 값을 구한다. 이때, 기능속성 유사도 산출모듈(254)은 동일한 작용(action) 속성을 갖는 대상개체의 유사도를 수학식 7 내지 10을 이용하여 산출한다.

[수학식 7]

[수학식 8]

[수학식 9]

[수학식 10]

여기서, C(S) 는 문자열 S 의 개체 클래스, H(S) 는 문자열 S 의 표제어, O는 기능 속성의 대상개체 집합, F는 불용어 또는 단일어로는 개체를 표현함에 있어 의미 변별력이 없는 단어의 집합을 의미한다. 각각의 수식은 구문구조 분석에 따라 식별된 표제어가 F에 속하는 경우와 그렇지 않은 경우, 그리고 표제어의 동일하거나 다른 경우를 고려하고 있다.

개념구조 유사도 산출모듈(256)은 개념요소 유사도 산출모듈(252)에서 구해진 개념요소들의 유사도 값 또는 기능속성 유사도 산출모듈(254)에서 구해진 기능속성 유사도 값을 이용하여 특허문서간 개념구조 유사도 값을 구한다. 이때, 개념구조 유사도 산출모듈(256)은 각각의 개체 및 기능속성을 기준으로 세분화하여 구하거나 또는 두 개념요소 유사도의 총 합으로 구할 수 있다.

개념구조 유사도 산출모듈(256)은 수학식 11을 이용하여 특허문서간 개념구조 유사도 값을 구한다.

[수학식 11]

여기서, N_E(P)는 특허 P에 포함된 개체 수이며, N_E(P_i,P_j)는 특허 P_i와 P_j에 포함된 제품 및 기술개체간의 유사도 값이 1인 개체 쌍의 개수이다. 마찬가지로 N_F(P)는 특허 P의 개체의 기능속성 수이며, N_F(P_i,P_j)는 특허 P_i와 P_j에 포함된 제품 및 기술개체의 기능속성 간 유사도 값이 1인 쌍의 개수이다. 두 유사도 값이 각각 1이면 두 특허의 개념구조는 동일하다고 할 수 있다.

분류모듈(258)은 특허문서간 개념구조 유사도 값을 근거로 특허문서를 분류한다. 즉, 분류모듈(258)은 유사도 값이 기 설정된 일정 값 이상인 특허문서들을 동일 또는 유사한 개념구조를 가진 문서로 분류할 수 있다.

한편, 개념요소 추출부(230), 개념구조 생성부(240), 분류부(250) 각각은 컴퓨팅 장치상에서 프로그램을 실행하기 위해 필요한 프로세서 등에 의해 각각 구현될 수 있다. 이처럼 개념요소 추출부(230), 개념구조 생성부(240), 분류부(250)는 물리적으로 독립된 각각의 구성에 의해 구현될 수도 있고, 하나의 프로세서 내에서 기능적으로 구분되는 형태로 구현될 수도 있다.

제어부(260)는 데이터베이스(210), 인터페이스부(220), 개념요소 추출부(230), 개념구조 생성부(240), 분류부(250)의 다양한 구성부들의 동작을 제어하는 구성이다.

이러한 제어부(260)는 적어도 하나의 연산 장치를 포함할 수 있는데, 여기서 상기 연산 장치는 범용적인 중앙연산장치(CPU), 특정 목적에 적합하게 구현된 프로그래머블 디바이스 소자(CPLD, FPGA), 주문형 반도체 연산장치(ASIC) 또는 마이크로 컨트롤러 칩일 수 있다.

특허문서 분류 시스템(200)이 포함할 수 있는 이러한 구성부들은 하드웨어, 소프트웨어 또는 이들의 결합으로 구현될 수 있으며, 하나의 하드웨어 또는 소프트웨어에 의해 둘 이상의 구성부들이 동시에 구현될 수도 있다.

도 6은 본 발명의 실시예에 따른 특허문서 분류 방법을 나타낸 흐름도이다.

도 6을 참조하면, 특허문서 분류 시스템은 각 특허문서를 분석하여 개념요소들을 추출하고, 각 개념요소에 기능속성을 부여한다(S602). S602 단계에 대한 상세한 설명은 도 7을 참조하기로 한다.

특허문서 분류 시스템은 각 특허문서의 개념요소 유사도 값을 산출하여 특허문서별로 개념구조를 생성한다(S604). S604 단계에 대한 상세한 설명은 도 8을 참조하기로 한다.

그런 후, 특허문서 분류 시스템은 특허문서간 개념구조 유사도 값을 구하고, 구해진 개념구조 유사도 값을 근거로 특허문서를 분류한다(S606). 즉, 특허문서 분류 시스템은 특허문서간 개념구조를 구성하는 개념요소들의 유사도 값과 특허문서간 기능속성 유사도 값을 구한다. 그런 후, 특허문서 분류 시스템은 구해진 개념요소들의 유사도 값 또는 기능속성 유사도 값을 이용하여 특허문서간 개념구조 유사도 값을 구하고, 구해진 특허문서간 개념구조 유사도 값을 근거로 특허문서를 분류한다.

도 7은 본 발명의 실시예에 따른 특허문서로부터 개념요소 추출 및 기능속성을 부여하는 방법을 나타낸 흐름도이다.

도 7을 참조하면, 특허문서 분류 시스템은 개체명 사전 데이터베이스를 참조하여 특허문서의 기 정의된 영역에서 후보문장을 식별한다(S702).

그런 후, 특허문서 분류 시스템은 식별된 후보 문장에서 의존문법기반의 구문분석을 통해 개념요소를 나타내는 문자열을 추출한다(S704).

특허문서 분류 시스템은 기능분류 데이터베이스를 참조하여 상기 추출된 문자열에 기능속성을 부여한다(S706). 이후, 특허문서 분류 시스템은 특허문서 단위로 개념요소, 기능속성 등을 저장한다.

도 8은 본 발명의 실시예에 따른 개념구조를 생성하는 방법을 나타낸 흐름도이다.

도 8을 참조하면, 특허문서 분류 시스템은 각 특허문서단위로 동일한 기능속성이 부여된 개념요소들을 군집한다(S802).

그런 후, 특허문서 분류 시스템은 기 정의된 유사도 계산 분석 모델을 이용하여 각 기능속성별로 개념요소 개체들간의 유사도 값을 산출하고(S804), 기능속성, 개념요소들, 개념요소들의 유사도 값을 포함하는 개념구조를 특허문서단위로 생성한다(S804).

이러한 특허문서 분류 방법은 프로그램으로 작성 가능하며, 프로그램을 구성하는 코드들 및 코드 세그먼트들은 당해 분야의 프로그래머에 의하여 용이하게 추론될 수 있다. 또한, 특허문서 분류 방법에 관한 프로그램은 전자장치가 읽을 수 있는 정보저장매체(Readable Media)에 저장되고, 전자장치에 의하여 읽혀지고 실행될 수 있다.

이와 같이, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims

각 특허문서를 분석하여 개념요소들을 추출하고, 각 개념요소에 기능속성을 부여하는 개념요소 추출부;

각 특허문서의 개념요소들을 기능속성별로 군집화하여 개념요소 유사도 값을 산출하고, 상기 산출된 개념요소 유사도 값을 포함하는 개념구조를 특허문서별로 생성하는 개념구조 생성부;

특허문서간 개념구조 유사도 값을 구하고, 상기 구해진 개념구조 유사도 값을 근거로 특허문서를 분류하는 분류부;

를 포함하는 특허문서 분류 시스템.
제1항에 있어서,

제품, 기술에 대한 개체명이 저장된 개체명 사전 데이터베이스;

개체들의 기능속성분류를 위한 규칙이 설정된 기능속성분류 데이터베이스를 더 포함하는 특허문서 분류 시스템.
제1항에 있어서,

상기 개념요소 추출부는, 개체명 사전 데이터베이스를 참조하여 특허문서의 기 정의된 영역에서 후보문장을 식별하는 후보문장 식별모듈;

상기 식별된 후보 문장에서 의존문법기반의 구문분석을 통해 개념요소를 나타내는 문자열을 추출하는 문자열 추출모듈;

기능분류 데이터베이스를 참조하여 상기 추출된 문자열에 기능속성을 부여하는 기능속성 부여모듈을 포함하되,

상기 추출된 문자열은 개념요소인 것을 특징으로 하는 특허문서 분류 시스템.
제1항에 있어서,

상기 개념구조 생성부는,

각 특허문서단위로 동일한 기능속성이 부여된 개념요소들을 군집하는 개념요소 군집모듈;

기 정의된 유사도 계산 분석 모델을 이용하여 각 기능속성별로 개념요소 개체들간의 유사도 값을 산출하는 유사도 산출모듈;

기능속성, 개념요소들, 개념요소들의 유사도 값을 포함하는 개념구조를 특허문서단위로 생성하는 개념구조 생성모듈을 포함하는 것을 특징으로 하는 특허문서 분류 시스템.
제1항에 있어서,

상기 분류부는,

특허문서간 개념구조를 구성하는 개념요소들의 유사도 값을 구하는 개념요소 유사도 산출모듈;

특허문서간 기능속성 유사도 값을 구하는 기능속성 유사도 산출모듈;

상기 구해진 개념요소들의 유사도 값 또는 기능속성 유사도 값을 이용하여 특허문서간 개념구조 유사도 값을 구하는 개념구조 유사도 산출모듈;

상기 특허문서간 개념구조 유사도 값을 근거로 특허문서를 분류하는 분류모듈을 포함하는 것을 특징으로 하는 특허문서 분류 시스템.
(a) 각 특허문서를 분석하여 개념요소들을 추출하고, 각 개념요소에 기능속성을 부여하는 단계;

(b) 각 특허문서의 개념요소들을 기능속성별로 군집화하여 개념요소 유사도 값을 산출하고, 상기 산출된 개념요소 유사도 값을 포함하는 개념구조를 특허문서별로 생성하는 단계; 및

(c) 특허문서간 개념구조 유사도 값을 구하고, 상기 구해진 개념구조 유사도 값을 근거로 특허문서를 분류하는 단계;

를 포함하는 특허문서 분류 시스템의 특허문서 분류 방법.
제6항에 있어서,

상기 (a)단계는,

개체명 사전 데이터베이스를 참조하여 특허문서의 기 정의된 영역에서 후보문장을 식별하는 단계;

상기 식별된 후보 문장에서 의존문법기반의 구문분석을 통해 개념요소를 나타내는 문자열을 추출하는 단계;

기능분류 데이터베이스를 참조하여 상기 추출된 문자열에 기능속성을 부여하는 단계를 포함하되,

상기 추출된 문자열이 개념요소인 것을 특징으로 하는 특허문서 분류 시스템의 특허문서 분류 방법.
제6항에 있어서,

상기 (b)단계는,

각 특허문서단위로 동일한 기능속성이 부여된 개념요소들을 군집하는 단계;

기 정의된 유사도 계산 분석 모델을 이용하여 각 기능속성별로 개념요소 개체들간의 유사도 값을 산출하는 단계;

기능속성, 개념요소들, 개념요소들의 유사도 값을 포함하는 개념구조를 특허문서단위로 생성하는 단계를 포함하는 특허문서 분류 시스템의 특허문서 분류 방법.
제6항에 있어서,

상기 (c)단계는,

특허문서간 개념구조를 구성하는 개념요소들의 유사도 값을 구하는 단계;

특허문서간 기능속성 유사도 값을 구하는 단계;

상기 구해진 개념요소들의 유사도 값 또는 기능속성 유사도 값을 이용하여 특허문서간 개념구조 유사도 값을 구하는 단계;

상기 특허문서간 개념구조 유사도 값을 근거로 특허문서를 분류하는 단계를 포함하는 것을 특징으로 하는 특허문서 분류 시스템의 특허문서 분류 방법.
특허문서 분류 시스템에 의해 실행될 때,

(a) 각 특허문서를 분석하여 개념요소들을 추출하고, 각 개념요소에 기능속성을 부여하는 단계;

(b) 각 특허문서의 개념요소들을 기능속성별로 군집화하여 개념요소 유사도 값을 산출하고, 상기 산출된 개념요소 유사도 값을 포함하는 개념구조를 특허문서별로 생성하는 단계; 및

(c) 특허문서간 개념구조 유사도 값을 구하고, 상기 구해진 개념구조 유사도 값을 근거로 특허문서를 분류하는 단계를 포함하는 특허문서 분류 방법을 실행하기 위한 프로그램이 수록된 컴퓨터로 판독 가능한 기록 매체.