KR101779892B1 - 기술발전도 생성 시스템 및 그 방법 - Google Patents

기술발전도 생성 시스템 및 그 방법 Download PDF

Info

Publication number
KR101779892B1
KR101779892B1 KR1020150162659A KR20150162659A KR101779892B1 KR 101779892 B1 KR101779892 B1 KR 101779892B1 KR 1020150162659 A KR1020150162659 A KR 1020150162659A KR 20150162659 A KR20150162659 A KR 20150162659A KR 101779892 B1 KR101779892 B1 KR 101779892B1
Authority
KR
South Korea
Prior art keywords
document
word
documents
citation
similarity
Prior art date
Application number
KR1020150162659A
Other languages
English (en)
Other versions
KR20170058715A (ko
Inventor
윤장혁
김무진
박영진
Original Assignee
건국대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 건국대학교 산학협력단 filed Critical 건국대학교 산학협력단
Priority to KR1020150162659A priority Critical patent/KR101779892B1/ko
Publication of KR20170058715A publication Critical patent/KR20170058715A/ko
Application granted granted Critical
Publication of KR101779892B1 publication Critical patent/KR101779892B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Theoretical Computer Science (AREA)
  • Educational Administration (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Technology Law (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 특허 문서간의 인용정보에 문서간의 의미론적 분석을 통한 유사도정보를 반영하여 구현하는 기술발전도 생성 시스템 및 그 방법에 관한 것으로, 서지정보와 요약, 청구항 및 인용정보가 포함된 다수의 분석대상 문서의 문서데이터를 수집하는 단계, 상기 각 문서데이터의 인용정보를 이용하여 문서간 인용 여부에 대한 인용 매트릭스를 생성하는 단계, 상기 각 문서데이터로부터 단어를 추출하고, 추출된 단어의 해당 문서내에서의 출현빈도를 이용하여 단어별 가중치를 도출하고, 단어별 가중치를 이용하여 문서간 유사도를 산출하는 단계, 및 상기 문서간 유사도와 상기 문서간 인용 매트릭스의 해당 요소를 각각 연산하여 가중(weighted) 인용 매트릭스를 생성하고, 이를 기반으로 문서의 실질적 내용에 기초한 가시적 인용 네트워크를 생성하는 단계를 포함할 수 있다.

Description

기술발전도 생성 시스템 및 그 방법{SYSTEM FOR GENERATING PATENT DEVELOPMENT MAPS AND METHOD THEREOF}
본 발명은 특허 문서간의 인용정보에 문서간의 의미론적 분석을 통한 유사도정보를 반영하여 구현하는 기술발전도 생성 시스템 및 그 방법에 관한 것이다.
현재 국가 혹은 기업 간의 기술 경쟁에 있어, 특허는 고부가가치를 창출하는 핵심경쟁력으로 작용하므로 국가, 기업은 특허를 중심으로 한 성장전략을 강화하고 있다. 또한, 경쟁이 활발하게 이루어지는 산업에서 산업 내 주요 특허를 보유한 기업의 기업 성과가 높은 것을 확인할 수 있으며, 지식재산권 정보의 전략적 이용으로, 개발 기술의 기존 특허에 대한 침해 여부 파악 및 공백 기술 발견을 통한 연구과제 제시 등이 가능하다. 즉 ‘지식재산권 중심의 기술 획득 전략’등을 통한 지식재산권 확보 및 전략적 활용이 중요해짐에 따라, IP-R&D(지식재산권 중심의 연구개발)의 중요성이 높아지고 있다.
성공적인 IP-R&D를 위해, IP-R&D 기획 단계에서 전반적인 특허 기술발전관계를 파악하는 것이 중요하다. 이를 위해, 이머징 기술(Emerging Technology) 분야 혹은 변화가 빠른 기술 분야에 대해서 해당 기술 분야 내의 기술의 발전 흐름을 효율적으로 분석하여, 시시각각 변하는 기술 분야에 대해 지속적인 모니터링이 필요하다.
기술 발전 관계 파악을 위해서 기존에 대양한 연구가 진행되었다. 다수의 연구들이 기술간 관계 파악을 위해 특허 인용 정보를 활용한 분석이 널리 이용되고 있다.
하지만 기술 발전 관계 분석을 위해 널리 이용되는 특허 인용정보 분석에도 한계점이 존재한다. 단순하게 인용정보 만을 이용하여 도출한 특허 발전 관계 정보의 경우, 특정 특허를 인용한 정보가 있다 하더라고 해당 특허로 실질적 지식흐름이 발생하지 않아 내용적 계승이 일어나지 않을 수 있다. 단적인 예시로 특허 인용의 목적이 해당 특허의 한계점 언급과 같이, 부정적 목적으로 특허의 인용이 발생할 수 있기 때문이다.
따라서, 특허 수준에서 기술 발전 흐름을 파악하기 위해서는 특허 인용 정보만을 이용하는 것은 미흡하며, IP-R&D 기획을 위한 기술발전도나 기술 네트워크 생성을 위해 특허 발전관계의 내용적 측면이 고려될 필요성이 있다. 또한 기술 발전 관계를 파악하는 방법과 관련된 연구들이 대부분 수작업으로 이루어지고, 전문가의 의존도가 높으므로, 특허의 내용적 측면을 고려한 기술발전도 생성 시스템에 대한 개발 필요성이 증대되고 있다.
하기의 선행특허문헌들은 단순 인용맵을 제공하거나 키워드를 이용한 시맨틱 분석에 따라 정확성이 떨어질 수 있는 것으로, 상술한 문제에 대한 해결책(인용정보의 의미론적 분석을 이용한 기술발전도 자동 생성)을 제시하지 못하고 있다.
한국특허공개 제2013-0042531호 한국특허공개 제2010-0060734호
본 발명은 상기한 종래 기술의 문제점을 해결하기 위한 것으로써, 특허 문서간의 의미론적 분석을 통한 유사도정보를 문서 간의 인용정보에 반영함에 따라 단순 인용이 아니라 실질적인 기술계승 강도를 의미하는 기술발전도(Patent development maps)의 구현이 가능한 기술발전도 생성 시스템 및 그 방법을 제공한다.
또한, 본 발명의 목적은 문서데이터에 포함된 키워드가 아니라 단어(형용사, 명사)를 모두 추출하고 단어의 출현빈도를 통해 문서간 유사도정보를 산출함으로써, 실질적인 내용 측면에서의 인용관계를 나타낼 수 있는 기술발전도 생성 시스템 및 그 방법을 제공한다.
상기 목적을 달성하기 위한 본 발명의 기술발전도 생성 방법은, (a) 서지정보와 요약, 청구항 및 인용정보가 포함된 다수의 분석대상 문서의 문서데이터를 수집하는 단계; (b) 상기 각 문서데이터의 인용정보를 이용하여 문서간 인용 여부에 대한 인용 매트릭스를 생성하는 단계; (c) 상기 각 문서데이터로부터 단어를 추출하고, 추출된 단어의 해당 문서내에서의 출현빈도를 이용하여 단어별 가중치를 도출하고, 단어별 가중치를 이용하여 문서간 유사도를 산출하는 단계; 및 (d) 상기 문서간 유사도와 상기 문서간 인용 매트릭스의 해당 요소를 각각 연산하여 가중(weighted) 인용 매트릭스를 생성하고, 이를 기반으로 문서의 실질적 내용에 기초한 가시적 인용 네트워크를 생성하는 단계;를 포함할 수 있다.
그리고, 상기 (c)단계는, 수집된 문서데이터로부터 단어를 추출하는 단계; 상기 단어가 해당 문서에서 출현되는 출현빈도와 전체 문서에서의 출현 통계를 이용하여 단어별 가중치를 도출하는 단계; 상기 각 문서의 단어별 가중치에 대해 잠재적 디리클레 할당(LDA; Latent Dirichlet Allocation)을 적용하여 각각의 문서가 각 주제에 속할 확률분포를 산출하는 단계; 및 상기 각 주제에 속할 확률분포를 이용하여 문서간 유사도 분석을 실행하여 문서간 유사도를 산출하는 단계;를 포함할 수 있다.
또한, 상기 목적을 달성하기 위한 본 발명의 기술발전도 생성 시스템은, 수집된 특허 문서데이터들의 인용정보를 이용하여 문서간 인용 관계를 분석한 후 문서간 인용 매트릭스를 생성하는 인용관계분석부; 상기 각 문서데이터로부터 단어를 추출하고, 추출된 단어의 해당 문서내에서의 출현빈도를 이용하여 단어별 가중치를 도출하고, 단어별 가중치를 이용하여 문서간 유사도를 산출하는 유사도분석부; 상기 문서간 유사도와 상기 문서간 인용 매트릭스의 해당 요소를 각각 연산하여 가중(weighted) 인용 매트릭스를 생성하는 인용정보생성부; 및 상기 생성된 가중 인용 매트릭스를 기반으로 문서의 실질적 내용에 기초한 가시적 인용 네트워크를 생성하는 기술발전도생성부;를 포함할 수 있다.
본 발명에 의하면, 특허 문서간의 의미론적 분석을 통한 유사도정보를 문서 간의 인용정보에 반영함에 따라 단순 인용이 아니라 실질적인 기술계승 강도를 의미하는 기술발전도의 구현이 가능함으로써, 특정 기술분야에 대한 모니터링의 효율성을 높이고, 전문가에게도 익숙하지 않는 새로운 초기 기술분야에 대한 이해를 높이며, 시각화된 결과물을 통해 기술 발전 관계에 대한 직관적 이해를 도와 IP-R&D 초기 단계에 통합하여 활용할 수 있다.
또한, 본 발명은 문서데이터에 포함된 키워드가 아니라 단어(형용사, 명사)를 모두 추출하고 단어의 출현빈도를 통해 문서간 유사도정보를 산출함으로써, 실질적인 내용 측면에서의 정확한 인용관계를 나타낼 수 있어 정확한 기술 흐름을 단시간에 정확하게 파악할 수 있는 효과가 있다.
도 1은 본 발명에 의한 기술발전도 생성 시스템을 나타낸 구성도이다.
도 2는 실시예에 의한 도 1의 유사도분석부의 세부 구성을 나타낸 도면이다.
도 3은 실시예에 의한 도 1의 인용관계분석부를 설명하기 위한 도면이다.
도 4는 실시예에 의한 도 2의 가중치도출부를 설명하기 위한 도면이다.
도 5a 내지 도 5c는 도 2의 주제확률분포산출부에 적용된 LDA를 설명하기 위한 도면이다.
도 6은 실시예에 의한 도 2의 유사도산출부를 설명하기 위한 도면이다.
도 7은 실시예에 의한 도 1의 기술발전도생성부를 설명하기 위한 도면이다.
도 8은 본 발명에 의한 기술발전도 생성 과정을 나타낸 흐름도이다.
도 9는 실시예에 의한 도 8의 문서간 유사도 산출 단계를 나타낸 흐름도이다.
도 10은 실시예에 의한 도 9의 단어 추출 단계를 나타낸 흐름도이다.
도 11은 실시예에 의한 도 9의 단어별 가중치 산출 단계를 나타낸 흐름도이다.
도 12는 본 발명의 일 실시예에 의한 가시적 인용 네트워크를 나타낸 도면이다.
도 13은 본 발명의 다른 실시예에 의한 가시적 인용 네트워크를 나타낸 도면이다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예들을 설명한다.
그러나, 본 발명의 실시형태는 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 이하 설명하는 실시 형태로 한정되는 것은 아니다. 또한, 본 발명의 실시형태는 당해 기술분야에서 평균적인 지식을 가진 자에게 본 발명을 더욱 완전하게 설명하기 위해서 제공되는 것이다.
본 발명에 참조된 도면에서 실질적으로 동일한 구성과 기능을 가진 구성요소들은 동일한 부호가 사용될 것이며, 도면에서 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.
본 실시예에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA(field-programmable gate array) 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다.
그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다.
따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다.
구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로 더 분리될 수 있다.
뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU들을 재생시키도록 구현될 수도 있다.
도 1은 본 발명에 의한 기술발전도 생성 시스템을 설명하기 위한 구성도로서, 시스템(1)은 저장부(10), 인용관계분석부(110), 유사도분석부(130), 인용정보생성부(150), 및 기술발전도생성부(170) 등을 포함할 수 있다.
여기서, 시스템(1)은 윕스온(Wipson), 윈텔립스(Wintelips), 위즈도메인(WISDOMAIN; FOCUST), 구글특허(Google Patent), 델피온(Delphi-on), 키프리스(Kipris) 등과 같은 특허 검색 시스템이거나 사용자 컴퓨터가 될 수 있다.
저장부(10)는 문서데이터 검색 시스템에 의해 키워드 검색식을 통해 수집된 다수의 특허 문서데이터를 제공받아 저장하는 문서데이터저장부(11) 등으로 구성되어 있다. 문서데이터에는 서지정보(출원번호, 출원일자, 공개번호, 공개일자, 출원인, 제목 등)와 요약, 청구항 및 인용정보 등이 포함될 수 있다. 인용정보는 임의의 기준특허에 영향을 준 선행 특허정보인 전방인용정보(Forward citation) 및 기준특허가 영향을 준 후발 특허정보인 후방인용정보(Backward citation)로 나눌 수 있다.
처리장치(100)의 인용관계분석부(110)는 수집된 특허 문서데이터들의 인용정보를 이용하여 문서간 인용 관계를 분석한 후 문서간 인용 매트릭스를 생성하도록 구성되어 있다. 여기서, 문서간 인용 매트릭스는 문서간의 인용관계 여부에 따라 도 3과 같이 '1' 또는 '0'의 값으로 표기될 수 있는 데, 예컨대 인용관계에 있을 경우 '1'로 기재되고, 인용관계에 없을 경우 '0'으로 기재될 수 있다. 이와 같이 생성된 인용 매트릭스 정보는 저장부(10)의 인용정보저장부(15)에 저장될 수 있다.
유사도분석부(130)는 각 문서데이터로부터 단어를 추출하고, 추출된 단어의 해당 문서내에서의 출현빈도를 이용하여 단어별 가중치를 도출하고, 단어별 가중치를 이용하여 문서간 유사도를 산출할 수 있다.
예컨대, 유사도분석부(130)는 도 2와 같이 단어추출부(131), 가중치도출부(133), 주제확률분포산출부(135) 및 유사도산출부(137)를 포함하여 구성될 수 있다.
단어추출부(131)는 문서데이터저장부(11)에 수집된 문서데이터로부터 형용사, 명사와 같은 단어를 추출할 수 있다. 일례로, 단어추출부(131)는 문서데이터에 대해 자연어처리를 통해 상기 문서데이터에 포함된 문장을 추출할 수 있고, 상기 추출된 문장의 품사 분석을 통해 형용사 및 명사에 해당하는 단어를 추출할 수 있으며, 추출된 단어 중 미리 설정된 불용어 리스트에 포함된 단어를 제거할 수 있다.
가중치도출부(133)는 단어가 해당 문서에서 출현되는 출현빈도와 전체 문서에서의 출현 통계를 이용하여 단어별 가중치를 도출하는 데, 단어별 가중치는 단어의 출현 빈도수(tf; Term Frequency)와 역문서 빈도수(idf; Inverse Document Frequency)를 이용한 tf-idf 알고리즘에 의해 산출된다. 도 4는 가중치산출부에 의해 생성된 단어별 가중치 매트릭스(TF-IDF matrix)를 나타낸 것이다.
여기서, 단어의 출현 빈도수(tf)는 특정 단어가 해당 문서데이터 내에 얼마나 자주 등장하는지를 나타내는 빈도수이고, 역문서 빈도수(idf)는 임의의 한 단어가 다수의 문서데이터 전체에서 얼마나 공통적으로 포함되어 있는지를 나타내며, 전체 문서 수를 상기 단어를 포함한 문서데이터의 수로 나눈 뒤 로그 스케일을 취하여 산출할 수 있다.
일예로, 역문서 빈도수(IDF)는 이하의 수학식에 의해 산출될 수 있다. 여기서 '1'을 가산하는 이유는 로그 스케일의 밑수에 따라 역문서 빈도수가 음수가 나올 수 있는 데, 이를 방지하기 위함이다.
[수학식 1]
Figure 112015113080889-pat00001
여기서, t; 임의의 단어, d; 임의의 문서, D; 전체 문서 수, |d∈D:t∈d|; 단어 t가 포함된 문서 수.
그리고, 단어별 가중치는 상기에서 구해진 단어 출현빈도수와 역문서 빈도수를 승산함에 따라 산출될 수 있다. 여기서, 특정 문서데이터 내에서 단어 출현 빈도수가 높을수록, 그리고 전체 문서데이터 중 상기 단어를 포함한 문서데이터가 적을수록 단어별 가중치(TF-IDF값)이 커지게 된다.
주제확률분포산출부(135)는 각 문서의 단어별 가중치에 대해 잠재적 디리클레 할당(LDA; Latent Dirichlet Allocation) 알고리즘을 적용하여 각각의 문서가 각 주제에 속할 확률분포를 산출할 수 있다.
LDA 알고리즘은 공지기술로 문서의 주제(Topic)별 분류에서 일반적으로 사용되는 툴로서, 도 5와 같은 매트랩 코드(Matlab Code)를 참조하여 간단하게 설명하고자 한다. 기본적으로 LDA 알고리즘은 문서가 단어의 묶음이고, 문서는 특정 주제를 가지고 있으며, 주제는 문서들마다 공유된다는 전제에서 시작된다. 예를 들어 도 5a와 같이 8개의 문서가 있고, 각 문서는 총 16개의 단어로 이루어져 있다고 가정할 경우 단어의 출현빈도에 따라 칼라로 표시하는 것이 가능하다. 초록색이 짙을수록 단어의 출현빈도가 높은 것이고, 파란색이 짙을수록 출현빈도가 낮은 것을 의미한다. 도 5a의 7번 문서의 경우 매트릭스 (3,4)의 단어만 출현빈도가 상당히 높은 것을 알 수 있다.
도 5b는 주제에 대한 분포를 나타내는 것으로, 8개의 주제(Topic1~Topic8)가 있고 주제별로 어떤 단어들을 가지고 있는지를 나타낸다. 즉, 주제는 단어들에 대한 분포를 의미한다. 예컨대, 주제1의 경우는 첫 번째에서 네 번째((1,1)~(1,4))까지 단어들의 출현빈도가 높은 것이다. 따라서, 각 문서별 단어별 가중치에 대해 LDA를 적용하면 도 5b와 같은 비슷한 양상을 보이게 되며, 이를 통해 각 주제를 찾게 된다.
도 5c는 각 문서에 대한 주제의 분포를 나타낸 것으로, 빨간색은 데이터를 만들 때 사용된 것이고, 파란색이 LDA를 통해서 찾아낸 것이다. 즉, x축에 해당되는 주제의 순서를 무시했을 때, 결국 LDA를 통해 각 문서의 주제를 유사하게 찾아낼 수 있다는 것을 알 수 있다.
유사도산출부(137)는 각 주제에 속할 확률분포를 이용하여 문서간 유사도 분석을 실행하여 문서간 유사도를 산출할 수 있으며, 유사도 산출은 헬링거 디스턴스 알고리즘에 의해 산출될 수 있다.
일예로, 유사도산출부(137)는 아래 헬링거 디스턴스(Hellinger distance; H(P,Q))에 의해 기준 문서데이터와 다른 비교 대상 문서데이터 사이의 유사도를 산출할 수 있다.
[수학식 2]
Figure 112015113080889-pat00002
여기서, i는 주제, k는 주제의 개수, pi는 기준 문서의 주제 확률분포, qi는 비교대상 문서의 주제 확률분포임.
헬링거 디스턴스로 산출되는 결과값(H(P,Q))은 '0'에서 '1' 사이의 값을 가지게 되는 데, 결과값이 작을수록 두 문서데이터 사이의 유사도 정도가 크고, 결과값이 클수록 두 문서데이터 간의 유사도 정도가 작다. 따라서, 직관적인 이해가 용이하도록 결과값을 '1'로 감산(1­H(P,Q))한 후 감산된 값을 유사도산출부(137)에서 산출된 최종 유사도 값으로 사용하는 것이 바람직하다.
이와 같이 유사도분석부(130)는 도 6에서와 같이 추출된 단어를 이용하여 단어별 가중치인 TF-IDF와 주제별 확률분포 및 헬링거 디스턴스 알고리즘을 순차적으로 적용함에 따라 문서간 유사도를 산출해 낸다.
인용정보생성부(150)는 유사도분석부(130)를 통해 산출된 문서간 유사도 및 인용관계분석부(110)를 통해 얻어진 문서간 인용 매트릭스의 각각의 해당 요소를 연산하여 가중(weighted) 인용 매트릭스를 생성할 수 있다. 일례로, 가중 인용 매트릭스의 각 값은 특정 문서간 유사도와 인용 상태값이 승산(multiply)될 수 있으며, 인용 상태값은 '1' 또는 '0'일 수 있다.
기술발전도생성부(170)는 생성된 가중 인용 매트릭스를 기반으로 문서의 실질적 내용에 기초한 가시적 인용 네트워크를 생성하여 디스플레이(200)에 표시할 수 있다. 도 7에 도시된 바와 같이 기술발전도가 생성될 때 문서 인용횟수 또는 유사도 정도(Threshold value)에 따라 가시적 인용 네트워크를 가공하여 생성할 수 있다. 이때 인용횟수와 유사도 정도는 시스템에 설정된 기준값에 따라 가변될 수 있으며, 유사도가 낮은 문서는 기술적 계승 강도가 약하므로 제거될 수 있다.
이와 같이 구성된 기술발전도 생성 시스템의 세부 프로세스는 도 8 내지 도 13을 참조하여 설명하고자 한다.
도 8은 본 발명에 따른 기술발전도 생성 방법을 설명하기 위한 흐름도이다.
도 8을 참조하면, 먼저 문서데이터 검색 시스템(1)은 사용자로부터 입력된 키워드 검색식 또는 특허번호(출원번호, 공개번호 또는 등록번호)를 제공받아 특허문서 데이터베이스로부터 관련 문서데이터를 검색하게 되고, 검색된 문서데이터는 문서데이터저장부(11)에 저장될 수 있다(S100). 여기에서 문서데이터저장부(11)에 저장된 문서데이터는 키워드로 검색된 경우에는 노이즈가 제거된 유효데이터일 수 있으며, 이는 서지정보(출원번호, 출원일자, 공개번호, 공개일자, 출원인, 제목 등)와 요약, 청구항 및 인용정보 등이 포함될 수 있다.
이어, 기술발전도 생성 시스템(100)의 인용관계분석부(110)는 사용자의 요청에 따라 문서데이터저장부(11)에 수집된 특허 문서데이터들의 인용정보를 이용하여 문서간 인용 관계를 분석한 후 문서간 인용 매트릭스를 생성하여 인용정보저장부(15)에 저장한다(S200). 여기서, 문서간 인용 매트릭스는 하기 표 1과 같이 문서간의 인용관계 여부에 따라 '1' 또는 '0'의 값으로 표기될 수 있는 데, 예컨대 인용관계에 있을 경우 '1'로 기재되고, 인용관계에 없을 경우 '0'으로 기재될 수 있다.
[표 1]
Figure 112015113080889-pat00003
다음으로, 유사도분석부(130)는 각 문서데이터로부터 단어를 추출하고, 추출된 단어의 해당 문서내에서의 출현빈도를 이용하여 단어별 가중치를 도출하고, 단어별 가중치를 이용하여 문서간 유사도를 산출할 수 있다(S300).
여기서, 유사도분석은 도 9를 참조하면, 단어추출단계(S310)와 가중치도출단계(S320), 주제확률분포산출단계(S330) 및 유사도산출단계(S340)를 수행하게 된다.
단어추출단계(S310)는 도 10에 도시된 바와 같이 단어추출부(131)에 의해 문서데이터에 대해 자연어처리를 통해 상기 문서데이터에 포함된 문장을 추출하고(S311), 상기 추출된 문장의 품사 분석을 통해 형용사 및 명사에 해당하는 단어를 추출하며(S312), 추출된 단어 중 미리 설정된 불용어 리스트에 포함된 단어를 제거하는 단계(S313)가 수행될 수 있다.
이어, 추출된 단어는 가중치도출부(133)에 의해 단어통계 분석 과정이 수행되며, 먼저 단어가 해당 문서에서 출현되는 출현빈도와 전체 문서에서의 출현 통계를 이용하여 단어별 가중치가 도출된다(S320). 도 11을 참조하면, 가중치도출단계(S320)는 복수의 문서데이터 각각에 대하여 상기 추출한 단어의 출현 빈도수를 산출하는 단계(S321), 상기 추출한 단어의 역문서 빈도수를 산출하는 단계(S322) 및 상기 단어의 출현 빈도수와 역문서 빈도수를 승산하여 단어빈도-역문서빈도(TF-IDF) 값을 산출하고 상기 산출한 TF-IDF값을 단어 통계정보로 획득하는 단계(S323)를 포함할 수 있다.
즉, 단어별 가중치는 단어의 출현 빈도수(TF; Term Frequency)와 역문서 빈도수(IDF; Inverse Document Frequency)를 이용한 TF-IDF 알고리즘에 의해 산출된다.
여기서, 단어의 출현 빈도수(TF)는 특정 단어가 해당 문서데이터 내에 얼마나 자주 등장하는지를 나타내는 빈도수이고, 역문서 빈도수(IDF)는 임의의 한 단어가 다수의 문서데이터 전체에서 얼마나 공통적으로 포함되어 있는지를 나타내며, 전체 문서 수를 상기 단어를 포함한 문서데이터의 수로 나눈 뒤 로그 스케일을 취하여 산출할 수 있다.
일예로, 단어빈도(TF)-역문서빈도수(IDF)는 하기 수학식 3에 의해 산출될 수 있으며, 단어 출현빈도수와 역문서 빈도수를 승산한다. 여기서 역문서빈도수에 '1'을 가산하는 이유는 로그 스케일의 밑(base)에 따라 역문서 빈도수가 음수가 나올 수 있으므로 이를 방지하기 위함이며, 로그 스케일의 밑이 1보다 큰 경우에는 '1'을 가산하지 않을 수도 있다.
[수학식 3]
Figure 112015113080889-pat00004
여기서, TF(t,d)는 문서 d에서 단어 t의 출현 수, |D|는 전체 문서의 수, |d∈D:t∈d|는 단어 t가 포함된 문서 수임.
단어별 가중치(TF-IDF값)는 하기 표 2에 나타낸 바와 같이 특정 문서데이터 내에서 단어 출현 빈도수가 높을수록, 그리고 전체 문서데이터 중 상기 단어를 포함한 문서데이터가 적을수록 가중치가 커지게 된다.
[표 2]
Figure 112015113080889-pat00005
다음으로, 각 문서의 단어별 가중치에 대해 잠재적 디리클레 할당(LDA; Latent Dirichlet Allocation) 알고리즘을 적용하여 각각의 문서가 각 주제에 속할 확률분포를 산출할 수 있다(S330). LDA 알고리즘은 공지기술로 문서의 주제별 분류에서 일반적으로 사용되는 툴이다.
예컨대, 주제(Topic; '기술분야'에 해당됨)의 수는 시스템에 미리 설정될 수 있으며, 주제의 수는 여러번의 테스트에 걸쳐 8개 내지 10개로 분류하는 것이 가장 적절한 것으로 확인되었다. 따라서, 하기 표 3과 같이 주제를 먼저 9개로 분류한 후 다수의 문서데이터에 LDA를 적용하여 각 주제별로 분류하였다.
하기 표 3에서와 같이 LDA의 결과로 도출된 각 주제에 속하는 특허 문서의 수와 각 주제를 구성하는 주요 키워드 정보를 나타낼 수 있으며, 각 주제에 대응하는 주요 키워드 정보를 이용하여, 해당 주제의 특성을 판단하는 것이 가능하다. 예를 들어 Topic 1의 경우 작은 입자를 접착하는 방식(Adhesive particulate bonding)의 기술 군집임을 유추할 수 있다.
[표 3]
Figure 112015113080889-pat00006
이와 같이 주제확률분포산출부(135)는 주제별 키워드를 추출하고, 각 특허 문서별로 각 주제에 속할 확률분포를 하기 표 4와 같이 산출할 수 있다.
[표 4]
Figure 112015113080889-pat00007
이어, 유사도산출부(137)는 각 주제에 속할 확률분포를 이용하여 문서간 유사도 분석을 실행하여 문서간 유사도를 산출할 수 있으며, 유사도 산출은 헬링거 디스턴스 알고리즘에 의해 산출될 수 있다(S340).
일예로, 유사도산출부(137)는 하기 수학식 4의 헬링거 디스턴스(Hellinger distance; H(P,Q))에 의해 기준 문서데이터와 다른 비교 대상 문서데이터 사이의 유사도를 산출할 수 있다.
[수학식 4]
Figure 112015113080889-pat00008
여기서, i는 주제, k는 주제의 개수, pi는 기준 문서의 주제 확률분포, qi는 비교대상 문서의 주제 확률분포임.
헬링거 디스턴스로 산출되는 결과값(H(P,Q))은 0에서 1 사이의 값을 가지게 되는 데, 결과값이 작을수록 두 문서데이터 사이의 유사도 정도가 크고, 결과값이 클수록 두 문서데이터 간의 유사도 정도가 작다. 따라서, 최종 유사도 값(S(P,Q))은 직관적인 이해가 용이하도록 헬링커 디스턴스의 결과값(H(P,Q))을 하기 수학식 5와 같이 1로 감산한 후 감산된 값을 유사도 값으로 사용하는 것이 바람직하다.
[수학식 5]
Figure 112015113080889-pat00009
하기 표 5는 상기 수학식 4 및 5에 의해 산출된 문서별 유사도 매트릭스의 일례를 나타낸 것이다.
[표 5]
Figure 112015113080889-pat00010
다음으로, 인용정보생성부(150)는 유사도분석부(130)를 통해 산출된 문서간 유사도 및 인용관계분석부(110)를 통해 얻어진 문서간 인용 매트릭스의 각각의 해당 요소를 연산하여 가중(weighted) 인용 매트릭스를 하기 표 6과 같이 생성할 수 있다(S400). 일례로, 가중 인용 매트릭스의 각 값은 특정 문서간 유사도와 인용 상태값이 승산될 수 있으며, 인용 상태값은 '0' 또는 '1'일 수 있다. 즉, 하기 표 6에서와 같이 인용정보저장부(15)에 저장된 인용정보가 '0'일 경우에는 문서간 유사도에 관계없이 가중 인용정보는 '0'이다. 한편, 문서간 유사도와 인용 상태값을 가산할 경우에는 가중 인용 매트릭스의 결과값은 인용 상태값이 '0'일 경우에도 0보다 큰 값이 나올 수 있으며, 이 경우에는 아래의 가시적 인용 네트워크를 생성할 때 컷오프 기준값의 조정을 통해 구현하면 되므로 문제될 것이 없다.
[표 6]
Figure 112015113080889-pat00011
다음으로, 기술발전도생성부(170)는 생성된 가중 인용 매트릭스를 기반으로 문서의 실질적 내용에 기초한 가시적 인용 네트워크를 생성할 수 있다. 기술발전도가 생성될 때 문서 인용횟수 또는 유사도 정도에 따라 가시적 인용 네트워크를 가공하여 생성할 수 있다(S500). 이때 인용횟수와 유사도 정도는 시스템의 설정에 따라 가변될 수 있다.
기술발전도생성부(170)는 가시적 네트워크를 생성할 때, 인용 정보를 기준으로 하여 인용횟수가 설정된 횟수 이상인 핵심특허 문서를 추출하고, 해당 특허들에 대한 네트워크를 생성할 수 있다. 이때 유사도가 설정된 기준 이상인 특허 문서만 표시되도록 할 수 있다.
도 12는 인용횟수가 20회 이상인 특허문서들에 대한 핵심특허 발전도로서, 유사도 값이 0.7 이상인 문서만 링크가 표시되도록 함으로써, 실질적 내용 계승이 발생한 특허 간의 인용관계 네트워크를 생성한 것이다. 네트워크의 각 노드(Node)는 특허 문서를 나타내며, 각 노드의 크기는 인용횟수의 정도를 나타내며, 각 노드의 칼라(Color)는 해당 노드가 속한 주제를 나타낸다. 또한 링크의 방향은 인용의 방향을 의미하며, 링크의 굵기는 유사도의 정도로서 굵을수록 유사도가 높다는 것을 의미하므로, 내용적 계승이 크게 일어난 것을 의미한다.
이때, 인용횟수 기준이 너무 높을 경우 최근의 특허가 나타나지 않는다는 단점이 있을 수 있으므로 인용횟수를 도 13과 같이 10회로 낮출 경우 도 12보다 링크는 더 복잡해지며, 최근 특허와의 관련성도 보다 쉽게 확인할 수 있다.
이상에서 설명한 본 발명의 실시예 및 첨부된 도면에 의해 권리범위가 한정되는 것이 아니고 후술하는 특허청구범위에 의해 정해지며, 본 발명의 구성은 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 그 구성을 다양하게 변경 및 개조할 수 있다는 것을 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 쉽게 알 수 있다.
1: 발전도 생성 시스템 10: 저장부
11: 문서데이터저장부 15: 인용정보저장부
100: 처리장치 110: 인용관계분석부
130: 유사도분석부 131: 단어추출부
133: 가중치도출부 135: 주제확률분포산출부
137: 유사도산출부 150: 인용정보생성부
170: 기술발전도생성부 200: 디스플레이

Claims (16)

  1. 특허의 서지사항과 인용정보가 포함된 문서데이터를 이용하여 기술발전도를 생성하는 시스템에 있어서,
    (a) 시스템은 서지정보와 요약, 청구항 및 인용정보가 포함된 다수의 분석대상 문서의 문서데이터를 수집하는 단계;
    (b) 상기 각 문서데이터의 인용정보를 이용하여 문서간 인용 여부에 대한 인용 매트릭스를 생성하는 단계;
    (c) 상기 각 문서데이터로부터 단어를 추출하고, 상기 단어가 해당 문서에서 출현되는 출현빈도와 전체 문서에서의 출현 통계를 이용하여 단어별 가중치를 도출하는 단계;
    (d) 상기 각 문서의 단어별 가중치에 대해 잠재적 디리클레 할당(LDA; Latent Dirichlet Allocation)을 적용하여 각각의 문서가 각 주제에 속할 확률분포를 산출하는 단계;
    (e) 상기 각 주제에 속할 확률분포를 이용하여 문서간 유사도 분석을 실행하되, 설정된 헬링거 디스턴스 알고리즘에 의해 문서간 유사도를 산출하는 단계; 및
    (f) 상기 문서간 유사도와 상기 문서간 인용 매트릭스의 해당 요소를 각각 연산하여 가중(weighted) 인용 매트릭스를 생성하고, 이를 기반으로 문서의 실질적 내용에 기초한 주제별 가시적 인용 네트워크를 생성하는 단계;를 포함하며,
    상기 헬링거 디스턴스(Hellinger distance; H(P,Q))는 하기 수식으로 정의되는, 기술발전도 생성 방법.
    수식
    Figure 112017051393542-pat00032

    여기서, i는 주제, k는 주제의 개수, pi는 기준 문서의 주제 확률분포, qi는 비교대상 문서의 주제 확률분포임.
  2. 삭제
  3. 삭제
  4. 청구항 1에 있어서,
    상기 단어별 가중치는,
    상기 추출한 단어의 해당 문서 내에서의 출현 빈도수를 산출하는 단계;
    전체 문서수에서 상기 단어가 포함된 문서수를 나눈 역문서 빈도수(Inverse Document Frequency)를 산출하는 단계; 및
    상기 단어의 출현 빈도수와 역문서 빈도수를 승산하여 단어별 가중치를 획득하는 단계;를 포함하는, 기술발전도 생성 방법.
  5. 청구항 1에 있어서,
    상기 단어별 가중치는 하기 수식의 단어빈도-역문서빈도(tf-idf; Term Frequency-Inverse Document Frequency)에 의해 산출되는, 기술발전도 생성 방법.
    [수식]
    Figure 112015113080889-pat00012

    여기서, TF(t,d)는 문서 d에서 단어 t의 출현 수, |D|는 전체 문서의 수, |d∈D:t∈d|는 단어 t가 포함된 문서 수임.
  6. 삭제
  7. 청구항 1에 있어서,
    상기 헬링거 디스턴스(H(P,Q))는 문서간의 확률분포가 동일할 경우 '0'이므로, 최종 유사도(S(P,Q))는 편의상 하기 수식에 의해 결정되는, 기술발전도 생성 방법.
    [수식]
    Figure 112017051393542-pat00033

  8. 청구항 1에 있어서,
    상기 가시적 인용 네트워크는 문서의 인용횟수 또는 유사도 정도에 따라 가공되어 표현되는, 기술발전도 생성 방법.
  9. 삭제
  10. 수집된 특허 문서데이터들의 인용정보를 이용하여 문서간 인용 관계를 분석한 후 문서간 인용 매트릭스를 생성하는 인용관계분석부;
    상기 수집된 문서데이터로부터 추출된 단어가 해당 문서에서 출현되는 출현빈도와 전체 문서에서의 출현 통계를 이용하여 단어별 가중치를 도출하는 가중치도출부;
    상기 각 문서의 단어별 가중치에 대해 잠재적 디리클레 할당(LDA; Latent Dirichlet Allocation)을 적용하여 각각의 문서가 각 주제에 속할 확률분포를 산출하는 주제확률분포산출부;
    상기 각 주제에 속할 확률분포를 이용하여 문서간 유사도 분석을 실행하되, 헬링거 디스턴스 알고리즘에 의해 문서간 유사도를 산출하는 유사도산출부;
    상기 문서간 유사도와 상기 문서간 인용 매트릭스의 해당 요소를 각각 연산하여 가중(weighted) 인용 매트릭스를 생성하는 인용정보생성부; 및
    상기 생성된 가중 인용 매트릭스를 기반으로 문서의 실질적 내용에 기초한 주제별 가시적 인용 네트워크를 생성하는 기술발전도생성부;를 포함하며,
    상기 헬링거 디스턴스(Hellinger distance; H(P,Q))는 하기 수식으로 정의되는, 기술발전도 생성 시스템.
    수식
    Figure 112017051393542-pat00034

    여기서, i는 주제, k는 주제의 개수, pi는 기준 문서의 주제 확률분포, qi는 비교대상 문서의 주제 확률분포임.
  11. 삭제
  12. 삭제
  13. 청구항 10에 있어서,
    상기 가중치도출부는,
    상기 추출한 단어의 해당 문서 내에서의 출현 빈도수를 산출하고, 전체 문서수에서 상기 단어가 포함된 문서수를 나눈 역문서 빈도수(Inverse Document Frequency)를 산출하되, 상기 단어의 출현 빈도수와 역문서 빈도수를 승산하여 단어별 가중치를 획득하는 것을 특징으로 하는, 기술발전도 생성 시스템.
  14. 청구항 10에 있어서,
    상기 단어별 가중치는 하기 수식의 단어빈도-역문서빈도(tf-idf; Term Frequency-Inverse Document Frequency)에 의해 산출되는, 기술발전도 생성 시스템.
    수식
    Figure 112017051393542-pat00035

    여기서, TF(t,d)는 문서 d에서 단어 t의 출현 수, |D|는 전체 문서의 수, |d∈D:t∈d|는 단어 t가 포함된 문서 수임.
  15. 청구항 10에 있어서,
    상기 헬링거 디스턴스(H(P,Q))는 문서간의 확률분포가 동일할 경우 '0'이므로, 최종 유사도(S(P,Q))는 편의상 하기 수식에 의해 결정되는, 기술발전도 생성 시스템.
    수식
    Figure 112017051393542-pat00036

  16. 청구항 10에 있어서,
    상기 기술발전도생성부는 문서간의 인용횟수 또는 유사도에 따라 가시적 인용 네트워크를 가공하여 생성하는, 기술발전도 생성 시스템.
KR1020150162659A 2015-11-19 2015-11-19 기술발전도 생성 시스템 및 그 방법 KR101779892B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150162659A KR101779892B1 (ko) 2015-11-19 2015-11-19 기술발전도 생성 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150162659A KR101779892B1 (ko) 2015-11-19 2015-11-19 기술발전도 생성 시스템 및 그 방법

Publications (2)

Publication Number Publication Date
KR20170058715A KR20170058715A (ko) 2017-05-29
KR101779892B1 true KR101779892B1 (ko) 2017-09-19

Family

ID=59053320

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150162659A KR101779892B1 (ko) 2015-11-19 2015-11-19 기술발전도 생성 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR101779892B1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011136413A1 (ko) * 2010-04-30 2011-11-03 한국과학기술정보연구원 특허 유사도 검출에 의한 지적재산권 포괄 성형망 구현장치 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011136413A1 (ko) * 2010-04-30 2011-11-03 한국과학기술정보연구원 특허 유사도 검출에 의한 지적재산권 포괄 성형망 구현장치 및 방법

Also Published As

Publication number Publication date
KR20170058715A (ko) 2017-05-29

Similar Documents

Publication Publication Date Title
US20150074112A1 (en) Multimedia Question Answering System and Method
US10528662B2 (en) Automated discovery using textual analysis
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
JP2009193584A (ja) ワードセットに関係するワードの決定
CN104516902A (zh) 语义信息获取方法及其对应的关键词扩展方法和检索方法
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
CN105975453A (zh) 评论标签提取方法和装置
CN105975596A (zh) 一种搜索引擎查询扩展的方法及系统
AU2011210742A1 (en) Method and system for conducting legal research using clustering analytics
US20120317125A1 (en) Method and apparatus for identifier retrieval
Pabitha et al. Automatic question generation system
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
JP2008203933A (ja) カテゴリ作成方法および装置、文書分類方法および装置
Chopra et al. Sentiment analyzing by dictionary based approach
Shetty et al. Auto text summarization with categorization and sentiment analysis
KR101593371B1 (ko) 텍스트 데이터에 대한 성향 분류 장치 및 이를 이용한 의사 결정 지원 시스템
KR101710010B1 (ko) 문서의 상대적 특징을 반영한 문서 요약 방법 및 시스템
JP5324677B2 (ja) 類似文書検索支援装置及び類似文書検索支援プログラム
JP6250833B2 (ja) 文書検索システム、ディベートシステム、文書検索プログラム
CN102063497A (zh) 一种开放式知识共享平台及其词条处理方法
CN105205075B (zh) 基于协同自扩展的命名实体集合扩展方法及查询推荐方法
KR101779892B1 (ko) 기술발전도 생성 시스템 및 그 방법
JP2004341948A (ja) 概念抽出システム、概念抽出方法、プログラム及び記憶媒体
Pandit et al. A query specific graph based approach to multi-document text summarization: simultaneous cluster and sentence ranking
CN102033961A (zh) 一种开放式知识共享平台及其多义词展现方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant