KR102144162B1 - 기술 도메인의 분석 방법 및 장치 - Google Patents

기술 도메인의 분석 방법 및 장치 Download PDF

Info

Publication number
KR102144162B1
KR102144162B1 KR1020180078109A KR20180078109A KR102144162B1 KR 102144162 B1 KR102144162 B1 KR 102144162B1 KR 1020180078109 A KR1020180078109 A KR 1020180078109A KR 20180078109 A KR20180078109 A KR 20180078109A KR 102144162 B1 KR102144162 B1 KR 102144162B1
Authority
KR
South Korea
Prior art keywords
distance value
mocs
technical
technology domain
patents
Prior art date
Application number
KR1020180078109A
Other languages
English (en)
Other versions
KR20200005004A (ko
Inventor
박현석
문창배
윤세준
Original Assignee
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 산학협력단 filed Critical 한양대학교 산학협력단
Priority to KR1020180078109A priority Critical patent/KR102144162B1/ko
Publication of KR20200005004A publication Critical patent/KR20200005004A/ko
Application granted granted Critical
Publication of KR102144162B1 publication Critical patent/KR102144162B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Educational Administration (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

타겟 기술 도메인에 포함된 특허 정보를 이용하여 기술 도메인을 분석하는 방법 및 장치가 개시된다. 개시된 기술 도메인의 분석 방법은, 타겟 기술 도메인에 포함되는 특허 리스트를 입력받는 단계; 상기 특허 리스트의 특허 각각에 할당된 제1 및 제2특허분류코드의 최하위 클래스에 기반하여, 상기 타겟 기술 도메인에 대한 복수의 MOC(Minnimum Overlap Classification)를 결정하는 단계; 서로 다른 두개의 MOC 사이의 기술적 거리값을 계산하는 단계; 및 상기 기술적 거리값의 크기에 따라서, 상기 복수의 MOC를 클러스터링하는 단계를 포함하며, 상기 MOC는, 상기 제1 및 제2특허분류코드의 최하위 클래스에 공통으로 포함되는 적어도 하나의 특허를 포함하는 특허 분류 단위이다.

Description

기술 도메인의 분석 방법 및 장치{METHOD AND APPARATUS FOR ANALYZING TECHNOLOGICAL DOMAINM}
본 발명은 기술 도메인의 분석 방법 및 장치에 관한 것으로서, 더욱 상세하게는 타겟 기술 도메인에 포함된 특허 정보를 이용하여 기술 도메인을 분석하는 방법 및 장치에 관한 것이다.
특허 정보는 기술 정보, 권리 정보 및 경영 정보의 성격을 가지며, 글로벌한 국제 경쟁에서 그 중요성이 증가되고 있다. 기술 정보로서 기술 개발 동향, 개별 특허에 적용된 기술적 아이디어를 알 수 있고, 권리 정보로서 개별 특허의 권리 범위, 국내외 권리화 정도를 파악할 수 있으며, 경영 정보로서 경쟁 기업의 기술 개발 동향 등을 파악할 수 있다.
특히, 기술 정보로서의 특허 정보는 기술 혁신에 대한 학술적 연구를 수행하는 연구자들에게뿐만 아니라 실제 기술을 개발하는 기술자들에게도 기술 변화의 추세와 기술 특성 파악에 매우 중요한 자료로 활용되고 있다. 따라서 특허 정보를 이용한 신 기술 발견 시스템의 개발은 과거 기술들의 특성을 매우 방대한 자료에 기초하여 분석할 수 있기 때문에 축적된 지식을 새로운 지식 창출에 이용한다는 측면에서 의미가 있다고 할 수 있다.
이에 특허 정보를 이용하여 타겟 기술 도메인을 분석하는 다양한 연구들이 진행되고 있으며, 관련 선행문헌으로 특허 문헌인 대한민국 등록특허 제10-1199527호, 비특허 문헌인 "Technology structural implications from the extension of a patent search method, Christopher L. Benson, Christopher L. Magee, March 2015, Volume 102, Issue 3, pp 1965-1985"가 있다.
본 발명은 타겟 기술 도메인을 구조적으로 분해하여, 타겟 기술 도메인에 대한 하위 세부 기술 정보를 제공하는 타겟 기술 도메인 분석 방법을 제공하기 위한 것이다.
상기한 목적을 달성하기 위한 본 발명의 일 실시예에 따르면, 타겟 기술 도메인에 포함되는 특허 리스트를 입력받는 단계; 상기 특허 리스트의 특허 각각에 할당된 제1 및 제2특허분류코드의 최하위 클래스에 기반하여, 상기 타겟 기술 도메인에 대한 복수의 MOC(Minnimum Overlap Classification)를 결정하는 단계; 서로 다른 두개의 MOC 사이의 기술적 거리값을 계산하는 단계; 및 상기 기술적 거리값의 크기에 따라서, 상기 복수의 MOC를 클러스터링하는 단계를 포함하며, 상기 MOC는, 상기 제1 및 제2특허분류코드의 최하위 클래스에 공통으로 포함되는 적어도 하나의 특허를 포함하는 특허 분류 단위인 기술 도메인의 분석 방법이 제공된다.
또한 상기한 목적을 달성하기 위한 본 발명의 다른 실시예에 따르면, 타겟 기술 도메인에 포함되는 특허 리스트의 특허 각각에 할당된 제1 및 제2특허분류코드의 최하위 클래스에 기반하여, 상기 타겟 기술 도메인에 대한 복수의 MOC(Minnimum Overlap Classification)를 결정하는 MOC 결정부; 서로 다른 두개의 MOC 사이의 기술적 거리값을 계산하는 거리값 계산부; 및 상기 기술적 거리값의 크기에 따라서, 상기 복수의 MOC를 클러스터링하는 클러스터 생성부를 포함하며, 상기 MOC는, 상기 제1 및 제2특허분류코드의 최하위 클래스에 공통으로 포함되는 적어도 하나의 특허를 포함하는 특허 분류 단위인 기술 도메인 분석 장치가 제공된다.
본 발명에 따르면, 타겟 기술 도메인에 대한 MOC의 기술적 거리를 이용하여 특허들을 클러스터링함으로써, 타겟 기술 도메인에 대한 하위 세부 기술을 용이하게 파악할 수 있다.
또한 본 발명에 따르면, 기술적 거리값의 크기에 따라서, 타겟 기술 도메인의 특허들을 클러스터링함으로써, 타겟 기술 도메인의 계층 구조 깊이별로 하위 세부 기술을 파악할 수 있다.
또한 본 발명에 따르면, 클러스터링된 특허들로부터 타겟 기술 도메인의 하위 세부 기술에 대한 특허를 용이하게 검색할 수 있다.
도 1은 본 발명의 일실시예에 따른 기술 도메인 분석 방법을 설명하기 위한 도면이다.
도 2는 본 발명의 일실시예에 따른 계층 거리값을 설명하기 위한 도면이다.
도 3은 본 발명의 일실시예에 따른 클러스터링 결과를 도시하는 도면이다.
도 4 내지 도 6은 클러스터 각각을 대표하는 키워드를 나타내는 도면이다.
도 7은 본 발명의 일실시예에 따른 기술 도메인 분석 장치의 블록도를 나타낸다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
본 발명은 타겟 기술 도메인에 포함된 특허를 이용하여, 기술 도메인을 구조적으로 분석하는 방법을 제안한다. 이를 위해, 본 발명은 타겟 기술 도메인에 포함된 특허에 부여된 서로 다른 특허분류코드를 이용한다.
현재 사용되고 있는 특허분류코드에는 전세계에서 공통적으로 사용하는 IPC, CPC, 유럽 특허의 특허분류코드인 ECLA, 미국 특허의 특허분류코드인 USPC, 일본 특허의 특허분류코드인 F-term 및 FI 등이 있다. 그리고 일반적으로 하나의 특허에는 서로 다른 두개 이상의 특허분류코드가 할당된다. 예컨대, 국내 특허에는 IPC 및 CPC가 할당되고, 미국 특허에는 IPC, CPC 및 USPC가 할당된다.
본 발명은 이와 같이, 특허에 할당된 서로 다른 특허분류코드의 최하위 클래스를 이용하여, 서로 다른 특허분류코드의 최하위 클래스에 공통으로 포함되는 적어도 하나의 특허를 포함하는 특허 분류 단위인 MOC(Minnimum Overlap Classification)를 결정한다.
타겟 기술 도메인에 포함된 특허에 대해 다양한 조합의 MOC가 만들어질 수 있으며, 본 발명은 서로 다른 두개의 MOC 사이의 기술적 거리값에 따라서, 복수의 MOC를 클러스터링한다.
따라서, 본 발명에 따르면, 기술적 거리값이 유사한 특허를 중심으로 클러스터링된 복수의 클러스터가 만들어질 수 있으며, 하나의 클러스터에 포함된 특허들은 타겟 기술 도메인의 유사한 세부 기술에 대한 특허로 판단할 수 있다. 다시 말해 클러스터 각각은 타겟 기술 도메인의 하위 세부 기술을 나타낸다고 할 수 있다. 타겟 기술 도메인에 포함되는 특허들이, 서로 유사한 하위 세부 기술에 대한 특허들로 분해되기 때문에, 사용자는 타겟 기술 도메인의 하위 세부 기술을 파악할 수 있으며, 하위 세부 기술로 클러스터링된 특허를 통해 보다 용이하게 원하는 특허를 검색할 수 있다.
본 발명에 따른 기술 도메인의 분석 방법은, 프로세서를 포함하는 컴퓨팅 장치에서 수행될 수 있다. 일예로서, 본 발명에 따른 기술 도메인의 분석 방법은, 단말에서 수행되거나 또는 서버에서 수행될 수 있으며, 서버에서 수행된 분석 결과가 단말로 제공될 수 있다.
이하에서, 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일실시예에 따른 기술 도메인 분석 방법을 설명하기 위한 도면이다.
본 발명에 따른 기술 도메인 분석 장치는 분석하고자 하는 타겟 기술 도메인(분야)에 포함되는 특허 리스트를 입력받는다(S110).
타겟 기술 도메인에 포함되는 특허 리스트는 실시예에 따라서, 다양한 형태로 결정될 수 있다. 사용자에 의해 필터링된 특허 리스트가 입력되거나 또는 특허분류코드의 특정 분류코드가 할당된 특허 리스트가 입력될 수 있다.
예컨대, 타겟 기술 도메인이 태양광 발전(PV, Photovoltaic)인 경우, IPC 분류코드인 H01L, USPC 분류코드인 136이 할당된 특허 리스트가 입력될 수 있다.
본 발명에 따른 기술 도메인 분석 장치는 입력된 특허 리스트의 특허 각각에 할당된 제1 및 제2특허분류코드의 최하위 클래스에 기반하여, 타겟 기술 도메인에 대한 복수의 MOC를 결정한다(S120). 전술된 바와 같이, 제1 및 제2특허 분류 코드는 IPC, CPC, USPC, ECLA, F-term, FI 중에서 선택되는 서로 다른 특허분류코드일 수 있다.
MOC는, 제1 및 제2특허분류코드의 최하위 클래스에 공통으로 포함되는 적어도 하나의 특허를 포함하는 특허 분류 단위이다. 즉, 하나의 MOC는 제1 및 제2특허분류코드의 최하위 클래스가 공통적으로 할당된 적어도 하나의 특허로 이루어진다. 특허분류코드는 계층 구조로 이루어져있는데, 특허분류코드의 최하위 클래스는 해당 특허분류코드의 계층 구조에서의 최하위 클래스에 대응된다.
일실시예로서, 제1특허분류코드로 IPC가 사용되고, 제2특허분류코드로 USPC가 사용되는 경우를 고려해보자. IPC는 섹션, 클래스, 서브클래스, 메인그룹 및 서브그룹의 계층 구조로 이루어지며 따라서 IPC의 최하위 클래스는 서브그룹에 대응된다. 그리고 USPC는 클래스와 서브클래스의 계층 구조로 이루어지므로, USPC의 최하위 클래스는 서브클래스에 대응된다.
또한 특정 기술 도메인에 3개의 특허(P1, P2, P3)가 포함되고, 3개의 특허에 할당된 IPC 및 USPC의 최하위 클래스가 [표 1]과 같은 경우를 고려해보자.
특허 IPC의 최하위 클래스 USPC의 최하위 클래스
P1 A, B E
P2 B E, F
P3 B, C F, G
IPC 및 USPC의 최하위 클래스의 조합은 (A,E), (A,F), (A,G), (B,E), (B,F), (B,G) (C,E), (C,F), (C,G)로 총 9개가 만들어질 수 있지만, 이러한 조합중에서 적어도 하나의 특허를 공통으로 포함하는 조합은 (A,E), (B,E), (B,F), (B,G), (C,F), (C,G)이다. 따라서 총 6개의 MOC가 만들어 질 수 있으며, 각각의 MOC에 포함되는 특허는 [표 2]와 같다.
(A,E)에 의한 MOC1 (B,E)에 의한 MOC2 (B,F)에 의한 MOC3 (B,G)에 의한 MOC4 (C,F)에 의한 MOC5 (C,G)에 의한 MOC6
P1 P1, P2 P2, P3 P3 P3 P3
본 발명에 따른 기술 도메인 분석 장치는 서로 다른 두개의 MOC 사이의 기술적 거리값을 계산한다(S130). 기술적 거리값은 서로 다른 두개의 MOC가 기술적으로 가까운 정도를 나타내는 파라미터로서, 특허 중복 거리값과 계층 거리값 중 적어도 하나를 반영하는 값일 수 있다.
특허 중복 거리값은 서로 다른 두개의 MOC에 공통적으로 포함되는 특허의 개수에 따라서 결정되는 값으로서, 공통적으로 포함되는 특허의 개수가 많을수록 특허 중복 거리값은 작아진다.
또한 계층 거리값은 서로 다른 두개의 MOC의 최하위 클래스 사이의 유사도를 나타낸다. 여기서, 최하위 클래스 사이의 유사도는 동일한 특허분류코드 사이의 최하위 클래스의 유사도를 나타낸다.
특허분류코드는 전술된 바와 같이, 계층화된 구조로 이루어지는데, 최하위 클래스는 다시 세부 계층 구조로 이루어진다. 즉, 동일한 최하위 클래스에 속한 분류코드도 세부 계층 구조로 이루어진다. 예컨대, USPC의 클래스 분류코드인 136의 서브 클래스 분류코드 중 209 분류코드는 208 분류코드보다 하위에 위치하며, 210 분류코드는 209 분류코드보다 하위에 위치한다.
이와 같이, 최하위 클래스가 세부 계층 구조로 이루어기 때문에, MOC 별로 최하위 클래스 사이의 유사도가 달라질 수 있다.
그리고 기술 도메인 분석 장치는 기술적 거리값의 크기에 따라서, 복수의 MOC를 클러스터링한다(S140). 이 때, 기술 도메인 분석 장치는 미리 설정된 상기 기술적 거리값의 레벨에 따라서, 복수의 MOC를 클러스터링할 수 있다.
사용자로부터 특정 레벨이 요청되는 경우, 기술 도메인 분석 장치는 사용자로부터 입력된 요청 레벨에 따라 복수의 MOC를 클러스터링한 결과를, 상기 사용자에게 제공할 수 있다.
한편, 기술 도메인 분석 장치는 클러스터링된 클러스터에 각각에 포함된 특허로부터 적어도 하나의 키워드를 추출함으로써, 클러스터 각각이 타겟 기술 도메인의 하위 세부 기술 중 어떠한 세부 기술에 대한 특허로 이루어졌는지를 나타낼 수 있다.
특허 문서에서 자주 사용되는 빈도가 높은 단어 등이 키워드로 추출될 수 있으며, 다양한 텍스트 마이닝 알고리즘이 이용될 수 있다. 일실시예로서, RAKE(Rapid Automatic Keyword Extraction) 알고리즘이 키워드 추출에 이용될 수 있으며, 빈도에 따라서 키워드별로 계산되는 점수(CSS score)에 기반하여, 키워드의 대표성이 결정될 수 있다.
이하, 단계 S130 및 S140에 대해 보다 상세히 설명하기로 한다.
<기술적 거리값 >
본 발명에 따른 기술 도메인 분석 장치는 두개의 MOC에 공통으로 포함되는 특허의 개수에 따라서 결정되는 특허 중복 거리값을 계산한다. 공통으로 포함되는 특허의 개수가 많을수록 두개의 MOC에 대한 특허 중복 거리값은 커질 수 있다.
일실시예로서, 기술 도메인 분석 장치는 두개의 MOC의 코사인 유사도(cosine similarity)값을 특허 중복 거리값으로 이용할 수 있다. 코사인 유사도는 벡터 사이의 유사도를 나타내기 때문에, MOC에 포함되는 특허를 벡터로 표현하는 것이 필요하다.
일실시예로서, MOC에 포함되는 특허는 [수학식 1]과 같이 행백터 또는 열벡터로 표현될 수 있으며, 행 또는 열의 차원은 기술 도메인에 포함되는 특허의 총 개수(k)에 대응된다. 기술 도메인에 포함되는 특허에는 인덱스(k)가 할당되고, MOC에 포함된 특허에 대해서는 포함된 특허의 인덱스에 대응되는 원소의 값으로 1을 할당하고, MOC에 포함되지 않은 특허에 대해서는 포함되지 않는 특허의 인덱스에 대응되는 원소의 값으로 0을 할당한다.
Figure 112018066252330-pat00001
따라서, 전술된 [표 1] 및 [표 2]의 예시에서, 기술 도메인에 포함된 특허가 3개이므로, 행백터의 차원은 3이 되며, P1를 포함하는 MOC1에 대한 벡터는 [1 0 0]이 되며, P1, P2를 포함하는 MOC2에 대한 벡터는 [1 1 0]이 될 수 있다.
기술 도메인 분석 장치는 이와 같이 벡터화된 두개의 MOC에 대해, [수학식 2]를 이용하여 코사인 유사도를 계산할 수 있다. 여기서, M은 MOC에 대한 벡터를 나타낸다.
Figure 112018066252330-pat00002
그리고 실시예에 따라서 계산된 코사인 유사도에 대해 [수학식 3]과 같은 로지틱스 함수를 적용하여, 계산된 코사인 유사도 사이의 차이를 증가시킬 수 있다.
Figure 112018066252330-pat00003
또한 본 발명에 따른 기술 도메인 분석 장치는 두개의 MOC의 최하위 클래스 사이의 유사도를 나타내는 계층 거리값을 계산한다.
기술 도메인 분석 장치는 제1MOC 및 제2MOC의 제1특허분류코드의 최하위 클래스 사이의 제1계층 거리값을 계산하고, 제1MOC 및 제2MOC의 제2특허분류코드의 최하위 클래스 사이의 제2계층 거리값을 계산한 후 제1 및 제2계층 거리값을 평균하여, 최종적으로 두개의 MOC의 최하위 클래스 사이의 계층 거리값을 계산할 수 있다.
예컨대, 기술 도메인 분석 장치는 제1MOC의 IPC의 최하위 클래스가 H01L-021/027이고, 제2MOC의 IPC의 최하위 클래스가 H01L-021/70이면, H01L-021/027과 H01L-021/70 사이의 제1계층 거리값을 계산한다. 그리고 제1MOC의 USPC의 최하위 클래스가 136/210이고, 제2MOC의 USPC의 최하위 클래스가 136/206이면, 136/210 과 136/206 사이의 제2계층 거리값을 계산한다.
기술 도메인 분석 장치는 일실시예로서, wu and palmer similarity 기법을 이용하여 [수학식 4]와 같이 제1 및 제2계층 거리값을 계산할 수 있으며, [수학식 5]와 같이 제1 및 제2계층 거리값의 평균값을 구할 수 있다. [수학식 4]에서, C는 동일한 특허분류코드의 최하위 클래스를 나타내며, d(C)는 최상위 클래스에서 최하위 클래스 사이의 경로 길이를 나타낸다. 그리고
Figure 112018066252330-pat00004
는 서로 다른 최하위 클래스가 분기되는 공통 상위 클래스에서, 최상위 클래스까지의 경로 길이를 나타낸다.
Figure 112018066252330-pat00005
Figure 112018066252330-pat00006
도 2는 본 발명의 일실시예에 따른 계층 거리값을 설명하기 위한 도면으로서, USPC의 최하위 클래스 136/200은 도 2에 도시된 바와 같이 계층 구조를 나타낸다. 도 2에서 노드는 클래스를 나타내며 노드는 에지로 연결된다.
도 2를 참조하여 제2계층 거리값을 보다 자세히 설명하면, 제1MOC의 최하위 클래스 136/210에 대한 d(C)는 최상위 클래스인 136/000에서 136/210까지의 경로 길이가 되며, 제2MOC의 최하위 클래스 136/206에 대한 d(C)는 최상위 클래스인 136/000에서 136/206까지의 경로 길이가 된다. 그리고
Figure 112018066252330-pat00007
는 최하위 클래스 136/210 및 136/210이 분기되는 공통 상위 클래스인 136/205에서 최상위 클래스 136/000까지의 경로 길이가 된다.
본 발명에 따른 기술 도메인 분석 장치는 특허 중복 거리값 및 계층 거리값을 반영하는 기술적 거리값을 계산하며, 일실시예로서 특허 중복 거리값 및 계층 거리값을 서로 곱하여 최종적으로 기술적 거리값을 산출할 수 있다.
실시예에 따라서, 특허 중복 거리값 또는 계층 거리값이 선택적으로 기술적 거리값으로 이용될 수도 있다.
<클러스터링>
본 발명에 따른 기술 도메인 분석 장치는 기술적 거리값의 크기에 따라서, 복수의 MOC를 클러스터링하되, 미리 설정된 기술적 거리값의 레벨에 따라 클러스터링을 수행할 수 있다. 클러스터링된 클러스터는 유사한 기술적 거리값을 나타내는 특허를 포함하기 때문에, 각각 기술 도메인의 하위 세부 기술 영역에 대응되는 것으로 볼 수 있다.
기술적 거리값은 0에서 1사이의 값을 가질 수 있으며, 일실시예로서, 0.1 간격의 10개 레벨에 따라서 클러스터링이 이루어질 수 있다. 레벨이 커질수록 해당 레벨에 속하는 기술적 거리값은 작아질 수 있으며, 예컨대, 기술 도메인 분석 장치는 레벨 1에서, 기술적 거리값이 1이하인 MOC들을 클러스터링하고 레벨 2에서 기술적 거리값이 0.9이하인 MOC들을 클러스터링할 수 있다. 결국, 레벨은 기술 도메인 계층 구조의 깊이라고 할 수 있으며, 레벨이 커질수록 보다 세부적으로 계층 구조가 형성될 수 있다.
이 때, 기술 도메인 분석 장치는 클러스터링된 클러스터에 포함된 특허의 개수가 제1임계값 이상이 되고, 서로 다른 클러스터에 공통으로 포함되는 특허의 개수가 제2임계값 이하가 되도록 클러스터링할 수 있다. 여기서, 서로 다른 클러스터에 공통으로 포함되는 특허가 적은 클러스터는 평균 독립성이 높은 클러스터라고 표현될 수 있다.
기술 도메인의 하위 세부 기술을 나타내는 클러스터는, 서로 다른 기술을 경계짓는 기술 영역이기 때문에, 포함된 특허의 개수가 너무 적거나 다른 클러스터와 공통으로 포함된 특허가 많은 클러스터를 별도의 하위 세부 기술 영역으로 보기에는 무리가 있다. 따라서, 기술 도메인 분석 장치는 클러스터에 포함되는 특허의 개수 및 클러스터의 평균 독립성이 일정 수준 이상이 되도록 클러스터를 생성한다.
본 발명에 따른 기술 도메인 분석 장치는 일실시예로서, [수학식 6]과 같은 조건을 만족하도록 클러스터링을 수행할 수 있다.
Figure 112018066252330-pat00008
또한 본 발명에 따른 기술 도메인 분석 장치는 일실시예로서, 평균 독립성이 0.8인 이상이 되도록 클러스터링을 수행할 수 있으며, [수학식 7]과 같이 두 집합의 유사도를 측정하는 자카드 지수(Jaccard index)를 기반으로 평균 독립성을 계산할 수 있다. 자카드 지수가 클수록 두 집합의 유사도는 낮으며, 평균 독립성은 높다고 할 수 있다.
여기서, l은 레벨 인덱스를 나타내며, n은 l레벨에서의 클러스터의 개수이다. C는 클러스터를 나타내며, i 및 j는 서로 다른 클러스터의 인덱스를 나타낸다.
Figure 112018066252330-pat00009
도 3은 본 발명의 일실시예에 따른 클러스터링 결과를 도시하는 도면으로서, 전술된 조건을 만족시키며 다양한 레벨에 따라서 클러스터링된 클러스터(C)를 파란색 원으로 표시하고 있다. 도 3은 타겟 기술 도메인이 태양광 발전(PV, Photovoltaic)이고, IPC 특허분류코드 H01L 및 USPC 특허분류코드 136이 할당된 4928개 특허에 대한 클러스터링 결과로서, 타겟 기술 도메인의 계층 구조를 나타낸다.
레벨 1에서 5까지는 기술적 거리값이 큰 편이기 때문에 하나의 클러스터로 특허들이 클러스터링되지만, 레벨 6부터는 기술적 거리값이 작아져 클러스터의 개수가 증가함을 알 수 있다. 클러스터의 개수가 증가한다는 것은 기술 도메인이 하위 세부 기술로 분할됨을 의미한다.
사용자는 특정 레벨을 요청할 수 있으며, 기술 도메인 분석 장치는 사용자로부터 요청된 레벨에서의 클러스터링 결과를 제공할 수 있다.
이와 같은 클러스터에 포함된 특허로부터 추출된 키워드, 즉 클러스터 각각을 대표하는 키워드는 도 4 내지 6과 같다. 도 4 내지 도 6은 제1클러스터(C1)부터 제19클러스터(C19)에 대한 키워드를 나타내는 표를 분할하여 표시하는 도면이다.
도 7은 본 발명의 일실시예에 따른 기술 도메인 분석 장치의 블록도를 나타낸다.
도 7을 참조하면, 본 발명에 따른 기술 도메인 분석 장치는 MOC 결정부(710), 거리값 계산부(720), 클러스터 생성부(730)를 포함한다. 실시예에 따라서, 기술 도메인 분석 장치는 사용자의 요청 정보를 입력받는 인터페이스 장치와 분석 결과를 출력하는 출력 장치를 더 포함할 수 있다.
MOC 결정부(710)는 타겟 기술 도메인에 포함되는 특허 리스트의 특허 각각에 할당된 제1 및 제2특허분류코드의 최하위 클래스에 기반하여, 타겟 기술 도메인에 대한 복수의 MOC를 결정한다.
거리값 계산부(720)는 결정된 MOC의 특허 정보 및 최하위 클래스 정보를 이용하여 서로 다른 두개의 MOC 사이의 기술적 거리값을 계산한다. 실시예에 따라서, 특허 중복 거리와 계층 거리를 선택적으로 이용하여 기술적 거리값을 계산할 수 있다.
클러스터 생성부(730)는 기술적 거리값의 크기에 따라서, 복수의 MOC를 클러스터링하여, 적어도 하나의 클러스터를 생성한다. 클러스터 생성부(730)는 미리 설정된 거리값 크기 별로 MOC를 클러스터링함으로써, 타겟 기술 분야에 대한 특허들을 기술적 거리값에 따라 분해할 수 있다. 분해된 특허들 즉, 클러스터 각각은 유사한 기술적 거리값에 의해 결정되기 때문에, 타겟 기술 분야의 하위 세부 기술에 대응된다고 볼 수 있다.
클러스터 생성부(730)는 클러스터에 대한 키워드를 추출하여, 클러스터에 할당할 수 있다.
앞서 설명한 기술적 내용들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예들을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 하드웨어 장치는 실시예들의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

Claims (10)

  1. 기술 도메인 분석 장치의 기술 도메인의 분석 방법에 있어서,
    타겟 기술 도메인에 포함되는 특허 리스트를 입력받는 단계;
    상기 특허 리스트의 특허 각각에 할당된 제1 및 제2특허분류코드의 최하위 클래스에 기반하여, 상기 타겟 기술 도메인에 대한 복수의 MOC(Minnimum Overlap Classification)를 결정하는 단계;
    서로 다른 두개의 MOC 사이의 기술적 거리값을 계산하는 단계; 및
    상기 기술적 거리값의 크기에 따라서, 상기 복수의 MOC를 클러스터링하는 단계를 포함하며,
    상기 기술적 거리값을 계산하는 단계는
    상기 두개의 MOC에 공통으로 포함되는 특허의 개수에 따라서 결정되는 특허 중복 거리값을 계산하는 단계;
    상기 두개의 MOC의 최하위 클래스 사이의 유사도를 나타내는 계층 거리값을 계산하는 단계; 및
    상기 특허 중복 거리값 및 상기 계층 거리값을 반영하는 상기 기술적 거리값을 계산하는 단계를 포함하며,
    상기 MOC는, 상기 제1 및 제2특허분류코드의 최하위 클래스에 공통으로 포함되는 적어도 하나의 특허를 포함하는 특허 분류 단위인
    기술 도메인의 분석 방법.
  2. 삭제
  3. 제 1항에 있어서,
    상기 계층 거리값을 계산하는 단계는
    제1MOC 및 제2MOC의 상기 제1특허분류코드의 최하위 클래스 사이의 제1계층 거리값을 계산하는 단계; 및
    상기 제1MOC 및 상기 제2MOC의 상기 제2특허분류코드의 최하위 클래스 사이의 제2계층 거리값을 계산하는 단계; 및
    상기 제1 및 제2계층 거리값을 평균하는 단계
    를 포함하는 기술 도메인의 분석 방법.
  4. 제 1항에 있어서,
    상기 기술적 거리값은
    상기 특허 중복 거리 및 상기 계층 거리를 곱한 값인
    기술 도메인의 분석 방법.
  5. 제 1항에 있어서,
    상기 복수의 MOC를 클러스터링하는 단계는
    클러스터링된 클러스터에 포함된 특허의 개수가 제1임계값 이상이 되고, 서로 다른 클러스터에 공통으로 포함되는 특허의 개수가 제2임계값 이하가 되도록 클러스터링하는
    기술 도메인의 분석 방법.
  6. 제 1항에 있어서,
    상기 복수의 MOC를 클러스터링하는 단계는
    미리 설정된 상기 기술적 거리값의 레벨에 따라서, 상기 복수의 MOC를 클러스터링하는
    기술 도메인의 분석 방법.
  7. 제 6항에 있어서,
    사용자로부터 입력된 요청 레벨에 따라 상기 복수의 MOC를 클러스터링한 결과를, 상기 사용자에게 제공하는 단계
    를 더 포함하는 기술 도메인의 분석 방법.
  8. 제 1항에 있어서,
    클러스터링된 클러스터에 각각에 포함된 특허로부터 키워드를 추출하는 단계
    를 더 포함하는 기술 도메인의 분석 방법.
  9. 제 1항에 있어서,
    상기 제1 및 제2특허분류코드는
    IPC, CPC, USPC, ECLA, F-term 및 FI 중에서 선택되는 서로 다른 특허분류코드인
    기술 도메인의 분석 방법.
  10. 삭제
KR1020180078109A 2018-07-05 2018-07-05 기술 도메인의 분석 방법 및 장치 KR102144162B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180078109A KR102144162B1 (ko) 2018-07-05 2018-07-05 기술 도메인의 분석 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180078109A KR102144162B1 (ko) 2018-07-05 2018-07-05 기술 도메인의 분석 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20200005004A KR20200005004A (ko) 2020-01-15
KR102144162B1 true KR102144162B1 (ko) 2020-08-13

Family

ID=69157066

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180078109A KR102144162B1 (ko) 2018-07-05 2018-07-05 기술 도메인의 분석 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102144162B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080243816A1 (en) * 2007-03-30 2008-10-02 Chan James D Processes for calculating item distances and performing item clustering
KR101385452B1 (ko) * 2012-11-28 2014-04-24 한국과학기술정보연구원 네트워크 분석 방법을 이용한 연구개발 우선순위 결정 장치 및 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101201218B1 (ko) * 2010-11-15 2012-11-15 (주)광개토연구소 니치 기술 영역 발견을 지원하는 니치 기술 영역 발견을 지원하는 특허 정보 처리 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080243816A1 (en) * 2007-03-30 2008-10-02 Chan James D Processes for calculating item distances and performing item clustering
KR101385452B1 (ko) * 2012-11-28 2014-04-24 한국과학기술정보연구원 네트워크 분석 방법을 이용한 연구개발 우선순위 결정 장치 및 방법

Also Published As

Publication number Publication date
KR20200005004A (ko) 2020-01-15

Similar Documents

Publication Publication Date Title
CN105389349B (zh) 词典更新方法及装置
Nagwani Summarizing large text collection using topic modeling and clustering based on MapReduce framework
Lin et al. Generating event storylines from microblogs
US10579661B2 (en) System and method for machine learning and classifying data
KR20110009098A (ko) 편집 거리 및 문서 정보를 이용한 검색 결과 랭킹
CN109597924B (zh) 一种基于人工免疫网络的微博社交圈挖掘方法及系统
CN108427756B (zh) 基于同类用户模型的个性化查询词补全推荐方法和装置
US11036818B2 (en) Method and system for detecting graph based event in social networks
US11550937B2 (en) Privacy trustworthiness based API access
RU2556425C1 (ru) Способ автоматической итеративной кластеризации электронных документов по семантической близости, способ поиска в совокупности кластеризованных по семантической близости документов и машиночитаемые носители
Chiang et al. Progressive simplification of tetrahedral meshes preserving all isosurface topologies
Brito et al. An iterative local search approach applied to the optimal stratification problem
JP6079270B2 (ja) 情報提供装置
CN110598126A (zh) 基于行为习惯的跨社交网络用户身份识别方法
KR102144162B1 (ko) 기술 도메인의 분석 방법 및 장치
Bagdouri et al. Profession-based person search in microblogs: Using seed sets to find journalists
Wu et al. Community detection with topological structure and attributes in information networks
WO2011070979A1 (ja) 辞書作成装置
Cha et al. Topic model based approach for improved indexing in content based document retrieval
KR101058895B1 (ko) 온톨로지를 이용한 문서의 주제 측정 방법 및 장치
Xue et al. Modeling reformulation using passage analysis
KR102052823B1 (ko) 잠재 디리클레 할당을 이용한 토픽 모델 자동화 방법 및 장치
CN113010642A (zh) 语义关系的识别方法、装置、电子设备及可读存储介质
Saxena et al. An iterative MapReduce framework for sports-based tweet clustering
KR102351854B1 (ko) 기술 도메인에 대한 기술 발전도 생성 방법 및 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant