KR101938748B1 - 기술 문서 분석 방법 및 장치 - Google Patents

기술 문서 분석 방법 및 장치 Download PDF

Info

Publication number
KR101938748B1
KR101938748B1 KR1020170026243A KR20170026243A KR101938748B1 KR 101938748 B1 KR101938748 B1 KR 101938748B1 KR 1020170026243 A KR1020170026243 A KR 1020170026243A KR 20170026243 A KR20170026243 A KR 20170026243A KR 101938748 B1 KR101938748 B1 KR 101938748B1
Authority
KR
South Korea
Prior art keywords
keywords
technical
appearance frequency
keyword
documents
Prior art date
Application number
KR1020170026243A
Other languages
English (en)
Other versions
KR20180099164A (ko
Inventor
박상성
김영호
이준석
전성해
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to KR1020170026243A priority Critical patent/KR101938748B1/ko
Publication of KR20180099164A publication Critical patent/KR20180099164A/ko
Application granted granted Critical
Publication of KR101938748B1 publication Critical patent/KR101938748B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

기술 문서 수집부가, 분석의 대상이 되는 복수의 기술 문서를 기술 문서 데이터베이스로부터 수집하는 단계, 키워드 추출부가, 복수의 기술 문서 각각에 포함된 적어도 하나의 단어 각각의 출현 횟수에 기초하여 복수의 기술 문서로부터 복수의 키워드(keyword)를 추출하는 단계 및 기술 문서 분석부가, 기계학습에 기초하여 미리 생성된 적어도 하나의 기술 문서 분석 모델에 복수의 키워드를 입력하여 복수의 기술 문서를 분석하는 단계를 포함하는, 기술 문서 분석 방법 및 이를 위한 장치에 관한 것이다.

Description

기술 문서 분석 방법 및 장치{METHOD AND APPARATUS FOR ANALYZING TECHNICAL DOCUMENT}
본 발명은 기계학습에 기초하여 기술 문서를 분석하기 위한 방법 및 이를 위한 장치에 관한 것이다.
빅데이터(bigdata)는 사회 현상과 각종 산업 분야를 비롯하여 각종 분야에 교차되어 확대되고 있으며, 이러한 빅데이터는 용량, 다양성, 속도의 3가지 측면에서 일반적인 데이터와 구분된다.
여기서, 용량은 빅데이터의 경우 방대한 크기를 지니게 됨을 의미하며, 다양성은 빅데이터의 경우 숫자, 문자, 그림, 동영상 등 각종 자료들을 포함함을 의미하고, 속도는 빅데이터의 경우 빠르게 그 데이터량이 급증함을 의미한다.
이때, 기술 문서들은 상술한 빅데이터의 특징을 따르게 되며, 기술 문서의 일례인 특허 문서에는 제목, 요약, 발명자, 출원일, 도면부호, 인용문헌을 비롯한 발명에 대한 다양한 기재들이 포함되어 있으며, 기술 문서의 다른예인 논문 또한, 제목, 초록, 저자, 공개방식을 비롯한 기술에 대한 다양한 기재들이 포함되어 있다.
이렇듯, 기술 문서들은 빅데이터의 성질을 띄기 때문에, 기술 문서들은 방대한 용량을 가지며, 데이터량이 빠르게 급증하고, 각종 자료들을 포함하게 되며, 이러한 기술 문서들을 분석하기 위해서는 많은 비용 및 시간이 소요되는 문제가 있다.
한국 등록특허공보 제10-0676693호(2007.01.25.)
본 발명의 목적은, 상기 문제점을 해결하기 위한 것으로, 수집된 복수의 기술 문서 각각에 포함된 적어도 하나의 단어 각각의 출현 횟수에 기초하여 복수의 기술 문서로부터 복수의 키워드(keyword)를 추출하고, 기계학습에 기초하여 미리 생성된 적어도 하나의 기술 문서 분석 모델에 복수의 키워드를 입력하여 복수의 기술 문서를 분석하기 위함이다.
본 발명이 해결하고자 하는 과제는 이상에서 언급한 과제(들)로 제한되지 않으며, 언급되지 않은 또 다른 과제(들)은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기한 목적을 달성하기 위하여 본 발명의 실시예에 따른 기술 문서 분석 방법은 기술 문서 수집부가, 분석의 대상이 되는 복수의 기술 문서를 기술 문서 데이터베이스로부터 수집하는 단계, 키워드 추출부가, 복수의 기술 문서 각각에 포함된 적어도 하나의 단어 각각의 출현 횟수에 기초하여 복수의 기술 문서로부터 복수의 키워드(keyword)를 추출하는 단계 및 기술 문서 분석부가, 기계학습에 기초하여 미리 생성된 적어도 하나의 기술 문서 분석 모델에 복수의 키워드를 입력하여 복수의 기술 문서를 분석하는 단계를 포함한다.
예컨대, 복수의 키워드를 추출하는 단계는, 복수의 기술 문서 각각에 포함된 전체 텍스트 정보에서 불용어(stopword)를 제거하여 전체 텍스트 정보를 말뭉치(corpus) 정보로 변환하는 단계, 복수의 기술 문서 별로 말뭉치 정보에 포함된 적어도 하나의 단어 각각의 출현 횟수를 나타내는 행렬인 기술 문서 별 단어 행렬을 생성하는 단계 및 기술 문서 별 단어 행렬에 포함된 적어도 하나의 단어 각각의 출현 횟수가 큰 순서대로 기설정된 개수의 단어를 선택하여 복수의 키워드를 추출하는 단계를 포함한다.
일 실시예에 따르면, 복수의 기술 문서를 분석하는 단계는, 기술 문서 분류부가, 기계학습에 기초하여 미리 생성된 기술 문서 분류 모델에 복수의 키워드를 입력하여, 복수의 기술 문서를 서지사항 정보 별로 분류하는 단계를 포함한다.
예를 들어, 복수의 기술 문서를 서지 정보 별로 분류하는 단계는, 복수의 기술 문서 각각에 포함된 복수의 키워드를 출현 빈도 구간 별로 분류하기 위한 소정 개수의 출현 빈도 등급 각각에 대하여 복수의 키워드 각각이 속하는 정도를 나타내는 소속도에 기초하여 복수의 키워드 각각의 출현 빈도 등급을 결정하는 단계, 복수의 키워드 및 복수의 키워드 각각에 대응되는 출현 빈도 등급을 기술 문서 분류 모델에 입력하는 단계 및 복수의 키워드 및 복수의 키워드 각각에 대응되는 출현 빈도 등급 상호 간의 관계에 대한 기설정된 조건에 기초하여 복수의 기술 문서를 서지사항 정보 별로 분류하는 단계를 포함한다.
일 실시예에 따르면, 복수의 기술 문서를 분석하는 단계는, 출현 빈도 등급 추정부가, 기계학습에 기초하여 미리 생성된 키워드 분석 모델에 복수의 키워드를 입력하여, 특정 추정 대상 키워드의 출현 빈도 등급을 추정하는 단계를 포함한다.
예를 들어, 특정 추정 대상 키워드의 출현 빈도 등급을 추정하는 단계는, 복수의 기술 문서 각각에 포함된 복수의 키워드를 출현 빈도 구간 별로 분류하기 위한 소정 개수의 출현 빈도 등급 각각에 대하여 복수의 키워드 각각이 속하는 정도를 나타내는 소속도에 기초하여 복수의 키워드 각각의 출현 빈도 등급을 결정하는 단계, 복수의 키워드 및 복수의 키워드 각각에 대응되는 출현 빈도 등급을 키워드 분석 모델에 입력하는 단계 및 복수의 키워드 및 복수의 키워드 각각에 대응되는 출현 빈도 등급 상호 간의 관계에 대한 기설정된 조건에 기초하여 특정 추정 대상 키워드의 출현 빈도 등급을 추정하는 단계를 포함한다.
일 실시예에 따르면, 복수의 기술 문서를 분석하는 단계는, 소속 기술군 결정부가, 기계학습에 기초하여 미리 생성된 소속 기술군 결정 모델에 복수의 키워드를 입력하여, 소정 개수의 기술군 각각에 대하여 복수의 기술 문서 각각이 속하는 정도를 나타내는 기술군 소속 계수를 결정하는 단계를 포함한다.
상기한 목적을 달성하기 위하여, 본 발명의 실시예에 따른 기술 문서 분석 장치는, 분석의 대상이 되는 복수의 기술 문서를 기술 문서 데이터베이스로부터 수집하는 기술 문서 수집부, 복수의 기술 문서 각각에 포함된 적어도 하나의 단어 각각의 출현 횟수에 기초하여 복수의 기술 문서로부터 복수의 키워드(keyword)를 추출하는 키워드 추출부 및 기계학습에 기초하여 미리 생성된 적어도 하나의 기술 문서 분석 모델에 복수의 키워드를 입력하여 복수의 기술 문서를 분석하는 기술 문서 분석부를 포함한다.
본 발명의 일 실시예에 따르면, 수집된 복수의 기술 문서 각각에 포함된 적어도 하나의 단어 각각의 출현 횟수에 기초하여 복수의 기술 문서로부터 복수의 키워드(keyword)를 추출하고, 기계학습에 기초하여 미리 생성된 적어도 하나의 기술 문서 분석 모델에 복수의 키워드를 입력하여 복수의 기술 문서를 분석함으로써, 시간 및 비용의 소모를 절감할 수 있다.
나아가, 본 발명의 일 실시예에 따르면, 기술 문서를 분류할 수 있고, 키워드 및 기술 간의 관계를 확인함과 동시에, 기술 문서를 군집화 할 수 있기 때문에, 국가, 기관, 기업 등을 비롯한 각종 단체의 연구 및 개발 계획 수립에 기여할 수 있으며, 각종 기술 경영(MOT) 문제에도 적용될 수 있다.
도 1은 본 발명의 실시예에 따른, 기술 문서 분석 장치를 설명하기 위한 구성도이다.
도 2는 본 발명의 실시예에 따른, 기술 문서 분석 장치에서 기술 문서 분석부를 설명하기 위한 구성도이다.
도 3은 본 발명의 실시예에 따른, 기술 문서 분석 방법을 설명하기 위한 순서도이다.
도 4는 본 발명의 실시예에 따른, 기술 문서 분석 방법에서 복수의 키워드를 추출하는 단계를 설명하기 위한 순서도이다.
도 5는 본 발명의 실시예에 따른, 기술 문서 분석 방법에서 복수의 기술 문서를 분석하는 단계의 제1 실시예를 설명하기 위한 순서도이다.
도 6은 본 발명의 실시예에 따른, 기술 문서 분석 방법에서 복수의 기술 문서를 분석하는 단계의 제2 실시예를 설명하기 위한 순서도이다.
도 7 및 도 8은 본 발명의 실시예에 따른, 기술 문서 분석 방법에서 복수의 키워드를 추출하는 단계를 설명하기 위한 도면이다.
도 9는 본 발명의 실시예에 따른, 기술 문서 분석 방법의 복수의 기술 문서를 분석하는 단계의 제1 실시예에서 기술 문서 분류 모델을 설명하기 위한 도면이다.
도 10a 및 도 10b는 본 발명의 실시예에 따른, 기술 문서 분석 방법의 복수의 기술 문서를 분석하는 단계의 제1 실시예에서 복수의 기술 문서를 서지 정보 별로 분류하는 방법을 설명하기 위한 도면이다.
도 11a, 도 11b 및 도 11c는 본 발명의 실시예에 따른, 기술 문서 분석 방법의 복수의 기술 문서를 분석하는 단계의 제2 실시예에서 특정 추정 대상 키워드의 출현 빈도 등급을 추정하는 방법을 설명하기 위한 도면이다.
도 12a 및 도 12b는 본 발명의 실시예에 따른, 기술 문서 분석 방법에서 복수의 기술 문서를 분석하는 단계의 제3 실시예를 설명하기 위한 도면이다.
도 13은 본 발명의 실시예에 따른, 기술 문서 분석 방법의 복수의 기술 문서를 분석하는 단계의 제2 실시예의 유효성을 검증하기 위한 도면이다.
이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여, 본 발명의 가장 바람직한 실시예를 첨부 도면을 참조하여 설명하기로 한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
이하, 본 발명의 실시예에 따른 기술 문서 분석 방법 및 장치를 첨부된 도면을 참조하여 상세하게 설명하면 아래와 같다.
먼저, 도 1을 참조하여 본 발명의 실시예에 따른 기술 문서 분석 장치(100)를 설명한다.
도 1은 본 발명의 실시예에 따른, 기술 문서 분석 장치를 설명하기 위한 구성도이다.
도 1에 도시된 바와 같이, 본 발명의 실시예에 따른 기술 문서 분석 장치(100)는 기술 문서 수집부(110), 키워드 추출부(120) 및 기술 문서 분석부(130)를 포함한다.
기술 문서 수집부(110)는 분석의 대상이 되는 복수의 기술 문서를 기술 문서 데이터베이스(1)로부터 수집한다.
키워드 추출부(120)는 복수의 기술 문서 각각에 포함된 적어도 하나의 단어 각각의 출현 횟수에 기초하여 복수의 기술 문서로부터 복수의 키워드(keyword)를 추출한다.
기술 문서 분석부(130)는 기계학습에 기초하여 미리 생성된 적어도 하나의 기술 문서 분석 모델에 복수의 키워드를 입력하여 복수의 기술 문서를 분석한다.
이제 도 2를 참조하여, 본 발명의 실시예에 따른 기술 문서 분석 장치(100)에서 기술 문서 분석부(130)를 설명한다.
도 2는 본 발명의 실시예에 따른, 기술 문서 분석 장치에서 기술 문서 분석부를 설명하기 위한 구성도이다.
도 2에 도시된 바와 같이, 기술 문서 분석부(130)는 기술 문서 분류부(131), 출현 빈도 등급 추정부(133) 및 소속 기술군 결정부(135)를 포함한다.
기술 문서 분류부(131)는 기계학습에 기초하여 미리 생성된 기술 문서 분류 모델에 복수의 키워드를 입력하여, 복수의 기술 문서를 서지사항 정보 별로 분류한다.
출현 빈도 등급 추정부(133)는, 기계학습에 기초하여 미리 생성된 키워드 분석 모델에 복수의 키워드를 입력하여, 특정 추정 대상 키워드의 출현 빈도 등급을 추정한다.
소속 기술군 결정부(135)는, 기계학습에 기초하여 미리 생성된 소속 기술군 결정 모델에 복수의 키워드를 입력하여, 소정 개수의 기술군 각각에 대하여 복수의 기술 문서 각각이 속하는 정도를 나타내는 기술군 소속 계수를 결정한다.
일 실시예에 따르면, 상술한 기술 문서 분류 모델, 키워드 분석 모델 및 소속 기술군 결정 모델 각각은 기계학습의 일종인 퍼지 규칙 기반 시스템(Fuzzy Rule Based System, FRBS)에 기반한 퍼지학습(Fuzzy Learning)에 기초하여 생성된 일종의 퍼지 분류 모델, 퍼지 회귀 모델 및 퍼지 군집화 모델을 의미할 수 있으나, 본 발명은 이에 한정되지 않는다.
본 발명의 실시예에 따른, 기술 문서 분석 방법 및 장치는 기술 문서의 분석을 위하여 상술한 퍼지 규칙 기반 시스템을 활용할 수 있으며, 여기서 본 발명의 실시예에 따른, 기술 문서 분석 방법 및 장치가 활용하는 퍼지 규칙 기반 시스템은 “if-then” 규칙을 활용하는 퍼지추론 및 모델링 시스템을 포함할 수 있다.
여기서, “if-then” 규칙은 “A가 a이고 B가 b인 경우에서 C의 값을 결정”하기 위한 규칙을 의미할 수 있으며, 상술한 “if-then” 규칙은 퍼지 분류 모델, 퍼지 회귀 모델 및 퍼지 군집화 모델 각각에 미리 학습되어 저장될 수 있다.
본 발명의 일 실시예에 따르면, 상술한 기술 문서 분류 모델, 키워드 분석 모델 및 소속 기술군 결정 모델 각각을 생성하기 위한 퍼지학습(Fuzzy Learning)은 퍼지 학습을 위한 소프트웨어인 R 데이터 언어 및 그 시스템에 기초하여 수행될 수 있으나, 본 발명은 이에 한정되지 않는다.
본 발명의 실시예에 따른, 기술 문서 분석 장치에 대한 보다 구체적인 설명은 이하 도 3 내지 도 12b를 참조하여 후술하도록 하며, 중복되는 설명은 생략한다.
이제 도 3을 참조하여, 본 발명의 실시예에 따른 기술 문서 분석 방법을 설명한다.
도 3은 본 발명의 실시예에 따른, 기술 문서 분석 방법을 설명하기 위한 순서도이다.
도 3에 도시된 바와 같이, 본 발명의 실시예에 따른, 기술 문서 분석 방법은 기술 문서 수집 단계(S310), 복수의 키워드를 추출하는 단계(S320) 및 복수의 기술 문서를 분석하는 단계(S330)를 포함한다.
S310 단계는 기술 문서 수집부(110)가, 분석의 대상이 되는 복수의 기술 문서를 기술 문서 데이터베이스(1)로부터 수집하는 단계를 의미한다.
일 실시예에 따르면, 기술 문서는 특허 문서, 논문을 비롯한 기술에 대한 설명을 기재하는 각종 문서를 의미할 수 있으며, 본 발명은 특정 기술 문서에 한정되지 않는다.
예컨대, 기술 문서 데이터베이스(1)는 기술 문서를 저장하는 각종 데이터베이스를 의미할 수 있다.
예를 들어, 기술 문서가 특허 문서인 경우 기술 문서 데이터베이스(1)는 각종 특허 문서 데이터베이스를 의미할 수 있으며, 기술 문서가 논문인 경우 기술 문서 데이터베이스(1)는 각종 논문 데이터베이스를 의미할 수 있으며, 본 발명은 특정 기술 문서 데이터베이스(1)에 한정되지 않는다.
예컨대, S310 단계에서 수집한 특허 문서, 논문을 비롯한 복수의 기술 문서는 문자, 숫자, 그림 등을 포함하여 용량이 크고, 매우 다양하며, 많은 수의 기술 문서들이 실시간으로 공개되기 때문에 업데이트 속도가 매우 빠르기 때문에 수집된 복수의 기술 문서는 빅데이터의 구조와 같을 수 있으나, 본 발명은 이에 한정되지 않는다.
예컨대, 기술 문서의 일 실시예인 특허 문서에는 발명의 명칭, 요약, 출원일, 발명자, 청구항, 그림, 도면, 국제특허분류코드(IPC), 출원 국가를 비롯한 각종 데이터가 포함되어 있기 때문에, 빅데이터의 특징인 다양성을 충족하고, 많은 수의 특허들이 매일 전 세계 특허청에서 공개되기 ?문에 빅데이터의 특징인 속도를 충족하기 때문에, 특허 문서는 일종의 빅데이터 구조와 같을 수 있으나, 본 발명은 이에 한정되지 않는다.
S320 단계는, 키워드 추출부(120)가, 복수의 기술 문서 각각에 포함된 적어도 하나의 단어 각각의 출현 횟수에 기초하여 복수의 기술 문서로부터 복수의 키워드(keyword)를 추출하는 단계를 의미할 수 있다.
예컨대, S320 단계에서 키워드 추출부(120)는 복수의 기술 문서 각각에 포함된 전체 텍스트 정보를 구성하는 적어도 하나의 단어를 각각 추출하고, 복수의 기술 문서 각각에 대하여 추출된 단어의 출현 횟수가 높은 순서대로 기설정된 개수의 단어를 선택하여 복수의 기술 문서 각각에 대한 키워드를 추출할 수 있다.
이제 도 4, 도 7 및 도 8을 동시에 참조하여, S320 단계를 계속 설명한다.
도 4는 본 발명의 실시예에 따른, 기술 문서 분석 방법에서 복수의 키워드를 추출하는 단계를 설명하기 위한 순서도이다.
도 7 및 도 8은 본 발명의 실시예에 따른, 기술 문서 분석 방법에서 복수의 키워드를 추출하는 단계를 설명하기 위한 도면이다.
도 4에 도시된 바와 같이, S320 단계는 텍스트 정보를 말뭉치 정보로 변환하는 단계(S321), 기술 문서 별 단어 행렬 생성 단계(S323) 및 복수의 키워드를 추출하는 단계(S235)를 포함한다.
S321 단계는, 복수의 기술 문서 각각에 포함된 전체 텍스트 정보에서 불용어(stopword)를 제거하여 전체 텍스트 정보를 말뭉치(corpus) 정보로 변환하는 단계를 의미할 수 있다.
예컨대, 전체 텍스트 정보는 상술한 복수의 기술 문서 각각을 구성하는 단어, 문장, 문단을 비롯한 각종 텍스트를 포함하는 정보를 의미할 수 있다.
예컨대, 불용어는 숫자, 공백, 구두점, 관사, 전치사, 조사, 접속사, 대명사를 비롯하여, 복수의 기술 문서 각각의 기술적 특징을 설명하는데 불필요한 단어 또는 문장 기호를 의미할 수 있다.
예컨대, 말뭉치 정보는 전체 텍스트 정보에서 불용어를 제거하여, 복수의 기술 문서 각각의 기술적 특징을 설명하는데 필요한 것으로 예상되는 단어들의 집합 정보를 의미할 수 있다.
예를 들어, 복수의 기술 문서 각각이 영문 기술 문서인 경우, 전체 텍스트 정보가 “He likes an apple.”인 경우, 대명사인 “He”, 관사인 “an” 및 구두점인 “.”은 불용어에 해당될 수 있으며, 그 결과 S321 단계에서 추출된 말뭉치 정보는 “likes apple”을 의미할 수 있다.
예를 들어, 복수의 기술 문서 각각이 국문 기술 문서인 경우, 전체 텍스트 정보가 “그는 사과를 좋아한다.”인 경우, 대명사인 “그”, 조사인 “는”, 조사인 “를” 및 구두점인 “.”은 불용어에 해당될 수 있으며, 그 결과 S321 단계에서 추출된 말뭉치 정보는 “사과 좋아한다”를 의미할 수 있다.
S323 단계는, 복수의 기술 문서 별로 말뭉치 정보에 포함된 적어도 하나의 단어 각각의 출현 횟수를 나타내는 행렬인 기술 문서 별 단어 행렬을 생성하는 단계를 의미할 수 있다.
이제, 도 7을 참조하여, S323 단계에서 생성되는 기술 문서 별 단어 행렬을 설명한다.
도 7에 도시된 바와 같이, 기술 문서 별 단어 행렬은 각각의 기술 문서에 포함되는 단어들의 출현 횟수를 나타내는 행렬을 의미할 수 있다.
예컨대, 도 7에 도시된 바와 같이 일 실시예에 따른, 기술 문서 별 단어 행렬에는, 기술문서 1은 단어1을 3개, 단어2를 1개, 단어3을 4개, 단어 4를 2개, 단어 5를 0개 포함하고, 기술문서 2는 단어1을 4개, 단어2를 3개, 단어3을 6개, 단어 4를 3개, 단어 5를 2개 포함하고, 기술문서 3은 단어1을 2개, 단어2를 0개, 단어3을 3개, 단어 4를 1개, 단어 5를 4개 포함하는 정보가 포함될 수 있다.
이제, 도 4를 계속 참조하여, S325 단계를 설명한다.
S325 단계는, 기술 문서 별 단어 행렬에 포함된 적어도 하나의 단어 각각의 출현 횟수가 큰 순서대로 기설정된 개수의 단어를 선택하여 복수의 키워드를 추출하는 단계를 의미할 수 있다.
예를 들어, 도 7에 도시된 기술 문서 별 단어 행렬에서 키워드를 추출하기 위한 기설정된 개수의 단어가 2개인 경우, 기술문서1에서는 단어1 및 단어3이 키워드로 추출될 수 있고, 기술문서2에서는 단어1, 및 단어3이 키워드로 추출될 수 있으며, 기술문서3에서는 단어3 및 단어5가 키워드로 추출될 수 있다.
예컨대, S325 단계에서는 기술 문서 별 단어 행렬에 포함된 적어도 하나의 단어 각각의 출현 횟수가 미리 설정된 출현 횟수 임계값 이상의 출현 횟수를 가지는 적어도 하나의 단어를 키워드로 추출할 수도 있다.
예컨대, S321, S323 및 S325 단계를 걸쳐, 3D 프린팅과 관련된 총 2,583건의 영문 특허 각각에서 상위 4개의 키워드를 추출한 뒤, 총 2,583건의 특허 전체에 대한 키워드의 출현 횟수를 요약한 결과는 도 8에 도시된 바와 같다.
예컨대, 도 8에 도시된 바와 같이, 키워드 “powder”는 총 2,583건의 특허에서 총 1,387회 출현하였으며, 그 평균값은 0.54회이며, 총 2,583건의 특허 중 키워드 “powder”를 가장 많이 포함한 특허에서 출현한 키워드 “powder”의 출현 횟수는 16회임을 알 수 있다.
이제, 도 3을 계속 참조하여, S330단계를 설명한다.
S330 단계는 기술 문서 분석부(130)가, 기계학습에 기초하여 미리 생성된 적어도 하나의 기술 문서 분석 모델에 복수의 키워드를 입력하여 복수의 기술 문서를 분석하는 단계를 의미할 수 있다.
예컨대, 기술 문서 분석 모델은 퍼지 규칙에 기반하는 퍼지 학습에 기초하여 생성된 퍼지 모델을 의미할 수 있다.
이제, 본 발명의 실시예에 따른 기술 문서 분석 모델을 위한 퍼지 규칙을 설명하나 본 발명은 이에 한정되지 않는다.
본 발명의 실시예에 따른 기술 문서 분석 모델을 위한 퍼지 규칙은 아래 수학식 1과 같이 정의될 수 있다.
[수학식 1]
Figure 112017020429616-pat00001
상술한 수학식 1에서와 같이, 본 발명의 실시예에 따른 기술 문서 분석 모델은 키워드1(Keyword1)이 A1이고 키워드2(Keyword2)가 A2이고 키워드p(Keywordp)가 Ap인 경우 출력 대상(Target)은 B임을 결정할 수 있도록 미리 학습된 모델을 의미할 수 있다.
이제 도 5, 도 9, 도 10a 및 도 10b를 참조하여, 본 발명의 실시예에 따른, 기술 문서 분석 방법에서 복수의 기술 문서를 분석하는 단계의 제1 실시예를 설명한다.
도 5는 본 발명의 실시예에 따른, 기술 문서 분석 방법에서 복수의 기술 문서를 분석하는 단계의 제1 실시예를 설명하기 위한 순서도이다.
도 9는 본 발명의 실시예에 따른, 기술 문서 분석 방법의 복수의 기술 문서를 분석하는 단계의 제1 실시예에서 기술 문서 분류 모델을 설명하기 위한 도면이다.
도 10a 및 도 10b는 본 발명의 실시예에 따른, 기술 문서 분석 방법의 복수의 기술 문서를 분석하는 단계의 제1 실시예에서 복수의 기술 문서를 서지 정보 별로 분류하는 방법을 설명하기 위한 도면이다.
예컨대, 복수의 기술 문서를 분석하는 단계는, 기술 문서 분류부(131)가, 기계학습에 기초하여 미리 생성된 기술 문서 분류 모델에 복수의 키워드를 입력하여, 복수의 기술 문서를 서지사항 정보 별로 분류하는 단계(미도시)를 포함할 수 있다.
이때, 복수의 기술 문서를 서지사항 정보 별로 분류하는 단계(미도시)는 복수의 기술 문서를 분석하는 단계의 제1 실시예를 의미할 수 있다.
도 5에 도시된 바와 같이, 복수의 기술 문서를 서지 정보 별로 분류하는 단계(미도시)는, 복수의 키워드 각각의 출현 빈도 등급 결정 단계(S331), 복수의 키워드 및 출현 빈도 등급을 기술 문서 분류 모델에 입력하는 단계(S332) 및 복수의 기술 문서를 서지 정보 별로 분류하는 단계(S333)를 포함한다.
이때, 기술 문서 분류 모델은 퍼지 학습에 기초하여 생성된 일종의 퍼지 분류 모델을 의미할 수 있다.
S331 단계는, 복수의 기술 문서 각각에 포함된 복수의 키워드를 출현 빈도 구간 별로 분류하기 위한 소정 개수의 출현 빈도 등급 각각에 대하여 복수의 키워드 각각이 속하는 정도를 나타내는 소속도에 기초하여 복수의 키워드 각각의 출현 빈도 등급을 결정하는 단계를 의미할 수 있다.
예를 들어, 복수의 키워드 각각의 출현 횟수를 상술한 기술 문서 분류 모델에 입력하기 위해서는, 복수의 키워드 각각의 출현 횟수가 출현 빈도 구간별로 분류되어야 한다.
이를 위해, S331 단계에서 기술 문서 분류부(131)는 퍼지 학습을 위한 소속 함수를 통해, 복수의 키워드 각각의 출현 횟수의 출현 빈도 등급 각각에 대한 소속도를 결정하고, 소속도의 값이 가장 높은 출현 빈도 등급을 상술한 복수의 키워드 각각의 출현 빈도 등급으로 결정할 수 있다.
이때, 기술 문서 분류부(131)가 소속함수를 활용하여 소속도를 결정하는 구체적인 방법은 종래에 공지된 퍼지 학습 알고리즘을 이용할 수 있으며, 그 구체적인 설명은 생략한다.
예를 들어, S331 단계에서 출현 빈도 등급이 출현 횟수가 적은 키워드를 나타내는 “small”, 출현 횟수가 보통인 키워드를 나타내는 “medium” 및 출현 횟수가 많은 키워드를 나타내는 “large”의 총 3가지 등급으로 이루어진 경우를 가정하여, S331 단계를 설명한다.
상술한 예시에서, 특정 키워드 A의 출현 횟수가 20회이며 출현 빈도 등급 “small”에 대한 소속도가 0.3이고, 출현 빈도 등급 “medium”에 대한 소속도가 0.7이며, 출현 빈도 등급 “large”에 대한 소속도가 0.5인 경우 특정 키워드 A의 출현 빈도 등급은 “medium”으로 결정될 수 있으나, 본 발명은 이에 한정되지 않는다.
일 실시예에 따르면, S331 단계에서 소속도에 기초하여 복수의 키워드 각각을 출현 빈도 등급으로 분류하는 방법은, 종래에 공지된 퍼지 학습 알고리즘에 기초하여 수행될 수 있으며, 그 구체적인 설명은 생략한다.
다른 실시예에 따르면, S331 단계에서 기술 문서 분류부(131)는 미리 설정된 복수의 임계값에 기초하여, 복수의 키워드 각각의 출현 빈도 등급을 결정할 수도 있다.
상술한 다른 실시예의 예시로써, S331 단계에서 기술 문서 분류부(131)가 제1 임계값 및 제2 임계값에 기초하여 상술한 출현 빈도 등급 “small”, “medium”, “large”를 결정하는 경우, 기술 문서 분류부(131)는 출현 횟수가 제1 임계값 이하인 키워드는 출현 빈도 등급 “small”로 결정하고, 출현 횟수가 제1 임계값을 초과하고 제2 임계값 이하인 키워드는 출현 빈도 등급 “medium”으로 결정하고, 출현 횟수가 제2 임계값을 초과하는 키워드는 출현 빈도 등급 “large”로 결정할 수도 있다.
S332 단계는 복수의 키워드 및 복수의 키워드 각각에 대응되는 출현 빈도 등급을 기술 문서 분류 모델에 입력하는 단계를 의미할 수 있다.
일 실시예에 따르면, 기술 문서 분류 모델은 퍼지 학습에 기초하여 생성된 일종의 퍼지 분류 모델을 의미할 수 있으며, 기술 문서 분류 모델은 상술한 수학식 1에서와 같이, 특정 기술 문서에서 추출된 키워드1(Keyword1)의 출현 빈도 등급이 A1이고 키워드2(Keyword2)의 출현 빈도 등급이 A2이고 키워드p(Keywordp)의 출현 빈도 등급이 Ap인 경우 특정 기술 문서의 서지 정보는 B임을 결정할 수 있도록 미리 학습된 모델을 의미할 수 있다.
예를 들어, 기술 문서 분류 모델은 도 9에 도시된 바와 같은, 키워드(Keywords) 별 출현 빈도 등급(Linguistic) 각각에 대한 소속 함수의 제1 매개 변수(1st), 제2 매개 변수(2nd), 제3 매개 변수(3rd), 제4 매개 변수(4th)에 기초하여 생성될 수 있으며, 그 구체적인 방법은 기 공지된 퍼지 분류 알고리즘과 동일하므로 상세한 설명은 생략한다.
S333 단계는, 복수의 키워드 및 복수의 키워드 각각에 대응되는 출현 빈도 등급 상호 간의 관계에 대한 기설정된 조건에 기초하여 복수의 기술 문서를 서지사항 정보 별로 분류하는 단계를 의미할 수 있다.
일 실시예에 따르면, 복수의 키워드 및 복수의 키워드 각각에 대응되는 출현 빈도 등급 상호 간의 관계에 대한 기설정된 조건은 상술한 기술 문서 분류 모델에 미리 저장될 수 있으며, 상술한 수학식 1과 같이, 특정 기술 문서에서 추출된 키워드1(Keyword1)의 출현 빈도 등급이 A1이고 키워드2(Keyword2)의 출현 빈도 등급이 A2이고 키워드p(Keywordp)의 출현 빈도 등급이 Ap인 경우 특정 기술 문서의 서지사항 정보는 B임을 결정하는 “if-then” 규칙을 의미할 수 있다.
예를 들어, 기술 문서가 특허 문서인 경우, 서지사항 정보는 출원 국가, 출원인, 발명자를 비롯한 각종 서지 사항을 의미할 수 있다.
예를 들어, 기술 문서가 논문인 경우, 서지사항 정보는 저자, 학술지명, 저자의 소속 기관명을 비롯한 각종 서지 사항을 의미할 수 있다.
일 실시예에 따르면, S333 단계 이후에, 역퍼지화(defuzzification)에 의해 복수의 키워드 각각의 출현 빈도 등급으로부터 출현 횟수를 산출하는 단계를 더 포함할 수 있으나, 본 발명은 이에 한정되지 않는다.
이제 도 10a 및 도 10b를 참조하여, 서지사항 정보의 일 실시예인 출원 국가에 대하여, S332 및 S333 단계를 적용하는 경우를 설명한다.
도 10a에 도시된 바와 같이, 특정 특허 문서 A에서 키워드 “powder”의 출현 빈도 등급이 “small”이고, 키워드 “composit”의 출현 빈도 등급이 “small”이며, 키워드 “plate”의 출현 빈도 등급이 “small”이고, 키워드 “melt”의 출현 빈도 등급이 “small”인 경우에서, 각각의 키워드와 키워드 별 출현 빈도 등급이 기술 문서 분류 모델에 입력되면, 기술 문서 분류 모델은 특정 특허 문서 A의 출원 국가(Nation)는 “1(중국)”임을 출력할 수 있다.
상술한 과정을, 복수 개의 특허 문서 각각에 대해 적용하면 도 10b에 도시된 바와 같이, 복수 개의 특허 문서 각각이 출원 국가 별로 분류될 수 있음을 확인할 수 있다.
이제 도 6, 도 11a, 도 11b, 도 11c 및 도 13을 참조하여, 본 발명의 실시예에 따른, 기술 문서 분석 방법에서 복수의 기술 문서를 분석하는 단계의 제2 실시예를 설명한다.
도 6은 본 발명의 실시예에 따른, 기술 문서 분석 방법에서 복수의 기술 문서를 분석하는 단계의 제2 실시예를 설명하기 위한 순서도이다.
도 11a, 도 11b 및 도 11c는 본 발명의 실시예에 따른, 기술 문서 분석 방법의 복수의 기술 문서를 분석하는 단계의 제2 실시예에서 특정 추정 대상 키워드의 출현 빈도 등급을 추정하는 방법을 설명하기 위한 도면이다.
도 13은 본 발명의 실시예에 따른, 기술 문서 분석 방법의 복수의 기술 문서를 분석하는 단계의 제2 실시예의 유효성을 검증하기 위한 도면이다.
예컨대, 복수의 기술 문서를 분석하는 단계는, 출현 빈도 등급 추정부(131)가, 기계학습에 기초하여 미리 생성된 키워드 분석 모델에 복수의 키워드를 입력하여, 특정 추정 대상 키워드의 출현 빈도 등급을 추정하는 단계(미도시)를 포함할 수 있다.
이때, 특정 추정 대상 키워드의 출현 빈도 등급을 추정하는 단계(미도시)는 복수의 기술 문서를 분석하는 단계의 제2 실시예를 의미할 수 있다.
도 6에 도시된 바와 같이, 특정 추정 대상 키워드의 출현 빈도 등급을 추정하는 단계(미도시)는, 복수의 키워드 각각의 출현 빈도 등급 결정 단계(S335), 복수의 키워드 및 출현 빈도 등급을 키워드 분석 모델에 입력하는 단계(S336) 및 특정 추정 대상 키워드의 출현 빈도 등급을 추정하는 단계(S337)를 포함한다.
이때, 키워드 분석 모델은 퍼지 학습에 기초하여 생성된 일종의 퍼지 회귀 모델을 의미할 수 있다.
S335 단계는, 복수의 기술 문서 각각에 포함된 복수의 키워드를 출현 빈도 구간 별로 분류하기 위한 소정 개수의 출현 빈도 등급 각각에 대하여 복수의 키워드 각각이 속하는 정도를 나타내는 소속도에 기초하여 복수의 키워드 각각의 상기 출현 빈도 등급을 결정하는 단계를 의미할 수 있다.
이때, S335 단계는 상술한 도 5의 S331 단계와 동일하므로, 중복되는 설명은 생략한다.
S336 단계는, 복수의 키워드 및 복수의 키워드 각각에 대응되는 출현 빈도 등급을 키워드 분석 모델에 입력하는 단계를 의미할 수 있다.
일 실시예에 따르면, 키워드 분석 모델은 퍼지 학습에 기초하여 생성된 일종의 퍼지 회귀 모델을 의미할 수 있으며, 키워드 분석 모델은 상술한 수학식 1에서와 같이, 특정 기술 문서에서 추출된 키워드1(Keyword1)의 출현 빈도 등급이 A1이고 키워드2(Keyword2)의 출현 빈도 등급이 A2이고 키워드p(Keywordp)의 출현 빈도 등급이 Ap인 경우 특정 추정 대상 키워드의 출현 빈도 등급은 B임을 결정할 수 있도록 미리 학습된 모델을 의미할 수 있다.
이때, 키워드 분석 모델은 아래 수학식 2와 같이 정의될 수 있다.
[수학식 2]
Figure 112017020429616-pat00002
이때, 키워드 분석 모델에서 (Keyword1, …,Keywordp)는 복수의 키워드 각각에 대응되는 입력 벡터(vector), Keywordtarget은 출력 변수, Bn은 퍼지 회귀 변수를 의미할 수 있다.
퍼지 회귀 모델링의 과정을 통해 키워드 분석 모델을 생성함에 있어서, 퍼지 회귀 구간을 Keywordtarget,
Figure 112017020429616-pat00003
이라고 하면,
Figure 112017020429616-pat00004
는 낮은 데이터 지점에 맞추어 계산한 Keywordtarget의 하한을 의미할 수 있고,
Figure 112017020429616-pat00005
은 높은 데이터 지점에 맞추어 계산한 Keywordtarget의 상한을 의미할 수 있으며, 키워드 분석 모델은 상술한 퍼지 회귀 구간을 활용하여 생성될 수 있으며, 키워드 분석 모델은 가능성(possibilistic)과 최소제곱(least-squares) 방법을 사용하여 적합화 될 수 있다.
이때, 퍼지 회귀 구간을 활용하여 키워드 분석 모델을 생성하는 구체적인 방법은 기 공지된 퍼지 회귀 알고리즘과 동일하므로 상세한 설명은 생략한다.
S337 단계는, 복수의 키워드 및 복수의 키워드 각각에 대응되는 출현 빈도 등급 상호 간의 관계에 대한 기설정된 조건에 기초하여 특정 추정 대상 키워드의 출현 빈도 등급을 추정하는 단계를 의미할 수 있다.
일 실시예에 따르면, 복수의 키워드 및 복수의 키워드 각각에 대응되는 출현 빈도 등급 상호 간의 관계에 대한 기설정된 조건은 상술한 키워드 분석 모델에 미리 저장될 수 있으며, 상술한 수학식 1과 같이, 특정 기술 문서에서 추출된 키워드1(Keyword1)의 출현 빈도 등급이 A1이고 키워드2(Keyword2)의 출현 빈도 등급이 A2이고 키워드p(Keywordp)의 출현 빈도 등급이 Ap인 경우 특정 추정 대상 키워드(Keywordtarget)의 출현 빈도 등급은 B임을 결정하는 “if-then” 규칙을 의미할 수 있다.
이때 도 11a에 도시된 바와 같이, 입력된 복수의 키워드(Keyword1, …,Keywordp)는 기술을 의미할 수 있으며, 특정 추정 대상 키워드(Keywordtarget)의 기술에 영향을 줄 수 있다.
나아가, 도 11a에 도시된 바와 같이, 특정 추정 대상 키워드(Keywordtarget)는 특정 기술분야에서의 목표기술을 의미할 수 있고, 입력된 복수의 키워드(Keyword1, …,Keywordp)는 상술한 목표기술을 개발하는데 영향을 미치는 하위 기술을 의미할 수 있다.
이제 도 11b 및 도 11c를 참조하여, S336 및 S337 단계를 설명한다.
도 11b에 도시된 바와 같이, 입력된 복수의 키워드 중 키워드 “powder”의 출현 빈도 등급이 “small”이고, 키워드 “composit”의 출현 빈도 등급이 “medium”이며, 키워드 “plate”의 출현 빈도 등급이 “medium”이고, 키워드 “melt”의 출현 빈도 등급이 “small”인 경우에서, 각각의 키워드와 키워드 별 출현 빈도 등급이 키워드 분석 모델에 입력되면, 키워드 분석 모델은 특정 추정 대상 키워드 “printhead”의 출현 빈도 등급이 “small”임을 추정할 수 있다.
상술한 과정을, 복수 개의 특허 문서 각각에 대해 적용되면 도 11c에 도시된 바와 같이, 복수 개의 특허 문서 각각에 속하는 특정 추정 대상 키워드 “printhead”의 출현 빈도 등급이 복수 개의 특허 문서 별로 각각 추정됨을 확인할 수 있다.
이제, 도 13을 참조하여 키워드 분석 모델의 성능을 설명한다.
도 13에 도시된 바와 같이, 키워드 분석 모델의 성능을 평가하기 위해 실제 값과 예측 값 사이의 평균제곱오차(MSE)와 평균제곱근오차(RMSE)를 계산하며, 값이 작을수록 키워드 분석 모델의 성능은 우수한 것으로 나타나게 된다.
이때, 키워드 분석 모델의 평균제곱오차(MSE)는 1.66이고 평균제곱근오차(RMSE)는 1.29이며, 키워드 분석 모델을 구성하기 위해서 테스트 데이터를 사용하여 모델의 유효성을 검증하기 위해 2,583건의 특허 문서들을 1,808개의 학습 데이터 (70%)와 775개의 테스트 데이터 (30%)로 나누어 실험한 결과 도 13에 도시된 바와 같이, 특정 추정 대상 키워드의 실제 출현 빈도 등급과 특정 추정 대상 키워드의 추정된 출현 빈도 등급이 거의 일치함을 확인할 수 있다.
이제 도 3, 도 12a 및 도 12b를 동시에 참조하여, 본 발명의 실시예에 따른, 기술 문서 분석 방법에서 복수의 기술 문서를 분석하는 단계의 제3 실시예를 설명한다.
도 12a 및 도 12b는 본 발명의 실시예에 따른, 기술 문서 분석 방법에서 복수의 기술 문서를 분석하는 단계의 제3 실시예를 설명하기 위한 도면이다.
예컨대, 복수의 기술 문서를 분석하는 단계는, 소속 기술군 결정부(135)가, 기계학습에 기초하여 미리 생성된 소속 기술군 결정 모델에 복수의 키워드를 입력하여, 소정 개수의 기술군 각각에 대하여 복수의 기술 문서 각각이 속하는 정도를 나타내는 기술군 소속 계수를 결정하는 단계(미도시)를 포함할 수 있다.
이때, 기술군 소속 계수를 결정하는 단계(미도시)는 복수의 기술 문서를 분석하는 단계의 제3 실시예를 의미할 수 있다.
이때, 소속 기술군 결정 모델은 퍼지 학습에 기초하여 생성된 일종의 퍼지 군집화 모델을 의미할 수 있다.
이제, 기술군 소속 계수를 결정하는 단계(미도시)에서 소속 기술군 결정 모델에 기초하여, 기술군 소속 계수를 결정하는 방법에 대해 설명한다.
복수의 기술 문서의 집합을
Figure 112017020429616-pat00006
이라 할때, 0에서 1사이의 기술군 소속 계수를 갖는 퍼지 집합 F는 아래 수학식 3과 같이 정의될 수 있다.
[수학식 3]
Figure 112017020429616-pat00007
이때, 복수의 기술 문서 각각은 0과 1 사이의 값으로 사상(map)되며, 복수의 기술 문서를 군집화하기 위하여, 상술한 퍼지 집합을 활용하게 된다.
이때, 기술군은 복수의 기술 문서들의 퍼지 집합으로 구성되며, 주어진 기술군을
Figure 112017020429616-pat00008
이라 할 때, 분할 행렬 D는 아래 수학식 4와 같이 정의될 수 있다.
[수학식 4]
Figure 112017020429616-pat00009
이때, D는 분할 행렬, dij는 기술군 cj에 대한 기술 문서 pi의 기술군 소속 계수를 의미한다.
이때, 기술군 소속 계수는 아래 수학식 5 내지 수학식 7을 만족하는 범위 내에서 선택될 수 있다.
[수학식 5]
Figure 112017020429616-pat00010
이때, 수학식 5는 기술군 소속 계수(dij)는 0이상이며 1이하인 범위를 갖는다는 의미이다.
[수학식 6]
Figure 112017020429616-pat00011
이때, 수학식 6은 모든 기술군(c1, c2, … cm) 각각에 대하여 결정된 특정 기술 문서(pi)의 기술군 소속 계수(dij)의 총합은 1임을 의미한다.
[수학식 7]
Figure 112017020429616-pat00012
이때, 수학식 7은 특정 기술군(cj)에 대하여 결정된 모든 기술 문서(p1, p2, … pn)의 기술군 소속 계수(dij)의 총합은 0보다 크고 n 보다 작음을 의미한다.
예를 들면, 기술군 소속 계수는 미리 설정된 기술군 결정 그래프 모델 상에서, 복수의 기술 문서 각각에 대응되는 지점과 소정 개수의 기술군 각각의 중심에 대응되는 지점 간의 거리에 반비례하도록 결정될 수 있다.
이때, 소속 기술군 결정 모델이 기술군 소속 계수를 결정하는 보다 구체적인 동작은 종래에 공지된 퍼지 군집화 모델과 동일하므로, 그 상세한 설명은 생략한다.
도 12a에 도시된 바와 같이, 소속 기술군 결정 모델의 출력에 의해, 복수의 기술 문서 각각의 소정 개수의 기술군 각각에 대한 기술군 소속 계수가 결정되면, 복수의 기술 문서는 군집화될 수 있다.
상술한 복수의 기술 문서의 군집화 결과를 측정하기 위하여, 아래 수학식 8과 같은 오차제곱합(SSE)을 적용할 수 있다.
[수학식 8]
Figure 112017020429616-pat00013
이때,
Figure 112017020429616-pat00014
는 i번째 기술 문서(pi)와 j번째 기술군(cj) 간의 거리를 의미할 수 있다.
예컨대, 소속 기술군 결정 모델에 기초하여 복수의 기술 문서가 군집화 되는 경우, 특정 기술 문서는 여러 개의 군집에 대하여 기술군 소속 계수만큼 소속될 수 있다.
일 실시예에 따르면, 소속 기술군 결정 모델은 특정 기술 문서에 포함된 복수의 키워드가 입력되면, 특정 기술 문서가 소정 개수의 기술군 각각에 속하는 정도를 나타내는 기술군 소속 계수를 각각 결정하도록 미리 학습된 퍼지 학습에 기초하여 생성된 일종의 퍼지 군집화 모델을 의미할 수 있다.
일 실시예에 따르면, 소속 기술군 결정 모델은 복수의 기술 문서의 소속 계수를 결정하는 상술한 동작 외에도, 복수의 기술 문서 각각에 포함된 복수의 키워드의 소속 계수를 결정할 수도 있다.
도 12b는, 총 10개의 키워드 각각에 대한 기술군 소속 확률에 100을 곱하여 정수화한 결과를 나타내며, 도 12b에 도시된 바와 같이, 키워드 “powder”는 기술군1(cluster1)에 대하여 0.36의 기술군 소속 확률을 가지며, 기술군2(cluster2)에 대하여 0.29의 기술군 소속 확률을 가지며, 기술군3(cluster3)에 대하여 0.36의 기술군 소속 확률을 가짐을 확인할 수 있으며, 이를 통해, 소속 기술군 결정 모델에 기초하여 복수의 기술 문서 또는 키워드 각각에 대한 기술군 소속 확률을 결정하면 복수의 기술 문서 또는 키워드 각각은 복수 개의 기술군에 동시에 속할 수 있음을 확인할 수 있다.
본 발명의 실시예에 따른, 기술 문서 분석 방법 및 장치를 활용하면, 기술 문서를 분류할 수 있고, 키워드 및 기술 간의 관계를 확인할 수 있으며, 기술 문서를 군집화 할 수 있기 때문에, 국가, 기관, 기업등을 비롯한 각종 단체에서 연구 및 개발 계획 수립에 기여할 수 있으며, 각종 기술 경영(MOT) 문제에도 적용될 수 있는 장점이 있다.
이상에서 본 발명에 따른 바람직한 실시예에 대해 설명하였으나, 다양한 형태로 변형이 가능하며, 본 기술분야에서 통상의 지식을 가진 자라면 본 발명의 특허청구범위를 벗어남이 없이 다양한 변형예 및 수정예를 실시할 수 있을 것으로 이해된다.
1: 기술 문서 데이터베이스
100: 기술 문서 분석 장치
110: 기술 문서 수집부
120: 키워드 추출부
130: 기술 문서 분석부
131: 기술 문서 분류부
133: 출현 빈도 등급 추정부
135: 소속 기술군 결정부

Claims (8)

  1. 기술 문서 수집부가, 분석의 대상이 되는 복수의 기술 문서를 기술 문서 데이터베이스로부터 수집하는 단계;
    키워드 추출부가, 상기 복수의 기술 문서 각각에 포함된 적어도 하나의 단어 각각의 출현 횟수에 기초하여 상기 복수의 기술 문서로부터 복수의 키워드(keyword)를 추출하는 단계; 및
    기술 문서 분석부가, 기계학습에 기초하여 미리 생성된 적어도 하나의 기술 문서 분석 모델에 상기 복수의 키워드를 입력하여 상기 복수의 기술 문서를 분석하는 단계를 포함하고,
    상기 복수의 기술 문서를 분석하는 단계는,
    출현 빈도 등급 추정부가, 기계학습에 기초하여 미리 생성된 키워드 분석 모델에 상기 복수의 키워드를 입력하여, 특정 추정 대상 키워드의 출현 빈도 등급을 추정하는 단계를 포함하는 기술 문서 분석 방법.
  2. 제1항에 있어서,
    상기 복수의 키워드를 추출하는 단계는,
    상기 복수의 기술 문서 각각에 포함된 전체 텍스트 정보에서 불용어(stopword)를 제거하여 상기 전체 텍스트 정보를 말뭉치(corpus) 정보로 변환하는 단계;
    상기 복수의 기술 문서 별로 상기 말뭉치 정보에 포함된 상기 적어도 하나의 단어 각각의 출현 횟수를 나타내는 행렬인 기술 문서 별 단어 행렬을 생성하는 단계; 및
    상기 기술 문서 별 단어 행렬에 포함된 상기 적어도 하나의 단어 각각의 출현 횟수가 큰 순서대로 기설정된 개수의 단어를 선택하여 상기 복수의 키워드를 추출하는 단계를 포함하는, 기술 문서 분석 방법.
  3. 제1항에 있어서,
    상기 복수의 기술 문서를 분석하는 단계는,
    기술 문서 분류부가, 기계학습에 기초하여 미리 생성된 기술 문서 분류 모델에 상기 복수의 키워드를 입력하여, 상기 복수의 기술 문서를 서지사항 정보 별로 분류하는 단계를 포함하는, 기술 문서 분석 방법.
  4. 제3항에 있어서,
    상기 복수의 기술 문서를 서지 정보 별로 분류하는 단계는,
    상기 복수의 기술 문서 각각에 포함된 상기 복수의 키워드를 출현 빈도 구간 별로 분류하기 위한 소정 개수의 출현 빈도 등급 각각에 대하여 상기 복수의 키워드 각각이 속하는 정도를 나타내는 소속도에 기초하여 상기 복수의 키워드 각각의 상기 출현 빈도 등급을 결정하는 단계;
    상기 복수의 키워드 및 상기 복수의 키워드 각각에 대응되는 출현 빈도 등급을 상기 기술 문서 분류 모델에 입력하는 단계; 및
    상기 복수의 키워드 및 상기 복수의 키워드 각각에 대응되는 출현 빈도 등급 상호 간의 관계에 대한 기설정된 조건에 기초하여 상기 복수의 기술 문서를 서지사항 정보 별로 분류하는 단계를 포함하는, 기술 문서 분석 방법.
  5. 삭제
  6. 제1항에 있어서,
    상기 특정 추정 대상 키워드의 출현 빈도 등급을 추정하는 단계는,
    상기 복수의 기술 문서 각각에 포함된 상기 복수의 키워드를 출현 빈도 구간 별로 분류하기 위한 소정 개수의 출현 빈도 등급 각각에 대하여 상기 복수의 키워드 각각이 속하는 정도를 나타내는 소속도에 기초하여 상기 복수의 키워드 각각의 상기 출현 빈도 등급을 결정하는 단계;
    상기 복수의 키워드 및 상기 복수의 키워드 각각에 대응되는 출현 빈도 등급을 상기 키워드 분석 모델에 입력하는 단계; 및
    상기 복수의 키워드 및 상기 복수의 키워드 각각에 대응되는 출현 빈도 등급 상호 간의 관계에 대한 기설정된 조건에 기초하여 상기 특정 추정 대상 키워드의 출현 빈도 등급을 추정하는 단계를 포함하는, 기술 문서 분석 방법.
  7. 제1항에 있어서,
    상기 복수의 기술 문서를 분석하는 단계는,
    소속 기술군 결정부가, 기계학습에 기초하여 미리 생성된 소속 기술군 결정 모델에 상기 복수의 키워드를 입력하여, 소정 개수의 기술군 각각에 대하여 상기 복수의 기술 문서 각각이 속하는 정도를 나타내는 기술군 소속 계수를 결정하는 단계를 포함하는, 기술 문서 분석 방법.
  8. 분석의 대상이 되는 복수의 기술 문서를 기술 문서 데이터베이스로부터 수집하는 기술 문서 수집부;
    상기 복수의 기술 문서 각각에 포함된 적어도 하나의 단어 각각의 출현 횟수에 기초하여 상기 복수의 기술 문서로부터 복수의 키워드(keyword)를 추출하는 키워드 추출부;
    기계학습에 기초하여 미리 생성된 키워드 분석 모델에 상기 복수의 키워드를 입력하여, 특정 추정 대상 키워드의 출현 빈도 등급을 추정하는 출현 빈도 등급 추정부; 및
    상기 출현 빈도 등급을 이용하여 상기 복수의 기술 문서를 분석하는 기술 문서 분석부를 포함하는, 기술 문서 분석 장치.
KR1020170026243A 2017-02-28 2017-02-28 기술 문서 분석 방법 및 장치 KR101938748B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170026243A KR101938748B1 (ko) 2017-02-28 2017-02-28 기술 문서 분석 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170026243A KR101938748B1 (ko) 2017-02-28 2017-02-28 기술 문서 분석 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20180099164A KR20180099164A (ko) 2018-09-05
KR101938748B1 true KR101938748B1 (ko) 2019-04-10

Family

ID=63594876

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170026243A KR101938748B1 (ko) 2017-02-28 2017-02-28 기술 문서 분석 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101938748B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020111326A1 (ko) * 2018-11-29 2020-06-04 에스케이텔레콤 주식회사 고성능 머신러닝 제공 방법 및 이를 이용한 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011117593A1 (en) * 2010-03-26 2011-09-29 British Telecommunications Public Limited Company Text classifier system

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100676693B1 (ko) 2005-01-31 2007-02-02 주식회사 애니파이브시스템 특허관리 포탈 서비스 시스템

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011117593A1 (en) * 2010-03-26 2011-09-29 British Telecommunications Public Limited Company Text classifier system

Also Published As

Publication number Publication date
KR20180099164A (ko) 2018-09-05

Similar Documents

Publication Publication Date Title
CN106202561B (zh) 基于文本大数据的数字化应急管理案例库构建方法及装置
CN112199608B (zh) 基于网络信息传播图建模的社交媒体谣言检测方法
CN101470731B (zh) 一种可个性化定制的网页过滤方法
CN104820629A (zh) 一种智能的舆情突发事件应急处理系统及方法
CN110765268B (zh) 一种基于客户诉求的配网精准投资策略方法
CN103927302A (zh) 一种文本分类方法和系统
TW201115370A (en) Systems and methods for capturing and managing collective social intelligence information
CN104699767B (zh) 一种面向中文语言的大规模本体映射方法
CN111767725A (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN110287292B (zh) 一种裁判量刑偏离度预测方法及装置
CN110955776A (zh) 一种政务文本分类模型的构建方法
CN108595525A (zh) 一种律师信息处理方法和系统
CN107577724A (zh) 一种大数据处理方法
CN108681548A (zh) 一种律师信息处理方法和系统
CN111026870A (zh) 一种综合文本分类和图像识别的ict系统故障分析方法
CN112800225B (zh) 一种微博评论情绪分类方法和系统
CN111666496A (zh) 一种基于评论文本的组推荐方法
CN112463971A (zh) 一种基于层级组合模型的电商商品分类方法及系统
CN106326458A (zh) 一种基于文本分类的城市管理案件分类方法
CN107357895A (zh) 一种基于词袋模型的文本表示的处理方法
CN112734154A (zh) 一种基于模糊数相似度的多因素舆情风险评估方法
CN115048464A (zh) 用户操作行为数据的检测方法、装置及电子设备
Tripathi et al. Analyzing sentiment using IMDb dataset
CN116186268A (zh) 基于Capsule-BiGRU网络与事件自动分类的多文档摘要提取方法及系统
Reddy et al. Prediction of star ratings from online reviews

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant