KR20180099164A - Method and apparatus for analyzing technical document - Google Patents

Method and apparatus for analyzing technical document Download PDF

Info

Publication number
KR20180099164A
KR20180099164A KR1020170026243A KR20170026243A KR20180099164A KR 20180099164 A KR20180099164 A KR 20180099164A KR 1020170026243 A KR1020170026243 A KR 1020170026243A KR 20170026243 A KR20170026243 A KR 20170026243A KR 20180099164 A KR20180099164 A KR 20180099164A
Authority
KR
South Korea
Prior art keywords
keywords
technical
appearance frequency
documents
keyword
Prior art date
Application number
KR1020170026243A
Other languages
Korean (ko)
Other versions
KR101938748B1 (en
Inventor
박상성
김영호
이준석
전성해
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to KR1020170026243A priority Critical patent/KR101938748B1/en
Publication of KR20180099164A publication Critical patent/KR20180099164A/en
Application granted granted Critical
Publication of KR101938748B1 publication Critical patent/KR101938748B1/en

Links

Images

Classifications

    • G06F17/30634
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • G06F17/30702

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The present invention relates to a technical document analysis method and an apparatus therefor. The technical document analysis method comprises the following steps: a technical document collection unit collects a plurality of technical documents which is an analysis target from a technical document database; a keyword extraction unit extracts a plurality of keywords from the plurality of technical documents based on the number of appearances of at least one word included in each of the plurality of technical documents; and a technical document analysis unit analyzes the plurality of technical documents by inputting a plurality of keywords in at least one technical document analysis model previously generated based on machine learning.

Description

기술 문서 분석 방법 및 장치{METHOD AND APPARATUS FOR ANALYZING TECHNICAL DOCUMENT}[0001] METHOD AND APPARATUS FOR ANALYZING TECHNICAL DOCUMENT [0002]

본 발명은 기계학습에 기초하여 기술 문서를 분석하기 위한 방법 및 이를 위한 장치에 관한 것이다.The present invention relates to a method and apparatus for analyzing a technical document based on machine learning.

빅데이터(bigdata)는 사회 현상과 각종 산업 분야를 비롯하여 각종 분야에 교차되어 확대되고 있으며, 이러한 빅데이터는 용량, 다양성, 속도의 3가지 측면에서 일반적인 데이터와 구분된다.Big data is spreading across various fields including social phenomena and various industrial fields. Big data is distinguished from general data in three aspects of capacity, diversity and speed.

여기서, 용량은 빅데이터의 경우 방대한 크기를 지니게 됨을 의미하며, 다양성은 빅데이터의 경우 숫자, 문자, 그림, 동영상 등 각종 자료들을 포함함을 의미하고, 속도는 빅데이터의 경우 빠르게 그 데이터량이 급증함을 의미한다.Here, the capacity means a large size in the case of the big data, and diversity means that the big data includes various data such as numbers, letters, pictures, and moving pictures. In the case of the big data, .

이때, 기술 문서들은 상술한 빅데이터의 특징을 따르게 되며, 기술 문서의 일례인 특허 문서에는 제목, 요약, 발명자, 출원일, 도면부호, 인용문헌을 비롯한 발명에 대한 다양한 기재들이 포함되어 있으며, 기술 문서의 다른예인 논문 또한, 제목, 초록, 저자, 공개방식을 비롯한 기술에 대한 다양한 기재들이 포함되어 있다.At this time, the technical documents follow the characteristics of the big data described above, and the patent document which is an example of the technical document includes various descriptions about the invention including the title, abstract, inventor, filing date, Other examples of papers include various descriptions of the technology, including title, abstract, author, and open method.

이렇듯, 기술 문서들은 빅데이터의 성질을 띄기 때문에, 기술 문서들은 방대한 용량을 가지며, 데이터량이 빠르게 급증하고, 각종 자료들을 포함하게 되며, 이러한 기술 문서들을 분석하기 위해서는 많은 비용 및 시간이 소요되는 문제가 있다.As such, technical documents are characterized by big data, so technical documents have a large capacity, the data volume is rapidly increasing, various data are included, and analysis of these technical documents is costly and time consuming have.

한국 등록특허공보 제10-0676693호(2007.01.25.)Korean Registered Patent No. 10-0676693 (Jan. 25, 2007)

본 발명의 목적은, 상기 문제점을 해결하기 위한 것으로, 수집된 복수의 기술 문서 각각에 포함된 적어도 하나의 단어 각각의 출현 횟수에 기초하여 복수의 기술 문서로부터 복수의 키워드(keyword)를 추출하고, 기계학습에 기초하여 미리 생성된 적어도 하나의 기술 문서 분석 모델에 복수의 키워드를 입력하여 복수의 기술 문서를 분석하기 위함이다.SUMMARY OF THE INVENTION An object of the present invention is to solve the problems described above, and it is an object of the present invention to extract a plurality of keywords from a plurality of technical documents based on the occurrence count of each of at least one word contained in each of a plurality of collected technical documents, And analyzing a plurality of technical documents by inputting a plurality of keywords into at least one technical document analysis model generated in advance based on the machine learning.

본 발명이 해결하고자 하는 과제는 이상에서 언급한 과제(들)로 제한되지 않으며, 언급되지 않은 또 다른 과제(들)은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.The problems to be solved by the present invention are not limited to the above-mentioned problem (s), and another problem (s) not mentioned can be clearly understood by those skilled in the art from the following description.

상기한 목적을 달성하기 위하여 본 발명의 실시예에 따른 기술 문서 분석 방법은 기술 문서 수집부가, 분석의 대상이 되는 복수의 기술 문서를 기술 문서 데이터베이스로부터 수집하는 단계, 키워드 추출부가, 복수의 기술 문서 각각에 포함된 적어도 하나의 단어 각각의 출현 횟수에 기초하여 복수의 기술 문서로부터 복수의 키워드(keyword)를 추출하는 단계 및 기술 문서 분석부가, 기계학습에 기초하여 미리 생성된 적어도 하나의 기술 문서 분석 모델에 복수의 키워드를 입력하여 복수의 기술 문서를 분석하는 단계를 포함한다.According to an aspect of the present invention, there is provided a method for analyzing a technical document, the method comprising: collecting a plurality of technical documents to be analyzed from a technical document database; Extracting a plurality of keywords from a plurality of descriptive documents based on the number of occurrences of each of at least one word contained in each of the plurality of descriptive documents, and analyzing at least one technical document analysis And analyzing the plurality of technical documents by inputting a plurality of keywords into the model.

예컨대, 복수의 키워드를 추출하는 단계는, 복수의 기술 문서 각각에 포함된 전체 텍스트 정보에서 불용어(stopword)를 제거하여 전체 텍스트 정보를 말뭉치(corpus) 정보로 변환하는 단계, 복수의 기술 문서 별로 말뭉치 정보에 포함된 적어도 하나의 단어 각각의 출현 횟수를 나타내는 행렬인 기술 문서 별 단어 행렬을 생성하는 단계 및 기술 문서 별 단어 행렬에 포함된 적어도 하나의 단어 각각의 출현 횟수가 큰 순서대로 기설정된 개수의 단어를 선택하여 복수의 키워드를 추출하는 단계를 포함한다.For example, the step of extracting a plurality of keywords may include converting all text information into corpus information by removing a stopword from the entire text information included in each of the plurality of technical documents, Generating a word matrix for each descriptive document which is a matrix representing the number of occurrences of each of at least one word included in the information, and generating a word matrix for each descriptive word by using a predetermined number of occurrences of at least one word And selecting a word to extract a plurality of keywords.

일 실시예에 따르면, 복수의 기술 문서를 분석하는 단계는, 기술 문서 분류부가, 기계학습에 기초하여 미리 생성된 기술 문서 분류 모델에 복수의 키워드를 입력하여, 복수의 기술 문서를 서지사항 정보 별로 분류하는 단계를 포함한다.According to one embodiment, the step of analyzing the plurality of technical documents may include the steps of: inputting a plurality of keywords into a technical document classification model generated in advance based on machine learning, and extracting a plurality of technical documents by bibliographic information .

예를 들어, 복수의 기술 문서를 서지 정보 별로 분류하는 단계는, 복수의 기술 문서 각각에 포함된 복수의 키워드를 출현 빈도 구간 별로 분류하기 위한 소정 개수의 출현 빈도 등급 각각에 대하여 복수의 키워드 각각이 속하는 정도를 나타내는 소속도에 기초하여 복수의 키워드 각각의 출현 빈도 등급을 결정하는 단계, 복수의 키워드 및 복수의 키워드 각각에 대응되는 출현 빈도 등급을 기술 문서 분류 모델에 입력하는 단계 및 복수의 키워드 및 복수의 키워드 각각에 대응되는 출현 빈도 등급 상호 간의 관계에 대한 기설정된 조건에 기초하여 복수의 기술 문서를 서지사항 정보 별로 분류하는 단계를 포함한다.For example, the step of classifying a plurality of technical documents by bibliographic information may include classifying each of a plurality of keywords included in each of the plurality of technical documents into a plurality of keywords, for each of a predetermined number of appearance frequency classes, Determining an appearance frequency rank of each of a plurality of keywords based on a degree of belonging indicating a degree of belonging to each of a plurality of keywords and a plurality of keywords, And classifying the plurality of technical documents by bibliographic information based on predetermined conditions for the relationship between the appearance frequency classes corresponding to each of the plurality of keywords.

일 실시예에 따르면, 복수의 기술 문서를 분석하는 단계는, 출현 빈도 등급 추정부가, 기계학습에 기초하여 미리 생성된 키워드 분석 모델에 복수의 키워드를 입력하여, 특정 추정 대상 키워드의 출현 빈도 등급을 추정하는 단계를 포함한다.According to one embodiment, the step of analyzing the plurality of technical documents includes the step of: the appearance frequency class estimating unit, by inputting a plurality of keywords into the keyword analysis model generated in advance based on the machine learning, .

예를 들어, 특정 추정 대상 키워드의 출현 빈도 등급을 추정하는 단계는, 복수의 기술 문서 각각에 포함된 복수의 키워드를 출현 빈도 구간 별로 분류하기 위한 소정 개수의 출현 빈도 등급 각각에 대하여 복수의 키워드 각각이 속하는 정도를 나타내는 소속도에 기초하여 복수의 키워드 각각의 출현 빈도 등급을 결정하는 단계, 복수의 키워드 및 복수의 키워드 각각에 대응되는 출현 빈도 등급을 키워드 분석 모델에 입력하는 단계 및 복수의 키워드 및 복수의 키워드 각각에 대응되는 출현 빈도 등급 상호 간의 관계에 대한 기설정된 조건에 기초하여 특정 추정 대상 키워드의 출현 빈도 등급을 추정하는 단계를 포함한다.For example, the step of estimating the appearance frequency class of a specific estimation target keyword may include estimating a plurality of keywords included in each of the plurality of technical documents, for each of a predetermined number of appearance frequency classes for classifying the plurality of keywords, Determining an appearance frequency rank of each of the plurality of keywords based on a degree of belonging indicating a degree to which the keyword belongs; inputting a plurality of keywords and an appearance frequency rank corresponding to each of the plurality of keywords into a keyword analysis model; And estimating an appearance frequency class of a specific estimation target keyword based on predetermined conditions for a relationship between appearance frequency classes corresponding to each of the plurality of keywords.

일 실시예에 따르면, 복수의 기술 문서를 분석하는 단계는, 소속 기술군 결정부가, 기계학습에 기초하여 미리 생성된 소속 기술군 결정 모델에 복수의 키워드를 입력하여, 소정 개수의 기술군 각각에 대하여 복수의 기술 문서 각각이 속하는 정도를 나타내는 기술군 소속 계수를 결정하는 단계를 포함한다.According to one embodiment, the step of analyzing the plurality of technical documents includes the steps of: the belonging technology group determination unit inputs a plurality of keywords to the belonging technology group determination model generated on the basis of the machine learning, And determining a technology group membership coefficient indicating the degree to which each of the plurality of technical documents belongs.

상기한 목적을 달성하기 위하여, 본 발명의 실시예에 따른 기술 문서 분석 장치는, 분석의 대상이 되는 복수의 기술 문서를 기술 문서 데이터베이스로부터 수집하는 기술 문서 수집부, 복수의 기술 문서 각각에 포함된 적어도 하나의 단어 각각의 출현 횟수에 기초하여 복수의 기술 문서로부터 복수의 키워드(keyword)를 추출하는 키워드 추출부 및 기계학습에 기초하여 미리 생성된 적어도 하나의 기술 문서 분석 모델에 복수의 키워드를 입력하여 복수의 기술 문서를 분석하는 기술 문서 분석부를 포함한다.In order to achieve the above object, a technical document analysis apparatus according to an embodiment of the present invention includes a technical document collection unit for collecting a plurality of technical documents to be analyzed from a technical document database, A keyword extracting unit for extracting a plurality of keywords from a plurality of technical documents based on the number of appearance of each of the at least one word and a plurality of keywords in at least one technical document analysis model generated in advance based on the machine learning And a technical document analysis unit for analyzing a plurality of technical documents.

본 발명의 일 실시예에 따르면, 수집된 복수의 기술 문서 각각에 포함된 적어도 하나의 단어 각각의 출현 횟수에 기초하여 복수의 기술 문서로부터 복수의 키워드(keyword)를 추출하고, 기계학습에 기초하여 미리 생성된 적어도 하나의 기술 문서 분석 모델에 복수의 키워드를 입력하여 복수의 기술 문서를 분석함으로써, 시간 및 비용의 소모를 절감할 수 있다.According to an embodiment of the present invention, a plurality of keywords are extracted from a plurality of technical documents based on the number of appearance of each of at least one word contained in each of a plurality of collected technical documents, Time and cost can be saved by analyzing a plurality of technical documents by inputting a plurality of keywords into at least one technical document analysis model generated in advance.

나아가, 본 발명의 일 실시예에 따르면, 기술 문서를 분류할 수 있고, 키워드 및 기술 간의 관계를 확인함과 동시에, 기술 문서를 군집화 할 수 있기 때문에, 국가, 기관, 기업 등을 비롯한 각종 단체의 연구 및 개발 계획 수립에 기여할 수 있으며, 각종 기술 경영(MOT) 문제에도 적용될 수 있다.Further, according to the embodiment of the present invention, it is possible to classify the technical documents, to confirm the relationship between the keywords and the technical information, and to group the technical documents. Therefore, It can contribute to the formulation of research and development plans, and can also be applied to various technical management (MOT) issues.

도 1은 본 발명의 실시예에 따른, 기술 문서 분석 장치를 설명하기 위한 구성도이다.
도 2는 본 발명의 실시예에 따른, 기술 문서 분석 장치에서 기술 문서 분석부를 설명하기 위한 구성도이다.
도 3은 본 발명의 실시예에 따른, 기술 문서 분석 방법을 설명하기 위한 순서도이다.
도 4는 본 발명의 실시예에 따른, 기술 문서 분석 방법에서 복수의 키워드를 추출하는 단계를 설명하기 위한 순서도이다.
도 5는 본 발명의 실시예에 따른, 기술 문서 분석 방법에서 복수의 기술 문서를 분석하는 단계의 제1 실시예를 설명하기 위한 순서도이다.
도 6은 본 발명의 실시예에 따른, 기술 문서 분석 방법에서 복수의 기술 문서를 분석하는 단계의 제2 실시예를 설명하기 위한 순서도이다.
도 7 및 도 8은 본 발명의 실시예에 따른, 기술 문서 분석 방법에서 복수의 키워드를 추출하는 단계를 설명하기 위한 도면이다.
도 9는 본 발명의 실시예에 따른, 기술 문서 분석 방법의 복수의 기술 문서를 분석하는 단계의 제1 실시예에서 기술 문서 분류 모델을 설명하기 위한 도면이다.
도 10a 및 도 10b는 본 발명의 실시예에 따른, 기술 문서 분석 방법의 복수의 기술 문서를 분석하는 단계의 제1 실시예에서 복수의 기술 문서를 서지 정보 별로 분류하는 방법을 설명하기 위한 도면이다.
도 11a, 도 11b 및 도 11c는 본 발명의 실시예에 따른, 기술 문서 분석 방법의 복수의 기술 문서를 분석하는 단계의 제2 실시예에서 특정 추정 대상 키워드의 출현 빈도 등급을 추정하는 방법을 설명하기 위한 도면이다.
도 12a 및 도 12b는 본 발명의 실시예에 따른, 기술 문서 분석 방법에서 복수의 기술 문서를 분석하는 단계의 제3 실시예를 설명하기 위한 도면이다.
도 13은 본 발명의 실시예에 따른, 기술 문서 분석 방법의 복수의 기술 문서를 분석하는 단계의 제2 실시예의 유효성을 검증하기 위한 도면이다.
1 is a block diagram for explaining a technical document analysis apparatus according to an embodiment of the present invention.
2 is a block diagram illustrating a technical document analysis unit in a technical document analysis apparatus according to an embodiment of the present invention.
3 is a flowchart for explaining a technical document analysis method according to an embodiment of the present invention.
4 is a flowchart for explaining a step of extracting a plurality of keywords in the technical document analysis method according to an embodiment of the present invention.
5 is a flowchart for explaining a first embodiment of analyzing a plurality of technical documents in the technical document analysis method according to an embodiment of the present invention.
6 is a flowchart for explaining a second embodiment of analyzing a plurality of technical documents in the technical document analysis method according to the embodiment of the present invention.
FIGS. 7 and 8 are diagrams for explaining a step of extracting a plurality of keywords in the technical document analysis method according to the embodiment of the present invention.
9 is a diagram for explaining a technical document classification model in a first embodiment of analyzing a plurality of technical documents of a technical document analysis method according to an embodiment of the present invention.
10A and 10B are diagrams for explaining a method of classifying a plurality of technical documents by bibliographic information in a first embodiment of analyzing a plurality of technical documents of a technical document analysis method according to an embodiment of the present invention .
11A, 11B and 11C illustrate a method for estimating the appearance frequency class of a specific estimation target keyword in the second embodiment of analyzing a plurality of technical documents of the technical document analysis method according to the embodiment of the present invention Fig.
12A and 12B are views for explaining a third embodiment of analyzing a plurality of technical documents in the technical document analysis method according to the embodiment of the present invention.
13 is a diagram for verifying the validity of a second embodiment of analyzing a plurality of technical documents of the technical document analysis method according to the embodiment of the present invention.

이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여, 본 발명의 가장 바람직한 실시예를 첨부 도면을 참조하여 설명하기로 한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings in order to facilitate a person skilled in the art to easily carry out the technical idea of the present invention. . In the drawings, the same reference numerals are used to designate the same or similar components throughout the drawings. In the following description of the present invention, a detailed description of known functions and configurations incorporated herein will be omitted when it may make the subject matter of the present invention rather unclear.

이하, 본 발명의 실시예에 따른 기술 문서 분석 방법 및 장치를 첨부된 도면을 참조하여 상세하게 설명하면 아래와 같다.Hereinafter, a method and apparatus for analyzing a technical document according to an embodiment of the present invention will be described in detail with reference to the accompanying drawings.

먼저, 도 1을 참조하여 본 발명의 실시예에 따른 기술 문서 분석 장치(100)를 설명한다.First, a technical document analysis apparatus 100 according to an embodiment of the present invention will be described with reference to FIG.

도 1은 본 발명의 실시예에 따른, 기술 문서 분석 장치를 설명하기 위한 구성도이다.1 is a block diagram for explaining a technical document analysis apparatus according to an embodiment of the present invention.

도 1에 도시된 바와 같이, 본 발명의 실시예에 따른 기술 문서 분석 장치(100)는 기술 문서 수집부(110), 키워드 추출부(120) 및 기술 문서 분석부(130)를 포함한다.1, the technical document analyzing apparatus 100 according to the embodiment of the present invention includes a technical document collecting unit 110, a keyword extracting unit 120, and a technical document analyzing unit 130. As shown in FIG.

기술 문서 수집부(110)는 분석의 대상이 되는 복수의 기술 문서를 기술 문서 데이터베이스(1)로부터 수집한다.The technical document collection unit 110 collects a plurality of technical documents to be analyzed from the technical document database 1.

키워드 추출부(120)는 복수의 기술 문서 각각에 포함된 적어도 하나의 단어 각각의 출현 횟수에 기초하여 복수의 기술 문서로부터 복수의 키워드(keyword)를 추출한다.The keyword extracting unit 120 extracts a plurality of keywords from a plurality of technical documents based on the number of occurrences of each of at least one word contained in each of the plurality of technical documents.

기술 문서 분석부(130)는 기계학습에 기초하여 미리 생성된 적어도 하나의 기술 문서 분석 모델에 복수의 키워드를 입력하여 복수의 기술 문서를 분석한다.The technical document analysis unit 130 analyzes a plurality of technical documents by inputting a plurality of keywords into at least one technical document analysis model previously generated based on the machine learning.

이제 도 2를 참조하여, 본 발명의 실시예에 따른 기술 문서 분석 장치(100)에서 기술 문서 분석부(130)를 설명한다.Referring to FIG. 2, the technical document analysis unit 130 will be described in the technical document analysis apparatus 100 according to the embodiment of the present invention.

도 2는 본 발명의 실시예에 따른, 기술 문서 분석 장치에서 기술 문서 분석부를 설명하기 위한 구성도이다.2 is a block diagram illustrating a technical document analysis unit in a technical document analysis apparatus according to an embodiment of the present invention.

도 2에 도시된 바와 같이, 기술 문서 분석부(130)는 기술 문서 분류부(131), 출현 빈도 등급 추정부(133) 및 소속 기술군 결정부(135)를 포함한다.2, the technical document analysis unit 130 includes a technical document classifying unit 131, an appearance frequency rating estimating unit 133, and a belonging technology group determining unit 135. [

기술 문서 분류부(131)는 기계학습에 기초하여 미리 생성된 기술 문서 분류 모델에 복수의 키워드를 입력하여, 복수의 기술 문서를 서지사항 정보 별로 분류한다.The technical document classifying section 131 classifies a plurality of technical documents into bibliographic information by inputting a plurality of keywords into a technical document classification model previously generated based on the machine learning.

출현 빈도 등급 추정부(133)는, 기계학습에 기초하여 미리 생성된 키워드 분석 모델에 복수의 키워드를 입력하여, 특정 추정 대상 키워드의 출현 빈도 등급을 추정한다.The appearance frequency class estimating unit 133 inputs a plurality of keywords into a keyword analysis model generated in advance based on the machine learning, and estimates an appearance frequency class of a specific estimation target keyword.

소속 기술군 결정부(135)는, 기계학습에 기초하여 미리 생성된 소속 기술군 결정 모델에 복수의 키워드를 입력하여, 소정 개수의 기술군 각각에 대하여 복수의 기술 문서 각각이 속하는 정도를 나타내는 기술군 소속 계수를 결정한다.The belonging skill group determining unit 135 receives a plurality of keywords in a belonging skill group decision model generated in advance on the basis of the machine learning, and inputs a plurality of keywords to a technology group indicating a degree to which each of the plurality of skill documents belongs to each of the predetermined number of skill groups The group membership coefficient is determined.

일 실시예에 따르면, 상술한 기술 문서 분류 모델, 키워드 분석 모델 및 소속 기술군 결정 모델 각각은 기계학습의 일종인 퍼지 규칙 기반 시스템(Fuzzy Rule Based System, FRBS)에 기반한 퍼지학습(Fuzzy Learning)에 기초하여 생성된 일종의 퍼지 분류 모델, 퍼지 회귀 모델 및 퍼지 군집화 모델을 의미할 수 있으나, 본 발명은 이에 한정되지 않는다.According to one embodiment, each of the technical document classification model, the keyword analysis model, and the belonging skill group decision model described above is a fuzzy learning based on a fuzzy rule based system (FRBS) A fuzzy regression model, and a fuzzy clustering model, which are generated on the basis of the fuzzy regression model, but the present invention is not limited thereto.

본 발명의 실시예에 따른, 기술 문서 분석 방법 및 장치는 기술 문서의 분석을 위하여 상술한 퍼지 규칙 기반 시스템을 활용할 수 있으며, 여기서 본 발명의 실시예에 따른, 기술 문서 분석 방법 및 장치가 활용하는 퍼지 규칙 기반 시스템은 “if-then” 규칙을 활용하는 퍼지추론 및 모델링 시스템을 포함할 수 있다.According to an embodiment of the present invention, a method and apparatus for analyzing a technical document can utilize the fuzzy rule-based system described above for analyzing a technical document, wherein the method and apparatus for analyzing the technical document, A fuzzy rule-based system may include fuzzy inference and modeling systems that utilize " if-then " rules.

여기서, “if-then” 규칙은 “A가 a이고 B가 b인 경우에서 C의 값을 결정”하기 위한 규칙을 의미할 수 있으며, 상술한 “if-then” 규칙은 퍼지 분류 모델, 퍼지 회귀 모델 및 퍼지 군집화 모델 각각에 미리 학습되어 저장될 수 있다.Here, the " if-then " rule may mean a rule for " determining the value of C in the case where A is a and B is b & Model and the fuzzy clustering model, respectively.

본 발명의 일 실시예에 따르면, 상술한 기술 문서 분류 모델, 키워드 분석 모델 및 소속 기술군 결정 모델 각각을 생성하기 위한 퍼지학습(Fuzzy Learning)은 퍼지 학습을 위한 소프트웨어인 R 데이터 언어 및 그 시스템에 기초하여 수행될 수 있으나, 본 발명은 이에 한정되지 않는다.According to an embodiment of the present invention, fuzzy learning for generating each of the technical document classification model, the keyword analysis model, and the belonging skill group decision model described above is performed by using an R data language, which is software for fuzzy learning, , But the present invention is not limited thereto.

본 발명의 실시예에 따른, 기술 문서 분석 장치에 대한 보다 구체적인 설명은 이하 도 3 내지 도 12b를 참조하여 후술하도록 하며, 중복되는 설명은 생략한다.A more detailed description of the technical document analyzing apparatus according to the embodiment of the present invention will be described below with reference to FIGS. 3 to 12B, and redundant description will be omitted.

이제 도 3을 참조하여, 본 발명의 실시예에 따른 기술 문서 분석 방법을 설명한다.Referring now to FIG. 3, a method for analyzing a technical document according to an embodiment of the present invention will be described.

도 3은 본 발명의 실시예에 따른, 기술 문서 분석 방법을 설명하기 위한 순서도이다.3 is a flowchart for explaining a technical document analysis method according to an embodiment of the present invention.

도 3에 도시된 바와 같이, 본 발명의 실시예에 따른, 기술 문서 분석 방법은 기술 문서 수집 단계(S310), 복수의 키워드를 추출하는 단계(S320) 및 복수의 기술 문서를 분석하는 단계(S330)를 포함한다.3, the technical document analysis method according to the embodiment of the present invention includes a technical document collection step S310, a plurality of keywords extraction step S320, and a plurality of technical document analysis steps S330 ).

S310 단계는 기술 문서 수집부(110)가, 분석의 대상이 되는 복수의 기술 문서를 기술 문서 데이터베이스(1)로부터 수집하는 단계를 의미한다.In step S310, the technical document collection unit 110 collects a plurality of technical documents to be analyzed from the technical document database 1.

일 실시예에 따르면, 기술 문서는 특허 문서, 논문을 비롯한 기술에 대한 설명을 기재하는 각종 문서를 의미할 수 있으며, 본 발명은 특정 기술 문서에 한정되지 않는다.According to one embodiment, a technical document may refer to various documents describing a description of a technology including a patent document, a paper, and the present invention is not limited to a specific technical document.

예컨대, 기술 문서 데이터베이스(1)는 기술 문서를 저장하는 각종 데이터베이스를 의미할 수 있다.For example, the technical document database 1 may mean various databases for storing technical documents.

예를 들어, 기술 문서가 특허 문서인 경우 기술 문서 데이터베이스(1)는 각종 특허 문서 데이터베이스를 의미할 수 있으며, 기술 문서가 논문인 경우 기술 문서 데이터베이스(1)는 각종 논문 데이터베이스를 의미할 수 있으며, 본 발명은 특정 기술 문서 데이터베이스(1)에 한정되지 않는다.For example, when the technical document is a patent document, the technical document database 1 may refer to various patent document databases. In the case where the technical document is a paper, the technical document database 1 may mean various paper databases, The present invention is not limited to the specific technical document database 1.

예컨대, S310 단계에서 수집한 특허 문서, 논문을 비롯한 복수의 기술 문서는 문자, 숫자, 그림 등을 포함하여 용량이 크고, 매우 다양하며, 많은 수의 기술 문서들이 실시간으로 공개되기 때문에 업데이트 속도가 매우 빠르기 때문에 수집된 복수의 기술 문서는 빅데이터의 구조와 같을 수 있으나, 본 발명은 이에 한정되지 않는다.For example, a plurality of technical documents including the patent documents and theses collected in step S310 are large in capacity, including letters, numerals, pictures, etc., and a large number of technical documents are disclosed in real time, The plurality of collected technical documents may be the same as the structure of the big data, but the present invention is not limited thereto.

예컨대, 기술 문서의 일 실시예인 특허 문서에는 발명의 명칭, 요약, 출원일, 발명자, 청구항, 그림, 도면, 국제특허분류코드(IPC), 출원 국가를 비롯한 각종 데이터가 포함되어 있기 때문에, 빅데이터의 특징인 다양성을 충족하고, 많은 수의 특허들이 매일 전 세계 특허청에서 공개되기 ?문에 빅데이터의 특징인 속도를 충족하기 때문에, 특허 문서는 일종의 빅데이터 구조와 같을 수 있으나, 본 발명은 이에 한정되지 않는다.For example, the patent document, which is an embodiment of the technical document, includes various data including the name of the invention, the summary, the filing date, the inventor, the claim, the drawing, the international patent classification code (IPC) Patent documents can be a kind of big data structure because they meet the characteristic diversity and meet the peculiar speed of Big Data because a large number of patents are published in the patent office every day around the world. It does not.

S320 단계는, 키워드 추출부(120)가, 복수의 기술 문서 각각에 포함된 적어도 하나의 단어 각각의 출현 횟수에 기초하여 복수의 기술 문서로부터 복수의 키워드(keyword)를 추출하는 단계를 의미할 수 있다.Step S320 may mean a step of extracting a plurality of keywords from a plurality of technical documents based on the number of appearance of each of the at least one words included in each of the plurality of technical documents have.

예컨대, S320 단계에서 키워드 추출부(120)는 복수의 기술 문서 각각에 포함된 전체 텍스트 정보를 구성하는 적어도 하나의 단어를 각각 추출하고, 복수의 기술 문서 각각에 대하여 추출된 단어의 출현 횟수가 높은 순서대로 기설정된 개수의 단어를 선택하여 복수의 기술 문서 각각에 대한 키워드를 추출할 수 있다.For example, in step S320, the keyword extracting unit 120 extracts at least one word constituting the entire text information included in each of the plurality of technical documents, extracts at least one of the plurality of technical documents, The keywords for each of the plurality of technical documents can be extracted by sequentially selecting a predetermined number of words.

이제 도 4, 도 7 및 도 8을 동시에 참조하여, S320 단계를 계속 설명한다.Now, referring to FIGS. 4, 7, and 8 at the same time, step S320 will be continued.

도 4는 본 발명의 실시예에 따른, 기술 문서 분석 방법에서 복수의 키워드를 추출하는 단계를 설명하기 위한 순서도이다.4 is a flowchart for explaining a step of extracting a plurality of keywords in the technical document analysis method according to an embodiment of the present invention.

도 7 및 도 8은 본 발명의 실시예에 따른, 기술 문서 분석 방법에서 복수의 키워드를 추출하는 단계를 설명하기 위한 도면이다.FIGS. 7 and 8 are diagrams for explaining a step of extracting a plurality of keywords in the technical document analysis method according to the embodiment of the present invention.

도 4에 도시된 바와 같이, S320 단계는 텍스트 정보를 말뭉치 정보로 변환하는 단계(S321), 기술 문서 별 단어 행렬 생성 단계(S323) 및 복수의 키워드를 추출하는 단계(S235)를 포함한다.As shown in FIG. 4, step S320 includes converting the text information into corpus information (S321), generating a word matrix by description document (S323), and extracting a plurality of keywords (S235).

S321 단계는, 복수의 기술 문서 각각에 포함된 전체 텍스트 정보에서 불용어(stopword)를 제거하여 전체 텍스트 정보를 말뭉치(corpus) 정보로 변환하는 단계를 의미할 수 있다.Step S321 may refer to a step of converting the entire text information into corpus information by removing a stopword from the entire text information included in each of the plurality of technical documents.

예컨대, 전체 텍스트 정보는 상술한 복수의 기술 문서 각각을 구성하는 단어, 문장, 문단을 비롯한 각종 텍스트를 포함하는 정보를 의미할 수 있다.For example, the full text information may mean information including various texts including words, sentences, and paragraphs constituting each of the plurality of technical documents described above.

예컨대, 불용어는 숫자, 공백, 구두점, 관사, 전치사, 조사, 접속사, 대명사를 비롯하여, 복수의 기술 문서 각각의 기술적 특징을 설명하는데 불필요한 단어 또는 문장 기호를 의미할 수 있다.For example, an abbreviation can mean an unnecessary word or a sentence symbol to describe the technical characteristics of each of a plurality of technical documents, including numbers, spaces, punctuation, articles, prepositions, investigations, conjunctions, and pronouns.

예컨대, 말뭉치 정보는 전체 텍스트 정보에서 불용어를 제거하여, 복수의 기술 문서 각각의 기술적 특징을 설명하는데 필요한 것으로 예상되는 단어들의 집합 정보를 의미할 수 있다.For example, the corpus information may mean set information of words that are expected to be necessary for describing the technical characteristics of each of a plurality of technical documents by removing an abbreviation from the whole text information.

예를 들어, 복수의 기술 문서 각각이 영문 기술 문서인 경우, 전체 텍스트 정보가 “He likes an apple.”인 경우, 대명사인 “He”, 관사인 “an” 및 구두점인 “.”은 불용어에 해당될 수 있으며, 그 결과 S321 단계에서 추출된 말뭉치 정보는 “likes apple”을 의미할 수 있다.For example, if each of the plurality of technical documents is an English technical document and the full text information is " He likes an apple. &Quot;, the pronoun "He", article "an" and punctuation " As a result, the corpus information extracted in step S321 may mean " likes apple ".

예를 들어, 복수의 기술 문서 각각이 국문 기술 문서인 경우, 전체 텍스트 정보가 “그는 사과를 좋아한다.”인 경우, 대명사인 “그”, 조사인 “는”, 조사인 “를” 및 구두점인 “.”은 불용어에 해당될 수 있으며, 그 결과 S321 단계에서 추출된 말뭉치 정보는 “사과 좋아한다”를 의미할 수 있다.For example, if each of the plurality of technical documents is a Korean technical document, if the full text information is " he likes apples ", pronouns " Can be regarded as an abbreviation, and as a result, the corpus information extracted in the step S321 may mean " I like apples. &Quot;

S323 단계는, 복수의 기술 문서 별로 말뭉치 정보에 포함된 적어도 하나의 단어 각각의 출현 횟수를 나타내는 행렬인 기술 문서 별 단어 행렬을 생성하는 단계를 의미할 수 있다.Step S323 may be a step of generating a word matrix for each descriptive document, which is a matrix representing the number of occurrences of each of at least one word included in the corpus information for each of a plurality of technical documents.

이제, 도 7을 참조하여, S323 단계에서 생성되는 기술 문서 별 단어 행렬을 설명한다.Now, referring to FIG. 7, a word matrix for each technical document generated in step S323 will be described.

도 7에 도시된 바와 같이, 기술 문서 별 단어 행렬은 각각의 기술 문서에 포함되는 단어들의 출현 횟수를 나타내는 행렬을 의미할 수 있다.As shown in FIG. 7, the word matrix of each descriptive document may mean a matrix representing the number of occurrences of words included in each descriptive document.

예컨대, 도 7에 도시된 바와 같이 일 실시예에 따른, 기술 문서 별 단어 행렬에는, 기술문서 1은 단어1을 3개, 단어2를 1개, 단어3을 4개, 단어 4를 2개, 단어 5를 0개 포함하고, 기술문서 2는 단어1을 4개, 단어2를 3개, 단어3을 6개, 단어 4를 3개, 단어 5를 2개 포함하고, 기술문서 3은 단어1을 2개, 단어2를 0개, 단어3을 3개, 단어 4를 1개, 단어 5를 4개 포함하는 정보가 포함될 수 있다.For example, as shown in FIG. 7, in the word matrix according to one embodiment, technical document 1 includes three words 1, two words 3, four words 4, two words 4, The technical document 2 includes four words 1, three words 2, three words 3, three words 4, and five words 5, and the technical document 3 includes two words 1 2 words, 2 words, 0 words, 3 words, 3 words, 4 words, and 5 words.

이제, 도 4를 계속 참조하여, S325 단계를 설명한다.Now, with reference to FIG. 4, step S325 will be described.

S325 단계는, 기술 문서 별 단어 행렬에 포함된 적어도 하나의 단어 각각의 출현 횟수가 큰 순서대로 기설정된 개수의 단어를 선택하여 복수의 키워드를 추출하는 단계를 의미할 수 있다.Step S325 may be a step of selecting a predetermined number of words in order of increasing the number of occurrences of each of at least one word contained in the word matrix of each descriptive document to extract a plurality of keywords.

예를 들어, 도 7에 도시된 기술 문서 별 단어 행렬에서 키워드를 추출하기 위한 기설정된 개수의 단어가 2개인 경우, 기술문서1에서는 단어1 및 단어3이 키워드로 추출될 수 있고, 기술문서2에서는 단어1, 및 단어3이 키워드로 추출될 수 있으며, 기술문서3에서는 단어3 및 단어5가 키워드로 추출될 수 있다.For example, when there are two predetermined number of words for extracting keywords from the word matrix of the technical document shown in FIG. 7, words 1 and 3 can be extracted as keywords in technical document 1, The words 1 and 3 can be extracted as keywords, and in the description 3, words 3 and 5 can be extracted as keywords.

예컨대, S325 단계에서는 기술 문서 별 단어 행렬에 포함된 적어도 하나의 단어 각각의 출현 횟수가 미리 설정된 출현 횟수 임계값 이상의 출현 횟수를 가지는 적어도 하나의 단어를 키워드로 추출할 수도 있다.For example, at step S325, at least one word having the number of occurrences of each of at least one word included in the word matrix of each descriptive document having an appearance frequency equal to or greater than a preset occurrence frequency threshold may be extracted as a keyword.

예컨대, S321, S323 및 S325 단계를 걸쳐, 3D 프린팅과 관련된 총 2,583건의 영문 특허 각각에서 상위 4개의 키워드를 추출한 뒤, 총 2,583건의 특허 전체에 대한 키워드의 출현 횟수를 요약한 결과는 도 8에 도시된 바와 같다.For example, through the steps S321, S323, and S325, the top four keywords in each of the 2,583 English patents related to 3D printing are extracted, and the results of summarizing the number of appearances of the keywords for all 2,583 patents are shown in FIG. 8 Respectively.

예컨대, 도 8에 도시된 바와 같이, 키워드 “powder”는 총 2,583건의 특허에서 총 1,387회 출현하였으며, 그 평균값은 0.54회이며, 총 2,583건의 특허 중 키워드 “powder”를 가장 많이 포함한 특허에서 출현한 키워드 “powder”의 출현 횟수는 16회임을 알 수 있다.For example, as shown in FIG. 8, the keyword "powder" appeared 1,387 times in a total of 2,583 patents, and the average value thereof was 0.54 times. Among the 2,583 patents, the keyword "powder" The number of occurrences of the keyword " powder " is 16.

이제, 도 3을 계속 참조하여, S330단계를 설명한다.Now, with continued reference to FIG. 3, step S330 will be described.

S330 단계는 기술 문서 분석부(130)가, 기계학습에 기초하여 미리 생성된 적어도 하나의 기술 문서 분석 모델에 복수의 키워드를 입력하여 복수의 기술 문서를 분석하는 단계를 의미할 수 있다.Step S330 may refer to a step in which the technical document analysis unit 130 analyzes a plurality of technical documents by inputting a plurality of keywords into at least one technical document analysis model previously generated based on the machine learning.

예컨대, 기술 문서 분석 모델은 퍼지 규칙에 기반하는 퍼지 학습에 기초하여 생성된 퍼지 모델을 의미할 수 있다.For example, the technical document analysis model may refer to a fuzzy model generated based on fuzzy learning based on fuzzy rules.

이제, 본 발명의 실시예에 따른 기술 문서 분석 모델을 위한 퍼지 규칙을 설명하나 본 발명은 이에 한정되지 않는다.Now, a fuzzy rule for a technical document analysis model according to an embodiment of the present invention will be described, but the present invention is not limited thereto.

본 발명의 실시예에 따른 기술 문서 분석 모델을 위한 퍼지 규칙은 아래 수학식 1과 같이 정의될 수 있다.The fuzzy rule for the technical document analysis model according to the embodiment of the present invention can be defined as the following Equation 1.

[수학식 1][Equation 1]

Figure pat00001
Figure pat00001

상술한 수학식 1에서와 같이, 본 발명의 실시예에 따른 기술 문서 분석 모델은 키워드1(Keyword1)이 A1이고 키워드2(Keyword2)가 A2이고 키워드p(Keywordp)가 Ap인 경우 출력 대상(Target)은 B임을 결정할 수 있도록 미리 학습된 모델을 의미할 수 있다.As in the above equation (1), technical documentation analysis model according to an embodiment of the present invention, a keyword 1 (Keyword 1) yi A 1, and keyword 2 (Keyword 2) is A 2 and the keyword p (Keyword p) is A p , The output target (Target) may be a model previously learned so as to determine that the target is B.

이제 도 5, 도 9, 도 10a 및 도 10b를 참조하여, 본 발명의 실시예에 따른, 기술 문서 분석 방법에서 복수의 기술 문서를 분석하는 단계의 제1 실시예를 설명한다.Referring now to Figures 5, 9, 10A and 10B, a first embodiment of a step of analyzing a plurality of technical documents in a technical document analysis method according to an embodiment of the present invention will be described.

도 5는 본 발명의 실시예에 따른, 기술 문서 분석 방법에서 복수의 기술 문서를 분석하는 단계의 제1 실시예를 설명하기 위한 순서도이다.5 is a flowchart for explaining a first embodiment of analyzing a plurality of technical documents in the technical document analysis method according to an embodiment of the present invention.

도 9는 본 발명의 실시예에 따른, 기술 문서 분석 방법의 복수의 기술 문서를 분석하는 단계의 제1 실시예에서 기술 문서 분류 모델을 설명하기 위한 도면이다.9 is a diagram for explaining a technical document classification model in a first embodiment of analyzing a plurality of technical documents of a technical document analysis method according to an embodiment of the present invention.

도 10a 및 도 10b는 본 발명의 실시예에 따른, 기술 문서 분석 방법의 복수의 기술 문서를 분석하는 단계의 제1 실시예에서 복수의 기술 문서를 서지 정보 별로 분류하는 방법을 설명하기 위한 도면이다.10A and 10B are diagrams for explaining a method of classifying a plurality of technical documents by bibliographic information in a first embodiment of analyzing a plurality of technical documents of a technical document analysis method according to an embodiment of the present invention .

예컨대, 복수의 기술 문서를 분석하는 단계는, 기술 문서 분류부(131)가, 기계학습에 기초하여 미리 생성된 기술 문서 분류 모델에 복수의 키워드를 입력하여, 복수의 기술 문서를 서지사항 정보 별로 분류하는 단계(미도시)를 포함할 수 있다.For example, in the step of analyzing a plurality of technical documents, the technical document classification unit 131 may input a plurality of keywords into a technical document classification model generated in advance based on the machine learning, (Not shown).

이때, 복수의 기술 문서를 서지사항 정보 별로 분류하는 단계(미도시)는 복수의 기술 문서를 분석하는 단계의 제1 실시예를 의미할 수 있다.In this case, the step of classifying the plurality of technical documents by bibliographic information (not shown) may mean the first embodiment of analyzing a plurality of technical documents.

도 5에 도시된 바와 같이, 복수의 기술 문서를 서지 정보 별로 분류하는 단계(미도시)는, 복수의 키워드 각각의 출현 빈도 등급 결정 단계(S331), 복수의 키워드 및 출현 빈도 등급을 기술 문서 분류 모델에 입력하는 단계(S332) 및 복수의 기술 문서를 서지 정보 별로 분류하는 단계(S333)를 포함한다.As shown in FIG. 5, the step of classifying a plurality of technical documents by bibliographic information includes not only an appearance frequency rating step S331 of each of a plurality of keywords, a plurality of keyword and appearance frequency classes, (S332) of inputting to the model and classifying the plurality of technical documents by bibliographic information (S333).

이때, 기술 문서 분류 모델은 퍼지 학습에 기초하여 생성된 일종의 퍼지 분류 모델을 의미할 수 있다.At this time, the technical document classification model may mean a kind of fuzzy classification model generated based on the fuzzy learning.

S331 단계는, 복수의 기술 문서 각각에 포함된 복수의 키워드를 출현 빈도 구간 별로 분류하기 위한 소정 개수의 출현 빈도 등급 각각에 대하여 복수의 키워드 각각이 속하는 정도를 나타내는 소속도에 기초하여 복수의 키워드 각각의 출현 빈도 등급을 결정하는 단계를 의미할 수 있다.In step S331, a plurality of keywords included in each of the plurality of technical documents are classified into a plurality of keywords based on the degree of belonging to which each of the plurality of keywords belongs to each of the predetermined number of appearance frequency classes for classifying the keywords, May be a step of determining the frequency grade of appearance of < RTI ID = 0.0 >

예를 들어, 복수의 키워드 각각의 출현 횟수를 상술한 기술 문서 분류 모델에 입력하기 위해서는, 복수의 키워드 각각의 출현 횟수가 출현 빈도 구간별로 분류되어야 한다.For example, in order to input the number of occurrences of each of the plurality of keywords into the above-described technical document classification model, the number of occurrences of each of the plurality of keywords should be classified according to the occurrence frequency interval.

이를 위해, S331 단계에서 기술 문서 분류부(131)는 퍼지 학습을 위한 소속 함수를 통해, 복수의 키워드 각각의 출현 횟수의 출현 빈도 등급 각각에 대한 소속도를 결정하고, 소속도의 값이 가장 높은 출현 빈도 등급을 상술한 복수의 키워드 각각의 출현 빈도 등급으로 결정할 수 있다.To this end, in step S331, the technical document classification unit 131 determines the degree of belonging to each appearance frequency class of the appearance frequency of each of a plurality of keywords through the belonging function for fuzzy learning, The appearance frequency class can be determined as the appearance frequency class of each of the plurality of keywords described above.

이때, 기술 문서 분류부(131)가 소속함수를 활용하여 소속도를 결정하는 구체적인 방법은 종래에 공지된 퍼지 학습 알고리즘을 이용할 수 있으며, 그 구체적인 설명은 생략한다.In this case, a specific method for determining the belonging speed using the belonging function of the technical document classification unit 131 can use a conventionally known fuzzy learning algorithm, and a detailed description thereof will be omitted.

예를 들어, S331 단계에서 출현 빈도 등급이 출현 횟수가 적은 키워드를 나타내는 “small”, 출현 횟수가 보통인 키워드를 나타내는 “medium” 및 출현 횟수가 많은 키워드를 나타내는 “large”의 총 3가지 등급으로 이루어진 경우를 가정하여, S331 단계를 설명한다.For example, in step S331, the appearance frequency grade is classified into three grades of "small" representing a keyword having a small number of occurrences, "medium" representing a keyword having a normal occurrence frequency and "large" representing a keyword having a large number of occurrences , The step S331 will be described.

상술한 예시에서, 특정 키워드 A의 출현 횟수가 20회이며 출현 빈도 등급 “small”에 대한 소속도가 0.3이고, 출현 빈도 등급 “medium”에 대한 소속도가 0.7이며, 출현 빈도 등급 “large”에 대한 소속도가 0.5인 경우 특정 키워드 A의 출현 빈도 등급은 “medium”으로 결정될 수 있으나, 본 발명은 이에 한정되지 않는다.In the above example, it is assumed that the number of appearance of the specific keyword A is 20, the degree of belonging to the appearance frequency class "small" is 0.3, the degree of belonging to the appearance frequency class "medium" is 0.7, The frequency rank of appearance of the specific keyword A may be determined as " medium ", but the present invention is not limited thereto.

일 실시예에 따르면, S331 단계에서 소속도에 기초하여 복수의 키워드 각각을 출현 빈도 등급으로 분류하는 방법은, 종래에 공지된 퍼지 학습 알고리즘에 기초하여 수행될 수 있으며, 그 구체적인 설명은 생략한다.According to an embodiment, a method of classifying each of a plurality of keywords into an appearance frequency class based on the degree of belonging in step S331 may be performed based on a conventionally known fuzzy learning algorithm, and a detailed description thereof will be omitted.

다른 실시예에 따르면, S331 단계에서 기술 문서 분류부(131)는 미리 설정된 복수의 임계값에 기초하여, 복수의 키워드 각각의 출현 빈도 등급을 결정할 수도 있다.According to another embodiment, in step S331, the technical document classification unit 131 may determine the appearance frequency rank of each of the plurality of keywords based on a plurality of thresholds set in advance.

상술한 다른 실시예의 예시로써, S331 단계에서 기술 문서 분류부(131)가 제1 임계값 및 제2 임계값에 기초하여 상술한 출현 빈도 등급 “small”, “medium”, “large”를 결정하는 경우, 기술 문서 분류부(131)는 출현 횟수가 제1 임계값 이하인 키워드는 출현 빈도 등급 “small”로 결정하고, 출현 횟수가 제1 임계값을 초과하고 제2 임계값 이하인 키워드는 출현 빈도 등급 “medium”으로 결정하고, 출현 횟수가 제2 임계값을 초과하는 키워드는 출현 빈도 등급 “large”로 결정할 수도 있다.As an example of another embodiment described above, in step S331, the technical document classification unit 131 determines the above-mentioned appearance frequency classes "small", "medium", "large" based on the first threshold value and the second threshold value The keyword having the appearance frequency less than or equal to the first threshold value is determined as the appearance frequency grade " small ", the keyword having the appearance frequency exceeding the first threshold value and less than or equal to the second threshold value is determined as the appearance frequency level Quot; medium ", and a keyword whose occurrence frequency exceeds the second threshold value may be determined as the occurrence frequency grade " large ".

S332 단계는 복수의 키워드 및 복수의 키워드 각각에 대응되는 출현 빈도 등급을 기술 문서 분류 모델에 입력하는 단계를 의미할 수 있다.Step S332 may refer to a step of inputting the appearance frequency class corresponding to each of the plurality of keywords and the plurality of keywords into the technical document classification model.

일 실시예에 따르면, 기술 문서 분류 모델은 퍼지 학습에 기초하여 생성된 일종의 퍼지 분류 모델을 의미할 수 있으며, 기술 문서 분류 모델은 상술한 수학식 1에서와 같이, 특정 기술 문서에서 추출된 키워드1(Keyword1)의 출현 빈도 등급이 A1이고 키워드2(Keyword2)의 출현 빈도 등급이 A2이고 키워드p(Keywordp)의 출현 빈도 등급이 Ap인 경우 특정 기술 문서의 서지 정보는 B임을 결정할 수 있도록 미리 학습된 모델을 의미할 수 있다.According to one embodiment, the technical document classification model may mean a kind of fuzzy classification model generated on the basis of fuzzy learning, and the technical document classification model may include a keyword 1 extracted from a specific technical document, (Keyword 1 ) is A 1 , the appearance frequency frequency of Keyword 2 is A 2, and the appearance frequency frequency of keyword p (Keyword p ) is A p , the bibliographic information of the specific technical document is B And may be a model that has been learned beforehand so that it can be determined.

예를 들어, 기술 문서 분류 모델은 도 9에 도시된 바와 같은, 키워드(Keywords) 별 출현 빈도 등급(Linguistic) 각각에 대한 소속 함수의 제1 매개 변수(1st), 제2 매개 변수(2nd), 제3 매개 변수(3rd), 제4 매개 변수(4th)에 기초하여 생성될 수 있으며, 그 구체적인 방법은 기 공지된 퍼지 분류 알고리즘과 동일하므로 상세한 설명은 생략한다.For example, technical document classification model, the keywords (Keywords) by frequency of appearance rating (Linguistic) a first parameter (1 st), a second parameter of the membership functions for each as shown in Figure 9. Variable (2 nd ), The third parameter (3 rd ), and the fourth parameter (4 th ), and the specific method thereof is the same as that of the known fuzzy classification algorithm, so a detailed description will be omitted.

S333 단계는, 복수의 키워드 및 복수의 키워드 각각에 대응되는 출현 빈도 등급 상호 간의 관계에 대한 기설정된 조건에 기초하여 복수의 기술 문서를 서지사항 정보 별로 분류하는 단계를 의미할 수 있다.Step S333 may refer to a step of classifying a plurality of technical documents into bibliographic information based on predetermined conditions for a relationship between a plurality of keywords and appearance frequency classes corresponding to each of the plurality of keywords.

일 실시예에 따르면, 복수의 키워드 및 복수의 키워드 각각에 대응되는 출현 빈도 등급 상호 간의 관계에 대한 기설정된 조건은 상술한 기술 문서 분류 모델에 미리 저장될 수 있으며, 상술한 수학식 1과 같이, 특정 기술 문서에서 추출된 키워드1(Keyword1)의 출현 빈도 등급이 A1이고 키워드2(Keyword2)의 출현 빈도 등급이 A2이고 키워드p(Keywordp)의 출현 빈도 등급이 Ap인 경우 특정 기술 문서의 서지사항 정보는 B임을 결정하는 “if-then” 규칙을 의미할 수 있다.According to an exemplary embodiment, predetermined conditions for a relationship between appearance frequency classes corresponding to a plurality of keywords and a plurality of keywords may be stored in advance in the technical document classification model described above. As shown in Equation 1, If the appearance frequency frequency of the keyword 1 (Keyword 1 ) extracted from the specific technical document is A 1 , the appearance frequency frequency of the keyword 2 (Keyword 2 ) is A 2, and the occurrence frequency grade of the keyword p (Keyword p ) is A p The bibliographic information in the technical document may refer to an " if-then "

예를 들어, 기술 문서가 특허 문서인 경우, 서지사항 정보는 출원 국가, 출원인, 발명자를 비롯한 각종 서지 사항을 의미할 수 있다.For example, if the technical document is a patent document, the bibliographic information may refer to various bibliographic references including the applicant country, the applicant, the inventor, and the like.

예를 들어, 기술 문서가 논문인 경우, 서지사항 정보는 저자, 학술지명, 저자의 소속 기관명을 비롯한 각종 서지 사항을 의미할 수 있다.For example, if the technical document is a paper, the bibliographic information may refer to various bibliographies, including the name of the author, journal name, author's affiliation, and so on.

일 실시예에 따르면, S333 단계 이후에, 역퍼지화(defuzzification)에 의해 복수의 키워드 각각의 출현 빈도 등급으로부터 출현 횟수를 산출하는 단계를 더 포함할 수 있으나, 본 발명은 이에 한정되지 않는다.According to an embodiment, after step S333, the method may further include a step of calculating the number of appearances from the appearance frequency class of each of the plurality of keywords by defuzzification, but the present invention is not limited thereto.

이제 도 10a 및 도 10b를 참조하여, 서지사항 정보의 일 실시예인 출원 국가에 대하여, S332 및 S333 단계를 적용하는 경우를 설명한다.Referring now to FIGS. 10A and 10B, the case of applying S332 and S333 to the applicant country, which is one embodiment of the bibliographic information, will be described.

도 10a에 도시된 바와 같이, 특정 특허 문서 A에서 키워드 “powder”의 출현 빈도 등급이 “small”이고, 키워드 “composit”의 출현 빈도 등급이 “small”이며, 키워드 “plate”의 출현 빈도 등급이 “small”이고, 키워드 “melt”의 출현 빈도 등급이 “small”인 경우에서, 각각의 키워드와 키워드 별 출현 빈도 등급이 기술 문서 분류 모델에 입력되면, 기술 문서 분류 모델은 특정 특허 문서 A의 출원 국가(Nation)는 “1(중국)”임을 출력할 수 있다.As shown in FIG. 10A, in a specific patent document A, when the appearance frequency frequency of the keyword "powder" is "small", the appearance frequency frequency of the keyword "composit" is "small" Quot; small ", and the appearance frequency class of the keyword " melt " is " small ", and the appearance frequency class of each keyword and keyword is input to the technical document classification model, The country (Nation) can output "1 (China)".

상술한 과정을, 복수 개의 특허 문서 각각에 대해 적용하면 도 10b에 도시된 바와 같이, 복수 개의 특허 문서 각각이 출원 국가 별로 분류될 수 있음을 확인할 수 있다.If the above-described process is applied to each of a plurality of patent documents, as shown in FIG. 10B, it can be seen that each of the plurality of patent documents can be classified by the application country.

이제 도 6, 도 11a, 도 11b, 도 11c 및 도 13을 참조하여, 본 발명의 실시예에 따른, 기술 문서 분석 방법에서 복수의 기술 문서를 분석하는 단계의 제2 실시예를 설명한다.Now, with reference to Figs. 6, 11A, 11B, 11C, and 13, a second embodiment of analyzing a plurality of technical documents in the technical document analysis method according to an embodiment of the present invention will be described.

도 6은 본 발명의 실시예에 따른, 기술 문서 분석 방법에서 복수의 기술 문서를 분석하는 단계의 제2 실시예를 설명하기 위한 순서도이다.6 is a flowchart for explaining a second embodiment of analyzing a plurality of technical documents in the technical document analysis method according to the embodiment of the present invention.

도 11a, 도 11b 및 도 11c는 본 발명의 실시예에 따른, 기술 문서 분석 방법의 복수의 기술 문서를 분석하는 단계의 제2 실시예에서 특정 추정 대상 키워드의 출현 빈도 등급을 추정하는 방법을 설명하기 위한 도면이다.11A, 11B and 11C illustrate a method for estimating the appearance frequency class of a specific estimation target keyword in the second embodiment of analyzing a plurality of technical documents of the technical document analysis method according to the embodiment of the present invention Fig.

도 13은 본 발명의 실시예에 따른, 기술 문서 분석 방법의 복수의 기술 문서를 분석하는 단계의 제2 실시예의 유효성을 검증하기 위한 도면이다.13 is a diagram for verifying the validity of a second embodiment of analyzing a plurality of technical documents of the technical document analysis method according to the embodiment of the present invention.

예컨대, 복수의 기술 문서를 분석하는 단계는, 출현 빈도 등급 추정부(131)가, 기계학습에 기초하여 미리 생성된 키워드 분석 모델에 복수의 키워드를 입력하여, 특정 추정 대상 키워드의 출현 빈도 등급을 추정하는 단계(미도시)를 포함할 수 있다.For example, in the step of analyzing the plurality of technical documents, the appearance frequency class estimating unit 131 may input a plurality of keywords into a keyword analysis model generated in advance based on the machine learning, (Not shown).

이때, 특정 추정 대상 키워드의 출현 빈도 등급을 추정하는 단계(미도시)는 복수의 기술 문서를 분석하는 단계의 제2 실시예를 의미할 수 있다.At this time, the step of estimating the appearance frequency class of the specific estimation target keyword (not shown) may mean the second embodiment of analyzing a plurality of technical documents.

도 6에 도시된 바와 같이, 특정 추정 대상 키워드의 출현 빈도 등급을 추정하는 단계(미도시)는, 복수의 키워드 각각의 출현 빈도 등급 결정 단계(S335), 복수의 키워드 및 출현 빈도 등급을 키워드 분석 모델에 입력하는 단계(S336) 및 특정 추정 대상 키워드의 출현 빈도 등급을 추정하는 단계(S337)를 포함한다.As shown in FIG. 6, the step of estimating an appearance frequency class of a specific estimation target keyword includes an appearance frequency rating determination step (S335) for each of a plurality of keywords, a keyword analysis (S336) of inputting to the model, and estimating an appearance frequency class of a specific estimation target keyword (S337).

이때, 키워드 분석 모델은 퍼지 학습에 기초하여 생성된 일종의 퍼지 회귀 모델을 의미할 수 있다.At this time, the keyword analysis model may mean a kind of fuzzy regression model generated based on fuzzy learning.

S335 단계는, 복수의 기술 문서 각각에 포함된 복수의 키워드를 출현 빈도 구간 별로 분류하기 위한 소정 개수의 출현 빈도 등급 각각에 대하여 복수의 키워드 각각이 속하는 정도를 나타내는 소속도에 기초하여 복수의 키워드 각각의 상기 출현 빈도 등급을 결정하는 단계를 의미할 수 있다.In step S335, the plurality of keywords included in each of the plurality of description documents are classified into the plurality of keywords based on the degree of belonging indicating the degree to which each of the plurality of keywords belongs to each of the predetermined number of appearance frequency classes for classifying the plurality of keywords, May be determined by determining the frequency of appearance of the frequency of occurrence.

이때, S335 단계는 상술한 도 5의 S331 단계와 동일하므로, 중복되는 설명은 생략한다.At this time, since the step S335 is the same as the step S331 of FIG. 5, duplicate explanation will be omitted.

S336 단계는, 복수의 키워드 및 복수의 키워드 각각에 대응되는 출현 빈도 등급을 키워드 분석 모델에 입력하는 단계를 의미할 수 있다.Step S336 may be a step of inputting the appearance frequency class corresponding to each of the plurality of keywords and the plurality of keywords into the keyword analysis model.

일 실시예에 따르면, 키워드 분석 모델은 퍼지 학습에 기초하여 생성된 일종의 퍼지 회귀 모델을 의미할 수 있으며, 키워드 분석 모델은 상술한 수학식 1에서와 같이, 특정 기술 문서에서 추출된 키워드1(Keyword1)의 출현 빈도 등급이 A1이고 키워드2(Keyword2)의 출현 빈도 등급이 A2이고 키워드p(Keywordp)의 출현 빈도 등급이 Ap인 경우 특정 추정 대상 키워드의 출현 빈도 등급은 B임을 결정할 수 있도록 미리 학습된 모델을 의미할 수 있다.According to one embodiment, the keyword analysis model may be a kind of fuzzy regression model generated based on the fuzzy learning, and the keyword analysis model may include a keyword 1 extracted from a specific technical document 1) frequency of appearance rates are a 1 and when the appearance frequency level of appearance frequency level of keywords 2 (keyword 2) is a 2 and the keyword p (keyword p) of a p appearance frequency level of the specific estimation target keyword of is that the B And may be a model that has been learned beforehand so that it can be determined.

이때, 키워드 분석 모델은 아래 수학식 2와 같이 정의될 수 있다.At this time, the keyword analysis model can be defined as Equation 2 below.

[수학식 2]&Quot; (2) "

Figure pat00002
Figure pat00002

이때, 키워드 분석 모델에서 (Keyword1, …,Keywordp)는 복수의 키워드 각각에 대응되는 입력 벡터(vector), Keywordtarget은 출력 변수, Bn은 퍼지 회귀 변수를 의미할 수 있다.In this case, in the keyword analysis model (Keyword 1 , ..., Keyword p ), an input vector corresponding to each of a plurality of keywords, a keyword target as an output variable, and B n as a fuzzy regression variable.

퍼지 회귀 모델링의 과정을 통해 키워드 분석 모델을 생성함에 있어서, 퍼지 회귀 구간을 Keywordtarget,

Figure pat00003
이라고 하면,
Figure pat00004
는 낮은 데이터 지점에 맞추어 계산한 Keywordtarget의 하한을 의미할 수 있고,
Figure pat00005
은 높은 데이터 지점에 맞추어 계산한 Keywordtarget의 상한을 의미할 수 있으며, 키워드 분석 모델은 상술한 퍼지 회귀 구간을 활용하여 생성될 수 있으며, 키워드 분석 모델은 가능성(possibilistic)과 최소제곱(least-squares) 방법을 사용하여 적합화 될 수 있다.In generating the keyword analysis model through the process of fuzzy regression modeling, the fuzzy regression interval is defined as the keyword target ,
Figure pat00003
Quot;
Figure pat00004
Can mean the lower bound of the Keyword target calculated for the lower data points,
Figure pat00005
May mean an upper limit of a Keyword target calculated in accordance with the high data point, the keyword analysis model can be generated by utilizing the above-described fuzzy return section, the keyword analysis model likelihood (possibilistic) and least squares (least-squares ) Method. ≪ / RTI >

이때, 퍼지 회귀 구간을 활용하여 키워드 분석 모델을 생성하는 구체적인 방법은 기 공지된 퍼지 회귀 알고리즘과 동일하므로 상세한 설명은 생략한다.At this time, the specific method of generating the keyword analysis model using the fuzzy regression interval is the same as the known fuzzy regression algorithm, and thus a detailed description thereof will be omitted.

S337 단계는, 복수의 키워드 및 복수의 키워드 각각에 대응되는 출현 빈도 등급 상호 간의 관계에 대한 기설정된 조건에 기초하여 특정 추정 대상 키워드의 출현 빈도 등급을 추정하는 단계를 의미할 수 있다.Step S337 may refer to a step of estimating an appearance frequency class of a specific estimation target keyword on the basis of a predetermined condition for a relation between appearance frequency classes corresponding to a plurality of keywords and a plurality of keywords, respectively.

일 실시예에 따르면, 복수의 키워드 및 복수의 키워드 각각에 대응되는 출현 빈도 등급 상호 간의 관계에 대한 기설정된 조건은 상술한 키워드 분석 모델에 미리 저장될 수 있으며, 상술한 수학식 1과 같이, 특정 기술 문서에서 추출된 키워드1(Keyword1)의 출현 빈도 등급이 A1이고 키워드2(Keyword2)의 출현 빈도 등급이 A2이고 키워드p(Keywordp)의 출현 빈도 등급이 Ap인 경우 특정 추정 대상 키워드(Keywordtarget)의 출현 빈도 등급은 B임을 결정하는 “if-then” 규칙을 의미할 수 있다.According to an exemplary embodiment, the predetermined condition for the relationship between the appearance frequency classes corresponding to the plurality of keywords and the plurality of keywords may be stored in advance in the keyword analysis model described above. If the appearance frequency level of Keyword 1 extracted from the technical document is A 1 , the appearance frequency frequency of Keyword 2 is A 2, and the occurrence frequency grade of Keyword p is A p , frequency of appearance rates of the target keyword (keyword target) may mean a "if-then" rules that determine that B.

이때 도 11a에 도시된 바와 같이, 입력된 복수의 키워드(Keyword1, …,Keywordp)는 기술을 의미할 수 있으며, 특정 추정 대상 키워드(Keywordtarget)의 기술에 영향을 줄 수 있다.At this time, as illustrated in Figure 11a, a plurality of the input keyword (Keyword 1, ..., p Keyword) may refer to a technique, it is possible to affect the specific estimation technique in the target keyword (Keyword target).

나아가, 도 11a에 도시된 바와 같이, 특정 추정 대상 키워드(Keywordtarget)는 특정 기술분야에서의 목표기술을 의미할 수 있고, 입력된 복수의 키워드(Keyword1, …,Keywordp)는 상술한 목표기술을 개발하는데 영향을 미치는 하위 기술을 의미할 수 있다.Furthermore, the specific estimation target keyword (Keyword target) as shown in Figure 11a may sense the target technology in a particular technical field, the inputted plurality keyword (Keyword 1, ..., Keyword p ) is the above-described target It can mean a sub-technology that influences the development of technology.

이제 도 11b 및 도 11c를 참조하여, S336 및 S337 단계를 설명한다.Now, the steps S336 and S337 will be described with reference to Figs. 11B and 11C.

도 11b에 도시된 바와 같이, 입력된 복수의 키워드 중 키워드 “powder”의 출현 빈도 등급이 “small”이고, 키워드 “composit”의 출현 빈도 등급이 “medium”이며, 키워드 “plate”의 출현 빈도 등급이 “medium”이고, 키워드 “melt”의 출현 빈도 등급이 “small”인 경우에서, 각각의 키워드와 키워드 별 출현 빈도 등급이 키워드 분석 모델에 입력되면, 키워드 분석 모델은 특정 추정 대상 키워드 “printhead”의 출현 빈도 등급이 “small”임을 추정할 수 있다.As shown in FIG. 11B, among the input keywords, the appearance frequency frequency of the keyword "powder" is "small", the appearance frequency frequency of the keyword "composit" is "medium" When the appearance frequency class of each keyword and keyword is input to the keyword analysis model in the case where the appearance frequency class of the keyword "melt" is "medium" and the appearance frequency class of the keyword " Can be estimated to be "small".

상술한 과정을, 복수 개의 특허 문서 각각에 대해 적용되면 도 11c에 도시된 바와 같이, 복수 개의 특허 문서 각각에 속하는 특정 추정 대상 키워드 “printhead”의 출현 빈도 등급이 복수 개의 특허 문서 별로 각각 추정됨을 확인할 수 있다.When the above process is applied to each of a plurality of patent documents, it is confirmed that the appearance frequency class of the specific estimation target keyword " printhead " belonging to each of the plurality of patent documents is estimated for each of the plurality of patent documents, as shown in Fig. 11C .

이제, 도 13을 참조하여 키워드 분석 모델의 성능을 설명한다.Now, the performance of the keyword analysis model will be described with reference to FIG.

도 13에 도시된 바와 같이, 키워드 분석 모델의 성능을 평가하기 위해 실제 값과 예측 값 사이의 평균제곱오차(MSE)와 평균제곱근오차(RMSE)를 계산하며, 값이 작을수록 키워드 분석 모델의 성능은 우수한 것으로 나타나게 된다.As shown in FIG. 13, in order to evaluate the performance of the keyword analysis model, a mean square error (MSE) and a mean square root error (RMSE) between an actual value and a predicted value are calculated. Is superior.

이때, 키워드 분석 모델의 평균제곱오차(MSE)는 1.66이고 평균제곱근오차(RMSE)는 1.29이며, 키워드 분석 모델을 구성하기 위해서 테스트 데이터를 사용하여 모델의 유효성을 검증하기 위해 2,583건의 특허 문서들을 1,808개의 학습 데이터 (70%)와 775개의 테스트 데이터 (30%)로 나누어 실험한 결과 도 13에 도시된 바와 같이, 특정 추정 대상 키워드의 실제 출현 빈도 등급과 특정 추정 대상 키워드의 추정된 출현 빈도 등급이 거의 일치함을 확인할 수 있다.At this time, the mean square error (MSE) of the keyword analysis model is 1.66 and the mean square root error (RMSE) is 1.29. To validate the model using the test data to construct the keyword analysis model, (70%) and 775 test data (30%). As shown in FIG. 13, the actual appearance frequency class of the specific estimation target keyword and the estimated appearance frequency class of the specific estimation target keyword It can be confirmed that they are almost identical.

이제 도 3, 도 12a 및 도 12b를 동시에 참조하여, 본 발명의 실시예에 따른, 기술 문서 분석 방법에서 복수의 기술 문서를 분석하는 단계의 제3 실시예를 설명한다.A third embodiment of analyzing a plurality of technical documents in the technical document analysis method according to an embodiment of the present invention will now be described with reference to FIGS. 3, 12A and 12B simultaneously.

도 12a 및 도 12b는 본 발명의 실시예에 따른, 기술 문서 분석 방법에서 복수의 기술 문서를 분석하는 단계의 제3 실시예를 설명하기 위한 도면이다.12A and 12B are views for explaining a third embodiment of analyzing a plurality of technical documents in the technical document analysis method according to the embodiment of the present invention.

예컨대, 복수의 기술 문서를 분석하는 단계는, 소속 기술군 결정부(135)가, 기계학습에 기초하여 미리 생성된 소속 기술군 결정 모델에 복수의 키워드를 입력하여, 소정 개수의 기술군 각각에 대하여 복수의 기술 문서 각각이 속하는 정도를 나타내는 기술군 소속 계수를 결정하는 단계(미도시)를 포함할 수 있다.For example, in the step of analyzing a plurality of technical documents, the belonging skill group determining unit 135 may input a plurality of keywords into a belonging skill group determining model previously generated based on the machine learning, (Not shown) for determining a technology group membership coefficient indicating the degree to which each of the plurality of technical documents belongs.

이때, 기술군 소속 계수를 결정하는 단계(미도시)는 복수의 기술 문서를 분석하는 단계의 제3 실시예를 의미할 수 있다.At this time, the step of determining the technology group membership coefficient (not shown) may mean the third embodiment of the step of analyzing a plurality of technical documents.

이때, 소속 기술군 결정 모델은 퍼지 학습에 기초하여 생성된 일종의 퍼지 군집화 모델을 의미할 수 있다.At this time, the belonging skill group decision model may mean a kind of fuzzy clustering model generated based on the fuzzy learning.

이제, 기술군 소속 계수를 결정하는 단계(미도시)에서 소속 기술군 결정 모델에 기초하여, 기술군 소속 계수를 결정하는 방법에 대해 설명한다.Now, a method of determining the technology group membership coefficient based on the belonging technology group decision model in the step of determining the technology group membership coefficient (not shown) will be described.

복수의 기술 문서의 집합을

Figure pat00006
이라 할때, 0에서 1사이의 기술군 소속 계수를 갖는 퍼지 집합 F는 아래 수학식 3과 같이 정의될 수 있다.A collection of multiple technical documents
Figure pat00006
, A fuzzy set F having a technology group membership coefficient between 0 and 1 can be defined as Equation 3 below.

[수학식 3]&Quot; (3) "

Figure pat00007
Figure pat00007

이때, 복수의 기술 문서 각각은 0과 1 사이의 값으로 사상(map)되며, 복수의 기술 문서를 군집화하기 위하여, 상술한 퍼지 집합을 활용하게 된다.At this time, each of the plurality of technical documents is mapped to a value between 0 and 1, and the above-described fuzzy set is used to cluster the plurality of technical documents.

이때, 기술군은 복수의 기술 문서들의 퍼지 집합으로 구성되며, 주어진 기술군을

Figure pat00008
이라 할 때, 분할 행렬 D는 아래 수학식 4와 같이 정의될 수 있다.At this time, the technology group consists of a fuzzy set of a plurality of technical documents,
Figure pat00008
, The division matrix D can be defined as shown in Equation (4) below.

[수학식 4]&Quot; (4) "

Figure pat00009
Figure pat00009

이때, D는 분할 행렬, dij는 기술군 cj에 대한 기술 문서 pi의 기술군 소속 계수를 의미한다.Where D is the partition matrix and d ij is the technical group membership coefficient of the technical document p i for the technical group c j .

이때, 기술군 소속 계수는 아래 수학식 5 내지 수학식 7을 만족하는 범위 내에서 선택될 수 있다.At this time, the technology group membership coefficient can be selected within a range satisfying the following equations (5) to (7).

[수학식 5]&Quot; (5) "

이때, 수학식 5는 기술군 소속 계수(dij)는 0이상이며 1이하인 범위를 갖는다는 의미이다.In this case, Equation (5) means that the technology group membership coefficient (d ij ) is 0 or more and 1 or less.

[수학식 6]&Quot; (6) "

Figure pat00011
Figure pat00011

이때, 수학식 6은 모든 기술군(c1, c2, … cm) 각각에 대하여 결정된 특정 기술 문서(pi)의 기술군 소속 계수(dij)의 총합은 1임을 의미한다.Equation (6) implies that the total of the technical group membership coefficients (d ij ) of the specific technical document (p i ) determined for each technology group (c 1 , c 2 , ... c m ) is 1.

[수학식 7]&Quot; (7) "

Figure pat00012
Figure pat00012

이때, 수학식 7은 특정 기술군(cj)에 대하여 결정된 모든 기술 문서(p1, p2, … pn)의 기술군 소속 계수(dij)의 총합은 0보다 크고 n 보다 작음을 의미한다.Equation (7) indicates that the total of the technical group membership coefficients (d ij ) of all technical documents (p 1 , p 2 , ... p n ) determined for the specific technical group (c j ) is greater than 0 and less than n do.

예를 들면, 기술군 소속 계수는 미리 설정된 기술군 결정 그래프 모델 상에서, 복수의 기술 문서 각각에 대응되는 지점과 소정 개수의 기술군 각각의 중심에 대응되는 지점 간의 거리에 반비례하도록 결정될 수 있다.For example, the technology group membership coefficient may be determined to be inversely proportional to a distance between a point corresponding to each of the plurality of technical documents and a point corresponding to the center of each of the predetermined number of technology groups on a predetermined technology group graph model.

이때, 소속 기술군 결정 모델이 기술군 소속 계수를 결정하는 보다 구체적인 동작은 종래에 공지된 퍼지 군집화 모델과 동일하므로, 그 상세한 설명은 생략한다.At this time, the more specific operation in which the belonging skill group decision model determines the technology group belonging coefficient is the same as the conventionally known fuzzy clustering model, and a detailed description thereof will be omitted.

도 12a에 도시된 바와 같이, 소속 기술군 결정 모델의 출력에 의해, 복수의 기술 문서 각각의 소정 개수의 기술군 각각에 대한 기술군 소속 계수가 결정되면, 복수의 기술 문서는 군집화될 수 있다.As shown in FIG. 12A, when a technology group belonging coefficient for each of a predetermined number of technology groups of a plurality of technical documents is determined by the output of the belonging technology group determination model, a plurality of technical documents can be clustered.

상술한 복수의 기술 문서의 군집화 결과를 측정하기 위하여, 아래 수학식 8과 같은 오차제곱합(SSE)을 적용할 수 있다.In order to measure the clustering result of the plurality of technical documents, the sum of squares (SSE) as shown in Equation (8) below can be applied.

[수학식 8]&Quot; (8) "

Figure pat00013
Figure pat00013

이때,

Figure pat00014
는 i번째 기술 문서(pi)와 j번째 기술군(cj) 간의 거리를 의미할 수 있다.At this time,
Figure pat00014
May refer to the distance between the i th descriptive document (p i ) and the j th descriptive group (c j ).

예컨대, 소속 기술군 결정 모델에 기초하여 복수의 기술 문서가 군집화 되는 경우, 특정 기술 문서는 여러 개의 군집에 대하여 기술군 소속 계수만큼 소속될 수 있다.For example, when a plurality of technical documents are clustered based on a belonging technology group decision model, the specific technical document may belong to a technology group membership coefficient for several clusters.

일 실시예에 따르면, 소속 기술군 결정 모델은 특정 기술 문서에 포함된 복수의 키워드가 입력되면, 특정 기술 문서가 소정 개수의 기술군 각각에 속하는 정도를 나타내는 기술군 소속 계수를 각각 결정하도록 미리 학습된 퍼지 학습에 기초하여 생성된 일종의 퍼지 군집화 모델을 의미할 수 있다.According to one embodiment, when a plurality of keywords included in a specific technical document are input, the belonging skill group decision model is set to a learning process for determining a technical group belonging coefficient indicating the degree to which a specific technical document belongs to each of a predetermined number of technical groups, Which is a kind of fuzzy clustering model generated based on the learned fuzzy learning.

일 실시예에 따르면, 소속 기술군 결정 모델은 복수의 기술 문서의 소속 계수를 결정하는 상술한 동작 외에도, 복수의 기술 문서 각각에 포함된 복수의 키워드의 소속 계수를 결정할 수도 있다.According to one embodiment, the belonging skill group determination model may determine the belonging coefficients of a plurality of keywords included in each of the plurality of descriptive documents, in addition to the above-described operations of determining the belonging coefficients of the plurality of descriptive documents.

도 12b는, 총 10개의 키워드 각각에 대한 기술군 소속 확률에 100을 곱하여 정수화한 결과를 나타내며, 도 12b에 도시된 바와 같이, 키워드 “powder”는 기술군1(cluster1)에 대하여 0.36의 기술군 소속 확률을 가지며, 기술군2(cluster2)에 대하여 0.29의 기술군 소속 확률을 가지며, 기술군3(cluster3)에 대하여 0.36의 기술군 소속 확률을 가짐을 확인할 수 있으며, 이를 통해, 소속 기술군 결정 모델에 기초하여 복수의 기술 문서 또는 키워드 각각에 대한 기술군 소속 확률을 결정하면 복수의 기술 문서 또는 키워드 각각은 복수 개의 기술군에 동시에 속할 수 있음을 확인할 수 있다.12B shows a result obtained by multiplying the probability of belonging to a technology group by 100 by a factor of 100 for each of a total of ten keywords. As shown in Fig. 12B, the keyword " powder " The probability of belonging to the technology group 2 (cluster2) is 0.29, and the probability of belonging to the technology group is 0.36 for the technology group 3 (cluster3). As a result, It can be confirmed that a plurality of technical documents or keywords can belong to a plurality of technical groups at the same time if the technical group membership probability for each of a plurality of technical documents or keywords is determined based on the model.

본 발명의 실시예에 따른, 기술 문서 분석 방법 및 장치를 활용하면, 기술 문서를 분류할 수 있고, 키워드 및 기술 간의 관계를 확인할 수 있으며, 기술 문서를 군집화 할 수 있기 때문에, 국가, 기관, 기업등을 비롯한 각종 단체에서 연구 및 개발 계획 수립에 기여할 수 있으며, 각종 기술 경영(MOT) 문제에도 적용될 수 있는 장점이 있다.By using the technical document analysis method and apparatus according to the embodiment of the present invention, it is possible to classify the technical document, to confirm the relationship between the keyword and the technology, and to cluster the technical document, Etc., can contribute to the establishment of research and development plans, and can be applied to various technical management (MOT) issues.

이상에서 본 발명에 따른 바람직한 실시예에 대해 설명하였으나, 다양한 형태로 변형이 가능하며, 본 기술분야에서 통상의 지식을 가진 자라면 본 발명의 특허청구범위를 벗어남이 없이 다양한 변형예 및 수정예를 실시할 수 있을 것으로 이해된다.While the present invention has been described in connection with what is presently considered to be practical exemplary embodiments, it is to be understood that the invention is not limited to the disclosed embodiments, but many variations and modifications may be made without departing from the scope of the present invention. It will be understood that the invention may be practiced.

1: 기술 문서 데이터베이스
100: 기술 문서 분석 장치
110: 기술 문서 수집부
120: 키워드 추출부
130: 기술 문서 분석부
131: 기술 문서 분류부
133: 출현 빈도 등급 추정부
135: 소속 기술군 결정부
1: Technical Document Database
100: Technical Document Analysis Device
110: Technical Document Collecting Department
120: Keyword extracting unit
130: Technical Document Analysis Department
131: Technical Document Classification
133: Appearance Frequency Classification
135: belonging technology group decision unit

Claims (8)

기술 문서 수집부가, 분석의 대상이 되는 복수의 기술 문서를 기술 문서 데이터베이스로부터 수집하는 단계;
키워드 추출부가, 상기 복수의 기술 문서 각각에 포함된 적어도 하나의 단어 각각의 출현 횟수에 기초하여 상기 복수의 기술 문서로부터 복수의 키워드(keyword)를 추출하는 단계; 및
기술 문서 분석부가, 기계학습에 기초하여 미리 생성된 적어도 하나의 기술 문서 분석 모델에 상기 복수의 키워드를 입력하여 상기 복수의 기술 문서를 분석하는 단계를 포함하는, 기술 문서 분석 방법.
Collecting a plurality of technical documents to be analyzed from a technical document database;
Extracting a plurality of keywords from the plurality of descriptive documents based on the number of occurrences of each of at least one word included in each of the plurality of descriptive documents; And
And analyzing the plurality of technical documents by inputting the plurality of keywords into at least one technical document analysis model generated in advance on the basis of the machine learning.
제1항에 있어서,
상기 복수의 키워드를 추출하는 단계는,
상기 복수의 기술 문서 각각에 포함된 전체 텍스트 정보에서 불용어(stopword)를 제거하여 상기 전체 텍스트 정보를 말뭉치(corpus) 정보로 변환하는 단계;
상기 복수의 기술 문서 별로 상기 말뭉치 정보에 포함된 상기 적어도 하나의 단어 각각의 출현 횟수를 나타내는 행렬인 기술 문서 별 단어 행렬을 생성하는 단계; 및
상기 기술 문서 별 단어 행렬에 포함된 상기 적어도 하나의 단어 각각의 출현 횟수가 큰 순서대로 기설정된 개수의 단어를 선택하여 상기 복수의 키워드를 추출하는 단계를 포함하는, 기술 문서 분석 방법.
The method according to claim 1,
Wherein the extracting of the plurality of keywords comprises:
Converting the entire text information into corpus information by removing a stopword from the entire text information included in each of the plurality of technical documents;
Generating a word matrix for each descriptive document which is a matrix representing the number of occurrences of each of the at least one words included in the corpus information for each of the plurality of technical documents; And
And extracting the plurality of keywords by selecting a predetermined number of words in descending order of the number of occurrences of each of the at least one words contained in the word matrix of each descriptive document.
제1항에 있어서,
상기 복수의 기술 문서를 분석하는 단계는,
기술 문서 분류부가, 기계학습에 기초하여 미리 생성된 기술 문서 분류 모델에 상기 복수의 키워드를 입력하여, 상기 복수의 기술 문서를 서지사항 정보 별로 분류하는 단계를 포함하는, 기술 문서 분석 방법.
The method according to claim 1,
Wherein analyzing the plurality of technical documents comprises:
Wherein the technical document classification section includes inputting the plurality of keywords into a technical document classification model generated in advance based on machine learning and classifying the plurality of technical documents by bibliographic information.
제3항에 있어서,
상기 복수의 기술 문서를 서지 정보 별로 분류하는 단계는,
상기 복수의 기술 문서 각각에 포함된 상기 복수의 키워드를 출현 빈도 구간 별로 분류하기 위한 소정 개수의 출현 빈도 등급 각각에 대하여 상기 복수의 키워드 각각이 속하는 정도를 나타내는 소속도에 기초하여 상기 복수의 키워드 각각의 상기 출현 빈도 등급을 결정하는 단계;
상기 복수의 키워드 및 상기 복수의 키워드 각각에 대응되는 출현 빈도 등급을 상기 기술 문서 분류 모델에 입력하는 단계; 및
상기 복수의 키워드 및 상기 복수의 키워드 각각에 대응되는 출현 빈도 등급 상호 간의 관계에 대한 기설정된 조건에 기초하여 상기 복수의 기술 문서를 서지사항 정보 별로 분류하는 단계를 포함하는, 기술 분서 분석 방법.
The method of claim 3,
Wherein the step of classifying the plurality of technical documents by bibliographic information comprises:
Based on a degree of belonging that indicates the degree to which each of the plurality of keywords belongs to each of a predetermined number of appearance frequency classes for classifying the plurality of keywords included in each of the plurality of technical documents by an appearance frequency interval, Determining said appearance frequency rating of said frequency;
Inputting an appearance frequency rating corresponding to each of the plurality of keywords and the plurality of keywords into the technical document classification model; And
Classifying the plurality of technical documents according to bibliographic information based on predetermined conditions for a relationship between the plurality of keywords and the appearance frequency grades corresponding to each of the plurality of keywords.
제1항에 있어서,
상기 복수의 기술 문서를 분석하는 단계는,
출현 빈도 등급 추정부가, 기계학습에 기초하여 미리 생성된 키워드 분석 모델에 상기 복수의 키워드를 입력하여, 특정 추정 대상 키워드의 출현 빈도 등급을 추정하는 단계를 포함하는, 기술 문서 분석 방법.
The method according to claim 1,
Wherein analyzing the plurality of technical documents comprises:
Wherein the appearance frequency class estimating section includes a step of estimating an appearance frequency class of a specific estimation target keyword by inputting the plurality of keywords into a keyword analysis model previously generated based on machine learning.
제5항에 있어서,
상기 특정 추정 대상 키워드의 출현 빈도 등급을 추정하는 단계는,
상기 복수의 기술 문서 각각에 포함된 상기 복수의 키워드를 출현 빈도 구간 별로 분류하기 위한 소정 개수의 출현 빈도 등급 각각에 대하여 상기 복수의 키워드 각각이 속하는 정도를 나타내는 소속도에 기초하여 상기 복수의 키워드 각각의 상기 출현 빈도 등급을 결정하는 단계;
상기 복수의 키워드 및 상기 복수의 키워드 각각에 대응되는 출현 빈도 등급을 상기 키워드 분석 모델에 입력하는 단계; 및
상기 복수의 키워드 및 상기 복수의 키워드 각각에 대응되는 출현 빈도 등급 상호 간의 관계에 대한 기설정된 조건에 기초하여 상기 특정 추정 대상 키워드의 출현 빈도 등급을 추정하는 단계를 포함하는, 기술 문서 분석 방법.
6. The method of claim 5,
Estimating an appearance frequency class of the specific estimation target keyword,
Based on a degree of belonging that indicates the degree to which each of the plurality of keywords belongs to each of a predetermined number of appearance frequency classes for classifying the plurality of keywords included in each of the plurality of technical documents by an appearance frequency interval, Determining said appearance frequency rating of said frequency;
Inputting an appearance frequency rating corresponding to each of the plurality of keywords and the plurality of keywords into the keyword analysis model; And
Estimating an appearance frequency class of the specific estimation target keyword based on a predetermined condition for a relationship between the plurality of keywords and the appearance frequency grades corresponding to each of the plurality of keywords.
제1항에 있어서,
상기 복수의 기술 문서를 분석하는 단계는,
소속 기술군 결정부가, 기계학습에 기초하여 미리 생성된 소속 기술군 결정 모델에 상기 복수의 키워드를 입력하여, 소정 개수의 기술군 각각에 대하여 상기 복수의 기술 문서 각각이 속하는 정도를 나타내는 기술군 소속 계수를 결정하는 단계를 포함하는, 기술 문서 분석 방법.
The method according to claim 1,
Wherein analyzing the plurality of technical documents comprises:
Belonging technology group determining section is configured to input the plurality of keywords into a belonging skill group decision model generated in advance based on the machine learning and to classify a plurality of technical groups belonging to a technology group belonging to a technology group indicating the degree to which each of the plurality of technical documents belongs to each of the predetermined number of technology groups And determining a coefficient.
분석의 대상이 되는 복수의 기술 문서를 기술 문서 데이터베이스로부터 수집하는 기술 문서 수집부;
상기 복수의 기술 문서 각각에 포함된 적어도 하나의 단어 각각의 출현 횟수에 기초하여 상기 복수의 기술 문서로부터 복수의 키워드(keyword)를 추출하는 키워드 추출부; 및
기계학습에 기초하여 미리 생성된 적어도 하나의 기술 문서 분석 모델에 상기 복수의 키워드를 입력하여 상기 복수의 기술 문서를 분석하는 기술 문서 분석부를 포함하는, 기술 문서 분석 장치.
A technical document collection unit for collecting a plurality of technical documents to be analyzed from a technical document database;
A keyword extracting unit that extracts a plurality of keywords from the plurality of technical documents based on the number of occurrences of each of at least one word included in each of the plurality of technical documents; And
And a technical document analysis unit for analyzing the plurality of technical documents by inputting the plurality of keywords into at least one technical document analysis model generated in advance on the basis of the machine learning.
KR1020170026243A 2017-02-28 2017-02-28 Method and apparatus for analyzing technical document KR101938748B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170026243A KR101938748B1 (en) 2017-02-28 2017-02-28 Method and apparatus for analyzing technical document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170026243A KR101938748B1 (en) 2017-02-28 2017-02-28 Method and apparatus for analyzing technical document

Publications (2)

Publication Number Publication Date
KR20180099164A true KR20180099164A (en) 2018-09-05
KR101938748B1 KR101938748B1 (en) 2019-04-10

Family

ID=63594876

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170026243A KR101938748B1 (en) 2017-02-28 2017-02-28 Method and apparatus for analyzing technical document

Country Status (1)

Country Link
KR (1) KR101938748B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020111326A1 (en) * 2018-11-29 2020-06-04 에스케이텔레콤 주식회사 Method for providing high-performance machine learning, and apparatus using same

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100676693B1 (en) 2005-01-31 2007-02-02 주식회사 애니파이브시스템 A Patent Management Portal Service System
WO2011117593A1 (en) * 2010-03-26 2011-09-29 British Telecommunications Public Limited Company Text classifier system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100676693B1 (en) 2005-01-31 2007-02-02 주식회사 애니파이브시스템 A Patent Management Portal Service System
WO2011117593A1 (en) * 2010-03-26 2011-09-29 British Telecommunications Public Limited Company Text classifier system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020111326A1 (en) * 2018-11-29 2020-06-04 에스케이텔레콤 주식회사 Method for providing high-performance machine learning, and apparatus using same

Also Published As

Publication number Publication date
KR101938748B1 (en) 2019-04-10

Similar Documents

Publication Publication Date Title
CN104820629B (en) A kind of intelligent public sentiment accident emergent treatment system and method
CN110580292A (en) Text label generation method and device and computer readable storage medium
CN111767725B (en) Data processing method and device based on emotion polarity analysis model
TW201115370A (en) Systems and methods for capturing and managing collective social intelligence information
CN103927302A (en) Text classification method and system
Pong-Inwong et al. Improved sentiment analysis for teaching evaluation using feature selection and voting ensemble learning integration
CN110458296B (en) Method and device for marking target event, storage medium and electronic device
CN108595525A (en) A kind of lawyer's information processing method and system
CN104699767B (en) A kind of extensive Ontology Mapping Method towards Chinese language
CN110765268A (en) Client appeal-based accurate distribution network investment strategy method
CN107577724A (en) A kind of big data processing method
CN112800225B (en) Microblog comment emotion classification method and system
CN111026870A (en) ICT system fault analysis method integrating text classification and image recognition
CN112734154A (en) Multi-factor public opinion risk assessment method based on fuzzy number similarity
CN107357895A (en) A kind of processing method of the text representation based on bag of words
CN106326458A (en) Method for classifying city management cases based on text classification
Tripathi et al. Analyzing sentiment using IMDb dataset
Nisha et al. A comparative analysis of machine learning approaches in personality prediction using MBTI
Chandra et al. Collective representation learning on spatiotemporal heterogeneous information networks
Yuan et al. A hybrid method for multi-class sentiment analysis of micro-blogs
Sharma et al. Movie buzz-movie success prediction system using machine learning model
Hendrastuty et al. Text Summarization in Multi Document Using Genetic Algorithm
CN114528405A (en) Public opinion monitoring method based on network burst hotspot
Owoeye et al. Classification of extremist text on the web using sentiment analysis approach
KR101938748B1 (en) Method and apparatus for analyzing technical document

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant