KR20210086402A - Apparatus and methods for trend analysis in airport and aviation technology - Google Patents

Apparatus and methods for trend analysis in airport and aviation technology Download PDF

Info

Publication number
KR20210086402A
KR20210086402A KR1020200043886A KR20200043886A KR20210086402A KR 20210086402 A KR20210086402 A KR 20210086402A KR 1020200043886 A KR1020200043886 A KR 1020200043886A KR 20200043886 A KR20200043886 A KR 20200043886A KR 20210086402 A KR20210086402 A KR 20210086402A
Authority
KR
South Korea
Prior art keywords
airport
document
keywords
keyword
nouns
Prior art date
Application number
KR1020200043886A
Other languages
Korean (ko)
Other versions
KR102371224B1 (en
Inventor
손석현
Original Assignee
인천국제공항공사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인천국제공항공사 filed Critical 인천국제공항공사
Publication of KR20210086402A publication Critical patent/KR20210086402A/en
Application granted granted Critical
Publication of KR102371224B1 publication Critical patent/KR102371224B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Abstract

The present invention relates to an apparatus and a method for analyzing the trend of airport and aviation technologies, which filter data on the airport and aviation technologies from data collected from web content, extract keywords by analyzing morphemes from the filtered data, and analyze trends by analyzing the association between the extracted keywords. In accordance with an embodiment of the present invention, a method for analyzing the trend of airport and aviation technologies comprises the steps of: collecting documents related to the airport and aviation technologies from a web; extracting text from the collected documents and identifying morphemes from the extracted text; extracting a noun from among the identified morphemes; generating a document word matrix using the extracted nouns; and analyzing the degree of similarity and relevance between the keywords corresponding to each element of the document word matrix and the degree of similarity and relevance between the respective documents using the document word matrix, and providing an analysis result.

Description

공항 및 항공 기술의 트렌드 분석 장치 및 방법{Apparatus and methods for trend analysis in airport and aviation technology}Apparatus and methods for trend analysis in airport and aviation technology}

본 발명은 공항 및 항공 기술의 트렌드 분석 장치 및 방법에 관한 것으로, 보다 자세하게는 웹 콘텐츠로부터 수집된 데이터에서 공항 및 항공 기술에 대한 데이터를 필터링하고, 필터링된 데이터에서 형태소를 분석하여 키워드를 추출하고, 추출된 키워드 간의 연관성을 분석하여 트렌드를 분석하는 공항 및 항공 기술의 트렌드 분석 장치 및 방법에 관한 것이다.The present invention relates to an apparatus and method for analyzing trends in airport and aviation technology, and more particularly, filtering data on airport and aviation technology from data collected from web content, extracting keywords by analyzing morphemes from the filtered data, and , to a trend analysis device and method for airport and aviation technology that analyzes trends by analyzing the correlation between extracted keywords.

최근 자유롭게 기술된 대량의 텍스트 데이터를 해석하고, 해석 결과로부터 유용한 정보를 구하는 키워드 분석 시스템이 주목받고 있다. 키워드 분석 시스템은 자연어로 이루어진 비구조화 자료에서 유용한 정보를 얻어내기 위해 구조화 데이터로 변환한 후 분석하는 기법이다. 인터넷 검색 엔진이나 열람실의 검색 시스템 등에 키워드 분석 시스템을 적용할 수 있으며, 기존의 주어진 범주에 따라 문서들을 분류할 수도 있다.Recently, a keyword analysis system that analyzes a large amount of freely described text data and obtains useful information from the analysis result is attracting attention. The keyword analysis system is a technique that analyzes after converting into structured data to obtain useful information from unstructured data made of natural language. A keyword analysis system may be applied to an Internet search engine or a search system in a reading room, and documents may be classified according to an existing given category.

그러나, 종래의 키워드 분석 시스템들은 항공 데이터에 특화되지 않고 SNS 정보나 뉴스에서의 동향만 파악 가능했으며, 기술에 대한 상세한 정보를 알지 못하는 한계가 존재하며 특허, 과제, 학술 등의 정보가 사이트마다 별도로 운영되어 공항 및 항공 기술의 정보가 파편화되어 있는 문제가 있다.However, conventional keyword analysis systems do not specialize in aviation data and can only grasp trends in SNS information or news, and there is a limit to not knowing detailed information about technology, and information such as patents, tasks, and academics is separately available for each site. There is a problem in that the information of airports and aviation technology is fragmented due to operation.

또한, 키워드 분석 기술의 핵심은 문자의 형태소를 분석을 통한 핵심 명사를 추출하는 것으로 기존 기술은 핵심 명사에 대한 정보가 없으면 명사로 인식하지 못하여 추출하지 못하는 문제가 있다. 이에 신규 항공 기술에 대한 신규 명사 또는 복합 명사에 대한 추출 방안이 필요한 실정이다.In addition, the core of keyword analysis technology is to extract core nouns through analysis of morphemes of characters. Existing technologies have a problem in that they cannot be recognized as nouns without information on core nouns. Accordingly, there is a need for a method for extracting new nouns or compound nouns for new aviation technology.

또한, 4차 산업 혁명에 따라 공항 및 항공산업 기술은 빠르게 변화하고 발전하는 상황이며 그에 맞춰 공항 및 항공산업의 기술의 트렌드를 분석하고 예측하여 산업의 흐름에 맞는 기술 개발을 통한 기술 산업을 주도하기 위한 방안이 요구되는 실정이다.In addition, according to the 4th industrial revolution, airport and aviation industry technologies are rapidly changing and developing, and accordingly, it is necessary to analyze and predict the technology trends of the airport and aviation industry to lead the technology industry through technology development that fits the flow of the industry. There is a need for a solution for this.

본 발명은 앞에서 설명한 문제점을 해결하기 위한 것으로, 웹 콘텐츠로부터 수집된 데이터에서 공항 및 항공 기술에 대한 데이터를 필터링하고, 필터링된 데이터에서 형태소를 분석하여 키워드를 추출하고, 추출된 키워드 간의 연관성을 분석하여 트렌드를 분석하는 공항 및 항공 기술의 트렌드 분석 장치 및 방법을 제공하는 것을 목적으로 한다.The present invention is to solve the problems described above, by filtering data on airport and aviation technology from data collected from web content, extracting keywords by analyzing morphemes from the filtered data, and analyzing the correlation between the extracted keywords. The purpose of this is to provide an apparatus and method for analyzing trends in airport and aviation technology to analyze trends.

위에서 언급된 본 발명의 기술적 과제 외에도, 본 발명의 다른 특징 및 이점들이 이하에서 기술되거나, 그러한 기술 및 설명으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.In addition to the technical problems of the present invention mentioned above, other features and advantages of the present invention will be described below or will be clearly understood by those skilled in the art from such description and description.

앞에서 설명한 목적을 달성하기 위한 본 발명의 실시 예에 따른 공항 및 항공 기술의 트렌드 분석 방법은 웹으로부터 공항 및 항공 기술에 관련된 문서들을 수집하는 단계와, 수집된 문서들에서 텍스트를 추출하고, 추출된 텍스트에서 형태소를 식별하는 단계와, 식별된 형태소들 중 명사를 추출하는 단계와, 추출된 명사들을 이용하여 문서 단어 행렬을 생성하는 단계와, 문서 단어 행렬을 이용하여 문서 단어 행렬의 각 원소에 해당하는 키워드들간의 유사도 및 연관도와, 각 문서들간의 유사도 및 연관도를 분석하고, 분석한 결과를 제공하는 단계를 포함할 수 있다.The trend analysis method of airport and aviation technology according to an embodiment of the present invention for achieving the above-described object includes the steps of collecting documents related to airport and aviation technology from the web, extracting text from the collected documents, and extracting the Identifying morphemes from text, extracting nouns from among the identified morphemes, generating a document word matrix using the extracted nouns, and using the document word matrix to correspond to each element of the document word matrix and analyzing the degree of similarity and relevance between keywords, and the degree of similarity and relevance between the respective documents, and providing an analysis result.

한편, 앞에서 설명한 목적을 달성하기 위한 본 발명의 실시 예에 따른 공항 및 항공 기술의 트렌드 분석 장치는 웹으로부터 공항 및 항공 기술에 관련되어 수집되는 문서들을 저장하는 메모리와, 수집된 문서들에서 텍스트를 추출하고, 추출된 텍스트에서 형태소를 식별하고, 식별된 형태소들 중 명사를 추출하고, 추출된 명사들을 이용하여 문서 단어 행렬을 생성하고, 문서 단어 행렬을 이용하여 문서 단어 행렬의 각 원소에 해당하는 키워드들간의 유사도 및 연관도와, 각 문서들간의 유사도 및 연관도를 분석하고, 분석한 결과를 제공하는 프로세서를 포함할 수 있다.On the other hand, the airport and aviation technology trend analysis apparatus according to an embodiment of the present invention for achieving the above-described object includes a memory for storing documents collected in relation to airport and aviation technology from the web, and texts from the collected documents. extracting, identifying morphemes from the extracted text, extracting nouns from among the identified morphemes, generating a document word matrix using the extracted nouns, and using the document word matrix to correspond to each element of the document word matrix. The processor may include a processor that analyzes the degree of similarity and relevance between keywords and the degree of similarity and relevance between each document, and provides an analysis result.

본 발명의 실시 예에 따른 공항 및 항공 기술의 트렌드 분석 장치 및 방법은 웹 콘텐츠로부터 수집된 데이터에서 공항 및 항공 기술에 대한 데이터를 필터링하고, 필터링된 데이터에서 형태소를 분석하여 키워드를 추출하고, 추출된 키워드 간의 연관성을 분석하여 트렌드를 분석할 수 있다.An apparatus and method for analyzing airport and aviation technology trends according to an embodiment of the present invention filters data on airport and aviation technology from data collected from web content, and extracts keywords by analyzing morphemes from the filtered data. Trends can be analyzed by analyzing the correlation between keywords.

또한, 기존 여러 사이트로 분산되어 있는 공항 및 항공 기술에 대한 정보를 수집하고 통합 관리하여 정보의 파편화 문제를 해결하여 일원화된 정보 분석이 가능할 수 있다.In addition, it is possible to collect and integrate information on airports and aviation technologies that are distributed to several existing sites, solve the problem of fragmentation of information, and enable unified information analysis.

다수의 비정형 알고리즘을 통하여 공항 및 항공 기술에 대한 비정형 분석을 수행하고 알고리즘에 따른 다수의 분석결과를 조합한 분석을 통하여 보다 정확하고 객관적인 기술 분석이 가능할 수 있다.A more accurate and objective technical analysis may be possible through an unstructured analysis of airport and aviation technology through a number of unstructured algorithms and an analysis that combines a number of analysis results according to the algorithm.

또한, 공항 및 항공 기술 정보의 통합을 통하여 기술의 핵심 키워드를 추출하고 키워드의 노출 수의 변화량을 분석함으로써 시간 흐름에 따른 공항 및 항공 기술의 발전 방향을 파악하고 급변하는 기술 시장에 대한 기술의 발전을 예측할 수 있다.In addition, by extracting key keywords of technology through the integration of airport and aviation technology information and analyzing the amount of change in the number of exposures of keywords, the direction of development of airport and aviation technology over time is identified, and technology development in the rapidly changing technology market can be predicted.

이 밖에도, 본 발명의 실시 예들을 통해 본 발명의 또 다른 특징 및 이점들이 새롭게 파악될 수도 있을 것이다.In addition, other features and advantages of the present invention may be newly recognized through embodiments of the present invention.

도 1은 본 발명의 실시 예에 따른 공항 및 항공 기술의 트렌드 분석 시스템에 관한 것이다.
도 2는 본 발명의 실시 예에 따른 공항 및 항공 기술의 트렌드 분석 장치를 나타내는 도면이다.
도 3은 본 발명의 실시 예에 따른 수집된 문서들에서 텍스트를 추출하는 것을 나타내는 도면이다.
도 4는 본 발명의 실시 예에 따른 추출된 텍스트에서 형태소를 분석하고, 명사를 추출하는 것을 나타내는 도면이다.
도 5는 본 발명의 실시 예에 따른 문서 단어 행렬을 나타내는 도면이다.
도 6은 본 발명의 실시 예에 따른 키워드 맵을 나타내는 도면이다.
도 7은 본 발명의 실시 예에 따른 키워드들을 정렬하는 것을 나타내는 도면이다.
도 8은 본 발명의 실시 예에 따른 집합들을 정렬하는 것을 나타내는 도면이다.
도 9는 본 발명의 실시 예에 따른 공항 및 항공 기술의 트렌드 분석 방법을 나타내는 도면이다.
1 is a system for analyzing trends in airport and aviation technology according to an embodiment of the present invention.
2 is a diagram illustrating an apparatus for analyzing trends in airport and aviation technology according to an embodiment of the present invention.
3 is a diagram illustrating extracting text from collected documents according to an embodiment of the present invention.
4 is a diagram illustrating analysis of morphemes and extraction of nouns from the extracted text according to an embodiment of the present invention.
5 is a diagram illustrating a document word matrix according to an embodiment of the present invention.
6 is a diagram illustrating a keyword map according to an embodiment of the present invention.
7 is a diagram illustrating sorting of keywords according to an embodiment of the present invention.
8 is a diagram illustrating sorting of sets according to an embodiment of the present invention.
9 is a diagram illustrating a method for analyzing trends in airport and aviation technology according to an embodiment of the present invention.

본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 동일 또는 유사한 구성요소에 대해서는 동일한 참조 부호를 붙이도록 한다.In order to clearly explain the present invention, parts irrelevant to the description are omitted, and the same reference numerals are given to the same or similar elements throughout the specification.

다르게 정의하지는 않았지만, 여기에 사용되는 기술용어 및 과학용어를 포함하는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 일반적으로 이해하는 의미와 동일한 의미를 가진다. 보통 사용되는 사전에 정의된 용어들은 관련 기술문헌과 현재 개시된 내용에 부합하는 의미를 가지는 것으로 추가 해석되고, 정의되지 않는 한 이상적이거나 매우 공식적인 의미로 해석되지 않는다.Although not defined otherwise, all terms including technical and scientific terms used herein have the same meaning as commonly understood by those of ordinary skill in the art to which the present invention belongs. Commonly used terms defined in the dictionary are additionally interpreted as having a meaning consistent with the related technical literature and the presently disclosed content, and unless defined, they are not interpreted in an ideal or very formal meaning.

이하, 첨부한 도면을 참조하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those of ordinary skill in the art can easily implement them. However, the present invention may be embodied in various different forms and is not limited to the embodiments described herein.

도 1은 본 발명의 실시 예에 따른 공항 및 항공 기술의 트렌드 분석 시스템에 관한 것이다.1 is a system for analyzing trends in airport and aviation technology according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 실시 예에 따른 공항 및 항공 기술의 트렌드 분석 시스템(1000)은 웹(100), 공항 및 항공 기술의 트렌드 분석 장치(200, 이하 트렌드 분석 장치)를 포함할 수 있다.Referring to FIG. 1 , the airport and aviation technology trend analysis system 1000 according to an embodiment of the present invention may include a web 100 and an airport and aviation technology trend analysis apparatus 200 (hereinafter, a trend analysis apparatus). have.

웹(100)은 일반적으로 인터넷 공간을 의미할 수 있다. 웹(100)에는 뉴스, 학술, R&D 과제, 특허 및 정책 등의 정보가 개시될 수 있고, 각 정보들은 해당 정보들이 개시되는 각 사이트에 개시될 수 있다. 이때, 각 사이트들은 HTML(Hyper Text Markup Language)문서일 수 있다. 예컨대, 뉴스 정보는 뉴스 사이트에 개시될 수 있고, 해당 뉴스 사이트는 HTML 문서일 수 있다.The web 100 may generally refer to an Internet space. Information such as news, academics, R&D projects, patents and policies may be disclosed on the web 100 , and each information may be disclosed in each site where the corresponding information is disclosed. In this case, each site may be an HTML (Hyper Text Markup Language) document. For example, news information may be published on a news site, and the news site may be an HTML document.

트렌드 분석 장치(200)는 웹(100)으로부터 뉴스, 학술, R&D 과제, 특허 및 정책 등의 정보를 각 사이트로부터 수집할 수 있다. 이때, 트렌드 분석 장치(200)는 각 사이트로부터 HTML 문서를 수집하는 것일 수 있다. 여기서, 트렌드 분석 장치(200)는 웹(100)으부터 공항 및 항공 기술에 대한 문서들을 수집할 수 있다. 또한, 트렌드 분석 장치(200)는 웹(100)으로부터 수집된 문서들 중 공항 및 항공 기술에 대한 문서들을 필터링하고, 필터링된 공항 및 항공 기술에 대한 문서들을 저장할 수 있다. The trend analysis device 200 may collect information such as news, academics, R&D projects, patents and policies from the web 100 from each site. In this case, the trend analysis apparatus 200 may collect HTML documents from each site. Here, the trend analysis apparatus 200 may collect documents about airports and aviation technologies from the web 100 . Also, the trend analysis apparatus 200 may filter documents about airports and aviation technologies among documents collected from the web 100 , and store the filtered documents about airports and aviation technologies.

트렌드 분석 장치(200)는 각 사이트로부터 수집된 문서들(또는 필터링된 문서들)에서 텍스트를 추출하고, 추출된 텍스트에서 형태소를 식별할 수 있다. 트렌드 분석 장치(200)는 식별된 형태소에서 명사를 추출하고, 추출된 명사들을 문서 단어 행렬로 변환할 수 있다. 트렌드 분석 장치(200)는 변환된 문서 단어 행렬을 이용하여 각 사이트로부터 수집된 문서들간의 유사도 및 연관도 등을 분석하고, 분석된 결과를 이용자에게 제공할 수 있다. 또한, 트렌드 분석 장치(220)는 변환된 문서 단어 행렬을 이용하여 추출된 명사들간의 유사도 및 연관도 등을 분석하고, 분석된 결과를 이용자에게 제공할 수 있다. 여기서, 트렌드 분석 장치(200)는 분석된 결과를 출력장치를 통해 디스플레이에 표시할 수 있다. 이때, 출력장치는 트렌드 분석 장치(200)에 포함되는 일 구성이거나, 별도의 구성일 수 있다The trend analysis apparatus 200 may extract text from documents (or filtered documents) collected from each site, and identify morphemes from the extracted text. The trend analysis apparatus 200 may extract nouns from the identified morphemes and convert the extracted nouns into a document word matrix. The trend analysis apparatus 200 may analyze the degree of similarity and relevance between documents collected from each site by using the converted document word matrix, and may provide the analyzed result to the user. Also, the trend analysis apparatus 220 may analyze the degree of similarity and relevance between the extracted nouns using the converted document word matrix, and may provide the analyzed result to the user. Here, the trend analysis device 200 may display the analyzed result on the display through the output device. In this case, the output device may be one configuration included in the trend analysis device 200 or a separate configuration.

트렌드 분석 장치(200)는 웹(100)으로부터 수집되는 문서들에서 명사를 추출하여 분석함으로써, 웹 콘텐츠에 개시되는 정보들의 트렌드를 분석할 수 있다. 예컨대, 여러 분야의 문서들에서 많은 빈도로 기재된 명사의 경우, 최근 많이 사용되는 명사일 수 있다. 이에 따라, 최근에 많이 사용되는 명사들을 기초로 웹(100)으로부터 수집되는 명사들을 분석함으로써 최근 트렌드를 분석할 수 있다. The trend analysis apparatus 200 may analyze a trend of information disclosed in web content by extracting and analyzing nouns from documents collected from the web 100 . For example, in the case of a noun that is described with a lot of frequency in documents of various fields, it may be a noun that is used a lot recently. Accordingly, a recent trend may be analyzed by analyzing nouns collected from the web 100 on the basis of nouns that have been frequently used recently.

도 2는 본 발명의 실시 예에 따른 공항 및 항공 기술의 트렌드 분석 장치를 나타내는 도면이다.2 is a diagram illustrating an apparatus for analyzing trends in airport and aviation technology according to an embodiment of the present invention.

도 2를 참조하면, 본 발명의 실시 예에 따른 공항 및 항공 기술의 트렌드 분석 장치(200, 이하 트렌드 분석 장치)는 메모리(210) 및 프로세서(220)를 포함할 수 있다.Referring to FIG. 2 , an apparatus 200 for analyzing trends in airport and aviation technology according to an embodiment of the present invention (hereinafter, a trend analysis apparatus) may include a memory 210 and a processor 220 .

메모리(210)는 웹(100)으로부터 수집되는 정보들을 저장할 수 있다. 즉, 웹(100)으로부터 수집되는 뉴스 정보, 학술 정보, R&D 과제 정보, 특허 정보 및 정책 정보 등을 저장할 수 있다. 여기서, 웹(100)으로부터 수집되는 정보들은 뉴스, 학술, R&D 과제, 특허, 정책 사이트의 HTML 문서일 수 있다.The memory 210 may store information collected from the web 100 . That is, news information, academic information, R&D project information, patent information, policy information, and the like collected from the web 100 may be stored. Here, the information collected from the web 100 may be an HTML document of a news, academic, R&D project, patent, or policy site.

또한, 메모리(210)에는 형태소 사전이 저장될 수 있다. 형태소 사전은 형태소들을 저장하고 있을 수 있다. 형태소 사전은 사전에 미리 구성되어 메모리(210)에 저장될 수 있고, 웹(100)으로부터 수집되는 정보들에 의해 업데이트되거나, 이용자의 입력에 의해 업데이트될 수 있다. 여기서, 형태소 사전에 저장되는 형태소들은 공항 및 항공에 관련된 단어로부터 식별된 형태소들일 수 있다. Also, a morpheme dictionary may be stored in the memory 210 . The morpheme dictionary may store morphemes. The morpheme dictionary may be configured in advance and stored in the memory 210 , may be updated by information collected from the web 100 , or may be updated by a user input. Here, the morphemes stored in the morpheme dictionary may be morphemes identified from words related to airports and aviation.

프로세서(220)는 웹(100)으로부터 수집된 문서들이 개시된 사이트의 HTML 태그를 분석하여 각 문서들의 대표 키워드들을 수집할 수 있다. HTML 태그는 제목, 단락, 목록 등과 같은 본문을 위한 구조적 의미를 나타낼 수 있다. 이에 따라, HTML 태그를 분석함에 따라 본문, 즉, 사이트에 개시된 문서의 제목, 단락, 목록 등을 판단할 수 있다. 프로세서(220)는 판단된 제목, 단락, 목록 등을 통해 해당 문서에서 중점적으로 개시하고 있는 대표 키워드를 수집할 수 있다. The processor 220 may collect representative keywords of each document by analyzing the HTML tag of the site where the documents collected from the web 100 are disclosed. HTML tags can represent structural semantics for the body, such as headings, paragraphs, lists, etc. Accordingly, by analyzing the HTML tag, the body, that is, the title, paragraph, list, etc. of the document disclosed on the site can be determined. The processor 220 may collect representative keywords that are mainly disclosed in the corresponding document through the determined title, paragraph, list, and the like.

예컨대, 프로세서(220)는 '탑승'에 관련된 특허 문서가 개시된 사이트의 HTML 태그를 분석할 수 있다. 프로세서(220)는 HTML 태그를 분석하여 해당 문서의 제목, 단락, 목록 등을 판단할 수 있고, 판단한 결과, 해당 문서에서 중점적으로 개시하고 있는 대표 키워드는 '탑승'임을 판단하고, 이를 수집할 수 있다.For example, the processor 220 may analyze an HTML tag of a site where a patent document related to 'boarding' is disclosed. The processor 220 may analyze the HTML tag to determine the title, paragraph, list, etc. of the document, and as a result of the determination, determine that the representative keyword mainly disclosed in the document is 'boarding', and collect them. have.

프로세서(220)는 수집된 대표 키워드들을 기초로 형태소 사전을 업데이트할 수 있다. 프로세서(220)는 수집된 대표 키워드들 중 형태소 사전에 저장되어 있지 않은 키워드들을 기초로 형태소 사전을 업데이트할 수 있다. 여기서, 프로세서(220)는 대표 키워드들을 형태소 형태로 변환하고, 형태소 형태로 변환된 대표 키워드를 형태소 사전에 업데이트할 수 있다. 이때, 형태소 사전에 업데이트되는 형태소는 공항 및 항공에 관련된 키워드로부터 변환된 형태소일 수 있다. 즉, 공항 및 항공 기술에 관련된 키워드들이 형태소 형태로 형태소 사전에 저장될 수 있다.The processor 220 may update the morpheme dictionary based on the collected representative keywords. The processor 220 may update the morpheme dictionary based on keywords not stored in the morpheme dictionary among the collected representative keywords. Here, the processor 220 may convert the representative keywords into a morpheme form, and update the representative keyword converted into the morpheme form in advance. In this case, the morpheme updated in the morpheme dictionary may be a morpheme converted from keywords related to airports and airlines. That is, keywords related to airport and aviation technology may be stored in a morpheme dictionary in a morpheme form.

프로세서(220)는 웹(100)으로부터 수집된 문서들에서 텍스트를 추출하고, 추출된 텍스트에서 형태소를 식별할 수 있다. 프로세서(220)는 텍스트 마이닝을 통해 수집된 문서들에서 텍스트를 추출할 수 있다. 프로세서(220)는 추출된 텍스트와 형태소 사전에 저장된 형태소들을 각각 비교하여 추출된 텍스트에서 형태소를 식별할 수 있다. 여기서, 프로세서(220)는 수집된 문서들 각각에 대해 텍스트를 추출할 수 있고, 추출된 각각의 텍스트에서 형태소를 식별할 수 있다. 프로세서(220)는 추출된 각각의 텍스트에서 형태소 사전에 저장된 형태소와 동일한 텍스트를 형태소로써 식별할 수 있다. The processor 220 may extract text from documents collected from the web 100 and identify morphemes from the extracted text. The processor 220 may extract text from documents collected through text mining. The processor 220 may identify the morpheme from the extracted text by comparing the extracted text with the morphemes stored in the morpheme dictionary, respectively. Here, the processor 220 may extract a text for each of the collected documents, and may identify a morpheme from each of the extracted texts. The processor 220 may identify the same text as the morpheme stored in the morpheme dictionary from each extracted text as a morpheme.

프로세서(220)는 식별된 형태소들 중 불용어를 삭제하고, 식별된 형태소들 중 동의어를 하나의 형태소로 변환하여 명사를 추출할 수 있다. 여기서, 불용어는 용어로 사용하지 않는 단어, 관사, 전치사, 조사, 접속사 등을 포함할 수 있다. 즉, 프로세서(220)에 의해 식별된 형태소에서 관사, 전치사, 조사, 접속사 등이 삭제됨으로써 명사 형태의 형태소만이 남을 수 있다. 이에 따라, 프로세서(220)는 식별된 형태소들 중 명사를 추출할 수 있다. 또한, 프로세서(220)는 '나이' 및 '연령' 등과 같은 동의어의 경우, '나이' 또는 '연령'중 하나의 형태소로 통일되도록 형태소를 변환할 수 있다. 프로세서(220)에 의해 동의어를 하나의 형태소로 변환하여 동의어를 통일시킴으로써 형태소(키워드)의 분석이 더 정확하게 이루어질 수 있다. 여기서, 프로세서(220)는 불용어를 삭제하고 추출되는 명사에서 동의어를 하나의 형태소로 변환할 수도 있으며, 식별된 형태소들 중 동의어를 하나의 형태소로 변환한 후, 불용어를 삭제하여 명사를 추출할 수도 있다.The processor 220 may extract a noun by deleting a stopword from among the identified morphemes, and converting a synonym from among the identified morphemes into a single morpheme. Here, the stopwords may include words, articles, prepositions, articles, conjunctions, etc. that are not used as terms. That is, since an article, a preposition, a proposition, a conjunction, and the like are deleted from the morpheme identified by the processor 220 , only the morpheme in the form of a noun may remain. Accordingly, the processor 220 may extract a noun from among the identified morphemes. Also, in the case of synonyms such as 'age' and 'age', the processor 220 may convert morphemes to be unified into one of 'age' or 'age'. By converting the synonym into one morpheme by the processor 220 to unify the synonym, the morpheme (keyword) can be analyzed more accurately. Here, the processor 220 may delete a stopword and convert a synonym from the extracted noun into a single morpheme, convert a synonym among the identified morphemes into a single morpheme, and then delete the stopword to extract the noun. have.

프로세서(220)는 추출된 명사들을 이용하여 문서 단어 행렬을 생성할 수 있다. 문서 단어 행렬은 복수의 문서들에서 개시되는 각 명사들의 개수를 행렬로 표현한 것일 수 있다. 즉, 프로세서(220)는 추출된 명사들 각각이 수집된 문서들 각각에 개시되는 개수를 기초로 문서 단어 행렬을 생성할 수 있다.The processor 220 may generate a document word matrix using the extracted nouns. The document word matrix may be a matrix expressing the number of respective nouns disclosed in a plurality of documents. That is, the processor 220 may generate a document word matrix based on the number of each of the extracted nouns disclosed in each of the collected documents.

문서 단어 행렬의 행은 추출된 명사들 각각이 특정 문서에 개시되는 개수이고, 열은 추출된 명사들 중 특정 명사가 문서들 각각에 개시되는 개수일 수 있다. 또한, 문서 단어 행렬의 행은 추출된 명사들 중 특정 명사가 문서들 각각에 개시되는 개수이고, 열은 추출된 명사들 각각이 특정 문서에 개시되는 개수일 수 있다.A row of the document word matrix may be the number of each extracted nouns appearing in a specific document, and a column may be the number of extracted nouns starting in each of the documents. In addition, the row of the document word matrix may be the number of extracted nouns that are disclosed in each document among the extracted nouns, and the column may be the number of extracted nouns that are disclosed in the specific document.

또한, 문서 단어 행렬의 행의 개수는 추출된 명사들의 개수이고, 열의 개수는 수집된 문서들의 개수일 수 있다. 또한, 문서 단어 행렬의 행의 개수는 수집된 문서들의 개수이고, 열의 개수는 추출된 명사들의 개수일 수 있다.In addition, the number of rows of the document word matrix may be the number of extracted nouns, and the number of columns may be the number of collected documents. In addition, the number of rows of the document word matrix may be the number of collected documents, and the number of columns may be the number of extracted nouns.

프로세서(220)는 문서 단어 행렬을 이용하여 문서 단어 행렬의 각 원소에 해당하는 키워드들간의 유사도 및 연관도, 문서들간의 유사도 및 연관도를 분석하고, 분석한 결과를 이용자에게 제공할 수 있다.The processor 220 may analyze the degree of similarity and relevance between keywords corresponding to each element of the document word matrix and the degree of similarity and relevance between documents using the document word matrix, and may provide the analyzed result to the user.

프로세서(220)는 문서 단어 행렬의 각 원소에 해당하는 키워드들간의 거리를 계산하고, 계산된 거리를 기초로 키워드 맵을 생성할 수 있다. 프로세서(220)는 키워드들간의 거리를 계산하여 키워드들을 트리형태로 연결할 수 있다.The processor 220 may calculate a distance between keywords corresponding to each element of the document word matrix, and generate a keyword map based on the calculated distance. The processor 220 may calculate the distance between the keywords and connect the keywords in a tree form.

프로세서(220)는 키워드들간의 거리를 계산하여 특정 키워드와의 거리가 일정 거리 내인 키워드들을 계층별로 구분하고, 계층별 키워드들을 연결하여 키워드 맵을 생성할 수 있다. 예컨대, 키워드들간의 거리를 계산한 결과, 특정 키워드에 대해 N만큼의 거리 차이를 가지는 키워드들을 동일한 계층으로 분류할 수 있다. 또한, 특정 키워드에 대해 M만큼의 거리 차이를 가지는 키워드들을 동일한 계층으로 분류할 수 있다. 이때, N이 M보다 작은 수인 경우, N만큼의 거리 차이를 가지는 키워드들의 계층은 M만큼의 거리 차이를 가지는 키워드들의 계층에 비해 특정 키워드와 더 가까운 위치에 위치할 수 있다. The processor 220 may calculate a distance between keywords, classify keywords having a distance from a specific keyword within a predetermined distance for each layer, and generate a keyword map by connecting the keywords for each layer. For example, as a result of calculating the distance between keywords, keywords having a distance difference of N with respect to a specific keyword may be classified into the same layer. Also, keywords having a distance difference of M with respect to a specific keyword may be classified into the same layer. In this case, when N is a number smaller than M, a hierarchy of keywords having a distance difference of N may be located closer to a specific keyword than a hierarchy of keywords having a distance difference of M.

또한, 프로세서(220)는 키워드들간의 거리를 계산하여 특정 키워드와의 거리가 일정 거리 내인 키워드들을 특정 키워드와 연결하고, 일정 거리 내의 키워드들 각각과의 거리가 일정 거리 내인 키워드들을 일정 거리 내의 키워드들과 연결할 수 있다. 즉, 프로세서(220)는 특정 키워드에 대해 거리가 가까운 키워드들을 특정 키워드와 연결하고, 특정 키워드와 연결되는 키워드들 각각에 대해 거리가 가까운 키워드들을 연결하여 키워드 맵을 생성할 수 있다. 예컨대, 키워드들간의 거리를 계산한 결과, 특정 키워드 'A'에 대해 N 이내의 거리 차이를 가지는 키워드들 'B' 및 'C'를 특정 키워드 'A'와 연결할 수 있다. 또한, 특정 키워드에 연결된 N 이내의 거리 차이를 가지는 키워드들 'B' 및 'C'각각에 대해 M 이내의 거리 차이를 가지는 가지는 키워드들을 특정 키워드에 연결된 N 이내의 거리 차이를 가지는 키워드들 각각과 연결할 수 있다. 즉, 키워드 'B'와 M 이내의 거리 차이를 가지는 키워드 'D', 및 'E'는 키워드 'B'와 연결될 수 있다. 또한, 키원드 'C'와 M 이내의 거리 차이를 가지는 키워드 'F'는 키워드 'C'와 연결될 수 있다. 여기서, N과 M은 동일한 값일 수 있고, 다른 값일 수도 있다.In addition, the processor 220 calculates the distance between the keywords to connect the keywords having a distance from the specific keyword within a predetermined distance to the specific keyword, and connects keywords having a distance from each of the keywords within a predetermined distance to the keyword within a predetermined distance. can connect with That is, the processor 220 may generate a keyword map by connecting keywords having a close distance to the specific keyword with the specific keyword, and connecting keywords having a close distance to each of the keywords connected to the specific keyword. For example, as a result of calculating the distance between the keywords, keywords 'B' and 'C' having a distance difference within N with respect to the specific keyword 'A' may be connected to the specific keyword 'A'. In addition, for each of the keywords 'B' and 'C' having a distance difference within N connected to the specific keyword, the keywords having a distance difference within M and each of the keywords having a distance difference within N connected to the specific keyword can connect That is, the keywords 'D' and 'E' having a distance difference within M from the keyword 'B' may be connected to the keyword 'B'. Also, the keyword 'F' having a distance difference within M from the key word 'C' may be connected to the keyword 'C'. Here, N and M may have the same value or different values.

프로세서(220)는 이용자의 조작에 따라 생성된 키워드 맵을 제공할 수 있다. 즉, 프로세서(220)는 출력장치에 키워드 맵을 표시하는 것일 수 있다. 이에 따라, 이용자는 복수의 문서들에서 연관된 키워드들을 파악하는데 용이할 수 있다.The processor 220 may provide a keyword map generated according to a user's manipulation. That is, the processor 220 may display the keyword map on the output device. Accordingly, the user may easily identify related keywords in the plurality of documents.

프로세서(220)는 문서 단어 행렬에서 개수가 가장 많은 키워드부터 개수가 가장 적은 키워드의 순서로 순차적으로 정렬할 수 있다. 프로세서(220)는 문서 단어 행렬의 형태를 유지한 채로, 행 또는 열의 순서만을 변경하여 정렬할 수 있다. 예컨대, 문서 단어 행렬의 행이 추출된 명사들 각각이 문서들에 개시되는 개수인 경우, 행은 순차적으로 키워드 1이 문서들에 개시되는 개수, 키워드 2가 문서들에 개시되는 개수, ??, 키워드 n이 문서들에 개시되는 개수일 수 있다. 이때, 프로세서(220)는 키워드 3이 문서들에 개시되는 개수가 키워드 1이 문서들에 개시되는 개수보다 많은 경우, 키워드 3이 문서들에 개시되는 개수가 키워드 1이 문서들에 개시되는 개수보다 더 앞 순서로 개시되도록 키워드의 순서를 정렬할 수 있다. 여기서, 앞 순서는 행렬(Hij)의 i 및 j의 숫자가 작은 원소를 의미할 수 있다.The processor 220 may sequentially sort the keywords from the largest number of keywords to the smallest number of keywords in the document word matrix. The processor 220 may sort by changing only the order of rows or columns while maintaining the form of the document word matrix. For example, if the row of the document word matrix is the number of extracted nouns each being disclosed in documents, the rows are sequentially the number of keyword 1 disclosed in documents, the number of keyword 2 disclosed in documents, ??, The number of keywords n may be disclosed in documents. In this case, when the number of keyword 3 disclosed in documents is greater than the number of keyword 1 disclosed in documents, the processor 220 determines that the number of keyword 3 disclosed in documents is greater than the number of keyword 1 disclosed in documents. You can sort the order of keywords so that they start earlier. Here, the preceding order may mean elements having a small number of i and j of the matrix H ij .

또한, 프로세서(220)는 키워드의 개수가 많은 순서대로 키워드들을 별도로 정렬할 수 있다. 예컨대, 프로세서(220)는 (키워드1, 키워드2, 키워드3, ??)의 형태로 키워드들을 정렬할 수도 있다. Also, the processor 220 may separately sort the keywords in an order of increasing the number of keywords. For example, the processor 220 may sort keywords in the form of (keyword 1, keyword 2, keyword 3, ??).

프로세서(220)는 이용자의 조작에 따라 정렬된 키워드들을 제공할 수 있다. 즉, 프로세서(220)는 출력장치에 정렬된 키워드들을 표시하는 것일 수 있다. 이에 따라, 이용자는 복수의 문서들에서 주요 키워드들을 파악하는데 용이할 수 있다.The processor 220 may provide sorted keywords according to a user's manipulation. That is, the processor 220 may display the sorted keywords on the output device. Accordingly, the user may easily identify main keywords in the plurality of documents.

프로세서(220)는 문서 단어 행렬의 각 원소에 해당하는 키워드들을 유사한 키워드별로 집합을 구성하고, 구성된 집합들간의 거리를 계산하여 거리에 따라 구성된 집합들을 정렬할 수 있다.The processor 220 may configure a set of keywords corresponding to each element of the document word matrix for each similar keyword, calculate a distance between the configured sets, and arrange the configured sets according to the distance.

프로세서(220)는 이용자의 조작에 따라 정렬된 집합들을 제공할 수 있다. 즉, 프로세서(220)는 출력장치에 정렬된 집합들을 표시하는 것일 수 있다. 이에 따라, 이용자는 복수의 문서들에서 유사한 키워드들을 파악하는데 용이할 수 있다. The processor 220 may provide sorted sets according to a user's manipulation. That is, the processor 220 may display the sorted sets on the output device. Accordingly, the user may easily identify similar keywords in a plurality of documents.

도 3은 본 발명의 실시 예에 따른 수집된 문서들에서 텍스트를 추출하는 것을 나타내는 도면이다.3 is a diagram illustrating extracting text from collected documents according to an embodiment of the present invention.

도 3을 참조하면, 프로세서(220)는 웹(100)으로부터 문서를 수집할 수 있다. 프로세서(220)는 뉴스, 학술, R&D 과제, 특허, 정책 사이트에 개시되는 문서들을 수집할 수 있다. 예컨대, 프로세서(220)는 특허 사이트에서 제1문서를 수집하고, 뉴스 사이트에서 제2문서를 수집하고, 정책 사이트에서 제3문서를 수집할 수 있다. 여기서, 각각의 사이트로부터 수집되는 제1문서, 제2문서 및 제3문서는 공항 및 항공 기술에 관련된 문서일 수 있다.Referring to FIG. 3 , the processor 220 may collect documents from the web 100 . The processor 220 may collect documents disclosed in news, academic, R&D projects, patents, and policy sites. For example, the processor 220 may collect a first document from a patent site, collect a second document from a news site, and collect a third document from a policy site. Here, the first document, the second document, and the third document collected from each site may be documents related to airport and aviation technology.

또한, 프로세서(220)는 각각의 사이트로부터 수집되는 문서들 중 공항 및 항공 기술에 대한 문서들을 필터링할 수 있고, 공항 및 항공 기술에 대한 문서들로 필터링된 결과가 제1문서, 제2문서 및 제3문서일 수 있다. 예컨대, 프로세서(220)는 사이트의 주소, 사이트의 명칭, 문서의 명칭, 문서의 내용, 문서의 저자, 사이트의 호스트 각각과 공항 및 항공 기술에 관련된 단어들 사이의 유사도를 이용하여 수집되는 문서들 중 공항 및 항공 기술에 대한 문서들을 필터링할 수 있다.In addition, the processor 220 may filter documents about airport and aviation technology among documents collected from each site, and the result of filtering the documents about airport and aviation technology is the first document, the second document and It may be a third document. For example, the processor 220 may collect documents using the similarity between the address of the site, the name of the site, the name of the document, the content of the document, the author of the document, the host of the site, and words related to airport and aviation technology, respectively. You can filter documents about airports and aviation technologies.

프로세서(220)는 텍스트 마이닝을 통해 각각의 문서들로부터 텍스트를 추출할 수 있다. 즉, 프로세서(220)는 제1문서에서 텍스트를 추출하고, 제2문서에서 텍스트를 추출하고, 제3문서에서 텍스트를 추출할 수 있다.The processor 220 may extract text from each document through text mining. That is, the processor 220 may extract text from the first document, extract text from the second document, and extract text from the third document.

도 4는 본 발명의 실시 예에 따른 추출된 텍스트에서 형태소를 분석하고, 명사를 추출하는 것을 나타내는 도면이다.4 is a diagram illustrating analysis of morphemes and extraction of nouns from the extracted text according to an embodiment of the present invention.

도 4를 참조하면, 프로세서(220)는 각각의 문서들에서 추출된 텍스트를 메모리(210)에 저장된 형태소 사전과 비교할 수 있다. 프로세서(220)는 형태소 사전에 저장된 복수의 형태소들과 텍스트들을 비교할 수 있다. 프로세서(220)는 텍스트들 중 형태소 사전에 저장된 형태소들과 동일한 텍스트를 형태소로써 식별할 수 있다. 여기서, 형태소 사전에 저장된 형태소들은 공항 및 항공 기술과 관련된 형태소들일 수 있고, 이에 따라, 프로세서(220)는 각각의 문서들로부터 공항 및 항공 기술에 관련된 형태소들을 식별할 수 있다. 즉, 프로세서(220)는 문서들에서 추출된 텍스트들을 형태소 사전에 저장된 형태소들과 비교하여 문서들에서 형태소를 식별할 수 있다. 이때, 형태소 사전에 저장된 형태소가 공항 및 항공에 관련된 형태소이므로, 문서들에서 식별되는 형태소 또한 공항 및 항공에 관련된 형태소일 수 있다.Referring to FIG. 4 , the processor 220 may compare the text extracted from each document with the morpheme dictionary stored in the memory 210 . The processor 220 may compare texts with a plurality of morphemes stored in the morpheme dictionary. The processor 220 may identify the same text as morphemes stored in the morpheme dictionary among texts as a morpheme. Here, the morphemes stored in the morpheme dictionary may be morphemes related to airport and aviation technology, and accordingly, the processor 220 may identify morphemes related to airport and aviation technology from each document. That is, the processor 220 may identify the morphemes in the documents by comparing the texts extracted from the documents with the morphemes stored in the morpheme dictionary. In this case, since the morpheme stored in the morpheme dictionary is a morpheme related to airports and aviation, morphemes identified in documents may also be morphemes related to airports and aviation.

프로세서(220)는 식별된 형태소들 중 불용어를 삭제하고, 식별된 형태소들 중 동의어를 하나의 형태소로 변환하여 명사를 추출할 수 있다. 여기서, 불용어는 용어로 사용하지 않는 단어, 관사, 전치사, 조사, 접속사 등을 포함할 수 있다. 즉, 프로세서(220)에 의해 식별된 형태소에서 관사, 전치사, 조사, 접속사 등이 삭제됨으로써 명사 형태의 형태소만이 남을 수 있다. 이에 따라, 프로세서(220)는 식별된 형태소들 중 명사를 추출할 수 있다. 또한, 프로세서(220)는 동의어를 하나의 형태소로 변환하여 동의어를 통일시킬 수 있다. 예컨대, 가족 및 식구라는 키워드가 문서들에 모두 존재할 수 있고, 가족 및 식구는 동일한 의미로 쓰이는 동의어일 수 있다. 이때, 프로세서(220)에 의해 가족 및 식구의 키워드는 가족 또는 식구 중 하나의 키워드로 통일될 수 있다. 한편, 프로세서(220)에 의해 동의어가 하나의 키워드로 통일되지 않는 경우 각각의 키워드는 별도의 키워드로 분석될 수 있다. 이런 경우, 키워드의 분석이 정확하지 않을 수 있다. 예컨대, 가족 및 식구 키워드를 가족으로 변환하여 분석하는 경우 가족 키워드와 식구 키워드가 모두 합쳐진 개수로 분석될 수 있다. 한편, 가족 및 식구 키워드를 각각 별도의 키워드로 분석하는 경우 각각의 개수로 분석될 수 있다. 이런 경우, 동의어를 변환하여 분석하는 경우에는 가장 개수가 많은 키워드일 수 있으나, 별도로 분석하는 경우에는 두개의 키워드 모두 가장 개수가 많은 키워드가 아닐 수 있다. 이에 따라, 프로세서(220)는 동의어를 하나의 키워드로 통일시킴으로써 분석의 결과가 더 정확하도록 할 수 있다. The processor 220 may extract a noun by deleting a stopword from among the identified morphemes, and converting a synonym from among the identified morphemes into a single morpheme. Here, the stopwords may include words, articles, prepositions, articles, conjunctions, etc. that are not used as terms. That is, since an article, a preposition, a proposition, a conjunction, and the like are deleted from the morpheme identified by the processor 220 , only the morpheme in the form of a noun may remain. Accordingly, the processor 220 may extract a noun from among the identified morphemes. Also, the processor 220 may unify the synonyms by converting the synonyms into one morpheme. For example, keywords of family and family may all exist in the documents, and family and family may be synonyms used in the same meaning. In this case, by the processor 220 , the keywords of the family and the family may be unified into one keyword of the family or the family. Meanwhile, when synonyms are not unified into one keyword by the processor 220 , each keyword may be analyzed as a separate keyword. In this case, the analysis of keywords may not be accurate. For example, when family and family keywords are converted into family and analyzed, the family keyword and family keyword may be analyzed as the combined number. Meanwhile, when family and family keywords are analyzed as separate keywords, each number may be analyzed. In this case, when the synonym is converted and analyzed, it may be the keyword with the largest number, but when analyzed separately, both keywords may not be the keyword with the largest number. Accordingly, the processor 220 may make the analysis result more accurate by unifying the synonym into one keyword.

이때, 프로세서(220)는 기 설정되어 있는 키워드에 따라 동의어를 하나의 키워드로 변환할 수 있다. 예컨대, 프로세서(220)에는 식구 및 가족의 동의어에 대해 가족으로 통일하라는 것으로 기 설정되어 있을 수 있고, 이에 따라 프로세서(220)는 식구 키워드를 모두 가족 키워드로 변환할 수 있다.In this case, the processor 220 may convert a synonym into one keyword according to a preset keyword. For example, the processor 220 may be preset to unify synonyms of family members and family members into a family, and accordingly, the processor 220 may convert all family keywords into family keywords.

또한, 프로세서(220)는 동의어에 대해 개수가 더 많은 키워드로 통일하여 동의어를 변환할 수도 있다.Also, the processor 220 may convert synonyms by unifying keywords with a larger number of synonyms.

도 5는 본 발명의 실시 예에 따른 문서 단어 행렬을 나타내는 도면이다.5 is a diagram illustrating a document word matrix according to an embodiment of the present invention.

도 5를 참조하면, (a)는 제1형태의 문서 단어 행렬을 나타내고, (b)는 제2형태의 문서 단어 행렬을 나타낼 수 있다.Referring to FIG. 5 , (a) may indicate a document word matrix of a first type, and (b) may indicate a document word matrix of a second type.

프로세서(220)는 추출된 명사들을 이용하여 문서 단어 행렬을 생성할 수 있다. 문서 단어 행렬은 복수의 문서들에서 개시되는 각 명사들의 개수를 행렬로 표현한 것일 수 있다. 즉, 프로세서(220)는 추출된 명사들 각각이 수집된 문서들 각각에 개시되는 개수를 기초로 문서 단어 행렬을 생성할 수 있다.The processor 220 may generate a document word matrix using the extracted nouns. The document word matrix may be a matrix expressing the number of respective nouns disclosed in a plurality of documents. That is, the processor 220 may generate a document word matrix based on the number of each of the extracted nouns disclosed in each of the collected documents.

제1형태의 문서 단어 행렬의 행은 추출된 명사들 각각이 특정 문서에 개시되는 개수이고, 열은 추출된 명사들 중 특정 명사가 문서들 각각에 개시되는 개수일 수 있다. 즉, 제1형태의 문서 단어 행렬의 행의 개수는 추출된 명사들의 개수이고, 열의 개수는 수집된 문서들의 개수일 수 있다. The row of the document word matrix of the first form may be the number of extracted nouns each appearing in a specific document, and the column may be the number of extracted nouns starting in each of the documents. That is, the number of rows of the document word matrix of the first form may be the number of extracted nouns, and the number of columns may be the number of collected documents.

제2형태의 문서 단어 행렬의 행은 추출된 명사들 중 특정 명사가 문서들 각각에 개시되는 개수이고, 열은 추출된 명사들 각각이 특정 문서에 개시되는 개수일 수 있다. 즉, 제2형태의 문서 단어 행렬의 행의 개수는 수집된 문서들의 개수이고, 열의 개수는 추출된 명사들의 개수일 수 있다.The row of the document word matrix of the second form may be the number of extracted nouns in which a specific noun is disclosed in each document, and the column may be the number of each of the extracted nouns appearing in the specific document. That is, the number of rows of the document word matrix of the second form may be the number of collected documents, and the number of columns may be the number of extracted nouns.

도 6은 본 발명의 실시 예에 따른 키워드 맵을 나타내는 도면이다.6 is a diagram illustrating a keyword map according to an embodiment of the present invention.

도 6을 참조하면, 프로세서(220)는 문서 단어 행렬의 각 원소에 해당하는 키워드들간의 거리를 계산하고, 계산된 거리를 기초로 키워드 맵을 생성할 수 있다. Referring to FIG. 6 , the processor 220 may calculate a distance between keywords corresponding to each element of the document word matrix, and generate a keyword map based on the calculated distance.

프로세서(220)는 키워드들간의 거리를 계산하여 특정 키워드와의 거리가 일정 거리 내인 키워드들을 계층별로 구분하고, 계층별 키워드들을 연결하여 키워드 맵을 생성할 수 있다. 즉, 키워드들간의 거리를 계산한 결과, 특정 키워드에 대해 N만큼의 거리 차이를 가지는 키워드들을 동일한 계층으로 분류할 수 있다. 예컨대, 키워드1와 N만큼의 거리 차이를 가지는 키워드들은 키워드2 및 키워드4일 수 있다. 프로세서(220)는 키워드2 및 키워드4를 동일한 계층으로 분류할 수 있다. The processor 220 may calculate a distance between keywords, classify keywords having a distance from a specific keyword within a predetermined distance for each layer, and generate a keyword map by connecting the keywords for each layer. That is, as a result of calculating the distance between keywords, keywords having a distance difference of N with respect to a specific keyword may be classified into the same layer. For example, keywords having a distance difference of N by N from keyword 1 may be keyword 2 and keyword 4. The processor 220 may classify keyword 2 and keyword 4 into the same layer.

또한, 프로세서(220)는 특정 키워드에 대해 M만큼의 거리 차이를 가지는 키워드들을 동일한 계층으로 분류할 수 있다. 예컨대, 키워드1과 M만큼의 거리 차이를 가지는 키워드는 키워드3일 수 있다.Also, the processor 220 may classify keywords having a distance difference of M with respect to a specific keyword into the same layer. For example, a keyword having a distance difference between keyword 1 and M by M may be keyword 3.

또한, 프로세서(220)는 특정 키워드에 대해 K만큼의 거리 차이를 가지는 키워드들을 동일한 계층으로 분류할 수 있다. 예컨대, 키워드1과 K만큼의 거리 차이를 가지는 키워드는 키워드5일 수 있다.Also, the processor 220 may classify keywords having a distance difference of K with respect to a specific keyword into the same layer. For example, the keyword having a distance difference of K by K from keyword 1 may be keyword 5.

프로세서(220)는 특정 키워드와의 거리에 따른 계층별로 연결하여 키워드 트리를 생성할 수 있다. The processor 220 may generate a keyword tree by connecting each layer according to a distance from a specific keyword.

또한, 프로세서(220)는 키워드들간의 거리를 계산하여 특정 키워드와의 거리가 일정 거리 내인 키워드들을 특정 키워드와 연결하고, 일정 거리 내의 키워드들 각각과의 거리가 일정 거리 내인 키워드들을 일정 거리 내의 키워드들과 연결할 수 있다. 즉, 프로세서(220)는 특정 키워드에 대해 거리가 가까운 키워드들을 특정 키워드와 연결하고, 특정 키워드와 연결되는 키워드들 각각에 대해 거리가 가까운 키워드들을 연결하여 키워드 맵을 생성할 수 있다. 예컨대, 키워드들간의 거리를 계산한 결과, 프로세서(220)는 특정 키워드인 키워드1에 대해 N 이내의 거리 차이를 가지는 키워드인 키워드2 및 키워드4를 키워드1과 연결할 수 있다. 또한, 프로세서(220)는 키워드2 및 키워드 4와 M 이내의 거리 차이를 가지는 키워드인 키워드3을 키워드2 및 키워드4와 연결할 수 있다. 또한, 프로세서(220)는 키워드3과 K 이내의 거리 차이를 가지는 키워드인 키워드5를 연결할 수 있다.In addition, the processor 220 calculates the distance between the keywords to connect the keywords having a distance from the specific keyword within a predetermined distance to the specific keyword, and connects keywords having a distance from each of the keywords within a predetermined distance to the keyword within a predetermined distance. can connect with That is, the processor 220 may generate a keyword map by connecting keywords having a close distance to the specific keyword with the specific keyword, and connecting keywords having a close distance to each of the keywords connected to the specific keyword. For example, as a result of calculating the distance between the keywords, the processor 220 may connect the keywords 2 and 4, which are keywords having a distance difference within N, with respect to the keyword 1, which is a specific keyword. Also, the processor 220 may connect keyword 2 and keyword 4 and keyword 3, which is a keyword having a distance difference within M, with keyword 2 and keyword 4 . Also, the processor 220 may connect keyword 3 and keyword 5, which is a keyword having a distance difference within K.

여기서, 키워드2 및 키워드4에서 M 이내의 거리 차이를 가지는 키워드를 키워드3 하나로 정의하였으나, 이에 한정되지 않고, 복수개의 키워드에 연결될 수 있다. 또한, 키워드2 및 키워드4에 M 이내의 거리 차이를 가지는 키워드는 상이할 수 있고, M 이내의 거리 차이를 가지는 키워드들 각각은 키워드2 또는 키워드4중 적어도 하나의 키워드에 연결될 수 있다.Here, the keywords having a distance difference within M from the keywords 2 and 4 are defined as one keyword 3, but the present invention is not limited thereto, and may be connected to a plurality of keywords. In addition, keywords having a distance difference within M of keyword 2 and keyword 4 may be different, and each of the keywords having a distance difference within M may be connected to at least one of keyword 2 or keyword 4 .

프로세서(220)는 출력장치에 키워드 맵을 표시할 수 있다. 이에 따라, 이용자는 복수의 문서들에서 연관된 키워드들을 파악하는데 용이할 수 있다.The processor 220 may display the keyword map on the output device. Accordingly, the user may easily identify related keywords in the plurality of documents.

도 7은 본 발명의 실시 예에 따른 키워드들을 정렬하는 것을 나타내는 도면이다.7 is a diagram illustrating sorting of keywords according to an embodiment of the present invention.

도 7을 참조하면, (a)는 행이 추출된 명사들 각각이 특정 문서에 개시되는 개수이고, 열이 추출된 명사들 중 특정 명사가 문서들 각각에 개시되는 개수인 제1형태의 문서 단어 행렬인 경우를 나타내고, (b)는 행이 추출된 명사들 중 특정 명사가 문서들 각각에 개시되는 개수이고, 열이 추출된 명사들 각각이 특정 문서에 개시되는 개수인 제2형태의 문서 단어 행렬인 경우를 나타낼 수 있다. Referring to FIG. 7 , (a) is the number of nouns from which rows are extracted each is disclosed in a specific document, and the number of specific nouns among nouns from which columns are extracted is the number of nouns that are disclosed in each document in the first form In the case of a matrix, (b) is the number of nouns from which a specific noun is disclosed in each document among the nouns from which the row is extracted, and the column is the number of each of the nouns from which the row is extracted is disclosed in a specific document. It can represent the case of a matrix.

프로세서(220)는 문서 단어 행렬에서 개수가 가장 많은 키워드부터 개수가 가장 적은 키워드의 순서로 순차적으로 정렬할 수 있다. 프로세서(220)는 문서 단어 행렬의 형태를 유지한 채로, 행 또는 열의 순서만을 변경하여 정렬할 수 있다. 예컨대, 제1형태의 문서 단어 행렬인 경우, 명사들 각각이 문서들에 개시되는 개수는 행에 기재될 수 있다. 각 키워드들이 문서들에 개시되는 개수는 키워드1은 8이고, 키워드2는 9이고, 키워드3은 15이고, 키워드4는 10이고, 키워드5는 2일 수 있다. 이에 따라, 키워드의 개수가 많은 순서로 키워드들을 정렬하면 키워드3-키워드4-키워드2-키워드1-키워드5의 순서일 수 있다. 이에 따라, 프로세서(220)는 키워드들이 문서들에 개시되는 개수가 기재되는 행의 순서를 변환할 수 있다. 이에 따라, 프로세서(220)는 개수가 가장 많은 키워드부터 개수가 가장 적은 키워드의 순서로 키워드들을 정렬할 수 있다.The processor 220 may sequentially sort the keywords from the largest number of keywords to the smallest number of keywords in the document word matrix. The processor 220 may sort by changing only the order of rows or columns while maintaining the form of the document word matrix. For example, in the case of the document word matrix of the first type, the number of each noun appearing in the documents may be described in a row. The number of each keyword disclosed in the documents may be 8 for keyword 1, 9 for keyword 2, 15 for keyword 3, 10 for keyword 4, and 2 for keyword 5. Accordingly, when the keywords are arranged in the order of the large number of keywords, the order may be keyword 3 - keyword 4 - keyword 2 - keyword 1 - keyword 5. Accordingly, the processor 220 may change the order of the rows in which the number of keywords disclosed in the documents is described. Accordingly, the processor 220 may sort the keywords in the order from the keyword with the largest number to the keyword with the smallest number.

또한, 제2형태의 문서 단어 행렬인 경우, 명사들 각각이 문서들에 개시되는 개수는 열에 기재될 수 있다. 각 키워드들이 문서들에 개시되는 개수는 키워드1은 8이고, 키워드2는 9이고, 키워드3은 15이고, 키워드4는 10이고, 키워드5는 2일 수 있다. 이에 따라, 키워드의 개수가 많은 순서로 키워드들을 정렬하면 키워드3-키워드4-키워드2-키워드1-키워드5의 순서일 수 있다. 이에 따라, 프로세서(220)는 키워드들이 문서들에 개시되는 개수가 기재되는 열의 순서를 변환할 수 있다. 이에 따라, 프로세서(220)는 개수가 가장 많은 키워드부터 개수가 가장 적은 키워드의 순서로 키워드들을 정렬할 수 있다.In addition, in the case of the document word matrix of the second type, the number of each noun that appears in the documents may be described in a column. The number of each keyword disclosed in the documents may be 8 for keyword 1, 9 for keyword 2, 15 for keyword 3, 10 for keyword 4, and 2 for keyword 5. Accordingly, when the keywords are arranged in the order of the large number of keywords, the order may be keyword 3 - keyword 4 - keyword 2 - keyword 1 - keyword 5. Accordingly, the processor 220 may change the order of columns in which the number of keywords disclosed in documents is described. Accordingly, the processor 220 may sort the keywords in the order from the keyword with the largest number to the keyword with the smallest number.

여기서, 프로세서(220)는 문서들의 비중에 따라 키워드들이 문서들에 포함되는 개수에 따른 비중을 각각 계산할 수 있고, 계산된 비중에 따라 개수가 가장 많은 키워드부터 개수가 가장 적은 키워드의 순서로 키워드들을 정렬할 수도 있다.Here, the processor 220 may calculate weights according to the number of keywords included in the documents, respectively, according to the weights of the documents, and according to the calculated weights, the keywords are arranged in the order of the keywords from the largest number to the smallest. You can also sort.

프로세서(220)는 출력장치에 정렬된 키워드들을 표시할 수 있다. 이에 따라, 이용자는 복수의 문서들에서 주요 키워드들을 파악하는데 용이할 수 있다.The processor 220 may display the sorted keywords on the output device. Accordingly, the user may easily identify main keywords in the plurality of documents.

도 8은 본 발명의 실시 예에 따른 집합들을 정렬하는 것을 나타내는 도면이다.8 is a diagram illustrating sorting of sets according to an embodiment of the present invention.

도 8을 참조하면, 프로세서(220)는 문서 단어 행렬의 각 원소에 해당하는 키워드들을 유사한 키워드별로 집합을 구성하고, 구성된 집합들간의 거리를 계산하여 거리에 따라 구성된 집합들을 정렬할 수 있다. 여기서, 각 원의 크기는 분류된 키워드의 개수에 따라 상이할 수 있고, 각 원들간의 거리는 키워드들간의 거리를 나타낼 수 있다. Referring to FIG. 8 , the processor 220 may configure a set of keywords corresponding to each element of the document word matrix for each similar keyword, calculate a distance between the configured sets, and arrange the configured sets according to the distance. Here, the size of each circle may be different according to the number of classified keywords, and the distance between the circles may indicate the distance between the keywords.

프로세서(220)는 출력장치에 정렬된 집합들을 표시할 수 있다. 이에 따라, 이용자는 복수의 문서들에서 유사한 키워드들을 파악하는데 용이할 수 있다. The processor 220 may display the sorted sets on the output device. Accordingly, the user may easily identify similar keywords in a plurality of documents.

도 9는 본 발명의 실시 예에 따른 공항 및 항공 기술의 트렌드 분석 방법을 나타내는 도면이다.9 is a diagram illustrating a method for analyzing trends in airport and aviation technology according to an embodiment of the present invention.

도 9를 참조하면, 프로세서(220)는 웹(100)으로부터 공항 및 항공 기술에 관련된 문서들을 수집할 수 있다(S100). 프로세서(220)는 뉴스, 학술, R&D 과제, 특허 및 정책 사이트로부터 문서들을 수집할 수 있다. 프로세서(220)가 웹(100)으부터 수집하는 문서들은 공항 및 항공 기술에 관련된 문서들일 수 있다. 또한, 프로세서(220)는 웹(100)으로부터 수집된 문서들 중 공항 및 항공 기술에 대한 문서들을 필터링하고, 필터링된 공항 및 항공 기술에 대한 문서들을 저장할 수 있다.Referring to FIG. 9 , the processor 220 may collect documents related to airport and aviation technology from the web 100 ( S100 ). The processor 220 may collect documents from news, academic, R&D projects, patents, and policy sites. The documents that the processor 220 collects from the web 100 may be documents related to airport and aviation technology. In addition, the processor 220 may filter documents about airports and aviation technologies among the documents collected from the web 100 , and store the filtered documents about airports and aviation technologies.

프로세서(220)는 웹(100)으로부터 수집된 문서들에서 텍스트를 추출하고, 추출된 텍스트에서 형태소를 식별할 수 있다(S200). 프로세서(220)는 텍스트 마이닝을 통해 수집된 문서들에서 텍스트를 추출할 수 있다. 프로세서(220)는 추출된 텍스트와 형태소 사전에 저장된 형태소들을 각각 비교하여 추출된 텍스트에서 형태소를 식별할 수 있다. 프로세서(220)는 추출된 각각의 텍스트에서 형태소 사전에 저장된 형태소와 동일한 텍스트를 형태소로써 식별할 수 있다. The processor 220 may extract text from documents collected from the web 100 and identify morphemes from the extracted text ( S200 ). The processor 220 may extract text from documents collected through text mining. The processor 220 may identify the morpheme from the extracted text by comparing the extracted text with the morphemes stored in the morpheme dictionary, respectively. The processor 220 may identify the same text as the morpheme stored in the morpheme dictionary from each extracted text as a morpheme.

프로세서(220)는 식별된 형태소들 중 불용어를 삭제하고, 식별된 형태소들 중 동의어를 하나의 형태소로 변환하여 명사를 추출할 수 있다(S300). 여기서, 불용어는 용어로 사용하지 않는 단어, 관사, 전치사, 조사, 접속사 등을 포함할 수 있다. 즉, 프로세서(220)에 의해 식별된 형태소에서 관사, 전치사, 조사, 접속사 등이 삭제됨으로써 명사 형태의 형태소만이 남을 수 있다. 이에 따라, 프로세서(220)는 식별된 형태소들 중 명사를 추출할 수 있다. 또한, 프로세서(220)는 동의어를 하나의 형태소로 변환하여 동의어를 통일시킬 수 있다. The processor 220 may extract a noun by deleting a stopword from among the identified morphemes and converting a synonym from among the identified morphemes into one morpheme ( S300 ). Here, the stopwords may include words, articles, prepositions, articles, conjunctions, etc. that are not used as terms. That is, since an article, a preposition, a proposition, a conjunction, and the like are deleted from the morpheme identified by the processor 220 , only the morpheme in the form of a noun may remain. Accordingly, the processor 220 may extract a noun from among the identified morphemes. Also, the processor 220 may unify the synonyms by converting the synonyms into one morpheme.

프로세서(220)는 추출된 명사들을 이용하여 문서 단어 행렬을 생성할 수 있다(S400). 문서 단어 행렬은 복수의 문서들에서 개시되는 각 명사들의 개수를 행렬로 표현한 것일 수 있다. 즉, 프로세서(220)는 추출된 명사들 각각이 수집된 문서들 각각에 개시되는 개수를 기초로 문서 단어 행렬을 생성할 수 있다.The processor 220 may generate a document word matrix using the extracted nouns ( S400 ). The document word matrix may be a matrix expressing the number of respective nouns disclosed in a plurality of documents. That is, the processor 220 may generate a document word matrix based on the number of each of the extracted nouns disclosed in each of the collected documents.

문서 단어 행렬은 제1형태 및 제2형태 중 적어도 하나의 형태로 생성될 수 있다. 제1형태의 문서 단어 행렬은 행이 추출된 명사들 각각이 특정 문서에 개시되는 개수이고, 열이 추출된 명사들 중 특정 명사가 문서들 각각에 개시되는 개수일 수 있다. 또한, 제1형태의 문서 단어 행렬은 행의 개수가 추출된 명사들의 개수이고, 열의 개수가 수집된 문서들의 개수일 수 있다.The document word matrix may be generated in at least one of the first form and the second form. In the document word matrix of the first form, each of nouns from which rows are extracted may be the number of occurrences in a specific document, and among the nouns from which columns are extracted, the number of specific nouns may be disclosed in each of the documents. Also, in the document word matrix of the first form, the number of rows may be the number of extracted nouns, and the number of columns may be the number of documents collected.

또한, 제2형태의 문서 단어 행렬은 행이 추출된 명사들 중 특정 명사가 문서들 각각에 개시되는 개수이고, 열이 추출된 명사들 각각이 특정 문서에 개시되는 개수일 수 있다. 또한, 제2형태의 문서 단어 행렬은 행의 개수가 수집된 문서들의 개수이고, 열의 개수가 추출된 명사들의 개수일 수 있다.In addition, the document word matrix of the second form may be the number of nouns from which rows are extracted from among the nouns that are disclosed in each document, and the number of nouns from which columns are extracted from each of the nouns that are disclosed in the specific document. Also, in the document word matrix of the second form, the number of rows may be the number of documents collected, and the number of columns may be the number of extracted nouns.

프로세서(220)는 문서 단어 행렬을 이용하여 문서 단어 행렬의 각 원소에 해당하는 키워드들간의 유사도 및 연관도, 문서들간의 유사도 및 연관도를 분석하고, 분석한 결과를 이용자에게 제공할 수 있다(S500).The processor 220 may analyze the degree of similarity and relevance between keywords corresponding to each element of the document word matrix and the degree of similarity and relevance between documents using the document word matrix, and may provide the analyzed result to the user ( S500).

프로세서(220)는 문서 단어 행렬의 각 원소에 해당하는 키워드들간의 거리를 계산하고, 계산된 거리를 기초로 키워드 맵을 생성할 수 있다. The processor 220 may calculate a distance between keywords corresponding to each element of the document word matrix, and generate a keyword map based on the calculated distance.

프로세서(220)는 키워드들간의 거리를 계산하여 특정 키워드와의 거리가 일정 거리 내인 키워드들을 계층별로 구분하고, 계층별 키워드들을 연결하여 키워드 맵을 생성할 수 있다. The processor 220 may calculate a distance between keywords, classify keywords having a distance from a specific keyword within a predetermined distance for each layer, and generate a keyword map by connecting the keywords for each layer.

또한, 프로세서(220)는 키워드들간의 거리를 계산하여 특정 키워드와의 거리가 일정 거리 내인 키워드들을 특정 키워드와 연결하고, 일정 거리 내의 키워드들 각각과의 거리가 일정 거리 내인 키워드들을 일정 거리 내의 키워드들과 연결할 수 있다. 즉, 프로세서(220)는 특정 키워드에 대해 거리가 가까운 키워드들을 특정 키워드와 연결하고, 특정 키워드와 연결되는 키워드들 각각에 대해 거리가 가까운 키워드들을 연결하여 키워드 맵을 생성할 수 있다. In addition, the processor 220 calculates the distance between the keywords to connect the keywords having a distance from the specific keyword within a predetermined distance to the specific keyword, and connects keywords having a distance from each of the keywords within a predetermined distance to the keyword within a predetermined distance. can connect with That is, the processor 220 may generate a keyword map by connecting keywords having a close distance to the specific keyword with the specific keyword, and connecting keywords having a close distance to each of the keywords connected to the specific keyword.

프로세서(220)는 생성된 키워드 맵을 출력장치에 표시하여 분석된 결과를 이용자에게 제공할 수 있다.The processor 220 may display the generated keyword map on an output device and provide the analyzed result to the user.

또한, 프로세서(220)는 문서 단어 행렬에서 개수가 가장 많은 키워드부터 개수가 가장 적은 키워드의 순서로 순차적으로 정렬할 수 있다. 프로세서(220)는 문서 단어 행렬의 형태를 유지한 채로, 행 또는 열의 순서만을 변경하여 정렬할 수 있다. Also, the processor 220 may sequentially sort the keywords from the largest number to the smallest keyword in the document word matrix. The processor 220 may sort by changing only the order of rows or columns while maintaining the form of the document word matrix.

또한, 프로세서(220)는 키워드의 개수가 많은 순서대로 키워드들을 별도로 정렬할 수 있다. 예컨대, 프로세서(220)는 (키워드1, 키워드2, 키워드3, ??)의 형태로 키워드들을 정렬할 수도 있다. Also, the processor 220 may separately sort the keywords in an order of increasing the number of keywords. For example, the processor 220 may sort keywords in the form of (keyword 1, keyword 2, keyword 3, ??).

프로세서(220)는 정렬된 키워드들을 출력장치에 표시하여 분석된 결과를 이용자에게 제공할 수 있다. The processor 220 may display the sorted keywords on the output device to provide the analyzed result to the user.

또한, 프로세서(220)는 문서 단어 행렬의 각 원소에 해당하는 키워드들을 유사한 키워드별로 집합을 구성하고, 구성된 집합들간의 거리를 계산하여 거리에 따라 구성된 집합들을 정렬할 수 있다.Also, the processor 220 may configure a set of keywords corresponding to each element of the document word matrix for each similar keyword, calculate a distance between the configured sets, and arrange the configured sets according to the distance.

프로세서(220)는 정렬된 집합들을 출력장치에 표시하여 분석된 결과를 이용자에게 제공할 수 있다. The processor 220 may provide the analyzed result to the user by displaying the sorted sets on the output device.

전술한 바와 같이, 본 발명의 실시 예에 따르면 웹 콘텐츠로부터 수집된 데이터에서 공항 및 항공 기술에 대한 데이터를 필터링하고, 필터링된 데이터에서 형태소를 분석하여 키워드를 추출하고, 추출된 키워드 간의 연관성을 분석하여 트렌드를 분석하는 공항 및 항공 기술의 트렌드 분석 장치 및 방법을 실현할 수 있다.As described above, according to an embodiment of the present invention, data on airport and aviation technology is filtered from data collected from web content, keywords are extracted by analyzing morphemes from the filtered data, and correlation between the extracted keywords is analyzed. Thus, it is possible to realize the trend analysis device and method of airport and aviation technology to analyze trends.

본 발명이 속하는 기술 분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있으므로, 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.Those skilled in the art to which the present invention pertains should understand that the present invention may be embodied in other specific forms without changing the technical spirit or essential characteristics thereof, so the embodiments described above are illustrative in all respects and not restrictive. only do The scope of the present invention is indicated by the following claims rather than the detailed description, and all changes or modifications derived from the meaning and scope of the claims and their equivalent concepts should be construed as being included in the scope of the present invention. .

100: 웹
200: 공항 및 항공 기술의 트렌드 분석 장치
210: 메모리
220: 프로세서
100: web
200: Trend analysis device of airport and aviation technology
210: memory
220: processor

Claims (26)

웹으로부터 공항 및 항공 기술에 관련된 문서들을 수집하는 단계;
수집된 문서들에서 텍스트를 추출하고, 추출된 텍스트에서 형태소를 식별하는 단계;
식별된 형태소들 중 명사를 추출하는 단계;
추출된 명사들을 이용하여 문서 단어 행렬을 생성하는 단계; 및
상기 문서 단어 행렬을 이용하여 상기 문서 단어 행렬의 각 원소에 해당하는 키워드들간의 유사도 및 연관도와, 각 문서들간의 유사도 및 연관도를 분석하고, 분석한 결과를 제공하는 단계를 포함하는 공항 및 항공 기술의 트렌드 분석 방법.
collecting documents related to airport and aviation technology from the web;
extracting text from the collected documents and identifying morphemes from the extracted text;
extracting a noun from among the identified morphemes;
generating a document word matrix using the extracted nouns; and
airports and airlines, comprising the steps of using the document word matrix to analyze the degree of similarity and relevance between keywords corresponding to each element of the document word matrix, and the degree of similarity and relevance between each document, and providing an analysis result How to analyze trends in technology.
제1항에 있어서,
상기 문서들을 수집하는 단계는,
사이트의 주소, 사이트의 명칭, 문서의 명칭, 문서의 내용, 문서의 저자, 사이트의 호스트 각각과 공항 및 항공 기술에 관련된 단어들 사이의 유사도를 이용하여 공항 및 항공 기술에 관련된 문서들을 필터링하는 공항 및 항공 기술의 트렌드 분석 방법.
According to claim 1,
Collecting the documents includes:
Airport to filter documents related to airport and aviation technology using the similarity between the address of the site, the name of the site, the name of the document, the content of the document, the author of the document, the host of the site, and the words related to the airport and aviation technology. and trend analysis methods in aviation technology.
제1항에 있어서,
상기 문서들을 수집하는 단계는,
웹에 개시되는 뉴스, 학술, R&D과제, 특허 및 정책 사이트의 HTML 태그를 분석하여 각 문서들의 대표 키워드들을 수집하는 공항 및 항공 기술의 트렌드 분석 방법.
According to claim 1,
Collecting the documents includes:
A trend analysis method of airport and aviation technology that collects representative keywords of each document by analyzing HTML tags of news, academics, R&D projects, patents and policy sites published on the web.
제3항에 있어서,
메모리에는 공항 및 항공 기술과 관련된 형태소들이 저장된 형태소 사전이 저장되고,
상기 웹으로부터 문서들을 수집하는 단계는,
수집된 대표 키워드들을 기초로 상기 형태소 사전을 업데이트하는 공항 및 항공 기술의 트렌드 분석 방법.
4. The method of claim 3,
A morpheme dictionary in which morphemes related to airport and aviation technology are stored is stored in the memory,
Collecting documents from the web includes:
A trend analysis method of airport and aviation technology for updating the morpheme dictionary based on the collected representative keywords.
제4항에 있어서,
상기 추출된 텍스트에서 형태소를 식별하는 단계는,
추출된 텍스트와 상기 형태소 사전에 저장된 형태소들을 비교하여 상기 추출된 텍스트에서 형태소를 식별하는 공항 및 항공 기술의 트렌드 분석 방법.
5. The method of claim 4,
The step of identifying the morpheme in the extracted text includes:
A trend analysis method of airport and aviation technology for identifying morphemes in the extracted text by comparing the extracted text with the morphemes stored in the morpheme dictionary.
제1항에 있어서,
상기 명사를 추출하는 단계는,
식별된 형태소들 중 불용어를 삭제하고, 식별된 형태소들 중 동의어를 하나의 형태소로 변환하여 명사를 추출하는 공항 및 항공 기술의 트렌드 분석 방법.
According to claim 1,
The step of extracting the noun is
A trend analysis method of airport and aviation technology that deletes stopwords among identified morphemes and extracts nouns by converting synonyms among identified morphemes into one morpheme.
제1항에 있어서,
상기 문서 단어 행렬을 생성하는 단계는,
추출된 명사들 각각이 문서들 각각에 개시되는 개수를 행렬로 변환하여 상기 문서 단어 행렬을 생성하는 공항 및 항공 기술의 트렌드 분석 방법.
According to claim 1,
The step of generating the document word matrix comprises:
A trend analysis method of airport and aviation technology for generating the document word matrix by converting the number of extracted nouns respectively disclosed in each document into a matrix.
제1항에 있어서,
상기 문서 단어 행렬을 생성하는 단계는,
상기 문서 단어 행렬은 제1형태 또는 제2형태 중 적어도 하나의 형태로 생성되고,
상기 제1형태는 행이 추출된 명사들 각각이 특정 문서에 포함되는 개수이고, 열이 추출된 명사들 중 특정 명사가 문서들 각각에 포함되는 개수이고,
상기 제2형태는 열이 추출된 명사들 각각이 특정 문서에 포함되는 개수이고, 행이 추출된 명사들 중 특정 명사가 문서들 각각에 포함되는 개수인 공항 및 항공 기술의 트렌드 분석 방법.
According to claim 1,
The step of generating the document word matrix comprises:
The document word matrix is generated in at least one of a first form and a second form,
In the first form, each of the nouns from which the row is extracted is the number included in a specific document, and the specific noun among the nouns from which the column is extracted is the number included in each of the documents,
The second form is the number of nouns from which columns are extracted each included in a specific document, and the number of specific nouns among nouns from which rows are extracted are included in each of the documents. A method for analyzing trends in airport and aviation technology.
제1항에 있어서,
상기 문서 단어 행렬을 생성하는 단계는,
상기 문서 단어 행렬은 제1형태 또는 제2형태 중 적어도 하나의 형태로 생성되고,
상기 제1형태는 행의 개수가 추출된 명사들의 개수이고, 열의 개수가 수집된 문서들의 개수이고,
상기 제2형태는 행의 개수가 수집된 문서들의 개수이고, 열의 개수가 추출된 명사들의 개수인 공항 및 항공 기술의 트렌드 분석 방법.
According to claim 1,
The step of generating the document word matrix comprises:
The document word matrix is generated in at least one of a first form and a second form,
In the first form, the number of rows is the number of extracted nouns, the number of columns is the number of documents collected,
In the second form, the number of rows is the number of documents collected, and the number of columns is the number of extracted nouns. A method for analyzing trends in airport and aviation technology.
제1항에 있어서,
상기 분석한 결과를 제공하는 단계는,
상기 문서 단어 행렬의 각 원소에 해당하는 키워드들간의 거리를 계산하여 계산된 거리를 기초로 키워드 맵을 생성하고, 생성된 키워드 맵을 제공하는 공항 및 항공 기술의 트렌드 분석 방법.
According to claim 1,
The step of providing the analysis result is,
An airport and aviation technology trend analysis method for calculating a distance between keywords corresponding to each element of the document word matrix, generating a keyword map based on the calculated distance, and providing the generated keyword map.
제10항에 있어서,
상기 분석한 결과를 제공하는 단계는,
특정 키워드와의 거리가 일정 거리 내인 키워드들을 계층별로 구분하고, 계층별 키워드들을 연결하여 키워드 맵을 생성하는 공항 및 항공 기술의 트렌드 분석 방법.
11. The method of claim 10,
The step of providing the analysis result is,
A trend analysis method of airport and aviation technology that classifies keywords that are within a certain distance from a specific keyword by layer, and creates a keyword map by connecting keywords for each layer.
제1항에 있어서,
상기 분석한 결과를 제공하는 단계는,
상기 문서 단어 행렬의 각 원소에 해당하는 키워드들을 개수가 가장 많은 키워드부터 개수가 가장 적은 키워드의 순서로 순차적으로 정렬하고, 정렬된 키워드를 제공하는 공항 및 항공 기술의 트렌드 분석 방법.
According to claim 1,
The step of providing the analysis result is,
A trend analysis method in airport and aviation technology for sequentially arranging keywords corresponding to each element of the document word matrix in the order from the keyword with the largest number to the keyword with the smallest number, and providing the sorted keywords.
제1항에 있어서,
상기 분석한 결과를 제공하는 단계는,
상기 문서 단어 행렬의 각 원소에 해당하는 키워드들을 유사한 키워드별로 집합을 구성하고, 구성된 집합들간의 거리를 계산하여 거리에 따라 집합들을 정렬하고, 정렬된 집합들을 제공하는 공항 및 항공 기술의 트렌드 분석 방법.
According to claim 1,
The step of providing the analysis result is,
A method for analyzing trends in airport and aviation technology that configures a set of keywords corresponding to each element of the document word matrix for each similar keyword, calculates the distance between the configured sets, sorts sets according to the distance, and provides the sorted sets .
웹으로부터 공항 및 항공 기술에 관련되어 수집되는 문서들을 저장하는 메모리; 및
수집된 문서들에서 텍스트를 추출하고, 추출된 텍스트에서 형태소를 식별하고, 식별된 형태소들 중 명사를 추출하고, 추출된 명사들을 이용하여 문서 단어 행렬을 생성하고, 상기 문서 단어 행렬을 이용하여 상기 문서 단어 행렬의 각 원소에 해당하는 키워드들간의 유사도 및 연관도와, 각 문서들간의 유사도 및 연관도를 분석하고, 분석한 결과를 제공하는 프로세서를 포함하는 공항 및 항공 기술의 트렌드 분석 장치.
a memory for storing documents collected from the web related to airport and aviation technology; and
Extracting text from the collected documents, identifying morphemes from the extracted text, extracting nouns from among the identified morphemes, generating a document word matrix using the extracted nouns, and using the document word matrix A trend analysis apparatus for airport and aviation technology, comprising: a processor for analyzing the degree of similarity and relevance between keywords corresponding to each element of the document word matrix, and the degree of similarity and relevance between each document; and providing an analysis result.
제14항에 있어서,
상기 프로세서는 사이트의 주소, 사이트의 명칭, 문서의 명칭, 문서의 내용, 문서의 저자, 사이트의 호스트 각각과 공항 및 항공 기술에 관련된 단어들 사이의 유사도를 이용하여 공항 및 항공 기술에 관련된 문서들을 필터링하는 공항 및 항공 기술의 트렌드 분석 장치.
15. The method of claim 14,
The processor uses the address of the site, the name of the site, the name of the document, the content of the document, the author of the document, and the similarity between each host of the site and the words related to airport and aviation technology to generate documents related to airport and aviation technology. Filtering airport and aviation technology trend analysis device.
제14항에 있어서,
상기 메모리는 웹에 개시되는 뉴스, 학술, R&D과제, 특허 및 정책 사이트의 HTML 태그를 분석하여 수집되는 각 문서들의 대표 키워드들을 저장하는 공항 및 항공 기술의 트렌드 분석 장치.
15. The method of claim 14,
The memory is an airport and aviation technology trend analysis device for storing representative keywords of each document collected by analyzing HTML tags of news, academic, R&D projects, patents and policy sites disclosed on the web.
제16항에 있어서,
상기 메모리에는 공항 및 항공 기술과 관련된 형태소들이 저장된 형태소 사전이 저장되고,
수집된 대표 키워드들을 기초로 상기 형태소 사전이 업데이트되는 공항 및 항공 기술의 트렌드 분석 장치.
17. The method of claim 16,
A morpheme dictionary in which morphemes related to airport and aviation technology are stored is stored in the memory;
An airport and aviation technology trend analysis device in which the morpheme dictionary is updated based on the collected representative keywords.
제17항에 있어서,
상기 프로세서는 추출된 텍스트와 상기 형태소 사전에 저장된 형태소들을 비교하여 상기 추출된 텍스트에서 형태소를 식별하는 공항 및 항공 기술의 트렌드 분석 장치.
18. The method of claim 17,
The processor compares the extracted text with the morphemes stored in the morpheme dictionary to identify the morpheme from the extracted text.
제14항에 있어서,
상기 프로세서는 식별된 형태소들 중 불용어를 삭제하고, 식별된 형태소들 중 동의어를 하나의 형태소로 변환하여 명사를 추출하는 공항 및 항공 기술의 트렌드 분석 장치.
15. The method of claim 14,
The processor deletes stopwords among the identified morphemes, and converts synonyms among the identified morphemes into one morpheme to extract nouns.
제14항에 있어서,
상기 프로세서는 추출된 명사들 각각이 문서들 각각에 개시되는 개수를 행렬로 변환하여 상기 문서 단어 행렬을 생성하는 공항 및 항공 기술의 분석 장치.
15. The method of claim 14,
The processor converts the number of each extracted nouns disclosed in each document into a matrix to generate the document word matrix.
제14항에 있어서,
상기 문서 단어 행렬은 제1형태 또는 제2형태 중 적어도 하나의 형태로 생성되고,
상기 제1형태는 행이 추출된 명사들 각각이 특정 문서에 포함되는 개수이고, 열이 추출된 명사들 중 특정 명사가 문서들 각각에 포함되는 개수이고,
상기 제2형태는 열이 추출된 명사들 각각이 특정 문서에 포함되는 개수이고, 행이 추출된 명사들 중 특정 명사가 문서들 각각에 포함되는 개수인 공항 및 항공 기술의 트렌드 분석 장치.
15. The method of claim 14,
The document word matrix is generated in at least one of a first form and a second form,
In the first form, each of the nouns from which the row is extracted is the number included in a specific document, and the specific noun among the nouns from which the column is extracted is the number included in each of the documents,
In the second form, each of the nouns from which the column is extracted is the number included in a specific document, and the number of specific nouns among the nouns from which the row is extracted is included in each of the documents.
제14항에 있어서,
상기 문서 단어 행렬은 제1형태 또는 제2형태 중 적어도 하나의 형태로 생성되고,
상기 제1형태는 행의 개수가 추출된 명사들의 개수이고, 열의 개수가 수집된 문서들의 개수이고,
상기 제2형태는 행의 개수가 수집된 문서들의 개수이고, 열의 개수가 추출된 명사들의 개수인 공항 및 항공 기술의 트렌드 분석 장치.
15. The method of claim 14,
The document word matrix is generated in at least one of a first form and a second form,
In the first form, the number of rows is the number of extracted nouns, the number of columns is the number of documents collected,
In the second form, the number of rows is the number of collected documents, and the number of columns is the number of extracted nouns. An apparatus for analyzing trends in airport and aviation technology.
제14항에 있어서,
상기 프로세서는 상기 문서 단어 행렬의 각 원소에 해당하는 키워드들간의 거리를 계산하여 계산된 거리를 기초로 키워드 맵을 생성하고, 생성된 키워드 맵을 제공하는 공항 및 항공 기술의 트렌드 분석 장치.
15. The method of claim 14,
The processor calculates a distance between keywords corresponding to each element of the document word matrix, generates a keyword map based on the calculated distance, and provides the generated keyword map.
제23항에 있어서,
상기 프로세서는 특정 키워드와의 거리가 일정 거리 내인 키워드들을 계층별로 구분하고, 계층별 키워드들을 연결하여 키워드 맵을 생성하는 공항 및 항공 기술의 트렌드 분석 장치.
24. The method of claim 23,
The processor classifies keywords that are within a certain distance from a specific keyword by layer, and connects the keywords for each layer to generate a keyword map.
제14항에 있어서,
상기 프로세서는 상기 문서 단어 행렬의 각 원소에 해당하는 키워드들을 개수가 가장 많은 키워드부터 개수가 가장 적은 키워드의 순서로 순차적으로 정렬하고, 정렬된 키워드를 제공하는 공항 및 항공 기술의 트렌드 분석 장치.
15. The method of claim 14,
The processor sequentially sorts the keywords corresponding to each element of the document word matrix in order from the keyword with the largest number to the keyword with the smallest number, and provides the sorted keywords.
제14항에 있어서,
상기 프로세서는 상기 문서 단어 행렬의 각 원소에 해당하는 키워드들을 유사한 키워드별로 집합을 구성하고, 구성된 집합들간의 거리를 계산하여 거리에 따라 집합들을 정렬하고, 정렬된 집합들을 제공하는 공항 및 항공 기술의 트렌드 분석 장치.
15. The method of claim 14,
The processor configures a set of keywords corresponding to each element of the document word matrix for similar keywords, calculates the distance between the configured sets, sorts sets according to the distance, and provides sorted sets of airport and aviation technology. trend analysis device.
KR1020200043886A 2019-12-31 2020-04-10 Apparatus and methods for trend analysis in airport and aviation technology KR102371224B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20190179921 2019-12-31
KR1020190179921 2019-12-31

Publications (2)

Publication Number Publication Date
KR20210086402A true KR20210086402A (en) 2021-07-08
KR102371224B1 KR102371224B1 (en) 2022-03-07

Family

ID=76894474

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200043886A KR102371224B1 (en) 2019-12-31 2020-04-10 Apparatus and methods for trend analysis in airport and aviation technology

Country Status (1)

Country Link
KR (1) KR102371224B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11907278B2 (en) 2021-10-21 2024-02-20 Samsung Electronics Co., Ltd. Method and apparatus for deriving keywords based on technical document database

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003108569A (en) * 2001-09-27 2003-04-11 Seiko Epson Corp Classifying processing unit, control method of classifying processing unit, control program and recording medium
KR20110059185A (en) * 2009-11-27 2011-06-02 한국 한의학 연구원 Method for creating contour map for research trend analysis
KR20150050943A (en) * 2013-11-01 2015-05-11 황성봉 Extraction and Estimation Method of Trend Information with the Analasis of Vocabularies
KR20170045403A (en) * 2015-10-01 2017-04-27 한국외국어대학교 연구산학협력단 A knowledge management system of searching documents on categories by using weights
KR20180059112A (en) * 2016-11-25 2018-06-04 한국전자통신연구원 Apparatus for classifying contents and method for using the same

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003108569A (en) * 2001-09-27 2003-04-11 Seiko Epson Corp Classifying processing unit, control method of classifying processing unit, control program and recording medium
KR20110059185A (en) * 2009-11-27 2011-06-02 한국 한의학 연구원 Method for creating contour map for research trend analysis
KR20150050943A (en) * 2013-11-01 2015-05-11 황성봉 Extraction and Estimation Method of Trend Information with the Analasis of Vocabularies
KR20170045403A (en) * 2015-10-01 2017-04-27 한국외국어대학교 연구산학협력단 A knowledge management system of searching documents on categories by using weights
KR20180059112A (en) * 2016-11-25 2018-06-04 한국전자통신연구원 Apparatus for classifying contents and method for using the same

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
김현정 외 2명, "항공산업 미래유망분야 선정을 위한 텍스트 마이닝 기반의 트렌드 분석", 한국지능정보시스템 학회 지능정보연구 제21권 제1호,2015.03.31., pp65-82. 1부.* *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11907278B2 (en) 2021-10-21 2024-02-20 Samsung Electronics Co., Ltd. Method and apparatus for deriving keywords based on technical document database

Also Published As

Publication number Publication date
KR102371224B1 (en) 2022-03-07

Similar Documents

Publication Publication Date Title
Inzalkar et al. A survey on text mining-techniques and application
JP5746286B2 (en) High-performance data metatagging and data indexing method and system using a coprocessor
US8639708B2 (en) Fact-based indexing for natural language search
JP3266246B2 (en) Natural language analysis apparatus and method, and knowledge base construction method for natural language analysis
US10452907B2 (en) System and method for global identification in a collection of documents
US20110295857A1 (en) System and method for aligning and indexing multilingual documents
JP2003288362A (en) Specified element vector generating device, character string vector generating device, similarity calculation device, specified element vector generating program, character string vector generating program, similarity calculation program, specified element vector generating method, character string vector generating method, and similarity calculation method
CN115186050B (en) Method, system and related equipment for recommending selected questions based on natural language processing
Jeon et al. Making a graph database from unstructured text
KR102371224B1 (en) Apparatus and methods for trend analysis in airport and aviation technology
JP4979637B2 (en) Compound word break estimation device, method, and program for estimating compound word break position
Roslan et al. Biodiversity Knowledge Retrieval Application Using Natural Language Processing Technique
Korayem et al. Query sense disambiguation leveraging large scale user behavioral data
KR101088483B1 (en) Method and apparatus for mapping the heterogeneous classification systems
Shaikh et al. Bringing shape to textual data-a feasible demonstration
Stefanov et al. An introduction to contemporary search technology
El Idrissi et al. HCHIRSIMEX: An extended method for domain ontology learning based on conditional mutual information
JP2000105769A (en) Document display method
Mukherjee et al. Automatic extraction of significant terms from the title and abstract of scientific papers using the machine learning algorithm: A multiple module approach
TWI813028B (en) Method and system of screening for text data relevance
KR20180137394A (en) A device for extracting and managing terms from a document and a method for extracting and managing terms using the same
Wolfe ChronoNLP: Exploration and Analysis of Chronological Textual Corpora
KR102449580B1 (en) The unstructured data analysis method using component network based analysis system
JP7167996B2 (en) Case search method
KR100522719B1 (en) General template construction method for the information extraction based on the feature of computation syntactic analysis

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant