KR20210086402A - Apparatus and methods for trend analysis in airport and aviation technology - Google Patents
Apparatus and methods for trend analysis in airport and aviation technology Download PDFInfo
- Publication number
- KR20210086402A KR20210086402A KR1020200043886A KR20200043886A KR20210086402A KR 20210086402 A KR20210086402 A KR 20210086402A KR 1020200043886 A KR1020200043886 A KR 1020200043886A KR 20200043886 A KR20200043886 A KR 20200043886A KR 20210086402 A KR20210086402 A KR 20210086402A
- Authority
- KR
- South Korea
- Prior art keywords
- airport
- document
- keywords
- keyword
- nouns
- Prior art date
Links
- 238000005516 engineering process Methods 0.000 title claims abstract description 86
- 238000004458 analytical method Methods 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 title claims abstract description 30
- 239000011159 matrix material Substances 0.000 claims abstract description 86
- 239000000284 extract Substances 0.000 claims abstract description 20
- 238000001914 filtration Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 16
- 238000005065 mining Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
본 발명은 공항 및 항공 기술의 트렌드 분석 장치 및 방법에 관한 것으로, 보다 자세하게는 웹 콘텐츠로부터 수집된 데이터에서 공항 및 항공 기술에 대한 데이터를 필터링하고, 필터링된 데이터에서 형태소를 분석하여 키워드를 추출하고, 추출된 키워드 간의 연관성을 분석하여 트렌드를 분석하는 공항 및 항공 기술의 트렌드 분석 장치 및 방법에 관한 것이다.The present invention relates to an apparatus and method for analyzing trends in airport and aviation technology, and more particularly, filtering data on airport and aviation technology from data collected from web content, extracting keywords by analyzing morphemes from the filtered data, and , to a trend analysis device and method for airport and aviation technology that analyzes trends by analyzing the correlation between extracted keywords.
최근 자유롭게 기술된 대량의 텍스트 데이터를 해석하고, 해석 결과로부터 유용한 정보를 구하는 키워드 분석 시스템이 주목받고 있다. 키워드 분석 시스템은 자연어로 이루어진 비구조화 자료에서 유용한 정보를 얻어내기 위해 구조화 데이터로 변환한 후 분석하는 기법이다. 인터넷 검색 엔진이나 열람실의 검색 시스템 등에 키워드 분석 시스템을 적용할 수 있으며, 기존의 주어진 범주에 따라 문서들을 분류할 수도 있다.Recently, a keyword analysis system that analyzes a large amount of freely described text data and obtains useful information from the analysis result is attracting attention. The keyword analysis system is a technique that analyzes after converting into structured data to obtain useful information from unstructured data made of natural language. A keyword analysis system may be applied to an Internet search engine or a search system in a reading room, and documents may be classified according to an existing given category.
그러나, 종래의 키워드 분석 시스템들은 항공 데이터에 특화되지 않고 SNS 정보나 뉴스에서의 동향만 파악 가능했으며, 기술에 대한 상세한 정보를 알지 못하는 한계가 존재하며 특허, 과제, 학술 등의 정보가 사이트마다 별도로 운영되어 공항 및 항공 기술의 정보가 파편화되어 있는 문제가 있다.However, conventional keyword analysis systems do not specialize in aviation data and can only grasp trends in SNS information or news, and there is a limit to not knowing detailed information about technology, and information such as patents, tasks, and academics is separately available for each site. There is a problem in that the information of airports and aviation technology is fragmented due to operation.
또한, 키워드 분석 기술의 핵심은 문자의 형태소를 분석을 통한 핵심 명사를 추출하는 것으로 기존 기술은 핵심 명사에 대한 정보가 없으면 명사로 인식하지 못하여 추출하지 못하는 문제가 있다. 이에 신규 항공 기술에 대한 신규 명사 또는 복합 명사에 대한 추출 방안이 필요한 실정이다.In addition, the core of keyword analysis technology is to extract core nouns through analysis of morphemes of characters. Existing technologies have a problem in that they cannot be recognized as nouns without information on core nouns. Accordingly, there is a need for a method for extracting new nouns or compound nouns for new aviation technology.
또한, 4차 산업 혁명에 따라 공항 및 항공산업 기술은 빠르게 변화하고 발전하는 상황이며 그에 맞춰 공항 및 항공산업의 기술의 트렌드를 분석하고 예측하여 산업의 흐름에 맞는 기술 개발을 통한 기술 산업을 주도하기 위한 방안이 요구되는 실정이다.In addition, according to the 4th industrial revolution, airport and aviation industry technologies are rapidly changing and developing, and accordingly, it is necessary to analyze and predict the technology trends of the airport and aviation industry to lead the technology industry through technology development that fits the flow of the industry. There is a need for a solution for this.
본 발명은 앞에서 설명한 문제점을 해결하기 위한 것으로, 웹 콘텐츠로부터 수집된 데이터에서 공항 및 항공 기술에 대한 데이터를 필터링하고, 필터링된 데이터에서 형태소를 분석하여 키워드를 추출하고, 추출된 키워드 간의 연관성을 분석하여 트렌드를 분석하는 공항 및 항공 기술의 트렌드 분석 장치 및 방법을 제공하는 것을 목적으로 한다.The present invention is to solve the problems described above, by filtering data on airport and aviation technology from data collected from web content, extracting keywords by analyzing morphemes from the filtered data, and analyzing the correlation between the extracted keywords. The purpose of this is to provide an apparatus and method for analyzing trends in airport and aviation technology to analyze trends.
위에서 언급된 본 발명의 기술적 과제 외에도, 본 발명의 다른 특징 및 이점들이 이하에서 기술되거나, 그러한 기술 및 설명으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.In addition to the technical problems of the present invention mentioned above, other features and advantages of the present invention will be described below or will be clearly understood by those skilled in the art from such description and description.
앞에서 설명한 목적을 달성하기 위한 본 발명의 실시 예에 따른 공항 및 항공 기술의 트렌드 분석 방법은 웹으로부터 공항 및 항공 기술에 관련된 문서들을 수집하는 단계와, 수집된 문서들에서 텍스트를 추출하고, 추출된 텍스트에서 형태소를 식별하는 단계와, 식별된 형태소들 중 명사를 추출하는 단계와, 추출된 명사들을 이용하여 문서 단어 행렬을 생성하는 단계와, 문서 단어 행렬을 이용하여 문서 단어 행렬의 각 원소에 해당하는 키워드들간의 유사도 및 연관도와, 각 문서들간의 유사도 및 연관도를 분석하고, 분석한 결과를 제공하는 단계를 포함할 수 있다.The trend analysis method of airport and aviation technology according to an embodiment of the present invention for achieving the above-described object includes the steps of collecting documents related to airport and aviation technology from the web, extracting text from the collected documents, and extracting the Identifying morphemes from text, extracting nouns from among the identified morphemes, generating a document word matrix using the extracted nouns, and using the document word matrix to correspond to each element of the document word matrix and analyzing the degree of similarity and relevance between keywords, and the degree of similarity and relevance between the respective documents, and providing an analysis result.
한편, 앞에서 설명한 목적을 달성하기 위한 본 발명의 실시 예에 따른 공항 및 항공 기술의 트렌드 분석 장치는 웹으로부터 공항 및 항공 기술에 관련되어 수집되는 문서들을 저장하는 메모리와, 수집된 문서들에서 텍스트를 추출하고, 추출된 텍스트에서 형태소를 식별하고, 식별된 형태소들 중 명사를 추출하고, 추출된 명사들을 이용하여 문서 단어 행렬을 생성하고, 문서 단어 행렬을 이용하여 문서 단어 행렬의 각 원소에 해당하는 키워드들간의 유사도 및 연관도와, 각 문서들간의 유사도 및 연관도를 분석하고, 분석한 결과를 제공하는 프로세서를 포함할 수 있다.On the other hand, the airport and aviation technology trend analysis apparatus according to an embodiment of the present invention for achieving the above-described object includes a memory for storing documents collected in relation to airport and aviation technology from the web, and texts from the collected documents. extracting, identifying morphemes from the extracted text, extracting nouns from among the identified morphemes, generating a document word matrix using the extracted nouns, and using the document word matrix to correspond to each element of the document word matrix. The processor may include a processor that analyzes the degree of similarity and relevance between keywords and the degree of similarity and relevance between each document, and provides an analysis result.
본 발명의 실시 예에 따른 공항 및 항공 기술의 트렌드 분석 장치 및 방법은 웹 콘텐츠로부터 수집된 데이터에서 공항 및 항공 기술에 대한 데이터를 필터링하고, 필터링된 데이터에서 형태소를 분석하여 키워드를 추출하고, 추출된 키워드 간의 연관성을 분석하여 트렌드를 분석할 수 있다.An apparatus and method for analyzing airport and aviation technology trends according to an embodiment of the present invention filters data on airport and aviation technology from data collected from web content, and extracts keywords by analyzing morphemes from the filtered data. Trends can be analyzed by analyzing the correlation between keywords.
또한, 기존 여러 사이트로 분산되어 있는 공항 및 항공 기술에 대한 정보를 수집하고 통합 관리하여 정보의 파편화 문제를 해결하여 일원화된 정보 분석이 가능할 수 있다.In addition, it is possible to collect and integrate information on airports and aviation technologies that are distributed to several existing sites, solve the problem of fragmentation of information, and enable unified information analysis.
다수의 비정형 알고리즘을 통하여 공항 및 항공 기술에 대한 비정형 분석을 수행하고 알고리즘에 따른 다수의 분석결과를 조합한 분석을 통하여 보다 정확하고 객관적인 기술 분석이 가능할 수 있다.A more accurate and objective technical analysis may be possible through an unstructured analysis of airport and aviation technology through a number of unstructured algorithms and an analysis that combines a number of analysis results according to the algorithm.
또한, 공항 및 항공 기술 정보의 통합을 통하여 기술의 핵심 키워드를 추출하고 키워드의 노출 수의 변화량을 분석함으로써 시간 흐름에 따른 공항 및 항공 기술의 발전 방향을 파악하고 급변하는 기술 시장에 대한 기술의 발전을 예측할 수 있다.In addition, by extracting key keywords of technology through the integration of airport and aviation technology information and analyzing the amount of change in the number of exposures of keywords, the direction of development of airport and aviation technology over time is identified, and technology development in the rapidly changing technology market can be predicted.
이 밖에도, 본 발명의 실시 예들을 통해 본 발명의 또 다른 특징 및 이점들이 새롭게 파악될 수도 있을 것이다.In addition, other features and advantages of the present invention may be newly recognized through embodiments of the present invention.
도 1은 본 발명의 실시 예에 따른 공항 및 항공 기술의 트렌드 분석 시스템에 관한 것이다.
도 2는 본 발명의 실시 예에 따른 공항 및 항공 기술의 트렌드 분석 장치를 나타내는 도면이다.
도 3은 본 발명의 실시 예에 따른 수집된 문서들에서 텍스트를 추출하는 것을 나타내는 도면이다.
도 4는 본 발명의 실시 예에 따른 추출된 텍스트에서 형태소를 분석하고, 명사를 추출하는 것을 나타내는 도면이다.
도 5는 본 발명의 실시 예에 따른 문서 단어 행렬을 나타내는 도면이다.
도 6은 본 발명의 실시 예에 따른 키워드 맵을 나타내는 도면이다.
도 7은 본 발명의 실시 예에 따른 키워드들을 정렬하는 것을 나타내는 도면이다.
도 8은 본 발명의 실시 예에 따른 집합들을 정렬하는 것을 나타내는 도면이다.
도 9는 본 발명의 실시 예에 따른 공항 및 항공 기술의 트렌드 분석 방법을 나타내는 도면이다.1 is a system for analyzing trends in airport and aviation technology according to an embodiment of the present invention.
2 is a diagram illustrating an apparatus for analyzing trends in airport and aviation technology according to an embodiment of the present invention.
3 is a diagram illustrating extracting text from collected documents according to an embodiment of the present invention.
4 is a diagram illustrating analysis of morphemes and extraction of nouns from the extracted text according to an embodiment of the present invention.
5 is a diagram illustrating a document word matrix according to an embodiment of the present invention.
6 is a diagram illustrating a keyword map according to an embodiment of the present invention.
7 is a diagram illustrating sorting of keywords according to an embodiment of the present invention.
8 is a diagram illustrating sorting of sets according to an embodiment of the present invention.
9 is a diagram illustrating a method for analyzing trends in airport and aviation technology according to an embodiment of the present invention.
본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 동일 또는 유사한 구성요소에 대해서는 동일한 참조 부호를 붙이도록 한다.In order to clearly explain the present invention, parts irrelevant to the description are omitted, and the same reference numerals are given to the same or similar elements throughout the specification.
다르게 정의하지는 않았지만, 여기에 사용되는 기술용어 및 과학용어를 포함하는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 일반적으로 이해하는 의미와 동일한 의미를 가진다. 보통 사용되는 사전에 정의된 용어들은 관련 기술문헌과 현재 개시된 내용에 부합하는 의미를 가지는 것으로 추가 해석되고, 정의되지 않는 한 이상적이거나 매우 공식적인 의미로 해석되지 않는다.Although not defined otherwise, all terms including technical and scientific terms used herein have the same meaning as commonly understood by those of ordinary skill in the art to which the present invention belongs. Commonly used terms defined in the dictionary are additionally interpreted as having a meaning consistent with the related technical literature and the presently disclosed content, and unless defined, they are not interpreted in an ideal or very formal meaning.
이하, 첨부한 도면을 참조하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those of ordinary skill in the art can easily implement them. However, the present invention may be embodied in various different forms and is not limited to the embodiments described herein.
도 1은 본 발명의 실시 예에 따른 공항 및 항공 기술의 트렌드 분석 시스템에 관한 것이다.1 is a system for analyzing trends in airport and aviation technology according to an embodiment of the present invention.
도 1을 참조하면, 본 발명의 실시 예에 따른 공항 및 항공 기술의 트렌드 분석 시스템(1000)은 웹(100), 공항 및 항공 기술의 트렌드 분석 장치(200, 이하 트렌드 분석 장치)를 포함할 수 있다.Referring to FIG. 1 , the airport and aviation technology
웹(100)은 일반적으로 인터넷 공간을 의미할 수 있다. 웹(100)에는 뉴스, 학술, R&D 과제, 특허 및 정책 등의 정보가 개시될 수 있고, 각 정보들은 해당 정보들이 개시되는 각 사이트에 개시될 수 있다. 이때, 각 사이트들은 HTML(Hyper Text Markup Language)문서일 수 있다. 예컨대, 뉴스 정보는 뉴스 사이트에 개시될 수 있고, 해당 뉴스 사이트는 HTML 문서일 수 있다.The
트렌드 분석 장치(200)는 웹(100)으로부터 뉴스, 학술, R&D 과제, 특허 및 정책 등의 정보를 각 사이트로부터 수집할 수 있다. 이때, 트렌드 분석 장치(200)는 각 사이트로부터 HTML 문서를 수집하는 것일 수 있다. 여기서, 트렌드 분석 장치(200)는 웹(100)으부터 공항 및 항공 기술에 대한 문서들을 수집할 수 있다. 또한, 트렌드 분석 장치(200)는 웹(100)으로부터 수집된 문서들 중 공항 및 항공 기술에 대한 문서들을 필터링하고, 필터링된 공항 및 항공 기술에 대한 문서들을 저장할 수 있다. The
트렌드 분석 장치(200)는 각 사이트로부터 수집된 문서들(또는 필터링된 문서들)에서 텍스트를 추출하고, 추출된 텍스트에서 형태소를 식별할 수 있다. 트렌드 분석 장치(200)는 식별된 형태소에서 명사를 추출하고, 추출된 명사들을 문서 단어 행렬로 변환할 수 있다. 트렌드 분석 장치(200)는 변환된 문서 단어 행렬을 이용하여 각 사이트로부터 수집된 문서들간의 유사도 및 연관도 등을 분석하고, 분석된 결과를 이용자에게 제공할 수 있다. 또한, 트렌드 분석 장치(220)는 변환된 문서 단어 행렬을 이용하여 추출된 명사들간의 유사도 및 연관도 등을 분석하고, 분석된 결과를 이용자에게 제공할 수 있다. 여기서, 트렌드 분석 장치(200)는 분석된 결과를 출력장치를 통해 디스플레이에 표시할 수 있다. 이때, 출력장치는 트렌드 분석 장치(200)에 포함되는 일 구성이거나, 별도의 구성일 수 있다The
트렌드 분석 장치(200)는 웹(100)으로부터 수집되는 문서들에서 명사를 추출하여 분석함으로써, 웹 콘텐츠에 개시되는 정보들의 트렌드를 분석할 수 있다. 예컨대, 여러 분야의 문서들에서 많은 빈도로 기재된 명사의 경우, 최근 많이 사용되는 명사일 수 있다. 이에 따라, 최근에 많이 사용되는 명사들을 기초로 웹(100)으로부터 수집되는 명사들을 분석함으로써 최근 트렌드를 분석할 수 있다. The
도 2는 본 발명의 실시 예에 따른 공항 및 항공 기술의 트렌드 분석 장치를 나타내는 도면이다.2 is a diagram illustrating an apparatus for analyzing trends in airport and aviation technology according to an embodiment of the present invention.
도 2를 참조하면, 본 발명의 실시 예에 따른 공항 및 항공 기술의 트렌드 분석 장치(200, 이하 트렌드 분석 장치)는 메모리(210) 및 프로세서(220)를 포함할 수 있다.Referring to FIG. 2 , an
메모리(210)는 웹(100)으로부터 수집되는 정보들을 저장할 수 있다. 즉, 웹(100)으로부터 수집되는 뉴스 정보, 학술 정보, R&D 과제 정보, 특허 정보 및 정책 정보 등을 저장할 수 있다. 여기서, 웹(100)으로부터 수집되는 정보들은 뉴스, 학술, R&D 과제, 특허, 정책 사이트의 HTML 문서일 수 있다.The
또한, 메모리(210)에는 형태소 사전이 저장될 수 있다. 형태소 사전은 형태소들을 저장하고 있을 수 있다. 형태소 사전은 사전에 미리 구성되어 메모리(210)에 저장될 수 있고, 웹(100)으로부터 수집되는 정보들에 의해 업데이트되거나, 이용자의 입력에 의해 업데이트될 수 있다. 여기서, 형태소 사전에 저장되는 형태소들은 공항 및 항공에 관련된 단어로부터 식별된 형태소들일 수 있다. Also, a morpheme dictionary may be stored in the
프로세서(220)는 웹(100)으로부터 수집된 문서들이 개시된 사이트의 HTML 태그를 분석하여 각 문서들의 대표 키워드들을 수집할 수 있다. HTML 태그는 제목, 단락, 목록 등과 같은 본문을 위한 구조적 의미를 나타낼 수 있다. 이에 따라, HTML 태그를 분석함에 따라 본문, 즉, 사이트에 개시된 문서의 제목, 단락, 목록 등을 판단할 수 있다. 프로세서(220)는 판단된 제목, 단락, 목록 등을 통해 해당 문서에서 중점적으로 개시하고 있는 대표 키워드를 수집할 수 있다. The
예컨대, 프로세서(220)는 '탑승'에 관련된 특허 문서가 개시된 사이트의 HTML 태그를 분석할 수 있다. 프로세서(220)는 HTML 태그를 분석하여 해당 문서의 제목, 단락, 목록 등을 판단할 수 있고, 판단한 결과, 해당 문서에서 중점적으로 개시하고 있는 대표 키워드는 '탑승'임을 판단하고, 이를 수집할 수 있다.For example, the
프로세서(220)는 수집된 대표 키워드들을 기초로 형태소 사전을 업데이트할 수 있다. 프로세서(220)는 수집된 대표 키워드들 중 형태소 사전에 저장되어 있지 않은 키워드들을 기초로 형태소 사전을 업데이트할 수 있다. 여기서, 프로세서(220)는 대표 키워드들을 형태소 형태로 변환하고, 형태소 형태로 변환된 대표 키워드를 형태소 사전에 업데이트할 수 있다. 이때, 형태소 사전에 업데이트되는 형태소는 공항 및 항공에 관련된 키워드로부터 변환된 형태소일 수 있다. 즉, 공항 및 항공 기술에 관련된 키워드들이 형태소 형태로 형태소 사전에 저장될 수 있다.The
프로세서(220)는 웹(100)으로부터 수집된 문서들에서 텍스트를 추출하고, 추출된 텍스트에서 형태소를 식별할 수 있다. 프로세서(220)는 텍스트 마이닝을 통해 수집된 문서들에서 텍스트를 추출할 수 있다. 프로세서(220)는 추출된 텍스트와 형태소 사전에 저장된 형태소들을 각각 비교하여 추출된 텍스트에서 형태소를 식별할 수 있다. 여기서, 프로세서(220)는 수집된 문서들 각각에 대해 텍스트를 추출할 수 있고, 추출된 각각의 텍스트에서 형태소를 식별할 수 있다. 프로세서(220)는 추출된 각각의 텍스트에서 형태소 사전에 저장된 형태소와 동일한 텍스트를 형태소로써 식별할 수 있다. The
프로세서(220)는 식별된 형태소들 중 불용어를 삭제하고, 식별된 형태소들 중 동의어를 하나의 형태소로 변환하여 명사를 추출할 수 있다. 여기서, 불용어는 용어로 사용하지 않는 단어, 관사, 전치사, 조사, 접속사 등을 포함할 수 있다. 즉, 프로세서(220)에 의해 식별된 형태소에서 관사, 전치사, 조사, 접속사 등이 삭제됨으로써 명사 형태의 형태소만이 남을 수 있다. 이에 따라, 프로세서(220)는 식별된 형태소들 중 명사를 추출할 수 있다. 또한, 프로세서(220)는 '나이' 및 '연령' 등과 같은 동의어의 경우, '나이' 또는 '연령'중 하나의 형태소로 통일되도록 형태소를 변환할 수 있다. 프로세서(220)에 의해 동의어를 하나의 형태소로 변환하여 동의어를 통일시킴으로써 형태소(키워드)의 분석이 더 정확하게 이루어질 수 있다. 여기서, 프로세서(220)는 불용어를 삭제하고 추출되는 명사에서 동의어를 하나의 형태소로 변환할 수도 있으며, 식별된 형태소들 중 동의어를 하나의 형태소로 변환한 후, 불용어를 삭제하여 명사를 추출할 수도 있다.The
프로세서(220)는 추출된 명사들을 이용하여 문서 단어 행렬을 생성할 수 있다. 문서 단어 행렬은 복수의 문서들에서 개시되는 각 명사들의 개수를 행렬로 표현한 것일 수 있다. 즉, 프로세서(220)는 추출된 명사들 각각이 수집된 문서들 각각에 개시되는 개수를 기초로 문서 단어 행렬을 생성할 수 있다.The
문서 단어 행렬의 행은 추출된 명사들 각각이 특정 문서에 개시되는 개수이고, 열은 추출된 명사들 중 특정 명사가 문서들 각각에 개시되는 개수일 수 있다. 또한, 문서 단어 행렬의 행은 추출된 명사들 중 특정 명사가 문서들 각각에 개시되는 개수이고, 열은 추출된 명사들 각각이 특정 문서에 개시되는 개수일 수 있다.A row of the document word matrix may be the number of each extracted nouns appearing in a specific document, and a column may be the number of extracted nouns starting in each of the documents. In addition, the row of the document word matrix may be the number of extracted nouns that are disclosed in each document among the extracted nouns, and the column may be the number of extracted nouns that are disclosed in the specific document.
또한, 문서 단어 행렬의 행의 개수는 추출된 명사들의 개수이고, 열의 개수는 수집된 문서들의 개수일 수 있다. 또한, 문서 단어 행렬의 행의 개수는 수집된 문서들의 개수이고, 열의 개수는 추출된 명사들의 개수일 수 있다.In addition, the number of rows of the document word matrix may be the number of extracted nouns, and the number of columns may be the number of collected documents. In addition, the number of rows of the document word matrix may be the number of collected documents, and the number of columns may be the number of extracted nouns.
프로세서(220)는 문서 단어 행렬을 이용하여 문서 단어 행렬의 각 원소에 해당하는 키워드들간의 유사도 및 연관도, 문서들간의 유사도 및 연관도를 분석하고, 분석한 결과를 이용자에게 제공할 수 있다.The
프로세서(220)는 문서 단어 행렬의 각 원소에 해당하는 키워드들간의 거리를 계산하고, 계산된 거리를 기초로 키워드 맵을 생성할 수 있다. 프로세서(220)는 키워드들간의 거리를 계산하여 키워드들을 트리형태로 연결할 수 있다.The
프로세서(220)는 키워드들간의 거리를 계산하여 특정 키워드와의 거리가 일정 거리 내인 키워드들을 계층별로 구분하고, 계층별 키워드들을 연결하여 키워드 맵을 생성할 수 있다. 예컨대, 키워드들간의 거리를 계산한 결과, 특정 키워드에 대해 N만큼의 거리 차이를 가지는 키워드들을 동일한 계층으로 분류할 수 있다. 또한, 특정 키워드에 대해 M만큼의 거리 차이를 가지는 키워드들을 동일한 계층으로 분류할 수 있다. 이때, N이 M보다 작은 수인 경우, N만큼의 거리 차이를 가지는 키워드들의 계층은 M만큼의 거리 차이를 가지는 키워드들의 계층에 비해 특정 키워드와 더 가까운 위치에 위치할 수 있다. The
또한, 프로세서(220)는 키워드들간의 거리를 계산하여 특정 키워드와의 거리가 일정 거리 내인 키워드들을 특정 키워드와 연결하고, 일정 거리 내의 키워드들 각각과의 거리가 일정 거리 내인 키워드들을 일정 거리 내의 키워드들과 연결할 수 있다. 즉, 프로세서(220)는 특정 키워드에 대해 거리가 가까운 키워드들을 특정 키워드와 연결하고, 특정 키워드와 연결되는 키워드들 각각에 대해 거리가 가까운 키워드들을 연결하여 키워드 맵을 생성할 수 있다. 예컨대, 키워드들간의 거리를 계산한 결과, 특정 키워드 'A'에 대해 N 이내의 거리 차이를 가지는 키워드들 'B' 및 'C'를 특정 키워드 'A'와 연결할 수 있다. 또한, 특정 키워드에 연결된 N 이내의 거리 차이를 가지는 키워드들 'B' 및 'C'각각에 대해 M 이내의 거리 차이를 가지는 가지는 키워드들을 특정 키워드에 연결된 N 이내의 거리 차이를 가지는 키워드들 각각과 연결할 수 있다. 즉, 키워드 'B'와 M 이내의 거리 차이를 가지는 키워드 'D', 및 'E'는 키워드 'B'와 연결될 수 있다. 또한, 키원드 'C'와 M 이내의 거리 차이를 가지는 키워드 'F'는 키워드 'C'와 연결될 수 있다. 여기서, N과 M은 동일한 값일 수 있고, 다른 값일 수도 있다.In addition, the
프로세서(220)는 이용자의 조작에 따라 생성된 키워드 맵을 제공할 수 있다. 즉, 프로세서(220)는 출력장치에 키워드 맵을 표시하는 것일 수 있다. 이에 따라, 이용자는 복수의 문서들에서 연관된 키워드들을 파악하는데 용이할 수 있다.The
프로세서(220)는 문서 단어 행렬에서 개수가 가장 많은 키워드부터 개수가 가장 적은 키워드의 순서로 순차적으로 정렬할 수 있다. 프로세서(220)는 문서 단어 행렬의 형태를 유지한 채로, 행 또는 열의 순서만을 변경하여 정렬할 수 있다. 예컨대, 문서 단어 행렬의 행이 추출된 명사들 각각이 문서들에 개시되는 개수인 경우, 행은 순차적으로 키워드 1이 문서들에 개시되는 개수, 키워드 2가 문서들에 개시되는 개수, ??, 키워드 n이 문서들에 개시되는 개수일 수 있다. 이때, 프로세서(220)는 키워드 3이 문서들에 개시되는 개수가 키워드 1이 문서들에 개시되는 개수보다 많은 경우, 키워드 3이 문서들에 개시되는 개수가 키워드 1이 문서들에 개시되는 개수보다 더 앞 순서로 개시되도록 키워드의 순서를 정렬할 수 있다. 여기서, 앞 순서는 행렬(Hij)의 i 및 j의 숫자가 작은 원소를 의미할 수 있다.The
또한, 프로세서(220)는 키워드의 개수가 많은 순서대로 키워드들을 별도로 정렬할 수 있다. 예컨대, 프로세서(220)는 (키워드1, 키워드2, 키워드3, ??)의 형태로 키워드들을 정렬할 수도 있다. Also, the
프로세서(220)는 이용자의 조작에 따라 정렬된 키워드들을 제공할 수 있다. 즉, 프로세서(220)는 출력장치에 정렬된 키워드들을 표시하는 것일 수 있다. 이에 따라, 이용자는 복수의 문서들에서 주요 키워드들을 파악하는데 용이할 수 있다.The
프로세서(220)는 문서 단어 행렬의 각 원소에 해당하는 키워드들을 유사한 키워드별로 집합을 구성하고, 구성된 집합들간의 거리를 계산하여 거리에 따라 구성된 집합들을 정렬할 수 있다.The
프로세서(220)는 이용자의 조작에 따라 정렬된 집합들을 제공할 수 있다. 즉, 프로세서(220)는 출력장치에 정렬된 집합들을 표시하는 것일 수 있다. 이에 따라, 이용자는 복수의 문서들에서 유사한 키워드들을 파악하는데 용이할 수 있다. The
도 3은 본 발명의 실시 예에 따른 수집된 문서들에서 텍스트를 추출하는 것을 나타내는 도면이다.3 is a diagram illustrating extracting text from collected documents according to an embodiment of the present invention.
도 3을 참조하면, 프로세서(220)는 웹(100)으로부터 문서를 수집할 수 있다. 프로세서(220)는 뉴스, 학술, R&D 과제, 특허, 정책 사이트에 개시되는 문서들을 수집할 수 있다. 예컨대, 프로세서(220)는 특허 사이트에서 제1문서를 수집하고, 뉴스 사이트에서 제2문서를 수집하고, 정책 사이트에서 제3문서를 수집할 수 있다. 여기서, 각각의 사이트로부터 수집되는 제1문서, 제2문서 및 제3문서는 공항 및 항공 기술에 관련된 문서일 수 있다.Referring to FIG. 3 , the
또한, 프로세서(220)는 각각의 사이트로부터 수집되는 문서들 중 공항 및 항공 기술에 대한 문서들을 필터링할 수 있고, 공항 및 항공 기술에 대한 문서들로 필터링된 결과가 제1문서, 제2문서 및 제3문서일 수 있다. 예컨대, 프로세서(220)는 사이트의 주소, 사이트의 명칭, 문서의 명칭, 문서의 내용, 문서의 저자, 사이트의 호스트 각각과 공항 및 항공 기술에 관련된 단어들 사이의 유사도를 이용하여 수집되는 문서들 중 공항 및 항공 기술에 대한 문서들을 필터링할 수 있다.In addition, the
프로세서(220)는 텍스트 마이닝을 통해 각각의 문서들로부터 텍스트를 추출할 수 있다. 즉, 프로세서(220)는 제1문서에서 텍스트를 추출하고, 제2문서에서 텍스트를 추출하고, 제3문서에서 텍스트를 추출할 수 있다.The
도 4는 본 발명의 실시 예에 따른 추출된 텍스트에서 형태소를 분석하고, 명사를 추출하는 것을 나타내는 도면이다.4 is a diagram illustrating analysis of morphemes and extraction of nouns from the extracted text according to an embodiment of the present invention.
도 4를 참조하면, 프로세서(220)는 각각의 문서들에서 추출된 텍스트를 메모리(210)에 저장된 형태소 사전과 비교할 수 있다. 프로세서(220)는 형태소 사전에 저장된 복수의 형태소들과 텍스트들을 비교할 수 있다. 프로세서(220)는 텍스트들 중 형태소 사전에 저장된 형태소들과 동일한 텍스트를 형태소로써 식별할 수 있다. 여기서, 형태소 사전에 저장된 형태소들은 공항 및 항공 기술과 관련된 형태소들일 수 있고, 이에 따라, 프로세서(220)는 각각의 문서들로부터 공항 및 항공 기술에 관련된 형태소들을 식별할 수 있다. 즉, 프로세서(220)는 문서들에서 추출된 텍스트들을 형태소 사전에 저장된 형태소들과 비교하여 문서들에서 형태소를 식별할 수 있다. 이때, 형태소 사전에 저장된 형태소가 공항 및 항공에 관련된 형태소이므로, 문서들에서 식별되는 형태소 또한 공항 및 항공에 관련된 형태소일 수 있다.Referring to FIG. 4 , the
프로세서(220)는 식별된 형태소들 중 불용어를 삭제하고, 식별된 형태소들 중 동의어를 하나의 형태소로 변환하여 명사를 추출할 수 있다. 여기서, 불용어는 용어로 사용하지 않는 단어, 관사, 전치사, 조사, 접속사 등을 포함할 수 있다. 즉, 프로세서(220)에 의해 식별된 형태소에서 관사, 전치사, 조사, 접속사 등이 삭제됨으로써 명사 형태의 형태소만이 남을 수 있다. 이에 따라, 프로세서(220)는 식별된 형태소들 중 명사를 추출할 수 있다. 또한, 프로세서(220)는 동의어를 하나의 형태소로 변환하여 동의어를 통일시킬 수 있다. 예컨대, 가족 및 식구라는 키워드가 문서들에 모두 존재할 수 있고, 가족 및 식구는 동일한 의미로 쓰이는 동의어일 수 있다. 이때, 프로세서(220)에 의해 가족 및 식구의 키워드는 가족 또는 식구 중 하나의 키워드로 통일될 수 있다. 한편, 프로세서(220)에 의해 동의어가 하나의 키워드로 통일되지 않는 경우 각각의 키워드는 별도의 키워드로 분석될 수 있다. 이런 경우, 키워드의 분석이 정확하지 않을 수 있다. 예컨대, 가족 및 식구 키워드를 가족으로 변환하여 분석하는 경우 가족 키워드와 식구 키워드가 모두 합쳐진 개수로 분석될 수 있다. 한편, 가족 및 식구 키워드를 각각 별도의 키워드로 분석하는 경우 각각의 개수로 분석될 수 있다. 이런 경우, 동의어를 변환하여 분석하는 경우에는 가장 개수가 많은 키워드일 수 있으나, 별도로 분석하는 경우에는 두개의 키워드 모두 가장 개수가 많은 키워드가 아닐 수 있다. 이에 따라, 프로세서(220)는 동의어를 하나의 키워드로 통일시킴으로써 분석의 결과가 더 정확하도록 할 수 있다. The
이때, 프로세서(220)는 기 설정되어 있는 키워드에 따라 동의어를 하나의 키워드로 변환할 수 있다. 예컨대, 프로세서(220)에는 식구 및 가족의 동의어에 대해 가족으로 통일하라는 것으로 기 설정되어 있을 수 있고, 이에 따라 프로세서(220)는 식구 키워드를 모두 가족 키워드로 변환할 수 있다.In this case, the
또한, 프로세서(220)는 동의어에 대해 개수가 더 많은 키워드로 통일하여 동의어를 변환할 수도 있다.Also, the
도 5는 본 발명의 실시 예에 따른 문서 단어 행렬을 나타내는 도면이다.5 is a diagram illustrating a document word matrix according to an embodiment of the present invention.
도 5를 참조하면, (a)는 제1형태의 문서 단어 행렬을 나타내고, (b)는 제2형태의 문서 단어 행렬을 나타낼 수 있다.Referring to FIG. 5 , (a) may indicate a document word matrix of a first type, and (b) may indicate a document word matrix of a second type.
프로세서(220)는 추출된 명사들을 이용하여 문서 단어 행렬을 생성할 수 있다. 문서 단어 행렬은 복수의 문서들에서 개시되는 각 명사들의 개수를 행렬로 표현한 것일 수 있다. 즉, 프로세서(220)는 추출된 명사들 각각이 수집된 문서들 각각에 개시되는 개수를 기초로 문서 단어 행렬을 생성할 수 있다.The
제1형태의 문서 단어 행렬의 행은 추출된 명사들 각각이 특정 문서에 개시되는 개수이고, 열은 추출된 명사들 중 특정 명사가 문서들 각각에 개시되는 개수일 수 있다. 즉, 제1형태의 문서 단어 행렬의 행의 개수는 추출된 명사들의 개수이고, 열의 개수는 수집된 문서들의 개수일 수 있다. The row of the document word matrix of the first form may be the number of extracted nouns each appearing in a specific document, and the column may be the number of extracted nouns starting in each of the documents. That is, the number of rows of the document word matrix of the first form may be the number of extracted nouns, and the number of columns may be the number of collected documents.
제2형태의 문서 단어 행렬의 행은 추출된 명사들 중 특정 명사가 문서들 각각에 개시되는 개수이고, 열은 추출된 명사들 각각이 특정 문서에 개시되는 개수일 수 있다. 즉, 제2형태의 문서 단어 행렬의 행의 개수는 수집된 문서들의 개수이고, 열의 개수는 추출된 명사들의 개수일 수 있다.The row of the document word matrix of the second form may be the number of extracted nouns in which a specific noun is disclosed in each document, and the column may be the number of each of the extracted nouns appearing in the specific document. That is, the number of rows of the document word matrix of the second form may be the number of collected documents, and the number of columns may be the number of extracted nouns.
도 6은 본 발명의 실시 예에 따른 키워드 맵을 나타내는 도면이다.6 is a diagram illustrating a keyword map according to an embodiment of the present invention.
도 6을 참조하면, 프로세서(220)는 문서 단어 행렬의 각 원소에 해당하는 키워드들간의 거리를 계산하고, 계산된 거리를 기초로 키워드 맵을 생성할 수 있다. Referring to FIG. 6 , the
프로세서(220)는 키워드들간의 거리를 계산하여 특정 키워드와의 거리가 일정 거리 내인 키워드들을 계층별로 구분하고, 계층별 키워드들을 연결하여 키워드 맵을 생성할 수 있다. 즉, 키워드들간의 거리를 계산한 결과, 특정 키워드에 대해 N만큼의 거리 차이를 가지는 키워드들을 동일한 계층으로 분류할 수 있다. 예컨대, 키워드1와 N만큼의 거리 차이를 가지는 키워드들은 키워드2 및 키워드4일 수 있다. 프로세서(220)는 키워드2 및 키워드4를 동일한 계층으로 분류할 수 있다. The
또한, 프로세서(220)는 특정 키워드에 대해 M만큼의 거리 차이를 가지는 키워드들을 동일한 계층으로 분류할 수 있다. 예컨대, 키워드1과 M만큼의 거리 차이를 가지는 키워드는 키워드3일 수 있다.Also, the
또한, 프로세서(220)는 특정 키워드에 대해 K만큼의 거리 차이를 가지는 키워드들을 동일한 계층으로 분류할 수 있다. 예컨대, 키워드1과 K만큼의 거리 차이를 가지는 키워드는 키워드5일 수 있다.Also, the
프로세서(220)는 특정 키워드와의 거리에 따른 계층별로 연결하여 키워드 트리를 생성할 수 있다. The
또한, 프로세서(220)는 키워드들간의 거리를 계산하여 특정 키워드와의 거리가 일정 거리 내인 키워드들을 특정 키워드와 연결하고, 일정 거리 내의 키워드들 각각과의 거리가 일정 거리 내인 키워드들을 일정 거리 내의 키워드들과 연결할 수 있다. 즉, 프로세서(220)는 특정 키워드에 대해 거리가 가까운 키워드들을 특정 키워드와 연결하고, 특정 키워드와 연결되는 키워드들 각각에 대해 거리가 가까운 키워드들을 연결하여 키워드 맵을 생성할 수 있다. 예컨대, 키워드들간의 거리를 계산한 결과, 프로세서(220)는 특정 키워드인 키워드1에 대해 N 이내의 거리 차이를 가지는 키워드인 키워드2 및 키워드4를 키워드1과 연결할 수 있다. 또한, 프로세서(220)는 키워드2 및 키워드 4와 M 이내의 거리 차이를 가지는 키워드인 키워드3을 키워드2 및 키워드4와 연결할 수 있다. 또한, 프로세서(220)는 키워드3과 K 이내의 거리 차이를 가지는 키워드인 키워드5를 연결할 수 있다.In addition, the
여기서, 키워드2 및 키워드4에서 M 이내의 거리 차이를 가지는 키워드를 키워드3 하나로 정의하였으나, 이에 한정되지 않고, 복수개의 키워드에 연결될 수 있다. 또한, 키워드2 및 키워드4에 M 이내의 거리 차이를 가지는 키워드는 상이할 수 있고, M 이내의 거리 차이를 가지는 키워드들 각각은 키워드2 또는 키워드4중 적어도 하나의 키워드에 연결될 수 있다.Here, the keywords having a distance difference within M from the
프로세서(220)는 출력장치에 키워드 맵을 표시할 수 있다. 이에 따라, 이용자는 복수의 문서들에서 연관된 키워드들을 파악하는데 용이할 수 있다.The
도 7은 본 발명의 실시 예에 따른 키워드들을 정렬하는 것을 나타내는 도면이다.7 is a diagram illustrating sorting of keywords according to an embodiment of the present invention.
도 7을 참조하면, (a)는 행이 추출된 명사들 각각이 특정 문서에 개시되는 개수이고, 열이 추출된 명사들 중 특정 명사가 문서들 각각에 개시되는 개수인 제1형태의 문서 단어 행렬인 경우를 나타내고, (b)는 행이 추출된 명사들 중 특정 명사가 문서들 각각에 개시되는 개수이고, 열이 추출된 명사들 각각이 특정 문서에 개시되는 개수인 제2형태의 문서 단어 행렬인 경우를 나타낼 수 있다. Referring to FIG. 7 , (a) is the number of nouns from which rows are extracted each is disclosed in a specific document, and the number of specific nouns among nouns from which columns are extracted is the number of nouns that are disclosed in each document in the first form In the case of a matrix, (b) is the number of nouns from which a specific noun is disclosed in each document among the nouns from which the row is extracted, and the column is the number of each of the nouns from which the row is extracted is disclosed in a specific document. It can represent the case of a matrix.
프로세서(220)는 문서 단어 행렬에서 개수가 가장 많은 키워드부터 개수가 가장 적은 키워드의 순서로 순차적으로 정렬할 수 있다. 프로세서(220)는 문서 단어 행렬의 형태를 유지한 채로, 행 또는 열의 순서만을 변경하여 정렬할 수 있다. 예컨대, 제1형태의 문서 단어 행렬인 경우, 명사들 각각이 문서들에 개시되는 개수는 행에 기재될 수 있다. 각 키워드들이 문서들에 개시되는 개수는 키워드1은 8이고, 키워드2는 9이고, 키워드3은 15이고, 키워드4는 10이고, 키워드5는 2일 수 있다. 이에 따라, 키워드의 개수가 많은 순서로 키워드들을 정렬하면 키워드3-키워드4-키워드2-키워드1-키워드5의 순서일 수 있다. 이에 따라, 프로세서(220)는 키워드들이 문서들에 개시되는 개수가 기재되는 행의 순서를 변환할 수 있다. 이에 따라, 프로세서(220)는 개수가 가장 많은 키워드부터 개수가 가장 적은 키워드의 순서로 키워드들을 정렬할 수 있다.The
또한, 제2형태의 문서 단어 행렬인 경우, 명사들 각각이 문서들에 개시되는 개수는 열에 기재될 수 있다. 각 키워드들이 문서들에 개시되는 개수는 키워드1은 8이고, 키워드2는 9이고, 키워드3은 15이고, 키워드4는 10이고, 키워드5는 2일 수 있다. 이에 따라, 키워드의 개수가 많은 순서로 키워드들을 정렬하면 키워드3-키워드4-키워드2-키워드1-키워드5의 순서일 수 있다. 이에 따라, 프로세서(220)는 키워드들이 문서들에 개시되는 개수가 기재되는 열의 순서를 변환할 수 있다. 이에 따라, 프로세서(220)는 개수가 가장 많은 키워드부터 개수가 가장 적은 키워드의 순서로 키워드들을 정렬할 수 있다.In addition, in the case of the document word matrix of the second type, the number of each noun that appears in the documents may be described in a column. The number of each keyword disclosed in the documents may be 8 for
여기서, 프로세서(220)는 문서들의 비중에 따라 키워드들이 문서들에 포함되는 개수에 따른 비중을 각각 계산할 수 있고, 계산된 비중에 따라 개수가 가장 많은 키워드부터 개수가 가장 적은 키워드의 순서로 키워드들을 정렬할 수도 있다.Here, the
프로세서(220)는 출력장치에 정렬된 키워드들을 표시할 수 있다. 이에 따라, 이용자는 복수의 문서들에서 주요 키워드들을 파악하는데 용이할 수 있다.The
도 8은 본 발명의 실시 예에 따른 집합들을 정렬하는 것을 나타내는 도면이다.8 is a diagram illustrating sorting of sets according to an embodiment of the present invention.
도 8을 참조하면, 프로세서(220)는 문서 단어 행렬의 각 원소에 해당하는 키워드들을 유사한 키워드별로 집합을 구성하고, 구성된 집합들간의 거리를 계산하여 거리에 따라 구성된 집합들을 정렬할 수 있다. 여기서, 각 원의 크기는 분류된 키워드의 개수에 따라 상이할 수 있고, 각 원들간의 거리는 키워드들간의 거리를 나타낼 수 있다. Referring to FIG. 8 , the
프로세서(220)는 출력장치에 정렬된 집합들을 표시할 수 있다. 이에 따라, 이용자는 복수의 문서들에서 유사한 키워드들을 파악하는데 용이할 수 있다. The
도 9는 본 발명의 실시 예에 따른 공항 및 항공 기술의 트렌드 분석 방법을 나타내는 도면이다.9 is a diagram illustrating a method for analyzing trends in airport and aviation technology according to an embodiment of the present invention.
도 9를 참조하면, 프로세서(220)는 웹(100)으로부터 공항 및 항공 기술에 관련된 문서들을 수집할 수 있다(S100). 프로세서(220)는 뉴스, 학술, R&D 과제, 특허 및 정책 사이트로부터 문서들을 수집할 수 있다. 프로세서(220)가 웹(100)으부터 수집하는 문서들은 공항 및 항공 기술에 관련된 문서들일 수 있다. 또한, 프로세서(220)는 웹(100)으로부터 수집된 문서들 중 공항 및 항공 기술에 대한 문서들을 필터링하고, 필터링된 공항 및 항공 기술에 대한 문서들을 저장할 수 있다.Referring to FIG. 9 , the
프로세서(220)는 웹(100)으로부터 수집된 문서들에서 텍스트를 추출하고, 추출된 텍스트에서 형태소를 식별할 수 있다(S200). 프로세서(220)는 텍스트 마이닝을 통해 수집된 문서들에서 텍스트를 추출할 수 있다. 프로세서(220)는 추출된 텍스트와 형태소 사전에 저장된 형태소들을 각각 비교하여 추출된 텍스트에서 형태소를 식별할 수 있다. 프로세서(220)는 추출된 각각의 텍스트에서 형태소 사전에 저장된 형태소와 동일한 텍스트를 형태소로써 식별할 수 있다. The
프로세서(220)는 식별된 형태소들 중 불용어를 삭제하고, 식별된 형태소들 중 동의어를 하나의 형태소로 변환하여 명사를 추출할 수 있다(S300). 여기서, 불용어는 용어로 사용하지 않는 단어, 관사, 전치사, 조사, 접속사 등을 포함할 수 있다. 즉, 프로세서(220)에 의해 식별된 형태소에서 관사, 전치사, 조사, 접속사 등이 삭제됨으로써 명사 형태의 형태소만이 남을 수 있다. 이에 따라, 프로세서(220)는 식별된 형태소들 중 명사를 추출할 수 있다. 또한, 프로세서(220)는 동의어를 하나의 형태소로 변환하여 동의어를 통일시킬 수 있다. The
프로세서(220)는 추출된 명사들을 이용하여 문서 단어 행렬을 생성할 수 있다(S400). 문서 단어 행렬은 복수의 문서들에서 개시되는 각 명사들의 개수를 행렬로 표현한 것일 수 있다. 즉, 프로세서(220)는 추출된 명사들 각각이 수집된 문서들 각각에 개시되는 개수를 기초로 문서 단어 행렬을 생성할 수 있다.The
문서 단어 행렬은 제1형태 및 제2형태 중 적어도 하나의 형태로 생성될 수 있다. 제1형태의 문서 단어 행렬은 행이 추출된 명사들 각각이 특정 문서에 개시되는 개수이고, 열이 추출된 명사들 중 특정 명사가 문서들 각각에 개시되는 개수일 수 있다. 또한, 제1형태의 문서 단어 행렬은 행의 개수가 추출된 명사들의 개수이고, 열의 개수가 수집된 문서들의 개수일 수 있다.The document word matrix may be generated in at least one of the first form and the second form. In the document word matrix of the first form, each of nouns from which rows are extracted may be the number of occurrences in a specific document, and among the nouns from which columns are extracted, the number of specific nouns may be disclosed in each of the documents. Also, in the document word matrix of the first form, the number of rows may be the number of extracted nouns, and the number of columns may be the number of documents collected.
또한, 제2형태의 문서 단어 행렬은 행이 추출된 명사들 중 특정 명사가 문서들 각각에 개시되는 개수이고, 열이 추출된 명사들 각각이 특정 문서에 개시되는 개수일 수 있다. 또한, 제2형태의 문서 단어 행렬은 행의 개수가 수집된 문서들의 개수이고, 열의 개수가 추출된 명사들의 개수일 수 있다.In addition, the document word matrix of the second form may be the number of nouns from which rows are extracted from among the nouns that are disclosed in each document, and the number of nouns from which columns are extracted from each of the nouns that are disclosed in the specific document. Also, in the document word matrix of the second form, the number of rows may be the number of documents collected, and the number of columns may be the number of extracted nouns.
프로세서(220)는 문서 단어 행렬을 이용하여 문서 단어 행렬의 각 원소에 해당하는 키워드들간의 유사도 및 연관도, 문서들간의 유사도 및 연관도를 분석하고, 분석한 결과를 이용자에게 제공할 수 있다(S500).The
프로세서(220)는 문서 단어 행렬의 각 원소에 해당하는 키워드들간의 거리를 계산하고, 계산된 거리를 기초로 키워드 맵을 생성할 수 있다. The
프로세서(220)는 키워드들간의 거리를 계산하여 특정 키워드와의 거리가 일정 거리 내인 키워드들을 계층별로 구분하고, 계층별 키워드들을 연결하여 키워드 맵을 생성할 수 있다. The
또한, 프로세서(220)는 키워드들간의 거리를 계산하여 특정 키워드와의 거리가 일정 거리 내인 키워드들을 특정 키워드와 연결하고, 일정 거리 내의 키워드들 각각과의 거리가 일정 거리 내인 키워드들을 일정 거리 내의 키워드들과 연결할 수 있다. 즉, 프로세서(220)는 특정 키워드에 대해 거리가 가까운 키워드들을 특정 키워드와 연결하고, 특정 키워드와 연결되는 키워드들 각각에 대해 거리가 가까운 키워드들을 연결하여 키워드 맵을 생성할 수 있다. In addition, the
프로세서(220)는 생성된 키워드 맵을 출력장치에 표시하여 분석된 결과를 이용자에게 제공할 수 있다.The
또한, 프로세서(220)는 문서 단어 행렬에서 개수가 가장 많은 키워드부터 개수가 가장 적은 키워드의 순서로 순차적으로 정렬할 수 있다. 프로세서(220)는 문서 단어 행렬의 형태를 유지한 채로, 행 또는 열의 순서만을 변경하여 정렬할 수 있다. Also, the
또한, 프로세서(220)는 키워드의 개수가 많은 순서대로 키워드들을 별도로 정렬할 수 있다. 예컨대, 프로세서(220)는 (키워드1, 키워드2, 키워드3, ??)의 형태로 키워드들을 정렬할 수도 있다. Also, the
프로세서(220)는 정렬된 키워드들을 출력장치에 표시하여 분석된 결과를 이용자에게 제공할 수 있다. The
또한, 프로세서(220)는 문서 단어 행렬의 각 원소에 해당하는 키워드들을 유사한 키워드별로 집합을 구성하고, 구성된 집합들간의 거리를 계산하여 거리에 따라 구성된 집합들을 정렬할 수 있다.Also, the
프로세서(220)는 정렬된 집합들을 출력장치에 표시하여 분석된 결과를 이용자에게 제공할 수 있다. The
전술한 바와 같이, 본 발명의 실시 예에 따르면 웹 콘텐츠로부터 수집된 데이터에서 공항 및 항공 기술에 대한 데이터를 필터링하고, 필터링된 데이터에서 형태소를 분석하여 키워드를 추출하고, 추출된 키워드 간의 연관성을 분석하여 트렌드를 분석하는 공항 및 항공 기술의 트렌드 분석 장치 및 방법을 실현할 수 있다.As described above, according to an embodiment of the present invention, data on airport and aviation technology is filtered from data collected from web content, keywords are extracted by analyzing morphemes from the filtered data, and correlation between the extracted keywords is analyzed. Thus, it is possible to realize the trend analysis device and method of airport and aviation technology to analyze trends.
본 발명이 속하는 기술 분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있으므로, 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.Those skilled in the art to which the present invention pertains should understand that the present invention may be embodied in other specific forms without changing the technical spirit or essential characteristics thereof, so the embodiments described above are illustrative in all respects and not restrictive. only do The scope of the present invention is indicated by the following claims rather than the detailed description, and all changes or modifications derived from the meaning and scope of the claims and their equivalent concepts should be construed as being included in the scope of the present invention. .
100: 웹
200: 공항 및 항공 기술의 트렌드 분석 장치
210: 메모리
220: 프로세서100: web
200: Trend analysis device of airport and aviation technology
210: memory
220: processor
Claims (26)
수집된 문서들에서 텍스트를 추출하고, 추출된 텍스트에서 형태소를 식별하는 단계;
식별된 형태소들 중 명사를 추출하는 단계;
추출된 명사들을 이용하여 문서 단어 행렬을 생성하는 단계; 및
상기 문서 단어 행렬을 이용하여 상기 문서 단어 행렬의 각 원소에 해당하는 키워드들간의 유사도 및 연관도와, 각 문서들간의 유사도 및 연관도를 분석하고, 분석한 결과를 제공하는 단계를 포함하는 공항 및 항공 기술의 트렌드 분석 방법.collecting documents related to airport and aviation technology from the web;
extracting text from the collected documents and identifying morphemes from the extracted text;
extracting a noun from among the identified morphemes;
generating a document word matrix using the extracted nouns; and
airports and airlines, comprising the steps of using the document word matrix to analyze the degree of similarity and relevance between keywords corresponding to each element of the document word matrix, and the degree of similarity and relevance between each document, and providing an analysis result How to analyze trends in technology.
상기 문서들을 수집하는 단계는,
사이트의 주소, 사이트의 명칭, 문서의 명칭, 문서의 내용, 문서의 저자, 사이트의 호스트 각각과 공항 및 항공 기술에 관련된 단어들 사이의 유사도를 이용하여 공항 및 항공 기술에 관련된 문서들을 필터링하는 공항 및 항공 기술의 트렌드 분석 방법.According to claim 1,
Collecting the documents includes:
Airport to filter documents related to airport and aviation technology using the similarity between the address of the site, the name of the site, the name of the document, the content of the document, the author of the document, the host of the site, and the words related to the airport and aviation technology. and trend analysis methods in aviation technology.
상기 문서들을 수집하는 단계는,
웹에 개시되는 뉴스, 학술, R&D과제, 특허 및 정책 사이트의 HTML 태그를 분석하여 각 문서들의 대표 키워드들을 수집하는 공항 및 항공 기술의 트렌드 분석 방법.According to claim 1,
Collecting the documents includes:
A trend analysis method of airport and aviation technology that collects representative keywords of each document by analyzing HTML tags of news, academics, R&D projects, patents and policy sites published on the web.
메모리에는 공항 및 항공 기술과 관련된 형태소들이 저장된 형태소 사전이 저장되고,
상기 웹으로부터 문서들을 수집하는 단계는,
수집된 대표 키워드들을 기초로 상기 형태소 사전을 업데이트하는 공항 및 항공 기술의 트렌드 분석 방법.4. The method of claim 3,
A morpheme dictionary in which morphemes related to airport and aviation technology are stored is stored in the memory,
Collecting documents from the web includes:
A trend analysis method of airport and aviation technology for updating the morpheme dictionary based on the collected representative keywords.
상기 추출된 텍스트에서 형태소를 식별하는 단계는,
추출된 텍스트와 상기 형태소 사전에 저장된 형태소들을 비교하여 상기 추출된 텍스트에서 형태소를 식별하는 공항 및 항공 기술의 트렌드 분석 방법.5. The method of claim 4,
The step of identifying the morpheme in the extracted text includes:
A trend analysis method of airport and aviation technology for identifying morphemes in the extracted text by comparing the extracted text with the morphemes stored in the morpheme dictionary.
상기 명사를 추출하는 단계는,
식별된 형태소들 중 불용어를 삭제하고, 식별된 형태소들 중 동의어를 하나의 형태소로 변환하여 명사를 추출하는 공항 및 항공 기술의 트렌드 분석 방법. According to claim 1,
The step of extracting the noun is
A trend analysis method of airport and aviation technology that deletes stopwords among identified morphemes and extracts nouns by converting synonyms among identified morphemes into one morpheme.
상기 문서 단어 행렬을 생성하는 단계는,
추출된 명사들 각각이 문서들 각각에 개시되는 개수를 행렬로 변환하여 상기 문서 단어 행렬을 생성하는 공항 및 항공 기술의 트렌드 분석 방법.According to claim 1,
The step of generating the document word matrix comprises:
A trend analysis method of airport and aviation technology for generating the document word matrix by converting the number of extracted nouns respectively disclosed in each document into a matrix.
상기 문서 단어 행렬을 생성하는 단계는,
상기 문서 단어 행렬은 제1형태 또는 제2형태 중 적어도 하나의 형태로 생성되고,
상기 제1형태는 행이 추출된 명사들 각각이 특정 문서에 포함되는 개수이고, 열이 추출된 명사들 중 특정 명사가 문서들 각각에 포함되는 개수이고,
상기 제2형태는 열이 추출된 명사들 각각이 특정 문서에 포함되는 개수이고, 행이 추출된 명사들 중 특정 명사가 문서들 각각에 포함되는 개수인 공항 및 항공 기술의 트렌드 분석 방법.According to claim 1,
The step of generating the document word matrix comprises:
The document word matrix is generated in at least one of a first form and a second form,
In the first form, each of the nouns from which the row is extracted is the number included in a specific document, and the specific noun among the nouns from which the column is extracted is the number included in each of the documents,
The second form is the number of nouns from which columns are extracted each included in a specific document, and the number of specific nouns among nouns from which rows are extracted are included in each of the documents. A method for analyzing trends in airport and aviation technology.
상기 문서 단어 행렬을 생성하는 단계는,
상기 문서 단어 행렬은 제1형태 또는 제2형태 중 적어도 하나의 형태로 생성되고,
상기 제1형태는 행의 개수가 추출된 명사들의 개수이고, 열의 개수가 수집된 문서들의 개수이고,
상기 제2형태는 행의 개수가 수집된 문서들의 개수이고, 열의 개수가 추출된 명사들의 개수인 공항 및 항공 기술의 트렌드 분석 방법.According to claim 1,
The step of generating the document word matrix comprises:
The document word matrix is generated in at least one of a first form and a second form,
In the first form, the number of rows is the number of extracted nouns, the number of columns is the number of documents collected,
In the second form, the number of rows is the number of documents collected, and the number of columns is the number of extracted nouns. A method for analyzing trends in airport and aviation technology.
상기 분석한 결과를 제공하는 단계는,
상기 문서 단어 행렬의 각 원소에 해당하는 키워드들간의 거리를 계산하여 계산된 거리를 기초로 키워드 맵을 생성하고, 생성된 키워드 맵을 제공하는 공항 및 항공 기술의 트렌드 분석 방법.According to claim 1,
The step of providing the analysis result is,
An airport and aviation technology trend analysis method for calculating a distance between keywords corresponding to each element of the document word matrix, generating a keyword map based on the calculated distance, and providing the generated keyword map.
상기 분석한 결과를 제공하는 단계는,
특정 키워드와의 거리가 일정 거리 내인 키워드들을 계층별로 구분하고, 계층별 키워드들을 연결하여 키워드 맵을 생성하는 공항 및 항공 기술의 트렌드 분석 방법.11. The method of claim 10,
The step of providing the analysis result is,
A trend analysis method of airport and aviation technology that classifies keywords that are within a certain distance from a specific keyword by layer, and creates a keyword map by connecting keywords for each layer.
상기 분석한 결과를 제공하는 단계는,
상기 문서 단어 행렬의 각 원소에 해당하는 키워드들을 개수가 가장 많은 키워드부터 개수가 가장 적은 키워드의 순서로 순차적으로 정렬하고, 정렬된 키워드를 제공하는 공항 및 항공 기술의 트렌드 분석 방법.According to claim 1,
The step of providing the analysis result is,
A trend analysis method in airport and aviation technology for sequentially arranging keywords corresponding to each element of the document word matrix in the order from the keyword with the largest number to the keyword with the smallest number, and providing the sorted keywords.
상기 분석한 결과를 제공하는 단계는,
상기 문서 단어 행렬의 각 원소에 해당하는 키워드들을 유사한 키워드별로 집합을 구성하고, 구성된 집합들간의 거리를 계산하여 거리에 따라 집합들을 정렬하고, 정렬된 집합들을 제공하는 공항 및 항공 기술의 트렌드 분석 방법.According to claim 1,
The step of providing the analysis result is,
A method for analyzing trends in airport and aviation technology that configures a set of keywords corresponding to each element of the document word matrix for each similar keyword, calculates the distance between the configured sets, sorts sets according to the distance, and provides the sorted sets .
수집된 문서들에서 텍스트를 추출하고, 추출된 텍스트에서 형태소를 식별하고, 식별된 형태소들 중 명사를 추출하고, 추출된 명사들을 이용하여 문서 단어 행렬을 생성하고, 상기 문서 단어 행렬을 이용하여 상기 문서 단어 행렬의 각 원소에 해당하는 키워드들간의 유사도 및 연관도와, 각 문서들간의 유사도 및 연관도를 분석하고, 분석한 결과를 제공하는 프로세서를 포함하는 공항 및 항공 기술의 트렌드 분석 장치.a memory for storing documents collected from the web related to airport and aviation technology; and
Extracting text from the collected documents, identifying morphemes from the extracted text, extracting nouns from among the identified morphemes, generating a document word matrix using the extracted nouns, and using the document word matrix A trend analysis apparatus for airport and aviation technology, comprising: a processor for analyzing the degree of similarity and relevance between keywords corresponding to each element of the document word matrix, and the degree of similarity and relevance between each document; and providing an analysis result.
상기 프로세서는 사이트의 주소, 사이트의 명칭, 문서의 명칭, 문서의 내용, 문서의 저자, 사이트의 호스트 각각과 공항 및 항공 기술에 관련된 단어들 사이의 유사도를 이용하여 공항 및 항공 기술에 관련된 문서들을 필터링하는 공항 및 항공 기술의 트렌드 분석 장치.15. The method of claim 14,
The processor uses the address of the site, the name of the site, the name of the document, the content of the document, the author of the document, and the similarity between each host of the site and the words related to airport and aviation technology to generate documents related to airport and aviation technology. Filtering airport and aviation technology trend analysis device.
상기 메모리는 웹에 개시되는 뉴스, 학술, R&D과제, 특허 및 정책 사이트의 HTML 태그를 분석하여 수집되는 각 문서들의 대표 키워드들을 저장하는 공항 및 항공 기술의 트렌드 분석 장치.15. The method of claim 14,
The memory is an airport and aviation technology trend analysis device for storing representative keywords of each document collected by analyzing HTML tags of news, academic, R&D projects, patents and policy sites disclosed on the web.
상기 메모리에는 공항 및 항공 기술과 관련된 형태소들이 저장된 형태소 사전이 저장되고,
수집된 대표 키워드들을 기초로 상기 형태소 사전이 업데이트되는 공항 및 항공 기술의 트렌드 분석 장치.17. The method of claim 16,
A morpheme dictionary in which morphemes related to airport and aviation technology are stored is stored in the memory;
An airport and aviation technology trend analysis device in which the morpheme dictionary is updated based on the collected representative keywords.
상기 프로세서는 추출된 텍스트와 상기 형태소 사전에 저장된 형태소들을 비교하여 상기 추출된 텍스트에서 형태소를 식별하는 공항 및 항공 기술의 트렌드 분석 장치.18. The method of claim 17,
The processor compares the extracted text with the morphemes stored in the morpheme dictionary to identify the morpheme from the extracted text.
상기 프로세서는 식별된 형태소들 중 불용어를 삭제하고, 식별된 형태소들 중 동의어를 하나의 형태소로 변환하여 명사를 추출하는 공항 및 항공 기술의 트렌드 분석 장치.15. The method of claim 14,
The processor deletes stopwords among the identified morphemes, and converts synonyms among the identified morphemes into one morpheme to extract nouns.
상기 프로세서는 추출된 명사들 각각이 문서들 각각에 개시되는 개수를 행렬로 변환하여 상기 문서 단어 행렬을 생성하는 공항 및 항공 기술의 분석 장치.15. The method of claim 14,
The processor converts the number of each extracted nouns disclosed in each document into a matrix to generate the document word matrix.
상기 문서 단어 행렬은 제1형태 또는 제2형태 중 적어도 하나의 형태로 생성되고,
상기 제1형태는 행이 추출된 명사들 각각이 특정 문서에 포함되는 개수이고, 열이 추출된 명사들 중 특정 명사가 문서들 각각에 포함되는 개수이고,
상기 제2형태는 열이 추출된 명사들 각각이 특정 문서에 포함되는 개수이고, 행이 추출된 명사들 중 특정 명사가 문서들 각각에 포함되는 개수인 공항 및 항공 기술의 트렌드 분석 장치.15. The method of claim 14,
The document word matrix is generated in at least one of a first form and a second form,
In the first form, each of the nouns from which the row is extracted is the number included in a specific document, and the specific noun among the nouns from which the column is extracted is the number included in each of the documents,
In the second form, each of the nouns from which the column is extracted is the number included in a specific document, and the number of specific nouns among the nouns from which the row is extracted is included in each of the documents.
상기 문서 단어 행렬은 제1형태 또는 제2형태 중 적어도 하나의 형태로 생성되고,
상기 제1형태는 행의 개수가 추출된 명사들의 개수이고, 열의 개수가 수집된 문서들의 개수이고,
상기 제2형태는 행의 개수가 수집된 문서들의 개수이고, 열의 개수가 추출된 명사들의 개수인 공항 및 항공 기술의 트렌드 분석 장치.15. The method of claim 14,
The document word matrix is generated in at least one of a first form and a second form,
In the first form, the number of rows is the number of extracted nouns, the number of columns is the number of documents collected,
In the second form, the number of rows is the number of collected documents, and the number of columns is the number of extracted nouns. An apparatus for analyzing trends in airport and aviation technology.
상기 프로세서는 상기 문서 단어 행렬의 각 원소에 해당하는 키워드들간의 거리를 계산하여 계산된 거리를 기초로 키워드 맵을 생성하고, 생성된 키워드 맵을 제공하는 공항 및 항공 기술의 트렌드 분석 장치.15. The method of claim 14,
The processor calculates a distance between keywords corresponding to each element of the document word matrix, generates a keyword map based on the calculated distance, and provides the generated keyword map.
상기 프로세서는 특정 키워드와의 거리가 일정 거리 내인 키워드들을 계층별로 구분하고, 계층별 키워드들을 연결하여 키워드 맵을 생성하는 공항 및 항공 기술의 트렌드 분석 장치.24. The method of claim 23,
The processor classifies keywords that are within a certain distance from a specific keyword by layer, and connects the keywords for each layer to generate a keyword map.
상기 프로세서는 상기 문서 단어 행렬의 각 원소에 해당하는 키워드들을 개수가 가장 많은 키워드부터 개수가 가장 적은 키워드의 순서로 순차적으로 정렬하고, 정렬된 키워드를 제공하는 공항 및 항공 기술의 트렌드 분석 장치.15. The method of claim 14,
The processor sequentially sorts the keywords corresponding to each element of the document word matrix in order from the keyword with the largest number to the keyword with the smallest number, and provides the sorted keywords.
상기 프로세서는 상기 문서 단어 행렬의 각 원소에 해당하는 키워드들을 유사한 키워드별로 집합을 구성하고, 구성된 집합들간의 거리를 계산하여 거리에 따라 집합들을 정렬하고, 정렬된 집합들을 제공하는 공항 및 항공 기술의 트렌드 분석 장치.15. The method of claim 14,
The processor configures a set of keywords corresponding to each element of the document word matrix for similar keywords, calculates the distance between the configured sets, sorts sets according to the distance, and provides sorted sets of airport and aviation technology. trend analysis device.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190179921 | 2019-12-31 | ||
KR20190179921 | 2019-12-31 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210086402A true KR20210086402A (en) | 2021-07-08 |
KR102371224B1 KR102371224B1 (en) | 2022-03-07 |
Family
ID=76894474
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200043886A KR102371224B1 (en) | 2019-12-31 | 2020-04-10 | Apparatus and methods for trend analysis in airport and aviation technology |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102371224B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11907278B2 (en) | 2021-10-21 | 2024-02-20 | Samsung Electronics Co., Ltd. | Method and apparatus for deriving keywords based on technical document database |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003108569A (en) * | 2001-09-27 | 2003-04-11 | Seiko Epson Corp | Classifying processing unit, control method of classifying processing unit, control program and recording medium |
KR20110059185A (en) * | 2009-11-27 | 2011-06-02 | 한국 한의학 연구원 | Method for creating contour map for research trend analysis |
KR20150050943A (en) * | 2013-11-01 | 2015-05-11 | 황성봉 | Extraction and Estimation Method of Trend Information with the Analasis of Vocabularies |
KR20170045403A (en) * | 2015-10-01 | 2017-04-27 | 한국외국어대학교 연구산학협력단 | A knowledge management system of searching documents on categories by using weights |
KR20180059112A (en) * | 2016-11-25 | 2018-06-04 | 한국전자통신연구원 | Apparatus for classifying contents and method for using the same |
-
2020
- 2020-04-10 KR KR1020200043886A patent/KR102371224B1/en active IP Right Grant
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003108569A (en) * | 2001-09-27 | 2003-04-11 | Seiko Epson Corp | Classifying processing unit, control method of classifying processing unit, control program and recording medium |
KR20110059185A (en) * | 2009-11-27 | 2011-06-02 | 한국 한의학 연구원 | Method for creating contour map for research trend analysis |
KR20150050943A (en) * | 2013-11-01 | 2015-05-11 | 황성봉 | Extraction and Estimation Method of Trend Information with the Analasis of Vocabularies |
KR20170045403A (en) * | 2015-10-01 | 2017-04-27 | 한국외국어대학교 연구산학협력단 | A knowledge management system of searching documents on categories by using weights |
KR20180059112A (en) * | 2016-11-25 | 2018-06-04 | 한국전자통신연구원 | Apparatus for classifying contents and method for using the same |
Non-Patent Citations (1)
Title |
---|
김현정 외 2명, "항공산업 미래유망분야 선정을 위한 텍스트 마이닝 기반의 트렌드 분석", 한국지능정보시스템 학회 지능정보연구 제21권 제1호,2015.03.31., pp65-82. 1부.* * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11907278B2 (en) | 2021-10-21 | 2024-02-20 | Samsung Electronics Co., Ltd. | Method and apparatus for deriving keywords based on technical document database |
Also Published As
Publication number | Publication date |
---|---|
KR102371224B1 (en) | 2022-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Inzalkar et al. | A survey on text mining-techniques and application | |
JP5746286B2 (en) | High-performance data metatagging and data indexing method and system using a coprocessor | |
US8639708B2 (en) | Fact-based indexing for natural language search | |
JP3266246B2 (en) | Natural language analysis apparatus and method, and knowledge base construction method for natural language analysis | |
US20110295857A1 (en) | System and method for aligning and indexing multilingual documents | |
US9996742B2 (en) | System and method for global identification in a collection of documents | |
JP2003288362A (en) | Specified element vector generating device, character string vector generating device, similarity calculation device, specified element vector generating program, character string vector generating program, similarity calculation program, specified element vector generating method, character string vector generating method, and similarity calculation method | |
CN115186050B (en) | Method, system and related equipment for recommending selected questions based on natural language processing | |
CN105760462A (en) | Man-machine interaction method and device based on associated data query | |
JP4979637B2 (en) | Compound word break estimation device, method, and program for estimating compound word break position | |
Jeon et al. | Making a graph database from unstructured text | |
KR102371224B1 (en) | Apparatus and methods for trend analysis in airport and aviation technology | |
Korayem et al. | Query sense disambiguation leveraging large scale user behavioral data | |
Shaikh et al. | Bringing shape to textual data-a feasible demonstration | |
KR101088483B1 (en) | Method and apparatus for mapping the heterogeneous classification systems | |
JP7167996B2 (en) | Case search method | |
Mukherjee et al. | Automatic extraction of significant terms from the title and abstract of scientific papers using the machine learning algorithm: A multiple module approach | |
Stefanov et al. | An introduction to contemporary search technology | |
Alperin et al. | Terminology spectrum analysis of natural-language chemical documents: term-like phrases retrieval routine | |
El Idrissi et al. | HCHIRSIMEX: An extended method for domain ontology learning based on conditional mutual information | |
JP2000105769A (en) | Document display method | |
Kaladevi et al. | Development of Background Ontology for Weather Systems through Ontology Learning | |
Al-Khatib et al. | Tashaphyne0. 4: a new arabic light stemmer based on rhyzome modeling approach | |
TWI813028B (en) | Method and system of screening for text data relevance | |
KR20180137394A (en) | A device for extracting and managing terms from a document and a method for extracting and managing terms using the same |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |