KR20210084126A - Apparatus and method for automatically extracting issue words and analyzing the network between the issue words - Google Patents
Apparatus and method for automatically extracting issue words and analyzing the network between the issue words Download PDFInfo
- Publication number
- KR20210084126A KR20210084126A KR1020190177119A KR20190177119A KR20210084126A KR 20210084126 A KR20210084126 A KR 20210084126A KR 1020190177119 A KR1020190177119 A KR 1020190177119A KR 20190177119 A KR20190177119 A KR 20190177119A KR 20210084126 A KR20210084126 A KR 20210084126A
- Authority
- KR
- South Korea
- Prior art keywords
- issue
- network
- words
- name
- entity
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/904—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Abstract
Description
본 발명은 이슈어 자동 추출 및 연결망 분석을 위한 장치 및 방법에 관한 것으로, 보다 구체적으로 메일, 결재, 게시글 등의 다양한 문서들로부터 이슈어를 자동으로 추출하고 이를 기초로 이슈어 간의 연결망을 분석하는 장치 및 방법에 관한 것이다. The present invention relates to an apparatus and method for automatic issue word extraction and network analysis, and more specifically, to automatically extract issue words from various documents such as mail, payment, and post, and analyze the network between issue words based on this. It relates to an apparatus and method.
컴퓨팅 기술 및 통신 기술의 발전에 따라 기업들은 기업 종업원들을 위한 온라인 시스템을 구축하여 활용하고 있다. 이러한 온라인 시스템은 온라인 결재 서비스, 게시글 서비스, 메신저 서비스 등의 다양한 서비스를 제공한다. 최근에는 프로젝트 개발 등의 협업 서비스도 제공되고 있다. 그러나 종래의 협업 서비스는 각자가 맡은 업무에 대한 결과물을 공유하고 문서를 공동으로 편집하는 등의 제한된 기능만을 제공하고 있다. 따라서 온라인 시스템에서 향상된 협업 기회를 제공하는 것이 바람직하다. 온라인 시스템은 모든 업무를 온라인 상에서 처리하도록 하고 보안 이슈로 인해 모든 데이터를 사용자 단말이 아닌 서버에 저장하여 대량의 데이터가 누적되어 축적되고 있다. 따라서 이러한 축적된 데이터를 효과적으로 분석하게 되면 기업 종업원들에게 업무에 대한 인사이트(insight)를 줄 수 있고 이에 따라 협업 업무에 대한 효율을 높일 수 있다.With the development of computing technology and communication technology, companies are building and using online systems for corporate employees. Such an online system provides various services such as an online payment service, a posting service, and a messenger service. Recently, collaboration services such as project development have been provided. However, the conventional collaboration service provides only limited functions, such as sharing the results of each task and jointly editing a document. Therefore, it is desirable to provide enhanced collaboration opportunities in online systems. The online system allows all tasks to be processed online, and due to security issues, all data is stored in the server rather than the user terminal, and a large amount of data is accumulated and accumulated. Therefore, by effectively analyzing such accumulated data, it is possible to give corporate employees an insight on their work, and thus, to increase the efficiency of collaborative work.
본 발명은 기업 내 온라인 시스템의 메일, 결재, 게시글 등의 다양한 문서들로부터 이슈어를 자동으로 추출하고 이를 기초로 이슈어 간의 연결망을 분석하여 사용자에게 제공하는 장치 및 방법을 제공하는데 그 목적이 있다. An object of the present invention is to provide an apparatus and method for automatically extracting issue words from various documents such as mail, payment, and posting of an online system within a company, and analyzing the connection network between the issue words based on this and providing it to users. .
일 실시예에 따른 이슈어 자동 추출 및 연결망 분석을 위한 장치는, 온라인 상의 텍스트들을 수집하는 수집부; 상기 수집된 텍스트들을 형태소 분석하여 개체명 및 개체명 이외의 주요 키워드들을 추출하는 키워드 추출부; 상기 개체명 및 주요 키워드들의 출현 빈도수를 기초로 이슈어들을 추출하는 이슈어 추출부; 상기 이슈어들 간의 연결 관계를 분석하여 이슈어들의 연결망을 생성하는 연결망 분석부; 및 상기 연결망을 시각화하여 출력하는 시각화부를 포함한다.An apparatus for automatic issue word extraction and connection network analysis according to an embodiment includes: a collection unit for collecting online texts; a keyword extraction unit that morphologically analyzes the collected texts to extract an entity name and main keywords other than the entity name; an issue word extraction unit for extracting issue words based on the number of appearances of the entity name and main keywords; a network analysis unit that analyzes a connection relationship between the issue words to generate a network of issue words; and a visualization unit that visualizes and outputs the connection network.
상기 키워드 추출부는, 상기 수집된 텍스트들에서 문장을 분할하고, 각 문장별로 토큰을 분리한 후 형태소를 분석하여 개체명 및 주요 키워드들을 추출할 수 있다.The keyword extracting unit may extract an entity name and main keywords by dividing sentences from the collected texts, separating tokens for each sentence, and analyzing morphemes.
상기 키워드 추출부는, 형태소의 분석 후 개체명 사전을 기초로 개체명을 추출하고, 또는 시맨틱 패턴을 기초로 문장에서 개체명을 추출할 수 있다.The keyword extractor may extract the entity name based on the entity name dictionary after analyzing the morpheme, or extract the entity name from the sentence based on the semantic pattern.
상기 이슈어 추출부는, 임의의 기간 동안, 순위가 일정 기준 이상 상승한 개체명 또는 주요 키워드, 또는 일정 기준 이상 하강한 개체명 또는 주요 키워드, 또는 긍정 빈도수가 일정 기준 이상인 개체명 또는 주요 키워드, 또는 부정 빈도수가 일정 기준 이상인 개체명 또는 주요 키워드를 이슈어로 추출할 수 있다.The issue word extraction unit is, for a certain period, an entity name or main keyword whose ranking has risen by more than a certain standard, or an object name or main keyword that has fallen by more than a certain standard, or an object name or main keyword with a positive frequency of more than a certain standard, or negation An entity name or a key keyword whose frequency exceeds a certain standard can be extracted as an issue word.
상기 연결망 분석부는, 개체명 이슈어들 간의 연결망을 생성하거나, 개체명 이슈어를 중심으로 일반 이슈어들을 연결한 연결망을 생성하거나, 일반 이슈어들 간의 연결망을 생성하거나, 또는 전체 이슈어들의 연결망을 생성할 수 있다.The network analysis unit generates a network between entity name issues, creates a network that connects general issue words around entity name issue words, creates a network between general issue words, or a network of all issue words can create
상기 연결망 분석부는, 각 문장별로 문장에 출현하는 이슈어들 중 2개를 임의 선택하여 이슈어 쌍의 조합을 생성한 후, 전체 이슈어 쌍들에서 동일한 이슈어 쌍은 하나의 이슈어 쌍으로 하여 전체 이슈어 쌍을 서로 연속으로 연결하여 연결망을 생성하되, 연결망의 이슈어 노드들을 연결하는 선의 굵기나 길이를 동일 이슈어 쌍의 개수에 비례하게 설정할 수 있다.The network analysis unit randomly selects two of the issue words appearing in the sentence for each sentence to generate a combination of the issue word pairs, and then sets the same issue word pair as one issue word pair from all the issue word pairs. A network is created by continuously connecting issuer pairs to each other, but the thickness or length of the line connecting issuer nodes of the network can be set in proportion to the number of identical issuer pairs.
상기 연결망 분석부는, 연결망의 각 이슈어 노드의 크기를, 다른 이슈어 노드와 쌍을 이루는 개수에 비례하여 설정할 수 있다.The connection network analyzer may set the size of each issuer node of the connection network in proportion to the number of pairs with other issuer nodes.
다른 실시예에 따른 이슈어 자동 추출 및 연결망 분석을 위한 방법은, 온라인 상의 텍스트들을 수집하는 단계; 상기 수집된 텍스트들을 형태소 분석하여 개체명 및 개체명 이외의 주요 키워드들을 추출하는 단계; 상기 개체명 및 주요 키워드들의 출현 빈도수를 기초로 이슈어들을 추출하는 단계; 상기 이슈어들 간의 연결 관계를 분석하여 이슈어들의 연결망을 생성하는 단계; 및 상기 연결망을 시각화하여 출력하는 단계를 포함한다.A method for automatic issue word extraction and network analysis according to another embodiment includes: collecting online texts; extracting an entity name and key keywords other than the entity name by morphological analysis of the collected texts; extracting issue words based on the number of appearances of the entity name and main keywords; generating a network of issue words by analyzing a connection relationship between the issue words; and visualizing and outputting the connection network.
상기 주요 키워드들을 추출하는 단계는, 상기 수집된 텍스트들에서 문장을 분할하고, 각 문장별로 토큰을 분리한 후 형태소를 분석하여 개체명 및 주요 키워드들을 추출할 수 있다.The extracting of the main keywords may include dividing sentences from the collected texts, separating tokens for each sentence, and then analyzing morphemes to extract entity names and main keywords.
상기 주요 키워드들을 추출하는 단계는, 형태소의 분석 후 개체명 사전을 기초로 개체명을 추출하고, 또는 시맨틱 패턴을 기초로 문장에서 개체명을 추출할 수 있다.In the step of extracting the main keywords, the entity name may be extracted based on the entity name dictionary after the morpheme is analyzed, or the entity name may be extracted from the sentence based on the semantic pattern.
상기 이슈어들을 추출하는 단계는, 임의의 기간 동안, 순위가 일정 기준 이상 상승한 개체명 또는 주요 키워드, 또는 일정 기준 이상 하강한 개체명 또는 주요 키워드, 또는 긍정 빈도수가 일정 기준 이상인 개체명 또는 주요 키워드, 또는 부정 빈도수가 일정 기준 이상인 개체명 또는 주요 키워드를 이슈어로 추출할 수 있다.The step of extracting the issue words includes, for a certain period, an entity name or main keyword whose ranking has risen by more than a certain standard, or an object name or main keyword that has fallen by more than a certain standard, or an object name or main keyword with a positive frequency of more than a certain standard , or an entity name or main keyword with a frequency of negation greater than a certain standard can be extracted as an issue word.
상기 연결망을 생성하는 단계는, 개체명 이슈어들 간의 연결망을 생성하거나, 개체명 이슈어를 중심으로 일반 이슈어들을 연결한 연결망을 생성하거나, 일반 이슈어들 간의 연결망을 생성하거나, 또는 전체 이슈어들의 연결망을 생성할 수 있다.The step of creating the network includes creating a network between entity name issue words, creating a network connecting general issue words around entity name issue words, creating a network between general issue words, or creating a whole issue You can create a network of words.
상기 연결망을 생성하는 단계는, 각 문장별로 문장에 출현하는 이슈어들 중 2개를 임의 선택하여 이슈어 쌍의 조합을 생성한 후, 전체 이슈어 쌍들에서 동일한 이슈어 쌍은 하나의 이슈어 쌍으로 하여 전체 이슈어 쌍을 서로 연속으로 연결하여 연결망을 생성하되, 연결망의 이슈어 노드들을 연결하는 선의 굵기나 길이를 동일 이슈어 쌍의 개수에 비례하게 설정할 수 있다.In the step of creating the network, a combination of issue word pairs is generated by randomly selecting two of the issue words appearing in a sentence for each sentence, and then the same issue word pair is one issue word pair among all issue word pairs. A connection network is created by continuously connecting all issue word pairs to each other, but the thickness or length of the line connecting the issue word nodes of the connection network can be set in proportion to the number of identical issue word pairs.
상기 연결망을 생성하는 단계는, 연결망의 각 이슈어 노드의 크기를, 다른 이슈어 노드와 쌍을 이루는 개수에 비례하여 설정할 수 있다.In the generating of the connection network, the size of each issuer node of the connection network may be set in proportion to the number of pairs with other issuer nodes.
본 발명은 메일, 결재 문서 등의 다양한 비정형 데이터들에 대한 주요 키워드들을 도출하고 해당 키워드들 간의 연결 관계를 파악하여 사용자가 수행하는 업무에 대한 인사이트(insight)를 파악할 수 있도록 하여 업무 효율의 극대화를 도모한다.The present invention derives key keywords for various atypical data such as mail and payment documents, identifies the connection relationship between the keywords, and enables the user to grasp an insight into the work performed by the user, thereby maximizing work efficiency. try to
도 1은 이슈어 자동 추출 및 연결망 분석을 위한 장치의 구성을 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 연결망의 시각화의 예를 나타낸 도면이다.
도 3은 본 발명의 일 실시예에 따른 이슈어 자동 추출 및 연결망 분석 방법을 설명하는 흐름도이다.1 is a diagram showing the configuration of an apparatus for automatic issue word extraction and network analysis.
2 is a diagram illustrating an example of visualization of a connection network according to an embodiment of the present invention.
3 is a flowchart illustrating an automatic issue word extraction and connection network analysis method according to an embodiment of the present invention.
상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일 실시예를 상세히 설명하기로 한다.The above-described objects, features, and advantages will become more apparent through the following detailed description in relation to the accompanying drawings, whereby those of ordinary skill in the art to which the present invention pertains can easily implement the technical idea of the present invention. There will be. In addition, in the description of the present invention, when it is determined that a detailed description of a known technology related to the present invention may unnecessarily obscure the gist of the present invention, the detailed description thereof will be omitted. Hereinafter, a preferred embodiment according to the present invention will be described in detail with reference to the accompanying drawings.
도 1은 이슈어 자동 추출 및 연결망 분석을 위한 장치의 구성을 나타낸 도면이다. 도 1을 참조한 장치는, 메모리, 메모리 제어기, 하나 이상의 프로세서(CPU), 주변 인터페이스, 입출력(I/O) 서브시스템, 디스플레이 장치, 입력 장치 및 통신 회로를 포함할 수 있다. 메모리는 고속 랜덤 액세스 메모리를 포함할 수 있고, 또한 하나 이상의 자기 디스크 저장 장치, 플래시 메모리 장치와 같은 불휘발성 메모리, 또는 다른 불휘발성 반도체 메모리 장치를 포함할 수 있다. 프로세서 및 주변 인터페이스와 같은 다른 구성요소에 의한 메모리로의 액세스는 메모리 제어기에 의하여 제어될 수 있다. 메모리는 각종 정보와 프로그램 명령어를 저장할 수 있고, 프로그램은 프로세서에 의해 실행된다. 주변 인터페이스는 입출력 주변 장치를 프로세서 및 메모리와 연결한다. 하나 이상의 프로세서는 다양한 소프트웨어 프로그램 및/또는 메모리에 저장되어 있는 명령어 세트를 실행하여 시스템을 여러 기능을 수행하고 데이터를 처리한다. I/O 서브시스템은 디스플레이 장치, 입력 장치와 같은 입출력 주변장치와 주변 인터페이스 사이에 인터페이스를 제공한다. 통신 회로는 외부 포트를 통한 통신 또는 RF 신호에 의한 통신을 수행한다. 통신 회로는 전기 신호를 RF 신호로 또는 그 반대로 변환하며 이 RF 신호를 통하여 통신 네트워크, 다른 이동형 게이트웨이 장치 및 통신 장치와 통신할 수 있다. 도 1에 도시된 바와 같이, 본 실시예에 따른 장치는, 수집부(110), 키워드 추출부(120), 이슈어 추출부(130), 연결망 분석부(140) 및 시각화부(150)를 포함하고, 이들은 프로그램으로 구현되어 메모리에 저장되어 프로세서에 의해 실행될 수 있고, 또는 소프트웨어 및 하드웨어의 조합으로 구현되어 동작을 수행할 수 있다. 본 실시예에 따른 장치는, 예를 들어 기업 내 그룹웨어 시스템을 구성할 수 있다. 1 is a diagram showing the configuration of an apparatus for automatic issue word extraction and network analysis. The device with reference to FIG. 1 may include a memory, a memory controller, one or more processors (CPUs), a peripheral interface, an input/output (I/O) subsystem, a display device, an input device, and communication circuitry. The memory may include high-speed random access memory, and may also include one or more magnetic disk storage devices, non-volatile memories such as flash memory devices, or other non-volatile semiconductor memory devices. Access to the memory by other components, such as the processor and peripheral interfaces, may be controlled by the memory controller. The memory may store various kinds of information and program instructions, and the program is executed by the processor. Peripheral interfaces connect the I/O peripherals to the processor and memory. One or more processors execute various software programs and/or sets of instructions stored in memory to perform various functions and process data in the system. The I/O subsystem provides an interface between input/output peripherals such as display devices and input devices and the peripheral interface. The communication circuit performs communication through an external port or communication by an RF signal. The communication circuitry converts electrical signals into RF signals and vice versa through which the RF signals can communicate with communication networks, other mobile gateway devices, and communication devices. As shown in FIG. 1 , the apparatus according to this embodiment includes a
수집부(110)는, 온라인 상의 텍스트들을 수집한다. 바람직하게, 수집부(110)는, 기업 내 그룹웨어 시스템에서 메일, 결재 문서, 게시판 등의 문서를 수집하여 텍스트를 추출한다. 수집부(110)는 그룹웨어 시스템 내의 메일 프로그램, 결재 프로그램이나 게시판 프로그램 등에 연결되어 문서나 바이너리 포맷 파일을 수집하는 커넥터와 수집된 문서나 바이너리 포맷 파일 등으로부터 텍스트를 추출하는 필터를 포함할 수 있다. The
키워드 추출부(120)는 상기 수집부(110)에서 수집된 텍스트를 형태소 분석하여 개체명 및 개체명 이외의 주요 키워드들을 추출한다. 바람직하게, 키워드 추출부(120)는, 수집된 텍스트에서 문장을 분리하고, 각 분리된 문장에서 토큰을 분리하여 형태소 사전에 기초하여 형태소 분석을 하여 주요 키워드를 추출하고, 추출된 주요 키워드 중에서 미리 준비된 개체명 사전(dictionary)(160)을 기초로 개체명 및 이외의 주요 키워드들을 분류한다. 여기서 개체명은 인명, 지명, 조직명, 브랜드명 등을 포함하고, 키워드 추출부(120)는 미리 준비된 개체명 사전(160)을 기초로 주요 키워드들 중에서 개체명을 식별한다. 키워드 추출부(120)는, 주요 키워드 추출시, 명사, 복합명사, 명사구 등을 주요 키워드로 추출하고 필요시 동사나 형용사도 추출할 수 있다. The
예를 들어, "비정형 텍스트로부터 키워드를 추출한다" 라는 문장이 있을 때, 형태소 분석으로 주요 키워드를 추출하면 다음 [표1]과 같다.For example, when there is a sentence "Extracting keywords from unstructured text", main keywords are extracted by morphological analysis as shown in [Table 1].
텍스트로부터
키워드를
추출한다.atypical
from text
keyword
extract
[텍스트 NN 로 PP 부터 PP]
[키워드 NN 를 PP]
[추출 NN 하 SV ㄴ다 EF . SY] [Non-PF Orthopedic NN]
[PP to PP with text NN]
[keyword NN PP]
[Extract NN to SV and EF. SY]
텍스트
키워드
추출atypical
text
keyword
extraction
다른 예를 들면, "나는 서울에 살고있는 홍길동입니다" 라는 문장이 있을 때, 형태소 분석 및 개체명 사전을 이용하여 개체명을 추출하면 다음 [표2]와 같다.For another example, when there is a sentence "I am Gil-dong Hong living in Seoul", if the entity name is extracted using morpheme analysis and the entity name dictionary, the following [Table 2] is shown.
서울에
살고있는
홍길동입니다.I
in Seoul
living
This is Gil-dong Hong.
[서울 NN 에 PP]
[살 VV 고 EF 있 VX 는 EF]
[홍길동 NN 이 CP ㅂ니다 EF . SY][I NP is PP]
[PP to Seoul NN]
[Buy VV and EF with VX and EF]
[Hong Gil-dong NN is CP and EF. SY]
서울(지명)
홍길동(인명)
Seoul (place name)
Hong Gil-dong (person)
키워드 추출부(120)는, 개체명을 추출시, 시맨틱 패턴으로 개체명을 추출할 수 있다. 예를 들어, "~에서 만나겠습니다" 라는 문장에 대한 패턴을 구축하면, "~"는 지명으로 판단하여 지명을 추출할 수 있다. 또는 "AAA는 BBB의 수도이다" 라는 문장에 대한 패턴을 구축하면, "AAA"와 "BBB"는 지명으로 판단할 수 있다. When extracting the entity name, the
키워드 추출부(120)는, 개체명 및 주요 키워드 추출과 별도로, 문장의 형태소 분석을 통해 형용사나 부사 등을 이용하여 해당 개체명 및 주요 키워드에 대한 긍정 또는 부정 정보를 분석하여 기록할 수 있다. 예를 들어, 특정 개체명 또는 주요 키워드가 나타난 문장에서 "좋다" 또는 "아름답다" 등의 긍정어가 있으면, 해당 특정 개체명 또는 주요 키워드에 대해 긍정 정보를 기록하고, "나쁘다" 또는 "괴롭다" 등의 부정어가 있으면, 해당 특정 개체명 또는 주요 키워드에 대해 부정 정보를 기록한다. 키워드 추출부(120)는 문장의 형태소 분석 후 감성어 사전을 기초로 긍정어 또는 부정어를 판별할 수 있다.The
키워드 추출부(120)는, 추출한 개체명 및 주요 키워드들을 인덱싱(indexing)하여 색인 처리한다. 키워드 추출부(120)는, 개체명 및 주요 키워드들이 추출된 문장 식별정보와, 개체명 및 주요 키워드들, 시간 정보 그리고 긍정 또는 부정 정보를 함께 관련지어 저장할 수 있다. 여기서 시간 정보는, 텍스트의 수집 시간일 수 있고, 또는 텍스트에 포함된 시간일 수 있다. 예를 들어, 수집된 텍스트가 메일인 경우, 메일의 보낸 날짜가 시간 정보가 될 수 있고, 게시물의 경우 게시글의 게시 시간이 시간 정보가 될 수 있다. The
이슈어 추출부(130)는, 상기 키워드 추출부(120)에서 추출된 개체명 및 주요 키워드들의 출현 빈도수를 기초로 개체명 및 주요 키워드들 중에서 이슈어들을 선정하여 추출한다. 여기서 출현 빈도수는 출현 문서 개수일 수 있고, 또는 단어 자체의 출현 횟수일 수 있으며, 또는 출현 문장 개수일 수 있으나 여기에 제한되지 않는다. 이슈어 추출부(130)는, 임의의 기간 동안 순위가 일정 기준 이상 상승한 개체명 또는 주요 키워드들, 또는 임의의 기간 동안 순위가 일정 기준 이상 하강한 개체명 또는 주요 키워드들, 또는 임의의 기간 동안 긍정 빈도수가 일정 기준 이상인 개체명 또는 주요 키워드들, 또는 임의의 기간 동안 부정 빈도수가 일정 기준 이상인 개체명 또는 주요 키워드들을 이슈어로 선정할 수 있다.The issue
연결망 분석부(140)는, 상기 이슈어 추출부(130)에서 추출된 이슈어들 간의 연결 관계를 분석하여 이슈어들의 연결망을 생성한다. 연결망 분석부(140)는, 개체명 이슈어들 간의 연결망을 생성하거나, 개체명 이슈어를 중심으로 일반 이슈어들을 연결한 연결망을 생성하거나, 일반 이슈어들 간의 연결망을 생성하거나, 또는 전체 이슈어들의 연결망을 생성할 수 있다. 예를 들어, 인물 이슈어 - 인물 이슈어 연결망, 또는 인물 이슈어 - 일반 이슈어 연결망, 또는 일반 이슈어 - 일반 이슈어 연결망 등을 생성할 수 있다. The
보다 구체적으로, 연결망 분석부(140)는, 각 문장별로 문장에 출현하는 이슈어들 중 2개를 임의 선택하여 이슈어 쌍의 조합을 생성한 후, 전체 이슈어 쌍들에서 동일한 이슈어 쌍은 하나의 이슈어 쌍으로 하여 전체 이슈어 쌍을 서로 연속으로 연결하여 연결망을 생성하되, 연결망의 각 노드의 크기 및, 노드를 연결하는 연결선의 굵기나 길이는, 동일 이슈어 쌍의 개수에 비례하게 설정하거나, 이슈어의 빈도수에 비례하여 설정할 수 있다.More specifically, the
예를 들어, 1번 문장에서 추출된 개체명 및 주요 키워드들 중 이슈어로 선정된 단어들이 {홍길동, 아버지, 이름, 소설}이고, 2번 문장에서 추출된 개체명 및 주요 키워드들 중 이슈어로 선정된 단어들이 {홍길동, 도술, 의적}이며, 3번 문장에서 추출된 개체명 및 주요 키워드들 중 이슈어로 선정된 단어들이 {홍길동, 소설, 전설, 의적}인 경우, 각 문장별로 이슈어들 중 2개를 임의 선택하여 이슈어 쌍의 조합을 생성한다. For example, among the entity names and main keywords extracted from sentence 1, the words selected as issue words are {Hong Gil-dong, father, name, novel}, and the entity names and main keywords extracted from sentence 2 are selected as issue words If the words selected are {Hong Gil-dong, Doctrine, Righteousness}, and among the entity names and main keywords extracted from sentence 3, the words selected as the issue words are {Hong Gil-dong, Novel, Legend, Evil}, among the issue words for each sentence Select two at random to create a combination of issuer pairs.
1번 문장의 이슈어들에서 2개를 임의 선택하여 이슈어 쌍의 조합을 생성하면, {홍길동-아버지}, {홍길동-이름}, {홍길동-소설}, {아버지-이름}, {아버지-소설}, {이름-소설}의 총 6개(즉, 4C2)의 이슈어 쌍이 생성된다. 2번 문장의 이슈어들에서 2개를 임의 선택하여 이슈어 쌍의 조합을 생성하면, {홍길동-도술}, {홍길동-의적}, {도술-의적}의 총 3개(즉, 3C2)의 이슈어 쌍이 생성된다. 3번 문장의 이슈어들에서 2개를 임의 선택하여 이슈어 쌍의 조합을 생성하면, {홍길동-소설}, {홍길동-전설}, {홍길동-의적}, {소설-전설}, {소설-의적}, {전설-의적}의 총 6개(즉, 4C2)의 이슈어 쌍이 생성된다. If you randomly select two from the issue words in sentence 1 to create a pair of issue words, {Hong Gil-dong-Father}, {Hong Gil-dong-Name}, {Hong Gil-Dong-Novel}, {Father-Name}, {Father- A total of 6 (ie, 4 C 2 ) pairs of issues of fiction} and {name-novel} are generated. If two is randomly selected from the issue words in sentence 2 to create a pair of issue words, a total of three of {Hong Gil-dong-Dosul}, {Hong Gil-Dong-Uijeok}, and {Dosul-Uijeok} (ie, 3 C 2 ) of an issue word pair is created. If you randomly select two from the issue words in sentence 3 to create a pair of issue words, {Hong Gil-dong-novel}, {Hong Gil-dong-legend}, {Hong Gil-dong-uijeok}, {novel-legend}, {novel- A total of 6 (ie, 4 C 2 ) pairs of issuers are created: righteous enemy} and {legendary-righteous enemy}.
이 예에서, {홍길동-아버지}, {홍길동-이름}, {아버지-이름}, {아버지-소설}, {이름-소설}, {홍길동-도술}, {도술-의적}, {홍길동-전설}, {소설-전설}, {소설-의적} 및 {전설-의적}의 이슈어 쌍은 각각 1개씩 있고, {홍길동-의적}과 {홍길동-소설}은 각각 2개씩 있다. 따라서, {홍길동-의적}과 {홍길동-소설}의 노드 연결선의 를 다른 노드 간 연결선보다 굵게 설정한다. In this example, {Hong Gil-Dong-Father}, {Hong Gil-Dong-Name}, {Father-Name}, {Father-Novel}, {Name-Novel}, {Hong Gil-Dong-Swordsman}, {Swordsman-Medical Enemy}, {Hong Gil-Dong-Legend }, {Novel-Legend}, {Novel-Euijeok}, and {Legend-Euijeok} have one issue word pair each, and {Hong Gil-Dong-Ui-Jeok} and {Hong Gil-Dong-Novel} have two each. Therefore, set the node connection line of {Hong Gil-dong-Euijeok} and {Hong Gil-dong-novel} to be thicker than the connection line between other nodes.
이 예에서, 홍길동 이슈어는, 8개의 다른 이슈어와 쌍을 이루고, 소설 이슈어는 5개의 다른 이슈어와 쌍을 이루며, 의적 이슈어는 4개의 다른 이슈어와 쌍을 이루며, 아버지/이름/전설 이슈어는 3개의 다른 이슈어와 쌍을 이루며, 도술 이슈어는 2개의 다른 이슈어와 쌍을 이룬다. 따라서, 홍길동의 노드 크기를 가장 크게 하고 소설/의적/아버지, 이름, 전설/도술의 순서로 그 노드의 크기를 작게 설정할 수 있다.In this example, Gildong Hong is paired with 8 other issuers, fictional issuer is paired with 5 other issuers, righteous issuer is paired with 4 other issuers, and father/name/legendary issuer is paired with 3 other issuers. Paired with another issuer, a magic issuer is paired with two other issuers. Therefore, the node size of Gil-dong Hong can be set to be the largest and the node size can be set to be small in the order of novel/righteous/father, name, legend/swordsman.
시각화부(150)는, 상기 연결망 분석부(140)에서 생성한 연결망을 시각화하여 출력한다. 도 2는 본 발명의 일 실시예에 따른 연결망의 시각화의 예를 나타낸 도면으로, 상술한 예에 기초한 연결망이다. 도 2에 도시된 바와 같이, 홍길동 노드와 의적 노드 간 연결선, 그리고 홍길동 노드와 소설 노드 간 연결선의 굵기는 다른 노드 간 연결선보다 굵다. 도 2를 참조한 실시예에서는 노드 간 연결선의 굵기를 이슈어 쌍의 개수에 비례하여 설정하나 여기에 제한되는 것은 아니다. 예를 들어, 홍길동 노드는 6개의 다른 노드와 연결되고, 아버지 노드는 3개의 다른 노드와 연결되므로, 홍길동 노드는 아버지 노드보다 2배 크기를 갖도록 설정할 수 있다. 다른 노드들도 동일한 방식으로 크기를 설정할 수 있다. The
도 3은 본 발명의 일 실시예에 따른 이슈어 자동 추출 및 연결망 분석 방법을 설명하는 흐름도이다. 도 3을 참조하면, 먼저 단계 S301에서 장치는 온라인 상의 텍스트들을 수집한다. 바람직하게, 장치는 기업 내 그룹웨어 시스템에서 메일, 결재 문서, 게시판 등의 문서를 수집하여 텍스트를 추출한다. 3 is a flowchart illustrating an automatic issue word extraction and connection network analysis method according to an embodiment of the present invention. Referring to FIG. 3 , first, in step S301, the device collects online texts. Preferably, the device extracts text by collecting documents such as mail, payment documents, and bulletin boards from a groupware system within the company.
단계 S302에서 장치는 상기 수집된 텍스트를 형태소 분석하여 개체명 및 개체명 이외의 주요 키워드들을 추출한다. 바람직하게, 장치는, 수집된 텍스트에서 문장을 분리하고, 각 분리된 문장에서 토큰을 분리하여 형태소 사전에 기초하여 형태소 분석을 하여 주요 키워드를 추출하고, 추출된 주요 키워드 중에서 미리 준비된 개체명 사전(dictionary)을 기초로 개체명 및 이외의 주요 키워드들을 분류한다. 여기서 개체명은 인명, 지명, 조직명, 브랜드명 등을 포함하고, 장치는 미리 준비된 개체명 사전(160)을 기초로 주요 키워드들 중에서 개체명을 식별한다. 장치는, 주요 키워드 추출시, 명사, 복합명사, 명사구 등을 주요 키워드로 추출하고 필요시 동사나 형용사도 추출할 수 있다. In step S302, the device morphologically analyzes the collected text to extract an entity name and main keywords other than the entity name. Preferably, the device separates sentences from the collected text, separates tokens from each separated sentence, performs morpheme analysis based on the morpheme dictionary to extract the main keywords, and extracts the main keywords from the extracted main keywords in the entity name dictionary ( dictionary), classifies entity names and other major keywords. Here, the entity name includes a person's name, a place name, an organization name, a brand name, and the like, and the device identifies the entity name from among the main keywords based on the pre-prepared
다른 실시예에서, 장치는, 개체명을 추출시, 시맨틱 패턴으로 개체명을 추출할 수 있다. 예를 들어, "~에서 만나겠습니다" 라는 문장에 대한 패턴을 구축하면, "~"는 지명으로 판단하여 지명을 추출할 수 있다. 또는 "AAA는 BBB의 수도이다" 라는 문장에 대한 패턴을 구축하면, "AAA"와 "BBB"는 지명으로 판단할 수 있다. 장치는 개체명 및 주요 키워드 추출과 별도로, 문장의 형태소 분석을 통해 형용사나 부사 등을 이용하여 해당 개체명 및 주요 키워드에 대한 긍정 또는 부정 정보를 분석하여 기록할 수 있다. 예를 들어, 특정 개체명 또는 주요 키워드가 나타난 문장에서 "좋다" 또는 "아름답다" 등의 긍정어가 있으면, 해당 특정 개체명 또는 주요 키워드에 대해 긍정 정보를 기록하고, "나쁘다" 또는 "괴롭다" 등의 부정어가 있으면, 해당 특정 개체명 또는 주요 키워드에 대해 부정 정보를 기록한다. 키워드 추출부(120)는 문장의 형태소 분석 후 감성어 사전을 기초로 긍정어 또는 부정어를 판별할 수 있다. 장치는 추출한 개체명 및 주요 키워드들을 인덱싱(indexing)하여 색인 처리한다. 장치는 개체명 및 주요 키워드들이 추출된 문장 식별정보와, 개체명 및 주요 키워드들, 시간 정보 그리고 긍정 또는 부정 정보를 함께 관련지어 저장할 수 있다. 여기서 시간 정보는, 텍스트의 수집 시간일 수 있고, 또는 텍스트에 포함된 시간일 수 있다. 예를 들어, 수집된 텍스트가 메일인 경우, 메일의 보낸 날짜가 시간 정보가 될 수 있고, 게시물의 경우 게시글의 게시 시간이 시간 정보가 될 수 있다. In another embodiment, when extracting the entity name, the device may extract the entity name using a semantic pattern. For example, if a pattern is constructed for the sentence "I will meet you at ~", the place name can be extracted by determining that "~" is a place name. Alternatively, if a pattern is constructed for the sentence "AAA is the capital of BBB", "AAA" and "BBB" can be determined as place names. Apart from extracting the entity name and main keyword, the device may analyze and record positive or negative information on the entity name and main keyword using adjectives or adverbs through morphological analysis of sentences. For example, if there is an affirmative word such as "good" or "beautiful" in a sentence in which a specific entity name or main keyword appears, record positive information for the specific entity name or main keyword, "bad" or "painful", etc. If there is a negative word of , record negative information about the specific entity name or main keyword. The
단계 S303에서 장치는 상기 추출된 개체명 및 주요 키워드들의 출현 빈도수를 기초로 개체명 및 주요 키워드들 중에서 이슈어들을 선정하여 추출한다. 여기서 출현 빈도수는 출현 문서 개수일 수 있고, 또는 단어 자체의 출현 횟수일 수 있으며, 또는 출현 문장 개수일 수 있으나 여기에 제한되지 않는다. 장치는, 임의의 기간 동안 순위가 일정 기준 이상 상승한 개체명 또는 주요 키워드들, 또는 임의의 기간 동안 순위가 일정 기준 이상 하강한 개체명 또는 주요 키워드들, 또는 임의의 기간 동안 긍정 빈도수가 일정 기준 이상인 개체명 또는 주요 키워드들, 또는 임의의 기간 동안 부정 빈도수가 일정 기준 이상인 개체명 또는 주요 키워드들을 이슈어로 선정할 수 있다.In step S303, the device selects and extracts issue words from the entity name and main keywords based on the number of appearances of the extracted entity name and main keywords. Here, the frequency of occurrence may be the number of occurrences of documents, or the number of occurrences of the word itself, or the number of occurrences of sentences, but is not limited thereto. The device includes the name of an entity or main keywords whose ranking has risen by more than a certain standard during a certain period, or the name or main keywords of an entity whose ranking has fallen by more than a certain standard for a certain period, or the number of positives for a certain period is greater than or equal to a certain standard An entity name or main keywords, or an entity name or main keywords having a negation frequency greater than or equal to a certain standard during an arbitrary period may be selected as the issue word.
단계 S304에서 장치는, 상기 추출된 이슈어들 간의 연결 관계를 분석하여 이슈어들의 연결망을 생성한다. 장치는 개체명 이슈어들 간의 연결망을 생성하거나, 개체명 이슈어를 중심으로 일반 이슈어들을 연결한 연결망을 생성하거나, 일반 이슈어들 간의 연결망을 생성하거나, 또는 전체 이슈어들의 연결망을 생성할 수 있다. 예를 들어, 인물 이슈어 - 인물 이슈어 연결망, 또는 인물 이슈어 - 일반 이슈어 연결망, 또는 일반 이슈어 - 일반 이슈어 연결망 등을 생성할 수 있다. In step S304, the device analyzes the connection relationship between the extracted issue words to create a network of issue words. The device creates a network between entity name issues, creates a network that connects general issue words around entity name issue words, creates a network between general issue words, or creates a network of all issue words. can For example, a person issuer - person issuer network, a person issuer -general issuer network, or a general issuer -general issuer network may be created.
보다 구체적으로, 장치는 각 문장별로 문장에 출현하는 이슈어들 중 2개를 임의 선택하여 이슈어 쌍의 조합을 생성한 후, 전체 이슈어 쌍들에서 동일한 이슈어 쌍은 하나의 이슈어 쌍으로 하여 전체 이슈어 쌍을 서로 연속으로 연결하여 연결망을 생성하되, 연결망의 각 노드의 크기 및, 노드를 연결하는 연결선의 굵기나 길이는, 동일 이슈어 쌍의 개수에 비례하게 설정하거나, 이슈어의 빈도수에 비례하여 설정할 수 있다.More specifically, the device arbitrarily selects two of the issue words appearing in the sentence for each sentence to generate a combination of issue word pairs, and then sets the same issue word pair as one issue word pair among all issue word pairs. A connection network is created by continuously connecting all issue word pairs to each other, but the size of each node of the connection network and the thickness or length of the connection line connecting the nodes are set in proportion to the number of identical issue word pairs, or the frequency of the issue word can be set in proportion to
예를 들어, 1번 문장에서 추출된 개체명 및 주요 키워드들 중 이슈어로 선정된 단어들이 {홍길동, 아버지, 이름, 소설}이고, 2번 문장에서 추출된 개체명 및 주요 키워드들 중 이슈어로 선정된 단어들이 {홍길동, 도술, 의적}이며, 3번 문장에서 추출된 개체명 및 주요 키워드들 중 이슈어로 선정된 단어들이 {홍길동, 소설, 전설, 의적}인 경우, 각 문장별로 이슈어들 중 2개를 임의 선택하여 이슈어 쌍의 조합을 생성한다. For example, among the entity names and main keywords extracted from sentence 1, the words selected as issue words are {Hong Gil-dong, father, name, novel}, and the entity names and main keywords extracted from sentence 2 are selected as issue words If the words selected are {Hong Gil-dong, Doctrine, Righteousness}, and among the entity names and main keywords extracted from sentence 3, the words selected as the issue words are {Hong Gil-dong, Novel, Legend, Evil}, among the issue words for each sentence Select two at random to create a combination of issuer pairs.
1번 문장의 이슈어들에서 2개를 임의 선택하여 이슈어 쌍의 조합을 생성하면, {홍길동-아버지}, {홍길동-이름}, {홍길동-소설}, {아버지-이름}, {아버지-소설}, {이름-소설}의 총 6개(즉, 4C2)의 이슈어 쌍이 생성된다. 2번 문장의 이슈어들에서 2개를 임의 선택하여 이슈어 쌍의 조합을 생성하면, {홍길동-도술}, {홍길동-의적}, {도술-의적}의 총 3개(즉, 3C2)의 이슈어 쌍이 생성된다. 3번 문장의 이슈어들에서 2개를 임의 선택하여 이슈어 쌍의 조합을 생성하면, {홍길동-소설}, {홍길동-전설}, {홍길동-의적}, {소설-전설}, {소설-의적}, {전설-의적}의 총 6개(즉, 4C2)의 이슈어 쌍이 생성된다. If you randomly select two from the issue words in sentence 1 to create a pair of issue words, {Hong Gil-dong-Father}, {Hong Gil-dong-Name}, {Hong Gil-Dong-Novel}, {Father-Name}, {Father- A total of 6 (ie, 4 C 2 ) pairs of issues of fiction} and {name-novel} are generated. If two is randomly selected from the issue words in sentence 2 to create a pair of issue words, a total of three of {Hong Gil-dong-Dosul}, {Hong Gil-Dong-Uijeok}, and {Dosul-Uijeok} (ie, 3 C 2 ) of an issue word pair is created. If you randomly select two from the issue words in sentence 3 to create a pair of issue words, {Hong Gil-dong-novel}, {Hong Gil-dong-legend}, {Hong Gil-dong-uijeok}, {novel-legend}, {novel- A total of 6 (ie, 4 C 2 ) pairs of issuers are created: righteous enemy} and {legendary-righteous enemy}.
이 예에서, {홍길동-아버지}, {홍길동-이름}, {아버지-이름}, {아버지-소설}, {이름-소설}, {홍길동-도술}, {도술-의적}, {홍길동-전설}, {소설-전설}, {소설-의적} 및 {전설-의적}의 이슈어 쌍은 각각 1개씩 있고, {홍길동-의적}과 {홍길동-소설}은 각각 2개씩 있다. 따라서, {홍길동-의적}과 {홍길동-소설}의 노드 연결선의 를 다른 노드 간 연결선보다 굵게 설정한다. In this example, {Hong Gil-Dong-Father}, {Hong Gil-Dong-Name}, {Father-Name}, {Father-Novel}, {Name-Novel}, {Hong Gil-Dong-Swordsman}, {Swordsman-Ritual Enemies}, {Hong Gil-Dong-Legend }, {Novel-Legend}, {Novel-Euijeok}, and {Legend-Euijeok} have one issue word pair each, and {Hong Gil-Dong-Ui-Jeok} and {Hong Gil-Dong-Novel} have two each. Therefore, set the node connection line of {Hong Gil-dong-Euijeok} and {Hong Gil-dong-novel} to be thicker than the connection line between other nodes.
이 예에서, 홍길동 이슈어는, 8개의 다른 이슈어와 쌍을 이루고, 소설 이슈어는 5개의 다른 이슈어와 쌍을 이루며, 의적 이슈어는 4개의 다른 이슈어와 쌍을 이루며, 아버지/이름/전설 이슈어는 3개의 다른 이슈어와 쌍을 이루며, 도술 이슈어는 2개의 다른 이슈어와 쌍을 이룬다. 따라서, 홍길동의 노드 크기를 가장 크게 하고 소설/의적/아버지, 이름, 전설/도술의 순서로 그 노드의 크기를 작게 설정할 수 있다.In this example, Gil-dong Hong is paired with 8 other issuers, fictional issues are paired with 5 other issues, righteous issuers are paired with 4 other issues, and father/name/legendary issues are 3 Paired with another issuer, a magic issuer is paired with two other issuers. Therefore, the node size of Gil-dong Hong can be set to be the largest and the node size can be set to be small in the order of novel/righteous/father, name, legend/swordsman.
단계 S305에서, 장치는 상기 단계 S304에서 생성된 연결망을 시각화하여 출력한다. 예를 들어, 그룹웨어 시스템의 대시보드에 출력할 수 있다. In step S305, the device visualizes and outputs the connection network created in step S304. For example, it can be output to the dashboard of the groupware system.
본 명세서는 많은 특징을 포함하는 반면, 그러한 특징은 본 발명의 범위 또는 특허청구범위를 제한하는 것으로 해석되어서는 안 된다. 또한, 본 명세서에서 개별적인 실시예에서 설명된 특징들은 단일 실시예에서 결합되어 구현될 수 있다. 반대로, 본 명세서에서 단일 실시예에서 설명된 다양한 특징들은 개별적으로 다양한 실시예에서 구현되거나, 적절히 결합되어 구현될 수 있다.While this specification contains many features, such features should not be construed as limiting the scope of the invention or the claims. Also, features described in individual embodiments herein may be implemented in combination in a single embodiment. Conversely, various features described herein in a single embodiment may be implemented in various embodiments individually, or may be implemented in appropriate combination.
도면에서 동작들이 특정한 순서로 설명되었으나, 그러한 동작들이 도시된 바와 같은 특정한 순서로 수행되는 것으로, 또는 일련의 연속된 순서, 또는 원하는 결과를 얻기 위해 모든 설명된 동작이 수행되는 것으로 이해되어서는 안 된다. 특정 환경에서 멀티태스킹 및 병렬 프로세싱이 유리할 수 있다. 아울러, 상술한 실시예에서 다양한 시스템 구성요소의 구분은 모든 실시예에서 그러한 구분을 요구하지 않는 것으로 이해되어야 한다. 상술한 프로그램 구성요소 및 시스템은 일반적으로 단일 소프트웨어 제품 또는 멀티플 소프트웨어 제품에 패키지로 구현될 수 있다.Although acts have been described in the drawings in a specific order, it should not be understood that the acts are performed in the specific order as shown, or that all of the described acts are performed in a continuous order, or to obtain a desired result. . Multitasking and parallel processing can be advantageous in certain circumstances. In addition, it should be understood that the division of various system components in the above-described embodiments does not require such division in all embodiments. The program components and systems described above may generally be implemented as a package in a single software product or multiple software products.
상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(시디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다. 이러한 과정은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있으므로 더 이상 상세히 설명하지 않기로 한다.The method of the present invention as described above may be implemented as a program and stored in a computer-readable form in a recording medium (CD-ROM, RAM, ROM, floppy disk, hard disk, magneto-optical disk, etc.). Since this process can be easily performed by a person skilled in the art to which the present invention pertains, it will not be described in detail any more.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.The present invention described above, for those of ordinary skill in the art to which the present invention pertains, various substitutions, modifications and changes are possible without departing from the technical spirit of the present invention. It is not limited by the drawing.
110 : 수집부
120 : 키워드 추출부
130 : 이슈어 추출부
140 : 연결망 분석부
150 : 시각화부
160 : 개체명 사전110: collection unit
120: keyword extraction unit
130: issue word extraction unit
140: network analysis unit
150: visualization unit
160: Dictionary of entity names
Claims (14)
온라인 상의 텍스트들을 수집하는 수집부;
상기 수집된 텍스트들을 형태소 분석하여 개체명 및 개체명 이외의 주요 키워드들을 추출하는 키워드 추출부;
상기 개체명 및 주요 키워드들의 출현 빈도수를 기초로 이슈어들을 추출하는 이슈어 추출부;
상기 이슈어들 간의 연결 관계를 분석하여 이슈어들의 연결망을 생성하는 연결망 분석부; 및
상기 연결망을 시각화하여 출력하는 시각화부를 포함하는 장치.A device for automatic issue word extraction and network analysis, comprising:
a collection unit for collecting online texts;
a keyword extraction unit that morphologically analyzes the collected texts to extract an entity name and main keywords other than the entity name;
an issue word extraction unit for extracting issue words based on the number of appearances of the entity name and main keywords;
a network analysis unit that analyzes a connection relationship between the issue words to generate a network of issue words; and
A device including a visualization unit for visualizing and outputting the connection network.
상기 키워드 추출부는,
상기 수집된 텍스트들에서 문장을 분할하고, 각 문장별로 토큰을 분리한 후 형태소를 분석하여 개체명 및 주요 키워드들을 추출하는 것을 특징으로 하는 장치.The method of claim 1,
The keyword extraction unit,
The apparatus according to claim 1, wherein sentences are divided from the collected texts, tokens are separated for each sentence, and morphemes are analyzed to extract entity names and main keywords.
상기 키워드 추출부는,
형태소의 분석 후 개체명 사전을 기초로 개체명을 추출하고,
또는 시맨틱 패턴을 기초로 문장에서 개체명을 추출하는 것을 특징으로 하는 장치.3. The method of claim 2,
The keyword extraction unit,
After morpheme analysis, the entity name is extracted based on the entity name dictionary,
or an apparatus for extracting an entity name from a sentence based on a semantic pattern.
상기 이슈어 추출부는,
임의의 기간 동안, 순위가 일정 기준 이상 상승한 개체명 또는 주요 키워드, 또는 일정 기준 이상 하강한 개체명 또는 주요 키워드, 또는 긍정 빈도수가 일정 기준 이상인 개체명 또는 주요 키워드, 또는 부정 빈도수가 일정 기준 이상인 개체명 또는 주요 키워드를 이슈어로 추출하는 것을 특징으로 하는 장치.The method of claim 1,
The issue word extraction unit,
For a certain period, the name or main keyword of an entity whose ranking has risen by more than a certain standard, or the name or main keyword of an entity that has fallen by more than a certain standard, or an object name or major keyword with a positive frequency of more than a certain standard, or an object with a negative frequency of more than a certain standard A device characterized in that the name or main keyword is extracted as an issue word.
상기 연결망 분석부는,
개체명 이슈어들 간의 연결망을 생성하거나, 개체명 이슈어를 중심으로 일반 이슈어들을 연결한 연결망을 생성하거나, 일반 이슈어들 간의 연결망을 생성하거나, 또는 전체 이슈어들의 연결망을 생성하는 것을 특징으로 하는 장치.5. The method of claim 4,
The network analysis unit,
It is characterized by creating a network between entity name issue words, creating a network connecting general issue words centering on entity name issue words, creating a network between general issue words, or creating a network of all issue words device to do.
상기 연결망 분석부는,
각 문장별로 문장에 출현하는 이슈어들 중 2개를 임의 선택하여 이슈어 쌍의 조합을 생성한 후, 전체 이슈어 쌍들에서 동일한 이슈어 쌍은 하나의 이슈어 쌍으로 하여 전체 이슈어 쌍을 서로 연속으로 연결하여 연결망을 생성하되, 연결망의 이슈어 노드들을 연결하는 선의 굵기나 길이를 동일 이슈어 쌍의 개수에 비례하게 설정하는 것을 특징으로 하는 장치.6. The method of claim 5,
The network analysis unit,
After generating a combination of issue word pairs by randomly selecting two of the issue words appearing in the sentence for each sentence, the same issue word pair among all issue word pairs is set as one issue word pair, and the entire issue word pairs are mutually matched. A device characterized in that a connection network is created by continuously connecting, but the thickness or length of a line connecting issuer nodes of the connection network is set in proportion to the number of identical issuer pairs.
상기 연결망 분석부는,
연결망의 각 이슈어 노드의 크기를, 다른 이슈어 노드와 쌍을 이루는 개수에 비례하여 설정하는 것을 특징으로 하는 장치.7. The method of claim 6,
The network analysis unit,
A device characterized in that the size of each issuer node of the connection network is set in proportion to the number of pairs with other issuer nodes.
온라인 상의 텍스트들을 수집하는 단계;
상기 수집된 텍스트들을 형태소 분석하여 개체명 및 개체명 이외의 주요 키워드들을 추출하는 단계;
상기 개체명 및 주요 키워드들의 출현 빈도수를 기초로 이슈어들을 추출하는 단계;
상기 이슈어들 간의 연결 관계를 분석하여 이슈어들의 연결망을 생성하는 단계; 및
상기 연결망을 시각화하여 출력하는 단계를 포함하는 방법.In the method for automatic issue word extraction and network analysis,
collecting texts online;
extracting an entity name and key keywords other than the entity name by morphological analysis of the collected texts;
extracting issue words based on the number of appearances of the entity name and main keywords;
generating a network of issue words by analyzing a connection relationship between the issue words; and
Visualizing and outputting the connection network.
상기 주요 키워드들을 추출하는 단계는,
상기 수집된 텍스트들에서 문장을 분할하고, 각 문장별로 토큰을 분리한 후 형태소를 분석하여 개체명 및 주요 키워드들을 추출하는 것을 특징으로 하는 방법.9. The method of claim 8,
The step of extracting the main keywords,
A method of dividing sentences from the collected texts, separating tokens for each sentence, and then analyzing morphemes to extract entity names and main keywords.
상기 주요 키워드들을 추출하는 단계는,
형태소의 분석 후 개체명 사전을 기초로 개체명을 추출하고,
또는 시맨틱 패턴을 기초로 문장에서 개체명을 추출하는 것을 특징으로 하는 방법.10. The method of claim 9,
The step of extracting the main keywords,
After analyzing the morpheme, the entity name is extracted based on the entity name dictionary,
or extracting the entity name from the sentence based on the semantic pattern.
상기 이슈어들을 추출하는 단계는,
임의의 기간 동안, 순위가 일정 기준 이상 상승한 개체명 또는 주요 키워드, 또는 일정 기준 이상 하강한 개체명 또는 주요 키워드, 또는 긍정 빈도수가 일정 기준 이상인 개체명 또는 주요 키워드, 또는 부정 빈도수가 일정 기준 이상인 개체명 또는 주요 키워드를 이슈어로 추출하는 것을 특징으로 하는 방법.9. The method of claim 8,
The step of extracting the issue words,
For a certain period, the name or main keyword of an entity whose ranking has risen by more than a certain standard, or the name or main keyword of an entity that has fallen by more than a certain standard, or an object name or major keyword with a positive frequency of more than a certain standard, or an object with a negative frequency of more than a certain standard A method characterized in that the name or main keyword is extracted as an issue word.
상기 연결망을 생성하는 단계는,
개체명 이슈어들 간의 연결망을 생성하거나, 개체명 이슈어를 중심으로 일반 이슈어들을 연결한 연결망을 생성하거나, 일반 이슈어들 간의 연결망을 생성하거나, 또는 전체 이슈어들의 연결망을 생성하는 것을 특징으로 하는 방법.12. The method of claim 11,
The step of creating the connection network includes:
It is characterized by creating a network between entity name issue words, creating a network connecting general issue words centering on entity name issue words, creating a network between general issue words, or creating a network of all issue words how to do it
상기 연결망을 생성하는 단계는,
각 문장별로 문장에 출현하는 이슈어들 중 2개를 임의 선택하여 이슈어 쌍의 조합을 생성한 후, 전체 이슈어 쌍들에서 동일한 이슈어 쌍은 하나의 이슈어 쌍으로 하여 전체 이슈어 쌍을 서로 연속으로 연결하여 연결망을 생성하되, 연결망의 이슈어 노드들을 연결하는 선의 굵기나 길이를 동일 이슈어 쌍의 개수에 비례하게 설정하는 것을 특징으로 하는 방법.13. The method of claim 12,
The step of creating the connection network includes:
After generating a combination of issue word pairs by randomly selecting two of the issue words appearing in the sentence for each sentence, the same issue word pair among all issue word pairs is set as one issue word pair, and the entire issue word pairs are mutually matched. A method characterized in that a connection network is created by continuously connecting, but the thickness or length of a line connecting the issuer nodes of the connection network is set in proportion to the number of identical issuer pairs.
상기 연결망을 생성하는 단계는,
연결망의 각 이슈어 노드의 크기를, 다른 이슈어 노드와 쌍을 이루는 개수에 비례하여 설정하는 것을 특징으로 하는 방법.14. The method of claim 13,
The step of creating the connection network includes:
A method characterized in that the size of each issuer node of the connection network is set in proportion to the number of pairs with other issuer nodes.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190177119A KR20210084126A (en) | 2019-12-27 | 2019-12-27 | Apparatus and method for automatically extracting issue words and analyzing the network between the issue words |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190177119A KR20210084126A (en) | 2019-12-27 | 2019-12-27 | Apparatus and method for automatically extracting issue words and analyzing the network between the issue words |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20210084126A true KR20210084126A (en) | 2021-07-07 |
Family
ID=76862318
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190177119A KR20210084126A (en) | 2019-12-27 | 2019-12-27 | Apparatus and method for automatically extracting issue words and analyzing the network between the issue words |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20210084126A (en) |
-
2019
- 2019-12-27 KR KR1020190177119A patent/KR20210084126A/en not_active Application Discontinuation
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Al-Radaideh et al. | A hybrid approach for arabic text summarization using domain knowledge and genetic algorithms | |
US7269544B2 (en) | System and method for identifying special word usage in a document | |
US10318617B2 (en) | Methods and apparatus for extraction of content from an email or email threads for use in providing implicit profile attributes and content for recommendation engines | |
US7475007B2 (en) | Expression extraction device, expression extraction method, and recording medium | |
US9465790B2 (en) | SVO-based taxonomy-driven text analytics | |
US9721008B1 (en) | Recipe generation utilizing natural language processing | |
Gupta et al. | Multi-document summarization using sentence clustering | |
US10013404B2 (en) | Targeted story summarization using natural language processing | |
KR102296931B1 (en) | Real-time keyword extraction method and device in text streaming environment | |
Haider et al. | Impact analysis of adverbs for sentiment classification on Twitter product reviews | |
US11151180B2 (en) | Messaging digest | |
WO2020134626A1 (en) | Blockchain-based work evidence storage method, system, apparatus and device | |
US11928433B2 (en) | Systems and methods for term prevalence-volume based relevance | |
US10699078B2 (en) | Comment-centered news reader | |
Tahmasebi | A Study on Word2Vec on a Historical Swedish Newspaper Corpus. | |
Jhamtani et al. | Identifying suggestions for improvement of product features from online product reviews | |
CN112668321B (en) | Keyword extraction method and device, electronic equipment and storage medium | |
Winatmoko et al. | Automatic summarization of tweets in providing Indonesian trending topic explanation | |
Miyoshi et al. | Sentiment classification of customer reviews on electric products | |
Jhandir et al. | Controversy detection in Wikipedia using semantic dissimilarity | |
EP4109300A2 (en) | Method and apparatus for querying writing material, electronic device and storage medium | |
Kaji et al. | Paraphrasing predicates from written language to spoken language using the web | |
KR20210084126A (en) | Apparatus and method for automatically extracting issue words and analyzing the network between the issue words | |
Tzoukermann et al. | GIST-IT: Summarizing email using linguistic knowledge and machine learning | |
Li | A formal specification technique for communication protocol |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |