KR20210084126A - Apparatus and method for automatically extracting issue words and analyzing the network between the issue words - Google Patents

Apparatus and method for automatically extracting issue words and analyzing the network between the issue words Download PDF

Info

Publication number
KR20210084126A
KR20210084126A KR1020190177119A KR20190177119A KR20210084126A KR 20210084126 A KR20210084126 A KR 20210084126A KR 1020190177119 A KR1020190177119 A KR 1020190177119A KR 20190177119 A KR20190177119 A KR 20190177119A KR 20210084126 A KR20210084126 A KR 20210084126A
Authority
KR
South Korea
Prior art keywords
issue
network
words
name
entity
Prior art date
Application number
KR1020190177119A
Other languages
Korean (ko)
Inventor
이형주
강승현
이상호
이현민
안동환
유진희
Original Assignee
주식회사 코난테크놀로지
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 코난테크놀로지 filed Critical 주식회사 코난테크놀로지
Priority to KR1020190177119A priority Critical patent/KR20210084126A/en
Publication of KR20210084126A publication Critical patent/KR20210084126A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Abstract

Disclosed are an apparatus for automatically extracting issue words from various documents such as a mail, an approval, a posting and the like in an in-company online system and analyzing a connection network between the issue words based on the same to provide the analyzed network to a user, and a method thereof. According to the present invention, the apparatus for automatically extracting issue words and analyzing a connection network includes: a collection part collecting online texts; a keyword extraction part analyzing morphemes of the collected texts to extract a named entity and main keywords except for the named entity; an issue word extraction part extracting issue words based on the appearance frequency of the named entity and the main keywords; a connection network analysis part analyzing a connection relation between the issue words to create a connection network of the issue words; and a visualization part visualizing and outputting the connection network.

Description

이슈어 자동 추출 및 연결망 분석을 위한 장치 및 방법{Apparatus and method for automatically extracting issue words and analyzing the network between the issue words}Apparatus and method for automatically extracting issue words and analyzing the network between the issue words}

본 발명은 이슈어 자동 추출 및 연결망 분석을 위한 장치 및 방법에 관한 것으로, 보다 구체적으로 메일, 결재, 게시글 등의 다양한 문서들로부터 이슈어를 자동으로 추출하고 이를 기초로 이슈어 간의 연결망을 분석하는 장치 및 방법에 관한 것이다. The present invention relates to an apparatus and method for automatic issue word extraction and network analysis, and more specifically, to automatically extract issue words from various documents such as mail, payment, and post, and analyze the network between issue words based on this. It relates to an apparatus and method.

컴퓨팅 기술 및 통신 기술의 발전에 따라 기업들은 기업 종업원들을 위한 온라인 시스템을 구축하여 활용하고 있다. 이러한 온라인 시스템은 온라인 결재 서비스, 게시글 서비스, 메신저 서비스 등의 다양한 서비스를 제공한다. 최근에는 프로젝트 개발 등의 협업 서비스도 제공되고 있다. 그러나 종래의 협업 서비스는 각자가 맡은 업무에 대한 결과물을 공유하고 문서를 공동으로 편집하는 등의 제한된 기능만을 제공하고 있다. 따라서 온라인 시스템에서 향상된 협업 기회를 제공하는 것이 바람직하다. 온라인 시스템은 모든 업무를 온라인 상에서 처리하도록 하고 보안 이슈로 인해 모든 데이터를 사용자 단말이 아닌 서버에 저장하여 대량의 데이터가 누적되어 축적되고 있다. 따라서 이러한 축적된 데이터를 효과적으로 분석하게 되면 기업 종업원들에게 업무에 대한 인사이트(insight)를 줄 수 있고 이에 따라 협업 업무에 대한 효율을 높일 수 있다.With the development of computing technology and communication technology, companies are building and using online systems for corporate employees. Such an online system provides various services such as an online payment service, a posting service, and a messenger service. Recently, collaboration services such as project development have been provided. However, the conventional collaboration service provides only limited functions, such as sharing the results of each task and jointly editing a document. Therefore, it is desirable to provide enhanced collaboration opportunities in online systems. The online system allows all tasks to be processed online, and due to security issues, all data is stored in the server rather than the user terminal, and a large amount of data is accumulated and accumulated. Therefore, by effectively analyzing such accumulated data, it is possible to give corporate employees an insight on their work, and thus, to increase the efficiency of collaborative work.

본 발명은 기업 내 온라인 시스템의 메일, 결재, 게시글 등의 다양한 문서들로부터 이슈어를 자동으로 추출하고 이를 기초로 이슈어 간의 연결망을 분석하여 사용자에게 제공하는 장치 및 방법을 제공하는데 그 목적이 있다. An object of the present invention is to provide an apparatus and method for automatically extracting issue words from various documents such as mail, payment, and posting of an online system within a company, and analyzing the connection network between the issue words based on this and providing it to users. .

일 실시예에 따른 이슈어 자동 추출 및 연결망 분석을 위한 장치는, 온라인 상의 텍스트들을 수집하는 수집부; 상기 수집된 텍스트들을 형태소 분석하여 개체명 및 개체명 이외의 주요 키워드들을 추출하는 키워드 추출부; 상기 개체명 및 주요 키워드들의 출현 빈도수를 기초로 이슈어들을 추출하는 이슈어 추출부; 상기 이슈어들 간의 연결 관계를 분석하여 이슈어들의 연결망을 생성하는 연결망 분석부; 및 상기 연결망을 시각화하여 출력하는 시각화부를 포함한다.An apparatus for automatic issue word extraction and connection network analysis according to an embodiment includes: a collection unit for collecting online texts; a keyword extraction unit that morphologically analyzes the collected texts to extract an entity name and main keywords other than the entity name; an issue word extraction unit for extracting issue words based on the number of appearances of the entity name and main keywords; a network analysis unit that analyzes a connection relationship between the issue words to generate a network of issue words; and a visualization unit that visualizes and outputs the connection network.

상기 키워드 추출부는, 상기 수집된 텍스트들에서 문장을 분할하고, 각 문장별로 토큰을 분리한 후 형태소를 분석하여 개체명 및 주요 키워드들을 추출할 수 있다.The keyword extracting unit may extract an entity name and main keywords by dividing sentences from the collected texts, separating tokens for each sentence, and analyzing morphemes.

상기 키워드 추출부는, 형태소의 분석 후 개체명 사전을 기초로 개체명을 추출하고, 또는 시맨틱 패턴을 기초로 문장에서 개체명을 추출할 수 있다.The keyword extractor may extract the entity name based on the entity name dictionary after analyzing the morpheme, or extract the entity name from the sentence based on the semantic pattern.

상기 이슈어 추출부는, 임의의 기간 동안, 순위가 일정 기준 이상 상승한 개체명 또는 주요 키워드, 또는 일정 기준 이상 하강한 개체명 또는 주요 키워드, 또는 긍정 빈도수가 일정 기준 이상인 개체명 또는 주요 키워드, 또는 부정 빈도수가 일정 기준 이상인 개체명 또는 주요 키워드를 이슈어로 추출할 수 있다.The issue word extraction unit is, for a certain period, an entity name or main keyword whose ranking has risen by more than a certain standard, or an object name or main keyword that has fallen by more than a certain standard, or an object name or main keyword with a positive frequency of more than a certain standard, or negation An entity name or a key keyword whose frequency exceeds a certain standard can be extracted as an issue word.

상기 연결망 분석부는, 개체명 이슈어들 간의 연결망을 생성하거나, 개체명 이슈어를 중심으로 일반 이슈어들을 연결한 연결망을 생성하거나, 일반 이슈어들 간의 연결망을 생성하거나, 또는 전체 이슈어들의 연결망을 생성할 수 있다.The network analysis unit generates a network between entity name issues, creates a network that connects general issue words around entity name issue words, creates a network between general issue words, or a network of all issue words can create

상기 연결망 분석부는, 각 문장별로 문장에 출현하는 이슈어들 중 2개를 임의 선택하여 이슈어 쌍의 조합을 생성한 후, 전체 이슈어 쌍들에서 동일한 이슈어 쌍은 하나의 이슈어 쌍으로 하여 전체 이슈어 쌍을 서로 연속으로 연결하여 연결망을 생성하되, 연결망의 이슈어 노드들을 연결하는 선의 굵기나 길이를 동일 이슈어 쌍의 개수에 비례하게 설정할 수 있다.The network analysis unit randomly selects two of the issue words appearing in the sentence for each sentence to generate a combination of the issue word pairs, and then sets the same issue word pair as one issue word pair from all the issue word pairs. A network is created by continuously connecting issuer pairs to each other, but the thickness or length of the line connecting issuer nodes of the network can be set in proportion to the number of identical issuer pairs.

상기 연결망 분석부는, 연결망의 각 이슈어 노드의 크기를, 다른 이슈어 노드와 쌍을 이루는 개수에 비례하여 설정할 수 있다.The connection network analyzer may set the size of each issuer node of the connection network in proportion to the number of pairs with other issuer nodes.

다른 실시예에 따른 이슈어 자동 추출 및 연결망 분석을 위한 방법은, 온라인 상의 텍스트들을 수집하는 단계; 상기 수집된 텍스트들을 형태소 분석하여 개체명 및 개체명 이외의 주요 키워드들을 추출하는 단계; 상기 개체명 및 주요 키워드들의 출현 빈도수를 기초로 이슈어들을 추출하는 단계; 상기 이슈어들 간의 연결 관계를 분석하여 이슈어들의 연결망을 생성하는 단계; 및 상기 연결망을 시각화하여 출력하는 단계를 포함한다.A method for automatic issue word extraction and network analysis according to another embodiment includes: collecting online texts; extracting an entity name and key keywords other than the entity name by morphological analysis of the collected texts; extracting issue words based on the number of appearances of the entity name and main keywords; generating a network of issue words by analyzing a connection relationship between the issue words; and visualizing and outputting the connection network.

상기 주요 키워드들을 추출하는 단계는, 상기 수집된 텍스트들에서 문장을 분할하고, 각 문장별로 토큰을 분리한 후 형태소를 분석하여 개체명 및 주요 키워드들을 추출할 수 있다.The extracting of the main keywords may include dividing sentences from the collected texts, separating tokens for each sentence, and then analyzing morphemes to extract entity names and main keywords.

상기 주요 키워드들을 추출하는 단계는, 형태소의 분석 후 개체명 사전을 기초로 개체명을 추출하고, 또는 시맨틱 패턴을 기초로 문장에서 개체명을 추출할 수 있다.In the step of extracting the main keywords, the entity name may be extracted based on the entity name dictionary after the morpheme is analyzed, or the entity name may be extracted from the sentence based on the semantic pattern.

상기 이슈어들을 추출하는 단계는, 임의의 기간 동안, 순위가 일정 기준 이상 상승한 개체명 또는 주요 키워드, 또는 일정 기준 이상 하강한 개체명 또는 주요 키워드, 또는 긍정 빈도수가 일정 기준 이상인 개체명 또는 주요 키워드, 또는 부정 빈도수가 일정 기준 이상인 개체명 또는 주요 키워드를 이슈어로 추출할 수 있다.The step of extracting the issue words includes, for a certain period, an entity name or main keyword whose ranking has risen by more than a certain standard, or an object name or main keyword that has fallen by more than a certain standard, or an object name or main keyword with a positive frequency of more than a certain standard , or an entity name or main keyword with a frequency of negation greater than a certain standard can be extracted as an issue word.

상기 연결망을 생성하는 단계는, 개체명 이슈어들 간의 연결망을 생성하거나, 개체명 이슈어를 중심으로 일반 이슈어들을 연결한 연결망을 생성하거나, 일반 이슈어들 간의 연결망을 생성하거나, 또는 전체 이슈어들의 연결망을 생성할 수 있다.The step of creating the network includes creating a network between entity name issue words, creating a network connecting general issue words around entity name issue words, creating a network between general issue words, or creating a whole issue You can create a network of words.

상기 연결망을 생성하는 단계는, 각 문장별로 문장에 출현하는 이슈어들 중 2개를 임의 선택하여 이슈어 쌍의 조합을 생성한 후, 전체 이슈어 쌍들에서 동일한 이슈어 쌍은 하나의 이슈어 쌍으로 하여 전체 이슈어 쌍을 서로 연속으로 연결하여 연결망을 생성하되, 연결망의 이슈어 노드들을 연결하는 선의 굵기나 길이를 동일 이슈어 쌍의 개수에 비례하게 설정할 수 있다.In the step of creating the network, a combination of issue word pairs is generated by randomly selecting two of the issue words appearing in a sentence for each sentence, and then the same issue word pair is one issue word pair among all issue word pairs. A connection network is created by continuously connecting all issue word pairs to each other, but the thickness or length of the line connecting the issue word nodes of the connection network can be set in proportion to the number of identical issue word pairs.

상기 연결망을 생성하는 단계는, 연결망의 각 이슈어 노드의 크기를, 다른 이슈어 노드와 쌍을 이루는 개수에 비례하여 설정할 수 있다.In the generating of the connection network, the size of each issuer node of the connection network may be set in proportion to the number of pairs with other issuer nodes.

본 발명은 메일, 결재 문서 등의 다양한 비정형 데이터들에 대한 주요 키워드들을 도출하고 해당 키워드들 간의 연결 관계를 파악하여 사용자가 수행하는 업무에 대한 인사이트(insight)를 파악할 수 있도록 하여 업무 효율의 극대화를 도모한다.The present invention derives key keywords for various atypical data such as mail and payment documents, identifies the connection relationship between the keywords, and enables the user to grasp an insight into the work performed by the user, thereby maximizing work efficiency. try to

도 1은 이슈어 자동 추출 및 연결망 분석을 위한 장치의 구성을 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 연결망의 시각화의 예를 나타낸 도면이다.
도 3은 본 발명의 일 실시예에 따른 이슈어 자동 추출 및 연결망 분석 방법을 설명하는 흐름도이다.
1 is a diagram showing the configuration of an apparatus for automatic issue word extraction and network analysis.
2 is a diagram illustrating an example of visualization of a connection network according to an embodiment of the present invention.
3 is a flowchart illustrating an automatic issue word extraction and connection network analysis method according to an embodiment of the present invention.

상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일 실시예를 상세히 설명하기로 한다.The above-described objects, features, and advantages will become more apparent through the following detailed description in relation to the accompanying drawings, whereby those of ordinary skill in the art to which the present invention pertains can easily implement the technical idea of the present invention. There will be. In addition, in the description of the present invention, when it is determined that a detailed description of a known technology related to the present invention may unnecessarily obscure the gist of the present invention, the detailed description thereof will be omitted. Hereinafter, a preferred embodiment according to the present invention will be described in detail with reference to the accompanying drawings.

도 1은 이슈어 자동 추출 및 연결망 분석을 위한 장치의 구성을 나타낸 도면이다. 도 1을 참조한 장치는, 메모리, 메모리 제어기, 하나 이상의 프로세서(CPU), 주변 인터페이스, 입출력(I/O) 서브시스템, 디스플레이 장치, 입력 장치 및 통신 회로를 포함할 수 있다. 메모리는 고속 랜덤 액세스 메모리를 포함할 수 있고, 또한 하나 이상의 자기 디스크 저장 장치, 플래시 메모리 장치와 같은 불휘발성 메모리, 또는 다른 불휘발성 반도체 메모리 장치를 포함할 수 있다. 프로세서 및 주변 인터페이스와 같은 다른 구성요소에 의한 메모리로의 액세스는 메모리 제어기에 의하여 제어될 수 있다. 메모리는 각종 정보와 프로그램 명령어를 저장할 수 있고, 프로그램은 프로세서에 의해 실행된다. 주변 인터페이스는 입출력 주변 장치를 프로세서 및 메모리와 연결한다. 하나 이상의 프로세서는 다양한 소프트웨어 프로그램 및/또는 메모리에 저장되어 있는 명령어 세트를 실행하여 시스템을 여러 기능을 수행하고 데이터를 처리한다. I/O 서브시스템은 디스플레이 장치, 입력 장치와 같은 입출력 주변장치와 주변 인터페이스 사이에 인터페이스를 제공한다. 통신 회로는 외부 포트를 통한 통신 또는 RF 신호에 의한 통신을 수행한다. 통신 회로는 전기 신호를 RF 신호로 또는 그 반대로 변환하며 이 RF 신호를 통하여 통신 네트워크, 다른 이동형 게이트웨이 장치 및 통신 장치와 통신할 수 있다. 도 1에 도시된 바와 같이, 본 실시예에 따른 장치는, 수집부(110), 키워드 추출부(120), 이슈어 추출부(130), 연결망 분석부(140) 및 시각화부(150)를 포함하고, 이들은 프로그램으로 구현되어 메모리에 저장되어 프로세서에 의해 실행될 수 있고, 또는 소프트웨어 및 하드웨어의 조합으로 구현되어 동작을 수행할 수 있다. 본 실시예에 따른 장치는, 예를 들어 기업 내 그룹웨어 시스템을 구성할 수 있다. 1 is a diagram showing the configuration of an apparatus for automatic issue word extraction and network analysis. The device with reference to FIG. 1 may include a memory, a memory controller, one or more processors (CPUs), a peripheral interface, an input/output (I/O) subsystem, a display device, an input device, and communication circuitry. The memory may include high-speed random access memory, and may also include one or more magnetic disk storage devices, non-volatile memories such as flash memory devices, or other non-volatile semiconductor memory devices. Access to the memory by other components, such as the processor and peripheral interfaces, may be controlled by the memory controller. The memory may store various kinds of information and program instructions, and the program is executed by the processor. Peripheral interfaces connect the I/O peripherals to the processor and memory. One or more processors execute various software programs and/or sets of instructions stored in memory to perform various functions and process data in the system. The I/O subsystem provides an interface between input/output peripherals such as display devices and input devices and the peripheral interface. The communication circuit performs communication through an external port or communication by an RF signal. The communication circuitry converts electrical signals into RF signals and vice versa through which the RF signals can communicate with communication networks, other mobile gateway devices, and communication devices. As shown in FIG. 1 , the apparatus according to this embodiment includes a collection unit 110 , a keyword extraction unit 120 , an issue word extraction unit 130 , a connection network analysis unit 140 , and a visualization unit 150 . Including, these may be implemented as a program and stored in a memory to be executed by a processor, or may be implemented as a combination of software and hardware to perform an operation. The device according to the present embodiment may constitute, for example, a groupware system in an enterprise.

수집부(110)는, 온라인 상의 텍스트들을 수집한다. 바람직하게, 수집부(110)는, 기업 내 그룹웨어 시스템에서 메일, 결재 문서, 게시판 등의 문서를 수집하여 텍스트를 추출한다. 수집부(110)는 그룹웨어 시스템 내의 메일 프로그램, 결재 프로그램이나 게시판 프로그램 등에 연결되어 문서나 바이너리 포맷 파일을 수집하는 커넥터와 수집된 문서나 바이너리 포맷 파일 등으로부터 텍스트를 추출하는 필터를 포함할 수 있다. The collection unit 110 collects online texts. Preferably, the collection unit 110 collects documents such as mail, payment documents, and bulletin boards from a groupware system within the company and extracts text. The collection unit 110 may include a connector connected to a mail program, a payment program, a bulletin board program, etc. in the groupware system to collect documents or binary format files, and a filter for extracting text from the collected documents or binary format files.

키워드 추출부(120)는 상기 수집부(110)에서 수집된 텍스트를 형태소 분석하여 개체명 및 개체명 이외의 주요 키워드들을 추출한다. 바람직하게, 키워드 추출부(120)는, 수집된 텍스트에서 문장을 분리하고, 각 분리된 문장에서 토큰을 분리하여 형태소 사전에 기초하여 형태소 분석을 하여 주요 키워드를 추출하고, 추출된 주요 키워드 중에서 미리 준비된 개체명 사전(dictionary)(160)을 기초로 개체명 및 이외의 주요 키워드들을 분류한다. 여기서 개체명은 인명, 지명, 조직명, 브랜드명 등을 포함하고, 키워드 추출부(120)는 미리 준비된 개체명 사전(160)을 기초로 주요 키워드들 중에서 개체명을 식별한다. 키워드 추출부(120)는, 주요 키워드 추출시, 명사, 복합명사, 명사구 등을 주요 키워드로 추출하고 필요시 동사나 형용사도 추출할 수 있다. The keyword extraction unit 120 morphologically analyzes the text collected by the collection unit 110 to extract an entity name and main keywords other than the entity name. Preferably, the keyword extraction unit 120 separates sentences from the collected text, separates tokens from each separated sentence, performs morpheme analysis based on the morpheme dictionary to extract the main keywords, and extracts the main keywords in advance from the extracted main keywords. Based on the prepared entity name dictionary 160, entity names and other major keywords are classified. Here, the entity name includes a person's name, a place name, an organization name, a brand name, and the like, and the keyword extraction unit 120 identifies the entity name from among the main keywords based on the pre-prepared entity name dictionary 160 . The keyword extraction unit 120 may extract a noun, a compound noun, a noun phrase, etc. as a main keyword when extracting a main keyword, and may also extract a verb or an adjective if necessary.

예를 들어, "비정형 텍스트로부터 키워드를 추출한다" 라는 문장이 있을 때, 형태소 분석으로 주요 키워드를 추출하면 다음 [표1]과 같다.For example, when there is a sentence "Extracting keywords from unstructured text", main keywords are extracted by morphological analysis as shown in [Table 1].

원문original text 형태소 분석morpheme analysis 주요 키워드key keywords 비정형
텍스트로부터
키워드를
추출한다.
atypical
from text
keyword
extract
[비 PF 정형 NN]
[텍스트 NN 로 PP 부터 PP]
[키워드 NN 를 PP]
[추출 NN 하 SV ㄴ다 EF . SY]
[Non-PF Orthopedic NN]
[PP to PP with text NN]
[keyword NN PP]
[Extract NN to SV and EF. SY]
비정형
텍스트
키워드
추출
atypical
text
keyword
extraction

다른 예를 들면, "나는 서울에 살고있는 홍길동입니다" 라는 문장이 있을 때, 형태소 분석 및 개체명 사전을 이용하여 개체명을 추출하면 다음 [표2]와 같다.For another example, when there is a sentence "I am Gil-dong Hong living in Seoul", if the entity name is extracted using morpheme analysis and the entity name dictionary, the following [Table 2] is shown.

원문original text 형태소 분석morpheme analysis 개체명object name 나는
서울에
살고있는
홍길동입니다.
I
in Seoul
living
This is Gil-dong Hong.
[나 NP 는 PP]
[서울 NN 에 PP]
[살 VV 고 EF 있 VX 는 EF]
[홍길동 NN 이 CP ㅂ니다 EF . SY]
[I NP is PP]
[PP to Seoul NN]
[Buy VV and EF with VX and EF]
[Hong Gil-dong NN is CP and EF. SY]

서울(지명)

홍길동(인명)

Seoul (place name)

Hong Gil-dong (person)

키워드 추출부(120)는, 개체명을 추출시, 시맨틱 패턴으로 개체명을 추출할 수 있다. 예를 들어, "~에서 만나겠습니다" 라는 문장에 대한 패턴을 구축하면, "~"는 지명으로 판단하여 지명을 추출할 수 있다. 또는 "AAA는 BBB의 수도이다" 라는 문장에 대한 패턴을 구축하면, "AAA"와 "BBB"는 지명으로 판단할 수 있다. When extracting the entity name, the keyword extraction unit 120 may extract the entity name using a semantic pattern. For example, if a pattern is constructed for the sentence "I will meet you at ~", the place name can be extracted by determining that "~" is a place name. Alternatively, if a pattern is constructed for the sentence "AAA is the capital of BBB", "AAA" and "BBB" can be determined as place names.

키워드 추출부(120)는, 개체명 및 주요 키워드 추출과 별도로, 문장의 형태소 분석을 통해 형용사나 부사 등을 이용하여 해당 개체명 및 주요 키워드에 대한 긍정 또는 부정 정보를 분석하여 기록할 수 있다. 예를 들어, 특정 개체명 또는 주요 키워드가 나타난 문장에서 "좋다" 또는 "아름답다" 등의 긍정어가 있으면, 해당 특정 개체명 또는 주요 키워드에 대해 긍정 정보를 기록하고, "나쁘다" 또는 "괴롭다" 등의 부정어가 있으면, 해당 특정 개체명 또는 주요 키워드에 대해 부정 정보를 기록한다. 키워드 추출부(120)는 문장의 형태소 분석 후 감성어 사전을 기초로 긍정어 또는 부정어를 판별할 수 있다.The keyword extraction unit 120 may analyze and record positive or negative information on the entity name and the main keyword by using an adjective or an adverb, etc. through morpheme analysis of a sentence, separately from the entity name and main keyword extraction. For example, if there is an affirmative word such as "good" or "beautiful" in a sentence in which a specific entity name or main keyword appears, record positive information for the specific entity name or main keyword, "bad" or "painful", etc. If there is a negative word of , record negative information for the specific entity name or main keyword. The keyword extractor 120 may determine a positive word or a negative word based on the sentiment dictionary after morpheme analysis of the sentence.

키워드 추출부(120)는, 추출한 개체명 및 주요 키워드들을 인덱싱(indexing)하여 색인 처리한다. 키워드 추출부(120)는, 개체명 및 주요 키워드들이 추출된 문장 식별정보와, 개체명 및 주요 키워드들, 시간 정보 그리고 긍정 또는 부정 정보를 함께 관련지어 저장할 수 있다. 여기서 시간 정보는, 텍스트의 수집 시간일 수 있고, 또는 텍스트에 포함된 시간일 수 있다. 예를 들어, 수집된 텍스트가 메일인 경우, 메일의 보낸 날짜가 시간 정보가 될 수 있고, 게시물의 경우 게시글의 게시 시간이 시간 정보가 될 수 있다. The keyword extraction unit 120 indexes the extracted entity name and main keywords to process the index. The keyword extraction unit 120 may associate and store the sentence identification information from which the entity name and main keywords are extracted, the entity name and main keywords, time information, and positive or negative information together. Here, the time information may be a collection time of the text or may be a time included in the text. For example, when the collected text is a mail, the sending date of the mail may be time information, and in the case of a post, the posting time of a post may be time information.

이슈어 추출부(130)는, 상기 키워드 추출부(120)에서 추출된 개체명 및 주요 키워드들의 출현 빈도수를 기초로 개체명 및 주요 키워드들 중에서 이슈어들을 선정하여 추출한다. 여기서 출현 빈도수는 출현 문서 개수일 수 있고, 또는 단어 자체의 출현 횟수일 수 있으며, 또는 출현 문장 개수일 수 있으나 여기에 제한되지 않는다. 이슈어 추출부(130)는, 임의의 기간 동안 순위가 일정 기준 이상 상승한 개체명 또는 주요 키워드들, 또는 임의의 기간 동안 순위가 일정 기준 이상 하강한 개체명 또는 주요 키워드들, 또는 임의의 기간 동안 긍정 빈도수가 일정 기준 이상인 개체명 또는 주요 키워드들, 또는 임의의 기간 동안 부정 빈도수가 일정 기준 이상인 개체명 또는 주요 키워드들을 이슈어로 선정할 수 있다.The issue word extraction unit 130 selects and extracts issue words from the entity name and main keywords based on the number of appearances of the entity name and main keywords extracted by the keyword extraction unit 120 . Here, the frequency of occurrence may be the number of occurrences of documents, or the number of occurrences of the word itself, or the number of occurrences of sentences, but is not limited thereto. The issue word extracting unit 130, the entity name or main keywords whose ranking has risen by more than a certain standard for a certain period, or the object name or main keywords whose ranking has fallen by more than a certain standard for a certain period, or for a certain period An entity name or main keywords having a positive frequency equal to or greater than a certain criterion, or an entity name or main keywords having a negative frequency greater than or equal to a predetermined period during a certain period may be selected as the issue word.

연결망 분석부(140)는, 상기 이슈어 추출부(130)에서 추출된 이슈어들 간의 연결 관계를 분석하여 이슈어들의 연결망을 생성한다. 연결망 분석부(140)는, 개체명 이슈어들 간의 연결망을 생성하거나, 개체명 이슈어를 중심으로 일반 이슈어들을 연결한 연결망을 생성하거나, 일반 이슈어들 간의 연결망을 생성하거나, 또는 전체 이슈어들의 연결망을 생성할 수 있다. 예를 들어, 인물 이슈어 - 인물 이슈어 연결망, 또는 인물 이슈어 - 일반 이슈어 연결망, 또는 일반 이슈어 - 일반 이슈어 연결망 등을 생성할 수 있다. The network analysis unit 140 analyzes the connection relationship between the issue words extracted by the issue word extraction unit 130 to generate a network of issue words. The network analysis unit 140 generates a network between entity name issues, creates a network that connects general issue words around entity name issue words, creates a network between general issue words, or creates a whole issue You can create a network of words. For example, a person issuer - person issuer network, a person issuer -general issuer network, or a general issuer -general issuer network may be created.

보다 구체적으로, 연결망 분석부(140)는, 각 문장별로 문장에 출현하는 이슈어들 중 2개를 임의 선택하여 이슈어 쌍의 조합을 생성한 후, 전체 이슈어 쌍들에서 동일한 이슈어 쌍은 하나의 이슈어 쌍으로 하여 전체 이슈어 쌍을 서로 연속으로 연결하여 연결망을 생성하되, 연결망의 각 노드의 크기 및, 노드를 연결하는 연결선의 굵기나 길이는, 동일 이슈어 쌍의 개수에 비례하게 설정하거나, 이슈어의 빈도수에 비례하여 설정할 수 있다.More specifically, the network analysis unit 140 randomly selects two of the issue words appearing in the sentence for each sentence to generate a combination of the issue word pairs, and then selects one of the same issue word pairs from all the issue word pairs. Create a connection network by continuously connecting all issue word pairs with each other as an issue word pair, but set the size of each node in the network and the thickness or length of the connection line connecting the nodes in proportion to the number of identical issue word pairs Alternatively, it can be set in proportion to the frequency of the issue word.

예를 들어, 1번 문장에서 추출된 개체명 및 주요 키워드들 중 이슈어로 선정된 단어들이 {홍길동, 아버지, 이름, 소설}이고, 2번 문장에서 추출된 개체명 및 주요 키워드들 중 이슈어로 선정된 단어들이 {홍길동, 도술, 의적}이며, 3번 문장에서 추출된 개체명 및 주요 키워드들 중 이슈어로 선정된 단어들이 {홍길동, 소설, 전설, 의적}인 경우, 각 문장별로 이슈어들 중 2개를 임의 선택하여 이슈어 쌍의 조합을 생성한다. For example, among the entity names and main keywords extracted from sentence 1, the words selected as issue words are {Hong Gil-dong, father, name, novel}, and the entity names and main keywords extracted from sentence 2 are selected as issue words If the words selected are {Hong Gil-dong, Doctrine, Righteousness}, and among the entity names and main keywords extracted from sentence 3, the words selected as the issue words are {Hong Gil-dong, Novel, Legend, Evil}, among the issue words for each sentence Select two at random to create a combination of issuer pairs.

1번 문장의 이슈어들에서 2개를 임의 선택하여 이슈어 쌍의 조합을 생성하면, {홍길동-아버지}, {홍길동-이름}, {홍길동-소설}, {아버지-이름}, {아버지-소설}, {이름-소설}의 총 6개(즉, 4C2)의 이슈어 쌍이 생성된다. 2번 문장의 이슈어들에서 2개를 임의 선택하여 이슈어 쌍의 조합을 생성하면, {홍길동-도술}, {홍길동-의적}, {도술-의적}의 총 3개(즉, 3C2)의 이슈어 쌍이 생성된다. 3번 문장의 이슈어들에서 2개를 임의 선택하여 이슈어 쌍의 조합을 생성하면, {홍길동-소설}, {홍길동-전설}, {홍길동-의적}, {소설-전설}, {소설-의적}, {전설-의적}의 총 6개(즉, 4C2)의 이슈어 쌍이 생성된다. If you randomly select two from the issue words in sentence 1 to create a pair of issue words, {Hong Gil-dong-Father}, {Hong Gil-dong-Name}, {Hong Gil-Dong-Novel}, {Father-Name}, {Father- A total of 6 (ie, 4 C 2 ) pairs of issues of fiction} and {name-novel} are generated. If two is randomly selected from the issue words in sentence 2 to create a pair of issue words, a total of three of {Hong Gil-dong-Dosul}, {Hong Gil-Dong-Uijeok}, and {Dosul-Uijeok} (ie, 3 C 2 ) of an issue word pair is created. If you randomly select two from the issue words in sentence 3 to create a pair of issue words, {Hong Gil-dong-novel}, {Hong Gil-dong-legend}, {Hong Gil-dong-uijeok}, {novel-legend}, {novel- A total of 6 (ie, 4 C 2 ) pairs of issuers are created: righteous enemy} and {legendary-righteous enemy}.

이 예에서, {홍길동-아버지}, {홍길동-이름}, {아버지-이름}, {아버지-소설}, {이름-소설}, {홍길동-도술}, {도술-의적}, {홍길동-전설}, {소설-전설}, {소설-의적} 및 {전설-의적}의 이슈어 쌍은 각각 1개씩 있고, {홍길동-의적}과 {홍길동-소설}은 각각 2개씩 있다. 따라서, {홍길동-의적}과 {홍길동-소설}의 노드 연결선의 를 다른 노드 간 연결선보다 굵게 설정한다. In this example, {Hong Gil-Dong-Father}, {Hong Gil-Dong-Name}, {Father-Name}, {Father-Novel}, {Name-Novel}, {Hong Gil-Dong-Swordsman}, {Swordsman-Medical Enemy}, {Hong Gil-Dong-Legend }, {Novel-Legend}, {Novel-Euijeok}, and {Legend-Euijeok} have one issue word pair each, and {Hong Gil-Dong-Ui-Jeok} and {Hong Gil-Dong-Novel} have two each. Therefore, set the node connection line of {Hong Gil-dong-Euijeok} and {Hong Gil-dong-novel} to be thicker than the connection line between other nodes.

이 예에서, 홍길동 이슈어는, 8개의 다른 이슈어와 쌍을 이루고, 소설 이슈어는 5개의 다른 이슈어와 쌍을 이루며, 의적 이슈어는 4개의 다른 이슈어와 쌍을 이루며, 아버지/이름/전설 이슈어는 3개의 다른 이슈어와 쌍을 이루며, 도술 이슈어는 2개의 다른 이슈어와 쌍을 이룬다. 따라서, 홍길동의 노드 크기를 가장 크게 하고 소설/의적/아버지, 이름, 전설/도술의 순서로 그 노드의 크기를 작게 설정할 수 있다.In this example, Gildong Hong is paired with 8 other issuers, fictional issuer is paired with 5 other issuers, righteous issuer is paired with 4 other issuers, and father/name/legendary issuer is paired with 3 other issuers. Paired with another issuer, a magic issuer is paired with two other issuers. Therefore, the node size of Gil-dong Hong can be set to be the largest and the node size can be set to be small in the order of novel/righteous/father, name, legend/swordsman.

시각화부(150)는, 상기 연결망 분석부(140)에서 생성한 연결망을 시각화하여 출력한다. 도 2는 본 발명의 일 실시예에 따른 연결망의 시각화의 예를 나타낸 도면으로, 상술한 예에 기초한 연결망이다. 도 2에 도시된 바와 같이, 홍길동 노드와 의적 노드 간 연결선, 그리고 홍길동 노드와 소설 노드 간 연결선의 굵기는 다른 노드 간 연결선보다 굵다. 도 2를 참조한 실시예에서는 노드 간 연결선의 굵기를 이슈어 쌍의 개수에 비례하여 설정하나 여기에 제한되는 것은 아니다. 예를 들어, 홍길동 노드는 6개의 다른 노드와 연결되고, 아버지 노드는 3개의 다른 노드와 연결되므로, 홍길동 노드는 아버지 노드보다 2배 크기를 갖도록 설정할 수 있다. 다른 노드들도 동일한 방식으로 크기를 설정할 수 있다. The visualization unit 150 visualizes and outputs the connection network generated by the connection network analysis unit 140 . 2 is a diagram illustrating an example of visualization of a connection network according to an embodiment of the present invention, and is a connection network based on the above-described example. As shown in FIG. 2 , the thickness of the connecting line between the Hong Gil-dong node and the righteous node and the connecting line between the Hong Gil-dong node and the novel node is thicker than the connecting line between other nodes. In the embodiment with reference to FIG. 2 , the thickness of the connecting line between nodes is set in proportion to the number of issuer pairs, but is not limited thereto. For example, since the Gildong Hong node is connected to 6 other nodes and the father node is connected to 3 other nodes, the Gildong Hong node can be set to have twice the size of the father node. Other nodes can set their size in the same way.

도 3은 본 발명의 일 실시예에 따른 이슈어 자동 추출 및 연결망 분석 방법을 설명하는 흐름도이다. 도 3을 참조하면, 먼저 단계 S301에서 장치는 온라인 상의 텍스트들을 수집한다. 바람직하게, 장치는 기업 내 그룹웨어 시스템에서 메일, 결재 문서, 게시판 등의 문서를 수집하여 텍스트를 추출한다. 3 is a flowchart illustrating an automatic issue word extraction and connection network analysis method according to an embodiment of the present invention. Referring to FIG. 3 , first, in step S301, the device collects online texts. Preferably, the device extracts text by collecting documents such as mail, payment documents, and bulletin boards from a groupware system within the company.

단계 S302에서 장치는 상기 수집된 텍스트를 형태소 분석하여 개체명 및 개체명 이외의 주요 키워드들을 추출한다. 바람직하게, 장치는, 수집된 텍스트에서 문장을 분리하고, 각 분리된 문장에서 토큰을 분리하여 형태소 사전에 기초하여 형태소 분석을 하여 주요 키워드를 추출하고, 추출된 주요 키워드 중에서 미리 준비된 개체명 사전(dictionary)을 기초로 개체명 및 이외의 주요 키워드들을 분류한다. 여기서 개체명은 인명, 지명, 조직명, 브랜드명 등을 포함하고, 장치는 미리 준비된 개체명 사전(160)을 기초로 주요 키워드들 중에서 개체명을 식별한다. 장치는, 주요 키워드 추출시, 명사, 복합명사, 명사구 등을 주요 키워드로 추출하고 필요시 동사나 형용사도 추출할 수 있다. In step S302, the device morphologically analyzes the collected text to extract an entity name and main keywords other than the entity name. Preferably, the device separates sentences from the collected text, separates tokens from each separated sentence, performs morpheme analysis based on the morpheme dictionary to extract the main keywords, and extracts the main keywords from the extracted main keywords in the entity name dictionary ( dictionary), classifies entity names and other major keywords. Here, the entity name includes a person's name, a place name, an organization name, a brand name, and the like, and the device identifies the entity name from among the main keywords based on the pre-prepared entity name dictionary 160 . When extracting the main keyword, the apparatus may extract a noun, a compound noun, a noun phrase, etc. as a main keyword, and may also extract a verb or an adjective if necessary.

다른 실시예에서, 장치는, 개체명을 추출시, 시맨틱 패턴으로 개체명을 추출할 수 있다. 예를 들어, "~에서 만나겠습니다" 라는 문장에 대한 패턴을 구축하면, "~"는 지명으로 판단하여 지명을 추출할 수 있다. 또는 "AAA는 BBB의 수도이다" 라는 문장에 대한 패턴을 구축하면, "AAA"와 "BBB"는 지명으로 판단할 수 있다. 장치는 개체명 및 주요 키워드 추출과 별도로, 문장의 형태소 분석을 통해 형용사나 부사 등을 이용하여 해당 개체명 및 주요 키워드에 대한 긍정 또는 부정 정보를 분석하여 기록할 수 있다. 예를 들어, 특정 개체명 또는 주요 키워드가 나타난 문장에서 "좋다" 또는 "아름답다" 등의 긍정어가 있으면, 해당 특정 개체명 또는 주요 키워드에 대해 긍정 정보를 기록하고, "나쁘다" 또는 "괴롭다" 등의 부정어가 있으면, 해당 특정 개체명 또는 주요 키워드에 대해 부정 정보를 기록한다. 키워드 추출부(120)는 문장의 형태소 분석 후 감성어 사전을 기초로 긍정어 또는 부정어를 판별할 수 있다. 장치는 추출한 개체명 및 주요 키워드들을 인덱싱(indexing)하여 색인 처리한다. 장치는 개체명 및 주요 키워드들이 추출된 문장 식별정보와, 개체명 및 주요 키워드들, 시간 정보 그리고 긍정 또는 부정 정보를 함께 관련지어 저장할 수 있다. 여기서 시간 정보는, 텍스트의 수집 시간일 수 있고, 또는 텍스트에 포함된 시간일 수 있다. 예를 들어, 수집된 텍스트가 메일인 경우, 메일의 보낸 날짜가 시간 정보가 될 수 있고, 게시물의 경우 게시글의 게시 시간이 시간 정보가 될 수 있다. In another embodiment, when extracting the entity name, the device may extract the entity name using a semantic pattern. For example, if a pattern is constructed for the sentence "I will meet you at ~", the place name can be extracted by determining that "~" is a place name. Alternatively, if a pattern is constructed for the sentence "AAA is the capital of BBB", "AAA" and "BBB" can be determined as place names. Apart from extracting the entity name and main keyword, the device may analyze and record positive or negative information on the entity name and main keyword using adjectives or adverbs through morphological analysis of sentences. For example, if there is an affirmative word such as "good" or "beautiful" in a sentence in which a specific entity name or main keyword appears, record positive information for the specific entity name or main keyword, "bad" or "painful", etc. If there is a negative word of , record negative information about the specific entity name or main keyword. The keyword extractor 120 may determine a positive word or a negative word based on the sentiment dictionary after morpheme analysis of the sentence. The device indexes the extracted entity name and main keywords and processes the index. The device may associate and store the sentence identification information from which the entity name and main keywords are extracted, the entity name and main keywords, time information, and positive or negative information together. Here, the time information may be a collection time of the text or may be a time included in the text. For example, when the collected text is a mail, the sending date of the mail may be time information, and in the case of a post, the posting time of a post may be time information.

단계 S303에서 장치는 상기 추출된 개체명 및 주요 키워드들의 출현 빈도수를 기초로 개체명 및 주요 키워드들 중에서 이슈어들을 선정하여 추출한다. 여기서 출현 빈도수는 출현 문서 개수일 수 있고, 또는 단어 자체의 출현 횟수일 수 있으며, 또는 출현 문장 개수일 수 있으나 여기에 제한되지 않는다. 장치는, 임의의 기간 동안 순위가 일정 기준 이상 상승한 개체명 또는 주요 키워드들, 또는 임의의 기간 동안 순위가 일정 기준 이상 하강한 개체명 또는 주요 키워드들, 또는 임의의 기간 동안 긍정 빈도수가 일정 기준 이상인 개체명 또는 주요 키워드들, 또는 임의의 기간 동안 부정 빈도수가 일정 기준 이상인 개체명 또는 주요 키워드들을 이슈어로 선정할 수 있다.In step S303, the device selects and extracts issue words from the entity name and main keywords based on the number of appearances of the extracted entity name and main keywords. Here, the frequency of occurrence may be the number of occurrences of documents, or the number of occurrences of the word itself, or the number of occurrences of sentences, but is not limited thereto. The device includes the name of an entity or main keywords whose ranking has risen by more than a certain standard during a certain period, or the name or main keywords of an entity whose ranking has fallen by more than a certain standard for a certain period, or the number of positives for a certain period is greater than or equal to a certain standard An entity name or main keywords, or an entity name or main keywords having a negation frequency greater than or equal to a certain standard during an arbitrary period may be selected as the issue word.

단계 S304에서 장치는, 상기 추출된 이슈어들 간의 연결 관계를 분석하여 이슈어들의 연결망을 생성한다. 장치는 개체명 이슈어들 간의 연결망을 생성하거나, 개체명 이슈어를 중심으로 일반 이슈어들을 연결한 연결망을 생성하거나, 일반 이슈어들 간의 연결망을 생성하거나, 또는 전체 이슈어들의 연결망을 생성할 수 있다. 예를 들어, 인물 이슈어 - 인물 이슈어 연결망, 또는 인물 이슈어 - 일반 이슈어 연결망, 또는 일반 이슈어 - 일반 이슈어 연결망 등을 생성할 수 있다. In step S304, the device analyzes the connection relationship between the extracted issue words to create a network of issue words. The device creates a network between entity name issues, creates a network that connects general issue words around entity name issue words, creates a network between general issue words, or creates a network of all issue words. can For example, a person issuer - person issuer network, a person issuer -general issuer network, or a general issuer -general issuer network may be created.

보다 구체적으로, 장치는 각 문장별로 문장에 출현하는 이슈어들 중 2개를 임의 선택하여 이슈어 쌍의 조합을 생성한 후, 전체 이슈어 쌍들에서 동일한 이슈어 쌍은 하나의 이슈어 쌍으로 하여 전체 이슈어 쌍을 서로 연속으로 연결하여 연결망을 생성하되, 연결망의 각 노드의 크기 및, 노드를 연결하는 연결선의 굵기나 길이는, 동일 이슈어 쌍의 개수에 비례하게 설정하거나, 이슈어의 빈도수에 비례하여 설정할 수 있다.More specifically, the device arbitrarily selects two of the issue words appearing in the sentence for each sentence to generate a combination of issue word pairs, and then sets the same issue word pair as one issue word pair among all issue word pairs. A connection network is created by continuously connecting all issue word pairs to each other, but the size of each node of the connection network and the thickness or length of the connection line connecting the nodes are set in proportion to the number of identical issue word pairs, or the frequency of the issue word can be set in proportion to

예를 들어, 1번 문장에서 추출된 개체명 및 주요 키워드들 중 이슈어로 선정된 단어들이 {홍길동, 아버지, 이름, 소설}이고, 2번 문장에서 추출된 개체명 및 주요 키워드들 중 이슈어로 선정된 단어들이 {홍길동, 도술, 의적}이며, 3번 문장에서 추출된 개체명 및 주요 키워드들 중 이슈어로 선정된 단어들이 {홍길동, 소설, 전설, 의적}인 경우, 각 문장별로 이슈어들 중 2개를 임의 선택하여 이슈어 쌍의 조합을 생성한다. For example, among the entity names and main keywords extracted from sentence 1, the words selected as issue words are {Hong Gil-dong, father, name, novel}, and the entity names and main keywords extracted from sentence 2 are selected as issue words If the words selected are {Hong Gil-dong, Doctrine, Righteousness}, and among the entity names and main keywords extracted from sentence 3, the words selected as the issue words are {Hong Gil-dong, Novel, Legend, Evil}, among the issue words for each sentence Select two at random to create a combination of issuer pairs.

1번 문장의 이슈어들에서 2개를 임의 선택하여 이슈어 쌍의 조합을 생성하면, {홍길동-아버지}, {홍길동-이름}, {홍길동-소설}, {아버지-이름}, {아버지-소설}, {이름-소설}의 총 6개(즉, 4C2)의 이슈어 쌍이 생성된다. 2번 문장의 이슈어들에서 2개를 임의 선택하여 이슈어 쌍의 조합을 생성하면, {홍길동-도술}, {홍길동-의적}, {도술-의적}의 총 3개(즉, 3C2)의 이슈어 쌍이 생성된다. 3번 문장의 이슈어들에서 2개를 임의 선택하여 이슈어 쌍의 조합을 생성하면, {홍길동-소설}, {홍길동-전설}, {홍길동-의적}, {소설-전설}, {소설-의적}, {전설-의적}의 총 6개(즉, 4C2)의 이슈어 쌍이 생성된다. If you randomly select two from the issue words in sentence 1 to create a pair of issue words, {Hong Gil-dong-Father}, {Hong Gil-dong-Name}, {Hong Gil-Dong-Novel}, {Father-Name}, {Father- A total of 6 (ie, 4 C 2 ) pairs of issues of fiction} and {name-novel} are generated. If two is randomly selected from the issue words in sentence 2 to create a pair of issue words, a total of three of {Hong Gil-dong-Dosul}, {Hong Gil-Dong-Uijeok}, and {Dosul-Uijeok} (ie, 3 C 2 ) of an issue word pair is created. If you randomly select two from the issue words in sentence 3 to create a pair of issue words, {Hong Gil-dong-novel}, {Hong Gil-dong-legend}, {Hong Gil-dong-uijeok}, {novel-legend}, {novel- A total of 6 (ie, 4 C 2 ) pairs of issuers are created: righteous enemy} and {legendary-righteous enemy}.

이 예에서, {홍길동-아버지}, {홍길동-이름}, {아버지-이름}, {아버지-소설}, {이름-소설}, {홍길동-도술}, {도술-의적}, {홍길동-전설}, {소설-전설}, {소설-의적} 및 {전설-의적}의 이슈어 쌍은 각각 1개씩 있고, {홍길동-의적}과 {홍길동-소설}은 각각 2개씩 있다. 따라서, {홍길동-의적}과 {홍길동-소설}의 노드 연결선의 를 다른 노드 간 연결선보다 굵게 설정한다. In this example, {Hong Gil-Dong-Father}, {Hong Gil-Dong-Name}, {Father-Name}, {Father-Novel}, {Name-Novel}, {Hong Gil-Dong-Swordsman}, {Swordsman-Ritual Enemies}, {Hong Gil-Dong-Legend }, {Novel-Legend}, {Novel-Euijeok}, and {Legend-Euijeok} have one issue word pair each, and {Hong Gil-Dong-Ui-Jeok} and {Hong Gil-Dong-Novel} have two each. Therefore, set the node connection line of {Hong Gil-dong-Euijeok} and {Hong Gil-dong-novel} to be thicker than the connection line between other nodes.

이 예에서, 홍길동 이슈어는, 8개의 다른 이슈어와 쌍을 이루고, 소설 이슈어는 5개의 다른 이슈어와 쌍을 이루며, 의적 이슈어는 4개의 다른 이슈어와 쌍을 이루며, 아버지/이름/전설 이슈어는 3개의 다른 이슈어와 쌍을 이루며, 도술 이슈어는 2개의 다른 이슈어와 쌍을 이룬다. 따라서, 홍길동의 노드 크기를 가장 크게 하고 소설/의적/아버지, 이름, 전설/도술의 순서로 그 노드의 크기를 작게 설정할 수 있다.In this example, Gil-dong Hong is paired with 8 other issuers, fictional issues are paired with 5 other issues, righteous issuers are paired with 4 other issues, and father/name/legendary issues are 3 Paired with another issuer, a magic issuer is paired with two other issuers. Therefore, the node size of Gil-dong Hong can be set to be the largest and the node size can be set to be small in the order of novel/righteous/father, name, legend/swordsman.

단계 S305에서, 장치는 상기 단계 S304에서 생성된 연결망을 시각화하여 출력한다. 예를 들어, 그룹웨어 시스템의 대시보드에 출력할 수 있다. In step S305, the device visualizes and outputs the connection network created in step S304. For example, it can be output to the dashboard of the groupware system.

본 명세서는 많은 특징을 포함하는 반면, 그러한 특징은 본 발명의 범위 또는 특허청구범위를 제한하는 것으로 해석되어서는 안 된다. 또한, 본 명세서에서 개별적인 실시예에서 설명된 특징들은 단일 실시예에서 결합되어 구현될 수 있다. 반대로, 본 명세서에서 단일 실시예에서 설명된 다양한 특징들은 개별적으로 다양한 실시예에서 구현되거나, 적절히 결합되어 구현될 수 있다.While this specification contains many features, such features should not be construed as limiting the scope of the invention or the claims. Also, features described in individual embodiments herein may be implemented in combination in a single embodiment. Conversely, various features described herein in a single embodiment may be implemented in various embodiments individually, or may be implemented in appropriate combination.

도면에서 동작들이 특정한 순서로 설명되었으나, 그러한 동작들이 도시된 바와 같은 특정한 순서로 수행되는 것으로, 또는 일련의 연속된 순서, 또는 원하는 결과를 얻기 위해 모든 설명된 동작이 수행되는 것으로 이해되어서는 안 된다. 특정 환경에서 멀티태스킹 및 병렬 프로세싱이 유리할 수 있다. 아울러, 상술한 실시예에서 다양한 시스템 구성요소의 구분은 모든 실시예에서 그러한 구분을 요구하지 않는 것으로 이해되어야 한다. 상술한 프로그램 구성요소 및 시스템은 일반적으로 단일 소프트웨어 제품 또는 멀티플 소프트웨어 제품에 패키지로 구현될 수 있다.Although acts have been described in the drawings in a specific order, it should not be understood that the acts are performed in the specific order as shown, or that all of the described acts are performed in a continuous order, or to obtain a desired result. . Multitasking and parallel processing can be advantageous in certain circumstances. In addition, it should be understood that the division of various system components in the above-described embodiments does not require such division in all embodiments. The program components and systems described above may generally be implemented as a package in a single software product or multiple software products.

상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(시디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다. 이러한 과정은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있으므로 더 이상 상세히 설명하지 않기로 한다.The method of the present invention as described above may be implemented as a program and stored in a computer-readable form in a recording medium (CD-ROM, RAM, ROM, floppy disk, hard disk, magneto-optical disk, etc.). Since this process can be easily performed by a person skilled in the art to which the present invention pertains, it will not be described in detail any more.

이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.The present invention described above, for those of ordinary skill in the art to which the present invention pertains, various substitutions, modifications and changes are possible without departing from the technical spirit of the present invention. It is not limited by the drawing.

110 : 수집부
120 : 키워드 추출부
130 : 이슈어 추출부
140 : 연결망 분석부
150 : 시각화부
160 : 개체명 사전
110: collection unit
120: keyword extraction unit
130: issue word extraction unit
140: network analysis unit
150: visualization unit
160: Dictionary of entity names

Claims (14)

이슈어 자동 추출 및 연결망 분석을 위한 장치에 있어서,
온라인 상의 텍스트들을 수집하는 수집부;
상기 수집된 텍스트들을 형태소 분석하여 개체명 및 개체명 이외의 주요 키워드들을 추출하는 키워드 추출부;
상기 개체명 및 주요 키워드들의 출현 빈도수를 기초로 이슈어들을 추출하는 이슈어 추출부;
상기 이슈어들 간의 연결 관계를 분석하여 이슈어들의 연결망을 생성하는 연결망 분석부; 및
상기 연결망을 시각화하여 출력하는 시각화부를 포함하는 장치.
A device for automatic issue word extraction and network analysis, comprising:
a collection unit for collecting online texts;
a keyword extraction unit that morphologically analyzes the collected texts to extract an entity name and main keywords other than the entity name;
an issue word extraction unit for extracting issue words based on the number of appearances of the entity name and main keywords;
a network analysis unit that analyzes a connection relationship between the issue words to generate a network of issue words; and
A device including a visualization unit for visualizing and outputting the connection network.
제 1 항에 있어서,
상기 키워드 추출부는,
상기 수집된 텍스트들에서 문장을 분할하고, 각 문장별로 토큰을 분리한 후 형태소를 분석하여 개체명 및 주요 키워드들을 추출하는 것을 특징으로 하는 장치.
The method of claim 1,
The keyword extraction unit,
The apparatus according to claim 1, wherein sentences are divided from the collected texts, tokens are separated for each sentence, and morphemes are analyzed to extract entity names and main keywords.
제 2 항에 있어서,
상기 키워드 추출부는,
형태소의 분석 후 개체명 사전을 기초로 개체명을 추출하고,
또는 시맨틱 패턴을 기초로 문장에서 개체명을 추출하는 것을 특징으로 하는 장치.
3. The method of claim 2,
The keyword extraction unit,
After morpheme analysis, the entity name is extracted based on the entity name dictionary,
or an apparatus for extracting an entity name from a sentence based on a semantic pattern.
제 1 항에 있어서,
상기 이슈어 추출부는,
임의의 기간 동안, 순위가 일정 기준 이상 상승한 개체명 또는 주요 키워드, 또는 일정 기준 이상 하강한 개체명 또는 주요 키워드, 또는 긍정 빈도수가 일정 기준 이상인 개체명 또는 주요 키워드, 또는 부정 빈도수가 일정 기준 이상인 개체명 또는 주요 키워드를 이슈어로 추출하는 것을 특징으로 하는 장치.
The method of claim 1,
The issue word extraction unit,
For a certain period, the name or main keyword of an entity whose ranking has risen by more than a certain standard, or the name or main keyword of an entity that has fallen by more than a certain standard, or an object name or major keyword with a positive frequency of more than a certain standard, or an object with a negative frequency of more than a certain standard A device characterized in that the name or main keyword is extracted as an issue word.
제 4 항에 있어서,
상기 연결망 분석부는,
개체명 이슈어들 간의 연결망을 생성하거나, 개체명 이슈어를 중심으로 일반 이슈어들을 연결한 연결망을 생성하거나, 일반 이슈어들 간의 연결망을 생성하거나, 또는 전체 이슈어들의 연결망을 생성하는 것을 특징으로 하는 장치.
5. The method of claim 4,
The network analysis unit,
It is characterized by creating a network between entity name issue words, creating a network connecting general issue words centering on entity name issue words, creating a network between general issue words, or creating a network of all issue words device to do.
제 5 항에 있어서,
상기 연결망 분석부는,
각 문장별로 문장에 출현하는 이슈어들 중 2개를 임의 선택하여 이슈어 쌍의 조합을 생성한 후, 전체 이슈어 쌍들에서 동일한 이슈어 쌍은 하나의 이슈어 쌍으로 하여 전체 이슈어 쌍을 서로 연속으로 연결하여 연결망을 생성하되, 연결망의 이슈어 노드들을 연결하는 선의 굵기나 길이를 동일 이슈어 쌍의 개수에 비례하게 설정하는 것을 특징으로 하는 장치.
6. The method of claim 5,
The network analysis unit,
After generating a combination of issue word pairs by randomly selecting two of the issue words appearing in the sentence for each sentence, the same issue word pair among all issue word pairs is set as one issue word pair, and the entire issue word pairs are mutually matched. A device characterized in that a connection network is created by continuously connecting, but the thickness or length of a line connecting issuer nodes of the connection network is set in proportion to the number of identical issuer pairs.
제 6 항에 있어서,
상기 연결망 분석부는,
연결망의 각 이슈어 노드의 크기를, 다른 이슈어 노드와 쌍을 이루는 개수에 비례하여 설정하는 것을 특징으로 하는 장치.
7. The method of claim 6,
The network analysis unit,
A device characterized in that the size of each issuer node of the connection network is set in proportion to the number of pairs with other issuer nodes.
이슈어 자동 추출 및 연결망 분석을 위한 방법에 있어서,
온라인 상의 텍스트들을 수집하는 단계;
상기 수집된 텍스트들을 형태소 분석하여 개체명 및 개체명 이외의 주요 키워드들을 추출하는 단계;
상기 개체명 및 주요 키워드들의 출현 빈도수를 기초로 이슈어들을 추출하는 단계;
상기 이슈어들 간의 연결 관계를 분석하여 이슈어들의 연결망을 생성하는 단계; 및
상기 연결망을 시각화하여 출력하는 단계를 포함하는 방법.
In the method for automatic issue word extraction and network analysis,
collecting texts online;
extracting an entity name and key keywords other than the entity name by morphological analysis of the collected texts;
extracting issue words based on the number of appearances of the entity name and main keywords;
generating a network of issue words by analyzing a connection relationship between the issue words; and
Visualizing and outputting the connection network.
제 8 항에 있어서,
상기 주요 키워드들을 추출하는 단계는,
상기 수집된 텍스트들에서 문장을 분할하고, 각 문장별로 토큰을 분리한 후 형태소를 분석하여 개체명 및 주요 키워드들을 추출하는 것을 특징으로 하는 방법.
9. The method of claim 8,
The step of extracting the main keywords,
A method of dividing sentences from the collected texts, separating tokens for each sentence, and then analyzing morphemes to extract entity names and main keywords.
제 9 항에 있어서,
상기 주요 키워드들을 추출하는 단계는,
형태소의 분석 후 개체명 사전을 기초로 개체명을 추출하고,
또는 시맨틱 패턴을 기초로 문장에서 개체명을 추출하는 것을 특징으로 하는 방법.
10. The method of claim 9,
The step of extracting the main keywords,
After analyzing the morpheme, the entity name is extracted based on the entity name dictionary,
or extracting the entity name from the sentence based on the semantic pattern.
제 8 항에 있어서,
상기 이슈어들을 추출하는 단계는,
임의의 기간 동안, 순위가 일정 기준 이상 상승한 개체명 또는 주요 키워드, 또는 일정 기준 이상 하강한 개체명 또는 주요 키워드, 또는 긍정 빈도수가 일정 기준 이상인 개체명 또는 주요 키워드, 또는 부정 빈도수가 일정 기준 이상인 개체명 또는 주요 키워드를 이슈어로 추출하는 것을 특징으로 하는 방법.
9. The method of claim 8,
The step of extracting the issue words,
For a certain period, the name or main keyword of an entity whose ranking has risen by more than a certain standard, or the name or main keyword of an entity that has fallen by more than a certain standard, or an object name or major keyword with a positive frequency of more than a certain standard, or an object with a negative frequency of more than a certain standard A method characterized in that the name or main keyword is extracted as an issue word.
제 11 항에 있어서,
상기 연결망을 생성하는 단계는,
개체명 이슈어들 간의 연결망을 생성하거나, 개체명 이슈어를 중심으로 일반 이슈어들을 연결한 연결망을 생성하거나, 일반 이슈어들 간의 연결망을 생성하거나, 또는 전체 이슈어들의 연결망을 생성하는 것을 특징으로 하는 방법.
12. The method of claim 11,
The step of creating the connection network includes:
It is characterized by creating a network between entity name issue words, creating a network connecting general issue words centering on entity name issue words, creating a network between general issue words, or creating a network of all issue words how to do it
제 12 항에 있어서,
상기 연결망을 생성하는 단계는,
각 문장별로 문장에 출현하는 이슈어들 중 2개를 임의 선택하여 이슈어 쌍의 조합을 생성한 후, 전체 이슈어 쌍들에서 동일한 이슈어 쌍은 하나의 이슈어 쌍으로 하여 전체 이슈어 쌍을 서로 연속으로 연결하여 연결망을 생성하되, 연결망의 이슈어 노드들을 연결하는 선의 굵기나 길이를 동일 이슈어 쌍의 개수에 비례하게 설정하는 것을 특징으로 하는 방법.
13. The method of claim 12,
The step of creating the connection network includes:
After generating a combination of issue word pairs by randomly selecting two of the issue words appearing in the sentence for each sentence, the same issue word pair among all issue word pairs is set as one issue word pair, and the entire issue word pairs are mutually matched. A method characterized in that a connection network is created by continuously connecting, but the thickness or length of a line connecting the issuer nodes of the connection network is set in proportion to the number of identical issuer pairs.
제 13 항에 있어서,
상기 연결망을 생성하는 단계는,
연결망의 각 이슈어 노드의 크기를, 다른 이슈어 노드와 쌍을 이루는 개수에 비례하여 설정하는 것을 특징으로 하는 방법.
14. The method of claim 13,
The step of creating the connection network includes:
A method characterized in that the size of each issuer node of the connection network is set in proportion to the number of pairs with other issuer nodes.
KR1020190177119A 2019-12-27 2019-12-27 Apparatus and method for automatically extracting issue words and analyzing the network between the issue words KR20210084126A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190177119A KR20210084126A (en) 2019-12-27 2019-12-27 Apparatus and method for automatically extracting issue words and analyzing the network between the issue words

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190177119A KR20210084126A (en) 2019-12-27 2019-12-27 Apparatus and method for automatically extracting issue words and analyzing the network between the issue words

Publications (1)

Publication Number Publication Date
KR20210084126A true KR20210084126A (en) 2021-07-07

Family

ID=76862318

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190177119A KR20210084126A (en) 2019-12-27 2019-12-27 Apparatus and method for automatically extracting issue words and analyzing the network between the issue words

Country Status (1)

Country Link
KR (1) KR20210084126A (en)

Similar Documents

Publication Publication Date Title
Al-Radaideh et al. A hybrid approach for arabic text summarization using domain knowledge and genetic algorithms
US7269544B2 (en) System and method for identifying special word usage in a document
US10318617B2 (en) Methods and apparatus for extraction of content from an email or email threads for use in providing implicit profile attributes and content for recommendation engines
US7475007B2 (en) Expression extraction device, expression extraction method, and recording medium
US9465790B2 (en) SVO-based taxonomy-driven text analytics
US9721008B1 (en) Recipe generation utilizing natural language processing
Gupta et al. Multi-document summarization using sentence clustering
US10013404B2 (en) Targeted story summarization using natural language processing
KR102296931B1 (en) Real-time keyword extraction method and device in text streaming environment
Haider et al. Impact analysis of adverbs for sentiment classification on Twitter product reviews
US11151180B2 (en) Messaging digest
WO2020134626A1 (en) Blockchain-based work evidence storage method, system, apparatus and device
US11928433B2 (en) Systems and methods for term prevalence-volume based relevance
US10699078B2 (en) Comment-centered news reader
Tahmasebi A Study on Word2Vec on a Historical Swedish Newspaper Corpus.
Jhamtani et al. Identifying suggestions for improvement of product features from online product reviews
CN112668321B (en) Keyword extraction method and device, electronic equipment and storage medium
Winatmoko et al. Automatic summarization of tweets in providing Indonesian trending topic explanation
Miyoshi et al. Sentiment classification of customer reviews on electric products
Jhandir et al. Controversy detection in Wikipedia using semantic dissimilarity
EP4109300A2 (en) Method and apparatus for querying writing material, electronic device and storage medium
Kaji et al. Paraphrasing predicates from written language to spoken language using the web
KR20210084126A (en) Apparatus and method for automatically extracting issue words and analyzing the network between the issue words
Tzoukermann et al. GIST-IT: Summarizing email using linguistic knowledge and machine learning
Li A formal specification technique for communication protocol

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E601 Decision to refuse application