KR102296931B1 - 텍스트 스트리밍 환경에서의 실시간 키워드 추출 방법 및 장치 - Google Patents
텍스트 스트리밍 환경에서의 실시간 키워드 추출 방법 및 장치 Download PDFInfo
- Publication number
- KR102296931B1 KR102296931B1 KR1020190132568A KR20190132568A KR102296931B1 KR 102296931 B1 KR102296931 B1 KR 102296931B1 KR 1020190132568 A KR1020190132568 A KR 1020190132568A KR 20190132568 A KR20190132568 A KR 20190132568A KR 102296931 B1 KR102296931 B1 KR 102296931B1
- Authority
- KR
- South Korea
- Prior art keywords
- word
- sentence
- data
- value
- word data
- Prior art date
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 75
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 71
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000004364 calculation method Methods 0.000 claims abstract description 26
- 238000004458 analytical method Methods 0.000 claims description 14
- 230000000877 morphologic effect Effects 0.000 claims description 10
- 239000000284 extract Substances 0.000 description 17
- 238000003672 processing method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000007781 pre-processing Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 3
- 238000013016 damping Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 229910052709 silver Inorganic materials 0.000 description 2
- 239000004332 silver Substances 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명의 일 실시예에 따른 실시간 키워드 추출 장치는 텍스트 스트리밍 환경에서 입력된 제1 문장의 단어 데이터를 수신하는 데이터 수신부; 상기 입력된 제1 문장의 단어 데이터를 연산하고, 상기 제1 문장의 단어 데이터의 연산값이 저장되는 마이크로 테이블(micro table)을 생성하여 상기 연산값을 상기 생성된 마이크로 테이블에 저장하는 저장부; 상기 마이크로 테이블에 저장된 연산값을 기반으로 TF-IDF(Term frequency-Inverse document frequency) 알고리즘을 이용하여 상기 단어 데이터에 포함된 단어들의 단어 가중치를 산출하는 단어 가중치 산출부; 상기 산출된 단어 가중치를 기반으로 단어 노드 그래프(node graph)를 생성하는 단어 노드 그래프 생성부; 상기 단어 가중치 및 상기 단어 노드 그래프에서 연결된 인접한 단어 노드의 수를 기반으로 PageRank 알고리즘을 이용하여 상기 단어 데이터에 포함된 단어들의 중요도 값을 산출하는 중요도 값 산출부; 및 상기 산출된 중요도 값에 따라 키워드를 추출하는 키워드 추출부를 포함할 수 있다.
Description
도 2는 본 발명의 일 실시예에 따른 실시간 키워드 추출 장치를 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 실시간 키워드 추출 방법의 알고리즘을 개략적으로 나타내는 순서도이다.
도 4는 본 발명의 일 실시예에 따른 저장부가 생성한 마이크로 테이블(micro table)을 개략적으로 나타낸다.
도 5는 본 발명의 일 실시예에 따른 단어 노드 그래프 생성부에서 생성한 단어 노드 그래프 및 PageRank 알고리즘을 이용하여 중요도 값을 산출하는 것을 나타내는 도면이다.
도 6은 기존 TextRank 알고리즘과 마이크로 배치(micro batch) 처리 방식 TextRank 알고리즘의 연산 속도 차이의 일례를 나타내는 그래프이다.
도 7은 본 발명의 일 실시예에 따른 실시간 키워드 추출 방법의 흐름도를 나타내는 도면이다.
도 8은 본 발명의 일 실시예에 따른 실시간 키워드 추출 방법에서 단어 데이터가 추가적으로 입력될 때의 흐름을 전반적으로 나타낸 도면이다.
청춘 | 꽃 | 열정 | 사랑 | |
DF 값 | 2 | 2 | 1 | 1 |
문장A | 2 | 1 | 0 | 0 |
문장B | 0 | 0 | 1 | 0 |
문장C | 3 | 0 | 0 | 0 |
문장D | 0 | 1 | 0 | 1 |
청춘 | 꽃 | 열정 | 사랑 |
0.66 | 0.33 | 0 | 0 |
0 | 0 | 1 | 0 |
1 | 0 | 0 | 0 |
0 | 0.33 | 0 | 0.66 |
100 : 데이터 수신부
200 : 저장부
300 : 단어 가중치 산출부
400 : 단어 노드 그래프 생성부
500 : 중요도 값 산출부
600 : 키워드 추출부
Claims (19)
- 실시간 키워드 추출 방법에 있어서,
(a) 텍스트 스트리밍 환경에서 입력된 제1 문장의 단어 데이터를 수신하는 단계;
(b) 상기 입력된 제1 문장의 단어 데이터를 연산하고, 상기 제1 문장의 단어 데이터의 연산값이 저장되는 마이크로 테이블(micro table)을 생성하여 상기 연산값을 상기 생성된 마이크로 테이블에 저장하는 단계;
(c) 상기 마이크로 테이블에 저장된 연산값을 기반으로 TF-IDF(Term frequency-Inverse document frequency) 알고리즘을 이용하여 상기 단어 데이터에 포함된 단어들의 단어 가중치를 산출하는 단계;
(d) 상기 산출된 단어 가중치를 기반으로 단어 노드 그래프(node graph)를 생성하는 단계;
(e) 상기 단어 가중치 및 상기 단어 노드 그래프에서 연결된 인접한 단어 노드의 수를 기반으로 PageRank 알고리즘을 이용하여 상기 단어 데이터에 포함된 단어들의 중요도 값을 산출하는 단계; 및
(f) 상기 산출된 중요도 값에 따라 키워드를 추출하는 단계를 포함하고,
상기 방법은 (d) 단계 이후에, 텍스트 스트리밍 환경에서 입력된 상기 제1 문장과 상이한 제2 문장의 단어 데이터를 수신하는 단계;
상기 제2 문장의 단어 데이터를 상기 마이크로 테이블에 존재하는 기존 단어 데이터 및 상기 마이크로 테이블에 존재하지 않는 신규 단어 데이터로 분류하는 단계;
상기 기존 단어 데이터를 연산하여 상기 마이크로 테이블의 연산값을 갱신하는 단계;
상기 갱신된 마이크로 테이블의 연산값을 기반으로 TF-IDF 알고리즘을 이용하여 상기 기존 단어 데이터에 포함된 단어들의 단어 가중치를 산출하는 단계; 및
상기 산출된 단어 가중치를 기반으로 상기 단어 노드 그래프를 갱신하는 단계를 더 포함하는, 실시간 키워드 추출 방법. - 삭제
- 제1항에 있어서,
상기 분류하는 단계 이후에,
상기 신규 단어 데이터를 연산하여 그 연산값을 상기 마이크로 테이블에 저장하는 단계; 및
상기 신규 단어 데이터에 대한 단어 노드를 상기 단어 노드 그래프에 추가하는 단계를 더 포함하는,
실시간 키워드 추출 방법. - 제1항에 있어서,
상기 입력된 문장의 단어 데이터는 상기 입력된 문장으로부터 형태소 분석을 통해 추출된 단어들을 포함하는,
실시간 키워드 추출 방법. - 제1항에 있어서,
상기 마이크로 테이블의 연산값은 상기 단어 데이터에 포함된 단어들의 특정 문장 내 빈도수 및 상기 단어들이 포함된 문장의 개수를 나타내는 DF(document frequency) 값을 포함하는,
실시간 키워드 추출 방법. - 제1항에 있어서,
상기 (e) 단계는,
상기 마이크로 테이블의 연산값에서 DF 값이 2 이상인 단어들의 단어 노드들에 대해서만 선택적으로 상기 중요도 값을 산출하는 단계를 포함하는,
실시간 키워드 추출 방법. - 제6항에 있어서,
상기 (e) 단계는,
상기 단어 노드들 중 인접한 단어 노드들끼리 그룹을 형성하고, 상기 그룹 별로 상기 중요도 값을 산출하는 단계를 포함하는,
실시간 키워드 추출 방법. - 제1항에 있어서,
상기 (f) 단계는,
상기 중요도 값의 순서에 따라 추출되는 상기 키워드의 수를 설정하는 단계를 포함하는,
실시간 키워드 추출 방법. - 제1항에 있어서,
상기 (a) 단계 이전에,
텍스트 스트리밍 환경에서 상기 제1 문장을 입력받고, 상기 제1 문장으로부터 문자 데이터를 추출하는 단계를 더 포함하는,
실시간 키워드 추출 방법. - 제1항 및 제3항 내지 제9항 중 어느 한 항에 기재된 방법을 컴퓨터 상에서 수행하기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
- 텍스트 스트리밍 환경에서 입력된 제1 문장의 단어 데이터를 수신하는 데이터 수신부;
상기 입력된 제1 문장의 단어 데이터를 연산하고, 상기 제1 문장의 단어 데이터의 연산값이 저장되는 마이크로 테이블(micro table)을 생성하여 상기 연산값을 상기 생성된 마이크로 테이블에 저장하는 저장부;
상기 마이크로 테이블에 저장된 연산값을 기반으로 TF-IDF(Term frequency-Inverse document frequency) 알고리즘을 이용하여 상기 단어 데이터에 포함된 단어들의 단어 가중치를 산출하는 단어 가중치 산출부;
상기 산출된 단어 가중치를 기반으로 단어 노드 그래프(node graph)를 생성하는 단어 노드 그래프 생성부;
상기 단어 가중치 및 상기 단어 노드 그래프에서 연결된 인접한 단어 노드의 수를 기반으로 PageRank 알고리즘을 이용하여 상기 단어 데이터에 포함된 단어들의 중요도 값을 산출하는 중요도 값 산출부; 및
상기 산출된 중요도 값에 따라 키워드를 추출하는 키워드 추출부를 포함하고,
상기 데이터 수신부가 입력된 상기 제1 문장과 상이한 제2 문장의 단어 데이터를 수신하는 경우,
상기 저장부는 상기 제2 문장의 단어 데이터를 상기 마이크로 테이블에 존재하는 기존 단어 데이터 및 상기 마이크로 테이블에 존재하지 않는 신규 단어 데이터로 분류하고, 상기 기존 단어 데이터를 연산하여 상기 마이크로 테이블의 연산값을 갱신하고,
상기 단어 가중치 산출부는 상기 갱신된 마이크로 테이블의 연산값을 기반으로 TF-IDF 알고리즘을 이용하여 상기 기존 단어 데이터에 포함된 단어들의 단어 가중치를 산출하고,
상기 단어 노드 그래프 생성부는 상기 산출된 단어 가중치를 기반으로 상기 단어 노드 그래프를 갱신하는, 실시간 키워드 추출 장치. - 삭제
- 제11항에 있어서,
상기 저장부에서 상기 신규 단어 데이터가 분류된 경우,
상기 저장부는 상기 신규 단어 데이터를 연산하여 그 연산값을 상기 마이크로 테이블에 저장하고,
상기 단어 노드 그래프 생성부는 상기 신규 단어 데이터에 대한 단어 노드를 상기 단어 노드 그래프에 추가하는,
실시간 키워드 추출 장치. - 제11항에 있어서,
상기 입력된 문장의 단어 데이터는 상기 입력된 문장으로부터 형태소 분석을 통해 추출된 단어들을 포함하는,
실시간 키워드 추출 장치. - 제11항에 있어서,
상기 마이크로 테이블의 연산값은 상기 단어 데이터에 포함된 단어들의 특정 문장 내 빈도수 및 상기 단어들이 포함된 문장의 개수를 나타내는 DF(document frequency) 값을 포함하는,
실시간 키워드 추출 장치. - 제11항에 있어서,
상기 중요도 값 산출부는,
상기 마이크로 테이블의 연산값에서 DF 값이 2 이상인 단어들의 단어 노드들 들에 대해서만 선택적으로 상기 중요도 값을 산출하는,
실시간 키워드 추출 장치. - 제16항에 있어서,
상기 중요도 값 산출부는,
상기 단어 노드들 중 인접한 단어 노드들끼리 그룹을 형성하고, 상기 그룹 별로 상기 중요도 값을 산출하는,
실시간 키워드 추출 장치. - 제11항에 있어서,
상기 키워드 추출부는,
상기 중요도 값의 순서에 따라 추출되는 상기 키워드의 수를 설정 가능한,
실시간 키워드 추출 장치. - 제11항에 있어서,
상기 실시간 키워드 추출 장치는,
텍스트 스트리밍 환경에서 상기 제1 문장을 입력받고,
상기 제1 문장으로부터 형태소 분석을 통해 단어들을 추출하는 전처리부를 더 포함하는,
실시간 키워드 추출 장치.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190063395 | 2019-05-29 | ||
KR20190063395 | 2019-05-29 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200137924A KR20200137924A (ko) | 2020-12-09 |
KR102296931B1 true KR102296931B1 (ko) | 2021-09-01 |
Family
ID=73787588
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190132568A KR102296931B1 (ko) | 2019-05-29 | 2019-10-23 | 텍스트 스트리밍 환경에서의 실시간 키워드 추출 방법 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102296931B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11640493B1 (en) | 2022-06-03 | 2023-05-02 | Actionpower Corp. | Method for dialogue summarization with word graphs |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102405831B1 (ko) * | 2021-01-26 | 2022-06-08 | 주식회사 댈류 | 검색 결과 보정을 제공하는 검색엔진 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체 |
KR102443911B1 (ko) * | 2021-01-26 | 2022-09-19 | 주식회사 댈류 | 즉각적 반응을 제공하는 검색엔진 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체 |
CN113312532B (zh) * | 2021-06-01 | 2022-10-21 | 哈尔滨工业大学 | 一种基于深度学习面向公检法领域的舆情等级预测方法 |
CN116681056B (zh) * | 2023-05-24 | 2024-01-26 | 人民网股份有限公司 | 基于价值量表的文本价值计算方法及装置 |
CN118940761B (zh) * | 2024-07-23 | 2025-01-28 | 上海烜翊科技有限公司 | 一种基于模型的文档生成方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100785754B1 (ko) | 2006-03-22 | 2007-12-18 | 엔에이치엔(주) | 지역별 실시간 키워드 순위 결정 방법 및 지역별 실시간키워드 순위 결정 시스템 |
KR101060594B1 (ko) * | 2008-12-15 | 2011-08-31 | 한국전자통신연구원 | 문서 데이터의 키워드 추출 및 연관어 네트워크 구성 장치 및 방법 |
KR101105798B1 (ko) | 2009-02-05 | 2012-01-17 | 한국전자통신연구원 | 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템 및 그 방법 |
KR101508260B1 (ko) | 2014-02-04 | 2015-04-07 | 성균관대학교산학협력단 | 문서 특징을 반영하는 요약문 생성 장치 및 방법 |
-
2019
- 2019-10-23 KR KR1020190132568A patent/KR102296931B1/ko active IP Right Grant
Non-Patent Citations (1)
Title |
---|
Ugo Erra etc. Approximate TF-IDF based on topic extraction from massive message stream using the GPU(2015)* |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11640493B1 (en) | 2022-06-03 | 2023-05-02 | Actionpower Corp. | Method for dialogue summarization with word graphs |
Also Published As
Publication number | Publication date |
---|---|
KR20200137924A (ko) | 2020-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102296931B1 (ko) | 텍스트 스트리밍 환경에서의 실시간 키워드 추출 방법 및 장치 | |
US7461056B2 (en) | Text mining apparatus and associated methods | |
CN109299480B (zh) | 基于上下文语境的术语翻译方法及装置 | |
US20170169008A1 (en) | Method and electronic device for sentiment classification | |
CN107463548B (zh) | 短语挖掘方法及装置 | |
CN108038096A (zh) | 知识库文档快速检索方法、应用服务器计算机可读存储介质 | |
CN106528532A (zh) | 文本纠错方法、装置及终端 | |
CN107885717B (zh) | 一种关键词提取方法及装置 | |
CN103914494A (zh) | 一种微博用户身份识别方法及系统 | |
US9767193B2 (en) | Generation apparatus and method | |
CN108241613A (zh) | 一种提取关键词的方法及设备 | |
Gunawan et al. | Multi-document summarization by using textrank and maximal marginal relevance for text in Bahasa Indonesia | |
CN105095222B (zh) | 单元词替换方法、搜索方法及装置 | |
Tandel et al. | Multi-document text summarization-a survey | |
Twinandilla et al. | Multi-document summarization using k-means and latent dirichlet allocation (lda)–significance sentences | |
CN112926297B (zh) | 处理信息的方法、装置、设备和存储介质 | |
CN111159389A (zh) | 基于专利要素的关键词提取方法、终端、可读存储介质 | |
JP5718405B2 (ja) | 発話選択装置、方法、及びプログラム、対話装置及び方法 | |
CN109918661B (zh) | 同义词获取方法及装置 | |
KR102519955B1 (ko) | 토픽 키워드의 추출 장치 및 방법 | |
CN113377922B (zh) | 用于匹配信息的方法、装置、电子设备以及介质 | |
CN115964477A (zh) | 文本摘要生成方法、装置、电子设备及存储介质 | |
CN112529627B (zh) | 商品隐式属性抽取方法、装置、计算机设备及存储介质 | |
Gothankar et al. | Extractive Text and Video Summarization using TF-IDF Algorithm | |
Wenchao et al. | A modified approach to keyword extraction based on word-similarity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20191023 |
|
PA0201 | Request for examination | ||
PG1501 | Laying open of application | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20210531 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20210811 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20210826 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20210826 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20240701 Start annual number: 4 End annual number: 4 |