KR102445443B1 - 문서내 키워드 추출 자동화 방법 및 시스템 - Google Patents
문서내 키워드 추출 자동화 방법 및 시스템 Download PDFInfo
- Publication number
- KR102445443B1 KR102445443B1 KR1020220065375A KR20220065375A KR102445443B1 KR 102445443 B1 KR102445443 B1 KR 102445443B1 KR 1020220065375 A KR1020220065375 A KR 1020220065375A KR 20220065375 A KR20220065375 A KR 20220065375A KR 102445443 B1 KR102445443 B1 KR 102445443B1
- Authority
- KR
- South Korea
- Prior art keywords
- keyword group
- score
- keyword
- frequency
- group
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명의 일 실시예에 따른 문서내 키워드 추출 자동화 방법은 키워드 그룹 추출부가 입력되거나 저장된 각 문서내에 포함된 키워드 그룹(W)으로부터 스코어 키워드 그룹(WS) 및 빈도 키워드 그룹(WF)을 추출하는 단계; 지정 빈도 키워드 그룹(FW) 검색부가 범위 스코어 키워드 그룹 추출부가 기준 스코어를 이용하여 스코어 키워드 그룹(WS)으로부터 범위 스코어 키워드 그룹(WK)을 추출하는 단계; 지정 빈도 키워드 그룹(FW) 검색부가 상기 범위 스코어 키워드 그룹(WK)와 빈도 키워드 그룹(WF)의 교집합인 지정 빈도 키워드 그룹(FW)을 검색하는 단계; 기준 키워드 그룹(WSK) 검색부가 상기 지정 빈도 키워드 그룹(FW)으로부터 기준 빈도수를 이용하여 추출된 빈도 기준 키워드 그룹(FK)과 상기 범위 스코어 키워드 그룹(WK)의 교집합인 기준 키워드 그룹(WSK)을 검색하는 단계; 및 최종 키워드 그룹 추출부가 상기 기준 키워드 그룹(WSK)의 스코어를 이용하여 상기 범위 스코어 키워드 그룹(WK)로부터 최종 키워드 그룹을 추출하는 단계를 포함할 수 있다.
Description
본 발명은 문서내 키워드 추출 자동화 방법 및 시스템에 관한 것이다.
방대한 문서 데이터 중에서 필요한 문서 데이터를 발견할 수 있게 하는 검색 시스템에 필수적인 기술 중 하나인 키워드 추출 기술은 자주 등장하는 키워드나 중요하다고 지정된 키워드를 유효한 키워드로 추출하여 해당 키워드를 미리 저장하여 둘 수 있다. 이를 통해 검색 시스템을 효율적으로 작동하게 할 수 있다.
다만, 종래에는 이러한 유효 키워드를 추출하려면 유효하다고 여겨지는 키워드의 스코어를 추출하기 위한 쓰레스홀드를 고정하여 지정해야만 했으나 그동안 적절한 목적에 따라 유용한 쓰레스홀드를 지정하는데 어려움이 있어왔다.
본 발명은 문서내에서 고정적인 쓰레스홀드 없이 일정 비율의 키워드를 자동으로 추출하기 위한 문서내 키워드 추출 자동화 방법 및 시스템을 제공하고자 한다.
본 발명의 일 실시예에 따른 문서내 키워드 추출 자동화 방법은 키워드 그룹 추출부가 입력되거나 저장된 각 문서내에 포함된 키워드 그룹(W)으로부터 스코어 키워드 그룹(WS) 및 빈도 키워드 그룹(WF)을 추출하는 단계; 지정 빈도 키워드 그룹(FW) 검색부가 범위 스코어 키워드 그룹 추출부가 기준 스코어를 이용하여 스코어 키워드 그룹(WS)으로부터 범위 스코어 키워드 그룹(WK)을 추출하는 단계; 지정 빈도 키워드 그룹(FW) 검색부가 상기 범위 스코어 키워드 그룹(WK)와 빈도 키워드 그룹(WF)의 교집합인 지정 빈도 키워드 그룹(FW)을 검색하는 단계; 기준 키워드 그룹(WSK) 검색부가 상기 지정 빈도 키워드 그룹(FW)으로부터 기준 빈도수를 이용하여 추출된 빈도 기준 키워드 그룹(FK)과 상기 범위 스코어 키워드 그룹(WK)의 교집합인 기준 키워드 그룹(WSK)을 검색하는 단계; 및 최종 키워드 그룹 추출부가 상기 기준 키워드 그룹(WSK)의 스코어를 이용하여 상기 범위 스코어 키워드 그룹(WK)로부터 최종 키워드 그룹을 추출하는 단계를 포함할 수 있다.
상기 기준 스코어는, 상기 스코어 키워드 그룹(WS)로부터 산출될 수 있다.
상기 기준 빈도수는, 상기 빈도 키워드 그룹(WF)로부터 산출될 수 있다.
상기 스코어 키워드 그룹(WS)은 키워드와 키워드의 중요도 값이 매핑되며, 상기 빈도 키워드 그룹(WF)은 키워드와 키워드의 문서내 출연 빈도값이 매핑될 수 있다.
상기 기준 스코어는, 상기 스코어 키워드 그룹(WS)의 스코어 평균값 또는 스코어 중위값을 이용하여 산출될 수 있다.
상기 기준 빈도수는, 상기 지정 빈도 키워드 그룹(FW)의 빈도수 평균값 또는 빈도수 중위값을 이용하여 산출될 수 있다.
상기 빈도 기준 키워드 그룹(FK)은, 상기 기준 빈도수보다 빈도수가 큰 키워드 중에서 빈도수가 가장 작은 키워드일 수 있다.
상기 범위 스코어 키워드 그룹(WK)는 상기 스코어 키워드 그룹(WS) 내 키워드 중에서 기준 스코어 이상인 키워드이고, 상기 최종 키워드 그룹은 상기 범위 키워드 그룹(WK) 내 키워드 중에서 상기 기준 키워드 그룹(WSK)의 스코어 이상인 키워드일 수 있다.
본 발명의 일 실시예에 따른 문서내 키워드 추출 자동화 시스템은 키워드 그룹(W)으로부터 스코어 키워드 그룹(WS) 및 빈도 키워드 그룹(WF)을 추출하는 키워드 그룹 추출부; 기준 스코어를 이용하여 스코어 키워드 그룹(WS)으로부터 범위 스코어 키워드 그룹(WK)을 추출하는 범위 스코어 키워드 그룹(WK) 추출부; 상기 범위 스코어 키워드 그룹(WK)와 빈도 키워드 그룹(WF)의 교집합인 지정 빈도 키워드 그룹(FW)을 검색하는 지정 빈도 키워드 그룹(FW) 검색부; 상기 지정 빈도 키워드 그룹(FW)으로부터 기준 빈도수를 이용하여 추출된 빈도 기준 키워드 그룹(FK)과 상기 범위 스코어 키워드 그룹(WK)의 교집합인 기준 키워드 그룹(WSK)을 검색하는 기준 키워드 그룹(WSK) 검색부; 및 상기 기준 키워드 그룹(WSK)의 스코어를 이용하여 상기 범위 스코어 키워드 그룹(WK)로부터 최종 키워드 그룹을 추출하는 최종 키워드 그룹 추출부를 포함할 수 있다.
상기 기준 스코어는, 상기 스코어 키워드 그룹(WS)의 스코어 평균값과 스코어 중위값 중 큰 값이고,상기 기준 빈도수는,상기 지정 빈도 키워드 그룹(FW)의 빈도수 평균값과 빈도수 중위값 중 큰 값일 수 있다.
본 발명의 일 실시예에 따르면 키워드의 스코어에 해당하는 쓰레스홀드를 고정하여 키워드를 추출할 필요 없어 쓰레스홀드 지정 시간이 단축되며, 문서내에서 일정 비율의 키워드를 자동으로 추출해낼 수 있어 문서 간 유사도 측정이나 내용 요약, 검색 등의 효율성을 높이는 효과가 있다.
다만, 본 발명의 효과가 상술한 효과들로 제한되는 것은 아니며, 언급되지 아니한 효과들도 본 명세서 및 첨부된 도면으로부터 본 발명이 속하는 기술분야 에서 통상의 지식을 가진 자에게는 명확히 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 문서내 키워드 추출 자동화 시스템의 개념도이다.
도 2는 본 발명의 일 실시예에 따른 문서내 키워드 추출 자동화 방법의 전체적인 시계열적 흐름을 나타내는 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 문서내 키워드 추출 자동화 방법의 전체적인 시계열적 흐름을 나타내는 흐름도이다.
본 발명의 바람직한 실시예에 대하여 더 구체적으로 설명하되, 이미 주지된 기술적 부분에 대해서는 설명의 간결함을 위해 생략하거나 압축하기로 한다.
도 1은 본 발명의 일 실시예에 따른 문서내 키워드 추출 자동화 시스템의 개념도이다.
이하에서는 본 발명의 일 실시예에 따른 문서내 키워드 추출 자동화 시스템을 설명한다.
본 발명의 일 실시예에 따른 문서내 키워드 추출 자동화 시스템(100)은 범위 스코어 키워드 그룹(WK) 추출부(110), 지정 빈도 키워드 그룹(FW) 검색부(120), 기준 키워드 그룹(WSK) 검색부(130) 및 최종 키워드 그룹 추출부(140)를 포함할 수 있다.
문서에는 각종 텍스트 등 자료가 포함된 문서들일 수 있고, 각종 행정 문서, 보고서, 논문 및 평가서 등 다양한 포맷일 수 있고, odt, pdf, ppt, pptx, xls, xlsx, doc, docx, hwp 및 hwpx 등 파일형식을 갖출 수 있으며 데이터베이스 상에 저장되어 있을 수 있다.
본 발명의 일 실시예에 따른 입력된 문서내 키워드 추출 자동화 시스템(100)의 키워드 그룹 추출부를 통하여 키워드 그룹(W)으로부터 추출된 스코어 키워드 그룹(WS) 및 빈도 키워드 그룹(WF)으로부터 최종 키워드 그룹을 추출할 수 있다(S210).
스코어 키워드 그룹(WS)은 키워드와 키워드의 중요도 값이 매핑되며, 빈도 키워드 그룹(WF)은 키워드와 키워드의 문서내 출연 빈도값이 매핑되어 있을 수 있다.
구체적으로 범위 키워드 그룹(WK) 추출부(110)는 기준 스코어를 이용하여 스코어 키워드 그룹(WS)으로부터 범위 스코어 키워드 그룹(WK)을 추출할 수 있다(S230).
여기서 기준 스코어는, 스코어 키워드 그룹(WS)로부터 산출되며, 기준 빈도수는 빈도 키워드 그룹(WF)로부터 산출될 수 있다(S220).
예를 들어 기준 스코어는 스코어 키워드 그룹(WS)의 스코어 평균값 또는 스코어 중위값을 이용하여 산출될 수 있는데 기준 스코어는 스코어 키워드 그룹(WS)의 스코어 평균값과 스코어 중위값 중 큰 값으로 정해질 수 있다.
지정 빈도 키워드 그룹(FW) 검색부(120)는 범위 스코어 키워드 그룹(WK)와 빈도 키워드 그룹(WF)의 교집합인 지정 빈도 키워드 그룹(FW)을 검색할 수 있다.
예를 들어서, 빈도 기준 키워드 그룹(FK)은 기준 빈도수보다 빈도수가 큰 키워드 중에서 빈도수가 가장 작은 키워드로 정해질 수 있다.
기준 키워드 그룹(WSK) 검색부(130)는 지정 빈도 키워드 그룹(FW)으로부터 기준 빈도수를 이용하여 추출된 빈도 기준 키워드 그룹(FK)과 범위 스코어 키워드 그룹(WK)의 교집합인 기준 키워드 그룹(WSK)을 검색할 수 있다.
예를 들어서, 범위 스코어 키워드 그룹(WK)는 상기 스코어 키워드 그룹(WS) 내 키워드 중에서 기준 스코어 이상인 키워드일 수 있다.
최종 키워드 그룹 추출부(140)는 기준 키워드 그룹(WSK)의 스코어를 이용하여 상기 범위 스코어 키워드 그룹(WK)로부터 최종 키워드 그룹을 추출할 수 있다.
즉, 최종 키워드 그룹은 상기 범위 키워드 그룹(WK) 내 키워드 중에서 상기 기준 키워드 그룹(WSK)의 스코어 이상인 키워드일 수 있다.
또한, 기준 빈도수는 지정 빈도 키워드 그룹(FW)의 빈도수 평균값 또는 빈도수 중위값을 이용하여 산출될 수 있는데 지정 빈도 키워드 그룹(FW)의 빈도수 평균값과 빈도수 중위값 중 큰 값으로 정해질 수 있다.
구체적인 일례를 들어 설명하면, 문서내 키워드 그룹(W)가 다음과 같을 수수 있다.
W={문서, 키워드, 사이, 연관도, 분석, 추천, 기계, 학습, 이용, 분류, 효과, 가중치, 중요도, 연관성, 위키, 백과, 사전}
이때, 스코어 키워드 그룹(WS)는 각 키워드와 키워드의 중요도값이 매핑되어져 다음과 같을 수 있다.
WS={(문서, 5.9), (키워드, 5.7), (사이, 5.1), (연관도, 4.5), (분석, 4.4), (추천, 4.1), (기계, 3.6), (학습, 3.3), (이용, 2. 8), (분류, 2.6), (효과, 2.5), (가중치, 2.3), (중요도, 2.2), (연관성, 2.1), (위키, 1.9), (백과, 1.8), (사전, 1.5)}
또한, 빈도 키워드 그룹(WF)는 각 키워드와 키워드가 문서내 출연한 횟수인 빈도값과 매핑되어져 다음과 같을 수 있다.
WF={(문서, 9), (키워드, 9), (사이, 8), (연관도, 7), (분석, 7), (추천, 7), (기계, 6), (학습, 6), (이용, 5), (분류, 5), (효과, 5), (가중치, 4), (중요도, 4), (연관성, 3), (위키, 3), (백과, 2), (사전, 1)}
예를 들어서, 기준 스코어를 스코어 중위값과 평균값 중 큰 값이라고 할 때 중위값을 갖는 키워드는 (이용, 2.8)이고 평균값은 3.2이므로 기준 스코어는 3.2이다.
범위 스코어 키워드 그룹(WK)는 스코어 키워드(WS) 중에서 기준 스코어 이상인 키워드라고 할 때 다음과 같다.
WK={(문서, 5.9), (키워드, 5.7), (사이, 5.1), (연관도, 4.5), (분석, 4.4), (추천, 4.1), (기계, 3.6), (학습, 3.3)}
이에 지정 빈도 키워드 그룹(FW)를 검색하면 다음과 같다.
FW={(문서, 5.9), (키워드, 5.7), (사이, 5.1), (연관도, 4.5), (분석, 4.4), (추천, 4.1), (기계, 3.6), (학습, 3.3)}
기준 빈도수를 빈도 키워드 그룹(WF)의 빈도수 평균값과 중위값 중 큰 값이라고 하면 중위값을 갖는 키워드는 (연관도, 7)이고, 평균값은 7.375이므로 기준 빈도수는 7.375이다.
이에 빈도 기준 키워드 그룹(FK)는 지정 빈도 키워드 그룹(FW) 중에서 기준 빈도수보다 큰 키워드 중에서 가장 빈도수가 작은 키워드이므로 다음과 같다.
FK={(사이,8)}
기준 키워드 그룹(WSK)는 빈도 기준 키워드 그룹(FK)와 범위 스코어 키워드 그룹(WK)의 교집합으로 구해지므로 키워드는 '사이'로 검색된다.
기준 키워드 그룹(WSK)의 스코어는 5.1이므로 이를 이용하여 최종 키워드 그룹을 기준 키워드 이상인 키워드로 추출한다면 최종 키워드는 다음과 같이 추출된다.
최종 키워드 그룹 = {(문서, 5.9), (키워드, 5.7), (사이, 5.1)}
상술한 바와 같이 본 발명에 따르면 키워드의 스코어에 해당하는 문서내에서 기준값을 산출할 수 있으므로 기준값으로 쓰레스홀드를 고정하여 키워드를 추출할 필요 없이 일정 비율의 키워드를 자동으로 추출해낼 수 있어 해당 키워드를 이용하여 지능형 검색 시스템이나 문서 요약 시스템을 실현하는데 도움이 될 수 있다.
즉, 문서내 키워드 그룹 중에서 최종 키워드 그룹을 목적에 따라 중요도나 빈도에 따라 자동으로 추출해내면서 추출시간을 단축할 수 있고 이러한 최종 키워드 그룹은 지능형 검색으로 조회결과를 제공하거나 인공지능 분석에 이용하여 문서를 자동으로 요약하거나 핵심단어를 자동으로 추출하는 기술에 활용될 수 있다.
도 2는 본 발명의 일 실시예에 따른 문서내 키워드 추출 자동화 시스템에 의하여 수행되는 키워드 추출 자동화 방법의 전체적인 시계열적 흐름을 나타내는 흐름도이다.
도 2에서 보이는 바와 같이 본 발명의 일 실시예에 따른 문서내 키워드 추출 자동화 방법은 키워드 그룹 추출부가 입력되거나 저장된 각 문서내에 포함된 키워드 그룹(W)으로부터 스코어 키워드 그룹(WS) 및 빈도 키워드 그룹(WF)을 추출하는 단계; 지정 빈도 키워드 그룹(FW) 검색부가 범위 스코어 키워드 그룹 추출부가 기준 스코어를 이용하여 스코어 키워드 그룹(WS)으로부터 범위 스코어 키워드 그룹(WK)을 추출하는 단계; 지정 빈도 키워드 그룹(FW) 검색부가 상기 범위 스코어 키워드 그룹(WK)와 빈도 키워드 그룹(WF)의 교집합인 지정 빈도 키워드 그룹(FW)을 검색하는 단계; 기준 키워드 그룹(WSK) 검색부가 상기 지정 빈도 키워드 그룹(FW)으로부터 기준 빈도수를 이용하여 추출된 빈도 기준 키워드 그룹(FK)과 상기 범위 스코어 키워드 그룹(WK)의 교집합인 기준 키워드 그룹(WSK)을 검색하는 단계; 및 최종 키워드 그룹 추출부가 상기 기준 키워드 그룹(WSK)의 스코어를 이용하여 상기 범위 스코어 키워드 그룹(WK)로부터 최종 키워드 그룹을 추출하는 단계를 포함할 수 있다.
이하, 상술한 내용과 중복되는 한도에서 문서내 키워드 추출 자동화 방법의 자세한 설명은 생략될 수 있다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형, 균등 내지 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.
110 : 범위 스코어 키워드 그룹(WK) 추출부
120 : 지정 빈도 키워드 그룹(FW) 검색부
120 : 지정 빈도 키워드 그룹(FW) 검색부
Claims (10)
- 키워드 그룹 추출부가 입력되거나 저장된 각 문서내에 포함된 키워드 그룹(W)으로부터 스코어 키워드 그룹(WS) 및 빈도 키워드 그룹(WF)을 추출하는 단계;
범위 스코어 키워드 그룹 추출부가 기준 스코어를 이용하여 스코어 키워드 그룹(WS)으로부터 범위 스코어 키워드 그룹(WK)을 추출하는 단계;
지정 빈도 키워드 그룹(FW) 검색부가 상기 범위 스코어 키워드 그룹(WK)와 빈도 키워드 그룹(WF)의 교집합인 지정 빈도 키워드 그룹(FW)을 검색하는 단계;
기준 키워드 그룹(WSK) 검색부가 상기 지정 빈도 키워드 그룹(FW)으로부터 기준 빈도수를 이용하여 추출된 빈도 기준 키워드 그룹(FK)과 상기 범위 스코어 키워드 그룹(WK)의 교집합인 기준 키워드 그룹(WSK)을 검색하는 단계;
및
최종 키워드 그룹 추출부가 상기 기준 키워드 그룹(WSK)의 스코어를 이용하여 상기 범위 스코어 키워드 그룹(WK)로부터 최종 키워드 그룹을 추출하는 단계를 포함하는,
문서내 키워드 추출 자동화 방법.
- 제1항에 있어서,
상기 기준 스코어는,
상기 스코어 키워드 그룹(WS)로부터 산출되는 것을 특징으로 하는
문서내 키워드 추출 자동화 방법.
- 제1항에 있어서,
상기 기준 빈도수는,
상기 빈도 키워드 그룹(WF)로부터 산출되는 것을 특징으로 하는
문서내 키워드 추출 자동화 방법.
- 제1항에 있어서,
상기 스코어 키워드 그룹(WS)은 키워드와 키워드의 중요도 값이 매핑되며,
상기 빈도 키워드 그룹(WF)은 키워드와 키워드의 문서내 출연 빈도값이 매핑되어진 것을 특징으로 하는
문서내 키워드 추출 자동화 방법.
- 제1항에 있어서,
상기 기준 스코어는,
상기 스코어 키워드 그룹(WS)의 스코어 평균값 또는 스코어 중위값을 이용하여 산출되어지는 것을 특징으로 하는
문서내 키워드 추출 자동화 방법.
- 제1항에 있어서,
상기 기준 빈도수는,
상기 지정 빈도 키워드 그룹(FW)의 빈도수 평균값 또는 빈도수 중위값을 이용하여 산출되어지는 것을 특징으로 하는
문서내 키워드 추출 자동화 방법.
- 제1항에 있어서,
상기 빈도 기준 키워드 그룹(FK)은,
상기 기준 빈도수보다 빈도수가 큰 키워드 중에서 빈도수가 가장 작은 키워드인 것을 특징으로 하는
문서내 키워드 추출 자동화 방법.
- 제1항에 있어서,
상기 범위 스코어 키워드 그룹(WK)는 상기 스코어 키워드 그룹(WS) 내 키워드 중에서 기준 스코어 이상인 키워드이고,
상기 최종 키워드 그룹은 상기 범위 스코어 키워드 그룹(WK) 내 키워드 중에서 상기 기준 키워드 그룹(WSK)의 스코어 이상인 키워드인 것을 특징으로 하는
문서내 키워드 추출 자동화 방법.
- 키워드 그룹(W)으로부터 스코어 키워드 그룹(WS) 및 빈도 키워드 그룹(WF)을 추출하는 키워드 그룹 추출부;
기준 스코어를 이용하여 스코어 키워드 그룹(WS)으로부터 범위 스코어 키워드 그룹(WK)을 추출하는 범위 스코어 키워드 그룹(WK) 추출부;
상기 범위 스코어 키워드 그룹(WK)와 빈도 키워드 그룹(WF)의 교집합인 지정 빈도 키워드 그룹(FW)을 검색하는 지정 빈도 키워드 그룹(FW) 검색부;
상기 지정 빈도 키워드 그룹(FW)으로부터 기준 빈도수를 이용하여 추출된 빈도 기준 키워드 그룹(FK)과 상기 범위 스코어 키워드 그룹(WK)의 교집합인 기준 키워드 그룹(WSK)을 검색하는 기준 키워드 그룹(WSK) 검색부;
및
상기 기준 키워드 그룹(WSK)의 스코어를 이용하여 상기 범위 스코어 키워드 그룹(WK)로부터 최종 키워드 그룹을 추출하는 최종 키워드 그룹 추출부를 포함하는
문서내 키워드 추출 자동화 시스템.
- 제9항에 있어서,
상기 기준 스코어는,
상기 스코어 키워드 그룹(WS)의 스코어 평균값과 스코어 중위값 중 큰 값이고,
상기 기준 빈도수는,
상기 지정 빈도 키워드 그룹(FW)의 빈도수 평균값과 빈도수 중위값 중 큰 값인 것을 특징으로 하는
문서내 키워드 추출 자동화 시스템.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220065375A KR102445443B1 (ko) | 2022-05-27 | 2022-05-27 | 문서내 키워드 추출 자동화 방법 및 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220065375A KR102445443B1 (ko) | 2022-05-27 | 2022-05-27 | 문서내 키워드 추출 자동화 방법 및 시스템 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102445443B1 true KR102445443B1 (ko) | 2022-09-20 |
Family
ID=83446601
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020220065375A KR102445443B1 (ko) | 2022-05-27 | 2022-05-27 | 문서내 키워드 추출 자동화 방법 및 시스템 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102445443B1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102640194B1 (ko) * | 2023-08-02 | 2024-02-23 | (주)유알피 | 딥러닝 분석으로 연관 키워드의 대표 단어를 치환하여문서의 현황 정보를 제공하는 방법 |
KR102640153B1 (ko) * | 2023-08-02 | 2024-02-23 | (주)유알피 | 주제별 의미가 유사한 키워드를 딥러닝 분석으로 분류하여문서의 현황 정보를 제공하는 시스템 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150008635A (ko) * | 2013-07-15 | 2015-01-23 | 주식회사 다음카카오 | 핵심 키워드 선정 장치, 핵심 키워드 선정 방법 및 이를 이용한 검색 서비스 제공 방법 |
KR20200109417A (ko) * | 2019-03-12 | 2020-09-23 | 동국대학교 산학협력단 | 키워드 자동 추출 방법 및 장치 |
KR20220002394A (ko) * | 2019-04-26 | 2022-01-06 | 가부시키가이샤 한도오따이 에네루기 켄큐쇼 | 문서 검색 시스템 및 문서 검색 방법 |
-
2022
- 2022-05-27 KR KR1020220065375A patent/KR102445443B1/ko active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150008635A (ko) * | 2013-07-15 | 2015-01-23 | 주식회사 다음카카오 | 핵심 키워드 선정 장치, 핵심 키워드 선정 방법 및 이를 이용한 검색 서비스 제공 방법 |
KR20200109417A (ko) * | 2019-03-12 | 2020-09-23 | 동국대학교 산학협력단 | 키워드 자동 추출 방법 및 장치 |
KR20220002394A (ko) * | 2019-04-26 | 2022-01-06 | 가부시키가이샤 한도오따이 에네루기 켄큐쇼 | 문서 검색 시스템 및 문서 검색 방법 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102640194B1 (ko) * | 2023-08-02 | 2024-02-23 | (주)유알피 | 딥러닝 분석으로 연관 키워드의 대표 단어를 치환하여문서의 현황 정보를 제공하는 방법 |
KR102640153B1 (ko) * | 2023-08-02 | 2024-02-23 | (주)유알피 | 주제별 의미가 유사한 키워드를 딥러닝 분석으로 분류하여문서의 현황 정보를 제공하는 시스템 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA3098802C (en) | Systems and methods for generating a contextually and conversationally correct response to a query | |
US11573996B2 (en) | System and method for hierarchically organizing documents based on document portions | |
US10146862B2 (en) | Context-based metadata generation and automatic annotation of electronic media in a computer network | |
KR102445443B1 (ko) | 문서내 키워드 추출 자동화 방법 및 시스템 | |
US20180300315A1 (en) | Systems and methods for document processing using machine learning | |
CN108280114B (zh) | 一种基于深度学习的用户文献阅读兴趣分析方法 | |
WO2009096523A1 (ja) | 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム | |
CN109471889B (zh) | 报表加速方法、系统、计算机设备和存储介质 | |
CN113190687B (zh) | 知识图谱的确定方法、装置、计算机设备及存储介质 | |
CN109446313B (zh) | 一种基于自然语言分析的排序系统及方法 | |
CN116738065B (zh) | 一种企业搜索方法、装置、设备及存储介质 | |
KR102107474B1 (ko) | 크롤링을 통한 사회이슈 도출 시스템 및 그 도출 방법 | |
WO2015084757A1 (en) | Systems and methods for processing data stored in a database | |
CN112434009A (zh) | 端到端的数据探查方法、装置、计算机设备和存储介质 | |
KR102007437B1 (ko) | 콘텐츠 분류 장치 및 방법 | |
CN117216214A (zh) | 一种问答抽取的生成方法、装置、设备及介质 | |
Iacobelli et al. | Finding new information via robust entity detection | |
Priyadarshini et al. | Semantic retrieval of relevant sources for large scale virtual documents | |
Fabo et al. | Mapping the Bentham Corpus: concept-based navigation | |
CN113722278B (zh) | 一种基于pdf文件的知识元抽取方法、设备及介质 | |
KR102298397B1 (ko) | 인용 유형 기반의 인용 관계 분석 방법 및 시스템 | |
CN109446239A (zh) | 线下文本挖掘方法、装置及计算机可读存储介质 | |
CN112308453A (zh) | 风险识别模型训练方法、用户风险识别方法及相关装置 | |
Al-Hamami et al. | Development of an opinion blog mining system | |
KR102695536B1 (ko) | 부정/불량 식품 모니터링 장치 및 방법 |