KR101541306B1

KR101541306B1 - 컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체

Info

Publication number: KR101541306B1
Application number: KR1020130136564A
Authority: KR
Inventors: 이신태; 김현표; 김재만; 윤선민; 윤초롱; 장유진; 정인철; 지태창
Original assignee: 주식회사 엘지씨엔에스
Priority date: 2013-11-11
Filing date: 2013-11-11
Publication date: 2015-08-04
Also published as: CN104636415A; CN104636415B; US10055408B2; KR20150054300A; US20150134652A1

Abstract

본 발명은 컴퓨터 실행 가능한 중요 키워드 추출 방법에 관한 것으로, 입력된 적어도 하나의 문서에서 검출되는 단어들 각각에 대한 상대 중요도를 산출하는 단계, 상기 단어들 각각을 적어도 하나의 사용자 정의 키워드와 비교하고 상기 단어들 중 적어도 하나에 상기 사용자 정의 키워드의 가중치를 반영하여 상기 단어들의 중요도를 결정하는 단계 및 상기 단어들 중 적어도 하나의 단어를 상기 사용자에게 제공하는 단계를 포함한다. 따라서 적어도 하나의 문서에서 사용자 정의 키워드를 효율적으로 검출할 수 있다.

Description

컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체{COMPUTER ENABLED METHOD OF IMPORTANT KEYWORD EXTRACTION, SERVER PERFORMING THE SAME AND STORAGE MEDIA STORING THE SAME}

본 발명은 컴퓨터 실행 가능한 중요 키워드 추출 기술에 관한 것으로, 보다 상세하게는, 적어도 하나의 문서에서 사용자 정의 키워드를 효율적으로 검출할 수 있는 컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체에 관한 것이다.

키워드 분석은 유형 정합(Pattern Matching) 기법을 사용하여 문장의 내용을 분석하는 기술로, 분석가의 주관적인 경험을 바탕으로 선정된 키워드를 생성해 두고 대상 문서에 있는 검색어와 매칭시켜 키워드를 분석할 수 있다. 특정 키워드는 키워드 분석을 통해 대상 문서에서의 중요도가 결정되어 다른 키워드에 대한 대상 문서에서의 중요도와 비교될 수 있다.

한국등록특허 제10-1117173호는 사용자 단말 장치로부터 순차적으로 수신되는 다수의 검색 키워드에 기초하여 연관 검색 키워드를 추출할 수 있는 키워드 추출 방법, 시스템 및 기록매체를 개시한다. 이러한 키워드 추출 방법은 사용자의 검색 의사에 보다 적합한 연관 검색 키워드를 제공할 수 있고, 연관 검색 키워드에 대한 사용자의 활용도를 향상시킬 수 있다.

한국등록특허 제10-1308821호는 검색 대상 웹 사이트에서 명사인 제품명과 회사명을 추출하여 해당 웹 사이트의 제품 및 회사 특성에 가장 부합하는 단어를 키워드로 선정할 수 있는 검색 엔진용 키워드 추출 시스템 및 추출 방법을 개시한다. 이러한 추출 방법은 검색 엔진의 검색 특성과 최적화된 결합을 서비스할 수 있다.

키워드 분석은 분석가가 주관적으로 중요하다고 생각하는 단어를 키워드로 선정하고 있기 때문에 대상 문서에서 실제로 중요한 의미를 갖는 키워드를 반영하지 못할 수 있다.

한국등록특허 제10-1117173호 한국등록특허 제10-1308821호

본 발명의 일 실시예는 적어도 하나의 문서에서 사용자 정의 키워드를 효율적으로 검출할 수 있는 컴퓨터 실행 가능한 중요 키워드 추출 방법을 제공하고자 한다.

본 발명의 일 실시예는 적어도 하나의 문서에서 검출되는 사용자 정의 키워드에 대한 상대 중요도를 결정할 수 있는 컴퓨터 실행 가능한 중요 키워드 추출 방법을 제공하고자 한다.

본 발명의 일 실시예는 사용자 정의 키워드에 대한 중요도를 기초로 적어도 하나의 키워드 리스트를 제공할 수 있는 컴퓨터 실행 가능한 중요 키워드 추출 방법을 제공하고자 한다.

실시예들 중에서, 컴퓨터 실행 가능한 중요 키워드 추출 방법은 입력된 적어도 하나의 문서에서 검출되는 단어들 각각에 대한 상대 중요도를 산출하는 단계, 상기 단어들 각각을 적어도 하나의 사용자 정의 키워드와 비교하고 상기 단어들 중 적어도 하나에 상기 사용자 정의 키워드의 가중치를 반영하여 상기 단어들의 중요도를 결정하는 단계 및 상기 단어들 중 적어도 하나의 단어를 상기 사용자에게 제공하는 단계를 포함한다.

일 실시예에서, 상기 상대 중요도를 산출하는 단계는 특정 문서에서 검출되는 특정 단어의 개수와 상기 적어도 하나의 문서에서 검출되는 전체 단어의 개수 간의 산술연산을 통해 특정 문서에서 검출되는 특정 단어에 대한 중요도를 결정하는 단계를 포함할 수 있다.

상기 상대 중요도를 산출하는 단계는 상기 적어도 하나의 문서 중에서 상기 특정 단어를 포함하는 특정 문서의 개수와 상기 적어도 하나의 문서의 개수 간의 산술연산을 통해 상기 적어도 하나의 문서에서 상기 특정 단어를 포함하는 특정 문서의 비율을 결정하는 단계를 포함할 수 있다.

상기 상대 중요도를 산출하는 단계는 상기 특정 문서에서 검출되는 특정 단어에 대한 중요도와 상기 적어도 하나의 문서에서 상기 특정 단어를 포함하는 특정 문서의 비율 간의 산술연산을 통해 상기 단어에 대한 상대 중요도를 산출하는 단계를 포함할 수 있다.

일 실시예에서, 상기 문서들에 포함된 형태소를 분석하는 단계 및 상기 형태소 분석 결과에 기초하여, 명사를 포함하는 상기 단어들을 추출하는 단계를 더 포함할 수 있다. 상기 명사는 일반 명사, 고유 명사 및 복합 명사를 포함할 수 있다.

상기 단어들을 추출하는 단계는 상기 추출된 단어들 각각에 대한 특정 문서 내의 비중을 산출하여 데이터베이스에 저장하는 단계를 포함할 수 있다. 상기 적어도 하나의 사용자 정의 키워드는 복수의 키워드들로 구성된 그룹 키워드를 포함할 수 있다.

일 실시예에서, 상기 단어들의 중요도를 결정하는 단계는 데이터베이스로부터 상기 단어들 중 상기 사용자 정의 키워드와 일치하는 단어를 검색하는 단계 및 상기 데이터베이스로부터 상기 사용자 정의 키워드와 일치하는 단어에 대한 상기 가중치를 검색하는 단계를 더 포함할 수 있다.

상기 단어들의 중요도를 결정하는 단계는 상기 사용자로부터 상기 사용자 정의 키워드와 상기 사용자 정의 키워드의 가중치를 수신하여 상기 데이터베이스에 저장하는 단계를 더 포함할 수 있다.

상기 단어들의 중요도를 결정하는 단계는 상기 사용자 정의 키워드에 대한 상대 중요도를 산출하여 상기 사용자 정의 키워드의 가중치를 상기 데이터베이스에 저장하는 단계를 더 포함할 수 있다.

일 실시예에서, 상기 단어들의 중요도를 결정하는 단계는 상기 검출되는 단어들 중에서 상기 적어도 하나의 사용자 정의 키워드와 유사한 유사 단어를 검출하여 임시 기억 장치에 저장하는 단계를 더 포함할 수 있다.

상기 단어들의 중요도를 결정하는 단계는 상기 추출된 단어들의 자음을 기초로 키워드 데이터베이스를 검색하여 상기 단어들 각각과 상기 적어도 하나의 사용자 정의 키워드를 비교하는 단계를 포함할 수 있다.

상기 단어들 중 상기 상대 중요도가 높은 단어들을 일부 결정하는 단계를 더 포함하고, 상기 단어들의 중요도를 결정하는 단계는 상기 상대 중요도가 높은 단어들의 일부를 상기 사용자 정의 키워드와 비교하는 단계를 포함할 수 있다.

일 실시예에서, 상기 적어도 하나의 단어를 사용자에게 제공하는 단계는 상기 사용자로부터 요청하는 단어의 개수를 수신하는 단계 및 상기 요청하는 단어의 개수만큼 상기 적어도 하나의 단어를 제공하는 단계를 포함할 수 있다.

실시예들 중에서, 컴퓨터 실행 가능한 중요 키워드 추출 서버는 입력된 적어도 하나의 문서에서 검출되는 단어들 각각에 대한 상대 중요도를 산출하는 상대 중요도 산출부, 상기 단어들 각각을 적어도 하나의 사용자 정의 키워드와 비교하고 상기 단어들 중 적어도 하나에 상기 사용자 정의 키워드의 가중치를 반영하여 상기 단어들의 중요도를 결정하는 단어 중요도 결정부 및 상기 단어들 중 적어도 하나의 단어를 상기 사용자에게 제공하는 키워드 제공부를 포함한다.

일 실시예에서, 상기 문서들에 포함된 형태소를 분석하고, 상기 형태소 분석 결과에 기초하여, 명사를 포함하는 상기 단어들을 추출하는 단어 추출부를 더 포함할 수 있다.

실시예들 중에서, 컴퓨터 실행 가능한 중요 키워드 추출 방법에 관한 컴퓨터 프로그램을 저장하는 기록매체는 입력된 적어도 하나의 문서에서 검출되는 단어들 각각에 대한 상대 중요도를 산출하는 기능, 상기 단어들 각각을 적어도 하나의 사용자 정의 키워드와 비교하고 상기 단어들 중 적어도 하나에 상기 사용자 정의 키워드의 가중치를 반영하여 상기 단어들의 중요도를 결정하는 기능 및 상기 단어들 중 적어도 하나의 단어를 상기 사용자에게 제공하는 기능을 포함한다.

본 발명의 일 실시예에 따른 컴퓨터 실행 가능한 중요 키워드 추출 방법은 적어도 하나의 문서에서 사용자 정의 키워드를 효율적으로 검출할 수 있다.

본 발명의 일 실시예에 따른 컴퓨터 실행 가능한 중요 키워드 추출 방법은 적어도 하나의 문서에서 검출되는 사용자 정의 키워드에 대한 상대 중요도를 결정할 수 있다.

본 발명의 일 실시예에 따른 컴퓨터 실행 가능한 중요 키워드 추출 방법은 사용자 정의 키워드에 대한 중요도를 기초로 적어도 하나의 키워드 리스트를 제공할 수 있다.

도 1은 본 발명의 일 실시예에 따른 중요 키워드 추출 시스템을 설명하는 블록도이다.
도 2는 도 1에 있는 중요 키워드 추출 서버를 설명하는 블록도이다.
도 3은 도 1에 있는 중요 키워드 추출 서버에서 수행되는 중요 키워드 추출 과정을 설명하는 순서도이다.
도 4는 도 1에 있는 중요 키워드 추출 서버에 수신되는 사용자 정의 키워드를 설명하는 도면이다.
도 5는 도 1에 있는 중요 키워드 추출 서버에서 산출되는 형태소에 대한 상대 중요도를 예시한 도면이다.
도 6은 도 1에 있는 중요 키워드 추출 서버에서 결정되는 형태소의 중요도를 예시한 도면이다.
도 7은 도 1에 있는 중요 키워드 추출 서버에서 제공하는 키워드 목록을 예시한 도면이다.

본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 본 발명의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 본 발명에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.

한편, 본 출원에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.

"제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어"있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결될 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어"있다고 언급된 때에는 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함하다"또는 "가지다" 등의 용어는 실시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

각 단계들에 있어 식별부호(예를 들어, a, b, c 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.

본 발명은 컴퓨터가 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있고, 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있으며, 또한, 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

여기서 사용되는 모든 용어들은 다르게 정의되지 않는 한, 본 발명이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한 이상적이거나 과도하게 형식적인 의미를 지니는 것으로 해석될 수 없다.

도 1은 본 발명의 일 실시예에 따른 중요 키워드 추출 시스템을 설명하는 블록도이다.

도 1을 참조하면, 컴퓨터 실행 가능한 중요 키워드 추출 시스템(100)은 중요 키워드 추출 서버(110) 및 사용자 단말(120)을 포함한다.

중요 키워드 추출 서버(110)는 온라인 네트워크 환경을 통하여 적어도 하나의 사용자 단말(120)로부터 사용자 정의 키워드를 수신할 수 있다. 여기에서, 중요 키워드 추출 서버(110)는 단일 컴퓨팅 장치로 제한되지 않고 분산 처리 가능한 복수의 컴퓨팅 장치들로서 구현될 수 있다.

중요 키워드 추출 서버(110)는 적어도 하나의 문서에서 단어들을 검출하여 단어들 각각의 중요도를 결정하고, 단어들 각각의 중요도에 따라 단어들 중 적어도 하나의 단어를 적어도 하나의 사용자 단말(120)에 제공할 수 있다.

사용자 단말(120)은 네트워크를 통해 중요 키워드 추출 서버(110)와 연결될 수 있다. 예를 들어, 사용자 단말(120)은 중앙처리장치와 메모리 장치 및 입출력 수단을 구비한 PC, 스마트폰, PDA(Personal Digital Assistant), 태블릿 PC와 같은 컴퓨팅 장치에 해당할 수 있다.

사용자 단말(120)은 중요 키워드 추출 서버(110)에 접속하거나 또는 통신을 유지하여 중요 키워드 추출 서버(110)로부터 상대 중요도가 높은 적어도 하나의 단어를 제공받을 수 있다. 사용자 단말(120)은 입력 수단을 통해 입력된 사용자의 입력을 중요 키워드 추출 서버(110)에 제공하고, 그에 대한 응답을 출력할 수 있다.

도 2는 도 1에 있는 중요 키워드 추출 서버를 설명하는 블록도이다.

도 2를 참조하면, 중요 키워드 추출 서버(110)는 상대 중요도 산출부(210), 단어 중요도 결정부(220), 키워드 제공부(230), 단어 추출부(240), 및 제어부(250)를 포함한다.

상대 중요도 산출부(210)는 입력된 적어도 하나의 문서에서 검출되는 단어들 각각에 대한 상대 중요도를 산출한다.

상대 중요도 산출부(210)는 사용자로부터 적어도 하나의 문서에 대한 정보를 수신할 수 있다. 예를 들어, 적어도 하나의 문서는 광고, 제품 등에 관한 정보를 포함하고 있는 블로그, 홈페이지, 카페, 트위터 등에 해당할 수 있다.

상대 중요도 산출부(210)는 특정 문서에서 검출되는 특정 단어의 개수와 적어도 하나의 문서에서 검출되는 전체 단어의 개수 간의 산술연산을 통해 특정 문서에서 검출되는 특정 단어에 대한 중요도를 결정할 수 있다. 특정 문서에서 검출되는 특정 단어에 대한 중요도는 특정 문서에서 검출되는 특정 단어의 개수를 적어도 하나의 문서에서 검출되는 전체 단어의 개수로 나눈 값으로 결정될 수 있다.

상대 중요도 산출부(210)는 적어도 하나의 문서 중에서 특정 단어를 포함하는 특정 문서의 개수와 적어도 하나의 문서의 개수 간의 산술연산을 통해 적어도 하나의 문서에서 특정 단어를 포함하는 특정 문서의 비율을 결정할 수 있다. 적어도 하나의 문서에서 특정 단어를 포함하는 특정 문서의 비율은 적어도 하나의 문서 중에서 특정 단어를 포함하는 특정 문서의 개수를 적어도 하나의 문서의 개수로 나눈 값으로 결정될 수 있다.

상대 중요도 산출부(210)는 특정 문서에서 검출되는 특정 단어에 대한 중요도와 적어도 하나의 문서에서 특정 단어를 포함하는 특정 문서의 비율 간의 산술연산을 통해 단어에 대한 상대 중요도를 산출할 수 있다. 단어에 대한 상대 중요도는 특정 문서에서 검출되는 특정 단어에 대한 중요도를 적어도 하나의 문서에서 특정 단어를 포함하는 특정 문서의 비율로 나눈 값으로 결정될 수 있다.

단어 중요도 결정부(220)는 단어들 각각을 적어도 하나의 사용자 정의 키워드와 비교하고 단어들 중 적어도 하나에 사용자 정의 키워드의 가중치를 반영하여 단어들의 중요도를 결정한다.

단어 중요도 결정부(220)는 적어도 하나의 문서에서 검출되는 단어들 중에서 적어도 하나의 사용자 정의 키워드와 유사한 유사 단어를 검출하여 임시 기억 장치에 저장할 수 있다. 예를 들어, 임시 기억 장치는 사용자로부터 수신한 적어도 하나의 문서에서 검출된 적어도 하나의 유사 단어를 저장하고 있다가 일정 시간이 지나면 적어도 하나의 유사 단어를 모두 삭제할 수 있다. 다른 예를 들어, 임시 기억 장치는 사용자로부터 수신한 적어도 하나의 문서에서 검출된 적어도 하나의 유사 단어를 저장하고 있다가 다른 적어도 하나의 문서를 수신하면 적어도 하나의 유사 단어를 모두 삭제할 수 있다.

단어 중요도 결정부(220)는 적어도 하나의 문서에서 검출되는 단어들의 자음을 기초로 키워드 데이터베이스를 검색하여 단어들 각각과 적어도 하나의 사용자 정의 키워드를 비교할 수 있다. 단어 중요도 결정부(220)는 단어의 자음을 기초로 키워드 데이터베이스를 검색함으로써 검색 시간을 감소시킬 수 있다.

일 실시예에서, 단어 중요도 결정부(220)는 적어도 하나의 문서에서 검출되는 단어가 적어도 하나의 사용자 정의 키워드에 포함되지 않으면 상대 중요도 산출부(210)에서 산출된 단어에 대한 상대 중요도를 단어의 중요도로 결정할 수 있다.

단어 중요도 결정부(220)는 사용자로부터 수신한 적어도 하나의 사용자 정의 키워드에 따라 가중치를 부여한다. 여기에서, 가중치는 0 이상의 소수로 구현될 수 있다.

일 실시예에서, 단어 중요도 결정부(220)는 사용자로부터 적어도 하나의 사용자 정의 키워드와 적어도 하나의 사용자 정의 키워드에 대한 가중치를 수신하고 적어도 하나의 사용자 정의 키워드를 가나다순으로 정렬하여 적어도 하나의 사용자 정의 키워드 및 적어도 하나의 사용자 정의 키워드에 대한 가중치를 키워드 데이터베이스에 저장할 수 있다.

다른 일 실시예에서, 단어 중요도 결정부(220)는 사용자로부터 적어도 하나의 사용자 정의 키워드를 수신하면 적어도 하나의 사용자 정의 키워드에 대한 상대 중요도를 분석하여 적어도 하나의 사용자 정의 키워드에 대한 가중치를 결정하고 적어도 하나의 사용자 정의 키워드를 가나다순으로 정렬하여 적어도 하나의 사용자 정의 키워드 및 적어도 하나의 사용자 정의 키워드에 대한 가중치를 키워드 데이터베이스에 저장할 수 있다.

단어 중요도 결정부(220)는 적어도 하나의 사용자 정의 키워드에 대한 가중치 범위를 설정하여, 사용자로부터 수신한 적어도 하나의 사용자 정의 키워드에 대한 가중치가 설정된 가중치 범위 내에 있는지 판단할 수 있다. 단어 중요도 결정부(220)는 사용자로부터 수신한 적어도 하나의 사용자 정의 키워드에 대한 가중치가 설정된 가중치 범위 내에 있지 않으면 해당 가중치를 조절하여 해당 가중치가 설정된 가중치 범위 내에 존재하도록 할 수 있다.

일 실시예에서, 적어도 하나의 사용자 정의 키워드는 하나의 키워드로 구성된 단일 키워드 및 복수의 키워드들로 구성된 그룹 키워드 등을 포함할 수 있다. 예를 들어, 단일 키워드는 [특허, 자바, 이벤트, 키워드]를 포함할 수 있고, 그룹 키워드는 [클래식 음악, 시험 일정, 노래 가사]를 포함할 수 있다.

키워드 제공부(230)는 단어들의 중요도에 따라 결정된 키워드를 사용자에게 제공한다. 키워드 제공부(230)는 단어들의 중요도에 따라 결정된 키워드 목록을 사용자에게 제공할 수 있다. 여기에서, 키워드 제공부(230)는 단어의 중요도에 따라 단어를 정렬하여 키워드 목록으로 제공할 수 있다.

키워드 제공부(230)는 사용자로부터 요청하는 단어의 개수를 수신하여 요청하는 단어의 개수만큼 적어도 하나의 단어를 사용자에게 제공할 수 있다.

단어 추출부(240)는 적어도 하나의 문서에 포함된 형태소를 분석하고, 형태소 분석 결과에 기초하여, 명사를 포함하는 단어들을 추출한다. 여기에서, 명사는 일반 명사, 고유 명사 또는 복합 명사 중 적어도 하나를 포함할 수 있다.

일 실시예에서, 단어 추출부(240)는 형태소 분석기를 통해 적어도 하나의 문서에서 형태소를 분석할 수 있다. 예를 들어, 단어 추출부(240)는 어휘 형태소와 문법 형태소를 기초로 형태소를 분석할 수 있다. 어휘 형태소는 개별적인 뜻이 사전에 나와 있는 형태소로, 예를 들어, “엄만 나만 너무 미워해” 에서 어휘 형태소는 [엄마], [나], [너무], [미워]로 분석될 수 있다. 문법 형태소는 그 뜻이 특정 단어의 뜻을 보조하거나, 특정 단어에 주격, 목적격 같은 자격을 주거나, 관형어 자리에 들어가게 만들거나, 동사나 형용사를 명사로 바꾸어 주거나 또는 과거를 나타내는 문법적인 형태소로, 예를 들어, “엄만 나만 너무 미워해”에서 문법 형태소는 [ㄴ], [만], [해]로 분석될 수 있다.

단어 추출부(240)는 적어도 하나의 문서에서 추출된 단어들을 데이터베이스에 저장할 수 있다. 데이터베이스는 단어들 각각 및 단어들 각각이 추출된 문서에 대한 정보를 연관하여 저장할 수 있다. 데이터베이스는 키워드 데이터베이스와 물리적으로 구분될 수 있다.

제어부(250)는 중요 키워드 추출 서버(110)의 전체적인 동작을 제어하고, 상대 중요도 산출부(210), 단어 중요도 결정부(220), 키워드 제공부(230) 및 단어 추출부(240) 간의 제어 흐름 또는 데이터 흐름을 제어할 수 있다.

도 3은 도 1에 있는 중요 키워드 추출 서버에서 수행되는 중요 키워드 추출 과정을 설명하는 순서도이다.

도 3을 참조하면, 단어 추출부(240)는 적어도 하나의 문서에 포함된 형태소를 분석하고, 형태소 분석 결과에 기초하여, 명사를 포함하는 단어들을 추출한다(단계 S301 및 단계 S302).

상대 중요도 산출부(210)는 입력된 적어도 하나의 문서에서 검출되는 단어들 각각에 대한 상대 중요도를 산출한다(단계 S303).

일 실시예에서, 상대 중요도 산출부(210)는 입력된 적어도 하나의 문서에서 특정 문서에서 검출되는 특정 단어의 개수와 입력된 적어도 하나의 문서에서 검출되는 전체 단어의 개수 간의 산술연산을 통해 특정 문서에서 검출되는 특정 단어에 대한 중요도를 결정할 수 있다. 예를 들어, 문서1에서 검출되는 [특허]에 대한 중요도는 문서1에서 검출되는 [특허]의 개수가 5, 적어도 하나의 문서에서 검출되는 전체 단어의 개수가 5125이면 약 0.0009756(5/5125)로 결정될 수 있다.

상대 중요도 산출부(210)는 적어도 하나의 문서 중에서 특정 단어를 포함하는 특정 문서의 개수와 적어도 하나의 문서의 개수 간의 산술연산을 통해 적어도 하나의 문서에서 특정 단어를 포함하는 특정 문서의 비율을 결정할 수 있다. 예를 들어, 적어도 하나의 문서에서 [특허]를 포함하는 특정 문서의 비율은 적어도 하나의 문서 중에서 [특허]를 포함하는 특정 문서의 개수가 4, 적어도 하나의 문서의 개수가 10이면 0.25(4/10)로 결정될 수 있다.

상대 중요도 산출부(210)는 특정 문서에서 검출되는 특정 단어에 대한 중요도와 적어도 하나의 문서에서 특정 단어를 포함하는 특정 문서의 비율 간의 산술연산을 통해 단어에 대한 상대 중요도를 산출할 수 있다. 예를 들어, [특허]에 대한 상대 중요도는 문서1에서 검출되는 [특허]에 대한 중요도가 약 0.0009756, 적어도 하나의 문서에서 [특허]를 포함하는 특정 문서의 비율이 0.25이면 약 0.003902(0.0009756/0.25)로 결정될 수 있다.

도 5의 (a)는 문서1, 문서2, 문서3,…, 문서10 각각에 포함된 [특허], [키워드], [이벤트], [측정], [대한민국], [자바], [은행], [서울]에 대한 상대 중요도를 예시한 도면이고, 도 5의 (b)는 적어도 하나의 문서에서 [특허], [키워드], [이벤트], [측정], [대한민국], [자바], [은행], [서울] 각각에 대한 상대 중요도를 예시한 도면으로, 상대 중요도 산출부(210)는 [b] 방향으로 문서1, 문서2, 문서3,…, 문서10 각각에 포함된 [특허]에 대한 상대 중요도를 더하면 적어도 하나의 문서에서 [특허]에 대한 상대 중요도를 산출할 수 있고, [b] 방향으로 문서1, 문서2, 문서3,…, 문서10 각각에 포함된 [키워드]에 대한 상대 중요도를 더하면 적어도 하나의 문서에서 [키워드]에 대한 상대 중요도를 산출할 수 있고,…, [b] 방향으로 문서1, 문서2, 문서3,…, 문서10 각각에 포함된 [서울]에 대한 상대 중요도를 더하면 적어도 하나의 문서에서 [서울]에 대한 상대 중요도를 산출할 수 있다.

단어 중요도 결정부(220)는 상대 중요도가 높은 상위 몇 개의 단어들 각각을 적어도 하나의 사용자 정의 키워드와 비교한다(단계 S304).

단어 중요도 결정부(220)는 단어들 중 적어도 하나와 적어도 하나의 사용자 정의 키워드가 일치하면, 키워드 데이터베이스에 저장된 단어들 중 적어도 하나에 사용자 정의 키워드의 가중치를 요청/반영하여 단어들의 중요도를 결정한다(단계 S305 및 단계 S306).

도 6에서, 단어 중요도 결정부(220)는 적어도 하나의 문서에서 검출된 단어 [특허], [키워드], [이벤트], [측정], [대한민국], [자바], [은행], [서울]에 대한 상대 중요도와 적어도 하나의 사용자 정의 키워드에 포함된 [특허], [자바], [이벤트], [키워드]에 대한 가중치를 산술연산(예를 들어, 곱하기)하여 단어 [특허], [키워드], [이벤트], [측정], [대한민국], [자바], [은행], [서울]의 중요도를 결정할 수 있다.

일 실시예에서, 중요 키워드 추출 시스템(100)은 사용자로부터 적어도 하나의 사용자 정의 키워드와 적어도 하나의 사용자 정의 키워드에 대한 가중치를 수신하고 적어도 하나의 사용자 정의 키워드를 가나다순으로 정렬하여 적어도 하나의 사용자 정의 키워드 및 적어도 하나의 사용자 정의 키워드에 대한 가중치를 키워드 데이터베이스에 저장할 수 있다. 예를 들어, 도 4에서, 단어 중요도 결정부(220)는 사용자로부터 [특허, 자바, 이벤트, 키워드]와 가중치 [1.3, 1.7, 1.1, 0.7]를 수신하면 [특허, 자바, 이벤트, 키워드]를 가나다순(a)으로 정렬하여 [이벤트, 자바, 키워드, 특허]와 [이벤트, 자바, 키워드, 특허] 각각에 대응하는 가중치 [1.1, 1.7, 0.7, 1.3]를 키워드 데이터베이스에 저장할 수 있다.

다른 일 실시예에서, 중요 키워드 추출 시스템(100)은 사용자로부터 적어도 하나의 사용자 정의 키워드를 수신하면 적어도 하나의 사용자 정의 키워드에 대한 상대 중요도를 분석하여 적어도 하나의 사용자 정의 키워드에 대한 가중치를 결정하고 적어도 하나의 사용자 정의 키워드를 가나다순으로 정렬하여 적어도 하나의 사용자 정의 키워드 및 적어도 하나의 사용자 정의 키워드에 대한 가중치를 키워드 데이터베이스에 저장할 수 있다. 예를 들어, 적어도 하나의 사용자 정의 키워드에 대한 중요도는 과거에 많이 검출되었던 단어를 기초로 결정되거나 또는 사용자의 목적을 기초로 결정될 수 있다.

일 실시예에서, 단어 중요도 결정부(220)는 적어도 하나의 문서에서 검출된 단어에 대한 사전적 의미를 분석하여 적어도 하나의 사용자 정의 키워드와 유사한 유사 단어를 검출할 수 있다. 예를 들어, 단어 중요도 결정부(220)는 적어도 하나의 사용자 정의 키워드가 [키워드]에 해당하면, 적어도 하나의 문서에서 검출된 단어에 대한 사전적 의미를 분석하여 [키워드]와 유사한 [핵심 용어]를 유사 단어로 검출할 수 있다.

단어 중요도 결정부(220)는 적어도 하나의 문서에서 검출되는 단어들의 자음을 기초로 키워드 데이터베이스를 검색하여 단어들 각각과 적어도 하나의 사용자 정의 키워드를 비교할 수 있다. 예를 들어, 단어 중요도 결정부(220)는 적어도 하나의 사용자 정의 키워드 [이벤트], [자바], [키워드], [특허]가 키워드 데이터베이스에 저장되어 있고, 적어도 하나의 문서에서 단어 [특허, 키워드, 이벤트, 측정, 대한민국, 자바, 은행, 서울]가 검출되면 [특허]의 자음 [ㅌ]을 기초로 키워드 데이터베이스를 검색하여 단어 [특허]의 포함 여부를 결정할 수 있다.

키워드 제공부(230)는 단어들의 중요도에 따라 결정된 단어들 중 적어도 하나의 단어를 사용자에게 제공한다(단계 S307).

키워드 제공부(230)는 사용자로부터 요청하는 단어의 개수를 수신하여 요청하는 단어의 개수만큼 적어도 하나의 단어를 사용자에게 제공할 수 있다. 예를 들어, 도 7의 (a)에서, 키워드 제공부(230)는 사용자로부터 단어 5개를 수신하면 단어의 중요도가 높은 5개의 단어 [측정], [키워드], [은행], [특허], [대한민국]을 사용자에게 제공할 수 있다. 도 7의 (b)에서, 키워드 제공부(230)는 사용자에 의해 키워드 목록에 있는 단어 [측정]의 우측에 형성된 도형(여기에서, 도형(701)은 활성화된 도형으로 유사 단어가 존재하고, 도형(702)는 비활성화된 도형으로 유사 단어가 존재하지 않음)이 클릭되면 [측정]과 유사한 유사 단어인 [계측], [관측], [측량]을 콤보 박스(710)로 제공할 수 있다. 도 7의 (c)에서, 키워드 제공부(230)는 사용자에 의해 키워드 목록에 있는 단어 [측정]의 우측에 형성된 도형이 클릭되면 [측정]이 검출된 적어도 하나의 문서에 대한 정보를 콤보 박스(720)로 제공할 수 있다.

상기에서는 본 출원의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 출원을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

100: 중요 키워드 추출 시스템
110: 중요 키워드 추출 서버
120: 사용자 단말
210: 상대 중요도 산출부
220: 단어 중요도 결정부
230: 키워드 제공부
240: 단어 추출부
250: 제어부

Claims

입력된 적어도 하나의 문서에서 검출되는 단어들 각각에 대한 상대 중요도를 산출하는 단계;
상기 단어들 각각을 적어도 하나의 사용자 정의 키워드와 비교하고 상기 단어들 중 적어도 하나에 상기 사용자 정의 키워드의 가중치를 반영하여 상기 단어들의 중요도를 결정하는 단계; 및
상기 단어들 중 적어도 하나의 단어를 상기 사용자에게 제공하는 단계를 포함하는 컴퓨터 실행 가능한 중요 키워드 추출 방법.
제1항에 있어서, 상기 상대 중요도를 산출하는 단계는
특정 문서에서 검출되는 특정 단어의 개수와 상기 적어도 하나의 문서에서 검출되는 전체 단어의 개수 간의 산술연산을 통해 특정 문서에서 검출되는 특정 단어에 대한 중요도를 결정하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 실행 가능한 중요 키워드 추출 방법.
제2항에 있어서, 상기 상대 중요도를 산출하는 단계는
상기 특정 단어에 대한 중요도를 결정하기 전, 상기 특정 단어에 대한 중요도를 결정한 후 또는 상기 특정 단어에 대한 중요도를 결정하는 동시에 상기 적어도 하나의 문서 중에서 상기 특정 단어를 포함하는 특정 문서의 개수와 상기 적어도 하나의 문서의 개수 간의 산술연산을 통해 상기 적어도 하나의 문서에서 상기 특정 단어를 포함하는 특정 문서의 비율을 결정하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 실행 가능한 중요 키워드 추출 방법.
제3항에 있어서, 상기 상대 중요도를 산출하는 단계는
상기 특정 단어에 대한 중요도를 결정하고 상기 특정 문서의 비율을 결정하면, 상기 특정 문서에서 검출되는 특정 단어에 대한 중요도와 상기 적어도 하나의 문서에서 상기 특정 단어를 포함하는 특정 문서의 비율 간의 산술연산을 통해 상기 단어에 대한 상대 중요도를 산출하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 실행 가능한 중요 키워드 추출 방법.
제1항에 있어서,
상기 상대 중요도를 산출하기 전에, 상기 문서들에 포함된 형태소를 분석하는 단계; 및
상기 형태소 분석 결과에 기초하여, 명사를 포함하는 상기 단어들을 추출하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터 실행 가능한 중요 키워드 추출 방법.
제5항에 있어서, 상기 명사는
일반 명사, 고유 명사 및 복합 명사를 포함하는 것을 특징으로 하는 컴퓨터 실행 가능한 중요 키워드 추출 방법.
제5항에 있어서, 상기 단어들을 추출하는 단계는
상기 추출된 단어들 각각에 대한 특정 문서 내의 비중을 산출하여 데이터베이스에 저장하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 실행 가능한 중요 키워드 추출 방법.
제1항에 있어서, 상기 적어도 하나의 사용자 정의 키워드는
복수의 키워드들로 구성된 그룹 키워드를 포함하는 것을 특징으로 하는 컴퓨터 실행 가능한 중요 키워드 추출 방법.
제1항에 있어서, 상기 단어들의 중요도를 결정하는 단계는
데이터베이스로부터 상기 단어들 중 상기 사용자 정의 키워드와 일치하는 단어를 검색하는 단계; 및
상기 데이터베이스로부터 상기 사용자 정의 키워드와 일치하는 단어에 대한 상기 가중치를 검색하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터 실행 가능한 중요 키워드 추출 방법.
제9항에 있어서, 상기 단어들의 중요도를 결정하는 단계는
상기 사용자 정의 키워드와 일치하는 단어를 검색하기 전에, 상기 사용자로부터 상기 사용자 정의 키워드와 상기 사용자 정의 키워드의 가중치를 수신하여 상기 데이터베이스에 저장하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 실행 가능한 중요 키워드 추출 방법.
제1항에 있어서, 상기 단어들의 중요도를 결정하는 단계는
상기 사용자 정의 키워드에 대한 상대 중요도를 산출하여 상기 사용자 정의 키워드의 가중치를 데이터베이스에 저장하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터 실행 가능한 중요 키워드 추출 방법.
제1항에 있어서, 상기 단어들의 중요도를 결정하는 단계는
상기 검출되는 단어들 중에서 상기 적어도 하나의 사용자 정의 키워드와 유사한 유사 단어를 검출하여 임시 기억 장치에 저장하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터 실행 가능한 중요 키워드 추출 방법.
제5항에 있어서, 상기 단어들의 중요도를 결정하는 단계는
상기 추출된 단어들의 자음을 기초로 키워드 데이터베이스를 검색하여 상기 단어들 각각과 상기 적어도 하나의 사용자 정의 키워드를 비교하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 실행 가능한 중요 키워드 추출 방법.
제11항에 있어서,
상기 적어도 하나의 문서에서 검출되는 단어들 각각에 대한 상대 중요도를 산출하면 상기 단어들 중 상기 상대 중요도가 높은 단어들을 일부 결정하는 단계를 더 포함하고,
상기 단어들의 중요도를 결정하는 단계는
상기 상대 중요도가 높은 단어들의 일부를 상기 사용자 정의 키워드와 비교하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 실행 가능한 중요 키워드 추출 방법.
제1항에 있어서, 상기 적어도 하나의 단어를 사용자에게 제공하는 단계는
상기 사용자로부터 요청하는 단어의 개수를 수신하는 단계; 및
상기 요청하는 단어의 개수만큼 상기 적어도 하나의 단어를 제공하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 실행 가능한 중요 키워드 추출 방법.
입력된 적어도 하나의 문서에서 검출되는 단어들 각각에 대한 상대 중요도를 산출하는 상대 중요도 산출부;
상기 단어들 각각을 적어도 하나의 사용자 정의 키워드와 비교하고 상기 단어들 중 적어도 하나에 상기 사용자 정의 키워드의 가중치를 반영하여 상기 단어들의 중요도를 결정하는 단어 중요도 결정부; 및
상기 단어들 중 적어도 하나의 단어를 상기 사용자에게 제공하는 키워드 제공부를 포함하는 컴퓨터 실행 가능한 중요 키워드 추출 서버.
제16항에 있어서,
상기 문서들에 포함된 형태소를 분석하고, 상기 형태소 분석 결과에 기초하여, 명사를 포함하는 상기 단어들을 추출하는 단어 추출부를 더 포함하는 것을 특징으로 하는 컴퓨터 실행 가능한 중요 키워드 추출 서버.
컴퓨터 실행 가능한 중요 키워드 추출 방법에 관한 컴퓨터 프로그램을 저장하는 기록매체에 있어서,
입력된 적어도 하나의 문서에서 검출되는 단어들 각각에 대한 상대 중요도를 산출하는 기능;
상기 단어들 각각을 적어도 하나의 사용자 정의 키워드와 비교하고 상기 단어들 중 적어도 하나에 상기 사용자 정의 키워드의 가중치를 반영하여 상기 단어들의 중요도를 결정하는 기능; 및
상기 단어들 중 적어도 하나의 단어를 상기 사용자에게 제공하는 기능을 포함하는 컴퓨터 실행 가능한 중요 키워드 추출 방법에 관한 컴퓨터 프로그램을 저장하는 기록매체.