KR101178208B1

KR101178208B1 - 키워드 추출 장치 및 방법

Info

Publication number: KR101178208B1
Application number: KR1020090095454A
Authority: KR
Inventors: 이용규
Original assignee: 동국대학교 산학협력단
Priority date: 2009-10-08
Filing date: 2009-10-08
Publication date: 2012-08-29
Also published as: KR20110038247A

Abstract

키워드 추출 장치 및 방법을 개시한다. 인터넷 등의 전자정보통신망에서의 게시물에 대해, 게시물의 게시자가 작성한 문구로부터 제1 및 제2 키워드를 획득한다. 또한, 이 게시물에 대한 타인의 댓글로부터 또 다른 제3 키워드를 획득한다. 이러한 제1 내지 제3 키워드를 이용하여 유사 문서들을 검색하여 키워드를 확장하여 제4 키워드를 획득한다. 위의 과정 도중에 소정의 금칙어와 불용어에 대한 필터링을 행할 수 있다.

Description

키워드 추출 장치 및 방법{Apparatus and method for extracting keywords}

본 발명의 일실시예는 인터넷에 게시된 멀티미디어 또는 텍스트 게시물의 키워드(색인어)를 멀티미디어 게시물에 대한 댓글 등으로부터 추출 및 확장하는 장치 및 방법에 관한 것이다.

인터넷이 활성화되어 있지 않았던 시대에는 특정 주제에 관한 자료를 구하는 것 자체가 힘들었다. 그리고, 인터넷 발달의 초기에는 인터넷 사용 인구가 그리 많지 않고, 따라서 유사한 관심 분야를 갖는 사람들이 인터넷 상의 가상의 공간에서 함께 모이는 것이 비교적 용이하였다. 비록 자료의 양은 적었을지라도 인터넷에 존재하는 특정 분야에 대한 자료를 찾는 것은 상대적으로 쉬웠다고 볼 수도 있다.

한편, 오늘날은 인터넷에 관한 각종 산업 및 개인의 의식 및 이용 양태가 이전과 달라져서 예전과는 비교할 수도 없을 정도로 방대하고 수많은 양의 자료들이 인터넷 상에 공개되어 있다.

이처럼 많은 자료를 활용할 수 있게 되어 편리한 점도 있으나, 한편으로는 이 많은 자료들을 어떻게 하면 효율적으로 관리하고 검색할 수 있는지 하는 것이 오늘날의 인터넷 이용에 있어서 중요한 이슈가 되었다. 즉, 예전에는 자료의 수가 적은 것이 문제가 되었으나 요즈음에 들어서는 방대한 자료를 어떻게 하여 손쉽게 찾을 수 있는가 하는 것이 문제가 되는 상황이 되었다. 다시 말해, 인터넷의 급격한 발달 및 정보량의 증가에 따라 각종 자료를 분류하거나 검색하는 일이 중요한 위치를 차지하게 된 것이다.

본 발명의 실시예는 인터넷 상에 게시된 게시물(예를 들어, 멀티미디어 게시물 또는 텍스트 게시물) 및 그 댓글로부터 색인어를 추출하여 데이터베이스의 구축 및 검색을 용이하게 하고자 한다.

본 발명의 일 실시예에 따르면, 전자정보통신망에서의 게시물에 대해, 상기 게시물의 게시자가 작성한 타이틀 및 해설로부터 제1 키워드를 추출하고, 상기 게시자 자신의 댓글로부터 제2 키워드를 추출하는 제1 및 제2 키워드 획득 수단; 1 이상의 다른 사용자가 상기 게시물에 대해 작성한 댓글로부터, 제3 키워드를 채택하는 제3 키워드 획득 수단; 및 상기 제1 내지 제3 키워드를 이용하여, 상기 전자정보통신망을 통해 유사 문서를 검색하여 키워드를 확장함으로써 제4 키워드를 획득하는 제4 키워드 획득 수단을 포함하는 키워드 추출 장치가 제공된다.

본 발명의 다른 일 실시예에 따르면, 키워드를 추출하는 방법으로서, 전자정보통신망에서의 게시물에 대해, 상기 게시물의 게시자가 작성한 타이틀 또는 해설로부터 제1 키워드를 추출하고, 상기 게시자 자신의 댓글로부터 제2 키워드를 추출하는 제1 및 제2 키워드 획득 단계; 1 이상의 다른 사용자가 상기 게시물에 대해 작성한 댓글로부터, 제3 키워드를 채택하는 제3 키워드 획득 단계; 및 상기 제1 내지 제3 키워드를 이용하여, 상기 전자정보통신망을 통해 유사 문서를 검색하여 키워드를 확장함으로써 제4 키워드를 획득하는 제4 키워드 획득 단계를 포함하는 키 워드 추출 방법이 제공된다.

본 발명의 실시예는 인터넷 상에 게시된 게시물(예를 들어, 멀티미디어 게시물 또는 텍스트 게시물) 및 그 댓글로부터 색인어를 추출하여 데이터베이스의 구축 및 검색을 용이하게 한다.

비디오, 오디오, 이미지 등의 멀티미디어 게시물은 데이터의 특성상 색인어 추출이 어려우며, 텍스트 게시물도 길이가 짧은 경우는 색인어의 수가 적다. 따라서 본 발명에서는 게시물의 댓글의 텍스트로부터 색인어를 추출하여 게시물의 색인어를 확장할 수 있도록 하고, 뉴스 검색, 인터넷 검색, 문헌 검색 등을 통해서도 색인어를 확장할 수 있도록 한다.

이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.

본 발명을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

본 발명의 기술적 사상은 청구범위에 의해 결정되며, 이하의 실시예는 본 발 명의 기술적 사상을 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 효율적으로 설명하기 위한 일 수단일 뿐이다.

도 1은 본 발명의 일실시예에 따른 키워드 추출 방법에 대한 흐름도이다.

도 1을 참조하면, 단계 102에서 인터넷 게시판 등에 업로드된 멀티미디어 문서의 게시자가 작성한 타이틀, 해설(설명), 게시자 자신의 댓글에서 키워드를 추출한다. 여기서, 멀티미디어 문서라고 하였으나, 통상의 텍스트 게시물에 대해서도 적용이 가능함은 물론이다.

또한, 인터넷이라고 하였으나, 이는 일예이며 컴퓨터가 개입되는 전자정보통신망(전기통신망)이라는 의미로 파악하여야 할 것이다. 따라서, 외부로 연결되지 않는 인트라넷이라 해도 어느 정도의 규모만 갖추면 본 발명의 실시예의 기본 사상이 적용될 수 있음은 자명하다. 따라서, 본 발명은 전자적인 수단을 통한 전자정보통신망 전반에 적용되는 것으로 보아야 할 것이다. 또한, 그 통신이 유선에 의한 것이든 무선에 의한 것이든 적용될 수 있음은 물론이다.

아울러, 멀티미디어 문서라 함은, 예를 들어, 컴퓨터에서 전자적으로 인식될 수 있는 동영상, 이미지, 음악 파일 등을 들 수 있다. 당해 멀티미디어 문서가 어떤 분야에 대한 것인지를 알 수 있도록 타이틀을 붙이는 것이 일반적이다. 그러한 타이틀 아래에 존재하는 본문에 멀티미디어 파일을 첨부한 후에 그에 대한 간단한 설명을 추가할 수도 있다. 물론, 설명이 생략되고 타이틀에 함축적으로만 나타낼 수도 있을 것이다. 다만, 통상적으로 게시자가 인터넷 상(예를 들어, 게시판)에 멀 티미디어 문서를 제시할 때에서는 그에 대한 간단한 설명이 추가되는 것이 일반적일 것이다.

또한, 게시자가 자신의 게시물의 본문에 설명을 하는 것과는 별도로 게시자 자신이 자신의 글에 댓글을 달 수도 있을 것이다. 게시자 자신이 자신의 글에 댓글을 작성한다는 것은, 예컨대, 게시자가 본문에 설명을 하면 다른 사용자가 그 설명에 대해 댓글을 달 것이고, 이러한 다른 사용자의 댓글을 본 원래 게시자가 그 댓글에 대한 자신의 의견을 댓글로 표현하는 경우가 대부분일 것이다.

즉, 앞서 설명한 게시자가 입력한 타이틀, 게시자가 입력한 설명, 게시자가 입력한 댓글에서 주요 용어가 키워드로서 추출된다.

다음으로, 도 1의 단계 104에서, 다른 사용자의 댓글에서 키워드를 추출한다.

여기서, 다른 사용자의 댓글이란, 전술한 바와 같이, 원래 게시자의 설명을 보거나 또는 멀티미디어 파일 자체를 보고 난 후의 사용자의 반응이 될 것이다. 이러한 댓글은 물론 복수 개일 수 있으며, 여러 사용자에 의한 것일 수 있다.

단계 106에서는, 키워드(단계 102에서 추출한 키워드 및/또는 단계 104에서 추출한 키워드)를 이용하여 문헌 데이터베이스 검색, 뉴스 검색, 인터넷 문서 검색 등을 통해 유사 문서를 검색하여 유사 문서에서 함께 사용된 관련어들을 키워드에 포함시켜 키워드를 확장한다.

다시 말해, 단계 106은 키워드 확장 단계로서, 게시자가 타이틀, 설명, 또는 자신의 댓글에서 사용한 키워드를 이용하여 인터넷 검색을 통해서 다른 키워드를 얻어내거나, 다른 사용자의 댓글에서 사용된 키워드를 이용하여 인터넷 검색을 통해서 다른 키워드를 얻어내는 것이며, 이를 키워드의 확장이라 표현할 수 있을 것이다.

이처럼 키워드를 확장하는 데 있어서는, 이미 얻은 키워드와 새로 얻을 키워드 사이의 유사도를 판단하는 방식이 중요하며, 이 때 예를 들어, 키워드 비교, 유클리디언 거리, 코사인 공식 등을 이용할 수 있다.

한편, 단계 102, 104 및 106에서는 금칙어와 불용어를 처리한다. 즉, 각 단계에서는 추출 및/또는 확장된 키워드 후보로부터 소정의 금칙어와 불용어(stop word)를 미리 제거한다. 금칙어를 정하는 데에는 여러 기준이 있을 수 있으며, 예를 들어 욕설, 광고문구 등에 사용되는 용어들이 될 수 있다. 불용어는 색인어로서의 가치가 없으므로 색인어로 사용하지 않는 단어들이므로 제거한다.

도 2는 도 1의 단계 102를 더욱 상세히 설명하는 흐름도이다.

단계 102-2에서 멀티미디어 게시물의 게시자가 직접 작성한 타이틀과 설명(해설)이 있으면 여기서 키워드를 추출한다. 작성한 문서가 텍스트라면 텍스트로부터도 키워드를 추출함은 물론이다.

멀티미디어 게시자인지 아닌지는 예를 들어 게시자의 ID로 확인할 수 있을 것이다. 단계 102-2에서 추출한 키워드를 편의상 키워드 집합 A라 한다.

다음으로 단계 102-4에서, 게시자가 직접 작성한 댓글에서도 키워드를 추출한다. 이러한 키워드를 키워드 집합 B라 한다.

게시자가 직접 작성한 댓글이란, 질문에 대한 답변이나 댓글에 대한 답변 등의 형태로서 행해지는 것이 일반적일 것이다. 또는, 게시물의 게시 직후에 추가 사항을 본문의 수정을 통하지 않고 게시물에 대한 댓글의 형태로 달 수도 있을 것이다.

모든 텍스트가 키워드가 되는 것은 아니며, 키워드 후보를 찾아내기 위해서 형태소 분석 방법을 사용할 수 있다. 형태소란 의미를 갖는 언어단위 중 최소단위이며, 형태소 분석에서는 실질적 의미를 갖는 실질형태소를 식별함으로써 색인어 추출을 위해서 사용된다. 색인어로 사용되는 품사는 주로 명사(또는 체언)이므로 형태소 분석을 통해 이를 식별하고 불규칙 활용이나 탈락, 축약 등이 있을 경우는 이를 처리하여 원형을 찾아낸다. 형태소 분석과 키워드 추출을 자동으로 수행하는 프로그램들이 활용되고 있다.

형태소 분석에서, 한글의 경우를 예로 들면, '명사+조사'로 구성되는 텍스트를 명사와 조사로 구분하고 조사를 제외한 명사에서 키워드 후보를 찾는 것이 일례가 될 수 있다. 키워드 후보란 아직 키워드로 선정되지는 않았으며 키워드가 되기 위한 검증을 거칠 단어를 지칭한다.

또한, 욕설이나 광고 문구 등에 사용되는 용어들을 금칙어로 별도의 사전으로 관리하여 키워드 후보로 선정되지 않도록 하며, 색인어로서의 가치가 없는 불용어(stop word)도 별도의 사전으로 관리하여 키워드 후보로 선정되지 않도록 한다.

이러한 금칙어(욕설, 광고 문구 등) 및/또는 불용어의 필터링은 단계 102-2에서도 수행되고, 또한 단계 102-4에서도 수행되는 것이 바람직하다. 이 경우, 후 속의 불필요한 계산 과정을 줄일 수 있다.

도 3은 도 1의 단계 104를 더욱 상세히 설명하는 흐름도로 게시물의 댓글들에서 키워드 그룹 C를 추출하는 과정을 보여준다. 댓글에서의 키워드 후보 추출 단계는 게시물에 대한 댓글들의 수가 적어도 수행할 수 있지만 일정 규모(사전에 설정) 이상이 되어 다수의 키워드 후보들을 추출할 수 있을 때 수행하는 것이 더욱 효과적이다.

도 3에 따른 단계에서도, 형태소 분석을 이용하여 키워드 후보를 찾아낸다. 형태소 분석에 대해서는 전술한 바 있다.

단계 104-2에서, 욕설이나 광고 게시물 작성자의 ID를 별도로 관리하고 이들의 댓글을 필터링한다. 이러한 단계는 단계 104의 말미에 행해질 수도 있음은 물론이다. 다만, 미리 필터링을 행하는 것이 컴퓨팅 자원의 효율적 이용에 도움이 될 것이다.

단계 104-4에서, 사용자마다 과거에 작성한 댓글들에서 최종 키워드로 채택된 키워드의 수를 누적하여 기록한다. 예를 들어, happy1이라는 아이디를 가진 사용자가 작성한 댓글들에서 채택된 키워드가 5개이고 comp1234라는 아이디를 가진 사용자가 작성한 댓글들에서 채택된 키워드가 2개이고 iloveyou라는 아이디를 가진 사용자가 작성한 댓글들에서 채택된 키워드가 3개라면, 이러한 키워드의 수(5개, 2개, 3개)를 각각의 사용자 별로 누적하여 기록한다는 것이다. 과거에 작성한 댓글들에서 채택된 키워드의 수가 많은 댓글 작성자는 게시물의 주제에 대해 관련성 높 은 댓글을 작성한 사용자라고 볼 수 있다.

물론, 이는 예전에 채택된 키워드를 기준으로 하여 현재의 키워드 후보 중에서 선정하는 데에 반영한다는 것이므로, 만약, 게시판이 최초로 생성되어 게시물이 게시되는 극히 예외적인 경우라면 단계 104-4 및 관련 단계는 적용되기 힘들 수도 있다.

단계 104-6에서, 누적 채택 키워드의 수에 의해 사용자의 순위를 1등부터 순차적으로 부여한다. 위에서 든 예를 보면, 1등은 happy1, 2등은 iloveyou, 3등은 comp1234가 될 것이다.

단계 104-8에서, 누적 키워드의 수 또는 순위를 다음 댓글의 키워드 선택에 반영한다. 즉, 랭킹이 높은 게시자가 작성한 댓글의 키워드 후보에 더 높은 가중치를 준다.

예를 들어, happy1이라는 사용자가 5개의 누적 채택 키워드로 1위, iloveyou라는 사용자가 3개의 누적 채택 키워드로 2위, comp1234라는 사용자가 2개의 누적 채택 키워드로 3위인 상황이라면, 다음 댓글의 키워드를 선택함에 있어서, happy1과 iloveyou와 comp1234의 키워드 후보에 대한 가중치는 5:3:2일 수 있다는 것이다. 물론 이는 누적 키워드의 수에 따라 가중치를 주는 가장 간단한 일예일 뿐이고 누적 키워드에 따라 가중하면서도 이와는 다른 방식으로 가중치를 줄 수도 있을 것이다.

댓글에서 사용된 키워드 후보들의 가중치 계산에 대해 더욱 구체적으로 설명하면 다음과 같다. 물론 이는 일실시예이며 다른 변형은 얼마든지 가능할 것이다.

j명의 상위 랭커들이 사용한 키워드 후보에만 가중치를 부여할 수도 있고, 또는 모든 랭커들의 가중치를 반영할 수도 있다. 가중치 부여 방법은 랭킹이 높으면 높은 가중치를 부여하고, 랭킹이 낮으면 낮은 가중치를 부여하는 것을 생각해 볼 수 있다.

키워드 후보 k의 가중치를 w_k라 하고 w_k≥1이라 하자. 또한, 랭커들이 전혀 사용하지 않은 키워드 후보의 기본값은 w_k=1이라 하자(즉, 이는 키워드가 채택된 적이 없는 사용자나 새로 등장한 사용자에 의해서만 사용된 키워드 후보일 것이다).

이 경우, w_k를 구하는 구체적인 일예는 다음과 같다.

여기서, n은 이 단어를 사용한 댓글 작성자들의 수이며, c1은 실수(real number)인 조정 계수이며, 가중치(weight)의 크기를 조정하는 역할을 한다. 위 식은 키워드 후보의 수와 이 단어를 사용한 댓글 작성자들의 과거 댓글들에서 채택된 키워드의 합계의 비율을 구하는 것으로, 해당 키워드 후보를 사용한 댓글 작성자들의 과거 댓글들에서 채택된 키워드 수가 많을수록 수학식은 높은 값을 갖는다.

또는 w_k는 다음과 같이 구할 수도 있다.

여기서, n은 이 단어를 사용한 댓글 작성자들의 수이며, c2는 실수인 조정 계수이다. 위 식은 이 단어를 사용한 댓글 작성자들의 과거 댓글들에서 채택된 키워드의 수의 평균을 구하는 것으로, 해당 키워드 후보를 사용한 댓글 작성자들의 과거 댓글들에서 채택된 키워드 수가 많을수록 수학식은 높은 값을 갖는다.

또는 w_k는 다음과 같이 구할 수도 있다.

여기서, n은 이 단어를 사용한 랭커의 수이며, c3은 실수인 조정 계수이다. 전체 랭킹이 1부터 m까지라면 마지막 랭킹의 값은 m이다. 위 식은 키워드 후보의 수와 이 단어를 사용한 댓글 작성자들의 마지막 랭킹과의 차이의 합계의 비율을 구하는 것으로, 해당 키워드 후보를 사용한 댓글 작성자들의 랭킹들이 높을수록 수학식은 높은 값을 갖는다

또는 w_k는 다음과 같이 구할 수도 있다.

여기서, n은 이 단어를 사용한 랭커의 수이며, c4는 실수인 조정 계수이다. 전체 랭킹이 1부터 m까지라면 마지막 랭킹의 값은 m이다. 위 식은 이 단어를 사용한 댓글 작성자들의 마직막 랭킹과의 차이의 평균을 구하는 것으로, 해당 키워드 후보를 사용한 댓글 작성자들의 랭킹들이 높을수록 수학식은 높은 값을 갖는다

위에서 수학식 1~4를 통해 가중치를 부여하는 방법을 제시하였으나, 이외에 도 여러 가지 방법이 사용될 수 있을 것이다. 과거 채택된 키워드의 수와 랭킹 중에서 한가지를 다양한 방식으로 이용할 수도 있으며, 또는 두 가지를 함께 이용하여 다양한 방식으로 가중치를 구할 수도 있다. 예를 들어, 키워드의 수에 기반한 수학식을 일정비율 반영하고 랭킹에 기반한 수학식을 일정비율 반영하여 사용하는 것도 한가지 예일 수 있다 (비율의 합계는 100%).

다음으로, 단계 104-10에서, 키워드 후보들이 댓글에서 사용된 빈도 f_k를 계산한다. 즉, 키워드 후보 k의 빈도 f_k는 댓글들에 나타난 횟수이다.

단계 104-12에서, 댓글에서 사용된 키워드들을 (f_k × w_k) 값의 내림차순으로 순위를 부여한다.

다음으로 단계 104-14에서, 상위의 일부(1등부터 순서대로 상위 j개, 또는 일정 비율의 상위 일부, 또는 일정 점수 이상의 상위 일부 등의 방식으로 채택)의 키워드 후보들을 키워드로 채택한다. 물론, 욕설이나 광고 문구 등에 사용되는 금칙어나 색인어로서의 가치가 없는 불용어(stop word)는 키워드 후보 선정과정에서 미리 배제된다. 이렇게 하여 선정된 키워드(즉, 게시물의 게시자가 아닌 다른 사용자의 댓글에서 추출한 키워드)를 키워드 집합 C라 한다.

도 4는 도 1의 단계 106을 더욱 상세히 설명하는 흐름도이다.

도 1의 단계 106은 키워드 집합 A, 키워드 집합 B 및 키워드 집합 C를 이용 하여 문헌 검색을 행하여 키워드 집합 D를 구하는 것으로서, 문헌 데이터베이스, 뉴스, 인터넷 검색 등을 통한 것이다. 검색에 사용되는 문헌은 게시물의 특성에 따라 뉴스 검색, 인터넷 검색, 특정 종류의 문헌에 대한 검색 중에서 효과적인 것을 선택할 수 있다. 예를 들어 시사적 이슈에 관한 게시물은 뉴스검색이 효과적일 수 있다. 이하, 이러한 단계 106을 더욱 구체적으로 세분화하여 설명한다.

단계 106-2에서, 키워드 집합을 벡터로 변환하여 벡터에 의한 검색을 수행한다. 물론, 반드시 벡터로 변환하여 검색을 하여야 하는 것은 아니며, 이하 설명하는 내용은 일예로 보아야 할 것이다. 다른 예로는, 키워드의 비교에 의한 불리언(Boolean) 검색을 수행할 수도 있을 것이며, 유사검색 방법도 다양한 검색방법들 중에서 사용할 수 있을 것이다.

벡터에 의한 검색은 벡터 간의 유사도를 구하는 과정으로 볼 수 있으며, 벡터 간의 유사도를 구하는 방식에는 예를 들어 유클리디언 거리에 의한 유사도 측정 및 코사인 공식에 의한 유사도 측정이 있다.

유클리디언 거리에 의한 유사도 측정, 즉, 유클리디언 거리 공식이란 다차원 공간에서 두 점 간의 거리를 구하는 것으로서, 두 점(벡터)을 (p1, p2, p3, p4,...)와 (q1, q2, q3, q4, ...)로 표기한 경우 유클리디안 거리 공식은 아래와 같다.

한편, 코사인 공식에 의한 유사도 측정은 다음과 같다.

코사인 공식은 벡터 간의 코사인 값을 구하여 유사도로 사용하는 것이다. 이때, 코사인 값이 큰 것이 유사도가 높은 것이다.

이때, 빈도(frequency)는 댓글 등에서의 사용 빈도를 사용할 수 있으며, 가중치를 부여할 수 있다. 즉, 키워드 집합 A, 키워드 집합 B, 및 키워드 집합 C의 조정 계수 가중치인 w1, w2 및 w3의 값을 달리 하여 벡터의 원소의 값을 계산할 수 있다. 예를 들어, 키워드 집합 A와 키워드 집합 B의 가중치를 높게 하고 키워드 집합 C의 가중치를 낮게 할 수 있는 것이다.

벡터의 원소의 값을 정하는 식은 다음과 같다.

w1×Fa + w2×Fb + w3×Fc

이때, Fa와 Fb는 각각 사용된 빈도로서 1보다 크거나 같으며, Fc는 다음과 같다.

Fc = (댓글들에서 해당 키워드의 빈도)/(채택된 키워드들의 댓글들에서의 최대 빈도)

이때, Fc의 값은 0보다 크고 1보다 작거나 같다. 채택된 키워드들의 댓글들에서의 최대 빈도는 채택된 키워드들 중 최대빈도를 갖는 키워드의 댓글들에서의 빈도 값이다.

또는, 수학식 7 및 수학식 8과 같이 다소 복잡한 가중치를 두어 계산하지 않고, 단순히 불리언 검색(AND, OR 검색)을 행할 수도 있을 것이다.

전술한 단계 106-2의 유사도 계산은 일실시예이며, 유사도를 계산할 수 있는 방법이라면 어떠한 방식이라도 좋다. 즉, 단계 106-2의 주된 기능은 키워드 집합 A 내지 C와 유사한 문서(유사도가 높은 문서)를 찾는 것이고 본 실시예에서는 일예로서 벡터 변환을 통해 그러한 유사도를 계산한 것이다.

다음으로, 단계 106-4에서, 검색된 유사 문서들 중에서 상위 순서대로 일부 문서들을 선택한다. 이때, 일부 문서라 함은 예를 들어 상위 i개(예를 들어 상위 5개)의 문서일 수 있다. 또는 일정 비율의 상위 순위자들이나, 일정 점수 이상의 상위 순위자들을 선택할 수도 있다.

단계 106-6에서, 선택된 상위 유사 문서들에서 '검색 키워드'들과 '함께 사용된 모든 키워드 후보'들을 선택한다. 예를 들어, 키워드 집합 A에 {제주도, 한라산}이 포함되어 있고, 키워드 집합 B에 {감귤}이 포함되어 있고, 키워드 집합 C에 {하루방}이 포함되어 있다면, 제주도, 한라산, 감귤, 하루방이 '검색 키워드'가 되고, 이들을 기준으로 하여 검색한 유사 문서들에 포함된 키워드(예를 들어, 유채꽃, 관광, 해녀 등)가 '함께 사용된 키워드 후보'가 될 것이다.

단계 106-8에서, 함께 사용된 키워드 후보들의 빈도를 기준으로 하여, 빈도가 많은 것부터 차례로 순서를 부여한다. 예를 들어 키워드 후보로서 유채꽃이 8회, 관광이 2회, 해녀가 5회 등장한다고 가정하면, 유채꽃이 1위, 해녀가 2위, 관광이 3위가 될 것이다.

다음으로, 단계 106-10에서, 빈도가 상위인 함께 사용된 키워드 후보들(상위 m개, 또는 일정 비율의 상위 순위자들, 또는 일정 빈도 이상의 상위 순위자들)을 키워드로 채택한다. 예를 들어 상위 2개의 키워드를 선정한다고 하면, 위의 예에서 유채꽃 및 해녀가 키워드로 선정될 것이다. 여기서 정해진 키워드(즉, 유채꽃 및 해녀)를 편의상 키워드 집합 D라 한다. 물론, 욕설이나 광고 문구 등에 사용되는 금칙어나 색인어로서의 가치가 없는 불용어(stop word)는 키워드 후보 선정과정에 서 미리 배제된다.

단계 106-12에서, 지금까지 얻은 키워드 집합 A~D를 최종 키워드 집합으로서 선정한다.

그리고, 단계 106-14에서, 키워드의 빈도를 부여하여 벡터로 변환할 수 있으며, 빈도에는 가중치를 부여할 수 있다. 다시 말해, 키워드 집합 A, 키워드 집합 B, 키워드 집합 C, 및 키워드 집합 D의 조정 계수 가중치인 w4, w5, w6 및 w7을 달리 하여 벡터의 원소 값을 계산하는 것이다.

벡터의 원소의 값을 정하는 식은 다음과 같다.

w4×Fa + w5×Fb + w6×Fc + w7×Fd

Fa와 Fb는 각각 사용된 빈도로 1보다 크거나 같으며, Fc는 다음과 같다.

이때, Fc의 값은 0보다 크고 1 이하이다. 채택된 키워드들의 댓글들에서의 최대 빈도는 채택된 키워드들 중 최대빈도를 갖는 키워드의 댓글들에서의 빈도 값 이다.

Fd는 다음과 같다.

Fd = (유사 문서들에서의 해당 키워드의 빈도)/(채택된 키워드들의 유사 문서들에서의 최대 빈도)

이때, Fd의 값은 0보다 크고 1 이하이다. 채택된 키워드들의 유사 문서들에서의 최대 빈도는 채택된 키워드들 중 최대빈도를 갖는 키워드의 유사문서들에서의 빈도 값이다.

이처럼, 상기 키워드 집합 A 내지 D의 각각에 소정의 가중치를 부여하여 벡터의 원소 값을 계산한다. 물론 상기 키워드 집합들에 속하지 않는 키워드의 벡터의 원소 값은 0을 갖는다.

도 5는 본 발명의 일실시예에 따른 키워드 추출 장치를 나타낸 구성도이다.

도 5에서 본 발명의 키워드 추출 장치(500)는 인터넷으로 대표되는 전자정보통신망과 연결되어 있다. 전자정보통신망은 인터넷이라도 좋고 인트라넷이라도 좋고, 규모 또한 불문한다.

본 발명의 장치(500)는 제1 키워드 추출 수단(502), 제2 키워드 추출 수단(504) 및 키워드 확장 수단(506)을 포함한다.

제1 키워드 추출 수단(502)은, 인터넷 등의 전자정보통신망에서의 게시물에 대해, 게시물의 게시자가 작성한 문구로부터 제1 키워드를 추출한다. 제2 키워드 추출 수단(504)은, 게시자의 게시물에 대한 타인의 댓글로부터 제2 키워드를 추출한다. 그리고, 키워드 확장 수단(506)은, 이러한 제1 및 제2 키워드를 이용하여 유사 문서들을 검색하여 키워드를 확장한다.

도 5에는 도시하지 아니하였으나, 제1 키워드 추출 수단(502), 제2 키워드 추출 수단(504), 및 키워드 확장 수단(506)의 내부에 소정의 금칙어와 불용어에 대한 필터링을 행하는 수단이 포함되어 있을 수 있다.

도 5에서는 제1 키워드 추출 수단(502), 제2 키워드 추출 수단(504), 및 키워드 확장 수단(506)이 별개의 구성요소인 것으로 도시되었으나, 반드시 물리적으로 별개의 것일 필요는 없다. 예를 들어, PC의 CPU가 제1 키워드 추출 수단(502), 제2 키워드 추출 수단(504), 및 키워드 확장 수단(506)의 기능을 할 수도 있을 것이다.

이상에서 일예를 들어 설명하였다. 예를 들어 인터넷이라고 하였으나, 이는 일예이며 컴퓨터가 개입되는 전자정보통신망(전기통신망)이라는 의미로 파악하여야 할 것이다. 따라서, 외부로 연결되지 않는 인트라넷이라 해도 어느 정도의 규모만 갖추면 본 발명의 실시예의 기본 사상이 적용될 수 있음은 자명하다. 따라서, 본 발명은 전자적인 수단을 통한 전자정보통신망 전반에 적용되는 것으로 보아야 할 것이다. 또한, 그 통신이 유선에 의한 것이든 무선에 의한 것이든 적용될 수 있음은 물론이다.

또한, 금칙어와 불용어를 필터링하는 것으로 하였으나, 이는 단계 102, 104, 106의 도중에 행하여 키워드 후보에서 미리 배제하는 것이 효율성 측면에서 바람직하다.

한편, 본 발명의 실시예는 본 명세서에서 기술한 방법들을 컴퓨터상에서 수행하기 위한 프로그램을 포함하는 컴퓨터 판독 가능 기록매체를 포함할 수 있다. 상기 컴퓨터 판독가능 기록매체는 프로그램 명령, 로컬 데이터 파일, 로컬 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독가능 기록매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광 기록 매체, 플로피 디스크와 같은 자기-광 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.

이상에서 대표적인 실시예를 통하여 본 발명에 대하여 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시예에 대 하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다.

그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

도 2는 도 1의 단계 102를 더욱 상세히 설명하는 흐름도이다.

도 3은 도 1의 단계 104를 더욱 상세히 설명하는 흐름도이다.

도 4는 도 1의 단계 106을 더욱 상세히 설명하는 흐름도이다.

Claims

전자정보통신망에서의 게시물에 대해, 상기 게시물의 게시자가 작성한 타이틀 및 해설로부터 제1 키워드를 추출하고, 상기 게시자 자신의 댓글로부터 제2 키워드를 추출하는 제1 및 제2 키워드 획득 수단;

1 이상의 다른 사용자가 상기 게시물에 대해 작성한 댓글로부터, 제3 키워드를 채택하는 제3 키워드 획득 수단; 및

상기 제1 내지 제3 키워드를 이용하여, 상기 전자정보통신망을 통해 유사 문서를 검색하여 키워드를 확장함으로써 제4 키워드를 획득하는 제4 키워드 획득 수단을 포함하며,

상기 제3 키워드 획득 수단은,

상기 1 이상의 다른 사용자별로 채택된 키워드의 수를 누적하여 기록하고,

상기 누적 채택된 키워드의 수에 의해 상기 1 이상의 다른 사용자에게 순위를 부여하고,

상기 누적 채택된 키워드의 수 또는 순위를 이용하여 각 키워드 후보들의 가중치를 계산하고,

상기 키워드 후보들이 댓글에서 사용된 빈도를 계산하고,

댓글에서 사용된 상기 키워드 후보들의 빈도 및 상기 가중치를 이용하여 순위를 부여하고,

상기 빈도 및 상기 가중치를 이용하여 부여된 순위에 따라, 상기 키워드 후보 중 상위의 일부를 키워드로서 채택하는 것을 특징으로 하는 키워드 추출 장치.
제1항에 있어서,

상기 제1 내지 제4 키워드 중에서 금칙어와 불용어를 필터링하는 필터링 수단

을 더 포함하는 것을 특징으로 하는 키워드 추출 장치.
삭제
제1항에 있어서,

상기 가중치는 다음의 수학식,

(이때, w_k는 키워드 k의 가중치, n은 키워드 k를 사용한 댓글 작성자들의 수, c1은 조정 계수)

를 이용하여 계산되는, 키워드 추출 장치.
제1항에 있어서,

상기 가중치는 다음의 수학식,

(이때, w_k는 키워드 k의 가중치, n은 키워드 k를 사용한 댓글 작성자들의 수, c2는 조정 계수)

를 이용하여 계산되는, 키워드 추출 장치.
제1항에 있어서,

상기 가중치는 다음의 수학식,

(이때, w_k는 키워드 k의 가중치, n은 키워드 k를 사용한 랭커의 수, c3는 조정 계수)

를 이용하여 계산되는, 키워드 추출 장치.
제1항에 있어서,

상기 가중치는 다음의 수학식,

(이때, w_k는 키워드 k의 가중치, n은 키워드 k를 사용한 랭커의 수, c4는 조정 계수)

를 이용하여 계산되는, 키워드 추출 장치.
삭제
제1항에 있어서,

상기 제4 키워드 획득 수단은,

상기 제1 내지 제3 키워드 집합을 벡터의 원소의 값으로 변환하여 상기 전자정보통신망을 통해 유사 문서를 검색하고,

상기 검색된 유사 문서들 중 유사도가 높은 순서대로 일부 문서를 선택하고,

상기 선택된 일부 문서 중에서 키워드 후보를 선정하고,

상기 키워드 후보들의 등장 빈도에 따라 순위를 부여하고,

상기 키워드 후보들 중 부여된 상기 순위가 높은 순서로 소정 개수의 키워드 후보를 제4 키워드로 채택하는 것을 특징으로 하는 키워드 추출 장치.
제9항에 있어서,

상기 제4 키워드 획득 수단은, 추가적으로,

상기 제1 내지 제4 키워드 각각의 빈도에 소정의 가중치를 부여하여 벡터의 원소의 값을 계산하는 것을 특징으로 하는 키워드 추출 장치.
제10항에 있어서,

상기 제1 키워드의 빈도는 상기 제1 키워드의 상기 타이틀 및 상기 해설에서의 빈도를 사용하며, 상기 제2 키워드의 빈도는 상기 제2 키워드의 상기 게시자 자신의 댓글에서의 빈도를 사용하는 것을 특징으로 하는 키워드 추출 장치.
제10항에 있어서,

상기 제3 키워드의 빈도는, 다음의 수학식

빈도(Fc) = (댓글들에서 해당 키워드의 빈도)/(채택된 키워드들의 댓글들에서의 최대 빈도)

에 의하여 계산되는, 키워드 추출 장치.
제10항에 있어서,

상기 제4 키워드의 빈도는,

빈도(Fd) = (유사 문서들에서의 해당 키워드의 빈도)/(채택된 키워드들의 유사 문서들에서의 최대 빈도)

에 의하여 계산되는, 키워드 추출 장치.
키워드 추출 장치에서, 키워드를 추출하는 방법으로서,

상기 키워드 추출 장치의 제1 및 제2 키워드 획득 수단에서, 전자정보통신망에서의 게시물에 대해, 상기 게시물의 게시자가 작성한 타이틀 또는 해설로부터 제1 키워드를 추출하고, 상기 게시자 자신의 댓글로부터 제2 키워드를 추출하는 제1 및 제2 키워드 획득 단계;

상기 키워드 추출 장치의 제3 키워드 획득 수단에서, 1 이상의 다른 사용자가 상기 게시물에 대해 작성한 댓글로부터, 제3 키워드를 채택하는 제3 키워드 획득 단계; 및

상기 키워드 추출 장치의 제4 키워드 획득 수단에서, 상기 제1 내지 제3 키워드를 이용하여, 상기 전자정보통신망을 통해 유사 문서를 검색하여 키워드를 확장함으로써 제4 키워드를 획득하는 제4 키워드 획득 단계를 포함하며,

상기 제3 키워드 획득 단계는,

상기 1 이상의 다른 사용자별로 채택된 키워드의 수를 누적하여 기록하는 단계,

상기 누적 채택된 키워드의 수에 의해 상기 1 이상의 다른 사용자에게 순위를 부여하는 단계,

상기 누적 채택된 키워드의 수 또는 순위를 이용하여 각 키워드 후보들의 가중치를 계산하는 단계,

상기 키워드 후보들이 댓글에서 사용된 빈도를 계산하는 단계,

댓글에서 사용된 상기 키워드 후보들의 빈도 및 상기 가중치를 이용하여 순위를 부여하는 단계,

상기 빈도 및 상기 가중치를 이용하여 부여된 순위에 따라, 상기 키워드 후보 중 상위의 일부를 키워드로서 채택하는 단계를 포함하는 것을 특징으로 하는 키워드 추출 방법.
제14항에 있어서,

상기 제1 내지 제4 키워드의 획득 단계 각각의 도중에 상기 키워드 추출 장치의 필터링 수단에서, 상기 제1 내지 제4 키워드 중에서 금칙어와 불용어를 필터링하는 것을 특징으로 하는 키워드 추출 방법.
제14항에 있어서,

상기 제3 키워드 획득 단계는,

상기 키워드 추출 장치의 제3 키워드 획득 수단에서, 상기 1 이상의 다른 사용자별로 채택된 키워드의 수를 누적하여 기록하는 단계;

상기 키워드 추출 장치의 제3 키워드 획득 수단에서, 상기 누적 채택된 키워드의 수에 의해 상기 1 이상의 다른 사용자에게 순위를 부여하는 단계; 및

상기 키워드 추출 장치의 제3 키워드 획득 수단에서, 상기 누적 채택된 키워드의 수 또는 순위를 가중치로 하여 다음 댓글의 키워드 선택에 반영하는 단계

를 포함하는 것을 특징으로 하는 키워드 추출 방법.
삭제
제14항에 있어서,

상기 제4 키워드 획득 단계는,

상기 키워드 추출 장치의 제4 키워드 획득 수단에서, 상기 제1 내지 제3 키워드 집합을 벡터의 원소의 값으로 변환하여 상기 전자정보통신망을 통해 유사 문서를 검색하는 단계;

상기 키워드 추출 장치의 제4 키워드 획득 수단에서, 상기 검색된 유사 문서들 중 유사도가 높은 순서대로 일부 문서를 선택하는 단계;

상기 키워드 추출 장치의 제4 키워드 획득 수단에서, 상기 선택된 일부 문서 중에서 키워드 후보를 선정하는 단계;

상기 키워드 추출 장치의 제4 키워드 획득 수단에서, 상기 키워드 후보들의 등장 빈도에 따라 순위를 부여하는 단계; 및

상기 키워드 추출 장치의 제4 키워드 획득 수단에서, 상기 키워드 후보들 중 부여된 상기 순위가 높은 순서로 소정 개수의 키워드 후보를 제4 키워드로 채택하는 단계

를 포함하는 것을 특징으로 하는 키워드 추출 방법.
제18항에 있어서,

상기 제4 키워드 획득 단계는,

상기 키워드 추출 장치의 상기 제4 키워드 획득 수단에서, 상기 제1 내지 제4 키워드의 각각의 빈도에 소정의 가중치를 부여하여 벡터의 원소의 값을 계산하는 단계

를 더 포함하는 것을 특징으로 하는 키워드 추출 방법.
제14항 내지 제16항, 제18항 또는 제19항 중 어느 한 항에 기재된 방법을 컴퓨터상에서 수행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.