KR101319413B1

KR101319413B1 - 제품 및 서비스 관련 리뷰에 대한 요약 정보 생성 시스템 및 방법

Info

Publication number: KR101319413B1
Application number: KR1020120003157A
Authority: KR
Inventors: 고희동; 박호건; 박경미; 김형곤
Original assignee: 한국과학기술연구원
Priority date: 2012-01-10
Filing date: 2012-01-10
Publication date: 2013-10-17
Also published as: KR20130083092A

Abstract

본 발명은 제품 및 서비스 관련 리뷰에 대한 요약 정보 생성 시스템 및 방법에 관한 것이다. 이를 위해 봉 발명의 일실시예에 따른 요약 정보 생성 시스템은 제품 또는 서비스에 대한 리뷰 데이터를 획득하는 리뷰 데이터 획득부와, 리뷰 데이터에서 문장 분리 및 형태소 분석을 수행하는 전처리부와, 제품 또는 서비스가 속하는 도메인과 관련되는 정보를 추출하는 도메인 지식 추출부와, 추출된 정보에서 평가요소 및 오피니언에 해당하는 단어를 구분하고, 구분된 평가요소 및 오피니언에 해당하는 단어를 이용하여 평가요소 별 오피니언을 추출하는 평가요소-오피니언 추출부와, 평가요소-오피니언 추출부가 추출한 평가요소 별 오피니언을 이용하여 제품 또는 서비스에 대한 평가 정보를 생성하는 평가 정보 생성부를 포함한다.

Description

제품 및 서비스 관련 리뷰에 대한 요약 정보 생성 시스템 및 방법{Summary Information Generating System and Method for Review of Product and Service}

본 발명은 제품 및 서비스 관련 리뷰에 대한 요약 정보 생성 시스템 및 방법에 관한 것이다.

리뷰 마이닝에서 긍정/부정 표현에 해당하는 어휘 정보를 추출하는 것은 중요하다. 그러나 주어진 특정 도메인에 대해 긍정/부정 표현에 해당하는 단어들을 자동으로 생성하는 것은 쉽지가 않다. 따라서, 기존에 구축된 사전 등의 리소스를 이용하거나 수작업을 통해서 해당 도메인의 고빈도 긍정/부정을 표현하는 단어들을 확인할 수 있다. 하지만, 한국어에 대해서는 아직 활용할만한 리소스가 존재하지 않는다. 기계 학습 방법을 적용하는 경우 학습 데이터에 대한 유용한 통계 정보를 활용하여 자동으로 어휘 정보를 얻을 수 있다. 하지만, 대량의 학습 데이터를 구축하기 위하여 많은 수작업을 수행하여야 하고, 도메인이 변화할 때마다 학습 데이터를 새로 구축하는 작업이 필요하다.

기존의 연구들은 문서 전체에 대해 또는 문장 단위로 긍정/부정 오피니언을 판단하였다. 그러나, 사용자가 특정 제품이나 서비스에 대해 전체적으로 부정적인 인상을 받았지만 특정 평가요소에 대해서는 긍정적인 리뷰를 작성할 수 있다. 예를 들어, 사용자가 특정 음식점에 대해 전체적으로 부정적인 인상을 받았지만, 이 음식점은 양이 많고 주차하기 좋다고 리뷰를 작성할 수 있다. 따라서, 무엇에 대한 오피니언인지, 평가 대상과 오피니언을 정확하게 연결하는 것이 중요하다.

하지만, 현재의 검색 방법은 질의어와 메타 데이터 간에 일치하는 단어를 찾아서 결과를 보여 주지만, 사용자의 의도가 반영이 안돼 전혀 다른 결과를 내놓을 가능성이 높다. 따라서, 사용자의 의도가 무엇인지 파악하여 질의어를 처리하는 것이 필요하다. 예를 들어, “근처에 데이트하기 좋은 음식점 없나요?”라는 질의어에 대해 현재의 검색 방법은 “광화문 메드포갈릭 괜찮아요”와 같은 답을 주지 못한다.

따라서, 리뷰 텍스트를 분석하여, ‘데이트’나 ‘분위기’와 같은 평가요소에 대하여 리뷰 요약을 제시하는 것이 필요하다.

기존 한국공개특허 제10-2011-0044112호 “상품 속성별 리뷰의 마이닝을 위한 패턴 데이터베이스의 반자동적인 구축 방법”의 경우, 상품의 속성별로 사용되는 어휘에 대한 긍정/부정 여부를 사전에 구축해 놓은 뒤에 이를 통해 새로운 문장에 대해 긍정/부정으로 분류를 수행하는 방법으로 상품평 패턴 사전을 구축하는 것을 개시하고 있다. 하지만, 상품에 대한 구체적인 평가요소별 오피니언을 구축하는 것에 대해서는 개시하고 있지 않다.

또한, 기존 논문 “k-Structure를 이용한 한국어 상품평 단어 추출 방법”의 경우, 한국어 상품평 중 감정어를 자동으로 추출할 수 있도록 하는 k-Structure 기법을 제안하고 있으나, “좋다/나쁘다”의 직접적인 표현만을 추출할 수 있을 뿐, 연어 형태로 구성된 긍정/부정 표현을 찾아낼 수 없다.

논문 “오피니언 마이닝 기술을 이용한 효율적 상품평 검색 기법”의 경우, 사용자의 검색어 뿐만 아니라 상품평 내의 주관적인 의견의 포함 여부 및 감정 극성의 엔트로피 등을 고려하여 상품평의 가치를 판단하지만, 긍정 및 부정의 의미를 반영하는 단어 목록을 구축하는 수작업을 수행하며, 평가요소와 오피니언 간의 연결관계에 대해서 분석하지 못하였다.

논문 “상품평 극성 분류를 위한 특징별 서술어 긍정/부정 사전 자동 추국”의 경우, 상품평에서 제품 특징을 추출한 후 상품평에 존재하는 평점을 활용하여 도메인별로 초기 긍정/부정 서술어를 추출하고, 초기 긍정/부정 서술어와 접속 정보를 분석함으로써 도메인별로 긍정/부정 사전을 구축한다. 하지만, 이 논문은 키워드를 추출하기 위하여 사용자 별점을 이용하고, 수작업으로 이루어진다는 점에서 한계를 지닌다.

한국공개특허 제10-2011-0044112호

k-Structure를 이용한 한국어 상품평 단어 자동 추출 방법(강한훈, 유성준, 한동일, 한국정보과학회논문지 소프트웨어 및 응용 v.37 no.6, pp.470-479, 2010) 오피니언 마이닝 기술을 이용한 효율적 상품평 검색 기법(윤홍준, 김한준, 장재영, 한국정보과학회논문지, 컴퓨팅의 실제 및 레터, v.16, no.2, pp.222-226, 2010) 상품평 극성 분류를 위한 특징별 서술어 긍정/부정 사전 자동 구축(송종석, 이수원, 한국정보과학회논문지, 소프트웨어 및 응용, v.38, no3, pp.157-169, 2011)

본 발명은 전술한 바와 같은 문제점을 해결하기 위해 안출된 것으로, 제품 또는 서비스가 속하는 도메인과 관련된 단서 단어를 자동으로 추출하고, 각 평가요소별 오피니언 정보를 추출하여, 평가요소별 오피니언 정보를 포함하는 리뷰 요약 정보를 생성할 수 있는 요약 정보 생성 시스템 및 방법을 제공하는데 그 목적이 있다.

이를 위해 본 발명의 일실시에에 따른 요약 정보 생성 시스템은, 제품 또는 서비스에 대한 리뷰 데이터를 획득하는 리뷰 데이터 획득부와, 상기 리뷰 데이터 획득부에서 획득된 상기 리뷰 데이터에서 문장 분리 및 형태소 분석을 수행하는 전처리부와, 상기 전처리부에서 처리된 상기 리뷰 데이터를 수신하여 상기 제품 또는 서비스가 속하는 도메인과 관련되는 정보를 추출하는 도메인 지식 추출부와, 상기 도메인 지식 추출부에서 추출된 정보를 수신하여 평가요소 및 오피니언에 해당하는 단어를 구분하고, 상기 구분된 평가요소 및 오피니언에 해당하는 단어를 이용하여 평가요소 별 오피니언을 추출하는 평가요소-오피니언 추출부와, 상기 평가요소-오피니언 추출부가 추출한 상기 평가요소 별 오피니언을 이용하여 상기 제품 또는 서비스에 대한 평가 정보를 생성하는 평가 정보 생성부를 포함한다.

상기 도메인 지식 추출부는, 상기 리뷰 데이터에서 상기 제품 또는 서비스가 속하는 도메인과 관련되는 도메인 의존적 단어를 추출하는 도메인 의존적 단어 추출부와, 상기 리뷰 데이터에서 연어 정보를 추출하는 연어 정보 추출부를 포함할 수 있다.

이때, 상기 도메인 의존적 단어 추출부는, 상기 리뷰 데이터의 단어 중에서 다음의 식

(이때,

는 단어,

은 미리 마련된 데이터베이스에서

의 발생 빈도,

는 상기 도메인에서의

의 발생 빈도를 의미한다)의 값이 미리 설정된 임계값 이상일 때의 단어를 상기 도메인 의존적 단어로 추출할 수 있다.

또한, 상기 연어 정보 추출부는, 상기 리뷰 데이터의 단어 중에서 아래의 식

(이때,

은 전체 단어 발생 빈도,

은 제1단어의 발생 빈도,

는 제2단어의 발생 빈도,

은 제1단어 및 제2단어가 함께 발생한 빈도를 의미한다)의 값이 미리 설정된 임계값 이상일 때의 상기 제1단어 및 상기 제2 단어를 연어로 추출할 수 있다.

상기 평가요소-오피니언 추출부는, 상기 도메인 지식 추출부에서 추출된 정보로부터 단어를 태깅하고, 상기 태깅된 단어로부터 동사구를 인식하고, 패턴 기반으로 양태 분석을 수행함으로써 평가요소 및 오피니언에 해당하는 단어를 인식하는 개체명 인식부와, 상기 개체명 인식부에서 인식한 상기 평가요소 및 오피니언에 해당하는 단어들의 연결관계를 정의하는 관계 추출부를 포함할 수 있다.

또한, 본 발명의 일실시예에 따른 요약 정보 생성 시스템은 상기 전처리부에서 처리된 상기 리뷰 데이터를 기초로 단어들 사이에 서로 동시에 발생하는 정도인 공기 빈도를 추출하는 공기 정보 추출부를 더 포함하고, 상기 관계 추출부는, 상기 공기 정보 추출부에서 추출된 상기 공기 빈도를 이용하여 상기 연결관계를 정의할 수 있다.

또한, 본 발명의 일실시예에 따른 요약 정보 생성 방법은, 상품 또는 서비스에 대한 리뷰 데이터를 획득하는 단계와, 상기 획득된 리뷰 데이터에서 문장 분리 및 형태소 분석을 수행하는 단계와, 상기 문장 분리 및 형태소 분석이 수행된 상기 리뷰 데이터에서 상기 제품 또는 서비스가 속하는 도메인과 관련된 정보를 추출하는 단계와, 상기 추출된 정보를 수신하여 평가요소 및 오피니언에 해당하는 단어를 구분하는 단계와, 상기 구분된 평가요소 및 오피니언에 해당하는 단어를 이용하여 평가요소별 오피니언을 추출하는 단계를 포함할 수 있다.

이때, 요약 정보 생성 방법은, 상기 추출된 상기 평가요소 별 오피니언을 이용하여 상기 제품 또는 서비스에 대한 평가 정보를 생성하는 단계를 더 포함할 수 있다.

상기 리뷰 데이터에서 상기 제품 또는 서비스가 속하는 도메인과 관련된 정보를 추출하는 단계는, 상기 리뷰 데이터에서 상기 제품 또는 서비스가 속하는 도메인과 관련되는 도메인 의존적 단어를 추출하는 단계와, 상기 리뷰 데이터에서 연어 정보를 추출하는 단계를 포함할 수 있다.

상기 도메인 의존적 단어를 추출하는 단계는, 상기 리뷰 데이터의 단어 중에서 다음의 식

(이때,

는 단어,

은 미리 마련된 데이터베이스에서

의 발생 빈도,

는 상기 도메인에서의

상기 연어 정보를 추출하는 단계는, 상기 리뷰 데이터의 단어 중에서 아래의 식

(이때,

은 전체 단어 발생 빈도,

은 제1단어의 발생 빈도,

는 제2단어의 발생 빈도,

상기 추출된 정보를 수신하여 평가요소 및 오피니언에 해당하는 단어를 구분하는 단계는, 상기 추출된 정보로부터 단어를 태깅하는 단계와, 상기 태깅된 단어로부터 동사구를 인식하는 단계와, 상기 태깅된 단어로부터 패턴 기반으로 양태를 분석하는 단계를 포함할 수 있다.

또한, 상기 리뷰 데이터를 기초로 단어들 상이에 서로 동시에 발생하는 정도인 공기 빈도를 추출하는 단계를 더 포함하고, 상기 평가요소 별 오피니언을 추출하는 단계는, 상기 추출된 공기 빈도를 이용하여 상기 평가요소 및 오피니언에 해당하는 단어들의 연결관계를 정의하는 단계를 포함할 수 있다.

본 발명에 따른 요약 정보 생성 시스템 및 방법에 의하면, 통계 기법을 적용한 도메인 의존적 단어 및 연어 추출을 통하여 상품 또는 서비스에 대한 요약에 대한 평가요소 및 오피니언 단어를 효과적으로 추출할 수 있다.

또한, 상품 또는 서비스가 속하는 도메인에 대한 각각의 평가요소별 오피니언을 생성함으로써, 보다 더 정확한 리뷰 요약 정보를 생성할 수 있다.

도 1은 본 발명의 일실시예에 따른 요약 정보 생성 시스템의 개략 구성도이다.
도 2는 본 발명의 일실시예에 따른 요약 정보 생성 방법을 설명하는 순서도이다.
도 3은 본 발명의 요약 정보 생성 시스템이 획득한 리뷰 데이터의 예이다.
도 4는 본 발명의 요약 정보 생성 시스템에서 평가요소 별 오피니언을 추출하는 과정을 나타내는 도면이다.
도 5는 본 발명의 요약 정보 생성 시스템에서 생성된 리뷰 요약 정보의 예이다.

이하에서는 첨부도면을 참조하여 본 발명에 대해 상세히 설명한다. 그러나, 첨부도면 및 이하의 설명은 본 발명에 따른 요약 정보 생성 시스템 및 방법의 가능한 일실시예에 불과하며, 본 발명의 기술적 사상은 아래의 내용에 의해 한정되지 아니한다.

도 1은 본 발명의 일실시예에 따른 요약 정보 생성 시스템의 개략 구성도이다.

도 1에서 볼 수 있듯이, 본 발명의 일실시예에 따른 요약 정보 생성 시스템의 리뷰 요약 정보 생성 방법은 도메인 지식 추출과 평가요소-오피니언 추출로 구분할 수 있다. 두 단계 모두 입력 텍스트 데이터에 대하여 문장 분리 및 형태소 분석의 전처리 후에 수행된다.

도메인 지식 추출은 각 도메인의 유의미한 정보를 인식하는 단걔로 여기서 추출된 정보는 평가요소-오피니언 추출에서 활용된다. 도메인 의존적 단어는 특정 단어가 주어진 도메인에서 발생한 빈도와 일반 도메인의 신문 기사에서 발생한 빈도를 비교하여 추출할 수 있다. 연어 정보는 LR(Likelihood Ratio)을 평가 척도로 활용하여 추출한다.

이후, 도메인 의존적 단어와 연어에 대한 수적업 필터링을 통하여 최종적으로평가요소와 오피니언에 해당하는 단서 단어를 확인할 수 있다. 이 정보는 개체명 인식에서 단서 단어를 찾은데 활용된다. 또한, 평가요소와 오피니언 간의 공기 정보를 추출하여 관계 추출에서 가장 적합한 평가요소-오피니언 연결관계를 찾는데 사용한다.

평가요소-오피니언 추출은 개체명 인식과 관계 추출로 구성된다. 여기서 개체명 인식은 평가요소 또는 오피니언에 해당하는 단어열을 인식하는 단계이고, 관계 추출은 평가요소-오피니언 관계 중 관련성이 존재하는 연결관계만을 인식하는 단계이다.

개체명 인식에서는 정의된 지식을 활용하여 단서 단어 태깅을 수행하여 평가요소를 나타내는 단어열과 오피니언을 나타내는 단어열을 확인한다. 한국어 동사구에서 복잡한 어미 활용을 보완하기 위하여 동사구를 인식하고 본동사와 보조동사의 관계를 분석하여 양태분석을 수행한다. 양태분석을 위하여 정의된 패턴을 활용하여 긍정 또는 부정의 오피니언을 확인한다.

관계 추출에서는 가능한 평가요소-오피니언의 연결관계 후보들 중에서 공기 빈도에 기반하여 적합한 연결관계를 추출한다. 시스템 평점의 결과는 평가 대상에 대하여 긍정 표현의 수와 부정 표현의 수로 요약될 수 있다. 도 1의 구성을 참조하여 더욱 상세히 설명하면 다음과 같다.

도 1을 참조하면, 본 발명의 일실시예에 따른 요약 정보 시스템은 리뷰 데이터 획득부(10)와, 전처리부(20)와, 공기 정보 추출부(30)와, 도메인 지식 추출부(40)와, 평가요소-오피니언 추출부(50)를 포함하여 구성된다.

리뷰 데이터 획득부(10)는 제품 또는 서비스에 대한 리뷰 데이터를 획득하는 역할을 한다. 이때, 기존에 제품 또는 서비스를 이용한 후 인터넷 게시판 등의 매체에 후기를 남긴 경우, 이 후기가 리뷰 텍스트 데이터가 될 수 있다.

전처리부(20)는 리뷰 데이터 획득부(10)에서 획득된 리뷰 텍스트 데이터에서 문장 분리 및 형태소 분석을 수행하는 역할을 한다. 문장 분리는 마침표와 같은 문장 부호에 기반하여 수행되며, 형태소 분석은 총 10개의 품사 집합을 가지고 있는 국민대 형태소 분석기(http://nlp.kookmin.ac.kr/HAM/kor/index.html) Korean Language Technology (KLT)를 이용하여 수행될 수 있다.

도메인 지식 추출부(40)는 전처리부(20)에서 처리된 리뷰 데이터를 수신하여 제품 또는 서비스가 속하는 도메인과 관련되는 정보를 추출하는 역할을 한다. 다시, 도메인 지식 추출부(40)는 도메인 의존적 단어 추출부(41)와, 연어 정보 추출부(43)와, 필터링부(45)를 포함하여 구성된다.

도메인 의존적 단어 추출부(41)는 리뷰 데이터에서 제품 또는 서비스가 속하는 도메인과 관련되는 도메인 의존적 단어를 추출하는 역할을 하며, 연어 정보 추출부(43)는 리뷰 데이터에서 연어 정보를 추출하는 역할을 한다. 필터링부(45)는 도메인 의존적 단어 추출부(41)에서 추출된 도메인 의존적 단어 및 연어 정보 추출부(43)에서 추출된 연어 정보를 사용자의 명령에 의해(즉, 수작업으로) 필터링하는 역할을 한다. 물론, 사용자가 수작으로 필터링하는 대신에 미리 설정된 알고리즘을 이용하여 데이터의 신뢰성을 검증하는 방식으로 필터링하는 방식을 채용할 수도 있다.

위에서, 도메인 의존적 단어(domain-salient word)는 제품 또는 서비스가 속하는 해당 도메인에서 현저하게 발생한 단어들을 의미한다. 예를 들어, 음식점에 대한 리뷰이면 맛, 서비스, 분위기와 같은 단어들이, 카메라에 대한 리뷰이면 렌즈, 해상도, 사진과 같은 단어들이 도메인 의존적 단어에 해당될 것이다.

연어(collocation)는 빈번하게 발생하면서 결속력(cohesion)이 있는 단어열을 의미하는데, 음식점에 대한 리뷰이면 ‘간이 딱 맞다’, ‘경제적 부담이 없다’, ‘일부러 찾아가다’ 등이 이에 해당된다.

본 발명은 앞에서 언급한 바와 같이, 자동 추출된 도메인 의존적 단어 및 연어 정보로부터 수작업 필터링을 통하여 최종적으로 평가요소 및 오피니언에 해당하는 단서 단어를 결정할 수 있다. 도메인 의존적 단어와 연어 정보만을 대상으로 수작업 필터링을 수행하기 때문에 이러한 유용한 정보와 추출이 수작업의 비용을 줄일 수 있다.

한편, 공기 정보 추출부(30)는 문장에서 여러 개의 이러한 평가요소와 여러 개의 오피니언이 발생했을 때 적합한 연결관계를 확인하기 위하여 리뷰 데이터에서 공기(co-occur)빈도를 추출하는 역할을 한다. 여기서, 추출된 공기 정보를 후술할 관계 추출부(59)에서 평가요소와 오피니언의 관계를 정의하는데 이용된다. 이하 (1)에서는 도메인 의존적 단어 추출 방법에 대하여, (2)에서는 연어 정보 추출 방법에 대하여 상세히 설명한다.

(1) 도메인 의존적 단어

평가요소 및 오피니언에 해당하는 단서 단어들은 대부분 도메인 의존적 단어들이다. 도메인 의존적 단어들은 뉴스와 같은 일반 텍스트에 비하여 주어진 도메인에서의 발생 신도가 현저하게 높은 특징이 있다. 따라서, 평가요소 및 오피니언에 해당하는 단서 단어들을 인식하기 위하여 모든 단어들을 탐색할 필요가 없다.

탐색 범위를 주어진 도메인에서 현저하게 발생하는 단어들로 한정하는 것이 가능하다. 본 발명이 제안하는 방법은 주어진 단어가 뉴스 기사에서 발생한 빈도(즉, 일반적인 도메인에서의 발생 빈도)와 리뷰 도메인에서 발생한 빈도를 비교하여 후자에서 더 빈번하게 발생하는 경우 그 단어를 도메인 의존적 단어로 간주할 수 있다. 도메인 의존적 단어는 평가요소 및 오피니언에 해당하는 단서 단어들을 포함할 가능성이 높기 때문에, 중요한 단어를 식별하는 역할을 한다.

본 발명은 일반적인 도메인에서의 단어 발생 빈도를 측정하기 위한 데이터베이스로 뉴스 기사들로 이루어진 2004년 세종계획(http://www.sejong.or.kr/eindex.php) 데이터를 활용한다. 데이터의 크기는 문장의 수가 5,018개이고 명사의 수가 61,597개이다. 다음의 식 RFE(Relative Frequency Ratio)를 계산하여 그 값이 미리 설정된 임계값 이상이면 도메인 의존적 단어들로 간주할 수 있다.

이때,

는 단어,

은 미리 마련된 데이터베이스에서

의 발생 빈도,

는 상기 도메인에서의

의 발생 빈도를 의미한다.

즉, 도메인이 음식점(restaurant)인 경우, 수학식 1에서 분모

은 앞에서 언급한 세종계획 뉴스 기사에서

의 발생 빈도이고, 분자

는 상기 음식점 도메인에서의

의 발생 빈도를 나타낸다. 추출된 도메인 의존적 단어들의 예는 표 1과 같다. 즉, 표 1의 첫 번째 열에서

은 단어

가 일반적인 도메인에서 발생하였으나, 특정 도메인에서 더 많이 발생하여 단어

가 도메인 의존적 단어로 추출되는 경우를 의미하고, 두 번째 열에서

은 단어

가 일반적인 도메인에서 발생하지 않고 특정 도메인에서만 발생하여

가 도메인 의존적 단어로 추출되는 경우를 말한다. 형태소 분석 결과 얻어진 각 어절의 첫 번째 형태소를 사용하여 빈도수를 계산한다.


(N “맛”)	(N “보리밥”)
(N “고기”)	(N “김치찌개”)
(N “메뉴”)	(N “강추”)
(N “분위기”)	(N “고등어”)
(N “서비스”)	(N “인테리어”)

표 1 도메인 의존적 단어들의 예

(2) 연어

리뷰 도메인에서 긍정/부정 표현은 좋아한다/싫어한다 뿐만 아니라 여러 단어에 걸쳐 다양한 표현이 존재할 수 있다. 예를 들어, 음식점 리뷰에서 긍정을 나타내기 위하여 ‘좋아한다’ 뿐만 아니라 ‘일부러 찾아간다’, ‘또 간다’, ‘자구만 가게 된다’, ‘손님이 많다’, ‘항상 간다’, ‘질로 승부한다’ 등으로 표현될 수 있다. 이러한 단어들은 연어(collocation) 처럼 주어진 도메인에서 고빈도 단어열이고 단어들 간의 결속력이 존재하는 특징을 가진다. 제안하는 방법은 다음과 같은 LR(Likelihood Ratio) 식을 활용하여 연어를 자동으로 추출하고 수작업 필터링을 통하여 긍정/부정 표현을 결정한다.

이때,

은 전체 단어 발생 빈도,

은 제1단어의 발생 빈도,

는 제2단어의 발생 빈도,

은 제1단어 및 제2단어가 함께 발생한 빈도를 의미한다.

의 값이 미리 설정된 임계값 이상이면 연어로 간주한다. 추출된 연어의 예를 표 2에 제시하였다. 형태소 분석 결과 얻어진 각 어절의 첫 번째 형태소를 사용하여 두 단어의 빈도수를 계산한다.

연어	예제
(N "간") (Z "딱")	간이 딱이군
(N "눈") (V "띄")	눈에 띄네
(Z "일부러") (V "찾아가")	일부러 찾아간다
(N "속") (V "부대끼")	속이 부대낀다
(N "학생") (Z "우글우글")	학생들이 우글우글할

표 2 연어의 예

다음으로 평가요소-오피니언 추출은 개체명 인식과 관계 추출로 구성된다. 개체명 인식에서는 평가 요소 및 오피니언에 해당하는 단어들을 찾고 관계 추출에서는 인식된 오피니언이 어떤 평가 요소를 가리키는지 그 연결관계를 확인한다. 도 1의 구성을 참조하여 상세히 살펴보면 다음과 같다.

평가요소-오피니언 추출부(50)는 도메인 지식 추출부(40)에서 추출된 정보를 수신하여 평가요소 및 오피니언에 해당하는 단어를 구분하고, 상기 구분된 평가요소 및 오피니언에 해당하는 단어를 이용하여 평가요소 별 오피니언을 추출하는 역할을 한다.

다시 평가요소-오피니언 추출부(50)는 개체명 인식부(51)와, 관계 추출부(59)를 포함하역 구성되며, 개체명 인식부(51)는 다시 태깅부(53)와, 동사구 인식부(55)와, 양태 분석부(57)를 포함하여 구성된다.

개체명 인식부(51)는 도메인 지식 추출부(40)에서 추출된 정보를 기초로, 태깅부(53)를 이용하여 단어를 태깅하고, 동사구 인식부(55)를 이용하여 태깅된 단어의 동사구를 인식하고, 양태 분석부(57)를 이용하여 패턴 기반으로 양태 분석을 수행하는 역할을 한다.

관계 추출부(59)는 개체명 인식부(51)에서 인식한 평가요소 및 오피니언에 해당하는 단어들의 연결관계를 정의하는 역할을 하며, 앞의 공기 정보 추출부(30)에서 추출된 공기 정보를 이용한다.

평가 정보 생성부(60)는 평가요소-오피니언 추출부가 추출한 평가요소 별 오피니언을 이용하여 제품 또는 서비스에 대한 평가 정보를 생성하는 역할을 한다.

위에서, 단서 단어 태깅은 도메인 지식 추출 단계의 결과물을 활용하여 다음의 표 3과 같이 평가요소 및 오피니언에 해당하는 단어들을 찾는다.

형태소 분석 결과가 다음과 같고
일부러 (Z "일부러")
찾아가면서까지 (V "찾아가")+(e "면서까지")

추출된 도메인 지식에 다음이 포함되어 있으면 (“|”를 사용하여 어절을 구분한 것임.)
일부러|찾아가 (POS*POS)

태깅 결과는 다음과 같다.
일부러 (Z "일부러") (POS*
찾아가면서까지 (V "찾아가")+(e "면서까지") *POS)

POS 태그는 긍정 오피니언임을 나타낸다.

표 3 단서 단어 태깅의 예

도메인 지식 추출에서 긍정/부정의 오피니언은 주로 동사에 의해서 표현된다. 오피니언을 표현하는 단어들을 찾기 위하여 제안하는 방법은 한국어 본동사를 대상으로 한다. 본동사와 보조동사의 결합 문제는 동사구 인식 및 양태 분석의 수행을 통하여 처리한다. 예를 들어 도메인 지식 추출 단계에서 ‘아깝다’는 추출하지만 ‘아깝지 않다’는 추출하지 않는다. 이것은 이후의 단계에서 처리한다.

이 경우, 모든 보조동사를 고려하는 것이 아니라 긍정/부정을 결정하는데 영향을 미치는 보조동사만을 고려한다. 동사구 인식은 형태소 분석 결과 얻어진 품사 정보를 활용하여 수행된다. 수작업으로 긍정/부정을 결정하는데 영향을 미치는 패턴을 작성하였다. 패턴과 일치하는 단어열이 발생하면 긍정을 부정으로, 부정을 긍정으로 양태를 수정하였다. 패턴의 예는 (e "지")+(V "않")’, ‘(Z "안")+(V "*")’ 등과 같다.

관계 추출은 평가요소-오피니언 연결관계를 찾는 것이다. 예를 들어, 사람들은 음식점에 대해 전체적으로 부정적인 인상을 받았지만, 그 곳이 양이 많고 주차하기 좋은 장점이 있다고 리뷰를 작성할 수 있다. 따라서, 평가요소가 가리키는 오피니언을 찾아 평가요소-오피니언의 정확한 연결관계를 인식하는 것이 필요하다.

이전 단계를 통하여 문장에서 평가요소에 해당하는 단어와 오피니언에 해당하는 단어를 인식하였으므로, 이렇게 인식한 오피니언이 어떠한 평가요소에 대한 것인지 결정하기 위하여 공기 정보 추출부(30)를 통하여 추출한 공기 빈도를 적용한다. 여러 후보들 중 평가요소에 해당하는 단어와 오피니언에 해당하는 단어가 일정값 이상 공기한 것을 최종적으로 추출한다.

다음의 표 4는 일정값 이상 공기한 평가요소와 오피니언에 해당하는 단어를 나타낸다. 도메인 의존적 단어 및 연어와 마찬가지로, 형태소 분석 결과를 활용하여 각 어절의 첫 번째 형태소를 사용한다.

평가요소 / 오피니언

(N "게장") / (N "뒷맛") (V "떫")

(N "가격") / (N "굿")

(N "국물맛") / (N "속") (V "풀리")

(N "빙수") / (N "경쟁력") (V "떨어지")

(N "위생상태") / (N "불량")

표 4 일정값 이상 공기한 평가요소와 오피니언에 해당하는 단어들의 예

또한, 다음의 표 5는 문장에서 특정 평가요소에 속하는 단어가 적절한 오피니언을 찾는 자세한 과정을 설명한다.

1. ‘맛있다’, ‘맛없다’처럼 ‘맛’이라는 평가요소도 표현하고 오피니언도 나타내는 단어들의 경우,
평가요소-오피니언 연결관계를 확인한다.
예) 맛있-맛있 (TAS-POS)
예) 맛없-맛없 (TAS-NEG)
여기서 TAS는 ‘맛있’, ‘맛없’이 평가요소 ‘맛’에 해당하는 단어임을 나타낸다. POS는 긍정의 오피니언을 NEG는 부정의 오피니언을 나타낸다.

2. 평가요소에 해당하는 어절을 기준으로 이전 어절의 마지막 형태소가 (e "은") 또는 (e "는") 또는 (e "ㄴ")인 경우,
평가요소-오피니언 연결관계를 확인한다.
예) 곱창-좋 (MEN-POS)
좋은 (V "좋")+(e "은") (POS)
곱창을 (N "곱창")+(j "을") (MEN)
여기서 MEN은 ‘곱창’이 평가요소 ‘대표메뉴’에 해당하는 단어임을 나타낸다.

3. 평가요소와 오피니언에 해당하는 어절번호의 차가 4이하인 경우,
평가요소-오피니언 연결관계를 확인한다.
예) 냄새-심하 (TAS-NEG)
냄새가 (N "냄새")+(j "가") (TAS)
너무 (Z "너무")
심해 (V "심하")+(e "어") (NEG)

4. 평가요소와 오피니언에 해당하는 어절번호의 차가 5-8이고 일정값 이상 두 단어가 공기하는 경우,
평가요소-오피니언 연결관계를 확인한다.
예) 분위기-가|싶|않 (AIR-NEG)
분위기를 (N "분위기")+(j "를") (AIR)
보고 (V "보")+(e "고")
누군가 (N "누구") + (c "이") + (e "ㄴ가")
판단한다면 (N "판단")+(t "하")+(e "ㄴ다면")
다시 (Z "다시")
가고 (V "가")+(e "고") (NEG*
싶지 (V "싶")+(e "지") *
않게 (V "않")+(e "게") *NEG)
만듭니다 (V "만들")+(e "ㅂ니다")
여기서 AIR은 ‘분위기’가 평가요소 ‘분위기’에 해당하는 단어임을 나타낸다.

표 5 평가요소에 속하는 단어가 적절한 오피니언을 찾는 과정

도 2는 본 발명의 일실시예에 따른 요약 정보 생성 방법을 설명하는 순서도이다. 앞에서 자세한 방법은 설명하였으므로, 이하에서는 전체적인 프로세스를 개괄적으로 정리하기로 한다.

먼저 리뷰 데이터 획득부(10)는 게시판 등의 후기 등으로부터 리뷰 텍스트 데이터를 획득한다(100). 리뷰 데이터가 획득되면, 전처리부(20)는 리뷰 텍스트 데이터에서 문장을 분리하고, 형태소를 분석한다(102).

이렇게 리뷰 데이터의 전처리가 완료되면, 전처리된 정보는 공기정보 추출부(30) 및 도메인 지식 추출부(40)로 전달된다. 공기 정보 추출부(30)는 전처리된 정보에서 단어 간의 공기 정보를 추출한다(104). 또한, 도메인 지식 추출부(40)는 도메인 의존적 단어 및 연어 정보를 추출하고(106), 추출된 단서 단어를 태깅하고(108), 동사구를 인식하고(110), 양태를 분석한다(112).

관계 추출부(59)는 앞의 공기 정보와 도메인 의존적 단어 및 연어 정보를 이용하여 평가요소와 오피니언간의 관계를 추출한다(114). 이렇게 관계가 추출되면 평가 정보 생성부(60)는 해당 제품 또는 서비스에 대한 평가요소별 오피니언 정보를 이용하여 평가 정보 즉, 리뷰 요약 정보를 생성한다(116).

본 발명이 제안하는 방법의 효과를 검증하기 위하여 윙스푼(http://www.wingspoon.com/), 다음 플레이스(http://place.daum.net/), 네이버 영화(http://lab.naver.com/research/)의 리뷰를 테스트 데이터로 활용하였다. 윙스푼과 다음 플레이스는 음식점에 대한 리뷰이다. 실험을 위하여, 윙스푼은 450개의 리뷰를 사용하였고, 다음 플레이스는 404개의 리뷰를 사용하였다. 윙스푼에서 평균 리뷰 길이는 어절 수로 20.65이고, 다음플레이스에서는 14.13이다. 윙스푼에서 1,296개의 평가요소-오피니언 연결관계를 태깅하였고, 다음 플레이스에서 862개를 태깅하였다. 네이버 영화는 2편의 한국영화에 대한 리뷰이다. 네이버 영화에서 평균 리뷰 길이는 7.87이고 351개의 오피니언을 태깅하였다.

테스트 데이터에 대하여 다음과 같은 실험을 수행하였다. 첫째로, 3가지 테스트 데이터에 대한 시스템의 전체 성능을 측정하였다. 둘째로, 각 테스트 데이터에서 세부 평가요소에 대한 시스템의 성능을 측정하였다. 셋째로, 양태 분석의 성능 기여도를 측정하였다. 마지막으로, Pearson 상관 계수를 사용하여 사용자 별점과 시스템 점수 간의 상관 관계를 분석하였다.

데이터	정확률	재현율	F-measure
윙스푼 다음 플레이스 네이버 영화	89.70 84.64 87.54	77.31 72.85 78.06	83.05 78.30 82.53

표 6 테스트 데이터에 대한 시스템의 전체 성능

표 6은 테스트 데이터에 대한 시스템의 전체 성능을 나타낸다. 정확률은 시스템이 찾은 평가요소-오피니언 연결관계 중 정답의 비율을 나타낸다. 재현율은 정답에 해당하는 평가요소-오피니언 연결관계 중 시스템이 찾아낸 비율을 나타낸다. F-measure는 동일한 가중치에서 정확률과 재현율을 하나의 값으로 표현한 것이다. 시스템의 전체 성능은 F-measure로 표현했을 때 윙스푼에서 83.05%, 다음 플레이스에서 78.30%, 네이버 영화에서 82.53%를 보였다.

평가요소	정확률	재현율	F-measure
맛 서비스 가격 분위기 식재료 양 위생 주차 대표메뉴	90.02 92.17 91.55 89.13 84.62 91.38 85.71 83.33 86.00	81.04 78.46 85.53 63.57 73.33 76.81 60.00 68.18 72.47	85.29 84.76 88.44 74.21 78.57 83.46 70.59 75.00 78.66

표 7 윙스푼에서 세부 평가요소에 대한 시스템의 성능

표 7은 윙스푼에서 세부 평가요소에 대한 시스템을 성능을 나타낸다. 고빈도의 도메인 의존적 단어들로부터 9가지 평가요소를 결정하였다. 다음 플레이스에서도 같은 평가요소를 적용하였다. F-measure를 기준으로 맛, 서비스, 가격 등에 대한 오피니언은 잘 분석한 반면에, 분위기나 위생에 대한 오피니언 분석은 상대적으로 낮은 성능을 보였다.

평가요소	정확률	재현율	F-measure
맛 서비스 가격 분위기 식재료 양 위생 주차 대표메뉴	86.59 84.00 84.38 85.25 75.00 84.00 81.82 78.57 79.38	77.81 70.00 79.41 65.82 64.29 63.64 60.00 64.71 65.81	81.96 76.36 81.82 74.29 69.23 72.41 69.23 70.97 71.96

표 8 다음플레이스에서 세부 평가요소에 대한 시스템의 성능

표 8은 다음플레이스에서 세부 평가요소에 대한 시스템의 성능을 나타낸다. F-measure를 기준으로 맛, 가격 등에 대한 오피니언 분석이 좋은 성능을 보였고 식재료, 위생 등의 평가요소에서는 상대적으로 낮은 성능을 나타냈다. 윙스푼보다 다음 플레이스가 더 구어체에 가까운 표현이 많고 리뷰 텍스트의 길이도 짧아서 분석하기가 어려웠다. 그래서 전체적으로 윙스푼 데이터보다는 낮은 성능을 보였다.

평가요소	정확률	재현율	F-measure
긍정표현 부정표현	89.53 85.11	78.97 76.92	83.92 80.81

표 9 네이버영화에서 세부 평가요소에 대한 시스템의 성능

표 9는 네이버영화에서 세부 평가요소에 대한 시스템의 성능을 나타낸다. 이것은 이전 결과와는 도메인이 다른 영화에 대한 리뷰를 분석한 것이다. 제안하는 방법은 어떤 도메인의 리뷰 데이터인지에 상관없이 적용될 수 있고 성능의 편차도 크지 않다는 것을 보인다. 2가지 평가요소에 대한 성능을 제시하였는데 긍정표현이 부정표현보다 상대적으로 잘 분석되었다.

방법	정확률	재현율	F-measure
윙스푼 전체성능	89.70	77.31	83.05
윙스푼에서 양태분석을 수행하지 않았을 때 성능	84.86	74.38	79.28

표 10 윙스푼에서 양태분석을 수행하지 않았을 때 시스템의 성능

표 10은 양태분석을 수행하지 않았을 때 시스템의 성능이 얼마나 낮아지는지를 나타낸다. 즉 성능이 크게 떨어질수록 양태분석의 효과가 중요한 것이다. 윙스푼 데이터에서 실험했을 때, F-measure를 기준으로 약 3.77%의 성능 하락이 있었다.

데이터	정답	시스템
윙스푼(전체) 윙스푼(맛) 윙스푼(서비스) 윙스푼(분위기) 다음 플레이스 네이버 영화	0.7257 0.6949 0.6210 0.5586 0.6655 0.6701	0.6985 0.6544 0.6036 0.4316 0.6059 0.6068

표 11 사용자 별점과의 상관 계수

표 11은 제안하는 방법이 사용자 별점과 유사하게 점수를 예측하는지 확인한 결과이다. 여기에서 정답열은 수작업으로 작성한 평가요소-오피니언 연결관계 태깅 결과를 활용하여 계산한 점수와 사용자 별점 간의 상관 관계를 표현한다. 시스템열은 시스템이 분석한 평가요소-오피니언 연결관계를 활용하여 얻은 시스템의 점수와 사용자 별점 간의 상관 관계를 나타낸다. 사용자 별점이 존재하는 6가지 항목에 대하여 대부분 Pearson 상관 계수 0.6 이상의 값을 보였다.

다양한 실험 결과를 통하여 다음과 같은 내용을 도출할 수 있다. 제안하는 방법은 어떤 도메인에 속하는 리뷰 데이터인지에 상관없이 적용될 수 있다. 또한, 학습 데이터를 구축하는 비용 없이 도메인 의존적 단어와 연어 정보를 자동으로 추출하여 리뷰 텍스트를 분석한다. 한 문장 내에서 다양한 평가요소에 대한 오피니언을 추출할 수 있고 사용자 별점처럼 시스템 점수를 얻을 수 있다. 그리고 Pearson 상관 계수를 활용한 실험을 통하여 제안하는 방법을 적용하여 얻은 시스템 점수가 사용자 별점과 상관계수 0.6 이상의 관련성이 있음을 제시하였다. 실험을 통하여, 양태 분석의 기여도를 보였다.

일실시예로서 본 발명의 시스템에 적용되는 입력(input) 및 출력(output)에 대하여 설명한다.

도 3은 본 발명의 요약 정보 생성 시스템이 획득한 리뷰 데이터의 예이며, 도 4는 본 발명의 요약 정보 생성 시스템에서 평가요소 별 오피니언을 추출하는 과정을 나타내는 도면이며, 도 5는 본 발명의 요약 정보 생성 시스템에서 생성된 리뷰 요약 정보의 예이다.

본 발명의 요약 정보 생성 시스템에 의해 도 3과 같은 리뷰 데이터가 입력으로 입력되면, 도 4의 과정을 거쳐서 도 5와 같은 리뷰 요약이 출력될 수 있다.

도 4는 평가요소-오피니언 추출에 대한 예제이다. 입력 문장이 ‘인테리어 좋아요 음식값도 비싸지 않고’일 때 시스템이 수행되는 과정을 보인다. 먼저 전처리 과정으로써 문장 분리와 형태소 분석을 수행한다.

다음으로 정의된 도메인 지식을 활용하여 단서 단어 태깅을 수행하는데, 그림 3에서 <AIR>, <POS>, <PRI>, <NEG>는 각 단어가 속하는 의미 클래스를 나타낸다. <AIR>은 ‘인테리어’라는 단어가 평가요소들 중 ‘분위기’에 속함을 <PRI>는 ‘음식값’이라는 단어가 ‘가격’에 속함을 나타낸다. <POS>와 <NEG>는 각각 해당되는 단어가 긍정과 부정의 오피니언임을 의미한다.

양태 분석은 양태 패턴 ‘(e "지")+(V "않")’을 적용하여 주어진 단문의 양태를 부정에서 긍정으로 바꾼다. 관계 추출에서는 ‘좋아요’가 ‘인테리어’에 대한 오피니언임을, ‘비싸지 않고’가 ‘음식값’에 대한 오피니언임을 확인한다. 최종적으로 리뷰 요약 결과 평가요소 ‘분위기’와 ‘가격’에 대하여 시스템 점수가 1점씩 추가되고 해당 평가요소-오피니언 연결관계를 포함하는 관련 문장이 추출된다.

도5는 리뷰 요약의 출력 예제이다. 정의된 평가요소에 대하여 긍정/부정 표현이 존재하는 개수를 구하고 그것을 그림 4와 같이 나타낼 수 있다. 도 5에서 ‘전체 평가’가 의미하는 것은 긍정/부정 표현의 개수를 합한 것이다. 이것을 통하여, 사용자들이 각 음식점에 대하여 좋아하거나 싫어하는 정도를 확인할 수 있다.

평가요소 ‘가격’
긍정 평가	1. 순수함 그 자체 육수도 서비스로 한 사발 더 주신 주인 아저씨도 친절하시고 가격대비 대만족^^ 2. 아줌마들이 모임하기에 안성맞춤이고 가격도 적당하며 무엇보다 자극적이지 않은 음식…… 3. 분위기, 서비스, 가격 등 레스토랑으로서 손색이 없어 글을 올림니다......
부정 평가	1. 굉장히 유명한 편인데ㅡ 가격도 싼 편은 아닌데 그에 비해 맛은 쏘쏘ㅡ 서비스는 중하 정도? 2. 가격만 비싸지고 맛은 조미료 범벅 어렸을 때 먹었던 그 맛이 그립네요 3. 가격대비 별로 먹을 것 정말 없고요 가격대비 비추입니다.

표 12 리뷰 요약의 예 (Output)

표 12는 평가요소 ‘가격’에 대하여 긍정/부정 오피니언을 포함하는 문장을 나타낸 것이다. 각 평가요소에 대하여 오피니언을 포함한 문장들을 표 12처럼 제시할 수 있다. 리뷰 요약을 점수뿐만 아니라 오피니언을 포함한 문장을 제시함으로써 사용자들의 판단을 도울 수 있다.

본 발명은 위와 같은 방법으로 리뷰 데이터로부터 단서 단어를 자동으로 추출하고, 각 평가요소별 오피니언을 포함하는 리뷰 요약을 제공할 수 있다.

10: 리뷰 데이터 획득부 20: 전처리부
30: 공기 정보 추출부 40: 도메인 지식 추출부
50: 평가요소-오피니언 추출부

Claims

제품 또는 서비스에 대한 리뷰 데이터를 획득하는 리뷰 데이터 획득부;
상기 리뷰 데이터 획득부에서 획득된 상기 리뷰 데이터에서 문장 분리 및 형태소 분석을 수행하는 전처리부;
상기 전처리부에서 처리된 상기 리뷰 데이터를 수신하여 상기 제품 또는 서비스가 속하는 도메인과 관련되는 정보를 추출하는 도메인 지식 추출부;
상기 도메인 지식 추출부에서 추출된 정보를 수신하여 평가요소 및 오피니언에 해당하는 단어를 구분하고, 상기 구분된 평가요소 및 오피니언에 해당하는 단어를 이용하여 평가요소 별 오피니언을 추출하는 평가요소-오피니언 추출부; 및
상기 평가요소-오피니언 추출부가 추출한 상기 평가요소 별 오피니언을 이용하여 상기 제품 또는 서비스에 대한 평가 정보를 생성하는 평가 정보 생성부; 및
상기 전처리부에서 처리된 상기 리뷰 데이터 내에서 평가요소와 관련된 단어와 오피니언에 관련된 단어가 동시에 발생하는 공기(co-occur) 빈도가 일정값 이상일 때, 상기 공기 빈도를 추출하는 공기 정보 추출부를 포함하며,
상기 평가요소-오피니언 추출부는 상기 공기 빈도를 통해 특정한 오피니언에 대응하는 평가요소를 결정하여 평가요소 별 오피니언을 추출하는 것을 특징으로 하는 요약 정보 생성 시스템.
제1항에 있어서,
상기 도메인 지식 추출부는,
상기 리뷰 데이터에서 상기 제품 또는 서비스가 속하는 도메인과 관련되는 도메인 의존적 단어를 추출하는 도메인 의존적 단어 추출부; 및
상기 리뷰 데이터에서 연어 정보를 추출하는 연어 정보 추출부를 포함하는 것을 특징으로 하는 요약 정보 생성 시스템.
제2항에 있어서,
상기 도메인 의존적 단어 추출부는,
상기 리뷰 데이터의 단어 중에서 다음의 식
(이때,
는 단어,
은 미리 마련된 데이터베이스에서
의 발생 빈도,
는 상기 도메인에서의
의 발생 빈도를 의미한다)의 값이 미리 설정된 임계값 이상일 때의 단어를 상기 도메인 의존적 단어로 추출하는 것을 특징으로 하는 요약 정보 생성 시스템.
제2항에 있어서,
상기 연어 정보 추출부는,
상기 리뷰 데이터의 단어 중에서 아래의 식

(이때,
은 전체 단어 발생 빈도,
은 제1단어의 발생 빈도,
는 제2단어의 발생 빈도,
은 제1단어 및 제2단어가 함께 발생한 빈도를 의미한다)의 값이 미리 설정된 임계값 이상일 때의 상기 제1단어 및 상기 제2 단어를 연어로 추출하는 것을 특징으로 하는 요약 정보 생성 시스템.
제1항에 있어서,
상기 평가요소-오피니언 추출부는,
상기 도메인 지식 추출부에서 추출된 정보로부터 단어를 태깅하고, 상기 태깅된 단어로부터 동사구를 인식하고, 패턴 기반으로 양태 분석을 수행함으로써 평가요소 및 오피니언에 해당하는 단어를 인식하는 개체명 인식부; 및
상기 개체명 인식부에서 인식한 상기 평가요소 및 오피니언에 해당하는 단어들의 연결관계를 정의하는 관계 추출부를 포함하는 것을 특징으로 하는 요약 정보 생성 시스템.
제5항에 있어서,
상기 관계 추출부는, 상기 공기 정보 추출부에서 추출된 상기 공기 빈도를 이용하여 상기 연결관계를 정의하는 것을 특징으로 하는 요약 정보 생성 시스템.
제품 또는 서비스에 대한 리뷰 데이터를 획득하는 단계;
상기 획득된 리뷰 데이터에서 문장 분리 및 형태소 분석을 수행하는 단계;
상기 문장 분리 및 형태소 분석이 수행된 상기 리뷰 데이터에서 상기 제품 또는 서비스가 속하는 도메인과 관련된 정보를 추출하는 단계;
상기 추출된 정보를 수신하여 평가요소 및 오피니언에 해당하는 단어를 구분하는 단계;
상기 획득된 리뷰 데이터 내에서 평가요소와 관련된 단어와 오피니언에 관련된 단어가 동시에 발생하는 공기(co-occur) 빈도가 일정값 이상일 때, 상기 공기 빈도를 추출하는 단계; 및
상기 구분된 평가요소 및 오피니언에 해당하는 단어를 이용하여, 상기 공기 빈도를 통해 특정한 오피니언에 대응하는 평가요소를 결정함으로써, 평가요소 별 오피니언을 추출하는 단계를 포함하는 요약 정보 생성 방법.
제7항에 있어서,
상기 추출된 상기 평가요소 별 오피니언을 이용하여 상기 제품 또는 서비스에 대한 평가 정보를 생성하는 단계를 더 포함하는 것을 특징으로 하는 요약 정보 생성 방법.
제8항에 있어서,
상기 리뷰 데이터에서 상기 제품 또는 서비스가 속하는 도메인과 관련된 정보를 추출하는 단계는,
상기 리뷰 데이터에서 상기 제품 또는 서비스가 속하는 도메인과 관련되는 도메인 의존적 단어를 추출하는 단계; 및
상기 리뷰 데이터에서 연어 정보를 추출하는 단계를 포함하는 것을 특징으로 하는 요약 정보 생성 방법.
제9항에 있어서,
상기 도메인 의존적 단어를 추출하는 단계는,
상기 리뷰 데이터의 단어 중에서 다음의 식
(이때,
는 단어,
은 미리 마련된 데이터베이스에서
의 발생 빈도,
는 상기 도메인에서의
의 발생 빈도를 의미한다)의 값이 미리 설정된 임계값 이상일 때의 단어를 상기 도메인 의존적 단어로 추출하는 것을 특징으로 하는 요약 정보 생성 방법.
제9항에 있어서,
상기 연어 정보를 추출하는 단계는,
상기 리뷰 데이터의 단어 중에서 아래의 식

(이때,
은 전체 단어 발생 빈도,
은 제1단어의 발생 빈도,
는 제2단어의 발생 빈도,
은 제1단어 및 제2단어가 함께 발생한 빈도를 의미한다)의 값이 미리 설정된 임계값 이상일 때의 상기 제1단어 및 상기 제2 단어를 연어로 추출하는 것을 특징으로 하는 요약 정보 생성 방법.
제8항에 있어서,
상기 추출된 정보를 수신하여 평가요소 및 오피니언에 해당하는 단어를 구분하는 단계는,
상기 추출된 정보로부터 단어를 태깅하는 단계;
상기 태깅된 단어로부터 동사구를 인식하는 단계; 및
상기 태깅된 단어로부터 패턴 기반으로 양태를 분석하는 단계를 포함하는 것을 특징으로 하는 요약 정보 생성 방법.
제8항에 있어서,
상기 평가요소 별 오피니언을 추출하는 단계는, 상기 추출된 공기 빈도를 이용하여 상기 평가요소 및 오피니언에 해당하는 단어들의 연결관계를 정의하는 단계를 포함하는 것을 특징으로 하는 요약 정보 생성 방법.