KR101656741B1

KR101656741B1 - 프레임 기반 의견스팸 판단장치, 프레임 기반 의견스팸 판단방법, 프레임 기반으로 의견스팸을 판단하기 위한 컴퓨터 프로그램 및 컴퓨터 판독가능 기록매체

Info

Publication number: KR101656741B1
Application number: KR1020150057507A
Authority: KR
Inventors: 강재우; 김성순; 장혁윤; 이성운
Original assignee: 고려대학교 산학협력단
Priority date: 2015-04-23
Filing date: 2015-04-23
Publication date: 2016-09-12
Also published as: US20160314506A1

Abstract

의견스팸 판단장치에 의하여 수행되는 프레임 기반 의견스팸 판단방법은, (a) 입력문서를 입력받는 단계; 및 (b) 복수의 의견스팸 샘플로부터 추출된 프레임을 의견스팸 판단요소로 고려하는 기계학습기반의 의견스팸 판단모델을 통하여, 상기 입력문서가 의견스팸인지 여부를 판단하는 단계를 포함하며, 이때, 프레임은 문장을 통해 표현되는 사건의 의미를 구성하는 단위이다.

Description

프레임 기반 의견스팸 판단장치, 프레임 기반 의견스팸 판단방법, 프레임 기반으로 의견스팸을 판단하기 위한 컴퓨터 프로그램 및 컴퓨터 판독가능 기록매체 {METHOD, DEVICE, COMPUTER PROGRAM AND COMPUTER READABLE RECORDING MEDIUM FOR DETERMINING OPINION SPAM BASED ON FRAME}

본 발명은 프레임 기반 의견스팸 판단장치, 프레임 기반 의견스팸 판단방법, 프레임 기반으로 의견스팸을 판단하기 위한 컴퓨터 프로그램 및 컴퓨터 판독가능 기록매체에 관한 것으로, 보다 구체적으로 리뷰 텍스트에 포함된 의미 관계를 분석하여 해당 리뷰가 의견스팸인지 판단하는 프레임 기반 의견스팸 판단장치, 프레임 기반 의견스팸 판단방법, 프레임 기반으로 의견스팸을 판단하기 위한 컴퓨터 프로그램 및 컴퓨터 판독가능 기록매체에 관한 것이다.

최근 소셜 미디어의 발달과 맞물려, 온라인 상에는 다양한 주제에 대한 수많은 사용자들의 의견(또는 리뷰)이 공유 및 전파되고 있다. 이에 따라, 다수의 사용자들이 온라인 상의 리뷰를 신뢰하여 실제 구매 행위에 반영하고 있는 바, 온라인 상에 제공된 특정 상품이나 서비스에 대한 의견은 실생활에서의 의사결정에 영향을 미치고 있다.

한편, 온라인 상의 사용자들의 의견을 비즈니스적으로 악용하는 사례가 점차 증가하고 있다. 예를 들어, 자신의 매장의 마케팅을 위하여 자신의 매장에 대한 이용 경험이 없는 제3자로 하여금 긍정적인 의견을 남기도록 하거나, 경쟁 업체에 대한 악의적인 의견을 남기도록 하는 등의 경우가 다수 보고되고 있다.

이처럼, 서비스나 상품에 대한 이용경험과 무관하게 의도적으로 작성된 의견을 의견스팸(Opinion Spam)이라고 한다. 이러한 의견스팸은 최 근들어 사람조차도 분간해 내기 어려울 정도로 매우 교묘히 작성되고 있어 온라인 상의 건전한 정보 유통을 저해하고 있다.

그에 따라, 최근 몇 년간 의견스팸을 기계적 알고리즘을 통해 구별하려는 연구가 시도되어 오고 있는데, 리뷰 단위 분석, 리뷰 작성자 단위 분석, 스패머 그룹 분석과 같이 크게 3가지 범주로 전개되어 오고 있다. 그 중 리뷰 단위 분석과 관련된 대표적 연구로는 Ott, M., Choi, Y., Cardie, C., Hancock, J, T.: Finding deceptive opinion spam by any stretch of the imagination. In Proc. HLT'11. pp. 309-319 (2011)(이하, "1 선행문헌")과 Li, J., Ott, M., Cardie, C., Hovy, E.: Towards a General Rule for Identifying Deceptive Opinion Spam. In Proc. ACL'14. pp. 1566-1576 (2014) (이하, "제 2 선행문헌")를 들 수 있다.

제 1 선행문헌은 특정 호텔에 대한 경험이 없는 사람이 특정 호텔에 대한 긍정적인 평가를 남기도록 주문하여 의견스팸 데이터를 수집한 뒤, 이러한 의견스팸 데이터를 이용하여 n-gram이나 품사(part-of-speech)와 같이 간단한 요소로 의견스팸을 판단하는 모델을 제시하고 있다. 제 2 선행문헌은 제 1 선행문헌이 비즈니스 이용경험이 없는 작성자의 의견스팸만을 대상으로 하여 제시된 모델이라는 한계점을 지적하면서, 해당 비즈니스에 전문적 지식과 경험이 있는 사람이 직접 작성한 의견스팸 데이터를 기준으로 한 의견스팸 판단모델을 제시하고 있다.

그러나, 종래의 기술들은 의견스팸 판단기준을 의견스팸 작성자에 대한 메타데이터에 두거나, 실제 리뷰와 의견스팸 간의 품사나 단어 사용 차이와 같은 얕은 깊이의 구문 분석(shallow syntactic analysis)에 국한하고 있어, 의견스팸에 포함된 단어들 간의 의미적 연결관계와 같은 한 단계 더 깊은 레벨에서의 분석이 수행되지 않고 있었다.

(비특허문헌 1) Ott, M., Choi, Y., Cardie, C., Hancock, J, T.: Finding deceptive opinion spam by any stretch of the imagination. In Proc. HLT'11. pp. 309-319 (2011)

(비특허문헌 2) Li, J., Ott, M., Cardie, C., Hovy, E.: Towards a General Rule for Identifying Deceptive Opinion Spam. In Proc. ACL'14. pp. 1566-1576 (2014)

본 발명의 일 실시예는 문장을 통해 표현되는 사건의 의미를 구성하는 단위인 프레임을 기준으로 의견스팸을 판단함으로써, 문장 내의 의미적 연결관계를 분석하여 의견스팸을 판단하는 의견스팸 판단모델을 제시하는 것을 목적으로 한다.

다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상술한 기술적 과제를 해결하기 위한 기술적 수단으로서, 본 개시의 제 1 측면에 따르는, 프레임 기반 의견스팸 판단장치에 의하여 수행되는 의견스팸 판단방법은, (a) 입력문서를 입력받는 단계; 및 (b) 복수의 의견스팸 샘플로부터 추출된 프레임을 의견스팸 판단요소로 고려하는 기계학습기반의 의견스팸 판단모델을 통하여, 상기 입력문서가 의견스팸인지 여부를 판단하는 단계;를 포함하며, 상기 프레임은 문장을 통해 표현되는 사건의 의미를 구성하는 단위이다.

한편, 본 개시의 제 2 측면에 따른, 프레임 기반 의견스팸 판단장치는, 문장을 통해 표현되는 사건의 의미를 구성하는 단위인 프레임을 이용하여 입력문서가 의견스팸인지 여부를 판단하는 프로그램이 저장된 메모리; 및 상기 프로그램을 실행하는 프로세서;를 포함하며, 상기 프로세서는, 상기 프로그램의 실행에 따라, 상기 입력문서를 입력받고, 복수의 의견스팸 샘플로부터 추출된 프레임을 의견스팸 판단요소로 고려하여, 상기 입력문서가 의견스팸인지 여부를 판단한다.

상술한 과제 해결 수단은 단지 예시적인 것으로서, 본 발명을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 기재된 추가적인 실시예가 존재할 수 있다.

본 발명의 일 실시예는 문장을 통해 표현되는 사건의 의미를 구성하는 단위인 '프레임(frame)'을 이용하여 의견스팸 판단모델을 구축하고 이를 통해 의견스팸을 구별하기 때문에, 품사나 단어 사용차이 등 얕은 깊이의 구문 분석(shallow syntactic analysis)에 집중하던 종래의 기술과 달리, 문장 내에서의 단어 간 의미적 연결관계까지 파악할 수 있다. 또한, 파악된 의미적 연결관계를 통하여 의견스팸을 구별하기 때문에, 종래의 기계학습기반 분류모델보다 의견스팸 판단에 대한 정확도를 더욱 향상시킬 수 있다.

도 1 및 도 2는 문장과 프레임의 관계를 구조적으로 나타낸 개념도이다.
도 3은 본 발명의 일 실시예에 따른 프레임 기반 의견스팸 판단장치의 구조를 설명하기 위한 블록도이다.
도 4는 비전문가 집단이 작성한 의견스팸 샘플과 실제 의견을 기초로 추출된 일부 프레임들의 ΔNFF 지표를 나타낸 그래프이다.
도 5는 전문가 집단이 작성한 의견스팸 샘플과 실제 의견을 기초로 추출된 일부 프레임들의 ΔNFF지표를 나타낸 그래프이다.
도 6은 비전문가 집단이 작성한 의견스팸 샘플과 실제 의견을 기초로 추출된 일부 프레임 쌍들의 ΔNF_BOF값을 나타낸 표이다.
도 7은 전문가 집단이 작성한 의견스팸 샘플과 실제 의견을 기초로 추출된 일부 프레임 쌍들의 ΔNF_BOF 값을 나타낸 표이다.
도 8은 프레임 개수 별 기계학습기반 분류모델의 의견스팸 판단정확도를 나타내는 그래프이다.
도 9는 본 발명의 일 실시예에 따르는 프레임 기반 의견스팸 판단방법에 대한 순서도이다.
도 10은 종래의 기계학습기반 분류모델과 해당 분류모델에 프레임을 의견스팸 판단요소로 추가하였을 경우의 성능을 비교한 표이다.
도 11은 프레임뿐만 아니라 프레임 이진 패턴을 의견스팸 판단요소로서 종래의 분류모델에 반영한 경우의 성능을 나타내는 표이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다. 한편, '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다. 구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로 더 분리될 수 있다. 뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU들을 재생시키도록 구현될 수도 있다.

먼저, 본 명세서에서 언급되는 용어에 대한 정의부터 설명하도록 한다.

"의견스팸(Opinion Spam)"이란 서비스나 상품에 대한 이용경험과 무관하게 의도적으로 작성된 의견이나 리뷰를 의미한다.

"프레임(frame)"이란 문장을 통해 표현되는 사건의 의미를 구성하는 단위를 의미한다. "프레임"은 Charles J. Fillmore의 주도로 진행된 의미적 프레임 이론(frame semantics theory)에서 도입된 개념이다. 예를 들어, 도 1을 참조하면, 문장 “I bought for a gift for her.”의 경우 동사 “bought”는 “"구입하다"라는 프레임 “COMMERCE_BUY(구매 정보)"를 촉발하는 중심 동사이다. 이때, 주어 “I”와 목적어인 “gift”는 프레임 “COMMERCE_BUY(구매 정보)"를 구성하는 핵심의미요소인 “Buyer”와 “Goods”에 대응된다. 다른 예로, 도 2를 참조하면, 문장 “My girlfriends and I stayed 4 nights at the Talbott returning home on Saturday"는 총 7개의 프레임(PERSONAL_RELATIONSHIP(화자와의 인간관계 정보), RESIDENCE(거주 행위 정보), CARDINAL_NUMBERS(숫자, 기수, 횟수 정보), CALENDRIC_UNIT(날짜, 요일, 기간 정보), ARRIVING(도착 행위 정보), FOREIGN_OR_DOMESTIC_COUNTRY(국가 정보), CALENDRIC_UNIT(날짜, 요일, 기간 정보))을 포함하고 있다. 각 프레임의 의미를 분석하면, 글쓴이와 특정한 인간관계에 있는 사람이 특정 기간 동안 국내 또는 국외에 도착하여 거주한 행위에 관한 의미가 문장 내에 내포되어 있음을 알 수 있다. 이와 같이, 문장 내에 존재하는 프레임을 추출하면 해당 문장이 어떠한 의미 단위로 구성되어 있는지 또는 각 의미 단위 간의 연결관계는 어떠한지에 대한 분석이 가능하다.

이하, 본 발명의 일 실시예를 상세히 설명하기로 한다.

도 3은 본 발명의 일 실시예에 따른 프레임 기반 의견스팸 판단장치(100)의 구조를 설명하기 위한 블록도이다.

본 발명의 일 실시예에 따르는 의견스팸 판단장치(100)는 메모리(미도시)와 프로세서(미도시)를 포함한다. 메모리는 프레임을 이용하여 의견스팸을 판단하는 프로그램을 저장하며, 프로세서는 저장된 프로그램의 실행에 따라 입력문서가 의견스팸인지 판단하도록 제어하는 역할을 수행한다. 이때, 프로세서는 의견스팸 샘플 데이터베이스(110), 프레임 추출부(120), 프레임 선정부(130), 문서 입력부(140), 의견스팸 판단부(150)와 같은 하위 구성을 포함할 수 있다. 여기서, 의견스팸 샘플 데이터베이스 내지 프레임 선정부(110~130)는 경우에 따라 프로세서 내에 선택적으로 포함될 수도 있다.

의견스팸 샘플 데이터베이스(110)는 복수의 의견스팸 샘플을 저장한다. 의견스팸 샘플이란 의견스팸의 예시로서, 특정 객체(즉, 서비스나 상품)에 대하여 임의의 작성자가 의도적으로 작성한 부정적인 의견 또는 긍정적인 의견을 의미하며, 각 의견스팸 샘플은 적어도 하나의 문장으로 구성될 수 있다. 이때, 임의의 작성자는 특정 객체에 대하여 비전문가이거나 전문가일 수도 있다. 또한, 의견스팸 샘플은 하나의 객체에 대한 의견스팸일 수 있으나, 두 개 이상의 객체에 대한 의견스팸일 수도 있다. 한편, 의견스팸 샘플 데이터베이스(110)는 의견스팸 판단장치(100) 내에 구비되지 않고 외부에 설치되어 의견스팸 판단장치(100)와 통신연결 될 수도 있다.

프레임 추출부(120)는 의견스팸 샘플 데이터베이스(110) 내의 복수의 의견스팸 샘플로부터 적어도 하나의 프레임을 추출한다. 구체적으로, 프레임 추출부(120)는 각 의견스팸 샘플을 적어도 하나의 문장으로 분할한다. 의견스팸 샘플은 문장이 구분되어 있지 않도록 작성되어 있는 경우가 많기 때문에 문장 분할 과정이 동반되어야 한다. 이때, 의견스팸 샘플은 문장 분리기에 의해 적어도 하나의 문장으로 분할될 수 있다. 이어서, 프레임 추출부(120)는 분할된 각 문장에 포함된 단어들의 관계를 분석할 수 있다. 구체적으로, 프레임 추출부(120)는 각 문장에 포함된 단어들이 어떤 품사(예를 들어, 주어, 목적어 등)를 갖는지, 단어들 간의 배치관계는 어떠한지에 관하여 분석할 수 있다.

그리고 프레임 추출부(120)는 프레임사전 데이터베이스(미도시)를 참조하여 문장으로부터 특정 프레임을 촉발하는 중심 단어를 찾고, 중심 단어 주변의 문맥을 파악한 후, 확률모델에 기반하여 중심 단어와 문맥에 부합하는 프레임을 추출할 수 있다. 프레임사전 데이터베이스는 문맥에 따른 단어와 프레임 간의 대응관계를 규정한 데이터베이스이다. 프레임사전 데이터베이스는 Charles J. Fillmore의 주도로 시작된 의미적 프레임 이론(frame semantics theory)을 기반으로 하여, 문장 내에 존재하는 사건이나 사건을 구성하는 객체들 간의 관계를 프레임으로 정형화한 사전을 데이터베이스화 한 것이다. 프레임사전 데이터베이스를 참조하면, 한 문장을 구성하는 단어들 중 문맥에 따라 어떠한 단어로부터 프레임이 발생되며, 그러한 프레임을 구성하는 핵심의미요소는 무엇인지 등을 파악할 수 있다. 즉, 서로 다른 두 개의 문장에 포함된 동일한 단어라도, 해당 단어가 포함된 문장의 문맥에 따라 해당 단어에 대응하는 프레임이 달라질 수 있다. 또한, 각 문장에 대하여 문맥 별로 추출될 수 있는 프레임은 확률모델에 기반하여 정의될 수 있다. 예를 들어, “특정 구조와 단어를 갖는 A 문장으로부터는 a’ 프레임과 a” 프레임이 추출될 가능성이 90%이상이다” 라고 규정되어 있다고 가정할 때, 특정 문장이 A문장과 동일하거나 유사할 경우, 특정 문장의 프레임으로서 a’ 프레임과 a” 프레임이 추출될 수 있다. 프레임사전 데이터베이스는 의견스팸 판단장치(100) 내에 포함될 수도 있으나, 외부에 설치되어 의견스팸 판단장치(100)와 통신 연결될 수도 있다.

구체적으로, 도 2의 예시를 참조하면, 한 문장에서 총 7개의 프레임이 추출될 수 있다. 즉, 주어 "girlfriends"는"PERSONAL_RELATIONSHIP(화자와의 인간관계 정보)" 프레임과, 동사 "stayed"는 "RESIDENCE(거주 행위 정보)" 프레임과, 숫자 "4"는 "CARDINAL_NUMBERS(숫자, 기수, 횟수 정보)" 프레임과, 목적어 "nights"는 "CALENDRIC_UNIT(날짜, 요일, 기간 정보)" 프레임과, 동사 "returning"은 "ARRIVING(도착 행위 정보)" 프레임과, 명사 "home"은 "FOREIGN_OR_DOMESTIC_COUNTRY(국가 정보)" 프레임과, 날짜 "Saturday"는 "CALENDRIC_UNIT(날짜, 요일, 기간 정보)" 프레임과 매칭될 수 있다. 그리고, 각 프레임이 영향을 미치는 범위는 해칭을 통해 표시되어 있다. 예를 들어, "PERSONAL_RELATIONSHIP(화자와의 인간관계 정보)"은 "My", "girlfriend", "and", "I"까지 영향을 미칠 수 있으며, "My girlfriend"와 "I" 모두 "Resident"에 해당하는 의미를 가진다. 이처럼, 문장에서 프레임을 추출할 경우, 프레임을 통하여 문장 내 의미관계들을 파악할 수 있다.

프레임 선정부(130)는 프레임 추출부(120)를 통하여 추출된 프레임이 복수의 의견스팸 샘플 내에서 발생된 빈도를 정량화하여 소정의 개수의 프레임을 선정한다. 이때, NFF(Normalized Frame Frequency : 정규화된 프레임 발현빈도) 지표 및 NF_BOF(Normalized Frame Binary Ordering Frequency : 정규화된 프레임 이진 패턴 빈도) 지표 중 적어도 하나를 이용하여 프레임의 발생빈도를 정량화 할 수 있다. NFF는 어떠한 특정 프레임이 복수의 의견스팸 샘플 내에서 얼마나 자주 등장하였는지 나타내는 척도이며, NF_BOF는 복수의 의견스팸 샘플 내에서 어떠한 특정 프레임 쌍이 전체 프레임 쌍 중에 등장한 비율을 나타낸다. 특히, NF_BOF는 프레임의 등장 순서를 파악할 수 있는 지표로서, 이러한 지표를 통해 화자의 내용 서술 의도를 가늠할 수 있다.

또한, 특정 객체를 이용한 사용자들에 의해 작성된 복수의 실제 의견에 관한 데이터가 의견스팸 샘플 데이터베이스(110)에 별도로 구비되어 있는 경우, 프레임 추출부(110)가 복수의 실제 의견으로부터 프레임을 추출하고, 프레임 선정부(130)는 복수의 실제 의견 내에서 발생된 빈도를 정량화하여 소정의 개수의 프레임을 선정할 수도 있다. 나아가, 프레임 선정부(130)는 복수의 실제 의견으로부터 추출된 프레임과 복수의 의견스팸 샘플로부터 추출된 프레임 모두를 선정할 수도 있다.

의견스팸 샘플이나 실제 의견으로부터 추출된 모든 프레임을 의견스팸 판단요소로 고려하는 의견스팸 판단모델을 구축하기는 어렵기 때문에, 프레임 선정부(130)는 NFF 및 NF_BOF 지표 중 적어도 하나가 높은 순서대로 소정의 개수의 프레임만 선정할 수도 있다. 프레임의 NFF와 NF_BOF 지표가 높다는 것은 해당 프레임 또는 프레임 쌍이 의견스팸이나 실제 의견에서 자주 나타날 가능성이 높다는 것을 의미할 수 있다.

한편, ΔNFF(NFF_의견스팸 _{샘플 ―}NFF_{실제 의견}) 또는 ΔNF_BOF(NF_BOF_의견스팸 _{샘플 ―}NF_BOF_{실제 의견}) 값을 이용하여 프레임을 선정할 수 있다. 구체적으로, ΔNFF와 ΔNF_BOF은 각각 수학식1과 수학식 2를 통하여 정의될 수 있다.

여기서 ΔNFF 또는 ΔNF_BOF값이 높다는 것은 해당 프레임 또는 프레임 쌍이 의견스팸에서 자주 나타난다는 것을 의미하며, ΔNFF 또는 ΔNF_BOF값이 낮다는 것은 해당 프레임 또는 프레임 쌍이 실제 의견에서 자주 나타난다는 것을 의미한다. 즉, ΔNFF 또는 ΔNF_BOF값의 절대값이 높은 프레임일수록 의견스팸이나 실제 의견에서 주로 나타내는 특성을 대변한다고 할 수 있다. 따라서, 프레임 선정부(130)는 후술하는 기계학습기반 분류모델에 학습자질로서 의견스팸과 실제 의견에 대한 특성을 모두 주입하기 위해 ΔNFF 또는 ΔNF_BOF값의 절대값이 높은 프레임을 선정할 수 있다.

도 4는 비전문가 집단이 작성한 의견스팸 샘플과 실제 의견을 기초로 추출된 일부 프레임들의 ΔNFF 지표를 나타낸 그래프이며, 도 5는 전문가 집단이 작성한 의견스팸 샘플과 실제 의견을 기초로 추출된 일부 프레임들의 ΔNFF지표를 나타낸 그래프이다. 도 4 및 도 5를 참조하면, 프레임 “Cardinal_numbers(숫자, 기수, 횟수 정보)"와“Building_subparts(건물의 상세부분 정보)"는 실제 의견에서 더욱 빈번하게 나타나며, "Buildings(건물 정보)"나“Travel(여행 정보)" 프레임은 의견스팸 샘플에서 더욱 빈번하게 나타난다는 사실을 알 수 있다. 예를 들어, 의견스팸 샘플은 작성자의의 개인적 경험이 결부되어 있기 때문에 장소에 대한 자세한 설명이 빈약한 경향이 있다. 이와 같은 이유로, 의견스팸 샘플에서는 '여행', '건물'과 같은 피상적인 의미의 프레임들이 주로 포함되었음을 알 수 있다. 또한, 의견스팸 샘플의 경우, 읽는 이로 하여금 의견스팸이 더욱 신뢰감을 갖도록 하기 위하여 '배우자'나 '가족'과 같은 개인적 관계에 관한 프레임(Personal_relationship)이 주로 포함됨을 알 수 있다. 반면, 실제 의견은 작성자의 경험을 바탕으로 작성되었기 때문에, '특정 날짜', '건물 내부', '가격이나 크기 또는 치수'와 같은 자세하고 세부적인 내용에 관한 프레임들이 주로 포함되었음을 알 수 있다.

도 6은 비전문가 집단이 작성한 의견스팸 샘플과 실제 의견을 기초로 추출된 일부 프레임 쌍들의 ΔNF_BOF값을 나타낸 표이며, 도 7은 전문가 집단이 작성한 의견스팸 샘플과 실제 의견을 기초로 추출된 일부 프레임 쌍들의 ΔNF_BOF 값을 나타낸 표이다. 도 6 및 도 7을 참조하면, "Cardinal_numbers(숫자, 기수, 횟수 정보) ― Calendric_unit(날짜, 요일, 기간 정보)", "Building_subparts(건물의 상세부분 정보) ― Degree(상태 정보)" 프레임 쌍의 ΔNF_BOF 값이 낮게 측정되어 있다. 이로부터 판단하건대, 실제 의견에는 실제 숫자나 특정 요일이나 날짜가 자주 언급되거나, 건물 세부 구조물의 크기와 같은 세부적인 사항이 자주 언급됨을 알 수 있다. 반면, "Measure_duration(소요시간 정보) ― Arriving(도착 행위 정보)" 프레임 쌍은 '시간이 걸려서 ~ 도착했다'와 같은 내용을 서술한 것으로서 ΔNF_BOF 값이 높게 측정되어 있다. 이로부터 판단하건대, 의견스팸에서는 특징이 없고 디테일이 부족한 용어들이 주로 언급됨을 알 수 있다. 또한, "Cardinal_numbers(숫자, 기수, 횟수 정보) ― Calendric_unit(날짜, 요일, 기간 정보)" 프레임 쌍의 ΔNF_BOF 값이 낮은 것으로 보아, 전문가 집단이 작성한 의견스팸 샘플이라고 하더라도 특정 날짜 까지는 꾸며내지 못함을 알 수 있다.

다시 도 3을 참조하면, 문서 입력부(140)는 사용자가 의견스팸 판단장치(100)에 입력한 입력문서를 입력받는 구성이다. 입력문서는 사용자들의 의견들을 포함하는 문서로서, 적어도 하나의 사용자들이 작성한 적어도 하나의 문장으로 구성될 수 있다.

의견스팸 판단부(150)는 프레임 선정부(130)를 통하여 선정된 프레임을 기계학습기반의 분류모델에 의견스팸 판단요소로서 삽입하여 의견스팸 판단모델을 구축하고, 의견스팸 판단모델을 통하여 입력문서가 의견스팸인지 여부를 판단할 수 있다. 이때, 프레임 선정부(130)가 ΔNFF 또는 ΔNF_BOF의 절대값이 높은 일부 프레임을 선정한 경우, 의견스팸 샘플의 특성을 대변하는 프레임(이하, 제 1 프레임)과 실제 의견의 특성을 대변하는 프레임(이하, 제 2 프레임)이 의견스팸 판단요소로 삽입될 수 있다. 그에 따라, 의견스팸 판단부(150)는 제 1 프레임과 제 2 프레임을 통하여 의견스팸과 실제 의견에서 드러나는 특성이 모두 학습된 의견스팸 판단모델을 구축할 수 있다. 이러한 과정을 통해 구축된 의견스팸 판단모델은 제 1 프레임과 동일한 프레임이 포함된 입력문서를 의견스팸으로 판단할 수 있으며, 의견스팸 판단모델은 제 2 프레임과 동일한 프레임이 포함된 입력문서를 의견스팸이 아닌 것으로 판단할 수 있다.

한편, 의견스팸 판단요소로 삽입되는 프레임의 개수에는 제한이 없으나, 프레임의 개수가 많을수록 의견스팸 판단 정확도가 향상될 수 있다. 도 8은 프레임 개수 별 기계학습기반 분류모델의 의견스팸 판단정확도를 나타내는 그래프이다. 도 8의 좌측 상단은 비전문가 집단의 의견스팸 샘플에 관한 예를 나타내는 것으로서, Frame_3에 대한 의견스팸 판단정확도가 0.63인 것으로 측정되어 있다. 이로부터 판단하건대, 총 6개의 프레임(NFF 값 분포의 양 극단(+, -) 각각으로부터 절대값이 가장 높은 3개의 값에 대응하는 프레임들)만 의견스팸 판단요소로 사용된 경우에도 무작위 선택확률(50%)보다 상회하는 확률인 63%가 획득됨을 알 수 있다. 나아가, 도 8의 좌측 하단은 전문가 집단의 의견스팸 샘플에 관한 예를 나타내는 것으로서, 의견스팸 판단요소로 사용하는 프레임의 개수를 10개에서 3개로 줄임에도 불구하고 의견스팸 판단정확도는 0.8이하로 감소되지 않음을 알 수 있다. 즉, NFF 지표를 이용하여 선정한 프레임은 의견스팸 판단에 매우 효과적인 자질로 이용될 수 있음을 알 수 있다.

이하, 도 9을 참조하여, 본 발명의 일 실시예에 따르는 의견스팸 판단방법에 대하여 구체적으로 설명한다. 도 9는 본 발명의 일 실시예에 따르는 의견스팸 판단방법에 대한 순서도이다. 이하에서 설명되는 의견스팸 판단방법은 상술한 의견스팸 판단장치(100)에 의하여 수행되는 것으로서, 이하의 설명에서 생략된 것이라 하더라도 상술한 예로 갈음할 수 있다.

먼저, 의견스팸 판단장치(100)는 복수의 의견스팸 샘플 또는 실제 의견로부터 적어도 하나의 프레임을 추출한다(S900). 구체적으로, 의견스팸 샘플은 문장이 구분되어 있지 않을 수 있으므로, 문장 분리기를 통하여 각 의견스팸 샘플을 적어도 하나의 문장으로 분할한다. 이어서, 각 문장에 포함된 단어들의 관계를 분석한다. 그리고, 프레임사전 데이터베이스를 참조하여 한 문장으로부터 특정 프레임을 촉발하는 중심 단어를 찾고, 중심 단어 주변의 문맥을 파악한 후, 확률모델에 기반하여 중심 단어와 문맥에 대응하는 프레임을 추출할 수 있다. 이러한 과정을 통해 각 의견스팸 샘플로부터 적어도 하나의 프레임을 추출할 수 있으며, 동일한 방법으로 실제 의견으로부터 적어도 하나의 프레임을 추출할 수 있다.

그리고 각 프레임에 대한 복수의 의견스팸 샘플과 실제 의견 내 발생빈도를 정량화하고, 추출된 프레임들 중 소정의 개수의 프레임을 선정할 수 있다(S910). 추출된 모든 프레임을 의견스팸 판단요소로 고려하기에는 너무 많은 용량과 부하를 요구하므로, 소정의 개수의 프레임을 선정하기 위해서 각 프레임 별로 의견스팸 샘플 데이터베이스(110) 내의 발생빈도를 정량화할 수 있다. 정량화 수단으로는 NFF 및 NF_BOF 지표 중 적어도 하나가 이용될 수 있다. 이때, ΔNFF 및 ΔNF_BOF의 절대값이 높은 소정의 개수의 프레임이 선정될 수 있다.

이어서, 선정된 프레임을 의견스팸 판단요소로서 기계학습기반의 분류모델에 삽입하여 의견스팸 판단모델을 구축한다(S920).

최종적으로, 입력문서가 있는 경우, 입력문서를 의견스팸 판단모델에 입력하여, 입력문서가 의견스팸인지 여부를 판단할 수 있다(S930).

상술한 설명에서, 단계 S900 내지 S930은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.

이상으로 설명한 바와 같이, 종래의 기계학습기반의 분류모델에 의견스팸 판단요소로서 프레임을 삽입할 경우, 입력문서에 포함된 문장의 의미 관계를 파악하여 의견스팸 여부가 판단되므로 종래의 기계학습기반의 분류모델 보다 의견스팸 판단 정확도를 더욱 향상시킬 수 있다.

도 10은 종래의 기계학습기반 분류모델과 해당 분류모델에 프레임을 의견스팸 판단요소로 추가하였을 경우의 성능을 비교한 표이다. 도 10을 참조하면, 기계학습기반 분류모델은 SVM 모델을 사용하였으며, Tucker vs. Truthful은 비전문가 집단이 작성한 의견스팸 샘플을 바탕으로 한 SVM 모델 테스트 결과에 관한 것이며, Expert vs. Truthful은 전문가 집단이 작성한 의견스팸 샘플을 바탕으로 한 SVM 모델 테스트 결과에 관한 것이다. SVM Features 중 의견스팸 판단 정확도(Acc) 항목을 살펴보면, BOW_full은 SVM 모델의 기존 자질인 BOW(Bag-of-Word)만으로 의견스팸을 구별한 경우에 관한 예로서, 0.870과 0.916이라는 값이 산출되었다. 그러나, Frame5+BOW_full, Frame5+BOW_250, Frame12+BOW_full은 프레임을 의견스팸 판단요소로 추가한 경우에 관한 예로서, 0.870보다 상회하는 0.875와 0.916보다 상회하는 0.920이라는 값이 산출됨을 알 수 있다.

도 11은 프레임뿐만 아니라 프레임 이진 패턴을 의견스팸 판단요소로서 종래의 분류모델에 반영한 경우의 성능을 나타내는 표이다. 여기서, "Frame5_BO30"이란 용어는 ΔNFF 값 분포의 양 극단(+, -) 각각으로부터 절대값이 가장 높은 5개의 값에 대응하는 프레임과 ΔNF_BOF값 분포의 양 극단(+, -) 각각으로부터 절대값이 가장 높은 30개의 값에 대응하는 프레임을 의견스팸 판단요소로서 반영한 경우를 나타내는 것이다. 비전문가 집단이 작성한 의견스팸 샘플을 바탕으로 한 SVM 모델 테스트 결과에 대하여, 프레임만 의견스팸 판단요소로서 고려된 경우, 도 10에서 0.870의 정확도를 나타냄을 알 수 있으나, 프레임 이진 패턴까지 의견스팸 판단요소로서 고려된 경우, 도 11에서 0.882라는 더욱 높은 정확도를 나타냄을 알 수 있다. 아울러, 다른 테스트 결과에 대해서도 도 10의 경우와 비교해볼 때 도 11의 경우가 더 높은 정확도를 나타내고 있는 것으로 확인되는 바, 프레임 이진 패턴과 프레임을 동시에 의견스팸 판단요소로서 고려할 경우, 더욱 높은 정확도로 의견스팸을 판단할 수 있다.

이상으로 설명한 본 발명의 일 실시예는 문장을 통해 표현되는 사건의 의미를 구성하는 단위인 '프레임(frame)'을 이용하여 의견스팸 판단모델을 구축하고 이를 통해 의견스팸을 구별하기 때문에, 품사나 단어 사용차이 등 얕은 깊이의 구문 분석(shallow syntactic analysis)에 집중하던 종래의 기술과 달리, 문장 내에서의 단어 간 의미연결관계까지 파악할 수 있다. 또한, 파악된 의미연결관계를 통하여 의견스팸을 구별하기 때문에, 종래의 기계학습기반 분류모델보다 더욱 정확도를 향상시킬 수 있다.

본 발명은 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

100 : 의견스팸 판단장치
110 : 의견스팸 샘플 데이터베이스
120 : 프레임 추출부
130 : 프레임 선정부
140 : 문서 입력부
150 : 의견스팸 판단부

Claims

프레임 기반 의견스팸 판단장치에 의하여 수행되는 프레임 기반 의견스팸 판단방법에 있어서,
(a) 입력문서를 입력받는 단계; 및
(b) 복수의 의견스팸 샘플로부터 추출된 프레임을 의견스팸 판단요소로 고려하는 기계학습기반의 의견스팸 판단모델을 통하여, 상기 입력문서가 의견스팸인지 여부를 판단하는 단계;를 포함하되,
상기 프레임은 문장을 통해 표현되는 사건의 의미를 구성하는 단위에 대한 정보로서,
서로 다른 문장에 포함된 동일한 단어에 대한 프레임은 문장의 문맥에 따라 달라질 수 있는 것인, 프레임 기반 의견스팸 판단방법.
제 1 항에 있어서,
상기 프레임 기반 의견스팸 판단방법은,
(p) 상기 (a) 단계 전, 복수의 의견스팸 샘플에 포함된 각 문장으로부터 상기 프레임을 추출하는 단계; 및
(q) 상기 프레임을 기계학습기반의 분류모델에 의견스팸 판단요소로 삽입하여 상기 의견스팸 판단모델을 구축하는 단계;
를 포함하는, 프레임 기반 의견스팸 판단방법.
제 2 항에 있어서,
상기 (p) 단계는,
(p-1) 상기 각 의견스팸 샘플을 적어도 하나의 문장으로 분할하는 단계; 및
(p-2) 문맥에 따른 프레임과 단어 간의 대응관계를 규정한 프레임사전 데이터베이스를 참조하여, 상기 분할된 문장으로부터 상기 프레임을 추출하는 단계;
를 포함하는, 프레임 기반 의견스팸 판단방법.
제 3 항에 있어서,
상기 (p-1) 단계는,
상기 분할된 각 문장에 대하여 각 문장에 포함된 단어들의 관계를 분석하는 단계를 더 포함하며,
상기 (p-2) 단계는,
상기 프레임사전 데이터베이스를 참조하여 상기 분석된 문장으로부터 특정 프레임을 촉발하는 중심 단어를 찾고 상기 중심 단어의 주변의 문맥을 파악함으로써, 상기 중심 단어와 상기 문맥을 참조하여 상기 분석된 문장에 대한 프레임을 추출하는 단계를 더 포함하는, 프레임 기반 의견스팸 판단방법.
제 1 항에 있어서,
상기 의견스팸 샘플은,
특정 객체에 대한 부정적인 의견 또는 긍정적인 의견인, 프레임 기반 의견스팸 판단방법.
제 2 항에 있어서,
상기 의견스팸 판단방법은,
(r) 상기 (p) 단계 후, 상기 복수의 의견스팸 샘플 내 상기 추출된 프레임의 발생빈도를 정량화하여 상기 발생빈도가 높은 순서대로 소정의 개수의 프레임을 선정하는 단계를 더 포함하는, 프레임 기반 의견스팸 판단방법.
제 6 항에 있어서,
상기 (p) 단계는,
특정 객체를 이용한 사용자들에 의해 작성된 복수의 실제 의견에 포함된 각 문장으로부터 프레임을 추출하는 단계를 더 포함하며,
상기 (r) 단계는,
상기 복수의 실제 의견 내에서 추출된 프레임의 발생빈도를 정량화하고, 상기 실제 의견으로부터 추출된 프레임과 상기 의견스팸 샘플로부터 추출된 프레임 중 적어도 하나를 상기 발생빈도에 따라 소정의 개수만큼 선정하는 단계를 더 포함하는, 프레임 기반 의견스팸 판단방법.
제 6 항에 있어서,
상기 (r) 단계는,
NFF(Normalized Frame Frequency) 지표 및 NF_BOF(Normalized Frame Binary Ordering Frequency) 지표 중 적어도 하나를 이용하여 상기 추출된 프레임에 대한 발생빈도를 정량화하는 단계를 포함하는, 프레임 기반 의견스팸 판단방법.
제 6 항에 있어서,
상기 (q) 단계는,
상기 (r) 단계에서 선정된 프레임을 상기 기계학습기반의 분류모델에 상기 의견스팸 판단요소로서 삽입하는 단계를 포함하는, 프레임 기반 의견스팸 판단방법.
프레임 기반 의견스팸 판단장치에 있어서,
문장을 통해 표현되는 사건의 의미를 구성하는 단위에 대한 정보인 프레임을 이용하여 입력문서가 의견스팸인지 여부를 판단하는 프로그램이 저장된 메모리; 및
상기 프로그램을 실행하는 프로세서;를 포함하며,
상기 프로세서는, 상기 프로그램의 실행에 따라,
상기 입력문서를 입력받고, 복수의 의견스팸 샘플로부터 추출된 프레임을 의견스팸 판단요소로 고려하여, 상기 입력문서가 의견스팸인지 여부를 판단하되,
서로 다른 문장에 포함된 동일한 단어에 대한 프레임은 문장의 문맥에 따라 달라질 수 있는 것인, 프레임 기반 의견스팸 판단장치.
제 10 항에 있어서,
상기 프로세서는,
상기 복수의 의견스팸 샘플에 포함된 각 문장으로부터 상기 프레임을 추출하는, 프레임 기반 의견스팸 판단장치.
제 11 항에 있어서,
상기 프로세서는,
상기 각 의견스팸 샘플을 적어도 하나의 문장으로 분할하고, 문맥에 따른 프레임과 단어 간의 대응관계를 규정한 프레임사전 데이터베이스를 참조하여, 상기 분할된 문장으로부터 상기 프레임을 추출하는, 프레임 기반 의견스팸 판단장치.
제 12 항에 있어서,
상기 프로세서는,
상기 분할된 각 문장에 대하여 각 문장에 포함된 단어들의 관계를 분석하고, 상기 프레임사전 데이터베이스를 참조하여 상기 분석된 문장으로부터 특정 프레임을 촉발하는 중심 단어를 찾고 상기 중심 단어의 주변의 문맥을 파악함으로써, 상기 중심 단어와 상기 문맥을 참조하여 상기 분석된 문장에 대한 프레임을 추출하는, 프레임 기반 의견스팸 판단장치.
제 10 항에 있어서,
상기 의견스팸 샘플은,
특정 객체에 대한 부정적인 의견 또는 긍정적인 의견인, 프레임 기반 의견스팸 판단장치.
제 10 항에 있어서,
상기 프로세서는,
상기 프레임 추출 후, 상기 복수의 의견스팸 샘플 내 상기 추출된 프레임의 발생빈도를 정량화하여 상기 발생빈도가 높은 순서대로 소정의 개수의 프레임을 선정하는, 프레임 기반 의견스팸 판단장치.
제 15 항에 있어서,
상기 프로세서는,
특정 객체를 이용한 사용자들에 의해 작성된 복수의 실제 의견에 포함된 각 문장으로부터 프레임을 추출하며,
상기 복수의 실제 의견 내에서 추출된 프레임의 발생빈도를 정량화하고,
상기 실제 의견으로부터 추출된 프레임과 상기 의견스팸 샘플로부터 추출된 프레임 중 적어도 하나를 상기 발생빈도에 따라 소정의 개수만큼 선정하는, 프레임 기반 의견스팸 판단장치.
제 15 항에 있어서,
상기 프로세서는,
NFF(Normalized Frame Frequency) 지표 및 NF_BOF(Normalized Frame Binary Ordering Frequency) 지표 중 적어도 하나를 이용하여 상기 추출된 프레임에 대한 발생빈도를 정량화하는, 프레임 기반 의견스팸 판단장치.
제 15 항에 있어서,
상기 프로세서는,
상기 선정된 프레임을 의견스팸 판단요소로 고려하여, 상기 입력문서의 의견스팸 여부를 판단하는, 프레임 기반 의견스팸 판단장치.
제 1 항 내지 제 9 항 중 어느 한 항에 따르는 프레임 기반 의견스팸 판단방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터 판독가능 기록매체.
제 1 항 내지 제 9 항 중 어느 한 항에 따르는 프레임 기반 의견스팸 판단방법을 수행하기 위하여 컴퓨터 판독가능 기록매체에 저장된 컴퓨터 프로그램.