KR101763895B1

KR101763895B1 - 소셜미디어 상의 사용자 의견성향 파악을 위한 데이터 융복합 분석 방법 및 장치

Info

Publication number: KR101763895B1
Application number: KR1020140166495A
Authority: KR
Inventors: 김기훈; 고영진
Original assignee: 주식회사 사이람
Priority date: 2014-11-11
Filing date: 2014-11-26
Publication date: 2017-08-01
Also published as: KR20160056255A

Abstract

본 발명은 소셜미디어 상의 사용자 의견성향 파악을 위한 데이터 융복합 분석 방법 및 장치에 관한 것으로, 개시된 데이터 분석 방법은 소셜미디어 상에서 사용자간 리액션 관계 정보를 파악하는 단계와, 소셜미디어 상에서 특정 이슈에 대한 복수의 의견성향별로 선정된 영향력자와 특정 사용자와의 사용자간 리액션 관계 정보의 분석을 통해 특정 사용자의 특정 이슈에 대한 의견성향을 추론하는 단계를 포함한다. 이러한 본 발명은 소셜 데이터의 정밀한 분석이 가능하고, 소셜 네트워크 상에 적극적으로 자기 의견을 개진하지 않는 사용자에 대한 분석도 가능하다. 이로 인하여 종래의 오피니언 마이닝이나 감성 분석의 자연어 처리 기법을 통한 분석방법의 한계를 뛰어넘을 수 있게 되고, 또한 기존의 자연어 처리의 오피니언 마이닝 등과 결합하여 응용될 경우에 사람들의 의견성향을 판단하는 데에 좀 더 정확한 결과를 산출할 수 있는 이점이 있다.

Description

소셜미디어 상의 사용자 의견성향 파악을 위한 데이터 융복합 분석 방법 및 장치{DATA CONVERGENCE ANALYZING METHOD AND APPARATUS FOR COMPREHENDING USER'S OPINION―PROPENSITY IN SOCIAL MEDIA}

본 발명은 소셜미디어 상의 사용자 의견성향 파악을 위한 데이터 융복합 분석에 관한 것으로, 더욱 상세하게는 소셜 네트워크 서비스에 의한 게시글의 작성자가 어떤 의견성향을 가지고 있는지를 파악하는 데이터 분석 방법 및 장치에 관한 것이다.

사람들의 생각을 알아보는 가장 익숙한 방법은 사람들에게 묻는 것이다.

가령 선거에서 어느 후보나 정당을 지지할 것이지, 혹은 어떤 제품을 선호하는지를 묻는 것이 그것이다. 하지만 이러한 설문 방식은 비용 소모가 상당히 심하고, 설문 내용 및 방식에 따라 유의미한 답변을 얻어내지 못하는 경우가 나타날 수 있다. 따라서 이러한 방대한 데이터를 이용하여 사람들의 의견을 효과적으로 파악하여 과거 설문의 방식을 대체할 수 있는 방법들이 제안되고 있다.

특히 소셜 네트워크 서비스(SNS)의 데이터를 활용한 분석 방법이 많이 연구되고 있다.

소셜 네트워크 서비스 중의 하나인 트위터(상표명)는 소셜 네트워크를 기반으로 하는 마이크로 블로그로서 사회에서 주로 백채널 미디어 역할을 한다.

이미 500만 이상의 사용자가 트위터를 사용하고 있고 매달 1억건 이상의 트윗글이 쏟아져 나오고 있다. 특히 트위터에서는 팔로우(follow)를 통한 정보 접근 및 리트윗(retweet)을 통한 정보 전달의 확산이 매우 용이하기 때문에 사람들의 목소리가 트위터를 통해 대변되는 성향이 강하게 나타나고 있다.

특히 트위터는 공개성을 원칙으로 하고 있어 데이터 수집이 용이하고, 온라인에서 사람들이 자발적으로 생성하는 자료라는 측면에서, 사람들의 여론 및 의견성향을 판별하는 데이터로서 새로운 가치를 가지고 있다.

이러한 소셜 네트워크 서비스를 분석하여 사용자들의 의견 및 성향을 파악할 수 있다면 보다 예측가능하고 정확한 전략을 수립할 수 있을 뿐 아니라 효과적으로 시간과 비용을 줄일 수 있다는 점이 장점으로 작용하고 있다.

예를 들어, 정당에서는 사람들의 정치적인 의견을 파악하고 현재의 정치적인 여론이 어떤지를 파악하여 정책 결정을 하는 데에 도움을 줄 수 있을 뿐만 아니라, 선거 기간에 정당 지지율을 파악하여 이를 유용하게 활용할 수 있다.

이와 같이 소셜 데이터가 가지고 있는 잠재력으로 보았을 때 트위터 데이터는 새로운 가치를 줄 수 있는 매우 중요한 데이터로 인정받고 있다.

이렇게 트위터 혹은 SNS상에 쏟아내는 사람들의 의견이 쌓이면서, 새로운 데이터에 대한 분석과 활용에 대한 기대치와 관심이 점차 증가하고 있다.

소셜 분석은 주로 오피니언 마이닝(Opinion Mining)혹은 감성 분석(Sentiment Analysis)이라는 자연어 처리 방법을 통해 SNS를 이용하는 사용자의 의견을 분석한다.

특허공개공보 제2012-0108095호는 이러한 방식으로 소셜 네트워크의 데이터를 분석하는 시스템에 관한 발명으로, 사용자들이 온라인 상에 올린 글을 분석하여 특정 주제어에 관하여 사용자들이 긍정적인지 부정적인지 여부를 평가하는 방법을 채택하고 있다.

이렇게, 사람들의 의견을 분석하기 위해 사용되는 자연어 처리 기법은 기본적으로 문장에서 사용되는 단어를 통해 문장의 긍/부정을 기계가 파악하여 결정하는 방법이다.

하지만 자연어 처리 기법을 통한 긍정, 부정을 정교하게 가리는 일은 쉬운 일이 아니다. 특히 한국어의 경우 형용사와 부사 등 꾸미는 말이 다양하고, 정제되지 않은 언어로 표현하는 경우가 많으며, 문맥에 따라 다른 뜻을 갖는 어휘들의 경우에 의미를 파악하는데 어려움이 많기 때문에 자연어 처리를 통해 사람들의 의견을 파악하는 문제는 항상 한계가 있어 왔다.

또한, 소셜네트워크 상에는 자신의 글을 적극적으로 기재하지 않고, 다른 사람의 글을 리트윗 등의 방법으로 인용하던가, 자신이 관심 있어 하는 사람의 글을 구독하는 등의 행동만 하는 사람들도 많이 존재하기 때문에, 위와 같은 방식으로는 충분한 분석이 되지 않는다는 문제점도 있었다.

대한민국 공개특허공보 10-2012-0108095, 공개일자 2012년 03월 23일.

본 발명은 전술한 바와 같은 종래 기술의 문제점을 해결하기 위해 제안한 것으로서, 소셜 네트워크 서비스 상의 게시글과 이러한 게시글에 대한 리액션을 파악한 후에 사용자 사이의 영향력과 리액션 관계를 분석함으로써, 게시글을 작성한 사용자의 의견성향을 파악하는 데이터 분석 방법 및 장치를 제공한다.

본 발명의 해결하고자 하는 과제는 이상에서 언급한 것으로 제한되지 않으며, 언급되지 않은 또 다른 해결하고자 하는 과제는 아래의 기재로부터 본 발명이 속하는 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 발명의 제 1 관점으로서 소셜미디어 상의 사용자 의견성향 파악을 위한 데이터 분석 방법은, 소셜미디어 상에서 사용자간 리액션 관계 정보를 파악하는 단계와, 상기 소셜미디어 상에서 특정 이슈에 대한 복수의 의견성향별로 선정된 영향력자와 특정 사용자와의 상기 사용자간 리액션 관계 정보의 분석을 통해 상기 특정 사용자의 상기 특정 이슈에 대한 의견성향을 추론하는 단계를 포함할 수 있다.

여기서, 상기 리액션 관계 정보를 파악하는 단계는, 상기 소셜미디어 상의 게시글 중에서 상기 특정 이슈에 관련된 분석 대상글들을 추출하는 단계와, 추출된 상기 분석 대상글들을 대상으로 시드글과 리액션글을 분류하여 글간 리액션 관계 정보를 파악하는 단계와, 파악된 상기 글간 리액션 관계 정보에 의거하여 상기 시드글과 상기 리액션글을 노드로 하고 리액션을 링크로 하는 복수의 글간 리액션 네트워크를 생성하는 단계와, 상기 복수의 글간 리액션 네트워크를 병합해서 개별 사용자를 노드로 하고 리액션을 링크로 하여 상기 사용자간 리액션 관계 정보를 나타내는 사용자간 리액션 네트워크를 생성하는 단계를 포함할 수 있다.

상기 의견성향을 추론하는 단계에서 영향력자는, 상기 소셜미디어 상에서 영향력이 높은 상위 사용자부터 차례대로 상기 분석 대상글들의 내용을 분석하여 상기 특정 이슈에 대한 지지 성향이 기 설정된 값보다 높은 경우에 n명까지 상기 특정 이슈에 대한 영향력자로 선정할 수 있다.

상기 의견성향을 추론하는 단계는, 상기 사용자간 리액션 네트워크 상에서 상기 복수의 의견성향별로 선정된 상기 영향력자와 특정 사용자와의 리액션 관계 분석을 통해 상기 의견성향을 추론할 수 있다.

상기 사용자간 리액션 네트워크의 링크에는 리액션에 따른 확산이 몇 번 행해졌는지를 나타내는 가중치가 포함될 수 있다.

상기 의견성향을 추론하는 단계는, 상기 가중치에 대응하는 노출 정도 및 상기 영향력자와의 거리를 이용하여 상기 특정 사용자의 상기 특정 이슈에 대한 의견성향을 추론할 수 있다.

본 발명의 제 2 관점으로서 소셜미디어 상의 사용자 의견성향 파악을 위한 데이터 분석 장치는, 소셜미디어 상에서 사용자간 리액션 관계 정보를 파악하는 리액션 파악부와, 상기 소셜미디어 상에서 특정 이슈에 대한 복수의 의견성향별로 선정된 영향력자와 특정 사용자와의 상기 리액션 관계 정보의 분석을 통해 상기 특정 사용자의 상기 특정 이슈에 대한 의견성향을 추론하는 의견성향 파악부를 포함할 수 있다.

여기서, 상기 리액션 파악부는, 상기 소셜미디어 상의 게시글 중에서 상기 특정 이슈에 관련된 분석 대상글들을 추출하는 분석 대상 추출부와, 추출된 상기 분석 대상글들을 대상으로 시드글과 리액션글을 분류하여 글간 리액션 관계 정보를 파악하는 글간 관계 파악부와, 파악된 상기 글간 리액션 관계 정보에 의거하여 상기 시드글과 상기 리액션글을 노드로 하고 리액션을 링크로 하는 복수의 글간 리액션 네트워크를 생성하는 글간 네트워크 생성부와, 상기 복수의 글간 리액션 네트워크를 병합해서 개별 사용자를 노드로 하고 리액션을 링크로 하여 상기 사용자간 리액션 관계 정보를 나타내는 사용자간 리액션 네트워크를 생성하는 사용자간 네트워크 생성부를 포함할 수 있다.

상기 의견성향 파악부에서 영향력자는, 상기 소셜미디어 상에서 영향력이 높은 상위 사용자부터 차례대로 상기 분석 대상글들의 내용을 분석하여 상기 특정 이슈에 대한 지지 성향이 기 설정된 값보다 높은 경우에 n명까지 상기 특정 이슈에 대한 영향력자로 선정할 수 있다.

상기 의견성향 파악부는, 상기 사용자간 리액션 네트워크 상에서 상기 복수의 의견성향별로 선정된 상기 영향력자와 특정 사용자와의 리액션 관계 분석을 통해 상기 의견성향을 추론할 수 있다.

상기 사용자간 리액션 네트워크의 링크에는 상기 리액션에 따른 확산이 몇 번 행해졌는지를 나타내는 가중치가 포함될 수 있다.

상기 의견성향 파악부는, 상기 가중치에 대응하는 노출 정도 및 상기 영향력자와 거리를 이용하여 상기 특정 사용자의 상기 특정 이슈에 대한 의견성향을 추론할 수 있다.

본 발명의 실시예에 의하면, 소셜 네트워크 상에서의 각 사용자의 성향을 단순히 그 사용자가 사용한 단어 등을 분석하여 결정하지 않고, 각 사용자가 다른 사용자와 맺은 관계 등을 고려하여 소셜 데이터를 분석하고, 그 결과에 따라 각 사용자의 성향을 판단하기 때문에, 소셜 데이터의 보다 정밀한 분석이 가능하고, 소셜 네트워크 상에 적극적으로 자기 의견을 개진하지 않는 사용자에 대한 분석도 가능하다는 장점이 있다.

이로 인하여 종래의 오피니언 마이닝이나 감성 분석의 자연어 처리 기법을 통한 분석방법의 한계를 뛰어넘을 수 있게 되고, 또한 기존의 자연어 처리의 오피니언 마이닝 등과 결합하여 응용될 경우에 사람들의 의견성향을 판단하는 데에 좀 더 정확한 결과를 산출할 수 있는 효과가 있다.

도 1은 본 발명의 실시예에 따른 데이터 분석 방법을 수행할 수 있는 데이터 분석 장치의 블록 구성도이다.
도 2는 본 발명의 실시예에 따른 데이터 분석 방법을 설명하기 위한 흐름도이다.
도 3 및 도 4는 본 발명의 실시예에 따라 시드글과 RT글을 분류하는 예를 도시한 도면이다.
도 5는 본 발명의 실시예에 따라 생성된 글간 리액션 네트워크의 예를 도시한 도면이다.
도 6은 본 발명의 실시예에 따라 생성된 사용자간 리액션 네트워크의 예를 도시한 도면이다.
도 7은 사용자간 리액션 네트워크에서의 인접매트릭스 값을 구하는 예를 도시한 도면이다.
도 8은 최초에 각 사용자에게 설정된 의견성향 벡터를 도시한 도면이다.
도 9는 사용자간 리액션 네트워크에서 각 노드별 영향력자와의 거리를 예시한 도면이다.
도 10 및 도 11은 본 발명의 실시예에 따른 데이터 분석 방법에 의해 산출된 의견성향 벡터를 도시한 도면이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 발명의 실시 예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시 예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

도 1은 본 발명의 실시예에 따른 데이터 분석 방법을 수행할 수 있는 데이터 분석 장치의 블록 구성도이다.

이에 나타낸 바와 같이 실시예에 따른 데이터 분석 장치(100)는 리액션 파악부(110)와 의견성향 파악부(120) 등을 포함하며, 리액션 파악부(110)는 분석 대상 추출부(111), 글간 관계 파악부(113), 글간 네트워크 생성부(115) 및 사용자간 네트워크 생성부(117) 등을 포함한다.

이 중에서, 리액션 파악부(110)는 소셜미디어 상에서 사용자간 리액션 관계 정보를 파악하며, 파악된 사용자간 리액션 관계 정보를 의견성향 파악부(120)에게 제공한다.

리액션 파악부(110)의 분석 대상 추출부(111)는 소셜미디어 상의 게시글 중에서 특정 이슈에 관련된 분석 대상글들을 추출한다. 예컨대, 소셜미디어 상의 게시글 중에서 기 설정된 키워드를 포함하는 게시글들을 분석 대상글로 추출할 수 있다.

리액션 파악부(110)의 글간 관계 파악부(113)는 분석 대상 추출부(111)에 의해 추출된 분석 대상글들을 대상으로 시드글과 리액션글을 분류하여 글간 리액션 관계 정보를 파악한다. 예컨대, 리액션이란 소셜 네트워크 서비스 중의 하나인 트위터(상표명)에서 특정 게시글을 리트윗하는 행위, 페이스북(상표명)에서 <좋아요> 버튼을 클릭하는 행위 등이 해당된다.

리액션 파악부(110)의 글간 네트워크 생성부(115)는 글간 관계 파악부(113)에 의해 파악된 리액션 관계 정보에 의거하여 시드글과 리액션글을 노드로 하고 리액션을 링크로 하는 복수의 글간 리액션 네트워크를 생성한다. 예컨대, 글간 리액션 네트워크는 시드글의 수만큼 생성할 수 있다.

리액션 파악부(110)의 사용자간 네트워크 생성부(117)는 글간 네트워크 생성부(115)에서 생성된 복수의 글간 리액션 네트워크를 병합해서 개별 사용자를 노드로 하고 리액션을 링크로 하여 사용자간 리액션 관계 정보를 나타내는 사용자간 리액션 네트워크를 생성한다.

의견성향 파악부(120)는 소셜미디어 상에서 특정 이슈에 대한 복수의 의견성향별로 선정된 영향력자와 특정 사용자와의 리액션 관계 분석을 통해 특정 사용자의 특정 이슈에 대한 의견성향을 추론한다.

이러한 의견성향 파악부(120)는 리액션 파악부(110)에 의해 제공되는 사용자간 리액션 네트워크 상에서 복수의 의견성향별로 선정된 영향력자와 특정 사용자와의 리액션 관계 분석을 통해 의견성향을 추론한다.

예컨대, 의견성향 파악부(120)는 소셜미디어 상에서 영향력이 높은 상위 사용자부터 차례대로 분석 대상글들의 내용을 분석하여 특정 이슈에 대한 지지 성향이 기 설정된 값보다 높은 경우에 n명까지 특정 이슈에 대한 영향력자로 선정할 수 있다. 여기서, 사용자의 게시글이 노출된 수, 사용자의 게시글에 노출되는 전체 사용자의 수, 사용자의 글을 구독하는 구독자의 수, 사용자의 글이 인용된 수 또는 사용자가 작성한 게시글의 수 등이 많을수록 영향력이 높다고 판정할 수 있다. 또, 이슈별로 영향력자를 선정하기 위해서는 게시글에 대한 내용 분석을 수행하여야 하며, 이러한 내용 분석은 자연어처리 기법 등을 활용하여 기계적으로 수행할 수 있다. 또는, 외부에서 선정된 영향력자에 대한 정보를 의견성향 파악부(120)가 입력 받을 수도 있다.

도 2는 본 발명의 실시예에 따른 데이터 분석 방법을 설명하기 위한 흐름도이다.

이에 나타낸 바와 같이 실시예에 따른 데이터 분석 방법은, 소셜미디어 상의 게시글 중에서 특정 이슈에 관련된 분석 대상글들을 추출하는 단계(S210)를 포함한다.

그리고, 추출된 분석 대상글들을 대상으로 시드글과 리액션글을 분류하여 글간 리액션 관계 정보를 파악하는 단계(S220)를 더 포함한다.

이어서, 파악된 글간 리액션 관계 정보에 의거하여 시드글과 리액션글을 노드로 하고 리액션을 링크로 하는 복수의 글간 리액션 네트워크를 생성하는 단계(S230)를 더 포함한다.

그리고, 복수의 글간 리액션 네트워크를 병합해서 개별 사용자를 노드로 하고 리액션을 링크로 하여 사용자간 리액션 관계 정보를 나타내는 사용자간 리액션 네트워크를 생성하는 단계(S240)를 더 포함한다. 여기서, 사용자간 리액션 네트워크의 링크에는 리액션에 따른 확산이 몇 번 행해졌는지를 나타내는 가중치가 포함될 수 있다.

다음으로, 사용자간 리액션 네트워크 상에서 복수의 의견성향별로 선정된 영향력자와 특정 사용자와의 리액션 관계 분석을 통해 특정 사용자의 특정 이슈에 대한 의견성향을 추론하는 단계(S250)를 더 포함한다. 예컨대, 사용자간 리액션 네트워크 상에서 가중치에 대응하는 노출 정도 및 영향력자와 거리를 이용하여 특정 사용자의 특정 이슈에 대한 의견성향을 추론할 수 있다.

이하, 도 1 내지 도 15를 참조하여 본 발명의 실시예에 따른 데이터 분석 장치에 의해 수행되는 소셜미디어 상의 데이터 분석 방법에 대해 더 자세히 살펴보기로 한다. 이하에서는 소셜 네트워크 서비스 중의 하나인 트위터(상표명)를 대상으로 하여 사용자들의 의견성향을 파악하는 경우를 예로서 설명하기로 한다.

먼저, 리액션 파악부(110)의 분석 대상 추출부(111)는 소셜미디어 상의 게시글 중에서 특정 이슈에 관련된 분석 대상글들을 추출한다. 이를 위해, 분석 대상 추출부(111)에는 특정 이슈에 관련된 키워드가 기 설정될 수 있으며, 이러한 키워드는 분석을 하고자 하는 이슈가 변경될 때에 갱신될 수 있다. 이에, 분석 대상 추출부(111)는 소셜미디어 상의 게시글 중에서 기 설정된 키워드를 포함하는 게시글들을 분석 대상글로 추출하며, 추출된 분석 대상글들을 글간 관계 파악부(113) 등에게 제공할 수 있다(S210).

그러면, 리액션 파악부(110)의 글간 관계 파악부(113)는 분석 대상 추출부(111)에 의해 추출된 분석 대상글들을 대상으로 시드글과 리액션글을 분류하여 글간 리액션 관계 정보를 파악한다(S220).

소셜 네트워크 서비스 중의 하나인 트위터(상표명)에서 특정 게시글에 대한 리액션은 해당 게시글을 리트윗(retweet, RT)하는 행위로 나타난다.

그리고 리트윗의 표현은“RT@‘최초 글 작성자’ ‘최초 글 내용’”의 형태로 표현된다. “RT@”앞에는 리트윗한 사용자가 간단하게 코멘트를 작성하는 경우도 있다.

특정 글이 리트윗이 되면 최초로 작성된 트윗글의 작성자와 작성된 글 앞에 “RT@”형태의 특정 스트링(string)이 항상 붙게 된다. 이때 최초로 작성된 글을 시드(seed)글이라고 하고, 이 게시글을 작성한 사용자는 시드사용자라고 부른다. 그리고 이 게시글을 리트윗한 글을 RT글 이라고 한다.

글간 관계 파악부(113)가 RT글을 분류하는 기준은 아래의 같이 2가지 이다.

첫째, API로부터 요청된 글이 리트윗 시드글을 표시해 주고 있는 경우에 해당 글은 RT글이 된다. 이때, API를 통해 말해주고 있는 글을 API 시드라고 부른다.

둘째, 해당 트윗글 내용에 “RT@스크린네임”형태를 포함하는 경우이다. 일반적인 트위터 공식 서비스 상에서 리트윗을 하지 않고 서드파티에서 만들어지는 어플리케이션을 통해 리트윗을 하는 몇몇의 경우에 API로부터 요청된 글의 시드글을 표시하지 못하는 경우가 있기 때문에 이러한 둘째 방법을 포함하여 RT글을 분류한다.

트위터에서 모든 RT글은 각각 최초 작성된 시드글이 있다. 그리고 시드글이 리트윗 되고, 리트윗된 글이 또 리트윗이 되는 경우에 어플리케이션에 따라 표현되는 방식이 상이하다. 트위터 공식 웹에서 RT글을 재차 리트윗하는 경우에 생성되는 RT글은 도 3과 같이 트위터 상에서 가장 처음 작성된 시드 트윗글만 표시된다.

하지만, 몇몇의 타 어플리케이션으로 RT글을 재차 리트윗 하는 경우에 생성되는 RT글은 도 4의 경우와 같이 “RT@∼RT@∼RT@시드사용자 시드글”의 형태로“RT@작성자”가 계속적으로 붙는 형식의 글이 된다.

각각의 RT글에 대한 시드글은 RT글이 작성된 이전 시점에 존재하고 있다. 따라서, RT글의 시드글을 찾기 위해서 RT글을 시간 순으로 정렬한 후 RT글에 대해서만 이전 시점의 RT글이 아닌 트윗글을 검색하면 된다. 이때 RT글의 시드글을 찾는 과정은 해당 RT글이 API 시드를 가지고 있는 경우와 그렇지 않은 경우에 차이가 있다.

RT글에 API 시드가 없는 경우에는 “RT@” 패턴에서 가장 우측에 있는 “RT@”다음에 적혀 있는 사용자와 해당 글을 각각 시드사용자와 시드글로 판단하여 이 전 시점의 작성자와 작성글에 대해 이와 동일한 트윗글을 시드글로 확정한다.

RT글에 API 시드가 있는 경우(즉, API 호출시 RT글이라 판단하고 시드를 알려주는 경우)에는 API 시드글이 RT글이 아니면 API 시드가 해당 RT글의 시드글이며, API 시드글이 RT글이 RT글A이면 RT글A의 시드가 해당 RT글의 시드글이다.

이후, 리액션 파악부(110)의 글간 네트워크 생성부(115)는 글간 관계 파악부(113)에 의해 파악된 글간 리액션 관계 정보에 의거하여 도 5에 예시한 바와 같이 시드글과 리액션글을 노드로 하고 리액션을 링크로 하는 복수의 글간 리액션 네트워크를 생성한다. 예컨대, 글간 리액션 네트워크는 시드글의 수만큼 생성할 수 있다. 여기서, 시드글에서 RT글로 향하는 방향은 글이 확산되는 것을 의미하므로 이와 같은 방향성을 가지는 네트워크를 “RT 확산 네트워크”라 할 수 있다(S230).

이이서, 리액션 파악부(110)의 사용자간 네트워크 생성부(117)는 단계 S230에서 생성된 글간 리액션 네트워크들을 동일 노드가 중첩되도록 병합하여 도 6에 나타낸 바와 같이 개별 사용자를 노드로 하고 리액션을 링크로 하여 사용자간 리액션 관계 정보를 나타내는 사용자간 리액션 네트워크를 생성한다. 여기서, 사용자간 리액션 네트워크의 링크에는 리액션에 따른 확산이 몇 번 행해졌는지를 나타내는 가중치가 포함될 수 있다(S240).

예컨대, 사용자간 네트워크 생성부(117)는 도 5의 (가)와 같은 시드글의 글간 리액션 네트워크를 도 6의 (가)와 같이 사용자간 리액션 네트워크로 표현한다. 이때, 링크의 가중치 값은 리트윗 횟수를 의미한다.

그리고, 도 5의 (나)와 같은 시드글의 글간 리액션 네트워크가 추가되면 도 6의 (나)와 같이 사용자간 리액션 네트워크의 링크가 추가된다.

또, 도 5의 (다)와 같은 시드글의 글간 리액션 네트워크가 추가되면 도 6의 (다)와 같은 사용자간 리액션 네트워크가 생성된다. 이 경우에, 기존과 동일한 소스 노드에서 타깃 노드로 향하는 데이터가 추가되면 링크의 가중치 값도 1씩 추가될 수 있다.

다음으로, 의견성향 파악부(120)는 소셜미디어 상에서 특정 이슈에 대한 복수의 의견성향별로 선정된 영향력자와 특정 사용자와의 리액션 관계 분석을 통해 특정 사용자의 특정 이슈에 대한 의견성향을 추론한다(S250).

이러한 의견성향 파악부(120)에 의해 수행되는 의견성향의 추론 과정을 좀 더 자세히 살펴보기로 한다.

의견성향의 추론을 위해서는 먼저 특정 이슈에 대하여 의견별로 영향력을 지닌 사용자를 선정하여야 한다.

트위터에서 사용자의 영향력은 사용자가 쓰는 게시글의 수와 작성된 게시글이 얼마나 많은 사람들의 타임라인에 올라가는지에 비례한다. 즉, 글을 쓸 때마다 이에 노출되는 사용자가 많으면서 트윗글을 많이 쓰는 사용자의 영향력이 높아진다.

소셜 네트워크 서비스에서는 한 사용자가 다른 사용자의 글을 인용하거나 구독하는 경우에 이를 나타내는 방식은 서비스별로 조금씩 차이가 있을 수 있다.

예를 들어, 트위터의 경우는 사용자가 다른 사용자의 글을 인용하는 경우에는 RT@최초작성자 트윗글의 순으로 표현이 될 수 있으며, 페이스북의 경우는 사용자가 다른 사용자의 글을 공유하거나, 좋아요 버튼을 선택한 경우에는 누구의 글을 선택하였는지가 표시되도록 되어 있다.

이렇게 각 소셜 네트워크 서비스별로 인용 관계, 구독 관계를 표시하는 방식은 다르지만, 어떤 사용자의 글을 인용하는지, 어떤 사용자를 구독하는지를 명확히 나타내주고 있으므로, 이러한 정보를 이용하여 영향력을 평가할 수 있다.

따라서, 의견성향 파악부(120)는 소셜미디어 상에서 사용자의 게시글이 노출된 수, 사용자의 게시글에 노출되는 전체 사용자의 수, 사용자의 글을 구독하는 구독자의 수, 사용자의 글이 인용된 수 또는 사용자가 작성한 게시글의 수 등이 많을수록 영향력이 높다고 판정할 수 있다.

이어서, 의견성향 파악부(120)는 소셜미디어 상에서 영향력이 높은 상위 사용자부터 차례대로 분석 대상글들의 내용을 분석하여 특정 이슈에 대한 지지 성향이 기 설정된 값보다 높은 경우에 n명까지 특정 이슈에 대한 영향력자로 선정할 수 있다. 여기서, 이슈별로 영향력자를 선정하기 위해서는 게시글에 대한 내용 분석을 수행하여야 하며, 이러한 내용 분석은 자연어처리 기법 등을 활용하여 기계적으로 수행할 수 있다.

이처럼, 의견성향 파악부(120)가 이슈별로 영향력자를 직접 선정하는 과정은 여러 가지의 실시예 중에서 하나에 불과하다. 예컨대, 의견성향 파악부(120)는 외부에서 선정된 영향력자에 대한 정보를 입력 받는 과정을 수행함으로써, 영향력자를 선정하는 과정을 대체할 수도 있다.

한편, 영향력을 평가할 때에는 모든 기간에 대한 자료를 기초로 할 수도 있지만, 예컨대, 최근 1년간의 자료와 같이 특정 기간을 정해놓고 영향력을 평가할 수도 있다.

이는 과거에는 활발한 활동을 하였고, 다른 사용자들에게도 많이 인용되어 영향력이 높았던 사용자인 경우에도 현재에는 활동을 하지 않아 현재 다른 사용자에게 미치는 영향력이 낮은 경우라면 영향력이 높게 평가되지 않도록 하기 위함이다. 예컨대, 리트윗이나 좋아요, 공유 등 동의를 나타내는 인용 행위의 경우에는 최근 특정 기간만을 기준으로 영향력을 평가할 수 있다.

아울러, 의견성향 파악부(120)가 영향력자의 게시글을 분석하여 특정 이슈에 대해 어떤 의견을 가지고 있는지를 분석할 때에는 기존의 자연어 처리 기법에 의해 기계적으로 처리될 수 있다. 또는 게시글에 대한 분석은 사람 등에 의해 수행되어 그 분석 결과가 의견성향 파악부(120)로 입력될 수도 있다.

다음으로, 의견성향 파악부(120)는 사용자간 리액션 네트워크 상에서 리액션에 따른 확산이 몇 번 행해졌는지를 나타내는 가중치에 대응하는 노출 정도 및 영향력자와 거리를 이용하여 특정 사용자의 특정 이슈에 대한 의견성향을 추론한다. 예컨대, 확산을 나타내는 가중치가 높을수록 영향력자의 의견을 특정 사용자의 의견성향으로 높게 반영할 수 있으며, 영향력자와의 거리가 가까울수록 영향력자의 의견을 특정 사용자의 의견성향으로 높게 반영할 수 있다.

또한, 사용자가 작성한 글이 대상이 되는 사안에 대해 항상 같은 의견을 표현하고 있는 경우에는 그 의견을 그 사용자의 의견으로 하면 되지만, 사용자의 글들이 각기 다른 의견을 담고 있는 글들이 있는 경우에는 각각의 의견에 대한 글의 비율을 이용하여 가장 높은 비율을 차지하는 의견을 그 사용자의 의견으로 선정한다.

예를 들어, 대통령 후보에 지지의견에서 A 후보를 지지하는 글의 비율이 0.75, B 후보를 지지하는 글의 비율이 0.1, C 후보를 지지하는 글의 비율이 0.15 인 경우에 사용자의 의견성향을 나타내는 의견성향 벡터(O)는 {0.75, 0.1, 0.15} 가 되며, 이러한 사용자는 대통령 후보 A를 지지하는 것으로 판단한다.

이 때, 각 의견의 차이가 소정 비율 이상 차이가 나지 않아 오차범위 내인 경우에는 그 사용자에 대한 판단이 잘못될 수 있으므로, 그 경우에는 그 사용자의 영향력이 높은 경우에도 의견별 영향력자에서 제외할 수 있다.

예를 들어, 앞서 예로 들은 대통령 후보 A, B, C에 대한 의견성향 벡터 O = {0.5, 0.4, 0.1}인 경우에는 그 사용자가 대통령 후보 A를 지지하는지 B를 지지하는지 불명확하므로, 특정 의견을 대표하는 영향력자로 선정하지 않을 수 있다.

적용되는 오차범위를 더 크게 하여 각 의견별 차이가 뚜렷한 사용자, 즉 여러 의견 중 특정한 하나의 의견에 유독 편중되는 경향을 가지는 사람만 의견별 영향력자에 선정될 수 있도록 하는 경우에는 최종 결과가 보다 신뢰성 있게 나타날 수 있다. 예를 들어, 각 의견별 의견성향 벡터에서의 최대의견성향과 그 다음번 의견성향의 차이가 0.5 이상 차이가 나는 경우에만 그 사용자가 의견별 영향력자로 선정되도록 할 수 있다.

또한, 이렇게 각 의견별 영향력자가 선정되면 그 영향력자의 의견성향 벡터는 그 사용자가 대표하는 의견에 대한 의견성향만을 1로 하고, 나머지 의견성향은 0으로 고정할 수도 있다. 의견별 영향력자는 특정 의견을 대표하는 것으로 간주되는 것이므로, 다른 의견에 대한 의견성향이 없는 것으로 하는 것이 보다 정확한 결과를 얻을 수 있다.

한편, 의견별 영향력자의 수는 여러 가지 기준에 의해 설정될 수 있다.

한 가지 예로, 각 의견에 대한 영향력자가 각각 미리 정해진 n명이 되도록 할 수 있다. 즉, 각 의견에 대하여 동일한 수의 영향력자가 선정되도록 할 수 있다.

또 다른 예로, 영향력을 기준으로 상위 n명을 기준으로 영향력자가 선정이 되도록 할 수도 있다. 예를 들어, 영향력을 기준으로 상위 100명을 모두 영향력자로 선정되도록 할 수 있다.

이 경우에는 특정 소수 의견에 대해서는 영향력자가 선정되지 않을 수도 있으므로, 모든 의견에 대한 영향력자가 다 존재하게 되는 순위까지 영향력자 선정작업이 진행되도록 할 수 있다.

또 다른 보정 방법으로, 최초 설정된 영향력자 수에 따라 영향력자를 선정하고, 그 안에 포함되지 않은 소수 의견을 지지하는 영향력자는 별도로 그 소수 의견을 지지하는 사용자 중 가장 영향력이 높은 n 명의 사용자를 영향력자로 선정할 수도 있다.

의견성향 파악부(120)가 각 사용자의 의견성향을 판단하는 기본적인 개념은 사용자들의 각 글에 노출된 정도를 파악하여 의견성향을 판정하는 것으로, 영향력자(제 1 사용자)들의 글을 인용한 사용자(제 2 사용자)들의 의견성향을 각 사용자(제 2 사용자)들이 어떤 의견을 가지고 있는 영향력자(제 1 사용자)들의 글을 인용하였는지 여부를 가지고 의견성향을 설정(업데이트)하고, 의견성향이 판정된 사용자(제 2 사용자)의 글을 인용한 사용자(제 3 사용자)들은 다시 그 사용자(제 2 사용자)의 의견성향에 따라 의견성향을 설정(업데이트)하는 방식을 이용할 수 있다. 이 때, 최초로 선정된 의견별 영향력자는 다른 사람의 글을 인용한다고 하더라도 그 의견성향이 변경되지 않도록 할 수 있다.

즉, 각 사용자별로 어떤 글에 대하여 동의하는 인용을 하였는지를 판단하고, 그 인용되는 글들을 작성한 사용자의 의견성향에 따라 그 사용자의 의견성향이 결정되도록 할 수 있다.

예를 들어, 앞서 예시한 바와 같이 대통령 후보 지지에 대한 사안에서, A 후보를 지지하는 사용자의 글을 인용한 경우가 70%, B 후보를 지지하는 사용자의 글을 인용한 경우가 20%, C 후보를 지지하는 사용자의 글을 인용한 경우가 10%인 경우에는 그 사용자의 의견성향은 A 후보를 지지하는 것으로 판단할 수 있다.

각 사용자의 의견성향은 다음과 같은 수학식 1을 이용하여 구할 수 있다.

여기서, Norm 함수는 벡터의 엘리먼트의 값의 합이 1이 되도록 정규화하는 함수이다.

α는 시스템 운영자에 의해 정해지는 수로 불확실성을 반영하기 위한 값이다. 즉 확실한 의견을 가지는 사용자(최초 의견별 영향력자들)로부터 인용되어가는 과정이 멀리 떨어질수록 예측되는 사람의 의견성향은 점점 불확실해질 요인이 있다는 점을 반영한 것이다. α가 1인 경우에는 거리에 상관없이 계산이 되며,α가 0에 가까울수록 거리에 따라 불확실성이 커짐을 의미한다. 예컨대, α는 기본적으로 0.5의 값을 취할 수 있다.

A_i _,x는 사용자간 리액션 네트워크에서 인접매트릭스의 값이다. 사용자간 리액션 네트워크란 글이 인용되는 경로에 따라 네트워크를 구성한 것이다.

도 7은 사용자간 리액션 네트워크에서의 인접매트릭스 값을 구하는 예를 도시한 것으로, 도 7에서 i→j 링크의 가중치가 인접매트릭스값이 된다.

여기서 가중치는 인용횟수를 의미하거나 인용횟수에 비례하는 특정 값이 된다. 예를 들어 a가 b의 글을 3번 인용한 경우에는 b→a의 가중치는 3이나 f(3)의 값을 갖게 된다.

K_i는 의견별 영향력자를 제외한 최초 모든 사용자에 대하여 0의 값을 가지며, 각 사용자별로 최초로 의견벡터가 설정(assign)되는 시점에서 1의 값을 가지게 되는 계수이다.

O_i는 사용자 x에게 영향을 주는 사용자 i의 의견성향 벡터이다.

도 8은 최초에 각 사용자에게 설정된 의견성향 벡터를 도시한 것이다.

의견성향 벡터는 특정 이슈에 대하여 각각의 의견에 대한 사용자의 성향 정도를 벡터로 표시한 것으로, 최초에는 도 8에서 보는 바와 같이 일반적인 사용자들은 모든 의견에 대한 엘리먼트 값을 0으로 설정한다. 그리고, 의견별 영향력자들로 선정된 사용자들은 그 사용자가 지지하는 의견의 엘리먼트값이 1로 설정된다.

의견별 영향력자들의 의견성향 벡터의 엘리먼트들 중 어느 하나의 값만 1로 하지 않고, 그 영향력자의 성향에 따라 엘리먼트별로 고르게 분포되도록 할 수도 있다. 그러나 이렇게 하는 경우에 정확한 분석에 악영향을 미칠 수 있으므로, 앞에서 설명한 바와 같이 한 사용자에 대해서는 하나의 의견만을 대표하도록 설정할 수 있다.

d_i는 각 노드별 영향력자와의 거리를 의미한다. 이 값이 사용되는 이유는 확실하게 알려진 사용자와의 거리가 가까울수록 좀 더 정확한 의미를 전달한다는 것을 의미하기 때문이다.

도 9는 사용자간 리액션 네트워크에서 각 노드별 영향력자와의 거리를 예시한 도면이다.

결국, 상기한 수학식 1은 사용자에게 영향을 주는 이웃 사용자들의 의견성향 벡터를 가중치를 주어 합한 값을 이용하여 사용자의 성향을 분석하는 방법이다.

그러나, 반드시 수학식 1과 같은 방법으로 분석을 할 필요는 없으며, 가중치를 주는 방법, 가중치의 정도 등은 다양하게 변경될 수 있을 것이다.

도 10 및 도 11은 앞에서와 같은 방식으로 산출된 의견성향 벡터를 도시한 것이다.

도 10에서 보는 바와 같이 의견성향 벡터의 엘리먼트 중 가장 큰 값을 가지는 엘리먼트를 이용하여 사용자의 의견을 분석한다.

도 10에서 사용자 1 및 3은 의견 1을 지지하고, 사용자 2는 의견 2를 지지하며, 사용자 4는 의견 3을 지지하는 것으로 분석한다.

한편, 의견성향 벡터의 엘리먼트들간의 차이가 분명하지 않은 경우에는 불확실한 사용자로 판정할 수 있다.

도 11에서 사용자 2의 경우에 의견 1 및 의견 2를 지지하는 정도가 오차범위 이내이므로, 잘못 판단될 가능성이 있으므로 의견에 대한 판단을 하지 않는다.

이 때, 의견별 영향력자를 선정할 때에 사용된 오차범위보다는 각 사용자의 의견성향을 판단할 때에 사용된 오차범위는 더 작을 수 있다.

의견별 영향력자의 경우에는 어떤 의견을 지지하는 것으로 설정되는지에 따라 전체 사용자의 의견성향이 달라지기 때문에 오차범위를 더 크게 두어 그 사용자가 어떤 의견을 지지하는지 확실한 경우에만 그 사용자를 의견별 영향력자로 선정하지만, 그렇지 않은 경우에는 해당 사용자의 대체적인 성향을 보는 것이므로 오차범위를 적게 하더라도 전체 분석에는 큰 영향이 없으므로 오차범위를 더 적게 할 수 있다.

한편, 의견성향 파악부(120)에서 사용자들간의 관계를 이용하기 위해서는 각 사용자가 어떤 사용자를 구독하고, 어떤 사용자의 글을 인용하였는지가 명확하게 판단이 되어야 한다.

이러한 정보는 소셜 네트워크 서비스를 운영하는 시스템에서 제공하는 정보에 명확하게 표시되어 있어서, 의견성향 파악부(120)에서 바로 이용할 수 있는 경우가 많지만, 경우에 따라서는 하나의 소셜 네트워크 서비스 시스템에서 제공하는 정보라도 각 글마다 제공되는 정보의 형식 등이 달라서 정확한 인용 관계 등을 알기 위해서는 각 글간의 인용 관계 등을 별도로 분석한 정보를 이용하는 것이 보다 더 효율적으로 시스템이 실행되도록 할 수 있는 경우도 많이 있다.

특히, 인용 관계 부분은 다른 어플리케이션과 소셜 네트워크 서비스가 서로 연계되어 이용되면서 각 어플리케이션마다 다른 형식으로 인용 관계에 대한 정보를 제공할 수 있기 때문에 미리 각 글간의 인용 관계 등을 분석하여 사용자간 리액션 네트워크를 생성하고, 이 사용자간 리액션 네트워크를 이용하여 사용자들의 의견성향을 판정할 수 있다.

본 발명에 첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.

또한, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실시 예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

100 : 데이터 분석 장치
110 : 리액션 파악부
111 : 분석 대상 추출부
113 : 글간 관계 파악부
115 : 글간 네트워크 생성부
117 : 사용자간 네트워크 생성부
120 : 의견성향 파악부

Claims

데이터 분석 장치에 의해 수행되는 데이터 분석 방법으로서,
소셜미디어 상에서 사용자간 리액션 관계 정보를 파악하는 단계와,
상기 소셜미디어 상에서 특정 이슈에 대한 복수의 의견성향별로 선정된 영향력자와 특정 사용자와의 상기 사용자간 리액션 관계 정보의 분석 및 상기 영향력자의 의견성향을 기초로 상기 특정 사용자의 상기 특정 이슈에 대한 의견성향을 추론하는 단계를 포함하고,
상기 사용자간 리액션 관계 정보의 분석은, 사용자간 리액션 네트워크를 이용하는
소셜미디어 상의 사용자 의견성향 파악을 위한 데이터 분석 방법.
제 1 항에 있어서,
상기 리액션 관계 정보를 파악하는 단계는,
상기 소셜미디어 상의 게시글 중에서 상기 특정 이슈에 관련된 분석 대상글들을 추출하는 단계와,
추출된 상기 분석 대상글들을 대상으로 시드글과 리액션글을 분류하여 글간 리액션 관계 정보를 파악하는 단계와,
파악된 상기 글간 리액션 관계 정보에 의거하여 상기 시드글과 상기 리액션글을 노드로 하고 리액션을 링크로 하는 복수의 글간 리액션 네트워크를 생성하는 단계와,
상기 복수의 글간 리액션 네트워크를 병합해서 개별 사용자를 노드로 하고 리액션을 링크로 하여 상기 사용자간 리액션 관계 정보를 나타내는 상기 사용자간 리액션 네트워크를 생성하는 단계를 포함하는 소셜미디어 상의 사용자 의견성향 파악을 위한 데이터 분석 방법.
제 2 항에 있어서,
상기 영향력자는, 상기 소셜미디어 상에서 영향력이 높은 상위 사용자부터 차례대로 상기 분석 대상글들의 내용을 분석하여 상기 특정 이슈에 대한 지지 성향이 기 설정된 값보다 높은 경우에 n명까지 상기 특정 이슈에 대한 영향력자로 선정하는 것을 특징으로 하는 소셜미디어 상의 사용자 의견성향 파악을 위한 데이터 분석 방법.
삭제
제 2 항에 있어서,
상기 사용자간 리액션 네트워크의 링크에는 리액션에 따른 확산이 몇 번 행해졌는지를 나타내는 가중치가 포함되는 것을 특징으로 하는 소셜미디어 상의 사용자 의견성향 파악을 위한 데이터 분석 방법.
제 5 항에 있어서,
상기 의견성향을 추론하는 단계는, 상기 가중치에 대응하는 노출 정도 및 상기 영향력자와의 거리를 이용하여 상기 특정 사용자의 상기 특정 이슈에 대한 의견성향을 추론하는 것을 특징으로 하는 소셜미디어 상의 사용자 의견성향 파악을 위한 데이터 분석 방법.
제 1 항 내지 제 3 항, 제 5 항 또는 제 6 항 중 어느 한 항에 기재된 소셜미디어 상의 사용자 의견성향 파악을 위한 데이터 분석 방법을 수행할 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
소셜미디어 상에서 사용자간 리액션 관계 정보를 파악하는 리액션 파악부와,
상기 소셜미디어 상에서 특정 이슈에 대한 복수의 의견성향별로 선정된 영향력자와 특정 사용자와의 상기 리액션 관계 정보의 분석 및 상기 영향력자의 의견성향을 기초로 상기 특정 사용자의 상기 특정 이슈에 대한 의견성향을 추론하되, 사용자간 리액션 네트워크를 이용하여 상기 리액션 관계 정보를 분석하는 의견성향 파악부를 포함하는 소셜미디어 상의 사용자 의견성향 파악을 위한 데이터 분석 장치.
제 8 항에 있어서,
상기 리액션 파악부는,
상기 소셜미디어 상의 게시글 중에서 상기 특정 이슈에 관련된 분석 대상글들을 추출하는 분석 대상 추출부와,
추출된 상기 분석 대상글들을 대상으로 시드글과 리액션글을 분류하여 글간 리액션 관계 정보를 파악하는 글간 관계 파악부와,
파악된 상기 글간 리액션 관계 정보에 의거하여 상기 시드글과 상기 리액션글을 노드로 하고 리액션을 링크로 하는 복수의 글간 리액션 네트워크를 생성하는 글간 네트워크 생성부와,
상기 복수의 글간 리액션 네트워크를 병합해서 개별 사용자를 노드로 하고 리액션을 링크로 하여 상기 사용자간 리액션 관계 정보를 나타내는 상기 사용자간 리액션 네트워크를 생성하는 사용자간 네트워크 생성부를 포함하는 소셜미디어 상의 사용자 의견성향 파악을 위한 데이터 분석 장치.
제 9 항에 있어서,
상기 영향력자는, 상기 소셜미디어 상에서 영향력이 높은 상위 사용자부터 차례대로 상기 분석 대상글들의 내용을 분석하여 상기 특정 이슈에 대한 지지 성향이 기 설정된 값보다 높은 경우에 n명까지 상기 특정 이슈에 대한 영향력자로 선정하는 것을 특징으로 하는 소셜미디어 상의 사용자 의견성향 파악을 위한 데이터 분석 장치.
삭제
제 9 항에 있어서,
상기 사용자간 리액션 네트워크의 링크에는 상기 리액션에 따른 확산이 몇 번 행해졌는지를 나타내는 가중치가 포함되는 것을 특징으로 하는 소셜미디어 상의 사용자 의견성향 파악을 위한 데이터 분석 장치.
제 12 항에 있어서,
상기 의견성향 파악부는, 상기 가중치에 대응하는 노출 정도 및 상기 영향력자와 거리를 이용하여 상기 특정 사용자의 상기 특정 이슈에 대한 의견성향을 추론하는 것을 특징으로 하는 소셜미디어 상의 사용자 의견성향 파악을 위한 데이터 분석 장치.