KR101909537B1

KR101909537B1 - 소셜 데이터 분류 시스템 및 방법

Info

Publication number: KR101909537B1
Application number: KR1020160158365A
Authority: KR
Inventors: 서새롬; 배성환
Original assignee: 주식회사 알에스엔
Priority date: 2016-11-25
Filing date: 2016-11-25
Publication date: 2018-10-19
Also published as: KR20180059147A

Abstract

본 발명의 목적은, 소셜 데이터에서 작성자에 의해 작성된 작성자글을 추출하며, 상기 작성자글을 구성하는 문장들이 문어체로 작성되었는지 또는 구어체로 작성되었는지를 이용하여, 상기 소셜 데이터에서, 상기 작성자의 의견이 포함된 진성 작성자글을 분류하는, 소셜 데이터 분류 시스템 및 방법을 제공하는 것이다. 이를 위해, 본 발명에 따른 소셜 데이터 분류 시스템은, 네트워크를 통해 소셜 미디어 서버와 통신을 수행하여, 상기 소셜 미디어 서버에 저장되어 있는 소셜 데이터들을 수집하는 통신부; 상기 소셜 데이터들을 저장하며, 상기 소셜 데이터들의 분류에 이용되는 사전들을 저장하는 저장부; 및 상기 소셜 데이터들 중, 어느 하나의 소셜 데이터에서 상기 소셜 데이터의 작성자에 의해 쓰여진 작성자글을 추출하고, 상기 작성자글을 구성하는 문장들 각각의 문체를 상기 사전을 이용하여 추출하며, 상기 문체가 구어체인 문장을 상기 작성자의 의견이 포함된 진성 작성자글로 분류하는 제어부를 포함한다.

Description

소셜 데이터 분류 시스템 및 방법{SYSTEM AND METHOD FOR CLASSIFYING SOCIAL DATA}

본 발명은 인터넷 뉴스, 블로그, 트위터 등과 같은 소셜 미디어에서 나오는 방대한 양의 소셜 데이터를 분류하는 시스템 및 방법에 관한 것이다.

소셜 미디어를 이용하는 사용자들은, 개인 블로그나 SNS 등을 통해, 구어체로 자신의 의견을 표출하기도 하고, 언론 기사 등을 인용하여 자신의 의견을 표출하기도 하며, 언론 기사 그대로를 복사하여 게시하기도 한다.

소셜 데이터는 상기한 바와 같은 소셜 미디어들을 통해 발생되는 데이터를 의미하며, 상기 소셜 데이터에서 의미 있는 정보를 추출해 내는 작업은 이슈 마이닝이라 한다.

소셜 데이터의 이슈 마이닝에서, 언론 기사를 제거하는 단계는, 이슈 마이닝의 정확도 향상을 위한 필수 작업이다.

종래의 소셜 데이터의 이슈 마이닝에서는, 인용된 문어체의 언론 기사를, 사용자가 수작업으로 제외하였다. 또한, 소셜 데이터의 양이 많은 경우, 종래의 소셜 데이터의 이슈 마이닝에서는, 언론에서 많이 쓰이는 단어의 패턴을 수작업으로 발굴하여, 상기 패턴과 매칭된 문서를 제외하는 방식이 이용되었다. 이에 따라, 소셜 데이터에서, 작성자의 의견(VOC: Voice Of Customers)이 발굴될 수 있었다.

그러나, 종래의 소셜 데이터 분류 방법에서는, 언론 기사를 보고 사용자가 수작업으로 문어체에 많이 쓰이는 단어를 추출하여 사전을 생성하기 때문에, 단어를 발굴하는 과정에서 시간이 많이 소요된다. 따라서, 대량의 문서가 실시간으로 처리되기 어렵다. 이에 따라, 종래의 소셜 데이터 분류 방법은 대량의 문서가 빠르게 생성되는 인터넷 환경에는 적용되기 어렵다.

출원번호 10-2014-7022790: 소셜 미디어 데이터 분석 시스템 및 방법 출원번호 10-2015-0065831: 소셜 미디어 데이터 분석 시스템 및 이를 이용한 소셜 미디어 데이터 분석 방법

상기한 바와 같은 문제점을 해결하기 위해 제안된 본 발명의 목적은, 소셜 데이터에서 작성자에 의해 작성된 작성자글을 추출하며, 상기 작성자글을 구성하는 문장들이 문어체로 작성되었는지 또는 구어체로 작성되었는지를 이용하여, 상기 소셜 데이터에서, 상기 작성자의 의견이 포함된 진성 작성자글을 분류하는, 소셜 데이터 분류 시스템 및 방법을 제공하는 것이다.

상술한 기술적 과제를 달성하기 위한 본 발명에 따른 소셜 데이터 분류 시스템은, 네트워크를 통해 소셜 미디어 서버와 통신을 수행하여, 상기 소셜 미디어 서버에 저장되어 있는 소셜 데이터들을 수집하는 통신부; 상기 소셜 데이터들을 저장하며, 상기 소셜 데이터들의 분류에 이용되는 사전들을 저장하는 저장부; 및 상기 소셜 데이터들 중, 어느 하나의 소셜 데이터에서 상기 소셜 데이터의 작성자에 의해 쓰여진 작성자글을 추출하고, 상기 작성자글을 구성하는 문장들 각각의 문체를 상기 사전을 이용하여 추출하며, 상기 문체가 구어체인 문장을 상기 작성자의 의견이 포함된 진성 작성자글로 분류하는 제어부를 포함한다.

상술한 기술적 과제를 달성하기 위한 본 발명에 따른 소셜 데이터 분류 방법은, 네트워크를 통해 소셜 미디어 서버와 통신을 수행하여, 상기 소셜 미디어 서버에 저장되어 있는 소셜 데이터들을 수집하는 단계; 상기 소셜 데이터들을 저장하며, 상기 소셜 데이터들의 분류에 이용되는 사전들을 저장하는 단계; 상기 소셜 데이터들 중, 어느 하나의 소셜 데이터에서 상기 소셜 데이터의 작성자에 의해 쓰여진 작성자글을 추출하는 단계; 상기 작성자글을 구성하는 문장들 각각의 문체를 상기 사전을 이용하여 추출하는 단계; 및 상기 문체가 구어체인 문장을 상기 작성자의 의견이 포함된 진성 작성자글로 분류하는 단계를 포함한다.

본 발명에 의하면, 수집된 소셜 데이터에서 광고 또는 기사목록이 제거될 수 있으며, 이에 따라, 작성자에 의해 작성된 작성자글만이 추출될 수 있다.

본 발명에 의하면, 소셜 데이터를 구성하는 문장들 각각이 문어체 또는 구어체로 분류될 수 있고, 문어체와 구어체의 비율계산을 통해, 소셜 데이터에 언론 기사가 인용되어 있는지의 여부가 판단될 수 있으며, 이에 따라, 상기 소셜 데이터에서, 작성자의 의견이 포함된 진성 작성자글이 분류될 수 있다.

본 발명은 소셜 데이터들을 통해 사용빈도가 높다고 판단된 문어체 단어 또는 구어체 단어를 자동으로 사전에 등록할 수 있다.

본 발명에 의하면, 다양한 소셜 데이터들을 통해 사전의 질과 양이 상승될 수 있으며, 이에 따라, 진성 작성자글을 추출하는 정확도가 상승될 수 있다.

본 발명에 의하면, 문어체의 언론 기사를 자주 인용하는 작성자가 분류될 수 있으며, 이에 따라, 소셜 데이터들에서 진성 작성자글을 분류하는 속도가 향상될 수 있다.

도 1은 본 발명에 따른 소셜 데이터 분류 시스템이 적용되는 통신 시스템의 구성을 나타낸 예시도.
도 2는 본 발명에 따른 소셜 데이터 분류 시스템의 구성을 나타낸 예시도.
도 3은 본 발명에 따른 소셜 데이터 분류 방법의 일실시예 흐름도.

이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

또한, 본 발명의 구성요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성요소를 다른 구성요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성요소는 그 다른 구성요소에 직접적으로 연결되거나 또는 접속될 수 있지만, 각 구성요소 사이에 또 다른 구성요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.

도 1은 본 발명에 따른 소셜 데이터 분류 시스템이 적용되는 통신 시스템의 구성을 나타낸 예시도이며, 도 2는 본 발명에 따른 소셜 데이터 분류 시스템의 구성을 나타낸 예시도이다.

본 발명은, 소셜 데이터의 이슈 마이닝을 위해, 소셜 데이터에서 작성자의 의견이 포함된 진성 작성자글만을 추출하여, 보다 효율적으로 이슈에 대응하기 위한 시스템 및 방법에 관한 것이다.

본 발명은 소셜 데이터에서 문어체 문장 또는 구어체 문장을 분류하며, 이를 기반으로 하여, 진성 작성자글을 분리해낼 수 있다.

온라인상으로부터 수집된 소셜 데이터에는, 언론 기사가 인용되어 있거나, 작성자의 의견 없이 기사만 게시되어 있는 경우가 많다. 따라서, 정확한 이슈 마이닝을 하기 위해서는, 소셜 데이터에서 진성 작성자글을 추출하는 과정이 반드시 필요하다.

본 발명은 “진성 작성자글은 언론 기사 글과 달리 구어체로 이루어져 있다”는 전제를 기반으로, 형태소 분석을 활용하여 소셜 데이터를 문장 별로 구분하는 과정을 거친다. 이후, 본 발명은 통계 및 문어체 사전과 구어체 사전에 기반하여, 각 문장을 분석하며, 이를 바탕으로 진성 작성자글을 추출한다. 따라서, 본 발명은 소셜 데이터들에 대한 분석 정확도를 높일 수 있다.

상기한 바와 같은 기능을 수행하기 위한, 본 발명에 따른 소셜 데이터 분류 시스템(20)이 적용되는 통신 시스템은, 도 1에 도시된 바와 같이, 소셜 미디어 서버(30), 상기 소셜 미디어 서버(30)에 글을 남기고자 하는 사용자가 이용하는 사용자 단말기(10) 및 본 발명에 따른 소셜 데이터 분류 시스템(20)을 포함한다.

상기 소셜 미디어 서버(30)는 인터넷 뉴스, 블로그, 트위터, SNS 등과 같은 소셜 미디어 서비스를 제공한다. 상기 소셜 미디어 서버(30)는 현재 일반적으로 이용되고 있는 네트워크 서버가 될 수 있다.

상기 사용자 단말기(10)는 스마트폰 또는 테블릿PC와 같은 무선 단말기가 될 수 있으며, 개인용 컴퓨터(PC)와 같은 유선 단말기가 될 수도 잇다.

상기 소셜 데이터 분류 시스템(20)은, 도 2에 도시된 바와 같이, 통신부(21), 제어부(22), 저장부(23), 입력부(24) 및 출력부(25)를 포함한다.

상기 입력부(24)는 상기 소셜 데이터 분류 시스템(20)의 관리자로부터 각종 정보를 입력받을 수 있다. 상기 입력부(24)를 통해 입력된 정보는 상기 저장부(23)에 저장될 수 있다. 상기 입력부(24)는 키보드, 마우스 및 메모리 장치 등이 될 수 있다.

상기 출력부(25)는 상기 제어부(22)에서 처리된 각종 정보를 출력할 수 있다. 상기 출력부(25)는 모니터 또는 프린터 등이 될 수 있다.

상기 통신부(21)는 네트워크를 통해 상기 소셜 미디어 서버(30)와 통신을 수행하여, 상기 소셜 미디어 서버(30)에 저장되어 있는 소셜 데이터들을 수집할 수 있다.

상기 통신부(21)에는, 상기 소셜 미디어 서버(30)에 접속하여, 상기 소셜 미디어 서버(30)에 저장된 소셜 데이터들을 수집하는 웹 수집 로봇이 포함될 수 있다.

상기 저장부(23)에는 상기 소셜 데이터들이 저장되며, 상기 소셜 데이터들의 분류에 이용되는 사전들이 저장될 수 있다.

즉, 상기 저장부(23)에는 상기 소셜 데이터들을 형태소별로 분류할 때 이용되는 각종 사전들이 저장될 수 있다.

상기 제어부(22)는, 상기 소셜 데이터들 중, 어느 하나의 소셜 데이터에서 상기 소셜 데이터의 작성자에 의해 쓰여진 작성자글을 추출하고, 상기 작성자글을 구성하는 문장들 각각의 문체를 상기 사전을 이용하여 추출하며, 상기 문체가 구어체인 문장을 상기 작성자의 의견이 포함된 진성 작성자글로 분류할 수 있다.

상기 제어부(22)의 구체적인 기능은 이하에서 도 3을 참조하여 상세히 설명된다.

도 3은 본 발명에 따른 소셜 데이터 분류 방법의 일실시예 흐름도이다.

소셜 데이터는 소셜 미디어들을 통해 발생되는 데이터를 의미하며, 특히, 이하의 설명에서는, 한 명의 작성자에 의해 작성된 하나의 문서를 의미한다. 상기 소셜 데이터에는 적어도 하나의 문장이 포함될 수 있으며, 광고나 기사가 포함될 수도 있다.

상기 소셜 데이터에서 의미 있는 정보를 추출해 내는 작업은 이슈 마이닝이라 한다.

본 발명은 소셜 데이터의 이슈 마이닝을 위해, 소셜 데이터의 이슈 마이닝 과정의 전단계에서 수행되는 것이며, 특히, 소셜 데이터에서 작성자의 의견(VOC: Voice Of Customers)이 포함된 문장(이하, 간단히 진성 작성자글)을 정확하게 분류하기 위한 것이다.

이를 위해, 본 발명은 소셜 데이터에서 문어체 사전 및 구어체 사전에 포함되는 단어들의 출현 빈도를 계산하여, 상기 소셜 데이터를 문장 단위로 문어체 또는 구어체로 분류한다.

< 1. 소셜 데이터에서 작성자에 의해 작성된 작성자글 추출(511) >

수집된 소셜 데이터에는 작성자가 쓴 글(이하, 간단히 작성자글이라 함) 이외에도 상기 소셜 데이터의 하단에 기사목록이나 광고 글귀가 같이 있는 경우가 많다. 따라서, 소셜 데이터에서 작성자에 의해 작성된 작성자글만을 추출하는 과정이 반드시 필요하다.

이를 위해, 상기 제어부(22)는, 우선, 형태소 분석기를 이용하여 문장의 끝에 사용되는 단어(하다, 했다, 한다, 니다, 니까, 었다, 된다 등)나 끝 점등의 문자 부호(., ?, !)를 이용하여 상기 소셜 데이터를 문장단위로 분류한다.

이후, 상기 제어부(22)는 문장의 마지막 단어가 명사인 경우에는, 상기 문장을 기사목록이나 광고 글귀로 판단한다. 이러한 과정을 통해, 상기 제어부(22)는 상기 소셜 데이터에서 작성자글만을 추출해 낸다(511). 상기 작성자글은 적어도 하나의 문장으로 구성될 수 있다.

< 2. 문장의 문체 추출(512) >

적어도 하나의 문장의 문체를 추출하기 위해, 기계학습을 이용한 사전이 준비되어야 한다. 상기 사전은 본 발명의 실행 전에 생성되어야 하며, 본 발명의 실행 중에도 지속적으로 업그레이드될 수 있다.

상기 사전을 생성하는 방법을 간단히 설명하면 다음과 같다. 예를 들어, 하나의 문체(예를 들어, 문어체 또는 구어체)를 갖는 학습문서가 준비되면, 기계학습을 통해 문체별로 고유하며 빈도수가 많은 단어 목록들이 상기 사전에 포함된다.

새로운 테스트 데이터가 입력되면, 형태소 분석기를 이용하여 상기 테스트 데이터가 문장별로 분류되며, 상기 사전을 이용하여, 각각의 문장은 가장 높은 비율을 갖는 문체로 분류된다(512).

특히, 본 발명은 진성 작성자글을 추출하기 위한 것이며, 따라서, 문장들 중에서 구어체에 대응되는 문장이 상기 진성 작성자글로 추출될 수 있다.

< 3. 소셜 데이터 단위의 문체 추출(513) >

상기 제어부(22)는 소셜 데이터 단위의 문체를 추출하고(513), 문어체의 비율이 높은 소셜 데이터의 작성자명을 추출할 수 있다. 상기한 바와 같이, 상기 소셜 데이터는 한 명의 작성자에 의해 작성된 하나의 문서를 의미하며, 상기 소셜 데이터에는 적어도 하나의 문장이 포함될 수 있다. 상기 소셜 데이터에서 추출된 문장들의 대부분이, 문어체로 판단되면, 상기 소셜 데이터는 작성자의 의견이 반영된 진성 작성자글 보다는 기사와 같은 전문 매체에 의해 작성된 글을 더 많이 포함하고 있다고 판단될 수 있다.

상기 제어부(22)는 상기 과정을 통해, 문어체의 비율이 높은 소셜 데이터의 작성자들에 대한 정보를 상기 저장부(23)에 저장할 수 있으며, 상기 제어부(22)는 수집된 소셜 데이터의 작성자명만으로도 진성 작성자글의 존재 여부를 판단할 수 있다. 따라서, 본 발명에 의하면 소셜 데이터들을 분류하는 속도가 향상될 수 있다.

예를 들어, 기사 글을 인용하여 쓰는 작성자는, 비슷한 종류의 글을 작성할 확률이 높다. 따라서, 본 발명은 이러한 점을 고려하여, 작성자명만으로 진성 작성자글의 존재 여부를 판단할 수 있다.

부연하여 설명하면, 본 발명은 상기 소셜 데이터에서 문장 단위로 추출된 문체들의 비율을 계산하여, 가장 높은 비율을 갖는 문체를, 소셜 데이터의 문체로 결정할 수 있다.

최종적으로 결정된 소셜 데이터의 문체가 문어체인 경우, 상기 제어부(22)는 작성자명을 키(Key)로하여, 상기 소셜데이터의 문체를 상기 저장부(23)에 저장할 수 있다. 또한, 상기 제어부(22)는 상기 작성자에 의해 작성되었으며, 문체로 판단된 소셜 데이터들의 개수를 상기 저장부(23)에 저장하여 관리할 수 있다.

상기 정보들이 저장된 이후, 상기 작성자명을 갖는 작성자에 의해 예를 들어, 30건 이상의 소셜 데이터들이 수집되었다면, 상기 제어부(22)는 상기 작성자에 의해 작성된 새로운 소셜 데이터들에는 진성 작성자글이 없다고 판단할 수 있다. 이에 따라, 소셜 데이터들을 분류하는 속도가 향상될 수 있다.

< 4. 문장 내의 단어들과 연관도가 높은 단어와 관련된 문체를 선택(514) >

상기 과정들을 통해 상기 소셜 데이터를 구성하는 문장들 각각에 대해 문체가 정해질 수 있다. 그러나, 문장 내에 사전에 존재하지 않는 단어가 있거나, 사전에 매칭되는 단어가 없는 경우, 상기 문장에 대해서는 문체가 정해지지 않을 수도 있다.

이 경우, 상기 제어부(22)는 문체가 정해지지 않은 상기 문장 내의 단어들과 연관도가 가장 높은 단어와 관련된 문체를, 문체가 정해지지 않은 상기 문장의 문체로 설정할 수 있다.

단어들의 연관성 정도는 통계기반 방안을 활용한다.

예를 들어, 두 키워드간의 관련도를 측정하는 방법으로는 다음과 같은 방법이 적용될 수 있다.

두 키워드간의 관련성, 즉, AF(Association Frequency)는 한 문장 내에서 두 키워드가 공존하는 횟수로부터 도출될 수 있다.

아래의 [수학식 1]은 문서(dx) 내의 키워드들(ei, ej) 간의 관련도(AFdx(ei, ej)를 나타낸 것이다.

SentenceAssoc_dxsp(ei, ej)는 문서(dx)의 각 문장(sp)에 존재하는 키워드들(ei, ej)의 관련도를 측정한 값이며, 한 문장에 존재하는 키워드들 간의 모든 조합수의 역수로 정의될 수 있다.

즉, 한 문장에서 다른 키워드들이 포함된 경우에 키워드들(ei, ej) 간의 관련도가 약화됨이 반영될 수 있다.

상기 SentenceAssoc 값을 모두 더하는 것에 의해, 한 문서(소셜 데이터) 내에서의 AF값이 측정될 수 있다.

단, 한 문장에서 키워드들(ei, ej)이 단독으로 출현하는 경우에는 합산되지 않는다.

두 키워드 간의 관계에 대한 정보가 전체 문서(소셜 데이터)에 퍼져 있다면, 그 관련성의 정도가 크다고 판단되는 것이 합리적이다.

따라서, DF(Document Frequency)개념을 반영한 관련도 계산법은 [수학식 2]와 같이 표현될 수 있다.

여기서 AF(ei, ej)는 각 소셜 데이터에서, 키워드들(ei, ej)의 관련도를 모두 더한 값이며, DF(ei, ej)는 키워드들(ei, ej)이 공존하는 문장이 존재하는 소셜 데이터의 개수를 의미한다.

AF(ei, ej), DF(ei, ej) 또는 상기 수학식2는, 하나의 소셜 데이터에 키워드들이 집중적으로 나타날 때 AF값을 증가시키는 것보다는, 여러 소셜 데이터들에서 키워드들이 동시에 출현할 때, 상기 키워드들의 관련성이 더 높은 것으로 간주하기 위해 설정된 요소이다(출처: 연관규칙 마이닝을 활용한 뉴스기사 키워드의 연관성 탐사-김한준, 장재영).

상기 과정들이 반복적으로 진행됨에 따라, 사전(문어체 사전, 구어체 사전, 작성자명 사전, ID 사전 등)의 질과 양이 점점 상승하게 되며, 이에 따라, 진성 작성자글이 속하고 효과적으로 추출될 수 있다.

또한, 상기한 바와 같은 과정들을 통해 추출된 진성 작성자글들에 의해, 보다 효율적이고 정확한 이슈 마이닝이 수행될 수 있다.

이상에서, 본 발명의 실시예를 구성하는 모든 구성요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.

또한, 이상에서 기재된 "포함하다", "구성하다" 또는 "가지다" 등의 용어는, 특별히 반대되는 기재가 없는 한, 해당 구성요소가 내재될 수 있음을 의미하는 것이므로, 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것으로 해석되어야 한다. 기술적이거나 과학적인 용어를 포함한 모든 용어들은, 다르게 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥 상의 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

10: 사용자 단말기 20: 소셜 데이터 분류 시스템
30: 소셜 미디어 서버

Claims

네트워크를 통해 소셜 미디어 서버와 통신을 수행하여, 상기 소셜 미디어 서버에 저장되어 있는 소셜 데이터들을 수집하는 통신부;
상기 소셜 데이터들을 저장하며, 상기 소셜 데이터들의 분류에 이용되는 사전들을 저장하는 저장부; 및
상기 소셜 데이터들 중, 각각의 소셜 데이터에서 작성자에 의해 쓰여진 작성자글을 추출하고, 상기 작성자글을 구성하는 문장들 각각의 문체를 상기 사전을 이용하여 추출하며, 상기 문체가 구어체인 문장을 상기 작성자의 의견이 포함된 진성 작성자글로 분류하는 제어부를 포함하는 소셜 데이터 분류 시스템.
제 1 항에 있어서,
상기 제어부는,
어느 하나의 소셜 데이터를 구성하는 문장들의 문체들 중 문어체의 비율이 높으면, 상기 소셜 데이터의 작성자명을 저장하고,
상기 통신부를 통해 수신된 또 다른 소셜 데이터의 작성자명이 상기 소셜 데이터의 작성자명과 동일하면, 상기 또 다른 소셜 데이터가, 작성자의 의견이 반영된 진성 작성자글 보다 전문 매체에 의해 작성된 글을 더 많이 포함하고 있다고 판단하는 소셜 데이터 분류 시스템.
제 1 항에 있어서,
상기 제어부는,
상기 소셜 데이터의 상기 문장들 중, 문체가 정해지지 않은 문장 내의 단어들과 연관도가 가장 높은 단어와 관련된 문체를 상기 저장부로부터 추출하며, 추출된 문체를, 문체가 정해지지 않은 상기 문장의 문체로 설정하는 소셜 데이터 분류 시스템.
제 1 항에 있어서,
상기 제어부는,
상기 소셜 데이터에서 상기 소셜 데이터의 작성자에 의해 쓰여진 작성자글을 추출하기 위해, 문장의 끝에 사용되는 단어 또는 문자 부호를 이용하여, 상기 소셜 데이터를 문장단위로 분류하고, 상기 소셜 데이터를 구성하는 문장들 중, 마지막 단어가 명사인 문장을 제외한 나머지 문장들을, 상기 작성자글로 추출하는 소셜 데이터 분류 시스템.
제 1 항에 있어서,
상기 제어부는,
상기 소셜 데이터들의 분류 결과, 사용빈도가 높다고 판단된 문어체 단어 또는 구어체 단어를 상기 사전에 등록하는 소셜 데이터 분류 시스템.
네트워크를 통해 소셜 미디어 서버와 통신을 수행하여, 상기 소셜 미디어 서버에 저장되어 있는 소셜 데이터들을 수집하는 단계;
상기 소셜 데이터들을 저장하며, 상기 소셜 데이터들의 분류에 이용되는 사전들을 저장하는 단계;
상기 소셜 데이터들 중, 각각의 소셜 데이터에서 작성자에 의해 쓰여진 작성자글을 추출하는 단계;
상기 작성자글을 구성하는 문장들 각각의 문체를 상기 사전을 이용하여 추출하는 단계; 및
상기 문체가 구어체인 문장을 상기 작성자의 의견이 포함된 진성 작성자글로 분류하는 단계를 포함하는 소셜 데이터 분류 방법.