KR101074215B1 - 여론 분석 장치 및 문서 분석을 통한 여론 평가 방법 - Google Patents

여론 분석 장치 및 문서 분석을 통한 여론 평가 방법 Download PDF

Info

Publication number
KR101074215B1
KR101074215B1 KR1020090016968A KR20090016968A KR101074215B1 KR 101074215 B1 KR101074215 B1 KR 101074215B1 KR 1020090016968 A KR1020090016968 A KR 1020090016968A KR 20090016968 A KR20090016968 A KR 20090016968A KR 101074215 B1 KR101074215 B1 KR 101074215B1
Authority
KR
South Korea
Prior art keywords
emotional
document
vector value
expression
documents
Prior art date
Application number
KR1020090016968A
Other languages
English (en)
Other versions
KR20100098014A (ko
Inventor
민경구
이준섭
Original Assignee
에스케이 텔레콤주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이 텔레콤주식회사 filed Critical 에스케이 텔레콤주식회사
Priority to KR1020090016968A priority Critical patent/KR101074215B1/ko
Publication of KR20100098014A publication Critical patent/KR20100098014A/ko
Application granted granted Critical
Publication of KR101074215B1 publication Critical patent/KR101074215B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Abstract

본 발명은 여론 분석 장치 및 문서 분석을 통한 여론 평가 방법에 관한 것으로서, 여론 분석 장치가 주어진 주제에 대한 문서를 수집하고, 상기 수집한 문서들을 필터링하여 유효 문서를 추출한 후, 각 유효 문서의 형태소 분석을 통해 감성 표현을 추출하고, 각 감성 표현의 감성벡터 값을 결정하여 그 감성벡터 값을 근거로 상기 주제에 대한 여론 평가 결과를 출력하는 것을 특징으로 한다.
따라서, 본 발명에 따르면, 인터넷상의 문서와 댓글을 수집하고, 특정 주제에 대한 찬/반 의견을 분석하여 그 결과만을 사용자에게 빠른 시간 내에 제공할 수 있다.
여론, 문서, 감성, 댓글

Description

여론 분석 장치 및 문서 분석을 통한 여론 평가 방법{Apparatus for analyzing public opinion and Method for rating of public opinion through document analysis}
본 발명은 여론 분석 장치 및 문서 분석을 통한 여론 평가 방법에 관한 것으로서, 더욱 상세하게는 주어진 주제에 대한 문서를 수집하고, 상기 수집한 문서들을 필터링하여 유효 문서를 추출한 후, 각 유효 문서의 형태소 분석을 통해 감성 표현을 추출하고, 각 감성 표현의 감성벡터 값을 결정하여 그 감성벡터 값을 근거로 상기 주제에 대한 여론 평가 결과를 출력하는 여론 분석 장치 및 문서 분석을 통한 여론 평가 방법에 관한 것이다.
최근 인터넷의 발달과 Web 2.0과 같은 게시판형 서비스가 활성화되어서, 일상의 신변잡기에 관한 가벼운 대화에서부터 정치 사회적 이슈에 관한 진지한 토론에 이르기까지, 다양한 계층의 사람들에 의해 다양한 평가와 의견, 아이디어가 매일, 시시각각으로 새롭게 만들어지고 있다.
또한 신문과 잡지를 인터넷으로 구독하는 것이 일반화되면서, 블로그와 카페 그리고 다양한 게시판의 이야기들이 기존 언론매체와 대등하게 공유되고 있다.
이와 더불어 배포와 복제가 즉각적이고 무료인 인터넷의 특성 때문에 지금까지 우리가 경험한 어떠한 매체보다도 반응이 즉각적이며 빠르고 폭 넓게 퍼져 나가고 있으며, 때로는 온라인 상에 올라온 글로 인하여, 개인이나 기업은 기대치 활동 보다도 놀라운 성과를 거두기도 한다.
인터넷 매체의 또 다른 특성은 정보의 양이 너무 많고 24시간 제작되어 유통되기 때문에, 이것을 관찰하고 분석하는 작업을 사람이 하기에는 비용과 노력이 너무 많이 필요하다.
따라서 기존의 리서치 조사 용역을 수행하기에는 속도와 비용이 지나치게 많이 들고 조사결과가 나왔을 때에는 이미 현상을 반영하지 못하는 낡은 데이터를 얻을 수 밖에 없었다.
본 발명의 목적은 인터넷상의 대량의 문서를 자동으로 수집하여 신속하게 그 결과를 분석할 수 있는 여론 분석 장치 및 문서 분석을 통한 여론 평가 방법을 제공하는데 있다.
본 발명의 다른 목적은 인터넷상의 문서와 댓글을 수집하고, 특정 주제에 대한 찬/반 의견을 분석하여 그 결과만을 사용자에게 빠른 시간 내에 제공할 수 있는 여론 분석 장치 및 문서 분석을 통한 여론 평가 방법을 제공하는데 있다.
본 발명의 또 다른 목적은 기업이나 개인의 사업 영역, 관심 영역 전반에 걸친 특정 사건이나 사회적 이슈, 개별 상품 그리고 영화, 음악, 도서 등과 같은 주제에 대한 대중적인 평가와 선호도 및 시간 축을 고려한 트랜드를 분석하여 사용자에게 제공할 수 있는 여론 분석 장치 및 문서 분석을 통한 여론 평가 방법을 제공하는데 있다.
상기 목적들을 달성하기 위하여 본 발명의 일 측면에 따르면, 주어진 주제에 대한 문서를 수집하는 문서 수집 모듈, 상기 문서 수집 모듈에서 수집한 문서들 중에서 분석대상 유효 문서를 추출하는 유효 문서 추출 모듈, 상기 유효 문서 추출 모듈에서 추출한 각 유효 문서에서 하나 이상의 감성 표현을 추출하고, 각 감성 표현의 감성벡터 값을 결정하는 내용 분석 모듈, 상기 내용 분석 모듈에서 결정한 각 감성표현의 감성벡터 값을 근거로 상기 주제에 대한 여론 평가 결과를 출력하는 여론 분석 모듈을 포함하는 여론 분석 장치가 제공된다.
상기 여론 분석 장치는 주제별 복수의 구성 용어, 각 구성 용어에 대한 복수의 감성 표현 및 각 감성 표현에 대한 감성벡터 값이 매핑되어 있는 감성 사전이 저장된 데이터베이스를 더 포함할 수 있다.
상기 문서 수집 모듈은, 사용자 요청 또는 지정된 스케줄에 따라 상기 주제에 대한 문서 수집 명령을 발생시키는 스케줄러, 상기 스케줄러의 문서 수집 명령에 의해 미리 등록된 사이트 또는 서버를 검색하여 상기 주제에 대한 문서 및 그 문서의 댓글 중 적어도 하나를 수집하는 문서 수집부를 포함한다.
상기 유효 문서 추출 모듈은, 상기 문서 수집 모듈에서 수집한 각 문서를 필터링하여 중복 또는 유사 문서를 제거하는 필터링부를 포함한다.
또한, 상기 유효 문서 추출 모듈은 상기 필터링부를 통과한 문서 중에서 상기 주제와 일정 비율 이상의 유사도를 갖는 문서를 유효 문서로 추출하는 유효 문서 추출부를 더 포함할 수 있다.
상기 유효 문서 추출부는 상기 필터링부를 통과한 문서를 형태소 분석하여 명사형의 용어를 추출하고, 상기 추출한 용어가 상기 주제의 구성 용어에 해당하는 비율이 일정 비율 이상인 문서의 경우 유효 문서로 추출한다.
상기 필터링부는, 상기 문서 수집 모듈에서 수집한 각 문서별로 고유한 문서 식별정보를 생성하고, 문서간의 문서 식별정보를 비교하여 중복 또는 유사 문서를 필터링하는 문서 식별정보 필터링부, 상기 문서 수집 모듈에서 수집한 각 문서에서 기 저장된 금칙어 사전을 근거로 금칙어를 추출하고, 상기 추출한 금칙어의 가중치를 합산한 값이 임계치를 초과하는 경우 그 문서를 필터링하는 금칙어 필터링부, 상기 문서 수집 모듈에서 수집한 각 문서에서 일정값 이상의 유사도를 갖는 인용문서를 필터링하는 유사도 필터링부 중 적어도 하나를 포함할 수 있다.
상기 내용 분석 모듈은 상기 유효 문서 추출 모듈에서 추출한 각 유효 문서를 문장 단위로 분리하는 문장 분리부, 상기 문장 분리부에서 분리된 문장 단위의 형태소 분석을 수행하는 형태소 분석부, 상기 형태소 분석부에서 분석된 형태소 중에서 기 저장된 감성 사전을 이용하여 하나 이상의 감성 표현을 추출하는 감성 표현 추출부, 상기 감성 표현 추출부에서 추출된 각 감성 표현의 감성벡터 값을 결정하는 감성벡터 값 결정부, 유효 문서별 각 감성 표현에 대해 상기 결정된 감성벡터 값이 표시된 감성 표현 리스트를 생성하는 감성 표현 리스트 생성부를 포함할 수 있다.
상기 감성벡터 값 결정부는, 상기 감성 사전을 조회하여 각 감성 표현에 대한 감성벡터 값을 추출하고, 각 감성 표현이 포함된 문장에서 감성 표현의 강도를 표시하는 형태소의 존재 여부를 체크하여, 존재하는 경우에 그 강도에 따라 상기 추출한 감성벡터 값을 조절하여 해당 감성 표현의 최종 감성벡터 값을 결정하고, 존재하지 않은 경우에 상기 추출한 감성벡터 값을 해당 감성 표현의 최종 감성벡터 값으로 결정한다.
상기 감성 표현 리스트는 감성 표현의 대상, 감성 표현, 감성벡터 값이 매핑된 형태일 수 있다.
상기 여론 분석 모듈은, 각 유효 문서의 감성표현에 대한 감성벡터 값을 종합하여 찬반 의견으로 분류함으로써 상기 주제에 대한 여론을 평가한다.
본 발명의 다른 측면에 따르면, (a)주어진 주제에 대한 문서를 수집하는 단계, (b)상기 수집한 문서들을 필터링하여 유효 문서를 추출하는 단계, (c)상기 추출한 각 유효 문서에서 하나 이상의 감성 표현을 추출하는 단계, (d)상기 추출한 각 감성 표현의 감성벡터 값을 결정하는 단계, (e)상기 각 감성 표현의 감성벡터 값을 근거로 상기 주제에 대한 여론 평가 결과를 출력하는 단계를 포함하는 문서 분석을 통한 여론 평가 방법이 제공된다.
상기(d) 단계는 상기 각 감성 표현에 대해 감성벡터 값이 표시된 감성 표현 리스트를 생성하는 단계를 포함하며, 상기 (e) 단계는 상기 감성 표현 리스트를 근거로 상기 주제에 대한 여론 평가 결과를 생성하는 단계를 포함한다.
상기 (a)단계는, 사용자의 요청 또는 일정 주기로 미리 등록된 사이트 또는 서버를 검색하여 상기 주제에 대한 문서 및 그 문서의 댓글 중 적어도 하나를 수집한다.
상기 (b)단계는, 상기 수집된 문서들에 대해 문서 식별정보 필터링, 금칙어 필터링, 유사도 필터링 중 적어도 하나의 필터링을 수행하는 단계를 포함한다.
또한, 상기 (b)단계는 상기 필터링을 통과한 문서를 제외한 나머지 문서를 형태소 분석하여 명사형의 용어를 추출하는 단계, 상기 추출된 용어들이 상기 주제의 구성 용어에 해당하는 비율이 일정 비율 이상인지를 판단하는 단계, 상기 판단결과 일정 비율 이상인 문서의 경우 유효 문서로 추출하는 단계를 포함할 수 있다.
상기 (c)단계는 상기 추출한 각 유효 문서를 문장 단위로 분리하여 형태소 분석을 수행하는 단계, 기 저장된 감성 사전을 이용하여 상기 분석된 형태소 중에서 감성 표현을 추출하는 단계를 포함할 수 있다.
상기 (d)단계는 상기 추출한 감성 표현의 대상을 확인하는 단계, 기 저장된 감성 사전을 검색하여 상기 확인한 대상을 구성 용어로 하며, 상기 구성 용어에 정의된 감성 표현 중에서 상기 추출한 감성 표현에 대한 감성 벡터 값을 추출하는 단계, 상기 추출한 감성 표현이 포함된 문장에서 감성 표현의 강도를 표시하는 형태소의 존재 여부에 따라 상기 추출한 감성 벡터 값을 조절하여 감성벡터 값을 결정하는 단계, 유효문서별 각 감성 표현에 대해 상기 결정된 감성벡터 값이 표시된 감성 표현 리스트를 생성하는 단계를 포함할 수 있다.
상기 감성벡터 값을 결정하는 것은, 해당 감성 표현의 강도를 표시하는 형태소가 존재하는 경우, 그 강도에 따라 상기 추출한 감성벡터 값을 조절하여 해당 감성표현의 최종 감성벡터 값을 결정하고, 존재하지 않은 경우 상기 추출한 감성벡터 값을 해당 감성 표현의 최종 감성벡터 값으로 결정하는 것을 말한다.
상기 (e)단계는 각 유효 문서의 감성표현에 대한 감성벡터 값을 종합하여 찬반 의견으로 분류함으로써 상기 주제에 대한 여론을 평가한다.
상술한 바와 같이 본 발명에 따르면, 인터넷상의 대량의 문서를 자동으로 수집하여 신속하게 그 결과를 분석할 수 있다.
또한, 인터넷상의 문서와 댓글을 수집하고, 특정 주제에 대한 찬/반 의견을 분석하여 그 결과만을 사용자에게 빠른 시간 내에 제공할 수 있다.
또한, 기업이나 개인의 사업 영역, 관심 영역 전반에 걸친 특정 사건이나 사회적 이슈, 개별 상품 그리고 영화, 음악, 도서 등과 같은 주제에 대한 대중적인 평가와 선호도 및 시간 축을 고려한 트랜드를 분석하여 사용자에게 제공할 수 있다.
또한, 사용자에게 사회 전반적인 의견을 정제하여 제공하는 시스템을 온라인 구전조사 (eWOM: electronic Word Of Mouth)에 활용하여 특정한 주제, 브랜드, 제품에 대한 지속적인 브랜드관리 및 마케팅에 활용할 수 있다.
또한, 서비스 및 상품 평가를 분석하여, 서비스 고도화 및 마케팅을 강화할 수 있고, 통신·방송·미디어·커머스 등의 전 사업영역에서 브랜드 및 서비스 상품에 대한 소비자동향을 분석하여, 서비스 및 제품을 고도화하는 정보로 활용할 수 있다.
또한, 기업 경영 환경에 영향을 끼칠 수 있는 이슈에 대한 입체적 정보수집 및 분석을 통해 사전 위기관리체계를 구축할 수 있고, 타 산업/분야의 학습을 통한 Beyond Telco 영역 진출의 Insight 확보할 수 있다.
이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다.
도 1은 본 발명에 따른 여론 분석 시스템을 나타낸 도면이다.
도 1을 참조하면, 여론 분석 시스템은 사용자의 요청 또는 일정 주기로 미리 등록된 사이트 또는 서버를 검색하여 주어진 주제에 대한 문서를 수집하고, 상기 수집한 문서들을 필터링하여 유효 문서를 추출한 후, 각 유효 문서에서 감성 표현을 추출하고, 그 감성 표현에 대한 감성 벡터 값을 결정하여 상기 주제에 대한 여론을 평가하고, 그 여론 평가 결과를 출력 또는 사용자 단말(200)에 제공하는 여론 분석 장치(100)를 포함한다.
상기 여론 분석 장치(100)는 유무선 컨텐츠, 멀티미디어, 맛집 리뷰, 블로그 등의 UCC 웹문서, 주제별 Vertical Portal 사이트의 특정 게시판 형태의 주제별 생활 지식 등의 웹문서가 등록된 웹 서버, Legacy DB 서버 등을 검색하여 주어진 주제에 대한 문서를 수집한다. 따라서, 상기 여론 분석 장치(100)에 의해 수집된 문서는 예를 들면, 언론사 뉴스 및 그 댓글, 블로그, 쇼핑몰의 상품평, 컨텐츠 리뷰 및 그 댓글, 게시판의 게시물 및 그 댓글 등일 수 있다.
상기와 같은 역할을 수행하는 여론 분석 장치(100)에 대한 상세한 설명은 도 2를 참조하기로 한다.
도 2는 본 발명에 따른 여론 분석 장치의 구성을 개략적으로 나타낸 블럭도, 도 3은 도 2에 도시된 문서 수집 모듈의 구성을 구체적으로 나타낸 블럭도, 도 4는 도 2에 도시된 유효 문서 추출 모듈의 구성을 구체적으로 나타낸 블럭도, 도 5는 도 2에 도시된 내용 분석 모듈의 구성을 구체적으로 나타낸 블럭도이다.
도 2를 참조하면, 여론 분석 장치(100)는 통신 모듈(110), 데이터베이스(120), 문서 수집 모듈(130), 유효 문서 추출 모듈(140), 내용 분석 모듈(150), 여론 분석 모듈(160)을 포함한다.
상기 데이터베이스(120)는 여론 분석을 위한 주제, 주제별 문서 수집을 위한 사이트 및 DB 서버 정보가 저장된 수집 정보 데이터베이스(121), 금칙어 정보가 저장된 금칙어 정보 데이터베이스(122), 형태소 정보가 저장된 형태소 사전 데이터베이스(123), 주제별 각 구성 용어에 대한 감성표현과 감성벡터 값이 매핑되어 저장된 감성 사전 데이터베이스(124)를 포함한다.
상기 금칙어 정보 데이터베이스(122)에는 금칙어별로 가중치가 매핑되어 있고, 금칙어는 욕설, 음란어, 비속어 등을 말한다.
상기 감성 사전 데이터베이스(124)에는 주제별로 복수의 구성 용어가 정의되어 있고, 각 구성 용어는 복수의 감성 표현, 그 감성표현에 대한 감성 벡터 값이 정의되어 있다.
감성 표현이란, 이성(理性)에 대응되는 개념으로, 외계의 대상을 오관(五官)으로 감각하고 지각하여 표상을 형성하는 인간의 인식에 대한 표현을 의미한다. 상기 감성 표현은 시간과 공간에 따라 변화 가능한 것으로서, 예를 들면 "좋다"라는 표현은 시간과 공간에 따라 거의 변화가 없이 어떤 대상에 대하여 긍정적인 반응을 나타내는 감성표현으로 인정 가능하나, 인터넷의 발달과 세대별 언어습관의 변화로 "짱이다", "쉬크하다" 등도 현재에 맞는 긍정적인 감성표현으로 인정 가능한 것을 들 수 있다.
감성 벡터 값은 상기 감성표현에 대해 긍정의 정도 또는 부정의 정도를 나타내는 값을 말한다.
상기 주제별 구성 용어는 그 주제에 대하여 필수적 또는 대표적인 용어를 말한다.
예를 들어, 주제가 영화인 경우, 구성 용어는 '감독', '스토리', '완성도', '작품성', '연기', '흥행', '스케일', '영상미' 등을 말한다.
또한, 주제가 '영화'이고, 영화에 대한 복수의 구성 용어 중에서 '스토리'에 대한 감성 표현으로는 '내용 없다, 내용 있다, 스토리 가볍다, 스토리 감동적, 스토리 거의 없다. 스토리 공감가다' 등이 있고, 각 감성 표현에는 감성 벡터 값이 정의되어 있다.
상기 감성벡터 값은 긍정 또는 부정의 값으로 표현하며 대상물에 대한 긍정적인 평가나 부정적인 평가를 나타낸다. 예를 들면, 대상에 대한 긍정적인 감성표현인 "좋다"와 "최고이다"는 각각 긍정의 정도에서 분류 가능하며, 후자인 "최고이다"가 더 높은 긍정도를 갖는다고 정의 가능하다. 따라서, "최고이다"는 감성벡터가 2의 값을 갖고, "좋다"는 감성벡터가 1의 값을 갖도록 할당 가능하다. 즉, 상기 감성 벡터 값은 '매우 긍정적 : 2, 긍정적 :1, 중립:0, 부정적:-1, 매우 부정적 :-2' 등으로 5개 값 중 하나의 값으로 할당되어 있다.
상기 문서 수집 모듈(130)은 사용자의 요청 또는 일정 주기로 주어진 주제에 대한 문서를 수집하는 역할을 수행한다. 즉, 상기 문서 수집 모듈(130)은 검색엔진에 주어진 주제와 관련된 주제어를 입력하여 검색된 상위 N개의 결과를 수집하는 방식으로 주어진 주제에 대한 문서를 수집한다.
상기 문서 수집 모듈(130)은 도 3과 같이 스케줄러(132), 문서 수집부(133)를 포함한다.
상기 스케줄러(132)는 사용자 또는 지정된 스케줄에 따라 문서 수집 명령을 발생시키고 감독한다.
상기 문서 수집부(133)는 상기 스케줄러(132)에 의한 문서 수집 명령에 의해 해당 주제에 대한 문서 및 그 문서에 대한 댓글 등을 수집한다.
상기 유효 문서 추출 모듈(140)은 상기 문서 수집 모듈(130)에서 수집한 문서들을 필터링하여 상기 주제에 적합한 유효 문서를 추출한다.
상기 유효 문서 추출 모듈(140)은 도 4와 같이 필터링부(142), 유효 문서 추출부(143)를 포함한다.
상기 필터링부(142)는 상기 문서 수집 모듈(130)에서 수집한 각 문서를 필터링하여 중복 문서, 유사 문서, 금칙어가 포함된 문서 등을 제거한다. 이때, 필터링 된 문서 중에서 댓글이 포함된 문서의 경우, 그 댓글은 분석 대상 유효 문서에 포함시키며 별개의 문서로 취급하게 된다.
상기 필터링부(142)는 문서 식별정보 필터링부(142a), 금칙어 필터링부(142b), 유사도 필터링부(142c)를 포함한다.
상기 문서 식별정보 필터링부(142a)는 상기 수집된 문서별로 고유한 문서 식별정보를 생성하고, 문서간의 문서 식별정보를 비교하여 중복 또는 유사 문서를 필터링한다. 여기서, 상기 문서 식별 정보는 디지털 서명(Signature), 핑거 프린팅(Fingerprinting), 해시코드(Hash) 등을 말한다.
즉, 상기 문서 식별정보 필터링부(142a)는 수집된 문서를 1000바이트 단위로 균등분할하고, 문서의 시작부터 2의 자승을 적용하여 전체 128개의 문자셋을 추출한다. 여기서 추출된 문자셋이 문서 식별정보일 수 있다.
그런 다음 상기 문서 식별정보 필터링부(142a)는 문서간의 문서 식별정보를 해쉬 테이블을 이용한 실시간 비교 또는 DB 테이블을 이용한 전체 비교를 통해 중복되거나 유사한 문서를 필터링하게 된다.
상기 금칙어 필터링부(142b)는 상기 금칙어 정보 데이터베이스(122)에 저장된 금칙어 사전을 근거로 상기 수집된 문서에서 금칙어를 추출하고, 상기 추출한 금칙어의 가중치를 합산한 값이 임계치를 초과하는 경우 그 문서를 필터링 한다. 여기서, 상기 금칙어는 욕설, 음란어, 비속어 등을 말한다.
즉, 상기 금칙어 사전에는 금칙어별로 가중치가 매핑되어 있다. 따라서, 상기 금칙어 필터링부(142b)는 금칙어 사전을 근거로 상기 수집된 문서에서 금칙어를 추출하고, 상기 추출된 금칙어와 매핑된 가중치를 추출한다. 그런 다음 상기 금칙어 필터링부(142b)는 각 문서별로 추출된 모든 금칙어에 대한 가중치를 합하여 그 값이 미리 정해진 임계치를 초과하는 경우 그 문서를 필터링하게 된다.
상기 유사도 필터링부(142c)는 상기 수집된 문서에서 일정값 이상의 유사도를 갖는 인용문서를 필터링한다. 이때, 상기 유사도 필터링부(142c)는 검색엔진에서 제공하는 유사 문서 검색을 적용하여 인용문서를 필터링하게 된다.
유사문서란, 조사같은 의미상 불필요한 음절을 뺀 '의미형태소'의 비율 또는 해당 문서들에 포함된 시각적 정보가 비슷한 문서를 의미하고, 유사도란 복수 문서의 '의미형태소'의 비율 또는 시각적 정보 등이 비슷한 유사 정도를 말한다.
상기 유사도의 측정 방법은 종래 기술로서 다양하게 구현이 가능하고, 상기 유사문서 여부는 종래의 검색엔진에서 특정 키워드를 검색시 검색결과로 제시되는 문서가 유사할 경우 별도의 검색결과로 제공하지 않고, '유사한 결과'로 보여주거나 유사문서를 검색해주는 소프트웨어 등의 기술로 구현 가능하다.
상기 문서의 유사도 측정 및 유사문서 판단 기술은 이미 당업자에게 널리 알려진 기술로서 이에 대한 상세한 설명은 생략한다.
예를 들어, 상기 유사도 필터링부(142c)는 95% 이상의 유사도를 갖는 문서를 대상문서에서 제외하고, 펌글과 같은 인용문서를 제거하게 된다. 이때, 유사도 필터링부(142c)에 의해 필터 아웃된 문서의 댓글은 분석대상에 포함시킨다.
상기 유효 문서 추출부(143)는 상기 필터링부(142)를 통과한 문서 중에서 상기 주제에 적합한 유효 문서를 추출한다.
즉, 상기 유효 문서 추출부(143)는 상기 필터링부(142)를 통과한 문서를 형태소 분석하여 명사형의 용어를 추출하고, 상기 추출한 용어가 상기 주제의 구성 용어에 해당하는 비율이 일정 비율 이상인 문서의 경우 유효 문서로 판단한다.
상기 내용 분석 모듈(150)은 상기 유효 문서 추출 모듈(140)에서 추출한 각 유효 문서에서 하나 이상의 감성 표현을 추출하고, 각 감성 표현의 감성벡터 값을 결정한다.
상기 내용 분석 모듈(150)은 도 5와 같이 문장 분리부(151), 형태소 분석부(152), 감성 표현 추출부(153), 감성벡터 값 결정부(154), 감성 표현 리스트 생성부(155)를 포함한다.
상기 문장 분리부(151)는 상기 문서 분석 모듈(140)에서 추출한 각 유효 문서를 문장 단위로 분리한다.
상기 형태소 분석부(152)는 상기 문장 분리부(151)에서 분리된 문장 단위의 형태소 분석을 수행한다. 형태소를 분석하는 방법은 공지된 기술이므로 그 설명은 생략하기로 한다.
상기 감성 표현 추출부(153)는 상기 형태소 분석부(152)에서 분석된 형태소 중에서 상기 감성 사전 데이터베이스(124)에 저장된 감성 사전을 이용하여 감성 표현을 추출한다.
즉, 상기 감성 표현 추출부(153)는 상기 형태소 분석 결과와 상기 감성 사전을 비교하여 감성 표현들을 추출하고, 상기 추출한 감성 표현 중에서 해당 주제에 해당하는 감성 표현들만을 최종으로 추출한다.
상기 감성벡터 값 결정부(154)는 상기 감성 표현 추출부(153)에서 추출된 각 감성 표현의 감성벡터 값을 결정한다.
상기 감성벡터 값 결정부(154)는 상기 감성 사전 데이터베이스(124)를 조회하여 각 감성 표현에 대한 감성벡터 값을 추출하고, 각 감성 표현이 포함된 문장에서 감성 표현의 강도를 표시하는 형태소가 존재하는지의 여부를 판단한다. 여기서, 상기 감성 표현의 강도를 표시하는 형태소는 예를 들면, 해당 감성표현의 강도를 표시하는 부사어구가 존재하거나 감성표현을 뒤집는 부정형 보조 용언이 존재하는 경우를 말한다.
상기 판단결과 감성 표현의 강도를 표시하는 형태소가 존재하면, 상기 감성 벡터 값 결정부(154)는 그 강도에 따라 상기 추출한 감성벡터 값을 조절하여 해당 감성 표현의 최종 감성벡터 값을 결정하고, 존재하지 않으면 상기 추출한 감성벡터 값을 해당 감성 표현의 최종 감성벡터 값으로 결정한다.
예를 들어, 특정 감성표현의 감성벡터 필드 값이 '1' 또는 '-1'를 가지는 경우, 그 문장에 '강' 강조어가 존재하면, 감성벡터 값 결정부(154)는 그 감성표현의 감성벡터 값을 '2' 또는 '-2'로 결정하게 된다.
상기 감성 표현 리스트 생성부(155)는 각 감성 표현에 대해 상기 감성벡터 값 결정부(154)에서 결정된 감성벡터 값이 표시된 감성 표현 리스트를 생성한다. 상기 감성 표현 리스트는 감성 표현의 대상, 감성 표현, 감성벡터 값이 매핑된 형태일 수 있다.
상기 여론 분석 모듈(160)은 상기 내용 분석 모듈(150)에서 결정한 각 감성표현의 감성벡터 값을 근거로 상기 주제에 대한 여론 평가 결과를 출력한다.
즉, 상기 여론 분석 모듈(160)은 각 유효 문서의 감성표현에 대한 감성벡터 값을 종합하여 찬반 의견으로 분류함으로써 상기 주제에 대한 여론 평가 결과를 생성하고, 상기 여론 평가 결과를 화면, 프린터 등의 출력부(미도시)를 통해 출력하게 된다.
예를 들면, 상기 여론 분석 모듈(160)은 각 유효 문서의 감성벡터 값을 연산하여 종합 평점을 구하고, 상기 종합 평점을 근거로 상기 주제에 대해 '매우 긍정', '긍정', '중립', '부정', '매우 부정' 5단계 찬반 의견으로 분류한다. 상기 분류된 찬반의견이 주어진 주제에 대한 여론 평가 결과일 수 있다.
도 6은 본 발명에 따른 여론 분석 장치가 여론을 평가하는 방법을 나타낸 흐름도이다.
도 6을 참조하면, 여론 분석 장치 사용자의 요청 또는 일정 주기로 주어진 주제에 대한 후보문서를 수집하고(S600), 상기 수집한 후보 문서들을 필터링한다(S602). 즉, 상기 여론 분석 장치는 상기 수집된 후보 문서별로 문서 식별정보를 생성하고, 문서간의 문서 식별정보를 비교하여 중복 또는 유사 문서를 필터링한다.
또한, 상기 여론 분석 장치는 기 저장된 금칙어 사전을 근거로 상기 수집된 후보문서에서 금칙어를 추출하고, 상기 추출한 금칙어의 가중치를 합산한 값이 임계치를 초과하는 경우 그 문서를 필터링한다.
또한, 상기 여론 분석 장치는 상기 수집된 후보문서에서 일정값 이상의 유사도를 갖는 인용문서를 필터링하되, 필터링된 문서의 댓글은 분석 대상에 포함시킨다.
상기 S602의 수행 후, 상기 여론 분석 장치는 상기 필터링을 통과한 문서를 대상으로 상기 주제에 적합한 유효 문서를 추출한다(S604). 상기 여론 분석 장치가 유효 문서를 추출하는 방법에 대한 상세한 설명은 도 7을 참조하기로 한다.
상기 S604의 수행 후, 상기 여론 분석 장치는 상기 추출한 각 유효 문서에서 감성 표현을 추출한다(S606). 상기 여론 분석 장치가 감성 표현을 추출하는 방법에 대한 상세한 설명은 도 8을 참조하기로 한다.
상기 S608의 수행 후, 상기 여론 분석 장치는 상기 추출한 각 감성 표현의 감성벡터 값을 결정하고(S610), 각 감성 표현의 대상 및 감성벡터 값이 표시된 감성 표현 리스트를 생성한다(S612).
즉, 감성 사전에는 주제별로 복수의 구성 용어가 정의되어 있고, 각 구성 용어는 복수의 감성 표현 및 각 감성 표현에 대한 감성벡터 값이 정의되어 있다.
따라서, 상기 여론 분석 장치는 해당 문장에서 감성 표현의 대상을 확인하고, 상기 감성 사전을 검색하여 상기 확인한 대상을 구성 용어로 하며, 상기 구성 용어에 정의된 감성 표현 중에서 상기 추출된 감성 표현에 대한 감성 벡터 값을 추출한다. 그런 다음 상기 여론 분석 장치는 각 감성 표현을 포함하는 문장에서 감성표현의 강도를 표시하는 형태소가 존재하는지의 여부를 체크하여, 존재하는 경우 그 강도에 따라 상기 추출한 감성벡터 값을 조절하여 해당 감성 표현의 최종 감성벡터 값을 결정하고, 존재하지 않은 경우 상기 추출한 감성벡터 값을 해당 감성 표현의 최종 감성벡터 값으로 결정한다.
그런 다음 상기 여론 분석 장치는 상기 결정된 감성 벡터 값이 표시된 감성 표현 리스트를 생성하게 된다.
상기 S612의 수행 후, 상기 여론 분석 장치는 상기 생성한 유효문서별 감성 표현 리스트를 근거로 상기 주제에 대한 여론 평가 결과를 생성한다(S614). 즉, 상기 여론 분석 장치는 각 유효 문서의 감성 표현 리스트에 표시된 모든 감성벡터 값을 종합하여 찬반의견으로 분류함으로써 상기 주제에 대한 여론 평가 결과를 생성하게 된다.
상기 여론 분석 장치가 주어진 주제에 대한 여론 평가 결과를 생성하는 방법 에 대하여 도 9를 예로 들어 설명하기로 한다.
먼저, (a)와 같은 상품평이 유효 문서로 선정되면, 상기 여론 분석 장치는 형태소 분석을 통해 감성표현, 그 감성표현의 대상을 추출한다. 여기에서 감성 표현은 '늦었지만', '참 예쁘고 맘에 들어요', '정말 이쁘네요', '익히는데 조금 힘드네요'일 수 있고, 그 대상은 배송, 상품, 색깔, 기능 순일 수 있다.
상기 여론 분석 장치는 각 감성표현에 대한 감성 벡터 값을 결정하여 (b)와 같은 감성 표현 리스트를 생성한다. 상기 감성 표현 리스트는 '배송, 늦었지만, -2'의 형태와 같이 각 감성표현별로 '대상, 감성 표현, 감성 벡터 값'이 표시된다.
그런 다음 상기 여론 분석 장치는 상기 감성 표현 리스트에 표시된 감성벡터 값을 종합하여 종합 평점(예를 들면, +4임)을 구한다.
상기와 같이 종합 평점이 구해지면, 상기 여론 분석 장치는 상기 종합 평점을 이용하여 주어진 주제에 대해 '매우 긍정', '긍정', '중립', '부정', '매우 부정' 5단계 찬반 의견으로 분류함으로써, 상기 주제에 대한 여론을 평가하게 된다. 여기서는 하나의 유효 문서를 대상으로 하여 설명하였지만, 여론 분석 장치는 해당 주제에 대한 모든 유효 문서를 대상으로 상기 과정을 수행하여 여론 평가 결과를 생성하게 된다.
상기 S614의 수행 후, 상기 여론 분석 장치는 상기 생성한 여론 평가 결과를 출력하게 된다(S616). 이때, 상기 여론 평가 결과는 화면, 프린터 등과 같은 출력 장치를 통해 출력될 수 있다.
도 7은 본 발명에 따른 여론 분석 장치가 유효 문서를 추출하는 방법을 나타 낸 흐름도이다.
도 7을 참조하면, 여론 분석 장치는 상기 필터링을 통과한 문서를 형태소 분석하여 명사형의 용어를 추출한다(S700).
그런 다음 상기 여론 분석 장치는 상기 추출한 용어 중에서 해당 주제의 구성 용어에 해당하는 용어를 재추출한다(S702). 즉 각 주제에는 그 주제를 대표하는 구성용어가 미리 정의되어 있다. 예를 들어, 주제가 '영화'인 경우 구성 용어에는 '감동, 스토리, 완성도, 작품성, 연기, 흥행, 스케일, 영상미' 등이 정의된다.
상기 S702의 수행 후, 상기 여론 분석 장치는 상기 재추출된 용어가 미리 정해진 일정 비율 이상인지를 판단한다(S704). 즉, 상기 여론 분석 장치는 해당 문서에서 해당 주제의 구성 용어에 해당하는 용어가 일정 비율 이상을 차지하는지의 여부를 이용하여 그 문서의 유효 문서 여부를 판단하게 된다.
상기 S704의 판단결과 일정 비율 이상이면, 상기 여론 분석 장치는 해당 문서를 유효 문서라고 판단한다(S706).
만약, 상기 S704의 판단결과 일정 비율 이상이 아니면, 상기 여론 분석 장치는 해당 문서를 필터링한다(S708).
도 8은 본 발명에 따른 여론 분석 장치가 감성 표현을 추출하는 방법을 나타낸 흐름도이다.
도 8을 참조하면, 여론 분석 장치는 각 유효 문서를 문장 단위로 분리하여(S800) 형태소 분석을 수행한다(S802). 여기서, 형태소를 분석한다는 것은 문장에서 형태소(단어)를 추출하고, 그 추출된 형태소의 품사 식별, 주어 및 술어 부 식별 등을 수행하는 것을 말한다. 예를 들어, '나 지금 일어났어'의 경우, '나', '지금', '일어나다'의 형태소가 추출된다.
상기 S802의 수행 후, 상기 여론 분석 장치는 기 저장된 감성 사전을 이용하여 상기 분석된 형태소 중에서 감성 표현을 추출한다(S804). 즉, 상기 여론 분석 장치는 상기 형태소 분석 결과와 기 저장된 감성 사전을 비교하여 감성 표현들을 추출하고, 상기 추출한 감성 표현 중에서 해당 주제에 해당하는 감성 표현들만을 최종으로 추출한다.
상기 도 6 내지 도 8에 기재된 방법은 컴퓨터 프로그램으로 구현되고 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있으며, 이러한 기록매체의 예로는 RAM 등의 휘발성 메모리, Flash, ROM, 자기 디스크, 광 저장장치 등의 비휘발성 메모리가 있으며, 컴퓨터 프로그램의 적어도 일부가 복수의 컴퓨터 또는 저장 장치에 분산 저장되어 분산 처리될 수도 있다.
이와 같이, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
이상과 같이 본 발명에 여론 분석 장치 및 문서 분석을 통한 여론 평가 방법은 인터넷상의 문서와 댓글을 수집하고, 특정 주제에 대한 찬/반 의견을 분석하여 그 결과만을 사용자에게 빠른 시간 내에 제공하도록 하는 기술에 이용할 수 있다.
도 1은 본 발명에 따른 여론 분석 시스템을 나타낸 도면이다.
도 2는 본 발명에 따른 여론 분석 장치의 구성을 개략적으로 나타낸 블럭도, 도 3은 도 2에 도시된 문서 수집 모듈의 구성을 구체적으로 나타낸 블럭도, 도 4는 도 2에 도시된 문서 분석 모듈의 구성을 구체적으로 나타낸 블럭도, 도 5는 도 2에 도시된 내용 분석 모듈의 구성을 구체적으로 나타낸 블럭도이다.
도 6은 본 발명에 따른 여론 분석 장치가 여론을 평가하는 방법을 나타낸 흐름도이다.
도 7은 본 발명에 따른 여론 분석 장치가 유효 문서를 추출하는 방법을 나타낸 흐름도이다.
도 8은 본 발명에 따른 여론 분석 장치가 감성 표현을 추출하는 방법을 나타낸 흐름도이다.
도 9는 본 발명에 따른 여론 평가 결과 생성을 위한 방법을 설명하기 위한 예시도.
<도면의 주요 부분에 대한 부호의 설명>
100 : 여론 분석 장치 110 : 통신 모듈
120 : 데이터베이스 130 : 문서 수집 모듈
132 : 스케줄러 133 : 문서 수집부
140 : 유효 문서 추출 모듈 142 : 필터링부
143 : 유효 문서 추출부 150 : 내용 분석 모듈
151 : 문장 분리부 152 : 형태소 분석부
153 : 감성 표현 추출부 154 : 감성벡터 값 결정부
155 : 감성 표현 리스트 생성부 160 : 여론 분석 모듈

Claims (21)

  1. 주어진 주제에 대한 문서를 수집하는 문서 수집 모듈;
    상기 문서 수집 모듈에서 수집한 문서들 중에서 분석대상 유효 문서를 추출하는 유효 문서 추출 모듈;
    상기 유효 문서 추출 모듈에서 추출한 각 유효 문서에서 하나 이상의 감성 표현을 추출하고, 각 감성 표현의 감성벡터 값을 결정하는 내용 분석 모듈;및
    상기 내용 분석 모듈에서 결정한 각 감성표현의 감성벡터 값을 근거로 상기 주제에 대한 여론 평가 결과를 출력하는 여론 분석 모듈;
    을 포함하고,
    상기 내용 분석 모듈은 각 감성 표현이 포함된 문장에서 감성 표현의 강도를 표시하는 형태소의 존재 여부를 체크하여, 존재하는 경우에 그 강도에 따라 상기 추출한 감성벡터 값을 조절하여 해당 감성 표현의 최종 감성벡터 값을 결정하고, 존재하지 않은 경우에 상기 추출한 감성벡터 값을 해당 감성 표현의 최종 감성벡터 값으로 결정하는 것을 특징으로 하는 여론 분석 장치.
  2. 제1항에 있어서,
    주제별 복수의 구성 용어, 각 구성 용어에 대한 복수의 감성 표현 및 각 감성 표현에 대한 감성벡터 값이 매핑되어 있는 감성 사전이 저장된 데이터베이스를 더 포함하는 것을 특징으로 하는 여론 분석 장치.
  3. 제1항에 있어서,
    상기 문서 수집 모듈은,
    사용자 요청 또는 지정된 스케줄에 따라 상기 주제에 대한 문서 수집 명령을 발생시키는 스케줄러;및
    상기 스케줄러의 문서 수집 명령에 의해 미리 등록된 사이트 또는 서버를 검색하여 상기 주제에 대한 문서 및 그 문서의 댓글 중 적어도 하나를 수집하는 문서 수집부;를 포함하는 여론 분석 장치.
  4. 제1항에 있어서,
    상기 유효 문서 추출 모듈은,
    상기 문서 수집 모듈에서 수집한 각 문서를 필터링하여 중복 또는 유사 문서를 제거하는 필터링부;를 포함하는 여론 분석 장치.
  5. 제4항에 있어서,
    상기 유효 문서 추출 모듈은,
    상기 필터링부를 통과한 문서 중에서 상기 주제와 일정 비율 이상의 유사도를 갖는 문서를 유효 문서로 추출하는 유효 문서 추출부;를 더 포함하는 여론 분석 장치.
  6. 제5항에 있어서,
    상기 유효 문서 추출부는 상기 필터링부를 통과한 문서를 형태소 분석하여 명사형의 용어를 추출하고, 상기 추출한 용어가 상기 주제의 구성 용어에 해당하는 비율이 일정 비율 이상인 문서의 경우 유효 문서로 추출하는 것을 특징으로 하는 여론 분석 장치.
  7. 제4항 또는 제5항에 있어서,
    상기 필터링부는,
    상기 문서 수집 모듈에서 수집한 각 문서별로 고유한 문서 식별정보를 생성하고, 문서간의 문서 식별정보를 비교하여 중복 또는 유사 문서를 필터링하는 문서 식별정보 필터링부;
    상기 문서 수집 모듈에서 수집한 각 문서에서 기 저장된 금칙어 사전을 근거로 금칙어를 추출하고, 상기 추출한 금칙어의 가중치를 합산한 값이 임계치를 초과하는 경우 그 문서를 필터링하는 금칙어 필터링부;
    상기 문서 수집 모듈에서 수집한 각 문서에서 일정값 이상의 유사도를 갖는 인용문서를 필터링하는 유사도 필터링부;
    중 적어도 하나를 포함하는 것을 특징으로 하는 여론 분석 장치.
  8. 제1항에 있어서,
    상기 내용 분석 모듈은,
    상기 유효 문서 추출 모듈에서 추출한 각 유효 문서를 문장 단위로 분리하는 문장 분리부;
    상기 문장 분리부에서 분리된 문장 단위의 형태소 분석을 수행하는 형태소 분석부;
    상기 형태소 분석부에서 분석된 형태소 중에서 기 저장된 감성 사전을 이용 하여 하나 이상의 감성 표현을 추출하는 감성 표현 추출부;
    상기 감성 표현 추출부에서 추출된 각 감성 표현의 감성벡터 값을 결정하는 감성벡터 값 결정부;및
    유효 문서별 각 감성 표현에 대해 상기 결정된 감성벡터 값이 표시된 감성 표현 리스트를 생성하는 감성 표현 리스트 생성부;를 포함하는 여론 분석 장치.
  9. 삭제
  10. 제8항에 있어서,
    상기 감성 표현 리스트는 감성 표현의 대상, 감성 표현, 감성벡터 값이 매핑된 형태인 것을 특징으로 하는 여론 분석 장치.
  11. 제1항에 있어서,
    상기 여론 분석 모듈은, 각 유효 문서의 감성표현에 대한 감성벡터 값을 종 합하여 찬반 의견으로 분류함으로써 상기 주제에 대한 여론을 평가하는 여론 분석 장치.
  12. 문서 분석을 통해 여론을 분석하는 장치의 여론 평가 방법에 있어서,
    (a)주어진 주제에 대한 문서를 수집하는 단계;
    (b)상기 수집한 문서들을 필터링하여 유효 문서를 추출하는 단계;
    (c)상기 추출한 각 유효 문서에서 하나 이상의 감성 표현을 추출하는 단계;
    (d)상기 추출한 각 감성 표현의 감성벡터 값을 결정하는 단계;및
    (e)상기 각 감성 표현의 감성벡터 값을 근거로 상기 주제에 대한 여론 평가 결과를 출력하는 단계;
    를 포함하고,
    상기 (d)단계는 각 감성 표현이 포함된 문장에서 감성 표현의 강도를 표시하는 형태소의 존재 여부를 체크하여, 존재하는 경우에 그 강도에 따라 상기 추출한 감성벡터 값을 조절하여 해당 감성 표현의 최종 감성벡터 값을 결정하고, 존재하지 않은 경우에 상기 추출한 감성벡터 값을 해당 감성 표현의 최종 감성벡터 값으로 결정하는 것을 특징으로 하는 문서 분석을 통한 여론 평가 방법.
  13. 제12항에 있어서,
    상기(d) 단계는 상기 각 감성 표현에 대해 감성벡터 값이 표시된 감성 표현 리스트를 생성하는 단계를 포함하며,
    상기 (e) 단계는 상기 감성 표현 리스트를 근거로 상기 주제에 대한 여론 평가 결과를 생성하는 단계를 포함하는 문서 분석을 통한 여론 평가 방법.
  14. 제12항에 있어서,
    상기 (a)단계는,
    사용자의 요청 또는 일정 주기로 미리 등록된 사이트 또는 서버를 검색하여 상기 주제에 대한 문서 및 그 문서의 댓글 중 적어도 하나를 수집하는 것을 특징으로 하는 문서 분석을 통한 여론 평가 방법.
  15. 제12항에 있어서,
    상기 (b)단계는,
    상기 수집된 문서들에 대해 문서 식별정보 필터링, 금칙어 필터링, 유사도 필터링 중 적어도 하나의 필터링을 수행하는 단계;를 포함하는 문서 분석을 통한 여론 평가 방법.
  16. 제15항에 있어서,
    상기 (b)단계는,
    상기 필터링을 통과한 문서를 제외한 나머지 문서를 형태소 분석하여 명사형의 용어를 추출하는 단계;
    상기 추출된 용어들이 상기 주제의 구성 용어에 해당하는 비율이 일정 비율 이상인지를 판단하는 단계; 및
    상기 판단결과 일정 비율 이상인 문서의 경우 유효 문서로 추출하는 단계;를 포함하는 문서 분석을 통한 여론 평가 방법.
  17. 제12항에 있어서,
    상기 (c)단계는,
    상기 추출한 각 유효 문서를 문장 단위로 분리하여 형태소 분석을 수행하는 단계;및
    기 저장된 감성 사전을 이용하여 상기 분석된 형태소 중에서 감성 표현을 추출하는 단계;를 포함하는 문서 분석을 통한 여론 평가 방법.
  18. 제12항에 있어서,
    상기 (d)단계는,
    상기 추출한 감성 표현의 대상을 확인하는 단계;
    기 저장된 감성 사전을 검색하여 상기 확인한 대상을 구성 용어로 하며, 상기 구성 용어에 정의된 감성 표현 중에서 상기 추출한 감성 표현에 대한 감성 벡터 값을 추출하는 단계;
    상기 추출한 감성 표현이 포함된 문장에서 감성 표현의 강도를 표시하는 형태소의 존재 여부에 따라 상기 추출한 감성 벡터 값을 조절하여 감성벡터 값을 결정하는 단계;및
    유효문서별 각 감성 표현에 대해 상기 결정된 감성벡터 값이 표시된 감성 표현 리스트를 생성하는 단계;를 포함하는 문서 분석을 통한 여론 평가 방법.
  19. 삭제
  20. 제12항에 있어서,
    상기 (e)단계는,
    각 유효 문서의 감성표현에 대한 감성벡터 값을 종합하여 찬반 의견으로 분류함으로써 상기 주제에 대한 여론을 평가하는 것을 특징으로 하는 문서 분석을 통한 여론 평가 방법.
  21. 제12항 내지 18항 및 제20항 중 어느 한 항의 문서 분석을 통한 여론 평가 방법을 프로그램으로 기록한 기록매체.
KR1020090016968A 2009-02-27 2009-02-27 여론 분석 장치 및 문서 분석을 통한 여론 평가 방법 KR101074215B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090016968A KR101074215B1 (ko) 2009-02-27 2009-02-27 여론 분석 장치 및 문서 분석을 통한 여론 평가 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090016968A KR101074215B1 (ko) 2009-02-27 2009-02-27 여론 분석 장치 및 문서 분석을 통한 여론 평가 방법

Publications (2)

Publication Number Publication Date
KR20100098014A KR20100098014A (ko) 2010-09-06
KR101074215B1 true KR101074215B1 (ko) 2011-10-14

Family

ID=43005042

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090016968A KR101074215B1 (ko) 2009-02-27 2009-02-27 여론 분석 장치 및 문서 분석을 통한 여론 평가 방법

Country Status (1)

Country Link
KR (1) KR101074215B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180117944A (ko) * 2017-04-20 2018-10-30 군산대학교산학협력단 객체 평판 마이닝 방법 및 장치
KR102020756B1 (ko) 2018-10-23 2019-11-04 주식회사 리나소프트 머신러닝을 이용한 리뷰 분석 방법

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101322650B1 (ko) * 2012-02-06 2013-10-28 주식회사 비엔알아이 분석 대상의 속성 분석 시스템 및 방법 그리고, 방법에 대한 컴퓨터프로그램을 저장한 기록 매체
WO2015105270A1 (ko) * 2014-01-10 2015-07-16 에스케이플래닛 주식회사 사용자 장치, 그 제어 방법 및 그를 포함하는 감성 평가 시스템
KR102170535B1 (ko) * 2014-01-13 2020-10-27 에스케이플래닛 주식회사 감성 분석을 통한 사용자 선호 기반의 검색 장치 및 방법
KR101663681B1 (ko) * 2015-06-11 2016-10-14 주식회사 인포리언스 데이터 활용성 및 품질 평가장치, 기록매체 및 컴퓨터 프로그램
KR102146152B1 (ko) * 2018-01-03 2020-08-28 세종대학교산학협력단 관능 평가 방법 및 그 장치
CN109800302A (zh) * 2018-12-14 2019-05-24 深圳壹账通智能科技有限公司 基于循环神经网络算法的舆情预警方法、装置、终端及介质
CN109783815B (zh) * 2018-12-28 2020-10-23 华南理工大学 一种多维度网络舆情大数据对比分析方法
CN110175733B (zh) * 2019-04-01 2023-07-11 创新先进技术有限公司 一种舆论信息处理方法和服务器
CN113220823B (zh) * 2020-01-21 2024-03-01 北京中科闻歌科技股份有限公司 一种面向社交媒体公共言论的情感、话题及观点分析方法和装置
KR102545924B1 (ko) 2020-11-25 2023-06-20 한국수력원자력 주식회사 설문응답의 분석 방법
KR102502841B1 (ko) * 2020-12-31 2023-02-24 이영애 인터넷 미디어의 댓글 분석을 통한 긍정/부정 선호도 평가 시스템 및 그 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007219929A (ja) 2006-02-17 2007-08-30 Nec Corp 感性評価システム及び方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007219929A (ja) 2006-02-17 2007-08-30 Nec Corp 感性評価システム及び方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180117944A (ko) * 2017-04-20 2018-10-30 군산대학교산학협력단 객체 평판 마이닝 방법 및 장치
KR101961012B1 (ko) * 2017-04-20 2019-03-21 군산대학교산학협력단 객체 평판 마이닝 방법 및 장치
KR102020756B1 (ko) 2018-10-23 2019-11-04 주식회사 리나소프트 머신러닝을 이용한 리뷰 분석 방법

Also Published As

Publication number Publication date
KR20100098014A (ko) 2010-09-06

Similar Documents

Publication Publication Date Title
KR101074215B1 (ko) 여론 분석 장치 및 문서 분석을 통한 여론 평가 방법
US11048882B2 (en) Automatic semantic rating and abstraction of literature
Kang et al. Identifying depressive users in Twitter using multimodal analysis
Yamamoto et al. Role of emoticons for multidimensional sentiment analysis of Twitter
Chatzakou et al. Harvesting opinions and emotions from social media textual resources
KR101613259B1 (ko) 소셜 네트워크 서비스 사용자의 감성 분석 시스템 및 그 방법
Al-Kabi et al. Arabic/English sentiment analysis: an empirical study
Otto et al. Understanding, categorizing and predicting semantic image-text relations
CN103995853A (zh) 基于关键句的多语言情感数据处理分类方法及系统
CN111538828A (zh) 文本情感分析方法、装置、计算机装置及可读存储介质
Iyer et al. An unsupervised domain-independent framework for automated detection of persuasion tactics in text
CN114896305A (zh) 一种基于大数据技术的智慧互联网安全平台
Yamamoto et al. Multidimensional sentiment calculation method for Twitter based on emoticons
CN113761377B (zh) 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质
Kaur et al. Sentiment detection from Punjabi text using support vector machine
Cindo et al. Sentiment Analysis on Twitter By Using Maximum Entropy And Support Vector Machine Method
Choudhury et al. User sentiment detection: a YouTube use case
KR102275095B1 (ko) 개인 미디어 제작을 위한 유튜브 동영상 메타데이터 취득 및 정보화 방법
Ahmad et al. Deriving emotions and sentiments from visual content: A disaster analysis use case
CN113688623A (zh) 一种基于深度学习的方面级情感分析方法
KR101712507B1 (ko) 마이크로블로그의 개체명 링킹 시스템.
Mini Opinion Mining for monitoring social media communications for Brand Promotion.
Tachicart et al. An empirical analysis of Moroccan dialectal user-generated text
Al Azani et al. Multimodal age-group recognition for opinion video logs using ensemble of neural networks
Yadav et al. Sentimental analysis on audio and video using Vader algorithm

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140926

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20151001

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20161005

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20171012

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20181004

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20191002

Year of fee payment: 9