KR102020756B1

KR102020756B1 - 머신러닝을 이용한 리뷰 분석 방법

Info

Publication number: KR102020756B1
Application number: KR1020180126471A
Authority: KR
Inventors: 김성관
Original assignee: 주식회사 리나소프트
Priority date: 2018-10-23
Filing date: 2018-10-23
Publication date: 2019-11-04

Abstract

본 발명은 머신러닝을 이용한 리뷰 분석 방법에 관한 것으로, 더욱 구체적으로는 앱 리뷰에 대한 감성분석과 감성을 나타내게 한 원인요인을 도출하며, 앱 스토어 리뷰에 최적화된 처리방법을 제공하는 머신러닝을 이용한 리뷰 분석 방법에 관한 것이다.

Description

머신러닝을 이용한 리뷰 분석 방법{Method for Analyzing Reviews Using Machine Leaning}

본 발명은 머신러닝을 이용한 리뷰 분석 방법에 관한 것이다.

기존에 개발된 리뷰 분석은 쇼핑, 영화, 도서 등 소비재 서비스를 대상으로 하고 있어 앱 스토어에 특화된 리뷰 분석 서비스는 부재한 실정으로, 모바일 앱의 특성을 반영한 분류 체계가 확보된 리뷰 분석 서비스가 필요하다.

선행기술인 대한민국 등록특허번호 제10-1110336호에는 서포트 벡터 머신을 사용하여 사용자에 의해 입력된 댓글의 단어가 긍정적인지, 부정적인지 판단하고, 판단된 단어를 이용하여 댓글의 평판도를 분석하는 댓글에 대한 평판도 분석 방법이 제시된다.

선행기술인 대한민국 등록특허번호 제10-1074215호에는 주어진 주제에 대한 문서를 수집하고, 형태소 분석을 통해 감성 표현을 추출하고, 감성 표현의 감성벡터 값을 결정하여 감성벡터 값을 근거로 주제에 대한 여론 평가 결과를 출력하는 여론 분석 장치 및 문서 분석을 통한 여론 평가 방법에 관한 것이다.

선행기술인 대한민국 등록특허번호 제10-1448228호에는 인터넷 및 소셜미디어를 통하여 취합된, 문서, 인터넷 댓글, SNS(Social Network Service) 메시지 텍스트 등으로부터 신제품 컨셉, 브랜드, 브랜드 컨셉, 네이밍, 디자인, 연예인이나 정치인 등의 사람과 모든 사물에 대한 세부적 이미지와 세부 감성을 자동으로 정량 측정, 평가, 분석하여 실시간으로 결과를 제시할 수 있는 감성 측정 및 분석 장치 및 방법이 제시된다.

상기와 같은 선행기술들의 경우 모바일 앱에 특화된 분류체계를 제공하지 못하고, 어떤 요인으로 인해 긍정, 부정과 같은 감성이 발생하였는지 원인 요인을 도출하지 못하는 문제점이 있다.

대한민국 등록특허번호 : 제10-1110336호 대한민국 등록특허번호 : 제10-1074215호 대한민국 등록특허번호 : 제10-1448228호

본 발명은 상기와 같은 종래기술의 문제점을 해결하기 위한 것으로, 머신러닝을 이용한 리뷰 분석 방법을 제공하는 것을 목적으로 한다.

구체적으로, 본 발명의 목적은 모바일 앱의 특성과 속성을 반영할 수 있는 분류체계가 확보되어 모바일 서비스에 특화된 리뷰 분석이 가능하며, 카테고리에 따른 앱 속성 분석 및 분류를 반영한 리뷰 감성분석 알고리즘을 적용하여 신뢰도가 향상된 리뷰 분석 방법을 제공하는 것이다.

또한, 긍정, 부정과 같은 감성 분류뿐 아니라 어떠한 요인으로 그러한 감성 평가가 이루어졌는지 원인을 파악할 수 있는 리뷰 분석 방법을 제공하는 것을 목적으로 한다.

본 발명이 이루고자 하는 기술적 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

이러한 목적을 달성하기 위한 본 발명에 따른 머신러닝을 이용한 리뷰 분석 방법은 데이터 수집기를 사용하여 앱 리뷰 데이터를 수집하는 데이터 수집단계, 상기 데이터 수집단계에서 수집한 상기 데이터 내의 문장 부호를 제거, 영어 대문자를 소문자로 변경 중 어느 하나 이상이 되는 규칙에 따라 변환하는 데이터 정규화 단계, 상기 데이터 정규화 단계에서 변환된 데이터를 형태소 단위로 분리하고, 형태소 사전에 등록되지 않는 단어가 있는 경우 사용자 사전에 등록하고, 불용어로 사용될 불용어 단어 사전을 생성하여 상기 불용어 단어 사전에 등록된 불용어를 제거하고, 각 형태소의 품사를 결정하는 형태소 분석단계, 상기 형태소 분석단계에서 분석된 상기 데이터를 받아, 훈련용 데이터와 검증용 데이터로 분류하고, 훈련용 데이터를 연구자가 직접 긍정, 부정, 중립으로 분류하고, 머신러닝 알고리즘에 입력하여 감성분석 모델을 생성하는 감성분석 모델 생성 단계, 상기 감성분석 모델에 상기 앱 리뷰 데이터를 입력하여 감성을 분석하는 감성분석 단계, 상기 형태소 분석단계에서 분석된 상기 데이터를 받아, 자주 사용되는 단어와 연관된 유사 단어를 계산하는 연관단어 분석단계를 포함하는 것을 특징으로 한다.

상기 텍스트 정규화 단계는 문장부호를 제거하는 문장부호 제거단계, 영어 대문자를 소문자로 변경하는 영어 소문자화 단계, 자음만 있는 데이터, 모음만 있는 데이터, 구어체, 비속어, 축약어, 띄어쓰기 오류, 철자오류 중 어느 하나 이상이 되는 1차 불용어를 제거하는 제1 불용어 제거단계를 포함하는 것을 특징으로 한다.

상기 형태소 분석 단계는 상기 텍스트로 변환된 데이터를 형태소 단위로 분리하는 단계, 형태소 사전에 등록되지 않은 단어를 사용자 사전에 등록하는 단계, 상기 1차 불용어 외에 불용어로 사용될 2차 불용어에 대해 불용어 사전을 생성하고, 상기 불용어 사전에 등록된 상기 2차 불용어를 제거하는 제2 불용어 제거단계, 각 형태소의 품사를 결정하는 단계를 포함하는 것을 특징으로 한다.

상기 감성분석 모델 생성 단계는 상기 형태소 분석 단계에서 형태소 분석된 데이터를 임의로 훈련용 데이터와 검증용 데이터로 분류하는 리뷰 데이터 분류 단계, 상기 훈련용 데이터를 연구자가 직접 확인하고 긍정, 부정, 중립 중 어느 하나의 감성으로 분류하는 리뷰 감성 분류 단계, 상기 리뷰 감성 분류 단계에서 감성 분류된 상기 훈련용 데이터를 벡터로 변환하는 리뷰 벡터 변환 단계, 상기 리뷰 벡터를 머신러닝 모델에 적용하여 감성분석 모델을 생성하는 데이터 적용 단계를 포함하는 것을 특징으로 한다.

상기 감성분석 모델 생성 단계는 상기 형태소 분석 단계에서 형태소 분석된 데이터를 임의로 훈련용 데이터와 검증용 데이터로 분류하는 리뷰 데이터 분류 단계, 평점에 따라 긍정, 부정, 중립 중 어느 하나의 감성으로 상기 훈련용 데이터를 분류하는 평점 분류 단계, 상기 평점 분류 단계에서 중립으로 분류된 상기 훈련용 데이터를 사람이 직접 확인하고 긍정, 부정, 중립 중 어느 하나의 감성으로 분류하는 리뷰 감성 분류 단계, 상기 평점 분류 단계에서 긍정, 부정으로 분류된 상기 훈련용 데이터와, 상기 리뷰 감성 분류 단계에서 분류된 상기 훈련용 데이터를 벡터로 변환하는 리뷰 벡터 변환 단계, 상기 리뷰 벡터를 머신러닝 모델에 적용하여 감성분석 모델을 생성하는 데이터 적용 단계를 포함하는 것을 특징으로 한다.

상기 감성분석 모델 생성 단계는 상기 검증용 데이터를 상기 감성분석 모델에 적용하여 상기 감성분석 모델의 정분류율을 검출하는 검증용 테이터 감성분석 단계, 상기 정분류율이 가장 높은 감성분석 모델을 선택하는 감성분석 모델 선택 단계를 더 포함하는 것을 특징으로 한다.

상기 연관단어 분석 단계는 상기 형태소 분석 단계에서 형태소 분석된 데이터에서 자주 사용된 단어를 계산하고, 사용 빈도가 많은 순으로 단어목록을 생성하고, 상기 단어목록의 단어와 유사한 단어를 계산하는 것을 특징으로 한다.

이상과 같이 본 발명은 머신러닝을 이용한 리뷰 분석 방법을 제공하는 효과가 있다.

구체적으로, 모바일 앱의 특성과 속성을 반영할 수 있는 분류체계가 확보되어 모바일 서비스에 특화된 리뷰 분석이 가능하며, 카테고리에 따른 앱 속성 분석 및 분류를 반영한 리뷰 감성분석 알고리즘을 적용하여 신뢰도가 향상된 리뷰 분석 방법을 제공하는 효과를 가진다.

또한, 긍정, 부정과 같은 감성 분류뿐 아니라 어떠한 요인으로 그러한 감성 평가가 이루어졌는지 원인을 파악할 수 있는 리뷰 분석 방법을 제공하는 효과가 있다.

본 발명의 기술적 효과들은 이상에서 언급한 기술적 효과들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 효과들은 청구범위의 기재로부터 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일실시 예에 따른 머신러닝을 이용한 리뷰 분석 방법의 전체 흐름을 나타내는 도면이다.
도 2는 도 1의 데이터 수집 단계를 더욱 구체적으로 나타낸 흐름도이다.
도 3은 도 1의 형태소 분석 단계를 더욱 구체적으로 나타낸 흐름도이다.
도 4는 형태소 분석 예시도이다.
도 5는 도 1의 연관단어 분석 단계를 더욱 구체적으로 나타낸 흐름도이다.
도 6은 본 발명의 일실시 예에서 도 1의 감성분석 모델 생성 단계를 구체적으로 나타낸 흐름도이다.
도 7은 본 발명의 다른 실시 예에서 도 1의 감성분석 모델 생성 단계를 구체적으로 나타낸 흐름도이다.
도 8은 본 발명의 일실시 예에 따른 머신러닝을 이용한 리뷰 분석 방법이 적용되는 시스템의 구성도이다.
도 9는 도 7 시스템의 텍스트 전처리 모듈과 감성사전 개발부를 나타낸 도면이다.
도 10은 도 7 시스템의 감성분석 처리모듈을 나타낸 도면이다.

이하, 본 발명의 바람직한 실시 예를 첨부된 도면을 참조하여 상세히 설명한다. 참고로, 본 발명을 설명하는 데 참조하는 도면에 도시된 구성요소의 크기, 선의 폭 등은 이해의 편의상 다소 과장되게 표현되어 있을 수 있다. 또, 본 발명의 설명에 사용되는 용어들은 본 발명에서의 기능을 고려하여 정의한 것이므로 사용자, 운용자 의도, 관례 등에 따라 달라질 수 있다. 따라서, 이 용어에 대한 정의는 본 명세서의 전반에 걸친 내용을 토대로 내리는 것이 마땅하겠다.

또한, 본 발명의 목적이 구체적으로 실현될 수 있는 본 발명의 바람직한 실시 예를 첨부된 도면을 참조하여 설명하지만, 이는 본 발명의 더욱 용이한 이해를 위한 것으로, 본 발명의 범주가 그것에 의해 한정되는 것은 아니다. 아울러, 본 발명의 실시 예를 설명함에 있어서, 동일 구성에 대해서는 동일 명칭 및 동일 부호가 사용되며 이에 따른 부가적인 설명은 생략하기로 한다.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다.

본 발명은 머신러닝을 이용한 앱 리뷰 분석 방법에 관한 것으로, 앱 스토어에 특화된 리뷰 분석 서비스를 제공하고, 머신러닝 기술을 사용하여 리뷰 내에 사용되는 신조어, 약어 등의 단어, 문장의 의미 등을 지속적으로 반영하고, 긍정/부정과 같은 감성분석 결과에 대해, 어떤 요인으로 상기 감성분석 결과가 도출되었는지를 분석하는 머신러닝을 이용한 앱 리뷰 분석 방법에 관한 것이다.

도 1은 본 발명의 일실시 예에 따른 머신러닝을 이용한 리뷰 분석 방법의 전체 흐름을 나타내는 도면이다.

도 1을 참조하면 본 발명의 일실시 예에 따른 머신러닝을 이용한 리뷰 분석 방법은 데이터 수집단계(S110), 텍스트 정규화 단계(S120), 형태소 분석단계(S130), 감성분석 모델 생성 단계(S140), 감성분석 단계(S150), 연관단어 분석단계(S160)로 구성되며, DB 저장단계(S170), 시각화 단계(S180)를 더 포함한다.

데이터 수집단계(S110)는 데이터 수집기를 사용하여 리뷰id, 사용자 id, 평점, 작성날짜, 리뷰내용이 되는 텍스트, 디바이스 정보, 리뷰언어, AppVersionCode, AppVersionName, androidOsVersion, thumbsUpcount, thumbsDowncount 등으로 구성되는 앱 리뷰 데이터를 수집한다. 도 2를 참조하여 더욱 구체적으로 설명하면, HTTP 통신을 통해 스토어 내의 리뷰를 요청하고(S111), 상기 리뷰 요청에 대한 응답 값을 검사한다(S112). 요청은 POST 방식으로 처리되어 요청 시 국가 코드, 앱 패키지, 페이지 번호, 정렬 기준 등을 파라미터로 포함하여 요청한다.

응답 값은 앞 5자리에는 쓰레기 값이 포함된 JSON(Java Script Object Notation) 포맷으로, 응답 값에 포함된 쓰레기 값을 분리하여 쓰레기 값을 제거하고 데이터를 JSON 포맷으로 변환한다(S113). 변환된 데이터의 HTML 존재 여부를 통해 요청의 성공 여부를 판단하는 데이터를 검증을 수행한다(S114).

추출한 HTML은 개별 리뷰를 검색하여 Tag 객체 배열로 반환하는 파싱 처리를 한다.

리뷰 Tag에서 리뷰의 주요 파라미터를 탐색하여 필요한 데이터를 추출하고(S115), 추출된 각각의 리뷰 파라미터는 데이터 분석에 사용하기 쉽도록 규격화된 데이터로 변환되고(S116), 데이터는 JSON 타입으로 변환되며 압축 과정을 거쳐서 저장된다(S117).

텍스트 정규화 단계(S120)는 데이터 수집단계(S110)에서 수집한 텍스트 데이터를 문장 부호를 제거, 영어 대문자를 소문자로 변경 중 어느 하나 이상이 되는 규칙에 따라 변환하는 단계로, 일실시 예에서 텍스트 정규화 단계(S120)는 문장부호를 제거하는 문장부호 제거단계(S121), 영어 대문자를 소문자로 변경하는 영어 소문자화 단계(S122), 자음만 있는 데이터, 모음만 있는 데이터, 구어체, 축약어, 띄어쓰기 오류, 철자오류 중 어느 하나 이상이 되는 1차 불용어를 제거하는 제1 불용어 제거단계(S122)를 포함한다.

문장 부호들은 의미를 가지고 있지 않고 있지 않기 때문에, 문장 속의 문장 부호들을 제거하여 데이터 차원을 줄여 처리속도와 분석 결과를 개선한다.

영어는 같은 단어라도 소문자로만 되어있는 단어와 대문자가 포함된 단어를 다른 단어로 판단하기 때문에 대문자를 모두 소문자로 변경한다.

감성분석을 위한 의미를 가지지 않지만 자주 나타나는 불용어들은 학습모델에서 구별이 어려워 전처리 과정에서 제거한다. 제1 불용어 제거단계(S122)에 따라 단어 수를 줄이면 데이터 차원이 줄어들어 처리 속도가 더 빨라지는 효과가 있다.

형태소 분석단계(S130)는 앱 리뷰 데이터의 텍스트를 형태소 단위로 분리하고, 형태소 사전에 등록되지 않는 단어가 있는 경우 사용자 사전에 등록하고, 불용어로 사용될 불용어 단어 사전을 생성하여 상기 불용어 단어 사전에 등록된 불용어를 제거하고, 각 형태소의 품사를 결정한다.

도 3은 도 1의 형태소 분석 단계를 더욱 구체적으로 나타낸 흐름도이다. 도 3을 참조하여 형태소 분석단계를 더 상세히 설명하면, 텍스트 정규화 단계(S120)에서 규격화된 데이터로 변환된 텍스트 데이터를 형태소 단위로 분리하고, 형태소 사전에 등록되지 않은 단어를 사용자 사전에 등록한다(S131).

상기 텍스트 정규화 단계(S120)에서 제거된 1차 불용어 외에 불용어로 사용될 2차 불용어에 대해 불용어 사전을 생성하고(S132), 불용어 사전에 등록된 상기 2차 불용어를 제거하는 제 2차 불용어 제거를 수행한다. 감성분석 단계(S140)와 연관단어 분석단계(S150)에서는 명사, 형용사, 동사만 사용되고 나머지 품사는 사용하지 않기 때문에 필요한 품사로 명사, 형용사, 동사 등을 선택하고(S113), 각 형태소의 품사를 결정하는 형태소 분석을 수행한다(S134).

본 발명의 일실시 예에서 불용어 제거는 형태소 분석에서 형태소를 알 수 없는 단어, 의미를 알수 없는 단어, 축약어 등 변경이 필요한 단어 및 리뷰 내용을 확인하여, ["현재단어", "변경 후 단어"]형태로 치환 사전을 생성하여 처리한다.

다른 예에서 S113 단계는 보통명사, 고유명사, 의존명사, 대명사, 동사, 형용사, 관형사, 부사, 감탄사, 연결어미, 종결어미, 접두사, 접미사, 이모지를 선택하고, 또 다른 예에서는 다른 구성으로 선택할 수도 있다.

연관단어 분석단계(S160)는 형태소 분석단계(S130)에서 분석된 상기 리뷰 내용을 받아, 자주 사용되는 단어와 연관된 유사 단어를 계산한다. 다시 설명해보면, 연관단어 분석단계(S160)는 사용자 리뷰의 내용을 키워드로 파악하기 위해 자주 사용되는 단어를 계산하고 그와 연관된 단어를 분석한다.

리뷰에서 사용된 단어(keyword)들과 연관성 높은 유사한 단어들을 예측하기 위해 형태소 분석이 끝난 리뷰에서 단어별 사용 빈도를 계산하여 wordlist를 생성한다.

도 5는 도 1의 연관단어 분석 단계를 더욱 구체적으로 나타낸 흐름도이다.

도 5를 참조하여 연관단어 분석단계(S160)를 더 설명해보면, 형태소 분석 단계(S130)에서 형태소 분석된 데이터에서 자주 사용된 단어를 계산하고, 사용 빈도가 많은 순으로 단어목록(wordlist)을 생성하고(S161), 단어 최소 빈도를 설정하여(S162) 상기 단어목록의 단어와 유사한 단어를 연관단어를 분석한다(S163).

단어의 최소 빈도수를 변경하는 것으로 연관 단어 결과에 변화가 있기 때문에 단어 최소 빈도의 변화를 주어 결과를 확인하며 적절한 최소 단어 빈도를 설정한다. 연관단어 분석은 단어를 계산할 수 있는 숫자로 변환하여 유사도를 계산하여 다음에 올 단어를 예측하는 모델을 사용한다.

예를 들어 더욱 상세하게 설명해보면, 자주 사용되는 단어는 형태소 분석 결과를 이용하여 명사에 해당하는 단어들이 사용된 리뷰 수를 계산한다. 한 리뷰 내에서 해당 단어가 중복으로 사용되어도 1회로 처리한다.

연관단어 분석을 위해 Word Embedding을 구현하여 단어를 숫자로 변환하여 처리한다.

본 발명의 일실시 예에서 연관 단어분석을 위해 텍스트를 처리하는 인공 신경망이며 두 개의 층으로 구성된 Word2Vec를 사용한다. Word2vec은 말뭉치(corpus)를 입력받아 말뭉치의 단어를 벡터로 표현하는 방법을 찾는데, 이 벡터의 값은 말뭉치에서 단어가 가지는 의미나 역할을 표현해주는 값이다. 이렇게 단어의 의미와 맥락을 고려하여 단어를 벡터로 표현한 것을 word embeddings라고 한다.

Word2vec는 주변에 있는 단어들을 가지고 중심에 있는 단어를 맞추는 방식인 CBOW(Continuous Bag of Words)알고리즘과 중심에 있는 단어로 주변 단어를 예측하는 Skip-Gram알고리즘이 있는데, 본 발명의 일실시 예에 따른 연관단어 분석에서는 Skip-Gram을 사용한다.

벡터로 계산된 단어들의 거리를 계산하여 거리가 가까울 경우 비슷한 단어라고 해석하는데, 벡터 사이의 코사인 유사도를 구하여 유사도를 계산한다. 코사인 유사도란 두 벡터(Vector)의 사잇각을 구해 유사도로 사용하는 것을 뜻한다.

코사인 유사도가 작은 순서로 나열하고 상위 5개 단어를 연관성이 높은 유사한 단어로 판단한다.

감성분석 모델 생성 단계(S140)는 형태소 분석단계(S130)에서 분석된 텍스트 데이터를 받아 훈련용 데이터와 검증용 데이터로 분류하고 훈련용 데이터를 연구자가 직접 긍정, 부정, 중립으로 분류하고, 머신러닝 알고리즘에 입력하여 감성분석 모델을 생성한다.

감성분석 단계(S150)는 상기 감성분석 모델 생성 단계(S140)에서 생성된 분석 모델에 검증용 데이터를 입력하여 감성을 분석한다.

사람이 작성한 리뷰의 내용에는 긍정/부정을 판단하기에 모호한 표현, 예를 들어 의견, 요청하는 문장, 의미없는 단문 등이 상당수 포함되기 때문에 감성분석 모델만을 사용하여 분류하기에는 정확성이 떨어질 수 있다.

이를 보완하기 위해 본 발명의 일실시 예에서 리뷰 분석 방법은 연구자가 리뷰 데이터를 직접 확인하고 긍정, 부정, 중립 중 어느 하나로 감성을 분류하는 단계를 가진다. 예를 들어 더욱 상세히 설명해보면, "지웠다가 다시 깔았는데 복구하는 방법이 뭐죠?" 가 '지웠다' 라는 부분에 의해 기존에 부정으로 평가 되었다면 사용자가 이를 중립으로 변경한다.

현실적으로 사람이 모든 리뷰 데이터를 확인하기에는 어려움이 있기 때문에 다른 실시 예에서 감성분석 방법은 평점을 이용해 1차적으로 감성을 분류하고, 각 평점별 리뷰를 무작위로 추출하여 연구자가 분류를 한다.

또 다른 예에서는, 앱 리뷰 분석 결과를 확인하는 사용자가 감성분석 분류결과를 수정한다. 서비스 사용자가 감성분석 분류결과를 수동으로 변경할 경우 사용자가 변경한 결과값을 DB에 저장된 리뷰 데이터에 별로도 저장한다. 별도로 저장된 데이터를 감성분석 분석모델 훈련용 데이터에 추가하고, 추가된 훈련용 데이터를 이용해 다시 감성분석 분류모델을 만드는 학습 과정을 거치고, 본 과정을 지속하여 감성분석 분류 결과의 정확도를 높일 수 있다.

도 6은 본 발명의 일실시 예에서 도 1의 감성분석 모델 생성 단계, 감성분석 단계를 구체적으로 나타낸 흐름도이다.

도 7은 본 발명의 다른 실시 예에서 도 1의 감성분석 모델 생성 단계, 감성분석 단계를 구체적으로 나타낸 흐름도이다.

도 6, 도 7을 참조하여 본 발명의 일실시 예에서 감성분석 모델 생성 단계(S140)와 감성분석 단계(S150)를 더욱 상세히 설명해보겠다.

도 6을 참조하면 감성분석 모델 생성 단계(S140)는 리뷰 데이터 분류 단계(S141), 리뷰 감성 분류 단계(S142), 리뷰 벡터 변환 단계(S143), 가중치 계산단계(S144), 데이터 적용 단계(S145)를 포함한다.

리뷰 데이터 분류 단계(S141)는 상기 형태소 분석 단계(S130)에서 형태소 분석된 데이터를 훈련용 데이터와 검증용 데이터로 분류하고, 리뷰 감성 분류 단계(S142)는 리뷰 데이터 분류 단계(S141)에서 훈련용 데이터로 분류된 데이터를 연구자가 직접 내용 확인하여 긍정, 부정, 중립 중 어느 하나의 감성으로 분류한다. 리뷰 벡터 변환 단계(S143)에서는 리뷰 감성 분류 단계(S142)에서 긍정, 부정, 중립 중 어느 하나로 감성 분류된 상기 훈련용 데이터를 벡터로 변환하고, 데이터 적용 단계(S144)에서는 벡터로 변환된 데이터를 머신러닝 모델에 적용하여 감성분석 모델을 생성한다.

도 7을 참조하면 본 발명의 다른 실시 예에서는 리뷰 감성 분류 단계(S142)대신 훈련용 데이터를 평점에 따라 긍정, 부정, 중립 중 어느 하나로 분류하는 평점 분류 단계(S142-1), 평점 분류 단계에서 중립으로 분류된 훈련용 데이터를 연구자가 직접 확인하고 어느 하나의 감성으로 분류하는 리뷰 감성 분류 단계(S142-2)를 포함한다. 평점 분류 단계(S142-1)에서는 예를들어 평점이 5점 만점인 경우, 0~2점은 부정으로, 3~4점은 중립으로, 5점은 긍정으로 분류한다. 본 발명의 각 평점별 리뷰를 무작위로 추출하여 연구자가 분류한다.

도 6, 도 7을 참조하면 감성분석 모델이 생성된 후 검증용 데이터(test data)를 감성분석 모델에 적용하여 정분류율을 확인하고 감성분석 모델을 선택한다.

본 발명의 다른 실시 예에서 감성분석 단계는 단어의 문서 내의 등장 빈도(TF : Term Frequency), 다른 문서에서의 사용 빈도(IDF : Inverse Document Frequency) 중 어느 하나 이상을 이용하여 가중치를 계산하여 감성 판단에 적용한다. 가중치는 강조어의 유무에 따라 부여된다. 강조어는 "매우", "정말", "조금" 등의 의미를 더하거나 감소시켜주는 단어를 나타낸다.

본 발명의 일실시 예에서 머신 러닝 모델은 Naive Bayes classifier, Logistic regression, Random Forest등을 사용한다. 훈련용 데이터를 Naive Bayes classifier, Logistic regression, Random Forest등에 적용하여 감성분석 모델을 생성하고 검증용 데이터를 생성된 알고리즘 모델에 적용하여 정분류율을 계산하고, 정분류율이 가장 높은 알고리즘 방법을 감성분석 모델로 적용한다.

Naive Bayes classifier은 Bayes 법칙에 기반한 분류 학습 알고리즘으로 각 요소들이 독립이라는 가정하에 입력 벡터를 분류하는 확률 모형이다. 계산 복잡성이 낮기 때문에 그룹이 여러개있는 multi-class 분류에서 특히 쉽고 빠르게 예측 가능하다는 장점이 있다. 단점으로는 훈련용 데이터에는 없고 테스트 데이터에는 있는 카테고리의 경우 확률이 0이 되어 정상적인 예측이 불가능 하다는 것과 독립이라는 가정이 성립하지 않을 경우 결과에 에러가 발생할 수 있다는 것이 있다.

Logistic regression은 독립 변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는데 사용되는 통계 기법으로, 일반적인 회귀 분석의 목표와 동일하게 종속 변수와 독립 변수간의 관계를 구체적인 함수로 나타내어 향후 예측 모델에 사용하는 것이다. 독립 변수의 선형 결합으로 종속 변수를 설명한다는 관점에서 선형 회귀 분석과 유사하지만, 종속 변수가 범주형 데이터를 대상으로 하며, 입력 데이터가 주어졌을 때 해당 데이터의 결과가 특정 분류로 나뉘기 때문에 일종의 분류 기법으로 사용한다. 생성 모형에 대한 해석이 수월한 것이 장점이고, 단점은 복잡한 상황에 유연하게 대처하지 못하며, 모형의 가정이 많다는 것이다.

Random Forest는 다수의 결정 트리를 구성하는 학습 단계와 입력 벡터가 들어왔을 때, 분류하거나 예측하는 테스트 단계로 구성 검수르 분류, 회귀 등 다양한 분야에 활용한다. 장점은 성능이 뛰어나고, 매개 변수를 많이 튜닝하지 않아도 동작하며, 예측력이 뛰어나다는 것이다. 단점은 해석이 어렵고, 다른 단일 모델에 비해 예측시간이 많이 걸리며, 차원이 높은 데이터에서는 잘 작동하지 않는다는 점이다.

상기 훈련용 데이터의 사용자 평점을 이용하여 감성을 분류하는 리뷰 감성 분류 단계(S142), 상기 훈련용 데이터와 상기 검증용 데이터를 벡터로 변환하는 리뷰 벡터 변환 단계(S143), 문서 내의 등장 빈도(TF : Term Frequency), 다른 문서에서의 사용 빈도(IDF : Inverse Document Frequency) 중 어느 하나 이상을 이용하여 가중치를 계산하는 가중치 계산단계(S144), 상기 훈련용 데이터를 머신러닝 모델에 적용하여 감성분석 모델을 생성하는 감성분석 모델 생성 단계(S145), 상기 검증용 데이터를 감성분석 모델에 적용하여 정분류율을 도출하는 테스트 데이터 감성분석 단계(S146), 정분류율이 가장 높은 모델을 감성분석 모델로 선택하는 감성분석 모델 선택 단계(S147), 사용자가 변경한 분류에 대해서 2차 학습과정을 통해 지속적인 업데이트를 수행하여 감성분류 모델의 신뢰도를 높이는 단계(S148)를 포함한다.

아래 표를 예를 들어 더욱 상세히 설명해보겠다.

리뷰	감성분류값	모델1결과	모델2결과	모델3결과
리뷰내용1	긍정	긍정	긍정	긍정
리뷰내용2	긍정	긍정	부정	중립
리뷰내용3	중립	중립	부정	중립
리뷰내용4	중립	부성	부정	부정
리뷰내용5	부정	부정	부정	부정
		80% (4/5)	40% (2/5)	60% (3/4)

여러 종류의 분석모델에 훈련용 데이터를 입력하여 학습시키고, 검증용 데이터를 입력하여 실제 분류된 값인 감성분류값과 각 모델별 결과값의 일치여부를 이용해 정분류율을 확인하고, 정분류율이 가장 높은 모델1을 감성분석 모델로 선택한다.

상기 S110~S150 단계를 통해 분석된 데이터를 데이터베이스에 저장하는 DB 저장단계(S160), 기간별 리뷰내용, 리뷰 개수, 평점 평균, 긍정/부정 비율, 긍정/부정 원인요소 등을 시각화하는 시각화 단계(S170)를 더 포함한다.

또한, 본 발명의 일실시 예에서 감성분석 모델은 앱 카테고리별로 형성한다. 이는 같은 단어라도 카테고리에 따라 의미와 중요도가 다르게 사용되기 때문이다. 카테고리 분류는 예를 들어 카카오톡, 라인 등의 커뮤니케이션 관련 리뷰를 분석하는 경우 [커뮤니케이션] 카데고리 감성분석 모델을 따로 생성하고, 이에 리뷰를 적용하여 분류한다.

도 8은 본 발명의 일실시 예에 따른 머신러닝을 이용한 리뷰 분석 방법이 적용되는 시스템의 구성도이고, 도 9은 도 8 시스템의 텍스트 전처리 모듈과 감성사전 개발부를, 도 10은 도 8 시스템의 감성분석 처리모듈을 나타낸 도면이다.

도 8 내지 도 10을 참조하여 본 발명에 따른 머신러닝을 이용한 리뷰 분석 방법이 적용된 시스템을 설명해보겠다.

머신러닝을 활용한 앱 스토어 리뷰 분석 시스템은 모바일 앱을 사용하는 유저가 앱 스토어에 작성한 리뷰를 크롤링(crawling)하고, 텍스트 전처리와 형태소 분석을 거친 후 지도학습형 머신러닝 모델에 입력한다. 결과 값으로 도출된 긍정, 부정, 중립의 감성성향을 기반으로 결과 값에 영향을 주는 핵심 키워드와 감성유인에 영향을 미친 연관 키워드를 도출해 냄으로써 리뷰의 감성분석과 유발원인까지 도출 가능한 리뷰 분석 시스템에 관한 것이다.

모바일 앱에 특화된 분류체계를 제공하기 위하여 본 발명의 일실시 예에 따른 리뷰 분석 시스템은 감성사전을 포함한다. 모바일앱에 특화된 감성사전을 구축하기 위해 데이터 수집기를 사용하여 50,000개 이상의 앱리뷰 데이터를 수집하고, 리뷰의 평점에 따라 1~2점은 부정, 3점은 중립, 4~5점은 긍정으로 1차 분류한다. 이후 반어적 표현, 중립적인 표현 등을 수작업을 통해 긍정 또는 부정으로 최종 분류하여 머신러닝 지도학습용 감성사전 기초 데이터베이스를 구축한다.

분류된 긍정/부정 문장에 대해 텍스트 전처리 모듈, 형태소 분석기를 사용하여 리뷰 분석에 사용할 핵심 키워드, 긍정/부정어, 강조어를 추출하고 우선순위 가중치를 부여한다.

추출된 단어 및 가중치 데이터를 기반으로 머신러닝 알고리즘을 이용해 최적의 긍정/부정 가중치를 산정하여 감성사전을 개발한다.

같은 단어라도 앱의 특성에 따라 다른 의미로 사용될 수 있기 때문에 카테고리별로 감성사전을 구축하여 극성 분류의 정확성을 향상시킨다. 예를 들어 게임, 비디오, 영화, 운동 등 카테고리에 따라 감성사전을 구축한다.

감성사전은 앱의 속성과 분류를 반영할 수 있는 단어와 긍정과 부정에 사용되는 주요 단어에 우선순위 가중치를 높게 부여하여 구성하고, 신조어나 약어에 대한 대표 키워드 등도 포함하여 구성된다.

텍스트 수집은 입력받은 개발자 계정정보를 바탕으로 앱스토어(Apple AppStore, Google Play Store 등) 개발자 콘솔로 접속하여 주기적으로 리뷰 텍스트를 크롤링하며 수행한다.

텍스트 전처리 모듈에서는 유의미한 정보를 포함하지 않는 텍스트를 필터링하는 기능을 수행한다. 예를 들어 구어체, 비속어, 축약어, 띄어쓰기 오류, 철자오류, 자음과 모음만 있는 데이터에 대해 필터링을 수행한다.

필터링 후 추출된 단어가 감성사전에 포함되지 않는 경우 해당 문장을 학습데이터에 추가하여 감성사전에 업데이트하고, 사용빈도가 높은 축약어나 신조어는 필터링하지 않고 대표 키워드로 치환하여 처리한다.

전처리 과정에서 필터링 된 텍스트는 품사별 분류를 위한 형태소 분석과정을 수행한다. 텍스트의 언어적 속성과 구조를 파악하기 위해 문자열을 띄어쓰기 단위로 구분하는 토큰화(Tokenization)를 수행하고, 토큰화된 각 단어에 대해 품사 태깅(Part of Speech Tagging) 작업을 수행한다.

감성의미를 가진 품사, 예를 들어 보통명사, 고유명사, 의존명사, 대명사, 동사, 형용사, 관형사, 부사, 감탄사, 연결어미, 종결어미, 접두사, 접미사, 이모지를 제외한 품사는 제거하여 리뷰텍스트에서 감성분석에 사용될 단어만으로 분류하는 과정을 수행한다.

형태소 분석 처리 모듈은 태그셋을 이용하여 핵심 키워드, 수식어, 강조어 등으로 분류하여 추출한다. 핵심 키워드는 특성 및 속성을 나타내는 단어로 감성분석의 핵심적인 단어를 의미한다. 수식어는 예쁜, 맛있는, 재밌는 등의 긍정 수식어와 어려운, 어두운, 복잡한 부정 수식어로 나누어지는데, 이는 핵심 키워드에 대한 긍정 또는 부정 반응을 의미한다. 동일한 수식어라도 수식하는 핵심 키워드에 따라 긍정/부정에 대한 의미가 바뀔 수 있는데, 이는 머신러닝을 이용해 보정하기도 하고, 수작업을 통해 보정한다.

강조어는 "매우", "정말", "훨씬", "조금", "진짜" 등 의미를 더하거나 감소하는 단어를 뜻하며, 강조어 유무에 따라 가중치가 부여된다.

형태소 분석을 마친 감성단어 후보는 감성사전과 태깅된 단어를 매칭하여 일치하는 단어를 찾고, 매칭되는 단어의 가중치에 따라 우선순위를 계산하여, 다수 단어 매칭 시 가중치가 높은 비율에 따라 결과를 데이터로 저장한다.

감성사전과 단어매칭 시 문맥내용과 다른 결과가 나오는 것을 방지하기 위해 매칭과정 수행 시 다음의 조건에 따라 처리한다.

-문장 내 접속사가 있을 경우, 접속사의 종류에 따라 전후 문장에 포함된 단어의 감성 가중치 변경 적용

-동일한 단어의 문장 내 사용빈도에 따라 감성 우선순위 부여

-반어적 표현이나 복합 표현에 대한 구분을 위해 우선순위 부여 알고리즘 개발

또한, 신규 유입되는 리뷰 텍스트의 감성 분류 과정의 학습을 통해 도출되는 단어들을 저장하며, 지속적인 업데이트 과정을 수행한다.

모든 처리 과정 완료 후 분석 결과의 가중치를 합하여 가장 높은 가중치에 따라 긍정/부정 분류하고, 핵심 키워드를 포함한 유사 문장을 검색하여 원인 분석을 위한 연관 키워드를 추출한다.

핵심 키워드가 포함된 문장에 대해서 텍스트 전처리와 형태소 분석을 통해 의미 있는 단어를 추출하고, 추출된 단어들의 출현 빈도가 높은 순으로 정렬하여 결과를 저장한다.

이상 본 발명의 실시 예에 따른 도면을 참조하여 설명하였지만, 본 발명이 속한 기술분야에서 통상의 지식을 가진 자라면 상기 내용을 바탕으로 본 발명의 범주 내에서 다양한 응용, 변형 및 개작을 행하는 것이 가능할 것이다. 이에, 본 발명의 진정한 보호 범위는 첨부된 청구 범위에 의해서만 정해져야 할 것이다.

Claims

데이터 수집기를 사용하여 앱리뷰 데이터를 수집하고, 리뷰의 평점에 따라 부정, 중립, 긍정으로 1차 분류한 후, 반어적 표현, 중립적인 표현을 긍정 또는 부정으로 최종 분류한 머신러닝 지도학습용 감성사전을 포함하는 컴퓨터를 이용하는 리뷰 분석 방법에 있어서,
데이터 수집기를 사용하여 앱 리뷰 데이터를 수집하는 데이터 수집단계;
상기 데이터 수집단계에서 수집한 상기 데이터 내의 문장 부호를 제거, 영어 대문자를 소문자로 변경 중 어느 하나 이상이 되는 규칙에 따라 변환하는 데이터 정규화 단계;
상기 데이터 정규화 단계에서 변환된 데이터를 형태소 단위로 분리하고, 형태소 사전에 등록되지 않는 단어가 있는 경우 사용자 사전에 등록하고, 불용어로 사용될 불용어 단어 사전을 생성하여 상기 불용어 단어 사전에 등록된 불용어를 제거하고, 각 형태소의 품사를 결정하는 형태소 분석단계;
상기 형태소 분석단계에서 분석된 상기 데이터를 받아, 훈련용 데이터와 검증용 데이터로 분류하고, 훈련용 데이터를 연구자가 직접 긍정, 부정, 중립으로 분류하고, 머신러닝 알고리즘에 입력하여 감성분석 모델을 생성하는 감성분석 모델 생성 단계;
상기 감성분석 모델에 상기 앱 리뷰 데이터를 입력하여 감성을 분석하는 감성분석 단계;
상기 형태소 분석단계에서 분석된 상기 데이터를 받아, 자주 사용되는 단어 와 연관된 유사 단어를 계산하는 연관단어 분석단계;
리뷰 데이터를 확인 후 긍정, 부정, 중립 중 어느 하나로 감성을 분류하는 단계;
상기 리뷰 데이터의 평점을 이용하여 1차 감성 분류 후 평점 별 리뷰를 무작위로 추출하여 감성을 분류하는 단계;
서비스 사용자가 감성분석 분류결과를 수동으로 변경할 경우 사용자가 변경한 결과값을 DB에 저장된 리뷰 데이터에 별도로 저장 별도로 저장된 데이터를 감성분석 분석모델 훈련용 데이터에 추가하는 단계;
추가된 상기 훈련용 데이터를 이용해 다시 감성분석 분류모델을 만드는 학습 과정을 거치는 단계;를 포함하고,
상기 감성분석 모델 생성 단계는,
상기 형태소 분석 단계에서 형태소 분석된 데이터를 임의로 훈련용 데이터와 검증용 데이터로 분류하는 리뷰 데이터 분류 단계;
상기 리뷰 데이터 분류 단계에서 감성 분류된 상기 훈련용 데이터를 벡터로 변환하는 리뷰 벡터 변환 단계;
상기 리뷰 벡터를 머신러닝 모델에 적용하여 감성분석 모델을 생성하는 데이터 적용 단계;
상기 형태소 분석 단계에서 형태소 분석된 데이터를 임의로 훈련용 데이터와 검증용 데이터로 분류하는 리뷰 데이터 분류 단계;
평점에 따라 긍정, 부정, 중립 중 어느 하나의 감성으로 상기 훈련용 데이터를 분류하는 평점 분류 단계;
상기 평점 분류 단계에서 긍정, 부정으로 분류된 상기 훈련용 데이터와, 상기 리뷰 데이터 분류 단계에서 분류된 상기 훈련용 데이터를 벡터로 변환하는 리뷰 벡터 변환 단계;
상기 리뷰 벡터를 머신러닝 모델에 적용하여 감성분석 모델을 생성하는 데이터 적용 단계;
상기 검증용 데이터를 상기 감성분석 모델에 적용하여 상기 감성분석 모델의 정분류율을 검출하는 검증용 테이터 감성분석 단계;
상기 정분류율이 가장 높은 감성분석 모델을 선택하는 감성분석 모델 선택 단계를 포함하고,
상기 형태소 분석단계는,
핵심 키워드, 수식어, 강조어를 추출하여 강조어 유무에 따라 가중치를 부여하고, 상기 감성사전과 태깅된 단어를 매칭하여 일치하는 단어를 찾고, 매칭되는 단어의 가중치에 따라 우선순위를 계산하여, 가중치가 높은 비율에 따라 결과를 데이터로 저장하는 단계를 포함하고,
상기 결과를 데이터로 저장하는 단계는,
감성사전과 단어매칭 시 문맥내용과 다른 결과가 나오는 것을 방지하기 위해, 문장 내 접속사가 있을 경우, 접속사의 종류에 따라 전후 문장에 포함된 단어의 감성 가중치 변경 적용하고, 동일한 단어의 문장 내 사용빈도에 따라 감성 우선순위 부여하고, 반어적 표현이나 복합 표현에 대한 구분을 위해 우선순위 부여하는 것을 특징으로 하는 머신러닝을 이용한 리뷰 분석 방법
제 1항에 있어서,
문장부호를 제거하는 문장부호 제거단계;
영어 대문자를 소문자로 변경하는 영어 소문자화 단계 및
자음만 있는 데이터, 모음만 있는 데이터, 구어체, 비속어, 축약어, 띄어쓰기 오류, 철자오류 중 어느 하나 이상이 되는 1차 불용어를 제거하는 제1 불용어 제거단계를 포함하는 텍스트 정규화 단계를 더 포함하는 것을 특징으로 하는 머신러닝을 이용한 리뷰 분석 방법
제 2항에 있어서,
상기 형태소 분석 단계는
앱 리뷰 데이터의 텍스트로 변환된 데이터를 형태소 단위로 분리하는 단계;
형태소 사전에 등록되지 않은 단어를 사용자 사전에 등록하는 단계;
상기 1차 불용어 외에 불용어로 사용될 2차 불용어에 대해 불용어 사전을 생성하고, 상기 불용어 사전에 등록된 상기 2차 불용어를 제거하는 제2 불용어 제거단계;
각 형태소의 품사를 결정하는 단계를 포함하는 것을 특징으로 하는 머신러닝을 이용한 리뷰 분석 방법
삭제
삭제
삭제
제 1항에 있어서,
상기 연관단어 분석 단계는
상기 형태소 분석 단계에서 형태소 분석된 데이터에서 자주 사용된 단어를 계산하고, 사용 빈도가 많은 순으로 단어목록을 생성하고, 상기 단어목록의 단어와 유사한 단어를 계산하는 것을 특징으로 하는 머신러닝을 이용한 리뷰 분석 방법