KR20210044017A - 상품 리뷰 다차원 분석 방법 및 그 장치 - Google Patents

상품 리뷰 다차원 분석 방법 및 그 장치 Download PDF

Info

Publication number
KR20210044017A
KR20210044017A KR1020190127064A KR20190127064A KR20210044017A KR 20210044017 A KR20210044017 A KR 20210044017A KR 1020190127064 A KR1020190127064 A KR 1020190127064A KR 20190127064 A KR20190127064 A KR 20190127064A KR 20210044017 A KR20210044017 A KR 20210044017A
Authority
KR
South Korea
Prior art keywords
dimension
word
review data
product
phrase
Prior art date
Application number
KR1020190127064A
Other languages
English (en)
Inventor
김종우
여운영
이서호
박정현
임규진
Original Assignee
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 산학협력단 filed Critical 한양대학교 산학협력단
Priority to KR1020190127064A priority Critical patent/KR20210044017A/ko
Publication of KR20210044017A publication Critical patent/KR20210044017A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0203Market surveys; Market polls
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0278Product appraisal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Game Theory and Decision Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Primary Health Care (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

상품 리뷰 다차원 분석 방법 및 그 장치가 개시된다. 상품 리뷰 다차원 분석 방법은, (a) 분석 대상 상품에 대한 리뷰 데이터를 수집하는 단계; (b) 상기 리뷰 데이터를 각각 구 단위로 분리하는 단계; (c) 기도출된 가중치 행렬을 이용하여 상기 리뷰 데이터의 각 구들이 포함되는 차원을 결정하는 단계-상기 차원은 대분류 리뷰 데이터의 토픽 모델링(LDA)을 통해 도출된 상품 평가를 위한 토픽(topic)임; (d) 상기 각 차원별 각 구들을 학습된 딥 러닝 모델에 적용하여 각 차원별 각 구들의 감성 평가 결과를 도출하는 단계; 및 (e) 상기 각 차원별 각 구들의 감성 평가 결과를 이용하여 각 차원에 대한 스코어를 산출하는 단계를 포함한다.

Description

상품 리뷰 다차원 분석 방법 및 그 장치{Product review multidimensional analysis method and apparatus}
본 발명은 상품 리뷰 다차원 분석 방법 및 그 장치를 제공하기 위한 것이다.
상품에 대한 사용자들의 리뷰는 기업과 구매자에게 의사결정을 지원하는 중요한 요소이다. 오픈마켓의 시장 규모가 커지고 리뷰의 양이 많아지는 가운데, 소비자들은 노트북 구매의 결정요인인 속도, 무게 같은 평가차원을 한눈에 알아보는 것이 힘들다.
비정형적인 리뷰를 정량화하여 분석하는 연구들이 지속적으로 수행되고 있다. 종래의 리뷰 분석은 각 리뷰의 명사만을 추출하여 분류차원과 워드 임베딩 방식을 사용하여, 각 차원별로 거리가 가까운 단어를 사전으로 구축하는 방식이나 이는 다른 상품군의 리뷰 분석에 적용하기 어려운 확장성의 한계를 가지고 있다.
(01) 대한민국공개특허공보 제 10-2019-0048781(2018.05.09.)
본 발명은 마켓 인사이트 제공을 위한 상품 리뷰 다차원 분석 방법 및 그 장치를 제공하기 위한 것이다.
또한, 본 발명은 딥러닝 모델을 통해 긍부정을 학습한 후 이를 기반으로 각각의 상품에 대해 차원별 스코어링을 시각화하여 제공할 수 있는 상품 리뷰 다차원 분석 방법 및 그 장치를 제공하기 위한 것이다.
또한, 본 발명은 온라인 상품 리뷰의 비정형 데이터를 정밀하게 분석하여 소비자로 하여금 구매 의사 결정을 용이하게 할 수 있도록 도움을 줄 수 있는 상품 리뷰 다차원 분석 방법 및 그 장치를 제공하기 위한 것이다.
또한, 본 발명은 기업의 상품에 대한 시장 인식 조사 및 상품 개발 측면에 도움을 줄 수 있는 상품 리뷰 다차원 분석 방법 및 그 장치를 제공하기 위한 것이다.
본 발명의 일 측면에 따르면, 마켓 인사이트 제공을 위한 상품 리뷰 다차원 분석 방법이 제공된다.
본 발명의 일 실시예에 따르면, (a) 분석 대상 상품에 대한 리뷰 데이터를 수집하는 단계; (b) 상기 리뷰 데이터를 각각 구 단위로 분리하는 단계; (c) 기도출된 가중치 행렬을 이용하여 상기 리뷰 데이터의 각 구들이 포함되는 차원을 결정하는 단계-상기 차원은 대분류 리뷰 데이터의 토픽 모델링(LDA)을 통해 도출된 상품 평가를 위한 토픽(topic)임; (d) 상기 각 차원별 각 구들을 학습된 딥 러닝 모델에 적용하여 각 차원별 각 구들의 감성 평가 결과를 도출하는 단계; 및 (e) 상기 각 차원별 각 구들의 감성 평가 결과를 이용하여 각 차원에 대한 스코어를 산출하는 단계를 포함하는 상품 다차원 분석 방법이 제공될 수 있다.
상기 (a) 단계 이전에, 대분류에 포함된 상품들에 대한 리뷰 데이터를 수집하는 단계; 상기 대분류에 상응하는 리뷰 데이터를 형태소 단위로 분석한 후 각 단어들을 워드 임베딩하는 단계; 상기 대분류에 상응하는 리뷰 데이터를 연관 분석하여 상기 각 차원에 대한 각 단어에 대한 향상도값(lift)을 산출하는 단계; 및 상기 워드 임베딩 결과에 따른 각 차원과 각 단어의 유사도값과 상기 향상도값을 이용하여 가중치 행렬을 도출하는 단계를 더 포함할 수 있다.
상기 대분류에 상응하는 리뷰 데이터에 대한 별점을 이용한 감정 상태를 반영한 학습 데이터를 생성하여 상기 딥 러닝 모델을 학습하는 단계를 더 포함할 수 있다.
상기 (c) 단계는, 상기 워드 임베딩된 각각의 단어를 포함하는 단어 리스트를 생성하고, 상기 단어 리스트에 포함된 각 단어들이 상기 리뷰 데이터의 각 구로의 포함 여부에 대한 어구 행렬(Phrase term matrix)을 생성하는 단계; 및 상기 가중치 행렬과 상기 어구 행렬을 내적한 결과를 이용하여 차원별로 구를 각각 분류하는 단계를 포함할 수 있다.
상기 (e) 단계는, 상기 리뷰 데이터의 구 단위 감성 평가 결과 중 긍정과 부정 비율을 이용하여 각 차원에 대한 스코어를 산출할 수 있다.
본 발명의 다른 측면에 따르면, 마켓 인사이트 제공을 위한 상품 리뷰 다차원 분석을 위한 장치가 제공된다.
본 발명의 일 실시예에 따르면, 분석 대상 상품에 대한 리뷰 데이터를 수집하는 수집부; 상기 리뷰 데이터를 각각 구 단위로 분리하는 문장 분해부; 기도출된 가중치 행렬을 이용하여 상기 리뷰 데이터의 각 구들이 포함되는 차원을 결정하는 차원 분류부-상기 차원은 대분류 리뷰 데이터의 토픽 모델링(LDA)을 통해 도출된 상품 평가를 위한 토픽(topic)임; 및 상기 각 차원별 각 구들을 학습된 딥 러닝 모델에 적용하여 각 차원별 각 구들의 감성 평가 결과를 도출하고, 상기 각 차원별 각 구들의 감성 평가 결과를 이용하여 각 차원에 대한 스코어를 산출하는 스코어링부를 포함하는 상품 다차원 분석 장치가 제공될 수 있다.
대분류에 포함된 상품들에 대한 리뷰 데이터를 수집한 후 상기 대분류에 상응하는 리뷰 데이터를 형태소 단위로 분석한 후 각 단어들을 워드 임베딩하는 워드 임베딩부; 상기 대분류에 상응하는 리뷰 데이터를 연관 분석하여 상기 각 차원에 대한 각 단어에 대한 향상도값(lift)을 산출하는 연관 분석부; 및 상기 워드 임베딩 결과에 따른 각 차원과 각 단어의 유사도값과 상기 향상도값을 이용하여 가중치 행렬을 도출하는 가중치 행렬 산출부를 더 포함할 수 있다.
상기 대분류에 상응하는 리뷰 데이터에 대한 별점을 이용한 감정 상태를 반영한 학습 데이터를 생성하여 상기 딥 러닝 모델을 학습하는 학습부를 더 포함할 수 있다.
상기 차원 분류부는, 상기 워드 임베딩된 각각의 단어를 포함하는 단어 리스트를 생성하고, 상기 단어 리스트에 포함된 각 단어들이 상기 리뷰 데이터의 각 구로의 포함 여부에 대한 어구 행렬(Phrase term matrix)을 생성하며, 상기 가중치 행렬과 상기 어구 행렬을 내적한 결과를 이용하여 차원별로 구를 각각 분류할 수 있다.
상기 스코어링부는, 상기 리뷰 데이터의 구 단위 감성 평가 결과 중 긍정과 부정 비율을 이용하여 각 차원에 대한 스코어를 산출할 수 있다.
본 발명의 일 실시예에 따른 마켓 인사이트 제공을 위한 상품 리뷰 다차원 분석 방법 및 그 장치를 제공함으로써, 딥러닝 모델을 통해 긍부정을 학습한 후 이를 기반으로 각각의 상품에 대해 차원별 스코어링을 시각화하여 제공할 수 있다.
또한, 본 발명은 별도의 사전 구축 없이 구 단위 리뷰의 긍부정 판단을 기반으로 스코어링 가능하도록 할 수 있다.
또한, 본 발명은 온라인 상품 리뷰의 비정형 데이터를 정밀하게 분석하여 소비자로 하여금 구매 의사 결정을 용이하게 할 수 있도록 도움을 줄 수도 있다.
또한, 본 발명은 기업의 상품에 대한 시장 인식 조사 및 상품 개발 측면에 도움을 줄 수도 있다.
도 1은 본 발명의 일 실시예에 따른 상품 다차원 분석 방법을 위한 사전 준비 과정을 나타낸 순서도.
도 2는 본 발명의 일 실시예에 따른 상품 다차원 분석 방법을 나타낸 순서도.
도 3은 본 발명의 일 실시예에 따른 대분류를 예시한 도면.
도 4는 본 발명의 일 실시예에 따른 워드 임베딩 결과에 따른 각 차원별 각 단어의 유사도값을 예시한 도면.
도 5는 본 발명의 일 실시예에 따른 가중치 행렬을 예시한 도면.
도 6은 본 발명의 일 실시예에 따른 학습 데이터를 예시한 도면.
도 7은 본 발명의 일 실시예에 따른 구 단위 리뷰 데이터를 각 차원으로 분류한 결과를 예시한 도면.
도 8은 본 발명의 일 실시예에 따른 구 단위 리뷰 데이터의 감정 평가 결과를 예시한 도면.
도 9는 본 발명의 일 실시예에 따른 상품 다차원 분석 장치의 내부 구성을 개략적으로 도시한 블록도.
도 10은 본 발명의 일 실시예에 따른 상품 분석 결과를 도시한 도면.
본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "구성된다" 또는 "포함한다" 등의 용어는 명세서상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
이하, 첨부된 도면들을 참조하여 본 발명의 실시예를 상세히 설명한다.
도 1은 본 발명의 일 실시예에 따른 상품 다차원 분석 방법을 위한 사전 준비 과정을 나타낸 순서도이며, 도 2는 본 발명의 일 실시예에 따른 상품 다차원 분석 방법을 나타낸 순서도이고, 도 3은 본 발명의 일 실시예에 따른 대분류를 예시한 도면이고, 도 4는 본 발명의 일 실시예에 따른 워드 임베딩 결과에 따른 각 차원별 각 단어의 유사도값을 예시한 도면이며, 도 5는 본 발명의 일 실시예에 따른 가중치 행렬을 예시한 도면이고, 도 6은 본 발명의 일 실시예에 따른 학습 데이터를 예시한 도면이며, 도 7은 본 발명의 일 실시예에 따른 구 단위 리뷰 데이터를 각 차원으로 분류한 결과를 예시한 도면이며, 도 8은 본 발명의 일 실시예에 따른 구 단위 리뷰 데이터의 감정 평가 결과를 예시한 도면이다. 사전 준비 단계가 완료된 이후의 차원별 스코어링 과정에 대해서는 하기에서 도 2를 참조하여 보다 상세히 설명하기로 한다.
단계 110에서 상품 다차원 분석 장치(100)는 대분류 상품 리뷰 데이터를 수집한다. 예를 들어, 사전 준비 단계에서, 상품 다차원 분석 장치(100)는 각각의 상품이 속하는 대분류에 속한 여러 상품들에 대한 리뷰를 수집하여 스코어 모델 학습에 이용할 수 있다. 즉 분석 대상 상품이 속한 대분류에 포함된 모든 상품에 대한 리뷰 데이터가 수집될 수 있다.
예를 들어, 노트북 상품을 가정하면, 11번가 기준으로 노트북은 "디지털/가전/컴퓨터" 대분류에 속한다. 따라서, 상품 다차원 분석 장치(100)는 "디지털/가전/컴퓨터" 대분류에 포함되는 각각의 중분류별로 각각 리뷰 데이터를 수집할 수 있다(도 3 참조).
또한, 상품 다차원 분석 장치(100)는 각 중분류별 상품의 리뷰 데이터를 수집함에 있어 별점도 함께 수집할 수 있다. 별점에 따라 긍정, 중립, 부정 감정을 별도로 부여할 수 있다. 예를 들어, 상품의 별점이 4 ~ 5점이면 긍정, 3이면 중립, 1~2이면 부정 감정이 부여되었다.
단계 115에서 상품 다차원 분석 장치(100)는 수집된 리뷰 데이터를 형태소 단위로 분석한다.
예를 들어, 상품 다차원 분석 장치(100)는 형태소 분석기 등을 이용하여 수집된 리뷰 데이터에 대한 행태소 분석을 수행할 수 있다. 물론, 상품 다차원 분석 장치(100)는 리뷰 데이터에 대한 형태소 분석을 수행하기 전에, 리뷰 데이터에 대한 전처리 과정을 수행할 수 있다. 즉, 상품 다차원 분석 장치(100)는 각각의 리뷰 데이터를 분석하여, 연결, 종결어미, 마침표 등을 기준으로 리뷰 데이터를 단일 차원의 문구(phrase) 형태로 분해할 수 있다. 예를 들어, 리뷰 데이터가 "모양이나 색은 진짜 제 마음에 쏙 드는데 가격은 역시나 좀 비싸네요"와 같다고 가정하기로 한다. 상품 다차원 분석 장치(100)는 "모양이나 색은 진째 제 마음에 쏙 드는데"와 "역시나 좀 비싸네요"와 같이 구문 형태로 분리할 수 있다. 이와 같이, 구문 형태로 리뷰 데이터를 분리한 후 상품 다차원 분석 장치(100)는 각각의 구문에 대한 형태소 분석을 수행할 수 있다.
단계 120에서 상품 다차원 분석 장치(100)는 형태소 단위로 분석된 리뷰 데이터에 포함된 각각의 단어의 벡터값을 도출한 후 워드 임베딩한다. 상품 다차원 분석 장치(100)는 워드 임베딩을 통해 리뷰 데이터의 각 단어간 유사도를 도출할 수 있다.
예를 들어, 상품 다차원 분석 장치(100)는 Word2Vec 알고리즘을 이용하여 리뷰 데이터의 각 단어를 워드 임베딩할 수 있다.
워드 임베딩 과정을 통해, 상품 다차원 분석 장치(100)는 각 차원에 대한 리뷰 데이터의 각 단어와의 유사도를 판단할 수 있다. 즉, 차원이 "디자인"인 경우, "디자인", "모양", "외관", "색상", "외형", "색감" 등이 해당 차원으로 분류될 수 있다.
도 4에는 워드 임베딩을 통해 각 차원별 단어 유사도값을 도출한 결과가 예시되어 있다. 이와 같이, 상품 다차원 분석 장치(100)는 리뷰 데이터의 각 단어를 워드 임베딩함으로써, 각 차원에 유시한 유사 단어들을 선별할 수 있다.
단계 125에서 상품 다차원 분석 장치(100)는 각 단어에 대한 연관 분석을 수행하여 향상도(lift)값을 도출한다.
즉, 상품 다차원 분석 장치(100)는 각 차원과 단어간 연관도 분석을 통해 향상도(left)값을 도출할 수 있다. 향상도(lift)값은 조건절과 결과절이 서로 독립일 때와 비교하여 두 사건이 동시에 발생할 비율을 나타낸다. 따라서, 향상도값(lift)값이 "1"인 경우 조건절과 결과절은 서로 독립임을 나타낸다.
예를 들어, 리뷰 데이터에 "디자인"이라는 단어가 나왔을 때 "예쁘다"라는 단어가 얼마나 같이 나오는지를 측정하여 두 단어 사이의 연관도가 높음을 이용하여 "예쁘다"라는 리뷰 데이터가 "디자인" 차원에 속하도록 할 수 있다.
단계 130에서 상품 다차원 분석 장치(100)는 각 차원에 상응하여 도출된 각 단어의 유사도값 및 향상도값(lift)을 이용하여 가중치 행렬을 도출한다. 도 5에는 가중치 행렬이 예시되어 있다.
본 발명의 일 실시예에서는 대분류에서 주출된 리뷰 데이터에서 형성된 워드 리스트에서 각 단어별로 LDA 기법을 통해 6개의 차원을 추출한 것을 가정하여 이를 중심으로 설명하기로 한다. 본 발명의 일 실시예에서는 차원이 "가격", "배송", "디자인", "속도", "무게", "성능"과 같이 6개로로 선별된 것을 가정하고 있으나, 차원은 이 외에도 다양하게 추출될 수 있음은 당연하다. 차원은 상품 분석을 위한 분류 기준일 수 있다.
단계 135에서 상품 다차원 분석 장치(100)는 리뷰 데이터에 대한 감정을 기반으로 딥러닝 모델을 학습한다.
예를 들어, 리뷰 데이터를 구문 단위로 분류한 후 각 구문에 대한 긍정, 부정, 중립을 판단할 수 있도록 딥러닝 모델을 학습하였다. 여기서, 딥러닝 모델은 character level CNN 모델일 수 있다.
학습 데이터는 도 6에 예시되어 있다.
도 6에 도시된 바와 같이, 리뷰 데이터에서 분리된 각각의 구에 따른 긍정, 부정, 중립 학습 데이터를 기반을 기반으로 딥러닝 모델을 학습함으로써, 리뷰에 대한 감성 분류가 가능하도록 할 수 있다.
지금까지 사전 준비 모델에 대해 설명하였다. 사전 준비 모델이 완료된 이후, 실제 스코어링 원하는 상품의 리뷰를 기반으로 차원별 스코어링 하는 방법에 대해 도 2를 참조하여 설명하기로 한다.
도 2는 본 발명의 일 실시예에 따른 다차원 상품 분석 방법을 나타낸 순서도이다.
단계 210에서 상품 다차원 분석 장치(100)는 분석 대상 상품의 리뷰 데이터를 크롤링하여 형태소 분석을 통해 구로 분해한다.
이에 대해서는 이미 단계 110 내지 115에서 설명한 바와 동일하므로 중복되는 설명은 생략하기로 한다.
단계 215에서 상품 다차원 분석 장치(100)는 리뷰 데이터의 각각의 구문들이 속하는 차원을 결정한다. 예를 들어, 상품 다차원 분석 장치(100)는 사전 준비 모델에서 도출된 가중치 행렬을 이용하여 PTM(phrase term matrix)을 도출하여 리뷰 데이터가 속하는 차원을 결정할 수 있다.
예를 들어, 상품 다차원 분석 장치(100)는 워드 임베딩 결과에 존재하는 모든 단어들을 리스트로 만든 후 각 리뷰 데이터들을 형태소 단위로 분해하고, 해당 단어가 나오는지 여부를 검사할 수 있다.
예를 들어, 워드 임베딩 결과에 포함된 단어 리스트를 대상으로 리뷰 데이터의 각 구문에 나오면 1, 존재하지 않으면, "0"으로 배정할 수 있다.
이후, 가중치 행렬과 PTM 결과를 내적하여 가장 높은 값을 가지는 각 차원으로 리뷰 데이터의 각 구문을 배정할 수 있다. 이에 대한 결과가 도 7에 도시되어 있다.
단계 220에서 상품 다차원 분석 장치(100)는 각 차원별 리뷰 데이터의 배정 결과를 기반으로 학습된 딥러닝 모델에 적용하여 각 구문의 감성 평가 결과를 도출한다.
도 8에는 노트북 리뷰의 각 구에 대한 감성 평가 결과가 예시되어 있다.
도 8에는 노트북 리뷰의 스코어링 모델 결과가 도시되어 있다. 즉, 상품 다차원 분석 장치(100)는 각 차원별 리뷰 데이터의 구문에 대해 스코어링 모델을 통해 도출된 감성 평가 결과가 각각 도출될 수 있다.
이후, 단계 225에서 상품 다차원 분석 장치(100)는 딥러닝 모델 결과를 기반으로 상품의 리뷰 데이터에 대한 긍정 및 부정 감정 평가 비율을 이용하여 각 상품의 차원에 대한 스코어를 각각 산출할 수 있다.
예를 들어, 각 차원에 대한 스코어는 수학식 1과 같이 도출될 수 있다.
Figure pat00001
도 9는 본 발명의 일 실시예에 따른 상품 다차원 분석 장치의 내부 구성을 개략적으로 도시한 블록도이며, 도 10은 본 발명의 일 실시예에 따른 상품 분석 결과를 도시한 도면이다.
도 9를 참조하면, 본 발명의 일 실시예에 따른 상품 다차원 분석 장치(100)는 사전 준비 모델(901)과 차원별 스코어링 모델(905)을 포함한다.
사전 준비 모델(901)은 차원별 스코어링 모델(905)을 위한 사전 작업 단계로, 가중치 행렬 산출 및 딥 러닝 모델의 학습이 수행될 수 있다. 사전 준비 모델(901)의 결과를 기반으로 차원별 스코어링 모델(905)이 동작될 수 있다.
본 발명의 일 실시예에서 "차원"은 대분류에 상응하는 리뷰 데이터의 토픽 모델링에 따라 도출된 주요 토픽들로, 예를 들어, 가격, 배송, 디자인, 속도, 무게 및 성능일 수 있다. 이외에도 차원은 상이하게 구현될 수도 있음은 당연하다.
우선 사전 준비 모델(901)에 대해 설명한 후 차원별 스코어링 모델(905)에 대해 설명하기로 한다.
사전 준비 모델(901)은 수집부(910), 형태소 분석부(915), 워드 임베딩부(920), 연관 분석부(925), 가중치 행렬 산출부(930) 및 학습부(935)를 포함하여 구성된다.
수집부(910)는 대분류에 포함된 리뷰 데이터를 크롤링하여 수집하기 위한 수단이다. 사전 준비 모델(901)에서는 분석 대상 상품에 대한 리뷰 데이터만을 대상으로 하는 것이 아니라, 대분류에 포함된 모든 리뷰 데이터를 대상으로 수행될 수 있다.
이미 전술한 바와 같이, 노트북 상품에 대해 분석하는 경우, 노트북 상품이 포함된 대분류 "디지털/가전/컴퓨터" 상품군의 리뷰 데이터를 모두 크롤링하여 수집할 수 있다.
형태소 분석부(915)는 형태소 분석기를 통해 리뷰 데이터를 형태로 단위로 분석한다. 형태소 분석부(915)를 통해 리뷰 데이터를 형태소 단위로 분석하기 전에, 리뷰 데이터에 대한 전처리를 수행할 수도 있다. 예를 들어, 이미 전술한 바와 같이, 연결, 종결어미, 마침표 등을 기준으로 리뷰 데이터를 단일 차원의 구(phrase) 단위로 분류한 후 각각의 구 단위로 형태소 분석을 수행할 수도 있다.
워드 임베딩부(920)는 리뷰 데이터에 포함된 각 단어의 벡터값을 도출한 후 워드 임베딩한다. 이는 이미 전술한 바와 같으므로 중복되는 설명은 생략하기로 한다.
연관 분석부(925)는 각 차원과 각 단어간 연관 분석을 통해 향상도값(lift)을 도출하기 위한 수단이다.
가중치 행렬 산출부(930)는 워드 임베딩 결과를 기반으로 각 차원과 각 단어의 유사도값 및 향상도값을 이용하여 가중치 행렬을 산출한다.
학습부(935)는 리뷰 데이터의 각 구들에 대한 감정 상태를 포함하는 학습 데이터를 이용하여 딥 러닝 모델을 학습하기 위한 수단이다.
여기서, 각 리뷰 데이터의 구에 대한 감정 상태는 별점을 기반으로 도출될 수 있다. 이 또한, 이미 전술한 바와 동일하므로, 중복되는 설명은 생략하기로 한다.
사전 준비 모델(901)에 대한 구축이 완료되면, 이를 기반으로 차원별 스코어링 모델(905)을 수행할 수 있다.
차원별 스코어링 모델(905)은 수집부(910), 문장 분해부(940), 차원 분류부(945), 스코어링부(950)를 포함하여 구성된다.
수집부(910)는 분석 대상 상품에 대한 리뷰 데이터를 크롤링하여 수집한다. 차원별 스코어링 모델(905)에서는 실제 분석하고자 하는 상품에 대한 리뷰 데이터를 대상으로 수행될 수 있다.
문장 분해부(940)는 리뷰 데이터를 각각 구(phrase)로 분해한다.
차원 분류부(945)는 기도출된 가중치 행렬을 이용하여 리뷰 데이터의 구들이 포함되는 차원을 결정함으로써, 리뷰 데이터의 구를 각 차원으로 분류할 수 있다.
예를 들어, 차원 분류부(945)는 워드 임베딩된 각각의 단어를 포함하는 단어 리스트를 생성하고, 단어 리스트에 포함된 각 단어들이 상기 리뷰 데이터의 각 구로의 포함 여부에 대한 어구 행렬(Phrase term matrix)을 생성할 수 있다. 이어, 가중치 행렬과 어구 행렬을 내적한 결과를 이용하여 차원별로 구를 각각 분류할 수 있다.
스코어링부(950)는 각 차원별 각 구들을 학습된 딥 러닝 모델에 적용하여 각 차원별 각 구들의 감성 평가 결과를 도출하고, 각 차원별 각 구들의 감성 평가 결과를 이용하여 각 차원에 대한 스코어를 산출한다.
이미 전술한 바와 같이, 스코어링부(950)는 각 차원별 구들의 감정 평가 결과 중 긍정과 부정 비율을 이용하여 각 차원에 대한 스코어를 산출할 수 있다. 이는 수학식 1에서 설명한 바와 같다.
도 10은 삼성 노트북과 엘지 노트북에 대한 각 차원에 대한 스코어링을 비교한 결과이다. 도 10은 11번가 기준으로 삼성 노트 Pen과 LG gram 각각 1000개씩의 크롤링한 리뷰를 바탕으로 형성된 스코어링 비교를 보여준다. 도 9에 도시된 바와 같이, 사용자는 자신의 상품이 어떠한 차원에서 경쟁 상품보다 좋은 평가를 받는지, 나쁜 평가를 받는 지 한 눈에 볼 수 있다.
또한, 도 9에서 설명한 각각의 구성 요소들은 컴퓨터에 포함된 프로세서에 의해 수행되는 각각의 명령어들로 구현될 수도 있다. 또한, 각각의 구성 요소들은 컴퓨터에 포함된 프로세서에서 동작되는 일 구성이거나 프로세서에 의해 실행될 수 있음은 당연하다.
본 발명의 실시 예에 따른 장치 및 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야 통상의 기술자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이제까지 본 발명에 대하여 그 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
100: 상품 다차원 분석 장치
901: 사전 준비 모델
905: 차원별 스코어링 모델
910: 수집부
915: 형태소 분석부
920: 워드 임베딩부
925: 연관 분석부
930: 가중치 행렬 산출부
935: 학습부
940: 문장 분해부
945: 차원 분류부
950: 스코어링부

Claims (11)

  1. (a) 분석 대상 상품에 대한 리뷰 데이터를 수집하는 단계;
    (b) 상기 리뷰 데이터를 각각 구 단위로 분리하는 단계;
    (c) 기도출된 가중치 행렬을 이용하여 상기 리뷰 데이터의 각 구들이 포함되는 차원을 결정하는 단계-상기 차원은 대분류 리뷰 데이터의 토픽 모델링(LDA)을 통해 도출된 상품 평가를 위한 토픽(topic)임;
    (d) 상기 각 차원별 각 구들을 학습된 딥 러닝 모델에 적용하여 각 차원별 각 구들의 감성 평가 결과를 도출하는 단계; 및
    (e) 상기 각 차원별 각 구들의 감성 평가 결과를 이용하여 각 차원에 대한 스코어를 산출하는 단계를 포함하는 상품 다차원 분석 방법.
  2. 제1 항에 있어서,
    상기 (a) 단계 이전에,
    대분류에 포함된 상품들에 대한 리뷰 데이터를 수집하는 단계;
    상기 대분류에 상응하는 리뷰 데이터를 형태소 단위로 분석한 후 각 단어들을 워드 임베딩하는 단계;
    상기 대분류에 상응하는 리뷰 데이터를 연관 분석하여 상기 각 차원에 대한 각 단어에 대한 향상도값(lift)을 산출하는 단계; 및
    상기 워드 임베딩 결과에 따른 각 차원과 각 단어의 유사도값과 상기 향상도값을 이용하여 가중치 행렬을 도출하는 단계를 더 포함하는 것을 특징으로 하는 상품 다차원 분석 방법.
  3. 제2 항에 있어서,
    상기 대분류에 상응하는 리뷰 데이터에 대한 별점을 이용한 감정 상태를 반영한 학습 데이터를 생성하여 상기 딥 러닝 모델을 학습하는 단계를 더 포함하는 것을 특징으로 하는 상품 다차원 분석 방법.
  4. 제1 항에 있어서,
    상기 (c) 단계는,
    상기 워드 임베딩된 각각의 단어를 포함하는 단어 리스트를 생성하고, 상기 단어 리스트에 포함된 각 단어들이 상기 리뷰 데이터의 각 구로의 포함 여부에 대한 어구 행렬(Phrase term matrix)을 생성하는 단계; 및
    상기 가중치 행렬과 상기 어구 행렬을 내적한 결과를 이용하여 차원별로 구를 각각 분류하는 단계를 포함하는 것을 특징으로 하는 상품 다차원 분석 방법.
  5. 제1 항에 있어서,
    상기 (e) 단계는,
    상기 리뷰 데이터의 구 단위 감성 평가 결과 중 긍정과 부정 비율을 이용하여 각 차원에 대한 스코어를 산출하는 것을 특징으로 하는 상품 다차원 분석 방법.
  6. 제1 항 내지 제5 항 중 어느 하나의 항에 따른 방법을 수행하기 위한 프로그램 코드를 기록한 컴퓨터로 판독 가능한 기록매체 상품.
  7. 분석 대상 상품에 대한 리뷰 데이터를 수집하는 수집부;
    상기 리뷰 데이터를 각각 구 단위로 분리하는 문장 분해부;
    기도출된 가중치 행렬을 이용하여 상기 리뷰 데이터의 각 구들이 포함되는 차원을 결정하는 차원 분류부-상기 차원은 대분류 리뷰 데이터의 토픽 모델링(LDA)을 통해 도출된 상품 평가를 위한 토픽(topic)임; 및
    상기 각 차원별 각 구들을 학습된 딥 러닝 모델에 적용하여 각 차원별 각 구들의 감성 평가 결과를 도출하고, 상기 각 차원별 각 구들의 감성 평가 결과를 이용하여 각 차원에 대한 스코어를 산출하는 스코어링부를 포함하는 상품 다차원 분석 장치.
  8. 제7 항에 있어서,
    대분류에 포함된 상품들에 대한 리뷰 데이터를 수집한 후 상기 대분류에 상응하는 리뷰 데이터를 형태소 단위로 분석한 후 각 단어들을 워드 임베딩하는 워드 임베딩부;
    상기 대분류에 상응하는 리뷰 데이터를 연관 분석하여 상기 각 차원에 대한 각 단어에 대한 향상도값(lift)을 산출하는 연관 분석부; 및
    상기 워드 임베딩 결과에 따른 각 차원과 각 단어의 유사도값과 상기 향상도값을 이용하여 가중치 행렬을 도출하는 가중치 행렬 산출부를 더 포함하는 상품 다차원 분석 장치.
  9. 제8 항에 있어서,
    상기 대분류에 상응하는 리뷰 데이터에 대한 별점을 이용한 감정 상태를 반영한 학습 데이터를 생성하여 상기 딥 러닝 모델을 학습하는 학습부를 더 포함하는 상품 다차원 분석 장치.
  10. 제7 항에 있어서,
    상기 차원 분류부는,
    상기 워드 임베딩된 각각의 단어를 포함하는 단어 리스트를 생성하고, 상기 단어 리스트에 포함된 각 단어들이 상기 리뷰 데이터의 각 구로의 포함 여부에 대한 어구 행렬(Phrase term matrix)을 생성하며, 상기 가중치 행렬과 상기 어구 행렬을 내적한 결과를 이용하여 차원별로 구를 각각 분류하는 것을 특징으로 하는 상품 다차원 분석 장치.
  11. 제7 항에 있어서,
    상기 스코어링부는,
    상기 리뷰 데이터의 구 단위 감성 평가 결과 중 긍정과 부정 비율을 이용하여 각 차원에 대한 스코어를 산출하는 것을 특징으로 하는 상품 다차원 분석 장치.

KR1020190127064A 2019-10-14 2019-10-14 상품 리뷰 다차원 분석 방법 및 그 장치 KR20210044017A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190127064A KR20210044017A (ko) 2019-10-14 2019-10-14 상품 리뷰 다차원 분석 방법 및 그 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190127064A KR20210044017A (ko) 2019-10-14 2019-10-14 상품 리뷰 다차원 분석 방법 및 그 장치

Publications (1)

Publication Number Publication Date
KR20210044017A true KR20210044017A (ko) 2021-04-22

Family

ID=75731282

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190127064A KR20210044017A (ko) 2019-10-14 2019-10-14 상품 리뷰 다차원 분석 방법 및 그 장치

Country Status (1)

Country Link
KR (1) KR20210044017A (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113298365A (zh) * 2021-05-12 2021-08-24 北京信息科技大学 一种基于lstm的文化附加值评估方法
KR102505204B1 (ko) 2022-04-01 2023-03-03 주식회사 애자일소다 사용자 후기 분석 장치 및 방법
WO2023063610A1 (ko) * 2021-10-13 2023-04-20 주식회사 스켈터랩스 기계독해를 이용한 리뷰 분석 시스템 및 방법
KR20230081295A (ko) * 2021-11-30 2023-06-07 네이버 주식회사 브랜드 평판 분석 서비스를 제공하기 위한 방법, 컴퓨터 장치, 및 컴퓨터 프로그램
KR102609681B1 (ko) * 2023-01-09 2023-12-05 트리톤 주식회사 사용자의 피드백 반영 제품계획 결정 방법 및 그 장치
WO2023249345A1 (ko) * 2022-06-20 2023-12-28 주식회사 이지태스크 경력 업무 데이터 분석 방법 및 시스템

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190048781A (ko) 2017-10-31 2019-05-09 (주) 애드잇 온라인 의견 정보 수집 및 분석 시스템

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190048781A (ko) 2017-10-31 2019-05-09 (주) 애드잇 온라인 의견 정보 수집 및 분석 시스템

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113298365A (zh) * 2021-05-12 2021-08-24 北京信息科技大学 一种基于lstm的文化附加值评估方法
CN113298365B (zh) * 2021-05-12 2023-12-01 北京信息科技大学 一种基于lstm的文化附加值评估方法
WO2023063610A1 (ko) * 2021-10-13 2023-04-20 주식회사 스켈터랩스 기계독해를 이용한 리뷰 분석 시스템 및 방법
KR20230081295A (ko) * 2021-11-30 2023-06-07 네이버 주식회사 브랜드 평판 분석 서비스를 제공하기 위한 방법, 컴퓨터 장치, 및 컴퓨터 프로그램
KR102505204B1 (ko) 2022-04-01 2023-03-03 주식회사 애자일소다 사용자 후기 분석 장치 및 방법
WO2023249345A1 (ko) * 2022-06-20 2023-12-28 주식회사 이지태스크 경력 업무 데이터 분석 방법 및 시스템
KR102609681B1 (ko) * 2023-01-09 2023-12-05 트리톤 주식회사 사용자의 피드백 반영 제품계획 결정 방법 및 그 장치

Similar Documents

Publication Publication Date Title
KR20210044017A (ko) 상품 리뷰 다차원 분석 방법 및 그 장치
Abdullah et al. SEDAT: sentiment and emotion detection in Arabic text using CNN-LSTM deep learning
CN111797898B (zh) 一种基于深度语义匹配的在线评论自动回复方法
CN110612524B (zh) 信息处理装置、信息处理方法以及记录介质
KR102310487B1 (ko) 속성 단위 리뷰 분석 장치 및 방법
CN108563620A (zh) 文本自动写作方法和系统
Chang et al. Research on detection methods based on Doc2vec abnormal comments
CN105512687A (zh) 训练情感分类模型和文本情感极性分析的方法及系统
JP2017539042A (ja) 任意の言語資産および資源のローカライズ複雑性
KR20160026892A (ko) 논팩토이드형 질의 응답 시스템 및 방법
WO2020253583A1 (zh) 一种作文离题检测方法
JP2013171550A (ja) ノン・ファクトイド型質問応答システム及びコンピュータプログラム
CN110287314B (zh) 基于无监督聚类的长文本可信度评估方法及系统
CN112765974B (zh) 一种业务辅助方法、电子设备及可读存储介质
Huddar et al. Multi-level context extraction and attention-based contextual inter-modal fusion for multimodal sentiment analysis and emotion classification
Syed Applying sentiment and emotion analysis on brand tweets for digital marketing
CN110941953B (zh) 一种兼顾可解释性的网络虚假评论的自动识别方法及系统
CN109101490B (zh) 一种基于融合特征表示的事实型隐式情感识别方法和系统
Al-Kabi et al. Evaluating social context in arabic opinion mining.
Shirani et al. Speech emotion recognition based on SVM as both feature selector and classifier
Mozafari et al. Emotion detection by using similarity techniques
CN115860006A (zh) 一种基于语义句法的方面级情感预测方法及装置
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN111563373A (zh) 聚焦属性相关文本的属性级情感分类方法
Vu et al. Lexical-semantic resources: yet powerful resources for automatic personality classification

Legal Events

Date Code Title Description
E601 Decision to refuse application