WO2023063610A1 - 기계독해를 이용한 리뷰 분석 시스템 및 방법 - Google Patents

기계독해를 이용한 리뷰 분석 시스템 및 방법 Download PDF

Info

Publication number
WO2023063610A1
WO2023063610A1 PCT/KR2022/014139 KR2022014139W WO2023063610A1 WO 2023063610 A1 WO2023063610 A1 WO 2023063610A1 KR 2022014139 W KR2022014139 W KR 2022014139W WO 2023063610 A1 WO2023063610 A1 WO 2023063610A1
Authority
WO
WIPO (PCT)
Prior art keywords
review
analysis
topic
review data
question
Prior art date
Application number
PCT/KR2022/014139
Other languages
English (en)
French (fr)
Inventor
이유원
이현재
박주홍
Original Assignee
주식회사 스켈터랩스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 스켈터랩스 filed Critical 주식회사 스켈터랩스
Publication of WO2023063610A1 publication Critical patent/WO2023063610A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90324Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

본 개시의 일 실시예에 따르는 기계 독해를 이용한 리뷰 분석 시스템은, 복수의 리뷰 데이터를 수집하는 리뷰 데이터 수집 모듈; 수집된 상기 복수의 리뷰 데이터의 문장을 기계 독해(Machine Reading Comprehension, MRC)에 사용될 수 있도록 전처리하는 텍스트 전처리 모듈; 리뷰 대상인 상품 또는 서비스에 관련된 토픽 및 상기 토픽에 관련되고 상기 기계 독해에 사용될 수 있는 질문을 정의하는 토픽 질문 정의 모듈; 및 기계 독해 엔진을 이용하여, 전처리된 상기 복수의 리뷰 데이터의 각각으로부터 상기 정의된 질문에 대한 답변 구간을 추출하고, 관련도 점수를 결정하는 리뷰 분석 모듈을 포함할 수 있고, 상기 리뷰 분석 모듈은 상기 복수의 리뷰 데이터 중에서 상기 관련도 점수가 임계치 이상인 리뷰 데이터를 상기 토픽에 대한 리뷰 데이터로 결정할 수 있다. 그 밖의 다양한 실시예가 가능하다.

Description

기계독해를 이용한 리뷰 분석 시스템 및 방법
본 개시는 기계독해를 이용한 리뷰 분석 시스템 및 이를 운용하기 위한 방법에 관한 것이다.
여기에서 달리 언급하지 않으면 본 섹션에서 기술되는 내용은 본 출원에서의 청구범위의 선행 기술이 아니며, 본 섹션에 기재하였다는 이유로 선행 기술로 인정되어서는 안 된다.
온라인 쇼핑 시장은 코로나19 장기화로 비대면 소비가 늘어나면서 더욱 빠르게 성장하였다. 특히 빠른 배송 시스템과 함께 품목들도 확대되고 있는 등 향후 온라인 쇼핑 시장은 지속 성장할 것으로 예상된다. 온라인 쇼핑은 비대면으로 이뤄지기 때문에 구매한 제품에 대한 소비자들의 평가는 구매후 이뤄지는 상품평 또는 리뷰를 통해 행해지며, 이러한 리뷰 분석에 인공지능을 이용한 감성 분석(sentimental analysis) 등의 기술이 이용되고 있다.
이러한 종래 기술들은 고객들이 작성한 리뷰가 무슨 토픽(topic) 또는 개념(concept)에 대해 언급하고 있는지를 감지할 수 없거나, 토픽을 알아내기 위한 분류기를 학습시켜 사용하거나, 유사 토픽에 대해 언급한 리뷰들을 클러스터링하는 방법을 사용한다.
예를 들어, 리뷰들 중에 “배송"이라는 토픽과 관련된 리뷰들을 선별해 내려면, “배송"을 분류할 수 있는 분류기를 학습시켜야 한다. 이를 위해서는 분류기가 “배송"과 관련된 리뷰를 분류해낼 수 있도록 학습 데이터를 정의해야 한다. 학습된 분류기는 학습 데이터에서 정의한 토픽들만 분류해낼 수 있기 때문에 새로운 토픽을 분류하고자 할 때는 새로운 토픽에 대한 학습 데이터를 새로 정의하고, 모델을 학습시키는 과정이 필요하다.
클러스터링을 이용한 종래 기술은 잠재적으로 개념이 유사한 리뷰들을 그룹화하는 방법을 사용하고, 대표적으로 LDA(Latent Dirichlet Allocation) 알고리즘이 있다. 하지만, 클러스터링을 사용하는 경우, 각 클러스터가 무슨 토픽에 관한 것인지를 명시적으로 알려주지 않아 사람이 직접 보고 판단해야 하고, 알고리즘에 따라 클러스터의 개수를 미리 정의해야 하는 한계가 있다.
다른 방법으로서, 토픽에 관련된 단어들을 미리 정의하여 두고, 리뷰 본문에 해당 단어들이 출현하거나, 기계 학습 방법으로 해당 단어와 리뷰 본문이 유사하다고 판단되면 토픽과 관련된 리뷰로 처리하는 방법이 있다. 이 방법은 리뷰 본문에 토픽 관련 단어가 출현해야 하거나, 기계 학습으로 유사도를 판단하기 위해 모든 토픽 관련 단어들이 미리 정의되고 학습돼야 한다는 단점이 있다.
한국 특허공개공보 제10-2021-0023452호(이하 선행특허문헌)는 속성 단위 리뷰 분석 장치 및 방법에 대하여 개시하고 있다. 선행특허문헌은, 전술한 종래 기술로서, 리뷰 분석을 위하여 리뷰 대상들(리뷰 대상 상품/서비스)의 카테고리 및 리뷰 대상들 각각의 속성을 미리 정의하고, 리뷰 데이터 또는 리뷰 데이터 이외의 학습 데이터를 대상으로 학습 데이터를 미리 정의하고 학습시켜야 하는 부담이 있다.
본 개시는 위와 같은 문제점들을 해결하기 위한 것으로서, 기계 독해 기술에 기초하여 토픽에 대한 기계 학습이 필요 없는 리뷰 분석 시스템 및 방법을 제시한다.
이상의 간단한 요약 및 효과에 관한 설명은 단순히 예시적인 것으로서 본 개시에서 의도한 기술적 사항을 제한하기 위한 것이 아니다. 이하의 상세한 설명과 첨부된 도면을 참조함으로써, 전술한 예시적인 실시예들과 기술적 특징들에 더하여, 추가적인 실시예와 기술적 특징들이 이해될 수 있을 것이다.
본 개시의 일 실시예에 따르는 기계 독해를 이용한 리뷰 분석 컴퓨터 장치는, 복수의 리뷰 데이터를 수집하는 리뷰 데이터 수집 모듈; 수집된 상기 복수의 리뷰 데이터의 문장을 기계 독해(Machine Reading Comprehension, MRC)에 사용될 수 있도록 전처리하는 텍스트 전처리 모듈; 리뷰 대상인 상품 또는 서비스에 관련된 토픽 및 상기 토픽에 관련되고 상기 기계 독해에 사용될 수 있는 질문을 정의하는 토픽 질문 정의 모듈; 및 기계 독해 엔진을 이용하여, 전처리된 상기 복수의 리뷰 데이터의 각각으로부터 상기 정의된 질문에 대한 답변 구간을 추출하고, 관련도 점수를 결정하는 리뷰 분석 모듈을 포함할 수 있고, 상기 리뷰 분석 모듈은 상기 복수의 리뷰 데이터 중에서 상기 관련도 점수가 임계치 이상인 리뷰 데이터를 상기 토픽에 대한 리뷰 데이터로 결정할 수 있다.
본 개시의 일 실시예에 따르는 리뷰 분석 컴퓨터 장치는, 상기 관련도 점수가 임계치 이상인 리뷰 데이터 및/또는 답변 구간에 대하여 감성 분석을 수행하는 감성 분석 엔진을 더 포함하고, 상기 리뷰 분석 모듈은 상기 감성 분석 엔진을 이용하여 상기 리뷰 데이터를 긍정, 부정 또는 중립 중 하나로 분류한 추가 분석 결과를 사용자 장치에 제공할 수 있다.
본 개시의 일 실시예에 따르는 리뷰 분석 컴퓨터 장치는, 상기 관련도 점수가 임계치 이상인 리뷰 데이터 및/또는 답변 구간에서 주요 키워드를 추출하는 키워드 분석 엔진을 더 포함하고, 상기 리뷰 분석 모듈은 상기 키워드 분석 엔진을 이용하여 상기 리뷰 데이터의 문장 중에서 중요도가 높은 키워드를 추출한 추가 분석 결과를 사용자 장치에 제공할 수 있다.
본 개시의 일 실시예에 따르는 리뷰 분석 컴퓨터 장치에 있어서, 상기 토픽 질문 정의 모듈은, 미리 저장된 토픽 및/또는 질문을 사용자 장치에 제공하고 상기 사용자 장치에 대한 사용자의 선택에 기초하여 질문을 정의하거나, 상기 사용자 장치를 통해 사용자가 입력한 자연어 질문에 기초하여 질문을 정의할 수 있다.
본 개시의 일 실시예에 따르는 리뷰 분석 방법은, 수집된 상기 복수의 리뷰 데이터의 문장을 기계 독해(Machine Reading Comprehension, MRC)에 사용될 수 있도록 전처리하는 단계; 토픽 및 상기 토픽에 관련되고 상기 기계 독해에 사용될 수 있는 질문을 정의하는 단계; 기계 독해 엔진을 이용하여, 전처리된 상기 복수의 리뷰 데이터의 각각으로부터 상기 정의된 질문에 대한 답변 구간을 추출하고, 관련도 점수를 결정하는 단계; 및 상기 복수의 리뷰 데이터 중에서 상기 관련도 점수가 임계치 이상인 리뷰 데이터를 상기 토픽에 대한 리뷰 데이터로 결정하는 단계를 포함할 수 있다.
본 개시의 일 실시예에 따르는 리뷰 분석 방법은, 상기 관련도 점수가 임계치 이상인 리뷰 데이터 및/또는 답변 구간에 대하여 감성 분석을 수행하는 단계를 더 포함할 수 있고, 상기 감성 분석을 사용하는 단계는 감성 분석 엔진을 이용하여 상기 리뷰 데이터를 긍정, 부정 또는 중립 중 하나로 분류한 추가 분석 결과를 사용자 장치에 제공하는 단계를 포함할 수 있다.
본 개시의 일 실시예에 따르는 리뷰 분석 방법은, 상기 관련도 점수가 임계치 이상인 리뷰 데이터 및/또는 답변 구간에서 주요 키워드를 추출하는 단계를 더 포함할 수 있고, 상기 주요 키워드를 추출하는 단계는 상기 키워드 분석 엔진을 이용하여 상기 리뷰 데이터의 문장 중에서 중요도가 높은 키워드를 추출한 추가 분석 결과를 사용자 장치에 제공하는 단계를 포함할 수 있다.
본 개시의 일 실시예에 따르는 리뷰 분석 방법에 있어서, 토픽 및 상기 토픽에 관련되고 상기 기계 독해에 사용될 수 있는 질문을 정의하는 단계는, 미리 저장된 토픽 및/또는 질문을 사용자 장치에 제공하고 상기 사용자 장치에 대한 사용자의 선택에 기초하여 질문을 정의하는 단계, 또는 상기 사용자 장치를 통해 사용자가 입력한 자연어 질문에 기초하여 질문을 정의하는 단계를 포함할 수 있다.
본 개시에 따르면, 리뷰를 분석할 때 사용하는 기계 독해 엔진은 기계 독해를 위해 미리 학습되어 있는 모델을 사용하기 때문에 리뷰에서 토픽을 감지하기 위해 추가로 학습시킬 필요가 없다는 장점이 있다.
본 개시에 따르면, 분석하고 싶은 토픽 및 토픽에 대한 질문을 미리 저장할 수 있으며, 또는 사용자가 자연어 입력을 통하여 토픽과 질문을 자유롭게 정의할 수 있다는 점에서 다양한 상품과 서비스에 유연하게 적용할 수 있다는 장점이 있다.
이상의 간단한 요약 및 효과에 관한 설명은 단순히 예시적인 것으로서 본 개시에서 의도한 기술적 사항을 제한하기 위한 것이 아니다. 이하의 상세한 설명과 첨부된 도면을 참조함으로써, 전술한 예시적인 실시예들과 기술적 특징들에 더하여, 추가적인 실시예와 기술적 특징들이 이해될 수 있을 것이다.
본 개시의 전술한 특징들 및 기타 특징들은, 첨부 도면을 참조하여 이하의 설명으로부터 충분히 분명해질 것이다. 이러한 도면들은 본 개시에 따르는 단지 몇 가지의 실시예만을 도시한 것이고, 따라서 그 범위를 제한하는 것으로 간주되어서는 안되는 것을 이해하면서, 본 개시는 첨부된 도면의 사용을 통하여, 더 구체적이고 상세하게 기술될 것이다.
도 1은 상품 판매자가 로컬 컴퓨팅 장치로서 사용자 장치와 상호작용하여 리뷰 분석 결과를 제공받을 수 있는 시스템 환경을 도시한다.
도 2는 본 개시의 일 실시예에 따른 리뷰 분석기의 세부 구성도이다.
도 3은 본 개시의 일 실시예에 따라 리뷰 분석 모듈이 기계 독해 엔진을 이용하여 전처리된 리뷰에 질문을 적용하고 질문에 대한 답변 구간을 추출하여 관련도 점수를 결정하는 과정을 도시한 개념도이다.
도 4는 본 개시의 일 실시예에 따른 리뷰 분석 시스템의 리뷰 분석 결과가 로컬 컴퓨팅 장치 상에 디스플레이되는 예시적인 화면을 도시한다.
도 5는 본 개시의 일 실시예에 따라 기계 독해를 이용하여 리뷰를 분석하는 프로세스를 나타내는 흐름도이다.
도 6은 본 개시의 일 실시예에 따라, 기계 독해를 이용한 리뷰 분석 시스템을 운용하는 데 이용될 수 있는 컴퓨터 프로그램 제품을 도시한다.
이하, 첨부한 도면을 참조하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 구현예 및 실시예를 상세히 설명한다. 그러나, 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 구현예 및 실시예에 한정되지 않는다.
실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 실시될 수 있다. 따라서, 실시예들은 특정한 개시형태로 한정되는 것이 아니며, 본 명세서의 범위는 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
도 1은 상품 판매자가 로컬 컴퓨팅 장치로서 사용자 장치(102)와 상호작용하여 리뷰 분석 결과를 제공받을 수 있는 시스템 환경(100)을 도시한다. 사용자 장치 (102)는 데스크탑 컴퓨터, 노트북 컴퓨터, 태블릿 컴퓨터, 스마트폰, 게임 콘솔, 텔레비전 등과 같은 임의의 컴퓨팅 장치일 수 있다. 사용자 장치(102)는 네트워크(104)를 통해 하나 이상의 네트워크 컴퓨팅 장치(106)와 통신할 수 있다. 네트워크(104)는 LAN, WAN, 인터넷, 전화 네트워크, 케이블 네트워크, 피어-투-피어 네트워크, 메쉬 네트워크 등과 같은 임의의 데이터 통신 네트워크 중 하나 이상의 유형일 수 있다. 네트워크 컴퓨팅 장치(106)는 네트워크 서버, 웹 서버, 파일 서버, 슈퍼컴퓨터, 데스크탑 컴퓨터 등과 같은 컴퓨팅 장치들의 임의의 유형 또는 유형들의 조합일 수 있다. 네트워크 컴퓨팅 장치(106)는 온라인에서 상품을 판매하는 쇼핑몰, 상품 통합 플랫폼, 검색 서비스를 제공할 수 있는 다른 네트워크 컴퓨팅 장치(108)와 연결될 수 있으며, 다른 네트워크 컴퓨팅 장치(108)로부터 리뷰 데이터가 수집될 수 있다.
리뷰 분석 시스템(110)은 적어도 하나 이상의 메모리(112)와 적어도 하나 이상의 프로세서(111)를 포함할 수 있다. 프로세서(111)는 CPU, GPU(graphical processing units), 싱글 코어 프로세서, 멀티 코어 프로세서, ASIC(application specific integrated circuits) 등의 임의의 조합을 포함할 수 있다. 적어도 하나 이상의 프로세서(111)는 하드웨어 구현에 더하여 소프트웨어 및/또는 펌웨어로 구현될 수 있다. 프로세서(111)의 소프트웨어 또는 펌웨어 구현은 임의의 적절한 프로그래밍 언어로 기술되어 전술한 다양한 기능을 수행하는 컴퓨터- 또는 머신- 실행가능 명령어를 포함할 수 있다. 프로세서(111)의 소프트웨어 구현은 메모리(112) 내에 그 전체 또는 일부가 저장될 수 있다.
메모리(112)는 프로세서(111) 상에 로딩되어 실행될 수 있는 명령어들의 프로그램과 이들 프로그램의 실행 중에 생성되는 데이터를 저장할 수 있다. 메모리(112) 상에 저장되는 프로그램과 데이터의 예로는 사용자 장치(102)에 이용가능한 하드웨어 및 소프트웨어 리소스의 동작을 제어하는 운영 체제, 네트워크 컴퓨팅 장치(106, 108), 하드웨어 장치들과 상호작용하기 위한 드라이버, 네트워크(104) 및 다른 컴퓨팅 장치들과 데이터를 주고받을 수 있는 통신 프로토콜, 추가적인 소프트웨어 애플리케이션를 포함할 수 있다. 사용자 장치(102) 및/또는 네트워크 컴퓨팅 장치(106)의 구성 및 종류에 따라, 메모리(112)는 (RAM과 같은) 휘발성일 수도 있고, (ROM이나 플래시 메모리와 같은) 비휘발성일 수도 있다.
리뷰 분석 시스템(110)은 착탈가능형 저장부, 비-착탈가능형 저장부, 로컬 저장부 및/또는 원격 저장부와 같은 추가적인 컴퓨터-판독가능 매체도 포함할 수 있다. 메모리(112) 및 임의의 연관된 컴퓨터-판독가능 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 및 기타 데이터의 저장을 제공할 수 있다. 컴퓨터-판독가능 매체는 적어도 두 가지 종류의 컴퓨터-판독가능 매체, 즉, 컴퓨터 저장 매체와 통신 매체를 포함할 수 있다.
컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 기타 데이터와 같은 정보 저장을 위한 임의의 기법이나 방법에서 구현되는 휘발성 및 비휘발성, 착탈가능형 및 비착탈가능형 매체를 포함한다. 컴퓨터 저장 매체의 예로는 RAM, ROM, EEPROM, 플래시 메모리 또는 기타 메모리 기법, CD-ROM, DVD 또는 기타 광학 저장부, 자기 카세트, 자기 테이프, 자기 디스크 저장부 또는 기타 자기 저장 장치, 또는 기타 저장 장치, 또는 컴퓨터에 의해 액세스될 수 있는 정보를 저장하는 데 사용될 수 있는 기타 비-전송형 매체가 있으나, 여기에 제한되지는 않는다. 한편, 통신 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 기타 데이터를 반송파와 같은 변조된 데이터 신호 또는 기타 전송 메커니즘에 구현할 수 있다.
리뷰 분석 시스템(110)은 사용자 장치(102)와 네트워크 컴퓨팅 장치(들)(108) 중 하나 또는 모두 상에 그 전체 또는 일부가 존재할 수 있다. 따라서, 리뷰 분석 시스템(110)은 다양한 물리적 및 데이터 컴포넌트가 하나 이상의 장소에 위치하면서 함께 작동하여 리뷰 분석 시스템(110)의 역할을 수행하는 분산형 시스템일 수 있다. 어떤 구현예에서는, 리뷰 분석 시스템(110)의 모든 특징이 사용자 장치(102) 상에 존재할 수 있다. 일부 실시예에서, 사용자 장치(102)는 단순히 디스플레이 데이터를 수신하고 사용자 입력 신호를 네트워크 컴퓨팅 장치(들)(108)과 같은 다른 장치로 전송하는 소형 클라이언트(thin client)일 수도 있는데, 이는 리뷰 분석 시스템(110)을 포함한다.
리뷰 분석 시스템(110)은 사용자를 위하여 리뷰 분석 결과를 형성하는 리뷰 분석기(113)를 포함할 수 있다. 리뷰 분석 결과는 사용자 장치(102)를 통해 제공될 수 있다. 일부 실시예에서, 리뷰 분석기(113)는 메모리(112) 내에 전체 또는 부분적으로 존재하는 저장부일 수 있다. 일부 실시예에서, 리뷰 분석기(113)는 ASIC의 일부와 같이 프로세서(111)의 일부로서 구현될 수도 있다. 리뷰 분석 시스템(110) 자체와 같이, 리뷰 분석기(113)는 사용자 장치(102)와 네트워크 컴퓨팅 장치(106) 중 하나 또는 모두 상에 전체 또는 일부가 존재할 수 있다. 리뷰 분석기(113)의 일부 또는 전부가 복수의 컴퓨팅 장치 상에 중복적으로 위치하는 경우, 어느 컴퓨팅 장치를 사용하여 리뷰 분석기(113)를 구현할지는 관련 처리 속도, 네트워크(104)를 통한 정보 전송 속도 및/또는 다른 요인에 따라 선택될 수 있다.
도 2는 본 개시의 일 실시예에 따른 리뷰 분석기의 세부 구성도이다. 도 2는 도 1에 도시한 시스템 환경(100)의 리뷰 분석기(113) 일 수 있다.
도 2를 참조하면, 본 개시의 일 실시예에 따른 리뷰 분석기(113)는 리뷰 수집 모듈(210), 텍스트 전처리 모듈(220), 토픽 질문 정의 모듈(230), 토픽별 질문 정보(240), 리뷰 분석 모듈(250), 기계 독해 엔진(260), 감성 분석 엔진(270), 키워드 분석 엔진(280)을 포함할 수 있다.
리뷰 수집 모듈(210)은 분석의 대상이 되는 리뷰 데이터를 수집할 수 있다. 리뷰 수집 모듈(210)은 크롤링(Crawling)에 의해 다양한 리뷰 대상에 관하여 작성된 리뷰 데이터를 수집할 수 있다. 리뷰 수집 모듈(210)은 SNS/온라인 쇼핑몰/검색엔진 플랫폼 등에 대하여 데이터 파싱을 수행하고 수집된 리뷰 데이터를 저장할 수 있다.
텍스트 전처리 모듈(220)은 리뷰 수집 모듈(210)에 의해 수집된 리뷰 데이터의 문장들을 언어 모델(Language Model)에 사용될 수 있도록 전처리할 수 있다. 언어 모델이란 언어라는 현상을 모델링하기 위하여 단어 문장(sequence)에 확률을 할당하는 모델이다. 다시 말하면, 언어 모델은 가장 자연스러운 단어 시퀀스를 찾아내는 모델이다. 언어 모델은 통계를 이용한 방법 또는 인공 신경망을 이용한 방법에 기초하여 생성될 수 있다. 텍스트 전처리 모듈(220)은 사람이 평소에 사용하는 언어로서 자연어(Natural Language)를 자연어의 구성단위인 형태소, 구문 등을 분석하고 처리하는 자연어처리(NLP: Natural Language Processing) 기술을 사용하여 리뷰 데이터를 전처리할 수 있다. 구체적으로 텍스트 전처리 모듈(220)은 자연어 처리를 통해 언어 모델 또는 기계 독해가 사용될 수 있는 형태의 텍스트(text)로 리뷰 데이터를 번역할 수 있다.
토픽 질문 정의 모듈(230)은 분석의 대상이 되는 리뷰에 관련된 상품 및 서비스에 대한 토픽에 따라 질문(query)을 정의할 수 있다. 구체적으로, 토픽 질문 정의 모듈(230)은 리뷰의 대상 상품 및 서비스를 카테고리에 따라 구분하고 구분된 카테고리에 따라 토픽을 결정하고, 결정된 토픽에 따라 질문을 정의할 수 있다. 여기에서 '토픽'이란 분석하고 싶은 개념을 의미하는 것으로, 토픽은 리뷰 대상 상품 또는 서비스를 소비자가 평가하는 기준 속성일 수 있다. 예를 들어 토픽은 리뷰 대상 상품 또는 서비스의 성능, 디자인, 배송 품질, 및 가격을 포함할 수 있다.
토픽 질문 정의 모듈(230)은 텍스트 전처리 모듈(220)과 마찬가지로 자연어 처리를 통해 언어 모델 또는 기계 독해가 사용될 수 있는 형태의 텍스트(text)로 질문을 정의(또는 번역)할 수 있다
토픽별 질문 정보(240)는 리뷰 대상 상품 또는 서비스별 카테고리에 따라 분류된 토픽 및 토픽에 따라 정의된 질문을 저장할 수 있다. 예를 들어, 토픽별 질문 정보(240)는 아래 표 1과 같이 카테고리 및 토픽에 따라 정의된 질문을 저장할 수 있다. 아래 표 1에서는 공통 카테고리로서 '배송', '제품', '가격' 등에 따른 질문과 패션 카테고리에 대한 '컬러/색상', '사이즈', '핏' 등에 따른 질문 등을 저장할 수 있다.
카테고리 토픽 질문
공통 배송 배송 속도가 빠른가요?
배송 포장 상태가 어떤가요?
제품 제품에 만족하나요?
가격 상품의 가격이 적당한가요?
품질 제품의 품질에 만족하나요?
만족도 제품에 대한 만족도가 높은가요?
재구매 다시 구매하시겠어요?
재구매 의사가 있나요?
패션 컬러/색상 색상이 화면과 같나요?
사이즈 사이즈가 잘 맞나요?
핏이 잘 맞나요?/핏이 어떤가요?
소재 소재가 좋은가요?/재질이 좋은가요?
통풍성 통풍이 잘 되나요?
감촉 감촉이 좋은가요?
착용감 착용시에 불편함이 없나요?
활용도 상품의 활용도가 높은 편인가요?
관리 관리하기에 편한가요?
화장품 사용감 제품의 사용감이 어떤가요?
향기 제품의 향에 만족하나요?
용기 제품의 용기에 만족하나요?
구성 제품의 구성이 괜찮나요?
커버력 잡티 커버가 잘 되나요?
지속력 지속력이 오래 가나요?
주름 주름개선 효과가 있나요?
미백 화장품이 미백 효과가 있나요?
트러블 트러블에 효과가 있나요?
사이즈 용기 사이즈가 적당한가요?
보습력 보습이 잘 되나요?
색상 색상에 만족하나요?
발색 예상했던 색감인가요?
디자인 상품의 디자인에 만족하나요?
거품 거품이 충분히 나나요?
세정력 세정이 잘 되는 편인가요?
진정 진정 효과가 있나요?
자외선 자외선 차단이 잘 되나요?
도포감/발림성 제품이 끈적이나요? 제품이 묽나요?
용량 제품의 용량에 만족하나요?
일 실시예에 따라 토픽별 질문 정보(240)에 저장된 질문은 리뷰 분석 시스템(110)을 관리하는 관리자 또는 사용자가 직접 부여하거나 수정하는 것도 가능하다.
리뷰 분석 모듈(250)은 텍스트 전처리 모듈(220)이 처리한 수집한 각각의 리뷰에 대하여 기계 독해(MRC: Machine Reading Comprehension)를 이용함으로써, 토픽 질문 정의 모듈(230)이 정의한 질문에 대한 관련도를 결정할 수 있다. 관련도는 질문과 리뷰의 관련되는 정도를 나타낼 수 있으며 점수로 결정될 수 있다. 왜냐하면, 리뷰가 어떠한 기준 또는 토픽에 대한 내용을 포함할 것인지는 리뷰를 작성한 소비자가 결정하는 것이므로, 각 리뷰가 정의된 질문에 관련된 것인지 확인하는 과정이 필요하다. 리뷰 분석 모듈(250)은 기계 독해 엔진(260)을 이용하여, 전처리된 리뷰가 포함하는 텍스트 모두와 질문과의 관련도를 판단하고, 관련도가 일정 기준 이상인 경우 해당 텍스트를 질문에 대한 답으로 판단할 수 있다.
도 3은 일 실시예에 따라 리뷰 분석 모듈(250)이 기계 독해 엔진(260)을 이용하여 전처리된 리뷰에 질문을 적용하고 질문에 대한 답변 구간을 추출하고 관련도 점수를 결정하는 과정을 도시한 개념도이다.
도 3을 참조하면, 리뷰 분석 모듈(250)은 정의된 토픽과 질문은 각각 '배송' 및 '배송 속도가 빠른가요?' 및 '배송 포장 상태가 어떤가요?'로 결정하고, “패드 크기가 다른 제품들 보다 크고 굉장히 부드럽게 닦여서 좋았어요. 향도 순하고 자극감도 적고 양도 넉넉해서 좋네요. 포장도 친환경 포장재라 좋고요. 하지만 배송이 느려서 아쉬워요.”라는 리뷰 텍스트를 분석 대상으로 결정할 수 있다. 다시 말하면, 리뷰 분석기(113)는 리뷰 데이터 중에서 “패드 크기가 다른 제품들 보다 크고 굉장히 부드럽게 닦여서 좋았어요. 향도 순하고 자극감도 적고 양도 넉넉해서 좋네요. 포장도 친환경 포장재라 좋고요. 하지만 배송이 느려서 아쉬워요.”라는 리뷰 텍스트를 분석 대상 토픽으로서 '배송'의 질문 '배송 속도가 빠른가요?' 및 '배송 포장 상태가 어떤가요?'를 함께 기계 독해 엔진(260)에 분석 요청할 수 있다.
리뷰 분석 모듈(250)은 '배송 속도가 빠른가요?'라는 질문에 대하여 리뷰 텍스트로부터 “배송은 느려서 아쉬워요”라는 답변을 추출할 수 있고 관련도는 0.9로 결정할 수 있다. 또한 리뷰 분석 모듈(250)은 '배송 포장 상태가 어떤가요?'에 대한 질문에 대해서는 리뷰 텍스트로부터 “포장도 친환경 포장재라 좋고요”라는 답변 구간을 추출할 수 있고, 관련도 점수는 0.6로 결정할 수 있다.
다른 예를 들어, 리뷰 분석 모듈(250)이 위 리뷰 텍스트에 대하여 '향기'라는 토픽에 대한 질문으로서 '제품의 향에 만족하나요?'라는 질문을 대입하였을 때, “향도 순하고 자극감도 적도 양도 넉넉해서 놓네요”라는 답변 구간을 추출할 수 있고, 관련도 점수는 0.8로 결정할 수 있다.
다른 예를 들어, 리뷰 분석 모듈(250)이 위 리뷰 텍스트에 대하여 '트러블'이라는 토픽에 대한 질문으로서 '트러블에 효과가 있나요?'라는 질문을 대입하였을 때, 리뷰 테스트는 '트러블'이라는 토픽에 대하여 어떠한 답변 구간도 추출할 수 없기 때문에 관련도 점수를 0으로 결정할 수 있다.
리뷰 분석 모듈(250)은 복수의 리뷰 텍스트에 대하여 기계 독해 엔진(260)을 이용하여 정의된 토픽 및 질문에 대한 리뷰 각각의 관련도 점수를 결정하고 관련도 점수가 임계치 이상인 경우의 리뷰만을 추출할 수 있다. 예를 들어, 분석 대상으로서 리뷰가 100개가 있다고 가정할 때, 리뷰 분석 모듈(250)은 미리 결정된 임계치로서 관련도 점수가 0.6 이상인 20개의 리뷰만이 정의된 토픽 및 질문에 관련이 있다고 판단할 수 있다.
기계독해 엔진(260)은 리뷰 및 질문의 텍스트에 포함된 단어(word)의 의미를 밀집 벡터화(dense vector)하는 워드 임베딩(Word Embedding) 방법을 이용할 수 있다.
워드 임베딩(Word Embedding)이란 단어를 밀집 벡터(dense vector)로 표현하는 방법으로, 단어를 밀집 표현(Dense Representation)으로 변환하는 것을 의미할 수 있다. 밀집 표현은 희소 표현(Sparse Representation)의 반대되는 개념으로서, 시스템이 설정한 값으로 모든 단어의 벡터 표현의 차원으로 통일하는 것을 의미할 수 있다. 또한, 워드 임베딩은 LSA, Word2Vec, FastText, Glove를 포함하는 다양한 방식으로 구현될 수 있다. 위와 같은 워드 임베딩은 단어들을 벡터화 하기 위하여 웹 백과사전(예: 위키디피아)와 같은 방대한 양의 코퍼스(corpus, 말뭉치)를 가지고 미리 훈련된 임베딩 벡터(Pre-trained embedding vector)를 불러오는 방법을 이용할 수 있다. 또한 수집된 리뷰와 정의된 질문에 적절한 훈련 데이터를 별도로 마련하여 기존 모델의 상위 층(layer)을 해제하여 새로운 층과 함께 학습시키는 Fine-Tuning, 기존 모델을 사용하지 않고 학습하여 벡터화하는 Full-Learning의 방법을 이용할 수도 있다. 이와 같은 기계 학습은 기계 독해 엔진(260)에 포함된 Pre-trained Embedding 모델 및 Fine-tuned 모델을 이용할 수 있다.
감성 분석 엔진(270)은 리뷰 분석 모듈(250)(또는 기계 독해 엔진(260))이 관련도 점수가 임계치 이상이라고 판단한 리뷰 데이터 및/또는 추출된 답변 구간에 대하여 감성 분석(Sentimental Analysis)을 수행할 수 있다.
감성 분석 엔진(270)은 긍정, 부정, 또는 중립의 3개의 클래스로 입력 데이터를 분류하는 모델일 수도 있고, 다른 실시 예에 따라서는 강한긍정, 약한긍정, 강한부정, 약한부정, 중립 등과 같이 더 많은 클래스로 입력 데이터를 분류하도록 학습되는 모델일 수도 있다. 감성 분석 엔진(270)은, 감성 분석 엔진(270)은 자연어 처리 과정에서 컨텍스트 센서티브한 자연어 처리모델을 이용할 수 있다. 예를 들어, 감성 분석 엔진(270)은 자연어 처리 과정 중에서 NER(Named entity recognition)을 위하여 SVM(Support Vector Machine), CRF(Conditional Random Fields), Hidden Markov Models(HMM) 등을 이용할 수 있다. 다른 예를 들어, 감성 분석 엔진(270)은 BERT(Bidirectional Encoder Representations from Transformers) 또는 KoBERT을 대량의 코퍼스(또는 문서)로 사전학습(pre-training)한 후, 사전학습된 모델을 이용하여 상술한 바와 같은 감성분석을 수행하도록 파인튜닝함으로써 구축할 수도 있다. 이러한 사전학습에는 전술한 바와 같이 BERT 등의 공개된 자연어 처리모델 그 자체 또는 리뷰 분석과 관련된 데이터를 추가로 학습하여 구축할 수 있다.
키워드 분석 엔진(280)은 리뷰 분석 모듈(250)(또는 기계 독해 엔진(260))이 관련도 점수가 임계치 이상이라고 판단한 리뷰 데이터 리뷰 데이터 및/또는 추출된 답변 구간에서 키워드(keyword)를 추출할 수 있다. 키워드(keyword)는 문장을 대표할 수 있는 단어나 구의 형태일 수 있다.
키워드 분석 엔진(280)은 TextRank 프로세스를 이용하여 키워드를 추출할 수 있다. TextRank 프로세스는 리뷰 데이터에 대한 형태소 분석을 수행하여 명사 및 대명사 등의 단어를 구분하고 TF-IDF(Term frequency-Inverse document frequency) 알고리즘을 이용하여 단어들의 가중치를 산출하고, 산출된 단어들의 가중치를 기반으로 단어 노드 그래프(node graph)를 생성하고. 단어 가중치 및 단어 노드 그래프에서 연결된 인접한 단어 노드의 수를 기반으로 PageRank 알고리즘을 이용하여 상기 단어 데이터에 포함된 단어들의 중요도 값을 산출하고, 산출된 중요도 값에 따라 키워드를 추출할 수 있다. .
TF-IDF는 데이터 마이닝 등의 분야에서 이용하는 가중치 부여 방식으로, 여러 문서로 이루어진 문서군이 있을 때 어떤 단어의 특정 문서 내에서의 중요도를 나타내는 수치를 의미한다. TF(term frequency)는 특정 단어가 특정 문서 내에 얼마나 자주 등장하는지를 의미하며, IDF(inverse document frequency)는 DF 값의 역수로, DF 값은 문서군 내에서의 단어의 빈도를 의미한다. TF-IDF는 TF 값과 IDF 값의 곱으로 TF-IDF 값이 높을수록 문서의 핵심어로 판단될 수 있다.
도 4는 본 개시의 일 실시예에 따른 리뷰 분석 시스템의 리뷰 분석 결과가 로컬 컴퓨팅 장치 상에 디스플레이되는 예시적인 화면을 도시한다. 화면(400)은 웹 페이지, 텍스트 문서, 워드 프로세싱 문서, 스프레드시트 문서, 또는 HTML이나 XML과 같은 마크업 언어로 기록된 문서를 포함하는 기타 임의의 유형 또는 어플리케이션에 의해 표시되는 그래픽 유저 인터페이스(graphic user interface)일 수 있으며, 여기에 한정되지는 않는다.
도 4를 참조하면, 화면(400)은 감성 분석 결과(410), 키워드 분석 결과(420)를 포함할 수 있다.
감성 분석 결과(410)는 토픽 선택부(411) 및 감정 분석부(412)를 포함할 수 있다. 토픽 선택부(411)는 리뷰 데이터에 대해 정의된 토픽을 나열하여 표시할 수 있다. 예를 들어 도 4에서는 '용기', '향기', '효과', '가격' 및 '만족도'의 토픽을 표시할 수 있다. 사용자는 화면(400)에서 토픽 선택부(411)에 표시된 토픽들 중 하나를 선택할 수 있다. 사용자가 선택한 토픽은 밑줄로 표시될 수 있다. 예를 들어, 도 4에서 '용기'라는 토픽이 선택되어 밑줄이 추가로 표시되었다.
감정 분석부(412)는 선택된 토픽에 대한 감정 분석 결과가 표시될 수 있다. 예를 들어 도 4에서 감정 분석부(412)는 '용기'라는 토픽에 대한 91.4%의 긍정, 5.2%의 부정, 또는 3.4%의 중립의 감정 분석 결과를 포함할 수 있다.
키워드 분석 결과(420)는 주요 이슈 키워드(421) 및 주요 이슈 키워드에 관련된 주요 리뷰 원문(422)을 포함할 수 있다. 주요 이슈 키워드(421)는 키워드 분석 엔진(280)이 주요 키워드로 분석한 키워드가 표시될 수 있다. 사용자는 화면(400)에서 주요 이슈 키워드(421)에 표시된 토픽들 중 하나를 선택할 수 있다. 사용자가 선택한 토픽은 밑줄이 추가로 표시될 수 있다. 예를 들어, 도 4에서 '용기'라는 토픽이 선택되어 밑줄이 추가로 표시되었다.
주요 리뷰 원문(422)은 리뷰 데이터의 전체 텍스트를 표시할 수 있다. 주요 리뷰 원문(422)에 표시된 전체 텍스트는 주요 이슈 키워드(421)에 표시된 키워드를 포함하는 리뷰 텍스트를 표시할 수 있다. 주요 리뷰 원문(422)에 표시된 리뷰 텍스트 중에서 주요 이슈 키워드(421)에 포함된 키워드는 굵은 글씨와 같은 효과가 함께 표시될 수 있다.
주요 리뷰 원문(422)에 표시된 리뷰 텍스트 중에서 감성 분석 결과(410)에 따라 긍정, 부정, 중립으로 분류된 텍스트만 선택적으로 표시될 수 있다. 도 4에서 감정 분석결과에 따라 표시될 리뷰를 선택할 수 있는 드롭 다운 메뉴(413)가 추가로 표시되었으나 팝업박스와 같은 다른 구성으로 표시될 수 있다.
도 5는 본 개시의 일 실시예에 따라 기계 독해를 이용하여 리뷰를 분석하는 프로세스(500)를 나타내는 흐름도이다. 이해를 용이하게 하기 위해, 본 개시에서 논의되는 프로세스는 독립된 블럭으로 표시된 분리된 동작으로서 설명된다. 그러나, 이처럼 분리되어 설명한 동작들이 그 수행에 있어 반드시 정해진 순서대로 수행되어야 하는 것으로 해석해서는 안 된다. 기술된 프로세스들의 수행 순서는 한정사항으로 해석되어서는 안 되고, 설명된 프로세스 블럭 중 임의의 블럭(들)이 임의의 순서로 결합되어 본 프로세스 또는 대체적인 프로세스를 구현할 수 있다. 또한, 제공된 동작들 중 하나 이상이 수정되거나 생략될 수 있다.
프로세스들은 논리적 흐름도 내의 블럭들의 모음으로 도시되어 있는데, 이는 하드웨어, 소프트웨어, 또는 하드웨어와 소프트웨어의 조합으로 구현될 수 있는 일련의 동작들을 나타낸다. 논의를 위해, 프로세스들은 도 1 내지 도 4를 통해 설명된 기계독해를 이용한 리뷰 분석 시스템의 구성 및 사용자 인터페이스를 참조하여 기술된다. 그러나, 프로세스들은 다른 시스템 및/또는 사용자 인터페이스를 이용하여 수행될 수도 있다.
도 5를 참조하면, 단계(501)에서는 리뷰 데이터의 수집 및 전처리가 수행될 수 있다. 리뷰 데이터의 수집 및 전처리는 도 2에 도시된 리뷰 수집 모듈(210) 및/또는 텍스트 전처리 모듈(220)에 의해 수행될 수 있다. 리뷰 데이터 수집은 크롤링을 통해 이뤄질 수 있으며, 수집된 리뷰 데이터에 포함된 문장들은 언어 모델에 의해 사용될 수 있도록 전처리될 수 있다.
단계(503)에서는 토픽 및 토픽에 대한 질문이 정의될 수 있다. '토픽'이란 분석하고 싶은 개념을 의미하는 것으로, 토픽은 리뷰 대상 상품 또는 서비스를 소비자가 평가하는 기준 속성일 수 있다. 예를 들어 토픽은 리뷰 대상 상품 또는 서비스의 성능, 디자인, 배송 품질, 및 가격을 포함할 수 있다. 토픽은 리뷰에 관련된 상품 및 서비스에 따라 정의될 수 있고, 질문(query)은 정의된 토픽에 따라 정의될 수 있다. 일 실시예에 있어서, '토픽' 및 '질문'이 정의된다는 것은 사용자가 미리 저장된 '토픽' 및 '질문' 중에서 원하는 것을 선택하는 것을 의미할 수 있다. 예를 들어, 분석을 원하는 '토픽'을 선택하면, 선택된 '토픽'에 적절한 '질문'이 자동으로 선택될 수 있다. 다른 예를 들어, 사용자가 분석을 원하는 '토픽'을 선택하면, 선택된 '토픽'에 따른 복수의 '질문'이 제시될 수 있고, 사용자는 제시된 '질문'들 중에서 원하는 '질문'을 선택할 수 있다.
다른 실시예에 있어서, '토픽' 및 '질문'이 정의된다는 것은 사용자가 직접 '토픽' 및 '질문'을 입력하는 것을 의미할 수 있다. 예를 들어, 사용자가 미리 저장된 '토픽' 및 '질문' 중에서 원하는 것이 없음을 선택하는 경우, 리뷰 분석 시스템(110)에서는 사용자에게 화면(400)을 통해 '토픽' 및/또는 '질문'을 직접 입력할 수 있는 UI(User Interface)를 팝업박스와 같은 형태로 제공할 수 있다.
단계(505)에서는 리뷰 데이터를 분석 대상 토픽의 질문과 함께 기계 독해 엔진에 분석 요청할 수 있다. 단계(505)는 단계(501)에서 수집되고 전처리된 리뷰 데이터로부터, 단계(503)에서 정의된 토픽 및 질문에 대한 답을 리뷰 분석 모듈(250) 및 기계 독해 엔진(260)에 요청하는 단계일 수 있다.
단계(507)에서 리뷰 데이터에서 토픽의 질문에 대한 답변 구간 추출 및 관련도 점수가 결정될 수 있으며, 단계(509)로 이어져 관련도 점수가 임계치 이상인지 판단할 수 있다. 관련도 점수가 임계치 미만인 경우에는 답변 구간이 추출되지 않을 수 있다. 관련도 점수가 임계치 이상인 리뷰 데이터는 정의된 토픽에 대한 답변을 포함하는 것을 의미할 수 있다.
단계(511)에서는 임계치 이상인 리뷰 데이터 중에서 추출된 답변 구간에 대한 추가 분석이 수행될 수 있다. 추가 분석은 감정 분석 엔진(270) 및 키워드 분석 엔진(280)에 의한 감정 분석 및 키워드 분석을 포함할 수 있다.
단계(513)에서는 관련도 점수가 임계치 이상인 리뷰 데이터 및 이에 대한 추가 분석을 포함하는 리뷰 분석 결과가 저장될 수 있다. 리뷰 분석 결과는 사용자 장치(102)를 통해 화면(400)과 같이 사용자에게 제공될 수 있다.
도 6은 본 개시의 일 실시예에 따라, 기계 독해를 이용한 리뷰 분석 시스템을 운용하는 데 이용될 수 있는 컴퓨터 프로그램 제품(600)을 도시한다. 예시적인 컴퓨터 프로그램 제품의 예시적인 실시예는 신호 베어링 매체(610)를 이용하여 제공된다. 일부 실시예에서, 하나 이상의 컴퓨터 프로그램 제품(600)의 신호 베어링 매체(610)는 컴퓨터 판독가능 매체(630) 및/또는 기록 가능 매체(640)를 포함할 수 있다.
신호 베어링 매체(610)에 포함된 명령어(620)는 리뷰 분석 시스템(110) 내의 프로세서(111) 같은 컴퓨팅 장치에 의해 실행될 수 있고 메모리(112)에 저장될 수 있다. 명령어(620)는, 실행되면, 컴퓨팅 장치로 하여금 복수의 리뷰 데이터를 수집하는 동작; 수집된 상기 복수의 리뷰 데이터의 문장을 기계 독해(Machine Reading Comprehension, MRC)에 사용될 수 있도록 전처리하는 동작; 토픽 및 상기 토픽에 관련되고 상기 기계 독해에 사용될 수 있는 질문을 정의하는 동작; 기계 독해 엔진을 이용하여, 전처리된 상기 복수의 리뷰 데이터의 각각으로부터 상기 정의된 질문에 대한 답변 구간을 추출하고, 관련도 점수를 결정하는 동작; 및 상기 복수의 리뷰 데이터 중에서 상기 관련도 점수가 임계치 이상인 리뷰 데이터를 상기 토픽에 대한 리뷰 데이터로 결정하는 동작을 수행하도록 하는 하나 이상의 명령어를 포함할 수 있다.
전술한 본원의 설명은 예시를 위한 것이며, 본원이 속하는 기술분야의 통상의 지식을 가진 자는 본원의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수도 있다.
이상, 본 개시에서 청구하고자 하는 대상에 대해 구체적으로 살펴보았다. 본 개시에서 청구된 대상은 앞서 기술한 특정 구현예로 그 범위가 제한되지 않는다. 예컨대, 어떤 구현예에서는 장치 또는 장치의 조합 상에서 동작 가능하게 사용되는 하드웨어의 형태일 수 있으며, 다른 구현예에서는 소프트웨어 및/또는 펌웨어의 형태로 구현될 수 있고, 또 다른 구현예에서는 신호 베어링 매체, 저장 매체와 같은 하나 이상의 물품을 포함할 수 있다. 여기서, CD-ROM, 컴퓨터 디스크, 플래시 메모리 등과 같은 저장 매체는, 예컨대 컴퓨팅 시스템, 컴퓨팅 플랫폼 또는 기타 시스템과 같은 컴퓨팅 장치에 의하여 실행될 때 앞서 설명한 구현예에 따라 해당 프로세서의 실행을 야기시킬 수 있는 명령을 저장할 수 있다. 이러한 컴퓨팅 장치는 하나 이상의 처리 유닛 또는 프로세서, 디스플레이, 키보드 및/또는 마우스와 같은 하나 이상의 입/출력 장치, 및 정적 랜덤 액세스 메모리, 동적 랜덤 액세스 메모리, 플래시 메모리 및/또는 하드 드라이브와 같은 하나 이상의 메모리를 포함할 수 있다.
전술한 상세한 설명에서는 블록도, 흐름도 및/또는 기타 예시를 통해 장치 및/또는 프로세스의 다양한 실시예를 설명하였다. 그러한 블록도, 흐름도, 및/또는 기타 예시는 하나 이상의 기능 및/또는 동작을 포함하게 되며, 당업자라면 블록도, 흐름도 및/또는 기타 예시 내의 각각의 기능 및/또는 동작이 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 임의의 조합에 의해 개별적으로 혹은 집합적으로 구현될 수 있다는 점을 이해할 수 있을 것이다. 일 실시예에서, 본 개시에 기재된 대상의 몇몇 부분은 ASIC(Application Specific Integrated Circuit), FPGA(Field Programmable Gate Array), DSP(Digital Signal Processor) 또는 다른 집적의 형태를 통해 구현될 수 있다. 이와 달리, 본 개시의 실시예의 일부 양상은 하나 이상의 컴퓨터 상에 실행되는 하나 이상의 컴퓨터 프로그램(예를 들어, 하나 이상의 컴퓨터 시스템 상에 실행되는 하나 이상의 프로그램), 하나 이상의 프로세서 상에서 실행되는 하나 이상의 프로그램(예를 들어, 하나 이상의 마이크로프로세서 상에서 실행되는 하나 이상의 프로그램), 펌웨어 또는 이들의 실질적으로 임의의 조합으로써 전체적으로 또는 부분적으로 균등하게 집적 회로에서 구현될 수도 있으며, 소프트웨어 및/또는 펌웨어를 위한 코드의 작성 및/또는 회로의 설계는 본 개시에 비추어 당업자의 기술 범위 내에 속하는 것이다. 또한, 당업자라면, 본 개시의 대상의 매커니즘들이 다양한 형태의 프로그램 제품으로 분배될 수 있음을 이해할 것이며, 본 개시의 대상의 예시는 분배를 실제로 수행하는데 사용되는 신호 베어링 매체의 특정 유형과 무관하게 적용됨을 이해할 것이다.
특정 예시적 기법이 다양한 방법 및 시스템을 이용하여 여기에서 기술되고 도시되었으나, 당업자라면, 청구된 대상에서 벗어남이 없이, 다양한 기타의 수정 또는 등가물로의 치환 가능성을 이해할 수 있다. 추가적으로, 여기에 기술된 중심 개념으로부터 벗어남이 없이 특정 상황을 청구된 대상의 교시로 적응시키도록 많은 수정이 이루어질 수 있다. 따라서, 청구된 대상이 개시된 특정 예시로 제한되지 않으나, 그러한 청구된 대상은 또한 첨부된 청구범위 및 그 균등의 범위 내에 들어가는 모든 구현예를 포함할 수 있음이 의도된다.
본 개시의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위, 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본원의 범위에 포함되는 것으로 해석되어야 한다.

Claims (9)

  1. 리뷰 분석을 위한 컴퓨팅 장치로서,
    복수의 리뷰 데이터를 수집하는 리뷰 데이터 수집 모듈;
    수집된 상기 복수의 리뷰 데이터의 문장을 기계 독해(Machine Reading Comprehension, MRC)에 사용될 수 있도록 전처리하는 텍스트 전처리 모듈;
    리뷰 대상인 상품 또는 서비스에 관련된 토픽 및 상기 토픽에 관련되고 상기 기계 독해에 사용될 수 있는 질문을 정의하는 토픽 질문 정의 모듈; 및
    기계 독해 엔진을 이용하여, 전처리된 상기 복수의 리뷰 데이터의 각각으로부터 상기 정의된 질문에 대한 답변 구간을 추출하고, 관련도 점수를 결정하는 리뷰 분석 모듈을 포함하고,
    상기 리뷰 분석 모듈은 상기 복수의 리뷰 데이터 중에서 상기 관련도 점수가 임계치 이상인 리뷰 데이터를 상기 토픽에 대한 리뷰 데이터로 결정하는 것인,
    리뷰 분석을 위한 컴퓨팅 장치.
  2. 제1항에 있어서,
    상기 관련도 점수가 임계치 이상인 리뷰 데이터 및/또는 답변 구간에 대하여 감성 분석을 수행하는 감성 분석 엔진을 더 포함하고,
    상기 리뷰 분석 모듈은 상기 감성 분석 엔진을 이용하여 상기 리뷰 데이터를 긍정, 부정 또는 중립 중 하나로 분류한 추가 분석 결과를 사용자 장치에 제공하는 것인,
    리뷰 분석을 위한 컴퓨팅 장치.
  3. 제1항에 있어서,
    상기 관련도 점수가 임계치 이상인 리뷰 데이터 및/또는 답변 구간에서 주요 키워드를 추출하는 키워드 분석 엔진을 더 포함하고,
    상기 리뷰 분석 모듈은 상기 키워드 분석 엔진을 이용하여 상기 리뷰 데이터의 문장 중에서 중요도가 높은 키워드를 추출한 추가 분석 결과를 사용자 장치에 제공하는 것인,
    리뷰 분석을 위한 컴퓨팅 장치.
  4. 제1항에 있어서,
    상기 토픽 질문 정의 모듈은, 미리 저장된 토픽 및/또는 질문을 사용자 장치에 제공하고 상기 사용자 장치에 대한 사용자의 선택에 기초하여 질문을 정의하거나, 상기 사용자 장치를 통해 사용자가 입력한 자연어 질문에 기초하여 질문을 정의하는 것인,
    리뷰 분석을 위한 컴퓨팅 장치.
  5. 기계 독해를 이용한 리뷰 분석 방법에 있어서,
    복수의 리뷰 데이터를 수집하는 단계;
    수집된 상기 복수의 리뷰 데이터의 문장을 기계 독해(Machine Reading Comprehension, MRC)에 사용될 수 있도록 전처리하는 단계;
    토픽 및 상기 토픽에 관련되고 상기 기계 독해에 사용될 수 있는 질문을 정의하는 단계;
    기계 독해 엔진을 이용하여, 전처리된 상기 복수의 리뷰 데이터의 각각으로부터 상기 정의된 질문에 대한 답변 구간을 추출하고, 관련도 점수를 결정하는 단계; 및
    상기 복수의 리뷰 데이터 중에서 상기 관련도 점수가 임계치 이상인 리뷰 데이터를 상기 토픽에 대한 리뷰 데이터로 결정하는 단계를 포함하는
    기계 독해를 이용한 리뷰 분석 방법.
  6. 제5항에 있어서,
    상기 관련도 점수가 임계치 이상인 리뷰 데이터 및/또는 답변 구간에 대하여 감성 분석을 수행하는 단계를 더 포함하고,
    상기 감성 분석을 사용하는 단계는 감성 분석 엔진을 이용하여 상기 리뷰 데이터를 긍정, 부정 또는 중립 중 하나로 분류한 추가 분석 결과를 사용자 장치에 제공하는 단계를 포함하는 것인,
    기계 독해를 이용한 리뷰 분석 방법.
  7. 제5항에 있어서,
    상기 관련도 점수가 임계치 이상인 리뷰 데이터 및/또는 답변 구간에서 주요 키워드를 추출하는 단계를 더 포함하고,
    상기 주요 키워드를 추출하는 단계는 키워드 분석 엔진을 이용하여 상기 리뷰 데이터의 문장 중에서 중요도가 높은 키워드를 추출한 추가 분석 결과를 사용자 장치에 제공하는 단계를 포함하는 것인,
    기계 독해를 이용한 리뷰 분석 방법.
  8. 제5항에 있어서,
    토픽 및 상기 토픽에 관련되고 상기 기계 독해에 사용될 수 있는 질문을 정의하는 단계는, 미리 저장된 토픽 및/또는 질문을 사용자 장치에 제공하고 상기 사용자 장치에 대한 사용자의 선택에 기초하여 질문을 정의하는 단계, 또는 상기 사용자 장치를 통해 사용자가 입력한 자연어 질문에 기초하여 질문을 정의하는 단계를 포함하는 것인,
    기계 독해를 이용한 리뷰 분석 방법.
  9. 기계 독해를 이용한 리뷰 분석을 운용하기 위한 프로그램을 저장하는 컴퓨터 판독가능 저장 매체로서, 상기 프로그램은 적어도 하나의 프로세서에 의해 실행되는 경우,
    복수의 리뷰 데이터를 수집하는 동작;
    수집된 상기 복수의 리뷰 데이터의 문장을 기계 독해(Machine Reading Comprehension, MRC)에 사용될 수 있도록 전처리하는 동작;
    토픽 및 상기 토픽에 관련되고 상기 기계 독해에 사용될 수 있는 질문을 정의하는 동작;
    기계 독해 엔진을 이용하여, 전처리된 상기 복수의 리뷰 데이터의 각각으로부터 상기 정의된 질문에 대한 답변 구간을 추출하고, 관련도 점수를 결정하는 동작; 및
    상기 복수의 리뷰 데이터 중에서 상기 관련도 점수가 임계치 이상인 리뷰 데이터를 상기 토픽에 대한 리뷰 데이터로 결정하는 동작
    을 수행하도록 하는 하나 이상의 명령어를 포함하는 것인, 컴퓨터 판독가능 저장 매체.
PCT/KR2022/014139 2021-10-13 2022-09-21 기계독해를 이용한 리뷰 분석 시스템 및 방법 WO2023063610A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2021-0135863 2021-10-13
KR1020210135863A KR20230052609A (ko) 2021-10-13 2021-10-13 기계독해를 이용한 리뷰 분석 시스템 및 방법

Publications (1)

Publication Number Publication Date
WO2023063610A1 true WO2023063610A1 (ko) 2023-04-20

Family

ID=85988406

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/014139 WO2023063610A1 (ko) 2021-10-13 2022-09-21 기계독해를 이용한 리뷰 분석 시스템 및 방법

Country Status (2)

Country Link
KR (1) KR20230052609A (ko)
WO (1) WO2023063610A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117725036A (zh) * 2024-02-07 2024-03-19 卓世科技(海南)有限公司 中文提示词压缩方法及装置
CN117725036B (zh) * 2024-02-07 2024-04-26 卓世科技(海南)有限公司 中文提示词压缩方法及装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102628994B1 (ko) * 2023-04-24 2024-01-25 주식회사 엔피오이 인공지능에 기반한 소비자 맞춤형 가방 추천 시스템

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130021944A (ko) * 2011-08-24 2013-03-06 한국전자통신연구원 서술형 질의 응답 방법 및 장치
US20200210504A1 (en) * 2018-12-28 2020-07-02 Go Daddy Operating Company, LLC Recommending domains from free text
KR20210044017A (ko) * 2019-10-14 2021-04-22 한양대학교 산학협력단 상품 리뷰 다차원 분석 방법 및 그 장치
KR102310487B1 (ko) * 2019-08-23 2021-10-08 주식회사 컨슈머인텔리전스 속성 단위 리뷰 분석 장치 및 방법
KR102310616B1 (ko) * 2021-06-16 2021-10-12 멘테인 주식회사 상품 사양 정보와 사용자 리뷰를 이용한 자연어 질의 생성 방법 및 그를 이용한 상품 추천 시스템

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130021944A (ko) * 2011-08-24 2013-03-06 한국전자통신연구원 서술형 질의 응답 방법 및 장치
US20200210504A1 (en) * 2018-12-28 2020-07-02 Go Daddy Operating Company, LLC Recommending domains from free text
KR102310487B1 (ko) * 2019-08-23 2021-10-08 주식회사 컨슈머인텔리전스 속성 단위 리뷰 분석 장치 및 방법
KR20210044017A (ko) * 2019-10-14 2021-04-22 한양대학교 산학협력단 상품 리뷰 다차원 분석 방법 및 그 장치
KR102310616B1 (ko) * 2021-06-16 2021-10-12 멘테인 주식회사 상품 사양 정보와 사용자 리뷰를 이용한 자연어 질의 생성 방법 및 그를 이용한 상품 추천 시스템

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117725036A (zh) * 2024-02-07 2024-03-19 卓世科技(海南)有限公司 中文提示词压缩方法及装置
CN117725036B (zh) * 2024-02-07 2024-04-26 卓世科技(海南)有限公司 中文提示词压缩方法及装置

Also Published As

Publication number Publication date
KR20230052609A (ko) 2023-04-20

Similar Documents

Publication Publication Date Title
Pereira A survey of sentiment analysis in the Portuguese language
Cambria et al. Affective computing and sentiment analysis
Jiang et al. Feature-based approaches to semantic similarity assessment of concepts using Wikipedia
Attia et al. Multilingual multi-class sentiment classification using convolutional neural networks
Ghazi et al. Prior and contextual emotion of words in sentential context
Shutova et al. Conceptual metaphor theory meets the data: a corpus-based human annotation study
Anand et al. Deep learning and natural language processing in computation for offensive language detection in online social networks by feature selection and ensemble classification techniques
CN108108468A (zh) 一种基于概念和文本情感的短文本情感分析方法和装置
Mehta et al. Sentiment analysis of tweets using supervised learning algorithms
Su et al. Latent semantic similarity based interpretation of Chinese metaphors
CN113392179A (zh) 文本标注方法及装置、电子设备、存储介质
WO2023063610A1 (ko) 기계독해를 이용한 리뷰 분석 시스템 및 방법
Rabbimov et al. Investigating the effect of emoji in opinion classification of uzbek movie review comments
JP2017151588A (ja) 画像評価学習装置、画像評価装置、画像検索装置、画像評価学習方法、画像評価方法、画像検索方法、およびプログラム
Garcia et al. Fakerecogna: A new brazilian corpus for fake news detection
Tsumuraya et al. Topic-based clustering of Japanese sentences using sentence-BERT
KR102584452B1 (ko) 기계 독해 학습 데이터 자동 생성 장치 및 그 방법
Wijaya et al. A random walk on the red carpet: rating movies with user reviews and pagerank
Kaur et al. Automatic Punjabi poetry classification using machine learning algorithms with reduced feature set
Rahul et al. Social media sentiment analysis for Malayalam
Skantsi et al. Analyzing the unrestricted web: The finnish corpus of online registers
Santos et al. Experiments in human-computer cooperation for the semantic annotation of Portuguese corpora
Zhang et al. Contextual networks and unsupervised ranking of sentences
Colruyt et al. EventDNA: a dataset for Dutch news event extraction as a basis for news diversification
CN114255067A (zh) 数据定价方法和装置、电子设备、存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22881239

Country of ref document: EP

Kind code of ref document: A1