KR20220118703A - Machine Learning based Online Shopping Review Sentiment Prediction System and Method - Google Patents

Machine Learning based Online Shopping Review Sentiment Prediction System and Method Download PDF

Info

Publication number
KR20220118703A
KR20220118703A KR1020210022444A KR20210022444A KR20220118703A KR 20220118703 A KR20220118703 A KR 20220118703A KR 1020210022444 A KR1020210022444 A KR 1020210022444A KR 20210022444 A KR20210022444 A KR 20210022444A KR 20220118703 A KR20220118703 A KR 20220118703A
Authority
KR
South Korea
Prior art keywords
review
data
emotion prediction
review data
emotion
Prior art date
Application number
KR1020210022444A
Other languages
Korean (ko)
Inventor
안성우
장원태
Original Assignee
동서대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 동서대학교 산학협력단 filed Critical 동서대학교 산학협력단
Priority to KR1020210022444A priority Critical patent/KR20220118703A/en
Publication of KR20220118703A publication Critical patent/KR20220118703A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0278Product appraisal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Abstract

The present invention relates to a machine learning-based online shopping review sentiment prediction system and method. The machine learning-based online shopping review sentiment prediction system and method include a prediction model generation unit generating a sentiment prediction model based on review data after collecting pre-written review data and a server outputting a sentiment prediction result on real-time reviews to be transmitted to a user terminal when the real-time reviews are input to the sentiment prediction model.

Description

머신러닝 기반 온라인 쇼핑 리뷰 감정 예측 시스템 및 방법 {Machine Learning based Online Shopping Review Sentiment Prediction System and Method} Machine Learning based Online Shopping Review Sentiment Prediction System and Method}

본 발명은 머신러닝 기반 온라인 쇼핑 리뷰 감정 예측 시스템 및 방법에 관한 것으로, 보다 구체적으로 기 작성된 리뷰 데이터를 수집한 후 상기 리뷰 데이터를 기반으로 감정예측모델을 생성하고, 상기 감정예측모델에 실시간 리뷰가 입력되면 실시간 리뷰에 대한 감정예측결과를 출력하는 머신러닝 기반 온라인 쇼핑 리뷰 감정 예측 시스템 및 방법에 관한 것이다.The present invention relates to a machine learning-based online shopping review emotion prediction system and method. More specifically, after collecting previously written review data, an emotion prediction model is generated based on the review data, and a real-time review is applied to the emotion prediction model. It relates to a machine learning-based online shopping review emotion prediction system and method for outputting emotion prediction results for real-time reviews when inputted.

온라인 쇼핑몰(online shopping mall) 또는 인터넷 쇼핑몰(internet shopping mall)은 인터넷 등을 이용하여 상품을 매매할 수 있도록 만든 가상 상점을 말한다. 온라인 쇼핑몰은 오프라인 쇼핑몰과는 달리 시간적, 공간적인 제약이 없기 때문에 소비자들은 언제, 어디서나 비교적 저렴한 가격으로 상품을 구입할 수 있다. 온라인 쇼핑몰의 운영자 입장에서는 상권의 제약 없이 소비자의 취향에 맞는 상품정보를 제공할 수 있다. 온라인 쇼핑몰의 운영자는 직접 상품을 소비자에게 판매할 수도 있고 판매자와 소비자를 연결하여 매매를 중계할 수도 있다. 온라인 쇼핑은 물류산업의 발전, 정보통신기술의 발전, 상품 구매의 편리성, 코로나19와 같은 전 세계적 펜데믹 현상 등으로 인하여 최근 들어 급격히 시장규모가 성장하고 있다.An online shopping mall or an internet shopping mall refers to a virtual store created to allow products to be bought and sold using the Internet. Unlike offline shopping malls, online shopping malls do not have time and spatial restrictions, so consumers can purchase products at relatively low prices anytime, anywhere. From the standpoint of an online shopping mall operator, it is possible to provide product information that meets the tastes of consumers without restrictions on the commercial district. The operator of the online shopping mall may directly sell the product to the consumer or relay the sale by connecting the seller and the consumer. The online shopping market is rapidly growing in recent years due to the development of the logistics industry, the development of information and communication technology, the convenience of purchasing products, and a global pandemic such as Corona 19.

온라인 쇼핑몰 관리자는 이러한 온라인 쇼핑몰 성장에 맞춰 소비자들에게 더 나은 서비스를 제공하기 위하여 다양한 기술을 접목시키고 있다. 관련문헌 1은 고객의 오프라인활동 데이터에 기반한 온라인쇼핑상품 추천방법에 관한 것으로, 고객의 관심사, 성향, 소비패턴을 정확하게 분석하여 이와 유사한 다른 고객의 구매이력을 기초로 상품을 추천할 수 있다. 관련문헌 2는 인공지능을 이용한 온라인 쇼핑 시스템에 관한 것으로 온라인 쇼핑에 선행하는 오프라인 쇼핑 정보를 학습하여 상품의 배치, 등장 순서, 가격 조정 등을 수행할 수 있다. Online shopping mall managers are incorporating various technologies to provide better services to consumers in line with the growth of online shopping malls. Related Document 1 relates to a method for recommending online shopping products based on customer's offline activity data. By accurately analyzing customers' interests, tendencies, and consumption patterns, it is possible to recommend products based on similar purchase histories of other customers. Related Document 2 relates to an online shopping system using artificial intelligence, and by learning offline shopping information prior to online shopping, product arrangement, appearance order, price adjustment, etc. can be performed.

다만, 소비자는 온라인 쇼핑몰에서 상품을 구매할 시 가장 중요한 지표로 이전 구매자들의 실사용 후기, 리뷰를 참고하여 구매 의사결정을 내리므로 해당 지표를 활용하는 것을 매우 중요하나, 이를 활용하는 기술은 부족한 실정이다. 즉, 온라인 쇼핑몰 관리자는 이전 구매자들의 실사용 후기, 리뷰를 활용하여 소비자들에게 간접적으로 피드백을 받고 더 나은 서비스를 제공할 수 있는 기술개발이 필요한 실정이다. However, it is very important for consumers to make purchase decisions by referring to actual reviews and reviews of previous buyers as the most important indicator when purchasing products from an online shopping mall. . In other words, it is necessary for online shopping mall managers to develop technologies that can provide better services by indirectly receiving feedback from consumers by using actual reviews and reviews of previous buyers.

KR 10-1740148KR 10-1740148 KR 10-2167345KR 10-2167345

본 발명은 상기와 같은 문제점을 해결하기 위한 것으로, 웹페이지 상에 기재된 다량의 리뷰에 포함된 소비자의 감정을 자동적으로 분석할 수 있도록 기 작성된 리뷰 데이터를 수집한 후 상기 리뷰 데이터를 기반으로 감정예측모델을 생성하는 예측모델 생성부를 포함하고, 상기 감정예측모델에 실시간 리뷰가 입력되면 실시간 리뷰에 대한 감정예측결과를 출력한 후 사용자의 단말기에 상기 감정예측결과를 전송하는 머신러닝 기반 온라인 쇼핑 리뷰 감정 예측 시스템 및 방법을 얻고자 하는 것을 목적으로 한다. The present invention is to solve the above problems, and after collecting pre-written review data so as to automatically analyze the emotions of consumers included in a large amount of reviews written on a web page, emotion prediction based on the review data A machine learning-based online shopping review appraisal comprising a predictive model generator for generating a model, and outputting an emotion prediction result for the real-time review when a real-time review is input to the emotion prediction model, and then transmitting the emotion prediction result to the user's terminal It aims to obtain a prediction system and method.

상기 목적을 달성하기 위하여, 본 발명의 머신러닝 기반 온라인 쇼핑 리뷰 감정 예측 시스템은 기 작성된 리뷰 데이터를 수집한 후 상기 리뷰 데이터를 기반으로 감정예측모델을 생성하는 예측모델 생성부를 포함하고, 상기 감정예측모델에 실시간 리뷰가 입력되면 실시간 리뷰에 대한 감정예측결과를 출력한 후 사용자의 단말기에 상기 감정예측결과를 전송하는 서버;를 제공한다. In order to achieve the above object, the machine learning-based online shopping review emotion prediction system of the present invention includes a prediction model generator that collects pre-written review data and then generates an emotion prediction model based on the review data, and predicts the emotion. When a real-time review is input to the model, the server outputs the emotion prediction result for the real-time review and then transmits the emotion prediction result to the user's terminal.

상기 목적을 달성하기 위하여, 본 발명의 머신러닝 기반 온라인 쇼핑 리뷰 감정 예측 방법은 예측모델 생성부에 의하여, 기 작성된 리뷰 데이터가 수집된 후 상기 리뷰 데이터가 기반이 되어 감정예측모델이 생성되는 예측모델 생성단계; 서버에 의하여, 상기 감정예측모델에 실시간 리뷰가 입력되면 실시간 리뷰에 대한 감정예측결과가 출력되는 감정예측결과 출력단계; 및 상기 서버에 의하여, 사용자의 단말기에 상기 감정예측결과가 전송되는 감정예측결과 전송단계;를 제공한다.In order to achieve the above object, the machine learning-based online shopping review emotion prediction method of the present invention is a predictive model in which, by a predictive model generator, pre-written review data is collected, and then the review data is used as the basis to generate an emotion prediction model. creation step; an emotion prediction result output step of outputting, by the server, an emotion prediction result for the real-time review when a real-time review is input to the emotion prediction model; and an emotion prediction result transmission step in which the emotion prediction result is transmitted to the user's terminal by the server.

이상과 같이 본 발명에 의하면 기 작성된 리뷰 데이터를 수집한 후 상기 리뷰 데이터를 기반으로 감정예측모델을 생성하는 예측모델 생성부를 포함하고, 상기 감정예측모델에 실시간 리뷰가 입력되면 실시간 리뷰에 대한 감정예측결과를 출력한 후 사용자의 단말기에 상기 감정예측결과를 전송함으로써, 웹페이지 상에 기재된 다량의 리뷰에 포함된 소비자의 감정을 자동적으로 분석할 수 있다. 그리고 온라인 쇼핑몰 관리자는 판매하는 상품 및 서비스의 장단점, 호응도, 선호도, 개선점을 용이하게 파악할 수 있고, 이를 바탕으로 더 나은 상품 및 서비스를 미래의 소비자에게 제공할 수 있는 효과가 있다. As described above, according to the present invention, a prediction model generator for generating an emotion prediction model based on the review data after collecting previously written review data is included, and when a real-time review is input to the emotion prediction model, emotion prediction for a real-time review By transmitting the emotion prediction result to the user's terminal after outputting the result, it is possible to automatically analyze the consumer's emotions included in a large number of reviews written on the web page. In addition, the online shopping mall manager can easily identify the strengths and weaknesses, responsiveness, preference, and improvement points of products and services to be sold, and based on this, it is possible to provide better products and services to future consumers.

도 1은 본 발명의 머신러닝 기반 온라인 쇼핑 리뷰 감정 예측 시스템 구성도이다.
도 2는 본 발명의 일실시예에 따른 GRU 기반의 인공 신경망 모델을 표시한 도면이다.
도 3은 본 발명의 일실시예에 따른 감정예측결과가 전송된 단말기 화면을 표시한 도면이다.
도 4는 본 발명의 머신러닝 기반 온라인 쇼핑 리뷰 감정 예측 방법 흐름도이다.
도 5는 본 발명의 일실시예에 따른 예측모델 생성단계 세부흐름도를 표시한 도면이다.
도 6은 본 발명의 일실시예에 따른 리뷰 데이터 길이별 리뷰 데이터를 표시한 도면이다.
1 is a configuration diagram of a machine learning-based online shopping review emotion prediction system of the present invention.
2 is a diagram illustrating a GRU-based artificial neural network model according to an embodiment of the present invention.
3 is a view showing a terminal screen to which an emotion prediction result is transmitted according to an embodiment of the present invention.
4 is a flowchart of a method for predicting emotion in a machine learning-based online shopping review of the present invention.
5 is a diagram showing a detailed flowchart of a predictive model generation step according to an embodiment of the present invention.
6 is a view showing review data for each length of review data according to an embodiment of the present invention.

본 명세서에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.The terms used in this specification have been selected as currently widely used general terms as possible while considering the functions in the present invention, which may vary depending on the intention or precedent of a person skilled in the art, the emergence of new technology, and the like. In addition, in a specific case, there is a term arbitrarily selected by the applicant, and in this case, the meaning will be described in detail in the description of the corresponding invention. Therefore, the term used in the present invention should be defined based on the meaning of the term and the overall content of the present invention, rather than the name of a simple term.

다르게 정의되지 않는 한 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless otherwise defined, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs. Terms such as those defined in a commonly used dictionary should be interpreted as having a meaning consistent with the meaning in the context of the related art, and should not be interpreted in an ideal or excessively formal meaning unless explicitly defined in the present application. does not

머신러닝 기반 온라인 쇼핑 리뷰 감정 예측 시스템Machine learning-based online shopping review sentiment prediction system

이하, 본 발명에 따른 실시예를 첨부한 도면을 참조하여 상세히 설명하기로 한다. 도 1은 본 발명의 머신러닝 기반 온라인 쇼핑 리뷰 감정 예측 시스템 구성도이다. 도 2는 본 발명의 일실시예에 따른 GRU 기반의 인공 신경망 모델을 표시한 도면이다. 도 3은 본 발명의 일실시예에 따른 감정예측결과가 전송된 단말기(200) 화면을 표시한 도면이다. Hereinafter, an embodiment according to the present invention will be described in detail with reference to the accompanying drawings. 1 is a configuration diagram of a machine learning-based online shopping review emotion prediction system of the present invention. 2 is a diagram illustrating a GRU-based artificial neural network model according to an embodiment of the present invention. 3 is a view showing the screen of the terminal 200 to which the emotion prediction result is transmitted according to an embodiment of the present invention.

우선 도 1을 보면, 본 발명의 머신러닝 기반 온라인 쇼핑 리뷰 감정 예측 시스템은 기 작성된 리뷰 데이터를 수집한 후 상기 리뷰 데이터를 기반으로 감정예측모델을 생성하는 예측모델 생성부(110)를 포함하고, 상기 감정예측모델에 실시간 리뷰가 입력되면 실시간 리뷰에 대한 감정예측결과를 출력한 후 사용자의 단말기(200)에 상기 감정예측결과를 전송하는 서버(100)를 포함한다. First, referring to FIG. 1, the machine learning-based online shopping review emotion prediction system of the present invention includes a prediction model generator 110 that collects pre-written review data and then generates an emotion prediction model based on the review data, When a real-time review is input to the emotion prediction model, the server 100 outputs the emotion prediction result for the real-time review and then transmits the emotion prediction result to the user's terminal 200.

도 2를 보면, 가장 바람직하게, 상기 감정예측모델은 순환 신경망의 모델인 LSTM(Long Short Term Memory) 순환 신경망 모델과 비슷한 성능을 유지하면서 더 간단한 구조를 갖는 GRU(Gated Recurrent Unit) 순환 신경망 모델을 사용할 수 있다. 이는, 상기 LSTM은 분석하고자 하는 데이터와 상기 데이터가 사용되는 지점 사이의 거리가 멀어질 경우 역전파 그래디언트가 점점 줄어들어 분석능력이 크게 저하되는 순환 신경망 모델의 문제점을 극복하기 위해 고안된 모델이나 구조가 복잡한 단점이 있다. 즉, 본원발명의 감정예측모델에 GRU 모델이 사용됨으로써, 분석능력의 성능이 유지되면서도 구조가 간단하여 보다 신속하게 상기 감정예측결과가 출력되는 효과가 있다. 2, most preferably, the emotion prediction model is a GRU (Gated Recurrent Unit) recurrent neural network model having a simpler structure while maintaining similar performance to the LSTM (Long Short Term Memory) recurrent neural network model, which is a model of a recurrent neural network. Can be used. This is because the LSTM is a model or structure designed to overcome the problem of a recurrent neural network model in which the analysis ability is greatly reduced as the back propagation gradient gradually decreases when the distance between the data to be analyzed and the point at which the data is used increases. There are disadvantages. That is, since the GRU model is used in the emotion prediction model of the present invention, the performance of the analysis capability is maintained and the structure is simple, so that the emotion prediction result is output more quickly.

다음으로, 상기 감정예측모델이 생성됨에 있어서, 상기 예측모델 생성부(110)는 상기 리뷰 데이터를 수집할 수 있다. 상기 예측모델 생성부(110)는 상기 리뷰 데이터가 포함된 URL 주소가 입력되면 해당 URL 주소가 인터넷 네트워크상에서 활성화되는 올바른 주소인지 우선적으로 확인할 수 있다. Next, when the emotion prediction model is generated, the prediction model generator 110 may collect the review data. When the URL address including the review data is input, the predictive model generator 110 may preferentially check whether the URL address is a valid address activated on the Internet network.

그리고 해당 주소가 올바른 주소일 경우 라이브러리를 활용하여 파싱을 통해 해당 URL 주소 내 리뷰 데이터를 크롤링(Crawling)할 수 있다. 여기서 크롤링은 무수히 많은 컴퓨터에 분산 저장되어 있는 문서를 수집하여 검색 대상의 색인으로 포함시키는 기술을 포괄하여 일컫는다. And if the address is a valid address, the review data in the URL address can be crawled through parsing using the library. Here, crawling refers to a technology that collects documents distributed and stored in countless computers and includes them as an index for a search target.

만약, 다량의 리뷰 데이터가 다수 개의 페이지에 존재한다면 마지막 페이지에 있는 리뷰 데이터 까지 가져온 후 상기 리뷰 데이터를 CSV 파일로 저장할 수 있다. If a large amount of review data exists in multiple pages, the review data can be saved as a CSV file after importing the review data on the last page.

또한, 상기 예측모델 생성부(110)는 상기 CSV 파일을 읽은 후 상기 CSV 파일 내 상기 리뷰 데이터가 텍스트를 포함한다면 상기 리뷰 데이터에 대하여 정규 표현식을 통한 정규화를 수행할 수 있다. 예컨대, 상기 리뷰 데이터 내 공백, 탭키, 특수문자, 자음, 알파벳, 자음 또는 모음 원소 등을 제거할 수 있다. 그리고 전처리된 상기 리뷰 데이터에 대한 새로운 데이터 프레임(Data Frame)을 생성할 수 있다.In addition, after reading the CSV file, the predictive model generator 110 may perform normalization through a regular expression on the review data if the review data in the CSV file includes text. For example, spaces, tab keys, special characters, consonants, alphabets, consonants or vowel elements in the review data may be removed. In addition, it is possible to generate a new data frame (Data Frame) for the pre-processed review data.

다음으로, 상기 예측모델 생성부(110)는 상기 리뷰 데이터에 포함된 평점을 기반으로 상기 리뷰 데이터를 긍정 데이터와 부정 데이터로 분리할 수 있다. Next, the predictive model generator 110 may separate the review data into positive data and negative data based on the rating included in the review data.

예컨대, 상기 예측모델 생성부(110)는 5점이 만점인 상기 평점이 4점 이상인 리뷰 데이터는 라벨(Label)로 1을 부여하고, 상기 평점이 3점 이하인 리뷰 데이터는 라벨(Label)로 0을 부여할 수 있다. For example, the predictive model generating unit 110 assigns 1 as a label to review data having a score of 4 or more with a perfect score of 5, and 0 as a label for review data having a score of 3 or less. can be given

한편, 상기 감정예측모델을 생성하기 위해서는 상기 리뷰 데이터를 훈련 데이터와 테스트 데이터로 분리해야 하는데, 상기 예측모델 생성부(110)는 가장 바람직하게 상기 리뷰 데이터를 훈련 데이터 80%, 테스트 데이터 20% 비율로 분리할 수 있고, 상기 훈련 데이터와 테스트 데이터 각각에 상기 긍정 데이터와 부정 데이터가 5:5 비율로 분포할 수 있도록 분리할 수 있다. On the other hand, in order to generate the emotion prediction model, the review data must be divided into training data and test data, and the predictive model generator 110 most preferably divides the review data into 80% training data and 20% test data. can be separated, and the positive data and the negative data can be divided in a ratio of 5:5 to each of the training data and the test data.

또한, 상기 예측모델 생성부(110)는 기 저장된 불용어 사전을 기반으로 상기 리뷰 데이터를 형태소 단위로 토큰화할 수 있다. 여기서 불용어는 인터넷 검색 시 검색 용어로 사용하지 않는 단어를 총칭하는 말로, 관사, 전치사, 조사, 접속사 등의 경우 검색 색인 단어로 의미가 없는 단어이다. Also, the predictive model generator 110 may tokenize the review data in units of morphemes based on a pre-stored stopword dictionary. Here, stopwords are words that are not used as search terms when searching the Internet.

즉, 상기 예측모델 생성부(110)는 원활한 분석을 위해서 상기 언급한 것과 같이 상기 정규 표현식을 이용하여 한글을 제외한 모든 문자, 빈(Blank) 데이터를 1차적으로 제거하는 전처리를 수행할 수 있고, 형태소 토큰화를 통해서 한글의 관사, 전치사, 조사, 접속사 등의 의미가 없는 단어를 2차적으로 제거할 수 있다. 이에 따라, 상기 리뷰 데이터는 단어로써 의미가 있는 형태소만이 남도록 정제될 수 있다. That is, the predictive model generation unit 110 may perform a pre-processing of primarily removing all characters and blank data except for Hangul using the regular expression as described above for smooth analysis, Through morpheme tokenization, meaningless words such as articles, prepositions, surveys, and conjunctions in Hangul can be removed secondary. Accordingly, the review data may be refined so that only morphemes having meaning as words remain.

한편, 상기 예측모델 생성부(110)는 상기 리뷰 데이터를 토큰화한 후 생성된 형태소 중에서 빈도수가 기 설정된 빈도수 미만이면 정수 인코딩에서 배제되고 해당 형태소가 삭제될 수 있다. 기 설정된 빈도수는 2회 내지 5회 범위이내일 수 있고, 가장 바람직하게 2회일 수 있다. On the other hand, if the frequency of the morphemes generated after tokenizing the review data is less than a preset frequency, the predictive model generator 110 may be excluded from integer encoding and the corresponding morpheme may be deleted. The preset frequency may be within the range of 2 to 5 times, and most preferably 2 times.

또한, 상기 예측모델 생성부(110)는 토큰화된 상기 리뷰 데이터를 정수 인코딩할 수 있다. 이는 상기 예측모델 생성부(110)가 아날로그 형식의 상기 형태소를 디지털 형식으로 인식할 수 있도록 상기 형태소를 숫자로 변경하기 위함이다. Also, the predictive model generator 110 may integer-encode the tokenized review data. This is to change the morpheme into a number so that the predictive model generator 110 can recognize the morpheme in an analog format as a digital format.

예컨대, 상기 예측모델 생성부(110)는 ‘제품이 너무 마음에 들어요’라는 리뷰 데이터가 있다면 {‘제품’, ‘이’, ‘너무’, ‘마음’, ‘에’, ‘들어요’}로 토큰화할 수 있다. 그리고 {102, 332, 131, 221, 442, 113}으로 정수 인코딩할 수 있고, 빈도수가 낮은 ‘이’, ‘에’를 제거한다면 정수 인코딩된 리뷰 데이터가 {102, 131, 221, 113}일 수 있다. 그리고 정수 인코딩된 리뷰 데이터의 길이는 4일 수 있다. 여기서, 길이는 정수 인코딩된 상기 리뷰 데이터의 크기일 수 있다. For example, if there is review data 'I like the product too much', the predictive model generating unit 110 may return {'product', 'this', 'too', 'heart', 'e', 'listen'} to can be tokenized. And if you can encode integers as {102, 332, 131, 221, 442, 113}, and remove low frequency 'this' and 'e', the integer-encoded review data is {102, 131, 221, 113} days can And the length of the integer-encoded review data may be 4. Here, the length may be an integer-encoded size of the review data.

또한, 상기 예측모델 생성부(110)는 정수 인코딩된 상기 리뷰 데이터의 최대 길이와 평균 길이를 기반으로 최적 길이를 선정하고, 정수 인코딩된 상기 리뷰 데이터를 상기 최적 길이로 패딩화할 수 있다. 정수 인코딩된 상기 리뷰 데이터의 길이가 불규칙할 수 있고 이는 향후 인공 신경망이 학습되는 속도에 영향을 미칠 수 있다. 따라서 패딩화 과정을 통해서 정수 인코딩된 상기 리뷰 데이터의 길이를 통일시킴으로써, 정수 인코딩된 상기 리뷰 데이터를 하나의 행렬로 보고 한 번에 처리할 수 있으므로 인공 신경망의 학습속도를 향상시키는 효과가 있다. In addition, the predictive model generator 110 may select an optimal length based on the maximum length and the average length of the integer-encoded review data, and pad the integer-encoded review data to the optimal length. The length of the integer-encoded review data may be irregular, which may affect the speed at which an artificial neural network is trained in the future. Therefore, by unifying the length of the integer-encoded review data through the padding process, the integer-encoded review data can be viewed as one matrix and processed at once, thereby improving the learning speed of the artificial neural network.

도 6은 본 발명의 일실시예에 따른 리뷰 데이터 길이별 리뷰 데이터를 표시한 도면이다. 도 6을 보면, 상기 최적 길이를 선정하는데 있어서, 상기 예측모델 생성부(110)는 정수 인코딩된 상기 리뷰 데이터 전체를 대상으로 상기 최대 길이와 평균 길이를 산출한 후 이를 기반으로 상기 리뷰 데이터 길이별로 리뷰 데이터 수를 나열할 수 있다. 그리고 비율함수를 이용하여 최대 길이 이하의 비율이 몇 % 인지 확인할 수 있다. 도 6에서는 길이가 55 이하인 비율이 99.9%이므로 대부분의 상기 리뷰 데이터를 포함할 수 있고, 이에 따라 상기 최적 길이를 55로 선정할 수 있다. 6 is a view showing review data for each length of review data according to an embodiment of the present invention. Referring to FIG. 6 , in selecting the optimal length, the predictive model generator 110 calculates the maximum length and the average length for the whole of the integer-encoded review data, and then based on this, each review data length You can list the number of review data. And by using the ratio function, it is possible to check what % the ratio below the maximum length is. In FIG. 6 , since the ratio of the length of 55 or less is 99.9%, most of the review data may be included, and accordingly, the optimal length may be selected as 55. As shown in FIG.

가장 바람직하게, 상기 예측모델 생성부(110)는 평점을 기반으로 상기 리뷰 데이터를 긍정 데이터와 부정 데이터로 분리한 것을 바탕으로 정수 인코딩된 상기 리뷰 데이터에서 긍정 데이터와 부정 데이터에 대하여 각각의 최대 길이와 평균 길이를 산출한 후 각각의 최적 길이를 선정할 수 있다.Most preferably, the predictive model generator 110 divides the review data into positive data and negative data based on the rating, and each maximum length for positive data and negative data in the review data that is integer-encoded And after calculating the average length, it is possible to select the optimal length for each.

또한, 상기 예측모델 생성부(110)는 패딩화가 완료되면 패딩화된 상기 리뷰 데이터를 이용하여 GRU 기반의 인공 신경망 모델을 학습시킬 수 있다. 이때, GRU 기반의 인공 신경망 모델을 훈련시킨 후 정확도(D)가 기 설정된 정확도(Dref)를 초과할 경우 상기 감정예측모델로 저장할 수 있다. Also, when padding is completed, the predictive model generator 110 may train a GRU-based artificial neural network model using the padded review data. In this case, after training the GRU-based artificial neural network model, when the accuracy (D) exceeds the preset accuracy (D ref ), it may be stored as the emotion prediction model.

다음으로, 상기 서버(100)는 상기 단말기(200)와 통신 가능하도록 연결될 수 있다. 그리고 상기 서버(100)는 인터넷 네트워크상에서 소비자의 단말기로부터 상기 실시간 리뷰를 입력받을 수 있도록 쇼핑몰의 웹페이지 내 리뷰 입력란을 구현할 수 있다. 그리고 상기 서버(100)는 상기 예측모델 생성부(110)로부터 생성된 감정예측모델을 구비하고 있으므로, 상기 실시간 리뷰가 상기 리뷰 입력란에 입력되면 상기 감정예측모델에 상기 실시간 리뷰를 입력할 수 있고, 상기 감정예측모델로부터 출력된 감정예측결과를 상기 단말기(200)에 전송할 수 있다. 여기서, 상기 단말기(200)는 쇼핑몰을 운영하는 관리자의 단말기일 수 있고, 어플리케이션 설치가 가능한 스마트폰, 테블릿PC 등일 수 있다.Next, the server 100 may be connected to communicate with the terminal 200 . In addition, the server 100 may implement a review input box in a web page of a shopping mall to receive the real-time review input from the consumer's terminal on the Internet network. And since the server 100 includes the emotion prediction model generated by the predictive model generator 110, when the real-time review is input in the review input box, the real-time review can be input to the emotion prediction model, The emotion prediction result output from the emotion prediction model may be transmitted to the terminal 200 . Here, the terminal 200 may be a terminal of an administrator who operates a shopping mall, and may be a smartphone, a tablet PC, or the like capable of installing applications.

또한, 도 3을 보면 상기 감정예측결과는 가장 바람직하게 긍정감정 또는 부정감정 중 하나가 포함되고, 해당되는 감정에 대한 예측정확도가 포함될 수 있다. 예컨대 상기 서버(100)는 ‘배송이 느립니다~’라고 작성된 실시간 리뷰를 상기 감정예측모델에 입력하면 상기 감정예측결과를 상기 단말기(200)에 도 3과 같이 긍정감정 또는 부정 감정 중 하나인 ‘부정 리뷰’와, ‘부정 리뷰’에 대한 예측정확도인 ‘88.57%’을 동시에 제공할 수 있다. In addition, referring to FIG. 3 , the emotion prediction result most preferably includes either positive emotion or negative emotion, and may include prediction accuracy for the corresponding emotion. For example, when the server 100 inputs a real-time review written 'delivery is slow~' into the emotion prediction model, the emotion prediction result is transmitted to the terminal 200 as either a positive emotion or a negative emotion as shown in FIG. 'Negative review' and '88.57%', which is the prediction accuracy for 'negative review', can be provided at the same time.

이상과 같이 본원발명에 의하면, 웹페이지 상에 기재된 다량의 리뷰에 포함된 소비자의 감정을 자동적으로 분석할 수 있도록 구비함으로써, 온라인 쇼핑몰 관리자는 판매하는 상품 및 서비스의 장단점, 호응도, 선호도, 개선점을 파악할 수 있고, 이를 바탕으로 더 나은 상품 및 서비스를 미래의 소비자에게 제공할 수 있는 효과가 있다. As described above, according to the present invention, by providing the ability to automatically analyze the emotions of consumers included in a large number of reviews written on the web page, the online shopping mall manager can determine the strengths and weaknesses, responsiveness, preference, and improvement points of products and services to be sold. It has the effect of being able to provide better products and services to future consumers based on this.

머신러닝 기반 온라인 쇼핑 리뷰 감정 예측 방법Machine Learning-based Online Shopping Review Sentiment Prediction Method

이하, 본 발명에 따른 실시예를 첨부한 도면을 참조하여 상세히 설명하기로 한다. 도 4는 본 발명의 머신러닝 기반 온라인 쇼핑 리뷰 감정 예측 방법 흐름도이다. 도 5는 본 발명의 일실시예에 따른 예측모델 생성단계(S100) 세부흐름도를 표시한 도면이다. Hereinafter, an embodiment according to the present invention will be described in detail with reference to the accompanying drawings. 4 is a flowchart of a method for predicting emotion in a machine learning-based online shopping review of the present invention. 5 is a diagram showing a detailed flowchart of the predictive model generation step (S100) according to an embodiment of the present invention.

우선 도 4를 보면, 본 발명의 머신러닝 기반 온라인 쇼핑 리뷰 감정 예측 방법 예측모델 생성단계(S100), 감정예측결과 출력단계(S200) 및 감정예측결과 전송단계(S300)를 포함할 수 있다. First, referring to FIG. 4 , the machine learning-based online shopping review emotion prediction method of the present invention may include a prediction model generation step (S100), an emotion prediction result output step (S200), and an emotion prediction result transmission step (S300).

보다 구체적으로, 상기 예측모델 생성단계(S100)는 상기 예측모델 생성부(110)에 의하여, 기 작성된 리뷰 데이터가 수집된 후 상기 리뷰 데이터가 기반이 되어 감정예측모델이 생성된다, More specifically, in the predictive model generating step (S100), after the previously written review data is collected by the predictive model generating unit 110, an emotion prediction model is generated based on the review data.

상기 예측모델 생성단계(S100)는 기 작성된 리뷰 데이터를 수집하는데 있어서, 상기 예측모델 생성부(110)에 상기 리뷰 데이터가 포함된 URL 주소가 입력되면 해당 URL 주소가 인터넷 네트워크상에서 활성화되는 올바른 주소인지 우선적으로 확인될 수 있다. In the predictive model generating step (S100), in collecting the previously written review data, when the URL address including the review data is input to the predictive model generating unit 110, whether the URL address is a valid address activated on the Internet network can be identified first.

그리고 해당 주소가 올바른 주소일 경우 라이브러리가 활용되어 파싱을 통해 해당 URL 주소 내 리뷰 데이터가 크롤링(Crawling)될 수 있다. 여기서 크롤링은 무수히 많은 컴퓨터에 분산 저장되어 있는 문서를 수집하여 검색 대상의 색인으로 포함시키는 기술을 포괄하여 일컫는다. And if the address is a valid address, the library is utilized and the review data in the URL address can be crawled through parsing. Here, crawling refers to a technology that collects documents distributed and stored in countless computers and includes them as an index for a search target.

만약, 다량의 리뷰 데이터가 다수 개의 페이지에 존재한다면 마지막 페이지에 있는 리뷰 데이터까지 가져온 후 상기 리뷰 데이터가 CSV 파일로 저장될 수 있다. If a large amount of review data exists in a plurality of pages, the review data may be saved as a CSV file after importing even the review data in the last page.

한편, 상기 예측모델 생성단계(S100)는 상기 CSV 파일이 읽혀진 후 상기 CSV 파일 내 상기 리뷰 데이터에 텍스트가 포함된다면 상기 리뷰 데이터에 대하여 정규 표현식을 통한 정규화가 수행될 수 있다. 예컨대, 상기 리뷰 데이터 내 공백, 탭키, 특수문자, 자음, 알파벳, 자음 또는 모음 원소 등이 제거될 수 있다. 그리고 전처리된 상기 리뷰 데이터에 대한 새로운 데이터 프레임(Data Frame)이 생성될 수 있다.On the other hand, in the predictive model generation step (S100), after the CSV file is read, if text is included in the review data in the CSV file, normalization through a regular expression may be performed on the review data. For example, spaces, tab keys, special characters, consonants, alphabets, consonants or vowel elements in the review data may be removed. In addition, a new data frame (Data Frame) for the pre-processed review data may be generated.

또한, 상기 예측모델 생성단계(S100)는 기 작성된 리뷰 데이터가 수집된 후 상기 리뷰 데이터가 전처리 및 학습될 수 있도록 라벨링 단계(S110), 토큰화 단계(S120), 정수 인코딩 단계(S130), 패딩화 단계(S140) 및 학습 단계(S150)를 포함할 수 있다.In addition, the predictive model generation step (S100) includes a labeling step (S110), a tokenization step (S120), an integer encoding step (S130), and padding so that the review data can be pre-processed and learned after the previously written review data is collected. It may include a learning step (S140) and a learning step (S150).

보다 구체적으로, 도 5를 보면 상기 라벨링 단계(S110)는 상기 리뷰 데이터에 포함된 평점이 기반이 되어 상기 리뷰 데이터가 긍정 데이터와 부정 데이터로 분리된 후 라벨링 될 수 있다. More specifically, referring to FIG. 5 , the labeling step ( S110 ) may be labeled after the review data is divided into positive data and negative data based on the rating included in the review data.

예컨대, 상기 라벨링 단계(S110)는 5점이 만점인 상기 평점이 4점 이상인 리뷰 데이터는 라벨(Label)로 1이 부여되고, 상기 평점이 3점 이하인 리뷰 데이터는 라벨(Label)로 0이 부여될 수 있다. For example, in the labeling step (S110), 1 is given as a label for review data with a score of 4 or more, which is out of 5, and 0 is given as a label for review data with a score of 3 or less. can

한편, GRU 기반의 인공 신경망 모델이 학습되기 위해서는 상기 리뷰 데이터가 훈련(train) 데이터와 테스트(test) 데이터로 분리되어야 하는데, 상기 라벨링 단계(S110)는 가장 바람직하게 상기 리뷰 데이터가 훈련(train) 데이터 80%, 테스트(test) 데이터 20% 비율로 분리될 수 있고, 상기 훈련(train) 데이터와 테스트(test) 데이터 각각에 상기 긍정 데이터와 부정 데이터가 5:5 비율로 분포될 수 있도록 분리될 수 있다. On the other hand, in order for the GRU-based artificial neural network model to be learned, the review data must be separated into training data and test data. The data can be separated at a ratio of 80% and test data 20%, and the positive data and the negative data can be divided in a ratio of 5:5 to each of the training data and test data. can

다음으로, 상기 토큰화 단계(S120)는 기 저장된 불용어 사전이 기반이 되어 상기 리뷰 데이터가 토큰화되고, 형태소만 추출될 수 있다. 여기서 불용어는 인터넷 검색 시 검색 용어로 사용하지 않는 단어를 총칭하는 말로, 관사, 전치사, 조사, 접속사 등의 경우 검색 색인 단어로 의미가 없는 단어이다. Next, in the tokenization step ( S120 ), the review data is tokenized based on the pre-stored stopword dictionary, and only morphemes can be extracted. Here, stopwords are words that are not used as search terms when searching the Internet.

즉, 본원발명은 상기 예측모델 생성단계(S100)로부터 상기 정규 표현식이 이용되어 한글을 제외한 모든 문자, 빈(Blank) 데이터가 1차적으로 제거되는 전처리가 수행될 수 있고, 상기 토큰화 단계(S120)로부터 형태소 토큰화를 통해서 한글의 관사, 전치사, 조사, 접속사 등의 의미가 없는 단어가 2차적으로 제거될 수 있다. 이에 따라, 상기 리뷰 데이터는 단어로써 의미가 있는 형태소만이 남도록 정제될 수 있다. That is, in the present invention, the regular expression is used from the predictive model generation step (S100) to perform preprocessing in which all characters except for Hangul and blank data are primarily removed, and the tokenization step (S120) ), through morpheme tokenization, meaningless words such as articles, prepositions, propositions, and conjunctions in Hangul can be removed secondarily. Accordingly, the review data may be refined so that only morphemes having meaning as words remain.

한편, 상기 토큰화 단계(S120)는 상기 리뷰 데이터가 토큰화된 후 생성된 형태소 중에서 빈도수가 기 설정된 빈도수 미만이면 정수 인코딩 단계(S130)에서 배제되고 해당 형태소가 삭제될 수 있다. 기 설정된 빈도수는 2회 내지 5회 범위이내일 수 있고, 가장 바람직하게 2회일 수 있다. Meanwhile, in the tokenization step (S120), if the frequency among morphemes generated after the review data is tokenized is less than a preset frequency, the integer encoding step (S130) may exclude the morpheme and delete the corresponding morpheme. The preset frequency may be within the range of 2 to 5 times, and most preferably 2 times.

다음으로, 상기 정수 인코딩 단계(S130)는 토큰화된 상기 리뷰 데이터가 정수 인코딩될 수 있다. 이는 상기 예측모델 생성부(110)가 아날로그 형식의 상기 형태소를 디지털 형식으로 인식할 수 있도록 상기 형태소가 숫자로 변경되기 위함이다. Next, in the integer encoding step (S130), the tokenized review data may be integer-encoded. This is to change the morpheme into a number so that the predictive model generator 110 can recognize the morpheme in an analog format as a digital format.

예컨대, 상기 예측모델 생성부(110)에 의하여 ‘제품이 너무 마음에 들어요’라는 리뷰 데이터가 입력되면, 상기 토큰화 단계(S120)는 상기 리뷰 데이터가 {‘제품’, ‘이’, ‘너무’, ‘마음’, ‘에’, ‘들어요’}로 토큰화될 수 있고, 빈도수가 낮은 ‘이’, ‘에’가 제거될 수 있다. 그리고 상기 정수 인코딩 단계(S130)는 토큰화된 상기 리뷰 데이터가 {102, 332, 131, 221, 442, 113}으로 정수 인코딩될 수 있다. 이때, 빈도수가 낮은 ‘이’, ‘에’가 제거되었으므로 정수 인코딩된 리뷰 데이터는 가장 바람직하게 {102, 131, 221, 113}일 수 있다. 그리고 정수 인코딩된 리뷰 데이터의 길이는 4일 수 있다. 여기서, 길이는 정수 인코딩된 상기 리뷰 데이터의 크기일 수 있다.For example, when review data 'I like the product too much' is input by the predictive model generating unit 110, the tokenization step (S120) determines that the review data is {'product', 'this', 'too much' ', 'mind', 'e', 'listen'}, and low frequency 'this' and 'e' can be removed. And in the integer encoding step (S130), the tokenized review data may be integer-encoded as {102, 332, 131, 221, 442, 113}. In this case, since 'this' and 'e', which are low in frequency, are removed, the integer-encoded review data may be most preferably {102, 131, 221, 113}. And the length of the integer-encoded review data may be 4. Here, the length may be an integer-encoded size of the review data.

다음으로, 상기 패딩화 단계(S140)는 정수 인코딩된 상기 리뷰 데이터의 최대 길이와 평균 길이가 기반이 되어 최적 길이가 선정되고, 정수 인코딩된 상기 리뷰 데이터가 상기 최적 길이로 패딩화될 수 있다. Next, in the padding step (S140), an optimal length is selected based on the maximum length and average length of the integer-encoded review data, and the integer-encoded review data may be padded to the optimal length.

정수 인코딩된 상기 리뷰 데이터의 길이가 불규칙할 수 있고 이는 향후 인공 신경망이 학습되는 속도에 영향을 미칠 수 있다. 따라서 상기 패딩화 단계(S140)는 정수 인코딩된 상기 리뷰 데이터의 길이가 통일되도록 한다. The length of the integer-encoded review data may be irregular, which may affect the speed at which an artificial neural network is trained in the future. Accordingly, in the padding step (S140), the integer-encoded length of the review data is uniform.

도 6을 보면, 상기 최적 길이를 선정하는데 있어서, 상기 패딩화 단계(S140)는 정수 인코딩된 상기 리뷰 데이터 전체가 대상이 되어 상기 최대 길이와 평균 길이가 산출된 후 이를 기반으로 상기 리뷰 데이터 길이별로 리뷰 데이터 수가 나열될 수 있다. 그리고 비율함수가 이용되어 최대길이 이하의 비율이 몇 % 인지 확인될 수 있다. 도 6에서는 길이가 55 이하인 비율이 99.9%이므로 대부분의 상기 리뷰 데이터가 포함될 수 있고, 이에 따라 상기 최적 길이가 55로 선정될 수 있다. Referring to FIG. 6 , in selecting the optimal length, in the padding step ( S140 ), the whole of the integer-encoded review data is a target, and the maximum length and the average length are calculated, and then based on this, each review data length is determined. A number of review data may be listed. And the ratio function can be used to check what % the ratio below the maximum length is. In FIG. 6 , since the ratio of the length of 55 or less is 99.9%, most of the review data may be included, and accordingly, the optimal length may be selected as 55. As shown in FIG.

가장 바람직하게, 상기 패딩화 단계(S140)는 평점이 기반이 되어 상기 리뷰 데이터가 긍정 데이터와 부정 데이터로 분리된 것을 바탕으로 정수 인코딩된 상기 리뷰 데이터에서 긍정 데이터와 부정 데이터에 대하여 각각의 최대 길이와 평균 길이가 산출된 후 각각의 최적 길이가 선정될 수 있다.Most preferably, in the padding step ( S140 ), the maximum length for positive data and negative data in the review data that is integer-encoded based on the rating as a basis and the review data is divided into positive data and negative data After calculating the and average length, each optimal length may be selected.

다음으로, 상기 학습 단계(S150)는 패딩화가 완료되면 패딩화된 상기 리뷰 데이터가 이용되어 GRU 기반의 인공 신경망 모델이 학습될 수 있다. 이때, GRU 기반의 인공 신경망 모델이 훈련된 후 정확도(D)가 기 설정된 정확도(Dref)를 초과할 경우 상기 감정예측모델로 저장될 수 있다. Next, in the learning step ( S150 ), when padding is completed, the padded review data may be used to learn a GRU-based artificial neural network model. In this case, when the accuracy (D) exceeds the preset accuracy (D ref ) after the GRU-based artificial neural network model is trained, it may be stored as the emotion prediction model.

다음으로, 상기 감정예측결과 출력단계(S200)는 서버(100)에 의하여, 상기 감정예측모델에 실시간 리뷰가 입력되면 실시간 리뷰에 대한 감정예측결과가 출력된다. Next, in the emotion prediction result output step (S200), when a real-time review is input to the emotion prediction model by the server 100, an emotion prediction result for the real-time review is output.

상기와 같이 감정예측모델이 생성된 후 상기 감정예측결과 출력단계(S200)는 상기 서버(100)로부터 구현된 온라인 쇼핑몰의 웹페이지 내 리뷰 입력란에 실시간으로 입력된 상기 실시간 리뷰가 상기 검정예측모델에 입력될 수 있다. 이때, 상기 감정예측결과 출력단계(S200)는 긍정감정 또는 부정감정 중 하나가 포함되고, 해당되는 감정에 대한 예측정확도가 포함되는 감정예측결과가 출력될 수 있다. After the emotion prediction model is generated as described above, the emotion prediction result output step (S200) is the real-time review inputted in real time in the review input field in the web page of the online shopping mall implemented from the server 100 is applied to the test prediction model. can be entered. In this case, the emotion prediction result output step ( S200 ) may include an emotion prediction result including either positive emotion or negative emotion, and prediction accuracy for the corresponding emotion.

다음으로, 상기 감정예측결과 전송단계(S300)는 상기 서버(100)에 의하여, 사용자의 단말기(200)에 상기 감정예측결과가 전송된다. 여기서, 상기 단말기(200)는 쇼핑몰을 운영하는 관리자의 단말기이고, 어플리케이션 설치가 가능한 스마트폰, 테블릿PC 등일 수 있다. Next, in the emotion prediction result transmission step S300 , the emotion prediction result is transmitted to the user's terminal 200 by the server 100 . Here, the terminal 200 is a terminal of an administrator who operates a shopping mall, and may be a smart phone, a tablet PC, or the like capable of installing an application.

그리고 상기 감정예측결과 전송단계(S300)는 상기 감정예측결과가 상기 단말기(200)에 도 3과 같이 긍정감정 또는 부정 감정 중 하나인 ‘부정 리뷰’와 ‘부정 리뷰’에 대한 예측정확도인 ‘88.57%’가 동시에 제공될 수 있다. And the emotion prediction result transmission step (S300) is the prediction accuracy for 'negative review' and 'negative review', which are either positive or negative emotions, as shown in FIG. 3, in which the emotion prediction result is transmitted to the terminal 200, '88.57 %' may be provided simultaneously.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 으로 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.As described above, although the embodiments have been described with reference to the limited embodiments and drawings, various modifications and variations are possible by those skilled in the art from the above description. For example, the described techniques are performed in an order different from the described method, and/or the components of a system, structure, apparatus, circuit, etc. described as are combined or combined in a different manner than the described method, or other configuration. Substituted or substituted for elements or equivalents may achieve appropriate results.

그러므로 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents to the claims are also within the scope of the following claims.

100.. 서버
110.. 예측모델 생성부
200.. 단말기
100.. Server
110. Prediction model generation unit
200.. Terminal

Claims (5)

기 작성된 리뷰 데이터를 수집한 후 상기 리뷰 데이터를 기반으로 감정예측모델을 생성하는 예측모델 생성부를 포함하고, 상기 감정예측모델에 실시간 리뷰가 입력되면 실시간 리뷰에 대한 감정예측결과를 출력한 후 사용자의 단말기에 상기 감정예측결과를 전송하는 서버;를 포함하는 머신러닝 기반 온라인 쇼핑 리뷰 감정 예측 시스템.and a predictive model generator for generating an emotion prediction model based on the review data after collecting pre-written review data, and when a real-time review is input to the emotion prediction model, after outputting an emotion prediction result for the real-time review A machine learning-based online shopping review emotion prediction system comprising a; a server that transmits the emotion prediction result to a terminal. 예측모델 생성부에 의하여, 기 작성된 리뷰 데이터가 수집된 후 상기 리뷰 데이터가 기반이 되어 감정예측모델이 생성되는 예측모델 생성단계;
서버에 의하여, 상기 감정예측모델에 실시간 리뷰가 입력되면 실시간 리뷰에 대한 감정예측결과가 출력되는 감정예측결과 출력단계; 및
상기 서버에 의하여, 사용자의 단말기에 상기 감정예측결과가 전송되는 감정예측결과 전송단계;를 포함하는 머신러닝 기반 온라인 쇼핑 리뷰 감정 예측 방법.
a predictive model generation step of generating, by the predictive model generating unit, an emotion prediction model based on the review data after the previously written review data is collected;
an emotion prediction result output step of outputting, by the server, an emotion prediction result for the real-time review when a real-time review is input to the emotion prediction model; and
A machine learning-based online shopping review emotion prediction method comprising a; by the server, an emotion prediction result transmitting step of transmitting the emotion prediction result to the user's terminal.
제 2항에 있어서,
상기 예측모델 생성단계는,
상기 리뷰 데이터에 포함된 평점이 기반이 되어 상기 리뷰 데이터가 긍정 데이터와 부정 데이터로 분리된 후 라벨링 되는 라벨링 단계;
기 저장된 불용어 사전이 기반이 되어 상기 리뷰 데이터가 형태소 단위로 토큰화되고, 토큰화된 상기 리뷰데이터 중에서 빈도수가 기 설정된 빈도수 미만이면 제거되는 토큰화 단계;
토큰화된 상기 리뷰 데이터가 정수 인코딩되는 정수 인코딩 단계;
정수 인코딩된 상기 리뷰 데이터의 최대 길이와 평균 길이를 기반으로 최적 길이가 선정되고, 정수 인코딩된 상기 리뷰 데이터가 상기 최적 길이로 패딩화되는 패딩화 단계; 및
패딩화된 상기 리뷰 데이터가 이용되어 GRU 기반의 인공 신경망 모델이 학습되는 학습 단계;를 포함하는 머신러닝 기반 온라인 쇼핑 리뷰 감정 예측 방법.
3. The method of claim 2,
The predictive model generation step is,
A labeling step of labeling after the review data is divided into positive data and negative data based on the rating included in the review data;
a tokenization step of tokenizing the review data in units of morphemes based on a pre-stored stopword dictionary, and removing the tokenized review data if the frequency is less than a preset frequency;
an integer encoding step in which the tokenized review data is integer-encoded;
a padding step in which an optimal length is selected based on a maximum length and an average length of the integer-encoded review data, and the integer-encoded review data is padded to the optimal length; and
A learning step of learning a GRU-based artificial neural network model by using the padded review data. A machine learning-based online shopping review emotion prediction method comprising a.
제 3항에 있어서,
상기 학습 단계는,
GRU 기반의 인공 신경망 모델이 훈련된 후 정확도(D)가 기 설정된 정확도(Dref)를 초과할 경우 상기 감정예측모델로 저장되는 것을 특징으로 하는 머신러닝 기반 온라인 쇼핑 리뷰 감정 예측 방법 .
4. The method of claim 3,
The learning step is
After the GRU-based artificial neural network model is trained, when the accuracy (D) exceeds the preset accuracy (D ref ), the machine learning-based online shopping review emotion prediction method, characterized in that it is stored as the emotion prediction model.
제 2항에 있어서,
상기 감정예측결과는,
긍정감정 또는 부정감정 중 하나가 포함되고, 해당되는 감정에 대한 예측정확도가 포함되는 것을 특징으로 하는 머신러닝 기반 온라인 쇼핑 리뷰 감정 예측 방법.
3. The method of claim 2,
The emotion prediction result is
Machine learning-based online shopping review emotion prediction method, characterized in that one of positive emotions or negative emotions is included, and the prediction accuracy for the corresponding emotion is included.
KR1020210022444A 2021-02-19 2021-02-19 Machine Learning based Online Shopping Review Sentiment Prediction System and Method KR20220118703A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210022444A KR20220118703A (en) 2021-02-19 2021-02-19 Machine Learning based Online Shopping Review Sentiment Prediction System and Method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210022444A KR20220118703A (en) 2021-02-19 2021-02-19 Machine Learning based Online Shopping Review Sentiment Prediction System and Method

Publications (1)

Publication Number Publication Date
KR20220118703A true KR20220118703A (en) 2022-08-26

Family

ID=83113365

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210022444A KR20220118703A (en) 2021-02-19 2021-02-19 Machine Learning based Online Shopping Review Sentiment Prediction System and Method

Country Status (1)

Country Link
KR (1) KR20220118703A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102538774B1 (en) * 2022-10-25 2023-06-01 황지인 Method and apparatus for using review analysis based on artificial intelligence model

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101740148B1 (en) 2015-11-03 2017-05-25 케이티하이텔 주식회사 Method of recommending items at online shopping malls, based on clients' offline activity data
KR102167345B1 (en) 2020-03-30 2020-10-19 주식회사 지에스아이티엠 Online shopping system using artificial intelligence

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101740148B1 (en) 2015-11-03 2017-05-25 케이티하이텔 주식회사 Method of recommending items at online shopping malls, based on clients' offline activity data
KR102167345B1 (en) 2020-03-30 2020-10-19 주식회사 지에스아이티엠 Online shopping system using artificial intelligence

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102538774B1 (en) * 2022-10-25 2023-06-01 황지인 Method and apparatus for using review analysis based on artificial intelligence model

Similar Documents

Publication Publication Date Title
Singh et al. Predicting the “helpfulness” of online consumer reviews
US11487838B2 (en) Systems and methods for determining credibility at scale
Lytvyn et al. Design of the architecture of an intelligent system for distributing commercial content in the internet space based on SEO-technologies, neural networks, and Machine Learning
CN106062730A (en) Systems and methods for actively composing content for use in continuous social communication
CN105607756A (en) Information recommendation method and device
US20210042476A1 (en) Intelligent Routing Services and Systems
Yang et al. A decision method for online purchases considering dynamic information preference based on sentiment orientation classification and discrete DIFWA operators
US11392631B2 (en) System and method for programmatic generation of attribute descriptors
Shen et al. A voice of the customer real-time strategy: An integrated quality function deployment approach
Zhang et al. Automatic product copywriting for e-commerce
CN111400613A (en) Article recommendation method, device, medium and computer equipment
Jha et al. Reputation systems: Evaluating reputation among all good sellers
CN114580405A (en) Method and device for analyzing commodity comment text, electronic equipment and storage medium
Kim et al. Accurate and prompt answering framework based on customer reviews and question-answer pairs
KR20220118703A (en) Machine Learning based Online Shopping Review Sentiment Prediction System and Method
US20240062264A1 (en) Ai- backed e-commerce for all the top rated products on a single platform
Tekin et al. Big data concept in small and medium enterprises: how big data effects productivity
Liu et al. A new feature selection method for text categorization of customer reviews
CN113971581A (en) Robot control method and device, terminal equipment and storage medium
Zou et al. Automatic product copywriting for e‐commerce
Lee Automatically learning user needs from online reviews for new product design
CN113127597A (en) Processing method and device for search information and electronic equipment
Lee Use-centric mining of customer reviews
Li et al. The effects of online information on e-book pricing strategies: A text analytics approach
KR20200029647A (en) Generalization method for curated e-Commerce system by user personalization

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E601 Decision to refuse application