KR20210099739A - User Review Based Rating Re-calculation Apparatus and Method - Google Patents

User Review Based Rating Re-calculation Apparatus and Method Download PDF

Info

Publication number
KR20210099739A
KR20210099739A KR1020200013465A KR20200013465A KR20210099739A KR 20210099739 A KR20210099739 A KR 20210099739A KR 1020200013465 A KR1020200013465 A KR 1020200013465A KR 20200013465 A KR20200013465 A KR 20200013465A KR 20210099739 A KR20210099739 A KR 20210099739A
Authority
KR
South Korea
Prior art keywords
rating
review
user
unit
positive
Prior art date
Application number
KR1020200013465A
Other languages
Korean (ko)
Other versions
KR102351745B1 (en
Inventor
정동윤
Original Assignee
정동윤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 정동윤 filed Critical 정동윤
Priority to KR1020200013465A priority Critical patent/KR102351745B1/en
Publication of KR20210099739A publication Critical patent/KR20210099739A/en
Application granted granted Critical
Publication of KR102351745B1 publication Critical patent/KR102351745B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0278Product appraisal

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Accounting & Taxation (AREA)
  • Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The present invention relates to a user review-based rating re-calculation apparatus capable of re-calculating a total rating based on ratings about details predicted through analysis on a user review, and a method thereof. The user review-based rating re-calculation apparatus includes a review data collection part collecting review data including a user review and a first rating, existing in an analysis target; a preprocessing part performing sentence separation and morpheme analysis on the user review among review text data collected by the review data collection part, to separate a sentence processed as a stop word into sets; a term dictionary processing part extracting modifiers for each of the sets separated by the preprocessing part to collect ratings of reviews in a database having the same modifier, and then, calculate its average; a review unit classification part classifying positives/negatives based on the average calculated by the term dictionary processing part; and a rating generation part generating a second rating based on the number of positives and negatives using positive/negative information classified by the review unit classification part.

Description

사용자 리뷰 기반 평점 재산정 장치 및 방법{User Review Based Rating Re-calculation Apparatus and Method}User Review Based Rating Re-calculation Apparatus and Method

본 발명은 사용자 리뷰 기반 평점 재산정 기술에 관한 것으로, 특히, 사용자 리뷰의 분석을 통해 예측된 세부 항목에 대한 평점을 기초로 전체 평점을 재산정할 수 있는 사용자 리뷰 기반 평점 재산정 장치 및 방법에 관한 것이다.The present invention relates to a user review-based rating recalculation technology, and in particular, to a user review-based rating recalculation apparatus and method that can recalculate the overall rating based on the ratings for detailed items predicted through analysis of user reviews will be.

소득 수준이 향상되고, 주 5일 근무제로 시간적인 여유가 생기고, 여성의 사회 진출이 보편화됨에 따라 외식을 하는 경우가 증가하고 있다. 국민 소비 가운데 외식비가 차지하는 비중이 높아지고 있으며, 특히 식품비 가운데 절반 가까이가 외식비용이 차지하는 등 국민 경제에 있어 외식이 차지하는 비중이 점차 늘어나고 있고, 그 중요성 또한 크게 확대되고 있다.The number of eating out is increasing as the income level improves, the five-day workweek system provides more time, and women's entry into society has become more common. The proportion of eating out expenses in national consumption is increasing, and in particular, the proportion of eating out in the national economy is increasing, and its importance is also greatly expanding.

최근 스마트폰에 설치된 주문 배달 요청 어플리케이션(이하, '배달앱')이 개발되어 대중화되고 있다. 주변 배달 음식점 검색, 음식 검색 및 집주소 입력 등을 스마트폰에 설치된 배달앱을 통해 가능하게 되었다.Recently, an order delivery request application (hereinafter, 'delivery app') installed on a smartphone has been developed and popularized. Searching for nearby delivery restaurants, searching for food, and entering home addresses are now possible through the delivery app installed on the smartphone.

이때, 각 음식점을 이용하는데 있어 이전 구매자가 남긴 리뷰나 평점을 중요한 정보로 참고하는 것은 보편화 되어 있다. 따라서 배달앱의 경우, 음식점 이용 예정자에게 다른 사용자들의 평점 및 사용자 리뷰를 제공하고 있다. At this time, it is common to refer to reviews or ratings left by previous buyers as important information when using each restaurant. Therefore, in the case of delivery apps, other users' ratings and user reviews are provided to prospective restaurant users.

그리고 최근에는 이러한 사용자 리뷰들을 자동으로 리뷰 마이닝을 수행하여 리뷰에 대한 긍정/부정에 대한 어휘 정보를 분석하고, 각 음식점의 평점을 자동으로 제공하고 있다.And recently, by automatically performing review mining on these user reviews, lexical information on positive/negative reviews is analyzed, and the ratings of each restaurant are automatically provided.

이때, 기존의 연구들은 평점과 함께 문서 전체에 대해 또는 문장 단위로 긍정/부정 오피니언을 판단하였다. At this time, existing studies judged positive/negative opinions for the entire document or sentence by sentence along with the rating.

그러나 사용자가 특정 음식이나 서비스에 대해 전체적으로 부정적인 인상을 받았지만 특정 평가요소에 대해서는 긍정적인 리뷰를 작성할 수 있다. 예를 들어, 사용자가 특정 음식점에 대해 전체적으로 부정적인 인상을 받았지만, 이 음식점은 양은 많다고 리뷰를 작성할 수 있다. However, a user can write a positive review for a particular food or service, although the overall impression is negative for a particular food or service. For example, a user might write a review saying that a particular restaurant has a negative overall impression, but the restaurant has a lot of volume.

또한, 사용자가 전체적으로 부정적인 리뷰를 작성한 후, 평점에 있어서는 실수로 리뷰의 내용과 상반되게 별 5개로 만점을 줄 수도 있다. 또는 그 반대로 모든 부분에 대해서 매우 긍정적인 리뷰를 작성한 후, 평점에 있어서는 별 1개로 나쁨을 선택할 수도 있다. In addition, after a user writes an overall negative review, the rating may be mistakenly given a full five stars, contrary to the content of the review. Or, conversely, you can write a very positive review for everything, and then choose a bad rating of 1 star.

또한, 긍정/부정에 있어서 동일한 정도의 리뷰를 작성한 경우에도 평가하는 사용자에 따라 별을 4개의 평점을 주는 사용자가 있는가 하면, 별 2개의 평점을 주는 사용자도 있어, 리뷰와 평점 간에 형평성(equity)이 없게 되는 문제점이 발생될 수 있다.In addition, even when a review is written with the same degree of positive/negative, some users give 4 stars depending on the user who evaluates, and there are users who give 2 stars, so there is an equality between a review and a rating There may be a problem that this does not happen.

이러한 문제점으로 인해, 무엇에 대한 오피니언인지, 평가 대상과 오피니언을 정확하게 연결하는 것이 매우 중요하다.Due to these problems, it is very important to accurately connect the opinion of what, the evaluation target and the opinion.

기존 한국 등록특허공보 제10-1319413호 "제품 및 서비스 관련 리뷰에 대한 요약 정보 생성 시스템 및 방법"의 경우, 제품 또는 서비스가 속하는 도메인과 관련된 단서 단어를 자동으로 추출하고, 각 평가요소별 오피니언 정보를 추출하여, 평가요소별 오피니언 정보를 포함하는 리뷰 요약 정보를 생성하는 것을 개시하고 있다. 하지만, 리뷰 데이터 내에서 평가요소와 관련된 단어와 오피니언에 관련된 단어가 동시에 발생하는 빈도만을 이용하고 있어, 리뷰와 평점 간의 오류에 대한 문제점을 해결할 수 없다는 점에서 한계를 지닌다.In the case of the existing Korean Patent Publication No. 10-1319413 "System and method for generating summary information for reviews related to products and services", clue words related to the domain to which the product or service belongs are automatically extracted, and opinion information for each evaluation element By extracting , it discloses generating review summary information including opinion information for each evaluation element. However, there is a limitation in that the problem of errors between reviews and ratings cannot be solved because only the frequency of occurrence of words related to evaluation elements and words related to opinions in the review data is used at the same time.

기존 한국공개특허 제10-2011-0044112호 "상품 속성별 리뷰의 마이닝을 위한 패턴 데이터베이스의 반자동적인 구축 방법"의 경우, 상품의 속성별로 사용되는 어휘에 대한 긍정/부정 여부를 사전에 구축해 놓은 뒤에 이를 통해 새로운 문장에 대해 긍정/부정으로 분류를 수행하는 방법으로 상품평 패턴 사전을 구축하는 것을 개시하고 있다. 하지만, 상품에 대한 구체적인 평가요소별 오피니언을 구축하는 것에 대해서는 개시하고 있지 않다.In the case of the existing Korean Patent Application Laid-Open No. 10-2011-0044112 "Semi-automatic construction method of pattern database for mining review by product attribute", after constructing affirmative/negative of vocabulary used for each attribute of product in advance Through this, we are starting to build a product review pattern dictionary as a way to classify new sentences as positive/negative. However, it does not disclose the construction of opinions for each specific evaluation element for a product.

또한, 기존 논문 "k-Structure를 이용한 한국어 상품평 단어 추출 방법"의 경우, 한국어 상품평 중 감정어를 자동으로 추출할 수 있도록 하는 k-Structure 기법을 제안하고 있으나, "좋다/나쁘다"의 직접적인 표현만을 추출할 수 있을 뿐, 연어 형태로 구성된 긍정/부정 표현을 찾아낼 수 없다.In addition, in the case of the existing paper "Method for extracting words in Korean product reviews using k-Structure," a k-Structure technique that enables automatic extraction of emotional words from Korean product reviews is proposed, but only direct expressions of "good/bad" It can only extract, but cannot find positive/negative expressions composed of collocations.

논문 "오피니언 마이닝 기술을 이용한 효율적 상품평 검색 기법"의 경우, 사용자의 검색어뿐만 아니라 상품평 내의 주관적인 의견의 포함 여부 및 감정 극성의 엔트로피 등을 고려하여 상품평의 가치를 판단하지만, 긍정 및 부정의 의미를 반영하는 단어 목록을 구축하는 수작업을 수행하며, 평가요소와 오피니언 간의 연결 관계에 대해서 분석하지 못하였다.In the case of the thesis "Efficient Product Review Search Technique Using Opinion Mining Technology", the value of product reviews is judged by considering not only the user's search terms, but also the inclusion of subjective opinions in the product reviews and the entropy of emotional polarity, but reflects the meaning of positive and negative. The manual work was done to build a list of words to be used, and the relationship between evaluation factors and opinions could not be analyzed.

논문 "상품평 극성 분류를 위한 특징별 서술어 긍정/부정 사전 자동 구축"의 경우, 상품평에서 제품 특징을 추출한 후 상품평에 존재하는 평점을 활용하여 도메인별로 초기 긍정/부정 서술어를 추출하고, 초기 긍정/부정 서술어와 접속 정보를 분석함으로써 도메인별로 긍정/부정 사전을 구축한다. 하지만, 이 논문은 키워드를 추출하기 위하여 사용자 별점을 이용하고, 수작업으로 이루어진다는 점에서 한계를 지닌다.In the case of the paper "Automatic construction of positive/negative predicates for each characteristic for product review polarity classification", the initial positive/negative predicates are extracted for each domain by extracting product features from the product reviews, and then the initial positive/negative predicates are extracted for each domain. By analyzing predicates and access information, positive/negative dictionaries are built for each domain. However, this paper has limitations in that it uses user star points to extract keywords and is done manually.

한국 등록특허공보 제10-1319413호 (등록일자 2013.10.11.)Korean Patent Publication No. 10-1319413 (Registration Date 2013.10.11.) 한국 공개특허공보 제10-2011-0044112호 (공개일자 2011.04.28.)Korean Patent Publication No. 10-2011-0044112 (published on April 28, 2011)

k-Structure를 이용한 한국어 상품평 단어 자동 추출 방법(강한훈, 유성준, 한동일, 한국정보과학회논문지 소프트웨어 및 응용 v.37 no.6, pp.470-479, 2010) Automatic extraction of Korean product reviews using k-Structure (Han-Hoon Kang, Seong-Jun Yoo, Dong-Il Han, Journal of the Korean Society of Information Sciences Software and Applications v.37 no.6, pp.470-479, 2010) 오피니언 마이닝 기술을 이용한 효율적 상품평 검색 기법(윤홍준, 김한준, 장재영, 한국정보과학회논문지, 컴퓨팅의 실제 및 레터, v.16, no.2, pp.222-226, 2010) Efficient product review search technique using opinion mining technology (Hong-Jun Yoon, Han-Jun Kim, Jae-Young Jang, Journal of the Korean Society of Information Sciences, Actual and Letter of Computing, v.16, no.2, pp.222-226, 2010) 상품평 극성 분류를 위한 특징별 서술어 긍정/부정 사전 자동 구축(송종석, 이수원, 한국정보과학회논문지, 소프트웨어 및 응용, v.38, no3, pp.157-169, 2011) Automatic construction of positive/negative dictionary of predicates for each characteristic for product review polarity classification (Jongseok Song, Suwon Lee, Journal of the Korean Society of Information Sciences, Software and Applications, v.38, no3, pp.157-169, 2011)

따라서 본 발명은 상기와 같은 문제점을 해결하기 위해 안출한 것으로서, 사용자 리뷰의 분석을 통해 예측된 세부 항목에 대한 평점을 기초로 전체 평점을 재산정할 수 있는 사용자 리뷰 기반 평점 재산정 장치 및 방법을 제공하는데 그 목적이 있다.Therefore, the present invention has been devised to solve the above problems, and provides a user review-based rating recalculation apparatus and method that can recalculate the overall rating based on the ratings for detailed items predicted through analysis of user reviews. but it has a purpose.

본 발명은 사용자가 작성한 사용자 리뷰와 반하는 평점이 평가된 경우의 오류들을 고려하여 더욱 정확한 총평점이 도출될 수 있도록 하는 사용자 리뷰 기반 평점 재산정 장치 및 방법을 제공하는데 그 목적이 있다.An object of the present invention is to provide an apparatus and method for recalculating user reviews based on user reviews so that a more accurate overall score can be derived in consideration of errors when a rating contrary to a user review written by a user is evaluated.

본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있고, 본 발명의 실시예에 의해 보다 분명하게 이해될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.The objects of the present invention are not limited to the above-mentioned objects, and other objects and advantages of the present invention not mentioned may be understood by the following description, and will be more clearly understood by the examples of the present invention. Moreover, it will be readily apparent that the objects and advantages of the present invention may be realized by the means and combinations thereof indicated in the claims.

상기와 같은 목적을 달성하기 위한 본 발명에 따른 사용자 리뷰 기반 평점 재산정 장치의 특징은 분석 대상에 존재하는 사용자 리뷰 및 제1 평점을 포함하는 리뷰 데이터를 수집하는 리뷰 데이터 수집부와, 상기 리뷰 데이터 수집부에서 수집된 리뷰 텍스트 데이터 중 사용자 리뷰에서 문장 분리 및 형태소 분석을 수행하여, 불용어 처리가 된 문장을 세트로 분리하는 전처리부와, 상기 전처리부에서 분리된 각 세트당 수식어를 추출해 똑같은 수식어가 들어간 데이터베이스에 있는 리뷰들의 평점을 모은 뒤, 그 평균을 산출하는 용어사전 처리부와, 상기 용어사전 처리부에서 산출된 평균을 기준으로 긍정/부정을 분류하는 리뷰 유닛 분류부와, 상기 리뷰 유닛 분류부에서 분류된 긍정/부정정보를 이용하여 긍정 및 부정의 개수를 기반으로 제2 평점을 생성하는 평점 생성부를 포함할 수 있다.A feature of the user review-based rating recalculation apparatus according to the present invention for achieving the above object is a review data collection unit for collecting review data including a user review and a first rating existing in an analysis target, and the review data Among the review text data collected in the collection unit, the preprocessor performs sentence separation and morphological analysis in the user review to separate the sentences that have been treated with stopwords into sets, and the preprocessor extracts modifiers for each set separated in the preprocessing unit and contains the same modifiers. After collecting the ratings of the reviews in the database, a term dictionary processing unit for calculating the average, a review unit classification unit for classifying positive/negative based on the average calculated by the term dictionary processing unit, and classification by the review unit classification unit It may include a rating generator for generating a second rating based on the number of positive and negative by using the positive / negative information.

바람직하게 상기 사용자 리뷰 기반 평점 재산정 장치는 상기 리뷰 데이터 수집부에서 수집된 리뷰 텍스트 데이터 중 제1 평점을 추출하는 평점 추출부와, 상기 평점 생성부에서 생성한 제2 평점과 상기 평점 추출부에서 추출한 제1 평점을 서로 비교하고, 그 차이가 미리 설정된 설정값 이내인지 여부를 판단하는 평점 처리부와, 상기 제1 평점 및 제2 평점 간의 차이가 설정값 이상이면, 상기 용어사전 처리부에서 텍스트 분석을 위한 유사도를 판단하는 제1 기준값의 범위를 더 넓게 설정된 제2 기준값으로 변경하는 관계 추출부와, 상기 평점 처리부에서 판단된 제2 평점 및 제1 평점의 차이가 설정값 미만으로 판단되면, 제1 평점을 총평점으로 산정하고, 상기 평점 처리부에서 판단된 제2 평점 및 제1 평점의 차이가 설정값 이상으로 판단되면, 제2 평점 및 제1 평점의 평균을 총평점으로 산정하는 평점 산정부를 더 포함할 수 있다.Preferably, the user review-based rating recalculation device includes a rating extracting unit for extracting a first rating from among the review text data collected by the review data collection unit, and a second rating generated by the rating generating unit and the rating extracting unit. A rating processing unit that compares the extracted first ratings with each other and determines whether the difference is within a preset setting value, and if the difference between the first rating and the second rating is greater than or equal to a preset value, the glossary processing unit performs text analysis a relationship extracting unit for changing the range of the first reference value for determining the similarity to a wider set second reference value, and when the difference between the second rating and the first rating determined by the rating processing unit is determined to be less than the set value, the first The rating is calculated as the total rating, and when the difference between the second rating and the first rating determined by the rating processing unit is determined to be greater than or equal to a set value, a rating calculation unit for calculating the average of the second rating and the first rating as the total rating. can

상기와 같은 목적을 달성하기 위한 본 발명에 따른 사용자 리뷰 기반 평점 재산정 방법의 특징은 (A) 리뷰 데이터 수집부를 이용하여 분석 대상에 존재하는 리뷰 데이터를 수집하는 단계와, (B) 전처리부를 이용하여 상기 수집된 리뷰 텍스트 데이터 중 사용자 리뷰에서 문장 분리 및 형태소 분석을 수행하여, 불용어 처리가 된 문장을 세트로 분리하는 단계와, (C) 용어사전 처리부를 이용하여 상기 전처리부에서 분리된 각 세트당 수식어를 추출해 똑같은 수식어가 들어간 데이터베이스에 있는 리뷰들의 평점을 모은 뒤, 그 평균을 산출하는 단계와, (D) 리뷰 유닛 분류부를 이용하여 산출된 평균을 기준으로 긍정/부정을 분류하는 단계와, (E) 평점 생성부를 이용하여 상기 각 평가기준별로 분류된 긍정/부정정보를 기반으로 긍정 및 부정의 개수를 반영하여 제2 평점을 생성하는 단계를 포함할 수 있다.The characteristics of the user review-based rating recalculation method according to the present invention for achieving the above object are (A) collecting review data existing in the analysis target using the review data collection unit, (B) using the pre-processing unit and performing sentence separation and morpheme analysis in the user review among the collected review text data to separate the sentences subjected to stopword processing into sets; After collecting the ratings of the reviews in the database containing the same modifier by extracting modifiers, calculating the average, (D) classifying positive/negative based on the average calculated using the review unit classification unit, ( E) generating a second rating by reflecting the number of positives and negatives based on the positive/negative information classified for each evaluation criterion by using the rating generator.

바람직하게 상기 (E) 단계 이후에, (F) 평점 추출부를 이용하여 상기 수집된 리뷰 텍스트 데이터 중 사용자가 평가한 제1 평점을 추출하는 단계와, (G) 평점 처리부를 이용하여 상기 생성한 제2 평점과 상기 추출한 제1 평점을 서로 비교하는 단계와, (H) 상기 (G) 단계의 비교결과, 상기 제1 평점 및 상기 제2 평점 간의 차이가 설정값 이상이면, 관계 추출부를 이용하여 상기 텍스트 분석 방법에서 유사도를 판단하는 제1 기준값의 범위를 더 넓게 설정된 제2 기준값으로 변경한 후, 상기 (C) 단계부터 다시 수행하는 단계와, (I) 상기 (G) 단계의 비교결과, 상기 제1 평점 및 상기 제2 평점 간의 차이가 설정값 미만으로 판단되면, 평점 산정부를 이용하여 상기 제1 평점을 총평점으로 산정하는 단계와, (J) 상기 (G) 단계의 비교결과, 상기 제1 평점 및 상기 제2 평점 간의 차이가 설정값 이상으로 판단되면, 평점 산정부를 이용하여 상기 제1 평점 및 상기 제2 평점의 평균값을 총평점으로 산정하는 단계를 포함할 수 있다.Preferably, after the step (E), (F) extracting the first rating evaluated by the user from the collected review text data using the rating extraction unit, and (G) the generated second rating using the rating processing unit. Comparing the 2 ratings and the extracted first rating with each other, (H) if the difference between the first rating and the second rating is greater than or equal to a set value as a result of the comparison in the step (G), using a relationship extracting unit to After changing the range of the first reference value for judging the similarity in the text analysis method to a wider second reference value, performing again from the step (C), (I) the comparison result of the step (G), the If it is determined that the difference between the first rating and the second rating is less than the set value, calculating the first rating as a total rating using a rating calculating unit, (J) the comparison result of the step (G), the first If it is determined that the difference between the rating and the second rating is equal to or greater than a set value, calculating an average value of the first rating and the second rating as a total rating using a rating calculating unit.

이상에서 설명한 바와 같은 본 발명에 따른 사용자 리뷰 기반 평점 재산정 장치 및 방법은 다음과 같은 효과가 있다.As described above, the user review-based rating recalculation apparatus and method according to the present invention have the following effects.

첫째, 기본적으로 문장 단위의 분석을 사용하되 사용자의 평점을 추가 적용하여 문장을 선별적으로 사용함으로써, 분석의 용이성과 결과의 신뢰성 측면에서 우수성을 나타내는 효과가 있다.First, it basically uses sentence-by-sentence analysis, but by applying additional user ratings to selectively use sentences, there is an effect of showing superiority in terms of ease of analysis and reliability of results.

둘째, 사용자가 번거롭게 직접 평점을 입력하지 않아도 되고, 인공지능(AI)에서 직접 리뷰의 내용 자체를 기반으로 그 긍정도/부정도를 분석해 별점을 도출하기 때문에 더욱 정확한 총평점이 도출될 수 있다.Second, a more accurate overall rating can be derived because the user does not have to input a cumbersome direct rating, and the artificial intelligence (AI) directly analyzes the positive/negative based on the content of the review to derive a star rating.

셋째, 총평점은 사용자가 그 배달앱 음식점에서 음식을 주문할 것인지 결정하는 중요한 요소 중 하나이기 때문에 정확한 총평점은 더욱 나은 배달앱의 신뢰와 유저의 편의성으로 이어질 수 있다.Third, since the overall rating is one of the important factors in determining whether a user will order food from a restaurant in the delivery app, an accurate overall rating can lead to better trust in the delivery app and user convenience.

넷째, 배달앱을 중심으로 소개되었지만, 여타의 쇼핑정보 사이트, 나아가서는 사용자의 리뷰를 다루는 모든 사이트의 개선에 적용될 수 있을 것으로 기대한다. 특히, 기존의 리뷰를 자동으로 구분하여 평점을 도출하는 과정을 포함하고 있기 때문에, 벼로의 평가기준을 갖고 있지 않은 기존 사이트의 리뷰 제공 체계 개선에도 크게 기여할 수 있다.Fourth, although it was introduced mainly on delivery apps, it is expected that it can be applied to the improvement of other shopping information sites, and furthermore, all sites that deal with user reviews. In particular, since it includes the process of automatically classifying existing reviews and deriving ratings, it can greatly contribute to the improvement of the review provision system of existing sites that do not have an evaluation standard for Byeoro.

상술한 효과와 더불어 본 발명의 구체적인 효과는 이하 발명을 실시하기 위한 구체적인 사항을 설명하면서 함께 기술한다. In addition to the above-described effects, the specific effects of the present invention will be described together while describing specific details for carrying out the invention below.

도 1은 본 발명의 실시예에 따른 사용자 리뷰 기반 평점 재산정 장치의 구성을 나타낸 블록도이다.
도 2는 본 발명의 실시예에 따른 사용자 리뷰 기반 평점 재산정 방법을 설명하기 위한 흐름도이다.
도 3은 도 2에서 나타내는 오류 중 배달앱을 통해 주문한 사용자가 자신이 작성한 사용자 리뷰와는 반하는 평점으로 평가한 경우를 나타낸 실시예이다.
1 is a block diagram showing the configuration of a user review-based rating recalculation apparatus according to an embodiment of the present invention.
2 is a flowchart illustrating a user review-based rating recalculation method according to an embodiment of the present invention.
3 is an embodiment showing a case in which the user who ordered through the delivery app among the errors shown in FIG. 2 evaluates the user with a rating contrary to the user review written by him or her.

본 발명의 다른 목적, 특성 및 이점들은 첨부한 도면을 참조한 실시예들의 상세한 설명을 통해 명백해질 것이다.Other objects, characteristics and advantages of the present invention will become apparent from a detailed description of the embodiments with reference to the accompanying drawings.

본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.The terms used in the present invention have been selected as currently widely used general terms as possible while considering the functions in the present invention, but these may vary depending on the intention or precedent of a person skilled in the art, the emergence of new technology, and the like. In addition, in a specific case, there is a term arbitrarily selected by the applicant, and in this case, the meaning will be described in detail in the description of the corresponding invention. Therefore, the term used in the present invention should be defined based on the meaning of the term and the overall content of the present invention, rather than the name of a simple term.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.When a part "includes" a certain element throughout the specification, this means that other elements may be further included, rather than excluding other elements, unless otherwise stated. In addition, terms such as "...unit" and "module" described in the specification mean a unit that processes at least one function or operation, which may be implemented as hardware or software, or a combination of hardware and software. .

본 발명에 따른 사용자 리뷰 기반 평점 재산정 장치 및 방법의 바람직한 실시예에 대하여 첨부한 도면을 참조하여 설명하면 다음과 같다. 그러나 본 발명은 이하에서 개시되는 실시예에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예는 본 발명의 개시가 완전하도록하며 통상의 지식을 가진자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이다. 따라서 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.A preferred embodiment of the user review-based rating recalculation apparatus and method according to the present invention will be described with reference to the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below, but can be implemented in various different forms, and only this embodiment allows the disclosure of the present invention to be complete and to fully convey the scope of the invention to those of ordinary skill in the art. It is provided to inform you. Therefore, the configuration shown in the embodiments and drawings described in the present specification is only one of the most preferred embodiments of the present invention and does not represent all the technical spirit of the present invention, so various equivalents that can replace them at the time of the present application It should be understood that there may be water and variations.

이하에서 구성요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 상기 구성요소들은 서로 직접적으로 연결되거나 또는 접속될 수 있지만, 각 구성요소 사이에 다른 구성요소가 "개재"되거나, 각 구성요소가 다른 구성요소를 통해 "연결", "결합" 또는 "접속"될 수도 있는 것으로 이해되어야 할 것이다.Hereinafter, when it is described that a component is "connected", "coupled" or "connected" to another component, the components may be directly connected or connected to each other, but other components are "interposed" between each component. It is to be understood that “or, each component may be “connected,” “coupled,” or “connected” through another component.

도 1은 본 발명의 실시예에 따른 사용자 리뷰 기반 평점 재산정 장치의 구성을 나타낸 블록도이다. 도 1에 도시된 사용자 리뷰 기반 평점 재산정 장치는 일 실시예에 따른 것이고, 그 구성요소들이 도 1에 도시된 실시예에 한정되는 것은 아니며, 필요에 따라 일부 구성요소가 부가, 변경 또는 삭제될 수 있다.1 is a block diagram showing the configuration of a user review-based rating recalculation apparatus according to an embodiment of the present invention. The user review-based rating recalculation device shown in FIG. 1 is according to an embodiment, and its components are not limited to the embodiment shown in FIG. 1, and some components may be added, changed, or deleted as necessary. can

도 1에서 도시하고 있는 것과 같이, 본 발명의 사용자 리뷰 기반 평점 재산정 장치는 리뷰 데이터 수집부(100)와, 전처리부(200)와, 용어사전 처리부(300)와, 리뷰 유닛 분류부(400)와, 평점 생성부(500)와, 평점 추출부(600)와, 평점 처리부(700)와, 관계 추출부(800)와, 평점 산정부(900)를 포함할 수 있다. As shown in FIG. 1 , the user review-based rating recalculation apparatus of the present invention includes a review data collection unit 100 , a pre-processing unit 200 , a term dictionary processing unit 300 , and a review unit classification unit 400 . ), a rating generating unit 500 , a rating extracting unit 600 , a rating processing unit 700 , a relationship extracting unit 800 , and a rating calculating unit 900 .

리뷰 데이터 수집부(100)는 분석 대상에 존재하는 리뷰 데이터를 수집하여 저장한다. 그리고 리뷰 데이터 수집부(100)는 상기 분석 대상에 리뷰 데이터가 추가되는 경우 추가되는 리뷰 데이터만을 다시 수집한다. 이때, 리뷰 데이터는 음식점 등의 분석 대상을 이용한 후 남긴 이용 후기(사용자 리뷰) 및 제1 평점(사용자 별점)을 포함할 수 있다.The review data collection unit 100 collects and stores review data existing in the analysis target. In addition, the review data collection unit 100 collects only the added review data when review data is added to the analysis target. In this case, the review data may include a review (user review) and a first rating (user star rating) left after using an analysis target such as a restaurant.

전처리부(200)는 리뷰 데이터 수집부(100)에서 수집된 리뷰 텍스트 데이터 중 사용자 리뷰에서 문장 분리 및 형태소를 분리하고 그에 따른 태깅을 실시한다. 문장 분리는 마침표와 같은 문장 부호에 기반하여 수행되며, 형태소 분석은 총 10개의 품사 집합을 가지고 있는 국민대 형태소 분석기(http://nlp.kookmin.ac.kr/HAM/kor/index.html) Korean Language Technology (KLT)를 이용하여 수행될 수 있다. 이때, 형태소 분석은 하나의 실시예일 뿐, 이에 한정되지는 않으며 현재 공지되어 있는 다양한 형태소 분석기 또는 자연어처리기법(natural language sentiment) 알고리즘을 이용하여 수행될 수 있다.The preprocessor 200 separates sentences and morphemes from the user review among the review text data collected by the review data collection unit 100 and performs tagging accordingly. Sentence separation is performed based on punctuation marks such as periods, and morpheme analysis is performed using the Kookmin University Morphological Analyzer (http://nlp.kookmin.ac.kr/HAM/kor/index.html) with a total of 10 sets of parts of speech. This can be done using Language Technology (KLT). In this case, the morpheme analysis is only one embodiment, and is not limited thereto, and may be performed using various currently known morpheme analyzers or natural language sentiment algorithms.

이어서, 전처리부(200)는 해당 태깅이 된 형태소들 중 불용어(검색엔진이 무시해버리는 형태소들로, 은, 는, 이, 가, 을, 를, 기타 등등이 있다) 처리를 실시하며 컴퓨터의 연산 속도를 늦추고 AI의 오해의 소지를 제공하는 불용어들을 제거한 후, 표준어로 모두 바꿔준다. 다음으로는 전처리부(200)는 이렇게 불용어 처리가 된 문장을 [수식어 + 동사/명사] 혹은 [동사/명사 + 수식어]의 세트들로 분리하는 작업을 진행합니다. 각 세트는 무조건 1가지의 평가요소를 포함하고 있어야 한다. 그렇지 않을 시 해당 세트는 무시되는데, 예외적으로 동사나 형용사, 수식어가 평가요소의 의미를 직접적으로 내포하고 있는 경우 세트로 유지된다.Next, the pre-processing unit 200 processes stopwords among the tagged morphemes (there are morphemes ignored by the search engine, such as silver, e, e, g, b, b, etc.), and computer operation is performed. It slows down and removes stopwords that can be misleading for AI, then replaces them all with standard language. Next, the pre-processing unit 200 separates the stopword-processed sentence into sets of [modifier + verb/noun] or [verb/noun + modifier]. Each set must contain one evaluation element unconditionally. Otherwise, the set is ignored, except when a verb, adjective, or modifier directly implies the meaning of an evaluation element, it is maintained as a set.

용어사전 처리부(300)는 각 세트당 수식어를 추출해 똑같은 수식어가 들어간 데이터베이스에 있는 리뷰들의 평점을 모은 뒤, 그 평균을 산출한다. 이 작업은 bag of words 기법을 사용하여 벡터화 된 데이터를 사용한다. 그리고 그 평균을 3점을 기준으로 최소 -1, 최대 1 까지 환산한 값이 해당 세트의 긍부정도이고, 그것은 곧 해당 리뷰에서 그 세트에 들어간 평가요소의 긍부정도일 수 있다. 긍정적이면 +1, 부정적이면 -1을 무조건 부여하는 기존 방법과는 다르게, 본 발명은 bag of words 기법까지 겸용하기 때문에 단어의 긍정도의 정도까지 파악할 수 있는 장점이 있다.The term dictionary processing unit 300 extracts modifiers for each set, collects the ratings of reviews in a database containing the same modifier, and calculates an average thereof. This work uses vectorized data using the bag of words technique. And the value obtained by converting the average to a minimum of -1 and a maximum of 1 based on 3 points is the positivity of the set, and that may be the negativity of the evaluation elements included in the set in the review. Unlike the existing method of unconditionally giving +1 for positive and -1 for negative, the present invention also uses the bag of words technique, so it has the advantage of being able to grasp the degree of positivity of words.

이렇게 파악한 데이터를 사용한다면 해당 리뷰의 평점은 각 세트들의 긍정도를 모두 합한 값을 별점으로 치환한 값이 되고, 각 평가요소별로 판단된 긍정도는 모여 그 식당의 해당 평가요소에 대한 긍정도가 되고, 해당 식당의 총평점은 그 평가요소들의 긍정도의 평균이 된다. If the data identified in this way is used, the rating of the review becomes a value obtained by replacing the sum of all the positive degrees of each set with a star rating, and the positive degrees judged by each evaluation element are gathered to determine the positive degree of the restaurant's corresponding evaluation element. and the overall rating of the restaurant is the average of the positive ratings of the evaluation factors.

리뷰 유닛 분류부(400)는 용어사전 처리부(300)에서 산출된 평균을 기준으로 긍정/부정을 분류한다. 이때, 긍정/부정은 학습데이터로 학습데이터 DB(10)에 미리 저장되어 있으며, 학습데이터와의 유사도 분석을 통해 긍정 또는 부정 등을 식별할 수 있다. 그리고 평가기준에 대한 사항은 음식의 양, 맛, 가격, 배달의 시간, 친절도, 포장상태, 서비스 등을 포함할 수 있다. The review unit classifying unit 400 classifies positive/negative based on the average calculated by the term dictionary processing unit 300 . In this case, positive/negative is pre-stored in the learning data DB 10 as learning data, and positive or negative, etc. can be identified through similarity analysis with the learning data. And the evaluation criteria may include quantity, taste, price, delivery time, friendliness, packaging condition, service, etc. of food.

평점 생성부(500)는 리뷰 유닛 분류부(400)에서 분류된 긍정/부정정보를 이용하여 긍정 및 부정의 평균을 기반으로 제2 평점을 생성할 수 있다. The rating generating unit 500 may generate a second rating based on the average of positive and negative by using the positive/negative information classified by the review unit classification unit 400 .

일반적으로 총 평점의 정의는 모든 판단 요소들의 전체적인 평점을 아우르는 최종적인 것으로서, 아무리 한 판단 요소에 대한 긍정적인 평가가 많고 다른 판단 요소에 대해서는 긍정적인 평가가 무척 적더라도 모든 평가 요소가 같은 비율로 총평점을 계산하는 데에 기여 되어야 한다. 따라서, 총평점이 계산될 때, 예를 들어 맛에 대한 긍정적인 평가가 900개, 부정적인 평가가 100개인 반면, 위생에 대한 긍정적인 평가가 1개, 부정적인 평가가 9개라면 이 두 평가 요소를 아우르는 총평점은 901:101 로 약 90%에 육박하는 긍정도가 나오게 된다. 이렇게 되면 좋지 않은 위생에 대한 평가는 완전히 묻혀버리게 될 것이다. 하지만 실제로 사용자들이 원하는 총평점은 모른 평가요소를 골고루 반영한 평점이다. 따라서 평점 생성부(500)는 모든 요소들의 긍부정 평가 횟수를 기반으로 비율을 매기는 것이 아니라, 각 평가 요소들의 평균으로, 즉 위에서 서술한 예로는 맛은 90%의 긍정도, 위생은 10%의 긍정도를 가지고 있기 때문에 그 평균인 총평점으로 50%의 긍정도를 가지고 있다고 분석한다. In general, the definition of the total rating is the final one that encompasses the overall rating of all the evaluation factors. Even if there are many positive evaluations for one judgment factor and very few positive evaluations for the other judgment factors, all evaluation factors will have the same total score should contribute to the calculation of Therefore, when the total score is calculated, for example, if there are 900 positive and 100 negative evaluations for taste, while there are 1 positive and 9 negative evaluations for hygiene, The overall score is 901:101, which is about 90% positive. In this way, the evaluation of poor hygiene will be completely buried. However, in reality, the overall rating that users want is a rating that evenly reflects the evaluation factors they are not aware of. Therefore, the rating generating unit 500 does not rate the ratio based on the number of positive or negative evaluations of all elements, but rather the average of each evaluation element, that is, in the example described above, the taste is 90% positive, and hygiene is 10%. Since it has a positive degree of , it is analyzed that it has a positive degree of 50% as an average of the total score.

평점 추출부(600)는 리뷰 데이터 수집부(100)에서 수집된 리뷰 텍스트 데이터 중 제1 평점(사용자 별점)을 추출한다.The rating extractor 600 extracts a first rating (user star rating) from the review text data collected by the review data collection unit 100 .

평점 처리부(700)는 상기 평점 생성부(500)에서 생성한 제2 평점과 상기 평점 추출부(600)에서 추출한 제1 평점을 서로 비교하고, 그 차이가 미리 설정된 설정값 이내인지 여부를 판단한다. The rating processing unit 700 compares the second rating generated by the rating generating unit 500 with the first rating extracted by the rating extracting unit 600 with each other, and determines whether the difference is within a preset setting value .

이때, 평점 생성부(500)에서 생성한 제2 평점은 사용자 리뷰의 내용을 기반으로 생성된 평점이며, 평점 추출부(600)에서 추출된 제1 평점은 해당 사용자 리뷰를 작성한 사용자가 평가한 평점이다. 따라서 제2 평점과 제1 평점의 차이가 설정값 이상으로 나타난다면, 이는 생성된 제2 평점에 문제가 있거나, 또는 사용자가 평가한 평점에 문제가 있는 것으로 판단할 수 있다.In this case, the second rating generated by the rating generating unit 500 is a rating generated based on the contents of the user review, and the first rating extracted by the rating extracting unit 600 is the rating evaluated by the user who wrote the user review am. Accordingly, if the difference between the second rating and the first rating is greater than the set value, it may be determined that there is a problem in the generated second rating or the rating evaluated by the user.

제2 평점에 문제가 있는 경우는 평정 생성부(500)에서 평점을 생성할 때 분류된 긍정/부정정보에 문제가 있는 것으로 판단할 수 있다. 이는 리뷰 유닛 분류부(400)에서 긍정/부정 서술어를 분류함에 있어, 분류된 단어에 오류가 있는 경우에 발생될 수 있다.When there is a problem in the second rating, the rating generating unit 500 may determine that there is a problem in the classified positive/negative information when generating the rating. This may occur when the review unit classifying unit 400 classifies the positive/negative predicates, and there is an error in the classified words.

또는, 제1 평점에 문제가 있는 경우는 사용자가 자신이 작성한 사용자 리뷰와는 반하는 평점으로 평가한 경우이다. 예로서, 작성한 사용자 리뷰에는 해당 음식점에 대해 부정적인 내용 없이 매우 긍정적인 내용으로만 작성한 이후에 평점에서는 매우 안 좋은 별 1점으로 평가하거나, 반대로, 작성한 사용자 리뷰에는 해당 음식점에 대해 긍정적인 내용 없이 매우 부정적인 내용으로만 작성한 이후에 평점에서는 매우 좋은 별 5점으로 평가한 경우에 해당될 수 있다. Alternatively, if there is a problem in the first rating, it is a case in which the user evaluates the rating with a rating contrary to the user review written by the user. For example, in a user review written with only very positive content without negative comments about the restaurant, the rating gives it a very bad 1 star. It may correspond to a case where, after writing only negative content, it is rated as a very good 5 stars in the rating.

그러나 사용자가 자신이 작성한 사용자 리뷰와 반하는 평점으로 평가한 경우는 사용자가 평점을 선택할 때 실수로 잘못 평가한 경우도 있지만, 사용자 리뷰에서는 부정적인 내용만을 기재하였지만, 기재하지 않았지만 긍정적인 부분이 있음에 따라, 마음적으로 평점을 높게 평가하는 경우도 있을 수 있다. 따라서 사용자 리뷰와 반하는 평점을 평가하였다고 해서 무조건 사용자가 평가한 평점이 잘못되었다고 판단되면 또 다른 오류를 발생시킬 수 있게 된다.However, if the user rated it as a rating that is contrary to the user review written by the user, there are cases where the user mistakenly evaluated the rating when selecting the rating. , there may be cases where the rating is high mentally. Therefore, another error may occur if it is determined that the user's rating is unconditionally incorrect even if the rating is contrary to the user's review.

본 발명은 이러한 여러 가지의 오류들을 고려함에 따라 더욱 정확한 총평점이 도출될 수 있도록 하는데 그 특징이 있다.The present invention is characterized in that it allows a more accurate overall score to be derived by taking these various errors into account.

이러한 오류를 고려하기 위해, 관계 추출부(800)는 상기 평점 처리부(700)에서의 비교 결과, 제1 평점 및 제2 평점 간의 차이가 설정값 이상이면, 상기 용어사전 처리부(300)에서 텍스트 분석을 위한 유사도를 판단하는 제1 기준값의 범위를 더 넓게 설정된 제2 기준값을 이용할 수 있다. 이에 따라, 용어사전 처리부(300)는 텍스트 분석 방법(BOW, Word2Vec, TF-IDF)을 통해 유사도가 제2 기준값 이상일 경우에 특정 단어와 유사하다 판단하여 해당 단어를 판단된 해당 평가기준으로 분류한다.In order to take this error into account, the relation extraction unit 800 analyzes the text in the term dictionary processing unit 300 when, as a result of the comparison in the rating processing unit 700 , the difference between the first rating and the second rating is equal to or greater than a set value. A second reference value in which the range of the first reference value for determining the degree of similarity is set to be wider may be used. Accordingly, the term dictionary processing unit 300 determines that the word is similar to a specific word through the text analysis method (BOW, Word2Vec, TF-IDF) when the degree of similarity is equal to or greater than the second reference value, and classifies the word as the determined corresponding evaluation standard. .

그리고 리뷰 유닛 분류부(400)는 다시 용어사전 처리부(300)에서 제2 기준값을 이용하여 평가기준별로 분류된 단어를 통해 긍정/부정 서술어를 추출하고, 추출된 긍정/부정 서술어를 분석함으로써 각 평가기준별 긍정/부정을 재분류한다. And the review unit classification unit 400 again extracts positive/negative predicates from the words classified by evaluation criteria using the second reference value in the term dictionary processing unit 300, and analyzes the extracted positive/negative predicates for each evaluation Reclassify positive/negative by criteria.

그리고 평점 생성부(500)는 리뷰 유닛 분류부(400)에서 각 평가기준별로 재분류된 긍정/부정정보를 이용하여 긍정 및 부정의 평균을 기반으로 제3 평점을 생성한다. In addition, the rating generating unit 500 generates a third rating based on the average of positive and negative by using the positive/negative information reclassified for each evaluation criterion in the review unit classification unit 400 .

이어서, 평점 처리부(700)는 상기 평점 생성부(500)에서 생성한 제3 평점과 상기 평점 추출부(600)에서 추출한 제1 평점을 다시 비교하고, 그 차이가 미리 설정된 설정값 이내인지 여부를 재판단 한다. Then, the rating processing unit 700 compares the third rating generated by the rating generating unit 500 with the first rating extracted by the rating extracting unit 600 again, and whether the difference is within a preset setting value judge

평점 산정부(900)는 평점 처리부(700)에서 판단된 제2 평점 및 제1 평점의 차이, 또는 제3 평점 및 제1 평점의 차이가 설정값 이내로 판단되면, 제1 평점을 총평점으로 산정할 수 있다. 그리고 평점 산정부(900)는 평점 처리부(700)에서 판단된 제2 평점 및 제1 평점의 차이, 또는 제3 평점 및 제1 평점의 차이가 설정값 이상으로 판단되면, 제2 평점 및 제1 평점의 평균, 또는 제3 평점 및 제1 평점의 평균값을 총평점으로 산정할 수 있다.When the difference between the second rating and the first rating determined by the rating processing unit 700 or the difference between the third rating and the first rating is within a set value, the rating calculation unit 900 calculates the first rating as a total rating. can In addition, the rating calculation unit 900 determines that the difference between the second rating and the first rating determined by the rating processing unit 700 or the difference between the third rating and the first rating is greater than or equal to a set value, the second rating and the first rating The average of the ratings or the average value of the third rating and the first rating may be calculated as the total rating.

이처럼, 평점 생성부(500)에서 생성된 평점과 평점 추출부(600)에서 추출된 사용자가 평가한 평점이 설정값 이내이면, 사용자가 평가한 평점을 총평점으로 산정함으로써, 산정되는 총평점을 사용자의 의견이 적극 반영될 수 있다. As such, if the rating generated by the rating generator 500 and the rating evaluated by the user extracted by the rating extractor 600 are within the set value, the total rating calculated by the user is calculated as the total rating. Opinions can be actively reflected.

한편, 평점 생성부(500)에서 생성된 평점과 평점 추출부(600)에서 추출된 사용자가 평가한 평점이 설정값 이내이면, 위에서 설명하고 있는 여러 가지의 오류들을 고려할 수 있도록 상기 생성된 평점과 상기 추출된 평점의 평균값을 총평점으로 산정함으로써, 산정되는 총평점의 오류를 보완하여 더욱 정확한 총평점이 도출될 수 있다.On the other hand, if the rating generated by the rating generating unit 500 and the rating evaluated by the user extracted by the rating extracting unit 600 are within the set value, the generated rating and By calculating the average value of the extracted ratings as the total rating, a more accurate total rating may be derived by compensating for errors in the calculated total rating.

이와 같이 구성된 본 발명에 따른 사용자 리뷰 기반 평점 재산정 장치의 동작을 첨부한 도면을 참조하여 상세히 설명하면 다음과 같다. 도 1과 동일한 참조부호는 동일한 기능을 수행하는 동일한 부재를 지칭한다. The operation of the user review-based rating recalculation apparatus according to the present invention configured as described above will be described in detail with reference to the accompanying drawings. The same reference numerals as in FIG. 1 refer to the same members performing the same functions.

도 2는 본 발명의 실시예에 따른 사용자 리뷰 기반 평점 재산정 방법을 설명하기 위한 흐름도이다.2 is a flowchart illustrating a user review-based rating recalculation method according to an embodiment of the present invention.

도 2를 참조하여 설명하면, 먼저 리뷰 데이터 수집부(100)를 이용하여 분석 대상에 존재하는 리뷰 데이터를 수집한다(S10). Referring to FIG. 2 , first, review data existing in an analysis target is collected using the review data collecting unit 100 ( S10 ).

이때, 리뷰 데이터 수집부(100)는 상기 분석 대상에 리뷰 데이터가 추가되는 경우 추가되는 리뷰 데이터만을 다시 수집할 수 있다. 리뷰 데이터는 음식점 등의 분석 대상을 이용한 후 남긴 이용 후기(사용자 리뷰) 및 제1 평점(사용자 별점)을 포함할 수 있다.In this case, when review data is added to the analysis target, the review data collection unit 100 may re-collect only the added review data. The review data may include a review (user review) and a first rating (user star rating) left after using an analysis target such as a restaurant.

이어서, 전처리부(200)를 이용하여 상기 수집된 리뷰 텍스트 데이터 중 사용자 리뷰에서 문장 분리 및 형태소를 분리하고 그에 따른 태깅을 실시한다(S20). 문장 분리는 마침표와 같은 문장 부호에 기반하여 수행되며, 형태소 분석은 총 10개의 품사 집합을 가지고 있는 국민대 형태소 분석기(http://nlp.kookmin.ac.kr/HAM/kor/index.html) Korean Language Technology (KLT)를 이용하여 수행될 수 있다. 이때, 형태소 분석은 하나의 실시예일 뿐, 이에 한정되지는 않으며 현재 공지되어 있는 다양한 형태소 분석기 또는 자연어처리기법(natural language sentiment) 알고리즘을 이용하여 수행될 수 있다.Next, by using the preprocessor 200, sentence separation and morphemes are separated from the user review among the collected review text data, and tagging is performed accordingly (S20). Sentence separation is performed based on punctuation marks such as periods, and morpheme analysis is performed using the Kookmin University Morphological Analyzer (http://nlp.kookmin.ac.kr/HAM/kor/index.html) with a total of 10 sets of parts of speech. This can be done using Language Technology (KLT). In this case, the morpheme analysis is only one embodiment, and is not limited thereto, and may be performed using various currently known morpheme analyzers or natural language sentiment algorithms.

그리고 전처리부(200)는 해당 태깅이 된 형태소들 중 불용어(검색엔진이 무시해버리는 형태소들로, 은, 는, 이, 가, 을, 를, 기타 등등이 있다) 처리를 실시하며 컴퓨터의 연산 속도를 늦추고 AI의 오해의 소지를 제공하는 불용어들을 제거한 후, 표준어로 모두 바꿔준다. 다음으로는 전처리부(200)는 이렇게 불용어 처리가 된 문장을 [수식어 + 동사/명사] 혹은 [동사/명사 + 수식어]의 세트들로 분리하는 작업을 진행합니다. 각 세트는 무조건 1가지의 평가요소를 포함하고 있어야 한다. 그렇지 않을 시 해당 세트는 무시되는데, 예외적으로 동사나 형용사, 수식어가 평가요소의 의미를 직접적으로 내포하고 있는 경우 세트로 유지된다.And the pre-processing unit 200 processes stopwords (there are morphemes ignored by the search engine, such as silver, e, i, g, b, b, etc.) among the tagged morphemes, and the computation speed of the computer. After slowing down and removing stopwords that give AI misunderstanding, it replaces all standard words. Next, the pre-processing unit 200 separates the stopword-processed sentence into sets of [modifier + verb/noun] or [verb/noun + modifier]. Each set must contain one evaluation element unconditionally. Otherwise, the set is ignored, except when a verb, adjective, or modifier directly implies the meaning of an evaluation element, it is maintained as a set.

다음으로, 용어사전 처리부(300)를 이용하여 상기 각 세트당 수식어를 추출해 똑같은 수식어가 들어간 데이터베이스에 있는 리뷰들의 평점을 모은 뒤, 그 평균을 산출한다(S30). 이 작업은 bag of words 기법을 사용하여 벡터화 된 데이터를 사용한다. 그리고 그 평균을 3점을 기준으로 최소 -1, 최대 1 까지 환산한 값이 해당 세트의 긍부정도이고, 그것은 곧 해당 리뷰에서 그 세트에 들어간 평가요소의 긍부정도일 수 있다.Next, the modifiers for each set are extracted using the term dictionary processing unit 300 , and the ratings of the reviews in the database containing the same modifier are collected, and then the average is calculated ( S30 ). This work uses vectorized data using the bag of words technique. And the value obtained by converting the average to a minimum of -1 and a maximum of 1 based on 3 points is the positivity of the set, and that may be the negativity of the evaluation elements included in the set in the review.

이렇게 파악한 데이터를 사용한다면 해당 리뷰의 평점은 각 세트들의 긍정도를 모두 합한 값을 별점으로 치환한 값이 되고, 각 평가요소별로 판단된 긍정도는 모여 그 식당의 해당 평가요소에 대한 긍정도가 되고, 해당 식당의 총평점은 그 평가요소들의 긍정도의 평균이 된다. If the data identified in this way is used, the rating of the review becomes a value obtained by replacing the sum of all the positive degrees of each set with a star rating, and the positive degrees judged by each evaluation element are gathered to determine the positive degree of the restaurant's corresponding evaluation element. and the overall rating of the restaurant is the average of the positive ratings of the evaluation factors.

다음으로, 리뷰 유닛 분류부(400)를 이용하여 상기 산출된 평균을 기준으로 긍정/부정을 분류한다(S40). Next, using the review unit classifying unit 400, positive/negative is classified based on the calculated average (S40).

이때, 긍정/부정은 학습데이터로 학습데이터 DB(10)에 미리 저장되어 있으며, 학습데이터와의 유사도 분석을 통해 긍정 또는 부정 등을 식별할 수 있다. 그리고 평가기준에 대한 사항은 음식의 양, 맛, 가격, 배달의 시간, 친절도, 포장상태, 서비스 등을 포함할 수 있다. In this case, positive/negative is pre-stored in the learning data DB 10 as learning data, and positive or negative, etc. can be identified through similarity analysis with the learning data. And the evaluation criteria may include quantity, taste, price, delivery time, friendliness, packaging condition, service, etc. of food.

다음으로, 평점 생성부(500)를 이용하여 상기 분류된 긍정/부정정보를 기반으로 긍정 및 부정의 평균을 반영하여 제2 평점을 생성할 수 있다(S50). Next, the second rating may be generated by reflecting the average of positive and negative based on the classified positive/negative information using the rating generating unit 500 ( S50 ).

제2 평점을 생성할 때, 긍정 및 부정의 평균을 반영하는 것은 총 평점의 정의는 모든 판단 요소들의 전체적인 평점을 아우르는 최종적인 것으로서, 아무리 한 판단 요소에 대한 긍정적인 평가가 많고 다른 판단 요소에 대해서는 긍정적인 평가가 무척 적더라도 모든 평가 요소가 같은 비율로 총평점을 계산하는 데에 기여 되어야 한다. 예를 들어 맛에 대한 긍정적인 평가가 900개, 부정적인 평가가 100개인 반면, 위생에 대한 긍정적인 평가가 1개, 부정적인 평가가 9개라면 이 두 평가 요소를 아우르는 총평점은 901:101 로 약 90%에 육박하는 긍정도가 나오게 된다. 이렇게 되면 좋지 않은 위생에 대한 평가는 완전히 묻혀버리게 되는 문제점이 있다.하지만 실제로 유저들이 원하는 총평점은 모른 평가요소를 골고루 반영한 평점이다. 따라서 모든 요소들의 긍부정 평가 횟수를 기반으로 비율을 매길 것이 아니라, 각 평가 요소들의 평균으로, 즉 위에서 서술한 예로는 맛은 90%의 긍정도, 위생은 10%의 긍정도를 가지고 있기 때문에 그 평균인 총평점으로 50%의 긍정도를 가지고 있다고 분석하는 것이 바람직할 것이다. When generating the second rating, reflecting the average of positive and negative ratings is that the definition of the total rating is the final one that encompasses the overall ratings of all judgment factors, and no matter how many positive evaluations for one judgment factor and for other judgment factors, Even if there are very few positive evaluations, all evaluation factors should contribute in the same proportion to the calculation of the total score. For example, if there are 900 positive and 100 negative evaluations for taste, but 1 positive and 9 negative evaluations for hygiene, the total score covering these two evaluation factors is 901:101, which is about 90 The positivity is close to %. In this way, there is a problem that the evaluation of poor hygiene is completely buried. However, the overall rating that users want is a rating that evenly reflects the evaluation factors that they do not know. Therefore, the ratio is not based on the number of positive or negative evaluations of all factors, but with the average of each evaluation factor. It would be desirable to analyze that it has a positive degree of 50% with an average total score.

한편, 평점 추출부(600)를 이용하여 상기 수집된 리뷰 텍스트 데이터 중 사용자가 평가한 제1 평점(사용자 별점)을 추출한다(S60).Meanwhile, the first rating (user star rating) evaluated by the user from among the collected review text data is extracted using the rating extractor 600 (S60).

그리고 평점 처리부(700)를 이용하여 상기 생성한 제2 평점과 상기 추출한 제1 평점을 서로 비교한다(S70).Then, using the rating processing unit 700, the generated second rating and the extracted first rating are compared with each other (S70).

이때, 평점 생성부(500)에서 생성한 제2 평점은 사용자 리뷰의 내용을 기반으로 생성된 평점이며, 평점 추출부(600)에서 추출된 제1 평점은 해당 사용자 리뷰를 작성한 사용자가 평가한 평점이다. 따라서 제2 평점과 제1 평점의 차이가 설정값 이상으로 나타난다면, 이는 생성된 제2 평점에 문제가 있거나, 또는 사용자가 평가한 평점에 문제가 있는 것으로 판단할 수 있다.In this case, the second rating generated by the rating generating unit 500 is a rating generated based on the contents of the user review, and the first rating extracted by the rating extracting unit 600 is the rating evaluated by the user who wrote the user review am. Accordingly, if the difference between the second rating and the first rating is greater than or equal to the set value, it may be determined that there is a problem in the generated second rating or the rating evaluated by the user.

제2 평점에 문제가 있는 경우는 평정 생성부(500)에서 평점을 생성할 때 적용되는 분류된 긍정/부정정보에 문제가 있는 것으로 판단할 수 있다. 이는 리뷰 유닛 분류부(400)에서 긍정/부정 서술어를 분류함에 있어, 평가기준별로 분류된 단어에 오류가 있는 경우에 발생될 수 있다.When there is a problem in the second rating, it may be determined that there is a problem in the classified positive/negative information applied when the rating generating unit 500 generates the rating. This may occur when the review unit classifying unit 400 classifies the positive/negative predicates, when there is an error in the words classified by evaluation criteria.

또는, 제1 평점에 문제가 있는 경우는 사용자가 자신이 작성한 사용자 리뷰와는 반하는 평점으로 평가한 경우이다. 예로서, 작성한 사용자 리뷰에는 해당 음식점에 대해 부정적인 내용 없이 매우 긍정적인 내용으로만 작성한 이후에 평점에서는 매우 안 좋은 별 1점으로 평가하거나, 반대로, 작성한 사용자 리뷰에는 해당 음식점에 대해 긍정적인 내용 없이 매우 부정적인 내용으로만 작성한 이후에 평점에서는 매우 좋은 별 5점으로 평가한 경우에 해당될 수 있다. Alternatively, if there is a problem in the first rating, it is a case in which the user evaluates the rating with a rating contrary to the user review written by the user. For example, in a user review written with only very positive content without negative comments about the restaurant, the rating gives it a very bad 1 star. It may correspond to a case where, after writing only negative content, it is rated as a very good 5 stars in the rating.

도 3은 도 2에서 나타내는 오류 중 배달앱을 통해 주문한 사용자가 자신이 작성한 사용자 리뷰와는 반하는 평점으로 평가한 경우를 나타낸 실시예이다.3 is an embodiment showing a case in which the user who ordered through the delivery app, among the errors shown in FIG. 2, evaluates the user with a rating contrary to the user review written by him or her.

도 3에서 나타내고 있는 것과 같이, 작성된 사용자 리뷰(20)에서 "시킨거 먹고 화장실만 몇 번째... 상한걸 팔면 어쩌자는 겁니까?"라고, 매우 부정적인 내용의 리뷰를 작성하고 있다. 그런데, 평가에서는 실수로 최고점인 별 5점의 평점(30)으로 평가하고 있다. As shown in Fig. 3, in the written user review (20), "How many times do you eat what you ordered and only use the toilet... What if you sell the spoiled thing?", writing a review with very negative content. However, in the evaluation, it is erroneously evaluated as a rating of 5 stars (30), which is the highest score.

이러한 오류가 사용자들의 실수로 인해 꽤 자주, 식당마다 서너 번씩 일어나고 있다. 이렇게 되면, 특히 사용자 리뷰의 개수가 적은 식당일수록 사용자들이 배달앱에서 시킬 식당을 고르는데 가장 큰 결정요소가 되는 총평점(40)에 부정확한 영향을 끼치게 되는 문제점을 발생시킬 수 있다. 특히, 대부분의 사용자들은 시간상 리뷰의 내용을 일일이 확인하기 보다는 총평점(40)만을 확인하는 경향이 높아 이러한 문제점은 더욱 크게 나타날 수 있다.This error occurs quite often, three or four times per restaurant due to user error. In this case, in particular, a restaurant with a small number of user reviews may cause a problem in that it inaccurately affects the total score 40, which is the biggest determining factor for users to choose a restaurant to order from the delivery app. In particular, since most users tend to check only the total score 40 rather than check the contents of each review over time, this problem may appear larger.

그러나 사용자가 자신이 작성한 사용자 리뷰와 반하는 평점으로 평가한 경우는 사용자가 평점을 선택할 때 실수로 잘못 평가한 경우도 있지만, 사용자 리뷰에서는 부정적인 내용만을 기재하였지만, 기재하지 않았지만 긍정적인 부분이 있음에 따라, 마음적으로 평점을 높게 평가하는 경우도 있을 수 있다. 따라서 사용자 리뷰와 반하는 평점을 평가하였다고 해서 무조건 사용자가 평가한 평점이 잘못되었다고 판단되면 또 다른 오류를 발생시킬 수 있게 된다.However, if the user rated it as a rating that is contrary to the user review written by the user, there are cases where the user mistakenly evaluated the rating when selecting the rating. , there may be cases where the rating is high mentally. Therefore, another error may occur if it is determined that the user's rating is unconditionally incorrect even if the rating is contrary to the user's review.

따라서 본 발명은 이러한 여러 가지의 오류들을 고려함에 따라 더욱 정확한 총평점이 도출될 수 있도록 하는데 그 특징이 있다.Accordingly, the present invention is characterized in that it allows a more accurate overall score to be derived by taking these various errors into account.

이에 따라, 상기 비교결과(S60), 제1 평점 및 제2 평점 간의 차이가 설정값 이상이면, 관계 추출부(800)를 이용하여 상기 텍스트 분석 방법에서 유사도를 판단하는 제1 기준값의 범위를 더 넓게 설정된 제2 기준값으로 변경한 후, 상기 S30 단계부터 다시 반복한다. 이를 통해, 용어사전 처리부(300)는 텍스트 분석 방법(BOW, Word2Vec, TF-IDF)을 통해 유사도가 제2 기준값 이상일 경우에 특정 단어와 유사하다 판단하여 해당 단어를 판단된 해당 평가기준으로 분류할 수 있다.Accordingly, if the difference between the comparison result ( S60 ), the first rating, and the second rating is equal to or greater than the set value, the range of the first reference value for determining the similarity in the text analysis method is further increased by using the relationship extraction unit 800 . After changing to the widely set second reference value, repeat from step S30 again. Through this, the term dictionary processing unit 300 determines that the word is similar to a specific word through the text analysis method (BOW, Word2Vec, TF-IDF) when the degree of similarity is equal to or greater than the second reference value, and classifies the word as the determined evaluation standard. can

상기 비교결과(S60)에 따라 상기 S30 단계부터 다시 반복하는 횟수는 적어도 한 번이다. 다만, 반복 횟수가 증가할수록 재산정되는 총평점의 정확도는 높아질 수 있으나, 총평점을 산정하는데 더 많은 시간이 소요될 수 있다. 또한, 고려되는 오류에 있어서, 장치 내의 오류가 아닌 사용자 평가의 오류인 경우는 총평점의 정확도가 높아지는 확률은 횟수가 많아지는 경우에도 크게 변화가 없을 수도 있다. 따라서 본 발명에서는 반복의 횟수를 1회로 한정하여 설명한다. 그러나 반복되는 횟수는 이에 한정되는 것은 아니다. According to the comparison result ( S60 ), the number of repetitions from step S30 is at least once. However, as the number of repetitions increases, the accuracy of the recalculated total score may increase, but it may take more time to calculate the total score. Also, in the case of an error in the user evaluation, not an error in the device, the probability that the accuracy of the total score increases may not change significantly even when the number of errors increases. Therefore, in the present invention, the number of repetitions is limited to one. However, the number of repetitions is not limited thereto.

그리고 상기 비교 결과(S60), 제1 평점 및 제2 평점 간의 차이가 설정값 이내로 판단되면, 평점 산정부(900)를 이용하여 제1 평점을 총평점으로 산정할 수 있다(S80).And when it is determined that the difference between the first rating and the second rating is within a set value according to the comparison result ( S60 ), the first rating may be calculated as a total rating using the rating calculating unit 900 ( S80 ).

이처럼, 평점 생성부(500)에서 생성된 평점과 평점 추출부(600)에서 추출된 사용자가 평가한 평점이 설정값 이내이면, 사용자가 평가한 평점을 총평점으로 산정함으로써, 산정되는 총평점을 사용자의 의견이 적극 반영될 수 있다. As such, if the rating generated by the rating generator 500 and the rating evaluated by the user extracted by the rating extractor 600 are within the set value, the total rating calculated by the user is calculated as the total rating. Opinions can be actively reflected.

또한, 그리고 평점 산정부(900)는 제1 평점 및 제2 평점 간의 차이가 설정값 이상으로 판단되면, 평점 산정부(900)를 이용하여 제1 평점 및 제2 평점의 평균값을 총평점으로 산정할 수 있다(S90).Also, if the difference between the first rating and the second rating is determined to be greater than or equal to the set value, the rating calculator 900 calculates the average value of the first rating and the second rating as a total rating using the rating calculator 900 . can be (S90).

이처럼, 평점 생성부(500)에서 생성된 평점과 평점 추출부(600)에서 추출된 사용자가 평가한 평점이 설정값 이내이면, 위에서 설명하고 있는 여러 가지의 오류들을 고려할 수 있도록 상기 생성된 평점과 상기 추출된 평점의 평균값을 총평점으로 산정함으로써, 산정되는 총평점의 오류를 보완하여 더욱 정확한 총평점이 도출될 수 있다.As such, if the rating generated by the rating generating unit 500 and the rating evaluated by the user extracted by the rating extracting unit 600 are within the set value, the generated rating and By calculating the average value of the extracted ratings as the total rating, a more accurate total rating may be derived by compensating for errors in the calculated total rating.

한편, 개시된 실시예에 따른 장치는 프로세서, 프로그램 데이터를 저장하고 실행하는 메모리, 디스크 드라이브와 같은 영구 저장부(permanent storage), 외부 장치와 통신하는 통신 포트, 터치 패널, 키(key), 버튼 등과 같은 사용자 인터페이스 장치 등을 포함할 수 있다. 소프트웨어 모듈 또는 알고리즘으로 구현되는 방법들은 상기 프로세서 상에서 실행 가능한 컴퓨터가 읽을 수 있는 코드들 또는 프로그램 명령들로서 컴퓨터가 읽을 수 있는 기록매체 상에 저장될 수 있다. 여기서 컴퓨터가 읽을 수 있는 기록 매체로 마그네틱 저장 매체(예컨대, ROM(read-only memory), RAM(random-access memory), 플로피 디스크, 하드 디스크 등) 및 광학적 판독 매체(예컨대, 시디롬(CD-ROM), 디브이디(DVD: Digital Versatile Disc)) 등이 있다. 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템들에 분산되어, 분산 방식으로 컴퓨터가 판독 가능한 코드가 저장되고 실행될 수 있다.  매체는 컴퓨터에 의해 판독가능하며, 메모리에 저장되고, 프로세서에서 실행될 수 있다.On the other hand, the device according to the disclosed embodiment includes a processor, a memory for storing and executing program data, a permanent storage such as a disk drive, a communication port for communicating with an external device, a touch panel, a key, a button, etc. It may include the same user interface device and the like. Methods implemented as software modules or algorithms may be stored on a computer-readable recording medium as computer-readable codes or program instructions executable on the processor. Here, the computer-readable recording medium includes a magnetic storage medium (eg, read-only memory (ROM), random-access memory (RAM), floppy disk, hard disk, etc.) and an optically readable medium (eg, CD-ROM). ), and DVD (Digital Versatile Disc)). The computer-readable recording medium is distributed among computer systems connected through a network, so that the computer-readable code can be stored and executed in a distributed manner. The medium may be readable by a computer, stored in a memory, and executed on a processor.

개시된 실시예에서 인용하는 공개 문헌, 특허 출원, 특허 등을 포함하는 모든 문헌들은 각 인용 문헌이 개별적으로 및 구체적으로 병합하여 나타내는 것 또는 게시된 실시예에서 전체적으로 병합하여 나타낸 것과 동일하게 개시된 실시예에 병합될 수 있다.All documents, including publications, patent applications, patents, etc., cited in the disclosed embodiments are the same as in the disclosed embodiment as if each cited document was individually and specifically expressed in combination or as a whole in the published embodiment. can be merged

개시된 실시예의 이해를 위하여, 도면에 도시된 바람직한 실시예들에서 참조 부호를 기재하였으며, 개시된 실시예들을 설명하기 위하여 특정 용어들을 사용하였으나, 특정 용어에 의해 개시된 실시예가 한정되는 것은 아니며, 개시된 실시예들은 당업자에 있어서 통상적으로 생각할 수 있는 모든 구성 요소들을 포함할 수 있다.In order to understand the disclosed embodiments, reference numerals have been given in the preferred embodiments shown in the drawings, and specific terms are used to describe the disclosed embodiments, but the disclosed embodiments are not limited by the specific terms, and the disclosed embodiments are not limited thereto. They may include all components commonly conceivable by those skilled in the art.

개시된 실시예는 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들은 특정 기능들을 실행하는 다양한 개수의 하드웨어 또는/및 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 개시된 실시예는 하나 이상의 마이크로프로세서들의 제어 또는 다른 제어 장치들에 의해서 다양한 기능들을 실행할 수 있는, 메모리, 프로세싱, 로직(logic), 룩업 테이블(look-up table) 등과 같은 집적회로 구성들을 채용할 수 있다. 개시된 실시예의 구성 요소들이 소프트웨어 프로그래밍 또는 소프트웨어 요소들로 실행될 수 있는 것과 유사하게, 개시된 실시예는 데이터 구조, 프로세스들, 루틴들 또는 다른 프로그래밍 구성들의 조합으로 구현되는 다양한 알고리즘을 포함하여, C, C++, 자바(Java), 어셈블러(assembler) 등과 같은 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능적인 측면들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다.  또한, 개시된 실시예는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. "매커니즘", "요소", "수단", "구성"과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다.  상기 용어는 프로세서 등과 연계하여 소프트웨어의 일련의 처리들(routines)의 의미를 포함할 수 있다.The disclosed embodiment may be represented in functional block configurations and various processing steps. These functional blocks may be implemented in any number of hardware and/or software configurations that perform specific functions. For example, the disclosed embodiment is an integrated circuit configuration, such as memory, processing, logic, look-up table, etc., capable of executing various functions by means of the control of one or more microprocessors or other control devices. can be hired Similar to how components of a disclosed embodiment may be implemented in software programming or as software elements, a disclosed embodiment may include various algorithms implemented in data structures, processes, routines, or combinations of other programming constructs, including C, C++ , Java, assembler, etc. may be implemented in a programming or scripting language. Functional aspects may be implemented in an algorithm running on one or more processors. In addition, disclosed embodiments may employ conventional techniques for electronic configuration, signal processing, and/or data processing, and the like. Terms such as “mechanism”, “element”, “means” and “configuration” may be used broadly and are not limited to mechanical and physical configurations. The term may include the meaning of a series of routines of software in association with a processor or the like.

개시된 실시예에서 설명하는 특정 실행들은 일실시 예들로서, 어떠한 방법으로도 개시된 실시예의 범위를 한정하는 것은 아니다. 명세서의 간결함을 위하여, 종래 전자적인 구성들, 제어 시스템들, 소프트웨어, 상기 시스템들의 다른 기능적인 측면들의 기재는 생략될 수 있다.  또한, 도면에 도시된 구성 요소들 간의 선들의 연결 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것으로서, 실제 장치에서는 대체 가능하거나 추가의 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들로서 나타내어질 수 있다.  또한, "필수적인", "중요하게" 등과 같이 구체적인 언급이 없다면 개시된 실시예의 적용을 위하여 반드시 필요한 구성 요소가 아닐 수 있다. 또한, 본 발명의 기술적 분야의 통상의 지식을 가진자라면 본 발명의 기술적 사상의 범위 내에서 다양한 실시예가 가능함을 이해할 수 있을 것이다. 따라서 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.The specific implementations described in the disclosed embodiments are only examples and do not limit the scope of the disclosed embodiments in any way. For brevity of the specification, descriptions of conventional electronic components, control systems, software, and other functional aspects of the systems may be omitted. In addition, the connection or connection members of the lines between the components shown in the drawings exemplarily represent functional connections and/or physical or circuit connections, and in an actual device, various functional connections, physical connections that are replaceable or additional may be referred to as connections, or circuit connections. In addition, unless there is a specific indication such as "essential" or "importantly", it may not be a necessary component for the application of the disclosed embodiment. In addition, those of ordinary skill in the technical field of the present invention will understand that various embodiments are possible within the scope of the technical spirit of the present invention. Therefore, the true technical protection scope of the present invention should be determined by the technical spirit of the appended claims.

10: 학습 데이터 DB 20: 사용자 리뷰
30: 평점 40: 총평점
100: 리뷰 데이터 수집부 200: 전처리부
300: 용어사전 처리부 400: 리뷰 유닛 분류부
500: 평점 생성부 600: 평점 추출부
700: 평점 처리부 800: 관계 추출부
900: 평점 산정부
10: Learning data DB 20: User reviews
30: Rating 40: Overall Rating
100: review data collection unit 200: pre-processing unit
300: term dictionary processing unit 400: review unit classification unit
500: rating generator 600: rating extractor
700: rating processing unit 800: relationship extraction unit
900: rating calculator

Claims (4)

분석 대상에 존재하는 사용자 리뷰 및 제1 평점을 포함하는 리뷰 데이터를 수집하는 리뷰 데이터 수집부와,
상기 리뷰 데이터 수집부에서 수집된 리뷰 텍스트 데이터 중 사용자 리뷰에서 문장 분리 및 형태소 분석을 수행하여, 불용어 처리가 된 문장을 세트로 분리하는 전처리부와,
상기 전처리부에서 분리된 각 세트당 수식어를 추출해 똑같은 수식어가 들어간 데이터베이스에 있는 리뷰들의 평점을 모은 뒤, 그 평균을 산출하는 용어사전 처리부와,
상기 용어사전 처리부에서 산출된 평균을 기준으로 긍정/부정을 분류하는 리뷰 유닛 분류부와,
상기 리뷰 유닛 분류부에서 분류된 긍정/부정정보를 이용하여 긍정 및 부정의 개수를 기반으로 제2 평점을 생성하는 평점 생성부를 포함하는 사용자 리뷰 기반 평점 재산정 장치.
A review data collection unit for collecting review data including user reviews and first ratings existing in the analysis target;
a pre-processing unit that performs sentence separation and morphological analysis in a user review among the review text data collected by the review data collection unit, and separates the sentences subjected to stopword processing into sets;
a term dictionary processing unit that extracts modifiers for each set separated by the preprocessor, collects the ratings of reviews in a database containing the same modifier, and calculates the average;
a review unit classification unit for classifying positive/negative based on the average calculated by the term dictionary processing unit;
and a rating generator for generating a second rating based on the number of positives and negatives by using the positive/negative information classified by the review unit classification unit.
제 1 항에 있어서,
상기 사용자 리뷰 기반 평점 재산정 장치는
상기 리뷰 데이터 수집부에서 수집된 리뷰 텍스트 데이터 중 제1 평점을 추출하는 평점 추출부와,
상기 평점 생성부에서 생성한 제2 평점과 상기 평점 추출부에서 추출한 제1 평점을 서로 비교하고, 그 차이가 미리 설정된 설정값 이내인지 여부를 판단하는 평점 처리부와,
상기 제1 평점 및 제2 평점 간의 차이가 설정값 이상이면, 상기 용어사전 처리부에서 텍스트 분석을 위한 유사도를 판단하는 제1 기준값의 범위를 더 넓게 설정된 제2 기준값으로 변경하는 관계 추출부와,
상기 평점 처리부에서 판단된 제2 평점 및 제1 평점의 차이가 설정값 미만으로 판단되면, 제1 평점을 총평점으로 산정하고, 상기 평점 처리부에서 판단된 제2 평점 및 제1 평점의 차이가 설정값 이상으로 판단되면, 제2 평점 및 제1 평점의 평균을 총평점으로 산정하는 평점 산정부를 더 포함하는 사용자 리뷰 기반 평점 재산정 장치.
The method of claim 1,
The user review-based rating recalculation device
a rating extracting unit for extracting a first rating from the review text data collected by the review data collecting unit;
a rating processing unit that compares the second rating generated by the rating generator with the first rating extracted by the rating extractor, and determines whether the difference is within a preset setting value;
a relationship extracting unit configured to change the range of the first reference value for determining the similarity for text analysis in the term dictionary processing unit to a wider second reference value when the difference between the first rating and the second rating is greater than or equal to a set value;
When the difference between the second rating and the first rating determined by the rating processing unit is determined to be less than the set value, the first rating is calculated as a total rating, and the difference between the second rating and the first rating determined by the rating processing unit is the set value If it is determined as above, the user review-based rating recalculation device further comprising a rating calculator for calculating the average of the second rating and the first rating as a total rating.
(A) 리뷰 데이터 수집부를 이용하여 분석 대상에 존재하는 리뷰 데이터를 수집하는 단계와,
(B) 전처리부를 이용하여 상기 수집된 리뷰 텍스트 데이터 중 사용자 리뷰에서 문장 분리 및 형태소 분석을 수행하여, 불용어 처리가 된 문장을 세트로 분리하는 단계와,
(C) 용어사전 처리부를 이용하여 상기 전처리부에서 분리된 각 세트당 수식어를 추출해 똑같은 수식어가 들어간 데이터베이스에 있는 리뷰들의 평점을 모은 뒤, 그 평균을 산출하는 단계와,
(D) 리뷰 유닛 분류부를 이용하여 산출된 평균을 기준으로 긍정/부정을 분류하는 단계와,
(E) 평점 생성부를 이용하여 상기 각 평가기준별로 분류된 긍정/부정정보를 기반으로 긍정 및 부정의 개수를 반영하여 제2 평점을 생성하는 단계를 포함하는 사용자 리뷰 기반 평점 재산정 방법.
(A) collecting review data existing in the analysis target using the review data collection unit;
(B) performing sentence separation and morphological analysis in the user review among the collected review text data using the preprocessor, and separating the sentences subjected to stopword processing into sets;
(C) extracting modifiers for each set separated in the preprocessor using the term dictionary processing unit, collecting the ratings of reviews in a database containing the same modifier, and calculating the average;
(D) classifying positive/negative based on the average calculated using the review unit classification unit;
(E) a user review-based rating recalculation method comprising the step of generating a second rating by reflecting the number of positive and negative based on the positive / negative information classified for each evaluation criterion using the rating generator.
제 3 항에 있어서,
상기 (E) 단계 이후에,
(F) 평점 추출부를 이용하여 상기 수집된 리뷰 텍스트 데이터 중 사용자가 평가한 제1 평점을 추출하는 단계와,
(G) 평점 처리부를 이용하여 상기 생성한 제2 평점과 상기 추출한 제1 평점을 서로 비교하는 단계와,
(H) 상기 (G) 단계의 비교결과, 상기 제1 평점 및 상기 제2 평점 간의 차이가 설정값 이상이면, 관계 추출부를 이용하여 상기 텍스트 분석 방법에서 유사도를 판단하는 제1 기준값의 범위를 더 넓게 설정된 제2 기준값으로 변경한 후, 상기 (C) 단계부터 다시 수행하는 단계와,
(I) 상기 (G) 단계의 비교결과, 상기 제1 평점 및 상기 제2 평점 간의 차이가 설정값 미만으로 판단되면, 평점 산정부를 이용하여 상기 제1 평점을 총평점으로 산정하는 단계와,
(J) 상기 (G) 단계의 비교결과, 상기 제1 평점 및 상기 제2 평점 간의 차이가 설정값 이상으로 판단되면, 평점 산정부를 이용하여 상기 제1 평점 및 상기 제2 평점의 평균값을 총평점으로 산정하는 단계를 포함하는 사용자 리뷰 기반 평점 재산정 방법.
4. The method of claim 3,
After step (E),
(F) extracting the first rating evaluated by the user from the collected review text data using the rating extractor;
(G) comparing the generated second rating and the extracted first rating with each other using a rating processing unit;
(H) as a result of the comparison in step (G), if the difference between the first rating and the second rating is greater than or equal to a set value, the range of the first reference value for determining the similarity in the text analysis method is further added using a relationship extractor After changing to a widely set second reference value, performing again from step (C);
(I) when it is determined that the difference between the first rating and the second rating is less than a set value as a result of the comparison in step (G), calculating the first rating as a total rating using a rating calculator;
(J) As a result of the comparison in step (G), if the difference between the first rating and the second rating is determined to be greater than or equal to the set value, the average value of the first rating and the second rating is used as the total rating by using the rating calculation unit. A method for re-rating based on user reviews, comprising the step of calculating.
KR1020200013465A 2020-02-05 2020-02-05 User Review Based Rating Re-calculation Apparatus and Method KR102351745B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200013465A KR102351745B1 (en) 2020-02-05 2020-02-05 User Review Based Rating Re-calculation Apparatus and Method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200013465A KR102351745B1 (en) 2020-02-05 2020-02-05 User Review Based Rating Re-calculation Apparatus and Method

Publications (2)

Publication Number Publication Date
KR20210099739A true KR20210099739A (en) 2021-08-13
KR102351745B1 KR102351745B1 (en) 2022-01-17

Family

ID=77313617

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200013465A KR102351745B1 (en) 2020-02-05 2020-02-05 User Review Based Rating Re-calculation Apparatus and Method

Country Status (1)

Country Link
KR (1) KR102351745B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102384763B1 (en) 2021-11-08 2022-04-08 농업회사법인 주식회사 유비무환 Based on the user's location information, the system for providing reviews by each region through regional authentication
KR102520248B1 (en) * 2022-06-30 2023-04-10 주식회사 애자일소다 System and Method for filtering related review using key phrase extraction

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110044112A (en) 2009-10-22 2011-04-28 건국대학교 산학협력단 Semi-automatic building of pattern database for mining review of product attributes
KR20130083092A (en) * 2012-01-10 2013-07-22 한국과학기술연구원 Summary information generating system and method for review of product and service
KR20180025690A (en) * 2016-09-01 2018-03-09 성균관대학교산학협력단 An apparatus for analyzing sentiment of review data and method thereof
KR20180080492A (en) * 2017-01-04 2018-07-12 (주)프람트테크놀로지 Rating system and method for goods using user's reviews
KR101975419B1 (en) * 2018-11-26 2019-05-07 (주)위세아이텍 Device and method for terminology clustering informal text data for big data analysis
KR102047385B1 (en) * 2018-09-21 2019-11-21 삼성생명보험주식회사 Method, apparatus and computer-readable medium for operating chatbot

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110044112A (en) 2009-10-22 2011-04-28 건국대학교 산학협력단 Semi-automatic building of pattern database for mining review of product attributes
KR20130083092A (en) * 2012-01-10 2013-07-22 한국과학기술연구원 Summary information generating system and method for review of product and service
KR101319413B1 (en) 2012-01-10 2013-10-17 한국과학기술연구원 Summary Information Generating System and Method for Review of Product and Service
KR20180025690A (en) * 2016-09-01 2018-03-09 성균관대학교산학협력단 An apparatus for analyzing sentiment of review data and method thereof
KR20180080492A (en) * 2017-01-04 2018-07-12 (주)프람트테크놀로지 Rating system and method for goods using user's reviews
KR102047385B1 (en) * 2018-09-21 2019-11-21 삼성생명보험주식회사 Method, apparatus and computer-readable medium for operating chatbot
KR101975419B1 (en) * 2018-11-26 2019-05-07 (주)위세아이텍 Device and method for terminology clustering informal text data for big data analysis

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
The characteristic predicate affirmation / negation prior automatic construction for the product acreage polarity classification (*** stone" this fountainhead" Korea information science society journal" software and application". v.38, no3, pp.157-169, 2011)
The efficient product acreage search technique using the opinion mining technology (actual and letter". v.16, no.2, pp.222-226, 2010)
The Korean product acreage word automatic extraction method using the k-Structure (one identity" given the competent" and the oily the Korea information science society journal software and application. v.37 no.6, pp.470-479, 2010)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102384763B1 (en) 2021-11-08 2022-04-08 농업회사법인 주식회사 유비무환 Based on the user's location information, the system for providing reviews by each region through regional authentication
KR102520248B1 (en) * 2022-06-30 2023-04-10 주식회사 애자일소다 System and Method for filtering related review using key phrase extraction

Also Published As

Publication number Publication date
KR102351745B1 (en) 2022-01-17

Similar Documents

Publication Publication Date Title
RU2686000C1 (en) Retrieval of information objects using a combination of classifiers analyzing local and non-local signs
CN110232112B (en) Method and device for extracting keywords in article
RU2679988C1 (en) Extracting information objects with the help of a classifier combination
JP4904496B2 (en) Document similarity derivation device and answer support system using the same
RU2601166C2 (en) Anaphora resolution based on a deep analysis technology
JP2006244262A (en) Retrieval system, method and program for answer to question
Moghaddam et al. Opinion polarity identification through adjectives
KR102351745B1 (en) User Review Based Rating Re-calculation Apparatus and Method
KR101319413B1 (en) Summary Information Generating System and Method for Review of Product and Service
Sasmita et al. Unsupervised aspect-based sentiment analysis on Indonesian restaurant reviews
KR101851791B1 (en) Apparatus and method for computing domain diversity using domain-specific terms and high frequency general terms
RU2665261C1 (en) Recovery of text annotations related to information objects
US7356461B1 (en) Text categorization method and apparatus
JP2020113129A (en) Document evaluation device, document evaluation method, and program
KR101851786B1 (en) Apparatus and method for generating undefined label for labeling training set of chatbot
Ashna et al. Lexicon based sentiment analysis system for malayalam language
Touahri et al. Deep analysis of an Arabic sentiment classification system based on lexical resource expansion and custom approaches building
KR20210089340A (en) Method and appratus for catergorizing text in document
US11783129B2 (en) Interactive control system, interactive control method, and computer program product
JP4979637B2 (en) Compound word break estimation device, method, and program for estimating compound word break position
CN115659961B (en) Method, apparatus and computer storage medium for extracting text views
JP2009053743A (en) Document similarity derivation apparatus, document similarity derivation method and document similarity derivation program
JP6375367B2 (en) Objection generation method, objection generation system
KR101851792B1 (en) Apparatus and method for generating a virtual label of a question dataset
CN111814025A (en) Viewpoint extraction method and device

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant