KR20180005453A - Apparatus and Method for Analyzing Data using R Association Rule and collaborative filtering - Google Patents

Apparatus and Method for Analyzing Data using R Association Rule and collaborative filtering Download PDF

Info

Publication number
KR20180005453A
KR20180005453A KR1020160085565A KR20160085565A KR20180005453A KR 20180005453 A KR20180005453 A KR 20180005453A KR 1020160085565 A KR1020160085565 A KR 1020160085565A KR 20160085565 A KR20160085565 A KR 20160085565A KR 20180005453 A KR20180005453 A KR 20180005453A
Authority
KR
South Korea
Prior art keywords
data
application
association rule
ratio
count
Prior art date
Application number
KR1020160085565A
Other languages
Korean (ko)
Other versions
KR101883314B1 (en
Inventor
김동욱
Original Assignee
주식회사 인카코커뮤니케이션즈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 인카코커뮤니케이션즈 filed Critical 주식회사 인카코커뮤니케이션즈
Priority to KR1020160085565A priority Critical patent/KR101883314B1/en
Publication of KR20180005453A publication Critical patent/KR20180005453A/en
Application granted granted Critical
Publication of KR101883314B1 publication Critical patent/KR101883314B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Operations Research (AREA)
  • Algebra (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The present invention relates to an apparatus and a method for analyzing data by using an R-association rule and collaborative filtering, to detect a user preferred application by applying a collaborative filtering algorithm of R to use time counter data substituted for preference scores necessary to calculate collaborative filtering and a rule generated through an association rule of a programming language R. The apparatus comprises: a collection unit which collects the application list data and application use history data of users; an association rule storage unit which generates association rules by using a programming language R, and stores the rules; a data pre-processing unit which changes the application use history data to data obtained by combining the use time ratio and count ratio; and a selection unit which selects two to ten preferred applications for each user by applying the data obtained by combining the use time ratio and count ratio in the data pre-processing unit to the collaborative filtering algorithm.

Description

R 연관규칙과 협업필터링을 이용한 데이터 분석 장치 및 그 방법{Apparatus and Method for Analyzing Data using R Association Rule and collaborative filtering}[0001] Apparatus and Method for Analyzing Data Using R Association Rule and Collaborative Filtering [

본 발명은 프로그래밍 언어 R의 연관규칙과 협업필터링을 이용한 데이터 분석 장치 및 방법에 관한 것으로, 특히 프로그래밍 언어 R의 연관규칙을 통해 발생된 규칙과 협업 필터링의 계산에 필요한 선호도 점수를 대신하는 사용시간 카운터 데이터를 R의 협업필터링 알고리즘을 이용하여 유저별 선호 어플을 검출하는 R 연관규칙과 협업필터링을 이용한 데이터 분석 장치 및 그 방법에 관한 것이다.In particular, the present invention relates to an apparatus and method for analyzing data using association rules and collaborative filtering of a programming language R, and more particularly, The present invention relates to an apparatus and method for analyzing data using R association rules and collaborative filtering for detecting preferred applications for each user using R's collaborative filtering algorithm.

스마트폰의 등장과 시장 성장은 휴대 단말기 시장이 더 이상 하드웨어 중심이 아닌 소프트웨어 중심으로 변화하고 있다. 휴대 단말기를 포함하는 모바일 인터넷에서 콘텐츠와 서비스에 대한 고객 수요가 증가하면서 하드웨어 중심의 휴대 단말기가 더 이상 소비자들에게 어필하지 못하고 있다.With the advent of smartphones and market growth, the handset market is no longer focused on hardware but on software. As customer demands for contents and services increase in the mobile Internet including mobile terminals, hardware - based mobile terminals are no longer appealing to consumers.

또한, 소프트웨어 중심으로의 변화는 사업자들에게 콘텐츠, 서비스 및 OS 라이선싱, 광고 등 수익모델의 다양화와 함께 콘텐츠와 서비스를 유통할 수 있는 어플리케이션(Application : App) 생태계의 확장을 일으키고 있다.In addition, software - centric changes are expanding the application (app: app) ecosystem that can distribute contents and services with diversification of profit model such as contents, service, OS licensing, advertisement and so on to business operators.

현재 아이폰 등의 스마트폰에 설치되는 어플(App)은 SK 텔레콤 앱스토어, KT 앱스토어 아이폰 앱스토어 등에 업로드 되어 등록되고 있다.Currently, apps installed on smartphones such as iPhone are uploaded and registered in SK Telecom App Store, KT App Store, iPhone App Store and so on.

이러한 앱스토어(App-Store) 시장을 보면, 시장구축 운영이 KT, SK, Apple 등의 대기업 중심으로 이루어지고 있으며, 상거래 방식이 C2C 형태에 국한되어 있고, 불특정 다수의 유저들을 대상으로 한 매스 마켓중심의 거래가 형성되고 있는 실정이다.Looking at the App Store market, the market construction operation is centered on large corporations such as KT, SK, and Apple. The commercial method is limited to the C2C format, and mass market for unspecified users It is a fact that central transactions are being formed.

또한, 앱스토어에서의 어플의 분류방식을 보면 카테고리 형으로 구성되어 있는데, 이러한 카테고리 형은 유저에 의한 비정형질의(Ad hoc Query)가 불가능하여, 유저의 상황에 맞는 적절한 어플을 추천하기는 어렵다. 그리고 다른 분류방식으로는 요금부과여부를 중심으로 어플을 분류하면서 Ratings, 평가자수를 참고하여 추천된 어플에서 유저가 자신의 상황에 적합한 어플을 선택하여 다운로드하도록 되어 있다.In addition, since the application type in the App Store is classified into a category type, it is impossible for the category type to perform an ad hoc query by a user, and it is difficult to recommend an application suitable for the user's situation. In addition, according to the other classification method, the application is classified based on the charge rate, and the user selects the application suitable for his / her situation from the recommended application by referring to the ratings and the number of the evaluators.

그러나 이러한 추천 어플은 어플에 대한 유익성이나 목적성 등에 대한 안내가 없거나 있더라도 산만한 구성으로 인해 유저 어떤 어플이 자신의 상황에 적합한 지를 판단하기가 쉽지 않고, 특히 추천되는 어플의 경우도 자신이 실제로 다운로드하고자 하는 어플과 상이한 경우가 많아 유저가 현재 필요로 하는 어플이라 보기 어려운 문제점이 있다.However, even if there is no guidance on the usefulness or purpose of the application, such a recommended application is not easy to judge which application is suitable for the user due to the scattered configuration, and in the case of the recommended application, There is a problem that it is difficult to be regarded as an application that the user currently needs.

공개특허공보 제10-2008-0026948호 (공개일자 2008.03.26)Published Japanese Patent Application No. 10-2008-0026948 (Published Mar. 26, 2008) 공개특허공보 제10-2012-0135396호 (공개일자 2012.12.13)Japanese Patent Application Laid-Open No. 10-2012-0135396 (published date December 13, 2012)

따라서 본 발명은 상기와 같은 문제점을 해결하기 위해 안출한 것으로서, 프로그래밍 언어 R의 연관규칙을 통해 발생된 규칙과와 협업 필터링의 계산에 필요한 선호도 점수를 대신하는 사용시간 카운터 데이터를 R의 협업필터링 알고리즘을 이용하여 유저별 선호 어플을 검출하는 R 연관규칙과 협업필터링을 이용한 데이터 분석 장치 및 그 방법을 제공하는데 그 목적이 있다.Therefore, it is an object of the present invention to provide a method and a system for extracting usage time counter data instead of the rules generated through the association rule of the programming language R and the preference score required for the calculation of the collaboration filtering, The present invention provides a data analysis apparatus and method using R association rules and collaborative filtering for detecting a preferred application for each user.

본 발명의 다른 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.Other objects of the present invention are not limited to the above-mentioned objects, and other objects not mentioned can be clearly understood by those skilled in the art from the following description.

상기와 같은 목적을 달성하기 위한 본 발명에 따른 R 연관규칙과 협업필터링을 이용한 데이터 분석 장치의 특징은 유저들의 어플 목록 데이터와 어플 사용기록 데이터를 수집하는 수집부와, 프로그래밍 언어 R을 이용하여 연관규칙을 발생시켜 규칙들을 저장하는 연관규칙저장부와, 어플 사용기록 데이터를 사용시간 비율 및 카운트 비율을 합친 데이터로 바꿔 주는 데이터전처리부와, 상기 데이터전처리부에서 사용시간 비율 및 카운트 비율을 합친 데이터를 협업필터링 알고리즘에 적용시켜 각 유저별로 2개 이상에서 10개 이하의 선호 어플을 선별하는 선별부를 포함하여 구성되는데 있다.According to an aspect of the present invention, there is provided a data analysis apparatus using R association rules and collaboration filtering, comprising: a collection unit for collecting application list data of users and application usage record data; A data preprocessing unit for converting the application use record data into data combining the use time ratio and the count ratio; and a data preprocessing unit for combining the use time ratio and the count ratio in the data preprocessing unit Is applied to a collaborative filtering algorithm and a selection unit for selecting two or more to ten or less preferred applications for each user.

바람직하게 상기 연관규칙저장부는 프로그래밍 언어 R을 사용하여 연관규칙을 만들 때, 모든 유저들의 70~80%의 유저들이 가지고 있는 어플은 삭제하고, 최소 2가지 이상 어플들의 규칙을 찾도록 설정하는 것을 특징으로 한다.Preferably, when the association rule is created using the programming language R, the association rule storage unit deletes 70 to 80% of users of all users and sets up to search for rules of at least two applications .

바람직하게 상기 데이터전처리부는 어플 사용기록 데이터를 협업 필터링의 계산에 필요한 선호도 점수를 사용시간 카운트 데이터로 적용하여 산출하는 것을 특징으로 한다.Preferably, the data preprocessing unit calculates the application use record data by applying the preference score necessary for the calculation of the collaboration filtering to the use time count data.

바람직하게 상기 사용시간 카운트 데이터는 유저가 사용한 어플들의 총시간에 각각의 어플들의 사용시간 비율과 유저가 사용한 어플들의 총 카운트에 각 어플들의 카운트 비율을 합한 것을 특징으로 한다.Preferably, the use time count data is obtained by adding a use time ratio of each application to the total time of the applications used by the user and a count rate of each application to a total count of the applications used by the user.

상기와 같은 목적을 달성하기 위한 본 발명에 따른 R 연관규칙과 협업필터링을 이용한 데이터 분석 방법의 특징은 (A) 수집부를 통해 유저들의 어플 목록 데이터와 어플 사용기록 데이터를 수집하는 단계와, (B) 연관규칙저장부를 통해 상기 수집된 어플 목록 데이터를 가지고 프로그래밍 언어 R의 연관규칙 알고리즘을 사용하여 어플과 어플 간의 동시 검출 비율을 나타내는 연관규칙을 생성하는 단계와, (C) 데이터전처리부를 통해 어플 사용기록 데이터를 사용시간 비율 및 카운트 비율을 합친 데이터로 변경하는 단계와, (D) 선별부를 통해 사용시간 비율 및 카운트 비율을 합친 사용시간 카운트 데이터를 R의 협업 필터링 알고리즘을 이용하여 각 유저별로 2개 이상에서 10개 이하의 선호 어플을 검출한 후 저장하는 단계를 포함하여 이루어지데 있다.According to an aspect of the present invention, there is provided a method of analyzing data using R association rules and collaboration filtering, the method comprising: (A) collecting application list data and application usage record data of users through a collecting unit; ) Generating an association rule indicating a simultaneous detection ratio between the application and the application using the association rule algorithm of the programming language R with the collected application list data through the association rule storage unit, (C) using the application through the data preprocessing unit (D) changing the usage time count data, which is a combination of the usage time ratio and the count ratio, through the selection unit by using a collaborative filtering algorithm of R, And detecting and storing 10 or less preferred applications.

바람직하게 상기 (B) 단계에서 생성되는 연관규칙은 유저들이 가지고 있는 어플 목록을 기반으로 중복되는 어플(lhs)을 가지고 있는 경우, 추가되는 다른 어느 하나의 어플(rhs)이 포함되어 있는지를 수치적으로 나타낸 것을 특징으로 한다.Preferably, the associating rule generated in the step (B) includes, when having an application (lhs) duplicated on the basis of the list of the apps owned by the users, whether or not any other added apps (rhs) .

바람직하게 상기 (B) 단계는 연관규칙을 만들 때, 상기 어플 목록 데이터 중 모든 유저들이 70~80% 가지고 있는 어플들은 연관규칙을 생성하기 위한 계산에서 삭제하는 단계와, 상기 어플 목록 데이터 중 최소 2가지 이상 어플들의 규칙을 찾도록 설정하는 단계를 포함하는 것을 특징으로 한다.Preferably, the step (B) includes the steps of, when creating the association rule, deleting, from the calculation for creating the association rule, applications in which 70 to 80% of all the users in the application list data have 70 to 80% And searching for a rule of the abnormal applications.

바람직하게 상기 (C) 단계는 유저 어플 사용기록 데이터를 협업 필터링의 계산에서 필요한 사용시간 카운트 데이터(rating)로 바꾸며, 이때, 상기 사용시간 카운트 데이터(rating)는 유저가 사용한 어플들의 총시간에 각각의 어플들의 사용시간 비율과 유저가 사용한 어플들의 총 카운트에 각 어플들의 카운트 비율을 합인 것을 특징으로 한다.Preferably, the step (C) changes the user application usage record data to use time count data (rating) required in the calculation of the cooperative filtering, wherein the usage time count data rating And the total count of the applications used by the user is the sum of the count ratios of the respective applications.

이상에서 설명한 바와 같은 본 발명에 따른 R 연관규칙과 협업필터링을 이용한 데이터 분석 장치 및 그 방법은 R의 연관규칙과 협업필터링을 통해 유저 어플 목록 데이터를 사용하여 연관규칙을 만들고 사용시간 카운터 데이터에 R의 협업필터링 알고리즘을 이용하여 유저별 선호 어플을 검출함으로써, 유저들이 사용하는 어플의 종류 및 유저들에게 필요로 하는 어플을 보다 정확하게 추천할 수 있는 효과가 있다.The apparatus and method for analyzing data using R association rules and collaborative filtering according to the present invention as described above can generate association rules using user application list data through R association rules and collaborative filtering, It is possible to more accurately recommend the types of applications used by users and applications required for users by detecting a preferred application for each user by using the collaborative filtering algorithm of FIG.

도 1 은 본 발명의 실시예에 따른 R 연관규칙을 이용한 데이터 분석 장치의 구성을 나타낸 블록도
도 2 는 본 발명의 실시예에 따른 R 연관규칙을 이용한 데이터 분석 방법을 설명하기 위한 흐름도
도 3 은 도 2에서 유저들(행)별로 수집된 어플 목록 데이터를 나타낸 실시예
도 4 는 도 2에서 유저들별로 수집된 어플 사용기록 데이터를 나타낸 실시예
도 5 는 도 2에서 프로그래밍 언어 R의 연관규칙 알고리즘을 사용하여 생성된 연관규칙을 생성한 경우를 나타낸 실시예
도 6 는 도 2에서 어플 사용기록 데이터를 사용시간 비율 및 카운트 비율을 합친 사용시간 카운터 데이터로 변경하여 나타낸 실시예
도 7 은 유저별로 5개의 선호 어플 목록을 선별한 경우를 나타낸 실시예
1 is a block diagram showing a configuration of a data analysis apparatus using an R association rule according to an embodiment of the present invention;
2 is a flowchart for explaining a data analysis method using an R association rule according to an embodiment of the present invention.
FIG. 3 is a diagram showing an example of application list data collected by users (rows) in FIG. 2
FIG. 4 is a view showing an example of application usage record data collected by users in FIG. 2
FIG. 5 is a diagram showing an example in which an association rule generated using the association rule algorithm of the programming language R is generated in FIG. 2
Fig. 6 is a view showing an example in which the application use recording data is changed to the use time counter data in which the use time ratio and the count ratio are combined in Fig. 2
FIG. 7 is a diagram showing an example in which five preference application lists are selected for each user

본 발명의 다른 목적, 특성 및 이점들은 첨부한 도면을 참조한 실시예들의 상세한 설명을 통해 명백해질 것이다.Other objects, features and advantages of the present invention will become apparent from the detailed description of the embodiments with reference to the accompanying drawings.

본 발명에 따른 R 연관규칙과 협업필터링을 이용한 데이터 분석 장치 및 그 방법의 바람직한 실시예에 대하여 첨부한 도면을 참조하여 설명하면 다음과 같다. 그러나 본 발명은 이하에서 개시되는 실시예에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예는 본 발명의 개시가 완전하도록하며 통상의 지식을 가진자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이다. 따라서 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.A preferred embodiment of a data analysis apparatus and method using R association rules and collaborative filtering according to the present invention will be described with reference to the accompanying drawings. The present invention may, however, be embodied in many different forms and should not be construed as limited to the embodiments set forth herein. Rather, these embodiments are provided so that this disclosure will be thorough and complete, and will fully convey the scope of the invention to those skilled in the art. It is provided to let you know. Therefore, the embodiments described in the present specification and the configurations shown in the drawings are merely the most preferred embodiments of the present invention and are not intended to represent all of the technical ideas of the present invention. Therefore, various equivalents It should be understood that water and variations may be present.

도 1 은 본 발명의 실시예에 따른 R 연관규칙을 이용한 데이터 분석 장치의 구성을 나타낸 블록도이다.1 is a block diagram showing a configuration of a data analysis apparatus using an R association rule according to an embodiment of the present invention.

도 1에서 도시하고 있는 것과 같이, 유저들의 어플 목록 데이터와 어플 사용기록 데이터를 수집하는 수집부(10)와, 프로그래밍 언어 R을 이용하여 연관규칙을 발생시켜 규칙들을 저장하는 연관규칙저장부(20)와, 상기 수집된 어플 사용기록 데이터를 사용시간 비율 및 카운트 비율을 합친 데이터로 바꿔 주는 데이터전처리부(30)와, 상기 데이터전처리부에서 사용시간 비율 및 카운트 비율을 합친 데이터를 협업필터링 알고리즘에 적용시켜 각 유저별로 2개 이상에서 10개 이하의 선호 어플을 선별하는 선별부(40)로 구성된다. 그리고 이렇게 선별된 유저별 선호 어플들은 데이터베이스화하여 저장부(미도시)에 저장한다.1, a collecting unit 10 for collecting application list data and application use record data of users, an association rule storing unit 20 for generating an association rule using a programming language R and storing the rules, ), A data preprocessing unit (30) for converting the collected application use record data into data combined with a use time ratio and a count ratio, and a data preprocessing unit And a sorting unit 40 for sorting 2 or more to 10 or less preferred applications for each user. The selected user-preferred applications are stored in a storage unit (not shown) in a database.

이때, 상기 분류부(20)에서 프로그래밍 언어 R을 사용하여 연관규칙을 만들 때, 카카오톡과 같이 거의 모든 사람이 가지고 있는 어플들은 계산에 불필요함으로, 이러한 어플들은 빼주고, 최소 2가지 이상 어플들의 규칙을 찾도록 설정한다.At this time, when the association rule is created using the programming language R in the classifying unit 20, since almost all the applications such as KakaoTalk are not necessary for calculation, it is necessary to subtract these applications, .

또한, 상기 분석부(30)는 유저 어플 목록 데이터에 협업 필터링의 계산에 필요한 선호도 점수를 대신하는 사용시간 카운트 데이터를 이용한다. 즉, 사용시간 카운트 데이터는 유저가 사용한 어플들의 총시간에 각각의 어플들의 사용시간 비율과 유저가 사용한 어플들의 총 카운트에 각 어플들의 카운트 비율을 합한 것이다. In addition, the analyzer 30 uses the usage time count data instead of the preference score necessary for the calculation of the collaborative filtering on the user application list data. That is, the usage time count data is the sum of the usage time ratio of each application in the total time of the applications used by the user and the total count of the applications used by the user and the count ratio of each application.

이와 같이 구성된 본 발명에 따른 R 연관규칙과 협업필터링을 이용한 데이터 분석 장치의 구성의 동작을 첨부한 도면을 참조하여 상세히 설명하면 다음과 같다. 도 1과 동일한 참조부호는 동일한 기능을 수행하는 동일한 부재를 지칭한다. The operation of the data analysis apparatus using the R association rule and the collaboration filtering according to the present invention will now be described in detail with reference to the accompanying drawings. The same reference numerals as those in Fig. 1 designate the same members performing the same function.

도 2 는 본 발명의 실시예에 따른 R 연관규칙을 이용한 데이터 분석 방법을 설명하기 위한 흐름도이다.2 is a flowchart illustrating a data analysis method using an R association rule according to an embodiment of the present invention.

도 2를 참조하여 설명하면, 먼저 수집부(10)를 통해 유저들의 어플 목록 데이터와 어플 사용기록 데이터를 수집한다(S10). 도 3 은 유저들(행)별로 수집된 어플 목록 데이터를 나타낸 실시예이고, 도 4 는 유저들별로 수집된 어플 사용기록 데이터를 나타낸 실시예이다.Referring to FIG. 2, first, the application list data of the users and the application usage record data are collected through the collecting unit 10 (S10). FIG. 3 is an embodiment showing application list data collected by users (rows), and FIG. 4 is an embodiment showing application usage record data collected by users.

이어, 연관규칙저장부(20)를 통해 상기 수집된 어플 목록 데이터를 가지고 프로그래밍 언어 R의 연관규칙 알고리즘을 사용하여 어플과 어플 간의 동시 검출 비율을 나타내는 연관규칙을 생성한다(S20). 이때, 생성되는 연관규칙은 도 5에서 도시하고 있는 것과 같이, 유저들이 가지고 있는 어플 목록을 기반으로 중복되는 어플(lhs)을 가지고 있는 경우에, 추가되는 다른 어느 하나의 어플(rhs)이 포함되어 있는지를 수치적으로 나타낸 규칙이다.Next, an association rule indicating a simultaneous detection ratio between the application and the application is generated using the association rule algorithm of the programming language R using the collected application list data through the association rule storage unit 20 (S20). At this time, as shown in FIG. 5, if the generated association rule has an application (lhs) that is duplicated on the basis of the list of the applications that the users have, another application (rhs) to be added is included It is a rule that numerically indicates whether or not it exists.

이때, 연관규칙을 만들 때, 카카오톡과 같이 거의 모든 유저들이 가지고 있는 어플들, 즉 70~80%는 포함되는 어플들은 연관규칙을 생성하기 위한 계산에 불필요함으로, 이러한 어플들은 빼주고, 최소 2가지 이상 어플들의 규칙을 찾도록 설정한다. 상기 생성되는 연관규칙은 단순히 규칙만 만들어 내므로 개인적인 특성이 사용되지 않는다. At this time, when the association rule is created, applications including almost all users such as KakaoTalk, ie, applications including 70% to 80% are unnecessary in calculation for generating association rules. Therefore, It is set to search for the rules of the above applications. The generated association rule simply creates a rule, so no personal characteristics are used.

그리고 데이터전처리부(30)를 통해 어플 사용기록 데이터를 사용시간 비율 및 카운트 비율을 합친 사용시간 카운트 데이터로 변경한다(S30). 즉, 사용시간 카운트 데이터(rating)는 유저가 사용한 어플들의 총시간에 각각의 어플들의 사용시간 비율과 유저가 사용한 어플들의 총 카운트에 각 어플들의 카운트 비율을 합한 것이다. 이때, 도 6 는 도 2에서 어플 사용기록 데이터를 사용시간 비율 및 카운트 비율을 합친 사용시간 카운터 데이터로 변경하여 나타낸 실시예이다.Then, the application preprocessing unit 30 changes the application use recording data to use time count data obtained by combining the use time ratio and the count ratio (S30). That is, the usage time count data (rating) is the sum of the usage time ratio of each application in the total time of the applications used by the user and the total count of the applications used by the user and the count rate of each application. At this time, FIG. 6 shows an embodiment in which the application use record data is changed to the use time counter data in which the use time ratio and the count ratio are combined in FIG.

그리고 선별부(40)를 통해 상기 데이터전처리부(30)에서 변경된 사용시간 카운트 데이터에 R의 협업 필터링 알고리즘을 이용하여 각 유저별로 2개 이상에서 10개 이하의 선호 어플을 검출한 후 저장한다(S50). 이때, 도 7 은 유저별로 5개의 선호 어플 목록을 선별한 경우를 나타낸 실시예이다.Then, the data pre-processing unit 30 detects and stores 10 or fewer preferred applications for each user by using the collaborative filtering algorithm of R on the usage time count data changed by the data preprocessing unit 30 through the selector 40 S50). Here, FIG. 7 shows an embodiment in which five preference application lists are selected for each user.

이렇게 선별되어 저장된 유저별 선호 어플들을 이용하여 유저들이 사용하는 어플들의 종류를 분석하거나, 또는 유저들에게 필요로 하는 어플들을 추천하는데 이용된다.It is used to analyze the types of applications used by users, or to recommend applications required for users, by using the user-preferred preference applications selected and stored.

상기에서 설명한 본 발명의 기술적 사상은 바람직한 실시예에서 구체적으로 기술되었으나, 상기한 실시예는 그 설명을 위한 것이며 그 제한을 위한 것이 아님을 주의하여야 한다. 또한, 본 발명의 기술적 분야의 통상의 지식을 가진자라면 본 발명의 기술적 사상의 범위 내에서 다양한 실시예가 가능함을 이해할 수 있을 것이다. 따라서 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다. While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the invention is not limited to the disclosed exemplary embodiments. It will be apparent to those skilled in the art that various modifications may be made without departing from the scope of the present invention. Accordingly, the true scope of the present invention should be determined by the technical idea of the appended claims.

Claims (8)

유저들의 어플 목록 데이터와 어플 사용기록 데이터를 수집하는 수집부와,
프로그래밍 언어 R을 이용하여 연관규칙을 발생시켜 규칙들을 저장하는 연관규칙저장부,
어플 사용기록 데이터를 사용시간 비율 및 카운트 비율을 합친 데이터로 바꿔 주는 데이터전처리부,
상기 데이터전처리부에서 사용시간 비율 및 카운트 비율을 합친 데이터를 협업필터링 알고리즘에 적용시켜 각 유저별로 2개 이상에서 10개 이하의 선호 어플을 선별하는 선별부를 포함하여 구성되는 것을 특징으로 하는 R 연관규칙과 협업필터링을 이용한 데이터 분석 장치.
A collection unit for collecting application list data of users and application usage record data;
An association rule storage unit for storing rules by generating an association rule using a programming language R,
A data preprocessing unit for converting the application usage record data into data combining the usage time ratio and the count ratio,
And a selector for applying data obtained by combining the use time ratio and the count ratio in the data preprocessing unit to a collaborative filtering algorithm to select two or more to ten or less preferred applications for each user. And data analysis device using collaborative filtering.
제 1 항에 있어서,
상기 분류부는 프로그래밍 언어 R을 사용하여 연관규칙을 만들 때, 모든 유저들의 70~80%의 유저들이 가지고 있는 어플은 삭제하고, 최소 2가지 이상 어플들의 규칙을 찾도록 설정하는 것을 특징으로 하는 R 연관규칙과 협업필터링을 이용한 데이터 분석 장치.
The method according to claim 1,
Wherein the classifying unit is configured to delete an application of 70 to 80% of all users when searching for an association rule using a programming language R, and to set a rule to search for a rule of at least two applications. Data analysis device using rules and collaborative filtering.
제 1 항에 있어서,
상기 데이터전처리부는 어플 사용기록 데이터를 사용시간 카운트 데이터로 전처리 하는 것을 특징으로 하는 R 연관규칙과 협업필터링을 이용한 데이터 분석 장치.
The method according to claim 1,
Wherein the data preprocessor preprocesses the application use record data with usage time count data.
제 3 항에 있어서,
상기 사용시간 카운트 데이터는 유저가 사용한 어플들의 총시간에 각각의 어플들의 사용시간 비율과 유저가 사용한 어플들의 총 카운트에 각 어플들의 카운트 비율을 합한 것을 특징으로 하는 R 연관규칙과 협업필터링을 이용한 데이터 분석 장치.
The method of claim 3,
Wherein the usage time count data is obtained by summing a use time ratio of each application in the total time of the applications used by the user and a count ratio of each application to a total count of applications used by the user. Analysis device.
(A) 수집부를 통해 유저들의 어플 목록 데이터와 어플 사용기록 데이터를 수집하는 단계와,
(B) 연관규칙저장부를 통해 어플 목록 데이터를 가지고 프로그래밍 언어 R의 연관규칙 알고리즘을 사용하여 어플과 어플 간의 동시 검출 비율을 나타내는 연관규칙을 생성하는 단계와,
(C) 데이터전처리부를 통해 어플 사용기록 데이터를 사용시간 비율 및 카운트 비율을 합친 데이터로 변경하는 단계와,
(D) 선별부를 통해 상기 데이터전처리부에서 사용시간 비율 및 카운트 비율을 합친 데이터를 R의 협업 필터링 알고리즘을 이용하여 각 유저별로 2개 이상에서 10개 이하의 선호 어플을 검출한 후 저장하는 단계를 포함하여 이루어지는 것을 특징으로 하는 R 연관규칙과 협업필터링을 이용한 데이터 분석 방법.
(A) collecting application list data of the users and application usage record data through the collection unit;
(B) generating an association rule indicating the simultaneous detection ratio between the application and the application using the association rule algorithm of the programming language R with the application list data through the association rule storage unit;
(C) changing the application use record data to data combined with the use time ratio and the count ratio through a data preprocessing unit;
(D) a step of detecting data of two or more to ten or less preferred applications for each user by using a collaborative filtering algorithm of R and combining the use time ratio and the count ratio in the data preprocessing unit through the selector And the R-association rule and the collaborative filtering.
제 5 항에 있어서,
상기 (B) 단계에서 생성되는 연관규칙은 유저들이 가지고 있는 어플 목록을 기반으로 중복되는 어플(lhs)을 가지고 있는 경우, 추가되는 다른 어느 하나의 어플(rhs)이 포함되어 있는지를 수치적으로 나타낸 것을 특징으로 하는 R 연관규칙과 협업필터링을 이용한 데이터 분석 방법.
6. The method of claim 5,
If the association rule generated in the step (B) has a duplicate application (lhs) based on the list of applications owned by the users, it is possible to numerically indicate whether any other app (rhs) And a data analysis method using collaborative filtering.
제 5 항에 있어서, 상기 (B) 단계는
연관규칙을 만들 때, 상기 어플 목록 데이터 중 모든 유저들이 70~80% 가지고 있는 어플들은 연관규칙을 생성하기 위한 계산에서 삭제하는 단계와,
상기 어플 목록 데이터 중 최소 2가지 이상 어플들의 규칙을 찾도록 설정하는 단계를 포함하는 것을 특징으로 하는 R 연관규칙과 협업필터링을 이용한 데이터 분석 방법.
6. The method of claim 5, wherein step (B)
When creating an association rule, the applications having 70 to 80% of all users in the application list data are deleted from the calculation for creating the association rule,
And setting a rule of at least two of the application list data to search for a rule of at least two of the application list data.
제 5 항에 있어서,
상기 (C) 단계는 유저 어플 사용기록 데이터를 협업 필터링의 계산에서 필요한 사용시간 카운트 데이터(rating)로 바꾸며, 이때, 상기 사용시간 카운트 데이터(rating)는 유저가 사용한 어플들의 총시간에 각각의 어플들의 사용시간 비율과 유저가 사용한 어플들의 총 카운트에 각 어플들의 카운트 비율을 합인 것을 특징으로 하는 R 연관규칙과 협업필터링을 이용한 데이터 분석 방법.
6. The method of claim 5,
In the step (C), the user application usage record data is changed to the usage time count data required in the calculation of the cooperative filtering. In this case, the usage time count data (rating) And a counting ratio of each application to a total count of the applications used by the user, and a data analysis method using collaborative filtering.
KR1020160085565A 2016-07-06 2016-07-06 Apparatus and Method for Analyzing Data using R Association Rule and collaborative filtering KR101883314B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160085565A KR101883314B1 (en) 2016-07-06 2016-07-06 Apparatus and Method for Analyzing Data using R Association Rule and collaborative filtering

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160085565A KR101883314B1 (en) 2016-07-06 2016-07-06 Apparatus and Method for Analyzing Data using R Association Rule and collaborative filtering

Publications (2)

Publication Number Publication Date
KR20180005453A true KR20180005453A (en) 2018-01-16
KR101883314B1 KR101883314B1 (en) 2018-07-31

Family

ID=61066636

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160085565A KR101883314B1 (en) 2016-07-06 2016-07-06 Apparatus and Method for Analyzing Data using R Association Rule and collaborative filtering

Country Status (1)

Country Link
KR (1) KR101883314B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200011391A (en) * 2018-07-24 2020-02-03 김은찬 System and method for providing loan service based on the value in use

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220020714A (en) 2020-08-12 2022-02-21 삼성전자주식회사 Apparatus and method for multi-sim wireless communication

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080026948A (en) 2006-09-22 2008-03-26 숭실대학교산학협력단 Method for related keyword group extraction
KR20120135396A (en) 2012-12-03 2012-12-13 경희대학교 산학협력단 The automatic application recommendation system for smart phone considering the user's a mental state
KR20150112089A (en) * 2014-03-26 2015-10-07 에스케이플래닛 주식회사 Method for servicing recommended goods and apparatus for the same

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080026948A (en) 2006-09-22 2008-03-26 숭실대학교산학협력단 Method for related keyword group extraction
KR20120135396A (en) 2012-12-03 2012-12-13 경희대학교 산학협력단 The automatic application recommendation system for smart phone considering the user's a mental state
KR20150112089A (en) * 2014-03-26 2015-10-07 에스케이플래닛 주식회사 Method for servicing recommended goods and apparatus for the same

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200011391A (en) * 2018-07-24 2020-02-03 김은찬 System and method for providing loan service based on the value in use

Also Published As

Publication number Publication date
KR101883314B1 (en) 2018-07-31

Similar Documents

Publication Publication Date Title
Kirui et al. Predicting customer churn in mobile telephony industry using probabilistic classifiers in data mining
US20150161517A1 (en) Device and method for predicting popularity of social data
CN107515915A (en) User based on user behavior data identifies correlating method
WO2010010654A1 (en) Usage estimation device
Tabourier et al. Predicting links in ego-networks using temporal information
JP2011015253A (en) Communication traffic classification method and apparatus, and program
CN108228441A (en) A kind of generation method, device and the report of accessment and test of application program report of accessment and test
KR101883314B1 (en) Apparatus and Method for Analyzing Data using R Association Rule and collaborative filtering
KR20180099073A (en) Apparatus and Method for Recommending User Oriented Application
KR20180099067A (en) Apparatus and Method for Analyzing Data using Java Association Rule and collaborative filtering
KR101785288B1 (en) Apparatus, Method, and Program for Fraud Detecting Related to an Online Content
KR20180005461A (en) Apparatus and Method for Recommending User Oriented Application
CN109062945B (en) Information recommendation method, device and system for social network
KR101568800B1 (en) Real-time issue search word sorting method and system
Ashraf et al. Visualizations-based analysis of Telco data for business intelligence
KR20150101537A (en) Apparatus and method for recommending e-books based on user behavior
Abd-Allah et al. DyadChurn: customer churn prediction using strong social ties
Kastelic et al. Managing IT services: Aligning best practice with a quality method
CN112100294A (en) User relationship analysis method and device for network platform and related equipment
JP4224707B2 (en) Information classification analysis system, information classification analysis and program
CN109919811A (en) Insurance agent's culture scheme generation method and relevant device based on big data
JP2013206108A (en) Computing for performing credibility analysis of telephone user on the basis of current use state and past investigation history of telephone number by analysis method designated by investigation client
CN105279155B (en) A kind of data processing method and device accessing object
CN107770149B (en) Method, device and storage medium for managing internet access behavior of network user
KR20190072360A (en) System for Providing Arbeit Data

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant