WO2018088824A1 - Method and apparatus for detecting abnormal user by using click log data - Google Patents

Method and apparatus for detecting abnormal user by using click log data Download PDF

Info

Publication number
WO2018088824A1
WO2018088824A1 PCT/KR2017/012689 KR2017012689W WO2018088824A1 WO 2018088824 A1 WO2018088824 A1 WO 2018088824A1 KR 2017012689 W KR2017012689 W KR 2017012689W WO 2018088824 A1 WO2018088824 A1 WO 2018088824A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
site
log data
click log
click
Prior art date
Application number
PCT/KR2017/012689
Other languages
French (fr)
Korean (ko)
Inventor
김상욱
이상철
채동규
Original Assignee
주식회사 파운트에이아이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 파운트에이아이 filed Critical 주식회사 파운트에이아이
Publication of WO2018088824A1 publication Critical patent/WO2018088824A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
    • G06F21/12Protecting executable software
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
    • G06F21/12Protecting executable software
    • G06F21/121Restricting unauthorised execution of programs
    • G06F21/128Restricting unauthorised execution of programs involving web programs, i.e. using technology especially used in internet, generally interacting with a web browser, e.g. hypertext markup language [HTML], applets, java
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • G06Q30/0625Directed, with specific intent or strategy
    • G06Q30/0629Directed, with specific intent or strategy for generating comparisons

Definitions

  • the present invention relates to a method and an apparatus for detecting an abnormal user using click log data of an item in a site, and according to an embodiment of the present invention, a behavior pattern of a site user using click log data of a site user. Analyze and detect abnormal users.
  • a click fraud detection study is one that detects behavior for users who intentionally click on a particular ad.Reputation fraud is a rating or comment on an ecommerce site. It is a study to detect a user who manipulates public opinion.
  • ranking fraud is a study of detecting a user who uses an abnormal method to increase the popularity ranking of a specific application in the mobile app store.
  • users who exhibit anomalous behavior may have a variety of reactions (e.g., purchases, ratings, download data related to items, items, etc.) for a single user. Click, etc.).
  • reactions e.g., purchases, ratings, download data related to items, items, etc.
  • an embodiment of the present invention may provide a method for detecting an abnormal user among users who use a price comparison site.
  • a method of detecting an abnormal user through click log data of an item in a site may include collecting click log data for each site user, and using the collected click log data. Extracting IAT (inter arrival time) for each site; extracting DA (diurnal activity) for each site user using the collected click log data; and ES for each site user using the collected click log data; extracting an eigenscore, calculating a suspicion score for each site user using at least one of the extracted IAT, DA, or ES, and based on the calculated suspicion score for each user. Detecting.
  • a method for detecting an abnormal user through click log data of an item in a site may include storing click log data for each user accessing the site for a preset time and storing the click log. Removing click log data whose total number of clicks on items in the site of the data is below a threshold.
  • a method for detecting an abnormal user through click log data of an item in a site includes I normal including time interval information of two consecutive click log pairs of all users of the site. Setting a vector, setting an I u vector comprising time interval information for two consecutive click log pairs of any user u at the site, and based on the set I normal vector and I u vector, Calculating the IAT of any user u.
  • a method of detecting at least the user via the click log data for the items in the site comprises the steps of setting the D normal vector comprising a time-specific clicks, information on all users of the site And setting a D u vector including time slot click count information for any user u of the site, and calculating DA for each user based on the set D normal vector and the D u vector.
  • a method of detecting an abnormal user through click log data of an item in a site comprises: configuring a user-item matrix for each user by using the click log data for each site user, SVD
  • the method may include searching for a density block in the constructed matrix through singular vector decomposition, and extracting an ES for each site user based on the found density block.
  • an apparatus for detecting an abnormal user through click log data of an item in a site includes a database and a processor for storing the click log data, and the processor includes a click for each site user.
  • Collect log data extract IAT (inter arrival time) for each site user using the collected click log data, and extract DA (diurnal activity) for each site user using the collected click log data.
  • the abnormal user may be detected among the site users based on the suspicion score.
  • an apparatus for detecting an abnormal user through click log data of an item in a site may store click log data for each user accessing the site for a preset time, and store the stored click log data. And removing click log data in which the total number of clicks on items in the site is less than a threshold.
  • an apparatus for detecting an abnormal user through click log data of an item in a site may include I normal including time interval information of two consecutive click log pairs of all users of the site. Set an I u vector containing time interval information for two consecutive click log pairs of any user u of the site, and based on the set I normal and I u vectors, And calculating an IAT of user u of.
  • an apparatus for detecting an abnormal user through click log data of an item in a site may set a D normal vector including time slot click information for all users of the site, The method may include setting a D u vector including click time information for each user u of the site, and calculating DA for each user based on the set D normal vector and the D u vector.
  • an apparatus for detecting an abnormal user through click log data of an item in a site may construct a user-item matrix for each user and use SVD (The method may include searching for a density block in the constructed matrix through singular vector decomposition, and extracting an ES for each site user based on the found density block.
  • abnormal users may be detected among users who use the price comparison site. More specifically, the present invention may provide a method for detecting an abnormal user among site users without having to install an additional device by a provider (a neighbor shopping, Enuri.com, Danawa, etc.) providing a conventional price comparison service. Accordingly, an operator providing a price comparison service can easily detect an abnormal user at a small cost.
  • a provider a neighbor shopping, Enuri.com, Danawa, etc.
  • FIG. 1 is a view illustrating a form in which recommended products are displayed on a site according to an embodiment of the present invention.
  • FIG. 2 is a diagram for comparing IAT differences between general users and abnormal users of a site according to an exemplary embodiment of the present invention.
  • FIG. 3 is a view for comparing the DA difference between the general user and the abnormal user of the site according to an embodiment of the present invention.
  • FIG. 4 is a diagram for comparing ES differences between a general user and an abnormal user of a site according to an embodiment of the present invention.
  • FIG. 5 is a flowchart illustrating a method of detecting an abnormal user using click log data of an item in a site according to an embodiment of the present invention.
  • Embodiments according to the inventive concept may be variously modified and have various forms, so embodiments are illustrated in the drawings and described in detail herein. However, this is not intended to limit the embodiments in accordance with the concept of the present invention to specific embodiments, and includes modifications, equivalents, or substitutes included in the spirit and scope of the present invention.
  • first or second may be used to describe various components, but the components should not be limited by the terms. The terms are only for the purpose of distinguishing one component from another component, for example, without departing from the scope of the rights according to the inventive concept, the first component may be called a second component, Similarly, the second component may also be referred to as the first component.
  • FIG. 1 is a view illustrating a form in which recommended products are displayed on a site according to an embodiment of the present invention.
  • the site refers to a site including an item for analyzing a user's behavior pattern through click log data of the site user.
  • the ranking of the products may be provided based on popularity, sales volume, and the like of various products. Items provided as a link in the form of an image or text in the price comparison site may be used as a means for detecting the user's click log data.
  • FIG. 1 is an example of a screen that may be displayed when a user searches for a laptop on a price comparison site.
  • various items related to the laptop searched by the user may be displayed. Items corresponding to the search word input by the user may be provided as a link in the form of an image or text.
  • items related to a laptop searched by a user may be displayed in order according to popularity ranking.
  • the popularity ranking of the items displayed on 120 may be provided based on click log data of users who use the site. For example, an item that receives the highest number of clicks from site users may be displayed as a priority. Alternatively, the item sold most to site users may be displayed in the first rank.
  • the site disclosed in FIG. 1 may be provided to a user through an apparatus for detecting an abnormal user according to an embodiment of the present invention.
  • the apparatus for detecting an abnormal user may collect click log data of users who use the site, and extract inter-at arrival time (IAT), diurnal activity (DA), and ES (eigenscore) for the user from the collected click log data. And a database in which the collected click log data is stored.
  • IAT inter-at arrival time
  • DA diurnal activity
  • ES eigenscore
  • FIG. 2 is a diagram for comparing IAT differences between general users and abnormal users of a site according to an exemplary embodiment of the present invention.
  • IAT inter arrival time per site user, which can be extracted from the collected click log data, is a value representing a time required for the first user to click the first item again after clicking the first item. . That is, IAT is one of the indicators that can be used to distinguish between ordinary users and abnormal users.
  • the processor included in the apparatus for detecting the abnormal user may set the I u vector based on the IAT value for any user u using the click log data.
  • the I u vector is an n-dimensional vector, where n may mean the length of the session (the time difference between the first click and the last click of the user u accessing the site).
  • the value of the i-th dimension I of the vector u can be the ratio of the user u in the successive two-click log pairs having a second i-click time interval (click interval), click logs pair. For example, n may be set to 1,200.
  • the processor may set the I normal vector using click log data of all users who use the site.
  • the x-axis of the graph disclosed in FIG. 2 may represent an i value, which is a time interval for two consecutive clicks of a user, and the y-axis may represent a number of click log pairs having a click time interval of i seconds. For example, when a user who accesses the site performs 10 clicks every three seconds, the user may be represented by coordinates corresponding to (3, 10) on the graph (a) of FIG. 2.
  • the graph (a) of FIG. 2 is a graph based on the IAT of all users who use the site, and the graph (b) is a graph based only on the IAT of users classified as abnormal users.
  • the IAT pattern is a typical pattern of IAT that can be extracted based on click log data that can be collected through a shopping site where an operation such as item search or price comparison is performed.
  • the IAT extracted from the click log data of users using the price comparison site may be expressed in a form similar to that of graph (a).
  • the IAT extracted from the click log data of the users classified as the abnormal users may be expressed in a form similar to that of the graph (b) of FIG. 2.
  • graph (b) it can be seen that the majority of two consecutive click log pairs have a click time interval 210 of 9 to 14 seconds or a click time interval 220 of 40 seconds. It can be seen that the behavior pattern of a user who performs a plurality of clicks on one item at a specific time interval differs significantly from the behavior pattern of a general user.
  • an I normal vector based on IAT values extracted from click log data of all users using a site and an I u vector based on IAT values extracted from click log data of an individual user It may be determined whether an individual user is an abnormal user. For example, by calculating the similarity between the I normal vector based on the IAT value extracted from the click log data of all users using the site and the I u vector based on the IAT value extracted from the user log click log data, A u IAT , which is a suspicion score of a user interval, may be obtained.
  • a coolback-leibler divergence may be used to calculate the similarity between the I normal vector and the I u vector. And, this can be expressed as Equation 1 below.
  • I u is the Kullback vector and the normal vector I - and Lai blur divergence
  • i is an index indicating the dimension of the vector u I I and normal vector.
  • the similarity between vectors is calculated using DKL, but is not limited thereto, and any method of calculating similarity between vectors may be applied. For example, Euclidean distance, Manhattan distance, cosine similarity or Hamming distance may be applied.
  • FIG. 3 is a view for comparing the DA difference between the general user and the abnormal user of the site according to an embodiment of the present invention.
  • DA diurnal activity
  • daily activity amount per user is a value representing the daily activity amount per user and is one of the indicators that can be used to distinguish the general user from the abnormal user.
  • the processor included in the apparatus for detecting the abnormal user may set the D u vector based on the DA value for any user u using the click log data.
  • the D u vector is a 24-dimensional vector, and 24 may mean 24 hours a day.
  • the value of the i-th dimension of the D u vector means the ratio of clicks that occur from i: 0 minutes 0 seconds to i: 59 minutes 59 seconds, and more specifically, may indicate the ratio of clicks per time period of the user u. .
  • the processor may set the D normal vector using click log data of all users who use the site.
  • the x-axis of the graph disclosed in FIG. 3 may represent 24 hours a day, and the y-axis may represent a ratio of clicks per time zone.
  • the graph (a) of FIG. 3 is a graph based on DAs of all users who use the site, and the graph (b) is a graph based only on DAs of users classified as abnormal users.
  • the DA pattern is a typical pattern of DA that can be extracted based on click log data that can be collected through a shopping site where an operation such as item search or price comparison is performed.
  • DA extracted from click log data of users using a price comparison site may be expressed in a form similar to that of graph (a).
  • DA extracted from click log data of users classified as abnormal users may be expressed in a form similar to that of graph (b) of FIG. 3. Referring to 310 of the graph (b), it can be seen that most clicks of the abnormal user were performed between 7 pm and 10 pm. It can be seen that the behavior pattern of the user who clicks only at a certain time of day is quite different from the behavior pattern of the general user.
  • a D normal vector based on a DA value extracted from click log data of all users using a site and a D u vector based on a DA value extracted from click log data of an individual user It may be determined whether an individual user is an abnormal user. For example, by calculating the similarity of the D normal vector based on the DA value extracted from the click log data of all users using the site and the D u vector based on the DA value extracted from the click log data of the user u, A u DA , which is a suspicion score for user u's daily activity, may be obtained.
  • a coolback-leibler divergence may be used to calculate the similarity between the D normal vector and the D u vector. This may be represented as in Equation 3.
  • Equation 4 Is the Kullback D vector u and the normal vector D-lie and blur divergence, i is an index indicating the dimension of the vector D u and D normal vector. Generally Since a is asymmetric, a u DA is And It can be calculated by averaging the values. This may be represented as in Equation 4.
  • the similarity between vectors is calculated using DKL, but is not limited thereto, and any method of calculating similarity between vectors may be applied. For example, Euclidean distance, Manhattan distance, cosine similarity or Hamming distance may be applied.
  • FIG. 4 is a diagram for comparing ES differences between a general user and an abnormal user of a site according to an embodiment of the present invention.
  • the ES (eigenscore) per site user which can be extracted from the collected click log data, is a value extracted based on the total number of daily clicks per user for each item existing in the site. For example, high ES of a specific user may mean that the number of clicks on a single item of a specific user is high, and at the same time, it may mean that the specific user is more than an abnormal user.
  • User-specific ES is one of the indicators that can be used to distinguish between ordinary users and abnormal users.
  • the processor included in the apparatus for detecting the abnormal user may generate a matrix representing the total number of clicks per user for each item existing in the site, using the click log data of the users who use the site. For example, the first user to the nth user may be listed in a row of the matrix, and the number of clicks by date of the first to nth items may be listed in the column of the matrix.
  • the number of clicks on the first day of the first item of the first user may be expressed in one row and one column of the matrix according to an embodiment. Referring to 410, it can be seen that the first user performed 75 clicks on the first day and 42 clicks on the second day. Referring to 420, the third user may have performed 69 clicks on the first day and 80 clicks on the second day.
  • the processor may classify a user associated with a density block existing in the generated matrix as an abnormal user.
  • the density of the density block may be set to correspond to the ratio of non-zero elements of the block and the numerical size of each element.
  • a density block may be generated when the user intensively clicks on a specific item in a short time.
  • the processor may generate a daily user-item click matrix as disclosed in FIG. 4 using the click log data and then find a density block in the generated matrix. The processor may then measure the association between each user and the density block.
  • Singular vector decomposition may be used for the processor to find a density block.
  • SVD is a commonly used method for finding density blocks included in a matrix. Since it corresponds to a known technology, the method of applying SVD is omitted.
  • the generated SVD is based on click log data. You can apply SVD to a matrix. If 50 density blocks are detected, the processor may derive 50 singular values and singular vectors corresponding to each singular value.
  • the processor may set the absolute value of the values included in each derived singular vector to ES (eigenscore).
  • ES eigenscore
  • ES eigenscore
  • the processor may normalize the ES (eigenscore) to a value between 0 and 1.
  • the processor may obtain a u ES , which is a singular value suspicion score for any user u. To this end, the processor may calculate a distance between RE average which is an average of eigenscores relative to all users and RE u which is an average of eigenscores relative to users u. If this is expressed as an equation, it may be expressed as Equation 5 as follows.
  • a processor may include at least one of a u IAT which is a suspicion score of a user interval, a u DA which is a suspicion score of daily activity of a user u, and a u ES which is a suspicious value suspicion score of a user u.
  • the final suspicious score for user u can be calculated.
  • the extended p-norm model which is widely used in the field of information retrieval, may be used as a method for calculating a final suspicious score.
  • the extended p-norm model can be divided into two types depending on the type of query (AND or OR).
  • FIG. 5 is a flowchart illustrating a method of detecting an abnormal user using click log data of an item in a site according to an embodiment of the present invention.
  • the method performed by the apparatus for detecting the abnormal user through the click log data of the item in the site may include the following steps.
  • the processor may collect click log data of each user using the site. For example, users who access the site can click on various items contained within the site. Items included in the site may refer to links or contents provided in an image or text form. When the user clicks on the item, the processor may store identification information about the user who performed the click operation and corresponding click log data in the database.
  • the processor may edit the click log data stored in the database for a preset collection period. For example, if the number of clicks performed by the first user on the site during the collection period is below the threshold, the sample may exclude click log data for the first user from the sample, and the processor may exclude the click log data of the first user from the database. You can delete it from.
  • the processor is based on the click log data stored in the database, and among the inter arrival time (IAT), differential activity (DA) or ES (eigenscore) for users using the site. At least one can be extracted.
  • IAT inter arrival time
  • DA differential activity
  • ES eigenscore
  • the processor may extract an inter arrival time (IAT) for each site user based on the click log data stored in the database.
  • An inter arrival time (IAT) per site user which can be extracted from the stored click log data, means, for example, the time taken for the first user to click on the first item after clicking the first item. Is a value. That is, IAT is one of the indicators that can be used to distinguish between ordinary users and abnormal users.
  • the processor may extract the DA (diurnal activity) per site user based on the click log data stored in the database.
  • DA diurnal activity
  • the processor may extract an ES (eigenscore) for each site user based on the click log data stored in the database.
  • the ES (eigenscore) per site user which can be extracted from the stored click log data, is a value extracted based on the total number of daily clicks per user for each item existing in the site. For example, a high ES of the first user may mean that the number of clicks for a single item of the first user is high, and at the same time, the first user may be an abnormal user.
  • User-specific ES is one of the indicators that can be used to distinguish between ordinary users and abnormal users.
  • the processor may calculate a suspicion score for each site user using at least one of the extracted IAT, DA, or ES. More specifically, the processor is based on a u IAT which is a click interval suspicion score calculated based on the user's IAT , a u DA which is a suspicion of daily activity calculated based on the user's DA, or ES of the user u. The final suspicion score for the user u may be calculated using at least one value of a u ES which is a singular value suspicion score calculated as.
  • the processor may detect an abnormal user among site users based on the calculated suspicious score for each user.
  • the suspicious scores calculated in step 540 may have values between [0, 1], and the closer the calculated value is to 1, the more likely that user is an anomaly.
  • the system administrator who manages the device for detecting the abnormal user can set the reference value to determine the classification criteria for the abnormal user. For example, when the suspicion score set by the system administrator is 0.7, users who have obtained a suspicion score of 0.7 or higher may be classified as the abnormal user.
  • the apparatus described above may be implemented as a hardware component, a software component, and / or a combination of hardware components and software components.
  • the devices and components described in the embodiments are, for example, processors, controllers, arithmetic logic units (ALUs), digital signal processors, microcomputers, field programmable gate arrays (FPGAs).
  • ALUs arithmetic logic units
  • FPGAs field programmable gate arrays
  • PLU programmable logic unit
  • the processing device may execute an operating system (OS) and one or more software applications running on the operating system.
  • the processing device may also access, store, manipulate, process, and generate data in response to the execution of the software.
  • processing device includes a plurality of processing elements and / or a plurality of types of processing elements. It can be seen that it may include.
  • the processing device may include a plurality of processors or one processor and one controller.
  • other processing configurations are possible, such as parallel processors.
  • the software may include a computer program, code, instructions, or a combination of one or more of the above, and configure the processing device to operate as desired, or process it independently or collectively. You can command the device.
  • Software and / or data may be any type of machine, component, physical device, virtual equipment, computer storage medium or device in order to be interpreted by or to provide instructions or data to the processing device. Or may be permanently or temporarily embodied in a signal wave to be transmitted.
  • the software may be distributed over networked computer systems so that they may be stored or executed in a distributed manner.
  • Software and data may be stored on one or more computer readable recording media.
  • the method according to the embodiment may be embodied in the form of program instructions that can be executed by various computer means and recorded in a computer readable medium.
  • the computer readable medium may include program instructions, data files, data structures, etc. alone or in combination.
  • the program instructions recorded on the media may be those specially designed and constructed for the purposes of the embodiments, or they may be of the kind well-known and available to those having skill in the computer software arts.
  • Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tape, optical media such as CD-ROMs, DVDs, and magnetic disks, such as floppy disks.
  • Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like.
  • the hardware device described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.

Abstract

The present invention relates to an apparatus for detecting and method for detecting an abnormal user by using click log data with respect to an item on a site, wherein, according to one embodiment of the present invention, a method for detecting an abnormal user through the click log data with respect to an item on a site may comprise: a step of collecting click log data for each site user; a step of extracting an inter arrival time (IAT) for each site user by using the collected click log data; a step of extracting a diurnal activity (DA) for each site user using the collected click log data; a step of extracting an eigenscore (ES) for each site user by using the collected click log data; a step of calculating a suspicion score for each site user by using at least one of the extracted IAT, DA, or ES; and a step of detecting an abnormal user among the site users on the basis of the calculated suspicion score for each site user.

Description

클릭 로그 데이터를 이용하여 이상 사용자를 검출하는 방법 및 장치Method and apparatus for detecting abnormal user using click log data
본 발명은 사이트 내 아이템에 대한 클릭 로그 데이터를 이용하여 이상 사용자를 검출하는 방법 및 검출하는 장치에 대한 것으로서, 본 발명의 일실시예에 따르면 사이트 사용자의 클릭 로그 데이터를 이용하여 사이트 사용자의 행동 패턴을 분석하고 이상 사용자를 검출할 수 있다.The present invention relates to a method and an apparatus for detecting an abnormal user using click log data of an item in a site, and according to an embodiment of the present invention, a behavior pattern of a site user using click log data of a site user. Analyze and detect abnormal users.
나아가, 본 발명은 2016년 11월 10일 출원된 한국특허출원 제10-2016-0149329호의 이익을 주장하며, 그 내용 전부는 본 명세서에 포함된다.Furthermore, the present invention claims the benefit of Korean Patent Application No. 10-2016-0149329, filed November 10, 2016, the entire contents of which are incorporated herein.
종래의 이상 사용자 (fraud) 검출 연구들은 이상 사용자의 활동 도메인 및 활동 패턴에 대한 관찰을 통해 이루어졌다. 예를 들어, 클릭형 이상 사용자(click fraud) 검출 연구는 특정 광고를 의도적으로 많이 클릭하는 사용자에 대한 행동을 검출해내는 연구이며, 명성형 이상 사용자(reputation fraud)는 전자상거래 사이트에서 평점이나 댓글 등으로 여론을 조작하는 사용자를 검출하는 연구이다. 또한, 순위 조작형 이상 사용자(ranking fraud)는 모바일 앱스토어에서 특정 어플의 인기 순위를 높이기 위해 비정상적인 방법을 사용하는 유저를 검출하는 연구이다.Conventional fraud detection studies have been made through observation of an abnormal user's activity domain and activity pattern. For example, a click fraud detection study is one that detects behavior for users who intentionally click on a particular ad.Reputation fraud is a rating or comment on an ecommerce site. It is a study to detect a user who manipulates public opinion. In addition, ranking fraud is a study of detecting a user who uses an abnormal method to increase the popularity ranking of a specific application in the mobile app store.
이와 달리, 가격비교 사이트 사용자들의 행동 패턴(예, 클릭 동작)을 분석하고, 이상 사용자로 의심되는 행동 패턴을 보이는 사용자들을 검출하는 연구는 지금까지 이루어지지 않았다. 이는 가격비교 사이트를 이용하는 사용자들 중 이상 행동을 보이는 사용자들이 타 서비스의 이상 사용자들, 예를 들면 광고 네트워크에서의 클릭형 이상 사용자(click fraud), 온라인 전자상거래 사이트에서의 명성형 이상 사용자(reputation fraud), 또는 모바일 앱 스토어에서의 순위 조작형 이상 사용자(ranking fraud)들과 다른 행동 특징을 가지고 있기 때문이다. In contrast, studies on analyzing behavior patterns (eg, click actions) of price comparison site users and detecting users showing behavior patterns suspected of abnormal users have not been conducted until now. This means that users who have anomalous behavior among price comparison sites are abnormal users of other services, such as click fraud on ad networks and reputation misconduct on online e-commerce sites. fraud), or different behavioral features than ranking frauds in the mobile app store.
보다 구체적으로, 가격비교 사이트를 이용하는 사용자들 중 이상 행동을 보이는 사용자들은, 한 명의 사용자가 하나의 아이템에 대해서 다양한 반응(reaction) (예를 들면, 구매, 평점 부여, 아이템과 관련된 데이터 다운로드, 아이템 클릭 등)을 보일 수 있다는 특징을 가지고 있다. More specifically, among the users who use the price comparison site, users who exhibit anomalous behavior may have a variety of reactions (e.g., purchases, ratings, download data related to items, items, etc.) for a single user. Click, etc.).
기존의 도메인 시스템에서는 한 명의 사용자가 하나의 아이템에 한 번 이상의 반응(reaction)을 보이는 것이 허용되지 않거나, 부자연스러운 행위로 간주된다. 따라서, 한 명의 사용자가 하나의 아이템에 대해서 다양한 반응(reaction)을 보일 수 있는 가격비교 사이트의 이상 사용자 검출에는 기존의 도메인 시스템을 적용할 수 없으며, 기존의 이상 사용자(fraud) 검출 방법들 역시 적용할 수 없다.In existing domain systems, one user is not allowed to show more than one reaction to an item, or is considered unnatural. Therefore, the existing domain system cannot be applied to the abnormal user detection of the price comparison site where one user can exhibit various reactions to one item, and the existing abnormal user detection methods are also applied. Can not.
상기한 바와 같이 한 명의 사용자가 하나의 아이템에 대해서 다양한 반응을 보일 수 있을 경우, 기존의 이상 사용자 검출 방법들을 이용할 수 없다. 이에 따라, 본 발명의 일실시예는 가격비교 사이트를 이용하는 사용자 중 이상 사용자를 검출하는 방법을 제공할 수 있다.As described above, when one user is able to show various responses to one item, existing abnormal user detection methods cannot be used. Accordingly, an embodiment of the present invention may provide a method for detecting an abnormal user among users who use a price comparison site.
본 발명의 일실시예에 따르면, 사이트 내 아이템에 대한 클릭 로그 데이터를 통해 이상 사용자를 검출하는 방법은, 사이트 사용자 별 클릭 로그 데이터를 수집하는 단계, 상기 수집된 클릭 로그 데이터를 이용하여 상기 사이트 사용자 별 IAT(inter arrival time)를 추출하는 단계, 상기 수집된 클릭 로그 데이터를 이용하여 상기 사이트 사용자 별 DA(diurnal activity)를 추출하는 단계, 상기 수집된 클릭 로그 데이터를 이용하여 상기 사이트 사용자 별 ES(eigenscore)를 추출하는 단계, 상기 추출된 IAT, DA 또는 ES 중 적어도 하나를 이용하여 상기 사이트 사용자 별 의심 점수를 계산하는 단계 및 상기 계산된 사용자 별 의심 점수를 기초로, 상기 사이트 사용자 중 이상 사용자를 검출하는 단계를 포함할 수 있다.According to an embodiment of the present invention, a method of detecting an abnormal user through click log data of an item in a site may include collecting click log data for each site user, and using the collected click log data. Extracting IAT (inter arrival time) for each site; extracting DA (diurnal activity) for each site user using the collected click log data; and ES for each site user using the collected click log data; extracting an eigenscore, calculating a suspicion score for each site user using at least one of the extracted IAT, DA, or ES, and based on the calculated suspicion score for each user. Detecting.
본 발명의 일실시예에 따르면, 사이트 내 아이템에 대한 클릭 로그 데이터를 통해 이상 사용자를 검출하는 방법은, 미리 설정된 시간 동안 상기 사이트에 접속한 사용자 별 클릭 로그 데이터를 저장하는 단계 및 상기 저장된 클릭 로그 데이터 중 상기 사이트 내 아이템에 대한 총 클릭 수가 임계치 미만인 클릭 로그 데이터를 제거하는 단계를 포함할 수 있다.According to an embodiment of the present invention, a method for detecting an abnormal user through click log data of an item in a site may include storing click log data for each user accessing the site for a preset time and storing the click log. Removing click log data whose total number of clicks on items in the site of the data is below a threshold.
본 발명의 일실시예에 따르면, 사이트 내 아이템에 대한 클릭 로그 데이터를 통해 이상 사용자를 검출하는 방법은, 상기 사이트의 모든 사용자들의 연속된 두 번의 클릭 로그 쌍에 대한 시간 간격 정보를 포함하는 Inormal 벡터를 설정하는 단계, 상기 사이트의 임의의 사용자 u의 연속된 두 번의 클릭 로그 쌍에 대한 시간 간격 정보를 포함하는 Iu 벡터를 설정하는 단계 및 상기 설정된 Inormal 벡터 및 Iu 벡터를 기초로, 상기 임의의 사용자 u의 IAT를 계산하는 단계를 포함할 수 있다.According to an embodiment of the present invention, a method for detecting an abnormal user through click log data of an item in a site includes I normal including time interval information of two consecutive click log pairs of all users of the site. Setting a vector, setting an I u vector comprising time interval information for two consecutive click log pairs of any user u at the site, and based on the set I normal vector and I u vector, Calculating the IAT of any user u.
본 발명의 일실시예에 따르면, 사이트 내 아이템에 대한 클릭 로그 데이터를 통해 이상 사용자를 검출하는 방법은, 상기 사이트의 모든 사용자들에 대한 시간대 별 클릭 수 정보를 포함하는 Dnormal 벡터를 설정하는 단계, 상기 사이트의 임의의 사용자 u에 대한 시간대 별 클릭 수 정보를 포함하는 Du 벡터를 설정하는 단계 및 상기 설정된 Dnormal 벡터 및 Du 벡터를 기초로, 사용자 별 DA를 계산하는 단계를 포함할 수 있다.According to one embodiment of the invention, a method of detecting at least the user via the click log data for the items in the site comprises the steps of setting the D normal vector comprising a time-specific clicks, information on all users of the site And setting a D u vector including time slot click count information for any user u of the site, and calculating DA for each user based on the set D normal vector and the D u vector. have.
본 발명의 일실시예에 따르면, 사이트 내 아이템에 대한 클릭 로그 데이터를 통해 이상 사용자를 검출하는 방법은, 상기 사이트 사용자 별 클릭 로그 데이터를 이용하여, 사용자 별 사용자-아이템 행렬을 구성하는 단계, SVD(singular vector decomposition)를 통해 상기 구성된 행렬에서 밀도 블록(dense block)을 검색하는 단계, 상기 검색된 밀도 블록(dense block)을 기초로 상기 사이트 사용자 별 ES를 추출하는 단계를 포함할 수 있다.According to an embodiment of the present invention, a method of detecting an abnormal user through click log data of an item in a site comprises: configuring a user-item matrix for each user by using the click log data for each site user, SVD The method may include searching for a density block in the constructed matrix through singular vector decomposition, and extracting an ES for each site user based on the found density block.
본 발명의 일실시예에 따르면, 사이트 내 아이템에 대한 클릭 로그 데이터를 통해 이상 사용자를 검출하는 장치는, 상기 클릭 로그 데이터를 저장하는 데이터 베이스 및 프로세서를 포함하고, 상기 프로세서는, 사이트 사용자 별 클릭 로그 데이터를 수집하고, 상기 수집된 클릭 로그 데이터를 이용하여 상기 사이트 사용자 별 IAT(inter arrival time)를 추출하고, 상기 수집된 클릭 로그 데이터를 이용하여 상기 사이트 사용자 별 DA(diurnal activity)를 추출하고, 상기 수집된 클릭 로그 데이터를 이용하여 상기 사이트 사용자 별 ES(eigenscore)를 추출하고, 상기 추출된 IAT, DA 또는 ES 중 적어도 하나를 이용하여 상기 사이트 사용자 별 의심 점수를 계산하고, 상기 계산된 사용자 별 의심 점수를 기초로, 상기 사이트 사용자 중 이상 사용자를 검출할 수 있다.According to an embodiment of the present invention, an apparatus for detecting an abnormal user through click log data of an item in a site includes a database and a processor for storing the click log data, and the processor includes a click for each site user. Collect log data, extract IAT (inter arrival time) for each site user using the collected click log data, and extract DA (diurnal activity) for each site user using the collected click log data. Extracts ES (eigenscore) for each site user by using the collected click log data, calculates a suspicion score for each site user using at least one of the extracted IAT, DA, or ES, and calculates the calculated user The abnormal user may be detected among the site users based on the suspicion score.
본 발명의 일실시예에 따르면, 사이트 내 아이템에 대한 클릭 로그 데이터를 통해 이상 사용자를 검출하는 장치는, 미리 설정된 시간 동안 상기 사이트에 접속한 사용자 별 클릭 로그 데이터를 저장하고, 상기 저장된 클릭 로그 데이터 중 상기 사이트 내 아이템에 대한 총 클릭 수가 임계치 미만인 클릭 로그 데이터를 제거하는 동작을 포함할 수 있다.According to an embodiment of the present invention, an apparatus for detecting an abnormal user through click log data of an item in a site may store click log data for each user accessing the site for a preset time, and store the stored click log data. And removing click log data in which the total number of clicks on items in the site is less than a threshold.
본 발명의 일실시예에 따르면, 사이트 내 아이템에 대한 클릭 로그 데이터를 통해 이상 사용자를 검출하는 장치는, 상기 사이트의 모든 사용자들의 연속된 두 번의 클릭 로그 쌍에 대한 시간 간격 정보를 포함하는 Inormal 벡터를 설정하고, 상기 사이트의 임의의 사용자 u의 연속된 두 번의 클릭 로그 쌍에 대한 시간 간격 정보를 포함하는 Iu 벡터를 설정하고, 상기 설정된 Inormal 벡터 및 Iu 벡터를 기초로, 상기 임의의 사용자 u의 IAT를 계산하는 동작을 포함할 수 있다.According to an embodiment of the present invention, an apparatus for detecting an abnormal user through click log data of an item in a site may include I normal including time interval information of two consecutive click log pairs of all users of the site. Set an I u vector containing time interval information for two consecutive click log pairs of any user u of the site, and based on the set I normal and I u vectors, And calculating an IAT of user u of.
본 발명의 일실시예에 따르면, 사이트 내 아이템에 대한 클릭 로그 데이터를 통해 이상 사용자를 검출하는 장치는, 상기 사이트의 모든 사용자들에 대한 시간대 별 클릭 수 정보를 포함하는 Dnormal 벡터를 설정하고, 상기 사이트의 임의의 사용자 u에 대한 시간대 별 클릭 수 정보를 포함하는 Du 벡터를 설정하고, 상기 설정된 Dnormal 벡터 및 Du 벡터를 기초로, 사용자 별 DA를 계산하는 동작을 포함할 수 있다.According to an embodiment of the present invention, an apparatus for detecting an abnormal user through click log data of an item in a site may set a D normal vector including time slot click information for all users of the site, The method may include setting a D u vector including click time information for each user u of the site, and calculating DA for each user based on the set D normal vector and the D u vector.
본 발명의 일실시예에 따르면, 사이트 내 아이템에 대한 클릭 로그 데이터를 통해 이상 사용자를 검출하는 장치는, 상기 사이트 사용자 별 클릭 로그 데이터를 이용하여, 사용자 별 사용자-아이템 행렬을 구성하고, SVD(singular vector decomposition)를 통해 상기 구성된 행렬에서 밀도 블록(dense block)을 검색하고, 상기 검색된 밀도 블록(dense block)을 기초로 상기 사이트 사용자 별 ES를 추출하는 동작을 포함할 수 있다.According to an embodiment of the present invention, an apparatus for detecting an abnormal user through click log data of an item in a site may construct a user-item matrix for each user and use SVD ( The method may include searching for a density block in the constructed matrix through singular vector decomposition, and extracting an ES for each site user based on the found density block.
본 발명의 일실시예에 따르면, 가격비교 사이트를 이용하는 사용자들 중 이상 사용자를 검출할 수 있다. 보다 구체적으로, 본 발명은 종래 가격비교 서비스를 제공하는 사업자(네이버 쇼핑, 에누리닷컴, 다나와 등)가 추가적인 장치를 설치할 필요없이 사이트 사용자 중 이상 사용자를 검출할 수 있는 방법을 제공할 수 있다. 이에 따라, 가격비교 서비스를 제공하는 사업자는 작은 비용을 들여 이상 사용자를 손쉽게 검출할 수 있다.According to an embodiment of the present invention, abnormal users may be detected among users who use the price comparison site. More specifically, the present invention may provide a method for detecting an abnormal user among site users without having to install an additional device by a provider (a neighbor shopping, Enuri.com, Danawa, etc.) providing a conventional price comparison service. Accordingly, an operator providing a price comparison service can easily detect an abnormal user at a small cost.
또한, 본 발명의 일실시예에 따르면, 자신이 판매하는 상품에 대한 인기를 높이기 위해 정당하지 않은 방법을 사용하는 사용자들의 다양한 시도를 제한할 수 있다.In addition, according to an embodiment of the present invention, it is possible to limit various attempts of users who use an unjust method in order to increase the popularity of the products they sell.
도 1은 본 발명의 일실시예에 따른 사이트에서 추천 상품이 표시되는 형태를 설명하기 위한 도면이다.1 is a view illustrating a form in which recommended products are displayed on a site according to an embodiment of the present invention.
도 2는 본 발명의 일실시예에 따른 사이트의 일반적인 사용자와 이상 사용자의 IAT 차이를 비교하기 위한 도면이다.FIG. 2 is a diagram for comparing IAT differences between general users and abnormal users of a site according to an exemplary embodiment of the present invention.
도 3은 본 발명의 일실시예에 따른 사이트의 일반적인 사용자와 이상 사용자의 DA 차이를 비교하기 위한 도면이다.3 is a view for comparing the DA difference between the general user and the abnormal user of the site according to an embodiment of the present invention.
도 4는 본 발명의 일실시예에 따른 사이트의 일반적인 사용자와 이상 사용자의 ES 차이를 비교하기 위한 도면이다.4 is a diagram for comparing ES differences between a general user and an abnormal user of a site according to an embodiment of the present invention.
도 5는 본 발명의 일실시예에 따른 사이트 내 아이템에 대한 클릭 로그 데이터를 이용하여 이상 사용자를 검출하는 방법을 설명하기 위한 순서도이다.5 is a flowchart illustrating a method of detecting an abnormal user using click log data of an item in a site according to an embodiment of the present invention.
본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 본 발명의 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시예들은 다양한 형태로 실시될 수 있으며 본 명세서에 설명된 실시예들에 한정되지 않는다.Specific structural or functional descriptions of the embodiments according to the inventive concept disclosed herein are merely illustrated for the purpose of describing the embodiments according to the inventive concept, and the embodiments according to the inventive concept. These may be embodied in various forms and are not limited to the embodiments described herein.
본 발명의 개념에 따른 실시예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시예들을 도면에 예시하고 본 명세서에 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시예들을 특정한 개시형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 변경, 균등물, 또는 대체물을 포함한다.Embodiments according to the inventive concept may be variously modified and have various forms, so embodiments are illustrated in the drawings and described in detail herein. However, this is not intended to limit the embodiments in accordance with the concept of the present invention to specific embodiments, and includes modifications, equivalents, or substitutes included in the spirit and scope of the present invention.
제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만, 예를 들어 본 발명의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.Terms such as first or second may be used to describe various components, but the components should not be limited by the terms. The terms are only for the purpose of distinguishing one component from another component, for example, without departing from the scope of the rights according to the inventive concept, the first component may be called a second component, Similarly, the second component may also be referred to as the first component.
어떤 구성요소가 다른 구성요소에 "연결되어” 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 표현들, 예를 들어 "~사이에"와 "바로~사이에" 또는 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.When a component is referred to as being "connected" or "connected" to another component, it may be directly connected or connected to that other component, but it may be understood that other components may be present in the middle. On the other hand, when a component is said to be "directly connected" or "directly connected" to another component, it should be understood that there is no other component in between. Expressions describing the relationship between the two, such as "between" and "immediately between" or "directly neighboring", should be interpreted as well.
본 명세서에서 사용한 용어는 단지 특정한 실시예들을 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terminology used herein is for the purpose of describing particular embodiments only and is not intended to be limiting of the invention. Singular expressions include plural expressions unless the context clearly indicates otherwise. As used herein, the terms "comprise" or "having" are intended to designate that the stated feature, number, step, operation, component, part, or combination thereof is present, but one or more other features or numbers, It is to be understood that it does not exclude in advance the possibility of the presence or addition of steps, actions, components, parts or combinations thereof.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless defined otherwise, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art. Terms such as those defined in the commonly used dictionaries should be construed as having meanings consistent with the meanings in the context of the related art, and are not construed in ideal or excessively formal meanings unless expressly defined herein. Do not.
이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.Hereinafter, exemplary embodiments will be described in detail with reference to the accompanying drawings. However, the scope of the patent application is not limited or limited by these embodiments. Like reference numerals in the drawings denote like elements.
도 1은 본 발명의 일실시예에 따른 사이트에서 추천 상품이 표시되는 형태를 설명하기 위한 도면이다.1 is a view illustrating a form in which recommended products are displayed on a site according to an embodiment of the present invention.
일실시예에 따른 사이트는, 사이트 사용자의 클릭 로그 데이트를 통해 사용자의 행동 패턴을 분석할 수 있는 아이템을 포함하고 있는 사이트를 의미한다. 예를 들어, 다양한 상품들의 가격을 비교하여 제공하는 가격비교 사이트의 경우, 다양한 상품에 대한 인기도, 판매량 등을 기초로 상품의 순위를 제공할 수 있다. 이러한 가격비교 사이트에서 이미지 또는 텍스트 형태의 링크로 제공되는 아이템들은 사용자의 클릭 로그 데이터를 검출할 수 있는 수단으로 이용될 수 있다. According to an embodiment, the site refers to a site including an item for analyzing a user's behavior pattern through click log data of the site user. For example, in the case of a price comparison site that compares and provides prices of various products, the ranking of the products may be provided based on popularity, sales volume, and the like of various products. Items provided as a link in the form of an image or text in the price comparison site may be used as a means for detecting the user's click log data.
도 1은, 사용자가 가격비교 사이트에서 laptop 을 검색한 경우 표시될 수 있는 화면의 일 예시로서, 도 1의 110에는, 사용자가 검색한 laptop과 관련된 다양한 아이템들이 표시될 수 있다. 사용자가 입력한 검색어에 대응하는 아이템들은 이미지 또는 텍스트 형태의 링크로 제공될 수 있다. 1 is an example of a screen that may be displayed when a user searches for a laptop on a price comparison site. In FIG. 1, various items related to the laptop searched by the user may be displayed. Items corresponding to the search word input by the user may be provided as a link in the form of an image or text.
도 1의 120에는, 사용자가 검색한 laptop과 관련된 아이템들이 인기 순위에 따라 순서대로 표시될 수 있다. 120에 표시된 아이템들의 인기 순위는, 해당 사이트를 이용하는 사용자들의 클릭 로그 데이터를 기초로 하여 제공될 수 있다. 예를 들면, 사이트 사용자들로부터 가장 많은 클릭 수를 입력 받은 아이템이 1순위로 표시될 수 있다. 또는, 사이트 사용자들에게 가장 많이 판매된 아이템이 1순위로 표시될 수 있다. In FIG. 1, items related to a laptop searched by a user may be displayed in order according to popularity ranking. The popularity ranking of the items displayed on 120 may be provided based on click log data of users who use the site. For example, an item that receives the highest number of clicks from site users may be displayed as a priority. Alternatively, the item sold most to site users may be displayed in the first rank.
도 1에 개시된 사이트는, 본 발명의 일실시예에 따른 이상 사용자를 검출하는 장치를 통해 사용자에게 제공될 수 있다. 이상 사용자를 검출하는 장치는, 사이트를 이용하는 사용자들의 클릭 로그 데이터를 수집하고, 수집된 클릭 로그 데이터로부터 사용자에 대한 IAT(inter arrival time), DA(diurnal activity) 및 ES(eigenscore)를 추출할 수 있는 프로세서 및 수집된 클릭 로그 데이터가 저장되는 데이터 베이스를 포함할 수 있다. 이하, 도 2 내지 도 4에서 IAT, DA 및 ES에 대해서 자세히 설명하기로 한다.The site disclosed in FIG. 1 may be provided to a user through an apparatus for detecting an abnormal user according to an embodiment of the present invention. The apparatus for detecting an abnormal user may collect click log data of users who use the site, and extract inter-at arrival time (IAT), diurnal activity (DA), and ES (eigenscore) for the user from the collected click log data. And a database in which the collected click log data is stored. Hereinafter, IAT, DA, and ES will be described in detail with reference to FIGS. 2 to 4.
도 2는 본 발명의 일실시예에 따른 사이트의 일반적인 사용자와 이상 사용자의 IAT 차이를 비교하기 위한 도면이다.FIG. 2 is a diagram for comparing IAT differences between general users and abnormal users of a site according to an exemplary embodiment of the present invention.
수집된 클릭 로그 데이터로부터 추출될 수 있는 사이트 사용자 별 IAT(inter arrival time)는, 제1 사용자가 제1 아이템을 클릭한 후, 다시 제1 아이템을 클릭할 때까지 소요된 시간을 의미하는 값이다. 즉, IAT는 일반적인 사용자와 이상 사용자를 구별하는데 이용될 수 있는 지표 중 하나이다.An inter arrival time (IAT) per site user, which can be extracted from the collected click log data, is a value representing a time required for the first user to click the first item again after clicking the first item. . That is, IAT is one of the indicators that can be used to distinguish between ordinary users and abnormal users.
이상 사용자를 검출하는 장치에 구비된 프로세서는, 클릭 로그 데이터를 이용하여 임의의 사용자 u에 대한 IAT 값을 기초로 한 Iu 벡터를 설정할 수 있다. Iu 벡터는 n차원 벡터로서, n은 세션의 길이(사이트에 접속한 사용자 u의 최초 클릭과 최종 클릭의 시간 차)를 의미할 수 있다. Iu 벡터의 i 번째 차원의 값은, 사용자 u의 연속된 두 번의 클릭 로그 쌍들 중 i 초의 클릭 시간 간격(click interval)을 가지는 클릭 로그 쌍들의 비율을 의미할 수 있다. 예를 들어, n은 1,200으로 설정될 수 있다. 이는 사이트에 접속한 사용자 u가, 사이트 내 임의의 아이템에 대하여 최초 클릭을 수행한 후 1,200초(즉, 20분) 동안 다음 클릭 동작을 수행하지 않을 경우, 세션을 종료한 것으로 간주한다는 뜻이다. 이와 같은 방식으로, 프로세서는 사이트를 이용하는 모든 사용자들의 클릭 로그 데이터를 이용하여 Inormal 벡터를 설정할 수도 있다.The processor included in the apparatus for detecting the abnormal user may set the I u vector based on the IAT value for any user u using the click log data. The I u vector is an n-dimensional vector, where n may mean the length of the session (the time difference between the first click and the last click of the user u accessing the site). The value of the i-th dimension I of the vector u, can be the ratio of the user u in the successive two-click log pairs having a second i-click time interval (click interval), click logs pair. For example, n may be set to 1,200. This means that if the user u accessing the site does not perform the next click operation for 1,200 seconds (ie, 20 minutes) after performing the first click on any item in the site, the user is considered to have ended the session. In this manner, the processor may set the I normal vector using click log data of all users who use the site.
도 2에 개시된 그래프의 x축은 사용자의 연속된 두 번의 클릭에 대한 시간 간격인 i 값을 나타내고, y축은 i 초의 클릭 시간 간격을 가지는 클릭 로그 쌍들의 개수를 나타낼 수 있다. 예를 들어, 사이트에 접속한 사용자가 3초 간격의 클릭을 10번 수행한 경우, 도 2의 그래프 (a) 상에 (3, 10)에 대응하는 좌표로 표현될 수 있다.The x-axis of the graph disclosed in FIG. 2 may represent an i value, which is a time interval for two consecutive clicks of a user, and the y-axis may represent a number of click log pairs having a click time interval of i seconds. For example, when a user who accesses the site performs 10 clicks every three seconds, the user may be represented by coordinates corresponding to (3, 10) on the graph (a) of FIG. 2.
도 2의 그래프 (a)는 사이트를 이용하는 모든 사용자들의 IAT를 기초로 한 그래프이고, 그래프 (b)는 이상 사용자로 분류된 사용자들의 IAT 만을 기초로 한 그래프이다. The graph (a) of FIG. 2 is a graph based on the IAT of all users who use the site, and the graph (b) is a graph based only on the IAT of users classified as abnormal users.
그래프 (a)를 참고하면, 사이트를 이용하는 모든 사용자들의 IAT 중 대부분은 1 내지 100초 사이에 존재함을 알 수 있다. 그래프 (a)와 같은 IAT 패턴은, 아이템 검색 또는 가격 비교 등의 동작이 수행되는 쇼핑 사이트를 통해 수집될 수 있는 클릭 로그 데이터를 기초로 하여 추출될 수 있는 IAT의 전형적인 패턴이다. 예를 들면, 가격비교 사이트를 이용하는 사용자들의 클릭 로그 데이터로부터 추출된 IAT는 그래프 (a)와 유사한 형태로 표현될 수 있다.Referring to graph (a), it can be seen that most of the IATs of all users who use the site exist between 1 and 100 seconds. The IAT pattern, such as graph (a), is a typical pattern of IAT that can be extracted based on click log data that can be collected through a shopping site where an operation such as item search or price comparison is performed. For example, the IAT extracted from the click log data of users using the price comparison site may be expressed in a form similar to that of graph (a).
이에 반해, 이상 사용자로 분류된 사용자들의 클릭 로그 데이터로부터 추출된 IAT는 도 2의 그래프 (b)와 유사한 형태로 표현될 수 있다. 그래프 (b)를 참고하면, 연속된 두 번의 클릭 로그 쌍 중 대다수가 9초 내지 14초의 클릭 시간 간격(210)을 가지거나 40초의 클릭 시간 간격(220)을 가지는 것을 알 수 있다. 하나의 아이템에 대하여 특정 시간 간격으로 다수의 클릭을 수행하는 사용자의 행동 패턴은 일반적인 사용자의 행동 패턴과 상당한 차이가 있음 알 수 있다.On the contrary, the IAT extracted from the click log data of the users classified as the abnormal users may be expressed in a form similar to that of the graph (b) of FIG. 2. Referring to graph (b), it can be seen that the majority of two consecutive click log pairs have a click time interval 210 of 9 to 14 seconds or a click time interval 220 of 40 seconds. It can be seen that the behavior pattern of a user who performs a plurality of clicks on one item at a specific time interval differs significantly from the behavior pattern of a general user.
일실시예에 따르면, 사이트를 이용하는 모든 사용자들의 클릭 로그 데이터로부터 추출된 IAT 값을 기초로 한 Inormal 벡터와 개별 사용자의 클릭 로그 데이터로부터 추출된 IAT 값을 기초로 한 Iu 벡터를 비교함으로써, 개별 사용자가 이상 사용자인지 여부를 판단할 수 있다. 예를 들어, 사이트를 이용하는 모든 사용자들의 클릭 로그 데이터로부터 추출된 IAT 값을 기초로 한 Inormal 벡터와 사용자 u의 클릭 로그 데이터로부터 추출된 IAT 값을 기초로 한 Iu 벡터의 유사도를 계산하여, 사용자 u의 클릭 인터벌 의심 점수인 au IAT를 구할 수 있다. According to an embodiment, by comparing an I normal vector based on IAT values extracted from click log data of all users using a site and an I u vector based on IAT values extracted from click log data of an individual user, It may be determined whether an individual user is an abnormal user. For example, by calculating the similarity between the I normal vector based on the IAT value extracted from the click log data of all users using the site and the I u vector based on the IAT value extracted from the user log click log data, A u IAT , which is a suspicion score of a user interval, may be obtained.
일실시예에 따라, Inormal 벡터와 Iu 벡터 간의 유사도 계산에는 쿨백-라이블러 발산(Kullback-Leibler divergence, DKL)이 이용될 수 있다. 그리고, 이는 아래의 수학식 1과 같이 나타낼 수 있다.According to an embodiment, a coolback-leibler divergence (DKL) may be used to calculate the similarity between the I normal vector and the I u vector. And, this can be expressed as Equation 1 below.
[수학식 1][Equation 1]
Figure PCTKR2017012689-appb-I000001
Figure PCTKR2017012689-appb-I000001
여기서,
Figure PCTKR2017012689-appb-I000002
은 Iu 벡터와 Inormal 벡터의 쿨백-라이블러 발산이고, i 는 Iu 벡터와 Inormal 벡터의 차원을 나타내는 지표이다. 일반적으로
Figure PCTKR2017012689-appb-I000003
은 비대칭 함수이므로, au IAT
Figure PCTKR2017012689-appb-I000004
Figure PCTKR2017012689-appb-I000005
값을 평균하여 계산할 수 있다. 이는 아래의 수학식 2와 같이 나타낼 수 있다.
here,
Figure PCTKR2017012689-appb-I000002
I u is the Kullback vector and the normal vector I - and Lai blur divergence, i is an index indicating the dimension of the vector u I I and normal vector. Generally
Figure PCTKR2017012689-appb-I000003
Is an asymmetric function, so a u IAT is
Figure PCTKR2017012689-appb-I000004
And
Figure PCTKR2017012689-appb-I000005
It can be calculated by averaging the values. This can be expressed as Equation 2 below.
[수학식 2][Equation 2]
Figure PCTKR2017012689-appb-I000006
Figure PCTKR2017012689-appb-I000006
Figure PCTKR2017012689-appb-I000007
는 최소-최대 정규화(min-max normalization)를 통해 0과 1사이의 값으로 표현될 수 있다.
Figure PCTKR2017012689-appb-I000007
Can be expressed as a value between 0 and 1 through min-max normalization.
상기 실시예에서는 DKL을 이용하여 벡터 간 유사도를 계산하였으나, 이에 한정되는 것은 아니며, 벡터 간 유사도를 계산하는 방법이라면 무엇이든지 적용될 수 있다. 예를 들어, 유클리드 거리법(Euclidean distance), 맨하탄 거리법(Manhattan distance), 코사인 유사도(cosine similarity) 또는 해밍 거리법(Hamming distance) 등이 적용될 수 있다.In the above embodiment, the similarity between vectors is calculated using DKL, but is not limited thereto, and any method of calculating similarity between vectors may be applied. For example, Euclidean distance, Manhattan distance, cosine similarity or Hamming distance may be applied.
도 3은 본 발명의 일실시예에 따른 사이트의 일반적인 사용자와 이상 사용자의 DA 차이를 비교하기 위한 도면이다.3 is a view for comparing the DA difference between the general user and the abnormal user of the site according to an embodiment of the present invention.
수집된 클릭 로그 데이터로부터 추출될 수 있는 사이트 사용자 별 DA(diurnal activity)는, 사용자 별 하루 활동량을 의미하는 값으로서, 일반적인 사용자와 이상 사용자를 구별하는데 이용될 수 있는 지표 중 하나이다.DA (diurnal activity) for each site user, which can be extracted from the collected click log data, is a value representing the daily activity amount per user and is one of the indicators that can be used to distinguish the general user from the abnormal user.
이상 사용자를 검출하는 장치에 구비된 프로세서는, 클릭 로그 데이터를 이용하여 임의의 사용자 u에 대한 DA 값을 기초로 한 Du 벡터를 설정할 수 있다. Du 벡터는 24차원 벡터로서, 24는 하루 24시간을 의미할 수 있다. Du 벡터의 i 번째 차원의 값은, i시 0분 0초부터 i시 59분 59초 동안 일어난 클릭의 비율을 의미하는 것으로서, 보다 구체적으로 사용자 u의 시간대 별 클릭 수의 비율을 나타낼 수 있다. 이와 같은 방식으로, 프로세서는 사이트를 이용하는 모든 사용자들의 클릭 로그 데이터를 이용하여 Dnormal 벡터를 설정할 수도 있다.The processor included in the apparatus for detecting the abnormal user may set the D u vector based on the DA value for any user u using the click log data. The D u vector is a 24-dimensional vector, and 24 may mean 24 hours a day. The value of the i-th dimension of the D u vector means the ratio of clicks that occur from i: 0 minutes 0 seconds to i: 59 minutes 59 seconds, and more specifically, may indicate the ratio of clicks per time period of the user u. . In this manner, the processor may set the D normal vector using click log data of all users who use the site.
도 3에 개시된 그래프의 x축은 하루 24시간을 나타내고, y축은 시간대 별 클릭 수의 비율을 나타낼 수 있다. The x-axis of the graph disclosed in FIG. 3 may represent 24 hours a day, and the y-axis may represent a ratio of clicks per time zone.
도 3의 그래프 (a)는 사이트를 이용하는 모든 사용자들의 DA를 기초로 한 그래프이고, 그래프 (b)는 이상 사용자로 분류된 사용자들의 DA만을 기초로 한 그래프이다. The graph (a) of FIG. 3 is a graph based on DAs of all users who use the site, and the graph (b) is a graph based only on DAs of users classified as abnormal users.
그래프 (a)를 참고하면, 사이트를 이용하는 모든 사용자들의 DA가 가장 낮은 시간대는 수면 시간(Sleeping 구간)인 오전 3시 내지 8시이며, 반대로 모든 사용자들의 DA가 가장 높은 시간대는 밤 시간대인 오후 10시 내지 오전 0시임을 알 수 있다. 그래프 (a)와 같은 DA 패턴은, 아이템 검색 또는 가격 비교 등의 동작이 수행되는 쇼핑 사이트를 통해 수집될 수 있는 클릭 로그 데이터를 기초로 하여 추출될 수 있는 DA의 전형적인 패턴이다. 예를 들면, 가격비교 사이트를 이용하는 사용자들의 클릭 로그 데이터로부터 추출된 DA는 그래프 (a)와 유사한 형태로 표현될 수 있다.Referring to graph (a), the lowest time zone for all users using the site is from 3 AM to 8 AM, which is the sleeping time, whereas the highest time zone for all users is 10 PM, which is night time. It can be seen that the hour to 0 am. The DA pattern, such as graph (a), is a typical pattern of DA that can be extracted based on click log data that can be collected through a shopping site where an operation such as item search or price comparison is performed. For example, DA extracted from click log data of users using a price comparison site may be expressed in a form similar to that of graph (a).
이에 반해, 이상 사용자로 분류된 사용자들의 클릭 로그 데이터로부터 추출된 DA는 도 3의 그래프 (b)와 유사한 형태로 표현될 수 있다. 그래프 (b)의 310을 참고하면, 오후 7시 내지 오후 10시 사이에 이상 사용자의 대부분의 클릭이 수행되었음을 알 수 있다. 하루 중 특정 시간에만 클릭을 수행하는 사용자의 행동 패턴은 일반적인 사용자의 행동 패턴과 상당한 차이가 있음 알 수 있다.In contrast, DA extracted from click log data of users classified as abnormal users may be expressed in a form similar to that of graph (b) of FIG. 3. Referring to 310 of the graph (b), it can be seen that most clicks of the abnormal user were performed between 7 pm and 10 pm. It can be seen that the behavior pattern of the user who clicks only at a certain time of day is quite different from the behavior pattern of the general user.
일실시예에 따르면, 사이트를 이용하는 모든 사용자들의 클릭 로그 데이터로부터 추출된 DA 값을 기초로 한 Dnormal 벡터와 개별 사용자의 클릭 로그 데이터로부터 추출된 DA 값을 기초로 한 Du 벡터를 비교함으로써, 개별 사용자가 이상 사용자인지 여부를 판단할 수 있다. 예를 들어, 사이트를 이용하는 모든 사용자들의 클릭 로그 데이터로부터 추출된 DA 값을 기초로 한 Dnormal 벡터와 사용자 u의 클릭 로그 데이터로부터 추출된 DA 값을 기초로 한 Du 벡터의 유사도를 계산하여, 사용자 u의 일일 활동량 의심 점수인 au DA를 구할 수 있다. According to an embodiment, by comparing a D normal vector based on a DA value extracted from click log data of all users using a site and a D u vector based on a DA value extracted from click log data of an individual user, It may be determined whether an individual user is an abnormal user. For example, by calculating the similarity of the D normal vector based on the DA value extracted from the click log data of all users using the site and the D u vector based on the DA value extracted from the click log data of the user u, A u DA , which is a suspicion score for user u's daily activity, may be obtained.
일실시예에 따라, Dnormal 벡터와 Du 벡터 간의 유사도 계산에는 쿨백-라이블러 발산(Kullback-Leibler divergence, DKL)이 이용될 수 있다. 이는 수학식 3과 같이 나타낼 수 있다.According to an embodiment, a coolback-leibler divergence (DKL) may be used to calculate the similarity between the D normal vector and the D u vector. This may be represented as in Equation 3.
[수학식 3][Equation 3]
Figure PCTKR2017012689-appb-I000008
Figure PCTKR2017012689-appb-I000008
여기서,
Figure PCTKR2017012689-appb-I000009
은 Du 벡터와 Dnormal 벡터의 쿨백-라이블러 발산이고, i 는 Du 벡터와 Dnormal 벡터의 차원을 나타내는 지표이다. 일반적으로
Figure PCTKR2017012689-appb-I000010
은 비대칭 함수이므로, au DA
Figure PCTKR2017012689-appb-I000011
Figure PCTKR2017012689-appb-I000012
값을 평균하여 계산할 수 있다. 이는 수학식 4와 같이 나타낼 수 있다.
here,
Figure PCTKR2017012689-appb-I000009
Is the Kullback D vector u and the normal vector D-lie and blur divergence, i is an index indicating the dimension of the vector D u and D normal vector. Generally
Figure PCTKR2017012689-appb-I000010
Since a is asymmetric, a u DA is
Figure PCTKR2017012689-appb-I000011
And
Figure PCTKR2017012689-appb-I000012
It can be calculated by averaging the values. This may be represented as in Equation 4.
[수학식 4][Equation 4]
Figure PCTKR2017012689-appb-I000013
Figure PCTKR2017012689-appb-I000013
Figure PCTKR2017012689-appb-I000014
는 최소-최대 정규화(min-max normalization)를 통해 0과 1사이의 값으로 표현될 수 있다.
Figure PCTKR2017012689-appb-I000014
Can be expressed as a value between 0 and 1 through min-max normalization.
상기 실시예에서는 DKL을 이용하여 벡터 간 유사도를 계산하였으나, 이에 한정되는 것은 아니며, 벡터 간 유사도를 계산하는 방법이라면 무엇이든지 적용될 수 있다. 예를 들어, 유클리드 거리법(Euclidean distance), 맨하탄 거리법(Manhattan distance), 코사인 유사도(cosine similarity) 또는 해밍 거리법(Hamming distance) 등이 적용될 수 있다.In the above embodiment, the similarity between vectors is calculated using DKL, but is not limited thereto, and any method of calculating similarity between vectors may be applied. For example, Euclidean distance, Manhattan distance, cosine similarity or Hamming distance may be applied.
도 4는 본 발명의 일실시예에 따른 사이트의 일반적인 사용자와 이상 사용자의 ES 차이를 비교하기 위한 도면이다.4 is a diagram for comparing ES differences between a general user and an abnormal user of a site according to an embodiment of the present invention.
수집된 클릭 로그 데이터로부터 추출될 수 있는 사이트 사용자 별 ES(eigenscore)는, 사이트 내 존재하는 아이템 각각에 대한 사용자 별 일일 총 클릭 수를 기초로 하여 추출된 값이다. 예를 들어, 특정 사용자의 ES가 높다는 것은, 특정 사용자의 단일 아이템에 대한 클릭 수가 높다는 것을 의미할 수 있으며, 이와 동시에 특정 사용자가 이상 사용자일 가능성이 높다는 것을 의미할 수 있다. 사용자 별 ES는, 일반적인 사용자와 이상 사용자를 구별하는데 이용될 수 있는 지표 중 하나이다. The ES (eigenscore) per site user, which can be extracted from the collected click log data, is a value extracted based on the total number of daily clicks per user for each item existing in the site. For example, high ES of a specific user may mean that the number of clicks on a single item of a specific user is high, and at the same time, it may mean that the specific user is more than an abnormal user. User-specific ES is one of the indicators that can be used to distinguish between ordinary users and abnormal users.
이상 사용자를 검출하는 장치에 구비된 프로세서는, 사이트를 이용하는 사용자들의 클릭 로그 데이터를 이용하여, 사이트 내 존재하는 아이템 각각에 대한 사용자 별 일일 총 클릭 수를 나타내는 행렬을 생성할 수 있다. 예를 들어, 행렬의 행에는 제1 사용자부터 제n 사용자를 나열할 수 있고, 행렬의 열에는 제1 아이템 내지 제n 아이템의 날짜별 클릭 수를 나열할 수 있다. The processor included in the apparatus for detecting the abnormal user may generate a matrix representing the total number of clicks per user for each item existing in the site, using the click log data of the users who use the site. For example, the first user to the nth user may be listed in a row of the matrix, and the number of clicks by date of the first to nth items may be listed in the column of the matrix.
도 4의 표를 참고하면, 일실시예에 따른 행렬의 1행 1열에는 제1 사용자의 제1 아이템에 대한 첫번째 날의 클릭 수가 표현될 수 있다. 410을 참고하면, 제1 사용자는 제2 아이템에 대하여 첫번째 날에는 75번의 클릭을 수행하였고, 두번째 날에는 42번의 클릭을 수행하였음을 알 수 있다. 420을 참고하면, 제3 사용자는 제3 아이템에 대하여 첫번째 날에는 69번의 클릭을 수행하였고, 두번째 날에는 80번의 클릭을 수행하였음을 알 수 있다. Referring to the table of FIG. 4, the number of clicks on the first day of the first item of the first user may be expressed in one row and one column of the matrix according to an embodiment. Referring to 410, it can be seen that the first user performed 75 clicks on the first day and 42 clicks on the second day. Referring to 420, the third user may have performed 69 clicks on the first day and 80 clicks on the second day.
일실시예에 따른 프로세서는, 생성된 행렬에 존재하는 밀도 블록(dense block)과 연관된 사용자를 이상 사용자로 분류할 수 있다. 밀도 블록(dense block)의 밀도(density)는 블록의 논-제로 요소(non-zero element)의 비율 및 각 요소(element)의 숫자 크기에 대응하도록 설정될 수 있다. 상기 실시예에 따르면, 밀도 블록(dense block)은 사용자가 특정 아이템을 짧은 시간에 집중적으로 클릭할 때 생성될 수 있다.According to an embodiment, the processor may classify a user associated with a density block existing in the generated matrix as an abnormal user. The density of the density block may be set to correspond to the ratio of non-zero elements of the block and the numerical size of each element. According to the above embodiment, a density block may be generated when the user intensively clicks on a specific item in a short time.
예를 들어, 프로세서는 클릭 로그 데이터를 이용하여 도 4에 개시된 것과 같은 하루 별 사용자-아이템 클릭 행렬을 생성한 뒤, 생성된 행렬에서 밀도 블록(dense block)을 찾을 수 있다. 이어서 프로세서는, 각 사용자와 밀도 블록(dense block) 간의 관련성을 측정할 수 있다. For example, the processor may generate a daily user-item click matrix as disclosed in FIG. 4 using the click log data and then find a density block in the generated matrix. The processor may then measure the association between each user and the density block.
프로세서가 밀도 블록(dense block)을 찾는 과정에는, SVD(singular vector decomposition)가 이용될 수 있다. (SVD는 행렬에 포함된 밀도 블록(dense block)을 찾기 위해 흔히 사용되는 방법으로서, 공지 기술에 해당하므로 SVD를 적용하는 방법은 생략한다.) 예를 들어, 클릭 로그 데이터를 기초로 하여 생성된 행렬에 SVD를 적용할 수 있다. 만약 50개의 밀도 블록(dense block)이 검출되었다면, 프로세서는 50개의 특이값들과 각 특이값에 대응되는 특이벡터들을 도출할 수 있다. Singular vector decomposition (SVD) may be used for the processor to find a density block. (SVD is a commonly used method for finding density blocks included in a matrix. Since it corresponds to a known technology, the method of applying SVD is omitted.) For example, the generated SVD is based on click log data. You can apply SVD to a matrix. If 50 density blocks are detected, the processor may derive 50 singular values and singular vectors corresponding to each singular value.
프로세서는 도출된 각각의 특이벡터 내에 포함된 값들의 절대값을 ES(eigenscore)로 설정할 수 있다. ES(eigenscore)는 사용자가 밀도 블록(dense block)과 얼마나 연관이 있는지를 나타내는 지표로 이용될 수 있다. 예를 들어, ES(eigenscore)가 클수록 사용자와 밀도 블록(dense block) 간의 연관성이 크다는 것을 의미할 수 있다. 프로세서는 ES(eigenscore)를 0과 1 사이의 값으로 정규화(normalize)할 수 있다.The processor may set the absolute value of the values included in each derived singular vector to ES (eigenscore). ES (eigenscore) can be used as an indicator of how much the user is associated with the density block (dense block). For example, the larger the eigenscore, the greater the association between the user and the density block. The processor may normalize the ES (eigenscore) to a value between 0 and 1.
일실시예에 따르면, 프로세서는 임의의 사용자 u에 대한 특이값 의심 점수인 au ES를 구할 수 있다. 이를 위해, 프로세서는 모든 사용자들에 대한 상대적인 ES(eigenscore)의 평균인 REaverage와 사용자 u에 대한 상대적인 ES(eigenscore)의 평균인 REu의 거리를 계산할 수 있다. 이를 식으로 표현하면 다음과 같이 수학식 5와 같이 나타낼 수 있다.According to one embodiment, the processor may obtain a u ES , which is a singular value suspicion score for any user u. To this end, the processor may calculate a distance between RE average which is an average of eigenscores relative to all users and RE u which is an average of eigenscores relative to users u. If this is expressed as an equation, it may be expressed as Equation 5 as follows.
[수학식 5][Equation 5]
Figure PCTKR2017012689-appb-I000015
Figure PCTKR2017012689-appb-I000015
일실시예에 따른 프로세서는, 사용자 u의 클릭 인터벌 의심 점수인 au IAT, 사용자 u의 일일 활동량 의심 점수인 au DA 또는 사용자 u에 대한 특이값 의심 점수인 au ES 중 적어도 하나의 값을 기초로 하여, 사용자 u에 대한 최종 의심 점수를 계산할 수 있다. 프로세서가 최종 의심 점수를 계산하는 방법에는, 정보 검색 분야에서 많이 이용되는 extended p-norm model 이 사용될 수 있다. extended p-norm model은 쿼리의 종류(AND 또는 OR)에 따라 두 가지로 나뉠 수 있다.According to an embodiment of the present disclosure, a processor may include at least one of a u IAT which is a suspicion score of a user interval, a u DA which is a suspicion score of daily activity of a user u, and a u ES which is a suspicious value suspicion score of a user u. On the basis, the final suspicious score for user u can be calculated. The extended p-norm model, which is widely used in the field of information retrieval, may be used as a method for calculating a final suspicious score. The extended p-norm model can be divided into two types depending on the type of query (AND or OR).
도 5는 본 발명의 일실시예에 따른 사이트 내 아이템에 대한 클릭 로그 데이터를 이용하여 이상 사용자를 검출하는 방법을 설명하기 위한 순서도이다.5 is a flowchart illustrating a method of detecting an abnormal user using click log data of an item in a site according to an embodiment of the present invention.
본 발명의 일실시예에 따라, 사이트 내 아이템에 대한 클릭 로그 데이터를 통해 이상 사용자를 검출하는 장치를 통해 수행되는 방법은 하기의 단계들을 포함할 수 있다.According to an embodiment of the present invention, the method performed by the apparatus for detecting the abnormal user through the click log data of the item in the site may include the following steps.
단계(500)에서, 프로세서는 사이트를 이용하는 모든 사용자 각각의 클릭 로그 데이터를 수집할 수 있다. 예를 들어, 사이트에 접속한 사용자들은 사이트 내에 포함된 다양한 아이템들을 클릭할 수 있다. 사이트 내에 포함된 아이템들이란, 이미지 또는 텍스트 형태로 제공되는 링크나 컨텐츠를 의미할 수 있다. 사용자가 아이템을 클릭할 경우, 프로세서는 클릭 동작을 수행한 사용자에 대한 식별 정보 및 이에 대응하는 클릭 로그 데이터를 데이터 베이스에 저장할 수 있다. In step 500, the processor may collect click log data of each user using the site. For example, users who access the site can click on various items contained within the site. Items included in the site may refer to links or contents provided in an image or text form. When the user clicks on the item, the processor may store identification information about the user who performed the click operation and corresponding click log data in the database.
프로세서는 미리 설정된 수집 기간 동안 데이터 베이스에 저장된 클릭 로그 데이터들을 편집할 수 있다. 예를 들어, 제1 사용자가 수집 기간 동안 사이트 내에서 수행한 클릭 수가 임계치 미만일 경우, 제1 사용자에 대한 클릭 로그 데이터를 표본에서 제외할 수 있으며, 프로세서는 제1 사용자의 클릭 로그 데이터를 데이터 베이스에서 삭제할 수 있다. The processor may edit the click log data stored in the database for a preset collection period. For example, if the number of clicks performed by the first user on the site during the collection period is below the threshold, the sample may exclude click log data for the first user from the sample, and the processor may exclude the click log data of the first user from the database. You can delete it from.
단계(510) 내지 단계(530)에서, 프로세서는 데이터 베이스에 저장된 클릭 로그 데이터를 기초로 하여, 사이트를 이용하는 사용자들에 대한 IAT(inter arrival time), DA(diurnal activity) 또는 ES(eigenscore) 중 적어도 하나를 추출할 수 있다. In steps 510 to 530, the processor is based on the click log data stored in the database, and among the inter arrival time (IAT), differential activity (DA) or ES (eigenscore) for users using the site. At least one can be extracted.
예를 들어, 단계(510)에서, 프로세서는 데이터 베이스에 저장된 클릭 로그 데이터를 기초로 하여, 사이트 사용자 별 IAT(inter arrival time)을 추출할 수 있다. 저장된 클릭 로그 데이터로부터 추출될 수 있는 사이트 사용자 별 IAT(inter arrival time)는, 예를 들어, 제1 사용자가 제1 아이템을 클릭한 후, 다시 제1 아이템을 클릭할 때까지 소요된 시간을 의미하는 값이다. 즉, IAT는 일반적인 사용자와 이상 사용자를 구별하는데 이용될 수 있는 지표 중 하나이다.For example, in step 510, the processor may extract an inter arrival time (IAT) for each site user based on the click log data stored in the database. An inter arrival time (IAT) per site user, which can be extracted from the stored click log data, means, for example, the time taken for the first user to click on the first item after clicking the first item. Is a value. That is, IAT is one of the indicators that can be used to distinguish between ordinary users and abnormal users.
단계(520)에서, 프로세서는 데이터 베이스에 저장된 클릭 로그 데이터를 기초로 하여, 사이트 사용자 별 DA(diurnal activity)를 추출할 수 있다. 저장된 클릭 로그 데이터로부터 추출될 수 있는 사이트 사용자 별 DA(diurnal activity)는, 사용자 별 하루 활동량을 의미하는 값으로서, 일반적인 사용자와 이상 사용자를 구별하는데 이용될 수 있는 지표 중 하나이다.In operation 520, the processor may extract the DA (diurnal activity) per site user based on the click log data stored in the database. DA (diurnal activity) for each site user, which can be extracted from the stored click log data, is a value representing the daily activity amount per user and is one of the indicators that can be used to distinguish a general user from an abnormal user.
단계(530)에서, 프로세서는 데이터 베이스에 저장된 클릭 로그 데이터를 기초로 하여, 사이트 사용자 별 ES(eigenscore)를 추출할 수 있다. 저장된 클릭 로그 데이터로부터 추출될 수 있는 사이트 사용자 별 ES(eigenscore)는, 사이트 내 존재하는 아이템 각각에 대한 사용자 별 일일 총 클릭 수를 기초로 하여 추출된 값이다. 예를 들어, 제1 사용자의 ES가 높다는 것은, 제1 사용자의 단일 아이템에 대한 클릭 수가 높다는 것을 의미할 수 있으며, 이와 동시에 제1 사용자가 이상 사용자일 가능성이 높다는 것을 의미할 수 있다. 사용자 별 ES는, 일반적인 사용자와 이상 사용자를 구별하는데 이용될 수 있는 지표 중 하나이다.In operation 530, the processor may extract an ES (eigenscore) for each site user based on the click log data stored in the database. The ES (eigenscore) per site user, which can be extracted from the stored click log data, is a value extracted based on the total number of daily clicks per user for each item existing in the site. For example, a high ES of the first user may mean that the number of clicks for a single item of the first user is high, and at the same time, the first user may be an abnormal user. User-specific ES is one of the indicators that can be used to distinguish between ordinary users and abnormal users.
단계(540)에서, 프로세서는 추출된 IAT, DA 또는 ES 중 적어도 하나를 이용하여 사이트 사용자 별 의심 점수를 계산할 수 있다. 보다 구체적으로, 프로세서는 사용자 u의 IAT를 기초로 하여 계산된 클릭 인터벌 의심 점수인 au IAT, 사용자 u의 DA를 기초로 하여 계산된 일일 활동량 의심 점수인 au DA 또는 사용자 u의 ES를 기초로 하여 계산된 특이값 의심 점수인 au ES 중 적어도 하나의 값을 이용하여, 사용자 u에 대한 최종 의심 점수를 계산할 수 있다. In operation 540, the processor may calculate a suspicion score for each site user using at least one of the extracted IAT, DA, or ES. More specifically, the processor is based on a u IAT which is a click interval suspicion score calculated based on the user's IAT , a u DA which is a suspicion of daily activity calculated based on the user's DA, or ES of the user u. The final suspicion score for the user u may be calculated using at least one value of a u ES which is a singular value suspicion score calculated as.
단계(550)에서, 프로세서는 계산된 사용자 별 의심 점수를 기초로, 사이트 사용자 중 이상 사용자를 검출할 수 있다. 예를 들어, 단계(540)에서 계산된 의심 점수들은 [0, 1] 사이의 값들을 가질 수 있으며, 계산된 값이 1에 가까울수록 해당 사용자는 이상 사용자일 가능성이 높다. 이상 사용자를 검출하는 장치를 관리하는 시스템 관리자는 기준 값을 설정함으로써, 이상 사용자에 대한 분류 기준을 정할 수 있다. 예를 들어, 시스템 관리자에 의해 설정된 의심 점수가 0.7인 경우, 0.7 이상의 의심 점수를 획득한 사용자들이 이상 사용자로 분류될 수 있다.In operation 550, the processor may detect an abnormal user among site users based on the calculated suspicious score for each user. For example, the suspicious scores calculated in step 540 may have values between [0, 1], and the closer the calculated value is to 1, the more likely that user is an anomaly. The system administrator who manages the device for detecting the abnormal user can set the reference value to determine the classification criteria for the abnormal user. For example, when the suspicion score set by the system administrator is 0.7, users who have obtained a suspicion score of 0.7 or higher may be classified as the abnormal user.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The apparatus described above may be implemented as a hardware component, a software component, and / or a combination of hardware components and software components. For example, the devices and components described in the embodiments are, for example, processors, controllers, arithmetic logic units (ALUs), digital signal processors, microcomputers, field programmable gate arrays (FPGAs). Can be implemented using one or more general purpose or special purpose computers, such as a programmable logic unit (PLU), a microprocessor, or any other device capable of executing and responding to instructions. The processing device may execute an operating system (OS) and one or more software applications running on the operating system. The processing device may also access, store, manipulate, process, and generate data in response to the execution of the software. For convenience of explanation, one processing device may be described as being used, but one of ordinary skill in the art will appreciate that the processing device includes a plurality of processing elements and / or a plurality of types of processing elements. It can be seen that it may include. For example, the processing device may include a plurality of processors or one processor and one controller. In addition, other processing configurations are possible, such as parallel processors.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.The software may include a computer program, code, instructions, or a combination of one or more of the above, and configure the processing device to operate as desired, or process it independently or collectively. You can command the device. Software and / or data may be any type of machine, component, physical device, virtual equipment, computer storage medium or device in order to be interpreted by or to provide instructions or data to the processing device. Or may be permanently or temporarily embodied in a signal wave to be transmitted. The software may be distributed over networked computer systems so that they may be stored or executed in a distributed manner. Software and data may be stored on one or more computer readable recording media.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method according to the embodiment may be embodied in the form of program instructions that can be executed by various computer means and recorded in a computer readable medium. The computer readable medium may include program instructions, data files, data structures, etc. alone or in combination. The program instructions recorded on the media may be those specially designed and constructed for the purposes of the embodiments, or they may be of the kind well-known and available to those having skill in the computer software arts. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tape, optical media such as CD-ROMs, DVDs, and magnetic disks, such as floppy disks. Magneto-optical media, and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like. The hardware device described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.Although the embodiments have been described by the limited embodiments and the drawings as described above, various modifications and variations are possible to those skilled in the art from the above description. For example, the described techniques may be performed in a different order than the described method, and / or components of the described systems, structures, devices, circuits, etc. may be combined or combined in a different form than the described method, or other components. Or even if replaced or substituted by equivalents, an appropriate result can be achieved.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents to the claims are within the scope of the claims that follow.

Claims (10)

  1. 사이트 내 아이템에 대한 클릭 로그 데이터를 통해 이상 사용자를 검출하는 방법에 있어서,In the method for detecting an abnormal user through the click log data for the items in the site,
    사이트 사용자 별 클릭 로그 데이터를 수집하는 단계;Collecting click log data for each site user;
    상기 수집된 클릭 로그 데이터를 이용하여 상기 사이트 사용자 별 IAT(inter arrival time)를 추출하는 단계;Extracting an inter arrival time (IAT) for each site user by using the collected click log data;
    상기 수집된 클릭 로그 데이터를 이용하여 상기 사이트 사용자 별 DA(diurnal activity)를 추출하는 단계;Extracting DA (diurnal activity) for each site user using the collected click log data;
    상기 수집된 클릭 로그 데이터를 이용하여 상기 사이트 사용자 별 ES(eigenscore)를 추출하는 단계;Extracting ES (eigenscore) for each site user by using the collected click log data;
    상기 추출된 IAT, DA 또는 ES 중 적어도 하나를 이용하여 상기 사이트 사용자 별 의심 점수를 계산하는 단계; 및Calculating a suspicious score for each site user using at least one of the extracted IAT, DA, or ES; And
    상기 계산된 사용자 별 의심 점수를 기초로, 상기 사이트 사용자 중 이상 사용자를 검출하는 단계Detecting abnormal users among the site users based on the calculated suspicious score for each user;
    를 포함하는 방법.How to include.
  2. 제1항에 있어서, The method of claim 1,
    상기 클릭 로그 데이터를 수집하는 단계는,Collecting the click log data,
    미리 설정된 시간 동안 상기 사이트에 접속한 사용자 별 클릭 로그 데이터를 저장하는 단계; 및Storing click log data for each user accessing the site for a preset time; And
    상기 저장된 클릭 로그 데이터 중 상기 사이트 내 아이템에 대한 총 클릭 수가 임계치 미만인 클릭 로그 데이터를 제거하는 단계Removing click log data of the stored click log data in which the total number of clicks for items in the site is below a threshold;
    를 포함하는 방법.How to include.
  3. 제1항에 있어서,The method of claim 1,
    상기 사이트 사용자 별 IAT(inter arrival time)를 추출하는 단계는,Extracting the inter arrival time (IAT) for each site user may include:
    상기 사이트의 모든 사용자들의 연속된 두 번의 클릭 로그 쌍에 대한 시간 간격 정보를 포함하는 Inormal 벡터를 설정하는 단계;Setting an I normal vector containing time interval information for two consecutive click log pairs of all users of the site;
    상기 사이트의 임의의 사용자 u의 연속된 두 번의 클릭 로그 쌍에 대한 시간 간격 정보를 포함하는 Iu 벡터를 설정하는 단계; 및Setting an I u vector containing time interval information for two consecutive click log pairs of any user u at the site; And
    상기 설정된 Inormal 벡터 및 Iu 벡터를 기초로, 상기 임의의 사용자 u의 IAT를 계산하는 단계Calculating an IAT of the arbitrary user u based on the set I normal vector and I u vector
    를 포함하는 방법.How to include.
  4. 제1항에 있어서,The method of claim 1,
    상기 사이트 사용자 별 DA(diurnal activity)를 추출하는 단계는,Extracting the DA (diurnal activity) for each site user,
    상기 사이트의 모든 사용자들에 대한 시간대 별 클릭 수 정보를 포함하는 Dnormal 벡터를 설정하는 단계;Setting a D normal vector including click time information for all users of the site;
    상기 사이트의 임의의 사용자 u에 대한 시간대 별 클릭 수 정보를 포함하는 Du 벡터를 설정하는 단계; 및Setting a D u vector including time zone click count information for any user u of the site; And
    상기 설정된 Dnormal 벡터 및 Du 벡터를 기초로, 사용자 별 DA를 계산하는 단계Computing DA for each user based on the set D normal vector and the D u vector.
    를 포함하는 방법.How to include.
  5. 제1항에 있어서,The method of claim 1,
    상기 사이트 사용자 별 ES(eigenscore)를 추출하는 단계는,Extracting the ES (eigenscore) for each site user,
    상기 사이트 사용자 별 클릭 로그 데이터를 이용하여, 사용자 별 사용자-아이템 행렬을 구성하는 단계;Constructing a user-item matrix for each user by using the click log data for each site user;
    SVD(singular vector decomposition)를 통해 상기 구성된 행렬에서 밀도 블록(dense block)을 검색하는 단계; 및Retrieving a density block in the constructed matrix via singular vector decomposition; And
    상기 검색된 밀도 블록(dense block)을 기초로 상기 사이트 사용자 별 ES를 추출하는 단계Extracting the ES for each site user based on the found density block;
    를 포함하는 방법.How to include.
  6. 사이트 내 아이템에 대한 클릭 로그 데이터를 통해 이상 사용자를 검출하는 장치에 있어서,An apparatus for detecting an abnormal user through click log data of an item in a site,
    상기 클릭 로그 데이터를 저장하는 데이터 베이스; 및A database for storing the click log data; And
    프로세서를 포함하고,Includes a processor,
    상기 프로세서는,The processor,
    사이트 사용자 별 클릭 로그 데이터를 수집하고,Collect click log data by site user,
    상기 수집된 클릭 로그 데이터를 이용하여 상기 사이트 사용자 별 IAT(inter arrival time)를 추출하고,Extract the IAT (inter arrival time) for each site user by using the collected click log data,
    상기 수집된 클릭 로그 데이터를 이용하여 상기 사이트 사용자 별 DA(diurnal activity)를 추출하고,Extract DA (diurnal activity) for each site user by using the collected click log data,
    상기 수집된 클릭 로그 데이터를 이용하여 상기 사이트 사용자 별 ES(eigenscore)를 추출하고,Extract the ES (eigenscore) for each site user by using the collected click log data,
    상기 추출된 IAT, DA 또는 ES 중 적어도 하나를 이용하여 상기 사이트 사용자 별 의심 점수를 계산하고,Using the extracted IAT, DA, or ES to calculate a suspicious score for each site user;
    상기 계산된 사용자 별 의심 점수를 기초로, 상기 사이트 사용자 중 이상 사용자를 검출하는 장치.And detecting an abnormal user among the site users based on the calculated suspicious score for each user.
  7. 제6항에 있어서, The method of claim 6,
    상기 프로세서가 상기 클릭 로그 데이터를 수집하는 동작은,The processor collects the click log data,
    미리 설정된 시간 동안 상기 사이트에 접속한 사용자 별 클릭 로그 데이터를 저장하고,Stores click log data for each user who accesses the site for a preset time,
    상기 저장된 클릭 로그 데이터 중 상기 사이트 내 아이템에 대한 총 클릭 수가 임계치 미만인 클릭 로그 데이터를 제거하는 동작을 포함하는 장치.And removing click log data of the stored click log data for which the total number of clicks for items in the site is below a threshold.
  8. 제6항에 있어서,The method of claim 6,
    상기 프로세서가 상기 사이트 사용자 별 IAT(inter arrival time)를 추출하는 동작은,The processor extracts the inter arrival time (IAT) for each site user,
    상기 사이트의 모든 사용자들의 연속된 두 번의 클릭 로그 쌍에 대한 시간 간격 정보를 포함하는 Inormal 벡터를 설정하고,Set an I normal vector containing time interval information for two consecutive click log pairs of all users at the site,
    상기 사이트의 임의의 사용자 u의 연속된 두 번의 클릭 로그 쌍에 대한 시간 간격 정보를 포함하는 Iu 벡터를 설정하고,Set an I u vector containing time interval information for two consecutive click log pairs of any user u at the site,
    상기 설정된 Inormal 벡터 및 Iu 벡터를 기초로, 상기 임의의 사용자 u의 IAT를 계산하는 동작을 포함하는 장치.And calculating an IAT of the arbitrary user u based on the set I normal vector and I u vector.
  9. 제6항에 있어서,The method of claim 6,
    상기 프로세서가 상기 사이트 사용자 별 DA(diurnal activity)를 추출하는 동작은,The processor extracts the DA (diurnal activity) for each site user,
    상기 사이트의 모든 사용자들에 대한 시간대 별 클릭 수 정보를 포함하는 Dnormal 벡터를 설정하고,Set a D normal vector containing information about clicks per hour for all users of the site,
    상기 사이트의 임의의 사용자 u에 대한 시간대 별 클릭 수 정보를 포함하는 Du 벡터를 설정하고,Set a D u vector including time zone click count information for any user u of the site,
    상기 설정된 Dnormal 벡터 및 Du 벡터를 기초로, 사용자 별 DA를 계산하는 동작을 포함하는 장치.And calculating DA for each user based on the set D normal vector and the D u vector.
  10. 제6항에 있어서,The method of claim 6,
    상기 프로세서가 상기 사이트 사용자 별 ES(eigenscore)를 추출하는 동작은,The processor extracts the ES (eigenscore) for each site user,
    상기 사이트 사용자 별 클릭 로그 데이터를 이용하여, 사용자 별 사용자-아이템 행렬을 구성하고,The user-item matrix for each user is constructed by using the click log data for each site user.
    SVD(singular vector decomposition)를 통해 상기 구성된 행렬에서 밀도 블록(dense block)을 검색하고,Search for density blocks in the constructed matrix through singular vector decomposition,
    상기 검색된 밀도 블록(dense block)을 기초로 상기 사이트 사용자 별 ES를 추출하는 동작을 포함하는 장치.And extracting the ES for each site user based on the found density block.
PCT/KR2017/012689 2016-11-10 2017-11-09 Method and apparatus for detecting abnormal user by using click log data WO2018088824A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020160149329A KR101879829B1 (en) 2016-11-10 2016-11-10 Method and device for detecting frauds by using click log data
KR10-2016-0149329 2016-11-10

Publications (1)

Publication Number Publication Date
WO2018088824A1 true WO2018088824A1 (en) 2018-05-17

Family

ID=62110239

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2017/012689 WO2018088824A1 (en) 2016-11-10 2017-11-09 Method and apparatus for detecting abnormal user by using click log data

Country Status (2)

Country Link
KR (1) KR101879829B1 (en)
WO (1) WO2018088824A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959415A (en) * 2018-06-07 2018-12-07 北京奇艺世纪科技有限公司 A kind of exception dimension localization method, device and electronic equipment

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102162726B1 (en) * 2018-08-30 2020-10-07 네이버 주식회사 Method and system for detecting abusing using distribution pattern of content index for each dimension group
US20210158376A1 (en) * 2019-11-27 2021-05-27 The Nielsen Company (Us), Llc Methods, systems and apparatus to estimate census-level audience, impressions, and durations across demographics

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070094264A (en) * 2006-03-17 2007-09-20 엔에이치엔(주) Method for targeting web advertisement clickers based on click pattern by using a collaborative filtering system with neural networks and system thereof
KR20140146700A (en) * 2013-06-17 2014-12-29 정승훈 Apparatus and method for detecting medium of unfair clicked advertisement

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101352004B1 (en) * 2011-09-26 2014-02-07 주식회사 다음커뮤니케이션 Apparatus and method for detremining product keyword
KR101978301B1 (en) * 2016-09-30 2019-05-14 에스케이플래닛 주식회사 Apparatus for providing recommended item

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070094264A (en) * 2006-03-17 2007-09-20 엔에이치엔(주) Method for targeting web advertisement clickers based on click pattern by using a collaborative filtering system with neural networks and system thereof
KR20140146700A (en) * 2013-06-17 2014-12-29 정승훈 Apparatus and method for detecting medium of unfair clicked advertisement

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHO, GEUM HWAN ET AL.: "An Empirical Study of Click Fraud in Mobile Advertising Networks", 2015 10TH INTERNATIONAL CONFERENCE ON AVAILABILITY, 2015, pages 382 - 388, XP032795270 *
GUPTA , MONA ET AL.: "Characterizing Comparison Shopping Behavior : A Case Study", ICDE WORKSHOPS 2014, 2014, pages 115 - 122, XP032595741 *
JIANG, MENG ET AL.: "A GENERAL SUSPICIOUSNESS METRIC FOR DENSE BLOCKS IN MULTIMODAL DATA", IEEE INTERNATIONAL CONFERENCE ON DATA MINING(ICDM, 2015, pages 1 - 33, XP032843447 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959415A (en) * 2018-06-07 2018-12-07 北京奇艺世纪科技有限公司 A kind of exception dimension localization method, device and electronic equipment
CN108959415B (en) * 2018-06-07 2022-03-04 北京奇艺世纪科技有限公司 Abnormal dimension positioning method and device and electronic equipment

Also Published As

Publication number Publication date
KR20180052243A (en) 2018-05-18
KR101879829B1 (en) 2018-07-19

Similar Documents

Publication Publication Date Title
WO2017057921A1 (en) Method and system for automatically classifying data expressed by a plurality of factors with values of text word and symbol sequence by using deep learning
US20160164901A1 (en) Methods and systems for encoding computer processes for malware detection
WO2018088824A1 (en) Method and apparatus for detecting abnormal user by using click log data
WO2017155292A1 (en) Anomaly detection method and detection program
US11956264B2 (en) Method and system for verifying validity of detection result
Kim et al. Distance metrics for ranked evolutionary trees
JP2011081794A (en) Method for mutual search and alert, information processing system, and computer program (mutual search and alert between structured data source and unstructured data source)
CN103810230A (en) Information processing device, information processing method, and program
WO2018131955A1 (en) Method for analyzing digital contents
Su Elucidating the beta-diversity of the microbiome: from global alignment to local alignment
WO2021056731A1 (en) Log data analysis-based behavior detection method, apparatus, device, and medium
WO2022028131A1 (en) Data processing model acquisition method and apparatus based on privacy protection, terminal device, and storage medium
CN107404491B (en) Terminal environments method for detecting abnormality, detection device and computer readable storage medium
CN109995751A (en) Equipment for surfing the net labeling method, device and storage medium, computer equipment
CN109271495A (en) Question and answer recognition effect detection method, device, equipment and readable storage medium storing program for executing
CN110674288A (en) User portrait method applied to network security field
WO2024090667A1 (en) Race prediction system and method, using variant frequency
CN107609020B (en) Log classification method and device based on labels
CN115481299A (en) Method, system and equipment for detecting product exposure abnormity and computer storage medium
WO2017222226A1 (en) Method for registering advertised product on image content and server for executing same
Li et al. Fault diagnosis of PLC-based discrete event systems using Petri nets
WO2016088920A1 (en) System and method for recommending social commerce-based product
WO2018074856A1 (en) Method and system for providing word information
WO2020209550A1 (en) Online obesity management device and method, and computer program stored in computer-readable storage medium to execute same method
JP2021067962A (en) Information processing system and information processing method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17870279

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205 DATED 22/08/2019)

122 Ep: pct application non-entry in european phase

Ref document number: 17870279

Country of ref document: EP

Kind code of ref document: A1