WO2022153449A1 - 推定方法、推定装置及び推定プログラム - Google Patents

推定方法、推定装置及び推定プログラム Download PDF

Info

Publication number
WO2022153449A1
WO2022153449A1 PCT/JP2021/001080 JP2021001080W WO2022153449A1 WO 2022153449 A1 WO2022153449 A1 WO 2022153449A1 JP 2021001080 W JP2021001080 W JP 2021001080W WO 2022153449 A1 WO2022153449 A1 WO 2022153449A1
Authority
WO
WIPO (PCT)
Prior art keywords
log
access
access log
estimation
advertisement
Prior art date
Application number
PCT/JP2021/001080
Other languages
English (en)
French (fr)
Inventor
崇志 藤波
方邦 石井
俊孝 槇
久美子 大森
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2021/001080 priority Critical patent/WO2022153449A1/ja
Publication of WO2022153449A1 publication Critical patent/WO2022153449A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising

Definitions

  • the present invention relates to an estimation method, an estimation device, and an estimation program.
  • Non-Patent Document 1 There is conversion tracking as a means of grasping the user's behavior with respect to advertisements on the Internet (see, for example, Non-Patent Document 1). Advertisers can understand the effectiveness of advertisements by defining the contents as conversions such as application downloads, e-mail inquiries from the advertiser's website, and product purchases.
  • Conversion tracking is generally performed using cookies.
  • restrictions on third-party cookies on smartphone platforms and legislative restrictions on personal or personal information that may include cookies are also being considered. Therefore, a means for letting the advertiser understand the effect of the advertisement is expected regardless of the cookie.
  • the present invention has been made in view of the above, and an object of the present invention is to provide an estimation method, an estimation device, and an estimation program capable of estimating the presence or absence of the effect of an advertisement without using a cookie.
  • the estimation method is an estimation method executed by the estimation device, and acquires the first access log which is the access log of the advertiser's website. Based on the process, the process of acquiring the second access log, which is the access log of the website on which the advertiser's advertisement is posted, and the first access log and the second access log, the advertisement posted on the website It is characterized by including a step of estimating the presence or absence of an effect.
  • FIG. 1 is a diagram illustrating an outline of an estimation method according to an embodiment.
  • FIG. 2 is a block diagram showing an example of the configuration of the estimation system according to the embodiment.
  • FIG. 3 is a diagram illustrating a processing flow of the estimation system.
  • FIG. 4 is a block diagram showing an example of the configuration of the learning device shown in FIG.
  • FIG. 5 is a diagram illustrating the creation of learning data.
  • FIG. 6 is a flowchart showing a learning process executed by the learning device shown in FIG.
  • FIG. 7 is a block diagram showing an example of the configuration of the estimation device shown in FIG.
  • FIG. 8 is a flowchart showing an estimation process executed by the estimation device shown in FIG. 7.
  • FIG. 9 is a diagram illustrating another processing flow of the estimation system.
  • FIG. 9 is a diagram illustrating another processing flow of the estimation system.
  • FIG. 10 is a diagram showing an accuracy evaluation of the classification process.
  • FIG. 11 is a diagram showing an accuracy evaluation of the classification process.
  • FIG. 12 is a diagram showing an accuracy evaluation of the classification process.
  • FIG. 13 is a diagram showing an accuracy evaluation of the classification process.
  • FIG. 14 is a diagram showing the degree of influence of the feature amount on the classification accuracy.
  • FIG. 15 is a diagram showing an example of a computer in which a learning device and an estimation device are realized by executing a program.
  • FIG. 1 is a diagram illustrating an outline of an estimation method according to an embodiment.
  • the effect of the advertisement posted on the website is posted by the first access log L1 which is the access log of the advertiser's website and the advertisement of the advertiser. It is estimated based on the second access log L2, which is the access log of the website to be used. For example, it is a condition that a specific page of the advertiser's website is accessed. More specifically, requesting materials or purchasing may be conditional on accessing the material request page or purchase completion page on the advertiser side.
  • the access log may include one log at a time, or may include a set of a plurality of logs.
  • the log corresponding to any one access of the first access log L1 and the log corresponding to any one access of the second access log L2 are paired.
  • Create a pair of logs see (1) in FIG. 1).
  • the log of the second line of the first access log L1 and the log of the second line of the second access log L2 are paired.
  • a classifier is used to classify whether or not the log pair is an access log by the same user for each log pair. (See (2) in FIG. 1).
  • the presence or absence of the effect of the advertisement is estimated based on the classification result (see (3) in FIG. 1). For example, in the embodiment, if the log pair is classified as an access log by the same user, it is presumed that the advertisement is effective. In this way, according to the embodiment, it is possible to estimate the presence or absence of the effect of the advertisement without using cookies.
  • FIG. 2 is a block diagram showing an example of the configuration of the estimation system according to the embodiment.
  • the estimation system is the advertiser's server device 30-1 and the advertiser's server device 30-2 that publishes the advertiser's advertisement. It has an estimation device 20 for estimating the presence or absence of the effect of an advertisement. Further, the classification model used by the estimation device 20 is created by the learning device 10.
  • the configuration shown in FIG. 1 is only an example, and the specific configuration and the number of each device are not particularly limited.
  • the advertiser's server device 30-1 is a server device that manages the advertiser's website.
  • the server device 30-1 holds a first access log that records access information from the user to the advertiser's website, and appropriately transmits the first access log to the estimation device 20.
  • the first access log may be, for example, an access log of an external site to which a conversion tag or a retargeting tag is attached.
  • the server device 30-2 of the advertisement posting company is a server device that manages the posting of the advertiser's advertisement on the website.
  • the server device 30-2 holds a second access log that records access information from the user to the website where the advertiser's advertisement is posted, and appropriately transmits the second access log to the estimation device 20.
  • the estimation device 20 is posted on the website based on the first access log, which is the access log of the advertiser's website, and the second access log, which is the access log of the website on which the advertiser's advertisement is posted. Estimate the effectiveness of the advertisement.
  • the learning device 10 creates a classification model used by the estimation device 20 by using machine learning.
  • the processing of the estimation system will be described separately for the learning phase for creating a classification model and the estimation phase for estimating the effectiveness of advertisements.
  • the learning device 10 will be described together with the flow of processing in the learning phase.
  • a method using machine learning will be described, but the present invention may use a method other than machine learning as long as it is possible to classify whether two access logs are accessed by the same user. ..
  • FIG. 3 is a diagram illustrating a processing flow of the estimation system.
  • FIG. 4 is a block diagram showing an example of the configuration of the learning device 10 shown in FIG. The outline of the learning flow is described.
  • First delete the log that seems to be a bot from the access logs of the advertising site and the advertiser's site. After that, the same user's label is given to the log pair that is supposed to be accessed by the same user, and the non-same user's label is given to the log pair that is not supposed to be accessed by the same user. Learn as.
  • the learning device 10 executes a communication unit 11 that controls communication related to various information, a storage unit 12 that stores data and programs required for various processes by the control unit 13, and various processes. It has a control unit 13.
  • the communication unit 11 is a communication interface for transmitting and receiving various information to and from other devices connected via a network or the like.
  • the communication unit 11 is realized by a NIC (Network Interface Card) or the like, and communicates between another device and the control unit 13 (described later) via a telecommunication line such as a LAN (Local Area Network) or the Internet.
  • a NIC Network Interface Card
  • the communication unit 11 receives the first access log and the second access log from the server devices 30-1 and 30-2 via the network.
  • the storage unit 12 is a storage device such as an HDD (Hard Disk Drive) or SSD (Solid State Drive).
  • the storage unit 12 may be a semiconductor memory that can rewrite data such as RAM (Random Access Memory), flash memory, and NVSRAM (Non Volatile Static Random Access Memory).
  • the storage unit 12 stores the OS (Operating System) and various programs executed by the learning device 10. Further, the storage unit 12 stores various information used in executing the program.
  • the storage unit 12 is stored by the first access log 121 for learning received from the server device 30-1, the second access log 122 for learning received from the server device 30-2, and the learning data creation unit 133 (described later).
  • the created learning data 123 is stored.
  • the control unit 13 controls the entire learning device 10.
  • the control unit 13 is, for example, an electronic circuit such as a CPU (Central Processing Unit) and an MPU (Micro Processing Unit), and an integrated circuit such as an ASIC (Application Specific Integrated Circuit) and an FPGA (Field Programmable Gate Array). Further, the control unit 13 has an internal memory for storing programs and control data that define various processing procedures, and executes each process using the internal memory. Further, the control unit 13 functions as various processing units by operating various programs.
  • the control unit 13 has an acquisition unit 131, a removal unit 132, a learning data creation unit 133, and a learning unit 134.
  • the acquisition unit 131, the removal unit 132, the learning data creation unit 133, and the learning unit 134 execute the following processing in order to create the classification model used by the estimation device 20.
  • the acquisition unit 131 acquires the first access log. As shown in the first access log L1s of FIG. 3, the first access log includes the IP address of the access source user and the type of the access line used by the access source user.
  • the acquisition unit 131 acquires the second access log. As shown in the second access log L2s of FIG. 3, the second access log includes the IP address of the access source user and the type of the access line used by the access source user.
  • the removal unit 132 filters data on the first access log L1s and the second access log L2s acquired by the acquisition unit 131 ((1-1), (1-2) in FIG. 3). Specifically, the removal unit 132 removes the access log corresponding to the bot, which is a malicious program, from the first access log L1s and the second access log L2s.
  • the removal unit 132 removes, for example, an IP address having a large number of accesses as a bot. Specifically, the removal unit 132 removes the top 10% of the IP addresses with a large number of accesses as bots.
  • the removal rate may be appropriately set. Further, the removing unit 132 may detect the bot by using, for example, an unauthorized access detection function.
  • the configuration for removing the bot is not essential and may be omitted, but it is expected that the accuracy will be improved by removing the bot as described later.
  • the learning data creation unit 133 classifies whether or not the log pair is an access log by the same user based on the first access log and the second access log from which the removal unit 132 has removed the bot (described later). ) Create learning data to be used for learning.
  • the training data includes a log pair that combines the access log of the advertiser's website by the same user and the access log of the website on which the advertiser's advertisement is posted, and the access log of the advertiser's website by different users. It is a pair of logs combined with the access log of the website where the advertiser's advertisement is posted.
  • the learning data is a log paired with a log corresponding to any one access of the first access log L1s and a log corresponding to any one access of the second access log L2s. It is labeled to indicate whether it is an access log by the same user.
  • the learning data creation unit 133 creates a feature vector of a log pair with the IP address of the access source user and the type of the access line used by the access source user as the feature amount as the learning data Ds, and outputs the feature vector to the learning unit 134. ((1-3) in Fig. 3).
  • the reason for adopting the "similarity" of the access source line is that, in the access source line type data, a plurality of line type candidates may be associated with the same IP address. For example, if one paired line type is A and the other line type candidate is A and B, the similarity may be considered to be high although they do not match, so the similarity is used instead of the match.
  • the parameters included in the access source line type are completely unified, whether or not they match may be used instead of the similarity.
  • an example of creating a feature amount is shown. For example, if the IP addresses of the pair match, "1" may be assigned, and if not, "0" may be assigned.
  • the similarity measured by the jaccard index or the like of the paired access lines may be used. Further, the similarity does not have to be limited to the jaccard coefficient, and any other index may be used as long as the distance can be measured. Further, the code assigned for each type of access line may be used instead of the similarity of access lines.
  • FIG. 5 is a diagram illustrating the creation of learning data.
  • the learning data creation unit 133 acquires the first access log L1s and the second access log L2s. Then, the learning data creation unit 133 creates learning data of "a normal example (a log pair is an access log by the same user)" by taking out a pair having a matching user id and bearing the pair. Further, the learning data creation unit 133 creates learning data of a "negative example (a log pair that is not an access log by the same user)" by rearranging a pair of positive examples and pairing those having different user ids. As a result, the learning data Ds is created.
  • the learning data creation unit 133 has a log in which the user id matches, the IP address (ip) of the first access log L1s is "A1i”, and the access source User Agent (ua) is "A1u", and the second access. Let the pair of the log having the IP address of the log L2s being "A2i” and the log having ua being "A2u” and the log having the number "1" paired with each other as a "correct example”.
  • the learning data creation unit 133 has a log in which the IP address of the first access log L1s is "E1i” and ua is "E1u", and the IP address of the second access log L2s is "D2i" and ua is "D2i”. Let the pair of the log of the number "4" paired with the log of "D2u” be a "negative example". For pairing, you may use only the log whose IP address is the country (for example, Japan) where the advertisement is posted.
  • the learning unit 134 learns the classification model 1341 using the learning data created by the learning data creation unit 133.
  • the learning unit 134 uses machine learning to learn so that the classification model 1341 can correctly classify the "positive example” log pair and the "negative example” log pair ((1-4) in FIG. 3). )).
  • the classification model 1341 is a model for classifying whether or not the input log pair is an access log by the same user.
  • the learning unit 134 inputs a plurality of "positive example” log pairs and "negative example” log pairs into the classification model 1341 as illustrated in the learning data Ds of FIG.
  • the learning unit 134 updates the parameters of the classification model 1341 based on the classification result by the classification model 1341 and the correct answer label.
  • the learning unit 134 repeats the classification by the classification model 1341 and the parameter update of the classification model 1341 until a predetermined end condition is reached.
  • the learning unit 134 outputs the created classification model 1341 to the estimation device 20 so that the estimation device 20 can estimate the effect of the advertisement ((2) in FIG. 3).
  • FIG. 6 is a flowchart showing a learning process executed by the learning device 10 shown in FIG.
  • the acquisition unit 131 acquires the first access log of the learning target (step S1) and acquires the second access log of the learning target (step S2).
  • the removal unit 132 removes the access log corresponding to the bot, which is a malicious program, from the first access log and the second access log (step S3).
  • the learning data creation unit 133 creates learning data to be used for learning the classification model 1341 based on the first access log and the second access log from which the removal unit 132 has removed the bot (step S4). Then, the learning unit 134 executes a learning process for learning the classification model 1341 using the learning data created by the learning data creation unit 133 (step S5).
  • FIG. 7 is a block diagram showing an example of the configuration of the estimation device 20 shown in FIG.
  • the estimation device 20 executes a communication unit 21 that controls communication related to various information, a storage unit 22 that stores data and programs required for various processes by the control unit 23, and various processes. It has a control unit 23.
  • the communication unit 21 is a communication interface for transmitting and receiving various information to and from other devices connected via a network or the like.
  • the communication unit 21 is realized by a NIC or the like, and communicates between another device and the control unit 23 (described later) via a telecommunication line such as a LAN or the Internet.
  • the communication unit 21 receives the first access log and the second access log from the server devices 30-1 and 30-2 via the network.
  • the communication unit 21 receives the learned classification model from the learning device 10.
  • the storage unit 22 is a storage device for HDDs, SSDs, and the like.
  • the storage unit 22 may be a semiconductor memory in which data such as RAM, flash memory, and NVSRAM can be rewritten.
  • the storage unit 22 stores the OS and various programs executed by the estimation device 20. Further, the storage unit 22 stores various information used in executing the program.
  • the storage unit 22 includes a first access log 221 that is an estimation target received from the server device 30-1, a second access log 222 that is an estimation target received from the server device 30-2, and an estimation data creation unit 333 (described later).
  • the estimation data 223 created by the above and the estimation result 224 regarding the effectiveness of the advertisement by the estimation unit 235 are stored.
  • the control unit 23 controls the entire estimation device 20.
  • the control unit 23 is, for example, an electronic circuit such as a CPU or MPU, or an integrated circuit such as an ASIC or FPGA.
  • the control unit 23 has an internal memory for storing programs and control data that define various processing procedures, and executes each process using the internal memory. Further, the control unit 23 functions as various processing units by operating various programs.
  • the control unit 23 has an acquisition unit 231, a removal unit 232, an estimation data creation unit 233, a classification unit 234, and an estimation unit 235.
  • the removal unit 232, the estimation data creation unit 233, the classification unit 234, and the estimation unit 235 execute the following processing in order to estimate the presence or absence of the effect of the advertisement on the website.
  • the acquisition unit 231 acquires the first access log to be estimated. As shown in the first access log L1e of FIG. 3, the first access log includes the IP address of the access source user and the type of the access line used by the access source user.
  • the acquisition unit 231 acquires the second access log. As shown in the second access log L2e of FIG. 3, the second access log includes the IP address of the access source user and the type of the access line used by the access source user.
  • the removal unit 232 filters data on the first access log and the second access log acquired by the acquisition unit 231 ((3-1) and (3-2) in FIG. 3). Similar to the removal unit 132, the removal unit 232 removes the access log corresponding to the bot, which is a malicious program, from the first access log L1s and the second access log L2s.
  • the estimation data creation unit 233 classifies whether or not the log pair is an access log by the same user based on the first access log and the second access log from which the removal unit 232 has removed the bot. Create estimation data to be input in (described later).
  • the estimation data creation unit 233 creates a log pair as the estimation target data, which is a combination of a log corresponding to any one access of the first access log and a log corresponding to any one access of the second access log. do.
  • the estimation data creation unit 233 sets the estimation data as a log pair in which the log corresponding to any one access of the first access log L1s and the log corresponding to any one access of the second access log L2s are paired. Create as.
  • the estimation data creation unit 233 creates a feature vector De of a log pair in which the IP address of the access source user and the type of the access line used by the access source user are feature quantities, and outputs the feature vector De to the classification unit 234 ( (3-3) in FIG.
  • the classification unit 234 inputs the estimation data (feature vector of the log pair) created by the estimation data creation unit 233 into the classification model 2341, and whether or not the log pair is an access log by the same user. ((3-4) in FIG. 3).
  • the classification model 2341 is a classification model in which the learning device 10 has learned the classification of whether or not the input log pair is an access log by the same user.
  • the classification unit 234 outputs the classification result Dc of the classification model 2341 to the estimation unit 235.
  • the estimation unit 235 estimates the presence or absence of the effect of the advertisement based on the classification result Dc by the classification unit 234 ((3-5) in FIG. 3). Specifically, when the estimation unit 235 classifies the log pair as an access log by the same user by the classification unit 234, the effect of the advertisement is applied to the advertisement corresponding to the log constituting this pair. I presume that there is. For example, it is presumed that the advertisement shown in the log corresponding to the second access log has the effect of the advertisement.
  • FIG. 8 is a flowchart showing an estimation process executed by the estimation device 20 shown in FIG. 7.
  • the acquisition unit 231 acquires the first access log of the estimation target (step S11) and acquires the second access log of the estimation target (step S12).
  • the removal unit 232 removes the access log corresponding to the bot, which is a malicious program, from the first access log and the second access log (step S13).
  • the estimation data creation unit 233 creates estimation data to be input to the classification model 1341 based on the first access log and the second access log from which the removal unit 232 has removed the bot (step S14).
  • the estimation data creation unit 233 creates a log pair as the estimation target data, which is a combination of a log corresponding to any one access of the first access log and a log corresponding to any one access of the second access log. do.
  • the classification unit 234 inputs the estimation data (feature vector of the log pair) created by the estimation data creation unit 233 into the classification model 2341, and whether or not the log pair is an access log by the same user. Is classified (step S15).
  • the estimation unit 235 estimates the presence or absence of the effect of the advertisement based on the classification result by the classification unit 234 (step S16). Then, the estimation unit 235 outputs the estimation result for the effect of the advertisement to the external device (for example, the server device 30-1 on the advertiser side) (step S17).
  • the external device for example, the server device 30-1 on the advertiser side
  • the estimation device 20 includes the first access log, which is the access log of the advertiser's website, and the second access log, which is the access log of the website on which the advertiser's advertisement is posted. Since the presence or absence of the effect of the advertisement is estimated based on the above, the presence or absence of the effect of the advertisement can be estimated without using cookies.
  • the IP address of the access source user having a high influence and the type of the access line used by the access source user are estimated as the feature quantity in the feature quantity. Therefore, it is possible to appropriately estimate the effectiveness of the advertisement.
  • the effect of the advertisement is estimated appropriately. can do.
  • the estimation target data for each log pair in which a log corresponding to any one access of the first access log and a log corresponding to any one access of the second access log are combined. Since the presence or absence of the effect of the advertisement is estimated based on the result of classifying whether or not the log pair is the access log by the same user, the effect of the advertisement can be estimated in detail for each access.
  • the estimation is performed using the classification model in which the classification of whether or not the log pair is the access log by the same user is learned in advance, it is possible to maintain a certain estimation accuracy. Is.
  • FIG. 9 is a diagram illustrating another processing flow of the estimation system.
  • Access date and time, access source User Agent, and location information label may be used as feature quantities.
  • the learning device 10 in the learning phase, includes the IP address of the access source user, the type of access line used by the access source user, the access date and time, the access source User Agent, and the location information label. Data is filtered for the access log L1s'and the second school cess log L2s' ((1-1) and (1-2) in FIG. 9). The learning device 10 assigns a label to the feature vector of the log pair in which the log corresponding to any one access of the first access log L1s and the log corresponding to any one access of the second access log L2s are paired. The attached learning data Ds'is created ((1-3) in FIG. 9). Then, the learning device 10 learns the classification model 1341 using the learning data ((1-4) in FIG. 9), and outputs the trained classification model to the estimation device 20 ((2) in FIG. 9). ).
  • the estimation device 20 includes the IP address of the access source user, the type of access line used by the access source user, the access date and time, the access source User Agent, and the location information label, and is the first access log to be estimated. Data is filtered for L1e'and the second access log L2e' ((3-1) and (3-2) in FIG. 9). The estimation device 20 creates a feature vector De'of a log pair in which a log corresponding to any one access of the first access log L1s and a log corresponding to any one access of the second access log L2s are paired. ((3-3) in FIG. 9).
  • the estimation device 20 inputs the feature vector of the log pair into the classification model 2341, classifies whether or not the log pair is an access log by the same user ((3-4) in FIG. 9), and then classifies the log pair. Based on the classification result Dc, the presence or absence of the effect of the advertisement is estimated ((3-5) in FIG. 9).
  • the accuracy of the classification process was evaluated.
  • the access log of 2020/6/1 to 2020/7/1 was used for the website where the advertiser's advertisement was posted, and the access log of 2020/7/1 was used for the access log of the advertiser's website. Specifically, it is an image of collating whether or not a person who accessed an external site on a certain day has accessed a website on which an advertisement is posted in the last month. Then, since access logs presumed to be bots were scattered, a gradual analysis was performed for bot removal using the following three patterns.
  • the first pattern is a pattern in which bots are not removed
  • the second pattern is a pattern in which the top 10% of IP addresses with a large number of accesses are regarded as bots and removed
  • the third pattern is an IP address with a large number of accesses. This is a pattern in which the top 20% is regarded as a bot and removed.
  • 10 to 13 are diagrams showing the accuracy evaluation of the classification process.
  • the recall rate, the precision rate, and the F value were evaluated by dividing into the first to third patterns.
  • 11 and 13 are diagrams showing F-numbers of classification processing corresponding to the first to third patterns for each User Agent.
  • FIG. 11 regarding User Agent, the analysis result for each upper User Agent and the analysis result which integrated all User Agents are shown.
  • 10 and 11 show a case where two types of features, the IP address of the access source user and the type of access line used by the access source user, are used as feature quantities.
  • 12 and 13 show a case where the access date and time and the location information label are used as feature quantities in addition to the IP address of the access source user and the type of access line used by the access source user.
  • the F value can be increased to 0.8 or more in any User Agent.
  • the feature amount the access date and time and the location information label are added to the IP address of the access source user and the type of the access line used by the access source user. So, the F value could be increased to 0.85 or more, and depending on the User Agent, it could be increased to nearly 0.97. Therefore, in the method of the present embodiment, it was found that the classification accuracy maintains a certain level of accuracy.
  • FIG. 14 is a diagram showing the degree of influence of the feature amount on the classification accuracy.
  • the result of the first pattern in which the bot is not removed has a higher classification accuracy than the other patterns. It is considered that this is because, as shown in FIG. 14, the influence of the access source IP address and the access source line is strong in the feature quantity.
  • bots that access a lot in a short period of time often have the same IP address, and if the bot is not removed, the bot may become True Positive and improve accuracy. Therefore, in the present embodiment, at least the IP address of the access source user and the type of the access line used by the access source user, which have a high influence on the classification accuracy, are used as feature quantities, and the bot is further removed to be appropriate. It is possible to output various classification results.
  • the case where the access log to the website is used is described as an example in order to estimate the effect of the advertisement, but it is also possible to use the log in the application.
  • each component of each of the illustrated devices is a functional concept and does not necessarily have to be physically configured as shown in the figure. That is, the specific form of distribution / integration of each device is not limited to the one shown in the figure, and all or part of the device is functionally or physically distributed in arbitrary units according to various loads and usage conditions. Can be integrated and configured. Further, each processing function performed by each device may be realized by a CPU and a program analyzed and executed by the CPU, or may be realized as hardware by wired logic.
  • FIG. 15 is a diagram showing an example of a computer in which the learning device 10 and the estimation device 20 are realized by executing the program.
  • the computer 1000 has, for example, a memory 1010 and a CPU 1020.
  • the computer 1000 also has a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. Each of these parts is connected by a bus 1080.
  • the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM 1012.
  • the ROM 1011 stores, for example, a boot program such as a BIOS (Basic Input Output System).
  • BIOS Basic Input Output System
  • the hard disk drive interface 1030 is connected to the hard disk drive 1090.
  • the disk drive interface 1040 is connected to the disk drive 1100.
  • a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1100.
  • the serial port interface 1050 is connected to, for example, a mouse 1110 and a keyboard 1120.
  • the video adapter 1060 is connected to, for example, the display 1130.
  • the hard disk drive 1090 stores, for example, an OS (Operating System) 1091, an application program 1092, a program module 1093, and program data 1094. That is, the program that defines each process of the learning device 10 and the estimation device 20 is implemented as a program module 1093 in which a code that can be executed by a computer is described.
  • the program module 1093 is stored in, for example, the hard disk drive 1090.
  • the program module 1093 for executing the same processing as the functional configuration in the learning device 10 and the estimation device 20 is stored in the hard disk drive 1090.
  • the hard disk drive 1090 may be replaced by an SSD (Solid State Drive).
  • the setting data used in the processing of the above-described embodiment is stored as program data 1094 in, for example, a memory 1010 or a hard disk drive 1090. Then, the CPU 1020 reads the program module 1093 and the program data 1094 stored in the memory 1010 and the hard disk drive 1090 into the RAM 1012 as needed, and executes the program.
  • the program module 1093 and the program data 1094 are not limited to those stored in the hard disk drive 1090, but may be stored in, for example, a removable storage medium and read by the CPU 1020 via the disk drive 1100 or the like. Alternatively, the program module 1093 and the program data 1094 may be stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.). Then, the program module 1093 and the program data 1094 may be read by the CPU 1020 from another computer via the network interface 1070.
  • LAN Local Area Network
  • WAN Wide Area Network

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

推定装置(20)は、広告主のWebサイトのアクセスログである第1アクセスログと、広告主の広告が掲載されるWebサイトのアクセスログである第2アクセスログを取得する取得部(231)と、第1アクセスログと第2アクセスログとを基に、Webサイトに掲載される広告の効果の有無を推定する推定部(235)と、有する。

Description

推定方法、推定装置及び推定プログラム
 本発明は、推定方法、推定装置及び推定プログラムに関する。
 インターネット上における広告に対するユーザの行動を把握する手段として、コンバージョントラッキングがある(例えば、非特許文献1参照)。コンバージョンとして定義する内容をアプリケーションダウンロードや、広告主のウェブサイトからのe-mailでの問い合わせや製品の購入などとすることで、広告主は広告の効果を把握することができる。
About conversion tracking - Google Ads Help, About conversion tracking, [online],[令和2年12月2日検索]、インターネット<URL:https://support.google.com/google-ads/answer/1722022?hl=en>
 コンバージョントラッキングは、cookieを用いて行われることが一般である。しかしながら、全世界的なプライバシーに対する意識の高まりを受け、スマートフォンのプラットフォームにおけるサードパーティーのcookieの制限や、cookieも含まれうる、個人情報ないし個人関連情報の法令による規制も検討されている。このため、cookieによらず、広告主に広告の効果を把握させるための手段が期待されている。
 本発明は、上記に鑑みてなされたものであって、cookieを用いずに広告の効果の有無を推定することができる推定方法、推定装置及び推定プログラムを提供することを目的とする。
 上述した課題を解決し、目的を達成するために、本発明に係る推定方法は、推定装置が実行する推定方法であって、広告主のWebサイトのアクセスログである第1アクセスログを取得する工程と、広告主の広告が掲載されるWebサイトのアクセスログである第2アクセスログを取得する工程と、第1アクセスログと第2アクセスログとを基に、Webサイトに掲載される広告の効果の有無を推定する工程と、を含んだことを特徴とする。
 本発明によれば、cookieを用いずに広告の効果の有無を推定することができる。
図1は、実施の形態に係る推定方法の概略を説明する図である。 図2は、実施の形態における推定システムの構成の一例を示すブロック図である。 図3は、推定システムの処理の流れを説明する図である。 図4は、図2に示す学習装置の構成の一例を示すブロック図である。 図5は、学習データの作成を説明する図である。 図6は、図4に示す学習装置が実行する学習処理を示すフローチャートである。 図7は、図2に示す推定装置の構成の一例を示すブロック図である。 図8は、図7に示す推定装置が実行する推定処理を示すフローチャートである。 図9は、推定システムの他の処理の流れを説明する図である。 図10は、分類処理の精度評価を示す図である。 図11は、分類処理の精度評価を示す図である。 図12は、分類処理の精度評価を示す図である。 図13は、分類処理の精度評価を示す図である。 図14は、特徴量の分類精度に対する影響度を示す図である。 図15は、プログラムが実行されることにより、学習装置及び推定装置が実現されるコンピュータの一例を示す図である。
 以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
[実施の形態]
 本発明の実施の形態について説明する。図1は、実施の形態に係る推定方法の概略を説明する図である。
 図1に示すように、実施の形態に係る推定方法では、Webサイトに掲載された広告の効果を、広告主のWebサイトのアクセスログである第1アクセスログL1と、広告主の広告が掲載されるWebサイトのアクセスログである第2アクセスログL2とを基に推定する。例えば、広告主側のWebサイトの特定のページにアクセスしたことが条件となる。より具体的には、資料請求したとか購入したとかいうのを、広告主側の資料請求ページや購入完了ページにアクセスしたことを条件としてもよい。なお、アクセスログは、一つずつのログも含む場合もあるほか、複数のログの集合を含む場合もある。
 具体的には、実施の形態では、図1に示すように、第1アクセスログL1の任意の1アクセスに対応するログと第2アクセスログL2の任意の1アクセスに対応するログとをペアリングしたログのペアを作成する(図1の(1)参照)。例えば、第1アクセスログL1の2行目のログと第2アクセスログL2の2行目のログとをペアリングする。そして、実施の形態では、分類器を用いて、ログのペアが同じユーザによるアクセスログであるか否かを、ログのペアごとに分類する。(図1の(2)参照)。
 続いて、実施の形態では、この分類結果を基に、広告の効果の有無を推定する(図1の(3)参照)。例えば、実施の形態では、ログのペアが同じユーザによるアクセスログであると分類された場合には、広告の効果があると推定する。このように、実施の形態によれば、cookieを用いずに広告の効果の有無を推定することができる。
[推定システムの構成]
 続いて、実施の形態に係る推定システムの構成を説明する。図2は、実施の形態における推定システムの構成の一例を示すブロック図である。
 図2に示すように、実施の形態に係る推定システムは、広告主のサーバ装置30-1と、広告主の広告を掲載する広告掲載事業者のサーバ装置30-2と通信を行う広告主の広告の効果の有無を推定する推定装置20を有する。また、推定装置20が使用する分類モデルは、学習装置10によって作成される。なお、図1に示す構成は一例にすぎず、具体的な構成や各装置の数は特に限定されない。
 広告主のサーバ装置30-1は、広告主のWebサイトを管理するサーバ装置である。サーバ装置30-1は、広告主のWebサイトに対するユーザからのアクセス情報を記録した第1アクセスログを保持し、推定装置20に適宜送信する。なお、第1アクセスログは、例えば、コンバージョンタグやリターゲティングタグが貼られた外部サイトのアクセスログであってもよい。
 広告掲載事業者のサーバ装置30-2は、広告主の広告のWebサイトへの掲載を管理するサーバ装置である。サーバ装置30-2は、広告主の広告が掲載されるWebサイトWebサイトに対するユーザからのアクセス情報を記録した第2アクセスログを保持し、推定装置20に適宜送信する。
 推定装置20は、広告主のWebサイトのアクセスログである第1アクセスログと、広告主の広告が掲載されるWebサイトのアクセスログである第2アクセスログとを基に、Webサイトに掲載された広告の効果の有無を推定する。
 学習装置10は、推定装置20が使用する分類モデルを、機械学習を用いて作成する。推定システムの処理を、分類モデルを作成する学習フェーズと、広告の効果の有無を推定する推定フェーズに分けて説明する。まず、学習装置10を、学習フェーズにおける処理の流れとともに説明する。なお、本実施の形態においては、機械学習を用いる手法について説明を行うが、本発明は2つのアクセスログが同一のユーザによるアクセスかを分類することができれば機械学習以外の手法を用いてもよい。
[学習装置]
 図3は、推定システムの処理の流れを説明する図である。図4は、図2に示す学習装置10の構成の一例を示すブロック図である。学習の流れについて概略を記載する。まず、広告掲載サイトと広告主のサイトそれぞれのアクセスログからbotと思われるログを削除する。その後、同一ユーザのアクセスによると想定されるログのペアには同一ユーザのラベルを付与し、同一ユーザのアクセスではないと想定されるログのペアには非同一ユーザのラベルを付与し、学習データとして学習を行う。
 図4に示すように、学習装置10は、各種情報に関する通信を制御する通信部11、制御部13による各種処理に必要なデータ及びプログラムを格納する記憶部12、及び、種々の処理を実行する制御部13を有する。
 通信部11は、ネットワーク等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースである。通信部11は、NIC(Network Interface Card)等で実現され、LAN(Local Area Network)やインターネットなどの電気通信回線を介した他の装置と制御部13(後述)との間の通信を行う。例えば、通信部11は、ネットワークを介して、サーバ装置30-1,30-2から、第1アクセスログ及び第2アクセスログを受信する。
 記憶部12は、HDD(Hard Disk Drive)、SSD(Solid State Drive)等の記憶装置である。なお、記憶部12は、RAM(Random Access Memory)、フラッシュメモリ、NVSRAM(Non Volatile Static Random Access Memory)等のデータを書き換え可能な半導体メモリであってもよい。記憶部12は、学習装置10で実行されるOS(Operating System)や各種プログラムを記憶する。さらに、記憶部12は、プログラムの実行で用いられる各種情報を記憶する。
 記憶部12は、サーバ装置30-1から受信した学習用の第1アクセスログ121、サーバ装置30-2から受信した学習用の第2アクセスログ122、及び、学習データ作成部133(後述)によって作成された学習データ123を記憶する。
 制御部13は、学習装置10全体を制御する。制御部13は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等の電子回路や、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等の集積回路である。また、制御部13は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。また、制御部13は、各種のプログラムが動作することにより各種の処理部として機能する。
 制御部13は、取得部131、除去部132、学習データ作成部133、学習部134を有する。取得部131、除去部132、学習データ作成部133及び学習部134は、推定装置20が使用する分類モデルを作成するために、以降の処理を実行する。
 取得部131は、第1アクセスログを取得する。図3の第1アクセスログL1sに示すように、第1アクセスログは、アクセス元のユーザのIPアドレス及びアクセス元のユーザが使用するアクセス回線の種別を含む。取得部131は、第2アクセスログを取得する。図3の第2アクセスログL2sに示すように、第2アクセスログは、アクセス元のユーザのIPアドレス及びアクセス元のユーザが使用するアクセス回線の種別を含む。
 除去部132は、取得部131が取得した第1アクセスログL1s及び第2アクセスログL2sに対し、データのフィルタリングを行う(図3の(1-1),(1-2))。具体的には、除去部132は、第1アクセスログL1s及び第2アクセスログL2sから、不正プログラムであるbotに相当するアクセスログを除去する。除去部132は、例えば、アクセス数が多いIPアドレスを、botとして除去する。具体的には、除去部132は、アクセス数が多いIPアドレスのうち、上位10%をbotとして除去する。なお、除去する割合は、適宜設定すればよい。また、除去部132は、例えば、不正アクセス検知機能を用いてbotを検知してもよい。なお、botを除去する構成は必須ではなく、省略してもよいが、後述するようにbotを除去したほうが精度の向上を見込むことができる。
 学習データ作成部133は、除去部132がbotを除去した第1アクセスログ及び第2アクセスログを基に、ログのペアが同じユーザによるアクセスログであるか否かを分類する分類モデル1341(後述)の学習に使用する学習データを作成する。
 学習データは、同じユーザによる広告主のWebサイトのアクセスログと広告主の広告が掲載されるWebサイトのアクセスログとを組み合わせたログのペアと、異なるユーザによる広告主のWebサイトのアクセスログと広告主の広告が掲載されるWebサイトのアクセスログとを組み合わせたログのペアとである。言い換えると、学習データは、第1アクセスログL1sの任意の1アクセスに対応するログと、第2アクセスログL2sの任意の1アクセスに対応するログとをペアリングしたログのペアに、そのログが同じユーザによるアクセスログであるか否かを示すラベルを付したものである。
 学習データ作成部133は、アクセス元のユーザのIPアドレス及びアクセス元のユーザが使用するアクセス回線の種別を特徴量としたログのペアの特徴ベクトルを学習データDsとして作成し、学習部134に出力する(図3の(1-3))。なお、アクセス元の回線の「類似度」を採用する理由は、アクセス元回線種別のデータでは、同じIPアドレスに複数の回線種別候補が紐づけられている場合がある。例えば、ペアリングした片方の回線種別がA、もう片方の回線種別候補がA及びBだった場合、一致しないが類似度は高いとみなせる場合があるため、一致ではなく類似度を用いる。なお、アクセス元回線種別に入るパラメータが完全に統一されている場合、類似度に代えて一致するか否かを用いてもよい。また、特徴量の作成例を示す。例えば、ペアのIPアドレスが一致する場合は「1」,しない場合は「0」を割り当てればよい。この場合、ペアのアクセス回線をjaccard係数などで測った類似度を用いればよい。また、類似度は、jaccard係数に限定される必要はなく、距離を測ることができる指標であれば、他の指標でもよい。また、アクセス回線の類似度ではなく、アクセス回線の種別ごとに割り当てた符号を用いてもよい。
 学習データの作成について説明する。図5は、学習データの作成を説明する図である。まず、学習データ作成部133は、第1アクセスログL1sと、第2アクセスログL2sとを取得する。そして、学習データ作成部133は、useridが一致するペアを取り出してベアリングすることで、「正例(ログのペアが同じユーザによるアクセスログであるもの)」の学習データを作成する。また、学習データ作成部133は、正例のペアを組み替えてuseridが異なるものをペアリングすることで「負例(ログのペアが同じユーザによるアクセスログでないもの)」の学習データを作成する。これによって、学習データDsが作成される。
 例えば、学習データ作成部133は、useridが一致する、第1アクセスログL1sのIPアドレス(ip)が「A1i」、アクセス元のUser Agent(ua)が「A1u」であるログと、第2アクセスログL2sのIPアドレスが「A2i」、uaが「A2u」であるログと、をペアリングした番号「1」のログのペアを「正例」とする。学習データ作成部133は、useridが異なる、第1アクセスログL1sのIPアドレスが「E1i」、uaが「E1u」であるログと、第2アクセスログL2sのIPアドレスが「D2i」、uaが「D2u」であるログと、をペアリングした番号「4」のログのペアを「負例」とする。ペアリングにあたっては、IPアドレスが、広告掲示対象となる国(例えば、日本)であるログのみを使用してもよい。
 学習部134は、学習データ作成部133が作成した学習データを用いて、分類モデル1341の学習を行う。学習部134は、機械学習を用いて、分類モデル1341が「正例」のログのペアと「負例」のログのペアとを正しく分類できるように学習を行う(図3の(1-4))。分類モデル1341は、入力されたログのペアが同じユーザによるアクセスログであるか否かを分類するモデルである。学習部134は、分類モデル1341に、図5の学習データDsに例示するように、複数の「正例」のログのペアと「負例」のログのペアとを入力する。
 学習部134は、分類モデル1341による分類結果と正解ラベルとを基に、分類モデル1341のパラメータを更新する。学習部134は、所定の終了条件に達するまで、分類モデル1341による分類及び分類モデル1341のパラメータ更新を繰り返す。学習部134は、所定の終了条件に達した場合、推定装置20が広告の効果を推定できるように、作成した分類モデル1341を推定装置20に出力する(図3の(2))。
[学習処理]
 図6は、図4に示す学習装置10が実行する学習処理を示すフローチャートである。図6に示すように、学習装置10では、取得部131が、学習対象の第1アクセスログを取得し(ステップS1)、学習対象の第2アクセスログを取得する(ステップS2)。除去部132は、第1アクセスログ及び第2アクセスログから、不正プログラムであるbotに相当するアクセスログを除去する(ステップS3)。
 学習データ作成部133は、除去部132がbotを除去した第1アクセスログ及び第2アクセスログを基に、分類モデル1341の学習に使用する学習データを作成する(ステップS4)。そして、学習部134は、学習データ作成部133が作成した学習データを用いて、分類モデル1341の学習を行う学習処理を実行する(ステップS5)。
[推定装置]
 次に、図3及び図7を参照して、推定装置20を、推定フェーズにおける処理の流れとともに説明する。図7は、図2に示す推定装置20の構成の一例を示すブロック図である。
 図7に示すように、推定装置20は、各種情報に関する通信を制御する通信部21、制御部23による各種処理に必要なデータ及びプログラムを格納する記憶部22、及び、種々の処理を実行する制御部23を有する。
 通信部21は、ネットワーク等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースである。通信部21は、NIC等で実現され、LANやインターネットなどの電気通信回線を介した他の装置と制御部23(後述)との間の通信を行う。例えば、通信部21は、ネットワークを介して、サーバ装置30-1,30-2から、第1アクセスログ及び第2アクセスログを受信する。通信部21は、学習装置10から、学習済みの分類モデルを受信する。
 記憶部22は、HDD、SSD等の記憶装置である。なお、記憶部22は、RAM、フラッシュメモリ、NVSRAM等のデータを書き換え可能な半導体メモリであってもよい。記憶部22は、推定装置20で実行されるOSや各種プログラムを記憶する。さらに、記憶部22は、プログラムの実行で用いられる各種情報を記憶する。
 記憶部22は、サーバ装置30-1から受信した推定対象となる第1アクセスログ221、サーバ装置30-2から受信した推定対象となる第2アクセスログ222、推定用データ作成部333(後述)によって作成された推定データ223、及び、推定部235による広告の効果に関する推定結果224を記憶する。
 制御部23は、推定装置20全体を制御する。制御部23は、例えば、CPU、MPU等の電子回路や、ASIC、FPGA等の集積回路である。また、制御部23は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。また、制御部23は、各種のプログラムが動作することにより各種の処理部として機能する。
 制御部23は、取得部231、除去部232、推定用データ作成部233、分類部234及び推定部235を有する。除去部232、推定用データ作成部233、分類部234及び推定部235は、Webサイトの広告の効果の有無を推定するために、以降の処理を実行する。
 取得部231は、推定対象の第1アクセスログを取得する。図3の第1アクセスログL1eに示すように、第1アクセスログは、アクセス元のユーザのIPアドレス及びアクセス元のユーザが使用するアクセス回線の種別を含む。取得部231は、第2アクセスログを取得する。図3の第2アクセスログL2eに示すように、第2アクセスログは、アクセス元のユーザのIPアドレス及びアクセス元のユーザが使用するアクセス回線の種別を含む。
 除去部232は、取得部231が取得した第1アクセスログ及び第2アクセスログに対し、データのフィルタリングを行う(図3の(3-1),(3-2))。除去部232は、除去部132と同様に、第1アクセスログL1s及び第2アクセスログL2sから、不正プログラムであるbotに相当するアクセスログを除去する。
 推定用データ作成部233は、除去部232がbotを除去した第1アクセスログ及び第2アクセスログを基に、ログのペアが同じユーザによるアクセスログであるか否かを分類する分類モデル2341(後述)に入力する推定用データを作成する。
 推定用データ作成部233は、推定対象データとして、第1アクセスログの任意の1アクセスに対応するログと、第2アクセスログの任意の1アクセスに対応するログとを組み合わせたログのペアを作成する。推定用データ作成部233は、第1アクセスログL1sの任意の1アクセスに対応するログと、第2アクセスログL2sの任意の1アクセスに対応するログとをペアリングしたログのペアを推定用データとして作成する。推定用データ作成部233は、アクセス元のユーザのIPアドレス及びアクセス元のユーザが使用するアクセス回線の種別を特徴量としたログのペアの特徴ベクトルDeを作成し、分類部234に出力する(図3の(3-3))。
 分類部234は、推定用データ作成部233が作成した推定した推定用データ(ログのペアの特徴ベクトル)を、分類モデル2341に入力し、ログのペアが同じユーザによるアクセスログであるか否かを分類する(図3の(3-4))。分類モデル2341は、学習装置10によって、入力されたログのペアが同じユーザによるアクセスログであるか否かの分類を学習した分類モデルである。分類部234は、分類モデル2341の分類結果Dcを、推定部235に出力する。
 推定部235は、分類部234による分類結果Dcを基に、広告の効果の有無を推定する(図3の(3-5))。具体的には、推定部235は、分類部234によって、ログのペアが同じユーザによるアクセスログであると分類された場合には、このペアを構成するログに対応する広告には、広告の効果があると推定する。例えば、第2アクセスログに対応するログで示された広告には、広告の効果があると推定する。
[推定処理]
 図8は、図7に示す推定装置20が実行する推定処理を示すフローチャートである。図8に示すように、推定装置20では、取得部231が、推定対象の第1アクセスログを取得し(ステップS11)、推定対象の第2アクセスログを取得する(ステップS12)。除去部232は、第1アクセスログ及び第2アクセスログから、不正プログラムであるbotに相当するアクセスログを除去する(ステップS13)。
 推定用データ作成部233は、除去部232がbotを除去した第1アクセスログ及び第2アクセスログを基に、分類モデル1341に入力する推定用データを作成する(ステップS14)。推定用データ作成部233は、推定対象データとして、第1アクセスログの任意の1アクセスに対応するログと、第2アクセスログの任意の1アクセスに対応するログとを組み合わせたログのペアを作成する。
 分類部234は、推定用データ作成部233が作成した推定した推定用データ(ログのペアの特徴ベクトル)を、分類モデル2341に入力し、ログのペアが同じユーザによるアクセスログであるか否かを分類する(ステップS15)。
 推定部235は、分類部234による分類結果を基に、広告の効果の有無を推定する(ステップS16)。そして、推定部235は、広告の効果に対する推定結果を外部装置(例えば、広告主側のサーバ装置30-1)に出力する(ステップS17)。
[実施の形態の効果]
 このように、実施の形態に係る推定装置20は、広告主のWebサイトのアクセスログである第1アクセスログと、広告主の広告が掲載されるWebサイトのアクセスログである第2アクセスログとを基に、広告の効果の有無を推定するため、cookieを用いずに広告の効果の有無を推定することができる。
 また、実施の形態では、特徴量の中で、Webサイトへのアクセスに関し、影響力の高いアクセス元のユーザのIPアドレス及びアクセス元のユーザが使用するアクセス回線の種別を特徴量として推定を行うため、適切に広告の効果の有無を推定することができる。
 また、実施の形態では、不正プログラムであるbotに相当するアクセスログを除去した第1アクセスログ及び第2アクセスログを基に、広告の効果の有無を推定するため、広告の効果を適正に推定することができる。
 また、本実施の形態では、推定対象データとして、第1アクセスログの任意の1アクセスに対応するログと、第2アクセスログの任意の1アクセスに対応するログとを組み合わせたログのペアごとに、ログのペアが同じユーザによるアクセスログであるか否かを分類した結果を基に広告の効果の有無を推定するため、1アクセス単位で広告の効果を詳細に推定することができる。
 また、本実施の形態では、予め、ログのペアが同じユーザによるアクセスログであるか否かの分類を学習した分類モデルを用いて、推定を行うため、一定の推定精度を保持することが可能である。
 なお、本実施の形態では、アクセス元のユーザのIPアドレス及びアクセス元のユーザが使用するアクセス回線の種別に加え、他の特徴量を用いてもよい。図9は、推定システムの他の処理の流れを説明する図である。
 図9の推定対象である第1アクセスログL1e及び第2アクセスログL2eに示すように、アクセスログに含まれる、アクセス元のユーザのIPアドレス及びアクセス元のユーザが使用するアクセス回線の種別に加え、アクセス日時、アクセス元User Agent、位置情報ラベルを特徴量として用いてもよい。
 この場合も同様に、学習フェーズでは、学習装置10が、アクセス元のユーザのIPアドレス及びアクセス元のユーザが使用するアクセス回線の種別、アクセス日時、アクセス元User Agent、位置情報ラベルを含む第1アクセスログL1s´、第2学セスログL2s´に対し、データのフィルタリングを行う(図9の(1-1),(1-2))。学習装置10は、第1アクセスログL1sの任意の1アクセスに対応するログと、第2アクセスログL2sの任意の1アクセスに対応するログとをペアリングしたログのペアの特徴ベクトルに、ラベルを付した学習データDs´を作成する(図9の(1-3))。そして、学習装置10は、学習データを用いて、分類モデル1341の学習を行い(図9の(1-4))、推定装置20に学習済みの分類モデルを出力する(図9の(2))。
 推定フェーズでは、推定装置20は、アクセス元のユーザのIPアドレス及びアクセス元のユーザが使用するアクセス回線の種別、アクセス日時、アクセス元User Agent、位置情報ラベルを含む、推定対象の第1アクセスログL1e´及び第2アクセスログL2e´に対し、データのフィルタリングを行う(図9の(3-1),(3-2))。推定装置20は、第1アクセスログL1sの任意の1アクセスに対応するログと、第2アクセスログL2sの任意の1アクセスに対応するログとをペアリングしたログのペアの特徴ベクトルDe´を作成する(図9の(3-3))。
 そして、推定装置20は、ログのペアの特徴ベクトルを、分類モデル2341に入力し、ログのペアが同じユーザによるアクセスログであるか否かを分類し(図9の(3-4))、分類結果Dcを基に、広告の効果の有無を推定する(図9の(3-5))。
[評価結果]
 実際に、本実施の形態に係る推定方法のうち、分類処理の精度評価を行った。分析対象として、広告主の広告が掲載されるWebサイトについては、2020/6/1~2020/7/1、広告主のWebサイトのアクセスログは2020/7/1のアクセスログを用いた。具体的には、ある1日に外部サイトにアクセスした人が、直近1か月間に広告が掲載されるWebサイトにアクセスしていたかどうかを照合するイメージである。そして、botと推測されるアクセスログが散見されたため、bot除去について以下の3パターンで徐好分析を行った。第1パターンは、bot除去を行わないパターンであり、第2パターンは、アクセス数の多いIPアドレス上位10%をbotとみなして除去するパターンであり、第3パターンは、アクセス数の多いIPアドレス上位20%をbotとみなして除去するパターンである。
 図10~図13は、分類処理の精度評価を示す図である。図10及び図12では、第1~第3のパターンに分けて、再現率、適合率及びF値を評価した。また、図11及び図13は、User Agentごとに第1~第3のパターンに対応する分類処理のF値を示す図である。なお、図11において、User Agentについては、上位のUser Agent別の分析結果と、全てのUser Agentを統合した分析結果を示す。
 図10及び図11は、特徴量として、アクセス元のユーザのIPアドレス及びアクセス元のユーザが使用するアクセス回線の種別の2種を用いた場合を示す。図12及び図13は、アクセス元のユーザのIPアドレス及びアクセス元のユーザが使用するアクセス回線の種別に加え、アクセス日時、位置情報ラベルを特徴量として用いた場合を示す。
 図10及び図11に示すように、特徴量として、アクセス元のユーザのIPアドレス及びアクセス元のユーザが使用するアクセス回線の種別の2種を用いた場合には、botの除去率を上位10%に調整することによって、いずれのUser Agentにおいても、F値を0.8以上に高めることができる。さらに、図12及び図13に示すように、特徴量として、特徴量として、アクセス元のユーザのIPアドレス及びアクセス元のユーザが使用するアクセス回線の種別に、アクセス日時、位置情報ラベルを加えることで、F値を0.85以上まで高めることができ、さらに、User Agentによっては、0.97近くまで高めることができた。したがって、本実施の形態における方法において、分類精度は一定の精度を保持することが分かった。
 図14は、特徴量の分類精度に対する影響度を示す図である。図10~図13では、botを除去しない第1パターンの結果が、他のパターンよりも分類精度が高い結果になっている。これは、図14に示すように、特徴量の中でアクセス元のIPアドレスやアクセス元回線の影響が強いことによるものと考えられる。言い換えると、短期間に多くのアクセスをするbotは、IPアドレスが変わらないことが多く、botを除去しない場合は、botがTrue Positiveとなり精度を上げている可能性がある。そこで、本実施の形態では、少なくとも、分類精度に影響が高いアクセス元のユーザのIPアドレス及びアクセス元のユーザが使用するアクセス回線の種別を特徴量として用い、さらにbotを除去することで、適切な分類結果を出力できるようにしている。
 なお、本実施の形態では、広告の効果の有無を推定するために、Webサイトへのアクセスログを用いた場合を例に説明したが、アプリケーション内におけるログを用いることも可能である。
[システム構成等]
 図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
 また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部又は一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
 図15は、プログラムが実行されることにより、学習装置10及び推定装置20が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
 メモリ1010は、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
 ハードディスクドライブ1090は、例えば、OS(Operating System)1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、学習装置10及び推定装置20の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、学習装置10及び推定装置20における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
 また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
 なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例及び運用技術等は全て本発明の範疇に含まれる。
 10 学習装置
 11,21 通信部
 12,22 記憶部
 13,23 制御部
 121,221 第1アクセスログ
 122,222 第2アクセスログ
 123 学習データ
 131,231 取得部
 132,232 除去部
 133 学習データ作成部
 134 学習部
 233 推定用データ作成部
 234 分類部
 235 推定部
 1341,2341 分類モデル

Claims (7)

  1.  推定装置が実行する推定方法であって、
     広告主のWebサイトのアクセスログである第1アクセスログを取得する工程と、
     前記広告主の広告が掲載されるWebサイトのアクセスログである第2アクセスログを取得する工程と、
     前記第1アクセスログと前記第2アクセスログとを基に、Webサイトに掲載される前記広告の効果の有無を推定する工程と、
     を含んだことを特徴とする推定方法。
  2.  前記第1アクセスログ及び前記第2アクセスログは、少なくとも、アクセス元のユーザのIPアドレス及び前記アクセス元のユーザが使用するアクセス回線の種別を含むことを特徴とする請求項1に記載の推定方法。
  3.  前記第1アクセスログ及び前記第2アクセスログから、不正プログラムであるbotに相当するアクセスログを除去する工程をさらに含み、
     前記推定する工程は、前記botが除去された前記第1アクセスログ及び前記第2アクセスログを基に、前記広告の効果の有無を推定することを特徴とする請求項1または2に記載の推定方法。
  4.  推定対象データとして、前記第1アクセスログの任意の1アクセスに対応するログと、前記第2アクセスログの任意の1アクセスに対応するログとを組み合わせたログのペアを作成する工程と、
     前記ログのペアが同じユーザによるアクセスログであるか否かを分類する工程と、
     を含み、
     前記推定する工程は、前記分類する工程において、前記ログのペアが同じユーザによるアクセスログであると分類された場合には、前記広告の効果があると推定することを特徴とする請求項1~3のいずれか一つに記載の推定方法。
  5.  前記分類する工程は、同じユーザによる前記広告主のWebサイトのアクセスログと前記広告主の広告が掲載されるWebサイトのアクセスログとを組み合わせたログのペアと、異なるユーザによる前記広告主のWebサイトのアクセスログと前記広告主の広告が掲載されるWebサイトのアクセスログとを組み合わせたログのペアと、を学習データとして、ログのペアが同じユーザによるアクセスログであるか否かの分類を学習した分類モデルを用いて分類を行うことを特徴とする請求項4に記載の推定方法。
  6.  広告主のWebサイトのアクセスログである第1アクセスログと、前記広告主の広告が掲載されるWebサイトのアクセスログである第2アクセスログを取得する取得部と、
     前記第1アクセスログと前記第2アクセスログとを基に、Webサイトに掲載される前記広告の効果の有無を推定する推定部と、
     を有することを特徴とする推定装置。
  7.  広告主のWebサイトのアクセスログである第1アクセスログを取得するステップと、
     前記広告主の広告が掲載されるWebサイトのアクセスログである第2アクセスログを取得するステップと、
     前記第1アクセスログと前記第2アクセスログとを基に、Webサイトに掲載される前記広告の効果の有無を推定するステップと、
     をコンピュータに実行させるための推定プログラム。
PCT/JP2021/001080 2021-01-14 2021-01-14 推定方法、推定装置及び推定プログラム WO2022153449A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/001080 WO2022153449A1 (ja) 2021-01-14 2021-01-14 推定方法、推定装置及び推定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/001080 WO2022153449A1 (ja) 2021-01-14 2021-01-14 推定方法、推定装置及び推定プログラム

Publications (1)

Publication Number Publication Date
WO2022153449A1 true WO2022153449A1 (ja) 2022-07-21

Family

ID=82448097

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/001080 WO2022153449A1 (ja) 2021-01-14 2021-01-14 推定方法、推定装置及び推定プログラム

Country Status (1)

Country Link
WO (1) WO2022153449A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015156157A (ja) * 2014-02-20 2015-08-27 日本電信電話株式会社 広告コンテンツ配信システムおよび広告コンテンツ配信方法
JP2018106759A (ja) * 2018-04-02 2018-07-05 ヤフー株式会社 名寄せ装置、名寄せ方法及び名寄せプログラム
JP2019135628A (ja) * 2018-02-05 2019-08-15 バリューコマース株式会社 トラッキング方法
JP2019219774A (ja) * 2018-06-15 2019-12-26 株式会社ロックオン コンバージョンレポート表示装置、その表示プログラムおよびその表示方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015156157A (ja) * 2014-02-20 2015-08-27 日本電信電話株式会社 広告コンテンツ配信システムおよび広告コンテンツ配信方法
JP2019135628A (ja) * 2018-02-05 2019-08-15 バリューコマース株式会社 トラッキング方法
JP2018106759A (ja) * 2018-04-02 2018-07-05 ヤフー株式会社 名寄せ装置、名寄せ方法及び名寄せプログラム
JP2019219774A (ja) * 2018-06-15 2019-12-26 株式会社ロックオン コンバージョンレポート表示装置、その表示プログラムおよびその表示方法

Similar Documents

Publication Publication Date Title
Di Clemente et al. Sequences of purchases in credit card data reveal lifestyles in urban populations
US11042909B2 (en) Target identification using big data and machine learning
US10747898B2 (en) Determining privacy for a user and a product in a particular context
US10163130B2 (en) Methods and apparatus for identifying a cookie-less user
US11657416B2 (en) Systems and methods for determining segments of online users from correlated datasets
CN106940705A (zh) 一种用于构建用户画像的方法与设备
WO2017112369A1 (en) Method and system for adaptively providing personalized marketing experiences to potential customers and users of a tax return preparation system
CN112036952A (zh) 用于基于离线、在线及信用相关数据的目标因特网营销的系统及方法
US20150088612A1 (en) Method for Analyzing Website Visitors Using Anonymized Behavioral Prediction Models
US20140067472A1 (en) System and Method For Segmenting A Customer Base
TW201528181A (zh) 搜尋結果標定系統與方法
JP6731826B2 (ja) 抽出装置、抽出方法、及び抽出プログラム
Kaiser et al. Do Magazines''Companion Websites' Cannibalize the Demand for the Print Version?
US20220188876A1 (en) Advertising method and apparatus for generating advertising strategy
Wong et al. A case study of the online trade of CITES-listed chelonians in Hong Kong
Kaiser et al. Magazine “companion websites” and the demand for newsstand sales and subscriptions
CN108595580B (zh) 新闻推荐方法、装置、服务器及存储介质
CN111582899A (zh) 一种展示链接效果的量化方法、装置、系统及存储介质
WO2022153449A1 (ja) 推定方法、推定装置及び推定プログラム
Kumar et al. Using social media for word-of-mouth marketing
US20170018009A1 (en) Bidding Systems and Methods For Minimizing The Cost Of Field Experiments Using Advertisement Exchanges
US20130282497A1 (en) Assigning an advertisement
Sangaralingam et al. Predicting age & gender of mobile users at scale-a distributed machine learning approach
CN106611342B (zh) 信息处理方法和装置
JP6549675B2 (ja) 学習装置、学習方法及び学習プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21919343

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21919343

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP