WO2018216175A1 - 評価装置、評価方法および評価プログラム - Google Patents

評価装置、評価方法および評価プログラム Download PDF

Info

Publication number
WO2018216175A1
WO2018216175A1 PCT/JP2017/019589 JP2017019589W WO2018216175A1 WO 2018216175 A1 WO2018216175 A1 WO 2018216175A1 JP 2017019589 W JP2017019589 W JP 2017019589W WO 2018216175 A1 WO2018216175 A1 WO 2018216175A1
Authority
WO
WIPO (PCT)
Prior art keywords
security
information
database
profile
unit
Prior art date
Application number
PCT/JP2017/019589
Other languages
English (en)
French (fr)
Inventor
匠 山本
弘毅 西川
圭亮 木藤
河内 清人
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to US16/603,151 priority Critical patent/US20200074327A1/en
Priority to CN201780090930.2A priority patent/CN110637320A/zh
Priority to JP2017555735A priority patent/JP6362796B1/ja
Priority to PCT/JP2017/019589 priority patent/WO2018216175A1/ja
Publication of WO2018216175A1 publication Critical patent/WO2018216175A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
    • G06F21/577Assessing vulnerabilities and evaluating computer system security
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/03Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
    • G06F2221/034Test or assess a computer or a system

Definitions

  • the present invention relates to an evaluation apparatus, an evaluation method, and an evaluation program.
  • Non-Patent Document 1 As a report of a fact-finding survey on the information leakage case of a company announced by Verizin Business.
  • Non-Patent Document 1 it is reported that 59% of the companies whose information has been leaked did not execute the security policies and procedures. It is pointed out that 87% of information leakage could be prevented by taking appropriate measures. From this survey result, it can be seen that no matter how much security measures have been introduced, the effectiveness of the security measures strongly depends on the person implementing them.
  • the attacker takes the approach with the highest attack success rate after thoroughly investigating the information of the organization in order to make the attack successful without being aware of the target organization. It is expected that.
  • organization information are the system and version used by the organization, external contacts, personnel information, job titles, related organizations, and organization initiatives.
  • personnel information are friendships such as bosses, colleagues and friends, hobbies and preferences, and social media usage.
  • Non-Patent Document 2 and Non-Patent Document 3 are reports of existing research related to technologies for evaluating security awareness.
  • Non-Patent Document 2 the correlation between the personality questionnaire and the security awareness questionnaire is calculated, and the causal relationship between the personality and the security awareness is extracted. Based on the extracted causal relationship, the optimal security measures for each group are presented.
  • PC is an abbreviation for Personal Computer. Behavioral characteristics during normal PC use are monitored, and a user in a psychological state who is easily affected by damage is determined.
  • Verizin Business “2008 Data Breach Investigations Report”, [online], [May 4, 2017 search], Internet ⁇ URL: http: // www. verizenterprise. com / resources / security / databreach report. pdf> Yumiko Nakazawa, Takehisa Kato, Takeo Kouda, Fumiyasu Yamada, Takumi Yamamoto, Masakatsu Nishigaki, “Best Match Security—Study on Correlation between Personality and Security Awareness of Personal Authentication Technology”, Information Processing Society of Japan Research Report, Vol. 2010-CSEC-48, No.
  • Non-Patent Document 2 requires time and effort because information is collected in a questionnaire format. Because information that is difficult to quantify, such as personality, is used, it is difficult to make a grounded interpretation of the causal relationships obtained.
  • Non-Patent Document 3 it is not necessary to conduct a questionnaire every time. However, since information that is difficult to quantify such as a psychological state is used, it is difficult to make a grounded interpretation of the obtained causal relationship.
  • the purpose of the present invention is to evaluate an individual's security consciousness in a rational manner.
  • An evaluation apparatus includes: A profile database that stores profile information representing individual characteristics of each of a plurality of persons; A security database for storing security information representing characteristics of behavior that can cause security accidents for each of the plurality of persons; A model generation unit that derives, as a model, a relationship between the feature represented in the profile information stored in the profile database and the feature represented in the security information stored in the security database; The information representing the characteristics of a person different from the plurality of persons is input, and using the model derived by the model generation unit, a behavior characteristic that may cause a security accident is estimated for the other person.
  • An estimation unit is used to estimate the characteristics of a person different from the plurality of persons.
  • FIG. 3 is a block diagram showing a configuration of an evaluation apparatus according to Embodiment 1.
  • FIG. 3 is a block diagram showing a configuration of an information collection unit of the evaluation apparatus according to Embodiment 1.
  • FIG. 3 is a block diagram showing a configuration of a model generation unit of the evaluation device according to Embodiment 1.
  • 4 is a flowchart showing an operation of the evaluation apparatus according to the first embodiment.
  • 4 is a flowchart showing an operation of the evaluation apparatus according to the first embodiment.
  • 5 is a flowchart showing the operation of the information collection unit of the evaluation apparatus according to Embodiment 1.
  • 4 is a table showing an example of profile information according to the first embodiment.
  • 5 is a flowchart showing the operation of the information collection unit of the evaluation apparatus according to Embodiment 1.
  • FIG. 4 is a table showing an example of security information according to the first embodiment.
  • 6 is a flowchart showing an operation of a model generation unit of the evaluation device according to the first embodiment.
  • 6 is a flowchart showing an operation of a model generation unit of the evaluation device according to the first embodiment.
  • 6 is a flowchart showing an operation of a model generation unit of the evaluation device according to the first embodiment.
  • 5 is a flowchart showing the operation of the estimation unit of the evaluation apparatus according to Embodiment 1.
  • FIG. 3 is a block diagram showing a configuration of an evaluation apparatus according to Embodiment 2.
  • 9 is a flowchart showing operations of an estimation unit and a proposal unit of the evaluation device according to Embodiment 2.
  • FIG. 10 is a table showing an example of information representing measures according to the second embodiment.
  • FIG. FIG. 4 is a block diagram showing a configuration of an evaluation apparatus according to Embodiment 3.
  • FIG. 10 is a flowchart showing the operation of the evaluation apparatus according to the third embodiment.
  • FIG. FIG. 6 is a block diagram showing a configuration of an evaluation apparatus according to Embodiment 4.
  • Embodiment 1 FIG. This embodiment will be described with reference to FIGS.
  • the network 41 is, for example, a LAN or a combination of a LAN and a WAN.
  • LAN is an abbreviation for Local Area Network.
  • WAN is an abbreviation for Wide Area Network.
  • the system 43 is, for example, an intranet.
  • the plurality of persons X 1 , X 2 ,..., X N may be any two or more persons, but in the present embodiment, they are organization staff. N is an integer of 2 or more.
  • the evaluation device 10 is a computer.
  • the evaluation device 10 includes a processor 11 and other hardware such as a memory 12, an auxiliary storage device 13, an input device 14, a display 15, and a communication device 16.
  • the processor 11 is connected to other hardware via a signal line, and controls these other hardware.
  • the evaluation device 10 includes an information collection unit 21, a model generation unit 22, an estimation unit 23, a profile database 31, and a security database 32.
  • the functions of the information collection unit 21, the model generation unit 22, and the estimation unit 23 are realized by software.
  • the profile database 31 and the security database 32 may be constructed in the memory 12, but are constructed in the auxiliary storage device 13 in the present embodiment.
  • the processor 11 is a device that executes an evaluation program.
  • the evaluation program is a program that realizes the functions of the information collection unit 21, the model generation unit 22, and the estimation unit 23.
  • the processor 11 is a CPU, for example. “CPU” is an abbreviation for Central Processing Unit.
  • the memory 12 and the auxiliary storage device 13 are devices for storing an evaluation program.
  • the memory 12 is, for example, a flash memory or a RAM.
  • RAM is an abbreviation for Random Access Memory.
  • the auxiliary storage device 13 is, for example, a flash memory or an HDD.
  • HDD is an abbreviation for Hard Disk Drive.
  • the input device 14 is a device operated by the user for inputting data to the evaluation program.
  • the input device 14 is, for example, a mouse, a keyboard, or a touch panel.
  • the display 15 is a device that displays data output from the evaluation program on the screen.
  • the display 15 is an LCD, for example.
  • LCD is an abbreviation for Liquid Crystal Display.
  • the communication device 16 includes a receiver that receives data input to the evaluation program from at least one of the Internet 42 and a system 43 such as an intranet via the network 41, and a transmitter that transmits data output from the evaluation program. Including.
  • the communication device 16 is, for example, a communication chip or a NIC. “NIC” is an abbreviation for Network Interface Card.
  • the evaluation program is loaded from the auxiliary storage device 13 to the memory 12, read into the processor 11, and executed by the processor 11.
  • the auxiliary storage device 13 stores not only the evaluation program but also the OS. “OS” is an abbreviation for Operating System.
  • the processor 11 executes the evaluation program while executing the OS.
  • evaluation program may be incorporated in the OS.
  • the evaluation device 10 may include a plurality of processors that replace the processor 11.
  • the plurality of processors share the execution of the evaluation program.
  • Each processor like the processor 11, is a device that executes an evaluation program.
  • Data, information, signal values and variable values used, processed or output by the evaluation program are stored in the memory 12, the auxiliary storage device 13, or a register or cache memory in the processor 11.
  • the evaluation program is a process in which the “part” of the information collection unit 21, the model generation unit 22 and the estimation unit 23 is replaced with “process”, or the “part” of the information collection unit 21, the model generation unit 22 and the estimation unit 23.
  • the evaluation program may be provided by being recorded on a computer-readable medium, or may be provided as a program product.
  • the profile database 31 is a database that stores profile information.
  • Profile information a plurality of persons X 1, X 2, ⁇ ⁇ ⁇ , which is information representing characteristics of the individual for each X N.
  • the security database 32 is a database that stores security information.
  • Security information a plurality of persons X 1, X 2, ⁇ ⁇ ⁇ , which is information representing the features of behavior that may be a factor of security incidents for each X N.
  • the configuration of the information collection unit 21 will be described with reference to FIG.
  • the information collection unit 21 includes a profile information collection unit 51 and a security information collection unit 52.
  • the profile information collection unit 51 receives a list of services on the Internet 42 to be crawled or scraped, and an organization staff list. Profile information is output from the profile information collection unit 51 to the profile database 31 as a result of processing to be described later.
  • Security information is output from the security information collection unit 52 to the security database 32 as a result of processing to be described later.
  • model generation unit 22 The configuration of the model generation unit 22 will be described with reference to FIG.
  • the model generation unit 22 includes a classification unit 61, a data generation unit 62, and a learning unit 63.
  • the profile information stored in the profile database 31 is input to the classification unit 61.
  • the data generation unit 62 receives the security information stored in the security database 32 and the result of the process executed by the classification unit 61.
  • the result of the process executed by the data generation unit 62 is input to the learning unit 63.
  • the learning unit 63 outputs a discriminator as a result of processing to be described later.
  • FIG. 4 shows the operation of the learning phase.
  • step S101 the information collection unit 21 collects profile information from at least one of the Internet 42 and a system 43 such as an intranet.
  • the information collection unit 21 collects profile information from both the Internet 42 and a system 43 such as an intranet.
  • the information collection unit 21 stores the collected profile information in the profile database 31.
  • the information collection unit 21 collects security information from the system 43.
  • the information collecting unit 21 stores the collected security information in the security database 32.
  • the information collection unit 21 collects information on the staff of the organization.
  • the collected information is roughly divided into two types: profile information and security information.
  • Profile information consists of two types: organization profile information that can be automatically collected by an organization manager or IT administrator, and public profile information published on the Internet 42.
  • IT is an abbreviation for Information Technology.
  • the organization profile information includes information such as gender, age, affiliation, boss, email transmission / reception frequency, Internet 42 usage frequency, time to work, and time to leave.
  • the organization profile information is information that can be accessed by an organization manager or IT administrator. Organization profile information can be collected automatically.
  • the public profile information includes information such as the frequency of use of services on the Internet 42 and the amount of personal information disclosed.
  • Public profile information is collected from sites of services on the Internet 42 that allow crawling or scraping. By analyzing the information obtained by crawling or scraping, information on an individual's interest is extracted. Specifically, pages including personal names or email addresses are collected from service sites on the Internet 42. A natural language processing technique such as TF-IDF is utilized to pick up key words in the collected pages. Information about personal interests is generated from the picked up words. The generated information is also handled as part of the public profile information.
  • TF is an abbreviation for Term Frequency.
  • IDF is an abbreviation for Inverse Document Frequency. It is also possible to collect public profile information by combining existing technologies such as Maltego CE or theHarvester.
  • Security information is the number of signs of security incidents related to cyber attacks. Examples of such numbers are the number of training emails opened, malware detections, malicious site visits, policy violations, executable file downloads, file downloads, and Internet usage.
  • the number of training mails opened is the rate at which each person opened the attachment file of the training email, the rate at which each person clicked the URL in the training email, or the total thereof.
  • “URL” is an abbreviation for Uniform Resource Locator.
  • the training email is an email for training a security accident.
  • the number of training mails opened may be the number of times instead of the ratio.
  • the number of malicious site visits is the number of times an individual person receives a warning from the malicious site detection system.
  • the number of policy violations is the number of policy violations by an individual person.
  • the security information is information that can be accessed by an organization IT administrator or security administrator. Security information can be collected automatically.
  • step S102 the model generation unit 22 derives, as a model, the relationship between the feature represented in the profile information stored in the profile database 31 and the feature represented in the security information stored in the security database 32.
  • the model generation unit 22 performs clustering on the profile information stored in the profile database 31 to classify a plurality of persons X 1 , X 2 ,..., X N into several clusters.
  • the model generation unit 22 generates, for each cluster, a label that gives learning data from profile information and security information to learning data.
  • the model generation unit 22 derives a model for each cluster using the generated learning data and label.
  • the model generation unit 22 calculates the correlation between the feature represented in the profile information and the feature represented in the security information before deriving the model, and the calculated correlation is less than the threshold ⁇ c1 . It is desirable to exclude information representing features from the profile information.
  • the model generation unit 22 calculates the correlation between the feature represented in the profile information and the feature represented in the security information before deriving the model, and the calculated correlation is less than the threshold ⁇ c2 . It is desirable to exclude information representing features from the security information.
  • the model generation unit 22 generates a model of the relationship between the profile information and the security information.
  • the model expresses the relationship of what kind of tendency a person with a tendency in profile information is likely to cause a security accident.
  • the model generation unit 22 may calculate the correlation between the profile information and the security information in advance and exclude uncorrelated items.
  • FIG. 5 shows the operation of the evaluation phase, which is the next phase of the learning phase.
  • step S111 the estimating unit 23, a plurality of persons X 1, X 2, ⁇ ⁇ ⁇ , receives an input of information representing a feature of another person Y and X N.
  • the estimation unit 23 receives input of information collected from the information collection unit 21 in the same procedure as in step S101.
  • the information collection unit 21 collects profile information of a user whose security awareness is to be evaluated.
  • the information collection unit 21 inputs the collected profile information to the estimation unit 23.
  • step S112 the estimation unit 23 uses the model derived by the model generation unit 22 to estimate a behavior characteristic that may cause a security accident for the person Y.
  • the estimation unit 23 estimates what kind of security accident is likely to occur for the user whose security awareness is to be evaluated, from the model generated in step S102 and the profile information collected in step S111.
  • FIG. 6 shows a processing flow of the profile information collection unit 51 of the information collection unit 21.
  • step S121 the profile information collection unit 51 confirms whether there is an unexamined entry in the organization staff list.
  • the name list includes identifiers such as staff names and email addresses. If there is no uninvestigated entry, the profile information collection unit 51 ends the information collection. If there is an uninvestigated entry, the profile information collection unit 51 executes the process of step S122.
  • step S122 the profile information collection unit 51 acquires the identifier IDN from the unexamined entry.
  • the identifier IDN are a name and an e-mail address.
  • the profile information collecting unit 51 searches the identifier 42 for the identifier IDN.
  • the profile information collection unit 51 uses the information about the personal interests as profile information in addition to information such as the frequency of use of the service on the Internet 42 and the amount of personal information published from the information on the page including the identifier IDN. collect.
  • the profile information collection unit 51 registers the obtained public profile information in the profile database 31.
  • the profile information collection unit 51 also acquires information such as the number of uploads in the social network service, the amount of personal information published in the social network service, and the content of articles posted in the social network service as public profile information To do.
  • the profile information collection unit 51 calculates the amount of personal information disclosed based on whether information on name, acquaintance relationship, organization name, contact information, address, and the like can be acquired from the public information.
  • the profile information collecting unit 51 uses natural language processing technology such as BoW or TF-IDF as information related to personal interest, and uses words that have high frequency of appearance and words that have important meanings in the collected pages. Pick up. “BoW” is an abbreviation for Bag of Words.
  • the profile information collection unit 51 considers that there is a relationship between the identifier IDN and the identifier IDN ′ when an identifier IDN ′ that is information of a person different from the identifier IDN is also described on the same page.
  • the profile information collection unit 51 acquires the identifier IDN ′ as information related to acquaintances.
  • step S124 the profile information collection unit 51 searches the system 43 in the organization for the identifier IDN.
  • the profile information collection unit 51 registers the obtained organization profile information in the profile database 31. Specifically, the profile information collection unit 51 collects information such as a department, a supervisor, a subordinate, and a schedule related to the identifier IDN as organization profile information.
  • the profile information collection unit 51 executes the process of step S121 again after the process of step S124.
  • the collected profile information is represented by the following multidimensional vector. p ij ⁇ ProfileInfoDB
  • I is an integer satisfying 1 ⁇ i ⁇ N.
  • N is the number of samples.
  • j is an integer satisfying 1 ⁇ j ⁇ P.
  • P is a feature type.
  • FIG. 8 shows a processing flow of the security information collection unit 52 of the information collection unit 21.
  • step S131 the security information collection unit 52 confirms whether there is an unexamined entry in the organization staff list. If there is no uninvestigated entry, the security information collection unit 52 ends the information collection. If there is an uninvestigated entry, the security information collection unit 52 executes the process of step S132.
  • step S132 the security information collection unit 52 acquires the identifier IDN from the unexamined entry.
  • step S133 the security information collection unit 52 searches the system 43 in the organization for the identifier IDN.
  • the security information collection unit 52 registers the obtained security information in the security database 32.
  • the security information collection unit 52 searches the log database related to security incidents in the organization for the identifier IDN.
  • the log database is a database that can be accessed by the IT administrator or security administrator of the organization.
  • the log database records the number of training emails opened, the number of malware detected, the number of malicious site visits, the number of policy violations, and the like.
  • the security information collection unit 52 executes the process of step S131 again after the process of step S133.
  • the collected security information is represented by the following multidimensional vector. s ik ⁇ SecurityInfoDB
  • I is an integer satisfying 1 ⁇ i ⁇ N.
  • N is the number of samples.
  • k is an integer satisfying 1 ⁇ k ⁇ S.
  • S is a feature type.
  • FIG. 10 shows a processing flow of the classification unit 61 of the model generation unit 22.
  • step S141 the classification unit 61 calculates a correlation between each feature s k for each feature p j and security information profile information.
  • j is an integer that satisfies 1 ⁇ j ⁇ P.
  • k is an integer satisfying 1 ⁇ k ⁇ S.
  • ⁇ ps is the covariance of p j and s k .
  • ⁇ p is the standard deviation of p j .
  • ⁇ s is the standard deviation of s k .
  • p j is a vector corresponding to the j-th feature string of the profile information. The number of dimensions of this vector is N.
  • s k is a vector corresponding to the k-th feature string of the security information. The number of dimensions of this vector is also N.
  • step S142 the classification unit 61, the absolute value of which features both a correlation coefficient of security information, wherein p j profile information is less than the threshold value theta c1 determined in advance: ⁇ k (
  • This profile information is expressed by the following multidimensional vector. p ′ ij ⁇ ProfileInfoDB ′
  • I is an integer satisfying 1 ⁇ i ⁇ N.
  • N is the number of samples.
  • j is an integer satisfying 1 ⁇ j ⁇ P ′.
  • P ' is a feature type.
  • the classification unit 61 uses the security information feature s k : ⁇ j (
  • This security information is expressed by the following multidimensional vector. s ′ ik ⁇ SecurityInfoDB ′
  • I is an integer satisfying 1 ⁇ i ⁇ N.
  • N is the number of samples.
  • k is an integer satisfying 1 ⁇ k ⁇ S ′.
  • S ' is a feature type.
  • step S141 and step S142 is processing for improving accuracy when creating a model, and may be omitted if accuracy is high. That is, the ProfileInfoDB may be used as it is as the ProfileInfoDB ′. SecurityInfoDB may be used as SecurityInfoDB 'as it is.
  • step S143 the classification unit 61 performs clustering on the samples of ProfileInfoDB ′ and SecurityInfoDB ′ based on the feature information, and classifies the N samples into C clusters.
  • Each cluster is represented by the following multidimensional vector. c m ⁇ Clusters
  • M is an integer satisfying 1 ⁇ m ⁇ C.
  • Each cluster cm is expressed as a set of pairs of profile information and security information of samples to be clustered as follows.
  • c m ⁇ (p i , s i )
  • p i is a vector composed of P′-type feature information.
  • s i is a vector composed of S′-type feature information.
  • CI m is a set of indices of samples classified into cm by clustering.
  • the classification unit 61 basically performs clustering based on the characteristics of ProfileInfoDB ′. However, it is possible to include the feature of SecurityInfoDB ′.
  • a clustering algorithm a general algorithm such as a K-means method or a unique algorithm can be used.
  • FIG. 11 shows a processing flow of the data generation unit 62 of the model generation unit 22.
  • step S151 the data generation unit 62 confirms whether there is an uninvestigated cluster cm . As described above, 1 ⁇ m ⁇ C. If there is no uninvestigated cluster cm , the data generation unit 62 ends the data generation. If there is an uninvestigated cluster cm , the data generation unit 62 executes the process of step S152.
  • step S152 the data generation unit 62 calculates the average SecurityInfoAve ( cm ) of each feature of the security information in the unexamined cluster cm .
  • the average ave (s k ) of each feature s k of the security information is calculated by the following equation.
  • CI m represents the number of samples classified into cm by clustering.
  • the data generation unit 62 calculates the standard deviation SecurityInfodv ( cm ) of each feature of the security information in the unexamined cluster cm .
  • the standard deviation stdv (s k ) of each feature s k of the security information is calculated by the following formula.
  • step S153 the data generation unit 62 generates a label LAB ( cm ) representing the cluster cm based on the average SecurityInfoAve ( cm ) and the standard deviation SecurityInfoStdv ( cm ).
  • the label element lab (s k ) of each feature s k of the security information has an average ave (s k ) if the standard deviation stdv (s k ) is within a predefined range for each feature of the security information. Set otherwise, set to “None”.
  • the data generation unit 62 executes the process of step S151 again after the process of step S153.
  • FIG. 12 shows a processing flow of the learning unit 63 of the model generation unit 22.
  • step S161 the learning unit 63 confirms whether there is an uninvestigated cluster cm . As described above, 1 ⁇ m ⁇ C. If there is no uninvestigated cluster cm , the learning unit 63 ends the learning. If there is an unexamined cluster cm , the learning unit 63 executes the process of step S162.
  • step S162 the learning unit 63 performs machine learning using the profile information p i of each element in the unexamined cluster cm as data for learning and the label LAB ( cm ) as teacher data.
  • the label LAB (c m ) is assigned a different number for each label.
  • the learning unit 63 outputs a classifier that is a model as the execution result of the machine learning.
  • the learning unit 63 performs the process of step S161 again after the process of step S162.
  • the learning unit 63 may learn data using the entire label LAB (c m ) as one label, but may learn data for each label element lab (s k ). In that case, label elements having the same value or similar values may appear in other clusters. Therefore, the learning unit 63 may replace the label element lab (s k ) that falls within a predetermined range with a specified label element, and learn data using the replaced label element.
  • the “specified label element” is a number or the like that differs for each label element.
  • FIG. 13 shows a processing flow of the estimation unit 23.
  • step S171 to step S174 corresponds to the processing of step S112 described above. Therefore, the process of step S111 described above is performed before the process of step S171.
  • step S ⁇ b> 111 the estimation unit 23 acquires new profile information using the information collection unit 21. This profile information is the profile information of the person Y whose security awareness is to be estimated.
  • step S171 the estimation unit 23 excludes the same features as those excluded in step S142 from the profile information of the person Y.
  • step S172 the estimation unit 23 inputs the profile information obtained in step S171 to the discriminator output from the model generation unit 22, and acquires the estimated label LAB (c m ) of the cluster cm .
  • the estimation unit 23 identifies a security accident that is likely to occur by the person Y from the label LAB (c m ) obtained in step S172.
  • the estimation unit 23 is configured such that the label element lab (s k ) constituting the label LAB (c m ) is not “None” and is greater than or equal to a threshold ⁇ k1 determined in advance for each feature of the security information. in some cases, the person Y determines that prone security incidents related features s k.
  • the estimation unit 23 displays information on a security accident that is likely to occur by the person Y on the screen of the display 15.
  • step S174 the estimation unit 23 identifies a security accident that is unlikely to occur for the person Y from the label LAB (c m ) obtained in step S172. Specifically, the estimation unit 23 does not set the label element lab (s k ) constituting the label LAB (c m ) to “None” and is equal to or less than a threshold ⁇ k2 determined in advance for each feature of the security information. in some cases, the person Y determines that cause less security incidents related features s k. The estimation unit 23 displays information on a security accident that is unlikely to occur for the person Y on the screen of the display 15.
  • the organization can examine countermeasures based on the result of estimating what kind of security accident the person Y is likely to cause.
  • the functions of the information collection unit 21, the model generation unit 22, and the estimation unit 23 are realized by software.
  • the functions of the information collection unit 21, the model generation unit 22, and the estimation unit 23 are software.
  • a combination of hardware and hardware That is, some of the functions of the information collection unit 21, the model generation unit 22, and the estimation unit 23 may be realized by dedicated hardware, and the rest may be realized by software.
  • the dedicated hardware is, for example, a single circuit, a composite circuit, a programmed processor, a parallel programmed processor, a logic IC, a GA, an FPGA, or an ASIC.
  • IC is an abbreviation for Integrated Circuit.
  • GA is an abbreviation for Gate Array.
  • FPGA is an abbreviation for Field-Programmable Gate Array.
  • ASIC is an abbreviation for Application Specific Integrated Circuit.
  • Both the processor 11 and the dedicated hardware are processing circuits. That is, regardless of whether the functions of the information collection unit 21, the model generation unit 22, and the estimation unit 23 are realized by software or a combination of software and hardware, the information collection unit 21, the model generation unit 22 And the function of the estimation part 23 is implement
  • Embodiment 2 FIG. In the present embodiment, differences from the first embodiment will be mainly described with reference to FIGS.
  • the organization considers countermeasures based on the result of estimating what kind of security accident the person Y is likely to cause.
  • a countermeasure suitable for the person Y is automatically proposed based on a result of estimating what kind of security accident the person Y is likely to cause.
  • the evaluation apparatus 10 includes a proposal unit 24 and a countermeasure database 33 in addition to the information collection unit 21, model generation unit 22, estimation unit 23, profile database 31, and security database 32.
  • the functions of the information collection unit 21, the model generation unit 22, the estimation unit 23, and the proposal unit 24 are realized by software.
  • the profile database 31, the security database 32, and the countermeasure database 33 may be constructed in the memory 12, but are constructed in the auxiliary storage device 13 in the present embodiment.
  • the countermeasure database 33 is a database that stores countermeasure information.
  • Countermeasure information is information that defines countermeasures against security incidents.
  • FIG. 1 An example of the countermeasure information is shown in FIG.
  • a list of valid security measures for each feature s k security information is high person is recorded in the countermeasure database 33 as a countermeasure information.
  • Countermeasure information is defined in advance by the security administrator.
  • FIG. 16 shows a processing flow of the estimation unit 23 and the proposal unit 24.
  • step S201 and step S202 Since the processing of step S201 and step S202 is the same as the processing of step S171 and step S172, description thereof will be omitted.
  • the proposing unit 24 refers to the countermeasure information stored in the countermeasure database 33 and identifies a countermeasure against a security accident that may occur due to the behavior indicating the characteristic estimated by the estimating unit 23. Specifically, the proposing unit 24 uses the label LAB (c m ) acquired by the estimating unit 23 using the profile information of the person Y in step S202 and the countermeasure information stored in the countermeasure database 33. Identify measures against security incidents that are likely to occur by person Y.
  • the proposing unit 24 determines that the label element lab (s k ) constituting the label LAB (c m ) is not “None” and is equal to or greater than a threshold ⁇ k1 determined in advance for each feature of the security information. If it is determined that, measures suitable for person Y is a measure of security incidents on the characteristics s k.
  • the proposing unit 24 outputs information indicating the identified countermeasure. Specifically, the suggestion unit 24 displays on the screen of the display 15 a countermeasure plan for a security accident that is likely to occur by the person Y.
  • FIGS. 16 and 17 show examples of countermeasures for people with a high number of training mails opened and examples of countermeasures for people with a high number of malicious site visits.
  • step S204 Since the process in step S204 is the same as the process in step S174, description thereof is omitted.
  • the same group ID is assigned in advance to the same or similar countermeasures, and in step S203, when a plurality of countermeasures having the same group ID are specified, the suggestion unit 24 represents the group. Only one measure may be proposed. “ID” is an abbreviation for Identifier.
  • the functions of the information collection unit 21, the model generation unit 22, the estimation unit 23, and the suggestion unit 24 are realized by software.
  • the functions of the information collection unit 21, the model generation unit 22, the estimation unit 23, and the proposal unit 24 may be realized by a combination of software and hardware.
  • Embodiment 3 FIG. In the present embodiment, differences from the first embodiment will be mainly described with reference to FIGS. 19 to 22.
  • the security information is acquired from the result of transmitting a training email in which the content is changed based on the collected user profile information.
  • the evaluation apparatus 10 includes a mail generation unit 25 and a mail content database 34 in addition to the information collection unit 21, the model generation unit 22, the estimation unit 23, the profile database 31, and the security database 32.
  • the functions of the information collection unit 21, the model generation unit 22, the estimation unit 23, and the mail generation unit 25 are realized by software.
  • the profile database 31, the security database 32, and the mail content database 34 may be constructed in the memory 12, but are constructed in the auxiliary storage device 13 in the present embodiment.
  • the mail content database 34 is a database for storing training mail content.
  • FIG. 1 An example of content is shown in FIG.
  • several training mail contents are prepared for each topic such as news, hobbies, and work, and stored in the mail content database 34.
  • contents of training mail whose topic is news contents related to economy, international, domestic, entertainment, etc. are individually prepared.
  • FIG. 21 shows the operation of the learning phase.
  • step S301 the information collecting unit 21 collects profile information from both the Internet 42 and the system 43 such as an intranet.
  • the information collection unit 21 stores the collected profile information in the profile database 31.
  • the collected profile information is the same as that collected in step S101 of the first embodiment.
  • step S302 the mail generation unit 25 customizes the content of the training mail stored in the mail content database 34 in accordance with the characteristics represented in the profile information collected by the information collection unit 21.
  • the mail generation unit 25 selects content related to the profile information collected in step S301 from the mail content database 34 for each staff member of the organization.
  • the mail generation unit 25 acquires, for each topic, content related to work and interest information, among staff profile information.
  • the mail generation unit 25 generates a training mail data set including the acquired content.
  • step S303 the mail generating unit 25 transmits the training mail including the customized content in step S302 plurality of persons X 1, X 2, ⁇ ⁇ ⁇ , each of X N.
  • the mail generation unit 25 observes the behavior with respect to the transmitted training mail and generates security information.
  • the mail generation unit 25 stores the generated security information in the security database 32.
  • the mail generation unit 25 periodically transmits a training mail in the data set generated in step S302 to the staff.
  • the mail generation unit 25 registers the number of training mails opened for each topic in the security database 32 as security information.
  • the existing technology or the existing service such as the service described in Non-Patent Document 4 can be used.
  • FIG. 22 shows an example of the observation result of the behavior with respect to the training email registered as security information.
  • the number of training emails opened is registered in the security database 32 as security information.
  • the number of malware detections, the number of malicious site visits, the number of policy violations, the number of downloaded executable files, the number of downloaded files, and the number of Internet usage are collected by the information collecting unit 21 as in step S101 of the first embodiment.
  • step S304 is the same as the process of step S102. That is, in step S304, the model generation unit 22 generates a model of the relationship between profile information and security information.
  • security information can be dynamically acquired.
  • the functions of the information collection unit 21, the model generation unit 22, the estimation unit 23, and the mail generation unit 25 are realized by software.
  • the functions of the information collection unit 21, the model generation unit 22, the estimation unit 23, and the mail generation unit 25 may be realized by a combination of software and hardware.
  • Embodiment 4 FIG. The present embodiment is a combination of the second embodiment and the third embodiment.
  • the evaluation device 10 includes a proposal unit 24, a mail generation unit 25, a countermeasure database 33, And a mail content database 34.
  • the functions of the information collection unit 21, model generation unit 22, estimation unit 23, suggestion unit 24, and mail generation unit 25 are realized by software.
  • the profile database 31, the security database 32, the countermeasure database 33, and the mail content database 34 may be constructed in the memory 12, but are constructed in the auxiliary storage device 13 in the present embodiment.
  • 10 evaluation device 11 processor, 12 memory, 13 auxiliary storage device, 14 input device, 15 display, 16 communication device, 21 information collection unit, 22 model generation unit, 23 estimation unit, 24 proposal unit, 25 mail generation unit, 31 Profile database, 32 security database, 33 countermeasure database, 34 mail content database, 41 network, 42 internet, 43 system, 51 profile information collection unit, 52 security information collection unit, 61 classification unit, 62 data generation unit, 63 learning unit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

評価装置(10)において、プロファイルデータベース(31)は、複数の人物のそれぞれについて個人の特徴を表すプロファイル情報を格納するデータベースである。セキュリティデータベース(32)は、複数の人物のそれぞれについてセキュリティ事故の要因になり得る振る舞いの特徴を表すセキュリティ情報を格納するデータベースである。モデル生成部(22)は、プロファイルデータベース(31)に格納されたプロファイル情報に表されている特徴とセキュリティデータベース(32)に格納されたセキュリティ情報に表されている特徴との関係性をモデルとして導き出す。推定部(23)は、別の人物の特徴を表す情報の入力を受け、モデル生成部(22)により導き出されたモデルを使って、その別の人物についてセキュリティ事故の要因になり得る振る舞いの特徴を推定する。

Description

評価装置、評価方法および評価プログラム
 本発明は、評価装置、評価方法および評価プログラムに関するものである。
 組織の機密情報および資産を守るために、サイバー攻撃に対する取り組みが積極的に行われている。その1つが、サイバー攻撃およびセキュリティに関する教育および訓練である。セミナーまたはE-learningでサイバー攻撃およびその対策に関する知識を学習する取り組みがある。模擬的な標的型攻撃メールの送付により標的型攻撃への対応を訓練する取り組みもある。しかし、このような取り組みが行われていながらも、セキュリティ事故は増加の一途をたどっている。
 Verizon Business社が発表した企業の情報流出事件に関する実態調査の報告として非特許文献1がある。
 非特許文献1では、情報が流出した企業のうち、59%はセキュリティポリシーと手順とを定めておきながら実行していなかったと報告されている。情報漏洩の87%は適切な対策を講じれば防止できたと指摘されている。この調査結果から、どれだけセキュリティ対策を導入していたとしても、それを実施する人間にセキュリティ対策の効果が強く依存してしまっていることがわかる。
 攻撃者の視点に立ってみると、攻撃者は、標的組織に気づかれずに攻撃を成功させるために、その組織の情報を事前に十分調査した上で、最も攻撃の成功率が高いアプローチをとることが予想される。組織の情報の例は、組織が利用しているシステムおよびそのバージョン、外部との窓口、人員の情報、役職、関連組織、および、組織の取り組み内容である。人員の情報の例は、上司、同僚および友人等の交友関係、趣味嗜好、および、ソーシャルメディアの利用状況である。
 攻撃者は、このような情報から、組織における脆弱な人間を見つけ出し、そこから組織に入り込み、徐々に組織の内部に侵入していくと考えられる。
 企業を例に考える。一般に、人事または資材等のスタッフは、他のスタッフよりも組織外の人物とのやり取りが多い。組織外の人物の例は、スタッフが人事担当であれば就職活動中の学生、スタッフが資材担当であれば物品の購入先である。人事または資材等のスタッフは、これまでにやり取りをしたことのない人物からメールを受け取る可能性が高い。そのようなメールを多く受け取るスタッフであれば、見知らぬメールアドレスから攻撃メールが届いても、不審に思わず開封する可能性が高いと予想できる。
 Twitter(登録商標)またはFacebook(登録商標)等のソーシャルメディアで、組織の情報を不用意に掲載しているスタッフは、セキュリティ意識、特に情報漏えいに関する意識が低いと言える。攻撃者は、そのようなスタッフを最初の標的にする可能性が高いと考えられる。セキュリティ意識が低い人物に共通する特徴は、組織の情報を不用意に掲載しているということ以外にも多数存在すると考えられる。よって、そのような特徴に関する調査が必要である。
 このように、組織のスタッフによって攻撃されやすさが異なると考えられる。よって、組織のスタッフ全員に一律で同じセキュリティ教育および訓練を実施しても、十分な効果を得られないと考えられる。セキュリティ意識が最も低いスタッフに合わせたセキュリティ教育および訓練をすべてのスタッフに課せば、不必要な作業が増え、業務効率が低下する。
 そのため、スタッフごとにセキュリティ意識を評価する必要がある。そして、攻撃されやすいスタッフに、適切なセキュリティ教育および訓練を実施することで、組織全体の作業効率を落とすことなくセキュリティを向上させる必要がある。
 セキュリティ意識を評価する技術に関連する既存研究の報告として非特許文献2および非特許文献3がある。
 非特許文献2に記載の技術では、性格に関するアンケートとセキュリティ意識に関するアンケートとの相関が計算され、性格とセキュリティ意識との因果関係が抽出される。抽出された因果関係をもとに、グループごとの最適なセキュリティ対策が提示される。
 非特許文献3に記載の技術では、心理特性とユーザのPC利用時の行動特性との関係が導き出される。「PC」は、Personal Computerの略語である。通常のPC利用時の行動特性がモニタされ、被害にあいやすい心理状態のユーザが判定される。
Verizon Business、"2008 Data Breach Investigations Report"、[online]、[2017年5月4日検索]、インターネット〈URL:http://www.verizonenterprise.com/resources/security/databreachreport.pdf〉 中澤 優美子、加藤 岳久、漁田 武雄、山田 文康、山本 匠、西垣 正勝、"Best Match Security-性格と本人認証技術のセキュリティ意識との相関に関する検討-"、情報処理学会研究報告、Vol. 2010-CSEC-48、No. 21、2010年 片山 佳則、寺田 剛陽、鳥居 悟、津田 宏、"ユーザー行動特性分析による個人と組織のITリスク見える化の試み"、SCIS 2015、暗号と情報セキュリティシンポジウム、4D1-3、2015年 NTTソフトウェア、"標的型メール訓練サービス"、[online]、[2017年3月24日検索]、インターネット〈URL:https://www.ntts.co.jp/products/apttraining/index.html〉
 非特許文献2に記載の技術では、アンケート形式で情報が集められるため、手間を要する。性格という定量化の難しい情報が利用されるため、得られた因果関係に対して根拠のある解釈が難しい。
 非特許文献3に記載の技術では、毎回アンケートを実施する必要はないが、心理状態という定量化の難しい情報が利用されるため、得られた因果関係に対して根拠のある解釈が難しい。
 本発明は、個人のセキュリティ意識を、根拠のある形で評価することを目的とする。
 本発明の一態様に係る評価装置は、
 複数の人物のそれぞれについて個人の特徴を表すプロファイル情報を格納するプロファイルデータベースと、
 前記複数の人物のそれぞれについてセキュリティ事故の要因になり得る振る舞いの特徴を表すセキュリティ情報を格納するセキュリティデータベースと、
 前記プロファイルデータベースに格納されたプロファイル情報に表されている特徴と前記セキュリティデータベースに格納されたセキュリティ情報に表されている特徴との関係性をモデルとして導き出すモデル生成部と、
 前記複数の人物とは別の人物の特徴を表す情報の入力を受け、前記モデル生成部により導き出されたモデルを使って、前記別の人物についてセキュリティ事故の要因になり得る振る舞いの特徴を推定する推定部とを備える。
 本発明では、特定の人物がセキュリティ事故に遭いやすいかどうかの評価指標として、その人物についてセキュリティ事故の要因になり得る振る舞いの特徴が推定される。そのため、個人のセキュリティ意識を、根拠のある形で評価することができる。
実施の形態1に係る評価装置の構成を示すブロック図。 実施の形態1に係る評価装置の情報収集部の構成を示すブロック図。 実施の形態1に係る評価装置のモデル生成部の構成を示すブロック図。 実施の形態1に係る評価装置の動作を示すフローチャート。 実施の形態1に係る評価装置の動作を示すフローチャート。 実施の形態1に係る評価装置の情報収集部の動作を示すフローチャート。 実施の形態1に係るプロファイル情報の例を示す表。 実施の形態1に係る評価装置の情報収集部の動作を示すフローチャート。 実施の形態1に係るセキュリティ情報の例を示す表。 実施の形態1に係る評価装置のモデル生成部の動作を示すフローチャート。 実施の形態1に係る評価装置のモデル生成部の動作を示すフローチャート。 実施の形態1に係る評価装置のモデル生成部の動作を示すフローチャート。 実施の形態1に係る評価装置の推定部の動作を示すフローチャート。 実施の形態2に係る評価装置の構成を示すブロック図。 実施の形態2に係る対策情報の例を示す表。 実施の形態2に係る評価装置の推定部および提案部の動作を示すフローチャート。 実施の形態2に係る対策を表す情報の例を示す表。 実施の形態2に係る対策を表す情報の別の例を示す表。 実施の形態3に係る評価装置の構成を示すブロック図。 実施の形態3に係る訓練メールのコンテンツの例を示す表。 実施の形態3に係る評価装置の動作を示すフローチャート。 実施の形態3に係る訓練メールに対する振る舞いの観察結果の例を示す表。 実施の形態4に係る評価装置の構成を示すブロック図。
 以下、本発明の実施の形態について、図を用いて説明する。各図中、同一または相当する部分には、同一符号を付している。実施の形態の説明において、同一または相当する部分については、説明を適宜省略または簡略化する。なお、本発明は、以下に説明する実施の形態に限定されるものではなく、必要に応じて種々の変更が可能である。例えば、以下に説明する実施の形態のうち、2つ以上の実施の形態が組み合わせられて実施されても構わない。あるいは、以下に説明する実施の形態のうち、1つの実施の形態または2つ以上の実施の形態の組み合わせが部分的に実施されても構わない。
 実施の形態1.
 本実施の形態について、図1から図13を用いて説明する。
 ***構成の説明***
 図1を参照して、本実施の形態に係る評価装置10の構成を説明する。
 評価装置10は、ネットワーク41を介して、インターネット42と、複数の人物X,X,・・・,Xが属する組織により運用されているシステム43とに接続されている。ネットワーク41は、例えば、LAN、または、LANおよびWANの組み合わせである。「LAN」は、Local Area Networkの略語である。「WAN」は、Wide Area Networkの略語である。システム43は、例えば、イントラネットである。複数の人物X,X,・・・,Xは、任意の2人以上の人物でよいが、本実施の形態では組織のスタッフである。Nは、2以上の整数である。
 評価装置10は、コンピュータである。評価装置10は、プロセッサ11を備えるとともに、メモリ12、補助記憶装置13、入力機器14、ディスプレイ15および通信装置16といった他のハードウェアを備える。プロセッサ11は、信号線を介して他のハードウェアと接続され、これら他のハードウェアを制御する。
 評価装置10は、情報収集部21と、モデル生成部22と、推定部23と、プロファイルデータベース31と、セキュリティデータベース32とを備える。情報収集部21、モデル生成部22および推定部23の機能は、ソフトウェアにより実現される。プロファイルデータベース31およびセキュリティデータベース32は、メモリ12に構築されてもよいが、本実施の形態では補助記憶装置13に構築される。
 プロセッサ11は、評価プログラムを実行する装置である。評価プログラムは、情報収集部21、モデル生成部22および推定部23の機能を実現するプログラムである。プロセッサ11は、例えば、CPUである。「CPU」は、Central Processing Unitの略語である。
 メモリ12および補助記憶装置13は、評価プログラムを記憶する装置である。メモリ12は、例えば、フラッシュメモリまたはRAMである。「RAM」は、Random Access Memoryの略語である。補助記憶装置13は、例えば、フラッシュメモリまたはHDDである。「HDD」は、Hard Disk Driveの略語である。
 入力機器14は、評価プログラムへのデータの入力のためにユーザにより操作される機器である。入力機器14は、例えば、マウス、キーボードまたはタッチパネルである。
 ディスプレイ15は、評価プログラムから出力されるデータを画面に表示する機器である。ディスプレイ15は、例えば、LCDである。「LCD」は、Liquid Crystal Displayの略語である。
 通信装置16は、評価プログラムに入力されるデータを、ネットワーク41を介して、インターネット42とイントラネット等のシステム43との少なくともいずれかから受信するレシーバと、評価プログラムから出力されるデータを送信するトランスミッタとを含む。通信装置16は、例えば、通信チップまたはNICである。「NIC」は、Network Interface Cardの略語である。
 評価プログラムは、補助記憶装置13からメモリ12にロードされ、プロセッサ11に読み込まれ、プロセッサ11によって実行される。補助記憶装置13には、評価プログラムだけでなく、OSも記憶されている。「OS」は、Operating Systemの略語である。プロセッサ11は、OSを実行しながら、評価プログラムを実行する。
 なお、評価プログラムの一部または全部がOSに組み込まれていてもよい。
 評価装置10は、プロセッサ11を代替する複数のプロセッサを備えていてもよい。これら複数のプロセッサは、評価プログラムの実行を分担する。それぞれのプロセッサは、プロセッサ11と同じように、評価プログラムを実行する装置である。
 評価プログラムにより利用、処理または出力されるデータ、情報、信号値および変数値は、メモリ12、補助記憶装置13、または、プロセッサ11内のレジスタまたはキャッシュメモリに記憶される。
 評価プログラムは、情報収集部21、モデル生成部22および推定部23の「部」を「処理」に読み替えた各処理、または、情報収集部21、モデル生成部22および推定部23の「部」を「手順」に読み替えた各手順をコンピュータに実行させるプログラムである。評価プログラムは、コンピュータ読取可能な媒体に記録されて提供されてもよいし、プログラムプロダクトとして提供されてもよい。
 プロファイルデータベース31は、プロファイル情報を格納するデータベースである。プロファイル情報は、複数の人物X,X,・・・,Xのそれぞれについて個人の特徴を表す情報である。
 セキュリティデータベース32は、セキュリティ情報を格納するデータベースである。セキュリティ情報は、複数の人物X,X,・・・,Xのそれぞれについてセキュリティ事故の要因になり得る振る舞いの特徴を表す情報である。
 図2を参照して、情報収集部21の構成を説明する。
 情報収集部21は、プロファイル情報収集部51と、セキュリティ情報収集部52とを備える。
 プロファイル情報収集部51には、クローリングまたはスクレイピングの対象となるインターネット42上のサービスのリストと、組織のスタッフ名簿とが入力される。プロファイル情報収集部51からは、後述する処理の結果として、プロファイル情報がプロファイルデータベース31に出力される。
 セキュリティ情報収集部52には、組織のスタッフ名簿が入力される。セキュリティ情報収集部52からは、後述する処理の結果として、セキュリティ情報がセキュリティデータベース32に出力される。
 図3を参照して、モデル生成部22の構成を説明する。
 モデル生成部22は、分類部61と、データ生成部62と、学習部63とを備える。
 分類部61には、プロファイルデータベース31に格納されたプロファイル情報が入力される。
 データ生成部62には、セキュリティデータベース32に格納されたセキュリティ情報と、分類部61で実行された処理の結果とが入力される。
 学習部63には、データ生成部62で実行された処理の結果が入力される。学習部63からは、後述する処理の結果として、識別器が出力される。
 ***動作の説明***
 図1から図3とともに図4から図13を参照して、本実施の形態に係る評価装置10の動作を説明する。評価装置10の動作は、本実施の形態に係る評価方法に相当する。
 図4は、学習フェーズの動作を示している。
 ステップS101において、情報収集部21は、インターネット42とイントラネット等のシステム43との少なくともいずれかからプロファイル情報を収集する。本実施の形態では、情報収集部21は、インターネット42とイントラネット等のシステム43との両方からプロファイル情報を収集する。情報収集部21は、収集したプロファイル情報をプロファイルデータベース31に格納する。
 情報収集部21は、システム43からセキュリティ情報を収集する。情報収集部21は、収集したセキュリティ情報をセキュリティデータベース32に格納する。
 このように、情報収集部21は、組織のスタッフの情報を収集する。収集される情報は、大きく分けると、プロファイル情報とセキュリティ情報との2種類からなる。
 プロファイル情報は、組織の管理職またはIT管理者が自動で収集できる組織プロファイル情報と、インターネット42に公開されている公開プロファイル情報との2種類からなる。「IT」は、Information Technologyの略語である。
 組織プロファイル情報には、性別、年齢、所属、上司、メールの送受信頻度、インターネット42の利用頻度、出社時間、および、退社時間等の情報が含まれている。組織プロファイル情報は、組織の管理職またはIT管理者であればアクセスできる情報である。組織プロファイル情報は、自動的に収集することが可能である。
 公開プロファイル情報には、インターネット42上のサービスの使用頻度、および、公開されている個人情報の量等の情報が含まれている。公開プロファイル情報は、クローリングまたはスクレイピングを許可しているインターネット42上のサービスのサイトから収集される。クローリングまたはスクレイピングにより得られた情報を解析することで、個人の興味に関する情報が抽出される。具体的には、個人の氏名またはメールアドレスを含むページがインターネット42上のサービスのサイトから収集される。TF-IDF等の自然言語処理技術が活用され、収集されたページ内でキーとなる単語がピックアップされる。ピックアップされた単語から、個人の興味に関する情報が生成される。生成された情報も公開プロファイル情報の一部として扱われる。「TF」は、Term Frequencyの略語である。「IDF」は、Inverse Document Frequencyの略語である。既存技術のMaltego CEまたはtheHarvesterを組み合わせて公開プロファイル情報を収集することも可能である。
 セキュリティ情報は、サイバー攻撃に関わるセキュリティ事故の兆候の数である。そのような数の例は、訓練メール開封数、マルウェア検知数、悪質サイト訪問数、ポリシー違反数、実行ファイルダウンロード数、ファイルダウンロード数、および、インターネット利用数である。訓練メール開封数は、個々の人物が訓練メールの添付ファイルを開封した割合、個々の人物が訓練メール中のURLをクリックした割合、または、それらの合計である。「URL」は、Uniform Resource Locatorの略語である。訓練メールは、セキュリティ事故を訓練するためのメールである。なお、訓練メール開封数は、割合ではなく、回数であってもよい。悪質サイト訪問数は、個々の人物が悪質サイト検知システムで警告を受けた回数である。ポリシー違反数は、個々の人物によるポリシー違反の回数のことである。セキュリティ情報は、組織のIT管理者またはセキュリティ管理者であればアクセスできる情報である。セキュリティ情報は、自動的に収集することが可能である。
 ステップS102において、モデル生成部22は、プロファイルデータベース31に格納されたプロファイル情報に表されている特徴とセキュリティデータベース32に格納されたセキュリティ情報に表されている特徴との関係性をモデルとして導き出す。
 具体的には、モデル生成部22は、プロファイルデータベース31に格納されたプロファイル情報に対するクラスタリングを行って、複数の人物X,X,・・・,Xをいくつかのクラスタに分類する。モデル生成部22は、クラスタごとに、プロファイル情報から学習用のデータを、セキュリティ情報から学習用のデータに付与するラベルを生成する。モデル生成部22は、クラスタごとに、生成した学習用のデータとラベルとを使って、モデルを導き出す。
 必須ではないが、モデル生成部22は、モデルを導き出す前に、プロファイル情報に表されている特徴とセキュリティ情報に表されている特徴との相関を計算し、計算した相関が閾値θc1未満の特徴を表す情報をプロファイル情報から除外することが望ましい。
 必須ではないが、モデル生成部22は、モデルを導き出す前に、プロファイル情報に表されている特徴とセキュリティ情報に表されている特徴との相関を計算し、計算した相関が閾値θc2未満の特徴を表す情報をセキュリティ情報から除外することが望ましい。
 このように、モデル生成部22は、プロファイル情報とセキュリティ情報との関係性のモデルを生成する。モデルは、プロファイル情報にどういう傾向を持つ人物がどういうセキュリティ事故を起こしやすいかという関係性を表している。モデル生成部22は、事前にプロファイル情報とセキュリティ情報との相関を計算し、無相関な項目を除外してもよい。
 図5は、学習フェーズの次のフェーズである評価フェーズの動作を示している。
 ステップS111において、推定部23は、複数の人物X,X,・・・,Xとは別の人物Yの特徴を表す情報の入力を受ける。本実施の形態では、推定部23は、情報収集部21から、ステップS101と同じ手順で収集された情報の入力を受ける。
 このように、情報収集部21は、セキュリティ意識を評価する対象のユーザのプロファイル情報を収集する。情報収集部21は、収集したプロファイル情報を推定部23に入力する。
 ステップS112において、推定部23は、モデル生成部22により導き出されたモデルを使って、人物Yについてセキュリティ事故の要因になり得る振る舞いの特徴を推定する。
 このように、推定部23は、ステップS102で生成されたモデルとステップS111で収集されたプロファイル情報とから、セキュリティ意識を評価する対象のユーザがどういうセキュリティ事故を起こしやすいかを推定する。
 以下では、評価装置10の情報収集部21、モデル生成部22および推定部23の動作について詳述する。
 図6は、情報収集部21のプロファイル情報収集部51の処理フローを示している。
 ステップS121において、プロファイル情報収集部51は、組織のスタッフ名簿に未調査のエントリーがあるかを確認する。名簿には、スタッフの氏名およびメールアドレス等の識別子が含まれている。未調査のエントリーがなければ、プロファイル情報収集部51は、情報収集を終了する。未調査のエントリーがあれば、プロファイル情報収集部51は、ステップS122の処理を実行する。
 ステップS122において、プロファイル情報収集部51は、未調査のエントリーから識別子IDNを取得する。識別子IDNの例は、氏名およびメールアドレス等である。
 ステップS123において、プロファイル情報収集部51は、識別子IDNをインターネット42上で検索する。プロファイル情報収集部51は、識別子IDNを含むページの情報から、インターネット42上のサービスの使用頻度、および、公開されている個人情報の量等の情報のほか、個人の興味に関する情報をプロファイル情報として収集する。プロファイル情報収集部51は、得られた公開プロファイル情報をプロファイルデータベース31に登録する。プロファイル情報収集部51は、ソーシャルネットワークサービスでのアップロード回数、ソーシャルネットワークサービスで公開されている個人情報の量、および、ソーシャルネットワークサービスでポストされている記事の内容等の情報も公開プロファイル情報として取得する。
 プロファイル情報収集部51は、公開されている個人情報の量を、氏名、知人関係、組織名、連絡先および住所等に関する情報が公開情報から取得できるか否かをもとに計算する。プロファイル情報収集部51は、個人の興味に関する情報としては、BoW、または、TF-IDF等の自然言語処理技術を活用し、収集したページ内で出現頻度の高い単語および重要な意味を持つ単語をピックアップする。「BoW」は、Bag of Wordsの略語である。
 プロファイル情報収集部51は、同じページに識別子IDNとは別の人物の情報である識別子IDN’も記載されている場合、識別子IDNと識別子IDN’との間に関係性があるとみなす。プロファイル情報収集部51は、識別子IDN’を知人関係に関する情報として取得する。
 ステップS124において、プロファイル情報収集部51は、識別子IDNを組織内のシステム43で検索する。プロファイル情報収集部51は、得られた組織プロファイル情報をプロファイルデータベース31に登録する。具体的には、プロファイル情報収集部51は、識別子IDNに関連する部署、上司、部下およびスケジュール等の情報を組織プロファイル情報として収集する。プロファイル情報収集部51は、ステップS124の処理の後、ステップS121の処理を再び実行する。
 プロファイル情報の例を図7に示す。収集されたプロファイル情報は、以下のような多次元のベクトルで表現される。
 pij∈ProfileInfoDB
 iは1≦i≦Nを満たす整数である。Nはサンプルの数である。jは1≦j≦Pを満たす整数である。Pは特徴の種類である。
 収集されるプロファイル情報については、プライバシーにも関わるため、何を取得するかは組織で十分検討した上で決めることが望ましい。
 図8は、情報収集部21のセキュリティ情報収集部52の処理フローを示している。
 ステップS131において、セキュリティ情報収集部52は、組織のスタッフ名簿に未調査のエントリーがあるかを確認する。未調査のエントリーがなければ、セキュリティ情報収集部52は、情報収集を終了する。未調査のエントリーがあれば、セキュリティ情報収集部52は、ステップS132の処理を実行する。
 ステップS132において、セキュリティ情報収集部52は、未調査のエントリーから識別子IDNを取得する。
 ステップS133において、セキュリティ情報収集部52は、識別子IDNを組織内のシステム43で検索する。セキュリティ情報収集部52は、得られたセキュリティ情報をセキュリティデータベース32に登録する。具体的には、セキュリティ情報収集部52は、識別子IDNを組織内のセキュリティ事故に関するログデータベースで検索する。ログデータベースは、組織のIT管理者またはセキュリティ管理者であればアクセス可能なデータベースである。ログデータベースには、訓練メール開封数、マルウェア検知数、悪質サイト訪問数およびポリシー違反数等が記録されている。セキュリティ情報収集部52は、ステップS133の処理の後、ステップS131の処理を再び実行する。
 セキュリティ情報の例を図9に示す。収集されたセキュリティ情報は、以下のような多次元のベクトルで表現される。
 sik∈SecurityInfoDB
 iは1≦i≦Nを満たす整数である。Nはサンプルの数である。kは1≦k≦Sを満たす整数である。Sは特徴の種類である。
 図10は、モデル生成部22の分類部61の処理フローを示している。
 ステップS141において、分類部61は、プロファイル情報の各特徴pとセキュリティ情報の各特徴sとの相関を計算する。前述したように、jは1≦j≦Pを満たす整数である。kは1≦k≦Sを満たす整数である。具体的には、分類部61は、相関係数corrjkを以下の式により計算する。
 corrjk=σps/(σσ
 σpsはpとsとの共分散である。σはpの標準偏差である。σはsの標準偏差である。pは、プロファイル情報のj種類目の特徴列に対応するベクトルである。このベクトルの次元数はNである。sは、セキュリティ情報のk種類目の特徴列に対応するベクトルである。このベクトルの次元数もNである。
 ステップS142において、分類部61は、セキュリティ情報のどの特徴とも相関係数の絶対値が、あらかじめ決められた閾値θc1未満であるプロファイル情報の特徴p:∀k(|corrjk|<θc1)を除外し、セキュリティ情報と相関のあるプロファイル情報を生成する。このプロファイル情報は、以下の多次元のベクトルで表現される。
 p’ij∈ProfileInfoDB’
 iは1≦i≦Nを満たす整数である。Nはサンプルの数である。jは1≦j≦P’を満たす整数である。P’は特徴の種類である。
 同様に、分類部61は、プロファイル情報のどの特徴とも相関係数の絶対値が、あらかじめ決められた閾値θc2未満であるセキュリティ情報の特徴s:∀j(|corrjk|<θc2)を除外し、プロファイル情報と相関のあるセキュリティ情報を生成する。このセキュリティ情報は、以下の多次元のベクトルで表現される。
 s’ik∈SecurityInfoDB’
 iは1≦i≦Nを満たす整数である。Nはサンプルの数である。kは1≦k≦S’を満たす整数である。S’は特徴の種類である。
 ステップS141およびステップS142の処理は、モデルを作る際の精度向上のための処理であり、精度が高ければ省略されてもよい。すなわち、ProfileInfoDBがそのままProfileInfoDB’として使われてもよい。SecurityInfoDBがそのままSecurityInfoDB’として使われてもよい。
 ステップS143において、分類部61は、ProfileInfoDB’とSecurityInfoDB’とのサンプルに対し、特徴情報をもとに、クラスタリングを行い、N個のサンプルをC個のクラスタに分類する。各クラスタは、以下のような多次元のベクトルで表現される。
 c∈Clusters
 mは1≦m≦Cを満たす整数である。
 各々のクラスタcは、以下のように、クラスタリングの対象とされたサンプルのプロファイル情報とセキュリティ情報とのペアの集合で表される。
 c={(p,s)|i∈CI
 pは、P’種類の特徴情報からなるベクトルである。sは、S’種類の特徴情報からなるベクトルである。CIは、クラスタリングによってcに分類されたサンプルのインデックスの集合である。
 分類部61は、基本的にはProfileInfoDB’の特徴をもとにクラスタリングを行う。ただし、SecurityInfoDB’の特徴を含めることも可能である。クラスタリングのアルゴリズムとしては、K-means法等の一般的なアルゴリズム、または、独自のアルゴリズムを利用可能である。
 図11は、モデル生成部22のデータ生成部62の処理フローを示している。
 ステップS151において、データ生成部62は、未調査のクラスタcがあるかを確認する。前述したように、1≦m≦Cである。未調査のクラスタcがなければ、データ生成部62は、データ生成を終了する。未調査のクラスタcがあれば、データ生成部62は、ステップS152の処理を実行する。
 ステップS152において、データ生成部62は、未調査のクラスタcにおける、セキュリティ情報のそれぞれの特徴の平均SecurityInfoAve(c)を計算する。平均SecurityInfoAve(c)は、以下のように定義される。
 SecurityInfoAve(c)=(ave(s),ave(s),・・・,ave(s),・・・,ave(sS’-1),ave(sS’))
 セキュリティ情報の各特徴sの平均ave(s)は、以下の式により計算される。
Figure JPOXMLDOC01-appb-M000001
 |CI|は、クラスタリングによってcに分類されたサンプルの数を表す。
 データ生成部62は、未調査のクラスタcにおける、セキュリティ情報のそれぞれの特徴の標準偏差SecurityInfoStdv(c)を計算する。標準偏差SecurityInfoStdv(c)は、以下のように定義される。
 SecurityInfoStdv(c)=(stdv(s),stdv(s),・・・,stdv(s),・・・,stdv(sS’-1),stdv(sS’))
 セキュリティ情報の各特徴sの標準偏差stdv(s)は、以下の式により計算される。
Figure JPOXMLDOC01-appb-M000002
 ステップS153において、データ生成部62は、平均SecurityInfoAve(c)と標準偏差SecurityInfoStdv(c)とをもとに、クラスタcを表現するラベルLAB(c)を生成する。ラベルLAB(c)は、以下のように定義される。
 LAB(c)=(lab(s),lab(s),・・・,lab(s),・・・,lab(sS’-1),lab(sS’))
 セキュリティ情報の各特徴sのラベル要素lab(s)は、標準偏差stdv(s)がセキュリティ情報の特徴ごとにあらかじめ定義された範囲内に収まっていれば、平均ave(s)に設定され、そうでなければ、「None」に設定される。データ生成部62は、ステップS153の処理の後、ステップS151の処理を再び実行する。
 図12は、モデル生成部22の学習部63の処理フローを示している。
 ステップS161において、学習部63は、未調査のクラスタcがあるかを確認する。前述したように、1≦m≦Cである。未調査のクラスタcがなければ、学習部63は、学習を終了する。未調査のクラスタcがあれば、学習部63は、ステップS162の処理を実行する。
 ステップS162において、学習部63は、未調査のクラスタc内の各要素のプロファイル情報pを学習用のデータ、ラベルLAB(c)を教師データとして使って、機械学習を実行する。実際の学習では、ラベルLAB(c)には、ラベルごとに異なる数字が割り当てられる。学習部63は、機械学習の実行結果として、モデルである識別器を出力する。学習部63は、ステップS162の処理の後、ステップS161の処理を再び実行する。
 なお、学習部63は、ラベルLAB(c)全体を1つのラベルとして使ってデータを学習してもよいが、ラベル要素lab(s)ごとにデータを学習してもよい。その場合、他のクラスタにも同じ値または近い値のラベル要素が現れる可能性がある。そのため、学習部63は、あらかじめ決められた範囲内に収まるラベル要素lab(s)を規定のラベル要素に置換し、置換後のラベル要素を使ってデータを学習してもよい。「規定のラベル要素」は、ラベル要素ごとに異なる数字等である。
 図13は、推定部23の処理フローを示している。
 ステップS171からステップS174の処理は、前述したステップS112の処理に相当する。よって、ステップS171の処理の前には、前述したステップS111の処理が実行されている。ステップS111では、推定部23が、情報収集部21を利用して新たなプロファイル情報を取得する。このプロファイル情報は、セキュリティ意識を推定する対象となる人物Yのプロファイル情報である。
 ステップS171において、推定部23は、人物Yのプロファイル情報から、ステップS142で除外されたものと同じ特徴を除外する。
 ステップS172において、推定部23は、ステップS171で得られたプロファイル情報をモデル生成部22から出力された識別器に入力し、推定されたクラスタcのラベルLAB(c)を取得する。
 ステップS173において、推定部23は、ステップS172で得られたラベルLAB(c)から、人物Yが起こしやすいセキュリティ事故を特定する。具体的には、推定部23は、ラベルLAB(c)を構成するラベル要素lab(s)が「None」でなく、かつ、セキュリティ情報の特徴ごとにあらかじめ決められた閾値θk1以上である場合に、人物Yは特徴sに関するセキュリティ事故を起こしやすいと判定する。推定部23は、人物Yが起こしやすいセキュリティ事故の情報をディスプレイ15の画面に表示する。
 ステップS174において、推定部23は、ステップS172で得られたラベルLAB(c)から、人物Yが起こしにくいセキュリティ事故を特定する。具体的には、推定部23は、ラベルLAB(c)を構成するラベル要素lab(s)が「None」でなく、かつ、セキュリティ情報の特徴ごとにあらかじめ決められた閾値θk2以下である場合に、人物Yは特徴sに関するセキュリティ事故を起こしにくいと判定する。推定部23は、人物Yが起こしにくいセキュリティ事故の情報をディスプレイ15の画面に表示する。
 ***実施の形態の効果の説明***
 本実施の形態では、人物Yがセキュリティ事故に遭いやすいかどうかの評価指標として、人物Yについてセキュリティ事故の要因になり得る振る舞いの特徴がラベルLAB(c)として推定される。そのため、個人のセキュリティ意識を、根拠のある形で評価することができる。
 本実施の形態によれば、インターネット42、および、イントラネット等のシステム43から自動的に収集可能な情報を使い、評価対象のユーザがどういうセキュリティ事故を起こしやすいかを自動的に推定することができる。
 本実施の形態では、人物Yがどういうセキュリティ事故を起こしやすいかを推定した結果をもとに、組織が対策を検討することができる。
 ***他の構成***
 本実施の形態では、情報収集部21、モデル生成部22および推定部23の機能がソフトウェアにより実現されるが、変形例として、情報収集部21、モデル生成部22および推定部23の機能がソフトウェアとハードウェアとの組み合わせにより実現されてもよい。すなわち、情報収集部21、モデル生成部22および推定部23の機能の一部が専用のハードウェアにより実現され、残りがソフトウェアにより実現されてもよい。
 専用のハードウェアは、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ロジックIC、GA、FPGAまたはASICである。「IC」は、Integrated Circuitの略語である。「GA」は、Gate Arrayの略語である。「FPGA」は、Field-Programmable Gate Arrayの略語である。「ASIC」は、Application Specific Integrated Circuitの略語である。
 プロセッサ11および専用のハードウェアは、いずれも処理回路である。すなわち、情報収集部21、モデル生成部22および推定部23の機能がソフトウェアにより実現されるか、ソフトウェアとハードウェアとの組み合わせにより実現されるかに関わらず、情報収集部21、モデル生成部22および推定部23の機能は、処理回路により実現される。
 実施の形態2.
 本実施の形態について、主に実施の形態1との差異を、図14から図18を用いて説明する。
 実施の形態1では、人物Yがどういうセキュリティ事故を起こしやすいかを推定した結果をもとに、組織が対策を検討することが想定されている。一方、本実施の形態では、人物Yがどういうセキュリティ事故を起こしやすいかを推定した結果をもとに、人物Yに適した対策が自動的に提案される。
 ***構成の説明***
 図14を参照して、本実施の形態に係る評価装置10の構成を説明する。
 評価装置10は、情報収集部21と、モデル生成部22と、推定部23と、プロファイルデータベース31と、セキュリティデータベース32とのほかに、提案部24と、対策データベース33とを備える。情報収集部21、モデル生成部22、推定部23および提案部24の機能は、ソフトウェアにより実現される。プロファイルデータベース31、セキュリティデータベース32および対策データベース33は、メモリ12に構築されてもよいが、本実施の形態では補助記憶装置13に構築される。
 対策データベース33は、対策情報を格納するデータベースである。対策情報は、セキュリティ事故への対策を定義する情報である。
 対策情報の例を図15に示す。この例では、セキュリティ情報の各特徴sが高い人に対して有効なセキュリティ対策の一覧が対策情報として対策データベース33に記録されている。対策情報は、あらかじめセキュリティ管理者によって定義される。
 ***動作の説明***
 図14および図15とともに図16から図18を参照して、本実施の形態に係る評価装置10の動作を説明する。評価装置10の動作は、本実施の形態に係る評価方法に相当する。
 評価装置10の情報収集部21およびモデル生成部22の動作については、実施の形態1のものと同じであるため、説明を省略する。
 以下では、評価装置10の推定部23および提案部24の動作について説明する。
 図16は、推定部23および提案部24の処理フローを示している。
 ステップS201およびステップS202の処理については、ステップS171およびステップS172の処理と同じであるため、説明を省略する。
 ステップS203において、提案部24は、対策データベース33に格納された対策情報を参照して、推定部23により推定された特徴を示す振る舞いが要因になって起こり得るセキュリティ事故への対策を特定する。具体的には、提案部24は、ステップS202で人物Yのプロファイル情報を使って推定部23が取得したラベルLAB(c)と、対策データベース33に格納された対策情報とをもとに、人物Yが起こしやすいセキュリティ事故への対策を特定する。より具体的には、提案部24は、ラベルLAB(c)を構成するラベル要素lab(s)が「None」でなく、かつ、セキュリティ情報の特徴ごとにあらかじめ決められた閾値θk1以上である場合に、人物Yに適した対策は特徴sに関するセキュリティ事故への対策であると判定する。提案部24は、特定した対策を表す情報を出力する。具体的には、提案部24は、人物Yが起こしやすいセキュリティ事故への対策案をディスプレイ15の画面に表示する。訓練メール開封数が高い人への対策案の例と悪質サイト訪問数が高い人への対策案の例とを図16および図17にそれぞれ示す。
 ステップS204の処理については、ステップS174の処理と同じであるため、説明を省略する。
 なお、図15の例では、セキュリティ情報の特徴sごとに対策が定義されているが、それでは冗長な場合がある。よって、同じまたは似ている対策にはあらかじめ同じグループIDを付与しておき、ステップS203では、同じグループIDを持った複数の対策を特定した場合に、提案部24が、そのグループを代表する1つの対策のみを提案してもよい。「ID」は、Identifierの略語である。
 ***実施の形態の効果の説明***
 本実施の形態によれば、インターネット42、および、イントラネット等のシステム43から自動的に収集可能な情報を使い、評価対象のユーザがどういうセキュリティ事故を起こしやすいかを推定した結果に応じて、適切な対策を自動的に提案することができる。
 ***他の構成***
 本実施の形態では、実施の形態1と同じように、情報収集部21、モデル生成部22、推定部23および提案部24の機能がソフトウェアにより実現されるが、実施の形態1の変形例と同じように、情報収集部21、モデル生成部22、推定部23および提案部24の機能がソフトウェアとハードウェアとの組み合わせにより実現されてもよい。
 実施の形態3.
 本実施の形態について、主に実施の形態1との差異を、図19から図22を用いて説明する。
 実施の形態1では、既存のシステム43から収集可能なセキュリティ情報を利用することが想定されている。一方、本実施の形態では、収集したユーザのプロファイル情報をもとにコンテンツを変えた訓練メールを送信した結果から、セキュリティ情報が取得される。
 ***構成の説明***
 図19を参照して、本実施の形態に係る評価装置10の構成を説明する。
 評価装置10は、情報収集部21と、モデル生成部22と、推定部23と、プロファイルデータベース31と、セキュリティデータベース32とのほかに、メール生成部25と、メールコンテンツデータベース34とを備える。情報収集部21、モデル生成部22、推定部23およびメール生成部25の機能は、ソフトウェアにより実現される。プロファイルデータベース31、セキュリティデータベース32およびメールコンテンツデータベース34は、メモリ12に構築されてもよいが、本実施の形態では補助記憶装置13に構築される。
 メールコンテンツデータベース34は、訓練メールのコンテンツを格納するデータベースである。
 コンテンツの例を図20に示す。この例では、ニュース、趣味および仕事等のトピックごとにいくつかの訓練メールのコンテンツが用意され、メールコンテンツデータベース34に格納されている。例えば、トピックがニュースである訓練メールのコンテンツとしては、経済、国際、国内、エンターテインメント等に関係するコンテンツが個別に用意されている。
 ***動作の説明***
 図19および図20とともに図21および図22を参照して、本実施の形態に係る評価装置10の動作を説明する。評価装置10の動作は、本実施の形態に係る評価方法に相当する。
 図21は、学習フェーズの動作を示している。
 ステップS301において、情報収集部21は、インターネット42とイントラネット等のシステム43との両方からプロファイル情報を収集する。情報収集部21は、収集したプロファイル情報をプロファイルデータベース31に格納する。収集されるプロファイル情報は、実施の形態1のステップS101で収集されるものと同じである。
 ステップS302において、メール生成部25は、情報収集部21により収集されたプロファイル情報に表されている特徴に応じて、メールコンテンツデータベース34に格納された訓練メールのコンテンツをカスタマイズする。
 具体的には、メール生成部25は、組織のスタッフごとに、メールコンテンツデータベース34から、ステップS301で収集されたプロファイル情報に関連するコンテンツを選ぶ。本実施の形態では、メール生成部25は、スタッフのプロファイル情報のうち、特に、仕事および興味の情報に関係するコンテンツをトピックごとに取得する。メール生成部25は、取得したコンテンツを含む訓練メールのデータセットを生成する。
 ステップS303において、メール生成部25は、ステップS302でカスタマイズしたコンテンツを含む訓練メールを複数の人物X,X,・・・,Xのそれぞれに送信する。メール生成部25は、送信した訓練メールに対する振る舞いを観察して、セキュリティ情報を生成する。メール生成部25は、生成したセキュリティ情報をセキュリティデータベース32に格納する。
 具体的には、メール生成部25は、ステップS302で生成したデータセットにある訓練メールを定期的にスタッフに送信する。メール生成部25は、トピックごとの訓練メール開封数をセキュリティ情報としてセキュリティデータベース32に登録する。訓練メールの送信については、既存技術、または、非特許文献4に記載のサービス等の既存サービスを利用することができる。
 セキュリティ情報として登録される、訓練メールに対する振る舞いの観察結果の例を図22に示す。この例では、訓練メール開封数がセキュリティ情報としてセキュリティデータベース32に登録される。マルウェア検知数、悪質サイト訪問数、ポリシー違反数、実行ファイルダウンロード数、ファイルダウンロード数、および、インターネット利用数は、実施の形態1のステップS101と同じように、情報収集部21により収集される。
 ステップS304の処理については、ステップS102の処理と同じである。すなわち、ステップS304において、モデル生成部22は、プロファイル情報とセキュリティ情報との関係性のモデルを生成する。
 学習フェーズの次のフェーズである評価フェーズの動作については、実施の形態1のものと同じであるため、説明を省略する。
 ***実施の形態の効果の説明***
 本実施の形態によれば、セキュリティ情報を動的に取得することができる。
 ***他の構成***
 本実施の形態では、実施の形態1と同じように、情報収集部21、モデル生成部22、推定部23およびメール生成部25の機能がソフトウェアにより実現されるが、実施の形態1の変形例と同じように、情報収集部21、モデル生成部22、推定部23およびメール生成部25の機能がソフトウェアとハードウェアとの組み合わせにより実現されてもよい。
 実施の形態4.
 本実施の形態は、実施の形態2と実施の形態3との組み合わせである。
 図23を参照して、本実施の形態に係る評価装置10の構成を説明する。
 評価装置10は、情報収集部21と、モデル生成部22と、推定部23と、プロファイルデータベース31と、セキュリティデータベース32とのほかに、提案部24と、メール生成部25と、対策データベース33と、メールコンテンツデータベース34とを備える。情報収集部21、モデル生成部22、推定部23、提案部24およびメール生成部25の機能は、ソフトウェアにより実現される。プロファイルデータベース31、セキュリティデータベース32、対策データベース33およびメールコンテンツデータベース34は、メモリ12に構築されてもよいが、本実施の形態では補助記憶装置13に構築される。
 情報収集部21、モデル生成部22、推定部23、メール生成部25、プロファイルデータベース31、セキュリティデータベース32およびメールコンテンツデータベース34については、実施の形態3のものと同じであるため、説明を省略する。
 提案部24および対策データベース33については、実施の形態2のものと同じであるため、説明を省略する。
 10 評価装置、11 プロセッサ、12 メモリ、13 補助記憶装置、14 入力機器、15 ディスプレイ、16 通信装置、21 情報収集部、22 モデル生成部、23 推定部、24 提案部、25 メール生成部、31 プロファイルデータベース、32 セキュリティデータベース、33 対策データベース、34 メールコンテンツデータベース、41 ネットワーク、42 インターネット、43 システム、51 プロファイル情報収集部、52 セキュリティ情報収集部、61 分類部、62 データ生成部、63 学習部。

Claims (10)

  1.  複数の人物のそれぞれについて個人の特徴を表すプロファイル情報を格納するプロファイルデータベースと、
     前記複数の人物のそれぞれについてセキュリティ事故の要因になり得る振る舞いの特徴を表すセキュリティ情報を格納するセキュリティデータベースと、
     前記プロファイルデータベースに格納されたプロファイル情報に表されている特徴と前記セキュリティデータベースに格納されたセキュリティ情報に表されている特徴との関係性をモデルとして導き出すモデル生成部と、
     前記複数の人物とは別の人物の特徴を表す情報の入力を受け、前記モデル生成部により導き出されたモデルを使って、前記別の人物についてセキュリティ事故の要因になり得る振る舞いの特徴を推定する推定部と
    を備える評価装置。
  2.  前記モデル生成部は、前記プロファイル情報に対するクラスタリングを行って、前記複数の人物をいくつかのクラスタに分類し、クラスタごとに、前記プロファイル情報から学習用のデータを、前記セキュリティ情報から前記学習用のデータに付与するラベルを生成し、クラスタごとに、前記学習用のデータと前記ラベルとを使って、前記モデルを導き出す請求項1に記載の評価装置。
  3.  前記モデル生成部は、前記モデルを導き出す前に、前記プロファイル情報に表されている特徴と前記セキュリティ情報に表されている特徴との相関を計算し、計算した相関が閾値未満の特徴を表す情報を前記プロファイル情報から除外する請求項1または2に記載の評価装置。
  4.  前記モデル生成部は、前記モデルを導き出す前に、前記プロファイル情報に表されている特徴と前記セキュリティ情報に表されている特徴との相関を計算し、計算した相関が閾値未満の特徴を表す情報を前記セキュリティ情報から除外する請求項1または2に記載の評価装置。
  5.  セキュリティ事故への対策を定義する対策情報を格納する対策データベースと、
     前記対策データベースに格納された対策情報を参照して、前記推定部により推定された特徴を示す振る舞いが要因になって起こり得るセキュリティ事故への対策を特定し、特定した対策を表す情報を出力する提案部と
    を備える請求項1から4のいずれか1項に記載の評価装置。
  6.  インターネットと前記複数の人物が属する組織により運用されているシステムとの少なくともいずれかから前記プロファイル情報を収集し、前記プロファイル情報を前記プロファイルデータベースに格納する情報収集部をさらに備える請求項1から5のいずれか1項に記載の評価装置。
  7.  前記情報収集部は、前記システムから前記セキュリティ情報を収集し、前記セキュリティ情報を前記セキュリティデータベースに格納する請求項6に記載の評価装置。
  8.  セキュリティ事故を訓練するためのメールである訓練メールのコンテンツを格納するメールコンテンツデータベースと、
     前記プロファイル情報に表されている特徴に応じて、前記メールコンテンツデータベースに格納された訓練メールのコンテンツをカスタマイズし、カスタマイズしたコンテンツを含む訓練メールを前記複数の人物のそれぞれに送信し、送信した訓練メールに対する振る舞いを観察して、前記セキュリティ情報を生成し、前記セキュリティ情報を前記セキュリティデータベースに格納するメール生成部と
    を備える請求項1から6のいずれか1項に記載の評価装置。
  9.  モデル生成部が、複数の人物のそれぞれについて個人の特徴を表すプロファイル情報と、前記複数の人物のそれぞれについてセキュリティ事故の要因になり得る振る舞いの特徴を表すセキュリティ情報とをデータベースから取得し、前記プロファイル情報に表されている特徴と前記セキュリティ情報に表されている特徴との関係性をモデルとして導き出し、
     推定部が、前記複数の人物とは別の人物の特徴を表す情報の入力を受け、前記モデル生成部により導き出されたモデルを使って、前記別の人物についてセキュリティ事故の要因になり得る振る舞いの特徴を推定する評価方法。
  10.  複数の人物のそれぞれについて個人の特徴を表すプロファイル情報を格納するプロファイルデータベースと、前記複数の人物のそれぞれについてセキュリティ事故の要因になり得る振る舞いの特徴を表すセキュリティ情報を格納するセキュリティデータベースとを備えるコンピュータに、
     前記プロファイルデータベースに格納されたプロファイル情報に表されている特徴と前記セキュリティデータベースに格納されたセキュリティ情報に表されている特徴との関係性をモデルとして導き出すモデル生成処理と、
     前記複数の人物とは別の人物の特徴を表す情報の入力を受け、前記モデル生成処理により導き出されたモデルを使って、前記別の人物についてセキュリティ事故の要因になり得る振る舞いの特徴を推定する推定処理と
    を実行させる評価プログラム。
PCT/JP2017/019589 2017-05-25 2017-05-25 評価装置、評価方法および評価プログラム WO2018216175A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US16/603,151 US20200074327A1 (en) 2017-05-25 2017-05-25 Evaluation apparatus, evaluation method, and computer readable medium
CN201780090930.2A CN110637320A (zh) 2017-05-25 2017-05-25 评价装置、评价方法以及评价程序
JP2017555735A JP6362796B1 (ja) 2017-05-25 2017-05-25 評価装置、評価方法および評価プログラム
PCT/JP2017/019589 WO2018216175A1 (ja) 2017-05-25 2017-05-25 評価装置、評価方法および評価プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/019589 WO2018216175A1 (ja) 2017-05-25 2017-05-25 評価装置、評価方法および評価プログラム

Publications (1)

Publication Number Publication Date
WO2018216175A1 true WO2018216175A1 (ja) 2018-11-29

Family

ID=62976626

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/019589 WO2018216175A1 (ja) 2017-05-25 2017-05-25 評価装置、評価方法および評価プログラム

Country Status (4)

Country Link
US (1) US20200074327A1 (ja)
JP (1) JP6362796B1 (ja)
CN (1) CN110637320A (ja)
WO (1) WO2018216175A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10715545B2 (en) * 2017-09-22 2020-07-14 Microsoft Technology Licensing, Llc Detection and identification of targeted attacks on a computing system
US11308208B2 (en) * 2018-08-03 2022-04-19 Endgame, Inc. Classifying ransom notes in received files for ransomware process detection and prevention
GB2595126B (en) * 2019-02-15 2022-12-07 Sophos Ltd Systems and methods for conducting a security recognition task
US11575677B2 (en) * 2020-02-24 2023-02-07 Fmr Llc Enterprise access control governance in a computerized information technology (IT) architecture
JP2021163048A (ja) * 2020-03-31 2021-10-11 株式会社トプコン 情報処理装置、情報処理システム、および情報処理方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011095876A (ja) * 2009-10-28 2011-05-12 Hitachi Ltd ヒューマンエラー分析支援システムおよびヒューマンエラー分析支援方法
JP2014206792A (ja) * 2013-04-10 2014-10-30 テンソル・コンサルティング株式会社 ソーシャルネットワーク情報処理装置、処理方法、および処理プログラム
JP2015060361A (ja) * 2013-09-18 2015-03-30 富士通株式会社 メール作成プログラム、メール作成方法、及び情報処理装置
JP2016200955A (ja) * 2015-04-09 2016-12-01 株式会社リコー 情報処理装置、プログラム、推定方法
JP6130977B1 (ja) * 2016-05-24 2017-05-17 三井情報株式会社 情報処理装置、情報処理方法、情報処理システム及びプログラム
JP6134411B1 (ja) * 2016-03-17 2017-05-24 ヤフー株式会社 情報処理装置、情報処理システム、情報処理方法、および、情報処理プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011095876A (ja) * 2009-10-28 2011-05-12 Hitachi Ltd ヒューマンエラー分析支援システムおよびヒューマンエラー分析支援方法
JP2014206792A (ja) * 2013-04-10 2014-10-30 テンソル・コンサルティング株式会社 ソーシャルネットワーク情報処理装置、処理方法、および処理プログラム
JP2015060361A (ja) * 2013-09-18 2015-03-30 富士通株式会社 メール作成プログラム、メール作成方法、及び情報処理装置
JP2016200955A (ja) * 2015-04-09 2016-12-01 株式会社リコー 情報処理装置、プログラム、推定方法
JP6134411B1 (ja) * 2016-03-17 2017-05-24 ヤフー株式会社 情報処理装置、情報処理システム、情報処理方法、および、情報処理プログラム
JP6130977B1 (ja) * 2016-05-24 2017-05-17 三井情報株式会社 情報処理装置、情報処理方法、情報処理システム及びプログラム

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
"2008 Data Breach Investigations Report", 4 May 2017, VERIZON BUSINESS
NTT SOFTWARE, TRAINING SERVICE AGAINST TARGETED MAILS, 24 March 2017 (2017-03-24), Retrieved from the Internet <URL:https://www.ntts.co.jp/products/apttraining/index.html>
YOSHINORI KATAYAMA ET AL.: "User Kodo Tokusei Bunseki ni yoru Kojin to Soshiki no IT Risk Mieruka no Kokoromi [An Attempt to Visualization of Psychological and Behavioral Characteristics of Users Vulnerable to Cyber Attack]", 2015 NEN SYMPOSIUM ON CRYPTOGRAPHY AND INFORMATION SECURITY GAIYOSHU, 20 January 2015 (2015-01-20), pages 1 - 8, XP009517228 *
YOSHINORI KATAYAMATAKEAKI TERADASATORU TORIIHIROSHI TSUDA: "An attempt to Visualization of Psychological and Behavioral Characteristics of Users Vulnerable to Cyber Attack", SCIS 2015, SYMPOSIUM ON CRYPTOGRAPHY AND INFORMATION SECURITY, 2015, pages 4D1 - 3
YUMIKO NAKAZAWATAKEHISA KATOTAKEO ISARIDAHUMIYASU YAMADATAKUMI YAMAMOTOMASAKATSU NISHIGAKI: "Best Match Security - A study on correlation between preference disposition and security consciousness about user authentication", IPSJ SIG TECHNICAL REPORT, vol. 2010-CSEC-48, no. 21, 2010

Also Published As

Publication number Publication date
CN110637320A (zh) 2019-12-31
JP6362796B1 (ja) 2018-07-25
JPWO2018216175A1 (ja) 2019-06-27
US20200074327A1 (en) 2020-03-05

Similar Documents

Publication Publication Date Title
JP6362796B1 (ja) 評価装置、評価方法および評価プログラム
US11533324B2 (en) Learning maliciousness in cybersecurity graphs
Van Der Heijden et al. Cognitive triaging of phishing attacks
Choi et al. Analyzing research trends in personal information privacy using topic modeling
Cresci et al. Fame for sale: Efficient detection of fake Twitter followers
Miller et al. Reviewer integration and performance measurement for malware detection
Heartfield et al. You are probably not the weakest link: Towards practical prediction of susceptibility to semantic social engineering attacks
Lécuyer et al. {XRay}: Enhancing the {Web’s} Transparency with Differential Correlation
US20200177608A1 (en) Ontology Based Persistent Attack Campaign Detection
Thonnard et al. Are you at risk? Profiling organizations and individuals subject to targeted attacks
Lévesque et al. Risk prediction of malware victimization based on user behavior
Lévesque et al. Technological and human factors of malware attacks: A computer security clinical trial approach
Petrič et al. The impact of formal and informal organizational norms on susceptibility to phishing: Combining survey and field experiment data
Almukaynizi et al. Patch before exploited: An approach to identify targeted software vulnerabilities
Al-Azizy et al. A literature survey and classifications on data deanonymisation
Astakhova et al. An information tool for increasing the resistance of employees of an organization to social engineering attacks
Mvula et al. A systematic literature review of cyber-security data repositories and performance assessment metrics for semi-supervised learning
Ugwu et al. A Study on the Impact of Gender, Employment Status, and Academic Discipline on Cyber-Hygiene: A Case Study of University of Nigeria, Nsukka
US11537668B2 (en) Using a machine learning system to process a corpus of documents associated with a user to determine a user-specific and/or process-specific consequence index
WO2015159926A1 (ja) 情報漏洩検知装置、情報漏洩検知方法、および情報漏洩検知プログラム
Biselli et al. On the challenges of developing a concise questionnaire to identify privacy personas
Tian et al. Phishing susceptibility across industries: The differential impact of influence techniques
Gautam et al. Detecting phishing websites using rule-based classification algorithm: a comparison
US20210006587A1 (en) Security risk evaluation apparatus, security risk evaluation method, and computer readable medium
Alsabbagh et al. A cultural adaption model for global cyber security warning systems

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2017555735

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17911235

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2017911235

Country of ref document: EP

Effective date: 20191125

122 Ep: pct application non-entry in european phase

Ref document number: 17911235

Country of ref document: EP

Kind code of ref document: A1