WO2017010350A1 - ソフトウェア解析システム、ソフトウェア解析方法およびソフトウェア解析プログラム - Google Patents

ソフトウェア解析システム、ソフトウェア解析方法およびソフトウェア解析プログラム Download PDF

Info

Publication number
WO2017010350A1
WO2017010350A1 PCT/JP2016/069881 JP2016069881W WO2017010350A1 WO 2017010350 A1 WO2017010350 A1 WO 2017010350A1 JP 2016069881 W JP2016069881 W JP 2016069881W WO 2017010350 A1 WO2017010350 A1 WO 2017010350A1
Authority
WO
WIPO (PCT)
Prior art keywords
application
label
text
permission
applications
Prior art date
Application number
PCT/JP2016/069881
Other languages
English (en)
French (fr)
Inventor
満昭 秋山
毅 八木
森 達哉
卓弥 渡邉
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to EP16824330.1A priority Critical patent/EP3293664B1/en
Priority to CN201680039655.7A priority patent/CN107735792B/zh
Priority to US15/574,199 priority patent/US10366236B2/en
Publication of WO2017010350A1 publication Critical patent/WO2017010350A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/566Dynamic detection, i.e. detection performed at run-time, e.g. emulation, suspicious activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • G06F21/563Static detection by source code analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
    • G06F21/577Assessing vulnerabilities and evaluating computer system security
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/03Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
    • G06F2221/033Test or assess software

Definitions

  • the present invention relates to a software analysis system, a software analysis method, and a software analysis program.
  • An application that runs on a mobile terminal equipped with Android (registered trademark), iOS (registered trademark), or the like often processes user privacy information.
  • the user's privacy information is acquired by hardware such as a sensor built in the mobile terminal, or input by the user himself / herself into the mobile terminal.
  • the privacy information is, for example, information associated with individual users such as user location information, individual identification numbers of mobile terminals, and address books.
  • a permission is a function introduced to control access to privacy information.
  • an application that uses location information asks the user for permission to use the location information permission when the application is installed on a mobile terminal.
  • the application is installed on the mobile terminal. If the user does not allow the use of the permission, the application is not installed on the mobile terminal.
  • the user can know in advance privacy information that the application may use.
  • Non-Patent Documents 1 and 2 the information provided by the conventional permission function is often not noticed by the user (see Non-Patent Documents 1 and 2). Also, the information provided by the permission function is difficult to understand without specialized knowledge. Also, it is difficult for the user to intuitively grasp the information provided by the permission function. For this reason, it is also conceivable that an application acquires privacy information without the user's knowledge.
  • Non-Patent Document 1 analyzes text of an explanatory text of an application of a mobile terminal (hereinafter also referred to as explanatory text or text), and which part of the text corresponds to access to privacy information, Suggests a technology to identify.
  • Non-patent document 2 combines text analysis and application code analysis to extract applications that have inconsistencies when there is a contradiction between access to privacy information suggested by code analysis and descriptions in the text. The technology to do is proposed.
  • Non-Patent Documents 1 and 2 humans read the explanatory text text of the application in advance and decipher whether or not there is a description to access specific privacy information. Then, a label is assigned to the application based on the decryption result.
  • privacy information is diverse, and when trying to classify texts using statistical methods such as machine learning, a large amount of text is prepared and labels are assigned.
  • manually attaching labels to data is expensive.
  • the technique of manually assigning labels to large-scale data lacks scalability.
  • the disclosed technology has been made in view of the above, and based on the code and description of the application, whether or not the application has accessed the privacy information of the user is automatically disclosed to the user. It is an object of the present invention to provide a software analysis system, a software analysis method, and a software analysis program that enable analysis.
  • the disclosed software analysis system, software analysis method, and software analysis program determine whether or not the plurality of applications access predetermined privacy information by permission based on the codes of the plurality of applications. Then, the disclosed software analysis system, software analysis method, and software analysis program give a first label to an application that is determined to access predetermined privacy information, and to an application that is determined not to access predetermined privacy information. A second label different from the first label is applied.
  • the disclosed software analysis system, software analysis method, and software analysis program are more often included in the description text of the application having the first label than in the description text of the application having the second label.
  • the disclosed software analysis system, software analysis method, and software analysis program classify an application in which the extracted word is included in the explanatory text as an application that refers to the permission, and the extracted word is included in the explanatory text. It is characterized by classifying non-applications as applications that do not mention permissions.
  • the disclosed software analysis system, software analysis method, and software analysis program automatically determine whether or not the application has disclosed to the user whether or not the user has access to the user's privacy information based on the code and description of the application. There is an effect that analysis is possible.
  • FIG. 1 is a schematic diagram illustrating an example of a configuration of a software analysis system according to the embodiment.
  • FIG. 2 is a diagram for explaining an example of a configuration of information stored in the application information storage unit.
  • FIG. 3 is a diagram for explaining an example of a configuration of information stored in the keyword list storage unit.
  • FIG. 4 is a flowchart illustrating an example of a flow of processing executed by the software analysis system according to the embodiment.
  • FIG. 5 is a flowchart illustrating an example of a flow of label generation processing according to the embodiment.
  • FIG. 6 is a flowchart illustrating an example of a flow of score calculation processing (keyword extraction processing) according to the embodiment.
  • FIG. 7 is a flowchart illustrating an example of the flow of classification processing according to the embodiment.
  • FIG. 1 is a schematic diagram illustrating an example of a configuration of a software analysis system according to the embodiment.
  • FIG. 2 is a diagram for explaining an example of a configuration of information stored in the application information
  • FIG. 8 is a sequence diagram for explaining an example of a flow of processing executed by the software analysis system according to the embodiment.
  • FIG. 9 is a schematic diagram illustrating an example of a configuration of a software analysis system according to a modification.
  • FIG. 10 is a diagram illustrating an example of a configuration of information stored in the application information storage unit according to the modification.
  • FIG. 11 is a flowchart illustrating an example of a flow of processing executed by the software analysis system according to the modification.
  • FIG. 12 is a diagram illustrating a computer that executes a software analysis program according to the embodiment.
  • FIG. 1 is a schematic diagram illustrating an example of a configuration of a software analysis system 1 according to the embodiment.
  • a software analysis system 1 shown in FIG. 1 is a server that performs application pre-examination, for example, operated by an operator of a download service that a user accesses to download an application to a mobile terminal.
  • application is also referred to as “application”.
  • the software analysis system 1 includes a storage unit 10, a label generation unit 20, a score calculation unit 30, and a classification unit 40.
  • the storage unit 10 is, for example, a semiconductor memory element or a storage device.
  • VRAM Video Random Access Memory
  • RAM Random Access Memory
  • ROM Read Only Memory
  • flash memory or the like
  • a storage device such as a hard disk or an optical disk can be used.
  • the storage unit 10 stores information related to applications to be analyzed by the software analysis system 1. Further, the storage unit 10 stores information obtained as a result of analysis processing by the software analysis system 1.
  • the storage unit 10 includes an application information storage unit 11 and a keyword list storage unit 12.
  • FIG. 2 is a diagram for explaining an example of a configuration of information stored in the application information storage unit 11.
  • FIG. 3 is a diagram for explaining an example of a configuration of information stored in the keyword list storage unit 12.
  • the application information storage unit 11 associates “code”, “descriptive text”, “privacy information”, “label”, and “classification result” in association with “application ID”. And memorize.
  • “Application ID” is an identifier for uniquely identifying an application to be analyzed by the software analysis system 1.
  • Code is the code of the application. For example, application source code.
  • the “description text” is the text of the description of the application.
  • Primary information indicates the type of privacy information of the user who is permitted to access the application according to the permission. Examples of privacy information include GPS (Global Positioning System) information, a calendar, a camera function, an address book, and the like.
  • Label is a label given to each application by the software analysis system 1 based on the result of code analysis by the software analysis system 1.
  • the “label” is a provisional label indicating a determination result of whether or not the application accesses predetermined privacy information.
  • the “classification result” indicates a result of classifying the application based on whether or not the keyword extracted by analyzing the explanation text by the software analysis system 1 is included in the explanation text of each application.
  • the explanatory text “ ⁇ ⁇ ⁇ ” of the application and the corresponding code “ ⁇ ⁇ ⁇ ” are stored.
  • a label indicating whether or not the application accesses each of the three types of privacy information and a classification result are stored in association with the application.
  • “privacy information, calendar”, “label, with reference” is stored. This indicates that according to the code analysis, the application with the application ID “AP001” accesses the user's calendar.
  • “privacy information, address book” and “classification result, no mention” are stored in association with the application ID “AP001”. This indicates that the keyword corresponding to the privacy information “address book” is not included in the explanatory text of the application identified by the application ID “AP001”.
  • the keyword list storage unit 12 stores “privacy information”, “function (permission)”, and “keyword”.
  • the “privacy information” is the same as the “privacy information” stored in the application information storage unit 11.
  • “Function (permission)” is a name of a permission that permits access to the corresponding privacy information.
  • the permission is, for example, “READ_CONTACTS” or “READ_CALENDER” defined for Android (registered trademark).
  • the “keyword” is a keyword extracted from the explanatory text of the application by the software analysis system 1. Details of the keyword extracting process will be described later.
  • “function (permission), location” and “keyword, gps, location, map” are stored in association with “privacy information, GPS information”. This indicates that the privacy information whose access is permitted by the function of the permission “Location” is GPS information.
  • three words “gps, location, map” are extracted as keywords corresponding to the permission “Location”.
  • three keywords are stored in association with each privacy information and function (permission).
  • the number of keywords associated with each privacy information and function (permission) is not limited to three.
  • the label generation unit 20 Based on the application information stored in the storage unit 10, the label generation unit 20 generates a label indicating whether or not each application has determined to access the user's privacy information as a result of code analysis.
  • the score calculation unit 30 analyzes the explanatory text of the application using the label generated by the label generation unit 20, and calculates the score of each word included in the explanatory text. The score calculation unit 30 calculates the score of each word for each permission. The score calculation unit 30 uses the description text so that the score of words included in the description text of the application “labeled” is higher than the text of the description text of the application “labeled”. The score of each included word is calculated.
  • the calculation method is not particularly limited, and for example, a method using an odds ratio or compatibility feedback can be applied.
  • the score can be calculated based on the total number of applications including.
  • the score calculation method calculated by the score calculation unit 30 is a word that frequently appears in the description text of the application with the label “with reference”, and hardly appears in the description text of the application with the label “without reference”. Set a higher value for words. In other words, the score calculation method is set so that the higher the appearance frequency of the description text of the application with the label “Mentioned” is higher than the appearance frequency of the description text of the application with the label “None”. . In addition, the score calculation method is a word that appears frequently in the description text of an application that uses API (Application Programming Interface), and the higher the value is for a word that does not appear in the description text of an application that does not use the API. Set to be.
  • API Application Programming Interface
  • the score calculation unit 30 extracts the top predetermined number of words as the keywords corresponding to the permission in descending order of the score in association with the permission.
  • a keyword is a word expected to appear in the description text of an application that accesses the corresponding privacy information.
  • the keywords extracted by the score calculation unit 30 are stored in the keyword list storage unit 12 in association with privacy information and permissions.
  • the classification unit 40 determines whether the explanatory text of each application includes the extracted keyword. Then, the classification unit 40 classifies the application of the explanatory text including the keyword as an application “with reference”. Further, the classification unit 40 classifies the application of the explanatory text that does not include the keyword as a “no mention” application.
  • the classification result by the classification unit 40 is stored in the application information storage unit 11 in association with each application and privacy information.
  • FIG. 4 is a flowchart illustrating an example of a flow of processing executed by the software analysis system 1 according to the embodiment.
  • the software analysis system 1 acquires information about a plurality of applications in advance and stores it in the application information storage unit 11 of the storage unit 10.
  • the analysis processing by the software analysis system 1 includes label generation (code analysis) by the label generation unit 20 (step S21), score calculation by the score calculation unit 30 (keyword extraction) (step S22), and classification unit.
  • category by 40 step S23
  • the classification by the classification unit 40 is completed, the process ends.
  • the flow of processing by each unit will be described.
  • FIG. 5 is a flowchart illustrating an example of a flow of label generation processing according to the embodiment.
  • the label generation unit 20 first selects one application and one privacy information as an analysis target (step S51). For example, the label generation unit 20 selects an application with the application ID “AP001”. Moreover, the label production
  • the order of selecting the application and privacy information by the label generation unit 20 may be determined in advance and stored in the software analysis system 1, or the user may specify the application to be selected and the privacy information. .
  • the label generation unit 20 reads the code of the selected application from the application information storage unit 11. If the source code can be acquired, the application code is acquired and stored in the application information storage unit 11. When the source code cannot be acquired, the code disassembled using a technique such as reverse engineering is stored in the application information storage unit 11.
  • the label generation unit 20 determines whether or not a permission declaration is included in the read code (step S52). For example, in the case of an application using Android (registered trademark), the label generation unit 20 determines whether or not permission is declared in AndroidManifest.xml.
  • the label generation unit 20 determines whether the API corresponding to the selected privacy information (ie, permission) is included in the code. (Step S53). Furthermore, when it is determined that the API is included (step S53, Yes), the label generation unit 20 analyzes the call graph and determines whether or not the API can actually be called (step S54). ). As a result of analyzing the call graph, when it is determined that the call can be made (step S54, Yes), the label generation unit 20 generates a label “with reference” for the application (step S55).
  • the label generating unit 20 gives a label of “no mention” to the application (Step S56).
  • the label generation unit 20 similarly applies a label of “no mention”. Generate. This completes the label generation process.
  • the generated label is stored in the application information storage unit 11 in association with the application and privacy information.
  • the label generation unit 20 generates labels corresponding to a plurality of applications and privacy information by repeatedly executing the process shown in FIG. 5 for each application and privacy information, and stores the labels in the application information storage unit 11.
  • the reason why labels are assigned through three stages of determination is that the code may not actually access privacy information even if there is a permission declaration or corresponding API in the code. It is.
  • the score calculation unit 30 extracts a keyword for specifying an application that accesses the privacy information based on the explanatory text using the application with the label and the privacy information.
  • FIG. 6 is a flowchart illustrating an example of a flow of score calculation processing (keyword extraction processing) according to the embodiment.
  • the score calculation unit 30 reads, from the application information storage unit 11, explanatory texts corresponding to a plurality of applications for which label generation processing has been completed (step S61). Then, the score calculation unit 30 selects a permission (Step S62). Furthermore, the score calculation unit 30 analyzes the read explanation text, and selects one word included in the explanation text (step S63).
  • the score calculation part 30 calculates the score of the selected word (step S64).
  • the score calculation unit 30 calculates a score using the following formula (1).
  • Expression (1) calculates the total number N (N is a natural number) of applications, and calculates the score of the word w i included in the i-th application (i is a natural number of 1 to N). It is an expression to do.
  • R is the total number of applications to which the label “with reference” is given
  • r i is the total number of applications to which the word w i is included in the explanatory text and the label “with reference” is given. It is.
  • N is the total number of applications to be analyzed
  • n i is the total number of applications, including a word w i in the description text.
  • 0.5 is added in order to avoid that a numerator and a denominator become zero.
  • the value to be added is not limited to 0.5, and may be 0.1 or 0.6, for example.
  • the score calculation unit 30 determines whether or not the scores of all words have been calculated (step S65). When it is determined that the scores of all the words have not been calculated (No at Step S65), the score calculation unit 30 selects a word to be processed next (Step S66). Then, the process returns to step S64. On the other hand, when it determines with having calculated the score of all the words (step S65, Yes), the score calculation part 30 sorts a word in the descending order of the score calculated for every permission, and extracts an upper predetermined number of words ( Step S67). For example, the score calculation unit 30 extracts the top three words.
  • the reason why the number of words to be extracted is 3 is that, from the experimental results of the present inventors, when the number of words to be extracted is 3, finally good classification accuracy is obtained. .
  • the number of words to be extracted may be set to other numbers. This completes the score calculation process (keyword extraction process).
  • the method of calculating the score using the relevance weight was adopted.
  • the formula for calculating the score is not limited to the above example.
  • the expression for calculating the score only needs to be able to quantify the nature of the word, which is easily included in an application of a certain set and difficult to be included in an application of another set.
  • the odds ratio can be used as the score. First, it is assumed that the probability that a predetermined word is included in the set of applications with the label “without mention” is p, and the probability that the predetermined word is included in the set of applications with the label “without mention” is q. Then, the odds ratio is calculated by dividing (p / (1-p)) by (q / (1-q)). As the calculated odds ratio is larger, it means that a predetermined word is more likely to be included in the set of applications with the label “with mention” and less likely to be included in the set of applications with the label “without mention”.
  • the probability p that the word “SNS” is included in the set of applications with the label “referenced” is 0.9 and the probability q included in the set of applications with the label “without mention” is 0.1
  • the odds ratio calculated based on the above equation is 81.
  • the odds ratio is calculated for other words, and the odds ratio is used as a score.
  • the words are ranked in order from the highest score.
  • the keywords may be extracted as keywords that are more likely to be included in a set of applications “with mention” in order from the top word.
  • the classification unit 40 classifies the application based on whether each application accesses the privacy information based on the keyword extracted by the score calculation unit 30 and the explanatory text of the application.
  • FIG. 7 is a flowchart illustrating an example of the flow of classification processing according to the embodiment.
  • the classification unit 40 reads the explanatory text of the application to be classified from the application information storage unit 11. And the classification
  • the classification “with reference” indicates that the application is determined to be an application that accesses privacy information that is permitted to be accessed by the permission corresponding to the keyword.
  • the classification unit 40 classifies the application as an application “not mentioned” in the permission corresponding to the keyword (step S74).
  • the classification “no mention” indicates that it is determined that the application does not access the privacy information permitted to be accessed by the permission corresponding to the keyword. This completes the classification process.
  • FIG. 8 is a sequence diagram for explaining an example of a flow of processing executed by the software analysis system 1 according to the embodiment.
  • the process shown in FIG. 8 corresponds to the process flow described with reference to FIGS.
  • the software analysis system 1 first, information on the application to be analyzed and explanatory text are prepared ((1) in FIG. 8). For example, the software analysis system 1 acquires application data via a network and stores the data in the storage unit 10.
  • the label generation unit 20 refers to the application code stored in the storage unit 10 ((2) in FIG. 8) and executes the analysis of the code ((3) in FIG. 8).
  • the label generation unit 20 generates a label based on the result of the code analysis and stores it in the storage unit 10 ((4) in FIG. 8).
  • the score calculation unit 30 acquires the label together with the application information stored in the storage unit 10 ((5) in FIG. 8), and executes a score calculation process (keyword generation process) ((6) in FIG. 8). As a result of the processing of the score calculation unit 30, a keyword list is generated and stored in the storage unit 10. Next, the classification unit 40 acquires a keyword list from the storage unit 10 ((7) in FIG. 8). Further, the classification unit 40 acquires the explanatory text from the storage unit 10 ((8) in FIG. 8). The classification unit 40 performs text classification based on the acquired keyword list and explanatory text ((9) in FIG. 8). Then, the classification result obtained as a result of the processing of the classification unit 40 is stored in the storage unit 10 ((10) in FIG. 8).
  • the software analysis system includes a label generation unit, a score calculation unit, and a classification unit. Then, the label generation unit determines whether or not the plurality of applications access predetermined privacy information with permission based on the codes of the plurality of applications. The label generation unit assigns a first label (“with reference”) to an application determined to access predetermined privacy information, and sets the first label to the application determined not to access predetermined privacy information. And a second label different from “No mention”.
  • the score calculation unit includes a plurality of applications such that the scores of words included in the text of the application descriptive text given the first label are higher than the text of the application descriptive text given the second label.
  • the score of each word included in the explanatory text is calculated, and a predetermined number of words with the calculated score from the top are extracted from the explanatory texts of a plurality of applications in association with the permission.
  • the classification unit classifies an application in which the word extracted by the score calculation unit is included in the text of the explanatory text as an application that refers to the permission, and sets an application in which the word extracted by the score calculation unit is not included in the text of the explanatory text as the permission. Categorize as an application not mentioned.
  • the software analysis system of the embodiment combines code analysis and explanatory text analysis to determine whether or not the application has access to privacy information and whether or not the application description has access to privacy information. It can be determined with high accuracy.
  • the software analysis system of the embodiment can automate the text analysis of the explanatory text, and can improve the processing efficiency and cost of the text analysis.
  • the software analysis system of the embodiment can automatically extract words characteristically included in the description of an application that accesses privacy information, and can improve processing efficiency and cost. As described above, according to the software analysis system of the embodiment, it is automatically analyzed whether or not the user's access to the user's privacy information is disclosed to the user based on the application code and the explanatory text. can do.
  • the software analysis system 1 determines whether or not the application accesses predetermined privacy information based on the code of each application and the explanatory text. In addition, the software analysis system 1 of the above embodiment classifies whether each application discloses access to privacy information in the explanatory text based on the explanatory text.
  • the software analysis system analyzes a newly detected application to acquire a classification result, and identifies a malignant application and a benign application based on the classification result.
  • the modified software analysis system is also configured to alert the user if the newly detected application is a malicious application.
  • FIG. 9 is a schematic diagram showing an example of the configuration of the software analysis system 1A according to the modification.
  • the software analysis system 1A according to the modification includes a storage unit 10A, a label generation unit 20, a score calculation unit 30, a classification unit 40, a specification unit 50, and a transmission unit 60.
  • the storage unit 10A includes an application information storage unit 11A and a keyword list storage unit 12.
  • the label generation unit 20, the score calculation unit 30, and the classification unit 40 have the same configurations and functions as the label generation unit 20, the score calculation unit 30, and the classification unit 40 included in the software analysis system 1 of the above embodiment.
  • the information stored in the keyword list storage unit 12 is the same as that in the software analysis system 1 of the above embodiment.
  • the software analysis system 1A of the modification is different from the software analysis system 1 of the above-described embodiment in that the specifying unit 50 and the transmission unit 60 are provided, and information stored in the application information storage unit 11A.
  • description of the same configuration and function as those of the software analysis system 1 of the above embodiment will be omitted, and differences will be described.
  • the identification unit 50 compares the label generated by the label generation unit 20 with the classification result of the classification unit 40 and identifies contradictory applications. For example, in FIG. 2, among the information stored for the application with the application ID “AP001”, the label corresponding to “privacy information, GPS information” is “with reference”, and the classification result is “without reference”. This indicates that the application accesses the GPS information of the user according to the result of the code analysis of the application specified by the application ID “AP001”. Moreover, according to the analysis result of the explanatory text of the application, it is indicated that the explanatory text does not mention that the application accesses the user's GPS information.
  • the specifying unit 50 specifies an application in which the “label” does not match the “classification result”.
  • FIG. 10 is a diagram illustrating an example of a configuration of information stored in the application information storage unit 11A according to the modification.
  • “flag, ON” is stored in association with “application ID, AP001”, “privacy information, GPS information”, “label, with mention”, “classification result, with no mention”. . This means that although the application with the application ID “AP001” accesses the GPS information, it is not described in the explanatory text and is presumed to be a malicious application.
  • the transmitting unit 60 transmits a warning that the application is estimated to be a malicious application to the mobile terminal of the user. For example, the transmission unit 60 transmits a notification that the application is estimated to be a malicious application and privacy information accessed by the application.
  • FIG. 11 is a flowchart showing an example of the flow of processing executed by the software analysis system 1A according to the modification.
  • the identifying unit 50 reads the corresponding label and the classification result from the application information storage unit 11A (step S111). Then, the specifying unit 50 determines whether or not there is a contradiction between the read label and the classification result (step S112). For example, when the label is “referenced” and the classification result is “not mentioned”, the identifying unit 50 determines that there is a contradiction. If the label is “no mention” and the classification result is “no mention”, the identifying unit 50 determines that there is no contradiction.
  • step S112 If it is determined that there is a contradiction (step S112, Yes), the identifying unit 50 determines that the application is a malicious application (step S113). Then, the identifying unit 50 turns on a flag indicating that the application is a malicious application in association with the application information stored in the application information storage unit 11A. On the other hand, when it determines with no contradiction (step S112, No), the specific
  • the transmitting unit 60 transmits a warning to the user who has downloaded the application identified by the identifying unit 50 as a malicious application (step S114). Thereby, the process of the specific
  • the software analysis system 1A is an application that has been assigned the first label (“with reference”) by the label generation unit and is classified as an application that does not mention the permission by the classification unit. Is further provided with a specifying unit that specifies a malicious application. For this reason, the software analysis system 1A can easily identify an application having a contradiction between the result of code analysis and the result of text analysis and extract it as a malignant application.
  • the software analysis system 1A is an application that has been assigned the first label (“with reference”) by the label generation unit and is classified as an application that does not mention permission by the classification unit.
  • the information processing apparatus When installed in the mobile terminal, the information processing apparatus further includes a transmission unit that transmits warning information. For this reason, it is possible to warn a user who downloads an application using a mobile terminal that there is a possibility of a malicious application.
  • the software analysis system is configured to be connected to an information terminal or the like of an application creator who submits an application via a network, and to receive and analyze an application transmitted from the information terminal. Also good.
  • the score calculation unit may not be configured to perform score calculation or keyword extraction. That is, the classification unit may perform classification of a new application using keywords already stored in the keyword list storage unit 12. With this configuration, it is not necessary to update the keyword list every time a new application is received, and the processing of the classification unit can be executed quickly.
  • the software analysis system 1 may be configured to be connected to a server of one or more providers that provide application services via a network. Then, a new application may be appropriately sent from the server of the provider to the software analysis system 1 and may be configured to be analyzed.
  • each component of each illustrated device is functionally conceptual and does not necessarily need to be physically configured as illustrated.
  • the specific form of distribution / integration of each device is not limited to that shown in the figure, and all or a part thereof may be functionally or physically distributed or arbitrarily distributed in arbitrary units according to various loads or usage conditions.
  • the keyword list storage unit 12 may be configured to be stored in a storage device external to the software analysis system 1 so that another server can identify a malignant application using the keyword.
  • each processing function performed in each device may be realized by a CPU and a program analyzed and executed by the CPU, or may be realized as hardware by wired logic.
  • program It is also possible to create a program in which the processing executed by the software analysis systems 1 and 1A described in the above embodiment is described in a language that can be executed by a computer.
  • a program in which processing executed by the software analysis systems 1 and 1A according to the embodiment is described in a language that can be executed by a computer.
  • the same effect as the above-described embodiment can be obtained by the computer executing the program.
  • such a program may be recorded on a computer-readable recording medium, and the program recorded on the recording medium may be read by the computer and executed to execute the same processing as in the above embodiment.
  • a computer that executes a program that realizes the same function as the software analysis systems 1 and 1A will be described.
  • FIG. 12 is a diagram illustrating a computer 1000 that executes a software analysis program.
  • the computer 1000 includes, for example, a memory 1010, a CPU (Central Processing Unit) 1020, a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, A network interface 1070, and these units are connected by a bus 1080.
  • a memory 1010 a central processing unit
  • CPU Central Processing Unit
  • the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM (Random Access Memory) 1012 as illustrated in FIG.
  • the ROM 1011 stores a boot program such as BIOS (Basic Input Output System).
  • BIOS Basic Input Output System
  • the hard disk drive interface 1030 is connected to the hard disk drive 1090 as illustrated in FIG.
  • the disk drive interface 1040 is connected to the disk drive 1041 as illustrated in FIG.
  • a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1041.
  • the serial port interface 1050 is connected to a mouse 1110 and a keyboard 1120, for example, as illustrated in FIG.
  • the video adapter 1060 is connected to a display 1130, for example, as illustrated in FIG.
  • the hard disk drive 1090 stores, for example, an OS (Operating System) 1091, an application program 1092, a program module 1093, and program data 1094. That is, the above program is stored in, for example, the hard disk drive 1090 as a program module in which a command to be executed by the computer 1000 is described.
  • OS Operating System
  • various data described in the above embodiment is stored as program data in, for example, the memory 1010 or the hard disk drive 1090.
  • the CPU 1020 reads the program module 1093 and the program data 1094 stored in the memory 1010 and the hard disk drive 1090 to the RAM 1012 as necessary, and executes various processing procedures.
  • the program module 1093 and the program data 1094 related to the program are not limited to being stored in the hard disk drive 1090, but may be stored in, for example, a removable storage medium and read out by the CPU 1020 via the disk drive or the like. .
  • the program module 1093 and the program data 1094 related to the program are stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.), and via the network interface 1070. It may be read by the CPU 1020.
  • LAN Local Area Network
  • WAN Wide Area Network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Virology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Stored Programmes (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

複数のアプリケーションのコードに基づき、複数のアプリケーションがパーミッションにより所定のプライバシー情報にアクセスするか否かを判定し、アクセスすると判定されたアプリケーションに第1のラベル、アクセスしないと判定されたアプリケーションに第2のラベルを付与する。第2のラベルを付与されたアプリケーションの説明文のテキストよりも、第1のラベルを付与されたアプリケーションの説明文のテキストに多く含まれる単語のスコアが高くなるよう単語各々のスコアを算出し、スコアが上位から所定数の単語を抽出する。抽出した単語が説明文のテキストに含まれるアプリケーションをパーミッションに言及するアプリケーションとして分類する。

Description

ソフトウェア解析システム、ソフトウェア解析方法およびソフトウェア解析プログラム
 本発明は、ソフトウェア解析システム、ソフトウェア解析方法およびソフトウェア解析プログラムに関する。
 スマートフォン等のモバイル端末の普及に伴い、ユーザがモバイル端末上でダウンロードして利用できるアプリケーションが広く利用されるようになっている。Android(登録商標)やiOS(登録商標)等が搭載されたモバイル端末で動作するアプリケーションは、ユーザのプライバシー情報を処理することが多い。ユーザのプライバシー情報は、モバイル端末に内蔵されたセンサ等のハードウェアが取得するか、または、ユーザ自身がモバイル端末に入力する。プライバシー情報とはたとえば、ユーザの位置情報、モバイル端末の個体識別番号、アドレス帳などユーザ個人に紐付く情報である。
 モバイル端末で動作するアプリケーションはプライバシー情報を処理する際、当該プライバシー情報を適切に取り扱うことが求められる。また、モバイル端末で動作するアプリケーションは、どのようなプライバシー情報にアクセスするか、ユーザに開示することが求められる。
 かかる要求を実現するため、多くのモバイル端末プラットフォームが、パーミッションと呼ばれる機能を導入している。パーミッションとは、プライバシー情報へのアクセスを制御するために導入された機能である。
 たとえば、位置情報を使用するアプリケーションは、当該アプリケーションがモバイル端末にインストールされるときに、ユーザに対して位置情報のパーミッションを使用する許可を求める。ユーザがパーミッションの使用を許可すると、当該アプリケーションがモバイル端末にインストールされる。ユーザがパーミッションの使用を許可しない場合、当該アプリケーションはモバイル端末にインストールされない。パーミッションを利用することにより、ユーザは、アプリケーションが使用する可能性があるプライバシー情報を予め知ることができる。
R. Pandita, X. Xiao, W. Yang, W. Enck, and T. Xie, "WHYPER: Towards Automating Risk Assessment of Mobile Applications", in Proc. of the 22nd USENIX Security Symposium, pp. 527-542, 2013 渡邉 卓弥、秋山 満昭、酒井 哲也、鷲崎 弘宜、森 達哉、「Androidアプリの説明文とプライバシー情報アクセスの相関分析」、コンピュータセキュリティシンポジウム2014論文集、vol. 2014, No. 2, pp. 590-597, Oct 2014
 しかしながら、従来のパーミッションの機能によって提供される情報は、多くの場合ユーザに注意されない(非特許文献1,2参照)。また、パーミッション機能によって提供される情報は、専門的な知識がなければ理解しにくい。また、パーミッション機能によって提供される情報は、ユーザが直感的に把握しにくい。このため、ユーザが気づかないうちに、アプリケーションがプライバシー情報を取得してしまうことも考えられる。
 かかる状況に鑑み、アプリケーションの説明文中にプライバシー情報にアクセスすることが記載されているか否かを自動判定する技術が提案されている。アプリケーションの説明文はあらゆるマーケットに設定されており、アプリケーションを検索する際の検索対象ともなる。たとえば、非特許文献1は、モバイル端末のアプリケーションの説明文のテキスト(以下、説明文テキストまたはテキストとも呼ぶ。)を解析して、テキスト中のどの部分がプライバシー情報へのアクセスに相当するか、特定する技術を提案している。また、非特許文献2は、テキスト解析とアプリケーションのコード解析とを組み合わせて、コード解析から示唆されるプライバシー情報へのアクセスと、テキスト中の記述とに矛盾がある場合に矛盾があるアプリケーションを抽出する技術を提案している。
 しかし、非特許文献1,2に記載の技術における説明文の解析では、人間が予めアプリケーションの説明文テキストを読み、特定のプライバシー情報にアクセスする旨の記載があるかないかを解読する。そして、解読結果に基づき、アプリケーションにラベルを付与する。しかし、プライバシー情報は多岐にわたり、機械学習等の統計的方法でテキストの分類を試みる場合、大量のテキストを準備してラベルを付与することになる。一般的に、手動でデータにラベルを付与するという作業はコストがかかる。また、大規模なデータに対して手動でラベルを付与するという手法はスケーラビリティに欠ける。
 開示の技術は、上記に鑑みてなされたものであって、アプリケーションのコードおよび説明文に基づき、アプリケーションによるユーザのプライバシー情報へのアクセスの有無がユーザに対して開示されているか否かを自動的に解析することを可能にするソフトウェア解析システム、ソフトウェア解析方法およびソフトウェア解析プログラムを提供することを目的とする。
 開示するソフトウェア解析システム、ソフトウェア解析方法およびソフトウェア解析プログラムは、複数のアプリケーションのコードに基づき、当該複数のアプリケーションがパーミッションにより所定のプライバシー情報にアクセスするか否かを判定する。そして、開示するソフトウェア解析システム、ソフトウェア解析方法およびソフトウェア解析プログラムは、所定のプライバシー情報にアクセスすると判定されたアプリケーションに第1のラベルを付与し、所定のプライバシー情報にアクセスしないと判定されたアプリケーションに第1のラベルと異なる第2のラベルを付与する。開示するソフトウェア解析システム、ソフトウェア解析方法およびソフトウェア解析プログラムは、第2のラベルを付与されたアプリケーションの説明文のテキストよりも、第1のラベルを付与されたアプリケーションの説明文のテキストに多く含まれる単語のスコアが高くなるよう複数のアプリケーションの説明文に含まれる単語各々のスコアを算出し、パーミッションに対応付けて、算出されたスコアが上位から所定数の単語を、複数のアプリケーションの説明文から抽出する。さらに、開示するソフトウェア解析システム、ソフトウェア解析方法およびソフトウェア解析プログラムは、抽出した単語が説明文のテキストに含まれるアプリケーションをパーミッションに言及するアプリケーションとして分類し、抽出した単語が説明文のテキストに含まれないアプリケーションをパーミッションに言及しないアプリケーションとして分類することを特徴とする。
 開示するソフトウェア解析システム、ソフトウェア解析方法およびソフトウェア解析プログラムは、アプリケーションのコードおよび説明文に基づき、アプリケーションによるユーザのプライバシー情報へのアクセスの有無がユーザに対して開示されているか否かを自動的に解析することを可能にするという効果を奏する。
図1は、実施形態に係るソフトウェア解析システムの構成の一例を示す概略図である。 図2は、アプリ情報記憶部に格納される情報の構成の一例を説明するための図である。 図3は、キーワードリスト記憶部に格納される情報の構成の一例を説明するための図である。 図4は、実施形態に係るソフトウェア解析システムが実行する処理の流れの一例を示すフローチャートである。 図5は、実施形態に係るラベル生成処理の流れの一例を示すフローチャートである。 図6は、実施形態に係るスコア算出処理(キーワード抽出処理)の流れの一例を示すフローチャートである。 図7は、実施形態に係る分類処理の流れの一例を示すフローチャートである。 図8は、実施形態に係るソフトウェア解析システムが実行する処理の流れの一例を説明するためのシーケンス図である。 図9は、変形例に係るソフトウェア解析システムの構成の一例を示す概略図である。 図10は、変形例に係るアプリ情報記憶部に格納される情報の構成の一例を示す図である。 図11は、変形例に係るソフトウェア解析システムが実行する処理の流れの一例を示すフローチャートである。 図12は、実施形態に係るソフトウェア解析プログラムを実行するコンピュータを示す図である。
 以下に、開示するシステム、方法およびプログラムの実施形態を図面に基づいて詳細に説明する。なお、この実施形態によりこの発明が限定されるものではない。また、各実施形態は適宜組み合わせることができる。
[ソフトウェア解析システムの構成の一例]
 図1は、実施形態に係るソフトウェア解析システム1の構成の一例を示す概略図である。図1に示すソフトウェア解析システム1は、たとえば、ユーザがモバイル端末にアプリケーションをダウンロードするためにアクセスするダウンロードサービスの運営者が運用する、アプリケーションの事前審査を行うサーバである。なお、以下の記載中、「アプリケーション」は「アプリ」とも呼ぶ。
 ソフトウェア解析システム1は、記憶部10と、ラベル生成部20と、スコア算出部30と、分類部40と、を備える。
 記憶部10はたとえば、半導体メモリ素子や記憶装置である。例えば、半導体メモリ素子としては、VRAM(Video Random Access Memory)、RAM(Random Access Memory)、ROM(Read Only Memory)やフラッシュメモリ(flash memory)などを用いることができる。また、記憶装置としては、ハードディスク、光ディスクなどの記憶装置を用いることができる。
 記憶部10は、ソフトウェア解析システム1による解析処理の対象となるアプリケーションに関する情報を記憶する。また、記憶部10は、ソフトウェア解析システム1による解析処理の結果得られる情報を記憶する。
 記憶部10は、アプリ情報記憶部11と、キーワードリスト記憶部12と、を備える。図2は、アプリ情報記憶部11に格納される情報の構成の一例を説明するための図である。また、図3は、キーワードリスト記憶部12に格納される情報の構成の一例を説明するための図である。
 図2に示すように、アプリ情報記憶部11は、「アプリID」に対応付けて、「コード」と、「説明文テキスト」と、「プライバシー情報」と、「ラベル」と、「分類結果」と、を記憶する。
 「アプリID」はソフトウェア解析システム1の解析処理の対象となるアプリケーションを一意に識別するための識別子である。「コード」は、当該アプリケーションのコードである。たとえば、アプリケーションのソースコードである。「説明文テキスト」は、当該アプリケーションの説明文のテキストである。「プライバシー情報」は、パーミッションによりアプリケーションのアクセスが許可されるユーザのプライバシー情報の種類を示す。プライバシー情報としては、たとえば、GPS(Global Positioning System)情報や、カレンダー、カメラ機能、アドレス帳等がある。
 「ラベル」は、ソフトウェア解析システム1によるコード解析の結果にもとづき、ソフトウェア解析システム1が各アプリケーションに付与するラベルである。また、「ラベル」は、アプリケーションが所定のプライバシー情報にアクセスするか否かの判定結果を示す暫定的なラベルである。ラベルには、「言及あり」と「言及なし」の2種類がある。「言及あり」は、アプリケーションが所定のプライバシー情報にアクセスすることを示す情報がコード中に存在することを示す。また、「言及なし」は、アプリケーションが所定のプライバシー情報にアクセスすることを示す情報がコード中に存在しないことを示す。「分類結果」は、ソフトウェア解析システム1が、説明文テキストを解析して抽出したキーワードが、各アプリケーションの説明文テキストに含まれるか否かにもとづき、アプリケーションを分類した結果を示す。「分類結果」には、「言及あり」と「言及なし」の2種類がある。「言及あり」は、アプリケーションの説明文テキストにキーワードが含まれることを示す。「言及なし」は、アプリケーションの説明文テキストにキーワードが含まれないことを示す。「ラベル」および「分類結果」は、プライバシー情報各々に対応づけて格納される。なお、ラベルの生成処理および分類結果を得るための分類処理については後述する。なお、図2では、プライバシー情報とパーミッションとが一意に対応づけられることを前提として、ラベルおよび分類結果とプライバシー情報とを対応付けて記憶するが、プライバシー情報の代わりにパーミッションに対応づけて記憶するように構成してもよい。
 図2中、たとえば、アプリID「AP001」のアプリケーションに対応づけて、当該アプリケーションの説明文テキスト「~~~」と、対応するコード「~~~」と、が記憶されている。また、当該アプリケーションに対応づけて、当該アプリケーションが3種類のプライバシー情報各々にアクセスするか否かを示すラベルと分類結果とが記憶されている。「プライバシー情報、カレンダー」については、「ラベル、言及あり」が記憶されている。これは、コード解析によれば、アプリID「AP001」のアプリケーションはユーザのカレンダーにアクセスする、ということを示す。また図2中、アプリID「AP001」に対応付けて「プライバシー情報、アドレス帳」、「分類結果、言及なし」が記憶されている。これは、アプリID「AP001」で特定されるアプリケーションの説明文テキストには、プライバシー情報「アドレス帳」に対応するキーワードが含まれないことを示す。
 次に、図3を参照して、キーワードリスト記憶部12に記憶される情報について説明する。図3に示すように、キーワードリスト記憶部12は、「プライバシー情報」と、「機能(パーミッション)」と、「キーワード」と、を記憶する。「プライバシー情報」は、アプリ情報記憶部11に記憶される「プライバシー情報」と同様である。「機能(パーミッション)」は、対応するプライバシー情報へのアクセスを許可するパーミッションの名称である。パーミッションとはたとえばAndroid(登録商標)について規定されている「READ_CONTACTS」、「READ_CALENDER」などである。「キーワード」は、ソフトウェア解析システム1によりアプリケーションの説明文テキストから抽出されるキーワードである。キーワードを抽出する処理の詳細については後述する。
 図3の例では、「プライバシー情報、GPS情報」に対応づけて、「機能(パーミッション)、Location」と、「キーワード、gps, location, map」とが記憶されている。これは、パーミッション「Location」の機能によってアクセスが許可されるプライバシー情報は、GPS情報であることを示す。また、パーミッション「Location」に対応するキーワードとして「gps, location, map」の3つの単語が抽出されたことを示す。なお、図3の例では、各プライバシー情報および機能(パーミッション)に対応づけて3つのキーワードが記憶されている。ただし、各プライバシー情報および機能(パーミッション)に対応づけられるキーワードの数は3つに限定されない。
 図1に戻り、さらにソフトウェア解析システム1の構成の一例につき説明する。ラベル生成部20は、記憶部10に記憶されるアプリケーションの情報にもとづき、コード解析の結果、各アプリケーションがユーザのプライバシー情報にアクセスすると判定されたか否かを示すラベルを生成する。
 スコア算出部30は、ラベル生成部20により生成されたラベルを用いて、アプリケーションの説明文テキストを解析し、説明文テキストに含まれる単語各々のスコアを算出する。スコア算出部30は、パーミッションごとに各単語のスコアを算出する。スコア算出部30は、ラベル「言及なし」のアプリケーションの説明文のテキストよりも、ラベル「言及あり」のアプリケーションの説明文のテキストに多く含まれる単語のスコアが高くなるように、説明文テキストに含まれる単語各々のスコアを算出する。ただし、算出手法は特に限定されず、たとえば、オッズ比や適合性フィードバックを用いる手法を適用することができる。これらの手法を用いて、たとえば、ラベル「言及あり」のアプリケーションの総数、説明文のテキストが所定の単語を含むアプリケーションの総数、ラベル「言及あり」のアプリケーションのうち説明文のテキストが所定の単語を含むアプリケーションの総数等に基づきスコアを算出することができる。
 また、スコア算出部30が算出するスコアの算出手法は、ラベル「言及あり」のアプリケーションの説明文テキストに頻出する単語であって、ラベル「言及なし」のアプリケーションの説明文テキストにはほとんど出現しない単語ほど高い値となるように設定する。つまり、ラベル「言及あり」のアプリケーションの説明文テキストにおける出現頻度が、ラベル「言及なし」のアプリケーションの説明文テキストにおける出現頻度よりも高い単語ほどスコアが高くなるよう、スコアの算出手法を設定する。また、スコアの算出手法は、API(Application Programming Interface)を使用するアプリケーションの説明文テキストに頻出する単語であって、APIを使用していないアプリケーションの説明文テキストにはほとんど出現しない単語ほど高い値となるように設定する。
 スコア算出部30は、パーミッションに対応付けてスコアが高い順に上位所定数の単語を、パーミッションに対応するキーワードとして抽出する。キーワードとは、対応するプライバシー情報にアクセスするアプリケーションの説明文テキストに出現すると予想される単語である。スコア算出部30が抽出したキーワードは、プライバシー情報およびパーミッションに対応づけて、キーワードリスト記憶部12に記憶される。
 分類部40は、各アプリケーションの説明文テキストが、抽出されたキーワードを含むか否かを判定する。そして、分類部40は、キーワードを含む説明文テキストのアプリケーションを、「言及あり」のアプリケーションとして分類する。また、分類部40は、キーワードを含まない説明文テキストのアプリケーションを、「言及なし」のアプリケーションとして分類する。分類部40による分類結果は、各アプリケーションおよびプライバシー情報に対応づけて、アプリ情報記憶部11に記憶される。
[ソフトウェア解析システムによる解析処理の流れの一例]
 図4は、実施形態に係るソフトウェア解析システム1が実行する処理の流れの一例を示すフローチャートである。図4の処理の前提として、ソフトウェア解析システム1は予め、複数のアプリケーションに関する情報を取得し、記憶部10のアプリ情報記憶部11に記憶しているものとする。図4に示すように、ソフトウェア解析システム1による解析処理は、ラベル生成部20によるラベル生成(コード解析)(ステップS21)、スコア算出部30によるスコア算出(キーワード抽出)(ステップS22)、分類部40による分類(ステップS23)の各処理を含む。分類部40による分類が完了すると処理は終了する。以下、各部による処理の流れについて説明する。
[ラベル生成処理の流れの一例]
 ラベル生成部20は、アプリ情報記憶部11に記憶されるアプリケーションの情報にもとづき、各アプリケーションのラベルを生成する。図5は、実施形態に係るラベル生成処理の流れの一例を示すフローチャートである。図5に示すように、ラベル生成部20はまず、解析の対象として、1つのアプリケーションと、1つのプライバシー情報を選択する(ステップS51)。たとえば、ラベル生成部20は、アプリID「AP001」のアプリケーションを選択する。また、ラベル生成部20は、プライバシー情報としてカメラ機能を選択する。ラベル生成部20によるアプリケーションおよびプライバシー情報の選択の順序については、あらかじめ決定してソフトウェア解析システム1に記憶させておいてもよいし、選択するアプリケーションおよびプライバシー情報をユーザが指定するようにしてもよい。
 そして、ラベル生成部20は、選択したアプリケーションのコードをアプリ情報記憶部11から読み出す。アプリケーションのコードは、ソースコードが取得できる場合はソースコードを取得してアプリ情報記憶部11に記憶しておく。また、ソースコードが取得できない場合は、リバースエンジニアリング等の手法を用いて逆アセンブリしたコードをアプリ情報記憶部11に記憶しておく。
 次に、ラベル生成部20は、読み出したコード中に、パーミッションの宣言が含まれているか否かを判定する(ステップS52)。ラベル生成部20はたとえば、Android(登録商標)を用いたアプリケーションの場合であれば、AndroidManifest.xmlの中でパーミッションが宣言されているか否かを判定する。
 ラベル生成部20は、パーミッションが宣言されていると判定した場合(ステップS52、Yes)、次に、選択したプライバシー情報(すなわちパーミッション)に対応するAPIがコード中に含まれているか否かを判定する(ステップS53)。さらに、APIが含まれていると判定した場合(ステップS53、Yes)、ラベル生成部20は、コールグラフを解析して、当該APIが実際に呼び出し可能であるか否かを判定する(ステップS54)。そして、コールグラフを解析した結果、呼び出し可能と判定した場合(ステップS54、Yes)、ラベル生成部20は、当該アプリケーションにラベル「言及あり」を生成する(ステップS55)。
 他方、パーミッションが宣言されていないと判定した場合(ステップS52、No)には、ラベル生成部20は、当該アプリケーションに「言及なし」のラベルを付与する(ステップS56)。APIは含まれていないと判定した場合(ステップS53、No)およびコールグラフ解析から呼び出しできないと判定した場合(ステップS54、No)も同様に、ラベル生成部20は、「言及なし」のラベルを生成する。これによってラベル生成処理が終了する。生成されたラベルは、アプリケーションおよびプライバシー情報に対応づけて、アプリ情報記憶部11に記憶される。
 ラベル生成部20は、図5に示す処理を各アプリケーションおよびプライバシー情報について繰り返し実行することにより、複数のアプリケーションおよびプライバシー情報に対応するラベルを生成し、アプリ情報記憶部11に記憶する。
 なお、図5のように3段階の判定を経てラベルを付与するのは、コード中にパーミッションの宣言や対応するAPIがある場合でも、実際はプライバシー情報にアクセスしないコードとなっていることがあるからである。
[スコア算出処理(キーワード抽出処理)の流れの一例]
 スコア算出部30は、ラベルが付与されたアプリケーションおよびプライバシー情報を用いて、プライバシー情報にアクセスするアプリケーションを、説明文テキストに基づいて特定するためのキーワードを抽出する。
 図6は、実施形態に係るスコア算出処理(キーワード抽出処理)の流れの一例を示すフローチャートである。まず、スコア算出部30は、ラベル生成処理が終了した複数のアプリケーションに対応する説明文テキストを、アプリ情報記憶部11から読み出す(ステップS61)。そして、スコア算出部30は、パーミッションを選択する(ステップS62)。さらに、スコア算出部30は、読み出した説明文テキストを解析して、説明文テキストに含まれる単語を一つ選択する(ステップS63)。
 そして、スコア算出部30は、選択した単語のスコアを算出する(ステップS64)。以下に、適合フィードバックを用いてスコアを算出する例を説明する。一例として、スコア算出部30は、以下の式(1)を用いてスコアを算出する。式(1)は、総数N個(Nは自然数)のアプリケーションを解析対象とし、そのうち、i番目(iは、1以上N以下の自然数)のアプリケーションAに含まれる単語wのスコアを算出するための式である。
Figure JPOXMLDOC01-appb-M000002
 ただし、式(1)中、Rは、ラベル「言及あり」を付与されたアプリケーションの総数であり、rは単語wを説明文テキストに含みラベル「言及あり」を付与されたアプリケーションの総数である。また、Nは解析対象とするアプリケーションの総数であり、nは単語wを説明文テキストに含むアプリケーションの総数である。また、式(1)においては、分子および分母がゼロになることを避けるため、0.5を加算している。ただし、加算する値は0.5に限定されず、たとえば0.1でも0.6でもよい。
 スコア算出部30は次に、すべての単語のスコアを算出したか否かを判定する(ステップS65)。すべての単語のスコアを算出していないと判定した場合(ステップS65、No)、スコア算出部30は次に処理対象とする単語を選択する(ステップS66)。そして、処理はステップS64に戻る。他方、すべての単語のスコアを算出したと判定した場合(ステップS65、Yes)、スコア算出部30は、パーミッションごとに算出したスコアの降順に単語をソートし、上位所定数の単語を抽出する(ステップS67)。たとえば、スコア算出部30は、上位3個の単語を抽出する。ここで、抽出する単語の数を3とするのは、本発明者らの実験結果から、抽出する単語数を3とした場合に、最終的に良好な分類精度が得られているためである。ただし、抽出する単語数は他の数に設定してもよい。これによってスコア算出処理(キーワード抽出処理)が終了する。
 なお、上の例では、relevance weightを用いてスコアを算出する手法を採用した。しかし、スコアを算出するための式は上記の例に限定されない。スコアを算出するための式は、ある集合のアプリケーションに含まれやすく、他の集合のアプリケーションに含まれにくい、単語の性質を数値化することができればよい。
 たとえば、オッズ比をスコアとして採用することができる。まず、所定の単語がラベル「言及あり」のアプリケーションの集合に含まれる確率をp、ラベル「言及なし」のアプリケーションの集合に含まれる確率をqとする。そして、(p/(1-p))を(q/(1-q))で除してオッズ比を算出する。算出されるオッズ比が大きいほど、所定の単語がラベル「言及あり」のアプリケーションの集合に含まれやすく、ラベル「言及なし」のアプリケーションの集合に含まれにくいことを意味する。
 たとえば、単語「SNS」がラベル「言及あり」のアプリケーションの集合に含まれる確率pが0.9であり、ラベル「言及なし」のアプリケーションの集合に含まれる確率qが0.1であれば、上の式に基づいて算出されるオッズ比は、81となる。同様にして他の単語についてもオッズ比を算出しオッズ比をスコアとする。そして、スコアが高い方から順に単語を順位づけする。最後に、順位が上の単語から順に「言及あり」のアプリケーションの集合により含まれやすいキーワードとして抽出すればよい。
[分類処理の流れの一例]
 分類部40は、スコア算出部30が抽出したキーワードと、アプリケーションの説明文テキストに基づき、各アプリケーションがプライバシー情報にアクセスするか否かに基づきアプリケーションを分類する。図7は、実施形態に係る分類処理の流れの一例を示すフローチャートである。
 分類部40はまず、分類対象とするアプリケーションの説明文テキストを、アプリ情報記憶部11から読み出す。そして、分類部40は、当該説明文テキストに含まれるすべての単語を抽出する(ステップS71)。そして、分類部40は、スコア算出部30が抽出したキーワードと一致する単語が、説明文テキストから抽出された単語に含まれるか否かを判定する(ステップS72)。一致する単語が含まれると判定した場合(ステップS72、Yes)、分類部40は、当該アプリケーションを、キーワードに対応するパーミッションに「言及あり」のアプリケーションとして分類する(ステップS73)。ここで、分類「言及あり」は、キーワードに対応するパーミッションによりアクセスが許可されるプライバシー情報にアクセスするアプリケーションであると判定されたことを示す。他方、一致する単語が含まれないと判定した場合(ステップS72、No)、分類部40は、当該アプリケーションをキーワードに対応するパーミッションに「言及なし」のアプリケーションとして分類する(ステップS74)。ここで、分類「言及なし」は、キーワードに対応するパーミッションによりアクセスが許可されるプライバシー情報にアクセスしないアプリケーションであると判定されたことを示す。これで、分類処理は終了する。
 図8は、実施形態に係るソフトウェア解析システム1が実行する処理の流れの一例を説明するためのシーケンス図である。図8に示す処理は、図4乃至図7を参照して説明した処理の流れに対応する。
 図8に示すように、ソフトウェア解析システム1においては、まず、解析の対象とするアプリケーションの情報や説明文テキストが用意される(図8の(1))。たとえば、ソフトウェア解析システム1は、ネットワークを介して、アプリケーションのデータを取得し、記憶部10に記憶する。
 そして、ラベル生成部20は、記憶部10に記憶されたアプリケーションのコードを参照して(図8の(2))、当該コードの解析を実行する(図8の(3))。ラベル生成部20は、コード解析の結果にもとづきラベルを生成し、記憶部10に記憶する(図8の(4))。
 スコア算出部30は、記憶部10に記憶されたアプリケーションの情報とともにラベルを取得し(図8の(5))、スコア算出処理(キーワード生成処理)を実行する(図8の(6))。スコア算出部30の処理の結果、キーワードリストが生成され、記憶部10に記憶される。次に、分類部40は、記憶部10からキーワードリストを取得する(図8の(7))。さらに、分類部40は、記憶部10から、説明文テキストを取得する(図8の(8))。分類部40は、取得したキーワードリストと説明文テキストとに基づき、テキスト分類を実行する(図8の(9))。そして、分類部40の処理の結果得られる分類結果を、記憶部10に記憶する(図8の(10))。
[実施形態の効果]
 上記のように、上記実施形態に係るソフトウェア解析システムは、ラベル生成部と、スコア算出部と、分類部と、を備える。そして、ラベル生成部は、複数のアプリケーションのコードに基づき、当該複数のアプリケーションがパーミッションにより所定のプライバシー情報にアクセスするか否かを判定する。また、ラベル生成部は、所定のプライバシー情報にアクセスすると判定されたアプリケーションに第1のラベル(「言及あり」)を付与し、所定のプライバシー情報にアクセスしないと判定されたアプリケーションに第1のラベルと異なる第2のラベル(「言及なし」)を付与する。スコア算出部は、第2のラベルを付与されたアプリケーションの説明文のテキストよりも、第1のラベルを付与されたアプリケーションの説明文のテキストに多く含まれる単語のスコアが高くなるよう複数のアプリケーションの説明文に含まれる単語各々のスコアを算出し、パーミッションに対応付けて、算出されたスコアが上位から所定数の単語を、複数のアプリケーションの説明文から抽出する。分類部は、スコア算出部が抽出した単語が説明文のテキストに含まれるアプリケーションをパーミッションに言及するアプリケーションとして分類し、スコア算出部が抽出した単語が説明文のテキストに含まれないアプリケーションをパーミッションに言及しないアプリケーションとして分類する。
 このため、実施形態のソフトウェア解析システムは、コード解析と説明文のテキスト解析とを組み合わせて、アプリケーションによるプライバシー情報へのアクセスの有無と、アプリケーションの説明文におけるプライバシー情報へのアクセスの言及の有無を精度高く判定することができる。また、実施形態のソフトウェア解析システムは、説明文のテキスト解析を自動化することができ、テキスト解析の処理効率およびコストを向上させることができる。また、実施形態のソフトウェア解析システムは、プライバシー情報にアクセスするアプリケーションの説明文に特徴的に含まれる単語の抽出を自動的に実行することができ、処理効率およびコストを向上させることができる。このように、実施形態のソフトウェア解析システムによれば、アプリケーションのコードおよび説明文に基づき、アプリケーションによるユーザのプライバシー情報へのアクセスの有無がユーザに対して開示されているか否かを自動的に解析することができる。
[変形例]
 上記実施形態では、ソフトウェア解析システム1は、各アプリケーションのコードと説明文テキストとに基づき、当該アプリケーションが所定のプライバシー情報にアクセスするか否かを判定した。また、上記実施形態のソフトウェア解析システム1は、説明文テキストに基づき、各アプリケーションがプライバシー情報へのアクセスを説明文において開示しているか否かを分類した。以下で、変形例として、ソフトウェア解析システムが、新しく検知されたアプリケーションに対して解析をおこなって分類結果を取得し、分類結果に基づき、悪性アプリケーションと良性アプリケーションとを特定する例を説明する。変形例のソフトウェア解析システムはまた、新しく検知したアプリケーションが悪性アプリケーションである場合にユーザに警告するよう構成される。
 図9は、変形例に係るソフトウェア解析システム1Aの構成の一例を示す概略図である。図9に示すように、変形例に係るソフトウェア解析システム1Aは、記憶部10Aと、ラベル生成部20と、スコア算出部30と、分類部40と、特定部50と、送信部60と、を備える。また、記憶部10Aは、アプリ情報記憶部11Aと、キーワードリスト記憶部12と、を備える。ラベル生成部20、スコア算出部30、分類部40は、上記実施形態のソフトウェア解析システム1が備えるラベル生成部20、スコア算出部30、分類部40と同様の構成および機能である。また、キーワードリスト記憶部12に記憶される情報も上記実施形態のソフトウェア解析システム1の場合と同様である。変形例のソフトウェア解析システム1Aは、特定部50、送信部60を備える点と、アプリ情報記憶部11Aに記憶される情報とが、上記実施形態のソフトウェア解析システム1と異なる。以下の説明中、上記実施形態のソフトウェア解析システム1と同様の構成および機能については説明を省略し、相違する点について説明する。
 特定部50は、ラベル生成部20が生成したラベルと、分類部40の分類結果とを比較し、矛盾するアプリケーションを特定する。たとえば、図2中、アプリID「AP001」のアプリケーションについて記憶される情報中、「プライバシー情報、GPS情報」に対応するラベルは「言及あり」、分類結果は「言及なし」となっている。これは、アプリID「AP001」で特定されるアプリケーションのコード解析の結果によれば、当該アプリケーションはユーザのGPS情報にアクセスすることを示す。また、当該アプリケーションの説明文テキストの解析の結果によれば、当該アプリケーションがユーザのGPS情報にアクセスすることについて説明文では言及されていないことを示す。すなわち、アプリID「AP001」のアプリケーションは、ユーザのプライバシー情報である「GPS情報」にアクセスするアプリケーションであるにも関わらず、ユーザは説明文を読んだだけではそのことが分からない状態で配布されるアプリケーションである。特定部50は、このように、「ラベル」と「分類結果」とが一致しないアプリケーションを特定する。
 特定部50が特定したアプリケーションについては、アプリ情報記憶部11Aに悪性であることを示すフラグを記憶させる。図10は、変形例に係るアプリ情報記憶部11Aに格納される情報の構成の一例を示す図である。図10の例では、「アプリID、AP001」、「プライバシー情報、GPS情報」、「ラベル、言及あり」、「分類結果、言及なし」に対応づけて、「フラグ、ON」が記憶されている。これは、アプリID「AP001」のアプリケーションはGPS情報にアクセスするにもかかわらず、その旨を説明文に記載しておらず、悪性アプリケーションと推定されることを意味する。
 送信部60は、特定部50により悪性アプリケーションと特定されたアプリケーションをユーザがダウンロードしようとする際に、当該アプリケーションが悪性アプリケーションと推定される旨の警告を当該ユーザのモバイル端末に送信する。送信部60はたとえば、悪性アプリケーションと推定される旨と、当該アプリケーションによりアクセスされるプライバシー情報と、の通知を送信する。
 図11は、変形例に係るソフトウェア解析システム1Aが実行する処理の流れの一例を示すフローチャートである。まず、特定部50は、対応するラベルと、分類結果とを、アプリ情報記憶部11Aから読み出す(ステップS111)。そして、特定部50は、読み出したラベルと分類結果との間に矛盾があるか否かを判定する(ステップS112)。たとえば、ラベルが「言及あり」、分類結果が「言及なし」の場合、特定部50は、矛盾ありと判定する。また、ラベルが「言及なし」、分類結果が「言及なし」の場合、特定部50は、矛盾なしと判定する。
 矛盾ありと判定した場合(ステップS112、Yes)、特定部50は、当該アプリケーションを悪性アプリと判定する(ステップS113)。そして、特定部50は、アプリ情報記憶部11Aに記憶される当該アプリケーションの情報に対応づけて、悪性アプリケーションである旨を示すフラグをONにする。他方、矛盾なしと判定した場合(ステップS112、No)、特定部50は処理を終了する。
 そして、送信部60は、特定部50が悪性アプリケーションと特定したアプリケーションをダウンロードしたユーザに対して警告を送信する(ステップS114)。これによって、変形例における特定部50および送信部60の処理が終了する。
[変形例の効果]
 このように、変形例に係るソフトウェア解析システム1Aは、ラベル生成部により第1のラベル(「言及あり」)を付与されたアプリケーションであって、分類部によりパーミッションに言及しないアプリケーションに分類されたアプリケーションを、悪性アプリケーションとして特定する特定部を、さらに備える。このため、ソフトウェア解析システム1Aは、コード解析の結果とテキスト解析の結果とに矛盾があるアプリケーションを容易に特定して、悪性アプリケーションとして抽出することができる。
 また、変形例に係るソフトウェア解析システム1Aは、ラベル生成部により第1のラベル(「言及あり」)を付与されたアプリケーションであって、分類部によりパーミッションに言及しないアプリケーションに分類されたアプリケーションが、モバイル端末にインストールされる際に、警告情報を送信する送信部をさらに備える。このため、モバイル端末を利用してアプリケーションをダウンロードするユーザに、悪性アプリケーションの可能性があることを警告することができる。
(その他の実施形態)
 これまで本発明の実施形態について説明したが、本発明は上述した実施形態以外にも、その他の実施形態にて実施されてもよい。以下に、その他の実施形態を説明する。
 上記実施形態では、予めソフトウェア解析システム1に1以上のアプリケーションの情報が記憶されているものとした。しかし、これに限定されず、ソフトウェア解析システムは、ネットワークを介してアプリケーションを提出するアプリケーション作成者の情報端末等と接続され、当該情報端末から送信されるアプリケーションを受信し解析するように構成してもよい。この場合、特定部50による処理の結果を、送信部60がアプリケーション作成者の情報端末に送信するように構成してもよい。また、この場合、スコア算出部によるスコアの算出やキーワードの抽出は実行しないように構成してもよい。すなわち、分類部は、すでにキーワードリスト記憶部12に記憶されているキーワードを用いて、新しいアプリケーションの分類を実行するものとしてもよい。このように構成すれば、新しいアプリケーションが受信されるたびに、キーワードリストを更新する必要がなく、分類部の処理を迅速に実行することができる。
 また、ソフトウェア解析システム1は、ネットワークを介してアプリケーションサービスを提供する1以上の事業者のサーバと接続されるように構成してもよい。そして、当該事業者のサーバからソフトウェア解析システム1に対して、新しいアプリケーションが適宜送付され、解析対象となるように構成してもよい。
[システム構成等]
 図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、キーワードリスト記憶部12をソフトウェア解析システム1の外部の記憶装置に記憶するように構成して他のサーバがキーワードを利用して悪性アプリケーションを特定できるように構成してもよい。
 さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
 また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
 また、上記実施の形態において説明したソフトウェア解析システム1,1Aが実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。例えば、実施形態に係るソフトウェア解析システム1,1Aが実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。この場合、コンピュータがプログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかるプログラムをコンピュータが読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませて実行することにより上記実施形態と同様の処理を実現してもよい。以下に、ソフトウェア解析システム1,1Aと同様の機能を実現するプログラムを実行するコンピュータの一例を説明する。
 図12は、ソフトウェア解析プログラムを実行するコンピュータ1000を示す図である。図12に例示するように、コンピュータ1000は、例えば、メモリ1010と、CPU(Central Processing Unit)1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有し、これらの各部はバス1080によって接続される。
 メモリ1010は、図12に例示するように、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、図12に例示するように、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、図12に例示するように、ディスクドライブ1041に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1041に挿入される。シリアルポートインタフェース1050は、図12に例示するように、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、図12に例示するように、例えばディスプレイ1130に接続される。
 ここで、図12に例示するように、ハードディスクドライブ1090は、例えば、OS(Operating System)1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、上記のプログラムは、コンピュータ1000によって実行される指令が記述されたプログラムモジュールとして、例えばハードディスクドライブ1090に記憶される。
 また、上記実施形態で説明した各種データは、プログラムデータとして、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出し、各種処理手順を実行する。
 なお、プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限られず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ等を介してCPU1020によって読み出されてもよい。あるいは、プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 1,1A ソフトウェア解析システム
 10,10A 記憶部
 11,11A アプリ情報記憶部
 12 キーワードリスト記憶部
 20 ラベル生成部
 30 スコア算出部
 40 分類部
 50 特定部
 60 送信部

Claims (8)

  1.  複数のアプリケーションのコードに基づき、当該複数のアプリケーションがパーミッションにより所定のプライバシー情報にアクセスするか否かを判定し、所定のプライバシー情報にアクセスすると判定されたアプリケーションに第1のラベルを付与し、所定のプライバシー情報にアクセスしないと判定されたアプリケーションに前記第1のラベルと異なる第2のラベルを付与するラベル生成部と、
     前記第2のラベルを付与されたアプリケーションの説明文のテキストよりも、前記第1のラベルを付与されたアプリケーションの説明文のテキストに多く含まれる単語のスコアが高くなるよう前記複数のアプリケーションの説明文に含まれる単語各々のスコアを算出し、前記パーミッションに対応付けて、算出されたスコアが上位から所定数の単語を、前記複数のアプリケーションの説明文から抽出するスコア算出部と、
     前記スコア算出部が抽出した単語が説明文のテキストに含まれるアプリケーションを前記パーミッションに言及するアプリケーションとして分類し、前記スコア算出部が抽出した単語が説明文のテキストに含まれないアプリケーションを前記パーミッションに言及しないアプリケーションとして分類する分類部と、
     を備えるソフトウェア解析システム。
  2.  前記ラベル生成部により前記第1のラベルを付与されたアプリケーションであって、前記分類部により前記パーミッションに言及しないアプリケーションに分類されたアプリケーションを、悪性アプリケーションとして特定する特定部を、さらに備える請求項1に記載のソフトウェア解析システム。
  3.  前記ラベル生成部により前記第1のラベルを付与されたアプリケーションであって、前記分類部により前記パーミッションに言及しないアプリケーションに分類されたアプリケーションが、モバイル端末にインストールされる際に、警告情報を送信する送信部をさらに備える請求項1または2に記載のソフトウェア解析システム。
  4.  前記スコア算出部が抽出した単語と、前記パーミッションと、を対応づけて記憶する記憶部をさらに備え、
     前記分類部は、新しいアプリケーションが検知されると、前記記憶部に前記パーミッションに対応付けて記憶される単語にもとづき、当該アプリケーションを、前記パーミッションに言及するアプリケーションおよび前記パーミッションに言及しないアプリケーションのいずれかに分類する請求項1から3のいずれか1項に記載のソフトウェア解析システム。
  5.  前記スコア算出部は、少なくとも、前記第1のラベルを付与されたアプリケーションの総数、説明文のテキストが所定の単語を含むアプリケーションの総数、前記第1のラベルを付与されたアプリケーションのうち前記説明文のテキストが前記所定の単語を含むアプリケーションの総数に基づき、前記所定の単語のスコアを算出する請求項1から4のいずれか1項に記載のソフトウェア解析システム。
  6.  前記スコア算出部は、式(1)に基づいて、前記単語のスコアを算出する請求項1から5のいずれか1項に記載のソフトウェア解析システム。
    Figure JPOXMLDOC01-appb-M000001
    (式(1)中、wはアプリケーションA(iは1以上N以下の自然数)に含まれる単語であり、Rは前記第1のラベルを付与されたアプリケーションの総数であり、rは前記複数のアプリケーションのうち単語wを含むアプリケーションの総数であり、Nは前記複数のアプリケーションの総数であり、nは単語wを含むアプリケーションの総数である。)
  7.  複数のアプリケーションのコードに基づき、当該複数のアプリケーションがパーミッションにより所定のプライバシー情報にアクセスするか否かを判定し、所定のプライバシー情報にアクセスすると判定されたアプリケーションに第1のラベルを付与し、所定のプライバシー情報にアクセスしないと判定されたアプリケーションに前記第1のラベルと異なる第2のラベルを付与するラベル生成工程と、
     前記第2のラベルを付与されたアプリケーションの説明文のテキストよりも、前記第1のラベルを付与されたアプリケーションの説明文のテキストに多く含まれる単語のスコアが高くなるよう前記複数のアプリケーションの説明文に含まれる単語各々のスコアを算出し、前記パーミッションに対応付けて、算出されたスコアが上位から所定数の単語を、前記複数のアプリケーションの説明文から抽出するスコア算出工程と、
     前記スコア算出工程において抽出した単語が説明文のテキストに含まれるアプリケーションを前記パーミッションに言及するアプリケーションとして分類し、前記スコア算出工程において抽出した単語が説明文のテキストに含まれないアプリケーションを前記パーミッションに言及しないアプリケーションとして分類する分類工程と、
     を備えるソフトウェア解析方法。
  8.  複数のアプリケーションのコードに基づき、当該複数のアプリケーションがパーミッションにより所定のプライバシー情報にアクセスするか否かを判定し、所定のプライバシー情報にアクセスすると判定されたアプリケーションに第1のラベルを付与し、所定のプライバシー情報にアクセスしないと判定されたアプリケーションに前記第1のラベルと異なる第2のラベルを付与するラベル生成手順と、
     前記第2のラベルを付与されたアプリケーションの説明文のテキストよりも、前記第1のラベルを付与されたアプリケーションの説明文のテキストに多く含まれる単語のスコアが高くなるよう前記複数のアプリケーションの説明文に含まれる単語各々のスコアを算出し、前記パーミッションに対応付けて、算出されたスコアが上位から所定数の単語を、前記複数のアプリケーションの説明文から抽出するスコア算出手順と、
     前記スコア算出手順において抽出した単語が説明文のテキストに含まれるアプリケーションを前記パーミッションに言及するアプリケーションとして分類し、前記スコア算出手順において抽出した単語が説明文のテキストに含まれないアプリケーションを前記パーミッションに言及しないアプリケーションとして分類する分類手順と、
     をコンピュータに実行させるためのソフトウェア解析プログラム。
PCT/JP2016/069881 2015-07-13 2016-07-05 ソフトウェア解析システム、ソフトウェア解析方法およびソフトウェア解析プログラム WO2017010350A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP16824330.1A EP3293664B1 (en) 2015-07-13 2016-07-05 Software analysis system, software analysis method, and software analysis program
CN201680039655.7A CN107735792B (zh) 2015-07-13 2016-07-05 软件分析系统、软件分析方法和记录介质
US15/574,199 US10366236B2 (en) 2015-07-13 2016-07-05 Software analysis system, software analysis method, and software analysis program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015139910A JP6437892B2 (ja) 2015-07-13 2015-07-13 ソフトウェア解析システム、ソフトウェア解析方法およびソフトウェア解析プログラム
JP2015-139910 2015-07-13

Publications (1)

Publication Number Publication Date
WO2017010350A1 true WO2017010350A1 (ja) 2017-01-19

Family

ID=57756989

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/069881 WO2017010350A1 (ja) 2015-07-13 2016-07-05 ソフトウェア解析システム、ソフトウェア解析方法およびソフトウェア解析プログラム

Country Status (5)

Country Link
US (1) US10366236B2 (ja)
EP (1) EP3293664B1 (ja)
JP (1) JP6437892B2 (ja)
CN (1) CN107735792B (ja)
WO (1) WO2017010350A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10891380B1 (en) * 2017-03-21 2021-01-12 Mcafee, Llc Framework to quantify deviations in app permissions using application description
US20190156024A1 (en) * 2017-11-20 2019-05-23 Somansa Co., Ltd. Method and apparatus for automatically classifying malignant code on basis of malignant behavior information
CN109241281B (zh) * 2018-08-01 2022-09-23 百度在线网络技术(北京)有限公司 软件失效原因生成方法、装置及设备
JP7062581B2 (ja) * 2018-12-07 2022-05-06 Kddi株式会社 プライバシーポリシー検証装置、コンピュータプログラム及びプライバシーポリシー検証方法
CN112199506B (zh) * 2020-11-10 2021-08-24 支付宝(杭州)信息技术有限公司 一种应用程序的信息检测方法、装置及设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130333039A1 (en) * 2012-06-07 2013-12-12 Mcafee, Inc. Evaluating Whether to Block or Allow Installation of a Software Application

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9043919B2 (en) * 2008-10-21 2015-05-26 Lookout, Inc. Crawling multiple markets and correlating
JP5382651B2 (ja) * 2009-09-09 2014-01-08 独立行政法人情報通信研究機構 単語対取得装置、単語対取得方法、およびプログラム
JP5452192B2 (ja) * 2009-12-02 2014-03-26 Kddi株式会社 アクセス制御システム、アクセス制御方法およびプログラム
US9215548B2 (en) * 2010-09-22 2015-12-15 Ncc Group Security Services, Inc. Methods and systems for rating privacy risk of applications for smart phones and other mobile platforms
CN103136472B (zh) * 2011-11-29 2016-08-31 腾讯科技(深圳)有限公司 一种防应用程序窃取隐私的方法及移动设备
CN102867143B (zh) * 2012-08-22 2015-10-21 中国科学技术大学 一种恶意应用程序的快速过滤方法
CN104346566A (zh) * 2013-07-31 2015-02-11 腾讯科技(深圳)有限公司 检测隐私权限风险的方法、装置、终端、服务器及系统
CN103793650A (zh) * 2013-12-02 2014-05-14 北京邮电大学 Android应用程序的静态分析方法及装置
CN104462971B (zh) * 2014-12-17 2017-10-03 北京奇虎科技有限公司 根据应用程序声明特征识别恶意应用程序的方法和装置
CN104462970B (zh) * 2014-12-17 2017-06-16 中国科学院软件研究所 一种基于进程通信的Android应用程序权限滥用检测方法
CN104517054B (zh) * 2014-12-25 2017-04-12 北京奇虎测腾科技有限公司 一种检测恶意apk的方法、装置、客户端和服务器
CN104504337A (zh) * 2014-12-31 2015-04-08 中国人民解放军理工大学 一种安卓数据泄露的恶意应用检测方法
US20160335432A1 (en) * 2015-05-17 2016-11-17 Bitdefender IPR Management Ltd. Cascading Classifiers For Computer Security Applications

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130333039A1 (en) * 2012-06-07 2013-12-12 Mcafee, Inc. Evaluating Whether to Block or Allow Installation of a Software Application

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
See also references of EP3293664A4 *
TAKUYA WATANABE ET AL.: "Analyzing the Inconsistency between Words and Actions of Android Apps", CSS2014 COMPUTER SECURITY SYMPOSIUM 2014 RONBUNSHU IPSJ SYMPOSIUM SERIES, vol. 2014, no. 2, October 2014 (2014-10-01), pages 590 - 597, XP055348400 *

Also Published As

Publication number Publication date
JP2017021655A (ja) 2017-01-26
EP3293664A1 (en) 2018-03-14
EP3293664B1 (en) 2019-06-12
CN107735792B (zh) 2020-12-29
CN107735792A (zh) 2018-02-23
EP3293664A4 (en) 2019-01-02
US10366236B2 (en) 2019-07-30
US20180137281A1 (en) 2018-05-17
JP6437892B2 (ja) 2018-12-12

Similar Documents

Publication Publication Date Title
WO2017010350A1 (ja) ソフトウェア解析システム、ソフトウェア解析方法およびソフトウェア解析プログラム
JP5992622B2 (ja) 悪意あるアプリケーション診断装置及び方法
Cen et al. A probabilistic discriminative model for android malware detection with decompiled source code
WO2018072071A1 (zh) 知识图谱构建系统及方法
Gao et al. Android malware detection via graphlet sampling
AU2016355767A1 (en) Order clustering method and device, and malicious information rejecting method and device
TWI682287B (zh) 知識圖譜產生裝置、方法及其電腦程式產品
US20200159925A1 (en) Automated malware analysis that automatically clusters sandbox reports of similar malware samples
CN112136123A (zh) 表征文件以进行相似性搜索
CN108694324B (zh) 一种信息泄露监控方法以及装置
Huang et al. Open source intelligence for malicious behavior discovery and interpretation
KR20190031030A (ko) 바이너리 파일에 기초하여 오픈소스 소프트웨어 패키지를 식별하는 방법 및 시스템
US11797617B2 (en) Method and apparatus for collecting information regarding dark web
US20240231808A9 (en) Software Composition Analysis on Target Source Code
US11080300B2 (en) Using relation suggestions to build a relational database
JP2018194900A (ja) 情報処理装置、情報処理プログラムおよび情報処理方法
JP2007164633A (ja) コンテンツ検索方法及び装置及びプログラム
JPWO2013157603A1 (ja) 検索クエリ分析装置、検索クエリ分析方法、及びプログラム
CN112988441A (zh) 异常处理方法和装置
CN115147020B (zh) 装修数据处理方法、装置、设备及存储介质
JP2014074942A (ja) 情報収集プログラム、情報収集方法および情報処理装置
KR20200073824A (ko) 악성코드 프로파일링 방법 및 그 장치
JP6811468B2 (ja) 情報処理装置、データ検索方法、プログラム、データ構造及びデータ処理システム
US10296990B2 (en) Verifying compliance of a land parcel to an approved usage
EP4443340A1 (en) Generation of training data set for an artificial intelligence model from engineering programs

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16824330

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 15574199

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2016824330

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE