WO2022097469A1 - 移行装置、移行方法及び記憶媒体 - Google Patents

移行装置、移行方法及び記憶媒体 Download PDF

Info

Publication number
WO2022097469A1
WO2022097469A1 PCT/JP2021/038614 JP2021038614W WO2022097469A1 WO 2022097469 A1 WO2022097469 A1 WO 2022097469A1 JP 2021038614 W JP2021038614 W JP 2021038614W WO 2022097469 A1 WO2022097469 A1 WO 2022097469A1
Authority
WO
WIPO (PCT)
Prior art keywords
attribute
server
file
clusters
target file
Prior art date
Application number
PCT/JP2021/038614
Other languages
English (en)
French (fr)
Inventor
裕貴 小島
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2022560702A priority Critical patent/JP7517463B2/ja
Publication of WO2022097469A1 publication Critical patent/WO2022097469A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/185Hierarchical storage management [HSM] systems, e.g. file migration or policies thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers

Definitions

  • This disclosure relates to technology for migrating data.
  • Patent Document 1 discloses an example of a technique for setting attribute information of a migration destination file.
  • the migration destination file is specified based on the feature information of the file, and the specified file is associated with the predetermined attribute information included in the feature information.
  • the file attribute system for example, the file access right system may differ significantly between the migration source file server and the migration destination file server.
  • the access right system is significantly different between the environment of the on-premises type file server (hereinafter, also referred to simply as the on-premises server) and the environment of the cloud-type online storage (hereinafter, also referred to as the cloud).
  • the cloud the environment of the cloud-type online storage
  • the degree of freedom in setting the inheritance / non-inheritance of access rights and the range of application destinations is lower than that of on-premises servers.
  • the on-premises server is the data migration source and the cloud is the data migration destination
  • the same attributes as the file attributes set on the on-premises server cannot be set for the file migrated to the cloud.
  • the files and folders on the on-premises server have attributes that cannot be set in the cloud, such as non-inheritance of access rights, data cannot be migrated while maintaining the folder structure.
  • maintaining the folder structure means, for example, the structure of the folder to be migrated in the storage area of the migration target of the migration source device and the structure of the migrated folder in the storage area of the migration destination device. Refers to being the same.
  • Patent Document 1 when data cannot be migrated to the migration destination while maintaining the folder structure of the migration source, it is not possible to determine the migration destination folder in which the files are stored. In such a case, a method of manually determining the migration destination folder for each file can be considered. However, in such a method, for example, when a large number of files exist, the use and management of the files after migration become complicated in addition to the work at the time of migration.
  • One of the purposes of the present disclosure is a migration device that can determine a migration destination folder in which files are stored even when data cannot be migrated to the migration destination while maintaining the migration source folder structure. Is to provide.
  • the migration device generates a plurality of clusters of the file by clustering based on the attribute information of the file stored in the first server, and the first one is added to one of the plurality of clusters.
  • a plurality of clusters of the file are generated by clustering based on the attribute information of the file stored in the first server, and the first one is applied to any of the plurality of clusters.
  • the target file of the server is classified based on the attribute information of the target file, and the target file is stored in the folder of the second server associated with the cluster in which the target file is classified.
  • the program according to one aspect of the present disclosure generates a plurality of clusters of the file by clustering based on the attribute information of the file stored in the first server, and the first server is assigned to one of the plurality of clusters.
  • One aspect of the present disclosure is also realized by a storage medium for storing the above-mentioned program.
  • This disclosure has the effect that even if data cannot be migrated to the migration destination while maintaining the folder structure of the migration source, the migration destination folder in which the files are stored can be determined.
  • FIG. 1 is a block diagram showing an example of the configuration of the migration system according to the first embodiment of the present disclosure.
  • FIG. 2 is an example of attribute information stored in the migration source information storage unit according to the first embodiment of the present disclosure.
  • FIG. 3 is a diagram showing an example of an attribute used by the preprocessing unit according to the first embodiment of the present disclosure to generate an attribute vector.
  • FIG. 4 is a diagram showing an example of a normalized attribute vector according to the first embodiment of the present disclosure.
  • FIG. 5 is a diagram showing a rule for quantifying the value of the owner according to the first embodiment of the present disclosure.
  • FIG. 6 is a diagram showing a rule for quantifying the value of the access authority according to the first embodiment of the present disclosure.
  • FIG. 1 is a block diagram showing an example of the configuration of the migration system according to the first embodiment of the present disclosure.
  • FIG. 2 is an example of attribute information stored in the migration source information storage unit according to the first embodiment of the present disclosure.
  • FIG. 3 is a diagram
  • FIG. 7 is a diagram showing an example of weights given to the elements of the attribute vector according to the first embodiment of the present disclosure.
  • FIG. 8 is a diagram showing an example of information as a result of file classification according to the first embodiment of the present disclosure.
  • FIG. 9 is a flowchart showing an example of the operation of cluster classification of the transition device according to the first embodiment of the present disclosure.
  • FIG. 10 is a flowchart showing an example of data migration operation of the migration device according to the first embodiment of the present disclosure.
  • FIG. 11 is a block diagram showing an example of the configuration of the transition device according to the second embodiment of the present disclosure.
  • FIG. 12 is a flowchart showing an example of the operation of the transition device according to the second embodiment of the present disclosure.
  • FIG. 13 is a diagram showing an example of a computer hardware configuration capable of realizing the transition device according to the embodiment of the present disclosure.
  • FIG. 1 is a block diagram showing an example of the configuration of the transition system 10 according to the first embodiment of the present disclosure.
  • the migration system 10 includes a migration device 1, a first server 2, and a second server 3.
  • the migration device 1 is communicably connected to each of the first server 2 and the second server 3.
  • the migration device 1 migrates the data stored in the form of a file in the first server 2 to the second server 3.
  • the migration device 1 reads the attribute information of the file stored in the first server 2, and clusters the file based on the read attribute information.
  • the migration device 1 generates a plurality of clusters of files by clustering the files.
  • the migration device 1 stores the files of the first server in a folder of the second server associated with the cluster to which the files are classified among a plurality of clusters.
  • Attribute information is information given to the file such as time stamps such as creation date and time and update date and time, size, owner, access right, etc. Attribute information is also expressed as file property information. The type of individual information included in the attribute information, such as the time stamp such as creation date and time and update date, size, owner, access right, etc., is expressed as an attribute. The value of each piece of information is referred to as the value of the attribute.
  • the attribute information is not limited to the above example.
  • the first server 2 is a file server that stores data to be migrated (for example, contents such as files and folders). Attributes are added to files and folders.
  • the first server 2 is, for example, a server having the above-mentioned on-premises type.
  • the second server 3 is a file server that stores data to be migrated read from the first server 2.
  • the second server 3 is, for example, a cloud-type online storage.
  • the migration device 1 includes an attribute acquisition unit 101, a preprocessing unit 102, an analysis unit 103, a migration control unit 104, a migration source information storage unit 201, a condition storage unit 202, an analysis result storage unit 203, and authority.
  • the migration control unit 104 includes a file acquisition unit 301, an execution unit 302, and a generation unit 303.
  • the attribute acquisition unit 101 reads the attribute information of the file stored in the storage area to be migrated of the first server 2. Specifically, the attribute acquisition unit 101 reads out the file identifier and the attribute information of all the files stored in the storage area to be migrated.
  • the file identifier is information that identifies a file in the first server 2.
  • the file identifier may include a file name.
  • the attribute acquisition unit 101 stores the read file identifier of the file and the attribute information of the file in the migration source information storage unit 201.
  • the migration source information storage unit 201 stores the file identifier and the attribute information read from the first server 2 by the attribute acquisition unit 101.
  • FIG. 2 is an example of attribute information stored in the migration source information storage unit 201.
  • the document ID (Identifier) is an identifier of a file.
  • the information acquisition date and time represents the date and time when the attribute acquisition unit 101 acquired the attribute information.
  • the file name is the name of the file.
  • the file size is the size of the file.
  • the shared path represents the folder where the files are stored.
  • the creation date and time represents the date and time when the file was created.
  • the example shown in FIG. 2 is an example.
  • the attribute information is not limited to the example shown in FIG.
  • the attribute information may not include a part or all of the attributes shown in FIG.
  • the attribute information may include attributes other than the attributes shown in FIG.
  • the preprocessing unit 102 reads the file identifier and the attribute information from the migration source information storage unit 201. Specifically, the preprocessing unit 102 reads out the file identifier and the attribute information of all the files stored in the storage area to be migrated. The preprocessing unit 102 generates data in the form of a vector (hereinafter referred to as an attribute vector) from the read attribute information. Specifically, the preprocessing unit 102 generates an attribute vector including the value of a predetermined type of attribute among the values of the attribute included in the attribute information as an element.
  • the preprocessing unit 102 converts the values of predetermined types of attributes into numerical values according to a predetermined rule.
  • the preprocessing unit 102 may use the value of the attribute as it is as the value of the element of the attribute vector.
  • the preprocessing unit 102 may convert complex attributes, such as access right information, into values of elements of a plurality of dimensions according to a predetermined method. For example, when the information indicating whether or not the file can be accessed is set for each department as the attribute of the access right, the preprocessing unit 102 sets the information indicating whether or not the file can be accessed for each department. It may be set as the value of one element.
  • the preprocessing unit 102 sets the values of attributes that are difficult to quantify as they are, such as owner information, at a specific management unit level (for example, at various levels of the organization) set in the first server 2. It may be abstracted by one of the groupings set for the department) and converted to the value of the element of the attribute vector. In that case, for example, different numerical values may be assigned in advance to each of the groups at a specific management unit level.
  • the preprocessing unit 102 may use a numerical value previously assigned to the value of the specific management unit level as the value of the element representing the specific management unit level of the attribute vector.
  • the preprocessing unit 102 normalizes the generated attribute vector.
  • the normalization of the attribute vector in the present embodiment is, for example, converting the value of each element of the attribute vector into a value of 0 or more and 1 or less. More specifically, the normalization of the attribute vector in the present embodiment is performed from the element value so that the minimum value of the element value becomes 0 and the minimum value of the element value becomes 1 for each element of the attribute vector. The value obtained by dividing the value obtained by subtracting the minimum value of the element value by the value obtained by subtracting the minimum value from the maximum value of the element value may be used as the converted value of the element value.
  • FIG. 3 is a diagram showing an example of an attribute used by the preprocessing unit 102 to generate an attribute vector.
  • the document ID is an identifier of the file.
  • the creation date and time represents the date and time when the file was created, which is quantified.
  • the creation date and time represents the number of days elapsed from the oldest creation date and time among the attributes of the creation date and time stored in the migration source information storage unit 201.
  • the modification date and time represents the date and time when the file was last updated, which is quantified.
  • the update date and time represents the number of days elapsed from the oldest update date and time among the attributes of the update date and time stored in the migration source information storage unit 201.
  • Owner is the name of the owner of the file.
  • the value of the attribute representing the owner may be an identifier assigned to the owner.
  • Each of the authority sales department, authority development department, authority personnel department, and authority information system department is an attribute representing access authority. Full control, read-only, and none each represent the access rights granted.
  • the value of the attribute representing the access authority may be one of the values assigned to full control, read-only, none, and the like.
  • the attributes used by the preprocessing unit 102 to generate the attribute vector are not limited to the example shown in FIG.
  • the preprocessing unit 102 does not have to use a part or all of the attributes included in the example shown in FIG.
  • the preprocessing unit 102 may generate an attribute vector using an attribute other than the attribute shown in FIG.
  • the preprocessing unit 102 may use, for example, the file size, the number of layers of the shared path, and the like as attributes.
  • FIG. 4 is a diagram showing an example of the attribute vector after normalization.
  • the value of the element of the attribute vector of the file specified by the document ID which is the identifier is a numerical value included in the same line as the line containing the value of the document ID.
  • FIG. 5 is a diagram showing a rule for quantifying the value of the owner.
  • the preprocessing unit 102 converts the value of the attribute representing the owner into a numerical value according to the rule shown in FIG.
  • the preprocessing unit 102 converts the value of the attribute representing the owner shown in the column of “owner” in FIG. 5 into the numerical value of the “corresponding value” in the same row.
  • FIG. 6 is a diagram showing a rule for quantifying the value of the access authority.
  • the preprocessing unit 102 converts the value of the attribute representing the access authority into a numerical value according to the rule shown in FIG.
  • the preprocessing unit 102 converts the value of the attribute representing the access authority shown in the “authority” column of FIG. 6 into the numerical value of the “corresponding value” in the same row.
  • the condition storage unit 202 stores, for example, a rule for the preprocessing unit 102 to convert an attribute value into a numerical value.
  • the condition storage unit 202 further stores the weights given to each element of the attribute vector by the analysis unit 103, which will be described later.
  • the weight may be predetermined by the administrator of the transition device 1 or the like.
  • the analysis unit 103 clusters the attribute vector (specifically, the attribute vector after normalization).
  • the analysis unit 103 may perform clustering of attribute vectors by any of the existing methods for clustering vectors.
  • the analysis unit 103 generates a plurality of clusters of attribute vectors by clustering.
  • the analysis unit 103 assigns a cluster identifier (for example, a number), which is information for identifying the cluster, to each of the generated clusters.
  • the analysis unit 103 performs clustering using, for example, the k-means method.
  • the analysis unit 103 specifies the number of folders that can be migrated from the first server 2 to the second server 3 as they are (hereinafter, also referred to as a simple migration source folder).
  • the folder that can be migrated from the first server 2 to the second server 3 as it is is, for example, a folder in which only the attribute values that can be set in the second server 3 are set.
  • the folder of the first server 2 in which the value of the attribute for which the corresponding value does not exist in the second server 3 is set cannot be migrated to the second server 3 as it is.
  • the analysis unit 103 determines the number of folders existing in the storage area of the migration target of the first server 2 in which only the values of the attributes that can be set in the second server 3 are set in the set attributes.
  • the analysis unit 103 determines the number of folders existing in the storage area to be migrated by the first server 2, excluding the folders in which the value of the attribute for which the corresponding value does not exist in the second server 3 is set. , May be set to the number of clusters.
  • a value indicating that the access authority is non-inherited can be set as the value of the attribute of the folder
  • the value in which the access authority is non-inherited can be set as the folder.
  • the analysis unit 103 specifies the number of folders excluding the folder in which the value whose access authority is not inherited is set as the attribute value in the storage area of the migration target of the first server 2, and determines the number of the specified folders. Set to the number of clusters.
  • the analysis unit 103 identifies the cluster to which each attribute vector belongs by clustering the attribute vectors. In other words, the analysis unit 103 identifies the cluster in which each attribute vector is classified by clustering the attribute vector.
  • the analysis unit 103 determines a folder related to each cluster based on the result of clustering. Specifically, the analysis unit 103 classifies the most files among the files stored in the folder that can be directly migrated from the first server 2 to the second server 3 (the above-mentioned simple migration source folder), for example. Identify the cluster. Then, the analysis unit 103 identifies the migration destination folder, which is the folder to which the simple migration source folder is migrated, when the migration is performed while maintaining the folder structure. The analysis unit 103 associates the specified cluster with the migration destination folder.
  • maintaining the folder structure as described above means that, for example, migration is performed in the structure of the folder to be migrated in the storage area of the migration target of the migration source device and in the storage area of the migration destination device. It means that the structure of the folders is the same.
  • the analysis unit 103 may associate the simple migration source folder with the cluster so that the above-mentioned simple migration source folder and the cluster are associated with each other on a one-to-one basis. In that case, the analysis unit 103 calculates, for example, the ratio of the files classified into each cluster for each simple migration source folder. The analysis unit 103 identifies the combination of the simple migration source folder and the cluster, which has the largest calculated ratio value. When the combination of the simple migration source folder and the cluster is one-to-one, the analysis unit 103 associates the simple migration source folder of the combination with the cluster.
  • the analysis unit 103 associates the specified simple migration source folder with the cluster thereof.
  • the analysis unit 103 simply selects another original folder from the plurality of simple source folders according to a predetermined selection method, and selects the simple migration source folders and their clusters. To associate.
  • the predetermined selection method may be appropriately determined.
  • the predetermined selection method may be a method of randomly selecting.
  • the predetermined selection method may be a method of selecting a simple migration source folder to which a folder identifier having a large value is assigned when the value of a predetermined attribute assigned to the folder is regarded as a numerical value.
  • the predetermined selection method may be a method of selecting a simple migration source folder to which a folder identifier with a small value is assigned when the value of a predetermined attribute assigned to the folder is regarded as a numerical value.
  • the analysis unit 103 has the largest ratio of files classified into each cluster for each simple migration source folder among the simple migration source folders and clusters excluding the simple migration source folders and clusters associated with each other. Identify the combination of the simple migration source folder and the cluster. Then, the analysis unit 103 associates the simple migration folder with the cluster as described above from the combination of the specified simple migration source folder and the cluster. The analysis unit 103 repeats the association between the simple migration folder and the cluster until the unrelated simple migration folder and the cluster no longer exist.
  • the analysis unit 103 may associate the cluster with the folder in the second server 3 by another method.
  • the analysis unit 103 analyzes the file identifier of each of the files to be migrated and the cluster identifier of the cluster in which the attribute vector is classified as a result of classifying the files into a plurality of clusters obtained by clustering. It is stored in the result storage unit 203.
  • the result of classifying files into a plurality of clusters obtained by clustering will be simply referred to as the result of file classification and the result of classification.
  • the analysis unit 103 stores the number of the plurality of clusters generated as a result of clustering, the cluster identifier of each of the plurality of clusters, and the folder of the second server 3 associated with each of the plurality of clusters as the analysis result. It may be stored in the unit 203.
  • the analysis unit 103 stores the result of the association between the cluster and the folder in the analysis result storage unit 203.
  • the result of the association between the cluster and the folder is, for example, a combination of the cluster identifier of the cluster, the migration source folder, and the migration destination folder for a plurality of clusters.
  • the migration destination folder is the folder of the first server 2 in which the most files are classified in the cluster.
  • the migration destination folder is the folder of the second server 3 which is the migration destination of the migration source folder when the data is migrated from the first server 2 to the second server 3 while maintaining the folder structure.
  • the information representing the result of associating the cluster with the folder is also referred to as the cluster information.
  • the analysis unit 103 may give weights to each of the elements of the attribute vector when calculating the distance between the attribute vectors in the clustering based on the attribute vector and the classification based on the attribute vector.
  • FIG. 7 is a diagram showing an example of weights given to the elements of the attribute vector.
  • the “creation date / time” is an example of the weight given to the converted numerical element with the attribute representing the creation date / time.
  • Update date and time is an example of the weight given to the converted numerical element with the attribute representing the update date and time.
  • "Owner” is an example of the weight given to a converted numeric element with an attribute representing the owner.
  • the "authority” is an example of the weight given to each of the converted numerical elements (that is, the element representing the access authority) whose attribute representing the access authority is converted.
  • the weight given to the element representing the access right is larger than the weight given to the other elements.
  • the analysis unit 103 has an element representing the access right and other elements so that the element representing the access right has a greater influence on the above-mentioned clustering and file classification as compared with the element of the other attribute. Is weighted.
  • the analysis result storage unit 203 stores the file identifier and the cluster identifier in which the attribute vector is classified for each of the files to be migrated as the result of classifying the files into a plurality of clusters obtained by the clustering. ..
  • the analysis result storage unit 203 may store the number of the plurality of clusters generated as a result of clustering and the cluster identifier of each of the plurality of clusters.
  • the analysis result storage unit 203 stores the result of the association between the cluster and the migration destination folder (the cluster identifiers of the plurality of clusters and the migration destination folder associated with each of the plurality of clusters, that is, the folder of the second server 3). ..
  • FIG. 8 is a diagram showing an example of information as a result of file classification.
  • the document ID represents a file identifier.
  • the cluster number represents the identifier of the cluster.
  • the example shown in FIG. 8 shows that the files specified by the document ID are classified into the clusters specified by the cluster number.
  • the authority correspondence storage unit 204 stores the correspondence between the access authority that can be set for files and folders in the first server 2 and the access authority set in the second server 3 (hereinafter, referred to as authority correspondence).
  • the authority correspondence may be determined in advance by the administrator of the migration device 1 based on the information of the access authority settings of the first server 2 and the second server 3, and may be stored in the authority correspondence storage unit 204. ..
  • the format of authority correspondence may be appropriately defined.
  • the generation unit 303 generates folders related to each of the plurality of clusters on the second server 3 based on the information stored in the analysis result storage unit 203. Specifically, the generation unit 303 of a plurality of clusters is based on the result of the association between the cluster and the migration destination folder (cluster identifiers of the plurality of clusters and the migration destination folder associated with each of the plurality of clusters). You may create folders related to each. In other words, the generation unit 303 generates a migration destination folder associated with each of a plurality of clusters (specifically, cluster identifiers of the clusters).
  • the generation unit 303 further reads the authority correspondence information stored in the authority correspondence storage unit 204, and sets the access authority to the generated migration destination folder based on the read authority correspondence information.
  • the file acquisition unit 301 acquires the file to be migrated from the first server 2.
  • the file acquisition unit 301 reads, for example, a file stored in the storage area to be migrated of the first server 2.
  • the file acquisition unit 301 may read out the files to be migrated one by one.
  • the file acquisition unit 301 sends the acquired file to the execution unit 302.
  • the execution unit 302 receives the file to be migrated from the file acquisition unit 301.
  • the execution unit 302 receives the file on the second server 3 based on the information of the file classification result stored in the analysis result storage unit 203 and the result of the association between the cluster and the migration destination folder. Identify the folder where it will be stored.
  • the execution unit 302 identifies the cluster in which the received file is classified in the information of the result of file classification.
  • the execution unit 302 further identifies the migration destination folder associated with the specified cluster in the result of the association between the cluster and the migration destination folder.
  • the execution unit 302 stores the received file in the migration destination folder of the second server 3 associated with the cluster in which the file is classified.
  • FIG. 9 is a flowchart showing an example of the operation of cluster classification of the migration device 1 according to the first embodiment of the present disclosure.
  • the attribute acquisition unit 101 increases from step S101 to step S104 until the acquisition of the attribute of the file to be migrated (that is, all the files stored in the storage area to be migrated) is completed. Repeat the attribute acquisition loop up to.
  • the attribute acquisition unit 101 acquires the attribute information of one file to be migrated (step S102).
  • the transition device 1 stores the acquired attribute information (step S102). Specifically, the attribute acquisition unit 101 stores the acquired attribute information in the migration source information storage unit 201.
  • the preprocessing unit 102 performs preprocessing of the attribute information (step S105). Specifically, the preprocessing unit 102 generates an attribute vector from the attribute information of each file.
  • the analysis unit 103 generates a cluster and classifies the file into a cluster based on the attribute information (step S106).
  • the migration device 1 stores the cluster information and the classification result (step S107).
  • the analysis unit 103 stores the cluster information and the classification result in the analysis result storage unit 203.
  • the cluster information refers to information that represents the result of the association between the cluster and the folder, as described above.
  • the classification result represents the result of classifying the files into a cluster.
  • FIG. 10 is a flowchart showing an example of data migration operation of the migration device 1 according to the first embodiment of the present disclosure.
  • the generation unit 303 generates the migration destination folder on the second server 3 (step S201).
  • the generation unit 303 sets the value of the attribute such as the access right in the created folder.
  • the migration device 1 repeatedly executes the file migration loop from step S202 to step S206 until the storage of the file to be migrated is completed.
  • the file acquisition unit 301 acquires one file as a target file (step S203).
  • the execution unit 302 acquires information on the migration destination of the target file (step S204).
  • the execution unit 302 identifies the migration destination folder associated with the cluster in which the target file is classified based on the cluster information and the classification result stored in the analysis result storage unit 203. do.
  • the execution unit 302 stores the target file in the specified migration destination folder (step S205).
  • the present embodiment has an effect that the migration destination folder in which the file is stored can be determined even when the data cannot be migrated to the migration destination while maintaining the migration source folder structure.
  • the reason is that the analysis unit 103 classifies the files into clusters based on the attributes of the files, and the execution unit 302 stores the files in the migration destination folder associated with the cluster in which the files are classified. ..
  • the analysis unit 103 may perform clustering by a hierarchical clustering method such as Ward's method instead of a non-hierarchical clustering method such as k-means method.
  • the analysis unit 103 determines the cluster by dividing the dendrogram created in the analysis process at an arbitrary height, and determines the folder structure after migration.
  • the destination folder structure may be significantly different from the migration source.
  • the hierarchical cluster analysis has the advantages that it is not necessary to determine the number of clusters in advance and the clustering result can be obtained in a hierarchical structure.
  • the analysis unit 103 performs the above-mentioned clustering by using only the attribute information of the file stored in the folder (the above-mentioned simple migration source folder) that can be migrated from the first server 2 to the second server 3 as it is. conduct.
  • clustering the files stored in the simple migration source folder are classified into one of the clusters.
  • the analysis unit 103 classifies the files stored in the simple migration source folder into any of the clusters generated by the clustering.
  • the analysis unit 103 uses the attribute information to generate files stored in a folder that cannot be migrated from the first server 2 to the second server 3 as it is (hereinafter, also referred to as a non-simple migration source folder) by clustering. Classify into one of the clusters.
  • the non-simple migration source folder is a folder other than the simple migration source folder among the folders existing in the storage area of the migration target of the first server 2.
  • the analysis unit 103 identifies the cluster in which the attribute vector of the file stored in the non-simple migration source folder is classified from the plurality of clusters generated by the clustering.
  • the method by which the analysis unit 103 classifies the attribute vector into any of a plurality of clusters may be any of the existing classification methods.
  • the analysis unit 103 calculates, for example, the representative attribute vector of each of the plurality of clusters generated by clustering.
  • the representative attribute vector is, for example, the average vector of the attribute vectors of the files contained in the cluster.
  • the representative attribute vector may be another vector.
  • the analysis unit 103 multiplies the element values of the representative vector of each of the plurality of clusters and the attribute vector of the file stored in the non-simple migration source folder by the weight given to each element. Then, the analysis unit 103 determines the distance (for example, Euclidean distance) between each of the attribute vectors of the weighted file stored in the non-simple migration folder and the representative vector of each of the plurality of clusters. calculate.
  • the analysis unit 103 classifies the file into the cluster in which the above-mentioned distance between the attribute vector and the representative vector of the file stored in the non-simple migration folder is the smallest.
  • ⁇ Third modification example> The analysis unit 103 classifies all the files stored in the same simple migration source folder into the same cluster. In other respects, this modification is the same as the second modification.
  • the preprocessing unit 102 generates an attribute vector from the attribute information in which the value of the predetermined attribute is not the predetermined value.
  • the preprocessing unit 102 does not generate an attribute vector from the attribute information in which the value of the predetermined attribute is the predetermined value.
  • the predetermined value of the predetermined attribute is, for example, a set value that can be set in the first server 2 and cannot be set in the second server 3.
  • the predetermined attribute may be, for example, a value representing inheritance or non-inheritance of the access right, and the predetermined value of the predetermined attribute may be, for example, a value representing non-inheritance of the access right.
  • the analysis unit 103 classifies the attribute information file in which the value of the predetermined attribute is the predetermined value.
  • the analysis unit 103 may classify the file of the attribute information in which the value of the predetermined attribute is the predetermined value based on the value of the attribute other than the value of the predetermined attribute.
  • the classification method may be, for example, any of the existing methods of classifying the vector into any cluster.
  • the analysis unit 103 may calculate, for example, the representative attribute vector of each cluster.
  • the analysis unit 103 may calculate the Euclidean distance between the attribute vector generated from the attribute information in which the predetermined attribute is a predetermined value and each of the representative attribute vectors.
  • the analysis unit 103 may identify the cluster having the smallest calculated Euclidean distance.
  • the analysis unit 103 may classify the file to which the attribute to which the attribute vector is generated is attached into the specified cluster.
  • the condition storage unit 202 stores information that identifies the above-mentioned predetermined attribute.
  • FIG. 11 is a block diagram showing an example of the configuration of the transition device 1A according to the second embodiment of the present disclosure.
  • the transition device 1A includes an analysis unit 103 and an execution unit 302.
  • the analysis unit 103 generates a plurality of clusters of the file by clustering based on the attribute information of the file stored in the first server, and puts the target file of the first server in one of the plurality of clusters. Classify based on the attribute information of the target file.
  • the execution unit 302 stores the target file in a folder of the second server associated with the cluster in which the target file is classified.
  • the analysis unit 103 and the execution unit 302 may operate in the same manner as the analysis unit 103 and the execution unit 302 of the first embodiment, respectively.
  • FIG. 12 is a flowchart showing an example of the operation of the transition device 1A according to the second embodiment of the present disclosure.
  • the analysis unit 103 classifies the files into clusters based on the attribute information of the files of the first server (step S301).
  • the execution unit 302 stores the file in the folder of the second server associated with the cluster in which the file is classified (step S302).
  • the present embodiment has the same effect as that of the first embodiment.
  • the reason is the same as the reason why the effect of the first embodiment occurs.
  • the migration device 1 and the migration device 1A can be realized by a computer including a memory in which a program read from a storage medium is loaded and a processor that executes the program.
  • This computer may be a combination of a plurality of computers connected so as to be able to communicate with each other.
  • the transition device 1 and the transition device 1A can also be realized by dedicated hardware such as a circuit. This circuit may be a combination of a plurality of circuits connected so as to be able to communicate with each other.
  • the migration device 1 and the migration device 1A can also be realized by a combination of the above-mentioned computer and dedicated hardware connected to each other so as to be communicable with each other.
  • FIG. 13 is a diagram showing an example of a hardware configuration of a computer 1000 that can realize the transition device according to the embodiment of the present disclosure.
  • the computer 1000 includes a processor 1001, a memory 1002, a storage device 1003, and an I / O (Input / Output) interface 1004.
  • the computer 1000 can access the storage medium 1005.
  • the memory 1002 and the storage device 1003 are storage devices such as a RAM (Random Access Memory) and a hard disk, for example.
  • the storage medium 1005 is, for example, a storage device such as a RAM or a hard disk, a ROM (Read Only Memory), or a portable storage medium.
  • the storage device 1003 may be a storage medium 1005.
  • the processor 1001 can read and write data and programs to the memory 1002 and the storage device 1003.
  • the processor 1001 can access, for example, the first server 2 and the second server 3 via the I / O interface 1004.
  • the processor 1001 can access the storage medium 1005.
  • the storage medium 1005 stores a program for operating the computer 1000 as a transition device according to the embodiment of the present disclosure.
  • the processor 1001 loads the memory 1002 with a program stored in the storage medium 1005 that causes the computer 1000 to operate as the transition device according to the embodiment of the present disclosure. Then, the processor 1001 executes the program loaded in the memory 1002, so that the computer 1000 operates as the transition device according to the embodiment of the present disclosure.
  • the attribute acquisition unit 101, the preprocessing unit 102, the analysis unit 103, the migration control unit 104, the file acquisition unit 301, the execution unit 302, and the generation unit 303 can be realized by, for example, the processor 1001 that executes the program loaded in the memory 1002. Further, the migration source information storage unit 201, the condition storage unit 202, the analysis result storage unit 203, and the authority-corresponding storage unit 204 can be realized by the memory 1002 included in the computer 1000 and the storage device 1003 such as a hard disk device.
  • a part or all of 302 and the generation unit 303 can also be realized by a dedicated circuit.
  • Appendix 2 A preprocessing means for generating an attribute vector, which is a vector based on the attribute information, is provided from the attribute information.
  • the analysis means generates the plurality of clusters by the clustering of the attribute vector of the file stored in the first server, and based on the attribute vector of the target file, the target file is subjected to the plurality of clusters.
  • Appendix 3 The migration device according to Appendix 1 or 2, wherein the analysis means generates the plurality of clusters by the clustering based on the attribute information in which the value of the first attribute is not the first predetermined value.
  • Appendix 4 The migration device according to Appendix 3, wherein the first predetermined value is an attribute that is set in the first server and cannot be set in the second server.
  • the analysis means sets weights for each of the plurality of attributes of the attribute information, and classifies the target file into one of the plurality of clusters based on the attribute information and the weights of the target file.
  • the transition device according to any one of Supplementary note 1 to 4.
  • Appendix 6 The migration device according to Appendix 5, wherein the analysis means generates the plurality of clusters by the clustering based on the attribute information and the weight.
  • the analysis means has the influence of the second attribute, which is an attribute of the authority to access the file, among the plurality of attributes on the classification of the target file into any of the plurality of clusters.
  • an attribute vector which is a vector based on the attribute information, is generated.
  • the plurality of clusters are generated by the clustering of the attribute vector of the file stored in the first server, and the target file is assigned to one of the plurality of clusters based on the attribute vector of the target file.
  • Classification The migration method described in Appendix 9.
  • Appendix 11 The migration method according to Appendix 9 or 10, wherein the plurality of clusters are generated by the clustering based on the attribute information in which the value of the first attribute is not the first predetermined value.
  • Appendix 12 The migration method according to Appendix 11, wherein the first predetermined value is an attribute that is set in the first server and cannot be set in the second server.
  • Weights are set for each of the plurality of attributes of the attribute information, and the target file is classified into one of the plurality of clusters based on the attribute information and the weight of the target file.
  • the migration method according to any one of the above items.
  • Appendix 14 The migration method according to Appendix 13, wherein the plurality of clusters are generated by the clustering based on the attribute information and the weight.
  • the influence of the second attribute, which is the attribute of the authority to access the file, among the plurality of attributes on the classification of the target file into any of the plurality of clusters is the plurality of attributes other than the second attribute.
  • a computer is further executed to perform a preprocessing process for generating an attribute vector which is a vector based on the attribute information.
  • the plurality of clusters are generated by the clustering of the attribute vector of the file stored in the first server, and the target file is generated by the plurality of target files based on the attribute vector of the target file.
  • Appendix 19 The program according to Appendix 17 or 18, wherein the analysis process generates the plurality of clusters by the clustering based on the attribute information in which the value of the first attribute is not the first predetermined value.
  • Appendix 20 The program according to Appendix 19, wherein the first predetermined value is an attribute that is set in the first server and cannot be set in the second server.
  • Appendix 22 The program according to Appendix 21, wherein the analysis process generates the plurality of clusters by the clustering based on the attribute information and the weight.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

移行元のフォルダ構造を維持したまま移行先にデータの移行を行うことができない場合であっても、ファイルが格納される移行先のフォルダを決定できる移行装置などを提供する。本開示の一態様に係る移行装置1Aは、第1サーバに格納されているファイルの属性情報に基づくクラスタリングによって、前記ファイルの複数のクラスタを生成し、当該複数のクラスタのいずれかに、前記第1サーバの対象ファイルを、当該対象ファイルの属性情報に基づいて分類する解析部103と、前記対象ファイルを、当該対象ファイルが分類されたクラスタに関連付けられる、第2サーバのフォルダに格納する実行部302と、を備える。

Description

移行装置、移行方法及び記憶媒体
 本開示は、データを移行する技術に関する。
 サーバに格納されているデータを、他のサーバに移行する際、一般に、他のサーバに移行されるデータのファイルの属性情報を適切に設定することが望まれる。
 特許文献1には、移行先のファイルの属性情報を設定する技術の一例が開示されている。特許文献1の技術では、ファイルの特徴情報に基づいて移行先のファイルを特定し、特定したファイルに、特徴情報に含まれる所定の属性情報を関連付ける。
特開2005-078612号公報
 移行元のファイルサーバと移行先のファイルサーバとの間で、ファイルの属性の体系、例えば、ファイルのアクセス権の体系が、大きく異なる場合がある。例えば、オンプレミス型のファイルサーバ(以下、単にオンプレミスサーバとも表記)の環境と、クラウド型のオンラインのストレージの環境(以下、クラウドとも表記)との間で、アクセス権の体系が大きく異なっている場合が多い。ファイルの属性の体系が異なっているサーバ間でデータの移行を行う場合、ファイルの属性を維持したまま移行することは容易ではない。
 一般的に、クラウドでは、オンプレミスサーバと比較して、アクセス権の継承/非継承及び適用先の範囲の設定の自由度が低い。
 例えば、オンプレミスサーバがデータの移行元であり、クラウドがデータの移行先である場合、オンプレミスサーバにおいて設定されているファイルの属性と同一の属性を、クラウドに移行したファイルに設定することはできない。この場合、例えば、オンプレミスサーバのファイルやフォルダに、アクセス権の非継承などのクラウドでは設定できない属性が設定されていれば、フォルダ構造を維持したままデータの移行を行うことはできない。
 なお、フォルダ構造を維持するとは、例えば、移行元の装置の移行の対象の記憶領域における、移行の対象のフォルダの構造と、移行先の装置の記憶領域における、移行が行われたフォルダの構造が同じであることを指す。
 特許文献1の技術では、移行元のフォルダ構造を維持したまま移行先にデータの移行を行うことができない場合に、ファイルが格納される移行先のフォルダを決定することはできない。このような場合、ファイルごとに移行先のフォルダを手作業で決定する方法が考えられる。しかし、そのような方法では、例えば、多数のファイルが存在する場合、移行時の作業に加えて、移行後のファイルの利用及び管理が煩雑になる。
 本開示の目的の1つは、移行元のフォルダ構造を維持したまま移行先にデータの移行を行うことができない場合であっても、ファイルが格納される移行先のフォルダを決定できる移行装置などを提供することである。
 本開示の一態様に係る移行装置は、第1サーバに格納されているファイルの属性情報に基づくクラスタリングによって、前記ファイルの複数のクラスタを生成し、当該複数のクラスタのいずれかに、前記第1サーバの対象ファイルを、当該対象ファイルの属性情報に基づいて分類する解析手段と、前記対象ファイルを、当該対象ファイルが分類されたクラスタに関連付けられる、第2サーバのフォルダに格納する実行手段と、を備える。
 本開示の一態様に係る移行方法は、第1サーバに格納されているファイルの属性情報に基づくクラスタリングによって、前記ファイルの複数のクラスタを生成し、当該複数のクラスタのいずれかに、前記第1サーバの対象ファイルを、当該対象ファイルの属性情報に基づいて分類し、前記対象ファイルを、当該対象ファイルが分類されたクラスタに関連付けられる、第2サーバのフォルダに格納する。
 本開示の一態様に係るプログラムは、第1サーバに格納されているファイルの属性情報に基づくクラスタリングによって、前記ファイルの複数のクラスタを生成し、当該複数のクラスタのいずれかに、前記第1サーバの対象ファイルを、当該対象ファイルの属性情報に基づいて分類する解析処理と、前記対象ファイルを、当該対象ファイルが分類されたクラスタに関連付けられる、第2サーバのフォルダに格納する実行処理と、をコンピュータに実行させる。本開示の一態様は、上述のプログラムを記憶する記憶媒体によっても実現される。
 本開示には、移行元のフォルダ構造を維持したまま移行先にデータの移行を行うことができない場合であっても、ファイルが格納される移行先のフォルダを決定できるという効果がある。
図1は、本開示の第1の実施形態に係る移行システムの構成の例を表すブロック図である。 図2は、本開示の第1の実施形態に係る移行元情報記憶部に格納されている属性情報の例である。 図3は、本開示の第1の実施形態に係る前処理部が属性ベクトルの生成に使用する属性の例を表す図である 図4は、本開示の第1の実施形態に係る正規化後の属性ベクトルの例を表す図である。 図5は、本開示の第1の実施形態に係る所有者の値を数値化するルールを表す図である。 図6は、本開示の第1の実施形態に係るアクセス権限の値を数値化するルールを表す図である。 図7は、本開示の第1の実施形態に係る属性ベクトルの要素に付与する重みの例を表す図である。 図8は、本開示の第1の実施形態に係るファイルの分類の結果の情報の例を表す図である。 図9は、本開示の第1の実施形態に係る移行装置の、クラスタ分類の動作の例を表すフローチャートである。 図10は、本開示の第1の実施形態に係る移行装置の、データ移行の動作の例を表すフローチャートである。 図11は、本開示の第2の実施形態に係る移行装置の構成の例を表すブロック図である。 図12は、本開示の第2の実施形態に係る移行装置の動作の例を表すフローチャートである。 図13は、本開示の実施形態に係る移行装置を実現することができる、コンピュータのハードウェア構成の一例を表す図である。
 本開示の実施形態について、図面を使用して詳細に説明する。
 <第1の実施形態>
 <構成>
 図1は、本開示の第1の実施形態に係る移行システム10の構成の例を表すブロック図である。図1に示す例では、移行システム10は、移行装置1と、第1サーバ2と、第2サーバ3とを含む。移行装置1は、第1サーバ2及び第2サーバ3の各々と、通信可能に接続されている。移行装置1は、第1サーバ2にファイルの形で格納されているデータを、第2サーバ3に移行する。
 <概要>
 移行装置1は、第1サーバ2に格納されているファイルの属性情報を読み出し、読み出した属性情報に基づいて、ファイルのクラスタリングを行う。移行装置1は、ファイルのクラスタリングによって、ファイルの複数のクラスタを生成する。移行装置1は、第1サーバのファイルを、複数のクラスタのうちそのファイルが分類されるクラスタに関連付けられる、第2サーバのフォルダに格納する。
 属性情報は、作成日時や更新日時などのタイムスタンプ、サイズ、所有者、アクセス権などの、ファイルに付与されている情報である。属性情報は、ファイルプロパティ情報とも表記される。属性情報が含む、作成日時や更新日時などのタイムスタンプ、サイズ、所有者、アクセス権などの、個々の情報の種類を、属性と表記する。個々の情報の値を、属性の値と表記する。属性情報は、上述の例に限られない。
 <第1サーバ2>
 第1サーバ2は、移行の対象となるデータ(例えば、ファイルおよびフォルダなどのコンテンツ)を記憶するファイルサーバである。ファイル及びフォルダには属性が付与されている。第1サーバ2は、例えば、上述のオンプレミス型がいるサーバである。
 <第2サーバ3>
 第2サーバ3は、第1サーバ2から読み出された移行の対象となるデータが格納されるファイルサーバである。第2サーバ3は、例えば、クラウド型オンラインストレージである。
 <移行装置1>
 移行装置1は、属性取得部101と、前処理部102と、解析部103と、移行制御部104と、移行元情報記憶部201と、条件記憶部202と、分析結果記憶部203と、権限対応記憶部204と、を含む。移行制御部104は、ファイル取得部301と、実行部302と、生成部303とを含む。
 <属性取得部101>
 属性取得部101は、第1サーバ2の、移行対象となる記憶領域に格納されているファイルの属性情報を読み出す。属性取得部101は、具体的には、移行対象となる記憶領域に格納されている全てのファイルの、ファイル識別子と属性情報とを読み出す。ファイル識別子は、第1サーバ2において、ファイルを特定する情報である。ファイル識別子は、ファイル名を含んでいてもよい。属性取得部101は、読み出した、ファイルのファイル識別子と、そのファイルの属性情報とを、移行元情報記憶部201に格納する。
 <移行元情報記憶部201>
 移行元情報記憶部201は、属性取得部101によって第1サーバ2から読み出された、ファイル識別子と、属性情報とを記憶する。
 図2は、移行元情報記憶部201に格納されている属性情報の例である。図2において、文書ID(Identifier)は、ファイルの識別子である。情報取得日時は、属性取得部101が属性情報を取得した日時を表す。ファイル名は、ファイルの名称である。ファイルサイズは、ファイルのサイズである。共有パスは、ファイルが格納されているフォルダを表す。作成日時は、ファイルが作成された日時を表す。図2に示す例は、一例である。属性情報は、図2に示す例に限られない。属性情報は、図2に示す属性の一部または全部を含んでいなくてもよい。属性情報は、図2に示す属性以外の属性を含んでいてもよい。
 <前処理部102>
 前処理部102は、移行元情報記憶部201から、ファイル識別子と、属性情報とを読み出す。具体的には、前処理部102は、移行対象となる記憶領域に格納されている全てのファイルの、ファイル識別子と、属性情報とを読み出す。前処理部102は、読み出した属性情報から、ベクトルの形式のデータ(以下、属性ベクトルと表記)を生成する。具体的には、前処理部102は、属性情報に含まれる属性の値のうち、所定の種類の属性の値を要素として含む、属性ベクトルを生成する。
 前処理部102は、あらかじめ定められているルールに従って、所定の種類の属性の値を、それぞれ、数値に変換する。前処理部102は、属性の値が数値を表している場合、属性の値を、そのまま、属性ベクトルの要素の値としてよい。
 前処理部102は、例えばアクセス権の情報などの、複雑な属性を、あらかじめ定めておいた方法に従って、複数の次元の要素の値に変換してよい。例えば、アクセス権の属性として、ファイルにアクセスできるか否かを表す情報が、部門ごとに設定されている場合、前処理部102は、部門ごとの、ファイルにアクセスできるか否かを表す情報を、1つの要素の値として設定してよい。
 前処理部102は、例えば所有者の情報などの、そのまま数値化することが難しい属性の値を、第1サーバ2において設定されている、特定の管理単位レベル(例えば、組織の様々な階層の部門のために設定されているグループ分けのいずれか)で抽象化し、属性ベクトルの要素の値に変換してよい。その場合、例えば、特定の管理単位レベルのグループの各々に対して異なる数値をあらかじめ割りあてておいてよい。前処理部102は、特定の管理単位レベルの値にあらかじめ割り当てられている数値を、属性ベクトルの、特定の管理単位レベルを表す要素の値としてよい。
 前処理部102は、生成した属性ベクトルの正規化を行う。本実施形態における属性ベクトルの正規化は、例えば、属性ベクトルの各要素の値を、0以上1以下の値に変換することである。さらに詳細には、本実施形態における属性ベクトルの正規化は、属性ベクトルの要素ごとに、要素の値の最小値が0に、要素の値の最小値が1になるように、要素の値からその要素の値の最小値を引いた値を、要素の値の最大値から最小値を引いた値によって割った値を、その要素の値の変換後の値としてよい。
 図3は、前処理部102が属性ベクトルの生成に使用する属性の例を表す図である。図3に示す例においても、文書IDは、ファイルの識別子である。作成日時は、数値化された、ファイルが作成された日時を表す。図3の例では、作成日時は、移行元情報記憶部201に格納されている作成日時の属性の中で最も古い作成日時からの経過日数を表す。更新日時は、数値化された、ファイルが最後に更新された日時を表す。図3の例では、更新日時は、移行元情報記憶部201に格納されている更新日時の属性の中で最も古い更新日時からの経過日数を表す。所有者は、ファイルの所有者の名称である。所有者を表す属性の値は、所有者に割り当てられている識別子であってよい。権限営業部、権限開発部、権限人事部、権限情報シス部の各々は、アクセス権限を表す属性である。フルコントロール、読み取り専用、なしの各々は、付与されているアクセス権限を表す。アクセス権限を表す属性の値は、フルコントロール、読み取り専用、なし等にそれぞれ割り当てられている値のいずれかであってよい。前処理部102が属性ベクトルの生成に使用する属性は、図3に示す例に限られない。
 前処理部102は、図3に示す例に含まれる属性の一部または全部を使用しなくてもよい。前処理部102は、図3に示す属性以外の属性を使用して属性ベクトルを生成してもよい。前処理部102は、例えば、ファイルサイズ、及び、共有パスの階層数などを、属性として使用してもよい。
 図4は、正規化後の属性ベクトルの例を表す図である。図4に示す例では、識別子である文書IDによって特定されるファイルの属性ベクトルの要素の値が、文書IDの値が含まれる行と同じ行に含まれる数値である。
 図5は、所有者の値を数値化するルールを表す図である。前処理部102は、例えば、図5に示すルールに従って、所有者を表す属性の値を数値に変換する。前処理部102は、例えば、図5の「所有者」の列に示される、所有者を表す属性の値を、同じ行の「対応値」の数値に変換する。
 図6は、アクセス権限の値を数値化するルールを表す図である。前処理部102は、例えば、図6に示すルールに従って、アクセス権限を表す属性の値を数値に変換する。前処理部102は、例えば、図6の「権限」の列に示される、アクセス権限を表す属性の値を、同じ行の「対応値」の数値に変換する。
 <条件記憶部202>
 条件記憶部202は、例えば、前処理部102が属性の値を数値に変換するためのルールを記憶する。条件記憶部202は、さらに、後述の解析部103が、属性ベクトルの各要素に付与する重みを記憶する。重みは、移行装置1の管理者等によって、あらかじめ定められていてよい。
 <解析部103>
 解析部103は、属性ベクトル(具体的には、正規化後の属性ベクトル)のクラスタリングを行う。解析部103は、ベクトルのクラスタリングを行う既存の任意の方法のいずれかによって、属性ベクトルのクラスタリングを行ってよい。解析部103は、クラスタリングによって、属性ベクトルの複数のクラスタが生成する。解析部103は、生成したクラスタの各々に、クラスタを識別する情報であるクラスタ識別子(例えば、番号など)を割り当てる。解析部103は、例えば、k-means法を用いてクラスタリングを行う。
 解析部103は、第1サーバ2から第2サーバ3にそのまま移行できるフォルダ(以下、単純移行元フォルダとも表記)の数を特定する。第1サーバ2から第2サーバ3にそのまま移行できるフォルダは、例えば、第2サーバ3において設定できる属性の値のみ設定されているフォルダである。第2サーバ3において対応する値が存在しない属性の値が設定されている、第1サーバ2のフォルダを、そのまま第2サーバ3に移行することはできない。解析部103は、例えば、第1サーバ2の移行対象の記憶領域に存在するフォルダのうち、設定されている属性に、第2サーバ3において設定できる属性の値のみ設定されているフォルダの数を特定し、特定した数をクラスタの数に設定してよい。言い換えると、解析部103は、第1サーバ2の移行対象の記憶領域に存在フォルダのうち、第2サーバ3において対応する値が存在しない属性の値が設定されているフォルダを除くフォルダの数を、クラスタの数に設定してよい。
 上述のように、第1サーバ2において、アクセス権限が非継承であることを表す値がフォルダの属性の値として設定可能であり、第2サーバ3において、アクセス権限が非継承である値をフォルダの属性の値を設定できない場合が存在する。この場合、そのようなフォルダを第1サーバ2から第2サーバ3にそのまま移行できない。解析部103は、第1サーバ2の移行対象の記憶領域において、アクセス権限が非継承である値が属性の値として設定されているフォルダを除くフォルダの数を特定し、特定したフォルダの数をクラスタの数に設定する。
 解析部103は、属性ベクトルのクラスタリングによって、各属性ベクトルが属するクラスタを特定する。言い換えると、解析部103は、属性ベクトルのクラスタリングによって、各属性ベクトルが分類されるクラスタを特定する。
 解析部103は、クラスタリングの結果に基づいて、各クラスタに関連するフォルダを決定する。具体的には、解析部103は、例えば、第1サーバ2から第2サーバ3にそのまま移行できるフォルダ(上述の単純移行元フォルダ)に格納されていたファイルのうち、最も多くのファイルが分類されたクラスタを特定する。そして、解析部103は、フォルダ構造を維持したまま移行を行った場合に、その単純移行元フォルダが移行されるフォルダである移行先フォルダを特定する。解析部103は、特定したクラスタと、移行先フォルダとを関連付ける。
 なお、上述のようにフォルダ構造を維持するとは、例えば、移行元の装置の移行の対象の記憶領域における、移行の対象のフォルダの構造と、移行先の装置の記憶領域における、移行が行われたフォルダの構造が同じであることを指す。
 解析部103は、上述の単純移行元フォルダと、クラスタとが、1対1で関連付けられるように、単純移行元フォルダとクラスタとの関連付けを行ってよい。その場合、解析部103は、例えば、単純移行元フォルダごとに、各クラスタに分類されたファイルの割合を算出する。解析部103は、算出された割合の値が最も大きい、単純移行元フォルダとクラスタとの組み合わせを特定する。単純移行元フォルダとクラスタとの組み合わせが1対1である場合、解析部103は、その組み合わせの単純移行元フォルダとクラスタとを関連付ける。
 クラスタが共通である複数の組み合わせが特定された場合、それらの組み合わせのいずれかに含まれる複数の単純移行元フォルダのうち、そのクラスタに分類されたファイルが最も多い単純移行元フォルダを特定する。1つの単純移行元フォルダが特定された場合、解析部103は、特定した単純移行元フォルダとそのクラスタとを関連付ける。複数の単純移行元フォルダが特定された場合、解析部103は、所定の選択方法に従って、複数の単純元フォルダから1つの単純にもう元フォルダを選択し、選択した単純移行元フォルダとそのクラスタとを関連付ける。所定の選択方法は、適宜定められていてよい。所定の選択方法は、ランダムに選択する方法であってもよい。所定の選択方法は、フォルダに割り当てられている所定の属性の値を数値とみなした場合に値の大きいフォルダ識別子が割り当てられている単純移行元フォルダを選択する方法であってもよい。所定の選択方法は、フォルダに割り当てられている所定の属性の値を数値とみなした場合に値の小さいフォルダ識別子が割り当てられている単純移行元フォルダを選択する方法であってもよい。
 解析部103は、互いに関連付けられた単純移行元フォルダとクラスタとを除いた、単純移行元フォルダとクラスタとの中で、単純移行元フォルダごとの、各クラスタに分類されたファイルの割合が最も大きい単純移行元フォルダとクラスタとの組み合わせを特定する。そして、解析部103は、特定された単純移行元フォルダとクラスタとの組み合わせから、上述のように、単純移行フォルダとクラスタとを関連付ける。解析部103は、関連付けられていない単純移行フォルダとクラスタとが存在しなくなるまで、単純移行フォルダとクラスタとの関連付けを繰り返す。
 以上で説明した方法は、単なる一例である。解析部103は、他の方法によって、クラスタと第2サーバ3におけるフォルダとを関連付けてよい。
 解析部103は、移行の対象であるファイルの各々の、ファイル識別子と、属性ベクトルが分類されたクラスタのクラスタ識別子とを、クラスタリングによって得られた複数のクラスタへのファイルの分類の結果として、分析結果記憶部203に格納する。以下では、クラスタリングによって得られた複数のクラスタへのファイルの分類の結果を、単に、ファイルの分類の結果、及び、分類の結果とも表記する。解析部103は、クラスタリングの結果として、生成された複数のクラスタの個数と、複数のクラスタの各々のクラスタ識別子と、複数のクラスタにそれぞれ関連付けられている第2サーバ3のフォルダを、分析結果記憶部203に格納してもよい。解析部103は、クラスタとフォルダとの関連付けの結果を、分析結果記憶部203に格納する。クラスタとフォルダとの関連付けの結果は、例えば、複数のクラスタについての、クラスタのクラスタ識別子と、移行元フォルダと、移行先フォルダと、の組み合わせである。移行先フォルダは、クラスタに最も多くのファイルが分類された、第1サーバ2のフォルダである。移行先フォルダは、フォルダ構造を保ったまま第1サーバ2から第2サーバ3へデータを移行した場合、その移行元フォルダの移行先の、第2サーバ3のフォルダである。以下では、クラスタとフォルダとの関連付けの結果を表す情報を、クラスタの情報とも表記する。
 解析部103は、属性ベクトルに基づくクラスタリング、及び、属性ベクトルに基づく分類において、属性ベクトル間の距離を算出する際、属性ベクトルの要素の各々に重みを付与してもよい。
 図7は、属性ベクトルの要素に付与する重みの例を表す図である。図7に示す例では、「作成日時」は、作成日時を表す属性が変換された数値の要素に付与される重みの例である。「更新日時」は、更新日時を表す属性が変換された数値の要素に付与される重みの例である。「所有者」は、所有者を表す属性が変換された数値の要素に付与される重みの例である。「権限」は、アクセス権限を表す属性が変換された数値の要素(すなわち、アクセス権限を表す要素)の各々に付与される重みの例である。図7に示す例では、アクセス権限を表す要素に付与される重みは、他の要素に付与される重みよりも大きい。言い換えると、解析部103は、アクセス権限を表す要素が、他の属性の要素と比較して、上述のクラスタリング及びファイルの分類に与える影響が大きくなるように、アクセス権限を表す要素および他の要素に重みを付与する。
 <分析結果記憶部203>
 分析結果記憶部203は、移行の対象であるファイルの各々の、ファイル識別子と、属性ベクトルが分類されたクラスタ識別子とを、クラスタリングによって得られた複数のクラスタへのファイルの分類の結果として記憶する。分析結果記憶部203は、クラスタリングの結果として、生成された複数のクラスタの個数と、複数のクラスタの各々のクラスタ識別子とを記憶していてもよい。分析結果記憶部203は、クラスタと移行先フォルダとの関連付けの結果(複数のクラスタのクラスタ識別子と、複数のクラスタにそれぞれ関連付けられている移行先フォルダすなわち第2サーバ3のフォルダと)を記憶する。
 図8は、ファイルの分類の結果の情報の例を表す図である。図8に示す例では、文書IDは、ファイルの識別子を表す。クラスタ番号は、クラスタの識別子を表す。そして、図8に示す例は、文書IDによって特定されるファイルが、クラスタ番号によって特定されるクラスタに分類されていることを表す。
 <権限対応記憶部204>
 権限対応記憶部204は、第1サーバ2においてファイル及びフォルダに設定され得るアクセス権限と、第2サーバ3において設定されるアクセス権限との対応(以下、権限対応と表記)を記憶する。権限対応は、例えば移行装置1の管理者によって、あらかじめ、第1サーバ2及び第2サーバ3の各々のアクセス権限の設定の情報に基づいて決定され、権限対応記憶部204に格納されていてよい。権限対応の形式は、適宜定められていてよい。
 <生成部303>
 生成部303は、分析結果記憶部203に格納されている情報に基づいて、複数のクラスタの各々に関連するフォルダを、第2サーバ3に生成する。具体的には、生成部303は、クラスタと移行先フォルダとの関連付けの結果(複数のクラスタのクラスタ識別子と、複数のクラスタにそれぞれ関連付けられている移行先フォルダ)に基づいて、複数のクラスタの各々に関連するフォルダを生成してよい。言い換えると、生成部303は、複数のクラスタ(具体的にはクラスタのクラスタ識別子)にそれぞれ関連付けられている移行先フォルダを生成する。
 生成部303は、さらに、権限対応記憶部204に格納されている権限対応の情報を読み出し、読み出した権限対応の情報に基づいて、生成した移行先フォルダにアクセス権限を設定する。
 <ファイル取得部301>
 ファイル取得部301は、第1サーバ2から、移行の対象であるファイルを取得する。ファイル取得部301は、例えば、第1サーバ2の、移行対象となる記憶領域に格納されているファイルを読み出す。ファイル取得部301は、移行の対象となるファイルを1つ1つ読み出してもよい。
 ファイル取得部301は、取得したファイルを、実行部302に送出する。
 <実行部302>
 実行部302は、ファイル取得部301から、移行の対象であるファイルを受け取る。実行部302は、分析結果記憶部203に格納されている、ファイルの分類の結果の情報と、クラスタと移行先フォルダとの関連付けの結果とに基づいて、受け取ったファイルが、第2サーバ3において格納されるフォルダを特定する。具体的には、実行部302は、受け取ったファイルが分類されるクラスタをファイルの分類の結果の情報において特定する。実行部302は、さらに、特定したクラスタに関連付けられている移行先フォルダを、クラスタと移行先フォルダとの関連付けの結果において特定する。実行部302は、受け取ったファイルを、そのファイルが分類されているクラスタに関連付けられている、第2サーバ3の移行先フォルダに格納する。
 <動作>
 次に、本実施形態の移行装置1の動作について、図面を使用して詳細に説明する。
 図9は、本開示の第1の実施形態に係る移行装置1の、クラスタ分類の動作の例を表すフローチャートである。
 図9に示す例では、ます、属性取得部101が、移行対象のファイル(すなわち、移行対象の記憶領域に格納されている全てのファイル)の属性の取得が終了するまで、ステップS101からステップS104までの属性取得ループを繰り返し実行する。属性取得ループでは、属性取得部101は、移行対象の1つのファイルの属性情報を取得する(ステップS102)。移行装置1は、取得した属性情報を記憶する(ステップS102)。具体的には、属性取得部101は、取得した属性情報を、移行元情報記憶部201に格納する。
 次に、前処理部102が、属性情報の前処理を行う(ステップS105)。具体的には、前処理部102は、各ファイルの属性情報から属性ベクトルを生成する。
 次に、解析部103が、属性情報に基づく、クラスタの生成とファイルのクラスタへの分類とを行う(ステップS106)。移行装置1は、クラスタの情報と、分類の結果とを、記憶する(ステップS107)。具体的には、解析部103は、クラスタの情報と、分類の結果とを、分析結果記憶部203に格納する。クラスタの情報は、上述のように、クラスタとフォルダとの関連付けの結果を表す情報を指す。分類の結果は、クラスタへのファイルの分類の結果を表す。
 図10は、本開示の第1の実施形態に係る移行装置1の、データ移行の動作の例を表すフローチャートである。
 図10に示す例では、まず、生成部303が、第2サーバ3に、移行先のフォルダを生成する(ステップS201)。生成部303は、ステップS201において、作成したフォルダに、アクセス権等の属性の値を設定する。
 次に、移行装置1は、ステップS202からステップS206までのファイル移行ループを、移行の対象のファイルの格納が終了するまで繰り返し実行する。ファイル移行ループでは、まず、ファイル取得部301が、1つのファイルを対象ファイルとして取得する(ステップS203)。実行部302は、対象ファイルの移行先の情報を取得する(ステップS204)。ステップS204において、実行部302は、分析結果記憶部203に格納されている、クラスタの情報と分類の結果に基づいて、対象ファイルが分類されたクラスタに関連付けられている、移行先のフォルダを特定する。実行部302は、対象ファイルを、特定した移行先のフォルダに格納する(ステップS205)。
 <効果>
 本実施形態には、移行元のフォルダ構造を維持したまま移行先にデータの移行を行うことができない場合であっても、ファイルが格納される移行先のフォルダを決定できるという効果がある。その理由は、解析部103が、ファイルの属性に基づいてファイルをクラスタに分類し、実行部302が、そのファイルを、ファイルが分類されたクラスタに関連付けられる移行先のフォルダに格納するからである。
 <変形例>
 以下では、第1の実施形態の変形例について説明する。以下の説明では、特に説明が無い限り、移行システム10及び移行装置1の各要素は、第1の実施形態において、同じ名称と同じ符号とが付与されている要素と同じである。
 <第1の変形例>
 解析部103は、クラスタリングを、k-means法などの非階層型のクラスタリング方法ではなく、ウォード法などの階層型のクラスタリング方法によって行ってもよい。解析部103は、分析過程で作成されるデンドログラムを任意の高さで区切ることでクラスタを決定し、移行後のフォルダ構造を決定する。
 本変形例では、行先のフォルダ構造が移行元と大きく変わってしまう場合がある。しかし、階層型クラスタ分析では予めクラスタ数を決める必要が無い、クラスタリングの結果を階層構造で得られるといった利点がある。
 <第2の変形例>
 本変形例では、解析部103は、第1サーバ2から第2サーバ3にそのまま移行できるフォルダ(上述の単純移行元フォルダ)に格納されているファイルの属性情報のみを用いて、上述のクラスタリングを行う。クラスタリングによって、単純移行元フォルダに格納されているファイルは、いずれかのクラスタに分類される。言い換えると、解析部103は、クラスタリングによって、単純移行元フォルダに格納されているファイルを、クラスタリングによって生成されたいずれかのクラスタに分類する。
 解析部103は、属性情報を使用して、第1サーバ2から第2サーバ3にそのまま移行できないフォルダ(以下では、非単純移行元フォルダとも表記)に格納されているファイルを、クラスタリングによって生成されたいずれかのクラスタに分類する。非単純移行元フォルダは、第1サーバ2の移行対象の記憶領域に存在するフォルダのうち、単純移行元フォルダ以外のフォルダである。具体的には、解析部103は、非単純移行元フォルダに格納されているファイルの属性ベクトルが、分類されるクラスタを、クラスタリングによって生成された複数のクラスタから特定する。解析部103が、属性ベクトルを、複数のクラスタのいずれかに分類する方法は、既存の分類方法のいずれかであってよい。解析部103は、例えば、クラスタリングによって生成された複数のクラスタの各々の代表属性ベクトルを算出する。代表属性ベクトルは、例えば、クラスタに含まれるファイルの属性ベクトルの平均ベクトルである。代表属性ベクトルは、他のベクトルであってもよい。解析部103は、複数のクラスタの各々の代表ベクトルと、非単純移行元フォルダに格納されているファイルの属性ベクトルと、の要素の値に、要素にそれぞれ付与されている重みを掛ける。そして、解析部103は、重みが掛けられた、非単純移行フォルダに格納されているファイルの属性ベクトルの各々と、複数のクラスタの各々の代表ベクトルと、の間の距離(例えばユークリッド距離)を算出する。解析部103は、非単純移行フォルダに格納されているファイルの属性ベクトルと代表ベクトルとの間の上述の距離が最も小さいクラスタに、そのファイルを分類する。
 <第3の変形例>
 解析部103は、同じ単純移行元フォルダに格納されている全てのファイルを、同じクラスタに分類する。その他の点において、本変形例は第2の変形例と同じである。
 <第4の変形例>
 前処理部102は、所定の属性の値が所定値ではない属性情報から属性ベクトルを生成する。前処理部102は、所定の属性の値が所定値である属性情報から属性ベクトルを生成しない。
 所定の属性の所定値は、例えば、第1サーバ2においては設定でき、第2サーバ3においては設定できない設定値である。所定の属性は、例えば、アクセス権の継承又は非継承を表す値であり、所定の属性の所定値は、例えば、アクセス権の非継承を表す値であってよい。
 解析部103は、所定の属性の値が所定値である属性情報のファイルの分類を行う。解析部103は、所定の属性の値が所定値である属性情報のファイルの分類を、所定の属性の値以外の属性の値に基づいて行ってよい。分類の方法は、例えば、ベクトルをいずれかのクラスタに分類する、既存の任意の方法のいずれかであってよい。解析部103は、例えば、各クラスタの代表属性ベクトルを算出してよい。解析部103は、所定の属性が所定値である属性情報から生成された属性ベクトルと、代表属性ベクトルの各々との間のユークリッド距離を算出してよい。解析部103は、算出されたユークリッド距離が最も小さいクラスタを特定してよい。解析部103は、その属性ベクトルが生成された属性が付与されているファイルを、特定したクラスタに分類してよい。
 条件記憶部202は、上述の所定の属性を特定する情報を記憶する。
 <第2の実施形態>
 次に、本開示の第2の実施形態について、図面を使用して詳細に説明する。
 <構成>
 図11は、本開示の第2の実施形態に係る移行装置1Aの構成の例を表すブロック図である。図11に示す例では、移行装置1Aは、解析部103と、実行部302と、を備える。解析部103は、第1サーバに格納されているファイルの属性情報に基づくクラスタリングによって、前記ファイルの複数のクラスタを生成し、当該複数のクラスタのいずれかに、前記第1サーバの対象ファイルを、当該対象ファイルの属性情報に基づいて分類する。
実行部302は、前記対象ファイルを、当該対象ファイルが分類されたクラスタに関連付けられる、第2サーバのフォルダに格納する。解析部103及び実行部302は、それぞれ、第1の実施形態の解析部103及び実行部302と同様に動作してよい。
 <動作>
 図12は、本開示の第2の実施形態に係る移行装置1Aの動作の例を表すフローチャートである。図12に示す例では、まず、解析部103が、第1サーバのファイルの属性情報に基づいて、ファイルをクラスタに分類する(ステップS301)。次に、実行部302が、ファイルが分類されたクラスタに関連付けられている第2サーバのフォルダに、ファイルを格納する(ステップS302)。
 <効果>
 本実施形態には、第1の実施形態の効果と同じ効果がある。その理由は、第1の実施形態の効果が生じる理由と同じである。
 <他の実施形態>
 移行装置1及び移行装置1Aは、記憶媒体から読み出されたプログラムがロードされたメモリと、そのプログラムを実行するプロセッサとを含むコンピュータによって実現することができる。このコンピュータは、互いに通信可能に接続された複数のコンピュータの組み合わせであってもよい。移行装置1及び移行装置1Aは、回路などの専用のハードウェアによって実現することもできる。この回路は、互いに通信可能に接続された複数の回路の組み合わせであってもよい。移行装置1及び移行装置1Aは、互いに通信可能に接続された、前述のコンピュータと専用のハードウェアとの組み合わせによって実現することもできる。
 図13は、本開示の実施形態に係る移行装置を実現することができる、コンピュータ1000のハードウェア構成の一例を表す図である。図13を参照すると、コンピュータ1000は、プロセッサ1001と、メモリ1002と、記憶装置1003と、I/O(Input/Output)インタフェース1004とを含む。また、コンピュータ1000は、記憶媒体1005にアクセスすることができる。メモリ1002と記憶装置1003は、例えば、RAM(Random Access Memory)、ハードディスクなどの記憶装置である。記憶媒体1005は、例えば、RAM、ハードディスクなどの記憶装置、ROM(Read Only Memory)、可搬記憶媒体である。記憶装置1003が記憶媒体1005であってもよい。プロセッサ1001は、メモリ1002と、記憶装置1003に対して、データやプログラムの読み出しと書き込みを行うことができる。プロセッサ1001は、I/Oインタフェース1004を介して、例えば、第1サーバ2及び第2サーバ3にアクセスすることができる。プロセッサ1001は、記憶媒体1005にアクセスすることができる。記憶媒体1005には、コンピュータ1000を、本開示の実施形態に係る移行装置として動作させるプログラムが格納されている。
 プロセッサ1001は、記憶媒体1005に格納されている、コンピュータ1000を、本開示の実施形態に係る移行装置として動作させるプログラムを、メモリ1002にロードする。そして、プロセッサ1001が、メモリ1002にロードされたプログラムを実行することにより、コンピュータ1000は、本開示の実施形態に係る移行装置として動作する。
 属性取得部101、前処理部102、解析部103、移行制御部104、ファイル取得部301、実行部302、生成部303は、例えばメモリ1002にロードされたプログラムを実行するプロセッサ1001により実現できる。また、移行元情報記憶部201、条件記憶部202、分析結果記憶部203、権限対応記憶部204は、コンピュータ1000が含むメモリ1002やハードディスク装置等の記憶装置1003により実現できる。属性取得部101、前処理部102、解析部103、移行制御部104、移行元情報記憶部201、条件記憶部202、分析結果記憶部203、権限対応記憶部204、ファイル取得部301、実行部302、生成部303の一部又は全部を専用の回路によっても実現できる。
 また、上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
 (付記1)
 第1サーバに格納されているファイルの属性情報に基づくクラスタリングによって、前記ファイルの複数のクラスタを生成し、当該複数のクラスタのいずれかに、前記第1サーバの対象ファイルを、当該対象ファイルの属性情報に基づいて分類する解析手段と、
 前記対象ファイルを、当該対象ファイルが分類されたクラスタに関連付けられる、第2サーバのフォルダに格納する実行手段と、
 を備える移行装置。
 (付記2)
 前記属性情報から、当該属性情報に基づくベクトルである属性ベクトルを生成する前処理手段を備え、
 前記解析手段は、前記第1サーバに格納されている前記ファイルの前記属性ベクトルの前記クラスタリングによって前記複数のクラスタを生成し、前記対象ファイルの前記属性ベクトルに基づいて、前記対象ファイルを前記複数のクラスタのいずれかに分類する
 付記1に記載の移行装置。
 (付記3)
 前記解析手段は、第1属性の値が第1所定値ではない前記属性情報に基づく前記クラスタリングによって、前記複数のクラスタを生成する
 付記1又は2に記載の移行装置。
 (付記4)
 前記第1所定値は、前記第1サーバにおいて設定され、前記第2サーバにおいて設定できない属性である
 付記3に記載の移行装置。
 (付記5)
 前記解析手段は、前記属性情報の複数の属性の各々に対して重みを設定し、前記対象ファイルの前記属性情報と前記重みとに基づいて、前記対象ファイルを前記複数のクラスタのいずれかに分類する
 付記1乃至4のいずれか1項に記載の移行装置。
 (付記6)
 前記解析手段は、前記属性情報と前記重みとに基づく前記クラスタリングによって、前記複数のクラスタを生成する
 付記5に記載の移行装置。
 (付記7)
 前記解析手段は、前記対象ファイルの前記複数のクラスタのいずれかへの分類に、前記複数の属性のうち前記ファイルへのアクセスの権限の属性である第2属性が与える影響が、前記第2属性以外の前記複数の属性が前記分類に与える影響よりも大きくなるように、前記第2属性の重みを決定する
 付記5又は6に記載の移行装置。
 (付記8)
 前記第1サーバから、当該第1サーバに格納されている前記ファイルの前記属性情報を取得する属性取得手段と、
 前記第1サーバから前記対象ファイルを取得するファイル取得手段と、
 前記複数のクラスタにそれぞれ関連する複数のフォルダを前記第2サーバに作成する作成手段と、
 をさらに備える付記1乃至7のいずれか1項に記載の移行装置。
 (付記9)
 第1サーバに格納されているファイルの属性情報に基づくクラスタリングによって、前記ファイルの複数のクラスタを生成し、当該複数のクラスタのいずれかに、前記第1サーバの対象ファイルを、当該対象ファイルの属性情報に基づいて分類し、
 前記対象ファイルを、当該対象ファイルが分類されたクラスタに関連付けられる、第2サーバのフォルダに格納する、
 移行方法。
 (付記10)
 前記属性情報から、当該属性情報に基づくベクトルである属性ベクトルを生成し、
 前記第1サーバに格納されている前記ファイルの前記属性ベクトルの前記クラスタリングによって前記複数のクラスタを生成し、前記対象ファイルの前記属性ベクトルに基づいて、前記対象ファイルを前記複数のクラスタのいずれかに分類する
 付記9に記載の移行方法。
 (付記11)
 第1属性の値が第1所定値ではない前記属性情報に基づく前記クラスタリングによって、前記複数のクラスタを生成する
 付記9又は10に記載の移行方法。
 (付記12)
 前記第1所定値は、前記第1サーバにおいて設定され、前記第2サーバにおいて設定できない属性である
 付記11に記載の移行方法。
 (付記13)
 前記属性情報の複数の属性の各々に対して重みを設定し、前記対象ファイルの前記属性情報と前記重みとに基づいて、前記対象ファイルを前記複数のクラスタのいずれかに分類する
 付記9乃至12のいずれか1項に記載の移行方法。
 (付記14)
 前記属性情報と前記重みとに基づく前記クラスタリングによって、前記複数のクラスタを生成する
 付記13に記載の移行方法。
 (付記15)
 前記対象ファイルの前記複数のクラスタのいずれかへの分類に、前記複数の属性のうち前記ファイルへのアクセスの権限の属性である第2属性が与える影響が、前記第2属性以外の前記複数の属性が前記分類に与える影響よりも大きくなるように、前記第2属性の重みを決定する
 付記13又は14に記載の移行方法。
 (付記16)
 前記第1サーバから、当該第1サーバに格納されている前記ファイルの前記属性情報を取得し、
 前記第1サーバから前記対象ファイルを取得し、
 前記複数のクラスタにそれぞれ関連する複数のフォルダを前記第2サーバに作成する、
 付記9乃至15のいずれか1項に記載の移行方法。
 (付記17)
 第1サーバに格納されているファイルの属性情報に基づくクラスタリングによって、前記ファイルの複数のクラスタを生成し、当該複数のクラスタのいずれかに、前記第1サーバの対象ファイルを、当該対象ファイルの属性情報に基づいて分類する解析処理と、
 前記対象ファイルを、当該対象ファイルが分類されたクラスタに関連付けられる、第2サーバのフォルダに格納する実行処理と、
 をコンピュータに実行させるプログラム。
 (付記18)
 前記属性情報から、当該属性情報に基づくベクトルである属性ベクトルを生成する前処理処理をコンピュータにさらに実行させ、
 前記解析処理は、前記第1サーバに格納されている前記ファイルの前記属性ベクトルの前記クラスタリングによって前記複数のクラスタを生成し、前記対象ファイルの前記属性ベクトルに基づいて、前記対象ファイルを前記複数のクラスタのいずれかに分類する
 付記17に記載のプログラム。
 (付記19)
 前記解析処理は、第1属性の値が第1所定値ではない前記属性情報に基づく前記クラスタリングによって、前記複数のクラスタを生成する
 付記17又は18に記載のプログラム。
 (付記20)
 前記第1所定値は、前記第1サーバにおいて設定され、前記第2サーバにおいて設定できない属性である
 付記19に記載のプログラム。
 (付記21)
 前記解析処理は、前記属性情報の複数の属性の各々に対して重みを設定し、前記対象ファイルの前記属性情報と前記重みとに基づいて、前記対象ファイルを前記複数のクラスタのいずれかに分類する
 付記17乃至20のいずれか1項に記載のプログラム。
 (付記22)
 前記解析処理は、前記属性情報と前記重みとに基づく前記クラスタリングによって、前記複数のクラスタを生成する
 付記21に記載のプログラム。
 (付記23)
 前記解析処理は、前記対象ファイルの前記複数のクラスタのいずれかへの分類に、前記複数の属性のうち前記ファイルへのアクセスの権限の属性である第2属性が与える影響が、前記第2属性以外の前記複数の属性が前記分類に与える影響よりも大きくなるように、前記第2属性の重みを決定する
 付記21又は22に記載のプログラム。
 (付記24)
 前記第1サーバから、当該第1サーバに格納されている前記ファイルの前記属性情報を取得する属性取得処理と、
 前記第1サーバから前記対象ファイルを取得するファイル取得処理と、
 前記複数のクラスタにそれぞれ関連する複数のフォルダを前記第2サーバに作成する作成処理と、
 をコンピュータにさらに実行させる付記17乃至23のいずれか1項に記載のプログラム。
 以上、実施形態を参照して本開示を説明したが、本開示は上記実施形態に限定されるものではない。本開示の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この出願は、2020年11月9日に出願された日本出願特願2020-186306を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 1  移行装置
 1A  移行装置
 2  第1サーバ
 3  第2サーバ
 10  移行システム
 101  属性取得部
 102  前処理部
 103  解析部
 104  移行制御部
 201  移行元情報記憶部
 202  条件記憶部
 203  分析結果記憶部
 204  権限対応記憶部
 301  ファイル取得部
 302  実行部
 303  生成部
 1000  コンピュータ
 1001  プロセッサ
 1002  メモリ
 1003  記憶装置
 1004  I/Oインタフェース
 1005  記憶媒体

Claims (24)

  1.  第1サーバに格納されているファイルの属性情報に基づくクラスタリングによって、前記ファイルの複数のクラスタを生成し、当該複数のクラスタのいずれかに、前記第1サーバの対象ファイルを、当該対象ファイルの属性情報に基づいて分類する解析手段と、
     前記対象ファイルを、当該対象ファイルが分類されたクラスタに関連付けられる、第2サーバのフォルダに格納する実行手段と、
     を備える移行装置。
  2.  前記属性情報から、当該属性情報に基づくベクトルである属性ベクトルを生成する前処理手段を備え、
     前記解析手段は、前記第1サーバに格納されている前記ファイルの前記属性ベクトルの前記クラスタリングによって前記複数のクラスタを生成し、前記対象ファイルの前記属性ベクトルに基づいて、前記対象ファイルを前記複数のクラスタのいずれかに分類する
     請求項1に記載の移行装置。
  3.  前記解析手段は、第1属性の値が第1所定値ではない前記属性情報に基づく前記クラスタリングによって、前記複数のクラスタを生成する
     請求項1又は2に記載の移行装置。
  4.  前記第1所定値は、前記第1サーバにおいて設定され、前記第2サーバにおいて設定できない属性である
     請求項3に記載の移行装置。
  5.  前記解析手段は、前記属性情報の複数の属性の各々に対して重みを設定し、前記対象ファイルの前記属性情報と前記重みとに基づいて、前記対象ファイルを前記複数のクラスタのいずれかに分類する
     請求項1乃至4のいずれか1項に記載の移行装置。
  6.  前記解析手段は、前記属性情報と前記重みとに基づく前記クラスタリングによって、前記複数のクラスタを生成する
     請求項5に記載の移行装置。
  7.  前記解析手段は、前記対象ファイルの前記複数のクラスタのいずれかへの分類に、前記複数の属性のうち前記ファイルへのアクセスの権限の属性である第2属性が与える影響が、前記第2属性以外の前記複数の属性が前記分類に与える影響よりも大きくなるように、前記第2属性の重みを決定する
     請求項5又は6に記載の移行装置。
  8.  前記第1サーバから、当該第1サーバに格納されている前記ファイルの前記属性情報を取得する属性取得手段と、
     前記第1サーバから前記対象ファイルを取得するファイル取得手段と、
     前記複数のクラスタにそれぞれ関連する複数のフォルダを前記第2サーバに作成する作成手段と、
     をさらに備える請求項1乃至7のいずれか1項に記載の移行装置。
  9.  第1サーバに格納されているファイルの属性情報に基づくクラスタリングによって、前記ファイルの複数のクラスタを生成し、当該複数のクラスタのいずれかに、前記第1サーバの対象ファイルを、当該対象ファイルの属性情報に基づいて分類し、
     前記対象ファイルを、当該対象ファイルが分類されたクラスタに関連付けられる、第2サーバのフォルダに格納する、
     移行方法。
  10.  前記属性情報から、当該属性情報に基づくベクトルである属性ベクトルを生成し、
     前記第1サーバに格納されている前記ファイルの前記属性ベクトルの前記クラスタリングによって前記複数のクラスタを生成し、前記対象ファイルの前記属性ベクトルに基づいて、前記対象ファイルを前記複数のクラスタのいずれかに分類する
     請求項9に記載の移行方法。
  11.  第1属性の値が第1所定値ではない前記属性情報に基づく前記クラスタリングによって、前記複数のクラスタを生成する
     請求項9又は10に記載の移行方法。
  12.  前記第1所定値は、前記第1サーバにおいて設定され、前記第2サーバにおいて設定できない属性である
     請求項11に記載の移行方法。
  13.  前記属性情報の複数の属性の各々に対して重みを設定し、前記対象ファイルの前記属性情報と前記重みとに基づいて、前記対象ファイルを前記複数のクラスタのいずれかに分類する
     請求項9乃至12のいずれか1項に記載の移行方法。
  14.  前記属性情報と前記重みとに基づく前記クラスタリングによって、前記複数のクラスタを生成する
     請求項13に記載の移行方法。
  15.  前記対象ファイルの前記複数のクラスタのいずれかへの分類に、前記複数の属性のうち前記ファイルへのアクセスの権限の属性である第2属性が与える影響が、前記第2属性以外の前記複数の属性が前記分類に与える影響よりも大きくなるように、前記第2属性の重みを決定する
     請求項13又は14に記載の移行方法。
  16.  前記第1サーバから、当該第1サーバに格納されている前記ファイルの前記属性情報を取得し、
     前記第1サーバから前記対象ファイルを取得し、
     前記複数のクラスタにそれぞれ関連する複数のフォルダを前記第2サーバに作成する、
     請求項9乃至15のいずれか1項に記載の移行方法。
  17.  第1サーバに格納されているファイルの属性情報に基づくクラスタリングによって、前記ファイルの複数のクラスタを生成し、当該複数のクラスタのいずれかに、前記第1サーバの対象ファイルを、当該対象ファイルの属性情報に基づいて分類する解析処理と、
     前記対象ファイルを、当該対象ファイルが分類されたクラスタに関連付けられる、第2サーバのフォルダに格納する実行処理と、
     をコンピュータに実行させるプログラムを記憶する記憶媒体。
  18.  前記属性情報から、当該属性情報に基づくベクトルである属性ベクトルを生成する前処理処理をコンピュータにさらに実行させ、
     前記解析処理は、前記第1サーバに格納されている前記ファイルの前記属性ベクトルの前記クラスタリングによって前記複数のクラスタを生成し、前記対象ファイルの前記属性ベクトルに基づいて、前記対象ファイルを前記複数のクラスタのいずれかに分類する
     請求項17に記載の記憶媒体。
  19.  前記解析処理は、第1属性の値が第1所定値ではない前記属性情報に基づく前記クラスタリングによって、前記複数のクラスタを生成する
     請求項17又は18に記載の記憶媒体。
  20.  前記第1所定値は、前記第1サーバにおいて設定され、前記第2サーバにおいて設定できない属性である
     請求項19に記載の記憶媒体。
  21.  前記解析処理は、前記属性情報の複数の属性の各々に対して重みを設定し、前記対象ファイルの前記属性情報と前記重みとに基づいて、前記対象ファイルを前記複数のクラスタのいずれかに分類する
     請求項17乃至20のいずれか1項に記載の記憶媒体。
  22.  前記解析処理は、前記属性情報と前記重みとに基づく前記クラスタリングによって、前記複数のクラスタを生成する
     請求項21に記載の記憶媒体。
  23.  前記解析処理は、前記対象ファイルの前記複数のクラスタのいずれかへの分類に、前記複数の属性のうち前記ファイルへのアクセスの権限の属性である第2属性が与える影響が、前記第2属性以外の前記複数の属性が前記分類に与える影響よりも大きくなるように、前記第2属性の重みを決定する
     請求項21又は22に記載の記憶媒体。
  24.  前記プログラムは、
     前記第1サーバから、当該第1サーバに格納されている前記ファイルの前記属性情報を取得する属性取得処理と、
     前記第1サーバから前記対象ファイルを取得するファイル取得処理と、
     前記複数のクラスタにそれぞれ関連する複数のフォルダを前記第2サーバに作成する作成処理と、
     をコンピュータにさらに実行させる請求項17乃至23のいずれか1項に記載の記憶媒体。
PCT/JP2021/038614 2020-11-09 2021-10-19 移行装置、移行方法及び記憶媒体 WO2022097469A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022560702A JP7517463B2 (ja) 2020-11-09 2021-10-19 移行装置、移行方法及びプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-186306 2020-11-09
JP2020186306 2020-11-09

Publications (1)

Publication Number Publication Date
WO2022097469A1 true WO2022097469A1 (ja) 2022-05-12

Family

ID=81457207

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/038614 WO2022097469A1 (ja) 2020-11-09 2021-10-19 移行装置、移行方法及び記憶媒体

Country Status (2)

Country Link
JP (1) JP7517463B2 (ja)
WO (1) WO2022097469A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5734720A (en) * 1994-11-29 1998-03-31 Salganicoff; Marcos System and method for providing digital communications between a head end and a set top terminal
JP2007293619A (ja) * 2006-04-25 2007-11-08 Canon Software Inc サーバ装置および情報共有システムおよびプログラムおよび記録媒体
JP2018005446A (ja) * 2016-06-30 2018-01-11 富士通株式会社 情報処理装置、ストレージ制御プログラム、及びストレージ制御方法
US20180075138A1 (en) * 2016-09-14 2018-03-15 FileFacets Corp. Electronic document management using classification taxonomy
US20190332486A1 (en) * 2018-04-27 2019-10-31 Acronis International Gmbh System and method for data classification during file backup

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006040146A (ja) 2004-07-29 2006-02-09 Nippon Telegr & Teleph Corp <Ntt> ファイル実行システムとその方法
TWI698754B (zh) 2018-05-29 2020-07-11 普安科技股份有限公司 雲端服務之權限管理方法及其系統

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5734720A (en) * 1994-11-29 1998-03-31 Salganicoff; Marcos System and method for providing digital communications between a head end and a set top terminal
JP2007293619A (ja) * 2006-04-25 2007-11-08 Canon Software Inc サーバ装置および情報共有システムおよびプログラムおよび記録媒体
JP2018005446A (ja) * 2016-06-30 2018-01-11 富士通株式会社 情報処理装置、ストレージ制御プログラム、及びストレージ制御方法
US20180075138A1 (en) * 2016-09-14 2018-03-15 FileFacets Corp. Electronic document management using classification taxonomy
US20190332486A1 (en) * 2018-04-27 2019-10-31 Acronis International Gmbh System and method for data classification during file backup

Also Published As

Publication number Publication date
JP7517463B2 (ja) 2024-07-17
JPWO2022097469A1 (ja) 2022-05-12

Similar Documents

Publication Publication Date Title
US20200356901A1 (en) Target variable distribution-based acceptance of machine learning test data sets
KR102291842B1 (ko) 파일 공유를 위한 기술들
CN107292186B (zh) 一种基于随机森林的模型训练方法和装置
CN106997367B (zh) 程序文件的分类方法、分类装置和分类系统
US11972228B2 (en) Merging database tables by classifying comparison signatures
KR101355273B1 (ko) 컴퓨팅 시스템 및 그 실행 제어 방법과, 그 실행 제어 프로그램을 기록한 기록 매체
US11900320B2 (en) Utilizing machine learning models for identifying a subject of a query, a context for the subject, and a workflow
US11132293B2 (en) Intelligent garbage collector for containers
US10983873B1 (en) Prioritizing electronic backup
US11455554B2 (en) Trustworthiness of artificial intelligence models in presence of anomalous data
US11270226B2 (en) Hybrid learning-based ticket classification and response
US11593700B1 (en) Network-accessible service for exploration of machine learning models and results
HajKacem et al. Overview of scalable partitional methods for big data clustering
Ognev et al. Clustering of malicious executable files based on the sequence analysis of system calls
US20200380405A1 (en) Data exposure for transparency in artificial intelligence
KR20200073822A (ko) 악성코드 분류 방법 및 그 장치
US20220121665A1 (en) Computerized Methods and Systems for Selecting a View of Query Results
WO2022097469A1 (ja) 移行装置、移行方法及び記憶媒体
CN116204554B (zh) 数据处理方法、系统、电子设备和存储介质
Pohl et al. Active online learning for social media analysis to support crisis management
JP2007133632A (ja) セキュリティポリシー設定方法及びプログラム
US11610151B2 (en) Distribution system, data management apparatus, data management method, and computer-readable recording medium
Alyahyan et al. Feature level ensemble method for classifying multi-media data
Paul et al. Counterfactual Causal Analysis on Structured Data
CN111190607A (zh) 任务插件处理方法和装置、任务调度服务器及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21889022

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022560702

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21889022

Country of ref document: EP

Kind code of ref document: A1