WO2022158027A1 - Cluster processing device, clustering processing method, non-transitory computer-readable medium, and information processing device - Google Patents

Cluster processing device, clustering processing method, non-transitory computer-readable medium, and information processing device Download PDF

Info

Publication number
WO2022158027A1
WO2022158027A1 PCT/JP2021/031795 JP2021031795W WO2022158027A1 WO 2022158027 A1 WO2022158027 A1 WO 2022158027A1 JP 2021031795 W JP2021031795 W JP 2021031795W WO 2022158027 A1 WO2022158027 A1 WO 2022158027A1
Authority
WO
WIPO (PCT)
Prior art keywords
clustering
node
data
unit
unlabeled
Prior art date
Application number
PCT/JP2021/031795
Other languages
French (fr)
Japanese (ja)
Inventor
修 長谷川
洸輔 井加田
直純 津田
Original Assignee
Soinn株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Soinn株式会社 filed Critical Soinn株式会社
Priority to JP2022576961A priority Critical patent/JPWO2022158027A5/en
Publication of WO2022158027A1 publication Critical patent/WO2022158027A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • the present invention relates to a clustering processing device, a clustering processing method, a program, and an information processing device, for example, a clustering processing device, a clustering processing method, and a clustering processing method that sequentially input input vectors belonging to an arbitrary class and learn the input distribution structure of the input vectors. It relates to a program and an information processing device.
  • SOINN Self-Organizing Incremental Neural Network
  • a method is proposed.
  • SOINN has many advantages such as being able to learn non-stationary inputs by autonomously managing the number of nodes, and being able to extract an appropriate number of classes and topological structure even for classes with complex distribution shapes.
  • SOINN for example, in pattern recognition, after learning a class of hiragana characters, a class of katakana characters can be additionally learned.
  • E-SOINN Enhanced SOINN
  • Patent Document 1 E-SOINN is capable of online additional learning in which learning is added at any time, and has the advantage of being more efficient than batch learning. Therefore, in E-SOINN, additional learning is possible even when the learning environment changes to a new environment. E-SOINN also has the advantage of high noise resistance to input data.
  • LB-SOINN Load Balance Self-Organizing Incremental Neural Network
  • Non-Patent Document 1 It is also possible to apply labels to unlabeled nodes by applying other methods such as active learning (Non-Patent Document 1). However, even in this case, if unlabeled nodes remain, it is still necessary to manually assign labels. Also, with this method, the teacher data must be created first, so manual labeling is required here as well.
  • the present invention has been made in view of the above circumstances, and provides a clustering processing apparatus, clustering processing method, program, and information processing capable of assigning appropriate labels to all nodes in unsupervised learning of input data.
  • the purpose is to provide an apparatus.
  • a clustering processing apparatus clusters input data composed of a plurality of unlabeled nodes described by multidimensional vectors, and clusters intermediate data obtained by labeling nodes belonging to the clusters. and an unlabeled node included in the clustering intermediate data, among the nodes belonging to any of the clusters included in the clustering intermediate data, the label attached and an additional clustering processing unit that creates clustering result data with the same label as that attached to the node at the shortest distance from the node that does not have the clustering result.
  • clustering result data can be created in which the same label as the shortest-distance node belonging to any cluster is assigned to a node that was not assigned a label in the initial clustering process.
  • a clustering processing device is the clustering processing device described above, wherein the additional clustering processing unit selects unlabeled nodes that do not belong to any of the clusters from the nodes included in the clustering intermediate data.
  • a node selection unit that selects one
  • a distance calculation unit that calculates the distance between the selected one unlabeled node and all nodes belonging to the cluster, and based on the calculated distance
  • a belonging cluster determination unit that identifies a shortest distance node at the shortest distance from the selected one unlabeled node from all nodes belonging to the cluster, and selects the same label as the label given to the shortest distance node.
  • a label assigning unit that assigns to one unlabeled node that has been labeled.
  • the shortest distance between a node to which no label was given in the initial clustering process and a node belonging to the cluster can be calculated, and the same label as the shortest distance node can be given to the node to which the label was not given.
  • a clustering processing device is the clustering processing device described above, wherein the additional clustering processing unit determines whether or not a node to which the intermediate clustering data is not labeled exists.
  • the additional clustering processing unit further includes a determination unit, wherein the node selection unit and the distance calculation unit continue until the progress determination unit determines that the clustering intermediate data includes unlabeled nodes. , the processing by the belonging cluster determining unit and the label assigning unit are repeated. As a result, labels can be assigned to all pairs of nodes that were not labeled in the initial clustering process.
  • a clustering processing method clusters input data consisting of a plurality of unlabeled nodes described by multidimensional vectors, and clusters intermediate data obtained by labeling nodes belonging to the clusters. and the shortest from the unlabeled node among the nodes belonging to any of the clusters included in the clustering intermediate data to the unlabeled node included in the clustering intermediate data It creates clustering result data with the same labels as those attached to the nodes in the distance. As a result, clustering result data can be created in which the same label as the shortest-distance node belonging to any cluster is assigned to a node that was not assigned a label in the initial clustering process.
  • a program clusters input data consisting of a plurality of unlabeled nodes described by multidimensional vectors, and acquires clustering intermediate data in which the nodes belonging to the clusters are labeled. and for an unlabeled node included in the clustering intermediate data, the node belonging to one of the clusters included in the clustering intermediate data, from the unlabeled node to the shortest and a process of creating clustering result data with the same labels as those attached to nodes at a distance.
  • clustering result data can be created in which the same label as the shortest-distance node belonging to any cluster is assigned to a node that was not assigned a label in the initial clustering process.
  • An information processing apparatus creates teacher data by performing a clustering process on input data for creating teacher data, which is composed of a plurality of unlabeled nodes described by multidimensional vectors.
  • a supervised learning unit that assigns a label to a node of input data to be learned, which is composed of a plurality of unlabeled nodes described by a multidimensional vector, based on the teacher data;
  • a display unit for displaying a result of processing by the supervised learning unit, wherein the teacher data creation unit clusters input data composed of a plurality of unlabeled nodes described by multidimensional vectors, and clusters an initial clustering processing unit that obtains clustering intermediate data in which labels are assigned to nodes belonging to; and an additional clustering processing unit for creating clustering result data with the same label attached to the node at the shortest distance from the unlabeled node among the nodes belonging to the .
  • clustering result data can be created in which the same label as the shortest-distance node
  • a clustering processing device in unsupervised learning of input data, it is possible to provide a clustering processing device, a clustering processing method, a program, and an information processing device capable of assigning appropriate labels to all nodes after clustering.
  • FIG. 1 is a diagram illustrating an example of a system configuration for realizing an information processing apparatus according to a first embodiment
  • FIG. 1 is a diagram schematically showing a basic configuration of an information processing apparatus according to a first embodiment
  • FIG. 2 is a diagram showing in more detail the configuration of the information processing apparatus according to the first embodiment
  • FIG. 3 is a diagram illustrating another configuration example of the information processing apparatus according to the first embodiment
  • FIG. 2 is a diagram schematically showing the basic configuration of a teacher data creation unit according to the first embodiment
  • FIG. 10 is a diagram showing an example of teacher data creation input data IN1 used to create teacher data
  • FIG. 10 is a diagram showing an example of clustering intermediate data acquired by clustering processing of an initial clustering processing unit; 4 is a diagram showing in more detail the configuration of the teacher data creation unit according to the first embodiment; FIG. 5 is a flowchart of clustering processing performed by a teacher data creation unit according to the first embodiment; 4 shows a node selected by a node selection unit; FIG. 10 is a diagram showing an example of teacher data D TCH created by automatically assigning labels to all nodes;
  • Embodiment 1 1 is a diagram illustrating an example of a system configuration for realizing an information processing apparatus according to a first embodiment;
  • the information processing apparatus 1000 can be implemented by a computer 10 such as a dedicated computer or a personal computer (PC). However, the computer does not need to be physically single, and multiple computers may be used when performing distributed processing.
  • a computer 10 has a CPU (Central Processing Unit) 11, a ROM (Read Only Memory) 12 and a RAM (Random Access Memory) 13, which are interconnected via a bus 14.
  • a bus 14 there is It should be noted that although the explanation of OS software and the like for operating the computer will be omitted, it is assumed that the computer that constructs this information processing apparatus also has it as a matter of course.
  • the input/output interface 15 is also connected to the bus 14 .
  • the input/output interface 15 includes, for example, an input unit 16 made up of a keyboard, mouse, sensors, etc., a display made up of a CRT, LCD, etc., an output unit 17 made up of headphones, speakers, etc., a storage unit 18 made up of a hard disk, etc.
  • a communication unit 19 including a modem, a terminal adapter, etc. is connected.
  • the CPU 11 executes various processes according to various programs stored in the ROM 12 or various programs loaded from the storage section 18 to the RAM 13. In this embodiment, for example, processes of each section of the information processing apparatus 1000 to be described later. . Separately from the CPU 11, a GPU (Graphics Processing Unit) is provided, and in the same manner as the CPU 11, various programs stored in the ROM 12 or various programs loaded from the storage unit 18 to the RAM 13 are performed. For example, the processing of each part of the information processing apparatus 1000 described later may be executed.
  • the GPU is suitable for performing routine processing in parallel, and can be applied to processing in a neural network described later. , the processing speed can be improved compared to the CPU 11.
  • the RAM 13 also stores data necessary for the CPU 11 and the GPU 21 to execute various kinds of processing.
  • the communication unit 19 performs, for example, communication processing via the Internet (not shown), transmits data provided by the CPU 11, and outputs data received from the communication partner to the CPU 11, RAM 13, and storage unit 18.
  • the storage unit 18 communicates with the CPU 11 to save/delete information.
  • the communication unit 19 also performs communication processing of analog signals or digital signals with other devices.
  • the input/output interface 15 is also connected to a drive 20 as necessary, and for example, a magnetic disk 20A, an optical disk 20B, a flexible disk 20C, or a semiconductor memory 20D is appropriately mounted, and a computer program read from them is required. is installed in the storage unit 18 according to the
  • the information processing apparatus 1000 is input with a non-hierarchical neural network in which nodes described by an n-dimensional vector (n is an integer equal to or greater than 1) are arranged.
  • the neural network is stored in a storage unit such as the RAM 13, for example.
  • the neural network according to the present embodiment is a self-propagating neural network that inputs an input vector into the neural network and automatically increases the number of nodes arranged in the neural network based on the inputted input vector.
  • the number of nodes can be automatically increased by using a type neural network.
  • the neural network in this embodiment has a non-hierarchical structure.
  • additional learning can be performed without specifying the timing of starting learning in other layers. That is, additional learning can be carried out online.
  • Input data is input as an n-dimensional input vector.
  • the input vectors are stored in a temporary storage unit (eg, RAM 13) and sequentially input to the neural network stored in the temporary storage unit.
  • the information processing apparatus 1000 is first provided with input data for creating teacher data used for creating teacher data, and based on this, teacher data is created. Then, the information processing apparatus 1000 uses the created teacher data to assign labels to the data (nodes) included in the input data using the teacher data for learning target input data that is separately given.
  • FIG. 2 schematically shows the basic configuration of the information processing device 1000 according to the first embodiment.
  • FIG. 3 shows in more detail the configuration of the information processing apparatus 1000 according to the first embodiment.
  • the information processing apparatus 1000 has at least a teacher data creation unit 100 and may further have a supervised learning unit 110 and a display unit 120 .
  • input data IN1 for creating teacher data and input data IN2 to be learned for supervised learning are supplied from the outside of information processing apparatus 1000 to teacher data creating unit 100 and supervised learning unit 110, respectively.
  • the input data IN1 for creating teacher data and the learning target input data IN2 to be subjected to supervised learning are, as described above, data containing a plurality of nodes described by multidimensional vectors.
  • FIG. 4 shows another configuration example of the information processing apparatus 1000 according to the first embodiment.
  • the information processing device 1000 further has a storage unit 130 .
  • the teacher data creation input data IN1 and the learning target input data IN2 are appropriately stored in the storage unit 130, and the teacher data creation unit 100 and the supervised learning unit 110 store the teacher data creation input data IN1 and the learning target input data IN1 as necessary.
  • Data IN2 may be read from storage unit 130 .
  • the input data IN1 for creating teacher data and the input data IN2 to be learned may be stored in the storage unit 130 in advance or at arbitrary timing by the operator of the information processing apparatus 1000 .
  • the storage unit 130 corresponds to, for example, one or both of the ROM 12 and the storage unit 18 shown in FIG.
  • the teacher data creation unit 100 performs clustering on the teacher data creation input data IN1 using an unsupervised learning method such as the k-means method or the SOINN method described above to create clustering intermediate data.
  • the teacher data DTCH is created by assigning labels to unlabeled nodes included in the intermediate data.
  • the training data creation unit 100 is configured to perform clustering processing capable of automatically assigning labels to all nodes belonging to clusters after the first clustering processing.
  • the application of the clustering process performed by the teacher data creation unit 100 is not limited to the creation of teacher data, and can be applied to various clustering processes of input data. Therefore, the training data creation unit 100 is also simply referred to as a clustering processing device.
  • FIG. 5 schematically shows the basic configuration of the teacher data creation unit 100.
  • the training data creation unit 100 has an initial clustering processing unit 100A and an additional clustering processing unit 100B.
  • the initial clustering processing unit 100A clusters the input data IN1 for creating teacher data using an unsupervised learning method such as the k-means method or the SOINN method described above, and assigns labels to the nodes as clustering intermediate data.
  • D_INT_L is configured as creating.
  • FIG. 6 shows an example of input data IN1 for creating teacher data used for creating teacher data.
  • data in which unlabeled nodes (represented by white circles) are distributed on a two-dimensional plane is used as input data IN1 for creating teacher data.
  • FIG. 7 shows an example of clustering intermediate data DINT_L acquired by the initial clustering processing of the initial clustering processing unit 100A.
  • the clustering intermediate data D INT_L in FIG. 7 includes, for example, four clusters C1 to C4, and multiple nodes belong to each of the clusters C1 to C4. Note that not all the nodes included in the clustering intermediate data DINT_L belong to any cluster, and there are nodes that do not belong to any cluster and are not assigned any labels. In FIG. 7, nodes that do not belong to any cluster and that have not been given any labels are indicated by white circles as unlabeled nodes.
  • the clustering intermediate data DINT_L includes unlabeled nodes, and further clustering processing is performed by the subsequent additional clustering processing unit 100B. Therefore, for the sake of distinction, the main body of processing here is referred to as the initial clustering processing unit 100A, and the clustering processing performed by the initial clustering processing unit 100A is referred to as the initial clustering processing.
  • the additional clustering processing unit 100B further performs a process of assigning labels to unlabeled nodes included in the clustering intermediate data DINT_L to create teacher data DTCH , which is clustering result data.
  • the subject of processing here is called the additional clustering processing unit 100B
  • the clustering process performed by the additional clustering processing unit 100B is called the additional clustering process.
  • FIG. 8 shows in more detail the configuration of the training data creation unit 100 according to the first embodiment.
  • the initial clustering processing unit 100A has a data acquisition unit 101, a clustering processing unit 102, and a first labeling unit 103.
  • FIG. The additional clustering processing unit 100B has a node selection unit 104, a distance calculation unit 105, an belonging cluster determination unit 106, a second label assignment unit 107, and a progress determination unit .
  • FIG. 9 shows a flowchart of clustering processing performed by the training data creation unit 100.
  • the clustering process performed by the teacher data creation unit 100 creates teacher data D TCH , which is clustering result data, through the following steps S1 to S8.
  • step S1 The data acquisition unit 101 acquires input data IN1 for creating teacher data from the outside of the information processing apparatus 1000 or from the storage unit 130 .
  • step S2 The clustering processing unit 102 performs initial clustering processing on input data IN1 for creating training data using an unsupervised learning method such as the k-means method or the SOINN method described above, and clustering intermediate data DINT , which is the clustering result. get.
  • the clustering intermediate data D_INT at this stage includes nodes that do not belong to any cluster.
  • the first label assigning unit 103 assigns a label to a node that belongs to one of the clusters C1 to C4. For example, the first label assigning unit 103 may assign labels “C1”, “C2”, “C3” and “C4” to the nodes that belong to each of the clusters C1 to C4. However, the label assigned to the node that belongs to any of the clusters C1 to C4 is merely an example, and other appropriate labels may be assigned as necessary.
  • the first labeling unit 103 outputs clustering intermediate data DINT_L to which labels have been added. As described above, the clustering intermediate data DINT_L at this stage also includes unlabeled nodes.
  • step S4 The node selection unit 104 selects one unlabeled node included in the labeled clustering intermediate data DINT_L , and outputs a selection result SEL.
  • FIG. 10 shows nodes selected by the node selection unit 104 . In this example, it is assumed that the unlabeled node NS in FIG. 10 is selected.
  • the distance calculation unit 105 calculates distances between the selected node NS and each node belonging to the clusters C1 to C4 based on the selection result SEL.
  • Distance calculation section 105 outputs distance information DIS indicating the calculated distance.
  • various distance scales such as cosine distance, Euclidean distance, Mahalanobis distance, Manhattan distance, and fractional distance can be used.
  • the belonging cluster determining unit 106 detects the shortest distance among the distances calculated based on the distance information DIS, and determines the node located at the shortest distance DIS MIN from the node NS selected among the nodes belonging to the clusters C1 to C4. Identify.
  • the belonging cluster determination unit 106 outputs node identification information ND indicating the identified node.
  • Step S7 The second label assigning unit 107 assigns the same label as the label assigned to the node specified by the belonging cluster determining unit 106 to the unlabeled node NS based on the node specifying information ND. For example, when the shortest distance node NN belonging to cluster C4 is given the label "C4", the belonging cluster determining unit 106 gives the same label "C4" to the unlabeled node NS. As a result, the labeled unlabeled node NS becomes a node belonging to the cluster C4.
  • Step S8 The progress determination unit 108 determines whether or not the clustering intermediate data DINT_L after labeling includes an unlabeled node. If the clustering intermediate data DINT_L includes an unlabeled node, the process returns to step S4. As a result, the processing of steps S4 to S7 is repeated until all unlabeled nodes included in the clustering intermediate data DINT_L belong to any cluster including the shortest distance node.
  • the progress determination unit 108 ends the clustering process and outputs the latest clustering intermediate data DINT_L as the teacher data DTCH .
  • FIG. 11 shows an example of teacher data D TCH created by automatically labeling all nodes. As shown in FIG. 11, there is no unlabeled node in the training data D TCH , and each node belongs to one of the clusters C1 to C4.
  • the supervised learning unit 110 labels the learning target input data IN2 separately provided based on the teacher data D TCH created as described above.
  • the display unit 120 can appropriately display intermediate results and final results of clustering by the teacher data creation unit 100, processing results by the supervised learning unit 110, and the like.
  • suitable labels can be automatically assigned to all nodes after clustering.
  • training data can be automatically and quickly created without manual intervention.
  • the present invention is not limited to the above-described embodiments, and can be modified as appropriate without departing from the scope of the invention.
  • the distance measure since sample data cannot be obtained in advance when performing online additional learning, it is necessary to analyze the dimensionality of the input vector in advance to determine which distance measure is effective. can't For this reason, different distance measures may be combined to introduce a new distance measure representing the distance between two nodes, as described using equation (14) in US Pat.
  • a new distance measure combining the Euclidean distance and the cosine distance may be used as shown in Equation (17) derived using Equations (14) to (16) in Patent Document 2.
  • the distance measure the case of combining the cosine distance with the Euclidean distance has been described as an example, but it is not limited to this, and other distance measures (for example, cosine distance, Manhattan distance, fractional distance) may be combined. good. Furthermore, it is not limited to effective distance scales in high-dimensional space, and other distance scales may be combined according to the problem to be learned.
  • the present invention has been described mainly as a hardware configuration, but it is not limited to this, and arbitrary processing can be realized by causing a CPU (Central Processing Unit) to execute a computer program. It is also possible to In this case, the computer program can be stored and provided to the computer using various types of non-transitory computer readable medium.
  • Non-transitory computer-readable media include various types of tangible storage media.
  • non-transitory computer-readable media examples include magnetic recording media (eg, flexible discs, magnetic tapes, hard disk drives), magneto-optical recording media (eg, magneto-optical discs), CD-ROMs (Read Only Memory), CD-Rs, CD-R/W, semiconductor memory (eg, mask ROM, PROM (Programmable ROM), EPROM (Erasable PROM), flash ROM, RAM (random access memory)).
  • the program may also be supplied to the computer on various types of transitory computer readable medium. Examples of transitory computer-readable media include electrical signals, optical signals, and electromagnetic waves. Transitory computer-readable media can deliver the program to the computer via wired channels, such as wires and optical fibers, or wireless channels.

Abstract

A teaching data creation unit (100) has an initial clustering processing unit (100A) and an additional clustering processing unit (100B). The initial clustering processing unit (100A) clusters the nodes included in input data (IN1) for teaching data creation and acquires clustering intermediate data (DINT_L) in which labels are added to nodes belonging to a cluster. The additional clustering processing unit (100B) creates teaching data (DTCH) in which an unlabeled node that is included in the clustering intermediate data (DINT_L) is assigned the same label as the one added to a node that is in the shortest distance from an unlabeled node that belongs to any cluster included in the clustering intermediate data (DINT_L).

Description

クラスタリング処理装置、クラスタリング処理方法、非一時的なコンピュータ可読媒体及び情報処理装置Clustering processing device, clustering processing method, non-transitory computer-readable medium, and information processing device
 本発明は、クラスタリング処理装置、クラスタリング処理方法、プログラム及び情報処理装置に関し、例えば任意のクラスに属する入力ベクトルを順次入力して当該入力ベクトルの入力分布構造を学習するクラスタリング処理装置、クラスタリング処理方法、プログラム及び情報処理装置に関する。 The present invention relates to a clustering processing device, a clustering processing method, a program, and an information processing device, for example, a clustering processing device, a clustering processing method, and a clustering processing method that sequentially input input vectors belonging to an arbitrary class and learn the input distribution structure of the input vectors. It relates to a program and an information processing device.
 近年、様々な入力データについて教師有り学習を行い、入力データを分類する手法が知られている。この場合、予め、データに適切なラベルが付与された教師データを用意する必要がある。こうした教師データを作成するには、教師データ作成用のラベルが付与されていない入力データを用意し、これに対してk-means法などのクラスタリング手法を用いて、教師なし学習によるクラスタリングを行うことで、クラスタごとにラベルが付与された教師データが作成される。 In recent years, a method of performing supervised learning on various input data and classifying the input data is known. In this case, it is necessary to prepare teacher data in which appropriate labels are assigned to the data in advance. In order to create such teacher data, unlabeled input data for creating teacher data is prepared, and clustering is performed by unsupervised learning using a clustering method such as the k-means method. Creates teacher data with a label assigned to each cluster.
 こうした教師データを作成するための効率的な学習手法として、例えば、学習中に必要に応じてニューロンを増殖させる学習手法である、自己組織化ニューラルネットワーク(SOINN:Self-Organizing Incremental Neural Network)と呼ばれる手法が提案されている。SOINNでは、ノード数を自律的に管理することにより非定常的な入力を学習することができ、複雑な分布形状を有するクラスに対しても適切なクラス数及び位相構造を抽出できるなど多くの利点を有する。SOINNの応用例として、例えばパターン認識においては、ひらがな文字のクラスを学習させた後に、カタカナ文字のクラスなどを追加的に学習させることができる。 An efficient learning method for creating such training data is called Self-Organizing Incremental Neural Network (SOINN), which is a learning method that grows neurons as needed during learning. A method is proposed. SOINN has many advantages such as being able to learn non-stationary inputs by autonomously managing the number of nodes, and being able to extract an appropriate number of classes and topological structure even for classes with complex distribution shapes. have As an application example of SOINN, for example, in pattern recognition, after learning a class of hiragana characters, a class of katakana characters can be additionally learned.
 このようなSOINNの一例として、E-SOINN(Enhanced SOINN)と称される手法が提案されている(特許文献1)。E-SOINNでは、学習を随時追加するオンライン追加学習が可能であり、バッチ学習ではなく学習効率が良いという利点を有している。このため、E-SOINNでは、学習環境が新しい環境に変化した場合においても追加学習が可能である。また、E-SOINNでは、入力データに対するノイズ耐性が高いという利点をも有している。 As an example of such SOINN, a technique called E-SOINN (Enhanced SOINN) has been proposed (Patent Document 1). E-SOINN is capable of online additional learning in which learning is added at any time, and has the advantage of being more efficient than batch learning. Therefore, in E-SOINN, additional learning is possible even when the learning environment changes to a new environment. E-SOINN also has the advantage of high noise resistance to input data.
 ところが、E-SOINNを含むSOINNにおいては、新たなノードをネットワークに挿入することが困難であることから、入力データの構造を正確に表現し難いという問題や、入力データの入力順序によって学習結果が異なってしまうという問題があった。こうした問題を解決するため、LB-SOINN(Load Balance Self-Organizing Incremental Neural Network)と称される手法が提案された(特許文献2)。LB-SOINNは、ネットワークにおけるノードの負荷をノード学習時間として扱い、ノード学習時間が大きなノードを検出し、検出したノードとこれに隣接するノードを接続する辺上に、検出したノードの重みベクトルに基づいて決定された重みベクトルを有する新たなノード生成する。これにより、検出したノードの学習時間の増大を緩和し、かつ、その付近に新たなノードを生成することで、入力データの構造をより正確に学習することができる。 However, in SOINN including E-SOINN, it is difficult to insert a new node into the network. There was a problem of being different. In order to solve these problems, a technique called LB-SOINN (Load Balance Self-Organizing Incremental Neural Network) has been proposed (Patent Document 2). LB-SOINN treats the load of a node in the network as the node learning time, detects a node with a large node learning time, and puts the weight vector of the detected node on the edge connecting the detected node and its adjacent nodes. Create a new node with the weight vector determined based on. As a result, it is possible to more accurately learn the structure of the input data by alleviating an increase in the learning time of the detected node and generating a new node in its vicinity.
特開2008-217246号公報JP 2008-217246 A 特開2014-164396号公報JP 2014-164396 A
 しかし、こうした手法を用いても、クラスタリング後の全てのノードにラベルを付与することができない場合がある。このような場合、オペレータがクラスタリング後の結果を参照し、ラベルが付与されていないノードに対して適当と考えられるラベルを手作業で付与する必要が有った。そのため、教師データの作成に長時間を要してしまう。この場合、作業を行うオペレータによって、得られる教師データにバラつきが生じてしまうことも考え得る。 However, even with these methods, it may not be possible to label all nodes after clustering. In such a case, it is necessary for the operator to refer to the result after clustering and manually assign a label considered appropriate to the unlabeled nodes. Therefore, it takes a long time to create training data. In this case, it is conceivable that the teacher data obtained may vary depending on the operator who performs the work.
 また、アクティブラーニング(非特許文献1)などの他の手法を適用してラベルが付与れていないノードにラベルを付与することも可能である。しかし、この場合でも依然としてラベルが付与されていないノードが残る場合には、やはり手作業でラベルを付与する必要が有る。また、この手法でも、教師データを最初に作成しなければならないので、ここでも手作業でのラベル付与が必要となる。 It is also possible to apply labels to unlabeled nodes by applying other methods such as active learning (Non-Patent Document 1). However, even in this case, if unlabeled nodes remain, it is still necessary to manually assign labels. Also, with this method, the teacher data must be created first, so manual labeling is required here as well.
 さらに、手作業でラベル付与を行う場合には、データ量が過度に多くなると、そもそもラベル付与を行うこと自体が困難となってしまう。 Furthermore, when labeling is done manually, if the amount of data becomes excessively large, labeling itself becomes difficult in the first place.
 このように、一般的な教師データの作成手法では、迅速かつ自動的に教師データを作成することは困難である。よって、入力データの教師なし学習において、全てのノードに適当なラベルを付与することができる手法が求められる。 In this way, it is difficult to create training data quickly and automatically with general training data creation methods. Therefore, in unsupervised learning of input data, there is a demand for a technique that can assign appropriate labels to all nodes.
 本発明は、上記の事情に鑑みて成されたものであり、入力データの教師なし学習において、全てのノードに適当なラベルを付与することができるクラスタリング処理装置、クラスタリング処理方法、プログラム及び情報処理装置を提供することを目的とする。 The present invention has been made in view of the above circumstances, and provides a clustering processing apparatus, clustering processing method, program, and information processing capable of assigning appropriate labels to all nodes in unsupervised learning of input data. The purpose is to provide an apparatus.
 本発明の一実施の形態にかかるクラスタリング処理装置は、多次元ベクトルで記述される複数のラベルが付与されていないノードからなる入力データをクラスタリングし、クラスタに属するノードにラベルを付与したクラスタリング中間データを取得する初期クラスタリング処理部と、前記クラスタリング中間データに含まれるラベルが付されていないノードに対して、前記クラスタリング中間データに含まれる前記クラスタのいずれかに属するノードのうちで前記ラベルが付されていないノードから最短距離にあるノードに付されたものと同じラベルを付与したクラスタリング結果データを作成する追加クラスタリング処理部と、を有するものである。これにより、初期クラスタリング処理でラベルが付与されなかったノードに対し、いずれかのクラスタに属する最短距離のノードと同じラベルを付与したクラスタリング結果データを作成することができる。 A clustering processing apparatus according to an embodiment of the present invention clusters input data composed of a plurality of unlabeled nodes described by multidimensional vectors, and clusters intermediate data obtained by labeling nodes belonging to the clusters. and an unlabeled node included in the clustering intermediate data, among the nodes belonging to any of the clusters included in the clustering intermediate data, the label attached and an additional clustering processing unit that creates clustering result data with the same label as that attached to the node at the shortest distance from the node that does not have the clustering result. As a result, clustering result data can be created in which the same label as the shortest-distance node belonging to any cluster is assigned to a node that was not assigned a label in the initial clustering process.
 本発明の一実施の形態にかかるクラスタリング処理装置は、上記のクラスタリング処理装置において、前記追加クラスタリング処理部は、前記クラスタリング中間データに含まれるノードから、前記クラスタのいずれにも属していないラベルなしノードを1つ選択するノード選択部と、選択された1つの前記ラベルなしノードと、前記クラスタに属する全てのノードと、の間の距離を算出する距離算出部と、前記算出した距離に基づいて、前記クラスタに属する全てのノードから、前記選択された1つのラベルなしノードから最短距離にある最短距離ノードを特定する所属クラスタ決定部と、前記最短距離ノードに付与されたラベルと同じラベルを前記選択された1つのラベルなしノードに付与するラベル付与部と、を有するものである。これにより、初期クラスタリング処理でラベルが付与されなかったノードとクラスタに属するノードとの間の最短距離を算出し、ラベルが付与されなかったノードに最短距離ノードと同じラベルを付与することができる。 A clustering processing device according to an embodiment of the present invention is the clustering processing device described above, wherein the additional clustering processing unit selects unlabeled nodes that do not belong to any of the clusters from the nodes included in the clustering intermediate data. a node selection unit that selects one, a distance calculation unit that calculates the distance between the selected one unlabeled node and all nodes belonging to the cluster, and based on the calculated distance, A belonging cluster determination unit that identifies a shortest distance node at the shortest distance from the selected one unlabeled node from all nodes belonging to the cluster, and selects the same label as the label given to the shortest distance node. and a label assigning unit that assigns to one unlabeled node that has been labeled. As a result, the shortest distance between a node to which no label was given in the initial clustering process and a node belonging to the cluster can be calculated, and the same label as the shortest distance node can be given to the node to which the label was not given.
 本発明の一実施の形態にかかるクラスタリング処理装置は、上記のクラスタリング処理装置において、前記追加クラスタリング処理部は、前記クラスタリング中間データにラベルが付されていないノードが存在するか否かを判定する進捗判定部をさらに有し、前記追加クラスタリング処理部は、前記進捗判定部が前記クラスタリング中間データにラベルが付されていないノードが存在する存在しないと判定するまで、前記ノード選択部、前記距離算出部、前記所属クラスタ決定部及び前記ラベル付与部による処理を繰り返すものである。これにより、初期クラスタリング処理でラベルが付与されなかったノードの全てに対に対し、ラベルを付与することができる。 A clustering processing device according to an embodiment of the present invention is the clustering processing device described above, wherein the additional clustering processing unit determines whether or not a node to which the intermediate clustering data is not labeled exists. The additional clustering processing unit further includes a determination unit, wherein the node selection unit and the distance calculation unit continue until the progress determination unit determines that the clustering intermediate data includes unlabeled nodes. , the processing by the belonging cluster determining unit and the label assigning unit are repeated. As a result, labels can be assigned to all pairs of nodes that were not labeled in the initial clustering process.
 本発明の一実施の形態にかかるクラスタリング処理方法は、多次元ベクトルで記述される複数のラベルが付与されていないノードからなる入力データをクラスタリングし、クラスタに属するノードにラベルを付与したクラスタリング中間データを取得し、前記クラスタリング中間データに含まれるラベルが付されていないノードに対して、前記クラスタリング中間データに含まれる前記クラスタのいずれかに属するノードのうちで前記ラベルが付されていないノードから最短距離にあるノードに付されたものと同じラベルを付与したクラスタリング結果データを作成するものである。これにより、初期クラスタリング処理でラベルが付与されなかったノードに対し、いずれかのクラスタに属する最短距離のノードと同じラベルを付与したクラスタリング結果データを作成することができる。 A clustering processing method according to an embodiment of the present invention clusters input data consisting of a plurality of unlabeled nodes described by multidimensional vectors, and clusters intermediate data obtained by labeling nodes belonging to the clusters. and the shortest from the unlabeled node among the nodes belonging to any of the clusters included in the clustering intermediate data to the unlabeled node included in the clustering intermediate data It creates clustering result data with the same labels as those attached to the nodes in the distance. As a result, clustering result data can be created in which the same label as the shortest-distance node belonging to any cluster is assigned to a node that was not assigned a label in the initial clustering process.
 本発明の一実施の形態にかかるプログラムは、多次元ベクトルで記述される複数のラベルが付与されていないノードからなる入力データをクラスタリングし、クラスタに属するノードにラベルを付与したクラスタリング中間データを取得する処理と、前記クラスタリング中間データに含まれるラベルが付されていないノードに対して、前記クラスタリング中間データに含まれる前記クラスタのいずれかに属するノードのうちで前記ラベルが付されていないノードから最短距離にあるノードに付されたものと同じラベルを付与したクラスタリング結果データを作成する処理と、をコンピュータに実行させるものである。これにより、初期クラスタリング処理でラベルが付与されなかったノードに対し、いずれかのクラスタに属する最短距離のノードと同じラベルを付与したクラスタリング結果データを作成することができる。 A program according to an embodiment of the present invention clusters input data consisting of a plurality of unlabeled nodes described by multidimensional vectors, and acquires clustering intermediate data in which the nodes belonging to the clusters are labeled. and for an unlabeled node included in the clustering intermediate data, the node belonging to one of the clusters included in the clustering intermediate data, from the unlabeled node to the shortest and a process of creating clustering result data with the same labels as those attached to nodes at a distance. As a result, clustering result data can be created in which the same label as the shortest-distance node belonging to any cluster is assigned to a node that was not assigned a label in the initial clustering process.
 本発明の一実施の形態にかかる情報処理装置は、多次元ベクトルで記述される複数のラベルが付与されていないノードからなる教師データ作成用入力データに対してクラスタリング処理を行って教師データを作成する教師データ作成部と、前記教師データに基づいて、多次元ベクトルで記述される複数のラベルが付与されていないノードからなる学習対象入力データのノードにラベルを付与する教師有り学習部と、前記教師有り学習部による処理結果を表示する表示部と、を有し、前記教師データ作成部は、多次元ベクトルで記述される複数のラベルが付与されていないノードからなる入力データをクラスタリングし、クラスタに属するノードにラベルを付与したクラスタリング中間データを取得する初期クラスタリング処理部と、前記クラスタリング中間データに含まれるラベルが付されていないノードに対して、前記クラスタリング中間データに含まれる前記クラスタのいずれかに属するノードのうちで前記ラベルが付されていないノードから最短距離にあるノードに付されたものと同じラベルを付与したクラスタリング結果データを作成する追加クラスタリング処理部と、を有するものである。これにより、初期クラスタリング処理でラベルが付与されなかったノードに対し、いずれかのクラスタに属する最短距離のノードと同じラベルを付与したクラスタリング結果データを作成することができる。 An information processing apparatus according to an embodiment of the present invention creates teacher data by performing a clustering process on input data for creating teacher data, which is composed of a plurality of unlabeled nodes described by multidimensional vectors. a supervised learning unit that assigns a label to a node of input data to be learned, which is composed of a plurality of unlabeled nodes described by a multidimensional vector, based on the teacher data; a display unit for displaying a result of processing by the supervised learning unit, wherein the teacher data creation unit clusters input data composed of a plurality of unlabeled nodes described by multidimensional vectors, and clusters an initial clustering processing unit that obtains clustering intermediate data in which labels are assigned to nodes belonging to; and an additional clustering processing unit for creating clustering result data with the same label attached to the node at the shortest distance from the unlabeled node among the nodes belonging to the . As a result, clustering result data can be created in which the same label as the shortest-distance node belonging to any cluster is assigned to a node that was not assigned a label in the initial clustering process.
 本発明によれば、入力データの教師なし学習において、クラスタリング後の全てのノードに適当なラベルを付与することができるクラスタリング処理装置、クラスタリング処理方法、プログラム及び情報処理装置を提供することができる。 According to the present invention, in unsupervised learning of input data, it is possible to provide a clustering processing device, a clustering processing method, a program, and an information processing device capable of assigning appropriate labels to all nodes after clustering.
実施の形態1にかかる情報処理装置を実現するためのシステム構成の一例を示す図である。1 is a diagram illustrating an example of a system configuration for realizing an information processing apparatus according to a first embodiment; FIG. 実施の形態1にかかる情報処理装置の基本的構成を模式的に示す図である。1 is a diagram schematically showing a basic configuration of an information processing apparatus according to a first embodiment; FIG. 実施の形態1にかかる情報処理装置の構成をより詳細に示す図である。2 is a diagram showing in more detail the configuration of the information processing apparatus according to the first embodiment; FIG. 実施の形態1にかかる情報処理装置の他の構成例を示す図である。3 is a diagram illustrating another configuration example of the information processing apparatus according to the first embodiment; FIG. 実施の形態1にかかる教師データ作成部の基本的構成を模式的に示す図である。2 is a diagram schematically showing the basic configuration of a teacher data creation unit according to the first embodiment; FIG. 教師データ作成に用いる教師データ作成用入力データIN1の例を示す図であるFIG. 10 is a diagram showing an example of teacher data creation input data IN1 used to create teacher data; 初期クラスタリング処理部のクラスタリング処理によって取得されるクラスタリング中間データの例を示す図である。FIG. 10 is a diagram showing an example of clustering intermediate data acquired by clustering processing of an initial clustering processing unit; 実施の形態1にかかる教師データ作成部の構成をより詳細に示す図である。4 is a diagram showing in more detail the configuration of the teacher data creation unit according to the first embodiment; FIG. 実施の形態1にかかる教師データ作成部が行うクラスタリング処理のフローチャートである。5 is a flowchart of clustering processing performed by a teacher data creation unit according to the first embodiment; ノード選択部によって選択されるノードを示す。4 shows a node selected by a node selection unit; 全てのノードに自動的にラベルが付与されて作成された教師データDTCHの例を示す図である。FIG. 10 is a diagram showing an example of teacher data D TCH created by automatically assigning labels to all nodes;
 以下、図面を参照して本発明の実施の形態について説明する。各図面においては、同一要素には同一の符号が付されており、必要に応じて重複説明は省略される。 Embodiments of the present invention will be described below with reference to the drawings. In each drawing, the same elements are denoted by the same reference numerals, and redundant description will be omitted as necessary.
 実施の形態1
 図1は、実施の形態1にかかる情報処理装置を実現するためのシステム構成の一例を示す図である。情報処理装置1000は、専用コンピュータ、パーソナルコンピュータ(PC)などのコンピュータ10により実現可能である。但し、コンピュータは、物理的に単一である必要はなく、分散処理を実行する場合には、複数であってもよい。図1に示すように、コンピュータ10は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12及びRAM(Random Access Memory)13を有し、これらがバス14を介して相互に接続されている。尚、コンピュータを動作させるためのOSソフトなどは、説明を省略するが、この情報処理装置を構築するコンピュータも当然有しているものとする。
Embodiment 1
1 is a diagram illustrating an example of a system configuration for realizing an information processing apparatus according to a first embodiment; FIG. The information processing apparatus 1000 can be implemented by a computer 10 such as a dedicated computer or a personal computer (PC). However, the computer does not need to be physically single, and multiple computers may be used when performing distributed processing. As shown in FIG. 1, a computer 10 has a CPU (Central Processing Unit) 11, a ROM (Read Only Memory) 12 and a RAM (Random Access Memory) 13, which are interconnected via a bus 14. there is It should be noted that although the explanation of OS software and the like for operating the computer will be omitted, it is assumed that the computer that constructs this information processing apparatus also has it as a matter of course.
 バス14には、入出力インターフェイス15も接続されている。入出力インターフェイス15には、例えば、キーボード、マウス、センサなどよりなる入力部16、CRT、LCDなどよりなるディスプレイ、並びにヘッドフォンやスピーカなどよりなる出力部17、ハードディスクなどより構成される記憶部18、モデム、ターミナルアダプタなどより構成される通信部19などが接続されている。 An input/output interface 15 is also connected to the bus 14 . The input/output interface 15 includes, for example, an input unit 16 made up of a keyboard, mouse, sensors, etc., a display made up of a CRT, LCD, etc., an output unit 17 made up of headphones, speakers, etc., a storage unit 18 made up of a hard disk, etc. A communication unit 19 including a modem, a terminal adapter, etc. is connected.
 CPU11は、ROM12に記憶されている各種プログラム、又は記憶部18からRAM13にロードされた各種プログラムに従って各種の処理、本実施の形態においては、例えば後述する情報処理装置1000の各部の処理を実行する。CPU11とは別にGPU(Graphics Processing Unitを設け、CPU11と同様に、ROM12に記憶されている各種プログラム、又は記憶部18からRAM13にロードされた各種プログラムに従って各種の処理、本実施の形態においては、例えば後述する情報処理装置1000の各部の処理を実行してもよい。なお、GPUは、定型的な処理を並列的に行う用途に適しており、後述するニューラルネットワークにおける処理などに適用することで、CPU11に比べて処理速度を向上させることも可能である。RAM13には又、CPU11及びGPU21が各種の処理を実行する上において必要なデータなども適宜記憶される。 The CPU 11 executes various processes according to various programs stored in the ROM 12 or various programs loaded from the storage section 18 to the RAM 13. In this embodiment, for example, processes of each section of the information processing apparatus 1000 to be described later. . Separately from the CPU 11, a GPU (Graphics Processing Unit) is provided, and in the same manner as the CPU 11, various programs stored in the ROM 12 or various programs loaded from the storage unit 18 to the RAM 13 are performed. For example, the processing of each part of the information processing apparatus 1000 described later may be executed.The GPU is suitable for performing routine processing in parallel, and can be applied to processing in a neural network described later. , the processing speed can be improved compared to the CPU 11. The RAM 13 also stores data necessary for the CPU 11 and the GPU 21 to execute various kinds of processing.
 通信部19は、例えば図示しないインターネットを介しての通信処理を行ったり、CPU11から提供されたデータを送信したり、通信相手から受信したデータをCPU11、RAM13、記憶部18に出力したりする。記憶部18はCPU11との間でやり取りし、情報の保存・消去を行う。通信部19は又、他の装置との間で、アナログ信号又はディジタル信号の通信処理を行う。 The communication unit 19 performs, for example, communication processing via the Internet (not shown), transmits data provided by the CPU 11, and outputs data received from the communication partner to the CPU 11, RAM 13, and storage unit 18. The storage unit 18 communicates with the CPU 11 to save/delete information. The communication unit 19 also performs communication processing of analog signals or digital signals with other devices.
 入出力インターフェイス15はまた、必要に応じてドライブ20が接続され、例えば、磁気ディスク20A、光ディスク20B、フレキシブルディスク20C、又は半導体メモリ20Dなどが適宜装着され、それらから読み出されたコンピュータプログラムが必要に応じて記憶部18にインストールされる。 The input/output interface 15 is also connected to a drive 20 as necessary, and for example, a magnetic disk 20A, an optical disk 20B, a flexible disk 20C, or a semiconductor memory 20D is appropriately mounted, and a computer program read from them is required. is installed in the storage unit 18 according to the
 続いて、本実施の形態にかかる情報処理装置1000における各処理について説明する。情報処理装置1000は、n(nは、1以上の整数)次元ベクトルで記述されるノードが配置される非階層構造のニューラルネットワークが入力される。ニューラルネットワークは、例えばRAM13などの記憶部に格納されている。 Next, each process in the information processing apparatus 1000 according to this embodiment will be described. The information processing apparatus 1000 is input with a non-hierarchical neural network in which nodes described by an n-dimensional vector (n is an integer equal to or greater than 1) are arranged. The neural network is stored in a storage unit such as the RAM 13, for example.
 本実施の形態におけるニューラルネットワークは、入力ベクトルをニューラルネットワークに入力し、入力される入力ベクトルに基づいて、ニューラルネットワークに配置されるノードを自動的に増加させる自己増殖型ニューラルネットワークであり、自己増殖型ニューラルネットワークを用いることで、ノードを自動的に増加させることができる。 The neural network according to the present embodiment is a self-propagating neural network that inputs an input vector into the neural network and automatically increases the number of nodes arranged in the neural network based on the inputted input vector. The number of nodes can be automatically increased by using a type neural network.
 本実施の形態におけるニューラルネットワークは、非階層構造を有するものである。非階層構造を採用することで、他の層での学習を開始するタイミングを指定せずに追加学習を実施することができる。すなわち、オンラインでの追加学習を実施することができる。 The neural network in this embodiment has a non-hierarchical structure. By adopting a non-hierarchical structure, additional learning can be performed without specifying the timing of starting learning in other layers. That is, additional learning can be carried out online.
 入力データは、n次元の入力ベクトルとして入力される。例えば、入力ベクトルは一時記憶部(例えばRAM13)に格納され、一時記憶部に格納されたニューラルネットワークに対して順次入力される。 Input data is input as an n-dimensional input vector. For example, the input vectors are stored in a temporary storage unit (eg, RAM 13) and sequentially input to the neural network stored in the temporary storage unit.
 以下、実施の形態1にかかる情報処理装置1000の具体的な構成について説明する。情報処理装置1000には、まず、教師データの作成に用いられる教師データ作成用入力データが与えられ、これに基づいて教師データが作成される。そして、情報処理装置1000は、作成した教師データを用いて、別に与えられる学習対象入力データに対して教師データを使用して入力データに含まれるデータ(ノード)にラベルを付与する。 A specific configuration of the information processing apparatus 1000 according to the first embodiment will be described below. The information processing apparatus 1000 is first provided with input data for creating teacher data used for creating teacher data, and based on this, teacher data is created. Then, the information processing apparatus 1000 uses the created teacher data to assign labels to the data (nodes) included in the input data using the teacher data for learning target input data that is separately given.
 図2に、実施の形態1にかかる情報処理装置1000の基本的構成を模式的に示す。また、図3に、実施の形態1にかかる情報処理装置1000の構成をより詳細に示す。情報処理装置1000は、少なくとも教師データ作成部100を有し、さらに教師有り学習部110及び表示部120を有してもよい。この例では、教師データ作成用入力データIN1及び教師有り学習の対象となる学習対象入力データIN2は、情報処理装置1000の外部から、教師データ作成部100及び教師有り学習部110にそれぞれ与えられる。教師データ作成用入力データIN1及び教師有り学習の対象となる学習対象入力データIN2は、上述したように、多次元ベクトルで記述されるノードを複数含むデータである。 FIG. 2 schematically shows the basic configuration of the information processing device 1000 according to the first embodiment. Further, FIG. 3 shows in more detail the configuration of the information processing apparatus 1000 according to the first embodiment. The information processing apparatus 1000 has at least a teacher data creation unit 100 and may further have a supervised learning unit 110 and a display unit 120 . In this example, input data IN1 for creating teacher data and input data IN2 to be learned for supervised learning are supplied from the outside of information processing apparatus 1000 to teacher data creating unit 100 and supervised learning unit 110, respectively. The input data IN1 for creating teacher data and the learning target input data IN2 to be subjected to supervised learning are, as described above, data containing a plurality of nodes described by multidimensional vectors.
 なお、教師データ作成用入力データIN1及び学習対象入力データIN2は、情報処理装置1000に設けられた記憶部に格納されていてもよい。図4に、実施の形態1にかかる情報処理装置1000の他の構成例を示す。この例では、情報処理装置1000は、記憶部130をさらに有している。教師データ作成用入力データIN1及び学習対象入力データIN2は、記憶部130に適宜格納され、教師データ作成部100及び教師有り学習部110が必要に応じて教師データ作成用入力データIN1及び学習対象入力データIN2を記憶部130から読み出してもよい。教師データ作成用入力データIN1及び学習対象入力データIN2は、情報処理装置1000のオペレータによって、予め又は任意のタイミングで、記憶部130に格納されてもよい。なお、記憶部130は、例えば、図1に示すROM12及び記憶部18の一方又は両方に対応するものである。 Note that the input data IN1 for creating teacher data and the input data IN2 to be learned may be stored in the storage unit provided in the information processing apparatus 1000 . FIG. 4 shows another configuration example of the information processing apparatus 1000 according to the first embodiment. In this example, the information processing device 1000 further has a storage unit 130 . The teacher data creation input data IN1 and the learning target input data IN2 are appropriately stored in the storage unit 130, and the teacher data creation unit 100 and the supervised learning unit 110 store the teacher data creation input data IN1 and the learning target input data IN1 as necessary. Data IN2 may be read from storage unit 130 . The input data IN1 for creating teacher data and the input data IN2 to be learned may be stored in the storage unit 130 in advance or at arbitrary timing by the operator of the information processing apparatus 1000 . Note that the storage unit 130 corresponds to, for example, one or both of the ROM 12 and the storage unit 18 shown in FIG.
 教師データ作成部100は、教師データ作成用入力データIN1に対して、例えばk-means法や上述のSOINN法などの教師なし学習手法を用いてクラスタリングを行ってクラスタリング中間データを作成し、さらにクラスタリング中間データに含まれるラベルなしノードにラベルを付与することで教師データDTCHを作成するものとして構成される。 The teacher data creation unit 100 performs clustering on the teacher data creation input data IN1 using an unsupervised learning method such as the k-means method or the SOINN method described above to create clustering intermediate data. The teacher data DTCH is created by assigning labels to unlabeled nodes included in the intermediate data.
 換言すれば、教師データ作成部100は1回目のクラスタリング処理後のクラスタに属するノードの全てに自動的にラベルを付与することができるクラスタリング処理を行うものとして構成される。 In other words, the training data creation unit 100 is configured to perform clustering processing capable of automatically assigning labels to all nodes belonging to clusters after the first clustering processing.
 なお、教師データ作成部100が行うクラスタリング処理の適用は教師データの作成に限定されるものではなく、様々な入力データのクラスタリング処理に適用することが可能である。よって、教師データ作成部100を、単にクラスタリング処理装置とも称する。 The application of the clustering process performed by the teacher data creation unit 100 is not limited to the creation of teacher data, and can be applied to various clustering processes of input data. Therefore, the training data creation unit 100 is also simply referred to as a clustering processing device.
 図5に、教師データ作成部100の基本的構成を模式的に示す。教師データ作成部100は、初期クラスタリング処理部100A及び追加クラスタリング処理部100Bを有する。 FIG. 5 schematically shows the basic configuration of the teacher data creation unit 100. The training data creation unit 100 has an initial clustering processing unit 100A and an additional clustering processing unit 100B.
 初期クラスタリング処理部100Aは、教師データ作成用入力データIN1に対して、例えばk-means法や上述のSOINN法などの教師なし学習手法を用いてクラスタリングを行ってノードにラベルを付与したクラスタリング中間データDINT_Lを作成するものとして構成される。 The initial clustering processing unit 100A clusters the input data IN1 for creating teacher data using an unsupervised learning method such as the k-means method or the SOINN method described above, and assigns labels to the nodes as clustering intermediate data. D_INT_L is configured as creating.
 図6に、教師データ作成に用いる教師データ作成用入力データIN1の例を示す。この例では、ラベルが付与されていないノード(白丸で表示)が2次元平面に分布しているデータを教師データ作成用入力データIN1として用いる。 FIG. 6 shows an example of input data IN1 for creating teacher data used for creating teacher data. In this example, data in which unlabeled nodes (represented by white circles) are distributed on a two-dimensional plane is used as input data IN1 for creating teacher data.
 図7に、初期クラスタリング処理部100Aの初期クラスタリング処理によって取得されるクラスタリング中間データDINT_Lの例を示す。図7のクラスタリング中間データDINT_Lは、例えば4つのクラスタC1~C4を含み、クラスタC1~C4にはそれぞれ複数のノードが属している。なお、クラスタリング中間データDINT_Lでは、含まれる全てのノードがいずれかのクラスタに属しているわけではなく、いずれのクラスタにも属することなく、かつ、いかなるラベルも付与さていないノードが存在する。図7では、いずれのクラスタにも属することなく、かつ、いかなるラベルも付与さていないノードをラベルなしノードとして白丸で表示している。 FIG. 7 shows an example of clustering intermediate data DINT_L acquired by the initial clustering processing of the initial clustering processing unit 100A. The clustering intermediate data D INT_L in FIG. 7 includes, for example, four clusters C1 to C4, and multiple nodes belong to each of the clusters C1 to C4. Note that not all the nodes included in the clustering intermediate data DINT_L belong to any cluster, and there are nodes that do not belong to any cluster and are not assigned any labels. In FIG. 7, nodes that do not belong to any cluster and that have not been given any labels are indicated by white circles as unlabeled nodes.
 上述の通り、クラスタリング中間データDINT_Lにはラベルなしノードが含まれており、この後の追加クラスタリング処理部100Bでさらなるクラスタリング処理が行われる。そのため、区別のため、ここでの処理主体を初期クラスタリング処理部100Aと称し、初期クラスタリング処理部100Aが行うクラスタリング処理を初期クラスタリング処理と称するものとする。 As described above, the clustering intermediate data DINT_L includes unlabeled nodes, and further clustering processing is performed by the subsequent additional clustering processing unit 100B. Therefore, for the sake of distinction, the main body of processing here is referred to as the initial clustering processing unit 100A, and the clustering processing performed by the initial clustering processing unit 100A is referred to as the initial clustering processing.
 追加クラスタリング処理部100Bは、クラスタリング中間データDINT_Lに含まれるラベルなしノードにラベルを付与する処理をさらに行って、クラスタリング結果データである教師データDTCHを作成する。 The additional clustering processing unit 100B further performs a process of assigning labels to unlabeled nodes included in the clustering intermediate data DINT_L to create teacher data DTCH , which is clustering result data.
 ここでは、初期クラスタリング処理と区別するため、ここでの処理主体を追加クラスタリング処理部100Bと称し、かつ、追加クラスタリング処理部100Bが行うクラスタリング処理を追加クラスタリング処理と称するものとする。 Here, in order to distinguish it from the initial clustering process, the subject of processing here is called the additional clustering processing unit 100B, and the clustering process performed by the additional clustering processing unit 100B is called the additional clustering process.
 次いで、教師データ作成部100の構成及び動作について、より詳細に説明する。図8に、実施の形態1にかかる教師データ作成部100の構成をより詳細に示す。初期クラスタリング処理部100Aは、データ取得部101、クラスタリング処理部102及び第1ラベル付与部103を有する。追加クラスタリング処理部100Bは、ノード選択部104、距離算出部105、所属クラスタ決定部106、第2ラベル付与部107及び進捗判定部108を有する。 Next, the configuration and operation of the training data creation unit 100 will be described in more detail. FIG. 8 shows in more detail the configuration of the training data creation unit 100 according to the first embodiment. The initial clustering processing unit 100A has a data acquisition unit 101, a clustering processing unit 102, and a first labeling unit 103. FIG. The additional clustering processing unit 100B has a node selection unit 104, a distance calculation unit 105, an belonging cluster determination unit 106, a second label assignment unit 107, and a progress determination unit .
 図9に、教師データ作成部100が行うクラスタリング処理のフローチャートを示す。教師データ作成部100が行うクラスタリング処理は、以下のステップS1~S8を経て、クラスタリング結果データである教師データDTCHを作成する。 FIG. 9 shows a flowchart of clustering processing performed by the training data creation unit 100. As shown in FIG. The clustering process performed by the teacher data creation unit 100 creates teacher data D TCH , which is clustering result data, through the following steps S1 to S8.
ステップS1
 データ取得部101は、情報処理装置1000の外部又は記憶部130から教師データ作成用入力データIN1を取得する。
step S1
The data acquisition unit 101 acquires input data IN1 for creating teacher data from the outside of the information processing apparatus 1000 or from the storage unit 130 .
ステップS2
 クラスタリング処理部102は、教師データ作成用入力データIN1に対してk-means法や上述のSOINN法などの教師なし学習手法を用いて初期クラスタリング処理を行い、クラスタリング結果であるクラスタリング中間データDINTを取得する。なお、上述の通り、この段階のクラスタリング中間データDINTには、いずれのクラスタにも属していないノードも含まれている。
step S2
The clustering processing unit 102 performs initial clustering processing on input data IN1 for creating training data using an unsupervised learning method such as the k-means method or the SOINN method described above, and clustering intermediate data DINT , which is the clustering result. get. As described above, the clustering intermediate data D_INT at this stage includes nodes that do not belong to any cluster.
ステップS3
 第1ラベル付与部103は、クラスタC1~C4のいずれかに属することとなったノードにラベルを付与する。例えば、第1ラベル付与部103は、クラスタC1~C4のそれぞれに属することとなったノードに、ラベルとして「C1」、「C2」、「C3」及び「C4」を付与してもよい。但し、クラスタC1~C4のいずれかに属することとなったノードに付与するラベルは例に過ぎず、必要に応じて他の適切なラベルを付与してもよい。第1ラベル付与部103は、ラベル付与済みのクラスタリング中間データDINT_Lを出力する。上述の通り、この段階のクラスタリング中間データDINT_Lには、ラベルなしノードも含まれている。
step S3
The first label assigning unit 103 assigns a label to a node that belongs to one of the clusters C1 to C4. For example, the first label assigning unit 103 may assign labels “C1”, “C2”, “C3” and “C4” to the nodes that belong to each of the clusters C1 to C4. However, the label assigned to the node that belongs to any of the clusters C1 to C4 is merely an example, and other appropriate labels may be assigned as necessary. The first labeling unit 103 outputs clustering intermediate data DINT_L to which labels have been added. As described above, the clustering intermediate data DINT_L at this stage also includes unlabeled nodes.
ステップS4
 ノード選択部104は、ラベル付与済みのクラスタリング中間データDINT_Lに含まれるラベルなしノードを1つ選択し、選択結果SELを出力する。図10に、ノード選択部104によって選択されるノードを示す。この例では、図10のラベルなしノードNSが選択されるものとする。
step S4
The node selection unit 104 selects one unlabeled node included in the labeled clustering intermediate data DINT_L , and outputs a selection result SEL. FIG. 10 shows nodes selected by the node selection unit 104 . In this example, it is assumed that the unlabeled node NS in FIG. 10 is selected.
ステップS5
 距離算出部105は、選択結果SELに基づいて、選択されたノードNSと、クラスタC1~C4に属する各ノードとの距離を算出する。距離算出部105は、算出した距離を示す距離情報DISを出力する。ここで適用する距離尺度としては、コサイン距離、ユークリッド距離、マハラノビス距離、マンハッタン距離、フラクショナル距離などの各種の距離尺度を用いることができる。
step S5
The distance calculation unit 105 calculates distances between the selected node NS and each node belonging to the clusters C1 to C4 based on the selection result SEL. Distance calculation section 105 outputs distance information DIS indicating the calculated distance. As the distance scale applied here, various distance scales such as cosine distance, Euclidean distance, Mahalanobis distance, Manhattan distance, and fractional distance can be used.
ステップS6
 所属クラスタ決定部106は、距離情報DISに基づいて算出した距離の中で最短の距離を検出し、クラスタC1~C4に属するノードの中で選択されたノードNSから最短距離DISMINにあるノードを特定する。ここでは、例として、クラスタC4に属するノードの1つが最短距離ノードNNであるものとする。所属クラスタ決定部106は、特定したノードを示すノード特定情報NDを出力する。
step S6
The belonging cluster determining unit 106 detects the shortest distance among the distances calculated based on the distance information DIS, and determines the node located at the shortest distance DIS MIN from the node NS selected among the nodes belonging to the clusters C1 to C4. Identify. Here, as an example, it is assumed that one of the nodes belonging to cluster C4 is the shortest distance node NN. The belonging cluster determination unit 106 outputs node identification information ND indicating the identified node.
ステップS7
 第2ラベル付与部107は、ノード特定情報NDに基づいて、所属クラスタ決定部106によって特定されたノードに付与されたラベルと同じラベルを、ラベルなしノードNSに付与する。例えば、クラスタC4に属する最短距離ノードNNにラベルとして「C4」が付与されている場合には、所属クラスタ決定部106は、同じラベル「C4」をラベルなしノードNSに付与する。これにより、ラベルが付与されたラベルなしノードNSは、クラスタC4に属するノードとなる。
Step S7
The second label assigning unit 107 assigns the same label as the label assigned to the node specified by the belonging cluster determining unit 106 to the unlabeled node NS based on the node specifying information ND. For example, when the shortest distance node NN belonging to cluster C4 is given the label "C4", the belonging cluster determining unit 106 gives the same label "C4" to the unlabeled node NS. As a result, the labeled unlabeled node NS becomes a node belonging to the cluster C4.
ステップS8
 進捗判定部108は、ラベル付与済み後のクラスタリング中間データDINT_Lにラベルなしノードが含まれるかを判定する。クラスタリング中間データDINT_Lにラベルなしノードが含まれる場合には、処理をステップS4に返す。これにより、クラスタリング中間データDINT_Lに含まれるラベルなしノードの全てが最短距離のノードを含むいずれかのクラスタに属するまで、ステップS4~S7の処理が繰り返されることとなる。
Step S8
The progress determination unit 108 determines whether or not the clustering intermediate data DINT_L after labeling includes an unlabeled node. If the clustering intermediate data DINT_L includes an unlabeled node, the process returns to step S4. As a result, the processing of steps S4 to S7 is repeated until all unlabeled nodes included in the clustering intermediate data DINT_L belong to any cluster including the shortest distance node.
 一方、ラベル付与済みクラスタリング中間データDINT_Lにラベルなしノードが含まれていない場合には、進捗判定部108はクラスタリング処理を終了し、最新のクラスタリング中間データDINT_Lを教師データDTCHとして出力する。 On the other hand, if the labeled clustering intermediate data DINT_L does not contain an unlabeled node, the progress determination unit 108 ends the clustering process and outputs the latest clustering intermediate data DINT_L as the teacher data DTCH .
 以上のステップS1~S8に示す処理によって、初期クラスタリング処理でラベルなしノードが残存したとしても、全てのノードに自動的にラベルを付与することができる。図11に、全てのノードに自動的にラベルが付与されて作成された教師データDTCHの例を示す。図11に示す様に、教師データDTCHにはラベルなしノードは存在せず、各ノードがクラスタC1~C4のいずれかに属していることが理解できる。 By the processing shown in steps S1 to S8 described above, labels can be automatically assigned to all nodes even if unlabeled nodes remain in the initial clustering processing. FIG. 11 shows an example of teacher data D TCH created by automatically labeling all nodes. As shown in FIG. 11, there is no unlabeled node in the training data D TCH , and each node belongs to one of the clusters C1 to C4.
 教師有り学習部110は、上述したように作成された教師データDTCHに基づいて、別途与えられる学習対象入力データIN2に対するラベル付与を行う。 The supervised learning unit 110 labels the learning target input data IN2 separately provided based on the teacher data D TCH created as described above.
 表示部120は、教師データ作成部100のクラスタリングの中間結果及び最終結果や、教師有り学習部110の処理結果などを適宜表示することができる。 The display unit 120 can appropriately display intermediate results and final results of clustering by the teacher data creation unit 100, processing results by the supervised learning unit 110, and the like.
 以上、本構成によれば、入力データの教師なし学習において、クラスタリング後の全てのノードに、自動的に好適なラベルを付与することができる。 As described above, according to this configuration, in unsupervised learning of input data, suitable labels can be automatically assigned to all nodes after clustering.
 これにより、手作業を介在させることなく、教師データを自動的かつ迅速に教師データを作成することができる。また、教師データの作成から教師データを用いた教師なし学習とその学習結果の表示の一連の処理を、自動的に行うことが可能となる。 As a result, training data can be automatically and quickly created without manual intervention. In addition, it is possible to automatically perform a series of processes from creation of teacher data to unsupervised learning using the teacher data and display of the learning results.
その他の実施の形態
 なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、距離尺度についてであるが、オンライン追加学習を行う場合ではサンプルデータを事前に得ることができないので、事前に入力ベクトルの次元数を分析してどの距離尺度が有効であるかを決定することができない。このため、特許文献2において式(14)を用いて説明されているように、異なる距離尺度を組み合わせて2つのノード間の距離を表す新たな距離尺度を導入してもよい。例えば、特許文献2において式(14)~(16)を用いて導出された式(17)で示されるように、ユークリッド距離とコサイン距離とを組み合わせた新たな距離尺度を用いてもよい。
Other Embodiments The present invention is not limited to the above-described embodiments, and can be modified as appropriate without departing from the scope of the invention. For example, regarding the distance measure, since sample data cannot be obtained in advance when performing online additional learning, it is necessary to analyze the dimensionality of the input vector in advance to determine which distance measure is effective. can't For this reason, different distance measures may be combined to introduce a new distance measure representing the distance between two nodes, as described using equation (14) in US Pat. For example, a new distance measure combining the Euclidean distance and the cosine distance may be used as shown in Equation (17) derived using Equations (14) to (16) in Patent Document 2.
 また、距離尺度に関して、ユークリッド距離にコサイン距離を組み合せる場合を例に説明したが、これに限定されず、他の距離尺度(例えば、コサイン距離、マンハッタン距離、フラクショナル距離)を組み合せるものとしてもよい。さらに、高次元空間における有効な距離尺度に限定されず、学習しようとする問題に応じた他の距離尺度を組み合せるものとしてもよい。 Also, regarding the distance measure, the case of combining the cosine distance with the Euclidean distance has been described as an example, but it is not limited to this, and other distance measures (for example, cosine distance, Manhattan distance, fractional distance) may be combined. good. Furthermore, it is not limited to effective distance scales in high-dimensional space, and other distance scales may be combined according to the problem to be learned.
 上述の実施の形態では、本発明を主にハードウェアの構成として説明したが、これに限定されるものではなく、任意の処理を、CPU(Central Processing Unit)にコンピュータプログラムを実行させることにより実現することも可能である。この場合、コンピュータプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。 In the above-described embodiments, the present invention has been described mainly as a hardware configuration, but it is not limited to this, and arbitrary processing can be realized by causing a CPU (Central Processing Unit) to execute a computer program. It is also possible to In this case, the computer program can be stored and provided to the computer using various types of non-transitory computer readable medium. Non-transitory computer-readable media include various types of tangible storage media. Examples of non-transitory computer-readable media include magnetic recording media (eg, flexible discs, magnetic tapes, hard disk drives), magneto-optical recording media (eg, magneto-optical discs), CD-ROMs (Read Only Memory), CD-Rs, CD-R/W, semiconductor memory (eg, mask ROM, PROM (Programmable ROM), EPROM (Erasable PROM), flash ROM, RAM (random access memory)). The program may also be supplied to the computer on various types of transitory computer readable medium. Examples of transitory computer-readable media include electrical signals, optical signals, and electromagnetic waves. Transitory computer-readable media can deliver the program to the computer via wired channels, such as wires and optical fibers, or wireless channels.
 以上、実施の形態を参照して本願発明を説明したが、本願発明は上記によって限定されるものではない。本願発明の構成や詳細には、発明のスコープ内で当業者が理解し得る様々な変更をすることができる。 Although the present invention has been described with reference to the embodiments, the present invention is not limited to the above. Various changes that can be understood by those skilled in the art can be made to the configuration and details of the present invention within the scope of the invention.
 この出願は、2021年1月19日に出願された日本出願特願2021-6621を基礎とする優先権を主張し、その開示の全てをここに取り込む。 This application claims priority based on Japanese Patent Application No. 2021-6621 filed on January 19, 2021, and the entire disclosure thereof is incorporated herein.
 10 コンピュータ
 11 CPU
 12 ROM
 13 RAM
 14 バス
 15 入出力インターフェイス
 16 入力部
 17 出力部
 18 記憶部
 19 通信部
 20 ドライブ
 20A 磁気ディスク
 20B 光ディスク
 20C フレキシブルディスク
 20D 半導体メモリ
 100 教師データ作成部
 100A 初期クラスタリング処理部
 100B 追加クラスタリング処理部
 110 教師有り学習部
 120 表示部
 130 記憶部
 101 データ取得部
 102 クラスタリング処理部
 103 第1ラベル付与部
 104 ノード選択部
 105 距離算出部
 106 所属クラスタ決定部
 107 第2ラベル付与部
 108 進捗判定部
 1000 情報処理装置
 C1~C4 クラスタ
 DINT、DINT_L クラスタリング中間データ
 DTCH 教師データ
 IN1 教師データ作成用入力データ
 IN2 学習対象入力データ
10 computer 11 CPU
12 ROMs
13 RAM
14 bus 15 input/output interface 16 input unit 17 output unit 18 storage unit 19 communication unit 20 drive 20A magnetic disk 20B optical disk 20C flexible disk 20D semiconductor memory 100 teacher data creation unit 100A initial clustering processing unit 100B additional clustering processing unit 110 supervised learning Unit 120 Display unit 130 Storage unit 101 Data acquisition unit 102 Clustering processing unit 103 First labeling unit 104 Node selection unit 105 Distance calculation unit 106 Belonging cluster determination unit 107 Second labeling unit 108 Progress determination unit 1000 Information processing device C1- C4 cluster D INT , D INT_L clustering intermediate data D TCH teacher data IN1 input data for creating teacher data IN2 input data for learning

Claims (6)

  1.  多次元ベクトルで記述される複数のラベルが付与されていないノードからなる入力データをクラスタリングし、クラスタに属するノードにラベルを付与したクラスタリング中間データを取得する初期クラスタリング処理部と、
     前記クラスタリング中間データに含まれるラベルが付されていないノードに対して、前記クラスタリング中間データに含まれる前記クラスタのいずれかに属するノードのうちで前記ラベルが付されていないノードから最短距離にあるノードに付されたものと同じラベルを付与したクラスタリング結果データを作成する追加クラスタリング処理部と、を備える、
     クラスタリング処理装置。
    an initial clustering processing unit that clusters input data composed of a plurality of unlabeled nodes described by a multidimensional vector and obtains clustering intermediate data in which labels are assigned to nodes belonging to the cluster;
    With respect to the unlabeled node included in the clustering intermediate data, a node that is the shortest distance from the unlabeled node among the nodes belonging to any of the clusters included in the clustering intermediate data. An additional clustering processing unit that creates clustering result data with the same label attached to
    Clustering processor.
  2.  前記追加クラスタリング処理部は、
     前記クラスタリング中間データに含まれるノードから、前記クラスタのいずれにも属していないラベルなしノードを1つ選択するノード選択部と、
     選択された1つの前記ラベルなしノードと、前記クラスタに属する全てのノードと、の間の距離を算出する距離算出部と、
     前記算出した距離に基づいて、前記クラスタに属する全てのノードから、前記選択された1つのラベルなしノードから最短距離にある最短距離ノードを特定する所属クラスタ決定部と、
     前記最短距離ノードに付与されたラベルと同じラベルを前記選択された1つのラベルなしノードに付与するラベル付与部と、を備える、
     請求項1に記載のクラスタリング処理装置。
    The additional clustering processing unit
    a node selection unit that selects one unlabeled node that does not belong to any of the clusters from the nodes included in the clustering intermediate data;
    a distance calculation unit that calculates the distance between the selected one unlabeled node and all the nodes belonging to the cluster;
    A belonging cluster determination unit that identifies a shortest distance node from the selected one unlabeled node from among all nodes belonging to the cluster based on the calculated distance;
    a label assigning unit that assigns the same label as the label assigned to the shortest distance node to the selected one unlabeled node;
    2. The clustering processing device according to claim 1.
  3.  前記追加クラスタリング処理部は、前記クラスタリング中間データにラベルが付されていないノードが存在するか否かを判定する進捗判定部をさらに備え、
     前記追加クラスタリング処理部は、前記進捗判定部が前記クラスタリング中間データにラベルが付されていないノードが存在する存在しないと判定するまで、前記ノード選択部、前記距離算出部、前記所属クラスタ決定部及び前記ラベル付与部による処理を繰り返す、
     請求項2に記載のクラスタリング処理装置。
    The additional clustering processing unit further includes a progress determination unit that determines whether or not there is a node that is not labeled in the clustering intermediate data,
    The additional clustering processing unit continues to perform the node selection unit, the distance calculation unit, the belonging cluster determination unit and repeating the processing by the labeling unit;
    3. The clustering processing device according to claim 2.
  4.  多次元ベクトルで記述される複数のラベルが付与されていないノードからなる入力データをクラスタリングし、クラスタに属するノードにラベルを付与したクラスタリング中間データを取得すし、
     前記クラスタリング中間データに含まれるラベルが付されていないノードに対して、前記クラスタリング中間データに含まれる前記クラスタのいずれかに属するノードのうちで前記ラベルが付されていないノードから最短距離にあるノードに付されたものと同じラベルを付与したクラスタリング結果データを作成する、
     クラスタリング処理方法。
    clustering input data consisting of a plurality of unlabeled nodes described by a multidimensional vector, and obtaining clustering intermediate data in which the nodes belonging to the cluster are labeled;
    With respect to the unlabeled node included in the clustering intermediate data, a node that is the shortest distance from the unlabeled node among the nodes belonging to any of the clusters included in the clustering intermediate data. Create clustering result data with the same labels as those attached to
    Clustering processing method.
  5.  多次元ベクトルで記述される複数のラベルが付与されていないノードからなる入力データをクラスタリングし、クラスタに属するノードにラベルを付与したクラスタリング中間データを取得する処理と、
     前記クラスタリング中間データに含まれるラベルが付されていないノードに対して、前記クラスタリング中間データに含まれる前記クラスタのいずれかに属するノードのうちで前記ラベルが付されていないノードから最短距離にあるノードに付されたものと同じラベルを付与したクラスタリング結果データを作成する処理と、をコンピュータに実行させる、
     プログラムが格納された非一時的なコンピュータ可読媒体。
    A process of clustering input data composed of a plurality of unlabeled nodes described by a multidimensional vector, and obtaining clustering intermediate data in which the nodes belonging to the cluster are labeled;
    With respect to the unlabeled node included in the clustering intermediate data, a node that is the shortest distance from the unlabeled node among the nodes belonging to any of the clusters included in the clustering intermediate data. causing a computer to execute a process of creating clustering result data with the same label attached to
    A non-transitory computer-readable medium that stores a program.
  6.  多次元ベクトルで記述される複数のラベルが付与されていないノードからなる教師データ作成用入力データに対してクラスタリング処理を行って教師データを作成する教師データ作成部と、
     前記教師データに基づいて、多次元ベクトルで記述される複数のラベルが付与されていないノードからなる学習対象入力データのノードにラベルを付与する教師有り学習部と、
     前記教師有り学習部による処理結果を表示する表示部と、を備え、
     前記教師データ作成部は、
      多次元ベクトルで記述される複数のラベルが付与されていないノードからなる入力データをクラスタリングし、クラスタに属するノードにラベルを付与したクラスタリング中間データを取得する初期クラスタリング処理部と、
      前記クラスタリング中間データに含まれるラベルが付されていないノードに対して、前記クラスタリング中間データに含まれる前記クラスタのいずれかに属するノードのうちで前記ラベルが付されていないノードから最短距離にあるノードに付されたものと同じラベルを付与したクラスタリング結果データを作成する追加クラスタリング処理部と、を備える、
     情報処理装置。
           
    a teacher data creation unit that creates teacher data by clustering input data for creating teacher data composed of a plurality of unlabeled nodes described by multidimensional vectors;
    a supervised learning unit that assigns a label to a node of input data to be learned, which is composed of a plurality of unlabeled nodes described by a multidimensional vector, based on the teacher data;
    a display unit that displays a result of processing by the supervised learning unit;
    The training data creation unit
    an initial clustering processing unit that clusters input data composed of a plurality of unlabeled nodes described by a multidimensional vector and obtains clustering intermediate data in which labels are assigned to nodes belonging to the cluster;
    With respect to the unlabeled node included in the clustering intermediate data, a node that is the shortest distance from the unlabeled node among the nodes belonging to any of the clusters included in the clustering intermediate data. An additional clustering processing unit that creates clustering result data with the same label attached to
    Information processing equipment.
PCT/JP2021/031795 2021-01-19 2021-08-30 Cluster processing device, clustering processing method, non-transitory computer-readable medium, and information processing device WO2022158027A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022576961A JPWO2022158027A5 (en) 2021-08-30 Clustering processing device, clustering processing method, program, and information processing device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021006621 2021-01-19
JP2021-006621 2021-01-19

Publications (1)

Publication Number Publication Date
WO2022158027A1 true WO2022158027A1 (en) 2022-07-28

Family

ID=82549679

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/031795 WO2022158027A1 (en) 2021-01-19 2021-08-30 Cluster processing device, clustering processing method, non-transitory computer-readable medium, and information processing device

Country Status (1)

Country Link
WO (1) WO2022158027A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7419583B1 (en) 2023-02-17 2024-01-22 Lineヤフー株式会社 Information processing device, information processing method, and information processing program

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007066202A (en) * 2005-09-01 2007-03-15 Fujitsu Ltd Data analysis program
WO2015008432A1 (en) * 2013-07-17 2015-01-22 日本電気株式会社 Object tracking device, object tracking method, and object tracking program

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007066202A (en) * 2005-09-01 2007-03-15 Fujitsu Ltd Data analysis program
WO2015008432A1 (en) * 2013-07-17 2015-01-22 日本電気株式会社 Object tracking device, object tracking method, and object tracking program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7419583B1 (en) 2023-02-17 2024-01-22 Lineヤフー株式会社 Information processing device, information processing method, and information processing program

Also Published As

Publication number Publication date
JPWO2022158027A1 (en) 2022-07-28

Similar Documents

Publication Publication Date Title
WO2021155650A1 (en) Image recognition model training method and apparatus, computer system, and storage medium
US20200356905A1 (en) Debugging correctness issues in training machine learning models
EP3193257A1 (en) A method and system for optimizing a test suite comprising plurality of test cases
US20180300631A1 (en) Method and apparatus for large scale machine learning
US20210150412A1 (en) Systems and methods for automated machine learning
US8738674B2 (en) Information processing apparatus, information processing method and program
US10977106B2 (en) Tree-based anomaly detection
US11954202B2 (en) Deep learning based detection of malicious shell scripts
US10867246B1 (en) Training a neural network using small training datasets
WO2022158027A1 (en) Cluster processing device, clustering processing method, non-transitory computer-readable medium, and information processing device
JP6787981B2 (en) Systems and methods for obtaining optimal mother wavelets to facilitate machine learning tasks
JP2019197355A (en) Clustering device, clustering method, and program
WO2023030322A1 (en) Methods, systems, and media for robust classification using active learning and domain knowledge
JPWO2014073206A1 (en) Information processing apparatus and information processing method
US20210133390A1 (en) Conceptual graph processing apparatus and non-transitory computer readable medium
CN112131199A (en) Log processing method, device, equipment and medium
EP4227850A1 (en) Program, learning method, and information processing apparatus
WO2022145087A1 (en) Information processing device, information processing method, and non-transitory computer-readable medium
WO2022162839A1 (en) Learning device, learning method, and recording medium
KR101828151B1 (en) Cluster generating apparatus and method
CN113516185A (en) Model training method and device, electronic equipment and storage medium
EP3721445B1 (en) System to improve clinical workflow
Alvarez-Mamani et al. Parallel social spider optimization algorithms with island model for the clustering problem
JP7238907B2 (en) Machine learning device, method and program
WO2022168208A1 (en) Information processing device, conversion pattern determination method, entity matching method, learning method, conversion pattern determination program, entity matching program, and learning program

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21921132

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022576961

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21921132

Country of ref document: EP

Kind code of ref document: A1