WO2023166579A1 - ラベリング支援システム、ラベリング支援方法およびラベリング支援プログラム - Google Patents

ラベリング支援システム、ラベリング支援方法およびラベリング支援プログラム Download PDF

Info

Publication number
WO2023166579A1
WO2023166579A1 PCT/JP2022/008750 JP2022008750W WO2023166579A1 WO 2023166579 A1 WO2023166579 A1 WO 2023166579A1 JP 2022008750 W JP2022008750 W JP 2022008750W WO 2023166579 A1 WO2023166579 A1 WO 2023166579A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
cluster
labeling
common points
unit
Prior art date
Application number
PCT/JP2022/008750
Other languages
English (en)
French (fr)
Inventor
哲孝 山下
卓郎 鹿嶋
憲人 大井
秋紗子 藤井
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2022/008750 priority Critical patent/WO2023166579A1/ja
Publication of WO2023166579A1 publication Critical patent/WO2023166579A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16YINFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
    • G16Y40/00IoT characterised by the purpose of the information processing
    • G16Y40/20Analytics; Diagnosis

Definitions

  • the present invention relates to a labeling support system, a labeling support method, and a labeling support program that support labeling of unlabeled data.
  • Patent Literature 1 describes a sensor data classification device that classifies sensor data obtained from a large number of sensors according to their characteristics.
  • the device described in Patent Document 1 associates a set of sensor data divided for each preset time interval with a sensor identifier and a divided section identifier, and extracts a plurality of types of feature parameters from the data included in the set of divided data. calculate.
  • the data to be classified is video, it takes time to confirm the data.
  • data to be classified includes a plurality of sensor data, determining which data should be focused on becomes a complicated task.
  • an object of the present invention is to provide a labeling support system, a labeling support method, and a labeling support program that can support labeling work for clusters in which unlabeled data are classified.
  • a labeling support system includes classification means for generating a plurality of clusters by classifying data to be labeled by unsupervised learning, and for each generated cluster, searching for common points of data included in the cluster. It is characterized by comprising search means and output means for outputting information on the searched common points for each cluster.
  • a computer classifies data to be labeled by unsupervised learning to generate a plurality of clusters, and for each generated cluster, the computer identifies common points of data included in the cluster. and the computer outputs information about the found common points for each cluster.
  • a labeling support program provides a computer with a classification process for generating a plurality of clusters by classifying data to be labeled by unsupervised learning, and for each generated cluster, a common point of data included in the cluster. It is characterized by executing search processing for searching and output processing for outputting information on the searched common points for each cluster.
  • FIG. 1 is a block diagram showing a configuration example of an embodiment of a labeling support system according to the present invention
  • FIG. FIG. 4 is an explanatory diagram showing an example of data used in the labeling support system
  • FIG. 4 is an explanatory diagram showing an example of feature amounts
  • FIG. 10 is an explanatory diagram showing an example of visualization of dimension-reduced data in a graph
  • It is explanatory drawing which shows the example which displayed the contribution degree for every sensor by the graph.
  • FIG. 4 is an explanatory diagram showing an example of distribution of sensor values within a cluster
  • FIG. 4 is an explanatory diagram showing an example of statistics within a cluster; 4 is a flow chart showing an operation example of the labeling support system; 1 is a block diagram showing an overview of a labeling support system according to the present invention; FIG. 1 is a schematic block diagram showing a configuration of a computer according to at least one embodiment; FIG.
  • unlabeled data is not limited to moving images, and may be still images, music data, text data, and the like. Further, unlabeled data (data to be labeled) may be hereinafter referred to as unclassified data.
  • FIG. 1 is a block diagram showing a configuration example of one embodiment of a labeling support system according to the present invention.
  • the labeling support system 1 of this embodiment includes a data acquisition unit 10, a related information acquisition unit 20, an object identification unit 30, a data processing unit 40, a text information input unit 50, a feature extraction unit 60, and a feature storage.
  • a unit 70 , a visualization processing unit 80 , and an input/output device 90 are provided.
  • the data acquisition unit 10 acquires data to be labeled (that is, unclassified data). For example, when a camera (not shown) captures an image of a traveling vehicle, the data acquisition unit 10 may acquire a moving image of the vehicle captured by the camera as data to be labeled.
  • the data acquired by the data acquisition unit 10 is not limited to data acquired in real time.
  • the data acquisition unit 10 may acquire the data to be labeled, for example, from a storage server (not shown) in which the data to be labeled is stored.
  • the related information acquisition unit 20 acquires information related to data to be labeled (hereinafter referred to as related information).
  • the related information is information indicating the situation in which the data to be labeled is generated. (hereinafter referred to as sensor data).
  • the data to be labeled is video data captured by an in-vehicle camera (drive recorder), it is acquired based on GPS (Global Positioning System) information representing the vehicle position and CAN (Controller Area Network) as related information. and the information to be provided.
  • GPS Global Positioning System
  • CAN Controller Area Network
  • sensor data acquired in this case are velocity, acceleration, and position (latitude, longitude, altitude, etc.).
  • sensor data when a video showing the operating status of a thermal power plant is used as the data to be labeled, sensor data includes, for example, fuel flow rate, pressure, temperature, rotation speed, and power generation amount.
  • sensor data when images showing farm conditions are used as data to be labeled, sensor data includes time, temperature, humidity, pH, soil water content, solar radiation, wind direction/speed, water level, and the like.
  • the object identification unit 30 identifies objects included in the acquired data and generates information specifying the identified objects (hereinafter referred to as an object list). For example, when the object to be identified is a vehicle, the object identification unit 30 identifies the vehicle from the data acquired by the data acquisition unit 10, and identifies the vehicle (for example, coordinates indicating the position in the image). may be generated as an object list. Methods for identifying objects from images and videos are widely known, and detailed description thereof is omitted here.
  • the data processing unit 40 processes the data (more specifically, the object list) into a form that can be used when the feature extraction unit 60, which will be described later, performs processing. Specifically, the data processing unit 40 processes the data so as to improve the accuracy of feature extraction and clustering.
  • the data processing unit 40 for example, thins data, interpolates missing values, excludes outliers, and deletes unnecessary data items. Further, for example, when the data to be labeled is video data, the data processing unit 40 may convert the video data into numerical time-series data.
  • the text information input unit 50 accepts input of text data including information to be added to each data to be labeled (hereinafter referred to as additional information).
  • the additional information is information indicating the content of the labeling target data that can be acquired other than the related information. Categories indicating additional information include, for example, weather, types of plants, traffic participants, and the like. Examples of categorical values for weather include sunny, cloudy, rain, and snow. Examples of categorical values for plant types include rice, wheat, and barley. ⁇ Pedestrians, etc.
  • labeling target data associated with additional information is also simply referred to as labeling target data.
  • FIG. 2 is an explanatory diagram showing an example of data used in the labeling support system 1 of this embodiment.
  • the example shown in FIG. 2 indicates that the data acquisition unit 10 has acquired the image 11 as data to be labeled, and the related information acquisition unit 20 has acquired related information 21 regarding the location where the image 11 was shot.
  • the data processing unit 40 processes the video 11 and the related information 21 (more specifically, the object list generated by the object identification unit 30) to generate numerical time series data 41. indicate that Furthermore, the example shown in FIG. 2 indicates that the text information input unit 50 has received input of text data 51 including information on the weather, scene, time period, and objects as additional information.
  • the feature extraction unit 60 extracts features from each data to be labeled.
  • the feature extraction unit 60 of the present embodiment automatically classifies each data to be labeled including additional information by unsupervised learning to generate a plurality of clusters. Any method can be used to generate clusters by unsupervised learning, and examples thereof include the k-means method and the Gaussian mixture model.
  • the feature extraction unit 60 extracts the feature amount of each data included in the generated cluster.
  • the feature extraction unit 60 may extract, for example, additional information included in the text data as a feature amount.
  • the feature extraction unit 60 may extract feature amounts indicated by numerical time-series data.
  • the feature extraction unit 60 may extract feature amounts based on sensor values included in the data to be labeled (more specifically, numerical time-series data).
  • any method can be used to extract feature values from numerical time-series data. For example, for each cluster generated by the k-means method, the feature extraction unit 60 extracts a feature amount called the distance (cluster distance feature) from the center of gravity of the numerical time series data included in the cluster to each data. good.
  • the feature extracting unit 60 can be said to be a classifying means because it classifies data to be labeled by unsupervised learning.
  • the object identification unit 30 identifies the object from the information obtained by the data acquisition unit 10 and the related information acquisition unit 20, and the data processing unit 40 uses the identification result, and the feature extraction unit 60 uses the identification result.
  • the data acquisition unit 10 may directly acquire data in the format used by the feature extraction unit 60 and input the acquired data to the feature extraction unit 60 .
  • the labeling support system 1 does not have to include the related information acquisition unit 20, the object identification unit 30, and the data processing unit 40.
  • the feature storage unit 70 stores feature amounts of each data extracted by the feature extraction unit 60 .
  • the manner in which the feature storage unit 70 stores the feature amount for each data is arbitrary.
  • FIG. 3 is an explanatory diagram showing an example of feature amounts stored in the feature storage unit 70. As shown in FIG. In the example shown in FIG. 3, the vertical direction represents one feature point, and the horizontal direction represents the feature amount (category value) of each category (for example, weather, traffic participants, types of plants, etc.).
  • the feature storage unit 70 is implemented by, for example, a magnetic disk.
  • the visualization processing unit 80 performs processing for visualizing information that contributes to the labeling work for the generated clusters.
  • the visualization processing unit 80 includes a search unit 81 and an output unit 82 .
  • the search unit 81 searches for common points of labeling target data included in the cluster. Specifically, the search unit 81 extracts the feature amount of each data included in the generated cluster, and searches for common points of the extracted feature amounts of each data. The search unit 81 may search for a common point of category values in each extracted category as a feature amount, or may search for a common point of feature amounts extracted based on numerical time-series data.
  • the searching unit 81 may set the category value as the common point when the rate of common category values among the data in the cluster exceeds a predetermined threshold.
  • the ratio can be calculated based on the ratio of the number of data containing common points to the number of data in the cluster.
  • the searching unit 81 may search for a common point for the category values of all categories, or may search for a common point for the category values of any part of the categories.
  • the search unit 81 searches for the most common category value (for example, the mode value if it is a numerical value) as a common point for each category indicated by the data to be labeled. good too. Then, the searching unit 81 may specify the category value having the highest ratio of the most common category values as the common point.
  • the most common category value for example, the mode value if it is a numerical value
  • the searching unit 81 may calculate the degree of contribution of the sensor value to the feature amount. For example, when the relationship between the sensor value of the data to be labeled and the feature amount is represented by a linear expression of the sensor values, the search unit 81 takes the weight of the sensor value included in the linear expression as the degree of contribution. Large sensor values may be identified as commonalities.
  • the output unit 82 outputs information about the found common points.
  • the output unit 82 may output and display the information on the common points searched for each cluster to the input/output device 90, or may output and store the information in a storage unit (not shown) included in the labeling support system 1. may
  • the output unit 82 may output one common point with the highest degree of commonality among the searched common points. For example, when a category value is specified as a common point, the output unit 82 may output the name of the category value and the category value (for example, "weather: sunny"). Further, for example, when a sensor value is specified as a common point, the output unit 82 may output the sensor value and the name of the sensor that obtained the sensor value.
  • the output unit 82 may output the name of the sensor value and the sensor value, with the sensor value having the largest degree of contribution as a common point.
  • the output unit 82 may output a plurality of common point candidates searched in the cluster according to the degree of commonality of the common points. For example, the output unit 82 may output the degree of commonality itself, or may output the common points with the highest degree of commonality as labeling candidates in a ranking format up to a predetermined rank.
  • the output unit 82 may directly label and output the information indicating the found common points to the unclassified data (that is, the data to be labeled) in each cluster. In this case, the output unit 82 may label and output information indicating the common point with the highest degree of commonality.
  • the output unit 82 draws a graph on the input/output device 90 of the data to be labeled that has been dimensionally reduced (lowered) so that a person can observe how the data to be labeled is clustered. can be visualized.
  • the output unit 82 for example, by UMAP (Uniform Manifold Approximation and Projection) or the like, dimensionality reduction of the data to be labeled to two-dimensional or three-dimensional, the dimensionality-reduced data, even if visualized as a graph such as a distribution map. good.
  • the output unit 82 may display the data classified into the same cluster in a manner different from that of other clusters (for example, by changing the color, changing the symbol, etc.).
  • FIG. 4 is an explanatory diagram showing an example of visualizing the dimension-reduced data in a graph.
  • the graph illustrated in FIG. 4 shows an example in which the data reduced to two dimensions by UMAP are displayed in different manners (hatching, blacking, etc.) for each cluster to which they belong.
  • the output unit 82 may display the range of data included in the cluster so that the range can be specified.
  • the output unit 82 may display all the data, or may determine whether or not to display only data that satisfies a specific condition.
  • the output unit 82 targets clusters that satisfy a specific condition (for example, clusters whose number of data is greater than a predetermined number) or unclassified data (that is, unlabeled data), whether to display them or not. You can decide whether to display it or not.
  • the output unit 82 may display the contribution of each sensor in the cluster in a graph.
  • FIG. 5 is an explanatory diagram showing an example in which the degree of contribution of each sensor is displayed graphically.
  • the feature value of each cluster is calculated using sensor values indicating temperature, humidity, and water level, and the contribution of each sensor value used to calculate the feature value is displayed in a bar graph. is.
  • the feature amount of cluster 2 indicates that the contribution of the sensor value indicating the water level is higher than that of other clusters.
  • the display of the degree of contribution for each sensor is not limited to the bar graph illustrated in FIG.
  • FIG. 6 is an explanatory diagram showing an example of distribution of sensor values within a cluster.
  • the data to be labeled includes temperature, humidity, and water level as sensor values, and as illustrated in FIG. 6, a graph showing the distribution of each sensor value is displayed. Note that the vertical axis direction of the graph illustrated in FIG. 6 indicates the number of elements, and the horizontal axis direction indicates the sensor value.
  • the display of the distribution of sensor values in the cluster is not limited to the distribution chart illustrated in FIG. 6, and may be, for example, a frequency distribution table or a histogram.
  • the output unit 82 may output statistics within the cluster.
  • FIG. 7 is an explanatory diagram showing an example of statistics within a cluster. The statistics illustrated in FIG. 7 show an example of outputting the average, variance, maximum value, and minimum value of each sensor value included in the data in the cluster for each cluster. Note that the output statistic is an example, and any other statistic such as median or mode may be output.
  • the input/output device 90 displays the output result from the output unit 82.
  • the input/output device 90 also receives input from the user regarding the displayed result, and executes processing according to the input. For example, when receiving an input specifying a cluster from the user, the input/output device 90 may display detailed information about the specified cluster. Specifically, the input/output device 90 may display the statistical information generated by the output unit 82 for the specified cluster.
  • the input/output device 90 may be realized by a tablet terminal or the like. Alternatively, the input/output device 90 may be realized by a device having a display device and a pointing device.
  • the input/output device 90 accepts an input specifying a target cluster from the user, and receives information about the accepted cluster (for example, FIG. 5, FIG. 6, information illustrated in FIG. 7) may be displayed.
  • the unit 81 and the output unit 82) are realized by a computer processor (for example, a CPU (Central Processing Unit)) that operates according to a program (labeling support program).
  • a computer processor for example, a CPU (Central Processing Unit)
  • CPU Central Processing Unit
  • program labeling support program
  • the program is stored in a storage unit (not shown) of the labeling support system 1, the processor reads the program, and according to the program, the data acquisition unit 10, the related information acquisition unit 20, the object identification unit 30, the data processing It may operate as the unit 40, the text information input unit 50, the feature extraction unit 60, and the visualization processing unit 80 (more specifically, the search unit 81 and the output unit 82).
  • the functions of the labeling support system 1 may be provided in a SaaS (Software as a Service) format.
  • the unit 81 and the output unit 82) may each be realized by dedicated hardware. Also, part or all of each component of each device may be implemented by general-purpose or dedicated circuitry, processors, etc., or combinations thereof. These may be composed of a single chip, or may be composed of multiple chips connected via a bus. A part or all of each component of each device may be implemented by a combination of the above-described circuits and the like and programs.
  • each component of the labeling support system 1 is realized by a plurality of information processing devices, circuits, etc.
  • the plurality of information processing devices, circuits, etc. may be centrally arranged, They may be distributed.
  • the information processing device, circuits, and the like may be implemented as a form in which each is connected via a communication network, such as a client-server system, a cloud computing system, or the like.
  • FIG. 8 is a flowchart showing an operation example of the labeling support system 1.
  • FIG. 8 is an operation example when the data acquisition unit 10 directly acquires data in a format used by the feature extraction unit 60 and inputs the acquired data to the feature extraction unit 60 .
  • the feature extraction unit 60 generates a plurality of clusters from data to be labeled (step S51).
  • the searching unit 81 searches for a common point of data for each generated cluster (step S52). Then, the output unit 82 outputs information about the found common points for each cluster (step S53).
  • the feature extraction unit 60 classifies data to be labeled by unsupervised learning to generate a plurality of clusters, and the search unit 81 classifies each generated cluster into Find commonalities in the data contained in . Then, the output unit 82 outputs information about the found common points for each cluster.
  • Such a configuration can assist the labeling task for clusters into which unlabeled data have been classified.
  • the output unit 82 automatically labels the data to be labeled and outputs labeling candidates, thereby reducing the cost of labeling by a person and allowing a person to understand the reason why the label is given. I can grasp it.
  • FIG. 9 is a block diagram showing the outline of the labeling support system according to the present invention.
  • a labeling support system 190 (for example, labeling support system 1) according to the present invention includes classification means 191 (for example, feature extraction unit 60) that generates a plurality of clusters by classifying data to be labeled by unsupervised learning; Search means 192 (e.g., feature extraction unit 60) for searching common points of data included in each cluster, and output means 193 (e.g., , and an output unit 82).
  • classification means 191 for example, feature extraction unit 60
  • Search means 192 e.g., feature extraction unit 60
  • output means 193 e.g., , and an output unit 82.
  • the classification means 191 may extract the feature amount of each data included in the generated cluster, and the search means 192 may search for common points of the feature amounts extracted for each data in the cluster.
  • the classification means 191 extracts a feature amount based on the sensor value included in the data to be labeled, the search means 192 calculates the contribution of the sensor value to the feature amount, and the output means 193 The largest sensor value may be output as the common point.
  • the output means 193 may graphically display the contribution of each sensor in the cluster.
  • the output means 193 may label and output information indicating the found common points for the labeling target data in each cluster.
  • the output means 193 may output a plurality of common points searched within the cluster according to the degree of commonality of the common points.
  • the output means 193 may output the common points with the highest degree of commonality as labeling candidates in a ranking format up to a predetermined rank.
  • FIG. 10 is a schematic block diagram showing the configuration of a computer according to at least one embodiment.
  • a computer 1000 comprises a processor 1001 , a main storage device 1002 , an auxiliary storage device 1003 and an interface 1004 .
  • the labeling support system 190 described above is implemented in the computer 1000.
  • the operation of each processing unit described above is stored in the auxiliary storage device 1003 in the form of a program (labeling support program).
  • the processor 1001 reads out the program from the auxiliary storage device 1003, develops it in the main storage device 1002, and executes the above processing according to the program.
  • the secondary storage device 1003 is an example of a non-transitory tangible medium.
  • Other examples of non-transitory tangible media include magnetic disks, magneto-optical disks, CD-ROMs (Compact Disc Read-only memory), DVD-ROMs (Read-only memory), connected via interface 1004, A semiconductor memory etc. are mentioned.
  • the computer 1000 receiving the distribution may develop the program in the main storage device 1002 and execute the above process.
  • the program may be for realizing part of the functions described above.
  • the program may be a so-called difference file (difference program) that implements the above-described functions in combination with another program already stored in the auxiliary storage device 1003 .
  • Classification means for generating a plurality of clusters by classifying data to be labeled by unsupervised learning; search means for searching for a common point of the data included in each generated cluster;
  • a labeling support system comprising output means for outputting information about the found common points for each of the clusters.
  • the classification means extracts the feature amount of each data included in the generated cluster, The labeling support system according to appendix 1, wherein the searching means searches for a common point of the feature values extracted for each data in the cluster.
  • the classification means extracts a feature amount based on the sensor value included in the data to be labeled,
  • the search means calculates a contribution of the sensor value to the feature quantity,
  • the labeling support system according to appendix 1 or appendix 2, wherein the output means outputs the sensor value having the largest contribution as a common point.
  • Appendix 4 The labeling support system according to appendix 3, wherein the output means graphically displays the degree of contribution of each sensor in the cluster.
  • a computer generates a plurality of clusters by classifying data to be labeled by unsupervised learning, The computer searches for common points of the data included in each cluster generated, A labeling support method, wherein the computer outputs information about the found common points for each of the clusters.
  • a classification process that generates multiple clusters by classifying the data to be labeled by unsupervised learning, a search process for searching for a common point of the data included in each generated cluster; and A program storage medium storing a labeling support program for executing output processing for outputting information about the found common points for each of the clusters.
  • Appendix 11 to the computer, In the classification process, extract the feature amount of each data included in the generated cluster, 11.
  • the program storage medium according to appendix 10 which stores a labeling support program for searching for common points of feature values extracted for each data in a cluster in search processing.
  • a classification process that generates multiple clusters by classifying the data to be labeled by unsupervised learning, a search process for searching for a common point of the data included in each generated cluster; and A labeling support program for executing output processing for outputting information about the found common points for each of the clusters.
  • labeling support system 10 data acquisition unit 20 related information acquisition unit 30 object identification unit 40 data processing unit 50 text information input unit 60 feature extraction unit 70 feature storage unit 80 visualization processing unit 81 search unit 82 output unit 90 input/output device

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

分類手段191は、ラベリング対象のデータを教師なし学習により分類することで複数のクラスタを生成する。探索手段192は、生成されたクラスタごとに、そのクラスタに含まれるデータの共通点を探索する。出力手段193は、クラスタごとに、探索された共通点に関する情報を出力する。

Description

ラベリング支援システム、ラベリング支援方法およびラベリング支援プログラム
 本発明は、ラベル付けされていないデータに対するラベリングを支援するラベリング支援システム、ラベリング支援方法およびラベリング支援プログラムに関する。
 IoT(Internet of Things)社会において、様々な機器からデータを収集することが可能になっている。そして、収集される大量のデータを用いて行われるデータの検索やAI(Artificial Intelligence )の学習には、データの分類が重要になる。
 このような状況において、データの分類を支援する方法が各種提案されている。例えば、特許文献1には、多数のセンサにより得られるセンサデータをその特徴に応じて分類するセンサデータ分類装置が記載されている。特許文献1に記載された装置は、予め設定した時間区間ごとに分割されたセンサデータの集合をセンサ識別子および分割区間識別子と関連付け、分割データの集合に含まれるデータからその複数種の特徴パラメータを算出する。
特開2016-99888号公報
 例えば、データの特徴量を抽出してクラスタに分類した場合、クラスタへの意味付け(ラベリング)を行うことが重要である。しかし、クラスタ化された個々のデータを見てラベリングするのは非常にコストのかかる作業であり、特にそのクラスタに含まれるデータ量が大量である場合、その影響は顕著である。
 さらに、例えば、分類対象のデータが動画であるような場合、そのデータの確認には時間がかかる。また、分類対象のデータに複数のセンサデータが含まれる場合、どのデータに着目すべきか判断することも煩雑な作業になる。
 特許文献1に記載された装置では、分類を行うための特徴パラメータの計算方法や、分割区間を予め定められる。しかし、何らかの基準に基づいて算出された数値からデータを分類したとしても、ラベル付けされていないデータに対して意味のあるラベリング作業を行うには、やはりコストがかかってしまうという問題がある。
 そこで、本発明は、ラベル付けされていないデータが分類されたクラスタに対するラベリング作業を支援できるラベリング支援システム、ラベリング支援方法およびラベリング支援プログラムを提供することを目的とする。
 本発明によるラベリング支援システムは、ラベリング対象のデータを教師なし学習により分類することで複数のクラスタを生成する分類手段と、生成されたクラスタごとに、そのクラスタに含まれるデータの共通点を探索する探索手段と、クラスタごとに、探索された共通点に関する情報を出力する出力手段とを備えたことを特徴とする。
 本発明によるラベリング支援方法は、コンピュータが、ラベリング対象のデータを教師なし学習により分類することで複数のクラスタを生成し、コンピュータが、生成されたクラスタごとに、そのクラスタに含まれるデータの共通点を探索し、コンピュータが、クラスタごとに、探索された共通点に関する情報を出力することを特徴とする。
 本発明によるラベリング支援プログラムは、コンピュータに、ラベリング対象のデータを教師なし学習により分類することで複数のクラスタを生成する分類処理、生成されたクラスタごとに、そのクラスタに含まれるデータの共通点を探索する探索処理、および、クラスタごとに、探索された共通点に関する情報を出力する出力処理を実行させることを特徴とする。
 本発明によれば、ラベル付けされていないデータが分類されたクラスタに対するラベリング作業を支援できる。
本発明によるラベリング支援システムの一実施形態の構成例を示すブロック図である。 ラベリング支援システムで利用されるデータの例を示す説明図である。 特徴量の例を示す説明図である。 次元削減されたデータをグラフで可視化した例を示す説明図である。 センサごとの寄与度をグラフ表示した例を示す説明図である。 クラスタ内におけるセンサ値の分布の例を示す説明図である。 クラスタ内における統計量の例を示す説明図である。 ラベリング支援システムの動作例を示すフローチャートである。 本発明によるラベリング支援システムの概要を示すブロック図である。 少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
 以下、本発明の実施形態を図面を参照して説明する。以下の説明では、ラベル付けされていないデータの一例として、動画(映像データ)を例示する。ただし、ラベル付けされていないデータは、動画に限られず、例えば、静止画や、音楽データ、テキストデータなどであってもよい。また、ラベル付けされていないデータ(ラベリング対象のデータ)のことを、以下、未分類データと記すこともある。
 図1は、本発明によるラベリング支援システムの一実施形態の構成例を示すブロック図である。本実施形態のラベリング支援システム1は、データ取得部10と、関連情報取得部20と、物体識別部30と、データ加工部40と、テキスト情報入力部50と、特徴抽出部60と、特徴記憶部70と、可視化処理部80と、入出力装置90とを備えている。
 データ取得部10は、ラベリング対象のデータ(すなわち、未分類データ)を取得する。例えば、カメラ(図示せず)によって走行する車両が撮像されている場合、データ取得部10は、ラベリング対象のデータとして、そのカメラが撮影した車両の動画を取得してもよい。なお、データ取得部10が取得するデータは、リアルタイムで取得されるデータに限られない。データ取得部10は、例えば、ラベリング対象のデータが記憶されたストレージサーバ(図示せず)から、ラベリング対象のデータを取得してもよい。
 関連情報取得部20は、ラベリング対象のデータに関連する情報(以下、関連情報と記す。)を取得する。本実施形態では、関連情報は、ラベリング対象のデータの生成された状況を示す情報であり、例えば、データが生成された場所(撮像された場所)や時間を表わす情報、センサにより取得されたデータ(以下、センサデータと記す。)である。
 例えば、ラベリング対象のデータが、車載カメラ(ドライブレコーダ)で撮像された映像データである場合、関連情報として車両位置を表わすGPS(Global Positioning System )情報や、CAN(Controller Area Network )に基づいて取得される情報などが挙げられる。この場合に取得されるセンサデータの例が、速度や加速度、位置(緯度、経度、高度など)である。
 また、ラベリング対象のデータとして火力発電所の稼働状況を示す映像が用いられる場合、センサデータとして、例えば、燃料の流量、圧力、温度、回転数、発電量などが挙げられる。他にも、ラベリング対象のデータとして農場の状況を示す映像が用いられる場合、センサデータとして、時間や温度、湿度、pH、土壌水分量、日射量、風向・風速、水位などが挙げられる。
 物体識別部30は、取得されたデータに含まれる物体を識別し、識別した物体を特定する情報(以下、オブジェクトリストと記す。)を生成する。例えば、識別対象の物体が車両の場合、物体識別部30は、データ取得部10が取得したデータから、車両を識別し、その車両を特定する情報(例えば、画像中の位置を示す座標等)をオブジェクトリストとして生成してもよい。なお、画像や映像から物体を識別する方法は広く知られており、ここでは詳細な説明は省略する。
 データ加工部40は、後述する特徴抽出部60が処理を行う際に用いることができる態様にデータ(より具体的には、オブジェクトリスト)を加工する。具体的には、データ加工部40は、特徴抽出やクラスタリングの精度を向上させられるようにデータを加工する。データ加工部40は、例えば、データの間引きや、欠損値の補間、外れ値の除外、不要なデータ項目の削除などを行う。また、例えば、ラベリング対象のデータが映像データの場合、データ加工部40は、映像データを数値時系列データへ変換してもよい。
 テキスト情報入力部50は、ラベリング対象の各データに付加する情報(以下、付加情報と記す。)を含むテキストデータの入力を受け付ける。付加情報は、関連情報以外で取得し得るラベリング対象のデータの内容を示す情報である。付加情報を示すカテゴリとして、例えば、天気や植物の種類、交通参加者などが挙げられる。天気のカテゴリ値の例として、晴れ・曇り・雨・雪などが挙げられ、植物の種類のカテゴリ値の例として、米・小麦・大麦などが挙げられ、交通参加者の例として、自動車・自転車・歩行者などが挙げられる。
 なお、テキストデータの入力は任意である。すなわち、ラベリング対象のデータに対する付加情報が入力されていなくてもよい。ただし、ラベリング対象のデータに付加情報が増えるほど、分類の精度を向上できるため、入力されることが好ましい。以下の説明では、付加情報が対応付けられたラベリング対象のデータも、単にラベリング対象のデータと記す。
 図2は、本実施形態のラベリング支援システム1で利用されるデータの例を示す説明図である。図2に示す例では、データ取得部10がラベリング対象のデータとして映像11を取得し、関連情報取得部20は、映像11が撮影された場所等に関する関連情報21を取得したことを示す。また、図2に示す例では、データ加工部40が、映像11および関連情報21(より具体的には、物体識別部30により生成されたオブジェクトリスト)を加工して数値時系列データ41を生成したことを示す。さらに、図2に示す例では、テキスト情報入力部50が、付加情報として、天気、シーン、時間帯および物体に関する情報を含むテキストデータ51の入力を受け付けたことを示す。
 特徴抽出部60は、ラベリング対象の各データから特徴を抽出する。本実施形態の特徴抽出部60は、付加情報を含むラベリング対象の各データを教師なし学習により自動的に分類することで複数のクラスタを生成する。教師なし学習によりクラスタを生成する方法は任意であり、例えば、k-means法や、混合ガウスモデルなどが挙げられる。
 そして、特徴抽出部60は、生成したクラスタに含まれる各データの特徴量を抽出する。特徴抽出部60は、例えば、テキストデータに含まれている付加情報を特徴量として抽出してもよい。他にも、特徴抽出部60は、数値時系列データが示す特徴量を抽出してもよい。具体的には、特徴抽出部60は、ラベリング対象のデータ(より具体的には、数値時系列データ)に含まれるセンサ値に基づいて特徴量を抽出してもよい。
 なお、数値時系列データから特徴量を抽出する方法は任意である。例えば、k-means法により生成された各クラスタについて、特徴抽出部60は、クラスタに含まれる数値時系列データの重心点から各データまでの距離(cluster distance feature)という特徴量を抽出してもよい。   
 このように、特徴抽出部60は、ラベリング対象のデータを教師なし学習により分類する処理を行うことから、分類手段ということもできる。また、本実施形態では、データ取得部10と関連情報取得部20により取得された情報から物体識別部30が物体を識別し、識別結果に対してデータ加工部40が、特徴抽出部60が用いる形式にデータを加工する場合について説明した。ただし、データ取得部10が、直接、特徴抽出部60が用いる形式のデータを取得し、取得したデータを特徴抽出部60に入力してもよい。この場合、ラベリング支援システム1は、関連情報取得部20、物体識別部30およびデータ加工部40を備えていなくてもよい。
 特徴記憶部70は、特徴抽出部60が抽出した各データの特徴量を記憶する。特徴記憶部70がデータごとの特徴量を記憶する態様は任意である。図3は、特徴記憶部70が記憶する特徴量の例を示す説明図である。図3に示す例では、縦方向が1つの特徴点を表わし、横方向が各カテゴリ(例えば、天気、交通参加者、植物の種類など)の特徴量(カテゴリ値)を表わしている。特徴記憶部70は、例えば、磁気ディスク等により実現される。
 可視化処理部80は、生成されたクラスタに対するラベリング作業に寄与する情報を可視化するための処理を行う。可視化処理部80は、探索部81と、出力部82とを含む。
 探索部81は、生成されたクラスタごとに、そのクラスタに含まれるラベリング対象の各データの共通点を探索する。具体的には、探索部81は、生成されたクラスタに含まれる各データの特徴量を抽出し、抽出された各データの特徴量の共通点を探索する。探索部81は、特徴量として、抽出された各カテゴリにおけるカテゴリ値の共通点を探索してもよく、数値時系列データに基づいて抽出される特徴量の共通点を探索してもよい。
 例えば、上記に示すカテゴリに着目した場合、探索部81は、クラスタ内のデータでカテゴリ値が共通する割合が予め定めた閾値を超えた場合、そのカテゴリ値を共通点としてもよい。具体的には、割合は、クラスタ内のデータ数に対する共通点を含むデータ数の比率に基づいて算出できる。なお、この場合、探索部81は、全カテゴリのカテゴリ値について共通点を探索してもよく、任意の一部のカテゴリのカテゴリ値について共通点を探索してもよい。
 他にも、共通点を探索する処理として、探索部81は、ラベリング対象のデータが示すカテゴリごとに、最も共通するカテゴリ値(例えば、数値であれば最頻値)を共通点として探索してもよい。そして、探索部81は、最も共通するカテゴリ値の割合が最も高いカテゴリ値を共通点として特定してもよい。
 また、例えば、数値時系列データが示すセンサ値に基づいて特徴量が抽出される場合、探索部81は、特徴量に対するセンサ値の寄与度を算出してもよい。例えば、ラベリング対象のデータのセンサ値と特徴量との関係が、センサ値の線形式で表現される場合、探索部81は、線形式に含まれるセンサ値の重みを寄与度とし、最も重みが大きいセンサ値を共通点として特定してもよい。
 出力部82は、探索された共通点に関する情報を出力する。出力部82は、クラスタごとに探索された共通点に関する情報を、入出力装置90に出力して表示させてもよく、ラベリング支援システム1が備える記憶部(図示せず)に出力して記憶させてもよい。
 具体的には、出力部82は、探索された共通点のうち、最も共通性の度合いが高い共通点を1つ出力してもよい。例えば、カテゴリ値が共通点として特定された場合、出力部82は、そのカテゴリ値の名称とカテゴリ値(例えば、「天気:晴れ」など)を出力してもよい。また、例えば、センサ値が共通点として特定された場合、出力部82は、センサ値と、そのセンサ値を得たセンサの名称を出力してもよい。
 さらに、特徴量に対するセンサ値の寄与度が算出されている場合、出力部82は、寄与度が最も大きいセンサ値を共通点として、そのセンサ値とセンサ値の名称を出力してもよい。
 また、出力部82は、クラスタ内で探索された複数の共通点の候補を、その共通点の共通性の度合いに応じて出力してもよい。出力部82は、例えば、共通性の度合いそのものを出力してもよく、共通性の度合いが上位の共通点を、予め定めた順位までランキング形式でラベリング候補として出力してもよい。
 また、出力部82は、各クラスタ内の未分類データ(すなわち、ラベリング対象のデータ)に対して、探索された共通点を示す情報を直接ラベリングして出力してもよい。この場合、出力部82は、最も共通性の度合いが高い共通点を示す情報をラベリングして出力すればよい。
 さらに、出力部82は、ラベリング対象のデータをクラスタ化した様子を人間が観察できるように、ラベリング対象のデータを次元削減(低次元化)したものを、入出力装置90にグラフ描画することで可視化してもよい。出力部82は、例えば、UMAP(Uniform Manifold Approximation and Projection )などにより、2次元または3次元にラベリング対象のデータを次元削減し、次元削減されたデータを、分布図などのグラフとして可視化してもよい。その際、出力部82は、同一のクラスタに分類されたデータを、他のクラスタと異なる態様(例えば、色を変える、記号を変える、など)で表示してもよい。
 図4は、次元削減されたデータをグラフで可視化した例を示す説明図である。図4に例示するグラフは、UMAPにより2次元に次元削減したデータを、属するクラスタごとに態様(斜線、黒塗り等)を変えて表示した例を示す。また、図4に例示するように、出力部82は、クラスタに含まれるデータの範囲を特定できるように、その範囲を囲む表示をしてもよい。
 さらに、グラフ描画の際、出力部82は、全てのデータを表示してもよいし、特定の条件を満たすデータのみ表示する又は表示しないと決定してもよい。出力部82は、例えば、特定の条件を満たすクラスタ(例えば、データ数が所定数よりも多いクラスタ、など)や、未分類のデータ(すなわち、ラベリングされていないデータ)を対象に、表示するか表示しないか判断してもよい。
 また、特徴量に対するセンサ値の寄与度が算出されている場合、出力部82は、クラスタ内におけるセンサごとの寄与度をグラフ表示してもよい。図5は、センサごとの寄与度をグラフ表示した例を示す説明図である。図5に示す例では、温度、湿度、および、水位を示すセンサ値を用いて各クラスタの特徴量が算出され、その特徴量の算出に用いられる各センサ値の寄与度を棒グラフで表示した例である。例えば、クラスタ2の特徴量は、他のクラスタと比較し、水位を示すセンサ値の寄与度が高いことを示す。
 なお、センサごとの寄与度の表示は、図5に例示する棒グラフに限定されず、例えば、集合縦棒グラフや折れ線グラフ、3次元面グラフなどであってもよい。
 また、出力部82は、クラスタ内におけるセンサ値の分布を出力してもよい。図6は、クラスタ内におけるセンサ値の分布の例を示す説明図である。図6に示す例では、ラベリング対象のデータにセンサ値として、温度、湿度および水位が含まれ、図6に例示するように、センサ値ごとに分布を示すグラフを表示していることを示す。なお、図6に例示するグラフの縦軸方向が要素数を示し、横軸方向がセンサ値を示す。なお、クラスタ内におけるセンサ値の分布の表示は、図6に例示する分布図に限定されず、例えば、度数分布表やヒストグラムであってもよい。
 さらに、出力部82は、クラスタ内における統計量を出力してもよい。図7は、クラスタ内における統計量の例を示す説明図である。図7に例示する統計量は、クラスタ内のデータに含まれる各センサ値の平均や分散、最大値や最小値を、クラスタごとに出力した例を示す。なお、出力した統計量は例示であり、他にも、中央値や最頻値など、任意の統計量が出力されればよい。
 入出力装置90は、出力部82による出力結果を表示する。また、入出力装置90は、表示した結果に対するユーザからの入力を受け付け、入力に応じた処理を実行する。例えば、ユーザからクラスタを指定する入力を受け付けた場合、入出力装置90は、指定されたクラスタに関する詳細な情報を表示してもよい。具体的には、入出力装置90は、指定されたクラスタについて、出力部82により生成された統計情報を表示してもよい。
 入出力装置90は、タブレット端末などにより実現されてもよい。他にも、入出力装置90は、ディスプレイ装置とポインティングデバイスを有する装置等により実現されてもよい。
 例えば、図4に例示するようなクラスタの範囲が表示されている場合、入出力装置90は、対象とするクラスタの指定の入力をユーザから受け付け、受け付けたクラスタに関する情報(例えば、図5、図6、図7に例示する情報)を表示してもよい。
 データ取得部10と、関連情報取得部20と、物体識別部30と、データ加工部40と、テキスト情報入力部50と、特徴抽出部60と、可視化処理部80(より具体的には、探索部81と、出力部82)とは、プログラム(ラベリング支援プログラム)に従って動作するコンピュータのプロセッサ(例えば、CPU(Central Processing Unit ))によって実現される。
 例えば、プログラムは、ラベリング支援システム1の記憶部(図示せず)に記憶され、プロセッサは、そのプログラムを読み込み、プログラムに従って、データ取得部10、関連情報取得部20、物体識別部30、データ加工部40、テキスト情報入力部50、特徴抽出部60、および、可視化処理部80(より具体的には、探索部81と、出力部82)として動作してもよい。また、ラベリング支援システム1の機能がSaaS(Software as a Service )形式で提供されてもよい。
 データ取得部10と、関連情報取得部20と、物体識別部30と、データ加工部40と、テキスト情報入力部50と、特徴抽出部60と、可視化処理部80(より具体的には、探索部81と、出力部82)とは、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路(circuitry )、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。
 また、ラベリング支援システム1の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
 次に、本実施形態のラベリング支援システム1の動作を説明する。図8は、ラベリング支援システム1の動作例を示すフローチャートである。図8に例示する動作例は、データ取得部10が、直接、特徴抽出部60が用いる形式のデータを取得し、取得したデータを特徴抽出部60に入力した場合の動作例である。
 特徴抽出部60は、ラベリング対象のデータから複数のクラスタを生成する(ステップS51)。探索部81は、生成されたクラスタごとにデータの共通点を探索する(ステップS52)。そして、出力部82は、探索された共通点に関する情報をクラスタごとに出力する(ステップS53)。
 以上のように、本実施形態では、特徴抽出部60が、ラベリング対象のデータを教師なし学習により分類することで複数のクラスタを生成し、探索部81が、生成されたクラスタごとに、そのクラスタに含まれるデータの共通点を探索する。そして、出力部82が、クラスタごとに、探索された共通点に関する情報を出力する。そのような構成により、ラベル付けされていないデータが分類されたクラスタに対するラベリング作業を支援できる。
 また、出力部82がラベリング対象のデータに自動的にラベリングを行ったり、ラベリング候補を出力したりすることで、人によるラベリングのコストを低減させ、また、人がそのラベルが付与される理由を把握できる。
 次に、本発明の概要を説明する。図9は、本発明によるラベリング支援システムの概要を示すブロック図である。本発明によるラベリング支援システム190(例えば、ラベリング支援システム1)は、ラベリング対象のデータを教師なし学習により分類することで複数のクラスタを生成する分類手段191(例えば、特徴抽出部60)と、生成されたクラスタごとに、そのクラスタに含まれるデータの共通点を探索する探索手段192(例えば、特徴抽出部60)と、クラスタごとに、探索された共通点に関する情報を出力する出力手段193(例えば、出力部82)とを備えている。
 そのような構成により、ラベル付けされていないデータが分類されたクラスタに対するラベリング作業を支援できる。
 また、分類手段191は、生成したクラスタに含まれる各データの特徴量を抽出し、探索手段192は、クラスタ内の各データについて抽出された特徴量の共通点を探索してもよい。
 また、分類手段191は、ラベリング対象のデータに含まれるセンサ値に基づいて特徴量を抽出し、探索手段192は、特徴量に対するセンサ値の寄与度を算出し、出力手段193は、寄与度が最も大きいセンサ値を共通点として出力してもよい。
 また、出力手段193は、クラスタ内におけるセンサごとの寄与度をグラフ表示してもよい。
 また、出力手段193は、各クラスタ内のラベリング対象のデータに対して、探索された共通点を示す情報をラベリングして出力してもよい。
 また、出力手段193は、クラスタ内で探索された複数の共通点を、その共通点の共通性の度合いに応じて出力してもよい。
 また、出力手段193は、共通性の度合いが上位の共通点を、予め定めた順位までランキング形式でラベリング候補として出力してもよい。
 図10は、少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ1000は、プロセッサ1001、主記憶装置1002、補助記憶装置1003、インタフェース1004を備える。
 上述のラベリング支援システム190は、コンピュータ1000に実装される。そして、上述した各処理部の動作は、プログラム(ラベリング支援プログラム)の形式で補助記憶装置1003に記憶されている。プロセッサ1001は、プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、当該プログラムに従って上記処理を実行する。
 なお、少なくとも1つの実施形態において、補助記憶装置1003は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース1004を介して接続される磁気ディスク、光磁気ディスク、CD-ROM(Compact Disc Read-only memory )、DVD-ROM(Read-only memory)、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータ1000が当該プログラムを主記憶装置1002に展開し、上記処理を実行してもよい。
 また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置1003に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル(差分プログラム)であってもよい。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)ラベリング対象のデータを教師なし学習により分類することで複数のクラスタを生成する分類手段と、
 生成された前記クラスタごとに、当該クラスタに含まれる前記データの共通点を探索する探索手段と、
 前記クラスタごとに、探索された前記共通点に関する情報を出力する出力手段とを備えた
 ことを特徴とするラベリング支援システム。
(付記2)分類手段は、生成したクラスタに含まれる各データの特徴量を抽出し、
 探索手段は、クラスタ内の各データについて抽出された特徴量の共通点を探索する
 付記1記載のラベリング支援システム。
(付記3)分類手段は、ラベリング対象のデータに含まれるセンサ値に基づいて特徴量を抽出し、
 探索手段は、前記特徴量に対する前記センサ値の寄与度を算出し、
 出力手段は、前記寄与度が最も大きいセンサ値を共通点として出力する
 付記1または付記2記載のラベリング支援システム。
(付記4)出力手段は、クラスタ内におけるセンサごとの寄与度をグラフ表示する
 付記3記載のラベリング支援システム。
(付記5)出力手段は、各クラスタ内のラベリング対象のデータに対して、探索された共通点を示す情報をラベリングして出力する
 付記1または付記2記載のラベリング支援システム。
(付記6)出力手段は、クラスタ内で探索された複数の共通点を、当該共通点の共通性の度合いに応じて出力する
 付記1から付記5のうちのいずれか1つに記載のラベリング支援システム。
(付記7)出力手段は、共通性の度合いが上位の共通点を、予め定めた順位までランキング形式でラベリング候補として出力する
 付記6記載のラベリング支援システム。
(付記8)コンピュータが、ラベリング対象のデータを教師なし学習により分類することで複数のクラスタを生成し、
 前記コンピュータが、生成された前記クラスタごとに、当該クラスタに含まれる前記データの共通点を探索し、
 前記コンピュータが、前記クラスタごとに、探索された前記共通点に関する情報を出力する
 ことを特徴とするラベリング支援方法。
(付記9)コンピュータが、生成したクラスタに含まれる各データの特徴量を抽出し、
 前記コンピュータが、クラスタ内の各データについて抽出された特徴量の共通点を探索する
 付記8記載のラベリング支援方法。
(付記10)コンピュータに、
 ラベリング対象のデータを教師なし学習により分類することで複数のクラスタを生成する分類処理、
 生成された前記クラスタごとに、当該クラスタに含まれる前記データの共通点を探索する探索処理、および、
 前記クラスタごとに、探索された前記共通点に関する情報を出力する出力処理
 を実行させるためのラベリング支援プログラムを記憶するプログラム記憶媒体。
(付記11)コンピュータに、
 分類処理で、生成したクラスタに含まれる各データの特徴量を抽出させ、
 探索処理で、クラスタ内の各データについて抽出された特徴量の共通点を探索させる
 ためのラベリング支援プログラムを記憶する付記10記載のプログラム記憶媒体。
(付記12)コンピュータに、
 ラベリング対象のデータを教師なし学習により分類することで複数のクラスタを生成する分類処理、
 生成された前記クラスタごとに、当該クラスタに含まれる前記データの共通点を探索する探索処理、および、
 前記クラスタごとに、探索された前記共通点に関する情報を出力する出力処理
 を実行させるためのラベリング支援プログラム。
(付記13)コンピュータに、
 分類処理で、生成したクラスタに含まれる各データの特徴量を抽出させ、
 探索処理で、クラスタ内の各データについて抽出された特徴量の共通点を探索させる
 付記12記載のラベリング支援プログラム。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 1 ラベリング支援システム
 10 データ取得部
 20 関連情報取得部
 30 物体識別部
 40 データ加工部
 50 テキスト情報入力部
 60 特徴抽出部
 70 特徴記憶部
 80 可視化処理部
 81 探索部
 82 出力部
 90 入出力装置

Claims (11)

  1.  ラベリング対象のデータを教師なし学習により分類することで複数のクラスタを生成する分類手段と、
     生成された前記クラスタごとに、当該クラスタに含まれる前記データの共通点を探索する探索手段と、
     前記クラスタごとに、探索された前記共通点に関する情報を出力する出力手段とを備えた
     ことを特徴とするラベリング支援システム。
  2.  分類手段は、生成したクラスタに含まれる各データの特徴量を抽出し、
     探索手段は、クラスタ内の各データについて抽出された特徴量の共通点を探索する
     請求項1記載のラベリング支援システム。
  3.  分類手段は、ラベリング対象のデータに含まれるセンサ値に基づいて特徴量を抽出し、
     探索手段は、前記特徴量に対する前記センサ値の寄与度を算出し、
     出力手段は、前記寄与度が最も大きいセンサ値を共通点として出力する
     請求項1または請求項2記載のラベリング支援システム。
  4.  出力手段は、クラスタ内におけるセンサごとの寄与度をグラフ表示する
     請求項3記載のラベリング支援システム。
  5.  出力手段は、各クラスタ内のラベリング対象のデータに対して、探索された共通点を示す情報をラベリングして出力する
     請求項1または請求項2記載のラベリング支援システム。
  6.  出力手段は、クラスタ内で探索された複数の共通点を、当該共通点の共通性の度合いに応じて出力する
     請求項1から請求項5のうちのいずれか1項に記載のラベリング支援システム。
  7.  出力手段は、共通性の度合いが上位の共通点を、予め定めた順位までランキング形式でラベリング候補として出力する
     請求項6記載のラベリング支援システム。
  8.  コンピュータが、ラベリング対象のデータを教師なし学習により分類することで複数のクラスタを生成し、
     前記コンピュータが、生成された前記クラスタごとに、当該クラスタに含まれる前記データの共通点を探索し、
     前記コンピュータが、前記クラスタごとに、探索された前記共通点に関する情報を出力する
     ことを特徴とするラベリング支援方法。
  9.  コンピュータが、生成したクラスタに含まれる各データの特徴量を抽出し、
     前記コンピュータが、クラスタ内の各データについて抽出された特徴量の共通点を探索する
     請求項8記載のラベリング支援方法。
  10.  コンピュータに、
     ラベリング対象のデータを教師なし学習により分類することで複数のクラスタを生成する分類処理、
     生成された前記クラスタごとに、当該クラスタに含まれる前記データの共通点を探索する探索処理、および、
     前記クラスタごとに、探索された前記共通点に関する情報を出力する出力処理
     を実行させるためのラベリング支援プログラムを記憶するプログラム記憶媒体。
  11.  コンピュータに、
     分類処理で、生成したクラスタに含まれる各データの特徴量を抽出させ、
     探索処理で、クラスタ内の各データについて抽出された特徴量の共通点を探索させる
     ためのラベリング支援プログラムを記憶する請求項10記載のプログラム記憶媒体。
PCT/JP2022/008750 2022-03-02 2022-03-02 ラベリング支援システム、ラベリング支援方法およびラベリング支援プログラム WO2023166579A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/008750 WO2023166579A1 (ja) 2022-03-02 2022-03-02 ラベリング支援システム、ラベリング支援方法およびラベリング支援プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/008750 WO2023166579A1 (ja) 2022-03-02 2022-03-02 ラベリング支援システム、ラベリング支援方法およびラベリング支援プログラム

Publications (1)

Publication Number Publication Date
WO2023166579A1 true WO2023166579A1 (ja) 2023-09-07

Family

ID=87883222

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/008750 WO2023166579A1 (ja) 2022-03-02 2022-03-02 ラベリング支援システム、ラベリング支援方法およびラベリング支援プログラム

Country Status (1)

Country Link
WO (1) WO2023166579A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008084203A (ja) * 2006-09-28 2008-04-10 Nec Corp ラベル付与システム、ラベル付与方法およびラベル付与プログラム
JP2008084151A (ja) * 2006-09-28 2008-04-10 Just Syst Corp 情報表示装置および情報表示方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008084203A (ja) * 2006-09-28 2008-04-10 Nec Corp ラベル付与システム、ラベル付与方法およびラベル付与プログラム
JP2008084151A (ja) * 2006-09-28 2008-04-10 Just Syst Corp 情報表示装置および情報表示方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HATTORI, TAKASHI ET AL.: "Human Action Classification by Utilizing Correlation of Observation Data from Massive Sensors", IEICE TECHNICAL REPORT, vol. 106, no. 396, 23 November 2006 (2006-11-23), pages 29 - 34, XP009548668 *

Similar Documents

Publication Publication Date Title
Sun et al. SHIFT: a synthetic driving dataset for continuous multi-task domain adaptation
CN106649331B (zh) 商圈识别方法及设备
Li et al. Street tree segmentation from mobile laser scanning data
CN106599915B (zh) 一种车载激光点云分类方法
Xu et al. A supervoxel approach to the segmentation of individual trees from LiDAR point clouds
CN114596555B (zh) 障碍物点云数据筛选方法、装置、电子设备及存储介质
CN110956137A (zh) 点云数据的目标检测方法、系统及介质
JP6685856B2 (ja) 農作業計画支援装置及び農作業計画支援方法
JPWO2019069505A1 (ja) 情報処理装置、結合条件生成方法および結合条件生成プログラム
CN115830399B (zh) 分类模型训练方法、装置、设备、存储介质和程序产品
CN113942521B (zh) 一种智能车路系统下驾驶员风格辨识方法
Yu et al. Multi-temporal remote sensing of land cover change and urban sprawl in the coastal city of Yantai, China
JP4926266B2 (ja) 学習データ作成装置、学習データ作成方法及びプログラム
CN111738558B (zh) 行为风险识别的可视化方法、装置、设备及存储介质
CN111373393B (zh) 图像检索方法和装置以及图像库的生成方法和装置
Yasruddin et al. Feasibility study of fish disease detection using computer vision and deep convolutional neural network (dcnn) algorithm
CN111898418A (zh) 一种基于t-tiny-yolo网络的人体异常行为检测方法
CN115082857A (zh) 一种目标对象的检测方法、装置、设备以及存储介质
CN114003672A (zh) 一种道路动态事件的处理方法、装置、设备和介质
WO2023166579A1 (ja) ラベリング支援システム、ラベリング支援方法およびラベリング支援プログラム
Bayr et al. Satellite-based forest monitoring: Spatial and temporal forecast of growing index and short-wave infrared band
CN115907159B (zh) 一种相似路径台风的确定方法、装置、设备及介质
Zhai et al. GAN-BiLSTM network for field-road classification on imbalanced GNSS recordings
JP2001324576A (ja) 事象予測方法及びシステム及び予測事象配信方法及びシステム
WO2023166578A1 (ja) ラベリング支援システム、ラベリング支援方法およびラベリング支援プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22929727

Country of ref document: EP

Kind code of ref document: A1