WO2023139760A1 - データ拡張装置、データ拡張方法、及び非一時的なコンピュータ可読媒体 - Google Patents
データ拡張装置、データ拡張方法、及び非一時的なコンピュータ可読媒体 Download PDFInfo
- Publication number
- WO2023139760A1 WO2023139760A1 PCT/JP2022/002224 JP2022002224W WO2023139760A1 WO 2023139760 A1 WO2023139760 A1 WO 2023139760A1 JP 2022002224 W JP2022002224 W JP 2022002224W WO 2023139760 A1 WO2023139760 A1 WO 2023139760A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- series data
- time
- data
- target time
- class
- Prior art date
Links
- 238000013434 data augmentation Methods 0.000 title claims abstract description 12
- 238000000034 method Methods 0.000 title claims description 173
- 238000012545 processing Methods 0.000 claims abstract description 209
- 230000008859 change Effects 0.000 claims abstract description 90
- 238000012217 deletion Methods 0.000 claims abstract description 30
- 230000037430 deletion Effects 0.000 claims abstract description 30
- 230000008569 process Effects 0.000 claims description 116
- 230000009471 action Effects 0.000 claims description 53
- 238000004904 shortening Methods 0.000 claims description 9
- 230000004048 modification Effects 0.000 claims 1
- 238000012986 modification Methods 0.000 claims 1
- 230000003190 augmentative effect Effects 0.000 abstract 1
- 238000012549 training Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 16
- 230000033001 locomotion Effects 0.000 description 11
- 238000011946 reduction process Methods 0.000 description 8
- 230000002159 abnormal effect Effects 0.000 description 5
- 239000010749 BS 2869 Class C1 Substances 0.000 description 3
- 239000010750 BS 2869 Class C2 Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 239000004606 Fillers/Extenders Substances 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/91—Television signal processing therefor
Definitions
- This disclosure relates to data extension of time-series data.
- Non-Patent Document 1 discloses a technique for increasing training data by performing data augmentation on video data prepared as training data for training a discrimination model that classifies input video data.
- Non-Patent Document 1 assumes that class identification is performed for all video data input to the model (in other words, one class is assigned to all video data input to the model).
- the present disclosure has been made in view of this problem, and one of its purposes is to provide a new technique for extending time-series data.
- the data expansion device of the present disclosure includes acquisition means for acquiring source time-series data composed of a plurality of time-series frames, and one or more target time-series data composed of a plurality of continuous frames belonging to the same class in the source time-series data.
- acquisition means for acquiring source time-series data composed of a plurality of time-series frames, and one or more target time-series data composed of a plurality of continuous frames belonging to the same class in the source time-series data.
- the data augmentation method of the present disclosure is executed by a computer.
- the method includes an acquisition step of acquiring source time-series data composed of a plurality of time-series frames, and an extension processing step of generating extended time-series data from the source time-series data by performing a deletion process of deleting the target time-series data, a length change process of changing the length of the target time-series data, or a position change process of changing the position of the target time-series data on a time axis, for one or more target time-series data composed of a plurality of continuous frames belonging to the same class. and have
- the source time-series data includes a plurality of frames belonging to different classes.
- the non-transitory computer-readable medium of the present disclosure stores a program that causes a computer to execute the data expansion method of the present disclosure.
- a new technology for extending time-series data is provided.
- FIG. 11 is a first diagram illustrating deletion processing
- FIG. 10 is a second diagram illustrating deletion processing
- predetermined values such as predetermined values and threshold values are stored in advance in a storage device or the like that can be accessed from a device that uses the values.
- the storage unit is composed of one or more arbitrary number of storage devices.
- FIG. 1 is a diagram illustrating source time-series data 10 handled by the data extension device of the embodiment.
- the source time-series data 10 consists of a plurality of time-series frames 12 .
- the source time series data 10 can also be said to be a data string in which the frames 12 are arranged in time series.
- the source time-series data 10 is video data.
- Video data is time-series data in which a plurality of video frames are arranged in order (in ascending order of frame numbers). Therefore, if the source time-series data 10 is video data, the frames 12 are video frames that make up the video data.
- Each frame 12 belongs to one of a plurality of classes.
- a plurality of partial time series data 20 are included in the source time series data 10 .
- the partial time-series data 20 is time-series data composed of a plurality of consecutive frames 12 belonging to the same class.
- the source time-series data 10 in FIG. 1 has, in this order, partial time-series data 20-1 composed of multiple frames 12 belonging to class C1, partial time-series data 20-2 composed of multiple frames 12 belonging to class C2, and partial time-series data 20-3 composed of multiple frames 12 belonging to class C3.
- time-series data composed of a plurality of frames 12 belonging to class C will also be referred to as "time-series data belonging to class C".
- the source time-series data 10 includes at least two partial time-series data 20 belonging to different classes.
- the source time-series data 10 may contain two or more partial time-series data 20 belonging to the same class.
- the partial time series data 20-1 and partial time series data 20-3 may belong to class C1
- the partial time series data 20-2 may belong to class C2.
- a class represents the content of the partial time-series data 20 (eg, the scene or situation represented by the partial time-series data 20).
- the source time-series data 10 can be divided into three partial time-series data 20: partial time-series data 20 containing the state of work in process P1, partial time-series data 20 containing the state of work in process P2, and partial time-series data 20 containing the state of work in process P3.
- the type of source time-series data 10 is not limited to video data.
- the source time-series data 10 may be voice data.
- the source time-series data 10 may be sensing data representing results of sensing repeatedly performed by an arbitrary sensor (eg, a three-dimensional acceleration sensor).
- FIG. 2 is a diagram illustrating an overview of the operation of the data extension device 2000 of the embodiment.
- FIG. 2 is a diagram for facilitating understanding of the outline of the data expansion device 2000, and the operation of the data expansion device 2000 is not limited to that shown in FIG.
- the data extension device 2000 generates extended time-series data 30 different from the source time-series data 10 by processing at least one partial time-series data 20 included in the source time-series data 10 . This realizes data expansion.
- target time-series data among the partial time-series data 20 included in the source time-series data 10, the one to be processed is referred to as "target time-series data”.
- the processing performed on the source time-series data 10 includes, for example, 1) deletion processing, 2) length change processing, or 3) position change processing.
- the processing includes 1), 2), or 3)" means that the processing may include a combination of two or more of 1) to 3).
- the deletion process is the process of deleting the target time-series data. That is, the extended time-series data 30 does not include the target time-series data to be deleted.
- Length change processing is processing for changing the length on the time axis of the target time-series data. Therefore, the number of frames 12 included in the target time-series data after processing is different from the number of frames 12 included in the target time-series data before processing.
- Position change processing is processing for changing the position of the target time-series data on the time axis. Therefore, the position on the time axis of the target time series data in the extended time series data 30 is different from the position on the time axis of the target time series data in the source time series data 10 .
- processing processing such as "after performing length change processing for changing the length of either or both of the two target time-series data, perform position change processing for exchanging these positions" can be considered.
- these multiple types of processing may be performed on the same target time-series data, or may be performed on different target time-series data.
- the position change processing for changing the position of the partial time-series data 20-1 is performed.
- the position change process of changing the position of the partial time-series data 20-2 is performed.
- extended time-series data 30 is generated by processing one or more partial time-series data 20 included in the source time-series data 10 .
- the source time-series data 10 includes a plurality of partial time-series data 20 belonging to different classes. Therefore, according to the data extension device 2000, it is possible to generate time-series data including a plurality of partial time-series data 20 belonging to different classes by data extension.
- Such data extension is useful, for example, for training a discriminator that identifies the class of each frame that constitutes time-series data in response to input of time-series data.
- a discriminator that discriminates the class of each video frame according to the input of video data can be considered.
- the training data used for training such discriminators indicates time-series data as input data, and indicates the class of each frame included in the time-series data as ground-truth data.
- the data expansion device 2000 of this embodiment In order to obtain a discriminator with high discrimination accuracy, it is preferable to train the discriminator using a large amount of training data. However, it takes time and effort to prepare a large amount of training data. In this respect, if the data expansion device 2000 of this embodiment is used, the amount of training data can be increased by data expansion. As a result, the labor and time required to prepare training data can be reduced, and a large amount of training data can be prepared more easily.
- time-series data representing a normal situation can be acquired as the source time-series data 10 and processed to generate extended time-series data 30 representing an abnormal situation.
- time-series data representing abnormal work from video data recording normal work. Therefore, according to the data expansion device 2000, variations of training data can be easily increased.
- the data extension device 2000 of this embodiment will be described in more detail below.
- FIG. 3 is a block diagram illustrating the functional configuration of the data extension device 2000 of the embodiment.
- the data extension device 2000 has an acquisition section 2020 and an extension processing section 2040 .
- the acquisition unit 2020 acquires the source time-series data 10 .
- the extension processing unit 2040 generates extended time-series data 30 from the source time-series data 10 by processing one or more target time-series data included in the source time-series data 10 .
- Each functional component of the data extension device 2000 may be realized by hardware that implements each functional component (e.g., hardwired electronic circuit, etc.), or may be realized by a combination of hardware and software (e.g., an electronic circuit and a program that controls it, etc.). A case where each functional component of the data expansion device 2000 is implemented by a combination of hardware and software will be further described below.
- FIG. 4 is a block diagram illustrating the hardware configuration of the computer 500 that implements the data expansion device 2000.
- Computer 500 is any computer.
- the computer 500 is a stationary computer such as a PC (Personal Computer) or a server machine.
- the computer 500 is a portable computer such as a smart phone or a tablet terminal.
- the computer 500 may be a dedicated computer designed to implement the data expansion device 2000, or a general-purpose computer.
- each function of the data expansion device 2000 is realized on the computer 500.
- the application is composed of a program for realizing each functional component of the data expansion device 2000 .
- the acquisition method of the above program is arbitrary.
- the program can be acquired from a storage medium (DVD disc, USB memory, etc.) in which the program is stored.
- the program can be obtained by downloading the program from a server device that manages the storage device in which the program is stored.
- Computer 500 has bus 502 , processor 504 , memory 506 , storage device 508 , input/output interface 510 and network interface 512 .
- the bus 502 is a data transmission path through which the processor 504, memory 506, storage device 508, input/output interface 510, and network interface 512 exchange data with each other.
- the method of connecting the processors 504 and the like to each other is not limited to bus connection.
- the processor 504 is various processors such as a CPU (Central Processing Unit), GPU (Graphics Processing Unit), or FPGA (Field-Programmable Gate Array).
- the memory 506 is a main memory implemented using a RAM (Random Access Memory) or the like.
- the storage device 508 is an auxiliary storage device implemented using a hard disk, SSD (Solid State Drive), memory card, ROM (Read Only Memory), or the like.
- the input/output interface 510 is an interface for connecting the computer 500 and input/output devices.
- the input/output interface 510 is connected to an input device such as a keyboard and an output device such as a display device.
- a network interface 512 is an interface for connecting the computer 500 to a network.
- This network may be a LAN (Local Area Network) or a WAN (Wide Area Network).
- the storage device 508 stores a program that implements each functional component of the data expansion device 2000 (a program that implements the application described above).
- the processor 504 implements each functional component of the data extension device 2000 by reading this program into the memory 506 and executing it.
- the data expansion device 2000 may be realized by one computer 500 or may be realized by a plurality of computers 500. In the latter case, the configuration of each computer 500 need not be the same, and can be different.
- FIG. 5 is a flowchart illustrating the flow of processing executed by the data extension device 2000 of the embodiment.
- the acquisition unit 2020 acquires the source time-series data 10 (S102).
- the extension processing unit 2040 generates extended time-series data 30 by processing one or more pieces of target time-series data (S104).
- the acquisition unit 2020 acquires the source time-series data 10 .
- various methods can be adopted as a method of acquiring time-series data to be processed.
- the source time-series data 10 is stored in advance in an arbitrary storage device in a form that can be obtained from the data extension device 2000 .
- the acquisition unit 2020 acquires the source time-series data 10 by reading the source time-series data 10 from the storage device.
- the acquisition unit 2020 acquires the source time-series data 10 by receiving the source time-series data 10 transmitted from another device.
- a device that transmits the source time-series data 10 is, for example, a device that generated the source time-series data 10 .
- the acquisition unit 2020 acquires the source time-series data 10 from the video camera that generated the source time-series data 10, for example.
- the data expansion device 2000 needs to be able to identify the class to which each partial time series data 20 belongs. Therefore, for example, the data expansion device 2000 acquires information (hereinafter referred to as class information) indicating the class to which each partial time series data 20 belongs.
- class information information indicating the class to which each partial time series data 20 belongs.
- the class information indicates, for each frame 12 included in the source time-series data 10, the correspondence between the identification information (for example, frame number) and the identification information of the class to which the frame 12 belongs.
- the class information may indicate identification information of either or both of the leading frame 12 and the trailing frame 12 for each partial time-series data 20 included in the source time-series data 10 .
- FIG. 6 is a diagram exemplifying class information in a table format.
- Table 200 indicates, for each frame 12, the class to which that frame 12 belongs. More specifically, the identification information of the class to which the frame 12 belongs (class identification information 204) is shown in association with the identification information of the frame 12 (frame identification information 202).
- the table 300 shows, for each partial time series data 20, the class to which the partial time series data 20 belongs. More specifically, for the partial time-series data 20, the identification information (class identification information 306) of the class to which the partial time-series data 20 belongs is shown in association with the combination of the identification information of the leading frame 12 (leading frame identification information 302) and the identification information of the trailing frame 12 (end frame identification information 304).
- the class information may be information integrated with the source time-series data 10 or may be information separate from the source time-series data 10 .
- identification information of the class to which the frame 12 belongs is added as metadata.
- the acquisition unit 2020 further acquires class information about the source time-series data 10 in addition to the source time-series data 10 .
- the method of obtaining class information is the same as the method of obtaining the source time-series data 10 .
- the extension processing unit 2040 processes one or more pieces of target time-series data (S104).
- the processing includes 1) deletion processing, 2) length change processing, or 3) position change processing. Each of 1) to 3) will be described below. A method for determining the processing to be executed and a method for determining target time-series data to be processed will be described later.
- the deletion process is a process for generating extended time-series data 30 by removing the target time-series data from the source time-series data 10 .
- FIG. 7 is a first diagram illustrating deletion processing.
- the partial time-series data 20-2 is treated as target time-series data. Therefore, by removing the partial time-series data 20-2 from the source time-series data 10, the extended time-series data 30 is generated.
- FIG. 8 is a second diagram illustrating deletion processing.
- the partial time-series data 20-2 is deleted.
- the last m frames of the partial time-series data 20-1 before the partial time-series data 20-2 and the first m frames of the partial time-series data 20-3 after the partial time-series data 20-2 are superimposed on each other.
- the end of the partial time-series data 20 in the front may be faded out, and the beginning of the partial time-series data 20 in the rear may be faded in. This makes the connection of these two partial time-series data 20 more natural.
- the extension processing unit 2040 generates class information for the extended time-series data 30 based on the class information for the source time-series data 10 and the processing performed on the source time-series data 10 .
- deletion processing for example, the extension processing unit 2040 generates class information of the extended time-series data 30 by deleting information related to the deleted partial time-series data 20 from the class information of the source time-series data 10. Note that when class information is added to the frame 12, deleting the partial time-series data 20 also deletes the class information at the same time.
- the expansion processing unit 2040 determines the class of each frame 12 newly generated by the superposition.
- the class of the new frame 12 is set to the class of the frame 12 with the higher opacity of the two superimposed frames 12 .
- the frame 12 of class C1 is set to opacity D1
- the frame 12 of class C2 is set to opacity D2, and these are superimposed.
- D1 ⁇ D2 the class of the new frame 12 is set to C2.
- the length change process is a process of changing the length of the target time-series data on the time axis.
- the process of changing the length of the target time-series data is roughly divided into the process of lengthening the target time-series data and the process of shortening the target time-series data. Each of these will be described below.
- the extension processing unit 2040 lengthens the length of the target time-series data by performing processing for slowing down the flow of time (hereinafter referred to as speed-reduction processing) for part or all of the target time-series data.
- speed-reduction processing processing for slowing down the flow of time
- any method used for slow playback of video or audio can be adopted.
- FIG. 9 is a diagram exemplifying the speed reduction process.
- the expansion processing unit 2040 may insert between two frames 12 adjacent to each other a frame 12 representing the middle of the two (for example, a frame 12 obtained by averaging the two frames 12). This processing can be realized by frame interpolation processing.
- the number of copies is not limited to one.
- the number of copies may be predetermined or dynamically (eg, randomly) determined.
- the extension processing unit 2040 determines the time range 50 by randomly selecting the frame 12 as the starting point of the time range 50 from the target time series data 40 .
- the length of the time range 50 may be predetermined, or may be determined dynamically (for example, randomly).
- the starting point of time range 50 may be selected based on predetermined rules. For example, when a plurality of pieces of extended time-series data 30 to which different patterns of speed reduction processing are applied are generated, a method of shifting the starting point of the time range 50 by a predetermined number can be considered.
- the expansion processing unit 2040 may specify a time range in which the change between frames 12 is large from the target time-series data 40, and perform speed reduction processing on that time range. This is because it is highly probable that the contents of the time series data in the time range where the change between the frames 12 is large will not become unnatural even if the magnitude of the time change is reduced to some extent by the speed reduction process.
- the size between the frames 12 can be calculated based on the difference between the frames 12.
- the magnitude of change between frames 12 can be represented, for example, by a statistic (average, maximum, or median) of the magnitude of optical flow. More specifically, for example, the extension processing unit 2040 divides the target time-series data 40 into time ranges of a predetermined length, and calculates the statistical value of the magnitude of change in a plurality of frames 12 included in each time range. Then, the extension processing unit 2040 treats the time range in which the statistical value of the magnitude of change is equal to or greater than the threshold as the time range 50 targeted for the speed reduction process.
- the slowing process may be performed by selecting one or more frames 12 that are separated from each other and generating a copy of each selected frame 12.
- the extension processing unit 2040 randomly selects the frame 12 from the target time-series data 40 and makes it the target of the speed reduction process.
- the expansion processing unit 2040 may individually select frames 12 whose magnitude of change from the previous frame 12 is greater than or equal to a threshold from the target time-series data 40, and subject them to the slowdown processing.
- the processing for lengthening the target time-series data 40 is not limited to speed reduction processing.
- the extension processing unit 2040 may lengthen the length of the target time-series data 40 by subjecting the target time-series data 40 to processing for repeating part or all of the target time-series data 40 (hereinafter referred to as repeat processing).
- FIG. 10 is processing illustrating the repeat processing. In the example of FIG. 10, repeat processing is performed so that the portion of the time range 60 is repeated twice.
- the extension processing unit 2040 randomly selects a time range from the target time-series data 40 and performs repeat processing on that time range.
- the length of the selected time range may be predetermined or dynamically (eg, randomly) determined.
- a method of increasing the length of the selected time range by a predetermined number can be considered.
- the expansion processing unit 2040 may detect a time range having a specific meaning from the target time-series data 40 and repeat processing for that time range.
- the target time-series data 40 is video data
- the extension processing unit 2040 detects a time range representing a series of changes (for example, motion) from the target time-series data 40, and repeats the time range.
- a series of changes is, for example, a cyclical change such as an action of tightening a screw or turning a lever.
- the series of changes may be non-periodic changes such as an action of opening a door or an action of lowering a lever.
- the extension processing unit 2040 performs skeleton detection processing on each frame 12 of the target time-series data 40, and detects a time range in which the position of the skeleton periodically changes from the target time-series data 40. The extension processing unit 2040 then detects the detected time range as a time range representing a series of changes.
- the extension processing unit 2040 detects a time range in which the signal intensity etc. periodically change from the target time-series data 40, and detects the detected time range as a time range representing a series of changes.
- the expansion processing unit 2040 divides the target time-series data 40 into time ranges of a predetermined length, and performs processing for each time range to determine whether a specific event has occurred within it. Thereby, a time range in which a specific event occurs is detected from the target time-series data 40 .
- an existing technique can be used as a technique for determining whether or not a specific event is represented by the time-series data. For example, if the source time-series data 10 is video data, the event is a specific action performed by a person.
- the extension processing unit 2040 shortens the length of the target time-series data 40 by performing processing for speeding up the flow of time (hereinafter referred to as speed-up processing) for part or all of the target time-series data 40 .
- speed-up processing processing for speeding up the flow of time
- any technique used for high-speed reproduction of video or audio can be adopted.
- FIG. 11 is a diagram illustrating the acceleration process.
- one out of every two frames 12 included in the time range 70 is deleted from the target time-series data 40, thereby shortening the length of the target time-series data. This can also be expressed as "for time range 70, frames 12 have been decimated".
- the thinning ratio is not limited to “one out of two”, but can be generalized to “B out of A” (A>B). Note that the values of A and B may be predetermined, or may be determined dynamically (for example, randomly).
- the extension processing unit 2040 may shorten the length of the target time-series data 40 by deleting the entire time range 70 instead of thinning out the time range 70 .
- the extension processing unit 2040 may overlap a predetermined length of time range before and after the time range 70, as in the deletion process described above.
- a method similar to the method for determining the time range 50 targeted for the speed reduction process can be used as the method for determining the time range 70 targeted for the speed reduction process.
- the expansion processing unit 2040 when focusing on the magnitude of change between frames 12, it is preferable that the expansion processing unit 2040 subject the range where the magnitude of change is small to the high-speed processing. This is because time-series data with small changes between frames 12 has a high probability of not becoming unnatural even if the magnitude of the changes is increased to some extent by speed-up processing.
- the extension processing unit 2040 divides the target time-series data 40 into time ranges of a predetermined length, and calculates the statistic value of the magnitude of change in a plurality of frames 12 included in each time range. Then, the extension processing unit 2040 treats the range in which the statistical value of the magnitude of change is equal to or less than the threshold as the time range 70 targeted for the speed-up processing.
- speed-up processing may be performed by selecting one or more frames 12 that are separated from each other and deleting each selected frame 12.
- the expansion processing unit 2040 randomly selects the frame 12 from the target time-series data 40 and makes it the target of the speed-up processing.
- the expansion processing unit 2040 may individually select frames 12 whose magnitude of change from the previous frame 12 is equal to or less than a threshold from the target time-series data 40, and subject them to speed-up processing.
- the extension processing unit 2040 generates class information for the extended time-series data 30 based on the class information for the source time-series data 10 and the details of the length change processing performed on the source time-series data 10 .
- the extension processing part 2040 generates class information of the extended time-series data 30 so that the class of the newly generated frame 12 is the same class as the copy source frame 12.
- the extension processing unit 2040 deletes the class information about the deleted frame 12 from the class information of the source time-series data 10, thereby generating the class information of the extended time-series data 30. Note that when a new frame 12 is generated by overlaying, the extension processing unit 2040 assigns a class to that frame 12 .
- the method of assigning a class to the frame 12 generated by overlaying is as described in the deletion process.
- the position change processing is processing for changing the position of the partial time series data 20 in the target time series data 40 .
- Position change processing can be broadly classified into 1) movement processing for moving one partial time-series data 20 to another position, and 2) switch processing for exchanging the positions of two partial time-series data 20 .
- FIG. 12 is a diagram illustrating movement processing.
- the partial time series data 20-2 is moved after the partial time series data 20-4.
- the position of the partial time series data 20-2 is changed to the position after the partial time series data 20-4.
- FIG. 13 is a diagram illustrating switch processing.
- the position of the partial time series data 20-2 and the position of the partial time series data 20-4 are interchanged.
- the position change process may include a process of superimposing the beginning of the partial time-series data 20 after movement and the end of the partial time-series data 20 positioned before it, or a process of overlapping the end of the partial time-series data 20 after movement with the beginning of the partial time-series data 20 positioned after it.
- a process of superimposing the beginning of the partial time-series data 20-2 and the end of the partial time-series data 20-4, or a process of overlapping the end of the partial time-series data 20-2 and the beginning of the partial time-series data 20-5 may be performed.
- a process of superimposing the ends and heads of the partial time-series data 20 may be performed.
- the partial time series data 20-1 and the partial time series data 20-3 are adjacent to each other. Therefore, a process of overlapping the end of the partial time-series data 20-1 and the beginning of the partial time-series data 20-3 may be performed.
- the extension processing unit 2040 generates class information for the extended time-series data 30 based on the class information for the source time-series data 10 and the details of the position change processing performed on the source time-series data 10 . Specifically, the position of the partial time-series data 20 whose position has been changed between the source time-series data 10 and the extended time-series data 30 is also changed in the class information. Also, a class is assigned to the frame 12 generated by superimposition. The method of assigning a class to the frame 12 generated by overlaying is as described in the deletion process.
- the processing to be performed on the source time-series data 10 may be determined in advance, or may be arbitrarily selected from a plurality of types. Also, the number of processing operations performed on the source time-series data 10 may be one or plural. The types and number of processing treatments may be selected at random, or may be selected according to some rule. When a plurality of extended time-series data 30 are generated from the source time-series data 10, processing processes are selected in order, for example, according to a predetermined order.
- the target time-series data to be processed may be predetermined or arbitrarily selected.
- the extended time-series data 30 is time-series data that reproduces a situation with a high probability of occurrence.
- the data expansion device 2000 may acquire hint information indicating the type of situation with a high probability of occurrence and the target action of the situation, and use the hint information to determine the type and target of processing.
- extended time-series data 30 which is video data representing work performed in an erroneous procedure
- source time-series data 10 which is video data generated by shooting work performed in a normal procedure.
- the data expansion device 2000 acquires, as hint information, information indicating a work error with a high frequency of occurrence and a class of work in which the error occurs.
- the data extender 2000 can easily generate the extended time-series data 30 representing work errors with high frequency from the source time-series data 10 representing normal work.
- the situation indicated by the hint information is lack of action (forgotten work).
- the hint information indicates the class corresponding to the action that is likely to be missed (eg, the class of work that is likely to be forgotten).
- the extension processing unit 2040 detects partial time-series data 20 belonging to the class indicated by the hint information from the source time-series data 10, and deletes the partial time-series data 20.
- the situation indicated by the hint information is a situation in which the actual length of time of the action deviates from the ideal length of time (for example, work delay).
- the hint information indicates a class corresponding to an action whose actual length of time tends to deviate from the ideal length of time (for example, a class of work that tends to cause delays).
- the extension processing unit 2040 detects partial time-series data 20 belonging to the class indicated in the hint information from the source time-series data 10, and performs length change processing on the partial time-series data 20. It is preferable that the hint information further includes information indicating whether the length should be lengthened or shortened.
- the situation indicated by the hint information is a situation in which the actual time position of the action deviates from the ideal time position (for example, switching between two tasks).
- the hint information indicates a class representing a motion whose actual time position is likely to deviate from the ideal time position (for example, each class of two motions whose order is likely to be erroneously changed).
- the extension processing unit 2040 detects partial time-series data 20 belonging to the class indicated by the hint information from the source time-series data 10, and performs position change processing on the partial time-series data 20.
- the expansion processing unit 2040 detects the partial time-series data 20 corresponding to each of the two classes from the source time-series data 10, and performs switch processing on the detected two partial time-series data 20.
- the acquisition unit 2020 further acquires hint information.
- the method of acquiring hint information is the same as the method of acquiring the source time-series data 10 .
- the hint information may be general-purpose information that does not depend on the type of source time-series data 10, or information that depends on the type of source time-series data 10 (in other words, information specialized for a specific type of source time-series data 10).
- An example of the latter is a case in which hint information is prepared for each work line, because the series of work processes performed in each work line at the work site is different, and the work errors that are likely to occur are also different.
- the acquisition unit 2020 When hint information is prepared for each type of source time-series data 10 , the acquisition unit 2020 further acquires type information indicating the type of source time-series data 10 . Then, the acquisition unit 2020 acquires hint information corresponding to the type of the source time-series data 10 indicated in the type information.
- the extension processing unit 2040 may generate both extended time-series data 30 using hint information and extended time-series data 30 not using hint information.
- the number of extended time-series data 30 generated using hint information is greater than the number of extended time-series data 30 generated without using hint information.
- the extension processing unit 2040 is configured to select whether or not to use hint information when generating each piece of extended time-series data 30 .
- the probability that the option "use hint information" is selected is higher than the probability that the option "not use hint information” is selected.
- the hint information may indicate the occurrence frequency (occurrence probability) of each event.
- the extension processing unit 2040 may increase the generation probability of the extended time-series data 30 corresponding to an event with a high occurrence frequency.
- the data extender 2000 outputs execution results.
- Information output from the data expansion device 2000 is hereinafter referred to as output information.
- the output information includes extended time series data 30 .
- the output information further includes the class information of the extended time-series data 30 .
- the output information includes multiple combinations of extended time-series data 30 and class information.
- the output mode of the output information is arbitrary.
- the data expansion device 2000 stores output information in an arbitrary storage device.
- the data expansion device 2000 may transmit output information to any device.
- the destination device is a device that uses the extended time-series data 30 to train a discriminator that identifies the class of each frame included in the time-series data.
- the program includes instructions (or software code) that, when read into a computer, cause the computer to perform one or more functions described in the embodiments.
- the program may be stored in a non-transitory computer-readable medium or a tangible storage medium.
- computer readable media or tangible storage media include random-access memory (RAM), read-only memory (ROM), flash memory, solid-state drive (SSD) or other memory technology, CD-ROM, digital versatile disc (DVD), Blu-ray disc or other optical disc storage, magnetic cassette, magnetic tape, magnetic disc storage or other magnetic storage device.
- the program may be transmitted on a transitory computer-readable medium or communication medium.
- transitory computer readable media or communication media include electrical, optical, acoustic, or other forms of propagated signals.
- (Appendix 1) a obtaining means for obtaining source time series data consisting of a plurality of frames of the time series; extending processing means for generating extended time-series data from the source time-series data by executing a deletion process for deleting the target time-series data, a length change process for changing the length of the target time-series data, or a position change process for changing the position of the target time-series data on the time axis, for one or more target time-series data composed of a plurality of consecutive frames belonging to the same class in the source time-series data;
- the data extension device wherein the source time-series data includes a plurality of frames belonging to different classes.
- the length change process includes: a process of lengthening the target time-series data by copying one or more frames included in the target time-series data; or The data expansion device according to appendix 1, wherein the process of shortening the target time-series data by deleting one or more frames included in the target time-series data.
- Appendix 3 The data extension device according to Supplementary Note 2, wherein the length change process is a process of lengthening the target time-series data by repeating part or all of the target time-series data in the extended time-series data.
- (Appendix 4) The data extension device according to appendix 3, wherein the length change process is a process for lengthening the target time-series data by detecting, from the target time-series data, a time range whose contents change periodically, and repeating the sequence of the frames included in the detected time range in the extended time-series data.
- (Appendix 5) The data expansion device according to appendix 1, wherein the position change processing is processing for changing the position of the target time-series data by exchanging the positions of the two target time-series data.
- the acquisition means acquires a situation with a high probability of occurrence and hint information representing a class of actions targeted by the situation, 6.
- the data expansion device according to any one of Appendices 1 to 5, wherein the expansion processing means generates the expanded time-series data by processing the target time-series data composed of the frames belonging to the class indicated in the hint information so as to reproduce the situation indicated in the hint information.
- the hint information indicates the class of action for the situation of lack of action, 6.
- the data expansion device according to appendix 6, wherein the expansion processing means generates the expanded time-series data by performing the deletion process on the target time-series data composed of the frames belonging to the class indicated in the hint information.
- the hint information indicates the class of the action for a situation in which the actual time length of the action deviates from the ideal time length
- the data extension device according to appendix 6, wherein the extension processing means generates the extended time-series data by performing the length change processing on the target time-series data composed of the frames belonging to the class indicated in the hint information.
- the hint information indicates the class of the action for a situation in which the actual time position of the action deviates from the ideal time position
- the data expansion device according to appendix 6, wherein the expansion processing means generates the expanded time-series data by performing the position change processing on the target time-series data composed of the frames belonging to the class indicated in the hint information.
- a computer implemented data augmentation method comprising: an acquisition step for acquiring source time series data consisting of multiple frames of the time series; an expansion processing step of generating extended time-series data from the source time-series data by executing deletion processing for deleting the target time-series data, length change processing for changing the length of the target time-series data, or position change processing for changing the position of the target time-series data on the time axis, for one or more target time-series data composed of a plurality of continuous frames belonging to the same class in the source time-series data;
- the data extension method wherein the source time-series data includes a plurality of frames belonging to different classes.
- the length change process includes: a process of lengthening the target time-series data by copying one or more frames included in the target time-series data; or 12.
- (Appendix 13) 13 13.
- the data extension method according to any one of Appendices 11 to 15, wherein, in the extension processing step, the extended time-series data is generated by performing processing to reproduce the situation indicated in the hint information on the target time-series data composed of the frames belonging to the class indicated in the hint information.
- the hint information indicates the class of action for the situation of lack of action, 17.
- the data extension method according to appendix 16, wherein in the extension processing step, the extended time-series data is generated by performing the deletion processing on the target time-series data composed of the frames belonging to the class indicated in the hint information.
- the hint information indicates the class of the action for a situation in which the actual time length of the action deviates from the ideal time length, 17.
- the data extension method according to appendix 16 wherein in the extension processing step, the extended time-series data is generated by performing the length change processing on the target time-series data composed of the frames belonging to the class indicated in the hint information.
- the hint information indicates the class of the action for a situation in which the actual time position of the action deviates from the ideal time position, 17.
- the data extension method according to appendix 16 wherein in the extension processing step, the extended time-series data is generated by performing the position change processing on the target time-series data composed of the frames belonging to the class indicated in the hint information.
- the source time-series data is video data; 20.
- a data augmentation method according to any one of Appendixes 11 to 19, wherein the class to which the frame belongs represents the type of work imaged in that frame.
- Appendix 21 an acquisition step for acquiring source time series data consisting of multiple frames of the time series;
- a non-transitory computer-readable medium wherein the source time-series data includes a plurality of frames belonging to different classes.
- the length change process includes: a process of lengthening the target time-series data by copying one or more frames included in the target time-series data; or 22.
- Appendix 23 23.
- the computer-readable medium according to Supplementary Note 22, wherein the length change process is a process of lengthening the target time-series data by repeating part or all of the target time-series data in the extended time-series data.
- Appendix 24 The computer-readable medium according to Appendix 23, wherein the length changing process is a process for lengthening the target time-series data by detecting, from the target time-series data, a time range whose contents change periodically, and repeating the sequence of frames included in the detected time range in the extended time-series data.
- Appendix 25 22. The computer-readable medium according to appendix 21, wherein the position changing process is a process of changing the position of the target time-series data by exchanging the positions of the two target time-series data.
- Appendix 26 In the obtaining step, obtaining hint information representing a class of a situation with a high probability of occurrence and an action targeted by the situation; 26.
- the hint information indicates the class of action for the situation of lack of action, 27.
- the hint information indicates the class of the action for a situation in which the actual time length of the action deviates from the ideal time length, 27.
- the computer-readable medium according to attachment 26 wherein in the extension processing step, the extended time-series data is generated by performing the length change processing on the target time-series data composed of the frames belonging to the class indicated in the hint information.
- the hint information indicates the class of the action for a situation in which the actual time position of the action deviates from the ideal time position, 27.
- the source time-series data is video data; 30.
- the computer-readable medium of any one of Clauses 21-29, wherein the class to which the frame belongs represents the type of work being imaged in that frame.
- source time-series data 12 frames 20 partial time-series data 30 extended time-series data 40 target time-series data 50 time range 60 time range 70 time range 200 table 202 frame identification information 204 class identification information 300 table 302 head frame identification information 304 end frame identification information 306 class identification information 500 computer 502 bus 504 processor 506 memory 508 storage device 510 input/output interface 512 network interface 2000 data expansion device 2020 acquisition unit 2040 expansion processing unit
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
データ拡張装置(2000)はソース時系列データ(10)を取得する。データ拡張装置(2000)は、ソース時系列データ(10)に含まれる1つ以上の対象時系列データ対して加工処理を行うことで、拡張時系列データ(30)を生成する。対象時系列データは、互いに同一のクラスに属する複数のフレームで構成される。加工処理は、対象時系列データを削除する削除処理、対象時系列データの長さを変える長さ変更処理、又は対象時系列データの時間軸上の位置を変更する位置変更処理を含む。
Description
本開示は、時系列データのデータ拡張に関する。
データに対して加工を施すことで新たなデータを生成する、すなわち、データ拡張(data augmentation)を行うシステムが開発されている。例えば非特許文献1には、入力されたビデオデータのクラス識別を行う識別モデルの訓練のため、訓練データとして用意されたビデオデータに対してデータ拡張を行うことで、訓練データを増やす技術が開示されている。
Taeoh Kim、Hyeongmin Lee、MyeongAh Cho、Ho Seong Lee、Dong Heon Cho、及びSangyoun Lee、「Learning Temporally Invariant and Localizable Features via Data Augmentation for Video Recognition」、[online]、2020年8月13日、arXiv.org、[2022年1月13日検索]、インターネット、<URL: https://arxiv.org/pdf/2008.05721.pdf>
非特許文献1では、モデルに対して入力されるビデオデータ全体についてクラス識別が行われること(言い換えれば、モデルに対して入力されるビデオデータ全体に対して1つのクラスが割り当てられること)を前提としている。本開示はこの課題に鑑みてなされたものであり、その目的の一つは、時系列データについてデータ拡張を行う新たな技術を提供することである。
本開示のデータ拡張装置は、時系列の複数のフレームで構成されるソース時系列データを取得する取得手段と、前記ソース時系列データの中にあり、かつ、互いに同一のクラスに属する複数の連続するフレームで構成される1つ以上の対象時系列データに対して、前記対象時系列データを削除する削除処理、前記対象時系列データの長さを変える長さ変更処理、又は前記対象時系列データの時間軸上の位置を変更する位置変更処理を実行することで、前記ソース時系列データから拡張時系列データを生成する拡張処理手段と、を有する。前記ソース時系列データは、互いに異なるクラスに属する複数のフレームを含む。
本開示のデータ拡張方法は、コンピュータによって実行される。当該方法は、時系列の複数のフレームで構成されるソース時系列データを取得する取得ステップと、前記ソース時系列データの中にあり、かつ、互いに同一のクラスに属する複数の連続するフレームで構成される1つ以上の対象時系列データに対して、前記対象時系列データを削除する削除処理、前記対象時系列データの長さを変える長さ変更処理、又は前記対象時系列データの時間軸上の位置を変更する位置変更処理を実行することで、前記ソース時系列データから拡張時系列データを生成する拡張処理ステップと、を有する。前記ソース時系列データは、互いに異なるクラスに属する複数のフレームを含む。
本開示の非一時的なコンピュータ可読媒体は、本開示のデータ拡張方法をコンピュータに実行させるプログラムを格納している。
本開示によれば、時系列データのデータ拡張を行う新たな技術が提供される。
以下では、本開示の実施形態について、図面を参照しながら詳細に説明する。各図面において、同一又は対応する要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略される。また、特に説明しない限り、所定値や閾値などといった予め定められている値は、その値を利用する装置からアクセス可能な記憶装置などに予め格納されている。さらに、特に説明しない限り、記憶部は、1つ以上の任意の数の記憶装置によって構成される。
<概要>
図1は、実施形態のデータ拡張装置によって扱われるソース時系列データ10を例示する図である。ソース時系列データ10は、時系列の複数のフレーム12で構成される。別の表現では、ソース時系列データ10は、フレーム12が時系列に並べられたデータ列とも言える。
図1は、実施形態のデータ拡張装置によって扱われるソース時系列データ10を例示する図である。ソース時系列データ10は、時系列の複数のフレーム12で構成される。別の表現では、ソース時系列データ10は、フレーム12が時系列に並べられたデータ列とも言える。
例えばソース時系列データ10はビデオデータである。ビデオデータは、複数のビデオフレームが順番に(フレーム番号の昇順に)並べられた時系列データである。よって、ソース時系列データ10がビデオデータである場合、フレーム12は、ビデオデータを構成するビデオフレームである。
各フレーム12は、複数のクラスのうちの1つに属する。ソース時系列データ10には部分時系列データ20が複数含まれる。部分時系列データ20は、互いに同一のクラスに属する複数の連続するフレーム12で構成される時系列データである。例えば図1のソース時系列データ10は、クラスC1に属する複数のフレーム12で構成される部分時系列データ20-1、クラスC2に属する複数のフレーム12で構成される部分時系列データ20-2、及びクラスC3に属する複数のフレーム12で構成される部分時系列データ20-3を、この順に有する。以下、クラスCに属する複数のフレーム12で構成される時系列データのことを、「クラスCに属する時系列データ」とも表記する。
ここで、ソース時系列データ10は少なくとも、互いに異なるクラスに属する2つの部分時系列データ20を含む。しかしながら、ソース時系列データ10には、互いに同一のクラスに属する2つ以上の部分時系列データ20が含まれていてもよい。例えば図1の例において、部分時系列データ20-1と部分時系列データ20-3がクラスC1に属しており、かつ、部分時系列データ20-2がクラスC2に属していてもよい。
クラスは、例えば、部分時系列データ20の内容(例:部分時系列データ20によって表されるシーンや状況)を表す。例えば、作業員が3つの工程P1、P2、及びP3から成る作業を行っている様子をビデオカメラで撮影し、当該撮影によって得られたビデオデータを、ソース時系列データ10として扱うとする。この場合、各作業工程をクラスとして扱うことができる。すなわち、ソース時系列データ10を、工程P1の作業の様子が含まれている部分時系列データ20、工程P2の作業の様子が含まれる部分時系列データ20、及び工程P3の作業の様子が含まれる部分時系列データ20という3つの部分時系列データ20に分けることができる。
ソース時系列データ10の種類は、ビデオデータに限定されない。例えばソース時系列データ10は音声データであってもよい。その他にも例えば、ソース時系列データ10は、任意のセンサ(例えば3次元加速度センサ)によって繰り返し行われたセンシングの結果を表すセンシングデータであってもよい。
図2は、実施形態のデータ拡張装置2000の動作の概要を例示する図である。ここで、図2は、データ拡張装置2000の概要の理解を容易にするための図であり、データ拡張装置2000の動作は、図2に示したものに限定されない。
データ拡張装置2000は、ソース時系列データ10に含まれる少なくとも1つの部分時系列データ20を加工することにより、ソース時系列データ10とは異なる拡張時系列データ30を生成する。これにより、データ拡張を実現する。以下、ソース時系列データ10に含まれる部分時系列データ20のうち、加工処理の対象とされるものを、「対象時系列データ」と呼ぶ。
ソース時系列データ10に対して行われる加工処理は、例えば、1)削除処理、2)長さ変更処理、又は3)位置変更処理を含む。ここで、「加工処理は1)、2)、又は3)を含む」とは、加工処理に、1)から3)のうちの2つ以上を組み合わせた処理が含まれうることを意味する。
削除処理は、対象時系列データを削除する処理である。すなわち、拡張時系列データ30には、削除処理の対象となった対象時系列データが含まれないことになる。長さ変更処理は、対象時系列データの時間軸上の長さを変える処理である。そのため、加工後の対象時系列データに含まれるフレーム12の数は、加工前の対象時系列データに含まれるフレーム12の数とは異なる。位置変更処理は、対象時系列データの時間軸上の位置を変更する処理である。そのため、拡張時系列データ30における対象時系列データの時間軸上の位置は、ソース時系列データ10におけるその対象時系列データの時間軸上の位置とは異なる。長さ変更処理と位置変更処理の組み合わせには、例えば、「2つの対象時系列データのいずれか一方又は双方について、その長さを変更する長さ変更処理を行った後に、これらの位置を入れ替える位置変更処理を行う」といった加工処理が考えられる。
ここで、ソース時系列データ10に対して複数種類の加工処理が行われる場合、これら複数種類の加工処理は、同一の対象時系列データに対して行われてもよいし、それぞれ異なる対象時系列データに対して行われてもよい。前者の場合、例えば、部分時系列データ20-1の長さを変更する長さ変更処理が行われた後に、部分時系列データ20-1の位置を変更する位置変更処理が行われる。後者の場合、例えば、部分時系列データ20-1を削除する削除処理が行われた後に、部分時系列データ20-2の位置を変更する位置変更処理が行われる。
<作用効果の例>
本実施形態のデータ拡張装置2000によれば、ソース時系列データ10に含まれる1つ以上の部分時系列データ20に対して加工処理を行うことで、拡張時系列データ30が生成される。ここで、ソース時系列データ10には、それぞれ異なるクラスに属する複数の部分時系列データ20が含まれる。そのため、データ拡張装置2000によれば、データ拡張により、それぞれ異なるクラスに属する複数の部分時系列データ20が含まれる時系列データを生成することができる。
本実施形態のデータ拡張装置2000によれば、ソース時系列データ10に含まれる1つ以上の部分時系列データ20に対して加工処理を行うことで、拡張時系列データ30が生成される。ここで、ソース時系列データ10には、それぞれ異なるクラスに属する複数の部分時系列データ20が含まれる。そのため、データ拡張装置2000によれば、データ拡張により、それぞれ異なるクラスに属する複数の部分時系列データ20が含まれる時系列データを生成することができる。
このようなデータ拡張は、例えば、時系列データが入力されたことに応じて、その時系列データを構成する各フレームのクラスを識別する識別器の訓練に有用である。例えば、ビデオデータが入力されたことに応じ、各ビデオフレームのクラスを識別する識別器などが考えられる。このような識別器の訓練に利用される訓練データは、例えば、入力データとして時系列データを示し、かつ、正解(ground-truth)データとして、その時系列データに含まれる各フレームのクラスを示す。
識別精度の高い識別器を得るためには、多くの訓練データを利用して識別器の訓練を行うことが好ましい。しかしながら、多くの訓練データを用意するためには、手間と時間がかかる。この点、本実施形態のデータ拡張装置2000を利用すれば、データ拡張によって訓練データの量を増やせることができる。そのため、訓練データの用意にかかる手間と時間を削減し、多くの訓練データをより容易に用意できるようになる。
また、精度の高い識別器を得るためには、訓練データのバリエーションを多くすることが好適である。しかしながら、訓練データを生成する際、そのバリエーションに偏りが生じやすいケースがある。例えばこのようなケースとしては、現実のシチュエーションを観測することで訓練データを用意するケースが挙がられる。より具体的な例としては、工場における日頃の作業の様子を監視カメラで撮影することで得られたビデオデータを、訓練データに流用するケースである。
このように実際のシチュエーションを観測する場合、異常なシチュエーションは、正常なシチュエーションよりも観測されにくい。例えば前述した工場の作業を撮影するケースでは、作業は正常な手順で行われることがほとんどであり、誤った手順で行われている作業が撮影されることは少ないと考えられる。そのため、異常なシチュエーションを表す訓練データの数は、正常なシチュエーションを表す訓練データの数よりも少なくなってしまう。しかしながら、訓練データのバリエーションを多くするためには、異常なシチュエーションを表す訓練データの数も多いことが好ましい。
この点、データ拡張装置2000を利用すれば、正常なシチュエーションを表す時系列データをソース時系列データ10として取得し、それに対して加工処理を行うことにより、異常なシチュエーションを表す拡張時系列データ30を生成することができる。例えば、日頃の正常な作業の様子が記録されたビデオデータから、異常な作業の様子を表すビデオデータを生成することができる。よって、データ拡張装置2000によれば、訓練データのバリエーションを容易に増やすことができる。
以下、本実施形態のデータ拡張装置2000について、より詳細に説明する。
<機能構成の例>
図3は、実施形態のデータ拡張装置2000の機能構成を例示するブロック図である。データ拡張装置2000は、取得部2020及び拡張処理部2040を有する。取得部2020はソース時系列データ10を取得する。拡張処理部2040は、ソース時系列データ10に含まれる1つ以上の対象時系列データに対して加工処理を行うことで、ソース時系列データ10から拡張時系列データ30を生成する。
図3は、実施形態のデータ拡張装置2000の機能構成を例示するブロック図である。データ拡張装置2000は、取得部2020及び拡張処理部2040を有する。取得部2020はソース時系列データ10を取得する。拡張処理部2040は、ソース時系列データ10に含まれる1つ以上の対象時系列データに対して加工処理を行うことで、ソース時系列データ10から拡張時系列データ30を生成する。
<ハードウエア構成の例>
データ拡張装置2000の各機能構成部は、各機能構成部を実現するハードウエア(例:ハードワイヤードされた電子回路など)で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ(例:電子回路とそれを制御するプログラムの組み合わせなど)で実現されてもよい。以下、データ拡張装置2000の各機能構成部がハードウエアとソフトウエアとの組み合わせで実現される場合について、さらに説明する。
データ拡張装置2000の各機能構成部は、各機能構成部を実現するハードウエア(例:ハードワイヤードされた電子回路など)で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ(例:電子回路とそれを制御するプログラムの組み合わせなど)で実現されてもよい。以下、データ拡張装置2000の各機能構成部がハードウエアとソフトウエアとの組み合わせで実現される場合について、さらに説明する。
図4は、データ拡張装置2000を実現するコンピュータ500のハードウエア構成を例示するブロック図である。コンピュータ500は、任意のコンピュータである。例えばコンピュータ500は、PC(Personal Computer)やサーバマシンなどといった、据え置き型のコンピュータである。その他にも例えば、コンピュータ500は、スマートフォンやタブレット端末などといった可搬型のコンピュータである。コンピュータ500は、データ拡張装置2000を実現するために設計された専用のコンピュータであってもよいし、汎用のコンピュータであってもよい。
例えば、コンピュータ500に対して所定のアプリケーションをインストールすることにより、コンピュータ500で、データ拡張装置2000の各機能が実現される。上記アプリケーションは、データ拡張装置2000の各機能構成部を実現するためのプログラムで構成される。なお、上記プログラムの取得方法は任意である。例えば、当該プログラムが格納されている記憶媒体(DVD ディスクや USB メモリなど)から、当該プログラムを取得することができる。その他にも例えば、当該プログラムが格納されている記憶装置を管理しているサーバ装置から、当該プログラムをダウンロードすることにより、当該プログラムを取得することができる。
コンピュータ500は、バス502、プロセッサ504、メモリ506、ストレージデバイス508、入出力インタフェース510、及びネットワークインタフェース512を有する。バス502は、プロセッサ504、メモリ506、ストレージデバイス508、入出力インタフェース510、及びネットワークインタフェース512が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ504などを互いに接続する方法は、バス接続に限定されない。
プロセッサ504は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、又は FPGA(Field-Programmable Gate Array)などの種々のプロセッサである。メモリ506は、RAM(Random Access Memory)などを用いて実現される主記憶装置である。ストレージデバイス508は、ハードディスク、SSD(Solid State Drive)、メモリカード、又は ROM(Read Only Memory)などを用いて実現される補助記憶装置である。
入出力インタフェース510は、コンピュータ500と入出力デバイスとを接続するためのインタフェースである。例えば入出力インタフェース510には、キーボードなどの入力装置や、ディスプレイ装置などの出力装置が接続される。
ネットワークインタフェース512は、コンピュータ500をネットワークに接続するためのインタフェースである。このネットワークは、LAN(Local Area Network)であってもよいし、WAN(Wide Area Network)であってもよい。
ストレージデバイス508は、データ拡張装置2000の各機能構成部を実現するプログラム(前述したアプリケーションを実現するプログラム)を記憶している。プロセッサ504は、このプログラムをメモリ506に読み出して実行することで、データ拡張装置2000の各機能構成部を実現する。
データ拡張装置2000は、1つのコンピュータ500で実現されてもよいし、複数のコンピュータ500で実現されてもよい。後者の場合において、各コンピュータ500の構成は同一である必要はなく、それぞれ異なるものとすることができる。
<処理の流れ>
図5は、実施形態のデータ拡張装置2000によって実行される処理の流れを例示するフローチャートである。取得部2020は、ソース時系列データ10を取得する(S102)。拡張処理部2040は、1つ以上の対象時系列データに対して加工処理を行うことで、拡張時系列データ30を生成する(S104)。
図5は、実施形態のデータ拡張装置2000によって実行される処理の流れを例示するフローチャートである。取得部2020は、ソース時系列データ10を取得する(S102)。拡張処理部2040は、1つ以上の対象時系列データに対して加工処理を行うことで、拡張時系列データ30を生成する(S104)。
<ソース時系列データ10の取得:S102>
取得部2020は、ソース時系列データ10を取得する。ここで、処理の対象とする時系列データを取得する方法には、様々な方法を採用することができる。例えばソース時系列データ10は、データ拡張装置2000から取得可能な態様で、予め任意の記憶装置に格納されているものとする。この場合、取得部2020は、当該記憶装置からソース時系列データ10を読み出すことにより、ソース時系列データ10を取得する。
取得部2020は、ソース時系列データ10を取得する。ここで、処理の対象とする時系列データを取得する方法には、様々な方法を採用することができる。例えばソース時系列データ10は、データ拡張装置2000から取得可能な態様で、予め任意の記憶装置に格納されているものとする。この場合、取得部2020は、当該記憶装置からソース時系列データ10を読み出すことにより、ソース時系列データ10を取得する。
その他にも例えば、取得部2020は、他の装置から送信されたソース時系列データ10を受信することにより、ソース時系列データ10を取得する。ソース時系列データ10を送信する装置は、例えば、ソース時系列データ10を生成した装置である。ソース時系列データ10がビデオデータである場合、例えば取得部2020は、ソース時系列データ10を生成したビデオカメラからソース時系列データ10を取得する。
<<フレーム12のクラスを特定するための情報について>>
データ拡張装置2000は、各部分時系列データ20が属するクラスを特定できる必要がある。そこで例えば、データ拡張装置2000は、各部分時系列データ20が属するクラスを示す情報(以下、クラス情報)を取得する。
データ拡張装置2000は、各部分時系列データ20が属するクラスを特定できる必要がある。そこで例えば、データ拡張装置2000は、各部分時系列データ20が属するクラスを示す情報(以下、クラス情報)を取得する。
例えばクラス情報は、ソース時系列データ10に含まれる各フレーム12について、その識別情報(例えばフレーム番号)と、そのフレーム12が属するクラスの識別情報との対応付けを示す。その他にも例えば、クラス情報は、ソース時系列データ10に含まれる各部分時系列データ20について、先頭のフレーム12と末尾のフレーム12のいずれか一方又は双方の識別情報を示してもよい。
図6は、クラス情報をテーブル形式で例示する図である。テーブル200は、フレーム12ごとに、そのフレーム12が属するクラスを示す。より具体的には、フレーム12の識別情報(フレーム識別情報202)に対応づけて、そのフレーム12が属するクラスの識別情報(クラス識別情報204)を示す。
一方、テーブル300は、部分時系列データ20ごとに、その部分時系列データ20が属するクラスを示す。より具体的には、部分時系列データ20について、先頭のフレーム12の識別情報(先頭フレーム識別情報302)と末尾のフレーム12の識別情報(末尾フレーム識別情報304)との組み合わせに対応づけて、その部分時系列データ20が属するクラスの識別情報(クラス識別情報306)を示す。
クラス情報は、ソース時系列データ10と一体となっている情報であってもよいし、ソース時系列データ10とは別体となっている情報であってもよい。前者の場合、例えば、ソース時系列データ10に含まれる各フレーム12に対して、そのフレーム12が属するクラスの識別情報がメタデータとして付加されている。ソース時系列データ10とクラス情報とが別体で構成されている場合、例えば取得部2020は、ソース時系列データ10に加えて、そのソース時系列データ10についてのクラス情報をさらに取得する。クラス情報を取得する方法は、ソース時系列データ10を取得する方法と同様である。
<加工処理:S104>
拡張処理部2040は、1つ以上の対象時系列データに対して加工処理を行う(S104)。加工処理は、1)削除処理、2)長さ変更処理、又は3)位置変更処理を含む。以下、1)から3)のそれぞれについて説明する。なお、実行する加工処理を決定する方法や、加工処理の対象とする対象時系列データを決定する方法については後述する。
拡張処理部2040は、1つ以上の対象時系列データに対して加工処理を行う(S104)。加工処理は、1)削除処理、2)長さ変更処理、又は3)位置変更処理を含む。以下、1)から3)のそれぞれについて説明する。なお、実行する加工処理を決定する方法や、加工処理の対象とする対象時系列データを決定する方法については後述する。
<<削除処理>>
削除処理は、ソース時系列データ10から対象時系列データを除いたものを拡張時系列データ30として生成するための処理である。図7は、削除処理を例示する第1の図である。図7では、部分時系列データ20-2が対象時系列データとして扱われている。そのため、ソース時系列データ10から部分時系列データ20-2を除くことで、拡張時系列データ30が生成されている。
削除処理は、ソース時系列データ10から対象時系列データを除いたものを拡張時系列データ30として生成するための処理である。図7は、削除処理を例示する第1の図である。図7では、部分時系列データ20-2が対象時系列データとして扱われている。そのため、ソース時系列データ10から部分時系列データ20-2を除くことで、拡張時系列データ30が生成されている。
拡張処理部2040は、対象時系列データを除いた後、その前後にある部分時系列データ20の一部を重ね合わせる加工処理を行ってもよい。図8は、削除処理を例示する第2の図である。図8では、図7と同様に、部分時系列データ20-2が削除されている。そして、図8ではさらに、部分時系列データ20-2の前にあった部分時系列データ20-1の末尾 m フレームと、部分時系列データ20-2の後にあった部分時系列データ20-3の先頭 m フレームとを互いに重ね合わせている。このようにすることで、本来は時間的に離れていた2つの部分時系列データ20が比較的自然に接続されるようにしている。
ここで、上記の重ね合わせをする際に、前方の部分時系列データ20の末尾についてはフェードアウトさせ、かつ、後方の部分時系列データ20の先頭についてはフェードインさせてもよい。これにより、これら2つの部分時系列データ20の接続がより自然なものとなる。
拡張処理部2040は、ソース時系列データ10のクラス情報、及びソース時系列データ10に対して実行した加工処理に基づいて、拡張時系列データ30のクラス情報を生成する。削除処理が行われた場合、例えば拡張処理部2040は、ソース時系列データ10のクラス情報の中から、削除した部分時系列データ20に関する情報を削除することにより、拡張時系列データ30のクラス情報を生成する。なお、クラス情報がフレーム12に付加されている場合、部分時系列データ20を削除することで、同時にクラス情報も削除される。
ここで、削除された部分時系列データ20の前後の部分時系列データ20について、それらを重ね合わせる処理が行われた場合、拡張処理部2040は、重ね合わせによって新たに生成された各フレーム12について、クラスの決定を行う。例えば新たなフレーム12のクラスは、重ね合わせた2つのフレーム12のうち、不透明度がより高く設定されたフレーム12のクラスに設定される。例えば、クラスC1のフレーム12を不透明度D1に設定し、かつ、クラスC2のフレーム12を不透明度D2に設定した上で、これらが重ね合わされたとする。この場合、例えば、D1>=D2であれば、新たなフレーム12のクラスがC1に設定され、D1<D2であれば、新たなフレーム12のクラスがC2に設定される。
<<長さ変更処理>>
長さ変更処理は、対象時系列データの時間軸上の長さを変更する処理である。対象時系列データの長さを変更する処理は、対象時系列データを長くする処理と、対象時系列データを短くする処理とに大別される。以下、それぞれについて説明する。
長さ変更処理は、対象時系列データの時間軸上の長さを変更する処理である。対象時系列データの長さを変更する処理は、対象時系列データを長くする処理と、対象時系列データを短くする処理とに大別される。以下、それぞれについて説明する。
<<<対象時系列データを長くする処理>>>>
例えば拡張処理部2040は、対象時系列データの一部又は全てについて、時間の流れを遅くする処理(以下、低速化処理)を行うことで、対象時系列データの長さを長くする。この処理には、例えば、ビデオや音声を低速再生する際に利用される任意の手法を採用することができる。
例えば拡張処理部2040は、対象時系列データの一部又は全てについて、時間の流れを遅くする処理(以下、低速化処理)を行うことで、対象時系列データの長さを長くする。この処理には、例えば、ビデオや音声を低速再生する際に利用される任意の手法を採用することができる。
図9は、低速化処理を例示する図である。図9の例では、対象時系列データ40のうち、時間範囲50に含まれる各フレーム12をコピーすることで、対象時系列データの長さが長くなっている。ソース時系列データ10がビデオデータの場合、図9の処理により、時間範囲50の部分がスローモーションになる。ここで、各フレーム12をコピーする代わりに、拡張処理部2040は、互いに隣接する2つのフレーム12の間に、それら2つの中間を表すフレーム12(例えば、2つのフレーム12を平均することで得られるフレーム12)を挿入してもよい。この処理は、フレーム補間処理によって実現することができる。
なお、図9の例では各フレーム12のコピーが1つずつ生成されているが、コピーの数は1つに限定されない。コピーの数は、予め定められていてもよいし、動的に(例えばランダムに)決定されてもよい。
ここで、低速化処理の対象とする時間範囲50を決定する方法は様々である。例えば拡張処理部2040は、対象時系列データ40の中から、時間範囲50の始点とするフレーム12をランダムに選択することにより、時間範囲50を決定する。なお、時間範囲50の長さは予め定められていてもよいし、動的に(例えばランダムに)決定されてもよい。時間範囲50の始点は、所定のルールに基づいて選択されてもよい。例えば、それぞれ異なるパターンの低速化処理が施された複数の拡張時系列データ30が生成される場合、時間範囲50の始点を所定個ずつずらしていく、という方法が考えられる。
その他にも例えば、拡張処理部2040は、対象時系列データ40の中から、フレーム12間の変化の大きい時間範囲を特定し、その時間範囲を対象として低速化処理を行ってもよい。フレーム12間の変化が大きい時間範囲の時系列データは、低速化処理によってその時間変化の大きさをある程度小さくしたとしても、その内容が不自然にならない蓋然性が高いためである。
フレーム12間の大きさは、フレーム12間の差分に基づいて算出することができる。ソース時系列データ10がビデオデータである場合、フレーム12間の変化の大きさは、例えば、オプティカルフローの大きさの統計値(平均値、最大値、又は中央値)で表すことができる。より具体的には、例えば拡張処理部2040は、対象時系列データ40を所定長の時間範囲ごとに区切り、各時間範囲について、その中に含まれる複数のフレーム12の変化の大きさの統計値を算出する。そして、拡張処理部2040は、変化の大きさの統計値が閾値以上である時間範囲を、低速化処理の対象とする時間範囲50として扱う。
なお、時間範囲50を対象として低速化処理を行う代わりに、互いに離れた位置にある1つ以上のフレーム12を選択し、選択された各フレーム12のコピーを生成するという方法で、低速化処理が行われてもよい。例えばこの場合、拡張処理部2040は、対象時系列データ40の中からランダムにフレーム12を選択して、低速化処理の対象とする。その他にも例えば、拡張処理部2040は、対象時系列データ40の中から、その前のフレーム12からの変化の大きさが閾値以上であるフレーム12を個々に選択して、低速化処理の対象としてもよい。
対象時系列データ40を長くする処理は、低速化処理に限定されない。例えば拡張処理部2040は、対象時系列データ40に対し、その一部又は全てが繰り返されるようにする処理(以下、リピート処理)を施すことで、対象時系列データ40の長さを長くしてもよい。図10は、リピート処理を例示する処理である。図10の例では、時間範囲60の部分が2回繰り返されるように、リピート処理が行われている。
リピート処理の対象を選択する方法は様々である。例えば拡張処理部2040は、対象時系列データ40の中からランダムに時間範囲を選択し、その時間範囲を対象としてリピート処理を行う。選択される時間範囲の長さは、予め定められていてもよいし、動的に(例えばランダムに)決定されてもよい。また、それぞれ異なるパターンのリピート処理が行われた複数の拡張時系列データ30が生成される場合、選択される時間範囲の長さを所定個ずつ長くしていく、といった方法が考えられる。
その他にも例えば、拡張処理部2040は、対象時系列データ40の中から、特定の意味を持つ時間範囲を検出し、その時間範囲についてリピート処理を行ってもよい。対象時系列データ40がビデオデータである場合、例えば拡張処理部2040は、対象時系列データ40の中から一連の変化(例えば動作)を表す時間範囲を検出し、その時間範囲を対象としてリピート処理を行う。一連の変化は、例えば、ねじを締める動作やレバーを回すなどのような、周期的な変化である。その他にも例えば、一連の変化は、ドアを開ける動作やレバーを下げる動作などといった、周期的ではない変化であってもよい。このような一連の変化が繰り返されるようにすることで、リピート処理の対象をランダムに決定する場合と比較し、より自然な状況を表す拡張時系列データ30を生成することができる。
対象時系列データ40の中から一連の変化を検出する手法は様々である。ソース時系列データ10がビデオデータである場合、例えば拡張処理部2040は、対象時系列データ40の各フレーム12に対して骨格検出処理を行い、対象時系列データ40の中から、骨格の位置が周期的に変化している時間範囲を検出する。そして拡張処理部2040は、検出された時間範囲を、一連の変化を表す時間範囲として検出する。
その他にも例えば、ソース時系列データ10が音声データなどのような信号データである場合、拡張処理部2040は、対象時系列データ40の中から信号の強度などが周期的に変化する時間範囲を検出し、検出された時間範囲を、一連の変化を表す時間範囲として検出する。
その他にも例えば、拡張処理部2040は、対象時系列データ40を所定長の時間範囲ずつに区切り、各時間範囲に対して、その中で特定のイベントが発生しているか否かを判定する処理を行う。これにより、対象時系列データ40の中から、特定のイベントが発生している時間範囲が検出される。ここで、時系列データによって特定のイベントが表されているか否かを判定する技術には、既存の技術を利用することができる。例えばソース時系列データ10がビデオデータである場合は、イベントは、人によって行われる特定の動作である。
<<<対象時系列データを短くする処理>>>
対例えば拡張処理部2040は、対象時系列データ40の一部又は全てについて、時間の流れを速める処理(以下、高速化処理)を行うことで、対象時系列データ40の長さを短くする。この処理には、例えば、ビデオや音声を高速再生する際に利用される任意の手法を採用することができる。
対例えば拡張処理部2040は、対象時系列データ40の一部又は全てについて、時間の流れを速める処理(以下、高速化処理)を行うことで、対象時系列データ40の長さを短くする。この処理には、例えば、ビデオや音声を高速再生する際に利用される任意の手法を採用することができる。
図11は、高速化処理を例示する図である。図11の例では、対象時系列データ40のうち、時間範囲70に含まれるフレーム12について、2つに1つを削除することで、対象時系列データの長さが短くされている。これは、「時間範囲70について、フレーム12が間引かれている」とも表現することができる。なお、間引く割合は「2つに1つ」には限定されず、「A個のうちB個」と一般化することができる(A>B)。なお、AとBの値は、予め定められていてもよいし、動的に(例えばランダムに)決定されてもよい。
なお、拡張処理部2040は、時間範囲70の中を間引く代わりに、時間範囲70の全てを削除することで、対象時系列データ40の長さを短くしてもよい。この場合、前述した削除処理と同様に、拡張処理部2040は、時間範囲70の前後の所定長の時間範囲を重ね合わせてもよい。
高速化処理の対象とする時間範囲70を決定する方法には、低速化処理の対象とする時間範囲50を決定する方法と同様の方法を利用できる。ただし、フレーム12間の変化の大きさに着目する場合、拡張処理部2040は、その変化の大きさが小さい範囲を高速化処理の対象とすることが好適である。フレーム12間の変化が小さい時系列データは、高速化処理によってその変化の大きさをある程度大きくしたとしても、その内容が不自然にならない蓋然性が高いためである。例えば拡張処理部2040は、対象時系列データ40を所定長の時間範囲ごとに区切り、各時間範囲について、その中に含まれる複数のフレーム12の変化の大きさの統計値を算出する。そして、拡張処理部2040は、変化の大きさの統計値が閾値以下である範囲を、高速化処理の対象とする時間範囲70として扱う。
なお、時間範囲70を対象として高速化処理を行う代わりに、互いに離れた位置にある1つ以上のフレーム12を選択し、選択された各フレーム12を削除するという方法で、高速化処理が行われてもよい。例えばこの場合、拡張処理部2040は、対象時系列データ40の中からランダムにフレーム12を選択して、高速化処理の対象とする。その他にも例えば、拡張処理部2040は、対象時系列データ40の中から、その前のフレーム12からの変化の大きさが閾値以下であるフレーム12を個々に選択して、高速化処理の対象としてもよい。
拡張処理部2040は、ソース時系列データ10のクラス情報、及びソース時系列データ10に対して実行した長さ変更処理の内容に基づいて、拡張時系列データ30のクラス情報を生成する。対象時系列データ40に含まれるフレーム12をコピーすることで対象時系列データ40の長さを長くする処理が行われた場合、拡張処理部2040は、新たに生成されたフレーム12のクラスが、コピー元のフレーム12と同じクラスになるように、拡張時系列データ30のクラス情報を生成する。一方、対象時系列データ40に含まれるフレーム12を削除することで対象時系列データ40の長さを短くする処理が行われた場合、拡張処理部2040は、削除されたフレーム12についてのクラスの情報をソース時系列データ10のクラス情報から削除することで、拡張時系列データ30のクラス情報を生成する。なお、重ね合わせによって新たなフレーム12が生成された場合、拡張処理部2040は、そのフレーム12に対してクラスの割り当てを行う。重ね合わせによって生成されたフレーム12に対してクラスを割り当てる方法は、削除処理で説明した通りである。
<<位置変更処理>>
位置変更処理は、対象時系列データ40における部分時系列データ20の位置を変更する処理である。位置変更処理は、1)1つの部分時系列データ20を別の位置へ移動する移動処理、及び2)2つの部分時系列データ20の位置を入れ替えるスイッチ処理に大別することができる。
位置変更処理は、対象時系列データ40における部分時系列データ20の位置を変更する処理である。位置変更処理は、1)1つの部分時系列データ20を別の位置へ移動する移動処理、及び2)2つの部分時系列データ20の位置を入れ替えるスイッチ処理に大別することができる。
図12は移動処理を例示する図である。図12の例では、部分時系列データ20-2が、部分時系列データ20-4の後に移動されている。言い換えれば、部分時系列データ20-2の位置が、部分時系列データ20-4の後の位置に変更されている。
図13はスイッチ処理を例示する図である。図13の例では、部分時系列データ20-2の位置と部分時系列データ20-4の位置とが入れ替えられている。
ここで、位置変更処理は、移動後の部分時系列データ20の先頭とその前に位置する部分時系列データ20の末尾とを重ね合わせる処理や、移動後の部分時系列データ20の末尾とその後に位置する部分時系列データ20の先頭とを重ね合わせる処理を含んでもよい。例えば図12の例では、部分時系列データ20-2の先頭と部分時系列データ20-4の末尾とを重ね合わせる処理や、部分時系列データ20-2の末尾と部分時系列データ20-5の先頭とを重ね合わせる処理が行われてもよい。
また、他の部分時系列データ20が移動された結果として互いに隣接するようになった部分時系列データ20について、それらの末尾と先頭とを重ね合わせる処理が行われてもよい。例えば図12の例では、部分時系列データ20-2が移動された結果、部分時系列データ20-1と部分時系列データ20-3とが隣接するようになる。そこで、部分時系列データ20-1の末尾と部分時系列データ20-3の先頭とを重ね合わせる処理が行われてもよい。
ここで、互いに隣接する部分時系列データ20の末尾と先頭とを重ね合わせる方法については、削除処理で説明した通りである。
拡張処理部2040は、ソース時系列データ10のクラス情報、及びソース時系列データ10に対して実行した位置変更処理の内容に基づいて、拡張時系列データ30のクラス情報を生成する。具体的には、ソース時系列データ10と拡張時系列データ30とで位置が変更された部分時系列データ20について、クラス情報においても位置が変更される。また、重ね合わせによって生成されたフレーム12については、クラスの割り当てが行われる。重ね合わせによって生成されたフレーム12にクラスを割り当てる方法は、削除処理で説明した通りである。
<<加工処理の選択>>
ソース時系列データ10に対して行われる加工処理は、予め定められていてもよいし、複数種類の中から任意に選択されてもよい。また、ソース時系列データ10に対して行われる加工処理の数は、1つであってもよいし、複数であってもよい。なお、加工処理の種類やその数は、ランダムに選択されてもよいし、何らかのルールに従って選択されてもよい。ソース時系列データ10から複数の拡張時系列データ30が生成される場合、例えば、予め定められている順序に従って、加工処理が順に選択されていく。
ソース時系列データ10に対して行われる加工処理は、予め定められていてもよいし、複数種類の中から任意に選択されてもよい。また、ソース時系列データ10に対して行われる加工処理の数は、1つであってもよいし、複数であってもよい。なお、加工処理の種類やその数は、ランダムに選択されてもよいし、何らかのルールに従って選択されてもよい。ソース時系列データ10から複数の拡張時系列データ30が生成される場合、例えば、予め定められている順序に従って、加工処理が順に選択されていく。
加工処理の対象とする対象時系列データについても同様に、予め定められていてもよいし、任意に選択されてもよい。
<<<ヒント情報の利用>>>
拡張時系列データ30として、高い発生確率のシチュエーションが再現された時系列データが求められているとする。この場合、データ拡張装置2000は、発生確率が高いシチュエーションの種類、及びそのシチュエーションの対象となる動作を表すヒント情報を取得し、そのヒント情報を利用して加工処理の種類や対象を決定してもよい。
拡張時系列データ30として、高い発生確率のシチュエーションが再現された時系列データが求められているとする。この場合、データ拡張装置2000は、発生確率が高いシチュエーションの種類、及びそのシチュエーションの対象となる動作を表すヒント情報を取得し、そのヒント情報を利用して加工処理の種類や対象を決定してもよい。
例えば、正常な手順で行われている作業を撮影することで生成されたビデオデータであるソース時系列データ10から、誤った手順で行われている作業を表すビデオデータである拡張時系列データ30を生成することが求められているとする。ここで、実際の作業現場では、頻繁に発生する作業誤りもあれば、ほとんど発生しない作業誤りもある。そこで例えば、データ拡張装置2000は、ヒント情報として、発生頻度の高い作業誤り、及び誤りが発生する作業のクラスを示す情報取得する。このヒント情報を利用することにより、データ拡張装置2000は、正常な作業を表すソース時系列データ10から、発生頻度の高い作業誤りを表す拡張時系列データ30を容易に生成することができる。
ヒント情報によって示されるシチュエーションの種類は様々である。例えばヒント情報に示されるシチュエーションは、動作の欠落(作業忘れ)である。この場合、ヒント情報は、欠落しやすい動作に対応するクラス(例えば、忘れられやすい作業のクラス)を示す。このような情報を示すヒント情報を取得した場合、拡張処理部2040は、ソース時系列データ10から、ヒント情報に示されているクラスに属する部分時系列データ20を検出し、その部分時系列データ20に対して削除処理を行う。
その他にも例えば、ヒント情報に示されるシチュエーションは、動作の実際の時間長が理想の時間長から乖離するというシチュエーション(例えば、作業遅れ)である。この場合、ヒント情報は、実際の時間長が理想の時間長から乖離しやすい動作に対応するクラス(例えば、遅れが発生しやすい作業のクラス)を示す。このような情報を示すヒント情報を取得した場合、拡張処理部2040は、ソース時系列データ10から、ヒント情報に示されているクラスに属する部分時系列データ20を検出し、その部分時系列データ20に対して長さ変更処理を行う。なお、ヒント情報には、長さを長くすべきか、それとも短くすべきかが分かる情報がさらに含まれていることが好適である。
その他にも例えば、ヒント情報に示されるシチュエーションは、動作の実際の時間位置が理想の時間位置から乖離するというシチュエーション(例えば、2つの作業の入れ替わり)である。この場合、ヒント情報は、実際の時間位置が理想の時間位置から乖離しやすい動作を表すクラス(例えば、誤って順番を入れ替えてしまいやすい2つの動作それぞれのクラス)を示す。このような情報を示すヒント情報を取得した場合、拡張処理部2040は、ソース時系列データ10から、ヒント情報に示されているクラスに属する部分時系列データ20を検出し、その部分時系列データ20に対して位置変更処理を行う。なお、入れ替わりやすい2つの作業それぞれのクラスがヒント情報によって示されている場合、拡張処理部2040は、それら2つのクラスそれぞれに対応する部分時系列データ20をソース時系列データ10から検出し、検出した2つの部分時系列データ20に対してスイッチ処理を行う。
ヒント情報が利用される場合、取得部2020は、ヒント情報をさらに取得する。ヒント情報を取得する方法は、ソース時系列データ10を取得する方法と同様である。
ここで、ヒント情報は、ソース時系列データ10の種類に依存しない汎用的な情報であってもよいし、ソース時系列データ10の種類に依存する情報(言い換えれば、特定の種類のソース時系列データ10に特化した情報)であってもよい。後者の例としては、作業現場において、作業ラインごとにその作業ラインで行われる一連の作業工程が異なり、発生しやすい作業誤りも異なることから、作業ラインごとにヒント情報が用意されるケースである。
ソース時系列データ10の種類ごとにヒント情報が用意される場合、取得部2020は、ソース時系列データ10の種類を示す種別情報をさらに取得する。そして、取得部2020は、種別情報に示されているソース時系列データ10の種類に対応するヒント情報を取得する。
ここで、1つのソース時系列データ10から複数の拡張時系列データ30を生成する場合、拡張処理部2040は、ヒント情報を利用した拡張時系列データ30の生成と、ヒント情報を利用しない拡張時系列データ30の生成の双方を行うようにしてもよい。ただし、ヒント情報を利用して生成される拡張時系列データ30の数を、ヒント情報を利用せずに生成される拡張時系列データ30の数よりも多くすることが好適である。
例えば拡張処理部2040が、各拡張時系列データ30の生成の際に、ヒント情報を利用するか否かを選択するように構成されるとする。この場合、「ヒント情報を利用する」とう選択肢が選択される確率が、「ヒント情報を利用しない」という選択肢が選択される確率よりも高くなるようにする。
また、ヒント情報は、各イベントの発生頻度(発生確率)を示していてもよい。この場合、拡張処理部2040は、発生頻度が高いイベントに対応する拡張時系列データ30ほど、生成確率を高くするようにしてもよい。
<結果の出力>
データ拡張装置2000は、実行結果の出力を行う。以下、データ拡張装置2000から出力される情報を、出力情報と呼ぶ。出力情報は拡張時系列データ30を含む。また、拡張時系列データ30とそれに対応するクラス情報とが別体として構成される場合、出力情報は、拡張時系列データ30のクラス情報をさらに含む。ここで、拡張時系列データ30が複数生成される場合、出力情報は、拡張時系列データ30とクラス情報との組み合わせを複数含む。
データ拡張装置2000は、実行結果の出力を行う。以下、データ拡張装置2000から出力される情報を、出力情報と呼ぶ。出力情報は拡張時系列データ30を含む。また、拡張時系列データ30とそれに対応するクラス情報とが別体として構成される場合、出力情報は、拡張時系列データ30のクラス情報をさらに含む。ここで、拡張時系列データ30が複数生成される場合、出力情報は、拡張時系列データ30とクラス情報との組み合わせを複数含む。
出力情報の出力態様は任意である。例えばデータ拡張装置2000は、出力情報を任意の記憶装置に格納する。その他にも例えば、データ拡張装置2000は、出力情報を任意の装置へ送信してもよい。例えば送信先の装置は、拡張時系列データ30を利用して、時系列データに含まれる各フレームのクラスを識別する識別器の訓練を行う装置である。
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
なお、上述の例において、プログラムは、コンピュータに読み込まれた場合に、実施形態で説明された1又はそれ以上の機能をコンピュータに行わせるための命令群(又はソフトウェアコード)を含む。プログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、コンピュータ可読媒体又は実体のある記憶媒体は、random-access memory(RAM)、read-only memory(ROM)、フラッシュメモリ、solid-state drive(SSD)又はその他のメモリ技術、CD-ROM、digital versatile disc(DVD)、Blu-ray(登録商標)ディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含む。プログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含む。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
時系列の複数のフレームで構成されるソース時系列データを取得する取得手段と、
前記ソース時系列データの中にあり、かつ、互いに同一のクラスに属する複数の連続するフレームで構成される1つ以上の対象時系列データに対して、前記対象時系列データを削除する削除処理、前記対象時系列データの長さを変える長さ変更処理、又は前記対象時系列データの時間軸上の位置を変更する位置変更処理を実行することで、前記ソース時系列データから拡張時系列データを生成する拡張処理手段と、を有し、
前記ソース時系列データは、互いに異なるクラスに属する複数のフレームを含む、データ拡張装置。
(付記2)
前記長さ変更処理は、
前記対象時系列データに含まれる1つ以上のフレームをコピーすることで、前記対象時系列データを長くする処理であるか、又は、
前記対象時系列データに含まれる1つ以上のフレームを削除することで、前記対象時系列データを短くする処理である、付記1に記載のデータ拡張装置。
(付記3)
前記長さ変更処理は、前記拡張時系列データにおいて、前記対象時系列データの一部又は全てが繰り返されるようにすることで、前記対象時系列データを長くする処理である、付記2に記載のデータ拡張装置。
(付記4)
前記長さ変更処理は、前記対象時系列データの中から、その内容が周期的に変化する時間範囲を検出し、前記拡張時系列データにおいて、前記検出した時間範囲に含まれる前記フレームの列が繰り返されるようにすることで、前記対象時系列データを長くする処理である、付記3に記載のデータ拡張装置。
(付記5)
前記位置変更処理は、2つの前記対象時系列データの位置を入れ替えることにより、前記対象時系列データの位置を変更する処理である、付記1に記載のデータ拡張装置。
(付記6)
前記取得手段は、発生確率が高いシチュエーション、及びそのシチュエーションの対象となる動作のクラス表すヒント情報を取得し、
前記拡張処理手段は、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対して、前記ヒント情報に示されているシチュエーションを再現できる加工処理を行うことにより、前記拡張時系列データを生成する、付記1から5いずれか1項に記載のデータ拡張装置。
(付記7)
前記ヒント情報は、動作の欠落というシチュエーションについて、その動作のクラスを示しており、
前記拡張処理手段は、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対し、前記削除処理を行うことで、前記拡張時系列データを生成する、付記6に記載のデータ拡張装置。
(付記8)
前記ヒント情報は、動作の実際の時間長が理想の時間長から乖離するというシチュエーションについて、その動作のクラスを示しており、
前記拡張処理手段は、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データについて、前記長さ変更処理を行うことで、前記拡張時系列データを生成する、付記6に記載のデータ拡張装置。
(付記9)
前記ヒント情報は、動作の実際の時間位置が理想の時間位置から乖離するというシチュエーションについて、その動作のクラスを示しており、
前記拡張処理手段は、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対し、前記位置変更処理を行うことで、前記拡張時系列データを生成する、付記6に記載のデータ拡張装置。
(付記10)
前記ソース時系列データはビデオデータであり、
前記フレームが属するクラスは、そのフレームに撮像されている作業の種類を表す、付記1から9いずれか一項に記載のデータ拡張装置。
(付記11)
コンピュータによって実行されるデータ拡張方法であって、
時系列の複数のフレームで構成されるソース時系列データを取得する取得ステップと、
前記ソース時系列データの中にあり、かつ、互いに同一のクラスに属する複数の連続するフレームで構成される1つ以上の対象時系列データに対して、前記対象時系列データを削除する削除処理、前記対象時系列データの長さを変える長さ変更処理、又は前記対象時系列データの時間軸上の位置を変更する位置変更処理を実行することで、前記ソース時系列データから拡張時系列データを生成する拡張処理ステップと、を有し、
前記ソース時系列データは、互いに異なるクラスに属する複数のフレームを含む、データ拡張方法。
(付記12)
前記長さ変更処理は、
前記対象時系列データに含まれる1つ以上のフレームをコピーすることで、前記対象時系列データを長くする処理であるか、又は、
前記対象時系列データに含まれる1つ以上のフレームを削除することで、前記対象時系列データを短くする処理である、付記11に記載のデータ拡張方法。
(付記13)
前記長さ変更処理は、前記拡張時系列データにおいて、前記対象時系列データの一部又は全てが繰り返されるようにすることで、前記対象時系列データを長くする処理である、付記12に記載のデータ拡張方法。
(付記14)
前記長さ変更処理は、前記対象時系列データの中から、その内容が周期的に変化する時間範囲を検出し、前記拡張時系列データにおいて、前記検出した時間範囲に含まれる前記フレームの列が繰り返されるようにすることで、前記対象時系列データを長くする処理である、付記13に記載のデータ拡張方法。
(付記15)
前記位置変更処理は、2つの前記対象時系列データの位置を入れ替えることにより、前記対象時系列データの位置を変更する処理である、付記11に記載のデータ拡張方法。
(付記16)
前記取得ステップにおいて、発生確率が高いシチュエーション、及びそのシチュエーションの対象となる動作のクラス表すヒント情報を取得し、
前記拡張処理ステップにおいて、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対して、前記ヒント情報に示されているシチュエーションを再現できる加工処理を行うことにより、前記拡張時系列データを生成する、付記11から15いずれか1項に記載のデータ拡張方法。
(付記17)
前記ヒント情報は、動作の欠落というシチュエーションについて、その動作のクラスを示しており、
前記拡張処理ステップにおいて、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対し、前記削除処理を行うことで、前記拡張時系列データを生成する、付記16に記載のデータ拡張方法。
(付記18)
前記ヒント情報は、動作の実際の時間長が理想の時間長から乖離するというシチュエーションについて、その動作のクラスを示しており、
前記拡張処理ステップにおいて、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データについて、前記長さ変更処理を行うことで、前記拡張時系列データを生成する、付記16に記載のデータ拡張方法。
(付記19)
前記ヒント情報は、動作の実際の時間位置が理想の時間位置から乖離するというシチュエーションについて、その動作のクラスを示しており、
前記拡張処理ステップにおいて、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対し、前記位置変更処理を行うことで、前記拡張時系列データを生成する、付記16に記載のデータ拡張方法。
(付記20)
前記ソース時系列データはビデオデータであり、
前記フレームが属するクラスは、そのフレームに撮像されている作業の種類を表す、付記11から19いずれか一項に記載のデータ拡張方法。
(付記21)
時系列の複数のフレームで構成されるソース時系列データを取得する取得ステップと、
前記ソース時系列データの中にあり、かつ、互いに同一のクラスに属する複数の連続するフレームで構成される1つ以上の対象時系列データに対して、前記対象時系列データを削除する削除処理、前記対象時系列データの長さを変える長さ変更処理、又は前記対象時系列データの時間軸上の位置を変更する位置変更処理を実行することで、前記ソース時系列データから拡張時系列データを生成する拡張処理ステップと、をコンピュータに実行させるプログラムが格納されており、
前記ソース時系列データは、互いに異なるクラスに属する複数のフレームを含む、非一時的なコンピュータ可読媒体。
(付記22)
前記長さ変更処理は、
前記対象時系列データに含まれる1つ以上のフレームをコピーすることで、前記対象時系列データを長くする処理であるか、又は、
前記対象時系列データに含まれる1つ以上のフレームを削除することで、前記対象時系列データを短くする処理である、付記21に記載のコンピュータ可読媒体。
(付記23)
前記長さ変更処理は、前記拡張時系列データにおいて、前記対象時系列データの一部又は全てが繰り返されるようにすることで、前記対象時系列データを長くする処理である、付記22に記載のコンピュータ可読媒体。
(付記24)
前記長さ変更処理は、前記対象時系列データの中から、その内容が周期的に変化する時間範囲を検出し、前記拡張時系列データにおいて、前記検出した時間範囲に含まれる前記フレームの列が繰り返されるようにすることで、前記対象時系列データを長くする処理である、付記23に記載のコンピュータ可読媒体。
(付記25)
前記位置変更処理は、2つの前記対象時系列データの位置を入れ替えることにより、前記対象時系列データの位置を変更する処理である、付記21に記載のコンピュータ可読媒体。
(付記26)
前記取得ステップにおいて、発生確率が高いシチュエーション、及びそのシチュエーションの対象となる動作のクラス表すヒント情報を取得し、
前記拡張処理ステップにおいて、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対して、前記ヒント情報に示されているシチュエーションを再現できる加工処理を行うことにより、前記拡張時系列データを生成する、付記21から25いずれか1項に記載のコンピュータ可読媒体。
(付記27)
前記ヒント情報は、動作の欠落というシチュエーションについて、その動作のクラスを示しており、
前記拡張処理ステップにおいて、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対し、前記削除処理を行うことで、前記拡張時系列データを生成する、付記26に記載のコンピュータ可読媒体。
(付記28)
前記ヒント情報は、動作の実際の時間長が理想の時間長から乖離するというシチュエーションについて、その動作のクラスを示しており、
前記拡張処理ステップにおいて、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データについて、前記長さ変更処理を行うことで、前記拡張時系列データを生成する、付記26に記載のコンピュータ可読媒体。
(付記29)
前記ヒント情報は、動作の実際の時間位置が理想の時間位置から乖離するというシチュエーションについて、その動作のクラスを示しており、
前記拡張処理ステップにおいて、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対し、前記位置変更処理を行うことで、前記拡張時系列データを生成する、付記26に記載のコンピュータ可読媒体。
(付記30)
前記ソース時系列データはビデオデータであり、
前記フレームが属するクラスは、そのフレームに撮像されている作業の種類を表す、付記21から29いずれか一項に記載のコンピュータ可読媒体。
(付記1)
時系列の複数のフレームで構成されるソース時系列データを取得する取得手段と、
前記ソース時系列データの中にあり、かつ、互いに同一のクラスに属する複数の連続するフレームで構成される1つ以上の対象時系列データに対して、前記対象時系列データを削除する削除処理、前記対象時系列データの長さを変える長さ変更処理、又は前記対象時系列データの時間軸上の位置を変更する位置変更処理を実行することで、前記ソース時系列データから拡張時系列データを生成する拡張処理手段と、を有し、
前記ソース時系列データは、互いに異なるクラスに属する複数のフレームを含む、データ拡張装置。
(付記2)
前記長さ変更処理は、
前記対象時系列データに含まれる1つ以上のフレームをコピーすることで、前記対象時系列データを長くする処理であるか、又は、
前記対象時系列データに含まれる1つ以上のフレームを削除することで、前記対象時系列データを短くする処理である、付記1に記載のデータ拡張装置。
(付記3)
前記長さ変更処理は、前記拡張時系列データにおいて、前記対象時系列データの一部又は全てが繰り返されるようにすることで、前記対象時系列データを長くする処理である、付記2に記載のデータ拡張装置。
(付記4)
前記長さ変更処理は、前記対象時系列データの中から、その内容が周期的に変化する時間範囲を検出し、前記拡張時系列データにおいて、前記検出した時間範囲に含まれる前記フレームの列が繰り返されるようにすることで、前記対象時系列データを長くする処理である、付記3に記載のデータ拡張装置。
(付記5)
前記位置変更処理は、2つの前記対象時系列データの位置を入れ替えることにより、前記対象時系列データの位置を変更する処理である、付記1に記載のデータ拡張装置。
(付記6)
前記取得手段は、発生確率が高いシチュエーション、及びそのシチュエーションの対象となる動作のクラス表すヒント情報を取得し、
前記拡張処理手段は、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対して、前記ヒント情報に示されているシチュエーションを再現できる加工処理を行うことにより、前記拡張時系列データを生成する、付記1から5いずれか1項に記載のデータ拡張装置。
(付記7)
前記ヒント情報は、動作の欠落というシチュエーションについて、その動作のクラスを示しており、
前記拡張処理手段は、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対し、前記削除処理を行うことで、前記拡張時系列データを生成する、付記6に記載のデータ拡張装置。
(付記8)
前記ヒント情報は、動作の実際の時間長が理想の時間長から乖離するというシチュエーションについて、その動作のクラスを示しており、
前記拡張処理手段は、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データについて、前記長さ変更処理を行うことで、前記拡張時系列データを生成する、付記6に記載のデータ拡張装置。
(付記9)
前記ヒント情報は、動作の実際の時間位置が理想の時間位置から乖離するというシチュエーションについて、その動作のクラスを示しており、
前記拡張処理手段は、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対し、前記位置変更処理を行うことで、前記拡張時系列データを生成する、付記6に記載のデータ拡張装置。
(付記10)
前記ソース時系列データはビデオデータであり、
前記フレームが属するクラスは、そのフレームに撮像されている作業の種類を表す、付記1から9いずれか一項に記載のデータ拡張装置。
(付記11)
コンピュータによって実行されるデータ拡張方法であって、
時系列の複数のフレームで構成されるソース時系列データを取得する取得ステップと、
前記ソース時系列データの中にあり、かつ、互いに同一のクラスに属する複数の連続するフレームで構成される1つ以上の対象時系列データに対して、前記対象時系列データを削除する削除処理、前記対象時系列データの長さを変える長さ変更処理、又は前記対象時系列データの時間軸上の位置を変更する位置変更処理を実行することで、前記ソース時系列データから拡張時系列データを生成する拡張処理ステップと、を有し、
前記ソース時系列データは、互いに異なるクラスに属する複数のフレームを含む、データ拡張方法。
(付記12)
前記長さ変更処理は、
前記対象時系列データに含まれる1つ以上のフレームをコピーすることで、前記対象時系列データを長くする処理であるか、又は、
前記対象時系列データに含まれる1つ以上のフレームを削除することで、前記対象時系列データを短くする処理である、付記11に記載のデータ拡張方法。
(付記13)
前記長さ変更処理は、前記拡張時系列データにおいて、前記対象時系列データの一部又は全てが繰り返されるようにすることで、前記対象時系列データを長くする処理である、付記12に記載のデータ拡張方法。
(付記14)
前記長さ変更処理は、前記対象時系列データの中から、その内容が周期的に変化する時間範囲を検出し、前記拡張時系列データにおいて、前記検出した時間範囲に含まれる前記フレームの列が繰り返されるようにすることで、前記対象時系列データを長くする処理である、付記13に記載のデータ拡張方法。
(付記15)
前記位置変更処理は、2つの前記対象時系列データの位置を入れ替えることにより、前記対象時系列データの位置を変更する処理である、付記11に記載のデータ拡張方法。
(付記16)
前記取得ステップにおいて、発生確率が高いシチュエーション、及びそのシチュエーションの対象となる動作のクラス表すヒント情報を取得し、
前記拡張処理ステップにおいて、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対して、前記ヒント情報に示されているシチュエーションを再現できる加工処理を行うことにより、前記拡張時系列データを生成する、付記11から15いずれか1項に記載のデータ拡張方法。
(付記17)
前記ヒント情報は、動作の欠落というシチュエーションについて、その動作のクラスを示しており、
前記拡張処理ステップにおいて、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対し、前記削除処理を行うことで、前記拡張時系列データを生成する、付記16に記載のデータ拡張方法。
(付記18)
前記ヒント情報は、動作の実際の時間長が理想の時間長から乖離するというシチュエーションについて、その動作のクラスを示しており、
前記拡張処理ステップにおいて、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データについて、前記長さ変更処理を行うことで、前記拡張時系列データを生成する、付記16に記載のデータ拡張方法。
(付記19)
前記ヒント情報は、動作の実際の時間位置が理想の時間位置から乖離するというシチュエーションについて、その動作のクラスを示しており、
前記拡張処理ステップにおいて、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対し、前記位置変更処理を行うことで、前記拡張時系列データを生成する、付記16に記載のデータ拡張方法。
(付記20)
前記ソース時系列データはビデオデータであり、
前記フレームが属するクラスは、そのフレームに撮像されている作業の種類を表す、付記11から19いずれか一項に記載のデータ拡張方法。
(付記21)
時系列の複数のフレームで構成されるソース時系列データを取得する取得ステップと、
前記ソース時系列データの中にあり、かつ、互いに同一のクラスに属する複数の連続するフレームで構成される1つ以上の対象時系列データに対して、前記対象時系列データを削除する削除処理、前記対象時系列データの長さを変える長さ変更処理、又は前記対象時系列データの時間軸上の位置を変更する位置変更処理を実行することで、前記ソース時系列データから拡張時系列データを生成する拡張処理ステップと、をコンピュータに実行させるプログラムが格納されており、
前記ソース時系列データは、互いに異なるクラスに属する複数のフレームを含む、非一時的なコンピュータ可読媒体。
(付記22)
前記長さ変更処理は、
前記対象時系列データに含まれる1つ以上のフレームをコピーすることで、前記対象時系列データを長くする処理であるか、又は、
前記対象時系列データに含まれる1つ以上のフレームを削除することで、前記対象時系列データを短くする処理である、付記21に記載のコンピュータ可読媒体。
(付記23)
前記長さ変更処理は、前記拡張時系列データにおいて、前記対象時系列データの一部又は全てが繰り返されるようにすることで、前記対象時系列データを長くする処理である、付記22に記載のコンピュータ可読媒体。
(付記24)
前記長さ変更処理は、前記対象時系列データの中から、その内容が周期的に変化する時間範囲を検出し、前記拡張時系列データにおいて、前記検出した時間範囲に含まれる前記フレームの列が繰り返されるようにすることで、前記対象時系列データを長くする処理である、付記23に記載のコンピュータ可読媒体。
(付記25)
前記位置変更処理は、2つの前記対象時系列データの位置を入れ替えることにより、前記対象時系列データの位置を変更する処理である、付記21に記載のコンピュータ可読媒体。
(付記26)
前記取得ステップにおいて、発生確率が高いシチュエーション、及びそのシチュエーションの対象となる動作のクラス表すヒント情報を取得し、
前記拡張処理ステップにおいて、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対して、前記ヒント情報に示されているシチュエーションを再現できる加工処理を行うことにより、前記拡張時系列データを生成する、付記21から25いずれか1項に記載のコンピュータ可読媒体。
(付記27)
前記ヒント情報は、動作の欠落というシチュエーションについて、その動作のクラスを示しており、
前記拡張処理ステップにおいて、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対し、前記削除処理を行うことで、前記拡張時系列データを生成する、付記26に記載のコンピュータ可読媒体。
(付記28)
前記ヒント情報は、動作の実際の時間長が理想の時間長から乖離するというシチュエーションについて、その動作のクラスを示しており、
前記拡張処理ステップにおいて、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データについて、前記長さ変更処理を行うことで、前記拡張時系列データを生成する、付記26に記載のコンピュータ可読媒体。
(付記29)
前記ヒント情報は、動作の実際の時間位置が理想の時間位置から乖離するというシチュエーションについて、その動作のクラスを示しており、
前記拡張処理ステップにおいて、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対し、前記位置変更処理を行うことで、前記拡張時系列データを生成する、付記26に記載のコンピュータ可読媒体。
(付記30)
前記ソース時系列データはビデオデータであり、
前記フレームが属するクラスは、そのフレームに撮像されている作業の種類を表す、付記21から29いずれか一項に記載のコンピュータ可読媒体。
10 ソース時系列データ
12 フレーム
20 部分時系列データ
30 拡張時系列データ
40 対象時系列データ
50 時間範囲
60 時間範囲
70 時間範囲
200 テーブル
202 フレーム識別情報
204 クラス識別情報
300 テーブル
302 先頭フレーム識別情報
304 末尾フレーム識別情報
306 クラス識別情報
500 コンピュータ
502 バス
504 プロセッサ
506 メモリ
508 ストレージデバイス
510 入出力インタフェース
512 ネットワークインタフェース
2000 データ拡張装置
2020 取得部
2040 拡張処理部
12 フレーム
20 部分時系列データ
30 拡張時系列データ
40 対象時系列データ
50 時間範囲
60 時間範囲
70 時間範囲
200 テーブル
202 フレーム識別情報
204 クラス識別情報
300 テーブル
302 先頭フレーム識別情報
304 末尾フレーム識別情報
306 クラス識別情報
500 コンピュータ
502 バス
504 プロセッサ
506 メモリ
508 ストレージデバイス
510 入出力インタフェース
512 ネットワークインタフェース
2000 データ拡張装置
2020 取得部
2040 拡張処理部
Claims (30)
- 時系列の複数のフレームで構成されるソース時系列データを取得する取得手段と、
前記ソース時系列データの中にあり、かつ、互いに同一のクラスに属する複数の連続するフレームで構成される1つ以上の対象時系列データに対して、前記対象時系列データを削除する削除処理、前記対象時系列データの長さを変える長さ変更処理、又は前記対象時系列データの時間軸上の位置を変更する位置変更処理を実行することで、前記ソース時系列データから拡張時系列データを生成する拡張処理手段と、を有し、
前記ソース時系列データは、互いに異なるクラスに属する複数のフレームを含む、データ拡張装置。 - 前記長さ変更処理は、
前記対象時系列データに含まれる1つ以上のフレームをコピーすることで、前記対象時系列データを長くする処理であるか、又は、
前記対象時系列データに含まれる1つ以上のフレームを削除することで、前記対象時系列データを短くする処理である、請求項1に記載のデータ拡張装置。 - 前記長さ変更処理は、前記拡張時系列データにおいて、前記対象時系列データの一部又は全てが繰り返されるようにすることで、前記対象時系列データを長くする処理である、請求項2に記載のデータ拡張装置。
- 前記長さ変更処理は、前記対象時系列データの中から、その内容が周期的に変化する時間範囲を検出し、前記拡張時系列データにおいて、前記検出した時間範囲に含まれる前記フレームの列が繰り返されるようにすることで、前記対象時系列データを長くする処理である、請求項3に記載のデータ拡張装置。
- 前記位置変更処理は、2つの前記対象時系列データの位置を入れ替えることにより、前記対象時系列データの位置を変更する処理である、請求項1に記載のデータ拡張装置。
- 前記取得手段は、発生確率が高いシチュエーション、及びそのシチュエーションの対象となる動作のクラス表すヒント情報を取得し、
前記拡張処理手段は、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対して、前記ヒント情報に示されているシチュエーションを再現できる加工処理を行うことにより、前記拡張時系列データを生成する、請求項1から5いずれか1項に記載のデータ拡張装置。 - 前記ヒント情報は、動作の欠落というシチュエーションについて、その動作のクラスを示しており、
前記拡張処理手段は、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対し、前記削除処理を行うことで、前記拡張時系列データを生成する、請求項6に記載のデータ拡張装置。 - 前記ヒント情報は、動作の実際の時間長が理想の時間長から乖離するというシチュエーションについて、その動作のクラスを示しており、
前記拡張処理手段は、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データについて、前記長さ変更処理を行うことで、前記拡張時系列データを生成する、請求項6に記載のデータ拡張装置。 - 前記ヒント情報は、動作の実際の時間位置が理想の時間位置から乖離するというシチュエーションについて、その動作のクラスを示しており、
前記拡張処理手段は、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対し、前記位置変更処理を行うことで、前記拡張時系列データを生成する、請求項6に記載のデータ拡張装置。 - 前記ソース時系列データはビデオデータであり、
前記フレームが属するクラスは、そのフレームに撮像されている作業の種類を表す、請求項1から9いずれか一項に記載のデータ拡張装置。 - コンピュータによって実行されるデータ拡張方法であって、
時系列の複数のフレームで構成されるソース時系列データを取得する取得ステップと、
前記ソース時系列データの中にあり、かつ、互いに同一のクラスに属する複数の連続するフレームで構成される1つ以上の対象時系列データに対して、前記対象時系列データを削除する削除処理、前記対象時系列データの長さを変える長さ変更処理、又は前記対象時系列データの時間軸上の位置を変更する位置変更処理を実行することで、前記ソース時系列データから拡張時系列データを生成する拡張処理ステップと、を有し、
前記ソース時系列データは、互いに異なるクラスに属する複数のフレームを含む、データ拡張方法。 - 前記長さ変更処理は、
前記対象時系列データに含まれる1つ以上のフレームをコピーすることで、前記対象時系列データを長くする処理であるか、又は、
前記対象時系列データに含まれる1つ以上のフレームを削除することで、前記対象時系列データを短くする処理である、請求項11に記載のデータ拡張方法。 - 前記長さ変更処理は、前記拡張時系列データにおいて、前記対象時系列データの一部又は全てが繰り返されるようにすることで、前記対象時系列データを長くする処理である、請求項12に記載のデータ拡張方法。
- 前記長さ変更処理は、前記対象時系列データの中から、その内容が周期的に変化する時間範囲を検出し、前記拡張時系列データにおいて、前記検出した時間範囲に含まれる前記フレームの列が繰り返されるようにすることで、前記対象時系列データを長くする処理である、請求項13に記載のデータ拡張方法。
- 前記位置変更処理は、2つの前記対象時系列データの位置を入れ替えることにより、前記対象時系列データの位置を変更する処理である、請求項11に記載のデータ拡張方法。
- 前記取得ステップにおいて、発生確率が高いシチュエーション、及びそのシチュエーションの対象となる動作のクラス表すヒント情報を取得し、
前記拡張処理ステップにおいて、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対して、前記ヒント情報に示されているシチュエーションを再現できる加工処理を行うことにより、前記拡張時系列データを生成する、請求項11から15いずれか1項に記載のデータ拡張方法。 - 前記ヒント情報は、動作の欠落というシチュエーションについて、その動作のクラスを示しており、
前記拡張処理ステップにおいて、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対し、前記削除処理を行うことで、前記拡張時系列データを生成する、請求項16に記載のデータ拡張方法。 - 前記ヒント情報は、動作の実際の時間長が理想の時間長から乖離するというシチュエーションについて、その動作のクラスを示しており、
前記拡張処理ステップにおいて、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データについて、前記長さ変更処理を行うことで、前記拡張時系列データを生成する、請求項16に記載のデータ拡張方法。 - 前記ヒント情報は、動作の実際の時間位置が理想の時間位置から乖離するというシチュエーションについて、その動作のクラスを示しており、
前記拡張処理ステップにおいて、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対し、前記位置変更処理を行うことで、前記拡張時系列データを生成する、請求項16に記載のデータ拡張方法。 - 前記ソース時系列データはビデオデータであり、
前記フレームが属するクラスは、そのフレームに撮像されている作業の種類を表す、請求項11から19いずれか一項に記載のデータ拡張方法。 - 時系列の複数のフレームで構成されるソース時系列データを取得する取得ステップと、
前記ソース時系列データの中にあり、かつ、互いに同一のクラスに属する複数の連続するフレームで構成される1つ以上の対象時系列データに対して、前記対象時系列データを削除する削除処理、前記対象時系列データの長さを変える長さ変更処理、又は前記対象時系列データの時間軸上の位置を変更する位置変更処理を実行することで、前記ソース時系列データから拡張時系列データを生成する拡張処理ステップと、をコンピュータに実行させるプログラムが格納されており、
前記ソース時系列データは、互いに異なるクラスに属する複数のフレームを含む、非一時的なコンピュータ可読媒体。 - 前記長さ変更処理は、
前記対象時系列データに含まれる1つ以上のフレームをコピーすることで、前記対象時系列データを長くする処理であるか、又は、
前記対象時系列データに含まれる1つ以上のフレームを削除することで、前記対象時系列データを短くする処理である、請求項21に記載のコンピュータ可読媒体。 - 前記長さ変更処理は、前記拡張時系列データにおいて、前記対象時系列データの一部又は全てが繰り返されるようにすることで、前記対象時系列データを長くする処理である、請求項22に記載のコンピュータ可読媒体。
- 前記長さ変更処理は、前記対象時系列データの中から、その内容が周期的に変化する時間範囲を検出し、前記拡張時系列データにおいて、前記検出した時間範囲に含まれる前記フレームの列が繰り返されるようにすることで、前記対象時系列データを長くする処理である、請求項23に記載のコンピュータ可読媒体。
- 前記位置変更処理は、2つの前記対象時系列データの位置を入れ替えることにより、前記対象時系列データの位置を変更する処理である、請求項21に記載のコンピュータ可読媒体。
- 前記取得ステップにおいて、発生確率が高いシチュエーション、及びそのシチュエーションの対象となる動作のクラス表すヒント情報を取得し、
前記拡張処理ステップにおいて、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対して、前記ヒント情報に示されているシチュエーションを再現できる加工処理を行うことにより、前記拡張時系列データを生成する、請求項21から25いずれか1項に記載のコンピュータ可読媒体。 - 前記ヒント情報は、動作の欠落というシチュエーションについて、その動作のクラスを示しており、
前記拡張処理ステップにおいて、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対し、前記削除処理を行うことで、前記拡張時系列データを生成する、請求項26に記載のコンピュータ可読媒体。 - 前記ヒント情報は、動作の実際の時間長が理想の時間長から乖離するというシチュエーションについて、その動作のクラスを示しており、
前記拡張処理ステップにおいて、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データについて、前記長さ変更処理を行うことで、前記拡張時系列データを生成する、請求項26に記載のコンピュータ可読媒体。 - 前記ヒント情報は、動作の実際の時間位置が理想の時間位置から乖離するというシチュエーションについて、その動作のクラスを示しており、
前記拡張処理ステップにおいて、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対し、前記位置変更処理を行うことで、前記拡張時系列データを生成する、請求項26に記載のコンピュータ可読媒体。 - 前記ソース時系列データはビデオデータであり、
前記フレームが属するクラスは、そのフレームに撮像されている作業の種類を表す、請求項21から29いずれか一項に記載のコンピュータ可読媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023575006A JPWO2023139760A5 (ja) | 2022-01-21 | データ拡張装置、データ拡張方法、及びプログラム | |
PCT/JP2022/002224 WO2023139760A1 (ja) | 2022-01-21 | 2022-01-21 | データ拡張装置、データ拡張方法、及び非一時的なコンピュータ可読媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2022/002224 WO2023139760A1 (ja) | 2022-01-21 | 2022-01-21 | データ拡張装置、データ拡張方法、及び非一時的なコンピュータ可読媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023139760A1 true WO2023139760A1 (ja) | 2023-07-27 |
Family
ID=87348460
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2022/002224 WO2023139760A1 (ja) | 2022-01-21 | 2022-01-21 | データ拡張装置、データ拡張方法、及び非一時的なコンピュータ可読媒体 |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2023139760A1 (ja) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005269510A (ja) * | 2004-03-22 | 2005-09-29 | Seiko Epson Corp | ダイジェスト画像データの生成 |
WO2020070876A1 (ja) * | 2018-10-05 | 2020-04-09 | 日本電気株式会社 | 教師データ拡張装置、教師データ拡張方法およびプログラム |
WO2020178936A1 (ja) * | 2019-03-04 | 2020-09-10 | 株式会社トランストロン | ニューラルネットワークモデルの生成方法、及びニューラルネットワークモデルを用いた制御装置 |
WO2021059388A1 (ja) * | 2019-09-25 | 2021-04-01 | 日本電信電話株式会社 | 学習装置、画像処理装置、学習方法及び学習プログラム |
WO2021079507A1 (ja) * | 2019-10-25 | 2021-04-29 | 日本電信電話株式会社 | データ拡張装置、方法及びプログラム |
JP2021179790A (ja) * | 2020-05-13 | 2021-11-18 | 富士電機株式会社 | 画像生成装置、画像生成方法及びプログラム |
-
2022
- 2022-01-21 WO PCT/JP2022/002224 patent/WO2023139760A1/ja unknown
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005269510A (ja) * | 2004-03-22 | 2005-09-29 | Seiko Epson Corp | ダイジェスト画像データの生成 |
WO2020070876A1 (ja) * | 2018-10-05 | 2020-04-09 | 日本電気株式会社 | 教師データ拡張装置、教師データ拡張方法およびプログラム |
WO2020178936A1 (ja) * | 2019-03-04 | 2020-09-10 | 株式会社トランストロン | ニューラルネットワークモデルの生成方法、及びニューラルネットワークモデルを用いた制御装置 |
WO2021059388A1 (ja) * | 2019-09-25 | 2021-04-01 | 日本電信電話株式会社 | 学習装置、画像処理装置、学習方法及び学習プログラム |
WO2021079507A1 (ja) * | 2019-10-25 | 2021-04-29 | 日本電信電話株式会社 | データ拡張装置、方法及びプログラム |
JP2021179790A (ja) * | 2020-05-13 | 2021-11-18 | 富士電機株式会社 | 画像生成装置、画像生成方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JPWO2023139760A1 (ja) | 2023-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4241709B2 (ja) | 画像処理装置 | |
US20160092561A1 (en) | Video analysis techniques for improved editing, navigation, and summarization | |
US10600190B2 (en) | Object detection and tracking method and system for a video | |
JP6641949B2 (ja) | ユーザインタラクションを検出、分類及び可視化する方法、システム及びプログラム | |
KR101484844B1 (ko) | 실시간 영상에 프라이버시 마스킹 툴을 제공하는 장치 및 방법 | |
CN112954455B (zh) | 一种字幕跟踪方法、装置及电子设备 | |
JPWO2016170618A1 (ja) | 自動試験装置 | |
KR20220126264A (ko) | 비디오 흔들림 검출 방법, 장치, 전자 기기 및 저장 매체 | |
US10614336B2 (en) | Method, system, and computer-readable recording medium for image-based object tracking | |
JP2006244074A (ja) | 動物体アップフレーム検出方法及びプログラム及びプログラムを格納した記憶媒体及び動物体アップショット検出方法及び動物体アップフレームあるいはショット検出方法及びプログラム及びプログラムを格納した記憶媒体 | |
US10129457B2 (en) | Control apparatus, method of controlling shooting apparatus, and computer-readable storage medium | |
JP2008299834A (ja) | 被写体追跡プログラム、および被写体追跡装置 | |
WO2023139760A1 (ja) | データ拡張装置、データ拡張方法、及び非一時的なコンピュータ可読媒体 | |
JP3989530B1 (ja) | 記録装置と記録装置のためのプログラム | |
JP6393495B2 (ja) | 画像処理装置および物体認識方法 | |
JP4513904B2 (ja) | 画像処理装置および方法、並びにプログラム | |
US20200258550A1 (en) | Moving image reproduction apparatus, moving image reproduction method, moving image reproduction system, and storage medium | |
JP6809731B1 (ja) | ビデオ信号処理システムおよびビデオ信号処理方法 | |
JP4449483B2 (ja) | 画像解析装置、および画像解析方法、並びにコンピュータ・プログラム | |
JP5082732B2 (ja) | 映像処理装置、表示制御方法およびプログラム | |
JP2008020944A (ja) | 画像処理方法、プログラムおよび装置 | |
KR101174176B1 (ko) | 동영상 샘플링 방법 및 시스템 | |
JP4429349B2 (ja) | 記録装置と記録装置のためのプログラム | |
US20200293785A1 (en) | Information processing apparatus, information processing method, and medium | |
JP2004336808A (ja) | 映像の検索方法および装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22921917 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2023575006 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |