WO2023139760A1 - データ拡張装置、データ拡張方法、及び非一時的なコンピュータ可読媒体 - Google Patents
データ拡張装置、データ拡張方法、及び非一時的なコンピュータ可読媒体 Download PDFInfo
- Publication number
- WO2023139760A1 WO2023139760A1 PCT/JP2022/002224 JP2022002224W WO2023139760A1 WO 2023139760 A1 WO2023139760 A1 WO 2023139760A1 JP 2022002224 W JP2022002224 W JP 2022002224W WO 2023139760 A1 WO2023139760 A1 WO 2023139760A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- series data
- time
- data
- target time
- class
- Prior art date
Links
- 238000013434 data augmentation Methods 0.000 title claims abstract description 12
- 238000000034 method Methods 0.000 title claims description 173
- 238000012545 processing Methods 0.000 claims abstract description 209
- 230000008859 change Effects 0.000 claims abstract description 90
- 238000012217 deletion Methods 0.000 claims abstract description 30
- 230000037430 deletion Effects 0.000 claims abstract description 30
- 230000008569 process Effects 0.000 claims description 116
- 230000009471 action Effects 0.000 claims description 53
- 238000004904 shortening Methods 0.000 claims description 9
- 230000004048 modification Effects 0.000 claims 1
- 238000012986 modification Methods 0.000 claims 1
- 230000003190 augmentative effect Effects 0.000 abstract 1
- 238000012549 training Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 16
- 230000033001 locomotion Effects 0.000 description 11
- 238000011946 reduction process Methods 0.000 description 8
- 230000002159 abnormal effect Effects 0.000 description 5
- 239000010749 BS 2869 Class C1 Substances 0.000 description 3
- 239000010750 BS 2869 Class C2 Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 239000004606 Fillers/Extenders Substances 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/91—Television signal processing therefor
Definitions
- This disclosure relates to data extension of time-series data.
- Non-Patent Document 1 discloses a technique for increasing training data by performing data augmentation on video data prepared as training data for training a discrimination model that classifies input video data.
- Non-Patent Document 1 assumes that class identification is performed for all video data input to the model (in other words, one class is assigned to all video data input to the model).
- the present disclosure has been made in view of this problem, and one of its purposes is to provide a new technique for extending time-series data.
- the data expansion device of the present disclosure includes acquisition means for acquiring source time-series data composed of a plurality of time-series frames, and one or more target time-series data composed of a plurality of continuous frames belonging to the same class in the source time-series data.
- acquisition means for acquiring source time-series data composed of a plurality of time-series frames, and one or more target time-series data composed of a plurality of continuous frames belonging to the same class in the source time-series data.
- the data augmentation method of the present disclosure is executed by a computer.
- the method includes an acquisition step of acquiring source time-series data composed of a plurality of time-series frames, and an extension processing step of generating extended time-series data from the source time-series data by performing a deletion process of deleting the target time-series data, a length change process of changing the length of the target time-series data, or a position change process of changing the position of the target time-series data on a time axis, for one or more target time-series data composed of a plurality of continuous frames belonging to the same class. and have
- the source time-series data includes a plurality of frames belonging to different classes.
- the non-transitory computer-readable medium of the present disclosure stores a program that causes a computer to execute the data expansion method of the present disclosure.
- a new technology for extending time-series data is provided.
- FIG. 11 is a first diagram illustrating deletion processing
- FIG. 10 is a second diagram illustrating deletion processing
- predetermined values such as predetermined values and threshold values are stored in advance in a storage device or the like that can be accessed from a device that uses the values.
- the storage unit is composed of one or more arbitrary number of storage devices.
- FIG. 1 is a diagram illustrating source time-series data 10 handled by the data extension device of the embodiment.
- the source time-series data 10 consists of a plurality of time-series frames 12 .
- the source time series data 10 can also be said to be a data string in which the frames 12 are arranged in time series.
- the source time-series data 10 is video data.
- Video data is time-series data in which a plurality of video frames are arranged in order (in ascending order of frame numbers). Therefore, if the source time-series data 10 is video data, the frames 12 are video frames that make up the video data.
- Each frame 12 belongs to one of a plurality of classes.
- a plurality of partial time series data 20 are included in the source time series data 10 .
- the partial time-series data 20 is time-series data composed of a plurality of consecutive frames 12 belonging to the same class.
- the source time-series data 10 in FIG. 1 has, in this order, partial time-series data 20-1 composed of multiple frames 12 belonging to class C1, partial time-series data 20-2 composed of multiple frames 12 belonging to class C2, and partial time-series data 20-3 composed of multiple frames 12 belonging to class C3.
- time-series data composed of a plurality of frames 12 belonging to class C will also be referred to as "time-series data belonging to class C".
- the source time-series data 10 includes at least two partial time-series data 20 belonging to different classes.
- the source time-series data 10 may contain two or more partial time-series data 20 belonging to the same class.
- the partial time series data 20-1 and partial time series data 20-3 may belong to class C1
- the partial time series data 20-2 may belong to class C2.
- a class represents the content of the partial time-series data 20 (eg, the scene or situation represented by the partial time-series data 20).
- the source time-series data 10 can be divided into three partial time-series data 20: partial time-series data 20 containing the state of work in process P1, partial time-series data 20 containing the state of work in process P2, and partial time-series data 20 containing the state of work in process P3.
- the type of source time-series data 10 is not limited to video data.
- the source time-series data 10 may be voice data.
- the source time-series data 10 may be sensing data representing results of sensing repeatedly performed by an arbitrary sensor (eg, a three-dimensional acceleration sensor).
- FIG. 2 is a diagram illustrating an overview of the operation of the data extension device 2000 of the embodiment.
- FIG. 2 is a diagram for facilitating understanding of the outline of the data expansion device 2000, and the operation of the data expansion device 2000 is not limited to that shown in FIG.
- the data extension device 2000 generates extended time-series data 30 different from the source time-series data 10 by processing at least one partial time-series data 20 included in the source time-series data 10 . This realizes data expansion.
- target time-series data among the partial time-series data 20 included in the source time-series data 10, the one to be processed is referred to as "target time-series data”.
- the processing performed on the source time-series data 10 includes, for example, 1) deletion processing, 2) length change processing, or 3) position change processing.
- the processing includes 1), 2), or 3)" means that the processing may include a combination of two or more of 1) to 3).
- the deletion process is the process of deleting the target time-series data. That is, the extended time-series data 30 does not include the target time-series data to be deleted.
- Length change processing is processing for changing the length on the time axis of the target time-series data. Therefore, the number of frames 12 included in the target time-series data after processing is different from the number of frames 12 included in the target time-series data before processing.
- Position change processing is processing for changing the position of the target time-series data on the time axis. Therefore, the position on the time axis of the target time series data in the extended time series data 30 is different from the position on the time axis of the target time series data in the source time series data 10 .
- processing processing such as "after performing length change processing for changing the length of either or both of the two target time-series data, perform position change processing for exchanging these positions" can be considered.
- these multiple types of processing may be performed on the same target time-series data, or may be performed on different target time-series data.
- the position change processing for changing the position of the partial time-series data 20-1 is performed.
- the position change process of changing the position of the partial time-series data 20-2 is performed.
- extended time-series data 30 is generated by processing one or more partial time-series data 20 included in the source time-series data 10 .
- the source time-series data 10 includes a plurality of partial time-series data 20 belonging to different classes. Therefore, according to the data extension device 2000, it is possible to generate time-series data including a plurality of partial time-series data 20 belonging to different classes by data extension.
- Such data extension is useful, for example, for training a discriminator that identifies the class of each frame that constitutes time-series data in response to input of time-series data.
- a discriminator that discriminates the class of each video frame according to the input of video data can be considered.
- the training data used for training such discriminators indicates time-series data as input data, and indicates the class of each frame included in the time-series data as ground-truth data.
- the data expansion device 2000 of this embodiment In order to obtain a discriminator with high discrimination accuracy, it is preferable to train the discriminator using a large amount of training data. However, it takes time and effort to prepare a large amount of training data. In this respect, if the data expansion device 2000 of this embodiment is used, the amount of training data can be increased by data expansion. As a result, the labor and time required to prepare training data can be reduced, and a large amount of training data can be prepared more easily.
- time-series data representing a normal situation can be acquired as the source time-series data 10 and processed to generate extended time-series data 30 representing an abnormal situation.
- time-series data representing abnormal work from video data recording normal work. Therefore, according to the data expansion device 2000, variations of training data can be easily increased.
- the data extension device 2000 of this embodiment will be described in more detail below.
- FIG. 3 is a block diagram illustrating the functional configuration of the data extension device 2000 of the embodiment.
- the data extension device 2000 has an acquisition section 2020 and an extension processing section 2040 .
- the acquisition unit 2020 acquires the source time-series data 10 .
- the extension processing unit 2040 generates extended time-series data 30 from the source time-series data 10 by processing one or more target time-series data included in the source time-series data 10 .
- Each functional component of the data extension device 2000 may be realized by hardware that implements each functional component (e.g., hardwired electronic circuit, etc.), or may be realized by a combination of hardware and software (e.g., an electronic circuit and a program that controls it, etc.). A case where each functional component of the data expansion device 2000 is implemented by a combination of hardware and software will be further described below.
- FIG. 4 is a block diagram illustrating the hardware configuration of the computer 500 that implements the data expansion device 2000.
- Computer 500 is any computer.
- the computer 500 is a stationary computer such as a PC (Personal Computer) or a server machine.
- the computer 500 is a portable computer such as a smart phone or a tablet terminal.
- the computer 500 may be a dedicated computer designed to implement the data expansion device 2000, or a general-purpose computer.
- each function of the data expansion device 2000 is realized on the computer 500.
- the application is composed of a program for realizing each functional component of the data expansion device 2000 .
- the acquisition method of the above program is arbitrary.
- the program can be acquired from a storage medium (DVD disc, USB memory, etc.) in which the program is stored.
- the program can be obtained by downloading the program from a server device that manages the storage device in which the program is stored.
- Computer 500 has bus 502 , processor 504 , memory 506 , storage device 508 , input/output interface 510 and network interface 512 .
- the bus 502 is a data transmission path through which the processor 504, memory 506, storage device 508, input/output interface 510, and network interface 512 exchange data with each other.
- the method of connecting the processors 504 and the like to each other is not limited to bus connection.
- the processor 504 is various processors such as a CPU (Central Processing Unit), GPU (Graphics Processing Unit), or FPGA (Field-Programmable Gate Array).
- the memory 506 is a main memory implemented using a RAM (Random Access Memory) or the like.
- the storage device 508 is an auxiliary storage device implemented using a hard disk, SSD (Solid State Drive), memory card, ROM (Read Only Memory), or the like.
- the input/output interface 510 is an interface for connecting the computer 500 and input/output devices.
- the input/output interface 510 is connected to an input device such as a keyboard and an output device such as a display device.
- a network interface 512 is an interface for connecting the computer 500 to a network.
- This network may be a LAN (Local Area Network) or a WAN (Wide Area Network).
- the storage device 508 stores a program that implements each functional component of the data expansion device 2000 (a program that implements the application described above).
- the processor 504 implements each functional component of the data extension device 2000 by reading this program into the memory 506 and executing it.
- the data expansion device 2000 may be realized by one computer 500 or may be realized by a plurality of computers 500. In the latter case, the configuration of each computer 500 need not be the same, and can be different.
- FIG. 5 is a flowchart illustrating the flow of processing executed by the data extension device 2000 of the embodiment.
- the acquisition unit 2020 acquires the source time-series data 10 (S102).
- the extension processing unit 2040 generates extended time-series data 30 by processing one or more pieces of target time-series data (S104).
- the acquisition unit 2020 acquires the source time-series data 10 .
- various methods can be adopted as a method of acquiring time-series data to be processed.
- the source time-series data 10 is stored in advance in an arbitrary storage device in a form that can be obtained from the data extension device 2000 .
- the acquisition unit 2020 acquires the source time-series data 10 by reading the source time-series data 10 from the storage device.
- the acquisition unit 2020 acquires the source time-series data 10 by receiving the source time-series data 10 transmitted from another device.
- a device that transmits the source time-series data 10 is, for example, a device that generated the source time-series data 10 .
- the acquisition unit 2020 acquires the source time-series data 10 from the video camera that generated the source time-series data 10, for example.
- the data expansion device 2000 needs to be able to identify the class to which each partial time series data 20 belongs. Therefore, for example, the data expansion device 2000 acquires information (hereinafter referred to as class information) indicating the class to which each partial time series data 20 belongs.
- class information information indicating the class to which each partial time series data 20 belongs.
- the class information indicates, for each frame 12 included in the source time-series data 10, the correspondence between the identification information (for example, frame number) and the identification information of the class to which the frame 12 belongs.
- the class information may indicate identification information of either or both of the leading frame 12 and the trailing frame 12 for each partial time-series data 20 included in the source time-series data 10 .
- FIG. 6 is a diagram exemplifying class information in a table format.
- Table 200 indicates, for each frame 12, the class to which that frame 12 belongs. More specifically, the identification information of the class to which the frame 12 belongs (class identification information 204) is shown in association with the identification information of the frame 12 (frame identification information 202).
- the table 300 shows, for each partial time series data 20, the class to which the partial time series data 20 belongs. More specifically, for the partial time-series data 20, the identification information (class identification information 306) of the class to which the partial time-series data 20 belongs is shown in association with the combination of the identification information of the leading frame 12 (leading frame identification information 302) and the identification information of the trailing frame 12 (end frame identification information 304).
- the class information may be information integrated with the source time-series data 10 or may be information separate from the source time-series data 10 .
- identification information of the class to which the frame 12 belongs is added as metadata.
- the acquisition unit 2020 further acquires class information about the source time-series data 10 in addition to the source time-series data 10 .
- the method of obtaining class information is the same as the method of obtaining the source time-series data 10 .
- the extension processing unit 2040 processes one or more pieces of target time-series data (S104).
- the processing includes 1) deletion processing, 2) length change processing, or 3) position change processing. Each of 1) to 3) will be described below. A method for determining the processing to be executed and a method for determining target time-series data to be processed will be described later.
- the deletion process is a process for generating extended time-series data 30 by removing the target time-series data from the source time-series data 10 .
- FIG. 7 is a first diagram illustrating deletion processing.
- the partial time-series data 20-2 is treated as target time-series data. Therefore, by removing the partial time-series data 20-2 from the source time-series data 10, the extended time-series data 30 is generated.
- FIG. 8 is a second diagram illustrating deletion processing.
- the partial time-series data 20-2 is deleted.
- the last m frames of the partial time-series data 20-1 before the partial time-series data 20-2 and the first m frames of the partial time-series data 20-3 after the partial time-series data 20-2 are superimposed on each other.
- the end of the partial time-series data 20 in the front may be faded out, and the beginning of the partial time-series data 20 in the rear may be faded in. This makes the connection of these two partial time-series data 20 more natural.
- the extension processing unit 2040 generates class information for the extended time-series data 30 based on the class information for the source time-series data 10 and the processing performed on the source time-series data 10 .
- deletion processing for example, the extension processing unit 2040 generates class information of the extended time-series data 30 by deleting information related to the deleted partial time-series data 20 from the class information of the source time-series data 10. Note that when class information is added to the frame 12, deleting the partial time-series data 20 also deletes the class information at the same time.
- the expansion processing unit 2040 determines the class of each frame 12 newly generated by the superposition.
- the class of the new frame 12 is set to the class of the frame 12 with the higher opacity of the two superimposed frames 12 .
- the frame 12 of class C1 is set to opacity D1
- the frame 12 of class C2 is set to opacity D2, and these are superimposed.
- D1 ⁇ D2 the class of the new frame 12 is set to C2.
- the length change process is a process of changing the length of the target time-series data on the time axis.
- the process of changing the length of the target time-series data is roughly divided into the process of lengthening the target time-series data and the process of shortening the target time-series data. Each of these will be described below.
- the extension processing unit 2040 lengthens the length of the target time-series data by performing processing for slowing down the flow of time (hereinafter referred to as speed-reduction processing) for part or all of the target time-series data.
- speed-reduction processing processing for slowing down the flow of time
- any method used for slow playback of video or audio can be adopted.
- FIG. 9 is a diagram exemplifying the speed reduction process.
- the expansion processing unit 2040 may insert between two frames 12 adjacent to each other a frame 12 representing the middle of the two (for example, a frame 12 obtained by averaging the two frames 12). This processing can be realized by frame interpolation processing.
- the number of copies is not limited to one.
- the number of copies may be predetermined or dynamically (eg, randomly) determined.
- the extension processing unit 2040 determines the time range 50 by randomly selecting the frame 12 as the starting point of the time range 50 from the target time series data 40 .
- the length of the time range 50 may be predetermined, or may be determined dynamically (for example, randomly).
- the starting point of time range 50 may be selected based on predetermined rules. For example, when a plurality of pieces of extended time-series data 30 to which different patterns of speed reduction processing are applied are generated, a method of shifting the starting point of the time range 50 by a predetermined number can be considered.
- the expansion processing unit 2040 may specify a time range in which the change between frames 12 is large from the target time-series data 40, and perform speed reduction processing on that time range. This is because it is highly probable that the contents of the time series data in the time range where the change between the frames 12 is large will not become unnatural even if the magnitude of the time change is reduced to some extent by the speed reduction process.
- the size between the frames 12 can be calculated based on the difference between the frames 12.
- the magnitude of change between frames 12 can be represented, for example, by a statistic (average, maximum, or median) of the magnitude of optical flow. More specifically, for example, the extension processing unit 2040 divides the target time-series data 40 into time ranges of a predetermined length, and calculates the statistical value of the magnitude of change in a plurality of frames 12 included in each time range. Then, the extension processing unit 2040 treats the time range in which the statistical value of the magnitude of change is equal to or greater than the threshold as the time range 50 targeted for the speed reduction process.
- the slowing process may be performed by selecting one or more frames 12 that are separated from each other and generating a copy of each selected frame 12.
- the extension processing unit 2040 randomly selects the frame 12 from the target time-series data 40 and makes it the target of the speed reduction process.
- the expansion processing unit 2040 may individually select frames 12 whose magnitude of change from the previous frame 12 is greater than or equal to a threshold from the target time-series data 40, and subject them to the slowdown processing.
- the processing for lengthening the target time-series data 40 is not limited to speed reduction processing.
- the extension processing unit 2040 may lengthen the length of the target time-series data 40 by subjecting the target time-series data 40 to processing for repeating part or all of the target time-series data 40 (hereinafter referred to as repeat processing).
- FIG. 10 is processing illustrating the repeat processing. In the example of FIG. 10, repeat processing is performed so that the portion of the time range 60 is repeated twice.
- the extension processing unit 2040 randomly selects a time range from the target time-series data 40 and performs repeat processing on that time range.
- the length of the selected time range may be predetermined or dynamically (eg, randomly) determined.
- a method of increasing the length of the selected time range by a predetermined number can be considered.
- the expansion processing unit 2040 may detect a time range having a specific meaning from the target time-series data 40 and repeat processing for that time range.
- the target time-series data 40 is video data
- the extension processing unit 2040 detects a time range representing a series of changes (for example, motion) from the target time-series data 40, and repeats the time range.
- a series of changes is, for example, a cyclical change such as an action of tightening a screw or turning a lever.
- the series of changes may be non-periodic changes such as an action of opening a door or an action of lowering a lever.
- the extension processing unit 2040 performs skeleton detection processing on each frame 12 of the target time-series data 40, and detects a time range in which the position of the skeleton periodically changes from the target time-series data 40. The extension processing unit 2040 then detects the detected time range as a time range representing a series of changes.
- the extension processing unit 2040 detects a time range in which the signal intensity etc. periodically change from the target time-series data 40, and detects the detected time range as a time range representing a series of changes.
- the expansion processing unit 2040 divides the target time-series data 40 into time ranges of a predetermined length, and performs processing for each time range to determine whether a specific event has occurred within it. Thereby, a time range in which a specific event occurs is detected from the target time-series data 40 .
- an existing technique can be used as a technique for determining whether or not a specific event is represented by the time-series data. For example, if the source time-series data 10 is video data, the event is a specific action performed by a person.
- the extension processing unit 2040 shortens the length of the target time-series data 40 by performing processing for speeding up the flow of time (hereinafter referred to as speed-up processing) for part or all of the target time-series data 40 .
- speed-up processing processing for speeding up the flow of time
- any technique used for high-speed reproduction of video or audio can be adopted.
- FIG. 11 is a diagram illustrating the acceleration process.
- one out of every two frames 12 included in the time range 70 is deleted from the target time-series data 40, thereby shortening the length of the target time-series data. This can also be expressed as "for time range 70, frames 12 have been decimated".
- the thinning ratio is not limited to “one out of two”, but can be generalized to “B out of A” (A>B). Note that the values of A and B may be predetermined, or may be determined dynamically (for example, randomly).
- the extension processing unit 2040 may shorten the length of the target time-series data 40 by deleting the entire time range 70 instead of thinning out the time range 70 .
- the extension processing unit 2040 may overlap a predetermined length of time range before and after the time range 70, as in the deletion process described above.
- a method similar to the method for determining the time range 50 targeted for the speed reduction process can be used as the method for determining the time range 70 targeted for the speed reduction process.
- the expansion processing unit 2040 when focusing on the magnitude of change between frames 12, it is preferable that the expansion processing unit 2040 subject the range where the magnitude of change is small to the high-speed processing. This is because time-series data with small changes between frames 12 has a high probability of not becoming unnatural even if the magnitude of the changes is increased to some extent by speed-up processing.
- the extension processing unit 2040 divides the target time-series data 40 into time ranges of a predetermined length, and calculates the statistic value of the magnitude of change in a plurality of frames 12 included in each time range. Then, the extension processing unit 2040 treats the range in which the statistical value of the magnitude of change is equal to or less than the threshold as the time range 70 targeted for the speed-up processing.
- speed-up processing may be performed by selecting one or more frames 12 that are separated from each other and deleting each selected frame 12.
- the expansion processing unit 2040 randomly selects the frame 12 from the target time-series data 40 and makes it the target of the speed-up processing.
- the expansion processing unit 2040 may individually select frames 12 whose magnitude of change from the previous frame 12 is equal to or less than a threshold from the target time-series data 40, and subject them to speed-up processing.
- the extension processing unit 2040 generates class information for the extended time-series data 30 based on the class information for the source time-series data 10 and the details of the length change processing performed on the source time-series data 10 .
- the extension processing part 2040 generates class information of the extended time-series data 30 so that the class of the newly generated frame 12 is the same class as the copy source frame 12.
- the extension processing unit 2040 deletes the class information about the deleted frame 12 from the class information of the source time-series data 10, thereby generating the class information of the extended time-series data 30. Note that when a new frame 12 is generated by overlaying, the extension processing unit 2040 assigns a class to that frame 12 .
- the method of assigning a class to the frame 12 generated by overlaying is as described in the deletion process.
- the position change processing is processing for changing the position of the partial time series data 20 in the target time series data 40 .
- Position change processing can be broadly classified into 1) movement processing for moving one partial time-series data 20 to another position, and 2) switch processing for exchanging the positions of two partial time-series data 20 .
- FIG. 12 is a diagram illustrating movement processing.
- the partial time series data 20-2 is moved after the partial time series data 20-4.
- the position of the partial time series data 20-2 is changed to the position after the partial time series data 20-4.
- FIG. 13 is a diagram illustrating switch processing.
- the position of the partial time series data 20-2 and the position of the partial time series data 20-4 are interchanged.
- the position change process may include a process of superimposing the beginning of the partial time-series data 20 after movement and the end of the partial time-series data 20 positioned before it, or a process of overlapping the end of the partial time-series data 20 after movement with the beginning of the partial time-series data 20 positioned after it.
- a process of superimposing the beginning of the partial time-series data 20-2 and the end of the partial time-series data 20-4, or a process of overlapping the end of the partial time-series data 20-2 and the beginning of the partial time-series data 20-5 may be performed.
- a process of superimposing the ends and heads of the partial time-series data 20 may be performed.
- the partial time series data 20-1 and the partial time series data 20-3 are adjacent to each other. Therefore, a process of overlapping the end of the partial time-series data 20-1 and the beginning of the partial time-series data 20-3 may be performed.
- the extension processing unit 2040 generates class information for the extended time-series data 30 based on the class information for the source time-series data 10 and the details of the position change processing performed on the source time-series data 10 . Specifically, the position of the partial time-series data 20 whose position has been changed between the source time-series data 10 and the extended time-series data 30 is also changed in the class information. Also, a class is assigned to the frame 12 generated by superimposition. The method of assigning a class to the frame 12 generated by overlaying is as described in the deletion process.
- the processing to be performed on the source time-series data 10 may be determined in advance, or may be arbitrarily selected from a plurality of types. Also, the number of processing operations performed on the source time-series data 10 may be one or plural. The types and number of processing treatments may be selected at random, or may be selected according to some rule. When a plurality of extended time-series data 30 are generated from the source time-series data 10, processing processes are selected in order, for example, according to a predetermined order.
- the target time-series data to be processed may be predetermined or arbitrarily selected.
- the extended time-series data 30 is time-series data that reproduces a situation with a high probability of occurrence.
- the data expansion device 2000 may acquire hint information indicating the type of situation with a high probability of occurrence and the target action of the situation, and use the hint information to determine the type and target of processing.
- extended time-series data 30 which is video data representing work performed in an erroneous procedure
- source time-series data 10 which is video data generated by shooting work performed in a normal procedure.
- the data expansion device 2000 acquires, as hint information, information indicating a work error with a high frequency of occurrence and a class of work in which the error occurs.
- the data extender 2000 can easily generate the extended time-series data 30 representing work errors with high frequency from the source time-series data 10 representing normal work.
- the situation indicated by the hint information is lack of action (forgotten work).
- the hint information indicates the class corresponding to the action that is likely to be missed (eg, the class of work that is likely to be forgotten).
- the extension processing unit 2040 detects partial time-series data 20 belonging to the class indicated by the hint information from the source time-series data 10, and deletes the partial time-series data 20.
- the situation indicated by the hint information is a situation in which the actual length of time of the action deviates from the ideal length of time (for example, work delay).
- the hint information indicates a class corresponding to an action whose actual length of time tends to deviate from the ideal length of time (for example, a class of work that tends to cause delays).
- the extension processing unit 2040 detects partial time-series data 20 belonging to the class indicated in the hint information from the source time-series data 10, and performs length change processing on the partial time-series data 20. It is preferable that the hint information further includes information indicating whether the length should be lengthened or shortened.
- the situation indicated by the hint information is a situation in which the actual time position of the action deviates from the ideal time position (for example, switching between two tasks).
- the hint information indicates a class representing a motion whose actual time position is likely to deviate from the ideal time position (for example, each class of two motions whose order is likely to be erroneously changed).
- the extension processing unit 2040 detects partial time-series data 20 belonging to the class indicated by the hint information from the source time-series data 10, and performs position change processing on the partial time-series data 20.
- the expansion processing unit 2040 detects the partial time-series data 20 corresponding to each of the two classes from the source time-series data 10, and performs switch processing on the detected two partial time-series data 20.
- the acquisition unit 2020 further acquires hint information.
- the method of acquiring hint information is the same as the method of acquiring the source time-series data 10 .
- the hint information may be general-purpose information that does not depend on the type of source time-series data 10, or information that depends on the type of source time-series data 10 (in other words, information specialized for a specific type of source time-series data 10).
- An example of the latter is a case in which hint information is prepared for each work line, because the series of work processes performed in each work line at the work site is different, and the work errors that are likely to occur are also different.
- the acquisition unit 2020 When hint information is prepared for each type of source time-series data 10 , the acquisition unit 2020 further acquires type information indicating the type of source time-series data 10 . Then, the acquisition unit 2020 acquires hint information corresponding to the type of the source time-series data 10 indicated in the type information.
- the extension processing unit 2040 may generate both extended time-series data 30 using hint information and extended time-series data 30 not using hint information.
- the number of extended time-series data 30 generated using hint information is greater than the number of extended time-series data 30 generated without using hint information.
- the extension processing unit 2040 is configured to select whether or not to use hint information when generating each piece of extended time-series data 30 .
- the probability that the option "use hint information" is selected is higher than the probability that the option "not use hint information” is selected.
- the hint information may indicate the occurrence frequency (occurrence probability) of each event.
- the extension processing unit 2040 may increase the generation probability of the extended time-series data 30 corresponding to an event with a high occurrence frequency.
- the data extender 2000 outputs execution results.
- Information output from the data expansion device 2000 is hereinafter referred to as output information.
- the output information includes extended time series data 30 .
- the output information further includes the class information of the extended time-series data 30 .
- the output information includes multiple combinations of extended time-series data 30 and class information.
- the output mode of the output information is arbitrary.
- the data expansion device 2000 stores output information in an arbitrary storage device.
- the data expansion device 2000 may transmit output information to any device.
- the destination device is a device that uses the extended time-series data 30 to train a discriminator that identifies the class of each frame included in the time-series data.
- the program includes instructions (or software code) that, when read into a computer, cause the computer to perform one or more functions described in the embodiments.
- the program may be stored in a non-transitory computer-readable medium or a tangible storage medium.
- computer readable media or tangible storage media include random-access memory (RAM), read-only memory (ROM), flash memory, solid-state drive (SSD) or other memory technology, CD-ROM, digital versatile disc (DVD), Blu-ray disc or other optical disc storage, magnetic cassette, magnetic tape, magnetic disc storage or other magnetic storage device.
- the program may be transmitted on a transitory computer-readable medium or communication medium.
- transitory computer readable media or communication media include electrical, optical, acoustic, or other forms of propagated signals.
- (Appendix 1) a obtaining means for obtaining source time series data consisting of a plurality of frames of the time series; extending processing means for generating extended time-series data from the source time-series data by executing a deletion process for deleting the target time-series data, a length change process for changing the length of the target time-series data, or a position change process for changing the position of the target time-series data on the time axis, for one or more target time-series data composed of a plurality of consecutive frames belonging to the same class in the source time-series data;
- the data extension device wherein the source time-series data includes a plurality of frames belonging to different classes.
- the length change process includes: a process of lengthening the target time-series data by copying one or more frames included in the target time-series data; or The data expansion device according to appendix 1, wherein the process of shortening the target time-series data by deleting one or more frames included in the target time-series data.
- Appendix 3 The data extension device according to Supplementary Note 2, wherein the length change process is a process of lengthening the target time-series data by repeating part or all of the target time-series data in the extended time-series data.
- (Appendix 4) The data extension device according to appendix 3, wherein the length change process is a process for lengthening the target time-series data by detecting, from the target time-series data, a time range whose contents change periodically, and repeating the sequence of the frames included in the detected time range in the extended time-series data.
- (Appendix 5) The data expansion device according to appendix 1, wherein the position change processing is processing for changing the position of the target time-series data by exchanging the positions of the two target time-series data.
- the acquisition means acquires a situation with a high probability of occurrence and hint information representing a class of actions targeted by the situation, 6.
- the data expansion device according to any one of Appendices 1 to 5, wherein the expansion processing means generates the expanded time-series data by processing the target time-series data composed of the frames belonging to the class indicated in the hint information so as to reproduce the situation indicated in the hint information.
- the hint information indicates the class of action for the situation of lack of action, 6.
- the data expansion device according to appendix 6, wherein the expansion processing means generates the expanded time-series data by performing the deletion process on the target time-series data composed of the frames belonging to the class indicated in the hint information.
- the hint information indicates the class of the action for a situation in which the actual time length of the action deviates from the ideal time length
- the data extension device according to appendix 6, wherein the extension processing means generates the extended time-series data by performing the length change processing on the target time-series data composed of the frames belonging to the class indicated in the hint information.
- the hint information indicates the class of the action for a situation in which the actual time position of the action deviates from the ideal time position
- the data expansion device according to appendix 6, wherein the expansion processing means generates the expanded time-series data by performing the position change processing on the target time-series data composed of the frames belonging to the class indicated in the hint information.
- a computer implemented data augmentation method comprising: an acquisition step for acquiring source time series data consisting of multiple frames of the time series; an expansion processing step of generating extended time-series data from the source time-series data by executing deletion processing for deleting the target time-series data, length change processing for changing the length of the target time-series data, or position change processing for changing the position of the target time-series data on the time axis, for one or more target time-series data composed of a plurality of continuous frames belonging to the same class in the source time-series data;
- the data extension method wherein the source time-series data includes a plurality of frames belonging to different classes.
- the length change process includes: a process of lengthening the target time-series data by copying one or more frames included in the target time-series data; or 12.
- (Appendix 13) 13 13.
- the data extension method according to any one of Appendices 11 to 15, wherein, in the extension processing step, the extended time-series data is generated by performing processing to reproduce the situation indicated in the hint information on the target time-series data composed of the frames belonging to the class indicated in the hint information.
- the hint information indicates the class of action for the situation of lack of action, 17.
- the data extension method according to appendix 16, wherein in the extension processing step, the extended time-series data is generated by performing the deletion processing on the target time-series data composed of the frames belonging to the class indicated in the hint information.
- the hint information indicates the class of the action for a situation in which the actual time length of the action deviates from the ideal time length, 17.
- the data extension method according to appendix 16 wherein in the extension processing step, the extended time-series data is generated by performing the length change processing on the target time-series data composed of the frames belonging to the class indicated in the hint information.
- the hint information indicates the class of the action for a situation in which the actual time position of the action deviates from the ideal time position, 17.
- the data extension method according to appendix 16 wherein in the extension processing step, the extended time-series data is generated by performing the position change processing on the target time-series data composed of the frames belonging to the class indicated in the hint information.
- the source time-series data is video data; 20.
- a data augmentation method according to any one of Appendixes 11 to 19, wherein the class to which the frame belongs represents the type of work imaged in that frame.
- Appendix 21 an acquisition step for acquiring source time series data consisting of multiple frames of the time series;
- a non-transitory computer-readable medium wherein the source time-series data includes a plurality of frames belonging to different classes.
- the length change process includes: a process of lengthening the target time-series data by copying one or more frames included in the target time-series data; or 22.
- Appendix 23 23.
- the computer-readable medium according to Supplementary Note 22, wherein the length change process is a process of lengthening the target time-series data by repeating part or all of the target time-series data in the extended time-series data.
- Appendix 24 The computer-readable medium according to Appendix 23, wherein the length changing process is a process for lengthening the target time-series data by detecting, from the target time-series data, a time range whose contents change periodically, and repeating the sequence of frames included in the detected time range in the extended time-series data.
- Appendix 25 22. The computer-readable medium according to appendix 21, wherein the position changing process is a process of changing the position of the target time-series data by exchanging the positions of the two target time-series data.
- Appendix 26 In the obtaining step, obtaining hint information representing a class of a situation with a high probability of occurrence and an action targeted by the situation; 26.
- the hint information indicates the class of action for the situation of lack of action, 27.
- the hint information indicates the class of the action for a situation in which the actual time length of the action deviates from the ideal time length, 27.
- the computer-readable medium according to attachment 26 wherein in the extension processing step, the extended time-series data is generated by performing the length change processing on the target time-series data composed of the frames belonging to the class indicated in the hint information.
- the hint information indicates the class of the action for a situation in which the actual time position of the action deviates from the ideal time position, 27.
- the source time-series data is video data; 30.
- the computer-readable medium of any one of Clauses 21-29, wherein the class to which the frame belongs represents the type of work being imaged in that frame.
- source time-series data 12 frames 20 partial time-series data 30 extended time-series data 40 target time-series data 50 time range 60 time range 70 time range 200 table 202 frame identification information 204 class identification information 300 table 302 head frame identification information 304 end frame identification information 306 class identification information 500 computer 502 bus 504 processor 506 memory 508 storage device 510 input/output interface 512 network interface 2000 data expansion device 2020 acquisition unit 2040 expansion processing unit
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
Description
図1は、実施形態のデータ拡張装置によって扱われるソース時系列データ10を例示する図である。ソース時系列データ10は、時系列の複数のフレーム12で構成される。別の表現では、ソース時系列データ10は、フレーム12が時系列に並べられたデータ列とも言える。
本実施形態のデータ拡張装置2000によれば、ソース時系列データ10に含まれる1つ以上の部分時系列データ20に対して加工処理を行うことで、拡張時系列データ30が生成される。ここで、ソース時系列データ10には、それぞれ異なるクラスに属する複数の部分時系列データ20が含まれる。そのため、データ拡張装置2000によれば、データ拡張により、それぞれ異なるクラスに属する複数の部分時系列データ20が含まれる時系列データを生成することができる。
図3は、実施形態のデータ拡張装置2000の機能構成を例示するブロック図である。データ拡張装置2000は、取得部2020及び拡張処理部2040を有する。取得部2020はソース時系列データ10を取得する。拡張処理部2040は、ソース時系列データ10に含まれる1つ以上の対象時系列データに対して加工処理を行うことで、ソース時系列データ10から拡張時系列データ30を生成する。
データ拡張装置2000の各機能構成部は、各機能構成部を実現するハードウエア(例:ハードワイヤードされた電子回路など)で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ(例:電子回路とそれを制御するプログラムの組み合わせなど)で実現されてもよい。以下、データ拡張装置2000の各機能構成部がハードウエアとソフトウエアとの組み合わせで実現される場合について、さらに説明する。
図5は、実施形態のデータ拡張装置2000によって実行される処理の流れを例示するフローチャートである。取得部2020は、ソース時系列データ10を取得する(S102)。拡張処理部2040は、1つ以上の対象時系列データに対して加工処理を行うことで、拡張時系列データ30を生成する(S104)。
取得部2020は、ソース時系列データ10を取得する。ここで、処理の対象とする時系列データを取得する方法には、様々な方法を採用することができる。例えばソース時系列データ10は、データ拡張装置2000から取得可能な態様で、予め任意の記憶装置に格納されているものとする。この場合、取得部2020は、当該記憶装置からソース時系列データ10を読み出すことにより、ソース時系列データ10を取得する。
データ拡張装置2000は、各部分時系列データ20が属するクラスを特定できる必要がある。そこで例えば、データ拡張装置2000は、各部分時系列データ20が属するクラスを示す情報(以下、クラス情報)を取得する。
拡張処理部2040は、1つ以上の対象時系列データに対して加工処理を行う(S104)。加工処理は、1)削除処理、2)長さ変更処理、又は3)位置変更処理を含む。以下、1)から3)のそれぞれについて説明する。なお、実行する加工処理を決定する方法や、加工処理の対象とする対象時系列データを決定する方法については後述する。
削除処理は、ソース時系列データ10から対象時系列データを除いたものを拡張時系列データ30として生成するための処理である。図7は、削除処理を例示する第1の図である。図7では、部分時系列データ20-2が対象時系列データとして扱われている。そのため、ソース時系列データ10から部分時系列データ20-2を除くことで、拡張時系列データ30が生成されている。
長さ変更処理は、対象時系列データの時間軸上の長さを変更する処理である。対象時系列データの長さを変更する処理は、対象時系列データを長くする処理と、対象時系列データを短くする処理とに大別される。以下、それぞれについて説明する。
例えば拡張処理部2040は、対象時系列データの一部又は全てについて、時間の流れを遅くする処理(以下、低速化処理)を行うことで、対象時系列データの長さを長くする。この処理には、例えば、ビデオや音声を低速再生する際に利用される任意の手法を採用することができる。
対例えば拡張処理部2040は、対象時系列データ40の一部又は全てについて、時間の流れを速める処理(以下、高速化処理)を行うことで、対象時系列データ40の長さを短くする。この処理には、例えば、ビデオや音声を高速再生する際に利用される任意の手法を採用することができる。
位置変更処理は、対象時系列データ40における部分時系列データ20の位置を変更する処理である。位置変更処理は、1)1つの部分時系列データ20を別の位置へ移動する移動処理、及び2)2つの部分時系列データ20の位置を入れ替えるスイッチ処理に大別することができる。
ソース時系列データ10に対して行われる加工処理は、予め定められていてもよいし、複数種類の中から任意に選択されてもよい。また、ソース時系列データ10に対して行われる加工処理の数は、1つであってもよいし、複数であってもよい。なお、加工処理の種類やその数は、ランダムに選択されてもよいし、何らかのルールに従って選択されてもよい。ソース時系列データ10から複数の拡張時系列データ30が生成される場合、例えば、予め定められている順序に従って、加工処理が順に選択されていく。
拡張時系列データ30として、高い発生確率のシチュエーションが再現された時系列データが求められているとする。この場合、データ拡張装置2000は、発生確率が高いシチュエーションの種類、及びそのシチュエーションの対象となる動作を表すヒント情報を取得し、そのヒント情報を利用して加工処理の種類や対象を決定してもよい。
データ拡張装置2000は、実行結果の出力を行う。以下、データ拡張装置2000から出力される情報を、出力情報と呼ぶ。出力情報は拡張時系列データ30を含む。また、拡張時系列データ30とそれに対応するクラス情報とが別体として構成される場合、出力情報は、拡張時系列データ30のクラス情報をさらに含む。ここで、拡張時系列データ30が複数生成される場合、出力情報は、拡張時系列データ30とクラス情報との組み合わせを複数含む。
(付記1)
時系列の複数のフレームで構成されるソース時系列データを取得する取得手段と、
前記ソース時系列データの中にあり、かつ、互いに同一のクラスに属する複数の連続するフレームで構成される1つ以上の対象時系列データに対して、前記対象時系列データを削除する削除処理、前記対象時系列データの長さを変える長さ変更処理、又は前記対象時系列データの時間軸上の位置を変更する位置変更処理を実行することで、前記ソース時系列データから拡張時系列データを生成する拡張処理手段と、を有し、
前記ソース時系列データは、互いに異なるクラスに属する複数のフレームを含む、データ拡張装置。
(付記2)
前記長さ変更処理は、
前記対象時系列データに含まれる1つ以上のフレームをコピーすることで、前記対象時系列データを長くする処理であるか、又は、
前記対象時系列データに含まれる1つ以上のフレームを削除することで、前記対象時系列データを短くする処理である、付記1に記載のデータ拡張装置。
(付記3)
前記長さ変更処理は、前記拡張時系列データにおいて、前記対象時系列データの一部又は全てが繰り返されるようにすることで、前記対象時系列データを長くする処理である、付記2に記載のデータ拡張装置。
(付記4)
前記長さ変更処理は、前記対象時系列データの中から、その内容が周期的に変化する時間範囲を検出し、前記拡張時系列データにおいて、前記検出した時間範囲に含まれる前記フレームの列が繰り返されるようにすることで、前記対象時系列データを長くする処理である、付記3に記載のデータ拡張装置。
(付記5)
前記位置変更処理は、2つの前記対象時系列データの位置を入れ替えることにより、前記対象時系列データの位置を変更する処理である、付記1に記載のデータ拡張装置。
(付記6)
前記取得手段は、発生確率が高いシチュエーション、及びそのシチュエーションの対象となる動作のクラス表すヒント情報を取得し、
前記拡張処理手段は、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対して、前記ヒント情報に示されているシチュエーションを再現できる加工処理を行うことにより、前記拡張時系列データを生成する、付記1から5いずれか1項に記載のデータ拡張装置。
(付記7)
前記ヒント情報は、動作の欠落というシチュエーションについて、その動作のクラスを示しており、
前記拡張処理手段は、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対し、前記削除処理を行うことで、前記拡張時系列データを生成する、付記6に記載のデータ拡張装置。
(付記8)
前記ヒント情報は、動作の実際の時間長が理想の時間長から乖離するというシチュエーションについて、その動作のクラスを示しており、
前記拡張処理手段は、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データについて、前記長さ変更処理を行うことで、前記拡張時系列データを生成する、付記6に記載のデータ拡張装置。
(付記9)
前記ヒント情報は、動作の実際の時間位置が理想の時間位置から乖離するというシチュエーションについて、その動作のクラスを示しており、
前記拡張処理手段は、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対し、前記位置変更処理を行うことで、前記拡張時系列データを生成する、付記6に記載のデータ拡張装置。
(付記10)
前記ソース時系列データはビデオデータであり、
前記フレームが属するクラスは、そのフレームに撮像されている作業の種類を表す、付記1から9いずれか一項に記載のデータ拡張装置。
(付記11)
コンピュータによって実行されるデータ拡張方法であって、
時系列の複数のフレームで構成されるソース時系列データを取得する取得ステップと、
前記ソース時系列データの中にあり、かつ、互いに同一のクラスに属する複数の連続するフレームで構成される1つ以上の対象時系列データに対して、前記対象時系列データを削除する削除処理、前記対象時系列データの長さを変える長さ変更処理、又は前記対象時系列データの時間軸上の位置を変更する位置変更処理を実行することで、前記ソース時系列データから拡張時系列データを生成する拡張処理ステップと、を有し、
前記ソース時系列データは、互いに異なるクラスに属する複数のフレームを含む、データ拡張方法。
(付記12)
前記長さ変更処理は、
前記対象時系列データに含まれる1つ以上のフレームをコピーすることで、前記対象時系列データを長くする処理であるか、又は、
前記対象時系列データに含まれる1つ以上のフレームを削除することで、前記対象時系列データを短くする処理である、付記11に記載のデータ拡張方法。
(付記13)
前記長さ変更処理は、前記拡張時系列データにおいて、前記対象時系列データの一部又は全てが繰り返されるようにすることで、前記対象時系列データを長くする処理である、付記12に記載のデータ拡張方法。
(付記14)
前記長さ変更処理は、前記対象時系列データの中から、その内容が周期的に変化する時間範囲を検出し、前記拡張時系列データにおいて、前記検出した時間範囲に含まれる前記フレームの列が繰り返されるようにすることで、前記対象時系列データを長くする処理である、付記13に記載のデータ拡張方法。
(付記15)
前記位置変更処理は、2つの前記対象時系列データの位置を入れ替えることにより、前記対象時系列データの位置を変更する処理である、付記11に記載のデータ拡張方法。
(付記16)
前記取得ステップにおいて、発生確率が高いシチュエーション、及びそのシチュエーションの対象となる動作のクラス表すヒント情報を取得し、
前記拡張処理ステップにおいて、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対して、前記ヒント情報に示されているシチュエーションを再現できる加工処理を行うことにより、前記拡張時系列データを生成する、付記11から15いずれか1項に記載のデータ拡張方法。
(付記17)
前記ヒント情報は、動作の欠落というシチュエーションについて、その動作のクラスを示しており、
前記拡張処理ステップにおいて、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対し、前記削除処理を行うことで、前記拡張時系列データを生成する、付記16に記載のデータ拡張方法。
(付記18)
前記ヒント情報は、動作の実際の時間長が理想の時間長から乖離するというシチュエーションについて、その動作のクラスを示しており、
前記拡張処理ステップにおいて、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データについて、前記長さ変更処理を行うことで、前記拡張時系列データを生成する、付記16に記載のデータ拡張方法。
(付記19)
前記ヒント情報は、動作の実際の時間位置が理想の時間位置から乖離するというシチュエーションについて、その動作のクラスを示しており、
前記拡張処理ステップにおいて、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対し、前記位置変更処理を行うことで、前記拡張時系列データを生成する、付記16に記載のデータ拡張方法。
(付記20)
前記ソース時系列データはビデオデータであり、
前記フレームが属するクラスは、そのフレームに撮像されている作業の種類を表す、付記11から19いずれか一項に記載のデータ拡張方法。
(付記21)
時系列の複数のフレームで構成されるソース時系列データを取得する取得ステップと、
前記ソース時系列データの中にあり、かつ、互いに同一のクラスに属する複数の連続するフレームで構成される1つ以上の対象時系列データに対して、前記対象時系列データを削除する削除処理、前記対象時系列データの長さを変える長さ変更処理、又は前記対象時系列データの時間軸上の位置を変更する位置変更処理を実行することで、前記ソース時系列データから拡張時系列データを生成する拡張処理ステップと、をコンピュータに実行させるプログラムが格納されており、
前記ソース時系列データは、互いに異なるクラスに属する複数のフレームを含む、非一時的なコンピュータ可読媒体。
(付記22)
前記長さ変更処理は、
前記対象時系列データに含まれる1つ以上のフレームをコピーすることで、前記対象時系列データを長くする処理であるか、又は、
前記対象時系列データに含まれる1つ以上のフレームを削除することで、前記対象時系列データを短くする処理である、付記21に記載のコンピュータ可読媒体。
(付記23)
前記長さ変更処理は、前記拡張時系列データにおいて、前記対象時系列データの一部又は全てが繰り返されるようにすることで、前記対象時系列データを長くする処理である、付記22に記載のコンピュータ可読媒体。
(付記24)
前記長さ変更処理は、前記対象時系列データの中から、その内容が周期的に変化する時間範囲を検出し、前記拡張時系列データにおいて、前記検出した時間範囲に含まれる前記フレームの列が繰り返されるようにすることで、前記対象時系列データを長くする処理である、付記23に記載のコンピュータ可読媒体。
(付記25)
前記位置変更処理は、2つの前記対象時系列データの位置を入れ替えることにより、前記対象時系列データの位置を変更する処理である、付記21に記載のコンピュータ可読媒体。
(付記26)
前記取得ステップにおいて、発生確率が高いシチュエーション、及びそのシチュエーションの対象となる動作のクラス表すヒント情報を取得し、
前記拡張処理ステップにおいて、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対して、前記ヒント情報に示されているシチュエーションを再現できる加工処理を行うことにより、前記拡張時系列データを生成する、付記21から25いずれか1項に記載のコンピュータ可読媒体。
(付記27)
前記ヒント情報は、動作の欠落というシチュエーションについて、その動作のクラスを示しており、
前記拡張処理ステップにおいて、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対し、前記削除処理を行うことで、前記拡張時系列データを生成する、付記26に記載のコンピュータ可読媒体。
(付記28)
前記ヒント情報は、動作の実際の時間長が理想の時間長から乖離するというシチュエーションについて、その動作のクラスを示しており、
前記拡張処理ステップにおいて、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データについて、前記長さ変更処理を行うことで、前記拡張時系列データを生成する、付記26に記載のコンピュータ可読媒体。
(付記29)
前記ヒント情報は、動作の実際の時間位置が理想の時間位置から乖離するというシチュエーションについて、その動作のクラスを示しており、
前記拡張処理ステップにおいて、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対し、前記位置変更処理を行うことで、前記拡張時系列データを生成する、付記26に記載のコンピュータ可読媒体。
(付記30)
前記ソース時系列データはビデオデータであり、
前記フレームが属するクラスは、そのフレームに撮像されている作業の種類を表す、付記21から29いずれか一項に記載のコンピュータ可読媒体。
12 フレーム
20 部分時系列データ
30 拡張時系列データ
40 対象時系列データ
50 時間範囲
60 時間範囲
70 時間範囲
200 テーブル
202 フレーム識別情報
204 クラス識別情報
300 テーブル
302 先頭フレーム識別情報
304 末尾フレーム識別情報
306 クラス識別情報
500 コンピュータ
502 バス
504 プロセッサ
506 メモリ
508 ストレージデバイス
510 入出力インタフェース
512 ネットワークインタフェース
2000 データ拡張装置
2020 取得部
2040 拡張処理部
Claims (30)
- 時系列の複数のフレームで構成されるソース時系列データを取得する取得手段と、
前記ソース時系列データの中にあり、かつ、互いに同一のクラスに属する複数の連続するフレームで構成される1つ以上の対象時系列データに対して、前記対象時系列データを削除する削除処理、前記対象時系列データの長さを変える長さ変更処理、又は前記対象時系列データの時間軸上の位置を変更する位置変更処理を実行することで、前記ソース時系列データから拡張時系列データを生成する拡張処理手段と、を有し、
前記ソース時系列データは、互いに異なるクラスに属する複数のフレームを含む、データ拡張装置。 - 前記長さ変更処理は、
前記対象時系列データに含まれる1つ以上のフレームをコピーすることで、前記対象時系列データを長くする処理であるか、又は、
前記対象時系列データに含まれる1つ以上のフレームを削除することで、前記対象時系列データを短くする処理である、請求項1に記載のデータ拡張装置。 - 前記長さ変更処理は、前記拡張時系列データにおいて、前記対象時系列データの一部又は全てが繰り返されるようにすることで、前記対象時系列データを長くする処理である、請求項2に記載のデータ拡張装置。
- 前記長さ変更処理は、前記対象時系列データの中から、その内容が周期的に変化する時間範囲を検出し、前記拡張時系列データにおいて、前記検出した時間範囲に含まれる前記フレームの列が繰り返されるようにすることで、前記対象時系列データを長くする処理である、請求項3に記載のデータ拡張装置。
- 前記位置変更処理は、2つの前記対象時系列データの位置を入れ替えることにより、前記対象時系列データの位置を変更する処理である、請求項1に記載のデータ拡張装置。
- 前記取得手段は、発生確率が高いシチュエーション、及びそのシチュエーションの対象となる動作のクラス表すヒント情報を取得し、
前記拡張処理手段は、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対して、前記ヒント情報に示されているシチュエーションを再現できる加工処理を行うことにより、前記拡張時系列データを生成する、請求項1から5いずれか1項に記載のデータ拡張装置。 - 前記ヒント情報は、動作の欠落というシチュエーションについて、その動作のクラスを示しており、
前記拡張処理手段は、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対し、前記削除処理を行うことで、前記拡張時系列データを生成する、請求項6に記載のデータ拡張装置。 - 前記ヒント情報は、動作の実際の時間長が理想の時間長から乖離するというシチュエーションについて、その動作のクラスを示しており、
前記拡張処理手段は、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データについて、前記長さ変更処理を行うことで、前記拡張時系列データを生成する、請求項6に記載のデータ拡張装置。 - 前記ヒント情報は、動作の実際の時間位置が理想の時間位置から乖離するというシチュエーションについて、その動作のクラスを示しており、
前記拡張処理手段は、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対し、前記位置変更処理を行うことで、前記拡張時系列データを生成する、請求項6に記載のデータ拡張装置。 - 前記ソース時系列データはビデオデータであり、
前記フレームが属するクラスは、そのフレームに撮像されている作業の種類を表す、請求項1から9いずれか一項に記載のデータ拡張装置。 - コンピュータによって実行されるデータ拡張方法であって、
時系列の複数のフレームで構成されるソース時系列データを取得する取得ステップと、
前記ソース時系列データの中にあり、かつ、互いに同一のクラスに属する複数の連続するフレームで構成される1つ以上の対象時系列データに対して、前記対象時系列データを削除する削除処理、前記対象時系列データの長さを変える長さ変更処理、又は前記対象時系列データの時間軸上の位置を変更する位置変更処理を実行することで、前記ソース時系列データから拡張時系列データを生成する拡張処理ステップと、を有し、
前記ソース時系列データは、互いに異なるクラスに属する複数のフレームを含む、データ拡張方法。 - 前記長さ変更処理は、
前記対象時系列データに含まれる1つ以上のフレームをコピーすることで、前記対象時系列データを長くする処理であるか、又は、
前記対象時系列データに含まれる1つ以上のフレームを削除することで、前記対象時系列データを短くする処理である、請求項11に記載のデータ拡張方法。 - 前記長さ変更処理は、前記拡張時系列データにおいて、前記対象時系列データの一部又は全てが繰り返されるようにすることで、前記対象時系列データを長くする処理である、請求項12に記載のデータ拡張方法。
- 前記長さ変更処理は、前記対象時系列データの中から、その内容が周期的に変化する時間範囲を検出し、前記拡張時系列データにおいて、前記検出した時間範囲に含まれる前記フレームの列が繰り返されるようにすることで、前記対象時系列データを長くする処理である、請求項13に記載のデータ拡張方法。
- 前記位置変更処理は、2つの前記対象時系列データの位置を入れ替えることにより、前記対象時系列データの位置を変更する処理である、請求項11に記載のデータ拡張方法。
- 前記取得ステップにおいて、発生確率が高いシチュエーション、及びそのシチュエーションの対象となる動作のクラス表すヒント情報を取得し、
前記拡張処理ステップにおいて、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対して、前記ヒント情報に示されているシチュエーションを再現できる加工処理を行うことにより、前記拡張時系列データを生成する、請求項11から15いずれか1項に記載のデータ拡張方法。 - 前記ヒント情報は、動作の欠落というシチュエーションについて、その動作のクラスを示しており、
前記拡張処理ステップにおいて、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対し、前記削除処理を行うことで、前記拡張時系列データを生成する、請求項16に記載のデータ拡張方法。 - 前記ヒント情報は、動作の実際の時間長が理想の時間長から乖離するというシチュエーションについて、その動作のクラスを示しており、
前記拡張処理ステップにおいて、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データについて、前記長さ変更処理を行うことで、前記拡張時系列データを生成する、請求項16に記載のデータ拡張方法。 - 前記ヒント情報は、動作の実際の時間位置が理想の時間位置から乖離するというシチュエーションについて、その動作のクラスを示しており、
前記拡張処理ステップにおいて、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対し、前記位置変更処理を行うことで、前記拡張時系列データを生成する、請求項16に記載のデータ拡張方法。 - 前記ソース時系列データはビデオデータであり、
前記フレームが属するクラスは、そのフレームに撮像されている作業の種類を表す、請求項11から19いずれか一項に記載のデータ拡張方法。 - 時系列の複数のフレームで構成されるソース時系列データを取得する取得ステップと、
前記ソース時系列データの中にあり、かつ、互いに同一のクラスに属する複数の連続するフレームで構成される1つ以上の対象時系列データに対して、前記対象時系列データを削除する削除処理、前記対象時系列データの長さを変える長さ変更処理、又は前記対象時系列データの時間軸上の位置を変更する位置変更処理を実行することで、前記ソース時系列データから拡張時系列データを生成する拡張処理ステップと、をコンピュータに実行させるプログラムが格納されており、
前記ソース時系列データは、互いに異なるクラスに属する複数のフレームを含む、非一時的なコンピュータ可読媒体。 - 前記長さ変更処理は、
前記対象時系列データに含まれる1つ以上のフレームをコピーすることで、前記対象時系列データを長くする処理であるか、又は、
前記対象時系列データに含まれる1つ以上のフレームを削除することで、前記対象時系列データを短くする処理である、請求項21に記載のコンピュータ可読媒体。 - 前記長さ変更処理は、前記拡張時系列データにおいて、前記対象時系列データの一部又は全てが繰り返されるようにすることで、前記対象時系列データを長くする処理である、請求項22に記載のコンピュータ可読媒体。
- 前記長さ変更処理は、前記対象時系列データの中から、その内容が周期的に変化する時間範囲を検出し、前記拡張時系列データにおいて、前記検出した時間範囲に含まれる前記フレームの列が繰り返されるようにすることで、前記対象時系列データを長くする処理である、請求項23に記載のコンピュータ可読媒体。
- 前記位置変更処理は、2つの前記対象時系列データの位置を入れ替えることにより、前記対象時系列データの位置を変更する処理である、請求項21に記載のコンピュータ可読媒体。
- 前記取得ステップにおいて、発生確率が高いシチュエーション、及びそのシチュエーションの対象となる動作のクラス表すヒント情報を取得し、
前記拡張処理ステップにおいて、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対して、前記ヒント情報に示されているシチュエーションを再現できる加工処理を行うことにより、前記拡張時系列データを生成する、請求項21から25いずれか1項に記載のコンピュータ可読媒体。 - 前記ヒント情報は、動作の欠落というシチュエーションについて、その動作のクラスを示しており、
前記拡張処理ステップにおいて、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対し、前記削除処理を行うことで、前記拡張時系列データを生成する、請求項26に記載のコンピュータ可読媒体。 - 前記ヒント情報は、動作の実際の時間長が理想の時間長から乖離するというシチュエーションについて、その動作のクラスを示しており、
前記拡張処理ステップにおいて、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データについて、前記長さ変更処理を行うことで、前記拡張時系列データを生成する、請求項26に記載のコンピュータ可読媒体。 - 前記ヒント情報は、動作の実際の時間位置が理想の時間位置から乖離するというシチュエーションについて、その動作のクラスを示しており、
前記拡張処理ステップにおいて、前記ヒント情報に示されているクラスに属する前記フレームで構成される前記対象時系列データに対し、前記位置変更処理を行うことで、前記拡張時系列データを生成する、請求項26に記載のコンピュータ可読媒体。 - 前記ソース時系列データはビデオデータであり、
前記フレームが属するクラスは、そのフレームに撮像されている作業の種類を表す、請求項21から29いずれか一項に記載のコンピュータ可読媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2022/002224 WO2023139760A1 (ja) | 2022-01-21 | 2022-01-21 | データ拡張装置、データ拡張方法、及び非一時的なコンピュータ可読媒体 |
JP2023575006A JPWO2023139760A5 (ja) | 2022-01-21 | データ拡張装置、データ拡張方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2022/002224 WO2023139760A1 (ja) | 2022-01-21 | 2022-01-21 | データ拡張装置、データ拡張方法、及び非一時的なコンピュータ可読媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023139760A1 true WO2023139760A1 (ja) | 2023-07-27 |
Family
ID=87348460
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2022/002224 WO2023139760A1 (ja) | 2022-01-21 | 2022-01-21 | データ拡張装置、データ拡張方法、及び非一時的なコンピュータ可読媒体 |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2023139760A1 (ja) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005269510A (ja) * | 2004-03-22 | 2005-09-29 | Seiko Epson Corp | ダイジェスト画像データの生成 |
WO2020070876A1 (ja) * | 2018-10-05 | 2020-04-09 | 日本電気株式会社 | 教師データ拡張装置、教師データ拡張方法およびプログラム |
WO2020178936A1 (ja) * | 2019-03-04 | 2020-09-10 | 株式会社トランストロン | ニューラルネットワークモデルの生成方法、及びニューラルネットワークモデルを用いた制御装置 |
WO2021059388A1 (ja) * | 2019-09-25 | 2021-04-01 | 日本電信電話株式会社 | 学習装置、画像処理装置、学習方法及び学習プログラム |
WO2021079507A1 (ja) * | 2019-10-25 | 2021-04-29 | 日本電信電話株式会社 | データ拡張装置、方法及びプログラム |
JP2021179790A (ja) * | 2020-05-13 | 2021-11-18 | 富士電機株式会社 | 画像生成装置、画像生成方法及びプログラム |
-
2022
- 2022-01-21 WO PCT/JP2022/002224 patent/WO2023139760A1/ja active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005269510A (ja) * | 2004-03-22 | 2005-09-29 | Seiko Epson Corp | ダイジェスト画像データの生成 |
WO2020070876A1 (ja) * | 2018-10-05 | 2020-04-09 | 日本電気株式会社 | 教師データ拡張装置、教師データ拡張方法およびプログラム |
WO2020178936A1 (ja) * | 2019-03-04 | 2020-09-10 | 株式会社トランストロン | ニューラルネットワークモデルの生成方法、及びニューラルネットワークモデルを用いた制御装置 |
WO2021059388A1 (ja) * | 2019-09-25 | 2021-04-01 | 日本電信電話株式会社 | 学習装置、画像処理装置、学習方法及び学習プログラム |
WO2021079507A1 (ja) * | 2019-10-25 | 2021-04-29 | 日本電信電話株式会社 | データ拡張装置、方法及びプログラム |
JP2021179790A (ja) * | 2020-05-13 | 2021-11-18 | 富士電機株式会社 | 画像生成装置、画像生成方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JPWO2023139760A1 (ja) | 2023-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4241709B2 (ja) | 画像処理装置 | |
US10452713B2 (en) | Video analysis techniques for improved editing, navigation, and summarization | |
JP4855556B1 (ja) | 動体検出装置、動体検出方法、動体検出プログラム、動体追跡装置、動体追跡方法及び動体追跡プログラム | |
US10600190B2 (en) | Object detection and tracking method and system for a video | |
JP2005108225A (ja) | オーディオビジュアルプレゼンテーションのコンテンツの要約及び索引付けするための方法及び装置 | |
KR101484844B1 (ko) | 실시간 영상에 프라이버시 마스킹 툴을 제공하는 장치 및 방법 | |
JP6641949B2 (ja) | ユーザインタラクションを検出、分類及び可視化する方法、システム及びプログラム | |
JP6214824B2 (ja) | 自動試験装置 | |
CN110413815B (zh) | 人像聚类清洗方法和装置 | |
CN112954455B (zh) | 一种字幕跟踪方法、装置及电子设备 | |
US10614336B2 (en) | Method, system, and computer-readable recording medium for image-based object tracking | |
JP2008299834A (ja) | 被写体追跡プログラム、および被写体追跡装置 | |
US10129457B2 (en) | Control apparatus, method of controlling shooting apparatus, and computer-readable storage medium | |
WO2023139760A1 (ja) | データ拡張装置、データ拡張方法、及び非一時的なコンピュータ可読媒体 | |
JP7619474B2 (ja) | クラス境界検出装置、制御方法、及びプログラム | |
JP6393495B2 (ja) | 画像処理装置および物体認識方法 | |
JP2006244074A (ja) | 動物体アップフレーム検出方法及びプログラム及びプログラムを格納した記憶媒体及び動物体アップショット検出方法及び動物体アップフレームあるいはショット検出方法及びプログラム及びプログラムを格納した記憶媒体 | |
JP4513904B2 (ja) | 画像処理装置および方法、並びにプログラム | |
JP2008269421A (ja) | 記録装置と記録装置のためのプログラム | |
US20200258550A1 (en) | Moving image reproduction apparatus, moving image reproduction method, moving image reproduction system, and storage medium | |
WO2024176573A1 (ja) | データ拡張装置、データ拡張方法、及びプログラム | |
JP5554214B2 (ja) | 会議録システム及びプログラム | |
JP5082732B2 (ja) | 映像処理装置、表示制御方法およびプログラム | |
EP2528019A1 (en) | Apparatus and method for detecting objects in moving images | |
JP4429349B2 (ja) | 記録装置と記録装置のためのプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22921917 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2023575006 Country of ref document: JP Kind code of ref document: A |
|
WWE | Wipo information: entry into national phase |
Ref document number: 18729295 Country of ref document: US |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 22921917 Country of ref document: EP Kind code of ref document: A1 |