WO2022102083A1 - 情報処理装置、情報処理方法、及びコンピュータプログラム - Google Patents

情報処理装置、情報処理方法、及びコンピュータプログラム Download PDF

Info

Publication number
WO2022102083A1
WO2022102083A1 PCT/JP2020/042445 JP2020042445W WO2022102083A1 WO 2022102083 A1 WO2022102083 A1 WO 2022102083A1 JP 2020042445 W JP2020042445 W JP 2020042445W WO 2022102083 A1 WO2022102083 A1 WO 2022102083A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature amount
information processing
processing apparatus
partial feature
unit
Prior art date
Application number
PCT/JP2020/042445
Other languages
English (en)
French (fr)
Inventor
宏 福井
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2022561807A priority Critical patent/JPWO2022102083A1/ja
Priority to US18/034,513 priority patent/US20230394784A1/en
Priority to PCT/JP2020/042445 priority patent/WO2022102083A1/ja
Publication of WO2022102083A1 publication Critical patent/WO2022102083A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Definitions

  • This disclosure relates to the technical fields of information processing devices, information processing methods, and computer programs that process information related to features.
  • Patent Document 1 discloses that a speech recognition model that extracts speech features and uses them as an embedded vector may include an attention mechanism.
  • Patent Document 2 discloses that when a new sentence is output from an input sentence, an attention mechanism for generating a sentence by weighting a word may be used.
  • This disclosure is intended to improve the related techniques mentioned above.
  • One aspect of the information processing apparatus of this disclosure is to use an extraction means for extracting a feature amount from image data, an acquisition means for cutting out a specific position from the feature amount to acquire a partial feature amount, and the partial feature amount. It is provided with an arithmetic means for executing a predetermined arithmetic processing and a restoration means for restoring the result of the predetermined arithmetic processing to the size of the feature amount.
  • One aspect of the information processing method of this disclosure is to extract a feature amount from image data, cut out a specific position from the feature amount to obtain a partial feature amount, and perform a predetermined arithmetic process using the partial feature amount. It is executed and the result of the predetermined arithmetic processing is restored to the size of the feature amount.
  • One aspect of the computer program of this disclosure is to extract a feature amount from image data, cut out a specific position from the feature amount to obtain a partial feature amount, and execute a predetermined arithmetic process using the partial feature amount. Then, the computer is operated so as to restore the result of the predetermined arithmetic processing to the size of the feature amount.
  • FIG. 1 is a block diagram showing a hardware configuration of the information processing apparatus according to the first embodiment.
  • the information processing apparatus 10 includes a processor 11, a RAM (Random Access Memory) 12, a ROM (Read Only Memory) 13, and a storage device 14.
  • the information processing device 10 may further include an input device 15 and an output device 16.
  • the processor 11, the RAM 12, the ROM 13, the storage device 14, the input device 15, and the output device 16 are connected via the data bus 17.
  • Processor 11 reads a computer program.
  • the processor 11 is configured to read a computer program stored in at least one of the RAM 12, the ROM 13, and the storage device 14.
  • the processor 11 may read a computer program stored in a computer-readable recording medium by using a recording medium reading device (not shown).
  • the processor 11 may acquire (that is, read) a computer program from a device (not shown) arranged outside the information processing device 10 via a network interface.
  • the processor 11 controls the RAM 12, the storage device 14, the input device 15, and the output device 16 by executing the read computer program.
  • a functional block for executing various processes related to the feature amount is realized in the processor 11.
  • processor 11 CPU (Central Processing Unit), GPU (Graphics Processing Unit), FPGA (field-programmable get array), DSP (Demand-Side Platform), ASIC
  • CPU Central Processing Unit
  • GPU Graphics Processing Unit
  • FPGA field-programmable get array
  • DSP Demand-Side Platform
  • ASIC Application Specific Extensions
  • the RAM 12 temporarily stores the computer program executed by the processor 11.
  • the RAM 12 temporarily stores data temporarily used by the processor 11 while the processor 11 is executing a computer program.
  • the RAM 12 may be, for example, a D-RAM (Dynamic RAM).
  • the ROM 13 stores a computer program executed by the processor 11.
  • the ROM 13 may also store fixed data.
  • the ROM 13 may be, for example, a P-ROM (Programmable ROM).
  • the storage device 14 stores data stored in the information processing device 10 for a long period of time.
  • the storage device 14 may operate as a temporary storage device of the processor 11.
  • the storage device 14 may include, for example, at least one of a hard disk device, a magneto-optical disk device, an SSD (Solid State Drive), and a disk array device.
  • the input device 15 is a device that receives an input instruction from the user of the information processing device 10.
  • the input device 15 may include, for example, at least one of a keyboard, a mouse and a touch panel.
  • the input device 15 may be a dedicated controller (operation terminal). Further, the input device 15 may include a terminal owned by the user (for example, a smartphone, a tablet terminal, or the like).
  • the input device 15 may be a device capable of voice input including, for example, a microphone.
  • the output device 16 is a device that outputs information about the information processing device 10 to the outside.
  • the output device 16 may be a display device (for example, a display) capable of displaying information about the information processing device 10.
  • the display device here may be a television monitor, a personal computer monitor, a smartphone monitor, a tablet terminal monitor, or another mobile terminal monitor.
  • the display device may be a large monitor, a digital signage, or the like installed in various facilities such as a store.
  • the output device 16 may be a device that outputs information in a format other than an image.
  • the output device 16 may be a speaker that outputs information about the information processing device 10 by voice.
  • FIG. 2 is a block diagram showing a functional configuration of the information processing apparatus according to the first embodiment.
  • the information processing apparatus 10 includes an extraction unit 110, an acquisition unit 120, a calculation unit 130, and a restoration unit 140 as processing blocks for realizing the function. I have.
  • Each of the extraction unit 110, the acquisition unit 120, the calculation unit 130, and the restoration unit 140 may be realized by the processor 11 (see FIG. 1) described above.
  • the extraction unit 110 is configured to be able to extract a feature amount from image data.
  • the "feature amount” here is data converted so as to indicate a characteristic area or position used for recognition in order to recognize an object existing in the image by a specific task, for example, with respect to image data. It can be extracted by executing a predetermined extraction process. .. As for the specific extraction method of the feature amount, the existing technique can be appropriately adopted, and therefore detailed description thereof will be omitted.
  • the feature amount extracted by the extraction unit 110 is output to the acquisition unit 120.
  • the acquisition unit 120 is configured to be able to acquire a partial feature amount by cutting out a part of the feature amount extracted from the image data. Alternatively, the acquisition unit 120 may acquire a partial feature amount by cutting out a part of the image and then executing an extraction process on the cut out part of the image. Further, the acquisition unit 120 may acquire a partial feature amount by specifying a part of the feature amount. The acquisition unit 120 may acquire a partial feature amount by narrowing down a part of the feature amount. The acquisition unit 120 may acquire a partial feature amount by dividing the feature amount and selecting a part of the feature amount. Since the partial feature amount is obtained by cutting out a part of the feature amount as described above, the data amount is smaller than the original feature amount. In addition, which part of the feature amount is cut out will be described in detail in another embodiment described later. The partial feature amount cut out by the acquisition unit 120 is input to the calculation unit 130.
  • the calculation unit 130 is configured to be able to execute various calculation processes using the partial feature amount extracted by the acquisition unit 120.
  • the arithmetic unit 130 may be configured to execute arithmetic processing a plurality of times. For example, the arithmetic unit 130 may perform the second arithmetic processing after performing the first arithmetic processing. In this case, the first arithmetic processing and the second arithmetic processing may be the same kind of arithmetic processing or different arithmetic processing. Further, the calculation unit 130 may perform three or more calculation processes. Further, the arithmetic unit 130 may be configured to execute a plurality of types of arithmetic processing.
  • the calculation unit 130 may perform arithmetic processing using information other than the partial feature amount (for example, the feature amount before cutting).
  • the specific contents of the arithmetic processing executed by the arithmetic unit 130 will be described in detail in other embodiments described later.
  • the calculation result by the calculation unit 130 is output to the restoration unit 140.
  • the restoration unit 140 can restore the calculation result of the calculation unit 130 (that is, the calculation result using the partial feature amount) to the size of the feature amount before cutting (that is, the size of the feature amount extracted by the extraction unit 110). It is configured in. The specific contents of the restoration process executed by the restoration unit 140 will be described in detail in other embodiments described later.
  • FIG. 3 is a flowchart showing an operation flow of the information processing apparatus according to the first embodiment.
  • the extraction unit 110 first extracts the feature amount from the image data (step S11). Subsequently, the acquisition unit 120 cuts out a part of the extracted feature amount and acquires the partial feature amount (step S12). Subsequently, the calculation unit 130 executes a calculation process using the cut out partial feature amount (step S13). Subsequently, the restoration unit 140 restores the calculation result of the calculation unit 130 to the size of the original feature amount (step S14).
  • a partial feature amount is cut out from the feature amount, and arithmetic processing is executed using the cut out partial feature amount.
  • arithmetic processing is executed using the cut out partial feature amount.
  • the information processing apparatus 10 Since the feature amount of the image data increases according to the resolution, for example, if the data size of the feature amount becomes large, the processing amount in the arithmetic processing may become enormous.
  • the information processing apparatus 10 according to the present embodiment exhibits a remarkable technical effect in a case where the load of arithmetic processing becomes extremely large as described above.
  • the information processing apparatus 10 according to the second embodiment will be described with reference to FIGS. 4 and 5.
  • the second embodiment differs from the first embodiment described above in a part of the configuration and operation.
  • the hardware configuration (see FIG. 1) and the like are the same as those of the first embodiment. It may be there. Therefore, in the following, the parts different from the first embodiment will be described in detail, and the description of other overlapping parts will be omitted as appropriate.
  • FIG. 4 is a block diagram showing a functional configuration of the information processing apparatus according to the second embodiment.
  • the same reference numerals are given to the same components as those shown in FIG. 2.
  • the information processing apparatus 10 has an extraction unit 110, an acquisition unit 120, a calculation unit 130, and a restoration unit 140 as processing blocks for realizing the function. It is provided with an object detection unit 150. That is, the information processing apparatus 10 according to the second embodiment is configured to further include an object detection unit 150 in addition to the components of the first embodiment (see FIG. 2).
  • the object detection unit 150 may be realized by the processor 11 (see FIG. 1) described above.
  • the object detection unit 150 is configured to be able to detect an object contained in the image.
  • the object detection unit 150 is configured to be able to detect the position and size of an object in an image.
  • the object unit 150 may be configured to be able to detect the contour of the object and the existing area (for example, a rectangular area surrounding the object).
  • the object detection unit 150 may have a function of estimating the type, attributes, and the like of the detected object.
  • the specific detection method by the object detection unit 150 the existing technique can be appropriately adopted, and therefore detailed description thereof will be omitted here.
  • Information about the object detected by the object detection unit 150 is output to the acquisition unit 120.
  • FIG. 5 is a flowchart showing an operation flow of the information processing apparatus according to the second embodiment.
  • the same reference numerals are given to the same processes as those shown in FIG.
  • the extraction unit 110 extracts the feature amount from the image data (step S11).
  • the object detection unit 150 detects an object from the image data (step S21).
  • the process of step S21 may be executed before or after the process of step S11, or may be executed in parallel at the same time.
  • the object detection unit 150 may detect the object using the feature amount extracted by the extraction unit 110.
  • the acquisition unit 120 cuts out a partial feature amount based on the position of the detected object (step S22). For example, the acquisition unit 120 may cut out the feature amount of the portion corresponding to the position where the object is detected and acquire it as a partial feature amount. When a plurality of objects are detected, the acquisition unit 120 may cut out the partial feature amount based on the positions of all the objects, or cut out the partial feature amount based on the positions of some objects. You may. Alternatively, the acquisition unit 120 may cut out the feature amount of the portion corresponding to the position where the object is not detected and acquire it as a partial feature amount.
  • the acquisition unit 120 executes a process of dividing one image into a plurality of divided areas (for example, a process of drawing a cross line on a square image and dividing the image into four square areas), and the object exists.
  • the partial feature amount may be cut out by using the divided region.
  • the calculation unit 130 executes the calculation process using the cut out partial feature amount (step S13).
  • the restoration unit 140 restores the calculation result of the calculation unit 130 to the size of the original feature amount (step S14).
  • the partial feature amount is cut out based on the position where the object is detected. By doing so, it is possible to appropriately cut out the partial feature amount in consideration of the existence of the object. For example, it can be considered that the position where an object exists is more likely to contain important information than other positions. In such a case, a more appropriate partial feature amount can be obtained by cutting out a portion corresponding to the position of the object.
  • the information processing apparatus 10 according to the third embodiment will be described with reference to FIGS. 6 and 7.
  • the third embodiment is different from the first and second embodiments described above in a part of the configuration and operation, and the other parts are the same as those of the first and second embodiments. You can do it. Therefore, in the following, the parts different from the first and second embodiments will be described in detail, and the description of other overlapping parts will be omitted as appropriate.
  • FIG. 6 is a block diagram showing a functional configuration of the information processing apparatus according to the third embodiment.
  • the same reference numerals are given to the same components as those shown in FIG. 2.
  • the information processing apparatus 10 includes an extraction unit 110, an acquisition unit 120, a calculation unit 130, and a restoration unit 140 as processing blocks for realizing the function. I have.
  • the acquisition unit 120 according to the third embodiment is configured to include a random number setting unit 121.
  • the random number setting unit 121 is configured to be able to set a random number used when cutting out a partial feature amount from the feature amount.
  • the type of the random number here is not particularly limited, but may be, for example, a random number having a uniform distribution or a random number having a normal distribution. Alternatively, it may be a random number corresponding to a predetermined probability distribution.
  • FIG. 7 is a flowchart showing a flow of operation of the information processing apparatus according to the third embodiment.
  • the same reference numerals are given to the same processes as those shown in FIG.
  • the extraction unit 110 first extracts the feature amount from the image data (step S11). Subsequently, the random number setting unit 121 sets a random number to be used by the acquisition unit 120 when cutting out the partial feature amount (step S31). Then, the acquisition unit 120 cuts out a part of the extracted feature amount based on the random number and acquires the partial feature amount (step S32). Subsequently, the calculation unit 130 executes a calculation process using the cut out partial feature amount (step S13). Subsequently, the restoration unit 140 restores the calculation result of the calculation unit 130 to the size of the original feature amount (step S14).
  • the partial feature amount is cut out based on a random number (in other words, it is cut out at random). By doing so, it is possible to cut out the partial features more easily. Specifically, it is possible to save the trouble of finely setting the specific position for cutting out the partial feature amount in advance. Alternatively, it is not necessary to execute another process for determining the position for cutting out the partial feature amount. Further, the position to be cut out as a partial feature amount can be evenly selected from the entire image.
  • the information processing apparatus 10 according to the fourth embodiment will be described with reference to FIG. It should be noted that the fourth embodiment differs from the above-mentioned third embodiment (that is, the embodiment in which the partial feature amount is cut out based on a random number) only in a part of the operation, and the other parts are the first. 3 It may be the same as the embodiment. Therefore, in the following, the parts different from each of the above-described embodiments will be described in detail, and the description of other overlapping parts will be omitted as appropriate.
  • FIG. 8 is a flowchart showing an operation flow of the information processing apparatus according to the fourth embodiment.
  • the same reference numerals are given to the same processes as those shown in FIG. 7.
  • the extraction unit 110 first extracts the feature amount from the image data (step S11). Subsequently, the random number setting unit 121 sets a random number to be used by the acquisition unit 120 when cutting out the partial feature amount (step S31).
  • the acquisition unit 120 cuts out a part of the partial feature amount from a fixed position and acquires it, and cuts out and acquires the other part based on a random number (step S41).
  • the "fixed position” here may be a preset fixed position, or is calculated by another process (for example, a process of detecting a region where an object exists described in the second embodiment). It may be in a fixed position.
  • the calculation unit 130 executes the calculation process using the cut out partial feature amount (step S13).
  • the restoration unit 140 restores the calculation result of the calculation unit 130 to the size of the original feature amount (step S14).
  • a part of the feature amount is cut out at a fixed position, and the other part is cut out based on a random number, so that the partial feature amount is cut out. Is obtained.
  • a part of the partial feature amount is cut out from the fixed position, it is possible to cut out a more appropriate position as the partial feature amount as compared with the case where all the parts are cut out based on random numbers.
  • the other part except a part is cut out based on a random number, the partial feature amount can be easily cut out as compared with the case where all parts are cut out based on a fixed position.
  • ⁇ Modification example> In the fourth embodiment described above, an example is given in which a part of the partial feature amount is acquired from a fixed position and the other part is acquired based on a random number, but all of the partial feature amount is cut out from the fixed position and acquired. You may. In this case, since there is no portion to be cut out based on a random number, it is possible to cut out a more appropriate position as a partial feature amount.
  • the information processing apparatus 10 according to the fifth embodiment will be described with reference to FIGS. 9 to 11. It should be noted that the fifth embodiment is different from the above-mentioned first to fourth embodiments only in a part of the configuration and operation, and the other parts are the same as those of the first to fourth embodiments. You can do it. Therefore, in the following, the parts different from each of the above-described embodiments will be described in detail, and the description of other overlapping parts will be omitted as appropriate.
  • FIG. 9 is a block diagram showing a functional configuration of the information processing apparatus according to the fifth embodiment.
  • the same reference numerals are given to the same components as those shown in FIG. 2.
  • the information processing apparatus 10 includes an extraction unit 110, an acquisition unit 120, a calculation unit 130, and a restoration unit 140 as processing blocks for realizing the function.
  • the acquisition unit 120 according to the fifth embodiment is configured to include a pattern storage unit 122.
  • the pattern storage unit 122 may be realized by the storage device 14 (see FIG. 1) described above.
  • the pattern storage unit 122 is configured to be able to store a predetermined pattern indicating a position for cutting out a partial feature amount from the feature amount.
  • the predetermined pattern is not particularly limited, but may be set as, for example, a grid-like pattern.
  • the predetermined pattern may be set as a pattern indicating a position where a more appropriate partial feature amount can be cut out based on a preliminary simulation result or the like.
  • the pattern storage unit 122 may be configured to be able to store a plurality of patterns. In this case, the acquisition unit 120 may select one pattern to be used from the plurality of patterns stored in the pattern storage unit 122 and cut out the partial feature amount. Alternatively, the acquisition unit 120 may appropriately combine a plurality of patterns stored in the pattern storage unit 122 to generate a cutout pattern, and cut out a partial feature amount based on the cutout pattern.
  • FIG. 10 is a flowchart showing an operation flow of the information processing apparatus according to the fifth embodiment.
  • the same reference numerals are given to the same processes as those shown in FIG.
  • the extraction unit 110 first extracts the feature amount from the image data (step S11). Subsequently, the acquisition unit 120 reads out the pattern used for cutting out the partial feature amount from the pattern storage unit 122 (step S51). Then, the acquisition unit 120 cuts out the partial feature amount based on the read pattern (step S52). Subsequently, the calculation unit 130 executes a calculation process using the cut out partial feature amount (step S13). Subsequently, the restoration unit 140 restores the calculation result of the calculation unit 130 to the size of the original feature amount (step S14).
  • FIG. 11 is a conceptual diagram showing a pattern for cutting out a partial feature amount from a feature map. In the following, an example of cutting out a partial feature amount from a feature map extracted as a feature amount will be described.
  • the acquisition unit 120 cuts out a partial feature amount from the feature map extracted as the feature amount of the image data based on a predetermined grid pattern.
  • partial features for 9 squares are cut out from the 11 ⁇ 11 grid.
  • the acquisition unit 120 may divide the feature map into a grid shape and cut out only the squares at the positions indicated by the predetermined pattern as the partial feature amount.
  • the pattern shown in FIG. 11 is just an example, and a partial feature amount may be cut out using a pattern different from this.
  • the partial feature amount is cut out based on a predetermined pattern set in advance. By doing so, it is possible to cut out the partial features more easily. Specifically, if a portion to be cut out as a partial feature amount is set in advance as a predetermined pattern, the partial feature amount can be appropriately cut out by a simple process of reading out the predetermined pattern.
  • FIG. 12 is a flowchart showing a flow of operation of the information processing apparatus according to the sixth embodiment.
  • FIG. 13 is a conceptual diagram showing the operation of the attention mechanism included in the information processing apparatus according to the sixth embodiment. Since the attention mechanism is an existing technique, detailed explanations of each term related to the attention mechanism are omitted below as appropriate.
  • the operation of the information processing apparatus 10 according to the sixth embodiment is realized as, for example, the operation of the attention mechanism provided in the neural network.
  • the extraction unit 110 first uses the image data as a feature map of Q (Query: query), K (Key: key), and V (Value: value). Is extracted (step S61). Then, the acquisition unit 120 cuts out a part from the extracted feature maps of Q, K, and V to acquire the partial feature amount (step S62). From the feature maps of Q, K, and V, common positions are cut out as partial features (see FIG. 13).
  • the calculation unit 130 calculates the matrix product of the partial feature amount cut out from the feature map of Q and the partial feature amount cut out from the feature map of K (step S63). After that, the calculation unit 130 executes a normalization process on the calculated matrix product (step S64). For example, a softmax function can be used for the normalization process.
  • the arithmetic unit 130 calculates the matrix product of the normalized matrix product of the partial feature amount of Q and the partial feature amount of K (that is, the weight) and the partial feature amount cut out from the feature map of V. Calculate (step S65).
  • the restoration unit 140 executes a restoration process for the calculated matrix product (step S66).
  • the restoration unit 140 further executes residual processing (step S67).
  • the processing of the arithmetic unit is executed as the arithmetic processing of the matrix product in the attention mechanism.
  • the matrix product is calculated as it is using the feature map, the amount of calculation becomes enormous according to the size of the feature map.
  • the vertical width and the horizontal width of the feature map are H and W, and the number of channels is C, the calculation amounts of the above-mentioned steps S63 and S65 are as shown in the following equations (1) and (2), respectively.
  • the matrix product is calculated using the partial feature amount cut out from the feature map as described above. Therefore, assuming that the number to be cut out as the partial feature amount is N, the calculation amounts of the above-mentioned steps S63 and S65 are as shown in the following equations (3) and (4), respectively.
  • the value of N is smaller than that of HW. Therefore, according to the information processing apparatus 10 according to the fifth embodiment, it is possible to reduce the amount of calculation in the calculation processing of the matrix product.
  • the information processing apparatus 10 according to the seventh embodiment will be described with reference to FIG.
  • the seventh embodiment describes a specific example of the restoration process in the sixth embodiment described above (that is, the embodiment in which the matrix product of the attention mechanism is calculated), and the other parts are the sixth embodiment. It may be similar to the form. Therefore, in the following, the parts different from each of the above-described embodiments will be described in detail, and the description of other overlapping parts will be omitted as appropriate.
  • FIG. 14 is a flowchart showing a flow of operation of the information processing apparatus according to the seventh embodiment.
  • the same reference numerals are given to the same processes as those shown in FIG.
  • the extraction unit 110 first uses the image data to perform Q (Query: query), K (Key: key), and V ( The feature map of Value (value) is extracted (step S61). Then, the acquisition unit 120 cuts out a part from the extracted feature maps of Q, K, and V to acquire the partial feature amount (step S62).
  • the calculation unit 130 calculates the matrix product of the partial feature amount cut out from the feature map of Q and the partial feature amount cut out from the feature map of K (step S63). After that, the calculation unit 130 executes a normalization process on the calculated matrix product (step S64). Subsequently, the arithmetic unit 130 calculates the matrix product of the normalized matrix product of the partial feature amount of Q and the partial feature amount of K (that is, the weight) and the partial feature amount cut out from the feature map of V. Calculate (step S65).
  • the restoration unit 140 executes a process of filling the portion of the V feature map that has not been cut out as a partial feature amount with "0" (hereinafter, appropriately referred to as "0 fill process”) (step S71). .. Then, the restoration unit 140 substitutes the feature map of V that has executed the zero-filling process into the calculation result of step S65 (step S72). As described above, the restoration unit 140 according to the seventh embodiment executes the processing of steps S71 and S72 described above as the restoration processing. After that, the restoration unit 140 executes the residual processing (step S67).
  • the restoration process is executed by substituting the feature amount in which the features other than the cut-out portion are filled with zeros.
  • the calculation result by the calculation unit 130 can be restored to the size of the original feature amount by a relatively simple process.
  • the information processing apparatus 10 according to the eighth embodiment will be described with reference to FIGS. 15 and 16. It should be noted that the eighth embodiment differs from the above-mentioned first to seventh embodiments only in a part of the configuration and operation (specifically, a point that targets a moving image), and the other parts are different. , It may be the same as the 1st to 7th embodiments. Therefore, in the following, the parts different from each of the above-described embodiments will be described in detail, and the description of other overlapping parts will be omitted as appropriate.
  • FIG. 15 is a block diagram showing a functional configuration of the information processing apparatus according to the eighth embodiment.
  • the same reference numerals are given to the same components as those shown in FIG.
  • the information processing apparatus 10 according to the eighth embodiment has the extraction unit 110, the acquisition unit 120, the calculation unit 130, the restoration unit 140, and the processing block for realizing the function. It includes an object detection unit 150 and an object position storage unit 160. That is, the information processing apparatus 10 according to the eighth embodiment is configured to further include an object position storage unit 160 in addition to the components of the second embodiment (see FIG. 4).
  • the object position storage unit 160 may be realized by the storage device 14 (see FIG. 1) described above.
  • the object position storage unit 160 is configured to be able to store the position detected by the object detection unit 150 (that is, the position where the object exists in the image). When a plurality of objects are detected by the object detection unit 150, the object position storage unit 160 may be configured to be able to store the positions of the plurality of objects.
  • the object position storage unit 160 may memorize the position each time a new object is detected. Further, the object position storage unit 160 may have a function of appropriately deleting information regarding the position of an object that is no longer needed. Information about the position of the object stored in the object position storage unit 160 can be appropriately read out by the acquisition unit 120.
  • FIG. 16 is a conceptual diagram showing a specific operation example of the information processing apparatus according to the eighth embodiment.
  • the object detection unit 150 detects the house 501 and the tree 502, respectively, when processing the first frame, which is the first frame. Then, the object position storage unit 160 stores the detected position of the house 501 and the position of the tree 502, respectively.
  • the acquisition unit 120 cuts out a partial feature amount based on the detected position of the house 501 and the position of the tree 502. Then, for the subsequent second frame, the acquisition unit 120 cuts out the partial feature amount based on the position of the house 501 detected in the first frame and the position of the tree 502. Similarly, for the subsequent third frame, the acquisition unit 120 cuts out the partial feature amount based on the position of the house 501 detected in the first frame and the position of the tree 502. As described above, in the information processing apparatus 10 according to the eighth embodiment, the partial feature amount is cut out for the subsequent frames based on the position of the first detected object.
  • the cutout position of the partial feature amount may be changed at a predetermined timing. For example, when the scene of the moving image changes significantly, the object detection unit 150 detects the object again, and for the frames after that, the partial feature amount is based on the position of the newly detected object. It may be cut out.
  • the information processing apparatus 10 stores the position of the detected object when handling moving image data (that is, continuous image data in time series). After that, the partial feature amount is cut out based on the stored position of the object. By doing so, it is not necessary to detect the position of the object for all the frames, so that the processing impossible can be greatly reduced.
  • the information processing apparatus 10 according to the eighth embodiment when an object whose position in the image does not change significantly (for example, an object that does not move such as a house 501 or a tree 502 shown in the example of FIG. 16) is a detection target. , Remarkably effective.
  • ⁇ 9th embodiment> The information processing apparatus 10 according to the ninth embodiment will be described with reference to FIGS. 17 and 18. It should be noted that the ninth embodiment differs from the eighth embodiment described above only in a part of the configuration and operation (specifically, the point of tracking the position of the object), and the other parts are different. It may be the same as the eighth embodiment. Therefore, in the following, the parts different from each of the above-described embodiments will be described in detail, and the description of other overlapping parts will be omitted as appropriate.
  • FIG. 17 is a block diagram showing a functional configuration of the information processing apparatus according to the ninth embodiment.
  • the same reference numerals are given to the same components as those shown in FIG.
  • the information processing apparatus 10 according to the eighth embodiment has the extraction unit 110, the acquisition unit 120, the calculation unit 130, the restoration unit 140, and the processing block for realizing the function. It includes an object detection unit 150 and a tracking processing unit 170. That is, the information processing apparatus 10 according to the eighth embodiment is configured to include a tracking processing unit 170 instead of the object position storage unit 160 (see FIG. 15) of the eighth embodiment.
  • the tracking processing unit 170 may be realized by the processor 11 (see FIG. 1) described above.
  • the tracking processing unit 170 is configured to be able to execute a process of tracking (in other words, tracking) the position of an object detected by the object detection unit 150.
  • the tracking processing unit 170 estimates and outputs the position of the object in each frame from, for example, the moving direction and the moving speed of the object.
  • existing techniques can be appropriately adopted, and therefore detailed description thereof will be omitted here.
  • FIG. 18 is a conceptual diagram showing a specific operation example of the information processing apparatus according to the ninth embodiment.
  • the object detection unit 150 detects the person 601 and the ball 602, respectively, when processing the first frame, which is the first frame. Then, the tracking processing unit 170 tracks the detected person 601 and the ball 602, respectively, and estimates the position of the person 601 and the position of the ball 602 in the subsequent frame, respectively.
  • the acquisition unit 120 cuts out a partial feature amount based on the position of the detected person 601 and the position of the ball 602. Then, for the subsequent second frame, the acquisition unit 120 cuts out the partial feature amount based on the position of the person 601 estimated by the tracking process and the position of the ball 602. Similarly, for the subsequent third frame, the acquisition unit 120 cuts out the partial feature amount based on the position of the person 601 estimated by the tracking process and the position of the ball 602. As described above, in the information processing apparatus 10 according to the ninth embodiment, the partial feature amount is cut out based on the position of the tracked object.
  • the tracking processing unit 170 may execute tracking processing on all objects in the image, or only on some objects (for example, an object having a large movement or an object having a high importance). Tracking processing may be executed. For an object for which the tracking processing unit 170 does not execute tracking processing, a partial feature amount may be cut out based on the stored position of the object as in the eighth embodiment (see FIGS. 15 and 16). ..
  • the position of an object is tracked and a partial feature is provided.
  • the amount is cut out.
  • an object whose position in the image changes significantly for example, a moving object such as a person 601 or a ball 602 shown in the example of FIG. 18
  • a detection target for example, a moving object such as a person 601 or a ball 602 shown in the example of FIG. 18
  • the information processing apparatus is predetermined by using an extraction means for extracting a feature amount from image data, an acquisition means for cutting out a specific position from the feature amount to acquire a partial feature amount, and the partial feature amount.
  • the information processing apparatus is characterized by comprising an arithmetic means for executing the arithmetic processing of the above and a restoration means for restoring the result of the predetermined arithmetic processing to the size of the feature amount.
  • the information processing apparatus further includes a detection means for detecting an object from the image data, and the specific position is a position where the object is detected by the detection means. It is an information processing apparatus according to.
  • the information processing apparatus according to the appendix 3 is the information processing apparatus according to the appendix 1, wherein the specific position is determined based on a random number.
  • Appendix 4 The information processing apparatus according to Appendix 4 is characterized in that the specific position is a fixed position in which a part thereof is determined in advance, and the other part excluding the part is determined based on the random number.
  • the information processing apparatus according to the appendix 5 is the information processing apparatus according to the appendix 1, wherein the specific position has a predetermined grid pattern.
  • Appendix 6 The information processing apparatus according to the appendix 6 is described in any one of the appendices 1 to 5, wherein the predetermined arithmetic processing is a processing for calculating a matrix product using the plurality of the partial feature quantities. Information processing device.
  • the information processing apparatus is any one of the appendices 1 to 6, wherein the restoration means executes a process of filling a portion corresponding to a portion other than the portion cut out as the partial feature amount with a predetermined value.
  • the information processing apparatus according to item 1.
  • the information processing device according to Supplementary Note 8 is the information processing device according to any one of Supplementary note 1 to 7, wherein the image data is a plurality of continuous image data in a time series.
  • Appendix 9 In the information processing method described in Appendix 9, a feature amount is extracted from image data, a specific position is cut out from the feature amount to obtain a partial feature amount, and a predetermined arithmetic process is executed using the partial feature amount. , Is an information processing method characterized in that the result of the predetermined arithmetic processing is restored to the size of the feature amount.
  • Appendix 10 The computer program according to Appendix 10 extracts a feature amount from image data, cuts out a specific position from the feature amount to obtain a partial feature amount, executes a predetermined arithmetic process using the partial feature amount, and executes a predetermined arithmetic process. It is a computer program characterized by operating a computer so as to restore the result of the predetermined arithmetic processing to the size of the feature amount.
  • Appendix 11 The recording medium described in Appendix 11 is a recording medium characterized in that the computer program described in Appendix 10 is recorded.
  • Information processing device 11 Processor 110 Extraction unit 120 Acquisition unit 121 Random number setting unit 122 Pattern storage unit 130 Calculation unit 140 Restoration unit 150 Object detection unit 160 Object position storage unit 170 Tracking processing unit 501 House 502 Tree 601 Person 602 Ball

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

情報処理装置(10)は、画像データから特徴量を抽出する抽出手段(110)と、特徴量から特定の位置を切り出して部分特徴量を取得する取得手段(120)と、部分特徴量を用いて所定の演算処理を実行する演算手段(130)と、所定の演算処理の結果を特徴量のサイズに復元する復元手段(140)とを備える。このような情報処理装置によれば、演算処理における演算量を大幅に低減することが可能である。

Description

情報処理装置、情報処理方法、及びコンピュータプログラム
 この開示は、特徴量に関する情報を処理する情報処理装置、情報処理方法、及びコンピュータプログラムの技術分野に関する。
 この種の装置として、注意機構を利用するものが知られている。例えば特許文献1では、音声特徴量を抽出して埋め込みベクトルとして用いる音声認識モデルが注意機構を含んでいてもよいことが開示されている。特許文献2では、入力された文章から新たな文章を出力する際に、単語に重みを付けて文章を生成する注意機構を利用してもよいことが開示されている。
特開2020-016784号公報 特開2020-140469号公報
 この開示は、上述した関連する技術を改善することを目的とする。
 この開示の情報処理装置の一の態様は、画像データから特徴量を抽出する抽出手段と、前記特徴量から特定の位置を切り出して部分特徴量を取得する取得手段と、前記部分特徴量を用いて所定の演算処理を実行する演算手段と、前記所定の演算処理の結果を前記特徴量のサイズに復元する復元手段とを備える。
 この開示の情報処理方法の一の態様は、画像データから特徴量を抽出し、前記特徴量から特定の位置を切り出して部分特徴量を取得し、前記部分特徴量を用いて所定の演算処理を実行し、前記所定の演算処理の結果を前記特徴量のサイズに復元する。
 この開示のコンピュータプログラムの一の態様は、画像データから特徴量を抽出し、前記特徴量から特定の位置を切り出して部分特徴量を取得し、前記部分特徴量を用いて所定の演算処理を実行し、前記所定の演算処理の結果を前記特徴量のサイズに復元するようにコンピュータを動作させる。
第1実施形態に係る情報処理装置のハードウェア構成を示すブロック図である。 第1実施形態に係る情報処理装置の機能的構成を示すブロック図である。 第1実施形態に係る情報処理装置の動作の流れを示すフローチャートである。 第2実施形態に係る情報処理装置の機能的構成を示すブロック図である。 第2実施形態に係る情報処理装置の動作の流れを示すフローチャートである。 第3実施形態に係る情報処理装置の機能的構成を示すブロック図である。 第3実施形態に係る情報処理装置の動作の流れを示すフローチャートである。 第4実施形態に係る情報処理装置の動作の流れを示すフローチャートである。 第5実施形態に係る情報処理装置の機能的構成を示すブロック図である。 第5実施形態に係る情報処理装置の動作の流れを示すフローチャートである。 特徴マップから部分特徴量を切り出すパターンを示す概念図である。 第6実施形態に係る情報処理装置の動作の流れを示すフローチャートである。 第6実施形態に係る情報処理装置が備える注意機構の動作を示す概念図である。 第7実施形態に係る情報処理装置の動作の流れを示すフローチャートである。 第8実施形態に係る情報処理装置の機能的構成を示すブロック図である。 第8実施形態に係る情報処理装置の具体的な動作例を示す概念図である。 第9実施形態に係る情報処理装置の機能的構成を示すブロック図である。 第9実施形態に係る情報処理装置の具体的な動作例を示す概念図である。
 以下、図面を参照しながら、情報処理装置、情報処理方法、及びコンピュータプログラムの実施形態について説明する。
 <第1実施形態>
 第1実施形態に係る情報処理装置について、図1から図3を参照して説明する。
 (ハードウェア構成)
 まず、図1を参照しながら、第1実施形態に係る情報処理装置のハードウェア構成について説明する。図1は、第1実施形態に係る情報処理装置のハードウェア構成を示すブロック図である。
 図1に示すように、第1実施形態に係る情報処理装置10は、プロセッサ11と、RAM(Random Access Memory)12と、ROM(Read Only Memory)13と、記憶装置14とを備えている。情報処理装置10は更に、入力装置15と、出力装置16とを備えていてもよい。プロセッサ11と、RAM12と、ROM13と、記憶装置14と、入力装置15と、出力装置16とは、データバス17を介して接続されている。
 プロセッサ11は、コンピュータプログラムを読み込む。例えば、プロセッサ11は、RAM12、ROM13及び記憶装置14のうちの少なくとも一つが記憶しているコンピュータプログラムを読み込むように構成されている。或いは、プロセッサ11は、コンピュータで読み取り可能な記録媒体が記憶しているコンピュータプログラムを、図示しない記録媒体読み取り装置を用いて読み込んでもよい。プロセッサ11は、ネットワークインタフェースを介して、情報処理装置10の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい(つまり、読み込んでもよい)。プロセッサ11は、読み込んだコンピュータプログラムを実行することで、RAM12、記憶装置14、入力装置15及び出力装置16を制御する。本実施形態では特に、プロセッサ11が読み込んだコンピュータプログラムを実行すると、プロセッサ11内には、特徴量に関する各種処理を実行するための機能ブロックが実現される。なお、プロセッサ11の一例として、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、FPGA(field-programmable gate array)、DSP(Demand-Side Platform)、ASIC(Application Specific Integrated Circuit)が挙げられる。プロセッサ11は、上述した一例のうち一つを用いてもよいし、複数を並列で用いてもよい。
 RAM12は、プロセッサ11が実行するコンピュータプログラムを一時的に記憶する。RAM12は、プロセッサ11がコンピュータプログラムを実行している際にプロセッサ11が一時的に使用するデータを一時的に記憶する。RAM12は、例えば、D-RAM(Dynamic RAM)であってもよい。
 ROM13は、プロセッサ11が実行するコンピュータプログラムを記憶する。ROM13は、その他に固定的なデータを記憶していてもよい。ROM13は、例えば、P-ROM(Programmable ROM)であってもよい。
 記憶装置14は、情報処理装置10が長期的に保存するデータを記憶する。記憶装置14は、プロセッサ11の一時記憶装置として動作してもよい。記憶装置14は、例えば、ハードディスク装置、光磁気ディスク装置、SSD(Solid State Drive)及びディスクアレイ装置のうちの少なくとも一つを含んでいてもよい。
 入力装置15は、情報処理装置10のユーザからの入力指示を受け取る装置である。入力装置15は、例えば、キーボード、マウス及びタッチパネルのうちの少なくとも一つを含んでいてもよい。入力装置15は、専用のコントローラ(操作端末)であってもよい。また、入力装置15は、ユーザが保有する端末(例えば、スマートフォンやタブレット端末等)を含んでいてもよい。入力装置15は、例えばマイクを含む音声入力が可能な装置であってもよい。
 出力装置16は、情報処理装置10に関する情報を外部に対して出力する装置である。例えば、出力装置16は、情報処理装置10に関する情報を表示可能な表示装置(例えば、ディスプレイ)であってもよい。ここでの表示装置は、テレビモニタ、パソコンモニタ、スマートフォンのモニタ、タブレット端末のモニタ、その他の携帯端末のモニタであってよい。また、表示装置は、店舗等の各種施設に設置される大型モニタやデジタルサイネージ等であってよい。また、出力装置16は、画像以外の形式で情報を出力する装置であってもよい。例えば、出力装置16は、情報処理装置10に関する情報を音声で出力するスピーカであってもよい。
 (機能的構成)
 次に、図2を参照しながら、第1実施形態に係る情報処理装置10の機能的構成について説明する。図2は、第1実施形態に係る情報処理装置の機能的構成を示すブロック図である。
 図2に示すように、第1実施形態に係る情報処理装置10は、その機能を実現するための処理ブロックとして、抽出部110と、取得部120と、演算部130と、復元部140とを備えている。なお、抽出部110、取得部120、演算部130、及び復元部140の各々は、上述したプロセッサ11(図1参照)によって実現されてよい。
 抽出部110は、画像データから特徴量を抽出可能に構成されている。ここでの「特徴量」は、画像中に存在する対象を特定のタスクで認識するために、認識に用いる特徴的な領域や位置を示すように変換されたデータであり、例えば画像データに対して所定の抽出処理を実行することで抽出することができる。。特徴量の具体的な抽出方法については、既存の技術を適宜採用することができるため、詳細な説明は省略する。抽出部110で抽出された特徴量は、取得部120に出力される構成となっている。
 取得部120は、画像データから抽出された特徴量の一部を切り出して、部分特徴量を取得可能に構成されている。あるいは、取得部120は、画像の一部を切り出してから、切り出した一部の画像に対して抽出処理を実行することで部分特徴量を取得してもよい。また、取得部120は、特徴量の一部を特定することで部分特徴量を取得してもよい。取得部120は、特徴量の一部を絞り込むことで部分特徴量を取得してもよい。取得部120は、特徴量を分割して一部を選択することで部分特徴量を取得してもよい。部分特徴量は、上述したように特徴量の一部を切り出したものであるため、もともとの特徴量と比べるとデータ量が小さい。なお、特徴量のどの部分を切り出すかについては、後述する他の実施形態において詳しく説明する。取得部120で切り出された部分特徴量は、演算部130に入力される構成となっている。
 演算部130は、取得部120で抽出された部分特徴量を用いて、各種演算処理を実行可能に構成されている。演算部130は、演算処理を複数回実行するように構成されてもよい。例えば、演算部130は、第1の演算処理を行った後に、第2の演算処理を行ってもよい。この場合、第1の演算処理と第2の演算処理とは、同種の演算処理であってもよいし、異なる演算処理であってもよい。また、演算部130は、3つ以上の演算処理を行ってもよい。また演算部130は、複数種類の演算処理を実行するように構成されてもよい。演算部130は、部分特徴量に加えて、部分特徴量以外の情報(例えば、切り出し前の特徴量)を用いて演算処理を行ってもよい。なお、演算部130が実行する演算処理の具体的な内容については、後述する他の実施形態において詳しく説明する。演算部130による演算結果は、復元部140に出力される構成となっている。
 復元部140は、演算部130の演算結果(即ち、部分特徴量を用いた演算結果)を、切り出し前の特徴量のサイズ(即ち、抽出部110で抽出された特徴量のサイズ)に復元可能に構成されている。なお、復元部140が実行する復元処理の具体的な内容については、後述する他の実施形態において詳しく説明する。
 (動作の流れ)
 次に、図3を参照しながら、第1実施形態に係る情報処理装置10の動作の流れについて説明する。図3は、第1実施形態に係る情報処理装置の動作の流れを示すフローチャートである。
 図3に示すように、第1実施形態に係る情報処理装置10の動作が開始されると、まず抽出部110が画像データから特徴量を抽出する(ステップS11)。続いて、取得部120が、抽出した特徴量の一部を切り出して部分特徴量を取得する(ステップS12)。続いて、演算部130が、切り出した部分特徴量を用いて演算処理を実行する(ステップS13)。続いて、復元部140が、演算部130の演算結果をもともとの特徴量のサイズに復元する(ステップS14)。
 (技術的効果)
 次に、第1実施形態に係る情報処理装置10によって得られる技術的効果について説明する。
 図1から図3で説明したように、第1実施形態に係る情報処理装置10では、特徴量から部分特徴量が切り出され、切り出した部分特徴量を用いて演算処理が実行される。このようにすれば、特徴量に対してそのまま演算処理を実行する場合と比べて、演算処理に係る負荷を低減することが可能である。なお、演算処理が実行された後には、演算結果が特徴量のサイズに復元される。このため、部分特徴量(言い換えれば、実際の特徴量を小さなサイズへ変換した特徴量)を用いて演算処理を実行した場合でも、最終的に適切な大きさのデータを得ることができる。
 画像データの特徴量は例えば解像度に応じて大きくなるため、特徴量のデータサイズが大きくなってしまうと、演算処理における処理量が膨大な量になってしまうおそれがある。本実施形態に係る情報処理装置10は、上述したような、演算処理の負荷が極めて大きくなってしまうような場合において、顕著な技術的効果を発揮する。
 <第2実施形態>
 第2実施形態に係る情報処理装置10について、図4及び図5を参照して説明する。なお、第2実施形態は、上述した第1実施形態と比較して一部の構成及び動作が異なるのみであり、例えばハードウェア構成(図1参照)等については、第1実施形態と同様であってよい。このため、以下では、第1実施形態と異なる部分について詳しく説明し、他の重複する部分については適宜説明を省略するものとする。
 (機能的構成)
 まず、図4を参照しながら、第2実施形態に係る情報処理装置10の機能的構成について説明する。図4は、第2実施形態に係る情報処理装置の機能的構成を示すブロック図である。なお、図4では、図2で示した構成要素と同様の要素に同一の符号を付している。
 図4に示すように、第2実施形態に係る情報処理装置10は、その機能を実現するための処理ブロックとして、抽出部110と、取得部120と、演算部130と、復元部140と、物体検出部150とを備えている。即ち、第2実施形態に係る情報処理装置10は、第1実施形態の構成要素(図2参照)に加えて、物体検出部150を更に備えて構成されている。なお、物体検出部150は、上述したプロセッサ11(図1参照)によって実現されてよい。
 物体検出部150は、画像中に含まれている物体を検出可能に構成されている。例えば、物体検出部150は、画像における物体の位置や大きさを検出可能に構成されている。物体部150は、物体の輪郭や存在領域(例えば、物体を囲む矩形領域等)を検出可能に構成されてもよい。物体検出部150は、検出した物体の種別や属性等を推定する機能を有していてもよい。なお、物体検出部150による具体的な検出方法については、既存の技術を適宜採用することができるため、ここでの詳しい説明については省略する。物体検出部150で検出された物体に関する情報は、取得部120に出力される構成となっている。
 (動作の流れ)
 次に、図5を参照しながら、第2実施形態に係る情報処理装置10の動作の流れについて説明する。図5は、第2実施形態に係る情報処理装置の動作の流れを示すフローチャートである。なお、図5では、図3で示した処理と同様の処理に同一の符号を付している。
 図5に示すように、第2実施形態に係る情報処理装置10の動作が開始されると、抽出部110が画像データから特徴量を抽出する(ステップS11)。一方で、物体検出部150は、画像データから物体を検出する(ステップS21)。なお、ステップS21の処理は、ステップS11の処理と相前後して実行されてもよいし、同時に並行して実行されてもよい。図5に示すように、特徴量を抽出してから物体を検出する場合、物体検出部150は、抽出部110で抽出した特徴量を用いて物体を検出してもよい。
 続いて、取得部120は、検出された物体の位置に基づいて部分特徴量を切り出す(ステップS22)。例えば、取得部120は、物体が検出された位置に対応する箇所の特徴量を切り出して、部分特徴量として取得してもよい。取得部120は、複数の物体が検出された場合、すべての物体の位置に基づいて部分特徴量を切り出すようにしてもよいし、一部の物体の位置に基づいて部分特徴量を切り出すようにしてもよい。或いは、取得部120は、物体が検出されていない位置に対応する箇所の特徴量を切り出して、部分特徴量として取得してもよい。また、取得部120は、1枚の画像を複数の分割領域に区切る処理(例えば、正方形画像に十字の線を引いて、4つの正方形領域に分割する処理等)を実行して、物体が存在する分割領域を用いて部分特徴量を切り出すようにしてもよい。
 続いて、演算部130が、切り出した部分特徴量を用いて演算処理を実行する(ステップS13)。続いて、復元部140が、演算部130の演算結果をもともとの特徴量のサイズに復元する(ステップS14)。
 (技術的効果)
 次に、第2実施形態に係る情報処理装置10によって得られる技術的効果について説明する。
 図4及び図5で説明したように、第2実施形態に係る情報処理装置10では、物体が検出された位置に基づいて部分特徴量が切り出される。このようにすれば、物体の存在を考慮して適切に部分特徴量を切り出すことが可能となる。例えば、物体が存在する位置は、その他の位置と比べて重要な情報が含まれている可能性が高いと考えることもできる。このような場合に、物体の位置に対応する箇所を切り出すようにすれば、より適切な部分特徴量を取得することができる。
 <第3実施形態>
 第3実施形態に係る情報処理装置10について、図6及び図7を参照して説明する。なお、第3実施形態は、上述した第1及び第2実施形態と比較して一部の構成及び動作が異なるのみであり、その他の部分については、第1及び第2実施形態と同様であってよい。このため、以下では、第1及び第2実施形態と異なる部分について詳しく説明し、他の重複する部分については適宜説明を省略するものとする。
 (機能的構成)
 まず、図6を参照しながら、第3実施形態に係る情報処理装置10の機能的構成について説明する。図6は、第3実施形態に係る情報処理装置の機能的構成を示すブロック図である。なお、図6では、図2で示した構成要素と同様の要素に同一の符号を付している。
 図6に示すように、第3実施形態に係る情報処理装置10は、その機能を実現するための処理ブロックとして、抽出部110と、取得部120と、演算部130と、復元部140とを備えている。そして特に、第3実施形態に係る取得部120は、乱数設定部121を備えて構成されている。
 乱数設定部121は、特徴量から部分特徴量を切り出す際に用いる乱数を設定可能に構成されている。ここでの乱数の種別は特に限定されないが、例えば一様分布の乱数であってもよいし、正規分布の乱数であってもよい。或いは、所定の確率分布に対応する乱数であってもよい。
 (動作の流れ)
 次に、図7を参照しながら、第3実施形態に係る情報処理装置10の動作の流れについて説明する。図7は、第3実施形態に係る情報処理装置の動作の流れを示すフローチャートである。なお、図7では、図3で示した処理と同様の処理に同一の符号を付している。
 図7に示すように、第3実施形態に係る情報処理装置10の動作が開始されると、まず抽出部110が画像データから特徴量を抽出する(ステップS11)。続いて、乱数設定部121が、取得部120が部分特徴量を切り出す際に用いる乱数を設定する(ステップS31)。そして、取得部120は、抽出した特徴量の一部を乱数に基づいて切り出して部分特徴量を取得する(ステップS32)。続いて、演算部130が、切り出した部分特徴量を用いて演算処理を実行する(ステップS13)。続いて、復元部140が、演算部130の演算結果をもともとの特徴量のサイズに復元する(ステップS14)。
 (技術的効果)
 次に、第3実施形態に係る情報処理装置10によって得られる技術的効果について説明する。
 図6及び図7で説明したように、第3実施形態に係る情報処理装置10では、乱数に基づいて部分特徴量が切り出される(言い換えれば、ランダムに切り出される)。このようにすれば、より容易に部分特徴量を切り出すことが可能である。具体的には、部分特徴量を切り出す具体的な位置を予め細かく設定する手間を省くことができる。或いは、部分特徴量を切り出す位置を決定するための別処理を実行せずに済む。更に、部分特徴量として切り出す位置を、画像全体から満遍なく選択することもできる。
 <第4実施形態>
 第4実施形態に係る情報処理装置10について、図8を参照して説明する。なお、第4実施形態は、上述した第3実施形態(即ち、乱数に基づいて部分特徴量を切り出す実施形態)と比較して一部の動作が異なるのみであり、その他の部分については、第3実施形態と同様であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳しく説明し、他の重複する部分については適宜説明を省略するものとする。
 (動作の流れ)
 まず、図8を参照しながら、第4実施形態に係る情報処理装置10の動作の流れについて説明する。図8は、第4実施形態に係る情報処理装置の動作の流れを示すフローチャートである。なお、図8では、図7で示した処理と同様の処理に同一の符号を付している。
 図8に示すように、第4実施形態に係る情報処理装置10の動作が開始されると、まず抽出部110が画像データから特徴量を抽出する(ステップS11)。続いて、乱数設定部121が、取得部120が部分特徴量を切り出す際に用いる乱数を設定する(ステップS31)。
 そして第4実施形態では特に、取得部120が、部分特徴量の一部を固定位置から切り出して取得し、その他の部分を乱数に基づいて切り出して取得する(ステップS41)。なお、ここでの「固定位置」は、予め設定された固定位置であってもよいし、別処理(例えば、第2実施形態で説明した物体が存在する領域を検出する処理等)によって算出された固定位置であってもよい。
 続いて、演算部130が、切り出した部分特徴量を用いて演算処理を実行する(ステップS13)。続いて、復元部140が、演算部130の演算結果をもともとの特徴量のサイズに復元する(ステップS14)。
 (技術的効果)
 次に、第4実施形態に係る情報処理装置10によって得られる技術的効果について説明する。
 図8で説明したように、第4実施形態に係る情報処理装置10では、特徴量の一部が固定位置で切り出され、それ以外の他部が乱数に基づいて切り出されることで、部分特徴量が取得される。このようにすれば、一部の部分特徴量が固定位置から切り出されるため、すべてを乱数に基づいて切り出す場合と比較して、より適切な位置を部分特徴量として切り出すことが可能となる。また、一部を除く他部が乱数に基づいて切り出されるため、すべてを固定位置に基づいて切り出す場合と比較して、容易に部分特徴量を切り出すことができる。
 <変形例>
 上述した第4実施形態では、部分特徴量の一部を固定位置から取得し、その他の部分を乱数に基づいて取得する例を挙げたが、部分特徴量のすべてを固定位置から切り出して取得してもよい。この場合、乱数に基づいて切り出される部分がないため、より適切な位置を部分特徴量として切り出すことが可能となる。
 <第5実施形態>
 第5実施形態に係る情報処理装置10について、図9から図11を参照して説明する。なお、第5実施形態は、上述した第1から第4実施形態と比較して一部の構成及び動作が異なるのみであり、その他の部分については、第1から第4実施形態と同様であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳しく説明し、他の重複する部分については適宜説明を省略するものとする。
 (機能的構成)
 まず、図9を参照しながら、第5実施形態に係る情報処理装置10の機能的構成について説明する。図9は、第5実施形態に係る情報処理装置の機能的構成を示すブロック図である。なお、図9では、図2で示した構成要素と同様の要素に同一の符号を付している。
 図9に示すように、第5実施形態に係る情報処理装置10は、その機能を実現するための処理ブロックとして、抽出部110と、取得部120と、演算部130と、復元部140とを備えている。そして特に、第5実施形態に係る取得部120は、パターン記憶部122を備えて構成されている。パターン記憶部122は、上述した記憶装置14(図1参照)によって実現されてもよい
 パターン記憶部122は、特徴量から部分特徴量を切り出す位置を示す所定パターンを記憶可能に構成されている。所定パターンは特に限定されないが、例えばグリッド状のパターンとして設定されてよい。所定のパターンは、事前のシミュレーション結果等に基づいて、より適切な部分特徴量を切り出せる位置を示すパターンとして設定されてよい。また、パターン記憶部122は、複数のパターンを記憶可能に構成されてもよい。この場合、取得部120は、パターン記憶部122が記憶している複数のパターンの中から、使用する1つのパターンを選択して部分特徴量を切り出すようにすればよい。或いは、取得部120は、パターン記憶部122が記憶している複数のパターンを適宜組み合わせて切り出しパターンを生成し、その切り出しパターンに基づいて部分特徴量を切り出すようにしてもよい。
 (動作の流れ)
 次に、図10を参照しながら、第5実施形態に係る情報処理装置10の動作の流れについて説明する。図10は、第5実施形態に係る情報処理装置の動作の流れを示すフローチャートである。なお、図10では、図3で示した処理と同様の処理に同一の符号を付している。
 図10に示すように、第5実施形態に係る情報処理装置10の動作が開始されると、まず抽出部110が画像データから特徴量を抽出する(ステップS11)。続いて、取得部120が、パターン記憶部122から部分特徴量の切り出しに用いるパターンを読み出す(ステップS51)。そして、取得部120は、読みだしたパターンに基づいて部分特徴量を切り出す(ステップS52)。続いて、演算部130が、切り出した部分特徴量を用いて演算処理を実行する(ステップS13)。続いて、復元部140が、演算部130の演算結果をもともとの特徴量のサイズに復元する(ステップS14)。
 (パターンの具体例)
 次に、図11を参照しながら、第5実施形態に係る情報処理装置10で用いられる所定パターンの具体例について説明する。図11は、特徴マップから部分特徴量を切り出すパターンを示す概念図である。なお、以下では、特徴量として抽出された特徴マップから部分特徴量を切り出す例について説明する。
 図11に示すように、第5実施形態に係る取得部120は、画像データの特徴量として抽出された特徴マップから、所定のグリッド状パターンに基づいて、部分特徴量を切り出す。図11に示す例では、11×11のグリッドから9マス分の部分特徴量が切り出されている。このように、取得部120は、特徴マップをグリッド状に分割して、所定パターンが示す位置のマス目だけを部分特徴量として切り出してもよい。なお、図11に示すパターンはあくまで一例であり、これとは異なるパターンを用いて部分特徴量を切り出してもよい。
 (技術的効果)
 次に、第5実施形態に係る情報処理装置10によって得られる技術的効果について説明する。
 図9から図11で説明したように、第5実施形態に係る情報処理装置10では、予め設定された所定のパターンに基づいて部分特徴量が切り出される。このようにすれば、より容易に部分特徴量を切り出すことが可能である。具体的には、部分特徴量として切り出すべき部分を所定パターンとして予め設定しておけば、所定パターンを読み出すだけの簡単な処理で、適切に部分特徴量を切り出すことが可能となる。
 <第6実施形態>
 第6実施形態に係る情報処理装置10について、図12及び図13を参照して説明する。なお、第6実施形態は、上述した第1から第5実施形態と比較して一部の動作が異なるのみであり、その他の部分については第1から第5実施形態と同様であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳しく説明し、他の重複する部分については適宜説明を省略するものとする。
 (動作の流れ)
 まず、図12及び図13を参照しながら、第6実施形態に係る情報処理装置10の動作の流れについて説明する。図12は、第6実施形態に係る情報処理装置の動作の流れを示すフローチャートである。図13は、第6実施形態に係る情報処理装置が備える注意機構の動作を示す概念図である。なお、注意機構については既存の技術であるため、以下では注意機構に関する各用語の詳しい説明については適宜省略している。
 図12及び図13に示すように、第6実施形態に係る情報処理装置10の動作は、例えばニューラルネットワークが備える注意機構の動作として実現される。第6実施形態に係る情報処理装置10の動作が開始されると、まず抽出部110が画像データからQ(Query:クエリ)、K(Key:キー)、及びV(Value:バリュー)の特徴マップを抽出する(ステップS61)。そして、取得部120は、抽出したQ、K及びVの特徴マップから一部を切り出して部分特徴量を取得する(ステップS62)。なお、Q、K及びVの特徴マップからは、それぞれ共通する位置が部分特徴量として切り出される(図13参照)。
 続いて、演算部130が、Qの特徴マップから切り出した部分特徴量と、Kの特徴マップから切り出した部分特徴量との行列積を演算する(ステップS63)。その後、演算部130は、演算した行列積に対して正規化処理を実行する(ステップS64)。正規化処理には、例えばソフトマックス関数を用いることができる。
 続いて、演算部130は、Qの部分特徴量とKの部分特徴量との行列積を正規化したもの(即ち、重み)と、Vの特徴マップから切り出した部分特徴量との行列積を演算する(ステップS65)。その後、復元部140は、演算した行列積に対して復元処理を実行する(ステップS66)。復元部140は更に、残差処理を実行する(ステップS67)。
 (技術的効果)
 次に、第6実施形態に係る情報処理装置10によって得られる技術的効果について説明する。
 図12及び図13で説明したように、第5実施形態に係る情報処理装置10では、演算部の処理が、注意機構における行列積の演算処理として実行される。このような場合、特徴マップを用いてそのまま行列積を演算すると、特徴マップの大きさに応じて演算量が膨大になってしまう。例えば特徴マップの縦幅と横幅をH、W、チャンネル数をCとすると、上述したステップS63及びステップS65の演算量は、それぞれ下記式(1)及び(2)のようになる。
Figure JPOXMLDOC01-appb-M000001
Figure JPOXMLDOC01-appb-M000002
 一方、第5実施形態に係る情報処理装置10では、すでに説明したように特徴マップから切り出された部分特徴量を用いて行列積が演算される。よって、部分特徴量として切り出す個数をNとすると、上述したステップS63及びステップS65の演算量は、それぞれ下記式(3)及び(4)のようになる。
Figure JPOXMLDOC01-appb-M000003
Figure JPOXMLDOC01-appb-M000004
 ここで、Nの値は、HWよりも小さい値である。よって、第5実施形態に係る情報処理装置10によれば、行列積の演算処理における演算量を低減することが可能である。
 <第7実施形態>
 第7実施形態に係る情報処理装置10について、図14を参照して説明する。なお、第7実施形態は、上述した第6実施形態(即ち、注意機構の行列積を演算する実施形態)における復元処理の具体例を説明するものであり、その他の部分については、第6実施形態と同様であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳しく説明し、他の重複する部分については適宜説明を省略するものとする。
 (動作の流れ)
 まず、図14を参照しながら、第7実施形態に係る情報処理装置10の動作の流れについて説明する。図14は、第7実施形態に係る情報処理装置の動作の流れを示すフローチャートである。なお、図14では、図12で示した処理と同様の処理に同一の符号を付している。
 図14に示すように、第7実施形態に係る情報処理装置10の動作が開始されると、まず抽出部110が画像データからQ(Query:クエリ)、K(Key:キー)、及びV(Value:バリュー)の特徴マップを抽出する(ステップS61)。そして、取得部120は、抽出したQ、K及びVの特徴マップから一部を切り出して部分特徴量を取得する(ステップS62)。
 続いて、演算部130が、Qの特徴マップから切り出した部分特徴量と、Kの特徴マップから切り出した部分特徴量との行列積を演算する(ステップS63)。その後、演算部130は、演算した行列積に対して正規化処理を実行する(ステップS64)。続いて、演算部130は、Qの部分特徴量とKの部分特徴量との行列積を正規化したもの(即ち、重み)と、Vの特徴マップから切り出した部分特徴量との行列積を演算する(ステップS65)。
 続いて、復元部140は、Vの特徴マップに対して、部分特徴量として切り出さなかった部分を「0」で埋める処理(以下、適宜「0埋め処理」と称する)を実行する(ステップS71)。そして、復元部140は、0埋め処理を実行したVの特徴マップを、ステップS65の演算結果に代入する(ステップS72)。このように、第7実施形態に係る復元部140は、上述したステップS71及びS72の処理を復元処理として実行する。その後、復元部140は、残差処理を実行する(ステップS67)。
 (技術的効果)
 次に、第7実施形態に係る情報処理装置10によって得られる技術的効果について説明する。
 図14で説明したように、第7実施形態に係る情報処理装置10では、切り出した部分以外を0埋め処理した特徴量を代入することで復元処理が実行される。このようにすれば、演算部130による演算結果を、比較的簡単な処理で元の特徴量の大きさに復元することができる。
 <第8実施形態>
 第8実施形態に係る情報処理装置10について、図15及び図16を参照して説明する。なお、第8実施形態は、上述した第1から第7実施形態と比較して一部の構成及び動作(具体的には動画を対象とする点)が異なるのみであり、その他の部分については、第1から第7実施形態と同様であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳しく説明し、他の重複する部分については適宜説明を省略するものとする。
 (機能的構成)
 まず、図15を参照しながら、第8実施形態に係る情報処理装置10の機能的構成について説明する。図15は、第8実施形態に係る情報処理装置の機能的構成を示すブロック図である。なお、図15では、図4で示した構成要素と同様の要素に同一の符号を付している。
 図15に示すように、第8実施形態に係る情報処理装置10は、その機能を実現するための処理ブロックとして、抽出部110と、取得部120と、演算部130と、復元部140と、物体検出部150と、物体位置記憶部160とを備えている。即ち、第8実施形態に係る情報処理装置10は、第2実施形態の構成要素(図4参照)に加えて、物体位置記憶部160を更に備えて構成されている。なお、物体位置記憶部160は、上述した記憶装置14(図1参照)によって実現されてよい。
 物体位置記憶部160は、物体検出部150で検出した位置(即ち、画像における物体が存在している位置)を記憶可能に構成されている。物体位置記憶部160は、物体検出部150で複数の物体が検出された場合、それら複数の物体の位置をそれぞれ記憶可能に構成されてよい。物体位置記憶部160は、新たな物体が検出された場合、その都度、その位置を記憶するようにしてもよい。また、物体位置記憶部160は、不要になった物体の位置に関する情報を適宜削除する機能を有していてもよい。物体位置記憶部160に記憶された物体の位置に関する情報は、取得部120によって適宜読み出し可能とされている。
 (具体的な動作例)
 次に、図16を参照しながら、第8実施形態に係る情報処理装置10の具体的な動作例について説明する。図16は、第8実施形態に係る情報処理装置の具体的な動作例を示す概念図である。
 図16に示すように、第8実施形態に係る情報処理装置10に、家501と、木502とが撮像された動画が入力されているとする。この場合、物体検出部150は、最初のフレームである第1フレームを処理する際に家501と、木502とをそれぞれ検出する。そして、物体位置記憶部160は、検出された家501の位置と、木502の位置とをそれぞれ記憶する。
 第1フレームについては、検出された家501の位置と、木502の位置とに基づいて、取得部120が部分特徴量を切り出す。そして、続く第2フレームについては、第1フレームで検出された家501の位置と、木502の位置とに基づいて、取得部120が部分特徴量を切り出す。同様に、続く第3フレームについても、第1フレームで検出された家501の位置と、木502の位置とに基づいて、取得部120が部分特徴量を切り出す。このように、第8実施形態に係る情報処理装置10では、最初に検出した物体の位置に基づいて、その後のフレームについても部分特徴量の切り出しが行われる。
 なお、部分特徴量の切り出し位置は、所定のタイミングで変更されてもよい。例えば、動画の場面(シーン)が大きく変化した場合には、改めて物体検出部150が物体の検出を行い、それ以降のフレームについては、新たに検出された物体の位置に基づいて部分特徴量が切り出されてもよい。
 (技術的効果)
 次に、第8実施形態に係る情報処理装置10によって得られる技術的効果について説明する。
 図15及び図16で説明したように、第8実施形態に係る情報処理装置10では、動画データ(即ち、時系列で連続する画像データ)を扱う場合に、検出された物体の位置が記憶され、その後については記憶された物体の位置に基づいて部分特徴量が切り出される。このようにすれば、すべてのフレームについて物体の位置を検出する必要がなくなるため、処理不可を大幅に低減することができる。第8実施形態に係る情報処理装置10は、画像中の位置が大きく変化しない物体(例えば、図16の例で示した家501や木502のように動かない物体)が検出対象となる場合において、顕著に効果を発揮する。
 <第9実施形態>
 第9実施形態に係る情報処理装置10について、図17及び図18を参照して説明する。なお、第9実施形態は、上述した第8実施形態と比較して一部の構成及び動作(具体的には、物体の位置をトラッキングする点)が異なるのみであり、その他の部分については、第8実施形態と同様であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳しく説明し、他の重複する部分については適宜説明を省略するものとする。
 (機能的構成)
 まず、図17を参照しながら、第9実施形態に係る情報処理装置10の機能的構成について説明する。図17は、第9実施形態に係る情報処理装置の機能的構成を示すブロック図である。なお、図17では、図15で示した構成要素と同様の要素に同一の符号を付している。
 図17に示すように、第8実施形態に係る情報処理装置10は、その機能を実現するための処理ブロックとして、抽出部110と、取得部120と、演算部130と、復元部140と、物体検出部150と、トラッキング処理部170とを備えている。即ち、第8実施形態に係る情報処理装置10は、第8実施形態の物体位置記憶部160(図15参照)に代えて、トラッキング処理部170を備えて構成されている。なお、トラッキング処理部170は、上述したプロセッサ11(図1参照)によって実現されてよい。
 トラッキング処理部170は、物体検出部150で検出した物体の位置をトラッキング(言い換えれば、追跡)する処理を実行可能に構成されている。トラッキング処理部170は、例えば物体の移動方向や移動速度等から、各フレームにおける物体の位置を推定して出力する。なお、トラッキング処理の具体的な処理内容については、既存の技術を適宜採用することができるため、ここでの詳しい説明については省略する。
 (具体的な動作例)
 次に、図18を参照しながら、第9実施形態に係る情報処理装置10の具体的な動作例について説明する。図18は、第9実施形態に係る情報処理装置の具体的な動作例を示す概念図である。
 図18に示すように、第9実施形態に係る情報処理装置10に、人物601と、ボール602とが撮像された動画が入力されているとする。この場合、物体検出部150は、最初のフレームである第1フレームを処理する際に人物601と、ボール602とをそれぞれ検出する。そして、トラッキング処理部170は、検出された人物601と、ボール602とをそれぞれトラッキングして、その後のフレームにおける人物601の位置と、ボール602の位置とをそれぞれ推定する。
 第1フレームについては、検出された人物601の位置と、ボール602の位置とに基づいて、取得部120が部分特徴量を切り出す。そして、続く第2フレームについては、トラッキング処理で推定された人物601の位置と、ボール602の位置とに基づいて、取得部120が部分特徴量を切り出す。同様に、続く第3フレームについても、トラッキング処理で推定された人物601の位置と、ボール602の位置とに基づいて、取得部120が部分特徴量を切り出す。このように、第9実施形態に係る情報処理装置10では、トラッキングした物体の位置に基づいて部分特徴量の切り出しが行われる。
 なお、トラッキング処理部170は、画像中のすべての物体に対してトラッキング処理を実行してもよいし、一部の物体(例えば、動きの大きい物体や、重要度の高い物体)のみに対してトラッキング処理を実行してもよい。トラッキング処理部170がトラッキング処理を実行しない物体については、第8実施形態(図15及び図16参照)のように、記憶された物体の位置に基づいて、部分特徴量を切り出すようにしてもよい。
 (技術的効果)
 次に、第9実施形態に係る情報処理装置10によって得られる技術的効果について説明する。
 図17及び図18で説明したように、第9実施形態に係る情報処理装置10では、動画データ(即ち、時系列で連続する画像データ)を扱う場合に、物体の位置をトラッキングして部分特徴量が切り出される。このようにすれば、各フレームにおける物体の位置を考慮して(言い換えれば、物体の動きを考慮して)、適切に部分特徴量を切り出すことが可能となる。第9実施形態に係る情報処理装置10は、画像中の位置が大きく変化する物体(例えば、図18の例で示した人物601やボール602のように動いている物体)が検出対象となる場合において、顕著に効果を発揮する。
 <付記>
 以上説明した実施形態に関して、更に以下の付記のようにも記載されうるが、以下には限られない。
 (付記1)
 付記1に記載の情報処理装置は、画像データから特徴量を抽出する抽出手段と、前記特徴量から特定の位置を切り出して部分特徴量を取得する取得手段と、前記部分特徴量を用いて所定の演算処理を実行する演算手段と、前記所定の演算処理の結果を前記特徴量のサイズに復元する復元手段とを備えることを特徴とする情報処理装置である。
 (付記2)
 付記2に記載の情報処理装置は、前記画像データから物体を検出する検出手段を更に備え、前記特定の位置は、前記検出手段により前記物体が検出された位置であることを特徴とする付記1に記載の情報処理装置である。
 (付記3)
 付記3に記載の情報処理装置は、前記特定の位置は、乱数に基づいて決定されることを特徴とする付記1に記載の情報処理装置である。
 (付記4)
 付記4に記載の情報処理装置は、前記特定の位置は、一部が予め決定された固定位置であり、前記一部を除く他部が前記乱数に基づいて決定されることを特徴とする付記3に記載の情報処理装置である。
 (付記5)
 付記5に記載の情報処理装置は、前記特定の位置は、グリッド状の所定パターンであることを特徴とする付記1に記載の情報処理装置である。
 (付記6)
 付記6に記載の情報処理装置は、前記所定の演算処理は、複数の前記部分特徴量を用いて行列積を演算する処理であることを特徴とする付記1から5のいずれか一項に記載の情報処理装置である。
 (付記7)
 付記7に記載の情報処理装置は、前記復元手段は、前記部分特徴量として切り出した部分以外の部分に対応する箇所を所定値で埋める処理を実行することを特徴とする付記1から6のいずれか一項に記載の情報処理装置である。
 (付記8)
 付記8に記載の情報処理装置は、前記画像データは、時系列で連続する複数の画像データであることを特徴とする付記1から7のいずれか一項に記載の情報処理装置である。
 (付記9)
 付記9に記載の情報処理方法は、画像データから特徴量を抽出し、前記特徴量から特定の位置を切り出して部分特徴量を取得し、前記部分特徴量を用いて所定の演算処理を実行し、前記所定の演算処理の結果を前記特徴量のサイズに復元することを特徴とする情報処理方法である。
 (付記10)
 付記10に記載のコンピュータプログラムは、画像データから特徴量を抽出し、前記特徴量から特定の位置を切り出して部分特徴量を取得し、前記部分特徴量を用いて所定の演算処理を実行し、前記所定の演算処理の結果を前記特徴量のサイズに復元するようにコンピュータを動作させることを特徴とするコンピュータプログラムである。
 (付記11)
 付記11に記載の記録媒体は、付記10に記載のコンピュータプログラムが記録されていることを特徴とする記録媒体である。
 この開示は、請求の範囲及び明細書全体から読み取ることのできる発明の要旨又は思想に反しない範囲で適宜変更可能であり、そのような変更を伴う情報処理装置、情報処理方法、及びコンピュータプログラムもまたこの開示の技術思想に含まれる。
 10 情報処理装置
 11 プロセッサ
 110 抽出部
 120 取得部
 121 乱数設定部
 122 パターン記憶部
 130 演算部
 140 復元部
 150 物体検出部
 160 物体位置記憶部
 170 トラッキング処理部
 501 家
 502 木
 601 人物
 602 ボール

Claims (10)

  1.  画像データから特徴量を抽出する抽出手段と、
     前記特徴量から特定の位置を切り出して部分特徴量を取得する取得手段と、
     前記部分特徴量を用いて所定の演算処理を実行する演算手段と、
     前記所定の演算処理の結果を前記特徴量のサイズに復元する復元手段と
     を備えることを特徴とする情報処理装置。
  2.  前記画像データから物体を検出する検出手段を更に備え、
     前記特定の位置は、前記検出手段により前記物体が検出された位置である
     ことを特徴とする請求項1に記載の情報処理装置。
  3.  前記特定の位置は、乱数に基づいて決定されることを特徴とする請求項1に記載の情報処理装置。
  4.  前記特定の位置は、一部が予め決定された固定位置であり、前記一部を除く他部が前記乱数に基づいて決定されることを特徴とする請求項3に記載の情報処理装置。
  5.  前記特定の位置は、グリッド状の所定パターンであることを特徴とする請求項1に記載の情報処理装置。
  6.  前記所定の演算処理は、複数の前記部分特徴量を用いて行列積を演算する処理であることを特徴とする請求項1から5のいずれか一項に記載の情報処理装置。
  7.  前記復元手段は、前記部分特徴量として切り出した部分以外の部分に対応する箇所を所定値で埋める処理を実行することを特徴とする請求項1から6のいずれか一項に記載の情報処理装置。
  8.  前記画像データは、時系列で連続する複数の画像データであることを特徴とする請求項1から7のいずれか一項に記載の情報処理装置。
  9.  画像データから特徴量を抽出し、
     前記特徴量から特定の位置を切り出して部分特徴量を取得し、
     前記部分特徴量を用いて所定の演算処理を実行し、
     前記所定の演算処理の結果を前記特徴量のサイズに復元する
     ことを特徴とする情報処理方法。
  10.  画像データから特徴量を抽出し、
     前記特徴量から特定の位置を切り出して部分特徴量を取得し、
     前記部分特徴量を用いて所定の演算処理を実行し、
     前記所定の演算処理の結果を前記特徴量のサイズに復元する
     ようにコンピュータを動作させることを特徴とするコンピュータプログラム。
PCT/JP2020/042445 2020-11-13 2020-11-13 情報処理装置、情報処理方法、及びコンピュータプログラム WO2022102083A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2022561807A JPWO2022102083A1 (ja) 2020-11-13 2020-11-13
US18/034,513 US20230394784A1 (en) 2020-11-13 2020-11-13 Information processing apparatus, information processing method, and computer program
PCT/JP2020/042445 WO2022102083A1 (ja) 2020-11-13 2020-11-13 情報処理装置、情報処理方法、及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/042445 WO2022102083A1 (ja) 2020-11-13 2020-11-13 情報処理装置、情報処理方法、及びコンピュータプログラム

Publications (1)

Publication Number Publication Date
WO2022102083A1 true WO2022102083A1 (ja) 2022-05-19

Family

ID=81600984

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/042445 WO2022102083A1 (ja) 2020-11-13 2020-11-13 情報処理装置、情報処理方法、及びコンピュータプログラム

Country Status (3)

Country Link
US (1) US20230394784A1 (ja)
JP (1) JPWO2022102083A1 (ja)
WO (1) WO2022102083A1 (ja)

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
OKATANI, TAKAYUKI: "Research trend in deep learning for visual recognition -Advances of convolutional neural networks and their use", JOURNAL OF THE JAPANESE SOCIETY FOR ARTIFICIAL INTELLIGENCE, vol. 31, no. 2, 1 March 2016 (2016-03-01), pages 169 - 179, XP009522339 *

Also Published As

Publication number Publication date
US20230394784A1 (en) 2023-12-07
JPWO2022102083A1 (ja) 2022-05-19

Similar Documents

Publication Publication Date Title
CN108229343B (zh) 目标对象关键点检测方法、深度学习神经网络及装置
US10424341B2 (en) Dynamic video summarization
CN109690471B (zh) 使用取向元数据的媒体渲染
WO2019014625A1 (en) OBJECT DETECTION USING NEURONAL NETWORK SYSTEMS
JP6612487B1 (ja) 学習装置、分類装置、学習方法、分類方法、学習プログラム、及び分類プログラム
CN109583509B (zh) 数据生成方法、装置及电子设备
CN102110284B (zh) 信息处理设备及信息处理方法
CN110210480B (zh) 文字识别方法、装置、电子设备和计算机可读存储介质
CN111612004A (zh) 一种基于语义内容的图像裁剪方法及装置
JP2001043368A5 (ja)
CN114387289B (zh) 输配电架空线路三维点云语义分割方法和装置
WO2022102083A1 (ja) 情報処理装置、情報処理方法、及びコンピュータプログラム
US11875441B2 (en) Data-driven extraction and composition of secondary dynamics in facial performance capture
US20130100137A1 (en) Computing device, storage medium and method for analyzing 2d graphic files of measurement products
KR101768913B1 (ko) 지리 정보 데이터 분할 방법, 분할 장치 및 이를 수행하는 프로그램을 기록하는 기록매체
CN114220163A (zh) 人体姿态估计方法、装置、电子设备及存储介质
WO2023119642A1 (ja) 情報処理装置、情報処理方法、及び記録媒体
CN109032476B (zh) 一种在图形用户界面中显示大数据集的方法
CN111858792A (zh) 栅格数据前端可视化综合分析方法
US20220005223A1 (en) Coordinate calculation apparatus, coordinate calculation method, and computer-readable recording medium
JP2008145504A (ja) 信号特徴抽出方法、信号特徴抽出装置、信号特徴抽出プログラム、及びその記録媒体
JP6508797B1 (ja) 作業支援装置、作業支援方法、プログラム、及び対象物検知モデル。
KR102622941B1 (ko) 작은 객체의 검출 및 인식 성능 향상을 위한 영상 처리 장치 및 방법
JP7396497B2 (ja) 学習システム、物体検出システム、学習方法、及びコンピュータプログラム
CN115115851B (zh) 一种商品姿态估计的方法、装置及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20961611

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 18034513

Country of ref document: US

ENP Entry into the national phase

Ref document number: 2022561807

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20961611

Country of ref document: EP

Kind code of ref document: A1