WO2023119642A1 - 情報処理装置、情報処理方法、及び記録媒体 - Google Patents

情報処理装置、情報処理方法、及び記録媒体 Download PDF

Info

Publication number
WO2023119642A1
WO2023119642A1 PCT/JP2021/048286 JP2021048286W WO2023119642A1 WO 2023119642 A1 WO2023119642 A1 WO 2023119642A1 JP 2021048286 W JP2021048286 W JP 2021048286W WO 2023119642 A1 WO2023119642 A1 WO 2023119642A1
Authority
WO
WIPO (PCT)
Prior art keywords
token
information processing
patch
block
sentence
Prior art date
Application number
PCT/JP2021/048286
Other languages
English (en)
French (fr)
Inventor
宏 福井
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2021/048286 priority Critical patent/WO2023119642A1/ja
Publication of WO2023119642A1 publication Critical patent/WO2023119642A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • This disclosure relates to the technical fields of information processing devices, information processing methods, and recording media.
  • Patent Literature 1 discloses obtaining a quantized gradient direction feature amount from a luminance gradient in each grid obtained by dividing an image into a grid.
  • Patent Literature 2 discloses dividing an image into an N ⁇ N grid and extracting a D-dimensional feature vector from each cell in the grid.
  • Patent Document 3 discloses that the layer of the device for recognizing images has a self-attention structure.
  • Japanese Patent Laid-Open No. 2002-200000 discloses correcting a feature amount vector related to an image using a query, a key, and a value.
  • the purpose of this disclosure is to improve the technology disclosed in prior art documents.
  • One aspect of the information processing apparatus disclosed herein includes generating means for generating a sentence beginning token and a patch token corresponding to an input image; and a self-attention mechanism for each element group having a common position in each block for said sentence beginning token block and said patch token block. and computing means for computing based on.
  • One aspect of the information processing method of the present disclosure is an information processing method executed by at least one computer, which generates an initial token and a patch token corresponding to an input image, and converts the initial token to the patch token. is expanded to a sentence beginning token block having a size corresponding to the number of a plurality of patch token blocks divided according to a predetermined grid pattern, and the position in each block is common to the sentence beginning token block and the patch token block.
  • the calculation is based on the self-attention mechanism for each group of elements that
  • At least one computer generates sentence beginning tokens and patch tokens corresponding to an input image, and divides the sentence beginning tokens and the patch tokens into regions according to a predetermined grid pattern. Extending to a sentence beginning token block having a size corresponding to the number of patch token blocks, and for the sentence beginning token block and the patch token block, each element group having a common position in each block is based on the self-attention mechanism.
  • a computer program for executing an information processing method is recorded.
  • FIG. 2 is a block diagram showing the hardware configuration of the information processing apparatus according to the first embodiment
  • FIG. 1 is a block diagram showing the overall configuration of an information processing apparatus according to a first embodiment
  • FIG. 3 is a block diagram showing the configuration of a self-caution mechanism unit in the information processing apparatus according to the first embodiment
  • FIG. 1 is a block diagram showing a functional configuration of an information processing device according to a first embodiment
  • FIG. 4 is a flowchart showing the flow of feature embedding processing in the information processing apparatus according to the first embodiment
  • FIG. 5 is a conceptual diagram showing an example of extension processing of sentence beginning tokens and modification processing of patch tokens in the information processing apparatus according to the first embodiment
  • FIG. 5 is a conceptual diagram showing an example of extension processing of sentence beginning tokens and modification processing of patch tokens in the information processing apparatus according to the first embodiment
  • FIG. 4 is a conceptual diagram showing an example of processing based on the self-attention mechanism for each element group in the information processing apparatus according to the first embodiment
  • FIG. 7 is a block diagram showing the functional configuration of an information processing apparatus according to a second embodiment
  • FIG. 9 is a flow chart showing the flow of feature conversion processing in the information processing apparatus according to the second embodiment
  • FIG. 11 is a conceptual diagram showing an example of restoration processing in the information processing apparatus according to the second embodiment
  • FIG. 11 is a conceptual diagram showing an example of restoration processing using average values in an information processing apparatus according to a third embodiment
  • FIG. 14 is a conceptual diagram showing an example of restoration processing using the maximum value in the information processing apparatus according to the fourth embodiment
  • FIG. 12 is a block diagram showing the functional configuration of an information processing apparatus according to a fifth embodiment
  • FIG. FIG. 16 is a flow chart showing the flow of feature embedding processing in the information processing apparatus according to the fifth embodiment
  • FIG. FIG. 20 is a conceptual diagram showing intra-block transformation processing of patch tokens in the information processing apparatus according to the fifth embodiment
  • FIG. 12 is a block diagram showing the functional configuration of an information processing apparatus according to a sixth embodiment
  • FIG. FIG. 16 is a flow chart showing the flow of feature conversion processing in the information processing apparatus according to the sixth embodiment
  • FIG. 1 An information processing apparatus according to the first embodiment will be described with reference to FIGS. 1 to 7.
  • FIG. 1 An information processing apparatus according to the first embodiment will be described with reference to FIGS. 1 to 7.
  • FIG. 1 An information processing apparatus according to the first embodiment will be described with reference to FIGS. 1 to 7.
  • FIG. 1 is a block diagram showing the hardware configuration of an information processing apparatus according to the first embodiment.
  • the information processing apparatus 10 includes a processor 11, a RAM (Random Access Memory) 12, a ROM (Read Only Memory) 13, and a storage device 14.
  • the information processing device 10 may further include an input device 15 and an output device 16 .
  • the processor 11 , RAM 12 , ROM 13 , storage device 14 , input device 15 and output device 16 are connected via a data bus 17 .
  • the processor 11 reads a computer program.
  • processor 11 is configured to read a computer program stored in at least one of RAM 12, ROM 13 and storage device .
  • the processor 11 may read a computer program stored in a computer-readable recording medium using a recording medium reader (not shown).
  • the processor 11 may acquire (that is, read) a computer program from a device (not shown) arranged outside the information processing device 10 via a network interface.
  • the processor 11 controls the RAM 12, the storage device 14, the input device 15 and the output device 16 by executing the read computer program.
  • the processor 11 implements a functional block that executes processing based on the self-attention mechanism using an image as an input. That is, the processor 11 may function as a controller that executes each control in the information processing device 10 .
  • the processor 11 includes, for example, a CPU (Central Processing Unit), GPU (Graphics Processing Unit), FPGA (Field-Programmable Gate Array), DSP (Demand-Side Platform), ASIC (Application Specific Integral ted circuit).
  • the processor 11 may be configured with one of these, or may be configured to use a plurality of them in parallel.
  • the RAM 12 temporarily stores computer programs executed by the processor 11.
  • the RAM 12 temporarily stores data temporarily used by the processor 11 while the processor 11 is executing the computer program.
  • the RAM 12 may be, for example, a D-RAM (Dynamic Random Access Memory) or an SRAM (Static Random Access Memory). Also, instead of the RAM 12, other types of volatile memory may be used.
  • the ROM 13 stores computer programs executed by the processor 11 .
  • the ROM 13 may also store other fixed data.
  • the ROM 13 may be, for example, a P-ROM (Programmable Read Only Memory) or an EPROM (Erasable Read Only Memory). Also, instead of the ROM 13, other types of non-volatile memory may be used.
  • the storage device 14 stores data that the information processing device 10 saves for a long period of time.
  • Storage device 14 may act as a temporary storage device for processor 11 .
  • the storage device 14 may include, for example, at least one of a hard disk device, a magneto-optical disk device, an SSD (Solid State Drive), and a disk array device.
  • the input device 15 is a device that receives input instructions from the user of the information processing device 10 .
  • Input device 15 may include, for example, at least one of a keyboard, mouse, and touch panel.
  • the input device 15 may be configured as a mobile terminal such as a smart phone or a tablet.
  • the input device 105 may be a device capable of voice input including, for example, a microphone.
  • the output device 16 is a device that outputs information about the information processing device 10 to the outside.
  • the output device 16 may be a display device (for example, a display) capable of displaying information about the information processing device 10 .
  • the output device 16 may be a speaker or the like capable of outputting information about the information processing device 10 by voice.
  • the output device 16 may be configured as a mobile terminal such as a smart phone or a tablet.
  • the output device 106 may be a device that outputs information in a format other than an image.
  • the output device 106 may be a speaker that outputs information about the information processing device 10 by voice.
  • the information processing apparatus 10 includes only the processor 11, the RAM 12, and the ROM 13 described above, and the other components (that is, the storage device 14, the input device 15, and the output device 16) are, for example, the information processing apparatus 10 may be provided in an external device connected to the In addition, the information processing device 10 may implement some of the arithmetic functions by an external device (for example, an external server, cloud, etc.).
  • an external device for example, an external server, cloud, etc.
  • FIG. 2 is a block diagram showing the overall configuration of the information processing apparatus according to the first embodiment.
  • the information processing apparatus 10 may be configured with a batch embedding processing unit 55 and a plurality of transform blocks 50 .
  • Each of the plurality of transformation blocks 50 may be configured including a self-attention mechanism unit 20 and a feature transformation unit 30 .
  • the information processing device 10 may be configured, for example, as a neural network constructed by a plurality of transform blocks 50 .
  • the feature conversion unit 30 according to the first embodiment is configured to receive an image as an input and output some feature amount regarding the image.
  • the batch embedding processing unit 55 is configured to be able to execute batch embedding processing on inputs.
  • the batch embedding process here may be a process of compressing a local region of an input image into a feature vector as a token based on a convolutional layer.
  • the self-attention mechanism unit 20 is configured to be able to generate a new feature amount by dividing the input feature amount into three feature amounts, query, key, and value, and performing predetermined arithmetic processing.
  • the specific configuration and operation of the self-attention mechanism unit 20 will be described in detail below.
  • the feature conversion unit 30 is configured to be able to extract a feature quantity (feature map) from an input image.
  • the feature transformation unit 30 may be configured as a unit for performing feature extraction, for example using a convolutional layer of local kernels. It should be noted that existing techniques can be appropriately employed for a specific method of extracting feature amounts by the feature conversion unit 30, so detailed description thereof will be omitted here.
  • FIG. 3 is a block diagram showing the configuration of the self-attention mechanism unit in the information processing apparatus according to the first embodiment.
  • the self-attention mechanism unit 20 includes three feature embedding processors 31, 32 and 33, a correlation calculator 34, an aggregation processor 35, a residual processor 36, and a feature transformation processor. a portion 37;
  • the feature embedding processing unit 31 is configured to be able to extract a "query" from the input feature map.
  • the feature embedding processing unit 32 is configured to be able to extract a "key” from the input feature map.
  • the feature embedding processing unit 33 is configured to be able to extract "value" from the input feature map.
  • Each of the feature embedding processing units 31, 32, and 33 may extract feature amounts using, for example, a convolutional layer or a fully connected layer used in a convolutional neural network.
  • the query generated by the feature embedding processor 31 and the key generated by the feature embedding processor 32 are configured to be output to the correlation calculator 34 .
  • the values generated by the feature embedding processing unit 33 are configured to be output to the aggregation processing unit 35 .
  • the correlation calculation unit 34 is configured to be able to calculate a feature map showing the correlation between the query generated by the feature embedding processing unit 31 and the key generated by the feature embedding processing unit 32. Note that, in this embodiment, by using a predetermined grid pattern, the entire space of the input feature map can be referred to. This grid pattern will be described later in detail.
  • the correlation calculation unit 34 may obtain the correlation by, for example, performing shape conversion of the tensor and then calculating the matrix product. Further, the correlation calculation unit 34 may calculate the correlation by combining the two embedding features after performing tensor shape conversion on the embedding features of the query and the key.
  • the correlation calculation unit 34 performs convolution and calculation of a rectified linear unit (ReLU) on the matrix product or the combined features calculated as described above, thereby showing the final correlation. It is also possible to obtain a feature map based on the
  • the correlation calculator 34 may further include a convolution layer for convolution. Further, the correlation calculator 122 may normalize the feature map showing the correlation using a sigmoid function, a softmax function, or the like.
  • a feature map indicating the correlation calculated by the correlation calculation unit 34 is configured to be output to the aggregation processing unit 35 .
  • the aggregation processing unit 35 is configured to be able to reflect the feature map indicating the correlation calculated by the correlation calculation unit 34 as a weight in the value generated by the feature embedding processing unit 33 . Such processing may be performed, for example, by calculating a feature map of correlations (weights) and values by matrix multiplication.
  • the feature map reflecting the correlation is configured to be output to the residual processing unit 36 .
  • the residual processing unit 36 is configured to be able to execute residual processing on the feature map generated by the aggregation processing unit 35.
  • This residual process may be a process of adding the feature map generated by the aggregation processing section 35 and the feature map input to the self-attention mechanism unit 20 . This is to prevent a feature map from being generated as a calculation result of the self-attention mechanism unit 20 even if the correlation is not calculated. For example, when 0 is calculated as the correlation (weight), the feature value becomes 0 (disappears) in the feature map output by the counting unit 123 by multiplying the value value by 0. become. In order to prevent this, the residual processing unit 36 executes the residual processing described above.
  • the feature map generated by the residual processing section 36 is configured to be output to the feature conversion processing section 37 .
  • the feature conversion processing unit 37 is configured to be able to execute processing for converting the feature map generated by the residual processing unit 36 into an appropriate state (hereinafter referred to as "feature conversion processing" as appropriate). Specific processing contents of the feature conversion processing will be described in detail in another embodiment described later.
  • FIG. 4 is a block diagram showing the functional configuration of the information processing apparatus according to the first embodiment
  • the information processing apparatus 10 includes a generation unit 110, an extension unit 120, and a calculation unit 130 as components for realizing its functions.
  • Each of the generation unit 110, the extension unit 120, and the calculation unit 130 may be processing blocks implemented by, for example, the above-described processor 11 (see FIG. 1).
  • the generation unit 110 is configured to be able to generate sentence beginning tokens and patch tokens corresponding to an input image.
  • the beginning of sentence token is an attribute token for assisting in understanding the structure of the input token, and there are other attributes such as clauses and end of sentence.
  • a patch token is a token obtained by vectorizing pixels in a local region of the input image. Heading tokens and patch tokens may be token vectors handled by ViT (Vision Transformer). Note that the sentence head token may be generated based on random numbers. In this case, learning may optimize the elements of the vector.
  • the sentence beginning token generated by the generation unit 110 is configured to be output to the extension unit 120 .
  • the patch token is configured to be output to the computing section 130 .
  • the extension unit 120 is configured to be able to extend the size of the sentence beginning token generated by the generation unit 110 . Specifically, the extension unit 120 is configured to be able to extend the sentence head token to a size corresponding to the number of patch token blocks included in the patch token.
  • a patch token block is a block obtained by dividing a patch token into areas (equal division) according to a predetermined grid pattern.
  • a head-of-sentence token typically consists of only one element, whereas a patch token block consists of multiple elements.
  • the expansion unit 120 copies and pastes, for example, one element of the beginning token to expand it into a beginning token block of the same size as the number of blocks in the patch token block.
  • the beginning token block extended by the extension unit 120 is configured to be output to the calculation unit 120 .
  • the arithmetic unit 130 performs arithmetic processing based on the self-attention mechanism (that is, the (various types of processing performed by
  • the arithmetic unit 130 according to the present embodiment is configured to be able to execute arithmetic processing based on the self-attention mechanism for each element group having a common position in each block, particularly for the beginning token block and the patch token block.
  • the upper leftmost element in each block is integrated as one element group and arithmetic processing based on the self-attention mechanism is executed.
  • the uppermost element in each block is integrated as one element group and arithmetic processing based on the self-attention mechanism is executed. This process will be described in detail later with specific examples.
  • FIG. 5 is a flowchart showing the flow of feature embedding processing in the information processing apparatus according to the first embodiment.
  • step S101 when the feature embedding process by the information processing apparatus 10 according to the first embodiment (that is, the process by the feature embedding processors 31, 32, and 33 shown in FIG. 3) is started, first, input A linear transformation process is performed on the feature quantity (step S101). Linear transformations may be processed in convolutional layers or fully connected layers.
  • the generation unit 110 generates a sentence beginning token and a patch token corresponding to the input image, and divides the patch token into a plurality of regions (step S102).
  • the sentence beginning token may be generated from a random number as already explained.
  • the extension unit 120 expands the size of the beginning of sentence token to form an beginning of sentence token block (step S103).
  • the patch token is subjected to tensor conversion processing (step S104).
  • the tensor transformation process here is a process of transforming elements having common positions within a block into one tensor.
  • the calculation unit 130 tensor-converts and integrates the beginning token block and the tensor-converted patch token (step S105). Specifically, the elements of the sentence head token block and the tensor-transformed patch tokens are integrated and transformed into a one-dimensional tensor. Each tensor will contain elements that have common positions within each block.
  • FIG. 6 is a conceptual diagram showing an example of extension processing of sentence beginning tokens and deformation processing of patch tokens in the information processing apparatus according to the first embodiment.
  • FIG. 7 is a conceptual diagram showing an example of processing based on the self-attention mechanism for each element group in the information processing apparatus according to the first embodiment.
  • the generation unit 110 generates a sentence beginning token and a patch token corresponding to the input image.
  • the head of sentence token here consists of only one element, and the patch token consists of 12 ⁇ 12 elements. Note that the elements of the patch token may correspond to the number of pixels of the image.
  • a patch token can be divided into multiple patch token blocks according to a predetermined grid pattern.
  • the patch token block here is composed of 3 ⁇ 3 elements.
  • the color (shade) is shown to be different depending on the position within the block.
  • the beginning token is expanded to the same size as the number of blocks in the patch token block (here, 4 x 4).
  • patch tokens are tensor-transformed for each element having a common position in the block (that is, elements shown in the same color are grouped together).
  • the beginning tokens and patch tokens are integrated as a one-dimensional vector. Specifically, a tensor is generated in which each element of the patch token is arranged after the sentence head token. This tensor is a collection of elements that have common positions in the block. Therefore, patch tokens contained in each tensor are elements shown in the same color.
  • arithmetic processing based on the self-attention mechanism is executed for each tensor (that is, a group of elements having common positions within a block).
  • the amount of computation required is the square of the number of input elements. ⁇ K 2 ⁇ C, where K is the kernel size and C is the channel.
  • the information processing apparatus 10 As described with reference to FIGS. 1 to 7, the information processing apparatus 10 according to the first embodiment generates sentence head tokens and patch tokens corresponding to an input image. Arithmetic processing based on the self-attention mechanism is then executed for each element group having a common position within the block for the extended sentence head token block and a plurality of patch token blocks included in the patch token. In this way, the amount of computation in the self-attention mechanism can be reduced. Such an effect is remarkably exhibited when the input is an image (that is, when the number of elements is large). It should be noted that since there are sentence-initial tokens that have only one element, it is difficult to integrate them with patch tokens as they are (unless each block has the same size, integration is difficult). Therefore, appropriate integration can be performed and arithmetic processing can be executed for each element group.
  • the information processing apparatus 10 can be applied to tasks that handle high-dimensional feature vectors, for example.
  • it can be applied to object detection, object tracking, semantic segmentation, and the like. It can also be used for image pattern recognition.
  • FIG. 8 to 10 An information processing apparatus 10 according to the second embodiment will be described with reference to FIGS. 8 to 10.
  • FIG. It should be noted that the second embodiment may differ from the above-described first embodiment only in a part of the configuration, and the other parts may be the same as those of the first embodiment. Therefore, in the following, portions different from the already described first embodiment will be described in detail, and descriptions of other overlapping portions will be omitted as appropriate.
  • FIG. 8 is a block diagram showing the functional configuration of an information processing apparatus according to the second embodiment.
  • symbol is attached
  • the information processing apparatus 10 according to the second embodiment includes a generation unit 110, an extension unit 120, a calculation unit 130, a restoration unit 140, and It has That is, the information processing apparatus 10 according to the second embodiment further includes a restoration unit 140 in addition to the configuration of the first embodiment (see FIG. 4).
  • the restoring unit 140 may be, for example, a processing block realized by the above-described processor 11 (see FIG. 1).
  • the restoration unit 140 is configured to be able to restore the feature amount corresponding to the beginning-of-sentence token block, among the feature amounts obtained as the calculation result based on the self-attention mechanism, to the size of the beginning-of-sentence token before expansion.
  • the restoration unit 140 may be configured to be able to perform downsizing through pooling processing.
  • FIG. 9 is a flow chart showing the flow of feature conversion processing in the information processing apparatus according to the second embodiment.
  • the generation unit 110 first generates a sentence head token and a patch token corresponding to the input image. is divided into a plurality of regions (step S201).
  • This process is the feature division in the above-described feature embedding process (that is, it may be the same process as step S101 in FIG. 5).
  • the restoration unit 140 performs restoration processing on the divided beginning-of-sentence tokens to restore the size before expansion by the expansion unit 120 (step S202). Then, the calculation unit 130 tensor-converts and integrates the restored sentence beginning token and the patch token (step S203). That is, the beginning-of-sentence tokens and patch tokens are converted into one feature map.
  • FIG. 10 is a conceptual diagram showing an example of restoration processing in the information processing apparatus according to the second embodiment.
  • the feature quantity corresponding to the sentence-initial token obtained as the calculation result based on the self-attention mechanism has a size expanded by the expansion unit 120 (here, 4 ⁇ 4).
  • the restoration unit 140 executes restoration processing on this to convert it to the size before expansion (here, 1 ⁇ 1). Note that the specific method of the restoration process is not particularly limited. A specific example of the restoration process will be described in detail in another embodiment described later.
  • a sentence beginning token (that is, an expanded size sentence beginning token) obtained as a calculation result based on the self-attention mechanism is expanded Restored to previous size.
  • the size of the head token temporarily changed for the operation based on the self-attention mechanism can be restored. In other words, it can be restored to an appropriate size as a sentence head token.
  • FIG. 10 An information processing apparatus 10 according to the third embodiment will be described with reference to FIG.
  • the third embodiment describes a more specific example of the above-described second embodiment, and the apparatus configuration and overall operation may be the same as those of the first and second embodiments. Therefore, in the following, portions different from the already described embodiments will be described in detail, and descriptions of other overlapping portions will be omitted as appropriate.
  • FIG. 11 is a conceptual diagram showing an example of restoration processing using average values in the information processing apparatus according to the third embodiment.
  • the restoration unit 140 executes restoration processing by calculating the average value of the feature amounts corresponding to the beginning tokens. More specifically, the restoration unit 140 calculates the average value of each element included in the feature amount corresponding to the sentence beginning token, and generates a sentence beginning token composed of one element having the average value.
  • restoration processing is performed using average values. In this way, it is possible to obtain an integrated token by considering all patch tokens, so that it is possible to easily and accurately execute the restoration processing of the beginning token.
  • FIG. 12 is a conceptual diagram showing an example of restoration processing using the maximum value in the information processing apparatus according to the fourth embodiment.
  • the restoration unit 140 executes restoration processing by calculating the maximum value of the feature amount corresponding to the beginning token. More specifically, the restoration unit 140 calculates the maximum value of each element included in the feature quantity corresponding to the beginning-of-sentence token, and generates a beginning-of-sentence token composed of one element having the maximum value.
  • restoration processing is performed using the maximum value.
  • representative patch tokens can be selected according to the maximum value to obtain the final sentence-beginning token, so that the sentence-beginning token can be restored easily and accurately.
  • FIG. 13 to 15 An information processing apparatus 10 according to the fifth embodiment will be described with reference to FIGS. 13 to 15.
  • FIG. It should be noted that the fifth embodiment may differ from the above-described first to fourth embodiments only in a part of configuration and operation, and other parts may be the same as those of the first to fourth embodiments. Therefore, in the following, portions different from the already described embodiments will be described in detail, and descriptions of other overlapping portions will be omitted as appropriate.
  • FIG. 13 is a block diagram showing a functional configuration of an information processing apparatus according to the fifth embodiment.
  • symbol is attached
  • the information processing apparatus 10 according to the fifth embodiment includes a generation unit 110, an extension unit 120, an operation unit 130, a transformation unit 150, and It has That is, the information processing apparatus 10 according to the fifth embodiment further includes a transforming section 150 in addition to the configuration of the first embodiment (see FIG. 4).
  • the transforming unit 150 may be a processing block realized by, for example, the above-described processor 11 (see FIG. 1).
  • the transforming unit 150 is configured to be able to transform the tensor of the patch token. More specifically, the transforming unit 150 is configured to be able to transform a tensor so that a 1 ⁇ 1 convolutional layer (fully connected layer) can be applied within each patch token block.
  • This process is a process executed to refer to the elements of the local area in the feature map. That is, this processing is executed to suppress the influence of referring to elements in a sparse pattern because arithmetic processing is performed for each element group according to the position within the block.
  • the process executed by the transforming unit 150 is appropriately referred to as "intra-block transforming process".
  • FIG. 14 is a flow chart showing the flow of feature embedding processing in the information processing apparatus according to the fifth embodiment.
  • the same reference numerals are assigned to the same processes as those shown in FIG.
  • the linear transformation process is first performed on the input feature quantity (step S101). Then, the generation unit 110 generates a sentence beginning token and a patch token corresponding to the input image, and divides the patch token into a plurality of regions (step S102).
  • the extension unit 120 expands the size of the sentence-initial token to make it a sentence-initial token block (step S103).
  • the patch token is subjected to tensor conversion processing (step S104).
  • the transformation unit 140 executes intra-block transformation processing (step S501).
  • the calculation unit 130 tensor-converts and integrates the beginning token block and the patch tokens subjected to intra-block transformation processing (step S105).
  • intra-block transformation process described above may be executed for at least one of query, key, and value.
  • intra-block transformation processing may be performed on only one of query, key, and value.
  • intra-block transformation processing may be performed on any two of the query, key, and value.
  • intra-block transformation processing may be performed for all three of query, key, and value.
  • FIG. 15 is a conceptual diagram showing intra-block transformation processing of patch tokens in the information processing apparatus according to the fifth embodiment.
  • the H ⁇ W ⁇ C patch token is transformed as shown in FIG.
  • tensor transformation is performed so that elements having common positions within each block (that is, elements shown in the same color) are grouped together.
  • the vertical direction of the figure is the number of channels (C)
  • the horizontal direction is the number of elements to be referenced (here, 16).
  • the depth direction is the block size (here, 3 ⁇ 3).
  • the elements included in one patch token block line up in the upper left part after deformation.
  • a 1 ⁇ 1 convolutional layer (fully connected layer) can be applied within the area of the block.
  • patch tokens are configured so that a 1 ⁇ 1 convolutional layer (fully connected layer) can be applied within a block region. Transformed. By doing so, it is possible to eliminate the lack of information about the local area due to the division using the grid pattern. Therefore, for example, it is possible to suppress a decrease in processing accuracy due to lack of information about the local region.
  • FIGS. 16 and 17 An information processing apparatus 10 according to the sixth embodiment will be described with reference to FIGS. 16 and 17.
  • FIG. The sixth embodiment may differ from the above-described fifth embodiment only in a part of configuration and operation, and the other parts may be the same as those of the first to fifth embodiments. Therefore, in the following, portions different from the already described embodiments will be described in detail, and descriptions of other overlapping portions will be omitted as appropriate.
  • FIG. 16 is a block diagram showing a functional configuration of an information processing apparatus according to the sixth embodiment.
  • symbol is attached
  • the information processing apparatus 10 includes a generation unit 110, an extension unit 120, a calculation unit 130, a restoration unit 140, and and a deformation portion 155 . That is, the information processing apparatus 10 according to the sixth embodiment further includes a transforming section 155 in addition to the configuration of the second embodiment (see FIG. 8).
  • the deformation unit 155 according to the sixth embodiment may have the same function as the deformation unit 150 according to the fifth embodiment described above, and is realized by the processor 11 (see FIG. 1) described above, for example. It may be a processing block.
  • FIG. 17 is a flow chart showing the flow of feature conversion processing in the information processing apparatus according to the sixth embodiment.
  • the same reference numerals are given to the same processes as those shown in FIG.
  • the generation unit 110 when the information processing apparatus 10 according to the sixth embodiment starts the feature conversion process, first, the generation unit 110 generates a sentence head token and a patch token corresponding to the input image. is divided into a plurality of regions (step S201).
  • the restoration unit 140 performs restoration processing on the divided beginning tokens to restore the size (step S202).
  • the transformation unit 140 executes the intra-block transformation process for one of the patch tokens (step S601). This process may be the intra-block transformation process in the fifth embodiment described above (that is, the same process as step S501 in FIG. 14).
  • the calculation unit 130 tensor-converts and integrates the restored sentence beginning tokens and the patch tokens subjected to intra-block transformation processing (step S203).
  • patch tokens are transformed so as to apply a 1 ⁇ 1 convolutional layer (fully connected layer) within a block region. .
  • intra-block transformation processing may be performed on both the query, key, value, and the result of the self-attention mechanism.
  • a processing method is also implemented in which a program for operating the configuration of each embodiment described above is recorded on a recording medium, the program recorded on the recording medium is read as code, and executed by a computer. Included in the category of form. That is, a computer-readable recording medium is also included in the scope of each embodiment. In addition to the recording medium on which the above program is recorded, the program itself is also included in each embodiment.
  • a floppy (registered trademark) disk, hard disk, optical disk, magneto-optical disk, CD-ROM, magnetic tape, non-volatile memory card, and ROM can be used as recording media.
  • the program recorded on the recording medium alone executes the process, but also the one that operates on the OS and executes the process in cooperation with other software and functions of the expansion board. included in the category of Furthermore, the program itself may be stored on the server, and part or all of the program may be downloaded from the server to the user terminal.
  • the information processing apparatus includes generating means for generating a beginning token and a patch token corresponding to an input image, and a plurality of patches obtained by dividing the beginning token into regions according to a predetermined grid pattern.
  • Expansion means for expanding to a sentence head token block having a size corresponding to the number of token blocks, and for each of the sentence head token block and the patch token block, each element group having a common position in each block is based on a self-attention mechanism.
  • the information processing apparatus further includes restoring means for restoring a feature amount corresponding to the sentence-initial token block, among the feature amounts obtained as the calculation result of the arithmetic means, to the size of the sentence-initial token block before expansion.
  • the information processing apparatus comprising:
  • the restoring means restores the feature amount corresponding to the sentence beginning token block to the size of the sentence beginning token before expansion by calculating an average value of elements included in the feature amount. 2.
  • the restoring means restores the feature amount corresponding to the sentence beginning token block to the size of the sentence beginning token before expansion by calculating the maximum value of the elements included in the feature amount. 2.
  • appendix 5 The information processing apparatus according to any one of appendices 1 to 4, further comprising transforming means for transforming the patch token into a tensor to which a 1 ⁇ 1 convolutional layer can be applied in each block. It is a device.
  • the transforming means transforms a tensor for at least one of a query, a key, a value in the self-attention mechanism, and a feature quantity obtained as a calculation result of the self-attention mechanism. 5.
  • the information processing method according to appendix 7 is an information processing method executed by at least one computer, wherein a sentence beginning token and a patch token corresponding to an input image are generated, and the sentence beginning token and the patch token are predetermined.
  • An element whose position in each block is common to said sentence beginning token block and said patch token block is expanded to a sentence beginning token block having a size corresponding to the number of a plurality of patch token blocks divided into areas according to the grid pattern of This is an information processing method that operates based on the self-attention mechanism for each group.
  • At least one computer In the recording medium according to appendix 8, at least one computer generates a sentence beginning token and a patch token corresponding to an input image, and divides the sentence beginning token into a plurality of areas by dividing the patch token according to a predetermined grid pattern. to the beginning token block of a size corresponding to the number of patch token blocks, and for the beginning token block and the patch token block, each element group having a common position in each block is operated based on the self-attention mechanism
  • a recording medium in which a computer program for executing an information processing method is recorded.
  • appendix 9 The computer program according to appendix 9 generates, in at least one computer, a sentence beginning token and a patch token corresponding to an input image, and the sentence beginning token is divided into a plurality of areas obtained by dividing the patch token according to a predetermined grid pattern. to the beginning token block of a size corresponding to the number of patch token blocks, and for the beginning token block and the patch token block, each element group having a common position in each block is operated based on the self-attention mechanism It is a computer program for executing an information processing method.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

情報処理装置(10)は、入力画像に対応する文頭トークンとパッチトークンとを生成する生成手段(110)と、文頭トークンを、パッチトークンを所定のグリッドパターンに応じて領域分割した複数のパッチトークンブロックの数に対応するサイズである文頭トークンブロックに拡張する拡張手段(120)と、文頭トークンブロック及びパッチトークンブロックに対し、各ブロック内における位置が共通する要素群ごとに自己注意機構に基づいて演算する演算手段(130)と、を備える。このような情報処理装置によれば、入力画像に対して自己注意機構に基づく処理を適切に実行できる。

Description

情報処理装置、情報処理方法、及び記録媒体
 この開示は、情報処理装置、情報処理方法、及び記録媒体の技術分野に関する。
 この種の装置として、画像をグリッド状に分割して各種処理を実行するものが知られている。例えば特許文献1では、画像をグリッド状に分割した各格子内における輝度勾配から、量子化勾配方向特徴量を得ることが開示されている。特許文献2では、画像をN×Nのグリッドに分けて、グリッド中の各セルからD次元特徴ベクトルを抽出することが開示されている。
 また、画像を処理する装置において自己注意機構を用いるものが知られている。例えば特許文献3では、画像を認識する装置のレイヤがセルフアテンション構造を有することが開示されている。特許文献4では、画像に関する特徴量ベクトルを、クエリ、キー、バリューを用いて補正することが開示されている。
特開2017-201498号公報 特開2017-091525号公報 特開2021-093144号公報 国際公開第2021/095212号
 この開示は、先行技術文献に開示された技術を改善することを目的とする。
 この開示の情報処理装置の一の態様は、入力画像に対応する文頭トークンとパッチトークンとを生成する生成手段と、前記文頭トークンを、前記パッチトークンを所定のグリッドパターンに応じて領域分割した複数のパッチトークンブロックの数に対応するサイズである文頭トークンブロックに拡張する拡張手段と、前記文頭トークンブロック及び前記パッチトークンブロックに対し、各ブロック内における位置が共通する要素群ごとに自己注意機構に基づいて演算する演算手段と、を備える。
 この開示の情報処理方法の一の態様は、少なくとも1つのコンピュータによって実行される情報処理方法であって、入力画像に対応する文頭トークンとパッチトークンとを生成し、前記文頭トークンを、前記パッチトークンを所定のグリッドパターンに応じて領域分割した複数のパッチトークンブロックの数に対応するサイズである文頭トークンブロックに拡張し、前記文頭トークンブロック及び前記パッチトークンブロックに対し、各ブロック内における位置が共通する要素群ごとに自己注意機構に基づいて演算する。
 この開示の記録媒体の一の態様は、少なくとも1つのコンピュータに、入力画像に対応する文頭トークンとパッチトークンとを生成し、前記文頭トークンを、前記パッチトークンを所定のグリッドパターンに応じて領域分割した複数のパッチトークンブロックの数に対応するサイズである文頭トークンブロックに拡張し、前記文頭トークンブロック及び前記パッチトークンブロックに対し、各ブロック内における位置が共通する要素群ごとに自己注意機構に基づいて演算する、情報処理方法を実行させるコンピュータプログラムが記録されている。
第1実施形態に係る情報処理装置のハードウェア構成を示すブロック図である。 第1実施形態に係る情報処理装置の全体構成を示すブロック図である。 第1実施形態に係る情報処理装置における自己注意機構ユニットの構成を示すブロック図である。 第1実施形態に係る情報処理装置の機能的構成を示すブロック図である。 第1実施形態に係る情報処理装置における特徴埋め込み処理の流れを示すフローチャートである。 第1実施形態に係る情報処理装置における文頭トークンの拡張処理、及びパッチトークンの変形処理の一例を示す概念図である。 第1実施形態に係る情報処理装置における要素群ごとの自己注意機構に基づく処理の一例を示す概念図である。 第2実施形態に係る情報処理装置の機能的構成を示すブロック図である。 第2実施形態に係る情報処理装置における特徴変換処理の流れを示すフローチャートである。 第2実施形態に係る情報処理装置における復元処理の一例を示す概念図である。 第3実施形態に係る情報処理装置における平均値を用いた復元処理の一例を示す概念図である。 第4実施形態に係る情報処理装置における最大値を用いた復元処理の一例を示す概念図である。 第5実施形態に係る情報処理装置の機能的構成を示すブロック図である。 第5実施形態に係る情報処理装置における特徴埋め込み処理の流れを示すフローチャートである。 第5実施形態に係る情報処理装置におけるパッチトークンのブロック内変形処理を示す概念図である。 第6実施形態に係る情報処理装置の機能的構成を示すブロック図である。 第6実施形態に係る情報処理装置における特徴変換処理の流れを示すフローチャートである。
 以下、図面を参照しながら、情報処理装置、情報処理方法、及び記録媒体の実施形態について説明する。
 <第1実施形態>
 第1実施形態に係る情報処理装置について、図1から図7を参照して説明する。
 (ハードウェア構成)
 まず、図1を参照しながら、第1実施形態に係る情報処理装置のハードウェア構成について説明する。図1は、第1実施形態に係る情報処理装置のハードウェア構成を示すブロック図である。
 図1に示すように、第1実施形態に係る情報処理装置10は、プロセッサ11と、RAM(Random Access Memory)12と、ROM(Read Only Memory)13と、記憶装置14とを備えている。情報処理装置10は更に、入力装置15と、出力装置16と、を備えていてもよい。上述したプロセッサ11と、RAM12と、ROM13と、記憶装置14と、入力装置15と、出力装置16とは、データバス17を介して接続されている。
 プロセッサ11は、コンピュータプログラムを読み込む。例えば、プロセッサ11は、RAM12、ROM13及び記憶装置14のうちの少なくとも一つが記憶しているコンピュータプログラムを読み込むように構成されている。或いは、プロセッサ11は、コンピュータで読み取り可能な記録媒体が記憶しているコンピュータプログラムを、図示しない記録媒体読み取り装置を用いて読み込んでもよい。プロセッサ11は、ネットワークインタフェースを介して、情報処理装置10の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい(つまり、読み込んでもよい)。プロセッサ11は、読み込んだコンピュータプログラムを実行することで、RAM12、記憶装置14、入力装置15及び出力装置16を制御する。本実施形態では特に、プロセッサ11が読み込んだコンピュータプログラムを実行すると、プロセッサ11内には、画像を入力とする自己注意機構に基づく処理を実行する機能ブロックが実現される。即ち、プロセッサ11は、情報処理装置10における各制御を実行するコントローラとして機能してよい。
 プロセッサ11は、例えばCPU(Central Processing Unit)、GPU(Graphics Processing Unit)、FPGA(field-programmable gate array)、DSP(Demand-Side Platform)、ASIC(Application Specific Integrated Circuit)として構成されてよい。プロセッサ11は、これらのうち一つで構成されてもよいし、複数を並列で用いるように構成されてもよい。
 RAM12は、プロセッサ11が実行するコンピュータプログラムを一時的に記憶する。RAM12は、プロセッサ11がコンピュータプログラムを実行している際にプロセッサ11が一時的に使用するデータを一時的に記憶する。RAM12は、例えば、D-RAM(Dynamic Random Access Memory)や、SRAM(Static Random Access Memory)であってよい。また、RAM12に代えて、他の種類の揮発性メモリが用いられてもよい。
 ROM13は、プロセッサ11が実行するコンピュータプログラムを記憶する。ROM13は、その他に固定的なデータを記憶していてもよい。ROM13は、例えば、P-ROM(Programmable Read Only Memory)や、EPROM(Erasable Read Only Memory)であってよい。また、ROM13に代えて、他の種類の不揮発性 メモリが用いられてもよい。
 記憶装置14は、情報処理装置10が長期的に保存するデータを記憶する。記憶装置14は、プロセッサ11の一時記憶装置として動作してもよい。記憶装置14は、例えば、ハードディスク装置、光磁気ディスク装置、SSD(Solid State Drive)及びディスクアレイ装置のうちの少なくとも一つを含んでいてもよい。
 入力装置15は、情報処理装置10のユーザからの入力指示を受け取る装置である。入力装置15は、例えば、キーボード、マウス及びタッチパネルのうちの少なくとも一つを含んでいてもよい。入力装置15は、スマートフォンやタブレット等の携帯端末として構成されていてもよい。入力装置105は、例えばマイクを含む音声入力が可能な装置であってもよい。
 出力装置16は、情報処理装置10に関する情報を外部に対して出力する装置である。例えば、出力装置16は、情報処理装置10に関する情報を表示可能な表示装置(例えば、ディスプレイ)であってもよい。また、出力装置16は、情報処理装置10に関する情報を音声出力可能なスピーカ等であってもよい。出力装置16は、スマートフォンやタブレット等の携帯端末として構成されていてもよい。また、出力装置106は、画像以外の形式で情報を出力する装置であってもよい。例えば、出力装置106は、情報処理装置10に関する情報を音声で出力するスピーカであってもよい。
 なお、図1で説明したハードウェアのうち、一部のハードウェアは情報処理装置10以外の装置が備えていてもよい。例えば、情報処理装置10は、上述したプロセッサ11、RAM12、ROM13のみを備えて構成され、その他の構成要素(即ち、記憶装置14、入力装置15、出力装置16)については、例えば情報処理装置10に接続される外部の装置が備えるようにしてもよい。また、情報処理装置は10、一部の演算機能を外部の装置(例えば、外部サーバやクラウド等)によって実現するものであってもよい。
 (全体構成)
 次に、図2を参照しながら、第1実施形態に係る情報処理装置10の全体構成について説明する。図2は、第1実施形態に係る情報処理装置の全体構成を示すブロック図である。
 図2に示すように、第1実施形態に係る情報処理装置10は、バッチ埋め込み処理部55と、複数の変換ブロック50と、を備えて構成されてよい。複数の変換ブロック50の各々は、自己注意機構ユニット20と、特徴変換ユニット30と、を含んで構成されてよい。情報処理装置10は、例えば、複数の変換ブロック50によってネットワーク構築するニューラルネットワークとして構成されてよい。なお、第1実施形態に係る特徴変換ユニット30は、画像を入力とし、画像に関する何らかの特徴量を出力するものとして構成されている。
 バッチ埋め込み処理部55は、入力に対するバッチ埋め込み処理を実行可能に構成されている。ここでのバッチ埋め込み処理は、畳み込み層をベースに入力画像の局所領域をトークンとして特徴ベクトルに圧縮する処理であってよい。
 自己注意機構ユニット20は、入力された特徴量をクエリ、キー、バリューの3つの特徴量に分けて所定の演算処理を行うことで、新たな特徴量を生成可能に構成されている。自己注意機構ユニット20の具体的な構成及び動作については、以下で詳しく説明する。
 特徴変換ユニット30は、入力される画像から特徴量(特徴マップ)を抽出可能に構成されている。特徴変換ユニット30は、例えば局所的なカーネルの畳み込み層を用いることで、特徴抽出を行うユニットとして構成されてよい。なお、特徴変換ユニット30による具体的な特徴量の抽出方法については、既存の技術を適宜採用することができるため、ここでの詳細な説明は省略する。
 (自己注意機構ユニット)
 次に、図3を参照しながら、上述した自己注意機構ユニット20の構成及び動作について説明する。図3は、第1実施形態に係る情報処理装置における自己注意機構ユニットの構成を示すブロック図である。
 図3に示すように、自己注意機構ユニット20は、3つの特徴埋め込み処理部31、32及び33と、相関関係算出部34と、集計処理部35と、残差処理部36と、特徴変換処理部37と、を備えている。
 特徴埋め込み処理部31は、入力された特徴マップから「クエリ」を抽出可能に構成されている。特徴埋め込み処理部32は、入力された特徴マップから「キー」を抽出可能に構成されている。特徴埋め込み処理部33は、入力された特徴マップから「バリュー」を抽出可能に構成されている。特徴埋め込み処理部31、32、及び33の各々は、例えば畳み込みニューラ ルネットワークで用いられる畳み込み層又は全結合層を用いて特徴量を抽出してよい。特徴埋め込み処理部31で生成されたクエリと、特徴埋め込み処理部32で生成されたキーとは、相関関係算出部34に出力される構成となっている。また、特徴埋め込み処理部33が生成したバリューは、集計処理部35に出力される構成となっている。
 相関関係算出部34は、特徴埋め込み処理部31で生成されたクエリと、特徴埋め込み処理部32で生成されたキーと、の相関関係を示す特徴マップを算出可能に構成されている。なお、本実施形態では特に、所定のグリッドパターンを用いることで、入力される特徴マップの空間全体を参照できるように構成されている。このグリッドパターンについては、後に詳しく説明する。相関関係算出部34は、例えばテンソルの形状変換を施した後に、行列積を計算することで相関関係を求めてもよい。また、相関関係算出部34は、クエリとキーの埋め込み特徴に対してテンソルの形状変換をした後に、この2つの埋め込み特徴を結合することで相関関係を求めてもよい。相関関係算出部34は、上記のように算出された行列積又は結合された特徴に、畳み込みと正規化線形関数(ReLU:Rectified Linear Unit)の計算を施すことで、最終的な相関関係を示した特徴マップ取得するようにしてもよい。相関関係算出部34は、畳み込みのための畳み込み層が更に設けられていてもよい。また、相関関係算出部122は、相関関係を示した特徴マップを、シグモイド関数やソフトマックス関数等を用いて正規化してもよい。相関関係算出部34で算出された相関関係を示す特徴マップは、集計処理部35に出力される構成となっている。
 集計処理部35は、相関関係算出部34で算出された相関関係を示す特徴マップを重みとして、特徴埋め込み処理部33が生成したバリューに反映可能に構成されている。このような処理は、例えば、相関関係(重み)の特徴マップと、バリューとを行列積で計算することで実行されてよい。相関関係が反映された特徴マップは、残差処理部36に出力される構成となっている。
 残差処理部36は、集計処理部35で生成された特徴マップに対して、残差処理を実行可能に構成されている。この残差処理は、集計処理部35で生成された特徴マップと、自己注意機構ユニット20に入力された特徴マップとを加算する処理であってよい。これは、相関関係が仮に算出されなかった場合でも、自己注意機構ユニット20の演算結果としての特徴マップが生成されなくなるのを防ぐためである。例えば、相関関係(重み)として0が算出されると、バリュー値に対してその0が乗算されることにより、集計部123が出力した特徴マップにおいて、特徴値が0となる(消失する)ことになる。これを防ぐために、残差処理部36は上述した残差処理を実行する。残差処理部36で生成された特徴マップは、特徴変換処理部37に出力される構成となっている。
 特徴変換処理部37は、残差処理部36で生成された特徴マップを適切な状態に変換するための処理(以下、適宜「特徴変換処理」と称する)を実行可能に構成されている。特徴変換処理の具体的な処理内容については、後述する他の実施形態で詳しく説明する。
 (機能的構成)
 次に、図4を参照しながら、第1実施形態に係る情報処理装置10の機能的構成(特に、上述した特徴埋め込み処理部31、32、33の機能を実現するための構成)について説明する。図4は、第1実施形態に係る情報処理装置の機能的構成を示すブロック図である。
 図4に示すように、第1実施形態に係る情報処理装置10は、その機能を実現するための構成要素として、生成部110と、拡張部120と、演算部130と、を備えている。生成部110、拡張部120、及び演算部130の各々は、例えば上述したプロセッサ11(図1参照)によって実現される処理ブロックであってよい。
 生成部110は、入力される画像に対応する文頭トークンと、パッチトークンと、を生成可能に構成されている。文頭トークンは、入力トークンの構造理解を補助するための属性トークンであり、他に文節や文末等の属性がある。パッチトークンは、入力画像の局所領域の画素をベクトル化したトークンである。文頭トークン及びパッチトークンは、ViT(Vision Transromer)で扱われるトークンベクトルであってよい。なお、文頭トークンは、乱数をベースに生成されてよい。この場合、学習によりベクトルの要素は最適化されてよい。生成部110で生成された文頭トークンは、拡張部120に出力される構成となっている。一方、パッチトークンは、演算部130に出力される構成となっている。
 拡張部120は、生成部110で生成された文頭トークンのサイズを拡張可能に構成されている。具体的には、拡張部120は、文頭トークンを、パッチトークンに含まれる複数のパッチトークンブロックの数に対応するサイズに拡張可能に構成されている。パッチトークンブロックは、パッチトークンを所定のグリッドパターンに応じて領域分割(等分割)したブロックである。文頭トークンは、典型的に1つの要素のみで構成されるのに対し、パッチトークンブロックは複数の要素を含んで構成される。拡張部120は、例えば文頭トークンの1つの要素をコピーアンドペーストすることで、パッチトークンブロックのブロック数と同じサイズの文頭トークンブロックに拡張する。拡張部120で拡張された文頭トークンブロックは、演算部120に出力される構成となっている。
 演算部130は、拡張部120で拡張された文頭トークンブロック、及び生成部120から取得したパッチトークン(複数のパッチトークンブロック)に対して、自己注意機構に基づく演算処理(即ち、図3で説明した各種処理)を実行可能に構成されている。ここで本実施形態に係る演算部130は特に、文頭トークンブロック及びパッチトークンブロックについて、各ブロック内における位置が共通する要素群ごとに自己注意機構に基づく演算処理を実行可能に構成されている。例えば、各ブロックにおける最も左上に位置する要素は、1つの要素群として統合されて自己注意機構に基づく演算処理が実行される。同様に、各ブロックにおける最も右上に位置する要素は、1つの要素群として統合されて自己注意機構に基づく演算処理が実行される。この処理については、後に具体例を挙げて詳しく説明する。
 (動作の流れ)
 次に、図5を参照しながら、第1実施形態に係る情報処理装置10の動作(特に、上述した特徴埋め込み処理部31、32、33による特徴埋め込み処理)の流れについて説明する。図5は、第1実施形態に係る情報処理装置における特徴埋め込み処理の流れを示すフローチャートである。
 図5に示すように、第1実施形態に係る情報処理装置10による特徴埋め込み処理(即ち、図3で示した特徴埋め込み処理部31、32、33による処理)が開始されると、まず入力される特徴量に対して線形変換処理が実行される(ステップS101)。線形変換は、畳み込み層や全結合層で処理してよい。
 続いて、生成部110が、入力画像に対応する文頭トークンとパッチトークンとを生成し、パッチトークンを複数の領域に分割する(ステップS102)。なお、文頭トークンは、すでに説明したように乱数から生成されてよい。文頭トークンについては、拡張部120がサイズを拡張して文頭トークンブロックとする(ステップS103)。一方、パッチトークンについては、テンソル変換処理が実行される(ステップS104)。ここでのテンソル変換処理は、ブロック内での位置が共通する要素を1つのテンソルに変換する処理である。
 続いて、演算部130が、文頭トークンブロックと、テンソル変換されたパッチトークンと、をテンソル変換・統合する(ステップS105)。具体的には、文頭トークンブロックの要素と、テンソル変換されたパッチトークンとが統合されて、1次元のテンソルに変換される。各テンソルには、各ブロック内で位置が共通する要素同士が含まれることになる。
 (具体的な動作例)
 次に、図6及び図7を参照しながら、第1実施形態に係る情報処理装置10の具体的な動作例(特に、上述した生成部110、拡張部120、及び演算部130の動作例)について説明する。図6は、第1実施形態に係る情報処理装置における文頭トークンの拡張処理、及びパッチトークンの変形処理の一例を示す概念図である。図7は、第1実施形態に係る情報処理装置における要素群ごとの自己注意機構に基づく処理の一例を示す概念図である。
 図6に示すように、生成部110では、入力画像に対応する文頭トークンと、パッチトークンとが生成される。ここでの文頭トークンは1つの要素のみからなり、パッチトークンは12×12の要素から構成されている。なお、パッチトークンの要素は、画像の画素数に応じたものであってよい。
 パッチトークンは、所定のグリッドパターンによって複数のパッチトークンブロックに領域分割できる。ここでのパッチトークンブロックは、3×3の要素から構成されている。また、図に示す例では、説明の便宜上、ブロック内の位置によって色(濃淡)が異なるように示されている。
 文頭トークンは、パッチトークンブロックのブロック数と同じサイズ(ここでは4×4)に拡張される。一方で、パッチトークンは、ブロック内の位置が共通する要素ごとにテンソル変換される(即ち、同じ色で示す要素がまとめられる)。
 図7に示すように、文頭トークンとパッチトークンは、1次元のベクトルとして統合される。具体的には、文頭トークンを先頭にして、その後にパッチトークンの各要素が並ぶテンソルが生成される。このテンソルは、ブロック内の位置が共通する要素が集められたものである。このため、各テンソルに含まれるパッチトークンは同じ色で示される要素である。
 本実施形態では、上述したテンソル(即ち、ブロック内の位置が共通する要素群)ごとに自己注意機構に基づく演算処理が実行される。一般的な自己注意機構の場合、入力される要素数に対して2乗の計算量が必要となるが、本実施形態のように要素群ごとの演算処理を行うことで、計算量を要素数×K×Cとすることができる(Kはカーネルサイズ、Cはチャンネル)。自己注意機構による演算結果としては、文頭トークンとパッチトークンに対応する特徴マップが得られる。
 (技術的効果)
 次に、第1実施形態に係る情報処理装置10によって得られる技術的効果について説明する。
 図1から図7で説明したように、第1実施形態に係る情報処理装置10では、入力される画像に対応する文頭トークンとパッチトークンとが生成される。そして、拡張した文頭トークンブロックと、パッチトークンとに含まれる複数のパッチトークンブロックとに対して、ブロック内での位置が共通する要素群ごとに自己注意機構に基づく演算処理が実行される。このようにすれば、自己注意機構における計算量を減少させることができる。このような効果は、画像を入力とする場合(即ち、要素数が多い場合)に顕著に発揮される。なお、1つの要素しか持たない文頭トークンが存在するため、そのままパッチトークンと統合することは難しい(各ブロックが同じサイズでないと統合が難しい)が、本実施形態では文頭トークンに対して拡張処理を行っているため、適切な統合を行い、要素群ごとの演算処理を実行することができる。
 本実施形態に係る情報処理装置10は、例えば高次元な特徴ベクトルを扱うタスクに応用することが可能である。例えば、物体検出、物体追跡、セマンティックセグメンテーション等に応用できる。また、画像のパターン認識にも活用することができる。
 <第2実施形態>
 第2実施形態に係る情報処理装置10について、図8から図10を参照して説明する。なお、第2実施形態は、上述した第1実施形態と一部の構成が異なるのみであり、その他の部分については第1実施形態と同一であってよい。このため、以下では、すでに説明した第1実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。
 (機能的構成)
 まず、図8を参照しながら、第2実施形態に係る情報処理装置10の機能的構成(特に、特徴埋め込み処理部31、32、33及び特徴変換処理部37の機能を実現するための構成)について説明する。図8は、第2実施形態に係る情報処理装置の機能的構成を示すブロック図である。なお、図8では、図4で示した構成要素と同様の要素に同一の符号を付している。
 図8に示すように、第2実施形態に係る情報処理装置10は、その機能を実現するための構成要素として、生成部110と、拡張部120と、演算部130と、復元部140と、を備えている。即ち、第2実施形態に係る情報処理装置10は、上述した第1実施形態の構成(図4参照)に加えて、復元部140を更に備えて構成されている。なお、復元部140は、例えば上述したプロセッサ11(図1参照)によって実現される処理ブロックであってよい。
 復元部140は、自己注意機構に基づく演算結果として得られる特徴量のうち、文頭トークンブロックに対応する特徴量を、拡張前の文頭トークンのサイズに復元することが可能に構成されている。例えば、復元部140は、プーリング処理によるダウンサイジングを実行可能に構成されてよい。
 (動作の流れ)
 次に、図9を参照しながら、第2実施形態に係る情報処理装置10の動作(特に、上述した特徴変換処理部37による特徴変換処理)の流れについて説明する。図9は、第2実施形態に係る情報処理装置における特徴変換処理の流れを示すフローチャートである。
 図9に示すように、第1実施形態に係る情報処理装置10による特徴変換処理が開始されると、まず生成部110が、入力画像に対応する文頭トークンとパッチトークンとを生成し、パッチトークンを複数の領域に分割する(ステップS201)。この処理は、上述した特徴埋め込み処理における特徴分割(即ち、図5のステップS101と同様の処理であってよい)。
 分割された文頭トークンについては、復元部140が復元処理を行って、拡張部120による拡張前のサイズに復元する(ステップS202)。そして、演算部130が、復元された文頭トークンと、パッチトークンと、をテンソル変換・統合する(ステップS203)。即ち、文頭トークンとパッチトークンとが1つの特徴マップに変換される。
 (具体的な動作例)
 次に、図10を参照しながら、第2実施形態に係る情報処理装置10の具体的な動作例(特に、上述した復元部140の動作例)について説明する。図10は、第2実施形態に係る情報処理装置における復元処理の一例を示す概念図である。
 図10に示すように、自己注意機構に基づく演算結果として得られる文頭トークンに対応する特徴量は、拡張部120によって拡張されたサイズ(ここでは4×4)となる。復元部140は、これに対して復元処理を実行して、拡張前のサイズ(ここでは1×1)に変換する。なお、復元処理の具体的な手法については、特に限定されるものではない。復元処理の具体例については、後述する他の実施形態で詳しく説明する。
 (技術的効果)
 次に、第2実施形態に係る情報処理装置10によって得られる技術的効果について説明する。
 図8から図10で説明したように、第2実施形態に係る情報処理装置10では、自己注意機構に基づく演算結果として得られた文頭トークン(即ち、拡張されたサイズの文頭トークン)が、拡張前のサイズに復元される。このようにすれば、自己注意機構に基づく演算のために一時的に変更されていた文頭トークンのサイズを元に戻すことができる。即ち、文頭トークンとして適切なサイズへと復元することができる。
 <第3実施形態>
 第3実施形態に係る情報処理装置10について、図11を参照して説明する。なお、第3実施形態は、上述した第2実施形態のより具体的な一例を説明するものであり、装置構成や全体的な動作については第1及び第2実施形態と同一であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。
 (復元処理の具体例)
 まず、図11を参照しながら、第3実施形態に係る情報処理装置10における復元処理について説明する。図11は、第3実施形態に係る情報処理装置における平均値を用いた復元処理の一例を示す概念図である。
 図11に示すように、第3実施形態に係る情報処理装置10では、復元部140が、文頭トークンに対応する特徴量の平均値を算出することで復元処理を実行する。より具体的には、復元部140は、文頭トークンに対応する特徴量に含まれる各要素の平均値を算出して、その平均値を持つ1つの要素から構成される文頭トークンを生成する。
 (技術的効果)
 次に、第3実施形態に係る情報処理装置10によって得られる技術的効果について説明する。
 図11で説明したように、第3実施形態に係る情報処理装置10では、平均値を用いて復元処理が行われる。このようにすれば、全パッチトークンを考慮して統合されたトークンを得ることができるため、文頭トークンの復元処理を容易且つ的確に実行することが可能である。
 <第4実施形態>
 第4実施形態に係る情報処理装置10について、図12を参照して説明する。なお、第4実施形態は、上述した第3実施形態と同様に第2実施形態のより具体的な一例を説明するものであり、装置構成や全体的な動作については第1及び第2実施形態と同一であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。
 (復元処理の具体例)
 まず、図12を参照しながら、第4実施形態に係る情報処理装置10における復元処理について説明する。図12は、第4実施形態に係る情報処理装置における最大値を用いた復元処理の一例を示す概念図である。
 図12に示すように、第4実施形態に係る情報処理装置10は、復元部140が、文頭トークンに対応する特徴量の最大値を算出することで復元処理を実行する。より具体的には、復元部140は、文頭トークンに対応する特徴量に含まれる各要素の最大値を算出して、その最大値を持つ1つの要素から構成される文頭トークンを生成する。
 (技術的効果)
 次に、第4実施形態に係る情報処理装置10によって得られる技術的効果について説明する。
 図12で説明したように、第4実施形態に係る情報処理装置10では、最大値を用いて復元処理が行われる。このようにすれば、代表的なパッチトークンを最大値により選択し、最終的な文頭トークンを得ることができるため、文頭トークンの復元処理を容易且つ的確に実行することが可能である。
 <第5実施形態>
 第5実施形態に係る情報処理装置10について、図13から図15を参照して説明する。なお、第5実施形態は、上述した第1から第4実施形態と一部の構成及び動作が異なるのみであり、その他の部分については第1から第4実施形態と同一であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。
 (機能的構成)
 まず、図13を参照しながら、第5実施形態に係る情報処理装置10の機能的構成(特に、特徴埋め込み処理部31、32、33の機能を実現するための構成)について説明する。図13は、第5実施形態に係る情報処理装置の機能的構成を示すブロック図である。なお、図13では、図4で示した構成要素と同様の要素に同一の符号を付している。
 図13に示すように、第5実施形態に係る情報処理装置10は、その機能を実現するための構成要素として、生成部110と、拡張部120と、演算部130と、変形部150と、を備えている。即ち、第5実施形態に係る情報処理装置10は、上述した第1実施形態の構成(図4参照)に加えて、変形部150を更に備えて構成されている。なお、変形部150は、例えば上述したプロセッサ11(図1参照)によって実現される処理ブロックであってよい。
 変形部150は、パッチトークンのテンソルを変形する処理を実行可能に構成されている。より具体的には、変形部150は、各パッチトークンブロック内で1×1畳み込み層(全結合層)を施せるようにテンソルを変形する処理を実行可能に構成されている。この処理は、特徴マップにおける局所領域の要素を参照するために実行される処理である。即ち、ブロック内での位置に応じた要素群ごとに演算処理を行うが故に、疎なパターンで要素が参照されてしまうことの影響を抑制するために実行される処理である。以下では、変形部150が実行する処理のことを、適宜「ブロック内変形処理」と称する。
 (動作の流れ)
 次に、図14を参照しながら、第5実施形態に係る情報処理装置10の動作(特に、特徴埋め込み処理部31、32、33による特徴埋め込み処理)の流れについて説明する。図14は、第5実施形態に係る情報処理装置における特徴埋め込み処理の流れを示すフローチャートである。なお、図14では、図5で示した処理と同様の処理に同一の符号を付している。
 図14に示すように、第5実施形態に係る情報処理装置10による特徴埋め込み処理が開始されると、まず入力される特徴量に対して線形変換処理が実行される(ステップS101)。そして、生成部110が、入力画像に対応する文頭トークンとパッチトークンとを生成し、パッチトークンを複数の領域に分割する(ステップS102)。
 文頭トークンについては、拡張部120がサイズを拡張して文頭トークンブロックとする(ステップS103)。一方、パッチトークンについては、テンソル変換処理が実行される(ステップS104)。そして本実施形態では更に、変形部140がブロック内変形処理を実行する(ステップS501)。
 その後、演算部130が、文頭トークンブロックと、ブロック内変形処理が実行されたパッチトークンと、をテンソル変換・統合する(ステップS105)。
 なお、上述したブロック内変形処理は、クエリ、キー、バリューの少なくとも1つにおいて実行されればよい。例えば、ブロック内変形処理は、クエリ、キー、バリューのいずれか1つに対してのみ実行されてよい。あるいは、ブロック内変形処理は、クエリ、キー、バリューのいずれか2つに対して実行されてよい。あるいは、ブロック内変形処理はクエリ、キー、バリューの3つ全てに対して実行されてよい。
 (具体的な動作例)
 次に、図15を参照しながら、第5実施形態に係る情報処理装置10の具体的な動作例(特に、上述したブロック内変形処理の動作例)について説明する。図15は、第5実施形態に係る情報処理装置におけるパッチトークンのブロック内変形処理を示す概念図である。
 図15に示すように、H×W×Cのパッチトークンが変形される場合を考える。この場合、ブロック内変形処理では、各ブロック内の位置が共通する要素(即ち、同じ色で示す要素)がまとまるようにテンソル変換される。その結果、図の縦方向はチャンネル数(C)となり、横方向は参照する要素数(ここでは16)となる。そして、奥行方向がブロックサイズ(ここでは3×3)となる。
 ここで、変形後の左上部分には、1つのパッチトークンブロックに含まれていた要素(言い換えれば、局所領域の要素)が並ぶ。このように、ブロック内変形処理を実行すると、ブロックの領域内で1×1畳み込み層(全結合層)を施せるようになる。
 (技術的効果)
 次に、第5実施形態に係る情報処理装置10によって得られる技術的効果について説明する。
 図13から図15で説明したように、第5実施形態に係る情報処理装置10では、特徴埋め込み処理において、パッチトークンがブロックの領域内で1×1畳み込み層(全結合層)を施せるように変形される。このようにすれば、グリッドパターンを用いた分割に起因する局所領域に関する情報の欠如を解消することができる。よって、例えば、局所領域に関する情報の欠如に起因する処理精度の低下を抑制することができる。
 <第6実施形態>
 第6実施形態に係る情報処理装置10について、図16及び図17を参照して説明する。なお、第6実施形態は、上述した第5実施形態と一部の構成及び動作が異なるのみであり、その他の部分については第1から第5実施形態と同一であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。
 (機能的構成)
 まず、図16を参照しながら、第6実施形態に係る情報処理装置10の機能的構成(特に、特徴埋め込み処理部31、32、33、及び特徴変換処理部37の機能を実現するための構成)について説明する。図16は、第6実施形態に係る情報処理装置の機能的構成を示すブロック図である。なお、図16では、図8で示した構成要素と同様の要素に同一の符号を付している。
 図16に示すように、第6実施形態に係る情報処理装置10は、その機能を実現するための構成要素として、生成部110と、拡張部120と、演算部130と、復元部140と、変形部155と、を備えている。即ち、第6実施形態に係る情報処理装置10は、上述した第2実施形態の構成(図8参照)に加えて、変形部155を更に備えて構成されている。なお、第6実施形態に係る変形部155は、上述した第5実施形態に係る変形部150と同一の機能を有するものであってよく、例えば上述したプロセッサ11(図1参照)によって実現される処理ブロックであってよい。
 (動作の流れ)
 次に、図17を参照しながら、第6実施形態に係る情報処理装置10の動作(特に、特徴変換処理部37による特徴変換処理)の流れについて説明する。図17は、第6実施形態に係る情報処理装置における特徴変換処理の流れを示すフローチャートである。なお、図17では、図9で示した処理と同様の処理に同一の符号を付している。
 図17に示すように、第6実施形態に係る情報処理装置10による特徴変換処理が開始されると、まず生成部110が、入力画像に対応する文頭トークンとパッチトークンとを生成し、パッチトークンを複数の領域に分割する(ステップS201)。
 続いて、分割された文頭トークンについては、復元部140が復元処理を行い、サイズを復元する(ステップS202)。そして本実施形態では特に、一方のパッチトークンについて、変形部140がブロック内変形処理を実行する(ステップS601)。この処理は、上述した第5実施形態におけるブロック内変形処理(即ち、図14のステップS501と同様の処理であってよい。
 その後、演算部130が、復元された文頭トークンと、ブロック内変形処理が施されたパッチトークンと、をテンソル変換・統合する(ステップS203)。
 (技術的効果)
 次に、第6実施形態に係る情報処理装置10によって得られる技術的効果について説明する。
 図17で説明したように、第6実施形態に係る情報処理装置10では、特徴変換処理において、パッチトークンがブロックの領域内で1×1畳み込み層(全結合層)を施せるように変形される。このようにすれば、グリッドパターンを用いた分割に起因する局所領域に関する情報の欠如を解消することができる。よって、例えば、局所領域に関する情報の欠如に起因する処理精度の低下を抑制することができる。
 なお、上述した第5実施形態及び第6実施形態は組み合わせて実現されてよい。即ち、ブロック内変形処理は、クエリ、キー、バリューと、自己注意機構の演算結果と、の両方に対して実行されてもよい。
 上述した各実施形態の機能を実現するように該実施形態の構成を動作させるプログラムを記録媒体に記録させ、該記録媒体に記録されたプログラムをコードとして読み出し、コンピュータにおいて実行する処理方法も各実施形態の範疇に含まれる。すなわち、コンピュータ読取可能な記録媒体も各実施形態の範囲に含まれる。また、上述のプログラムが記録された記録媒体はもちろん、そのプログラム自体も各実施形態に含まれる。
 記録媒体としては例えばフロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD-ROM、磁気テープ、不揮発性メモリカード、ROMを用いることができる。また該記録媒体に記録されたプログラム単体で処理を実行しているものに限らず、他のソフトウェア、拡張ボードの機能と共同して、OS上で動作して処理を実行するものも各実施形態の範疇に含まれる。更に、プログラム自体がサーバに記憶され、ユーザ端末にサーバからプログラムの一部または全てをダウンロード可能なようにしてもよい。
 <付記>
 以上説明した実施形態に関して、更に以下の付記のようにも記載されうるが、以下には限られない。
 (付記1)
 付記1に記載の情報処理装置は、入力画像に対応する文頭トークンとパッチトークンとを生成する生成手段と、前記文頭トークンを、前記パッチトークンを所定のグリッドパターンに応じて領域分割した複数のパッチトークンブロックの数に対応するサイズである文頭トークンブロックに拡張する拡張手段と、前記文頭トークンブロック及び前記パッチトークンブロックに対し、各ブロック内における位置が共通する要素群ごとに自己注意機構に基づいて演算する演算手段と、を備える情報処理装置である。
 (付記2)
 付記2に記載の情報処理装置は、前記演算手段の演算結果として得られる特徴量のうち、前記文頭トークンブロックに対応する特徴量を、拡張前の前記文頭トークンのサイズに復元する復元手段を更に備える、付記1に記載の情報処理装置である。
 (付記3)
 付記3に記載の情報処理装置は、前記復元手段は、前記文頭トークンブロックに対応する特徴量を、該特徴量に含まれる要素の平均値を算出することで拡張前の前記文頭トークンのサイズに復元する、付記2に記載の情報処理装置である。
 (付記4)
 付記4に記載の情報処理装置は、前記復元手段は、前記文頭トークンブロックに対応する特徴量を、該特徴量に含まれる要素の最大値を算出することで拡張前の前記文頭トークンのサイズに復元する、付記2に記載の情報処理装置である。
 (付記5)
 付記5に記載の情報処理装置は、前記パッチトークンを、各ブロック内で1×1畳み込み層を施せるテンソルに変形する変形手段を更に備える、付記1から4のいずれか1項に記載の情報処理装置である。
 (付記6)
 付記6に記載の情報処理装置は、前記変形手段は、前記自己注意機構におけるクエリ、キー、バリュー、及び前記自己注意機構の演算結果として得られる特徴量の少なくとも1つについてテンソルを変形する、付記5に記載の情報処理装置である。
 (付記7)
 付記7に記載の情報処理方法は、少なくとも1つのコンピュータによって実行される情報処理方法であって、入力画像に対応する文頭トークンとパッチトークンとを生成し、前記文頭トークンを、前記パッチトークンを所定のグリッドパターンに応じて領域分割した複数のパッチトークンブロックの数に対応するサイズである文頭トークンブロックに拡張し、前記文頭トークンブロック及び前記パッチトークンブロックに対し、各ブロック内における位置が共通する要素群ごとに自己注意機構に基づいて演算する、情報処理方法である。
 (付記8)
 付記8に記載の記録媒体は、少なくとも1つのコンピュータに、入力画像に対応する文頭トークンとパッチトークンとを生成し、前記文頭トークンを、前記パッチトークンを所定のグリッドパターンに応じて領域分割した複数のパッチトークンブロックの数に対応するサイズである文頭トークンブロックに拡張し、前記文頭トークンブロック及び前記パッチトークンブロックに対し、各ブロック内における位置が共通する要素群ごとに自己注意機構に基づいて演算する、情報処理方法を実行させるコンピュータプログラムが記録された記録媒体である。
 (付記9)
 付記9に記載のコンピュータプログラムは、少なくとも1つのコンピュータに、入力画像に対応する文頭トークンとパッチトークンとを生成し、前記文頭トークンを、前記パッチトークンを所定のグリッドパターンに応じて領域分割した複数のパッチトークンブロックの数に対応するサイズである文頭トークンブロックに拡張し、前記文頭トークンブロック及び前記パッチトークンブロックに対し、各ブロック内における位置が共通する要素群ごとに自己注意機構に基づいて演算する、情報処理方法を実行させるコンピュータプログラムである。
 この開示は、請求の範囲及び明細書全体から読み取ることのできる発明の要旨又は思想に反しない範囲で適宜変更可能であり、そのような変更を伴う情報処理装置、情報処理方法、及び記録媒体もまたこの開示の技術思想に含まれる。
 10 情報処理装置
 11 プロセッサ
 20 自己注意機構ユニット
 30 特徴変換ユニット
 31 特徴埋め込み処理部(クエリ)
 32 特徴埋め込み処理部(キー)
 33 特徴埋め込み処理部(バリュー)
 34 相関関係算出部
 35 集計処理部
 36 残差処理部
 37 特徴変換処理部
 50 変換ブロック
 55 バッチ埋め込み処理部
 110 生成部
 120 拡張部
 130 演算部
 140 復元部
 150,155 変形部

Claims (8)

  1.  入力画像に対応する文頭トークンとパッチトークンとを生成する生成手段と、
     前記文頭トークンを、前記パッチトークンを所定のグリッドパターンに応じて領域分割した複数のパッチトークンブロックの数に対応するサイズである文頭トークンブロックに拡張する拡張手段と、
     前記文頭トークンブロック及び前記パッチトークンブロックに対し、各ブロック内における位置が共通する要素群ごとに自己注意機構に基づいて演算する演算手段と、
     を備える情報処理装置。
  2.  前記演算手段の演算結果として得られる特徴量のうち、前記文頭トークンブロックに対応する特徴量を、拡張前の前記文頭トークンのサイズに復元する復元手段を更に備える、
     請求項1に記載の情報処理装置。
  3.  前記復元手段は、前記文頭トークンブロックに対応する特徴量を、該特徴量に含まれる要素の平均値を算出することで拡張前の前記文頭トークンのサイズに復元する、
     請求項2に記載の情報処理装置。
  4.  前記復元手段は、前記文頭トークンブロックに対応する特徴量を、該特徴量に含まれる要素の最大値を算出することで拡張前の前記文頭トークンのサイズに復元する、
     請求項2に記載の情報処理装置。
  5.  前記パッチトークンを、各ブロック内で1×1畳み込み層を施せるテンソルに変形する変形手段を更に備える、
     請求項1から4のいずれか1項に記載の情報処理装置。
  6.  前記変形手段は、前記自己注意機構におけるクエリ、キー、バリュー、及び前記自己注意機構の演算結果として得られる特徴量の少なくとも1つについてテンソルを変形する、
     請求項5に記載の情報処理装置。
  7.  少なくとも1つのコンピュータによって実行される情報処理方法であって、
     入力画像に対応する文頭トークンとパッチトークンとを生成し、
     前記文頭トークンを、前記パッチトークンを所定のグリッドパターンに応じて領域分割した複数のパッチトークンブロックの数に対応するサイズである文頭トークンブロックに拡張し、
     前記文頭トークンブロック及び前記パッチトークンブロックに対し、各ブロック内における位置が共通する要素群ごとに自己注意機構に基づいて演算する、
     情報処理方法。
  8.  少なくとも1つのコンピュータに、
     入力画像に対応する文頭トークンとパッチトークンとを生成し、
     前記文頭トークンを、前記パッチトークンを所定のグリッドパターンに応じて領域分割した複数のパッチトークンブロックの数に対応するサイズである文頭トークンブロックに拡張し、
     前記文頭トークンブロック及び前記パッチトークンブロックに対し、各ブロック内における位置が共通する要素群ごとに自己注意機構に基づいて演算する、
     情報処理方法を実行させるコンピュータプログラムが記録された記録媒体。
PCT/JP2021/048286 2021-12-24 2021-12-24 情報処理装置、情報処理方法、及び記録媒体 WO2023119642A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/048286 WO2023119642A1 (ja) 2021-12-24 2021-12-24 情報処理装置、情報処理方法、及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/048286 WO2023119642A1 (ja) 2021-12-24 2021-12-24 情報処理装置、情報処理方法、及び記録媒体

Publications (1)

Publication Number Publication Date
WO2023119642A1 true WO2023119642A1 (ja) 2023-06-29

Family

ID=86901924

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/048286 WO2023119642A1 (ja) 2021-12-24 2021-12-24 情報処理装置、情報処理方法、及び記録媒体

Country Status (1)

Country Link
WO (1) WO2023119642A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021176566A1 (ja) * 2020-03-03 2021-09-10 日本電気株式会社 特徴変換装置、画像認識システム、特徴変換方法および非一時的なコンピュータ可読媒体

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021176566A1 (ja) * 2020-03-03 2021-09-10 日本電気株式会社 特徴変換装置、画像認識システム、特徴変換方法および非一時的なコンピュータ可読媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DOSOVITSKIY DOSOVITSKIY ALEXEY ALEXEY, BEYER LUCAS, KOLESNIKOV ALEXANDER, WEISSENBORN DIRK, ZHAI XIAOHUA, UNTERTHINER THOMAS, DEHG: "An image is worth 16x16 words: transformers for image recognition at scale", 3 June 2021 (2021-06-03), pages 1 - 22, XP093050792, Retrieved from the Internet <URL:https://arxiv.org/pdf/2010.11929.pdf> [retrieved on 20230531], DOI: 10.48550/arXiv.2010.11929 *

Similar Documents

Publication Publication Date Title
US10650495B2 (en) High resolution style transfer
JP7108061B2 (ja) 歪んだドキュメント画像の矯正方法及び装置
KR100924689B1 (ko) 모바일 기기의 이미지 변환 장치 및 방법
US20220012612A1 (en) System, method, and program for predicting information
CN109117846B (zh) 一种图像处理方法、装置、电子设备和计算机可读介质
JP6278042B2 (ja) 情報処理装置、及び、画像処理方法
CN113343982A (zh) 多模态特征融合的实体关系提取方法、装置和设备
JP2011134102A (ja) 情報処理装置及び情報処理方法
US20230153965A1 (en) Image processing method and related device
JP2020017082A (ja) 画像オブジェクト抽出装置及びプログラム
US20220188382A1 (en) Information processing apparatus, information processing method, and computer-readable recording medium
CN113780283A (zh) 模型训练方法、文本检测方法、装置及轻量级网络模型
US20220343512A1 (en) Method and apparatus of processing image, electronic device, and storage medium
CN114387289B (zh) 输配电架空线路三维点云语义分割方法和装置
WO2023119642A1 (ja) 情報処理装置、情報処理方法、及び記録媒体
JP2021144428A (ja) データ処理装置、データ処理方法
JPWO2021176566A5 (ja) 注意機構、画像認識システム、特徴変換方法およびプログラム
CN113361536B (zh) 图像语义分割模型训练、图像语义分割方法及相关装置
CN111340182B (zh) 一种输入特征逼近的低复杂度cnn训练方法与装置
CN112949841A (zh) 一种基于Attention的CNN神经网络的训练方法
CN111242299A (zh) 基于ds结构的cnn模型压缩方法、装置及存储介质
WO2022102083A1 (ja) 情報処理装置、情報処理方法、及びコンピュータプログラム
CN117058668B (zh) 一种三维模型减面评估方法及装置
WO2022196060A1 (ja) 情報処理装置、情報処理方法及び非一時的なコンピュータ可読媒体
JP7000586B2 (ja) データ処理システムおよびデータ処理方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21969073

Country of ref document: EP

Kind code of ref document: A1