WO2016136607A1 - 画像処理方法、画像処理装置 - Google Patents

画像処理方法、画像処理装置 Download PDF

Info

Publication number
WO2016136607A1
WO2016136607A1 PCT/JP2016/054828 JP2016054828W WO2016136607A1 WO 2016136607 A1 WO2016136607 A1 WO 2016136607A1 JP 2016054828 W JP2016054828 W JP 2016054828W WO 2016136607 A1 WO2016136607 A1 WO 2016136607A1
Authority
WO
WIPO (PCT)
Prior art keywords
image processing
coordinate
neural network
image data
learning
Prior art date
Application number
PCT/JP2016/054828
Other languages
English (en)
French (fr)
Inventor
マーティン クリンキット
大輔 松原
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to CN201680008800.5A priority Critical patent/CN107251091A/zh
Priority to SG11201706065VA priority patent/SG11201706065VA/en
Publication of WO2016136607A1 publication Critical patent/WO2016136607A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • the present invention relates to a technique for processing an image using a neural network.
  • Object detection has an important role in many image processing tasks.
  • the purpose of object detection is to find a specific object or part of it in an image. After specifying the object, for example, processing such as object specification can be performed.
  • face recognition As one form of object detection, it is generally necessary to align faces in a specific direction. Facial features such as eyes, nose, mouth, etc. can be used to perform this alignment. By using the object detection technique, these feature elements can be recognized, and the face direction can be aligned using the recognized feature elements.
  • a sliding window In the object detection, what is called a sliding window is used.
  • an arbitrary region is extracted from the image, and the probability that the region includes a specific object is calculated. If the calculated probability is greater than or equal to the threshold, the object is detected in that region. Detection accuracy can be increased by the sliding window.
  • this approach has a problem that the calculation load is high when the approximate position of the target object is not obtained in advance. This is because it is necessary to move and resize the window to various places until a probability equal to or greater than the threshold is obtained.
  • template matching may be performed to calculate the probability that a specific object exists in the area. Since templates are usually predefined, matching does not work well if the appearance of the object changes over time. Therefore, in order to improve detection accuracy, it is necessary to update the template.
  • the machine learning approach abstracts and grasps the appearance characteristics of an object by learning feature elements on the appearance that identify the object.
  • a pair of image data and a known detection result obtained from the image data is learned in advance, and a learning device performs object detection on new image data based on the learning result.
  • the learning parameter can be adjusted according to the accuracy of the detection result.
  • Neural networks are well known as learning devices that perform machine learning.
  • a neural network includes neurons that obtain hints from the human brain and simulate them. The input for each neuron is multiplied by a given weight, and the bias is added to obtain the output of that neuron.
  • Patent Document 1 describes a technique for recognizing a person in a low-resolution image using a convolutional neural network.
  • learning is repeatedly performed using an image of a person to be identified.
  • weights and biases are adjusted so that a desired detection result is obtained in the learning process.
  • a problem in performing object detection using a neural network is that a long learning time is required until a desired result is obtained.
  • the present invention has been made in view of the above-described problems, and an object thereof is to improve the efficiency of processing for detecting an object using a neural network.
  • a task necessary for performing object detection is converted into a task necessary for solving a classification problem, and object detection is processed as a classification problem using a neural network that classifies input data.
  • FIG. 1 is a functional block diagram of an image processing apparatus 100 according to Embodiment 1.
  • FIG. 2 is a diagram illustrating a layer configuration of a learning device 150.
  • FIG. It is a figure explaining the output vector which the classifier 160 outputs. It is a figure explaining a process by the reproduction device.
  • 6 is a functional block diagram of an image processing apparatus 100 according to Embodiment 2.
  • FIG. It is a figure explaining the process of the shifter.
  • FIG. 10 is a diagram illustrating a hardware configuration of an image processing apparatus 100 according to a fourth embodiment.
  • a technique for detecting an object using a neural network for example, there is a method using a convolutional neural network as described in Patent Document 1.
  • a shape detection filter is applied (convolved) to image data to detect the shape of the object, and a method such as Max Pooling is applied to the filter output to position the object in the filter. Blur the gap.
  • a neural network is formed by connecting layers in which these processes are implemented in multiple stages.
  • neural networks include solving classification problems.
  • the neural network is made to learn in advance the correspondence between the input data and which classification the input data belongs to.
  • the neural network outputs a value indicating to which classification the input data belongs based on the previously learned result.
  • Neural networks are generally more efficient at solving classification problems than performing object detection.
  • Object detection is a task to identify the location where the object exists, while classification problem is a task to answer the classification to which the classification target belongs, and the items to be output are simplified than object detection Because.
  • the present invention pays attention to this, and provides means for handling the object detection problem as a classification problem, thereby improving the processing efficiency of detecting an object using a neural network.
  • FIG. 1 is a functional block diagram of an image processing apparatus 100 according to Embodiment 1 of the present invention.
  • the image processing apparatus 100 is an apparatus that detects an object in the image data 200 using a neural network.
  • the image processing apparatus 100 includes a region definer 110, a coordinate decomposer 120, a quantizer 130, a mapper 140, a learner 150, and a classifier 160.
  • a reproducible unit 170 is provided.
  • the image data 200 a human face image is handled. The operation of each functional unit will be described later.
  • FIG. 2 is a diagram for explaining the processing of the region definer 110, the processing of the coordinate decomposer 120, and the processing of the quantizer 130. The operation of these three functional units will be described below with reference to FIG.
  • the region definer 110 defines one or more sub-regions on the image data 200 according to the number and position of characteristic elements assumed to be included in the image data 200. For example, when detecting a human face, the upper left portion (toward the page) of the image data 200 is defined as the right eye region, the upper right portion is defined as the left eye region, and the lower half is defined as the mouth region.
  • the number and position of sub-regions defined by the region definer 110 may be determined in advance according to the characteristics of the object to be detected, or may be designated each time through an appropriate interface provided in the image processing apparatus 100. .
  • Sub-regions are not necessarily defined, and object detection may be performed with the entire image data 200 as one region. In the following, it is assumed that sub-regions are defined as shown in FIG.
  • the coordinate decomposer 120 decomposes the pixel coordinates of each sub-region for each coordinate axis.
  • Each coordinate value after the decomposition is handled as an individual one-dimensional vector.
  • each pixel coordinate is decomposed into an X coordinate value and a Y coordinate value.
  • the quantizer 130 quantizes the pixel coordinate values of each coordinate axis decomposed by the coordinate decomposer 120 at a predetermined interval. As a result, the pixels in each sub-region are converted from continuous pixels for each pixel to discrete pixels for each interval.
  • the quantization interval of each sub-region is not necessarily the same.
  • the quantization interval of each coordinate axis is not necessarily the same. For example, as shown in FIG. 2, the quantization interval of a small region may be set small, and in the horizontally long region, the quantization interval of the X coordinate may be larger than the quantization interval of the Y coordinate.
  • the quantization interval defines an error width when the reproducer 170 described later reproduces each feature element on the coordinate system. Details will be described later. Since the quantizer 130 is for reducing the calculation load, the quantizer 130 is not necessarily required when there are sufficient calculation resources.
  • the mapping device 140 performs processing necessary to handle the object detection problem as a classification problem.
  • the mapping unit 140 assigns any classification in the learning unit 150 to the coordinate value of each pixel in the image data 200 (the coordinate value after quantization when quantization is performed).
  • the correspondence between the pixel coordinate value and the internal classification may be defined in advance as a conversion table, for example. Conversion from the pixel coordinate values to the internal classification of the learning device 150 is performed for each sub-region and each coordinate axis. In the first embodiment, since there are three sub-regions and XY axes, the mapping device 140 converts the XY pixel coordinates of the right eye region / left eye region / mouth region into the internal classification of the learning device 150.
  • the learning device 150 is a machine learning device configured using, for example, a convolutional neural network.
  • the learning device 150 learns in advance whether or not each pixel coordinate classified by the mapping device 140 is a coordinate value of the detection target object.
  • three detection target objects are right eye / left eye / mouth in the image data 200.
  • the learning device 150 recognizes the coordinates of the right eye / left eye / mouth of the new image data 200 using a learning result that has been performed in advance.
  • FIG. 3 is a diagram illustrating a layer configuration of the learning device 150.
  • the image data 200 is a two-dimensional image of 64 pixels ⁇ 64 pixels.
  • a configuration example of the learning device 150 will be described with reference to FIG.
  • the first layer applies a 9 pixel ⁇ 9 pixel shape detection filter to the image data 200.
  • this filter is a filter that detects a line segment in the vertical direction, it is a 9 ⁇ 9 array in which the central column has a large value and the other columns have a small value.
  • the learning device 150 aligns the upper left end of the filter with the upper left end pixel of the image data 200, and multiplies each pixel pixel value in the filter window by the filter value at the same position as that pixel.
  • a bias value may be further added to the multiplication result.
  • the bias value may be the same for all elements of the filter, or may be different for each element.
  • the learning device 150 adds the result of multiplying each pixel pixel value by the filter value (or the result of further adding the bias value) for each of 9 ⁇ 9 element values in the filter, and this corresponds to the pixel position. Input to neuron.
  • the neuron that receives the input value inputs the input value to a predetermined activation function and calculates the output value.
  • An example of the activation function is a non-linear filter function such as Rectified Linear Unit (ReLU).
  • the learning device 150 moves the filter window sequentially from the upper left pixel of the image data 200, and scans all the pixels of the image data 200 with the filter.
  • the learning device 150 performs the same operation as described above at each position of the filter window, inputs the result to the neuron corresponding to the position, and the neuron calculates an output value.
  • the filter start position is from the first pixel to the 56th pixel. Therefore, after the first layer, a processing result corresponding to 56 ⁇ 56 pixels is obtained.
  • a plurality of types of shape detection filters can be applied in each layer.
  • 20 types of shape detection filters are applied, and a neuron is provided for each filter type.
  • a method of providing a plurality of shape detection filters for each layer in this way is called Feature Map or the like.
  • Max Pooling is a technique that leaves only the maximum value in the window, and the shape in the window is abstracted by the maximum value. This is equivalent to reducing the resolution of the image.
  • Max Pooling is performed on the output of the first layer using a 2 ⁇ 2 window, and a processing result of 28 ⁇ 28 ⁇ 20 is obtained.
  • a 7 ⁇ 7 filter window is applied to the 28 ⁇ 28 ⁇ 20 processing result obtained as a result of Max Pooling. Since a higher-order layer detects a more complicated shape than a lower-order layer, the number of shape detection filters in the second layer is 40. The same processing as before is performed in the subsequent layers. In the configuration example shown in FIG. 3, a processing result of 3 ⁇ 3 ⁇ 60 is finally obtained.
  • the fully connected layer in the last stage has 120 neurons, and all the neurons up to the previous layer are connected to any neuron in the fully connected layer. Therefore, the fully connected layer has information of all neurons up to the previous layer.
  • FIG. 4 is a diagram for explaining an output vector output from the classifier 160.
  • the classifier 160 performs logistic regression analysis on the output of each of the 120 neurons of the fully connected layer, and the right eye X coordinate / right eye Y coordinate / left eye X coordinate / left eye Y coordinate / mouth X coordinate / mouth Y coordinate. Output the analysis results for.
  • This analysis result can be regarded as a vector having six elements.
  • the learning device 150 has internal classifications corresponding to the XY coordinates of the right eye region / left eye region / mouth region. Therefore, as information is aggregated from the lower layer to the higher layer, the classifier 150 has internally the right eye X coordinate / right eye Y coordinate / left eye X coordinate / left eye Y coordinate / It is considered that the six categories of mouth X coordinate / mouth Y coordinate are collected. Therefore, in the first embodiment, the classifier 160 performs logistic regression analysis on the output value of each neuron in the fully connected layer in the final stage of the learning device 150, thereby obtaining an output vector having these six element values. It was decided.
  • FIG. 5 is a diagram for explaining the processing by the reproduction unit 170.
  • the reproducer 170 uses the output vector output from the classifier 160 to display the right eye X coordinate / right eye Y coordinate / left eye X coordinate / left eye Y coordinate / mouth X coordinate / mouth Y coordinate on the coordinate system of the image data 200.
  • Reproduce 6 coordinate values Specifically, (a) each element value of the output vector is projected onto the coordinate system of the image data 200 using the quantizer 130, and (b) each element dequantized using the coordinate decomposer 120. The value is shaped into XY coordinates, and (c) each XY coordinate is assigned to a sub-region on the image data 200 using the region definer 110.
  • Each element value of the output vector corresponds to the quantized right eye / left eye / mouth XY coordinates.
  • the quantizer 130 dequantizes the quantized XY coordinates into continuous value coordinates. For example, assume that the quantizer 130 is configured to quantize a coordinate value of 0.3 or more and less than 0.4 on the image data 200 to 0.3. If the element value of the output vector is 0.3, the quantizer 130 performs inverse quantization on the coordinate value of 0.3 or more and less than 0.4. Any coordinate value between 0.3 and 0.4 can be used, but to minimize the error between the true XY coordinates of the right eye / left eye / mouth, the median value is 0.35. Inverse quantization is desirable. As a result, the expected error is minimized even if the true coordinate value is any value between 0.3 and 0.4.
  • the coordinate decomposer 120 generates (X, Y) coordinates by pairing the dequantized XY coordinates. For example, the coordinate value obtained by dequantizing the logistic regression analysis result regarding the right-eye X coordinate and the coordinate value obtained by dequantizing the logistic regression analysis result regarding the right-eye Y coordinate are paired, whereby the coordinate value vector (X RE , Y RE ) is generated. The same applies to the left eye and mouth.
  • the area definer 110 assigns the XY coordinates of the right eye / left eye / mouth obtained by the coordinate decomposer 120 to each corresponding sub area.
  • the XY coordinates of the right eye / left eye / mouth are reproduced on the coordinate system of the image data 200.
  • the lower diagram of FIG. 5 illustrates the result of reproducing these coordinate values on the image data 200.
  • the image processing apparatus 100 quantizes the coordinate values on the image data 200 and assigns a classification in the learning device 150, and each coordinate value is a detection target object in each sub-region. It classifies whether it is XY coordinates. Thereby, since the object detection problem can be handled as a classification problem, the learning efficiency of the learning device 150 can be improved.
  • the coordinate decomposer 120 decomposes the coordinate values of the image data 200 for each coordinate axis, which simplifies the learning process for each coordinate axis by assigning the internal classification of the learning device 150 for each coordinate axis. Therefore, it is meaningful to improve the efficiency of the entire learning process. If sufficient efficiency can be obtained without decomposing the coordinate values for each coordinate axis, it is not always necessary to decompose the coordinate values.
  • FIG. 6 is a functional block diagram of the image processing apparatus 100 according to the second embodiment of the present invention.
  • the image processing apparatus 100 according to the second embodiment includes a shifter 180 in addition to the configuration described in the first embodiment.
  • Other configurations are the same as those of the first embodiment.
  • FIG. 7 is a diagram for explaining the processing of the shifter 180.
  • the reproduction unit 170 reproduces the XY coordinates of the right eye / left eye / mouth on the image data 200, and these positions are shifted from the center of the image data 200
  • the shifter 180 shifts the entire image data 200 toward the center.
  • the right eye / left eye / mouth can be arranged in a balanced manner in the image data 200 by shifting so that the center of gravity of the XY coordinates of the right eye / left eye / mouth is arranged in the center of the image data 200. it can.
  • the specific content of the shift process depends on the object in the image data 200, and may be appropriately determined according to this.
  • Embodiment 3 of the present invention exemplifies the definition of a sub-region when the image data 200 is other than a human face image.
  • the configuration of the image processing apparatus 100 is the same as that described in the first and second embodiments.
  • FIG. 8 is a diagram for explaining the processing of the region definition unit 110 and the processing of the quantizer 130 when the image data 200 is taken from the side of the traveling vehicle. Since the vehicle travels on the road surface, it is sufficient to set only the vicinity of the road surface as a detection target. Therefore, the region definer 110 defines the lower half of the image data 200 as a road surface region, and the quantizer 130 quantizes the coordinate value of the region. The subsequent processing may be performed only on the road surface area. Thereby, the processing efficiency can be improved without degrading the detection accuracy.
  • FIG. 9 is a diagram for explaining the processing of the area definition device 110 when the image data 200 is obtained by photographing the vehicle from the front.
  • the characteristic elements when the vehicle is viewed from the front are considered to be the left and right lights and the license plate, and the area definer 110 defines sub-areas corresponding to these. In consideration of various vehicle designs, the sub-regions overlap in FIG.
  • FIG. 10 is a diagram illustrating a hardware configuration of the image processing apparatus 100 according to the fourth embodiment of the present invention.
  • Each functional unit included in the image processing apparatus 100 described in the first to third embodiments can be configured by executing a software that implements the function by a calculation device such as a CPU (Central Processing Unit).
  • a CPU Central Processing Unit
  • the image processing apparatus 100 can be configured by mounting these functional units in a plurality of apparatuses and communicating with each other.
  • the function of the image processing apparatus 100 is divided into apparatuses 1000a and 1000b, and these apparatuses communicate with each other via a network 1400, whereby the image processing apparatus 100 can be configured.
  • each device 1000 includes a CPU 1100, a memory 1200, and a communication interface 1300.
  • the apparatus 1000a performs processing corresponding to the region definer 110, the coordinate decomposer 120, the quantizer 130, and the mapper 140 and transmits the result to the apparatus 1000b.
  • the apparatus 1000b includes the learner 150 and the classifier 160.
  • the processing corresponding to the reproduction unit 170 and the shift unit 180 can be executed.
  • the classifier 160 performs logistic regression analysis on the output of the fully connected layer. Since the logistic regression analysis is for classifying the output of the fully connected layer, the same process can be implemented as a classification process by a neural network. Therefore, the classifier 160 can be configured as a new neural network layer next to the fully connected layer, instead of performing a logistic regression analysis.
  • Embodiments 1 to 4 described above the use of ReLU as the neuron activation function has been described.
  • other activation functions may be used.
  • a hyperbolic tangent function or a sigmoid function can be considered.
  • Different activation functions can be used in each layer.
  • the sub-region and each coordinate after quantization are rectangular-based, but other shapes such as a triangle and a polygon can be used depending on the shape of the object to be detected.
  • the neural network structure of the learning device 150 described in the first to fourth embodiments is an example, and other structures can be used.
  • the present invention is not limited to the embodiments described above, and includes various modifications.
  • the above embodiment has been described in detail for easy understanding of the present invention, and is not necessarily limited to the one having all the configurations described.
  • a part of the configuration of one embodiment can be replaced with the configuration of another embodiment.
  • the configuration of another embodiment can be added to the configuration of a certain embodiment. Further, with respect to a part of the configuration of each embodiment, another configuration can be added, deleted, or replaced.
  • the above components, functions, processing units, processing means, etc. may be realized in hardware by designing some or all of them, for example, with an integrated circuit.
  • Each of the above-described configurations, functions, and the like may be realized by software by interpreting and executing a program that realizes each function by the processor.
  • Information such as programs, tables, and files for realizing each function can be stored in a recording device such as a memory, a hard disk, an SSD (Solid State Drive), or a recording medium such as an IC card, an SD card, or a DVD.
  • SYMBOLS 100 Image processing apparatus, 110: Area

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

 本発明は、ニューラルネットワークを用いて物体を検出する処理の効率を向上させることを目的とする。本発明においては、物体検出を実施するために必要なタスクを、分類問題を解くために必要なタスクに変換し、入力データを分類するニューラルネットワークを用いて、物体検出を分類問題として処理する(図1参照)。

Description

画像処理方法、画像処理装置
 本発明は、ニューラルネットワークを用いて画像を処理する技術に関する。
 物体検出は、多くの画像処理タスクにおいて重要な役割を有している。物体検出の目的は、画像内の特定の物体またはその一部を発見することである。物体を特定した後、例えば物体特定などの処理を実施することができる。
 物体検出の1形態として、顔認識がある。顔認識の精度を高めるためには一般に、顔を特定の向きにそろえる必要がある。この整列を実施するため、例えば眼、鼻、口などのような顔の特徴要素を用いることができる。物体検出技術を用いることにより、これら特徴要素を認識し、その認識した特徴要素を用いて顔の向きを揃えることができる。
 物体検出において、スライドウインドウと呼ばれるものが用いられる。このアプローチにおいては、画像から任意の領域を抽出し、その領域が特定の物体を含んでいる確率を計算する。計算した確率が閾値以上である場合、その領域において当該物体が検出されることになる。スライドウインドウにより、検出精度を高めることができる。ただしこのアプローチは、対象物体のおおよその位置が事前に得られていない場合、演算負荷が高いという課題がある。閾値以上の確率が得られるまで、ウインドウを様々な場所に移動させたりサイズ変更したりすることが必要だからである。
 またスライドウインドウを用いる場合において、領域内に特定の物体が存在する確率を計算するため、テンプレートマッチングを実施することがある。テンプレートは通常あらかじめ定義されているので、当該物体の外観が経時変化する場合、マッチングがうまく作用しない。したがって検出精度を高めるためには、テンプレートをアップデートする必要がある。
 物体の変化に対して適応する手法として、機械学習を用いるものがある。機械学習によるアプローチは、物体を識別する外観上の特徴要素を学習することにより、当該物体の外観的特徴を抽象化して把握するものである。一般に機械学習においては、画像データとその画像データから得られる既知の検出結果のペアをあらかじめ学習し、学習器は新たな画像データに対してその学習結果に基づき物体検出を実施する。検出結果の精度に応じて学習パラメータを調整することもできる。
 ニューラルネットワークは、機械学習を実施する学習器としてよく知られている。ニューラルネットワークは、人間の脳からヒントを得てこれを模擬するニューロンを備える。各ニューロンに対する入力に対して所与の重みを乗算し、さらにバイアスを加算して、当該ニューロンの出力を得る。
 下記特許文献1は、畳み込みニューラルネットワークを用いて、低解像度画像内の人物を認識する手法について記載している。同文献においては、識別する人物の画像を用いて繰り返し学習を実施する。
US2011/0222724号公報
 ニューラルネットワークを用いて物体検出を実施する場合、学習過程において、所望の検出結果が得られるように重みやバイアスを調整する。ニューラルネットワークを用いて物体検出を実施する際の課題は、所望の結果が得られるようになるまで、長い学習時間が必要なことである。
 本発明は、上記のような課題に鑑みてなされたものであり、ニューラルネットワークを用いて物体を検出する処理の効率を向上させることを目的とする。
 本発明においては、物体検出を実施するために必要なタスクを、分類問題を解くために必要なタスクに変換し、入力データを分類するニューラルネットワークを用いて、物体検出を分類問題として処理する。
 本発明によれば、入力データを分類するニューラルネットワークを用いることにより、物体検出のために必要な処理を分類問題として効率的に処理することができる。
 上記した以外の課題、構成および効果は、以下の実施形態の説明により明らかにされるであろう。
実施形態1に係る画像処理装置100の機能ブロック図である。 領域定義器110の処理、座標分解器120の処理、および量子化器130の処理を説明する図である。 学習器150の層構成を例示する図である。 分類器160が出力する出力ベクトルについて説明する図である。 再現器170により処理を説明する図である。 実施形態2に係る画像処理装置100の機能ブロック図である。 シフト器180の処理を説明する図である。 画像データ200が走行する車両を側面から撮影したものである場合における領域定義器110の処理と量子化器130の処理を説明する図である。 画像データ200が車両を正面から撮影したものである場合における領域定義器110の処理を説明する図である。 実施形態4に係る画像処理装置100のハードウェア構成を示す図である。
<本発明の基本的な考え方>
 以下では本発明の理解を容易にするため、まず本発明の基本的な考え方について最初に説明し、その後に本発明の実施形態について説明する。
 ニューラルネットワークを用いて物体を検出する手法として、例えば特許文献1に記載されているような畳み込みニューラルネットワークを用いるものがある。同手法においては例えば、画像データに対して形状検出フィルタを適用する(畳み込む)ことにより物体の形状を検出し、フィルタ出力に対してMax Poolingなどの手法を適用することによりフィルタ内における物体の位置ずれをぼかす。これら処理を実装した層を多段的に連結することにより、ニューラルネットワークが形成される。
 ニューラルネットワークのその他用途として、分類問題を解くことが挙げられる。この場合、入力データとその入力データがいずれの分類に属するかとの間の対応関係をあらかじめニューラルネットワークに学習させておく。ニューラルネットワークに対して新たな入力データが投入されると、当該ニューラルネットワークはあらかじめ学習した結果に基づきその入力データがいずれの分類に属するかを示す値を出力する。
 ニューラルネットワークは一般に、物体検出を実施することよりも分類問題を解くことのほうが、より効率的に処理できる。物体検出は当該物体が存在している箇所を特定するタスクであるのに対し、分類問題は分類対象が属する分類を回答するタスクであり、出力すべき事項が物体検出よりも単純化されているからである。本発明はこのことに着目し、物体検出問題を分類問題として取り扱う手段を提供することにより、ニューラルネットワークを用いて物体を検出する処理効率を向上させることを図る。
<実施の形態1>
 図1は、本発明の実施形態1に係る画像処理装置100の機能ブロック図である。画像処理装置100は、ニューラルネットワークを用いて画像データ200内の物体を検出する装置であり、領域定義器110、座標分解器120、量子化器130、マッピング器140、学習器150、分類器160、再現器170を備える。以下では画像データ200の例として、人の顔画像を取り扱う。各機能部の動作については後述する。
 図2は、領域定義器110の処理、座標分解器120の処理、および量子化器130の処理を説明する図である。以下図2にしたがって、これら3つの機能部の動作について説明する。
 領域定義器110は、画像データ200が含んでいると想定される特徴的要素の個数および位置に応じて、画像データ200上で1以上のサブ領域を定義する。例えば人間の顔を検出する場合、画像データ200の(紙面に向かって)左上部分を右目領域、右上部分を左目領域、下半分を口領域として定義する。領域定義器110が定義するサブ領域の個数および位置は、検出する物体の特徴に応じてあらかじめ定めておいてもよいし、画像処理装置100が備える適当なインターフェースを介して都度指定してもよい。サブ領域は必ずしも定義する必要はなく、画像データ200全体を1つの領域として物体検出を実施してもよい。以下では図2のようにサブ領域を定義したことを前提とする。
 座標分解器120は、各サブ領域のピクセル座標を座標軸毎に分解する。分解後の各座標値は、それぞれ個別の1次元ベクトルとして取り扱われる。本実施形態1においては人の顔の2次元画像を取り扱っているので、各ピクセル座標はX座標の値とY座標の値に分解される。
 量子化器130は、座標分解器120によって分解された各座標軸のピクセル座標値を所定のインターバルで量子化する。これにより各サブ領域内のピクセルは、1ピクセル毎の連続的画素からインターバル毎の離散的画素へ変換される。各サブ領域の量子化インターバルは必ずしも同じでなくともよい。さらには、各座標軸の量子化インターバルも必ずしも同じでなくともよい。例えば図2に示すように、小さい領域の量子化インターバルは小さくセットし、横長領域においてはX座標の量子化インターバルをY座標の量子化インターバルより大きくしてもよい。量子化インターバルは、後述する再現器170が各特徴要素を座標系上に再現する際の誤差幅を規定する。詳細は後述する。量子化器130は演算負荷を軽減するためのものであるため、充分な演算リソースがある場合、量子化器130は必ずしも必要ではない。
 マッピング器140は、物体検出問題を分類問題として取り扱うために必要な処理を実施する。物体検出問題を分類問題として取り扱う場合、畳み込みニューラルネットワークの内部において構成されている各層は画像データ200内の各ピクセルが対象物体の座標値であるか否かを分類し、この各層の出力を集約していくことにより、最終的に対象物体の座標値が得られると考えられる。そこで本発明においては、画像データ200内の各ピクセルの座標値(量子化を実施した場合は量子化後の座標値)それぞれを分類問題における分類対象とみなし、各座標値が対象物体である(=各座標値が対象物体の一部に含まれている)か否かをニューラルネットワークによって分類することとした。
 マッピング器140は、画像データ200内の各ピクセルの座標値(量子化を実施した場合は量子化後の座標値)に対して、学習器150内部のいずれかの分類を割り当てる。ピクセル座標値と内部分類との間の対応関係は、例えばあらかじめ変換テーブルとして定義しておけばよい。ピクセル座標値から学習器150の内部分類への変換は、サブ領域毎および座標軸毎に実施する。本実施形態1においては、3つのサブ領域とXY軸が存在するので、マッピング器140は右目領域/左目領域/口領域それぞれのXYピクセル座標を、学習器150の内部分類へ変換する。
 学習器150は、例えば畳み込みニューラルネットワークなどを用いて構成された機械学習器である。学習器150は、マッピング器140によって分類された各ピクセル座標が検出対象物体の座標値であるか否かをあらかじめ学習する。本実施形態1において、検出対象物体は画像データ200内の右目/左目/口の3つである。学習器150は、あらかじめ実施した学習結果を用いて、新たな画像データ200の右目/左目/口の座標を認識する。
 図3は、学習器150の層構成を例示する図である。ここでは画像データ200は64ピクセル×64ピクセルの2次元画像であるものとする。以下図3を用いて、学習器150の構成例について説明する。
 第1層は、画像データ200に対して9ピクセル×9ピクセルの形状検出フィルタを適用する。このフィルタは、例えば垂直方向の線分を検出するフィルタである場合、中央列が大きい値を有しその他列は小さい値を有する9×9の配列である。学習器150は、画像データ200の左上端のピクセルにフィルタの左上端を合わせ、フィルタウインドウ内の各ピクセル画素値を、その画素と同じ位置のフィルタ値に対して乗算する。設計によってはその乗算結果に対してさらにバイアス値を加算してもよい。バイアス値はフィルタの全要素について同一でもよいし、要素毎に異なる値としてもよい。学習器150は、各ピクセル画素値とフィルタ値を乗算した結果(あるいはさらにバイアス値を加算した結果)をフィルタ内の9×9個の各要素値について合算し、これを当該ピクセル位置に対応するニューロンに対して入力する。
 入力値を受け取ったニューロンは、所定の活性化関数に対してその入力値を入力し、出力値を計算する。活性化関数の例として、Rectified Linear Unit(ReLU)などの非線形フィルタ関数が挙げられる。ReLUは、f(x)=max(0,x)として定義される。
 学習器150は、画像データ200の左上端のピクセルから順にフィルタウインドウを移動させ、画像データ200の全ピクセルをフィルタによってスキャンする。学習器150は、フィルタウインドウの各位置において上記と同様の演算を実施し、その結果を当該位置に対応するニューロンに対して入力し、当該ニューロンは出力値を計算する。図3に示す例においては、64×64ピクセルの画像データ200に対して、9×9ピクセルのフィルタを適用しているので、フィルタの開始位置は1ピクセル目から56ピクセル目までとなる。したがって1層目の後、56×56ピクセルに相当する処理結果が得られることになる。
 形状検出フィルタの種類が1つのみである場合、検出できる形状も1つのみとなる。複数の形状を検出したい場合、各層において複数種類の形状検出フィルタを適用することができる。1層目においては、20種類の形状検出フィルタを適用することとし、フィルタ種類毎にニューロンを設けることとした。このように形状検出フィルタを層毎に複数設ける手法は、Feature Mapなどと呼ばれている。最終的に1層目の後は、56×56×20ピクセルに相当する処理結果が得られることになる。
 畳み込みニューラルネットワークにおいて形状検出フィルタを適用する場合、検出対象である形状の位置がフィルタウインドウ内において想定される位置からずれている場合がある。これを解消するため、例えばMax Poolingなどの手法により位置ずれをぼかす。Max Poolingとは概略的に述べると、ウインドウ内の最大値のみを残す手法であり、ウインドウ内の形状はその最大値によって抽象化される。これは画像の解像度を落とすことに相当する。図3に示す例においては、1層目の出力に対して2×2のウインドウを用いてMax Poolingを実施し、28×28×20の処理結果を得ている。
 2層目はMax Poolingの結果得られた28×28×20の処理結果に対して7×7のフィルタウインドウを適用している。高次層においては低次層よりも複雑な形状を検出するので、2層目における形状検出フィルタの個数は40とした。以降の層においてもこれまでと同様の処理を実施する。図3に示す構成例においては、最終的に3×3×60の処理結果が得られる。
 最終段におけるfully connected層は120個のニューロンを有し、前層までの全てのニューロンはfully connected層内のいずれかのニューロンと接続される。したがってfully connected層は、前層までの全てのニューロンの情報を有する。
 図4は、分類器160が出力する出力ベクトルについて説明する図である。分類器160は、fully connected層が有する120個のニューロンそれぞれの出力に対してロジスティック回帰分析を実施し、右目X座標/右目Y座標/左目X座標/左目Y座標/口X座標/口Y座標に関する分析結果を出力する。この分析結果は6つの要素を有するベクトルとみなすことができる。
 学習器150は、右目領域/左目領域/口領域それぞれのXY座標に対応する内部分類を有している。したがって、低次層から高次層へ向かって情報を集約していくにつれて、学習器150が内部的に有している分類は、右目X座標/右目Y座標/左目X座標/左目Y座標/口X座標/口Y座標の6分類に集約されていくと考えられる。そこで本実施形態1において、分類器160が学習器150の最終段におけるfully connected層の各ニューロンの出力値に対してロジスティック回帰分析を実施することにより、これら6要素値を有する出力ベクトルを取得することとした。
 図5は、再現器170により処理を説明する図である。再現器170は、分類器160が出力する出力ベクトルを用いて、画像データ200の座標系上に、右目X座標/右目Y座標/左目X座標/左目Y座標/口X座標/口Y座標の6座標値を再現する。具体的には、(a)量子化器130を用いて出力ベクトルの各要素値を画像データ200の座標系上へ投影し、(b)座標分解器120を用いて逆量子化された各要素値をXY座標へ整形し、(c)領域定義器110を用いて各XY座標を画像データ200上のサブ領域に対して割り当てる。
 出力ベクトルの各要素値は、量子化された右目/左目/口のXY座標に相当する。量子化器130は、量子化されたXY座標を連続値座標へ逆量子化する。例えば量子化器130が画像データ200上の0.3以上0.4未満の座標値を0.3へ量子化するように構成されていると仮定する。量子化器130は、出力ベクトルの要素値が0.3であれば、これを0.3以上0.4未満の座標値へ逆量子化する。0.3以上0.4未満の座標値であればいずれでもよいが、右目/左目/口の真のXY座標との間の誤差を最小化するためには、中央値である0.35へ逆量子化することが望ましい。これにより、真の座標値が0.3以上0.4未満のいずれの値であっても、期待誤差は最小となる。
 座標分解器120は、逆量子化されたXY座標をペアにすることにより、(X,Y)座標を生成する。例えば右目X座標に関するロジスティック回帰分析結果を逆量子化した座標値と、右目Y座標に関するロジスティック回帰分析結果を逆量子化した座標値とをペアにすることにより、右目の座標値ベクトル(XRE,YRE)を生成する。左目と口についても同様である。
 領域定義器110は、座標分解器120によって得られた右目/左目/口のXY座標を対応する各サブ領域へ割り当てる。
 以上の結果、画像データ200の座標系上に対して、右目/左目/口のXY座標が再現されることになる。図5の下図は、画像データ200上においてこれら座標値が再現された結果を例示している。
<実施の形態1:まとめ>
 以上のように、本実施形態1に係る画像処理装置100は、画像データ200上の座標値を量子化して学習器150内部の分類を割り当て、各座標値が各サブ領域内の検出対象物体のXY座標であるか否かを分類する。これにより、物体検出問題を分類問題として取り扱うことができるので、学習器150の学習効率を向上させることができる。
 本実施形態1において、座標分解器120は画像データ200の座標値を座標軸毎に分解したが、これは座標軸毎に学習器150の内部分類を割り当てることにより、個々の座標軸に対する学習処理を簡易化し、もって学習処理全体を効率化する意義がある。座標値を座標軸毎に分解しなくとも十分な効率が得られる場合は、必ずしも座標値を分解する必要はない。
<実施の形態2>
 図6は、本発明の実施形態2に係る画像処理装置100の機能ブロック図である。本実施形態2に係る画像処理装置100は、実施形態1で説明した構成に加えてシフト器180を備える。その他構成は実施形態1と同様である。
 図7は、シフト器180の処理を説明する図である。再現器170が画像データ200上に右目/左目/口のXY座標を再現した結果、これらの位置が画像データ200の中央からずれている場合、シフト器180は画像データ200全体を中央寄りにシフトさせる。例えば顔画像においては、右目/左目/口のXY座標の重心が画像データ200の中央に配置されるようにシフトさせることにより、右目/左目/口を画像データ200内でバランスよく配置することができる。具体的なシフト処理の内容は画像データ200内の物体に依拠するので、これに応じて適宜定めればよい。
<実施の形態3>
 本発明の実施形態3では、画像データ200が人の顔画像以外である場合におけるサブ領域の定義について例示する。画像処理装置100の構成は実施形態1~2で説明したものと同様である。
 図8は、画像データ200が走行する車両を側面から撮影したものである場合における領域定義器110の処理と量子化器130の処理を説明する図である。車両は路面を走行するので、路面近傍のみを検出対象とすれば足りる。そこで領域定義器110は、画像データ200の下半分を路面領域として定義し、量子化器130は同領域の座標値を量子化する。以後の処理は路面領域に対してのみ実施すればよい。これにより、検出精度を落とすことなく処理効率を向上させることができる。
 図9は、画像データ200が車両を正面から撮影したものである場合における領域定義器110の処理を説明する図である。この実施形態においては、車両を正面から見た場合の特徴的要素は左右ライトとナンバープレートであると考え、領域定義器110はこれらに相当するサブ領域を定義している。車両デザインは様々なものがあることを考慮し、図9においてサブ領域は重なり合っている。
<実施の形態4>
 図10は、本発明の実施形態4に係る画像処理装置100のハードウェア構成を示す図である。実施形態1~3で説明した画像処理装置100が備える各機能部は、その機能を実装したソフトウェアをCPU(Central Processing Unit)などの演算装置が実行することにより構成することができる。
 さらにこれら機能部を複数の装置に分散して搭載し、各装置が互いに通信することにより、画像処理装置100を構成することができる。図10においては、画像処理装置100の機能を装置1000aと1000bに分割し、これら装置がネットワーク1400を介して通信することにより、画像処理装置100を構成することができる。図10においては、各装置1000はそれぞれCPU1100、メモリ1200、通信インターフェース1300を備える。
 各装置1000がいずれの機能を実行するかは、適宜定めることができる。例えば装置1000aは領域定義器110、座標分解器120、量子化器130、およびマッピング器140に相当する処理を実行してその結果を装置1000bへ送信し、装置1000bは学習器150、分類器160、再現器170、およびシフト器180に相当する処理を実行することができる。
<実施の形態5>
 以上の実施形態1~4において、分類器160はfully connected層の出力に対してロジスティック回帰分析を実施することを説明した。ロジスティック回帰分析は、fully connected層の出力を分類するためのものであるので、同様の処理をニューラルネットワークによる分類処理として実装することもできる。したがって分類器160は、ロジスティック回帰分析を実施することに代えて、fully connected層の次の新たなニューラルネットワーク層として構成することもできる。
 以上の実施形態1~4において、ニューロンの活性化関数としてReLUを用いることを説明したが、その他の活性化関数を用いることもできる。例えばハイパボリックタンジェント関数、シグモイド関数、などが考えられる。各層における活性化関数としてそれぞれ異なるものを用いることもできる。
 以上の実施形態1~4においては、サブ領域および量子化後の各座標は矩形ベースであるが、検出しようとする物体の形状によっては、例えば三角形や多角形などその他形状を用いることもできる。
 以上の実施形態1~4において説明した学習器150のニューラルネットワーク構造は例示であり、その他構造を用いることもできる。
<本発明の変形例について>
 本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。上記実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることもできる。また、ある実施形態の構成に他の実施形態の構成を加えることもできる。また、各実施形態の構成の一部について、他の構成を追加・削除・置換することもできる。
 上記各構成、機能、処理部、処理手段等は、それらの一部や全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記録装置、ICカード、SDカード、DVD等の記録媒体に格納することができる。
 100:画像処理装置、110:領域定義器、120:座標分解器、130:量子化器、140:マッピング器、150:学習器、160:分類器、170:再現器、180:シフト器、200:画像データ。

Claims (10)

  1.  入力データを分類するように学習を実施するニューラルネットワークを用いて、物体を含む画像データを処理する方法であって、
     前記画像データのピクセル座標を量子化する量子化ステップ、
     前記量子化したピクセル座標に対して、前記ニューラルネットワークが内部的に有するいずれかの内部分類を割り当てるマッピングステップ、
     前記画像データの前記量子化したピクセル座標、および前記マッピングステップにおいて割り当てた内部分類を用いて前記ニューラルネットワークの学習を実施する学習ステップ、
     前記学習後の前記ニューラルネットワークの出力値を取得する出力ステップ、
     前記学習後の前記ニューラルネットワークの出力値に対して、前記量子化の逆量子化を実施することにより、前記ニューラルネットワークの出力値を前記画像データの座標系上に投影し、前記物体の位置を前記座標系上に再現する再現ステップ、
     を有することを特徴とする画像処理方法。
  2.  前記画像処理方法はさらに、前記画像データ上において複数の領域を定義するステップを有し、
     前記画像処理方法は、前記量子化ステップと前記マッピングステップを前記領域毎に実施する
     ことを特徴とする請求項1記載の画像処理方法。
  3.  前記画像処理方法はさらに、前記ピクセル座標を座標軸毎に分解するステップを有し、 前記マッピングステップにおいては、前記分解した座標軸毎に個別の前記内部分類を割り当てる
     ことを特徴とする請求項1記載の画像処理方法。
  4.  前記画像処理方法はさらに、前記ピクセル座標を座標軸毎に分解するステップを有し、 前記マッピングステップにおいては、前記分解した座標軸毎に個別の前記内部分類を割り当て、
     前記画像処理方法はさらに、前記ニューラルネットワークの出力値を前記物体の前記座標軸上におけるいずれかの座標値へ分類する分類ステップを有し、
     前記再現ステップにおいては、前記分類ステップの結果に対して前記量子化の逆量子化を実施することにより、前記物体の位置を前記座標系上に再現する
     ことを特徴とする請求項1記載の画像処理方法。
  5.  前記画像処理方法はさらに、前記再現ステップにおいて前記座標系上に再現した前記物体を前記画像データ上の中央に向けてシフトさせるステップを有する
     ことを特徴とする請求項1記載の画像処理方法。
  6.  入力データを分類するように学習を実施するニューラルネットワークを用いて、物体を含む画像データを処理する装置であって、
     前記画像データのピクセル座標を量子化する量子化器、
     前記量子化したピクセル座標に対して、前記ニューラルネットワークが内部的に有するいずれかの内部分類を割り当てるマッピング器、
     前記画像データの前記量子化したピクセル座標、および前記マッピング器が割り当てた内部分類を用いて前記ニューラルネットワークの学習を実施する学習器、
     前記学習後のニューラルネットワークの出力値に対して、前記量子化の逆量子化を実施することにより、前記ニューラルネットワークの出力値を前記画像データの座標系上に投影し、前記物体の位置を前記座標系上に再現する再現器、
     を備えることを特徴とする画像処理装置。
  7.  前記画像処理装置はさらに、前記画像データ上において複数の領域を定義する領域定義器を備え、
     前記画像処理装置は、前記量子化器による処理と前記マッピング器による処理を前記領域毎に実施する
     ことを特徴とする請求項6記載の画像処理装置。
  8.  前記画像処理装置はさらに、前記ピクセル座標を座標軸毎に分解する分解器を備え、
     前記マッピング器は、前記分解した座標軸毎に個別の前記内部分類を割り当てる
     ことを特徴とする請求項6記載の画像処理装置。
  9.  前記画像処理装置はさらに、前記ピクセル座標を座標軸毎に分解する分解器を備え、
     前記マッピング器は、前記分解した座標軸毎に個別の前記内部分類を割り当て、
     前記画像処理装置はさらに、前記ニューラルネットワークの出力値を前記物体の前記座標軸上におけるいずれかの座標値へ分類する分類器を備え、
     前記再現器は、前記分類器による処理結果に対して前記量子化器による量子化の逆量子化を実施することにより、前記物体の位置を前記座標系上に再現する
     ことを特徴とする請求項6記載の画像処理装置。
  10.  前記画像処理装置はさらに、前記再現器が前記座標系上に再現した前記物体を前記画像データ上の中央に向けてシフトさせるシフト器を備える
     ことを特徴とする請求項6記載の画像処理装置。
PCT/JP2016/054828 2015-02-24 2016-02-19 画像処理方法、画像処理装置 WO2016136607A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201680008800.5A CN107251091A (zh) 2015-02-24 2016-02-19 图像处理方法、图像处理装置
SG11201706065VA SG11201706065VA (en) 2015-02-24 2016-02-19 Image processing method, image processing device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015033704A JP6348431B2 (ja) 2015-02-24 2015-02-24 画像処理方法、画像処理装置
JP2015-033704 2015-02-24

Publications (1)

Publication Number Publication Date
WO2016136607A1 true WO2016136607A1 (ja) 2016-09-01

Family

ID=56788589

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/054828 WO2016136607A1 (ja) 2015-02-24 2016-02-19 画像処理方法、画像処理装置

Country Status (4)

Country Link
JP (1) JP6348431B2 (ja)
CN (1) CN107251091A (ja)
SG (1) SG11201706065VA (ja)
WO (1) WO2016136607A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6822326B2 (ja) * 2017-06-23 2021-01-27 オムロン株式会社 見守り支援システム及びその制御方法
JP6822328B2 (ja) * 2017-06-27 2021-01-27 オムロン株式会社 見守り支援システム及びその制御方法
US10572963B1 (en) * 2017-07-14 2020-02-25 Synapse Technology Corporation Detection of items
JP7060079B2 (ja) 2018-03-02 2022-04-26 日本電気株式会社 推論装置、畳み込み演算実行方法及びプログラム
US11989639B2 (en) 2018-03-02 2024-05-21 Nec Corporation Inferential device, convolutional operation method, and program
JP6573297B1 (ja) * 2019-01-16 2019-09-11 パナソニック株式会社 監視カメラおよび検知方法
US10950104B2 (en) 2019-01-16 2021-03-16 PANASONIC l-PRO SENSING SOLUTIONS CO., LTD. Monitoring camera and detection method
JPWO2020240851A1 (ja) * 2019-05-31 2021-09-13 ニューラルポケット株式会社 情報処理システム、情報処理装置、サーバ装置、プログラム、又は方法
CN111260214B (zh) * 2020-01-15 2024-01-26 大亚湾核电运营管理有限责任公司 核电站预留工单领料方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03103997A (ja) * 1989-09-19 1991-04-30 Teremateiiku Kokusai Kenkyusho:Kk 文字切出し認識装置
JPH0458943A (ja) * 1990-06-28 1992-02-25 Konica Corp デジタル放射線画像の画像認識装置
JPH04317263A (ja) * 1991-04-17 1992-11-09 Fuji Photo Film Co Ltd ニューラルネットワークを用いた照射野認識の前処理方法
JPH05307639A (ja) * 1992-04-30 1993-11-19 Toshiba Corp 郵便物の宛名領域検出装置
JP2010086482A (ja) * 2008-10-02 2010-04-15 Canon Inc 画像認識装置および画像認識方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08272971A (ja) * 1995-03-31 1996-10-18 Toyota Motor Corp 対象物認識方法
JP4978227B2 (ja) * 2007-02-15 2012-07-18 トヨタ自動車株式会社 画像検出装置
US20100014755A1 (en) * 2008-07-21 2010-01-21 Charles Lee Wilson System and method for grid-based image segmentation and matching
JP2010055194A (ja) * 2008-08-26 2010-03-11 Sony Corp 画像処理装置および方法、学習装置および方法、並びにプログラム
US8582807B2 (en) * 2010-03-15 2013-11-12 Nec Laboratories America, Inc. Systems and methods for determining personal characteristics
CN102722712B (zh) * 2012-01-02 2014-04-16 西安电子科技大学 基于连续度的多尺度高分辨图像目标检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03103997A (ja) * 1989-09-19 1991-04-30 Teremateiiku Kokusai Kenkyusho:Kk 文字切出し認識装置
JPH0458943A (ja) * 1990-06-28 1992-02-25 Konica Corp デジタル放射線画像の画像認識装置
JPH04317263A (ja) * 1991-04-17 1992-11-09 Fuji Photo Film Co Ltd ニューラルネットワークを用いた照射野認識の前処理方法
JPH05307639A (ja) * 1992-04-30 1993-11-19 Toshiba Corp 郵便物の宛名領域検出装置
JP2010086482A (ja) * 2008-10-02 2010-04-15 Canon Inc 画像認識装置および画像認識方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SATOSHI SUZUI ET AL.: "Examination of Facial Expression Recognition with Fewer Feature Points for System Simplification", ITE TECHNICAL REPORT, vol. 28, no. 61, 21 October 2004 (2004-10-21), pages 1 - 4 *

Also Published As

Publication number Publication date
JP6348431B2 (ja) 2018-06-27
JP2016157219A (ja) 2016-09-01
CN107251091A (zh) 2017-10-13
SG11201706065VA (en) 2017-09-28

Similar Documents

Publication Publication Date Title
JP6348431B2 (ja) 画像処理方法、画像処理装置
JP6983937B2 (ja) 畳み込みニューラルネットワークにおける構造学習
Kim et al. Nonnegative tucker decomposition
US9734567B2 (en) Label-free non-reference image quality assessment via deep neural network
US20180130203A1 (en) Automated skin lesion segmentation using deep side layers
CN110622206A (zh) 使用多通道特征图的图像处理装置和方法
WO2018141429A1 (en) A method and apparatus for detecting objects of interest in images
US9734424B2 (en) Sensor data filtering
KR102370910B1 (ko) 딥러닝 기반 소수 샷 이미지 분류 장치 및 방법
KR20200067631A (ko) 영상 처리 장치 및 그 동작방법
CN110263872B (zh) 训练数据处理方法及装置
KR20180123810A (ko) X-Ray 의료 영상 판독을 위한 데이터 심화학습 처리 기술 및 그 방법
JP2023507248A (ja) 物体検出および認識のためのシステムおよび方法
Okawara et al. Action recognition from a single coded image
US11436491B2 (en) System and method for improving convolutional neural network-based machine learning models
KR102420104B1 (ko) 영상 처리 장치 및 그 동작방법
Franzen et al. visualizing image classification in fourier domain.
KR20190059033A (ko) 심층 신경망 기반 음성 인식 시스템에서의 특이값 분해를 이용한 입력 벡터 생성 장치 및 방법
US10339658B1 (en) Method for performing segmentation in an ordered sequence of digital data
CN115909009A (zh) 图像识别方法、装置、存储介质及电子设备
CN116710974A (zh) 在合成数据系统和应用程序中使用域对抗学习的域适应
Chanklan et al. Fingerprint recognition with edge detection and dimensionality reduction techniques
JP2021103519A (ja) 行動認識のための時空間の平滑化フィーチャを正規化する方法およびシステム
Hajinoroozi et al. Image enhancement with weighted histogram equalization and heap transforms
CN114365155A (zh) 具有快速逐点卷积的高效推断

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16755353

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 11201706065V

Country of ref document: SG

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16755353

Country of ref document: EP

Kind code of ref document: A1