WO2019031503A1 - タイヤ画像の認識方法及びタイヤ画像の認識装置 - Google Patents
タイヤ画像の認識方法及びタイヤ画像の認識装置 Download PDFInfo
- Publication number
- WO2019031503A1 WO2019031503A1 PCT/JP2018/029613 JP2018029613W WO2019031503A1 WO 2019031503 A1 WO2019031503 A1 WO 2019031503A1 JP 2018029613 W JP2018029613 W JP 2018029613W WO 2019031503 A1 WO2019031503 A1 WO 2019031503A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- image
- tire
- teacher
- recognition
- images
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 32
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 25
- 238000011176 pooling Methods 0.000 claims description 33
- 238000006243 chemical reaction Methods 0.000 claims description 20
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 10
- 230000000737 periodic effect Effects 0.000 claims description 2
- 238000012360 testing method Methods 0.000 description 21
- 230000006870 function Effects 0.000 description 19
- 230000008569 process Effects 0.000 description 11
- 238000013135 deep learning Methods 0.000 description 6
- 230000004913 activation Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 239000011324 bead Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004587 chromatography analysis Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000008733 trauma Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000011179 visual inspection Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0004—Industrial image inspection
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60C—VEHICLE TYRES; TYRE INFLATION; TYRE CHANGING; CONNECTING VALVES TO INFLATABLE ELASTIC BODIES IN GENERAL; DEVICES OR ARRANGEMENTS RELATED TO TYRES
- B60C11/00—Tyre tread bands; Tread patterns; Anti-skid inserts
- B60C11/24—Wear-indicating arrangements
- B60C11/246—Tread wear monitoring systems
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01M—TESTING STATIC OR DYNAMIC BALANCE OF MACHINES OR STRUCTURES; TESTING OF STRUCTURES OR APPARATUS, NOT OTHERWISE PROVIDED FOR
- G01M17/00—Testing of vehicles
- G01M17/007—Wheeled or endless-tracked vehicles
- G01M17/02—Tyres
- G01M17/027—Tyres using light, e.g. infrared, ultraviolet or holographic techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0004—Industrial image inspection
- G06T7/001—Industrial image inspection using an image reference approach
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60C—VEHICLE TYRES; TYRE INFLATION; TYRE CHANGING; CONNECTING VALVES TO INFLATABLE ELASTIC BODIES IN GENERAL; DEVICES OR ARRANGEMENTS RELATED TO TYRES
- B60C19/00—Tyre parts or constructions not otherwise provided for
- B60C2019/006—Warning devices, e.g. devices generating noise due to flat or worn tyres
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30108—Industrial image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/06—Recognition of objects for industrial automation
Definitions
- the present invention relates to a tire image recognition method and apparatus.
- Patent Document 1 since a feature amount that is characteristic geometric information such as an edge or a line of a tread pattern is set in advance by a human person such as a developer, the analysis parameter is an individual case. There is a problem that it takes a lot of time to analyze a large number of tires. Furthermore, analysis accuracy has been affected by individual image conditions such as brightness, angle, and size of the image to be used.
- the present invention has been made in view of the conventional problems, and it is an object of the present invention to provide a method and an apparatus capable of easily and reliably recognizing a tire type and a worn state from an image of a tire.
- the present invention is a tire image recognition method, comprising the steps of: acquiring a plurality of different tire images of one or both of the kind and the tire state, and using them as a teacher image; A conversion neural network (CNN; Convolutional Neural Network) having a convolution layer and a pooling layer as a learning image, respectively converting the data into a size of a fixed number of pixels and using the plurality of converted teacher image data as learning images , Setting parameters of the neural network, acquiring a tire image of a tire to be recognized, converting the same to the same size as the teacher image, and converting the tire image of the tire to be recognized Are input to the convolutional neural network, and the target tire type or tire Characterized in that it comprises the step of determining one or both of the state.
- CNN Convolutional Neural Network
- the present invention is an apparatus for recognizing a tire image, and a tire image photographing means for photographing a plurality of teacher images different in one or both of a kind and a tire state and a recognition image to be recognized and An image data conversion means for converting the teacher image and the recognition image into a size of a fixed number of pixels; a feature amount extraction means for extracting a feature amount of the image converted by the image data conversion means; A determination unit that compares the feature amount of the recognition image with the feature amount of the teacher image and determines one or both of the target tire type and the tire state; and the feature amount extraction unit A convolution layer and a pooling layer of a convolutional neural network constructed by using the training image as a training image, and the determination means determines the convolutional neural network Characterized in that it is a total binding layer of the workpiece.
- FIG. 1 is a view showing a tire image recognition apparatus according to an embodiment of the present invention. It is a figure which shows the extraction method of a conversion image. It is a figure for demonstrating the operation
- FIG. 1 is a functional block diagram showing the configuration of a tire image recognition device 10.
- the tire image recognition device 10 of this example includes a tire image photographing means 11, an image data conversion means 12, an image storage means 13, a tire recognition / determination means 14, and a display means 15, and the photographed tire The wear state of the tire is determined from the image of FIG.
- a photographing device such as a digital camera or a smartphone
- the display means 15 is constituted by a display or the like. Note that a moving image such as a video may be photographed and the still image may be used.
- each means from the image data conversion means 12 to the tire recognition / determination means 14 is constituted by a storage device such as a ROM or a RAM and a program of a microcomputer.
- the tire image capturing means 11 captures an image of the surface of the tire 20 to acquire a tire image. Specifically, a plurality of positions (for example, six positions) on the circumference of the tire 20 are photographed to obtain a plurality of images.
- the color tone may be either gray scale or RGB, since the tire is black, a gray scale image is used in this example. As a result, since the number of channels is one, the amount of image information can be reduced.
- As the image gradation an image in which the gray scale 225 gradation was standardized in the range of 0 to 1 was used.
- the tire image photographing means 11 photographs a plurality of reference tires having different amounts of wear for acquiring learning data of the convolutional neural network, and a tire for recognition for recognizing and judging the amount of wear.
- the number of images of the reference tire is six, and the number of images of the recognition tire is two.
- the size and the number of pixels of the image are not particularly limited, but in this example, the size of the photographed image is set to 480 ⁇ 640 pixels.
- the image range is not particularly limited, it is desirable that any part of the tread is contained in the entire image. If an object other than the tire 20, such as a landscape or a vehicle, appears in the image, it is desirable to extract the tire portion and use it as a new tire image.
- the image data conversion means 12 converts the photographed image into a fixed size image. Specifically, as shown in FIG. 2, a plurality of images G 1 to G n smaller in size than the tire image G 0 are cut out from the photographed tire image G 0 in a rectangular or square range, and these are converted It is an image. At this time, it is desirable that at least one pattern of the minimum cycle constituting the tread pattern is included in each of the converted images G 1 to G n .
- the size of the tire image G 0 is 480 ⁇ 640 pixels
- the size of the converted images G 1 to G n is 256 ⁇ 256 pixels
- one tire image G 0 to 6 converted images G 1 to G 6 was cut out.
- the number of converted images is 36.
- the image storage means 13 stores the converted images G L1 to G Ln of data for learning converted by the image data conversion means 12 and the converted images G S1 to G Sn of data for recognition.
- the converted images G L1 to G Ln of the learning data are classified as teaching data G L1 to G Lm for determining the filters of the convolution layer and the pooling layer to be described later, parameters of the entire combined layer, etc. It is stored separately as test data G Lm + 1 to G Ln for confirming the accuracy.
- the number m of teacher data is preferably 2/3 or more of the total number n of learning data. In this example, the number of levels is 2 and m is 27. That is, 27 ⁇ 2 of the 36 ⁇ 2 learning images are used as a teacher image, and the remaining 9 ⁇ 2 are used as test images.
- the tire recognition / discrimination unit 14 includes a feature extraction unit 14A and a recognition / discrimination unit 14B.
- the feature amount extraction unit 14A includes a convolution layer including the convolution filter F 1 (here, F 11 and F 12 ) and a pooling layer including the rectangular filter F 2 (here, F 21 and F 22 ). And extracting feature amounts of a recognition image as an image of a tire to be recognized from the converted image G S (G S1 to G Sn ) of the recognition data converted by the image data conversion means 12 Are expanded in one dimension and sent to the recognition / determination unit 14B.
- the recognition / discrimination unit 14B includes all the three combined layers of the input layer, the hidden layer, and the output layer, compares the feature amount of the recognition image with the feature amount of the teacher image, and wears the target tire. Are recognized and discriminated, and the discrimination result is output from the output layer to the display means 15 in the form of "probability".
- the total connection layer is composed of a plurality of units (also referred to as neurons) each having a function, each indicated by a circle in FIG. 1, and is connected to all the units of all previous connection layers. It is done.
- the number of units in the output layer is equal to the number of levels of wear. Here, the number of levels of wear was set to two levels: new (wear amount 0 mm) and wear amount large (wear amount 11 mm).
- the total number of bonding layers may be two or four or more.
- the parameters (weights or weights) for combining the above-described convolution filters F 11 and F 12 with the rectangular filters F 21 and F 22 , and units of all coupling layers are the teacher data G L1 to G Lk . It is obtained by the deep learning used. Details of the convolutional neural network and deep learning will be described later.
- the display unit 15 displays the determination result of the tire recognition / determination unit 14 on the display screen 15G.
- a convolutional neural network performs convolution processing using a filter on an input image to output a feature image by using a convolution layer, and reducing the position sensitivity of extracted features to recognize position change.
- a feedforward type neural network combining a pooling layer to be improved, in which a fully connected layer is arranged after repeating the convolution layer and the pooling layer several times.
- the convolution layer and the pooling layer do not necessarily have to be a pair, and may be, for example, a convolution layer-convolution layer-pooling layer.
- the convolutional layer is a layer that filters (convolves) the input image, and in order to accurately capture the features of the input image, it is preferable to use a plurality of filters.
- the filter for convolution is obtained by weighting and adding each pixel value included in an area of an appropriate size, and can be represented by a four-dimensional tensor.
- the pooling layer shifts the rectangular filter in the input image, takes out the maximum value in the rectangle, and outputs a new image (MAX pooling) to reduce the position sensitivity of the extracted feature.
- MAX pooling a new image
- the convolution filter F 11 in general, size filter square p ⁇ p is used.
- the size of the squares of the convolution filter F 11 corresponds to a pixel of the recognition image G k, the numbers in squares (filter values) a 1,1 ⁇ a p, p has become an updatable parameter by learning . That is, in the process of learning, the parameters a 1,1 to a p, p are updated so that the feature quantities of the image can be extracted. As shown in FIG.
- the recognition image G k is the input image, the convolution filter F 11 over a predetermined slide width, the first convolution image G k a (F 11).
- the pixel value of the first convolutional image G k (F 11 ) is given by the inner product of the pixel value of the recognition image G k in the p ⁇ p square multiplied by the convolution filter F 11 and the filter value. . Note that the size of the first convolutional image G k (F 11 ) is smaller than the size of the recognition image G k according to the above-described convolution process.
- the operation of obtaining a second convolutional image G k (F 12 ) from a second pooling image G k (F 21 ) described later using the convolution filter F 12 is the same.
- the convolution filters F 11 and F 12 a horizontal differential filter that detects edges in the horizontal direction, a vertical differential filter that detects edges in the vertical direction, or the like is used.
- the operation of the pooling layer will be described by taking the first convolutional image G k (F 11 ) as pooling processing in the first pooling layer and taking the first pooling image as an output image as an example.
- the q ⁇ q rectangular filter F 21 is shifted by a predetermined slide width in the first convolutional image G k (F 11 ) which is the input image,
- the largest value of the pixel values of the first convolutional image G k (F 11 ) in the q ⁇ q square multiplied by the filter F 21 is extracted to be a new image, the first pooling image G k (F 21 ) Performed MAX pooling to output.
- the size of the first pooling image G k (F 21 ) is smaller than the size of the first convolutional image G k (F 11 ).
- the operation of obtaining the second pooling image G k (F 22 ) from the second convolutional image G k (F 11 ) using the rectangular filter F 22 is the same. In the pooling process, no parameter is updated in the process of learning.
- the total connection layer is a neural network having an input layer composed of a plurality of units, a hidden layer, and an output layer, and converts the second pooling image G k (F 22 ), which is a two-dimensional image, into a one-dimensional vector. Perform pattern classification on input data. As shown in FIG. 5, each unit of the entire bonding layer indicated by a white circle in the same figure is connected to all the units of the previous layer and the next layer by parameters that can be updated by learning.
- the input value u 2, m to the nth unit from the top of the hidden layer is u 2
- m W1 , m x u1, 1 + W2 , m x u1, 2 + ... + W N1, m x u1 , N1 .
- a bias b2 , n is added to this input value u2 , n .
- the bias b 2, n is also a parameter that can be updated by learning.
- the input value u 2, n obtained in this manner is further output through a weight activation function, thereby enhancing nonlinearity and improving classification discrimination accuracy.
- a weight activation function a tanh or a sigmoid (Sigmoid) function is used, but in this example, a high performance and high performance ReLU (Rectified Linear Unit) function is used.
- the Softmax function is used as the weight activation function.
- the Softmax function is a special activation function used only for the output layer, and converts combinations of output values of the output layer into probabilities. That is, the output value of the output layer is converted such that the output value is 0 to 1 and the sum of the output values is 1 (100%).
- the difference between the output value of “correct answer” with respect to the output value of each level and the output value obtained by inputting the teacher image is digitized by an error function (loss function).
- an error function loss function
- the above parameters are updated so that the sum of errors when 54 pieces of data are passed through the convolutional network is minimized.
- a cross-entropy loss function is used as an error function.
- a stochastic gradient descent method (SGD) is used, and an algorithm of error back propagation is used to correct the gradient of the error function. It was.
- the stochastic gradient descent method only a small number of samples are extracted on a minibatch basis from all the data, and the parameters are updated on the basis of the entire samples.
- the error back propagation method can obtain the gradient at high speed by obtaining the gradient sequentially from the output to the input instead of directly calculating the gradient.
- the number of data is large, it is possible to prevent over-learning by using the Dropout method in which calculation is performed on all coupled layers, assuming that some units are absent.
- the number of times of learning is not particularly limited, but it is preferable to perform at least 10 times or more. If learning is done correctly, the value of the error function decreases after learning.
- step S10 it is checked whether learning of CNN (convolutional neural network) is completed. If the learning is not completed, the process proceeds to step S11. If the learning is completed, the process proceeds to step S21.
- step S11 the surfaces of a plurality of reference tires having different amounts of wear are photographed to acquire an image of the reference tire.
- step S12 after converting the acquired image of the reference tire into a plurality of images of a fixed size (step S12), the converted image is divided into a plurality of teacher images and a test image (step S13). .
- step S14 deep learning is performed using the plurality of teacher images, and the CNN parameters such as the filter values of the convolutional layer and the pooling layer and the weights of all the joint layers are self-updated to obtain learning parameters (step S14)
- the wear amount determination device corresponding to the tire recognition / determination means shown in FIG. 1 is constructed using these learned parameters obtained (step S15).
- step S16 the determination accuracy of the wear amount determination apparatus is confirmed using the test image (step S16).
- step S21 the surface of the tire to be recognized and determined as the amount of wear is photographed to acquire an image of the recognition tire.
- the acquired image of the recognition tire is converted into a plurality of images of a fixed size (step S22).
- step S21 to step S24 the processes of step S21 to step S24 may be performed.
- the number of levels in the wear state is two levels, that is, a new (wear amount 0 mm) and a large wear amount (wear amount 11 mm), but may be three or more levels.
- a new (wear amount 0 mm) and a large wear amount (wear amount 11 mm) may be three or more levels.
- multiple levels of tire images worn at intervals of 1 to 2 mm are labeled and learned as training data, as teacher data.
- the wear amount of the tire to be actually determined may be determined using.
- the tire condition is the tread wear amount, it is also possible to recognize and discriminate normal products and defective products as to whether or not there is a crack in the side tread.
- the number of kinds may be learned as a label and used for discrimination. If the output determination result is stored in a server or a cloud, it can be used for services such as notifying the user of the result to the on-site user and recommending replacement of the tire depending on the result.
- Example 1 The identification result in the case where the tire wear amount is set to two levels of new and large wear amount in tires of the same type will be described.
- the identification method is based on the flowchart shown in FIG. The specifications of the tire are shown below.
- a Wear amount: 11 mm ⁇ Photographed image Photographs were taken with the camera of a smartphone, and six shots of the circumferential length of each tire were taken at random.
- FIG. 7 (a) is an image of the tire 1
- FIG. 7 (b) is an image of the tire 2.
- the size of each image is 480 ⁇ 640 pixels.
- Image gradation Gray scale 255 gradations were standardized to a range of 0 to 1. Images after data conversion are shown in FIGS. 7 (c) and 7 (d). The size of the image after data conversion is 256 ⁇ 256 pixels. Data were distributed as follows for each of the two types of tires. Pic0, 1. jpeg to Pic4, 3. jpeg; 27 teacher images Pic4, 4. jpeg to Pic5, 6.
- Example 2 The tire 2 with a large amount of wear was identified as the tire 3 with a large amount of wear.
- a Wear amount: 8 mm 8 (a) and 8 (b) are photographed images of the tire 2 and the tire 3, and
- FIGS. 8 (c) and 8 (d) are images after data conversion.
- the implementation conditions are in accordance with Example 1.
- -Result The correct answer rate was 96%. That is, out of a total of 18 sheets of 9 images of the test tire 2 and 9 images of the test tire 3, 17 sheets were correctly recognized and classified.
- Example 3 A new tire 1, a tire 2 with a large amount of tire wear, and a tire 3 with a large amount of wear were identified.
- the photographed images of the tires 1 to 3 and the images after data conversion are the same as those shown in FIG. 7 and FIG.
- the implementation conditions are in accordance with Example 1.
- the correct answer rate was 96%. That is, of a total of 27 sheets of 9 images of the test tire 1, 9 images of the test tire 2, and 9 images of the test tire 3, 26 sheets were correctly recognized and classified.
- Example 4 Different types of tires 1 and 4 were identified. ⁇ Tire 1 Size: 245 / 70R19.5 Pattern; A Amount of wear: 0 mm (new tire) ⁇ Tire 4 Size: 205 / 65R15 Pattern; B Amount of wear: 0 mm (new tire) 9 (a) and 9 (b) are photographed images of the tire 1 and the tire 4, and FIGS. 9 (c) and 9 (d) are images after data conversion.
- the implementation conditions are in accordance with Example 1.
- -Result The correct answer rate was 100%. That is, a total of 18 sheets of 9 images of the test tire 1 and 9 images of the test tire 4 were all correctly recognized and classified.
- Example 5 The tires 4 and 5 with different tread patterns were identified. ⁇ Tire 4 Size: 205 / 65R15 Pattern; B Amount of wear: 0 mm (new tire) ⁇ Tire 5 Size: 205 / 65R15 Pattern; C Amount of wear: 0 mm (new tire) 10 (a) and 10 (b) are photographed images of the tire 4 and the tire 5, and FIGS. 10 (c) and 10 (d) are images after data conversion. The operating conditions for the image are the same as in the first embodiment.
- Deep learning conditions Number of convolutions; 4 Filter size; 8, 5, 4, 4 respectively Number of pooling; 4 Pooling area; 5,4,4,4 respectively Total bonding layer size
- First layer input layer
- 2304 ⁇ 1 ⁇ 27 Second layer hidden layer
- none third layer output layer
- Other learning conditions are in accordance with Example 1.
- -Result The correct answer rate was 100%. That is, a total of 18 sheets of 9 images of the test tire 4 and 9 images of the test tire 5 were all correctly recognized and classified.
- Deep learning condition convolution; no size of total connection layer first layer (input layer); 65536 ⁇ 1 ⁇ 27 Second layer (hidden layer); 50 ⁇ 1 ⁇ 27 Third layer (output layer); 2 ⁇ 1 ⁇ 27 Other learning conditions are in accordance with Example 1. -Result The correct answer rate was 59%. That is, of the 27 images in total of 9 images of the test tire 1, 9 images of the test tire 2, and 9 images of the test tire 3, only 16 could be correctly recognized and classified.
- the present invention is a method of recognizing a tire image, which comprises the steps of acquiring a plurality of tire images different in one or both of the kind and the tire state, and using them as a teacher image; Respectively, the step of converting to a size of a fixed number of pixels, and learning by a convolutional neural network (CNN; Convolutional Neural Network) having a convolution layer and a pooling layer as a plurality of converted teacher image data as learning images , Setting parameters of the neural network, acquiring a tire image of a tire to be recognized, converting the same to the same size as the teacher image, and folding the converted tire image of the tire to be recognized Input to neural network and either tire type or tire condition to be targeted And the step of determining both.
- CNN Convolutional Neural Network
- a convolutional neural network in which feature amounts are extracted from tire image data input by the convolution layer and the pooling layer, and then discrimination is performed by all connection layers (conventional neural networks). Therefore, not only parameters in the neural network can be greatly reduced and calculation speed can be increased, but also tire information such as kind and wear amount can be set without setting characteristic geometric information such as tread pattern edges and lines. Can be accurately recognized and determined.
- the convolutional neural network at the time of learning, the error with respect to the set of teacher image data is minimized by the error back-propagation method using the gradient steep drop method (GD), the stochastic gradient steep drop method (SGD) or the like.
- GD gradient steep drop method
- SGD stochastic gradient steep drop method
- the discrimination accuracy of the tire to be recognized can be greatly improved.
- the tire type or the tire condition is any one of a tread pattern, a tread wear amount, a bead scratch and a side tread crack, tire information necessary for tire replacement can be recognized and discriminated with high accuracy.
- tire information can be accurately recognized and discriminated with a small amount of image information.
- the teacher image and the tire image of the tire to be recognized are converted to gray scale and the gray scale gray scale is normalized to a range of 0 to 1, the amount of image information is reduced and calculation time is shortened. it can.
- the present invention is an apparatus for recognizing a tire image, and a tire image photographing means for photographing a plurality of teacher images different in one or both of a kind and a tire state and a recognition image to be recognized and An image data conversion means for converting the teacher image and the recognition image into a size of a fixed number of pixels; a feature amount extraction means for extracting a feature amount of the image converted by the image data conversion means; A determination unit that compares the feature amount of the recognition image with the feature amount of the teacher image and determines one or both of the target tire type and the tire state; and the feature amount extraction unit A convolution layer and a pooling layer of a convolutional neural network constructed by using the training image as a training image, and the discrimination means comprises the convolutional neural network Characterized in that the total tie layer chromatography click.
- tire image recognition device 11 tire image photographing means, 12 image data conversion means, 13 image storage means, 14 tire recognition / determination means, 14A feature quantity extraction unit, 14B Recognition / discrimination unit, 15 display means, 20 tires.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mechanical Engineering (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Tires In General (AREA)
Abstract
品種もしくはタイヤ状態のいずれか一方もしくは両方の異なる複数のタイヤ画像を取得して、これを教師用画像とし、これらの教師用画像を一定の画素数のサイズへ変換した後、変換した複数の教師用画像データを学習用画像として、畳み込みニューラルネットワークで学習してネットワークのパラメータを設定し、しかる後に、認識対象のタイヤのタイヤ画像を取得し、これを教師用画像と同じサイズへ変換してから畳み込みニューラルネットワークに入力して、対象となるタイヤの品種もしくはタイヤ状態のいずれか一方もしくは両方を判別するようにした。
Description
本発明は、タイヤ画像の認識方法とその装置に関する。
タイヤは、摩耗によるトレッドゴムの減少や外傷や劣化による損傷が発生した場合に、タイヤ性能と安全性を担保するために、新品タイヤへ交換することが推奨されている。その判断のための情報取得は、主に、目視による外観観察によりなされている。
摩耗量の判別においては、それがタイヤの走行性能や安全性能に対して重要であるにも関わらず、運転者による点検が日常的に必要な頻度で実施されているとは言い難い。
そこで、人による目視ではなく、カメラのような機械による画像から摩耗量などのタイヤ情報を認識できれば、点検の省力化が実現できるだけでなく、管理コストの低減も期待できる。
近年、画像処理、画像認識の技術が大きく進歩しており、例えば、タイヤのトレッドパターンを撮影し、そのアスペクト比やトレッド溝深さを解析してタイヤ摩耗量を特定するなど、タイヤの点検への活用が検討され始めている(例えば、特許文献1参照)。
摩耗量の判別においては、それがタイヤの走行性能や安全性能に対して重要であるにも関わらず、運転者による点検が日常的に必要な頻度で実施されているとは言い難い。
そこで、人による目視ではなく、カメラのような機械による画像から摩耗量などのタイヤ情報を認識できれば、点検の省力化が実現できるだけでなく、管理コストの低減も期待できる。
近年、画像処理、画像認識の技術が大きく進歩しており、例えば、タイヤのトレッドパターンを撮影し、そのアスペクト比やトレッド溝深さを解析してタイヤ摩耗量を特定するなど、タイヤの点検への活用が検討され始めている(例えば、特許文献1参照)。
しかしながら、上記特許文献1では、トレッドパターンのエッジやラインといった特徴的な幾何学情報である特徴量を、事前に開発者などの人間が介在して設定しているため、解析パラメータが個別のケースに限定されるだけでなく、大量のタイヤを解析するには多大な時間がかかってしまうといった問題点があった。
更に、用いる画像の明るさや角度、大きさといった個別の画像状態に解析精度が左右されてしまっていた。
更に、用いる画像の明るさや角度、大きさといった個別の画像状態に解析精度が左右されてしまっていた。
本発明は、従来の問題点に鑑みてなされたもので、タイヤの画像からタイヤ種や摩耗状態などを容易にかつ確実に認識できる方法とその装置を提供することを目的とする。
本発明は、タイヤ画像の認識方法であって、品種もしくはタイヤ状態のいずれか一方もしくは両方の異なる複数のタイヤ画像を取得して、これを教師用画像とするステップと、前記教師用画像を、それぞれ、一定の画素数のサイズへ変換するステップと、前記変換した複数の教師用画像データを学習用画像として、畳み込み層とプーリング層とを備えた畳み込みニューラルネットワーク(CNN;Convolutional Neural Network)で学習し、前記ニューラルネットワークのパラメータを設定するステップと、認識対象のタイヤのタイヤ画像を取得し、これを前記教師用画像と同じサイズへ変換するステップと、前記変換された認識対象のタイヤのタイヤ画像を前記畳み込みニューラルネットワークに入力し、前記対象となるタイヤの品種もしくはタイヤ状態のいずれか一方もしくは両方を判別するステップとを備えることを特徴とする。
また、本発明は、タイヤ画像を認識する装置であって、品種もしくはタイヤ状態のいずれか一方もしくは両方の異なる複数の教師用画像と認識対象となる認識用画像とを撮影するタイヤ画像撮影手段と、前記教師用画像と前記認識用画像とを一定の画素数のサイズへ変換する画像データ変換手段と、前記画像データ変換手段で変換された画像の特徴量を抽出する特徴量抽出手段と、前記認識用画像の特徴量と教師用画像の特徴量とを比較して、前記対象となるタイヤの品種もしくはタイヤ状態のいずれか一方もしくは両方を判別する判別手段とを備え、前記特徴量抽出手段が、前記教師用画像を学習用画像として構築した畳み込みニューラルネットワークの畳み込み層とプーリング層であり、前記判別手段が、前記畳み込みニューラルネットワークの全結合層であることを特徴とする。
なお、前記発明の概要は、本発明の必要な全ての特徴を列挙したものではなく、これらの特徴群のサブコンビネーションもまた、発明となり得る。
図1は、タイヤ画像の認識装置10の構成を示す機能ブロック図である。
本例のタイヤ画像の認識装置10は、タイヤ画像撮影手段11と、画像データ変換手段12と、画像格納手段13と、タイヤ認識・判別手段14と、表示手段15とを備え、撮影されたタイヤの画像から、当該タイヤの摩耗状態を判別する。
タイヤ画像撮影手段11としては、例えば、デジタルカメラやスマートフォンなどの撮影装置が用いられ、表示手段15は、ディスプレイ等から構成される。なお、ビデオなどの動画を撮影して、その静止画を用いてもよい。
また、画像データ変換手段12~タイヤ認識・判別手段14までの各手段は、ROMやRAMなどの記憶装置とマイクロコンピュータのプログラムとから構成される。
タイヤ画像撮影手段11は、タイヤ20の表面の画像を撮影してタイヤ画像を取得する。具体的には、タイヤ20の周の複数の位置(例えば、6か所)を撮影して複数の画像を取得する。
色調は、グレースケール、RGBのいずれでもよいが、タイヤは黒色なので、本例では、グレースケール画像を用いた。これにより、チャンネル数が1つで済むので、画像情報量を少なくすることができる。なお、画像階調としては、グレースケール225階調を0~1の範囲に規格化した画像を使用した。
タイヤ画像撮影手段11は、畳み込みニューラルネットワークの学習用データを取得するための、摩耗量が異なる複数の基準タイヤと、摩耗量を認識・判別するため認識用タイヤとを撮影する。
本例では、基準タイヤの画像数を6枚、認識用タイヤの画像数を2枚とした。
また、画像のサイズや画素数も特に限定しないが、本例では、撮影画像のサイズを、480×640ピクセルとした。また、画像範囲も特に限定しないが、画像全体にトレッドのいずれかの部分が収まっていることが望ましい。もし、画像に、風景や車両などのタイヤ20以外の物体が写っている場合には、タイヤ部分を抽出して、これを新たにタイヤ画像とすることが望ましい。
本例のタイヤ画像の認識装置10は、タイヤ画像撮影手段11と、画像データ変換手段12と、画像格納手段13と、タイヤ認識・判別手段14と、表示手段15とを備え、撮影されたタイヤの画像から、当該タイヤの摩耗状態を判別する。
タイヤ画像撮影手段11としては、例えば、デジタルカメラやスマートフォンなどの撮影装置が用いられ、表示手段15は、ディスプレイ等から構成される。なお、ビデオなどの動画を撮影して、その静止画を用いてもよい。
また、画像データ変換手段12~タイヤ認識・判別手段14までの各手段は、ROMやRAMなどの記憶装置とマイクロコンピュータのプログラムとから構成される。
タイヤ画像撮影手段11は、タイヤ20の表面の画像を撮影してタイヤ画像を取得する。具体的には、タイヤ20の周の複数の位置(例えば、6か所)を撮影して複数の画像を取得する。
色調は、グレースケール、RGBのいずれでもよいが、タイヤは黒色なので、本例では、グレースケール画像を用いた。これにより、チャンネル数が1つで済むので、画像情報量を少なくすることができる。なお、画像階調としては、グレースケール225階調を0~1の範囲に規格化した画像を使用した。
タイヤ画像撮影手段11は、畳み込みニューラルネットワークの学習用データを取得するための、摩耗量が異なる複数の基準タイヤと、摩耗量を認識・判別するため認識用タイヤとを撮影する。
本例では、基準タイヤの画像数を6枚、認識用タイヤの画像数を2枚とした。
また、画像のサイズや画素数も特に限定しないが、本例では、撮影画像のサイズを、480×640ピクセルとした。また、画像範囲も特に限定しないが、画像全体にトレッドのいずれかの部分が収まっていることが望ましい。もし、画像に、風景や車両などのタイヤ20以外の物体が写っている場合には、タイヤ部分を抽出して、これを新たにタイヤ画像とすることが望ましい。
画像データ変換手段12は、撮影した画像一定サイズの画像に変換する。
具体的には、図2に示すように、撮影したタイヤ画像G0から、矩形もしくは正方形の範囲で、タイヤ画像G0よりもサイズが小さい複数の画像G1~Gnを切り出し、これらを変換画像とする。このとき、変換画像G1~Gnの各画像内には、トレッドパターンを構成する最小周期のパターンが最低でも1個収まっていることが望ましい。
本例では、タイヤ画像G0のサイズを480×640ピクセルとし、変換画像G1~Gnのサイズを256×256ピクセルとし、1枚のタイヤ画像G0から6枚の変換画像G1~G6を切り出した。変換画像の個数は36枚となる。
画像格納手段13は、 画像データ変換手段12で変換された、学習用データの変換画像GL1~GLnと、認識用データの変換画像GS1~GSnとを収納する。なお、学習用データの変換画像GL1~GLnは、後述する畳み込み層やプーリング層のフィルタや全結合層のパラメータなどを決定するための教師データGL1~GLmと、畳み込みニューラルネットワークの判別精度を確認するためのテストデータGLm+1~GLnとに分けて収納される。教師データの個数mとしては、学習用データの総数nの2/3以上とすることが好ましい。
本例では、水準数を2とし、mを27とした。すなわち、36×2枚の学習用画像のうちの27×2枚を教師画像とし、残りの9×2枚をテスト画像とした。
具体的には、図2に示すように、撮影したタイヤ画像G0から、矩形もしくは正方形の範囲で、タイヤ画像G0よりもサイズが小さい複数の画像G1~Gnを切り出し、これらを変換画像とする。このとき、変換画像G1~Gnの各画像内には、トレッドパターンを構成する最小周期のパターンが最低でも1個収まっていることが望ましい。
本例では、タイヤ画像G0のサイズを480×640ピクセルとし、変換画像G1~Gnのサイズを256×256ピクセルとし、1枚のタイヤ画像G0から6枚の変換画像G1~G6を切り出した。変換画像の個数は36枚となる。
画像格納手段13は、 画像データ変換手段12で変換された、学習用データの変換画像GL1~GLnと、認識用データの変換画像GS1~GSnとを収納する。なお、学習用データの変換画像GL1~GLnは、後述する畳み込み層やプーリング層のフィルタや全結合層のパラメータなどを決定するための教師データGL1~GLmと、畳み込みニューラルネットワークの判別精度を確認するためのテストデータGLm+1~GLnとに分けて収納される。教師データの個数mとしては、学習用データの総数nの2/3以上とすることが好ましい。
本例では、水準数を2とし、mを27とした。すなわち、36×2枚の学習用画像のうちの27×2枚を教師画像とし、残りの9×2枚をテスト画像とした。
タイヤ認識・判別手段14は、特徴量抽出部14Aと認識・判別部14Bとを備える。
特徴量抽出部14Aは、畳み込み用フィルタF1(ここでは、F11,F12)を備えた畳み込み層と、矩形フィルタF2(ここでは、F21,F22)を備えたプーリング層とを備え、画像データ変換手段12で変換された認識用データの変換画像GS(GS1~GSn)から認識する対象となるタイヤの画像である認識用画像の特徴量を抽出した後、各ピクセルの値を一次元に展開して認識・判別部14Bに送る。
認識・判別部14Bは、入力層、隠れ層、出力層の3つの全結合層を備え、認識用画像の特徴量と教師用画像の特徴量とを比較して、対象となるタイヤの摩耗状態を認識・判別し、判別結果を「確率」の形で出力層から表示手段15に出力する。
全結合層は、それぞれが、図1の丸印で示す、1つ1つがある関数を有する複数個のユニット(ニューロンともいう)から構成され、かつ、前の全結合層の全てのユニットと結合されている。出力層のユニット数は、摩耗状態の水準数に等しい。
ここでは、摩耗状態の水準数を、新品(摩耗量0mm)と摩耗量大(摩耗量11mm)の2水準とした。
なお、全結合層の数は2層であってもよいし、4層以上であってもよい。
また、上記の畳み込み用フィルタF11,F12と矩形フィルタF21,F22、及び、全結合層のユニット同士を結合するパラメータ(重み、もしくは、weight)は、教師データGL1~GLkを用いた深層学習(Deep Learning)により求められる。
畳み込みニューラルネットワークの詳細と深層学習については後述する。
表示手段15は、タイヤ認識・判別手段14の判定結果を表示画面15Gに表示する。
特徴量抽出部14Aは、畳み込み用フィルタF1(ここでは、F11,F12)を備えた畳み込み層と、矩形フィルタF2(ここでは、F21,F22)を備えたプーリング層とを備え、画像データ変換手段12で変換された認識用データの変換画像GS(GS1~GSn)から認識する対象となるタイヤの画像である認識用画像の特徴量を抽出した後、各ピクセルの値を一次元に展開して認識・判別部14Bに送る。
認識・判別部14Bは、入力層、隠れ層、出力層の3つの全結合層を備え、認識用画像の特徴量と教師用画像の特徴量とを比較して、対象となるタイヤの摩耗状態を認識・判別し、判別結果を「確率」の形で出力層から表示手段15に出力する。
全結合層は、それぞれが、図1の丸印で示す、1つ1つがある関数を有する複数個のユニット(ニューロンともいう)から構成され、かつ、前の全結合層の全てのユニットと結合されている。出力層のユニット数は、摩耗状態の水準数に等しい。
ここでは、摩耗状態の水準数を、新品(摩耗量0mm)と摩耗量大(摩耗量11mm)の2水準とした。
なお、全結合層の数は2層であってもよいし、4層以上であってもよい。
また、上記の畳み込み用フィルタF11,F12と矩形フィルタF21,F22、及び、全結合層のユニット同士を結合するパラメータ(重み、もしくは、weight)は、教師データGL1~GLkを用いた深層学習(Deep Learning)により求められる。
畳み込みニューラルネットワークの詳細と深層学習については後述する。
表示手段15は、タイヤ認識・判別手段14の判定結果を表示画面15Gに表示する。
次に、畳み込みニューラルネットワークについて説明する。
畳み込みニューラルネットワークは、入力画像に対してフィルタを用いた畳み込み処理を行って特徴画像を出力する畳み込み層(Convolution layer)と、抽出された特徴の位置感度を低下させることで位置変化に対する認識能力を向上させるプーリング層(Pooling layer)とを組み合わせたフィードフォワード型のニューラルネットワークで、畳み込み層とプーリング層とを何回か繰り返した後に、全結合層(fully connected layer)が配置される構成となっている。なお、畳み込み層とプーリング層とは必ずしもペアで有る必要なく、例えば、畳み込み層-畳み込み層-プーリング層としてもよい。
畳み込み層は、入力画像に対してフィルタをかける(畳み込む)層で、入力画像の特徴を的確に捉えるためには、フィルタを複数個使うことが好ましい。
なお、畳み込み用のフィルタは、適当な大きさの領域に含まれる各画素値を重みづけして足し合わせるもので、4次元テンソルで表せる。
一方、プーリング層は、矩形のフィルタを入力画像内でずらして行き矩形内の最大値を取出して新しい画像を出力する(MAXプーリング)ことで抽出された特徴の位置感度を低下させる。なお、矩形内の値の平均値を採る平均値プーリングを行ってもよい。
畳み込みニューラルネットワークは、入力画像に対してフィルタを用いた畳み込み処理を行って特徴画像を出力する畳み込み層(Convolution layer)と、抽出された特徴の位置感度を低下させることで位置変化に対する認識能力を向上させるプーリング層(Pooling layer)とを組み合わせたフィードフォワード型のニューラルネットワークで、畳み込み層とプーリング層とを何回か繰り返した後に、全結合層(fully connected layer)が配置される構成となっている。なお、畳み込み層とプーリング層とは必ずしもペアで有る必要なく、例えば、畳み込み層-畳み込み層-プーリング層としてもよい。
畳み込み層は、入力画像に対してフィルタをかける(畳み込む)層で、入力画像の特徴を的確に捉えるためには、フィルタを複数個使うことが好ましい。
なお、畳み込み用のフィルタは、適当な大きさの領域に含まれる各画素値を重みづけして足し合わせるもので、4次元テンソルで表せる。
一方、プーリング層は、矩形のフィルタを入力画像内でずらして行き矩形内の最大値を取出して新しい画像を出力する(MAXプーリング)ことで抽出された特徴の位置感度を低下させる。なお、矩形内の値の平均値を採る平均値プーリングを行ってもよい。
次に、畳み込み層の動作について、認識用画像Gkを、第1の畳み込み層にて畳み込み処理して、第1の畳み込み画像Gk(F11)を得るまでを例にとって説明する。
畳み込み用フィルタF11としては、一般には、サイズがp×pの正方形のフィルタが用いられる。畳み込み用フィルタF11の升目の大きさは認識用画像Gkのピクセルに相当し、升目内の数字(フィルタ値)a1,1~ap,pが学習により更新可能なパラメータとなっている。すなわち、学習の過程で、画像の特徴量が抽出できるように、パラメータa1,1~ap,pが更新される。
図3に示すように、入力画像である認識用画像Gkに、畳み込み用フィルタF11を所定のスライド幅で掛けて、第1の畳み込み画像Gk(F11)を得る。この第1の畳み込み画像Gk(F11)の画素値は、畳み込み用フィルタF11が掛けられたp×pの正方形内の認識用画像Gkの画素値とフィルタ値との内積で与えられる。なお上記の畳み込み処理より、第1の畳み込み画像Gk(F11)のサイズは、認識用画像Gkのサイズよりも小さくなる。
なお、畳み込み用フィルタF12を用いて、後述する第2のプーリング画像Gk(F21)から第2の畳み込み画像Gk(F12)を得る動作も同様である。
畳み込み用フィルタF11,F12としては、横方向のエッジを検出する横方向微分フィルタや縦方向のエッジを検出する縦方向微分フィルタなどが用いられる。
畳み込み用フィルタF11としては、一般には、サイズがp×pの正方形のフィルタが用いられる。畳み込み用フィルタF11の升目の大きさは認識用画像Gkのピクセルに相当し、升目内の数字(フィルタ値)a1,1~ap,pが学習により更新可能なパラメータとなっている。すなわち、学習の過程で、画像の特徴量が抽出できるように、パラメータa1,1~ap,pが更新される。
図3に示すように、入力画像である認識用画像Gkに、畳み込み用フィルタF11を所定のスライド幅で掛けて、第1の畳み込み画像Gk(F11)を得る。この第1の畳み込み画像Gk(F11)の画素値は、畳み込み用フィルタF11が掛けられたp×pの正方形内の認識用画像Gkの画素値とフィルタ値との内積で与えられる。なお上記の畳み込み処理より、第1の畳み込み画像Gk(F11)のサイズは、認識用画像Gkのサイズよりも小さくなる。
なお、畳み込み用フィルタF12を用いて、後述する第2のプーリング画像Gk(F21)から第2の畳み込み画像Gk(F12)を得る動作も同様である。
畳み込み用フィルタF11,F12としては、横方向のエッジを検出する横方向微分フィルタや縦方向のエッジを検出する縦方向微分フィルタなどが用いられる。
次に、プーリング層の動作について、第1の畳み込み画像Gk(F11)を、第1のプーリング層にてプーリング処理して、出力画像である第1プーリング画像を得るまでを例にとって説明する。
本例では、図4に示すように、入力画像である第1の畳み込み画像Gk(F11)内で、q×qの矩形フィルタF21を、所定のスライド幅でずらして行き、畳み込み用フィルタF21が掛けられたq×qの正方形内の第1の畳み込み画像Gk(F11)の画素値のうちの最大の値を取出して新しい画像である第1のプーリング画像Gk(F21)を出力するMAXプーリングを行った。プーリング処理でも、第1のプーリング画像Gk(F21)のサイズは、第1の畳み込み画像Gk(F11)のサイズよりも小さくなる。
矩形フィルタF22を用いて、第2の畳み込み画像Gk(F11)から第2のプーリング画像Gk(F22)を得る動作も同様である。
なお、プーリング処理では、学習の過程で更新されるパラメータは存在しない。
本例では、図4に示すように、入力画像である第1の畳み込み画像Gk(F11)内で、q×qの矩形フィルタF21を、所定のスライド幅でずらして行き、畳み込み用フィルタF21が掛けられたq×qの正方形内の第1の畳み込み画像Gk(F11)の画素値のうちの最大の値を取出して新しい画像である第1のプーリング画像Gk(F21)を出力するMAXプーリングを行った。プーリング処理でも、第1のプーリング画像Gk(F21)のサイズは、第1の畳み込み画像Gk(F11)のサイズよりも小さくなる。
矩形フィルタF22を用いて、第2の畳み込み画像Gk(F11)から第2のプーリング画像Gk(F22)を得る動作も同様である。
なお、プーリング処理では、学習の過程で更新されるパラメータは存在しない。
全結合層は、それぞれが複数のユニットから成る入力層と隠れ層と出力層とを有するニューラルネットワークで、2次元画像である第2のプーリング画像Gk(F22)を1次元のベクトルに変換したものを入力データに対してパターン分類を行う。
図5に示すように、同図の白丸で示す全結合層の各ユニットは、前の層及び次の層の全てのユニットと、学習により更新可能なパラメータにより結合されている。
入力層及び隠れ層のユニット数をそれぞれN1、N2、入力層の上からm番目(m=1~N2)のユニットと隠れ層の上からn番目のユニットとの結合パラメータである重みをWm,n、入力層の各ユニットの値をu1,k(k=1~N1)とすると、隠れ層の上からn番目のユニットへの入力値u2,mは、u2,m=W1,m×u1,1+W2,m×u1,2+……+WN1,m×u1,N1となる。実際には、この入力値u2,nにバイアスb2,nが加わる。バイアスb2,nも、学習により更新可能なパラメータである。
ニューラルネットワークでは、このようにして得られた入力値u2,nに、更に重み活性化関数(activation function)を通して出力することで、非線形性を高めて分類の判別精度を向上させる。
隠れ層が複数ある場合、及び、隠れ層と出力層との関係も、同様である。
重み活性化関数としては、tanhやジグモイド(Sigmoid)関数などが用いられるが、本例では、tanhよりも高速でかつ高性能なReLU(Rectified Linear Unit)関数を用いた。
なお、出力層では、重み活性化関数としてSoftmax関数を用いる。
Softmax関数は、出力層のみに用いられる特別な活性化関数で、出力層の出力値の組み合わせを確率に変換する。すなわち、出力値が0~1、出力値の総和が1(100%)になるように出力層の出力値を変換する。
図5に示すように、同図の白丸で示す全結合層の各ユニットは、前の層及び次の層の全てのユニットと、学習により更新可能なパラメータにより結合されている。
入力層及び隠れ層のユニット数をそれぞれN1、N2、入力層の上からm番目(m=1~N2)のユニットと隠れ層の上からn番目のユニットとの結合パラメータである重みをWm,n、入力層の各ユニットの値をu1,k(k=1~N1)とすると、隠れ層の上からn番目のユニットへの入力値u2,mは、u2,m=W1,m×u1,1+W2,m×u1,2+……+WN1,m×u1,N1となる。実際には、この入力値u2,nにバイアスb2,nが加わる。バイアスb2,nも、学習により更新可能なパラメータである。
ニューラルネットワークでは、このようにして得られた入力値u2,nに、更に重み活性化関数(activation function)を通して出力することで、非線形性を高めて分類の判別精度を向上させる。
隠れ層が複数ある場合、及び、隠れ層と出力層との関係も、同様である。
重み活性化関数としては、tanhやジグモイド(Sigmoid)関数などが用いられるが、本例では、tanhよりも高速でかつ高性能なReLU(Rectified Linear Unit)関数を用いた。
なお、出力層では、重み活性化関数としてSoftmax関数を用いる。
Softmax関数は、出力層のみに用いられる特別な活性化関数で、出力層の出力値の組み合わせを確率に変換する。すなわち、出力値が0~1、出力値の総和が1(100%)になるように出力層の出力値を変換する。
次に、教師用画像を用いてフィルタ値a1,1~ap,pや重みWm,nなどのパラメータを自己更新する方法について説明する。
まず、各水準の出力値についての「正答」の出力値と、教師用画像を入力して得られた出力値との差を、誤差関数(loss function)により数値化する。本例では、教師用画像が27×2枚であるので、54枚のデータを畳み込みネットワークに通した時の誤差の合計が最小になるように上記のパラメータを更新する。本例では、誤差関数として交差エントロピー関数(cross-entropy loss function)を用いた。
また、本例では、誤差を小さくする方法として、確率的勾配下降法(SGD; Stochastic Gradient Descent method)を用いるとともに、誤差関数の勾配の修正に、誤差逆伝搬法(back propagation)のアルゴリズムを用いた。
確率的勾配下降法は、全データの中から、ミニバッチ単位で少数のサンプルだけを抜き出し、このサンプルでの全体と見做してパラメータを更新する。
また、誤差逆伝搬法は、勾配を直接計算するのではなく、出力から入力にかけて勾配を順次求めることで、勾配を高速に求めることができる。
なお、データ数が多い場合には、全結合層の計算を行う際に、一部のユニットをないものとして計算するDropoutの手法を用いれば、過学習を防ぐことができる。
また、学習回数については特に限定しないが、最低10回以上行うことが好ましい。学習が正しく行われていれば、誤差関数の値が学習を経る後に減少する。
まず、各水準の出力値についての「正答」の出力値と、教師用画像を入力して得られた出力値との差を、誤差関数(loss function)により数値化する。本例では、教師用画像が27×2枚であるので、54枚のデータを畳み込みネットワークに通した時の誤差の合計が最小になるように上記のパラメータを更新する。本例では、誤差関数として交差エントロピー関数(cross-entropy loss function)を用いた。
また、本例では、誤差を小さくする方法として、確率的勾配下降法(SGD; Stochastic Gradient Descent method)を用いるとともに、誤差関数の勾配の修正に、誤差逆伝搬法(back propagation)のアルゴリズムを用いた。
確率的勾配下降法は、全データの中から、ミニバッチ単位で少数のサンプルだけを抜き出し、このサンプルでの全体と見做してパラメータを更新する。
また、誤差逆伝搬法は、勾配を直接計算するのではなく、出力から入力にかけて勾配を順次求めることで、勾配を高速に求めることができる。
なお、データ数が多い場合には、全結合層の計算を行う際に、一部のユニットをないものとして計算するDropoutの手法を用いれば、過学習を防ぐことができる。
また、学習回数については特に限定しないが、最低10回以上行うことが好ましい。学習が正しく行われていれば、誤差関数の値が学習を経る後に減少する。
次に、タイヤ画像の認識方法について図6のフローチャートを参照して説明する。
まず、CNN(畳み込みニューラルネットワーク)の学習が終了しているか否かを確認する(ステップS10)。
学習が終了していない場合にはステップS11に進み、学習が終了している場合にはステップS21に進む。
ステップS11では、摩耗量が異なる複数の基準タイヤの表面を撮影して、基準タイヤの画像を取得する。
次に、取得した基準タイヤの画像を一定サイズの大きさの複数の画像に変換(ステップS12)した後、この変換された画像を複数の教師用画像とテスト用画像とに分ける(ステップS13)。
そして、これら複数の教師用画像を用いて、深層学習し、畳み込み層やプーリング層のフィルタ値、及び、全結合層の重みなどのCNNのパラメータを自己更新して、学習パラメータを求め(ステップS14)、これら求められた学習済みのパラメータを用いて、図1のタイヤ認識・判別手段に相当する摩耗量判別装置を構築する(ステップS15)。
そして、学習が完了した時点で、テスト用画像を用いて、摩耗量判別装置の判別精度を確認する(ステップS16)。
判別精度の確認後には、ステップS21に進んで、摩耗量を認識・判別する対象となるタイヤの表面を撮影して、認識用タイヤの画像を取得する。
次に、取得した認識用タイヤの画像を一定サイズの大きさの複数の画像に変換する(ステップS22)。
そして、これら変換された画像のデータを、前記ステップS15で構築した摩耗量判別装置に入力して、認識用タイヤを認識・判別(ステップS23)した後、その判別結果をディスプレイ等の表示画面に表示(ステップS24)して、本処理を終了する。
なお、次のタイヤの認識・判別を行う場合には、ステップS21~ステップS24の処理を行えばよい。
まず、CNN(畳み込みニューラルネットワーク)の学習が終了しているか否かを確認する(ステップS10)。
学習が終了していない場合にはステップS11に進み、学習が終了している場合にはステップS21に進む。
ステップS11では、摩耗量が異なる複数の基準タイヤの表面を撮影して、基準タイヤの画像を取得する。
次に、取得した基準タイヤの画像を一定サイズの大きさの複数の画像に変換(ステップS12)した後、この変換された画像を複数の教師用画像とテスト用画像とに分ける(ステップS13)。
そして、これら複数の教師用画像を用いて、深層学習し、畳み込み層やプーリング層のフィルタ値、及び、全結合層の重みなどのCNNのパラメータを自己更新して、学習パラメータを求め(ステップS14)、これら求められた学習済みのパラメータを用いて、図1のタイヤ認識・判別手段に相当する摩耗量判別装置を構築する(ステップS15)。
そして、学習が完了した時点で、テスト用画像を用いて、摩耗量判別装置の判別精度を確認する(ステップS16)。
判別精度の確認後には、ステップS21に進んで、摩耗量を認識・判別する対象となるタイヤの表面を撮影して、認識用タイヤの画像を取得する。
次に、取得した認識用タイヤの画像を一定サイズの大きさの複数の画像に変換する(ステップS22)。
そして、これら変換された画像のデータを、前記ステップS15で構築した摩耗量判別装置に入力して、認識用タイヤを認識・判別(ステップS23)した後、その判別結果をディスプレイ等の表示画面に表示(ステップS24)して、本処理を終了する。
なお、次のタイヤの認識・判別を行う場合には、ステップS21~ステップS24の処理を行えばよい。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は前記実施の形態に記載の範囲には限定されない。前記実施の形態に、多様な変更または改良を加えることが可能であることが当業者にも明らかである。そのような変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲から明らかである。
例えば、前記実施形態では、ここでは、摩耗状態の水準数を、新品(摩耗量0mm)と摩耗量大(摩耗量11mm)の2水準としたが、3水準以上としてもよい。
例えば、摩耗状態に代えて、摩耗量を判別したい場合には、教師データとして、1~2mm刻みで摩耗した複数水準のタイヤ画像を摩耗量の水準数だけラベリングして学習させておき、そのパラメータを用いて実際の判別したいタイヤの摩耗量を判別するようにすればよい。
また、前記実施形態では、タイヤ状態をトレッド摩耗量としたが、サイドトレッドにひび割れがあるか否かなどについても、正常品と不良品とを認識して判別することも可能である。
また、トレッドパターンから品種を特定したい場合には、品種の数をラベルとして学習させ、判別に用いればよい。
なお、出力された判別結果は、サーバーやクラウドなどに格納しておけば、結果の情報を現場ユーザーへ告知したり、結果によってはタイヤの交換を推奨するといったサービスに用いることができる。
例えば、摩耗状態に代えて、摩耗量を判別したい場合には、教師データとして、1~2mm刻みで摩耗した複数水準のタイヤ画像を摩耗量の水準数だけラベリングして学習させておき、そのパラメータを用いて実際の判別したいタイヤの摩耗量を判別するようにすればよい。
また、前記実施形態では、タイヤ状態をトレッド摩耗量としたが、サイドトレッドにひび割れがあるか否かなどについても、正常品と不良品とを認識して判別することも可能である。
また、トレッドパターンから品種を特定したい場合には、品種の数をラベルとして学習させ、判別に用いればよい。
なお、出力された判別結果は、サーバーやクラウドなどに格納しておけば、結果の情報を現場ユーザーへ告知したり、結果によってはタイヤの交換を推奨するといったサービスに用いることができる。
[実施例1]
同一品種のタイヤにおいて、タイヤ摩耗量を、新品及び摩耗量大の2水準とした場合の識別結果について説明する。
なお、識別方法については、図6に示したフローチャートによる。
タイヤの仕様を下記に示す。
・タイヤ1
サイズ;245/70R19.5
パターン;A
摩耗量;0mm(新品のタイヤ)
・タイヤ2
サイズ;245/70R19.5
パターン;A
摩耗量;11mm
・撮影画像
写真はスマートフォンのカメラで、各タイヤの周長を無作為に6枚ずつ撮影した。
図7(a)がタイヤ1の画像で、図7(b)がタイヤ2の画像である。
画像のサイズは、いずれも、480×640ピクセルである。
・画像階調
グレースケール255階調を0~1の範囲に規格化した。
データ変換後の画像を図7(c),(d)に示す。
データ変換後の画像のサイズは、256×256ピクセルである。
2種類のタイヤに対して、それぞれ、以下のようにデータを振り分けた。
Pic0,1.jpeg~Pic4,3.jpeg;教師画像27枚
Pic4,4.jpeg~Pic5,6.jpeg;テスト画像9枚
・深層学習条件
畳み込みの数;2
フィルターサイズ;それぞれ、16,6
プーリングの数;2
プーリング領域;それぞれ、7,3
全結合層のサイズ
第1層(入力層);400×1×27
第2層(隠れ層);50×1×27
第3層(出力層);2×1×27
第1層から第2層への計算では、ドロップアウト手法を適用。
出力値は、ソフトマックス関数で確率要素に変換。
誤差関数としてクロスエントロピー関数を用い、教師データとの誤差を見積もった。
勾配逆伝搬法で、フィルタと重み関数とを更新。
以上の学習サイクルを10回繰り返し、学習パラメータを得た。
・結果
得られた学習パラメータをテスト画像の識別テストに用いた結果を以下の表1に示す。
表1に示すように、学習回数を重ねるにつれて誤差がゼロに近付き、学習が進んでいることが確認された。
また、判別正答率は100%であった。
すなわち、テスト用タイヤ1の9画像とテスト用タイヤ2の9画像の合計18枚を、全て正しく認識・分類した。
同一品種のタイヤにおいて、タイヤ摩耗量を、新品及び摩耗量大の2水準とした場合の識別結果について説明する。
なお、識別方法については、図6に示したフローチャートによる。
タイヤの仕様を下記に示す。
・タイヤ1
サイズ;245/70R19.5
パターン;A
摩耗量;0mm(新品のタイヤ)
・タイヤ2
サイズ;245/70R19.5
パターン;A
摩耗量;11mm
・撮影画像
写真はスマートフォンのカメラで、各タイヤの周長を無作為に6枚ずつ撮影した。
図7(a)がタイヤ1の画像で、図7(b)がタイヤ2の画像である。
画像のサイズは、いずれも、480×640ピクセルである。
・画像階調
グレースケール255階調を0~1の範囲に規格化した。
データ変換後の画像を図7(c),(d)に示す。
データ変換後の画像のサイズは、256×256ピクセルである。
2種類のタイヤに対して、それぞれ、以下のようにデータを振り分けた。
Pic0,1.jpeg~Pic4,3.jpeg;教師画像27枚
Pic4,4.jpeg~Pic5,6.jpeg;テスト画像9枚
・深層学習条件
畳み込みの数;2
フィルターサイズ;それぞれ、16,6
プーリングの数;2
プーリング領域;それぞれ、7,3
全結合層のサイズ
第1層(入力層);400×1×27
第2層(隠れ層);50×1×27
第3層(出力層);2×1×27
第1層から第2層への計算では、ドロップアウト手法を適用。
出力値は、ソフトマックス関数で確率要素に変換。
誤差関数としてクロスエントロピー関数を用い、教師データとの誤差を見積もった。
勾配逆伝搬法で、フィルタと重み関数とを更新。
以上の学習サイクルを10回繰り返し、学習パラメータを得た。
・結果
得られた学習パラメータをテスト画像の識別テストに用いた結果を以下の表1に示す。
また、判別正答率は100%であった。
すなわち、テスト用タイヤ1の9画像とテスト用タイヤ2の9画像の合計18枚を、全て正しく認識・分類した。
[実施例2]
タイヤ摩耗量が大のタイヤ2と摩耗量が中のタイヤ3とを識別した
・タイヤ2
サイズ;245/70R19.5
パターン;A
摩耗量;11mm
・タイヤ3
サイズ;245/70R19.5
パターン;A
摩耗量;8mm
図8(a),(b)は、タイヤ2とタイヤ3の撮影画像で、図8(c),(d)は、データ変換後の画像である。
・実施条件は、実施例1に順ずる。
・結果
判別正答率は96%であった。
すなわち、テスト用タイヤ2の9画像とテスト用タイヤ3の9画像の合計18枚のうち、17枚を正しく認識・分類した。
タイヤ摩耗量が大のタイヤ2と摩耗量が中のタイヤ3とを識別した
・タイヤ2
サイズ;245/70R19.5
パターン;A
摩耗量;11mm
・タイヤ3
サイズ;245/70R19.5
パターン;A
摩耗量;8mm
図8(a),(b)は、タイヤ2とタイヤ3の撮影画像で、図8(c),(d)は、データ変換後の画像である。
・実施条件は、実施例1に順ずる。
・結果
判別正答率は96%であった。
すなわち、テスト用タイヤ2の9画像とテスト用タイヤ3の9画像の合計18枚のうち、17枚を正しく認識・分類した。
[実施例3]
新品タイヤ1とタイヤ摩耗量が大のタイヤ2と摩耗量が中のタイヤ3とを識別した。
・タイヤ1
サイズ;245/70R19.5
パターン;A
摩耗量;0mm(新品のタイヤ)
・タイヤ2
サイズ;245/70R19.5
パターン;A
摩耗量;11mm
・タイヤ3
サイズ;245/70R19.5
パターン;A
摩耗量;8mm
なお、タイヤ1~タイヤ3の撮影画像とデータ変換後の画像は、図7及び図8に示したものと同じである。
・実施条件は、実施例1に順ずる。
・結果
判別正答率は96%であった。
すなわち、テスト用タイヤ1の9画像とテスト用タイヤ2の9画像とテスト用タイヤ3の9画像の合計27枚のうち、26枚を正しく認識・分類した。
新品タイヤ1とタイヤ摩耗量が大のタイヤ2と摩耗量が中のタイヤ3とを識別した。
・タイヤ1
サイズ;245/70R19.5
パターン;A
摩耗量;0mm(新品のタイヤ)
・タイヤ2
サイズ;245/70R19.5
パターン;A
摩耗量;11mm
・タイヤ3
サイズ;245/70R19.5
パターン;A
摩耗量;8mm
なお、タイヤ1~タイヤ3の撮影画像とデータ変換後の画像は、図7及び図8に示したものと同じである。
・実施条件は、実施例1に順ずる。
・結果
判別正答率は96%であった。
すなわち、テスト用タイヤ1の9画像とテスト用タイヤ2の9画像とテスト用タイヤ3の9画像の合計27枚のうち、26枚を正しく認識・分類した。
[実施例4]
品種の異なるタイヤ1とタイヤ4とを識別した。
・タイヤ1
サイズ;245/70R19.5
パターン;A
摩耗量;0mm(新品のタイヤ)
・タイヤ4
サイズ;205/65R15
パターン;B
摩耗量;0mm(新品のタイヤ)
図9(a),(b)は、タイヤ1とタイヤ4の撮影画像で、図9(c),(d)は、データ変換後の画像である。
・実施条件は、実施例1に順ずる。
・結果
判別正答率は100%であった。
すなわち、テスト用タイヤ1の9画像とテスト用タイヤ4の9画像の合計18枚を、全て正しく認識・分類した。
品種の異なるタイヤ1とタイヤ4とを識別した。
・タイヤ1
サイズ;245/70R19.5
パターン;A
摩耗量;0mm(新品のタイヤ)
・タイヤ4
サイズ;205/65R15
パターン;B
摩耗量;0mm(新品のタイヤ)
図9(a),(b)は、タイヤ1とタイヤ4の撮影画像で、図9(c),(d)は、データ変換後の画像である。
・実施条件は、実施例1に順ずる。
・結果
判別正答率は100%であった。
すなわち、テスト用タイヤ1の9画像とテスト用タイヤ4の9画像の合計18枚を、全て正しく認識・分類した。
[実施例5]
トレッドパターンの異なるタイヤ4とタイヤ5とを識別した。
・タイヤ4
サイズ;205/65R15
パターン;B
摩耗量;0mm(新品のタイヤ)
・タイヤ5
サイズ;205/65R15
パターン;C
摩耗量;0mm(新品のタイヤ)
図10(a),(b)は、タイヤ4とタイヤ5の撮影画像で、図10(c),(d)は、データ変換後の画像である。
・画像に関する実施条件は、実施例1と同様である。
・深層学習条件
畳み込みの数;4
フィルターサイズ;それぞれ、8,5,4,4
プーリングの数;4
プーリング領域;それぞれ、5,4,4,4
全結合層のサイズ
第1層(入力層);2304×1×27
第2層(隠れ層);なし
第3層(出力層);2×1×27
他の学習条件は実施例1に順ずる。
・結果
判別正答率は100%であった。
すなわち、テスト用タイヤ4の9画像とテスト用タイヤ5の9画像の合計18枚を、全て正しく認識・分類した。
トレッドパターンの異なるタイヤ4とタイヤ5とを識別した。
・タイヤ4
サイズ;205/65R15
パターン;B
摩耗量;0mm(新品のタイヤ)
・タイヤ5
サイズ;205/65R15
パターン;C
摩耗量;0mm(新品のタイヤ)
図10(a),(b)は、タイヤ4とタイヤ5の撮影画像で、図10(c),(d)は、データ変換後の画像である。
・画像に関する実施条件は、実施例1と同様である。
・深層学習条件
畳み込みの数;4
フィルターサイズ;それぞれ、8,5,4,4
プーリングの数;4
プーリング領域;それぞれ、5,4,4,4
全結合層のサイズ
第1層(入力層);2304×1×27
第2層(隠れ層);なし
第3層(出力層);2×1×27
他の学習条件は実施例1に順ずる。
・結果
判別正答率は100%であった。
すなわち、テスト用タイヤ4の9画像とテスト用タイヤ5の9画像の合計18枚を、全て正しく認識・分類した。
[比較例]
畳み込み構造を持たないタイヤ識別装置にて、新品タイヤ1とタイヤ摩耗量が大のタイヤ2と摩耗量が中のタイヤ3とを識別した。
・タイヤ1
サイズ;245/70R19.5
パターン;A
摩耗量;0mm(新品のタイヤ)
・タイヤ2
サイズ;245/70R19.5
パターン;A
摩耗量;11mm
・タイヤ3
サイズ;245/70R19.5
パターン;A
摩耗量;8mm
・画像に関する実施条件は、実施例1と同様である。
・深層学習条件
畳み込み;なし
全結合層のサイズ
第1層(入力層);65536×1×27
第2層(隠れ層);50×1×27
第3層(出力層);2×1×27
他の学習条件は実施例1に順ずる。
・結果
判別正答率は59%であった。
すなわち、テスト用タイヤ1の9画像とテスト用タイヤ2の9画像とテスト用タイヤ3の9画像の合計27枚のうち、16枚しか正しく認識・分類できなかった。
畳み込み構造を持たないタイヤ識別装置にて、新品タイヤ1とタイヤ摩耗量が大のタイヤ2と摩耗量が中のタイヤ3とを識別した。
・タイヤ1
サイズ;245/70R19.5
パターン;A
摩耗量;0mm(新品のタイヤ)
・タイヤ2
サイズ;245/70R19.5
パターン;A
摩耗量;11mm
・タイヤ3
サイズ;245/70R19.5
パターン;A
摩耗量;8mm
・画像に関する実施条件は、実施例1と同様である。
・深層学習条件
畳み込み;なし
全結合層のサイズ
第1層(入力層);65536×1×27
第2層(隠れ層);50×1×27
第3層(出力層);2×1×27
他の学習条件は実施例1に順ずる。
・結果
判別正答率は59%であった。
すなわち、テスト用タイヤ1の9画像とテスト用タイヤ2の9画像とテスト用タイヤ3の9画像の合計27枚のうち、16枚しか正しく認識・分類できなかった。
以上まとめると、次のように記述することもできる。すなわち、本発明は、タイヤ画像の認識方法であって、品種もしくはタイヤ状態のいずれか一方もしくは両方の異なる複数のタイヤ画像を取得して、これを教師用画像とするステップと、教師用画像を、それぞれ、一定の画素数のサイズへ変換するステップと、変換した複数の教師用画像データを学習用画像として、畳み込み層とプーリング層とを備えた畳み込みニューラルネットワーク(CNN;Convolutional Neural Network)で学習し、ニューラルネットワークのパラメータを設定するステップと、認識対象のタイヤのタイヤ画像を取得し、これを前記教師用画像と同じサイズへ変換するステップと、変換された認識対象のタイヤのタイヤ画像を畳み込みニューラルネットワークに入力し、対象となるタイヤの品種もしくはタイヤ状態のいずれか一方もしくは両方を判別するステップとを備えることを特徴とする。
このように、タイヤ画像を認識する際に、畳み込み層とプーリング層により入力したタイヤ画像データから特徴量を抽出した後、全結合層(従来のニューラルネットワーク)にて判別する畳み込みニューラルネットワークを用いたので、ニューラルネットワーク内のパラメータが大幅に削減されて計算速度を速めることができるだけでなく、トレッドパターンのエッジやラインといった特徴的な幾何学情報を設定することなく、品種や摩耗量などのタイヤ情報を精度よく認識・判別することができる。
また、畳み込みニューラルネットワークでは、学習時は、教師用画像データのセットに対する誤差を、勾配急降下法(GD)や確率的勾配急降下法(SGD)などを用いて誤差逆伝搬法により最小化するように、ニューラルネットワークのパラメータを更新して最適化しているので、認識対象のタイヤの判別精度を大幅に向上させることができる。
また、前記タイヤ品種もしくはタイヤ状態が、トレッドパターン、トレッド摩耗量、ビードの傷、サイドトレッドのひび割れ、のいずれかとしたので、タイヤ交換に必要なタイヤ情報を精度よく認識・判別できる。
また、前記教師用画像及び認識対象のタイヤのタイヤ画像に、少なくとも1つのパターン周期構造が写っているようにしたので、少ない画像情報量でタイヤ情報を正確に認識・判別できる。
また、前記教師用画像及び認識対象のタイヤのタイヤ画像をグレースケールに変換し、前記グレースケールの階調を0~1の範囲に規格化したので、画像情報量を少なくして計算時間を短縮できる。
また、本発明は、タイヤ画像を認識する装置であって、品種もしくはタイヤ状態のいずれか一方もしくは両方の異なる複数の教師用画像と認識対象となる認識用画像とを撮影するタイヤ画像撮影手段と、前記教師用画像と前記認識用画像とを一定の画素数のサイズへ変換する画像データ変換手段と、前記画像データ変換手段で変換された画像の特徴量を抽出する特徴量抽出手段と、前記認識用画像の特徴量と教師用画像の特徴量とを比較して、前記対象となるタイヤの品種もしくはタイヤ状態のいずれか一方もしくは両方を判別する判別手段とを備え、前記特徴量抽出手段が、前記教師用画像を学習用画像として構築した畳み込みニューラルネットワークの畳み込み層とプーリング層であり、前記判別手段が、前記畳み込みニューラルネットワークの全結合層であることを特徴とする。
このような構成を採ることにより、品種や摩耗量などのタイヤ情報を精度よく認識・判別することのできるタイヤ画像の認識装置を実現できる。
このように、タイヤ画像を認識する際に、畳み込み層とプーリング層により入力したタイヤ画像データから特徴量を抽出した後、全結合層(従来のニューラルネットワーク)にて判別する畳み込みニューラルネットワークを用いたので、ニューラルネットワーク内のパラメータが大幅に削減されて計算速度を速めることができるだけでなく、トレッドパターンのエッジやラインといった特徴的な幾何学情報を設定することなく、品種や摩耗量などのタイヤ情報を精度よく認識・判別することができる。
また、畳み込みニューラルネットワークでは、学習時は、教師用画像データのセットに対する誤差を、勾配急降下法(GD)や確率的勾配急降下法(SGD)などを用いて誤差逆伝搬法により最小化するように、ニューラルネットワークのパラメータを更新して最適化しているので、認識対象のタイヤの判別精度を大幅に向上させることができる。
また、前記タイヤ品種もしくはタイヤ状態が、トレッドパターン、トレッド摩耗量、ビードの傷、サイドトレッドのひび割れ、のいずれかとしたので、タイヤ交換に必要なタイヤ情報を精度よく認識・判別できる。
また、前記教師用画像及び認識対象のタイヤのタイヤ画像に、少なくとも1つのパターン周期構造が写っているようにしたので、少ない画像情報量でタイヤ情報を正確に認識・判別できる。
また、前記教師用画像及び認識対象のタイヤのタイヤ画像をグレースケールに変換し、前記グレースケールの階調を0~1の範囲に規格化したので、画像情報量を少なくして計算時間を短縮できる。
また、本発明は、タイヤ画像を認識する装置であって、品種もしくはタイヤ状態のいずれか一方もしくは両方の異なる複数の教師用画像と認識対象となる認識用画像とを撮影するタイヤ画像撮影手段と、前記教師用画像と前記認識用画像とを一定の画素数のサイズへ変換する画像データ変換手段と、前記画像データ変換手段で変換された画像の特徴量を抽出する特徴量抽出手段と、前記認識用画像の特徴量と教師用画像の特徴量とを比較して、前記対象となるタイヤの品種もしくはタイヤ状態のいずれか一方もしくは両方を判別する判別手段とを備え、前記特徴量抽出手段が、前記教師用画像を学習用画像として構築した畳み込みニューラルネットワークの畳み込み層とプーリング層であり、前記判別手段が、前記畳み込みニューラルネットワークの全結合層であることを特徴とする。
このような構成を採ることにより、品種や摩耗量などのタイヤ情報を精度よく認識・判別することのできるタイヤ画像の認識装置を実現できる。
10 タイヤ画像の認識装置、11 タイヤ画像撮影手段、
12 画像データ変換手段、13 画像格納手段、
14 タイヤ認識・判別手段、14A 特徴量抽出部、
14B 認識・判別部、15 表示手段、20 タイヤ。
12 画像データ変換手段、13 画像格納手段、
14 タイヤ認識・判別手段、14A 特徴量抽出部、
14B 認識・判別部、15 表示手段、20 タイヤ。
Claims (5)
- タイヤ画像を認識する方法であって、
品種もしくはタイヤ状態のいずれか一方もしくは両方の異なる複数のタイヤ画像を取得して、これを教師用画像とするステップと、
前記教師用画像を、それぞれ、一定の画素数のサイズへ変換するステップと、
前記変換した複数の教師用画像データを学習用画像として、畳み込みニューラルネットワークで学習し、前記ニューラルネットワークのパラメータを設定するステップと、
認識対象のタイヤのタイヤ画像を取得し、これを前記教師用画像と同じサイズへ変換するステップと、
前記変換された認識対象のタイヤのタイヤ画像を前記畳み込みニューラルネットワークに入力し、前記対象となるタイヤの品種もしくはタイヤ状態のいずれか一方もしくは両方を判別するステップとを備えることを特徴とするタイヤ画像の認識方法。 - 前記品種もしくはタイヤ状態が、トレッドパターン、トレッド摩耗量、サイドトレッドのひび割れ、のいずれかであることを特徴とする請求項1に記載のタイヤ画像の認識方法。
- 前記教師用画像及び認識対象のタイヤのタイヤ画像には、少なくとも1つのパターン周期構造が写っていることを特徴とする請求項1または請求項2に記載のタイヤ画像の認識方法。
- 前記教師用画像及び認識対象のタイヤのタイヤ画像をグレースケールに変換し、前記グレースケールの階調を0~1の範囲に規格化したことを特徴とする請求項1~請求項3にいずれかに記載のタイヤ画像の認識方法。
- タイヤ画像を認識する装置であって、
品種もしくはタイヤ状態のいずれか一方もしくは両方の異なる複数の教師用画像と認識対象となる認識用画像とを撮影するタイヤ画像撮影手段と、
前記教師用画像と前記認識用画像とを一定の画素数のサイズへ変換する画像データ変換手段と、
前記画像データ変換手段で変換された画像の特徴量を抽出する特徴量抽出手段と、
前記認識用画像の特徴量と教師用画像の特徴量とを比較して、前記対象となるタイヤの品種もしくはタイヤ状態のいずれか一方もしくは両方を判別する判別手段とを備え、
前記特徴量抽出手段が、
前記教師用画像を学習用画像として構築した畳み込みニューラルネットワークの畳み込み層とプーリング層であり、
前記判別手段が、
前記畳み込みニューラルネットワークの全結合層であることを特徴とするタイヤ画像の認識装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/619,793 US11176408B2 (en) | 2017-08-10 | 2018-08-07 | Tire image recognition method and tire image recognition device |
EP18843613.3A EP3667286A4 (en) | 2017-08-10 | 2018-08-07 | TIRE IMAGE RECOGNITION PROCESS AND TIRE IMAGE RECOGNITION DEVICE |
CN201880048281.4A CN110945337A (zh) | 2017-08-10 | 2018-08-07 | 轮胎图像识别方法和轮胎图像识别装置 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017-156115 | 2017-08-10 | ||
JP2017156115A JP7132701B2 (ja) | 2017-08-10 | 2017-08-10 | タイヤ画像の認識方法及びタイヤ画像の認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2019031503A1 true WO2019031503A1 (ja) | 2019-02-14 |
Family
ID=65271196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2018/029613 WO2019031503A1 (ja) | 2017-08-10 | 2018-08-07 | タイヤ画像の認識方法及びタイヤ画像の認識装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11176408B2 (ja) |
EP (1) | EP3667286A4 (ja) |
JP (1) | JP7132701B2 (ja) |
CN (1) | CN110945337A (ja) |
WO (1) | WO2019031503A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110458838A (zh) * | 2019-08-23 | 2019-11-15 | 讯飞智元信息科技有限公司 | 一种故障类型的检测方法、装置、存储介质及设备 |
US11393072B2 (en) * | 2020-06-26 | 2022-07-19 | Adobe Inc. | Methods and systems for automatically correcting image rotation |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6333871B2 (ja) * | 2016-02-25 | 2018-05-30 | ファナック株式会社 | 入力画像から検出した対象物を表示する画像処理装置 |
CN111507362B (zh) * | 2019-01-30 | 2023-12-19 | 中强光电股份有限公司 | 神经网络的训练方法、基于神经网络的分类方法及其装置 |
JP7146176B2 (ja) | 2019-02-28 | 2022-10-04 | 三菱マテリアル株式会社 | 廃電子基板の処理方法 |
JP7335503B2 (ja) * | 2019-10-07 | 2023-08-30 | 横浜ゴム株式会社 | タイヤ空気圧低下度推定装置、タイヤ空気圧低下度学習装置、タイヤ空気圧低下度推定方法、学習済モデルの生成方法及びプログラム |
JP7428870B2 (ja) * | 2019-10-11 | 2024-02-07 | 横浜ゴム株式会社 | タイヤ摩耗度推定装置、タイヤ摩耗度学習装置、タイヤ摩耗度推定方法、学習済モデルの生成方法及びプログラム |
JP7425284B2 (ja) * | 2019-10-16 | 2024-01-31 | 横浜ゴム株式会社 | タイヤ種類学習装置、タイヤ種類推定装置、学習済モデルの生成方法、タイヤ種類推定方法及びプログラム |
JP7404857B2 (ja) | 2019-12-23 | 2023-12-26 | コニカミノルタ株式会社 | 画像判定装置、画像判定方法及びプログラム |
JP7385118B2 (ja) * | 2020-02-03 | 2023-11-22 | 横浜ゴム株式会社 | タイヤ空気圧低下度判定装置、タイヤ空気圧低下度判定方法及びプログラム |
JP7495596B2 (ja) * | 2020-02-17 | 2024-06-05 | 横浜ゴム株式会社 | 交換支援システム、交換支援方法およびプログラム |
US11507831B2 (en) * | 2020-02-24 | 2022-11-22 | Stmicroelectronics International N.V. | Pooling unit for deep learning acceleration |
JP7492120B2 (ja) | 2020-04-06 | 2024-05-29 | 横浜ゴム株式会社 | 消耗状態学習装置、学習済モデルの生成方法及びプログラム |
JP7441115B2 (ja) | 2020-05-26 | 2024-02-29 | Toyo Tire株式会社 | タイヤ設計支援方法、システム及びプログラム |
JP7462480B2 (ja) | 2020-06-16 | 2024-04-05 | Toyo Tire株式会社 | タイヤ性能予測モデルの学習方法、タイヤ性能予測方法、システム及びプログラム |
JP7541232B2 (ja) | 2020-07-27 | 2024-08-28 | 横浜ゴム株式会社 | 期間推定装置、期間推定方法、及びプログラム |
DE102020210888A1 (de) * | 2020-08-28 | 2022-03-03 | Robert Bosch Gesellschaft mit beschränkter Haftung | Computerimplementiertes Verfahren zum Trainieren eines Künstlichen Intelligenzmoduls zum Bestimmen eines Reifentyps eines Kraftfahrzeuges |
CN112270402A (zh) * | 2020-10-20 | 2021-01-26 | 山东派蒙机电技术有限公司 | 一种轮胎磨损辨识模型的训练方法及系统 |
KR102546778B1 (ko) * | 2020-12-17 | 2023-06-23 | 한국타이어앤테크놀로지 주식회사 | 내부공기 측정설비와 딥러닝부를 이용한 불량타이어의 자동검출방법 |
KR102505484B1 (ko) * | 2020-12-18 | 2023-03-03 | 한국공학대학교산학협력단 | 딥러닝 기반의 타이어 외관 결함 검출 방법 및 장치 |
JP7555263B2 (ja) | 2020-12-22 | 2024-09-24 | Toyo Tire株式会社 | 情報処理方法、システム及びプログラム |
KR102367702B1 (ko) * | 2020-12-30 | 2022-02-25 | 주식회사 오토피디아 | 심층 인공신경망을 이용한 타이어 규격 자동 인식 시스템 및 방법 |
KR102425320B1 (ko) * | 2020-12-30 | 2022-07-27 | 주식회사 오토피디아 | 심층 인공신경망을 이용한 타이어 트레드면 마모 판단 시스템 및 방법 |
KR102568012B1 (ko) * | 2021-06-01 | 2023-08-17 | 한국타이어앤테크놀로지 주식회사 | 타이어에 설치된 전자장치를 이용한 클라우드 시스템 및 이의 서비스 방법 |
CN113255847B (zh) * | 2021-07-08 | 2021-10-01 | 山东捷瑞数字科技股份有限公司 | 一种基于生成对抗网络的轮胎磨损程度预测方法 |
JP7020581B1 (ja) * | 2021-10-06 | 2022-02-16 | 住友ゴム工業株式会社 | タイヤの状態の推定方法 |
WO2023119663A1 (ja) * | 2021-12-24 | 2023-06-29 | 日本電気株式会社 | タイヤ検査支援装置及び方法、並びに、コンピュータ可読媒体 |
JP7515189B2 (ja) * | 2022-06-16 | 2024-07-12 | オートペディア カンパニー リミテッド | 深層人工ニューラルネットワークを用いたタイヤトレッド面摩耗判断システム及び方法 |
EP4296089A1 (en) * | 2022-06-21 | 2023-12-27 | Autopedia Co., Ltd. | Tire tread wear determination system and method using deep artificial neural network |
TWI819914B (zh) * | 2022-12-06 | 2023-10-21 | 緯創資通股份有限公司 | 輪胎尺寸辨識方法、輪胎尺寸辨識系統及電腦可讀取儲存媒體 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10255048A (ja) * | 1997-03-11 | 1998-09-25 | Toyota Motor Corp | 対象物の判別方法 |
JP2013532315A (ja) * | 2010-04-19 | 2013-08-15 | コンパニー ゼネラール デ エタブリッスマン ミシュラン | タイヤの表面の外観をモニタする方法 |
JP2017129492A (ja) * | 2016-01-21 | 2017-07-27 | 横浜ゴム株式会社 | タイヤ接地面解析装置、タイヤ接地面解析システム及びタイヤ接地面解析方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010048453A2 (en) * | 2008-10-22 | 2010-04-29 | International Electronic Machines Corp. | Thermal imaging-based vehicle analysis |
US8737747B2 (en) | 2011-02-14 | 2014-05-27 | Xerox Corporation | Method for automated tire detection and recognition |
US10102616B2 (en) * | 2014-01-28 | 2018-10-16 | Ent. Services Development Corporation Lp | Method and system for surface wear determination |
JP6292911B2 (ja) | 2014-02-07 | 2018-03-14 | キヤノン株式会社 | 画像処理方法、画像処理プログラムおよび画像処理装置 |
JP6456031B2 (ja) | 2014-03-25 | 2019-01-23 | キヤノン株式会社 | 画像認識装置、画像認識方法およびプログラム |
KR101580630B1 (ko) * | 2015-01-29 | 2016-01-04 | 주식회사 다인 | 타이어 인식 방법 및 장치 |
CN106548127B (zh) * | 2015-09-18 | 2022-11-04 | 松下电器(美国)知识产权公司 | 图像识别方法 |
WO2017096570A1 (en) | 2015-12-10 | 2017-06-15 | Intel Corporation | Visual recognition using deep learning attributes |
CN105913450A (zh) * | 2016-06-22 | 2016-08-31 | 武汉理工大学 | 基于神经网络图像处理的轮胎橡胶炭黑分散度评价方法及系统 |
-
2017
- 2017-08-10 JP JP2017156115A patent/JP7132701B2/ja active Active
-
2018
- 2018-08-07 EP EP18843613.3A patent/EP3667286A4/en active Pending
- 2018-08-07 CN CN201880048281.4A patent/CN110945337A/zh active Pending
- 2018-08-07 US US16/619,793 patent/US11176408B2/en active Active
- 2018-08-07 WO PCT/JP2018/029613 patent/WO2019031503A1/ja unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10255048A (ja) * | 1997-03-11 | 1998-09-25 | Toyota Motor Corp | 対象物の判別方法 |
JP2013532315A (ja) * | 2010-04-19 | 2013-08-15 | コンパニー ゼネラール デ エタブリッスマン ミシュラン | タイヤの表面の外観をモニタする方法 |
JP2017129492A (ja) * | 2016-01-21 | 2017-07-27 | 横浜ゴム株式会社 | タイヤ接地面解析装置、タイヤ接地面解析システム及びタイヤ接地面解析方法 |
Non-Patent Citations (1)
Title |
---|
See also references of EP3667286A4 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110458838A (zh) * | 2019-08-23 | 2019-11-15 | 讯飞智元信息科技有限公司 | 一种故障类型的检测方法、装置、存储介质及设备 |
US11393072B2 (en) * | 2020-06-26 | 2022-07-19 | Adobe Inc. | Methods and systems for automatically correcting image rotation |
Also Published As
Publication number | Publication date |
---|---|
JP2019035626A (ja) | 2019-03-07 |
US11176408B2 (en) | 2021-11-16 |
CN110945337A (zh) | 2020-03-31 |
US20200125887A1 (en) | 2020-04-23 |
EP3667286A1 (en) | 2020-06-17 |
EP3667286A4 (en) | 2021-04-28 |
JP7132701B2 (ja) | 2022-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019031503A1 (ja) | タイヤ画像の認識方法及びタイヤ画像の認識装置 | |
CN106960195B (zh) | 一种基于深度学习的人群计数方法及装置 | |
CN104834933B (zh) | 一种图像显著性区域的检测方法和装置 | |
CN106875373B (zh) | 基于卷积神经网络剪枝算法的手机屏幕mura缺陷检测方法 | |
CN108052980B (zh) | 基于图像的空气质量等级检测方法 | |
CN109325395A (zh) | 图像的识别方法、卷积神经网络模型的训练方法及装置 | |
CN108734283A (zh) | 神经网络系统 | |
CN109978854B (zh) | 一种基于边缘与结构特征的屏幕内容图像质量评估方法 | |
CN103824090B (zh) | 一种自适应的人脸低层特征选择方法及人脸属性识别方法 | |
CN103473950A (zh) | 一种停车场车位监控方法 | |
CN103761526B (zh) | 一种基于特征位置优选整合的城区检测方法 | |
CN104484658A (zh) | 一种基于多通道卷积神经网络的人脸性别识别方法及装置 | |
CN110879982A (zh) | 一种人群计数系统及方法 | |
CN109685772B (zh) | 一种基于配准失真表示的无参照立体图像质量评估方法 | |
CN111062938B (zh) | 基于机器学习的板材涨塞检测系统和检测方法 | |
CN115147418B (zh) | 缺陷检测模型的压缩训练方法和装置 | |
CN113971764A (zh) | 一种基于改进YOLOv3的遥感图像小目标检测方法 | |
CN111047618B (zh) | 基于多尺度的无参考屏幕内容图像质量评估方法 | |
CN112419278A (zh) | 一种基于深度学习的实木地板分类方法 | |
CN110826380A (zh) | 一种异常签名的识别方法及其系统 | |
CN111860500B (zh) | 一种鞋印磨损区域检测与描边方法 | |
CN117437615A (zh) | 雾天交通标志检测方法、装置、存储介质和电子设备 | |
CN111161228B (zh) | 一种基于迁移学习的纽扣表面缺陷检测方法 | |
CN114080644A (zh) | 用于诊断小肠清洁度的系统和方法 | |
CN111582202A (zh) | 一种智能网课系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 18843613 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
ENP | Entry into the national phase |
Ref document number: 2018843613 Country of ref document: EP Effective date: 20200310 |