WO2020129176A1 - 画像処理システム、画像処理方法および画像処理プログラム - Google Patents

画像処理システム、画像処理方法および画像処理プログラム Download PDF

Info

Publication number
WO2020129176A1
WO2020129176A1 PCT/JP2018/046756 JP2018046756W WO2020129176A1 WO 2020129176 A1 WO2020129176 A1 WO 2020129176A1 JP 2018046756 W JP2018046756 W JP 2018046756W WO 2020129176 A1 WO2020129176 A1 WO 2020129176A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
image processing
detection target
estimation
unit
Prior art date
Application number
PCT/JP2018/046756
Other languages
English (en)
French (fr)
Inventor
海斗 笹尾
Original Assignee
株式会社日立国際電気
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立国際電気 filed Critical 株式会社日立国際電気
Priority to JP2020560695A priority Critical patent/JP6934118B2/ja
Priority to EP18943358.4A priority patent/EP3901900B1/en
Priority to PCT/JP2018/046756 priority patent/WO2020129176A1/ja
Priority to US17/297,761 priority patent/US11275947B2/en
Publication of WO2020129176A1 publication Critical patent/WO2020129176A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/95Hardware or software architectures specially adapted for image or video understanding structured as a network, e.g. client-server architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30236Traffic on road, railway or crossing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Definitions

  • the present invention relates to an image processing system, an image processing method, and an image processing program.
  • Patent Document 1 as a technique for automatically detecting a visually handicapped person who has a white cane, "the color of the white cane is acquired based on the edge data in the image data for one frame.
  • the image processing of “detecting the pixel values in the range and connecting them to determine whether or not the set of connected pixels has a characteristic of the shape of a white cane” is disclosed.
  • Non-Patent Document 1 a convolutional neural network CNN (convolutional layer) in which labeling of a first label (such as a dog or cat) and a second label (such as an artificial or natural object) is learned for an image is learned. + Pooling layer + total combined layer), a technique for classifying a main subject in an image into a plurality of labels (such as a dog and a natural object) is disclosed. With the technique of Non-Patent Document 1, high classification accuracy can be obtained for a main subject that occupies a large portion of the image.
  • the white cane to be identified is very thin and lacks in features for humans to be identified. Therefore, a large number of neurons that are easily activated by human characteristics are easily confused with a small number of neurons that respond to inconspicuous white canes, and are classified as "humans with white canes" and "people without white canes". It will be difficult.
  • an object of the present invention is to provide a technique suitable for detecting a small detection target (such as a white cane).
  • one of the representative image processing systems of the present invention is a video acquisition unit that captures an input image acquired as a video, and an FCN (learned about a predetermined detection target region).
  • Fully Convolutional Network) learning model and the image processing that detects the area of the detection target based on the area estimation image and the estimation unit that generates the area estimation image of the detection target by processing the input image with the learning model. And a section.
  • a small detection target can be appropriately detected.
  • FIG. 1 is a diagram showing a configuration of an image processing system 100. It is a figure explaining the structure of the learning model 132. It is a figure explaining the structure for one intermediate
  • FIG. 5 is a diagram illustrating learning data according to the first embodiment. It is a flow chart explaining operation of white cane detection. It is a figure explaining operation
  • FIG. 9 is a diagram illustrating a pixel logical operation according to a third exemplary embodiment.
  • FIG. 9 is a diagram illustrating a pixel logical operation according to a third exemplary embodiment.
  • the first embodiment is an image processing system 100 that detects, for example, a white cane (a visually handicapped person who carries the white cane).
  • FIG. 1 is a diagram showing the configuration of the image processing system 100.
  • the image processing system 100 is configured as an information processing system (information processing apparatus) including a CPU (Central Processing Unit) and a memory as hardware.
  • a CPU Central Processing Unit
  • a memory as hardware.
  • DSP Digital Signal Processor
  • FPGA Field-Programmable Gate Array
  • GPU Graphics Processing Unit
  • part or all of the hardware may be centrally or dispersedly arranged on the network.
  • the image processing system 100 includes an imaging device 110, a video acquisition unit 120, an estimation unit 130, an image processing unit 140, a display monitor 151, a recording device 152, a reporting device 153, and a learning unit 154.
  • the imaging device 110 is composed of one or more cameras. This type of imaging device 110 is arranged as a surveillance camera at a monitoring place, is mounted on a human body as a wearable camera, is arranged as a vehicle-mounted camera on a moving body such as a car, and is arranged on a machine such as a construction machine or a robot. Or used for various other purposes.
  • the video acquisition unit 120 includes a video input unit 121 and an analysis area designation unit 122.
  • the video input unit 121 acquires an image of a moving image or a still image by wire or wirelessly from the imaging device 110 or an external input.
  • the analysis area designation unit 122 manually or automatically determines the image range for monitoring the white cane (detection target) in the acquired image, and loads the image range of the acquired image into an internal memory (not shown). ..
  • the image of the image range to be monitored (hereinafter referred to as “input image”) is set in the whole or part of the acquired image in consideration of the image range to be monitored and the reduction of the processing load.
  • the estimation unit 130 includes a region estimation unit 131 and an FCN (Fully Convolutional Network) learning model 132.
  • the region estimation unit 131 estimates the region of the white cane (detection target) in the image by processing the input image with the learning model 132, and generates the region estimation image.
  • the region estimation image here is an image in which the likelihood of detection is represented by a plurality of gradation values or colors in pixel units or region units for the detection target learned by the learning model.
  • the image processing unit 140 includes a binarization unit 141, an expansion processing unit 142, a shape determination unit 143, a control unit 144, a display control unit 145, a recording control unit 146, a communication unit 147, and an adjustment unit 148.
  • FIG. 2 is a diagram illustrating the configuration of the learning model 132.
  • the learning model 132 includes an input layer IN to which an input image is input, a plurality of intermediate layers L1 to L4, and an output layer OUT to output a region estimation image.
  • a plurality of middle layers L1 to L4 include at least a convolutional layer for an image (feature map) in one layer, and all layers are connected to form an FCN (Fully Convolutional Network) configuration.
  • FCN Full Convolutional Network
  • the number of layers of the middle layers L1 to L4 is preferably about four layers in the area estimation of the white cane. Note that the number of intermediate layers changes depending on the size of the detection target, the amount of features, complexity, difficulty, calculation load, or the like.
  • weighted addition and logical operation are performed as they are on the images (feature maps) of the multiple channels that are processed in stages in the intermediate layers L1 to L4.
  • an area estimation image of the white cane (detection target) is generated.
  • FIG. 3 is a diagram illustrating a configuration of the learning model 132 for one intermediate layer.
  • the image of the input 1 channel is input from the input layer IN or the intermediate layer immediately before.
  • a convolutional value is generated by calculating a local sum (processing of the convolutional layer by multiply-accumulate) after the local region is multiplied by the filter coefficient of n rows ⁇ m columns centering on the pixel to be processed of this image. To be done. At this time, padding (a process of enlarging the upper, lower, left, and right sides of the image by a few pixels by a fixed value or the like) before the convolution process may be performed to avoid pixel loss on the upper, lower, left, and right sides of the image in the product-sum calculation. ..
  • Bias is added to and subtracted from this convolution value.
  • the convolution value obtained by adding and subtracting the bias is processed by a non-linear activation function.
  • the activation function is a non-linear function that simulates a neuron characteristic that changes non-linearly from the inactive region to the active region with a value corresponding to a predetermined bias as a boundary.
  • a feature map in which each pixel is made into a neuron is generated.
  • the horizontal and vertical scanning intervals (strides) are set to one pixel to several pixels.
  • the white cane held by a person is thin in the width direction (horizontal direction of the image) and its characteristics are likely to disappear, so the scanning interval in the horizontal direction should be close (for example, in units of 1 pixel). Is preferred.
  • the feature map generated in this way is output to the next intermediate layer or output layer OUT.
  • a k-channel feature map is generated from a 1-channel image.
  • These plural channels are the color component channels (RGB, YCbCr, etc.) of the color image input to the input layer IN, or the k channels of the feature map input from the previous intermediate layer.
  • the processing of the convolutional layer and the activation function is applied to each of the images of multiple channels as shown in Fig. 4, and a feature map of p groups (p is a natural number) is generated. Weighted addition, pixel logical operation (including maximum value operation and minimum value operation), bias addition, etc. are performed for each p group of these feature maps, and a p channel feature map is output.
  • FIG. 5 is a diagram illustrating a learning process of the learning model 132 by the learning unit 154.
  • the learning unit 154 has the learning data E collected in advance.
  • This learning data E includes a "learning image in which a human has a white cane" and a teacher image in which "the white cane of the learning image has a first pixel value (for example, white), and the other has a second pixel value (for example, black). Is a set of data sets.
  • the filter coefficient group W and the bias group B of each intermediate layer are set to appropriate initial values.
  • the learning unit 154 sequentially inputs the learning images of the learning data E into the learning model 132 and sequentially obtains the provisional area estimation images.
  • the learning unit 154 obtains a pixel error between the teacher image of the learning data E and the provisional area estimation image.
  • the learning unit 154 updates the values of the filter coefficient group W, the bias group B, and the like of each intermediate layer in the direction in which the obtained pixel error is reduced by using the inverse error propagation method or the like.
  • the learning unit 154 does not use the entire learning data E for the update processing (learning) of the filter coefficient group W and the bias group B, but uses a part of the learning data E for confirming the learning effect.
  • the learning unit 154 determines that the confirmation of the effect of this learning is sufficient (for example, the total amount of pixel errors is equal to or less than the allowable value)
  • the learning unit 132 completes the repeated learning.
  • the white image of the input image is relatively close to the first pixel value (for example, white) with respect to the “input image where the human has the white image”
  • the other values are the second pixel values.
  • a learning model 132 that outputs an area estimation image (multi-tone image) having a value relatively close to (for example, black) is obtained.
  • FIG. 6 is a flowchart illustrating the operation of detecting a white cane by the image processing system 100.
  • the white cane detection will be described in the order of step numbers shown in FIG.
  • Step S101 The video input unit 121 captures, for example, in real time a video frame captured by the imaging device 110 as a moving image. Further, instead of the imaging device 110, a video frame reproduced from the video recording device or a video frame via a network may be captured.
  • these images are shaped into data of a pixel array consisting of one dimension to multiple dimensions.
  • spatial processing such as smoothing filter, contour enhancement filter, and density conversion may be performed as preprocessing.
  • a data format such as RGB color, YUV, or monochrome may be selected according to the application.
  • the image data may be subjected to reduction processing.
  • Step S102 As shown in FIG. 7, the analysis area designation unit 122 cuts out the whole or a partial area of the video frame 301 and cuts out the input image 302 in the image range in which the white cane is detected.
  • the region to be cut out may be a region masked with a rectangle, a circle, an ellipse, or the like, and may be filled with a predetermined pixel value when a blank space is generated in the region.
  • Step S103 The area estimation unit 131 inputs the input image 302 to the input layer IN of the learning model 132, as shown in FIG.
  • the learning model 132 sequentially processes the input image 302 in the internal intermediate layer, and outputs the white cane region estimation image 402 to the output layer OUT.
  • Step S104 FIG. 9 is a diagram showing image processing on the region estimation image 402.
  • the binarization unit 141 performs binarization processing on the region estimation image 402 to generate a binarized image 501.
  • the binarized image 501 is an image in which a region near the first pixel value estimated to be a white cane region is white and the other regions are black background colors.
  • the threshold value of this binarization process may be set in advance by an experiment, or may be automatically set by Otsu's binarization.
  • Step S105 The dilation processing unit 142 dilates the binarized image 501 so that one to several pixels around the white pixel are filled with white, and outputs it as a region detection image 502. Black pixels may be mixed as a defect in the estimated area of the white cane. In the expansion processing, the black pixels mixed in the white pixel area are filled with the expanded white pixels, and the defects of the black pixels are removed.
  • the number of expansion processes and the expansion width (size of the filter) here are appropriately set according to the frequency of occurrence of black pixels. Note that the white pixel may be subjected to reduction processing before or after the expansion processing.
  • Step S106 The shape determination unit 143 extracts a white pixel area from the area detection image 502, and performs the next shape determination for the white pixel area.
  • Step S107 The control unit 144 determines that a white cane has been detected when the shape determination of Step S106 completely or partially matches, and moves the operation to Step S108. In other cases (non-matching with the shape range), the shape determination unit 143 moves the operation to step S109. In this way, the image processing unit 140 determines the presence or absence of the white cane to be detected based on the region estimation image 402. That is, the image processing unit 140 determines the presence/absence of the detection target based on part or all of the area, shape, and length of the region of the pixel value estimated as the detection target in the region estimation image 402.
  • Step S108 The communication unit 147 sends the detection of the white cane (the visually impaired person holding the cane) to the reporting device 153.
  • the alerting device 153 that has received the transmission notifies by voice or light.
  • the visually impaired person can be appropriately provided with guidance such as directions and safety considerations.
  • the communication unit 147 may unify the monitoring work at a plurality of locations by notifying the monitoring center on the network of the detection of the white cane (the visually impaired person who has the cane).
  • Step S109 The display control unit 145 displays a part or all of the area estimation image 402 (or the area detection image 502) on the display screen and highlights that the white cane has been detected. For example, a predetermined shape range (rectangle, ellipse, etc.) including the area estimated (determined) as a white cane is cut out from the area estimation image 402 (or the area detection image 502), or a frame of the predetermined shape range is displayed. Alternatively, the color of the frame of the region estimation image 402 (or the region detection image 502), the line type, and the like are changed to be displayed and used as a display image.
  • a predetermined shape range rectangle, ellipse, etc.
  • the color of the frame of the region estimation image 402 (or the region detection image 502), the line type, and the like are changed to be displayed and used as a display image.
  • Step S110 The display control unit 145 sequentially takes in the video frames 301 from the video input unit 121.
  • the display control unit 145 adjusts the time lag between the video frame and the display image by delaying the video frame 301 via an internal FIFO (First In First Out) or a frame memory.
  • the display control unit 145 sequentially synthesizes the display image as a child screen at the corresponding position on the display screen of the video frame where the time is adjusted.
  • FIG. 10 shows the display screen thus synthesized.
  • Step S111 The display control unit 145 causes the display monitor 151 to display a moving image of the sequentially combined display screens.
  • Step S112 The person in charge of adjustment or management of the image processing system 100 operates the adjustment unit 148 while referring to the display screen (see FIG. 10) displayed as a moving image in step S111 to adjust the following items. It will be possible. Adjustment items of the image pickup device 110 (shooting range, shooting zoom amount, shooting frame rate, electronic shutter time, aperture value, shooting sensitivity, gamma adjustment, switching to infrared shooting depending on dark place or time, saturation adjustment, white balance, Noise removal, edge enhancement, etc.) -Adjustment items of the analysis area designation unit 122 (cutout range of video frame, mask range, etc.) Adjustment items of the image processing unit 140 (binarization threshold setting, systemization width of binarization threshold, expansion width, shape determination item, allowable range, etc.) These adjustments made by the adjusting unit 148 are promptly reflected on the display screen (see FIG. 10). Therefore, the person in charge can make adjustments so that the white cane can be properly detected while immediately confirming the adjustment condition on the display screen.
  • Step S113 The recording control unit 146 records the moving image in the recording device 152 in association with the video frame acquired in S101 and the image (see FIG. 10) combined in step S110.
  • the recording control unit 146 may constantly record (overwrite after a certain period of time) this moving image recording, or may record only during the period when the white cane is detected. Further, the recording control unit 146 may control the compression rate and recording interval of moving image recording.
  • the images recorded in this way are used not only for later confirmation, but also for the manual or automatic creation of learning data.
  • step S101 to 113 the image processing system 100 returns the operation to step S101 to repeat the white cane detecting operation. Note that step S112 does not have to be performed when the image processing system 100 is in operation.
  • the learning model 132 is composed of FCN (Fully Convolutional Network).
  • FCN Full Convolutional Network
  • all the intermediate layers are configured by convolutional layers that can pass spatial features such as pixel units of an image to the next stage. It Therefore, even for a small and thin detection target such as a white cane, it is possible to maintain spatial characteristics such as pixel units up to the final stage. Therefore, even a small detection target in the image can be properly detected.
  • all the intermediate layers are configured by the convolutional layer that passes the spatial feature such as the pixel unit of the image to the next stage. Therefore, even if a large subject (human) and a small detection target (white cane) coexist, it is possible to perform processing while relatively coexisting both in the image space. Therefore, even if a large subject coexists, a small detection target can be appropriately processed without being confused. As a result, the detection/identification can be performed without depending on the size of the detection target with respect to the input image size.
  • the binarization processing is performed on the multi-tone area estimation image generated by the learning model 132.
  • the learning model 132 a minute level of background noise that is not estimated as a detection target occurs.
  • the binarization process can appropriately reduce this minute level of background noise. Therefore, it becomes possible to more appropriately detect a small detection target such as a white cane.
  • the expansion process is performed on the region estimation image generated by the learning model 132.
  • defect noise may occur inside the detection target estimation area.
  • the shape is likely to be broken such that the estimated area is divided by the defect noise. Therefore, it becomes difficult to determine the shape later.
  • the expansion processing expands the first pixel value (white) side indicating the detection target to remove defect noise and correct the shape collapse of the estimated region. Therefore, it becomes possible to more appropriately detect a small detection target such as a white cane.
  • the shape determination is performed on the region estimation image generated by the learning model 132.
  • the learning model 132 an unlearned object of another shape that was not in the learning data E may be erroneously estimated as a detection target.
  • the learning model 132 is learned by using a set group of “learning image” and “a teacher image in which the detection target in the learning image is the first pixel value and the other is the second pixel value” as the learning data. Perform processing.
  • the teacher image divided into the binary regions it becomes possible to efficiently and clearly learn the detection target and the others.
  • the state of the estimation process of the learning model 132 is performed. Can be visually interpreted by humans. As a result, it becomes possible to visualize the analysis result that facilitates the reasoning of the detection/identification result.
  • the person in charge changes and sets the adjustment parameter of the imaging device 110 via the adjustment unit 148 while looking at the display monitor 151.
  • This change setting is promptly reflected on the display image displayed on the display monitor 151, so that the person in charge can easily adjust the adjustment parameter of the imaging device 110 to an appropriate state while checking the display monitor 151.
  • the person in charge changes and sets the adjustment parameter of the image acquisition unit 120 via the adjustment unit 148 while looking at the display monitor 151.
  • This change setting is promptly reflected in the display image displayed on the display monitor 151, so that the person in charge can easily adjust the adjustment parameter of the image acquisition unit 120 to an appropriate state while checking the display monitor 151. become.
  • the person in charge changes and sets the adjustment parameter of the image processing unit 140 via the adjustment unit 148 while looking at the display monitor 151. Since this change setting is quickly reflected in the display image displayed on the display monitor 151, the person in charge can easily adjust the adjustment parameter of the image processing unit 140 to an appropriate state while checking the display monitor 151. become.
  • a part or all of the display image based on the region estimation image is combined as a child screen on the display monitor 151 at the corresponding position on the display screen of the image acquired from the imaging device 110. indicate. Therefore, it is possible to easily confirm the detection status of the detection target (white cane) together with the image of the imaging device 110.
  • FIG. 11 is a diagram showing two types of learning data Ea and Eb used in the learning process of the learning model 132a for the white cane.
  • the learning data Ea is a set of “a learning image of a white cane held by a human” and “a teacher image in which the white cane of the learning image has a first pixel value (white) and the others have a second pixel value (black)”. This is learning data consisting of groups.
  • the pixels (neurons) of the feature map generated in the intermediate layers L1 to L4 in the learning model 132a are classified into the white cane area of the human and the other areas. Come to do. Therefore, it is possible to obtain a learning model that estimates the area of the white cane that humans have.
  • the learning data Eb is learning data composed of a set group of "a fake learning image that a human does not have” and "a teacher image with the second pixel value (black) as the whole".
  • the fake here refers to a thing having image characteristics similar to a white cane, such as the white line and the white pole of the road shown in FIG.
  • the pixels (neurons) of the feature map generated in the intermediate layers L1 to L4 in the learning model 132a are not activated in the counterfeit area that a human does not have. It will show a tendency. Therefore, it is possible to obtain a learning model that does not erroneously estimate a fake area that a human does not have.
  • the learning unit 154 creates integrated learning data that integrates such two types of learning data Ea and Eb, and uses the integrated learning data to perform the learning process of the learning model 132a.
  • the pixels (neurons) of the feature map generated in the intermediate layers L1 to L4 in the learning model 132a are “white sticks held by humans”. "Fakes that humans do not have” and “others” are classified according to the presence or absence of humans (face, hand, body, legs, skin color, etc.) and the relationship such as position and interval. As a result, the learning model 132a does not estimate the "white cane that a human has” as an area, and does not estimate the "counterfeit that a human does not have” or “others” as a white cane.
  • the second embodiment has the following effects in addition to the effects of the above-described first embodiment.
  • the “white cane (detection target) that a human has in the learning image” ) Is a first pixel value, and the other is a teacher image having a second pixel value" as a set of integrated learning data.
  • the recording device 152 stores the fake video frame. Therefore, it is possible to manually or automatically collect the new fake video frames and expand the fake learning data Eb. As a result, the learning of the learning model 132a can be updated in response to the appearance of a new fake, and the area of a small detection target such as a white cane can be more accurately estimated.
  • the third embodiment is characterized in that it includes a learning model 132a for a white cane and a learning model 132b for a fake.
  • FIG. 12 is a diagram showing two types of learning data Ec and Ed used in the learning process of the learning model 132b for imitation.
  • the learning data Ec is learning data composed of a set group of "a learning image of a white cane held by a human" and "a teacher image having the second pixel value (black) as a whole”.
  • the pixels (neurons) of the feature map generated in the intermediate layers L1 to L4 in the learning model 132b are not activated in the white cane area of a human. It will show a tendency. Therefore, it is possible to obtain a learning model that does not intentionally estimate the area of the white cane that humans have.
  • the learning data Ed includes a “counterfeit learning image that a human does not have” and a “teacher image in which the counterfeit of the learning image is the first pixel value (white) and the others are the second pixel value (black)”.
  • the pixels (neurons) of the feature map generated in the intermediate layers L1 to L4 in the learning model 132b are activated in a fake area that a human does not have. It will show a tendency. Therefore, it is possible to obtain a learning model that intentionally estimates a fake area that a human does not have.
  • the learning unit 154 creates integrated learning data by integrating such two types of learning data Ec and Ed, and uses the integrated learning data to perform the learning process of the learning model 132b.
  • the pixels (neurons) of the feature map generated in the intermediate layers L1 to L4 in the learning model 132b are “white sticks held by humans”. "Fakes that humans do not have” and “others” are classified according to the presence or absence of humans (face, hand, body, legs, skin color, etc.) and the relationship such as position and interval.
  • the learning model for fakes 132b estimates the area for the "counterfeit that a human does not have” and does not estimate for the "white cane that a human has”.
  • FIG. 13 is a diagram for explaining how to detect the area of the white cane according to the third embodiment.
  • an input image 302 of a person holding a white cane is input.
  • the learning model 132a for a white cane processes the input image 302 to generate a white cane area estimation image 402a.
  • the white cane area estimation image 402a includes gray noise due to a fake.
  • the fake learning model 132b processes the input image 302 to generate a fake area estimation image 402b.
  • the binarization unit 141 performs arithmetic processing for each of the corresponding pixels or regions on the two region estimation images 402a and 402b to generate a white cane region estimation image 402c excluding the counterfeit. For example, the binarizing unit 141 subtracts the fake region estimation image 402b from the white cane region estimation image 402a to obtain a difference image. The binarization unit 141 performs a binarization process in which the positive pixel value is the first pixel value (white) and the negative pixel value is the second pixel value (black) in the difference image, so that the false image It is possible to generate a white cane region estimation image 402c (binarized image) excluding.
  • FIG. 14 is a diagram for explaining how false detection is prevented in the third embodiment.
  • an input image 312 in which a white pole is photographed as a fake is input.
  • the white cane learning model 132a processes the input image 312 to generate a white cane region estimation image 412a.
  • the white cane area estimation image 412a contains gray noise corresponding to a fake white pole.
  • the fake learning model 132b processes the input image 312 to generate a fake area estimation image 412b.
  • a clear area corresponding to a fake white pole appears in the fake area estimation image 412b.
  • the binarization unit 141 performs a logical operation on the two region estimation images 412a and 412b for each corresponding pixel to eliminate the false detection of the counterfeit region estimation image 412c (binarization. Image).
  • the third embodiment includes a fake learning model 132b that estimates a region of the fake from a "fake input image that a human does not have".
  • a fake region estimation image 402b is generated by the fake learning model 132b.
  • the fake region estimation image 402b shows a strong correlation with the fake noise erroneously included in the white cane region estimation image 402a. Therefore, it is possible to reduce the false noise included in the white cane area estimated image 402a by using a calculation process such as removing a correlation portion with the false area estimated image 402b. Therefore, it becomes possible to more accurately estimate the area of a small detection target such as a white cane.
  • the white cane is the detection target.
  • the detectable object is not limited to the white cane.
  • utility poles, electric wires, signs, people, animals, structures, vehicles, tools, parts, radiographs, and various other objects can be detected.
  • an article such as a white cane held by a human can be accurately detected.
  • human detection targets include baseball bats, sports equipment such as swords for kendo and fencing, orchestra baton tact, and folded umbrellas.
  • the region estimation is performed while maintaining the spatial characteristics of the image, it is suitable for detecting a relatively small detection target.
  • detection targets that tend to be small in the image include shoes, hats, food, mobile phones, smartphones, parts, and scratches.
  • the white cane to be detected in the learning data has the first pixel value and the other area has the second pixel value, but the other area may be divided into a plurality of pixel values. ..
  • the pixel value of the teacher image is not limited to the brightness.
  • the intermediate layer is specifically illustrated in FIGS. 2 to 4, but the present invention is not limited to this.
  • the depth (number of layers) of the intermediate layer and the size and type of the filter of the convolutional layer.
  • the output layer the same number of area estimation images as the types of detection targets (or the same number of area estimation images that can be divided into multiple values) are output at a resolution suitable for the detection targets.
  • the shape determination is performed by image analysis, but the present invention is not limited to this.
  • Various shapes of the estimated region to be detected may be collected and shape determination may be performed using a learning model in which those shapes are machine-learned as learning data.
  • the difference image binarization processing is performed on the plurality of region estimation images, but the present invention is not limited to this. It suffices as long as it is arithmetic processing that removes a fake region included in at least one of the plurality of region estimation images as noise.
  • the presence/absence of a detection target is controlled based on the shape determination of the shape determination unit 143 after the binarization unit 141 and the expansion processing unit 142 of the image processing unit 140 perform image processing on the region estimation image 402. 144 made the decision.
  • the present invention is not limited to this, and the processes of the binarization unit 141 and the expansion processing unit 142 may be omitted, or only one of the processes may be performed.
  • the present invention is not limited to the above-described embodiments, but includes various modifications.
  • the above-described embodiments have been described in detail in order to explain the present invention in an easy-to-understand manner, and are not necessarily limited to those having all the configurations described.
  • a part of the configuration of a certain embodiment can be replaced with the configuration of another embodiment, and the configuration of another embodiment can be added to the configuration of a certain embodiment.
  • 100... Image processing system 110... Imaging device, 120... Image acquisition unit, 121... Image input unit, 122... Analysis region designation unit, 130... Estimation unit, 131... Region estimation unit, 132... Learning model, 132a... White cane Learning model 132b... Learning model for fakes, 140... Image processing unit, 141... Binarization unit, 142... Expansion processing unit, 143... Shape determination unit, 144... Control unit, 145... Display control unit, 146 ... recording control unit, 147... communication unit, 148... adjustment unit, 151... display monitor, 152... recording device, 153... reporting device, 154... learning unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本発明は、白杖のような小さな被写体の検出に適した技術を提供する。 この課題を解決するために、代表的な本発明の画像処理システムの一つは、映像として取得された入力画像を取り込む映像取得部と、予め定められた検出対象の領域について学習されたFCN(Fully Convolutional Network)の学習モデルを有し、入力画像を学習モデルで処理することにより、検出対象の領域推定画像を生成する推定部と、領域推定画像に基づいて検出対象の領域を検出する画像処理部とを備える。

Description

画像処理システム、画像処理方法および画像処理プログラム
 本発明は、画像処理システム、画像処理方法および画像処理プログラムに関する。
 従来、監視カメラの撮影映像を画像処理して、検出対象を自動的に検出する技術が知られている。この種の画像処理は、人間による監視負担の軽減に有効である。
 例えば、特許文献1には、白杖を所持する視覚障がい者を自動的に検出する技術として、「1フレーム分の映像データを取得し、映像データ内のエッジ位置に基づいて、白杖の色範囲の画素値を検出して連結し、連結画素の集合について白杖の形状の特徴を有する集合か否かを判断する」旨の画像処理が開示される。
 また、非特許文献1には、画像に対して、第1ラベル(犬や猫など)および第2ラベル(人工物や自然物など)のラベル付けを学習させた畳込みニューラルネットワークCNN(畳込層+プーリング層+全結合層)を用いて、画像内の主要被写体について複数のラベル(犬であって自然物であるなど)に分類する技術が開示される。この非特許文献1の技術では、画像内を大きく占める主要被写体について高い分類精度が得られる。
特開2003-168110号公報
「複数の分類を出力するディープラーニング」、[online]、[2018年11月1日検索]、インターネット<URL:https://qiita.com/cvusk/items/1439c1c6dde160c48d13>
 特許文献1の技術では、入力画像から白杖の領域を画像処理のみで検出する。しかし、入力画像内に占める白杖の領域が小さい場合、検出精度が低くなりやすいという問題があった。
 また、非特許文献1の畳込みニューラルネットワークCNNでは、小さな被写体が主要被写体と並存する場合、小さな被写体の分類が困難になるという問題があった。
 例えば、視覚障がい者を自動的に検出するために、「白杖を持つ人間」と「白杖を持たない人」とを識別する畳込みニューラルネットワークCNNを考える。この場合、白杖の有無を識別する必要がある。
 しかしながら、識別すべき人間に対して、識別すべき白杖は非常に細く、かつ特徴に乏しい。そのため、人間の特徴に活性化しやすい多数のニューロンに対して、目立たない白杖に反応する少数のニューロンは紛れやすく、「白杖を持つ人間」と「白杖を持たない人」との分類は困難になる。
 そこで、本発明は、(白杖のような)小さな検出対象の検出に適した技術を提供することを目的とする。
 上記課題を解決するために、代表的な本発明の画像処理システムの一つは、映像として取得された入力画像を取り込む映像取得部と、予め定められた検出対象の領域について学習されたFCN(Fully Convolutional Network)の学習モデルを有し、入力画像を学習モデルで処理することにより、検出対象の領域推定画像を生成する推定部と、領域推定画像に基づいて検出対象の領域を検出する画像処理部とを備える。
 本発明によれば、小さな検出対象を適切に検出することができる。
 上記した以外の課題、構成および効果は、以下の実施形態の説明により明らかにされる。
画像処理システム100の構成を示す図である。 学習モデル132の構成を説明する図である。 中間層1層分の構成を説明する図である。 中間層1層分の構成を説明する図である。 実施例1の学習データを説明する図である。 白杖検出の動作を説明する流れ図である。 映像取得部の動作を説明する図である。 推定部の動作を説明する図である。 画像処理部の動作を説明する図である。 表示制御部の動作を説明する図である。 実施例2の学習データを説明する図である。 実施例3の学習データを説明する図である。 実施例3の画素論理演算を説明する図である。 実施例3の画素論理演算を説明する図である。
 本発明に関わる実施形態を、図面を参照して説明する。
<実施例1の構成>
 実施例1は、例えば白杖(を所持する視覚障がい者)を検出する画像処理システム100である。
 図1は、この画像処理システム100の構成を示す図である。
 同図において、画像処理システム100は、ハードウェアとしてCPU(Central Processing Unit)やメモリなどを備えた情報処理システム(情報処理装置)として構成される。このハードウェアが画像処理プログラムを実行することにより、後述する各種機能が実現する。このハードウェアの一部または全部については、DSP(Digital Signal Processor)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などで代替してもよい。また、ハードウェアの一部または全部をネットワーク上に集中または分散して配置してもよい。
 画像処理システム100は、撮像装置110、映像取得部120、推定部130、画像処理部140、表示モニタ151、記録装置152、発報装置153、および学習部154を備える。
 撮像装置110は、1つ以上のカメラから構成される。この種の撮像装置110は、監視カメラとして監視箇所に配置されたり、ウェアラブルカメラとして人体に装着されたり、車載カメラとして車などの移動体に配置されたり、建設機械やロボットなどの機械に配置されたり、その他の多様な用途に採用される。
 映像取得部120は、映像入力部121、および解析領域指定部122を備える。映像入力部121は、撮像装置110や外部入力から動画または静止画の画像を有線または無線で取得する。解析領域指定部122は、取得した画像について白杖(検出対象)を監視する画像範囲を手動設定で決定したり、または自動で決定し、取得画像の画像範囲を内部メモリ(不図示)に取り込む。この監視する画像範囲の画像(以下「入力画像」という)は、監視すべき画像範囲や処理負荷の軽減を考慮して、取得した画像の全体または部分に設定される。
 推定部130は、領域推定部131、およびFCN(Fully Convolutional Network)の学習モデル132を備える。領域推定部131は、入力画像を学習モデル132で処理することにより、画像内において白杖(検出対象)の領域を推定し、領域推定画像を生成する。ここでの領域推定画像は、学習モデルが学習した検出対象について、検出対象らしさを画素単位ないし領域単位に複数の階調値や色で表した画像である。
 画像処理部140は、二値化部141、膨張処理部142、形状判定部143、制御部144、表示制御部145、記録制御部146、通信部147、および調整部148を備える。
 続いて、学習モデル132について説明する。
 図2は、この学習モデル132の構成を説明する図である。
 同図において、学習モデル132は、入力画像が入力される入力層IN、複数の中間層L1~L4、および領域推定画像を出力する出力層OUTを備える。
 複数の中間層L1~L4は、少なくとも画像(特徴マップ)に対する畳込み層を1層分に含み、全層が連結されることにより、FCN(Fully Convolutional Network)の構成をとる。
 ここでの中間層L1~L4の層数は、白杖の領域推定においては4層程度が好ましい。なお、中間層の層数は、検出対象のサイズ、特徴の量、複雑さ、困難さ、または計算負荷などに応じて変化する。
 出力層では、中間層L1~L4で段階的に処理された複数チャンネルの画像(特徴マップ)に対して、そのままや加重加算や論理演算(最大値演算や最小値演算も含む)が行われることにより、白杖(検出対象)の領域推定画像が生成される。
 図3は、学習モデル132の中間層1層分の構成を説明する図である。
 同図において、入力1チャンネルの画像は、入力層INまたは一つ前の中間層から入力される。
 この画像の処理対象画素を中心に、局所域にn行×m列のフィルタ係数が乗じられた後、局所和を求めることにより(積和演算による畳込み層の処理)、畳込み値が生成される。
 このとき、畳込み処理の前にパディング(画像の上下左右を固定値などで数画素分だけ拡大する処理)を行うことで、積和演算における画像の上下左右の画素欠落を回避してもよい。
 この畳込み値には、バイアスが加減算される。バイアスを加減算した畳込み値は、非線形の活性化関数によって処理される。活性化関数は、所定のバイアスに対応する値を境にして、非活性域から活性域に非線形変化するニューロン特性を模擬する非線形関数である。
 このような非線形の画像処理を、水平および垂直に走査しながら行うことにより、一画素一画素をニューロン化した特徴マップが生成される。水平垂直の走査間隔(ストライド)は、1画素~数画素に設定される。
 なお、白杖の検出には、人間が保持した白杖が横幅方向(画像の水平方向)に細くて特徴を消失しやすいため、水平方向の走査間隔を密(例えば1画素単位)にすることが好ましい。
 このように生成される特徴マップは、次の中間層または出力層OUTに出力される。
 なお、図3に示すように、フィルタ係数とバイアスの組み合わせをk種類(kは自然数)設けた場合、1チャンネルの画像から、kチャンネルの特徴マップが生成される。
 次に、図4を参照して、複数チャンネル(同図では3チャンネルを例示)が入力される中間層1層分の処理を説明する。
 これら複数チャンネルは、入力層INに入力されるカラー画像の色成分のチャンネル(RGBやYCbCrなど)または、一つ前の中間層から入力される特徴マップのkチャンネルである。
 複数チャンネルの画像それぞれには、畳込み層と活性化関数の処理が図4に示すようにたすき掛けに施され、p群(pは自然数)の特徴マップが生成される。これらの特徴マップのp群毎に加重加算や画素論理演算(最大値演算や最小値演算も含む)やバイアス加算などが施され、pチャンネルの特徴マップが出力される。
 図5は、学習部154による学習モデル132の学習処理を説明する図である。
 同図において、学習部154は、事前に収集された学習データEを有する。この学習データEは、「人間が白杖を持つ学習画像」と「その学習画像の白杖を第1画素値(例えば白)とし、それ以外を第2画素値(例えば黒)とした教師画像」とを1セットとしたデータセットの群である。
 学習前の学習モデル132では、各中間層のフィルタ係数群Wおよびバイアス群Bなどは適当な初期値に設定される。この状態で、学習部154は、学習データEの学習画像を学習モデル132に逐次入力し、暫定の領域推定画像を逐次に得る。学習部154は、学習データEの教師画像と暫定の領域推定画像との画素誤差を求める。
 学習部154は、求めた画素誤差が縮小する方向に、逆誤差伝搬法などを用いて、各中間層のフィルタ係数群Wおよびバイアス群Bなどの値を更新する。
 この更新動作を、学習データEの所定セットの単位に繰り替えすたびに、各中間層のフィルタ係数群Wおよびバイアス群Bなどの値は徐々に適正化される。
 学習部154は、学習データEの全部を、フィルタ係数群Wおよびバイアス群Bなどの更新処理(学習)に使用せず、学習データEの一部を学習の効果確認に使用する。
 学習部154は、この学習の効果確認が十分(例えば、画素誤差の大きさの総計が許容値以下)と判断とすると、学習モデル132の繰り返し学習を完了する。
 以上の学習処理により、「人間が白杖を持つ入力画像」に対して、「その入力画像の白杖を第1画素値(例えば白)に比較的近い値とし、それ以外を第2画素値(例えば黒)に比較的近い値とした領域推定画像(多階調画像)」を出力する学習モデル132が得られる。
<実施例1の動作>
 図6は、画像処理システム100による白杖検出の動作を説明する流れ図である。
 以下、同図に示すステップ番号に沿って、白杖検出を説明する。
ステップS101: 映像入力部121は、撮像装置110で動画撮影される映像フレームを例えばリアルタイムに取り込む。また、撮像装置110の代わりに、映像記録装置から再生される映像フレームや、ネットワークを経由した映像フレームを取り込んでもよい。
 これらの映像は、学習モデル132での行列演算に合わせて、1次元~複数次元からなる画素配列のデータに整形される。
 また、映像に含まれるノイズやフリッカなどの影響を低減するため、前処理として平滑化フィルタや輪郭強調フィルタ、濃度変換などの空間処理を施してもよい。
 また、用途に応じてRGBカラーやYUV、モノクロなどのデータ形式を選択してもよい。さらには、演算負荷を低減するために、画像データに縮小処理を施してもよい。
ステップS102: 解析領域指定部122は、図7に示すように、映像フレーム301の全部または部分領域を切り出し、白杖を検出する画像範囲の入力画像302を切り出す。切り出す領域は、矩形や円や楕円などでマスクされた領域でもよく、領域に余白が生じた場合は所定の画素値で埋めてもよい。
ステップS103: 領域推定部131は、図8に示すように、入力画像302を学習モデル132の入力層INに入力する。学習モデル132は、入力画像302を内部の中間層で順次に処理し、出力層OUTに白杖の領域推定画像402を出力する。
ステップS104: 図9は、領域推定画像402に対する画像処理を示す図である。
 同図において、二値化部141は、領域推定画像402に対して二値化処理を行い、二値化画像501を生成する。この二値化画像501は、白杖の領域と推定される第1画素値に近い領域を白とし、それ以外を黒の背景色とした画像である。
 この二値化処理の閾値は、予め実験によって定めてもよいし、大津の二値化などにより自動的に定めてもよい。
ステップS105: 膨張処理部142は、二値化画像501に対して白画素の周囲1画素~数画素を白で塗りつぶす膨張化処理を行い、領域検出画像502として出力する。
 白杖の推定領域の内部には、黒画素が欠陥として混入する場合がある。膨張化処理では、白画素の領域に混入した黒画素が、膨張化された白画素によって塗りつぶされ、黒画素の欠陥は除去される。
 ここでの膨張処理の回数や膨張幅(フィルタの大きさ)は、黒画素の発生頻度などによって適宜に設定される。なお、膨張処理の前または後に白画素に対する縮小処理を行ってもよい。
ステップS106: 形状判定部143は、この領域検出画像502から白画素領域を抽出し、その白画素領域について、次の形状判定を行う。
・白画素領域の面積(画素数)は、白杖の面積の許容範囲に適合するか。
・白画素領域(を囲む最小矩形)の高さや幅やその縦横比は、白杖(を囲む最小矩形)の高さや幅や縦横比の許容範囲に適合するか。
・白画素領域の最大幅と最小幅とその扁平率は、白杖の最大幅と最小幅とその扁平率の許容範囲に適合するか。
・白画素領域に内包される最大直線の長さは、白杖の画面上の直線の長さの許容範囲に適合するか。
ステップS107: 制御部144は、ステップS106の形状判定に全て、または、一部合致した場合、白杖を検出したと判定して、ステップS108に動作を移行する。それ以外の場合(形状範囲に非合致)、形状判定部143はステップS109に動作を移行する。
 このように、画像処理部140は、領域推定画像402に基づいて検出対象である白杖の有無を判定する。つまり、画像処理部140は、領域推定画像402において検出対象として推定された画素値の領域の面積、形状、長さの一部または全部に基づいて検出対象の有無を判定する。
ステップS108: 通信部147は、白杖(を持った視覚障がい者の方)の検出を、発報装置153に送信する。送信を受けた発報装置153は音声や光などで報知する。この報知に係員が気付くことにより、視覚障がい者の方に対する道案内や安全配慮などのサポートが適切に行われる。
 また、通信部147は、ネットワーク上の監視センタなどに白杖(を持った視覚障がい者の方)の検出を通知することにより、複数箇所の監視業務を一元化してもよい。
ステップS109: 表示制御部145は、表示画面に領域推定画像402(または領域検出画像502)の一部または全部を表示するとともに白杖が検出されたことを示す強調表示を行う。例えば、領域推定画像402(または領域検出画像502)から白杖と推定(判定)される領域を含む所定の形状範囲(矩形や楕円など)を切り出したり、かかる所定の形状範囲の枠を表示させたり、領域推定画像402(または領域検出画像502)の枠の色や線種などを変更して表示させたりして、表示画像とする。
ステップS110: 表示制御部145は、映像入力部121から映像フレーム301を逐次に取り込む。
 表示制御部145は、映像フレーム301を内部のFIFO(First In First Out)やフレームメモリを介して遅延させることにより、映像フレームと表示画像のタイムラグを調整する。表示制御部145は、時間を合わせた映像フレームの表示画面の対応位置に表示画像を子画面として逐次に合成する。図10に、このように合成された表示画面を示す。
ステップS111: 表示制御部145は、逐次に合成された表示画面を表示モニタ151に動画表示する。
ステップS112: 画像処理システム100の調整または管理の担当者は、ステップS111で動画表示される表示画面(図10参照)を参考にしながら、調整部148を操作することで、次の項目の調整が可能となる。
・撮像装置110の調整項目(撮影範囲、撮影ズーム量、撮影フレームレート、電子シャッタ時間、絞り値、撮像感度、ガンマ調整、暗所や時刻による赤外線撮影への切替、彩度調整、ホワイトバランス、ノイズ除去、輪郭強調など)
・解析領域指定部122の調整項目(映像フレームの切り出し範囲やマスク範囲など)
・画像処理部140の調整項目(二値化の閾値設定、二値化の閾値のシステリシス幅、膨張化の幅、形状判定の項目や許容範囲など)
 調整部148によるこれらの調整は、表示画面(図10参照)に迅速に反映される。そのため、担当者は、調整の具合を表示画面で即座に確認しながら、白杖検出が適切に行えるように調整を追い込むことができる。
ステップS113: 記録制御部146は、S101で取得した映像フレームと、ステップS110で合成された画像(図10参照)とを関連付けて記録装置152に動画記録する。
 記録制御部146は、この動画記録を常時記録(一定時間経つと上書き)してもよいし、白杖を検出した期間のみ記録してもよい。また、記録制御部146は、動画記録の圧縮率や記録間隔を制御してもよい。
 このように記録される映像は後々の確認のためだけではなく、学習データの手動または自動の作成作業に利用される。
 以上の動作(ステップS101~113)の後、画像処理システム100はステップS101に動作を戻すことで、白杖の検出動作を繰り返す。なお、画像処理システム100の運用時にはステップS112は行われなくてもよい。
<実施例1の効果>
(1)実施例1では、学習モデル132がFCN(Fully Convolutional Network)で構成される。このFCNの学習モデル132は、図2~図3に示したように、全ての中間層が、画像の画素単位などの空間的な特徴を次段に受け渡すことのできる畳込み層により構成される。そのため、白杖のような小さくて細い検出対象であっても最終段まで画素単位などの空間的な特徴を保つことが可能になる。したがって、画像内の小さな検出対象であっても、適切に検出することができる。
(2)ちなみに、非特許文献1の畳込みニューラルネットワークCNNでは、全結合層において全ニューロンが画像の空間的な特徴を無視して網羅的に結合される。そのため、大きな被写体(人間)の特徴に活性化してしまう多数のニューロンに対して、小さな検出対象(ここでは白杖)に活性化した少数のニューロンは、全結合層に入ると紛れやすくなる。そのため、非特許文献1の畳込みニューラルネットワークCNNでは、大きな被写体(人間)に並存する小さな被写体(白杖)の検出は難しくなる。
 それに対して、実施例1では、全ての中間層が、画像の画素単位などの空間的な特徴を次段に受け渡す畳込み層により構成される。そのため、大きな被写体(人間)と小さな検出対象(白杖)とが並存しても、両者を画像空間上で相対的に並存させながら処理することが可能になる。そのため、大きな被写体が並存しても、小さな検出対象が紛れることなく適切に処理できる。その結果、入力画像サイズに対する検出対象の大きさに依存せずに検出・識別が可能になる。
(3)実施例1では、学習モデル132で生成される多階調の領域推定画像に対して、二値化処理を実施する。学習モデル132では、検出対象と推定されない微小レベルの背景ノイズが発生する。二値化処理は、この微小レベルの背景ノイズを適切に削減することができる。そのため、白杖のような小さな検出対象をより適切に検出できるようになる。
(4)実施例1では、学習モデル132で生成される領域推定画像に対して、膨張化処理を実施する。領域推定画像では、検出対象の推定領域の内側に欠陥ノイズが発生する場合がある。白杖のような小さな検出対象の場合、欠陥ノイズにより推定領域が分断されるなど形状が崩れやすい。そのため、後の形状判定が難しくなる。
 膨張化処理は、検出対象を示す第1画素値(白)側を膨張化させることにより、欠陥ノイズを除去し、推定領域の形状崩れを修正する。
 そのため、白杖のような小さな検出対象をより適切に検出できるようになる。
(5)実施例1では、学習モデル132で生成される領域推定画像に対して、形状判定を実施する。学習モデル132では、学習データEになかった未学習の別形状の物体を検出対象と誤って推定する場合もありうる。しかしながら、実施例1では、領域推定画像の形状判定により検出対象の形状とは別形状の物体を排除することができる。したがって、高い精度で検出対象を検出できるようになる。また、学習が若干不十分であっても検出対象を精度良く検出できるようになる。
(6)実施例1では、「学習画像」および「学習画像における検出対象を第1画素値、それ以外を第2画素値とした教師画像」のセット群を学習データとして、学習モデル132の学習処理を行う。このように二値に領域分けされた教師画像を使用することにより、検出対象とそれ以外とを効率的かつ明確に学習することが可能になる。
(7)ちなみに、非特許文献1の畳込みニューラルネットワークCNNでは、全結合層内において検出対象の画像空間的な特徴が失われるため、全結合層の内部の推考過程を表示しても人間が解釈することができない。
 しかしながら、実施例1では、全ての中間層が検出対象の画像空間上の特徴を維持できるため、領域推定画像に基づく表示画像を表示モニタ151に表示することにより、学習モデル132の推考過程の様子を人間が視認により解釈することができる。その結果、検出・識別結果の理由付けを容易にする解析結果の可視化が可能になる。
(8)実施例1では、担当者が表示モニタ151を見ながら調整部148を介して撮像装置110の調整パラメータを変更設定する。この変更設定は、表示モニタ151に表示される表示画像に迅速に反映されるため、担当者は表示モニタ151を確認しながら、撮像装置110の調整パラメータを適切な状態に調整することが容易になる。
(9)実施例1では、担当者が表示モニタ151を見ながら調整部148を介して映像取得部120の調整パラメータを変更設定する。この変更設定は、表示モニタ151に表示される表示画像に迅速に反映されるため、担当者は表示モニタ151を確認しながら、映像取得部120の調整パラメータを適切な状態に調整することが容易になる。
(10)実施例1では、担当者が表示モニタ151を見ながら調整部148を介して画像処理部140の調整パラメータを変更設定する。この変更設定は、表示モニタ151に表示される表示画像に迅速に反映されるため、担当者は表示モニタ151を確認しながら、画像処理部140の調整パラメータを適切な状態に調整することが容易になる。
(11)実施例1では、図10に示すように、撮像装置110から取得した映像の表示画面の対応位置に、領域推定画像に基づく表示画像の部分または全部を子画面として表示モニタ151に合成表示する。
 したがって、撮像装置110の映像と共に、検出対象(白杖)の検出状況を分かりやすく確認することが可能になる。
 実施例2は、白杖用の学習モデル132aを備える点を特徴とする。
 なお、その他の構成および動作は、実施例1で示した図1~4,6~10と同様であるため、ここでの重複説明を省略する。
<白杖用の学習モデル132aの説明>
 図11は、白杖用の学習モデル132aの学習処理に使用する2種類の学習データEa,Ebを示す図である。
 学習データEaは、「人間が持つ白杖の学習画像」と「その学習画像の白杖を第1画素値(白)とし、それ以外を第2画素値(黒)とした教師画像」のセット群からなる学習データである。
 この学習データEaを用いて学習処理を行うことにより、学習モデル132a内の中間層L1~L4で生成される特徴マップの画素(ニューロン)は、人間が持つ白杖の領域とそれ以外とを分別するようになる。したがって、人間が持つ白杖の領域を推定する学習モデルが得られる。
 一方、学習データEbは、「人間が持たない偽物の学習画像」と「全体を第2画素値(黒)とした教師画像」のセット群からなる学習データである。ここでの偽物は、図11に示す道路の白線や白ポールのように、白杖に似た画像的特徴を有するものを指す。
 この学習データEbを用いて学習処理を行うことにより、学習モデル132a内の中間層L1~L4で生成される特徴マップの画素(ニューロン)は、人間が持たない偽物の領域に対して活性化しない傾向を示すようになる。したがって、人間が持たない偽物の領域を誤って推定しない学習モデルが得られる。
 学習部154は、このような2種類の学習データEa,Ebを統合した統合学習データを作成し、この統合学習データを使用して学習モデル132aの学習処理を行う。
 学習データEa,Ebの統合学習データを用いて学習処理を行うことにより、学習モデル132a内の中間層L1~L4で生成される特徴マップの画素(ニューロン)は、「人間が持つ白杖」と「人間が持たない偽物」と「それ以外」とを、人間(顔、手、胴体、足、または肌色など)の有無や位置や間隔などの関係性によって分別するようになる。
 その結果、学習モデル132aは、「人間が持つ白杖」については領域を推定し、「人間が持たない偽物」や「それ以外」については白杖と推定をしないようになる。
<実施例2の効果>
 実施例2は、上述した実施例1の効果に加えて、次の効果を奏する。
(1)実施例2では、「人間が持つ白杖(検出対象)の画像」および「人間が持たない偽物の画像」を含む学習画像それぞれに、「学習画像において人間が持つ白杖(検出対象)を第1の画素値、それ以外を第2の画素値とした教師画像」を対応させたセット群を統合学習データとする。
 この統合学習データを使用して学習モデル132aを学習処理することにより、学習モデル132aは、「人間が持つもの」という白杖(検出対象)の特徴に活性化しやすくなる一方で、「人間が持たない偽物」には活性化しないようになる。
 したがって、「人間が持たない偽物」による誤った推定を抑制し、「人間が持つもの」である白杖(検出対象)をより正確に領域推定することが可能になる。
(2)記録装置152には、新たな偽物の出現により誤った推定が発生した場合、その偽物の映像フレームが保存される。そこで、この新たな偽物の映像フレームを手動ないし自動で収集して偽物用の学習データEbを拡充することが可能になる。その結果、新たな偽物の出現に対処して、学習モデル132aの学習を更新することが可能になり、白杖のような小さな検出対象をより正確に領域推定できるようになる。
 実施例3は、白杖用の学習モデル132aと、偽物用の学習モデル132bとを備える点を特徴とする。
 白杖用の学習モデル132aについては、実施例2(図11参照)と同じため、ここでの重複説明を省略する。
 また、その他の構成は、実施例1で示した図1~4,6~10と同様であるため、ここでの重複説明を省略する。
<偽物用の学習モデル132bの説明>
 図12は、偽物用の学習モデル132bの学習処理に使用する2種類の学習データEc,Edを示す図である。
 学習データEcは、「人間が持つ白杖の学習画像」と「全体を第2画素値(黒)とした教師画像」のセット群からなる学習データである。
 この学習データEcを用いて学習処理を行うことにより、学習モデル132b内の中間層L1~L4で生成される特徴マップの画素(ニューロン)は、人間が持つ白杖の領域に対して活性化しない傾向を示すようになる。したがって、人間が持つ白杖の領域をわざと推定しない学習モデルが得られる。
 一方、学習データEdは、「人間が持たない偽物の学習画像」と「その学習画像の偽物を第1画素値(白)とし、それ以外を第2画素値(黒)とした教師画像」のセット群からなる学習データである。
 この学習データEdを用いて学習処理を行うことにより、学習モデル132b内の中間層L1~L4で生成される特徴マップの画素(ニューロン)は、人間が持たない偽物の領域に対して活性化する傾向を示すようになる。したがって、人間が持たない偽物の領域をわざと推定する学習モデルが得られる。
 学習部154は、このような2種類の学習データEc,Edを統合した統合学習データを作成し、この統合学習データを使用して学習モデル132bの学習処理を行う。
 学習データEc,Edの統合学習データを用いて学習処理を行うことにより、学習モデル132b内の中間層L1~L4で生成される特徴マップの画素(ニューロン)は、「人間が持つ白杖」と「人間が持たない偽物」と「それ以外」とを、人間(顔、手、胴体、足、または肌色など)の有無や位置や間隔などの関係性によって分別するようになる。その結果、偽物用の学習モデル132bは、「人間が持たない偽物」については領域を推定し、「人間が持つ白杖」については推定をしないようになる。
<領域推定画像の間の演算処理について>
 図13は、実施例3による白杖の領域検出の様子を説明する図である。
 同図において、白杖を持った人間を撮影した入力画像302が入力される。
 白杖用の学習モデル132aは、この入力画像302を処理して、白杖の領域推定画像402aを生成する。この白杖の領域推定画像402aには、偽物によるグレーのノイズが含まれる。
 偽物用の学習モデル132bは、この入力画像302を処理して、偽物の領域推定画像402bを生成する。
 二値化部141は、2つの領域推定画像402a,402bに対して、対応する画素ごとや領域ごとの演算処理を行って、偽物を除いた白杖の領域推定画像402cを生成する。
 例えば、二値化部141は、白杖の領域推定画像402aから、偽物の領域推定画像402bを減算して差分画像を求める。二値化部141は、差分画像について、正の画素値を第1画素値(白)とし、負の画素値を第2画素値(黒)とする二値化処理を実施することにより、偽物を除いた白杖の領域推定画像402c(二値化画像)を生成することができる。
 図14は、実施例3における誤検出防止の様子を説明する図である。
 同図において、偽物として白ポールを撮影した入力画像312が入力される。
 白杖用の学習モデル132aは、この入力画像312を処理して、白杖の領域推定画像412aを生成する。この白杖の領域推定画像412aには、偽物の白ポールに相当するグレーのノイズが含まれる。
 偽物用の学習モデル132bは、この入力画像312を処理して、偽物の領域推定画像412bを生成する。この偽物の領域推定画像412bには、偽物の白ポールに相当する明確な領域が現れる。
 二値化部141は、上述のように2つの領域推定画像412a,412bに対して、対応する画素ごとに論理演算を行うことにより、偽物の誤検出を除去した領域推定画像412c(二値化画像)を生成する。
<実施例3の効果>
(1)実施例3は、「人間が持たない偽物の入力画像」から前記偽物を領域推定する偽物用の学習モデル132bを備える。
 この偽物用の学習モデル132bにより、偽物の領域推定画像402bが生成される。この偽物の領域推定画像402bは、白杖の領域推定画像402aに誤って含まれる偽物のノイズと強い相関を示す。
 そこで、白杖の領域推定画像402aに含まれる偽物のノイズを、偽物の領域推定画像402bとの相関部分を除くなどの演算処理を用いて低減できる。したがって、白杖のような小さな検出対象をより正確に領域推定することが可能になる。
(2)実施例3は、「人間が持つ白杖(検出対象)の画像」および「人間が持たない偽物の画像」を含む学習画像それぞれに、「学習画像において人間が持たない偽物を第1の画素値、それ以外を第2の画素値とした教師画像」を対応させたセット群を統合学習データとする。
 この統合学習データを使用して学習モデル132bを学習処理することにより、学習モデル132bは、「人間が持つもの」という白杖(検出対象)の特徴に活性化しないようになる一方で、「人間が持たない偽物」には活性化しやすくなる。
 そのため、「人間が持つもの」である白杖(検出対象)を偽物とはせずに、「人間が持たない偽物」をより正確に領域推定することが可能になる。
 したがって、白杖の領域推定画像402aに含まれる白杖(検出対象)の領域を、偽物の領域推定画像402bとの演算処理で、誤って除いてしまうなどの不具合が少なくなる。
 その結果、白杖のような小さな検出対象をより正確に領域推定することが可能になる。
<実施形態の補足事項>
 上述した実施形態では、白杖を検出対象とするケースについて説明した。しかしながら、検出可能な対象は白杖に限定されない。例えば、電柱・電線・標識・人・動物・建造物・乗り物・道具・部品・レントゲンその他の多様な物体を検出対象にできる。
 特に、実施形態では、人間が持つ白杖のような物品などを正確に検出できる。このような「人間が持つ検出対象」としては、野球のバット、剣道やフェンシングの剣などのスポーツ用具や、オーケストラの指揮棒タクトや、折り畳んだ傘などがある。
 また例えば、実施形態では、画像の空間的特徴を維持したまま領域推定を行うため、比較的に小さな検出対象の検出に適している。このように画像内において小さくなりがちな検出対象としては、靴・帽子・食べ物・携帯電話・スマートフォン・部品・傷などがある。
 また、実施形態では、1種類の検出対象を検出するケースについて説明した。しかしながら、本発明はこれに限定されない。複数種類の検出対象を同時に検知することも可能である。
 なお、実施形態では、学習データにおいて検出対象である白杖を第1の画素値、その他の領域を第2の画素値としたが、その他の領域を複数の画素値に分けたものとしてもよい。例えば、人の領域を第2の画素値とし、背景を第3の画素値とするなど検出対象の数や種類によって種々変更することが好ましい。また、教師画像の画素値は輝度のみに限定されない。
 さらに、実施形態では、図2~4において中間層を具体的に図示しているが、本発明はこれに限定されない。中間層の深さ(層数)や、畳込み層のフィルタのサイズや種類に特段の制限はない。また、出力層に関しては、検出対象の種類と同数の領域推定画像(または同数の多値に分別可能な領域推定画像)を、検出対象に見合う解像度で出力するものとする。
 また、実施形態では、形状判定を画像解析により行っているが、本発明はこれに限定されない。検出対象の推定領域の種々の形状を収集し、それら形状を学習データとして機械学習させた学習モデルを用いて、形状判定を行ってもよい。
 さらに、実施形態では、複数の領域推定画像に対して差分画像の二値化処理などを行っているが、本発明はこれに限定されない。複数の領域推定画像の少なくとも一方に含まれる偽物の領域をノイズとして除去する演算処理であればよい。
 また、実施形態では、画像処理部140の二値化部141および膨張処理部142が領域推定画像402に画像処理を施した後に形状判定部143の形状判定に基づいて検出対象の有無を制御部144が判定した。しかし、本発明はこれに限定されず、二値化部141および膨張処理部142の処理は無くても良いし、いずれか一方の処理のみでもよい。
 なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。
 また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。
 さらに、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
100…画像処理システム、110…撮像装置、120…映像取得部、121…映像入力部、122…解析領域指定部、130…推定部、131…領域推定部、132…学習モデル、132a…白杖用の学習モデル、132b…偽物用の学習モデル、140…画像処理部、141…二値化部、142…膨張処理部、143…形状判定部、144…制御部、145…表示制御部、146…記録制御部、147…通信部、148…調整部、151…表示モニタ、152…記録装置、153…発報装置、154…学習部

Claims (12)

  1.  映像として取得された入力画像を取り込む映像取得部と、
     予め定められた検出対象の領域について学習されたFCN(Fully Convolutional Network)の学習モデルを有し、前記入力画像を前記学習モデルで処理することにより、前記検出対象の領域推定画像を生成する推定部と、
     前記領域推定画像に基づいて前記検出対象の領域を検出する画像処理部と、
     を備えた画像処理システム。
  2.  請求項1に記載の画像処理システムにおいて、
     前記画像処理部は、
      前記領域推定画像に対して、二値化・膨張化・形状判定の少なくとも1つの画像処理により、前記検出対象の領域を検出する
     ことを特徴とする画像処理システム。
  3.  請求項1~2のいずれか1項に記載の画像処理システムにおいて、
     前記推定部は、
     「学習画像」および「前記学習画像における前記検出対象を第1画素値、それ以外を第2画素値とした教師画像」のセット群を学習データとして学習された前記学習モデルを有する
     ことを特徴とする画像処理システム。
  4.  請求項1~3のいずれか1項に記載の画像処理システムにおいて、
     前記推定部は、
      前記入力画像における人間が持つ前記検出対象を領域推定しつつ、人間が持たない偽物による推定誤りを抑制する
     ことを特徴とする画像処理システム。
  5.  請求項4記載の画像処理システムにおいて、
     前記推定部は、
     「人間が持つ前記検出対象が写った画像」および「人間が持たない前記偽物が写った画像」を含む学習画像それぞれに、「前記学習画像において人間が持つ前記検出対象を第1の画素値、それ以外を第2の画素値とした教師画像」を対応させたセット群を学習データとして学習された前記学習モデルを有する
     ことを特徴とする画像処理システム。
  6.  請求項4記載の画像処理システムにおいて、
     前記推定部は、
      前記学習モデルとして、
      「人間が持つ前記検出対象が写った入力画像」から前記検出対象を領域推定する検出対象用の学習モデルと、
      「人間が持たない前記偽物が写った入力画像」から前記偽物を領域推定する偽物用の学習モデルとを有し、
      前記入力画像を、前記検出対象用の学習モデルで処理することにより、前記検出対象の領域推定画像を生成し、
      前記入力画像を、前記偽物用の学習モデルで処理することにより、前記偽物の領域推定画像を生成し、
     前記検出対象の領域推定画像と、前記偽物の領域推定画像とについて演算処理を行って、前記偽物の推定誤りを抑制した前記検出対象の領域推定を行う
     ことを特徴とする画像処理システム。
  7.  映像として取得された入力画像を取り込む映像取得部と、
     予め定められた検出対象の領域について学習されたFCN(Fully Convolutional Network)の学習モデルを有し、前記入力画像を前記学習モデルで処理することにより、前記検出対象の領域推定画像を生成する推定部と、
     前記領域推定画像に基づいて前記検出対象の領域を検出する画像処理部とを備え、
     前記画像処理部は、
      前記領域推定画像に基づく表示画像を生成し、前記表示画像を表示制御する表示制御部を有する
     を備えた画像処理システム。
  8.  請求項7に記載の画像処理システムにおいて、
     前記画像処理部は、
      「撮影により前記入力画像を出力するカメラ」、「前記映像取得部の映像処理」および「前記領域推定画像から前記検出対象の領域を検出する画像処理」の少なくとも一つの調整パラメータを変更設定する調整部を備え、
     前記表示制御部は、
      前記調整部による調整を前記表示画像に反映させ、前記表示画像を確認しながらの前記調整部の調整作業を可能にする
     ことを特徴とする画像処理システム。
  9.  請求項8に記載の画像処理システムにおいて、
     前記表示制御部は、
      前記映像を表示する画面の対応位置に、前記表示画像を部分的な子画面として表示する
     ことを特徴とする画像処理システム。
  10.  請求項1~9のいずれか1項に記載の画像処理システムにおいて、
     前記推定部は、
      白杖を前記検出対象として、前記入力画像における前記白杖を領域推定する前記学習モデルを有する
     ことを特徴とする画像処理システム。
  11.  映像として取得された入力画像を取り込む映像取得ステップと、
     予め定められた検出対象の領域について学習されたFCN(Fully Convolutional Network)の学習モデルを使用し、前記入力画像を前記学習モデルで処理することにより、前記検出対象の領域推定画像を生成する推定ステップと、
     前記領域推定画像に基づいて前記検出対象の領域を検出する画像処理ステップと、
     を備えた画像処理方法。
  12.  請求項1ないし請求項10のいずれか1項に記載の前記映像取得部、前記推定部、および前記画像処理部として、情報処理装置を機能させる
     ことを特徴とする画像処理プログラム。
PCT/JP2018/046756 2018-12-19 2018-12-19 画像処理システム、画像処理方法および画像処理プログラム WO2020129176A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2020560695A JP6934118B2 (ja) 2018-12-19 2018-12-19 画像処理システム、画像処理方法および画像処理プログラム
EP18943358.4A EP3901900B1 (en) 2018-12-19 2018-12-19 Image processing system, image processing method, and image processing program
PCT/JP2018/046756 WO2020129176A1 (ja) 2018-12-19 2018-12-19 画像処理システム、画像処理方法および画像処理プログラム
US17/297,761 US11275947B2 (en) 2018-12-19 2018-12-19 Image processing system, image processing method, and image processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/046756 WO2020129176A1 (ja) 2018-12-19 2018-12-19 画像処理システム、画像処理方法および画像処理プログラム

Publications (1)

Publication Number Publication Date
WO2020129176A1 true WO2020129176A1 (ja) 2020-06-25

Family

ID=71101149

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/046756 WO2020129176A1 (ja) 2018-12-19 2018-12-19 画像処理システム、画像処理方法および画像処理プログラム

Country Status (4)

Country Link
US (1) US11275947B2 (ja)
EP (1) EP3901900B1 (ja)
JP (1) JP6934118B2 (ja)
WO (1) WO2020129176A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022074249A (ja) * 2020-11-04 2022-05-18 株式会社エクシオテック 白杖利用入構者駅員報知システム
JP2023071029A (ja) * 2021-11-10 2023-05-22 株式会社アクセル 情報処理装置、情報処理方法、及びプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003168110A (ja) 2001-12-03 2003-06-13 Nec Corp 視覚障害者支援方法、視覚障害者認識システムおよび方法、プログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06233761A (ja) * 1993-02-09 1994-08-23 Hitachi Medical Corp 医用画像診断装置
US20170017841A1 (en) * 2015-07-17 2017-01-19 Nokia Technologies Oy Method and apparatus for facilitating improved biometric recognition using iris segmentation
US9990728B2 (en) * 2016-09-09 2018-06-05 Adobe Systems Incorporated Planar region guided 3D geometry estimation from a single image
AU2017338785B2 (en) * 2016-10-03 2022-09-08 Poynt, LLC System and method for disabled user assistance
JP7198577B2 (ja) * 2017-11-17 2023-01-04 シスメックス株式会社 画像解析方法、装置、プログラムおよび学習済み深層学習アルゴリズムの製造方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003168110A (ja) 2001-12-03 2003-06-13 Nec Corp 視覚障害者支援方法、視覚障害者認識システムおよび方法、プログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DAI, JIFENG ET AL.: "R-FCN: Object Detection via Region-based Fully Convolutional Networks", ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 29, [ ONLINE, 2016, pages 379 - 387, XP055720336, Retrieved from the Internet <URL:http://papers.nips.cc/paper/6465-r-fcn-object-detection-via-region-based-fully-convolutional-networks.pdf> [retrieved on 20190319] *
LONG, JONATHAN ET AL.: "Fully Convolutional Networks for Semantic Segmentation", THE IEEE CONFERENCE ON CONPUTER VISION AND PATTERN RECOGNITION,, June 2015 (2015-06-01), pages 3431 - 3440, XP055573743, Retrieved from the Internet <URL:https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Long_Fully_Convolutional_Networks_2015_CVPR_paper.pdf> [retrieved on 20190319], DOI: 10.1109/CVPR.2015.7298965 *
See also references of EP3901900A4

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022074249A (ja) * 2020-11-04 2022-05-18 株式会社エクシオテック 白杖利用入構者駅員報知システム
JP7430620B2 (ja) 2020-11-04 2024-02-13 株式会社エクシオテック 白杖利用入構者駅員報知システム
JP2023071029A (ja) * 2021-11-10 2023-05-22 株式会社アクセル 情報処理装置、情報処理方法、及びプログラム
JP7321577B2 (ja) 2021-11-10 2023-08-07 株式会社アクセル 情報処理装置、情報処理方法、及びプログラム

Also Published As

Publication number Publication date
EP3901900A4 (en) 2022-08-24
US20220044020A1 (en) 2022-02-10
EP3901900A1 (en) 2021-10-27
US11275947B2 (en) 2022-03-15
EP3901900B1 (en) 2024-05-01
JP6934118B2 (ja) 2021-09-15
JPWO2020129176A1 (ja) 2021-09-02

Similar Documents

Publication Publication Date Title
CN111898581B (zh) 动物检测方法、装置、电子设备及可读存储介质
US20060195199A1 (en) Monitoring device
US20130162867A1 (en) Method and system for robust scene modelling in an image sequence
US8922674B2 (en) Method and system for facilitating color balance synchronization between a plurality of video cameras and for obtaining object tracking between two or more video cameras
JP6654789B2 (ja) 変化点で複数候補を考慮して物体を追跡する装置、プログラム及び方法
KR20120048021A (ko) 이미지 분석을 위한 방법 및 시스템
JP5832910B2 (ja) 画像監視装置
US20220122360A1 (en) Identification of suspicious individuals during night in public areas using a video brightening network system
CN109377713A (zh) 一种火灾预警方法及系统
CN110781853A (zh) 人群异常检测方法以及相关装置
CN111582074A (zh) 一种基于场景深度信息感知的监控视频树叶遮挡检测方法
WO2020129176A1 (ja) 画像処理システム、画像処理方法および画像処理プログラム
CN111242023A (zh) 一种适用于复杂光线客流统计方法及统计装置
EP4116929A1 (en) Information processing method, information processing system, and information processing device
CN116057570A (zh) 机器学习装置以及图像处理装置
CN111582076A (zh) 一种基于像素运动智能感知的画面冻结检测方法
JP6963038B2 (ja) 画像処理装置および画像処理方法
JP6784254B2 (ja) 滞留物体検出システム、滞留物体検出方法およびプログラム
KR100994418B1 (ko) 건물의 침입 감지를 위한 촬영 이미지 처리 시스템 및 방법
Liu et al. Perceptually relevant ringing region detection method
CN109948456B (zh) 应用于数字法庭的人脸识别方法及装置
JP7479535B1 (ja) 人物検知システムおよび人物検知方法
KR20150060032A (ko) 움직임 검출 시스템 및 방법
KR20150055481A (ko) 영상 내 그림자 화소 제거를 위한 배경 기반 방법
JP3490196B2 (ja) 画像処理装置及びその方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18943358

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020560695

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018943358

Country of ref document: EP

Effective date: 20210719