WO2018061616A1 - 監視システム - Google Patents

監視システム Download PDF

Info

Publication number
WO2018061616A1
WO2018061616A1 PCT/JP2017/031596 JP2017031596W WO2018061616A1 WO 2018061616 A1 WO2018061616 A1 WO 2018061616A1 JP 2017031596 W JP2017031596 W JP 2017031596W WO 2018061616 A1 WO2018061616 A1 WO 2018061616A1
Authority
WO
WIPO (PCT)
Prior art keywords
walking
person
image processing
arm
camera
Prior art date
Application number
PCT/JP2017/031596
Other languages
English (en)
French (fr)
Inventor
禎輝 縣
Original Assignee
株式会社日立国際電気
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立国際電気 filed Critical 株式会社日立国際電気
Priority to JP2018542032A priority Critical patent/JP6655727B2/ja
Publication of WO2018061616A1 publication Critical patent/WO2018061616A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B21/00Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
    • G08B21/02Alarms for ensuring the safety of persons
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B25/00Alarm systems in which the location of the alarm condition is signalled to a central station, e.g. fire or police telegraphic systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Definitions

  • the present invention relates to a monitoring system using a monitoring camera, and more particularly to a monitoring system that estimates a posture and detects and "warns while walking".
  • FIG. 10 is a diagram showing a state of walking. As illustrated in FIG. 10, “walking while walking” is an operation of walking in a careless manner while looking at a mobile phone, an electronic terminal (including a smartphone), and a book. FIG. 10 shows a state where the user is walking while watching the smartphone. Walking while looking at a smartphone is called a “walking smartphone”.
  • a monitoring system In order to warn such a “walking smartphone”, a monitoring system has been proposed in which a smartphone and a detection server (pedestrian alarm server) work together to detect and warn of “walking smartphone” from the movement and operation of the smartphone. ing.
  • Patent Document 1 Japanese Patent Laid-Open No. 2015-133003 “Pedestrian Alarm Server and Mobile Terminal Device” (Shimizu Corporation) [Patent Document 1]
  • International Publication No. WO2015 / 093303A1 “Recognition Data Transmission” Apparatus “(Sharp Corporation) [Patent Document 2].
  • Patent Document 1 shows that the smartphone and the pedestrian alarm server work together to detect the walking smartphone from the information of the acceleration sensor of the smartphone and the information that it is in operation, and issue a warning on the smartphone screen of the operator. ing.
  • Patent Literature 2 a feature amount of a part or all of a person's body is detected from a captured image, a person being imaged is identified from the feature amount, user information representing a person's physical feature is detected, and a user is detected.
  • an apparatus that detects motion information such as a user's movement from information and captured video, recognizes a person's action from the motion information and user information, divides the data for each action, and transmits the data as block data.
  • Non-Patent Document 1 describes a guide dog robot that recognizes a walking smartphone, and in particular, shows a plurality of techniques for recognizing a walking smartphone.
  • Patent Document 1 there exists a problem similar to the above-mentioned monitoring system. Further, Patent Document 2 shows a technique for simply extracting a feature point of a person from a captured image. Non-Patent Document 1 also describes a technique for recognizing a walking smartphone.
  • the present invention has been made in view of the above circumstances, and an object thereof is to provide a monitoring system that detects the movement of a person photographed by a camera, determines "while walking", and effectively gives an alarm. .
  • the present invention for solving the problems of the conventional example described above is a monitoring system that includes a plurality of cameras and speakers in a monitoring area and detects and alarms while walking while looking at a smartphone screen in the area.
  • the image processing apparatus includes an image processing apparatus that connects to a camera, inputs image data captured by the camera, and performs image processing to detect “walking while”, and the image processing apparatus is a visible light camera.
  • a process that determines whether the person's arm is fixed forward and the posture of the person is intermittently repeated forward and downward. And determining processing "while walking", a and executes the process of outputting an alarm to the speaker if it is determined that "while walking”.
  • the present invention is a monitoring system that includes a plurality of cameras and speakers in a monitoring area, and detects and alarms while walking while looking at a smartphone screen in the area.
  • an image processing device that inputs imaged video data and performs image processing for detecting “walking while” is included, and the image processing device is an infrared camera, a person is extracted from the video data of a plurality of cameras.
  • a process for detecting and detecting the movement speed and direction of the person a process for detecting an edge of the arm in the person and determining whether the arm is fixed forward from the movement of the arm, If the part is detected and the center point of the part of the human body is extracted, and the center point is connected and the angle between the body and neck connection and the neck and head connection is tilted forward, look down
  • the process of determining ⁇ walk while '' and the process of ⁇ walking while '' when the arm of the person is fixed in front for a certain period and the forward and downward postures are intermittently repeated And a process of outputting an alarm to the speaker.
  • the image processing apparatus sets a dangerous area or a dangerous substance in advance for the video data in the monitoring area, and a person who has determined that “walking while walking” is a dangerous area or a dangerous substance.
  • a process for warning that there is a dangerous area or dangerous material on the speaker is executed.
  • the image processing apparatus detects a person from video data of a plurality of cameras and detects a moving speed and a moving direction of the person.
  • the process of determining whether the arm is fixed in front by detecting the movement of the person, the process of determining that the arm is facing down depending on the orientation of the face, and the person's arm is fixed in the front for a certain period of time Since it is a monitoring system that executes a process of determining “walking while” and a process of outputting an alarm to the speaker when it is determined “walking while” when the forward and downward postures are repeated, It has the effect of accurately detecting and warning “walking”.
  • an image processing device is an infrared camera
  • a process of detecting a person from video data of a plurality of cameras and detecting a moving speed and a moving direction of the person, and an arm edge of the person are detected.
  • the angle between the body-neck connection and the neck-head connection is tilted forward, it is determined that the person is facing down, and the person's arm is fixed in front for a certain period of time. Since the monitoring system executes the process of determining “walk while” and the process of outputting an alarm to the speaker when determined to “walk while” when the downward posture is repeated, “walk while” is accurately determined. Detect and alarm There is a kill effect.
  • a dangerous area or a dangerous material is set in advance for video data in a monitoring area by an image processing apparatus, and a person who is determined to “walk while” is heading toward the dangerous area or the dangerous substance.
  • the above-described monitoring system executes a process for warning that there is a dangerous area or dangerous substance on the speaker, there is an effect that it is possible to prevent a person “walking while walking” from approaching the dangerous area or dangerous substance.
  • FIG. 1 is a schematic configuration diagram of a monitoring system according to an embodiment of the present invention. It is explanatory drawing of the fixation determination of an arm using the movement information of an arm. It is explanatory drawing of the determination of the operation
  • the monitoring system uses a plurality of visible light cameras in the daytime, and a person's moving speed and direction, head tilt, and arm detected in front of a plurality of captured video data.
  • the information on whether or not it is fixed is determined to “walk while”, and at night, multiple infrared cameras are used, and the degree of head tilt is determined by human body part identification and posture estimation from multiple captured video data
  • the movement speed and movement direction of the detected person, information on whether or not the arm is forward and fixed are integrated to determine “walk while”, and the traveling direction of the person “walk while” In this case, a warning is given when heading toward a pre-registered dangerous area or dangerous article, so that a warning can be effectively given to "walking while”.
  • FIG. 1 is a schematic configuration diagram of a monitoring system according to an embodiment of the present invention.
  • the monitoring system according to the embodiment of the present invention basically includes an image processing device 1, a monitoring center device 2, a plurality of cameras 3, and a network 4. Has been.
  • a plurality of cameras 3 installed in a shooting site are connected to a network 4 and further connected to the image processing apparatus 1. Further, the image processing apparatus 1 is connected to the monitoring center apparatus 2. Moreover, although not shown in figure, the monitoring center apparatus 2 is connected to the speaker (audio
  • the image processing apparatus 1 and the monitoring center apparatus 2 may be configured as an integrated apparatus.
  • the image processing apparatus 1 includes an image input unit 11 that receives and inputs video data (image data) transmitted from the network 4, an image processing unit 12 that performs image processing of the input image data, and, if necessary. It basically has a storage unit 13 for storing image data and the like, and an image output unit 14 for outputting the image processed image data to the monitoring center apparatus 2.
  • the image processing unit 12 receives an instruction from the control unit 22 of the monitoring center apparatus 2 for pre-registration of dangerous areas and dangerous materials.
  • the image processing apparatus 1 detects information about the moving speed and moving direction of the person, the tilt of the head, and whether the arm is fixed in front from the video data photographed by the camera 3, and integrates them to “while It is determined whether or not it is “walking”, and an alarm is issued if there is a dangerous area or dangerous substance registered in advance in the traveling direction of the person. Details of the processing operation in the image processing apparatus 1 will be described later.
  • the monitoring center device 2 includes an image input unit 21 that inputs image data from the image output unit 14 of the image processing device 1, a control unit 22 that controls the inside of the device, a storage unit 23 that stores necessary information, A display unit (monitor) 24 for displaying images and the like, an input unit 25 for inputting necessary instructions to the control unit 22, a voice input unit 26 such as a microphone for performing voice input, and outputting voice data to an external voice It basically has an audio output unit 27 for outputting to a device (speaker).
  • the monitoring center apparatus 2 displays a necessary image on the display unit 24 based on the image data and alarm information from the image processing apparatus 1 and displays the alarm information. A sound may be generated for the alarm. In addition, a voice warning is output from the voice output unit 27 to the person “walking while walking” through a speaker. The details of the processing operation in the monitoring center device 2 will be described later.
  • a plurality of cameras 3 are installed in the monitoring area, and photographed video data is transmitted to the image processing apparatus 1 via the network 4.
  • Each camera 3 is given a unique ID (identifier), and the video data to be sent is given the ID and transmitted to the image processing apparatus 1.
  • the image processing apparatus 1 determines which camera 3 captures the video data based on the ID.
  • the camera 3 includes a visible light camera for daytime use and an infrared camera for nighttime use.
  • the network 4 is a network having a capacity capable of simultaneously transmitting video data from a plurality of cameras 3. Usually, it is a private line in-house network, but the Internet may be used.
  • FIG. 2 is an explanatory diagram of arm fixation determination using arm movement information.
  • a person who is “walking while walking” has one hand or both hands fixed in the direction of travel (forward) by a smartphone, and therefore does not move his arm while walking. Therefore, in the image processing apparatus 1 of this monitoring system, as shown in FIG. 2, after detecting a person (solid square frame) on the front or back from the video data, the left and right body movement (arm movement) information ( Detect two dotted square frames).
  • FIG. 3 is an explanatory diagram of determination of an operation for repeating forward confirmation and smartphone gaze.
  • “walking while walking” can be determined by capturing head movements in time series on the human side. Specifically, face parts such as eyes, nose, and mouth are detected, and it is determined that the face is facing down based on the orientation of the face. In other words, if you can keep the degree of head inclination of the person to be detected for a certain period of time, turn down for a long time, and identify that you are looking forward in an irregularly short time, look at the smartphone and check forward Can be determined as “walking while”.
  • the detection accuracy may be reduced at night or in a dark place. For example, if a worker can be monitored at a construction site at night and a warning can be given while walking while checking a blueprint or electronic terminal, there is a possibility that a serious accident at the construction site can be prevented. Therefore, an infrared camera that can detect a person even in a dark place is used. However, unlike a visible light camera, an infrared camera has no color information and it is difficult to determine a detailed edge of a person, and thus image processing in the case of a visible light camera cannot be applied as it is.
  • FIG. 4 is a diagram illustrating differences in image diagrams depending on the type of camera.
  • the arm edge can be detected regardless of the clothes of the person to be detected. Therefore, the arm position and arm movement are measured from the detected edge, and the arm position and arm movement magnitude are measured. It is possible to determine whether the arm is fixed forward. In addition, since the target person can be easily detected, the walking speed can be easily detected.
  • FIG. 5 is a diagram illustrating a flow of posture estimation based on human body part identification. After detecting a person from the side of the video data, as shown in FIG. 5, the human body part is detected by the feature amount, the center point of each part is extracted, and the center point is connected to create the human body skeleton. . The posture of the target person is estimated from this skeleton.
  • the angle formed by the connection between the body and the neck and the connection between the neck and the head is calculated, and if the angle of the connection between the neck and the head is inclined forward with respect to the connection between the body and the neck, If the angle of the head-head connection is not inclined with respect to the body-neck connection, it is determined to be facing forward.
  • the image processing apparatus 1 detects the movement speed and movement direction of a person from video data, detects the left and right movements of the body, and the arm is fixed in front. It is determined whether the head is pointing downward from the degree of head tilt, especially when the arm is fixed forward in a certain period and the forward and downward postures are repeated intermittently. It is determined that “Walk while walking”.
  • the image processing apparatus 1 uses a plurality of infrared cameras 3 to detect the moving speed and moving direction of the person from the video data, detect the edge of the arm, and move the arm forward by the magnitude of the change (arm movement). If the angle between the body-neck connection and the neck-head connection is tilted forward, look down. In particular, it is determined as “walking while walking” when the arm is fixed forward in a certain period and the forward and downward postures are repeated intermittently.
  • the visible light camera and the infrared camera have different processes for determining the downward posture.
  • FIG. 6 is a diagram showing an example of pre-registration and warning of dangerous areas and dangerous goods.
  • a dangerous area and a dangerous substance are set in advance by the image processing apparatus 1 for the video data in the monitoring area.
  • the video data is displayed on the display unit 24 of the monitoring center apparatus 2, the dangerous area and the dangerous substance are specified by the input unit 25, and set and stored in the storage unit 13 of the image processing apparatus 1.
  • the image processing apparatus 1 When the image processing apparatus 1 analyzes the video data captured by the camera 3 and detects a person who “walks while”, the image processing apparatus 1 performs image processing when the person is in the direction of the dangerous area or the direction of the dangerous object.
  • the control unit 12 of the apparatus 1 issues a warning to the on-site speaker with automatic voice. For example, as shown in FIG. 6 (b), when approaching a dangerous area with automatic voice, it warns “It is a no entry area”, and when approaching a dangerous object, it warns “There is a danger of collision”. To do.
  • the image input unit 11 of the image processing apparatus 1 receives the video data and outputs it to the image processing unit 12.
  • the image processing unit 12 stores the input video data in the storage unit 13, performs the above-described image processing on the video data captured by the visible light camera or the infrared camera, and determines “walking while”.
  • the image processing unit 12 outputs the video data determined as “walking while” from the image output unit 14 to the monitoring center device 2.
  • the image processing unit 12 of the image processing apparatus 1 may output all the input video data to the monitoring center apparatus 2 via the image output unit 14, but in this case, the video “walking while” Output with information that can identify data.
  • the image input unit 21 receives video data “walking while” from the image output unit 14 of the image processing device 1
  • the image data is output to the control unit 22, and the control unit 22 displays the video data. Displayed on the unit (monitor) 24.
  • the control unit 22 issues an alarm to the person who is “walking while” to stop the action with an automatic voice based on the video data of “walking while”. If “walking while” still does not stop, the real voice from the voice input unit (microphone) 26 is output from the voice output unit 27 to an external speaker. In this monitoring system, the image processing apparatus 1 may directly issue an alarm to the speaker.
  • the instruction is an image of the image processing apparatus 1.
  • the data is output to the processing unit 12 and registered in the storage unit 13.
  • the image processing unit 12 can output an automatic sound to the sound output unit 27 and generate an alarm when it is determined that a person “walking while approaching” a dangerous area or a dangerous object.
  • the image processing apparatus 1 or the monitoring center apparatus 2 stores a directional speaker corresponding to the camera 3 in association with it, and outputs an alarm to the speaker corresponding to the camera 3 that detects “walking while”.
  • FIG. 7 is a flowchart of walking detection. As shown in FIG. 7, the image processing unit 12 always detects “walking while”, and when “walking while” is detected, the image processing unit 12 displays on the display unit (monitor) 24 of the monitoring center device 2. An alarm is issued.
  • the image processing unit 12 of the image processing apparatus 1 executes the image processing mode by the operation of the computer program (S1), and as a result, determines whether or not “walk while” (S2). When it is determined that it is not “walking while” (in the case of No), the process returns to the process S1.
  • an alarm issuance process using automatic voice is performed (S3). Further, it is determined whether or not “walk while” (S4). If it is determined that “walk while” (No), the alarm is stopped (S5), and the process returns to step S1. If it is determined that “walk while walking” (in the case of Yes), a warning process (S6) is performed, and the process returns to process S1.
  • FIG. 8 is a flowchart of walking detection in the case of a visible light camera.
  • the image processing unit 12 extracts a feature amount of a local region from a camera video, and performs human detection by making a determination with a learned classifier (the classifier will be described later). (S11). If no person is detected, the process S11 is repeated.
  • the discriminator can output information on the shooting direction (posture) in addition to the probability of being a person.
  • the subsequent processing is performed not on the entire image but on a local region including the person.
  • the movement speed and the movement direction are calculated by tracking the detected person in time series (S12).
  • the edge information on the front surface of the detected person is detected (S13), and the motion information is calculated from the left and right arm regions of the body (S14).
  • the tip of the arm detected from 1 corresponds to a position close to the chest or face, it is determined that the arm is fixed and held in front.
  • face detection is performed with a feature amount and a discriminator within the detected person area, and the degree of head tilt is calculated from the orientation of the face parts (S15). At this time, by observing the degree of head tilt in time series, it is determined whether or not each person is facing down or irregularly facing down.
  • the calculated movement speed and direction, the degree of head tilt, and information on whether or not the arm is fixed on the front surface are integrated, and it is determined whether or not “walking while walking” and output (S16).
  • the image processing unit 12 issues an alarm.
  • “walking while walking” is determined for a plurality of people, a warning may be given for each person, or a warning may be given collectively.
  • FIG. 9 is a flowchart for detecting walking while using an infrared camera. As shown in FIG. 9, the process from the step S21 to the middle of the process S23 is the same as when the visible light camera is used.
  • the movement of the arm part is calculated from the edge detection image (S24). If the arm is in front and the movement is small, it is determined that the arm is fixed on the front and something is held. Furthermore, human body parts are identified and posture estimation is performed. Specifically, based on both end points such as straight lines representing human body parts, or center point coordinates and angles, they are connected so as to form a human body, thereby creating a human body framework. In the example of FIG. 5, the angle formed by the axis of the body (moving body) (line segment connecting the neck and the center point of the body) and the axis of the head (line segment connecting the neck and the center point of the head) is calculated. If this angle is tilted forward, the neck part is hidden by the head and is not detected, or if the neck part is hidden and small, it is determined that the head is facing downward.
  • the movement of the head is observed in time series as in the case of the visible light camera.
  • the calculated movement speed and direction, the degree of head tilt, and information on whether or not the front arm is fixed are integrated, and it is determined whether or not “walking while walking” and output (S26).
  • the image processing unit 12 issues an alarm.
  • “walking while walking” is determined for a plurality of people, a warning may be given for each person, or a warning may be given collectively.
  • a learning sample an image of a person cut out from a natural image and a background other than the person are randomly cut out and prepared.
  • the discriminator is created by learning the human image, positive sample, and background image of the prepared learning sample as negative samples.
  • the field angle is scanned in a local region, the feature amount is calculated and input to the discriminator. At this time, a process for determining whether or not to walk is performed on the area determined as a person.
  • the moving speed and moving direction of the target person are calculated by tracking a region detected by human detection using a tracking technique.
  • methods such as template matching and active search can be used.
  • a person is tracked by tracking, and the moving speed can be calculated according to how many pixels the center point of the tracking area has moved per frame.
  • a vector is obtained from the coordinates of the center point one frame before and the coordinates of the center point after movement, and set as the movement direction. This process is sequentially performed in units of about 10 frames, and the moving speed and moving direction are calculated.
  • Edge detection is performed in the human detection area.
  • Edge detection can be realized by applying the canny method or Sobel filter.
  • the canny method smoothes the image with a Gaussian filter, calculates the derivative of the smoothed image, calculates the magnitude and direction of the gradient from the differentiated result, performs the Non maximum Suppression process, performs the Hysteresis Threshold process, Perform edge detection.
  • the sobel filter is a filter that calculates a spatial first derivative and detects a contour.
  • straight line detection is performed using Hough transform or the like.
  • Hough transform In the case of a visible light image, if two straight lines (line segments) exist horizontally near the center of the human detection area, it is determined that the arm is in the front. Human body parts other than arms, such as a torso, are detected similarly.
  • both ends of the straight line detected by the Hough transform are not necessarily accurate, the vicinity of the center of the section where two straight lines exist in parallel can be extracted as the (provisional) central point of the human body part.
  • a plurality of straight lines and the like may be detected redundantly from one human body part, they are aggregated as necessary.
  • the human detection area includes one human figure
  • the head can be searched as having a predetermined size proportional to the local region at an upper position in the local region.
  • the neck position can be defined as the intersection of the long axis of the head and the axis of the body in the method of detecting the head as an ellipse.
  • the neck position on the body axis is estimated by dividing the total length of the head and body (moving body) at an appropriate ratio with the top point of the human shadow edge as the top of the head.
  • the angle of the neck can be calculated by various methods.
  • a half line extending from the neck position to the head edge farthest from the neck position can be calculated as an angle formed with the body axis.
  • a skeleton process may be used in which a silhouette (binary image) of a person extracted by background difference or the like is repeatedly subjected to erosion, which is a type of morphological operation, and thinned. .
  • the amount of arm movement is obtained by defining left and right areas as arm areas in the human detection area and calculating movement information in the left and right arm areas, respectively.
  • For the motion information an optical flow obtained from a vector between frames of calculated feature points can be used.
  • the optical flow represents a motion of an object in a digital image as a “vector”, and is often used mainly for detection of a moving object and analysis of its operation.
  • the motion information is small, it can be determined that the arm is not shaken and is held fixed.
  • the calculation of the motion amount is not limited to the optical flow method, and any known technique for detecting motion can be used.
  • Haar-like is a technique used for face recognition, etc., and it is possible to find an arbitrary object by preparing and learning a lot of sample images uniquely.
  • the position of the eye can be obtained at the same time. Therefore, when the positions of both eyes are below a certain line of the face area, it can be determined that the eyes are facing downward.
  • Randam Forest is a machine learning algorithm that is used for classification, regression, and clustering, and is a collective learning algorithm that uses decision trees as weak learners. It uses a large number of decision trees learned from randomly sampled training data. To do.
  • human body parts are identified by a classifier that scans and learns a local area in a human detection area.
  • a center point is calculated for each identified human body part, and each part is connected based on the relationship of the human body.
  • the posture of the human body can be estimated. If the angle of the center point of the body part and the neck part and the center point of the head part is inclined forward, it can be determined that the body part is facing downward. Further, when the number of identified neck parts is small when the human body parts are identified, it is possible to determine that the neck is hidden by facing down.
  • the image processing apparatus 1 detects a person from video data of a plurality of cameras, detects the moving speed and moving direction of the person, Determines whether the arm is fixed in front by detecting left and right movements of the body, determines that the arm is pointing down depending on the orientation of the face, the person's arm is fixed in the front for a certain period of time, intermittent
  • the forward and downward postures are repeated, it is determined that “walk while”, and when it is determined that “walk while”, an alarm is output to the speaker, so “walk while” is accurately detected. There is an effect that can be alarmed.
  • the image processing apparatus 1 detects a person from video data of a plurality of cameras, detects the movement speed and direction of the person, and The edge of the human body is detected to determine whether the arm is fixed in front of the arm, the human body part is detected, the center point of the human body part is extracted, and the center point is connected. If the angle between the body-neck connection and the neck-head connection is tilted forward, it is determined that the person is facing downward, and the person's arm is fixed forward for a certain period of time, intermittently facing forward and downward If the posture is repeated, it will be judged as “walking while”, and if it is judged as “walking while”, an alarm will be output to the speaker. is there.
  • the image processing apparatus 1 sets a dangerous area or dangerous material in advance for the video data in the monitoring area, and the person who has determined that “walking while walking” is the direction of the dangerous area or dangerous material. Since the alarm is given to the speaker that there is a dangerous area or dangerous object when the vehicle is heading toward the vehicle, there is an effect that it is possible to prevent the person “walking while walking” from approaching the dangerous area or dangerous object.
  • the present invention is suitable for a monitoring system that detects the movement of a person photographed with a camera, determines "walking while walking", and effectively gives an alarm.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Emergency Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Emergency Alarm Devices (AREA)
  • Alarm Systems (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Image Analysis (AREA)

Abstract

カメラで撮影した人物の動きを検出して、「ながら歩き」を判定し、警告を効果的に行う監視システムを提供する。画像処理装置1が、可視光カメラを用いて、複数のカメラ3で撮影した映像データから検出した人物の移動速度と移動方向、頭の傾き、腕が前方にあって固定されているか否かの情報を統合して「ながら歩き」を判定して警報し、また、赤外線カメラを用いて、複数のカメラ3で撮影した映像データから人体パーツ識別と姿勢推定により頭の傾き度合いを検出し、検出した人物の移動速度と移動方向、腕が前方にあって固定されているか否かの情報を統合して「ながら歩き」を判定して警報し、更に「ながら歩き」の人物の進行方向が、事前登録した危険領域、危険物に向かっている場合に、警報する監視システムである。

Description

監視システム
 本発明は、監視カメラを用いた監視システムに係り、特に、姿勢を推定して「ながら歩き」を検出して警報する監視システムに関する。
[従来の技術]
 スマートフォン(以下「スマホ」と呼ぶ)の普及と利便性によって、スマホを見ながら、または操作しながら歩く人が多くなっている。このような行為を「ながら歩き」と呼ぶ。
 「ながら歩き」によって、歩行中の接触事故や、駅のホームからの転落事故が増加している。
[ながら歩き:図10]
 「ながら歩き」について図10を参照しながら説明する。図10は、ながら歩きの様子を示す図である。
 図10に示すように、「ながら歩き」は、携帯電話機、電子端末(スマホを含む)、書籍を見ながら前方不注意の状態で歩く動作のことである。図10では、スマホを注視して歩行している様子を示している。スマホを見ながらの歩行を「歩きスマホ」と呼ぶ。
 このような「歩きスマホ」に警告を行うために、スマホと検出サーバ(歩行者アラームサーバ)が連動して、スマホの動きと操作から「歩きスマホ」を検出して警告する監視システムが提案されている。
[関連技術]
 尚、関連する先行技術として、特開2015-133003号公報「歩行者用アラームサーバ及び携帯端末装置」(清水建設株式会社)[特許文献1]、国際公開番号WO2015/093330A1号公報「認識データ伝送装置」(シャープ株式会社)[特許文献2]がある。
 また、皆本光、佐野睦夫「歩行者の不注意行動認識-歩きスマホ検出」画像電子学会、第6回 視覚・聴覚支援システム(VHIS)研究会 ―視覚・聴覚障碍者への支援技術― 2015年3月24日講演資料(非特許文献1)がある。
 特許文献1には、スマホと歩行者用アラームサーバが連動することで、スマホの加速度センサの情報と操作中という情報から歩きスマホを検出し、操作者のスマホ画面に警告を発することが示されている。
 特許文献2には、撮像画像から人物の身体の一部又は全部の特徴量を検出し、その特徴量から撮像中の人物を特定し、人物の身体的特徴を表すユーザ情報を検出し、ユーザ情報と撮像映像からユーザの動き等のモーション情報を検出し、モーション情報とユーザ情報とから人物の行動を認識し、行動毎にデータを分割してブロックデータとして伝送する装置が示されている。
 また、非特許文献1には、歩きスマホの認識する盲導犬ロボットについて記載され、特に、歩きスマホを認識する複数の技術が示されている。
特開2015-133003号公報 国際公開番号WO2015/093330A1号公報
皆本光、佐野睦夫「歩行者の不注意行動認識-歩きスマホ検出」画像電子学会、第6回 視覚・聴覚支援システム(VHIS)研究会 ―視覚・聴覚障碍者への支援技術― 2015年3月24日講演資料
 しかしながら、従来の監視システムでは、歩行者アラームサーバとスマホが連動するためには、スマホに連動するためのアプリがインストールされて動作している必要があるため、現実的ではないという問題点があった。
 特許文献1では、上述の監視システムと同様の問題点がある。
 また、特許文献2では、単に撮影画像から人物の特徴点を抽出する技術を示したものとなっている。
 非特許文献1も、歩きスマホを認識する技術が記載されている。
 本発明は上記実情に鑑みて為されたもので、カメラで撮影した人物の動きを検出して、「ながら歩き」を判定し、警報を効果的に行う監視システムを提供することを目的とする。
 上記従来例の問題点を解決するための本発明は、監視エリアにおいて複数のカメラとスピーカを備え、当該エリア内でスマートフォンの画面を見ながら歩行する「ながら歩き」を検出して警報する監視システムであって、カメラに接続し、カメラで撮影された映像データを入力して「ながら歩き」を検出する画像処理を行う画像処理装置を備え、当該画像処理装置が、カメラが可視光カメラである場合に、複数のカメラの映像データから人物を検出して当該人物の移動速度と移動方向を検出する処理と、人物における体の左右の動きを検出して腕が前方で固定されているか否かを判定する処理と、顔の向きによって下を向いていると判定する処理と、一定期間に人物の腕が前方で固定され、断続的に前向きと下向きの姿勢が繰り返される場合に「ながら歩き」と判定する処理と、「ながら歩き」と判定した場合にスピーカに警報を出力する処理とを実行することを特徴とする。
 本発明は、監視エリアにおいて複数のカメラとスピーカを備え、当該エリア内でスマートフォンの画面を見ながら歩行する「ながら歩き」を検出して警報する監視システムであって、カメラに接続し、カメラで撮影された映像データを入力して「ながら歩き」を検出する画像処理を行う画像処理装置を備え、当該画像処理装置が、カメラが赤外線カメラである場合に、複数のカメラの映像データから人物を検出して当該人物の移動速度と移動方向を検出する処理と、人物における腕のエッジを検出して腕の動きから腕が前方で固定されているか否かを判定する処理と、人物の人体のパーツを検出して当該人体のパーツの中心点を抽出し、当該中心点を結線して体と首の結線と首と頭の結線による角度が前方に傾いている場合に、下を向いていると判定する処理と、一定期間に人物の腕が前方で固定され、断続的に前向きと下向きの姿勢が繰り返される場合に「ながら歩き」と判定する処理と、「ながら歩き」と判定した場合にスピーカに警報を出力する処理とを実行することを特徴とする。
 本発明は、上記監視システムにおいて、画像処理装置が、監視エリアの映像データに対して事前に危険領域又は危険物を設定しておき、「ながら歩き」と判定した人物が危険領域又は危険物の方向に向かっている場合に、スピーカに危険領域又は危険物があることを警報する処理を実行することを特徴とする。
 本発明は、画像処理装置が、カメラが可視光カメラである場合に、複数のカメラの映像データから人物を検出して当該人物の移動速度と移動方向を検出する処理と、人物における体の左右の動きを検出して腕が前方で固定されているか否かを判定する処理と、顔の向きによって下を向いていると判定する処理と、一定期間に人物の腕が前方で固定され、断続的に前向きと下向きの姿勢が繰り返される場合に「ながら歩き」と判定する処理と、「ながら歩き」と判定した場合にスピーカに警報を出力する処理とを実行する監視システムとしているので、「ながら歩き」を的確に検出して警報できる効果がある。
 本発明は、画像処理装置が、カメラが赤外線カメラである場合に、複数のカメラの映像データから人物を検出して当該人物の移動速度と移動方向を検出する処理と、人物における腕のエッジを検出して腕の動きから腕が前方で固定されているか否かを判定する処理と、人物の人体のパーツを検出して当該人体のパーツの中心点を抽出し、当該中心点を結線して体と首の結線と首と頭の結線による角度が前方に傾いている場合に、下を向いていると判定する処理と、一定期間に人物の腕が前方で固定され、断続的に前向きと下向きの姿勢が繰り返される場合に「ながら歩き」と判定する処理と、「ながら歩き」と判定した場合にスピーカに警報を出力する処理とを実行する監視システムとしているので、「ながら歩き」を的確に検出して警報できる効果がある。
 本発明は、画像処理装置が、監視エリアの映像データに対して事前に危険領域又は危険物を設定しておき、「ながら歩き」と判定した人物が危険領域又は危険物の方向に向かっている場合に、スピーカに危険領域又は危険物があることを警報する処理を実行する上記監視システムとしているので、「ながら歩き」の人物が危険領域又は危険物に近づくのを防止できる効果がある。
本発明の実施の形態に係る監視システムの構成概略図である。 腕の動き情報を利用した腕の固定判定の説明図である。 前方確認とスマホ注視を繰り返す動作の判定の説明図である。 カメラの種類によるイメージ図の違いを示す図である。 人体パーツ識別による姿勢推定の流れを示す図である。 危険領域と危険物の事前登録と警告例を示す図である。 ながら歩き検出のフローチャートである。 可視光カメラの場合のながら歩き検出フローチャートである。 赤外線カメラの場合のながら歩き検出フローチャートである。 ながら歩きの様子を示す図である。
 本発明の実施の形態について図面を参照しながら説明する。[実施の形態の概要]
 本発明の実施の形態に係る監視システムは、昼間においては複数の可視光カメラを用いて、撮影した複数の映像データから検出した人物の移動速度と移動方向、頭の傾き、腕が前方にあって固定されているか否かの情報を統合して「ながら歩き」を判定し、夜間においては複数の赤外線カメラを用いて、撮影した複数の映像データから人体パーツ識別と姿勢推定により頭の傾き度合いを検出し、検出した人物の移動速度と移動方向、腕が前方にあって固定されているか否かの情報を統合して「ながら歩き」を判定し、「ながら歩き」の人物の進行方向が、事前登録した危険領域、危険物に向かっている場合に、警報するものであり、これにより「ながら歩き」に対して効果的に警報を行うことができるものである。
[本監視システム:図1]
 本発明の実施の形態に係る監視システムについて図1を参照しながら説明する。図1は、本発明の実施の形態に係る監視システムの構成概略図である。
 本発明の実施の形態に係る監視システム(本監視システム)は、図1に示すように、画像処理装置1と、監視センター装置2と、複数のカメラ3と、ネットワーク4とから基本的に構成されている。
 本監視システムでは、撮影現場(撮影エリア)に設置された複数のカメラ3がネットワーク4に接続され、更に画像処理装置1に接続している。
 また、画像処理装置1は、監視センター装置2に接続している。
 また、監視センター装置2は、図示していないが、撮影現場で音声出力するためのスピーカ(音声出力装置)に接続している。スピーカは、カメラ3の撮影エリアに応じて複数設置されている方が、警報をより的確に個別に行うことができるので効果的である。
 尚、画像処理装置1と、監視センター装置2とを一体の装置で構成してもよい。
[本監視システムの各部:図1]
 本監視システムの各部について具体的に説明する。
 [画像処理装置1]
 画像処理装置1は、ネットワーク4から伝送される映像データ(画像データ)を受信して入力する画像入力部11と、入力された画像データの画像処理を行う画像処理部12と、必要に応じて画像データ等を記憶する記憶部13と、画像処理された画像データを監視センター装置2に出力する画像出力部14とを基本的に有している。
 画像処理部12は、危険領域、危険物の事前登録のために、監視センター装置2の制御部22からの指示が入力されるようになっている。
 画像処理装置1は、カメラ3で撮影された映像データから人物の移動速度と移動方向、頭の傾き、腕が前方で固定であるか否かの情報を検出し、それらを統合して「ながら歩き」であるか否かを判定し、その人物の進行方向に予め登録された危険領域、危険物があれば、警報を行うものである。
 尚、画像処理装置1における処理動作の詳細は後述する。
 [監視センター装置2]
 監視センター装置2は、画像処理装置1の画像出力部14からの画像データを入力する画像入力部21と、装置内の制御を行う制御部22と、必要な情報を記憶する記憶部23と、画像等を表示する表示部(モニタ)24と、制御部22に対して必要な指示を入力する入力部25と、音声入力を行うマイク等の音声入力部26と、音声データを外部の音声出力装置(スピーカ)に出力する音声出力部27とを基本的に有している。
 監視センター装置2は、画像処理装置1からの画像データ、警報情報に基づき、表示部24に必要な画像を表示し、警報情報を表示する。警報には音を発生させるようにしてもよい。また、音声出力部27から「ながら歩き」の人物にスピーカで音声による警告を出力する。
 尚、監視センター装置2における処理動作の詳細は後述する。
 [カメラ3]
 カメラ3は、監視エリアに複数台設置され、撮影された映像データがネットワーク4を介して画像処理装置1に送信される。
 各カメラ3には、固有のID(識別子)が付与され、送信される映像データにそのIDが付与されて画像処理装置1に送信される。画像処理装置1では、当該IDによってどのカメラ3で撮影された映像データであるのかを判別している。
 また、カメラ3には、昼間用として可視光カメラと、夜間用として赤外線カメラがある。
 [ネットワーク4]
 ネットワーク4は、複数のカメラ3から同時に映像データを伝送できる容量があるネットワークである。通常は、専用回線の社内ネットワークであるが、インターネットを用いてもよい。
[ながら歩き判定]
 本監視システムの処理動作を説明する前に、カメラで撮影した映像データから人物の「ながら歩き」を判定する方法を説明する。
 尚、カメラが可視光カメラの場合と(遠)赤外線カメラの場合では、人物の検出方法が異なる。
 [可視光カメラの場合]
 特許文献2の場合、撮影された映像データから検出対象の人物の歩行速度が一定であり、頭の傾き度合いが閾値以下、腕のエッジが体の前面にあるとの情報を統合して、「ながら歩き」を検出している。しかしながら、検出対象の人物の服装によっては、体前面のエッジが腕なのか服の柄なのかを判定するのが難しく、また、「ながら歩き」をする人物は常に下を向いていると定義しているが、不定期に前方を確認してスマホを見るという動作を繰り返すことがあり、「ながら歩き」を判定するのが難しい。
  [腕の動き情報を利用:図2]
 本監視システムにおける「ながら歩き」を判定する方法について図2、図3を参照しながら説明する。図2は、腕の動き情報を利用した腕の固定判定の説明図である。
 「ながら歩き」をしている人物は、片手又は両手がスマホにより進行方向(前方)に固定されているため、歩行時に腕を振る動作がない。そこで、本監視システムの画像処理装置1では、図2に示すように、映像データから正面又は背面における人(実線の四角い枠)を検出した後に、体の左右の動き(腕の動き)情報(点線の2つの四角い枠)を検出する。
 片腕の動きが小さい場合は、片手しか動いていないと判定し、両腕の動きが小さい場合は、両手とも動いていないと判定し、腕が固定されていると判定(腕の固定判定)する。
 これにより「ながら歩き」の可能性があることになる。
  [前方確認とスマホ注視の繰り返し動作:図3]
 また、図3は、前方確認とスマホ注視を繰り返す動作の判定の説明図である。
 図3に示すように、スマホを見るという動作に対しては、人の側面において時系列に頭の動きを捉えることで、「ながら歩き」を判定できる。具体的には、目、鼻、口などの顔パーツを検出して、顔の向きに基づいて下を向いていると判定する。
 つまり、検出対象者の頭の傾き度合いを一定時間保持しておき、長い時間下を向いていて、不定期に短い時間で前を向いていると識別できる場合には、スマホの注視と前方確認を繰り返しているものとして「ながら歩き」と判定できる。
 [赤外線カメラの場合]
 可視光カメラでは、夜間や暗い場所では検出精度が低下する恐れがある。例えば、夜間の工事現場において作業員を監視し、設計図や電子端末を確認しながら歩いている状態に警告できれば、工事現場での重大事故を防げる可能性がある。そこで、暗い場所でも人物を検出できる赤外線カメラを使用する。
 しかしながら、赤外線カメラは、可視光カメラとは異なり、色情報はなく人物の詳細なエッジを判断することは難しいため、可視光カメラの場合の画像処理をそのまま適用することはできない。
  [カメラの種類によるイメージ図の違い:図4]
 図4(a)には、可視光カメラで撮影したイメージ図を、図4(b)には、赤外線カメラで撮影したイメージ図を示している。図4は、カメラの種類によるイメージ図の違いを示す図である。
 赤外線カメラを用いる場合、検出対象者の服装にかかわらず腕のエッジは検出できるため、検出されたエッジから腕の位置と腕の部分の動きを測定し、腕の位置と腕の動きの大小により腕が前方で固定されているか否かの判定は可能である。また、対象者の検出が容易であるため歩行速度の検出も容易である。
  [姿勢推定:図5]
 赤外線カメラの場合、頭の傾き度合いの検出については、顔のパーツが捉えられなくなるため困難である。そこで、図5に示すような方法によって姿勢を推定し、頭の傾き度合いを判定する。図5は、人体パーツ識別による姿勢推定の流れを示す図である。
 映像データから人を側面から検出した後に、図5に示すように、人体パーツを特徴量により検出し、各パーツの中心点を抽出してその中心点を結線することで人体の骨組みを作成する。この骨組みから対象人物の姿勢を推定する。
 具体的には、体と首の結線と首と頭の結線とによって形成される角度を算出し、体と首の結線に対して首と頭の結線の角度が前方に傾いていれば下を向いており、体と首の結線に対して首と頭の結線の角度が傾いていなければ前を向いていると判定する。
 以上のように、複数の可視光カメラ3を用いて、画像処理装置1は、映像データから人物の移動速度と移動方向を検出し、体の左右の動きを検出して腕が前方で固定されているか否かを判定し、頭の動きによって頭の傾き度合いから下を向いていると判定し、特に、一定期間に腕が前方で固定され、断続的に前向きと下向きの姿勢が繰り返される場合に「ながら歩き」と判定している。
 また、複数の赤外線カメラ3を用いて、画像処理装置1は、映像データから人物の移動速度と移動方向を検出し、腕のエッジを検出して変化(腕の動き)の大小によって腕が前方で固定されているか否かを判定し、人体パーツの中心点を抽出してそれらを結線し、体と首の結線と首と頭の結線による角度が前方に傾いている場合に、下を向いていると判定し、特に、一定期間に腕が前方で固定され、断続的に前向きと下向きの姿勢が繰り返される場合に「ながら歩き」と判定している。
 可視光カメラと赤外線カメラでは、下向きの姿勢を判定する処理が特に異なっている。
[危険領域と危険物の事前登録:図6]
 次に、危険領域と危険物の事前登録について図6を参照しながら説明する。図6は、危険領域と危険物の事前登録と警告例を示す図である。
 図6(a)に示すように、監視エリアの映像データに対して、画像処理装置1で、事前に危険領域と危険物を設定しておく。具体的には、監視センター装置2の表示部24に映像データを表示させ、入力部25によって危険領域と危険物を特定し、画像処理装置1の記憶部13に設定して記憶させておく。
 画像処理装置1は、カメラ3で撮影された映像データを解析して「ながら歩き」の人物を検出すると、その人物が危険領域の方向、危険物の方向に向かっている場合には、画像処理装置1の制御部12が自動音声で現場のスピーカに警告を発する(警報する)ようにしている。
 例えば、図6(b)に示すように、自動音声で、危険領域に近づく場合は、「進入禁止エリアです」と警告し、危険物に近づく場合には、「衝突の危険があります」と警告するものである。
[動作:図1]
 次に、本監視システムの動作について図1を参照しながら説明する。
 監視対象のエリアには複数の可視光カメラ3、赤外線カメラ3が設置されており、それらカメラ3で撮影された映像データがネットワーク4を介して画像処理装置2に伝送される。
 画像処理装置1の画像入力部11では、映像データを受信し、画像処理部12に出力する。画像処理部12では、入力された映像データを記憶部13に記憶し、可視光カメラ又は赤外線カメラによって撮影された映像データに対して、上述した画像処理を行い、「ながら歩き」を判定する。
 そして、画像処理部12は、「ながら歩き」と判定した映像データを画像出力部14から監視センター装置2に出力する。
 尚、画像処理装置1の画像処理部12は、入力された映像データを、画像出力部14を介して全て監視センター装置2に出力してもよいが、その場合に、「ながら歩き」の映像データを識別できる情報を付与して出力する。
 監視センター装置2では、画像入力部21が画像処理装置1の画像出力部14から「ながら歩き」の映像データが入力されると、当該映像データを制御部22に出力し、制御部22が表示部(モニタ)24に表示する。
 更に、制御部22は、当該「ながら歩き」の映像データに基づいて「ながら歩き」の対象者に向けて自動音声でその行為を停止するよう警報を発する。
 それでも「ながら歩き」が止まない場合には、音声入力部(マイク)26からの肉声が音声出力部27から外部のスピーカに出力される。
 尚、本監視システムにおいて、画像処理装置1が直接スピーカに警報を発するようにしてもよい。
 また、監視センター装置2の入力部25で、表示部24に表示された映像データを参照しながら、危険領域、危険物を事前に登録処理が為されるとその指示が画像処理装置1の画像処理部12に出力され、記憶部13に登録される。
 そして、画像処理部12では、危険領域、危険物に「ながら歩き」の人物が近づいたと判定した場合に、音声出力部27に自動音声を出力し、警報を発生させるようにすることができる。
 警報は、カメラ3に応じて設けられたスピーカから、「ながら歩き」をしている人物に局所的に(スポットとして)伝達されるのが効果的で望ましい。
 つまり、画像処理装置1又は監視センター装置2が、カメラ3に対応した指向性スピーカを対応付けて記憶しており、「ながら歩き」を検出したカメラ3に対応するスピーカに警報を出力する。
 [ながら歩き検出フロー:図7]
 次に、画像処理部12における「ながら歩き」検出処理について図7を参照しながら説明する。図7は、ながら歩き検出のフローチャートである。
 図7に示すように、画像処理部12は、「ながら歩き」の検出を常時実施し、「ながら歩き」を検出した際には、監視センター装置2の表示部(モニタ)24への表示とアラーム発報を実施する。
 アラーム発報によっても、「ながら歩き」を止めない場合は、監視センター装置2の表示部24に警報を表示し、音声入力部(マイク)26での注意喚起を促し、その注意に基づいて警告を発声し、また、現場警備員が対応することになる。「ながら歩き」を検出しなくなったら、モニタ表示とアラーム発報を停止する。
 具体的には、画像処理装置1の画像処理部12では、コンピュータプログラムの動作によって、画像処理モードを実行し(S1)、その結果、「ながら歩き」か否かを判定する(S2)。「ながら歩き」でないと判定した場合(Noの場合)、処理S1に戻る。
 判定処理S2で、「ながら歩き」と判定された場合(Yesの場合)、自動音声によるアラーム発報の処理を行う(S3)。
 更に、「ながら歩き」か否かを判定し(S4)、「ながら歩き」でないと判定した場合(Noの場合)には、アラームを停止して(S5)、処理S1に戻る。
 「ながら歩き」と判定した場合(Yesの場合)には、警告処理(S6)を行い、処理S1に戻る。
 ここで、判定処理S4を行うためには、画像処理モード(S1)と同様の処理を行う必要があるが、図7では省略している。
 また、警告処理(S6)では、監視センター装置2の表示部24に警報を表示してマイクからの肉声での警報を促すものである。これにより、「ながら歩き」の人物に肉声で注意でき、また、現場の警備員が対処することになる。
 [可視光カメラの場合のながら歩き検出フローチャート:図8]
 次に、可視光カメラを用いて、「ながら歩き」の検出を行う画像処理(図7の画像処理モード)について図8を参照しながら説明する。図8は、可視光カメラの場合のながら歩き検出フローチャートである。
 図8に示すように、まず、画像処理部12は、カメラ映像から局所領域の特徴量を抽出し、学習した識別器(識別器については後述する)で判定を行うなどして人検出を行う(S11)。人物が検出されない場合には、処理S11を繰り返す。識別器は、人である確からしさ以外にも、撮影向き(姿勢)に関する情報を出力しうる。
 人物が検出された場合、以降の処理は、画像全体ではなく人物を含む局所領域について行う。
 局所領域の処理では、まず、検出した人物を時系列に追跡することで、移動速度と移動方向を算出する(S12)。
 そして、検出した人物の前面のエッジ情報を検出し(S13)、体の左右の腕領域から動き情報を算出する(S14)。図2に示したように、腕領域において所定量以上のエッジがあり左右どちらか又は両方のエッジの動きが小さい場合、腕を固定している何かを持っている可能性が高く、特にエッジから検出した腕の先端が胸又は顔に近い位置に相当する場合、前面で固定して何かを持っていると判定する。
 次に、検出した人物の領域内で特徴量と識別器などで顔検出を行い、顔パーツの向きから頭の傾き度合いを算出する(S15)。このとき、頭の傾き度合いを時系列に観測することで、各人物について下を向いている状態、又は不定期に下を向いている状態であるか否かを判定する。
 最後に、算出した移動速度と方向、頭の傾き度合い、前面での腕の固定の有る無しの情報を統合し、「ながら歩き」か否かを判定して出力する(S16)。
 統合した情報の内、複数又は1つが「ながら歩き」の特徴と一致する場合、画像処理部12は、アラームを発報することになる。
 尚、「ながら歩き」を複数人について判定した場合は、各人物について警告してもよいし、まとめて警告してもよい。
 [赤外線カメラの場合のながら歩き検出フローチャート:図9]
 次に、赤外線カメラを用いて、「ながら歩き」の検出を行う画像処理(図7の画像処理モード)について図9を参照しながら説明する。図9は、赤外線カメラの場合のながら歩き検出フローチャートである。
 図9に示すように、処理S21から処理S23の途中までは可視光カメラを用いる場合と同様である。
 処理S23では、局所領域において、エッジの検出だけでなく、後述するハフ変換等を用いてエッジ画像から直線(及び楕円)の抽出を行う。特に遠赤外線カメラの画像では、体温を帯びた人体のシルエット像を容易に得ることができ、特に頭部の輪郭を捉えられると期待できる。
 そして、エッジ検出画像から、腕部分の動きを算出し(S24)、腕が前面にあって動きが小さい場合には、腕を前面で固定して何かを持っていると判定する。
 更に、人体パーツを識別し、姿勢推定を行う。具体的には、人体パーツを表わす直線等の両端点、若しくは中心点座標及び角度に基づいて、人体らしい形になるようにそれらを連結し、人体の骨組みを作成する。図5の例では、体(動体)の軸(首と、体の中心点を結ぶ線分)と、頭の軸(首と、頭の中心点を結ぶ線分)のなす角度を算出する。この角度が前方に傾いている場合、首のパーツが頭で隠れて検出されない場合、または、首のパーツが隠れて小さい場合には、下を向いていると判定する。
 このとき、可視光カメラのときと同様に頭の動きを時系列に観測する。最後に、算出した移動速度と方向、頭の傾き度合い、前面での腕の固定の有る無しの情報を統合し、「ながら歩き」か否かを判定して出力する(S26)。
 統合した情報の内、複数又は1つが「ながら歩き」の特徴と一致する場合、画像処理部12は、アラームを発報することになる。
 尚、「ながら歩き」を複数人について判定した場合は、各人物について警告してもよいし、まとめて警告してもよい。
[具体的な検出、算出処理]
 次に、人検出、移動速度と移動方向の算出、腕のエッジ算出、腕の動き量の算出、頭の傾き度合いの算出等に関する各処理について具体的に説明する。
 [人検出]
 人検出は、局所領域における特徴抽出と事前に学習した識別器を用いて実現する。特徴量には、HOG(Histogram of Oriented Gradients)特徴量などエッジの勾配ヒストグラムを使用する方法などを用いることができる。学習には、教師あり学習を実行するための機械学習メタアルゴリズムの一種で、多くの場合、分布に従って弱い分類器に繰り返し学習させ、それを最終的な強い分類器の一部とするBoostingなどの教師有り学習を用いることができる。
 検出処理のためには、事前に学習を行っておく必要がある。学習サンプルとして、自然画像から切り出した人の画像と人以外の背景をランダムに切り出して用意する。用意した学習サンプルの人の画像とポジティブサンプル、背景画像をネガティブサンプルとして学習させ識別器を作成する。
 オンライン処理では、画角内を局所領域で走査し、特徴量を算出し識別器に入力する。このとき、人として判定された領域に対して、ながら歩きか否かの判定処理を実施する。
 [移動速度と移動方向の算出]
 対象人物の移動速度と移動方向の算出は、人検出により検出された領域をトラッキング技術で追跡することで求める。トラッキングには、テンプレートマッチングやアクティブ探索などの手法を用いることができる。トラッキングにより人を追跡し、追跡領域の中心点が1フレームあたり何ピクセル移動したかにより移動速度を算出できる。
 そして、1フレーム前の中心点の座標と移動後の中心点の座標によりベクトルを求めて移動方向とする。本処理を逐次10フレーム程度の単位で実施し、移動速度と移動方向を算出する。
 [腕のエッジ算出]
 腕のエッジが体の前面にあるかの判定は、まず人検出領域においてエッジ検出をする。エッジ検出にはcanny法やソーベルフィルタをかけることで実現できる。
 canny法は、Gaussianフィルタで画像を平滑化し、平滑化された画像の微分を計算し、微分した結果から勾配の大きさと方向の計算し、Non maximum Suppression処理をし、Hysteresis Threshold処理をして、エッジ検出を行う。
 ソーベル(sobel)フィルタは、空間1次微分を計算し、輪郭を検出するフィルタである。
 エッジ検出をした後、ハフ(Hough)変換などを用いて直線検出を行う。可視光画像の場合、人検出領域の中心付近で2本の直線(線分)が水平に存在していれば腕が前面にあると判定する。胴体等の腕以外の人体パーツも、同様に検出される。ハフ変換で検出された直線の両端は必ずしも正確でないが、2直線が平行に存在する区間の中心付近を、人体パーツの(仮の)中心点として抽出することができる。また、1つの人体パーツから複数の直線等が冗長に検出されている可能性があるので、必要に応じそれらを集約する。
 人検出領域は1つの人影を含んでいると仮定すると、所定の人体モデルに基づき、制約付きで線分や楕円の検出を行うことができる。例えば頭部は、局所領域内の上寄りの位置で、局所領域に比例する所定のサイズを有するものとして、探索され得る。首の位置は、頭部を楕円として検出する方法では、頭の長軸と体の軸の交点として定義できる。頭部を検出しない方法では、人影エッジの最上点を頭頂部として、頭と体(動体)の合計長さを適当な比率で分割することで、体軸上の首位置を推定する。首の角度は、様々な方法で算出でき、例えば首位置から最も遠い頭部エッジへ伸びる半直線が、体軸となす角度としても算出されうる。
 尚、エッジ検出の方法に依らず、背景差分等で抽出した人物のシルエット(2値画像)に対して、モフォロジー演算の一種である浸食を繰り返し施して細線化する、スケルトン処理を用いてもよい。
 [腕の動き量の算出]
 腕の動き量は、人検出領域において腕領域とする領域を左右に定義し、それぞれ左右の腕領域において動き情報を算出することで求める。動き情報には、算出した特徴点のフレーム間のベクトルから求めるオプティカルフローなどを用いることができる。
 オプティカルフローは、デジタル画像中の物体の動きを「ベクトル」で表したもので、主に移動物体の検出や、その動作の解析などによく用いられる。
 人検出領域中の左右の腕領域において、動き情報が小さいときは腕を振っておらず何かを持って固定されていると判断できる。
 動き量の算出は、オプティカルフロー法に限定されず、動きを検出する周知のあらゆる技術が用いられうる。
 [頭の傾き度合いの算出:可視光カメラの場合]
 可視光カメラを用いて頭の傾き度合いを求める際は、人検出領域の中から顔検出を行い、顔のパーツの位置で顔方向を算出する。
 顔検出にはHaar-like検出器などを用いることができる。
 Haar-likeは、顔認識等で用いる手法で、独自でサンプル画像をたくさん用意して学習させることで、任意のオブジェクトを見つけることができる  Haar-likeを用いる場合、同時に目の位置も求めることができるため、両目の位置が顔領域の一定ラインよりも下にあるときは下を向いていると判定できる。
 [頭の傾き度合いの算出:学習器を用いる例]
 赤外線カメラを用いて頭の傾き度合いを求める際は、上述したように人検出領域の中から人体パーツ識別を行い、各パーツの中心点を抽出し、その中心点をつなぎ合わせた人体の骨組みを作成することで姿勢を推定して算出する。
 まず、オフライン処理として赤外線カメラで撮影した人の画像を用意し、人体パーツごとにラベル付けを行う。そして、Randam Forestなどの学習器を使用して人体パーツを学習する。このとき、局所領域内のランダムな2点の画素値差分などが特徴量として用いることができる。
 Randam Forestは、機械学習のアルゴリズムであって、分類、回帰、クラスタリングに用いられ、決定木を弱学習器とする集団学習アルゴリズムであり、ランダムサンプリングされたトレーニングデータによって学習した多数の決定木を使用する。
 オンライン処理では、人検出領域の中で局所領域を走査し学習した識別器により人体パーツ識別を行う。次に識別した人体パーツそれぞれにおいて中心点を算出し、各パーツを人体の関係に基づき結線する。この骨組みにより、人体の姿勢を推定することができる。
 体パーツと首パーツの中心点と頭パーツの中心点の角度が前方に傾いていれば下を向いていると判定できる。また、人体パーツ識別をしたときに首パーツの識別数が少ないときは、下を向いたことにより首が隠れている判定することができる。
 [危険領域、危険物の登録]
 監視カメラの画角内に侵入すると危険な領域や衝突すると危険な物体が存在する場合、事前にその物体を登録することができる。インタフェース画面では、対象領域をマウスで囲むように選択することで登録が完了する。ながら歩きを検出し、進行方向に登録領域がある場合は警告を発報することができる。
[実施の形態の効果]
 本監視システムによれば、画像処理装置1が、カメラ3が可視光カメラである場合に、複数のカメラの映像データから人物を検出して当該人物の移動速度と移動方向を検出し、人物における体の左右の動きを検出して腕が前方で固定されているか否かを判定し、顔の向きによって下を向いていると判定し、一定期間に人物の腕が前方で固定され、断続的に前向きと下向きの姿勢が繰り返される場合に「ながら歩き」と判定し、「ながら歩き」と判定した場合にスピーカに警報を出力するようにしているので、「ながら歩き」を的確に検出して警報できる効果がある。
 本監視システムによれば、画像処理装置1が、カメラ3が赤外線カメラである場合に、複数のカメラの映像データから人物を検出して当該人物の移動速度と移動方向を検出し、人物における腕のエッジを検出して腕の動きから腕が前方で固定されているか否かを判定し、人物の人体のパーツを検出して当該人体のパーツの中心点を抽出し、当該中心点を結線して体と首の結線と首と頭の結線による角度が前方に傾いている場合に、下を向いていると判定し、一定期間に人物の腕が前方で固定され、断続的に前向きと下向きの姿勢が繰り返される場合に「ながら歩き」と判定し、「ながら歩き」と判定した場合にスピーカに警報を出力するようにしているので、「ながら歩き」を的確に検出して警報できる効果がある。
 本監視システムによれば、画像処理装置1が、監視エリアの映像データに対して事前に危険領域又は危険物を設定しておき、「ながら歩き」と判定した人物が危険領域又は危険物の方向に向かっている場合に、スピーカに危険領域又は危険物があることを警報するようにしているので、「ながら歩き」の人物が危険領域又は危険物に近づくのを防止できる効果がある。
 本発明は、カメラで撮影した人物の動きを検出して、「ながら歩き」を判定し、警報を効果的に行う監視システムに好適である。この出願は、2016年9月28日に出願された日本出願特願2016-189173を基礎として優先権の利益を主張するものであり、その開示の全てを引用によってここに取り込む。
 1...画像処理装置、 2...監視センター装置、 3...カメラ、 4...ネットワーク、 11...画像入力部、 12...画像処理部、 13...記憶部、 14...画像出力部、 21...画像入力部、 22...制御部、 23...記憶部、 24...表示部、 25...入力部、 26...音声入力部、 27...音声出力部

Claims (3)

  1.  監視エリアにおいて複数のカメラとスピーカを備え、当該エリア内でスマートフォンの画面を見ながら歩行する「ながら歩き」を検出して警報する監視システムであって、
     前記カメラに接続し、前記カメラで撮影された映像データを入力して前記「ながら歩き」を検出する画像処理を行う画像処理装置を備え、
     当該画像処理装置は、前記カメラが可視光カメラである場合に、複数の前記カメラの映像データから人物を検出して当該人物の移動速度と移動方向を検出する処理と、前記人物における体の左右の動きを検出して腕が前方で固定されているか否かを判定する処理と、顔の向きによって下を向いていると判定する処理と、一定期間に前記人物の腕が前方で固定され、断続的に前向きと下向きの姿勢が繰り返される場合に「ながら歩き」と判定する処理と、「ながら歩き」と判定した場合に前記スピーカに警報を出力する処理とを実行することを特徴とする監視システム。
  2.  監視エリアにおいて複数のカメラとスピーカを備え、当該エリア内でスマートフォンの画面を見ながら歩行する「ながら歩き」を検出して警報する監視システムであって、
     前記カメラに接続し、前記カメラで撮影された映像データを入力して前記「ながら歩き」を検出する画像処理を行う画像処理装置を備え、
     当該画像処理装置は、前記カメラが赤外線カメラである場合に、複数の前記カメラの映像データから人物を検出して当該人物の移動速度と移動方向を検出する処理と、前記人物における腕のエッジを検出して腕の動きから腕が前方で固定されているか否かを判定する処理と、前記人物の人体のパーツを検出して当該人体のパーツの中心点を抽出し、当該中心点を結線して体と首の結線と首と頭の結線による角度が前方に傾いている場合に、下を向いていると判定する処理と、一定期間に前記人物の腕が前方で固定され、断続的に前向きと下向きの姿勢が繰り返される場合に「ながら歩き」と判定する処理と、「ながら歩き」と判定した場合に前記スピーカに警報を出力する処理とを実行することを特徴とする監視システム。
  3.  画像処理装置は、監視エリアの映像データに対して事前に危険領域又は危険物を設定しておき、「ながら歩き」と判定した人物が前記危険領域又は前記危険物の方向に向かっている場合に、スピーカに前記危険領域又は前記危険物があることを警報する処理を実行することを特徴とする請求項1又は2記載の監視システム。
PCT/JP2017/031596 2016-09-28 2017-09-01 監視システム WO2018061616A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018542032A JP6655727B2 (ja) 2016-09-28 2017-09-01 監視システム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016189173 2016-09-28
JP2016-189173 2016-09-28

Publications (1)

Publication Number Publication Date
WO2018061616A1 true WO2018061616A1 (ja) 2018-04-05

Family

ID=61759607

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/031596 WO2018061616A1 (ja) 2016-09-28 2017-09-01 監視システム

Country Status (2)

Country Link
JP (1) JP6655727B2 (ja)
WO (1) WO2018061616A1 (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826387A (zh) * 2018-08-07 2020-02-21 佳能株式会社 检测装置及其控制方法和计算机可读记录介质
JP2020067905A (ja) * 2018-10-25 2020-04-30 キヤノン株式会社 検知装置およびその制御方法
CN112634561A (zh) * 2020-12-15 2021-04-09 中标慧安信息技术股份有限公司 基于图像识别的安全报警方法和系统
CN113112722A (zh) * 2021-03-03 2021-07-13 杭州海康威视数字技术股份有限公司 一种事件检测方法、装置、系统及设备
KR20210116318A (ko) * 2020-03-13 2021-09-27 (주)아이센 실내 인명사고 감지 시스템
JP2022506637A (ja) * 2019-01-29 2022-01-17 ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド 画像処理方法および装置、ネットワークトレーニング方法および装置
WO2022054345A1 (ja) * 2020-09-14 2022-03-17 コニカミノルタ株式会社 安全監視装置、安全監視方法、及び、プログラム
CN114390252A (zh) * 2021-12-29 2022-04-22 北京科技大学 基于5g近红外夜视智能分析的安全监测方法及系统
JP2022532111A (ja) * 2019-05-17 2022-07-13 イーエスシーエイ(エレクトロニック セキュリティー オブ ザ クリエイティブ アソシエイション) カンパニー リミテッド 人工知能を用いた映像基盤のリアルタイム侵入検知方法及び監視カメラ
CN115280395A (zh) * 2020-03-31 2022-11-01 株式会社小松制作所 检测系统以及检测方法
JP2023514322A (ja) * 2020-02-18 2023-04-05 上海商▲湯▼▲臨▼港智能科技有限公司 対話関係の識別方法、装置、機器及び記憶媒体
JP7364148B2 (ja) 2020-03-16 2023-10-18 公立大学法人会津大学 野生動物警報システム及び野生動物警報方法
JP7492226B2 (ja) 2018-12-13 2024-05-29 成典 田中 移動物追跡装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015228131A (ja) * 2014-05-30 2015-12-17 東芝テック株式会社 情報処理装置および報知システム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015228131A (ja) * 2014-05-30 2015-12-17 東芝テック株式会社 情報処理装置および報知システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FUMITO SHINMURA ET AL.: "Pedestrian's Inattention Estimation based on Recognition of Texting While Walking from In-Vehicle Camera Images", IEICE TECHNICAL REPORT, vol. 115, no. 100, 11 June 2015 (2015-06-11), pages 83 - 88 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826387B (zh) * 2018-08-07 2023-11-28 佳能株式会社 检测装置及其控制方法和计算机可读记录介质
CN110826387A (zh) * 2018-08-07 2020-02-21 佳能株式会社 检测装置及其控制方法和计算机可读记录介质
JP2020067905A (ja) * 2018-10-25 2020-04-30 キヤノン株式会社 検知装置およびその制御方法
JP7204421B2 (ja) 2018-10-25 2023-01-16 キヤノン株式会社 検知装置およびその制御方法
JP7492226B2 (ja) 2018-12-13 2024-05-29 成典 田中 移動物追跡装置
JP2022506637A (ja) * 2019-01-29 2022-01-17 ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド 画像処理方法および装置、ネットワークトレーニング方法および装置
JP2022532111A (ja) * 2019-05-17 2022-07-13 イーエスシーエイ(エレクトロニック セキュリティー オブ ザ クリエイティブ アソシエイション) カンパニー リミテッド 人工知能を用いた映像基盤のリアルタイム侵入検知方法及び監視カメラ
JP7207793B2 (ja) 2019-05-17 2023-01-18 イーエスシーエイ(エレクトロニック セキュリティー オブ ザ クリエイティブ アソシエイション) カンパニー リミテッド 人工知能を用いた映像基盤のリアルタイム侵入検知方法及び監視カメラ
JP2023514322A (ja) * 2020-02-18 2023-04-05 上海商▲湯▼▲臨▼港智能科技有限公司 対話関係の識別方法、装置、機器及び記憶媒体
KR20210116318A (ko) * 2020-03-13 2021-09-27 (주)아이센 실내 인명사고 감지 시스템
KR102412270B1 (ko) * 2020-03-13 2022-06-24 (주)아이센 실내 인명사고 감지 시스템
JP7364148B2 (ja) 2020-03-16 2023-10-18 公立大学法人会津大学 野生動物警報システム及び野生動物警報方法
CN115280395A (zh) * 2020-03-31 2022-11-01 株式会社小松制作所 检测系统以及检测方法
WO2022054345A1 (ja) * 2020-09-14 2022-03-17 コニカミノルタ株式会社 安全監視装置、安全監視方法、及び、プログラム
CN112634561A (zh) * 2020-12-15 2021-04-09 中标慧安信息技术股份有限公司 基于图像识别的安全报警方法和系统
CN113112722A (zh) * 2021-03-03 2021-07-13 杭州海康威视数字技术股份有限公司 一种事件检测方法、装置、系统及设备
CN114390252A (zh) * 2021-12-29 2022-04-22 北京科技大学 基于5g近红外夜视智能分析的安全监测方法及系统

Also Published As

Publication number Publication date
JPWO2018061616A1 (ja) 2019-07-18
JP6655727B2 (ja) 2020-02-26

Similar Documents

Publication Publication Date Title
WO2018061616A1 (ja) 監視システム
US11282389B2 (en) Pedestrian detection for vehicle driving assistance
US20200394393A1 (en) Gesture Control for Communication with an Autonomous Vehicle on the Basis of a Simple 2D Camera
CN110419048B (zh) 用于标识所定义的对象的系统
WO2017167282A1 (zh) 一种目标跟踪方法及电子设备、计算机存储介质
García et al. Driver monitoring based on low-cost 3-D sensors
US11514688B2 (en) Drowsiness detection system
US20180365839A1 (en) Systems and methods for initialization of target object in a tracking system
WO2004004320A1 (en) Digital processing of video images
EP2629241A1 (en) Control of a wearable device
JP2020518051A (ja) 顔姿勢検出方法、装置及び記憶媒体
WO2019097595A1 (ja) 車外コミュニケーション装置、車外コミュニケーション方法、情報処理装置、及び車外コミュニケーションプログラム
KR20100086262A (ko) 로봇 및 그 제어방법
KR102185859B1 (ko) 객체 추적 장치 및 방법
JP2010191793A (ja) 警告表示装置及び警告表示方法
JP5718632B2 (ja) 部位認識装置、部位認識方法、及び部位認識プログラム
KR101542206B1 (ko) 코아스-파인 기법을 이용한 객체 추출과 추적 장치 및 방법
Cai et al. Gaze estimation driven solution for interacting children with ASD
CN112926364A (zh) 头部姿态的识别方法及系统、行车记录仪和智能座舱
JP7036329B1 (ja) 作業現場管理システム、作業現場管理方法、及び作業現場管理プログラム
KR102084329B1 (ko) 차량 내 유아 모니터링 방법 및 시스템
JP6022625B2 (ja) 部位認識装置、部位認識方法、及び部位認識プログラム
Shostak et al. Using Internet of Things Technologies to Ensure Cargo Transportation Safety
Kim et al. Adaptive driver assistance system based on traffic information saliency map
US20230177861A1 (en) Apparatus, method, and computer program for detecting hand region

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17855574

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2018542032

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17855574

Country of ref document: EP

Kind code of ref document: A1