WO2019162988A1 - 表示制御装置、表示制御システム、表示制御方法、及びプログラム - Google Patents
表示制御装置、表示制御システム、表示制御方法、及びプログラム Download PDFInfo
- Publication number
- WO2019162988A1 WO2019162988A1 PCT/JP2018/005886 JP2018005886W WO2019162988A1 WO 2019162988 A1 WO2019162988 A1 WO 2019162988A1 JP 2018005886 W JP2018005886 W JP 2018005886W WO 2019162988 A1 WO2019162988 A1 WO 2019162988A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- subject
- display control
- moving image
- data
- data indicating
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/14—Digital output to display device ; Cooperation and interconnection of the display device with other functional units
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/14—Digital output to display device ; Cooperation and interconnection of the display device with other functional units
- G06F3/147—Digital output to display device ; Cooperation and interconnection of the display device with other functional units using display panels
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/251—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/254—Analysis of motion involving subtraction of images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/18—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
- H04N7/181—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20021—Dividing image into blocks, subimages or windows
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30232—Surveillance
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09G—ARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
- G09G2354/00—Aspects of interface with display user
Definitions
- the present invention relates to a display control device, a display control system, a display control method, and a program.
- Patent Documents 1-3 Conventionally, a technique for monitoring the behavior of a subject from a moving image (video) taken by a surveillance camera or the like installed in a store or facility has been known (see, for example, Patent Documents 1-3).
- JP 2009-134688 A Japanese Patent Laying-Open No. 2015-125671 JP 2012-014543 A
- an object of one aspect is to provide a technique that can grasp the behavior of a subject relatively easily.
- a receiver that acquires the movement of the subject and the orientation of the face or body of the subject detected based on the moving image data, the position of the subject at each time point, the moving direction of the subject, and And a display control unit that outputs data for displaying each graphic data representing the orientation of the face or body of the subject.
- the behavior of the subject can be grasped relatively easily.
- FIG. 1 It is a figure which shows the structural example of the communication system which concerns on embodiment. It is a figure which shows the hardware structural example of the imaging terminal which concerns on embodiment, a moving image analyzer, a display control apparatus, and a display terminal. It is a figure which shows an example of the structure block diagram of the moving image analyzer which concerns on embodiment. It is a figure which shows an example of the functional block diagram of the display control apparatus which concerns on embodiment. It is a flowchart which shows an example of the process which detects the action of the to-be-photographed object in a moving image analyzer. It is a figure explaining an example of the process which detects the characteristic data from a process target frame. It is a figure explaining an example of CTU.
- FIG. 1 is a diagram illustrating a configuration example of a communication system 1 (“display control system”) according to the embodiment.
- the communication system 1 includes imaging terminals 10-1, 10-2,... (Hereinafter referred to as “imaging terminal 10” when there is no need to distinguish between them), moving image analysis.
- the display terminals 40-1, 40-2,... (Hereinafter referred to simply as “display terminal 40” when it is not necessary to distinguish between them).
- the imaging terminal 10 and the moving image analysis device 20, the moving image analysis device 20 and the display control device 30, and the display control device 30 and the display terminal 40 are respectively, for example, the Internet, a mobile phone network, a wireless LAN (Local Area Network), Alternatively, they are connected through a network 50 such as a LAN, a network 60, and a network 70 in a communicable state.
- a network 50 such as a LAN, a network 60, and a network 70 in a communicable state.
- the imaging terminal 10 is an information processing apparatus (computer) such as a surveillance camera, a video camera, a smartphone, or a moving image (video) file server, for example.
- the imaging terminal 10 encodes the moving image captured by the camera and the sound collected by the microphone by a predetermined method (“first method”). Then, the imaging terminal 10 distributes the encoded moving image and sound to the moving image analysis apparatus 20 in real time by streaming distribution or the like. Alternatively, the imaging terminal 10 accumulates the encoded moving image and sound as a file, and uploads the file to the moving image analysis device 20 at a predetermined timing.
- the moving image analysis apparatus 20 may be, for example, a transcoder that decodes a moving image captured and encoded by the imaging terminal 10 and encodes the encoded moving image using a predetermined method (“second method”).
- the moving image analysis device 20 decodes and encodes the moving image and sound received from the imaging terminal 10, and outputs the encoded moving image and sound to the display control device 30 in real time by streaming distribution or the like.
- the moving image analysis apparatus 20 accumulates the encoded moving image and sound as a file, and uploads the file to the display control apparatus 30 at a predetermined timing. Thereby, the moving image encoded by various encoding methods received from the imaging terminal 10 can be converted into a predetermined encoding method and output to the display control device 30.
- the moving image analysis apparatus 20 detects the position of each subject and the orientation of the face or body (torso) of each subject from each frame of the moving image captured by the imaging terminal 10. In addition, the moving image analysis apparatus 20 detects the moving direction and the moving amount of each subject from a plurality of frames in the moving image captured by the imaging terminal 10.
- the display control device 30 uses the moving image and the feature data received from the moving image analysis device 20 to analyze the behavior of the subject by processing based on AI (Artificial Intelligence) or the like, analyze the behavior of the customer, and market the store. Provide services such as monitoring suspicious persons.
- the display control device 30 displays the behavior of the subject analyzed by the AI on the display terminal 40. Further, the display control device 30 notifies the display terminal 40 of a predetermined notification when a predetermined action is detected by the moving image analysis device 20.
- AI Artificial Intelligence
- the moving image analysis device 20 and the display control device 30 are information processing devices (computers) such as a personal computer, an AI accelerator, a data server, and a cloud.
- the display terminal 40 is an information processing apparatus (computer) such as a personal computer, a smartphone, or a tablet terminal.
- the display terminal 40 displays the information provided from the display control device 30 on the screen.
- the communication system 1 includes a plurality of moving image analysis devices 20, and the moving image analysis devices 20-1, 20-2,... Output data to the display control device 30 and integrate the data. it can.
- FIG. 2 is a diagram illustrating a hardware configuration example of the imaging terminal 10, the moving image analysis device 20, the display control device 30, and the display terminal 40 according to the embodiment.
- the display control device 30 will be described as an example.
- the display control device 30 in FIG. 2 includes a drive device 100, an auxiliary storage device 102, a memory device 103, a CPU 104, an interface device 105, and the like that are connected to each other via a bus B.
- a moving image processing program for realizing processing in the display control device 30 is provided by the recording medium 101.
- the recording medium 101 on which the moving image processing program is recorded is set in the drive device 100, the moving image processing program is installed from the recording medium 101 to the auxiliary storage device 102 via the drive device 100.
- the moving image processing program need not be installed from the recording medium 101, and may be downloaded from another computer via a network.
- the auxiliary storage device 102 stores the installed moving image processing program and also stores necessary files and data.
- the memory device 103 reads the program from the auxiliary storage device 102 and stores it when there is an instruction to start the program.
- the CPU 104 realizes functions related to the display control device 30 in accordance with a program stored in the memory device 103.
- the interface device 105 is used as an interface for connecting to a network.
- An example of the recording medium 101 is a portable recording medium such as a CD-ROM, a DVD disk, or a USB memory.
- a portable recording medium such as a CD-ROM, a DVD disk, or a USB memory.
- an HDD Hard Disk Disk Drive
- flash memory or the like can be given. Both the recording medium 101 and the auxiliary storage device 102 correspond to computer-readable recording media.
- the moving image analysis device 20 and the display control device 30 may have a GPU (Graphics Processing Unit). Then, the GPU may execute processing for analyzing the moving image, the behavior of the subject, and the like.
- the hardware configuration of the imaging terminal 10 and the display terminal 40 may be the same as that of the display control device 30.
- the imaging terminal 10 includes a camera (imaging device) that captures a moving image in addition to the hardware configuration illustrated in FIG.
- FIG. 3 is a diagram illustrating an example of the configuration of the moving image analysis apparatus 20 according to the embodiment.
- the moving image analysis apparatus 20 includes a decoding unit 211, an encoding unit 212, an acquisition unit 213, a detection unit 214, an output unit 215, and a control unit 216.
- the decoding unit 211 is realized by a process in which a decoding circuit or one or more programs installed in the moving image analysis apparatus 20 are executed by the CPU of the moving image analysis apparatus 20.
- the decoding unit 211 may not be included.
- the encoding unit 212 is realized by a process executed by the CPU of the moving image analysis apparatus 20 by one or more programs installed in the encoding circuit or the moving image analysis apparatus 20. Note that the decoding unit 211 and the encoding unit 212 are realized. When at least one of the above is realized by a CPU, the CPU is a multi-core processor, and a decoding process or an encoding process executed by the CPU and a process for detecting feature data (metadata) by the detection unit 214 are performed using different cores. You may make it process in parallel.
- the detection unit 214, the output unit 215, and the control unit 216 are realized by a process in which one or more programs installed in the moving image analysis apparatus 20 are executed by the CPU of the moving image analysis apparatus 20.
- the moving image analysis apparatus 20 may include a circuit that implements the detection unit 214, the output unit 215, or the control unit 216.
- the decoding unit 211 decodes the moving image received from the imaging terminal 10.
- Encoding section 212 is HEVC (High Efficiency Video Coding) / H. H.265 (hereinafter referred to as “HEVC”), or AVC (Advanced Video Coding) / H.
- HEVC High Efficiency Video Coding
- AVC Advanced Video Coding
- Each frame of the moving image decoded by the decoding unit 211 is compressed and encoded using a moving image compression standard such as H.264, VP9, and AV1.
- the acquisition unit 213 acquires data used by the encoding unit 212 for compression or encoding processing of each frame of the moving image.
- the detection unit 214 detects feature data based on each frame of the moving image and the data acquired by the acquisition unit 213.
- the output unit 215 outputs the data obtained by encoding the moving image by the encoding unit 212 and the feature data to the display control device 30.
- the output of the encoded moving image data and the feature data from the output unit 215 to the display control apparatus 30 may be output for each frame of the moving image, or may be output for a plurality of frames.
- the control unit 216 performs overall control of the moving image analysis apparatus 20.
- FIG. 4 is a diagram illustrating an example of a functional block diagram of the display control device 30 according to the embodiment.
- the display control device 30 includes a reception unit 31, a storage unit 32, a reception unit 33, and a display control unit 34. Each of these functional units is realized by processing that one or more programs installed in the display control device 30 cause the CPU 104 of the display control device 30 to execute.
- the receiving unit 31 receives data obtained by encoding a moving image and feature data for each frame of the moving image from the moving image analysis apparatus 20.
- the feature data includes information on the movement of the subject and the orientation of the face or body of the subject detected based on the moving image data.
- the accumulating unit 32 accumulates (stores) the data obtained by encoding the received moving image and the feature data.
- the accepting unit 33 accepts an operation by receiving operation data from the display terminal 40.
- the display control unit 34 outputs display screen data including graphic data representing the behavior of the subject such as the position of the subject at each time point, the moving direction of the subject, and the face or body orientation of the subject, and the screen of the display terminal 40. To display.
- FIG. 5 is a flowchart illustrating an example of processing for detecting the behavior of the subject in the moving image analysis apparatus 20. The following processing is performed for each frame in the moving image.
- a processing target frame an arbitrary frame in the moving image.
- step S1 the encoding unit 212 of the moving image analyzing apparatus 20 performs a process of compressing and encoding the processing target frame.
- the encoding unit 212 of the moving image analysis apparatus 20 outputs the data used for the encoding process to the memory device (step S2).
- the data used for the encoding process includes, for example, data of each block (CTU (Coding
- step S1 by the encoding unit 212 and the detection process by the detection unit 214 may be executed in parallel.
- FIG. 6 is a diagram illustrating an example of processing for detecting feature data from a processing target frame.
- the detection unit 214 of the moving image analysis apparatus 20 estimates the position of each joint of the subject from the processing target frame using data on the length of each part of the human body that is set in advance. In this case, the detection unit 214 of the moving image analysis device 20 determines an area to search in the processing target frame based on, for example, data stored in the memory device.
- the position (coordinates) of the subject in the frame the face of the subject, the body, the right hand, the left hand in the processing target frame Detect right foot and left foot positions.
- the detection unit 214 may detect feature data, for example, by AI using machine learning such as deep learning.
- AI machine learning
- the output unit 215 of the moving image analysis apparatus 20 displays the data obtained by encoding the moving image by the encoding unit 212 and the feature data detected by the detection unit 214 of the moving image analysis apparatus 20. (Step S4).
- the feature data detection process described above for example, in a monitoring camera system that monitors moving images and audio from a monitoring camera, the position and size of the face of the subject in the image, age, gender estimation information, clothing color And feature data on clothes such as glasses, hats, and heels.
- the camera installation position and orientation, lens angle of view, distortion, characteristics, etc. are known, or if the camera has been calibrated in advance with a predetermined marker, etc., the size of the photographed subject
- feature data relating to the distance from the camera can be detected.
- the movement of the recognized person or object can be tracked, and the feature data relating to the action or action indicating the movement can be detected.
- the feature data is estimated including, for example, information such as face (line of sight), body (torso), foot direction, hand and foot movement, position of each joint, (facial expression), etc.
- Information such as the posture, action, and motion may be included.
- the detection unit 214 may detect the information every several frames or several seconds.
- Example of feature data detection processing In the following, an example of processing for detecting feature data will be described. The following examples can be implemented in combination as appropriate.
- Example 1 of feature data detection process As an example 1 of feature data detection processing, a CTU (Coding Tree Unit) (an example of “data used for encoding processing” and “block”) obtained during encoding processing such as HEVC is used as a background. An example in which feature data relating to a structure other than the above or the background is detected at a relatively high speed will be described.
- CTU Coding Tree Unit
- the encoding unit 212 performs encoding processing of each frame (picture) in a moving image in units of square pixel blocks called CTUs using HEVC or the like. In HEVC or the like, the encoding unit 212 determines the size of each block in a frame according to the presence of a contour in the frame image and the complexity of the contour.
- FIG. 7 is a diagram for explaining an example of a CTU. As illustrated in FIG. 7, the encoding unit 212 divides a flat background portion by a relatively large block (CB: Coding Block) 501. In addition, the encoding unit 212 divides the contour of the object by a relatively small block 502.
- CB Coding Block
- the encoding unit 212 stores the CTU data in the memory device.
- the CTU data stored in the memory device includes data such as the hierarchical structure and CB size of each CTB (Coding
- the CTU which is data used for encoding processing, is used to distinguish a background such as a sky or a wall from an object having a structure such as a person or a building, or from the accumulated data. Or similar data can be extracted.
- the detection unit 214 may detect, for example, the area of each object in the image using the data of the CTU.
- the detection unit 214 may preferentially search for an area where the size of the CB is equal to or smaller than a predetermined value and detect a face.
- a known algorithm may be used as an algorithm for detecting the person or the like of the subject.
- only the area where the CB size is a predetermined value (for example, 16 ⁇ 16) or less using the CTU data may be used as the search range. Thereby, detection can be performed at a higher speed than the conventional method of searching the entire image.
- the detection unit 214 performs a process of detecting the background using a region whose CB size is a predetermined value (for example, 32 ⁇ 32) or more as a search range. May be.
- Example 2 of feature data detection process feature data relating to the motion of the object is detected at a relatively high speed using a reduced image (an example of “data used for the encoding process”) obtained during the encoding process. An example will be described.
- the encoding unit 212 generates a reduced image (predicted image) of each frame for motion compensation in HEVC, AVC, or the like. When generating the reduced image for motion compensation, the encoding unit 212 stores the generated reduced image data in the memory device.
- the detection unit 214 may detect, for example, the movement of each object in the image using the data of the reduced image. In this case, for example, the detection unit 214 obtains a plurality of search start area candidates, selects a search start area having a high degree of similarity from the plurality of candidates, and selects a search start area included in the selected start area and its surroundings. Alternatively, a detailed search may be performed using the same size image.
- Example 3 of feature data detection process data indicating a change between a plurality of consecutive frames obtained during the encoding process (data indicating the motion of the block; an example of “data used for the encoding process”).
- data indicating the motion of the block an example of “data used for the encoding process”.
- the encoding unit 212 generates data indicating changes between a plurality of consecutive frames for motion compensation or the like in HEVC or AVC.
- the data indicating the change between the frames includes, for example, a difference and a motion vector.
- the difference is the sum of absolute differences (SAD) between the luminance and color difference values of each pixel in the predetermined range included in the current frame and the luminance and color difference values of each pixel in the predetermined range included in the previous frame. : Sum of Absolute Difference), sum of squared differences (SSD: Sum of Squared Difference), absolute value transformation difference sum (SATD: Sum ⁇ of Absolute Transformed Difference), and the like.
- the motion vector is data indicating the moving direction of the encoding target block predicted between consecutive frames.
- motion compensation prediction is performed for each prediction block (PU: Prediction Unit).
- FIG. 8A and 8B are diagrams for explaining motion information in HEVC. Since adjacent prediction blocks are considered to have similar motion, HEVC integrates motion vectors of adjacent prediction blocks instead of encoding separate motion vectors for each prediction block. To encode.
- the motion vector for each prediction block is indicated by an arrow 801 or the like.
- the motion vector integrated in each adjacent prediction block is indicated by an arrow 802 or the like.
- the encoding unit 212 When the encoding unit 212 generates the data for motion compensation, the encoding unit 212 stores the generated data in the memory device.
- the detection unit 214 may detect, for example, the movement of each object in the image using the data.
- the detection unit 214 is a set of prediction blocks of a predetermined number or more, and when the motion of the prediction block set in which the size of each prediction block is a predetermined value or less is integrated by the encoding unit 212, You may make it search preferentially the area
- Example 4 of feature data detection process feature data related to complexity is compared using data indicating the complexity of a frame (an example of “data used for encoding processing”) obtained during encoding processing. An example of detecting at a high speed will be described.
- the encoding unit 212 calculates each data such as luminance within one frame, SAD (difference absolute value sum), and SATD (absolute value conversion difference sum) in one frame in intra prediction such as HEVC and AVC.
- the encoding unit 212 When the encoding unit 212 generates the data in the intra prediction, the encoding unit 212 stores the generated data in the memory device.
- FIG. 9 is a flowchart illustrating an example of processing for displaying the behavior of a subject.
- FIG. 10 is a diagram illustrating an example of the feature data 111.
- the date and time, age, sex, height (cm), position, orientation, and the like for each subject ID are stored in association with the frame ID.
- the frame ID is frame identification information in the moving image.
- the date and time is the date and time when the frame was captured.
- the subject ID is identification information of the subject detected from the frame.
- the age is the age of the subject estimated from the frame.
- the sex is the age of the subject estimated from the frame.
- the height is the height of the subject estimated from the frame.
- the position is the position of the subject in the space where the imaging terminal 10 that captured the frame is installed.
- the direction is the direction of the face or body of the subject in the space.
- the receiving unit 33 of the display control device 30 receives a display condition (step S102).
- the reception unit 33 of the display control device 30 receives, for example, designation of the attribute of the subject to be displayed, the period to be displayed, and the like.
- the reception unit 33 of the display control device 30 may receive designation of conditions such as a building, season, temperature, weather, time, day, week, month, day of the week, and the like.
- the display control unit 34 of the display control device 30 generates display screen data representing the behavior of the subject according to the specified condition (step S103).
- the display control unit 34 of the display control device 30 displays the generated display screen on the display terminal 40 (step S104).
- FIGS. 11A to 11C are diagrams illustrating an example of a display screen representing the behavior of the subject displayed on the screen of the display terminal 40 by the display control unit 34 of the display control device 30.
- FIG. 11A the gender is specified as “male” and the age is “20s” as the attributes of the subject to be displayed, the date is “December 26”, and the time is “12: 10-12”. : 15 ”and the floor is designated as“ 1F ”.
- the display control unit 34 of the display control device 30 displays each designated condition in the extraction condition display area 1001 and, based on the extraction condition, between 12:10 and 12:15 on December 26.
- the subject of display is a male subject in his twenties who visited the first floor.
- the gender is designated as “male” and the age is “20s” as the attributes of the subject to be displayed.
- the subject attributes may not be set and can be displayed. For attributes that are not set, all selectable attributes are displayed.
- the display control unit 34 of the display control device 30 displays the arrangement of the shelves 1002A to 1002D and the actions of the subjects A to E.
- the display control unit 34 of the display control device 30 may determine the positions where the shelves 1002 ⁇ / b> A to 1002 ⁇ / b> D are arranged using data set in advance in the display control device 30, or may be determined by the moving image analysis device 20. The position detected from the moving image may be used.
- Icon 1011, icon 1021, icon 1031, icon 1041, and icon 1051 indicate the positions of subject A to subject E at the last time point (12:15) in the specified period.
- the icon 1011 or the like indicates a change in the current position of the subject A or the like in real time.
- a pointed direction 1012 of the icon 1011 indicates the direction of the face or body of the subject A at the last time point.
- the display control unit 34 of the display control device 30 displays, as shown by a circle 1013 and circles 1014A to 1014J, graphic data having a size corresponding to the length of the stay time of the subject at the position where the subject is staying. indicate.
- the display control unit 34 of the display control device 30 displays, for example, graphic data having a size corresponding to a time length in which the moving distance from the position at one time point of the subject is equal to or less than a threshold value at the position.
- a circle 1013 indicates the length of the stay time of the subject A at the position of the icon 1011. The longer the staying time, the larger the area (size) of the circle 1013 is displayed.
- the center positions of the circles 1014A to 1014J indicate the positions of the subject A before the subject A moves to the position of the icon 1011.
- the center position of the circle 1014J indicates the position of the subject A at the first time point in the designated period.
- Arrows 1015A to 1015J indicate directions between the center positions of the circle 1013 and the circles 1014A to 1014J, that is, the moving direction of the subject A, respectively. The longer the arrow, the faster the moving speed.
- a circle 1013, a circle 1014A to a circle 1014J indicate the position of the subject A at a predetermined time interval (for example, every 5 seconds), for example. Further, in association with the circle 1013 and the circles 1014A to 1014J, the subject A within a predetermined time from the time when the subject A is located at the center position of the circles 1013 and 1014A to 1014J, or within a predetermined distance from each center position. The face or body orientation is shown. In the example of FIG.
- the circle 1013 and the circles 1014A to 1014J are equally divided into a predetermined number of areas according to the angle from the center of each circle, and the face of the subject A within the predetermined time or the predetermined distance or The distribution of body orientation is indicated by the brightness of the color.
- the darker (or the brighter) the color of the area divided into eight by 45 degrees is, the longer the subject A is directed from the center of each circle toward the arc of the area. Show.
- the display control unit 34 of the display control device 30 displays the shape or color of graphic data for each subject according to the gender and age of each subject estimated by the moving image analysis device 20. May be displayed differently.
- graphic data such as icons and circles may be blinked and the shape / color may be changed to provide an alarm notification function.
- the icon for the subject may be displayed with a larger area (size) instead of graphic data in accordance with the stop time.
- FIG. 11A an example in which a specific location (region, area, zone) corresponding to a frame imaged by one imaging terminal 10 is displayed on the screen of the display terminal 40 is shown. May display consecutive locations at the same time according to frames captured by the plurality of imaging terminals 10 respectively.
- the display control unit 34 displays the locations 1111 to 1114 corresponding to the frames captured by the four imaging terminals 10 side by side. In this case, the display control unit 34 may link data regarding each frame captured by each of the four imaging terminals 10 and continuously display an icon for each subject displayed in the frame.
- the subject F has moved from the location 1112 to the location 1111 through the movement route 1121.
- the subject G moves from the location 1112 to the location 1114 through the movement route 1122 to the location 1113.
- the display control unit 34 may switch and display different locations according to the frames captured by the plurality of imaging terminals 10.
- the display control unit 34 switches and displays the locations 1131 to 1134 corresponding to the frames imaged by the four imaging terminals 10, respectively.
- the place 1131 is “1F” designated by the floor item of the display area 1001, that is, the place of the first floor portion of the building.
- the places 1132 to 1134 are places on the second to fourth floors of the building.
- the display control unit 34 displays the designated place on the forefront.
- 12A to 12B are diagrams for explaining an example of a display screen showing the behavior of the subject.
- the numbers 1201A to 1203A of visitors and 1201B to 1203B of exits extracted according to conditions such as a specified period are displayed in association with the entrances 1201 to 1203, respectively.
- the display control unit 34 of the display control device 30 displays the screen of FIG. 12B.
- a path 1211 of a subject entering from the entrance 1201 and exiting from the entrance 1202 and a path 1212 of the subject entering from the entrance 1201 and exiting from the entrance 1203 are shown.
- a subject route 1213 that enters from the entrance 1202 and exits from the entrance 1201 and a subject route 1214 that enters from the entrance 1203 and exits from the entrance 1201 are shown.
- FIG. 13 is a diagram for explaining an example of a display screen showing the position of an article such as a product whose subject has reached a hand.
- the display control unit 34 of the display control device 30 moves the subject with respect to the selected shelf.
- a display screen showing the position of the extended product is displayed.
- the example of FIG. 13 shows the distribution of the number of times one or more subjects have reached their hands for the positions 1301 to 1309 on the selected shelf.
- the display control unit 34 of the display control device 30 displays a darker color (or a brighter color) as the number of times the subject has reached his / her hand with respect to the position 1301 to the position 1309.
- the stay positions 1311 to 1313 are the stay positions of the subject when the subject is reaching for the shelf, and the larger the circle of each stay position, the longer the subject is staying. ing.
- FIG. 14 is a diagram for explaining an example of a display screen showing the behavior of the subject.
- Circles 1401A to 1401M are the same as the circle 1013, the circle 1014A to the circle 1014J, etc. in FIG. 11, and represent the position and orientation of the subject.
- the display control unit 34 of the display control device 30 indicates each product etc. arranged at each position where the subject has reached his / her hand by the graphic data 1411 to the graphic data 1415.
- the display control unit 34 of the display control device 30 displays the names of each product (an example of “article information”) in the area of the graphic data 1411 to the graphic data 1415.
- the display control unit 34 of the display control device 30 has a shape of a human hand, for example, at a position where the subject has extended his hand, when graphic data such as a product is not positioned at the position where the subject has extended his hand. An icon or the like may be displayed.
- the display control unit 34 of the display control device 30 may display the positions and names where the graphic data 1411 to the graphic data 1415 are arranged using data set in advance in the display control device 30.
- the data detected from the moving image by the moving image analysis apparatus 20 may be used for display.
- the display control unit 34 of the display control device 30 displays a product or the like purchased by the subject and a product or the like that the subject has reached out of hand but has not purchased in different display modes, for example, by changing colors. You may let them.
- the display control unit 34 of the display control device 30 indicates the position where the product and the like purchased by hand are arranged by the graphic data 1412 and the graphic data 1414.
- the graphic data 1411, the graphic data 1413, and the graphic data 1415 indicate the positions at which the articles etc. that the subject has reached out but have not purchased are arranged.
- the display control unit 34 of the display control device 30 detects, from the moving image, the product purchased in the hand and the product that the subject has reached out of hand but has not purchased, from the moving image. You may determine with data. In this case, the detection unit 214 of the moving image analysis apparatus 20 may estimate that the product has been purchased, for example, when a product or the like is brought to the cash register position by the subject. In addition, the display control unit 34 of the display control device 30 detects, from the moving image, the product purchased by hand and the product which the subject has extended his hand but has not purchased, from the moving image. The determination may be made based on the data and data acquired from a POS (Point Of Sales) system of the store where the imaging terminal 10 is installed.
- POS Point Of Sales
- the detection unit 214 of the moving image analysis device 20 detects a change in a stationary object such as a shelf and a product from the moving image, and the display control unit 34 of the display control device 30 detects the object on the display screen of FIG. You may display the graphic data which show the change of the said stationary object with action. As a result, it is possible to detect the leaving of an object, forgotten items, shoplifting, product replenishment timing, disorder of the arrangement of products, fire, opening and closing of doors that are prohibited from opening and closing.
- FIG. 15A to FIG. 15D are diagrams for explaining an example of processing for notifying forgotten items.
- the display control unit 34 indicates that a predetermined subject is moving on the movement path 1511 at the place where the shelf 1501 to the shelf 1503 are installed.
- FIG. 15B is an example of a state in which a predetermined time has elapsed from the state of FIG. 15A. In the example of FIG.
- the display control unit 34 displays graphic data 1513 indicating that the predetermined subject is moving along the movement path 1512 and an article such as a bag recognized as a subject other than the predetermined subject. doing.
- the display control unit 34 since the distance between the predetermined subject and the article is equal to or less than a predetermined threshold, the display control unit 34 stores the predetermined subject and the article in association with each other.
- FIG. 15C is an example of a state in which a predetermined time has elapsed from the state of FIG. 15B.
- the predetermined subject is moving along the movement path 1514.
- FIG. 15D is an example of a state in which a predetermined time has elapsed from the state of FIG. 15C.
- the predetermined subject is not detected in the frame. For example, when the distance between the article and the predetermined subject is equal to or greater than a predetermined threshold, the display control unit 34 is in a state where the predetermined subject stored in association with the article is not detected. When continuing more than time, you may notify the display terminal 40 of that. Alternatively, the fact may be notified to a display such as digital signage installed in the vicinity of the object.
- the display control unit 34 of the display control device 30 Notification may be performed.
- the display control unit 34 of the display control device 30 detects, for example, the subject's falling, crouching, entry into the restricted entry section, wrinkles, or the like by the detection unit 214 of the moving image analysis device 20, that fact. Is displayed on the display terminal 40.
- ⁇ Modification 3> For example, when it is detected that the subject is lost, the display control unit 34 of the display control device 30 notifies the display terminal 40 to that effect, or a display such as digital signage installed in the vicinity of the subject. In addition, a store map or the like may be displayed. In this case, the display control unit 34 of the display control device 30 has a staying time at a predetermined position that is equal to or greater than a threshold value, and a variation in the orientation distribution of the face or the like is equal to or greater than the predetermined threshold value and is looking around the surroundings. It may be determined that the subject is lost.
- the movement of the subject and the orientation of the face or body of the subject detected based on the moving image data are acquired, the position of the subject at each time point, the movement direction of the subject, and Each graphic data representing the orientation of the face or body of the subject is displayed. Thereby, the behavior of the subject can be grasped relatively easily.
- the above-described embodiment can be applied to a digital marketing system that analyzes whether a customer has picked up a product in a store or has purchased the product, a surveillance camera system that recognizes a person from an image, and the like.
- a digital marketing system that analyzes whether a customer has picked up a product in a store or has purchased the product
- a surveillance camera system that recognizes a person from an image
- the customer's walking route in the store it is possible to adapt to floor layout examination, fire escape route examination, and lost child search.
- the behavior can be tracked without specifying an individual, and privacy can be protected.
- behavior can be tracked by identifying an individual.
- Each functional unit of the moving image analysis device 20 and the display control device 30 may be realized by cloud computing including, for example, one or more computers. Further, the moving image analysis device 20 and the display control device 30 may be configured as an integrated device. The display control device 30 may have at least a part of each functional unit of the moving image analysis device 20.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Image Analysis (AREA)
- Closed-Circuit Television Systems (AREA)
Abstract
表示制御装置は、動画像データに基づいて検出された、被写体の移動を示すデータ、及び前記被写体の顔または体の向きを示すデータが入力される受信部と、前記動画像データの各時点における前記被写体の位置、前記被写体の移動方向、及び前記被写体の顔または体の向きをそれぞれ示す図形データを出力する表示制御部と、を有する。
Description
本発明は、表示制御装置、表示制御システム、表示制御方法、及びプログラムに関する。
従来、店舗や施設等に設置された監視カメラ等で撮影された動画像(映像)から、被写体の行動を監視する技術が知られている(例えば、特許文献1-3を参照)。
しかしながら、従来技術では、店舗や施設等において、顧客等の被写体がどのような経路で移動し、どの場所で滞在し、どこに興味を示していたか等の活動状況を把握する場合、店舗や施設等の状況を、目視で動画像を確認する必要がある。
そこで、一側面では、被写体の行動を比較的容易に把握できる技術を提供することを目的とする。
一つの案では、動画像データに基づいて検出された、被写体の移動、及び前記被写体の顔または体の向きを取得する受信部と、各時点における前記被写体の位置、前記被写体の移動方向、及び前記被写体の顔または体の向きをそれぞれ表す各図形データを表示するためのデータを出力する表示制御部と、を有する表示制御装置を提供する。
一側面によれば、被写体の行動を比較的容易に把握できる。
以下、図面に基づいて本発明の実施形態を説明する。
<システム構成>
図1は、実施形態に係る通信システム1(「表示制御システム」)の構成例を示す図である。図1において、通信システム1は、撮像端末10-1、10-2、・・・(以下で、それぞれを区別する必要がない場合は、単に「撮像端末10」と称する。)、動画像解析装置20、表示制御装置30、及び表示端末40-1、40-2、・・・(以下で、それぞれを区別する必要がない場合は、単に「表示端末40」と称する。)を有する。
図1は、実施形態に係る通信システム1(「表示制御システム」)の構成例を示す図である。図1において、通信システム1は、撮像端末10-1、10-2、・・・(以下で、それぞれを区別する必要がない場合は、単に「撮像端末10」と称する。)、動画像解析装置20、表示制御装置30、及び表示端末40-1、40-2、・・・(以下で、それぞれを区別する必要がない場合は、単に「表示端末40」と称する。)を有する。
撮像端末10と動画像解析装置20、動画像解析装置20と表示制御装置30、及び表示制御装置30と表示端末40は、それぞれ、例えば、インターネット、携帯電話網、無線LAN(Local Area Network)、またはLAN等のネットワーク50、ネットワーク60、及びネットワーク70により、通信可能な状態で接続されている。
撮像端末10は、例えば、監視カメラ、ビデオカメラ、スマートフォン、または動画像(映像)ファイルサーバ等の情報処理装置(コンピュータ)である。撮像端末10は、カメラにより撮像された動画像と、マイクにより集音された音声とを、所定の方式(「第1の方式」)で符号化する。そして、撮像端末10は、符号化した動画像及び音声を、ストリーミング配信等によりリアルタイムで動画像解析装置20に配信する。または、撮像端末10は、符号化した動画像及び音声をファイルとして蓄積し、所定のタイミングで当該ファイルを動画像解析装置20にアップロードする。
動画像解析装置20は、例えば、撮像端末10により撮像されて符号化された動画像を、復号し、所定の方式(「第2の方式」)により符号化するトランスコーダでもよい。動画像解析装置20は、撮像端末10から受信した動画像及び音声を復号、及び符号化し、符号化した動画像及び音声を、ストリーミング配信等によりリアルタイムで表示制御装置30に出力する。または、動画像解析装置20は、符号化した動画像及び音声をファイルとして蓄積し、所定のタイミングで当該ファイルを表示制御装置30にアップロードする。これにより、撮像端末10から受信した、各種の符号化方式により符号化された動画像を、所定の符号化方式に変換して表示制御装置30に出力することができる。
また、動画像解析装置20は、撮像端末10により撮像された動画像の各フレームから、各被写体の位置、各被写体の顔または体(胴体)の向きを検出する。また、動画像解析装置20は、撮像端末10により撮像された動画像における複数のフレームから、各被写体の移動方向、及び移動量を検出する。
表示制御装置30は、例えば、動画像解析装置20から受信した動画像及び特徴データを用い、AI(Artificial Intelligence)等による処理により、被写体の行動を解析し、来客の行動分析、店舗等のマーケティング、不審者等の監視等のサービスを提供する。表示制御装置30は、AIにより解析された被写体の行動を、表示端末40に表示する。また、表示制御装置30は、動画像解析装置20により所定の行動が検出された場合、表示端末40に所定の通知を行う。
動画像解析装置20、表示制御装置30は、例えば、パーソナルコンピュータ、AIアクセラレータ、データサーバー、クラウド、等の情報処理装置(コンピュータ)である。
表示端末40は、例えば、パーソナルコンピュータ、スマートフォン、タブレット端末、等の情報処理装置(コンピュータ)である。表示端末40は、表示制御装置30から提供された情報を画面に表示する。
<変形例>
また、通信システム1は、動画像解析装置20を複数有し、動画像解析装置20-1、20-2、・・・とし、表示制御装置30にデータを出力し、データを統合することもできる。
また、通信システム1は、動画像解析装置20を複数有し、動画像解析装置20-1、20-2、・・・とし、表示制御装置30にデータを出力し、データを統合することもできる。
<ハードウェア構成>
図2は、実施形態に係る撮像端末10、動画像解析装置20、表示制御装置30、及び表示端末40のハードウェア構成例を示す図である。以下では、表示制御装置30を例に説明する。図2の表示制御装置30は、それぞれバスBで相互に接続されているドライブ装置100、補助記憶装置102、メモリ装置103、CPU104、インタフェース装置105等を有する。
図2は、実施形態に係る撮像端末10、動画像解析装置20、表示制御装置30、及び表示端末40のハードウェア構成例を示す図である。以下では、表示制御装置30を例に説明する。図2の表示制御装置30は、それぞれバスBで相互に接続されているドライブ装置100、補助記憶装置102、メモリ装置103、CPU104、インタフェース装置105等を有する。
表示制御装置30での処理を実現する動画像処理プログラムは、記録媒体101によって提供される。動画像処理プログラムを記録した記録媒体101がドライブ装置100にセットされると、動画像処理プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。但し、動画像処理プログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置102は、インストールされた動画像処理プログラムを格納すると共に、必要なファイルやデータ等を格納する。
メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。CPU104は、メモリ装置103に格納されたプログラムに従って表示制御装置30に係る機能を実現する。インタフェース装置105は、ネットワークに接続するためのインタフェースとして用いられる。
なお、記録媒体101の一例としては、CD-ROM、DVDディスク、又はUSBメモリ等の可搬型の記録媒体が挙げられる。また、補助記憶装置102の一例としては、HDD(Hard Disk Drive)又はフラッシュメモリ等が挙げられる。記録媒体101及び補助記憶装置102のいずれについても、コンピュータ読み取り可能な記録媒体に相当する。なお、動画像解析装置20、及び表示制御装置30は、GPU(Graphics Processing Unit)を有してもよい。そして、当該GPUにより、動画像、及び被写体の行動等を解析する処理を実行させてもよい。
撮像端末10及び表示端末40のハードウェア構成は、表示制御装置30と同様でもよい。なお、撮像端末10は、図2に示すハードウェア構成に加えて、動画像を撮影するカメラ(撮像装置)を有する。
<構成>
≪動画像解析装置≫
次に、図3を参照し、動画像解析装置20の構成について説明する。図3は、実施形態に係る動画像解析装置20の構成の一例を示す図である。動画像解析装置20は、復号部211、符号化部212、取得部213、検出部214、出力部215、及び制御部216を有する。
≪動画像解析装置≫
次に、図3を参照し、動画像解析装置20の構成について説明する。図3は、実施形態に係る動画像解析装置20の構成の一例を示す図である。動画像解析装置20は、復号部211、符号化部212、取得部213、検出部214、出力部215、及び制御部216を有する。
復号部211は、復号回路、または動画像解析装置20にインストールされた1以上のプログラムが、動画像解析装置20のCPUに実行させる処理により実現する。動画像解析装置20が、ビデオケーブル等を介して、符号化されていないRAWデータの動画像を撮像端末10から受信する場合は、復号部211を有しないようにしてもよい。
符号化部212は、符号化回路、または動画像解析装置20にインストールされた1以上のプログラムが、動画像解析装置20のCPUに実行させる処理により実現する
なお、復号部211及び符号化部212の少なくとも一方をCPUにより実現する場合、CPUをマルチコアのプロセッサとし、CPUで実行する復号処理または符号化処理と、検出部214による特徴データ(メタデータ)を検出する処理とを異なるコアを用いて並列に処理するようにしてもよい。
なお、復号部211及び符号化部212の少なくとも一方をCPUにより実現する場合、CPUをマルチコアのプロセッサとし、CPUで実行する復号処理または符号化処理と、検出部214による特徴データ(メタデータ)を検出する処理とを異なるコアを用いて並列に処理するようにしてもよい。
検出部214、出力部215、及び制御部216は、動画像解析装置20にインストールされた1以上のプログラムが、動画像解析装置20のCPUに実行させる処理により実現する。なお、動画像解析装置20は、検出部214、出力部215、または制御部216を実現する回路を備えてもよい。
復号部211は、撮像端末10から受信した動画像を復号する。
符号化部212は、HEVC(High Efficiency Video Coding)/H.265(以下で「HEVC」と称する。)、またはAVC(Advanced Video Coding)/H.264、VP9、AV1等の動画像の圧縮規格を用いて、復号部211により復号された動画像の各フレームを圧縮して符号化する。
取得部213は、符号化部212により動画像の各フレームの圧縮乃至符号化処理に用いられているデータをそれぞれ取得する。
検出部214は、動画像の各フレームと、取得部213により取得されたデータに基づいて、特徴データを検出する。
出力部215は、符号化部212により動画像が符号化されたデータと、特徴データとを表示制御装置30に出力する。出力部215から表示制御装置30への動画像が符号化されたデータと特徴データの出力は、動画像のフレーム毎に出力してもよいし、複数フレーム分を纏めて出力してもよい。
制御部216は、動画像解析装置20の全体の制御を行う。
≪表示制御装置≫
次に、図4を参照し、表示制御装置30の機能構成について説明する。図4は、実施形態に係る表示制御装置30の機能ブロック図の一例を示す図である。表示制御装置30は、受信部31、蓄積部32、受付部33、及び表示制御部34を有する。これら各機能部は、表示制御装置30にインストールされた1以上のプログラムが、表示制御装置30のCPU104に実行させる処理により実現する。
次に、図4を参照し、表示制御装置30の機能構成について説明する。図4は、実施形態に係る表示制御装置30の機能ブロック図の一例を示す図である。表示制御装置30は、受信部31、蓄積部32、受付部33、及び表示制御部34を有する。これら各機能部は、表示制御装置30にインストールされた1以上のプログラムが、表示制御装置30のCPU104に実行させる処理により実現する。
受信部31は、動画像が符号化されたデータと動画像のフレーム毎の特徴データを動画像解析装置20から受信する。なお、当該特徴データには、当該動画像データに基づいて検出された、被写体の移動、及び被写体の顔または体の向きの情報が含まれる。
蓄積部32は、受信した動画像が符号化されたデータと特徴データとを蓄積(記憶)する。受付部33は、表示端末40から、操作データを受信することにより、操作を受け付ける。
表示制御部34は、各時点における被写体の位置、被写体の移動方向、及び被写体の顔または体の向き等の被写体の行動を表す図形データを含む表示画面のデータを出力し、表示端末40の画面に表示する。
<処理>
(被写体の行動を検出する処理)
次に、図5、及び図6を参照し、動画像解析装置20における被写体(人物等)の行動を検出する処理について説明する。図5は、動画像解析装置20における被写体の行動を検出する処理の一例を示すフローチャートである。なお、以下の処理は、動画像中の各フレームに対して行われる。以下では、動画像中の任意の一フレームを、処理対象フレームと称する。
(被写体の行動を検出する処理)
次に、図5、及び図6を参照し、動画像解析装置20における被写体(人物等)の行動を検出する処理について説明する。図5は、動画像解析装置20における被写体の行動を検出する処理の一例を示すフローチャートである。なお、以下の処理は、動画像中の各フレームに対して行われる。以下では、動画像中の任意の一フレームを、処理対象フレームと称する。
まず、ステップS1において、動画像解析装置20の符号化部212は、処理対象フレームを圧縮して符号化する処理を行う。
続いて、動画像解析装置20の符号化部212は、当該符号化の処理に用いられるデータを、メモリ装置に出力する(ステップS2)。符号化処理に用いられるデータには、例えば、符号化処理が行われる単位である各ブロック(CTU(Coding Tree Unit))のデータ、フレームの縮小画像、動画像において連続する複数のフレーム間の変化を示すデータ(当該各ブロックの動きを示すデータ)、同色の領域を示すデータ、及び当該各ブロックの輪郭のデータ等が含まれてもよい。
なお、符号化部212によるステップS1の符号化処理と、検出部214による検出処理は、並列に実行されてもよい。
続いて、動画像解析装置20の検出部214は、処理対象フレーム、及びメモリ装置に記憶されたデータを用いて、処理対象フレームに対する、被写体等の特徴を示す特徴データを検出する(ステップS3)。図6は、処理対象フレームから特徴データを検出する処理の一例について説明する図である。動画像解析装置20の検出部214は、予め設定されている人体の各部位の長さのデータを用いて、処理対象フレームから、被写体の各関節の位置を推定する。この場合、動画像解析装置20の検出部214は、例えば、メモリ装置に記憶されたデータに基づいて、処理対象フレームにおいて探索する領域を決定する。そして、決定した領域内から、予め設定されている人体の各部位の長さのデータを用いて、処理対象フレームにおける、フレーム内の被写体の位置(座標)、被写体の顔、胴体、右手、左手、右足、左足の位置を検出する。
図6の例では、処理対象フレームにおいて探索する領域601乃至604の各々において検出された、被写体611乃至被写体614のそれぞれの部位621乃至624が示されている。なお、検出部214は、例えば、ディープラーニング等の機械学習を用いたAIにより、特徴データを検出してもよい。このように、符号化処理に用いられるデータを利用することで、処理対象フレーム毎の特徴データを検出する処理の負荷を大きく削減することができる。
続いて、動画像解析装置20の出力部215は、符号化部212により動画像が符号化されたデータと、動画像解析装置20の検出部214により検出された特徴データとを表示制御装置30に出力する(ステップS4)。
上述した特徴データの検出処理によれば、例えば、監視カメラからの動画像及び音声を監視する監視カメラシステムにおいて、画像中の被写体の顔の位置及びサイズ、年齢、性別の推定情報、服の色やメガネ、帽子、鞄といった服装等に関する特徴データを検出できる。
また、カメラの設置位置や向き、レンズの画角、歪、特性等が既知である場合や、所定のマーカ等で事前にカメラのキャリブレーションが行われている場合は、撮影された被写体の大きさや、カメラからの距離に関する特徴データを検出できる。
また、認識した人や物の動きを追跡し、どのような動きを行ったかという行動または動作に関する特徴データを検出できる。この場合、特徴データには、例えば、顔(視線)、体(胴体)、足の向き、手や足の動き、各関節の位置、(顔の表情)等の情報と、これらを含めて推定した姿勢、行動や動作などの情報が含まれてもよい。なお、検出部214は、当該情報を、数フレームや数秒毎に検出するようにしてもよい。
また、複数のカメラによりそれぞれ撮影された動画像により、比較的広範囲における行動を検出し、検出した行動の範囲を特徴データとしてもよい。これにより、被写体(人物等)や物が移動した軌跡を表示端末に表示することができる。
<特徴データの検出処理の例>
以下で、特徴データを検出する処理の例について説明する。なお、以下の各例は、適宜組み合わせて実施することができる。
以下で、特徴データを検出する処理の例について説明する。なお、以下の各例は、適宜組み合わせて実施することができる。
≪特徴データの検出処理の例1≫
特徴データの検出処理の例1として、HEVC等の符号化処理中に得られるCTU(Coding Tree Unit)(「符号化処理に用いられるデータ」、及び「ブロック」の一例。)を用いて、背景以外の構造物、または背景に関する特徴データを比較的高速に検出する例について説明する。
特徴データの検出処理の例1として、HEVC等の符号化処理中に得られるCTU(Coding Tree Unit)(「符号化処理に用いられるデータ」、及び「ブロック」の一例。)を用いて、背景以外の構造物、または背景に関する特徴データを比較的高速に検出する例について説明する。
符号化部212は、HEVC等を用いて、動画像中の各フレーム(ピクチャ)の符号化処理を、CTUと称される正方画素ブロックの単位で行う。符号化部212は、HEVC等において、フレーム中の各ブロックの大きさを、フレーム画像中の輪郭の存在、及び輪郭の複雑さに応じて決定する。
図7は、CTUの一例について説明する図である。符号化部212は、図7に示すように、平坦な背景部分を、比較的大きいブロック(CB:Coding Block)501により分割する。また、符号化部212は、物体の輪郭を、比較的小さいブロック502により分割する。
符号化部212は、CTUを決定するブロック分割処理が完了すると、CTUのデータを、メモリ装置に格納する。メモリ装置に格納されたCTUのデータには、構成する各色成分信号のブロックである各CTB(Coding Tree Block)の階層構造とCBサイズ、及び隣接するCTB等のデータが含まれる。
これにより、例えば、符号化処理に用いられるデータであるCTUを用いて、空や壁等の背景と、人や建物等の構造を有する物体とを区別したり、蓄積されているデータから、構図が類似しているデータを抽出したりすることができる。
また、検出部214は、当該CTUのデータを用いて、例えば、画像中の各オブジェクトの領域等を検出してもよい。この場合、検出部214は、例えば、被写体の人物等を検出対象とする場合、CBのサイズが所定値以下の領域を優先的に検索し、顔を検出する処理を実行してもよい。これにより、例えば、リアルタイムで動画像を解析する場合に、被写体の人物等の物体を検出する処理の精度をより向上させるとともに、当該処理をより高速化できる。この場合、被写体の人物等を検出するアルゴリズムとしては、公知のアルゴリズムを用いてもよい。また、CTUのデータを用いてCBのサイズが所定値(例えば、16×16)以下の領域のみを検索範囲としてもよい。これにより、従来の画像全体を探索範囲する方法と比較して、より高速に検出できる。
また、検出部214は、例えば、空や道路等の背景を検出対象とする場合、CBのサイズが所定値(例えば、32×32)以上の領域を探索範囲として、背景を検出する処理を実行してもよい。
≪特徴データの検出処理の例2≫
特徴データの検出処理の例2として、符号化処理中に得られる縮小画像(「符号化処理に用いられるデータ」の一例。)を用いて、物体の動きに関する特徴データを比較的高速に検出する例について説明する。
特徴データの検出処理の例2として、符号化処理中に得られる縮小画像(「符号化処理に用いられるデータ」の一例。)を用いて、物体の動きに関する特徴データを比較的高速に検出する例について説明する。
符号化部212は、HEVCやAVC等において、動き補償のために、各フレームの縮小画像(予測画像)を生成する。符号化部212は、動き補償のための縮小画像を生成すると、生成した縮小画像のデータを、メモリ装置に格納する。
また、検出部214は、当該縮小画像のデータを用いて、例えば、画像中の各オブジェクトの動き等を検出してもよい。この場合、検出部214は、例えば、複数の探索起点領域の候補を求め、複数の候補のなかから類似度の高い探索起点領域を選出し、選出した起点領域に含まれる探索起点及びその周囲を、等倍画像を用いて細かく探索してもよい。
≪特徴データの検出処理の例3≫
特徴データの検出処理の例3として、符号化処理中に得られる、連続する複数のフレーム間の変化を示すデータ(ブロックの動きを示すデータ。「符号化処理に用いられるデータ」の一例。)を用いて、物体の動きに関する特徴データを比較的高速に検出する例について説明する。
特徴データの検出処理の例3として、符号化処理中に得られる、連続する複数のフレーム間の変化を示すデータ(ブロックの動きを示すデータ。「符号化処理に用いられるデータ」の一例。)を用いて、物体の動きに関する特徴データを比較的高速に検出する例について説明する。
符号化部212は、HEVCやAVC等において、動き補償等のために、連続する複数のフレーム間の変化を示すデータを生成する。各フレーム間の変化を示すデータには、例えば、差分、及び動きベクトル等が含まれる。
差分は、今回のフレームに含まれる所定の範囲の各画素の輝度と色差の値と、前回のフレームに含まれる当該所定の範囲の各画素の輝度と色差の値との差分絶対値和(SAD:Sum of Absolute Difference)、差分二乗和(SSD:Sum of Squared Difference)、絶対値変換差分和(SATD:Sum of Absolute Transformed Difference)等である。動きベクトルは、連続する各フレーム間において予測された符号化対象ブロックの移動方向を示すデータである。
また、HEVCやAVC等では、予測ブロック(PU: Prediction Unit)ごとに動き補償予測が行われる。
図8A、及び図8Bは、HEVCにおける動き情報について説明する図である。隣接し合う各予測ブロックは、似たような動きを有すると考えられるため、HEVCでは、予測ブロック毎に別々の動きベクトルを符号化するのではなく、隣接し合う各予測ブロックの動きベクトルを統合して符号化する。図8Aの例では、予測ブロック毎の動きベクトルが矢印801等により示されている。図8Bの例では、隣接し合う各予測ブロックにて統合された動きベクトルが矢印802等により示されている。
符号化部212は、動き補償のための当該各データを生成すると、生成した各データを、メモリ装置に格納する。
また、検出部214は、当該各データを用いて、例えば、画像中の各オブジェクトの動き等を検出してもよい。この場合、検出部214は、所定数以上の予測ブロックの集合であって、各予測ブロックのサイズが所定値以下である予測ブロックの集合の動きが符号化部212により統合されている場合に、当該集合に含まれる各予測ブロックの領域を優先的に検索するようにしてもよい。これにより、例えば、リアルタイムで動画像を解析する場合に、動いている物体を検出する処理の精度をより向上させるとともに、当該処理をより高速化できる。
≪特徴データの検出処理の例4≫
特徴データの検出処理の例4として、符号化処理中に得られる、フレームの複雑度を示すデータ(「符号化処理に用いられるデータ」の一例。)を用いて、複雑度に関する特徴データを比較的高速に検出する例について説明する。
特徴データの検出処理の例4として、符号化処理中に得られる、フレームの複雑度を示すデータ(「符号化処理に用いられるデータ」の一例。)を用いて、複雑度に関する特徴データを比較的高速に検出する例について説明する。
符号化部212は、HEVCやAVC等のイントラ予測において、1つのフレーム内の輝度、色差のSAD(差分絶対値和)、及びSATD(絶対値変換差分和)等の各データを算出する。
符号化部212は、イントラ予測における当該各データを生成すると、生成した各データを、メモリ装置に格納する。
<被写体の行動を表示する処理>
次に、図9を参照し、表示制御装置30における被写体の行動を表示する処理について説明する。図9は、被写体の行動を表示する処理の一例を示すフローチャートである。
次に、図9を参照し、表示制御装置30における被写体の行動を表示する処理について説明する。図9は、被写体の行動を表示する処理の一例を示すフローチャートである。
ステップS101において、表示制御装置30の受信部31は、動画像と特徴データを動画像解析装置20から受信し、蓄積部32に格納する。図10は、特徴データ111の一例を示す図である。図10に示す特徴データ111には、フレームIDに対応付けて、日時と、被写体ID毎の年齢、性別、身長(cm)、位置、及び向き等が記憶されている。フレームIDは、動画像におけるフレームの識別情報である。日時は、当該フレームが撮影された日時である。被写体IDは、当該フレームから検出された被写体の識別情報である。年齢は、当該フレームから推定された被写体の年齢である。性別は、当該フレームから推定された被写体の年齢である。身長は、当該フレームから推定された被写体の身長である。位置は、当該フレームを撮像した撮像端末10が設置されている空間における、当該被写体の位置である。向きは、当該空間における、当該被写体の顔または体の向きである。
続いて、表示制御装置30の受付部33は、表示に関する条件を受け付ける(ステップS102)。ここで、表示制御装置30の受付部33は、例えば、表示対象とする被写体の属性、表示対象とする期間等の指定を受け付ける。
表示制御装置30の受付部33は、例えば、建屋、季節、気温、天気、時間、日、週、月、曜日等の条件の指定を受け付けてもよい。
続いて、表示制御装置30の表示制御部34は、指定された条件に応じて、被写体の行動を表す表示画面のデータを生成する(ステップS103)。
続いて、表示制御装置30の表示制御部34は、生成した表示画面を、表示端末40に表示する(ステップS104)。
図11A乃至図11Cは、表示制御装置30の表示制御部34により表示端末40の画面に表示する、被写体の行動を表す表示画面の一例について説明する図である。図11Aの例では、表示対象とする被写体の属性として、性別が「男性」、年齢が「20代」と指定されており、日付が「12月26日」、時間が「12:10~12:15」、フロアが「1F」と指定されている。表示制御装置30の表示制御部34は、指定された各条件を抽出条件の表示領域1001に表示するとともに、当該抽出条件に基づいて、12月26日の12:10~12:15の間に1階を訪れた20代の男性の被写体を表示対象としている。図11Aの例では、表示対象とする被写体の属性として、性別が「男性」、年齢が「20代」と指定されているが、被写体の属性は未設定で表示可能としてもよい。未設定の属性については、選択可能なすべての属性が表示対象となる。
図11Aの例では、表示制御装置30の表示制御部34は、棚1002A乃至棚1002Dの配置と、被写体A乃至被写体Eの行動とが表示されている。表示制御装置30の表示制御部34は、棚1002A乃至棚1002Dが配置された位置を、表示制御装置30において予め設定されているデータを用いて判定してもよいし、動画像解析装置20により動画像から検出された位置としてもよい。
アイコン1011、アイコン1021、アイコン1031、アイコン1041、及びアイコン1051は、それぞれ、被写体A乃至被写体Eの、指定された期間における最後の時点(12:15)での位置を示す。なお、抽出条件の表示領域1001において、時間が「12:10~現在」と指定された場合は、アイコン1011等は、リアルタイムな被写体A等の現在の位置の変化を示す。
以下では、被写体Aに関するアイコンについて説明するが、他の被写体に関するアイコンについても同様である。アイコン1011の尖った方向1012は、当該最後の時点での被写体Aでの顔または体の向きを示している。
表示制御装置30の表示制御部34は、円1013、円1014A乃至円1014Jに示すように、被写体の滞在時間の長さに応じた大きさの図形データを、当該被写体が滞在している位置に表示する。この場合、表示制御装置30の表示制御部34は、例えば、被写体の一の時点における位置からの移動距離が閾値以下である時間長に応じた大きさの図形データを、当該位置に表示する。
円1013は、アイコン1011の位置における被写体Aの滞在時間の長さを示す。当該滞在時間が長い程、円1013の面積(大きさ)を大きく表示する。円1014A乃至円1014Jの中心位置は、被写体Aがアイコン1011の位置に移動するよりも前の時点における被写体Aの位置を示している。なお、円1014Jの中心位置は指定された期間における最初の時点の被写体Aの位置を示している。矢印1015A乃至矢印1015Jは、それぞれ、円1013、円1014A乃至円1014Jの中心位置間の方向、すなわち、被写体Aの移動方向を示している。矢印が長いほど、移動速度が速いことを示す。
円1013、円1014A乃至円1014Jは、例えば、所定の時間間隔(例えば、5秒毎)における被写体Aの位置を示している。また、円1013、円1014A乃至円1014Jに対応付けて、被写体Aが円1013、円1014A乃至円1014Jの中心位置に位置した時点から所定時間以内、または各中心位置から所定距離以内における、被写体Aの顔または体の向きが示されている。図11Aの例では、円1013、円1014A乃至円1014Jについて、各円の中心からの角度に応じて所定数の領域に等分し、当該所定時間以内または当該所定距離以内における被写体Aの顔または体の向きの分布を、色の明るさで示している。図11Aの例では、45度ずつ8つに分割された領域の色が暗い程(または明るい程)、被写体Aが長い時間、各円の中心から当該領域の円弧の方向を向いていたことを示している。
図11Aの例では、各被写体に対するアイコンや円等の図形データを、同様の形状とする例について説明した。これに代えて、表示制御装置30の表示制御部34は、動画像解析装置20により推定された各被写体の性別、及び年齢等に応じて、各被写体に対する図形データの形状または色等の表示態様を、それぞれ異なるように表示させてもよい。例えば、アイコンや円等の図形データを点滅、形状・色の変更をし、アラーム通知機能としてもよい。また、移動経路の線の種類の変更、点線、破線、波線に変更してもよい。被写体に対するアイコンを停止時間に応じて、図形データの代わりに面積(大きさ)を大きく表示するようにしてもよい。
図11Aの例では、表示端末40の画面に1の撮像端末10で撮像されたフレームに応じた特定の場所(地域、エリア、ゾーン)を表示する例が示されているが、表示制御部34は、複数の撮像端末10でそれぞれ撮像されたフレームに応じた、連続する場所を同時に表示してもよい。図11Bの例では、表示制御部34は、4つの撮像端末10でそれぞれ撮像されたフレームに応じた場所1111乃至場所1114を同時に並べて表示している。この場合、表示制御部34は、4つの撮像端末10でそれぞれ撮像された各フレームに関するデータを連携し、フレーム内に表示する各被写体に対するアイコンを連続的に表示してもよい。図11Bの例では、被写体Fは、移動経路1121を通り、場所1112から場所1111に移動している。また、被写体Gは、移動経路1122を通り、場所1112から場所1114を通り、場所1113に移動している。
表示制御部34は、複数の撮像端末10でそれぞれ撮像されたフレームに応じた別の場所を切り替えて表示してもよい。図11Cの例では、表示制御部34は、4つの撮像端末10でそれぞれ撮像されたフレームに応じた場所1131乃至場所1134を切り替えて表示している。図11Cの例では、場所1131は、表示領域1001のフロアの項目で指定されている「1F」、すなわち建物の1階部分の場所である。場所1132乃至場所1134は、それぞれ、当該建物の2階乃4階部分の場所である。表示領域1001のフロアの項目の指定が変更されると、表示制御部34は、指定された場所を一番手前に表示する。
図12A乃至図12Bは、被写体の行動を表す表示画面の一例について説明する図である。図12Aの例では、出入り口1201乃至出入り口1203にそれぞれ対応付けて、指定された期間等の条件により抽出された、入場者数1201A乃至1203A、及び退場者数1201B乃至1203Bが表示されている。図12の画面において、出入り口1201が選択操作されると、表示制御装置30の表示制御部34は、図12Bの画面を表示する。
図12Bの例では、出入り口1201から入場し出入り口1202から退場した被写体の経路1211、及び出入り口1201から入場し出入り口1203から退場した被写体の経路1212が示されている。
また、出入り口1202から入場し出入り口1201から退場した被写体の経路1213、及び出入り口1203から入場し出入り口1201から退場した被写体の経路1214が示されている。ここで、経路1211乃至経路1214の線が太い程、各径路を通過した被写体の数が多いことを表している。図12Bの画面で、経路1211乃至経路1214のいずれかが選択操作されると、表示制御装置30の表示制御部34は、選択された経路を通過した各被写体の行動を、上述した図10、図11と同様の表示態様により表示する。
図13は、被写体が手を伸ばした商品等の物品の位置を表す表示画面の一例について説明する図である。図11、図12A、または図12Bの表示画面において、棚1002A乃至棚1002Dのいずれかが選択されると、表示制御装置30の表示制御部34は、選択された棚に対し、被写体が手を伸ばした商品等の位置を表す表示画面を表示する。図13の例では、選択された棚における位置1301乃至位置1309に対する、1以上の被写体が手を伸ばした回数の分布を示している。表示制御装置30の表示制御部34は、例えば、位置1301乃至位置1309に対し、当該被写体が手を伸ばした回数が多い程、暗い色(または明るい色)で表示する。滞在位置1311乃至1313は、当該棚に当該被写体が手を伸ばしている際の、当該被写体の滞在位置であり、各滞在位置の円が大きい程、当該被写体が長く滞在していることが示されている。
図14は、被写体の行動を表す表示画面の一例について説明する図である。円1401A乃至円1401Mは、図11の円1013、円1014A乃至円1014J等と同様であり、被写体の位置や向き等を表している。
図14の例では、表示制御装置30の表示制御部34は、図形データ1411乃至図形データ1415により、被写体が手を伸ばした各位置に配置されている各商品等を示している。また、表示制御装置30の表示制御部34は、図形データ1411乃至図形データ1415の領域内に、各商品等の名称(「物品の情報」の一例。)を表示させている。なお、表示制御装置30の表示制御部34は、被写体が手を伸ばした位置に商品等の図形データが配置されていない場合、例えば、被写体が手を伸ばした位置に、人間の手の形のアイコン等を表示させてもよい。なお、表示制御装置30の表示制御部34は、図形データ1411乃至図形データ1415が配置された位置、及び名称を、表示制御装置30において予め設定されているデータを用いて表示させてもよいし、動画像解析装置20により動画像から検出されたデータを用いて表示させてもよい。
また、表示制御装置30の表示制御部34は、被写体により購入された商品等と、被写体が手を伸ばしたものの購入していない商品等を、例えば、色を異ならせる等、異なる表示態様で表示させてもよい。図14の例では、表示制御装置30の表示制御部34は、図形データ1412、及び図形データ1414により、手に取って購入した商品等が配置されていた位置を示している。また、図形データ1411、図形データ1413、及び図形データ1415により、被写体が手を伸ばしたものの購入していない商品等が配置されていた位置を示している。
なお、表示制御装置30の表示制御部34は、手に取って購入した商品等と、被写体が手を伸ばしたものの購入していない商品等を、動画像解析装置20により動画像から検出されたデータにより判定してもよい。この場合、動画像解析装置20の検出部214は、例えば、商品等が当該被写体によりレジの位置に持って行かれた場合に、購入したと推定してもよい。また、表示制御装置30の表示制御部34は、手に取って購入した商品等と、被写体が手を伸ばしたものの購入していない商品等を、動画像解析装置20により動画像から検出されたデータと、撮像端末10が設置されている店舗のPOS(Point Of Sales)システムから取得したデータとに基づいて判定してもよい。
<変形例1>
動画像解析装置20の検出部214は、動画像から、棚、及び商品等の静止物の変化を検出し、表示制御装置30の表示制御部34は、図11等の表示画面において、被写体の行動とともに、当該静止物の変化を示す図形データを表示させてもよい。これにより、物体の置き去り、忘れ物、万引き、商品の補充タイミング、商品等の配列の乱れ、火事、開閉が禁止されたドアの開閉等を検知できる。
動画像解析装置20の検出部214は、動画像から、棚、及び商品等の静止物の変化を検出し、表示制御装置30の表示制御部34は、図11等の表示画面において、被写体の行動とともに、当該静止物の変化を示す図形データを表示させてもよい。これにより、物体の置き去り、忘れ物、万引き、商品の補充タイミング、商品等の配列の乱れ、火事、開閉が禁止されたドアの開閉等を検知できる。
この場合、表示制御部34は、常設されている棚等や、被写体(人物)と認識する被写体以外の物をフレーム内で検出した場合、当該物を画像認識し、例えばバック、火、及び煙等の当該物を示す図形データを、当該物の位置に表示してもよい。図15A乃至図15Dは、忘れ物を報知する処理の一例について説明する図である。図15Aの例では、表示制御部34は、棚1501乃至棚1503が設置されている場所において、所定の被写体が、移動経路1511で移動していることを示している。図15Bは、図15Aの状態から所定時間経過した状態の例である。図15Bの例では、表示制御部34は、当該所定の被写体が、移動経路1512で移動していること、及び当該所定の被写体以外の被写体として認識したバッグ等の物品を示す図形データ1513を表示している。ここで、表示制御部34は、当該所定の被写体と、当該物品との距離が所定の閾値以下であるため、当該所定の被写体と、当該物品とを対応付けて記憶しておく。
図15Cは、図15Bの状態から所定時間経過した状態の例である。図15Cの例では、当該所定の被写体が、移動経路1514で移動していることを示している。図15Dは、図15Cの状態から所定時間経過した状態の例である。図15Dの例では、当該所定の被写体はフレーム内で検出されなくなっている。表示制御部34は、例えば、当該物品と当該所定の被写体との距離が所定の閾値以上となった場合、または、当該物品に対応付けて記憶している当該所定の被写体が検出されない状態が所定時間以上継続した場合、表示端末40にその旨を通知してもよい。または当該物体の近傍に設置されているデジタルサイネージ等のディスプレイにその旨を通知してもよい。
<変形例2>
表示制御装置30の表示制御部34は、被写体が所定の行動をとった場合に、
通知を行うようにしてもよい。この場合、表示制御装置30の表示制御部34は、例えば、動画像解析装置20の検出部214により、被写体の転倒、うずくまり、立入禁止区間への立ち入り、徘徊等を検知した場合に、その旨を表示端末40に報知する。
表示制御装置30の表示制御部34は、被写体が所定の行動をとった場合に、
通知を行うようにしてもよい。この場合、表示制御装置30の表示制御部34は、例えば、動画像解析装置20の検出部214により、被写体の転倒、うずくまり、立入禁止区間への立ち入り、徘徊等を検知した場合に、その旨を表示端末40に報知する。
<変形例3>
表示制御装置30の表示制御部34は、例えば、被写体が迷っていることが検知された場合、表示端末40にその旨を通知する、または当該被写体の近傍に設置されているデジタルサイネージ等のディスプレイに、店舗の地図等を表示させてもよい。この場合、表示制御装置30の表示制御部34は、所定の位置での滞在時間が閾値以上であり、顔等の向きの分布のバラつきが所定の閾値以上であり周囲をしきりに見回している場合に、被写体が迷っていると判定してもよい。
表示制御装置30の表示制御部34は、例えば、被写体が迷っていることが検知された場合、表示端末40にその旨を通知する、または当該被写体の近傍に設置されているデジタルサイネージ等のディスプレイに、店舗の地図等を表示させてもよい。この場合、表示制御装置30の表示制御部34は、所定の位置での滞在時間が閾値以上であり、顔等の向きの分布のバラつきが所定の閾値以上であり周囲をしきりに見回している場合に、被写体が迷っていると判定してもよい。
<その他>
上述した実施形態によれば、動画像データに基づいて検出された、被写体の移動、及び前記被写体の顔または体の向きを取得し、各時点における前記被写体の位置、前記被写体の移動方向、及び前記被写体の顔または体の向きをそれぞれ表す各図形データを表示する。これにより、被写体の行動を比較的容易に把握できる。
上述した実施形態によれば、動画像データに基づいて検出された、被写体の移動、及び前記被写体の顔または体の向きを取得し、各時点における前記被写体の位置、前記被写体の移動方向、及び前記被写体の顔または体の向きをそれぞれ表す各図形データを表示する。これにより、被写体の行動を比較的容易に把握できる。
上述した実施形態は、店舗において顧客が商品を手に取ったか、当該商品を購入したか等を分析するデジタルマーケティングシステム、画像から人を認識する監視カメラシステム等に適用できる。また、店舗において顧客の歩行経路を分析することで、フロアレイアウトの検討、火災時の避難経路検討、迷子検索に適応することができる。
上述した実施形態は、個人を特定せずに行動を追跡することができプライバシーの保護をすることができる。また、個人を特定することで、行動を追跡することもできる。
また、上述した実施形態は、医療施設・介護施設・老人ホーム・高齢者向け住宅において、施設利用者の行動を把握し、施設内で安全に過ごし事故を少なくするための経路を分析するために、画像から人を認識する監視カメラシステム等に適用できる。
以上、本発明の実施例について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
動画像解析装置20、及び表示制御装置30の各機能部は、例えば1以上のコンピュータにより構成されるクラウドコンピューティングにより実現されていてもよい。また、動画像解析装置20、及び表示制御装置30を一体の装置として構成してもよい。動画像解析装置20の各機能部のうち少なくとも一部を、表示制御装置30が有するようにしてもよい。
1 通信システム
10 撮像端末
20 動画像解析装置
211 復号部
212 符号化部
213 取得部
214 検出部
215 出力部
216 制御部
30 表示制御装置
31 受信部
32 蓄積部
33 受付部
34 表示制御部
40 表示端末
10 撮像端末
20 動画像解析装置
211 復号部
212 符号化部
213 取得部
214 検出部
215 出力部
216 制御部
30 表示制御装置
31 受信部
32 蓄積部
33 受付部
34 表示制御部
40 表示端末
Claims (9)
- 動画像データに基づいて検出された、被写体の移動を示すデータ、及び前記被写体の顔または体の向きを示すデータが入力される受信部と、
前記動画像データの各時点における前記被写体の位置、前記被写体の移動方向、及び前記被写体の顔または体の向きをそれぞれ示す図形データを出力する表示制御部と、
を有する表示制御装置。 - 前記表示制御部は、前記被写体が位置している時間の長さに応じた図形データを出力する、
請求項1に記載の表示制御装置。 - 前記表示制御部は、前記被写体の位置を示す図形データに対応付けて、当該位置における前記被写体の顔または体の向きの分布を示すデータを出力する、
請求項1または2に記載の表示制御装置。 - 前記受信部は、前記動画像データに基づいて検出された、前記被写体が物品に対して手を伸ばした際の前記被写体の手の位置を示すデータが入力され、
前記表示制御部は、前記被写体の手の位置を示す図形データを出力する、
請求項1乃至3のいずれか一項に記載の表示制御装置。 - 前記受信部は、前記動画像データに基づいて検出された、前記被写体が手を伸ばした物品の情報が入力され、
前記表示制御部は、前記被写体が手を伸ばした物品の情報を、前記被写体の位置を示す図形データに対応付けて出力する、
請求項1乃至4のいずれか一項に記載の表示制御装置。 - 前記受信部は、前記被写体が購入した物品の情報が入力され、
前記表示制御部は、前記被写体が購入した物品が配置されていた位置、及び前記被写体が手を伸ばしたが購入していない物品が配置されていた位置の少なくとも一つのデータを出力する、
請求項5に記載の表示制御装置。 - 動画像解析装置、及び表示制御装置を有する表示制御システムであって、
前記動画像解析装置は、
動画像を符号化する符号化部と、
前記符号化部による前記動画像が圧縮されて符号化処理に用いられるデータを取得する取得部と、
前記取得部により取得されたデータに基づいて、被写体の移動、及び前記被写体の顔または体の向きの情報を含む特徴データを前記動画像から検出する検出部と、
を有し、
前記表示制御装置は、
前記特徴データが入力される受信部と、
前記動画像の各時点における前記被写体の位置、前記被写体の移動方向を示すデータ、及び前記被写体の顔または体の向きをそれぞれ示す図形データを出力する表示制御部と、を有する表示制御システム。 - 表示制御装置が、
動画像データに基づいて検出された、被写体の移動を示すデータ、及び前記被写体の顔または体の向きを示すデータを受信する処理と、
前記動画像データの各時点における前記被写体の位置、前記被写体の移動方向、及び前記被写体の顔または体の向きをそれぞれ示す図形データを出力する処理と、
を実行する表示制御方法。 - 表示制御装置に、
動画像データに基づいて検出された、被写体の移動を示すデータ、及び前記被写体の顔または体の向きを示すデータを受信する処理と、
前記動画像データの各時点における前記被写体の位置、前記被写体の移動方向、及び前記被写体の顔または体の向きをそれぞれ示す図形データを出力する処理と、
を実行するプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/005886 WO2019162988A1 (ja) | 2018-02-20 | 2018-02-20 | 表示制御装置、表示制御システム、表示制御方法、及びプログラム |
JP2020501872A JP7147835B2 (ja) | 2018-02-20 | 2018-02-20 | 表示制御装置、表示制御システム、表示制御方法、及びプログラム |
US16/993,005 US11321949B2 (en) | 2018-02-20 | 2020-08-13 | Display control device, display control system, and display control method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/005886 WO2019162988A1 (ja) | 2018-02-20 | 2018-02-20 | 表示制御装置、表示制御システム、表示制御方法、及びプログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
US16/993,005 Continuation US11321949B2 (en) | 2018-02-20 | 2020-08-13 | Display control device, display control system, and display control method |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2019162988A1 true WO2019162988A1 (ja) | 2019-08-29 |
Family
ID=67687126
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2018/005886 WO2019162988A1 (ja) | 2018-02-20 | 2018-02-20 | 表示制御装置、表示制御システム、表示制御方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11321949B2 (ja) |
JP (1) | JP7147835B2 (ja) |
WO (1) | WO2019162988A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021064943A1 (ja) * | 2019-10-03 | 2021-04-08 | 三菱電機株式会社 | 表示処理装置、表示処理方法及びプログラム |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113812139A (zh) * | 2019-05-21 | 2021-12-17 | 索尼集团公司 | 图像处理设备、图像处理方法和程序 |
CN112492249B (zh) * | 2019-09-11 | 2024-04-09 | 瑞昱半导体股份有限公司 | 图像处理方法及电路 |
US20220272303A1 (en) * | 2021-02-24 | 2022-08-25 | Amazon Technologies, Inc. | Techniques for displaying motion information with videos |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011205212A (ja) * | 2010-03-24 | 2011-10-13 | Fujitsu Ltd | 動画像符号化装置及び動きベクトル検出方法 |
WO2015033577A1 (ja) * | 2013-09-06 | 2015-03-12 | 日本電気株式会社 | 顧客行動分析システム、顧客行動分析方法、非一時的なコンピュータ可読媒体及び棚システム |
WO2015129210A1 (ja) * | 2014-02-25 | 2015-09-03 | 日本電気株式会社 | 情報処理装置、データ分析方法、及び、記録媒体 |
WO2017170084A1 (ja) * | 2016-03-31 | 2017-10-05 | 日本電気株式会社 | 動線表示システム、動線表示方法およびプログラム記録媒体 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8310542B2 (en) | 2007-11-28 | 2012-11-13 | Fuji Xerox Co., Ltd. | Segmenting time based on the geographic distribution of activity in sensor data |
US8009863B1 (en) * | 2008-06-30 | 2011-08-30 | Videomining Corporation | Method and system for analyzing shopping behavior using multiple sensor tracking |
US9747497B1 (en) * | 2009-04-21 | 2017-08-29 | Videomining Corporation | Method and system for rating in-store media elements |
JP5480735B2 (ja) | 2010-07-02 | 2014-04-23 | 株式会社日立製作所 | 遠隔監視システム |
US20160034924A1 (en) * | 2011-01-14 | 2016-02-04 | Shopper Scientist Llc | Estimating distribution of persons in a physical environment |
JP5597762B1 (ja) | 2013-12-27 | 2014-10-01 | パナソニック株式会社 | 活動マップ分析装置、活動マップ分析システムおよび活動マップ分析方法 |
-
2018
- 2018-02-20 WO PCT/JP2018/005886 patent/WO2019162988A1/ja active Application Filing
- 2018-02-20 JP JP2020501872A patent/JP7147835B2/ja active Active
-
2020
- 2020-08-13 US US16/993,005 patent/US11321949B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011205212A (ja) * | 2010-03-24 | 2011-10-13 | Fujitsu Ltd | 動画像符号化装置及び動きベクトル検出方法 |
WO2015033577A1 (ja) * | 2013-09-06 | 2015-03-12 | 日本電気株式会社 | 顧客行動分析システム、顧客行動分析方法、非一時的なコンピュータ可読媒体及び棚システム |
WO2015129210A1 (ja) * | 2014-02-25 | 2015-09-03 | 日本電気株式会社 | 情報処理装置、データ分析方法、及び、記録媒体 |
WO2017170084A1 (ja) * | 2016-03-31 | 2017-10-05 | 日本電気株式会社 | 動線表示システム、動線表示方法およびプログラム記録媒体 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021064943A1 (ja) * | 2019-10-03 | 2021-04-08 | 三菱電機株式会社 | 表示処理装置、表示処理方法及びプログラム |
JPWO2021064943A1 (ja) * | 2019-10-03 | 2021-04-08 | ||
JP6996669B2 (ja) | 2019-10-03 | 2022-02-04 | 三菱電機株式会社 | 表示処理装置、表示処理方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20200372260A1 (en) | 2020-11-26 |
JP7147835B2 (ja) | 2022-10-05 |
JPWO2019162988A1 (ja) | 2021-02-25 |
US11321949B2 (en) | 2022-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6741130B2 (ja) | 情報処理システム、情報処理方法及びプログラム | |
US11321949B2 (en) | Display control device, display control system, and display control method | |
US10699541B2 (en) | Recognition data transmission device | |
EP2795600B1 (en) | Cloud-based video surveillance management system | |
US8295545B2 (en) | System and method for model based people counting | |
US7280673B2 (en) | System and method for searching for changes in surveillance video | |
JP6597609B2 (ja) | 画像処理装置、監視システム、画像処理方法、及びプログラム | |
CN113347387B (zh) | 影像监视系统和影像监视方法 | |
JP2018160219A (ja) | 移動経路予測装置、及び移動経路予測方法 | |
JP6233624B2 (ja) | 情報処理システム、情報処理方法及びプログラム | |
JP7416165B2 (ja) | 情報処理装置 | |
JP2018085597A (ja) | 人物行動監視装置および人物行動監視システム | |
US11120838B2 (en) | Information processing apparatus, control method, and program | |
KR101526499B1 (ko) | 객체검출 기능을 이용한 보안용 네트워크 방범 감시 시스템 및 이를 이용한 지능형 영상 분석 방법 | |
WO2019135270A1 (ja) | 動画像解析装置、動画像解析システム、動画像解析方法、及びプログラム | |
Rothmeier et al. | Comparison of Machine Learning and Rule-based Approaches for an Optical Fall Detection System | |
JP7246166B2 (ja) | 画像監視システム | |
Padamwar et al. | Violence detection in surveillance video using computer vision techniques | |
CN113468913A (zh) | 数据处理、动作识别、模型训练方法、设备及存储介质 | |
US20220269890A1 (en) | Method and system for visual analysis and assessment of customer interaction at a scene | |
WO2024079777A1 (ja) | 情報処理システム、情報処理装置、情報処理方法及び記録媒体 | |
JP2017045423A (ja) | 映像処理装置、映像処理方法、映像処理システム、およびプログラム | |
Pham et al. | Utilizing Deep Learning Models to Develop a Human Behavior Recognition System for Vision-Based School Violence Detection | |
Van Der Haar | Affective user threat profiling using computer vision-based heart rate estimation in profile-based surveillance environments | |
JP2023098482A (ja) | 情報処理プログラム、情報処理方法および情報処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 18906982 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2020501872 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 18906982 Country of ref document: EP Kind code of ref document: A1 |