WO2024047791A1 - 映像処理システム、映像処理方法、及び映像処理装置 - Google Patents

映像処理システム、映像処理方法、及び映像処理装置 Download PDF

Info

Publication number
WO2024047791A1
WO2024047791A1 PCT/JP2022/032761 JP2022032761W WO2024047791A1 WO 2024047791 A1 WO2024047791 A1 WO 2024047791A1 JP 2022032761 W JP2022032761 W JP 2022032761W WO 2024047791 A1 WO2024047791 A1 WO 2024047791A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
gaze
gaze target
area
person
Prior art date
Application number
PCT/JP2022/032761
Other languages
English (en)
French (fr)
Inventor
康敬 馬場崎
勝彦 高橋
君 朴
隆平 安藤
孝法 岩井
浩一 二瓶
フロリアン バイエ
勇人 逸身
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2022/032761 priority Critical patent/WO2024047791A1/ja
Publication of WO2024047791A1 publication Critical patent/WO2024047791A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Definitions

  • the present disclosure relates to a video processing system, a video processing method, and a video processing device.
  • Patent Document 1 is known as a related technology.
  • Patent Document 1 describes a remote monitoring system in which images captured by multiple cameras mounted on a vehicle are transmitted via a network, according to the available bandwidth of the network and the importance of objects detected by each camera. describes a technique for allocating bandwidth to each camera.
  • Patent Document 1 also describes predicting the position of a target object and acquiring a region where the target object can exist.
  • Patent Document 1 it is possible to appropriately control the band for transmitting the video according to the importance of the object detected from the video.
  • recognition processing such as action recognition on videos, it is desirable to improve recognition accuracy.
  • the present disclosure aims to provide a video processing system, a video processing method, and a video processing device that can improve recognition accuracy.
  • a video processing system includes an image quality control unit that controls the image quality of a gaze area including a gaze target in an input video, and a recognition system that recognizes the gaze target in the video in which the image quality of the gaze area is controlled.
  • a recognition unit that executes a process;
  • a prediction unit that predicts a position of the gaze target in a video subsequent to the video that has undergone the recognition process based on extracted information extracted from the recognition process;
  • the image quality control means determines, based on the position of the object, the region of interest in which the image quality control means controls the image quality in the subsequent video.
  • a video processing method controls the image quality of a gaze area including a gaze target in an input video, and performs recognition processing for recognizing the gaze target on the video in which the image quality of the gaze area is controlled. , based on the extracted information extracted from the recognition process, predict the position of the gaze target in the video after the video subjected to the recognition process, and based on the predicted position of the gaze target, predict the position of the gaze target after the video after the recognition process.
  • the above-mentioned gaze area is determined to control the image quality in the video.
  • a video processing device includes an image quality control unit that controls the image quality of a gaze area including a gaze target in an input video, and a recognition system that recognizes the gaze target in the video in which the image quality of the gaze area is controlled.
  • a recognition unit that executes a process;
  • a prediction unit that predicts a position of the gaze target in a video subsequent to the video that has undergone the recognition process based on extracted information extracted from the recognition process;
  • the image quality control means determines, based on the position of the object, the region of interest in which the image quality control means controls the image quality in the subsequent video.
  • FIG. 1 is a configuration diagram showing an overview of a video processing system according to an embodiment.
  • FIG. 1 is a configuration diagram showing an overview of a video processing device according to an embodiment.
  • 1 is a flowchart showing an overview of a video processing method according to an embodiment.
  • FIG. 1 is a configuration diagram showing the basic configuration of a remote monitoring system.
  • 1 is a configuration diagram showing a configuration example of a terminal according to Embodiment 1.
  • FIG. 1 is a configuration diagram showing an example configuration of a center server according to Embodiment 1.
  • FIG. FIG. 2 is a configuration diagram showing a configuration example of a behavior recognition unit according to Embodiment 1.
  • FIG. FIG. 3 is a configuration diagram showing another configuration example of the behavior recognition unit according to the first embodiment.
  • FIG. 3 is a flowchart illustrating an example of the operation of the remote monitoring system according to the first embodiment.
  • FIG. 3 is a diagram for explaining video acquisition processing according to the first embodiment.
  • FIG. 3 is a diagram for explaining object detection processing according to the first embodiment.
  • 5 is a flowchart illustrating an operation example of behavior recognition processing according to the first embodiment.
  • FIG. 3 is a diagram for explaining behavior recognition processing according to the first embodiment.
  • FIG. 3 is a diagram for explaining behavior recognition processing according to the first embodiment.
  • 7 is a flowchart showing another example of the action recognition process according to the first embodiment.
  • FIG. 3 is a diagram for explaining behavior recognition processing according to the first embodiment.
  • FIG. 3 is a diagram for explaining gaze target position prediction processing according to the first embodiment.
  • FIG. 3 is a diagram for explaining gaze target position prediction processing according to the first embodiment.
  • FIG. 3 is a diagram for explaining gaze target position prediction processing according to the first embodiment.
  • FIG. 3 is a diagram for explaining gaze area determination processing according to the first embodiment.
  • FIG. 2 is a configuration diagram showing a configuration example of a terminal according to Embodiment 2.
  • FIG. 7 is a flowchart illustrating an example of the operation of the remote monitoring system according to the second embodiment. 7 is a flowchart illustrating an operation example of matching determination processing according to the second embodiment. 7 is a diagram for explaining matching determination processing according to Embodiment 2.
  • FIG. FIG. 1 is a configuration diagram showing an overview of the hardware of a computer according to an embodiment.
  • the bandwidth of the network that transmits the video is limited, so it is preferable to suppress the amount of video data to be transmitted as much as possible.
  • the amount of video data can be reduced by increasing the video compression rate.
  • the video compression rate is high or the data loss rate is high, the number of erroneous recognitions increases and the recognition accuracy decreases. Therefore, in the embodiment, it is possible to prevent erroneous recognition while suppressing the amount of video data to be transmitted as much as possible.
  • FIG. 1 shows a schematic configuration of a video processing system 10 according to an embodiment.
  • the video processing system 10 is applicable to, for example, a remote monitoring system that collects video via a network and monitors the video.
  • the video processing system 10 includes an image quality control section 11, a recognition section 12, a prediction section 13, and a determination section 14.
  • the image quality control unit 11 controls the image quality of the gaze area including the gaze target in the input video. For example, the image quality control unit 11 may make the image quality of the gaze area higher than that of other areas, that is, make it clearer.
  • the recognition unit 12 executes a recognition process for recognizing the gaze target on the video whose image quality in the gaze area has been controlled by the image quality control unit 11.
  • the recognition process is, for example, an action recognition process that recognizes the behavior of the gaze target, but may also be a process that recognizes information or characteristics regarding other gaze targets.
  • the prediction unit 13 determines the position of the gaze target in a video subsequent to the video on which the recognition process has been performed, based on information extracted regarding the gaze target and extracted from the recognition process executed by the recognition unit 12. Predict.
  • the extraction information is information regarding an extraction target extracted from a video by the video processing system 10.
  • the extracted information may include time-series position information of the gaze target, or may include action recognition results that are an example of recognition results in recognition processing.
  • the determining unit 14 determines, based on the position of the target of gaze predicted by the predicting unit 13, a gaze area in which the image quality control unit 11 will control the image quality in a subsequent video.
  • the image quality control unit 11 controls the image quality of the gaze area determined by the determination unit 14 with respect to the input video.
  • the image quality control unit 11 first controls the image quality according to a predetermined rule (for example, sharpening all areas), and then the prediction unit 13 predicts the gaze target and the determination unit 14 determines the gaze area. After the determination, the image quality of the determined gaze area is controlled.
  • a predetermined rule for example, sharpening all areas
  • FIG. 2 shows the configuration of a video processing device 20 according to the embodiment.
  • the video processing device 20 may include the image quality control section 11, the recognition section 12, the prediction section 13, and the determination section 14 shown in FIG.
  • part or all of the video processing system 10 may be placed at the edge or in the cloud.
  • the edge is a device placed at or near the site, and is also a device close to the terminal as a layer of the network.
  • the image quality control unit 11 and the determination unit 14 may be placed in an edge terminal, and the recognition unit 12 and prediction unit 13 may be placed in a cloud server.
  • each function may be distributed and arranged in the cloud.
  • FIG. 3 shows a video processing method according to an embodiment.
  • the video processing method according to the embodiment is executed by the video processing system 10 in FIG. 1 or the video processing device 20 in FIG. 2.
  • the image quality of the gaze area including the gaze target in the input video is controlled (S11).
  • a recognition process for recognizing a gaze target is performed on the video whose image quality in the gaze area has been controlled (S12).
  • the position of the gaze target in the video after the video subjected to the recognition process is predicted (S13).
  • the image quality control unit 11 determines the gaze area for controlling the image quality in the subsequent video (S14). Furthermore, the process returns to S11, and the image quality of the determined gaze area is controlled for the input video.
  • the position of the gaze target in the subsequent video is predicted based on the extracted information extracted from the recognition processing performed on the video, and the position of the gaze target in the subsequent video is predicted based on the prediction result.
  • Determine the gaze area to control the image quality in the video it is possible to appropriately determine the area in which the image quality is to be controlled, so that it is possible to suppress the amount of video data, prevent erroneous recognition, and improve recognition accuracy.
  • FIG. 4 shows the basic configuration of the remote monitoring system 1.
  • the remote monitoring system 1 is a system that monitors an area where images are taken by a camera.
  • the system will be described as a system for remotely monitoring the work of workers at the site.
  • the site may be an area where people and machines operate, such as a work site such as a construction site, a public square where people gather, or a school.
  • the work will be described as construction work, civil engineering work, etc., but is not limited thereto.
  • the remote monitoring system can be said to be a video processing system that processes videos, and also an image processing system that processes images.
  • the remote monitoring system 1 includes a plurality of terminals 100, a center server 200, a base station 300, and an MEC 400.
  • the terminal 100, base station 300, and MEC 400 are placed on the field side, and the center server 200 is placed on the center side.
  • the center server 200 is located at a data center, monitoring center, or the like that is located away from the site.
  • the field side is the edge side of the system, and the center side is also the cloud side.
  • the center server 200 may be configured with one device, or may be configured with a plurality of devices. Further, part or all of the center server 200 may be placed in the cloud.
  • the video recognition function 201 and the alert generation function 202 may be placed in the cloud
  • the GUI drawing function 203 and the screen display function 204 may be placed in a monitoring center or the like.
  • Terminal 100 and base station 300 are communicably connected via network NW1.
  • the network NW1 is, for example, a wireless network such as 4G, local 5G/5G, LTE (Long Term Evolution), or wireless LAN.
  • Base station 300 and center server 200 are communicably connected via network NW2.
  • the network NW2 includes, for example, core networks such as 5GC (5th Generation Core network) and EPC (Evolved Packet Core), the Internet, and the like. It can also be said that the terminal 100 and the center server 200 are communicably connected via the base station 300.
  • 5GC Fifth Generation Core network
  • EPC Evolved Packet Core
  • the base station 300 and MEC 400 are communicably connected by any communication method, the base station 300 and MEC 400 may be one device.
  • the terminal 100 is a terminal device connected to the network NW1, and is also a video generation device that generates on-site video.
  • the terminal 100 acquires an image captured by a camera 101 installed at the site, and transmits the acquired image to the center server 200 via the base station 300.
  • the camera 101 may be placed outside the terminal 100 or inside the terminal 100.
  • the terminal 100 compresses the video from the camera 101 to a predetermined bit rate and transmits the compressed video.
  • the terminal 100 has a compression efficiency optimization function 102 that optimizes compression efficiency and a video transmission function 103.
  • the compression efficiency optimization function 102 performs ROI control to control the image quality of a ROI (Region of Interest).
  • the compression efficiency optimization function 102 reduces the bit rate by lowering the image quality of the region around the ROI while maintaining the image quality of the ROI including the person or object.
  • the video transmission function 103 transmits the quality-controlled video to the center server 200.
  • the base station 300 is a base station device of the network NW1, and is also a relay device that relays communication between the terminal 100 and the center server 200.
  • the base station 300 is a local 5G base station, a 5G gNB (next Generation Node B), an LTE eNB (evolved Node B), a wireless LAN access point, or the like, but may also be another relay device.
  • MEC 400 is an edge processing device placed on the edge side of the system.
  • the MEC 400 is an edge server that controls the terminal 100, and has a compression bit rate control function 401 and a terminal control function 402 that control the bit rate of the terminal.
  • the compression bit rate control function 401 controls the bit rate of the terminal 100 through adaptive video distribution control and QoE (quality of experience) control. For example, the compression bit rate control function 401 predicts the recognition accuracy that will be obtained while suppressing the bit rate according to the communication environment of the networks NW1 and NW2, and sets the bit rate to the camera 101 of each terminal 100 so as to improve the recognition accuracy. Assign.
  • the terminal control function 402 controls the terminal 100 to transmit video at the assigned bit rate. Terminal 100 encodes the video at the allocated bit rate and transmits the encoded video.
  • the center server 200 is a server installed on the center side of the system.
  • the center server 200 may be one or more physical servers, or may be a cloud server built on the cloud or other virtualized servers.
  • the center server 200 is a monitoring device that monitors on-site work by recognizing people's work from on-site camera images.
  • the center server 200 is also a recognition device that recognizes the actions of people in the video transmitted from the terminal 100.
  • the center server 200 has a video recognition function 201, an alert generation function 202, a GUI drawing function 203, and a screen display function 204.
  • the video recognition function 201 inputs the video transmitted from the terminal 100 into a video recognition AI (Artificial Intelligence) engine to recognize the type of work performed by the worker, that is, the type of behavior of the person.
  • the alert generation function 202 generates an alert in response to the recognized work.
  • the GUI drawing function 203 displays a GUI (Graphical User Interface) on the screen of a display device.
  • the screen display function 204 displays images of the terminal 100, recognition results, alerts, etc. on the GUI.
  • Embodiment 1 will be described below with reference to the drawings.
  • the basic configuration of the remote monitoring system 1 according to this embodiment is as shown in FIG. 4.
  • FIG. 5 shows a configuration example of terminal 100 according to this embodiment
  • FIG. 6 shows a configuration example of center server 200 according to this embodiment.
  • the configuration of each device is an example, and other configurations may be used as long as the operation according to the present embodiment described later is possible.
  • some functions of the terminal 100 may be placed in the center server 200 or other devices, or some functions of the center server 200 may be placed in the terminal 100 or other devices.
  • the terminal 100 includes a video acquisition section 110, a detection section 120, an image quality change determination section 130, a compression efficiency determination section 140, and a terminal communication section 150.
  • the video acquisition unit 110 acquires the video captured by the camera 101 (also referred to as input video).
  • the input video includes a person who is a worker working at a site, a work object (also referred to as a used object) used by the person, and the like.
  • the video acquisition unit 110 is also an image acquisition unit that acquires a plurality of time-series images.
  • the detection unit 120 is an object detection unit that detects an object within the acquired input video.
  • the detection unit 120 detects an object in each image included in the input video, and assigns a label to the detected object, that is, an object label.
  • the object label is the class of the object and indicates the type of the object.
  • the detection unit 120 extracts a rectangular region containing an object from each image included in the input video, recognizes the object within the extracted rectangular region, and assigns a label to the recognized object.
  • the rectangular area is a bounding box or an object area. Note that the object area including the object is not limited to a rectangular area, but may be a circular area, an irregularly shaped silhouette area, or the like.
  • the detection unit 120 calculates the feature amount of the image of the object included in the rectangular area, and recognizes the object based on the calculated feature amount. For example, the detection unit 120 recognizes objects in an image using an object recognition engine that uses machine learning such as deep learning. Objects can be recognized by machine learning the features of the object image and the object label.
  • the object detection result includes an object label, position information of a rectangular area including the object, and the like.
  • the position information of the object is, for example, the coordinates of each vertex of a rectangular area, but it may also be the position of the center of the rectangular area, or the position of any point on the object.
  • the detection unit 120 transmits the detection result of the object to the image quality change determination unit 130.
  • the image quality change determination unit 130 determines a region of interest (ROI) that is an image quality change area in which the image quality of the acquired input video is changed.
  • ROI region of interest
  • the image quality change determination unit 130 is a determination unit that determines the gaze area.
  • the gaze area is an area that includes the gaze target, and is an area where the image quality is increased, that is, the image quality is made clearer. Furthermore, the gaze area can be said to be an area that ensures image quality for action recognition.
  • the image quality change determination unit 130 includes a first determination unit 131 and a second determination unit 132.
  • first the first determination unit 131 determines the gaze area
  • the second determination unit 132 determines the gaze area. Note that the determination of the gaze area by the first determination unit 131 may be omitted, and only the determination of the gaze area by the second determination unit 132 may be performed.
  • the first determination unit 131 determines the gaze area of the input video based on the detection result of the object detected within the input video.
  • the first determination unit 131 determines a gaze area based on position information of an object having a label to be gazed among detection objects detected in the input video of the detection unit 120.
  • the gaze target is a person who is the target of behavior recognition, but may also include a work object that the person can use in work.
  • the label of a work object is preset as a label of an object related to a person.
  • the second determination unit 132 determines the gaze area of the input video based on the fed back information.
  • the information fed back is prediction information about the gaze target.
  • the gaze target prediction information is information regarding the gaze target, and is information in which the center server 200 predicts the gaze target in the next video by performing action recognition.
  • the prediction information of the gaze target is information extracted from the predicted position of the gaze target and action recognition processing, and includes position information of the rectangular area of the gaze target.
  • the second determination unit 132 determines the rectangular area indicated by the acquired prediction information as the gaze area. That is, an area that ensures the image quality of the input video is determined based on the predicted position of the gaze target.
  • the prediction information acquired from the center server 200 may include the score of the behavior label, which is the behavior recognition result.
  • the second determination unit 132 may acquire the score of the behavior label that is the behavior recognition result from the center server 200, and determine whether or not to determine the gaze area based on the acquired score.
  • the score of the behavior label indicates the degree of certainty, which is the probability (probability) of the behavior label. The higher the score, the more likely the predicted behavior label is correct. For example, if the score is smaller than a predetermined value, it is determined that it is necessary to ensure the image quality of the unrecognized area and perform further action recognition, and the gaze area is determined based on the predicted information, and the score is set to the predetermined value.
  • the compression efficiency determining unit 140 does not need to improve the image quality of the region of interest.
  • the compression efficiency determining unit 140 determines the compression rate of the region of interest or an area other than the region of interest, and compresses the video.
  • the compression efficiency determining unit 140 is an encoder that encodes the input video using the determined compression rate.
  • the compression efficiency determination unit 140 may be configured, for example, by H. 264 and H.
  • the video is encoded using a video encoding method such as H.265.
  • the compression efficiency determining unit 140 encodes the input video so that the bit rate assigned by the compression bit rate control function 401 of the MEC 400 is achieved.
  • the compression efficiency determination unit 140 is an image quality control unit that controls the image quality of the attention area determined by the image quality change determination unit 130, and is an image quality improvement unit that increases the image quality of the attention area.
  • the gaze area is an area determined by either the first determination unit 131 or the second determination unit 132.
  • the compression efficiency determining unit 140 encodes the image quality of the image area to a predetermined quality by compressing the image area and other areas at predetermined compression rates. That is, by changing the compression ratio between the focused area and other areas, the image quality of the focused area is made higher than that of the other areas. It can also be said that the image quality of other areas is lower than that of the gaze area.
  • the image quality of the gaze area and other areas is controlled within the bit rate assigned by the compression bit rate control function 401 of the MEC 400.
  • the image quality of the gaze area may be controlled by changing not only the compression rate but also the image resolution, frame rate, and the like.
  • the image quality of the gaze area may be controlled by changing the amount of color information of the image, for example, color, gray scale, black and white, etc.
  • the terminal communication unit 150 transmits the encoded data encoded by the compression efficiency determination unit 140 to the center server 200 via the base station 300.
  • the terminal communication unit 150 is a transmitting unit that transmits a video whose image quality in the viewing area is controlled. Further, the terminal communication unit 150 receives prediction information of the gaze target transmitted from the center server 200 via the base station 300.
  • the terminal communication unit 150 is an acquisition unit that acquires prediction information that predicts the position of the gaze target.
  • the terminal communication unit 150 is an interface that can communicate with the base station 300, and is, for example, a wireless interface such as 4G, local 5G/5G, LTE, or wireless LAN, but may also be a wireless or wired interface of any other communication method. good.
  • the terminal communication unit 150 may include a first terminal communication unit that transmits encoded data and a second terminal communication unit that receives prediction information about the gaze target.
  • the first terminal communication section and the second terminal communication section may be communication sections using the same communication method, or may be communication sections using different communication methods.
  • the center server 200 includes a center communication section 210, a decoder 220, an action recognition section 230, an extracted information storage section 240, a gaze target analysis section 250, and a gaze target position prediction section 260.
  • the center communication unit 210 receives encoded data transmitted from the terminal 100 via the base station 300.
  • the center communication unit 210 is a receiving unit that receives video whose image quality in the viewing area is controlled. Furthermore, the center communication unit 210 transmits prediction information of the gaze target predicted by the gaze target position prediction unit 260 to the terminal 100 via the base station 300.
  • the center communication unit 210 is a notification unit that notifies prediction information that predicts the position of the gaze target.
  • the center communication unit 210 is an interface capable of communicating with the Internet or a core network, and is, for example, a wired interface for IP communication, but may be a wired or wireless interface of any other communication method.
  • the center communication unit 210 may include a first center communication unit that receives encoded data and a second center communication unit that transmits prediction information of the gaze target.
  • the first center communication section and the second center communication section may be communication sections using the same communication method, or may be communication sections using different communication methods.
  • the decoder 220 decodes the encoded data received from the terminal 100.
  • the decoder 220 corresponds to the encoding method of the terminal 100, for example, H. 264 and H.
  • the video is decoded using a video encoding method such as H.265.
  • the decoder 220 decodes each area according to the compression rate and generates a decoded video (also referred to as received video).
  • the action recognition unit 230 recognizes the action of the object in the decoded received video.
  • the behavior recognition unit 230 executes behavior recognition processing for recognizing the behavior of the gaze target on the video whose image quality in the gaze area is controlled.
  • the action recognition unit 230 detects an object from the received video and recognizes the action of the detected object.
  • the behavior recognition unit 230 recognizes the behavior of the person who is the target of behavior recognition, and assigns a label of the recognized behavior, that is, a behavior label.
  • the behavior label is a class of behavior and indicates the type of behavior.
  • the behavior recognition unit 230 recognizes the behavior of a person based on the person and the work object detected from the received video.
  • the behavior recognition unit 230 may recognize the behavior of a person by identifying the relationship between the person and the work object.
  • the relationship between a person and a work object includes which object the person is using or not using.
  • the work object may be identified for each person based on the distance between the person and the work object, and the behavior may be recognized from the identified work object. It is possible to associate work objects and tasks related to people and recognize the person's actions based on rules, or it is possible to machine learn work objects and tasks related to people and recognize the actions of people based on machine learning. It's okay.
  • the extracted information storage unit 240 stores extracted information extracted by the behavior recognition process of the behavior recognition unit 230.
  • the extracted information includes action recognition results, person detection information, work object detection information related to the action, and the like.
  • the action recognition result includes a label of the recognized action, a score of the action label, identification information of the person performing the recognized action, identification information of the work object used in the recognized action, and the like.
  • the person detection information includes position information of a rectangular area of the person, tracking information, and the like.
  • the tracking information is trajectory information indicating the tracking result of the object.
  • the detection information of the work object includes an object label, a score of the object label, position information of a rectangular area of the object, tracking information, and the like.
  • the behavior predictor (behavior recognition engine) of the behavior recognition unit 230 extracts candidates for work objects that can be related to each image by learning to give weight to objects related to the action, and Outputs information about object candidates. For example, when it recognizes a pile-driving operation, it outputs information about a hammer, which is an object related to the action.
  • the gaze target analysis unit 250 determines the gaze target based on the extracted information extracted by the behavior recognition process of the behavior recognition unit 230.
  • the extracted information may be acquired from the behavior recognition section 230 or from the extracted information storage section 240.
  • the gaze target analysis unit 250 determines a gaze target that ensures image quality in order to prevent behavioral recognition errors.
  • the gaze target analysis unit 250 determines the gaze target based on the action recognition result.
  • the gaze target analysis unit 250 targets a person whose behavior is recognized by the behavior recognition unit 230, that is, a person whose behavior is included in the behavior recognition result.
  • the person and the work object may be set as the gaze targets.
  • objects related to the work may be a "pile” and a "hammer", and the person, the "pile” and the “hammer” may be set as objects of attention.
  • the gaze target position prediction unit 260 predicts the position of the gaze target in the next video.
  • the next video is a video after the video on which the action recognition process was performed, and is the video (input video) that the terminal 100 acquires next.
  • the next video is a video after a predetermined time has elapsed since the video in which the action was recognized.
  • the timing of the next video that is, the prediction timing is, for example, after the time from when the recognized video is transmitted from the terminal 100 to when the prediction information is fed back from the center server 200 to the terminal 100 has elapsed.
  • the predicted timing of the next video may be determined in consideration of the transmission time between the terminal 100 and the center server 200. For example, the predicted timing of the next video may be determined by measuring or obtaining the transmission time between the terminal 100 and the center server 200.
  • the gaze target position prediction unit 260 predicts the position of the gaze target that should be guaranteed at the next image quality based on the extracted information extracted by the behavior recognition process of the behavior recognition unit 230.
  • the gaze target position prediction unit 260 may predict the position of the gaze target based on time-series position information of the person or work object whose behavior has been recognized. For example, time-series position information is trajectory information obtained from tracking processing in action recognition processing.
  • the gaze target position prediction unit 260 may predict the position of the gaze target based on the behavior recognition result of recognizing the behavior. For example, the position of the gaze target may be predicted based on the work object (object used) used by the person in the action indicated by the action recognition result.
  • the gaze target position prediction unit 260 predicts the position of the gaze target in consideration of the time difference until the next video.
  • the gaze target position prediction unit 260 predicts the position and rectangular area of the gaze target by moving the gaze target on the image according to the prediction timing of the next video. For example, the size and shape of the rectangular area may be changed depending on the prediction timing of the next video to be predicted. The size of the rectangular area may be increased as the time until the predicted timing becomes longer.
  • the gaze target position prediction unit 260 outputs the predicted position information of the rectangular area of the gaze target as prediction information of the gaze target.
  • the position information is, for example, the coordinates of each vertex of the rectangular area, but may also be the position of the center of the rectangular area, or the position of any point of the gaze target.
  • the prediction information is not limited to position information as information regarding the predicted gaze target, but may also include information extracted from behavior recognition processing, such as an object label or image feature of the gaze target, a behavior label, and a score of the behavior label. Further, a plurality of pieces of prediction information may be output, such as information predicted from time-series information of recognized objects or information predicted from action recognition results. Positions at multiple points in time may be predicted and multiple pieces of predicted position information may be output.
  • FIG. 7 and 8 show a configuration example of the behavior recognition unit 230 in the center server 200.
  • FIG. 7 is a configuration example in which behavior recognition based on the relationship between a person and a work object is performed on a rule basis.
  • the behavior recognition unit 230 includes an object detection unit 231, a tracking unit 232, a relationship analysis unit 233a, and a behavior determination unit 234.
  • the object detection unit 231 detects an object in the input received video.
  • the object detection unit 231 is a detection unit such as an object recognition engine using machine learning. That is, the object detection unit 231 extracts a rectangular area containing an object from each image of the received video, recognizes the object within the extracted rectangular area, and assigns a label to the recognized object.
  • the object detection result includes an object label and position information of a rectangular area containing the object.
  • the tracking unit 232 tracks the detected object in the received video.
  • the tracking unit 232 associates objects in each image included in the received video based on the object detection results. By assigning a tracking ID to a detected object, each object can be identified and tracked. For example, by matching objects between images based on the distance or overlap (for example, IoU: Intersection over Union) between the rectangular area of the object detected in the previous image and the rectangular area of the object detected in the next image, Track objects.
  • IoU Intersection over Union
  • the relationship analysis unit 233a analyzes the relationship between the object and other objects for each tracked object. That is, the relationship analysis unit 233a analyzes the relationship between a person who is an object of behavior recognition and a work object that the person can use in work.
  • the label of a work object is preset as a label of an object related to a person.
  • the relationship between objects is the position of objects or the distance or overlap between rectangular areas (for example, IoU). Based on the relationship between the person and the work object, it can be determined whether the person is working using the work object. For example, a work object related to a person is extracted based on the distance or overlap between the person and the work object.
  • the behavior determination unit 234 determines the behavior of objects based on the relationships between the analyzed objects.
  • the behavior determination unit 234 associates the work object and the work content in advance, and recognizes the work content of the person based on the work object related to the person extracted from the relationship between the person and the work object.
  • the work content may be recognized based on the person's characteristics, including the person's posture and shape, and the related work object. For example, the characteristics of the person, the work object, and the work content may be associated with each other.
  • the behavior determination unit 234 outputs the work content of the recognized person as a behavior label.
  • the behavior determination unit 234 may recognize the person's behavior only from the person.
  • the posture and shape of a person may be associated with the work content as characteristics of the person, and the work content may be specified based on the posture and shape of the person extracted from the image.
  • FIG. 8 is a configuration example in which behavior recognition based on the relationship between a person and a work object is performed based on machine learning.
  • the behavior recognition unit 230 includes an object detection unit 231, a tracking unit 232, a behavior predictor 233b, and a behavior determination unit 234.
  • the behavior recognition unit 230 includes a behavior predictor 233b instead of the relevance analysis unit 233a in FIG. 7, and the other configurations are the same as in FIG. 7.
  • the behavior predictor 233b predicts the behavior of each object tracked by the tracking unit 232.
  • the behavior predictor 233b recognizes the behavior of the person tracked within the received video and assigns a label of the recognized behavior.
  • the behavior predictor 233b recognizes the behavior of a person in the received video using a behavior recognition engine that uses machine learning such as deep learning.
  • the behavior of a person can be recognized by machine learning of videos and behavior labels of a person performing a task using a work object. For example, learning data that is a video of a person performing a task using a work object, annotation information such as the position of the person and work object and related information between the person and the object, and behavioral information such as the work object necessary for each task. Machine learning using .
  • the behavior predictor 233b outputs the score of the recognized behavior label.
  • the behavior determination unit 234 determines the behavior of the object based on the predicted behavior label.
  • the behavior determination unit 234 determines the behavior of the person based on the score of the behavior label predicted by the behavior predictor 233b. For example, the behavior determination unit 234 outputs the behavior label with the highest score as the recognition result.
  • FIG. 9 shows an example of the operation of the remote monitoring system 1.
  • the terminal 100 executes S101 to S105 and S112 to S113 and the center server 200 executes S106 to S111
  • the present invention is not limited to this, and any device may execute each process.
  • the terminal 100 acquires an image from the camera 101 (S101).
  • the camera 101 generates a video of the scene
  • the video acquisition unit 110 acquires the video output from the camera 101 (input video).
  • the input video image includes a person working at the site and a work object such as a hammer used by the person.
  • the terminal 100 detects an object based on the acquired input video (S102).
  • the detection unit 120 uses an object recognition engine to detect a rectangular area in an image included in the input video, recognizes an object within the detected rectangular area, and assigns a label to the recognized object. For each detected object, the detection unit 120 outputs an object label and position information of a rectangular area of the object as an object detection result. For example, when object detection is performed from the image in FIG. 10, a person and a hammer are detected as shown in FIG. 11, and a rectangular area of the person and a rectangular area of the hammer are detected.
  • the terminal 100 determines a gaze area in the input video based on the object detection result (S103).
  • the first determination unit 131 of the image quality change determination unit 130 extracts an object having a label to be a gaze target based on the object detection result of each object.
  • the first determination unit 131 extracts objects whose object label is a person or a work object from the detected objects, and determines a rectangular area of the corresponding object as a gaze area.
  • a person and a hammer are detected in the image, and since the hammer corresponds to a work object, a rectangular area of the person and a rectangular area of the hammer are determined to be the gaze area.
  • the terminal 100 encodes the input video based on the determined gaze area (S104).
  • the compression efficiency determining unit 140 encodes the input video so that the region of interest has higher image quality than other regions.
  • the image quality of the person's rectangular area and the hammer's rectangular area is improved by lowering the compression ratio of the person's rectangular area and the hammer's rectangular area than the compression rate of other areas.
  • the terminal 100 transmits the encoded data to the center server 200 (S105), and the center server 200 receives the encoded data (S106).
  • Terminal communication unit 150 transmits encoded data with high image quality of the gaze area to base station 300.
  • the base station 300 transfers the received encoded data to the center server 200 via the core network or the Internet.
  • Center communication unit 210 receives the transferred encoded data from base station 300.
  • the center server 200 decodes the received encoded data (S107).
  • the decoder 220 decodes the encoded data according to the compression rate of each region, and generates a video (received video) in which the gaze region is of high quality.
  • FIG. 12 shows an example of behavior recognition processing by the behavior recognition unit 230 shown in FIG. 7.
  • the object detection unit 231 first detects an object in the input received video (S201).
  • the object detection unit 231 uses an object recognition engine to detect a rectangular area in each image included in the received video, recognizes an object within the detected rectangular area, and assigns a label to the recognized object.
  • the object detection unit 231 outputs an object label and position information of a rectangular area of the object as an object detection result.
  • the tracking unit 232 tracks the detected object in the received video (S202).
  • the tracking unit 232 assigns a tracking ID to each detected object, and tracks the object identified by the tracking ID in each image.
  • the relationship analysis unit 233a analyzes the relationship between the object and other objects for each tracked object (S203), and determines whether there is a work object related to the person (S204).
  • the relationship analysis unit 233a extracts a person and a work object from the detection results of the tracked object, and determines the distance and overlap of rectangular areas between the extracted person and the work object. For example, a work object whose distance from the person is smaller than a predetermined value or a work object whose rectangular areas overlap with the person is larger than a predetermined value is determined to be a work object related to the person.
  • the behavior determination unit 234 determines the person's behavior based on the person and the work object (S205).
  • the behavior determination unit 234 determines the behavior of the person based on the detected work object related to the person and the work content associated with the work object in advance. In the example of FIG. 13, a person and a hammer related to the person are detected by tracking. Further, in the work object-work content table, work objects and work contents are stored in association with each other in advance.
  • the work object-work content table is stored in the storage unit of the center server 200 or the like.
  • the behavior determination unit 234 refers to the work object-work content table from the work object related to the person, and identifies the work content associated with the work object.
  • the person's action is determined to be a hammer strike because it is associated with a hammer strike.
  • the behavior determination unit 234 outputs the determined behavior. For example, the relationship (distance, overlap, etc.) between a person and a work object may be output as a behavior score.
  • the behavior determination unit 234 determines the behavior of the person based on the person (S206).
  • the behavior determination unit 234 determines the behavior of the person based on the detected characteristics of the person, such as the posture and shape, and the work content associated with the characteristics of the person in advance. In the example of FIG. 14, only a person is detected by tracking.
  • the posture-work content table stores the posture of the person and the work content in advance in association with each other.
  • the posture-work content table is stored in the storage unit of the center server 200 or the like. For example, the posture of a person can be estimated based on a skeleton extracted from an image of the person using a posture estimation engine.
  • the behavior determination unit 234 estimates the posture of the person from the detected image of the person, and refers to the posture-work content table to identify the work content associated with the estimated posture. In this example, when the estimated posture of the person is posture B, since posture B is associated with task B, the person's action is determined to be task B.
  • the behavior determination unit 234 outputs the determined behavior. For example, the estimated posture score of the person may be output as the behavior score.
  • FIG. 15 shows an example of behavior recognition processing by the behavior recognition unit 230 shown in FIG. 8.
  • the object detection unit 231 detects an object in the received video (S201), and the tracking unit 232 tracks the detected object in the received video (S202).
  • the behavior predictor 233b predicts the behavior of each tracked object (S207).
  • the behavior predictor 233b uses a behavior recognition engine to predict a person's behavior from a video including a tracked person and a work object.
  • the behavior predictor 233b outputs the label of the predicted behavior and the score of each behavior label.
  • the behavior determination unit 234 determines the behavior of the object based on the score of the predicted behavior label (S208).
  • a person and a hammer are detected by tracking.
  • the behavior predictor 233b recognizes the behavior of the person based on the detected image of the person and the hammer, and outputs a score for each behavior label. For example, the score for pegging is 0.8, the score for heavy machinery work is 0.1, the score for unsafe behavior is 0.0, and the score for non-work is 0.1. Then, since the score for pegging is the highest, the behavior determination unit 234 determines that the person's action is pegging. The behavior determination unit 234 outputs the determined behavior and the score of the behavior.
  • the center server 200 determines the gaze target based on the extracted information extracted by the action recognition process (S109).
  • the gaze target analysis unit 250 sets the person whose behavior has been recognized as the gaze target, and if the recognition target includes a work object, the work object is also included in the gaze target. For example, in the examples of FIGS. 13 and 16, the work of driving a pile is recognized from the person and the hammer, so the person and the hammer whose work has been recognized are the objects of attention. In the example of FIG. 14, since work B is recognized only from the person, only the person whose work is recognized is the object of attention.
  • the center server 200 predicts the position of the gaze target in the next video based on the extracted information extracted by the action recognition process (S110).
  • the gaze target position prediction unit 260 uses the time series information extracted during behavior recognition and the behavior recognition results to predict the next position (moving area) of the gaze target, and uses the predicted position information of the rectangular area of the gaze target. is output as prediction information of the gaze target.
  • the gaze target position prediction unit 260 predicts the movement area that will be the next position of the person or work object from trajectory information obtained by tracking the person or work object.
  • the trajectory information is acquired from the tracking unit 232, and may be acquired using a Kalman filter, a particle filter, or the like.
  • trajectory information of a person and a hammer is extracted from a motion-recognized video.
  • the gaze target position prediction unit 260 predicts the movement area based on an extension of the trajectory information. That is, the destination to which the locus information is extended is defined as the movement area.
  • the gaze target position prediction unit 260 extends the trajectory information of the person and the hammer on the image according to the predicted timing of the next video, and predicts the position of the next moving area (rectangular area) of the person and the hammer.
  • the gaze target position prediction unit 260 determines the position (movement area) of the next gaze target for each action label based on rules.
  • the movement area may be predicted based on the orientation of the work object or person. For example, if excavation work is recognized, the area where the shovel or bucket is facing may be set as the movement area.
  • the person's action is recognized as excavation work, and information about the person and the shovel is extracted.
  • the gaze target position prediction unit 260 recognizes the shape of the shovel, sets the direction of the tip of the shovel as the direction of the shovel, and extracts this direction of the shovel as the excavation direction (work direction).
  • the gaze target position prediction unit 260 moves the shovel or the person in the excavation direction on the image according to the predicted timing of the next video, and predicts the position of the next moving area (rectangular area) of the shovel or the person.
  • the position of the shovel or the person may be predicted using not only the shovel but also the person's orientation.
  • the orientation (forward direction) of a person can be estimated from the skeleton, posture, etc. extracted from an image of the person.
  • the moving area of the shovel and the person may be predicted by using the direction of the person as the excavation direction.
  • the direction of excavation may be extracted by combining the direction of the shovel and the direction of the person.
  • the destination where the rolling machine moves may be set as the movement area.
  • the person's action is recognized as compaction work, and information about the person and the compaction machine is extracted.
  • the gaze target position prediction unit 260 recognizes the shape of the rolling compaction machine, sets the forward direction of the rolling compaction machine as the direction of the rolling compaction machine, and extracts this orientation of the rolling compaction machine as the rolling direction (work direction).
  • the gaze target position prediction unit 260 moves the rolling machine and the person in the rolling direction on the image according to the predicted timing of the next video, and predicts the position of the next moving area (rectangular area) of the rolling machine and the person.
  • the direction of the person may be set as the rolling direction, or the direction of the rolling machine and the direction of the person may be combined to extract the rolling direction.
  • the center server 200 notifies the terminal 100 of the prediction information of the predicted gaze target (S111), and the terminal 100 acquires the prediction information of the gaze target (S112).
  • the center communication unit 210 transmits prediction information indicating the predicted position and area of the gaze target to the base station 300 via the Internet or the core network.
  • the base station 300 transfers the received gaze target prediction information to the terminal 100.
  • the terminal communication unit 150 receives the transferred location information of the gaze target from the base station 300.
  • the terminal 100 determines a gaze area based on the received prediction information of the gaze target (S113).
  • the second determination unit 132 of the image quality change determination unit 130 determines the area indicated by the prediction information of the gaze target notified from the center server 200 as the gaze area.
  • the prediction information indicates a rectangular area of a person and a rectangular area of a hammer, and these areas are determined to be the gaze area.
  • a circumscribed area including a rectangular area of the person and a rectangular area of the hammer may be set as the gaze area. This circumscribed area may be notified from the center server 200 to the terminal 100. Thereafter, S104 to S113 are repeated.
  • the position of the target object in the next video is predicted based on time-series information of the target, behavior recognition results, etc.
  • Embodiment 2 Embodiment 2 will be described below with reference to the drawings. First, the configuration of the remote monitoring system according to this embodiment will be explained. Since this embodiment differs from Embodiment 1 only in the configuration of the terminal, an example of the configuration of the terminal will be described here. Note that this embodiment can be implemented in combination with Embodiment 1, and each configuration shown in Embodiment 1 may be used as appropriate.
  • FIG. 21 shows a configuration example of the terminal 100 according to this embodiment. As shown in FIG. 21, in this embodiment, a matching section 133 is added to the image quality change determination section 130 of the terminal 100.
  • the other configurations are the same as in the first embodiment.
  • the matching unit 133 performs matching between the prediction information of the gaze target notified from the center server 200 and the detection result of the object detected by the detection unit 120 from the input video. That is, matching is performed between the gaze target predicted by the center server 200 and the object detected by the terminal 100.
  • the input video in which the object to be matched is detected is a video subsequent to the video in which the center server 200 has performed action recognition, that is, the video corresponding to the prediction information of the gaze target predicted by the center server 200.
  • prediction information of the gaze target is compared with the detection result of the object, and it is determined whether the predicted object and the detected object are the same, that is, whether they match.
  • the matching unit 133 performs matching based on, for example, the type of object, the characteristics of the image of the object, the position information of the object, and the like.
  • the second determination unit 132 determines the gaze area of the input video based on the matching result of the matching unit 133.
  • the second determination unit 132 may determine the gaze area based on the object detection result or the gaze target prediction information, depending on whether or not the gaze target prediction information matches the object detection result. However, it may be determined whether or not to determine the gaze area.
  • FIG. 22 shows an example of the operation of the remote monitoring system according to this embodiment.
  • S101 to S111 in FIG. 22 are the same as in the first embodiment.
  • the terminal 100 acquires the prediction information of the gaze target from the center server 200 (S112), it performs matching (S114).
  • the detection unit 120 detects an object from a video input after the video on which the center server 200 performed the action recognition, and the matching unit 133 uses the prediction information of the gaze target acquired from the center server 200 and the detection unit 120 Matching is performed with the detection results of objects detected from the input video.
  • the prediction information of the gaze target predicted and notified by the center server 200 and the detection result of the object detected by the detection unit 120 include the type of object label, the position information of the rectangular area, and the information included in the rectangular area. Feature information such as the feature amount of the image of the object is included.
  • FIG. 23 shows an example of matching processing.
  • matching is determined by comparing the object type, image characteristics of the object, and object position information, but matching may be determined by comparing any of them.
  • the matching unit 133 compares the object type in the prediction information of the gaze target with the object type in the object detection result (S301).
  • the matching unit 133 determines whether the type of object included in the prediction information matches the type of object included in the detection result.
  • the matching unit 133 determines that they match when the types of objects are the same or similar.
  • the type of similar object is the type of object belonging to the same category, upper category, or lower category, and may be set in advance. For example, since a dump truck and a truck are similar, it may be determined that they match.
  • the matching unit 133 compares the features of the object image in the prediction information of the gaze target with the features of the object image in the object detection result (S302).
  • the matching unit 133 determines whether the features of the image within the object region included in the prediction information match the features of the image within the object region included in the detection result. For example, image features such as HOG (Histograms of Oriented Gradients) and deep learning intermediate layer features, and color features such as color histograms are compared.
  • the matching unit 133 determines whether or not there is a match based on the similarity of the features of the images. For example, it may be determined that they match if the degree of similarity is greater than a predetermined threshold.
  • the matching unit 133 compares the object position information in the prediction information of the gaze target with the object position information in the object detection result (S303). Comparison of position information includes comparison of the positions of regions and comparison of the sizes of regions.
  • the matching unit 133 calculates the distance between the object included in the prediction information and the object included in the detection result, the overlap between the rectangular area of the object included in the prediction information and the rectangular area of the object included in the detection result, and the distance between the object included in the prediction information and the object included in the detection result. It is determined whether the position information matches based on the difference between the size of the rectangular area of the object and the size of the rectangular area of the object included in the detection result.
  • the distance between rectangular areas may be the distance between the centers of the rectangular areas, or may be the distance between arbitrary points included in the rectangular areas.
  • the overlap of rectangular areas is, for example, IoU.
  • the size of the rectangular area the difference in only the size may be determined regardless of the position. For example, when the distance between rectangular areas is smaller than a predetermined threshold, when the overlap between rectangular areas is larger than a predetermined threshold, or when the difference in size between rectangular areas is larger than a predetermined threshold, the matching unit 133 If the position information is also small, it is determined that the position information matches.
  • the matching unit 133 determines whether or not to match based on these determination results (S304). For example, it may be determined that the prediction information of the gaze target and the detection result of the object match when all the comparison conditions of the object type, image characteristics of the object, and position information match. Furthermore, matching may be determined when any one of the comparison conditions such as the type of object, the characteristics of the image of the object, and the position information match, or when a plurality of arbitrarily selected comparison conditions match. For example, matching may be determined when the object type and the characteristics of the object image match, when the object type and position information match, when the object image characteristics and position information match, etc. .
  • the terminal 100 determines the gaze area based on the matching result (S115). For example, when the prediction information of the gaze target matches the object detection result, the second determination unit 132 determines the gaze area based on the object detection result. That is, the area indicated by the object detection result is set as the gaze area. Further, when the prediction information of the gaze target and the detection result of the object do not match, the gaze area may be determined based on the prediction information of the gaze target, or the gaze area may not be determined. When determining the gaze area based on the prediction information of the gaze target, the area indicated by the gaze target prediction information is set as the gaze area. If the gaze area is not determined, it is not necessary to perform high image quality during encoding.
  • the score of the action recognition result is acquired from the center server 200, and if the prediction information of the gaze target and the detection result of the object do not match, it is determined whether the gaze area is determined based on the score of the action recognition result. You may. If the score is smaller than the predetermined value, the gaze area may be determined based on the prediction information, and if the score is greater than the predetermined value, the gaze area may not be determined. Furthermore, when an object detection result is not obtained, it may be determined whether or not to determine the gaze area based on the score of the action recognition result.
  • the prediction information of the gaze target includes a rectangular area of the person and the hammer
  • the object detection result includes the rectangular area of the person and the hammer.
  • the region of object detection results including the person and the work object is set as the gaze region. If the prediction information of the gaze target includes a person and a work object, matching is determined for each of the person and the work object. When both the person and the work object are matched, an area including the person and the work object may be set as the gaze area. At least when a person is matched, an area including a person and a work object may be set as a gaze area.
  • the gaze area is determined based on the For example, when an object detection result matches the prediction information of any gaze target, the gaze area may be determined based on the matching object detection result. If the object detection result does not match the prediction information of any gaze target, the gaze area may be determined based on the prediction information of the gaze target that is closest to the object detection result.
  • the gaze area may be determined based on the detection result of the matching object.
  • the gaze area may be determined based on the detection result of the object closest to the prediction information of the gaze target. If the detection result of any object does not match the predicted information of the gaze target, the gaze area may be determined based on the predicted information of the gaze target, or the gaze area may be determined based on the detection result of the object closest to the predicted information of the gaze target. A gaze area may also be determined.
  • Embodiment 2 information predicted by the center server and information detected by the terminal are matched, but information obtained from behavior recognition and information detected by the terminal is matched without prediction by the center server. You may. That is, extracted information extracted by behavior recognition processing, such as behavior recognition results, from the center server may be fed back to the terminal.
  • the processing flow described in the above embodiment is an example, and the order of each process is not limited to the above example. The order of some of the processes may be changed, or some of the processes may be executed in parallel.
  • Each configuration in the embodiments described above is configured by hardware, software, or both, and may be configured from one piece of hardware or software, or from multiple pieces of hardware or software.
  • Each device and each function (processing) may be realized by a computer 40 having a processor 41 such as a CPU (Central Processing Unit) and a memory 42 as a storage device, as shown in FIG.
  • a program for performing the method (video processing method) in the embodiment may be stored in the memory 42, and each function may be realized by having the processor 41 execute the program stored in the memory 42.
  • These programs include instructions (or software code) that, when loaded into a computer, cause the computer to perform one or more of the functions described in the embodiments.
  • the program may be stored on a non-transitory computer readable medium or a tangible storage medium.
  • computer readable or tangible storage media may include random-access memory (RAM), read-only memory (ROM), flash memory, solid-state drive (SSD) or other memory technology, CD - Including ROM, digital versatile disc (DVD), Blu-ray disc or other optical disc storage, magnetic cassette, magnetic tape, magnetic disc storage or other magnetic storage device.
  • the program may be transmitted on a transitory computer-readable medium or a communication medium.
  • transitory computer-readable or communication media includes electrical, optical, acoustic, or other forms of propagating signals.
  • an image quality control means for controlling the image quality of a gaze area including a gaze target in an input video; recognition means for performing a recognition process for recognizing the gaze target on the video in which the image quality of the gaze area is controlled; prediction means for predicting the position of the gaze target in a video after the video subjected to the recognition process, based on extraction information extracted from the recognition process; determining means for determining the gaze area in which the image quality control means controls the image quality in the subsequent video based on the predicted position of the gaze target;
  • a video processing system equipped with The extracted information includes time-series position information of the gaze target, The video processing system described in Appendix 1.
  • the time-series position information of the gaze target includes trajectory information of the gaze target obtained from tracking processing in the recognition process.
  • the video processing system described in Appendix 2. (Additional note 4)
  • the prediction means predicts the position of the gaze target based on an extension of the trajectory information.
  • the video processing system described in Appendix 3. (Appendix 5)
  • the extracted information includes a behavioral recognition result for the gaze target.
  • the prediction means predicts the position of the gaze target based on an object used in the action indicated by the action recognition result.
  • the video processing system according to appendix 5. (Appendix 7)
  • the prediction means predicts the position of the gaze target based on the orientation of the object to be used.
  • the video processing system according to appendix 6. The prediction means predicts the position of the gaze target based on the direction of the person performing the action indicated by the action recognition result.
  • the video processing system according to any one of Supplementary Notes 5 to 7. (Appendix 9) comprising a detection means for detecting an object from a video input after the video subjected to the recognition processing, The determining means determines the gaze area based on a matching result between the gaze target whose position has been predicted and the detected object.
  • the video processing system according to any one of Supplementary Notes 1 to 8. (Appendix 10) The determining means performs matching based on object type, image characteristics, or position information of the gaze target whose position has been predicted and the detected object.
  • the determining means determines that the gaze target whose position was predicted matches the detected object when the type of the gaze target object whose position was predicted and the type of the detected object are the same or similar; The video processing system according to appendix 10.
  • the determination means may determine whether the gaze target whose position is predicted and the detected object are similar to each other. Determine if the objects match, The video processing system according to appendix 10.
  • the determining means determines that when the distance between the gaze target whose position is predicted and the detected object is smaller than a predetermined value, the overlap between the region of the gaze target whose position is predicted and the area of the detected object is a predetermined value. or if the difference between the size of the area of the gaze target whose position was predicted and the size of the area of the detected object is smaller than a predetermined value, the gaze target whose position was predicted and the detected object. is determined to match, The video processing system according to appendix 10. (Appendix 14) The determining means determines the gaze area based on the detected object when determining that the gaze target whose position has been predicted matches the detected object; The video processing system according to any one of Supplementary Notes 9 to 13.
  • the determining means selects one of the regions of the gaze object whose position is predicted and the plurality of detected objects according to a matching result between the gaze object whose position is predicted and the plurality of detected objects, determining the gaze area based on the selected area;
  • the video processing system according to any one of Supplementary Notes 9 to 16.
  • the determining means determines whether or not to determine the gaze area based on the recognition result in the recognition process.
  • the video processing system according to any one of Supplementary Notes 1 to 17.
  • the determining means determines the gaze area when the score of the recognition result is smaller than a predetermined value.
  • the gaze target includes a person who is a target of the recognition process and an object used by the person,
  • the gaze area includes an area of the person and an area of the object to be used,
  • the video processing system according to any one of Supplementary Notes 1 to 18.
  • the image quality control means makes the image quality of the gaze area higher than that of other areas.
  • the video processing system according to any one of Supplementary Notes 1 to 20.
  • (Additional note 22) Controls the image quality of the gaze area including the gaze target in the input video, performing recognition processing to recognize the gaze target on the video in which the image quality of the gaze area is controlled; Predicting the position of the gaze target in a video after the video subjected to the recognition process, based on the extracted information extracted from the recognition process, determining the gaze area for controlling image quality in the subsequent video based on the predicted position of the gaze target; Video processing method.
  • the extracted information includes time-series position information of the gaze target, The video processing method according to appendix 22.
  • the extracted information includes a behavioral recognition result for the gaze target.
  • the gaze target includes a person who is a target of the recognition process and an object used by the person,
  • the gaze area includes an area of the person and an area of the object to be used,
  • the video processing method according to any one of Supplementary Notes 22 to 27.
  • an image quality control means for controlling the image quality of a gaze area including a gaze target in an input video; recognition means for performing a recognition process for recognizing the gaze target on the video in which the image quality of the gaze area is controlled; prediction means for predicting the position of the gaze target in a video after the video subjected to the recognition process, based on extraction information extracted from the recognition process; determining means for determining the gaze area in which the image quality control means controls the image quality in the subsequent video based on the predicted position of the gaze target;
  • An image processing device comprising: (Additional note 30) The extracted information includes time-series position information of the gaze target, The video processing device according to appendix 29.
  • the extracted information includes a behavioral recognition result for the gaze target.
  • the prediction means predicts the position of the gaze target based on an object used in the action indicated by the action recognition result.
  • the prediction means predicts the position of the gaze target based on the direction of the person performing the action indicated by the action recognition result.
  • the gaze target includes a person who is a target of the recognition process and an object used by the person,
  • the gaze area includes an area of the person and an area of the object to be used,
  • (Appendix 35) Controls the image quality of the gaze area including the gaze target in the input video, performing recognition processing to recognize the gaze target on the video in which the image quality of the gaze area is controlled; Predicting the position of the gaze target in a video after the video subjected to the recognition process, based on the extracted information extracted from the recognition process, determining the gaze area for controlling image quality in the subsequent video based on the predicted position of the gaze target;
  • a video processing program that allows a computer to perform processing.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

映像処理システム(10)は、入力される映像における注視対象を含む注視領域の画質を制御する画質制御部(11)と、注視領域の画質が制御された映像に対し、注視対象を認識する認識処理を実行する認識部(12)と、認識処理から抽出される抽出情報に基づいて、認識処理を行った映像より後の映像における注視対象の位置を予測する予測部(13)と、予測された注視対象の位置に基づいて、画質制御部(11)が後の映像において画質を制御する注視領域を決定する決定部(14)と、を備える、

Description

映像処理システム、映像処理方法、及び映像処理装置
 本開示は、映像処理システム、映像処理方法、及び映像処理装置に関する。
 カメラにより撮影した映像に対し機械学習を用いた検出技術や認識技術を適用することで監視等を行うシステムの開発が進められている。
 関連する技術として、例えば、特許文献1が知られている。特許文献1には、車両に搭載された複数のカメラが撮影した映像を、ネットワークを介して送信する遠隔監視システムにおいて、ネットワークの使用可能帯域やカメラ毎に検出された対象物の重要度に応じて、各カメラに帯域を割り当てる技術が記載されている。また、特許文献1には、対象物の位置を予測して、対象物が存在し得る領域を取得することも記載されている。
国際公開第2021/070214号
 特許文献1では、映像から検出された物体の重要度に応じて、映像を伝送する帯域を適切に制御することが可能である。一方、映像に対し行動認識などの認識処理を行うシステムにおいては、認識精度を向上することが望まれる。
 本開示は、このような課題に鑑み、認識精度を向上することが可能な映像処理システム、映像処理方法、及び映像処理装置を提供することを目的とする。
 本開示に係る映像処理システムは、入力される映像における注視対象を含む注視領域の画質を制御する画質制御手段と、前記注視領域の画質が制御された映像に対し、前記注視対象を認識する認識処理を実行する認識手段と、前記認識処理から抽出される抽出情報に基づいて、前記認識処理を行った映像より後の映像における前記注視対象の位置を予測する予測手段と、前記予測された注視対象の位置に基づいて、前記画質制御手段が前記後の映像において画質を制御する前記注視領域を決定する決定手段と、を備えるものである。
 本開示に係る映像処理方法は、入力される映像における注視対象を含む注視領域の画質を制御し、前記注視領域の画質が制御された映像に対し、前記注視対象を認識する認識処理を実行し、前記認識処理から抽出される抽出情報に基づいて、前記認識処理を行った映像より後の映像における前記注視対象の位置を予測し、前記予測された注視対象の位置に基づいて、前記後の映像において画質を制御する前記注視領域を決定するものである。
 本開示に係る映像処理装置は、入力される映像における注視対象を含む注視領域の画質を制御する画質制御手段と、前記注視領域の画質が制御された映像に対し、前記注視対象を認識する認識処理を実行する認識手段と、前記認識処理から抽出される抽出情報に基づいて、前記認識処理を行った映像より後の映像における前記注視対象の位置を予測する予測手段と、前記予測された注視対象の位置に基づいて、前記画質制御手段が前記後の映像において画質を制御する前記注視領域を決定する決定手段と、を備えるものである。
 本開示によれば、認識精度を向上することが可能な映像処理システム、映像処理方法、及び映像処理装置を提供することができる。
実施の形態に係る映像処理システムの概要を示す構成図である。 実施の形態に係る映像処理装置の概要を示す構成図である。 実施の形態に係る映像処理方法の概要を示すフローチャートである。 遠隔監視システムの基本構成を示す構成図である。 実施の形態1に係る端末の構成例を示す構成図である。 実施の形態1に係るセンターサーバの構成例を示す構成図である。 実施の形態1に係る行動認識部の構成例を示す構成図である。 実施の形態1に係る行動認識部の他の構成例を示す構成図である。 実施の形態1に係る遠隔監視システムの動作例を示すフローチャートである。 実施の形態1に係る映像取得処理を説明するための図である。 実施の形態1に係る物体検出処理を説明するための図である。 実施の形態1に係る行動認識処理の動作例を示すフローチャートである。 実施の形態1に係る行動認識処理を説明するための図である。 実施の形態1に係る行動認識処理を説明するための図である。 実施の形態1に係る行動認識処理の他の動作例を示すフローチャートである。 実施の形態1に係る行動認識処理を説明するための図である。 実施の形態1に係る注視対象位置予測処理を説明するための図である。 実施の形態1に係る注視対象位置予測処理を説明するための図である。 実施の形態1に係る注視対象位置予測処理を説明するための図である。 実施の形態1に係る注視領域決定処理を説明するための図である。 実施の形態2に係る端末の構成例を示す構成図である。 実施の形態2に係る遠隔監視システムの動作例を示すフローチャートである。 実施の形態2に係るマッチング判定処理の動作例を示すフローチャートである。 実施の形態2に係るマッチング判定処理を説明するための図である。 実施の形態に係るコンピュータのハードウェアの概要を示す構成図である。
 以下、図面を参照して実施の形態について説明する。各図面においては、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略される。
 ネットワークを介して映像を収集し、映像内の物体や行動等を認識するシステムにおいては、映像を伝送するネットワークの帯域が限られるため、伝送する映像のデータ量をできる限り抑えることが好ましい。例えば、映像の圧縮率を上げることで映像のデータ量を抑えることができる。しかし、映像の圧縮率が高い場合やデータの欠損率が高い場合、誤認識が増加するため、認識精度が低下する。そこで、実施の形態では、伝送する映像のデータ量をできるだけ抑えつつ、誤認識を防ぐことを可能とする。
(実施の形態の概要)
 まず、実施の形態の概要について説明する。図1は、実施の形態に係る映像処理システム10の概要構成を示している。映像処理システム10は、例えば、ネットワークを介して映像を収集し、映像を監視する遠隔監視システムに適用可能である。
 図1に示すように、映像処理システム10は、画質制御部11、認識部12、予測部13、決定部14を備える。
 画質制御部11は、入力される映像における注視対象を含む注視領域の画質を制御する。例えば、画質制御部11は、注視領域の画質を他の領域よりも高画質化、すなわち鮮明化してもよい。認識部12は、画質制御部11により注視領域の画質が制御された映像に対し、注視対象を認識する認識処理を実行する。認識処理は、例えば、注視対象の行動を認識する行動認識処理であるが、その他の注視対象に関する情報や特徴などを認識する処理でもよい。
 予測部13は、注視対象に関し抽出される情報であって、認識部12により実行された認識処理から抽出される抽出情報に基づいて、認識処理を行った映像より後の映像における注視対象の位置を予測する。抽出情報とは、映像処理システム10によって映像から抽出された抽出対象に関する情報である。例えば、抽出情報は、注視対象の時系列の位置情報を含んでもよいし、認識処理における認識結果の一例である行動認識結果を含んでもよい。決定部14は、予測部13により予測された注視対象の位置に基づいて、画質制御部11が後の映像において画質を制御する注視領域を決定する。画質制御部11は、入力される映像に対し、決定部14により決定された注視領域の画質を制御する。例えば、画質制御部11は、まず、所定のルール(例えば、全ての領域を鮮明化する等)で画質を制御し、次に、予測部13による注視対象の予測及び決定部14による注視領域の決定の後、決定された注視領域の画質を制御する。
 なお、映像処理システム10は、1つの装置により構成してもよいし、複数の装置により構成してもよい。図2は、実施の形態に係る映像処理装置20の構成を示している。図2に示すように、映像処理装置20は、図1に示した、画質制御部11、認識部12、予測部13、決定部14を備えてもよい。また、映像処理システム10の一部または全部をエッジまたはクラウドに配置してもよい。例えば、ネットワークを介して現場で撮影された映像を監視するシステムにおいて、エッジは現場や現場の近くに配置された装置であり、また、ネットワークの階層として端末に近い装置である。例えば、エッジの端末に画質制御部11、決定部14を配置し、クラウドのサーバに認識部12、予測部13を配置してもよい。さらに、クラウドに各機能を分散配置してもよい。
 図3は、実施の形態に係る映像処理方法を示している。例えば、実施の形態に係る映像処理方法は、図1の映像処理システム10や図2の映像処理装置20により実行される。図3に示すように、まず、入力される映像における注視対象を含む注視領域の画質を制御する(S11)。次に、注視領域の画質が制御された映像に対し、注視対象を認識する認識処理を実行する(S12)。次に、認識処理から抽出される抽出情報に基づいて、認識処理を行った映像より後の映像における注視対象の位置を予測する(S13)。次に、予測された注視対象の位置に基づいて、画質制御部11が後の映像において画質を制御する注視領域を決定する(S14)。さらに、S11に戻り、入力される映像に対し、決定された注視領域の画質を制御する。
 上記のように、実施の形態に係る映像処理システムでは、映像に対し実行した認識処理から抽出される抽出情報に基づいて、後の映像における注視対象の位置を予測し、その予測結果から後の映像において画質を制御する注視領域を決定する。これにより、画質を制御する領域を適切に決定できるため、映像のデータ量を抑えつつ、誤認識を防ぐことができ、認識精度を向上することができる。
(遠隔監視システムの基本構成)
 次に、実施の形態を適用するシステムの一例である遠隔監視システムについて説明する。図4は、遠隔監視システム1の基本構成を示している。遠隔監視システム1は、カメラが撮影した映像により、当該撮影されたエリアを監視するシステムである。本実施形態においては、以降現場における作業員の作業を遠隔で監視するシステムであるものとして説明する。例えば、現場は工事現場などの作業現場、人の集まる広場、学校など、人や機械が動作するエリアであってもよい。本実施形態においては、以降作業は建設作業や土木作業等として説明するが、これに限られない。なお、映像は、時系列の複数の画像(フレームとも称する)を含むため、映像と画像とは互いに言い換え可能である。すなわち、遠隔監視システムは、映像を処理する映像処理システムであり、また、画像を処理する画像処理システムであるとも言える。
 図4に示すように、遠隔監視システム1は、複数の端末100、センターサーバ200、基地局300、MEC400を備えている。端末100、基地局300及びMEC400は、現場側に配置され、センターサーバ200は、センター側に配置されている。例えば、センターサーバ200は、現場から離れた位置に配置されているデータセンタや監視センタ等に配置されている。現場側はシステムのエッジ側であり、センター側はクラウド側でもある。なお、センターサーバ200は、1つの装置により構成してもよいし、複数の装置により構成してもよい。また、センターサーバ200の一部または全部をクラウドに配置してもよい。例えば、映像認識機能201とアラート生成機能202とをクラウドへ配置し、GUI描画機能203と画面表示機能204とを監視センタ等に配置してもよい。
 端末100と基地局300との間は、ネットワークNW1により通信可能に接続される。ネットワークNW1は、例えば、4G、ローカル5G/5G、LTE(Long Term Evolution)、無線LANなどの無線ネットワークである。基地局300とセンターサーバ200との間は、ネットワークNW2により通信可能に接続される。ネットワークNW2は、例えば、5GC(5th Generation Core network)やEPC(Evolved Packet Core)などのコアネットワーク、インターネットなどを含む。端末100とセンターサーバ200との間は、基地局300を介して、通信可能に接続されているとも言える。基地局300とMEC400の間は任意の通信方法により通信可能に接続されるが、基地局300とMEC400は、1つの装置でもよい。
 端末100は、ネットワークNW1に接続される端末装置であり、現場の映像を生成する映像生成装置でもある。端末100は、現場に設置されたカメラ101が撮影した映像を取得し、取得した映像を、基地局300を介して、センターサーバ200へ送信する。なお、カメラ101は、端末100の外部に配置されてもよいし、端末100の内部に配置されてもよい。
 端末100は、カメラ101の映像を所定のビットレートに圧縮し、圧縮した映像を送信する。端末100は、圧縮効率を最適化する圧縮効率最適化機能102、映像送信機能103を有する。圧縮効率最適化機能102は、ROI(Region of Interest;注視領域とも称する)の画質を制御するROI制御を行う。圧縮効率最適化機能102は、人物や物体を含むROIの画質を維持しながら、その周りの領域の画質を低画質にすることでビットレートを削減する。映像送信機能103は、画質が制御された映像をセンターサーバ200へ送信する。
 基地局300は、ネットワークNW1の基地局装置であり、端末100とセンターサーバ200の間の通信を中継する中継装置でもある。例えば、基地局300は、ローカル5Gの基地局、5GのgNB(next Generation Node B)、LTEのeNB(evolved Node B)、無線LANのアクセスポイント等であるが、その他の中継装置でもよい。
 MEC(Multi-access Edge Computing)400は、システムのエッジ側に配置されたエッジ処理装置である。MEC400は、端末100を制御するエッジサーバであり、端末のビットレートを制御する圧縮ビットレート制御機能401、端末制御機能402を有する。圧縮ビットレート制御機能401は、適応映像配信制御やQoE(quality of experience)制御により端末100のビットレートを制御する。例えば、圧縮ビットレート制御機能401は、ネットワークNW1及びNW2の通信環境に応じてビットレートを抑えながら、得られる認識精度を予測し、認識精度が良くなるように各端末100のカメラ101にビットレートを割り当てる。端末制御機能402は、割り当てられたビットレートの映像を送信するように端末100を制御する。端末100は、割り当て得られたビットレートとなるように映像をエンコードし、エンコードした映像を送信する。
 センターサーバ200は、システムのセンター側に設置されたサーバである。センターサーバ200は、1つまたは複数の物理的なサーバでもよいし、クラウド上に構築されたクラウドサーバやその他の仮想化サーバでもよい。センターサーバ200は、現場のカメラ映像から人物の作業を認識することで、現場の作業を監視する監視装置である。センターサーバ200は、端末100から送信された映像内の人物の行動等を認識する認識装置でもある。
 センターサーバ200は、映像認識機能201、アラート生成機能202、GUI描画機能203、画面表示機能204を有する。映像認識機能201は、端末100から送信された映像を映像認識AI(Artificial Intelligence)エンジンに入力することにより、作業員が行う作業、すなわち人物の行動の種類を認識する。アラート生成機能202は、認識された作業に応じてアラートを生成する。GUI描画機能203は、表示装置の画面にGUI(Graphical User Interface)を表示する。画面表示機能204は、GUIに端末100の映像や認識結果、アラート等を表示する。
(実施の形態1)
 以下、図面を参照して実施の形態1について説明する。まず、本実施の形態に係る遠隔監視システムの構成について説明する。本実施の形態に係る遠隔監視システム1の基本構成は、図4に示した通りである。ここでは、端末100とセンターサーバ200の構成例について説明する。図5は、本実施の形態に係る端末100の構成例を示しており、図6は、本実施の形態に係るセンターサーバ200の構成例を示している。なお、各装置の構成は一例であり、後述の本実施の形態に係る動作が可能であれば、その他の構成でもよい。例えば、端末100の一部の機能をセンターサーバ200や他の装置に配置してもよいし、センターサーバ200の一部の機能を端末100や他の装置に配置してもよい。
 図5に示すように、端末100は、映像取得部110、検出部120、画質変更判定部130、圧縮効率決定部140、端末通信部150を備えている。
 映像取得部110は、カメラ101が撮影した映像(入力映像とも称する)を取得する。例えば、入力映像には現場で作業を行う作業員である人物や、人物が使用する作業物体(使用物体とも称する)等が含まれる。映像取得部110は、時系列の複数の画像を取得する画像取得部でもある。
 検出部120は、取得された入力映像内の物体を検出する物体検出部である。検出部120は、入力映像に含まれる各画像内の物体を検出し、検出した物体のラベル、すなわち物体ラベルを付与する。物体ラベルは、物体のクラスであり、物体の種別を示す。検出部120は、入力映像に含まれる各画像から物体を含む矩形領域を抽出し、抽出した矩形領域内の物体を認識し、認識した物体のラベルを付与する。矩形領域は、バウンディングボックス、または、物体領域である。なお、物体を含む物体領域は、矩形領域に限らず、円形や不定形のシルエット等の領域でもよい。検出部120は、矩形領域に含まれる物体の画像の特徴量を算出し、算出した特徴量に基づいて物体を認識する。例えば、検出部120は、ディープラーニングなどの機械学習を用いた物体認識エンジンにより画像内の物体を認識する。物体の画像の特徴と物体ラベルを機械学習することで物体を認識できる。物体の検出結果には、物体ラベル、物体を含む矩形領域の位置情報等が含まれる。物体の位置情報は、例えば、矩形領域の各頂点の座標であるが、矩形領域の中心の位置でもよいし、物体の任意の点の位置でもよい。検出部120は、当該物体の検出結果を画質変更判定部130へ送信する。
 画質変更判定部130は、取得された入力映像における画質を変更する画質変更領域である注視領域(ROI)を判定する。画質変更判定部130は、注視領域を決定する決定部である。注視領域は、注視対象を含む領域であり、画質を高画質化、すなわち鮮明化する領域である。また、注視領域は、行動認識のために画質を担保する領域であるともいえる。
 例えば、画質変更判定部130は、第1の判定部131と第2の判定部132を備える。例えば、まず第1の判定部131が注視領域を決定し、センターサーバ200が行動認識した後に、第2の判定部132が注視領域を決定する。なお、第1の判定部131による注視領域の決定を省略し、第2の判定部132による注視領域の決定のみを行ってもよい。第1の判定部131は、入力映像内で検出した物体の検出結果に基づいて、入力映像の注視領域を判定する。第1の判定部131は、検出部120の入力映像内で検出した検出物体のうち注視対象となるラベルを有する物体の位置情報に基づいて、注視領域を決定する。注視対象は、行動認識の対象となる人物であるが、人物が作業で使用し得る作業物体を含んでもよい。例えば、作業物体のラベルは、人物と関連がある物体のラベルとして予め設定されている。
 第2の判定部132は、行動を認識したセンターサーバ200から情報がフィードバックされた場合に、フィードバックされる情報に基づいて、入力映像の注視領域を決定する。この例では、フィードバックされる情報は、注視対象の予測情報である。注視対象の予測情報は、注視対象に関する情報であって、センターサーバ200が行動認識を行うことにより次の映像における注視対象を予測した情報である。注視対象の予測情報は、予測した注視対象の位置や行動認識処理から抽出される情報であり、注視対象の矩形領域の位置情報が含まれる。例えば、第2の判定部132は、取得した予測情報が示す矩形領域を注視領域に決定する。すなわち、予測された注視対象の位置をもとに入力映像の画質を担保する領域を決定する。
 また、センターサーバ200から取得する予測情報に行動認識結果である行動ラベルのスコアが含まれていてもよい。第2の判定部132は、センターサーバ200から行動認識結果である行動ラベルのスコアを取得し、取得したスコアに基づいて、注視領域を決定するか否か判定してもよい。行動ラベルのスコアは、行動ラベルの確からしさ(確率)である確信度を示す。スコアが高いほど、予測した行動ラベルの行動が正しい可能性が高い。例えば、スコアが所定値よりも小さい場合、認識できていない領域の画質を担保し、さらに行動認識を行う必要があると判断して、予測情報に基づいて注視領域を決定し、スコアが所定値よりも大きい場合、認識済の領域について、さらに行動認識を行う必要がないと判断して、注視領域を決定しなくてもよい。逆に、スコアが所定値よりも大きい場合、認識済の領域について、さらに行動認識を行う必要があると判断して、予測情報に基づいて注視領域を決定し、スコアが所定値よりも小さい場合、認識できてきない領域について、さらに行動認識を行う必要がないと判断して、注視領域を決定しなくてもよい。注視領域を決定しない場合、圧縮効率決定部140で注視領域を高画質化しなくてもよい。
 圧縮効率決定部140は、注視領域または注視領域以外の他の領域の圧縮率を決定し、映像を圧縮する。圧縮効率決定部140は、決定した圧縮率により入力映像をエンコード(符号化)するエンコーダである。圧縮効率決定部140は、例えば、H.264やH.265などの動画符号化方式によりエンコードする。また、圧縮効率決定部140は、MEC400の圧縮ビットレート制御機能401から割り当てられたビットレートとなるように入力映像をエンコードする。
 圧縮効率決定部140は、画質変更判定部130が決定した注視領域の画質を制御する画質制御部であり、注視領域を高画質化する高画質化部である。注視領域は、第1の判定部131と第2の判定部132のいずれかが決定した領域である。圧縮効率決定部140は、注視領域と他の領域をそれぞれ所定の圧縮率で圧縮することで、注視領域の画質が所定の品質となるようにエンコードする。すなわち、注視領域と他の領域の圧縮率を変えることで注視領域を他の領域よりも高画質化する。その他の領域を注視領域よりも低画質化しているとも言える。例えば、MEC400の圧縮ビットレート制御機能401から割り当てられたビットレートの範囲で注視領域及びその他の領域の画質を制御する。なお、圧縮率に限らず、画像の解像度、フレームレート等を変えることで、注視領域の画質を制御してもよい。また、画像の色の情報量、例えば、カラー、グレースケール、白黒等を変えることで、注視領域の画質を制御してもよい。
 端末通信部150は、圧縮効率決定部140がエンコードしたエンコードデータを、基地局300を介して、センターサーバ200へ送信する。端末通信部150は、注視領域の画質が制御された映像を送信する送信部である。また、端末通信部150は、センターサーバ200から送信された注視対象の予測情報を、基地局300を介して受信する。端末通信部150は、注視対象の位置を予測した予測情報を取得する取得部である。端末通信部150は、基地局300と通信可能なインタフェースであり、例えば、4G、ローカル5G/5G、LTE、無線LAN等の無線インタフェースであるが、その他の任意の通信方式の無線または有線インタフェースでもよい。端末通信部150は、エンコードデータを送信する第1の端末通信部と、注視対象の予測情報を受信する第2の端末通信部を含んでもよい。第1の端末通信部と第2の端末通信部は、同じ通信方式の通信部でもよいし、別の通信方式の通信部でもよい。
 図6に示すように、センターサーバ200は、センター通信部210、デコーダ220、行動認識部230、抽出情報保存部240、注視対象解析部250、注視対象位置予測部260を備えている。
 センター通信部210は、端末100から送信されたエンコードデータを、基地局300を介して受信する。センター通信部210は、注視領域の画質が制御された映像を受信する受信部である。また、センター通信部210は、注視対象位置予測部260が予測した注視対象の予測情報を、基地局300を介して端末100へ送信する。センター通信部210は、注視対象の位置を予測した予測情報を通知する通知部である。センター通信部210は、インターネットやコアネットワークと通信可能なインタフェースであり、例えば、IP通信用の有線インタフェースであるが、その他の任意の通信方式の有線または無線インタフェースでもよい。センター通信部210は、エンコードデータを受信する第1のセンター通信部と、注視対象の予測情報を送信する第2のセンター通信部を含んでもよい。第1のセンター通信部と第2のセンター通信部は、同じ通信方式の通信部でもよいし、別の通信方式の通信部でもよい。
 デコーダ220は、端末100から受信したエンコードデータをデコード(復号化)する。デコーダ220は、端末100の符号化方式に対応し、例えば、H.264やH.265などの動画符号化方式によりデコードする。デコーダ220は、各領域の圧縮率に応じてデコードし、デコードした映像(受信映像とも称する)を生成する。
 行動認識部230は、デコードした受信映像における物体の行動を認識する。行動認識部230は、注視領域の画質が制御された映像に対し、注視対象の行動を認識する行動認識処理を実行する。行動認識部230は、受信映像から物体を検出し、検出した物体の行動を認識する。行動認識部230は、行動認識の対象である人物の行動を認識し、認識した行動のラベル、すなわち行動ラベルを付与する。行動ラベルは、行動のクラスであり、行動の種別を示す。
 例えば、行動認識部230は、受信映像から検出される人物と作業物体とに基づいて、人物の行動を認識する。行動認識部230は、人物と作業物体の関連性を特定することで人物の行動を認識してもよい。人物と作業物体の関連性は、人物がどの物体を使用しているか、あるいは物体を使用していないかを含む。例えば、人物と作業物体との距離から人物ごとに作業物体を特定し、特定した作業物体から行動を認識してもよい。人物に関連する作業物体と作業とを関連付け、ルールベースで人物の行動を認識してもよいし、人物に関連する作業物体と作業とを機械学習し、機械学習ベースで人物の行動を認識してもよい。
 抽出情報保存部240は、行動認識部230の行動認識処理により抽出された抽出情報を保存する。抽出情報は、行動認識結果、人物の検出情報、行動に関連する作業物体の検出情報等を含む。行動認識結果は、認識した行動のラベル、行動ラベルのスコア、認識した行動を行う人物の識別情報、認識した行動で使用される作業物体の識別情報等を含む。人物の検出情報は、人物の矩形領域の位置情報、トラッキング情報等を含む。トラキング情報は、物体のトラッキング結果を示す軌跡情報である。作業物体の検出情報は、物体ラベル、物体ラベルのスコア、物体の矩形領域の位置情報、トラッキング情報等を含む。例えば、行動認識部230の行動予測器(行動認識エンジン)は、行動に関係する物体に重みがかかるように学習することで、画像ごとに関連し得る作業物体の候補を抽出し、抽出した作業物体の候補の情報を出力する。例えば、くい打ち作業を認識した場合、行動に関連する物体であるハンマーの情報を出力する。
 注視対象解析部250は、行動認識部230の行動認識処理により抽出された抽出情報に基づいて、注視対象を決定する。抽出情報は、行動認識部230から取得してもよいし、抽出情報保存部240から取得してもよい。注視対象解析部250は、抽出された情報をもとに、行動認識ミスを防ぐために画質を担保する注視対象を決定する。例えば、注視対象解析部250は、行動認識結果に基づいて注視対象を決定する。注視対象解析部250は、行動認識部230により行動が認識された人物、すなわち、行動認識結果に含まれる行動の人物を注視対象とする。人物と関連する作業物体とから行動が認識された場合、人物と作業物体を注視対象としてもよい。人物と関連する作業物体は複数あってもよく、人物と複数の作業物体を注視対象としてもよい。例えば、くい打ち作業が認識された場合に、作業に関連する物体を「くい」および「ハンマー」として、人物と「くい」および「ハンマー」を注視対象としてもよい。
 注視対象位置予測部260は、次の映像における注視対象の位置を予測する。次の映像は、行動認識処理を行った映像より後の映像であり、次に端末100が取得する映像(入力映像)である。次の映像は、行動認識した映像から所定の時間経過後の映像である。次の映像のタイミング、すなわち、予測タイミングは、例えば、端末100から認識される映像が送信され、センターサーバ200から端末100に予測情報がフィードバックされるまでの時間が経過した後である。次の映像の予測タイミングは、端末100とセンターサーバ200との間の伝送時間を考慮して決定してもよい。例えば、端末100とセンターサーバ200との間の伝送時間を測定または取得して、次の映像の予測タイミングを決定してもよい。
 注視対象位置予測部260は、行動認識部230の行動認識処理により抽出された抽出情報に基づいて、次の画質で担保すべき注視対象の位置を予測する。注視対象位置予測部260は、行動を認識した人物や作業物体の時系列の位置情報に基づいて、注視対象の位置を予測してもよい。例えば、時系列の位置情報は、行動認識処理におけるトラッキング処理から得られる軌跡情報である。注視対象位置予測部260は、行動を認識した行動認識結果に基づいて、注視対象の位置を予測してもよい。例えば、行動認識結果が示す行動において人物が使用する作業物体(使用物体)に基づいて、注視対象の位置を予測してもよい。注視対象位置予測部260は、次の映像までの時間差を考慮して、注視対象の位置を予測する。注視対象位置予測部260は、次の映像の予測タイミングに応じて画像上で注視対象を移動させることで、注視対象の位置や矩形領域を予測する。例えば、予測する次の映像の予測タイミングに応じて矩形領域のサイズや形状を変えてもよい。予測タイミングまでの時間が長くなるほど矩形領域のサイズを大きくしてもよい。注視対象位置予測部260は、予測した注視対象の矩形領域の位置情報を、注視対象の予測情報として出力する。位置情報は、例えば、矩形領域の各頂点の座標であるが、矩形領域の中心の位置でもよいし、注視対象の任意の点の位置でもよい。予測情報は、予測した注視対象に関する情報として、位置情報に限らず、注視対象の物体ラベルや画像の特徴、行動ラベル、行動ラベルのスコアなど、行動認識処理から抽出される情報を含んでもよい。また、認識した物体の時系列情報から予測した情報や行動認識結果から予測した情報のように、複数の予測情報を出力してもよい。複数の時点における位置を予測して、予測した複数の位置情報を出力してもよい。
 図7及び図8は、センターサーバ200における行動認識部230の構成例を示している。図7は、人物と作業物体との関連性による行動認識を、ルールベースで行う場合の構成例である。図7の例では、行動認識部230は、物体検出部231、追跡部232、関連性分析部233a、行動判定部234を備えている。
 物体検出部231は、入力される受信映像内の物体を検出する。例えば、物体検出部231は、端末100の検出部120と同様、機械学習を用いた物体認識エンジンなどの検出部である。すなわち、物体検出部231は、受信映像の各画像から物体を含む矩形領域を抽出し、抽出した矩形領域内の物体を認識し、認識した物体のラベルを付与する。物体の検出結果には、物体ラベル、物体を含む矩形領域の位置情報が含まれる。
 追跡部232は、検出された受信映像内の物体をトラッキングする。追跡部232は、物体の検出結果に基づいて、受信映像に含まれる各画像の物体を対応付ける。検出された物体にトラッキングIDを割り当てることで、各物体を識別してトラッキングすることができる。例えば、前の画像で検出された物体の矩形領域と次の画像で検出された物体の矩形領域との間の距離や重なり(例えばIoU:Intersection over Union)により画像間の物体を対応付けることで、物体をトラッキングする。
 関連性分析部233aは、トラッキングした物体ごとに、物体と他の物体との関連性を分析する。すなわち、関連性分析部233aは、行動認識対象である人物と、人物が作業で使用し得る作業物体との関連性を分析する。例えば、作業物体のラベルは、人物と関連がある物体のラベルとして予め設定されている。例えば、物体間の関連性は、物体の位置または矩形領域間の距離や重なり(例えばIoU)である。人物と作業物体との関連性により、人物が作業物体を使用して作業を行っているか否か判定できる。例えば、人物と作業物体との距離や重なりに基づいて、人物に関連する作業物体を抽出する。
 行動判定部234は、分析した物体間の関連性に基づいて、物体の行動を判定する。行動判定部234は、作業物体と作業内容とを予め関連付けておき、人物と作業物体との関連性から抽出した人物に関連する作業物体に基づいて、人物の作業内容を認識する。人物の姿勢や形状を含む人物の特徴と、関連する作業物体とに基づいて、作業内容を認識してもよい。例えば、人物の特徴及び作業物体と作業内容とを関連付けておいてもよい。行動判定部234は、認識した人物の作業内容を行動ラベルとして出力する。
 また、行動判定部234は、人物に関連する作業物体が検出されない場合、人物のみから人物の行動を認識してもよい。例えば、人物の特徴として人物の姿勢や形状と作業内容とを予め関連付けておき、画像から抽出される人物の姿勢や形状に基づいて、作業内容を特定してもよい。
 図8は、人物と作業物体との関連性による行動認識を、機械学習ベースで行う場合の構成例である。図8の例では、行動認識部230は、物体検出部231、追跡部232、行動予測器233b、行動判定部234を備えている。この例では、行動認識部230は、図7の関連性分析部233aの代わりに行動予測器233bを備えており、その他の構成は図7と同様である。
 行動予測器233bは、追跡部232がトラッキングした物体ごとに、物体の行動を予測する。行動予測器233bは、受信映像内でトラッキングされた人物の行動を認識し、認識した行動のラベルを付与する。例えば、行動予測器233bは、ディープラーニングなどの機械学習を用いた行動認識エンジンにより受信映像内の人物の行動を認識する。作業物体を用いて作業を行う人物の映像と行動ラベルを機械学習することで人物の行動を認識できる。例えば、作業物体を使用して作業を行っている人物の映像である学習データ、人物及び作業物体の位置や人物と物体の関連情報などのアノテーション情報、各作業に必要な作業物体などの行動情報を用いて、機械学習する。また、行動予測器233bは、認識した行動ラベルのスコアを出力する。
 行動判定部234は、予測された行動ラベルに基づいて、物体の行動を判定する。行動判定部234は、行動予測器233bが予測した行動ラベルのスコアに基づいて、人物の行動を決定する。例えば、行動判定部234は、最もスコアが高い行動ラベルを認識結果として出力する。
 次に、本実施の形態に係る遠隔監視システムの動作について説明する。図9は、遠隔監視システム1の動作例を示している。例えば、端末100がS101~S105、S112~S113を実行し、センターサーバ200がS106~S111を実行するとして説明するが、これに限らず、いずれの装置が各処理を実行してもよい。
 図9に示すように、端末100は、カメラ101から映像を取得する(S101)。カメラ101は、現場を撮影した映像を生成し、映像取得部110は、カメラ101から出力される映像(入力映像)を取得する。例えば、図10に示すように、入力映像の画像には、現場で作業を行う人物や、人物が使用するハンマーなどの作業物体が含まれている。
 続いて、端末100は、取得した入力映像に基づいて物体を検出する(S102)。検出部120は、物体認識エンジンを用いて、入力映像に含まれる画像内の矩形領域を検出し、検出した矩形領域内の物体を認識し、認識した物体のラベルを付与する。検出部120は、検出した各物体について、物体ラベル、物体の矩形領域の位置情報を物体検出結果として出力する。例えば、図10の画像から物体検出を行うと、図11のように、人物及びハンマーを検出し、人物の矩形領域とハンマーの矩形領域を検出する。
 続いて、端末100は、物体検出結果に基づいて、入力映像における注視領域を決定する(S103)。画質変更判定部130の第1の判定部131は、各物体の物体検出結果に基づいて、注視対象となるラベルを有する物体を抽出する。第1の判定部131は、検出された物体から、物体ラベルが人物または作業物体である物体を抽出し、該当する物体の矩形領域を注視領域に決定する。図11の例では、画像内で人物とハンマーが検出され、ハンマーは作業物体に該当するため、人物の矩形領域とハンマーの矩形領域を注視領域に決定する。
 続いて、端末100は、決定した注視領域に基づいて、入力映像をエンコードする(S104)。圧縮効率決定部140は、注視領域が他の領域よりも高画質となるように、入力映像をエンコードする。図11の例では、人物の矩形領域とハンマーの矩形領域の圧縮率を他の領域の圧縮率よりも下げることで、人物の矩形領域とハンマーの矩形領域を高画質化する。
 続いて、端末100は、エンコードしたエンコードデータをセンターサーバ200へ送信し(S105)、センターサーバ200は、エンコードデータを受信する(S106)。端末通信部150は、注視領域を高画質化したエンコードデータを基地局300へ送信する。基地局300は、受信したエンコードデータを、コアネットワークやインターネットを介して、センターサーバ200へ転送する。センター通信部210は、転送されたエンコードデータを、基地局300から受信する。
 続いて、センターサーバ200は、受信したエンコードデータをデコードする(S107)。デコーダ220は、各領域の圧縮率に応じてエンコードデータをデコードし、注視領域が高画質化された映像(受信映像)を生成する。
 続いて、センターサーバ200は、デコードした受信映像に基づいて物体の行動を認識する(S108)。図12は、図7で示した行動認識部230による行動認識処理の例を示している。図12の例では、まず、物体検出部231は、入力される受信映像内の物体を検出する(S201)。物体検出部231は、物体認識エンジンを用いて、受信映像に含まれる各画像内の矩形領域を検出し、検出した矩形領域内の物体を認識し、認識した物体のラベルを付与する。物体検出部231は、検出した各物体について、物体ラベル、物体の矩形領域の位置情報を物体検出結果として出力する。
 続いて、追跡部232は、検出された受信映像内の物体をトラッキングする(S202)。追跡部232は、検出された各物体にトラッキングIDを割り当て、トラッキングIDにより識別される物体を各画像でトラッキングする。
 続いて、関連性分析部233aは、トラッキングした物体ごとに、物体と他の物体との関連性を分析し(S203)、人物に関連する作業物体の有無を判定する(S204)。関連性分析部233aは、トラッキングした物体の検出結果から人物と作業物体を抽出し、抽出した人物と作業物体との距離や矩形領域の重なりを求める。例えば、人物との距離が所定値よりも小さい作業物体、または、人物の矩形領域の重なりが所定値よりも大きい作業物体を、人物に関連する作業物体であると決定する。
 人物に関連する作業物体があると判定された場合、行動判定部234は、人物及び作業物体に基づいて、人物の行動を判定する(S205)。行動判定部234は、検出された人物に関連する作業物体と、予め作業物体に関連付けられた作業内容とに基づいて、人物の行動を決定する。図13の例では、トラッキングにより人物と人物に関連するハンマーとが検出されている。また、作業物体-作業内容テーブルに、予め作業物体と作業内容とが関連付けて格納されている。作業物体-作業内容テーブルは、センターサーバ200の記憶部等に記憶されている。行動判定部234は、人物に関連する作業物体から、作業物体-作業内容テーブルを参照し、作業物体に関連付けられた作業内容を特定する。この例では、ハンマーにくい打ちが関連付けられているため、人物の行動は、くい打ちであると決定する。行動判定部234は、決定した行動を出力する。例えば、人物と作業物体の関連性(距離や重なり等)を、行動のスコアとして出力してもよい。
 また、人物に関連する作業物体がないと判定された場合、行動判定部234は、人物に基づいて、人物の行動を判定する(S206)。行動判定部234は、検出された人物の姿勢や形状などの特徴と、予め人物の特徴に関連付けられた作業内容とに基づいて、人物の行動を決定する。図14の例では、トラッキングにより人物のみが検出されている。また、姿勢-作業内容テーブルに、予め人物の姿勢と作業内容とが関連付けて格納されている。姿勢-作業内容テーブルは、センターサーバ200の記憶部等に記憶されている。例えば、人物の姿勢は、姿勢推定エンジンを用いて、人物の画像から抽出される骨格などに基づいて推定可能である。行動判定部234は、検出された人物の画像から人物の姿勢を推定し、姿勢-作業内容テーブルを参照して、推定した姿勢に関連付けられた作業内容を特定する。この例では、推定された人物の姿勢が姿勢Bの場合、姿勢Bに作業Bが関連付けられているため、人物の行動は、作業Bであると決定する。行動判定部234は、決定した行動を出力する。例えば、推定した人物の姿勢のスコアを、行動のスコアとして出力してもよい。
 また、図15は、図8で示した行動認識部230による行動認識処理の例を示している。図15の例では、図12と同様に、物体検出部231は、受信映像内の物体を検出し(S201)、追跡部232は、検出された受信映像の物体をトラッキングする(S202)。
 続いて、行動予測器233bは、トラッキングした物体ごとに、物体の行動を予測する(S207)。行動予測器233bは、行動認識エンジンを用いて、トラッキングした人物と作業物体を含む映像から人物の行動を予測する。行動予測器233bは、予測した行動のラベルと、各行動ラベルのスコアを出力する。
 続いて、行動判定部234は、予測した行動ラベルのスコアに基づいて、物体の行動を判定する(S208)。図16の例では、トラッキングにより人物とハンマーとが検出されている。行動予測器233bは、検出された人物とハンマーの映像に基づいて人物の行動を認識し、各行動ラベルのスコアを出力する。例えば、くい打ちのスコアが0.8、重機作業のスコアが0.1、不安全行動のスコアが0.0、作業外のスコアが0.1である。そうすると、行動判定部234は、くい打ちのスコアが最も高いため、人物の行動はくい打ちであると決定する。行動判定部234は、決定した行動と、行動のスコアを出力する。
 図9に戻り、行動認識処理に続いて、センターサーバ200は、行動認識処理により抽出された抽出情報に基づいて、注視対象を決定する(S109)。注視対象解析部250は、行動が認識された人物を注視対象とし、さらに認識対象に作業物体が含まれる場合、作業物体も注視対象に含める。例えば、図13や図16の例では、人物とハンマーからくい打ちの作業が認識されているため、作業を認識した人物及びハンマーを注視対象とする。図14の例では、人物のみから作業Bが認識されているため、作業を認識した人物のみを注視対象とする。
 続いて、センターサーバ200は、行動認識処理により抽出された抽出情報に基づいて、次の映像における注視対象の位置を予測する(S110)。注視対象位置予測部260は、行動認識の際に抽出した時系列情報や行動認識結果を用いて、次の注視対象の位置(移動領域)を予測し、予測した注視対象の矩形領域の位置情報を、注視対象の予測情報として出力する。
 例えば、注視対象位置予測部260は、時系列情報を使用する場合、人物や作業物体をトラッキングした軌跡情報から、人物や作業物体の次の位置となる移動領域を予測する。軌跡情報は、追跡部232から取得され、kalman filterやparticle filterなどを用いて取得してもよい。図17の例では、行動認識した映像から人物とハンマーの軌跡情報が抽出されている。注視対象位置予測部260は、軌跡情報を延長した延長線に基づいて移動領域を予測する。すなわち、軌跡情報を延長した先を移動領域とする。注視対象位置予測部260は、次の映像の予測タイミングに応じて画像上で人物やハンマーの軌跡情報を延長し、人物やハンマーの次の移動領域(矩形領域)の位置を予測する。
 また、注視対象位置予測部260は、行動認識結果を使用する場合、次の注視対象の位置(移動領域)を行動ラベルごとにルールベースで決定する。作業物体や人物の向きに基づいて、移動領域を予測してもよい。例えば、掘削作業が認識された場合、スコップやバケットの向いている先を移動領域としてもよい。図18の例では、人物の行動が掘削作業であると認識され、人物とスコップの情報が抽出されている。例えば、注視対象位置予測部260は、スコップの形状を認識し、スコップの先端部の方向をスコップの向きとし、このスコップの向きを掘削方向(作業方向)として抽出する。注視対象位置予測部260は、次の映像の予測タイミングに応じて画像上で掘削方向にスコップや人物を移動させ、スコップや人物の次の移動領域(矩形領域)の位置を予測する。
 なお、スコップに限らず、人物の向きを用いて、スコップや人物の位置を予測してもよい。例えば、人物の向き(前方方向)は、人物の画像から抽出される骨格や姿勢などから推定可能である。この人物の向きを掘削方向として、スコップや人物の移動領域を予測してもよい。また、スコップの向きと人物の向きを組み合わせて、掘削方向を抽出してもよい。
 また、例えば、転圧作業が認識された場合、転圧機が進む先を移動領域としてもよい。図19の例では、人物の行動が転圧作業であると認識され、人物と転圧機の情報が抽出されている。例えば、注視対象位置予測部260は、転圧機の形状を認識し、転圧機の前方方向を転圧機の向きとし、この転圧機の向きを転圧方向(作業方向)として抽出する。注視対象位置予測部260は、次の映像の予測タイミングに応じて画像上で転圧方向に転圧機や人物を移動させ、転圧機や人物の次の移動領域(矩形領域)の位置を予測する。図18と同様に、人物の向きを転圧方向としてもよいし、転圧機の向きと人物の向きを組み合わせ得て、転圧方向を抽出してもよい。
 続いて、センターサーバ200は、予測した注視対象の予測情報を端末100へ通知し(S111)、端末100は、注視対象の予測情報を取得する(S112)。センター通信部210は、予測した注視対象の位置及び領域を示す予測情報を、インターネットやコアネットワークを介して、基地局300へ送信する。基地局300は、受信した注視対象の予測情報を端末100へ転送する。端末通信部150は、転送された注視対象の位置情報を、基地局300から受信する。
 続いて、端末100は、受信した注視対象の予測情報に基づいて、注視領域を決定する(S113)。画質変更判定部130の第2の判定部132は、センターサーバ200から通知された注視対象の予測情報が示す領域を注視領域に決定する。図20の例では、予測情報が人物の矩形領域とハンマーの矩形領域を示しており、これらの領域を注視領域に決定する。また、人物の矩形領域とハンマーの矩形領域を含む外接領域を注視領域としてもよい。この外接領域をセンターサーバ200から端末100へ通知してもよい。以降、S104~S113を繰り返す。
 以上のように、本実施の形態では、映像から対象物の行動を認識するシステムにおいて、対象物の時系列情報や行動認識結果などに基づいて、次の映像における対象物の位置を予測し、予測した領域の画質を高画質化し鮮明化する。これにより、対象物の動きに応じて、対象物を含む特定の部分の画質を担保でき、行動認識に関わる以外の領域は圧縮が可能となりデータの送信量を抑えつつ行動認識ミスを防ぐことができる。
(実施の形態2)
 以下、図面を参照して実施の形態2について説明する。まず、本実施の形態に係る遠隔監視システムの構成について説明する。本実施の形態では、実施の形態1と比べて、端末の構成のみが異なるため、ここでは端末の構成例について説明する。なお、本実施の形態は、実施の形態1と組み合わせて実施することが可能であり、実施の形態1で示した各構成を適宜使用してもよい。
 図21は、本実施の形態に係る端末100の構成例を示している。図21に示すように、本実施の形態では、端末100の画質変更判定部130にマッチング部133が追加されている。その他の構成は、実施の形態1と同様である。
 マッチング部133は、センターサーバ200から通知される注視対象の予測情報と、検出部120が入力映像から検出した物体の検出結果とのマッチングを行う。すなわち、センターサーバ200が予測した注視対象と、端末100が検出した物体とのマッチングを行う。マッチングを行う物体を検出した入力映像は、センターサーバ200が行動認識を行った映像よりも後の映像、すなわち、センターサーバ200が予測した注視対象の予測情報に対応する映像である。マッチングは、注視対象の予測情報と物体の検出結果とを比較し、予測した物体と検出した物体が同じであるか否か、すなわち、マッチングするか否かを判定する。マッチング部133は、例えば、物体の種別、物体の画像の特徴、物体の位置情報等に基づいてマッチングを行う。
 第2の判定部132は、マッチング部133のマッチング結果に基づいて、入力映像の注視領域を決定する。第2の判定部132は、注視対象の予測情報と物体の検出結果とがマッチングするか否かに応じて、物体の検出結果または注視対象の予測情報に基づいて注視領域を決定してもよいし、注視領域を決定するか否かを判定してもよい。
 次に、本実施の形態に係る遠隔監視システムの動作について説明する。図22は、本実施の形態に係る遠隔監視システムの動作例を示している。図22のS101~S111は、実施の形態1と同様である。
 図22に示すように、端末100は、センターサーバ200から注視対象の予測情報を取得すると(S112)、マッチングを行う(S114)。検出部120は、センターサーバ200が行動認識を行った映像よりも後に入力された映像から物体を検出し、マッチング部133は、センターサーバ200から取得した注視対象の予測情報と、検出部120が入力映像から検出した物体の検出結果とのマッチングを行う。
 本実施の形態では、センターサーバ200が予測し通知した注視対象の予測情報及び検出部120が検出した物体の検出結果には、物体ラベルである種別、矩形領域の位置情報、矩形領域に含まれる物体の画像の特徴量などの特徴情報等が含まれる。
 図23は、マッチング処理の一例を示している。この例では、物体の種別、物体の画像の特徴、物体の位置情報を比較してマッチングを判定するが、いずれかを比較してマッチングを判定してもよい。
 図23に示すように、マッチング部133は、注視対象の予測情報における物体の種別と物体の検出結果における物体の種別を比較する(S301)。マッチング部133は、予測情報に含まれる物体の種別と検出結果に含まれる物体の種別が一致しているか否か判定する。マッチング部133は、物体の種別が同じまたは類似する場合に、一致すると判定する。類似する物体の種別は、同じカテゴリ、上位または下位カテゴリに属する物体の種別であり、予め設定されていてもよい。例えば、ダンプカーとトラックは類似するため、一致すると判定してもよい。
 また、マッチング部133は、注視対象の予測情報における物体の画像の特徴と物体の検出結果における物体の画像の特徴を比較する(S302)。マッチング部133は、予測情報に含まれる物体の領域内の画像の特徴と検出結果に含まれる物体の領域内の画像の特徴とが一致しているか否か判定する。例えば、HOG(Histograms of Oriented Gradients)や深層学習の中間層特徴などの画像の特徴量、カラーヒストグラムなどの色の特徴を比較する。マッチング部133は、画像の特徴の類似度に基づいて一致するか否か判定する。例えば、類似度が所定の閾値よりも大きい場合に一致すると判定してもよい。
 さらに、マッチング部133は、注視対象の予測情報における物体の位置情報と物体の検出結果における物体の位置情報を比較する(S303)。位置情報の比較には、領域の位置の比較や領域の大きさの比較が含まれる。マッチング部133は、予測情報に含まれる物体と検出結果に含まれる物体との距離や、予測情報に含まれる物体の矩形領域と検出結果に含まれる物体の矩形領域の重なり、予測情報に含まれる物体の矩形領域の大きさと検出結果に含まれる物体の矩形領域の大きさの差分に基づいて位置情報が一致するか否か判定する。矩形領域間の距離は、矩形領域の中心間の距離でもよいし、矩形領域に含まれる任意の点の間の距離でもよい。矩形領域の重なりは、例えばIoUである。矩形領域の大きさは、位置に関わらず、大きさのみの差分を求めてもよい。マッチング部133は、例えば、矩形領域間の距離が所定の閾値よりも小さい場合、矩形領域間の重なりが所定の閾値よりも大きい場合、または、矩形領域間の大きさの差分が所定の閾値よりも小さい場合、位置情報が一致すると判定する。
 続いて、マッチング部133は、これらの判定結果をもとに、マッチングするか否か決定する(S304)。例えば、物体の種別、物体の画像の特徴、位置情報の全ての比較条件が一致する場合に、注視対象の予測情報と物体の検出結果がマッチングすると決定してもよい。また、物体の種別、物体の画像の特徴、位置情報のいずれかの比較条件が一致する場合や、任意に選択された複数の比較条件が一致する場合に、マッチングすると決定してもよい。例えば、物体の種別及び物体の画像の特徴が一致する場合や、物体の種別及び位置情報が一致する場合、物体の画像の特徴及び位置情報が一致する場合等に、マッチングすると決定してもよい。
 続いて、端末100は、マッチング結果に基づいて、注視領域を決定する(S115)。第2の判定部132は、例えば、注視対象の予測情報と物体の検出結果とがマッチングする場合、物体の検出結果に基づいて注視領域を決定する。すなわち、物体の検出結果が示す領域を注視領域とする。また、注視対象の予測情報と物体の検出結果とがマッチングしない場合、注視対象の予測情報に基づいて注視領域を決定してもよいし、注視領域を決定しなくてもよい。注視対象の予測情報に基づいて注視領域を決定する場合、注視対象の予測情報が示す領域を注視領域とする。注視領域を決定しない場合、エンコードする際に高画質化を行わなくてもよい。例えば、センターサーバ200から行動認識結果のスコアを取得し、注視対象の予測情報と物体の検出結果とがマッチングしない場合に、行動認識結果のスコアに基づいて、注視領域を決定するか否か判定してもよい。スコアが所定値よりも小さい場合、予測情報に基づいて注視領域を決定し、スコアが所定値よりも大きい場合、注視領域を決定しなくてもよい。また、物体の検出結果が得られない場合に、行動認識結果のスコアに基づいて、注視領域を決定するか否か判定してもよい。
 図24の例では、注視対象の予測情報に人物とハンマーの矩形領域が含まれ、物体の検出結果に人物とハンマーの矩形領域が含まれている。この例では、人物の矩形領域間が重なり、ハンマーの矩形領域間が重なっているため、人物と作業物体を含む注視対象の予測情報と物体の検出結果がマッチングすると判定する。この場合、人物と作業物体を含む物体の検出結果の領域を注視領域とする。注視対象の予測情報に人物と作業物体が含まれる場合、人物と作業物体のそれぞれについてマッチングを判定する。人物及び作業物体の両方がマッチングする場合に人物と作業物体を含む領域を注視領域としてもよい。少なくとも人物がマッチングする場合に人物と作業物体を含む領域を注視領域としてもよい。
 また、複数の注視対象の予測情報を取得した場合、複数の注視対象の予測情報と物体の検出結果のマッチングをそれぞれ判定し、マッチング結果に応じていずれかの領域を選択し、選択した領域に基づいて注視領域を決定する。例えば、いずれかの注視対象の予測情報に物体の検出結果がマッチングする場合、マッチングした物体の検出結果に基づいて注視領域を決定してもよい。いずれの注視対象の予測情報にも物体の検出結果がマッチングしない場合、物体の検出結果に最も近い注視対象の予測情報に基づいて注視領域を決定してもよい。
 また、複数の物体の検出結果を取得した場合、注視対象の予測情報と複数の物体の検出結果のマッチングをそれぞれ判定し、マッチング結果に応じていずれかの領域を選択し、選択した領域に基づいて注視領域を決定する。例えば、注視対象の予測情報にいずれかの物体の検出結果がマッチングする場合、マッチングした物体の検出結果に基づいて注視領域を決定してもよい。複数の物体の検出結果がマッチングする場合、注視対象の予測情報に最も近い物体の検出結果に基づいて注視領域を決定してもよい。注視対象の予測情報にいずれの物体の検出結果もマッチングしない場合、注視対象の予測情報に基づいて注視領域を決定してもよいし、注視対象の予測情報に最も近い物体の検出結果に基づいて注視領域を決定してもよい。
 以上のように、本実施の形態では、実施の形態1の構成において、さらに、行動認識結果等から予測した情報と、実際に取得した映像から検出した情報とのマッチングを行い、マッチング結果に基づいて高画質化し鮮明化する領域を決定する。これにより、実際に取得した映像において、予測された対象物と一致する領域の画質を担保できるため、行動認識ミスを確実に防ぐことができる。
 なお、本開示は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、実施の形態2では、センターサーバが予測した情報と端末が検出した情報とをマッチングしたが、センターサーバで予測を行わずに行動認識から得られた情報と端末が検出した情報とをマッチングしてもよい。すなわち、センターサーバから行動認識結果などの行動認識処理により抽出された抽出情報を、端末にフィードバックしてもよい。また、上記実施の形態で説明した処理フローは、一例であり、各処理の順序は上記の例に限られない。一部の処理の順序を入れ替えて実行してもよいし、一部の処理を並行して実行してもよい。
 上述の実施形態における各構成は、ハードウェア又はソフトウェア、もしくはその両方によって構成され、1つのハードウェア又はソフトウェアから構成してもよいし、複数のハードウェア又はソフトウェアから構成してもよい。各装置及び各機能(処理)を、図25に示すような、CPU(Central Processing Unit)等のプロセッサ41及び記憶装置であるメモリ42を有するコンピュータ40により実現してもよい。例えば、メモリ42に実施形態における方法(映像処理方法)を行うためのプログラムを格納し、各機能を、メモリ42に格納されたプログラムをプロセッサ41で実行することにより実現してもよい。
 これらのプログラムは、コンピュータに読み込まれた場合に、実施形態で説明された1又はそれ以上の機能をコンピュータに行わせるための命令群(又はソフトウェアコード)を含む。プログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、コンピュータ可読媒体又は実体のある記憶媒体は、random-access memory(RAM)、read-only memory(ROM)、フラッシュメモリ、solid-state drive(SSD)又はその他のメモリ技術、CD-ROM、digital versatile disc(DVD)、Blu-ray(登録商標)ディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含む。プログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含む。
 以上、実施の形態を参照して本開示を説明したが、本開示は上記実施の形態に限定されるものではない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解し得る様々な変更をすることができる。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
 入力される映像における注視対象を含む注視領域の画質を制御する画質制御手段と、
 前記注視領域の画質が制御された映像に対し、前記注視対象を認識する認識処理を実行する認識手段と、
 前記認識処理から抽出される抽出情報に基づいて、前記認識処理を行った映像より後の映像における前記注視対象の位置を予測する予測手段と、
 前記予測された注視対象の位置に基づいて、前記画質制御手段が前記後の映像において画質を制御する前記注視領域を決定する決定手段と、
 を備える、映像処理システム。
(付記2)
 前記抽出情報は、前記注視対象の時系列の位置情報を含む、
 付記1に記載の映像処理システム。
(付記3)
 前記注視対象の時系列の位置情報は、前記認識処理におけるトラッキング処理から得られる前記注視対象の軌跡情報を含む、
 付記2に記載の映像処理システム。
(付記4)
 前記予測手段は、前記軌跡情報を延長した延長線に基づいて、前記注視対象の位置を予測する、
 付記3に記載の映像処理システム。
(付記5)
 前記抽出情報は、前記注視対象に対する行動認識結果を含む、
 付記1乃至4のいずれか一項に記載の映像処理システム。
(付記6)
 前記予測手段は、前記行動認識結果が示す行動において使用される物体である使用物体に基づいて、前記注視対象の位置を予測する、
 付記5に記載の映像処理システム。
(付記7)
 前記予測手段は、前記使用物体の向きに基づいて、前記注視対象の位置を予測する、
 付記6に記載の映像処理システム。
(付記8)
 前記予測手段は、前記行動認識結果が示す行動を行う人物の向きに基づいて、前記注視対象の位置を予測する、
 付記5乃至7のいずれか一項に記載の映像処理システム。
(付記9)
 前記認識処理を行った映像より後に入力される映像から物体を検出する検出手段を備え、
 前記決定手段は、前記位置を予測した注視対象と前記検出した物体とのマッチング結果に基づいて、前記注視領域を決定する、
 付記1乃至8のいずれか一項に記載の映像処理システム。
(付記10)
 前記決定手段は、前記位置を予測した注視対象及び前記検出した物体における、物体の種別、画像の特徴、または、位置情報に基づいてマッチングを行う、
 付記9に記載の映像処理システム。
(付記11)
 前記決定手段は、前記位置を予測した注視対象の物体の種別と前記検出した物体の種別とが、同じまたは類似する場合、前記位置を予測した注視対象と前記検出した物体がマッチングすると判定する、
 付記10に記載の映像処理システム。
(付記12)
 前記決定手段は、前記位置を予測した注視対象を含む画像の特徴と前記検出した物体を含む画像の特徴との類似度が所定値よりも大きい場合、前記位置を予測した注視対象と前記検出した物体がマッチングすると判定する、
 付記10に記載の映像処理システム。
(付記13)
 前記決定手段は、前記位置を予測した注視対象と前記検出した物体との距離が所定値よりも小さい場合、前記位置を予測した注視対象の領域と前記検出した物体の領域との重なりが所定値よりも大きい場合、または、前記位置を予測した注視対象の領域の大きさと前記検出した物体の領域の大きさとの差分が所定値よりも小さい場合、前記位置を予測した注視対象と前記検出した物体がマッチングすると判定する、
 付記10に記載の映像処理システム。
(付記14)
 前記決定手段は、前記位置を予測した注視対象と前記検出した物体がマッチングすると判定した場合、前記検出した物体に基づいて前記注視領域を決定する、
 付記9乃至13のいずれか一項に記載の映像処理システム。
(付記15)
 前記決定手段は、前記位置を予測した注視対象と前記検出した物体がマッチングしないと判定した場合、前記位置を予測した注視対象に基づいて前記注視領域を決定するか、または、前記注視領域を決定しない、
 付記9乃至14のいずれか一項に記載の映像処理システム。
(付記16)
 前記決定手段は、複数の前記位置を予測した注視対象と前記検出した物体とのマッチング結果に応じて、複数の前記位置を予測した注視対象と前記検出した物体のいずれかの領域を選択し、前記選択した領域に基づいて前記注視領域を決定する、
 付記9乃至15のいずれか一項に記載の映像処理システム。
(付記17)
 前記決定手段は、前記位置を予測した注視対象と複数の前記検出した物体とのマッチング結果に応じて、前記位置を予測した注視対象と複数の前記検出した物体のいずれかの領域を選択し、前記選択した領域に基づいて前記注視領域を決定する、
 付記9乃至16のいずれか一項に記載の映像処理システム。
(付記18)
 前記決定手段は、前記認識処理における認識結果に基づいて、前記注視領域を決定するか否か判定する、
 付記1乃至17のいずれか一項に記載の映像処理システム。
(付記19)
 前記決定手段は、前記認識結果のスコアが所定値より小さい場合、前記注視領域を決定する、
 付記18に記載の映像処理システム。
(付記20)
 前記注視対象は、前記認識処理の対象である人物と、前記人物が使用する使用物体とを含み、
 前記注視領域は、前記人物の領域と前記使用物体の領域を含む、
 付記1乃至18のいずれか一項に記載の映像処理システム。
(付記21)
 前記画質制御手段は、前記注視領域の画質を他の領域よりも高画質化する、
 付記1乃至20のいずれか一項に記載の映像処理システム。
(付記22)
 入力される映像における注視対象を含む注視領域の画質を制御し、
 前記注視領域の画質が制御された映像に対し、前記注視対象を認識する認識処理を実行し、
 前記認識処理から抽出される抽出情報に基づいて、前記認識処理を行った映像より後の映像における前記注視対象の位置を予測し、
 前記予測された注視対象の位置に基づいて、前記後の映像において画質を制御する前記注視領域を決定する、
 映像処理方法。
(付記23)
 前記抽出情報は、前記注視対象の時系列の位置情報を含む、
 付記22に記載の映像処理方法。
(付記24)
 前記抽出情報は、前記注視対象に対する行動認識結果を含む、
 付記22または23に記載の映像処理方法。
(付記25)
 前記行動認識結果が示す行動において使用される物体である使用物体に基づいて、前記注視対象の位置を予測する、
 付記24に記載の映像処理方法。
(付記26)
 前記行動認識結果が示す行動を行う人物の向きに基づいて、前記注視対象の位置を予測する、
 付記24または25に記載の映像処理方法。
(付記27)
 前記認識処理を行った映像より後に入力される映像から物体を検出し、
 前記位置を予測した注視対象と前記検出した物体とのマッチング結果に基づいて、前記注視領域を決定する、
 付記22乃至26のいずれか一項に記載の映像処理方法。
(付記28)
 前記注視対象は、前記認識処理の対象である人物と、前記人物が使用する使用物体とを含み、
 前記注視領域は、前記人物の領域と前記使用物体の領域を含む、
 付記22乃至27のいずれか一項に記載の映像処理方法。
(付記29)
 入力される映像における注視対象を含む注視領域の画質を制御する画質制御手段と、
 前記注視領域の画質が制御された映像に対し、前記注視対象を認識する認識処理を実行する認識手段と、
 前記認識処理から抽出される抽出情報に基づいて、前記認識処理を行った映像より後の映像における前記注視対象の位置を予測する予測手段と、
 前記予測された注視対象の位置に基づいて、前記画質制御手段が前記後の映像において画質を制御する前記注視領域を決定する決定手段と、
 を備える、映像処理装置。
(付記30)
 前記抽出情報は、前記注視対象の時系列の位置情報を含む、
 付記29に記載の映像処理装置。
(付記31)
 前記抽出情報は、前記注視対象に対する行動認識結果を含む、
 付記29または30に記載の映像処理装置。
(付記32)
 前記予測手段は、前記行動認識結果が示す行動において使用される物体である使用物体に基づいて、前記注視対象の位置を予測する、
 付記31に記載の映像処理装置。
(付記33)
 前記予測手段は、前記行動認識結果が示す行動を行う人物の向きに基づいて、前記注視対象の位置を予測する、
 付記31または32に記載の映像処理装置。
(付記34)
 前記注視対象は、前記認識処理の対象である人物と、前記人物が使用する使用物体とを含み、
 前記注視領域は、前記人物の領域と前記使用物体の領域を含む、
 付記29乃至33のいずれか一項に記載の映像処理装置。
(付記35)
 入力される映像における注視対象を含む注視領域の画質を制御し、
 前記注視領域の画質が制御された映像に対し、前記注視対象を認識する認識処理を実行し、
 前記認識処理から抽出される抽出情報に基づいて、前記認識処理を行った映像より後の映像における前記注視対象の位置を予測し、
 前記予測された注視対象の位置に基づいて、前記後の映像において画質を制御する前記注視領域を決定する、
 処理をコンピュータに実行させるための映像処理プログラム。
1   遠隔監視システム
10  映像処理システム
11  画質制御部
12  認識部
13  予測部
14  決定部
20  映像処理装置
40  コンピュータ
41  プロセッサ
42  メモリ
100 端末
101 カメラ
102 圧縮効率最適化機能
103 映像送信機能
110 映像取得部
120 検出部
130 画質変更判定部
131 第1の判定部
132 第2の判定部
133 マッチング部
140 圧縮効率決定部
150 端末通信部
200 センターサーバ
201 映像認識機能
202 アラート生成機能
203 GUI描画機能
204 画面表示機能
210 センター通信部
220 デコーダ
230 行動認識部
231 物体検出部
232 追跡部
233a 関連性分析部
233b 行動予測器
234 行動判定部
240 抽出情報保存部
250 注視対象解析部
260 注視対象位置予測部
300 基地局
400 MEC
401 圧縮ビットレート制御機能
402 端末制御機能

Claims (20)

  1.  入力される映像における注視対象を含む注視領域の画質を制御する画質制御手段と、
     前記注視領域の画質が制御された映像に対し、前記注視対象を認識する認識処理を実行する認識手段と、
     前記認識処理から抽出される抽出情報に基づいて、前記認識処理を行った映像より後の映像における前記注視対象の位置を予測する予測手段と、
     前記予測された注視対象の位置に基づいて、前記画質制御手段が前記後の映像において画質を制御する前記注視領域を決定する決定手段と、
     を備える、映像処理システム。
  2.  前記抽出情報は、前記注視対象の時系列の位置情報を含む、
     請求項1に記載の映像処理システム。
  3.  前記抽出情報は、前記注視対象に対する行動認識結果を含む、
     請求項1または2に記載の映像処理システム。
  4.  前記予測手段は、前記行動認識結果が示す行動において使用される物体である使用物体に基づいて、前記注視対象の位置を予測する、
     請求項3に記載の映像処理システム。
  5.  前記予測手段は、前記行動認識結果が示す行動を行う人物の向きに基づいて、前記注視対象の位置を予測する、
     請求項3または4に記載の映像処理システム。
  6.  前記認識処理を行った映像より後に入力される映像から物体を検出する検出手段を備え、
     前記決定手段は、前記位置を予測した注視対象と前記検出した物体とのマッチング結果に基づいて、前記注視領域を決定する、
     請求項1乃至5のいずれか一項に記載の映像処理システム。
  7.  前記注視対象は、前記認識処理の対象である人物と、前記人物が使用する使用物体とを含み、
     前記注視領域は、前記人物の領域と前記使用物体の領域を含む、
     請求項1乃至6のいずれか一項に記載の映像処理システム。
  8.  入力される映像における注視対象を含む注視領域の画質を制御し、
     前記注視領域の画質が制御された映像に対し、前記注視対象を認識する認識処理を実行し、
     前記認識処理から抽出される抽出情報に基づいて、前記認識処理を行った映像より後の映像における前記注視対象の位置を予測し、
     前記予測された注視対象の位置に基づいて、前記後の映像において画質を制御する前記注視領域を決定する、
     映像処理方法。
  9.  前記抽出情報は、前記注視対象の時系列の位置情報を含む、
     請求項8に記載の映像処理方法。
  10.  前記抽出情報は、前記注視対象に対する行動認識結果を含む、
     請求項8または9に記載の映像処理方法。
  11.  前記行動認識結果が示す行動において使用される物体である使用物体に基づいて、前記注視対象の位置を予測する、
     請求項10に記載の映像処理方法。
  12.  前記行動認識結果が示す行動を行う人物の向きに基づいて、前記注視対象の位置を予測する、
     請求項10または11に記載の映像処理方法。
  13.  前記認識処理を行った映像より後に入力される映像から物体を検出し、
     前記位置を予測した注視対象と前記検出した物体とのマッチング結果に基づいて、前記注視領域を決定する、
     請求項8乃至12のいずれか一項に記載の映像処理方法。
  14.  前記注視対象は、前記認識処理の対象である人物と、前記人物が使用する使用物体とを含み、
     前記注視領域は、前記人物の領域と前記使用物体の領域を含む、
     請求項8乃至13のいずれか一項に記載の映像処理方法。
  15.  入力される映像における注視対象を含む注視領域の画質を制御する画質制御手段と、
     前記注視領域の画質が制御された映像に対し、前記注視対象を認識する認識処理を実行する認識手段と、
     前記認識処理から抽出される抽出情報に基づいて、前記認識処理を行った映像より後の映像における前記注視対象の位置を予測する予測手段と、
     前記予測された注視対象の位置に基づいて、前記画質制御手段が前記後の映像において画質を制御する前記注視領域を決定する決定手段と、
     を備える、映像処理装置。
  16.  前記抽出情報は、前記注視対象の時系列の位置情報を含む、
     請求項15に記載の映像処理装置。
  17.  前記抽出情報は、前記注視対象に対する行動認識結果を含む、
     請求項15または16に記載の映像処理装置。
  18.  前記予測手段は、前記行動認識結果が示す行動において使用される物体である使用物体に基づいて、前記注視対象の位置を予測する、
     請求項17に記載の映像処理装置。
  19.  前記予測手段は、前記行動認識結果が示す行動を行う人物の向きに基づいて、前記注視対象の位置を予測する、
     請求項17または18に記載の映像処理装置。
  20.  前記注視対象は、前記認識処理の対象である人物と、前記人物が使用する使用物体とを含み、
     前記注視領域は、前記人物の領域と前記使用物体の領域を含む、
     請求項15乃至19のいずれか一項に記載の映像処理装置。
PCT/JP2022/032761 2022-08-31 2022-08-31 映像処理システム、映像処理方法、及び映像処理装置 WO2024047791A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/032761 WO2024047791A1 (ja) 2022-08-31 2022-08-31 映像処理システム、映像処理方法、及び映像処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/032761 WO2024047791A1 (ja) 2022-08-31 2022-08-31 映像処理システム、映像処理方法、及び映像処理装置

Publications (1)

Publication Number Publication Date
WO2024047791A1 true WO2024047791A1 (ja) 2024-03-07

Family

ID=90098955

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/032761 WO2024047791A1 (ja) 2022-08-31 2022-08-31 映像処理システム、映像処理方法、及び映像処理装置

Country Status (1)

Country Link
WO (1) WO2024047791A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190052799A1 (en) * 2017-08-08 2019-02-14 Mediatek Inc. Perception-based image processing apparatus and associated method
WO2021028061A1 (en) * 2019-08-15 2021-02-18 Telefonaktiebolaget Lm Ericsson (Publ) Collaborative object detection
WO2022075133A1 (ja) * 2020-10-08 2022-04-14 ソニーセミコンダクタソリューションズ株式会社 撮像装置、情報処理装置、撮像システム及び撮像方法
WO2022074701A1 (ja) * 2020-10-05 2022-04-14 日本電気株式会社 情報処理装置、情報処理システム、および情報処理方法
WO2022153896A1 (ja) * 2021-01-12 2022-07-21 ソニーセミコンダクタソリューションズ株式会社 撮像装置、画像処理方法及び画像処理プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190052799A1 (en) * 2017-08-08 2019-02-14 Mediatek Inc. Perception-based image processing apparatus and associated method
WO2021028061A1 (en) * 2019-08-15 2021-02-18 Telefonaktiebolaget Lm Ericsson (Publ) Collaborative object detection
WO2022074701A1 (ja) * 2020-10-05 2022-04-14 日本電気株式会社 情報処理装置、情報処理システム、および情報処理方法
WO2022075133A1 (ja) * 2020-10-08 2022-04-14 ソニーセミコンダクタソリューションズ株式会社 撮像装置、情報処理装置、撮像システム及び撮像方法
WO2022153896A1 (ja) * 2021-01-12 2022-07-21 ソニーセミコンダクタソリューションズ株式会社 撮像装置、画像処理方法及び画像処理プログラム

Similar Documents

Publication Publication Date Title
US10817714B2 (en) Method and apparatus for predicting walking behaviors, data processing apparatus, and electronic device
CN111242973A (zh) 目标跟踪方法、装置、电子设备及存储介质
US11107231B2 (en) Object detection device, object detection method, and object detection program
CN111382637B (zh) 行人检测跟踪方法、装置、终端设备及介质
CN111988524A (zh) 一种无人机与摄像头协同避障方法、服务器及存储介质
CN112863187B (zh) 感知模型的检测方法、电子设备、路侧设备和云控平台
WO2020052275A1 (zh) 图像处理方法、装置、终端设备、服务器及系统
CN113177968A (zh) 目标跟踪方法、装置、电子设备及存储介质
KR102330055B1 (ko) 드론을 이용한 구조물의 변화 검출 방법 및 시스템
KR102391853B1 (ko) 영상 정보 처리 시스템 및 방법
CN113326773A (zh) 识别模型训练方法、识别方法、装置、设备及存储介质
CN113901911B (zh) 图像识别、模型训练方法、装置、电子设备及存储介质
CN111626263A (zh) 一种视频感兴趣区域检测方法、装置、设备及介质
CN113989721A (zh) 目标检测方法和目标检测模型的训练方法、装置
WO2024047791A1 (ja) 映像処理システム、映像処理方法、及び映像処理装置
WO2024042705A1 (ja) 映像処理システム、映像処理方法、及び映像処理装置
CN113627298A (zh) 目标检测模型的训练方法及检测目标对象的方法、装置
CN113052048A (zh) 交通事件检测方法、装置、路侧设备以及云控平台
JP7078295B2 (ja) 変状検出装置、変状検出方法、及びプログラム
CN111784750A (zh) 视频图像中移动物体追踪方法、装置、设备以及存储介质
WO2024047748A1 (ja) 映像処理システム、映像処理方法、及び映像処理装置
WO2024047747A1 (ja) 映像処理システム、映像処理方法、及び映像処理装置
WO2024038517A1 (ja) 映像処理システム、映像処理方法、及び画質制御装置
WO2024047794A1 (ja) 映像処理システム、映像処理装置及び映像処理方法
CN112767438B (zh) 结合时空运动的多目标跟踪方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22957390

Country of ref document: EP

Kind code of ref document: A1