WO2024047748A1 - 映像処理システム、映像処理方法、及び映像処理装置 - Google Patents

映像処理システム、映像処理方法、及び映像処理装置 Download PDF

Info

Publication number
WO2024047748A1
WO2024047748A1 PCT/JP2022/032586 JP2022032586W WO2024047748A1 WO 2024047748 A1 WO2024047748 A1 WO 2024047748A1 JP 2022032586 W JP2022032586 W JP 2022032586W WO 2024047748 A1 WO2024047748 A1 WO 2024047748A1
Authority
WO
WIPO (PCT)
Prior art keywords
behavior
recognition
gaze target
gaze
video
Prior art date
Application number
PCT/JP2022/032586
Other languages
English (en)
French (fr)
Inventor
康敬 馬場崎
勝彦 高橋
隆平 安藤
浩一 二瓶
フロリアン バイエ
孝法 岩井
勇人 逸身
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2022/032586 priority Critical patent/WO2024047748A1/ja
Publication of WO2024047748A1 publication Critical patent/WO2024047748A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Definitions

  • the present disclosure relates to a video processing system, a video processing method, and a video processing device.
  • Patent Document 1 is known as a related technology.
  • Patent Document 1 describes a remote monitoring system that transmits images captured by a camera mounted on a vehicle via a network and analyzes the images at a remote monitoring center. It is described that the image quality is improved and other areas are sent with lower image quality.
  • the present disclosure aims to provide a video processing system, a video processing method, and a video processing device that can appropriately control the amount of video data.
  • a video processing system includes an image quality control unit that controls the image quality of a gaze area including a gaze target in an input video, and a recognition unit that performs recognition processing regarding an object included in the video whose image quality of the gaze area is controlled. and an extraction means for extracting the gaze target based on the uncertainty of the recognition result of the recognition process.
  • a video processing method controls the image quality of a gaze region including a gaze target in an input video, performs recognition processing regarding an object included in the video whose image quality of the gaze region is controlled, and performs recognition processing on an object included in the video for which the image quality of the gaze region is controlled.
  • the object of attention is extracted based on the indeterminacy of the recognition result.
  • a video processing device includes an image quality control unit that controls the image quality of a gaze area including a gaze target in an input video, and a recognition process that performs a recognition process regarding an object included in the video whose image quality of the gaze area is controlled. and an extraction means for extracting the gaze target based on the uncertainty of the recognition result of the recognition process.
  • FIG. 1 is a configuration diagram showing an overview of a video processing system according to an embodiment.
  • FIG. 1 is a configuration diagram showing an overview of a video processing device according to an embodiment.
  • 1 is a flowchart showing an overview of a video processing method according to an embodiment.
  • FIG. 1 is a configuration diagram showing the basic configuration of a remote monitoring system.
  • 1 is a configuration diagram showing a configuration example of a terminal according to Embodiment 1.
  • FIG. 1 is a configuration diagram showing an example configuration of a center server according to Embodiment 1.
  • FIG. FIG. 2 is a configuration diagram showing a configuration example of a behavior recognition unit according to Embodiment 1.
  • FIG. FIG. 2 is a configuration diagram showing a configuration example of a predictor according to Embodiment 1.
  • FIG. 1 is a configuration diagram showing an overview of a video processing system according to an embodiment.
  • FIG. 1 is a configuration diagram showing an overview of a video processing device according to an embodiment.
  • 1 is a flow
  • FIG. 3 is a flowchart illustrating an example of the operation of the remote monitoring system according to the first embodiment.
  • FIG. 3 is a diagram for explaining video acquisition processing according to the first embodiment.
  • FIG. 3 is a diagram for explaining object detection processing according to the first embodiment.
  • 5 is a flowchart illustrating an operation example of behavior recognition processing according to the first embodiment.
  • FIG. 3 is a diagram for explaining behavior recognition processing according to the first embodiment.
  • 5 is a flowchart illustrating an operation example of gaze target extraction processing according to the first embodiment.
  • FIG. 7 is a diagram for explaining an example in which there are variations in recognition results in the gaze target extraction process according to the first embodiment.
  • FIG. 7 is a diagram for explaining another example in which there are variations in recognition results in the gaze target extraction process according to the first embodiment.
  • FIG. 3 is a diagram for explaining an example in which there is no variation in recognition results in the gaze target extraction process according to the first embodiment; 7 is a diagram for explaining another example in which there is no variation in recognition results in the gaze target extraction process according to the first embodiment; FIG. FIG. 3 is a diagram for explaining gaze area determination processing according to the first embodiment.
  • 7 is a configuration diagram showing a configuration example of a behavior recognition unit according to Embodiment 2.
  • FIG. 7 is a flowchart illustrating an operation example of behavior recognition processing according to Embodiment 2.
  • FIG. FIG. 7 is a diagram for explaining dropout processing according to Embodiment 2; 7 is a diagram for explaining dropout processing according to Embodiment 2.
  • FIG. FIG. 1 is a configuration diagram showing an overview of the hardware of a computer according to an embodiment.
  • the bandwidth of the network that transmits the video is limited, so it is preferable to suppress the amount of video data to be transmitted as much as possible.
  • the amount of video data can be reduced by increasing the video compression rate.
  • the video compression rate is high or the data loss rate is high, the number of erroneous recognitions increases and the recognition accuracy decreases. Therefore, in the embodiment, it is possible to prevent erroneous recognition while suppressing the amount of video data to be transmitted as much as possible. For example, it prevents misrecognition of important events such as unsafe or dangerous actions.
  • FIG. 1 shows a schematic configuration of a video processing system 10 according to an embodiment.
  • the video processing system 10 is applicable to, for example, a remote monitoring system that collects video via a network and monitors the video.
  • the video processing system 10 includes an image quality control section 11, a recognition section 12, and an extraction section 13.
  • the image quality control unit 11 controls the image quality of the gaze area including the gaze target in the input video. For example, the image quality control unit 11 may make the image quality of the gaze area higher than that of other areas, that is, make it clearer.
  • the recognition unit 12 performs recognition processing regarding an object included in a video whose image quality in a gaze area is controlled.
  • the object-related recognition process is an action recognition process that recognizes the behavior of the object, but it may also be a process that recognizes information or characteristics regarding other objects.
  • the extraction unit 13 extracts the gaze target based on the uncertainty of the recognition result of the recognition process by the recognition unit 12.
  • Indeterminacy of recognition results refers to variations in recognition results.
  • the recognition unit 12 includes a plurality of behavior predictors that have learned different learning data, and the extraction unit 13 determines the gaze target based on variations in recognition results of a plurality of behaviors output from the plurality of behavior predictors. May be extracted.
  • the gaze target may be extracted based on the behavior label included in the behavior recognition result or the variation in the score of the behavior label.
  • the recognition unit 12 includes one behavior predictor, and the extraction unit 13 extracts the information based on the dispersion of the recognition results of multiple behaviors output when the one behavior predictor performs behavior recognition multiple times.
  • a gaze target may be extracted. Extracting a gaze target means selecting a gaze target from candidates included in the recognition result.
  • FIG. 2 shows the configuration of a video processing device 20 according to the embodiment.
  • the video processing device 20 may include the image quality control section 11, the recognition section 12, and the extraction section 13 shown in FIG.
  • part or all of the video processing system 10 may be placed at the edge or in the cloud.
  • the edge is a device placed at or near the site, and is also a device close to the terminal as a layer of the network.
  • the image quality control unit 11 may be placed in an edge terminal, and the recognition unit 12 and extraction unit 13 may be placed in a cloud server.
  • each function may be distributed and arranged in the cloud.
  • FIG. 3 shows a video processing method according to an embodiment.
  • the video processing method according to the embodiment is executed by the video processing system 10 in FIG. 1 or the video processing device 20 in FIG. 2.
  • the image quality of the gaze area including the gaze target in the input video is controlled (S11).
  • a recognition process is performed regarding an object included in the video whose image quality in the gaze area has been controlled (S12).
  • a gaze target is extracted based on the indeterminacy of the recognition result of the recognition process (S13).
  • the image quality of the gaze area including the extracted gaze target is controlled for the input video.
  • the video processing system recognizes the behavior of an object from a video whose image quality has been controlled, and extracts a gaze target based on the indeterminacy of the recognition result. For example, if the recognition results vary, actions may not be recognized correctly, and the reliability of the recognition results may be low. Therefore, by making the object corresponding to the recognition result the object of attention and making it clearer, actions and the like can be recognized correctly. Furthermore, since areas other than the target to be watched can be compressed, the amount of video data to be transmitted can be suppressed.
  • FIG. 4 shows the basic configuration of the remote monitoring system 1.
  • the remote monitoring system 1 is a system that monitors an area where images are taken by a camera.
  • the system will be described as a system for remotely monitoring the work of workers at the site.
  • the site may be an area where people and machines operate, such as a work site such as a construction site, a public square where people gather, or a school.
  • the work will be described as construction work, civil engineering work, etc., but is not limited thereto.
  • the remote monitoring system can be said to be a video processing system that processes videos, and also an image processing system that processes images.
  • the remote monitoring system 1 includes a plurality of terminals 100, a center server 200, a base station 300, and an MEC 400.
  • the terminal 100, base station 300, and MEC 400 are placed on the field side, and the center server 200 is placed on the center side.
  • the center server 200 is located at a data center, monitoring center, or the like that is located away from the site.
  • the field side is the edge side of the system, and the center side is also the cloud side.
  • the center server 200 may be composed of one device or may be composed of a plurality of devices. Further, part or all of the center server 200 may be placed in the cloud.
  • the video recognition function 201 and the alert generation function 202 may be placed in the cloud
  • the GUI drawing function 203 and the screen display function 204 may be placed in a monitoring center or the like.
  • Terminal 100 and base station 300 are communicably connected via network NW1.
  • the network NW1 is, for example, a wireless network such as 4G, local 5G/5G, LTE (Long Term Evolution), or wireless LAN.
  • Base station 300 and center server 200 are communicably connected via network NW2.
  • the network NW2 includes, for example, core networks such as 5GC (5th Generation Core network) and EPC (Evolved Packet Core), the Internet, and the like. It can also be said that the terminal 100 and the center server 200 are communicably connected via the base station 300.
  • 5GC Fifth Generation Core network
  • EPC Evolved Packet Core
  • the base station 300 and MEC 400 are communicably connected by any communication method, the base station 300 and MEC 400 may be one device.
  • the terminal 100 is a terminal device connected to the network NW1, and is also a video generation device that generates on-site video.
  • the terminal 100 acquires an image captured by a camera 101 installed at the site, and transmits the acquired image to the center server 200 via the base station 300.
  • the camera 101 may be placed outside the terminal 100 or inside the terminal 100.
  • the terminal 100 compresses the video from the camera 101 to a predetermined bit rate and transmits the compressed video.
  • the terminal 100 has a compression efficiency optimization function 102 that optimizes compression efficiency and a video transmission function 103 .
  • the compression efficiency optimization function 102 performs ROI control to control the image quality of a ROI (Region of Interest).
  • the compression efficiency optimization function 102 reduces the bit rate by lowering the image quality of the region around the ROI while maintaining the image quality of the ROI including the person or object.
  • the video transmission function 103 transmits the quality-controlled video to the center server 200.
  • the base station 300 is a base station device of the network NW1, and is also a relay device that relays communication between the terminal 100 and the center server 200.
  • the base station 300 is a local 5G base station, a 5G gNB (next Generation Node B), an LTE eNB (evolved Node B), a wireless LAN access point, or the like, but may also be another relay device.
  • MEC 400 is an edge processing device placed on the edge side of the system.
  • the MEC 400 is an edge server that controls the terminal 100, and has a compression bit rate control function 401 and a terminal control function 402 that control the bit rate of the terminal.
  • the compression bit rate control function 401 controls the bit rate of the terminal 100 through adaptive video distribution control and QoE (quality of experience) control. For example, the compression bit rate control function 401 predicts the recognition accuracy that will be obtained while suppressing the bit rate according to the communication environment of the networks NW1 and NW2, and sets the bit rate to the camera 101 of each terminal 100 so as to improve the recognition accuracy. Assign.
  • the terminal control function 402 controls the terminal 100 to transmit video at the assigned bit rate. Terminal 100 encodes the video at the allocated bit rate and transmits the encoded video.
  • the center server 200 is a server installed on the center side of the system.
  • the center server 200 may be one or more physical servers, or may be a cloud server built on the cloud or other virtualized servers.
  • the center server 200 is a monitoring device that monitors on-site work by recognizing people's work from on-site camera images.
  • the center server 200 is also a recognition device that recognizes the actions of people in the video transmitted from the terminal 100.
  • the center server 200 has a video recognition function 201, an alert generation function 202, a GUI drawing function 203, and a screen display function 204.
  • the video recognition function 201 inputs the video transmitted from the terminal 100 into a video recognition AI (Artificial Intelligence) engine to recognize the type of work performed by the worker, that is, the type of behavior of the person.
  • the alert generation function 202 generates an alert in response to the recognized work.
  • the GUI drawing function 203 displays a GUI (Graphical User Interface) on the screen of a display device.
  • the screen display function 204 displays images of the terminal 100, recognition results, alerts, etc. on the GUI.
  • Embodiment 1 Next, Embodiment 1 will be described. In this embodiment, an example will be described in which a gaze target is extracted based on variations in action recognition results obtained by a plurality of predictors.
  • FIG. 4 shows a configuration example of the terminal 100 and the center server 200
  • FIG. 5 shows a configuration example of terminal 100 according to this embodiment
  • FIG. 6 shows a configuration example of center server 200 according to this embodiment.
  • the configuration of each device is an example, and other configurations may be used as long as the operation according to the present embodiment described later is possible.
  • some functions of the terminal 100 may be placed in the center server 200 or other devices, or some functions of the center server 200 may be placed in the terminal 100 or other devices.
  • the terminal 100 includes a video acquisition section 110, a detection section 120, an image quality change determination section 130, a compression efficiency determination section 140, and a terminal communication section 150.
  • the video acquisition unit 110 acquires the video captured by the camera 101 (also referred to as input video).
  • the input video includes a person who is a worker working on a site, a work object used by the person, and the like.
  • the video acquisition unit 110 is also an image acquisition unit that acquires a plurality of time-series images.
  • the detection unit 120 is an object detection unit that detects an object within the acquired input video.
  • the detection unit 120 detects an object in each image included in the input video, and assigns a label to the detected object, that is, an object label.
  • the object label is the class of the object and indicates the type of the object. For example, object labels include people, cars, robots, hammers, etc.
  • the detection unit 120 extracts a rectangular region containing an object from each image included in the input video, recognizes the object within the extracted rectangular region, and assigns a label to the recognized object.
  • the rectangular area is a bounding box or an object area. Note that the object area including the object is not limited to a rectangular area, but may be a circular area, an irregularly shaped silhouette area, or the like.
  • the detection unit 120 calculates the feature amount of the image of the object included in the rectangular area, and recognizes the object based on the calculated feature amount. For example, the detection unit 120 recognizes objects in an image using an object recognition engine that uses machine learning such as deep learning. Objects can be recognized by machine learning the features of the object image and the object label.
  • the object detection result includes an object label, position information of a rectangular area including the object, and the like.
  • the position information of the object is, for example, the coordinates of each vertex of a rectangular area, but it may also be the position of the center of the rectangular area, or the position of any point on the object.
  • the detection unit 120 transmits the detection result of the object to the image quality change determination unit 130.
  • the image quality change determination unit 130 determines a region of interest (ROI) that is an image quality change area in which the image quality of the acquired input video is changed.
  • ROI region of interest
  • the image quality change determination unit 130 is a determination unit that determines the gaze area.
  • the gaze area is an area that includes the gaze target, and is an area where the image quality is increased, that is, the image quality is made clearer. Furthermore, the gaze area can be said to be an area that ensures image quality for action recognition.
  • the image quality change determination unit 130 includes a first determination unit 131 and a second determination unit 132.
  • first the first determination unit 131 determines the gaze area
  • the second determination unit 132 determines the gaze area. Note that the determination of the gaze area by the first determination unit 131 may be omitted, and only the determination of the gaze area by the second determination unit 132 may be performed.
  • the first determination unit 131 determines the gaze area of the input video based on the detection result of the object detected within the input video.
  • the first determination unit 131 determines a gaze area based on position information of an object having a label to be gazed among detection objects detected in the input video of the detection unit 120.
  • the gaze target may be a person who is the target of behavior recognition, or may include a work object that the person can use in work.
  • the label of a work object is preset as a label of an object related to a person.
  • the target of action recognition is not limited to a person, but may also be an object such as heavy machinery or a robot. That is, actions including work performed by heavy machinery or robots may be recognized.
  • the second determination unit 132 determines the gaze area of the input video based on the fed back information.
  • extracted gaze target information which is information on the gaze target extracted by the center server 200
  • the extracted gaze target information is information regarding the gaze target, and is information indicating the gaze target extracted by the center server 200 performing behavior recognition.
  • the extracted gaze target information is position information of the gaze target, and includes position information of a rectangular region of the gaze target.
  • the second determination unit 132 determines the rectangular area indicated by the acquired extracted gaze target information as the gaze area. That is, an area that ensures the image quality of the input video is determined based on the extracted position of the gaze target.
  • the compression efficiency determining unit 140 determines the compression rate of the region of interest or an area other than the region of interest, and compresses the video.
  • the compression efficiency determining unit 140 is an encoder that encodes the input video using the determined compression rate.
  • the compression efficiency determination unit 140 may be configured, for example, by H. 264 and H.
  • the video is encoded using a video encoding method such as H.265.
  • the compression efficiency determining unit 140 encodes the input video so that the bit rate assigned by the compression bit rate control function 401 of the MEC 400 is achieved.
  • the compression efficiency determination unit 140 is an image quality control unit that controls the image quality of the gaze area determined by the image quality change determination unit 130, and corresponds to the image quality control unit 11 in FIG. It can also be said that the compression efficiency determination unit 140 is an image quality improvement unit that improves the image quality of the region of interest.
  • the gaze area is an area determined by either the first determination unit 131 or the second determination unit 132.
  • the compression efficiency determining unit 140 encodes the image quality of the image area to a predetermined quality by compressing the image area and other areas at predetermined compression rates. That is, by changing the compression ratio between the focused area and other areas, the image quality of the focused area is made higher than that of the other areas. It can also be said that the image quality of other areas is lower than that of the gaze area.
  • the image quality of the gaze area and other areas is controlled within the bit rate assigned by the compression bit rate control function 401 of the MEC 400.
  • the image quality of the gaze area may be controlled by changing not only the compression rate but also the image resolution, frame rate, and the like.
  • the image quality of the gaze area may be controlled by changing the amount of color information of the image, for example, color, gray scale, black and white, etc.
  • the terminal communication unit 150 transmits the encoded data encoded by the compression efficiency determination unit 140 to the center server 200 via the base station 300.
  • the terminal communication unit 150 is a transmitting unit that transmits a video whose image quality in the viewing area is controlled. Furthermore, the terminal communication unit 150 receives extracted gaze target information transmitted from the center server 200 via the base station 300.
  • the terminal communication unit 150 is an acquisition unit that acquires extracted gaze target information.
  • the terminal communication unit 150 is an interface that can communicate with the base station 300, and is, for example, a wireless interface such as 4G, local 5G/5G, LTE, or wireless LAN, but may also be a wireless or wired interface of any other communication method. good.
  • the terminal communication unit 150 may include a first terminal communication unit that transmits encoded data and a second terminal communication unit that receives extracted gaze target information.
  • the first terminal communication section and the second terminal communication section may be communication sections using the same communication method, or may be communication sections using different communication methods.
  • the center server 200 includes a center communication section 210, a decoder 220, an action recognition section 230, an analysis information storage section 240, and a gaze target analysis section 250.
  • the center communication unit 210 receives encoded data transmitted from the terminal 100 via the base station 300.
  • the center communication unit 210 is a receiving unit that receives video whose image quality in the viewing area is controlled. Further, the center communication unit 210 transmits the extracted gaze target information extracted by the gaze target analysis unit 250 to the terminal 100 via the base station 300.
  • the center communication unit 210 is a notification unit that notifies the extracted gaze target information.
  • the center communication unit 210 is an interface capable of communicating with the Internet or a core network, and is, for example, a wired interface for IP communication, but may be a wired or wireless interface of any other communication method.
  • the center communication unit 210 may include a first center communication unit that receives encoded data and a second center communication unit that transmits extracted gaze target information.
  • the first center communication section and the second center communication section may be communication sections using the same communication method, or may be communication sections using different communication methods.
  • the decoder 220 decodes the encoded data received from the terminal 100.
  • the decoder 220 corresponds to the encoding method of the terminal 100, for example, H. 264 and H.
  • the video is decoded using a video encoding method such as H.265.
  • the decoder 220 decodes each area according to the compression rate and generates a decoded video (also referred to as received video).
  • the behavior recognition unit 230 is a recognition unit that recognizes the behavior of an object in the decoded received video, and corresponds to the recognition unit 12 in FIG. 1.
  • the behavior recognition unit 230 executes behavior recognition processing for recognizing the behavior of the gaze target on the video whose image quality in the gaze area is controlled.
  • the action recognition unit 230 detects an object from the received video and recognizes the action of the detected object.
  • the behavior recognition unit 230 recognizes the behavior of the person who is the target of behavior recognition, and assigns a label of the recognized behavior, that is, a behavior label.
  • the behavior label is a class of behavior and indicates the type of behavior.
  • the behavior recognition unit 230 recognizes the behavior of a person based on the person and the work object detected from the received video.
  • the behavior recognition unit 230 may recognize the behavior of a person by identifying the relationship between the person and the work object.
  • the relationship between a person and a work object includes which object the person is using or not using.
  • the work object may be identified for each person based on the distance between the person and the work object, and the behavior may be recognized from the identified work object.
  • the behavior recognition unit 230 performs machine learning on work objects and tasks related to a person, and recognizes the behavior of the person based on machine learning.
  • the method is not limited to the machine learning basis, and may also be used to associate work objects and tasks related to a person and recognize the person's actions based on rules.
  • a work object and a work content may be associated in advance, and a person's behavior may be recognized based on the detected work object.
  • actions may be recognized only from the person.
  • the posture and shape of the person may be associated with the content of the work in advance, and the behavior of the person may be recognized based on the detected posture and shape of the person.
  • the action recognition unit 230 includes a plurality of predictors that predict actions from received videos, and outputs action recognition results predicted by the plurality of predictors.
  • the analysis information storage unit 240 stores analysis information analyzed by the behavior recognition unit 230.
  • the analysis information includes action recognition results, person detection information, work object detection information related to the action, and the like.
  • the action recognition result may include detection information of a person and detection information of a work object related to the action.
  • the action recognition result includes a label of the recognized action, a score of the action label, identification information of the person performing the recognized action, identification information of the work object used in the recognized action, and the like.
  • the score of the behavior label indicates the degree of certainty, which is the probability (probability) of the behavior label. The higher the score, the more likely the predicted behavior label is correct.
  • the person detection information includes position information of a rectangular area of the person, tracking information, and the like.
  • the tracking information is trajectory information indicating the tracking result of the object.
  • the detection information of the work object includes an object label, a score of the object label, position information of a rectangular area of the object, tracking information, and the like.
  • the behavior predictor (behavior recognition engine) of the behavior recognition unit 230 extracts candidates for work objects that can be related to each image by learning to give weight to objects related to the action, and Outputs information about object candidates. For example, when it recognizes a pile-driving operation, it outputs information about a hammer, which is an object related to the action.
  • the gaze target analysis unit 250 is an extraction unit that extracts a gaze target based on the analysis information analyzed by the behavior recognition unit 230, and corresponds to the extraction unit 13 in FIG. 1.
  • the analysis information may be acquired from the behavior recognition section 230 or from the analysis information storage section 240.
  • the gaze target analysis unit 250 determines a gaze target that ensures image quality in order to prevent behavioral recognition errors.
  • the gaze target analysis unit 250 determines the gaze target based on the action recognition result.
  • the gaze target analysis unit 250 targets a person whose behavior is recognized by the behavior recognition unit 230, that is, a person whose behavior is included in the behavior recognition result.
  • the person and the work object may be set as the gaze targets.
  • objects related to the work may be a "pile” and a "hammer", and the person, the "pile” and the “hammer” may be set as objects of attention.
  • the gaze target analysis unit 250 extracts the gaze target based on the indeterminacy of the action recognition result.
  • the gaze target is determined based on variations in the plurality of action recognition results output by the plurality of predictors of the action recognition unit 230, respectively.
  • the target of attention is determined based on the variation in behavior labels and the variation in scores of behavior labels included in multiple behavior recognition results. For example, if the dispersion of the action recognition results is larger than a predetermined range, objects including the person who performed the action of the action label and the work object may be determined as the gaze target.
  • the gaze target analysis unit 250 outputs the position information of the extracted rectangular region of the gaze target as extracted gaze target information.
  • the position information is, for example, the coordinates of each vertex of the rectangular area, but may also be the position of the center of the rectangular area, or the position of any point of the gaze target.
  • the extracted gaze target information includes not only location information but also information analyzed by the behavior recognition unit 230, such as object labels and image features of the gaze target, behavior labels, and behavior label scores, as information regarding the extracted gaze target. But that's fine.
  • FIG. 7 shows a configuration example of the behavior recognition unit 230 in the center server 200.
  • the behavior recognition unit 230 includes a plurality of predictors PM1 to PM3.
  • the number of predictors PM is not limited to three, and any number of predictors PM may be provided.
  • Predictors PM1 to PM3 each predict the behavior of the object in the received video, that is, recognize the behavior.
  • the predictors PM1 to PM3 may be learning models having the same configuration, but are learning data sets of different learning data. For example, the predictors PM1 to PM3 learn from videos taken of the same action or the same type of action at different work sites (environments) as learning data.
  • the learning model of the predictor is an object recognition engine or an action recognition engine.
  • the predictors PM1 to PM3 may be learning models that have learned different behaviors or different types of behaviors. For example, one predictor may learn a first behavior, such as behavior in a digging operation, and another predictor may learn a second behavior, such as behavior in a grading operation.
  • the learning data for the excavation work and the learning data for the land leveling work may be videos taken in the same environment.
  • the different actions learned by the predictors may be actions that can be performed simultaneously or actions that cannot be performed simultaneously.
  • FIG. 8 shows a configuration example of the predictor PM in FIG. 7.
  • FIG. 8 is a configuration example in which behavior recognition based on the relationship between a person and a work object is performed based on machine learning.
  • the predictor PM of the behavior recognition unit 230 includes an object detection unit 231, a tracking unit 232, a behavior predictor 233, and a behavior determination unit 234.
  • the object detection unit 231 detects an object in the input received video.
  • the object detection unit 231 is a detection unit such as an object recognition engine using machine learning. That is, the object detection unit 231 extracts a rectangular area containing an object from each image of the received video, recognizes the object within the extracted rectangular area, and assigns a label to the recognized object.
  • the object detection result includes an object label and position information of a rectangular area containing the object.
  • the tracking unit 232 tracks the detected object in the received video.
  • the tracking unit 232 associates objects in each image included in the received video based on the object detection results. By assigning a tracking ID to a detected object, each object can be identified and tracked. For example, by matching objects between images based on the distance or overlap (for example, IoU: Intersection over Union) between the rectangular area of the object detected in the previous image and the rectangular area of the object detected in the next image, Track objects.
  • IoU Intersection over Union
  • the behavior predictor 233 predicts the behavior of each object tracked by the tracking unit 232.
  • the behavior predictor 233 recognizes the behavior of the person tracked within the received video and assigns a label of the recognized behavior.
  • the behavior predictor 233 recognizes the behavior of a person in the received video using a behavior recognition engine that uses machine learning such as deep learning.
  • the behavior of a person can be recognized by machine learning of the video of the person performing the work using the work object and the behavior label. For example, learning data that is a video of a person performing a task using a work object, annotation information such as the position of the person and work object, and related information between the person and the object, and behavioral information such as the work object necessary for each task. Machine learning using .
  • the behavior predictor 233 outputs the score of the recognized behavior label.
  • the behavior determination unit 234 determines the behavior of the object based on the predicted behavior label.
  • the behavior determination unit 234 determines the behavior of the person based on the score of the behavior label predicted by the behavior predictor 233. For example, the behavior determination unit 234 outputs the behavior label with the highest score as the recognition result.
  • the recognition result may include scores of a plurality of behavior labels predicted by the behavior predictor 233.
  • FIG. 9 shows an example of the operation of the remote monitoring system 1.
  • the terminal 100 executes S101 to S105 and S111 to S112 and the center server 200 executes S106 to S110
  • the present invention is not limited to this, and any device may execute each process.
  • the terminal 100 acquires an image from the camera 101 (S101).
  • the camera 101 generates a video of the scene
  • the video acquisition unit 110 acquires the video output from the camera 101 (input video).
  • the input video image includes a person working at the site and a work object such as a hammer used by the person.
  • the terminal 100 detects an object based on the acquired input video (S102).
  • the detection unit 120 uses an object recognition engine to detect a rectangular area in an image included in the input video, recognizes an object within the detected rectangular area, and assigns a label to the recognized object. For each detected object, the detection unit 120 outputs an object label and position information of a rectangular area of the object as an object detection result. For example, when object detection is performed from the image in FIG. 10, a person and a hammer are detected as shown in FIG. 11, and a rectangular area of the person and a rectangular area of the hammer are detected.
  • the terminal 100 determines a gaze area in the input video based on the object detection result (S103).
  • the first determination unit 131 of the image quality change determination unit 130 extracts an object having a label to be a gaze target based on the object detection result of each object.
  • the first determination unit 131 extracts objects whose object label is a person or a work object from the detected objects, and determines a rectangular area of the corresponding object as a gaze area.
  • a person and a hammer are detected in the image, and since the hammer corresponds to a work object, a rectangular area of the person and a rectangular area of the hammer are determined to be the gaze area.
  • the terminal 100 encodes the input video based on the determined gaze area (S104).
  • the compression efficiency determining unit 140 encodes the input video so that the region of interest has higher image quality than other regions.
  • the image quality of the person's rectangular area and the hammer's rectangular area is improved by lowering the compression ratio of the person's rectangular area and the hammer's rectangular area than the compression rate of other areas.
  • the terminal 100 transmits the encoded data to the center server 200 (S105), and the center server 200 receives the encoded data (S106).
  • Terminal communication unit 150 transmits encoded data with high image quality of the gaze area to base station 300.
  • the base station 300 transfers the received encoded data to the center server 200 via the core network or the Internet.
  • Center communication unit 210 receives the transferred encoded data from base station 300.
  • the center server 200 decodes the received encoded data (S107).
  • the decoder 220 decodes the encoded data according to the compression rate of each region, and generates a video (received video) in which the gaze region is of high quality.
  • the center server 200 recognizes the behavior of the object based on the decoded received video (S108).
  • the predictors PM1 to PM3 of the behavior recognition unit 230 each analyze the received video and recognize the behavior of the object.
  • FIG. 12 shows an example of behavior recognition processing by the predictor PM of the behavior recognition unit 230 shown in FIG. 8.
  • the object detection unit 231 first detects an object in the input received video (S201).
  • the object detection unit 231 uses an object recognition engine to detect a rectangular area in each image included in the received video, recognizes an object within the detected rectangular area, and assigns a label to the recognized object.
  • the object detection unit 231 outputs an object label and position information of a rectangular area of the object as an object detection result.
  • the tracking unit 232 tracks the detected object in the received video (S202).
  • the tracking unit 232 assigns a tracking ID to each detected object, and tracks the object identified by the tracking ID in each image.
  • the behavior predictor 233 predicts the behavior of each tracked object (S203).
  • the behavior predictor 233 uses a behavior recognition engine to predict a person's behavior from a video including a tracked person and a work object.
  • the behavior predictor 233 outputs the predicted behavior label and the score of each behavior label.
  • the behavior determination unit 234 determines the behavior of the object based on the score of the predicted behavior label (S204).
  • a person and a hammer are detected by tracking.
  • the behavior predictor 233 recognizes the behavior of the person based on the detected image of the person and the hammer, and outputs a score for each behavior label. For example, the score for pegging is 0.8, the score for heavy machinery work is 0.1, the score for unsafe behavior is 0.0, and the score for non-work is 0.1. Then, since the score for pegging is the highest, the behavior determination unit 234 determines that the person's action is pegging. The behavior determination unit 234 outputs the determined behavior and the score of the behavior.
  • the center server 200 extracts the gaze target based on the analysis information analyzed by the action recognition process (S109).
  • the gaze target analysis unit 250 sets the person whose behavior has been recognized as the gaze target, and if the recognition target includes a work object, the work object may also be included in the gaze target. For example, in the example of FIG. 13, since the work of driving a pile is recognized from the person and the hammer, the person and the hammer whose work has been recognized may be the objects of attention.
  • the gaze target analysis unit 250 outputs gaze target extraction information including position information of the extracted gaze target.
  • FIG. 14 shows an example of the operation of the gaze target extraction process according to this embodiment.
  • gaze target extraction processing is performed on the recognition results of each object.
  • the gaze target analysis unit 250 acquires the prediction results of a plurality of predictors, that is, the behavior recognition results (S301).
  • the gaze target analysis unit 250 obtains behavior recognition results including behavior labels and scores predicted by the predictors PM1 to PM3 of the behavior recognition unit 230.
  • the behavior label with the highest score output by the behavior determination unit 234 of each predictor is acquired.
  • a plurality of behavior labels and scores output from the behavior predictor 233 of each predictor may be acquired, or an arbitrary number of behavior labels output from the behavior predictor 233 of each predictor may be acquired. You may also obtain behavior labels. For example, the top three behavior labels with the highest scores may be acquired.
  • a gaze target is extracted based on the dispersion of the plurality of behavior labels of each predictor.
  • the gaze target analysis unit 250 determines the dispersion of the plurality of action recognition results (S302). For example, the gaze target analysis unit 250 determines variations in behavior labels included in the behavior recognition results of a plurality of predictors. The presence or absence of variation in behavior labels may be determined, or the magnitude of variation may be determined. Moreover, the variation may be determined not only by the variation in behavior labels but also by including the score of the behavior labels.
  • the gaze target analysis unit 250 determines the target object that performs the predicted action as the gaze target (S303). For example, if there are variations in the behavior labels, the gaze target analysis unit 250 determines the target object of the behavior label as the gaze target.
  • FIG. 15 shows an example in which it is determined that there is variation in recognition results when the predictors PM1 to PM3 have learned the same behavior. For example, the predictors PM1 to PM3 have learned the same task taken in different environments. In the example of FIG.
  • the behavior label of the prediction result of the predictor PM1 is heavy machinery work
  • the behavior label of the prediction result of the predictor PM2 is truck transportation
  • the behavior label of the prediction result of the predictor PM3 is compaction work
  • the gaze target analysis unit 250 may determine the target object of the behavior label as the gaze target. For example, if the number M of matching behavior labels with the highest scores among the N predictors is equal to or less than a threshold T, the predicted target object is determined to be the gaze target.
  • the behavior label of the prediction result of predictor PM1 is truck transport
  • the behavior label of the prediction result of predictor PM2 is compaction work
  • the behavior label of the prediction result of predictor PM3 is truck transportation
  • FIG. 16 shows an example in which it is determined that there are variations in recognition results when the predictors PM1 to PM3 have learned different behaviors.
  • the predictors PM1 to PM3 are learning different actions taken in the same environment that can be performed simultaneously.
  • the predictor PM1 is a predictor that has learned the posture (skeleton) of a person's behavior
  • the predictor PM2 is a predictor that has learned the content (work) of a person's behavior
  • the predictor PM3 is a predictor that has learned the posture (skeleton) of a person's behavior.
  • This is a predictor that has learned detailed information on inspection work among the actions recognized by device PM2. As shown in FIG.
  • the recognition results of the predictors PM1 and PM2 each include a plurality of behavior labels with scores of the same level or a predetermined value or higher, it is determined that the recognition results of the predictors PM1 to PM3 are dispersed, and the target Decide on an object as a gaze target.
  • the predictor that responds to the target object's behavior is limited to the one that has learned the target behavior. It is expected that For example, in an example where predictor A and predictor B are used, it is assumed that compaction work and heavy machinery work cannot be performed at the same time, and that predictor A is learning compaction work and predictor B is learning heavy machinery work. . In this example, when the worker is performing compaction work, it is expected that only predictor A will respond, the score for compaction work will be high, and the score of predictor B for heavy equipment work will be low.
  • the scores of both predictors become high, it can be determined that the actions are indistinguishable and the uncertainty of recognition is high. Therefore, it may be determined that the uncertainty is large depending on whether there are a plurality of behavior classes with scores equal to or higher than a certain score threshold between different predictors. For example, in the recognition result of predictor A, the score for compaction work is 0.8, in the recognition result of predictor B, the score for heavy equipment work is 0.9, and the score threshold is 0.6. Since there are two behavior classes that exceed the score threshold, it is determined that the uncertainty is large.
  • the gaze target analysis unit 250 excludes the target object that performs the predicted action from the gaze targets (S304). That is, in this case, the gaze target analysis unit 250 does not select the object as the gaze target. For example, if there is no variation in the behavior labels, the gaze target analysis unit 250 does not select the target object of the behavior label as the gaze target.
  • FIG. 17 shows an example in which it is determined that there is no variation in recognition results when the predictors PM1 to PM3 have learned the same behavior. Similar to FIG. 15, for example, the predictors PM1 to PM3 each learn the same task photographed in different environments.
  • the activity labels of the prediction results of the predictors PM1 to PM3 are all heavy machinery work, and since the prediction results match, it is determined that there is no variation, and the predicted target object is excluded from the gaze target.
  • the gaze target analysis unit 250 may exclude the target object of the behavior label from the gaze targets.
  • the prediction target is excluded from the gaze target.
  • the behavior label of the prediction result of the predictor PM1 is transporting a trolley
  • the behavior label of the prediction result of the predictor PM2 is transporting a trolley
  • the behavior label of the prediction result of the predictor PM3 is transporting a trolley
  • FIG. 18 shows an example in which it is determined that there is no variation in recognition results when the predictors PM1 to PM3 have learned different behaviors.
  • the predictors PM1 to PM3 learn different actions taken in the same environment that can be performed simultaneously.
  • the predictor PM1 learns the posture of a person's action
  • the predictor PM2 is a predictor that has learned the content (work) of a person's actions
  • the predictor PM3 is a predictor that has learned detailed information on inspection work among the actions that the predictor PM2 recognizes. This is a predictor that has learned .
  • FIG. 18 shows an example in which it is determined that there is no variation in recognition results when the predictors PM1 to PM3 have learned different behaviors.
  • the predictors PM1 to PM3 learn different actions taken in the same environment that can be performed simultaneously.
  • the predictor PM1 learns the posture of a person's action
  • the predictor PM2 is a predictor that has learned the content (work) of a person's actions
  • the center server 200 notifies the terminal 100 of the extracted gaze target information extracted by the gaze target extraction process (S110), and the terminal 100 acquires the extracted gaze target information. (S111).
  • the center communication unit 210 transmits extracted gaze target information indicating the position of the extracted gaze target to the base station 300 via the Internet or the core network.
  • the base station 300 transfers the received extracted gaze target information to the terminal 100.
  • Terminal communication unit 150 receives the transferred extracted gaze target information from base station 300.
  • the terminal 100 determines a gaze area based on the received extracted gaze target information (S112).
  • the second determination unit 132 of the image quality change determination unit 130 determines the area indicated by the extracted gaze target information notified from the center server 200 as the gaze area.
  • the extracted gaze target information indicates a rectangular area of a person and a rectangular area of a hammer, and these areas are determined as the gaze area.
  • a circumscribed area including a rectangular area of the person and a rectangular area of the hammer may be set as the gaze area. This circumscribed area may be notified from the center server 200 to the terminal 100. Thereafter, S104 to S112 are repeated.
  • a gaze target is extracted based on the indeterminacy of the behavior recognition result, and the image quality of the area containing the extracted gaze target is sharpened. do.
  • the results of action recognition vary, it is assumed that the action cannot be recognized correctly from the video. Therefore, by making a judgment based on the indeterminacy of the action recognition result, it is possible to appropriately select the object to be focused on. Therefore, depending on the action recognition result, it is possible to ensure the image quality of a specific part including the target to be watched, and to compress other areas, making it possible to reduce the amount of data to be transmitted and prevent mistakes in action recognition.
  • Embodiment 2 Next, a second embodiment will be described.
  • the behavior recognition unit outputs the uncertainty of the behavior recognition result.
  • the configuration other than the behavior recognition unit is the same as that in FIGS. 5 and 6 of Embodiment 1, so a description thereof will be omitted. Note that this embodiment can be implemented in combination with Embodiment 1, and each configuration shown in Embodiment 1 may be used as appropriate.
  • FIG. 20 shows a configuration example of the behavior recognition unit 230 according to this embodiment.
  • the behavior recognition unit 230 includes an object detection unit 231, a tracking unit 232, a behavior predictor 233, and a behavior determination unit 234 similar to the predictor PM in FIG. , further includes a dropout setting section 235 and a variation calculation section 236.
  • the dropout setting unit 235 sets dropout in the neural network of the behavior predictor 233.
  • the variation calculation unit 236 calculates the variation in the prediction results predicted multiple times by the behavior predictor 233 that has set dropout, that is, the recognition results recognized multiple times.
  • FIG. 21 shows an example of behavior recognition processing by the behavior recognition unit 230 shown in FIG. 20. Note that the other operations are similar to those in FIG. 9 of the first embodiment.
  • the object detection unit 231 detects an object in the input received video (S201), and the tracking unit 232 detects the object in the detected received video. (S202).
  • the dropout setting unit 235 sets dropout in the behavior predictor 233 (S211).
  • the neural network of the behavior predictor 233 includes an input layer, a hidden layer (middle layer), and an output layer.
  • the input layer includes multiple nodes and the hidden layer includes multiple nodes.
  • the dropout setting unit 235 selects, for example, a node in the hidden layer and inactivates the selected node. Randomly selected nodes may be inactivated, or nodes may be selected and inactivated so as to achieve a predetermined dropout rate. Note that not only nodes in the hidden layer but also nodes in the input layer may be inactivated.
  • the behavior predictor 233 predicts the behavior of the object as in the first embodiment (S203), and the behavior determination unit 234 determines the behavior label of the predicted behavior.
  • the behavior of the object is determined based on the score (S204).
  • the behavior determination unit 234 outputs the determined behavior recognition result.
  • S211, S203, and S204 are repeated multiple times, and action recognition by dropout is performed multiple times. Recognition may be performed multiple times by sequentially repeating the processing in S211, S203, and S204, or may be performed in parallel by duplicating the series of processing in S211, S203, and S204. However, in multiple recognitions, the nodes to be inactivated in S211 are set differently each time.
  • the variation calculation unit 236 calculates the variation in the plurality of action recognition results obtained by predicting the action multiple times (S212). Similar to the first embodiment, the variation calculation unit 236 may calculate the variation in the behavior labels included in the behavior recognition results, or may calculate the variation in the scores of the behavior labels. The variation calculation unit 236 may determine whether there is variation in the behavior labels and output the determined result. If the behavior labels of the plurality of behavior recognition results are different, "with variation” is output as the variation calculation result, and when the behavior labels of the plurality of behavior recognition results match, "no variation” is outputted as the variation calculation result.
  • the variation calculation unit 236 may determine whether the variation in behavior labels of the plurality of behavior recognition results is larger than a threshold value, and output the determined result. As in Embodiment 1, for example, if the number M of matching behavior labels with the highest score among N times of behavior recognition (inference) is less than or equal to the threshold value T, "with variation” is output as the variation calculation result. However, if the number M of matching behavior labels with the highest score is greater than the threshold T, no variation is output as the variation calculation result. The degree of variation, which is the ratio of the number M of matching behavior labels with the highest score to the N times of behavior recognition, may be output as the variation calculation result. Note that, similarly to the first embodiment, the gaze target analysis unit 250 may calculate and determine the variation.
  • the gaze target analysis unit 250 extracts the gaze target based on the variation calculation result calculated by the variation calculation unit 236 of the behavior recognition unit 230. For example, when the presence or absence of variation is output as the variation calculation result, if there is variation, the target object of the action recognition result is determined as the gaze target. When the degree of dispersion is output as the dispersion calculation result, the gaze target may be determined according to the comparison result between the degree of dispersion and the threshold value.
  • a gaze target may be extracted using a single behavior predictor that outputs the uncertainty of behavior prediction. Even in this case, as in Embodiment 1, since the gaze target can be appropriately selected, it is possible to prevent behavior recognition mistakes while suppressing the amount of data to be transmitted. Furthermore, the uncertainty of recognition results can be determined without preparing multiple predictors.
  • the center server extracts the gaze target and the terminal determines the gaze area based on the extracted gaze target, but the center server determines the gaze area based on the extracted gaze target. It's okay.
  • the center server may notify the terminal of the coordinates of the gaze area and the size of the area.
  • processing flow described in the above embodiment is an example, and the order of each process is not limited to the above example.
  • the order of some of the processes may be changed, or some of the processes may be executed in parallel.
  • Each configuration in the embodiments described above is configured by hardware, software, or both, and may be configured from one piece of hardware or software, or from multiple pieces of hardware or software.
  • Each device and each function (processing) may be realized by a computer 30 having a processor 31 such as a CPU (Central Processing Unit) and a memory 32 as a storage device, as shown in FIG.
  • a program for performing the method (video processing method) in the embodiment may be stored in the memory 32, and each function may be realized by having the processor 31 execute the program stored in the memory 32.
  • These programs include instructions (or software code) that, when loaded into a computer, cause the computer to perform one or more of the functions described in the embodiments.
  • the program may be stored on a non-transitory computer readable medium or a tangible storage medium.
  • computer readable or tangible storage media may include random-access memory (RAM), read-only memory (ROM), flash memory, solid-state drive (SSD) or other memory technology, CD - Including ROM, digital versatile disc (DVD), Blu-ray disc or other optical disc storage, magnetic cassette, magnetic tape, magnetic disc storage or other magnetic storage device.
  • the program may be transmitted on a transitory computer-readable medium or a communication medium.
  • transitory computer-readable or communication media includes electrical, optical, acoustic, or other forms of propagating signals.
  • an image quality control means for controlling the image quality of a gaze area including a gaze target in an input video
  • recognition means that performs recognition processing regarding an object included in the video whose image quality in the gaze area is controlled
  • Extracting means for extracting the gaze target based on the uncertainty of the recognition result of the recognition process
  • a video processing system equipped with The recognition process includes a process of recognizing the behavior of the object, The extraction means extracts the gaze target based on variations in the recognition results of the behavior.
  • the extracting means determines the object for which the action has been recognized as the gaze target if the variation in the recognition result of the action is not within a predetermined range.
  • the video processing system described in Appendix 2. includes a plurality of behavior predictors that have learned different learning data, The extraction means extracts the gaze target based on variations in the recognition results of the plurality of actions output from the plurality of action predictors.
  • the video processing system according to appendix 2 or 3. Appendix 5)
  • the recognition means includes a behavior predictor, The extraction means extracts the gaze target based on variations in recognition results of a plurality of actions outputted when the action predictor performs action recognition a plurality of times.
  • the video processing system according to appendix 2 or 3.
  • the extraction means extracts the gaze target based on variations in behavior labels included in the recognition results of the behaviors or variations in scores of the behavior labels.
  • the video processing system according to any one of Supplementary Notes 2 to 5.
  • the behavior predictor outputs recognition results of the plurality of behaviors by inactivating different nodes of the neural network each time the behavior is recognized.
  • the video processing system according to appendix 5.
  • (Appendix 8) Controls the image quality of the gaze area including the gaze target in the input video, performing recognition processing on an object included in the video whose image quality in the gaze area is controlled; extracting the gaze target based on the uncertainty of the recognition result of the recognition process; Video processing method.
  • the recognition process includes a process of recognizing the behavior of the object, extracting the gaze target based on variations in the recognition results of the behavior;
  • the video processing method described in Appendix 8. (Appendix 10) In the extraction of the gaze target, if the variation in the recognition result of the behavior is not included in a predetermined range, the object for which the behavior has been recognized is determined as the gaze target;
  • the video processing method according to appendix 9. (Appendix 11) Recognizing the behavior of the object using multiple behavior predictors that have learned different learning data, extracting the gaze target based on variations in the recognition results of the plurality of actions output from the plurality of action predictors;
  • (Appendix 12) recognizing the behavior of the object by a behavior predictor; extracting the gaze target based on variations in recognition results of a plurality of actions output by the action predictor performing action recognition multiple times; The video processing method according to appendix 9 or 10.
  • (Appendix 13) extracting the gaze target based on variations in behavior labels included in the behavior recognition results or variations in scores of the behavior labels; The video processing method according to any one of Supplementary Notes 9 to 12.
  • the behavior predictor outputs recognition results of the plurality of behaviors by inactivating different nodes of the neural network each time the behavior is recognized.
  • an image quality control means for controlling the image quality of a gaze area including a gaze target in an input video; recognition means that performs recognition processing regarding an object included in the video whose image quality in the gaze area is controlled; Extracting means for extracting the gaze target based on the uncertainty of the recognition result of the recognition process;
  • An image processing device comprising: (Appendix 16) The recognition process includes a process of recognizing the behavior of the object, The extraction means extracts the gaze target based on variations in the recognition results of the behavior. The video processing device according to appendix 15. (Appendix 17) The extracting means determines the object for which the action has been recognized as the gaze target if the variation in the recognition result of the action is not within a predetermined range.
  • the video processing device includes a plurality of behavior predictors that have learned different learning data, The extraction means extracts the gaze target based on variations in the recognition results of the plurality of actions output from the plurality of action predictors.
  • the video processing device according to appendix 16 or 17.
  • the recognition means includes a behavior predictor, The extraction means extracts the gaze target based on variations in recognition results of a plurality of actions outputted when the action predictor performs action recognition a plurality of times.
  • the video processing device according to appendix 16 or 17.
  • the behavior predictor outputs recognition results of the plurality of behaviors by inactivating different nodes of the neural network each time the behavior is recognized.
  • the video processing device according to appendix 19.

Abstract

映像処理システム(10)は、映像処理システム(10)に入力される映像における注視対象を含む注視領域の画質を制御する画質制御部(11)と、画質制御部(11)により注視領域の画質が制御された映像に含まれる物体に関する認識処理を行う認識部(12)と、認識部(12)により行われた認識処理の認識結果の不定性に基づいて、画質制御部(11)が制御する注視領域に含まれる注視対象を抽出する抽出部(13)と、を備える。

Description

映像処理システム、映像処理方法、及び映像処理装置
 本開示は、映像処理システム、映像処理方法、及び映像処理装置に関する。
 カメラにより撮影した映像に対し機械学習を用いた検出技術や認識技術を適用することで監視等を行うシステムの開発が進められている。
 関連する技術として、例えば、特許文献1が知られている。特許文献1には、車両に搭載されたカメラが撮影した映像を、ネットワークを介して送信し、遠隔監視センタで映像を分析する遠隔監視システムにおいて、映像から検出された対象物体を含む領域を高画質化し、他の領域を低画質化して送信することが記載されている。
国際公開第2022/074700号
 特許文献1のような関連する技術では、検出された対象物体を含む領域が常に高画質となるように制御される。このため、関連する技術では、適切に映像のデータ量を抑えることが困難な場合がある。
 本開示は、このような課題に鑑み、映像のデータ量を適切に制御することが可能な映像処理システム、映像処理方法、及び映像処理装置を提供することを目的とする。
 本開示に係る映像処理システムは、入力される映像における注視対象を含む注視領域の画質を制御する画質制御手段と、前記注視領域の画質が制御された映像に含まれる物体に関する認識処理を行う認識手段と、前記認識処理の認識結果の不定性に基づいて、前記注視対象を抽出する抽出手段と、を備えるものである。
 本開示に係る映像処理方法は、入力される映像における注視対象を含む注視領域の画質を制御し、前記注視領域の画質が制御された映像に含まれる物体に関する認識処理を行い、前記認識処理の認識結果の不定性に基づいて、前記注視対象を抽出するものである。
 本開示に係る映像処理装置は、入力される映像における注視対象を含む注視領域の画質を制御する画質制御手段と、前記注視領域の画質が制御された映像に含まれる物体に関する認識処理を行う認識手段と、前記認識処理の認識結果の不定性に基づいて、前記注視対象を抽出する抽出手段と、を備えるものである。
 本開示によれば、映像のデータ量を適切に制御することが可能な映像処理システム、映像処理方法、及び映像処理装置を提供することができる。
実施の形態に係る映像処理システムの概要を示す構成図である。 実施の形態に係る映像処理装置の概要を示す構成図である。 実施の形態に係る映像処理方法の概要を示すフローチャートである。 遠隔監視システムの基本構成を示す構成図である。 実施の形態1に係る端末の構成例を示す構成図である。 実施の形態1に係るセンターサーバの構成例を示す構成図である。 実施の形態1に係る行動認識部の構成例を示す構成図である。 実施の形態1に係る予測器の構成例を示す構成図である。 実施の形態1に係る遠隔監視システムの動作例を示すフローチャートである。 実施の形態1に係る映像取得処理を説明するための図である。 実施の形態1に係る物体検出処理を説明するための図である。 実施の形態1に係る行動認識処理の動作例を示すフローチャートである。 実施の形態1に係る行動認識処理を説明するための図である。 実施の形態1に係る注視対象抽出処理の動作例を示すフローチャートである。 実施の形態1に係る注視対象抽出処理で認識結果にばらつきありの例を説明するための図である。 実施の形態1に係る注視対象抽出処理で認識結果にばらつきありの他の例を説明するための図である。 実施の形態1に係る注視対象抽出処理で認識結果にばらつきなしの例を説明するための図である。 実施の形態1に係る注視対象抽出処理で認識結果にばらつきなしの他の例を説明するための図である。 実施の形態1に係る注視領域決定処理を説明するための図である。 実施の形態2に係る行動認識部の構成例を示す構成図である。 実施の形態2に係る行動認識処理の動作例を示すフローチャートである。 実施の形態2に係るdropout処理を説明するための図である。 実施の形態2に係るdropout処理を説明するための図である。 実施の形態に係るコンピュータのハードウェアの概要を示す構成図である。
 以下、図面を参照して実施の形態について説明する。各図面においては、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略される。
 ネットワークを介して映像を収集し、映像内の物体や行動等を認識するシステムにおいては、映像を伝送するネットワークの帯域が限られるため、伝送する映像のデータ量をできる限り抑えることが好ましい。例えば、映像の圧縮率を上げることで映像のデータ量を抑えることができる。しかし、映像の圧縮率が高い場合やデータの欠損率が高い場合、誤認識が増加するため、認識精度が低下する。そこで、実施の形態では、伝送する映像のデータ量をできるだけ抑えつつ、誤認識を防ぐことを可能とする。例えば、不安全や危険を伴う行動など、重要な事象の誤認識を防ぐ。
(実施の形態の概要)
 まず、実施の形態の概要について説明する。図1は、実施の形態に係る映像処理システム10の概要構成を示している。映像処理システム10は、例えば、ネットワークを介して映像を収集し、映像を監視する遠隔監視システムに適用可能である。
 図1に示すように、映像処理システム10は、画質制御部11、認識部12、抽出部13を備える。
 画質制御部11は、入力される映像における注視対象を含む注視領域の画質を制御する。例えば、画質制御部11は、注視領域の画質を他の領域よりも高画質化、すなわち鮮明化してもよい。認識部12は、注視領域の画質が制御された映像に含まれる物体に関する認識処理を行う。例えば、物体に関する認識処理は、物体の行動を認識する行動認識処理であるが、その他の物体に関する情報や特徴などを認識する処理でもよい。
 抽出部13は、認識部12による認識処理の認識結果の不定性に基づいて、注視対象を抽出する。認識結果の不定性とは、認識結果のばらつきである。例えば、認識部12は、異なる学習データを学習した複数の行動予測器を含み、抽出部13は、複数の行動予測器から出力される複数の行動の認識結果のばらつきに基づいて、注視対象を抽出してもよい。この場合、上記行動の認識結果に含まれる行動ラベル、または、行動ラベルのスコアのばらつきに基づいて、注視対象を抽出してもよい。また、認識部12は、1つの行動予測器を含み、抽出部13は、1つの行動予測器が行動の認識を複数回行うことで出力される複数の行動の認識結果のばらつきに基づいて、注視対象を抽出してもよい。注視対象を抽出するとは、認識結果に含まれる候補の中から注視対象を選択することである。
 なお、映像処理システム10は、1つの装置により構成してもよいし、複数の装置により構成してもよい。図2は、実施の形態に係る映像処理装置20の構成を示している。図2に示すように、映像処理装置20は、図1に示した、画質制御部11、認識部12、抽出部13を備えてもよい。また、映像処理システム10の一部または全部をエッジまたはクラウドに配置してもよい。例えば、ネットワークを介して現場で撮影された映像を監視するシステムにおいて、エッジは現場や現場の近くに配置された装置であり、また、ネットワークの階層として端末に近い装置である。例えば、エッジの端末に画質制御部11を配置し、クラウドのサーバに認識部12、抽出部13を配置してもよい。さらに、クラウドに各機能を分散配置してもよい。
 図3は、実施の形態に係る映像処理方法を示している。例えば、実施の形態に係る映像処理方法は、図1の映像処理システム10や図2の映像処理装置20により実行される。図3に示すように、まず、入力される映像における注視対象を含む注視領域の画質を制御する(S11)。次に、注視領域の画質が制御された映像に含まれる物体に関する認識処理を行う(S12)。次に、認識処理の認識結果の不定性に基づいて、注視対象を抽出する(S13)。さらに、S11に戻り、入力される映像に対し、抽出された注視対象を含む注視領域の画質を制御する。
 上記のように、実施の形態に係る映像処理システムでは、画質を制御した映像から物体の行動などを認識し、その認識結果の不定性に基づいて、注視対象を抽出する。例えば、認識結果がばらついている場合、行動などを正しく認識できず、認識結果の信頼度が低い可能性がある。このため、認識結果に対応する対象物を注視対象とし鮮明化することで、行動などを正しく認識することができる。また、注視したい対象以外の領域は圧縮可能であるため、送信する映像のデータ量を抑えることができる。
(遠隔監視システムの基本構成)
 次に、実施の形態を適用するシステムの一例である遠隔監視システムについて説明する。図4は、遠隔監視システム1の基本構成を示している。遠隔監視システム1は、カメラが撮影した映像により、当該撮影されたエリアを監視するシステムである。本実施形態においては、以降現場における作業員の作業を遠隔で監視するシステムであるものとして説明する。例えば、現場は工事現場などの作業現場、人の集まる広場、学校など、人や機械が動作するエリアであってもよい。本実施形態においては、以降作業は建設作業や土木作業等として説明するが、これに限られない。なお、映像は、時系列の複数の画像(フレームとも称する)を含むため、映像と画像とは互いに言い換え可能である。すなわち、遠隔監視システムは、映像を処理する映像処理システムであり、また、画像を処理する画像処理システムであるとも言える。
 図4に示すように、遠隔監視システム1は、複数の端末100、センターサーバ200、基地局300、MEC400を備えている。端末100、基地局300及びMEC400は、現場側に配置され、センターサーバ200は、センター側に配置されている。例えば、センターサーバ200は、現場から離れた位置に配置されているデータセンタや監視センター等に配置されている。現場側はシステムのエッジ側であり、センター側はクラウド側でもある。なお、センターサーバ200は、1つの装置により構成してもよいし、複数の装置により構成してもよい。またセンターサーバ200の一部または全部をクラウドに配置してもよい。例えば、映像認識機能201とアラート生成機能202とをクラウドへ配置し、GUI描画機能203と画面表示機能204とを監視センター等に配置してもよい。 
 端末100と基地局300との間は、ネットワークNW1により通信可能に接続される。ネットワークNW1は、例えば、4G、ローカル5G/5G、LTE(Long Term Evolution)、無線LANなどの無線ネットワークである。基地局300とセンターサーバ200との間は、ネットワークNW2により通信可能に接続される。ネットワークNW2は、例えば、5GC(5th Generation Core network)やEPC(Evolved Packet Core)などのコアネットワーク、インターネットなどを含む。端末100とセンターサーバ200との間は、基地局300を介して、通信可能に接続されているとも言える。基地局300とMEC400の間は任意の通信方法により通信可能に接続されるが、基地局300とMEC400は、1つの装置でもよい。
 端末100は、ネットワークNW1に接続される端末装置であり、現場の映像を生成する映像生成装置でもある。端末100は、現場に設置されたカメラ101が撮影した映像を取得し、取得した映像を、基地局300を介して、センターサーバ200へ送信する。なお、カメラ101は、端末100の外部に配置されてもよいし、端末100の内部に配置されてもよい。
 端末100は、カメラ101の映像を所定のビットレートに圧縮し、圧縮した映像を送信する。端末100は、圧縮効率を最適化する圧縮効率最適化機能102、映像送信機能103 を有する。圧縮効率最適化機能102は、ROI(Region of Interest;注視領域とも称する)の画質を制御するROI制御を行う。圧縮効率最適化機能102は、人物や物体を含むROIの画質を維持しながら、その周りの領域の画質を低画質にすることでビットレートを削減する。映像送信機能103は、画質が制御された映像をセンターサーバ200へ送信する。
 基地局300は、ネットワークNW1の基地局装置であり、端末100とセンターサーバ200の間の通信を中継する中継装置でもある。例えば、基地局300は、ローカル5Gの基地局、5GのgNB(next Generation Node B)、LTEのeNB(evolved Node B)、無線LANのアクセスポイント等であるが、その他の中継装置でもよい。
 MEC(Multi-access Edge Computing)400は、システムのエッジ側に配置されたエッジ処理装置である。MEC400は、端末100を制御するエッジサーバであり、端末のビットレートを制御する圧縮ビットレート制御機能401、端末制御機能402を有する。圧縮ビットレート制御機能401は、適応映像配信制御やQoE(quality of experience)制御により端末100のビットレートを制御する。例えば、圧縮ビットレート制御機能401は、ネットワークNW1及びNW2の通信環境に応じてビットレートを抑えながら、得られる認識精度を予測し、認識精度が良くなるように各端末100のカメラ101にビットレートを割り当てる。端末制御機能402は、割り当てられたビットレートの映像を送信するように端末100を制御する。端末100は、割り当て得られたビットレートとなるように映像をエンコードし、エンコードした映像を送信する。
 センターサーバ200は、システムのセンター側に設置されたサーバである。センターサーバ200は、1つまたは複数の物理的なサーバでもよいし、クラウド上に構築されたクラウドサーバやその他の仮想化サーバでもよい。センターサーバ200は、現場のカメラ映像から人物の作業を認識することで、現場の作業を監視する監視装置である。センターサーバ200は、端末100から送信された映像内の人物の行動等を認識する認識装置でもある。
 センターサーバ200は、映像認識機能201、アラート生成機能202、GUI描画機能203、画面表示機能204を有する。映像認識機能201は、端末100から送信された映像を映像認識AI(Artificial Intelligence)エンジンに入力することにより、作業員が行う作業、すなわち人物の行動の種類を認識する。アラート生成機能202は、認識された作業に応じてアラートを生成する。GUI描画機能203は、表示装置の画面にGUI(Graphical User Interface)を表示する。画面表示機能204は、GUIに端末100の映像や認識結果、アラート等を表示する。
(実施の形態1)
 次に、実施の形態1について説明する。本実施の形態では、複数の予測器による行動認識結果のばらつきに基づいて注視対象を抽出する例について説明する。
 まず、本実施の形態に係る遠隔監視システムの構成について説明する。本実施の形態に係る遠隔監視システム1の基本構成は、図4に示した通りである。ここでは、端末100とセンターサーバ200の構成例について説明する。図5は、本実施の形態に係る端末100の構成例を示しており、図6は、本実施の形態に係るセンターサーバ200の構成例を示している。なお、各装置の構成は一例であり、後述の本実施の形態に係る動作が可能であれば、その他の構成でもよい。例えば、端末100の一部の機能をセンターサーバ200や他の装置に配置してもよいし、センターサーバ200の一部の機能を端末100や他の装置に配置してもよい。
 図5に示すように、端末100は、映像取得部110、検出部120、画質変更判定部130、圧縮効率決定部140、端末通信部150を備えている。
 映像取得部110は、カメラ101が撮影した映像(入力映像とも称する)を取得する。例えば、入力映像には現場で作業を行う作業員である人物や、人物が使用する作業物体等が含まれる。映像取得部110は、時系列の複数の画像を取得する画像取得部でもある。
 検出部120は、取得された入力映像内の物体を検出する物体検出部である。検出部120は、入力映像に含まれる各画像内の物体を検出し、検出した物体のラベル、すなわち物体ラベルを付与する。物体ラベルは、物体のクラスであり、物体の種別を示す。例えば、物体ラベルは、人、車、ロボット、ハンマーなどを含む。検出部120は、入力映像に含まれる各画像から物体を含む矩形領域を抽出し、抽出した矩形領域内の物体を認識し、認識した物体のラベルを付与する。矩形領域は、バウンディングボックス、または、物体領域である。なお、物体を含む物体領域は、矩形領域に限らず、円形や不定形のシルエット等の領域でもよい。検出部120は、矩形領域に含まれる物体の画像の特徴量を算出し、算出した特徴量に基づいて物体を認識する。例えば、検出部120は、ディープラーニングなどの機械学習を用いた物体認識エンジンにより画像内の物体を認識する。物体の画像の特徴と物体ラベルを機械学習することで物体を認識できる。物体の検出結果には、物体ラベル、物体を含む矩形領域の位置情報等が含まれる。物体の位置情報は、例えば、矩形領域の各頂点の座標であるが、矩形領域の中心の位置でもよいし、物体の任意の点の位置でもよい。検出部120は、当該物体の検出結果を画質変更判定部130へ送信する。
 画質変更判定部130は、取得された入力映像における画質を変更する画質変更領域である注視領域(ROI)を判定する。画質変更判定部130は、注視領域を決定する決定部である。注視領域は、注視対象を含む領域であり、画質を高画質化、すなわち鮮明化する領域である。また、注視領域は、行動認識のために画質を担保する領域であるともいえる。
 例えば、画質変更判定部130は、第1の判定部131と第2の判定部132を備える。例えば、まず第1の判定部131が注視領域を決定し、センターサーバ200が行動認識した後に、第2の判定部132が注視領域を決定する。なお、第1の判定部131による注視領域の決定を省略し、第2の判定部132による注視領域の決定のみを行ってもよい。第1の判定部131は、入力映像内で検出した物体の検出結果に基づいて、入力映像の注視領域を判定する。第1の判定部131は、検出部120の入力映像内で検出した検出物体のうち注視対象となるラベルを有する物体の位置情報に基づいて、注視領域を決定する。注視対象は、行動認識の対象となる人物であってもよいし、人物が作業で使用し得る作業物体を含んでもよい。例えば、作業物体のラベルは、人物と関連がある物体のラベルとして予め設定されている。なお、行動認識の対象は、人物に限らず、重機やロボットなどの物体でもよい。すなわち、重機やロボットが行う作業を含む行動を認識してもよい。
 第2の判定部132は、行動を認識したセンターサーバ200から情報がフィードバックされた場合に、フィードバックされる情報に基づいて、入力映像の注視領域を決定する。この例では、センターサーバ200が抽出した注視対象の情報である抽出注視対象情報がフィードバックされる。抽出注視対象情報は、注視対象に関する情報であって、センターサーバ200が行動認識を行うことにより抽出した注視対象を示す情報である。抽出注視対象情報は、注視対象の位置情報であり、注視対象の矩形領域の位置情報が含まれる。例えば、第2の判定部132は、取得した抽出注視対象情報が示す矩形領域を注視領域に決定する。すなわち、抽出された注視対象の位置をもとに入力映像の画質を担保する領域を決定する。
 圧縮効率決定部140は、注視領域または注視領域以外の他の領域の圧縮率を決定し、映像を圧縮する。圧縮効率決定部140は、決定した圧縮率により入力映像をエンコード(符号化)するエンコーダである。圧縮効率決定部140は、例えば、H.264やH.265などの動画符号化方式によりエンコードする。また、圧縮効率決定部140は、MEC400の圧縮ビットレート制御機能401から割り当てられたビットレートとなるように入力映像をエンコードする。
 圧縮効率決定部140は、画質変更判定部130が決定した注視領域の画質を制御する画質制御部であり、図1の画質制御部11に対応する。また、圧縮効率決定部140は、注視領域を高画質化する高画質化部であるとも言える。注視領域は、第1の判定部131と第2の判定部132のいずれかが決定した領域である。圧縮効率決定部140は、注視領域と他の領域をそれぞれ所定の圧縮率で圧縮することで、注視領域の画質が所定の品質となるようにエンコードする。すなわち、注視領域と他の領域の圧縮率を変えることで注視領域を他の領域よりも高画質化する。その他の領域を注視領域よりも低画質化しているとも言える。例えば、MEC400の圧縮ビットレート制御機能401から割り当てられたビットレートの範囲で注視領域及びその他の領域の画質を制御する。なお、圧縮率に限らず、画像の解像度、フレームレート等を変えることで、注視領域の画質を制御してもよい。また、画像の色の情報量、例えば、カラー、グレースケール、白黒等を変えることで、注視領域の画質を制御してもよい。
 端末通信部150は、圧縮効率決定部140がエンコードしたエンコードデータを、基地局300を介して、センターサーバ200へ送信する。端末通信部150は、注視領域の画質が制御された映像を送信する送信部である。また、端末通信部150は、センターサーバ200から送信された抽出注視対象情報を、基地局300を介して受信する。端末通信部150は、抽出注視対象情報を取得する取得部である。端末通信部150は、基地局300と通信可能なインタフェースであり、例えば、4G、ローカル5G/5G、LTE、無線LAN等の無線インタフェースであるが、その他の任意の通信方式の無線または有線インタフェースでもよい。端末通信部150は、エンコードデータを送信する第1の端末通信部と、抽出注視対象情報を受信する第2の端末通信部を含んでもよい。第1の端末通信部と第2の端末通信部は、同じ通信方式の通信部でもよいし、別の通信方式の通信部でもよい。
 図6に示すように、センターサーバ200は、センター通信部210、デコーダ220、行動認識部230、分析情報保存部240、注視対象解析部250を備えている。
 センター通信部210は、端末100から送信されたエンコードデータを、基地局300を介して受信する。センター通信部210は、注視領域の画質が制御された映像を受信する受信部である。また、センター通信部210は、注視対象解析部250が抽出した抽出注視対象情報を、基地局300を介して端末100へ送信する。センター通信部210は、抽出注視対象情報を通知する通知部である。センター通信部210は、インターネットやコアネットワークと通信可能なインタフェースであり、例えば、IP通信用の有線インタフェースであるが、その他の任意の通信方式の有線または無線インタフェースでもよい。センター通信部210は、エンコードデータを受信する第1のセンター通信部と、抽出注視対象情報を送信する第2のセンター通信部を含んでもよい。第1のセンター通信部と第2のセンター通信部は、同じ通信方式の通信部でもよいし、別の通信方式の通信部でもよい。
 デコーダ220は、端末100から受信したエンコードデータをデコード(復号化)する。デコーダ220は、端末100の符号化方式に対応し、例えば、H.264やH.265などの動画符号化方式によりデコードする。デコーダ220は、各領域の圧縮率に応じてデコードし、デコードした映像(受信映像とも称する)を生成する。
 行動認識部230は、デコードした受信映像における物体の行動を認識する認識部であり、図1の認識部12に対応する。行動認識部230は、注視領域の画質が制御された映像に対し、注視対象の行動を認識する行動認識処理を実行する。行動認識部230は、受信映像から物体を検出し、検出した物体の行動を認識する。行動認識部230は、行動認識の対象である人物の行動を認識し、認識した行動のラベル、すなわち行動ラベルを付与する。行動ラベルは、行動のクラスであり、行動の種別を示す。
 例えば、行動認識部230は、受信映像から検出される人物と作業物体とに基づいて、人物の行動を認識する。行動認識部230は、人物と作業物体の関連性を特定することで人物の行動を認識してもよい。人物と作業物体の関連性は、人物がどの物体を使用しているか、あるいは物体を使用していないかを含む。例えば、人物と作業物体との距離から人物ごとに作業物体を特定し、特定した作業物体から行動を認識してもよい。例えば、行動認識部230は、人物に関連する作業物体と作業とを機械学習し、機械学習ベースで人物の行動を認識する。なお、機械学習ベースに限らず、人物に関連する作業物体と作業とを関連付け、ルールベースで人物の行動を認識してもよい。例えば、作業物体と作業内容とを予め関連付けておき、検出された作業物体に基づいて、人物の行動を認識してもよい。また、作業物体が検出されない場合、人物のみから行動を認識してもよい。例えば、人物の姿勢や形状と作業内容とを予め関連付けておき、検出された人物の姿勢や形状に基づいて、人物の行動を認識してもよい。本実施の形態では、行動認識部230は、受信映像からそれぞれ行動を予測する複数の予測器を備えており、複数の予測器が予測した行動認識結果を出力する。
 分析情報保存部240は、行動認識部230が分析した分析情報を保存する。分析情報は、行動認識結果、人物の検出情報、行動に関連する作業物体の検出情報等を含む。なお、行動認識結果が、人物の検出情報と行動に関連する作業物体の検出情報を含んでいてもよい。行動認識結果は、認識した行動のラベル、行動ラベルのスコア、認識した行動を行う人物の識別情報、認識した行動で使用される作業物体の識別情報等を含む。行動ラベルのスコアは、行動ラベルの確からしさ(確率)である確信度を示す。スコアが高いほど、予測した行動ラベルの行動が正しい可能性が高い。人物の検出情報は、人物の矩形領域の位置情報、トラッキング情報等を含む。トラキング情報は、物体のトラッキング結果を示す軌跡情報である。作業物体の検出情報は、物体ラベル、物体ラベルのスコア、物体の矩形領域の位置情報、トラッキング情報等を含む。例えば、行動認識部230の行動予測器(行動認識エンジン)は、行動に関係する物体に重みがかかるように学習することで、画像ごとに関連し得る作業物体の候補を抽出し、抽出した作業物体の候補の情報を出力する。例えば、くい打ち作業を認識した場合、行動に関連する物体であるハンマーの情報を出力する。
 注視対象解析部250は、行動認識部230が分析した分析情報に基づいて、注視対象を抽出する抽出部であり、図1の抽出部13に対応する。分析情報は、行動認識部230から取得してもよいし、分析情報保存部240から取得してもよい。注視対象解析部250は、分析された情報をもとに、行動認識ミスを防ぐために画質を担保する注視対象を決定する。例えば、注視対象解析部250は、行動認識結果に基づいて注視対象を決定する。注視対象解析部250は、行動認識部230により行動が認識された人物、すなわち、行動認識結果に含まれる行動の人物を注視対象とする。人物と関連する作業物体とから行動が認識された場合、人物と作業物体を注視対象としてもよい。人物と関連する作業物体は複数あってもよく、人物と複数の作業物体を注視対象としてもよい。例えば、くい打ち作業が認識された場合に、作業に関連する物体を「くい」および「ハンマー」として、人物と「くい」および「ハンマー」を注視対象としてもよい。
 本実施の形態では、注視対象解析部250は、行動認識結果の不定性に基づいて注視対象を抽出する。例えば、行動認識部230の複数の予測器がそれぞれ出力した複数の行動認識結果のばらつきに基づいて、注視対象を決定する。複数の行動認識結果に含まれる行動ラベルのばらつきや行動ラベルのスコアのばらつきに基づいて、注視対象を決定する。例えば、行動認識結果のばらつきが所定の範囲よりも大きい場合、当該行動ラベルの行動を行った人物及び作業物体を含む物体を注視対象に決定してもよい。
 注視対象解析部250は、抽出した注視対象の矩形領域の位置情報を、抽出注視対象情報として出力する。位置情報は、例えば、矩形領域の各頂点の座標であるが、矩形領域の中心の位置でもよいし、注視対象の任意の点の位置でもよい。抽出注視対象情報は、抽出した注視対象に関する情報として、位置情報に限らず、注視対象の物体ラベルや画像の特徴、行動ラベル、行動ラベルのスコアなど、行動認識部230で分析された情報を含んでもよい。
 図7は、センターサーバ200における行動認識部230の構成例を示している。図7に示すように、行動認識部230は、複数の予測器PM1~PM3を備えている。なお、3つに限らず任意の数の予測器PMを備えていてもよい。予測器PM1~PM3は、それぞれ受信映像における物体の行動を予測、すなわち行動を認識する。予測器PM1~PM3は、同じ構成の学習モデルであってもよいが、異なる学習データのデータセットを学習している。例えば、予測器PM1~PM3は、それぞれ異なる作業現場(環境)において同じ行動、または同じ種類の行動を撮影した映像を学習データとして学習している。予測器の学習モデルは、物体認識エンジンや行動認識エンジンである。なお、予測器PM1~PM3は、それぞれ異なる行動、または異なる種類の行動を学習した学習モデルでもよい。例えば、ある予測器は、掘削作業における行動などの第1の行動を学習し、別の予測器は、整地作業における行動などの第2の行動を学習していてもよい。この場合、掘削作業の学習データと整地作業の学習データは、同じ環境で撮影した映像でもよい。予測器がそれぞれ学習する異なる行動は、同時に行うことが可能な行動でもよいし、同時に行うことが不可能な行動でもよい。
 図8は、図7の予測器PMの構成例を示している。図8は、人物と作業物体との関連性による行動認識を、機械学習ベースで行う場合の構成例である。図8の例では、行動認識部230の予測器PMは、物体検出部231、追跡部232、行動予測器233、行動判定部234を備えている。
 物体検出部231は、入力される受信映像内の物体を検出する。例えば、物体検出部231は、端末100の検出部120と同様、機械学習を用いた物体認識エンジンなどの検出部である。すなわち、物体検出部231は、受信映像の各画像から物体を含む矩形領域を抽出し、抽出した矩形領域内の物体を認識し、認識した物体のラベルを付与する。物体の検出結果には、物体ラベル、物体を含む矩形領域の位置情報が含まれる。
 追跡部232は、検出された受信映像内の物体をトラッキングする。追跡部232は、物体の検出結果に基づいて、受信映像に含まれる各画像の物体を対応付ける。検出された物体にトラッキングIDを割り当てることで、各物体を識別してトラッキングすることができる。例えば、前の画像で検出された物体の矩形領域と次の画像で検出された物体の矩形領域との間の距離や重なり(例えばIoU:Intersection over Union)により画像間の物体を対応付けることで、物体をトラッキングする。
 行動予測器233は、追跡部232がトラッキングした物体ごとに、物体の行動を予測する。行動予測器233は、受信映像内でトラッキングされた人物の行動を認識し、認識した行動のラベルを付与する。例えば、行動予測器233は、ディープラーニングなどの機械学習を用いた行動認識エンジンにより受信映像内の人物の行動を認識する。作業物体を用いて作業を行う人物の映像と行動ラベルを機械学習することで人物の行動を認識できる。例えば、作業物体を使用して作業を行っている人物の映像である学習データ、人物及び作業物体の位置や人物と物体の関連情報などのアノテーション情報、各作業に必要な作業物体などの行動情報を用いて、機械学習する。また、行動予測器233は、認識した行動ラベルのスコアを出力する。
 行動判定部234は、予測された行動ラベルに基づいて、物体の行動を判定する。行動判定部234は、行動予測器233が予測した行動ラベルのスコアに基づいて、人物の行動を決定する。例えば、行動判定部234は、最もスコアが高い行動ラベルを認識結果として出力する。なお、認識結果には、行動予測器233が予測した複数の行動ラベルのスコアが含まれてもよい。
 次に、本実施の形態に係る遠隔監視システムの動作について説明する。図9は、遠隔監視システム1の動作例を示している。例えば、端末100がS101~S105、S111~S112を実行し、センターサーバ200がS106~S110を実行するとして説明するが、これに限らず、いずれの装置が各処理を実行してもよい。
 図9に示すように、端末100は、カメラ101から映像を取得する(S101)。カメラ101は、現場を撮影した映像を生成し、映像取得部110は、カメラ101から出力される映像(入力映像)を取得する。例えば、図10に示すように、入力映像の画像には、現場で作業を行う人物や、人物が使用するハンマーなどの作業物体が含まれている。
 続いて、端末100は、取得した入力映像に基づいて物体を検出する(S102)。検出部120は、物体認識エンジンを用いて、入力映像に含まれる画像内の矩形領域を検出し、検出した矩形領域内の物体を認識し、認識した物体のラベルを付与する。検出部120は、検出した各物体について、物体ラベル、物体の矩形領域の位置情報を物体検出結果として出力する。例えば、図10の画像から物体検出を行うと、図11のように、人物及びハンマーを検出し、人物の矩形領域とハンマーの矩形領域を検出する。
 続いて、端末100は、物体検出結果に基づいて、入力映像における注視領域を決定する(S103)。画質変更判定部130の第1の判定部131は、各物体の物体検出結果に基づいて、注視対象となるラベルを有する物体を抽出する。第1の判定部131は、検出された物体から、物体ラベルが人物または作業物体である物体を抽出し、該当する物体の矩形領域を注視領域に決定する。図11の例では、画像内で人物とハンマーが検出され、ハンマーは作業物体に該当するため、人物の矩形領域とハンマーの矩形領域を注視領域に決定する。
 続いて、端末100は、決定した注視領域に基づいて、入力映像をエンコードする(S104)。圧縮効率決定部140は、注視領域が他の領域よりも高画質となるように、入力映像をエンコードする。図11の例では、人物の矩形領域とハンマーの矩形領域の圧縮率を他の領域の圧縮率よりも下げることで、人物の矩形領域とハンマーの矩形領域を高画質化する。
 続いて、端末100は、エンコードしたエンコードデータをセンターサーバ200へ送信し(S105)、センターサーバ200は、エンコードデータを受信する(S106)。端末通信部150は、注視領域を高画質化したエンコードデータを基地局300へ送信する。基地局300は、受信したエンコードデータを、コアネットワークやインターネットを介して、センターサーバ200へ転送する。センター通信部210は、転送されたエンコードデータを、基地局300から受信する。
 続いて、センターサーバ200は、受信したエンコードデータをデコードする(S107)。デコーダ220は、各領域の圧縮率に応じてエンコードデータをデコードし、注視領域が高画質化された映像(受信映像)を生成する。
 続いて、センターサーバ200は、デコードした受信映像に基づいて物体の行動を認識する(S108)。行動認識部230の予測器PM1~PM3は、それぞれ受信映像を分析し、物体の行動を認識する。図12は、図8に示した行動認識部230の予測器PMによる行動認識処理の例を示している。
 図12の例では、まず、物体検出部231は、入力される受信映像内の物体を検出する(S201)。物体検出部231は、物体認識エンジンを用いて、受信映像に含まれる各画像内の矩形領域を検出し、検出した矩形領域内の物体を認識し、認識した物体のラベルを付与する。物体検出部231は、検出した各物体について、物体ラベル、物体の矩形領域の位置情報を物体検出結果として出力する。
 続いて、追跡部232は、検出された受信映像内の物体をトラッキングする(S202)。追跡部232は、検出された各物体にトラッキングIDを割り当て、トラッキングIDにより識別される物体を各画像でトラッキングする。
 続いて、行動予測器233は、トラッキングした物体ごとに、物体の行動を予測する(S203)。行動予測器233は、行動認識エンジンを用いて、トラッキングした人物と作業物体を含む映像から人物の行動を予測する。行動予測器233は、予測した行動のラベルと、各行動ラベルのスコアを出力する。
 続いて、行動判定部234は、予測した行動ラベルのスコアに基づいて、物体の行動を判定する(S204)。図13の例では、トラッキングにより人物とハンマーとが検出されている。行動予測器233は、検出された人物とハンマーの映像に基づいて人物の行動を認識し、各行動ラベルのスコアを出力する。例えば、くい打ちのスコアが0.8、重機作業のスコアが0.1、不安全行動のスコアが0.0、作業外のスコアが0.1である。そうすると、行動判定部234は、くい打ちのスコアが最も高いため、人物の行動はくい打ちであると決定する。行動判定部234は、決定した行動と、行動のスコアを出力する。
 図9に戻り、行動認識処理に続いて、センターサーバ200は、行動認識処理により分析された分析情報に基づいて、注視対象を抽出する(S109)。注視対象解析部250は、行動が認識された人物を注視対象とし、さらに認識対象に作業物体が含まれる場合、作業物体も注視対象に含めてもよい。例えば、図13の例では、人物とハンマーからくい打ちの作業が認識されているため、作業を認識した人物及びハンマーを注視対象としてもよい。注視対象解析部250は、抽出した注視対象の位置情報を含む注視対象抽出情報を出力する。
 本実施の形態では、行動認識結果の不定性に基づいて注視対象を抽出する。図14は、本実施の形態に係る注視対象抽出処理の動作例を示している。複数の物体の行動が認識されている場合、各物体の認識結果に対し注視対象抽出処理を行う。図14の例では、まず、注視対象解析部250は、複数の予測器の予測結果、すなわち行動認識結果を取得する(S301)。例えば、注視対象解析部250は、行動認識部230の予測器PM1~PM3が予測した行動ラベルやスコアを含む行動認識結果を取得する。例えば、各予測器の行動判定部234が出力する最もスコアの高い行動ラベルを取得する。なお、各予測器の行動予測器233から出力される複数の行動ラベルおよびスコアを取得してもよいし、各予測器の行動予測器233から出力される複数の行動ラベルのうち任意の数の行動ラベルを取得してもよい。例えば、スコアが高い上位3つの行動ラベルを取得してもよい。各予測器から複数の行動ラベルを取得した場合、各予測器の複数の行動ラベルのばらつきに基づいて注視対象を抽出する。
 続いて、注視対象解析部250は、複数の行動認識結果のばらつきを判定する(S302)。例えば、注視対象解析部250は、複数の予測器の行動認識結果に含まれる行動ラベルのばらつきを判定する。行動ラベルのばらつきの有無を判定してもよいし、ばらつきの大きさを判定してもよい。また、行動ラベルのばらつきに限らず、行動ラベルのスコアを含めてばらつきを判定してもよい。
 複数の行動認識結果がばらついていると判定された場合、注視対象解析部250は、予測した行動を行う対象物体を注視対象に決定する(S303)。例えば、行動ラベルにばらつきがある場合、注視対象解析部250は、当該行動ラベルの対象物体を注視対象に決定する。図15は、予測器PM1~PM3が同じ行動を学習している場合に、認識結果にばらつきありと判定する例を示している。例えば、予測器PM1~PM3は、それぞれ異なる環境で撮影した同じ作業を学習している。図15の例では、予測器PM1の予測結果の行動ラベルが重機作業、予測器PM2の予測結果の行動ラベルが台車運搬、予測器PM3の予測結果の行動ラベルが転圧作業であり、それぞれ予測結果が異なるため、ばらつきありと判定し、予測した対象物体を注視対象に決定する。
 また、行動ラベルのばらつきが大きい場合、注視対象解析部250は、当該行動ラベルの対象物体を注視対象に決定してもよい。例えば、N個の予測器の内、最もスコアが高い行動ラベルが一致する個数Mが閾値T個以下の場合に、予測した対象物体を注視対象に決定する。例えば、予測器PM1の予測結果の行動ラベルが台車運搬、予測器PM2の予測結果の行動ラベルが転圧作業、予測器PM3の予測結果の行動ラベルが台車運搬、予測器PM4の予測結果の行動ラベルが重機作業の場合、N=4、M=2となり、T=3とすると、M<Tのため、ばらつきが大きいと判定し、予測した対象物体を注視対象に決定する。
 図16は、予測器PM1~PM3が異なる行動を学習している場合に、認識結果にばらつきありと判定する例を示している。この例では、予測器PM1~PM3は、同じ環境で撮影した異なる行動であって、同時に行うことが可能な行動を学習している。例えば、予測器PM1は、人物の行動の姿勢(骨格)を学習した予測器であり、予測器PM2は、人物の行動の内容(作業)を学習した予測器であり、予測器PM3は、予測器PM2が認識する行動のうち点検作業の詳細情報を学習した予測器である。図16に示すように、予測器PM1の姿勢の認識結果では、立位、歩行、しゃがみのスコアがほぼ同じであるため、対象物体の姿勢が不明であり、予測器PM2の行動の認識結果では、点検、掃除、歩行、他の作業のスコアがほぼ同じであるため、対象物体の行動が不明である。この場合、予測器PM1及びPM2の認識結果が、それぞれ、同程度、または、所定値以上のスコアの行動ラベルを複数含むため、予測器PM1~PM3の認識結果がばらついていると判定し、対象物体を注視対象に決定する。
 また、複数の予測器がそれぞれ異なる種類の行動であって、同時に行うことが不可能な行動を学習している場合、対象物体の行動に反応する予測器は対象行動を学習したもののみに限られることが期待される。例えば、予測器Aと予測器Bを使用する例において、転圧作業と重機作業は同時に行うことはできず、予測器Aが転圧作業、予測器Bが重機作業を学習しているとする。この例では、作業者が転圧作業をしている場合、予測器Aのみが反応し、転圧作業のスコアが高くなり、予測器Bの重機作業のスコアは低いことが期待される。そのため、もし、両者の予測器のスコアの値が高くなった場合は、行動の区別がつかず認識の不定性が高いと判断することができる。したがって、異なる予測器間であるスコア閾値以上の行動クラスが複数あるか否かにより、不定性が大きいことを判断してもよい。例えば、予測器Aの認識結果では、転圧作業のスコアが0.8であり、予測器Bの認識結果では、重機作業のスコアが0.9であり、スコア閾値が0.6とすると、スコア閾値を超える行動クラスが2つになるため、不定性が大きいと判断する。
 また、複数の予測結果がばらついていないと判定された場合、注視対象解析部250は、予測した行動を行う対象物体を注視対象から除外する(S304)。すなわち、この場合、注視対象解析部250は、当該物体を注視対象に選択しない。例えば、行動ラベルにばらつきがない場合、注視対象解析部250は、当該行動ラベルの対象物体を注視対象に選択しない。図17は、図15と同様に、予測器PM1~PM3が同じ行動を学習している場合に、認識結果にばらつきなしと判定する例を示している。図15と同様、例えば、予測器PM1~PM3は、それぞれ異なる環境で撮影した同じ作業を学習している。図17の例では、予測器PM1~PM3の予測結果の行動ラベルがいずれも重機作業であり、予測結果が一致するため、ばらつきなしと判定し、予測した対象物体を注視対象から除外する。
 また、行動ラベルのばらつきが小さい場合、注視対象解析部250は、当該行動ラベルの対象物体を注視対象から除外してもよい。例えば、N個の予測器の内、最もスコアが高い行動ラベルが一致する個数Mが閾値T個より大きい場合に、予測対象を注視対象から除外する。例えば、予測器PM1の予測結果の行動ラベルが台車運搬、予測器PM2の予測結果の行動ラベルが台車運搬、予測器PM3の予測結果の行動ラベルが台車運搬、予測器PM4の予測結果の行動ラベルが重機作業の場合、N=4、M=3となり、T=2とすると、M>Tのため、ばらつきが小さいと判定し、予測した対象物体を注視対象から除外する。
 図18は、図16と同様に、予測器PM1~PM3が異なる行動を学習している場合に、認識結果にばらつきなしと判定する例を示している。図16と同様に、予測器PM1~PM3は、同じ環境で撮影した異なる行動であって、同時に行うことが可能な行動を学習しており、例えば、予測器PM1は、人物の行動の姿勢(骨格)を学習した予測器であり、予測器PM2は、人物の行動の内容(作業)を学習した予測器であり、予測器PM3は、予測器PM2が認識する行動のうち点検作業の詳細情報を学習した予測器である。図18に示すように、予測器PM1の姿勢の認識結果では、立位のスコアのみが高く、他のスコアが低いため、対象物体の姿勢が立位であると予測され、予測器PM2の行動の認識結果では、点検のスコアのみが高く、他のスコアが低いため、対象物体の行動が点検であると予測され、予測器PM3の点検作業の認識結果では、道具確認のスコアのみが高く、他のスコアが低いため、対象物体の点検作業が道具確認であると予測される。これにより、対象物体の人物が、立位で道具の有無を確認する点検作業を行っていることが認識できる。この場合、予測器PM1~PM3の認識結果では、それぞれ、所定値以上のスコアの行動ラベルが1つであるため、予測器PM1~PM3の認識結果がばらついていないと判定し、対象物体を注視対象から除外する。
 また、複数の予測器がそれぞれ異なる種類の行動であって、同時に行うことが不可能な行動を学習している例では、異なる予測器間であるスコア閾値以上の行動クラスが複数存在しない場合、例えば、スコア閾値以上の行動クラスが1つしか存在しない場合、不定性が小さいと判断してもよい。
 図9に戻り、注視対象抽出処理に続いて、センターサーバ200は、注視対象抽出処理により抽出した抽出注視対象情報を端末100へ通知し(S110)、端末100は、抽出注視対象情報を取得する(S111)。センター通信部210は、抽出した注視対象の位置を示す抽出注視対象情報を、インターネットやコアネットワークを介して、基地局300へ送信する。基地局300は、受信した抽出注視対象情報を端末100へ転送する。端末通信部150は、転送された抽出注視対象情報を、基地局300から受信する。
 続いて、端末100は、受信した抽出注視対象情報に基づいて、注視領域を決定する(S112)。画質変更判定部130の第2の判定部132は、センターサーバ200から通知された抽出注視対象情報が示す領域を注視領域に決定する。図19の例では、抽出注視対象情報が人物の矩形領域とハンマーの矩形領域を示しており、これらの領域を注視領域に決定する。また、人物の矩形領域とハンマーの矩形領域を含む外接領域を注視領域としてもよい。この外接領域をセンターサーバ200から端末100へ通知してもよい。以降、S104~S112を繰り返す。
 以上のように、本実施の形態では、映像から物体の行動を認識するシステムにおいて、行動認識結果の不定性に基づいて、注視対象を抽出し、抽出した注視対象を含む領域の画質を鮮明化する。例えば、行動認識結果がばらついている場合、映像から正しく認識できていないと想定される。このため、行動認識結果の不定性に基づいて判断することで、適切に注視すべき対象を選択できる。したがって、行動認識結果に応じて、注視したい対象を含む特定の部分の画質を担保し、その他の領域は圧縮が可能となるため、送信するデータ量を抑えつつ行動認識ミスを防ぐことができる。
(実施の形態2)
 次に、実施の形態2について説明する。本実施の形態では、行動認識部から行動認識結果の不定性を出力する例について説明する。行動認識部以外の構成は、実施の形態1の図5及び図6と同様であるため、説明を省略する。なお、本実施の形態は、実施の形態1と組み合わせて実施することが可能であり、実施の形態1で示した各構成を適宜使用してもよい。
 図20は、本実施の形態に係る行動認識部230の構成例を示している。図20に示すように、本実施の形態に係る行動認識部230は、図8の予測器PMと同様の物体検出部231、追跡部232、行動予測器233、行動判定部234を備えており、さらに、dropout設定部235、ばらつき算出部236を備えている。dropout設定部235は、行動予測器233のニューラルネットワークにdropoutを設定する。ばらつき算出部236は、dropoutを設定した行動予測器233により複数回予測した予測結果、すなわち複数回認識した認識結果のばらつきを算出する。
 図21は、図20に示した行動認識部230により行動認識処理の例を示している。なお、その他の動作は、実施の形態1の図9と同様である。図21の例では、まず、実施の形態1と同様に、物体検出部231は、入力される受信映像内の物体を検出し(S201)、追跡部232は、検出された受信映像内の物体をトラッキングする(S202)。
 続いて、dropout設定部235は、行動予測器233にdropoutを設定する(S211)。例えば、図22のように、行動予測器233のニューラルネットワークが入力層、隠れ層(中間層)、出力層を備えているとする。この例では、入力層に複数のノードが含まれ、隠れ層に複数のノードが含まれる。この場合に、dropout設定部235は、図23に示すように、例えば、隠れ層のノードを選択し、選択したノードを不活性化する。ランダムに選択したノードを不活性化してもよいし、所定のdropout率となるようにノードを選択して不活性化してもよい。なお、隠れ層に限らず、入力層のノードを不活性化してもよい。
 dropoutを設定し所定のノードを不活性化した状態で、行動予測器233は、実施の形態1と同様に、物体の行動を予測し(S203)、行動判定部234は、予測した行動ラベルのスコアに基づいて、物体の行動を判定する(S204)。行動判定部234は、判定した行動認識結果を出力する。さらに、S211、S203、S204を複数回繰り返し、dropoutによる行動認識を複数回行う。複数回の認識は、S211、S203、S204の処理を逐次的に繰り返すことで実施してもよく、S211、S203、S204の一連の処理を複製し、並列的に実施してもよい。ただし、複数回の認識においてS211において不活性化するノードは毎回異なるように設定する。
 その後、ばらつき算出部236は、複数回行動を予測して得られた複数の行動認識結果のばらつきを算出する(S212)。ばらつき算出部236は、実施の形態1と同様に、行動認識結果に含まれる行動ラベルのばらつきを算出してもよいし、行動ラベルのスコアのばらつきを算出してもよい。ばらつき算出部236は、行動ラベルのばらつきの有無を判定し、判定した結果を出力してもよい。複数の行動認識結果の行動ラベルが異なる場合、ばらつき算出結果として、ばらつきありを出力し、複数の行動認識結果の行動ラベルが一致する場合、ばらつき算出結果として、ばらつきなしを出力する。
 また、ばらつき算出部236は、複数の行動認識結果の行動ラベルのばらつきが閾値よりも大きいか否かを判定し、判定した結果を出力してもよい。実施の形態1と同様に、例えば、N回の行動認識(推論)の内、最もスコアが高い行動ラベルが一致する個数Mが閾値T個以下の場合に、ばらつき算出結果として、ばらつきありを出力し、最もスコアが高い行動ラベルが一致する個数Mが閾値Tより大きい場合、ばらつき算出結果として、ばらつきなしを出力する。行動認識したN回に対し、最もスコアが高い行動ラベルが一致する個数Mの割合であるばらつき度合いを、ばらつき算出結果として出力してもよい。なお、実施の形態1と同様に、注視対象解析部250で、ばらつきを算出し判定してもよい。
 その後、実施の形態1と同様に、注視対象解析部250は、行動認識部230のばらつき算出部236が算出したばらつき算出結果に基づいて、注視対象を抽出する。例えば、ばらつき算出結果としてばらつきの有無が出力される場合、ばらつきありであれば、行動認識結果の対象物体を注視対象に決定する。ばらつき算出結果としてばらつき度合いが出力される場合、ばらつき度合いと閾値の比較結果に応じて、注視対象を決定してもよい。
 以上のように、行動予測の不定性を出力する単一の行動予測器を用いて注視対象を抽出してもよい。この場合でも、実施の形態1と同様に、適切に注視対象を選択できるため、送信するデータ量を抑えつつ行動認識ミスを防ぐことができる。また、複数の予測器を用意することなく、認識結果の不定性を判定できる。
 なお、本開示は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、上記実施の形態では、センターサーバが注視対象を抽出し、端末が抽出された注視対象に基づいて注視領域を決定したが、センターサーバが抽出された注視対象に基づいて注視領域を決定してもよい。この場合、センターサーバから端末に注視領域の座標やその領域の大きさを通知してもよい。
 また、上記実施の形態で説明した処理フローは、一例であり、各処理の順序は上記の例に限られない。一部の処理の順序を入れ替えて実行してもよいし、一部の処理を並行して実行してもよい。
 上述の実施形態における各構成は、ハードウェア又はソフトウェア、もしくはその両方によって構成され、1つのハードウェア又はソフトウェアから構成してもよいし、複数のハードウェア又はソフトウェアから構成してもよい。各装置及び各機能(処理)を、図24に示すような、CPU(Central Processing Unit)等のプロセッサ31及び記憶装置であるメモリ32を有するコンピュータ30により実現してもよい。例えば、メモリ32に実施形態における方法(映像処理方法)を行うためのプログラムを格納し、各機能を、メモリ32に格納されたプログラムをプロセッサ31で実行することにより実現してもよい。
 これらのプログラムは、コンピュータに読み込まれた場合に、実施形態で説明された1又はそれ以上の機能をコンピュータに行わせるための命令群(又はソフトウェアコード)を含む。プログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、コンピュータ可読媒体又は実体のある記憶媒体は、random-access memory(RAM)、read-only memory(ROM)、フラッシュメモリ、solid-state drive(SSD)又はその他のメモリ技術、CD-ROM、digital versatile disc(DVD)、Blu-ray(登録商標)ディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含む。プログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含む。
 以上、実施の形態を参照して本開示を説明したが、本開示は上記実施の形態に限定されるものではない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解し得る様々な変更をすることができる。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
 入力される映像における注視対象を含む注視領域の画質を制御する画質制御手段と、
 前記注視領域の画質が制御された映像に含まれる物体に関する認識処理を行う認識手段と、
 前記認識処理の認識結果の不定性に基づいて、前記注視対象を抽出する抽出手段と、
 を備える、映像処理システム。
(付記2)
 前記認識処理は、前記物体の行動を認識する処理を含み、
 前記抽出手段は、前記行動の認識結果のばらつきに基づいて、前記注視対象を抽出する、
 付記1に記載の映像処理システム。
(付記3)
 前記抽出手段は、前記行動の認識結果のばらつきが所定の範囲に含まれない場合、前記行動を認識した物体を前記注視対象に決定する、
 付記2に記載の映像処理システム。
(付記4)
 前記認識手段は、異なる学習データを学習した複数の行動予測器を含み、
 前記抽出手段は、前記複数の行動予測器から出力される複数の行動の認識結果のばらつきに基づいて、前記注視対象を抽出する、
 付記2または3に記載の映像処理システム。
(付記5)
 前記認識手段は、行動予測器を含み、
 前記抽出手段は、前記行動予測器が行動の認識を複数回行うことで出力される複数の行動の認識結果のばらつきに基づいて、前記注視対象を抽出する、
 付記2または3に記載の映像処理システム。
(付記6)
 前記抽出手段は、前記行動の認識結果に含まれる行動ラベルのばらつき、または、前記行動ラベルのスコアのばらつきに基づいて、前記注視対象を抽出する、
 付記2から5のいずれか一項に記載の映像処理システム。
(付記7)
 前記行動予測器は、前記行動の認識ごとに、ニューラルネットワークの異なるノードを不活性化させることで、前記複数の行動の認識結果を出力する、
 付記5に記載の映像処理システム。
(付記8)
 入力される映像における注視対象を含む注視領域の画質を制御し、
 前記注視領域の画質が制御された映像に含まれる物体に関する認識処理を行い、
 前記認識処理の認識結果の不定性に基づいて、前記注視対象を抽出する、
 映像処理方法。
(付記9)
 前記認識処理は、前記物体の行動を認識する処理を含み、
 前記行動の認識結果のばらつきに基づいて、前記注視対象を抽出する、
 付記8に記載の映像処理方法。
(付記10)
 前記注視対象の抽出では、前記行動の認識結果のばらつきが所定の範囲に含まれない場合、前記行動を認識した物体を前記注視対象に決定する、
 付記9に記載の映像処理方法。
(付記11)
 異なる学習データを学習した複数の行動予測器により前記物体の行動を認識し、
 前記複数の行動予測器から出力される複数の行動の認識結果のばらつきに基づいて、前記注視対象を抽出する、
 付記9または10に記載の映像処理方法。
(付記12)
 行動予測器により前記物体の行動を認識し、
 前記行動予測器が行動の認識を複数回行うことで出力される複数の行動の認識結果のばらつきに基づいて、前記注視対象を抽出する、
 付記9または10に記載の映像処理方法。
(付記13)
 前記行動の認識結果に含まれる行動ラベルのばらつき、または、前記行動ラベルのスコアのばらつきに基づいて、前記注視対象を抽出する、
 付記9から12のいずれか一項に記載の映像処理方法。
(付記14)
 前記行動予測器は、前記行動の認識ごとに、ニューラルネットワークの異なるノードを不活性化させることで、前記複数の行動の認識結果を出力する、
 付記12に記載の映像処理方法。
(付記15)
 入力される映像における注視対象を含む注視領域の画質を制御する画質制御手段と、
 前記注視領域の画質が制御された映像に含まれる物体に関する認識処理を行う認識手段と、
 前記認識処理の認識結果の不定性に基づいて、前記注視対象を抽出する抽出手段と、
 を備える、映像処理装置。
(付記16)
 前記認識処理は、前記物体の行動を認識する処理を含み、
 前記抽出手段は、前記行動の認識結果のばらつきに基づいて、前記注視対象を抽出する、
 付記15に記載の映像処理装置。
(付記17)
 前記抽出手段は、前記行動の認識結果のばらつきが所定の範囲に含まれない場合、前記行動を認識した物体を前記注視対象に決定する、
 付記16に記載の映像処理装置。
(付記18)
 前記認識手段は、異なる学習データを学習した複数の行動予測器を含み、
 前記抽出手段は、前記複数の行動予測器から出力される複数の行動の認識結果のばらつきに基づいて、前記注視対象を抽出する、
 付記16または17に記載の映像処理装置。
(付記19)
 前記認識手段は、行動予測器を含み、
 前記抽出手段は、前記行動予測器が行動の認識を複数回行うことで出力される複数の行動の認識結果のばらつきに基づいて、前記注視対象を抽出する、
 付記16または17に記載の映像処理装置。
(付記20)
 前記行動予測器は、前記行動の認識ごとに、ニューラルネットワークの異なるノードを不活性化させることで、前記複数の行動の認識結果を出力する、
 付記19に記載の映像処理装置。
1   遠隔監視システム
10  映像処理システム
11  画質制御部
12  認識部
13  抽出部
20  映像処理装置
30  コンピュータ
31  プロセッサ
32  メモリ
100 端末
101 カメラ
102 圧縮効率最適化機能
103 映像送信機能
110 映像取得部
120 検出部
130 画質変更判定部
131 第1の判定部
132 第2の判定部
140 圧縮効率決定部
150 端末通信部
200 センターサーバ
201 映像認識機能
202 アラート生成機能
203 GUI描画機能
204 画面表示機能
210 センター通信部
220 デコーダ
230 行動認識部
231 物体検出部
232 追跡部
233 行動予測器
234 行動判定部
235 dropout設定部
236 ばらつき算出部
240 分析情報保存部
250 注視対象解析部
300 基地局
400 MEC
401 圧縮ビットレート制御機能
402 端末制御機能
PM、PM1~PM3 予測器

Claims (20)

  1.  入力される映像における注視対象を含む注視領域の画質を制御する画質制御手段と、
     前記注視領域の画質が制御された映像に含まれる物体に関する認識処理を行う認識手段と、
     前記認識処理の認識結果の不定性に基づいて、前記注視対象を抽出する抽出手段と、
     を備える、映像処理システム。
  2.  前記認識処理は、前記物体の行動を認識する処理を含み、
     前記抽出手段は、前記行動の認識結果のばらつきに基づいて、前記注視対象を抽出する、
     請求項1に記載の映像処理システム。
  3.  前記抽出手段は、前記行動の認識結果のばらつきが所定の範囲に含まれない場合、前記行動を認識した物体を前記注視対象に決定する、
     請求項2に記載の映像処理システム。
  4.  前記認識手段は、異なる学習データを学習した複数の行動予測器を含み、
     前記抽出手段は、前記複数の行動予測器から出力される複数の行動の認識結果のばらつきに基づいて、前記注視対象を抽出する、
     請求項2または3に記載の映像処理システム。
  5.  前記認識手段は、行動予測器を含み、
     前記抽出手段は、前記行動予測器が行動の認識を複数回行うことで出力される複数の行動の認識結果のばらつきに基づいて、前記注視対象を抽出する、
     請求項2または3に記載の映像処理システム。
  6.  前記抽出手段は、前記行動の認識結果に含まれる行動ラベルのばらつき、または、前記行動ラベルのスコアのばらつきに基づいて、前記注視対象を抽出する、
     請求項2から5のいずれか一項に記載の映像処理システム。
  7.  前記行動予測器は、前記行動の認識ごとに、ニューラルネットワークの異なるノードを不活性化させることで、前記複数の行動の認識結果を出力する、
     請求項5に記載の映像処理システム。
  8.  入力される映像における注視対象を含む注視領域の画質を制御し、
     前記注視領域の画質が制御された映像に含まれる物体に関する認識処理を行い、
     前記認識処理の認識結果の不定性に基づいて、前記注視対象を抽出する、
     映像処理方法。
  9.  前記認識処理は、前記物体の行動を認識する処理を含み、
     前記行動の認識結果のばらつきに基づいて、前記注視対象を抽出する、
     請求項8に記載の映像処理方法。
  10.  前記注視対象の抽出では、前記行動の認識結果のばらつきが所定の範囲に含まれない場合、前記行動を認識した物体を前記注視対象に決定する、
     請求項9に記載の映像処理方法。
  11.  異なる学習データを学習した複数の行動予測器により前記物体の行動を認識し、
     前記複数の行動予測器から出力される複数の行動の認識結果のばらつきに基づいて、前記注視対象を抽出する、
     請求項9または10に記載の映像処理方法。
  12.  行動予測器により前記物体の行動を認識し、
     前記行動予測器が行動の認識を複数回行うことで出力される複数の行動の認識結果のばらつきに基づいて、前記注視対象を抽出する、
     請求項9または10に記載の映像処理方法。
  13.  前記行動の認識結果に含まれる行動ラベルのばらつき、または、前記行動ラベルのスコアのばらつきに基づいて、前記注視対象を抽出する、
     請求項9から12のいずれか一項に記載の映像処理方法。
  14.  前記行動予測器は、前記行動の認識ごとに、ニューラルネットワークの異なるノードを不活性化させることで、前記複数の行動の認識結果を出力する、
     請求項12に記載の映像処理方法。
  15.  入力される映像における注視対象を含む注視領域の画質を制御する画質制御手段と、
     前記注視領域の画質が制御された映像に含まれる物体に関する認識処理を行う認識手段と、
     前記認識処理の認識結果の不定性に基づいて、前記注視対象を抽出する抽出手段と、
     を備える、映像処理装置。
  16.  前記認識処理は、前記物体の行動を認識する処理を含み、
     前記抽出手段は、前記行動の認識結果のばらつきに基づいて、前記注視対象を抽出する、
     請求項15に記載の映像処理装置。
  17.  前記抽出手段は、前記行動の認識結果のばらつきが所定の範囲に含まれない場合、前記行動を認識した物体を前記注視対象に決定する、
     請求項16に記載の映像処理装置。
  18.  前記認識手段は、異なる学習データを学習した複数の行動予測器を含み、
     前記抽出手段は、前記複数の行動予測器から出力される複数の行動の認識結果のばらつきに基づいて、前記注視対象を抽出する、
     請求項16または17に記載の映像処理装置。
  19.  前記認識手段は、行動予測器を含み、
     前記抽出手段は、前記行動予測器が行動の認識を複数回行うことで出力される複数の行動の認識結果のばらつきに基づいて、前記注視対象を抽出する、
     請求項16または17に記載の映像処理装置。
  20.  前記行動予測器は、前記行動の認識ごとに、ニューラルネットワークの異なるノードを不活性化させることで、前記複数の行動の認識結果を出力する、
     請求項19に記載の映像処理装置。
PCT/JP2022/032586 2022-08-30 2022-08-30 映像処理システム、映像処理方法、及び映像処理装置 WO2024047748A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/032586 WO2024047748A1 (ja) 2022-08-30 2022-08-30 映像処理システム、映像処理方法、及び映像処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/032586 WO2024047748A1 (ja) 2022-08-30 2022-08-30 映像処理システム、映像処理方法、及び映像処理装置

Publications (1)

Publication Number Publication Date
WO2024047748A1 true WO2024047748A1 (ja) 2024-03-07

Family

ID=90098933

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/032586 WO2024047748A1 (ja) 2022-08-30 2022-08-30 映像処理システム、映像処理方法、及び映像処理装置

Country Status (1)

Country Link
WO (1) WO2024047748A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001145101A (ja) * 1999-11-12 2001-05-25 Mega Chips Corp 人物画像圧縮装置
JP2020068521A (ja) * 2018-10-19 2020-04-30 ソニー株式会社 センサ装置、信号処理方法
JP2021149446A (ja) * 2020-03-18 2021-09-27 株式会社日立製作所 注視物体認識システム及び方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001145101A (ja) * 1999-11-12 2001-05-25 Mega Chips Corp 人物画像圧縮装置
JP2020068521A (ja) * 2018-10-19 2020-04-30 ソニー株式会社 センサ装置、信号処理方法
JP2021149446A (ja) * 2020-03-18 2021-09-27 株式会社日立製作所 注視物体認識システム及び方法

Similar Documents

Publication Publication Date Title
EP3735625B1 (en) Method and system for training the navigator of an object tracking robot
US10007850B2 (en) System and method for event monitoring and detection
US20180174038A1 (en) Simultaneous localization and mapping with reinforcement learning
US11748896B2 (en) Object tracking method and apparatus, storage medium, and electronic device
KR102330055B1 (ko) 드론을 이용한 구조물의 변화 검출 방법 및 시스템
CN111988524A (zh) 一种无人机与摄像头协同避障方法、服务器及存储介质
CN113901911B (zh) 图像识别、模型训练方法、装置、电子设备及存储介质
CN113505704B (zh) 图像识别的人员安全侦测方法、系统、设备及存储介质
CN116866520B (zh) 一种基于ai的单轨吊安全运行实时监控管理系统
WO2024047748A1 (ja) 映像処理システム、映像処理方法、及び映像処理装置
CN113065379B (zh) 融合图像质量的图像检测方法、装置、电子设备
JP2022526071A (ja) 状況認識監視
WO2024047791A1 (ja) 映像処理システム、映像処理方法、及び映像処理装置
WO2024047747A1 (ja) 映像処理システム、映像処理方法、及び映像処理装置
WO2024047794A1 (ja) 映像処理システム、映像処理装置及び映像処理方法
JP2020013480A (ja) 車両認識システムおよび車両認識方法
WO2024047790A1 (ja) 映像処理システム、映像処理装置及び映像処理方法
WO2024038517A1 (ja) 映像処理システム、映像処理方法、及び画質制御装置
CN111695404B (zh) 行人跌倒检测方法、装置、电子设备及存储介质
WO2024047793A1 (ja) 映像処理システム、映像処理装置及び映像処理方法
CN113095160A (zh) 基于人工智能和5g的电力系统人员安全行为识别方法及系统
CN113128414A (zh) 人员跟踪方法、装置、计算机可读存储介质及电子设备
KR102647135B1 (ko) 인공지능 기반 객체 탐지 알고리즘을 이용하는 시공 현장을 위한 실시간 균열 탐지 시스템 및 이를 위한 동작 방법
KR102511315B1 (ko) 환경 변수 데이터 학습에 기초한 영상 기반 객체 인식 방법 및 시스템
KR102659216B1 (ko) 망 분리 기반의 비상 상황을 전파하기 위한 장치 및 이를 위한 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22957351

Country of ref document: EP

Kind code of ref document: A1