WO2024047790A1 - 映像処理システム、映像処理装置及び映像処理方法 - Google Patents

映像処理システム、映像処理装置及び映像処理方法 Download PDF

Info

Publication number
WO2024047790A1
WO2024047790A1 PCT/JP2022/032760 JP2022032760W WO2024047790A1 WO 2024047790 A1 WO2024047790 A1 WO 2024047790A1 JP 2022032760 W JP2022032760 W JP 2022032760W WO 2024047790 A1 WO2024047790 A1 WO 2024047790A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
motion
frame rate
frame
area
Prior art date
Application number
PCT/JP2022/032760
Other languages
English (en)
French (fr)
Inventor
浩一 二瓶
孝法 岩井
フロリアン バイエ
勇人 逸身
勝彦 高橋
康敬 馬場崎
隆平 安藤
君 朴
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2022/032760 priority Critical patent/WO2024047790A1/ja
Publication of WO2024047790A1 publication Critical patent/WO2024047790A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Definitions

  • the present disclosure relates to a video processing system, a video processing device, and a video processing method.
  • Patent Documents 1 and 2 are known.
  • Patent Document 1 describes a technology that detects the actions of a person in a video, weights them according to the type and order of the actions, and determines the camera's shooting angle of view, and identifies important scenes according to the weight values. It is also stated that the frame rate may be increased.
  • Patent Document 2 describes that an analysis section is determined according to the calculation result of the amount of motion between frames in a predetermined evaluation region, and the frame rate of the determined analysis section is lowered.
  • JP2020-072457A Japanese Patent Application Publication No. 2021-118501
  • the amount of video data can be reduced to a certain extent by controlling the frame rate according to the video scene, the amount of movement of the evaluation part, etc.
  • related techniques are based on the premise that the frame rate of the entire frame is controlled by changing the number of frames per unit time, so it may not be possible to appropriately reduce the amount of data.
  • the quality of the distributed video may deteriorate depending on the amount of available resources of the network.
  • Patent Document 1 when there are many important scenes, and in Patent Document 2, when the analysis section is long, the amount of communication increases, which may lead to delays and video disturbances.
  • the present disclosure aims to provide a video processing system, a video processing device, and a video processing method that can appropriately control the amount of video data.
  • the video processing system includes a motion recognition unit that recognizes a motion of an object included in a first video captured by a sensor, and a motion recognition unit that recognizes a motion of an object included in a first video captured by a sensor, and a motion recognition unit that recognizes a motion of an object included in a first video captured by a sensor, and a motion recognition unit that recognizes a motion of an object included in a first video captured by a sensor;
  • a control means for controlling a change in display content for each frame for each region in the second video image.
  • the video processing device includes a motion recognition unit that recognizes a motion of an object included in a first video imaged by a sensor, and a motion recognition unit that recognizes a motion of an object included in a first video imaged by the sensor, and a motion recognition unit that recognizes a motion of an object included in a first video imaged by the sensor; A control means for controlling a change in display content for each frame for each region in the second video image.
  • a video processing method recognizes a motion of an object included in a first video captured by a sensor, and displays a second video captured by the sensor frame by frame according to a recognition result of the motion. Changes in content are controlled for each area within the second video.
  • FIG. 1 is a configuration diagram showing an overview of a video processing system according to an embodiment.
  • FIG. 1 is a configuration diagram showing an overview of a video processing device according to an embodiment.
  • FIG. 1 is a configuration diagram showing an overview of a video processing device according to an embodiment.
  • 1 is a flowchart showing an overview of a video processing method according to an embodiment.
  • FIG. 2 is a diagram for explaining a video processing method according to an embodiment.
  • FIG. 1 is a configuration diagram showing the basic configuration of a remote monitoring system.
  • 1 is a configuration diagram showing a configuration example of a terminal according to Embodiment 1.
  • FIG. 1 is a configuration diagram showing an example configuration of a center server according to Embodiment 1.
  • FIG. 3 is a diagram showing an example of an operation-frame rate correspondence table according to the first embodiment.
  • FIG. 3 is a flowchart illustrating an example of the operation of the remote monitoring system according to the first embodiment.
  • FIG. 3 is a diagram for explaining video acquisition processing according to the first embodiment.
  • FIG. 3 is a diagram for explaining motion recognition processing according to the first embodiment.
  • FIG. 3 is a diagram for explaining frame rate determination processing according to the first embodiment.
  • FIG. 3 is a diagram for explaining frame rate determination processing according to the first embodiment.
  • FIG. 3 is a diagram for explaining frame rate control processing according to the first embodiment.
  • FIG. 3 is a diagram for explaining frame rate control processing according to the first embodiment.
  • 3 is a configuration diagram showing a configuration example of a terminal according to Modification 1 of Embodiment 1.
  • FIG. 3 is a configuration diagram showing a configuration example of a terminal according to Modification 1 of Embodiment 1.
  • FIG. 3 is a configuration diagram showing a configuration example of a center server according to Modification 1 of Embodiment 1.
  • FIG. FIG. 3 is a configuration diagram showing a configuration example of a terminal according to Modification 2 of Embodiment 1; 7 is a configuration diagram showing a configuration example of a center server according to a second modification of the first embodiment.
  • FIG. FIG. 7 is a configuration diagram showing a configuration example of a terminal according to Modification 3 of Embodiment 1;
  • FIG. 7 is a configuration diagram showing a configuration example of a terminal according to Modification 4 of Embodiment 1;
  • FIG. 2 is a configuration diagram showing a configuration example of a terminal according to Embodiment 2.
  • FIG. 2 is a configuration diagram showing a configuration example of an encoder according to a second embodiment.
  • FIG. 7 is a configuration diagram showing a configuration example of a terminal according to Modification 1 of Embodiment 2;
  • FIG. 7 is a configuration diagram showing a configuration example of a frame rate determination unit according to a second modification of the second embodiment.
  • FIG. 1 is a configuration diagram showing an overview of the hardware of a computer according to an embodiment.
  • FIG. 1 shows a schematic configuration of a video processing system 10 according to an embodiment.
  • the video processing system 10 is applicable to, for example, a remote monitoring system that distributes video via a network and monitors the distributed video.
  • the video processing system 10 includes a motion recognition section 11 and a control section 12.
  • the motion recognition unit 11 recognizes the motion of the object included in the first image captured by the sensor.
  • the sensor is an imaging means such as a camera.
  • the motion of an object includes actions such as work performed by a person, the movement of not only a person but also animals, and the movement of other objects such as machines and tools.
  • the control unit 12 controls changes in the display content for each frame of the second video imaged by the sensor for each region in the second video according to the recognition result of the motion of the object.
  • the object recognition result includes the type of motion of the object.
  • the object recognition result may include object position information.
  • the control unit 12 may control changes in the display content of an area including the area corresponding to the position information of the object or an area other than the area including the area corresponding to the position information of the object.
  • the display content of an area or the content of an area is the content displayed by pixels within the area, and is a partial image of a part of the range within the frame.
  • control unit 12 copies the contents of a predetermined area of a frame before the first frame into a predetermined area of the first frame included in the second video, thereby changing the content of the frame of the second video.
  • Changes in display content may also be controlled.
  • Controlling the change in display content for each frame of video is, for example, controlling the actual frame rate, that is, the real frame rate.
  • the effective frame rate is the number of frames in which the display content of the area changes from the previous frame per unit time when displaying a video. Note that the number of frames per unit time is also referred to as an encoding frame rate.
  • the frame rate may refer to either the real frame rate, the encoded frame rate, or both.
  • the effective frame rate of the predetermined region can be lowered. For example, if the recognition result of an object's motion is a motion that can be recognized by a video with a low frame rate, the actual frame rate can be lowered by controlling changes in the display content of the area indicated by the recognition result.
  • FIG. 2 illustrates the configuration of the video processing device 20 according to the embodiment.
  • the video processing device 20 may include the motion recognition section 11 and the control section 12 shown in FIG.
  • part or all of the video processing system 10 may be placed at the edge or in the cloud.
  • a device placed at or near the site is called an edge
  • a device such as a server placed in a remote location connected to a network is called a cloud.
  • FIG. 3 exemplifies a configuration in which the functions of the video processing system 10 are arranged in a plurality of video processing devices.
  • the video processing device 21 includes the control section 12, and the video processing device 22 includes the motion recognition section 11.
  • the video processing device 21 may be an edge terminal, and the video processing device 22 may be a cloud server.
  • FIG. 4 shows a video processing method according to an embodiment.
  • the video processing method according to the embodiment is executed by the video processing system 10 in FIG. 1 or the video processing devices 20 to 22 in FIG. 2 or 3.
  • the motion recognition unit 11 recognizes the motion of the object included in the first image captured by the sensor (S11).
  • the control unit 12 controls changes in the display content for each frame of the second video imaged by the sensor for each region in the second video according to the recognition result of the object's motion (S12).
  • the control unit 12 controls the actual frame rate of the area indicated by the recognition result by controlling changes in the display content of the area indicated by the recognition result.
  • FIG. 5 shows an example of the operation when video is distributed from an edge terminal to a cloud server in the video processing method according to the embodiment.
  • a video processing system that executes the video processing method of FIG. 5 may further include a video distribution unit in addition to the configuration of FIG. 1 in order to distribute video and recognize operations from the distributed video.
  • the terminal may perform lightweight recognition processing such as object detection.
  • the terminal may include a video distribution unit and a control unit, and the server may include a motion recognition unit.
  • the video distribution unit distributes video input from a sensor such as a camera to a server via a network (S101).
  • the motion recognition unit acquires the distributed video and recognizes the motion of the object from the acquired video (S102).
  • the motion recognition unit notifies the terminal of the recognition result of the motion of the object (S103).
  • the control unit controls changes in display content for each frame of the video to be distributed based on the notified motion recognition results (S104). That is, the motion recognition result of the distributed video is fed back, and the actual frame rate of the video to be distributed next is controlled according to the fed back motion recognition result. Further, the video distribution unit distributes the video whose actual frame rate is controlled, and S101 to S104 are repeatedly executed.
  • the motion of an object included in the video is recognized, and changes in the display content for each frame of each region in the video are controlled according to the recognition result of the object's motion.
  • the actual frame rate of each area is controlled. This allows you to control the frame rate according to the motion to be recognized, and also allows you to control the actual frame rate for each area, compared to controlling the frame rate for the entire frame, so you can frame only the areas that require a high frame rate.
  • the rate can be made higher than in other areas, and the amount of video data can be appropriately controlled. Therefore, it is possible to reduce the amount of communication while maintaining recognition accuracy.
  • the actual frame rate of the area in the video according to the motion recognition result is lower than the encoding frame rate, it is possible to reduce the amount of data when the video is encoded and transmitted.
  • the reason why the data length can be reduced is that during encoding, the amount of data increases in proportion to the difference in content between frames.
  • by reducing the effective frame rate of each area in the video according to the motion recognition results it becomes possible to control the effective frame rate according to the frame rate used for motion recognition. The accuracy of motion recognition can be maintained.
  • the actual frame rate is not changed and the actual frame rate for other areas is lowered, thereby improving the recognition accuracy of object motion in a specific area. , it is possible to suppress the amount of data compared to simply transmitting a video with a high frame rate for the entire video.
  • FIG. 6 illustrates the basic configuration of the remote monitoring system 1.
  • the remote monitoring system 1 is a system that monitors an area where images are taken by a camera.
  • the system will be described as a system for remotely monitoring the work of workers at the site.
  • the site may be an area where people and machines operate, such as a work site such as a construction site or a factory, a plaza where people gather, a station, or a school.
  • the work will be described as construction work, civil engineering work, etc., but is not limited thereto.
  • the remote monitoring system can be said to be a video processing system that processes videos, and also an image processing system that processes images.
  • the remote monitoring system 1 includes a plurality of terminals 100, a center server 200, a base station 300, and an MEC 400.
  • the terminal 100, base station 300, and MEC 400 are placed on the field side, and the center server 200 is placed on the center side.
  • the center server 200 is located in a data center or the like that is located away from the site.
  • the field side is also called the edge side of the system, and the center side is also called the cloud side.
  • Terminal 100 and base station 300 are communicably connected via network NW1.
  • the network NW1 is, for example, a wireless network such as 4G, local 5G/5G, LTE (Long Term Evolution), or wireless LAN.
  • the network NW1 is not limited to a wireless network, but may be a wired network.
  • Base station 300 and center server 200 are communicably connected via network NW2.
  • the network NW2 includes, for example, core networks such as 5GC (5th Generation Core network) and EPC (Evolved Packet Core), the Internet, and the like.
  • 5GC Fifth Generation Core network
  • EPC Evolved Packet Core
  • the network NW2 is not limited to a wired network, but may be a wireless network.
  • the terminal 100 and the center server 200 are communicably connected via the base station 300.
  • the base station 300 and MEC 400 are communicably connected by any communication method, the base station 300 and MEC 400 may be one device.
  • the terminal 100 is a terminal device connected to the network NW1, and is also a video distribution device that distributes on-site video.
  • the terminal 100 acquires an image captured by a camera 101 installed at the site, and transmits the acquired image to the center server 200 via the base station 300.
  • the camera 101 may be placed outside the terminal 100 or inside the terminal 100.
  • the terminal 100 compresses the video from the camera 101 to a predetermined bit rate and transmits the compressed video.
  • the terminal 100 has a compression efficiency optimization function 102 that optimizes compression efficiency.
  • the compression efficiency optimization function 102 performs ROI control that controls the image quality of a ROI (Region of Interest) within a video.
  • ROI is a predetermined area within an image.
  • the ROI may be an area that includes a recognition target of the video recognition function 201 of the center server 200, or may be an area that the user should focus on.
  • the compression efficiency optimization function 102 reduces the bit rate by lowering the image quality of the region around the ROI while maintaining the image quality of the ROI including the person or object.
  • the terminal 100 may include a frame rate control unit that controls the actual frame rate of each area in the input video.
  • the base station 300 is a base station device of the network NW1, and is also a relay device that relays communication between the terminal 100 and the center server 200.
  • the base station 300 is a local 5G base station, a 5G gNB (next Generation Node B), an LTE eNB (evolved Node B), a wireless LAN access point, or the like, but may also be another relay device.
  • MEC 400 is an edge processing device placed on the edge side of the system.
  • the MEC 400 is an edge server that controls the terminal 100, and has a compression bit rate control function 401 that controls the bit rate of the terminal.
  • the compression bit rate control function 401 controls the bit rate of the terminal 100 through adaptive video distribution control and QoE (quality of experience) control.
  • Adaptive video distribution control controls the bit rate, etc. of video to be distributed according to network conditions.
  • QoE control controls the bit rate, etc. of the video to be distributed according to the user's perceived quality and recognition accuracy.
  • the compression bit rate control function 401 assigns a bit rate to the video distributed by the camera 101 of each terminal 100 in accordance with the communication environment of the networks NW1 and NW2 so as to improve recognition accuracy. Further, the bit rate may be assigned by predicting the communication environment of the networks NW1 and NW2. The compression bit rate control function 401 may predict the recognition accuracy obtained when the video is input to the recognition model by suppressing the bit rate of the video to be distributed. Note that in addition to controlling the bit rate, the frame rate of the video to be distributed may be controlled depending on the network situation.
  • the center server 200 is a server installed on the center side of the system.
  • the center server 200 may be one or more physical servers, or may be a cloud server built on the cloud or other virtualized servers.
  • the center server 200 is a monitoring device that monitors on-site work by analyzing and recognizing on-site camera images.
  • the center server 200 is also a video receiving device that receives video transmitted from the terminal 100.
  • the center server 200 has a video recognition function 201, an alert generation function 202, a GUI drawing function 203, and a screen display function 204.
  • the video recognition function 201 inputs the video transmitted from the terminal 100 into a video recognition AI (Artificial Intelligence) engine to recognize the type of work performed by the worker, that is, the type of motion of the object.
  • the video recognition function 201 corresponds to a motion recognition unit that recognizes the motion of an object included in a video.
  • the alert generation function 202 generates an alert according to the recognized work.
  • the GUI drawing function 203 displays a GUI (Graphical User Interface) on the screen of a display device.
  • the screen display function 204 displays images of the terminal 100, recognition results, alerts, etc. on the GUI. Note that, if necessary, any of the functions may be omitted or any of the functions may be included.
  • the center server 200 does not need to include the alert generation function 202, the GUI drawing function 203, and the screen display function 204.
  • Embodiment 1 Next, Embodiment 1 will be described. In this embodiment, an example will be described in which the actual frame rate of the video is controlled according to the motion recognition result of the video.
  • FIG. 6 shows an example of the configuration of terminal 100 according to this embodiment
  • FIG. 8 shows an example of the configuration of center server 200 according to this embodiment.
  • each device is an example, and other configurations may be used as long as the operation according to the present embodiment described later is possible.
  • some functions of the terminal 100 may be placed in the center server 200 or other devices, or some functions of the center server 200 may be placed in the terminal 100 or other devices.
  • the functions of the MEC 400 including the compression bit rate control function may be placed in the center server 200, the terminal 100, or the like.
  • the terminal 100 includes a video acquisition section 110, a recognition result acquisition section 120, a frame rate determination section 130, a frame rate control section 140, an encoder 150, a terminal communication section 160, and a storage section 170.
  • the video acquisition unit 110 acquires the video captured by the camera 101.
  • the video captured by the camera is also referred to as input video hereinafter.
  • the input video includes a person who is a worker working on a site, a work object used by the person, and the like.
  • the video acquisition unit 110 is also an image acquisition unit that acquires a plurality of time-series images, that is, frames.
  • the recognition result acquisition unit 120 acquires the motion recognition result that the terminal communication unit 160 receives from the center server 200.
  • the recognition result acquisition section 120 may be incorporated into the terminal communication section 160.
  • the motion recognition result includes the motion type of the object, position information of a rectangular area including the object that is the subject of the recognized motion, and the like.
  • the position information of the object may be, for example, the coordinates of each vertex of a rectangular area, the position of the center of the rectangular area, or the position of an arbitrary point on the object.
  • the rectangular area is a bounding box or an object area.
  • the object area including the object is not limited to a rectangular area, but may be a circular area, an irregularly shaped silhouette area, or the like.
  • the object indicated by the motion recognition result is, for example, a person who is the target of motion recognition, but may also include a work object used by the person in work. Further, the motion recognition result may include a score of the motion type.
  • the motion type score is the probability of the recognized motion type, that is, the degree of reliability or certainty.
  • the frame rate determination unit 130 determines the actual frame rate of each region within the input video based on the motion recognition results obtained from the center server 200.
  • the frame rate determining unit 130 determines the actual frame rate of the object area, that is, the rectangular area, and other areas indicated by the motion recognition result, based on the position information and motion type of the object indicated by the motion recognition result.
  • the size of the object region for determining the actual frame rate may be changed according to the motion recognition result, depending on the score of the motion type. For example, the object area may be made larger as the score of the motion type becomes smaller. If the score for the motion type is small, the motion type and position information in the motion recognition result may not be recognized correctly, and the area may not contain an object. Therefore, if the score of the motion type is small, by increasing the object area, the actual frame rate is controlled according to the motion recognition result, taking into account the possibility that the position information of the motion recognition result is not recognized correctly. can be determined.
  • the frame rate determination unit 130 determines the actual frame rate of the object region based on the motion type indicated by the motion recognition result. For example, with reference to the motion-frame rate correspondence table stored in the storage unit 170, the frame rate associated with the motion type is determined to be the actual frame rate of the object region.
  • the frame rate associated with the operation type may have a certain range, such as 15 fps to 30 fps.
  • the actual frame rate may be determined depending on the situation of the networks NW1 and NW2. For example, based on the motion type, the effective frame rate of the object region may be determined to be a high frame rate, and the effective frame rate of other regions may be determined to be a low frame rate or a high frame rate.
  • the actual frame rate of the object area may be determined to be a low frame rate, and the actual frame rate of other areas may be determined to be a low frame rate or a high frame rate.
  • the high frame rate may be the frame rate of the input video, that is, the video captured by the camera, and means that the frame rate of the high frame rate area is higher than the frame rate of other areas. It's okay.
  • the low frame rate is a frame rate lower than the high frame rate, for example, a frame rate lower than the frame rate of the input video.
  • the frame rate control unit 140 controls the actual frame rate of the acquired input video.
  • the frame rate control unit 140 controls the actual frame rate of each area of the input video according to the actual frame rate of each area determined by the frame rate determining unit 130. For example, when the effective frame rate of a specific area is determined to be a high frame rate, the frame rate control unit 140 may maintain the effective frame rate of the input video without changing the content of the specific area. Furthermore, when the effective frame rate of a specific area is determined to be a high frame rate, the frame rate control unit 140 sets the actual frame rate of the specific area to be higher than the actual frame rate of areas other than the specific area. may be controlled.
  • the frame rate control unit 140 copies the content of the specific area of the previous frame to the next frame according to the frame rate. Control the actual frame rate of a specific area to a low frame rate. This causes the effective frame rate of areas with low frame rates to be lower than the effective frame rate of areas with high frame rates, and the effective frame rate of areas with high frame rates to be higher than the effective frame rate of low frame rates. .
  • the encoder 150 encodes the input video whose actual frame rate is controlled.
  • Encoder 150 is an encoding unit that encodes input video.
  • the encoder 150 is also a compression unit that compresses input video using a predetermined encoding method.
  • the encoder 150 is, for example, an H. 264 and H.
  • the image is encoded using a video encoding method such as H.265.
  • the encoder 150 encodes an input video input at a predetermined encoding frame rate at a predetermined bit rate.
  • the encoder 150 may encode the input video to the bit rate assigned by the compression bit rate control function 401 of the MEC 400. Furthermore, the encoder 150 may determine the bit rate based on the communication quality between the terminal 100 and the center server 200. Communication quality is, for example, communication speed, but may also be other indicators such as transmission delay or error rate.
  • Terminal 100 may include a communication quality measurement unit that measures communication quality. For example, the communication quality measurement unit determines the bit rate of video transmitted from the terminal 100 to the center server 200 according to the communication speed.
  • the communication speed may be measured based on the amount of data received by the base station 300 or the center server 200, and the communication quality measurement unit may acquire the measured communication speed from the base station 300 or the center server 200. Further, the communication quality measurement unit may estimate the communication speed based on the amount of data transmitted from the terminal communication unit 160 per unit time.
  • the encoder 150 may detect an ROI that includes a person, and encode the input video so that the detected ROI has a higher image quality than other regions.
  • High image quality means that the image quality is higher than that of other areas, and for example, the resolution may be higher than that of other areas, or the compression rate may be lower than that of other areas.
  • an ROI identification unit may be provided between the video acquisition unit 110 and the encoder 150.
  • the ROI identification unit detects an object within the acquired video and identifies an area such as an ROI.
  • the encoder 150 may encode the input video so that the ROI specified by the ROI identification unit has higher image quality than other regions. Further, the input image may be encoded so that the region specified by the ROI specifying section has lower image quality than other regions.
  • the ROI identifying unit or encoder 150 stores information that corresponds to objects that may appear in the video and their priorities, and identifies areas such as the ROI according to the corresponding information of the priorities. may be specified.
  • the image quality setting of the ROI may be realized, for example, by setting the absolute value of the quantization parameter of the region or the difference of the quantization parameter with other regions to the encoder.
  • the ROI may be a region different from the object region whose effective frame rate is controlled according to the motion recognition result.
  • the terminal communication unit 160 transmits the encoded data encoded by the encoder 150 to the center server 200 via the base station 300.
  • the terminal communication unit 160 is a transmitting unit that transmits video whose actual frame rate is controlled. Further, the terminal communication unit 160 is also a receiving unit that receives the motion recognition result transmitted from the center server 200 via the base station 300.
  • the terminal communication unit 160 is an interface that can communicate with the base station 300, and is, for example, a wireless interface such as 4G, local 5G/5G, LTE, or wireless LAN, but may also be a wireless or wired interface of any other communication method. good.
  • Terminal communication section 160 may include a first terminal communication section that transmits encoded data and a second terminal communication section that receives motion recognition results.
  • the first terminal communication section and the second terminal communication section may be communication sections using the same communication method, or may be communication sections using different communication methods.
  • the storage unit 170 stores data necessary for processing of the terminal 100.
  • the storage unit 170 stores an action-frame rate association table that associates frame rates with action types.
  • FIG. 9 shows a specific example of an operation-frame rate correspondence table.
  • the frame rate is associated with the motion type indicated by the motion recognition result.
  • piling operations are associated with high frame rates
  • digging operations are associated with high frame rates
  • compaction operations are associated with low frame rates
  • throwing objects is associated with high frame rates. It is being For example, in the case of rolling work where the ground is leveled using a rolling machine, the rolling machine itself is moving at high speed, but high frame rate images are not required for motion recognition, so low frame rates are required for rolling work. are associated.
  • a high frame rate video is required, so a high frame rate is associated with the motion of throwing an object.
  • the frame rate is not limited to high frame rate and low frame rate, and may be frame rates of multiple levels such as high, medium, and low. The correspondence is not limited to the frame rate level, but may also be associated with the frame rate value.
  • the frame rate associated with the operation type may have a certain range, such as 15 fps to 30 fps.
  • the center server 200 includes a center communication section 210, a decoder 220, a motion recognition section 230, and a recognition result notification section 240.
  • the center communication unit 210 receives encoded data transmitted from the terminal 100 via the base station 300.
  • the center communication unit 210 is a receiving unit that receives video whose real frame rate is controlled. Furthermore, the center communication unit 210 is also a transmitting unit that transmits the motion recognition result recognized by the motion recognition unit 230 to the terminal 100 via the base station 300.
  • the center communication unit 210 is an interface capable of communicating with the Internet or a core network, and is, for example, a wired interface for IP communication, but may be a wired or wireless interface of any other communication method.
  • Center communication section 210 may include a first center communication section that receives encoded data and a second center communication section that transmits motion recognition results. The first center communication section and the second center communication section may be communication sections using the same communication method, or may be communication sections using different communication methods.
  • the decoder 220 decodes encoded data received from the terminal 100. Decoder 220 is a decoding unit that decodes encoded data. The decoder 220 is also a restoring unit that restores encoded data, that is, compressed data, using a predetermined encoding method. The decoder 220 corresponds to the encoding method of the terminal 100, for example, H. 264 and H. The video is decoded using a video encoding method such as H.265. The decoder 220 decodes each area according to the compression rate and bit rate, and generates a decoded video. The decoded video is hereinafter also referred to as received video.
  • the motion recognition unit 230 analyzes the received video and recognizes the motion of the object within the received video. For example, it recognizes a person's actions, such as work that a person performs using an object, or unsafe behavior that puts the person in a dangerous situation. Furthermore, the recognition is not limited to the actions of people, but may also recognize the operating states of objects, such as the operating states of machinery and the operating states of work tools.
  • the motion recognition unit 230 detects an object from the received video and recognizes the motion of the detected object.
  • the motion recognition unit 230 recognizes the motion type of the motion of the person who is the object of motion recognition.
  • the motion recognition section 230 includes an object detection section 231, a tracking section 232, a motion predictor 233, and a motion determination section 234.
  • the object detection unit 231, tracking unit 232, motion predictor 233, and motion determination unit 234 are merely examples, and the motion recognition unit 230 only needs to be able to recognize the type of motion and position information such as the rectangular area of the object.
  • the specific method may not be the same as the present disclosure.
  • the object detection unit 231 detects an object in the input received video.
  • the object detection unit 231 detects an object in each frame included in the received video and recognizes the type of the detected object.
  • the object detection unit 231 extracts a rectangular area containing an object from each frame of the received video, recognizes the object within the extracted rectangular area, and recognizes the object type of the recognized object.
  • the object detection unit 231 calculates the feature amount of a rectangular area including the object, and recognizes the object based on the calculated feature amount. For example, the object detection unit 231 recognizes an object within a frame using an object recognition engine that uses machine learning such as deep learning. Objects can be recognized by machine learning the characteristics of the area containing the object and the type of object.
  • the object detection result includes the object type, position information of a rectangular area including the object, a score of the object type, and the like.
  • the object type score is the certainty of the recognized object type, that is, the reliability or confidence level.
  • the tracking unit 232 tracks the detected object in the received video.
  • the tracking unit 232 associates objects in each image included in the received video based on the object detection results. By assigning a tracking ID to a detected object, each object can be identified and tracked. For example, objects are tracked by associating objects between images based on the distance or overlap between a rectangular area of an object detected in a previous image and a rectangular area of an object detected in a next image.
  • the motion predictor 233 predicts the motion of each object tracked by the tracking unit 232.
  • the motion predictor 233 recognizes the motion of an object, including a person, tracked within the received video, and recognizes the type of the recognized motion.
  • the motion predictor 233 calculates the feature amount of the area including the object, and recognizes the motion type based on the calculated feature amount. For example, the motion predictor 233 recognizes the motion of an object within the received video using a motion recognition engine that uses machine learning such as deep learning.
  • the motion of a work object can be recognized by machine learning of the video of the object being worked on and the type of motion. Further, the motion predictor 233 outputs a score of the recognized motion type.
  • the motion determination unit 234 determines the motion of the object based on the predicted motion type.
  • the motion determination unit 234 determines the motion of the object based on the scores of the plurality of motion types predicted by the motion predictor 233. For example, the motion determination unit 234 outputs the motion type with the highest score as the recognition result. As the motion recognition result, the motion type, object position information, motion type score, etc. are output.
  • the recognition result notifying unit 240 notifies the terminal 100 of the motion recognition result, which is the result of recognizing the motion of the object.
  • the recognition result notification unit 240 transmits the motion recognition result output by the motion determination unit 234 to the terminal 100 via the center communication unit 210.
  • the recognition result notification section 240 may be incorporated into the center communication section 210.
  • FIG. 10 shows an example of the operation of the remote monitoring system 1 according to this embodiment.
  • the terminal 100 executes S111 to S115 and S120 to S122 and the center server 200 executes S116 to S119
  • the present invention is not limited to this, and any device may execute each process.
  • the terminal 100 acquires an image from the camera 101 (S111).
  • the camera 101 generates an image of the scene
  • the image acquisition unit 110 acquires the image output from the camera 101, that is, the input image.
  • the input video image includes a person working at the site and a work object such as a hammer used by the person.
  • the terminal 100 determines the frame rate of the input video, that is, the real frame rate (S112).
  • the frame rate determining unit 130 sets the effective frame rate of the entire region of the video as an initial value.
  • the initial value of the effective frame rate may be a high frame rate, a low frame rate, or another frame rate.
  • the high frame rate may be the same frame rate as the input video frame rate.
  • the terminal 100 controls the frame rate of the acquired input video, that is, the actual frame rate (S113).
  • the frame rate control unit 140 controls the actual frame rate of each area of the input video according to the actual frame rate of each area determined by the frame rate determining unit 130.
  • the entire area of the video is controlled to a high frame rate.
  • the input video is input to the encoder 150 without being changed.
  • frames may be thinned out or frames may be inserted, that is, interpolated, depending on the frame rate.
  • the same frame as the frame before or after the frame insertion may be inserted.
  • the entire area including the person, hammer, and other areas is set to a high frame rate.
  • the terminal 100 encodes the input video whose frame rate, that is, the actual frame rate, has been controlled (S114).
  • Encoder 150 encodes the input video using a predetermined video encoding method.
  • the encoder 150 may encode the input video at a bit rate assigned by the compression bit rate control function 401 of the MEC 400, or may encode the input video at a bit rate according to the communication quality between the terminal 100 and the center server 200. You can also encode it with
  • the terminal 100 transmits the encoded data to the center server 200 (S115), and the center server 200 receives the encoded data (S116).
  • Terminal communication unit 160 transmits encoded data obtained by encoding input video to base station 300.
  • the base station 300 transfers the received encoded data to the center server 200 via the core network or the Internet.
  • Center communication unit 210 receives the transferred encoded data from base station 300.
  • the center server 200 decodes the received encoded data (S117).
  • the decoder 220 decodes the encoded data according to the compression rate and bit rate of each area, and generates a decoded video, that is, a received video.
  • the decoded received video is the target video for recognizing the motion of the object, and is the first video captured by the camera 101 and transmitted from the terminal 100 at the first timing before the actual frame rate is controlled according to the motion recognition result. It's a video.
  • the center server 200 recognizes the movement of the object based on the decoded received video (S118).
  • the object detection section 231, tracking section 232, motion predictor 233, and motion determination section 234 of the motion recognition section 230 recognize motions of objects, including people, in the received video.
  • the object detection unit 231 uses an object recognition engine to detect an object within a frame, and outputs the type of the detected object, position information of a rectangular area including the object, a score of the object type, and the like.
  • the tracking unit 232 assigns a tracking ID to the detected object in the received video, and tracks the object identified by the tracking ID in each image.
  • the motion predictor 233 uses a motion recognition engine to predict the motion of an object from a video including a tracked person or work object, and outputs the predicted motion type, a score of the motion type, and the like.
  • the motion determination unit 234 determines the motion of the object based on the predicted motion type score.
  • the motion determination unit 234 outputs the determined motion type, object position information, motion type score, etc. as a motion recognition result.
  • the object detection unit 231 detects a person and a hammer, and detects a rectangular area of the person and a rectangular area of the hammer, as shown in FIG.
  • the tracking unit 232 tracks the detected person and the hammer
  • the motion predictor 233 recognizes the motion of the person based on the tracked image of the person and the hammer
  • the motion determination unit 234 outputs the recognized motion type. do. For example, if the score for the action type of piling work is highest from the video of a person and a hammer, it is determined that the person's action is piling work.
  • the center server 200 notifies the terminal 100 of the recognized motion recognition result (S119), and the terminal 100 acquires the motion recognition result (S120).
  • the recognition result notifying unit 240 notifies the terminal of the motion recognition result output by the motion determining unit 234 via the center communication unit 210.
  • the center communication unit 210 transmits the motion recognition result to the base station 300 via the Internet or the core network.
  • Base station 300 transfers the received motion recognition regret to terminal 100.
  • Terminal communication unit 160 receives the transferred motion recognition result from base station 300.
  • the recognition result acquisition unit 120 acquires the motion recognition result received by the terminal communication unit 160.
  • the terminal 100 determines the actual frame rate for each area of the newly acquired input video based on the motion recognition result acquired from the center server 200 (S121). Note that after S112, the terminal 100 continuously acquires video from the camera 101, and new video is also acquired before and after S120 and S121, and the frame rate determining unit 130 determines the actual frame rate in the newly acquired video. Determine the rate.
  • the newly acquired video is a video whose effective frame rate is to be controlled according to the motion recognition result, and is the second video captured by the camera 101 and acquired by the terminal 100 at a second timing after the first video. It's a video.
  • the frame rate determination unit 130 determines the actual frame rate of the object region and other regions indicated by the motion recognition result.
  • the actual frame rate may be determined using the rectangular area of the person and the rectangular area of the hammer as object areas. Further, as shown in FIG. 13, the actual frame rate may be determined using a circumscribed area including a rectangular area of a person and a rectangular area of a hammer as an object area. Alternatively, as shown in FIG. 14, the actual frame rate may be determined by using an area along the contours of the person and the hammer as an object area. In this case, the center server 200 may notify information about the contours of the person and the hammer as the motion recognition result.
  • the frame rate determination unit 130 determines the actual frame rate of the object region indicated by the motion recognition result, and further determines the substantial frame rate of other regions.
  • the frame rate determining unit 130 refers to the motion-frame rate correspondence table in the storage unit 170 and determines the actual frame rate of the object region.
  • the high frame rate associated with stake-driving work is determined to be the effective frame rate of the object region.
  • the effective frame rate of the object area including the rectangular area of the person and the rectangular area of the hammer is determined to be a high frame rate.
  • the actual frame rate of other areas is determined to be a predetermined frame rate, for example, a low frame rate.
  • the terminal 100 controls the frame rate of each region of the newly acquired input video, that is, the actual frame rate (S122).
  • the frame rate control unit 140 controls the actual frame rate of the newly acquired input video according to the actual frame rate of each area determined by the frame rate determining unit 130. For example, the input video is controlled so that the effective frame rate of an area determined to have a low frame rate is lower than the actual frame rate of an area determined to be a high frame rate.
  • the rectangular area of the person and the rectangular area of the hammer are determined to have a high frame rate and the other areas have a low frame rate, by lowering the actual frame rate of the other areas, the rectangular area of the person and the rectangular area of the hammer
  • the hammer rectangle may have a high frame rate.
  • the effective frame rate of a specific area the content of the specific area is copied between the previous and subsequent frames depending on the frame rate. Since there is no difference between frames in the area where the content is copied, the frame rate of the copied area in the encoded encoded data is substantially lowered, and the bit rate can be reduced.
  • FIG. 15 shows an example in which the object area indicated by the motion recognition result is controlled at a high frame rate, and the other areas are controlled at a low frame rate.
  • FIG. 15 shows images of frames 0 to 4 of the input video and frames 0 to 4 after effective frame rate control.
  • a white square area A1 indicates an object area with a high frame rate
  • an area A2 other than the white squares indicates another area with a low frame rate.
  • the same contents are shown with the same hatching pattern, and different contents are shown with different hatching patterns.
  • the object area A1 is shown as all white squares, it actually contains an object, and the contents differ from frame to frame. In the example of FIG.
  • the object area A1 of the video after the effective frame rate control uses the contents of frames 0 to 4 of the input video, and the contents of the object area A1 are not changed. Furthermore, in other areas A0, the contents of a specific frame are copied to subsequent frames depending on the actual frame rate. For example, by copying the contents of the other area A0 of frame 0 to frames 1 to 4, the contents of the other area A0 are made the same every five consecutive frames. Thereby, the effective frame rate of the other area A0 can be lowered to 1/5 than that of the object area A1. For example, if the real frame rate of the object area A1 is 30 fps, which is the same as the encoding frame rate, the real frame rate of the other area A0 is 6 fps.
  • FIG. 16 shows an example in which the first object region indicated by the motion recognition result is controlled at a high frame rate, the second object region indicated by the motion recognition result is controlled at a medium frame rate, and the other regions are controlled at a low frame rate. Similar to FIG. 15, FIG. 16 shows images of frames 0 to 4 of the input video and frames 0 to 4 after effective frame rate control. The first object area A1 and other area A0 of each frame are shown similarly to FIG. 15. The second object area A2 with a medium frame rate is a square area different from the first object area A1, and similar to the other area A0, different contents are shown with different hatching patterns. In the example of FIG.
  • the first object area A1 does not change the content in the video after the effective frame rate control
  • the second object area A2 and other areas A0 are specified according to the actual frame rate. Copy the contents of the frame to the subsequent frame. For example, by copying the contents of the second object area A2 of frame 0 to frame 1, and copying the contents of the second object area A2 of frame 2 to frame 3, the second object area A2 of frame 0 is copied every two consecutive frames. Make area A2 the same content. Regarding other areas A0, the contents of frame 0 are copied to frames 1 to 4 in the same manner as in FIG.
  • the real frame rate of the second object area A2 can be made 1/2 lower than that of the first object area A1, and the real frame rate of the other area A0 can be made 1/2 lower than that of the first object area A1. It can be lowered to /5.
  • the real frame rate of the first object area A1 is 30 fps, which is the same as the encoding frame rate
  • the real frame rate of the second object area A2 is 15 fps
  • the real frame rate of the other area A0 is 6 fps. Note that in the flowchart of FIG. 10, the processes from S114 onwards are then repeatedly executed.
  • the center server notifies the terminal of the motion recognition result including the motion type and object region, and controls the actual frame rate of each region of the video according to the motion type and object region.
  • the relationship between motion type and frame rate is determined in advance, and the actual frame rate is determined according to the motion type recognized from the video.
  • the actual frame rate can be appropriately controlled according to the operation recognized by the center server. For example, if the movement of an object is fast but can be recognized at a low frame rate, the effective frame rate of the region of the object to be recognized can be lowered. Therefore, the amount of encoded data, that is, the bit rate, can be reduced while maintaining motion recognition accuracy.
  • the actual frame rate of the video may be controlled based on tracking information obtained by tracking an object.
  • FIG. 17 shows a configuration example of the terminal 100 according to the first modification of the first embodiment
  • FIG. 18 shows a configuration example of the center server 200 according to the first modification of the first embodiment.
  • the terminal 100 may include a tracking information acquisition unit 121 in addition to the configuration of the first embodiment.
  • the center server 200 may include a tracking information notification section 241.
  • the terminal 100 may include a tracking information acquisition unit 121 instead of the recognition result acquisition unit 120, and the center server 200 may include a tracking information notification unit 241 instead of the recognition result notification unit 240.
  • the tracking information notification section 241 may be incorporated into the center communication section 210.
  • the tracking information notification unit 241 of the center server 200 notifies the terminal 100 of the tracking information obtained by the tracking process of the tracking unit 232 via the center communication unit 210.
  • Trunking information is information indicating a movement trajectory of an object, which is a result of tracking the object.
  • the tracking information acquisition unit 121 of the terminal 100 acquires tracking information received from the center server 200 via the terminal communication unit 160.
  • the frame rate determining unit 130 may determine the actual frame rate of the area based on the acquired tracking information. For example, the effective frame rate of the area located beyond the extension of the movement trajectory of the tracking information may be determined.
  • the size of the object area for determining the actual frame rate may be changed depending on the motion recognition result. For example, the object area may be increased as the amount of movement increases.
  • the frame rate determining unit 130 may determine the actual frame rate of the area based on the tracking information according to the type of motion, or, similarly to the first embodiment, the actual frame rate of the object area indicated by the motion recognition result. may be determined depending on the type of operation.
  • the actual frame rate of the video may be controlled based not only on the motion recognition result of the video but also on the tracking information of the object. This allows the actual frame rate to be controlled more appropriately. For example, if another object is detected in the area predicted from the object's movement trajectory, or if the object's trajectory intersects with another object's trajectory, a dangerous situation may occur.
  • the effective frame rate of the area predicted from the movement trajectory can be controlled to a high frame rate.
  • the center server 200 may detect the area predicted from the movement trajectory of the object and notify the terminal 100 of the detection result.
  • the center server may determine the actual frame rate.
  • FIG. 19 shows a configuration example of a terminal 100 according to a second modification of the first embodiment
  • FIG. 20 shows a configuration example of a center server 200 according to a second modification of the first embodiment.
  • the terminal 100 may not include the frame rate determination unit 130 and the storage unit 170 of Embodiment 1, and may include a frame rate acquisition unit 122 instead of the recognition result acquisition unit 120.
  • center server 200 includes frame rate determining section 130 and storage section 170 of terminal 100 in the first embodiment, and may include frame rate notifying section 242 instead of recognition result notifying section 240. good.
  • the frame rate notification section 242 may be incorporated into the center communication section 210.
  • the frame rate determining unit 130 of the center server 200 determines the frame rate based on the motion recognition result recognized by the motion determining unit 234. As in the first embodiment, the frame rate determination unit 130 determines the actual frame rate of the region based on the object position information as a result of motion recognition, based on the motion type as a result of motion recognition.
  • the frame rate notification unit 242 notifies the terminal 100 via the center communication unit 210 of frame rate control information including the actual frame rate of each area determined by the frame rate determination unit 130.
  • the frame rate acquisition unit 122 of the terminal 100 acquires frame rate control information received from the center server 200 via the terminal communication unit 160. Note that the frame rate acquisition section 122 may be incorporated into the terminal communication section 160.
  • the frame rate control unit 140 controls the actual frame rate of each region of the input video based on the frame rate control information that the frame rate acquisition unit 122 acquired from the center server 200.
  • the center server may determine the actual frame rate according to the motion recognition result, and notify the determined actual frame rate to the terminal. Even in this case, the actual frame rate can be appropriately controlled as in the first embodiment.
  • FIG. 21 shows a configuration example of the terminal 100 according to the third modification of the first embodiment. Note that the configuration of the center server 200 is the same as that in the first embodiment. As shown in FIG. 21, terminal 100 may further include object detection section 111 in addition to the configuration of Embodiment 1.
  • the object detection unit 111 detects an object within the acquired input video. For example, like the object detection unit 231 of the center server 200, the object detection unit 111 recognizes objects using an object recognition engine using machine learning.
  • the object recognition engine of the object detection unit 111 may be an object recognition engine that has undergone different learning from the object recognition engine included in the object detection unit 231.
  • the object detection unit 111 extracts a rectangular area containing an object from each image of the input video, and recognizes the object type of the object within the extracted rectangular area.
  • the object detection result includes the object type, position information of a rectangular area including the object, a score of the object type, and the like.
  • the frame rate determination unit 130 determines the actual frame rate of the input video based on the detection results of objects detected within the input video. For example, before receiving the motion recognition results from the center server 200, the actual frame rate may be determined based on the object detection results. After receiving the motion recognition results from the center server 200, the actual frame rate may be determined using either the object detection results or the motion recognition results. When using the object detection results, the frame rate determining unit 130 determines the effective frame rate of a region based on position information of objects having a predetermined object type among the detected objects detected in the input video. For example, the target object type may be stored in the storage unit 170, and the effective frame rate of an object area having the stored object type may be determined.
  • a list of pairs of target objects such as a person and a work object is stored in the storage unit 170, and a substantial frame of a region of a first object and a second object having the object type of the stored pair of target objects is stored.
  • a rate may be determined.
  • the effective frame rate of a region of the first object and the second object in a predetermined positional relationship may be determined.
  • the actual frame rate may be determined for an object region whose object type score included in the object detection result is greater than a predetermined value, or for a predetermined number of object regions from the top in descending order of object type score. Note that the actual frame rate of an object region whose object type score is smaller than a predetermined value may be determined.
  • the frame rate determining unit 130 may determine the effective frame rate of the object area based on the object detection result to be a high frame rate.
  • the frame rate may be associated with the object type, and the actual frame rate may be determined according to the object type of the detected object.
  • the method of determining the actual frame rate based on the object detection result in this embodiment may be used for determining the actual frame rate in S112 in FIG. 10. In this case, even before obtaining motion recognition results, the actual frame rate can be controlled according to the type of detected object, so a high frame rate can be assigned to an area containing a highly important object, and the Actions can be recognized.
  • the actual frame rate may be controlled based not only on the video motion recognition result but also on the object detection result. This allows for more appropriate control of the actual frame rate. For example, areas such as people and work objects to be recognized by the center server can be controlled at a high frame rate.
  • FIG. 22 shows a configuration example of the terminal 100 according to the fourth modification of the first embodiment. Note that the configuration of the center server 200 is the same as that in the first embodiment. As shown in FIG. 22, terminal 100 may further include a frame rate search unit 171 in addition to the configuration of Embodiment 1.
  • the frame rate search unit 171 determines the optimal frame rate for the motion based on the actual frame rate controlled by the frame rate control unit 140 and the motion recognition result acquired by the recognition result acquisition unit 120. .
  • a video of a predetermined action is input to the terminal 100, and the frame rate control unit 140 changes the actual frame rate of the video within a predetermined range, for example, from the lower limit to the upper limit or from the upper limit to the lower limit.
  • the upper and lower limits of the predetermined range may be preset values, or may be values derived from the current network situation that can reduce delays during video transmission.
  • the center server 200 recognizes motion from the video at each frame rate, and notifies the terminal 100 of the motion recognition results.
  • the recognition result acquisition unit 120 acquires motion recognition results for each frame rate from the center server 200.
  • the frame rate search unit 171 refers to the motion type scores included in the motion recognition results for each frame rate, and determines the frame rate with the highest score as the optimal frame rate for the recognized motion. The minimum frame rate at which the score is equal to or greater than the specified value may be set as the optimal frame rate.
  • the frame rate search unit 171 associates the determined optimal frame rate with the type of motion and stores it in the motion-frame rate association table of the storage unit 170.
  • the optimal frame rate may be searched for each action based on the recognition results actually recognized from videos of each frame rate.
  • the actual frame rate can be appropriately controlled for each motion type.
  • FIG. 23 shows a configuration example of the terminal 100 according to this embodiment.
  • terminal 100 according to this embodiment includes an encoder 150b in addition to the configuration of Embodiment 1.
  • the encoder 150a is the encoder 150 of Embodiment 1, and is an encoder that encodes input video for distribution.
  • encoder 150a is a first encoder and encoder 150b is a second encoder.
  • the encoder 150b is an encoder for detecting a motion vector of an input video, and is a motion vector detection unit.
  • the encoder 150b is the same encoder as the encoder 150a, and converts the input video into H. 264 and H.
  • the image is encoded using a video encoding method such as H.265.
  • the video acquisition unit 110 continuously acquires input video input from the camera 101, and the encoder 150b detects a motion vector from the continuously acquired input video.
  • the encoder 150b may detect a motion vector from a first video captured at a first timing before controlling the actual frame rate according to the motion recognition result in the first embodiment, or The motion vector may be detected from a second video shot at a second timing after the above timing and whose actual frame rate is controlled according to the motion recognition result, or a third video shot at a third timing after that.
  • a motion vector may be detected from the video.
  • FIG. 24 shows a configuration example of an encoder 150 including encoders 150a and 150b.
  • the encoder 150 includes a dividing section 151, a motion vector detecting section 152, a residual calculating section 153, and an encoding section 154.
  • the dividing unit 151 divides the input video into coded blocks of a predetermined size.
  • a coding block is a unit of processing for coding, and is a unit of coding processing.
  • these are CTU (Coding Tree Unit) and CU (Coding Unit).
  • the dividing unit 151 divides the input video into CTUs of 64 ⁇ 64 pixels, and further recursively divides the input video into CUs of 1/4 size depending on the image.
  • the motion vector detection unit 152 detects a motion vector from a PU (Prediction Unit) included in each divided encoded block CU.
  • the motion vector indicates the magnitude of movement for each region of a frame of the video, and indicates the direction and amount of movement of a pixel from the previous reference frame to the current target frame.
  • the reference frame is a frame to be referred to in order to calculate a motion vector, and may be the previous frame or a frame a predetermined period of time ago.
  • the motion vector detection unit 152 searches the target frame for a block that matches a block in the reference frame, and calculates the movement direction and movement amount of the searched block.
  • the residual calculation unit 153 applies a motion vector to the previous reference frame for each encoded block, and calculates a predicted reference frame in which the movement of pixels in the video is predicted, and a current target frame in which the motion vector is detected. , that is, calculates the residual, which is the difference from the input frame.
  • the residual is a difference between a predicted frame in which the motion of a frame input next to the reference frame is predicted by applying a motion vector and a frame input next to the reference frame.
  • the encoding unit 154 encodes the reference frame, motion vector, and residual for each encoding block, and generates encoded data of the target frame.
  • the encoder 150b may include only the dividing section 151 and the motion vector detecting section 152 because it is sufficient to be able to detect a motion vector. Furthermore, motion vectors are included only in frames that are encoded with reference to other frames. Therefore, the encoder 150b may be set to encode all frames except the first frame by referring to other frames.
  • the frame rate determining unit 130 determines the actual frame rate of the input video based on the motion vector detected by the motion vector detecting unit 152 of the encoder 150b. Motion vectors are detected for each PU, which includes one or two motion vectors in each encoded block. The effective frame rate may be determined for each encoded block from the average value of motion vectors included in each PU, weighted average, maximum value, minimum value, etc. according to the PU size. For example, before receiving the motion recognition result from the center server 200, the frame rate determining unit 130 determines the actual frame rate based on the motion vector detected from the first video, and the frame rate controlling unit 140 determines the actual frame rate based on the motion vector detected from the first video. The actual frame rate of one video may be controlled.
  • the frame rate determination unit 130 determines the actual frame rate using either the motion vector detected from the second video or the motion recognition result, and controls the frame rate.
  • the unit 140 may control the actual frame rate of the second video.
  • the frame rate determination unit 130 may determine the actual frame rate based on the motion vector detected from the subsequent third video, and the frame rate control unit 140 may control the actual frame rate of the third video.
  • the frame rate determining unit 130 determines, for example, the actual frame rate of a coded block with a motion vector other than 0 or a coded block with a motion vector larger than a predetermined value.
  • the area for which the effective frame rate is determined may be an area for which motion is estimated from a motion vector.
  • the frame rate determining unit 130 may determine the effective frame rate of a region including the periphery of a coded block with a motion vector other than 0.
  • the frame rate determining unit 130 may change the size of the area for determining the actual frame rate depending on the size of the motion vector.
  • the frame rate determination unit 130 may increase the area for determining the actual frame rate as the motion vector increases.
  • the frame rate determining unit 130 may move the area for determining the actual frame rate according to the moving direction of the motion vector.
  • the frame rate determining unit 130 may determine the effective frame rate of the area based on the motion vector to be, for example, a high frame rate.
  • the actual frame rate may be changed depending on the magnitude of the motion vector. For example, the effective frame rate may be increased as the motion vector becomes larger.
  • H. In the case of H.265, the size of the CU of the encoded block changes depending on the movement of the image content, so the actual frame rate may be changed depending on the size of the encoded block. For example, the actual frame rate may be increased as the encoded block becomes smaller. Note that the description of parts that operate in the same way as in FIG. 7 of the first embodiment is omitted.
  • the actual frame rate of the video is further controlled according to the motion vector of the video.
  • the speed of movement in each area is detected from the motion vector detected by the terminal, and the effective frame rate is set to a high frame rate only for the fast-moving parts.
  • the actual frame rate can be appropriately controlled according to the movement of the object. For example, it is possible to reduce recognition failure when an object starts moving. Further, for example, even if an action is started that requires high frame rate video for action recognition, recognition accuracy can be improved.
  • the terminal side can set the moving object area to a high frame rate according to the motion vector. , it is possible to prevent recognition omissions.
  • FIG. 25 shows a configuration example of the terminal 100 according to the first modification of the second embodiment.
  • the terminal 100 does not need to include the recognition result acquisition section 120 and the storage section 170 included in the configuration of FIG. 23. That is, the terminal 100 may include only the video acquisition section 110, the frame rate determination section 130, the frame rate control section 140, the encoder 150a, the encoder 150b, and the terminal communication section 160. Even in this case, as in the second embodiment, the actual frame rate can be appropriately controlled according to the motion vector.
  • FIG. 26 shows a configuration example of a frame rate determination unit according to a second modification of the second embodiment.
  • the frame rate determining unit 130 controls the actual frame rate by determining whether to skip frames of the input video based on the motion vector and the residual.
  • the frame rate determination unit 130 includes a motion vector and residual acquisition unit 131, a variation calculation unit 132, and a frame skip determination unit 133.
  • the motion vector and residual acquisition unit 131 acquires the motion vector detected by the motion vector detection unit 152 of the encoder 150b and the residual calculated by the residual calculation unit 153 of the encoder 150b.
  • the motion vector and residual acquisition unit 131 acquires a motion vector and residual for each encoded block.
  • the frame skip determination unit 133 determines whether frames of the input video need to be skipped, based on the calculated total variation amount. For example, if the total amount of variation is smaller than a threshold, it is determined that frame skipping is necessary, and if the total amount of variation is greater than the threshold, it is determined that frame skipping is not necessary. For example, it may be determined that frame skipping is not necessary when the cumulative value ⁇ d from the last frame input from the frame rate control unit 140 to the encoder 150a exceeds a threshold value. The frame skip determination unit 133 determines whether or not a frame skip is necessary for each encoded block.
  • the frame rate control unit 140 controls frame skipping of the input video based on the determination result of the frame skip determination unit 133.
  • the frame rate control unit 140 may skip a frame determined to require frame skipping among the frames of the input video, that is, may thin out the frame from the input video, or may copy the contents of the previous frame. .
  • the frame rate control unit 140 does not input frames determined to require frame skipping to the encoder 150a, and inputs frames determined to require frame skipping to the encoder 150a.
  • the contents of the encoded blocks determined not to be frame skipped are changed, and the contents of the encoded blocks determined to be frame skipped are changed from the previous frame.
  • the copied frame is input to the encoder 150a.
  • Each configuration in the embodiments described above is configured by hardware, software, or both, and may be configured from one piece of hardware or software, or from multiple pieces of hardware or software.
  • Each device and each function (processing) may be realized by a computer 30 having a processor 31 such as a CPU (Central Processing Unit) and a memory 32 as a storage device, as shown in FIG.
  • a program for performing the method (video processing method) in the embodiment may be stored in the memory 32, and each function may be realized by having the processor 31 execute the program stored in the memory 32.
  • These programs include instructions (or software code) that, when loaded into a computer, cause the computer to perform one or more of the functions described in the embodiments.
  • the program may be stored on a non-transitory computer readable medium or a tangible storage medium.
  • computer readable or tangible storage media may include random-access memory (RAM), read-only memory (ROM), flash memory, solid-state drive (SSD) or other memory technology, CD - Including ROM, digital versatile disc (DVD), Blu-ray disc or other optical disc storage, magnetic cassette, magnetic tape, magnetic disc storage or other magnetic storage device.
  • the program may be transmitted on a transitory computer-readable medium or a communication medium.
  • transitory computer-readable or communication media includes electrical, optical, acoustic, or other forms of propagating signals.
  • motion recognition means for recognizing the motion of an object included in the first image captured by the sensor
  • a control means for controlling a change in display content for each frame of the second image captured by the sensor for each area in the second image according to the recognition result of the movement
  • a video processing system equipped with The control means controls the content of the frame of the second video by copying the content of the predetermined area of a frame before the first frame into a predetermined area of the first frame included in the second video. Control changes in display content, The video processing system described in Appendix 1.
  • the recognition result of the motion includes the type of motion of the object;
  • the recognition result of the motion includes position information of the object,
  • the control means controls changes in display content of an area including an area corresponding to the position information of the object or an area other than the area including the area corresponding to the position information of the object;
  • the video processing system according to any one of Supplementary Notes 1 to 3. (Appendix 5) comprising a motion vector detection means for detecting a motion vector indicating the magnitude of movement for each of the regions of the frame of the second video from the second video;
  • the control means controls changes in display content for each region in the second video according to the detected motion vector.
  • the video processing system according to any one of Supplementary Notes 1 to 4.
  • Appendix 6 a first encoder that encodes the second video in which the change in display content is controlled; a second encoder including the motion vector detection means; The video processing system according to appendix 5.
  • the second encoder calculates a difference between a predicted frame in which a motion of a frame input next to the second frame is predicted by applying the motion vector and a frame input next to the second frame, The control means controls changes in display content for each region in the second video based on the motion vector and the difference.
  • the video processing system according to appendix 6.
  • (Appendix 8) motion recognition means for recognizing the motion of an object included in the first image captured by the sensor;
  • a control means for controlling a change in display content for each frame of the second image captured by the sensor for each area in the second image according to the recognition result of the movement;
  • An image processing device comprising: (Appendix 9) The control means controls the content of the frame of the second video by copying the content of the predetermined area of a frame before the first frame into a predetermined area of the first frame included in the second video. Control changes in display content,
  • the video processing device according to appendix 8. (Appendix 10)
  • the recognition result of the motion includes the type of motion of the object;
  • the recognition result of the motion includes position information of the object,
  • the control means controls a real frame rate of an area including an area corresponding to the position information of the object or an area other than the area including the area corresponding to the position information of the object.
  • the video processing device according to any one of Supplementary Notes 8 to 10.
  • (Appendix 12) comprising a motion vector detection means for detecting a motion vector indicating the magnitude of movement for each of the regions of the frame of the second video from the second video;
  • the control means controls changes in display content for each region in the second video according to the detected motion vector.
  • the video processing device according to any one of Supplementary Notes 8 to 11.
  • (Appendix 13) a first encoder that encodes the second video in which the change in display content is controlled; a second encoder including the motion vector detection means; The video processing device according to appendix 12.
  • the second encoder calculates a difference between a predicted frame in which a motion of a frame input next to the second frame is predicted by applying the motion vector and a frame input next to the second frame, The control means controls changes in display content for each region in the second video based on the motion vector and the difference.
  • the video processing device according to appendix 13.
  • the recognition result of the motion includes position information of the object, controlling changes in display content of an area including an area corresponding to the position information of the object or an area other than the area including the area corresponding to the position information of the object;
  • the video processing method according to any one of Supplementary Notes 15 to 17.
  • (Appendix 19) detecting a motion vector indicating the magnitude of movement for each of the regions of the frame of the second video from the second video; controlling changes in display content for each area in the second video according to the detected motion vector;
  • the video processing method according to any one of Supplementary Notes 15 to 18.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

映像処理システム(10)は、センサによって撮像された映像を処理するシステムである。映像処理システム(10)は、センサによって撮像された第1映像に含まれる物体の動作を認識する動作認識部(11)と、動作認識部(11)が認識した第1映像に含まれる物体の動作の認識結果に応じて、センサによって撮像された第2映像のフレームごとの表示内容の変化を、第2映像内の領域ごとに制御する制御部(12)と、を備えるものである。

Description

映像処理システム、映像処理装置及び映像処理方法
 本開示は、映像処理システム、映像処理装置及び映像処理方法に関する。
 映像のフレームレートを変更する技術が開発されている。関連する技術として、例えば、特許文献1や2が知られている。特許文献1には、映像内の人物の行動を検出し、行動の種別や順序に応じて重みを付け、カメラの撮影画角を決定する技術が記載され、重みの値に応じた重要なシーンでは、フレームレートを増加させてもよいとも記載されている。また、特許文献2には、所定の評価部位におけるフレーム間での動き量の計算結果に応じて解析区間を決定し、決定した解析区間以外のフレームレートを下げることが記載されている。
特開2020-072457号公報 特開2021-118501号公報
 特許文献1や特許文献2のような関連する技術では、映像のシーンや評価部位の動き量などに応じてフレームレートを制御することで、ある程度まで映像のデータ量を低減することができる。しかしながら、関連する技術では、単位時間当たりのフレーム数を変更することでフレーム全体のフレームレートを制御することが前提となっているため、適切にデータ量を低減できない場合がある。例えば、フレームレートを制御した映像を、ネットワークを介して配信する場合、ネットワークの利用可能なリソース量によっては、配信した映像の品質低下につながる可能性がある。特許文献1では、重要なシーンが多い場合に、特許文献2では、解析区間が長い場合に、通信量が大きくなり、遅延や映像の乱れに繋がる可能性がある。
 本開示は、このような課題に鑑み、映像のデータ量を適切に制御することが可能な映像処理システム、映像処理装置及び映像処理方法を提供することを目的とする。
 本開示に係る映像処理システムは、センサによって撮像された第1映像に含まれる物体の動作を認識する動作認識手段と、前記動作の認識結果に応じて、前記センサによって撮像された第2映像のフレームごとの表示内容の変化を、前記第2映像内の領域ごとに制御する制御手段と、を備えるものである。
 本開示に係る映像処理装置は、センサによって撮像された第1映像に含まれる物体の動作を認識する動作認識手段と、前記動作の認識結果に応じて、前記センサによって撮像された第2映像のフレームごとの表示内容の変化を、前記第2映像内の領域ごとに制御する制御手段と、を備えるものである。
 本開示に係る映像処理方法は、センサによって撮像された第1映像に含まれる物体の動作を認識し、前記動作の認識結果に応じて、前記センサによって撮像された第2映像のフレームごとの表示内容の変化を、前記第2映像内の領域ごとに制御するものである。
 本開示によれば、映像のデータ量を適切に制御することが可能な映像処理システム、映像処理装置及び映像処理方法を提供することができる。
実施の形態に係る映像処理システムの概要を示す構成図である。 実施の形態に係る映像処理装置の概要を示す構成図である。 実施の形態に係る映像処理装置の概要を示す構成図である。 実施の形態に係る映像処理方法の概要を示すフローチャートである。 実施の形態に係る映像処理方法を説明するための図である。 遠隔監視システムの基本構成を示す構成図である。 実施の形態1に係る端末の構成例を示す構成図である。 実施の形態1に係るセンターサーバの構成例を示す構成図である。 実施の形態1に係る動作-フレームレート対応付けテーブルの例を示す図である。 実施の形態1に係る遠隔監視システムの動作例を示すフローチャートである。 実施の形態1に係る映像取得処理を説明するための図である。 実施の形態1に係る動作認識処理を説明するための図である。 実施の形態1に係るフレームレート決定処理を説明するための図である。 実施の形態1に係るフレームレート決定処理を説明するための図である。 実施の形態1に係るフレームレート制御処理を説明するための図である。 実施の形態1に係るフレームレート制御処理を説明するための図である。 実施の形態1の変形例1に係る端末の構成例を示す構成図である。 実施の形態1の変形例1に係るセンターサーバの構成例を示す構成図である。 実施の形態1の変形例2に係る端末の構成例を示す構成図である。 実施の形態1の変形例2に係るセンターサーバの構成例を示す構成図である。 実施の形態1の変形例3に係る端末の構成例を示す構成図である。 実施の形態1の変形例4に係る端末の構成例を示す構成図である。 実施の形態2に係る端末の構成例を示す構成図である。 実施の形態2に係るエンコーダの構成例を示す構成図である。 実施の形態2の変形例1に係る端末の構成例を示す構成図である。 実施の形態2の変形例2に係るフレームレート決定部の構成例を示す構成図である。 実施の形態に係るコンピュータのハードウェアの概要を示す構成図である。
 以下、図面を参照して実施の形態について説明する。各図面においては、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略される。
(実施の形態の概要)
 まず、実施の形態の概要について説明する。図1は、実施の形態に係る映像処理システム10の概要構成を示している。映像処理システム10は、例えば、ネットワークを介して映像を配信し、配信した映像を監視する遠隔監視システムに適用可能である。
 図1に示すように、映像処理システム10は、動作認識部11、制御部12を備えている。動作認識部11は、センサによって撮像された第1映像に含まれる物体の動作を認識する。センサは、カメラなどの撮像手段である。物体の動作は、人物が行う作業などの行動、人物に限らず動物の動き、機械や道具などその他の物体の動きを含む。
 制御部12は、物体の動作の認識結果に応じて、センサによって撮像された第2映像のフレームごとの表示内容の変化を、第2映像内の領域ごとに制御する。例えば、物体の認識結果は、物体の動作の種別を含む。また、物体の認識結果は、物体の位置情報を含んでもよい。制御部12は、例えば、物体の位置情報に対応する領域を含む領域、または、物体の位置情報に対応する領域を含む領域以外の領域の表示内容の変化を制御してもよい。領域の表示内容、または、領域の内容とは、領域内の画素により表示される内容であり、フレーム内の一部の範囲の部分画像である。制御部12は、例えば、第2映像に含まれる第1のフレームの所定の領域に、第1のフレームよりも前のフレームの所定の領域の内容を複製することで、第2映像のフレームの表示内容の変化を制御してもよい。映像のフレームごとの表示内容の変化を制御することは、例えば、実質的なフレームレート、すなわち実質フレームレートを制御することである。実質フレームレートとは、映像を表示したときに単位時間当たりに当該領域の表示内容が1つ前のフレームから変化するフレーム数である。なお、単位時間当たりのフレーム数を、エンコードフレームレートとも称する。特に指定されない場合、フレームレートとは、実質フレームレートとエンコードフレームレートのいずれか、または両方を示す場合がある。上記のように、前のフレームの所定の領域の内容を複製することで、所定の領域の実質フレームレートを下げることができる。例えば、物体の動作の認識結果が、低いフレームレートの映像により認識可能な動作である場合、認識結果が示す領域の表示内容の変化を制御し、実質フレームレートを下げることができる。
 なお、映像処理システム10は、1つの装置により構成してもよいし、複数の装置により構成してもよい。図2は、実施の形態に係る映像処理装置20の構成を例示している。図2に示すように、映像処理装置20は、図1に示した、動作認識部11、制御部12を備えてもよい。また、映像処理システム10の一部または全部をエッジまたはクラウドに配置してもよい。例えば、現場や現場の近くに置く装置をエッジと称し、ネットワーク接続された遠隔地に置かれるサーバなどの装置をクラウドと称する。図3は、映像処理システム10の機能を複数の映像処理装置に配置した構成を例示している。図3の例では、映像処理装置21が制御部12を備え、映像処理装置22が動作認識部11を備えている。例えば、映像処理装置21をエッジの端末とし、映像処理装置22をクラウドのサーバとしてもよい。
 図4は、実施の形態に係る映像処理方法を示している。例えば、実施の形態に係る映像処理方法は、図1の映像処理システム10や図2または図3の映像処理装置20~22により実行される。図4に示すように、動作認識部11は、センサによって撮像された第1映像に含まれる物体の動作を認識する(S11)。次に、制御部12は、物体の動作の認識結果に応じて、センサによって撮像された第2映像のフレームごとの表示内容の変化を、第2映像内の領域ごとに制御する(S12)。制御部12は、認識結果が示す領域の表示内容の変化を制御することで、認識結果が示す領域の実質フレームレートを制御する。
 ここで、エッジの端末からネットワークを介してクラウドのサーバに映像を配信し、サーバが映像を分析するシステムについて検討する。このようなシステムでは、端末からサーバへ映像を配信する際に、適切にフレームレートを制御することは難しいという問題がある。具体的には、端末からフレームレートを下げた映像を配信すると、配信する映像の通信量を抑えられるものの、サーバにおける認識精度が低下する。また、端末からフレームレートを上げた映像を配信すると、サーバにおける認識精度が向上するものの、配信する映像の通信量が増加する。そこで、実施の形態では、配信する映像のフレームレートを適切に制御することで、認識精度を維持したまま通信量を低減することを可能とする。
 図5は、実施の形態に係る映像処理方法において、エッジの端末からクラウドのサーバに映像を配信する場合の動作例を示している。例えば、図5の映像処理方法を実行する映像処理システムでは、映像を配信し、配信した映像から動作を認識するため、図1の構成に加えて、更に、映像配信部を備えていてもよい。例えば、エッジデバイスである端末の処理性能が低い場合、作業内容の認識を端末で実行するのは困難であるため、クラウドのサーバに映像を配信して処理する必要がある。なお、端末で物体検出などの軽量な認識処理を行ってもよい。例えば、端末が、映像配信部、制御部を備え、サーバが、動作認識部を備えていてもよい。
 図5に示すように、実施の形態に係る映像処理方法では、映像配信部は、カメラなどのセンサから入力される映像を、ネットワークを介してサーバへ配信する(S101)。次に、動作認識部は、配信された映像を取得し、取得した映像から物体の動作を認識する(S102)。次に、動作認識部は、物体の動作の認識結果を端末へ通知する(S103)。次に、制御部は、通知された動作認識結果に基づいて、配信する映像のフレームごとの表示内容の変化を制御する(S104)。すなわち、配信された映像の動作認識結果をフィードバックし、フィードバックした動作認識結果に応じて、次に配信する映像の実質フレームレートを制御する。さらに、映像配信部は、実質フレームレートが制御された映像を配信し、S101~S104が繰り返し実行される。
 このように、実施の形態では、映像に含まれる物体の動作を認識し、物体の動作の認識結果に応じて、映像における各領域のフレームごとの表示内容の変化を制御する。具体的には、各領域の実質フレームレートを制御する。これにより、認識する動作に応じたフレームレートに制御できるとともに、フレーム全体のフレームレートを制御する場合と比べて、領域ごとに実質フレームレートを制御できるため、高いフレームレートが必要な領域についてのみフレームレートを他の領域よりも高くすることができ、適切に映像のデータ量を制御することができる。したがって、認識精度を維持したまま通信量を低減することができる。例えば、映像内の、動作認識結果に応じた領域の実質フレームレートをエンコードフレームレートより低くすることにより、映像をエンコードして送信した際に、データ量を削減することができる。データ長を削減できる理由としては、エンコードの際にフレーム間の内容の差分に比例してデータ量が増加するためである。また、動作認識結果に応じて、映像内の各領域の実質フレームレートを低減させることにより、動作の認識に使用されるフレームレートに応じて実質フレームレートを制御することが可能になることから、動作の認識精度を維持することができる。また、動作認識結果により高いフレームレートが必要な領域については、実質フレームレートを変更せず、その他の領域の実質フレームレートを下げることで、特定の領域の物体の動作の認識精度を向上させつつ、単に映像全体のフレームレートが高い映像を送信するよりもデータ量を抑制することができる。
(遠隔監視システムの基本構成)
 次に、実施の形態を適用するシステムの一例である遠隔監視システムについて説明する。図6は、遠隔監視システム1の基本構成を例示している。遠隔監視システム1は、カメラが撮影した映像により、当該撮影されたエリアを監視するシステムである。本実施形態においては、以降現場における作業員の作業を遠隔で監視するシステムであるものとして説明する。例えば、現場は工事現場や工場などの作業現場、人の集まる広場、駅、学校など、人や機械が動作するエリアであってもよい。本実施形態においては、以降作業は建設作業や土木作業等として説明するが、これに限られない。なお、映像は、時系列の複数の画像、すなわちフレームを含むため、映像と画像とは互いに言い換え可能である。すなわち、遠隔監視システムは、映像を処理する映像処理システムであり、また、画像を処理する画像処理システムであるとも言える。
 図6に示すように、遠隔監視システム1は、複数の端末100、センターサーバ200、基地局300、MEC400を備えている。端末100、基地局300及びMEC400は、現場側に配置され、センターサーバ200は、センター側に配置されている。例えば、センターサーバ200は、現場から離れた位置に配置されているデータセンタ等に配置されている。現場側はシステムのエッジ側とも呼称し、センター側はクラウド側とも呼称する。
 端末100と基地局300との間は、ネットワークNW1により通信可能に接続される。ネットワークNW1は、例えば、4G、ローカル5G/5G、LTE(Long Term Evolution)、無線LANなどの無線ネットワークである。なお、ネットワークNW1は、無線ネットワークに限らず、有線ネットワークでもよい。基地局300とセンターサーバ200との間は、ネットワークNW2により通信可能に接続される。ネットワークNW2は、例えば、5GC(5th Generation Core network)やEPC(Evolved Packet Core)などのコアネットワーク、インターネットなどを含む。なお、ネットワークNW2は、有線ネットワークに限らず、無線ネットワークでもよい。端末100とセンターサーバ200との間は、基地局300を介して、通信可能に接続されているとも言える。基地局300とMEC400の間は任意の通信方法により通信可能に接続されるが、基地局300とMEC400は、1つの装置でもよい。
 端末100は、ネットワークNW1に接続される端末装置であり、現場の映像を配信する映像配信装置でもある。端末100は、現場に設置されたカメラ101が撮影した映像を取得し、取得した映像を、基地局300を介して、センターサーバ200へ送信する。なお、カメラ101は、端末100の外部に配置されてもよいし、端末100の内部に配置されてもよい。
 端末100は、カメラ101の映像を所定のビットレートに圧縮し、圧縮した映像を送信する。端末100は、圧縮効率を最適化する圧縮効率最適化機能102を有する。圧縮効率最適化機能102は、映像内のROI(Region of Interest)の画質を制御するROI制御を行う。ROIは、映像内の所定の領域である。ROIは、センターサーバ200の映像認識機能201の認識対象を含む領域であってもよいし、ユーザが注視すべき領域でもよい。圧縮効率最適化機能102は、人物や物体を含むROIの画質を維持しながら、その周りの領域の画質を低画質にすることでビットレートを削減する。また、端末100は、入力された映像における各領域の実質フレームレートを制御するフレームレート制御部を備えていてもよい。
 基地局300は、ネットワークNW1の基地局装置であり、端末100とセンターサーバ200の間の通信を中継する中継装置でもある。例えば、基地局300は、ローカル5Gの基地局、5GのgNB(next Generation Node B)、LTEのeNB(evolved Node B)、無線LANのアクセスポイント等であるが、その他の中継装置でもよい。
 MEC(Multi-access Edge Computing)400は、システムのエッジ側に配置されたエッジ処理装置である。MEC400は、端末100を制御するエッジサーバであり、端末のビットレートを制御する圧縮ビットレート制御機能401を有する。圧縮ビットレート制御機能401は、適応映像配信制御やQoE(quality of experience)制御により端末100のビットレートを制御する。適応映像配信制御は、ネットワークの状況に応じて配信する映像のビットレート等を制御する。また、QoE制御は、ユーザの体感品質や認識精度に応じて配信する映像のビットレート等を制御する。例えば、圧縮ビットレート制御機能401は、ネットワークNW1及びNW2の通信環境に応じて、認識精度が良くなるように各端末100のカメラ101の配信する映像にビットレートを割り当てる。また、ネットワークNW1及びNW2の通信環境を予測してビットレートを割り当ててもよい。圧縮ビットレート制御機能401は、配信される映像のビットレートを抑えることによって当該映像を認識モデルに入力した際に得られる認識精度を予測してもよい。なお、ビットレートの制御に限らず、ネットワークの状況に応じて配信する映像のフレームレートを制御してもよい。
 センターサーバ200は、システムのセンター側に設置されたサーバである。センターサーバ200は、1つまたは複数の物理的なサーバでもよいし、クラウド上に構築されたクラウドサーバやその他の仮想化サーバでもよい。センターサーバ200は、現場のカメラ映像を分析や認識することで、現場の作業を監視する監視装置である。センターサーバ200は、端末100から送信された映像を受信する映像受信装置でもある。
 センターサーバ200は、映像認識機能201、アラート生成機能202、GUI描画機能203、画面表示機能204を有する。映像認識機能201は、端末100から送信された映像を映像認識AI(Artificial Intelligence)エンジンに入力することにより、作業員が行う作業、すなわち物体の動作の種類を認識する。映像認識機能201は、映像に含まれる物体の動作を認識する動作認識部に対応する。
 アラート生成機能202は、認識された作業に応じてアラートを生成する。GUI描画機能203は、表示装置の画面にGUI(Graphical User Interface)を表示する。画面表示機能204は、GUIに端末100の映像や認識結果、アラート等を表示する。なお、必要に応じて、いずれかの機能を省略してもよいし、いずれかの機能を備えていてもよい。例えば、センターサーバ200は、アラート生成機能202、GUI描画機能203、画面表示機能204を備えていなくてもよい。
(実施の形態1)
 次に、実施の形態1について説明する。本実施の形態では、映像の動作認識結果に応じて、映像の実質フレームレートを制御する例について説明する。
 まず、本実施の形態に係る遠隔監視システムの構成について説明する。本実施の形態に係る遠隔監視システム1の基本構成は、図6に示した通りである。ここでは、端末100とセンターサーバ200の構成例について説明する。図7は、本実施の形態に係る端末100の構成例を示しており、図8は、本実施の形態に係るセンターサーバ200の構成例を示している。
 なお、各装置の構成は一例であり、後述の本実施の形態に係る動作が可能であれば、その他の構成でもよい。例えば、端末100の一部の機能をセンターサーバ200や他の装置に配置してもよいし、センターサーバ200の一部の機能を端末100や他の装置に配置してもよい。また、圧縮ビットレート制御機能を含むMEC400の機能をセンターサーバ200や端末100等に配置してもよい。
 図7に示すように、端末100は、映像取得部110、認識結果取得部120、フレームレート決定部130、フレームレート制御部140、エンコーダ150、端末通信部160、記憶部170を備えている。
 映像取得部110は、カメラ101が撮影した映像を取得する。カメラが撮影した映像は、以下入力映像とも称する。例えば、入力映像には現場で作業を行う作業員である人物や、人物が使用する作業物体等が含まれる。映像取得部110は、時系列の複数の画像、すなわちフレームを取得する画像取得部でもある。
 認識結果取得部120は、端末通信部160がセンターサーバ200から受信する動作認識結果を取得する。なお、認識結果取得部120は、端末通信部160に組み込まれていてもよい。動作認識結果は、物体の動作種別、認識した動作の主体である物体を含む矩形領域の位置情報等を含む。物体の位置情報は、例えば、矩形領域の各頂点の座標であってもよく、矩形領域の中心の位置でもよいし、物体の任意の点の位置でもよい。矩形領域は、バウンディングボックス、または、物体領域である。なお、物体を含む物体領域は、矩形領域に限らず、円形や不定形のシルエット等の領域でもよい。動作認識結果が示す物体は、例えば、動作認識の対象となる人物であるが、人物が作業で使用する作業物体を含んでもよい。また、動作認識結果には、動作種別のスコアが含まれていてもよい。動作種別のスコアは、認識した動作種別の確からしさ、すなわち信頼度または確信度である。
 フレームレート決定部130は、センターサーバ200から取得した動作認識結果に基づいて、入力映像内の各領域の実質フレームレートを決定する。フレームレート決定部130は、動作認識結果が示す物体の位置情報及び動作種別に基づいて、動作認識結果が示す物体領域、すなわち矩形領域と、その他の領域の実質フレームレートを決定する。また、動作種別のスコアに応じて、動作認識結果に応じて実質フレームレートを決定する物体領域の大きさを変えてもよい。例えば、動作種別のスコアが小さくなるにしたがって、物体領域を大きくしてもよい。動作種別のスコアが小さい場合、動作認識結果の動作種別及び位置情報が正しく認識できていない可能性があり、その領域に物体が含まれていない可能性がある。そこで、動作種別のスコアが小さい場合、物体領域を大きくすることで、動作認識結果の位置情報が正しく認識できていない可能性も考慮して、動作認識結果に応じて実質フレームレートを制御する領域を決定することができる。
 フレームレート決定部130は、動作認識結果が示す動作種別に基づいて、物体領域の実質フレームレートを決定する。例えば、記憶部170に記憶された動作-フレームレート対応付けテーブルを参照し、動作種別に対応付けられたフレームレートを、物体領域の実質フレームレートに決定する。動作種別に対応付けられたフレームレートは、15fps~30fpsなどのように、ある程度幅を持っていてもよい。また、ネットワークNW1やNW2の状況に応じて、実質フレームレートを決定してもよい。例えば、動作種別に基づいて、物体領域の実質フレームレートを高フレームレートに決定し、その他の領域の実質フレームレートを低フレームレート、または高フレームレートに決定してもよい。また、動作種別に基づいて、物体領域の実質フレームレートを低フレームレートに決定し、その他の領域の実質フレームレートを低フレームレート、または高フレームレートに決定してもよい。なお、高フレームレートとは、入力映像、すなわちカメラが撮影した映像のフレームレートであってもよく、高フレームレートとした領域のフレームレートが、他の領域のフレームレートよりも高い状態を意味してもよい。低フレームレートとは、高フレームレートよりも低いフレームレートであり、例えば、入力映像のフレームレートよりも低いフレームレートである。
 フレームレート制御部140は、取得された入力映像の実質フレームレートを制御する。フレームレート制御部140は、フレームレート決定部130が決定した各領域の実質フレームレートにしたがって、入力映像の各領域の実質フレームレートを制御する。例えば、フレームレート制御部140は、特定の領域の実質フレームレートが高フレームレートに決定された場合、特定の領域の内容を変更せずに、入力映像の実質フレームレートを維持してもよい。また、フレームレート制御部140は、特定の領域の実質フレームレートが高フレームレートに決定された場合、特定の領域の実質フレームレートを、特定の領域以外の領域の実質フレームレートよりも高くするように制御してもよい。また、フレームレート制御部140は、特定の領域の実質フレームレートが低フレームレートに決定された場合、フレームレートにしたがって、前のフレームの特定の領域の内容を次のフレームにコピーすることで、特定の領域の実質フレームレートを低フレームレートに制御する。これにより、低フレームレートの領域の実質フレームレートを、高フレームレートの領域の実質フレームレートよりも低くし、高フレームレートの領域の実質フレームレートを、低フレームレートの実質フレームレートよりも高くする。
 エンコーダ150は、実質フレームレートが制御された入力映像をエンコードする。エンコーダ150は、入力映像を符号化する符号化部である。エンコーダ150は、所定の符号化方式により入力映像を圧縮する圧縮部でもある。エンコーダ150は、例えば、H.264やH.265などの映像符号化方式によりエンコードする。
 エンコーダ150は、所定のエンコードフレームレートで入力される入力映像を所定のビットレートによりエンコードする。エンコーダ150は、MEC400の圧縮ビットレート制御機能401から割り当てられたビットレートとなるように入力映像をエンコードしてもよい。また、エンコーダ150は、端末100とセンターサーバ200間の通信品質に基づいて、ビットレートを決定してもよい。通信品質は、例えば、通信速度であるが、伝送遅延や誤り率などその他の指標でもよい。端末100は、通信品質を測定する通信品質測定部を備えていてもよい。例えば、通信品質測定部は、通信速度に応じて端末100からセンターサーバ200へ送信する映像のビットレートを決定する。基地局300またはセンターサーバ200が受信するデータ量に基づいて通信速度を測定し、通信品質測定部は、基地局300またはセンターサーバ200から測定された通信速度を取得してもよい。また、通信品質測定部は、端末通信部160から送信する単位時間当たりのデータ量に基づいて通信速度を推定してもよい。
 また、エンコーダ150は、人物を含むROIを検出し、検出したROIが他の領域よりも高画質となるように、入力映像をエンコードしてもよい。高画質とは、他の領域よりも画質が高いことであり、例えば、他の領域より解像度を高くしてもよいし、他の領域より圧縮率を下げてもよい。例えば、映像取得部110とエンコーダ150の間にROI特定部を備えてもよい。ROI特定部は、取得された映像内の物体を検出し、ROI等の領域を特定する。エンコーダ150は、ROI特定部によって特定されたROIを他の領域よりも高画質となるように入力映像をエンコードしてもよい。また、ROI特定部によって指定された領域を他の領域よりも低画質になるように入力画像をエンコードしてもよい。ROI特定部またはエンコーダ150は、ROIを検出又は特定する際、映像に映る可能性のある物体とその優先度とが対応する情報を保持し、当該優先度の対応情報に応じてROI等の領域を特定してもよい。ROIの画質設定は、例えば、エンコーダに対して当該領域の量子化パラメータの絶対値、または、他の領域との量子化パラメータの差を設定することで実現してもよい。ROIは、動作認識結果に応じて実質フレームレートを制御する物体領域とは別の領域でもよい。
 端末通信部160は、エンコーダ150がエンコードしたエンコードデータを、基地局300を介して、センターサーバ200へ送信する。端末通信部160は、実質フレームレートが制御された映像を送信する送信部である。また、端末通信部160は、センターサーバ200から送信された動作認識結果を、基地局300を介して受信する受信部でもある。端末通信部160は、基地局300と通信可能なインタフェースであり、例えば、4G、ローカル5G/5G、LTE、無線LAN等の無線インタフェースであるが、その他の任意の通信方式の無線または有線インタフェースでもよい。端末通信部160は、エンコードデータを送信する第1の端末通信部と、動作認識結果を受信する第2の端末通信部を含んでもよい。第1の端末通信部と第2の端末通信部は、同じ通信方式の通信部でもよいし、別の通信方式の通信部でもよい。
 記憶部170は、端末100の処理に必要なデータを記憶する。例えば、記憶部170は、動作種別にフレームレートを対応付けた動作-フレームレート対応付けテーブルを記憶する。図9は、動作-フレームレート対応付けテーブルの具体例を示している。図9に示すように、動作-フレームレート対応付けテーブルでは、動作認識結果で示される動作種別に、フレームレートを対応付ける。この例では、くい打ち作業に高フレームレートが対応付けられ、掘削作業に高フレームレートが対応付けられ、転圧作業に低フレームレートが対応付けられ、物体を投げる動作に高フレームレートが対応付けられている。例えば、転圧機で地面をならす転圧作業の場合、転圧機自体は高速で動いているが、動作認識のためには高フレームレートの映像は不要であるため、転圧作業に低フレームレートが対応付けられている。また、人物がボールなどの物体を投げる動作を認識するためには、高フレームレートの映像が必要であるため、物体を投げる動作に高フレームレートが対応付けられている。なお、高フレームレート、低フレームレートに限らず、高、中、低のように、複数のレベルのフレームレートでもよい。フレームレートのレベルに限らず、フレームレートの値を対応付けてもよい。動作種別に対応付けられたフレームレートは、15fps~30fpsなどのように、ある程度幅を持っていてもよい。
 また、図8に示すように、センターサーバ200は、センター通信部210、デコーダ220、動作認識部230、認識結果通知部240を備えている。
 センター通信部210は、端末100から送信されたエンコードデータを、基地局300を介して受信する。センター通信部210は、実質フレームレートが制御された映像を受信する受信部である。また、センター通信部210は、動作認識部230が認識した動作認識結果を、基地局300を介して端末100へ送信する送信部でもある。センター通信部210は、インターネットやコアネットワークと通信可能なインタフェースであり、例えば、IP通信用の有線インタフェースであるが、その他の任意の通信方式の有線または無線インタフェースでもよい。センター通信部210は、エンコードデータを受信する第1のセンター通信部と、動作認識結果を送信する第2のセンター通信部を含んでもよい。第1のセンター通信部と第2のセンター通信部は、同じ通信方式の通信部でもよいし、別の通信方式の通信部でもよい。
 デコーダ220は、端末100から受信したエンコードデータをデコードする。デコーダ220は、エンコードデータを復号化する復号化部である。デコーダ220は、所定の符号化方式によりエンコードデータ、すなわち圧縮データを復元する復元部でもある。デコーダ220は、端末100の符号化方式に対応し、例えば、H.264やH.265などの動画符号化方式によりデコードする。デコーダ220は、各領域の圧縮率やビットレートに応じてデコードし、デコードした映像を生成する。デコードした映像を、以下受信映像とも称する。
 動作認識部230は、受信映像を分析し、受信映像内の物体の動作を認識する。例えば、人物が物体を使用して行う作業や、人物が危険な状態となる不安全行動などの人物の行動を認識する。また、人物の行動に限らず、機械類の稼働状況や作業道具の使用状況など、物体の動作状況を認識してもよい。動作認識部230は、受信映像から物体を検出し、検出した物体の動作を認識する。動作認識部230は、動作認識の対象である人物の動作の動作種別を認識する。例えば、動作認識部230は、物体検出部231、追跡部232、動作予測器233、動作判定部234を含む。なお、物体検出部231、追跡部232、動作予測器233、動作判定部234はあくまで例示であって、動作認識部230では、動作の種別と物体の矩形領域などの位置情報が認識できればよく、具体的な手法は本開示と同一でなくてもよい。
 物体検出部231は、入力される受信映像内の物体を検出する。物体検出部231は、受信映像に含まれる各フレーム内の物体を検出し、検出した物体の種別を認識する。物体検出部231は、受信映像の各フレームから物体を含む矩形領域を抽出し、抽出した矩形領域内の物体を認識し、認識した物体の物体種別を認識する。物体検出部231は、物体を含む矩形領域の特徴量を算出し、算出した特徴量に基づいて物体を認識する。例えば、物体検出部231は、ディープラーニングなどの機械学習を用いた物体認識エンジンによりフレーム内の物体を認識する。物体を含む領域の特徴と物体の種別を機械学習することで物体を認識できる。物体の検出結果には、物体種別、物体を含む矩形領域の位置情報、物体種別のスコア等が含まれる。物体種別のスコアは、認識した物体種別の確からしさ、すなわち信頼度または確信度である。
 追跡部232は、検出された受信映像内の物体を追跡、すなわちトラッキングする。追跡部232は、物体の検出結果に基づいて、受信映像に含まれる各画像の物体を対応付ける。検出された物体にトラッキングIDを割り当てることで、各物体を識別してトラッキングすることができる。例えば、前の画像で検出された物体の矩形領域と次の画像で検出された物体の矩形領域との間の距離や重なりにより画像間の物体を対応付けることで、物体をトラッキングする。
 動作予測器233は、追跡部232がトラッキングした物体ごとに、物体の動作を予測する。動作予測器233は、受信映像内でトラッキングされた人物を含む物体の動作を認識し、認識した動作の種別を認識する。動作予測器233は、物体を含む領域の特徴量を算出し、算出した特徴量に基づいて動作種別を認識する。例えば、動作予測器233は、ディープラーニングなどの機械学習を用いた動作認識エンジンにより受信映像内の物体の動作を認識する。作業物体を用いて作業を行う物体の映像と動作種別を機械学習することで物体の動作を認識できる。また、動作予測器233は、認識した動作種別のスコアを出力する。
 動作判定部234は、予測された動作種別に基づいて、物体の動作を判定する。動作判定部234は、動作予測器233が予測した複数の動作種別のスコアに基づいて、物体の動作を決定する。例えば、動作判定部234は、最もスコアが高い動作種別を認識結果として出力する。動作認識結果として、動作種別、物体の位置情報、動作種別のスコア等を出力する。
 認識結果通知部240は、物体の動作を認識した結果である動作認識結果を端末100へ通知する。認識結果通知部240は、動作判定部234が出力した動作認識結果を、センター通信部210を介して、端末100へ送信する。認識結果通知部240は、センター通信部210に組み込まれていてもよい。
 次に、本実施の形態に係る遠隔監視システムの動作について説明する。図10は、本実施の形態に係る遠隔監視システム1の動作例を示している。例えば、端末100がS111~S115、S120~S122を実行し、センターサーバ200がS116~S119を実行するとして説明するが、これに限らず、いずれの装置が各処理を実行してもよい。
 図10に示すように、端末100は、カメラ101から映像を取得する(S111)。カメラ101は、現場を撮影した映像を生成し、映像取得部110は、カメラ101から出力される映像、すなわち入力映像を取得する。例えば、図11に示すように、入力映像の画像には、現場で作業を行う人物や、人物が使用するハンマーなどの作業物体が含まれている。
 続いて、端末100は、入力映像のフレームレート、すなわち実質フレームレートを決定する(S112)。この段階では、まだセンターサーバ200が映像から動作を認識していないため、動作認識結果を使用せずに実質フレームレートを決定する。例えば、フレームレート決定部130は、映像の全体の領域の実質フレームレートを初期値に設定する。例えば、実質フレームレートの初期値は高フレームレートであってもよく、低フレームレートやその他のフレームレートでもよい。例えば、高フレームレートは、入力映像のフレームレートと同じフレームレートであってよい。
 続いて、端末100は、取得した入力映像のフレームレート、すなわち実質フレームレートを制御する(S113)。フレームレート制御部140は、フレームレート決定部130が決定した各領域の実質フレームレートにしたがって、入力映像の各領域の実質フレームレートを制御する。この例では、映像の全体の領域を高フレームレートに制御する。例えば、入力映像を変更しない状態が高フレームレートである場合、入力映像を変更せずに、エンコーダ150へ入力する。なお、映像全体のフレームレート、すなわち、エンコードフレームレートを変更する場合、フレームレートに応じて、フレームを間引いてもよいし、フレームを挿入、すなわち補間してもよい。例えば、フレームを挿入する前または後のフレームと同じフレームを挿入してもよい。図11の例では、人物、ハンマー及びその他の領域を含む全体の領域を高フレームレートにする。
 続いて、端末100は、フレームレート、すなわち実質フレームレートが制御された入力映像をエンコードする(S114)。エンコーダ150は、所定の映像符号化方式により入力映像をエンコードする。例えば、エンコーダ150は、MEC400の圧縮ビットレート制御機能401から割り当てられたビットレートとなるように入力映像をエンコードしてもよいし、端末100とセンターサーバ200の間の通信品質に応じたビットレートでエンコードしてもよい。
 続いて、端末100は、エンコードしたエンコードデータをセンターサーバ200へ送信し(S115)、センターサーバ200は、エンコードデータを受信する(S116)。端末通信部160は、入力映像をエンコードしたエンコードデータを基地局300へ送信する。基地局300は、受信したエンコードデータを、コアネットワークやインターネットを介して、センターサーバ200へ転送する。センター通信部210は、転送されたエンコードデータを、基地局300から受信する。
 続いて、センターサーバ200は、受信したエンコードデータをデコードする(S117)。デコーダ220は、各領域の圧縮率やビットレートに応じてエンコードデータをデコードし、デコードした映像、すなわち受信映像を生成する。デコードした受信映像は、物体の動作を認識する対象の映像であり、動作認識結果に応じて実質フレームレートを制御する前の第1のタイミングでカメラ101により撮影され端末100から送信された第1映像である。
 続いて、センターサーバ200は、デコードした受信映像に基づいて物体の動作を認識する(S118)。例えば、動作認識部230の物体検出部231、追跡部232、動作予測器233、動作判定部234により、受信映像における人物を含む物体の動作を認識する。具体的には、物体検出部231は、物体認識エンジンを用いて、フレーム内の物体を検出し、検出した物体の種別、物体を含む矩形領域の位置情報、物体種別のスコア等を出力する。追跡部232は、検出された受信映像内の物体にトラッキングIDを割り当て、トラッキングIDにより識別される物体を各画像でトラッキングする。動作予測器233は、動作認識エンジンを用いて、トラッキングした人物や作業物体を含む映像から物体の動作を予測し、予測した動作の種別と、動作種別のスコア等を出力する。動作判定部234は、予測した動作種別のスコアに基づいて、物体の動作を決定する。動作判定部234は、動作認識結果として、決定した動作種別、物体の位置情報、動作種別のスコア等を出力する。
 例えば、図11の映像から物体検出を行うと、物体検出部231は、図12のように、人物及びハンマーを検出し、人物の矩形領域とハンマーの矩形領域を検出する。追跡部232は、検出された人物とハンマーをトラッキングし、動作予測器233は、トラッキングした人物とハンマーの映像に基づいて人物の動作を認識し、動作判定部234は、認識した動作種別を出力する。例えば、人物とハンマーの映像からくい打ち作業の動作種別のスコアが最も高い場合、人物の動作はくい打ち作業であると判定する。
 続いて、センターサーバ200は、認識した動作認識結果を端末100へ通知し(S119)、端末100は、動作認識結果を取得する(S120)。認識結果通知部240は、動作判定部234が出力した動作認識結果を、センター通信部210を介して、端末へ通知する。センター通信部210は、動作認識結果を、インターネットやコアネットワークを介して、基地局300へ送信する。基地局300は、受信した動作認識悔過を端末100へ転送する。端末通信部160は、転送された動作認識結果を、基地局300から受信する。認識結果取得部120は、端末通信部160が受信した動作認識結果を取得する。
 続いて、端末100は、センターサーバ200から取得した動作認識結果に基づいて、新たに取得した入力映像の領域ごとの実質フレームレートを決定する(S121)。なお、S112以降、端末100は継続的にカメラ101から映像を取得し、S120やS121の前後でも新たな映像が取得されており、フレームレート決定部130は、新たに取得された映像における実質フレームレートを決定する。新たに取得された映像は、動作認識結果に応じて実質フレームレートを制御する対象の映像であり、第1映像よりも後の第2のタイミングでカメラ101により撮影され端末100が取得した第2映像である。フレームレート決定部130は、動作認識結果が示す物体領域及びその他の領域の実質フレームレートを決定する。例えば、動作認識結果が、図12のように人物の矩形領域とハンマーの矩形領域を示している場合、人物の矩形領域とハンマーの矩形領域を物体領域として実質フレームレートを決定してもよい。また、図13に示すように、人物の矩形領域とハンマーの矩形領域を含む外接領域を物体領域として実質フレームレートを決定してもよい。また、図14に示すように、人物とハンマーの輪郭に沿った領域を物体領域として実質フレームレートを決定してもよい。この場合、センターサーバ200から、人物とハンマーの輪郭の情報を動作認識結果として通知してもよい。
 フレームレート決定部130は、動作認識結果が示す動作種別に基づいて、動作認識結果が示す物体領域の実質フレームレートを決定し、さらにその他の領域の実質フレームレートを決定する。フレームレート決定部130は、記憶部170の動作-フレームレート対応付けテーブルを参照し、物体領域の実質フレームレートを決定する。図9のテーブルの例では、動作種別がくい打ち作業である場合、くい打ち作業に対応付けられた高フレームレートを物体領域の実質フレームレートに決定する。図12の例で、動作種別がくい打ち作業の場合、人物の矩形領域とハンマーの矩形領域を含む物体領域の実質フレームレートを高フレームレートに決定する。また、その他の領域の実質フレームレートを、所定のフレームレート、例えば低フレームレートに決定する。
 続いて、端末100は、新たに取得した入力映像の各領域のフレームレート、すなわち実質フレームレートを制御する(S122)。フレームレート制御部140は、フレームレート決定部130が決定した各領域の実質フレームレートにしたがって、新たに取得した入力映像の実質フレームレートを制御する。例えば、低フレームレートに決定された領域の実質フレームレートが、高フレームレートに決定された領域の実質フレームレートよりも下がるように、入力映像を制御する。図12の例で、人物の矩形領域とハンマーの矩形領域が高フレームレート、その他の領域が低フレームレートに決定された場合、その他の領域の実質フレームレートを下げることで、人物の矩形領域とハンマーの矩形領域を高フレームレートにしてもよい。例えば、特定の領域の実質フレームレートを下げる場合、フレームレートに応じて、前後のフレーム間で特定の領域の内容をコピーする。内容をコピーした領域でフレーム間の差分が無くなるため、エンコードされたエンコードデータにおいて、コピーした領域のフレームレートが実質的に下がり、ビットレートを低減することができる。
 図15は、動作認識結果が示す物体領域を高フレームレート、その他の領域を低フレームレートに制御する例を示している。図15では、入力映像のフレーム0~4と実質フレームレート制御後のフレーム0~4のイメージを示している。各フレームで、白い四角の領域A1が、高フレームレートとする物体領域を示し、白い四角以外の領域A2が、低フレームレートとするその他の領域を示している。その他の領域A2では、同じ内容を同じハッチングパターンで示し、異なる内容を異なるハッチングパターンで示している。また、物体領域A1は、全て白い四角で示されているが、実際には物体が含まれており、フレームごとに内容が異なる。図15の例では、実質フレームレート制御後の映像の物体領域A1は、入力映像のフレーム0~4の内容を用い、物体領域A1の内容を変更しない。また、その他の領域A0では、実質フレームレートに応じて、特定のフレームの内容を、その後のフレームにコピーする。例えば、フレーム0のその他の領域A0の内容をフレーム1~4にコピーすることで、連続する5フレームごとにその他の領域A0を同じ内容にする。これにより、その他の領域A0の実質フレームレートを物体領域A1よりも1/5に低くすることができる。例えば、物体領域A1の実質フレームレートがエンコードフレームレートと同じ30fpsの場合、その他の領域A0の実質フレームレートが6fpsとなる。
 図16は、動作認識結果が示す第1の物体領域を高フレームレート、動作認識結果が示す第2の物体領域を中フレームレート、その他の領域を低フレームレートに制御する例を示している。図16では、図15と同様、入力映像のフレーム0~4と実質フレームレート制御後のフレーム0~4のイメージを示している。各フレームの第1の物体領域A1とその他の領域A0は、図15と同様に示されている。中フレームレートとする第2の物体領域A2は、第1の物体領域A1と異なる四角の領域であり、その他の領域A0と同様に、異なる内容を異なるハッチングパターンで示している。図16の例では、第1の物体領域A1は、実質フレームレート制御後の映像において内容を変更せずに、第2の物体領域A2及びその他の領域A0は、それぞれ実質フレームレートに応じて特定のフレームの内容をその後のフレームにコピーする。例えば、フレーム0の第2の物体領域A2の内容をフレーム1にコピーし、フレーム2の第2の物体領域A2の内容をフレーム3にコピーすることで、連続する2フレームごとに第2の物体領域A2を同じ内容にする。その他の領域A0については、図15と同様に、フレーム0の内容をフレーム1~4にコピーする。これにより、第2の物体領域A2の実質フレームレートを第1の物体領域A1よりも1/2に低くすることができ、その他の領域A0の実質フレームレートを第1の物体領域A1よりも1/5に低くすることができる。例えば、第1の物体領域A1の実質フレームレートがエンコードフレームレートと同じ30fpsの場合、第2の物体領域A2の実質フレームレートが15fpsとなり、その他の領域A0の実質フレームレートが6fpsとなる。なお、図10のフローチャートでは、その後、S114以降の処理を繰り返し実行する。
 以上のように、本実施の形態では、センターサーバから端末へ動作種別及び物体領域を含む動作認識結果を通知し、動作種別及び物体領域に応じて、映像の各領域の実質フレームレートを制御する。例えば、動作種別とフレームレートとの関係を予め決めておき、映像から認識された動作種別に応じて実質フレームレートを決定する。これにより、センターサーバが認識する動作に応じて、適切に実質フレームレートを制御できる。例えば、物体の動きが速くても低フレームレートで動作を認識可能な場合には、認識する物体の領域の実質フレームレートを下げることができる。したがって、動作認識精度を維持したまま、エンコードしたデータのデータ量、すなわちビットレートを低減することができる。
<実施の形態1の変形例1>
 実施の形態1の変形例1として、物体をトラッキングしたトラッキング情報に基づいて、映像の実質フレームレートを制御してもよい。図17は、実施の形態1の変形例1に係る端末100の構成例を示しており、図18は、実施の形態1の変形例1に係るセンターサーバ200の構成例を示している。
 図17に示すように、端末100は、実施の形態1の構成に加えて、トラッキング情報取得部121を備えていてもよい。また、図18に示すように、実施の形態1の構成に加えて、センターサーバ200は、トラッキング情報通知部241を備えていてもよい。なお、端末100の認識結果取得部120の代わりに、トラッキング情報取得部121を備えてもよいし、センターサーバ200の認識結果通知部240の代わりに、トラッキング情報通知部241を備えていてもよい。トラッキング情報通知部241は、センター通信部210に組み込まれていてもよい。
 本変形例では、センターサーバ200のトラッキング情報通知部241は、追跡部232のトラッキング処理により得られるトラッキング情報を、センター通信部210を介して端末100へ通知する。トランキング情報は、物体をトラッキングした結果である物体の移動軌跡を示す情報である。
 端末100のトラッキング情報取得部121は、端末通信部160を介して、センターサーバ200から受信するトラッキング情報を取得する。なお、トラッキング情報取得部121は、端末通信部160に組み込まれていてもよい。フレームレート決定部130は、取得したトラッキング情報に基づいた領域の実質フレームレートを決定してもよい。例えば、トラッキング情報の移動軌跡を延長した先に位置する領域の実質フレームレートを決定してもよい。トラッキング情報の移動量に応じて、動作認識結果に応じて実質フレームレートを決定する物体領域の大きさを変えてもよい。例えば、移動量が大きくなるにしたがって、物体領域を大きくしてもよい。フレームレート決定部130は、トラッキング情報に基づいた領域の実質フレームレートを、動作種別に応じて決定してもよいし、実施の形態1と同様に、動作認識結果が示す物体領域の実質フレームレートを、動作種別に応じて決定してもよい。
 このように、映像の動作認識結果に限らず、物体のトラッキング情報に基づいて映像の実質フレームレートを制御してもよい。これにより、さらに適切に実質フレームレートを制御できる。例えば、物体の移動軌跡から予測される領域に他の物体が検出されている場合や、物体の軌跡と他の物体の軌跡が交差する場合、危険な状態となる可能性があるため、物体の移動軌跡から予測される領域の実質フレームレートを高フレームレートに制御できる。なお、物体の移動軌跡から予測される領域の検出をセンターサーバ200で行い、検出結果を端末100へ通知してもよい。
<実施の形態1の変形例2>
 実施の形態1の変形例2として、センターサーバが実質フレームレートを決定してもよい。図19は、実施の形態1の変形例2に係る端末100の構成例を示しており、図20は、実施の形態1の変形例2に係るセンターサーバ200の構成例を示している。
 図19に示すように、端末100は、実施の形態1のフレームレート決定部130及び記憶部170を備えず、認識結果取得部120の代わりにフレームレート取得部122を備えていてもよい。図20に示すように、センターサーバ200は、実施の形態1における端末100のフレームレート決定部130及び記憶部170を備え、認識結果通知部240の代わりにフレームレート通知部242を備えていてもよい。フレームレート通知部242は、センター通信部210に組み込まれていてもよい。
 本変形例では、センターサーバ200のフレームレート決定部130は、動作判定部234が認識した動作認識結果に基づいて、フレームレートを決定する。フレームレート決定部130は、実施の形態1と同様に、動作認識結果の物体の位置情報に基づいた領域の実質フレームレートを、動作認識結果の動作種別に基づいて、決定する。フレームレート通知部242は、フレームレート決定部130が決定した各領域の実質フレームレートを含むフレームレート制御情報を、センター通信部210を介して端末100へ通知する。
 端末100のフレームレート取得部122は、端末通信部160を介して、センターサーバ200から受信するフレームレート制御情報を取得する。なお、フレームレート取得部122は、端末通信部160に組み込まれていてもよい。フレームレート制御部140は、フレームレート取得部122がセンターサーバ200から取得したフレームレート制御情報に基づいて、入力映像の各領域の実質フレームレートを制御する。
 このように、センターサーバが動作認識結果に応じて実質フレームレートを決定し、決定した実質フレームレートを端末に通知してもよい。この場合でも、実施の形態1と同様に適切に実質フレームレートを制御できる。
<実施の形態1の変形例3>
 実施の形態1の変形例3として、端末が物体検出を行ってもよい。図21は、実施の形態1の変形例3に係る端末100の構成例を示している。なお、センターサーバ200の構成は実施の形態1と同様である。図21に示すように、端末100は、実施の形態1の構成に加えて、物体検出部111をさらに備えていてもよい。
 本変形例では、物体検出部111は、取得された入力映像内の物体を検出する。例えば、物体検出部111は、センターサーバ200の物体検出部231と同様、機械学習を用いた物体認識エンジンにより物体を認識する。なお、物体検出部111の物体認識エンジンは、物体検出部231に備えられている物体認識エンジンとは異なる学習を行った物体認識エンジンであってよい。物体検出部111は、入力映像の各画像から物体を含む矩形領域を抽出し、抽出した矩形領域内の物体の物体種別を認識する。物体の検出結果には、物体種別、物体を含む矩形領域の位置情報、物体種別のスコア等が含まれる。
 フレームレート決定部130は、入力映像内で検出された物体の検出結果に基づいて、入力映像の実質フレームレートを決定する。例えば、センターサーバ200から動作認識結果を受信する前に、物体検出結果に基づいて、実質フレームレートを決定してもよい。センターサーバ200から動作認識結果を受信した後、物体検出結果と動作認識結果のいずれかを使用して、実質フレームレートを決定してもよい。物体検出結果を使用する場合、フレームレート決定部130は、入力映像内で検出した検出物体のうち所定の物体種別を有する物体の位置情報に基づいた領域の実質フレームレートを決定する。例えば、記憶部170に対象の物体種別を記憶しておき、記憶された物体種別を有する物体の領域の実質フレームレートを決定してもよい。また、記憶部170に人物と作業物体などの対象物体のペアのリストを記憶しておき、記憶された対象物体のペアの物体種別を有する第1の物体及び第2の物体の領域の実質フレームレートを決定してもよい。所定の位置関係にある第1の物体と第2の物体の領域の実質フレームレートを決定してもよい。また、物体検出結果に含まれる物体種別のスコアが所定値よりも大きい物体の領域や、物体種別のスコアが高い順に上位から所定の数の物体の領域の実質フレームレートを決定してもよい。なお、物体種別のスコアが所定値よりも小さい物体の領域の実質フレームレートを決定してもよい。フレームレート決定部130は、物体検出結果に基づいた物体領域の実質フレームレートを高フレームレートに決定してもよい。物体種別にフレームレートを対応付けておき、検出した物体の物体種別に応じて実質フレームレートを決定してもよい。なお、本実施の形態における物体の検出結果に基づいた実質フレームレートの決定方法を、図10の、S112の実質フレームレートの決定に用いてもよい。この場合、動作認識結果を得る以前であっても、検出した物体の種別に応じて実質フレームレートを制御できるため、重要度の高い物体を含む領域に高フレームレートを割り当てることができ、適切に動作を認識することができる。
 このように、映像の動作認識結果に限らず、物体の検出結果に応じて実質フレームレートを制御してもよい。これにより、さらに適切に実質フレームレートを制御できる。例えば、センターサーバの認識対象の人物や作業物体などの領域を高フレームレートに制御できる。
<実施の形態1の変形例4>
 実施の形態1の変形例4として、動作ごとに最適なフレームレートを探索してもよい。図22は、実施の形態1の変形例4に係る端末100の構成例を示している。なお、センターサーバ200の構成は実施の形態1と同様である。図22に示すように、端末100は、実施の形態1の構成に加えて、フレームレート探索部171をさらに備えていてもよい。
 本変形例では、フレームレート探索部171は、フレームレート制御部140が制御した実質フレームレートと、認識結果取得部120が取得した動作認識結果とに基づいて、動作に最適なフレームレートを判定する。例えば、所定の動作の映像を端末100に入力し、フレームレート制御部140は、映像の実質フレームレートを、所定の範囲で、例えば、下限から上限、または、上限から下限に変化させる。所定の範囲の上限と下限は、予め設定された値でもよく、現在のネットワークの状況から導かれる、映像送信時の遅延を低減可能な値でもよい。センターサーバ200は、各フレームレートの映像から動作を認識し、認識した動作認識結果を端末100へ通知する。認識結果取得部120は、センターサーバ200から各フレームレートの動作認識結果を取得する。フレームレート探索部171は、各フレームレートの動作認識結果に含まれる動作種別のスコアを参照し、最も高いスコアとなったフレームレートを、認識した動作の最適なフレームレートに決定する。スコアが規定値以上となった最小のフレームレートを、最適なフレームレートとしてもよい。フレームレート探索部171は、決定した最適なフレームレートと動作種別を対応付けて記憶部170の動作-フレームレート対応付けテーブルに格納する。
 このように、実際に各フレームレートの映像から認識した認識結果に基づいて、動作ごとに最適なフレームレートを探索してもよい。探索により得られた動作種別とフレームレートの関係を使用することで、動作種別ごとに適切に実質フレームレートを制御できる。
(実施の形態2)
 次に、実施の形態2について説明する。本実施の形態では、映像の動きベクトルに応じて、映像の実質フレームレートを制御する例について説明する。
 図23は、本実施の形態に係る端末100の構成例を示している。なお、センターサーバ200の構成は実施の形態1と同様である。図23に示すように、本実施の形態に係る端末100は、実施の形態1の構成に加えて、エンコーダ150bを備えている。なお、エンコーダ150aは、実施の形態1のエンコーダ150であり、入力映像を配信用にエンコードするエンコーダである。例えば、エンコーダ150aは第1のエンコーダであり、エンコーダ150bは第2のエンコーダである。
 エンコーダ150bは、入力映像の動きベクトル検出用のエンコーダであり、動きベクトル検出部である。エンコーダ150bは、エンコーダ150aと同じエンコーダであり、入力映像をH.264やH.265などの映像符号化方式によりエンコードする。実施の形態1と同様、映像取得部110は、継続的にカメラ101から入力される入力映像を取得し、エンコーダ150bは、継続的に取得される入力映像から動きベクトルを検出する。例えば、エンコーダ150bは、実施の形態1における動作認識結果に応じて実質フレームレートを制御する前の第1のタイミングで撮影された第1映像から動きベクトルを検出してもよいし、第1のタイミングの後の第2タイミングで撮影され動作認識結果に応じて実質フレームレートを制御する第2映像から動きベクトルを検出してもよいし、さらに、その後の第3のタイミングで撮影ざれた第3映像から動きベクトルを検出してもよい。
 図24は、エンコーダ150a及び150bを含むエンコーダ150の構成例を示している。図24に示すように、例えば、エンコーダ150は、分割部151、動きベクトル検出部152、残差算出部153、符号化部154を備えている。
 分割部151は、入力映像を所定のサイズの符号化ブロックに分割する。符号化ブロックは、符号化の処理単位であり、H.265の場合、CTU(Coding Tree Unit)及びCU(Coding Unit)である。分割部151は、例えば、入力映像を64×64画素のCTUに分割し、さらに、画像に応じて1/4のサイズのCUに再帰的に繰り返し分割する。
 動きベクトル検出部152は、分割した各符号化ブロックCUに含まれるPU(Prediction Unit)から動きベクトルを検出する。動きベクトルは、映像のフレームの領域各々に関する移動の大きさを示し、前の参照フレームから現在の対象フレームに対し画素の移動方向及び移動量を示す。参照フレームは、動きベクトルを算出するために参照するフレームであり、1つ前のフレームでもよいし、所定の期間前のフレームでもよい。例えば、動きベクトル検出部152は、参照フレームのブロックとマッチングするブロックを、対象フレームの中から探索し、探索したブロックの移動方向及び移動量を算出する。
 残差算出部153は、符号化ブロックごとに、前の参照フレームに対し動きベクトルを適用することで、映像内の画素の移動を予測した予測参照フレームと、動きベクトルを検出した現在の対象フレーム、すなわち入力されたフレームとの差である残差を算出する。残差は、動きベクトルを適用して参照フレームの次に入力されるフレームの動きを予測した予測フレームと参照フレームの次に入力されたフレームとの差分である。符号化部154は、符号化ブロックごとに、参照フレーム、動きベクトル、残差を符号化し、対象フレームのエンコードデータを生成する。なお、エンコーダ150bは、動きベクトルを検出できればよいため、分割部151及び動きベクトル検出部152のみを備えていてもよい。また、動きベクトルは他のフレームを参照して符号化されるフレームにのみ含まれる。そのため、エンコーダ150bは先頭フレームを除く全フレームで他のフレームを参照して符号化するように設定してもよい。
 本実施の形態では、フレームレート決定部130は、エンコーダ150bの動きベクトル検出部152が検出した動きベクトルに基づいて、入力映像の実質フレームレートを決定する。動きベクトルは、各符号化ブロックに1または2個含まれるPU単位に検出される。各PUに含まれる動きベクトルの平均値や、PUサイズに応じた加重平均、最大値、最小超などの値から、符号化ブロックごとに実質フレームレートを決定してもよい。例えば、フレームレート決定部130は、センターサーバ200から動作認識結果を受信する前に、第1映像から検出された動きベクトルに基づいて、実質フレームレートを決定し、フレームレート制御部140が、第1映像の実質フレームレートを制御してもよい。フレームレート決定部130は、センターサーバ200から動作認識結果を受信した後、第2映像から検出された動きベクトルと動作認識結果のいずれかを使用して、実質フレームレートを決定し、フレームレート制御部140が、第2映像の実質フレームレートを制御してもよい。フレームレート決定部130は、その後の第3映像から検出された動きベクトルに基づいて、実質フレームレートを決定し、フレームレート制御部140が、第3映像の実質フレームレートを制御してもよい。
 フレームレート決定部130は、例えば、動きベクトルが0以外の符号化ブロックや、動きベクトルが所定値よりも大きい符号化ブロックの実質フレームレートを決定する。実質フレームレートを決定される領域は、動きベクトルから動きが推定される領域でもよい。例えば、フレームレート決定部130は、動きベクトルが0以外の符号化ブロックの周辺を含む領域の実質フレームレートを決定してもよい。フレームレート決定部130は、動きベクトルの大きさに応じて、実質フレームレートを決定する領域の大きさを変えてもよい。フレームレート決定部130は、例えば、動きベクトルが大きくなるにしたがって、実質フレームレートを決定する領域を大きくしてもよい。フレームレート決定部130は、動きベクトルの移動方向に応じて実質フレームレートを決定する領域を移動させてもよい。
 フレームレート決定部130は、動きベクトルに基づいた領域の実質フレームレートを、例えば高フレームレートに決定してもよい。動きベクトルの大きさに応じて、実質フレームレートを変えてもよい。例えば、動きベクトルが大きくなるにしたがって、実質フレームレートを高くしてもよい。H.265の場合、符号化ブロックのCUの大きさが画像の内容の動きに応じて変わるため、符号化ブロックの大きさに応じて、実質フレームレートを変えてもよい。例えば、符号化ブロックが小さくなるにしたがって、実質フレームレートを高くしてもよい。なお、実施の形態1の図7と同様の動作をする部の記載は省略する。
 以上のように、本実施の形態では、実施の形態1の構成に加えて、さらに、映像の動きベクトルに応じて、映像の実質フレームレートを制御する。例えば、端末で検出した動きベクトルから各領域の動きの速さを検出し、動きの速い部分だけ実質フレームレートを高フレームレートにする。これにより、物体の動きに応じて適切に実質フレームレートを制御できる。例えば、物体が動作を開始した時の認識漏れを低減することができる。また、例えば、特に動作認識に高フレームレートの映像が必要な動作が開始された場合であっても、認識精度を向上することができる。すなわち、実施の形態1のようにセンターサーバの動作認識結果に応じて物体の領域を低フレームレートとした場合でも、端末側で動きベクトルに応じて動く物体の領域を高フレームレートとすることで、認識漏れを防ぐことができる。
<実施の形態2の変形例1>
 実施の形態2の変形例1として、映像の動きベクトルのみに応じて、映像の実質フレームレートを制御してもよい。図25は、実施の形態2の変形例1に係る端末100の構成例を示している。図25に示すように、端末100は、図23の構成に含まれる認識結果取得部120及び記憶部170を備えなくてもよい。すなわち、端末100は、映像取得部110、フレームレート決定部130、フレームレート制御部140、エンコーダ150a、エンコーダ150b、端末通信部160のみを備えていてもよい。この場合でも、実施の形態2と同様に、動きベクトルに応じて、適切に実質フレームレートを制御できる。
<実施の形態2の変形例2>
 実施の形態2の変形例として、動きベクトル及び残差の変動量に応じてフレームのスキップを制御してもよい。端末100の構成は、実施の形態2と同様である。図26は、実施の形態2の変形例2に係るフレームレート決定部の構成例を示している。本変形例では、フレームレート決定部130は、動きベクトル及び残差に基づいて、入力映像のフレームのスキップを判定することで、実質フレームレートを制御する。
 図26に示すように、フレームレート決定部130は、動きベクトル及び残差取得部131、変動量算出部132、フレームスキップ判定部133を備えている。動きベクトル及び残差取得部131は、エンコーダ150bの動きベクトル検出部152が検出した動きベクトルと、エンコーダ150bの残差算出部153が算出した残差を取得する。動きベクトル及び残差取得部131は、符号化ブロックごとに動きベクトル及び残差を取得する。
 変動量算出部132は、取得した動きベクトル及び残差の総合変動量を算出する。例えば、フレーム間の動きベクトル(MV)及び残差(residual)のスカラー変動量である総合変動量を表す関数d=f(MV,residual,...)を事前に定義しておき、関数dにより総合変動量を算出する。変動量算出部132は、符号化ブロックごとに総合変動量を算出する。
 フレームスキップ判定部133は、算出した総合変動量に基づいて、入力映像のフレームのスキップの要否を判定する。例えば、総合変動量が閾値より小さい場合、フレームスキップ要と判定し、総合変動量が閾値より大きい場合、フレームスキップ不要と判定する。例えば、フレームレート制御部140からエンコーダ150aに最後に入力したフレームからの累積値Σdが閾値を超えた場合にフレームスキップ不要と判定してもよい。フレームスキップ判定部133は、符号化ブロックごとにフレームスキップ要否を判定する。
 フレームレート制御部140は、フレームスキップ判定部133の判定結果に基づいて、入力映像のフレームのスキップを制御する。フレームレート制御部140は、入力映像のフレームのうち、フレームスキップ要と判定されたフレームをスキップ、すなわち、入力映像からフレームを間引いてもよく、1つ前のフレームの内容を複製してもよい。フレームレート制御部140は、フレームスキップ要と判定されたフレームをエンコーダ150aへ入力せず、フレームスキップ不要と判定されたフレームをエンコーダ150aへ入力する。符号化ブロックごとにフレームのスキップ要否を判定した場合、フレームスキップ不要と判定された符号化ブロックについて、内容を変更せず、フレームスキップ要と判定された符号化ブロックについて、前のフレームから内容をコピーしたフレームをエンコーダ150aに入力する。
 このように、動きベクトル及び残差の変動量に応じてフレームや各領域の内容のスキップを制御することで、物体の動きに応じてフレームをスキップできるため、さらにエンコードデータのデータ量を低減することができる。
 なお、本開示は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。
 上述の実施形態における各構成は、ハードウェア又はソフトウェア、もしくはその両方によって構成され、1つのハードウェア又はソフトウェアから構成してもよいし、複数のハードウェア又はソフトウェアから構成してもよい。各装置及び各機能(処理)を、図27に示すような、CPU(Central Processing Unit)等のプロセッサ31及び記憶装置であるメモリ32を有するコンピュータ30により実現してもよい。例えば、メモリ32に実施形態における方法(映像処理方法)を行うためのプログラムを格納し、各機能を、メモリ32に格納されたプログラムをプロセッサ31で実行することにより実現してもよい。
 これらのプログラムは、コンピュータに読み込まれた場合に、実施形態で説明された1又はそれ以上の機能をコンピュータに行わせるための命令群(又はソフトウェアコード)を含む。プログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、コンピュータ可読媒体又は実体のある記憶媒体は、random-access memory(RAM)、read-only memory(ROM)、フラッシュメモリ、solid-state drive(SSD)又はその他のメモリ技術、CD-ROM、digital versatile disc(DVD)、Blu-ray(登録商標)ディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含む。プログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含む。
 以上、実施の形態を参照して本開示を説明したが、本開示は上記実施の形態に限定されるものではない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解し得る様々な変更をすることができる。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
 センサによって撮像された第1映像に含まれる物体の動作を認識する動作認識手段と、
 前記動作の認識結果に応じて、前記センサによって撮像された第2映像のフレームごとの表示内容の変化を、前記第2映像内の領域ごとに制御する制御手段と、
 を備える、映像処理システム。
(付記2)
 前記制御手段は、前記第2映像に含まれる第1フレームの所定の領域に、前記第1フレームよりも前のフレームの前記所定の領域の内容を複製することで、前記第2映像のフレームの表示内容の変化を制御する、
 付記1に記載の映像処理システム。
(付記3)
 前記動作の認識結果は、前記物体の動作の種別を含む、
 付記1または2に記載の映像処理システム。
(付記4)
 前記動作の認識結果は、前記物体の位置情報を含み、
 前記制御手段は、前記物体の位置情報に対応する領域を含む領域、または、前記物体の位置情報に対応する領域を含む領域以外の領域の表示内容の変化を制御する、
 付記1から3のいずれか一項に記載の映像処理システム。
(付記5)
 前記第2映像から前記第2映像のフレームの前記領域各々に関する移動の大きさを示す動きベクトルを検出する動きベクトル検出手段を備え、
 前記制御手段は、前記検出された動きベクトルに応じて、前記第2映像内の領域ごとに表示内容の変化を制御する、
 付記1から4のいずれか一項に記載の映像処理システム。
(付記6)
 前記表示内容の変化が制御された第2映像をエンコードする第1のエンコーダと、
 前記動きベクトル検出手段を含む第2のエンコーダと、を備える、
 付記5に記載の映像処理システム。
(付記7)
 前記第2のエンコーダは、前記動きベクトルを適用して第2フレームの次に入力されるフレームの動きを予測した予測フレームと前記第2フレームの次に入力されたフレームとの差分を算出し、
 前記制御手段は、前記動きベクトル及び前記差分に基づいて、前記第2映像内の領域ごとに表示内容の変化を制御する、
 付記6に記載の映像処理システム。
(付記8)
 センサによって撮像された第1映像に含まれる物体の動作を認識する動作認識手段と、
 前記動作の認識結果に応じて、前記センサによって撮像された第2映像のフレームごとの表示内容の変化を、前記第2映像内の領域ごとに制御する制御手段と、
 を備える、映像処理装置。
(付記9)
 前記制御手段は、前記第2映像に含まれる第1フレームの所定の領域に、前記第1フレームよりも前のフレームの前記所定の領域の内容を複製することで、前記第2映像のフレームの表示内容の変化を制御する、
 付記8に記載の映像処理装置。
(付記10)
 前記動作の認識結果は、前記物体の動作の種別を含む、
 付記8または9に記載の映像処理装置。
(付記11)
 前記動作の認識結果は、前記物体の位置情報を含み、
 前記制御手段は、前記物体の位置情報に対応する領域を含む領域、または、前記物体の位置情報に対応する領域を含む領域以外の領域の実質フレームレートを制御する、
 付記8から10のいずれか一項に記載の映像処理装置。
(付記12)
 前記第2映像から前記第2映像のフレームの前記領域各々に関する移動の大きさを示す動きベクトルを検出する動きベクトル検出手段を備え、
 前記制御手段は、前記検出された動きベクトルに応じて、前記第2映像内の領域ごとに表示内容の変化を制御する、
 付記8から11のいずれか一項に記載の映像処理装置。
(付記13)
 前記表示内容の変化が制御された第2映像をエンコードする第1のエンコーダと、
 前記動きベクトル検出手段を含む第2のエンコーダと、を備える、
 付記12に記載の映像処理装置。
(付記14)
 前記第2のエンコーダは、前記動きベクトルを適用して第2フレームの次に入力されるフレームの動きを予測した予測フレームと前記第2フレームの次に入力されたフレームとの差分を算出し、
 前記制御手段は、前記動きベクトル及び前記差分に基づいて、前記第2映像内の領域ごとに表示内容の変化を制御する、
 付記13に記載の映像処理装置。
(付記15)
 センサによって撮像された第1映像に含まれる物体の動作を認識し、
 前記動作の認識結果に応じて、前記センサによって撮像された第2映像のフレームごとの表示内容の変化を、前記第2映像内の領域ごとに制御する、
 映像処理方法。
(付記16)
 前記第2映像に含まれる第1フレームの所定の領域に、前記第1フレームよりも前のフレームの前記所定の領域の内容を複製することで、前記第2映像のフレームの表示内容の変化を制御する、
 付記15に記載の映像処理方法。
(付記17)
 前記動作の認識結果は、前記物体の動作の種別を含む、
 付記15または16に記載の映像処理方法。
(付記18)
 前記動作の認識結果は、前記物体の位置情報を含み、
 前記物体の位置情報に対応する領域を含む領域、または、前記物体の位置情報に対応する領域を含む領域以外の領域の表示内容の変化を制御する、
 付記15から17のいずれか一項に記載の映像処理方法。
(付記19)
 前記第2映像から前記第2映像のフレームの前記領域各々に関する移動の大きさを示す動きベクトルを検出し、
 前記検出された動きベクトルに応じて、前記第2映像内の領域ごとに表示内容の変化を制御する、
 付記15から18のいずれか一項に記載の映像処理方法。
(付記20)
 前記動きベクトルを適用して第2フレームの次に入力されるフレームの動きを予測した予測フレームと前記第2フレームの次に入力されたフレームとの差分を算出し、
 前記動きベクトル及び前記差分に基づいて、前記第2映像内の領域ごとに表示内容の変化を制御する、
 付記19に記載の映像処理方法。
(付記21)
 センサによって撮像された第1映像に含まれる物体の動作を認識し、
 前記動作の認識結果に応じて、前記センサによって撮像された第2映像のフレームごとの表示内容の変化を、前記第2映像内の領域ごとに制御する、
 処理をコンピュータに実行させるための映像処理プログラム。
1   遠隔監視システム
10  映像処理システム
11  動作認識部
12  制御部
20~22 映像処理装置
30  コンピュータ
31  プロセッサ
32  メモリ
100 端末
101 カメラ
102 圧縮効率最適化機能
110 映像取得部
111 物体検出部
120 認識結果取得部
121 トラッキング情報取得部
122 フレームレート取得部
130 フレームレート決定部
131 動きベクトル及び残差取得部
132 変動量算出部
133 フレームスキップ判定部
140 フレームレート制御部
150、150a、150b エンコーダ
151 分割部
152 動きベクトル検出部
153 残差算出部
154 符号化部
160 端末通信部
170 記憶部
171 フレームレート探索部
200 センターサーバ
201 映像認識機能
202 アラート生成機能
203 GUI描画機能
204 画面表示機能
210 センター通信部
220 デコーダ
230 動作認識部
231 物体検出部
232 追跡部
233 動作予測器
234 動作判定部
240 認識結果通知部
241 トラッキング情報通知部
242 フレームレート通知部
300 基地局
400 MEC
401 圧縮ビットレート制御機能

Claims (20)

  1.  センサによって撮像された第1映像に含まれる物体の動作を認識する動作認識手段と、
     前記動作の認識結果に応じて、前記センサによって撮像された第2映像のフレームごとの表示内容の変化を、前記第2映像内の領域ごとに制御する制御手段と、
     を備える、映像処理システム。
  2.  前記制御手段は、前記第2映像に含まれる第1フレームの所定の領域に、前記第1フレームよりも前のフレームの前記所定の領域の内容を複製することで、前記第2映像のフレームの表示内容の変化を制御する、
     請求項1に記載の映像処理システム。
  3.  前記動作の認識結果は、前記物体の動作の種別を含む、
     請求項1または2に記載の映像処理システム。
  4.  前記動作の認識結果は、前記物体の位置情報を含み、
     前記制御手段は、前記物体の位置情報に対応する領域を含む領域、または、前記物体の位置情報に対応する領域を含む領域以外の領域の表示内容の変化を制御する、
     請求項1から3のいずれか一項に記載の映像処理システム。
  5.  前記第2映像から前記第2映像のフレームの前記領域各々に関する移動の大きさを示す動きベクトルを検出する動きベクトル検出手段を備え、
     前記制御手段は、前記検出された動きベクトルに応じて、前記第2映像内の領域ごとに表示内容の変化を制御する、
     請求項1から4のいずれか一項に記載の映像処理システム。
  6.  前記表示内容の変化が制御された第2映像をエンコードする第1のエンコーダと、
     前記動きベクトル検出手段を含む第2のエンコーダと、を備える、
     請求項5に記載の映像処理システム。
  7.  前記第2のエンコーダは、前記動きベクトルを適用して第2フレームの次に入力されるフレームの動きを予測した予測フレームと前記第2フレームの次に入力されたフレームとの差分を算出し、
     前記制御手段は、前記動きベクトル及び前記差分に基づいて、前記第2映像内の領域ごとに表示内容の変化を制御する、
     請求項6に記載の映像処理システム。
  8.  センサによって撮像された第1映像に含まれる物体の動作を認識する動作認識手段と、
     前記動作の認識結果に応じて、前記センサによって撮像された第2映像のフレームごとの表示内容の変化を、前記第2映像内の領域ごとに制御する制御手段と、
     を備える、映像処理装置。
  9.  前記制御手段は、前記第2映像に含まれる第1フレームの所定の領域に、前記第1フレームよりも前のフレームの前記所定の領域の内容を複製することで、前記第2映像のフレームの表示内容の変化を制御する、
     請求項8に記載の映像処理装置。
  10.  前記動作の認識結果は、前記物体の動作の種別を含む、
     請求項8または9に記載の映像処理装置。
  11.  前記動作の認識結果は、前記物体の位置情報を含み、
     前記制御手段は、前記物体の位置情報に対応する領域を含む領域、または、前記物体の位置情報に対応する領域を含む領域以外の領域の表示内容の変化を制御する、
     請求項8から10のいずれか一項に記載の映像処理装置。
  12.  前記第2映像から前記第2映像のフレームの前記領域各々に関する移動の大きさを示す動きベクトルを検出する動きベクトル検出手段を備え、
     前記制御手段は、前記検出された動きベクトルに応じて、前記第2映像内の領域ごとに表示内容の変化を制御する、
     請求項8から11のいずれか一項に記載の映像処理装置。
  13.  前記表示内容の変化が制御された第2映像をエンコードする第1のエンコーダと、
     前記動きベクトル検出手段を含む第2のエンコーダと、を備える、
     請求項12に記載の映像処理装置。
  14.  前記第2のエンコーダは、前記動きベクトルを適用して第2フレームの次に入力されるフレームの動きを予測した予測フレームと前記第2フレームの次に入力されたフレームとの差分を算出し、
     前記制御手段は、前記動きベクトル及び前記差分に基づいて、前記第2映像内の領域ごとに表示内容の変化を制御する、
     請求項13に記載の映像処理装置。
  15.  センサによって撮像された第1映像に含まれる物体の動作を認識し、
     前記動作の認識結果に応じて、前記センサによって撮像された第2映像のフレームごとの表示内容の変化を、前記第2映像内の領域ごとに制御する、
     映像処理方法。
  16.  前記第2映像に含まれる第1フレームの所定の領域に、前記第1フレームよりも前のフレームの前記所定の領域の内容を複製することで、前記第2映像のフレームの表示内容の変化を制御する、
     請求項15に記載の映像処理方法。
  17.  前記動作の認識結果は、前記物体の動作の種別を含む、
     請求項15または16に記載の映像処理方法。
  18.  前記物体の認識結果は、前記物体の位置情報を含み、
     前記物体の位置情報に対応する領域を含む領域、または、前記物体の位置情報に対応する領域を含む領域以外の領域の表示内容の変化を制御する、
     請求項15から17のいずれか一項に記載の映像処理方法。
  19.  前記第2映像から前記第2映像のフレームの前記領域各々に関する移動の大きさを示す動きベクトルを検出し、
     前記検出された動きベクトルに応じて、前記第2映像内の領域ごとに表示内容の変化を制御する、
     請求項15から18のいずれか一項に記載の映像処理方法。
  20.  前記動きベクトルを適用して第2フレームの次に入力されるフレームの動きを予測した予測フレームと前記第2フレームの次に入力されたフレームとの差分を算出し、
     前記動きベクトル及び前記差分に基づいて、前記第2映像内の領域ごとに表示内容の変化を制御する、
     請求項19に記載の映像処理方法。
PCT/JP2022/032760 2022-08-31 2022-08-31 映像処理システム、映像処理装置及び映像処理方法 WO2024047790A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/032760 WO2024047790A1 (ja) 2022-08-31 2022-08-31 映像処理システム、映像処理装置及び映像処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/032760 WO2024047790A1 (ja) 2022-08-31 2022-08-31 映像処理システム、映像処理装置及び映像処理方法

Publications (1)

Publication Number Publication Date
WO2024047790A1 true WO2024047790A1 (ja) 2024-03-07

Family

ID=90098965

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/032760 WO2024047790A1 (ja) 2022-08-31 2022-08-31 映像処理システム、映像処理装置及び映像処理方法

Country Status (1)

Country Link
WO (1) WO2024047790A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006203395A (ja) * 2005-01-19 2006-08-03 Konica Minolta Holdings Inc 動体認識カメラおよび動体監視システム
JP2008219484A (ja) * 2007-03-05 2008-09-18 Victor Co Of Japan Ltd 監視用カメラ、表示制御装置、および監視システム
JP2013003339A (ja) * 2011-06-16 2013-01-07 Canon Inc 画像表示システム及びその制御方法
JP2013070187A (ja) * 2011-09-21 2013-04-18 Panasonic Corp 画像送信装置及びそれを用いた画像伝送システム
JP2015133561A (ja) * 2014-01-10 2015-07-23 株式会社日立製作所 計算機システム
JP2020092394A (ja) * 2018-12-07 2020-06-11 キヤノン株式会社 画像処理装置、画像処理方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006203395A (ja) * 2005-01-19 2006-08-03 Konica Minolta Holdings Inc 動体認識カメラおよび動体監視システム
JP2008219484A (ja) * 2007-03-05 2008-09-18 Victor Co Of Japan Ltd 監視用カメラ、表示制御装置、および監視システム
JP2013003339A (ja) * 2011-06-16 2013-01-07 Canon Inc 画像表示システム及びその制御方法
JP2013070187A (ja) * 2011-09-21 2013-04-18 Panasonic Corp 画像送信装置及びそれを用いた画像伝送システム
JP2015133561A (ja) * 2014-01-10 2015-07-23 株式会社日立製作所 計算機システム
JP2020092394A (ja) * 2018-12-07 2020-06-11 キヤノン株式会社 画像処理装置、画像処理方法

Similar Documents

Publication Publication Date Title
US11134263B2 (en) Moving picture decoding method and moving picture encoding method
US8064522B2 (en) Motion-vector detecting device, motion-vector detecting method, and computer program
CN101366279A (zh) 自适应的运动搜索范围
JP4786585B2 (ja) 多視点映像符号化装置
CN111026115A (zh) 一种基于深度学习的机器人避障控制方法及装置
JP2014236312A (ja) 設定装置および設定方法
WO2021070215A1 (ja) 映像分析方法、映像分析システム及び情報処理装置
WO2024047790A1 (ja) 映像処理システム、映像処理装置及び映像処理方法
WO2024042705A1 (ja) 映像処理システム、映像処理方法、及び映像処理装置
CN107682694B (zh) 图像编解码方法、装置及系统
JP7078295B2 (ja) 変状検出装置、変状検出方法、及びプログラム
WO2021070228A1 (en) Visual object tracking method, visual object tracking system, machine learning method, and learning system
WO2024047748A1 (ja) 映像処理システム、映像処理方法、及び映像処理装置
WO2024038517A1 (ja) 映像処理システム、映像処理方法、及び画質制御装置
WO2024047791A1 (ja) 映像処理システム、映像処理方法、及び映像処理装置
WO2024047747A1 (ja) 映像処理システム、映像処理方法、及び映像処理装置
WO2024047794A1 (ja) 映像処理システム、映像処理装置及び映像処理方法
JP4622265B2 (ja) 動きベクトル検出装置、および動きベクトル検出方法、並びにプログラム
CN110519597B (zh) 一种基于hevc的编码方法、装置、计算设备和介质
WO2024013933A1 (ja) 映像処理システム、映像処理装置及び映像処理方法
WO2024047793A1 (ja) 映像処理システム、映像処理装置及び映像処理方法
CN110780780B (zh) 图像处理方法及装置
JP2023546513A (ja) データ符号化方法、装置、及びコンピュータプログラム
JP4373423B2 (ja) 映像符号化方法,映像符号化装置,映像符号化プログラムおよびその記録媒体
CN111695404A (zh) 行人跌倒检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22957389

Country of ref document: EP

Kind code of ref document: A1