WO2024013936A1 - 映像処理システム、映像処理装置及び映像処理方法 - Google Patents

映像処理システム、映像処理装置及び映像処理方法 Download PDF

Info

Publication number
WO2024013936A1
WO2024013936A1 PCT/JP2022/027713 JP2022027713W WO2024013936A1 WO 2024013936 A1 WO2024013936 A1 WO 2024013936A1 JP 2022027713 W JP2022027713 W JP 2022027713W WO 2024013936 A1 WO2024013936 A1 WO 2024013936A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
recognition
recognition model
input data
switching
Prior art date
Application number
PCT/JP2022/027713
Other languages
English (en)
French (fr)
Inventor
浩一 二瓶
孝法 岩井
フロリアン バイエ
勝彦 高橋
康敬 馬場崎
隆平 安藤
君 朴
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2022/027713 priority Critical patent/WO2024013936A1/ja
Publication of WO2024013936A1 publication Critical patent/WO2024013936A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • the present disclosure relates to a video processing system, a video processing device, and a video processing method.
  • a recognition model is also called an analysis model or a recognition engine.
  • Patent Documents 1 and 2 are known as related technologies.
  • Patent Document 1 describes a technique in which a first recognition engine and a second recognition engine each recognize a context based on an input video.
  • Patent Document 1 also describes that a plurality of recognition engines of different types may be automatically selected at predetermined time intervals.
  • Patent Document 2 describes a technique for selecting a recognition engine for input data using a learning model learned by associating input data with recognition engine identifiers.
  • the present disclosure aims to provide a video processing system, a video processing device, and a video processing method that can suitably recognize events in a video.
  • a video processing system includes a first video analysis model that analyzes a video corresponding to a first video recognition environment, and a second video analysis model that analyzes a video corresponding to a second video recognition environment.
  • a video analysis model for analyzing the video input data is changed from the first video analysis model in accordance with a change in the input video input data from the first video recognition environment to the second video recognition environment.
  • switching means for switching to the second video analysis model the switching means switching according to a change in the video input data from the first video recognition environment to the second video recognition environment.
  • Video input data including data for a predetermined period before the timing is input to the second video analysis model.
  • a video processing device includes a first video analysis model that analyzes a video corresponding to a first video recognition environment, and a second video analysis model that analyzes a video corresponding to a second video recognition environment.
  • a video analysis model for analyzing the video input data is changed from the first video analysis model in accordance with a change in the input video input data from the first video recognition environment to the second video recognition environment.
  • switching means for switching to the second video analysis model the switching means switching according to a change in the video input data from the first video recognition environment to the second video recognition environment.
  • Video input data including data for a predetermined period before the timing is input to the second video analysis model.
  • the video processing method includes a video analysis model that analyzes the video input data according to a change in the input video input data from a first video recognition environment to a second video recognition environment. Switching from a first video analysis model that analyzes videos corresponding to the first video recognition environment to a second video analysis model that analyzes videos that correspond to the second video recognition environment, In response to a change from the first video recognition environment to the second video recognition environment, video input data including data from a predetermined period before the switching timing is input to the second video analysis model. be.
  • FIG. 1 is a configuration diagram showing an overview of a video processing system according to an embodiment.
  • FIG. 1 is a configuration diagram showing an overview of a video processing device according to an embodiment.
  • FIG. 1 is a configuration diagram showing an overview of a video processing device according to an embodiment.
  • 1 is a flowchart showing an overview of a video processing method according to an embodiment.
  • FIG. 3 is a diagram for explaining a related video processing method.
  • FIG. 2 is a diagram for explaining a video processing method according to an embodiment.
  • FIG. 1 is a configuration diagram showing the basic configuration of a remote monitoring system according to an embodiment.
  • 1 is a configuration diagram showing a configuration example of a remote monitoring system according to Embodiment 1.
  • FIG. 3 is a diagram showing a specific example of a bit rate-recognition model table according to the first embodiment.
  • FIG. 3 is a diagram showing a specific example of a recognition model-frame number table according to the first embodiment;
  • FIG. 3 is a flowchart illustrating an example of the operation of the remote monitoring system according to the first embodiment.
  • FIG. 2 is a configuration diagram showing a configuration example of a remote monitoring system according to a second embodiment.
  • FIG. 7 is a configuration diagram showing a configuration example of a remote monitoring system according to a third embodiment. 7 is a diagram showing a specific example of a frame rate-recognition model table according to Embodiment 3.
  • FIG. FIG. 7 is a configuration diagram showing an example configuration of a remote monitoring system according to a fourth embodiment.
  • FIG. 7 is a diagram for explaining an example of the operation of the remote monitoring system according to Embodiment 4; 12 is a diagram showing a specific example of a packet loss-recognition model table according to Embodiment 5.
  • FIG. FIG. 7 is a configuration diagram showing a configuration example of a remote monitoring system according to a sixth embodiment. 12 is a diagram showing a specific example of a scene-recognition model table according to the sixth embodiment.
  • FIG. FIG. 7 is a configuration diagram showing a configuration example of a remote monitoring system according to Embodiment 7; 12 is a diagram showing a specific example of an object size-recognition model table according to Embodiment 7.
  • FIG. 12 is a configuration diagram showing a configuration example of a remote monitoring system according to an eighth embodiment.
  • FIG. 12 is a diagram showing a specific example of a motion speed-recognition model table according to the eighth embodiment.
  • 12 is a configuration diagram showing an example configuration of a remote monitoring system according to a ninth embodiment.
  • FIG. 11 is a diagram showing a specific example of a photographing state-recognition model table according to the ninth embodiment.
  • FIG. 10 is a configuration diagram showing an example configuration of a remote monitoring system according to a tenth embodiment.
  • FIG. 10 is a diagram showing a specific example of a calculation amount-recognition model table according to the tenth embodiment.
  • FIG. 12 is a configuration diagram showing a configuration example of a remote monitoring system according to an eleventh embodiment.
  • 11 is a diagram showing a specific example of a transmission band-recognition model table according to Embodiment 11.
  • FIG. FIG. 1 is a configuration diagram showing an overview of the hardware of a computer according to an embodiment.
  • FIG. 1 shows a schematic configuration of a video processing system 10 according to an embodiment.
  • the video processing system 10 is applicable to, for example, a remote monitoring system that collects video via a network and analyzes the video.
  • the video processing system 10 includes recognition models M1 and M2 and a switching unit 11.
  • the recognition model M1 is a first video analysis model that analyzes a video corresponding to a first video recognition environment.
  • the recognition model M2 is a second video analysis model that analyzes a video corresponding to the second video recognition environment.
  • the recognition models M1 and M2 recognize, for example, human faces, vehicles, equipment, etc., according to input images. Furthermore, for example, the recognition models M1 and M2 may recognize human behavior, vehicle driving conditions, object states, and the like. Note that the recognition targets recognized by the recognition models M1 and M2 are not limited to these examples.
  • the video processing system 10 is not limited to two recognition models, and may include three or more recognition models.
  • a recognition model M1 is generated by learning video learning data corresponding to a first video recognition environment
  • a recognition model M2 is generated by learning video learning data corresponding to a second video recognition environment.
  • a recognition model that has already been created may be acquired and evaluated.
  • the recognition accuracy of multiple created recognition models is evaluated using videos corresponding to the first video recognition environment, and the recognition model with the highest accuracy is determined as the recognition model M1 to be used in the first video recognition environment.
  • the recognition accuracy of multiple created recognition models is evaluated using videos corresponding to the second video recognition environment, and the recognition model with the highest accuracy is selected as the recognition model M2 to be used in the second video recognition environment. You may decide.
  • the video recognition environment is the environment of the video that the recognition model analyzes and recognizes, and may indicate the quality of the video, or may indicate the environment including objects that appear in the video. Note that analysis and recognition may be performed as long as either analysis or recognition is performed.
  • the video recognition environment includes, for example, video parameters such as bit rate and frame rate that indicate the quality of the video, the communication quality of the video received via the network, the scene where the video was shot, the size of objects included in the video, It may also include the motion speed of an object included in the video, the shooting state in which the video was shot, and the like. Examples of the scene include the progress of a process at a construction site, the content of work performed by workers, and the work location.
  • the switching unit 11 switches the recognition model for analyzing the video input data, that is, the video analysis model, in accordance with the change in the input video input data from the first video recognition environment to the second video recognition environment.
  • the video input data is video data that is analyzed and recognized by the recognition model M1 or M2, and includes, for example, recognition targets such as human faces, vehicles, and instruments.
  • the recognition models M1 and M2 may perform analysis and recognition processing.
  • the switching unit 11 converts video input data including data from a predetermined period of time before the switching timing into a switching destination recognition environment according to a change in video input data from a first video recognition environment to a second video recognition environment. Input to model M2.
  • the switching unit 11 inputs data from a predetermined period before the switching timing to the switching timing to the recognition model M2, and further inputs data after the switching timing to the recognition model M2. Note that the same applies when switching from the recognition model M2 to the recognition model M1.
  • the switching unit 11 converts video input data including data on the number of frames used by the switching destination recognition model M2 to perform video recognition as video input data including data for a predetermined period before the switching timing. It may also be input into the recognition model M2. Further, the switching unit 11 may input video input data including data of a predetermined period before the switching timing to both the switching source recognition model M1 and the switching destination recognition model M2. That is, the switching unit 11 may input data from a predetermined period before the switching timing to the switching timing to the recognition models M1 and M2.
  • FIG. 2 illustrates the configuration of the video processing device 20 according to the embodiment.
  • the video processing device 20 may include the recognition models M1 and M2 and the switching unit 11 shown in FIG.
  • part or all of the video processing system 10 may be placed at the edge or in the cloud.
  • the recognition models M1 and M2 and the switching unit 11 may be placed in a cloud server.
  • each function may be distributed and arranged in the cloud.
  • FIG. 3 exemplifies a configuration in which the functions of the video processing system 10 are arranged in a plurality of video processing devices.
  • the video processing device 21 includes the switching unit 11
  • the video processing device 22 includes recognition models M1 and M2. Note that the configuration in FIG. 3 is an example, and the configuration is not limited to this.
  • the recognition models M1 and M2 may be placed at the same location or at different locations.
  • the recognition model M1 may be placed on one of the edge and the cloud, and the recognition model M2 may be placed on the other of the edge and the cloud.
  • FIG. 4 shows a video processing method according to an embodiment.
  • the video processing method according to the embodiment is executed by the video processing system 10 in FIG. 1 or the video processing devices 20 to 22 in FIG. 2 or 3.
  • a recognition model that analyzes the video input data that is, video analysis
  • the model is switched from the recognition model M1 that analyzes the video corresponding to the first video recognition environment to the recognition model M2 that analyzes the video corresponding to the second video recognition environment (S12).
  • the video input data including data from a predetermined period before the switching timing is changed to the recognition model M2.
  • Input S13).
  • FIG. 5 illustrates an operation when selecting and switching between the recognition models M1 and M2 in FIG. 1 in a related video processing method.
  • the recognition models M1 and M2 are models that learn and analyze videos with different bit rates or compression rates.
  • the video to be shot and analyzed includes frames F1 to F8 arranged in chronological order, and the recognition model M1 is switched to the recognition model M2 at the timing of frame F8.
  • a compressed and restored video is input to the recognition model, but the configuration is not limited to this as long as a video that can be analyzed and recognized can be input to each recognition model.
  • a video processing system that executes the video processing method shown in FIG. 5 includes, in addition to the configuration shown in FIG. It may also have a section.
  • a video processing system that executes the video processing method of FIG. 5 may not include a compression section and a decompression section.
  • a photographing unit photographs a video (S901)
  • a compression unit compresses the photographed video (S902).
  • the compressed video is transmitted from the compression unit to the decompression unit, and the decompression unit restores the received compressed video to the original video (S903).
  • the switching unit selects the recognition model M1 and inputs frames F1 to F7 to the recognition model M1 before switching (S904).
  • the recognition model M1 before switching performs video recognition using the input frames F1 to F7.
  • the switching unit switches the recognition model from M1 to M2, and inputs frames after frame F8 to the switched recognition model M2 (S905).
  • the switched recognition model M2 performs video recognition using the input frame F8 and subsequent frames.
  • the recognition model is a video recognition engine that uses machine learning, and is, for example, a learning model that has learned the movements of a person to be recognized based on time-series video data during learning.
  • the recognition model extracts the characteristics of temporal changes in each frame of video data and learns the movements of the person. For this reason, even during recognition, it is assumed that time-series video data is input to the recognition model, and the number of frames of video that can extract the temporal change characteristics of each frame of video data is Even during recognition, it is necessary to input it to the recognition model.
  • recognition model M2 when switching from recognition model M1 to recognition model M2, input is made to recognition model M2 after switching from frame F8 after switching, so recognition model M2 contains video data from frame F8 onwards. Only input is possible. Then, since past data before frame F8 is not input to the recognition model M2, the recognition model M2 cannot analyze time-series data immediately after switching, that is, at the moment of switching. For this reason, immediately after switching, there is a possibility that the recognition accuracy of the switching destination recognition model M2, that is, the analysis accuracy may decrease, or it may not be possible to obtain a recognition result. The recognition model M2 cannot be correctly analyzed using past data, and there is a possibility that the recognition target in the video may be erroneously recognized, and the recognition result may not be output.
  • FIG. 6 illustrates an example of an operation when switching recognition models at the same timing as FIG. 5 in the video processing method according to the embodiment.
  • the recognition models M1 and M2 are models that learn and analyze videos with different bit rates or compression rates.
  • a compressed and decompressed video is input to the recognition model, but the configuration is not limited to this as long as a video that can be analyzed and recognized can be input to each recognition model.
  • a video processing system that executes the video processing method shown in FIG. 6 includes, in addition to the configuration shown in FIG. It may also have a section.
  • a video processing system that executes the video processing method shown in FIG. 6 may not include a compression section and a decompression section.
  • the switching unit selects the recognition model M1 and inputs frames F1 to F7 to the recognition model M1 before switching (S104).
  • the recognition model M1 before switching performs video recognition using the input frames F1 to F7.
  • the switching unit inputs frames F5 to F7 before the switching timing to the pre-switching recognition model M1 and the post-switching recognition model M2 (S105).
  • the switching unit switches the recognition model from M1 to M2, and inputs frames after frame F8 to the switched recognition model M2 (S106).
  • the post-switching recognition model M2 performs video recognition using frames after frame F5 that are input before the switching timing.
  • a frame slightly before model switching is input to both recognition models before and after switching.
  • the recognition model after switching can perform image recognition using past data immediately after switching, and therefore it is possible to prevent a decrease in recognition accuracy or interruption of analysis.
  • the data input to both recognition models only needs to be a few frames, so compared to related technologies, the amount of processing processed by the two recognition models remains almost the same, and the decline in recognition accuracy is suppressed. be able to. That is, if data is continuously input to both recognition models, the amount of processing increases, but by inputting only a predetermined number of frames before the switching timing to both recognition models, the increase in the amount of processing can be suppressed.
  • FIG. 7 illustrates the basic configuration of the remote monitoring system 1.
  • the remote monitoring system 1 is a system that monitors an area where images are taken by a camera.
  • the system will be described as a system for remotely monitoring the work of workers at the site.
  • the site may be an area where people and machines operate, such as a work site such as a construction site, a public square where people gather, or a school.
  • the work will be described as construction work, civil engineering work, etc., but is not limited thereto.
  • the remote monitoring system can be said to be a video processing system that processes videos, and also an image processing system that processes images.
  • the remote monitoring system 1 includes a plurality of terminals 100, a center server 200, a base station 300, and an MEC 400.
  • the terminal 100, base station 300, and MEC 400 are placed on the field side, and the center server 200 is placed on the center side.
  • the center server 200 is located in a data center or the like that is located away from the site.
  • the field side is also called the edge side of the system, and the center side is also called the cloud side.
  • Terminal 100 and base station 300 are communicably connected via network NW1.
  • the network NW1 is, for example, a wireless network such as 4G, local 5G/5G, LTE (Long Term Evolution), or wireless LAN.
  • the network NW1 is not limited to a wireless network, but may be a wired network.
  • Base station 300 and center server 200 are communicably connected via network NW2.
  • the network NW2 includes, for example, core networks such as 5GC (5th Generation Core network) and EPC (Evolved Packet Core), the Internet, and the like.
  • 5GC Fifth Generation Core network
  • EPC Evolved Packet Core
  • the network NW2 is not limited to a wired network, but may be a wireless network.
  • the terminal 100 and the center server 200 are communicably connected via the base station 300.
  • the base station 300 and MEC 400 are communicably connected by any communication method, the base station 300 and MEC 400 may be one device.
  • the terminal 100 is a terminal device connected to the network NW1, and is also a video acquisition device that acquires on-site video.
  • the terminal 100 acquires an image captured by a camera 101 installed at the site, and transmits the acquired image to the center server 200 via the base station 300.
  • the camera 101 may be placed outside the terminal 100 or inside the terminal 100.
  • the terminal 100 compresses the video from the camera 101 to a predetermined bit rate and transmits the compressed video.
  • the terminal 100 has a compression efficiency optimization function 102 that optimizes compression efficiency.
  • the compression efficiency optimization function 102 performs RoI control that controls the image quality of RoI (Region of Interest; also referred to as a region of interest).
  • the compression efficiency optimization function 102 reduces the bit rate by lowering the image quality of the region around the ROI while maintaining the image quality of the ROI including the person or object.
  • the base station 300 is a base station device of the network NW1, and is also a relay device that relays communication between the terminal 100 and the center server 200.
  • the base station 300 is a local 5G base station, a 5G gNB (next Generation Node B), an LTE eNB (evolved Node B), a wireless LAN access point, or the like, but may also be another relay device.
  • MEC 400 is an edge processing device placed on the edge side of the system.
  • the MEC 400 is an edge server that controls the terminal 100, and has a compression bit rate control function 401 that controls the bit rate of the terminal.
  • the compression bit rate control function 401 controls the bit rate of the terminal 100 through adaptive video distribution control and QoE (quality of experience) control.
  • Adaptive video distribution control controls the bit rate, etc. of video to be distributed according to network conditions.
  • the compression bit rate control function 401 predicts the recognition accuracy that will be obtained while suppressing the bit rate according to the communication environment of the networks NW1 and NW2, and sets the bit rate to the camera 101 of each terminal 100 so as to improve the recognition accuracy. Assign.
  • the center server 200 is a server installed on the center side of the system.
  • the center server 200 may be one or more physical servers, or may be a cloud server built on the cloud or other virtualized servers.
  • the center server 200 is a monitoring device that monitors on-site work by analyzing on-site camera images.
  • the center server 200 is also a video analysis device that analyzes video transmitted from the terminal 100.
  • the center server 200 has a video recognition function 201, an alert generation function 202, a GUI drawing function 203, and a screen display function 204.
  • the video recognition function 201 inputs the video transmitted from the terminal 100 into a video recognition AI (Artificial Intelligence) engine to recognize the type of work performed by the worker, that is, the type of behavior of the person.
  • the video recognition function 201 may include multiple recognition models, ie, video analysis models, that analyze videos corresponding to different video recognition environments.
  • the center server 200 may include a switching unit that switches the recognition model according to changes in the video recognition environment.
  • the alert generation function 202 generates an alert in response to the recognized work.
  • the GUI drawing function 203 displays a GUI (Graphical User Interface) on the screen of a display device.
  • GUI Graphic User Interface
  • the screen display function 204 displays images of the terminal 100, recognition results, alerts, etc. on the GUI. Note that, if necessary, any of the functions may be omitted or any of the functions may be included.
  • the center server 200 does not need to include the alert generation function 202, the GUI drawing function 203, and the screen display function 204.
  • Embodiment 1 Next, Embodiment 1 will be described. In this embodiment, an example will be described in which the recognition model is switched in response to a change in the video bit rate as a change in the video recognition environment.
  • FIG. 8 shows a configuration example of the remote monitoring system 1 according to this embodiment.
  • the configuration of each device is an example, and other configurations may be used as long as the operation according to the present embodiment described later is possible.
  • some functions of the terminal 100 may be placed in the center server 200 or other devices, or some functions of the center server 200 may be placed in the terminal 100 or other devices.
  • the functions of the MEC 400 including the compression bit rate control function may be placed in the center server 200 or the like.
  • the terminal 100 includes a video acquisition section 110, an encoder 120, and a terminal communication section 130.
  • the video acquisition unit 110 acquires the video captured by the camera 101.
  • the video captured by the camera is also referred to as input video hereinafter.
  • the input video includes a person who is a worker working at a site.
  • the video acquisition unit 110 is also an image acquisition unit that acquires a plurality of time-series images, that is, frames.
  • Encoder 120 encodes the acquired input video.
  • the encoder 120 is an encoding unit that encodes input video.
  • the encoder 120 is also a compression unit that compresses input video using a predetermined encoding method.
  • the encoder 120 is, for example, an H. 264 and H.
  • the image is encoded using a video encoding method such as H.265.
  • the encoder 120 may detect an ROI that includes a person, and encode the input video so that the detected ROI has higher image quality than other regions.
  • An ROI identification unit may be provided between the video acquisition unit 110 and the encoder 120.
  • the ROI identification unit detects an object within the acquired video and identifies an area such as an ROI.
  • the encoder 120 may encode the input video so that the ROI specified by the ROI identification unit has higher image quality than other regions.
  • the input image may be encoded so that the region specified by the ROI specifying section has lower image quality than other regions.
  • the ROI identifying unit or encoder 120 stores information that corresponds to objects that may appear in the video and their priorities, and identifies areas such as the ROI according to the corresponding information of the priorities. may be specified.
  • the encoder 120 encodes the input video at a predetermined bit rate.
  • the encoder 120 may encode the input video to the bit rate, frame rate, etc. assigned by the compression bit rate control function 401 of the MEC 400.
  • the encoder 120 may determine the bit rate, frame rate, etc. based on the communication quality between the terminal 100 and the center server 200.
  • Communication quality is, for example, communication speed, but may also be other indicators such as transmission delay or error rate.
  • Terminal 100 may include a communication quality measurement unit that measures communication quality. For example, the communication quality measuring unit determines the bit rate of video transmitted from the terminal 100 to the center server 200 according to the communication speed.
  • the communication speed may be measured based on the amount of data received by the base station 300 or the center server 200, and the communication quality measurement unit may acquire the measured communication speed from the base station 300 or the center server 200. Further, the communication quality measurement unit may estimate the communication speed based on the amount of data transmitted from the terminal communication unit 130 per unit time.
  • the terminal communication unit 130 transmits the encoded data (compressed data) encoded by the encoder 120 to the center server 200 via the base station 300.
  • the terminal communication unit 130 is a transmitting unit that transmits the acquired input video via the network.
  • the terminal communication unit 130 is an interface that can communicate with the base station 300, and is, for example, a wireless interface such as 4G, local 5G/5G, LTE, or wireless LAN, but may also be a wireless or wired interface of any other communication method. good.
  • the center server 200 includes recognition models M11 and M12, a center communication section 210, a decoder 220, a prediction section 230, a determination section 240, a switching section 250, and a storage section 260. We are prepared.
  • the recognition models M11 and M12 execute video recognition processing on the input video.
  • video recognition processing is performed on the received video received from the terminal and decoded.
  • the video recognition process is, for example, an action recognition process that recognizes the behavior of a person in the video, but other recognition processes may be used.
  • the recognition models M11 and M12 detect objects from the received video, recognize the actions of the detected objects, and output the results of the action recognition.
  • the recognition models M11 and M12 are video recognition engines that use machine learning such as deep learning. By machine learning the characteristics and behavior labels of the video of the person performing the task, it is possible to recognize the behavior of the person in the video.
  • the recognition models M11 and M12 are learning models that can learn and predict based on time-series video data, and may be CNN (Convolutional Neural Network), RNN (Recurrent Neural Network), or other neural networks. good.
  • the recognition model M11 and the recognition model M12 are models that are trained using videos from different video recognition environments as learning data, and are learning models for analyzing videos from different video recognition environments.
  • the recognition model M11 has learned the video of the first video recognition environment
  • the recognition model M12 has learned the video of the second video recognition environment.
  • the recognition models M11 and M12 can each accurately analyze videos of the video recognition environment that they have learned. Therefore, if the video recognition environment of the received video is a video of the first video recognition environment, the received video is analyzed by the recognition model M11, and if the video recognition environment of the received video is video of the second video recognition environment, the received video is analyzed using the recognition model M11. By analyzing the video using the recognition model M11, the video can be analyzed with high accuracy.
  • the video recognition environment is, for example, video parameters related to video quality, such as bit rate and frame rate. It is not limited to bit rate or frame rate, but may also be compression rate, image resolution, etc. In this embodiment, an example of a bit rate will be described.
  • the recognition model M11 has learned videos in a first bit rate range
  • the recognition model M12 has learned videos in a second bit rate range. Note that the range is not limited to the first bit rate range and the second bit rate range, but may be the first bit rate and the second bit rate.
  • the first bit rate range is a higher bit rate range than the second bit rate range
  • the recognition model M11 is a model for high bit rates
  • the recognition model M12 is a model for low bit rates. However, it is not limited to this. Note that the first bit rate range and the second bit rate range may partially overlap.
  • the center communication unit 210 receives encoded data transmitted from the terminal 100 via the base station 300.
  • the center communication unit 210 is a receiving unit that receives the input video acquired by the terminal 100 via the network.
  • the center communication unit 210 is an interface capable of communicating with the Internet or a core network, and is, for example, a wired interface for IP communication, but may be a wired or wireless interface of any other communication method.
  • the decoder 220 decodes encoded data received from the terminal 100. Decoder 220 is a decoding unit that decodes encoded data. The decoder 220 is also a restoring unit that restores encoded data, that is, compressed data, using a predetermined encoding method. The decoder 220 corresponds to the encoding method of the terminal 100, for example, H. 264 and H. The video is decoded using a video encoding method such as H.265. The decoder 220 decodes each area according to the compression rate and bit rate, and generates a decoded video. The decoded video is hereinafter also referred to as received video.
  • the prediction unit 230 predicts changes in the video recognition environment in the decoded received video.
  • the prediction unit 230 extracts information regarding the video recognition environment from the received video, and predicts changes in the video recognition environment by monitoring the extracted information. For example, the prediction unit 230 predicts a change in the bit rate extracted from the received video.
  • the determining unit 240 determines a recognition model for analyzing the received video according to the video recognition environment of the received video, and determines the switching timing of the recognition model according to the predicted change in the video recognition environment. For example, the determining unit 240 determines a recognition model for analyzing the received video according to a bit rate extracted from the received video. Further, the determining unit 240 determines a switching destination recognition model and switching timing based on the bit rate change predicted by the predicting unit 230. Further, the determining unit 240 determines a pre-input timing at which video data is input in advance to a switching destination recognition model at the time of switching, based on the switching timing of the recognition model. The pre-input timing is a timing at which input of video data to a switching destination recognition model is started a predetermined period before the switching timing.
  • the pre-input timing may be determined based on the number of pre-input frames input to the recognition model in advance.
  • the number of pre-input frames is the number of frames used by the switching destination recognition model to perform video recognition.
  • the number of pre-input frames is also the number of frames input to both of the two recognition models at the time of switching.
  • the number of pre-input frames varies depending on the recognition model to which switching is made, and is therefore set in advance for each recognition model. For example, the number of pre-input frames may be changed depending on the required recognition accuracy. Further, a predetermined period corresponding to the number of pre-input frames may be associated with each recognition model.
  • the switching unit 250 switches between recognition models M11 and M12 that analyze the decoded received video.
  • the switching unit 250 selects a recognition model based on the recognition model determined by the determining unit 240, and inputs the received video to the selected recognition model.
  • the switching unit 250 switches the recognition model to which the received video is input based on the determined switching destination recognition model and switching timing.
  • the switching unit 250 inputs the video to the switching destination recognition model before the switching timing based on the determined pre-input timing.
  • the switching unit 250 inputs video to both the recognition model before switching and the recognition model after switching from the preliminary input timing to the switching timing.
  • the storage unit 260 stores data necessary for processing by the center server 200.
  • the storage unit 260 stores a video recognition environment-recognition model table that associates video recognition environments and recognition models.
  • FIG. 9 shows a specific example of a bit rate range-recognition model table that associates a bit rate range with a recognition model, as an example of a video recognition environment-recognition model table.
  • the bit rate range-recognition model table allows you to select a recognition model for analyzing video according to the video bit rate.
  • the bit rate range R1 is associated with the recognition model M11
  • the bit rate range R2 is associated with the recognition model M12.
  • the bit rate ranges R1 and R2 correspond to the bit rate range of the video that each recognition model has learned.
  • the bit rate range R1 is a high bit rate range that is higher than the bit rate range R2; R2 is a low bit rate range that is lower than bit rate range R1.
  • the storage unit 260 stores a recognition model-number-of-frames table that associates the recognition model with the number of pre-input frames.
  • FIG. 10 shows a specific example of the recognition model-frame number table.
  • the recognition model-frame number table the number of pre-input frames can be determined according to the recognition model to which switching is to be made.
  • the recognition model M11 is associated with the number N1 of frames
  • the recognition model M12 is associated with the number N2 of frames.
  • the pre-input time which is a predetermined period corresponding to the number of frames to be input in advance, is not limited to the number of frames, and is associated with the recognition model, and the pre-input timing is determined from the pre-input time corresponding to the recognition model to which the switch is made. You can.
  • FIG. 11 shows an example of the operation of the remote monitoring system 1 according to this embodiment.
  • the terminal 100 executes S111 to S113 and the center server 200 executes S114 to S122
  • the present invention is not limited to this, and any device may execute each process.
  • Some functions of the center server 200 may be placed in other devices, and the other devices may execute those functions.
  • the terminal 100 and the MEC 400 may include a prediction section 230, a determination section 240, a switching section 250, and a storage section 260.
  • the terminal 100 and MEC 400 predict changes in the video recognition environment based on changes in the acquired video and communication quality, determine the recognition model and switching timing by referring to information in the storage unit, and issue instructions for switching timing to the center.
  • the server 200 may also be notified.
  • the terminal 100 and the MEC 400 may include the prediction section 230, the determination section 240, the switching section 250, and the storage section 260.
  • the terminal 100 acquires an image from the camera 101 (S111).
  • the camera 101 generates a video of the scene
  • the video acquisition unit 110 acquires the video output from the camera 101 (input video).
  • the image of the input video includes people performing work at the site, objects used in the work, and the like.
  • the terminal 100 encodes the acquired input video (S112).
  • the encoder 120 encodes the input video using a predetermined video encoding method.
  • the encoder 120 may encode the input video at a bit rate assigned by the compression bit rate control function 401 of the MEC 400, or may encode the input video at a bit rate according to the communication quality between the terminal 100 and the center server 200. You can also encode it with
  • the terminal 100 transmits the encoded data to the center server 200 (S113), and the center server 200 receives the encoded data (S114).
  • the terminal communication unit 130 transmits encoded data obtained by encoding the input video to the base station 300.
  • the base station 300 transfers the received encoded data to the center server 200 via the core network or the Internet.
  • Center communication unit 210 receives the transferred encoded data from base station 300.
  • the center server 200 decodes the received encoded data (S115).
  • the decoder 220 decodes the encoded data according to the compression rate and bit rate of each area, and generates a decoded video, that is, a received video.
  • the center server 200 predicts a change in the bit rate of the received video (S116).
  • the prediction unit 230 monitors the bit rate of a received image, as an example of an image recognition environment, and predicts a change in the bit rate. For example, the prediction unit 230 measures the amount of data per unit time in the encoded data received by the center communication unit 210, and obtains the bit rate.
  • a packet including encoded data and a bit rate may be transmitted from the terminal 100, and the prediction unit 230 may obtain the bit rate from the received packet.
  • the prediction unit 230 extracts trends in bit rate transitions based on regularly acquired past bit rate history, and predicts subsequent changes in bit rates.
  • the center server 200 determines the switching timing (S117).
  • the determining unit 240 determines a switching destination recognition model and switching timing according to the predicted change in bit rate.
  • the determining unit 240 refers to the bit rate range-recognition model table in the storage unit 260 and determines a recognition model corresponding to the predicted bit rate.
  • the bit rate range-recognition model table in FIG. 9 if the bit rate of the received video is predicted to change from bit rate range R1 to bit rate range R2, it is decided to switch the recognition model from M11 to M12. , the timing at which the bit rate changes from the bit rate range R1 to the bit rate range R2 is determined as the switching timing.
  • the predicted bit rate changes from close to the center of the bit rate range R1 to close to the center of the bit rate range R2.
  • the timing at which the state changes is defined as the switching timing.
  • the center server 200 determines the pre-input timing (S118). Based on the determined switching timing of the recognition model, the determining unit 240 determines a pre-input timing at which video data is input in advance to the switching destination recognition model at the time of switching.
  • the determining unit 240 refers to the recognition model-number-of-frames table in the storage unit 260 and determines the number of pre-input frames corresponding to the switching destination recognition model. In the example of the recognition model-frame number table in FIG. 10, when the switching destination recognition model is M12, the pre-input frame number is determined to be N2. Further, the pre-input time corresponding to the number of pre-input frames N2 is calculated based on the frame rate, and the pre-input time is subtracted from the switching timing to determine the pre-input timing.
  • the center server 200 switches the input of the received video to the recognition model (S119).
  • the switching unit 250 selects a recognition model according to the determined pre-input timing and switching timing, and inputs the decoded received video to the selected recognition model (S120 to S122).
  • the switching unit 250 inputs the received video to the recognition model before switching (S120). For example, the switching unit 250 inputs the received video (frame) only to the recognition model M11 before switching.
  • the recognition model M11 performs video recognition using the input received video.
  • the switching unit 250 inputs the received video to the recognition models before and after switching (S121). For example, the switching unit 250 inputs frames of the received video to both the recognition model M11 before switching and the recognition model M12 after switching.
  • the recognition model M11 performs video recognition using the received video input from S120, and outputs the recognition result.
  • the recognition model M12 starts the video recognition process using the received video input from S121, or makes the video recognition process possible.
  • the switching unit 250 inputs the received video to the switched recognition model (S122). For example, the switching unit 250 inputs frames of the received video only to the switched recognition model M12.
  • the recognition model M12 performs video recognition using the received video input from S121, and outputs the recognition result. Note that the same operation occurs when switching from recognition model M12 to M11.
  • the original recognition model may be returned to. In other words, there is no need to switch to the destination recognition model. If you started inputting footage into both recognition models in anticipation of a drop in bitrate, but the situation changes and you predict that the bitrate will not change (or if it drops, it will quickly recover). , the switching may be interrupted and the original recognition model returned. Note that the process flow shown in FIG. 11 is an example, and the order of each process is not limited to this. The order of some of the processes may be changed, or some of the processes may be executed in parallel.
  • S116 to S118 may be executed between S111 and S112. Further, S116 to S118 may be executed in parallel to S111 to S115 before the input switching.
  • a change in the bit rate of a video is predicted in the remote monitoring system, and a recognition model for analyzing the video is switched according to the predicted change in the bit rate.
  • a frame slightly before the switch is input to the recognition models both before and after the switch.
  • FIG. 12 shows a configuration example of the remote monitoring system 1 according to this embodiment.
  • center server 200 includes a buffer 270 in addition to the configuration of Embodiment 1.
  • the other configurations are the same as in the first embodiment.
  • configurations that are different from Embodiment 1 will be mainly described.
  • the buffer 270 buffers the received video decoded by the decoder 220.
  • the buffer 270 holds the number of frames that each recognition model requires for video recognition.
  • the required number of pre-input frames may be held for each recognition model, or the largest number of pre-input frames required by each recognition model may be held.
  • the switching unit 250 acquires the frames held in the buffer 270 and inputs the received video including the acquired frames to the switched recognition model.
  • the switching unit 250 acquires the number of pre-input frames necessary for the switched recognition model from the buffer 270, and inputs the received video including the acquired frames to the switched recognition model.
  • the buffer sizes of the plurality of buffers may be set in accordance with the number of pre-input frames of each recognition model, and frames corresponding to the number of pre-input frames may be obtained from the buffer corresponding to the recognition model.
  • a video including frames held in the buffer 270 at the time of switching may be input to the recognition model after switching. In this case, it is not necessary to input the video from the pre-input timing as in the first embodiment.
  • the remote monitoring system of Embodiment 1 may further include a buffer, and the frames held in the buffer may be input to the switching destination recognition model.
  • the frames held in the buffer may be input to the switching destination recognition model.
  • Embodiment 3 Next, Embodiment 3 will be described. In this embodiment, an example will be described in which the recognition model is switched in accordance with a change in the frame rate of a video.
  • FIG. 13 shows a configuration example of the remote monitoring system 1 according to this embodiment.
  • center server 200 includes a frame identification unit 280 in addition to the configuration of Embodiment 1.
  • the other configurations are the same as in the first embodiment. Note that this embodiment may be applied to the second embodiment.
  • configurations that are different from Embodiment 1 will be mainly described.
  • recognition models M11 and M12 are recognition models that have been trained on videos with different frame rates.
  • the recognition model M11 has learned the video of the first frame rate
  • the recognition model M12 has learned the video of the second frame rate.
  • the first frame rate is a higher frame rate than the second frame rate
  • the recognition model M11 is a model for high frame rates
  • the recognition model M12 is a model for low frame rates.
  • the frame rate is not limited to the first frame rate and the second frame rate, but may be the first frame rate range and the second frame rate range.
  • the recognition model may learn and analyze videos that combine a predetermined bit rate and a predetermined frame rate. Multiple recognition models may learn and analyze video with different bit rate and frame rate combinations. In this case, a recognition model is selected and switched depending on the bit rate and frame rate of the video.
  • the storage unit 260 stores a frame rate-recognition model table that associates a frame rate with a recognition model, as an example of a video recognition environment-recognition model table.
  • FIG. 14 shows a specific example of the frame rate-recognition model table.
  • frame rate FR1 and recognition model M11 are associated
  • frame rate FR2 and recognition model M12 are associated.
  • Frame rates FR1 and FR2 correspond to the frame rate of the video that each recognition model has learned.
  • frame rate FR1 is a high frame rate higher than frame rate FR2
  • frame rate FR2 is higher than frame rate FR1. It has a low frame rate that is lower than .
  • the prediction unit 230 monitors the frame rate of the received video and predicts a change in the frame rate. For example, the prediction unit 230 obtains the frame rate included in the header of encoded data. In addition to the encoded data header, a packet including encoded data and a frame rate may be transmitted from the terminal 100 to the center communication unit 210, and the prediction unit 230 may acquire the frame rate from the received packet. The prediction unit 230 extracts trends in frame rate transitions based on regularly acquired past frame rate histories, and predicts subsequent changes in frame rates. Note that when the terminal 100 includes the prediction unit 230, changes in the frame rate may be predicted based on instructions from the MEC 400 or the frame rate determined based on measurements by the communication quality measurement unit of the terminal 100. good.
  • the determining unit 240 determines the switching destination recognition model and switching timing according to the predicted change in frame rate.
  • the determining unit 240 refers to the frame rate-recognition model table in the storage unit 260 and determines a recognition model corresponding to the predicted frame rate.
  • the frame rate-recognition model table in FIG. 14 when it is predicted that the frame rate will change from FR1 to FR2, it is decided to switch the recognition model from M11 to M12, and the timing at which the frame rate changes from FR1 to FR2 is determined. is determined as the switching timing.
  • the predicted frame rate is compared with FR1 and FR2, and the timing at which the predicted frame rate changes from a state close to FR1 to a state close to FR2 is set as the switching timing.
  • frame rates FR1 and FR2 include a range of frame rates, they may be compared with the center of the range or with any value within the range.
  • the determining unit 240 determines the prior input timing based on the number of prior input frames corresponding to the switching destination recognition model and the learned frame rate of the switching destination recognition model.
  • the frame specifying unit 280 specifies the frame interval of the video input to the recognition model, that is, the frame rate, according to the recognition model selected by the switching unit 250.
  • the frame identifying unit 280 identifies the frame interval by adjusting the frame interval, for example.
  • the frame specifying unit 280 performs frame thinning or frame interpolation when the frame rates of the input video differ between the recognition models before and after switching. Frame interpolation is the insertion of frames between video frames. Note that the frame interval may be specified before the pre-input timing, from the pre-input timing to the switching timing, or after the switching timing.
  • the frame specifying unit 280 refers to the frame rate-recognition model table in the storage unit 260 and determines the frame rate based on the difference between the frame rate of the input video and the learned frame rate or frame rate range of the selected recognition model. , adjust the frame interval of the input video, and input the adjusted video to the recognition model. If the frame rate of the video is lower than the frame rate learned by the recognition model, frame interpolation is performed in accordance with the frame rate learned by the recognition model.
  • the method of frame interpolation is not limited. For example, the same frame as the frame before or after the frame insertion may be inserted, or a frame estimated according to a change in the image in a past frame may be inserted.
  • the terminal 100 and the MEC 400 may include the frame identification unit 280.
  • the recognition model M11 is a recognition model that has been trained on videos with a frame rate of 10 fps
  • the recognition model M12 is a recognition model that has been trained on videos with a frame rate of 30 fps.
  • the frame specifying unit 280 performs frame interpolation on the input video, and inputs the video with frame interpolation at 30 fps to recognition model M12. do.
  • the frame specifying unit 280 thins out frames from the input video and inputs the video thinned out to 10 fps to the recognition model M11.
  • changes in the frame rate of the video may be predicted, and the recognition model for analyzing the video may be switched in accordance with the predicted change in the frame rate.
  • the recognition model for analyzing the video may be switched in accordance with the predicted change in the frame rate.
  • Embodiment 4 Next, Embodiment 4 will be described.
  • the recognition model is switched in response to a change in communication quality for receiving video as a change in the video recognition environment.
  • FIG. 15 shows a configuration example of the remote monitoring system 1 according to this embodiment.
  • center server 200 includes a communication quality measuring section 290 in addition to the configuration of Embodiment 1.
  • the other configurations are the same as in the first embodiment.
  • this embodiment may be applied to other embodiments.
  • the recognition model M11 learns the video of the first bit rate
  • the recognition model M12 learns the video of the second bit rate.
  • the present invention is not limited to this, and the recognition models M11 and M12 may learn videos with different frame rates, as in the third embodiment. Further, the recognition models M11 and M12 may learn videos corresponding to different communication qualities.
  • configurations that are different from Embodiment 1 will be mainly explained.
  • the communication quality measuring unit 290 measures the communication quality between the terminal 100 and the center server 200.
  • the communication quality is the communication quality of the reception path through which the center server 200 receives video from the terminal 100.
  • Communication quality is, for example, communication speed, but may also be other indicators such as transmission delay or error rate.
  • the communication speed is measured based on the amount of data per unit time that the center communication unit 210 receives.
  • base station 300, terminal 100, or MEC 400 may include a communication quality measuring section, and the communication quality measured or estimated by the communication quality measuring section of base station 300, terminal 100, or MEC 400 may be acquired.
  • the prediction unit 230 predicts changes in communication quality as changes in the video recognition environment.
  • the prediction unit 230 periodically acquires the communication quality measured by the communication quality measurement unit 290, extracts trends in communication quality transition based on the acquired history of past communication quality, and predicts subsequent changes in communication quality. Predict.
  • FIG. 16 shows an example of prediction of communication speed. As shown in FIG. 16, future changes in communication speed are predicted from the history of past communication speeds.
  • the determining unit 240 determines the switching destination recognition model and switching timing according to the predicted change in communication quality.
  • the recognition models M11 and M12 are learning video for each bit rate
  • the recognition model to switch to and the switching timing are determined based on the bit rate corresponding to the communication quality.
  • the determining unit 240 estimates the bit rate of the received video from the predicted communication speed. Since the terminal 100 on the sending side determines the bit rate according to the communication quality and performs encoding, the center server 200 on the receiving side also determines the bit rate according to the communication quality in the same way as the terminal 100. Estimate the encoded bitrate. For example, by associating the communication speed with the estimated bit rate, the bit rate can be estimated from the communication speed.
  • the determining unit 240 determines the recognition model to be switched to and the switching timing in accordance with the change in the estimated bit rate, as in the first embodiment.
  • the switching timing is determined to be ts at which the bit rate changes below a predetermined value depending on the communication speed. Further, as in the first embodiment, the prior input timing ti is determined based on the switching timing. Note that when the recognition models M11 and M12 have learned videos for each communication quality, the recognition model corresponding to the predicted communication quality is set as the switching destination recognition model.
  • changes in the communication quality for receiving video may be predicted, and the recognition model for analyzing the video may be switched in accordance with the predicted change in communication quality.
  • Embodiment 5 Next, Embodiment 5 will be described.
  • a recognition model is switched according to a packet loss of a packet for receiving a video as communication quality included in a video recognition environment.
  • the configuration of the remote monitoring system 1 according to this embodiment is the same as that in FIG. 15 of the fourth embodiment.
  • configurations that are different from Embodiment 4 will be mainly explained.
  • the recognition models M11 and M12 are recognition models that have been trained on videos with different packet loss occurrence situations as examples of communication quality.
  • the recognition model M11 learns videos without packet loss
  • the recognition model M12 learns videos with packet loss.
  • Packet loss is when all or some of the packets that transmit video frame data cannot be received normally on the receiving side and are lost. It may be the loss of packets for each frame or the loss of packets for a predetermined period.
  • the recognition model M11 may learn the video with the first packet loss rate
  • the recognition model M12 may learn the video with the second packet loss rate.
  • the first packet loss rate may be lower than the second packet loss rate.
  • the storage unit 260 stores, as an example of the video recognition environment-recognition model table, a packet loss-recognition model table that associates packet loss occurrence situations with recognition models.
  • FIG. 17 shows a specific example of the packet loss recognition model table.
  • recognition model M11 is associated with no packet loss
  • recognition model M12 is associated with packet loss.
  • a range of packet loss rates may be associated.
  • the communication quality measurement unit 290 measures the occurrence of packet loss, that is, the presence or absence of packet loss, as communication quality.
  • the center communication unit 210 monitors packets received and measures whether or not packets are missing in each frame.
  • the prediction unit 230 predicts the occurrence of packet loss.
  • the prediction unit 230 periodically acquires the packet loss occurrence status measured by the communication quality measurement unit 290, extracts packet loss trends based on the acquired past packet loss occurrence history, and predicts subsequent packet loss. Predict the occurrence of
  • the determining unit 240 determines the switching destination recognition model and switching timing according to the predicted packet loss occurrence situation.
  • the determining unit 240 refers to the packet loss recognition model table in the storage unit 260 and determines a recognition model corresponding to the predicted packet loss occurrence situation.
  • the packet loss-recognition model table in FIG. 17 when it is predicted that there will be a change from no packet loss to with packet loss, it is decided to switch the recognition model from M11 to M12, and the change will occur from no packet loss to with packet loss. The timing of the change is determined as the switching timing.
  • the recognition system predicts changes in the packet loss occurrence status of packets that receive video, and analyzes the video according to the predicted changes in the packet loss occurrence status.
  • You can also switch models. Thereby, it is possible to appropriately select a recognition model according to changes in the packet loss occurrence situation, and to improve the recognition accuracy of the switching destination recognition model, as in the fourth embodiment.
  • Embodiment 6 Next, Embodiment 6 will be described. In this embodiment, an example will be described in which the recognition model is switched in response to a change in the scene in which the video was shot, as a change in the video recognition environment.
  • FIG. 18 shows a configuration example of the remote monitoring system 1 according to this embodiment.
  • center server 200 includes a scene analysis section 291 in addition to the configuration of Embodiment 1.
  • the other configurations are the same as in the first embodiment. Note that this embodiment may be applied to other embodiments.
  • configurations that are different from Embodiment 1 will be mainly explained.
  • the recognition models M11 and M12 are recognition models that have been trained on videos of different scenes.
  • the scene is the progress of the process at the construction site, the work content of the workers, the work location, etc.
  • the recognition model M11 has learned the video of the first work process
  • the recognition model M12 has learned the video with the second work process.
  • the storage unit 260 stores a scene-recognition model table in which scenes and recognition models are associated, as an example of a video recognition environment-recognition model table.
  • FIG. 19 shows a specific example of the scene-recognition model table.
  • work process A and recognition model M11 are associated
  • work process B and recognition model M12 are associated.
  • the scene analysis unit 291 analyzes video scenes. For example, the scene analysis unit 291 analyzes the scene of the video based on the recognition result of the recognition model M11 or M12. When the recognition models M11 and M12 recognize the work content from the video, the work content and the work process may be associated in advance, and the work process may be determined from the recognized work content.
  • the terminal 100 may include the scene analysis section 291. When the terminal 100 includes the scene analysis section 291, the scene of the video may be analyzed based on the video acquired by the video acquisition section 110.
  • the terminal 100 may include an object detection section, and the scene analysis section 291 may analyze the scene based on the object detected by the object detection section and information on the correspondence between the object and the scene.
  • the prediction unit 230 predicts changes in video scenes.
  • the prediction unit 230 periodically acquires the scene analyzed by the scene analysis unit 291, and predicts subsequent changes in the scene based on the acquired history of past scenes. For example, schedule information of a work process is acquired, and based on the schedule information, the completion of the work, the next work content, and the next work process are predicted from the analyzed work content and work process.
  • the schedule information may include the time and work content of each work process.
  • the determining unit 240 determines the recognition model to switch to and the switching timing according to the predicted change in the scene.
  • the determining unit 240 refers to the scene-recognition model table in the storage unit 260 and determines a recognition model corresponding to the predicted scene.
  • the scene-recognition model table in FIG. 19 when it is predicted that work process A will change to work process B, it is decided to switch the recognition model from M11 to M12, and change from work process A to work process B.
  • the timing is determined as the switching timing.
  • Embodiment 7 Next, Embodiment 7 will be described.
  • the recognition model is switched in response to a change in the size of an object included in a video as a change in the video recognition environment.
  • FIG. 20 shows a configuration example of the remote monitoring system 1 according to this embodiment.
  • center server 200 includes an object detection unit 292 in addition to the configuration of Embodiment 1.
  • the other configurations are the same as in the first embodiment. Note that this embodiment may be applied to other embodiments. Here, configurations that are different from Embodiment 1 will be mainly described.
  • the recognition models M11 and M12 are recognition models that have been trained on videos in which objects to be recognized have different sizes.
  • the recognition model M11 has learned the video of the first object size
  • the recognition model M12 has learned the video of the second object size.
  • the first object size is larger than the second object size
  • the recognition model M11 is a model for large objects
  • the recognition model M12 is a model for small objects, but the invention is not limited to this.
  • the size of the object that is, the object size, is the number of pixels in the area where the object is shown in the image. For example, the closer the object is to the camera, the larger the object will be, and the farther away the object is from the camera, the smaller the object will be.
  • the size of the object changes depending on the zoom of the camera.
  • the storage unit 260 stores an object size-recognition model table that associates the size of an object with a recognition model, as an example of a video recognition environment-recognition model table.
  • FIG. 21 shows a specific example of the object size-recognition model table.
  • size A and recognition model M11 are associated, and size B and recognition model M12 are associated.
  • Sizes A and B may include a range of object sizes. Sizes A and B correspond to the object size of the video that each recognition model has learned. For example, size A is larger than size B, and size B is smaller than size A.
  • the object detection unit 292 detects objects in the video. For example, the object detection unit 292 extracts a region containing an object from each image of the video, and detects the object within the extracted region.
  • the type of object to be recognized may be set in advance, and the size of the area of the object to be recognized from among the detected objects may be extracted as the object size.
  • the object detection unit 292 may recognize objects in the image using an object recognition engine using machine learning. Alternatively, the object detection result may be obtained from the recognition model M11 or M12.
  • the prediction unit 230 predicts changes in the size of the object.
  • the prediction unit 230 periodically acquires the size of the object detected by the object detection unit 292, extracts the tendency of the object size transition based on the acquired history of the past object size, and then Predict the change in the size of an object. For example, a target object is tracked between video frames, the sizes of the tracked objects are compared, and changes in size are predicted.
  • the determining unit 240 determines the recognition model to switch to and the switching timing according to the predicted change in the size of the object.
  • the determining unit 240 refers to the object size-recognition model table in the storage unit 260 and determines a recognition model corresponding to the predicted object size.
  • the size of the object is predicted to change from size A to size B, it is decided to switch the recognition model from M11 to M12, and from size A to size B.
  • the timing of the change to is determined as the switching timing.
  • the predicted object size is compared with size A and size B, and the timing at which the predicted object size changes from a state close to size A to a state close to size B is set as the switching timing.
  • size A and size B include a range of sizes, they may be compared with the center of the range or with any value within the range.
  • a change in the size of an object included in a video is predicted, and a recognition model for analyzing the video is switched according to the predicted change in the size of the object. Good too. Thereby, it is possible to appropriately select a recognition model according to a change in the size of an object, and to improve the recognition accuracy of the switching destination recognition model, as in the first embodiment.
  • Embodiment 8 Next, Embodiment 8 will be described.
  • the recognition model is switched in response to a change in the motion speed of an object included in a video as a change in the video recognition environment.
  • FIG. 22 shows a configuration example of the remote monitoring system 1 according to this embodiment.
  • center server 200 includes a speed analysis section 293 in addition to the configuration of Embodiment 1.
  • the other configurations are the same as in the first embodiment. Note that this embodiment may be applied to other embodiments.
  • configurations that are different from Embodiment 1 will be mainly explained.
  • the recognition models M11 and M12 are recognition models that have been trained from videos in which the objects to be recognized have different motion speeds.
  • the recognition model M11 has learned the image of the object at the first motion speed
  • the recognition model M12 has learned the image of the object at the second motion speed.
  • the amount of calculation of the recognition model also differs depending on the motion speed of the object to be recognized. For example, the first motion speed is lower than the second motion speed, the recognition model M11 is a low-computation model that can recognize only slow motions, and the recognition model M12 is a high-speed model that can recognize even high-speed motions.
  • this is a calculation amount model, it is not limited to this.
  • the present invention is not limited to the first operating speed and the second operating speed, but may be the first operating speed range and the second operating speed range.
  • the storage unit 260 stores, as an example of a video recognition environment-recognition model table, a motion speed-recognition model table that associates the motion speed of an object with a recognition model.
  • FIG. 23 shows a specific example of the motion speed-recognition model table.
  • speed A is associated with recognition model M11
  • speed B is associated with recognition model M12.
  • Speeds A and B correspond to the video motion speeds learned by each recognition model; for example, speed A is slower than speed B, and speed B is faster than speed A.
  • the speed analysis unit 293 analyzes the motion speed of an object in the video. For example, the speed analysis unit 293 analyzes the motion speed based on the recognition result of the recognition model M11 or M12.
  • the recognition models M11 and M12 recognize the work content
  • the work content and movement speed may be associated in advance, and the movement speed may be determined from the recognized work content. For example, if a person is recognized as walking or leveling the ground, it is determined to be a slow motion, and if a person is running or throwing something, it is determined to be a high-speed motion.
  • a target object within a video may be detected, the movement of the target object between frames may be extracted, and the speed may be determined from the extracted amount of movement.
  • the terminal 100 may include the speed analysis section 293.
  • the motion speed of the video may be analyzed based on the video acquired by the video acquisition section 110.
  • the terminal 100 may include an object detection section, and the speed analysis section 293 may analyze the motion speed based on the movement of the object detected by the object detection section.
  • the prediction unit 230 predicts changes in the motion speed of the object.
  • the prediction unit 230 periodically acquires the motion speed of the object analyzed by the speed analysis unit 293, extracts the trend of transition of the motion speed of the object based on the acquired history of the motion speed of the object in the past, and then Predict changes in the motion speed of an object.
  • the determining unit 240 determines the recognition model to switch to and the switching timing according to the predicted change in the motion speed of the object.
  • the determining unit 240 refers to the motion speed-recognition model table in the storage unit 260 and determines a recognition model corresponding to the predicted motion speed of the object. In the example of the motion speed-recognition model table in FIG. 23, if the motion speed of the object is predicted to change from speed A to speed B, it is determined to switch the recognition model from M11 to M12, and from speed A to speed B. The timing of the change to is determined as the switching timing.
  • a change in the motion speed of an object included in a video is predicted, and a recognition model for analyzing the video is switched according to the predicted change in the motion speed of the object. Good too.
  • a recognition model it is possible to appropriately select a recognition model according to changes in the object's motion speed and recognize both slow and high-speed motions with the minimum amount of calculation required.
  • the recognition accuracy of the recognition model can be improved.
  • Embodiment 9 Next, Embodiment 9 will be described.
  • an example will be described in which the recognition model is changed in response to a change in the video shooting state as a change in the video recognition environment.
  • FIG. 24 shows a configuration example of the remote monitoring system 1 according to this embodiment.
  • center server 200 includes a state analysis unit 294 in addition to the configuration of Embodiment 1.
  • the other configurations are the same as in the first embodiment. Note that this embodiment may be applied to other embodiments.
  • configurations that are different from Embodiment 1 will be mainly described.
  • the recognition models M11 and M12 are models that have been trained on videos taken in different video shooting conditions.
  • the photographing state includes fixed photography in which a fixed camera photographs from a fixed position, mobile photography in which a moving camera photographs from a moving position, and the like.
  • the recognition model M11 learns images captured by fixed photography
  • the recognition model M12 learns images captured by moving photography.
  • the recognition model M11 is not limited to fixed shooting/moving shooting, and the recognition model M11 learns images shot while moving at a first moving speed, for example, low-speed movement, and the recognition model M12 learns images shot at a second moving speed, for example, high-speed movement. You may also learn videos taken while moving.
  • the storage unit 260 stores, as an example of a video recognition environment-recognition model table, a photographing state-recognition model table that associates a photographing state with a recognition model.
  • FIG. 25 shows a specific example of the photographing state-recognition model table.
  • fixed photography is associated with recognition model M11
  • moving photography is associated with recognition model M12.
  • a range of moving speeds may be associated.
  • the state analysis unit 294 analyzes the shooting state of the video.
  • the state analysis unit 294 may detect a shooting state such as fixed shooting or moving shooting based on the recognition result of the recognition model M11 or M12. For example, if the camera is a vehicle-mounted onboard camera and a traffic light at an intersection is captured in the video, the shooting state may be determined depending on the color of the traffic light in front of the vehicle.
  • the photographing state may be detected according to vehicle control information acquired from the vehicle or user operation information. For example, the imaging state may be determined based on vehicle speed information, engine on/off, and operation of a shift lever, brake pedal, and accelerator pedal.
  • the terminal 100 may include the state analysis section 294.
  • the shooting state of the video may be analyzed based on the video acquired by the video acquisition section 110.
  • the terminal 100 may include an object detection section, and the state analysis section 294 may analyze the shooting state based on the color or movement of the object detected by the object detection section.
  • the prediction unit 230 predicts changes in the video shooting state.
  • the prediction unit 230 periodically acquires the photographing state analyzed by the state analyzing unit 294, and predicts subsequent changes in the photographing state based on the acquired history of past photographing states. For example, when fixed photography/moving photography is detected, changes in fixed photography and moving photography are predicted from the past history. Furthermore, when the color of the traffic light in front is detected, the driving situation of the vehicle may be estimated by predicting that the color of the traffic light will change, and the change between fixed photography and moving photography may be predicted. When the operation information of the vehicle user is detected, the driving situation of the vehicle may be estimated by anticipating the next user's operation, and the change between fixed photography and moving photography may be predicted.
  • the determining unit 240 determines the recognition model to switch to and the switching timing in accordance with the predicted change in the shooting state of the video.
  • the determining unit 240 refers to the photographing state-recognition model table in the storage unit 260 and determines a recognition model corresponding to the predicted photographing state.
  • the photographing state-recognition model table in FIG. 25 when it is predicted that the photographing state will change from fixed photographing to moving photographing, it is decided to switch the recognition model from M11 to M12, and the photographing state will change from fixed photographing to moving photographing.
  • the timing is determined as the switching timing.
  • the recognition model to switch to and the switching timing may be determined by using the timing when the color of the traffic light changes from red to blue as the timing to change from fixed photography to moving photography.
  • the recognition model to switch to and the switching timing may be determined by setting the timing of starting the operation of the accelerator pedal as the timing of changing from fixed photography to moving photography.
  • the remote monitoring system of Embodiment 1 it is possible to predict changes in the video shooting state, such as the start of camera movement, and switch the recognition model for analyzing the video according to the predicted change in the shooting state. good. Thereby, it is possible to appropriately select a recognition model according to changes in the video shooting state, and to improve the recognition accuracy of the switching destination recognition model, as in the first embodiment.
  • Embodiment 10 Next, Embodiment 10 will be described.
  • an example will be described in which two recognition models are placed at different locations and the recognition models are switched in accordance with a change in the amount of video calculation as a change in the video recognition environment.
  • FIG. 26 shows a configuration example of the remote monitoring system 1 according to this embodiment.
  • the basic configuration of this embodiment is the same as that of Embodiment 1, but the arrangement of each part is different. That is, the MEC 400 is equipped with a recognition model M11, and the center server 200 is equipped with a recognition model M12.
  • the terminal 100 also includes a prediction section 230, a determination section 240, a switching section 250, and a storage section 260. Furthermore, the terminal 100 includes a calculation amount analysis section 295. Note that this embodiment may be applied to other embodiments. Here, configurations that are different from Embodiment 1 will be mainly described.
  • the recognition models M11 and M12 are recognition models that have been trained on videos that have different computational capabilities and require different amounts of calculations for video analysis and recognition.
  • the recognition model M11 learns videos that can be analyzed and recognized with a first amount of calculations
  • the recognition model M12 learns videos that can be analyzed and recognized with a second amount of calculations.
  • the first calculation amount is lower than the second calculation amount
  • the recognition model M11 is a low calculation amount model
  • the recognition model M12 is a high calculation amount model, but the present invention is not limited to this.
  • the storage unit 260 stores, as an example of a video recognition environment-recognition model table, a calculation amount-recognition model table that associates the calculation amount of a video that can be analyzed and recognized with a recognition model.
  • FIG. 27 shows a specific example of the calculation amount-recognition model table.
  • the amount of calculation A is associated with the recognition model M11
  • the amount of calculation B is associated with the recognition model M12.
  • the calculation amounts A and B may include a range of calculation amounts.
  • the calculation amounts A and B correspond to the calculation amounts of the video that each recognition model has learned.For example, the calculation amount A is a low calculation amount that is lower than the calculation amount B, and the calculation amount B is the calculation amount A.
  • the amount of computation is higher than that of .
  • the calculation amount analysis unit 295 analyzes the amount of calculation required for video analysis and recognition. For example, the calculation amount analysis unit 295 may associate the object with the calculation amount, detect the object in the video, and determine the calculation amount from the detected object. The object in the video may be detected, the movement of the object between frames may be extracted, and the amount of calculation may be determined from the extracted movement amount. Alternatively, the behavior recognized by the recognition models M11 and M12 may be associated with the amount of calculation, the recognition result may be obtained from the recognition model M11 or M12, and the amount of calculation may be determined from the recognized behavior.
  • the prediction unit 230 predicts changes in the amount of calculation required for video analysis and recognition.
  • the prediction unit 230 periodically acquires the amount of calculations analyzed by the amount of calculations analysis unit 295, and predicts subsequent changes in the amount of calculations based on the acquired history of the amount of calculations in the past.
  • the determining unit 240 determines the recognition model to switch to and the switching timing according to the predicted change in the amount of calculation.
  • the determining unit 240 refers to the calculation amount-recognition model table in the storage unit 260 and determines a recognition model corresponding to the predicted calculation amount. In the example of the calculation amount-recognition model table in FIG. 27, if the calculation amount A is predicted to change to the calculation amount B, it is decided to switch the recognition model from M11 to M12, and the calculation amount A is changed to the calculation amount B. The timing of the change is determined as the switching timing.
  • the switching unit 250 transmits the video to the recognition model determined by the determining unit 240.
  • the recognition model M11 is selected, the video is transmitted to the MEC 400, and when the recognition model M12 is selected, the video is transmitted to the center server 200.
  • the switching unit 250 switches the video transmission destination according to the switching timing. From the pre-input timing to the switching timing, video is transmitted to the recognition model before switching and the recognition model after switching, and after the switching timing, the video is transmitted to the recognition model after switching.
  • recognition models with different calculation amounts may be placed at different locations. For example, by running a low-computation-intensive model in the MEC and a high-computation-intensive model in the center, the computational resources of the MEC and the center can be used efficiently and the number of images that can be analyzed and recognized by the entire system can be increased. be able to.
  • the recognition results based on the MEC recognition model may be used on the terminal side or in the field. Since the MEC is often closer to the site than the center, the MEC can send recognition results to terminals and on-site equipment more quickly. As a result, in this embodiment, by also utilizing the MEC recognition model, the recognition results can be quickly utilized on the terminal side or in the field.
  • Embodiment 11 Next, Embodiment 11 will be described. In this embodiment, an example will be described in which two recognition models are placed at different locations and the recognition models are switched in response to a change in the video transmission band as a change in the video recognition environment.
  • FIG. 28 shows a configuration example of the remote monitoring system 1 according to this embodiment.
  • terminal 100 includes a band acquisition section 296 instead of calculation amount analysis section 295.
  • the other configurations are the same as in the tenth embodiment.
  • the recognition models M11 and M12 may be recognition models with different calculation amounts as in the tenth embodiment, or may be the same recognition model.
  • the storage unit 260 stores, as an example of the video recognition environment-recognition model table, a transmission band-recognition model table that associates the transmission band between the terminal and the center server, that is, the bandwidth and the recognition model.
  • FIG. 29 shows a specific example of the transmission band-recognition model table.
  • transmission band A and recognition model M11 are associated with each other, and transmission band B and recognition model M12 are associated with each other.
  • Transmission band A and transmission band B have different bandwidths. For example, transmission band A is a narrow band narrower than transmission band B, and transmission band B is a higher broadband band wider than transmission band A.
  • the band acquisition unit 296 acquires the transmission band between the terminal 100 and the center server 200.
  • the transmission band may be determined based on the communication speed estimated based on the amount of data transmitted from the terminal communication unit 130.
  • the communication speed measured by the base station 300 or the terminal 100 may be acquired, and the transmission band may be determined from the acquired communication speed.
  • the prediction unit 230 predicts changes in the transmission band.
  • the prediction unit 230 periodically acquires the transmission band acquired by the band acquisition unit 296, extracts the trend of transmission band transition based on the acquired past transmission band history, and predicts subsequent changes in the transmission band. Predict.
  • the determining unit 240 determines the switching destination recognition model and switching timing according to the predicted change in the transmission band.
  • the determining unit 240 refers to the transmission band-recognition model table in the storage unit 260 and determines a recognition model corresponding to the predicted transmission band.
  • the transmission band-recognition model table in FIG. 29 when it is predicted that the transmission band will change from transmission band A to transmission band B, it is decided to switch the recognition model from M11 to M12, and from transmission band A to transmission band B.
  • the timing of the change is determined as the switching timing.
  • two recognition models may be placed at different locations and the recognition models may be switched according to changes in the transmission band. If the network bandwidth between the site and the center is sufficient, the center may execute image recognition of the recognition model, and if it is insufficient, the MEC may execute image recognition of the recognition model. This prevents a drop in analysis accuracy due to analysis of low-quality video at the center. Furthermore, higher quality video can be sent to the recognition model on the MEC or center side, and recognition accuracy can be improved compared to the case where the recognition model exists in one location.
  • Each configuration in the embodiments described above is configured by hardware, software, or both, and may be configured from one piece of hardware or software, or from multiple pieces of hardware or software.
  • Each device and each function (processing) may be realized by a computer 30 having a processor 31 such as a CPU (Central Processing Unit) and a memory 32 as a storage device, as shown in FIG.
  • a program for performing the method (video processing method) in the embodiment may be stored in the memory 32, and each function may be realized by having the processor 31 execute the program stored in the memory 32.
  • These programs include instructions (or software code) that, when loaded into a computer, cause the computer to perform one or more of the functions described in the embodiments.
  • the program may be stored on a non-transitory computer readable medium or a tangible storage medium.
  • computer readable or tangible storage media may include random-access memory (RAM), read-only memory (ROM), flash memory, solid-state drive (SSD) or other memory technology, CD - Including ROM, digital versatile disc (DVD), Blu-ray disc or other optical disc storage, magnetic cassette, magnetic tape, magnetic disc storage or other magnetic storage device.
  • the program may be transmitted on a transitory computer-readable medium or a communication medium.
  • transitory computer-readable or communication media includes electrical, optical, acoustic, or other forms of propagating signals.
  • Additional note 1 a first video analysis model that analyzes a video corresponding to a first video recognition environment; a second video analysis model that analyzes a video corresponding to a second video recognition environment;
  • the video analysis model for analyzing the video input data is changed from the first video analysis model to the video analysis model in accordance with a change in input video input data from the first video recognition environment to the second video recognition environment.
  • a switching means for switching to a second video analysis model changes the video input data including data for a predetermined period before the switching timing from the first video recognition environment to the second video recognition environment in response to a change in the video input data from the first video recognition environment to the second video recognition environment. input into the second video analysis model; Video processing system.
  • the video input data including data before the switching timing is video input data including data on the number of frames used by the second video analysis model to perform video recognition.
  • the video processing system described in Supplementary Note 1. (Additional note 3)
  • the switching means inputs the number of frames of video input data to both the first and second video analysis models.
  • the switching means switches the video analysis model according to the predicted change in the video recognition environment.
  • the video processing system according to any one of Supplementary Notes 1 to 3.
  • the video recognition environment includes video parameters indicating video quality.
  • the video processing system according to any one of Supplementary Notes 1 to 4. (Appendix 6)
  • the video parameters include a frame rate, comprising specifying means for specifying a frame interval of the video input data according to a video analysis model that inputs the video input data;
  • the video recognition environment includes communication quality of the video input data received by the receiving means.
  • the video processing system according to any one of Supplementary Notes 1 to 6.
  • the video recognition environment includes a scene in which the video was shot, a size of an object included in the video, an operating speed of an object included in the video, or a shooting state in which the video was shot.
  • the video processing system according to any one of Supplementary Notes 1 to 7.
  • the first video analysis model is placed at one of the edge and the cloud, the second video analysis model is located at the other of the edge and the cloud;
  • the video processing system according to any one of Supplementary Notes 1 to 8.
  • a switching means for switching to a second video analysis model The switching means changes the video input data including data for a predetermined period before the switching timing from the first video recognition environment to the second video recognition environment in response to a change in the video input data from the first video recognition environment to the second video recognition environment. input into the second video analysis model, Video processing device.
  • the video input data including data for a predetermined period before the switching timing is video input data including data on the number of frames used by the second video analysis model to perform video recognition.
  • the video processing device according to appendix 10. The switching means inputs the number of frames of video input data to both the first and second video analysis models.
  • the video processing device according to appendix 11. (Appendix 13) comprising a prediction means for predicting a change in a video recognition environment in the video input data, The switching means switches the video analysis model according to the predicted change in the video recognition environment.
  • the video recognition environment includes video parameters indicating video quality.
  • the video processing device according to any one of Supplementary Notes 10 to 13.
  • the video parameters include a frame rate, comprising specifying means for specifying a frame interval of the video input data according to a video analysis model that inputs the video input data;
  • the video processing device according to appendix 14.
  • a video analysis model that analyzes the video input data is adapted to correspond to the first video recognition environment in accordance with a change in the input video input data from a first video recognition environment to a second video recognition environment.
  • Video processing method (Appendix 17)
  • the video input data including data for a predetermined period before the switching timing is video input data including data on the number of frames used by the second video analysis model to perform video recognition.
  • the video processing method according to appendix 16. (Appendix 18) inputting the number of frames of video input data to both the first and second video analysis models; The video processing method according to appendix 17.
  • the video recognition environment includes video parameters indicating video quality.
  • the video parameters include a frame rate, identifying a frame interval of the video input data according to a video analysis model that inputs the video input data; The video processing method according to appendix 20.
  • a video analysis model that analyzes the video input data is adapted to correspond to the first video recognition environment in accordance with a change in the input video input data from a first video recognition environment to a second video recognition environment. switching from a first video analysis model that analyzes video to a second video analysis model that analyzes video corresponding to the second video recognition environment; In response to a change in the video input data from the first video recognition environment to the second video recognition environment, the video input data including data from a predetermined period before the switching timing is analyzed by the second video analysis. input to the model, A video processing program that allows a computer to perform processing.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

映像処理システム(10)は、第1の映像認識環境に対応する映像を分析する認識モデル(M1)と、第2の映像認識環境に対応する映像を分析する認識モデル(M2)と、入力される映像入力データでの前記第1の映像認識環境から前記第2の映像認識環境への変化に応じて、映像入力データを分析する認識モデルを認識モデル(M1)から認識モデル(M2)に切り替える切替部(11)と、を備え、切替部(11)は、映像入力データでの第1の映像認識環境から第2の映像認識環境への変化に応じて、切替タイミングよりも所定期間前のデータを含む映像入力データを、認識モデル(M2)に入力する。

Description

映像処理システム、映像処理装置及び映像処理方法
 本開示は、映像処理システム、映像処理装置及び映像処理方法に関する。
 ネットワークを介して取得した映像に基づいて、映像内の事象を認識する技術が開発されている。例えば、映像を分析し映像内の事象を認識する映像認識には機械学習を用いた認識モデルが利用されている。認識モデルは、分析モデルや認識エンジンとも呼称される。
 関連する技術として、例えば、特許文献1や2が知られている。特許文献1には、第1の認識エンジン及び第2の認識エンジンが、入力された映像に基づいて、それぞれコンテキストを認識する技術が記載されている。また、特許文献1には、異なる種類の複数の認識エンジンを所定時間毎に、自動的に選択してよいことも記載されている。
 また、特許文献2には、入力データと認識エンジンの識別子とを対応付けて学習された学習モデルを用いて、入力データに対する認識エンジンを選択する技術が記載されている。
特開2019-096252号公報 特開2019-139479号公報
 上記のように、特許文献1や2のような関連する技術では、認識モデルを選択し、選択した認識モデルにより映像を分析する。しかしながら、関連する技術では、取得する映像の環境によっては、好適に映像内の事象を認識することができない可能性がある。
 本開示は、このような課題に鑑み、好適に映像内の事象を認識することが可能な映像処理システム、映像処理装置及び映像処理方法を提供することを目的とする。
 本開示に係る映像処理システムは、第1の映像認識環境に対応する映像を分析する第1の映像分析モデルと、第2の映像認識環境に対応する映像を分析する第2の映像分析モデルと、入力される映像入力データでの前記第1の映像認識環境から前記第2の映像認識環境への変化に応じて、前記映像入力データを分析する映像分析モデルを前記第1の映像分析モデルから前記第2の映像分析モデルに切り替える切替手段と、を備え、前記切替手段は、前記映像入力データでの前記第1の映像認識環境から前記第2の映像認識環境への変化に応じて、切替タイミングよりも所定期間前のデータを含む映像入力データを、前記第2の映像分析モデルに入力するものである。
 本開示に係る映像処理装置は、第1の映像認識環境に対応する映像を分析する第1の映像分析モデルと、第2の映像認識環境に対応する映像を分析する第2の映像分析モデルと、入力される映像入力データでの前記第1の映像認識環境から前記第2の映像認識環境への変化に応じて、前記映像入力データを分析する映像分析モデルを前記第1の映像分析モデルから前記第2の映像分析モデルに切り替える切替手段と、を備え、前記切替手段は、前記映像入力データでの前記第1の映像認識環境から前記第2の映像認識環境への変化に応じて、切替タイミングよりも所定期間前のデータを含む映像入力データを、前記第2の映像分析モデルに入力するものである。
 本開示に係る映像処理方法は、入力される映像入力データでの第1の映像認識環境から第2の映像認識環境への変化に応じて、前記映像入力データを分析する映像分析モデルを、前記第1の映像認識環境に対応する映像を分析する第1の映像分析モデルから、前記第2の映像認識環境に対応する映像を分析する第2の映像分析モデルに切り替え、前記映像入力データでの前記第1の映像認識環境から前記第2の映像認識環境への変化に応じて、切替タイミングよりも所定期間前のデータを含む映像入力データを、前記第2の映像分析モデルに入力するものである。
 本開示によれば、好適に映像内の事象を認識することが可能な映像処理システム、映像処理装置及び映像処理方法を提供することができる。
実施の形態に係る映像処理システムの概要を示す構成図である。 実施の形態に係る映像処理装置の概要を示す構成図である。 実施の形態に係る映像処理装置の概要を示す構成図である。 実施の形態に係る映像処理方法の概要を示すフローチャートである。 関連する映像処理方法を説明するための図である。 実施の形態に係る映像処理方法を説明するための図である。 実施の形態に係る遠隔監視システムの基本構成を示す構成図である。 実施の形態1に係る遠隔監視システムの構成例を示す構成図である。 実施の形態1に係るビットレート-認識モデルテーブルの具体例を示す図である。 実施の形態1に係る認識モデル-フレーム数テーブルの具体例を示す図である。 実施の形態1に係る遠隔監視システムの動作例を示すフローチャートである。 実施の形態2に係る遠隔監視システムの構成例を示す構成図である。 実施の形態3に係る遠隔監視システムの構成例を示す構成図である。 実施の形態3に係るフレームレート-認識モデルテーブルの具体例を示す図である。 実施の形態4に係る遠隔監視システムの構成例を示す構成図である。 実施の形態4に係る遠隔監視システムの動作例を説明するための図である。 実施の形態5に係るパケットロス-認識モデルテーブルの具体例を示す図である。 実施の形態6に係る遠隔監視システムの構成例を示す構成図である。 実施の形態6に係るシーン-認識モデルテーブルの具体例を示す図である。 実施の形態7に係る遠隔監視システムの構成例を示す構成図である。 実施の形態7に係る物体サイズ-認識モデルテーブルの具体例を示す図である。 実施の形態8に係る遠隔監視システムの構成例を示す構成図である。 実施の形態8に係る動作速度-認識モデルテーブルの具体例を示す図である。 実施の形態9に係る遠隔監視システムの構成例を示す構成図である。 実施の形態9に係る撮影状態-認識モデルテーブルの具体例を示す図である。 実施の形態10に係る遠隔監視システムの構成例を示す構成図である。 実施の形態10に係る演算量-認識モデルテーブルの具体例を示す図である。 実施の形態11に係る遠隔監視システムの構成例を示す構成図である。 実施の形態11に係る伝送帯域-認識モデルテーブルの具体例を示す図である。 実施の形態に係るコンピュータのハードウェアの概要を示す構成図である。
 以下、図面を参照して実施の形態について説明する。各図面においては、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略される。
(実施の形態の概要)
 まず、実施の形態の概要について説明する。図1は、実施の形態に係る映像処理システム10の概要構成を示している。映像処理システム10は、例えば、ネットワークを介して映像を収集し、映像を分析する遠隔監視システムに適用可能である。
 図1に示すように、映像処理システム10は、認識モデルM1及びM2、切替部11を備える。認識モデルM1は、第1の映像認識環境に対応する映像を分析する第1の映像分析モデルである。認識モデルM2は、第2の映像認識環境に対応する映像を分析する第2の映像分析モデルである。認識モデルM1及びM2は、入力される映像に応じて、例えば、人の顔や車両、器具等を認識する。また、例えば、認識モデルM1及びM2は、人の行動や車両の走行状況、物体の状態等を認識してもよい。なお、認識モデルM1及びM2が認識する認識対象は、これらの例に限られない。映像処理システム10は、2つの認識モデルに限らず、3つ以上の複数の認識モデルを備えてもよい。
 例えば、第1の映像認識環境に対応する映像学習データを学習することで認識モデルM1を生成し、第2の映像認識環境に対応する映像学習データを学習することで認識モデルM2を生成してもよい。また、作成済みの認識モデルを取得し評価してもよい。例えば、作成済みの複数の認識モデルについて第1の映像認識環境に対応する映像で認識精度を評価し、最も精度が高かった認識モデルを第1の映像認識環境で使用する認識モデルM1と決定し、同様に、作成済みの複数の認識モデルについて第2の映像認識環境に対応する映像で認識精度を評価し、最も精度が高かった認識モデルを第2の映像認識環境で使用する認識モデルM2と決定してもよい。
 映像認識環境は、認識モデルが分析及び認識する映像の環境であり、映像の品質を示してもよく、映像内に映る物体を含む環境を示してもよい。なお、分析及び認識するとは、分析又は認識のいずれか一方を実行していればよい。また、映像認識環境は、例えば、映像の品質を示すビットレートやフレームレートなどの映像パラメータ、ネットワークを介して受信する映像の通信品質、映像を撮影したシーン、映像に含まれる物体の大きさ、映像に含まれる物体の動作速度、映像を撮影した撮影状態等を含んでもよい。シーンは、例えば、建設現場の工程の進み具合、作業員の作業内容や作業場所などである。
 切替部11は、入力される映像入力データでの第1の映像認識環境から第2の映像認識環境への変化に応じて、映像入力データを分析する認識モデル、すなわち映像分析モデルを切り替える。映像入力データは、認識モデルM1又はM2が分析及び認識処理を行う映像データであり、例えば、人の顔や車両、器具等の認識対象が含まれる。映像入力データが認識モデルM1及びM2へ入力された場合、認識モデルM1及びM2が分析及び認識処理を行ってもよい。切替部11は、映像入力データでの第1の映像認識環境から第2の映像認識環境への変化に応じて、切替タイミングよりも所定期間前のデータを含む映像入力データを、切替先の認識モデルM2に入力する。すなわち、切替部11は、切替タイミングよりも所定期間前から切替タイミングまでのデータを認識モデルM2に入力し、さらに、切替タイミング以降のデータを認識モデルM2に入力する。なお、認識モデルM2から認識モデルM1に切り替える場合も同様である。
 切替部11は、切替先の認識モデルM2が映像認識を行うために使用するフレーム数のデータを含む映像入力データを、切替タイミングよりも所定期間前のデータを含む映像入力データとして、切替先の認識モデルM2に入力してもよい。また、切替部11は、切替タイミングよりも所定期間前のデータを含む映像入力データを切替元の認識モデルM1及び切替先の認識モデルM2の両方に入力してもよい。すなわち、切替部11は、切替タイミングよりも所定期間前から切替タイミングまでのデータを認識モデルM1及びM2に入力してもよい。
 なお、映像処理システム10は、1つの装置により構成してもよいし、複数の装置により構成してもよい。図2は、実施の形態に係る映像処理装置20の構成を例示している。図2に示すように、映像処理装置20は、図1に示した、認識モデルM1及びM2、切替部11を備えてもよい。また、映像処理システム10の一部または全部をエッジまたはクラウドに配置してもよい。例えば、クラウドのサーバに認識モデルM1及びM2、切替部11を配置してもよい。さらに、クラウドに各機能を分散配置してもよい。図3は、映像処理システム10の機能を複数の映像処理装置に配置した構成を例示している。図3の例では、映像処理装置21が切替部11を備え、映像処理装置22が認識モデルM1及びM2を備えている。なお、図3の構成は一例であり、この構成に限られない。
 また、認識モデルM1及びM2は、同じ地点に配置されてもよいし、異なる地点に配置されてもよい。例えば、認識モデルM1を、エッジ及びクラウドの一方に配置し、認識モデルM2を、エッジ及びクラウドの他方に配置してもよい。
 図4は、実施の形態に係る映像処理方法を示している。例えば、実施の形態に係る映像処理方法は、図1の映像処理システム10や図2または図3の映像処理装置20~22により実行される。図4に示すように、入力される映像入力データでの第1の映像認識環境から第2の映像認識環境への変化に応じて(S11)、映像入力データを分析する認識モデル、すなわち映像分析モデルを、第1の映像認識環境に対応する映像を分析する認識モデルM1から、第2の映像認識環境に対応する映像を分析する認識モデルM2に切り替える(S12)。また、映像入力データでの第1の映像認識環境から第2の映像認識環境への変化に応じて(S11)、切替タイミングよりも所定期間前のデータを含む映像入力データを、認識モデルM2に入力する(S13)。
 ここで、実施の形態適用前の関連する技術における課題について説明する。具体的には、特許文献1や2のような関連する技術を用いて、端末からサーバに映像を送信し、サーバが認識モデルを切り替える映像処理方法について検討する。
 図5は、関連する映像処理方法において、図1の認識モデルM1及びM2のいずれかを選択し切り替える際の動作を例示している。例えば、認識モデルM1及びM2は、異なるビットレート、あるいは圧縮率の映像を学習し分析するモデルである。この例では、撮影し分析する映像は時系列に並ぶフレームF1~F8・・・を含み、フレームF8のタイミングで認識モデルM1から認識モデルM2に切り替える。なお、ここでは、一例として、圧縮及び復元した映像を認識モデルに入力するが、各認識モデルに分析及び認識可能な映像を入力できれば、この構成に限られない。例えば、図5の映像処理方法を実行する映像処理システムは、図1の構成に加えて、更に、映像を撮影する撮影部と、映像を圧縮する圧縮部と、圧縮された映像を復元する復元部を備えていてもよい。例えば、図5の映像処理方法を実行する映像処理システムにおいて、圧縮部と復元部を含まなくともよい。
 図5に示すように、関連する映像処理方法では、撮影部は、映像を撮影し(S901)、圧縮部は撮影した映像を圧縮(S902)する。次に、圧縮部から復元部に圧縮映像を送信し、復元部は、受信した圧縮映像を元の映像に復元する(S903)。次に、切替部は、認識モデルM1を選択し、フレームF1からF7を切替前の認識モデルM1に入力する(S904)。切替前の認識モデルM1は、入力されたフレームF1~F7を用いて映像認識を行う。
 次に、切替タイミングで、切替部は、認識モデルをM1からM2に切り替え、フレームF8以降のフレームを切替後の認識モデルM2に入力する(S905)。切替後の認識モデルM2は、入力されたフレームF8以降のフレームを用いて映像認識を行う。
 発明者らは、関連する映像処理方法において、図5のように認識モデルを切り替えた際の認識精度について検討した結果、次のような課題を見出した。具体的には、複数のモデルを切り替えて分析する映像処理方法において、認識モデルが過去のフレームの分析情報を使用する場合、認識モデルを切り替えても十分な分析精度を得ることができない場合がある。すなわち、映像を用いて事象を認識する映像認識モデルにおいて、関連する映像処理方法のように映像を入力する認識モデルを変更すると、変更先の認識モデルの変更時の認識精度が低下する可能性がある。
 認識モデルは、機械学習を用いた映像認識エンジンであり、例えば、学習時に、時系列の映像データをもとに、認識対象の人物の動作等を学習した学習モデルである。認識モデルは、映像データの各フレームの時間的変化の特徴を抽出し、人物の動作等を学習する。このため、認識時においても、認識モデルに時系列の映像データを入力することが前提となっており、映像データの各フレームの時間的変化の特徴を抽出可能な程度のフレーム数の映像を、認識時においても、認識モデルに入力する必要がある。
 しかしながら、図5の例では、認識モデルM1から認識モデルM2に切り替えた際に、切り替え後の認識モデルM2に切り替え後のフレームF8から入力するため、認識モデルM2には、フレームF8以降の映像データしか入力されない。そうすると、認識モデルM2には、フレームF8より前の過去のデータが入力されないため、切り替え直後、すなわち、切り替えた瞬間、認識モデルM2は、時系列のデータを分析することができない。このため、切り替え直後において、切替先の認識モデルM2の認識精度、すなわち分析精度が低下、もしくは、認識結果を得ることができない可能性がある。認識モデルM2は過去のデータを用いて正しく分析することができず、映像内の認識対象を誤認識する恐れがあり、認識結果を出力できない場合もあり得る。
 このような課題が生じる具体例として、認識モデルに人物が車両のドアを開けた瞬間の映像のみを入力しても、人物が車両に乗ろうとしているのか、人物が車両を降りようとしているのか認識できない例や、認識モデルに人物が歩いている瞬間の映像のみを入力しても、人物が前に向かって歩いているのか、後ずさりしているのか認識できない例や、認識モデルに人物や機械が物を持っている瞬間の映像のみを入力しても、人物や機械が物を持ち上げようとしているのか、物を下ろそうとしているのか認識できない例が挙げられる。
 そこで、実施の形態では、図1~図4に示したように、認識モデルを切り替える際に、切り替え前のデータを切替先の認識モデルに入力する。図6は、実施の形態に係る映像処理方法において、図5と同じタイミングで認識モデルを切り替える際の動作を例示している。この例でも、図5と同様に、例えば、認識モデルM1及びM2は、異なるビットレート、あるいは圧縮率の映像を学習し分析するモデルである。一例として、圧縮及び復元した映像を認識モデルに入力するが、各認識モデルに分析及び認識可能な映像を入力できれば、この構成に限られない。例えば、図6の映像処理方法を実行する映像処理システムは、図1の構成に加えて、更に、映像を撮影する撮影部と、映像を圧縮する圧縮部と、圧縮された映像を復元する復元部を備えていてもよい。例えば、図6の映像処理方法を実行する映像処理システムにおいて、圧縮部と復元部を含まなくともよい。
 図6に示すように、実施の形態に係る映像処理方法では、図5と同様に、撮影部が、映像を撮影し(S101)、圧縮部が撮影した映像を圧縮(S102)し、復号部が、圧縮映像を元の映像に復元する(S103)。次に、切替部は、認識モデルM1を選択し、フレームF1からF7を切替前の認識モデルM1に入力する(S104)。切替前の認識モデルM1は、入力されたフレームF1~F7を用いて映像認識を行う。
 次に、実施の形態では、切替部は、切替タイミングよりも前のフレームF5~F7を切替前の認識モデルM1と切替後の認識モデルM2に入力する(S105)。次に、切替タイミングで、切替部は、認識モデルをM1からM2に切り替え、フレームF8以降のフレームを切替後の認識モデルM2に入力する(S106)。これにより、切替後の認識モデルM2は、切替タイミングより前から入力されるフレームF5以降のフレームを用いて映像認識を行う。
 このように、実施の形態では、モデル切り替えの少し前のフレームを、切替前後の両方の認識モデルに入力する。これにより、切替後の認識モデルは、切替直後から、過去のデータを用いて映像認識を行うことができるため、認識精度の低下、もしくは、分析の中断を防ぐことができる。また、切替先の認識モデルには、映像データの各フレームの時間的変化の特徴を抽出可能な程度のフレーム数を入力すれば良い。このため、両方の認識モデルに入力するデータは、数フレームで良いため、関連する技術と比べて、2つの認識モデルが処理する処理量をほぼ同等に維持したままで、認識精度の低下を抑えることができる。すなわち、両方の認識モデルにデータを入力し続けると処理量が増大するが、切替タイミングの前の所定数のフレームのみを両方の認識モデルに入力することで処理量の増大を抑えることができる。
(遠隔監視システムの基本構成)
 次に、実施の形態を適用するシステムの一例である遠隔監視システムについて説明する。図7は、遠隔監視システム1の基本構成を例示している。遠隔監視システム1は、カメラが撮影した映像により、当該撮影されたエリアを監視するシステムである。本実施形態においては、以降現場における作業員の作業を遠隔で監視するシステムであるものとして説明する。例えば、現場は工事現場などの作業現場、人の集まる広場、学校など、人や機械が動作するエリアであってもよい。本実施形態においては、以降作業は建設作業や土木作業等として説明するが、これに限られない。なお、映像は、時系列の複数の画像(フレームとも称する)を含むため、映像と画像とは互いに言い換え可能である。すなわち、遠隔監視システムは、映像を処理する映像処理システムであり、また、画像を処理する画像処理システムであるとも言える。
 図7に示すように、遠隔監視システム1は、複数の端末100、センターサーバ200、基地局300、MEC400を備えている。端末100、基地局300及びMEC400は、現場側に配置され、センターサーバ200は、センター側に配置されている。例えば、センターサーバ200は、現場から離れた位置に配置されているデータセンタ等に配置されている。現場側はシステムのエッジ側とも呼称し、センター側はクラウド側とも呼称する。
 端末100と基地局300との間は、ネットワークNW1により通信可能に接続される。ネットワークNW1は、例えば、4G、ローカル5G/5G、LTE(Long Term Evolution)、無線LANなどの無線ネットワークである。なお、ネットワークNW1は、無線ネットワークに限らず、有線ネットワークでもよい。基地局300とセンターサーバ200との間は、ネットワークNW2により通信可能に接続される。ネットワークNW2は、例えば、5GC(5th Generation Core network)やEPC(Evolved Packet Core)などのコアネットワーク、インターネットなどを含む。なお、ネットワークNW2は、有線ネットワークに限らず、無線ネットワークでもよい。端末100とセンターサーバ200との間は、基地局300を介して、通信可能に接続されているとも言える。基地局300とMEC400の間は任意の通信方法により通信可能に接続されるが、基地局300とMEC400は、1つの装置でもよい。
 端末100は、ネットワークNW1に接続される端末装置であり、現場の映像を取得する映像取得装置でもある。端末100は、現場に設置されたカメラ101が撮影した映像を取得し、取得した映像を、基地局300を介して、センターサーバ200へ送信する。なお、カメラ101は、端末100の外部に配置されてもよいし、端末100の内部に配置されてもよい。
 端末100は、カメラ101の映像を所定のビットレートに圧縮し、圧縮した映像を送信する。端末100は、圧縮効率を最適化する圧縮効率最適化機能102を有する。圧縮効率最適化機能102は、RoI(Region of Interest;注視領域とも称する)の画質を制御するRoI制御を行う。圧縮効率最適化機能102は、人物や物体を含むROIの画質を維持しながら、その周りの領域の画質を低画質にすることでビットレートを削減する。
 基地局300は、ネットワークNW1の基地局装置であり、端末100とセンターサーバ200の間の通信を中継する中継装置でもある。例えば、基地局300は、ローカル5Gの基地局、5GのgNB(next Generation Node B)、LTEのeNB(evolved Node B)、無線LANのアクセスポイント等であるが、その他の中継装置でもよい。
 MEC(Multi-access Edge Computing)400は、システムのエッジ側に配置されたエッジ処理装置である。MEC400は、端末100を制御するエッジサーバであり、端末のビットレートを制御する圧縮ビットレート制御機能401を有する。圧縮ビットレート制御機能401は、適応映像配信制御やQoE(quality of experience)制御により端末100のビットレートを制御する。適応映像配信制御は、ネットワークの状況に応じて配信する映像のビットレート等を制御する。例えば、圧縮ビットレート制御機能401は、ネットワークNW1及びNW2の通信環境に応じてビットレートを抑えながら、得られる認識精度を予測し、認識精度が良くなるように各端末100のカメラ101にビットレートを割り当てる。
 センターサーバ200は、システムのセンター側に設置されたサーバである。センターサーバ200は、1つまたは複数の物理的なサーバでもよいし、クラウド上に構築されたクラウドサーバやその他の仮想化サーバでもよい。センターサーバ200は、現場のカメラ映像を分析することで、現場の作業を監視する監視装置である。センターサーバ200は、端末100から送信された映像を分析する映像分析装置でもある。
 センターサーバ200は、映像認識機能201、アラート生成機能202、GUI描画機能203、画面表示機能204を有する。映像認識機能201は、端末100から送信された映像を映像認識AI(Artificial Intelligence)エンジンに入力することにより、作業員が行う作業、すなわち人物の行動の種類を認識する。映像認識機能201は、異なる映像認識環境に対応する映像を分析する複数の認識モデル、すなわち映像分析モデルを含んでもよい。さらに、センターサーバ200は、映像認識環境の変化に応じて認識モデルを切り替える切換部を備えていてもよい。アラート生成機能202は、認識された作業に応じてアラートを生成する。GUI描画機能203は、表示装置の画面にGUI(Graphical User Interface)を表示する。画面表示機能204は、GUIに端末100の映像や認識結果、アラート等を表示する。なお、必要に応じて、いずれかの機能を省略してもよいし、いずれかの機能を備えていてもよい。例えば、センターサーバ200は、アラート生成機能202、GUI描画機能203、画面表示機能204を備えていなくてもよい。
(実施の形態1)
 次に、実施の形態1について説明する。本実施の形態では、映像認識環境の変化として、映像のビットレートの変化に応じて認識モデルを切り替える例について説明する。
 まず、本実施の形態に係る遠隔監視システムの構成について説明する。本実施の形態に係る遠隔監視システム1の基本構成は、図7に示した通りである。図8は、本実施の形態に係る遠隔監視システム1の構成例を示している。なお、各装置の構成は一例であり、後述の本実施の形態に係る動作が可能であれば、その他の構成でもよい。例えば、端末100の一部の機能をセンターサーバ200や他の装置に配置してもよいし、センターサーバ200の一部の機能を端末100や他の装置に配置してもよい。また、圧縮ビットレート制御機能を含むMEC400の機能をセンターサーバ200等に配置してもよい。
 図8に示すように、本実施の形態に係る端末100は、映像取得部110、エンコーダ120、端末通信部130を備えている。
 映像取得部110は、カメラ101が撮影した映像を取得する。カメラが撮影した映像は、以下入力映像とも称する。例えば、入力映像には現場で作業を行う作業員である人物等が含まれる。映像取得部110は、時系列の複数の画像、すなわちフレームを取得する画像取得部でもある。
 エンコーダ120は、取得した入力映像をエンコードする。エンコーダ120は、入力映像を符号化する符号化部である。エンコーダ120は、所定の符号化方式により入力映像を圧縮する圧縮部でもある。エンコーダ120は、例えば、H.264やH.265などの映像符号化方式によりエンコードする。エンコーダ120は、人物を含むROIを検出し、検出したROIが他の領域よりも高画質となるように、入力映像をエンコードしてもよい。
 映像取得部110とエンコーダ120の間にROI特定部を備えてもよい。ROI特定部は、取得された映像内の物体を検出し、ROI等の領域を特定する。エンコーダ120は、ROI特定部によって特定されたROIを他の領域よりも高画質となるように入力映像をエンコードしてもよい。また、ROI特定部によって指定された領域を他の領域よりも低画質になるように入力画像をエンコードしてもよい。ROI特定部またはエンコーダ120は、ROIを検出又は特定する際、映像に映る可能性のある物体とその優先度とが対応する情報を保持し、当該優先度の対応情報に応じてROI等の領域を特定してもよい。
 エンコーダ120は、所定のビットレートにより入力映像をエンコードする。エンコーダ120は、MEC400の圧縮ビットレート制御機能401から割り当てられたビットレートやフレームレート等となるように入力映像をエンコードしてもよい。また、エンコーダ120は、端末100とセンターサーバ200間の通信品質に基づいて、ビットレートやフレームレート等を決定してもよい。通信品質は、例えば、通信速度であるが、伝送遅延や誤り率などその他の指標でもよい。端末100は、通信品質を測定する通信品質測定部を備えていてもよい。例えば、通信品質測定部は、通信速度に応じて端末100からセンターサーバ200へ送信する映像のビットレートを決定する。基地局300またはセンターサーバ200が受信するデータ量に基づいて通信速度を測定し、通信品質測定部は、基地局300またはセンターサーバ200から測定された通信速度を取得してもよい。また、通信品質測定部は、端末通信部130から送信する単位時間当たりのデータ量に基づいて通信速度を推定してもよい。
 端末通信部130は、エンコーダ120がエンコードしたエンコードデータ(圧縮データ)を、基地局300を介して、センターサーバ200へ送信する。端末通信部130は、取得した入力映像を、ネットワークを介して送信する送信部である。端末通信部130は、基地局300と通信可能なインタフェースであり、例えば、4G、ローカル5G/5G、LTE、無線LAN等の無線インタフェースであるが、その他の任意の通信方式の無線または有線インタフェースでもよい。
 また、図8に示すように、本実施の形態に係るセンターサーバ200は、認識モデルM11及びM12、センター通信部210、デコーダ220、予測部230、決定部240、切替部250、記憶部260を備えている。
 認識モデルM11及びM12は、入力される映像に対し映像認識処理を実行する。この例では、端末から受信しデコードした受信映像に対し映像認識処理を実行する。映像認識処理は、例えば、映像内の人物の行動を認識する行動認識処理であるが、その他の認識処理でもよい。認識モデルM11及びM12は、受信映像から物体を検出し、検出した物体の行動を認識し、行動認識した結果を出力する。
 認識モデルM11及びM12は、ディープラーニングなどの機械学習を用いた映像認識エンジンである。作業を行う人物の映像の特徴と行動ラベルを機械学習することで、映像内の人物の行動を認識できる。例えば、認識モデルM11及びM12は、時系列の映像データをもとに学習及び予測可能な学習モデルであり、CNN(Convolutional Neural Network)やRNN(Recurrent Neural Network)でもよいし、その他のニューラルネットワークでもよい。
 認識モデルM11と認識モデルM12は、異なる映像認識環境の映像を学習データとして学習したモデルであり、異なる映像認識環境の映像を分析するための学習モデルである。認識モデルM11は、第1の映像認識環境の映像を学習し、認識モデルM12は、第2の映像認識環境の映像を学習している。認識モデルM11及びM12は、それぞれ学習した映像認識環境の映像を精度よく分析することができる。このため、受信映像の映像認識環境が第1の映像認識環境の映像の場合、受信映像を認識モデルM11で分析し、受信映像の映像認識環境が第2の映像認識環境の映像の場合、受信映像を認識モデルM11で分析することで、高精度に映像を分析できる。
 映像認識環境は、例えば、ビットレートやフレームレートなど、映像の品質に関する映像パラメータである。ビットレートやフレームレートに限らず、圧縮率や画像の解像度等でもよい。本実施の形態では、ビットレートの例について説明する。認識モデルM11は、第1のビットレート範囲の映像を学習し、認識モデルM12は、第2のビットレート範囲の映像を学習している。なお、第1のビットレート範囲及び第2のビットレート範囲に限らず、第1のビットレート及び第2のビットレートとしてもよい。例えば、第1のビットレート範囲は、第2のビットレート範囲よりも高いビットレート範囲であり、認識モデルM11は高ビットレート用のモデルであり、認識モデルM12は低ビットレート用のモデルであるが、これに限らない。なお、第1のビットレート範囲と第2のビットレート範囲は、一部が重複していてもよい。
 センター通信部210は、端末100から送信されたエンコードデータを、基地局300を介して受信する。センター通信部210は、端末100が取得した入力映像を、ネットワークを介して受信する受信部である。センター通信部210は、インターネットやコアネットワークと通信可能なインタフェースであり、例えば、IP通信用の有線インタフェースであるが、その他の任意の通信方式の有線または無線インタフェースでもよい。
 デコーダ220は、端末100から受信したエンコードデータをデコードする。デコーダ220は、エンコードデータを復号化する復号化部である。デコーダ220は、所定の符号化方式によりエンコードデータ、すなわち圧縮データを復元する復元部でもある。デコーダ220は、端末100の符号化方式に対応し、例えば、H.264やH.265などの動画符号化方式によりデコードする。デコーダ220は、各領域の圧縮率やビットレートに応じてデコードし、デコードした映像を生成する。デコードした映像を、以下受信映像とも称する。
 予測部230は、デコードした受信映像における映像認識環境の変化を予測する。予測部230は、受信映像から映像認識環境に関する情報を抽出し、抽出した情報をモニタリングすることで映像認識環境の変化を予測する。例えば、予測部230は、受信映像から抽出されるビットレートの変化を予測する。
 決定部240は、受信映像の映像認識環境に応じて、受信映像を分析する認識モデルを決定し、予測した映像認識環境の変化に応じて、認識モデルの切替タイミングを決定する。例えば、決定部240は、受信映像から抽出されるビットレートに応じて、受信映像を分析する認識モデルを決定する。また、決定部240は、予測部230が予測したビットレートの変化に基づいて、切替先の認識モデル及び切替タイミングを決定する。さらに、決定部240は、認識モデルの切替タイミングに基づいて、切り替えの際に切替先の認識モデルに事前に映像データを入力する事前入力タイミングを決定する。事前入力タイミングは、切替タイミングよりも所定期間前に映像データを切替先の認識モデルに対する入力を開始するタイミングである。
 例えば、事前入力タイミングは、認識モデルに事前に入力する事前入力フレーム数に基づいて決定してもよい。事前入力フレーム数は、切替先の認識モデルが映像認識を行うために使用するフレーム数である。事前入力フレーム数は、切り替えの際に2つの認識モデルの両方に入力するフレーム数でもある。事前入力フレーム数は、切替先の認識モデルによって異なるため、予め認識モデルごとに設定されている。例えば、要求される認識精度に応じて事前入力フレーム数を変更してもよい。また、認識モデルごとに、事前入力フレーム数に対応する所定期間を関連付けておいてもよい。
 切替部250は、デコードした受信映像を分析する認識モデルM11及びM12を切り替える。切替部250は、決定部240が決定した認識モデルに基づいて、認識モデルを選択し、選択した認識モデルに受信映像を入力する。切替部250は、決定された切替先の認識モデル及び切替タイミングに基づいて、受信映像を入力する認識モデルを切り替える。切替部250は、決定した事前入力タイミングに基づいて、切替タイミングよりも前に切替先の認識モデルに映像を入力する。切替部250は、事前入力タイミングから切替タイミングまでの間、切替前の認識モデルと切替後の認識モデルの両方に映像を入力する。
 記憶部260は、センターサーバ200の処理に必要なデータを記憶する。記憶部260は、映像認識環境と認識モデルを関連付けた映像認識環境-認識モデルテーブルを記憶する。図9は、映像認識環境-認識モデルテーブルの一例として、ビットレート範囲と認識モデルを関連付けたビットレート範囲-認識モデルテーブルの具体例を示している。ビットレート範囲-認識モデルテーブルにより、映像のビットレートに応じて映像を分析する認識モデルを選択できる。この例では、ビットレート範囲R1と認識モデルM11が関連付けられ、ビットレート範囲R2と認識モデルM12が関連付けられている。ビットレート範囲R1及びR2は、各認識モデルが学習した映像のビットレート範囲に対応しており、例えば、ビットレート範囲R1は、ビットレート範囲R2よりも高い高ビットレート範囲であり、ビットレート範囲R2は、ビットレート範囲R1よりも低い低ビットレート範囲である。
 また、記憶部260は、認識モデルと事前入力フレーム数とを関連付けた認識モデル-フレーム数テーブルを記憶する。図10は、認識モデル-フレーム数テーブルの具体例を示している。認識モデル-フレーム数テーブルにより、切替先の認識モデルに応じて事前入力フレーム数を決定できる。この例では、認識モデルM11にフレーム数N1が関連付けられ、認識モデルM12にフレーム数N2が関連付けられている。なお、フレーム数に限らず、事前に入力するフレーム数に対応した所定期間である事前入力時間を認識モデルに関連付けておき、切替先の認識モデルに応じた事前入力時間から事前入力タイミングを決定してもよい。
 次に、本実施の形態に係る遠隔監視システムの動作について説明する。図11は、本実施の形態に係る遠隔監視システム1の動作例を示している。例えば、端末100がS111~S113を実行し、センターサーバ200がS114~S122を実行するとして説明するが、これに限らず、いずれの装置が各処理を実行してもよい。
 センターサーバ200の一部の機能を他の装置に配置し、他の装置がそれらの機能を実行してもよい。例えば、端末100やMEC400が、予測部230、決定部240、切替部250、記憶部260を備えていてもよい。端末100やMEC400が、取得した映像や通信品質の変化に基づいて、映像認識環境の変化を予測し、記憶部の情報を参照して認識モデル及び切替タイミングを決定し、切替タイミングの指示をセンターサーバ200に通知してもよい。なお、本実施の形態に限らず、その他の実施の形態においても同様に、端末100やMEC400が、予測部230、決定部240、切替部250、記憶部260を備えていてもよい。
 図11に示すように、端末100は、カメラ101から映像を取得する(S111)。カメラ101は、現場を撮影した映像を生成し、映像取得部110は、カメラ101から出力される映像(入力映像)を取得する。例えば、入力映像の画像には、現場で作業を行う人物や作業に用いられる物体等が含まれる。
 続いて、端末100は、取得した入力映像をエンコードする(S112)。エンコーダ120は、所定の映像符号化方式により入力映像をエンコードする。例えば、エンコーダ120は、MEC400の圧縮ビットレート制御機能401から割り当てられたビットレートとなるように入力映像をエンコードしてもよいし、端末100とセンターサーバ200の間の通信品質に応じたビットレートでエンコードしてもよい。
 続いて、端末100は、エンコードしたエンコードデータをセンターサーバ200へ送信し(S113)、センターサーバ200は、エンコードデータを受信する(S114)。
端末通信部130は、入力映像をエンコードしたエンコードデータを基地局300へ送信する。基地局300は、受信したエンコードデータを、コアネットワークやインターネットを介して、センターサーバ200へ転送する。センター通信部210は、転送されたエンコードデータを、基地局300から受信する。
 続いて、センターサーバ200は、受信したエンコードデータをデコードする(S115)。デコーダ220は、各領域の圧縮率やビットレートに応じてエンコードデータをデコードし、デコードした映像、すなわち受信映像を生成する。
 また、センターサーバ200は、受信映像のビットレートの変化を予測する(S116)。予測部230は、映像認識環境の例として、受信映像のビットレートをモニタリングし、ビットレートの変化を予測する。例えば、予測部230は、センター通信部210が受信したエンコードデータにおける単位時間当たりのデータ量を測定し、ビットレートを取得する。端末100からエンコードデータとビットレートを含むパケットを送信し、予測部230は、受信したパケットからビットレートを取得してもよい。予測部230は、定期的に取得した過去のビットレートの履歴に基づいて、ビットレートの遷移の傾向を抽出し、その後のビットレートの変化を予測する。
 続いて、センターサーバ200は、切替タイミングを決定する(S117)。決定部240は、予測したビットレートの変化に応じて、切替先の認識モデル及び切替タイミングを決定する。決定部240は、記憶部260のビットレート範囲-認識モデルテーブルを参照し、予測したビットレートに対応する認識モデルを決定する。図9のビットレート範囲-認識モデルテーブルの例では、受信映像のビットレートがビットレート範囲R1からビットレート範囲R2に変わることが予測される場合、認識モデルをM11からM12に切り替えることを決定し、ビットレートがビットレート範囲R1からビットレート範囲R2に変わるタイミングを切替タイミングに決定する。例えば、予測されるビットレートとビットレート範囲R1の中央及びビットレート範囲R2の中央とを比較し、予測されるビットレートがビットレート範囲R1の中央に近い状態からビットレート範囲R2の中央に近い状態に変化するタイミングを切替タイミングとする。
 続いて、センターサーバ200は、事前入力タイミングを決定する(S118)。決定部240は、決定した認識モデルの切替タイミングに基づいて、切り替えの際に切替先の認識モデルに事前に映像データを入力する事前入力タイミングを決定する。決定部240は、記憶部260の認識モデル-フレーム数テーブルを参照し、切替先の認識モデルに対応する事前入力フレーム数を決定する。図10の認識モデル-フレーム数テーブルの例では、切替先の認識モデルがM12の場合、事前入力フレーム数はN2であると決定する。さらに、事前入力フレーム数N2に対応する事前入力時間をフレームレートに基づいて算出し、切替タイミングから事前入力時間を差し引いて、事前入力タイミングを決定する。
 続いて、センターサーバ200は、受信映像の認識モデルへの入力を切り替える(S119)。切替部250は、決定した事前入力タイミング及び切替タイミングに応じて、認識モデルを選択し、選択した認識モデルにデコードした受信映像を入力する(S120~S122)。
 具体的には、現在の時刻が事前入力タイミングより前の場合、切替部250は、切替前の認識モデルに受信映像を入力する(S120)。例えば、切替部250は、切替前の認識モデルM11のみに受信映像(フレーム)を入力する。認識モデルM11は、入力される受信映像を用いて映像認識を行う。
 また、現在の時刻が事前入力タイミングから切替タイミングまでの間の場合、切替部250は、切替前後の認識モデルに受信映像を入力する(S121)。例えば、切替部250は、切替前の認識モデルM11及び切替後の認識モデルM12の両方に受信映像のフレームを入力する。認識モデルM11は、S120から入力されている受信映像を用いて映像認識を行い、認識結果を出力する。認識モデルM12は、S121から入力される受信映像を用いて映像認識処理を開始、または、映像認識処理を可能な状態にする。
 また、現在の時刻が切替タイミング以後の場合、切替部250は、切替後の認識モデルに受信映像を入力する(S122)。例えば、切替部250は、切替後の認識モデルM12のみに受信映像のフレームを入力する。認識モデルM12は、S121から入力されている受信映像を用いて映像認識を行い、認識結果を出力する。なお、認識モデルM12からM11に切り替える場合も同様の動作となる。
 また、切り替え途中の両方の認識モデルに映像を入力している段階(S121)で、切り替えが不要になった場合、元の認識モデルに戻してもよい。すなわち、切替先の認識モデルに切り替えなくてもよい。ビットレートの低下を予測して両方の認識モデルに映像を入力し始めたが、状況が変化してビットレートが変化しない(または低下しても即座に回復する)ことが予測される場合には、切り替えを中断して元の認識モデルに戻してもよい。
 なお、図11に示した処理フローは、一例であり、各処理の順序はこれに限られない。一部の処理の順序を入れ替えて実行してもよいし、一部の処理を並行して実行してもよい。例えば、端末100やMEC400が、予測部230、決定部240、切替部250、記憶部260を備えている場合、S111とS112の間にS116~S118を実行してもよい。また、S116~S118は、入力切替以前であれば、S111~S115と並行して実行されてもよい。
 以上のように、本実施の形態では、遠隔監視システムにおいて、映像のビットレートの変化を予測し、予測したビットレートの変化に応じて、映像を分析する認識モデルを切り替える。また、切り替えの少し前のフレームを、切り替え前後の両方の認識モデルに入力する。これにより、ビットレートの変化に応じて適切に認識モデルを選択するとともに、図5のように単なる映像入力先の切替を行った場合よりも、切替先の認識モデルにおける認識精度を向上することができる。
(実施の形態2)
 次に、実施の形態2について説明する。本実施の形態では、バッファを用いて切替先の認識モデルに映像を入力する例について説明する。
 図12は、本実施の形態に係る遠隔監視システム1の構成例を示している。図12に示すように、本実施の形態では、センターサーバ200は、実施の形態1の構成に加えて、バッファ270を備えている。その他の構成は実施の形態1と同様である。ここでは、主に実施の形態1と異なる構成について説明する。
 バッファ270は、デコーダ220がデコードした受信映像をバッファリングする。バッファ270は、各認識モデルが映像認識に必要とするフレーム数のフレームを保持する。認識モデルごとに必要な事前入力フレーム数のフレームを保持してもよいし、各認識モデルが必要とする事前入力フレーム数のうち最も大きい数のフレームを保持してもよい。
 切替部250は、認識モデルを切り替える際、バッファ270に保持されたフレームを取得し、取得したフレームを含む受信映像を切替後の認識モデルに入力する。切替部250は、切替後の認識モデルに必要な事前入力フレーム数のフレームをバッファ270から取得して、取得したフレームを含む受信映像を切替後の認識モデルに入力する。例えば、複数のバッファのバッファサイズを各認識モデルの事前入力フレーム数に合わせて設定しておき、認識モデルに対応するバッファから事前入力フレーム数のフレームを取得してもよい。また、切替タイミングのときにバッファ270に保持されたフレームを含む映像を切替後の認識モデルに入力してもよい。この場合、実施の形態1のように事前入力タイミングから映像を入力しなくてもよい。
 以上のように、実施の形態1の遠隔監視システムにおいて、さらにバッファを備え、バッファに保持されたフレームを切替先の認識モデルに入力してもよい。これにより、実施の形態1と同様に、切替先の認識モデルにおける認識精度を向上することができる。
(実施の形態3)
 次に、実施の形態3について説明する。本実施の形態では、映像のフレームレートの変化に応じて認識モデルを切り替える例について説明する。
 図13は、本実施の形態に係る遠隔監視システム1の構成例を示している。図13に示すように、本実施の形態では、センターサーバ200は、実施の形態1の構成に加えて、フレーム特定部280を備えている。その他の構成は実施の形態1と同様である。なお、実施の形態2に本実施の形態を適用してもよい。ここでは、主に実施の形態1と異なる構成について説明する。
 本実施の形態では、認識モデルM11及びM12は、異なるフレームレートの映像を学習した認識モデルである。認識モデルM11は、第1のフレームレートの映像を学習し、認識モデルM12は、第2のフレームレートの映像を学習している。例えば、第1のフレームレートは、第2のフレームレートよりも高いフレームレートであり、認識モデルM11は高フレームレート用のモデルであり、認識モデルM12は低フレームレート用のモデルであるが、これに限らない。なお、第1のフレームレート及び第2のフレームレートに限らず、第1のフレームレート範囲及び第2のフレームレート範囲としてもよい。
 なお、認識モデルは、所定のビットレート及び所定のフレームレートを組み合わせた映像を学習及び分析してもよい。複数の認識モデルが、それぞれ異なるビットレート及びフレームレートの組み合わせの映像を学習及び分析してもよい。この場合、映像のビットレート及びフレームレートに応じて認識モデルを選択し切り替える。
 記憶部260は、映像認識環境-認識モデルテーブルの一例として、フレームレートと認識モデルを関連付けたフレームレート-認識モデルテーブルを記憶する。図14は、フレームレート-認識モデルテーブルの具体例を示している。この例では、フレームレートFR1と認識モデルM11が関連付けられ、フレームレートFR2と認識モデルM12が関連付けられている。フレームレートFR1及びFR2は、各認識モデルが学習した映像のフレームレートに対応しており、例えば、フレームレートFR1は、フレームレートFR2よりも高い高フレームレートであり、フレームレートFR2は、フレームレートFR1よりも低い低フレームレートである。
 予測部230は、受信映像のフレームレートをモニタリングし、フレームレートの変化を予測する。例えば、予測部230は、エンコードデータのヘッダに含まれているフレームレートを取得する。エンコードデータのヘッダに限らず、端末100からエンコードデータとフレームレートを含むパケットをセンター通信部210へ送信し、予測部230は、受信したパケットからフレームレートを取得してもよい。予測部230は、定期的に取得した過去のフレームレートの履歴に基づいて、フレームレートの遷移の傾向を抽出し、その後のフレームレートの変化を予測する。
 なお、端末100が予測部230を備えている場合、MEC400からの指示や、端末100の通信品質測定部の測定に基づいて決定されたフレームレートに応じて、フレームレートの変化を予測してもよい。
 決定部240は、予測したフレームレートの変化に応じて、切替先の認識モデル及び切替タイミングを決定する。決定部240は、記憶部260のフレームレート-認識モデルテーブルを参照し、予測したフレームレートに対応する認識モデルを決定する。図14のフレームレート-認識モデルテーブルの例では、フレームレートがFR1からFR2に変わることが予測される場合、認識モデルをM11からM12に切り替えることを決定し、フレームレートがFR1からFR2に変わるタイミングを切替タイミングに決定する。例えば、予測されるフレームレートとFR1及びFR2とを比較し、予測されるフレームレートがFR1に近い状態からFR2に近い状態に変化するタイミングを切替タイミングとする。フレームレートFR1及びFR2がフレームレートの範囲を含む場合、範囲の中心と比較してもよいし、範囲の任意の値と比較してもよい。また、決定部240は、実施の形態1と同様に、切替先の認識モデルに対応した事前入力フレーム数と切替先の認識モデルの学習したフレームレートに基づいて、事前入力タイミングを決定する。
 フレーム特定部280は、切替部250が選択した認識モデルに応じて、認識モデルに入力する映像のフレーム間隔、すなわちフレームレートを特定する。フレーム特定部280は、例えば、フレーム間隔を調整することで、フレーム間隔を特定する。フレーム特定部280は、切替前後の認識モデルで入力する映像のフレームレートが異なる場合に、フレーム間引きやフレーム補間を行う。フレーム補間とは、映像のフレームの間に、フレームを挿入することである。なお、事前入力タイミングより前、事前入力タイミングから切替タイミングまで、切替タイミング以後のいずれの場合に、フレーム間隔を特定してもよい。例えば、フレーム特定部280は、記憶部260のフレームレート-認識モデルテーブルを参照し、入力する映像のフレームレートと選択された認識モデルの学習したフレームレートやフレームレートの範囲との差分に基づいて、入力する映像のフレーム間隔を調整し、調整した映像を認識モデルに入力する。映像のフレームレートが認識モデルの学習したフレームレートよりも低い場合、認識モデルの学習したフレームレートに合わせてフレーム補間を行う。フレーム補間の方法は限定されない。例えば、フレームを挿入する前または後のフレームと同じフレームを挿入してもよいし、過去のフレームにおける画像の変化に応じて推定したフレームを挿入してもよい。映像のフレームレートが認識モデルの学習したフレームレートよりも高い場合、認識モデルの学習したフレームレートに合わせてフレームを間引く。なお、予測部230等と同様に、端末100やMEC400がフレーム特定部280を備えていてもよい。
 例えば、認識モデルM11が10fpsのフレームレートの映像を学習した認識モデルであり、認識モデルM12が30fpsのフレームレートの映像を学習した認識モデルであるとする。このとき、10fpsのフレームレートの映像を、認識モデルM11からM12に切り替えて入力する場合、フレーム特定部280は、入力する映像にフレーム補間を行い、30fpsにフレーム補間した映像を認識モデルM12に入力する。また、30fpsのフレームレートの映像を、認識モデルM12からM11に切り替えて入力する場合、フレーム特定部280は、入力する映像からフレームを間引き、10fpsに間引いた映像を認識モデルM11に入力する。
 以上のように、実施の形態1の遠隔監視システムにおいて、映像のフレームレートの変化を予測し、予測したフレームレートの変化に応じて、映像を分析する認識モデルを切り替えてもよい。これにより、フレームレートの変化に応じて適切に認識モデルを選択するとともに、実施の形態1と同様に、切替先の認識モデルにおける認識精度を向上することができる。また、認識モデルに応じて入力するフレーム間隔を調整し特定することで、認識モデルに適したフレームレートの映像を入力でき、認識精度を向上することができる。
(実施の形態4)
 次に、実施の形態4について説明する。本実施の形態では、映像認識環境の変化として、映像を受信する通信品質の変化に応じて認識モデルを切り替える例について説明する。
 図15は、本実施の形態に係る遠隔監視システム1の構成例を示している。図15に示すように、本実施の形態では、センターサーバ200は、実施の形態1の構成に加えて、通信品質測定部290を備える。その他の構成は実施の形態1と同様である。なお、その他の実施の形態に本実施の形態を適用してもよい。例えば、認識モデルM11は、実施の形態1と同様に、第1のビットレートの映像を学習し、認識モデルM12は、第2のビットレートの映像を学習している。これに限らず、認識モデルM11及びM12は、実施の形態3と同様に、異なるフレームレートの映像を学習してもよい。また、認識モデルM11及びM12は、異なる通信品質に対応した映像を学習してもよい。ここでは、主に実施の形態1と異なる構成について説明する。
 通信品質測定部290は、端末100とセンターサーバ200の間の通信品質を測定する。通信品質は、センターサーバ200が端末100から映像を受信する受信経路の通信品質である。通信品質は、例えば、通信速度であるが、伝送遅延や誤り率などその他の指標でもよい。例えば、センター通信部210が受信する単位時間当たりのデータ量に基づいて通信速度を測定する。なお、基地局300、端末100、またはMEC400が通信品質測定部を備え、基地局300、端末100、またはMEC400の通信品質測定部が測定または推定した通信品質を取得してもよい。
 予測部230は、映像認識環境の変化として、通信品質の変化を予測する。予測部230は、通信品質測定部290が測定した通信品質を定期的に取得し、取得した過去の通信品質の履歴に基づいて、通信品質の遷移の傾向を抽出し、その後の通信品質の変化を予測する。図16は、通信速度の予測例を示している。図16に示すように、過去の通信速度の履歴から、今後の通信速度の変化を予測する。
 決定部240は、予測した通信品質の変化に応じて、切替先の認識モデル及び切替タイミングを決定する。認識モデルM11及びM12がビットレートごとの映像を学習している場合、通信品質に対応したビットレートに基づいて、切替先の認識モデル及び切替タイミングを決定する。例えば、決定部240は、予測した通信速度から受信映像のビットレートを推定する。送信側の端末100は通信品質に応じてビットレートを決定しエンコードしているため、受信側のセンターサーバ200でも端末100と同様に通信品質に応じてビットレートを決定することで、端末100がエンコードしたビットレートを推定する。例えば、通信速度と推定されるビットレートとを関連付けておくことで、通信速度からビットレートを推定できる。決定部240は、推定したビットレートの変化に応じて、実施の形態1と同様に、切替先の認識モデルと切替タイミングを決定する。図16の例では、通信速度に応じてビットレートが所定値以下に変化するtsを切替タイミングに決定する。また、実施の形態1と同様に、切替タイミングに基づいて、事前入力タイミングtiを決定する。なお、認識モデルM11及びM12が通信品質ごとの映像を学習している場合、予測した通信品質に対応する認識モデルを切替先の認識モデルとする。
 以上のように、実施の形態1の遠隔監視システムにおいて、映像を受信する通信品質の変化を予測し、予測した通信品質の変化に応じて、映像を分析する認識モデルを切り替えてもよい。これにより、通信品質の変化に応じて適切に認識モデルを選択するとともに、実施の形態1と同様に、切替先の認識モデルにおける認識精度を向上することができる。
(実施の形態5)
 次に、実施の形態5について説明する。本実施の形態では、映像認識環境に含まれる通信品質として、映像を受信するパケットのパケットロスに応じて認識モデルを切り替える例について説明する。本実施の形態に係る遠隔監視システム1の構成は、実施の形態4の図15と同様である。ここでは、主に実施の形態4と異なる構成について説明する。
 本実施の形態では、認識モデルM11及びM12は、通信品質の例としてパケットロスの発生状況が異なる映像を学習した認識モデルである。例えば、認識モデルM11は、パケットロスなしの映像を学習し、認識モデルM12は、パケットロスありの映像を学習している。パケットロスとは、映像のフレームのデータを伝送する全部または一部のパケットが受信側で正常に受信できず欠落することである。フレームごとのパケットの欠落でもよいし、所定期間におけるパケットの欠落でもよい。なお、パケットロスの有無に限らず、認識モデルM11は、第1のパケットロス率の映像を学習し、認識モデルM12は、第2のパケットロス率の映像を学習してもよい。例えば、第1のパケットロス率は、第2のパケットロス率より低くてもよい。
 記憶部260は、映像認識環境-認識モデルテーブルの一例として、パケットロスの発生状況と認識モデルを関連付けたパケットロス-認識モデルテーブルを記憶する。図17は、パケットロス-認識モデルテーブルの具体例を示している。この例では、パケットロスなしと認識モデルM11が関連付けられ、パケットロスありと認識モデルM12が関連付けられている。パケットロス率を関連付ける場合、パケットロス率の範囲を関連付けてもよい。
 通信品質測定部290は、通信品質として、パケットロスの発生状況、すなわちパケットロスの有無を測定する。センター通信部210が受信するパケットをモニタし、各フレームでパケットが欠落しているか否か測定する。
 予測部230は、パケットロスの発生状況を予測する。予測部230は、通信品質測定部290が測定したパケットロスの発生状況を定期的に取得し、取得した過去のパケットロスの発生履歴に基づいて、パケットロスの傾向を抽出し、その後のパケットロスの発生状況を予測する。
 決定部240は、予測したパケットロスの発生状況に応じて、切替先の認識モデル及び切替タイミングを決定する。決定部240は、記憶部260のパケットロス-認識モデルテーブルを参照し、予測したパケットロスの発生状況に対応する認識モデルを決定する。図17のパケットロス-認識モデルテーブルの例では、パケットロスなしからパケットロスありに変わることが予測される場合、認識モデルをM11からM12に切り替えることを決定し、パケットロスなしからパケットロスありに変わるタイミングを切替タイミングに決定する。
 以上のように、実施の形態4の遠隔監視システムにおいて、映像を受信するパケットのパケットロスの発生状況の変化を予測し、予測したパケットロスの発生状況の変化に応じて、映像を分析する認識モデルを切り替えてもよい。これにより、パケットロスの発生状況の変化に応じて適切に認識モデルを選択するとともに、実施の形態4と同様に、切替先の認識モデルにおける認識精度を向上することができる。
(実施の形態6)
 次に、実施の形態6について説明する。本実施の形態では、映像認識環境の変化として、映像を撮影したシーンの変化に応じて認識モデルを切り替える例について説明する。
 図18は、本実施の形態に係る遠隔監視システム1の構成例を示している。図18に示すように、本実施の形態では、センターサーバ200は、実施の形態1の構成に加えて、シーン分析部291を備えている。その他の構成は実施の形態1と同様である。なお、その他の実施の形態に本実施の形態を適用してもよい。ここでは、主に実施の形態1と異なる構成について説明する。
 本実施の形態では、認識モデルM11及びM12は、異なるシーンの映像を学習した認識モデルである。シーンとは、建設現場の工程の進み具合、作業員の作業内容や作業場所などである。例えば、認識モデルM11は、第1の作業工程の映像を学習し、認識モデルM12は、第2の作業工程ありの映像を学習している。
 記憶部260は、映像認識環境-認識モデルテーブルの一例として、シーンと認識モデルを関連付けたシーン-認識モデルテーブルを記憶する。図19は、シーン-認識モデルテーブルの具体例を示している。この例では、作業工程Aと認識モデルM11が関連付けられ、作業工程Bと認識モデルM12が関連付けられている。
 シーン分析部291は、映像のシーンを分析する。例えば、シーン分析部291は、認識モデルM11またはM12の認識結果に基づいて映像のシーンを分析する。認識モデルM11及びM12が映像から作業内容を認識する場合、予め作業内容と作業工程を関連付けておき、認識された作業内容から作業工程を決定してもよい。
 なお、端末100がシーン分析部291を備えていてもよい。端末100がシーン分析部291を備える場合、映像取得部110が取得する映像に基づいて、映像のシーンを分析してもよい。例えば、端末100が物体検出部を備え、物体検出部の検出した物体と物体及びシーンとの対応関係の情報とに基づいて、シーン分析部291がシーンを分析しても良い。
 予測部230は、映像のシーンの変化を予測する。予測部230は、シーン分析部291が分析したシーンを定期的に取得し、取得した過去のシーンの履歴に基づいて、その後のシーンの変化を予測する。例えば、作業工程のスケジュール情報を取得し、スケジュール情報に基づいて、分析された作業内容や作業工程から、作業の完了や次の作業内容、次の作業工程を予測する。スケジュール情報は、各作業工程の時間や作業内容等を含んでもよい。
 決定部240は、予測したシーンの変化に応じて、切替先の認識モデル及び切替タイミングを決定する。決定部240は、記憶部260のシーン-認識モデルテーブルを参照し、予測したシーンに対応する認識モデルを決定する。図19のシーン-認識モデルテーブルの例では、作業工程Aから作業工程Bに変わることが予測される場合、認識モデルをM11からM12に切り替えることを決定し、作業工程Aから作業工程Bに変わるタイミングを切替タイミングに決定する。
 以上のように、実施の形態1の遠隔監視システムにおいて、映像を撮影したシーンの変化を予測し、予測したシーンの変化に応じて、映像を分析する認識モデルを切り替えてもよい。これにより、シーンの変化に応じて適切に認識モデルを選択するとともに、実施の形態1と同様に、切替先の認識モデルにおける認識精度を向上することができる。
(実施の形態7)
 次に、実施の形態7について説明する。本実施の形態では、映像認識環境の変化として、映像に含まれる物体の大きさの変化に応じて認識モデルを切り替える例について説明する。
 図20は、本実施の形態に係る遠隔監視システム1の構成例を示している。図20に示すように、本実施の形態では、センターサーバ200は、実施の形態1の構成に加えて、物体検出部292を備えている。その他の構成は実施の形態1と同様である。なお、その他の実施の形態に本実施の形態を適用してもよい。ここでは、主に実施の形態1と異なる構成について説明する。
 本実施の形態では、認識モデルM11及びM12は、認識対象の物体の大きさが異なる映像を学習した認識モデルである。認識モデルM11は、第1の物体サイズの映像を学習し、認識モデルM12は、第2の物体サイズの映像を学習している。例えば、第1の物体サイズは、第2の物体サイズよりも大きく、認識モデルM11は大きい物体用のモデルであり、認識モデルM12は小さい物体用のモデルであるが、これに限らない。物体の大きさ、すなわち物体サイズは、画像において物体が映っている領域の画素数である。例えば、物体がカメラに近ければ物体の大きさは大きくなり、物体がカメラから遠ければ物体の大きさは小さくなる。また、カメラのズームに応じて物体の大きさも変わる。
 記憶部260は、映像認識環境-認識モデルテーブルの一例として、物体の大きさと認識モデルを関連付けた物体サイズ-認識モデルテーブルを記憶する。図21は、物体サイズ-認識モデルテーブルの具体例を示している。この例では、サイズAと認識モデルM11が関連付けられ、サイズBと認識モデルM12が関連付けられている。サイズA及びBは、物体の大きさの範囲を含んでもよい。サイズA及びBは、各認識モデルが学習した映像の物体サイズに対応しており、例えば、サイズAは、サイズBよりも大きいサイズであり、サイズBは、サイズAよりも小さいサイズである。
 物体検出部292は、映像内の物体を検出する。例えば、物体検出部292は、映像の各画像から物体を含む領域を抽出し、抽出した領域内の物体を検出する。認識対象の物体の種別を予め設定しておき、検出された物体のうち認識対象の物体の領域の大きさを物体の大きさとして抽出してもよい。物体検出部292は、機械学習を用いた物体認識エンジンにより画像内の物体を認識してもよい。また、認識モデルM11またはM12から物体検出結果を取得してもよい。
 予測部230は、物体の大きさの変化を予測する。予測部230は、物体検出部292が検出した物体の大きさを定期的に取得し、取得した過去の物体の大きさの履歴に基づいて、物体の大きさの遷移の傾向を抽出し、その後の物体の大きさの変化を予測する。例えば、映像のフレーム間で対象物体をトラッキングし、トラッキングした物体の大きさを比較し、大きさの変化を予測する。
 決定部240は、予測した物体の大きさの変化に応じて、切替先の認識モデル及び切替タイミングを決定する。決定部240は、記憶部260の物体サイズ-認識モデルテーブルを参照し、予測した物体の大きさに対応する認識モデルを決定する。図21の物体サイズ-認識モデルテーブルの例では、物体の大きさがサイズAからサイズBに変わることが予測される場合、認識モデルをM11からM12に切り替えることを決定し、サイズAからサイズBに変わるタイミングを切替タイミングに決定する。例えば、予測される物体の大きさとサイズA及びサイズBとを比較し、予測される物体の大きさがサイズAに近い状態からサイズBに近い状態に変化するタイミングを切替タイミングとする。サイズA及びサイズBが大きさの範囲を含む場合、範囲の中心と比較してもよいし、範囲の任意の値と比較してもよい。
 以上のように、実施の形態1の遠隔監視システムにおいて、映像に含まれる物体の大きさの変化を予測し、予測した物体の大きさの変化に応じて、映像を分析する認識モデルを切り替えてもよい。これにより、物体の大きさの変化に応じて適切に認識モデルを選択するとともに、実施の形態1と同様に、切替先の認識モデルにおける認識精度を向上することができる。
(実施の形態8)
 次に、実施の形態8について説明する。本実施の形態では、映像認識環境の変化として、映像に含まれる物体の動作速度の変化に応じて認識モデルを切り替える例について説明する。
 図22は、本実施の形態に係る遠隔監視システム1の構成例を示している。図22に示すように、本実施の形態では、センターサーバ200は、実施の形態1の構成に加えて、速度分析部293を備えている。その他の構成は実施の形態1と同様である。なお、その他の実施の形態に本実施の形態を適用してもよい。ここでは、主に実施の形態1と異なる構成について説明する。
 本実施の形態では、認識モデルM11及びM12は、認識対象の物体の動作速度が異なる映像を学習した認識モデルである。認識モデルM11は、第1の動作速度の物体の映像を学習し、認識モデルM12は、第2の動作速度の物体の映像を学習している。認識する物体の動作速度に応じて認識モデルの演算量も異なる。例えば、第1の動作速度は、第2の動作速度よりも低く、認識モデルM11は、低速な動作のみ認識可能な低演算量モデルであり、認識モデルM12は、高速な動作まで認識可能な高演算量モデルであるが、これに限らない。なお、第1の動作速度及び第2の動作速度に限らず、第1の動作速度範囲及び第2の動作速度範囲としてもよい。
 記憶部260は、映像認識環境-認識モデルテーブルの一例として、物体の動作速度と認識モデルを関連付けた動作速度-認識モデルテーブルを記憶する。図23は、動作速度-認識モデルテーブルの具体例を示している。この例では、速度Aと認識モデルM11が関連付けられ、速度Bと認識モデルM12が関連付けられている。速度A及びBは、各認識モデルが学習した映像の動作速度に対応しており、例えば、速度Aは、速度Bよりも低速であり、速度Bは、速度Aよりも高速である。
 速度分析部293は、映像内の物体の動作速度を分析する。例えば、速度分析部293は、認識モデルM11またはM12の認識結果に基づいて、動作速度を分析する。認識モデルM11及びM12が作業内容を認識する場合、予め作業内容と動作速度を関連付けておき、認識された作業内容から動作速度を決定してもよい。例えば、人が歩く、地面を均すなどが認識された場合、低速動作であると決定し、人が走る、物を投げるなどが認識された場合、高速動作であると決定する。例えば、映像内の対象物体を検出し、フレーム間における対象物体の移動を抽出し、抽出した移動量から速度を決定してもよい。
 なお、端末100が速度分析部293を備えていてもよい。端末100が速度分析部293を備える場合、映像取得部110が取得する映像に基づいて、映像の動作速度を分析してもよい。例えば、端末100が物体検出部を備え、物体検出部の検出した物体の移動に基づいて、速度分析部293が動作速度を分析してもよい。
 予測部230は、物体の動作速度の変化を予測する。予測部230は、速度分析部293が分析した物体の動作速度を定期的に取得し、取得した過去の物体の動作速度の履歴に基づいて、物体の動作速度の遷移の傾向を抽出し、その後の物体の動作速度の変化を予測する。
 決定部240は、予測した物体の動作速度の変化に応じて、切替先の認識モデル及び切替タイミングを決定する。決定部240は、記憶部260の動作速度-認識モデルテーブルを参照し、予測した物体の動作速度に対応する認識モデルを決定する。図23の動作速度-認識モデルテーブルの例では、物体の動作速度が速度Aから速度Bに変わることが予測される場合、認識モデルをM11からM12に切り替えることを決定し、速度Aから速度Bに変わるタイミングを切替タイミングに決定する。
 以上のように、実施の形態1の遠隔監視システムにおいて、映像に含まれる物体の動作速度の変化を予測し、予測した物体の動作速度の変化に応じて、映像を分析する認識モデルを切り替えてもよい。これにより、物体の動作速度の変化に応じて適切に認識モデルを選択し、必要最小限の演算量で、低速・高速な動作の両方を認識できるとともに、実施の形態1と同様に、切替先の認識モデルにおける認識精度を向上することができる。
(実施の形態9)
 次に、実施の形態9について説明する。本実施の形態では、映像認識環境の変化として、映像の撮影状態の変化に応じて認識モデルを切り替える例について説明する。
 図24は、本実施の形態に係る遠隔監視システム1の構成例を示している。図24に示すように、本実施の形態では、センターサーバ200は、実施の形態1の構成に加えて、状態分析部294を備えている。その他の構成は実施の形態1と同様である。なお、その他の実施の形態に本実施の形態を適用してもよい。ここでは、主に実施の形態1と異なる構成について説明する。
 本実施の形態では、認識モデルM11及びM12は、映像の撮影状態が異なる映像を学習したモデルである。撮影状態は、固定カメラを固定した位置から撮影する固定撮影や、移動カメラにより移動する位置から撮影する移動撮影などである。例えば、認識モデルM11は、固定撮影により撮影した映像を学習し、認識モデルM12は、移動撮影により撮影した映像を学習している。なお、固定撮影/移動撮影に限らず、認識モデルM11は、第1の移動速度、例えば低速移動により移動して撮影した映像を学習し、認識モデルM12は、第2の移動速度、例えば高速移動により移動して撮影した映像を学習してもよい。
 記憶部260は、映像認識環境-認識モデルテーブルの一例として、撮影状態と認識モデルを関連付けた撮影状態-認識モデルテーブルを記憶する。図25は、撮影状態-認識モデルテーブルの具体例を示している。この例では、固定撮影と認識モデルM11が関連付けられ、移動撮影と認識モデルM12が関連付けられている。移動速度を関連付ける場合、移動速度の範囲を関連付けてもよい。
 状態分析部294は、映像の撮影状態を分析する。状態分析部294は、認識モデルM11またはM12の認識結果に基づいて、固定撮影や移動撮影などの撮影状態を検出してもよい。例えば、カメラが車載オンボードカメラであり、映像に交差点の信号機が写っている場合、正面の信号機の色に応じて、撮影状態を決定してもよい。また、車載オンボードカメラの場合、車両から取得する車両の制御情報やユーザの操作情報に応じて撮影状態を検出してもよい。例えば、車両の速度情報、エンジンのオン/オフ、シフトレバー、ブレーキペダル、アクセルペダルの操作に応じて、撮影状態を決定してもよい。
 なお、端末100が状態分析部294を備えていてもよい。端末100が状態分析部294を備える場合、映像取得部110が取得する映像に基づいて、映像の撮影状態を分析してもよい。例えば、端末100が物体検出部を備え、物体検出部の検出した物体の色や移動に基づいて、状態分析部294が撮影状態を分析してもよい。
 予測部230は、映像の撮影状態の変化を予測する。予測部230は、状態分析部294が分析した撮影状態を定期的に取得し、取得した過去の撮影状態の履歴に基づいて、その後の撮影状態の変化を予測する。例えば、固定撮影/移動撮影を検出している場合、過去の履歴から固定撮影と移動撮影の変化を予測する。また、正面の信号機の色を検出している場合、信号機の色が変わることを予測することで車両の走行状況を推定し、固定撮影と移動撮影の変化を予測してもよい。車両のユーザの操作情報を検出している場合、次のユーザの操作を予想することで車両の走行状況を推定し、固定撮影と移動撮影の変化を予測してもよい。
 決定部240は、予測した映像の撮影状態の変化に応じて、切替先の認識モデル及び切替タイミングを決定する。決定部240は、記憶部260の撮影状態-認識モデルテーブルを参照し、予測した撮影状態に対応する認識モデルを決定する。図25の撮影状態-認識モデルテーブルの例では、撮影状態が固定撮影から移動撮影に変わることが予測される場合、認識モデルをM11からM12に切り替えることを決定し、固定撮影から移動撮影に変わるタイミングを切替タイミングに決定する。また、正面の信号機の色を検出している場合、信号機の色が赤から青に変わるタイミングを固定撮影から移動撮影に変わるタイミングとして、切替先の認識モデル及び切替タイミングを決定してもよい。車両のユーザの操作を予測している場合、アクセルペダルの操作を開始するタイミングを固定撮影から移動撮影に変わるタイミングとして、切替先の認識モデル及び切替タイミングを決定してもよい。
 以上のように、実施の形態1の遠隔監視システムにおいて、カメラの移動開始など映像の撮影状態の変化を予測し、予測した撮影状態の変化に応じて、映像を分析する認識モデルを切り替えてもよい。これにより、映像の撮影状態の変化に応じて適切に認識モデルを選択するとともに、実施の形態1と同様に、切替先の認識モデルにおける認識精度を向上することができる。
(実施の形態10)
 次に、実施の形態10について説明する。本実施の形態では、2つの認識モデルを異なる地点に配置し、映像認識環境の変化として、映像の演算量の変化に応じて認識モデルを切り替える例について説明する。
 図26は、本実施の形態に係る遠隔監視システム1の構成例を示している。図26に示すように、本実施の形態では、基本的な構成は実施の形態1と同様であるが、各部の配置が異なる。すなわち、MEC400に認識モデルM11を備え、センターサーバ200に認識モデルM12を備える。また、端末100に、予測部230、決定部240、切替部250、記憶部260を備える。さらに、端末100に演算量分析部295を備える。なお、その他の実施の形態に本実施の形態を適用してもよい。ここでは、主に実施の形態1と異なる構成について説明する。
 本実施の形態では、認識モデルM11及びM12は、演算能力が異なり、映像の分析及び認識に必要な演算量が異なる映像を学習した認識モデルである。認識モデルM11は、第1の演算量で分析及び認識可能な映像を学習し、認識モデルM12は、第2の演算量で分析及び認識可能な映像を学習している。例えば、第1の演算量は、第2の演算量よりも低く、認識モデルM11は、低演算量モデルであり、認識モデルM12は、高演算量モデルであるが、これに限らない。
 記憶部260は、映像認識環境-認識モデルテーブルの一例として、分析及び認識可能な映像の演算量と認識モデルを関連付けた演算量-認識モデルテーブルを記憶する。図27は、演算量-認識モデルテーブルの具体例を示している。この例では、演算量Aと認識モデルM11が関連付けられ、演算量Bと認識モデルM12が関連付けられている。演算量A及びBは、演算量の範囲を含んでもよい。演算量A及びBは、各認識モデルが学習した映像の演算量に対応しており、例えば、演算量Aは、演算量Bよりも低い低演算量であり、演算量Bは、演算量Aよりも高い高演算量である。
 演算量分析部295は、映像の分析及び認識に必要な演算量を分析する。例えば、演算量分析部295は、物体と演算量を関連付けておき、映像内の物体を検出し、検出された物体から演算量を決定してもよい。映像内の物体を検出し、フレーム間における物体の移動を抽出し、抽出した移動量から演算量を決定してもよい。また、認識モデルM11及びM12が認識する行動と演算量を関連付けておき、認識モデルM11またはM12から認識結果を取得し、認識された行動から演算量を決定してもよい。
 予測部230は、映像の分析及び認識に必要な演算量の変化を予測する。予測部230は、演算量分析部295が分析した演算量を定期的に取得し、取得した過去の演算量の履歴に基づいて、その後の演算量の変化を予測する。
 決定部240は、予測した演算量の変化に応じて、切替先の認識モデル及び切替タイミングを決定する。決定部240は、記憶部260の演算量-認識モデルテーブルを参照し、予測した演算量に対応する認識モデルを決定する。図27の演算量-認識モデルテーブルの例では、演算量Aから演算量Bに変わることが予測される場合、認識モデルをM11からM12に切り替えることを決定し、演算量Aから演算量Bに変わるタイミングを切替タイミングに決定する。
 切替部250は、決定部240が決定した認識モデルへ映像を送信する。認識モデルM11を選択した場合、MEC400へ映像を送信し、認識モデルM12を選択した場合、センターサーバ200へ映像を送信する。切替部250は、切替タイミングに応じて映像の送信先を切り替える。事前入力タイミングから切替タイミングまでは、切替前の認識モデルと切替後の認識モデルへ映像を送信し、切替タイミング後は、切替後の認識モデルへ映像を送信する。
 以上のように、実施の形態1の遠隔監視システムにおいて、演算量の異なる認識モデルを別の地点に配置してもよい。例えば、低演算量モデルをMECで実行し、高演算量モデルをセンターで実行することで、MECとセンターの計算リソースを効率的に利用し、システム全体で分析及び認識可能な映像数を増加させることができる。
 また、MECの認識モデルによる認識結果を端末側や現場で利用することがある。センター側よりMECの方が現場に近いことが多いため、認識結果をMECの方が早く端末や現場の機器に送信することができる。その結果、本実施の形態では、MECの認識モデルも活用することで、端末側や現場での認識結果の利用を素早く行うことができる。
(実施の形態11)
 次に、実施の形態11について説明する。本実施の形態では、2つの認識モデルを異なる地点に配置し、映像認識環境の変化として、映像を伝送する帯域の変化に応じて認識モデルを切り替える例について説明する。
 図28は、本実施の形態に係る遠隔監視システム1の構成例を示している。図28に示すように、本実施の形態では、実施の形態10と比べて、端末100に演算量分析部295の代わりに帯域取得部296を備える。その他の構成は実施の形態10と同様である。ここでは、主に実施の形態10と異なる構成について説明する。本実施の形態では、認識モデルM11及びM12は、実施の形態10のように演算量が異なる認識モデルでもよいし、同じ認識モデルでもよい。
 記憶部260は、映像認識環境-認識モデルテーブルの一例として、端末とセンターサーバ間の伝送帯域、すなわち帯域幅と認識モデルを関連付けた伝送帯域-認識モデルテーブルを記憶する。図29は、伝送帯域-認識モデルテーブルの具体例を示している。この例では、伝送帯域Aと認識モデルM11が関連付けられ、伝送帯域Bと認識モデルM12が関連付けられている。伝送帯域Aと伝送帯域Bは、帯域幅が異なる。例えば、伝送帯域Aは、伝送帯域Bよりも狭い狭帯域であり、伝送帯域Bは、伝送帯域Aよりも広い高い広帯域である。
 帯域取得部296は、端末100とセンターサーバ200の間の伝送帯域を取得する。端末通信部130から送信するデータ量に基づいて推定される通信速度に基づいて伝送帯域を求めてもよい。基地局300または端末100が測定した通信速度を取得し、取得した通信速度から伝送帯域を決定してもよい。
 予測部230は、伝送帯域の変化を予測する。予測部230は、帯域取得部296が取得した伝送帯域を定期的に取得し、取得した過去の伝送帯域の履歴に基づいて、伝送帯域の遷移の傾向を抽出し、その後の伝送帯域の変化を予測する。
 決定部240は、予測した伝送帯域の変化に応じて、切替先の認識モデル及び切替タイミングを決定する。決定部240は、記憶部260の伝送帯域-認識モデルテーブルを参照し、予測した伝送帯域に対応する認識モデルを決定する。図29の伝送帯域-認識モデルテーブルの例では、伝送帯域Aから伝送帯域Bに変わることが予測される場合、認識モデルをM11からM12に切り替えることを決定し、伝送帯域Aから伝送帯域Bに変わるタイミングを切替タイミングに決定する。
 以上のように、実施の形態10の遠隔監視システムにおいて、2つの認識モデルを別の地点に配置し、伝送帯域の変化に応じて認識モデルを切り替えてもよい。現場とセンターの間のネットワーク帯域が十分ならセンターで認識モデルの映像認識を実行し、不十分ならMECで認識モデルの映像認識を実行してもよい。これにより、センターで低画質映像を分析することによる分析精度低下を防止できる。また、より高品質な映像をMEC又はセンター側の認識モデルに送信することができ、1か所に認識モデルが存在する場合よりも、認識精度を向上することができる。
 なお、本開示は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。
 上述の実施形態における各構成は、ハードウェア又はソフトウェア、もしくはその両方によって構成され、1つのハードウェア又はソフトウェアから構成してもよいし、複数のハードウェア又はソフトウェアから構成してもよい。各装置及び各機能(処理)を、図30に示すような、CPU(Central Processing Unit)等のプロセッサ31及び記憶装置であるメモリ32を有するコンピュータ30により実現してもよい。例えば、メモリ32に実施形態における方法(映像処理方法)を行うためのプログラムを格納し、各機能を、メモリ32に格納されたプログラムをプロセッサ31で実行することにより実現してもよい。
 これらのプログラムは、コンピュータに読み込まれた場合に、実施形態で説明された1又はそれ以上の機能をコンピュータに行わせるための命令群(又はソフトウェアコード)を含む。プログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、コンピュータ可読媒体又は実体のある記憶媒体は、random-access memory(RAM)、read-only memory(ROM)、フラッシュメモリ、solid-state drive(SSD)又はその他のメモリ技術、CD-ROM、digital versatile disc(DVD)、Blu-ray(登録商標)ディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含む。プログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含む。
 以上、実施の形態を参照して本開示を説明したが、本開示は上記実施の形態に限定されるものではない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解し得る様々な変更をすることができる。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
 第1の映像認識環境に対応する映像を分析する第1の映像分析モデルと、
 第2の映像認識環境に対応する映像を分析する第2の映像分析モデルと、
 入力される映像入力データでの前記第1の映像認識環境から前記第2の映像認識環境への変化に応じて、前記映像入力データを分析する映像分析モデルを前記第1の映像分析モデルから前記第2の映像分析モデルに切り替える切替手段と、を備え、
 前記切替手段は、前記映像入力データでの前記第1の映像認識環境から前記第2の映像認識環境への変化に応じて、切替タイミングよりも所定期間前のデータを含む映像入力データを、前記第2の映像分析モデルに入力する、
 映像処理システム。
(付記2)
 前記切替タイミングよりも前のデータを含む映像入力データは、前記第2の映像分析モデルが映像認識を行うために使用するフレーム数のデータを含む映像入力データである、
 付記1に記載の映像処理システム。
(付記3)
 前記切替手段は、前記フレーム数の映像入力データを前記第1及び第2の映像分析モデルの両方に入力する、
 付記2に記載の映像処理システム。
(付記4)
 前記映像入力データにおける映像認識環境の変化を予測する予測手段を備え、
 前記切替手段は、前記予測された映像認識環境の変化に応じて、前記映像分析モデルを切り替える、
 付記1から3のいずれか一項に記載の映像処理システム。
(付記5)
 前記映像認識環境は、映像の品質を示す映像パラメータを含む、
 付記1から4のいずれか一項に記載の映像処理システム。
(付記6)
 前記映像パラメータは、フレームレートを含み、
 前記映像入力データを入力する映像分析モデルに応じて、前記映像入力データのフレーム間隔を特定する特定手段を備える、
 付記5に記載の映像処理システム。
(付記7)
 前記映像入力データを、ネットワークを介して受信する受信手段を備え、
 前記映像認識環境は、前記受信手段が受信した前記映像入力データの通信品質を含む、
 付記1から6のいずれか一項に記載の映像処理システム。
(付記8)
 前記映像認識環境は、映像を撮影したシーン、映像に含まれる物体の大きさ、映像に含まれる物体の動作速度、または、映像を撮影した撮影状態を含む、
 付記1から7のいずれか一項に記載の映像処理システム。
(付記9)
 前記第1の映像分析モデルは、エッジ及びクラウドの一方に配置され、
 前記第2の映像分析モデルは、前記エッジ及び前記クラウドの他方に配置される、
 付記1から8のいずれか一項に記載の映像処理システム。
(付記10)
 第1の映像認識環境に対応する映像を分析する第1の映像分析モデルと、
 第2の映像認識環境に対応する映像を分析する第2の映像分析モデルと、
 入力される映像入力データでの前記第1の映像認識環境から前記第2の映像認識環境への変化に応じて、前記映像入力データを分析する映像分析モデルを前記第1の映像分析モデルから前記第2の映像分析モデルに切り替える切替手段と、を備え、
 前記切替手段は、前記映像入力データでの前記第1の映像認識環境から前記第2の映像認識環境への変化に応じて、切替タイミングよりも所定期間前のデータを含む映像入力データを、前記第2の映像分析モデルに入力する、
 映像処理装置。
(付記11)
 前記切替タイミングよりも所定期間前のデータを含む映像入力データは、前記第2の映像分析モデルが映像認識を行うために使用するフレーム数のデータを含む映像入力データである、
 付記10に記載の映像処理装置。
(付記12)
 前記切替手段は、前記フレーム数の映像入力データを前記第1及び第2の映像分析モデルの両方に入力する、
 付記11に記載の映像処理装置。
(付記13)
 前記映像入力データにおける映像認識環境の変化を予測する予測手段を備え、
 前記切替手段は、前記予測された映像認識環境の変化に応じて、前記映像分析モデルを切り替える、
 付記10から12のいずれか一項に記載の映像処理装置。
(付記14)
 前記映像認識環境は、映像の品質を示す映像パラメータを含む、
 付記10から13のいずれか一項に記載の映像処理装置。
(付記15)
 前記映像パラメータは、フレームレートを含み、
 前記映像入力データを入力する映像分析モデルに応じて、前記映像入力データのフレーム間隔を特定する特定手段を備える、
 付記14に記載の映像処理装置。
(付記16)
 入力される映像入力データでの第1の映像認識環境から第2の映像認識環境への変化に応じて、前記映像入力データを分析する映像分析モデルを、前記第1の映像認識環境に対応する映像を分析する第1の映像分析モデルから、前記第2の映像認識環境に対応する映像を分析する第2の映像分析モデルに切り替え、
 前記映像入力データでの前記第1の映像認識環境から前記第2の映像認識環境への変化に応じて、切替タイミングよりも所定期間前のデータを含む映像入力データを、前記第2の映像分析モデルに入力する、
 映像処理方法。
(付記17)
 前記切替タイミングよりも所定期間前のデータを含む映像入力データは、前記第2の映像分析モデルが映像認識を行うために使用するフレーム数のデータを含む映像入力データである、
 付記16記載の映像処理方法。
(付記18)
 前記フレーム数の映像入力データを前記第1及び第2の映像分析モデルの両方に入力する、
 付記17に記載の映像処理方法。
(付記19)
 前記映像入力データにおける映像認識環境の変化を予測する予測し、
 前記予測された映像認識環境の変化に応じて、前記映像分析モデルを切り替える、
 付記16から18のいずれか一項に記載の映像処理方法。
(付記20)
 前記映像認識環境は、映像の品質を示す映像パラメータを含む、
 付記16から19のいずれか一項に記載の映像処理方法。
(付記21)
 前記映像パラメータは、フレームレートを含み、
 前記映像入力データを入力する映像分析モデルに応じて、前記映像入力データのフレーム間隔を特定する、
 付記20に記載の映像処理方法。
(付記22)
 入力される映像入力データでの第1の映像認識環境から第2の映像認識環境への変化に応じて、前記映像入力データを分析する映像分析モデルを、前記第1の映像認識環境に対応する映像を分析する第1の映像分析モデルから、前記第2の映像認識環境に対応する映像を分析する第2の映像分析モデルに切り替え、
 前記映像入力データでの前記第1の映像認識環境から前記第2の映像認識環境への変化に応じて、切替タイミングよりも所定期間前のデータを含む映像入力データを、前記第2の映像分析モデルに入力する、
 処理をコンピュータに実行させるための映像処理プログラム。
1   遠隔監視システム
10  映像処理システム
11  切替部
20、21、22  映像処理装置
30  コンピュータ
31  プロセッサ
32  メモリ
100 端末
101 カメラ
102 圧縮効率最適化機能
110 映像取得部
120 エンコーダ
130 端末通信部
200 センターサーバ
201 映像認識機能
202 アラート生成機能
203 GUI描画機能
204 画面表示機能
210 センター通信部
220 デコーダ
230 予測部
240 決定部
250 切替部
260 記憶部
270 バッファ
280 フレーム特定部
290 通信品質測定部
291 シーン分析部
292 物体検出部
293 速度分析部
294 状態分析部
295 演算量分析部
296 帯域取得部
300 基地局
400 MEC
401 圧縮ビットレート制御機能
M1、M2、M11、M12 認識モデル

Claims (21)

  1.  第1の映像認識環境に対応する映像を分析する第1の映像分析モデルと、
     第2の映像認識環境に対応する映像を分析する第2の映像分析モデルと、
     入力される映像入力データでの前記第1の映像認識環境から前記第2の映像認識環境への変化に応じて、前記映像入力データを分析する映像分析モデルを前記第1の映像分析モデルから前記第2の映像分析モデルに切り替える切替手段と、を備え、
     前記切替手段は、前記映像入力データでの前記第1の映像認識環境から前記第2の映像認識環境への変化に応じて、切替タイミングよりも所定期間前のデータを含む映像入力データを、前記第2の映像分析モデルに入力する、
     映像処理システム。
  2.  前記切替タイミングよりも所定期間前のデータを含む映像入力データは、前記第2の映像分析モデルが映像認識を行うために使用するフレーム数のデータを含む映像入力データである、
     請求項1に記載の映像処理システム。
  3.  前記切替手段は、前記フレーム数の映像入力データを前記第1及び第2の映像分析モデルの両方に入力する、
     請求項2に記載の映像処理システム。
  4.  前記映像入力データにおける映像認識環境の変化を予測する予測手段を備え、
     前記切替手段は、前記予測された映像認識環境の変化に応じて、前記映像分析モデルを切り替える、
     請求項1から3のいずれか一項に記載の映像処理システム。
  5.  前記映像認識環境は、映像の品質を示す映像パラメータを含む、
     請求項1から4のいずれか一項に記載の映像処理システム。
  6.  前記映像パラメータは、フレームレートを含み、
     前記映像入力データを入力する映像分析モデルに応じて、前記映像入力データのフレーム間隔を特定する特定手段を備える、
     請求項5に記載の映像処理システム。
  7.  前記映像入力データを、ネットワークを介して受信する受信手段を備え、
     前記映像認識環境は、前記受信手段が受信した前記映像入力データの通信品質を含む、
     請求項1から6のいずれか一項に記載の映像処理システム。
  8.  前記映像認識環境は、映像を撮影したシーン、映像に含まれる物体の大きさ、映像に含まれる物体の動作速度、または、映像を撮影した撮影状態を含む、
     請求項1から7のいずれか一項に記載の映像処理システム。
  9.  前記第1の映像分析モデルは、エッジ及びクラウドの一方に配置され、
     前記第2の映像分析モデルは、前記エッジ及び前記クラウドの他方に配置される、
     請求項1から8のいずれか一項に記載の映像処理システム。
  10.  第1の映像認識環境に対応する映像を分析する第1の映像分析モデルと、
     第2の映像認識環境に対応する映像を分析する第2の映像分析モデルと、
     入力される映像入力データでの前記第1の映像認識環境から前記第2の映像認識環境への変化に応じて、前記映像入力データを分析する映像分析モデルを前記第1の映像分析モデルから前記第2の映像分析モデルに切り替える切替手段と、を備え、
     前記切替手段は、前記映像入力データでの前記第1の映像認識環境から前記第2の映像認識環境への変化に応じて、切替タイミングよりも所定期間前のデータを含む映像入力データを、前記第2の映像分析モデルに入力する、
     映像処理装置。
  11.  前記切替タイミングよりも所定期間前のデータを含む映像入力データは、前記第2の映像分析モデルが映像認識を行うために使用するフレーム数のデータを含む映像入力データである、
     請求項10に記載の映像処理装置。
  12.  前記切替手段は、前記フレーム数の映像入力データを前記第1及び第2の映像分析モデルの両方に入力する、
     請求項11に記載の映像処理装置。
  13.  前記映像入力データにおける映像認識環境の変化を予測する予測手段を備え、
     前記切替手段は、前記予測された映像認識環境の変化に応じて、前記映像分析モデルを切り替える、
     請求項10から12のいずれか一項に記載の映像処理装置。
  14.  前記映像認識環境は、映像の品質を示す映像パラメータを含む、
     請求項10から13のいずれか一項に記載の映像処理装置。
  15.  前記映像パラメータは、フレームレートを含み、
     前記映像入力データを入力する映像分析モデルに応じて、前記映像入力データのフレーム間隔を特定する特定手段を備える、
     請求項14に記載の映像処理装置。
  16.  入力される映像入力データでの第1の映像認識環境から第2の映像認識環境への変化に応じて、前記映像入力データを分析する映像分析モデルを、前記第1の映像認識環境に対応する映像を分析する第1の映像分析モデルから、前記第2の映像認識環境に対応する映像を分析する第2の映像分析モデルに切り替え、
     前記映像入力データでの前記第1の映像認識環境から前記第2の映像認識環境への変化に応じて、切替タイミングよりも所定期間前のデータを含む映像入力データを、前記第2の映像分析モデルに入力する、
     映像処理方法。
  17.  前記切替タイミングよりも所定期間前のデータを含む映像入力データは、前記第2の映像分析モデルが映像認識を行うために使用するフレーム数のデータを含む映像入力データである、
     請求項16記載の映像処理方法。
  18.  前記フレーム数の映像入力データを前記第1及び第2の映像分析モデルの両方に入力する、
     請求項17に記載の映像処理方法。
  19.  前記映像入力データにおける映像認識環境の変化を予測する予測し、
     前記予測された映像認識環境の変化に応じて、前記映像分析モデルを切り替える、
     請求項16から18のいずれか一項に記載の映像処理方法。
  20.  前記映像認識環境は、映像の品質を示す映像パラメータを含む、
     請求項16から19のいずれか一項に記載の映像処理方法。
  21.  前記映像パラメータは、フレームレートを含み、
     前記映像入力データを入力する映像分析モデルに応じて、前記映像入力データのフレーム間隔を特定する、
     請求項20に記載の映像処理方法。
PCT/JP2022/027713 2022-07-14 2022-07-14 映像処理システム、映像処理装置及び映像処理方法 WO2024013936A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/027713 WO2024013936A1 (ja) 2022-07-14 2022-07-14 映像処理システム、映像処理装置及び映像処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/027713 WO2024013936A1 (ja) 2022-07-14 2022-07-14 映像処理システム、映像処理装置及び映像処理方法

Publications (1)

Publication Number Publication Date
WO2024013936A1 true WO2024013936A1 (ja) 2024-01-18

Family

ID=89536259

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/027713 WO2024013936A1 (ja) 2022-07-14 2022-07-14 映像処理システム、映像処理装置及び映像処理方法

Country Status (1)

Country Link
WO (1) WO2024013936A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019509566A (ja) * 2016-03-11 2019-04-04 クゥアルコム・インコーポレイテッドQualcomm Incorporated ビデオ理解のための動きベースアテンションを用いたリカレントネットワーク
JP2020057111A (ja) * 2018-09-28 2020-04-09 パナソニックIpマネジメント株式会社 表情判定システム、プログラム及び表情判定方法
JP2021111273A (ja) * 2020-01-15 2021-08-02 株式会社Mobility Technologies 学習モデルの生成方法、プログラム及び情報処理装置
WO2021210269A1 (ja) * 2020-04-13 2021-10-21 日本電気株式会社 映像分析装置、映像分析システム及び映像分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019509566A (ja) * 2016-03-11 2019-04-04 クゥアルコム・インコーポレイテッドQualcomm Incorporated ビデオ理解のための動きベースアテンションを用いたリカレントネットワーク
JP2020057111A (ja) * 2018-09-28 2020-04-09 パナソニックIpマネジメント株式会社 表情判定システム、プログラム及び表情判定方法
JP2021111273A (ja) * 2020-01-15 2021-08-02 株式会社Mobility Technologies 学習モデルの生成方法、プログラム及び情報処理装置
WO2021210269A1 (ja) * 2020-04-13 2021-10-21 日本電気株式会社 映像分析装置、映像分析システム及び映像分析方法

Similar Documents

Publication Publication Date Title
US10691949B2 (en) Action recognition in a video sequence
US11190570B2 (en) Video encoding using starve mode
EP3340103A1 (en) Method for identifying events in a motion video
JP5899518B2 (ja) サーバ装置、システム制御方法及びシステム制御プログラム
JP5766877B2 (ja) 類似度、視覚的品質、および関心に基づくフレーム符号化選択
US10999577B2 (en) Quantization parameter determination method and image capture apparatus
WO2020090285A1 (ja) 通信装置、通信制御方法、及び非一時的なコンピュータ可読媒体
CN115989530A (zh) 生成并处理视频数据
US20200322663A1 (en) Controlled Uplink Adaptive Streaming based on Server Performance Measurement Data
WO2021070215A1 (ja) 映像分析方法、映像分析システム及び情報処理装置
WO2024013936A1 (ja) 映像処理システム、映像処理装置及び映像処理方法
CN113784081A (zh) 用于动态选择编解码器的方法、介质和系统
KR102664027B1 (ko) 인공지능에 기반하여 영상을 분석하는 카메라 및 그것의 동작 방법
WO2024042705A1 (ja) 映像処理システム、映像処理方法、及び映像処理装置
US20220294971A1 (en) Collaborative object detection
Guo et al. DeepStream: Bandwidth efficient multi-camera video streaming for deep learning analytics
WO2024013933A1 (ja) 映像処理システム、映像処理装置及び映像処理方法
WO2024038517A1 (ja) 映像処理システム、映像処理方法、及び画質制御装置
CN114125275B (zh) 拍摄装置的带宽调整方法、装置、计算机设备和存储介质
WO2024047791A1 (ja) 映像処理システム、映像処理方法、及び映像処理装置
WO2023007645A1 (ja) データ配信システム、通信品質予測装置、データ送信装置及びデータ送信方法
JP7444253B2 (ja) 通信制御システム及び通信制御方法
CN115037701B (zh) 视频处理方法、装置、服务器及介质
KR102110502B1 (ko) 신택스 기반 객체 ROI 압축을 이용한 PoE 카메라 연동형 트랜스코더 장치
KR200491642Y1 (ko) 신택스 기반 객체 ROI 압축을 이용한 PoE 카메라 연동형 트랜스코더 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22951150

Country of ref document: EP

Kind code of ref document: A1