WO2024047794A1 - 映像処理システム、映像処理装置及び映像処理方法 - Google Patents

映像処理システム、映像処理装置及び映像処理方法 Download PDF

Info

Publication number
WO2024047794A1
WO2024047794A1 PCT/JP2022/032764 JP2022032764W WO2024047794A1 WO 2024047794 A1 WO2024047794 A1 WO 2024047794A1 JP 2022032764 W JP2022032764 W JP 2022032764W WO 2024047794 A1 WO2024047794 A1 WO 2024047794A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
detection result
image quality
video processing
person
Prior art date
Application number
PCT/JP2022/032764
Other languages
English (en)
French (fr)
Inventor
勇人 逸身
浩一 二瓶
フロリアン バイエ
勝彦 高橋
康敬 馬場崎
隆平 安藤
君 朴
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2022/032764 priority Critical patent/WO2024047794A1/ja
Publication of WO2024047794A1 publication Critical patent/WO2024047794A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/2662Controlling the complexity of the video stream, e.g. by scaling the resolution or bitrate of the video stream based on the client capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering

Definitions

  • the present disclosure relates to a video processing system, a video processing device, and a video processing method.
  • Patent Document 1 Based on images and videos, technologies have been developed to detect objects, including people, and to recognize the state of objects, including people's actions. As a related technique, for example, Patent Document 1 is known. Patent Document 1 describes a technique for detecting an object by using images with different resolutions and frame rates in a first object detection means and a second object detection means.
  • the present disclosure aims to provide a video processing system, a video processing device, and a video processing method that can improve the accuracy of object detection or recognition.
  • the video processing system includes a first object detection unit that detects an object included in an input video, and controls the image quality of a region including the object in the video based on the detection result of the object.
  • the apparatus includes an image quality control means, and a transmission means for transmitting the detection result of the object and the video whose image quality has been controlled.
  • a video processing device includes an object detection unit that detects an object included in an input video, and an image quality control unit that controls the image quality of a region including the object in the video based on a detection result of the object. and a transmitting means for transmitting the detection result of the object and the video whose image quality has been controlled.
  • a video processing method detects an object included in an input video, controls the image quality of a region including the object in the video based on the detection result of the object, and controls the image quality of a region including the object in the video based on the detection result of the object.
  • the image quality-controlled video is transmitted.
  • FIG. 1 is a configuration diagram showing an overview of a video processing system according to an embodiment.
  • FIG. 1 is a configuration diagram showing an overview of a video processing device according to an embodiment.
  • 1 is a flowchart showing an overview of a video processing method according to an embodiment.
  • FIG. 2 is a diagram for explaining a video processing method according to an embodiment.
  • FIG. 1 is a configuration diagram showing the basic configuration of a remote monitoring system according to an embodiment.
  • 1 is a configuration diagram showing a configuration example of a terminal according to Embodiment 1.
  • FIG. 1 is a configuration diagram showing an example configuration of a center server according to Embodiment 1.
  • FIG. 3 is a flowchart illustrating an example of the operation of the remote monitoring system according to the first embodiment.
  • FIG. 1 is a configuration diagram showing an overview of a video processing device according to an embodiment.
  • 1 is a flowchart showing an overview of a video processing method according to an embodiment.
  • FIG. 2 is a diagram for explaining a
  • FIG. 3 is a diagram for explaining video acquisition processing according to the first embodiment.
  • FIG. 3 is a diagram for explaining object detection processing according to the first embodiment.
  • FIG. 3 is a diagram for explaining image quality control processing according to the first embodiment.
  • FIG. 3 is a diagram for explaining object detection result extraction processing according to the first embodiment.
  • FIG. 3 is a diagram for explaining object detection processing according to the first embodiment.
  • FIG. 2 is a configuration diagram showing a configuration example of a terminal according to Embodiment 2.
  • FIG. FIG. 2 is a configuration diagram showing a configuration example of a center server according to a second embodiment.
  • FIG. 7 is a configuration diagram showing a configuration example of a terminal according to Embodiment 3;
  • FIG. 7 is a configuration diagram showing a configuration example of a center server according to Embodiment 3; 7 is a diagram showing an example of an object-work correspondence table according to Embodiment 3.
  • FIG. 7 is a diagram for explaining behavior recognition processing according to Embodiment 3;
  • FIG. 7 is a configuration diagram showing an example of the configuration of a terminal according to Embodiment 4.
  • FIG. 7 is a configuration diagram showing an example configuration of a center server according to Embodiment 4;
  • FIG. 12 is a diagram showing an example of a person-work correspondence table according to Embodiment 4;
  • FIG. 7 is a diagram for explaining behavior recognition processing according to Embodiment 4; 12 is a configuration diagram showing an example of the configuration of a terminal according to Embodiment 5.
  • FIG. 5 is a configuration diagram showing a configuration example of a center server according to Embodiment 3.
  • FIG. 12 is a diagram showing an example of a related object association table according to Embodiment 5.
  • FIG. 12 is a diagram showing another example of the related object association table according to the fifth embodiment.
  • FIG. FIG. 7 is a configuration diagram showing an example of the configuration of a terminal according to Embodiment 6;
  • FIG. 12 is a diagram showing an example of a work-object association table according to the sixth embodiment.
  • FIG. 12 is a diagram showing another example of the work-object association table according to the sixth embodiment.
  • FIG. 1 is a configuration diagram showing an overview of the hardware of a computer according to an embodiment.
  • FIG. 1 shows a schematic configuration of a video processing system 10 according to an embodiment.
  • the video processing system 10 is applicable to, for example, a remote monitoring system that transmits video via a network and recognizes the transmitted video. Recognizing an image means recognizing an object included in the image. Recognition of objects included in images includes detection of objects included in images and recognition of states related to objects, such as recognition of the existence of objects including people, recognition of types and attributes of objects including people, This includes recognition of people's actions, recognition of object states, etc. Note that transmitting a video is also expressed as distributing the video.
  • the video processing system 10 includes an object detection section 11, an image quality control section 12, and a transmission section 13.
  • the object detection unit 11 detects an object included in an input video. Detecting an object includes specifying the type of object included in the video and identifying the object. Identifying the type of object is identifying the type of object, such as a person, a chair, or a rolling machine. Object identification refers to uniquely identifying a person as a specific person or an individual work vehicle.
  • the object detection unit 11 is a first object detection unit.
  • objects in the video include a person performing work, a work object used by the person during work, and the like.
  • the image quality control unit 12 controls the image quality of the area including the object in the video based on the object detection result. For example, when an object such as a person or a work object is detected from the video, the image quality control unit 12 may increase the image quality of a selected specific area of each object area compared to other areas, or An area may have lower image quality than other areas. Improving the image quality of a specific area means making the image quality of the specific area better than other areas, and is also expressed as making the image clearer. Reducing the image quality of a specific area means lowering the image quality of the specific area compared to other areas. The image quality of a specific area may be increased by lowering the image quality of other areas than that of the specific area.
  • the image quality of a specific area may be lowered by making other areas higher in image quality than the specific area. For example, when lowering the image quality of a specific area, the compression rate of the specific area may be increased or the resolution may be lowered. When increasing the image quality of a specific area, the compression rate of the specific area may be lowered or the resolution may be increased.
  • the transmitting unit 13 transmits the object detection result and the video whose image quality has been controlled. For example, the transmitting unit 13 transmits the detection result of an object included in a region whose image quality has been reduced among the detected objects, and the video whose image quality has been controlled, via the network.
  • the transmitter 13 transmits, for example, the type and position information of the object as the object detection result.
  • Object detection results include the feature amount of the area containing the object in the video, the positional relationship between the first object and the second object, and person identification information and attributes that uniquely identify the person or object or identify the attributes of the object. Identification information etc. may also be transmitted.
  • the person identification information is identification information that identifies an individual identified by face authentication, and may be, for example, the name of each person or an identification number assigned to each person.
  • Attribute identification information is identification information that identifies the affiliation of an object in the video, and may be, for example, the job type of each person or the company to which they belong, or the identification number assigned to each job type or company, or the ownership of each object. It may be the company or organization that manufactures the object, or the company or organization that manufactured the object.
  • the attribute identification information may be identified, for example, from a code indicating an attribute or group attached to or displayed on an object such as a machine or clothing.
  • a feature amount is an index or numerical value that represents the characteristics of an object to be analyzed such as an image.
  • the video processing system 10 may further include a second object detection unit that uses the object detection result transmitted from the transmission unit 13 to detect an object in the transmitted video.
  • the video processing system 10 may further include a state recognition unit that uses the detection result of the object transmitted from the transmission unit 13 to recognize the state of the object in the transmitted video.
  • the state of an object includes the behavior of a person and the state in which an object, such as an autonomously moving heavy machine, is moving.
  • the transmitter 13 transmits information that can be used for object detection by the second object detector or state recognition by the state recognizer as the object detection result.
  • FIG. 2 illustrates the configuration of the video processing device 20 according to the embodiment.
  • the video processing device 20 may include the object detection section 11, the image quality control section 12, and the transmission section 13 shown in FIG.
  • part or all of the video processing system 10 may be placed at the edge or in the cloud. Placing part or all of the video processing system at the edge means, for example, in an integrated system that includes the video processing system, the video processing system is placed in a location away from the equipment that performs the central processing of the integrated system. Refers to placing part or all of.
  • the edge refers to the site or a location near the site.
  • the edge terminal may include the object detection section 11, the image quality control section 12, and the transmission section 13.
  • FIG. 3 shows a video processing method according to an embodiment.
  • the video processing method according to the embodiment is executed by the video processing system 10 or the video processing device 20 shown in FIGS. 1 and 2.
  • the object detection unit 11 detects an object included in the input video (S11).
  • the image quality control unit 12 controls the image quality of the area including the object in the video based on the object detection result (S12).
  • the transmitter 13 transmits the object detection result and the video whose image quality has been controlled (S13).
  • a cloud server refers to a server located in a remote location that is connected via a network to devices located at the edge.
  • a cloud server refers to a server located in a remote location that is connected via a network to devices located at the edge.
  • FIG. 4 shows an operation example when transmitting a video from a terminal to a server in the video processing method according to the embodiment.
  • a video processing system that executes the video processing method shown in FIG. 4 may further include a state recognition unit in addition to the configuration shown in FIG. 1 in order to recognize the state of an object from the transmitted video.
  • the present invention is not limited to the state recognition unit, and may include an object detection unit that detects an object from an image.
  • the terminal may include an object detection section, an image quality control section, and a transmission section
  • the server may include a state recognition section.
  • the object detection unit detects an object from the camera video (S101), and the image quality control unit adjusts the image quality of the video based on the object detection result. control (S102).
  • the image quality control section increases the image quality of the selected object area and lowers the image quality of other areas based on the object detection result.
  • the transmitter transmits the video whose image quality has been controlled (S103a), and transmits the object detection result (S103b).
  • the transmitting unit transmits, among the object detection results, the detection results of objects included in the area where the image quality has been reduced.
  • the state recognition unit recognizes the state of the object from the transmitted video using the transmitted object detection results (S104).
  • the state recognition unit recognizes the state of the object in the area where the image quality has been reduced using the object detection result transmitted from the terminal.
  • the state recognition unit may narrow down candidates for state recognition results based on the object detection results transmitted from the terminal.
  • the object may be detected from the transmitted video using not only state recognition but also the detection result of the transmitted object.
  • the detection results of objects included in the video are transmitted.
  • This allows the video receiving side to analyze the video using the object detection results, thereby improving the accuracy of recognition of the state of the object, etc.
  • the device can send video analysis results that assist recognition, that is, detection results that can be used for recognition processing. You can also send it to the server from Thereby, the object detection result of the terminal and the object detection result of the server are ensembled, that is, the object and the state can be recognized using both detection results. Therefore, recognition accuracy can be improved, for example, when the network has a low bandwidth or when the bit rate is limited.
  • FIG. 5 illustrates the basic configuration of the remote monitoring system 1.
  • the remote monitoring system 1 is a system that monitors an area where images are taken by a camera.
  • the system will be described as a system for remotely monitoring the work of workers at the site.
  • the site may be an area where people and machines operate, such as a work site such as a construction site or a factory, a plaza where people gather, a station, or a school.
  • the work will be described as construction work, civil engineering work, etc., but is not limited thereto.
  • the remote monitoring system can be said to be a video processing system that processes videos, and also an image processing system that processes images.
  • the remote monitoring system 1 includes a plurality of terminals 100, a center server 200, a base station 300, and an MEC 400.
  • the terminal 100, base station 300, and MEC 400 are placed on the field side, and the center server 200 is placed on the center side.
  • the center server 200 is located in a data center or the like that is located away from the site.
  • the field side is also called the edge side of the system, and the center side is also called the cloud side.
  • Terminal 100 and base station 300 are communicably connected via network NW1.
  • the network NW1 is, for example, a wireless network such as 4G, local 5G/5G, LTE (Long Term Evolution), or wireless LAN.
  • the network NW1 is not limited to a wireless network, but may be a wired network.
  • Base station 300 and center server 200 are communicably connected via network NW2.
  • the network NW2 includes, for example, core networks such as 5GC (5th Generation Core network) and EPC (Evolved Packet Core), the Internet, and the like.
  • 5GC Fifth Generation Core network
  • EPC Evolved Packet Core
  • the network NW2 is not limited to a wired network, but may be a wireless network.
  • the terminal 100 and the center server 200 are communicably connected via the base station 300.
  • the base station 300 and MEC 400 are communicably connected by any communication method, the base station 300 and MEC 400 may be one device.
  • the terminal 100 is a terminal device connected to the network NW1, and is also a video transmitting device that transmits on-site video.
  • the terminal 100 acquires an image captured by a camera 101 installed at the site, and transmits the acquired image to the center server 200 via the base station 300.
  • the camera 101 may be placed outside the terminal 100 or inside the terminal 100.
  • the terminal 100 compresses the video from the camera 101 to a predetermined bit rate and transmits the compressed video.
  • the terminal 100 has a compression efficiency optimization function 102 that optimizes compression efficiency.
  • the compression efficiency optimization function 102 performs ROI control that controls the image quality of a ROI (Region of Interest) within a video.
  • ROI is a predetermined area within an image.
  • the ROI may be an area that includes a recognition target of the center server 200, or may be an area that the user should focus on.
  • the compression efficiency optimization function 102 reduces the bit rate by lowering the image quality of the region around the ROI while maintaining the image quality of the ROI including the person or object.
  • the terminal 100 may include an object detection unit that detects an object from the acquired video.
  • the compression efficiency optimization function 102 may include an image quality control unit that controls the image quality of a region including the object in the video based on the object detection result.
  • the terminal 100 may include a transmitter that transmits the object detection result and a video whose image quality has been controlled.
  • the base station 300 is a base station device of the network NW1, and is also a relay device that relays communication between the terminal 100 and the center server 200.
  • the base station 300 is a local 5G base station, a 5G gNB (next Generation Node B), an LTE eNB (evolved Node B), a wireless LAN access point, or the like, but may also be another relay device.
  • MEC 400 is an edge processing device placed on the edge side of the system.
  • the MEC 400 is an edge server that controls the terminal 100, and has a compression bit rate control function 401 that controls the bit rate of the terminal.
  • the compression bit rate control function 401 controls the bit rate of the terminal 100 through adaptive video distribution control and QoE (quality of experience) control.
  • Adaptive video distribution control controls the bit rate, etc. of video to be distributed according to network conditions.
  • the compression bit rate control function 401 assigns a bit rate to the video distributed by the camera 101 of each terminal 100 so that the recognition accuracy of the center server 200 is improved according to the communication environment of the networks NW1 and NW2.
  • the communication environment of the networks NW1 and NW2 may be predicted, and the bit rate may be assigned according to the prediction result.
  • the compression bit rate control function 401 may predict the recognition accuracy obtained when the video is input to the recognition model by suppressing the bit rate of the video to be distributed. Note that in addition to controlling the bit rate, the frame rate of the video to be distributed may be controlled depending on the network situation.
  • the center server 200 is a server installed on the center side of the system.
  • the center server 200 may be one or more physical servers, or may be a cloud server built on the cloud or other virtualized servers.
  • the center server 200 is a monitoring device that monitors on-site work by analyzing and recognizing on-site camera images.
  • the center server 200 is also a video receiving device that receives video transmitted from the terminal 100.
  • the center server 200 has a video recognition function 201, an alert generation function 202, a GUI drawing function 203, and a screen display function 204.
  • the video recognition function 201 inputs the video transmitted from the terminal 100 into a video recognition AI (Artificial Intelligence) engine to recognize the type of work performed by the worker, that is, the type of behavior of the person. Further, the video recognition function 201 may recognize an action based on the object detection result and video received from the terminal 100.
  • the object detection unit may be provided on the center server 200 side, and the behavior of the person may be recognized based on the object detection result of the center server 200. Note that the image recognition function 201 may recognize not only the behavior of a person but also the state of an object.
  • the alert generation function 202 generates an alert according to the recognized work.
  • the GUI drawing function 203 displays a GUI (Graphical User Interface) on the screen of a display device.
  • the screen display function 204 displays images of the terminal 100, recognition results, alerts, etc. on the GUI. Note that, if necessary, any of the functions may be omitted or any of the functions may be included.
  • the center server 200 does not need to include the alert generation function 202, the GUI drawing function 203, and the screen display function 204.
  • Embodiment 1 Next, Embodiment 1 will be described.
  • an example will be described in which an object detection result of a low image quality area is transmitted together with the video to be distributed.
  • the low image quality area is an area whose image quality is controlled to be lower than other areas.
  • FIG. 6 shows a configuration example of terminal 100 according to this embodiment
  • FIG. 7 shows a configuration example of center server 200 according to this embodiment.
  • each device is an example, and other configurations may be used as long as the operation according to the present embodiment described later is possible.
  • some functions of the terminal 100 may be placed in the center server 200 or other devices, or some functions of the center server 200 may be placed in the terminal 100 or other devices.
  • the functions of the MEC 400 including the compression bit rate control function may be placed in the center server 200, the terminal 100, or the like.
  • the terminal 100 includes a video acquisition section 110, an object detection section 120, an ROI selection section 130, an image quality control section 140, an object detection result extraction section 150, a distribution section 160, and a storage section 170.
  • the video acquisition unit 110 acquires the video captured by the camera 101.
  • the video captured by the camera is also referred to as input video hereinafter.
  • the input video includes a person who is a worker working on a site, a work object used by the person, and the like.
  • the video acquisition unit 110 is also an image acquisition unit that acquires a plurality of time-series images, that is, frames.
  • the object detection unit 120 detects an object within the acquired input video. Detecting an object may include recognizing the type of the object or recognizing the object. The object detection unit 120 detects an object in each frame included in the input video, and recognizes the type of the detected object. The object type is also referred to as an object label or an object class. The object detection unit 120 extracts a rectangular area containing an object from each frame included in the input video, and recognizes the object type of the object within the extracted rectangular area. The rectangular area is a bounding box or an object area. Note that the object area including the object is not limited to a rectangular area, but may be a circular area, an irregularly shaped silhouette area, or the like.
  • the object detection unit 120 calculates the feature amount of a rectangular area including the object, and recognizes the object based on the calculated feature amount. For example, the object detection unit 120 recognizes objects within a frame using an object recognition engine that uses machine learning such as deep learning. Objects can be recognized by machine learning the characteristics of the area containing the object and the type of object.
  • the object detection result includes the object type, position information of a rectangular area including the object, a score of the object type, and the like.
  • the position information of the object is, for example, the coordinates of each vertex of a rectangular area, but it may also be the position of the center of the rectangular area, or the position of any point on the object.
  • the object type score is the probability of the detected object type, that is, the reliability or confidence level. Note that recognizing an object may include, for example, recognizing the existence of the object, recognizing the type or attribute of the object, recognizing the state of the object, and the like.
  • the ROI selection unit 130 selects the ROI, that is, the region of interest, in the acquired input video based on the detection result of the object detected in the input video.
  • the ROI selection unit 130 determines an ROI based on position information of an object having a predetermined object type among the detected objects detected in the input video. For example, a region of an object having a predetermined object type stored in the storage unit 170 may be selected as the ROI.
  • an object region whose object type score included in the object detection result is higher than a predetermined value, or a predetermined number of object regions from the top in descending order of object type scores may be selected as the ROI. Note that an object region whose object type score is smaller than a predetermined value may be selected as the ROI.
  • the image quality control unit 140 controls the image quality of the input video based on the selected ROI.
  • the image quality control unit 140 controls the image quality of the input video by setting the ROI as a sharpened region and setting the region other than the ROI as a non-sharpened region.
  • the sharpened area is an area whose image quality is improved, and the non-sharpened area is an area whose image quality is reduced.
  • the image quality control unit 140 is an encoder that encodes input video using a predetermined encoding method.
  • the image quality control unit 140 supports H. 264 and H.
  • the image is encoded using a video encoding method such as H.265.
  • the image quality control unit 140 compresses each of the high image quality area and the low image quality area at a predetermined compression rate, that is, a bit rate, thereby encoding the image quality of each area to a predetermined quality. That is, by changing the compression rates of the high image quality area and the low image quality area, the high image quality area is made higher in image quality than the lower image quality area, and the lower image quality area is made lower in image quality than the high image quality area. For example, the image quality can be lowered by slowing down the change in pixel values between adjacent pixels.
  • the image quality control unit 140 may encode the input video so that the bit rate is assigned by the compression bit rate control function 401 of the MEC 400.
  • the image quality of the high image quality area and the low image quality area may be controlled within the range of the allocated bit rate.
  • the image quality control unit 140 may determine the bit rate based on the communication quality between the terminal 100 and the center server 200.
  • the image quality of the high image quality area and the low image quality area may be controlled within a bit rate range based on communication quality.
  • Communication quality is, for example, communication speed, but may also be other indicators such as transmission delay or error rate.
  • Terminal 100 may include a communication quality measurement unit that measures communication quality. For example, the communication quality measurement unit determines the bit rate of video transmitted from the terminal 100 to the center server 200 according to the communication speed.
  • the communication speed may be measured based on the amount of data received by the base station 300 or the center server 200, and the communication quality measurement unit may acquire the measured communication speed from the base station 300 or the center server 200. Further, the communication quality measurement unit may estimate the communication speed based on the amount of data transmitted from the distribution unit 160 per unit time.
  • the object detection result extraction unit 150 extracts an object detection result to be transmitted to the center server 200 from the object detection results.
  • the object detection result extraction unit 150 extracts object detection results of the low image quality region that is not selected as the ROI from the object detection results of the plurality of objects detected by the object detection unit 120.
  • the object detection result extraction unit 150 transmits the extracted object detection result to the center server 200 via the distribution unit 160.
  • the object detection result to be transmitted is information that can be used by the center server 200 for object detection. For example, the object type and position information of a rectangular area including the object are transmitted as the object detection result. Further, as the object detection result, a score of the object type may be transmitted, or a feature amount of a region including the object may be transmitted.
  • the distribution unit 160 distributes the video whose image quality has been controlled by the image quality control unit 140, that is, the encoded data, to the center server 200 via the network. Further, the distribution unit 160 transmits the object detection result of the low image quality region extracted by the object detection result extraction unit 150 to the center server 200 via the network.
  • the distribution unit 160 may include the object detection result in the encoded data packet and transmit the encoded data and the object detection result together.
  • the encoded data and the object detection results may be transmitted at different timings or via different communication paths. In this case, a time stamp may be included in the encoded data and the object detection result and transmitted.
  • the distribution unit 160 transmits the encoded data and the object detection result to the center server 200 via the base station 300.
  • the distribution unit 160 is a communication interface that can communicate with the base station 300, and is, for example, a wireless interface such as 4G, local 5G/5G, LTE, or wireless LAN, but may also be a wireless or wired interface of any other communication method. good.
  • the distribution unit 160 may include a first transmission unit that transmits encoded data and a second transmission unit that transmits object detection results.
  • the first transmitting section and the second transmitting section may be communication sections using the same communication method, or may be communication sections using different communication methods.
  • the storage unit 170 stores data necessary for processing of the terminal 100.
  • the storage unit 170 stores a predetermined object type for selecting an ROI.
  • the center server 200 includes a receiving section 210, a decoder 220, an object detection result acquisition section 230, an object detection section 240, an object tracking section 250, a feature extraction section 260, a posture estimation section 270, and an action recognition section. 280.
  • the receiving unit 210 receives the quality-controlled video transmitted from the terminal 100, that is, the encoded data, via the network. Further, the receiving unit 210 receives the object detection result of the low image quality area, which has been reduced in image quality by the terminal 100, via the network. For example, the receiving unit 210 receives a packet including encoded data and an object detection result. Furthermore, the encoded data and the object detection results may be received at different timings or via different communication paths. If a time stamp is attached to the encoded data and the object detection result, the object detection result corresponding to the encoded data is identified using the time stamp.
  • the receiving unit 210 receives the encoded data and object detection results distributed by the terminal 100 via the base station 300.
  • the receiving unit 210 is a communication interface capable of communicating with the Internet or a core network, and is, for example, a wired interface for IP communication, but may be a wired or wireless interface of any other communication method.
  • the receiving unit 210 may include a first receiving unit that receives encoded data and a second receiving unit that receives object detection results.
  • the first receiving section and the second receiving section may be communication sections using the same communication method, or may be communication sections using different communication methods.
  • the object detection result acquisition unit 230 acquires the object detection result of the low image quality area that the reception unit 210 receives from the terminal 100. Note that the object detection result acquisition section 230 may be integrated with the reception section 210.
  • the decoder 220 decodes encoded data received from the terminal 100. Decoder 220 is a decoding unit that decodes encoded data. The decoder 220 is also a restoring unit that restores encoded data, that is, compressed data, using a predetermined encoding method. The decoder 220 corresponds to the encoding method of the terminal 100, for example, H. 264 and H. The video is decoded using a video encoding method such as H.265. The decoder 220 decodes each area according to the compression rate and bit rate, and generates a decoded video. The decoded video is hereinafter also referred to as received video.
  • the object detection unit 240 detects an object in the received video received from the terminal 100. For example, like the object detection unit 120 of the terminal 100, the object detection unit 240 recognizes objects using an object recognition engine using machine learning. Note that the object recognition engine of the object detection section 240 may be an object recognition engine that has undergone different learning from the object recognition engine included in the object detection section 120.
  • the object detection unit 240 extracts a rectangular area including an object from each image of the received video, and recognizes the object type of the object within the extracted rectangular area.
  • the object detection result includes the object type, position information of a rectangular area including the object, a score of the object type, and the like.
  • the object detection unit 240 uses the object detection results obtained from the terminal 100 to detect objects in the low image quality region within the received video. That is, the object detection unit 240 detects objects in the high image quality area using the object recognition engine, and detects objects in the low image quality area based on the object detection results obtained from the terminal 100. The object detection unit 240 outputs an object detection result including an object detection result in a high image quality area detected by the object recognition engine and an object detection result in a low image quality area detected based on the object detection result obtained from the terminal 100. .
  • the object detection unit 240 may analyze the received video to generate an object detection result for a low image quality area based on the object detection result obtained from the terminal 100, or may generate an object detection result for the low image quality area based on the object detection result obtained from the terminal 100. It may also be output as the object detection result in the low image quality area. For example, objects may be detected using the object detection results obtained from the terminal 100 in areas where objects cannot be detected or areas where the object type score is smaller than a predetermined value.
  • the object tracking unit 250 tracks the detected object in the received video.
  • the object tracking unit 250 associates objects in each image included in the received video based on the object detection results. For example, each detected object may be identified and tracked by assigning a tracking ID to the detected object.
  • objects are tracked by associating objects between images based on the distance or overlap between a rectangular area of an object detected in a previous image and a rectangular area of an object detected in a next image.
  • the feature extraction unit 260 For each object tracked by the object tracking unit 250, the feature extraction unit 260 extracts the feature amount of the area including the object.
  • the feature extraction unit 260 extracts feature amounts used by the behavior recognition unit 280 to recognize the behavior of an object.
  • Features in two-dimensional space or features in space and time in the temporal direction may be extracted.
  • the feature extraction unit 260 extracts feature amounts of a region including an object using a feature extraction engine that uses machine learning such as deep learning.
  • the feature extraction engine may be a CNN (Convolutional Neural Network), an RNN (Recurrent Neural Network), or another neural network.
  • the posture estimation unit 270 estimates the posture of each object tracked by the object tracking unit 250.
  • the posture estimating unit 270 may estimate the skeleton of a person, which is the detected object, or the direction of the object, such as the direction of a forklift or heavy machinery, as the posture of the object.
  • the posture estimation unit 270 estimates the posture of an object in an image using a skeleton estimation engine or a posture estimation engine that uses machine learning such as deep learning.
  • the behavior recognition unit 280 recognizes the behavior of the object based on the feature extraction results and the posture estimation results.
  • the behavior recognition unit 280 recognizes the behavior of the object based on the feature amount of the region including the extracted object and the estimated posture of the object. For example, it recognizes tasks performed by a person using an object or unsafe actions that put the person in a dangerous situation. Note that the present invention is not limited to action recognition, and may also recognize the state of an object.
  • the behavior recognition unit 280 recognizes the type of behavior of each object. The behavior type is also referred to as a behavior label or behavior class.
  • the behavior recognition unit 280 recognizes the behavior of an object using a behavior recognition engine that uses machine learning such as deep learning.
  • the behavior recognition engine may be CNN, RNN, or other neural network.
  • the behavior recognition results include behavior types, behavior type scores, and the like.
  • the score of the behavior type is the certainty of the recognized behavior type, that is, the degree of reliability or certainty.
  • FIG. 8 shows an example of the operation of the remote monitoring system 1 according to this embodiment.
  • the terminal 100 executes S111 to S115 and the center server 200 executes S116 to S121
  • the present invention is not limited to this, and any device may execute each process.
  • the terminal 100 acquires an image from the camera 101 (S111).
  • the camera 101 generates an image of the scene
  • the image acquisition unit 110 acquires the image output from the camera 101, that is, the input image.
  • the input video image includes three people P1 to P3 working at the site.
  • person P3 is working with a hammer.
  • the terminal 100 detects an object based on the acquired input video (S112).
  • the object detection unit 120 uses an object recognition engine to recognize the object type of an object within a frame included in the input video. For each detected object, the object detection unit 120 outputs the object type, position information of the rectangular area of the object, the score of the object type, etc. as an object detection result. For example, when object detection is performed from the image in FIG. 9, as shown in FIG. 10, persons P1 to P3 and a hammer are detected, and rectangular areas of the persons P1 to P3 and a rectangular area of the hammer are detected.
  • the terminal 100 selects an ROI based on the object detection result (S113).
  • the ROI selection unit 130 may extract objects included in a predetermined object type stored in the storage unit 170 from among the detected objects, and select the region of the extracted object as the ROI. Furthermore, the ROI selection unit 130 may select, as the ROI, an area of the object whose object type score is greater than a predetermined value. Alternatively, a region of an object whose object type score is smaller than a predetermined value may be selected as the ROI. For example, in the example of FIG.
  • the rectangular areas of person P1 and person P2 are selected as the ROI, The rectangular area of the person P3 and the hammer is not selected as the ROI. Further, if the scores of the person P1 and the person P2 are larger than a predetermined value, and the scores of the person P3 and the hammer are smaller than the predetermined value, the person P3 and the hammer may be selected as the ROI.
  • the terminal 100 encodes the input video based on the selected ROI (S114).
  • the image quality control unit 140 encodes the input video using a predetermined video encoding method.
  • the image quality control unit 140 may encode the input video to the bit rate assigned by the compression bit rate control function 401 of the MEC 400, or may encode the input video to the bit rate assigned by the compression bit rate control function 401 of the MEC 400, or encode the input video to the bit rate assigned by the compression bit rate control function 401 of the MEC 400, or You can also encode with bitrate.
  • the image quality control unit 140 encodes the input video so that the ROI has higher image quality than other areas within a range of bit rates depending on the allocated bit rate and communication quality.
  • the image quality of the ROI is increased and the image quality of the other areas is decreased.
  • the image quality of the ROI is increased and the image quality of the other areas is decreased.
  • FIG. 10 if the rectangular areas of person P3 and person P2 are selected as the ROI, as shown in FIG. Reduces image quality.
  • the terminal 100 transmits the encoded data and the object detection results to the center server 200 (S115).
  • the object detection result extraction unit 150 extracts object detection results of a region not selected as an ROI, that is, a region of low image quality, from among the object detection results.
  • the object detection results of the person P3 and the hammer are extracted from the object detection results as shown in FIG.
  • the object detection result the object type, position information of a rectangular area including the object, the score of the object type, etc. are output to the distribution unit 160.
  • the distribution unit 160 transmits to the base station 300 encoded data obtained by encoding the input video and the object detection result of the extracted low image quality region.
  • the base station 300 transfers the received encoded data and object detection results to the center server 200 via the core network or the Internet.
  • the center server 200 receives the encoded data and the object detection results (S116).
  • the receiving unit 210 receives the encoded data and object detection results transferred from the base station 300 from the core network or the Internet.
  • the object detection result acquisition unit 230 acquires the received object detection result of the low image quality region.
  • the center server 200 decodes the received encoded data (S117).
  • the decoder 220 decodes the encoded data according to the compression rate and bit rate of each area, and generates a decoded video, that is, a received video.
  • the center server 200 detects an object in the received video based on the received video and the object detection result (S118).
  • the object detection unit 240 uses an object recognition engine to detect an object in a high-quality area of the received video, and uses the object detection result acquired by the object detection result acquisition unit 230 to detect an object in a low-quality area of the received video. Detect objects.
  • the object detection unit 240 outputs the object detection result detected by the object recognition engine and the object detection result acquired by the object detection result acquisition unit 230 together into one object detection result.
  • the object detection unit 240 uses the object type of the object detected in the high image quality area, the position information of the rectangular area of the object, the score of the object type, etc., and the object type of the object in the acquired low image quality area, the object type, etc.
  • the position information of the rectangular area, the score of the object type, etc. are output as the object detection result.
  • the object detection unit 240 may detect an object in a low image quality area.
  • the object detection result acquired by the object detection result acquisition unit 230 and the score of the object type detected by the object detection unit 240 may be compared, and the object detection result with the higher score may be output. For example, when a video with controlled image quality as shown in FIG. 11 and an object detection result as shown in FIG. 12 are received, the rectangular areas of people P1 and P2 detected by the object recognition engine and the received object are displayed as shown in FIG.
  • the rectangular areas of the person P3 and the hammer included in the detection result are output as the object detection result.
  • the center server 200 tracks the detected object in the received video (S119).
  • the object tracking unit 250 tracks objects in the received video based on the object detection results of the received video including the object detection results in the high quality area and the low quality area.
  • the object tracking unit 250 assigns a tracking ID to each detected object, and tracks the object identified by the tracking ID in each image.
  • the center server 200 extracts the feature amount of the region including the object and estimates the orientation of the object (S120).
  • the feature extraction unit 260 uses a feature extraction engine to extract the feature amount of the region including the object tracked in the high image quality region and the low image quality region.
  • the posture estimation unit 270 uses a posture estimation engine to estimate the posture of the object tracked in the high image quality area and the low image quality area.
  • the center server 200 recognizes the behavior of the object based on the feature extraction results and the posture estimation results (S121).
  • the behavior recognition unit 280 uses a behavior recognition engine to perform recognition based on the feature amount of the object extracted in the high image quality area and the low image quality area and the posture of the object estimated in the high image quality area and the low image quality area. and recognize the behavior of the object in the received video.
  • the behavior recognition unit 280 outputs the type of behavior of the recognized object and the score of the behavior type. For example, based on the object detection results in FIG.
  • the people P1 to P3 and the hammer are tracked, and based on the characteristics and postures of the people P1 to P3 and the hammer, the behavior of the people P1 and P2 in the high image quality area and the behavior of the people P1 and P2 in the low image quality area are determined. Recognize the behavior of person P3.
  • the object detection results in the area where the image quality is degraded are transmitted from the terminal to the center server. That is, the terminal transmits the object detection result of the region whose image quality has been reduced based on the ROI to the center server, and the center server uses the received object detection result to perform object detection of the region whose image quality has been reduced. If the image quality of the video is lowered, the object detection accuracy will decrease and the object may not be detected correctly. Therefore, as in this embodiment, the object detection results of the lower image quality area detected by the terminal are used to Object detection accuracy can be improved by performing object detection at the center server. Furthermore, since the object detection accuracy can be improved, the accuracy of object behavior recognition using the object detection results can be improved.
  • FIG. 14 shows a configuration example of the terminal 100 according to the present embodiment
  • FIG. 15 shows a configuration example of the center server 200 according to the present embodiment.
  • configurations that are different from Embodiment 1 will be mainly described.
  • the terminal 100 includes a feature extraction section 151 instead of the object detection result extraction section 150 of the first embodiment.
  • the other configurations are the same as in the first embodiment. Note that in addition to the configuration of Embodiment 1, a feature extraction unit 151 may be further provided.
  • the feature extraction unit 151 extracts the feature amount of the area including the detected object.
  • the feature extraction unit 151 extracts the feature amount of a region that includes an object in a low image quality region that is not selected as an ROI from among the objects detected by the object detection unit 120.
  • the feature extraction unit 151 transmits the feature amount of the area including the extracted object to the center server 200 via the distribution unit 160.
  • the feature amount of the area including the object to be transmitted is a feature amount that can be used by the center server 200 for action recognition. Similar to the feature extraction unit 260 of the center server 200, the feature extraction unit 151 extracts feature amounts used by the behavior recognition unit 280 to recognize the behavior of an object.
  • a feature amount in two-dimensional space or a feature amount in spatiotemporal space in the temporal direction may be extracted.
  • the feature extraction unit 151 extracts the feature amount of a region including an object using a feature extraction engine that uses machine learning such as deep learning.
  • the feature extraction engine may be CNN, RNN, or other neural network.
  • the distribution unit 160 transmits the encoded data encoded by the image quality control unit 140 and the feature amount of the region including the object in the low image quality region extracted by the feature extraction unit 151 to the center server 200. Note that the description of parts that operate in the same way as in FIG. 6 of the first embodiment is omitted.
  • the center server 200 includes a feature acquisition section 231 instead of the object detection result acquisition section 230 of the first embodiment.
  • the other configurations are the same as in the first embodiment.
  • a feature acquisition unit 231 may be further provided.
  • the receiving unit 210 receives the encoded data transmitted from the terminal 100 and the feature amount of the area including the object in the low image quality area, and the feature acquisition unit 231 receives the received feature amount of the area including the object in the low image quality area. get.
  • the feature acquisition section 231 may be integrated with the reception section 210.
  • the action recognition unit 280 identifies the object based on the feature amount of the region including the object extracted by the feature extraction unit 260, the feature amount of the region including the object obtained from the terminal 100, and the pose of the object estimated by the pose estimation unit 270. Recognize the behavior of The behavior recognition unit 280 recognizes the behavior of the object in the high image quality area based on the feature amount of the area including the object extracted by the feature extraction unit 260 and the posture of the object estimated by the posture estimation unit 270. , the behavior of the object in the low image quality region is recognized based on the feature amount of the region including the object acquired from the terminal 100 and the posture of the object estimated by the posture estimation unit 270. Note that the feature extraction unit 260 may extract the feature amount from the low image quality region.
  • the action recognition unit 280 identifies low image quality areas and high image quality areas based on the feature amount extracted by the feature extraction unit 260, the feature amount extracted by the feature extraction unit 151, and the pose of the object estimated by the pose estimation unit 270.
  • Behavior recognition may be performed without dividing it into areas.
  • the feature amount acquired from the terminal 100 may be used to recognize the behavior in areas where the behavior cannot be recognized or in areas where the score is smaller than a predetermined value. Note that the description of parts that operate in the same way as in FIG. 7 of the first embodiment is omitted.
  • the terminal 100 is equipped with a posture estimating section similar to the posture estimating section 270, and the terminal transmits the posture estimation result of the object in the low image quality area to the center server 200, and uses the transmitted posture estimation result to perform the low image quality estimation. Behavior recognition of the image quality area may also be performed.
  • the terminal extracts the feature amount of the object in the area where the image quality has been reduced, and sends the extracted feature amount to the center server.
  • the center server uses the received features to recognize the behavior of objects in the low image quality area. Thereby, it is possible to perform behavior recognition based on the characteristics of the low image quality region, and it is possible to improve the recognition accuracy of object behavior recognition.
  • Embodiment 3 Next, Embodiment 3 will be described. In this embodiment, an example will be described in which related object information of a low image quality area is transmitted together with the video to be distributed.
  • FIG. 16 shows a configuration example of the terminal 100 according to the present embodiment
  • FIG. 17 shows a configuration example of the center server 200 according to the present embodiment.
  • configurations that are different from Embodiment 1 will be mainly described.
  • the terminal 100 includes a related object determination section 152 instead of the object detection result extraction section 150 of the first embodiment.
  • the other configurations are the same as in the first embodiment.
  • the related object determination unit 152 analyzes the relationship between objects based on the object detection results, and determines whether there is a related object.
  • the related object determination unit 152 analyzes the relationship between objects in the low image quality region that is not selected as the ROI among the objects detected by the object detection unit 120.
  • the relationship between objects is a positional relationship such as a distance between objects or an overlap between areas of objects.
  • the overlap between object regions is, for example, IoU (Intersection over Union), which indicates the overlap between object regions that are rectangular regions including detected objects.
  • the relationship between objects may include the orientation of the objects.
  • the related object determining unit 152 determines whether there is a relationship between objects based on the positional relationship and orientation between the objects detected in the low image quality region.
  • the related object determining unit 152 may determine that the first object and the second object are related if the distance between the first object and the second object is smaller than a predetermined threshold.
  • the related object determination unit 152 may determine that the first object and the second object are related if the overlap between the first object region and the second object region is greater than a predetermined threshold.
  • the related object determining unit 152 may determine that the first object and the second object are related if the first object is facing toward the second object. You can judge the relationship between objects by either the distance, overlap, or orientation between objects, or you can judge the relationship between objects by any combination of the distance, overlap, or orientation between objects. good. Note that in this example, the presence or absence of a relationship between objects is determined, but it is also possible to determine whether a person is holding an object or the like based on the distance, overlap, orientation, etc. between the objects.
  • the related object determination unit 152 transmits related object information determined to be related as a result of the analysis to the center server 200 via the distribution unit 160.
  • the related object information includes the object detection results of the first object and the second object determined to be related in the low image quality region, that is, the object type, position information, etc. of the first object and the second object.
  • the related object information indicates the relationship between the first object and the second object, that is, the positional relationship. Further, the related object information may include a state such as a person holding an object.
  • the distribution unit 160 transmits the encoded data encoded by the image quality control unit 140 and the related object information of the low image quality region analyzed by the related object determination unit 152 to the center server 200. Note that the description of parts that operate in the same way as in FIG. 6 of the first embodiment is omitted.
  • the center server 200 includes a related object acquisition section 232 instead of the object detection result acquisition section 230 of the first embodiment, and further includes a storage section 290. ing.
  • the other configurations are the same as in the first embodiment.
  • the storage unit 290 stores an object-task association table that associates work contents with objects used in work, that is, work objects.
  • FIG. 18 shows an example of an object-work correspondence table.
  • a hammer is associated with piling work performed using a hammer
  • a shovel is associated with excavation work performed using a shovel
  • a compaction machine is associated with rolling work performed using a compactor.
  • the content of the work may be associated not only with tools related to the work but also with construction machines related to the work. For example, excavation work may be associated with a shovel car, or concrete work may be associated with a mixer truck.
  • the receiving unit 210 receives the encoded data and the related object information of the low image quality area transmitted from the terminal 100, and the related object acquisition unit 232 acquires the received related object information of the low image quality area.
  • the related object acquisition section 232 may be integrated with the reception section 210.
  • the related object determination unit 152 may be disposed in the center server 200, and the center server 200 may analyze the relationship between objects and obtain related object information. That is, as in the first embodiment, the terminal 100 transmits the object detection results in the low image quality area, and the related object determination unit 152 of the center server 200 determines the object based on the received object detection results in the low image quality area. Relationships may be analyzed and related object information may be generated.
  • the behavior recognition unit 280 recognizes the behavior of the object based on the feature amount of the object extracted by the feature extraction unit 260 and the orientation of the object estimated by the orientation estimation unit 270, and further recognizes the behavior of the object based on the related object information acquired from the terminal 100. Update the behavior recognition results based on the. That is, the behavioral recognition results are narrowed down based on the objects that are determined to be related and indicated by the related object information. When the related object information includes a state such as a person holding an object, the behavioral recognition results may be narrowed down based on the object corresponding to the state.
  • the action recognition unit 280 refers to the object-work correspondence table in the storage unit 290 and increases the score of the action type of the work corresponding to the first object and the second object indicated by the related object information.
  • the action recognition unit 280 extracts the action recognition result of the corresponding object from the type and position information of the first object and the second object indicated by the related object information, The action recognition result of the extracted object may be updated.
  • FIG. 19 shows a specific example of updating the score of the behavior type included in the behavior recognition result based on the related object information.
  • the image quality of the region of the person and the hammer is reduced, so that the recognition of the person and the hammer becomes ambiguous in the center server 200, and the recognition from the person and the hammer becomes unclear.
  • the score for the action type of piling work that is supposed to be done becomes low. For example, as before the update in FIG. 19, the score for the action type of piling work is 0.4.
  • the action recognition unit 280 identifies the work related to the hammer as piling work based on the object-work correspondence table shown in FIG. , the recognition results are narrowed down by increasing the score of the behavior type of the identified nail-driving task. For example, the behavior recognition unit 280 updates the score of the behavior type of each task so that the score of the behavior type of the identified task becomes the highest.
  • the score of the behavior type may be increased by a predetermined value or percentage.
  • the scores for behavior types other than the specified work may be lowered or may be deleted.
  • the score of each behavior type is updated to an arbitrary value so that the sum of the scores of all behavior types becomes 1.0.
  • the score of the action type of piling work is updated from 0.4 to 0.6.
  • excavation work and compaction work other than pile driving work are deleted, and the score of the action type that is not applicable is updated to 0.4. Note that the description of parts that operate in the same way as in FIG. 7 of the first embodiment is omitted.
  • the object detection results of the terminal are utilized to narrow down the action recognition of the center server. If the image quality of the video is lowered, feature extraction and pose estimation may not be performed correctly, which may reduce the reliability of action recognition.
  • action candidates are narrowed down by updating the action recognition results from the object detection results of the terminal. For example, as information for narrowing down action candidates, information on related objects indicating a relationship such as a predetermined positional relationship is transmitted from the terminal. The center server narrows down the action candidates by updating the action scores corresponding to related objects.
  • the candidate actions can be narrowed down to compaction work.
  • behavior recognition can be performed based on information on the relationship between objects, and the recognition accuracy of behavior recognition can be improved.
  • Embodiment 4 Next, Embodiment 4 will be described. In this embodiment, an example will be described in which a person's face authentication result is transmitted together with the video to be distributed.
  • FIG. 20 shows a configuration example of the terminal 100 according to the present embodiment
  • FIG. 21 shows a configuration example of the center server 200 according to the present embodiment.
  • configurations that are different from Embodiment 1 will be mainly described.
  • the terminal 100 includes a face authentication section 153 instead of the object detection result extraction section 150 of the first embodiment.
  • the other configurations are the same as in the first embodiment.
  • the face authentication unit 153 performs face authentication of a person detected by object detection.
  • the face authentication section 153 is an identification section that identifies an individual through face authentication.
  • the storage unit 170 stores specific information for identifying an individual and person identification information for identifying the person in association with each other.
  • the specific information includes, for example, an image of a person's face.
  • the face authentication unit 153 extracts the face of a person within the frame, and matches the extracted face with the face of the person included in the specific information registered in the storage unit 170.
  • the face authentication unit 153 may authenticate the face of a person within the frame using a face authentication engine that uses machine learning such as deep learning.
  • the face authentication unit 153 transmits the person identification information of the person whose face authentication has been successfully performed to the center server 200 via the distribution unit 160 as the face authentication result.
  • the person identification information is identification information that identifies an individual identified by face authentication, and may be, for example, the name of each person or an identification number assigned to each person.
  • the face recognition result may include location information of the identified person.
  • the face authentication unit 153 may transmit the face authentication results of the person detected in all the areas, or may transmit the face authentication result of the person detected in the low image quality area.
  • the distribution unit 160 transmits the encoded data encoded by the image quality control unit 140 and the face authentication result of the face authentication unit 153 to the center server 200. Note that the description of parts that operate in the same way as in FIG. 6 of the first embodiment is omitted.
  • the center server 200 includes a face authentication result acquisition section 233 instead of the object detection result acquisition section 230 of the first embodiment, and further includes a storage section 290.
  • a face authentication result acquisition section 233 instead of the object detection result acquisition section 230 of the first embodiment, and further includes a storage section 290.
  • the other configurations are the same as in the first embodiment.
  • the storage unit 290 stores a person-task association table that associates each person with the content of the work that person performs.
  • FIG. 22 shows an example of a person-work correspondence table.
  • the person identification information is the same identification information as the person identification information used by the terminal to identify the person identified by face authentication. That is, it may be the name of each person or the identification number assigned to each person.
  • the piling work and cutting work performed by Mr. A are associated with Mr. A
  • the excavation work and compaction work performed by Mr. B are associated with Mr. B
  • the concrete work performed by Mr. C is associated with Mr. C. ing.
  • each person may be associated with one task or with multiple tasks. When multiple tasks are associated with a person, the date and time for each task may be set.
  • the receiving unit 210 receives the encoded data and face authentication results transmitted from the terminal 100, and the face authentication result acquisition unit 233 acquires the received face authentication results.
  • the face authentication result acquisition section 233 may be integrated with the reception section 210.
  • the face authentication unit 153 may be disposed in the center server 200, the center server 200 may authenticate a person's face, and the face authentication result may be obtained. That is, the terminal 100 transmits a person's face image and the feature amount of the face image, and the face authentication unit 153 of the center server 200 identifies the person based on the received person's face image and the feature amount of the face image. A face may be recognized and a face recognition result may be generated.
  • the behavior recognition unit 280 recognizes the behavior of the object based on the feature amount of the object extracted by the feature extraction unit 260 and the orientation of the object estimated by the orientation estimation unit 270, and further recognizes the behavior of the object based on the facial recognition result obtained from the terminal 100. Update the behavior recognition results based on the. That is, the behavioral recognition results are narrowed down based on the person identification information indicating the individual identified by face authentication.
  • the behavior recognition unit 280 refers to the person-work correspondence table in the storage unit 290 and updates the score of the behavior type of the work corresponding to the person identification information indicating the individual identified by face authentication. When the behavior of multiple people is recognized, the behavior recognition unit 280 extracts the behavior recognition result of the corresponding person from the position information of the face recognition result, updates the behavior recognition result of the extracted person, and updates the behavior recognition result of the extracted person. Good too.
  • FIG. 23 shows a specific example of updating the score of the behavior type included in the behavior recognition result based on the face recognition result.
  • the image quality of the region of the person and the hammer is reduced, so that the recognition of the person and the hammer becomes ambiguous in the center server 200, and the recognition from the person and the hammer becomes unclear.
  • the score for the action type of piling work that is supposed to be done becomes low.
  • the score for the action type of piling work is 0.4.
  • the action recognition unit 280 determines that the work related to Mr.
  • A is piling work or Identify it as a cutting operation.
  • the recognition results include the nail-pounding task
  • the recognition results are narrowed down by increasing the score of the action type of the nail-pounding task.
  • the behavior recognition unit 280 updates the score of the behavior type of each task so that the score of the behavior type of the identified task is the highest.
  • the method of updating the score of the action type of the identified work is the same as in the third embodiment. For example, as shown after the update in FIG. 23, the score of the action type of piling work is updated from 0.4 to 0.6. In addition, excavation work and compaction work other than pile driving work are deleted, and the score of the action type that is not applicable is updated to 0.4. Note that the description of parts that operate in the same way as in FIG. 7 of the first embodiment is omitted.
  • the present invention is not limited to the example of identifying an individual through facial recognition and identifying the identified person. Similar to face recognition, an object other than a person may be identified and the identified object may be identified. That is, the terminal may transmit identification information for identifying the specified object to narrow down the action recognition results. For example, a table may be maintained that associates identifiable objects such as heavy machinery, forklifts, and AGVs (Automatic Guided Vehicles) with tasks, and the object behavior recognition results may be narrowed down based on the object identification results and the table. Furthermore, in addition to the identification information that identifies the identified object, attribute identification information that identifies the attribute or group of the object may be transmitted from the terminal to narrow down the action recognition results.
  • identification information that identifies the identified object
  • attribute identification information that identifies the attribute or group of the object may be transmitted from the terminal to narrow down the action recognition results.
  • an occupation such as a carpenter or plasterer, or a company to which the person belongs may be identified as a person's attribute or group, and the behavioral recognition result corresponding to the occupation or company may be updated.
  • the type of job or company may be identified from a person's clothing such as work clothes, helmet, hat, etc.
  • identification may be made from letters, marks, etc. shown on work clothes or a helmet.
  • identification may be made from, for example, a code indicating an attribute or group attached to or displayed on an object such as a machine or clothing.
  • the results of identification of a person's individuality and attributes are used to narrow down the behavior recognition of the center server. If the image quality of the video is lowered, feature extraction and pose estimation may not be performed correctly, which may reduce the reliability of action recognition.
  • a terminal performs face recognition of a person, identifies a task corresponding to the identified person, etc., and performs the identified task. Narrow down candidates for work. This makes it possible to improve recognition accuracy when the video quality is poor.
  • object identification results can also be used.
  • Embodiment 5 Next, Embodiment 5 will be described. In this embodiment, an example will be described in which an ROI is selected based on the relationship between objects in the configurations of Embodiments 1 to 4.
  • FIG. 24 shows a configuration example of the terminal 100 according to this embodiment.
  • the configuration of the center server 200 is the same as that in Embodiment 1, so a description thereof will be omitted. Note that, as an example, an example in which this embodiment is applied to Embodiment 1 will be described, but this embodiment may be similarly applied to Embodiments 2 to 4.
  • terminal 100 includes a relationship analysis section 131 in addition to the configuration of Embodiment 1.
  • the other configurations are the same as in the first embodiment.
  • configurations that are different from Embodiment 1 will be mainly described.
  • the storage unit 170 stores a table for analyzing relationships between objects. Specifically, it stores a related object correspondence table that associates pairs of related objects whose relationships are to be analyzed.
  • FIG. 25 shows a specific example of the related object correspondence table.
  • the related object association table associates a first object type with a second object type as related objects for analyzing relationships.
  • a person is associated with a hammer, a construction machine, a shovel, and a ladder
  • a construction machine is associated with a person.
  • the related object correspondence table may define pairs of objects corresponding to recognition targets that the center server 200 recognizes from images.
  • the center server 200 When the center server 200 recognizes a work performed by a person, it associates the work object used in the work, such as a hammer or shovel, with the person performing the work. In this case, one of the first object and the second object becomes a person, and the other becomes a work object. When recognizing work performed by two construction machines, the construction machines are associated with each other. In this case, the first object and the second object become work objects. Furthermore, when the center server 200 recognizes unsafe behavior that puts a person in a dangerous state, it associates the person with an object that induces the unsafe behavior, such as a construction machine or a ladder. In this case, one of the first object and the second object becomes a person, and the other becomes an object that induces unsafe behavior.
  • FIG. 26 shows another example of the related object correspondence table.
  • the importance to be assigned may be associated with the related object to be analyzed, that is, the pair of the first object and the second object.
  • the degree of importance may be set depending on the recognition target that the center server 200 recognizes from the video.
  • a pair of a person and a construction machine or a pair of a person and a ladder that are associated with unsafe behavior may be given higher importance than a pair of a person and a hammer or a pair of a person and a shovel that are associated with work.
  • an importance level of +5 is assigned to a region of a person close to a construction machine or a region of a person overlapping with a construction machine
  • an importance level of +2 is assigned to a region of a person close to a hammer or a region of a person overlapping the hammer.
  • An importance level of +5 may be assigned to a person's area only from the combination of a person and a construction machine
  • an importance level of +2 may be assigned to a person's area only from the combination of a person and a hammer.
  • the degree of importance is not limited to a numerical value, and may be a level such as high, medium, or low.
  • the relationship analysis unit 131 analyzes relationships between objects based on the detection results of objects detected in the input video.
  • the relationship analysis unit 131 analyzes the relationship between objects having a predetermined type among the detected objects.
  • the relationship analysis unit 131 refers to the related object correspondence table stored in the storage unit 170 and analyzes the relationship between the first object and the second object that are correlated in the related object correspondence table.
  • the relationship between objects is a positional relationship such as a distance between objects or an overlap between areas of objects.
  • the relationship between objects may include the orientation of the objects.
  • the relationship analysis unit 131 may determine whether there is a relationship between objects based on the positional relationship and orientation between the objects.
  • the relationship analysis unit 131 may determine whether there is a relationship between objects. For example, the relationship analysis unit 131 may determine that the first object and the second object are related if the distance between the first object and the second object is smaller than a predetermined threshold. For example, the relationship analysis unit 131 refers to the related object correspondence table of FIG. 25 and determines that the person and the hammer are related if the distance between the person and the hammer is smaller than a threshold. Furthermore, if the overlap between the first object region and the second object region is larger than a predetermined threshold, the relationship analysis unit 131 determines that the first object and the second object are related. good.
  • the relationship analysis unit 131 may determine that the first object and the second object are related if the first object is facing toward the second object. You can judge the relationship between objects by either the distance, overlap, or orientation between objects, or you can judge the relationship between objects by any combination of the distance, overlap, or orientation between objects. good.
  • the relationship analysis unit 131 may assign degrees of importance to object regions according to the positional relationships and orientations between objects. That is, the relationship analysis section 131 may function as an importance determination section that determines importance.
  • the importance determination unit may be installed in the terminal 100 separately from the relationship analysis unit.
  • the degree of importance is the degree to which attention should be paid, and indicates the priority for clarifying. For example, if the degree of importance is set for each related object in the related object correspondence table, the relationship analysis unit 131 may assign the degree of importance to the area of the object based on the setting of the related object correspondence table. . For example, the relationship analysis unit 131 refers to the related object correspondence table in FIG.
  • the relationship analysis unit 131 may increase the degree of importance assigned as the distance between the first object and the second object becomes smaller.
  • the relationship analysis unit 131 may increase the degree of importance assigned as the overlap between the first object region and the second object region increases.
  • the relationship analysis unit 131 may increase the degree of importance assigned as the orientation of the first object approaches the second object. Furthermore, the degree of importance may be assigned only based on the combination of objects.
  • the ROI selection unit 130 selects an ROI in the acquired input video based on the relationship between the analyzed objects. For example, the ROI selection unit 130 may select, as the ROI, a region of the first object and the second object that are determined to be related. Further, the ROI selection unit 130 may select an ROI according to the importance of the allocated region. Furthermore, if the degree of importance according to the relationship between the first object and the second object is equal to or greater than a predetermined value, the region of the first object and the region of the second object may be selected as the ROI. ROIs may be selected in order of importance assigned to each object region. For example, a predetermined number of regions from the top in order of importance may be selected as the ROI. The number of regions that can be sharpened within the bit rate range assigned by the compression bit rate control function 401 may be selected as the ROI.
  • the ROI selection unit 130 may select an ROI according to a change in the relationship between objects. That is, the degree of importance may be changed in accordance with time-series changes in the distance or overlap between objects, and the ROI may be determined based on the changed degree of importance. For example, if an excavator is detected around a place where soil is loaded, the importance level is determined depending on whether the excavator is moving or not, that is, changes in the distance and overlap between the loaded soil and the excavator. You can change it. In this case, there may be cases where the excavator is stopped and performing root cutting work, or cases where the excavator is moving and performing backfilling work. Therefore, when the excavator is moving, the region of the moving excavator may be used as the ROI by increasing the importance level. Note that the description of parts that operate in the same way as in FIG. 6 of the first embodiment is omitted.
  • the ROI is selected based on the relationship such as the positional relationship between objects detected in the video. select.
  • the relationship such as the positional relationship between objects detected in the video. select.
  • Embodiment 6 Next, Embodiment 6 will be described. In this embodiment, an example will be described in which an ROI is selected based on an object related to the work situation in the configurations of Embodiments 1 to 4.
  • FIG. 27 shows a configuration example of the terminal 100 according to this embodiment.
  • the configuration of the center server 200 is the same as that in Embodiment 1, so a description thereof will be omitted. Note that, as an example, an example in which this embodiment is applied to Embodiment 1 will be described, but this embodiment may be similarly applied to Embodiments 2 to 4.
  • the terminal 100 includes a work information acquisition section 132 in addition to the configuration of the first embodiment.
  • the other configurations are the same as in the first embodiment.
  • the terminal 100 includes a work information acquisition section 132 instead of the relationship analysis section 131 of the fifth embodiment.
  • configurations that are different from Embodiment 1 will be mainly explained.
  • the work information acquisition unit 132 acquires work information indicating the status of work performed at the site.
  • the work information may be information specifying the content of the work currently being performed, or may be schedule information including the date and time of each work step.
  • the work information may be input by the worker or may be obtained from a management device that manages the work process.
  • the storage unit 170 stores a work-object correspondence table in which work contents are associated with objects used in the work, that is, work objects.
  • FIG. 28 shows an example of a work-object correspondence table.
  • the work-object association table associates the type of object used in the work with the content of the work or the work process.
  • the hammer used in the pile driving operation is associated with the hammer used in the pile driving operation
  • the shovel used in the excavation operation is associated with the excavation operation
  • the rolling machine used in the rolling operation is associated with the rolling operation.
  • a shovel car may be associated with excavation work
  • a mixer truck may be associated with concrete work.
  • FIG. 29 shows another example of the work-object correspondence table. As shown in FIG. 29, in the task-object association table, importance levels may be associated with objects corresponding to each task, as in the fifth embodiment.
  • the ROI selection unit 130 selects the ROI in the input video based on the work information acquired by the work information acquisition unit 132.
  • the ROI selection unit 130 identifies the current work from the inputted current work details and work process schedule information. For example, if the schedule information defines work in the AM of X month and Y day as compaction work, and the current date and time is AM in X month and Y day, the current work is determined to be compaction work.
  • the ROI selection unit 130 refers to the work-object association table in the storage unit 170 and identifies the work object corresponding to the current work.
  • the ROI selection unit 130 extracts an object having a type of work object corresponding to the work from the detected objects detected in the input video, and selects a rectangular region of the extracted object as the ROI. In the example of the work-object association table in FIG. 28, when the current work is rolling work, the region of the rolling machine associated with the rolling work is determined as the ROI.
  • the ROI selection unit 130 assigns the importance degree to the extracted object based on the setting of the work-object correspondence table, Select an ROI based on the assigned importance.
  • the ROI selection unit 130 assigns the importance degree to the extracted object based on the setting of the work-object correspondence table, Select an ROI based on the assigned importance.
  • an importance level of +2 is assigned to the area of the rolling machine associated with the rolling work, and based on the assigned importance level, Select ROI. Note that the description of parts that operate in the same way as in FIG. 6 of the first embodiment is omitted.
  • the ROI when selecting an ROI on the terminal, the ROI is selected based on an object related to the work being performed in the video.
  • an ROI can be appropriately selected according to the work situation, and, for example, object detection in an important area can be performed by a center server that has more resources than a terminal.
  • Each configuration in the embodiments described above is configured by hardware, software, or both, and may be configured from one piece of hardware or software, or from multiple pieces of hardware or software.
  • Each device and each function (processing) may be realized by a computer 30 having a processor 31 such as a CPU (Central Processing Unit) and a memory 32 as a storage device, as shown in FIG.
  • a program for performing the method (video processing method) in the embodiment may be stored in the memory 32, and each function may be realized by having the processor 31 execute the program stored in the memory 32.
  • These programs include instructions (or software code) that, when loaded into a computer, cause the computer to perform one or more of the functions described in the embodiments.
  • the program may be stored on a non-transitory computer readable medium or a tangible storage medium.
  • computer readable or tangible storage media may include random-access memory (RAM), read-only memory (ROM), flash memory, solid-state drive (SSD) or other memory technology, CD - Including ROM, digital versatile disc (DVD), Blu-ray disc or other optical disc storage, magnetic cassette, magnetic tape, magnetic disc storage or other magnetic storage device.
  • the program may be transmitted on a transitory computer-readable medium or a communication medium.
  • transitory computer-readable or communication media includes electrical, optical, acoustic, or other forms of propagating signals.
  • Additional note 1 a first object detection means for detecting an object included in the input video; image quality control means for controlling the image quality of a region including the object in the video based on the detection result of the object; Transmitting means for transmitting the detection result of the object and the video whose image quality has been controlled; A video processing system equipped with (Additional note 2) The transmitting means transmits a detection result of an object included in an area where the image quality is controlled to be lower than other areas, among the detected objects.
  • the transmitting means transmits the type of the object and the position information of the object as a detection result of the object.
  • the video processing system according to appendix 1 or 2. (Additional note 4)
  • the transmitting means transmits a feature amount of a region including the object as a detection result of the object.
  • the video processing system according to any one of Supplementary Notes 1 to 3. (Appendix 5)
  • the transmitting means transmits the positional relationship between the first object and the second object as the detection result of the object.
  • (Appendix 6) comprising identification means for identifying the detected person based on specific information for identifying the detected person and the individual among the detected objects;
  • the transmitting means transmits person identification information that identifies the specified person as a detection result of the object.
  • the video processing system according to any one of Supplementary Notes 1 to 5.
  • the transmitting means transmits attribute identification information for identifying an attribute of the object as a detection result of the object.
  • (Appendix 8) comprising a state recognition means for recognizing the state of the object in the transmitted video using the transmitted detection result of the object;
  • the video processing system according to any one of Supplementary Notes 1 to 7.
  • An image processing device comprising: (Appendix 10) The transmitting means transmits a detection result of an object included in a region of the detected objects whose image quality is controlled to be lower than other regions;
  • the video processing device according to appendix 9. The transmitting means transmits the type of the object and the position information of the object as a detection result of the object.
  • the transmitting means transmits a feature amount of a region including the object as a detection result of the object.
  • the video processing device according to any one of Supplementary Notes 9 to 11.
  • the transmitting means transmits the positional relationship between the first object and the second object as the detection result of the object.
  • the video processing device according to any one of Supplementary Notes 9 to 12.
  • An identifying means for identifying the detected person based on specific information for identifying the detected person and the individual among the detected objects, The transmitting means transmits person identification information that identifies the specified person as a detection result of the object.
  • the video processing device according to any one of Supplementary Notes 9 to 13.
  • the transmitting means transmits attribute identification information for identifying an attribute of the object as a detection result of the object.
  • the video processing device according to any one of Supplementary Notes 9 to 13.
  • (Appendix 16) Detects objects included in the input video, controlling the image quality of a region including the object in the video based on the detection result of the object; transmitting the object detection result and the image quality-controlled video; Video processing method.
  • (Appendix 17) transmitting a detection result of an object included in a region whose image quality is controlled to be lower than other regions among the detected objects; The video processing method according to appendix 16.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

映像処理システム(10)は、映像処理システム(10)に映像が入力されると、映像処理システム(10)に入力された映像に含まれる物体を検出する物体検出部(11)と、物体検出部(11)により検出された物体の検出結果に基づいて、入力された映像における物体を含む領域の画質を制御する画質制御部(12)と、物体検出部(11)により検出された物体の検出結果と画質制御部(12)により画質が制御された映像とを送信する送信部(13)と、を備える。

Description

映像処理システム、映像処理装置及び映像処理方法
 本開示は、映像処理システム、映像処理装置及び映像処理方法に関する。
 画像や映像に基づいて、人物を含む物体を検出する技術や、人物の行動を含む物体の状態を認識する技術が開発されている。関連する技術として、例えば、特許文献1が知られている。特許文献1には、第1の物体検出手段と第2の物体検出手段とで、それぞれ解像度やフレームレートを変えた映像を用いて、物体を検出する技術が記載されている。
特開2012-212235号公報
 特許文献1のような関連する技術では、ネットワークを介して、解像度などの画質を制御した画像を送信し、送信した画像から物体を検出している。しかしながら、関連する技術では、画像全体の画質を制御することが前提となっているため、画像の領域ごとに画質を制御する場合について考慮されていない。このため、関連する技術では、例えば、ネットワークの状況によって画像の領域ごとに画質が制御された場合、物体の検出又は認識の精度が低下する可能性がある。
 本開示は、このような課題に鑑み、物体の検出又は認識の精度を向上することが可能な映像処理システム、映像処理装置及び映像処理方法を提供することを目的とする。
 本開示に係る映像処理システムは、入力される映像に含まれる物体を検出する第1の物体検出手段と、前記物体の検出結果に基づいて、前記映像における前記物体を含む領域の画質を制御する画質制御手段と、前記物体の検出結果と前記画質が制御された映像とを送信する送信手段と、を備えるものである。
 本開示に係る映像処理装置は、入力される映像に含まれる物体を検出する物体検出手段と、前記物体の検出結果に基づいて、前記映像における前記物体を含む領域の画質を制御する画質制御手段と、前記物体の検出結果と前記画質が制御された映像とを送信する送信手段と、を備えるものである。
 本開示に係る映像処理方法は、入力される映像に含まれる物体を検出し、前記物体の検出結果に基づいて、前記映像における前記物体を含む領域の画質を制御し、前記物体の検出結果と前記画質が制御された映像とを送信するものである。
 本開示によれば、物体の検出又は認識の精度を向上することが可能な映像処理システム、映像処理装置及び映像処理方法を提供することができる。
実施の形態に係る映像処理システムの概要を示す構成図である。 実施の形態に係る映像処理装置の概要を示す構成図である。 実施の形態に係る映像処理方法の概要を示すフローチャートである。 実施の形態に係る映像処理方法を説明するための図である。 実施の形態に係る遠隔監視システムの基本構成を示す構成図である。 実施の形態1に係る端末の構成例を示す構成図である。 実施の形態1に係るセンターサーバの構成例を示す構成図である。 実施の形態1に係る遠隔監視システムの動作例を示すフローチャートである。 実施の形態1に係る映像取得処理を説明するための図である。 実施の形態1に係る物体検出処理を説明するための図である。 実施の形態1に係る画質制御処理を説明するための図である。 実施の形態1に係る物体検出結果抽出処理を説明するための図である。 実施の形態1に係る物体検出処理を説明するための図である。 実施の形態2に係る端末の構成例を示す構成図である。 実施の形態2に係るセンターサーバの構成例を示す構成図である。 実施の形態3に係る端末の構成例を示す構成図である。 実施の形態3に係るセンターサーバの構成例を示す構成図である。 実施の形態3に係る物体-作業対応付けテーブルの例を示す図である。 実施の形態3に係る行動認識処理を説明するための図である。 実施の形態4に係る端末の構成例を示す構成図である。 実施の形態4に係るセンターサーバの構成例を示す構成図である。 実施の形態4に係る人物-作業対応付けテーブルの例を示す図である。 実施の形態4に係る行動認識処理を説明するための図である。 実施の形態5に係る端末の構成例を示す構成図である。 実施の形態5に係る関連物体応付けテーブルの例を示す図である。 実施の形態5に係る関連物体応付けテーブルの他の例を示す図である。 実施の形態6に係る端末の構成例を示す構成図である。 実施の形態6に係る作業-物体応付けテーブルの例を示す図である。 実施の形態6に係る作業-物体応付けテーブルの他の例を示す図である。 実施の形態に係るコンピュータのハードウェアの概要を示す構成図である。
 以下、図面を参照して実施の形態について説明する。各図面においては、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略される。
(実施の形態の概要)
 まず、実施の形態の概要について説明する。図1は、実施の形態に係る映像処理システム10の概要構成を示している。映像処理システム10は、例えば、ネットワークを介して映像を送信し、送信した映像を認識する遠隔監視システムに適用可能である。映像を認識するとは、映像に含まれる対象に関する認識を行うことである。映像に含まれる対象に関する認識は、映像に含まれる物体の検出や物体に関連する状態等の認識であり、例えば、人物を含む物体の存在の認識、人物を含む物体の種類や属性の認識、人物の行動の認識、物体の状態の認識等を含む。なお、映像を送信することを、映像を配信するとも表現する。
 図1に示すように、映像処理システム10は、物体検出部11、画質制御部12、送信部13を備えている。物体検出部11は、入力される映像に含まれる物体を検出する。物体を検出することは、映像内に含まれる物体の種別を特定することや、物体を識別することを含む。物体の種別の特定は、人や椅子、転圧機などの物体の種類を特定することである。物体の識別は、人物が特定の人物であることや、作業車の個体を一意に区別することを指す、例えば、物体検出部11は、第1の物体検出部である。例えば、映像内の物体には、作業を行う人物や、人物が作業で使用する作業物体などが含まれる。
 画質制御部12は、物体の検出結果に基づいて、映像における物体を含む領域の画質を制御する。例えば、画質制御部12は、映像から人物や作業物体などの物体が検出されると、各物体の領域のうち選択された特定の領域を他の領域より高画質化してもよいし、特定の領域を他の領域より低画質化してもよい。特定の領域を高画質化するとは、他の領域よりも特定の領域の画質を良くすることであり、画像を鮮明化するとも表現する。特定の領域を低画質化するとは、他の領域よりも特定の領域の画質を下げることである。他の領域を特定の領域よりも低画質化することで、特定の領域を高画質化してもよい。他の領域を特定の領域よりも高画質化することで、特定の領域を低画質化してもよい。例えば、特定の領域を低画質化する場合、特定の領域の圧縮率を上げてもよいし、解像度を下げてもよい。特定の領域を高画質化する場合、特定の領域の圧縮率を下げてもよいし、解像度を上げてもよい。
 送信部13は、物体の検出結果と画質が制御された映像とを送信する。例えば、送信部13は、検出された物体のうち、低画質化された領域に含まれる物体の検出結果と、画質が制御された映像とを、ネットワークを介して送信する。送信部13は、例えば、物体の検出結果として、物体の種別及び位置情報を送信する。物体の検出結果として、映像内の物体を含む領域の特徴量や、第1の物体と第2の物体の位置関係、人物や物体を一意に識別または物体の属性を識別する人物識別情報や属性識別情報等を送信してもよい。人物識別情報は、顔認証により特定された個人を識別する識別情報であり、例えば、各人物の氏名でもよいし、各人物に割り当てられた識別番号でもよい。属性識別情報は、映像内の物体の所属を識別する識別情報であり、例えば、各人物の職種や所属する企業でもよいし、各職種や企業に割り当てられた識別番号でもよく、各物体を所有する企業や団体であってもよく、各物体を製造した企業や団体であってもよい。属性識別情報は、例えば、機械等の物体や衣類に添付又は表示された、属性やグループを示すコード等から識別してもよい。特徴量とは、画像などの分析対象物の特徴を表した指標や数値である。例えば、物体を一意に識別することは、人物が特定の人物であることを識別すること等であり、物体の属性を識別することは、人物の職種や所属する企業を識別すること等である。また、映像処理システム10は、送信部13から送信された物体の検出結果を用いて、送信された映像における物体を検出する第2の物体検出部をさらに備えていてもよい。映像処理システム10は、送信部13から送信された物体の検出結果を用いて、送信された映像における物体の状態を認識する状態認識部をさらに備えていてもよい。物体の状態は、人物の行動や、自律移動する重機などの物体が移動している状態を含む。例えば、送信部13は、物体の検出結果として、第2の物体検出部の物体検出や状態認識部の状態認識で使用可能な情報を送信する。
 なお、映像処理システム10は、1つの装置により構成してもよいし、複数の装置により構成してもよい。図2は、実施の形態に係る映像処理装置20の構成を例示している。図2に示すように、映像処理装置20は、図1に示した物体検出部11、画質制御部12、送信部13を備えてもよい。また、映像処理システム10の一部または全部をエッジまたはクラウドに配置してもよい。映像処理システムの一部または全部をエッジに配置するとは、例えば、映像処理システムを含む統合的なシステムにおいて、統合的なシステムの中心的な処理を行う機器とは離れた場所に、映像処理システムの一部または全部を配置することを指す。また、例えば、ネットワークを介して現場で撮影された映像を監視するシステムにおいて、エッジは現場や現場の近くの場所を指す。例えば、エッジの端末が物体検出部11、画質制御部12、送信部13を備えてもよい。
 図3は、実施の形態に係る映像処理方法を示している。例えば、実施の形態に係る映像処理方法は、図1及び図2の映像処理システム10や映像処理装置20により実行される。図3に示すように、まず、物体検出部11は、入力される映像に含まれる物体を検出する(S11)。次に、画質制御部12は、物体の検出結果に基づいて、映像における物体を含む領域の画質を制御する(S12)。次に、送信部13は、物体の検出結果と画質が制御された映像とを送信する(S13)。
 ここで、エッジの端末からネットワークを介してクラウドのサーバに映像を送信し、サーバが映像を認識する例について検討する。クラウドのサーバとは、エッジに配置された装置とネットワークで接続された、遠隔地に配置されるサーバを指す。ネットワークを介して映像を送信する際、ネットワークの状況により鮮明な映像を送信することが困難な場合がある。例えば、ネットワークの状況が一時的に悪化することにより映像断や映像全体が低画質化する場合がある。この場合、映像全体の認識精度が低下する。また、ネットワークの状況に応じて、所定の領域を高画質化する場合や、他の領域を低画質化する場合がある。高画質化した領域の認識精度は向上するが、低画質化した領域の認識精度は低下する。そこで、実施の形態では、ネットワークの状況などにより、高画質な映像を送信することが困難な場合に、認識精度を向上することを可能とする。
 図4は、実施の形態に係る映像処理方法において、端末からサーバに映像を送信する場合の動作例を示している。例えば、図4の映像処理方法を実行する映像処理システムは、送信した映像から物体の状態を認識するため、図1の構成に加えて、更に、状態認識部を備えていてもよい。状態認識部に限らず、映像から物体を検出する物体検出部を備えていてもよい。例えば、端末は、物体検出部、画質制御部、送信部を備え、サーバは、状態認識部を備えていてもよい。
 図4に示すように、実施の形態に係る映像処理方法では、物体検出部は、カメラ映像から物体を検出し(S101)、画質制御部は、物体の検出結果に基づいて、映像の画質を制御する(S102)。画質制御部は、物体の検出結果に基づいて、選択された物体の領域を高画質化し、他の領域を低画質化する。
 次に、送信部は、画質が制御された映像を送信し(S103a)、物体の検出結果を送信する(S103b)。送信部は、物体の検出結果のうち、低画質化した領域に含まれる物体の検出結果を送信する。
 次に、状態認識部は、送信された物体の検出結果を用いて、送信された映像から物体の状態を認識する(S104)。状態認識部は、端末から送信された物体の検出結果を用いて、低画質化した領域における物体の状態を認識する。状態認識部は、端末から送信された物体の検出結果に基づいて、状態認識結果の候補を絞り込んでもよい。状態認識に限らず、送信された物体の検出結果を用いて、送信された映像から物体を検出してもよい。
 このように、実施の形態では、画質が制御された映像を送信する際に、映像に含まれる物体の検出結果を送信する。これにより、映像の受信側で、物体の検出結果を使用して映像を分析できるため、物体の状態等の認識精度を向上することができる。例えば、エッジの端末からクラウドのサーバに映像を送信し、サーバが映像から物体や状態を認識するシステムにおいて、認識のアシストとなる映像の分析結果、すなわち、認識処理に使用可能な検出結果を端末からサーバに送信してもよい。これにより、端末の物体検出結果とサーバの物体検出結果をアンサンブル、すなわち、両方の検出結果を用いて、物体や状態を認識できる。このため、例えば、ネットワークが低帯域の場合やビットレートが制限された場合に、認識精度を向上することができる。
(遠隔監視システムの基本構成)
 次に、実施の形態を適用するシステムの一例である遠隔監視システムについて説明する。図5は、遠隔監視システム1の基本構成を例示している。遠隔監視システム1は、カメラが撮影した映像により、当該撮影されたエリアを監視するシステムである。本実施形態においては、以降現場における作業員の作業を遠隔で監視するシステムであるものとして説明する。例えば、現場は工事現場や工場などの作業現場、人の集まる広場、駅、学校など、人や機械が動作するエリアであってもよい。本実施形態においては、以降作業は建設作業や土木作業等として説明するが、これに限られない。なお、映像は、時系列の複数の画像、すなわちフレームを含むため、映像と画像とは互いに言い換え可能である。すなわち、遠隔監視システムは、映像を処理する映像処理システムであり、また、画像を処理する画像処理システムであるとも言える。
 図5に示すように、遠隔監視システム1は、複数の端末100、センターサーバ200、基地局300、MEC400を備えている。端末100、基地局300及びMEC400は、現場側に配置され、センターサーバ200は、センター側に配置されている。例えば、センターサーバ200は、現場から離れた位置に配置されているデータセンタ等に配置されている。現場側はシステムのエッジ側とも呼称し、センター側はクラウド側とも呼称する。
 端末100と基地局300との間は、ネットワークNW1により通信可能に接続される。ネットワークNW1は、例えば、4G、ローカル5G/5G、LTE(Long Term Evolution)、無線LANなどの無線ネットワークである。なお、ネットワークNW1は、無線ネットワークに限らず、有線ネットワークでもよい。基地局300とセンターサーバ200との間は、ネットワークNW2により通信可能に接続される。ネットワークNW2は、例えば、5GC(5th Generation Core network)やEPC(Evolved Packet Core)などのコアネットワーク、インターネットなどを含む。なお、ネットワークNW2は、有線ネットワークに限らず、無線ネットワークでもよい。端末100とセンターサーバ200との間は、基地局300を介して、通信可能に接続されているとも言える。基地局300とMEC400の間は任意の通信方法により通信可能に接続されるが、基地局300とMEC400は、1つの装置でもよい。
 端末100は、ネットワークNW1に接続される端末装置であり、現場の映像を送信する映像送信装置でもある。端末100は、現場に設置されたカメラ101が撮影した映像を取得し、取得した映像を、基地局300を介して、センターサーバ200へ送信する。なお、カメラ101は、端末100の外部に配置されてもよいし、端末100の内部に配置されてもよい。
 端末100は、カメラ101の映像を所定のビットレートに圧縮し、圧縮した映像を送信する。端末100は、圧縮効率を最適化する圧縮効率最適化機能102を有する。圧縮効率最適化機能102は、映像内のROI(Region of Interest)の画質を制御するROI制御を行う。ROIは、映像内の所定の領域である。ROIは、センターサーバ200の認識対象を含む領域であってもよく、ユーザが注視すべき領域であってもよい。圧縮効率最適化機能102は、人物や物体を含むROIの画質を維持しながら、その周りの領域の画質を低画質にすることでビットレートを削減する。また、端末100は、取得した映像から物体を検出する物体検出部を備えていてもよい。圧縮効率最適化機能102は、物体の検出結果に基づいて、映像における物体を含む領域の画質を制御する画質制御部を含んでもよい。端末100は、物体の検出結果と画質が制御された映像とを送信する送信部を備えていてもよい。
 基地局300は、ネットワークNW1の基地局装置であり、端末100とセンターサーバ200の間の通信を中継する中継装置でもある。例えば、基地局300は、ローカル5Gの基地局、5GのgNB(next Generation Node B)、LTEのeNB(evolved Node B)、無線LANのアクセスポイント等であるが、その他の中継装置でもよい。
 MEC(Multi-access Edge Computing)400は、システムのエッジ側に配置されたエッジ処理装置である。MEC400は、端末100を制御するエッジサーバであり、端末のビットレートを制御する圧縮ビットレート制御機能401を有する。圧縮ビットレート制御機能401は、適応映像配信制御やQoE(quality of experience)制御により端末100のビットレートを制御する。適応映像配信制御は、ネットワークの状況に応じて配信する映像のビットレート等を制御する。例えば、圧縮ビットレート制御機能401は、ネットワークNW1及びNW2の通信環境に応じて、センターサーバ200の認識精度が良くなるように各端末100のカメラ101の配信する映像にビットレートを割り当てる。また、ネットワークNW1及びNW2の通信環境を予測し、予測結果に応じてビットレートを割り当ててもよい。圧縮ビットレート制御機能401は、配信される映像のビットレートを抑えることによって当該映像を認識モデルに入力した際に得られる認識精度を予測してもよい。なお、ビットレートの制御に限らず、ネットワークの状況に応じて配信する映像のフレームレートを制御してもよい。
 センターサーバ200は、システムのセンター側に設置されたサーバである。センターサーバ200は、1つまたは複数の物理的なサーバでもよいし、クラウド上に構築されたクラウドサーバやその他の仮想化サーバでもよい。センターサーバ200は、現場のカメラ映像を分析や認識することで、現場の作業を監視する監視装置である。センターサーバ200は、端末100から送信された映像を受信する映像受信装置でもある。
 センターサーバ200は、映像認識機能201、アラート生成機能202、GUI描画機能203、画面表示機能204を有する。映像認識機能201は、端末100から送信された映像を映像認識AI(Artificial Intelligence)エンジンに入力することにより、作業員が行う作業、すなわち人物の行動の種類を認識する。また、映像認識機能201は、端末100から受信する物体検出結果と映像とに基づいて行動を認識してもよい。物体検出部をセンターサーバ200側に備えていてもよく、センターサーバ200の物体検出結果に基づいて人物の行動を認識してもよい。なお、映像認識機能201は、人物の行動に限らず、物体の状態を認識してもよい。
 アラート生成機能202は、認識された作業に応じてアラートを生成する。GUI描画機能203は、表示装置の画面にGUI(Graphical User Interface)を表示する。画面表示機能204は、GUIに端末100の映像や認識結果、アラート等を表示する。なお、必要に応じて、いずれかの機能を省略してもよいし、いずれかの機能を備えていてもよい。例えば、センターサーバ200は、アラート生成機能202、GUI描画機能203、画面表示機能204を備えていなくてもよい。
(実施の形態1)
 次に、実施の形態1について説明する。本実施の形態では、配信する映像とともに、低画質化領域の物体検出結果を送信する例について説明する。低画質化領域とは、他の領域よりも低画質に制御された領域である。
 まず、本実施の形態に係る遠隔監視システムの構成について説明する。本実施の形態に係る遠隔監視システム1の基本構成は、図5に示した通りである。ここでは、端末100とセンターサーバ200の構成例について説明する。図6は、本実施の形態に係る端末100の構成例を示しており、図7は、本実施の形態に係るセンターサーバ200の構成例を示している。
 なお、各装置の構成は一例であり、後述の本実施の形態に係る動作が可能であれば、その他の構成でもよい。例えば、端末100の一部の機能をセンターサーバ200や他の装置に配置してもよいし、センターサーバ200の一部の機能を端末100や他の装置に配置してもよい。また、圧縮ビットレート制御機能を含むMEC400の機能をセンターサーバ200や端末100等に配置してもよい。
 図6に示すように、端末100は、映像取得部110、物体検出部120、ROI選択部130、画質制御部140、物体検出結果抽出部150、配信部160、記憶部170を備えている。
 映像取得部110は、カメラ101が撮影した映像を取得する。カメラが撮影した映像は、以下入力映像とも称する。例えば、入力映像には現場で作業を行う作業員である人物や、人物が使用する作業物体等が含まれる。映像取得部110は、時系列の複数の画像、すなわちフレームを取得する画像取得部でもある。
 物体検出部120は、取得された入力映像内の物体を検出する。物体を検出することは、物体の種別を認識することや物体を認識することを含んでもよい。物体検出部120は、入力映像に含まれる各フレーム内の物体を検出し、検出した物体の種別を認識する。物体種別は、物体ラベル、または、物体クラスとも称する。物体検出部120は、入力映像に含まれる各フレームから物体を含む矩形領域を抽出し、抽出した矩形領域内の物体の物体種別を認識する。矩形領域は、バウンディングボックス、または、物体領域である。なお、物体を含む物体領域は、矩形領域に限らず、円形や不定形のシルエット等の領域でもよい。物体検出部120は、物体を含む矩形領域の特徴量を算出し、算出した特徴量に基づいて物体を認識する。例えば、物体検出部120は、ディープラーニングなどの機械学習を用いた物体認識エンジンによりフレーム内の物体を認識する。物体を含む領域の特徴と物体の種別を機械学習することで物体を認識できる。物体の検出結果には、物体種別、物体を含む矩形領域の位置情報、物体種別のスコア等が含まれる。物体の位置情報は、例えば、矩形領域の各頂点の座標であるが、矩形領域の中心の位置でもよいし、物体の任意の点の位置でもよい。物体種別のスコアは、検出した物体種別の確からしさ、すなわち信頼度または確信度である。なお、物体を認識することは、例えば、物体の存在の認識、物体の種類や属性の認識、物体の状態の認識等を含んでもよい。
 ROI選択部130は、入力映像内で検出した物体の検出結果に基づいて、取得された入力映像におけるROI、すなわち注視領域を選択する。ROI選択部130は、入力映像内で検出した検出物体のうち所定の物体種別を有する物体の位置情報に基づいて、ROIを決定する。例えば、記憶部170に記憶された所定の物体種別を有する物体の領域をROIに選択してもよい。また、物体検出結果に含まれる物体種別のスコアが所定値よりも大きい物体の領域や、物体種別のスコアが高い順に上位から所定の数の物体の領域を、ROIに選択してもよい。なお、物体種別のスコアが所定値よりも小さい物体の領域をROIに選択してもよい。
 画質制御部140は、選択したROIに基づいて、入力映像の画質を制御する。画質制御部140は、ROIを鮮明化領域とし、ROI以外の領域を非鮮明化領域として、入力映像の画質を制御する。鮮明化領域は、高画質化される領域であり、非鮮明化領域は、低画質化される領域である。画質制御部140は、所定の符号化方式により入力映像をエンコードするするエンコーダである。画質制御部140は、例えば、H.264やH.265などの映像符号化方式によりエンコードする。画質制御部140は、高画質化領域と低画質化領域をそれぞれ所定の圧縮率、すなわちビットレートで圧縮することで、各領域の画質が所定の品質となるようにエンコードする。すなわち、高画質化領域と低画質化領域の圧縮率を変えることで、高画質化領域を低画質化領域よりも高画質化し、低画質化領域を高画質化領域よりも低画質化する。例えば、隣接ピクセル間の画素値の変化を緩やかにすることで、低画質化することができる。
 また、画質制御部140は、MEC400の圧縮ビットレート制御機能401から割り当てられたビットレートとなるように入力映像をエンコードしてもよい。割り当てられたビットレートの範囲で、高画質化領域及び低画質化領域の画質を制御してもよい。また、画質制御部140は、端末100とセンターサーバ200間の通信品質に基づいて、ビットレートを決定してもよい。通信品質に基づいたビットレートの範囲で、高画質化領域及び低画質化領域の画質を制御してもよい。通信品質は、例えば、通信速度であるが、伝送遅延や誤り率などその他の指標でもよい。端末100は、通信品質を測定する通信品質測定部を備えていてもよい。例えば、通信品質測定部は、通信速度に応じて端末100からセンターサーバ200へ送信する映像のビットレートを決定する。基地局300またはセンターサーバ200が受信するデータ量に基づいて通信速度を測定し、通信品質測定部は、基地局300またはセンターサーバ200から測定された通信速度を取得してもよい。また、通信品質測定部は、配信部160から送信する単位時間当たりのデータ量に基づいて通信速度を推定してもよい。
 物体検出結果抽出部150は、物体検出結果から、センターサーバ200へ送信する物体検出結果を抽出する。物体検出結果抽出部150は、物体検出部120が検出した複数の物体の物体検出結果から、ROIに選択されなかった低画質化領域の物体検出結果を抽出する。物体検出結果抽出部150は、抽出した物体検出結果を、配信部160を介してセンターサーバ200へ送信する。送信する物体検出結果は、センターサーバ200で物体検出のために使用可能な情報である。例えば、物体検出結果として、物体種別、物体を含む矩形領域の位置情報を送信する。また、物体検出結果として、物体種別のスコアを送信してもよいし、物体を含む領域の特徴量を送信してもよい。
 配信部160は、画質制御部140が画質を制御した映像、すなわち、エンコードしたエンコードデータを、ネットワークを介して、センターサーバ200へ配信する。また、配信部160は、物体検出結果抽出部150が抽出した低画質化領域の物体検出結果を、ネットワークを介して、センターサーバ200へ送信する。配信部160は、エンコードデータのパケットに物体検出結果を含めて、エンコードデータと物体検出結果をまとめて送信してもよい。エンコードデータと物体検出結果を別々のタイミングや、別々の通信経路で送信してもよい。この場合、エンコードデータと物体検出結果にタイムスタンプを含めて送信してもよい。
 例えば、配信部160は、エンコードデータ及び物体検出結果を、基地局300を介して、センターサーバ200へ送信する。配信部160は、基地局300と通信可能な通信インタフェースであり、例えば、4G、ローカル5G/5G、LTE、無線LAN等の無線インタフェースであるが、その他の任意の通信方式の無線または有線インタフェースでもよい。配信部160は、エンコードデータを送信する第1の送信部と、物体検出結果を送信する第2の送信部を含んでもよい。第1の送信部と第2の送信部は、同じ通信方式の通信部でもよいし、別の通信方式の通信部でもよい。
 記憶部170は、端末100の処理に必要なデータを記憶する。例えば、記憶部170は、ROIを選択するための所定の物体種別を記憶する。
 また、図7に示すように、センターサーバ200は、受信部210、デコーダ220、物体検出結果取得部230、物体検出部240、物体追跡部250、特徴抽出部260、姿勢推定部270、行動認識部280を備えている。
 受信部210は、端末100から送信された画質制御後の映像、すなわち、エンコードデータを、ネットワークを介して受信する。また、受信部210は、端末100が低画質化した低画質化領域の物体検出結果を、ネットワークを介して受信する。例えば、受信部210は、エンコードデータと物体検出結果を含むパケットを受信する。また、エンコードデータと物体検出結果を別々のタイミングや、別々の通信経路で受信してもよい。エンコードデータと物体検出結果にタイムスタンプが付されている場合、タイムスタンプによりエンコードデータに対応する物体検出結果を特定する。
 例えば、受信部210は、端末100が配信したエンコードデータ及び物体検出結果を、基地局300を介して受信する。受信部210は、インターネットやコアネットワークと通信可能な通信インタフェースであり、例えば、IP通信用の有線インタフェースであるが、その他の任意の通信方式の有線または無線インタフェースでもよい。受信部210は、エンコードデータを受信する第1の受信部と、物体検出結果を受信する第2の受信部を含んでもよい。第1の受信部と第2の受信部は、同じ通信方式の通信部でもよいし、別の通信方式の通信部でもよい。物体検出結果取得部230は、受信部210が端末100から受信した低画質化領域の物体検出結果を取得する。なお、物体検出結果取得部230は、受信部210と一体でもよい。
 デコーダ220は、端末100から受信したエンコードデータをデコードする。デコーダ220は、エンコードデータを復号化する復号化部である。デコーダ220は、所定の符号化方式によりエンコードデータ、すなわち圧縮データを復元する復元部でもある。デコーダ220は、端末100の符号化方式に対応し、例えば、H.264やH.265などの動画符号化方式によりデコードする。デコーダ220は、各領域の圧縮率やビットレートに応じてデコードし、デコードした映像を生成する。デコードした映像を、以下受信映像とも称する。
 物体検出部240は、端末100から受信した受信映像内の物体を検出する。例えば、物体検出部240は、端末100の物体検出部120と同様、機械学習を用いた物体認識エンジンにより物体を認識する。なお、物体検出部240の物体認識エンジンは、物体検出部120に備えられている物体認識エンジンとは異なる学習を行った物体認識エンジンであってよい。物体検出部240は、受信映像の各画像から物体を含む矩形領域を抽出し、抽出した矩形領域内の物体の物体種別を認識する。物体の検出結果には、物体種別、物体を含む矩形領域の位置情報、物体種別のスコア等が含まれる。
 また、物体検出部240は、端末100から取得した物体検出結果を用いて、受信映像内の低画質化領域の物体を検出する。すなわち、物体検出部240は、物体認識エンジンにより高画質化領域の物体を検出し、端末100から取得した物体検出結果により低画質化領域の物体を検出する。物体検出部240は、物体認識エンジンにより検出した高画質化領域の物体検出結果と、端末100から取得した物体検出結果により検出した低画質化領域の物体検出結果とを含む物体検出結果を出力する。物体検出部240は、端末100から取得した物体検出結果をもとに、受信映像を分析して低画質化領域の物体検出結果を生成してもよいし、端末100から取得した物体検出結果を低画質化領域の物体検出結果として出力してもよい。例えば、物体が検出できない領域や、物体種別のスコアが所定値よりも小さい領域について、端末100から取得した物体検出結果を使用して物体を検出してもよい。
 物体追跡部250は、検出された受信映像内の物体を追跡、すなわちトラッキングする。物体追跡部250は、物体の検出結果に基づいて、受信映像に含まれる各画像の物体を対応付ける。例えば、検出された物体にトラッキングIDを割り当てることで、各物体を識別してトラッキングしてもよい。例えば、前の画像で検出された物体の矩形領域と次の画像で検出された物体の矩形領域との間の距離や重なりにより画像間の物体を対応付けることで、物体をトラッキングする。
 特徴抽出部260は、物体追跡部250がトラッキングした物体ごとに、物体を含む領域の特徴量を抽出する。特徴抽出部260は、行動認識部280が物体の行動を認識するために使用する特徴量を抽出する。画像の2次元空間の特徴量や時間方向の時空間の特徴量を抽出してもよい。例えば、特徴抽出部260は、ディープラーニングなどの機械学習を用いた特徴抽出エンジンにより物体を含む領域の特徴量を抽出する。特徴抽出エンジンは、CNN(Convolutional Neural Network)やRNN(Recurrent Neural Network)でもよいし、その他のニューラルネットワークでもよい。
 姿勢推定部270は、物体追跡部250がトラッキングした物体ごとに、物体の姿勢を推定する。姿勢推定部270は、物体の姿勢として、検出した物体である人物の骨格を推定してもよいし、例えばフォークリフトや重機の向きなど物体の向きなどを推定してもよい。例えば、姿勢推定部270は、ディープラーニングなどの機械学習を用いた骨格推定エンジンや姿勢推定エンジンにより、画像内の物体の姿勢を推定する。
 行動認識部280は、特徴抽出結果及び姿勢推定結果に基づいて、物体の行動を認識する。行動認識部280は、抽出された物体を含む領域の特徴量と、推定された物体の姿勢に基づいて、物体の行動を認識する。例えば、人物が物体を使用して行う作業や、人物が危険な状態となる不安全行動などを認識する。なお、行動認識に限らず、物体の状態等を認識してもよい。行動認識部280は、物体ごとに、物体の行動の種別を認識する。行動種別は、行動ラベル、または、行動クラスとも称する。例えば、行動認識部280は、ディープラーニングなどの機械学習を用いた行動認識エンジンにより、物体の行動を認識する。作業を行う人物の映像の特徴と行動種別を機械学習することで、映像内の人物の行動を認識できる。行動認識エンジンは、CNNやRNNでもよいし、その他のニューラルネットワークでもよい。行動の認識結果には、行動種別、行動種別のスコア等が含まれる。行動種別のスコアは、認識した行動種別の確からしさ、すなわち信頼度または確信度である。
 次に、本実施の形態に係る遠隔監視システムの動作について説明する。図8は、本実施の形態に係る遠隔監視システム1の動作例を示している。例えば、端末100がS111~S115を実行し、センターサーバ200がS116~S121を実行するとして説明するが、これに限らず、いずれの装置が各処理を実行してもよい。
 図8に示すように、端末100は、カメラ101から映像を取得する(S111)。カメラ101は、現場を撮影した映像を生成し、映像取得部110は、カメラ101から出力される映像、すなわち入力映像を取得する。例えば、図9に示すように、入力映像の画像には、現場で作業を行う3人の人物P1~P3が含まれている。例えば、人物P3は、ハンマーを持って作業を行っている。
 続いて、端末100は、取得した入力映像に基づいて物体を検出する(S112)。物体検出部120は、物体認識エンジンを用いて、入力映像に含まれるフレーム内の物体の物体種別を認識する。物体検出部120は、検出した各物体について、物体種別、物体の矩形領域の位置情報、物体種別のスコア等を物体検出結果として出力する。例えば、図9の画像から物体検出を行うと、図10のように、人物P1~P3及びハンマーを検出し、人物P1~P3の矩形領域とハンマーの矩形領域を検出する。
 続いて、端末100は、物体検出結果に基づいて、ROIを選択する(S113)。ROI選択部130は、検出された物体の中から、記憶部170に記憶された所定の物体種別に含まれる物体を抽出し、抽出した物体の領域をROIに選択してもよい。また、ROI選択部130は、物体種別のスコアが所定値よりも大きい物体の領域をROIに選択してもよい。また、物体種別のスコアが所定値よりも小さい物体の領域をROIに選択してもよい。例えば、図10の例で、人物P1及び人物P2のスコアが所定値よりも大きく、人物P3及びハンマーのスコアが所定値よりも小さい場合、人物P1及び人物P2の矩形領域をROIに選択し、人物P3及びハンマーの矩形領域をROIに選択しない。また、人物P1及び人物P2のスコアが所定値よりも大きく、人物P3及びハンマーのスコアが所定値よりも小さい場合、人物P3及びハンマーをROIに選択してもよい。
 続いて、端末100は、選択したROIに基づいて、入力映像をエンコードする(S114)。画質制御部140は、所定の映像符号化方式により入力映像をエンコードする。例えば、画質制御部140は、MEC400の圧縮ビットレート制御機能401から割り当てられたビットレートとなるように入力映像をエンコードしてもよいし、端末100とセンターサーバ200の間の通信品質に応じたビットレートでエンコードしてもよい。画質制御部140は、割り当てられたビットレートや通信品質に応じたビットレートの範囲で、ROIが他の領域よりも高画質となるように、入力映像をエンコードする。例えば、ROIの圧縮率を他の領域の圧縮率よりも下げることで、ROIを高画質化し、他の領域を低画質化する。図10例で、人物P3及び人物P2の矩形領域がROIに選択された場合、図11のように、人物P1及び人物P2の矩形領域を高画質化し、人物P3及びハンマーを含む他の領域を低画質化する。
 続いて、端末100は、エンコードしたエンコードデータと物体検出結果をセンターサーバ200へ送信する(S115)。物体検出結果抽出部150は、物体検出結果の中から、ROIに選択されなかった領域、すなわち、低画質化領域の物体検出結果を抽出する。図11の例では、人物P3とハンマーが低画質化領域であるため、図12のように、物体検出結果から人物P3とハンマーの物体検出結果を抽出する。例えば、物体検出結果として、物体種別、物体を含む矩形領域の位置情報、物体種別のスコア等を配信部160へ出力する。配信部160は、入力映像をエンコードしたエンコードデータと、抽出した低画質化領域の物体検出結果を基地局300へ送信する。基地局300は、受信したエンコードデータと物体検出結果を、コアネットワークやインターネットを介して、センターサーバ200へ転送する。
 続いて、センターサーバ200は、エンコードデータと物体検出結果を受信する(S116)。受信部210は、基地局300から転送されたエンコードデータと物体検出結果を、コアネットワークやインターネットから受信する。物体検出結果取得部230は、受信した低画質化領域の物体検出結果を取得する。
 続いて、センターサーバ200は、受信したエンコードデータをデコードする(S117)。デコーダ220は、各領域の圧縮率やビットレートに応じてエンコードデータをデコードし、デコードした映像、すなわち受信映像を生成する。
 続いて、センターサーバ200は、受信した受信映像及び物体検出結果に基づいて、受信映像内の物体を検出する(S118)。物体検出部240は、物体認識エンジンを用いて、受信映像の高画質化領域の物体を検出し、物体検出結果取得部230が取得した物体検出結果を用いて、受信映像の低画質化領域の物体を検出する。例えば、物体検出部240は、物体認識エンジンにより検出した物体検出結果と、物体検出結果取得部230が取得した物体検出結果とを一つの物体検出結果にまとめて出力する。すなわち、物体検出部240は、高画質化領域で検出された物体の物体種別、物体の矩形領域の位置情報、物体種別のスコア等と、取得した低画質化領域の物体の物体種別、物体の矩形領域の位置情報、物体種別のスコア等とを、物体検出結果として出力する。なお、物体検出部240は、低画質化領域の物体を検出してもよい。この場合、物体検出結果取得部230が取得した物体検出結果と物体検出部240が検出した物体種別のスコアを比較し、よりスコアの高い物体検出結果を出力しても良い。例えば、図11のような画質が制御された映像と図12のような物体検出結果を受信すると、図13のように、物体認識エンジンで検出した人物P1及びP2の矩形領域と、受信した物体検出結果に含まれる人物P3及びハンマーの矩形領域を物体検出結果として出力する。
 続いて、センターサーバ200は、検出された受信映像内の物体を追跡する(S119)。物体追跡部250は、高画質化領域及び低画質化領域の物体検出結果を含む受信映像の物体検出結果に基づいて、受信映像内の物体をトラッキングする。物体追跡部250は、検出された各物体にトラッキングIDを割り当て、トラッキングIDにより識別される物体を各画像でトラッキングする。
 続いて、センターサーバ200は、トラッキングした物体ごとに、物体を含む領域の特徴量を抽出し、物体の姿勢を推定する(S120)。特徴抽出部260は、特徴抽出エンジンを用いて、高画質化領域及び低画質化領域でトラッキングした物体を含む領域の特徴量を抽出する。姿勢推定部270は、姿勢推定エンジンを用いて、高画質化領域及び低画質化領域でトラキングした物体の姿勢を推定する。
 続いて、センターサーバ200は、特徴抽出結果及び姿勢推定結果に基づいて、物体の行動を認識する(S121)。行動認識部280は、行動認識エンジンを用いて、高画質化領域及び低画質化領域で抽出された物体の特徴量と、高画質化領域及び低画質化領域で推定された物体の姿勢に基づいて、受信映像における物体の行動を認識する。行動認識部280は、認識した物体の行動の種別、行動種別のスコアを出力する。例えば、図13の物体検出結果から、人物P1~P3及びハンマーをトラッキングし、人物P1~P3及びハンマーの特徴慮及び姿勢から、高画質化領域の人物P1及びP2の行動、低画質化領域の人物P3の行動を認識する。
 以上のように、本実施の形態では、低画質化する領域の物体検出結果を端末からセンターサーバに送信する。すなわち、端末がROIに基づいて低画質化した領域の物体検出結果をセンターサーバに送信し、センターサーバは受信した物体検出結果を使用して低画質化領域の物体検出を行う。映像を低画質化すると、物体の検出精度が低下し、物体を正しく検出できない恐れがあるため、本実施の形態のように、端末で検出した低画質化領域の物体検出結果を使用して、センターサーバで物体検出を行うことで、物体検出精度を向上することができる。また、物体検出精度を向上させることができるため、物体検出結果を用いる物体の行動認識の精度を向上させることができる。
(実施の形態2)
 次に、実施の形態2について説明する。本実施の形態では、配信する映像とともに、低画質化領域の画像の特徴量を送信する例について説明する。
 図14は、本実施の形態に係る端末100の構成例を示しており、図15は、本実施の形態に係るセンターサーバ200の構成例を示している。ここでは、主に実施の形態1と異なる構成について説明する。
 図14に示すように、本実施の形態では、端末100は、実施の形態1の物体検出結果抽出部150の代わりに、特徴抽出部151を備えている。その他の構成は、実施の形態1と同様である。なお、実施の形態1の構成に加えて、さらに特徴抽出部151を備えていてもよい。
 特徴抽出部151は、検出された物体を含む領域の特徴量を抽出する。特徴抽出部151は、物体検出部120が検出した物体のうち、ROIとして選択されなかった低画質化領域の物体を含む領域の特徴量を抽出する。特徴抽出部151は、抽出した物体を含む領域の特徴量を、配信部160を介してセンターサーバ200へ送信する。送信する物体を含む領域の特徴量は、センターサーバ200で行動認識のために使用可能な特徴量である。特徴抽出部151は、センターサーバ200の特徴抽出部260と同様に、行動認識部280が物体の行動を認識するために使用する特徴量を抽出する。例えば、画像の2次元空間の特徴量や時間方向の時空間の特徴量を抽出してもよい。例えば、特徴抽出部151は、特徴抽出部260と同様に、ディープラーニングなどの機械学習を用いた特徴抽出エンジンにより物体を含む領域の特徴量を抽出する。特徴抽出エンジンは、CNNやRNNでもよいし、その他のニューラルネットワークでもよい。
 配信部160は、画質制御部140がエンコードしたエンコードデータと、特徴抽出部151が抽出した低画質化領域の物体を含む領域の特徴量を、センターサーバ200へ送信する。なお、実施の形態1の図6と同様の動作をする部の記載は省略する。
 また、図15に示すように、本実施の形態では、センターサーバ200は、実施の形態1の物体検出結果取得部230の代わりに、特徴取得部231を備えている。その他の構成は、実施の形態1と同様である。なお、実施の形態1の構成に加えて、さらに特徴取得部231を備えていてもよい。
 受信部210は、端末100から送信されたエンコードデータと低画質化領域の物体を含む領域の特徴量を受信し、特徴取得部231は、受信した低画質化領域の物体を含む領域の特徴量を取得する。なお、特徴取得部231は、受信部210と一体でもよい。
 行動認識部280は、特徴抽出部260が抽出した物体を含む領域の特徴量及び端末100から取得した物体を含む領域の特徴量と、姿勢推定部270が推定した物体の姿勢に基づいて、物体の行動を認識する。行動認識部280は、高画質化領域の物体について、特徴抽出部260が抽出した物体を含む領域の特徴量と、姿勢推定部270が推定した物体の姿勢に基づいて、物体の行動を認識し、低画質化領域の物体について、端末100から取得した物体を含む領域の特徴量と、姿勢推定部270が推定した物体の姿勢に基づいて、物体の行動を認識する。なお、特徴抽出部260は、低画質化領域から特徴量を抽出してもよい。この場合、行動認識部280は、特徴抽出部260が抽出した特徴量と特徴抽出部151が抽出した特徴量と姿勢推定部270が推定した物体の姿勢とに基づいて、低画質領域と高画質領域とで分けずに行動認識を行ってもよい。例えば、行動が認識できない領域や、スコアが所定値よりも小さい領域について、端末100から取得した特徴量を使用して行動を認識してもよい。なお、実施の形態1の図7と同様の動作をする部の記載は省略する。
 なお、端末100に、姿勢推定部270と同様の姿勢推定部を備え、端末から低画質化領域の物体の姿勢推定結果をセンターサーバ200へ送信し、送信された姿勢推定結果を使用して低画質化領域の行動認識を行ってもよい。
 以上のように、本実施の形態では、端末で低画質化した領域の物体の特徴量抽出を行い、抽出した特徴量をセンターサーバに送信する。センターサーバでは、受信した特徴量を使用して低画質化領域の物体の行動認識を行う。これにより、低画質化領域についての特徴を踏まえた行動認識を行うことができ、物体の行動認識の認識精度を向上することができる。
(実施の形態3)
 次に、実施の形態3について説明する。本実施の形態では、配信する映像とともに、低画質化領域の関連物体情報を送信する例について説明する。
 図16は、本実施の形態に係る端末100の構成例を示しており、図17は、本実施の形態に係るセンターサーバ200の構成例を示している。ここでは、主に実施の形態1と異なる構成について説明する。
 図16に示すように、本実施の形態では、端末100は、実施の形態1の物体検出結果抽出部150の代わりに、関連物体判定部152を備えている。その他の構成は、実施の形態1と同様である。
 関連物体判定部152は、物体の検出結果に基づいて、物体間の関係性を分析し、関係のある関連物体の有無を判定する。関連物体判定部152は、物体検出部120が検出した物体のうち、ROIとして選択されなかった低画質化領域の物体間の関係性を分析する。物体間の関係性は、物体間の距離や物体の領域間の重なりなどの位置関係である。物体の領域間の重なりは、例えば、検出した物体を含む矩形領域である物体領域間の重なりを示すIoU(Intersection over Union)である。また、物体間の関係性は、物体の向きを含んでもよい。関連物体判定部152は、低画質化領域で検出した物体間の位置関係や向きに基づいて、物体間の関係性の有無を判定する。例えば、関連物体判定部152は、第1の物体と第2の物体間の距離が所定の閾値よりも小さい場合、第1の物体と第2の物体は関係ありと判定してもよい。関連物体判定部152は、第1の物体の領域と第2の物体の領域の重なりが所定の閾値よりも大きい場合、第1の物体と第2の物体は関係ありと判定してもよい。関連物体判定部152は、第1の物体の向きが第2の物体の方へ向いている場合、第1の物体と第2の物体は関係ありと判定してもよい。物体間の距離、重なり、向きのいずれかで物体間の関係性を判断してもよいし、物体間の距離、重なり、向きのうちの任意の組み合わせで物体間の関係性を判断してもよい。なお、この例では、物体間の関係性の有無を判定するが、物体間の距離、重なり、向きなどから、人物が物体を持っているなどの状態を判定してもよい。
 関連物体判定部152は、分析した結果、関係ありと判断された関連物体情報を、配信部160を介してセンターサーバ200へ送信する。関連物体情報は、低画質化領域で関係ありと判定した第1の物体と第2の物体の物体検出結果、すなわち、第1の物体と第2の物体の物体種別、位置情報等を含む。関連物体情報は、第1の物体と第2の物体の関係性、すなわち、位置関係を示している。また、関連物体情報は、人物が物体を持っているなどの状態を含んでもよい。
 配信部160は、画質制御部140がエンコードしたエンコードデータと、関連物体判定部152が分析した低画質化領域の関連物体情報を、センターサーバ200へ送信する。なお、実施の形態1の図6と同様の動作をする部の記載は省略する。
 また、図17に示すように、本実施の形態では、センターサーバ200は、実施の形態1の物体検出結果取得部230の代わりに、関連物体取得部232を備え、さらに、記憶部290を備えている。その他の構成は、実施の形態1と同様である。
 記憶部290は、作業で使用する物体、すなわち作業物体に作業内容を対応付けた物体-作業対応付けテーブルを記憶する。図18は、物体-作業対応付けテーブルの例を示している。この例では、ハンマーにハンマーを使用して行うくい打ち作業を対応付け、スコップにスコップを使用して行う掘削作業を対応付け、転圧機に転圧機を使用して行う転圧作業を対応付けている。作業に関連する工具に限らず、作業に関連する建機に作業内容を対応付けてもよい。例えば、ショベルカーに掘削作業を対応付けてもよいし、ミキサー車にコンクリート作業を対応付けてもよい。
 受信部210は、端末100から送信されたエンコードデータと低画質化領域の関連物体情報を受信し、関連物体取得部232は、受信した低画質化領域の関連物体情報を取得する。なお、関連物体取得部232は、受信部210と一体でもよい。また、関連物体判定部152をセンターサーバ200に配置し、センターサーバ200で物体の関係性を分析し、関連物体情報を取得してもよい。すなわち、実施の形態1と同様に端末100から低画質化領域の物体検出結果を送信し、センターサーバ200の関連物体判定部152が、受信した低画質化領域の物体検出結果に基づき、物体の関係性を分析し、関連物体情報を生成してもよい。
 行動認識部280は、特徴抽出部260が抽出した物体の特徴量と、姿勢推定部270が推定した物体の姿勢に基づいて、物体の行動を認識し、さらに、端末100から取得した関連物体情報に基づいて、行動の認識結果を更新する。すなわち、関連物体情報が示す関係ありと判定された物体に基づいて、行動の認識結果を絞り込む。関連物体情報が、人物が物体を持っているなどの状態を含む場合、状態に対応する物体に基づいて、行動の認識結果を絞り込んでもよい。例えば、行動認識部280は、記憶部290の物体-作業対応付けテーブルを参照し、関連物体情報が示す第1の物体と第2の物体に対応する作業の行動種別のスコアを増加させる。行動認識部280は、複数の物体の行動が認識されている場合、関連物体情報が示す第1の物体と第2の物体の種別や位置情報から、対応する物体の行動認識結果を抽出し、抽出した物体の行動認識結果を更新してもよい。
 図19は、関連物体情報に基づいて行動認識結果に含まれる行動種別のスコアを更新する具体例を示している。例えば、実施の形態1の図9~図11で示した例の場合、人物とハンマーの領域が低画質化されため、センターサーバ200で人物とハンマーの認識があいまいとなり、人物とハンマーから認識されるはずのくい打ち作業の行動種別のスコアが低くなる。例えば、図19の更新前のように、くい打ち作業の行動種別のスコアが0.4となる。本実施の形態では、関連物体情報により人物とハンマーが関係ありと示されると、行動認識部280は、図18の物体-作業対応付けテーブルにより、ハンマーに関連する作業をくい打ち作業と特定し、特定したくい打ち作業の行動種別のスコアを増加させることで、認識結果を絞り込む。例えば、行動認識部280は、特定した作業の行動種別のスコアが最も高くなるように、各作業の行動種別のスコアを更新する。行動種別のスコアを所定の値または割合だけ増加させてもよい。特定した作業以外の行動種別のスコアは、低くしてもよいし、削除してもよい。全ての行動種別のスコアの合計が1.0となるように、各行動種別のスコアを任意の値に更新する。例えば、図19の更新後のように、くい打ち作業の行動種別のスコアを0.4から0.6に更新する。また、くい打ち作業以外の掘削作業と転圧作業を削除し、該当なしの行動種別のスコアを0.4に更新する。なお、実施の形態1の図7と同様の動作をする部の記載は省略する。
 以上のように、本実施の形態では、端末の物体検出結果を、センターサーバの行動認識の絞込みに活用する。映像を低画質化すると、特徴量の抽出や姿勢推定が正しく行われずに行動認識の信頼度が低くなる恐れがある。映像の低画質化による行動認識の信頼度の低下を防止するため、実施の形態3では、端末の物体検出結果から行動認識の結果を更新することで、行動の候補を絞込む。例えば、行動の候補の絞込みを行うための情報として、所定の位置関係などの関係性を示す関連物体の情報を端末から送信する。センターサーバは関連物体に対応する行動のスコアを更新することで、行動の候補を絞り込む。例えば、作業者と転圧機が近いという関係から転圧作業を行っている可能性が高いため、行動の候補を転圧作業に絞り込める。これにより、映像品質が悪い場合などであっても、物体間の関係性の情報に基づいて行動認識を行うことができ、行動認識の認識精度を向上することができる。
(実施の形態4)
 次に、実施の形態4について説明する。本実施の形態では、配信する映像とともに、人物の顔認証結果を送信する例について説明する。
 図20は、本実施の形態に係る端末100の構成例を示しており、図21は、本実施の形態に係るセンターサーバ200の構成例を示している。ここでは、主に実施の形態1と異なる構成について説明する。
 図20に示すように、本実施の形態では、端末100は、実施の形態1の物体検出結果抽出部150の代わりに、顔認証部153を備えている。その他の構成は、実施の形態1と同様である。
 顔認証部153は、物体検出により検出した人物の顔認証を行う。顔認証部153は、顔認証により個人を特定する特定部である。例えば、記憶部170に、個人を特定するための特定情報と人物を識別する人物識別情報とを対応付けて記憶しておく。特定情報は、例えば、人物の顔の画像などを含む。顔認証部153は、フレーム内の人物の顔を抽出し、抽出した顔を記憶部170に登録された特定情報に含まれる人物の顔と照合する。例えば、顔認証部153は、ディープラーニングなどの機械学習を用いた顔認証エンジンによりフレーム内の人物の顔を認証してもよい。顔認証部153は、顔認証が成功した人物の人物識別情報を、顔認証結果として、配信部160を介してセンターサーバ200へ送信する。人物識別情報は、顔認証により特定された個人を識別する識別情報であり、例えば、各人物の氏名でもよいし、各人物に割り当てられた識別番号でもよい。顔認証結果は、特定した人物の位置情報を含んでもよい。顔認証部153は、全ての領域で検出された人物の顔認証結果を送信してもよいし、低画質化領域で検出された人物の顔認証結果を送信してもよい。
 配信部160は、画質制御部140がエンコードしたエンコードデータと、顔認証部153の顔認証結果を、センターサーバ200へ送信する。なお、実施の形態1の図6と同様の動作をする部の記載は省略する。
 また、図21に示すように、本実施の形態では、センターサーバ200は、実施の形態1の物体検出結果取得部230の代わりに、顔認証結果取得部233を備え、さらに、記憶部290を備えている。その他の構成は、実施の形態1と同様である。
 記憶部290は、人物に、人物が行う作業内容を対応付けた人物-作業対応付けテーブルを記憶する。図22は、人物-作業対応付けテーブルの例を示している。図22に示すように、人物-作業対応付けテーブルは、人物識別情報ごとに人物が行う作業内容が対応付けられている。人物識別情報は、端末が顔認証により特定された人物を識別する人物識別情報と同じ識別情報である。すなわち、各人物の氏名でもよいし、各人物に割り当てられた識別番号でもよい。この例では、Aさんが行うくい打ち作業及び切断作業をAさんに対応付け、Bさんが行う掘削作業及び転圧作業をBさんに対応付け、Cさんが行うコンクリート作業をCさんに対応付けている。このように、各人物に1つの作業を対応付けてもよいし、複数の作業を対応付けてもよい。人物に複数の作業を対応付ける場合、各作業を行う日時などを設定してもよい。
 受信部210は、端末100から送信されたエンコードデータと顔認証結果を受信し、顔認証結果取得部233は、受信した顔認証結果を取得する。なお、顔認証結果取得部233は、受信部210と一体でもよい。また、顔認証部153をセンターサーバ200に配置し、センターサーバ200で人物の顔を認証し、顔認証結果を取得してもよい。すなわち、端末100から人物の顔の画像や顔の画像の特徴量を送信し、センターサーバ200の顔認証部153が、受信した人物の顔の画像や顔の画像の特徴量に基づき、人物の顔を認証し、顔認証結果を生成してもよい。
 行動認識部280は、特徴抽出部260が抽出した物体の特徴量と、姿勢推定部270が推定した物体の姿勢に基づいて、物体の行動を認識し、さらに、端末100から取得した顔認証結果に基づいて、行動の認識結果を更新する。すなわち、顔認証により特定された個人を示す人物識別情報に基づいて、行動の認識結果を絞り込む。行動認識部280は、記憶部290の人物-作業対応付けテーブルを参照し、顔認証により特定された個人を示す人物識別情報に対応する作業の行動種別のスコアを更新する。行動認識部280は、複数の人物についてそれぞれの行動が認識されている場合、顔認証結果の位置情報から、対応する人物の行動認識結果を抽出し、抽出した人物の行動認識結果を更新してもよい。
 図23は、顔認証結果に基づいて行動認識結果に含まれる行動種別のスコアを更新する具体例を示している。例えば、実施の形態1の図9~図11で示した例の場合、人物とハンマーの領域が低画質化されたため、センターサーバ200で人物とハンマーの認識があいまいとなり、人物とハンマーから認識されるはずのくい打ち作業の行動種別のスコアが低くなる。例えば、図23の更新前のように、くい打ち作業の行動種別のスコアが0.4となる。本実施の形態では、顔認証結果により人物がAさんであると識別されると、行動認識部280は、図22の人物-作業対応付けテーブルにより、Aさんに関連する作業はくい打ち作業または切断作業であると特定する。この例では、認識結果にくい打ち作業が含まれるため、くい打ち作業の行動種別のスコアを増加させることで、認識結果を絞り込む。なお、Aさんがくい打ち作業と切断作業を行う日時が設定されている場合、設定された時間と現在の時間に基づいて、更新する行動種別のスコアを選択してもよい。行動認識部280は、特定した作業の行動種別のスコアが最も高くなるように、各作業の行動種別のスコアを更新する。特定した作業の行動種別のスコアの更新方法は実施の形態3と同様である。例えば、図23の更新後のように、くい打ち作業の行動種別のスコアを0.4から0.6に更新する。また、くい打ち作業以外の掘削作業と転圧作業を削除し、該当なしの行動種別のスコアを0.4に更新する。なお、実施の形態1の図7と同様の動作をする部の記載は省略する。
 なお、顔認証により個人を特定し、特定された人物を識別する例に限られない。顔認証と同様に、人物以外の物体を特定し、特定された物体を識別してもよい。すなわち、特定された物体を識別する識別情報を端末から送信し、行動認識結果を絞り込んでもよい。例えば、重機やフォークリフト、AGV(Automatic Guided Vehicle)などの識別可能な物体と作業を対応付けたテーブルを保持し、物体の識別結果とテーブルとに基づいて、物体の行動認識結果を絞り込んでもよい。また、特定された物体を識別する識別情報に限らず、物体の属性やグループを識別する属性識別情報を端末から送信し、行動認識結果を絞り込んでもよい。例えば、人物の属性やグループとして、大工や左官などの職種、所属する企業などを識別し、職種や企業に対応する行動認識結果を更新してもよい。職種や企業は、人物の作業着などの服装、ヘルメットや帽子などから識別してもよい。例えば、作業着やヘルメットに示されている文字やマーク等から識別してもよい。また、例えば、機械等の物体や衣類に添付又は表示された、属性やグループを示すコード等から識別してもよい。
 以上のように、本実施の形態では、端末における顔認証結果など、人物の個人や属性の識別結果を、センターサーバの行動認識の絞込みに活用する。映像を低画質化すると、特徴量の抽出や姿勢推定が正しく行われずに行動認識の信頼度が低くなる恐れがある。映像の低画質化による行動認識の信頼度の低下を防止するため、実施の形態4では、端末で人物の顔認証等を行い、識別された人物等に対応する作業を特定し、特定した作業により作業の候補を絞り込む。これにより、映像品質が悪い場合などに認識精度を向上することができる。また、顔認証結果に限らず、物体の識別結果を活用することもできる。
(実施の形態5)
 次に、実施の形態5について説明する。本実施の形態では、実施の形態1~4の構成において、物体間の関係性に基づいてROIを選択する例について説明する。
 図24は、本実施の形態に係る端末100の構成例を示している。センターサーバ200の構成は実施の形態1と同様であるため説明を省略する。なお、一例として、実施の形態1に本実施の形態を適用する例について説明するが、実施の形態2~4に対しても、同様に本実施の形態を適用してもよい。
 図24に示すように、本実施の形態では、端末100は、実施の形態1の構成に加えて、関係性分析部131を備えている。その他の構成は、実施の形態1と同様である。ここでは、主に実施の形態1と異なる構成について説明する。
 記憶部170は、物体間の関係性を分析するためのテーブルを記憶する。具体的には、関係性を分析する関連物体のペアを対応付けた関連物体対応付けテーブルを記憶する。図25は、関連物体対応付けテーブルの具体例を示している。図25に示すように、関連物体対応付けテーブルは、関係性を分析するための関連物体として、第1の物体の種別と第2の物体の種別とを対応付ける。この例では、人物に、ハンマー、建機、スコップ、梯子がそれぞれ対応付けられ、建機と建機が対応付けられている。例えば、関連物体対応付けテーブルは、センターサーバ200が映像から認識する認識対象に対応した物体のペアを定義してもよい。センターサーバ200が人物により行われる作業を認識する場合、作業を行う人物に、作業に使用する作業物体、例えばハンマーやスコップ等を対応付ける。この場合、第1の物体と第2の物体の一方が人物となり、他方が作業物体となる。2つの建機により行われる作業を認識する場合、建機と建機を対応付ける。この場合、第1の物体と第2の物体が作業物体となる。また、センターサーバ200が、人物が危険な状態となる不安全行動を認識する場合、人物に、不安全行動を誘発する物体、例えば建機や梯子等を対応付ける。この場合、第1の物体と第2の物体の一方が人物となり、他方が不安全行動を誘発する物体となる。
 図26は、関連物体対応付けテーブルの他の例を示している。図26に示すように、関連物体対応付けテーブルでは、分析する関連物体、すなわち第1の物体と第2の物体のペアに、割り当てる重要度を対応付けてもよい。例えば、センターサーバ200が映像から認識する認識対象に応じて重要度を設定してもよい。不安全行動に関連する人物と建機のペアや人物と梯子のペアの重要度を、作業に関連する人物とハンマーのペアや人物とスコップのペアよりも高く設定してもよい。例えば、建機に近い人物の領域や建機に重なっている人物の領域に重要度+5を割り当て、ハンマーに近い人物やハンマーに重なっている人物の領域に重要度+2を割り当てる。人物と建機の組み合わせのみから人物の領域に重要度+5を割り当て、人物とハンマーの組み合わせのみから人物の領域に重要度+2を割り当ててもよい。なお、重要度は数値に限らず、高、中、低のようなレベルでもよい。
 関係性分析部131は、入力映像内で検出した物体の検出結果に基づいて、物体間の関係性を分析する。関係性分析部131は、検出された検出物体のうち所定の種別を有する物体の関係性を分析する。関係性分析部131は、記憶部170に記憶された関連物体対応付けテーブルを参照し、関連物体対応付けテーブルで対応付けられた第1の物体と第2の物体の関係性を分析する。物体間の関係性は、物体間の距離や物体の領域間の重なりなどの位置関係である。また、物体間の関係性は、物体の向きを含んでもよい。関係性分析部131は、物体間の位置関係や向きに基づいて、物体間の関係性の有無を判定してもよい。
 関係性分析部131は、実施の形態3の関連物体判定部152と同様に、物体間の関係性の有無を判定してもよい。例えば、関係性分析部131は、第1の物体と第2の物体間の距離が所定の閾値よりも小さい場合、第1の物体と第2の物体は関係ありと判定してもよい。例えば、関係性分析部131は、図25の関連物体対応付けテーブルを参照し、人物とハンマーの距離が閾値よりも小さい場合、人物とハンマーは関係ありと判定する。また、関係性分析部131は、第1の物体の領域と第2の物体の領域の重なりが所定の閾値よりも大きい場合、第1の物体と第2の物体は関係ありと判定してもよい。また、関係性分析部131は、第1の物体の向きが第2の物体の方へ向いている場合、第1の物体と第2の物体は関係ありと判定してもよい。物体間の距離、重なり、向きのいずれかで物体間の関係性を判断してもよいし、物体間の距離、重なり、向きのうちの任意の組み合わせで物体間の関係性を判断してもよい。
 また、関係性分析部131は、物体間の位置関係や向きに応じて物体の領域に重要度を割り当ててもよい。すなわち、関係性分析部131は、重要度を判定する重要度判定部として機能してよい。重要度判定部を関係性分析部とは別に端末100に搭載してもよい。重要度は、注視すべき度合いであり、鮮明化する優先度を示す。例えば、関連物体対応付けテーブルで関連物体ごとに重要度が設定されている場合、関係性分析部131は、関連物体対応付けテーブルの設定に基づいて、物体の領域に重要度を割り当ててもよい。例えば、関係性分析部131は、図26の関連物体対応付けテーブルを参照し、人物とハンマーの距離が閾値よりも小さい場合、人物とハンマーの領域に重要度+2を割り当てる。関係性分析部131は、第1の物体と第2の物体間の距離が小さくなるにしたがって、割り当てる重要度を大きくしてもよい。関係性分析部131は、第1の物体の領域と第2の物体の領域の重なりが大きくなるにしたがって、割り当てる重要度を大きくしてもよい。関係性分析部131は、第1の物体の向きが第2の物体の方に近づくにしたがって、割り当てる重要度を大きくしてもよい。また、物体の組み合わせのみに基づいて重要度を割り当ててもよい。
 ROI選択部130は、分析した物体間の関係性に基づいて、取得された入力映像におけるROIを選択する。例えば、ROI選択部130は、関係性ありと判定された第1の物体と第2の物体の領域をROIに選択してもよい。また、ROI選択部130は、割り当てられた領域の重要度に応じてROIを選択してもよい。また、第1の物体と第2の物体の関係性に応じた重要度が、所定値以上の場合、第1の物体の領域及び第2の物体の領域をROIに選択してもよい。各物体の領域に割り当てられた重要度の高い順にROIを選択してもよい。例えば、重要度の高い順に上位から所定の数の領域をROIに選択してもよい。圧縮ビットレート制御機能401から割り当てられたビットレートの範囲で鮮明化可能な数の領域を、ROIに選択してもよい。
 また、ROI選択部130は、物体の関係性の変化に応じてROIを選択してもよい。すなわち、物体間の距離や重なり等の時系列変化に応じて重要度を変更し、変更された重要度に基づいてROIを決定してもよい。例えば、土の積載された場所の周囲でショベルカーが検出された場合、ショベルカーが移動しているか否か、すなわち、積載された土とショベルカーの距離や重なりの変化に応じて重要度を変えてもよい。この場合、ショベルカーが停止して根切り作業を行っている場合と、ショベルカーが移動して埋め戻し作業を行っている場合とがあり得る。このため、ショベルカーが移動している場合、重要度を上げることで、移動しているショベルカーの領域をROIとしてもよい。なお、実施の形態1の図6と同様の動作をする部の記載は省略する。
 以上のように、本実施の形態では、実施の形態1~4の構成において、端末でROIを選択する際に、映像内で検出された物体間の位置関係などの関係性に基づいてROIを選択する。これにより、物体間の関係性に基づいて適切にROIを選択することができ、例えば、重要な領域での物体検出を、端末よりもリソースの豊富なセンターサーバで実施することができる。また、実施の形態1~4と同様に、ROIに選択されなかった低画質化領域の認識精度を向上することができる。
(実施の形態6)
 次に、実施の形態6について説明する。本実施の形態では、実施の形態1~4の構成において、作業の状況に関係する物体に基づいてROIを選択する例について説明する。
 図27は、本実施の形態に係る端末100の構成例を示している。センターサーバ200の構成は実施の形態1と同様であるため説明を省略する。なお、一例として、実施の形態1に本実施の形態を適用する例について説明するが、実施の形態2~4に対しても、同様に本実施の形態を適用してもよい。
 図27に示すように、本実施の形態では、端末100は、実施の形態1の構成に加えて、作業情報取得部132を備えている。その他の構成は、実施の形態1と同様である。なお、端末100は、実施の形態5の関係性分析部131の代わりに、作業情報取得部132を備えているとも言える。ここでは、主に実施の形態1と異なる構成について説明する。
 作業情報取得部132は、現場で行われる作業の状況を示す作業情報を取得する。作業情報は、現在行われている作業内容を特定する情報でもよいし、各作業工程の日時を含むスケジュール情報でもよい。作業情報は、作業者が入力してもよいし、作業工程を管理する管理装置から取得してもよい。
 記憶部170は、作業内容に作業で使用する物体、すなわち作業物体を対応付けた作業-物体対応付けテーブルを記憶する。図28は、作業-物体対応付けテーブルの例を示している。図28に示すように、作業-物体対応付けテーブルは、作業内容、もしくは、作業工程に、作業で使用する物体の種別を対応付ける。この例では、くい打ち作業にくい打ち作業で使用するハンマーを対応付け、掘削作業に掘削作業で使用するスコップを対応付け、転圧作業に転圧作業で使用する転圧機を対応付けている。作業に関連する工具に限らず、作業に関連する建機でもよい。例えば、掘削作業にショベルカーを対応付けてもよいし、コンクリート作業にミキサー車を対応付けてもよい。図29は、作業-物体対応付けテーブルの他の例を示している。図29に示すように、作業-物体対応付けテーブルでは、実施の形態5と同様に、各作業に対応する物体に重要度を対応付けてもよい。
 ROI選択部130は、作業情報取得部132が取得した作業情報に基づいて、入力映像におけるROIを選択する。ROI選択部130は、入力された現在の作業内容や作業工程のスケジュール情報から現在の作業を特定する。例えば、スケジュール情報がX月Y日AMの作業を転圧作業と定義している場合、現在の日時がX月Y日AMであれば、現在の作業は転圧作業であると判定する。ROI選択部130は、記憶部170の作業-物体対応付けテーブルを参照し、現在の作業に対応する作業物体を特定する。ROI選択部130は、入力映像内で検出された検出物体から、作業に対応する作業物体の種別を有する物体を抽出し、抽出した物体の矩形領域をROIに選択する。図28の作業-物体対応付けテーブルの例では、現在の作業が転圧作業である場合、転圧作業に対応付けられた転圧機の領域をROIに決定する。
 また、作業-物体対応付けテーブルで作業物体ごとに重要度が設定されている場合、ROI選択部130は、作業-物体対応付けテーブルの設定に基づいて、抽出された物体に重要度を割り当て、割り当てた重要度に基づいてROIを選択する。図29の作業-物体対応付けテーブルの例では、現在の作業が転圧作業である場合、転圧作業に対応付けられた転圧機の領域に重要度+2を割り当て、割り当てた重要度に基づいてROIを選択する。なお、実施の形態1の図6と同様の動作をする部の記載は省略する。
 以上のように、本実施の形態では、実施の形態1~4の構成において、端末でROIを選択する際に、映像内で行われている作業に関係する物体に基づいてROIを選択する。これにより、作業の状況に応じて適切にROIを選択することができ、例えば、重要な領域での物体検出を、端末よりもリソースの豊富なセンターサーバで実施することができる。また、実施の形態1~4と同様に、ROIに選択されなかった低画質化領域の認識精度を向上することができる。
 なお、本開示は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。
 上述の実施形態における各構成は、ハードウェア又はソフトウェア、もしくはその両方によって構成され、1つのハードウェア又はソフトウェアから構成してもよいし、複数のハードウェア又はソフトウェアから構成してもよい。各装置及び各機能(処理)を、図30に示すような、CPU(Central Processing Unit)等のプロセッサ31及び記憶装置であるメモリ32を有するコンピュータ30により実現してもよい。例えば、メモリ32に実施形態における方法(映像処理方法)を行うためのプログラムを格納し、各機能を、メモリ32に格納されたプログラムをプロセッサ31で実行することにより実現してもよい。
 これらのプログラムは、コンピュータに読み込まれた場合に、実施形態で説明された1又はそれ以上の機能をコンピュータに行わせるための命令群(又はソフトウェアコード)を含む。プログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、コンピュータ可読媒体又は実体のある記憶媒体は、random-access memory(RAM)、read-only memory(ROM)、フラッシュメモリ、solid-state drive(SSD)又はその他のメモリ技術、CD-ROM、digital versatile disc(DVD)、Blu-ray(登録商標)ディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含む。プログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含む。
 以上、実施の形態を参照して本開示を説明したが、本開示は上記実施の形態に限定されるものではない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解し得る様々な変更をすることができる。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
 入力される映像に含まれる物体を検出する第1の物体検出手段と、
 前記物体の検出結果に基づいて、前記映像における前記物体を含む領域の画質を制御する画質制御手段と、
 前記物体の検出結果と前記画質が制御された映像とを送信する送信手段と、
 を備える、映像処理システム。
(付記2)
 前記送信手段は、前記検出された物体のうち、前記画質が他の領域よりも低画質になるように制御された領域に含まれる物体の検出結果を送信する、
 付記1に記載の映像処理システム。
(付記3)
 前記送信手段は、前記物体の検出結果として、前記物体の種別及び前記物体の位置情報を送信する、
 付記1または2に記載の映像処理システム。
(付記4)
 前記送信手段は、前記物体の検出結果として、前記物体を含む領域の特徴量を送信する、
 付記1から3のいずれか一項に記載の映像処理システム。
(付記5)
 前記送信手段は、前記物体の検出結果として、第1の物体と第2の物体の位置関係を送信する、
 付記1から4のいずれか一項に記載の映像処理システム。
(付記6)
 前記検出された物体のうち、検出された人と個人を特定するための特定情報とに基づいて、前記検出された人を特定する特定手段を備え、
 前記送信手段は、前記物体の検出結果として、前記特定された人を識別する人物識別情報を送信する、
 付記1から5のいずれか一項に記載の映像処理システム。
(付記7)
 前記送信手段は、前記物体の検出結果として、前記物体の属性を識別する属性識別情報を送信する、
 付記1から5のいずれか一項に記載の映像処理システム。
(付記8)
 前記送信された前記物体の検出結果を用いて、前記送信された映像における物体の状態を認識する状態認識手段を備える、
 付記1から7のいずれか一項に記載の映像処理システム。
(付記9)
 入力される映像に含まれる物体を検出する物体検出手段と、
 前記物体の検出結果に基づいて、前記映像における前記物体を含む領域の画質を制御する画質制御手段と、
 前記物体の検出結果と前記画質が制御された映像とを送信する送信手段と、
 を備える、映像処理装置。
(付記10)
 前記送信手段は、前記検出された物体のうち、前記画質が他の領域よりも低画質になるように制御された領域に含まれる物体の検出結果を送信する、
 付記9に記載の映像処理装置。
(付記11)
 前記送信手段は、前記物体の検出結果として、前記物体の種別及び前記物体の位置情報を送信する、
 付記9または10に記載の映像処理装置。
(付記12)
 前記送信手段は、前記物体の検出結果として、前記物体を含む領域の特徴量を送信する、
 付記9から11のいずれか一項に記載の映像処理装置。
(付記13)
 前記送信手段は、前記物体の検出結果として、第1の物体と第2の物体の位置関係を送信する、
 付記9から12のいずれか一項に記載の映像処理装置。
(付記14)
 前記検出された物体のうち、検出された人と個人を特定するための特定情報とに基づいて、前記検出された人を特定する特定手段を備え、
 前記送信手段は、前記物体の検出結果として、前記特定された人を識別する人物識別情報を送信する、
 付記9から13のいずれか一項に記載の映像処理装置。
(付記15)
 前記送信手段は、前記物体の検出結果として、前記物体の属性を識別する属性識別情報を送信する、
 付記9から13のいずれか一項に記載の映像処理装置。
(付記16)
 入力される映像に含まれる物体を検出し、
 前記物体の検出結果に基づいて、前記映像における前記物体を含む領域の画質を制御し、
 前記物体の検出結果と前記画質が制御された映像とを送信する、
 映像処理方法。
(付記17)
 前記検出された物体のうち、前記画質が他の領域よりも低画質になるように制御された領域に含まれる物体の検出結果を送信する、
 付記16に記載の映像処理方法。
(付記18)
 前記物体の検出結果として、前記物体の種別及び前記物体の位置情報を送信する、
 付記16または17に記載の映像処理方法。
(付記19)
 前記物体の検出結果として、前記物体を含む領域の特徴量を送信する、
 付記16から18のいずれか一項に記載の映像処理方法。
(付記20)
 前記物体の検出結果として、第1の物体と第2の物体の位置関係を送信する、
 付記16から19のいずれか一項に記載の映像処理方法。
(付記21)
 前記検出された物体のうち、検出された人と個人を特定するための特定情報とに基づいて、前記検出された人を特定し、
 前記物体の検出結果として、前記特定された人を識別する人物識別情報を送信する、
 付記16から20のいずれか一項に記載の映像処理方法。
(付記22)
 前記物体の検出結果として、前記物体の属性を識別する属性識別情報を送信する、
 付記16から20のいずれか一項に記載の映像処理方法。
(付記23)
 入力される映像に含まれる物体を検出し、
 前記物体の検出結果に基づいて、前記映像における前記物体を含む領域の画質を制御し、
 前記物体の検出結果と前記画質が制御された映像とを送信する、
 処理をコンピュータに実行させるための映像処理プログラム。
(付記24)
 前記送信された前記物体の検出結果を用いて、前記送信された映像における物体を検出する第2の物体検出手段を備える、
 付記1から6のいずれか一項に記載の映像処理システム。
1   遠隔監視システム
10  映像処理システム
11  物体検出部
12  画質制御部
13  送信部
20  映像処理装置
30  コンピュータ
31  プロセッサ
32  メモリ
100 端末
101 カメラ
102 圧縮効率最適化機能
110 映像取得部
120 物体検出部
130 ROI選択部
131 関係性分析部
132 作業情報取得部
140 画質制御部
150 物体検出結果抽出部
151 特徴抽出部
152 関連物体判定部
153 顔認証部
160 配信部
170 記憶部
200 センターサーバ
201 映像認識機能
202 アラート生成機能
203 GUI描画機能
204 画面表示機能
210 受信部
220 デコーダ
230 物体検出結果取得部
231 特徴取得部
232 関連物体取得部
233 顔認証結果取得部
240 物体検出部
250 物体追跡部
260 特徴抽出部
270 姿勢推定部
280 行動認識部
290 記憶部
300 基地局
400 MEC
401 圧縮ビットレート制御機能

Claims (22)

  1.  入力される映像に含まれる物体を検出する第1の物体検出手段と、
     前記物体の検出結果に基づいて、前記映像における前記物体を含む領域の画質を制御する画質制御手段と、
     前記物体の検出結果と前記画質が制御された映像とを送信する送信手段と、
     を備える、映像処理システム。
  2.  前記送信手段は、前記検出された物体のうち、前記画質が他の領域よりも低画質になるように制御された領域に含まれる物体の検出結果を送信する、
     請求項1に記載の映像処理システム。
  3.  前記送信手段は、前記物体の検出結果として、前記物体の種別及び前記物体の位置情報を送信する、
     請求項1または2に記載の映像処理システム。
  4.  前記送信手段は、前記物体の検出結果として、前記物体を含む領域の特徴量を送信する、
     請求項1から3のいずれか一項に記載の映像処理システム。
  5.  前記送信手段は、前記物体の検出結果として、第1の物体と第2の物体の位置関係を送信する、
     請求項1から4のいずれか一項に記載の映像処理システム。
  6.  前記検出された物体のうち、検出された人と個人を特定するための特定情報とに基づいて、前記検出された人を特定する特定手段を備え、
     前記送信手段は、前記物体の検出結果として、前記特定された人を識別する人物識別情報を送信する、
     請求項1から5のいずれか一項に記載の映像処理システム。
  7.  前記送信手段は、前記物体の検出結果として、前記物体の属性を識別する属性識別情報を送信する、
     請求項1から5のいずれか一項に記載の映像処理システム。
  8.  前記送信された前記物体の検出結果を用いて、前記送信された映像における物体の状態を認識する状態認識手段を備える、
     請求項1から7のいずれか一項に記載の映像処理システム。
  9.  入力される映像に含まれる物体を検出する物体検出手段と、
     前記物体の検出結果に基づいて、前記映像における前記物体を含む領域の画質を制御する画質制御手段と、
     前記物体の検出結果と前記画質が制御された映像とを送信する送信手段と、
     を備える、映像処理装置。
  10.  前記送信手段は、前記検出された物体のうち、前記画質が他の領域よりも低画質になるように制御された領域に含まれる物体の検出結果を送信する、
     請求項9に記載の映像処理装置。
  11.  前記送信手段は、前記物体の検出結果として、前記物体の種別及び前記物体の位置情報を送信する、
     請求項9または10に記載の映像処理装置。
  12.  前記送信手段は、前記物体の検出結果として、前記物体を含む領域の特徴量を送信する、
     請求項9から11のいずれか一項に記載の映像処理装置。
  13.  前記送信手段は、前記物体の検出結果として、第1の物体と第2の物体の位置関係を送信する、
     請求項9から12のいずれか一項に記載の映像処理装置。
  14.  前記検出された物体のうち、検出された人と個人を特定するための特定情報とに基づいて、前記検出された人を特定する特定手段を備え、
     前記送信手段は、前記物体の検出結果として、前記特定された人を識別する人物識別情報を送信する、
     請求項9から13のいずれか一項に記載の映像処理装置。
  15.  前記送信手段は、前記物体の検出結果として、前記物体の属性を識別する属性識別情報を送信する、
     請求項9から13のいずれか一項に記載の映像処理装置。
  16.  入力される映像に含まれる物体を検出し、
     前記物体の検出結果に基づいて、前記映像における前記物体を含む領域の画質を制御し、
     前記物体の検出結果と前記画質が制御された映像とを送信する、
     映像処理方法。
  17.  前記検出された物体のうち、前記画質が他の領域よりも低画質になるように制御された領域に含まれる物体の検出結果を送信する、
     請求項16に記載の映像処理方法。
  18.  前記物体の検出結果として、前記物体の種別及び前記物体の位置情報を送信する、
     請求項16または17に記載の映像処理方法。
  19.  前記物体の検出結果として、前記物体を含む領域の特徴量を送信する、
     請求項16から18のいずれか一項に記載の映像処理方法。
  20.  前記物体の検出結果として、第1の物体と第2の物体の位置関係を送信する、
     請求項16から19のいずれか一項に記載の映像処理方法。
  21.  前記検出された物体のうち、検出された人と個人を特定するための特定情報とに基づいて、前記検出された人を特定し、
     前記物体の検出結果として、前記特定された人を識別する人物識別情報を送信する、
     請求項16から20のいずれか一項に記載の映像処理方法。
  22.  前記物体の検出結果として、前記物体の属性を識別する属性識別情報を送信する、
     請求項16から20のいずれか一項に記載の映像処理方法。
PCT/JP2022/032764 2022-08-31 2022-08-31 映像処理システム、映像処理装置及び映像処理方法 WO2024047794A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/032764 WO2024047794A1 (ja) 2022-08-31 2022-08-31 映像処理システム、映像処理装置及び映像処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/032764 WO2024047794A1 (ja) 2022-08-31 2022-08-31 映像処理システム、映像処理装置及び映像処理方法

Publications (1)

Publication Number Publication Date
WO2024047794A1 true WO2024047794A1 (ja) 2024-03-07

Family

ID=90098950

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/032764 WO2024047794A1 (ja) 2022-08-31 2022-08-31 映像処理システム、映像処理装置及び映像処理方法

Country Status (1)

Country Link
WO (1) WO2024047794A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007194928A (ja) * 2006-01-19 2007-08-02 Matsushita Electric Ind Co Ltd 遠隔監視装置及び遠隔監視方法
JP2011055270A (ja) * 2009-09-02 2011-03-17 Canon Inc 情報送信装置及び情報送信方法
WO2018037890A1 (ja) * 2016-08-23 2018-03-01 日本電気株式会社 映像処理装置、映像処理方法及びプログラムを記憶する記憶媒体
JP2020068008A (ja) * 2018-10-19 2020-04-30 ソニー株式会社 センサ装置、パラメータ設定方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007194928A (ja) * 2006-01-19 2007-08-02 Matsushita Electric Ind Co Ltd 遠隔監視装置及び遠隔監視方法
JP2011055270A (ja) * 2009-09-02 2011-03-17 Canon Inc 情報送信装置及び情報送信方法
WO2018037890A1 (ja) * 2016-08-23 2018-03-01 日本電気株式会社 映像処理装置、映像処理方法及びプログラムを記憶する記憶媒体
JP2020068008A (ja) * 2018-10-19 2020-04-30 ソニー株式会社 センサ装置、パラメータ設定方法

Similar Documents

Publication Publication Date Title
EP3944213B1 (en) Method, device, storage medium and computer program for controlling traffic
US10037466B2 (en) Video processing apparatus, video processing method, and video processing program
CN113424079A (zh) 障碍物检测方法、装置、计算机设备和存储介质
CN110264495B (zh) 一种目标跟踪方法及装置
EP3937077B1 (en) Lane marking detecting method, apparatus, electronic device, storage medium, and vehicle
CN111988524A (zh) 一种无人机与摄像头协同避障方法、服务器及存储介质
KR102330055B1 (ko) 드론을 이용한 구조물의 변화 검출 방법 및 시스템
CN112863187B (zh) 感知模型的检测方法、电子设备、路侧设备和云控平台
CN114070654A (zh) 一种基于大数据的安全管控方法及其系统
CN114648748A (zh) 一种基于深度学习的机动车违停智能识别方法及系统
CN114022846A (zh) 作业车辆的防碰撞监控方法、装置、设备和介质
CN111126209B (zh) 车道线检测方法及相关设备
CN113901911B (zh) 图像识别、模型训练方法、装置、电子设备及存储介质
CN113557713A (zh) 情景感知监测
WO2021070215A1 (ja) 映像分析方法、映像分析システム及び情報処理装置
WO2024047794A1 (ja) 映像処理システム、映像処理装置及び映像処理方法
CN113052048A (zh) 交通事件检测方法、装置、路侧设备以及云控平台
WO2024047793A1 (ja) 映像処理システム、映像処理装置及び映像処理方法
WO2024042705A1 (ja) 映像処理システム、映像処理方法、及び映像処理装置
WO2024047791A1 (ja) 映像処理システム、映像処理方法、及び映像処理装置
WO2024047748A1 (ja) 映像処理システム、映像処理方法、及び映像処理装置
WO2024047790A1 (ja) 映像処理システム、映像処理装置及び映像処理方法
WO2024038517A1 (ja) 映像処理システム、映像処理方法、及び画質制御装置
WO2024047747A1 (ja) 映像処理システム、映像処理方法、及び映像処理装置
CN102682284B (zh) 一种基于云的预警调度架构与其中的抢劫侦测方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22957393

Country of ref document: EP

Kind code of ref document: A1