WO2024057446A1 - 映像処理システム、映像処理装置および映像処理方法 - Google Patents

映像処理システム、映像処理装置および映像処理方法 Download PDF

Info

Publication number
WO2024057446A1
WO2024057446A1 PCT/JP2022/034425 JP2022034425W WO2024057446A1 WO 2024057446 A1 WO2024057446 A1 WO 2024057446A1 JP 2022034425 W JP2022034425 W JP 2022034425W WO 2024057446 A1 WO2024057446 A1 WO 2024057446A1
Authority
WO
WIPO (PCT)
Prior art keywords
recognition model
trained
image quality
input
recognition
Prior art date
Application number
PCT/JP2022/034425
Other languages
English (en)
French (fr)
Inventor
フロリアン バイエ
孝法 岩井
浩一 二瓶
勇人 逸身
勝彦 高橋
康敬 馬場崎
隆平 安藤
君 朴
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2022/034425 priority Critical patent/WO2024057446A1/ja
Publication of WO2024057446A1 publication Critical patent/WO2024057446A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • the present disclosure relates to a video processing system, a video processing device, and a video processing method.
  • the system acquires image data indicating the surrounding situation of a moving body, compresses the acquired image data to generate compressed data, and transmits the compressed data.
  • the system also receives compressed data, modifies the compressed data using the first trained model to generate modified data, and performs object recognition processing to recognize objects existing around the moving object based on the modified data. conduct.
  • Patent Document 1 has a problem in that the accuracy of object recognition processing may decrease due to a decrease in the image quality of image data, that is, video data, due to compression.
  • the present disclosure aims to provide a video processing system, a video processing device, and a video processing method that can be expected to improve the recognition accuracy of objects in video data.
  • the video processing system of the present disclosure includes: a video acquisition means for acquiring input video data; image quality acquisition means for acquiring an input image quality parameter representing the image quality of the input video data;
  • the input video data and the input image quality parameter are input to a trained recognition model that has learned to recognize objects in the learning image data based on the learning image data and a learning image quality parameter representing the image quality of the learning image data. and includes recognition means for recognizing objects in the input video data.
  • the video processing device of the present disclosure includes: a video acquisition means for acquiring input video data; image quality acquisition means for acquiring an input image quality parameter representing the image quality of the input video data;
  • the input video data and the input image quality parameter are input to a trained recognition model that has learned to recognize objects in the learning image data based on the learning image data and a learning image quality parameter representing the image quality of the learning image data. and includes recognition means for recognizing objects in the input video data.
  • the video processing method of the present disclosure includes: Get the input video data, obtaining an input image quality parameter representing the image quality of the input video data;
  • the input video data and the input image quality parameter are input to a trained recognition model that has learned to recognize objects in the learning image data based on the learning image data and a learning image quality parameter representing the image quality of the learning image data. and recognize objects in the input video data.
  • FIG. 1 is a block diagram showing the configuration of a video processing system according to an overview of an embodiment.
  • FIG. 1 is a block diagram showing the configuration of a video processing device according to an overview of an embodiment.
  • 1 is a flowchart illustrating a video processing method according to an overview of an embodiment.
  • FIG. 1 is a block diagram showing the configuration of a video processing system according to a first embodiment.
  • FIG. 2 is a block diagram showing the configuration of a terminal according to the first embodiment.
  • FIG. 2 is a block diagram showing the configuration of a center server according to the first embodiment.
  • FIG. 3 is a flowchart showing a video recognition operation of the video processing system according to the first embodiment.
  • FIG. 3 is a diagram showing a method of calculating an average QP value of the video processing system according to the first embodiment.
  • 3 is a flowchart showing a video learning operation of the video processing system according to the first embodiment.
  • FIG. 2 is a block diagram showing the configuration of a center server according to a second embodiment.
  • 7 is a flowchart showing a first video recognition operation of the video processing system according to the second embodiment.
  • FIG. 7 is a diagram illustrating in detail the first video recognition operation of the video processing system according to the second embodiment. It is a flowchart which shows the 1st video learning operation of the video processing system concerning a 2nd embodiment.
  • FIG. 7 is a flowchart showing a second video recognition operation of the video processing system according to the second embodiment.
  • FIG. 7 is a diagram showing details of a second video recognition operation of the video processing system according to the second embodiment.
  • 7 is a flowchart showing a second video learning operation of the video processing system according to the second embodiment.
  • FIG. 1 is a block diagram showing the configuration of a computer according to the present embodiment.
  • the video processing system 10 is applicable to, for example, a remote monitoring system that collects video via a network and recognizes the video.
  • the video processing system 10 includes a video acquisition section 11, an image quality acquisition section 12, and a recognition section 13.
  • the video acquisition unit 11 acquires input video data.
  • the image quality acquisition unit 12 acquires an input image quality parameter representing the image quality of input video data.
  • the recognition unit 13 applies the input video data and the input image quality parameter to a trained recognition model that has learned to recognize objects in the learning image data based on the learning image data and the learning image quality parameter representing the image quality of the learning image data. input and recognize objects in the input video data.
  • the video processing system 10 may be configured with one device, or may be configured with a plurality of devices.
  • the video processing device 20 may include the video acquisition section 11, the image quality acquisition section 12, and the recognition section 13 shown in FIG. Furthermore, when the video processing device 20 is realized by edge computing, part or all of the video processing device 20 may be placed on the edge or in the cloud.
  • the video acquisition unit 11 and the image quality acquisition unit 12 may be placed in an edge terminal, and the recognition unit 13 may be placed in a cloud server.
  • each function may be distributed and arranged in the cloud.
  • the video processing device 20 may be realized using virtualization technology such as a virtualization server. Further, part or all of the video processing device 20 may be placed on the site or on the server side.
  • the site where the terminal is installed, the device located near the site, or the device close to the terminal as a layer of the network is considered to be a device placed on the site side. Also, devices located far from the site are placed on the center side. Since devices placed on the center side may be placed on the cloud, the center side is sometimes referred to as the cloud side.
  • the video processing method according to the embodiment is executed by the video processing system 10 in FIG. 1 or the video processing device 20 in FIG. 2.
  • step S11 input video data is acquired (step S11).
  • step S12 an input image quality parameter representing the image quality of the input video data is obtained (step S12).
  • step S13 recognize objects in the input video data (step S13).
  • the accuracy of object recognition processing will be improved by taking into account the change in image quality of video data due to compression.
  • the video processing system 1 is a system that monitors an area where the video is taken using a video taken by a camera.
  • the system will be described as a system for remotely monitoring the work of workers at the site.
  • the site may be an area where people and machines operate, such as a work site such as a construction site, a public square where people gather, or a school.
  • the work will be described as construction work, civil engineering work, etc., but is not limited thereto.
  • the video processing system can be said to be a video processing system that processes video data, and also an image processing system that processes image data.
  • the video processing system 1 includes a plurality of terminals 100, a center server 200, a base station 300, and an MEC 400.
  • the terminal 100, base station 300, and MEC 400 are placed on the field side, and the center server 200 is placed on the center side.
  • the center server 200 is located in a data center or the like that is located away from the site.
  • the field side is the edge side of the system, and the center side is also the cloud side.
  • Terminal 100 and base station 300 are communicably connected via network NW1.
  • the network NW1 is, for example, a wireless network such as 4G, local 5G/5G, LTE (Long Term Evolution), or wireless LAN.
  • Base station 300 and center server 200 are communicably connected via network NW2.
  • the network NW2 includes, for example, core networks such as 5GC (5th Generation Core network) and EPC (Evolved Packet Core), the Internet, and the like. It can also be said that the terminal 100 and the center server 200 are communicably connected via the base station 300.
  • 5GC Fifth Generation Core network
  • EPC Evolved Packet Core
  • the base station 300 and MEC 400 are communicably connected by any communication method, the base station 300 and MEC 400 may be one device.
  • the terminal 100 is a terminal device connected to the network NW1, and is also a video generation device that generates on-site video.
  • the terminal 100 acquires an image captured by a camera 101 installed at the site, and transmits the acquired image to the center server 200 via the base station 300.
  • the camera 101 may be placed outside the terminal 100 or inside the terminal 100.
  • the terminal 100 compresses the video from the camera 101 to a predetermined bit rate and transmits the compressed video.
  • the terminal 100 has a compression efficiency optimization function 102 that optimizes compression efficiency and a video distribution function 103.
  • the compression efficiency optimization function 102 performs ROI control to control the image quality of a ROI (Region of Interest).
  • the compression efficiency optimization function 102 reduces the bit rate by lowering the image quality of the region around the ROI while maintaining the image quality of the ROI including the person or object.
  • the video distribution function 103 distributes the quality-controlled video to the center server 200.
  • the base station 300 is a base station device of the network NW1, and is also a relay device that relays communication between the terminal 100 and the center server 200.
  • the base station 300 is a local 5G base station, a 5G gNB (next Generation Node B), an LTE eNB (evolved Node B), a wireless LAN access point, or the like, but may also be another relay device.
  • MEC 400 is an edge processing device placed on the edge side of the system.
  • the MEC 400 is an edge server that controls the terminal 100, and has a compression bit rate control function 401 and a terminal control function 402 that control the bit rate of the terminal.
  • the compression bit rate control function 401 controls the bit rate of the terminal 100 through adaptive video distribution control and QoE (quality of experience) control.
  • QoE quality of experience
  • the compression bit rate control function 401 predicts the recognition accuracy that will be obtained while suppressing the bit rate according to the communication environment of the networks NW1 and NW2, and sets the bit rate to the camera 101 of each terminal 100 so as to improve the recognition accuracy.
  • the terminal control function 402 controls the terminal 100 to distribute video at the assigned bit rate.
  • the terminal 100 encodes the video at the assigned bit rate and distributes the encoded video.
  • the center server 200 is a server installed on the center side of the system.
  • the center server 200 may be one or more physical servers, or may be a cloud server built on the cloud or other virtualized servers.
  • the center server 200 is a monitoring device that monitors on-site work by recognizing people's work from on-site camera images.
  • the center server 200 is also a video recognition device that recognizes the actions of people in the video data transmitted from the terminal 100.
  • the center server 200 has a video recognition function 201, an alert generation function 202, a GUI drawing function 203, and a screen display function 204.
  • the video recognition function 201 inputs the video transmitted from the terminal 100 into a trained recognition model to recognize the type of work performed by the worker, that is, the type of behavior of the person.
  • the alert generation function 202 generates an alert in response to the recognized work.
  • the GUI drawing function 203 displays a GUI (Graphical User Interface) on the screen of a display device.
  • the screen display function 204 displays images of the terminal 100, recognition results, alerts, etc. on the GUI.
  • the video processing system 1 includes a plurality of terminals 100, a center server 200, a base station 300, and an MEC 400.
  • the configuration of each device is an example, and other configurations may be used as long as the operation according to the present embodiment described later is possible.
  • some functions of the terminal 100 may be placed in the center server 200 or other devices, or some functions of the center server 200 may be placed in the terminal 100 or other devices.
  • the video processing system 1 according to the first embodiment is a concrete example of the video processing system 10 according to the outline of the embodiment.
  • the center server 200 embodies the video processing device 20 according to the outline of the embodiment.
  • the terminal 100 includes a video acquisition section 110, a detection section 120, an image quality change determination section 130, a compression efficiency determination section 140, and a terminal communication section 150.
  • the video acquisition unit 110 acquires video data captured by the camera 101 (also referred to as input video data).
  • the input video data includes a person who is a worker working on a site, a work object used by the person, and the like.
  • the video acquisition unit 110 is also an image acquisition unit that acquires a plurality of time-series images.
  • the detection unit 120 detects objects in the acquired input video data.
  • the detection unit 120 detects an object in the input video data using the trained recognition model, and recognizes the class of the detected object.
  • the recognition model is, for example, a machine learning model such as a convolutional neural network (CNN).
  • CNN convolutional neural network
  • the recognition model can recognize the class of an object by machine learning the features of the image of the object and the class of the object.
  • the object class indicates, for example, the type of object. Types of objects include people, cars, robots, hammers, and the like.
  • the detection unit 120 uses a trained object recognition model to detect objects in each image data included in the input video, and surrounds and displays the detected objects in a box (rectangular frame). .
  • the rectangular frame may be a circular frame, an irregular silhouette frame, or the like.
  • the detection unit 120 calculates the feature amount of the image of the object within the rectangular frame, and recognizes the object based on the calculated feature amount.
  • the object recognition result includes, for each recognized object, information on the object class and the reliability of the object class (also referred to as class reliability), and information on the position coordinates of a box surrounding the object (also referred to as box coordinates).
  • the class confidence level is assigned to each box surrounding an object, and indicates how reliable the class of the object is, for example, as a percentage from 0 to 100.
  • the box coordinates are, for example, the coordinates of each vertex of the box, but may also be the position of the center of the box. Note that although the object recognition results include the object class, information on the reliability of the object class, and the position coordinates of the box surrounding the object, it is not necessary to include all of these, and one or two of them may be used. or other information may be included.
  • the image quality change determination unit 130 determines a region of interest (ROI), which is an image quality change area in which the image quality in the input video is to be changed, based on the object detection result.
  • ROI region of interest
  • the gaze area is an area where the image quality is improved, that is, the image quality is made clearer.
  • the image quality change determination unit 130 extracts objects whose class is person or work object from among the detected objects, and determines the inside of the rectangular frame of the extracted object as a gaze area.
  • the compression efficiency determining unit 140 determines the compression rate of the region of interest or an area other than the region of interest, and compresses the video.
  • the compression efficiency determining unit 140 is an encoder that encodes the input video using the determined compression rate.
  • the compression efficiency determination unit 140 may be configured, for example, by H. 264 and H.
  • the video is encoded using a video encoding method such as H.265.
  • the compression efficiency determining unit 140 encodes the input video so that the bit rate assigned by the MEC 400 is achieved.
  • the compression efficiency determination unit 140 is an image quality control unit that controls the image quality of the attention area determined by the image quality change determination unit 130, and is an image quality improvement unit that increases the image quality of the attention area.
  • the compression efficiency determining unit 140 encodes the image quality of the image area to a predetermined quality by compressing the image area and other areas at predetermined compression rates. That is, by changing the compression ratio between the focused area and other areas, the image quality of the focused area is made higher than that of the other areas. It can also be said that the image quality of other areas is lower than that of the gaze area.
  • the image quality of the viewing area may be controlled by changing not only the compression rate but also the video bit rate, image resolution, frame rate, etc.
  • the image quality of the gaze area may be controlled by changing the amount of color information of the image, for example, color, gray scale, black and white, etc.
  • the terminal communication unit 150 transmits the encoded data encoded by the compression efficiency determination unit 140 to the center server 200 via the base station 300.
  • the terminal communication unit 150 is an interface that can communicate with the base station 300, and is, for example, a wireless interface such as 4G, local 5G/5G, LTE, or wireless LAN, but may also be a wireless or wired interface of any other communication method. good.
  • the center server 200 includes a center communication section 210, a decoding section 220, an image quality acquisition section 230, a recognition section 240, a storage section 250, and a learning section 260.
  • the decoding section 220, the image quality acquisition section 230, and the recognition section 240 are also embodiments of the video acquisition section 11, the image quality acquisition section 12, and the recognition section 13, respectively, according to the first embodiment.
  • the center communication unit 210 receives encoded data transmitted from the terminal 100 via the base station 300.
  • the center communication unit 210 is an interface capable of communicating with the Internet or a core network, and is, for example, a wired interface for IP communication, but may be a wired or wireless interface of any other communication method.
  • the decoding unit 220 decodes the encoded data received from the terminal 100.
  • the decoding unit 220 corresponds to the encoding method of the terminal 100, for example, H. 264 and H.
  • the video is decoded using a video encoding method such as H.265.
  • the decoding unit 220 decodes each area according to the compression rate and generates decoded video data.
  • the image quality acquisition unit 230 acquires from the decoding unit 220 an image quality parameter (also referred to as an input image quality parameter) representing the image quality of the input video data included in the decoded input video data.
  • the input image quality parameter is, for example, a map that two-dimensionally represents the degree of image quality for each pixel block of input video data. More specifically, the input image quality parameter is, for example, a QP map. As shown in FIG. 7, the QP map is a map that two-dimensionally represents the degree of compression (that is, QP value) of each pixel block of input video data. FIG. 7 shows that the higher the luminance of the pixel block, the higher the QP value, that is, the higher the degree of compression.
  • the input image quality parameter is not limited to the QP map, but may be an RMSE map composed of RMSE values for each pixel block.
  • the RMSE map may be calculated by the terminal 100 and transmitted to the image quality acquisition section 230 via the terminal communication section 150, the base station 300, the center communication section 210, and the decoding section 220.
  • the storage unit 250 stores learned recognition models.
  • the trained recognition model includes a trained first recognition model and a trained second recognition model.
  • the first recognition model is, for example, a neural network model such as CNN.
  • the second recognition model is a neural network model such as MLP (Multilayer perceptron).
  • the recognition unit 240 obtains input video data included in the decoded input video data and input image quality parameters corresponding to the input video data.
  • the recognition unit 240 inputs the input video data and the input image quality parameters to a trained recognition model, and recognizes objects in the input video data. For example, the recognition unit 240 recognizes the type of work performed by a worker, that is, the type of behavior of a person.
  • the recognition unit 240 inputs the input video data to the trained first recognition model and recognizes the object in the input video data.
  • the object recognition result includes information on the object class, object class reliability, and box coordinate information for each recognized object.
  • the recognition unit 240 performs correction in consideration of image quality to the object recognition result using the trained first recognition model.
  • the recognition unit 240 applies the recognition result of the object by the trained first recognition model and the image quality parameter corresponding to the object recognized by the trained first recognition model to the trained second recognition model. input and correct the object recognition result by the trained first recognition model. For example, when the image quality of the object is low, the recognition unit 240 modifies the class reliability, which is the recognition result of the object, to be slightly lower.
  • the learning unit 260 generates a trained recognition model that has learned to recognize objects in the learning image data based on the learning image data and a learning image quality parameter representing the image quality of the learning image data. Specifically, the learning unit 260 generates a trained first recognition model that has learned recognition of objects in the learning image data based on the learning image data. Further, the learning unit 260 uses the trained first recognition model based on the object recognition result by the trained first recognition model and the learning image quality parameter corresponding to the object recognized by the trained first recognition model. A trained second recognition model that has learned correction of the object recognition result is generated. Note that the learning unit 260 may not generate a learned first recognition model, but may use a learned first recognition model generated in advance.
  • the terminal 100 of the video processing system 1 acquires input video data captured by the camera 101 (step S101).
  • the detection unit 120 detects an object based on the acquired input video data (step S102).
  • the detection unit 120 detects an object in the input video data by surrounding it with a box using the learned recognition model of the terminal 100, and recognizes the class of the object within the detected box.
  • the object recognition result includes information on the object class, object class reliability, and object box coordinate information for each object.
  • the image quality change determination unit 130 determines a gaze area in the input video data based on the object recognition result (step S103). Specifically, the image quality change determination unit 130 extracts objects whose class is person or work object from among the recognized objects, and determines the inside of the box of the extracted object as the gaze area.
  • the compression efficiency determining unit 140 encodes the input video data based on the determined gaze area (step S104). Specifically, the compression efficiency determining unit 140 encodes the input video data so that the region of interest has higher image quality than other regions.
  • the terminal communication unit 150 transmits the encoded data to the center server 200 via the base station 300 (step S105).
  • the center communication unit 210 of the center server 200 receives encoded data from the terminal 100 (step S106).
  • the decoding unit 220 decodes the encoded data (step S107). Specifically, the decoding unit 220 decodes the encoded data according to the compression rate of each region, and generates input video data in which the image quality of the region of interest is enhanced.
  • the image quality acquisition unit 230 acquires a QP map corresponding to the decoded input video data from the decoding unit 220 (step S108).
  • the recognition unit 240 inputs the input video data to the trained first recognition model and recognizes the object in the input video data (step S109).
  • the object recognition result includes information on the object class, object class reliability, and box coordinate information for each recognized object.
  • the recognition unit 240 outputs, for each recognized object, a class reliability vector in which class reliability is expressed in vector form, and a box coordinate vector in which box coordinates are expressed in vector form, as object recognition results.
  • the recognition unit 240 may output a class reliability vector and a box coordinate vector of a recognized object whose class reliability is within a predetermined range (for example, 40% to 60%).
  • the recognition unit 240 calculates the average value of QP values (also referred to as QP average value) for each region corresponding to the recognized object in the QP map (step S110). Specifically, as shown in FIG. 10, the recognition unit 240 determines area A1, area A2, and area A3 corresponding to the recognition object in the QP map based on the box coordinate vector of each recognition object. Then, the recognition unit 240 calculates the average value of the QP values assigned to each pixel block in each of the areas A1, A2, and A3. Returning to the explanation of FIG. 9. Then, the recognition unit 240 outputs a QP average value vector obtained by converting the calculated QP average value into a vector form for each region corresponding to the recognition object in the QP map.
  • QP average value also referred to as QP average value
  • the recognition unit 240 is not limited to the average value, and may calculate a maximum value or the like for each region corresponding to the recognition object in the QP map.
  • the QP map may be replaced with a feature map obtained by extracting feature amounts from the QP map.
  • the recognition unit 240 generates combined data by combining the box coordinate vector, the QP average value vector, and the class reliability vector for each recognition object (step S111).
  • the recognition unit 240 inputs the combined data to the trained second recognition model, and corrects the box coordinate vector and class reliability vector for each recognition object (step S112).
  • the recognition unit 240 inputs the combined data to the second recognition model, and outputs a corrected box coordinate vector and a corrected class reliability vector.
  • the recognition unit 240 recognizes, for example, the type of work performed by a worker, that is, the type of behavior of a person, from the corrected box coordinate vector and the corrected class reliability vector.
  • the learning unit 260 of the center server 200 of the video processing system 1 acquires learning video data and a QP map corresponding to the learning video data (step S201).
  • the learning section 260 acquires the video data decoded by the decoding section 220 as learning video data.
  • the learning unit 260 obtains a QP map corresponding to the learning video data from the decoding unit 220.
  • the learning unit 260 inputs the learning video data to the learned first recognition model and recognizes objects in the learning video data (step S202). Specifically, the learning unit 260 inputs the learning video data to the first recognition model, and detects objects in the learning video data by surrounding them with a box. The recognition unit 240 recognizes the detected object within the box. The object recognition result includes object class reliability and box coordinates for each recognized object. The recognition unit 240 outputs, for each recognized object, a class reliability vector in which class reliability is expressed in vector form, and a box coordinate vector in which box coordinates are expressed in vector form, as object recognition results.
  • the learning unit 260 calculates the QP average value for each region corresponding to the recognized object in the QP map (step S203).
  • the learning unit 260 outputs a QP average value vector obtained by converting the calculated QP average value into a vector form for each region corresponding to the recognized object in the QP map.
  • the learning unit 260 generates combined data that combines the box coordinate vector, QP average value vector, and class reliability vector for each recognized object (step S204).
  • the learning unit 260 inputs the combined data to the second recognition model and corrects the box coordinate vector and class reliability vector for each recognition object (step S205). The learning unit 260 then outputs the corrected box coordinate vector and the corrected class reliability vector.
  • the learning unit 260 uses various loss functions to learn a second recognition model from the corrected box coordinate vector, corrected class reliability vector, and correct data (step S206). By doing so, the learning unit 260 generates a trained second recognition model. For example, the learning unit 260 learns that for this recognition object, the degree of compression indicated by the QP value is high, that is, the image quality is low, so the class reliability is low.
  • the video processing system 1 recognizes objects in the input video data by inputting the input video data and the input image quality parameters (for example, QP map) to a trained recognition model. Specifically, the video processing system 1 inputs input video data to a trained first recognition model, inputs the recognition result and input image quality parameters to a trained second recognition model, and inputs input video data to a trained first recognition model. Correct the recognition results. Therefore, the video processing system 1 can handle input video data of various image qualities when recognizing objects in input video data, and can be expected to improve the accuracy of object recognition.
  • the input image quality parameters for example, QP map
  • the video processing system 1 dynamically changes the image quality of input video data by compression at the edge-side terminal 100 in order to efficiently use calculation resources and network bandwidth.
  • the video processing system 1 allows the center server 200 on the center side to accurately recognize objects in the input video data, taking into consideration such changes in the image quality of the input video data.
  • the configuration of the video processing system 2 according to the second embodiment will be described below.
  • the video processing system 2 has a configuration in which the center server 200 of the video processing system 1 shown in FIG. 4 is replaced with a center server 500.
  • the basic configuration of the terminal 100 is as shown in FIG.
  • the video processing system 2 according to the second embodiment is a concrete example of the video processing system 10 according to the outline of the embodiment.
  • the center server 500 embodies the video processing device 20 according to the outline of the embodiment.
  • the video processing system 1 corrects the recognition result of the trained first recognition model (for example, CNN) using the trained second recognition model (for example, MLP) using image quality parameters. This improves object recognition accuracy.
  • the video processing system 2 according to the second embodiment improves object recognition accuracy by using image quality parameters as input data for a trained recognition model (for example, CNN).
  • the center server 500 of the video processing system 2 includes a center communication section 210, a decoding section 220, an image quality acquisition section 230, a recognition section 270, a storage section 280, and a learning section 290.
  • the recognition unit 270 is also an embodiment of the recognition unit 13 according to the first embodiment.
  • the storage unit 280 stores the learned recognition model.
  • the recognition model is, for example, a neural network model such as a convolutional neural network (CNN).
  • CNN includes a feature extraction unit and a class classification unit.
  • the feature extraction unit generates a feature map in which features of each pixel block are extracted from the input video data by convolution processing, activation or normalized linear unit (ReLU) processing, pooling processing, or the like.
  • the feature extraction part of the recognition model has n (n is a natural number) layers that are continuously processed, and uses each layer to extract features based on the input video data or the feature map generated in the previous layer. Generate a quantity map.
  • the layer is a layer that performs convolution processing, activation or normalized linear unit (ReLU) processing, pooling processing, and the like.
  • a model such as ResNet50 is used in the feature extracting section.
  • the class classification unit recognizes objects in the input video data from the feature quantity map generated by the feature quantity extraction unit through full combination processing or the like.
  • the class classification unit outputs the reliability of the object class, SoftMax Activation, etc. as the object recognition result.
  • a model such as SoftMax is used in the class classification section.
  • the recognition unit 270 inputs the input video data decoded by the decoding unit 220 and the input image quality parameters acquired by the image quality acquisition unit 230 to the feature quantity extraction unit of the trained recognition model, and extracts the feature quantity for each pixel block. Generate a feature map.
  • the input image quality parameter is data representing the image quality of each pixel block of input video data in a two-dimensional map, for example, a QP map.
  • the recognition unit 270 inputs the generated feature map to the class classification unit of the trained recognition model, and recognizes objects in the input video data.
  • the recognition unit 270 has a function of executing a first object recognition operation and a second object recognition operation.
  • the recognition unit 270 has the following functions for performing the first object recognition operation.
  • the recognition unit 270 changes the size of the input image quality parameter to match the size of the input video data. The size is expressed as the number of vertical pixels ⁇ the number of horizontal pixels.
  • the recognition unit 270 inputs the input video data and the resized input image quality parameter to the feature extraction unit of the recognition model, and generates a feature map.
  • the recognition unit 270 inputs the generated feature map to the class classification unit of the recognition model and recognizes objects in the input video data.
  • the recognition unit 270 inputs the input video data and the resized input image quality parameter to the first layer of the feature extraction unit of the recognition model, and generates a feature map. Thereafter, the recognition unit 270 inputs the feature map generated in the n-th layer to the class classification unit of the recognition model, and recognizes objects in the input video data.
  • the recognition unit 270 has the following function for executing the second object recognition operation.
  • the recognition unit 270 inputs the input video data to the first layer and generates a feature map.
  • the recognition unit 270 inputs the input image quality parameter to the kth layer (k is a natural number, 2 ⁇ k ⁇ n), and based on the input image quality parameter and the feature map generated in the k-1th layer.
  • a feature map is generated.
  • a layer in which the size of the feature amount map generated in the k-1th layer and the size of the input image quality parameter match is set as the k-th layer.
  • the recognition unit 270 inputs the feature map generated in the n-th layer to the class classification unit of the recognition model, and recognizes objects in the input video data.
  • the learning unit 290 acquires learning video data and learning image quality parameters corresponding to the learning video data.
  • the learning unit 290 trains a recognition model based on learning video data and learning image quality parameters.
  • the learning unit 290 evaluates the recognition model and generates a trained recognition model based on the evaluation result.
  • the learning unit 290 performs a first object learning operation that is a learning operation for the first object recognition operation, a second object learning operation that is a learning operation for the second object recognition operation, and a second object learning operation that is a learning operation for the second object recognition operation.
  • the learning unit 290 has the following functions for executing the first object learning operation.
  • the learning unit 290 acquires learning video data and learning image quality parameters corresponding to the learning video data.
  • the learning unit 290 changes the size of the learning image quality parameter to match the size of the learning video data.
  • the learning unit 290 inputs the learning video data and the learning image quality parameters to the feature extraction unit of the recognition model, and causes the recognition model to learn.
  • the learning unit 290 evaluates the recognition model and generates a trained recognition model based on the evaluation result.
  • the learning unit 290 has the following function for executing the second object learning operation.
  • the learning unit 290 acquires learning video data and learning image quality parameters corresponding to the learning video data.
  • the learning unit 290 inputs the learning video data to the first layer of the feature extraction unit of the recognition model.
  • the learning unit 290 inputs the input image quality parameter to the k-th layer.
  • the k-th layer is set as a layer in which the size of the feature map generated in the k-1th layer matches the size of the learning image quality parameter.
  • the learning unit 290 then trains the recognition model. Further, the learning unit 290 evaluates the recognition model and generates a trained recognition model based on the evaluation result.
  • the video processing system 2 executes the processes of steps S101 to S108 described above (step S301).
  • the recognition unit 270 of the center server 500 of the video processing system 2 generates data by upsampling the QP map so that the size of the input video data and the size of the QP map match (step S302).
  • the recognition unit 270 inputs the input video data and the upsampled data of the QP map to the feature quantity extraction unit of the recognition model, and generates a feature quantity map (step S303).
  • the recognition unit 270 inputs the feature map to the class classification unit of the recognition model and recognizes objects in the input video data (step S304).
  • the recognition unit 270 of the video processing system 2 upsamples data D2 of the QP map so that the size of the QP map D1 matches the size of the RGB image D3, which is the input video data. generate.
  • the recognition unit 270 inputs the upsampled data D2 of the QP map and the RGB image D3 to the feature extraction unit M11 of the trained recognition model M1.
  • the input data will be three-dimensional data (number of vertical pixels x number of horizontal pixels x number of channels), but if the RGB image D3 and the upsampled data D2 of the QP map are When input, it becomes four-dimensional data.
  • the recognition unit 270 then generates a feature amount map. Next, the recognition unit 270 inputs the generated feature map to the class classification unit M12 of the trained recognition model M1, and recognizes the object in the RGB image D3.
  • the learning unit 290 obtains learning video data and a QP map corresponding to the learning video data (step S401).
  • the learning unit 290 generates data in which the size of the QP map is upsampled to match the size of the learning video data (step S402).
  • the learning unit 290 inputs the learning video data and the QP map to the feature extraction unit of the recognition model (step S403).
  • the learning unit 290 learns a recognition model (step S404).
  • the learning unit 290 evaluates the learned recognition model and generates a learned recognition model based on the evaluation result (step S405).
  • the video processing system 2 executes the processes of steps S101 to S108 described above (step S501).
  • the recognition unit 270 of the center server 500 of the video processing system 2 inputs the input video data to the first layer of the feature extraction unit of the recognition model, and generates a feature map (step S502).
  • the second to nth (n is a natural number) layers generate feature maps from the feature maps generated in the (n ⁇ 1)th layer.
  • the processing is different in the k-th layer, which will be described later.
  • the recognition unit 270 inputs the QP map to the k-th layer and generates a feature map based on the feature map generated in the k-1th layer and the QP map (step S503).
  • the k-th layer to which the QP map is input is set to a layer in which the size of the feature amount map generated in the k-1th layer matches the size of the QP map.
  • the recognition unit 270 inputs the feature map generated in the n-th layer to the class classification unit of the trained recognition model, and recognizes objects in the input video data (step S504).
  • FIG. 17 a detailed example of the second object recognition operation of the video processing system 2 according to the second embodiment will be described using FIG. 17.
  • the value of n mentioned above is 5, and the value of k is 5.
  • the recognition unit 270 of the video processing system 2 inputs the RGB image D5, which is input video data, to the first layer L1 of the feature extraction unit M21 of the trained recognition model M2. Generate a feature map.
  • the recognition unit 270 inputs the feature map generated in the first layer L1 to the second layer L2, and generates a feature map.
  • the recognition unit 270 inputs the feature map generated in the second layer L2 to the third layer L3, and generates a feature map.
  • the recognition unit 270 inputs the feature amount map generated in the third layer L3 to the fourth layer L4, and generates a feature amount map.
  • the recognition unit 270 inputs the QP map D4, the feature amount map generated in the fourth layer L4, and the fifth layer L5, and inputs the feature amount map generated in the QP map D4 and the fourth layer L4.
  • a feature map is generated based on.
  • the size of the feature map generated in the fourth layer L4 and the size of the QP map match.
  • the recognition unit 270 inputs the feature map generated in the fifth layer L5 to the class classification unit M22 of the trained recognition model M2, and recognizes objects in the input video data.
  • the learning unit 290 obtains learning video data and a QP map corresponding to the learning video data (step S601).
  • the learning unit 290 inputs the learning video data to the first layer of the feature extraction unit of the recognition model (step S602).
  • the learning unit 290 inputs the input image quality parameter to the k-th layer (step S603).
  • the k-th layer is set as a layer in which the size of the feature map generated in the k-1th layer matches the size of the learning image quality parameter.
  • the learning unit 290 trains the recognition model (step S604).
  • the learning unit 290 evaluates the recognition model and generates a trained recognition model based on the evaluation result (step S605).
  • objects in the input video data are recognized by inputting the input video data and the input image quality parameters (for example, QP map) to a trained recognition model.
  • the video processing system 2 changes the size of the input image quality parameter to the same size as the size of the input video data, and uses the input image quality parameter together with the input video data to the feature extraction unit of the trained recognition model. Enter. By doing so, the video processing system 2 can use the input image quality parameter as the feature amount of the input video data in the feature amount extraction unit of the trained recognition model.
  • the video processing system 2 determines that the size of the feature map generated in the k-1st layer of the feature extraction unit of the trained recognition model and the size of the input image quality parameter are different from each other. Set the matching kth layer. Then, the video processing system 2 inputs the input image quality parameter to the k-th layer. By doing so, the video processing system 2 can use the input image quality parameter as the feature amount of the input video data in the feature amount extraction unit of the trained recognition model.
  • the video processing system 2 can handle input video data of various image qualities when recognizing objects in input video data, and can be expected to improve the accuracy of object recognition. Furthermore, the video processing system 2 dynamically changes the image quality of input video data by compression at the edge-side terminal 100 in order to efficiently use calculation resources and network bandwidth. The video processing system 2 allows the center server 500 on the center side to accurately recognize objects in the input video data, taking into account such changes in the image quality of the input video data.
  • Each configuration in the embodiments described above is configured by hardware, software, or both, and may be configured from one piece of hardware or software, or from multiple pieces of hardware or software.
  • Each device and each function (processing) may be realized by a computer 1000 having a processor 1001 such as a CPU (Central Processing Unit) and a memory 1002 as a storage device, as shown in FIG.
  • a program for performing the method (video processing method) in the embodiment may be stored in the memory 1002, and each function may be realized by having the processor 1001 execute the program stored in the memory 1002.
  • These programs include instructions (or software code) that, when loaded into a computer, cause the computer to perform one or more of the functions described in the embodiments.
  • the program may be stored on a non-transitory computer readable medium or a tangible storage medium.
  • computer readable or tangible storage media may include random-access memory (RAM), read-only memory (ROM), flash memory, solid-state drive (SSD) or other memory technology, CD - Including ROM, digital versatile disc (DVD), Blu-ray disc or other optical disc storage, magnetic cassette, magnetic tape, magnetic disc storage or other magnetic storage device.
  • the program may be transmitted on a transitory computer-readable medium or a communication medium.
  • transitory computer-readable or communication media includes electrical, optical, acoustic, or other forms of propagating signals.
  • a video acquisition means for acquiring input video data
  • image quality acquisition means for acquiring an input image quality parameter representing the image quality of the input video data
  • the input video data and the input image quality parameter are input to a trained recognition model that has learned to recognize objects in the learning image data based on the learning image data and a learning image quality parameter representing the image quality of the learning image data.
  • a video processing system further comprising recognition means for recognizing an object in the input video data.
  • the trained recognition model includes a trained first recognition model and a trained second recognition model,
  • the recognition means is inputting the input video data to the learned first recognition model and recognizing an object in the input video data;
  • the object recognition result by the trained first recognition model and the input image quality parameter corresponding to the object recognized by the trained first recognition model are input to the trained second recognition model, and the learning is performed.
  • the image processing system according to appendix 1, wherein the image processing system corrects the object recognition result using the already completed first recognition model.
  • the trained recognition model includes a trained first recognition model and a trained second recognition model,
  • the trained first recognition model is There is a model that has learned recognition of an object in the learning image data based on the learning image data, Based on the object recognition result by the trained first recognition model and the learned image quality parameter corresponding to the object recognized by the trained first recognition model, the trained first recognition model recognizes the object.
  • the input image quality parameter is data representing the image quality of each pixel block of the input video data in a two-dimensional map
  • the recognition means is inputting the input video data and the input image quality parameter to a feature extracting means of the trained recognition model to generate a feature map;
  • the video processing system according to appendix 1, wherein the generated feature map is input to the class classification means of the trained recognition model to recognize objects in the input video data.
  • the recognition means is changing the size of the input image quality parameter to match the size of the input video data; inputting the input video data and the input image quality parameter whose size has been changed to a feature extracting means of the trained recognition model to generate a feature map;
  • the video processing system according to appendix 4 wherein the feature amount map is input to the class classification means of the trained recognition model to recognize objects in the input video data.
  • the feature extracting means of the recognition model includes n (n is a natural number) layers that are continuously processed,
  • the recognition means is inputting the input video data to the first layer, generating a feature map;
  • the video processing system according to appendix 4, wherein the size of the input image quality parameter matches the size of the feature map generated in the k-1th layer.
  • (Appendix 7) a video acquisition means for acquiring input video data; image quality acquisition means for acquiring an input image quality parameter representing the image quality of the input video data; The input video data and the input image quality parameter are input to a trained recognition model that has learned to recognize objects in the learning image data based on the learning image data and a learning image quality parameter representing the image quality of the learning image data.
  • a video processing device further comprising recognition means for recognizing an object in the input video data.
  • the trained recognition model includes a trained first recognition model and a trained second recognition model,
  • the recognition means is inputting the input video data to the learned first recognition model and recognizing an object in the input video data;
  • the object recognition result by the trained first recognition model and the input image quality parameter corresponding to the object recognized by the trained first recognition model are input to the trained second recognition model, and the learning is performed.
  • the video processing device according to appendix 7, wherein the image processing device corrects the object recognition result using the already completed first recognition model.
  • the trained recognition model includes a trained first recognition model and a trained second recognition model
  • the learned first recognition model is a model that has learned recognition of an object in the learning image data based on the learning image data, Based on the object recognition result by the trained first recognition model and the learned image quality parameter corresponding to the object recognized by the trained first recognition model, the trained first recognition model recognizes the object.
  • the video processing device according to appendix 7, further comprising a learning unit that generates the trained second recognition model that has learned correction of recognition results.
  • the input image quality parameter is data representing the image quality of each pixel block of the input video data in a two-dimensional map
  • the recognition means is inputting the input video data and the input image quality parameter to a feature extracting means of the trained recognition model to generate a feature map;
  • the video processing device according to appendix 7, wherein the generated feature map is input to the class classification means of the trained recognition model to recognize objects in the input video data.
  • the recognition means is changing the size of the input image quality parameter to match the size of the input video data; inputting the input video data and the input image quality parameter whose size has been changed to a feature extracting means of the trained recognition model to generate a feature map;
  • the video processing device according to appendix 10, wherein the feature amount map is input to the class classification means of the trained recognition model to recognize objects in the input video data.
  • the feature extracting means of the recognition model includes n (n is a natural number) layers that are continuously processed,
  • the recognition means is inputting the input video data to the first layer, generating a feature map;
  • the video processing device according to appendix 10, wherein the size of the input image quality parameter matches the size of the feature map generated in the k-1th layer.
  • (Appendix 13) Get the input video data, obtaining an input image quality parameter representing the image quality of the input video data;
  • the input video data and the input image quality parameter are input to a trained recognition model that has learned to recognize objects in the learning image data based on the learning image data and a learning image quality parameter representing the image quality of the learning image data. and recognizing an object in the input video data.
  • the trained recognition model includes a trained first recognition model and a trained second recognition model, inputting the input video data to the learned first recognition model and recognizing an object in the input video data;
  • the object recognition result by the trained first recognition model and the input image quality parameter corresponding to the object recognized by the trained first recognition model are input to the trained second recognition model, and the learning is performed.
  • the video processing method corrects the object recognition result using the already completed first recognition model.
  • the trained recognition model includes a trained first recognition model and a trained second recognition model,
  • the learned first recognition model is a model that has learned recognition of an object in the learning image data based on the learning image data, Based on the object recognition result by the trained first recognition model and the learned image quality parameter corresponding to the object recognized by the trained first recognition model, the trained first recognition model recognizes the object.
  • the input image quality parameter is data representing the image quality of each pixel block of the input video data in a two-dimensional map, inputting the input video data and the input image quality parameter to a feature extracting means of the trained recognition model to generate a feature map;
  • Appendix 17 changing the size of the input image quality parameter to match the size of the input video data; inputting the input video data and the input image quality parameter whose size has been changed to a feature extracting means of the trained recognition model to generate a feature map;
  • the video processing method according to appendix 16 wherein the feature amount map is input to the class classification means of the learned recognition model to recognize objects in the input video data.
  • the feature extracting means of the recognition model includes n (n is a natural number) layers that are continuously processed, inputting the input video data to the first layer, generating a feature map; Inputting the input image quality parameter and the feature map generated in the k-1 (k is a natural number, 2 ⁇ k ⁇ n)th layer to the kth layer to generate a feature map; inputting the feature map generated in the n-th layer to the class classification means of the trained recognition model to recognize objects in the input video data; The video processing method according to appendix 16, wherein the size of the input image quality parameter matches the size of the feature map generated in the k-1th layer.
  • Video processing system 11 Video acquisition unit (video acquisition means) 12 Image quality acquisition unit (image quality acquisition means) 13 Recognition unit (recognition means) 20 Video processing device 100 Terminal 101 Camera 102 Compression efficiency optimization function 110 Video acquisition unit 120 Detection unit 130 Image quality change determination unit 140 Compression efficiency determination unit 150 Terminal communication unit 200, 500 Center server 201 Image recognition function 202 Alert generation function 203 GUI Drawing function 204 Screen display function 210 Center communication section 220 Decoding section 230 Image quality acquisition section 240, 270 Recognition section 250, 280 Storage section 260, 290 Learning section 300 Base station 400 MEC 401 Compression bit rate control function 1000 Computer 1001 Processor 1002 Memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

映像データにおける物体の認識精度を向上することが期待できる映像処理システム、映像処理装置および映像処理方法を提供することを目的とする。本開示の映像処理システム(10)は、映像取得手段(11)、画質取得手段(12)および認識手段(13)を備える。映像取得手段(11)は、入力映像データを取得する。画質取得手段(12)は、入力映像データの画質を表す入力画質パラメータを取得する。認識手段(13)は、学習画像データと学習画像データの画質を表す学習画質パラメータとに基づいて学習画像データ内の物体の認識を学習した学習済みの認識モデルに、入力映像データと入力画質パラメータとを入力し、入力映像データ内の物体を認識する。

Description

映像処理システム、映像処理装置および映像処理方法
 本開示は、映像処理システム、映像処理装置および映像処理方法に関する。
 特許文献1の技術では、システムは、移動体の周囲の状況を示す画像データを取得し、取得された画像データを圧縮して圧縮データを生成し、圧縮データを送信する。また、当該システムは、圧縮データを受信し、圧縮データを第1学習済みモデルにより改変して改変データを生成し、改変データに基づき、移動体の周囲に存在する物体を認識する物体認識処理を行う。
特開2022-38373号公報
 特許文献1に係る技術では、圧縮による画像データ、つまり映像データの画質低下によって、物体の認識処理の精度が低下する可能性があるという課題があった。
 本開示では、そのような課題を鑑みることによって、映像データにおける物体の認識精度を向上することが期待できる映像処理システム、映像処理装置および映像処理方法を提供することを目的とする。
 本開示の映像処理システムは、
 入力映像データを取得する映像取得手段と、
 前記入力映像データの画質を表す入力画質パラメータを取得する画質取得手段と、
 学習画像データと前記学習画像データの画質を表す学習画質パラメータとに基づいて前記学習画像データ内の物体の認識を学習した学習済みの認識モデルに、前記入力映像データと前記入力画質パラメータとを入力し、前記入力映像データ内の物体を認識する認識手段を備える。
 本開示の映像処理装置は、
 入力映像データを取得する映像取得手段と、
 前記入力映像データの画質を表す入力画質パラメータを取得する画質取得手段と、
 学習画像データと前記学習画像データの画質を表す学習画質パラメータとに基づいて前記学習画像データ内の物体の認識を学習した学習済みの認識モデルに、前記入力映像データと前記入力画質パラメータとを入力し、前記入力映像データ内の物体を認識する認識手段を備える。
 本開示の映像処理方法は、
 入力映像データを取得し、
 前記入力映像データの画質を表す入力画質パラメータを取得し、
 学習画像データと前記学習画像データの画質を表す学習画質パラメータとに基づいて前記学習画像データ内の物体の認識を学習した学習済みの認識モデルに、前記入力映像データと前記入力画質パラメータとを入力し、前記入力映像データ内の物体を認識する。
 本開示によって、映像データにおける物体の認識精度を向上することが期待できる映像処理システム、映像処理装置および映像処理方法を提供することができる。
実施形態の概要に係る映像処理システムの構成を示すブロック図である。 実施形態の概要に係る映像処理装置の構成を示すブロック図である。 実施形態の概要に係る映像処理方法を示すフローチャートである。 第1の実施形態に係る映像処理システムの構成を示すブロック図である。 第1の実施形態に係る端末の構成を示すブロック図である。 第1の実施形態に係るセンターサーバの構成を示すブロック図である。 第1の実施形態に係る映像処理システムで用いられるQPマップを示す図である。 第1の実施形態に係る映像処理システムの映像認識動作を示すフローチャートである。 第1の実施形態に係る映像処理システムの映像認識動作を示すフローチャートである。 第1の実施形態に係る映像処理システムのQP平均値の算出方法を示す図である。 第1の実施形態に係る映像処理システムの映像学習動作を示すフローチャートである。 第2の実施形態に係るセンターサーバの構成を示すブロック図である。 第2の実施形態に係る映像処理システムの第1の映像認識動作を示すフローチャートである。 第2の実施形態に係る映像処理システムの第1の映像認識動作を詳細に示す図である。 第2の実施形態に係る映像処理システムの第1の映像学習動作を示すフローチャートである。 第2の実施形態に係る映像処理システムの第2の映像認識動作を示すフローチャートである。 第2の実施形態に係る映像処理システムの第2の映像認識動作を詳細に示す図である。 第2の実施形態に係る映像処理システムの第2の映像学習動作を示すフローチャートである。 本実施形態に係るコンピュータの構成を示すブロック図である。
 以下では、本開示の実施形態について、図面を参照しながら詳細に説明する。各図面において、同一又は対応する要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略される。
(実施形態の概要)
 まず、図1を用いて、実施形態の概要に係る映像処理システム10について説明する。映像処理システム10は、例えば、ネットワークを介して映像を収集し、映像を認識する遠隔監視システムに適用可能である。
 図1に示すように、映像処理システム10は、映像取得部11、画質取得部12、認識部13を備える。映像取得部11は、入力映像データを取得する。画質取得部12は、入力映像データの画質を表す入力画質パラメータを取得する。認識部13は、学習画像データと学習画像データの画質を表す学習画質パラメータとに基づいて学習画像データ内の物体の認識を学習した学習済みの認識モデルに、入力映像データと入力画質パラメータとを入力し、入力映像データ内の物体を認識する。なお、映像処理システム10は、1つの装置により構成してもよいし、複数の装置により構成してもよい。
 続いて、図2を用いて、実施形態の概要に係る映像処理装置20の構成について説明する。図2に示すように、映像処理装置20は、図1に示した、映像取得部11、画質取得部12、認識部13を備えてもよい。また、映像処理装置20は、エッジコンピューティングで実現される場合、映像処理装置20の一部または全部をエッジまたはクラウドに配置してもよい。例えば、エッジの端末に映像取得部11、画質取得部12を配置し、クラウドのサーバに認識部13を配置してもよい。さらに、クラウドに各機能を分散配置してもよい。また、映像処理装置20は、仮想化サーバなど仮想化技術で実現されてもよい。また、映像処理装置20の一部または全部を現場側またはサーバ側に配置してもよい。端末が設置された現場、現場から近い場所に配置されるもの、またはネットワークの階層として端末に近い装置を現場側に配置された装置とする。また、現場から離れたところにある装置をセンター側に配置された装置とする。センター側に配置された装置は、クラウド上に配置されることもあるため、センター側をクラウド側と称することもある。
 続いて、図3を用いて、実施形態の概要に係る映像処理方法について説明する。例えば、実施形態に係る映像処理方法は、図1の映像処理システム10や図2の映像処理装置20により実行される。
 図3に示すように、まず、入力映像データを取得する(ステップS11)。次に、入力映像データの画質を表す入力画質パラメータを取得する(ステップS12)。次に、学習画像データと学習画像データの画質を表す学習画質パラメータとに基づいて学習画像データ内の物体の認識を学習した学習済みの認識モデルに、入力映像データと入力画質パラメータとを入力し、入力映像データ内の物体を認識する(ステップS13)。
 上述したように、実施形態に係る映像処理システム10では、圧縮による映像データの画質変更を考慮することによって、物体の認識処理の精度を向上することが期待できる。
(映像処理システムの基本構成)
 次に、図4を用いて、実施形態を適用するシステムの一例である映像処理システム1について説明する。図4に示すように、映像処理システム1は、カメラが撮影した映像により、当該撮影されたエリアを監視するシステムである。本実施形態においては、以降現場における作業員の作業を遠隔で監視するシステムであるものとして説明する。例えば、現場は工事現場などの作業現場、人の集まる広場、学校など、人や機械が動作するエリアであってもよい。本実施形態においては、以降作業は建設作業や土木作業等として説明するが、これに限られない。なお、映像データは、時系列の複数の画像データ(フレームとも称する)を含むため、映像データと画像データとは互いに言い換え可能である。すなわち、映像処理システムは、映像データを処理する映像処理システムであり、また、画像データを処理する画像処理システムであるとも言える。
 図4に示すように、映像処理システム1は、複数の端末100、センターサーバ200、基地局300、MEC400を備えている。端末100、基地局300及びMEC400は、現場側に配置され、センターサーバ200は、センター側に配置されている。例えば、センターサーバ200は、現場から離れた位置に配置されているデータセンタ等に配置されている。現場側はシステムのエッジ側であり、センター側はクラウド側でもある。
 端末100と基地局300との間は、ネットワークNW1により通信可能に接続される。ネットワークNW1は、例えば、4G、ローカル5G/5G、LTE(Long Term Evolution)、無線LANなどの無線ネットワークである。基地局300とセンターサーバ200との間は、ネットワークNW2により通信可能に接続される。ネットワークNW2は、例えば、5GC(5th Generation Core network)やEPC(Evolved Packet Core)などのコアネットワーク、インターネットなどを含む。端末100とセンターサーバ200との間は、基地局300を介して、通信可能に接続されているとも言える。基地局300とMEC400の間は任意の通信方法により通信可能に接続されるが、基地局300とMEC400は、1つの装置でもよい。
 端末100は、ネットワークNW1に接続される端末装置であり、現場の映像を生成する映像生成装置でもある。端末100は、現場に設置されたカメラ101が撮影した映像を取得し、取得した映像を、基地局300を介して、センターサーバ200へ送信する。なお、カメラ101は、端末100の外部に配置されてもよいし、端末100の内部に配置されてもよい。
 端末100は、カメラ101の映像を所定のビットレートに圧縮し、圧縮した映像を送信する。端末100は、圧縮効率を最適化する圧縮効率最適化機能102、映像配信機能103を有する。圧縮効率最適化機能102は、ROI(Region of Interest;注視領域とも称する)の画質を制御するROI制御を行う。圧縮効率最適化機能102は、人物や物体を含むROIの画質を維持しながら、その周りの領域の画質を低画質にすることでビットレートを削減する。映像配信機能103は、画質が制御された映像をセンターサーバ200へ配信する。
 基地局300は、ネットワークNW1の基地局装置であり、端末100とセンターサーバ200の間の通信を中継する中継装置でもある。例えば、基地局300は、ローカル5Gの基地局、5GのgNB(next Generation Node B)、LTEのeNB(evolved Node B)、無線LANのアクセスポイント等であるが、その他の中継装置でもよい。
 MEC(Multi-access Edge Computing)400は、システムのエッジ側に配置されたエッジ処理装置である。MEC400は、端末100を制御するエッジサーバであり、端末のビットレートを制御する圧縮ビットレート制御機能401、端末制御機能402を有する。圧縮ビットレート制御機能401は、適応映像配信制御やQoE(quality of experience)制御により端末100のビットレートを制御する。例えば、圧縮ビットレート制御機能401は、ネットワークNW1及びNW2の通信環境に応じてビットレートを抑えながら、得られる認識精度を予測し、認識精度が良くなるように各端末100のカメラ101にビットレートを割り当てる。端末制御機能402は、割り当てられたビットレートの映像を配信するように端末100を制御する。端末100は、割り当て得られたビットレートとなるように映像をエンコードし、エンコードした映像を配信する。
 センターサーバ200は、システムのセンター側に設置されたサーバである。センターサーバ200は、1つまたは複数の物理的なサーバでもよいし、クラウド上に構築されたクラウドサーバやその他の仮想化サーバでもよい。センターサーバ200は、現場のカメラ映像から人物の作業を認識することで、現場の作業を監視する監視装置である。センターサーバ200は、端末100から送信された映像データ内の人物の行動等を認識する映像認識装置でもある。
 センターサーバ200は、映像認識機能201、アラート生成機能202、GUI描画機能203、画面表示機能204を有する。映像認識機能201は、端末100から送信された映像を学習済みの認識モデルに入力することにより、作業員が行う作業、すなわち人物の行動の種類を認識する。アラート生成機能202は、認識された作業に応じてアラートを生成する。GUI描画機能203は、表示装置の画面にGUI(Graphical User Interface)を表示する。画面表示機能204は、GUIに端末100の映像や認識結果、アラート等を表示する。
(第1の実施形態)
 以下、第1の実施形態に係る映像処理システム1の構成について説明する。映像処理システム1は、図4に示したように、複数の端末100、センターサーバ200、基地局300、MEC400を備える。なお、各装置の構成は一例であり、後述の本実施形態に係る動作が可能であれば、その他の構成でもよい。例えば、端末100の一部の機能をセンターサーバ200や他の装置に配置してもよいし、センターサーバ200の一部の機能を端末100や他の装置に配置してもよい。
 なお、第1の実施形態に係る映像処理システム1は、実施形態の概要に係る映像処理システム10を具体化したものである。センターサーバ200は、実施形態の概要に係る映像処理装置20を具体化したものである。
 続いて、図5を用いて、第1の実施形態に係る端末100の構成について説明する。図5に示すように、端末100は、映像取得部110、検出部120、画質変更判定部130、圧縮効率決定部140、端末通信部150を備えている。
 映像取得部110は、カメラ101が撮影した映像データ(入力映像データとも称する)を取得する。例えば、入力映像データには現場で作業を行う作業員である人物や、人物が使用する作業物体等が含まれる。映像取得部110は、時系列の複数の画像を取得する画像取得部でもある。
 検出部120は、取得された入力映像データ内の物体を検出する。検出部120は、学習済みの認識モデルを用いて、入力映像データ内の物体を検出し、検出した物体のクラスを認識する。認識モデルは、例えば畳み込みニューラルネットワーク(Convolutional Neural Network: CNN)などの機械学習モデルである。認識モデルは、物体の画像の特徴と物体のクラスとを機械学習することで物体のクラスを認識できる。物体のクラスは、例えば物体の種別を示す。物体の種別は、人、車、ロボット、ハンマーなどを含む。具体的には、検出部120は、学習済みの物体認識モデルを用いて、入力映像に含まれる各画像データ内の物体を検出し、検出された物体をボックス(矩形枠)で囲って表示させる。なお、矩形枠は、円形や不定形のシルエット等の枠でもよい。そして、検出部120は、矩形枠内の物体の画像の特徴量を算出し、算出した特徴量に基づいて物体を認識する。物体の認識結果は、認識物体ごとの、物体のクラスと物体のクラスの信頼度(クラス信頼度とも称する)の情報、物体を囲うボックスの位置座標(ボックス座標とも称する)の情報を含む。クラス信頼度は、物体を囲うボックスごとに付与され、物体のクラスがどのくらい信頼できるのかを例えば0~100のパーセンテージで示したものである。ボックス座標は、例えば、ボックスの各頂点の座標であるが、ボックスの中心の位置でもよい。なお、物体の認識結果として、物体のクラスと物体のクラスの信頼度の情報、物体を囲うボックスの位置座標を含むとしたが、これら全てを含む必要はなく、このうちの1または2つを含むようにしてもよいし、他の情報を含んでもよい。
 画質変更判定部130は、物体の検出結果に基づいて、入力映像における画質を変更する画質変更領域である注視領域(ROI)を判定する。注視領域は、画質を高画質化、すなわち鮮明化する領域である。画質変更判定部130は、検出された物体の中から、クラスが人物または作業物体である物体を抽出し、抽出された物体の矩形枠内を注視領域に決定する。
 圧縮効率決定部140は、注視領域または注視領域以外の他の領域の圧縮率を決定し、映像を圧縮する。圧縮効率決定部140は、決定した圧縮率により入力映像をエンコード(符号化)するエンコーダである。圧縮効率決定部140は、例えば、H.264やH.265などの動画符号化方式によりエンコードする。また、圧縮効率決定部140は、MEC400から割り当てられたビットレートとなるように入力映像をエンコードする。
 圧縮効率決定部140は、画質変更判定部130が決定した注視領域の画質を制御する画質制御部であり、注視領域を高画質化する高画質化部である。圧縮効率決定部140は、注視領域と他の領域をそれぞれ所定の圧縮率で圧縮することで、注視領域の画質が所定の品質となるようにエンコードする。すなわち、注視領域と他の領域の圧縮率を変えることで注視領域を他の領域よりも高画質化する。その他の領域を注視領域よりも低画質化しているとも言える。なお、圧縮率に限らず、映像のビットレートや画像の解像度、フレームレート等を変えることで、注視領域の画質を制御してもよい。また、画像の色の情報量、例えば、カラー、グレースケール、白黒等を変えることで、注視領域の画質を制御してもよい。
 端末通信部150は、圧縮効率決定部140がエンコードしたエンコードデータを、基地局300を介して、センターサーバ200へ送信する。端末通信部150は、基地局300と通信可能なインタフェースであり、例えば、4G、ローカル5G/5G、LTE、無線LAN等の無線インタフェースであるが、その他の任意の通信方式の無線または有線インタフェースでもよい。
 続いて、図6を用いて、第1の実施形態に係るセンターサーバ200の構成について説明する。図6に示すように、センターサーバ200は、センター通信部210、デコード部220、画質取得部230、認識部240、記憶部250及び学習部260を備える。デコード部220、画質取得部230および認識部240は、第1の実施形態に係る映像取得部11、画質取得部12および認識部13をそれぞれ具体化したものでもある。
 センター通信部210は、端末100から送信されたエンコードデータを、基地局300を介して受信する。センター通信部210は、インターネットやコアネットワークと通信可能なインタフェースであり、例えば、IP通信用の有線インタフェースであるが、その他の任意の通信方式の有線または無線インタフェースでもよい。
 デコード部220は、端末100から受信したエンコードデータをデコード(復号化)する。デコード部220は、端末100の符号化方式に対応し、例えば、H.264やH.265などの動画符号化方式によりデコードする。デコード部220は、各領域の圧縮率に応じてデコードし、デコードした映像データを生成する。
 画質取得部230は、デコードされた入力映像データに含まれる入力映像データの画質を表す画質パラメータ(入力画質パラメータとも称する)をデコード部220から取得する。入力画質パラメータは、例えば入力映像データのピクセルブロック毎の画質の度合いを2次元的に表したマップである。より詳細には、入力画質パラメータは、例えばQPマップである。QPマップは、図7に示すように、入力映像データのピクセルブロック毎の圧縮度合い(つまりQP値)を2次元的に表したマップである。図7では、ピクセルブロックの輝度が高い程、QP値が高くなる、すなわち圧縮度合いが高くなることを示す。一方、ピクセルブロックの輝度が低い程、QP値が低くなる、すなわち圧縮度合いが低くなることを示す。入力画質パラメータはQPマップに限らず、ピクセルブロック毎のRMSE値で構成されるRMSEマップであっても良い。その場合、RMSEマップは端末100で計算され、端末通信部150、基地局300、センター通信部210、デコード部220を経て画質取得部230へ伝達されても良い。
 図6の説明に戻る。記憶部250は、学習済みの認識モデルを記憶する。学習済みの認識モデルは、学習済みの第1認識モデルと学習済みの第2認識モデルとを含む。第1認識モデルは、例えばCNNなどのニューラルネットワークのモデルである。第2認識モデルは、MLP(Multilayer perceptron)などのニューラルネットワークのモデルである。
 認識部240は、デコードされた入力映像データに含まれる入力映像データと入力映像データに対応する入力画質パラメータとを取得する。認識部240は、入力映像データと入力画質パラメータとを学習済みの認識モデルに入力し、入力映像データ内の物体を認識する。例えば、認識部240は、作業員が行う作業、すなわち人物の行動の種類を認識する。
 具体的には、認識部240は、入力映像データを学習済みの第1認識モデルに入力し、入力映像データ内の物体を認識する。物体の認識結果は、認識物体ごとの、物体のクラスと物体のクラス信頼度の情報とボックス座標の情報とを含む。ここで、入力映像データの画質が物体の認識結果に考慮されていないため、学習済みの第1認識モデルによる物体の認識精度には改善の余地がある。例えば入力映像データ内の画質が劣化している領域では、学習済みの第1認識モデルによる物体の認識精度は低くなる可能性がある。そのため、認識部240は、学習済みの第1認識モデルによる物体の認識結果に対して、画質を考慮した補正を行う。具体的には、認識部240は、学習済みの第1認識モデルによる物体の認識結果と学習済みの第1認識モデルによって認識された物体に対応する画質パラメータとを学習済みの第2認識モデルに入力し、学習済みの第1認識モデルによる物体の認識結果を補正する。例えば、認識部240は、物体の画質が低い場合には物体の認識結果であるクラス信頼度を少し低く修正する。
 学習部260は、学習画像データと学習画像データの画質を表す学習画質パラメータとに基づいて学習画像データ内の物体の認識を学習した学習済みの認識モデルを生成する。具体的には、学習部260は、学習画像データに基づいて学習画像データ内の物体の認識を学習した学習済みの第1認識モデルを生成する。また、学習部260は、学習済みの第1認識モデルによる物体の認識結果と学習済みの第1認識モデルによって認識された物体に対応する学習画質パラメータとに基づいて、学習済みの第1認識モデルによる物体の認識結果の補正を学習した学習済みの第2認識モデルを生成する。なお、学習部260は、学習済みの第1認識モデルを生成せず、予め生成された学習済みの第1認識モデルを用いてもよい。
 続いて、図8および図9を用いて、第1の実施形態に係る映像処理システム1の物体認識動作を説明する。
 まず、映像処理システム1の端末100は、カメラ101から現場を撮影した入力映像データを取得する(ステップS101)。
 次に、検出部120は、取得した入力映像データに基づいて物体を検出する(ステップS102)。検出部120は、学習済みの端末100の認識モデルを用いて、入力映像データ内の物体をボックスで囲うことによって検出し、検出したボックス内の物体のクラスを認識する。物体の認識結果は、物体ごとの、物体のクラスと物体のクラス信頼度の情報と物体のボックス座標の情報とを含む。
 次に、画質変更判定部130は、物体の認識結果に基づいて、入力映像データにおける注視領域を決定する(ステップS103)。具体的には、画質変更判定部130は、認識物体の中から、クラスが人物または作業物体である物体を抽出し、抽出された物体のボックス内を注視領域に決定する。
 次に、圧縮効率決定部140は、決定した注視領域に基づいて、入力映像データをエンコードする(ステップS104)。具体的には、圧縮効率決定部140は、注視領域が他の領域よりも高画質となるように、入力映像データをエンコードする。
 次に、端末通信部150は、エンコードされたエンコードデータを、基地局300を介してセンターサーバ200に送信する(ステップS105)。
 次に、センターサーバ200のセンター通信部210は、エンコードデータを端末100から受信する(ステップS106)。
 次に、デコード部220は、エンコードデータをデコードする(ステップS107)。具体的には、デコード部220は、各領域の圧縮率に応じてエンコードデータをデコードし、注視領域が高画質化された入力映像データを生成する。
 次に、画質取得部230は、デコードされた入力映像データに対応するQPマップをデコード部220から取得する(ステップS108)。
 次に、図9に示すように、認識部240は、入力映像データを学習済みの第1認識モデルに入力し、入力映像データ内の物体を認識する(ステップS109)。物体の認識結果は、認識物体ごとの、物体のクラスと物体のクラス信頼度の情報とボックス座標の情報とを含む。認識部240は、物体認識結果として、認識物体ごとに、クラス信頼度をベクトル形にしたクラス信頼度ベクトルと、ボックス座標をベクトル形にしたボックス座標ベクトルとを出力する。なお、認識部240は、クラス信頼度が所定範囲(例えば40%~60%)の認識物体のクラス信頼度ベクトルおよびボックス座標ベクトルを出力してもよい。
 次に、認識部240は、QPマップ中の認識物体に対応する領域ごとにQP値の平均値(QP平均値とも呼ぶ)を算出する(ステップS110)。具体的には、認識部240は、図10に示すように、各認識物体のボックス座標ベクトルに基づいて、QPマップ中の認識物体に対応する領域A1、領域A2および領域A3を決定する。そして、認識部240は、領域A1、領域A2および領域A3それぞれで、ピクセルブロックごとに割り当てられたQP値の平均値を算出する。図9の説明に戻る。そして、認識部240は、QPマップ中の認識物体に対応する領域ごとに、算出されたQP平均値をベクトル形にしたQP平均値ベクトルを出力する。なお、認識部240は、QPマップ中の認識物体に対応する領域ごとに、平均値に限られず最大値等を算出してもよい。QPマップは、QPマップから特徴量を抽出した特徴マップに置き換えられてもよい。
 次に、認識部240は、認識物体ごとに、ボックス座標ベクトルとQP平均値ベクトルとクラス信頼度ベクトルとを結合した結合データを生成する(ステップS111)。
 次に、認識部240は、結合データを学習済みの第2認識モデルに入力し、認識物体ごとにボックス座標ベクトルとクラス信頼度ベクトルとを補正する(ステップS112)。認識部240は、結合データを第2認識モデルに入力し、補正後のボックス座標ベクトルと補正後のクラス信頼度ベクトルとを出力する。認識部240は、補正後のボックス座標ベクトルと補正後のクラス信頼度ベクトルから、例えば作業員が行う作業、すなわち人物の行動の種類を認識する。
 続いて、図11を用いて、第1の実施形態に係る映像処理システム1の物体学習動作を説明する。
 図11に示すように、まず、映像処理システム1のセンターサーバ200の学習部260は、学習映像データと学習映像データに対応するQPマップとを取得する(ステップS201)。例えば学習部260は、デコード部220によってデコードされた映像データを学習映像データとして取得する。また、学習部260は、デコード部220から学習映像データに対応するQPマップを取得する。
 次に、学習部260は、学習映像データを学習済みの第1認識モデルに入力し、学習映像データ内の物体を認識する(ステップS202)。具体的には、学習部260は、学習映像データを第1認識モデルに入力し、学習映像データ内の物体をボックスで囲うことによって検出する。認識部240は、検出したボックス内の物体を認識する。物体認識結果は、認識物体ごとの、物体のクラス信頼度とボックス座標を含む。認識部240は、物体認識結果として、認識物体ごとに、クラス信頼度をベクトル形にしたクラス信頼度ベクトルと、ボックス座標をベクトル形にしたボックス座標ベクトルとを出力する。
 次に、学習部260は、QPマップ中の認識物体に対応する領域ごとにQP平均値を算出する(ステップS203)。学習部260は、QPマップ中の認識物体に対応する領域ごとに、算出されたQP平均値をベクトル形にしたQP平均値ベクトルを出力する。
 次に、学習部260は、認識物体ごとに、ボックス座標ベクトルとQP平均値ベクトルとクラス信頼度ベクトルとを結合した結合データを生成する(ステップS204)。
 次に、学習部260は、結合データを第2認識モデルに入力し、認識物体ごとにボックス座標ベクトルとクラス信頼度ベクトルとを補正する(ステップS205)。そして、学習部260は、補正後のボックス座標ベクトルと補正後のクラス信頼度ベクトルとを出力する。
 次に、学習部260は、各種ロス関数を用いて、補正後のボックス座標ベクトルと補正後のクラス信頼度ベクトルと正解データとから第2認識モデルを学習する(ステップS206)。そうすることによって、学習部260は、学習済みの第2認識モデルを生成する。例えば、学習部260は、この認識物体では、QP値で示される圧縮度合いが高い、つまり画質が落ちているから、クラス信頼度が低く出てしまった等を学習する。
 上述したように、映像処理システム1は、入力映像データと入力画質パラメータ(例えばQPマップ)とを学習済みの認識モデルに入力することによって入力映像データ内の物体を認識する。具体的には、映像処理システム1は、入力映像データを学習済みの第1認識モデルに入力し、その認識結果と入力画質パラメータとを学習済みの第2認識モデルに入力し、第1認識モデルによる認識結果を補正する。
 したがって、映像処理システム1は、入力映像データ内の物体認識時に様々な画質の入力映像データに対応することができ、物体認識の精度を向上することが期待できる。
 また、映像処理システム1は、計算リソースの効率的な使用やネットワーク帯域の効率的な使用のために、エッジ側の端末100で圧縮による入力映像データの画質を動的に変更する。映像処理システム1は、センター側のセンターサーバ200において、そのような入力映像データの画質変更を考慮して、入力映像データ内の物体の認識を精度よく行うことができる。
(第2の実施形態)
 以下、第2の実施形態に係る映像処理システム2の構成について説明する。映像処理システム2は、図4に示す映像処理システム1のセンターサーバ200をセンターサーバ500に変更した構成を備える。端末100の基本構成は、図5に示した通りである。
 なお、第2の実施形態に係る映像処理システム2は、実施形態の概要に係る映像処理システム10を具体化したものである。センターサーバ500は、実施形態の概要に係る映像処理装置20を具体化したものである。
 第1の実施形態に係る映像処理システム1は、学習済みの第1認識モデル(例えばCNN)の認識結果を、画質パラメータを用いて学習済みの第2認識モデル(例えばMLP)を用いて補正することで、物体認識精度を向上する。一方、第2の実施形態に係る映像処理システム2は、画質パラメータを学習済みの認識モデル(例えばCNN)の入力データとして用いることで、物体認識精度を向上する。
 まず、図12を用いて、第2の実施形態に係る映像処理システム2のセンターサーバ500の構成について説明する。
 図12に示すように、映像処理システム2のセンターサーバ500は、センター通信部210、デコード部220、画質取得部230、認識部270、記憶部280および学習部290を備える。認識部270は、第1の実施形態に係る認識部13を具体化したものでもある。
 記憶部280は、学習済みの認識モデルを記憶する。認識モデルは、例えば畳み込みニューラルネットワーク(CNN)などのニューラルネットワークのモデルである。CNNは、特徴量抽出部とクラス分類部を備える。特徴量抽出部は、畳み込み処理、活性化または正規化線形ユニット(ReLU)の処理やプーリング処理などによって、入力映像データからピクセルブロックごとの特徴量を抽出した特徴量マップを生成する。認識モデルの特徴量抽出部は、連続的に処理をするn(nは自然数)個のレイヤを備え、各レイヤを用いて入力映像データまたは前のレイヤで生成された特徴量マップに基づいて特徴量マップを生成する。レイヤは、畳み込み処理、活性化または正規化線形ユニット(ReLU)の処理またはプーリング処理等を行うレイヤである。特徴量抽出部には、例えばResNet50などのモデルが用いられる。クラス分類部は、全結合処理などによって、特徴量抽出部で生成された特徴量マップから入力映像データ内の物体を認識する。クラス分類部は、物体認識結果として、物体のクラスの信頼度やSoftMax Activationなどを出力する。クラス分類部には、SoftMaxなどのモデルが用いられる。
 認識部270は、デコード部220でデコードされた入力映像データと画質取得部230で取得された入力画質パラメータを学習済みの認識モデルの特徴量抽出部に入力し、ピクセルブロック毎の特徴量を抽出した特徴量マップを生成する。入力画質パラメータは、入力映像データのピクセルブロック毎の画質を2次元マップで表したデータであり、例えばQPマップである。認識部270は、生成された特徴量マップを学習済みの認識モデルのクラス分類部に入力し、入力映像データ内の物体を認識する。
 具体的には、認識部270は、第1の物体認識動作と第2の物体認識動作を実行するための機能を有する。
 認識部270は、第1の物体認識動作を実行するための次の機能を有する。認識部270は、入力画質パラメータのサイズを入力映像データのサイズと一致するように変更する。当該サイズは、縦のピクセル数×横のピクセル数で示される。認識部270は、入力映像データとサイズが変更された入力画質パラメータとを認識モデルの特徴量抽出部に入力し、特徴量マップを生成する。認識部270は、生成された特徴量マップを認識モデルのクラス分類部に入力し、入力映像データ内の物体を認識する。つまり、認識部270は、入力映像データとサイズが変更された入力画質パラメータとを認識モデルの特徴量抽出部の1番目のレイヤに入力し、特徴量マップを生成する。その後、認識部270は、n番目のレイヤで生成された特徴量マップを認識モデルのクラス分類部に入力し、入力映像データ内の物体を認識する。
 また、認識部270は、第2の物体認識動作を実行するための次の機能を有する。認識部270は、入力映像データを1番目のレイヤに入力し、特徴量マップを生成する。その後、認識部270は、入力画質パラメータをk(kは自然数、2≦k≦n)番目のレイヤに入力し、入力画質パラメータとk-1番目のレイヤで生成された特徴量マップとに基づいて、特徴量マップを生成する。ここで、k番目のレイヤには、k-1番目のレイヤで生成された特徴量マップのサイズと入力画質パラメータのサイズとが一致するレイヤが設定される。認識部270は、n番目のレイヤで生成された特徴量マップを認識モデルのクラス分類部に入力し、入力映像データ内の物体を認識する。
 学習部290は、学習映像データと学習映像データに対応する学習画質パラメータとを取得する。学習部290は、学習映像データと学習画質パラメータとに基づいて認識モデルを学習させる。学習部290は、認識モデルを評価し、評価結果に基づいて学習済みの認識モデルを生成する。
 具体的には、学習部290は、第1の物体認識動作の学習動作である第1の物体学習動作と第2の物体認識動作の学習動作である第2の物体学習動作と実行するための機能を有する。
 学習部290は、第1の物体学習動作を実行するための次の機能を有する。学習部290は、学習映像データと学習映像データに対応する学習画質パラメータとを取得する。学習部290は、学習画質パラメータのサイズを学習映像データのサイズと一致するように変更する。学習部290は、学習映像データと学習画質パラメータとを認識モデルの特徴量抽出部に入力し、認識モデルを学習させる。学習部290は、認識モデルを評価し、評価結果に基づいて学習済みの認識モデルを生成する。
 また、学習部290は、第2の物体学習動作を実行するための次の機能を有する。学習部290は、学習映像データと学習映像データに対応する学習画質パラメータとを取得する。学習部290は、学習映像データを認識モデルの特徴量抽出部の1番目のレイヤに入力する。学習部290は、入力画質パラメータをk番目のレイヤに入力する。k番目のレイヤは、k-1番目のレイヤで生成された特徴量マップのサイズと学習画質パラメータのサイズとが一致するレイヤが設定される。そして、学習部290は、認識モデルを学習させる。さらに、学習部290は、認識モデルを評価し、評価結果に基づいて学習済みの認識モデルを生成する。
 続いて、図13を用いて、第2の実施形態に係る映像処理システム2の第1の物体認識動作について説明する。ここで、第1の実施形態に係る映像処理システム1の物体認識動作(図8および図9を参照)と同様の処理については説明を省略する。
 まず、映像処理システム2は、上述したステップS101~ステップS108の処理を実行する(ステップS301)。
 次に、映像処理システム2のセンターサーバ500の認識部270は、入力映像データのサイズとQPマップのサイズとが一致するようにQPマップをアップサンプリングしたデータを生成する(ステップS302)。次に、認識部270は、入力映像データとQPマップのアップサンプリングしたデータとを認識モデルの特徴量抽出部に入力し、特徴量マップを生成する(ステップS303)。次に、認識部270は、特徴量マップを認識モデルのクラス分類部に入力し、入力映像データ内の物体を認識する(ステップS304)。
 続いて、図14を用いて、映像処理システム2の第1の物体認識動作の詳細例について説明する。
 図14に示すように、まず、映像処理システム2の認識部270は、QPマップD1のサイズと入力映像データであるRGB画像D3のサイズとが一致するようにQPマップのアップサンプリングしたデータD2を生成する。次に、認識部270は、QPマップのアップサンプリングしたデータD2とRGB画像D3とを学習済みの認識モデルM1の特徴量抽出部M11に入力する。入力データは、RGB画像D3だけを入力する場合には3次元のデータ(縦のピクセル数×横のピクセル数×チャネル数)となるが、RGB画像D3とQPマップのアップサンプリングしたデータD2とを入力する場合には4次元のデータとなる。そして、認識部270は、特徴量マップを生成する。次に、認識部270は、生成された特徴量マップを学習済みの認識モデルM1のクラス分類部M12に入力し、RGB画像D3内の物体を認識する。
 続いて、図15を用いて、第2の実施形態に係る映像処理システム2の第1の物体学習動作について説明する。
 まず、学習部290は、学習映像データと学習映像データに対応するQPマップとを取得する(ステップS401)。次に、学習部290は、QPマップのサイズを学習映像データのサイズと一致するようにアップサンプリングしたデータを生成する(ステップS402)。次に、学習部290は、学習映像データとQPマップとを認識モデルの特徴量抽出部に入力する(ステップS403)。次に、学習部290は、認識モデルを学習する(ステップS404)。次に、学習部290は、学習した認識モデルを評価し、評価結果に基づいて学習済みの認識モデルを生成する(ステップS405)。
 続いて、図16を用いて、第2の実施形態に係る映像処理システム2の第2の物体認識動作について説明する。ここで、第1の実施形態に係る映像処理システム1の物体認識動作(図8および図9を参照)と同様の処理については説明を省略する。
 まず、映像処理システム2は、上述したステップS101~ステップS108の処理を実行する(ステップS501)。
 次に、映像処理システム2のセンターサーバ500の認識部270は、入力映像データを認識モデルの特徴量抽出部の1番目のレイヤに入力し、特徴量マップを生成する(ステップS502)。以降、2番目~n(nは自然数)番目のレイヤは、n―1番目のレイヤで生成された特徴量マップから特徴量マップを生成する。ただし、後述するk番目のレイヤでは処理が異なる。
 次に、認識部270は、k番目のレイヤにQPマップを入力し、k-1番目のレイヤで生成された特徴量マップとQPマップとに基づいて特徴量マップを生成する(ステップS503)。ここで、QPマップが入力されるk番目のレイヤには、k-1番目のレイヤで生成された特徴量マップのサイズとQPマップのサイズとが一致するレイヤが設定される。
 次に、認識部270は、n番目のレイヤで生成された特徴量マップを学習済みの認識モデルのクラス分類部に入力し、入力映像データ内の物体を認識する(ステップS504)。
 続いて、図17を用いて、第2の実施形態に係る映像処理システム2の第2の物体認識動作の詳細例について説明する。本図に示す一例では、上述したnの値は5であり、kの値は5である。
 図17に示すように、まず、映像処理システム2の認識部270は、入力映像データであるRGB画像D5を学習済みの認識モデルM2の特徴量抽出部M21の1番目のレイヤL1に入力し、特徴量マップを生成する。次に、認識部270は、1番目のレイヤL1で生成された特徴量マップを2番目のレイヤL2に入力し、特徴量マップを生成する。次に、認識部270は、2番目のレイヤL2で生成された特徴量マップを3番目のレイヤL3に入力し、特徴量マップを生成する。次に、認識部270は、3番目のレイヤL3で生成された特徴量マップを4番目のレイヤL4に入力し、特徴量マップを生成する。
 次に、認識部270は、QPマップD4と4番目のレイヤL4で生成された特徴量マップと5番目のレイヤL5に入力し、QPマップD4と4番目のレイヤL4で生成された特徴量マップとに基づいて特徴量マップを生成する。ここで、4番目のレイヤL4で生成された特徴量マップのサイズとQPマップのサイズとは一致する。次に、認識部270は、5番目のレイヤL5で生成された特徴量マップを学習済みの認識モデルM2のクラス分類部M22に入力し、入力映像データ内の物体を認識する。
 続いて、図18を用いて、第2の実施形態に係る映像処理システム2の第1の物体認識動作について説明する。
 まず、学習部290は、学習映像データと学習映像データに対応するQPマップとを取得する(ステップS601)。次に、学習部290は、学習映像データを認識モデルの特徴量抽出部の1番目のレイヤに入力する(ステップS602)。次に、学習部290は、入力画質パラメータをk番目のレイヤに入力する(ステップS603)。k番目のレイヤは、k-1番目のレイヤで生成された特徴量マップのサイズと学習画質パラメータのサイズとが一致するレイヤが設定される。次に、学習部290は、認識モデルを学習させる(ステップS604)。次に、学習部290は、認識モデルを評価し、評価結果に基づいて学習済みの認識モデルを生成する(ステップS605)。
 上述したように、入力映像データと入力画質パラメータ(例えばQPマップ)とを学習済みの認識モデルに入力することによって入力映像データ内の物体を認識する。
 第1の物体認識動作では、映像処理システム2は、入力画質パラメータのサイズを入力映像データのサイズと同じサイズに変更し、入力画質パラメータを入力映像データと共に学習済みの認識モデルの特徴量抽出部に入力する。そうすることで、映像処理システム2は、入力画質パラメータを学習済みの認識モデルの特徴量抽出部における入力映像データの特徴量として利用できるようになる。
 また、第2の物体認識動作では、映像処理システム2は、学習済みの認識モデルの特徴量抽出部のk-1番目のレイヤで生成された特徴量マップのサイズと入力画質パラメータのサイズとが一致するk番目のレイヤを設定する。そして、映像処理システム2は、k番目のレイヤに入力画質パラメータを入力する。そうすることで、映像処理システム2は、入力画質パラメータを学習済みの認識モデルの特徴量抽出部における入力映像データの特徴量として利用できるようになる。
 したがって、映像処理システム2は、入力映像データ内の物体認識時に様々な画質の入力映像データに対応することができ、物体認識の精度を向上することが期待できる。
 また、映像処理システム2は、計算リソースの効率的な使用やネットワーク帯域の効率的な使用のために、エッジ側の端末100で圧縮による入力映像データの画質を動的に変更する。映像処理システム2は、センター側のセンターサーバ500において、そのような入力映像データの画質変更を考慮して、入力映像データ内の物体の認識を精度よく行うことができる。
 上述の実施形態における各構成は、ハードウェア又はソフトウェア、もしくはその両方によって構成され、1つのハードウェア又はソフトウェアから構成してもよいし、複数のハードウェア又はソフトウェアから構成してもよい。各装置及び各機能(処理)を、図19に示すような、CPU(Central Processing Unit)等のプロセッサ1001及び記憶装置であるメモリ1002を有するコンピュータ1000により実現してもよい。例えば、メモリ1002に実施形態における方法(映像処理方法)を行うためのプログラムを格納し、各機能を、メモリ1002に格納されたプログラムをプロセッサ1001で実行することにより実現してもよい。
 これらのプログラムは、コンピュータに読み込まれた場合に、実施形態で説明された1又はそれ以上の機能をコンピュータに行わせるための命令群(又はソフトウェアコード)を含む。プログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、コンピュータ可読媒体又は実体のある記憶媒体は、random-access memory(RAM)、read-only memory(ROM)、フラッシュメモリ、solid-state drive(SSD)又はその他のメモリ技術、CD-ROM、digital versatile disc(DVD)、Blu-ray(登録商標)ディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含む。プログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含む。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
 (付記1)
 入力映像データを取得する映像取得手段と、
 前記入力映像データの画質を表す入力画質パラメータを取得する画質取得手段と、
 学習画像データと前記学習画像データの画質を表す学習画質パラメータとに基づいて前記学習画像データ内の物体の認識を学習した学習済みの認識モデルに、前記入力映像データと前記入力画質パラメータとを入力し、前記入力映像データ内の物体を認識する認識手段を備える
 映像処理システム。
 (付記2)
 前記学習済みの認識モデルは、学習済みの第1認識モデルと学習済みの第2認識モデルとを含み、
 前記認識手段は、
 前記入力映像データを前記学習済みの第1認識モデルに入力し、前記入力映像データ内の物体を認識し、
 前記学習済みの第1認識モデルによる物体の認識結果と前記学習済みの第1認識モデルによって認識された物体に対応する前記入力画質パラメータとを前記学習済みの第2認識モデルに入力し、前記学習済みの第1認識モデルによる物体の認識結果を補正する
 付記1に記載の映像処理システム。
 (付記3)
 前記学習済みの認識モデルは、学習済みの第1認識モデルと学習済みの第2認識モデルとを含み、
 前記学習済みの第1認識モデルは、
 前記学習画像データに基づいて前記学習画像データ内の物体の認識を学習したモデルあり、
 前記学習済みの第1認識モデルによる物体の認識結果と前記学習済みの第1認識モデルによって認識された物体に対応する前記学習画質パラメータとに基づいて、前記学習済みの第1認識モデルによる物体の認識結果の補正を学習した前記学習済みの第2認識モデルを生成する学習手段をさらに備える
 付記1に記載の映像処理システム。
 (付記4)
 前記入力画質パラメータは、前記入力映像データのピクセルブロック毎の画質を2次元マップで表したデータであり、
 前記認識手段は、
 前記入力映像データと前記入力画質パラメータとを前記学習済みの認識モデルの特徴量抽出手段に入力し、特徴量マップを生成し、
 前記生成された特徴量マップを前記学習済みの認識モデルのクラス分類手段に入力し、前記入力映像データ内の物体を認識する
 付記1に記載の映像処理システム。
 (付記5)
 前記認識手段は、
 前記入力画質パラメータのサイズを前記入力映像データのサイズと一致するように変更し、
 前記入力映像データと前記サイズが変更された入力画質パラメータとを前記学習済みの認識モデルの特徴量抽出手段を入力し、特徴量マップを生成し、
 前記特徴量マップを前記学習済みの認識モデルのクラス分類手段に入力し、前記入力映像データ内の物体を認識する
 付記4に記載の映像処理システム。
 (付記6)
 前記認識モデルの特徴量抽出手段は、連続的に処理をするn(nは自然数)個のレイヤを備え、
 前記認識手段は、
 前記入力映像データを1番目の前記レイヤに入力し、特徴量マップを生成し、
 前記入力画質パラメータとk-1(kは自然数、2≦k≦n)番目の前記レイヤで生成された特徴量マップとをk番目の前記レイヤに入力し、特徴量マップを生成し、
 n番目の前記レイヤで生成された特徴量マップを前記学習済みの認識モデルのクラス分類手段に入力し、前記入力映像データ内の物体を認識し、
 前記入力画質パラメータのサイズは、k-1番目の前記レイヤで生成された特徴量マップのサイズと一致する
 付記4に記載の映像処理システム。
 (付記7)
 入力映像データを取得する映像取得手段と、
 前記入力映像データの画質を表す入力画質パラメータを取得する画質取得手段と、
 学習画像データと前記学習画像データの画質を表す学習画質パラメータとに基づいて前記学習画像データ内の物体の認識を学習した学習済みの認識モデルに、前記入力映像データと前記入力画質パラメータとを入力し、前記入力映像データ内の物体を認識する認識手段を備える
 映像処理装置。
 (付記8)
 前記学習済みの認識モデルは、学習済みの第1認識モデルと学習済みの第2認識モデルとを含み、
 前記認識手段は、
 前記入力映像データを前記学習済みの第1認識モデルに入力し、前記入力映像データ内の物体を認識し、
 前記学習済みの第1認識モデルによる物体の認識結果と前記学習済みの第1認識モデルによって認識された物体に対応する前記入力画質パラメータとを前記学習済みの第2認識モデルに入力し、前記学習済みの第1認識モデルによる物体の認識結果を補正する
 付記7に記載の映像処理装置。
 (付記9)
 前記学習済みの認識モデルは、学習済みの第1認識モデルと学習済みの第2認識モデルとを含み、
 前記学習済みの第1認識モデルは、前記学習画像データに基づいて前記学習画像データ内の物体の認識を学習したモデルあり、
 前記学習済みの第1認識モデルによる物体の認識結果と前記学習済みの第1認識モデルによって認識された物体に対応する前記学習画質パラメータとに基づいて、前記学習済みの第1認識モデルによる物体の認識結果の補正を学習した前記学習済みの第2認識モデルを生成する学習手段をさらに備える
 付記7に記載の映像処理装置。
 (付記10)
 前記入力画質パラメータは、前記入力映像データのピクセルブロック毎の画質を2次元マップで表したデータであり、
 前記認識手段は、
 前記入力映像データと前記入力画質パラメータとを前記学習済みの認識モデルの特徴量抽出手段に入力し、特徴量マップを生成し、
 前記生成された特徴量マップを前記学習済みの認識モデルのクラス分類手段に入力し、前記入力映像データ内の物体を認識する
 付記7に記載の映像処理装置。
 (付記11)
 前記認識手段は、
 前記入力画質パラメータのサイズを前記入力映像データのサイズと一致するように変更し、
 前記入力映像データと前記サイズが変更された入力画質パラメータとを前記学習済みの認識モデルの特徴量抽出手段を入力し、特徴量マップを生成し、
 前記特徴量マップを前記学習済みの認識モデルのクラス分類手段に入力し、前記入力映像データ内の物体を認識する
 付記10に記載の映像処理装置。
 (付記12)
 前記認識モデルの特徴量抽出手段は、連続的に処理をするn(nは自然数)個のレイヤを備え、
 前記認識手段は、
 前記入力映像データを1番目の前記レイヤに入力し、特徴量マップを生成し、
 前記入力画質パラメータとk-1(kは自然数、2≦k≦n)番目の前記レイヤで生成された特徴量マップとをk番目の前記レイヤに入力し、特徴量マップを生成し、
 n番目の前記レイヤで生成された特徴量マップを前記学習済みの認識モデルのクラス分類手段に入力し、前記入力映像データ内の物体を認識し、
 前記入力画質パラメータのサイズは、k-1番目の前記レイヤで生成された特徴量マップのサイズと一致する
 付記10に記載の映像処理装置。
 (付記13)
 入力映像データを取得し、
 前記入力映像データの画質を表す入力画質パラメータを取得し、
 学習画像データと前記学習画像データの画質を表す学習画質パラメータとに基づいて前記学習画像データ内の物体の認識を学習した学習済みの認識モデルに、前記入力映像データと前記入力画質パラメータとを入力し、前記入力映像データ内の物体を認識する
 映像処理方法。
 (付記14)
 前記学習済みの認識モデルは、学習済みの第1認識モデルと学習済みの第2認識モデルとを含み、
 前記入力映像データを前記学習済みの第1認識モデルに入力し、前記入力映像データ内の物体を認識し、
 前記学習済みの第1認識モデルによる物体の認識結果と前記学習済みの第1認識モデルによって認識された物体に対応する前記入力画質パラメータとを前記学習済みの第2認識モデルに入力し、前記学習済みの第1認識モデルによる物体の認識結果を補正する
 付記13に記載の映像処理方法。
 (付記15)
 前記学習済みの認識モデルは、学習済みの第1認識モデルと学習済みの第2認識モデルとを含み、
 前記学習済みの第1認識モデルは、前記学習画像データに基づいて前記学習画像データ内の物体の認識を学習したモデルあり、
 前記学習済みの第1認識モデルによる物体の認識結果と前記学習済みの第1認識モデルによって認識された物体に対応する前記学習画質パラメータとに基づいて、前記学習済みの第1認識モデルによる物体の認識結果の補正を学習した前記学習済みの第2認識モデルを生成する
 付記13に記載の映像処理方法。
 (付記16)
 前記入力画質パラメータは、前記入力映像データのピクセルブロック毎の画質を2次元マップで表したデータであり、
 前記入力映像データと前記入力画質パラメータとを前記学習済みの認識モデルの特徴量抽出手段に入力し、特徴量マップを生成し、
 前記生成された特徴量マップを前記学習済みの認識モデルのクラス分類手段に入力し、前記入力映像データ内の物体を認識する
 付記13に記載の映像処理方法。
 (付記17)
 前記入力画質パラメータのサイズを前記入力映像データのサイズと一致するように変更し、
 前記入力映像データと前記サイズが変更された入力画質パラメータとを前記学習済みの認識モデルの特徴量抽出手段を入力し、特徴量マップを生成し、
 前記特徴量マップを前記学習済みの認識モデルのクラス分類手段に入力し、前記入力映像データ内の物体を認識する
 付記16に記載の映像処理方法。
 (付記18)
 前記認識モデルの特徴量抽出手段は、連続的に処理をするn(nは自然数)個のレイヤを備え、
 前記入力映像データを1番目の前記レイヤに入力し、特徴量マップを生成し、
 前記入力画質パラメータとk-1(kは自然数、2≦k≦n)番目の前記レイヤで生成された特徴量マップとをk番目の前記レイヤに入力し、特徴量マップを生成し、
 n番目の前記レイヤで生成された特徴量マップを前記学習済みの認識モデルのクラス分類手段に入力し、前記入力映像データ内の物体を認識し、
 前記入力画質パラメータのサイズは、k-1番目の前記レイヤで生成された特徴量マップのサイズと一致する
 付記16に記載の映像処理方法。
1、2、10 映像処理システム
11 映像取得部(映像取得手段)
12 画質取得部(画質取得手段)
13 認識部(認識手段)
20 映像処理装置
100 端末
101 カメラ
102 圧縮効率最適化機能
110 映像取得部
120 検出部
130 画質変更判定部
140 圧縮効率決定部
150 端末通信部
200、500 センターサーバ
201 映像認識機能
202 アラート生成機能
203 GUI描画機能
204 画面表示機能
210 センター通信部
220 デコード部
230 画質取得部
240、270 認識部
250、280 記憶部
260、290 学習部
300 基地局
400 MEC
401 圧縮ビットレート制御機能
1000 コンピュータ
1001 プロセッサ
1002 メモリ

Claims (18)

  1.  入力映像データを取得する映像取得手段と、
     前記入力映像データの画質を表す入力画質パラメータを取得する画質取得手段と、
     学習画像データと前記学習画像データの画質を表す学習画質パラメータとに基づいて前記学習画像データ内の物体の認識を学習した学習済みの認識モデルに、前記入力映像データと前記入力画質パラメータとを入力し、前記入力映像データ内の物体を認識する認識手段を備える
     映像処理システム。
  2.  前記学習済みの認識モデルは、学習済みの第1認識モデルと学習済みの第2認識モデルとを含み、
     前記認識手段は、
     前記入力映像データを前記学習済みの第1認識モデルに入力し、前記入力映像データ内の物体を認識し、
     前記学習済みの第1認識モデルによる物体の認識結果と前記学習済みの第1認識モデルによって認識された物体に対応する前記入力画質パラメータとを前記学習済みの第2認識モデルに入力し、前記学習済みの第1認識モデルによる物体の認識結果を補正する
     請求項1に記載の映像処理システム。
  3.  前記学習済みの認識モデルは、学習済みの第1認識モデルと学習済みの第2認識モデルとを含み、
     前記学習済みの第1認識モデルは、
     前記学習画像データに基づいて前記学習画像データ内の物体の認識を学習したモデルあり、
     前記学習済みの第1認識モデルによる物体の認識結果と前記学習済みの第1認識モデルによって認識された物体に対応する前記学習画質パラメータとに基づいて、前記学習済みの第1認識モデルによる物体の認識結果の補正を学習した前記学習済みの第2認識モデルを生成する学習手段をさらに備える
     請求項1に記載の映像処理システム。
  4.  前記入力画質パラメータは、前記入力映像データのピクセルブロック毎の画質を2次元マップで表したデータであり、
     前記認識手段は、
     前記入力映像データと前記入力画質パラメータとを前記学習済みの認識モデルの特徴量抽出手段に入力し、特徴量マップを生成し、
     前記生成された特徴量マップを前記学習済みの認識モデルのクラス分類手段に入力し、前記入力映像データ内の物体を認識する
     請求項1に記載の映像処理システム。
  5.  前記認識手段は、
     前記入力画質パラメータのサイズを前記入力映像データのサイズと一致するように変更し、
     前記入力映像データと前記サイズが変更された入力画質パラメータとを前記学習済みの認識モデルの特徴量抽出手段を入力し、特徴量マップを生成し、
     前記特徴量マップを前記学習済みの認識モデルのクラス分類手段に入力し、前記入力映像データ内の物体を認識する
     請求項4に記載の映像処理システム。
  6.  前記認識モデルの特徴量抽出手段は、連続的に処理をするn(nは自然数)個のレイヤを備え、
     前記認識手段は、
     前記入力映像データを1番目の前記レイヤに入力し、特徴量マップを生成し、
     前記入力画質パラメータとk-1(kは自然数、2≦k≦n)番目の前記レイヤで生成された特徴量マップとをk番目の前記レイヤに入力し、特徴量マップを生成し、
     n番目の前記レイヤで生成された特徴量マップを前記学習済みの認識モデルのクラス分類手段に入力し、前記入力映像データ内の物体を認識し、
     前記入力画質パラメータのサイズは、k-1番目の前記レイヤで生成された特徴量マップのサイズと一致する
     請求項4に記載の映像処理システム。
  7.  入力映像データを取得する映像取得手段と、
     前記入力映像データの画質を表す入力画質パラメータを取得する画質取得手段と、
     学習画像データと前記学習画像データの画質を表す学習画質パラメータとに基づいて前記学習画像データ内の物体の認識を学習した学習済みの認識モデルに、前記入力映像データと前記入力画質パラメータとを入力し、前記入力映像データ内の物体を認識する認識手段を備える
     映像処理装置。
  8.  前記学習済みの認識モデルは、学習済みの第1認識モデルと学習済みの第2認識モデルとを含み、
     前記認識手段は、
     前記入力映像データを前記学習済みの第1認識モデルに入力し、前記入力映像データ内の物体を認識し、
     前記学習済みの第1認識モデルによる物体の認識結果と前記学習済みの第1認識モデルによって認識された物体に対応する前記入力画質パラメータとを前記学習済みの第2認識モデルに入力し、前記学習済みの第1認識モデルによる物体の認識結果を補正する
     請求項7に記載の映像処理装置。
  9.  前記学習済みの認識モデルは、学習済みの第1認識モデルと学習済みの第2認識モデルとを含み、
     前記学習済みの第1認識モデルは、前記学習画像データに基づいて前記学習画像データ内の物体の認識を学習したモデルあり、
     前記学習済みの第1認識モデルによる物体の認識結果と前記学習済みの第1認識モデルによって認識された物体に対応する前記学習画質パラメータとに基づいて、前記学習済みの第1認識モデルによる物体の認識結果の補正を学習した前記学習済みの第2認識モデルを生成する学習手段をさらに備える
     請求項7に記載の映像処理装置。
  10.  前記入力画質パラメータは、前記入力映像データのピクセルブロック毎の画質を2次元マップで表したデータであり、
     前記認識手段は、
     前記入力映像データと前記入力画質パラメータとを前記学習済みの認識モデルの特徴量抽出手段に入力し、特徴量マップを生成し、
     前記生成された特徴量マップを前記学習済みの認識モデルのクラス分類手段に入力し、前記入力映像データ内の物体を認識する
     請求項7に記載の映像処理装置。
  11.  前記認識手段は、
     前記入力画質パラメータのサイズを前記入力映像データのサイズと一致するように変更し、
     前記入力映像データと前記サイズが変更された入力画質パラメータとを前記学習済みの認識モデルの特徴量抽出手段を入力し、特徴量マップを生成し、
     前記特徴量マップを前記学習済みの認識モデルのクラス分類手段に入力し、前記入力映像データ内の物体を認識する
     請求項10に記載の映像処理装置。
  12.  前記認識モデルの特徴量抽出手段は、連続的に処理をするn(nは自然数)個のレイヤを備え、
     前記認識手段は、
     前記入力映像データを1番目の前記レイヤに入力し、特徴量マップを生成し、
     前記入力画質パラメータとk-1(kは自然数、2≦k≦n)番目の前記レイヤで生成された特徴量マップとをk番目の前記レイヤに入力し、特徴量マップを生成し、
     n番目の前記レイヤで生成された特徴量マップを前記学習済みの認識モデルのクラス分類手段に入力し、前記入力映像データ内の物体を認識し、
     前記入力画質パラメータのサイズは、k-1番目の前記レイヤで生成された特徴量マップのサイズと一致する
     請求項10に記載の映像処理装置。
  13.  入力映像データを取得し、
     前記入力映像データの画質を表す入力画質パラメータを取得し、
     学習画像データと前記学習画像データの画質を表す学習画質パラメータとに基づいて前記学習画像データ内の物体の認識を学習した学習済みの認識モデルに、前記入力映像データと前記入力画質パラメータとを入力し、前記入力映像データ内の物体を認識する
     映像処理方法。
  14.  前記学習済みの認識モデルは、学習済みの第1認識モデルと学習済みの第2認識モデルとを含み、
     前記入力映像データを前記学習済みの第1認識モデルに入力し、前記入力映像データ内の物体を認識し、
     前記学習済みの第1認識モデルによる物体の認識結果と前記学習済みの第1認識モデルによって認識された物体に対応する前記入力画質パラメータとを前記学習済みの第2認識モデルに入力し、前記学習済みの第1認識モデルによる物体の認識結果を補正する
     請求項13に記載の映像処理方法。
  15.  前記学習済みの認識モデルは、学習済みの第1認識モデルと学習済みの第2認識モデルとを含み、
     前記学習済みの第1認識モデルは、前記学習画像データに基づいて前記学習画像データ内の物体の認識を学習したモデルあり、
     前記学習済みの第1認識モデルによる物体の認識結果と前記学習済みの第1認識モデルによって認識された物体に対応する前記学習画質パラメータとに基づいて、前記学習済みの第1認識モデルによる物体の認識結果の補正を学習した前記学習済みの第2認識モデルを生成する
     請求項13に記載の映像処理方法。
  16.  前記入力画質パラメータは、前記入力映像データのピクセルブロック毎の画質を2次元マップで表したデータであり、
     前記入力映像データと前記入力画質パラメータとを前記学習済みの認識モデルの特徴量抽出手段に入力し、特徴量マップを生成し、
     前記生成された特徴量マップを前記学習済みの認識モデルのクラス分類手段に入力し、前記入力映像データ内の物体を認識する
     請求項13に記載の映像処理方法。
  17.  前記入力画質パラメータのサイズを前記入力映像データのサイズと一致するように変更し、
     前記入力映像データと前記サイズが変更された入力画質パラメータとを前記学習済みの認識モデルの特徴量抽出手段を入力し、特徴量マップを生成し、
     前記特徴量マップを前記学習済みの認識モデルのクラス分類手段に入力し、前記入力映像データ内の物体を認識する
     請求項16に記載の映像処理方法。
  18.  前記認識モデルの特徴量抽出手段は、連続的に処理をするn(nは自然数)個のレイヤを備え、
     前記入力映像データを1番目の前記レイヤに入力し、特徴量マップを生成し、
     前記入力画質パラメータとk-1(kは自然数、2≦k≦n)番目の前記レイヤで生成された特徴量マップとをk番目の前記レイヤに入力し、特徴量マップを生成し、
     n番目の前記レイヤで生成された特徴量マップを前記学習済みの認識モデルのクラス分類手段に入力し、前記入力映像データ内の物体を認識し、
     前記入力画質パラメータのサイズは、k-1番目の前記レイヤで生成された特徴量マップのサイズと一致する
     請求項16に記載の映像処理方法。
PCT/JP2022/034425 2022-09-14 2022-09-14 映像処理システム、映像処理装置および映像処理方法 WO2024057446A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/034425 WO2024057446A1 (ja) 2022-09-14 2022-09-14 映像処理システム、映像処理装置および映像処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/034425 WO2024057446A1 (ja) 2022-09-14 2022-09-14 映像処理システム、映像処理装置および映像処理方法

Publications (1)

Publication Number Publication Date
WO2024057446A1 true WO2024057446A1 (ja) 2024-03-21

Family

ID=90274514

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/034425 WO2024057446A1 (ja) 2022-09-14 2022-09-14 映像処理システム、映像処理装置および映像処理方法

Country Status (1)

Country Link
WO (1) WO2024057446A1 (ja)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013196034A (ja) * 2012-03-15 2013-09-30 Toshiba Corp 人物画像処理装置、及び人物画像処理方法
JP2019128806A (ja) * 2018-01-25 2019-08-01 富士通株式会社 データ圧縮装置、データ圧縮方法およびデータ圧縮プログラム
CN111326148A (zh) * 2020-01-19 2020-06-23 北京世纪好未来教育科技有限公司 置信度校正及其模型训练方法、装置、设备及存储介质
US20200204805A1 (en) * 2018-12-21 2020-06-25 Axis Ab Method of encoding a video sequence
WO2020174770A1 (ja) * 2019-02-28 2020-09-03 富士フイルム株式会社 領域特定装置、方法およびプログラム、学習装置、方法およびプログラム、並びに識別器
CN112418190A (zh) * 2021-01-21 2021-02-26 成都点泽智能科技有限公司 移动端医学防护遮蔽人脸识别方法、装置、系统及服务器
WO2021230068A1 (ja) * 2020-05-13 2021-11-18 ソニーグループ株式会社 配信装置及び配信方法
JP2022067858A (ja) * 2020-10-21 2022-05-09 セコム株式会社 学習済みモデル及びデータ処理装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013196034A (ja) * 2012-03-15 2013-09-30 Toshiba Corp 人物画像処理装置、及び人物画像処理方法
JP2019128806A (ja) * 2018-01-25 2019-08-01 富士通株式会社 データ圧縮装置、データ圧縮方法およびデータ圧縮プログラム
US20200204805A1 (en) * 2018-12-21 2020-06-25 Axis Ab Method of encoding a video sequence
WO2020174770A1 (ja) * 2019-02-28 2020-09-03 富士フイルム株式会社 領域特定装置、方法およびプログラム、学習装置、方法およびプログラム、並びに識別器
CN111326148A (zh) * 2020-01-19 2020-06-23 北京世纪好未来教育科技有限公司 置信度校正及其模型训练方法、装置、设备及存储介质
WO2021230068A1 (ja) * 2020-05-13 2021-11-18 ソニーグループ株式会社 配信装置及び配信方法
JP2022067858A (ja) * 2020-10-21 2022-05-09 セコム株式会社 学習済みモデル及びデータ処理装置
CN112418190A (zh) * 2021-01-21 2021-02-26 成都点泽智能科技有限公司 移动端医学防护遮蔽人脸识别方法、装置、系统及服务器

Similar Documents

Publication Publication Date Title
KR102417043B1 (ko) 비디오 회의에서의 배경 수정
CN111986172B (zh) 一种面向电力设备的红外图像故障检测方法及装置
US9232189B2 (en) Background modification in video conferencing
CN114079779B (zh) 图像处理方法、智能终端及存储介质
WO2021098030A1 (zh) 一种视频编码的方法和装置
CN113792730A (zh) 文档图像的矫正方法、装置、电子设备和存储介质
CN110443252A (zh) 一种文字检测方法、装置及设备
US20240161254A1 (en) Information processing apparatus, information processing method, and program
WO2021070215A1 (ja) 映像分析方法、映像分析システム及び情報処理装置
CN115063768A (zh) 三维目标检测方法、编码器及解码器
JP2013187723A (ja) 色変換装置、カラーサブサンプリング装置およびこれらのプログラム
WO2024057446A1 (ja) 映像処理システム、映像処理装置および映像処理方法
CN113888509A (zh) 一种图像清晰度的评价方法、装置、设备及存储介质
CN114120172A (zh) 基于视频的目标检测方法、装置、电子设备及存储介质
CN113688900A (zh) 雷达和视觉数据融合处理方法、路侧设备及智能交通系统
CN113469869A (zh) 一种图像管理方法和装置
WO2024057469A1 (ja) 映像処理システム、映像処理装置および映像処理方法
CN110276728B (zh) 一种基于残差生成对抗网络的人脸视频增强方法
WO2024047748A1 (ja) 映像処理システム、映像処理方法、及び映像処理装置
WO2024047793A1 (ja) 映像処理システム、映像処理装置及び映像処理方法
WO2024047791A1 (ja) 映像処理システム、映像処理方法、及び映像処理装置
WO2024013933A1 (ja) 映像処理システム、映像処理装置及び映像処理方法
WO2024047794A1 (ja) 映像処理システム、映像処理装置及び映像処理方法
CN114167443A (zh) 信息补全方法、装置、计算机设备和存储介质
WO2020115866A1 (ja) 深度処理システム、深度処理プログラムおよび深度処理方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22958774

Country of ref document: EP

Kind code of ref document: A1