WO2018205991A1 - 一种视频浓缩的方法、装置和系统 - Google Patents

一种视频浓缩的方法、装置和系统 Download PDF

Info

Publication number
WO2018205991A1
WO2018205991A1 PCT/CN2018/086478 CN2018086478W WO2018205991A1 WO 2018205991 A1 WO2018205991 A1 WO 2018205991A1 CN 2018086478 W CN2018086478 W CN 2018086478W WO 2018205991 A1 WO2018205991 A1 WO 2018205991A1
Authority
WO
WIPO (PCT)
Prior art keywords
video data
target video
location
analysis object
end device
Prior art date
Application number
PCT/CN2018/086478
Other languages
English (en)
French (fr)
Inventor
周剑辉
Original Assignee
华为技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华为技术有限公司 filed Critical 华为技术有限公司
Publication of WO2018205991A1 publication Critical patent/WO2018205991A1/zh

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/40Network security protocols
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/762Media network packet handling at the source 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/265Mixing

Definitions

  • the present application relates to the field of computer technologies, and in particular, to a method, device and system for video concentration.
  • Urban public places are generally equipped with surveillance cameras, which are recorded around the clock and uploaded to the server for storage.
  • the public security personnel can operate the terminal to obtain a surveillance camera of a certain intersection from the server and shoot it in a certain period of time.
  • the video data is played, and the public security personnel look for the useful information by watching the video data.
  • the server condenses the video data, and the concentration of the video is to ensure that certain types of analysis objects (also called analysis objects such as people, cars, animals, etc.) in the video are guaranteed. Under the premise of complete information, these types of analysis objects are disrupted in time and the video time is shortened.
  • the public security personnel wants to watch the concentrated video of a certain video, and may send a concentration request of the video data to the server. After receiving the request for obtaining the video data, the server may extract the background image and the preset type of the analysis object.
  • the position information in the video data is then based on the position information of the analysis object of the preset type, the background image, and the image of the analysis object of the preset type, and the concentrated video data corresponding to the video data is synthesized, and then sent to the terminal for playing.
  • the terminal Since the server extracts the position information of the preset type of analysis object and the background image takes a long time, the terminal is less efficient in acquiring the concentrated video data.
  • embodiments of the present invention provide a method, an apparatus, and a system for video concentration.
  • the technical solution is as follows:
  • a video concentrating method comprising:
  • the preset type may be preset by a technician and stored to a camera, such as a person, a car, an animal, or the like.
  • the image of the preset type of analysis object may be an image captured in the target video data according to the outer edge of the analysis object, or may be an image captured in the target video data according to the smallest rectangle formed by the outer edge of the analysis object.
  • the server stores the background image and the preset type analysis object corresponding to the target video data sent by the received front-end device.
  • the condensed video data corresponding to the target video data may be synthesized based on the first location set, the image of the analysis object of the preset type in the target video data, and the background image. The data is sent to the terminal, and after receiving the concentrated video data, the terminal can play.
  • the method further includes:
  • the method before the condensed video data corresponding to the target video data is synthesized based on the first location set, the image of the analysis object of the preset type in the target video data, and the background image, the method further includes:
  • An image of a preset type of analysis object is intercepted from the target video data based on the first location set and the playback progress point corresponding to each location point.
  • the server may receive a play progress point corresponding to each location point in the first location set, and then, in the target video data, follow the play progress point corresponding to each location point in the first location set.
  • the video frame corresponding to the playback progress point is determined, and then the location point is used to intercept an image of the analysis object of the preset type from the corresponding position in the video frame.
  • a video concentrating method comprising:
  • a first set of locations and a background image are sent to the server.
  • the front-end device can continuously capture video data, and acquire a piece of video data in the continuously captured video data, which may be referred to as target video data, such as obtaining 9:00 am. Video data at 10 am.
  • the front-end device can extract each frame image in the target video data, analyze the pixel point data of each frame image, determine a position point of the preset type of analysis object included in each frame image, and determine the preset type.
  • the location points of the analysis object form a first location set, and the correspondence between the analysis object and the location point and the sequence of each location point in the target video data are stored in the first location set.
  • the front-end device can analyze the pixel point data in each frame image, determine the background image in each frame image, and if it is determined that the background image in the continuous multi-frame image is the same, only one background image can be stored, and then the first image is sent to the server. Location collection and background image.
  • the method further includes:
  • An image of a preset type of analysis object is sent to the server.
  • the front-end device when extracting the location point of the preset type of the analysis object in the target video data, may also intercept the image in the target video data according to the outer edge of the analysis object, or may follow the analysis object.
  • the smallest rectangle formed by the outer edge intercepts the image in the target video data, and then sends an image of the analysis object of the preset type to the server. This saves the length of time it takes for the server to condense the video.
  • the method further includes:
  • the playback progress point and target video data corresponding to each location point are sent to the server.
  • the front-end device when extracting the location point of the preset type of the analysis object in the target video data, may also extract the playback progress point corresponding to each location point, and then send each location point to the server. Corresponding playback progress point and target video data.
  • the target video data is subjected to reduced resolution processing to obtain first video data
  • a first set of locations consisting of position points of the preset type of analysis object in the target video data is extracted, and the background image is extracted from the second video data.
  • the front-end device may perform the resolution reduction processing and the frame rate reduction processing on the target video data, respectively, to obtain the first video data and the second video data, respectively. Then, from the first video data, the first set of locations is extracted, and the background image is extracted from the second video data.
  • the pixel point of each frame image in the first video data is smaller than the pixel point of each frame image in the target video data, when the position point of the analysis object of the preset type is extracted, the speed is faster, and the front end is
  • the range of shooting of the device is generally fixed, and the background image changes slowly, which can reduce the frame rate, reduce the number of frames included per second, and thus reduce the analysis complexity, so that the background image can be extracted more quickly.
  • the target video data is subjected to reduced resolution and reduced frame rate processing to obtain first video data.
  • the front-end device may further reduce the resolution and reduce the frame rate of the target video data, and extract the first location set from the first video data, so that each frame in the first video data
  • the pixels of the image are smaller than the pixels of each frame of the target video data, and the frame rate is still relatively low, so that the extraction time can be shortened.
  • the frame rate of the first video data is higher than the frame rate of the second video data.
  • the position point of the analysis object of the preset type can be determined, so the frame rate is slightly higher. Since the background image changes slowly, the frame rate can be lower than the frame rate of the video data of the extracted position point.
  • the method further includes:
  • a location point included in the third location set is added to the first location collection.
  • the playback progress corresponding to each location point may be extracted. point.
  • the front-end device may extract, from the target video data, a second set of locations consisting of location points of the specific type of analysis object in the target video data.
  • each location point in the first location set, and a playback progress point corresponding to each location point, each location point in the second location set, and a playback progress point corresponding to each location point, in the second location set Determining a third location set consisting of location points of the analysis object not included in the first location set, and the location point of the analysis object not included is composed of three location points, wherein the playback progress point is the same but the location point is different The playback point is not the same but the location point is the same, the playback progress point is different from the location point, and then the location point included in the third location set is added to the first location set.
  • a server comprising a processor, a memory, a transmitter and a receiver, and the processor implements the method of video concentration provided by the above first aspect by executing an instruction.
  • a front-end device in a third aspect, includes a processor, a transmitter, and a receiver, and the processor implements the video concentration method provided by the second aspect by executing an instruction.
  • a server comprising at least one module, the at least one module for implementing the method for video concentration provided by the first aspect above.
  • a front end device comprising at least one module, the at least one module being used to implement the video concentration method provided by the second aspect.
  • a computer program product comprising instructions, when run on a server, causes the server to perform the method of video concentrating provided by the first aspect above.
  • a computer program product comprising instructions for causing a front end device to perform the method of video concentrating provided by the second aspect above is provided when operating on a front end device.
  • the server may directly use the stored first location set and the background image of the location points of the analysis object of the preset type in the target video data to synthesize and concentrate.
  • the video data does not need to extract the first location set composed of the background image and the position points of the preset type of analysis object in the target video data, thereby improving the efficiency of the terminal acquiring the concentrated video data.
  • FIG. 1 is a schematic structural diagram of a video concentrating system according to an embodiment of the present invention.
  • FIG. 2 is a schematic structural diagram of a front end device according to an embodiment of the present invention.
  • FIG. 3 is a schematic structural diagram of a server according to an embodiment of the present invention.
  • FIG. 4 is a schematic flowchart of video enrichment according to an embodiment of the present invention.
  • FIG. 5 is a schematic flowchart of video enrichment according to an embodiment of the present invention.
  • FIG. 6 is a schematic structural diagram of a server according to an embodiment of the present invention.
  • FIG. 7 is a schematic structural diagram of a server according to an embodiment of the present invention.
  • FIG. 8 is a schematic structural diagram of a front end device according to an embodiment of the present disclosure.
  • FIG. 9 is a schematic structural diagram of a front end device according to an embodiment of the present invention.
  • the front-end device can be an Internet Protocol Camera (IPC), which can be used for capturing video data and extracting preset types of analysis objects in the video data.
  • IPC Internet Protocol Camera
  • the front-end device may also be an edge smart device, which may be used to acquire video data from the network camera, and extract a set of locations of preset positions of the analysis object in the video data, etc.
  • the front-end device can also be composed of a network camera and an edge smart device.
  • the network camera can be used to capture video data and transmit the video data to the edge smart device, and the edge smart device can be used to extract the preset type of analysis object in the video data.
  • the location points consist of a collection of locations and so on.
  • the server may be a cloud device or the like, and may be used to store video data and a set of locations of preset types of analysis objects in the video data, and may also be used for synthesizing the concentrated video data.
  • the headend device can include a receiver 210, a processor 220, a transmitter 230, a memory 240, and an image acquisition component 250.
  • the receiver 210 and the transmitter 230 may be respectively connected to the processor 220, the receiver 210 may be used to receive messages or data, the transmitter 230 may be used to send messages or data, and the memory 240 may be used to store target video data and the like, image acquisition.
  • Component 250 can be used to capture video data, and processor 220 can be the control center of the headend device, connecting various portions of the entire base station, such as receiver 210, transmitter 230, memory 240, etc., using various interfaces and lines.
  • the processor 220 may be configured to extract related processes of the background image and the location set.
  • the processor 220 may include one or more processing units.
  • the server may include a receiver 310, a processor 320, a transmitter 330, and a memory 340.
  • the receiver 310, the transmitter 330 may be respectively connected to the processor 320, the receiver 310 may be used to receive messages or data, the transmitter 330 may be used to send messages or data, and the memory 340 may be used to store presets included in the video data.
  • the type of analysis object is a set of locations consisting of location points in the video data, a playback progress point corresponding to each location point, etc.
  • the processor 320 may be a control center of the server, and connects various parts of the entire base station by using various interfaces and lines. Such as receiver 310, transmitter 330, and the like. In the embodiment of the present invention, the processor 320 may be used to synthesize related processing of the concentrated video.
  • the processor 320 may include one or more processing units.
  • the embodiment of the present invention provides a method for concentrating a video.
  • the embodiment of the present invention uses a front-end device as a network camera as an example.
  • the processing procedure of the method may include the following steps:
  • step 401 the front end device acquires target video data.
  • the front-end equipment installed in the public place generally continuously captures video data, and the front-end device can acquire a piece of video data in the continuously captured video data, which may be referred to as target video data, such as obtaining 9 in the morning. Point to 10:00 am video data, etc.
  • Step 402 The front-end device extracts, from the target video data, a first location set composed of a background image and a location point of the preset type of analysis object in the target video data.
  • the preset type can be preset by a technician and stored to a front end device such as a person, a car, an animal, or the like.
  • the front-end device may extract each frame image in the target video data, analyze pixel point data of each frame image, and determine a pre-included in each frame image based on a feature pre-stored corresponding to the analysis object of the preset type. Setting a position point of the analysis object of the type, determining a position point of the analysis object of the preset type to form a first position set, and storing, in the first position set, a correspondence relationship between the analysis object and the position point, and each position point The order in which the target video data is in. And the front-end device can analyze the pixel point data in each frame image, determine the background image in each frame image, and if it is determined that the background images in the continuous multi-frame image are the same, only one background image can be stored.
  • the location point mentioned above may be a central location point of the analysis object, or may be a plurality of location points formed by the edge of the analysis object, which is not limited in the embodiment of the present invention.
  • the preset type of analysis object mentioned above may be an analysis object of only a preset type of motion, and an analysis object of a static preset type may be used as a part of the background image.
  • the front-end device may analyze pixel point data of each frame image, and when detecting that the background image changes, store a background image, for example, the target video data is a video of a certain street intersection.
  • the target video data is the video data of a certain street, in the video data 10 minutes
  • the roadside has a table
  • Step 403 The front end device sends the first location set and the background image to the server.
  • the first location set and the background image may be sent to the server.
  • Step 404 The server receives and stores a first location set consisting of a background image extracted by the front-end device and a location point of the preset type of analysis object in the target video data.
  • the server when the server receives the first location set and the background image sent by the front-end device, the identifier of the target video data may be stored corresponding to the first location set and the background image.
  • Step 405 When the server receives the enrichment request of the target video data sent by the terminal, synthesizing the concentrated video data corresponding to the target video data based on the first location set, the image of the analysis object of the preset type in the target video data, and the background image.
  • the image of the analysis object of the preset type may be an image captured in the target video data according to the outer edge of the analysis object, or may be an image captured in the target video data according to the smallest rectangle formed by the outer edge of the analysis object.
  • the video player installed in the terminal can be opened, the identifier of the target video is found, and then the corresponding play button is clicked, and the terminal detects the click of the play button.
  • the server may search for the first location set and the background image corresponding to the stored target video data, and then the server may determine each of the two based on the location point of the analysis object included in the first location set.
  • the trajectory similarity refers to the trajectory composed of each position point corresponding to the analysis object
  • the preset concentrating rate and the trajectory of each two analysis objects in the target video data is similar.
  • determining an analysis object included in each frame image of the concentrated video data corresponding to the target video data and then attaching the image of the analysis object included in each frame image to the background image according to the corresponding position, and then pasting
  • the background image of the foreground image is video-encoded to obtain concentrated video data corresponding to the target video data.
  • the method for determining an analysis object included in each frame image in the concentrated video data corresponding to the target video data may be: the server may first determine a background image corresponding to the first frame image in the concentrated video data (generally Determining, as the background image corresponding to the first frame image in the concentrated video data, the background image corresponding to the first frame image in the target video data, and then selecting the analysis included in the first frame image in the target video data in the first location set The position point of the object is selected, and then the analysis object with the lowest similarity to the analysis object trajectory to which the position point belongs is selected, and then the analysis object with the lowest trajectory similarity with the selected first analysis object is selected, and the selection is sequentially performed according to this method.
  • the analysis object included in the second frame image of the concentrated video data is selected, and the analysis object selected in the previous frame image is used as the analysis object in the second frame image, if there is a spare position in the background image corresponding to the second frame image
  • the analysis object having the lowest similarity with the analysis target trajectory included in the second frame image may be selected until there is no vacant position in the second frame image, so that the analysis object included in each frame image in the condensed video data may be sequentially determined.
  • the background image when the background image is selected, if there is only one background image in the target video data, the background image may be directly used. If there are multiple background images in the target video data, the background image corresponds to a time identifier, which may be followed.
  • the playing time and concentration ratio of the target video data, the playing time of the concentrated video data corresponding to the target video data, the ratio of the playing time of the target video data to the playing time of the concentrated video data is equal to the enrichment rate, and then the background image is used in the target video data.
  • the start time point and the end time point of the playback duration are calculated in proportion to the start time point and the end time point of the playback time of the background image in the concentrated video data.
  • the playback time of the target video data is 60 minutes, and the enrichment rate is 6
  • the playback time of the concentrated video data corresponding to the target video data is 10 minutes
  • the target video data has two background images, the first 30 minutes of the background image 1, and the last 30 minutes of the background image 2, then the background image is used for the first 5 minutes of the concentrated video data. 1, use background image 2 after 5 minutes.
  • the user can also select the concentration rate by himself.
  • the user can open the video player installed in the terminal, find the identifier of the target video, and then click the corresponding play button, and the terminal will detect the play button.
  • the click command displays the enrichment rate option
  • the user can select the enrichment rate, and then click the confirmation button
  • the terminal sends a concentration request of the target video to the server, and the enrichment rate is also carried in the enrichment request, which is used when the server performs the synthesis of the concentrated video data.
  • the received enrichment rate, the remaining processing is the same as the previous description, and will not be described here.
  • Manner 1 The front-end device intercepts an image of a preset type of analysis object from the target video data, and sends an image of the analysis object of a preset type to the server.
  • the server receives and stores an image of a preset type of analysis object.
  • the front-end device may identify pixel points included in each frame image of the target video data, intercept an image of the analysis object according to an outer edge of the analysis object in each frame image including the analysis object, or include each of the analysis objects An image of the analysis object is intercepted in a frame image according to a minimum rectangle formed by the outer edge of the analysis object, and then an image of the analysis object of a preset type is transmitted to the server.
  • the server may receive an image of the analysis object of a preset type and then store it corresponding to the identification of the target video data.
  • Method 2 The server intercepts the image of the analysis object of the preset type before performing the concentrated video synthesis, and the corresponding processing can be as follows:
  • the front-end device extracts, from the target video data, a playback progress point corresponding to each location point in the first location set; and sends a playback progress point and target video data corresponding to each location point to the server.
  • the server receives and stores the target video data sent by the front-end device, and receives and stores the playback progress point corresponding to each location point in the target video data of the preset type of the analysis object sent by the front-end device; based on the first location set and each The playback progress point corresponding to the location point intercepts the image of the analysis object of the preset type from the target video data.
  • the front-end device may also send the target video data to the server, and the server may store the target video data after receiving the target video data.
  • the front-end device may extract the corresponding playback progress point when extracting the location point of the preset type of the analysis object in the target video data in the target video data, so that the first location set is obtained.
  • Each location point in the picture corresponds to a playback progress point.
  • the server may receive a play progress point corresponding to each location point in the first location set, and then in the target video data, according to each location point in the first location set, and a play progress point corresponding to each location point, An image of a preset type of analysis object is intercepted in the target video data.
  • the image of the preset type of the analysis object may be an image captured in the target video data according to an outer edge of the analysis object, or may be an image captured in the target video data according to a minimum rectangle formed by an outer edge of the analysis object.
  • the server may further determine, by using a location point included in the first location set, a playback progress point corresponding to each location point, and a concentration ratio, each of the concentrated video data corresponding to the target video data.
  • the analysis image included in the frame image is then used to establish a decoding index of the analysis image included in each frame image, and the decoding index includes a key frame closest to each of the analysis objects in each frame image before the frame image of the target video data.
  • the server may use the decoding index to find the frame image in the target video data when synthesizing a certain frame image in the concentrated video data.
  • the key frame corresponding to the analyzed object starts decoding, and when decoding to the frame image to which the analysis object belongs, the image of the analysis object is intercepted therefrom, and the concentrated video data is synthesized.
  • the image of the analysis object is intercepted, it is not necessary to decode from the start time point of the target video data every time, so that the image of the analysis object can be acquired more quickly.
  • the target video data may be divided into multiple pieces of video data according to a pre-stored time window (eg, 10 minutes, etc.), and for each piece of video data, respectively, corresponding to each piece of video data is calculated. Concentrating the video data, and then combining the concentrated video data corresponding to each piece of video data into a piece of concentrated video data, that is, obtaining the concentrated video data corresponding to the target video data. In this way, each piece of video data can be separately processed to different threads, and the concentrated video data corresponding to each piece of video data can be obtained separately, without being performed in one process, thereby saving the time taken for concentrating the video data.
  • a pre-stored time window eg, 10 minutes, etc.
  • step 406 the server sends the concentrated video data to the terminal.
  • the concentrated video data may be sent to the terminal by using a streaming media, and after receiving the concentrated video data, the terminal may play the concentrated video data.
  • Another embodiment of the present application further provides a solution for processing the target video data, and then extracting the background image and the first location set.
  • the corresponding processing flow may be as follows:
  • Step 501 The front end device acquires target video data.
  • step 401 is exactly the same as the processing in step 401, and details are not described herein again.
  • Step 502 The front-end device performs reduced resolution processing on the target video data to obtain first video data, reduces frame rate processing on the target video data, and obtains second video data, and extracts preset type analysis from the first video data.
  • a first set of locations consisting of location points of the object in the target video data, and a background image is extracted from the second video data.
  • the target video data may be subjected to reduced resolution processing to obtain the first video data, such as the resolution of the target video data being 1080*720, and the resolution of the first video data.
  • the rate is 325*288, etc.
  • the target video data can also be reduced in frame rate processing to obtain second video data.
  • the frame rate of the target video data is 25 frames per second
  • the frame rate of the second video data can be 0.5 per second. Frames, etc.
  • the front-end device can analyze pixel point data of each frame image in the first video data, extract a first location set composed of position points of the preset type of analysis object in the target video data, and analyze the second video data.
  • the pixel point data of each frame image is extracted from the second video data, so that the pixel point of each frame image in the first video data is smaller than the pixel point of each frame image in the target video data.
  • the resolution and frame rate of the target video data are 1080*720 and 25 frames per second respectively, and the resolution and frame rate of the first video data are divided into 540*360, 25 frames per second, and the resolution of the second video data.
  • the frame rate is 1080*720 and 0.5 frames per second respectively. If the resolution is 352*288 and the frame rate is 25 frames per second as the reference complexity 1, the complexity of extracting the first position set and the background image in the prior art is as follows.
  • the first video data may also be video data after the frame rate is reduced, and the corresponding processing may be as follows: reducing the resolution and reducing the frame rate processing on the target video data to obtain the first video data.
  • the front-end device can reduce the resolution and reduce the frame rate of the target video data to obtain the first video data, such as the resolution of the target video data is 1080*720, and the frame rate is 25 frames per second, the first video.
  • the resolution of the data can be 325*288, and the frame rate can be 12 frames per second, so that when the position of the preset type of analysis object in the target video data is extracted, the resolution reduction process can be performed, and each frame can be reduced.
  • the data of the pixel points included in the image can be extracted to the position point of the analysis object more quickly, and the frame rate reduction processing is performed to reduce the number of frames included per second, which can reduce the analysis complexity.
  • the frame rate of the first video data is higher than the frame rate of the second video data.
  • the frame rate of the first video data is higher than the frame rate of the second video data, because the first video data is a location point of the extracted analysis object in the target video data, and if the frame rate is reduced too much, Some of the analysis objects are not recognized, and the second video data is the extracted background image.
  • the range of the front-end device is generally fixed, and the background image changes slowly, so the frame rate can be lowered.
  • Step 503 The front-end device extracts a play progress point corresponding to each location point in the first location set from the first video data, and extracts, from the target video data, a location point of the specific type of the analysis object in the target video data. a second set of locations, and extracting a play progress point corresponding to each of the second location sets, wherein the specific type includes at least one of the preset types; and corresponding to each of the second location sets a playback progress point, a second location set, a playback progress point and a first location set corresponding to each location point in the first location set, and in the second location set, determining a location point of the analysis object not included in the first location set A third set of locations is formed; the location points in the third set of locations are added to the first set of locations.
  • the specific type includes at least one of the preset types, such as a preset type of a person, a car, an animal, etc., and the specific type is a person.
  • the playback progress point corresponding to each location point may be extracted.
  • the front-end device may extract, from the target video data, a second set of locations consisting of location points of the specific type of analysis objects in the target video data, and a second set of locations of the specific types of analysis objects in the target video data.
  • the method of extracting the first set of locations is the same as that of the above.
  • each location point in the first location set, and a playback progress point corresponding to each location point, each location point in the second location set, and a playback progress point corresponding to each location point, in the second location set Determining a third location set consisting of location points of the analysis object not included in the first location set, and the location point of the analysis object not included is composed of three location points, wherein the playback progress point is the same but the location point is different a position point having a different playback progress point but the same position point, a playback progress point and a position point are different, and then adding the position point included in the third position set to the first position set, so that The specific type of analysis object to which the object is located is more complete, and the loss rate of the analysis object in the concentrated video data is reduced as much as possible.
  • Step 504 The front end device sends the first location set and the background image to the server.
  • Step 505 The server receives and stores a first location set consisting of a background image extracted by the front-end device and a location point of the preset type of analysis object in the target video data.
  • Step 506 When the server receives the enrichment request of the target video data sent by the terminal, synthesizing the concentrated video data corresponding to the target video data based on the first location set, the image of the analysis object of the preset type in the target video data, and the background image.
  • step 507 the server sends the concentrated video data to the terminal.
  • the processing steps of the steps 504 to 507 are the same as those of the previous steps 403 to 406, and are not described in detail in the embodiments of the present invention.
  • the server may directly use the stored first location set and the background image of the location points of the analysis object of the preset type in the target video data.
  • the concentrated video data is synthesized without extracting the background image and the first location set composed of the position points of the preset type of analysis objects in the target video data, thereby improving the efficiency of the terminal acquiring the concentrated video data.
  • FIG. 6 is a structural diagram of a server according to an embodiment of the present invention.
  • the device can be implemented as part or all of the server by software, hardware or a combination of both.
  • the server provided by the embodiment of the present invention may implement the process described in FIG. 4 and FIG. 5 of the embodiment of the present invention.
  • the server includes: a receiving module 610, a storage module 620, a synthesizing module 630, and a sending module 640, where:
  • the receiving module 610 is configured to receive and store a first location set formed by the background image extracted by the front-end device and the location point of the preset type of the analysis object in the target video data;
  • the storage module 620 is configured to store a first location set formed by the background image extracted by the front-end device and the location point of the preset type of analysis object in the target video data;
  • a synthesizing module 630 configured to: when receiving the enrichment request of the target video data sent by the terminal, based on the first location set, an image of the analysis object of the preset type in the target video data, and a background image, Synthesizing the concentrated video data corresponding to the target video data;
  • the sending module 640 is configured to send the concentrated video data to the terminal.
  • the receiving module 610 is further configured to:
  • the receiving module 610 is further configured to receive and store the target video data sent by the front-end device, and receive and store the preset type of analysis object sent by the front-end device at the target a playback progress point corresponding to each location point in the video data;
  • the server further includes:
  • the intercepting module 650 is configured to intercept an image of the preset type of analysis object from the target video data based on the first location set and a playback progress point corresponding to each of the location points.
  • receiving module 610 the storage module 620, the synthesizing module 630, the sending module 640, and the intercepting module 650 may be implemented by the processor 320, or the processor 320 may be implemented by using the transmitter 330, the receiver 310, and the memory 340.
  • the server may directly use the stored first location set and the background image of the location points of the analysis object of the preset type in the target video data.
  • the concentrated video data is synthesized without extracting the background image and the first location set composed of the position points of the preset type of analysis objects in the target video data, thereby improving the efficiency of the terminal acquiring the concentrated video data.
  • FIG. 8 is a structural diagram of a front end device according to an embodiment of the present invention.
  • the device can be implemented as part or all of the front end device by software, hardware or a combination of both.
  • the front-end device provided by the embodiment of the present invention may implement the process described in FIG. 4 and FIG. 5 of the embodiment of the present invention.
  • the server includes: an obtaining module 810, an extracting module 820, and a sending module 830, where:
  • An obtaining module 810 configured to acquire target video data
  • the extracting module 820 is configured to extract, from the target video data, a first location set composed of a background image and a location point of the preset type of the analysis object in the target video data;
  • the sending module 830 is configured to send the first location set and the background image to the server.
  • the front end device further includes:
  • the intercepting module 840 is configured to intercept, from the target video data, an image of the analysis object of the preset type
  • the sending module 830 is further configured to send an image of the preset type of analysis object to the server.
  • the extracting module 820 is further configured to: extract, from the target video data, a play progress point corresponding to each location point in the first location set;
  • the sending module 830 is further configured to send, to the server, a play progress point corresponding to each location point and the target video data.
  • the extraction module 820 is configured to:
  • the extraction module 820 is configured to:
  • the frame rate of the first video data is higher than the frame rate of the second video data.
  • the extracting module 820 is further configured to:
  • the specific type includes at least one of the preset types
  • the foregoing obtaining module 810, the extracting module 820, the sending module 830, and the intercepting module 840 may be implemented by the processor 220, or the processor 220 may be implemented by using the transmitter 230 and the receiver 210.
  • the server may directly use the stored first location set and the background image of the location points of the analysis object of the preset type in the target video data.
  • the concentrated video data is synthesized without extracting the background image and the first location set composed of the position points of the preset type of analysis objects in the target video data, thereby improving the efficiency of the terminal acquiring the concentrated video data.
  • the computer program product includes one or more computer instructions that, when loaded and executed on a server and a headend device, in whole or in part produce a process or function in accordance with an embodiment of the present invention.
  • the computer instructions can be stored in a computer readable storage medium or transferred from one computer readable storage medium to another computer readable storage medium, for example, the computer instructions can be from a website site, computer, server or data center Transmission to another website site, computer, server or data center via wired (eg coaxial cable, fiber optic, digital subscriber line) or wireless (eg infrared, wireless, microwave, etc.).
  • the computer readable storage medium can be any available media that can be accessed by a server and a front end device or a data storage device such as a server, data center, or the like that includes one or more available media.
  • the usable medium may be a magnetic medium (such as a floppy disk, a hard disk, a magnetic tape, etc.), or an optical medium (such as a digital video disk (DVD), etc.), or a semiconductor medium (such as a solid state hard disk or the like).
  • a magnetic medium such as a floppy disk, a hard disk, a magnetic tape, etc.
  • an optical medium such as a digital video disk (DVD), etc.
  • a semiconductor medium such as a solid state hard disk or the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Security & Cryptography (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本申请提供了一种视频浓缩的方法、装置和系统,属于计算机技术领域。该方法包括:接收并存储前端设备发送的在目标视频数据中提取的背景图像和预设类型的分析对象在所述目标视频数据中的位置点组成的第一位置集合;当接收到终端发送的所述目标视频数据的浓缩请求时,基于所述第一位置集合、所述目标视频数据中所述预设类型的分析对象的图像、背景图像,合成所述目标视频数据对应的浓缩视频数据;向所述终端发送所述浓缩视频数据。通过本申请,可以提高终端获取浓缩视频数据的效率。

Description

一种视频浓缩的方法、装置和系统
本申请要求于2017年5月12日提交中国专利局、申请号为201710334822.7、发明名称为“一种视频浓缩的方法、装置和系统”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及计算机技术领域,特别涉及一种视频浓缩的方法、装置和系统。
背景技术
城市公共场所一般安装有监控摄像头,昼夜不停的进行录像,并上传给服务器进行存储,当案件发生时,公安人员可以操作终端从服务器获取某个路口的监控摄像头在某个时间段内拍摄的视频数据进行播放,公安人员通过观看这些视频数据,从中寻找有用的信息。
为了节约公安人员浏览视频数据所用的时长,服务器将视频数据进行浓缩,视频的浓缩是在尽量保证视频中某些类型的分析对象(也可称作分析对象,如人、车、动物等)的信息完整的前提下,对这些类型的分析对象在时间上打乱重组,使视频时间缩短。现有技术中,公安人员想要看某个视频的浓缩视频,可以向服务器发送视频数据的浓缩请求,服务器接收到视频数据的获取请求后,可以提取背景图像、预设类型的分析对象在该视频数据中的位置信息,然后基于预设类型的分析对象的位置信息、背景图像,预设类型的分析对象的图像,合成该视频数据对应的浓缩视频数据,然后发送至终端进行播放。
由于服务器提取预设类型的分析对象的位置信息、背景图像所用的时长比较长,从而终端获取浓缩视频数据的效率较低。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种视频浓缩的方法、装置和系统。所述技术方案如下:
第一方面,提供了一种视频浓缩方法,该方法包括:
接收并存储前端设备发送的在目标视频数据中提取的背景图像和预设类型的分析对象在目标视频数据中的位置点组成的第一位置集合;
当接收到终端发送的目标视频数据的浓缩请求时,基于第一位置集合、目标视频数据中预设类型的分析对象的图像、背景图像,合成目标视频数据对应的浓缩视频数据;
向终端发送浓缩视频数据。
其中,预设类型可以由技术人员预设,并且存储至摄像端,如人、车、动物等。预设类型的分析对象的图像可以是按照分析对象的外边缘在目标视频数据中截取的图像,也可以是按照分析对象的外边缘形成的最小矩形在目标视频数据中截取的图像。
本发明实施例所示的方案,服务器对接收到的前端设备发送的目标视频数据对应的 背景图像和预设类型分析对象进行存储。当接收到终端发送的目标视频数据的浓缩请求时,可以基于第一位置集合、目标视频数据中预设类型的分析对象的图像、背景图像,合成目标视频数据对应的浓缩视频数据,将浓缩视频数据发送至终端,终端接收到浓缩视频数据后,可以进行播放。
在一种可能的实现方式中,该方法还包括:
接收并存储前端设备发送的目标视频数据中预设类型的分析对象的图像。
在一种可能的实现方式中,基于第一位置集合、目标视频数据中预设类型的分析对象的图像、背景图像,合成目标视频数据对应的浓缩视频数据之前,还包括:
接收并存储前端设备发送的目标视频数据,且接收并存储前端设备发送的预设类型的分析对象在目标视频数据中的每个位置点对应的播放进度点;
基于第一位置集合和每个位置点对应的播放进度点,从目标视频数据中截取预设类型的分析对象的图像。
本发明实施例所示的方案,服务器可以接收第一位置集合中每个位置点对应的播放进度点,然后在目标视频数据中,按照第一位置集合中每个位置点对应的播放进度点,确定出播放进度点对应的视频帧,然后使用位置点,从该视频帧中相应的位置处截取预设类型的分析对象的图像。
第二方面,提供了一种视频浓缩方法,该方法包括:
获取目标视频数据;
从目标视频数据中,提取背景图像和预设类型的分析对象在目标视频数据中的位置点组成的第一位置集合;
向服务器发送第一位置集合和背景图像。
本发明实施例所示的方案,前端设备可以进行持续的拍摄视频数据,获取持续拍摄的视频数据中的一段视频数据,该段视频数据在后续可以称为目标视频数据,如获取上午9点至上午10点的视频数据等。前端设备可以提取目标视频数据中的每一帧图像,分析每一帧图像的像素点数据,确定每一帧图像中包括的预设类型的分析对象的位置点,将确定出的预设类型的分析对象的位置点组成第一位置集合,在第一位置集合中存储有分析对象与位置点的对应关系,以及每个位置点在目标视频数据中的先后顺序。并且前端设备可以分析每一帧图像中像素点数据,确定每一帧图像中的背景图像,如果确定连续多帧图像中的背景图像相同,可以仅存储一张背景图像,然后向服务器发送第一位置集合和背景图像。
在一种可能的实现方式中,该方法还包括:
从目标视频数据中,截取预设类型的分析对象的图像;
向服务器发送预设类型的分析对象的图像。
本发明实施例所示的方案,前端设备在提取预设类型的分析对象在目标视频数据中的位置点时,还可以按照分析对象的外边缘在目标视频数据中截取图像,也可以按照分析对象的外边缘形成的最小矩形在目标视频数据中截取图像,然后向服务器发送预设类型的分析对象的图像。这样,可以节约服务器浓缩视频所用的时长。
在一种可能的实现方式中,该方法还包括:
从目标视频数据中,提取第一位置集合中的每个位置点对应的播放进度点;
向服务器发送每个位置点对应的播放进度点和目标视频数据。
本发明实施例所示的方案,前端设备在提取预设类型的分析对象在目标视频数据中的位置点时,还可以提取每个位置点对应的播放进度点,然后向服务器发送每个位置点对应的播放进度点和目标视频数据。
在一种可能的实现方式中,对目标视频数据进行降低分辨率处理,得到第一视频数据;
对目标视频数据进行降低帧率处理,得到第二视频数据;
从第一视频数据中,提取预设类型的分析对象在目标视频数据中的位置点组成的第一位置集合,并从第二视频数据中,提取背景图像。
本发明实施例所示的方案,前端设备可以将目标视频数据分别进行降低分辨率处理、降低帧率处理,分别得到第一视频数据与第二视频数据。然后从第一视频数据中,提取第一位置集合,从第二视频数据中,提取背景图像。这样,由于第一视频数据中每一帧图像的像素点比目标视频数据中每一帧图像的像素点少,在提取预设类型的分析对象的位置点时,速度会比较快,而且由于前端设备拍摄的范围一般是固定的,背景图像变化比较慢,可以使帧率降低,使每秒包括的帧数减少,进而使分析复杂度降低,从而可以更快的提取到背景图像。
在一种可能的实现方式中,对目标视频数据进行降低分辨率和降低帧率处理,得到第一视频数据。
本发明实施例所示的方案,前端设备还可以对目标视频数据进行降低分辨率和降低帧率处理,从第一视频数据中提取第一位置集合,这样,由于第一视频数据中每一帧图像的像素点比目标视频数据中每一帧图像的像素点少,而且帧率还比较低,从而可以缩短提取时长。
在一种可能的实现方式中,第一视频数据的帧率高于第二视频数据的帧率。
本发明实施例所示的方案,由于要在目标视频数据中找到每一帧图像包括的预设类型的分析对象,才能确定预设类型的分析对象的位置点,所以帧率要稍微高一点,而由于背景图像变化比较慢,帧率可以比提取位置点的视频数据的帧率低一点。
在一种可能的实现方式中,该方法还包括:
从第一视频数据中,提取第一位置集合中的每个位置点对应的播放进度点;
从目标视频数据中,提取特定类型的分析对象在目标视频数据中的位置点组成的第二位置集合,并提取第二位置集合中每个位置点对应的播放进度点,其中,特定类型包括预设类型中的至少一种类型;
基于第二位置集合中每个位置点对应的播放进度点、第二位置集合、第一位置集合中每个位置点对应的播放进度点和第一位置集合,在第二位置集合中,确定第一位置集合中不包括的分析对象的位置点组成的第三位置集合;
将第三位置集合中包括的位置点添加到第一位置集合中。
本发明实施例所示的方案,前端设备在第一视频数据中,提取预设类型分析对象在目标视频数据中的位置点组成的第一位置集合时,可以提取每个位置点对应的播放进度点。前端设备可以从目标视频数据中,提取特定类型的分析对象在目标视频数据中的位置点组成的第二位置集合。然后使用第一位置集合中每个位置点、以及每个位置点对应 的播放进度点、第二位置集合中每个位置点、以及每个位置点对应的播放进度点,在第二位置集合中,确定第一位置集合中不包括的分析对象的位置点组成的第三位置集合,不包括的分析对象的位置点由三种位置点组成,其中是播放进度点相同但是位置点不同的位置点、播放进度点不相同但是位置点相同的位置点、播放进度点与位置点都不相同的位置点,然后将第三位置集合中包括的位置点添加到第一位置集合中。
第二方面,提供了一种服务器,服务器包括处理器、存储器、发射器和接收器,处理器通过执行指令来实现上述第一方面所提供的视频浓缩的方法。
第三方面,提供了一种前端设备,前端设备包括处理器、发射器和接收器,处理器通过执行指令来实现上述第二方面所提供的视频浓缩的方法。
第四方面,提供了一种服务器,该服务器包括至少一个模块,该至少一个模块用于实现上述第一方面所提供的视频浓缩的方法。
第五方面,提供了一种前端设备,该前端设备包括至少一个模块,该至少一个模块用于实现上述第二方面所提供的视频浓缩的方法。
第六方面,提供了一种包含指令的计算机程序产品,当其在服务器上运行时,使得服务器执行上述第一方面所提供的视频浓缩的方法。
第七方面,提供了一种包含指令的计算机程序产品,当其在前端设备上运行时,使得前端设备执行上述第二方面所提供的视频浓缩的方法。
本发明实施例提供的技术方案带来的有益效果是:
基于上述处理,服务器在接收到终端发送的目标视频数据的浓缩请求后,可以直接使用存储的预设类型的分析对象在目标视频数据中的位置点组成的第一位置集合和背景图像,合成浓缩视频数据,而不需要提取背景图像和预设类型的分析对象在目标视频数据中的位置点组成的第一位置集合,从而可以提高终端获取浓缩视频数据的效率。
附图说明
图1是本发明实施例提供的一种视频浓缩的系统的结构示意图;
图2是本发明实施例提供的一种前端设备的结构示意图;
图3是本发明实施例提供的一种服务器的结构示意图;
图4是本发明实施例提供的一种视频浓缩的流程示意图;
图5是本发明实施例提供的一种视频浓缩的流程示意图;
图6是本发明实施例提供一种服务器的结构示意图;
图7是本发明实施例提供一种服务器的结构示意图;
图8是本发明实施例提供的一种前端设备的结构示意图;
图9是本发明实施例提供的一种前端设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明实施例可以由前端设备和服务器共同实现,如图1所示,前端设备可以是网络摄像机(Internet Protocol Camera,IPC),可以用于拍摄视频数据、提取预设类型的分 析对象在视频数据中的位置点组成的位置集合等,前端设备也可以是边缘智能设备,可以用于从网络摄像机中获取视频数据,并提取预设类型的分析对象在视频数据中的位置点组成的位置集合等,前端设备还可以由网络摄像机和边缘智能设备组成,网络摄像机可以用于拍摄视频数据,并将视频数据传输至边缘智能设备,边缘智能设备可以用于提取预设类型的分析对象在视频数据中的位置点组成的位置集合等。服务器可以是云端设备等,可以用于存储视频数据和预设类型的分析对象在视频数据中的位置点组成的位置集合,还可以用于合成浓缩视频数据等。
如图2所示,前端设备可以包括接收器210、处理器220、发射器230、存储器240和图像采集部件250。接收器210、发射器230可以分别与处理器220连接,接收器210可以用于接收消息或数据,发射器230可以用于发送消息或数据,存储器240可以用于存储目标视频数据等,图像采集部件250可以用于拍摄视频数据,处理器220可以是前端设备的控制中心,利用各种接口和线路连接整个基站的各个部分,如接收器210、发射器230、存储器240等。在本发明实施例中,处理器220可以用于提取背景图像和位置集合的相关处理,可选的,处理器220可以包括一个或多个处理单元。
如图3所示,服务器可以包括接收器310、处理器320、发射器330和存储器340。接收器310、发射器330可以分别与处理器320连接,接收器310可以用于接收消息或数据,发射器330可以用于发送消息或数据,存储器340可以用于存储视频数据中包括的预设类型的分析对象在视频数据中的位置点组成的位置集合、每个位置点对应的播放进度点等,处理器320可以是服务器的控制中心,利用各种接口和线路连接整个基站的各个部分,如接收器310、发射器330等。在本发明实施例中,处理器320可以用于合成浓缩视频的相关处理,可选的,处理器320可以包括一个或多个处理单元。
如图4所示,本发明实施例提供了一种视频浓缩的方法,本发明实施例以前端设备为网络摄像机为例进行说明,该方法的处理流程可以包括如下的步骤:
步骤401,前端设备获取目标视频数据。
在实施中,公共场所中安装的前端设备一般会持续拍摄视频数据,前端设备可以获取持续拍摄的视频数据中的一段视频数据,该段视频数据在后续可以称为目标视频数据,如获取上午9点至上午10点的视频数据等。
步骤402,前端设备从目标视频数据中,提取背景图像和预设类型的分析对象在目标视频数据中的位置点组成的第一位置集合。
其中,预设类型可以由技术人员预设,并且存储至前端设备,如人、车、动物等。
在实施中,前端设备可以提取目标视频数据中的每一帧图像,分析每一帧图像的像素点数据,基于对应预设类型的分析对象预先存储的特征,确定每一帧图像中包括的预设类型的分析对象的位置点,将确定出的预设类型的分析对象的位置点组成第一位置集合,在第一位置集合中存储有分析对象与位置点的对应关系,以及每个位置点在目标视频数据中的先后顺序。并且前端设备可以分析每一帧图像中像素点数据,确定每一帧图像中的背景图像,如果确定连续多帧图像中的背景图像相同,可以仅存储一张背景图像。
需要说明的是,上述提到的位置点可以是分析对象的中心位置点,也可以是分析对象的边缘构成的多个位置点,本发明实施例不做限定。另外上述提到的预设类型的分析 对象可以是仅指运动的预设类型的分析对象,静止的预设类型的分析对象可以作为背景图像中的一部分。
可选的,在提取背景图像时,前端设备可以分析每一帧图像的像素点数据,当检测到背景图像发生变化时,存储一张背景图像,例如,目标视频数据为某个街口的视频数据,从开始到结束背景图像一直没有发生变化,则可以仅存储一张背景图像,目标视频数据为某个街口的视频数据,在视频数据中10分钟处,路边多了一张桌子,则可以存储一张没有桌子的背景图像,记录时间为0分钟,还可以存储一张有桌子的背景图像,记录时间为10分钟。
步骤403,前端设备向服务器发送第一位置集合和背景图像。
在实施中,前端设备确定第一位置集合和背景图像后,可以向服务器发送第一位置集合和背景图像。
步骤404,服务器接收并存储前端设备发送的在目标视频数据中提取的背景图像和预设类型的分析对象在目标视频数据中的位置点组成的第一位置集合。
在实施中,服务器接收到前端设备发送的第一位置集合和背景图像时,可以将目标视频数据的标识与第一位置集合、背景图像对应存储。
步骤405,当服务器接收到终端发送的目标视频数据的浓缩请求时,基于第一位置集合、目标视频数据中预设类型的分析对象的图像、背景图像,合成目标视频数据对应的浓缩视频数据。
其中,预设类型的分析对象的图像可以是按照分析对象的外边缘在目标视频数据中截取的图像,也可以是按照分析对象的外边缘形成的最小矩形在目标视频数据中截取的图像。
在实施中,用户(如公安人员等)想要观看目标视频数据时,可以打开终端安装的视频播放器,找到目标视频的标识,然后点击对应的播放按键,终端则会检测到播放按键的点击指令,向服务器发送目标视频的浓缩请求。服务器接收到目标视频数据的浓缩请求时,可以查找存储的目标视频数据对应的第一位置集合和背景图像,然后服务器可以基于第一位置集合中包括的分析对象的位置点,确定出每两个分析对象在目标视频数据中的轨迹相似度(轨迹相似度指分析对象对应的每个位置点组成的轨迹),然后使用预设的浓缩率、每两个分析对象在目标视频数据中的轨迹相似度,确定目标视频数据对应的浓缩视频数据中的每一帧图像中包括的分析对象,然后将每一帧图像中包括的分析对象的图像按照对应的位置点贴到背景图像中,然后对贴有前景图像的背景图像进行视频编码,得到目标视频数据对应的浓缩视频数据。
需要说明的是,上述确定目标视频数据对应的浓缩视频数据中的每一帧图像中包括的分析对象的方法可以是:服务器首先可以确定浓缩视频数据中第一帧图像对应的背景图像(一般可以将目标视频数据中第一帧图像对应的背景图像确定为浓缩视频数据中第一帧图像对应的背景图像),然后可以在第一位置集合选取目标视频数据中的第一帧图像中包括的分析对象的位置点,接下来选取与这些位置点所属的分析对象轨迹相似度最低的分析对象,接下来选取与选取的前两个分析对象的轨迹相似度最低的分析对象,按照此方法依次进行选取,直到浓缩视频数据中第一帧图像对应的背景图像中没有空余的位置。然后选取浓缩视频数据的第二帧图像中包括的分析对象,将前面一帧图像中选 取的分析对象作为第二帧图像中的分析对象,如果第二帧图像对应的背景图像中还有空余位置,可以再选取与第二帧图像中包括的分析对象轨迹相似度最低的分析对象,直到第二帧图像中没有空余的位置,这样可以依次确定浓缩视频数据中的每一帧图像包括的分析对象。
在上述确定目标视频数据对应的浓缩视频数据中的每一帧图像中包括的分析对象的方法中,如果两个分析对象的轨迹相似度特别高,如达到了百分之九十,则可以使一个分析对象紧跟着另一个分析对象出现。
另外,上述处理中,还需要考虑目标视频数据的浓缩率,浓缩率越高,目标视频数据对应的浓缩视频数据中的分析对象越密集,浓缩率越低,目标视频数据对应的浓缩视频数据中的分析对象越稀疏。
可选的,在选取背景图像时,如果目标视频数据中仅有一张背景图像,直接可以重复使用该背景图像,如果目标视频数据中有多张背景图像,背景图像都对应有时间标识,可以按照目标视频数据的播放时长与浓缩率,目标视频数据对应的浓缩视频数据的播放时长,一般目标视频数据的播放时长与浓缩视频数据的播放时长的比值等于浓缩率,然后使用背景图像在目标视频数据的播放时长的开始时间点与结束时间点,按比例计算出背景图像在浓缩视频数据的播放时长的开始时间点与结束时间点,例如,目标视频数据的播放时长为60分钟,浓缩率为6,目标视频数据对应的浓缩视频数据的播放时长为10分钟,目标视频数据有两张背景图像,前30分钟背景图像1,后30分钟背景图像2,那么浓缩视频数据中前5分钟使用背景图像1,后5分钟使用背景图像2。
可选的,用户还可以自己选择浓缩率,用户想要观看目标视频数据时,可以打开终端安装的视频播放器,找到目标视频的标识,然后点击对应的播放按键,终端则会检测到播放按键的点击指令,显示浓缩率选项,用户可以选择浓缩率,然后点击确认按键,终端向服务器发送目标视频的浓缩请求,在该浓缩请求中还携带有浓缩率,在服务器进行浓缩视频数据合成时使用接收到的浓缩率,剩下处理过程与前面的描述相同,此处不再赘述。
可选的,上述提到的目标视频数据中预设类型的分析对象的图像有两种获取方法:
方式一:前端设备从目标视频数据中,截取预设类型的分析对象的图像;向服务器发送预设类型的分析对象的图像。服务器接收并存储预设类型的分析对象的图像。
在实施中,前端设备可以识别目标视频数据中每一帧图像包括的像素点,在包括分析对象的每一帧图像中按照分析对象的外边缘截取分析对象的图像,或者在包括分析对象的每一帧图像中按照分析对象的外边缘形成的最小矩形截取分析对象的图像,然后向服务器发送预设类型的分析对象的图像。服务器可以接收预设类型的分析对象的图像,然后与目标视频数据的标识对应存储。
方式二:服务器在进行浓缩视频合成之前,截取预设类型的分析对象的图像,相应的处理可以如下:
前端设备从目标视频数据中,提取第一位置集合中的每个位置点对应的播放进度点;向服务器发送每个位置点对应的播放进度点和目标视频数据。服务器接收并存储前端设备发送的目标视频数据,且接收并存储前端设备发送的预设类型的分析对象在目标视频数据中的每个位置点对应的播放进度点;基于第一位置集合和每个位置点对应的播 放进度点,从目标视频数据中截取预设类型的分析对象的图像。
在实施中,前端设备获取到拍摄的目标视频数据后,还可以向服务器发送目标视频数据,服务器接收到目标视频数据后,可以进行存储。
前端设备在获取到拍摄的目标视频数据后,在目标视频数据中,提取预设类型的分析对象在目标视频数据中的位置点时,还可以提取出对应的播放进度点,这样第一位置集合中的每个位置点都对应有播放进度点。服务器可以接收第一位置集合中每个位置点对应的播放进度点,然后可以在目标视频数据中,按照第一位置集合中的每个位置点,以及每个位置点对应的播放进度点,从目标视频数据中截取预设类型的分析对象的图像。
可选的,预设类型的分析对象的图像可以是按照分析对象的外边缘在目标视频数据中截取的图像,也可以是按照分析对象的外边缘形成的最小矩形在目标视频数据中截取的图像。
可选的,在步骤405中,服务器还可以使用第一位置集合中包括的位置点、每个位置点对应的播放进度点,以及浓缩率,确定出目标视频数据对应的浓缩视频数据中每一帧图像包括的分析图像,然后建立每一帧图像包括的分析图像的解码索引,该解码索引中包括每一帧图像中每个分析对象在目标视频数据中所属帧图像之前最近的一个关键帧,这样,如果服务器没有预先存储预设类型的分析对象在目标视频数据中的图像,服务器在合成浓缩视频数据中的某一帧图像时,可以使用解码索引在目标视频数据中找到该帧图像中所包括的分析对象对应的关键帧开始解码,解码到该分析对象所属的帧图像时,从中截取该分析对象的图像,合成浓缩视频数据。这样,截取分析对象的图像时,不需要每次都从目标视频数据的开始时间点进行解码,从而可以更快的获取到分析对象的图像。
另外,如果目标视频数据的播放时长比较长,可以将目标视频数据按照预先存储的时间窗口(如10分钟等)分为多段视频数据,对于每段视频数据,分别计算出每段视频数据对应的浓缩视频数据,再将每段视频数据对应的浓缩视频数据合成一段浓缩视频数据,即得到目标视频数据对应的浓缩视频数据。这样,可以将每段视频数据分别交给不同的线程处理,分别得到每段视频数据对应的浓缩视频数据,而不需要在一个进程中进行,从而可以节约浓缩视频数据所用的时长。
步骤406,服务器向终端发送浓缩视频数据。
在实施中,服务器得到浓缩视频数据后,可以以流媒体方式向终端发送该浓缩视频数据,终端接收到浓缩视频数据后,可以播放该浓缩视频数据。
本申请另一实施例中还提供了对目标视频数据进行处理后,再提取背景图像和第一位置集合的方案,如图5所示,相应的处理流程可以如下:
步骤501,前端设备获取目标视频数据。
在实施中,该步骤与步骤401中的处理完全相同,此处不再赘述。
步骤502,前端设备对目标视频数据进行降低分辨率处理,得到第一视频数据;对目标视频数据进行降低帧率处理,得到第二视频数据;从第一视频数据中,提取预设类型的分析对象在目标视频数据中的位置点组成的第一位置集合,并从第二视频数据中,提取背景图像。
在实施中,前端设备获取到拍摄的目标视频数据后,可以对目标视频数据进行降低分辨率处理,得到第一视频数据,如目标视频数据的分辨率为1080*720,第一视频数据的分辨率为325*288等,还可以对目标视频数据进行降低帧率处理,得到第二视频数据,如目标视频数据的帧率为每秒25帧,第二视频数据的帧率可以为每秒0.5帧等。
然后前端设备可以分析第一视频数据中的每一帧图像的像素点数据,提取预设类型的分析对象在目标视频数据中的位置点组成的第一位置集合,并且可以分析第二视频数据中的每一帧图像的像素点数据,从第二视频数据中,提取背景图像,这样,由于第一视频数据中每一帧图像的像素点比目标视频数据中每一帧图像的像素点少,在提取预设类型的分析对象的位置点时,速度会比较快,而且由于前端设备拍摄的范围一般是固定的,背景图像变化比较慢,可以使帧率降低,使每秒包括的帧数减少,进而使分析复杂度降低,从而可以更快的提取到背景图像。例如,目标视频数据的分辨率、帧率分别为1080*720、每秒25帧,第一视频数据的分辨率、帧率分为540*360,每秒25帧,第二视频数据的分辨率、帧率分别为1080*720、每秒0.5帧如果按照分辨率为352*288,帧率为每秒25帧为基准复杂度1,现有技术中的提取第一位置集合和背景图像的复杂度为:1080*720/352*288=7.67,从第一视频数据中提取第一位置集合的复杂度为:540*360/352*288=1.91,从第二视频数据中提取背景图像的复杂度为:1080*720*0.5/352*288*25=0.153,可见本申请中总复杂度为:1.91+0.153=2.063,相对现有技术的计算复杂度比较小。
可选的,第一视频数据还可以是降低帧率后的视频数据,相应的处理可以如下:对目标视频数据进行降低分辨率和降低帧率处理,得到第一视频数据。
在实施中,前端设备可以对目标视频数据进行降低分辨率和降低帧率处理,得到第一视频数据,如目标视频数据的分辨率为1080*720,帧率为每秒25帧,第一视频数据的分辨率可以为325*288,帧率可以为每秒12帧,这样,在提取预设类型的分析对象在目标视频数据中的位置点时,进行降低分辨率处理,可以减少每一帧图像中包括的像素点的数据,可以更快的提取到分析对象的位置点,而且进行降低帧率处理,使每秒包括的帧数减少,可以降低分析复杂度。
可选的,第一视频数据的帧率高于第二视频数据的帧率。
在实施中,第一视频数据的帧率要高于第二视频数据的帧率,这是由于第一视频数据是提取分析对象在目标视频数据中的位置点,如果帧率降低太多,会使有些分析对象识别不到,而第二视频数据是提取背景图像,前端设备拍摄的范围一般是固定的,背景图像变化比较慢,所以帧率可以降的比较低。
步骤503,前端设备从第一视频数据中,提取第一位置集合中的每个位置点对应的播放进度点;从目标视频数据中,提取特定类型的分析对象在目标视频数据中的位置点组成的第二位置集合,并提取第二位置集合中每个位置点对应的播放进度点,其中,特定类型包括预设类型中的至少一种类型;基于第二位置集合中每个位置点对应的播放进度点、第二位置集合、第一位置集合中每个位置点对应的播放进度点和第一位置集合,在第二位置集合中,确定第一位置集合中不包括的分析对象的位置点组成的第三位置集合;将第三位置集合中的位置点添加到第一位置集合中。
其中,特定类型包括预设类型中的至少一种类型,如预设类型为人、车、动物等, 特定类型为人等。
在实施中,前端设备在第一视频数据中,提取预设类型分析对象在目标视频数据中的位置点组成的第一位置集合时,可以提取每个位置点对应的播放进度点。前端设备可以从目标视频数据中,提取特定类型的分析对象在目标视频数据中的位置点组成的第二位置集合,特定类型的分析对象在目标视频数据中的位置点组成的第二位置集合与前面提取第一位置集合的方法相同此处不再赘述。然后使用第一位置集合中每个位置点、以及每个位置点对应的播放进度点、第二位置集合中每个位置点、以及每个位置点对应的播放进度点,在第二位置集合中,确定第一位置集合中不包括的分析对象的位置点组成的第三位置集合,不包括的分析对象的位置点由三种位置点组成,其中是播放进度点相同但是位置点不同的位置点、播放进度点不相同但是位置点相同的位置点、播放进度点与位置点都不相同的位置点,然后将第三位置集合中包括的位置点添加到第一位置集合中,这样,可以使得到的特定类型的分析对象的位置点更全,尽可能的降低浓缩视频数据中分析对象的丢失率。
步骤504,前端设备向服务器发送第一位置集合和背景图像。
步骤505,服务器接收并存储前端设备发送的在目标视频数据中提取的背景图像和预设类型的分析对象在目标视频数据中的位置点组成的第一位置集合。
步骤506,当服务器接收到终端发送的目标视频数据的浓缩请求时,基于第一位置集合、目标视频数据中预设类型的分析对象的图像、背景图像,合成目标视频数据对应的浓缩视频数据。
步骤507,服务器向终端发送浓缩视频数据。
步骤504至步骤507的处理步骤分别与前面步骤403至406的处理步骤完全相同,本发明实施例不再赘述。
本发明实施例中,服务器在接收到终端发送的目标视频数据的浓缩请求后,可以直接使用存储的预设类型的分析对象在目标视频数据中的位置点组成的第一位置集合和背景图像,合成浓缩视频数据,而不需要提取背景图像和预设类型的分析对象在目标视频数据中的位置点组成的第一位置集合,从而可以提高终端获取浓缩视频数据的效率。
图6是本发明实施例提供的服务器的结构图。该装置可以通过软件、硬件或者两者的结合实现成为服务器中的部分或者全部。本发明实施例提供的服务器可以实现本发明实施例图4、图5所述的流程,该服务器包括:接收模块610、存储模块620、合成模块630和发送模块640,其中:
接收模块610,用于接收并存储前端设备发送的在目标视频数据中提取的背景图像和预设类型的分析对象在所述目标视频数据中的位置点组成的第一位置集合;
存储模块620,用于存储前端设备发送的在目标视频数据中提取的背景图像和预设类型的分析对象在所述目标视频数据中的位置点组成的第一位置集合;
合成模块630,用于当接收到终端发送的所述目标视频数据的浓缩请求时,基于所述第一位置集合、所述目标视频数据中所述预设类型的分析对象的图像、背景图像,合成所述目标视频数据对应的浓缩视频数据;
发送模块640,用于向所述终端发送所述浓缩视频数据。
可选的,所述接收模块610,还用于:
接收并存储所述前端设备发送的所述目标视频数据中所述预设类型的分析对象的图像。
可选的,所述接收模块610,还用于接收并存储所述前端设备发送的所述目标视频数据,且接收并存储所述前端设备发送的所述预设类型的分析对象在所述目标视频数据中的每个位置点对应的播放进度点;
如图7所示,所述服务器还包括:
所述截取模块650,用于基于所述第一位置集合和所述每个位置点对应的播放进度点,从所述目标视频数据中截取所述预设类型的分析对象的图像。
需要说明的是,上述接收模块610、存储模块620、合成模块630、发送模块640和截取模块650可以由处理器320实现,或者处理器320配合发射器330、接收器310、存储器340来实现。
本发明实施例中,服务器在接收到终端发送的目标视频数据的浓缩请求后,可以直接使用存储的预设类型的分析对象在目标视频数据中的位置点组成的第一位置集合和背景图像,合成浓缩视频数据,而不需要提取背景图像和预设类型的分析对象在目标视频数据中的位置点组成的第一位置集合,从而可以提高终端获取浓缩视频数据的效率。
图8是本发明实施例提供的前端设备的结构图。该装置可以通过软件、硬件或者两者的结合实现成为前端设备中的部分或者全部。本发明实施例提供的前端设备可以实现本发明实施例图4、图5所述的流程,该服务器包括:获取模块810、提取模块820和发送模块830,其中:
获取模块810,用于获取目标视频数据;
提取模块820,用于从所述目标视频数据中,提取背景图像和预设类型的分析对象在所述目标视频数据中的位置点组成的第一位置集合;
发送模块830,用于向服务器发送所述第一位置集合和背景图像。
可选的,如图9所示,所述前端设备还包括:
截取模块840,用于从所述目标视频数据中,截取所述预设类型的分析对象的图像;
所述发送模块830,还用于向所述服务器发送所述预设类型的分析对象的图像。
可选的,所述提取模块820,还用于从所述目标视频数据中,提取所述第一位置集合中的每个位置点对应的播放进度点;
所述发送模块830,还用于向所述服务器发送所述每个位置点对应的播放进度点和所述目标视频数据。
可选的,所述提取模块820,用于:
对所述目标视频数据进行降低分辨率处理,得到第一视频数据;
对所述目标视频数据进行降低帧率处理,得到第二视频数据;
从所述第一视频数据中,提取预设类型的分析对象在所述目标视频数据中的位置点组成的第一位置集合,并从所述第二视频数据中,提取背景图像。
可选的,所述提取模块820,用于:
对所述目标视频数据进行降低分辨率和降低帧率处理,得到第一视频数据。
可选的,所述第一视频数据的帧率高于所述第二视频数据的帧率。
可选的,所述提取模块820,还用于:
从所述第一视频数据中,提取所述第一位置集合中的每个位置点对应的播放进度点;
从所述目标视频数据中,提取特定类型的分析对象在所述目标视频数据中的位置点组成的第二位置集合,并提取所述第二位置集合中每个位置点对应的播放进度点,其中,所述特定类型包括所述预设类型中的至少一种类型;
基于所述第二位置集合中每个位置点对应的播放进度点、所述第二位置集合、所述第一位置集合中每个位置点对应的播放进度点和所述第一位置集合,在所述第二位置集合中,确定所述第一位置集合中不包括的分析对象的位置点组成的第三位置集合;
将所述第三位置集合中包括的位置点添加到所述第一位置集合中。
需要说明的是,上述获取模块810、提取模块820、发送模块830和截取模块840可以由处理器220实现,或者处理器220配合发射器230、接收器210来实现。
本发明实施例中,服务器在接收到终端发送的目标视频数据的浓缩请求后,可以直接使用存储的预设类型的分析对象在目标视频数据中的位置点组成的第一位置集合和背景图像,合成浓缩视频数据,而不需要提取背景图像和预设类型的分析对象在目标视频数据中的位置点组成的第一位置集合,从而可以提高终端获取浓缩视频数据的效率。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现,当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令,在服务器和前端设备上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴光缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是服务器和前端设备能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(如软盘、硬盘和磁带等),也可以是光介质(如数字视盘(Digital Video Disk,DVD)等),或者半导体介质(如固态硬盘等)。
以上所述仅为本申请的一个实施例,并不用以限制本申请,凡在本申请的原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (33)

  1. 一种视频浓缩的方法,其特征在于,所述方法包括:
    接收并存储前端设备发送的在目标视频数据中提取的背景图像和预设类型的分析对象在所述目标视频数据中的位置点组成的第一位置集合;
    当接收到终端发送的所述目标视频数据的浓缩请求时,基于所述第一位置集合、所述目标视频数据中所述预设类型的分析对象的图像、背景图像,合成所述目标视频数据对应的浓缩视频数据;
    向所述终端发送所述浓缩视频数据。
  2. 根据权利要求1所述的方法,其特征在于,所述方法还包括:
    接收并存储所述前端设备发送的所述目标视频数据中所述预设类型的分析对象的图像。
  3. 根据权利要求1所述的方法,其特征在于,所述基于所述第一位置集合、所述目标视频数据中所述预设类型的分析对象的图像、背景图像,合成所述目标视频数据对应的浓缩视频数据之前,还包括:
    接收并存储所述前端设备发送的所述目标视频数据,且接收并存储所述前端设备发送的所述预设类型的分析对象在所述目标视频数据中的每个位置点对应的播放进度点;
    基于所述第一位置集合和所述每个位置点对应的播放进度点,从所述目标视频数据中截取所述预设类型的分析对象的图像。
  4. 一种视频浓缩的方法,其特征在于,所述方法包括:
    获取目标视频数据;
    从所述目标视频数据中,提取背景图像和预设类型的分析对象在所述目标视频数据中的位置点组成的第一位置集合;
    向服务器发送所述第一位置集合和背景图像。
  5. 根据权利要求4所述的方法,其特征在于,所述方法还包括:
    从所述目标视频数据中,截取所述预设类型的分析对象的图像;
    向所述服务器发送所述预设类型的分析对象的图像。
  6. 根据权利要求4或5所述的方法,其特征在于,所述方法还包括:
    从所述目标视频数据中,提取所述第一位置集合中的每个位置点对应的播放进度点;
    向所述服务器发送所述每个位置点对应的播放进度点和所述目标视频数据。
  7. 根据权利要求4-6任一权利要求所述的方法,其特征在于,所述从所述目标视频数据中,提取背景图像和预设类型的分析对象在所述目标视频数据中的位置点组成的第一位置集合,包括:
    对所述目标视频数据进行降低分辨率处理,得到第一视频数据;
    对所述目标视频数据进行降低帧率处理,得到第二视频数据;
    从所述第一视频数据中,提取预设类型的分析对象在所述目标视频数据中的位置点组成的所述第一位置集合,并从所述第二视频数据中,提取所述背景图像。
  8. 根据权利要求7所述的方法,其特征在于,所述对所述目标视频数据进行降低分辨率处理,得到第一视频数据,包括:
    对所述目标视频数据进行降低分辨率和降低帧率处理,得到所述第一视频数据。
  9. 根据权利要求8所述的方法,其特征在于,所述第一视频数据的帧率高于所述第二视频数据的帧率。
  10. 根据权利要求7所述的方法,其特征在于,所述向服务器发送所述第一位置集合和背景图像之前,所述方法还包括:
    从所述第一视频数据中,提取所述第一位置集合中的每个位置点对应的播放进度点;
    从所述目标视频数据中,提取特定类型的分析对象在所述目标视频数据中的位置点组成的第二位置集合,并提取所述第二位置集合中每个位置点对应的播放进度点,其中,所述特定类型包括所述预设类型中的至少一种类型;
    基于所述第二位置集合中每个位置点对应的播放进度点、所述第二位置集合、所述第一位置集合中每个位置点对应的播放进度点和所述第一位置集合,在所述第二位置集合中,确定所述第一位置集合中不包括的分析对象的位置点组成的第三位置集合;
    将所述第三位置集合中包括的位置点添加到所述第一位置集合中。
  11. 一种服务器,其特征在于,所述服务器包括:
    接收器,用于接收前端设备发送的在目标视频数据中提取的背景图像和预设类型的分析对象在所述目标视频数据中的位置点组成的第一位置集合;
    存储器,用于存储所述前端设备发送的在目标视频数据中提取的背景图像和预设类型的分析对象在所述目标视频数据中的位置点组成的第一位置集合;
    处理器,用于当接收到终端发送的所述目标视频数据的浓缩请求时,基于所述第一位置集合、所述目标视频数据中所述预设类型的分析对象的图像、背景图像,合成所述目标视频数据对应的浓缩视频数据;
    发送器,用于向所述终端发送所述浓缩视频数据。
  12. 根据权利要求11所述的服务器,其特征在于,所述接收器,还用于:
    接收并存储所述前端设备发送的所述目标视频数据中所述预设类型的分析对象的图像。
  13. 根据权利要求11所述的服务器,其特征在于,所述接收器,还用于:
    接收并存储所述前端设备发送的所述目标视频数据,且接收并存储所述前端设备发送的所述预设类型的分析对象在所述目标视频数据中的每个位置点对应的播放进度点;
    所述处理器,还用于基于所述第一位置集合和所述每个位置点对应的播放进度点,从所述目标视频数据中截取所述预设类型的分析对象的图像。
  14. 一种前端设备,其特征在于,所述前端设备包括:
    处理器,用于获取目标视频数据,并从所述目标视频数据中,提取背景图像和预设类型的分析对象在所述目标视频数据中的位置点组成的第一位置集合;
    发射器,用于向服务器发送所述第一位置集合和背景图像。
  15. 根据权利要求14所述的前端设备,其特征在于,所述处理器,还用于从所述目标视频数据中,截取所述预设类型的分析对象的图像;
    所述发射器,还用于向所述服务器发送所述预设类型的分析对象的图像。
  16. 根据权利要求14或15所述的前端设备,其特征在于,所述处理器,还用于从所述目标视频数据中,提取所述第一位置集合中的每个位置点对应的播放进度点;
    所述发射器,还用于向所述服务器发送所述每个位置点对应的播放进度点和所述目标视频数据。
  17. 根据权利要求14-16任一权利要求所述的前端设备,其特征在于,所述处理器,用于:
    对所述目标视频数据进行降低分辨率处理,得到第一视频数据;
    对所述目标视频数据进行降低帧率处理,得到第二视频数据;
    从所述第一视频数据中,提取预设类型的分析对象在所述目标视频数据中的位置点组成的所述第一位置集合,并从所述第二视频数据中,提取所述背景图像。
  18. 根据权利要求17所述的前端设备,其特征在于,所述处理器,用于:
    对所述目标视频数据进行降低分辨率和降低帧率处理,得到所述第一视频数据。
  19. 根据权利要求18所述的前端设备,其特征在于,所述第一视频数据的帧率高于所述第二视频数据的帧率。
  20. 根据权利要求17所述的前端设备,其特征在于,所述处理器,还用于:
    从所述第一视频数据中,提取所述第一位置集合中的每个位置点对应的播放进度点;
    从所述目标视频数据中,提取特定类型的分析对象在所述目标视频数据中的位置点组成的第二位置集合,并提取所述第二位置集合中每个位置点对应的播放进度点,其中,所述特定类型包括所述预设类型中的至少一种类型;
    基于所述第二位置集合中每个位置点对应的播放进度点、所述第二位置集合、所述第一位置集合中每个位置点对应的播放进度点和所述第一位置集合,在所述第二位置集合中,确定所述第一位置集合中不包括的分析对象的位置点组成的第三位置集合;
    将所述第三位置集合中包括的位置点添加到所述第一位置集合中。
  21. 一种服务器,其特征在于,所述服务器包括:
    接收模块,用于接收前端设备发送的在目标视频数据中提取的背景图像和预设类型的分析对象在所述目标视频数据中的位置点组成的第一位置集合;
    存储模块,用于存储所述前端设备发送的在目标视频数据中提取的背景图像和预设类型的分析对象在所述目标视频数据中的位置点组成的第一位置集合;
    合成模块,用于当接收到终端发送的所述目标视频数据的浓缩请求时,基于所述第一位置集合、所述目标视频数据中所述预设类型的分析对象的图像、背景图像,合成所述目标视频数据对应的浓缩视频数据;
    发送模块,用于向所述终端发送所述浓缩视频数据。
  22. 根据权利要求21所述的服务器,其特征在于,所述接收模块,还用于:
    接收并存储所述前端设备发送的所述目标视频数据中所述预设类型的分析对象的 图像。
  23. 根据权利要求21所述的服务器,其特征在于,所述接收模块,还用于接收并存储所述前端设备发送的所述目标视频数据,且接收并存储所述前端设备发送的所述预设类型的分析对象在所述目标视频数据中的每个位置点对应的播放进度点;
    所述服务器还包括:
    截取模块,用于基于所述第一位置集合和所述每个位置点对应的播放进度点,从所述目标视频数据中截取所述预设类型的分析对象的图像。
  24. 一种前端设备,其特征在于,所述前端设备包括:
    获取模块,用于获取目标视频数据;
    提取模块,用于从所述目标视频数据中,提取背景图像和预设类型的分析对象在所述目标视频数据中的位置点组成的第一位置集合;
    发送模块,用于向服务器发送所述第一位置集合和背景图像。
  25. 根据权利要求24所述的前端设备,其特征在于,所述前端设备还包括:
    截取模块,用于从所述目标视频数据中,截取所述预设类型的分析对象的图像;
    所述发送模块,还用于向所述服务器发送所述预设类型的分析对象的图像。
  26. 根据权利要求24或25所述的前端设备,其特征在于,所述提取模块,还用于从所述目标视频数据中,提取所述第一位置集合中的每个位置点对应的播放进度点;
    所述发送模块,还用于向所述服务器发送所述每个位置点对应的播放进度点和所述目标视频数据。
  27. 根据权利要求24-26任一权利要求所述的前端设备,其特征在于,所述提取模块,用于:
    对所述目标视频数据进行降低分辨率处理,得到第一视频数据;
    对所述目标视频数据进行降低帧率处理,得到第二视频数据;
    从所述第一视频数据中,提取预设类型的分析对象在所述目标视频数据中的位置点组成的所述第一位置集合,并从所述第二视频数据中,提取所述背景图像。
  28. 根据权利要求27所述的前端设备,其特征在于,所述提取模块,用于:
    对所述目标视频数据进行降低分辨率和降低帧率处理,得到所述第一视频数据。
  29. 根据权利要求28所述的前端设备,其特征在于,所述第一视频数据的帧率高于所述第二视频数据的帧率。
  30. 根据权利要求27所述的前端设备,其特征在于,所述提取模块,还用于:
    从所述第一视频数据中,提取所述第一位置集合中的每个位置点对应的播放进度点;
    从所述目标视频数据中,提取特定类型的分析对象在所述目标视频数据中的位置点组成的第二位置集合,并提取所述第二位置集合中每个位置点对应的播放进度点,其中,所述特定类型包括所述预设类型中的至少一种类型;
    基于所述第二位置集合中每个位置点对应的播放进度点、所述第二位置集合、所述第一位置集合中每个位置点对应的播放进度点和所述第一位置集合,在所述第二位置集合中,确定所述第一位置集合中不包括的分析对象的位置点组成的第三位置集合;
    将所述第三位置集合中包括的位置点添加到所述第一位置集合中。
  31. 一种视频浓缩的系统,其特征在于,所述系统包括服务器和前端设备,其中:
    所述服务器,如所述权利要求11-13以及权利要求21-23中任一项权利要求所述的服务器;
    所述前端设备,如所述权利要求14-20以及权利要求24-30中任一项权利要求所述的前端设备。
  32. 一种计算机可读存储介质,包括指令,当所述计算机可读存储介质在服务器上运行时,使得所述服务器执行所述权利要求1-3中任一权利要求所述的方法。
  33. 一种计算机可读存储介质,包括指令,当所述计算机可读存储介质在前端设备上运行时,使得所述前端设备执行所述权利要求4-10中任一权利要求所述的方法。
PCT/CN2018/086478 2017-05-12 2018-05-11 一种视频浓缩的方法、装置和系统 WO2018205991A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710334822.7 2017-05-12
CN201710334822.7A CN108881119B (zh) 2017-05-12 2017-05-12 一种视频浓缩的方法、装置和系统

Publications (1)

Publication Number Publication Date
WO2018205991A1 true WO2018205991A1 (zh) 2018-11-15

Family

ID=64104356

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2018/086478 WO2018205991A1 (zh) 2017-05-12 2018-05-11 一种视频浓缩的方法、装置和系统

Country Status (2)

Country Link
CN (1) CN108881119B (zh)
WO (1) WO2018205991A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112929704A (zh) * 2021-01-26 2021-06-08 游密科技(深圳)有限公司 数据传输方法、装置、电子设备以及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948613A (zh) * 2019-03-22 2019-06-28 国网重庆市电力公司电力科学研究院 一种避雷器的红外图像识别方法及装置
CN110267008B (zh) * 2019-06-28 2021-10-22 Oppo广东移动通信有限公司 图像处理方法、装置、服务器及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104284158A (zh) * 2014-10-23 2015-01-14 南京信必达智能技术有限公司 面向事件的智能监控相机方法
CN104581437A (zh) * 2014-12-26 2015-04-29 中通服公众信息产业股份有限公司 一种视频摘要生成及视频回溯的方法及系统
US20150208021A1 (en) * 2014-01-20 2015-07-23 Samsung Techwin Co., Ltd. Image recording system
CN106385562A (zh) * 2016-09-23 2017-02-08 浙江宇视科技有限公司 一种视频摘要生成方法、装置及视频监控系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103426181A (zh) * 2012-05-25 2013-12-04 信帧电子技术(北京)有限公司 一种自动改变帧率的拌线检测方法
CN104717457B (zh) * 2013-12-13 2018-05-18 华为技术有限公司 一种视频浓缩方法及装置
CN105721620B (zh) * 2016-05-09 2019-05-10 百度在线网络技术(北京)有限公司 视频信息推送方法和装置及视频信息展示方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150208021A1 (en) * 2014-01-20 2015-07-23 Samsung Techwin Co., Ltd. Image recording system
CN104284158A (zh) * 2014-10-23 2015-01-14 南京信必达智能技术有限公司 面向事件的智能监控相机方法
CN104581437A (zh) * 2014-12-26 2015-04-29 中通服公众信息产业股份有限公司 一种视频摘要生成及视频回溯的方法及系统
CN106385562A (zh) * 2016-09-23 2017-02-08 浙江宇视科技有限公司 一种视频摘要生成方法、装置及视频监控系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112929704A (zh) * 2021-01-26 2021-06-08 游密科技(深圳)有限公司 数据传输方法、装置、电子设备以及存储介质
CN112929704B (zh) * 2021-01-26 2023-06-30 游密科技(深圳)有限公司 数据传输方法、装置、电子设备以及存储介质

Also Published As

Publication number Publication date
CN108881119B (zh) 2021-02-12
CN108881119A (zh) 2018-11-23

Similar Documents

Publication Publication Date Title
WO2019205872A1 (zh) 视频流处理方法、装置、计算机设备及存储介质
CN108010037B (zh) 图像处理方法、装置及存储介质
CN103581705A (zh) 视频节目识别方法和系统
CN202998337U (zh) 视频节目识别系统
US10250838B1 (en) System and method for converting live action alpha-numeric text to re-rendered and embedded pixel information for video overlay
WO2018205991A1 (zh) 一种视频浓缩的方法、装置和系统
EP3031205A1 (en) Systems and methods for providing synchronized content
US8020188B2 (en) Frame specifying method
US20130332963A1 (en) Method and system for controlling a television control device, and television control device
WO2021129830A1 (zh) 视频传输方法、装置、设备和系统
WO2018166162A1 (zh) 一种音视频直播中检测客户端播放状态的系统及方法
CN103581769A (zh) 用户装置、第二屏幕系统和渲染第二屏幕信息的方法
CN104135671A (zh) 电视视频内容互动问答方法
WO2020078676A1 (en) Methods and apparatus for generating a video clip
WO2022262719A1 (zh) 一种直播处理方法、装置、存储介质及电子设备
CN108932254A (zh) 一种相似视频的检测方法、设备、系统及存储介质
CN112287771A (zh) 用于检测视频事件的方法、装置、服务器和介质
CN111757138A (zh) 一种基于单镜头直播视频的特写显示方法及装置
CN109034267A (zh) 片尾曲智能选择方法
KR20120036494A (ko) 실시간 방송 정보 제공 방법 및 시스템
KR102457176B1 (ko) 전자 장치 및 콘텐츠 생성 방법
CN108174261B (zh) 一种截取并下载监控视频图像的手机系统
CN108449362A (zh) 基于虚拟现实成像的交互系统
CN115103204A (zh) 一种支持ai引擎的边缘智能应用实现方法及装置
JP2016010102A (ja) 情報提示システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18799304

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18799304

Country of ref document: EP

Kind code of ref document: A1