WO2013170590A1 - 一种媒体数据处理方法及设备 - Google Patents

一种媒体数据处理方法及设备 Download PDF

Info

Publication number
WO2013170590A1
WO2013170590A1 PCT/CN2012/083874 CN2012083874W WO2013170590A1 WO 2013170590 A1 WO2013170590 A1 WO 2013170590A1 CN 2012083874 W CN2012083874 W CN 2012083874W WO 2013170590 A1 WO2013170590 A1 WO 2013170590A1
Authority
WO
WIPO (PCT)
Prior art keywords
video frame
audio signal
video
encoded
importance level
Prior art date
Application number
PCT/CN2012/083874
Other languages
English (en)
French (fr)
Inventor
宋杨
郑士胜
韩庆瑞
Original Assignee
华为技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华为技术有限公司 filed Critical 华为技术有限公司
Publication of WO2013170590A1 publication Critical patent/WO2013170590A1/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode

Definitions

  • the present invention relates to the field of monitoring, and in particular, to a media data processing method and device. Background technique
  • the basic function of video surveillance is to provide real-time video surveillance, and to record, transfer and store the monitored images for later confirmation.
  • a video capture device (camera, camera, etc.) captures the video, compresses it by an encoder, and transmits it to the user over the transport network.
  • the client saves the compressed video on the corresponding storage device (disk array, CD, etc.) and displays it on the display device (monitor, TV wall, etc.) after decoding.
  • HD video high-definition (HD) video at 30 frames per second has become the mainstream trend of surveillance. Due to the huge amount of data in HD video, very high demands are placed on video compression, transmission and storage.
  • a large amount of surveillance video consumes a huge amount of network resources (network costs) and storage resources (storage costs), and consumes a large amount of power, which is not conducive to green environmental protection.
  • a method of dynamically adjusting the resolution has been proposed to reduce network bandwidth and storage capacity. The method firstly detects a human face through a face detection algorithm, and then performs high-resolution encoding on the image around the face and low-resolution encoding on other images, thereby reducing network bandwidth and storage capacity.
  • the embodiments of the present invention provide a method and a device for processing media data, which are used to solve the problem in the prior art that it is difficult to accurately encode corresponding data of different importance levels in a video frame.
  • an embodiment of the present invention provides a media data processing method, including:
  • the media data including a video frame
  • the video frame with a high importance level is encoded with a higher quality video parameter to obtain a first encoded video frame, and the first encoded video frame is sent to the receiving end;
  • the video frame with low importance level is encoded with lower quality video parameters to obtain a second encoded video frame, and the second encoded video frame is sent to the receiving end.
  • the embodiment of the present invention further provides a media data processing method, including: receiving media data from an acquisition end, where the media data includes a video frame;
  • a video frame with a high level is obtained, and a first captured video frame is obtained; a video frame with a low importance level is collected with a lower quality video parameter to obtain a second captured video frame;
  • the embodiment of the present invention further provides a media data processing method, including: receiving and saving media data from a sending end, where the media data includes a first encoded video frame and a second encoded video frame, the first encoding The video frame has a higher quality video parameter, and the second encoded video frame has a lower quality video parameter;
  • an embodiment of the present invention further provides a sending end, including:
  • a media data obtaining module configured to receive media data from the collecting end, where the media data includes a video frame
  • a video importance level determining module configured to determine an importance level of the video frame
  • a video encoding module configured to encode a video frame with a high importance level with a higher quality video parameter to obtain a first encoded video frame
  • the video frame with low importance level is encoded with lower quality video parameters to obtain a second encoded video frame
  • a video sending module configured to send the first encoded video frame and the second encoded video frame to a receiving end.
  • an embodiment of the present invention further provides a sending end, including:
  • a media data obtaining module configured to receive media data from the collecting end, where the media data includes a video frame
  • a video importance level determining module configured to determine an importance level of a video frame to be collected according to a video frame within a preset duration
  • the video capture control module is configured to send the collection control information indicating the importance level to the collection end, so that the collection end collects a video frame with a high importance level with a higher quality video parameter, and obtains the first collected video frame. Collecting video frames of low importance level with lower quality video parameters to obtain a second captured video frame; a video encoding module, configured to encode the first captured video frame and the second collected video frame received by the media data acquiring module, to obtain a first encoded video frame and a second encoded video frame, respectively;
  • a video sending module configured to send the first encoded video frame and the second encoded video frame to a receiving end.
  • an embodiment of the present invention further provides a receiving end, including:
  • a media data receiving module configured to receive and save media data from a sending end, where the media data includes a first encoded video frame and a second encoded video frame, where the first encoded video frame has a higher quality video parameter, The second encoded video frame has lower quality video parameters;
  • a video decoding module configured to separately decode the first encoded video frame and the second encoded video frame to obtain a first decoded video frame corresponding to the first encoded video frame and the second encoded video a second decoded video frame corresponding to the frame;
  • a video enhancement module configured to perform quality enhancement on the second decoded video frame to match the first decoded video frame
  • a video presentation module configured to perform media data presentation according to the first decoded video frame and the second decoded video frame after quality enhancement.
  • the implementation of the embodiments of the present invention has the following beneficial effects: by dividing the video frame by the importance level, and then encoding or collecting the video frame with high importance level with higher quality video parameters, the importance level is low.
  • the video frame is encoded or acquired with lower quality video parameters, and the intra-frame importance level division of the video frame can improve the accuracy and the compression algorithm.
  • FIG. 3 is a flow chart of a method for processing an audio signal performed by a transmitting end provided by the present invention
  • FIG. 5 is a schematic structural diagram of a first embodiment of a transmitting end provided by the present invention.
  • FIG. 7 is a schematic structural diagram of a second embodiment of a transmitting end provided by the present invention.
  • FIG. 8 is a schematic structural diagram of a third embodiment of a transmitting end provided by the present invention.
  • FIG. 9 is a flow chart of a first embodiment of a media data processing method performed by a receiving end provided by the present invention.
  • FIG. 10 is a flowchart of a method for processing an audio signal performed by a receiving end according to the present invention
  • FIG. 11 is a schematic structural diagram of a first embodiment of a receiving end provided by the present invention
  • FIG. 12 is a schematic structural view of a second embodiment of a receiving end provided by the present invention. detailed description
  • Example flow chart the method includes:
  • the video frame with a high importance level is encoded with a higher quality video parameter to obtain a first encoded video frame, and the first encoded video frame is sent to the receiving end;
  • the low quality video parameters are encoded to obtain a second encoded video frame, and the second encoded video frame is transmitted to the receiving end.
  • the media data processing method provided by the embodiment of the present invention, by performing interframe importance on a video frame, etc. Level division, then encoding video frames with high importance level with higher quality video parameters, and encoding video frames with lower importance levels with lower quality video parameters, compared to video frames in the prior art.
  • the intra-frame importance level can improve the accuracy and the algorithm.
  • the importance level of the video frame may be divided and defined in advance.
  • the importance level of the video frame may be divided into two levels of high and low, three levels of high, medium, and low or more.
  • step S101 includes: determining whether the video frame includes a human face, If the determination is yes, it is determined that the importance level of the video frame is high, otherwise it is determined that the importance level of the video frame is low.
  • step S101 includes: determining whether the video frame includes a character, and if the determination is yes, determining The importance level of the video frame is high, otherwise it is determined that the importance level of the video frame is low.
  • step S101 includes: determining a video frame. Whether the pre-defined action is included in the middle, if the determination is yes, it is determined that the importance level of the video frame is high, otherwise the importance level of the video frame is determined to be low.
  • the video frame may be ranked for whether the image contains a predefined event (for example, a fighting event).
  • a predefined event for example, a fighting event.
  • the method includes: determining whether the video frame includes a predefined event, and if the determination is yes, determining that the importance level of the video frame is high, otherwise determining that the importance level of the video frame is low.
  • the step S101 includes: determining whether the video frame includes a human face, and if determining whether the video frame includes a human face, the determination result is yes, determining that the importance level of the video frame is high, if the video is determined.
  • the method further determines whether the vehicle is included in the video frame, and if it is determined whether the judgment result of the vehicle included in the video frame is YES, determining the importance level of the media data, if determining the video frame If the judgment result of whether or not the vehicle is included is no, the importance level of the media data is determined. Low.
  • step S101 includes: determining that a importance level of the video frame is high when receiving the high quality trigger control signal, and determining that the importance level of the video frame is low when the low quality trigger control signal is received, the high quality trigger control The signal is transmitted after the detecting device connected to the transmitting end detects the predefined high quality trigger signal, and the low quality trigger control signal is sent after the detecting device detects the predefined low quality trigger signal.
  • the high-quality trigger signal and the low-quality trigger signal may be a door switch action trigger signal, an infrared trigger signal, and the like, respectively.
  • a motion sensor when used for night bank monitoring, since the night bank access control system allows only one person to enter at a time, a motion sensor can be installed on the door.
  • the door When the door is first turned on, it indicates that someone has entered, and the sensor receives a high quality trigger signal, and Generating a high quality trigger control signal, and then transmitting a high quality trigger control signal to the transmitting end, so that the transmitting end sets the importance level of the video frame to be high; when the door is turned on again, it indicates that the person has gone out, and the sensor receives the low quality trigger.
  • the signal and generates a low quality trigger control signal, and then transmits the low quality trigger control signal to the transmitting end, so that the transmitting end sets the importance level of the video frame to low.
  • This type of manual triggering reduces cost and accuracy because it does not require a test system.
  • the above detection algorithm for a video frame may be any suitable algorithm well known to those skilled in the art, and the present invention can be used because it only needs to determine whether there is something, without detecting the exact position and size of the object.
  • the detection algorithm is relatively simple, easy to implement, and can minimize the misjudgment and improve the accuracy.
  • the video parameters include a frame rate and/or a resolution.
  • the frame rate and/or resolution of a video frame is high, the quality of the video is higher, but the amount of data of the video is also larger.
  • the quality level of the video parameters can also be divided.
  • a video frame of high importance level corresponds to a video parameter of a high quality level, such as 1920*1080@30fps, where 1920*1080 represents resolution, 30fps (30 frames/sec) represents frame rate; and video frames of important level are corresponding
  • the video parameters of the medium quality level such as 1280*720@ 15fps;
  • the video frames of low importance level correspond to the video parameters of low quality level, such as 720*480@5fps.
  • the hierarchical coding method can not only improve the definition of a video frame of higher importance, but also minimize the amount of data, reduce the storage capacity and the network. Transfer traffic.
  • the receiving end after receiving the first encoded video frame and the second encoded video frame, respectively, the receiving end decodes the video frames to obtain a first decoded video frame corresponding to the first encoded video frame, and the second encoded video frame Corresponding second decoded video frame; performing quality enhancement on the second decoded video frame to match the first decoded video frame, and performing media data presentation according to the first decoded video frame and the second decoded video frame after quality enhancement.
  • Quality enhancement of video frames with lower quality video parameters such as using super-resolution technology, etc., can restore low-quality video frames to consistent viewing with high-quality video frames, to avoid user viewing due to video Disadvantages due to changes in parameters.
  • a Scalable Video Coding (SVC) method may also be used.
  • the SVC method encodes a video frame into a component layer.
  • the bandwidth is insufficient, only the code stream of the base layer is transmitted and decoded. However, the quality of the decoded video is not high.
  • the transmission and decoding enhancement can be performed. Layer code stream to improve the decoding quality of the video.
  • FIG. 2 it is a flowchart of encoding a video frame by using the SVC method provided by the present invention, including:
  • the SVC technology divides the video frame in time, space and quality, and outputs a multi-layer code stream (including a base layer and an enhancement layer), wherein the code stream of the base layer enables the receiver decoder to completely decode the basic video content.
  • the video image obtained by the code stream of the layer may have a lower frame rate, lower resolution, or lower quality
  • the enhancement layer may include multiple enhancement sublayers, and further transmit an enhancement sublayer of the code stream, and the receiving end.
  • the quality of the video obtained is higher.
  • the code layer of the base layer is transmitted; when the video quality requirement is gradually increased, the code layer of the base layer plus the enhancement layer can be transmitted to improve the decoding quality of the video.
  • a more layered layered code stream as the first coded video frame with higher quality video parameters, and select fewer layers of layered code streams as the second coded video frame with lower quality video parameters. For example, all layered code streams are used as first coded video frames with higher quality video parameters; partial layered code streams (eg, code streams of the base layer) are used as second coded video frames with lower quality video parameters And discarding other layered code streams (such as the code stream of the enhancement layer).
  • media data may also contain audio signals.
  • the importance level of the video frame can be taken as the importance level of the audio signal corresponding thereto (same time stamp), and the corresponding quality
  • the audio parameters encode the audio signal.
  • the importance level of the audio signal may be determined separately based on the content of the audio signal, and then the audio signal is encoded with the audio parameters of the corresponding quality.
  • FIG. 3 it is a flowchart of an audio signal processing method provided by the present invention. The method may be performed after step S100, where the method includes:
  • the audio signal with a high importance level is encoded with a higher quality audio parameter to obtain a first encoded audio signal, and the first encoded audio signal is sent to the receiving end; and the audio signal with a lower importance level is compared.
  • the low quality audio parameters are encoded to obtain a second encoded audio signal, and the second encoded audio signal is transmitted to the receiving end.
  • the audio parameters include the sampling rate and/or the sampling size. Similar to the video parameters, the higher the sampling rate and/or the sampling size, the higher the quality of the audio signal, but the larger the amount of data.
  • the quality level of the audio parameters also corresponds to the importance level of the audio signal.
  • the first encoded audio signal and the second encoded audio signal are sent to the receiving end in step S301, so that the receiving end receives the first encoded audio signal and the second encoded audio signal, respectively, and then decodes the audio signals respectively to obtain a first decoded audio signal corresponding to the first encoded audio signal, and a second decoded audio signal corresponding to the second decoded audio signal; and performing quality enhancement on the second decoded audio signal to match the first decoded audio signal, and according to the first Decoding the audio signal and performing the quality-enhanced second decoded audio signal for presentation of the media data.
  • Quality enhancement of audio signals with lower quality audio parameters can restore low quality audio signals to a consistent playback performance with high quality audio signals to avoid user discomfort due to changes in audio parameters during listening.
  • the method further comprises: transmitting a synchronization signal to the receiving end, so that the receiving end synchronizes the audio signal with the video frame according to the synchronization signal when presenting the media data.
  • the acquisition end collects video frames with set video parameters and/or acquires audio signals with set audio parameters, and at the transmitting end pairs video frames and/or audio signals. Perform different quality coding.
  • And/or audio parameters are compression encoded, and this embodiment will be exemplified with reference to FIG. Example flow chart, the method includes:
  • S401 Determine, according to the video frame within the preset duration, an importance level of the video frame to be collected.
  • the importance level of a video frame to be acquired can be determined based on the video frame within 0.1 s.
  • the first captured video frame and the second collected video frame are encoded to obtain a first encoded video frame and a second encoded video frame, respectively, where the first encoded video frame and the second encoded video are obtained.
  • the frame is sent to the receiving end.
  • the media data processing method provided by the embodiment of the present invention performs the inter-frame importance level division on the video frame, and then collects the video frame with high importance level with higher quality video parameters, and the video frame with low importance level. Acquisition with lower quality video parameters can improve the accuracy and compression algorithm compared to the prior art in-frame importance level division of video frames.
  • step S400 further includes: determining, according to the audio signal in the preset duration, an importance level of the audio signal to be collected; and transmitting, to the collection, the collection control information indicating the importance level.
  • the collecting end acquires an audio signal with a high importance level with a high quality audio parameter to obtain a first collected audio signal; and collects an audio signal with a low importance level with a lower quality audio parameter to obtain a second collection.
  • the audio signal is sent to the receiving end.
  • the time frame for determining the video frame and/or the audio signal within the preset duration of the importance level is still The original video parameters and/or audio parameters are used for acquisition, so the quality of the media data during this period is biased.
  • the detection algorithm used in step S401 may be very simple, a higher and faster calculation speed can be achieved, so the quality level switching process may only delay 1 ⁇ 2. The time of the frame, and the impact of such a small amount of data on the quality of the overall media data is negligible.
  • the video parameters and/or audio parameters at the time of acquisition are controlled by determining the importance level of the video frame and/or the audio signal, and the video parameters and/or encoding parameters at the time of acquisition are used in the encoding, as shown in FIG.
  • the embodiment and the modifications based on this embodiment are similar to the embodiment shown in Figs. 1, 3, and therefore will not be described again.
  • FIG. 5 it is a schematic structural diagram of a transmitting end 500 provided by the present invention, including:
  • the media data obtaining module 510 is configured to receive media data from the collecting end, where the media data includes a video frame.
  • the video importance level determining module 520 is configured to determine an importance level of the video frame.
  • a video encoding module 530 configured to encode a video frame with a high importance level with a higher quality video parameter to obtain a first encoded video frame; and encode a video frame with a lower importance level with a lower quality video parameter, A second encoded video frame is obtained.
  • the video sending module 540 is configured to send the first encoded video frame and the second encoded video frame to the receiving end.
  • the transmitting end provided by the embodiment of the present invention performs the inter-frame importance level division on the video frame, and then encodes the video frame with high importance level with higher quality video parameters, and compares the video frames with low importance level.
  • the low-quality video parameters are encoded, and the intra-intensity level division of the video frames in the prior art can improve the accuracy and the algorithm.
  • the importance level of the video frame may be divided and defined in advance.
  • the importance level of the video frame may be divided into two levels of high and low, three levels of high, medium, and low or more.
  • the video frame may be graded for whether the image includes a face.
  • the video importance level determining module 520 is configured to: determine the video frame. Whether the face is included or not, if the judgment is yes, it is determined that the importance level of the video frame is high, otherwise the importance level of the video frame is determined to be low.
  • the video frame may be classified according to whether the image includes a character.
  • the video importance level determining module 520 is configured to: determine whether the video frame includes a character, if If the determination is yes, it is determined that the importance level of the video frame is high, otherwise the importance level of the video frame is determined to be low. If the purpose of the monitoring is to record the situation when an action occurs, for example, for supermarket monitoring, the video frame may be ranked for whether the image contains a predefined action (eg, a theft action). At this time, the video importance level determining module 520 For determining whether the video frame includes a predefined action, if the determination is yes, determining that the importance level of the video frame is high, otherwise determining that the importance level of the video frame is low.
  • a predefined action eg, a theft action
  • the video frame can be graded for whether the image contains a predefined event (such as a fighting event). At this time, the video is important.
  • the level determining module 520 is configured to: determine whether the video frame includes a predefined event, and if the determination is yes, determine that the importance level of the video frame is high, otherwise determine that the importance level of the video frame is low.
  • the video importance level determining module 520 is configured to: determine whether a video frame includes a human face, and determine the importance of the video frame if it is determined whether the video frame includes a face and the determination result is yes.
  • the judgment result of the presence or absence of the face in the video frame is negative, it is determined whether the vehicle includes the vehicle in the video frame, and if it is determined whether the judgment result of the vehicle in the video frame is YES, the importance level of the media data is determined. If it is determined whether the determination result of whether or not the vehicle is included in the video frame is negative, it is determined that the importance level of the media data is low.
  • the importance level can also be determined by means of manual triggering.
  • the video importance level determining module 520 is configured to: when receiving the high quality trigger control signal, determine that the importance level of the video frame is high, and when receiving the low quality trigger control signal, determine that the importance level of the video frame is low,
  • the high quality trigger control signal is sent after the detecting device connected to the transmitting end detects the predefined high quality trigger signal
  • the low quality trigger control signal is that the detecting device detects the predefined low quality trigger signal.
  • the high-quality trigger signal and the low-quality trigger signal may be a door switch action trigger signal, an infrared trigger signal, and the like, respectively.
  • a motion sensor when used for night bank monitoring, since the night bank access control system only allows one person to enter at a time, a motion sensor can be installed on the door.
  • the sensor When the door is first turned on, it means that someone enters, the sensor receives a high quality trigger signal, and Generating a high quality trigger control signal, and then transmitting a high quality trigger control signal to the transmitting end so that the transmitting end sets the importance level of the video frame to be high; when the door is turned on again, Indicates that the person has gone out, the sensor receives the low quality trigger signal, and generates a low quality trigger control signal, and then transmits the low quality trigger control signal to the transmitting end, so that the transmitting end sets the importance level of the video frame to low.
  • This manual triggering method reduces cost and accuracy because it does not require a test system.
  • the above detection algorithm for a video frame may be any suitable algorithm well known to those skilled in the art, and the present invention can be used because it only needs to determine whether there is something, without detecting the exact position and size of the object.
  • the detection algorithm is relatively simple, easy to implement, and can minimize the misjudgment and improve the accuracy.
  • the video parameters include frame rate and/or resolution.
  • the quality level of the video parameters can also be divided.
  • a video frame of high importance level corresponds to a video parameter of a high quality level, such as 1920*1080@30fps, where 1920*1080 represents resolution, 30fps (30 frames/sec) represents frame rate; and video frames of important level are corresponding
  • the video parameters of the medium quality level such as 1280*720@ 15fps
  • the video frames of low importance level correspond to the video parameters of low quality level, such as 720*480@5fps.
  • the hierarchical coding method can not only improve the definition of a video frame of higher importance, but also minimize the amount of data, reduce the storage capacity and the network. Transfer traffic.
  • the video encoding module 530 may employ the SVC method in addition to encoding the video frame using conventional sampling, compression, and the like.
  • the SVC method encodes a video frame into a component layer.
  • the bandwidth is insufficient, only the code stream of the base layer is transmitted and decoded. However, the quality of the decoded video is not high.
  • the transmission and decoding enhancement can be performed. Layer code stream to improve the decoding quality of the video.
  • FIG. 6 is a schematic structural diagram of a video encoding module 600 for encoding a video frame by using an SVC method, including:
  • the video layering module 610 is configured to encode the video frame into a layered code stream by using an SVC method.
  • the video stream selection module 620 is configured to select a plurality of layered code streams as the first coded video frame with higher quality video parameters, and select less layered code streams as the second code with lower quality video parameters. Video frame.
  • media data may also contain audio signals.
  • the importance of video frames The level is the importance level of the audio signal corresponding to it (the same time stamp), and the audio signal is encoded with the audio parameters of the corresponding quality.
  • the importance level of the audio signal may be determined separately based on the content of the audio signal, and then the audio signal is encoded with the audio parameters of the corresponding quality.
  • the structure of the transmitting end 700 is provided by the present invention.
  • the sending end 600 further includes:
  • the audio importance level determining module 550 is configured to determine an importance level of the audio signal. Specifically, the audio importance level determining module 550 is configured to: determine whether the audio signal contains a human voice, and if the determination is yes, determine that the audio signal has a high importance level; otherwise, determine that the audio signal has a low importance level. Similar to video frames, the importance of an audio signal can also be divided into three or more levels.
  • An audio encoding module 560 configured to encode an audio signal with a high importance level with a higher quality audio parameter to obtain a first encoded audio signal; and encode an audio signal with a low importance level with a lower quality audio parameter, A second encoded audio signal is obtained.
  • the audio parameters include the sampling rate and/or the sampling size, similar to the video parameters. The higher the sampling rate and/or the sampling size, the higher the quality of the audio signal, but the larger the amount of data.
  • the quality level of the audio parameters also corresponds to the importance level of the audio signal.
  • the audio sending module 570 is configured to send the first encoded audio signal and the second encoded audio signal to the receiving end.
  • the transmitting end further includes: a synchronization signal sending module, configured to send the synchronization signal to the receiving end, so that the receiving end synchronizes the audio signal with the video frame according to the synchronization signal when presenting the media data.
  • a synchronization signal sending module configured to send the synchronization signal to the receiving end, so that the receiving end synchronizes the audio signal with the video frame according to the synchronization signal when presenting the media data.
  • the acquisition end collects video frames with set video parameters and/or acquires audio signals with set audio parameters, and at the transmitting end pairs video frames and/or audio signals. Perform different quality coding.
  • FIG. 8 is a schematic structural diagram of a sending end 800 provided by the present invention.
  • the sending end 800 includes: a media data acquiring module 810, configured to receive media data from an collecting end, where the media data includes a video frame.
  • a video importance level determining module 820 configured to determine, according to a video frame within a preset duration The importance level of the set of video frames. For example, the importance level of a video frame to be acquired can be determined based on a video frame within 0.1 s.
  • the video capture control module 830 is configured to send the collection control information indicating the importance level to the collection end, so that the collection end collects a video frame with a high importance level with a higher quality video parameter, and obtains the first captured video. Frame; a video frame of low importance level is collected with lower quality video parameters to obtain a second captured video frame.
  • the video encoding module 840 is configured to encode the first collected video frame and the second collected video frame to obtain a first encoded video frame and a second encoded video frame, respectively.
  • the video sending module 850 is configured to send the first encoded video frame and the second encoded video frame to the receiving end.
  • the transmitting end provided by the embodiment of the present invention performs the inter-frame importance level division on the video frame, and then collects the video frames with high importance level with higher quality video parameters, and compares the video frames with lower importance levels.
  • the low-quality video parameters are collected, and the intra-frame importance level division of the video frames in the prior art can improve the accuracy and the algorithm.
  • the transmitting end 800 further includes: an audio importance level determining module, configured to determine an importance level of the audio signal to be collected according to the audio signal in the preset duration; an audio collection control module, And transmitting, to the collecting end, the collecting control information indicating the importance level, so that the collecting end collects an audio signal with a high importance level with a higher quality audio parameter to obtain a first collected audio signal; And the audio encoding module is configured to encode the first collected audio signal and the second collected audio signal to obtain the first encoded audio respectively. a signal and a second encoded audio signal; an audio transmitting module, configured to send the first encoded audio signal and the second encoded audio signal to a receiving end.
  • an audio importance level determining module configured to determine an importance level of the audio signal to be collected according to the audio signal in the preset duration
  • an audio collection control module And transmitting, to the collecting end, the collecting control information indicating the importance level, so that the collecting end collects an audio signal with a high importance level with a higher quality audio parameter to obtain a first
  • a flow chart of a first embodiment of a method for processing media data executed by a receiving end according to the present invention includes:
  • S901 Decode the first encoded video frame and the second encoded video frame respectively, to obtain a first decoded video frame corresponding to the first encoded video frame and a second decoded video frame corresponding to the second encoded video frame, performing quality enhancement on the second decoded video frame to match the first decoding a video frame, and performing presentation of the media data according to the first decoded video frame and the second decoded video frame after quality enhancement.
  • the embodiment of the invention performs quality enhancement on video frames with lower quality video parameters, for example, using super-resolution technology, etc., can restore low-quality video frames to a viewing effect consistent with high-quality video frames, to avoid users in Discomfort caused by changes in video parameters during viewing.
  • step S900 is a flowchart of a method for processing an audio signal performed by a receiving end according to the present invention.
  • the method may be performed after step S900, wherein the media data in step S900 includes a first encoded audio signal and a second encoded audio signal.
  • the first encoded audio signal has a higher quality audio parameter
  • the second encoded audio signal has a lower quality audio parameter, the method comprising:
  • S1000 Decode the first encoded audio signal and the second encoded audio signal, respectively, to obtain a first decoded audio signal corresponding to the first encoded audio signal and a corresponding to the second encoded audio signal. Decoding an audio signal, performing quality enhancement on the second decoded audio signal to match the first decoded audio signal, and performing media data according to the first decoded audio signal and the second decoded audio signal after quality enhancement Presented.
  • the embodiment of the invention enhances the quality of the audio signal with lower quality audio parameters, and can restore the low quality audio signal to the playing effect consistent with the high quality audio signal, so as to avoid the user's listening to the audio parameter. Discomfort.
  • the method further comprises: receiving a synchronization signal from the transmitting end and synchronizing the audio signal with the video frame in accordance with the synchronization signal when the media data is presented.
  • FIG. 11 is a schematic structural diagram of a receiving end 1100 provided by the present invention, including:
  • a media data receiving module mo configured to receive and save media data from a sending end, where the media data includes a first encoded video frame and a second encoded video frame, where the first encoded video frame has a higher quality video parameter, The second encoded video frame has a lower quality video parameter.
  • the video decoding module 1120 is configured to separately decode the first encoded video frame and the second encoded video frame to obtain a first decoded video frame corresponding to the first encoded video frame and the second encoded The second decoded video frame corresponding to the video frame.
  • a video enhancement module 1130 configured to perform quality enhancement on the second decoded video frame to match the The first decoded video frame is described.
  • the video presentation module 1140 is configured to perform media data presentation according to the first decoded video frame and the second decoded video frame after quality enhancement.
  • the video rendering module 1140 can be any type of display.
  • the receiving end 1200 includes a media data receiving module 1110, a video decoding module 1120, a video enhancing module 1130, and a video rendering module 1140.
  • the media data received by the media data receiving module 1110 is further A first encoded audio signal having a higher quality audio parameter and a second encoded audio signal having a lower quality audio parameter are included.
  • the receiving end 1200 further includes:
  • the audio decoding module 1150 is configured to separately decode the first encoded audio signal and the second encoded audio signal to obtain a first decoded audio signal corresponding to the first encoded audio signal and the second encoded The second decoded audio signal corresponding to the audio signal.
  • the audio enhancement module 1160 is configured to perform quality enhancement on the second decoded audio signal to match the first decoded audio signal.
  • the audio presentation module 1170 is configured to perform presentation of the media data according to the first decoded audio signal and the second decoded audio signal after quality enhancement.
  • the audio presentation module 1170 can be various types of speakers.
  • the receiving end 1200 further includes:
  • a synchronization module configured to receive a synchronization signal from the transmitting end, and synchronize the audio signal with the video frame according to the synchronization signal when the media data is presented.
  • the media data processing method and device provided by the embodiments of the present invention can effectively reduce network traffic and storage capacity, thereby reducing transmission cost and storage cost. For example, in a monitoring system with 100 cameras, if the video frame is processed with a video parameter of 1920*1080@30fps, the required bandwidth is 10 Mbps. If monitoring is maintained for 24 hours*7 days, the monitoring system needs to be used every week. Transfer and store up to 740GB of video data. However, assuming that 30% of the video data is important data, with the present invention, the video parameters of the video frame are reduced to 720*480@10fps when no important content is found (ie, when the importance level of the video frame is determined to be low).
  • the bandwidth required is only 0.5 Mbps, and the video data that needs to be transmitted and stored each week is only 250 GB, which means that about 2/3 of the data is reduced.
  • the present invention can not only effectively reduce the transmission cost and storage cost of media data, but also reduce Corresponding power consumption, achieving green environmental monitoring.
  • the storage medium may be a magnetic disk, an optical disk, a hard disk, a memory, a flash, or the like.

Abstract

一种监控数据处理方法及设备,发送端接收来自采集端的媒体数据,所述媒体数据包括视频帧;确定所述视频帧的重要性等级;将重要性等级高的视频帧以较高质量的视频参数进行编码,得到第一编码视频帧,将所述第一编码视频帧发送给接收端;将重要性等级低的视频帧以较低质量的视频参数进行编码,得到第二编码视频帧,将所述第二编码视频帧发送给所述接收端。采用本发明,能够提高精度,简化算法。

Description

一种媒体数据处理方法及设备
本申请要求于 2012 年 5 月 16 日提交中国专利局、 申请号为 201210150838.X, 发明名称为 "一种媒体数据处理方法及设备" 的中国专利申 请的优先权, 其全部内容通过引用结合在本申请中。 技术领域
本发明涉及监控领域, 尤其涉及一种媒体数据处理方法及设备。 背景技术
视频监控的基本功能是提供实时视频监视, 并对被监视的画面进行录像、 传输和存储, 以便事后确认。 在视频监控系统中, 视频采集设备(摄像机、 摄 像头等)将视频采集下来, 通过编码器进行压缩, 然后通过传输网络传输到用 户端。 用户端将压缩视频保存在相应存储设备上(磁盘阵列、 光盘等), 并且 解码后显示在显示设备(监视器、 电视墙等)上。
随着技术的进步, 30帧每秒的高清(High Definition, HD )视频已经成为 监控的主流趋势。 由于高清视频的巨大数据量, 对于视频压缩、传输和存储都 提出了非常高的要求。
为了保障高清视频的有效传输和保存, 进行高质量的压缩是必须的。 以每 秒 30帧的高清视频 1080HD为例, 原始视频帧量高达 710Mbps, 如果不进行 压缩, 就需要非常大的带宽和存储空间。 现在较为常用的是 H.264/AVC视频 压缩标准, 可以将 1080HD视频压缩到 2~20Mbps (图像质量相关)。 当然, 对 应代价是需要大量的计算资源。但是, 由于压缩后的视频流必须通过网络传输 到用户端进行保存和观看。 即使视频经过压缩, 面对 24小时 X 7天的连续传 输, 也会对网络造成很大压力。 特别是对基于移动网络(3G/LTE ) 的视频监 控系统, 会消耗大量的网络流量(费用)。
由于视频监控系统的规模越来越大(包括数百台摄像机的监控系统已经比 较常见), 对于监控视频的传输和存储提出了越来越高的要求。 大量的监控视 频耗费了巨量的网络资源 (网络费用 )和存储资源 (存储费用 ), 并且消耗了 大量的电力, 不利于绿色环保。 针对这个问题,有人提出了一种动态调整分辨率的方法, 来减少网络带宽 和存储容量。 该方法通过人脸检测算法, 首先检测出人脸, 然后对人脸周围的 图像进行高分辨率编码,对其他图像进行低分辨率编码,从而可以减少网络带 宽和存储容量。 但是, 该方法仍然存在以下缺点: 采用帧内识别方式, 需要非 常准确稳定的人脸识别算法才能够精确识别出人脸在视频帧中的具体位置和 大小, 这对于现在技术而言仍然是不现实的, 而如果人脸的位置没有正确识别 出来, 真正的人脸所处区域会被当做背景, 降低分辨率进行传输, 从而严重损 坏图像包含的信息, 导致无法识别对应人物, 这对于监控系统而言, 是完全不 可以接受的。 发明内容
本发明实施例提供了一种媒体数据处理方法及设备,用于解决现有技术存 在着的难以精确地对视频帧内重要性等级不同的数据进行相应质量的编码的 问题。
为了解决上述技术问题, 本发明实施例提供了一种媒体数据处理方法, 包 括:
接收来自采集端的媒体数据, 所述媒体数据包括视频帧;
确定所述视频帧的重要性等级;
将重要性等级高的视频帧以较高质量的视频参数进行编码,得到第一编码 视频帧, 将所述第一编码视频帧发送给接收端;
将重要性等级低的视频帧以较低质量的视频参数进行编码,得到第二编码 视频帧, 将所述第二编码视频帧发送给所述接收端。
相应地, 本发明实施例还提供了一种媒体数据处理方法, 包括: 接收来自采集端的媒体数据, 所述媒体数据包括视频帧;
根据预设时长内的视频帧确定将要采集的视频帧的重要性等级; 将指示所述重要性等级的采集控制信息发送给采集端,使得所述采集端以 较高质量的视频参数采集重要性等级高的视频帧,得到第一采集视频帧; 以较 低质量的视频参数采集重要性等级低的视频帧, 得到第二采集视频帧;
对所述第一采集视频帧以及所述第二采集视频帧进行编码,分别得到第一 编码视频帧和第二编码视频帧,将所述第一编码视频帧以及所述第二编码视频 帧发送给接收端。
相应地, 本发明实施例还提供了一种媒体数据处理方法, 包括: 接收并保存来自发送端的媒体数据,所述媒体数据包括第一编码视频帧和 第二编码视频帧,所述第一编码视频帧具有较高质量的视频参数, 所述第二编 码视频帧具有较低质量的视频参数;
分别对所述第一编码视频帧和所述第二编码视频帧进行解码 ,得到与所述 第一编码视频帧对应的第一解码视频帧以及与所述第二编码视频帧对应的第 二解码视频帧,将所述第二解码视频帧进行质量增强以匹配所述第一解码视频 帧,并根据所述第一解码视频帧以及进行质量增强后的第二解码视频帧进行媒 体数据的呈现。
相应地, 本发明实施例还提供了一种发送端, 包括:
媒体数据获取模块, 用于接收来自采集端的媒体数据,所述媒体数据包括 视频帧;
视频重要性等级确定模块, 用于确定所述视频帧的重要性等级; 视频编码模块,用于将重要性等级高的视频帧以较高质量的视频参数进行 编码,得到第一编码视频帧; 将重要性等级低的视频帧以较低质量的视频参数 进行编码, 得到第二编码视频帧;
视频发送模块,用于将所述第一编码视频帧以及所述第二编码视频帧发送 给接收端。
相应地, 本发明实施例还提供了一种发送端, 包括:
媒体数据获取模块, 用于接收来自采集端的媒体数据, 所述媒体数据包括 视频帧;
视频重要性等级确定模块,用于根据预设时长内的视频帧确定将要采集的 视频帧的重要性等级;
视频采集控制模块,用于将指示所述重要性等级的采集控制信息发送给采 集端,使得所述采集端以较高质量的视频参数采集重要性等级高的视频帧,得 到第一采集视频帧; 以较低质量的视频参数采集重要性等级低的视频帧,得到 第二采集视频帧; 视频编码模块,用于对通过所述媒体数据获取模块接收的所述第一采集视 频帧以及所述第二采集视频帧进行编码,分别得到第一编码视频帧和第二编码 视频帧;
视频发送模块,用于将所述第一编码视频帧以及所述第二编码视频帧发送 给接收端。
相应地, 本发明实施例还提供了一种接收端, 包括:
媒体数据接收模块, 用于接收并保存来自发送端的媒体数据, 所述媒体数 据包括第一编码视频帧和第二编码视频帧,所述第一编码视频帧具有较高质量 的视频参数, 所述第二编码视频帧具有较低质量的视频参数;
视频解码模块,用于分别对所述第一编码视频帧和所述第二编码视频帧进 行解码,得到与所述第一编码视频帧对应的第一解码视频帧以及与所述第二编 码视频帧对应的第二解码视频帧;
视频增强模块,用于将所述第二解码视频帧进行质量增强以匹配所述第一 解码视频帧;
视频呈现模块,用于根据所述第一解码视频帧以及进行质量增强后的第二 解码视频帧进行媒体数据的呈现。
实施本发明实施例, 具有如下有益效果: 通过对视频帧进行帧间重要性等 级划分, 然后对重要性等级高的视频帧以较高质量的视频参数进行编码或采 集,对重要性等级低的视频帧以较低质量的视频参数进行编码或采集,相比现 有技术中对视频帧进行帧内重要性等级划分, 能够提高精确度, 筒化算法。 附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施 例或现有技术描述中所需要使用的附图作筒单地介绍,显而易见地, 下面描述 中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付 出创造性劳动的前提下, 还可以根据这些附图获得其他的附图。 图; 图;
图 3是本发明提供的发送端执行的音频信号处理方法的流程图; 图;
图 5是本发明提供的发送端的第一实施例结构示意图; 意图;
图 7是本发明提供的发送端的第二实施例结构示意图;
图 8是本发明提供的发送端的第三实施例结构示意图;
图 9是本发明提供的接收端执行的媒体数据处理方法的第一实施例流程 图;
图 10是本发明提供的接收端执行的音频信号处理方法的流程图; 图 11是本发明提供的接收端的第一实施例结构示意图;
图 12是本发明提供的接收端的第二实施例结构示意图。 具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清 楚、 完整地描述, 显然, 所描述的实施例仅仅是本发明一部分实施例, 而不是 全部的实施例。基于本发明中的实施例, 本领域普通技术人员在没有作出创造 性劳动前提下所获得的所有其他实施例, 都属于本发明保护的范围。 例流程图, 该方法包括:
5100、 接收来自采集端的媒体数据, 所述媒体数据包括视频帧。
5101、 确定所述视频帧的重要性等级。
5102、将重要性等级高的视频帧以较高质量的视频参数进行编码,得到第 一编码视频帧,将所述第一编码视频帧发送给接收端; 将重要性等级低的视频 帧以较低质量的视频参数进行编码,得到第二编码视频帧,将所述第二编码视 频帧发送给所述接收端。
本发明实施例提供的媒体数据处理方法,通过对视频帧进行帧间重要性等 级划分, 然后对重要性等级高的视频帧以较高质量的视频参数进行编码,对重 要性等级低的视频帧以较低质量的视频参数进行编码,相比现有技术中对视频 帧进行帧内重要性等级划分, 能够提高精确度, 筒化算法。
具体地, 可以预先对视频帧的重要性等级进行划分和定义, 例如可以将视 频帧的重要性等级划分为高和低两个等级、 高中低三个等级或者更多等级。
若监控目的是能够清晰地看到人脸,例如用于银行取款机监控时, 可以针 对图像是否包含人脸对视频帧进行分级, 此时, 步骤 S101包括: 判断视频帧 中是否包含人脸, 若判断为是, 则确定视频帧的重要性等级高, 否则确定视频 帧的重要性等级低。
若监控目的是能够看清人物, 例如用于小区监控时, 可以针对图像是否包 含人物对视频帧进行分级, 此时, 步骤 S101包括: 判断视频帧中是否包含人 物, 若判断为是, 则确定视频帧的重要性等级为高, 否则确定视频帧的重要性 等级低。
若监控目的是记录某个动作发生时的情形, 例如用于超市监控时, 可以针 对图像是否包含预先定义的动作 (例如偷窃动作)对视频帧进行分级, 此时, 步骤 S101包括: 判断视频帧中是否包含预先定义的动作, 若判断为是, 则确 定视频帧的重要性等级高, 否则确定视频帧的重要性等级低。
若监控目的是记录某个事件发生时的情形, 例如用于街道、 酒吧等地的监 控时, 可以针对图像是否包含预先定义的事件(例如打斗事件 )对视频帧进行 分级, 此时, 步骤 S101包括: 判断视频帧中是否包含预先定义的事件, 若判 断为是, 则确定视频帧的重要性等级高, 否则确定视频帧的重要性等级低。
还可以将视频帧的重要性等级划分为三个或更多等级。例如, 若用于交通 监控时, 由于当有人脸时需要清晰记录人脸图像, 而当有车辆时仅仅需要记录 车辆的颜色、 种类等, 可以将重要性等级和对应的质量等级分为高、 中、 低三 个等级, 此时步骤 S101包括: 判断视频帧中是否包含人脸, 若判断视频帧中 是否包含人脸的判断结果为是, 则确定视频帧的重要性等级高, 若判断视频帧 中是否包含人脸的判断结果为否, 则继续判断视频帧中是否包含车辆, 若判断 视频帧中是否包含车辆的判断结果为是, 则确定媒体数据的重要性等级中, 若 判断视频帧中是否包含车辆的判断结果为否, 则确定媒体数据的重要性等级 低。
除了这些算法检测方式以外, 还可以借助人工触发方式来确定重要性等 级。 例如, 步骤 S101包括: 当接收到高质量触发控制信号时, 确定视频帧的 重要性等级高,当接收到低质量触发控制信号时,确定视频帧的重要性等级低, 所述高质量触发控制信号是与发送端通信相连的检测装置检测到预先定义的 高质量触发信号后发送的,所述低质量触发控制信号是所述检测装置检测到预 先定义的低质量触发信号后发送的。其中, 高质量触发信号和低质量触发信号 可以分别是门开关动作触发信号、 红外线触发信号等。 例如, 当用于夜间银行 监控时, 由于夜间银行的门禁系统仅允许一次进入一人, 因此可以在门上安装 动作传感器, 当门被首次开启时,表示有人进入,传感器接收高质量触发信号, 并生成高质量触发控制信号, 然后将高质量触发控制信号传送给发送端, 以便 发送端将视频帧的重要性等级设为高; 当门被再次开启时, 表示人已出去, 传 感器接收低质量触发信号, 并生成低质量触发控制信号, 然后将低质量触发控 制信号传送给发送端, 以便发送端将视频帧的重要性等级设为低。这种人工触 发方式由于不需要检测计算系统, 可以降低成本, 而且精度更高。
上述针对视频帧的检测算法可以是本领域技术人员熟知的任意合适算法, 由于仅需判断是否存在某个事物,而不需对这个事物的精确位置和大小等进行 检测, 因此本发明可以采用的检测算法较为筒单, 易于实现, 而且能尽量减少 误判断的情况, 提高精确度。
具体地, 步骤 102 中, 视频参数包括帧率和 /或分辨率。 当视频帧的帧率 和 /或分辨率较高时, 视频的质量也越高, 但是视频的数据量也越大。 对应于 预先划分的重要性等级, 同样可以对视频参数的质量等级进行划分。例如高重 要性等级的视频帧对应于高质量等级的视频参数, 如 1920*1080@30fps, 其中 1920*1080表示分辨率, 30fps ( 30帧 /秒)表示帧率; 中重要等级的视频帧对 应于中质量等级的视频参数, 如 1280*720@ 15fps; 低重要性等级的视频帧对 应于低质量等级的视频参数, 如 720*480@5fps。 相对于只采用一种固定的视 频参数对视频帧进行编码的方法,这种分级编码方法不仅能够提高重要性较高 的视频帧的清晰度,而且能够尽量减小数据量,降低存储容量和网络传输流量。
优选地, 通过在步骤 S102中发送第一编码视频帧以及第二编码视频帧给 接收端,使得接收端收到第一编码视频帧以及第二编码视频帧后对这些视频帧 分别进行解码,得到与第一编码视频帧对应的第一解码视频帧, 以及与第二编 码视频帧对应的第二解码视频帧;并将第二解码视频帧进行质量增强以匹配第 一解码视频帧,并根据第一解码视频帧以及进行质量增强后的第二解码视频帧 进行媒体数据的呈现。对具有较低质量的视频参数的视频帧进行质量增强, 例 如利用超分辨率技术等,可以将低质量的视频帧恢复到与高质量视频帧一致的 观看效果, 以避免用户在观看时由于视频参数的变化而产生不适。
在图 1所示的实施例中, 除了使用常规的采样、压缩等方式对视频帧进行 编码以外, 还可以采用可扩展视频编码(Scalable Video Coding, 筒称 SVC ) 方法。 SVC 方法将视频帧编码成分层的形式, 当带宽不足时只对基本层的码 流进行传输和解码, 但这时解码的视频质量不高, 当带宽慢慢变大时, 可以传 输和解码增强层的码流来提高视频的解码质量。
请参见图 2, 是本发明提供的利用 SVC方法对视频帧进行编码的流程图, 包括:
5200、利用 SVC方法将视频帧编码为分层码流。 SVC技术在时间、 空间、 质量上对视频帧进行划分, 输出多层码流(包括基本层和增强层), 其中基本 层的码流可以使接收端解码器完全正常的解码出基本视频内容,但^^本层的 码流获得的视频图像可能帧率较低、分辨率较低或者质量较低,增强层又可以 包括多个增强子层, 多传输一个增强子层的码流,接收端获得的视频的质量也 就越高。 当对视频质量要求不高时, 只对基本层的码流进行传输; 当对视频质 量要求逐渐升高时, 可以传输基本层加上增强层的码流来提高视频的解码质 量。
5201、 选择较多层分层码流作为具有较高质量视频参数的第一编码视频 帧,选择较少层分层码流作为具有较低质量视频参数的第二编码视频帧。例如, 将所有的分层码流作为具有较高质量视频参数的第一编码视频帧;将部分分层 码流(例如基本层的码流)作为具有较低质量视频参数的第二编码视频帧, 且 将其它的分层码流(例如增强层的码流)丢弃。
除了视频帧以外,媒体数据还可能包含音频信号。可以将视频帧的重要性 等级作为与其对应(相同时间戳)的音频信号的重要性等级, 并以相应质量的 音频参数对音频信号进行编码。或者, 可以单独根据音频信号的内容来确定音 频信号的重要性等级, 然后进行以相应质量的音频参数对音频信号进行编码。
请参见图 3 , 是本发明提供的音频信号处理方法的流程图, 该方法可以在 步骤 S100之后执行, 该方法包括:
5300、 确定所述音频信号的重要性等级。 具体地, 判断音频信号是否包含 人声, 若判断为是, 则确定音频信号的重要性等级高, 否则, 确定音频信号的 重要性等级低。 与视频帧类似,还可以将音频信号的重要性划分为三个或更多 等级。
5301、将重要性等级高的音频信号以较高质量的音频参数进行编码,得到 第一编码音频信号,将所述第一编码音频信号发送给接收端; 将重要性等级低 的音频信号以较低质量的音频参数进行编码,得到第二编码音频信号,将所述 第二编码音频信号发送给接收端。 其中, 音频参数包括采样率和 /或采样大小, 与视频参数类似, 采样率和 /或采样大小越高, 音频信号的质量也越高, 但是 数据量也越大。 音频参数的质量等级与音频信号的重要性等级也是对应的。
优选地, 通过步骤 S301中发送第一编码音频信号以及第二编码音频信号 给接收端,使得接收端收到第一编码音频信号以及第二编码音频信号后对这些 音频信号分别进行解码, 得到与第一编码音频信号对应的第一解码音频信号, 以及与第二解码音频信号对应的第二解码音频信号;并将第二解码音频信号进 行质量增强以匹配第一解码音频信号,并根据第一解码音频信号以及进行质量 增强后的第二解码音频信号进行媒体数据的呈现。对具有较低质量的音频参数 的音频信号进行质量增强,可以将低质量的音频信号恢复到与高质量音频信号 一致的播放效果, 以避免用户在收听时由于音频参数的变化而产生不适。
优选地, 步骤 S102和 S301之后, 或者在执行 S102和 S301的同时, 还 包括: 将同步信号发送给接收端,使得接收端在呈现媒体数据时根据同步信号 将音频信号与视频帧同步。
在图 1-3 所示的实施例中, 采集端都是以设定的视频参数采集视频帧和 / 或以设定的音频参数采集音频信号, 且在发送端对视频帧和 /或音频信号进行 不同质量的编码。在本发明的其它实施例中,还可以在采集端以不同的视频参 数采集视频帧和 /或以不同的音频参数采集音频信号, 且在发送端其视频参数 和 /或音频参数进行压缩编码, 该实施例将参考图 4进行举例说明。 例流程图, 该方法包括:
5400、 接收来自采集端的媒体数据, 所述媒体数据包括视频帧。
5401、根据预设时长内的视频帧确定将要采集的视频帧的重要性等级。例 如, 可以根据 0.1s内的视频帧确定将要采集的视频帧的重要性等级。
5402、将指示所述重要性等级的采集控制信息发送给采集端,使得所述采 集端以较高质量的视频参数采集重要性等级高的视频帧, 得到第一采集视频 帧;以较低质量的视频参数采集重要性等级低的视频帧,得到第二采集视频帧。
5403、对所述第一采集视频帧以及所述第二采集视频帧进行编码,分别得 到第一编码视频帧和第二编码视频帧,将所述第一编码视频帧以及所述第二编 码视频帧发送给接收端。
本发明实施例提供的媒体数据处理方法,通过对视频帧进行帧间重要性等 级划分, 然后对重要性等级高的视频帧以较高质量的视频参数进行采集,对重 要性等级低的视频帧以较低质量的视频参数进行采集,相比现有技术中对视频 帧进行帧内重要性等级划分, 能够提高精确度, 筒化算法。
同样地, 当媒体数据包含音频信号时, 步骤 S400之后还包括: 根据预设 时长内的音频信号确定将要采集的音频信号的重要性等级;将指示所述重要性 等级的采集控制信息发送给采集端,使得所述采集端以较高质量的音频参数采 集重要性等级高的音频信号,得到第一采集音频信号; 以较低质量的音频参数 采集重要性等级低的音频信号,得到第二采集音频信号; 对所述第一采集音频 信号以及所述第二采集音频信号进行编码,分别得到第一编码音频信号和第二 编码音频信号,将所述第一编码音频信号以及所述第二编码音频信号发送给接 收端。
在图 4所示的实施例中, 在确定视频帧和 /或音频信号的重要性等级发生 变化时, 该时刻用于确定重要性等级的预设时长内的视频帧和 /或音频信号仍 然是沿用原来的视频参数和 /或音频参数进行采集的, 因此这段时间内的媒体 数据的质量是存在偏差的。 但是, 由于步骤 S401中采用的检测算法可能很筒 单, 能够达到较高较快的计算速度, 因此质量等级切换过程可能只需延误 1~2 帧的时间, 而如此小的数据量对整体媒体数据的质量产生的影响可以忽略不 计。
除了在通过确定视频帧和 /或音频信号的重要性等级来控制采集时的视频 参数和 /或音频参数、以及在编码时沿用采集时的视频参数和 /或编码参数以外, 图 4所示的实施例以及基于该实施例的变形与图 1、 3所示的实施例类似, 因 此不再赘述。
请参见图 5 , 是本发明提供的发送端 500的结构示意图, 包括:
媒体数据获取模块 510, 用于接收来自采集端的媒体数据, 所述媒体数据 包括视频帧。
视频重要性等级确定模块 520, 用于确定所述视频帧的重要性等级。
视频编码模块 530, 用于将重要性等级高的视频帧以较高质量的视频参数 进行编码,得到第一编码视频帧; 将重要性等级低的视频帧以较低质量的视频 参数进行编码, 得到第二编码视频帧。
视频发送模块 540, 用于将所述第一编码视频帧以及所述第二编码视频帧 发送给接收端。
本发明实施例提供的发送端,通过对视频帧进行帧间重要性等级划分, 然 后对重要性等级高的视频帧以较高质量的视频参数进行编码,对重要性等级低 的视频帧以较低质量的视频参数进行编码,相比现有技术中对视频帧进行帧内 重要性等级划分, 能够提高精确度, 筒化算法。
具体地, 可以预先对视频帧的重要性等级进行划分和定义, 例如可以将视 频帧的重要性等级划分为高和低两个等级、 高中低三个等级或者更多等级。
若监控目的是能够清晰地看到人脸,例如用于银行取款机监控时, 可以针 对图像是否包含人脸对视频帧进行分级, 此时, 视频重要性等级确定模块 520 用于: 判断视频帧中是否包含人脸, 若判断为是, 则确定视频帧的重要性等级 高, 否则确定视频帧的重要性等级低。
若监控目的是能够看清人物, 例如用于小区监控时, 可以针对图像是否包 含人物对视频帧进行分级, 此时, 视频重要性等级确定模块 520用于: 判断视 频帧中是否包含人物, 若判断为是, 则确定视频帧的重要性等级为高, 否则确 定视频帧的重要性等级低。 若监控目的是记录某个动作发生时的情形, 例如用于超市监控时, 可以针 对图像是否包含预先定义的动作 (例如偷窃动作)对视频帧进行分级, 此时, 视频重要性等级确定模块 520用于: 判断视频帧中是否包含预先定义的动作, 若判断为是,则确定视频帧的重要性等级高,否则确定视频帧的重要性等级低。
若监控目的是记录某个事件发生时的情形, 例如用于街道、 酒吧等地的监 控时, 可以针对图像是否包含预先定义的事件(例如打斗事件 )对视频帧进行 分级, 此时, 视频重要性等级确定模块 520用于: 判断视频帧中是否包含预先 定义的事件, 若判断为是, 则确定视频帧的重要性等级高, 否则确定视频帧的 重要性等级低。
还可以将视频帧的重要性等级划分为三个或更多等级。例如, 若用于交通 监控时, 由于当有人脸时需要清晰记录人脸图像, 而当有车辆时仅仅需要记录 车辆的颜色、 种类等, 可以将重要性等级和对应的质量等级分为高、 中、 低三 个等级,此时视频重要性等级确定模块 520用于:判断视频帧中是否包含人脸, 若判断视频帧中是否包含人脸的判断结果为是, 则确定视频帧的重要性等级 高, 若判断视频帧中是否包含人脸的判断结果为否, 则继续判断视频帧中是否 包含车辆, 若判断视频帧中是否包含车辆的判断结果为是, 则确定媒体数据的 重要性等级中, 若判断视频帧中是否包含车辆的判断结果为否, 则确定媒体数 据的重要性等级低。
除了这些算法检测方式以外, 还可以借助人工触发方式来确定重要性等 级。 例如, 视频重要性等级确定模块 520用于: 当接收到高质量触发控制信号 时, 确定视频帧的重要性等级高, 当接收到低质量触发控制信号时, 确定视频 帧的重要性等级低,所述高质量触发控制信号是与发送端通信相连的检测装置 检测到预先定义的高质量触发信号后发送的,所述低质量触发控制信号是所述 检测装置检测到预先定义的低质量触发信号后发送的。其中, 高质量触发信号 和低质量触发信号可以分别是门开关动作触发信号、红外线触发信号等。例如, 当用于夜间银行监控时, 由于夜间银行的门禁系统仅允许一次进入一人, 因此 可以在门上安装动作传感器, 当门被首次开启时, 表示有人进入, 传感器接收 高质量触发信号, 并生成高质量触发控制信号, 然后将高质量触发控制信号传 送给发送端, 以便发送端将视频帧的重要性等级设为高; 当门被再次开启时, 表示人已出去, 传感器接收低质量触发信号, 并生成低质量触发控制信号, 然 后将低质量触发控制信号传送给发送端,以便发送端将视频帧的重要性等级设 为低。 这种人工触发方式由于不需要检测计算系统, 可以降低成本, 而且精度 更高。
上述针对视频帧的检测算法可以是本领域技术人员熟知的任意合适算法, 由于仅需判断是否存在某个事物,而不需对这个事物的精确位置和大小等进行 检测, 因此本发明可以采用的检测算法较为筒单, 易于实现, 而且能尽量减少 误判断的情况, 提高精确度。
具体地, 视频参数包括帧率和 /或分辨率。 当视频帧的帧率和 /或分辨率较 高时, 视频的质量也越高, 但是视频的数据量也越大。 对应于预先划分的重要 性等级, 同样可以对视频参数的质量等级进行划分。例如高重要性等级的视频 帧对应于高质量等级的视频参数, 如 1920*1080@30fps, 其中 1920*1080表示 分辨率, 30fps ( 30帧 /秒)表示帧率; 中重要等级的视频帧对应于中质量等级 的视频参数, 如 1280*720@ 15fps; 低重要性等级的视频帧对应于低质量等级 的视频参数, 如 720*480@5fps。 相对于只采用一种固定的视频参数对视频帧 进行编码的方法,这种分级编码方法不仅能够提高重要性较高的视频帧的清晰 度, 而且能够尽量减小数据量, 降低存储容量和网络传输流量。
在图 5所示的实施例中, 除了使用常规的采样、压缩等方式对视频帧进行 编码以外, 视频编码模块 530还可以采用 SVC方法。 SVC方法将视频帧编码 成分层的形式, 当带宽不足时只对基本层的码流进行传输和解码,但这时解码 的视频质量不高, 当带宽慢慢变大时, 可以传输和解码增强层的码流来提高视 频的解码质量。
请参见图 6, 是本发明提供的利用 SVC方法对视频帧进行编码的的视频 编码模块 600的结构示意图, 包括:
视频分层模块 610, 用于利用 SVC方法将视频帧编码为分层码流。
视频码流选择模块 620, 用于选择较多层分层码流作为具有较高质量视频 参数的第一编码视频帧,选择较少层分层码流作为具有较低质量视频参数的第 二编码视频帧。
除了视频帧以外,媒体数据还可能包含音频信号。可以将视频帧的重要性 等级作为与其对应(相同时间戳)的音频信号的重要性等级, 并以相应质量的 音频参数对音频信号进行编码。或者, 可以单独根据音频信号的内容来确定音 频信号的重要性等级, 然后进行以相应质量的音频参数对音频信号进行编码。
请参见图 7, 是本发明提供的发送端 700的结构示意图, 除了媒体数据获 取模块 510、 视频重要性等级确定模块 520、 视频编码模块 530和视频发送模 块 540, 发送端 600还包括:
音频重要性等级确定模块 550, 用于确定所述音频信号的重要性等级。 具 体地, 音频重要性等级确定模块 550用于: 判断音频信号是否包含人声, 若判 断为是, 则确定音频信号的重要性等级高, 否则, 确定音频信号的重要性等级 低。 与视频帧类似, 还可以将音频信号的重要性划分为三个或更多等级。
音频编码模块 560, 用于将重要性等级高的音频信号以较高质量的音频参 数进行编码,得到第一编码音频信号; 将重要性等级低的音频信号以较低质量 的音频参数进行编码, 得到第二编码音频信号。 其中, 音频参数包括采样率和 /或采样大小, 与视频参数类似, 采样率和 /或采样大小越高, 音频信号的质量 也越高,但是数据量也越大。音频参数的质量等级与音频信号的重要性等级也 是对应的。
音频发送模块 570, 用于将所述第一编码音频信号以及所述第二编码音频 信号发送给接收端。
优选地, 发送端还包括: 同步信号发送模块, 用于将同步信号发送给接收 端, 使得接收端在呈现媒体数据时根据同步信号将音频信号与视频帧同步。
在图 5-7 所示的实施例中, 采集端都是以设定的视频参数采集视频帧和 / 或以设定的音频参数采集音频信号, 且在发送端对视频帧和 /或音频信号进行 不同质量的编码。在本发明的其它实施例中,还可以在采集端以不同的视频参 数采集视频帧和 /或以不同的音频参数采集音频信号, 且在发送端其视频参数 和 /或音频参数进行压缩编码, 该实施例将参考图 8进行举例说明。
请参见图 8,是本发明提供的发送端 800的结构示意图,发送端 800包括: 媒体数据获取模块 810, 用于接收来自采集端的媒体数据, 所述媒体数据 包括视频帧。
视频重要性等级确定模块 820, 用于根据预设时长内的视频帧确定将要采 集的视频帧的重要性等级。 例如, 可以根据 0.1s 内的视频帧确定将要采集的 视频帧的重要性等级。
视频采集控制模块 830, 用于将指示所述重要性等级的采集控制信息发送 给采集端, 使得所述采集端以较高质量的视频参数采集重要性等级高的视频 帧,得到第一采集视频帧;以较低质量的视频参数采集重要性等级低的视频帧, 得到第二采集视频帧。
视频编码模块 840, 用于对所述第一采集视频帧以及所述第二采集视频帧 进行编码, 分别得到第一编码视频帧和第二编码视频帧。
视频发送模块 850, 用于将所述第一编码视频帧以及所述第二编码视频帧 发送给接收端。
本发明实施例提供的发送端,通过对视频帧进行帧间重要性等级划分, 然 后对重要性等级高的视频帧以较高质量的视频参数进行采集,对重要性等级低 的视频帧以较低质量的视频参数进行采集,相比现有技术中对视频帧进行帧内 重要性等级划分, 能够提高精确度, 筒化算法。
同样地, 当媒体数据包含音频信号时, 发送端 800还包括: 音频重要性等 级确定模块,用于根据预设时长内的音频信号确定将要采集的音频信号的重要 性等级; 音频采集控制模块, 用于将指示所述重要性等级的采集控制信息发送 给采集端,使得所述采集端以较高质量的音频参数采集重要性等级高的音频信 号,得到第一采集音频信号; 以较低质量的音频参数采集重要性等级低的音频 信号, 得到第二采集音频信号; 音频编码模块, 用于对所述第一采集音频信号 以及所述第二采集音频信号进行编码,分别得到第一编码音频信号和第二编码 音频信号; 音频发送模块, 用于将所述第一编码音频信号以及所述第二编码音 频信号发送给接收端。
请参见图 9, 是本发明提供的接收端执行的媒体数据处理方法的第一实施 例流程图, 包括:
5900、接收并保存来自发送端的媒体数据,所述媒体数据包括第一编码视 频帧和第二编码视频帧, 所述第一编码视频帧具有较高质量的视频参数,所述 第二编码视频帧具有较低质量的视频参数。
5901、分别对所述第一编码视频帧和所述第二编码视频帧进行解码,得到 与所述第一编码视频帧对应的第一解码视频帧以及与所述第二编码视频帧对 应的第二解码视频帧,将所述第二解码视频帧进行质量增强以匹配所述第一解 码视频帧,并根据所述第一解码视频帧以及进行质量增强后的第二解码视频帧 进行媒体数据的呈现。
本发明实施例对具有较低质量的视频参数的视频帧进行质量增强,例如利 用超分辨率技术等,可以将低质量的视频帧恢复到与高质量视频帧一致的观看 效果, 以避免用户在观看时由于视频参数的变化而产生不适。
请参见图 10, 是本发明提供的接收端执行的音频信号处理方法的流程图, 该方法可以在步骤 S900之后执行,其中步骤 S900中的媒体数据包含第一编码 音频信号和第二编码音频信号, 第一编码音频信号具有较高质量的音频参数, 第二编码音频信号具有较低质量的音频参数, 所述方法包括:
S1000、分别对所述第一编码音频信号和所述第二编码音频信号进行解码, 得到与所述第一编码音频信号对应的第一解码音频信号以及与所述第二编码 音频信号对应的第二解码音频信号,将所述第二解码音频信号进行质量增强以 匹配所述第一解码音频信号,并根据所述第一解码音频信号以及进行质量增强 后的第二解码音频信号进行媒体数据的呈现。
本发明实施例对具有较低质量的音频参数的音频信号进行质量增强,可以 将低质量的音频信号恢复到与高质量音频信号一致的播放效果,以避免用户在 收听时由于音频参数的变化而产生不适。
优选地, 本方法还包括: 接收来自发送端的同步信号, 并在呈现媒体数据 时根据所述同步信号将音频信号与视频帧同步。
图 11是本发明提供的接收端 1100的结构示意图, 包括:
媒体数据接收模块 mo, 用于接收并保存来自发送端的媒体数据, 所述 媒体数据包括第一编码视频帧和第二编码视频帧,所述第一编码视频帧具有较 高质量的视频参数, 所述第二编码视频帧具有较低质量的视频参数。
视频解码模块 1120, 用于分别对所述第一编码视频帧和所述第二编码视 频帧进行解码 ,得到与所述第一编码视频帧对应的第一解码视频帧以及与所述 第二编码视频帧对应的第二解码视频帧。
视频增强模块 1130, 用于将所述第二解码视频帧进行质量增强以匹配所 述第一解码视频帧。
视频呈现模块 1140, 用于根据所述第一解码视频帧以及进行质量增强后 的第二解码视频帧进行媒体数据的呈现。 视频呈现模块 1140可以是各种类型 的显示屏。
图 12是本发明提供的接收端 1200的结构示意图, 接收端 1200包括媒体 数据接收模块 1110、 视频解码模块 1120、 视频增强模块 1130和视频呈现模块 1140, 其中媒体数据接收模块 1110接收的媒体数据还包括第一编码音频信号 和第二编码音频信号, 第一编码音频信号具有较高质量的音频参数, 第二编码 音频信号具有较低质量的音频参数。 接收端 1200还包括:
音频解码模块 1150, 用于分别对所述第一编码音频信号和所述第二编码 音频信号进行解码,得到与所述第一编码音频信号对应的第一解码音频信号以 及与所述第二编码音频信号对应的第二解码音频信号。
音频增强模块 1160, 用于将所述第二解码音频信号进行质量增强以匹配 所述第一解码音频信号。
音频呈现模块 1170, 用于根据所述第一解码音频信号以及进行质量增强 后的第二解码音频信号进行媒体数据的呈现。 音频呈现模块 1170可以是各种 类型的扬声器。
优选地, 接收端 1200还包括:
同步模块, 用于接收来自发送端的同步信号, 并在呈现媒体数据时根据所 述同步信号将音频信号与视频帧同步。
本发明实施例提供的媒体数据处理方法及设备,可以有效地减少网络流量 和存储容量,从而降低传输成本和存储成本。例如在一个具有 100台摄像机的 监控系统中, 若保持以视频参数为 1920*1080@30fps 来处理视频帧, 需要的 带宽为 10Mbps, 如果保持 24小时 *7天的监控, 每周该监控系统需要传输和 存储高达 740GB的视频数据。 但是假设这些视频数据中有 30%为重要数据, 利用本发明, 在没有发现重要内容时(即确定视频帧的重要性等级低时)将视 频帧的视频参数降低到 720*480@ 10fps, 此时需要的带宽仅为 0.5Mbps, 每周 需要传输和存储的视频数据只有 250GB, 也就是说, 减少了约 2/3的数据量。 另外, 本发明不仅可以有效减少媒体数据的传输代价和存储代价,还可以降低 对应的电量消耗, 实现绿色环保监控。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算 机可读取存储介质中, 该程序在执行(如通过 CPU执行) 时, 可包括如上述 各方法的实施例的流程。 其中, 所述的存储介质可为磁碟、 光盘、硬盘、 内存、 闪存(flash )等。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发 明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流 程, 并依本发明权利要求所作的等同变化, 仍属于发明所涵盖的范围。

Claims

权 利 要 求
1、 一种媒体数据处理方法, 其特征在于, 包括:
接收来自采集端的媒体数据, 所述媒体数据包括视频帧;
确定所述视频帧的重要性等级;
将重要性等级高的视频帧以较高质量的视频参数进行编码,得到第一编码 视频帧, 将所述第一编码视频帧发送给接收端;
将重要性等级低的视频帧以较低质量的视频参数进行编码,得到第二编码 视频帧, 将所述第二编码视频帧发送给所述接收端。
2、 如权利要求 1所述的方法, 其特征在于, 所述将重要性等级高的视频 帧以较高质量的视频参数进行编码, 包括:
利用可扩展视频编码方法将所述视频帧编码为分层码流;
选择较多层分层码流作为具有较高质量视频参数的第一编码视频帧; 所述将重要性等级低的视频帧以较低质量的编码参数进行编码, 包括: 利用可扩展视频编码方法将所述视频帧编码为分层码流;
选择较少层分层码流作为具有较低质量视频参数的第二编码视频帧。
3、 如权利要求 1或 2所述的方法, 其特征在于, 所述方法还包括: 通过发送所述第一编码视频帧以及所述第二编码视频帧给所述接收端,使 得所述接收端收到所述第一编码视频帧以及所述第二编码视频帧后对这些视 频帧分别进行解码,得到与所述第一编码视频帧对应的第一解码视频帧, 以及 与所述第二编码视频帧对应的第二解码视频帧;并将所述第二解码视频帧进行 质量增强以匹配所述第一解码视频帧,并根据所述第一解码视频帧以及进行质 量增强后的第二解码视频帧进行媒体数据的呈现。
4、 如权利要求 1-3 中任一项所述的方法, 其特征在于, 所述视频参数包 括帧率和 /或分辨率。
5、 如权利要求 1-4中任一项所述的方法, 其特征在于, 所述确定所述视 频帧的重要性等级, 包括:
判断所述视频帧中是否包含人脸, 若判断为是, 则确定所述视频帧的重要 性等级高, 否则确定所述视频帧的重要性等级低; 和 /或
判断所述视频帧中是否包含人物, 若判断为是, 则确定所述视频帧的重要 性等级高, 否则确定所述视频帧的重要性等级低; 和 /或
判断所述视频帧中是否包含预先定义的动作, 若判断为是, 则确定所述视 频帧的重要性等级高, 否则确定所述视频帧的重要性等级低; 和 /或
判断所述视频帧中是否包含预先定义的事件, 若判断为是, 则确定所述视 频帧的重要性等级高, 否则确定所述视频帧的重要性等级低。
6、 如权利要求 1-4中任一项所述的方法, 其特征在于, 所述确定所述视 频帧的重要性等级, 包括:
当接收到高质量触发控制信号时,确定所述视频帧的重要性等级高, 当接 收到低质量触发控制信号时,确定视频帧的重要性等级低, 所述高质量触发控 制信号是与发送端通信相连的检测装置检测到预先定义的高质量触发信号后 发送的,所述低质量触发控制信号是所述检测装置检测到预先定义的低质量触 发信号后发送的。
7、 如权利要求 1-4中任一项所述的方法, 其特征在于, 所述确定所述视 频帧的重要性等级, 包括:
判断所述视频帧中是否包含人脸,若所述判断所述视频帧中是否包含人脸 的判断结果为是, 则确定所述视频帧的重要性等级高; 若所述判断所述视频帧 中是否包含人脸的判断结果为否, 则继续判断所述视频帧中是否包含车辆, 若
所述视频帧的重要性等级低。
8、 如权利要求 1所述的方法, 其特征在于, 所述媒体数据还包括音频信 号, 所述方法还包括: 确定所述音频信号的重要性等级;
将重要性等级高的音频信号以较高质量的音频参数进行编码,得到第一编 码音频信号, 将所述第一编码音频信号发送给接收端;
将重要性等级低的音频信号以较低质量的音频参数进行编码,得到第二编 码音频信号, 将所述第二编码音频信号发送给接收端。
9、 如权利要求 8所述的方法, 其特征在于, 所述方法还包括:
通过发送所述第一编码音频信号以及所述第二编码音频信号给所述接收 端,使得所述接收端收到所述第一编码音频信号以及所述第二编码音频信号后 对这些音频信号分别进行解码,得到与所述第一编码音频信号对应的第一解码 音频信号, 以及与所述第二解码音频信号对应的第二解码音频信号; 并将所述 第二解码音频信号进行质量增强以匹配所述第一解码音频信号,并根据所述第 一解码音频信号以及进行质量增强后的第二解码音频信号进行媒体数据的呈 现。
10、 如权利要求 8或 9所述的方法, 其特征在于, 所述方法还包括: 将同步信号发送给接收端,使得所述接收端在呈现媒体数据时根据所述同 步信号将音频信号与视频帧同步。
11、 如权利要求 8-10 中任一项所述的方法, 其特征在于, 所述音频参数 包括采样率和 /或采样大小。
12、 如权利要求 8-11 中任一项所述的方法, 其特征在于, 所述确定所述 音频信号的重要性等级, 包括:
判断所述音频信号中是否包含人声,若判断为是, 则确定所述音频信号的 重要性等级高, 否则确定所述音频信号的重要性等级低。
13、 一种媒体数据处理方法, 其特征在于, 包括:
接收来自采集端的媒体数据, 所述媒体数据包括视频帧; 根据预设时长内的视频帧确定将要采集的视频帧的重要性等级; 将指示所述重要性等级的采集控制信息发送给采集端,使得所述采集端以 较高质量的视频参数采集重要性等级高的视频帧,得到第一采集视频帧; 以较 低质量的视频参数采集重要性等级低的视频帧, 得到第二采集视频帧;
对所述第一采集视频帧以及所述第二采集视频帧进行编码,分别得到第一 编码视频帧和第二编码视频帧,将所述第一编码视频帧以及所述第二编码视频 帧发送给接收端。
14、 如权利要求 13所述的方法, 其特征在于, 所述媒体数据还包括音频 信号, 所述方法还包括:
根据预设时长内的音频信号确定将要采集的音频信号的重要性等级; 将指示所述重要性等级的采集控制信息发送给采集端,使得所述采集端以 较高质量的音频参数采集重要性等级高的音频信号, 得到第一采集音频信号; 以较低质量的音频参数采集重要性等级低的音频信号, 得到第二采集音频信 对所述第一采集音频信号以及所述第二采集音频信号进行编码,分别得到 第一编码音频信号和第二编码音频信号,将所述第一编码音频信号以及所述第 二编码音频信号发送给接收端。
15、 一种媒体数据处理方法, 其特征在于, 包括:
接收并保存来自发送端的媒体数据,所述媒体数据包括第一编码视频帧和 第二编码视频帧,所述第一编码视频帧具有较高质量的视频参数, 所述第二编 码视频帧具有较低质量的视频参数;
分别对所述第一编码视频帧和所述第二编码视频帧进行解码 ,得到与所述 第一编码视频帧对应的第一解码视频帧以及与所述第二编码视频帧对应的第 二解码视频帧,将所述第二解码视频帧进行质量增强以匹配所述第一解码视频 帧,并根据所述第一解码视频帧以及进行质量增强后的第二解码视频帧进行媒 体数据的呈现。
16、 如权利要求 15所述的方法, 其特征在于, 所述媒体数据还包括第一 编码音频信号和第二编码音频信号,所述第一编码音频信号具有较高质量的音 频参数, 所述第二编码音频信号具有较低质量的音频参数; 所述方法还包括: 分别对所述第一编码音频信号和所述第二编码音频信号进行解码,得到与 所述第一编码音频信号对应的第一解码音频信号以及与所述第二编码音频信 号对应的第二解码音频信号,将所述第二解码音频信号进行质量增强以匹配所 述第一解码音频信号,并根据所述第一解码音频信号以及进行质量增强后的第 二解码音频信号进行媒体数据的呈现。
17、 如权利要求 15或 16所述的方法, 其特征在于, 所述方法还包括: 接收来自发送端的同步信号,并在呈现媒体数据时根据所述同步信号将音 频信号与视频帧同步。
18、 一种发送端, 其特征在于, 包括:
媒体数据获取模块, 用于接收来自采集端的媒体数据,所述媒体数据包括 视频帧;
视频重要性等级确定模块, 用于确定所述视频帧的重要性等级; 视频编码模块,用于将重要性等级高的视频帧以较高质量的视频参数进行 编码,得到第一编码视频帧; 将重要性等级低的视频帧以较低质量的视频参数 进行编码, 得到第二编码视频帧;
视频发送模块,用于将所述第一编码视频帧以及所述第二编码视频帧发送 给接收端。
19、 如权利要求 18所述的发送端, 其特征在于, 所述视频编码模块包括: 视频分层模块,用于利用可扩展视频编码方法将所述视频帧编码为分层码 流;
视频码流选择模块,用于选择较多层分层码流作为具有较高质量视频参数 的第一编码视频帧,选择较少层分层码流作为具有较低质量视频参数的第二编 码视频帧。
20、 如权利要求 18所述的发送端, 其特征在于, 所述媒体数据还包括音 频信号, 所述发送端还包括:
音频重要性等级确定模块, 用于确定所述音频信号的重要性等级; 音频编码模块,用于将重要性等级高的音频信号以较高质量的音频参数进 行编码,得到第一编码音频信号; 将重要性等级低的音频信号以较低质量的音 频参数进行编码, 得到第二编码音频信号;
音频发送模块,用于将所述第一编码音频信号以及所述第二编码音频信号 发送给接收端。
21、 一种发送端, 其特征在于, 包括:
媒体数据获取模块, 用于接收来自采集端的媒体数据, 所述媒体数据包括 视频帧;
视频重要性等级确定模块,用于根据预设时长内的视频帧确定将要采集的 视频帧的重要性等级;
视频采集控制模块,用于将指示所述重要性等级的采集控制信息发送给采 集端,使得所述采集端以较高质量的视频参数采集重要性等级高的视频帧,得 到第一采集视频帧; 以较低质量的视频参数采集重要性等级低的视频帧,得到 第二采集视频帧;
视频编码模块,用于对通过所述媒体数据获取模块接收的所述第一采集视 频帧以及所述第二采集视频帧进行编码,分别得到第一编码视频帧和第二编码 视频帧;
视频发送模块,用于将所述第一编码视频帧以及所述第二编码视频帧发送 给接收端。
22、 如权利要求 21所述的发送端, 其特征在于, 所述媒体数据还包括音 频信号, 所述发送端还包括:
音频重要性等级确定模块,用于根据预设时长内的音频信号确定将要采集 的音频信号的重要性等级; 音频采集控制模块,用于将指示所述重要性等级的采集控制信息发送给采 集端, 使得所述采集端以较高质量的音频参数采集重要性等级高的音频信号, 得到第一采集音频信号; 以较低质量的音频参数采集重要性等级低的音频信 号, 得到第二采集音频信号;
音频编码模块,用于对通过所述媒体数据获取模块接收的所述第一采集音 频信号以及所述第二采集音频信号进行编码,分别得到第一编码音频信号和第 二编码音频信号;
音频发送模块,用于将所述第一编码音频信号以及所述第二编码音频信号 发送给接收端。
23、 一种接收端, 其特征在于, 包括:
媒体数据接收模块, 用于接收并保存来自发送端的媒体数据, 所述媒体数 据包括第一编码视频帧和第二编码视频帧,所述第一编码视频帧具有较高质量 的视频参数, 所述第二编码视频帧具有较低质量的视频参数;
视频解码模块,用于分别对所述第一编码视频帧和所述第二编码视频帧进 行解码,得到与所述第一编码视频帧对应的第一解码视频帧以及与所述第二编 码视频帧对应的第二解码视频帧;
视频增强模块,用于将所述第二解码视频帧进行质量增强以匹配所述第一 解码视频帧;
视频呈现模块,用于根据所述第一解码视频帧以及进行质量增强后的第二 解码视频帧进行媒体数据的呈现。
24、 如权利要求 23所述的接收端, 其特征在于, 所述媒体数据还包括第 一编码音频信号和第二编码音频信号,所述第一编码音频信号具有较高质量的 音频参数, 所述第二编码音频信号具有较低质量的音频参数; 所述接收端还包 括:
音频解码模块,用于分别对所述第一编码音频信号和所述第二编码音频信 号进行解码,得到与所述第一编码音频信号对应的第一解码音频信号以及与所 述第二编码音频信号对应的第二解码音频信号; 音频增强模块,用于将所述第二解码音频信号进行质量增强以匹配所述第 一解码音频信号;
音频呈现模块,用于根据所述第一解码音频信号以及进行质量增强后的第 二解码音频信号进行媒体数据的呈现。
25. 如权利要求 23或 24所述的接收端,其特征在于,所述接收端还包括: 同步模块, 用于接收来自发送端的同步信号, 并在呈现媒体数据时根据所 述同步信号将音频信号与视频帧同步。
PCT/CN2012/083874 2012-05-16 2012-10-31 一种媒体数据处理方法及设备 WO2013170590A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201210150838.X 2012-05-16
CN201210150838.XA CN103428483B (zh) 2012-05-16 2012-05-16 一种媒体数据处理方法及设备

Publications (1)

Publication Number Publication Date
WO2013170590A1 true WO2013170590A1 (zh) 2013-11-21

Family

ID=49583066

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2012/083874 WO2013170590A1 (zh) 2012-05-16 2012-10-31 一种媒体数据处理方法及设备

Country Status (2)

Country Link
CN (1) CN103428483B (zh)
WO (1) WO2013170590A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016025485A2 (en) * 2014-08-14 2016-02-18 Qualcomm Incorporated Detection of action frames of a video stream
CN105096595A (zh) * 2015-06-30 2015-11-25 北京奇虎科技有限公司 基于行车记录仪的数据传输方法及装置
CN106559635A (zh) * 2015-09-30 2017-04-05 杭州萤石网络有限公司 一种多媒体文件的播放方法及装置
CN108713318A (zh) * 2016-10-31 2018-10-26 华为技术有限公司 一种视频帧的处理方法及设备
CN106507107B (zh) * 2016-12-08 2019-07-05 北京数码视讯科技股份有限公司 数据的处理方法和装置
CN109819262B (zh) * 2019-03-06 2021-06-01 深圳市道通智能航空技术股份有限公司 编码方法、图像编码器及图像传输系统
CN113573065A (zh) * 2020-04-28 2021-10-29 华为技术有限公司 一种多媒体数据编码方法和装置
CN111586443B (zh) * 2020-05-21 2022-06-10 上海大因多媒体技术有限公司 一种基于h.265协议分布式系统的信息输出方法及系统
EP4138396A4 (en) * 2020-05-21 2023-07-05 Huawei Technologies Co., Ltd. AUDIO DATA TRANSMISSION METHOD AND DEVICE ASSOCIATED
CN113115107B (zh) * 2021-04-15 2021-12-28 深圳鸿祥源科技有限公司 一种基于5g网络的手持视频采集终端系统
CN114466224B (zh) * 2022-01-26 2024-04-16 广州繁星互娱信息科技有限公司 视频数据的编解码方法和装置、存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030107648A1 (en) * 2001-12-12 2003-06-12 Richard Stewart Surveillance system and method with adaptive frame rate
CN101164344A (zh) * 2005-03-01 2008-04-16 高通股份有限公司 感兴趣区域视频编码的内容自适应背景跳过
CN101742294A (zh) * 2008-11-14 2010-06-16 北京中星微电子有限公司 一种提高监控视频压缩率的方法和设备
CN102204244A (zh) * 2008-06-23 2011-09-28 锐迪讯有限公司 提供级联的多点视频会议单元的系统、方法和介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7643056B2 (en) * 2005-03-14 2010-01-05 Aptina Imaging Corporation Motion detecting camera system
CN101193261B (zh) * 2007-03-28 2010-07-21 腾讯科技(深圳)有限公司 一种视频通信系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030107648A1 (en) * 2001-12-12 2003-06-12 Richard Stewart Surveillance system and method with adaptive frame rate
CN101164344A (zh) * 2005-03-01 2008-04-16 高通股份有限公司 感兴趣区域视频编码的内容自适应背景跳过
CN102204244A (zh) * 2008-06-23 2011-09-28 锐迪讯有限公司 提供级联的多点视频会议单元的系统、方法和介质
CN101742294A (zh) * 2008-11-14 2010-06-16 北京中星微电子有限公司 一种提高监控视频压缩率的方法和设备

Also Published As

Publication number Publication date
CN103428483B (zh) 2017-10-17
CN103428483A (zh) 2013-12-04

Similar Documents

Publication Publication Date Title
WO2013170590A1 (zh) 一种媒体数据处理方法及设备
CN108810636B (zh) 视频播放方法、虚拟现实设备、服务器、系统及存储介质
CN110868600B (zh) 目标跟踪视频推流方法、显示方法、装置和存储介质
CN100589567C (zh) 视频数据的处理方法及存储设备
CN101917613B (zh) 一种流媒体采集编码服务系统
WO2020001536A1 (zh) 一种信息处理方法、装置和系统
CN105338323A (zh) 一种视频监控方法及装置
US20200304552A1 (en) Immersive Media Metrics For Rendered Viewports
TW201824873A (zh) 用於播放經記錄視訊之方法與系統
CN102158690A (zh) 远程多路实时视频监控系统
CN103220530A (zh) 用于智能监控的高分辨率图像处理系统及方法
CN101909210A (zh) 一种网络流媒体服务器及其低带宽高质量解决方法
CN112584083B (zh) 视频播放方法、系统、电子设备和存储介质
WO2015000337A1 (zh) 视频传输方法及设备
CN101546377A (zh) 人脸图像抓取系统及方法
CN101102497A (zh) 一种图像处理装置和方法
CN102196249A (zh) 监控数据回放方法及编码器、视频管理服务器
CN111709928A (zh) 一种基于视频的近岸浪高实时检测系统
CN108810468B (zh) 一种优化显示效果的视频传输装置及方法
CN105187688B (zh) 一种对手机采集的实时视频和音频进行同步的方法及系统
US20110161515A1 (en) Multimedia stream recording method and program product and device for implementing the same
JP4735666B2 (ja) コンテンツサーバ、情報処理装置、ネットワーク機器、コンテンツ配信方法、情報処理方法およびコンテンツ配信システム
CN203313317U (zh) 网上警务监管系统
KR101494537B1 (ko) 영상 감시 시스템에서 모니터링 채널 결정 방법 및 장치
CN113676750A (zh) 一种流媒体服务器集群管理系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12876877

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12876877

Country of ref document: EP

Kind code of ref document: A1