WO2020230385A1 - 原映像ストリームから有意映像ストリームを生成するプログラム、装置及び方法 - Google Patents

原映像ストリームから有意映像ストリームを生成するプログラム、装置及び方法 Download PDF

Info

Publication number
WO2020230385A1
WO2020230385A1 PCT/JP2020/005285 JP2020005285W WO2020230385A1 WO 2020230385 A1 WO2020230385 A1 WO 2020230385A1 JP 2020005285 W JP2020005285 W JP 2020005285W WO 2020230385 A1 WO2020230385 A1 WO 2020230385A1
Authority
WO
WIPO (PCT)
Prior art keywords
video stream
significant
macroblock
frame
program
Prior art date
Application number
PCT/JP2020/005285
Other languages
English (en)
French (fr)
Inventor
菅野 勝
柳原 広昌
中島 康之
Original Assignee
Kddi株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kddi株式会社 filed Critical Kddi株式会社
Priority to EP20806683.7A priority Critical patent/EP3972252A4/en
Priority to CN202080032994.9A priority patent/CN113785582A/zh
Priority to US17/609,484 priority patent/US20220321873A1/en
Publication of WO2020230385A1 publication Critical patent/WO2020230385A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/40Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video transcoding, i.e. partial or full decoding of a coded input stream followed by re-encoding of the decoded output stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • H04N19/139Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/177Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/48Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using compressed domain processing techniques other than decoding, e.g. modification of transform coefficients, variable length coding [VLC] data or run-length data

Definitions

  • the present invention relates to a technique for generating a significant video stream with reduced capacity from a video stream captured by a camera.
  • the present application claims priority based on Japanese Patent Application No. 2019-91895 filed in Japan on May 15, 2019, the contents of which are incorporated herein by reference.
  • MPEG Motion Picture Experts Group
  • a predicted image of the current frame is generated based on the previous and / or later frames, and the difference (error) image between the input image and the predicted image is coded.
  • the video stream may be shot by a video camera owned by the user for home use, or may be shot by a fixedly installed security camera.
  • a drive recorder equipped with a camera that captures the field of view seen from the vehicle. The drive recorder keeps memorizing the video stream taken while the vehicle is running.
  • FIG. 1 is a system configuration diagram having a terminal device as a drive recorder installed in a vehicle.
  • the terminal 1 as a drive recorder captures an image of the traveling direction of the vehicle with a camera, and stores the image stream in a storage unit (memory, disk).
  • the terminal 1 transmits the video stream to the data center 2 via a wireless network.
  • the terminal 1 can also acquire vehicle traveling information via CAN (Controller Area Network).
  • the vehicle traveling information may also be transmitted to the data center 2 together with the video stream.
  • the data center 2 can analyze the video stream and the vehicle traveling information received from the terminal 1. For example, an object reflected in a video stream can be detected and / or identified, and the vehicle traveling information can be associated with the object.
  • Patent Document 1 discloses a technique of encoding video data divided into a plurality of regions with a different coding rate for each region by using a plurality of cameras installed in a vehicle. According to this technique, the required resolution is calculated according to the importance of each area, and the video data is encoded at the coding rate according to the importance.
  • Patent Document 2 discloses a technique in which a drive recorder outputs image data acquired by a plurality of cameras installed in a vehicle when the acceleration value of the vehicle in a specific direction exceeds a predetermined value.
  • Patent Document 3 discloses a technique of a remote work support system that reduces the amount of data for an image captured by a camera worn by an operator. According to this technique, it is evaluated whether or not there is a region where the movement of the object is large in the video frame, and if there is no region where the movement is large, it is regarded as insignificant and deleted.
  • JP-A-2010-263500 Japanese Unexamined Patent Publication No. 2013-218433 Japanese Unexamined Patent Publication No. 2018-082333
  • Patent Document 1 it is necessary to identify the region of the video data before encoding.
  • the camera When the camera outputs already encoded video data, it must be decompressed once, which complicates the process. Further, although the coding rate differs for each region, the reduction effect of the entire data is small because the images of all the cameras are coded targets.
  • Patent Document 2 since only the acceleration of the vehicle is used as a determination factor for image data output, there is a drawback that the image data is not output in the traveling state where the acceleration of the vehicle does not change.
  • the technique described in Patent Document 3 the magnitude of movement of an object in an image is evaluated and encoded. Therefore, there is a drawback that it is not possible to evaluate the coding parameters of the macroblock for the already encoded video data and specify the video data to be reduced.
  • the inventors of the present application can reduce the amount of data to be stored or transmitted if a significant video stream containing only a significant part, which will be necessary for video analysis of the original video stream, can be generated. I thought I could do it. We also thought that the device that receives the significant video stream could reduce the processing load for detecting and / or identifying the object reflected in the significant video stream.
  • an object of the present invention is to provide a program, an apparatus, and a method for generating a significant video stream including only a significant part, which will be necessary for video analysis of the original video stream.
  • a program that causes a computer to function as a device for generating a significant video stream from a captured and encoded original video stream, the program comprising the computer.
  • a coding parameter extraction means for extracting the coding parameters of each macroblock from the original video stream for each frame, and A macroblock selection means for selecting the macroblock having a coding parameter satisfying a predetermined condition as a significant macroblock, and
  • a significant video stream generation means for generating a significant video stream in which a plurality of frames of the original video stream that are time-synchronized with the frame of the coding parameter in the significant macroblock are combined in chronological order.
  • the frames of the coding parameter are combined in time series. It is preferable to make the thing function as the significant video stream.
  • the program of the present invention functions as the significant video stream generating means as a significant video stream so as to include a frame number and / or a time code for each frame.
  • the program of the present invention preferably causes the significant video stream generation means to function as a significant video stream so as to include significant macroblocks and distribution information of the significant macroblocks for each frame.
  • the program of the present invention causes the significant video stream generation means to function as a significant video stream so as to include a frame having a significant macroblock in each GOP (Group Of Pictures) including the frame.
  • GOP Group Of Pictures
  • the program of the present invention functions to delete the GOP that does not correspond to the frame of the coding parameter in the significant macroblock, or to compress it at a high compression rate of a predetermined ratio or more.
  • the original video stream is output from a camera mounted on the moving body.
  • the significant video stream preferably includes an image in which only the appearing or disappearing object is reflected in the object captured by the camera.
  • the coding is performed based on MPEG (Moving Picture Experts Group).
  • the coding parameters preferably include the magnitude and orientation of the forward prediction (inter) motion vector, the in-screen prediction (intra) code amount, or the size of the quantization step.
  • the program of the present invention uses the macroblock sorting means to sort significant macroblocks whose temporal variation is larger than a predetermined value.
  • a predetermined condition for each macroblock: Is the motion vector of the forward prediction greater than or equal to a predetermined length and greater than or equal to a predetermined angle with respect to the direction of the convergence point on the horizon? Is the code amount of the in-screen prediction greater than or equal to the first code amount; or It is preferable to make the quantization step size function so as to be equal to or larger than a predetermined size.
  • the significant video stream generation means determines that the moving body is stopped and excludes the frame in which the code amount of the in-screen prediction is equal to or larger than the second code amount from the significant video stream. It is preferable to make it function as such.
  • the program of the present invention causes the macroblock sorting means to function to generate a coded parameter map in which significant macroblocks are spatially joined according to distribution information.
  • the coding parameter map it is preferable that the higher the degree to which the coding parameter satisfies a predetermined condition, the darker the gradation of the hue of the macroblock portion is displayed.
  • the original video stream is encoded and It is preferable that the program functions the coding parameter extraction means to simply extend the original video stream and extract the coding parameters of each macroblock for each frame.
  • the significant video stream generator of the present invention that generates a significant video stream from a captured and encoded original video stream is a coding parameter extraction means that extracts the coding parameter of each macroblock from the original video stream frame by frame.
  • a macroblock selection means for selecting the macroblock having a coding parameter satisfying a predetermined condition as a significant macroblock, and an original video stream time-synchronized with a frame of the coding parameter in the significant macroblock. It has a significant video stream generation means for generating a significant video stream in which a plurality of frames of the above are combined in a time series.
  • the video stream generation method of the present invention for generating a significant video stream from a captured and encoded original video stream includes a first step of extracting a coding parameter of each macroblock from the original video stream for each frame, and a prior step.
  • FIG. 1 It is a figure which shows the system which has a terminal as a drive recorder installed in a vehicle. It is a block diagram which shows the terminal in one Embodiment of this invention. It is explanatory drawing which shows the coding parameter extraction part in the terminal of one Embodiment of this invention. In one embodiment of the present invention, it is a figure which shows the motion vector for each macroblock when the object reflected in the original video stream is changing at a constant speed. In one embodiment of the present invention, it is a figure which shows the motion vector for each macroblock when the object reflected in the original video stream changes sharply. It is a figure which shows the coding parameter map in one Embodiment of this invention.
  • the present invention can generate a "significant video stream” containing only significant parts that will be required for video analysis from the "original video stream".
  • the "original video stream” is an encoded video stream taken from a camera mounted on a moving body such as a vehicle.
  • the "significant video stream” includes only images necessary for, for example, object detection, object recognition, or analysis of a traveling state (velocity or acceleration) in a moving body.
  • a significant video stream is generally one in which only peripheral objects that suddenly appear or disappear are reflected in the peripheral objects that can be seen from the camera. Of course, it is not limited to that. As a result, the significant video stream has a reduced capacity of the video stream to be transmitted or stored in view of the original video stream.
  • FIG. 2 is a functional configuration diagram of the terminal according to the present invention.
  • the terminal 1 is a drive recorder equipped with the camera C and is installed inside the vehicle.
  • the shooting direction D of the camera C is not limited to the front in the traveling direction of the vehicle, and may be the rear or the side.
  • the terminal 1 can communicate with the data center 2 via an arbitrary wireless network.
  • the data center 2 has a function of analyzing a video from a significant video stream.
  • the device is not limited to the data center and may be an edge computing device.
  • the terminal 1 includes a camera C, an original video stream storage unit 10, a coding parameter extraction unit 11, a macroblock selection unit 12, a significant video stream generation unit 13, and a video stream transmission unit 14. And a communication interface 15.
  • These functional components other than the camera C are realized by causing a computer (processor) mounted on the device to function by executing a program stored in the memory.
  • the processing flow of these functional components can be regarded as a method for generating a significant video stream of the device.
  • the camera C captures an image in the shooting direction D and outputs an original image stream.
  • the original video stream may be a video stream encoded inside the camera C.
  • the unencoded video data may be encoded by a device or software other than the camera C.
  • a coding method H.M. based on MPEG. 264 and H. It may be a standard format such as 265 or a non-standard format.
  • the spatial resolution, the time resolution (frame rate), and the coding rate (bit rate) may be arbitrary.
  • the original video stream storage unit 10 temporarily stores the original video stream captured by the camera C.
  • the original video stream is, for example, encoded by MPEG.
  • the original video stream storage unit 10 outputs the original video stream to the coding parameter extraction unit 11 at an arbitrary timing.
  • the coding parameter extraction unit 11 simply decompresses (decodes) the encoded original video stream and interprets (parses) the bit stream.
  • the simple decompression here is only to extract the coding parameters from the encoded original video stream. That is, the original video stream is not completely stretched and is not restored as a visual video frame. For example, when the coding parameter is represented by a difference, it is only necessary to return it to the original value, and the coding parameter can be processed.
  • FIG. 3 is a diagram for explaining the operation of the coding parameter extraction unit 11 in the terminal 1 of the present embodiment.
  • the encoded original video stream is composed of a sequence header and GOP (Group Of Picture) data.
  • the GOP data is composed of a GOP header and a plurality of picture data (a set of I, P and B picture data) having a series of orders.
  • the GOP header includes a time code or the like representing the time of the screen presented at the beginning of the group.
  • the picture data represents one frame (image).
  • the picture data is composed of a picture header and slice data (slices 1 to 68). As shown in FIG. 3, one picture data is composed of 1088 vertical pixels (68 line slices) ⁇ 1440 horizontal pixels (90 macroblocks). A slice is a strip of one picture.
  • Each slice is composed of a slice header and 90 macroblock data (MB1 to MB90).
  • Each macroblock is a 16-pixel ⁇ 16-line square pixel block.
  • Each macroblock contains a macroblock address, macroblock type, quantization step size, motion vector, and block data.
  • the configuration of the original image stream is not limited to this, and may be arbitrary depending on the number of vertical and horizontal pixels, the number of slices, and the size of the macro block of the picture data.
  • the coding parameter extraction unit 11 extracts the coding parameter of each macro block from the original video stream for each frame.
  • the coding parameter is one of the following. (1) Magnitude and direction of motion vector for forward prediction (inter) (2) Sign amount of in-screen prediction (intra) block type (3) Quantization step size
  • the macroblock selection unit 12 selects macroblocks having coding parameters satisfying predetermined conditions as significant macroblocks.
  • the "predetermined condition" is a case where the temporal fluctuation is larger than a predetermined value.
  • Each macroblock is selected, for example, under any of the following predetermined conditions ⁇ 1>, ⁇ 2>, and ⁇ 3>.
  • the motion vector of the forward prediction has a size of a predetermined length or more and is a predetermined angle or more with respect to the direction of the convergence point on the horizon.
  • the sign amount of the in-screen prediction is the first.
  • the code amount or more ⁇ 3>
  • the quantization step size is the predetermined size or more.
  • the macroblock sorting unit 12 extracts a region that has changed relatively sharply.
  • the “sudden change” includes a case where the peripheral object seen from the camera changes suddenly and a case where the traveling state of a moving body (for example, a vehicle) on which the camera is mounted changes suddenly.
  • FIGS. 4A and 4B are explanatory views showing motion vectors for each macroblock.
  • FIG. 4A shows a case where the object reflected in the original video stream is changing at a constant speed.
  • FIG. 4B shows a case where the object reflected in the original video stream changes suddenly.
  • An image frame of the original video stream and a motion vector of each macroblock are shown in each of FIGS. 4A and 4B.
  • the motion vector of the object is directed in the same direction as the traveling direction of the vehicle.
  • the following distribution of motion vectors is observed.
  • -The direction of the motion vector is toward the convergence point on the horizon, and the change over time is small.
  • -The magnitude of the motion vector is smaller as it is closer to the convergence point on the horizon, and is larger as it is farther from the convergence point on the horizon.
  • the coding parameter of the region 4D in which the vehicle in front is reflected does not satisfy the above-mentioned "predetermined condition". Therefore, no significant macroblocks are selected from FIG. 4A.
  • the motion vector of the object is directed in the same direction as the traveling direction of the vehicle.
  • the motion vector of the object is directed in a direction different from the traveling direction of the vehicle.
  • the following distribution of motion vectors is observed. -The direction of the motion vector is different from the convergence point on the horizon, and there is a large change over time. -The magnitude of the motion vector is large regardless of the distance from the convergence point on the horizon. For example, as shown in region 4R, when the vehicle in front of the own vehicle suddenly changes lanes or decelerates, the vehicle in front is reflected.
  • the region coding parameter is detected as a coding parameter that satisfies the above "predetermined conditions". Therefore, significant macroblocks are selected from region 4R of FIG. 4B. Using this characteristic, it is possible to estimate the region of the original video stream where there is a sharp change as a significant macroblock.
  • the selection criteria (predetermined conditions) for the magnitude of the motion vector may be adaptively changed according to the following cases (a), (b) and (c). preferable.
  • the magnitude of the motion vector when referring to one frame two frames before is approximately twice as large as the magnitude of the motion vector in the case of (b).
  • the size of the motion vector encoded at 30 frames / second is about 1/3 of the size of the motion vector encoded at 10 frames / second. Therefore, the determination of the predetermined conditions is also adaptively changed according to the degree of comparison.
  • the amount of code of the macroblock predicted in the screen increases when an edge (contour of an object) exists in the screen, and decreases when it is flat. That is, in the case of FIG. 4A, since the road region is flat, many macroblocks of in-screen prediction with a small amount of code are observed. On the other hand, in the case of FIG. 4B, many macroblocks of in-screen prediction with a large amount of code are observed at the edge portion of the vehicle trying to turn right in the region 4R. Using this characteristic, the region where the object exists in the original video stream can be estimated as a significant macroblock.
  • the quantization step size of the macroblock is adaptively changed in order to increase the compression efficiency.
  • the quantization step size is reduced because human vision is sensitive in the region where there is little change.
  • the quantization step size is increased because human vision is insensitive. That is, in the case of FIG. 4A, many macroblocks having a small quantization step size are observed.
  • many macroblocks having a large quantization step size are observed on the wheel portion of the vehicle in front on the right side of FIG. 4B. Using this characteristic, it is possible to estimate the region of the original video stream where there is a sharp change as a significant macroblock.
  • the macroblock selection unit 12 may generate a "coded parameter map" in which significant macroblocks are joined in the spatial direction according to the distribution information.
  • FIG. 5 is a diagram showing a coding parameter map according to the embodiment of the present invention.
  • the distributed portion of the macroblock can be displayed with the gradation color corresponding to the size and direction of the motion vector of the macroblock, the code amount, or the quantization step size.
  • the darker the gradation color is displayed in the distribution part of the macroblock. ..
  • the larger the code amount of the in-screen prediction the macroblock is the coding mode of the in-screen prediction
  • the darker the gradation color is displayed in the distributed portion of the macroblock.
  • the smaller the quantization step size of the macroblock the darker the gradation color is displayed in the distributed portion of the macroblock.
  • the code amount of the in-screen prediction is small in the region 5L which changes at a constant speed and has few sharp changes.
  • the region 5R with a steep change has a large amount of code for in-screen prediction.
  • FIG. 6 is a diagram illustrating a case where only the distribution portion of the macroblock satisfying the predetermined conditions is generated as a coded parameter map.
  • Such a region can be excluded from the extraction target of the coding parameter.
  • the dashboard area in the original video stream is flat, and by selecting the “skip mode” as the macroblock coding mode, the amount of code in the in-screen prediction is also reduced.
  • the code amount of the in-screen coded block is clearly smaller than that of other areas in the screen, or the frequency of appearance of the skip mode block is high. If it is high, it is effective to delete the area.
  • the significant video stream generation unit 13 generates a significant video stream in which a plurality of frames of the original video stream that are time-synchronized with the frames of the coding parameters in the significant macroblock are combined in time series (see FIG. 7). Further, the significant video stream generation unit 13 combines the frames of the original video stream synchronized with the frames of the coding parameters in chronological order and the frames of the coding parameters in chronological order. May be good.
  • the "frame of the coding parameter” means a frame in which the coding parameter is distributed in association with the distribution of macroblocks, as shown in FIGS. 4A, 4B or 5. That is, the coding parameters extracted by the coding parameter extraction unit 11 are mapped.
  • the "frame of the original video stream synchronized with the frame of the coding parameter" is literally the one using each frame of the original video stream.
  • the code amount of each frame it is possible to select only the frames in which there is a sharp change in the original video stream.
  • (1) when the original video stream changes at a constant speed and there is no abrupt change, there is movement in the screen, and the number of macroblocks for forward prediction increases. Therefore, the number of macroblocks for in-screen prediction is reduced, and the code amount of the entire frame tends to decrease.
  • the code amount of the entire frame is reduced.
  • H.I. In 264 the code amount of the I (intra) frame in the running original video stream changes from 500K to 800K bits.
  • the code amount of the I (intra) frame is 1 Mbit or more.
  • the running / stopping status can be determined by setting the threshold value to 1 Mbit as the code amount of the coded frame in the image. By observing the code amount of the frame in this way, it is possible to estimate a sudden change in the traveling condition (see FIG. 7 described later).
  • a sudden change in the traveling condition may be estimated by counting the number of macroblocks predicted in the screen in each frame without observing the code amount of each frame.
  • a frame in which the number of macroblocks predicted on the screen is a predetermined number or more can be determined to have a sharp change in the object reflected in the frame. For example, when a vehicle enters or exits a tunnel, or when visibility suddenly deteriorates due to torrential rain or smoke, most of the frame area of the original video stream taken by the drive recorder's camera is in-screen prediction. It tends to be a macroblock.
  • FIG. 7 is a diagram showing the operation of the significant video stream generation unit 13 in the terminal according to the embodiment of the present invention.
  • the significant video stream generation unit 13 determines that the moving body that is shooting the frame in which the code amount of the I (intra) frame is equal to or larger than the second code amount (for example, 1 Mbit) is stopped. Exclude from the significant video stream. As a result, the number of frames of the significant video stream can be reduced.
  • the second code amount which is the threshold value for the above determination, may be set to a different value depending on whether the code is encoded by CBR (constant bit rate) or VBR (variable bit rate). preferable. It is necessary to change the criteria such as whether to evaluate the absolute code amount or whether to evaluate by the difference in the code amount relative to other predicted coding frames. In this way, it is preferable to adaptively control the second code amount in consideration of the difference in the structure of the original video stream.
  • only the compression rate may be increased without excluding the frame itself. That is, it suffices if the frame having at least a significant macroblock is sufficiently reproducible.
  • the significant video stream generation unit 13 includes a frame number and / or a time code for each frame as the significant video stream. Further, it is preferable that the significant video stream generation unit 13 includes significant macroblocks and distribution information of these macroblocks for each frame as the significant video stream. This makes it possible to identify the significant region of each frame in the significant video stream. That is, macroblocks in insignificant regions can be reduced.
  • the data center 2 that receives the significant video stream can reproduce the significant video stream by receiving the distribution information of the frame number, the time code, and the macroblock together with the significant video stream.
  • the significant video stream generation unit 13 preferably includes a frame having a significant macroblock in GOP (Group Of Pictures) units as the significant video stream.
  • GOP Group Of Pictures
  • the video frame group to be transmitted can be aggregated.
  • the GOP that does not correspond to the frame of the coding parameter in the significant macroblock can be deleted or compressed with a high compression rate of a predetermined ratio or more.
  • the significant video stream generation unit 13 may be provided with a user interface in which observation start and end are specified. Frames during the period when the vehicle is stopped and the entire screen does not change can be excluded from the significant video stream.
  • Video stream transmitter 14 The video stream transmission unit 14 transmits the significant video stream output from the significant video stream generation unit 13 to the data center 2 via the communication interface 15.
  • the significant video stream is transmitted at an arbitrary timing. For example, it may be transmitted when it is output from the significant video stream generation unit 13, or it may be temporarily buffered and transmitted when it reaches a predetermined capacity. Further, when the significant video stream is composed of frames of coding parameters, the original video stream composed of original video frames corresponding to the frames of the coding parameters is transmitted at the same time or separately. You may. Further, the frame number and / or the time code, the significant macroblock, and the distribution information of these macroblocks may be transmitted synchronously or asynchronously together with the significant video stream. This allows the data center to play significant macroblocks from the significant video stream.
  • the video stream transmission unit 14 transmits the running state information to which the time code is attached together with the significant video stream.
  • the coding parameters and the running state information can be linked based on the time code. At this time, it is preferable to associate the time code with a predetermined time width.
  • Terminal 10 Original video stream storage unit 11 Coding parameter extraction unit 12 Macroblock selection unit 13 Significant video stream generation unit 14 Video stream transmission unit 15 Communication interface 2 Data center

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Abstract

有意映像ストリーム生成プログラムは、コンピュータを、原映像ストリームからフレーム毎に各マクロブロックの符号化パラメータを抽出する符号化パラメータ抽出手段と、予め定められた条件を満たす符号化パラメータを持つ有意なマクロブロックを選別するマクロブロック選別手段と、有意なマクロブロックにおける符号化パラメータのフレームと時間的に同期した原映像ストリームのフレームを時系列に結合した有意映像ストリームを生成する有意映像ストリーム生成手段として機能させる。

Description

原映像ストリームから有意映像ストリームを生成するプログラム、装置及び方法
 本発明は、カメラによって撮影された映像ストリームから、容量を削減した有意な映像ストリームを生成する技術に関する。
 本願は、2019年5月15日に、日本に出願された特願2019-91895号に基づき優先権を主張し、その内容をここに援用する。
 映像ストリームの符号化技術として、代表的にMPEG(Moving Picture Experts Group)が知られている。この技術によれば、映像ストリームに対して圧縮効率を高めるために、前および/または後のフレームに基づいて現フレームの予測画像を生成し、入力画像と予測画像の差分(誤差)画像を符号化する「フレーム間予測」方式を用いる。
 映像ストリームとしては、ユーザが家庭用に所持するビデオカメラによって撮影されたものであってもよいし、固定的に設置された防犯カメラによって撮影されたものであってもよい。近年、映像ストリームを生成する機器として、車両から見た視界を撮影するカメラを搭載したドライブレコーダがある。ドライブレコーダは、車両の走行中に撮影した映像ストリームを記憶し続ける。
 図1は、車両に設置されたドライブレコーダとしての端末装置を有するシステム構成図である。
 図1に示すように、ドライブレコーダとしての端末1は、車両の進行方向の映像をカメラで撮影し、その映像ストリームを記憶部(メモリ、ディスク)に記憶する。その端末1は、その映像ストリームを、無線ネットワークを介して、データセンタ2へ送信する。
 また、端末1は、CAN(Controller Area Network)を介して車両走行情報を取得することもできる。その車両走行情報も、映像ストリームと一緒に、データセンタ2へ送信してもよい。
 データセンタ2は、端末1から受信した映像ストリーム及び車両走行情報を分析することができる。例えば、映像ストリームに映り込む物体を検出および/または識別すると共に、その車両走行情報を対応付けることもできる。
 従来、車両に設置された複数のカメラを用いて、複数の領域に分割された映像データを、領域毎に異なる符号化率で符号化する技術が、例えば特許文献1に開示されている。この技術によれば、領域毎に、重要度に応じて要求される解像度を算出し、その重要度に応じた符号化率で映像データを符号化する。
 また、特定方向における車両の加速度の値が所定値を超えたときに、ドライブレコーダが、車両に設置された複数のカメラによって取得された画像データを出力する技術が、例えば特許文献2に開示されている。
 更に、作業者が装着するカメラが撮影する映像に対して、データ量を削減する遠隔作業支援システムの技術が、例えば特許文献3に開示されている。この技術によれば、映像フレーム内で物体の動きが大きい領域が存在するかどうかが評価され、動きの大きい領域が存在しない場合には、重要でないとみなして削除する。
特開2010-263500号公報 特開2013-218433号公報 特開2018-082333号公報
 特許文献1に記載の技術によれば、符号化前の映像データについて、領域を識別する必要がある。カメラが、既に符号化された映像データを出力する場合、一旦伸張しなければならず、処理が複雑となる。また、領域毎に符号化率は異なるものの、全てのカメラの映像が符号化対象となるために、データ全体の削減効果は小さかった。
 特許文献2に記載の技術によれば、車両の加速度のみを画像データ出力の判定要素としているために、車両の加速度が変化しない走行状態では、画像データを出力しなくなるという欠点があった。
 特許文献3に記載の技術によれば、画像内の物体の動きの大きさを評価して符号化している。そのために、既に符号化された映像データに対して、マクロブロックの符号化パラメータを評価し、削減すべき映像データを特定することはできないという欠点があった。
 これに対し、本願の発明者らは、原映像ストリームの映像分析に必要となるであろう、有意な部分のみを含む有意映像ストリームを生成することができれば、蓄積又は伝送すべきデータ容量を削減することができるのではないか、と考えた。また、有意映像ストリームを受信する装置も、その有意映像ストリームに映り込む物体を検出および/または識別するための処理の負荷を軽減することができるのではないか、と考えた。
 そこで、本発明は、原映像ストリームの映像分析に必要となるであろう、有意な部分のみを含む有意映像ストリームを生成するプログラム、装置及び方法を提供することを目的とする。
 本発明によれば、コンピュータを、撮影及び符号化された原映像ストリームから有意映像ストリームを生成する装置として機能させるプログラムであって、このプログラムは、前記コンピュータを、
 前記原映像ストリームからフレーム毎に各マクロブロックの符号化パラメータを抽出する符号化パラメータ抽出手段と、
 予め定められた条件を満たす符号化パラメータを持つ前記マクロブロックを有意なマクロブロックとして選別するマクロブロック選別手段と、
 前記有意なマクロブロックにおける符号化パラメータのフレームと時間的に同期した前記原映像ストリームの複数のフレームを時系列に結合した有意映像ストリームを生成する有意映像ストリーム生成手段と、
 として機能させる。
 本発明のプログラムは、前記有意映像ストリーム生成手段を、符号化パラメータのフレームに同期した原映像ストリームのフレームを時系列に結合したものに加えて、当該符号化パラメータのフレームを時系列に結合したものを前記有意映像ストリームとして生成するように機能させることが好ましい。
  本発明のプログラムは、前記有意映像ストリーム生成手段を、有意映像ストリームとして、フレーム毎に、フレーム番号及び/又はタイムコードを含めるように機能させることも好ましい。
 本発明のプログラムは、前記有意映像ストリーム生成手段を、有意映像ストリームとして、フレーム毎に、有意なマクロブロックと、前記有意なマクロブロックの分布情報とを含めるように機能させることが好ましい。
 本発明のプログラムは、前記有意映像ストリーム生成手段を、有意映像ストリームとして、フレームを含むGOP(Group Of Pictures)単位で有意なマクロブロックを持つフレームを含めるように機能させることが好ましい。
 本発明のプログラムは、前記有意なマクロブロックにおける符号化パラメータのフレームに相当しないGOPは、削除するか、又は、所定割合以上の高い圧縮率で圧縮するように機能させることが好ましい。
 本発明のプログラムにおいて、前記原映像ストリームは、移動体に搭載されたカメラから出力され、
 前記有意映像ストリームは、前記カメラで撮影された物体の中で、出現又は消滅した物体のみが映り込んだ映像を含むことが好ましい。
  本発明のプログラムにおいて、 前記符号化は、MPEG(Moving Picture Experts Group)に基づいて行われ、
 前記符号化パラメータは、順方向予測(インター)の動きベクトルの大きさ及び向き、画面内予測(イントラ)の符号量、又は、量子化(Quantization)ステップのサイズを含むことが好ましい。
 本発明のプログラムは、時間的変動が所定以上大きい有意なマクロブロックを選別するために、前記マクロブロック選別手段を、
前記予め定められた条件として、マクロブロック毎に:
  順方向予測の動きベクトルが、所定長以上の大きさで、且つ、地平線上の収束点の方向に対して所定角度以上であるか;
  画面内予測の符号量が、第1の符号量以上であるか;又は、
  量子化ステップサイズが、所定サイズ以上である
 ように機能させることが好ましい。
 本発明のプログラムは、前記有意映像ストリーム生成手段を、画面内予測の符号量が第2の符号量以上となるフレームを、前記移動体が停止中であると判定して、有意映像ストリームから除外するように機能させることが好ましい。
 本発明のプログラムは、前記マクロブロック選別手段を、有意なマクロブロックを分布情報に応じて空間方向に接合した符号化パラメータマップを生成するように機能させ、
 前記符号化パラメータマップは、符号化パラメータが予め定められた条件を満たす度合いが高いほど、当該マクロブロックの部分の色合いの階調が濃く表示されることが好ましい。
 本発明のプログラムにおいて、
 前記原映像ストリームは、符号化されており、
 前記プログラムは、前記符号化パラメータ抽出手段を、原映像ストリームを簡易伸張させて、フレーム毎に各マクロブロックの符号化パラメータを抽出するように機能させることが好ましい。
 撮影及び符号化された原映像ストリームから有意映像ストリームを生成する本発明の有意映像ストリーム生成装置は、前記原映像ストリームからフレーム毎に各マクロブロックの符号化パラメータを抽出する符号化パラメータ抽出手段と、予め定められた条件を満たす符号化パラメータを持つ前記マクロブロックを有意なマクロブロックとして選別するマクロブロック選別手段と、前記有意なマクロブロックにおける符号化パラメータのフレームと時間的に同期した原映像ストリームの複数のフレームを時系列に結合した有意映像ストリームを生成する有意映像ストリーム生成手段とを有する。
 撮影及び符号化された原映像ストリームから有意映像ストリームを生成する本発明の映像ストリーム生成方法は、前記原映像ストリームからフレーム毎に各マクロブロックの符号化パラメータを抽出する第1のステップと、予め定められた条件を満たす符号化パラメータを持つマクロブロックを有意なマクロブロックとして選別する第2のステップと、前記有意なマクロブロックにおける符号化パラメータのフレームと時間的に同期した原映像ストリームの複数のフレームを時系列に結合した有意映像ストリームを生成する第3のステップとを有する。
 本発明のプログラム、装置及び方法によれば、原映像ストリームの映像分析に必要となるであろう、有意な部分のみを含む有意映像ストリームを生成することができる。
車両に設置されたドライブレコーダとしての端末を有するシステムを示す図である。 本発明の一実施形態における端末を示すブロック図である。 本発明のの一実施形態の端末における符号化パラメータ抽出部を示す説明図である。 本発明の一実施形態において、原映像ストリームに映り込む物体が一定速度で変化している場合のマクロブロック毎の動きベクトルを示す図である。 本発明の一実施形態において、原映像ストリームに映り込む物体が急峻に変化している場合のマクロブロック毎の動きベクトルを示す図である。 本発明の一実施形態における符号化パラメータマップを示す図である。 本発明の一実施形態において、予め定められた条件を満たすマクロブロックの分布部分のみを、符号化パラメータマップとして生成した例を示す図である。 本発明の一実施形態の端末における有意映像ストリーム生成部の動作を示す図である。
 以下、本発明の実施の形態について、図面を用いて詳細に説明する。
 本発明は、「原映像ストリーム」から、映像分析に必要となるであろう、有意な部分のみを含む「有意映像ストリーム」を生成することができる。
 「原映像ストリーム」は、例えば車両のような移動体に搭載されたカメラから撮影されたものであって、符号化された映像ストリームである。
 「有意映像ストリーム」は、例えば物体検出や物体認識、又は、移動体における走行状態(速度や加速度)などを分析するために必要な映像のみを含んだものである。
 有意映像ストリームは、一般的に、当該カメラから見える周辺物体の中で、急に出現し又は消滅した周辺物体のみが映り込んだものとなる。勿論、それに限られるものでもない。
 これによって、有意映像ストリームは、原映像ストリームからみて、伝送又は蓄積すべき映像ストリームの容量を削減したものとなる。
 図2は、本発明における端末の機能構成図である。
 本発明の実施形態によれば、端末1は、カメラCを搭載したドライブレコーダであって、車両の内部に設置されている。カメラCの撮影方向Dは、車両の進行方向の前方に限られず、後方又は側方であってもよい。
 また、端末1は、任意の無線ネットワークを介してデータセンタ2と通信することができる。データセンタ2は、有意映像ストリームから、映像を分析する機能を有する。勿論、データセンタに限られず、エッジコンピューティング装置であってもよい。
 図2を参照すると、端末1は、カメラCと、原映像ストリーム記憶部10と、符号化パラメータ抽出部11と、マクロブロック選別部12と、有意映像ストリーム生成部13と、映像ストリーム送信部14と、通信インタフェース15とを有する。カメラCを除くこれらの機能構成部は、装置に搭載されたコンピュータ(プロセッサ)を、メモリに格納されたプログラムを実行することによって機能させることによって実現される。また、これら機能構成部の処理の流れは、装置の有意映像ストリーム生成方法としてとらえることができる。
 図2を参照すると、カメラCは、撮影方向Dの映像を撮影し、原映像ストリームを出力する。原映像ストリームは、カメラCの内部で符号化された映像ストリームであってもよい。カメラCが符号化されていない映像データを出力する場合、その符号化されていない映像データは、カメラC以外の装置又はソフトウェアによって符号化されてもよい。
 符号化方式としては、MPEGに基づくH.264やH.265などの標準フォーマットでもよいし、非標準のフォーマットでもよい。また、空間解像度や時間解像度(フレームレート)、符号化率(ビットレート)についても、任意であってよい。
[原映像ストリーム記憶部10]
 原映像ストリーム記憶部10は、カメラCによって撮影された原映像ストリームを一時的に蓄積する。原映像ストリームは、例えばMPEGによって符号化されたものである。
 原映像ストリーム記憶部10は、任意のタイミングで、原映像ストリームを、符号化パラメータ抽出部11へ出力する。
[符号化パラメータ抽出部11]
 符号化パラメータ抽出部11は、符号化された原映像ストリームを簡易的に伸張(デコード)し、ビットストリームを解釈(パース)する。ここでの簡易的な伸張は、符号化された原映像ストリームから符号化パラメータを抽出するのみである。すなわち、原映像ストリームは、完全に伸張されることなく、視覚的な映像フレームとしては復元されない。例えば符号化パラメータが差分で表現されている場合に、元の値に戻すだけでよく、符号化パラメータを処理できる状態にすればよい。
 図3は、本実施形態の端末1における符号化パラメータ抽出部11の動作を説明するための図である。
 図3に示すように、符号化された原映像ストリームは、シーケンスヘッダとGOP(Group Of Picture)データとから構成される。
 シーケンスヘッダには、フレームの縦横画素数等が記述される。
 GOPデータは、GOPヘッダと、一連の順序を持った複数のピクチャデータ(I、P及びBピクチャデータの集合)とから構成される。GOPヘッダは、グループの最初に提示する画面の時刻を表すタイムコード等を含む。ピクチャデータは、1枚のフレーム(画像)を表す。
 ピクチャデータは、ピクチャヘッダと、スライスデータ(スライス1~スライス68)とから構成される。
 図3に示すように、1枚のピクチャデータは、縦1088画素(68ラインスライス)×横1440画素(90マクロブロック)から構成される。スライスは、1枚のピクチャを帯状に断片化したものである。
 各スライスは、スライスヘッダと、90個のマクロブロックデータ(MB1~MB90)とから構成される。
 各マクロブロックは、16画素×16ラインの正方形の画素ブロックである。
 マクロブロック毎に、マクロブロックアドレス、マクロブロックタイプ、量子化ステップサイズ、動きベクトル、及び、ブロックデータが含まれる。勿論、原画像ストリームの構成はこれに限定されるものではなく、ピクチャデータの縦横の画素数やスライスの数、マクロブロックの大きさによって任意となってもよい。
 符号化パラメータ抽出部11は、原映像ストリームから、フレーム毎に各マクロブロックの符号化パラメータを抽出する。
 符号化パラメータは、以下のいずれかとなる。
 (1)順方向予測(インター)の動きベクトルの大きさ及び向き
 (2)画面内予測(イントラ)ブロックタイプの符号量
 (3)量子化(Quantization)ステップのサイズ
[マクロブロック選別部12]
 マクロブロック選別部12は、予め定められた条件を満たす符号化パラメータを持つマクロブロックを有意なマクロブロックとして選別する。ここで、「予め定められた条件」とは、時間的変動が所定以上大きい場合とする。マクロブロック毎に、例えば以下<1>、<2>および<3>のいずれかの予め定められた条件で選別される。
 <1>順方向予測の動きベクトルが、所定長以上の大きさで、且つ、地平線上の収束点の方向に対して所定角度以上である
 <2>画面内予測の符号量が、第1の符号量以上である
 <3>量子化ステップサイズが、所定サイズ以上である
 マクロブロック選別部12は、相対的に急峻に変化した領域を抽出する。「急峻に変化」とは、当該カメラから見える周辺物体が急激に変化した場合、および当該カメラが搭載された移動体(例えば車両)の走行状態が急激に変化した場合を含む。
<1.順方向予測の動きベクトルに基づくマクロブロックの選別>
 図4Aおよび図4Bは、マクロブロック毎の動きベクトルを表す説明図である。
 図4Aは、原映像ストリームに映り込んだ物体が一定速度で変化している場合を表す。
 図4Bは、原映像ストリームに映り込んだ物体が急峻に変化した場合を表す。
 図4Aおよび図4Bのそれぞれには、原映像ストリームの画像フレームと、各マクロブロックの動きベクトルとが表されている。
 図4Aを参照すると、点線の楕円形の領域4Dにおいて、物体の動きベクトルが車両の進行方向と同じ方向へ向かっている。図4Aにおいては、以下のような動きベクトルの分布が観測される。
 ・動きベクトルの方向は、地平線上の収束点の方向へ向き、時間的な変化が小さい。
 ・動きベクトルの大きさは、地平線上の収束点に近いほど小さく、地平線上の収束点から遠ざかるほど大きい。
 例えば自車両に対する前方車両も一定速度で走行している場合、その前方車両が映り込んだ領域4Dの符号化パラメータは、上記「予め定められた条件」を満たさない。したがって、図4Aからは、有意なマクロブロックは選別されない。
 図4Bを参照すると、領域4Lにおいては、物体の動きベクトルが車両の進行方向と同じ方向に向かっている。一方、領域4Rにおいては、物体の動きベクトルは車両の進行方向とは異なる方向に向かっている。図4Bの領域4Rにおいては、以下のような動きベクトルの分布が観測される。
 ・動きベクトルの方向は、地平線上の収束点と異なる方向へ向き、時間的な変化が大きい。
 ・動きベクトルの大きさは、地平線上の収束点からの距離に拘わらず大きい
 例えば、領域4Rに示すように、自車両に対する前方車両が急激に車線変更又は減速した場合、その前方車両が映り込む領域の符号化パラメータは、上記「予め定められた条件」を満たす符号化パラメータとして検出される。したがって、図4Bの領域4Rからは有意なマクロブロックが選別される。
 この特性を利用して、原映像ストリームにおける急峻な変化のあった領域を有意なマクロブロックとして推定することができる。
 他の実施形態として、例えば以下のようなケース(a)、(b)および(c)に応じて、動きベクトルの大きさの選択基準(予め定められた条件)を適応的に変更することが好ましい。
 (a)2フレーム以上前の1つのフレームを参照して動きベクトルを算出する場合
 (b)直前の1フレームを参照して動きベクトルを算出する場合
 (c)複数のフレームを参照する場合
 ここで、(a)の場合、2フレーム前の1つのフレームを参照するときの動きベクトルの大きさは、(b)の場合の動きベクトルの大きさと比較して、大凡2倍程度大きくなる。
 また、30フレーム/秒を符号化した動きベクトルの大きさは、10フレーム/秒を符号化した動きベクトルの大きさと比較して、大凡1/3程度になる。
 そのために、予め定められた条件の判定も、その比較程度に応じて適応的に変更する。
<2.画面内予測の符号量に基づくマクロブロックの選別>
 画面内予測されたマクロブロックの符号量は、画面内にエッジ(物体の輪郭)が存在する場合には多くなり、平坦な場合には少なくなる。
 即ち、図4Aの場合、道路領域が平坦であるために、符号量の少ない画面内予測のマクロブロックが多く観測される。一方で、図4Bの場合、領域4Rにおいて右折しようとしている車両のエッジ部分に、符号量の多い画面内予測のマクロブロックが多く観測される。
 この特性を利用して、原映像ストリームにおける物体が存在する領域を有意なマクロブロックとして推定することができる。
<3.画面内予測マクロブロックの個数に基づくマクロブロックの選別>
 画面内予測されたマクロブロックは、画面内に急峻な変化が生じた場合には多くなり、変化が少ない場合には少なくなる。
 即ち、後述する図6の左側の原画像ストリームの場合、画面内の変化が少ないため画面内予測されるマクロブロックは少なく観測される。一方で、図6の右側の原画像ストリームの場合、車両の画像が新たに出現するため画面内予測のマクロブロックが多く観測される。
 この特性を利用して、原映像ストリームにおける急峻な変化のあった領域を有意なマクロブロックとして推定することができる。
<4.量子化ステップサイズに基づくマクロブロックの選別>
 適応量子化(adaptive quantization)方式によれば、圧縮効率を高めるために、マクロブロックの量子化ステップサイズが適応的に変更される。原映像ストリームについて、変化の少ない領域では、人間の視覚が敏感であるために、量子化ステップサイズを小さくする。一方で、変化の激しい領域では、人間の視覚が鈍感なために、量子化ステップサイズを大きくする。
 即ち、図4Aの場合、量子化ステップサイズが小さいマクロブロックが多く観測される。一方で、図4Bの右側の前方車両の車輪部分に、量子化ステップサイズが大きいマクロブロックが多く観測される。
 この特性を利用して、原映像ストリームにおける急峻な変化のあった領域を有意なマクロブロックとして推定することができる。
 また、他の実施形態として、マクロブロック選別部12は、有意なマクロブロックを分布情報に応じて空間方向に接合した「符号化パラメータマップ」を生成するものであってもよい。
 図5は、本発明の実施形態における符号化パラメータマップを示す図である。
 「符号化パラメータマップ」は、符号化パラメータが予め定められた条件を満たす度合いが高いほど、当該マクロブロックの部分の色合いの階調を濃く表示することもできる。
 このように符号化パラメータマップでは、例えば、マクロブロックの動きベクトルの大きさ及び方向、符号量又は量子化ステップサイズに応じた階調の色で、マクロブロックの分布部分を表示することができる。
(1)例えば順方向予測の動きベクトルの大きさが大きいほど、及び、地平線上の収束点に向かう方向からの変位が大きいほど、濃い階調の色を、そのマクロブロックの分布部分に表示する。
(2)例えば画面内予測の符号量が多いほど(当該マクロブロックが画面内予測の符号化モード)、濃い階調の色を、そのマクロブロックの分布部分に表示する。
(3)例えばマクロブロックの量子化ステップサイズが小さいほど、濃い階調の色を、そのマクロブロックの分布部分に表示する。
 図5の符号化パラメータマップに示すように、一定速度で変化し、急峻な変化が少ない領域5Lは、画面内予測の符号量が少ない。一方で、急峻な変化がある領域5Rは、画面内予測の符号量が多い。
 更に、他の実施形態として、フレームにおける時間的変動が無い領域を、符号化パラメータの抽出対象外とすることも好ましい。
 図6は、予め定められた条件を満たすマクロブロックの分布部分のみを、符号化パラメータマップとして生成した場合について説明した図である。
 図6の右下の図に示すように、原映像ストリームについて、急峻な変化のあった領域のみが抽出されている。この符号化パラメータマップは、予め定められた条件を満たさないマクロブロックを含まないために、全体のデータ量を大きく削減することができる。
 例えば車両内におけるドライブレコーダの設置場所によっては、カメラによって撮影された原映像ストリームに、ダッシュボードのような領域が映り込んでいる場合もある。このような領域が予め固定的であれば、工場出荷時の設定によって、その領域をマスクすることもできる。勿論、GUI(Graphic User Interface)によって、ユーザ自らがマスクすべき領域を設定可能なものであってもよい。
 フレームにおける時間的変動が無い領域が、例えば平坦なものである場合、マクロブロックの符号化モードとして「スキップモード」が選択される。このような領域を、符号化パラメータの抽出対象外とすることもできる。例えば原映像ストリームにおけるダッシュボードの領域は、平坦となっており、マクロブロックの符号化モードとして「スキップモード」が選択されることによって、画面内予測の符号量も少なくなる。
 このように、各マクロブロックについて、所定時間幅における変動状況を観測し、明らかに画面内の他の領域と比べて画面内符号化ブロックの符号量が少なかったり、スキップモードのブロックの出現頻度が高い場合、その領域を削除することが有効である。
[有意映像ストリーム生成部13]
 有意映像ストリーム生成部13は、有意なマクロブロックにおける符号化パラメータのフレームと時間的に同期した原映像ストリームの複数のフレームを時系列に結合した有意映像ストリームを生成する(図7参照)。
 また、有意映像ストリーム生成部13は、符号化パラメータのフレームに同期した原映像ストリームのフレームを時系列に結合したものに加えて、当該符号化パラメータのフレームを時系列に結合したものであってもよい。
 「符号化パラメータのフレーム」とは、図4A、図4B又は図5に示されるように、マクロブロックの分布に対応付けて、符号化パラメータを分布させたフレームをいう。即ち、符号化パラメータ抽出部11によって抽出された符号化パラメータをマッピングさせたものである。
 「符号化パラメータのフレームに同期した原映像ストリームのフレーム」とは、文字通りであって、原映像ストリームの各フレームを利用したものである。
 各フレームの符号量によって、原映像ストリームについて、急峻な変化のあったフレームのみを選別することができる。
(1)例えば、原映像ストリームについて、一定速度で変化し、急峻な変化がない場合、画面内に動きが存在し、順方向予測のマクロブロックが多くなる。従って、画面内予測のマクロブロックが少なくなり、フレーム全体の符号量は低下する傾向となる。例えば自車両のカメラから、一定速度で走行中の周辺車両が映り込む原映像ストリームの場合、フレーム全体の符号量は少なくなる。
 例えば毎秒6Mビット程度の固定ビットレートで符号化するH.264では、走行中の原映像ストリームにおけるI(イントラ)フレームの符号量は、500K~800Kビットで推移する。
(2)一方で、原映像ストリームについて、急峻な変化がある場合、画面内予測のマクロブロックが多くなる。従って、順方向予測のマクロブロックが少なくなり、フレーム全体の符号量は増加する傾向となる。例えば自車両のカメラから、急峻に変化した周辺車両が映り込む原映像ストリームの場合、フレーム全体の符号量は多くなる。
(3)更に、原映像ストリームについて、画面内に動きが存在しない場合(例えば停止中)、順方向予測のマクロブロックが少なくなり、画面内予測のマクロブロックが多くなり、フレーム全体の符号量が増加する傾向となる。例えば停止中で変化のない原映像ストリームについては、I(イントラ)フレームの符号量は、1Mビット以上になる。
 この場合、画像内符号化フレームの符号量として、閾値を1Mビットに設定することで、走行/停止の状況を判定することができる。
 このように、フレームの符号量を観測することで、走行状況の急峻な変化などを推定することができる(後述する図7参照)。
 他の実施形態として、各フレームの符号量を観測することなく、各フレームにおける画面内予測のマクロブロック数を計数することによって、走行状況の急峻な変化を推定してもよい。画面内予測のマクロブロック数が所定数以上となるフレームは、フレームに映り込む物体に急峻な変化があったと判定することができる。
 例えば車両がトンネルへ進入・退出した場合や、集中豪雨や煙で視界が急激に悪化した場合、ドライブレコーダのカメラによって撮影された原映像ストリームについて、フレームの大部分の領域が、画面内予測のマクロブロックとなる傾向がある。
 図7は、本発明の実施形態による端末における有意映像ストリーム生成部13の動作を示す図である。
<符号量に基づくフレームの選別>
 有意映像ストリーム生成部13は、I(イントラ)フレームの符号量が、第2の符号量(例えば1Mビット)以上となるフレームを、撮影している移動体が停止中であると判定して、有意映像ストリームから除外する。
 これによって、有意映像ストリームのフレーム数を削減することができる。
 このとき、上記判定の閾値となる第2の符号量を、CBR(固定ビットレート)による符号化の場合と、VBR(可変ビットレート)による符号化の場合とで、異なる値を設定することが好ましい。絶対的な符号量を評価すべきか、他の予測符号化フレームとの相対的な符号量の差異で評価するのか、などの基準の変更が必要となる。このように、原映像ストリームの構造の違いなどを考慮して、第2の符号量を適応的に制御することが好ましい。
 他の実施形態として、原映像ストリームの時系列フレームから除外すべきフレームについて、そのフレーム自体を除外することなく、圧縮率(符号化率)のみを高めたものであってもよい。すなわち、少なくとも有意なマクロブロックを持つフレームが十分に再生可能であればよい。
 有意映像ストリーム生成部13は、有意映像ストリームとして、フレーム毎に、フレーム番号及び/又はタイムコードを含める。
 また、有意映像ストリーム生成部13は、有意映像ストリームとして、フレーム毎に、有意なマクロブロックと、これらマクロブロックの分布情報とを含めることが好ましい。これによって、有意映像ストリームにおける各フレームの有意な領域を特定することができる。即ち、有意でない領域におけるマクロブロックを削減することができる。
 有意映像ストリームを受信するデータセンタ2は、有意映像ストリームと共に、フレーム番号、タイムコード、マクロブロックの分布情報を受信することによって、有意な映像ストリームを再生することができる。
 他の実施形態として、有意映像ストリーム生成部13は、有意映像ストリームとして、GOP(Group Of Pictures)単位で有意なマクロブロックを持つフレームを含めることも好ましい。これによって、伝送対象となる映像フレーム群を集約することができる。
 また、有意なマクロブロックにおける符号化パラメータのフレームに相当しないGOPは、削除するか、又は、所定割合以上の高い圧縮率で圧縮することができる。
 また、他の実施形態として、有意映像ストリーム生成部13は、観測開始と終了とが指定されるユーザインタフェースを備えたものであってもよい。車両が停車しており画面全体が変動していない期間のフレームを、有意映像ストリームから除外することができる。
[映像ストリーム送信部14]
 映像ストリーム送信部14は、有意映像ストリーム生成部13から出力された有意映像ストリームを、通信インタフェース15を介してデータセンタ2へ送信する。
 有意映像ストリームは、任意のタイミングで送信される。例えば、有意映像ストリーム生成部13から出力された時点で送信してもよいし、一時的にバッファして、所定容量に達した時点で送信してもよい。
 また、有意映像ストリームが、符号化パラメータのフレームによって構成されたものである場合、同時に又は別途、その符号化パラメータのフレームに対応する原映像フレームから構成された原映像ストリームを送信するものであってもよい。
 更に、有意映像ストリームと共に、フレーム番号及び/又はタイムコード、有意なマクロブロックと、これらマクロブロックの分布情報とを、同期又は非同期に送信するものであってもよい。これによって、データセンタは、有意映像ストリームから、有意なマクロブロックを再生することができる。
 他の実施形態として、映像ストリーム送信部14は、タイムコードが付与された走行状態情報を、有意映像ストリームと一緒に送信することも好ましい。符号化パラメータと走行状態情報とを、タイムコードに基づいて紐付けることができる。このとき、タイムコードの所定時間幅で紐付けることが好ましい。
 以上、詳細に説明したように、本発明のプログラム、装置及び方法によれば、原映像ストリームの映像分析に必要となるであろう、有意な部分のみを含む有意映像ストリームを生成することができる。
 これによって、符号化された原映像ストリームから、符号化パラメータを用いて、有意な映像フレーム及び映像領域のみ選別し、データ量全体を削減する。特に、データセンタが物体検出や物体識別を処理する際にも、対象とすべき映像ストリームを限定することができる。
 前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
  1 端末
 10 原映像ストリーム記憶部
 11 符号化パラメータ抽出部
 12 マクロブロック選別部
 13 有意映像ストリーム生成部
 14 映像ストリーム送信部
 15 通信インタフェース
  2 データセンタ

Claims (14)

  1.  コンピュータを、撮影及び符号化された原映像ストリームから有意映像ストリームを生成する装置として機能させるプログラムであって、前記プログラムは、前記コンピュータを、
     前記原映像ストリームからフレーム毎に各マクロブロックの符号化パラメータを抽出する符号化パラメータ抽出手段と、
     予め定められた条件を満たす符号化パラメータを持つ前記マクロブロックを有意なマクロブロックとして選別するマクロブロック選別手段と、
     前記有意なマクロブロックにおける前記符号化パラメータのフレームと時間的に同期した前記原映像ストリームの複数のフレームを時系列に結合した有意映像ストリームを生成する有意映像ストリーム生成手段と、
     として機能させるプログラム。
  2.  前記プログラムは、前記有意映像ストリーム生成手段を、前記符号化パラメータのフレームに同期した前記原映像ストリームのフレームを時系列に結合したものに加えて、当該符号化パラメータのフレームを時系列に結合したものを前記有意映像ストリームとして生成するように機能させる請求項1に記載のプログラム。
  3.  前記プログラムは、前記有意映像ストリーム生成手段を、前記有意映像ストリームとして、フレーム毎に、フレーム番号及び/又はタイムコードを含めるように機能させる請求項1又は2に記載のプログラム。
  4.  前記プログラムは、前記有意映像ストリーム生成手段を、前記有意映像ストリームとして、フレーム毎に、有意なマクロブロックと、前記有意なマクロブロックの分布情報とを含めるように機能させる請求項3に記載のプログラム。
  5.  前記プログラムは、前記有意映像ストリーム生成手段を、前記有意映像ストリームとして、GOP(Group Of Pictures)単位で有意なマクロブロックを持つフレームを含めるように機能させる請求項3又は4に記載のプログラム。
  6.  前記プログラムは、前記有意映像ストリーム生成手段を、前記有意なマクロブロックにおける符号化パラメータのフレームに相当しないGOPは、削除するか、又は、所定割合以上の高い圧縮率で圧縮するように機能させる請求項5に記載のプログラム。
  7.  前記原映像ストリームは、移動体に搭載されたカメラから出力され、
     前記有意映像ストリームは、前記カメラで撮影された物体の中で、出現又は消滅した物体のみが映り込んだ映像を含む請求項1から6のいずれか1項に記載のプログラム。
  8.  前記符号化は、MPEG(Moving Picture Experts Group)に基づいて行われ、
     前記符号化パラメータは、順方向予測(インター)の動きベクトルの大きさ及び向き、画面内予測(イントラ)の符号量、又は、量子化(Quantization)ステップのサイズを含む請求項7に記載のプログラム。
  9.  前記プログラムは、時間的変動が所定以上大きい有意なマクロブロックを選別するために、前記マクロブロック選別手段を、前記予め定められた条件として、前記マクロブロック毎に:
      順方向予測の動きベクトルが、所定長以上の大きさで、且つ、地平線上の収束点の方向に対して所定角度以上であるか;
      画面内予測の符号量が、第1の符号量以上であるか;又は、
      量子化ステップサイズが、所定サイズ以上である
    ように機能させる請求項8に記載のプログラム。
  10.  前記プログラムは、前記有意映像ストリーム生成手段を、画面内予測の符号量が第2の符号量以上となるフレームを、前記移動体が停止中であると判定して、前記有意映像ストリームから除外するように機能させる請求項9に記載のプログラム。
  11.  前記プログラムは、前記マクロブロック選別手段を、前記有意なマクロブロックを分布情報に応じて空間方向に接合した符号化パラメータマップを生成するように機能させ、
     前記符号化パラメータマップは、前記符号化パラメータが前記予め定められた条件を満たす度合いが高いほど、当該マクロブロックの部分の色合いの階調が濃く表示される請求項1から10のいずれか1項に記載のプログラム。
  12.  前記原映像ストリームは、符号化されており、
     前記プログラムは、前記符号化パラメータ抽出手段を、前記原映像ストリームを簡易伸張させて、フレーム毎に各マクロブロックの符号化パラメータを抽出するように機能させる請求項1から11のいずれか1項に記載のプログラム。
  13.  撮影及び符号化された原映像ストリームから有意映像ストリームを生成する装置であって、
     前記原映像ストリームからフレーム毎に各マクロブロックの符号化パラメータを抽出する符号化パラメータ抽出手段と、
     予め定められた条件を満たす符号化パラメータを持つ前記マクロブロックを有意なマクロブロックとして選別するマクロブロック選別手段と、
     前記有意なマクロブロックにおける前記符号化パラメータのフレームと時間的に同期した前記原映像ストリームの複数のフレームを時系列に結合した有意映像ストリームを生成する有意映像ストリーム生成手段と
     を有する有意ストリーム生成装置。
  14.  撮影及び符号化された原映像ストリームから有意映像ストリームを生成する映像ストリーム生成方法であって、
     前記原映像ストリームからフレーム毎に各マクロブロックの符号化パラメータを抽出する第1のステップと、
     予め定められた条件を満たす符号化パラメータを持つ前記マクロブロックを有意なマクロブロックとして選別する第2のステップと、
     前記有意なマクロブロックにおける前記符号化パラメータのフレームと時間的に同期した前記原映像ストリームの複数のフレームを時系列に結合した有意映像ストリームを生成する第3のステップと
     を有する有意映像ストリーム生成方法。
PCT/JP2020/005285 2019-05-15 2020-02-12 原映像ストリームから有意映像ストリームを生成するプログラム、装置及び方法 WO2020230385A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP20806683.7A EP3972252A4 (en) 2019-05-15 2020-02-12 PROGRAM, DEVICE AND METHOD FOR GENERATION OF A SIGNIFICANT VIDEO STREAM FROM AN ORIGINAL VIDEO STREAM
CN202080032994.9A CN113785582A (zh) 2019-05-15 2020-02-12 从原影像流生成有用影像流的程序、装置以及方法
US17/609,484 US20220321873A1 (en) 2019-05-15 2020-02-12 Program, device, and method for generating significant video stream from original video stream

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-091895 2019-05-15
JP2019091895A JP6995083B2 (ja) 2019-05-15 2019-05-15 原映像ストリームから有意映像ストリームを生成するプログラム、装置及び方法

Publications (1)

Publication Number Publication Date
WO2020230385A1 true WO2020230385A1 (ja) 2020-11-19

Family

ID=73223018

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/005285 WO2020230385A1 (ja) 2019-05-15 2020-02-12 原映像ストリームから有意映像ストリームを生成するプログラム、装置及び方法

Country Status (5)

Country Link
US (1) US20220321873A1 (ja)
EP (1) EP3972252A4 (ja)
JP (1) JP6995083B2 (ja)
CN (1) CN113785582A (ja)
WO (1) WO2020230385A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240129514A1 (en) * 2021-02-24 2024-04-18 Nec Corporation Image processing device, image display system, image processing method, and recording medium
CN117201798B (zh) * 2023-11-06 2024-03-15 深圳市翔洲宏科技有限公司 一种远程视频监控摄像头信息传输方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003045070A1 (en) * 2001-11-19 2003-05-30 Mitsubishi Denki Kabushiki Kaisha Feature extraction and detection of events and temporal variations in activity in video sequences
JP2003189242A (ja) * 2001-12-21 2003-07-04 Matsushita Electric Ind Co Ltd 映像記録再生装置および再生方法
JP2008181324A (ja) * 2007-01-24 2008-08-07 Fujifilm Corp 前方監視装置、前方監視プログラム、及び前方監視方法
JP2009271758A (ja) * 2008-05-08 2009-11-19 Denso Corp 画像認識装置
JP2010263500A (ja) 2009-05-08 2010-11-18 Fujitsu Ltd 映像処理システム、撮影装置及び映像処理方法
JP2013218433A (ja) 2012-04-05 2013-10-24 Yazaki Energy System Corp ドライブレコーダ
WO2016151978A1 (ja) * 2015-03-26 2016-09-29 パナソニックIpマネジメント株式会社 画像処理装置、運転支援システム及び画像処理方法
JP2018082333A (ja) 2016-11-17 2018-05-24 Kddi株式会社 遠隔作業支援システムの作業者端末および支援者端末
JP2019091895A (ja) 2012-05-18 2019-06-13 株式会社半導体エネルギー研究所 発光素子、照明装置、発光装置、表示装置、又は電子機器

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001333389A (ja) * 2000-05-17 2001-11-30 Mitsubishi Electric Research Laboratories Inc ビデオ再生システムおよびビデオ信号処理方法
US9715903B2 (en) * 2014-06-16 2017-07-25 Qualcomm Incorporated Detection of action frames of a video stream
CN105163093B (zh) * 2015-10-08 2018-01-12 北京理工大学 一种面向avs监控档的压缩域视频摘要提取方法及装置
CN112956203A (zh) * 2018-08-29 2021-06-11 英特尔公司 用于使用帧间预测的特征点跟踪的设备和方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003045070A1 (en) * 2001-11-19 2003-05-30 Mitsubishi Denki Kabushiki Kaisha Feature extraction and detection of events and temporal variations in activity in video sequences
JP2003189242A (ja) * 2001-12-21 2003-07-04 Matsushita Electric Ind Co Ltd 映像記録再生装置および再生方法
JP2008181324A (ja) * 2007-01-24 2008-08-07 Fujifilm Corp 前方監視装置、前方監視プログラム、及び前方監視方法
JP2009271758A (ja) * 2008-05-08 2009-11-19 Denso Corp 画像認識装置
JP2010263500A (ja) 2009-05-08 2010-11-18 Fujitsu Ltd 映像処理システム、撮影装置及び映像処理方法
JP2013218433A (ja) 2012-04-05 2013-10-24 Yazaki Energy System Corp ドライブレコーダ
JP2019091895A (ja) 2012-05-18 2019-06-13 株式会社半導体エネルギー研究所 発光素子、照明装置、発光装置、表示装置、又は電子機器
WO2016151978A1 (ja) * 2015-03-26 2016-09-29 パナソニックIpマネジメント株式会社 画像処理装置、運転支援システム及び画像処理方法
JP2018082333A (ja) 2016-11-17 2018-05-24 Kddi株式会社 遠隔作業支援システムの作業者端末および支援者端末

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3972252A4

Also Published As

Publication number Publication date
JP6995083B2 (ja) 2022-01-14
US20220321873A1 (en) 2022-10-06
EP3972252A4 (en) 2023-05-17
JP2020188368A (ja) 2020-11-19
CN113785582A (zh) 2021-12-10
EP3972252A1 (en) 2022-03-23

Similar Documents

Publication Publication Date Title
US20200327350A1 (en) System and method for pre-processing images captured by a vehicle
JP3363039B2 (ja) 動画像内の移動物体検出装置
US10277901B2 (en) Encoding a video stream having a privacy mask
CN105338323A (zh) 一种视频监控方法及装置
WO2020230385A1 (ja) 原映像ストリームから有意映像ストリームを生成するプログラム、装置及び方法
KR101735025B1 (ko) 후속 움직임 검출 프로세싱을 위해 비디오 스트림을 사전-프로세싱하기 위한 방법, 디바이스, 및 시스템
CN112771859A (zh) 基于感兴趣区域的视频数据编码方法、装置和存储介质
KR102187376B1 (ko) 딥러닝 이미지 분석과 연동하는 신택스 기반의 선별 관제 제공 방법
WO2014019602A1 (en) Method and system for optimizing image processing in driver assistance systems
US20070047642A1 (en) Video data compression
US11954880B2 (en) Video processing
JP5950605B2 (ja) 画像処理システム、及び、画像処理方法
EP2582136A1 (en) Saliency value determination of predictively encoded video streams
EP3975133A1 (en) Processing of images captured by vehicle mounted cameras
US20110129012A1 (en) Video Data Compression
US20220224918A1 (en) Video transport system, video transmission device, video reception device, video distribution method, video transmission method, video reception method, and non-transitory computer readable recording medium
US6393056B1 (en) Compression of information from one detector as a function of information from another detector
KR20190021993A (ko) 압축영상에 대한 신택스 기반의 이동객체 영역 추출 방법
KR102015082B1 (ko) 압축영상에 대한 신택스 기반의 객체 추적 방법
JP7143263B2 (ja) 符号化パラメータを用いて対象識別位置を決定する対象識別方法、装置及びプログラム
JP7269134B2 (ja) 映像ストリームに影響した外的要因情報を推定するプログラム、サーバ、システム、端末及び方法
CN114422798B (zh) 用于对视频图像序列编码的图像处理装置、照相机和方法
JPH07135651A (ja) 映像通信システム
KR20200068102A (ko) 압축영상에 대한 신택스 기반의 mrpn-cnn을 이용한 객체 분류 방법
KR102264252B1 (ko) 압축 영상에서의 이동객체 검출방법 및 이를 수행하는 영상 감시 시스템

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20806683

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020806683

Country of ref document: EP

Effective date: 20211215