WO2017037900A1 - 情報処理装置及び情報処理方法及び情報処理プログラム - Google Patents

情報処理装置及び情報処理方法及び情報処理プログラム Download PDF

Info

Publication number
WO2017037900A1
WO2017037900A1 PCT/JP2015/074997 JP2015074997W WO2017037900A1 WO 2017037900 A1 WO2017037900 A1 WO 2017037900A1 JP 2015074997 W JP2015074997 W JP 2015074997W WO 2017037900 A1 WO2017037900 A1 WO 2017037900A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
motion
region
encoded information
macroblocks
Prior art date
Application number
PCT/JP2015/074997
Other languages
English (en)
French (fr)
Inventor
仁己 小田
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2015/074997 priority Critical patent/WO2017037900A1/ja
Priority to JP2016500425A priority patent/JP5944078B1/ja
Priority to TW104135041A priority patent/TW201711469A/zh
Publication of WO2017037900A1 publication Critical patent/WO2017037900A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • H04N19/139Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors

Definitions

  • the present invention relates to a technique for extracting a motion region having motion in image information.
  • Patent Document 1 discloses an image processing apparatus having an analysis method for detecting a moving object such as a person or a car included in a moving image.
  • the image processing apparatus disclosed in Patent Literature 1 decodes image information from image encoded information, analyzes the image information obtained by the decoding, and detects a moving object. As described above, the image processing apparatus disclosed in Patent Document 1 has a problem that the calculation load is high because the image information is decoded.
  • the main object of the present invention is to solve the above-mentioned problems, and it is a main object of the present invention to reduce the calculation load when extracting a motion region having motion in image information.
  • An information processing apparatus includes: Entropy decoding is performed on image coding information obtained by coding image information composed of a plurality of macroblocks, and the image coding information is provided corresponding to the plurality of macroblocks.
  • An entropy decoding unit that extracts a plurality of pieces of encoded information each including at least a motion vector;
  • a region extracting unit that extracts a motion region in the image information as a motion region based on a plurality of motion vectors included in the plurality of pieces of encoded information extracted by the entropy decoding unit.
  • a motion region is extracted based on a motion vector included in encoded information without decoding image information, it is possible to reduce a calculation load when extracting the motion region.
  • FIG. 3 is a diagram illustrating a functional configuration example of the information processing apparatus according to the first embodiment.
  • FIG. 3 is a diagram illustrating an internal configuration example of a pixel value conversion unit according to the first embodiment.
  • FIG. 4 is a diagram illustrating an example of encoded information according to Embodiment 1.
  • FIG. 5 is a diagram showing an outline of an operation of a region extraction unit according to the first embodiment.
  • FIG. 5 is a diagram showing an outline of an operation of a region extraction unit according to the first embodiment.
  • FIG. 6 is a flowchart showing an operation example of a region extraction unit according to the first embodiment.
  • FIG. 4 is a diagram illustrating an outline of an operation of a pixel value conversion unit according to the first embodiment.
  • FIG. 6 is a flowchart showing an operation example of a pixel value conversion unit according to the first embodiment.
  • FIG. 4 is a diagram showing an outline of an operation of an encoded information calculation unit according to the first embodiment.
  • FIG. 4 is a diagram showing an outline of an operation of an encoded information calculation unit according to the first embodiment.
  • FIG. 6 is a diagram showing an outline of an operation of an encoded information imaging unit according to the first embodiment.
  • FIG. 6 is a diagram showing an outline of an operation of an encoded information imaging unit according to the first embodiment.
  • FIG. 6 is a diagram showing an outline of an operation of an encoded information imaging unit according to the first embodiment.
  • FIG. 3 is a diagram illustrating a hardware configuration example of the information processing apparatus according to the first embodiment.
  • FIG. *** Explanation of configuration *** FIG. 1 shows a functional configuration example of the information processing apparatus 100 according to the first embodiment.
  • the information processing apparatus 100 includes an entropy decoding unit 101, a region extraction unit 102, and a pixel value conversion unit 103.
  • the pixel value conversion unit 103 includes an area determination unit 1031, an encoded information calculation unit 1032, and an encoded information imaging unit 1033. Note that the operation of the information processing apparatus 100 described later corresponds to an example of an information processing method and an information processing program.
  • the information processing apparatus 100 includes hardware such as a processor 901, a storage device 902, a reception device 903, and a transmission device 904.
  • the storage device 902 stores programs that realize the functions of the entropy decoding unit 101, the region extraction unit 102, and the pixel value conversion unit 103.
  • the processor 901 executes these programs, and performs operations of an entropy decoding unit 101, a region extraction unit 102, and a pixel value conversion unit 103, which will be described later.
  • FIG. 14 schematically illustrates a state in which the processor 901 is executing a program that realizes the functions of the entropy decoding unit 101, the region extraction unit 102, and the pixel value conversion unit 103.
  • the receiving device 903 receives image coding information.
  • the transmission device 904 transmits the pixel value information to an image recognition device (not shown).
  • the entropy decoding unit 101 receives the encoded image information via the receiving device 903 illustrated in FIG. 14, performs entropy decoding on the encoded image information, and extracts the encoded information from the encoded image information.
  • the image encoding information is information obtained by entropy encoding image information composed of a plurality of macroblocks.
  • the entropy decoding unit 101 extracts a plurality of pieces of encoded information provided corresponding to a plurality of macroblocks from the image encoded information by entropy decoding.
  • Each piece of encoded information includes at least a motion vector, a macroblock type, a quantization step, and reference image information.
  • the operation of the entropy decoding unit 101 corresponds to entropy decoding processing.
  • the region extraction unit 102 arranges a plurality of motion vectors included in the plurality of pieces of encoded information extracted by the entropy decoding unit 101 according to the order of the macroblocks, and based on the positions of the plurality of motion vectors, motion in the image information A region with a noise is extracted as a motion region.
  • the motion region is a region where a moving object is drawn in the image information. More specifically, the region extraction unit 102 integrates two or more motion vectors arranged at close positions among a plurality of motion vectors, and extracts a motion region based on the position of the motion vector after integration. .
  • the operation of the region extraction unit 102 corresponds to region extraction processing.
  • the pixel value conversion unit 103 acquires the encoding information corresponding to the macroblocks constituting the motion region extracted by the region extraction unit 102, and the motion vector, macroblock type, quantization step, reference of the acquired encoding information At least one of the image information is converted into a pixel value. Then, the pixel value conversion unit 103 transmits pixel value information indicating the pixel value converted from the encoding information for each pixel to the image recognition apparatus via the transmission apparatus 904 illustrated in FIG. Note that the conversion of the encoded information into pixel values by the pixel value conversion unit 103 is also referred to as encoding information encoding. As described above, the pixel value conversion unit 103 includes the region determination unit 1031, the encoded information calculation unit 1032, and the encoded information imaging unit 1033 shown in FIG. Details of the unit 1032 and the encoded information imaging unit 1033 will be described later.
  • FIG. 3 shows information obtained by performing entropy decoding on the encoded image information by the entropy decoding unit 101.
  • header information By entropy decoding, header information, encoded information, and encoded texture information are obtained from the encoded image information.
  • the header information, the encoded information, and the encoded texture information are provided for each macro block that forms the image information.
  • the header information is, for example, H.264. 2 shows SPS (Sequence Parameter Set: sequence level encoding information) and PPS (Picture Parameter Set: picture level encoding information) in H.264 encoding.
  • the coding information includes parameters such as macroblock type, quantization step, intra prediction mode, reference image information, motion vector, intra prediction cost, inter prediction cost, and macroblock code amount.
  • the macroblock type, quantization step, motion vector, and reference image information can be used for pixel value conversion.
  • the encoded texture information is encoded image information.
  • Image information is obtained in units of macroblocks by decoding processing on the encoded texture information.
  • image information is obtained by decoding processing on encoded texture information, and the motion region in the image information is extracted by analyzing the image information.
  • the region extraction unit 102 analyzes a motion vector included in the encoded information and extracts a motion region in the image information without performing a decoding process on the encoded texture information.
  • the region extraction unit 102 arranges a plurality of motion vectors included in a plurality of pieces of encoded information corresponding to a plurality of macroblocks according to the order of the macroblocks. Then, the region extraction unit 102 extracts a motion region based on the positions of a plurality of motion vectors arranged according to the macroblock order. The motion region is determined by the presence / absence of a motion vector and the distance between the motion vectors.
  • the region extraction unit 102 integrates two or more motion vectors arranged at adjacent positions. That is, the region extraction unit 102 designates a region including two or more motion vectors whose distance between them is equal to or less than the threshold value TH_DIST as a candidate region.
  • the region extraction unit 102 extracts candidate regions whose area is equal to or greater than the threshold TH_RANGE as a motion region. On the other hand, the region extraction unit 102 considers a candidate region having an area smaller than the threshold TH_RANGE as noise and discards it.
  • FIG. 4 and 5 show an outline of the operation of the region extraction unit 102.
  • FIG. 4 and 5 show an outline of the operation of the region extraction unit 102.
  • the region extraction unit 102 acquires encoded information for one frame of image information.
  • each column represents a parameter of encoding information of one macro book. That is, the motion vector MV1, the macroblock type MBT1, the quantization step ST1, and the reference image information INF1 are parameters of the encoding information of the macroblock MB1. Similarly, the motion vector MV2, the macroblock type MBT2, the quantization step ST2, and the reference image information INF2 are parameters of the encoding information of the macroblock MB2. The same applies to macro blocks MB3 and later.
  • the region extraction unit 102 arranges motion vectors in the order of macroblocks. Furthermore, as illustrated in FIG.
  • the region extraction unit 102 collects motion vectors whose distances are equal to or smaller than a threshold TH_DIST into one candidate region. Then, as illustrated in FIG. 5B, the region extraction unit 102 extracts candidate regions having an area equal to or larger than the threshold value TH_RANGE as a motion region.
  • FIG. 6 is a flowchart showing an operation example of the area extraction unit 102.
  • the region extraction unit 102 arranges motion vectors of encoded information for one frame extracted by the entropy decoding unit 101 in the order of macroblocks (ST11). That is, the region extraction unit 102 arranges the motion vectors for one frame in the same manner as the motion vectors when the image information is decoded.
  • the region extraction unit 102 determines whether or not all the arranged motion vectors have been investigated (ST12). When there is an uninvestigated motion vector (NO in ST12), region extraction unit 102 selects a motion vector to be investigated (ST13). Next, the region extraction unit 102 determines whether the distance between the motion vector selected in ST13 and a motion vector in the vicinity of the motion vector is equal to or less than a threshold value TH_DIST (ST14). When the distance between the motion vector selected in ST13 and the nearby motion vector is equal to or less than the threshold TH_DIST (YES in ST14), the region extracting unit 102 selects a region including the motion vector selected in ST13 and the nearby motion vector. Designate a candidate area and store the candidate area in the area storage buffer. Note that the area storage buffer is configured in the storage device 902 shown in FIG. Next, region extraction section 102 combines two or more candidate regions that overlap each other among candidate regions stored in the region storage buffer into one candidate region (ST16).
  • region extraction unit 102 discards candidate regions whose area is less than threshold value TH_RANGE among the candidate regions in the region storage buffer. (ST17). In other words, the region extraction unit 102 extracts candidate regions whose area is greater than or equal to the threshold TH_RANGE as a motion region.
  • region extraction section 102 stores the encoded information corresponding to the extracted motion region in the encoded information buffer (ST18). That is, region extraction section 102 stores the encoded information corresponding to the macroblocks constituting the motion region extracted in ST17 in the encoded information buffer.
  • the encoded information buffer is configured in the storage device 902 shown in FIG.
  • FIG. 7 shows an outline of the operation of the pixel value conversion unit 103.
  • the pixel value conversion unit 103 acquires, from the encoding information buffer, encoding information of macroblocks that constitute the motion region extracted by the region extraction unit 102. Then, the pixel value conversion unit 103 converts the encoding information of each macroblock into a pixel value.
  • the pixel value conversion unit 103 converts, for example, the norm in the X direction, the norm in the Y direction, and the macroblock type of the motion vector into pixel values in the RGB space. Then, the pixel value conversion unit 103 stores the converted pixel values in the pixels according to the arrangement order of the macroblocks, generates pixel value information indicating the pixel values for each pixel, and generates the generated pixel value information as an image recognition device. Output to.
  • the region determination unit 1031, the encoded information calculation unit 1032, and the encoded information imaging unit 1033 that are components of the pixel value conversion unit 103 will be described.
  • the region determination unit 1031 determines the number of motion regions used for imaging encoded information.
  • the encoding information calculation unit 1032 determines whether or not to perform calculation processing on the encoding information of one or more motion regions determined by the region determination unit 1031. For example, the encoding information calculation unit 1032 performs the following calculation processing when performing calculation processing on the encoding information. When one motion region is used, the encoded information calculation unit 1032 calculates an average value for each column of macroblocks of encoded information. Also, when a plurality of motion regions are used, the encoded information calculation unit 1032 calculates an average value between the motion regions of the encoded information. In addition, when a plurality of motion regions are used, the encoded information calculation unit 1032 may use motion regions extracted from image encoded information of different frames. Note that the encoded information calculation unit 1032 may not perform the calculation process on the encoded information.
  • the encoded information imaging unit 1033 converts the encoded information into pixel values. That is, the encoded information imaging unit 1033 determines the arrangement of the encoded information processed by the region determining unit 1031 and the encoded information calculating unit 1032 and converts the encoded information into pixel values. In addition, the encoded information imaging unit 1033 may normalize the encoded information according to the characteristics of the image recognition apparatus that is the transmission destination of the pixel value information when converting into the pixel value. For example, the encoded information calculation unit 1032 may normalize the motion vector and the macroblock type.
  • the pixel value format may be color, gray scale, high dynamic range, or the like, and is not limited to a specific format.
  • FIG. 8 is a flowchart showing an operation example of the pixel value conversion unit 103 according to the present embodiment. The flow of FIG. 8 is performed after the encoded information corresponding to the motion region is stored in the encoded information buffer in ST18 of FIG.
  • the region determination unit 1031 determines a motion region to be used for imaging encoded information (ST21).
  • the encoding information calculation unit 1032 determines whether or not to perform calculation processing on the motion region determined in ST21 (ST22). If it is determined in ST22 that the calculation process is to be performed, the encoded information calculation unit 1032 performs the calculation process using the encoded information (ST23). An example of the arithmetic processing will be described later with reference to FIGS. After the calculation process of ST23 is performed, ST24 is performed. On the other hand, when it is determined in ST22 that the arithmetic processing is not performed, ST24 is performed.
  • the encoded information imaging unit 1033 determines whether to calculate the pixel value of the encoded information.
  • the encoded information imaging unit 1033 calculates the pixel value of the encoded information (ST25). An example of the pixel value calculation process will be described later with reference to FIGS. 11, 12, and 13.
  • the encoded information imaging unit 1033 generates pixel value information indicating the pixel value of the encoded information calculated in ST25, and transmits the pixel value information to the image recognition apparatus (ST26).
  • FIG. 9 and FIG. 10 show an example of calculation processing by the encoded information calculation unit 1032 performed in ST23 of FIG.
  • FIG. 9 shows a procedure in which, when one motion region is used, the encoded information calculation unit 1032 calculates an average value for each column of encoded information macroblocks to reduce the amount of information.
  • the encoded information calculation unit 1032 performs an operation of aggregating 16 encoded information corresponding to (4 ⁇ 4) macroblocks into 4 encoded information.
  • the encoded information imaging unit 1033 converts the four pieces of encoded information after aggregation into pixel values.
  • FIG. 10 shows a procedure for reducing the amount of information by calculating an average value of encoded information using macroblocks at the same position when a plurality of motion regions are used. In other words, in the example of FIG.
  • the encoded information calculation unit 1032 encodes ⁇ 2 ⁇ (4 ⁇ 4) ⁇ when each of the two motion regions is configured by (4 ⁇ 4) macroblocks. An operation for aggregating information into (4 ⁇ 4) pieces of encoded information is performed. Then, after the aggregation operation of FIG. 10, the encoded information imaging unit 1033 converts the 16 encoded information after aggregation into pixel values.
  • the encoded information calculation unit 1032 calculates the average value for each column of macroblocks and aggregates the encoded information.
  • the encoded information may be aggregated by another calculation method.
  • the encoded information calculation unit 1032 may aggregate the encoded information based on the maximum value (or minimum value or median value) of the encoded information. That is, the encoded information calculation unit 1032 generates m pieces (m of m pieces of encoded information corresponding to n (n is an integer of 2 or more) macroblocks constituting the motion region extracted by the region extraction unit 102. Is an integer greater than or equal to 1, and any calculation may be performed as long as the calculation is aggregated into encoded information of n).
  • the encoded information calculation unit 1032 calculates the average value of the encoded information of the macroblocks at the same position and aggregates the encoded information.
  • the encoded information is calculated by another calculation method. May be aggregated.
  • the encoded information calculation unit 1032 may aggregate the encoded information based on the maximum value (or minimum value or median value) of the encoded information. That is, the encoded information calculation unit 1032 uses the region extraction unit 102 to extract j (j is an integer of 2 or more) motion regions each composed of i (i is an integer of 1 or more) macroblocks.
  • j (16 ⁇ 2)
  • the encoding information calculation unit 1032 may acquire (j ⁇ 1) motion regions extracted in the past by the region extraction unit 102.
  • the encoded information calculation unit 1032 may acquire (j ⁇ 1) motion regions extracted from a past frame, which are different from the frame that is the target of the flow in FIG. It is assumed that (j-1) motion regions are each composed of i macroblocks. The encoded information calculation unit 1032 then combines the obtained (j ⁇ 1) motion regions and the motion region extracted by the region extraction unit 102 (the motion region extracted by the flow of FIG. 4). An operation of aggregating (i ⁇ j) pieces of encoded information corresponding to (i ⁇ j) macroblocks included in each motion region into i pieces of encoded information may be performed. Specifically, similarly to FIG.
  • the encoded information calculation unit 1032 calculates the average value of the encoded information of the macroblocks at the same position and aggregates the encoded information. Also in this case, the encoded information imaging unit 1033 converts the i encoded information after aggregation into pixel values.
  • FIG. 12 and FIG. 13 show an example of pixel value calculation processing by the encoded information imaging unit 1033 performed in ST25 of FIG.
  • the encoded information imaging unit 1033 calculates the macroblock type, the norm in the X direction and the norm in the Y direction of each of the 16 encoded information corresponding to the (4 ⁇ 4) macroblock.
  • An example of conversion into pixel values in the RGB space is shown.
  • the encoded information imaging unit 1033 determines a value to be converted into a pixel value among the values included in the encoded information, according to the image recognition apparatus that is the transmission destination of the pixel value information.
  • the encoded information imaging unit 1033 converts the X-direction norm of the motion vector into an R pixel value, converts the Y-direction norm of the motion vector into a G pixel value, and sets the macroblock type to B. The pixel value is converted to.
  • the encoded information imaging unit 1033 converts a fixed value not included in the encoded information into an R pixel value, converts a norm in the Y direction of the motion vector into a G pixel value, The norm in the X direction of the vector is converted into a B pixel value.
  • the encoded information imaging unit 1033 converts the macroblock type into all the RGB pixel values. Also, the encoded information imaging unit 1033 determines a conversion method for pixel values according to the image recognition apparatus that is the transmission destination of the pixel value information.
  • the encoded information imaging unit 1033 normalizes the macroblock type between 0 and 255, converts the normalized macroblock type to an R pixel value, and sets the norm in the X direction of the motion vector.
  • the pixel values of G and B are converted.
  • the encoded information imaging unit 1033 converts the addition value of the norm in the X direction and the Y direction of the motion vector into R and G pixel values, and converts the macroblock type into a B pixel value. is doing.
  • the encoded information imaging unit 1033 can calculate a pixel value from the encoded information using an arbitrary calculation formula.
  • the quantization step value, the number of the front frame of the reference image information, and the number of the last frame may be converted into pixel values.
  • the type of color space to be converted is arbitrary. That is, the encoded information imaging unit 1033 can convert the encoded information into a pixel value in the YUV space or a pixel value in the HSV space in addition to the pixel value in the RGB space.
  • the encoded information imaging unit 1033 may adjust the number of pixels to be converted in accordance with the number of encoded information (eg, the number of macroblock types and the number of motion vectors). Good (Example 1 in FIG. 13). Also, for example, when the number of macroblock types and the number of motion vectors are different, the encoded information imaging unit 1033 duplicates the parameter with a small number, and combines the number of macroblock types and the number of motion vectors. (Example 2 in FIG. 13).
  • the information processing apparatus 100 includes an entropy decoding unit 101 that acquires encoded information from image encoded information, and does not perform decoding processing other than entropy decoding, and thus performs calculation related to decoding processing.
  • the load can be reduced.
  • the region extraction unit 102 since only the encoded information is used in the region extraction unit 102, a region in which the moving object is roughly present can be determined with a small amount of information compared to the image information.
  • the pixel value conversion unit 103 can generate an image for notifying a motion region suitable for the image recognition apparatus.
  • the calculation load on the image recognition apparatus can be reduced as compared with the case where the image recognition apparatus processes the decoded image information.
  • the computational load when processing image information compared to voice information and text information is high, and the computational load on the image recognition device increases in proportion to the increase in the size of the decoded image information.
  • the calculation load on the image recognition apparatus can be reduced.
  • the information processing apparatus 100 is a computer.
  • a processor 901 illustrated in FIG. 14 is an IC (Integrated Circuit) that performs processing.
  • the processor 901 is a CPU (Central Processing Unit), a DSP (Digital Signal Processor), or the like.
  • a storage device 902 illustrated in FIG. 14 is a RAM (Random Access Memory), a ROM (Read Only Memory), a flash memory, an HDD (Hard Disk Drive), or the like.
  • Each of the reception device 903 and the transmission device 904 illustrated in FIG. 14 is, for example, a communication chip or a NIC (Network Interface Card).
  • the storage device 902 also stores an OS (Operating System). Then, at least a part of the OS is executed by the processor 901.
  • the processor 901 executes a program that realizes the functions of the entropy decoding unit 101, the region extraction unit 102, and the pixel value conversion unit 103 (hereinafter collectively referred to as “unit”) while executing at least a part of the OS.
  • the information processing apparatus 100 may include a plurality of processors.
  • information, data, signal values, and variable values indicating the processing results of “unit” are stored in the storage device 902, a register in the processor 901, or a cache memory.
  • the program for realizing the function of “unit” may be stored in a portable storage medium such as a magnetic disk, a flexible disk, an optical disk, a compact disk, a Blu-ray (registered trademark) disk, or a DVD.
  • processing circuitry or “circuit” or “process” or “procedure” or “processing”.
  • the “processing circuit” or “circuit” is not only the processor 901 but also other types of processing circuits such as a logic IC or GA (Gate Array) or ASIC (Application Specific Integrated Circuit) or FPGA (Field-Programmable Gate Array). Is a concept that also includes
  • 100 information processing device 101 entropy decoding unit, 102 region extraction unit, 103 pixel value conversion unit, 1031 region determination unit, 1032 encoding information calculation unit, 1033 encoding information imaging unit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Abstract

エントロピー復号部(101)と、複数のマクロブロックで構成される画像情報が符号化されて得られた画像符号化情報に対してエントロピー復号を行い、画像符号化情報から、複数のマクロブロックに対応して設けられた、それぞれに少なくとも動きベクトルが含まれる複数の符号化情報を抽出する。領域抽出部(102)は、エントロピー復号部(101)により抽出された複数の符号化情報に含まれる複数の動きベクトルに基づいて、画像情報内の動きのある領域を動き領域として抽出する。

Description

情報処理装置及び情報処理方法及び情報処理プログラム
 本発明は、画像情報内で動きのある動き領域を抽出する技術に関する。
 カメラで撮影した画像情報の転送負荷の軽減やデータ量の縮小を目的に、動画像を符号化して圧縮し、画像符号化情報を生成する技術が広く使われている。
 しかし、画像符号化情報を画像解析する際には復号処理によって符号化する前の画像情報に戻すことが必要である。
 特許文献1には、動画像に含まれる人や車などの動物体を検出する解析手法を有する画像処理装置が開示されている。
特開2007-316856号公報
 特許文献1の画像処理装置は、画像符号化情報から画像情報を復号し、復号により得られた画像情報を解析して動物体を検出する。
 このように、特許文献1の画像処理装置は、画像情報を復号するため、計算負荷が高いという課題がある。
 本発明は、上記の課題を解決することを主な目的としており、画像情報内で動きのある動き領域を抽出する際の計算負荷を低減することを主な目的とする。
 本発明に係る情報処理装置は、
 複数のマクロブロックで構成される画像情報が符号化されて得られた画像符号化情報に対してエントロピー復号を行い、前記画像符号化情報から、前記複数のマクロブロックに対応して設けられた、それぞれに少なくとも動きベクトルが含まれる複数の符号化情報を抽出するエントロピー復号部と、
 前記エントロピー復号部により抽出された前記複数の符号化情報に含まれる複数の動きベクトルに基づいて、前記画像情報内の動きのある領域を動き領域として抽出する領域抽出部とを有する。
 本発明によれば、画像情報を復号することなく、符号化情報に含まれる動きベクトルに基づいて動き領域を抽出するため、動き領域を抽出する際の計算負荷を低減することができる。
実施の形態1に係る情報処理装置の機能構成例を示す図。 実施の形態1に係る画素値変換部の内部構成例を示す図。 実施の形態1に係る符号化情報の例を示す図。 実施の形態1に係る領域抽出部の動作の概要を示す図。 実施の形態1に係る領域抽出部の動作の概要を示す図。 実施の形態1に係る領域抽出部の動作例を示すフローチャート図。 実施の形態1に係る画素値変換部の動作の概要を示す図。 実施の形態1に係る画素値変換部の動作例を示すフローチャート図。 実施の形態1に係る符号化情報演算部の動作の概要を示す図。 実施の形態1に係る符号化情報演算部の動作の概要を示す図。 実施の形態1に係る符号化情報画像化部の動作の概要を示す図。 実施の形態1に係る符号化情報画像化部の動作の概要を示す図。 実施の形態1に係る符号化情報画像化部の動作の概要を示す図。 実施の形態1に係る情報処理装置のハードウェア構成例を示す図。
実施の形態1.
***構成の説明***
 図1は、実施の形態1に係る情報処理装置100の機能構成例を示す。
 図1に示すように、情報処理装置100は、エントロピー復号部101、領域抽出部102及び画素値変換部103で構成される。
 また、画素値変換部103は、図2に示すように、領域決定部1031、符号化情報演算部1032及び符号化情報画像化部1033で構成される。
 なお、後述する情報処理装置100の動作は、情報処理方法及び情報処理プログラムの例に相当する。
 情報処理装置100には、図14に示すように、プロセッサ901、記憶装置902、受信装置903及び送信装置904というハードウェアが含まれる。
 記憶装置902には、エントロピー復号部101、領域抽出部102及び画素値変換部103の機能を実現するプログラムが記憶されている。
 そして、プロセッサ901がこれらプログラムを実行して、後述するエントロピー復号部101、領域抽出部102及び画素値変換部103の動作を行う。
 図14では、プロセッサ901がエントロピー復号部101、領域抽出部102及び画素値変換部103の機能を実現するプログラムを実行している状態を模式的に表している。
 受信装置903は、画像符号化情報を受信する。
 送信装置904は、画素値情報を、図示していない画像認識装置に送信する。
***動作の説明***
 次に、図1に示すエントロピー復号部101、領域抽出部102及び画素値変換部103の動作を説明する。
 エントロピー復号部101は、図14に示す受信装置903を介して画像符号化情報を受信し、画像符号化情報に対してエントロピー復号を行い、画像符号化情報から符号化情報を抽出する。
 画像符号化情報は、複数のマクロブロックで構成される画像情報がエントロピー符号化されて得られた情報である。
 エントロピー復号部101は、エントロピー復号により、画像符号化情報から、複数のマクロブロックに対応して設けられた複数の符号化情報を抽出する。
 符号化情報のそれぞれには、少なくとも動きベクトル、マクロブロックタイプ、量子化ステップ、参照画像情報が含まれる。
 なお、エントロピー復号部101の動作は、エントロピー復号処理に相当する。
 領域抽出部102は、エントロピー復号部101により抽出された複数の符号化情報に含まれる複数の動きベクトルをマクロブロックの順序に従って配置し、複数の動きベクトルの位置に基づいて、画像情報内の動きのある領域を動き領域として抽出する。
 動き領域は、画像情報において動物体が描画される領域である。
 領域抽出部102は、より具体的には、複数の動きベクトルのうち近接する位置に配置されている2以上の動きベクトルを統合し、統合後の動きベクトルの位置に基づいて動き領域を抽出する。
 なお、領域抽出部102の動作は、領域抽出処理に相当する。
 画素値変換部103は、領域抽出部102により抽出された動き領域を構成するマクロブロックに対応する符号化情報を取得し、取得した符号化情報の動きベクトル、マクロブロックタイプ、量子化ステップ、参照画像情報とのうちの少なくともいずれかを画素値に変換する。
 そして、画素値変換部103は、符号化情報から変換された画素値を画素ごとに示す画素値情報を、図14に示す送信装置904を介して、画像認識装置に送信する。
 なお、画素値変換部103による符号化情報の画素値への変換を、符号化情報の画像化ともいう。
 前述したように、画素値変換部103は、図2に示す領域決定部1031、符号化情報演算部1032及び符号化情報画像化部1033で構成されるが、領域決定部1031、符号化情報演算部1032及び符号化情報画像化部1033の詳細は後述する。
 図3は、エントロピー復号部101により画像符号化情報に対してエントロピー復号が行われて得られる情報を示す。
 エントロピー復号により、画像符号化情報から、ヘッダ情報、符号化情報及び符号化テクスチャ情報が得られる。
 ヘッダ情報、符号化情報及び符号化テクスチャ情報は、画像情報を構成するマクロブロックごとに設けられている。
 ヘッダ情報は、例えば、H.264符号化におけるSPS(Sequence Parameter Set:シーケンスレベルの符号化情報)やPPS(Picture Parameter Set:ピクチャレベルの符号化情報)を示す。
 符号化情報には、マクロブロックタイプ、量子化ステップ、画面内予測モード、参照画像情報、動きベクトル、画面内予測コスト、画面間予測コスト及びマクロブロック符号量というパラメータが含まれる。
 本実施の形態では、マクロブロックタイプ、量子化ステップ、動きベクトル、参照画像情報を画素値の変換に利用可能である。
 符号化テクスチャ情報は、符号化されている画像情報である。
 符号化テクスチャ情報に対する復号処理によりマクロブロック単位で画像情報が得られる。
 従来技術では、符号化テクスチャ情報に対する復号処理により画像情報を得て、画像情報を解析することで、画像情報内の動き領域を抽出する。
 本実施の形態では、符号化テクスチャ情報に対する復号処理を行わずに、領域抽出部102が、符号化情報に含まれる動きベクトルを解析し、画像情報内の動き領域を抽出する。
 次に、領域抽出部102の動作例を説明する。
 領域抽出部102は、複数のマクロブロックに対応する複数の符号化情報に含まれる複数の動きベクトルをマクロブロックの順序に従って配置する。
 そして、領域抽出部102は、マクロブロックの順序に従って配置された複数の動きベクトルの位置に基づいて動き領域を抽出する。
 動き領域は動きベクトルの有無、動きベクトル同士の距離によって決定される。
 領域抽出部102は、近接する位置に配置されている2以上の動きベクトルを統合する。
 つまり、領域抽出部102は、相互間の距離が閾値TH_DIST以下の2以上の動きベクトルを包含する領域を候補領域として指定する。
 そして、領域抽出部102は、面積が閾値TH_RANGE以上の候補領域を動き領域として抽出する。
 一方、領域抽出部102は、閾値TH_RANGE未満の面積の候補領域はノイズとみなして破棄する。
 図4及び図5は、領域抽出部102の動作の概要を示す。
 領域抽出部102は、画像情報の1フレーム分の符号化情報を取得する。
 図4の(a)では、各列が1つのマクロブックの符号化情報のパラメータを表している。
 すなわち、動きベクトルMV1、マクロブロックタイプMBT1、量子化ステップST1、参照画像情報INF1が、マクロブロックMB1の符号化情報のパラメータである。
 同様に、動きベクトルMV2、マクロブロックタイプMBT2、量子化ステップST2、参照画像情報INF2が、マクロブロックMB2の符号化情報のパラメータである。
 マクロブロックMB3以降についても同様である。
 次に、図4の(b)に示すように、領域抽出部102は、動きベクトルを、マクロブロックの順に配置する。
 更に、図5の(a)に示すように、領域抽出部102は、相互間の距離が閾値TH_DIST以下の動きベクトルを1つの候補領域にまとめる。
 そして、図5の(b)に示すように、領域抽出部102は、面積が閾値TH_RANGE以上の候補領域を動き領域として抽出する。
 図6は、領域抽出部102の動作例を示すフローチャート図である。
 領域抽出部102は、まず、エントロピー復号部101によって抽出された1フレーム分の符号化情報の動きベクトルをマクロブロックの順に配置する(ST11)。
 すなわち、領域抽出部102は、1フレーム分の動きベクトルを、画像情報が復号された場合の動きベクトルの配置と同様に配置する。
 次に、領域抽出部102は、配置された全ての動きベクトルを調査済みか否かを判定する(ST12)。
 未調査の動きベクトルが存在する場合(ST12でNO)は、領域抽出部102は、調査対象の動きベクトルを選択する(ST13)。
 次に、領域抽出部102は、ST13で選択した動きベクトルと、当該動きベクトルの近傍の動きベクトルとの距離が閾値TH_DIST以下であるかを判定する(ST14)。
 ST13で選択した動きベクトルと近傍の動きベクトルとの距離が閾値TH_DIST以下である場合(ST14でYES)は、領域抽出部102は、ST13で選択した動きベクトルと近傍の動きベクトルを包含する領域を候補領域に指定し、候補領域を領域格納バッファに格納する。
 なお、領域格納バッファは、図14に示す記憶装置902に構成される。
 次に、領域抽出部102は、領域格納バッファに格納されている候補領域のうち、相互に重なっている2以上の候補領域を1つの候補領域にまとめる(ST16)。
 一方、ST12において、全ての動き領域の調査が完了している場合(ST12でYES)は、領域抽出部102は、領域格納バッファ内の候補領域のうち、面積が閾値TH_RANGE未満の候補領域を破棄する(ST17)。
 換言すれば、領域抽出部102は、面積が閾値TH_RANGE以上の候補領域を動き領域として抽出する。
 次に、領域抽出部102は、抽出した動き領域に対応する符号化情報を符号化情報バッファに格納する(ST18)。
 すなわち、領域抽出部102は、ST17で抽出した動き領域を構成するマクロブロックに対応する符号化情報を符号化情報バッファに格納する。
 符号化情報バッファは、図14に示す記憶装置902に構成される。
 次に、画素値変換部103を説明する。
 図7は、画素値変換部103の動作の概要を示す。
 画素値変換部103は、領域抽出部102により抽出された動き領域を構成するマクロブロックの符号化情報を符号化情報バッファから取得する。
 そして、画素値変換部103は、各マクロブロックの符号化情報を画素値に変換する。
 画素値変換部103は、例えば、動きベクトルのX方向のノルムとY方向のノルムと、マクロブロックタイプとをRGB空間の画素値に変換する。
 そして、画素値変換部103は、変換された画素値をマクロブロックの配置順に従って画素に格納し、画素ごとに画素値が示される画素値情報を生成し、生成した画素値情報を画像認識装置に出力する。
 次に、画素値変換部103の構成要素である、領域決定部1031、符号化情報演算部1032及び符号化情報画像化部1033を説明する。
 領域決定部1031は、符号化情報の画像化に使用する動き領域の個数を決定する。
 符号化情報演算部1032は、領域決定部1031により決定された単数もしくは複数の動き領域の符号化情報に対して演算処理を行うか否かを決定する。
 符号化情報演算部1032は、符号化情報に対して演算処理を行う場合は、例えば、以下のような演算処理を行う。
 符号化情報演算部1032は、1つの動き領域が使用される場合は、符号化情報のマクロブロックの列ごとの平均値を算出する。
 また、符号化情報演算部1032は、複数の動き領域が使用される場合は、符号化情報の動き領域間の平均値を算出する。
 また、符号化情報演算部1032は、複数の動き領域が使用される場合は、異なるフレームの画像符号化情報から抽出された動き領域を使用してもよい。
 なお、符号化情報演算部1032は、符号化情報に対して演算処理を行わなくてもよい。
 符号化情報画像化部1033は、符号化情報を画素値に変換する。
 つまり、符号化情報画像化部1033は、領域決定部1031及び符号化情報演算部1032で処理された符号化情報の配置を決定し、符号化情報を画素値に変換する。
 また、符号化情報画像化部1033は、画素値への変換の際に、画素値情報の送信先の画像認識装置の特性に応じて符号化情報を正規化してもよい。
 符号化情報演算部1032は、例えば、動きベクトルとマクロブロックタイプを正規化してもよい。
 なお、画素値の形式はカラー、グレースケール、ハイダイナミックレンジなどでもよく、特定の形式に限定されない。
 図8は、本実施の形態に係る画素値変換部103の動作例を示すフローチャート図である。
 図8のフローは、図6のST18により動き領域に対応する符号化情報が符号化情報バッファに格納された後に行われる。
 まず、領域決定部1031が、符号化情報の画像化に使用する動き領域を決定する(ST21)。
 次に、符号化情報演算部1032が、ST21で決定された動き領域に対して演算処理を行うか否かを判定する(ST22)。
 ST22において演算処理を行うと判定した場合は、符号化情報演算部1032は、符号化情報を用いて演算処理を行う(ST23)。
 なお、演算処理の例は、図9及び図10を参照して後述する。
 ST23の演算処理が行われた後は、ST24が行われる。
 一方、ST22において演算処理を行わないと判定した場合は、ST24が行われる。
 ST24において、符号化情報画像化部1033が、符号化情報の画素値を算出するか否かを判定する。
 符号化情報の画素値を算出する場合は、符号化情報画像化部1033は、符号化情報の画素値を算出する(ST25)。
 なお、画素値の算出処理の例は、図11、図12及び図13を参照して後述する。
 次に、符号化情報画像化部1033は、ST25で算出した符号化情報の画素値が示される画素値情報を生成し、画素値情報を画像認識装置に送信する(ST26)。
 図9及び図10は、図8のST23で行われる、符号化情報演算部1032による演算処理の例を示す。
 図9は、1つの動き領域が使用される場合に、符号化情報演算部1032が、符号化情報のマクロブロックの列ごとの平均値を算出して、情報量を低減する手順を示す。
 つまり、図9の例では、符号化情報演算部1032は、(4×4)のマクロブロックに対応する16個の符号化情報を、4個の符号化情報に集約する演算を行っている。
 そして、図9の集約演算の後、符号化情報画像化部1033が、集約後の4個の符号化情報をそれぞれ画素値に変換する。
 また、図10は、複数の動き領域が使用される場合に、同じ位置にあるマクロブロックで符号化情報の平均値を算出して、情報量を低減する手順を示す。
 つまり、図10の例では、符号化情報演算部1032は、2個の動き領域がそれぞれ(4×4)のマクロブロックで構成される場合に、{2×(4×4)}の符号化情報を、(4×4)個の符号化情報に集約する演算を行っている。
 そして、図10の集約演算の後、符号化情報画像化部1033が、集約後の16個の符号化情報をそれぞれ画素値に変換する。
 なお、図9では、符号化情報演算部1032は、マクロブロックの列ごとに平均値を算出して符号化情報を集約しているが、別の演算方法によって符号化情報を集約してもよい。
 例えば、符号化情報演算部1032は、符号化情報の最大値(又は最小値又は中央値)により符号化情報を集約してもよい。
 つまり、符号化情報演算部1032は、領域抽出部102により抽出された動き領域を構成するn個(nは2以上の整数)のマクロブロックに対応するn個の符号化情報をm個(mは1以上の整数であって、nの約数)の符号化情報に集約する演算であれば、どのような演算を行ってもよい。
 同様に、図10では、符号化情報演算部1032は、同じ位置にあるマクロブロックの符号化情報の平均値を算出して符号化情報を集約しているが、別の演算方法によって符号化情報を集約してもよい。
 例えば、符号化情報演算部1032は、符号化情報の最大値(又は最小値又は中央値)により符号化情報を集約してもよい。
 つまり、符号化情報演算部1032は、領域抽出部102により、それぞれがi個(iは1以上の整数)のマクロブロックで構成されるj個(jは2以上の整数)の動き領域が抽出された場合に、j個の動き領域に含まれる(i×j)個のマクロブロックに対応する(i×j)個の符号化情報をi個の符号化情報に集約する演算であれば、どのような演算を行ってもよい。
 また、図10では、符号化情報演算部1032は、1つのフレームから抽出されたj個(図10ではj=2)の動き領域について、(i×j)個(図10では、(i×j)=(16×2))の符号化情報をi個(図10では、i=16)の符号化情報に集約する例を示している。
 これに対し、符号化情報演算部1032は、過去に領域抽出部102により抽出された、(j―1)個の動き領域を取得してもよい。
 つまり、符号化情報演算部1032は、図4のフローの対象となっているフレームとは異なる、過去のフレームから抽出された(j―1)個の動き領域を取得してもよい。
 なお、(j―1)個の動き領域は、それぞれがi個のマクロブロックで構成されるものとする。
 そして、符号化情報演算部1032は、取得した(j―1)個の動き領域と、領域抽出部102により抽出された動き領域(図4のフローにより抽出された動き領域)とを合わせたj個の動き領域に含まれる(i×j)個のマクロブロックに対応する(i×j)個の符号化情報をi個の符号化情報に集約する演算を行うようにしてもよい。
 具体的には、符号化情報演算部1032は、図10と同様に、同じ位置にあるマクロブロックの符号化情報の平均値を算出して符号化情報を集約する。
 そして、符号化情報画像化部1033は、この場合も、集約後のi個の符号化情報をそれぞれ画素値に変換する。
 図11、図12及び図13は、図8のST25で行われる、符号化情報画像化部1033による画素値の算出処理の例を示す。
 図11では、符号化情報画像化部1033が、(4×4)のマクロブロックに対応する16個の符号化情報の各々のマクロブロックタイプと動きベクトルのX方向のノルムとY方向のノルムをRGB空間の画素値に変換する例を示している。
 符号化情報画像化部1033は、画素値情報の送信先の画像認識装置に応じて、符号化情報に含まれる値のうち、画素値に変換する値を決定する。
 例1では、符号化情報画像化部1033は、動きベクトルのX方向のノルムをRの画素値に変換し、動きベクトルのY方向のノルムをGの画素値に変換し、マクロブロックタイプをBの画素値に変換している。
 例2では、符号化情報画像化部1033は、符号化情報には含まれていない固定値をRの画素値に変換し、動きベクトルのY方向のノルムをGの画素値に変換し、動きベクトルのX方向のノルムをBの画素値に変換している。
 例3では、符号化情報画像化部1033は、マクロブロックタイプをRGBの全ての画素値に変換している。
 また、符号化情報画像化部1033は、画素値情報の送信先の画像認識装置に応じて、画素値への変換方法を決定する。
 例4では、符号化情報画像化部1033は、0~255の間でマクロブロックタイプを正規化し、正規化後のマクロブロックタイプをRの画素値に変換し、動きベクトルのX方向のノルムをGとBの画素値に変換している。
 例5では、符号化情報画像化部1033は、動きベクトルのX方向のノルムとY方向のノルムとの加算値をRとGの画素値に変換し、マクロブロックタイプをBの画素値に変換している。
 なお、符号化情報画像化部1033は、任意の計算式を用いて、符号化情報から画素値を計算することができる。
 また、図12に示すように、マクロブロックタイプ、動きベクトル以外に、量子化ステップ値、参照画像情報の最前フレームの番号、最後フレームの番号を画素値に変換するようにしてもよい。
 また、変換先の色空間の種類は任意である。
 つまり、符号化情報画像化部1033は、符号化情報を、RGB空間の画素値以外に、YUV空間の画素値又はHSV空間の画素値に変換可能である。
 また、図13に示すように、符号化情報画像化部1033は、符号化情報の数(例:マクロブロックタイプの数、動きベクトルの数)に合わせて変換先の画素数を調整してもよい(図13の例1)。
 また、符号化情報画像化部1033は、例えば、マクロブロックタイプの個数と動きベクトルの個数が異なる場合は、個数が少ないパラメータを複製して、マクロブロックタイプの個数と動きベクトルの個数を合わせてもよい(図13の例2)。
***実施の形態の効果の説明***
 このように、実施の形態1によれば、画像情報を復号することなく、符号化情報に含まれる動きベクトルに基づいて動き領域を抽出するため、動き領域を抽出する際の計算負荷を低減することができる。
 また、本実施の形態に係る情報処理装置100は、画像符号化情報から符号化情報を取得するエントロピー復号部101を有しており、エントロピー復号以外の復号処理を行わないため復号処理に係る計算負荷を低減できる。
 また、領域抽出部102では符号化情報のみを利用することから画像情報と比較して少ない情報量だけで大まかに動物体が存在する領域を確定できる。
 また、画素値変換部103によって、画像認識装置に適した、動き領域を通知する画像を生成可能である。
 更に、画素値変換部103によって符号化情報を画像化することにより、画像認識装置が復号された画像情報を処理する場合と比較して、画像認識装置での計算負荷を低減することができる。
 音声情報や文字情報と比較して画像情報を処理する場合の計算負荷は高く、また、復号した画像情報のサイズの増加に比例して画像認識装置での計算負荷が高くなるが、本実施の形態によれば、画像認識装置は、画像情報そのものではなく、符号化情報の画素値情報を処理するため、画像認識装置での計算負荷を低減することができる。
***ハードウェア構成の説明***
 最後に、情報処理装置100のハードウェア構成の補足説明を行う。
 情報処理装置100はコンピュータである。
 図14に示すプロセッサ901は、プロセッシングを行うIC(Integrated Circuit)である。
 プロセッサ901は、CPU(Central Processing Unit)、DSP(Digital Signal Processor)等である。
 図14に示す記憶装置902は、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、HDD(Hard Disk Drive)等である。
 図14に示す受信装置903及び送信装置904は、それぞれ、例えば、通信チップ又はNIC(Network Interface Card)である。
 また、記憶装置902には、OS(Operating System)も記憶されている。
 そして、OSの少なくとも一部がプロセッサ901により実行される。
 プロセッサ901はOSの少なくとも一部を実行しながら、エントロピー復号部101、領域抽出部102及び画素値変換部103(以下、これらをまとめて「部」という)の機能を実現するプログラムを実行する。
 図14では、1つのプロセッサが図示されているが、情報処理装置100が複数のプロセッサを備えていてもよい。
 また、「部」の処理の結果を示す情報やデータや信号値や変数値が、記憶装置902、又は、プロセッサ901内のレジスタ又はキャッシュメモリに記憶される。
 また、「部」の機能を実現するプログラムは、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ブルーレイ(登録商標)ディスク、DVD等の可搬記憶媒体に記憶されてもよい。
 また、「部」を「プロセッシングサーキットリー」又は「回路」又は「工程」又は「手順」又は「処理」に読み替えてもよい。
 「プロセッシングサーキットリー」又は「回路」は、プロセッサ901だけでなく、ロジックIC又はGA(Gate Array)又はASIC(Application Specific Integrated Circuit)又はFPGA(Field-Programmable Gate Array)といった他の種類の処理回路をも包含する概念である。
 100 情報処理装置、101 エントロピー復号部、102 領域抽出部、103 画素値変換部、1031 領域決定部、1032 符号化情報演算部、1033 符号化情報画像化部。

Claims (10)

  1.  複数のマクロブロックで構成される画像情報が符号化されて得られた画像符号化情報に対してエントロピー復号を行い、前記画像符号化情報から、前記複数のマクロブロックに対応して設けられた、それぞれに少なくとも動きベクトルが含まれる複数の符号化情報を抽出するエントロピー復号部と、
     前記エントロピー復号部により抽出された前記複数の符号化情報に含まれる複数の動きベクトルに基づいて、前記画像情報内の動きのある領域を動き領域として抽出する領域抽出部とを有する情報処理装置。
  2.  前記情報処理装置は、更に、
     前記領域抽出部により抽出された前記動き領域を構成するマクロブロックに対応する符号化情報を取得し、取得した符号化情報を画素値に変換する画素値変換部を有する請求項1に記載の情報処理装置。
  3.  前記エントロピー復号部は、
     前記画像符号化情報から、前記動きベクトルに加えて、マクロブロックタイプと量子化ステップと参照画像情報とのうちの少なくともいずれかがそれぞれに含まれる複数の符号化情報を抽出し、
     前記画素値変換部は、
     前記動きベクトルと前記マクロブロックタイプと前記量子化ステップと前記参照画像情報とのうちの少なくともいずれかを画素値に変換する請求項2に記載の情報処理装置。
  4.  前記領域抽出部は、
     前記複数の符号化情報に含まれる複数の動きベクトルをマクロブロックの順序に従って配置し、前記複数の動きベクトルの位置に基づいて前記動き領域を抽出する請求項1に記載の情報処理装置。
  5.  前記領域抽出部は、
     前記複数の動きベクトルのうち近接する位置に配置されている2以上の動きベクトルを統合し、統合後の動きベクトルの位置に基づいて前記動き領域を抽出する請求項4に記載の情報処理装置。
  6.  前記画素値変換部は、
     前記領域抽出部により抽出された前記動き領域がn個(nは2以上の整数)のマクロブロックで構成される場合に、
     前記n個のマクロブロックに対応するn個の符号化情報をm個(mは1以上の整数であって、nの約数)の符号化情報に集約する演算を行い、集約後のm個の符号化情報をそれぞれ画素値に変換する請求項2に記載の情報処理装置。
  7.  前記画素値変換部は、
     前記領域抽出部により、それぞれがi個(iは1以上の整数)のマクロブロックで構成されるj個(jは2以上の整数)の動き領域が抽出された場合に、
     前記j個の動き領域に含まれる(i×j)個のマクロブロックに対応する(i×j)個の符号化情報をi個の符号化情報に集約する演算を行い、集約後のi個の符号化情報をそれぞれ画素値に変換する請求項2に記載の情報処理装置。
  8.  前記画素値変換部は、
     前記領域抽出部により、i個(iは1以上の整数)のマクロブロックで構成される動き領域が抽出された場合に、
     過去に前記領域抽出部により抽出された、それぞれがi個のマクロブロックで構成される(j―1)個(jは2以上の整数)の動き領域を取得し、
     取得した(j―1)個の動き領域と、前記領域抽出部により抽出された前記動き領域とを合わせたj個の動き領域に含まれる(i×j)個のマクロブロックに対応する(i×j)個の符号化情報をi個の符号化情報に集約する演算を行い、集約後のi個の符号化情報をそれぞれ画素値に変換する請求項2に記載の情報処理装置。
  9.  コンピュータが、複数のマクロブロックで構成される画像情報が符号化されて得られた画像符号化情報に対してエントロピー復号を行い、前記画像符号化情報から、前記複数のマクロブロックに対応して設けられた、それぞれに少なくとも動きベクトルが含まれる複数の符号化情報を抽出し、
     前記コンピュータが、前記複数の符号化情報に含まれる複数の動きベクトルに基づいて、前記画像情報内の動きのある領域を動き領域として抽出する情報処理方法。
  10.  複数のマクロブロックで構成される画像情報が符号化されて得られた画像符号化情報に対してエントロピー復号を行い、前記画像符号化情報から、前記複数のマクロブロックに対応して設けられた、それぞれに少なくとも動きベクトルが含まれる複数の符号化情報を抽出するエントロピー復号処理と、
     前記エントロピー復号処理により抽出された前記複数の符号化情報に含まれる複数の動きベクトルに基づいて、前記画像情報内の動きのある領域を動き領域として抽出する領域抽出処理とをコンピュータに実行させる情報処理プログラム。
PCT/JP2015/074997 2015-09-02 2015-09-02 情報処理装置及び情報処理方法及び情報処理プログラム WO2017037900A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2015/074997 WO2017037900A1 (ja) 2015-09-02 2015-09-02 情報処理装置及び情報処理方法及び情報処理プログラム
JP2016500425A JP5944078B1 (ja) 2015-09-02 2015-09-02 情報処理装置及び情報処理方法及び情報処理プログラム
TW104135041A TW201711469A (zh) 2015-09-02 2015-10-26 資訊處理裝置、資訊處理方法以及資訊處理程式產品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/074997 WO2017037900A1 (ja) 2015-09-02 2015-09-02 情報処理装置及び情報処理方法及び情報処理プログラム

Publications (1)

Publication Number Publication Date
WO2017037900A1 true WO2017037900A1 (ja) 2017-03-09

Family

ID=56289176

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/074997 WO2017037900A1 (ja) 2015-09-02 2015-09-02 情報処理装置及び情報処理方法及び情報処理プログラム

Country Status (3)

Country Link
JP (1) JP5944078B1 (ja)
TW (1) TW201711469A (ja)
WO (1) WO2017037900A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001250118A (ja) * 2000-03-06 2001-09-14 Kddi Corp 動画像内の移動物体検出追跡装置
JP2002027480A (ja) * 2000-07-10 2002-01-25 Fujitsu Ltd 動画像処理方法および動画像処理装置
JP2005073280A (ja) * 2003-08-26 2005-03-17 Lg Electronics Inc 圧縮動画像の動き客体分割方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001250118A (ja) * 2000-03-06 2001-09-14 Kddi Corp 動画像内の移動物体検出追跡装置
JP2002027480A (ja) * 2000-07-10 2002-01-25 Fujitsu Ltd 動画像処理方法および動画像処理装置
JP2005073280A (ja) * 2003-08-26 2005-03-17 Lg Electronics Inc 圧縮動画像の動き客体分割方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHUHEI OTA ET AL.: "Real-time object detection based on global motion estimation from MPEG motion vectors", IEICE TECHNICAL REPORT, vol. 108, no. 263, 16 October 2008 (2008-10-16), pages 19 - 24, ISSN: 0913-5685 *

Also Published As

Publication number Publication date
JP5944078B1 (ja) 2016-07-05
JPWO2017037900A1 (ja) 2017-08-31
TW201711469A (zh) 2017-03-16

Similar Documents

Publication Publication Date Title
JP2006246431A (ja) 画像符号化装置および画像符号化方法
JP4504230B2 (ja) 動画像処理装置、動画像処理方法、及び動画像処理プログラム
US10277810B2 (en) Image processing apparatus that divides and processes an image signal, control method thereof, and storage medium
JP2004227519A (ja) 画像処理方法
JPWO2011099428A1 (ja) 動きベクトル予測符号化方法、動きベクトル予測復号方法、動画像符号化装置、動画像復号装置およびそれらのプログラム
KR20130130695A (ko) 복수의 프로세서를 사용하여 비디오 프레임을 인코딩하는 방법 및 시스템
US20130163674A1 (en) Encoding of the Link to a Reference Block in Video Compression by Image Content Based on Search and Ranking
KR20130126698A (ko) 영상 부호화 장치, 영상 부호화 방법 및 영상 부호화 프로그램
KR102261669B1 (ko) 인공신경망 기반 객체영역 검출방법, 장치 및 이에 대한 컴퓨터 프로그램
US10462479B2 (en) Motion picture encoding device, motion picture encoding method, and storage medium storing motion picture encoding program
US20210203926A1 (en) Video coding apparatus, video coding method, video decoding apparatus, and video decoding method
JP2009268089A (ja) 画像処理システム、画像処理方法、およびプログラム
US10666970B2 (en) Encoding apparatus, encoding method, and storage medium
JP5944078B1 (ja) 情報処理装置及び情報処理方法及び情報処理プログラム
US11164328B2 (en) Object region detection method, object region detection apparatus, and non-transitory computer-readable medium thereof
KR102345258B1 (ko) 객체영역 검출방법, 장치 및 이에 대한 컴퓨터 프로그램
JP2022103284A (ja) 映像符号化装置、映像復号装置、及びこれらのプログラム
WO2011062082A1 (ja) 動画像符号化装置および動画像復号装置
JP2015111774A (ja) 映像符号化装置及び映像符号化プログラム
US10893290B2 (en) Apparatus for moving image coding, apparatus for moving image decoding, and non-transitory computer-readable storage medium
JP2015026922A (ja) 動画像符号化装置および動画像符号化方法
CN107431821B (zh) 高效低复杂度视频压缩
JP5970507B2 (ja) 映像符号化装置及び映像符号化プログラム
JP7323014B2 (ja) 映像復号方法
CN105706447A (zh) 动画图像编码设备、动画图像解码设备、动画图像编码方法、动画图像解码方法以及程序

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2016500425

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15903019

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15903019

Country of ref document: EP

Kind code of ref document: A1