WO2018134979A1 - 画像処理装置、画像処理方法及び画像処理プログラム - Google Patents

画像処理装置、画像処理方法及び画像処理プログラム Download PDF

Info

Publication number
WO2018134979A1
WO2018134979A1 PCT/JP2017/001990 JP2017001990W WO2018134979A1 WO 2018134979 A1 WO2018134979 A1 WO 2018134979A1 JP 2017001990 W JP2017001990 W JP 2017001990W WO 2018134979 A1 WO2018134979 A1 WO 2018134979A1
Authority
WO
WIPO (PCT)
Prior art keywords
pixel value
foreground edge
foreground
edge
image
Prior art date
Application number
PCT/JP2017/001990
Other languages
English (en)
French (fr)
Inventor
崇 西辻
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to JP2018546923A priority Critical patent/JP6456571B2/ja
Priority to PCT/JP2017/001990 priority patent/WO2018134979A1/ja
Publication of WO2018134979A1 publication Critical patent/WO2018134979A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Definitions

  • the present invention relates to a technique for analyzing a photographed image.
  • Surveillance cameras are installed for the purpose of monitoring the status of monitoring targets such as people and devices.
  • Surveillance cameras are installed in many places such as streets, stores, rivers, and stations.
  • the captured images are generally collected at bases such as disaster prevention centers and store offices.
  • the person in charge of monitoring confirms the situation occurring in the monitoring target through the photographed image, and takes measures as necessary.
  • the work load on the person in charge of surveillance will increase. For this reason, the introduction of image analysis technology using computers is in progress.
  • the monitoring target of the surveillance camera is often a person.
  • surveillance cameras in station stations are often installed for the purpose of finding suspicious persons such as congestion and molesters, victims, etc., and quickly dealing with them.
  • congestion can occur on a daily basis.
  • the congestion is highly important for the purpose of installing the surveillance camera because there is a risk that it sometimes leads to a serious accident involving the dead.
  • Non-Patent Document 1 discloses a human detection technique that combines HoG (Histgram of Gradients), which is a feature amount related to the luminance gradient of an image, and SVM (Support Vector Machine), which is an identification technique. .
  • HoG HoG of Gradients
  • SVM Small Vector Machine
  • background difference processing may be performed as a pre-stage of human position detection.
  • a foreground region such as a person is extracted based on a difference between a background image generated from a captured image in which no person is shown and the captured image.
  • a person position can be estimated from the feature of the outline of the foreground area extracted by the background difference process.
  • Non-Patent Document 1 since a feature amount and an identification method of an image are used, a high calculation load is applied. For this reason, there exists a subject that the apparatus cost of a monitoring system increases.
  • Patent Document 1 when background difference processing using a color or grayscale image is performed, the background component prepared in advance and the image gray value of the subject are close (for example, before the yellow braille block). There is a problem that the foreground is not extracted correctly when a person in yellow clothes stands. In addition, there is a problem that foreground extraction is not performed correctly even by external light such as a car headlight.
  • the main object of the present invention is to solve such problems. That is, the main object of the present invention is to obtain a configuration that is robust against disturbances such as external light and can estimate the number of subjects represented in a captured image with a small calculation load.
  • An image processing apparatus includes: A rectangular foreground edge image representing a foreground edge, which is the edge of the subject obtained by edge analysis and background difference to a rectangular captured image in which one or more subjects are represented in the foreground, is divided in the horizontal direction.
  • a first conversion unit that converts a pixel value of a pixel in a foreground edge pixel value that is a pixel value of the foreground edge pixel in units of divided regions; A region in which a pixel value is not converted to the foreground edge pixel value is sandwiched between first regions that are regions where the pixel value is converted to the foreground edge pixel value by the first conversion unit.
  • a second conversion unit that extracts a second area in a unit of area and converts the pixel value of the extracted pixel in the second area into the foreground edge pixel value;
  • a foreground edge pixel value area that is an area of the foreground edge pixel value included in the foreground edge image after the pixel value in the second area is converted into the foreground edge pixel value by the second conversion unit.
  • a subject estimation unit that estimates the number of subjects represented in the captured image.
  • an area in which a subject may be represented with reference to an edge is extracted as a foreground edge pixel value area, and the number of subjects is estimated based on the extracted foreground edge pixel value area. Therefore, according to the present invention, it is possible to obtain a configuration that is robust against disturbance and can estimate the number of subjects represented in a captured image with a small calculation load.
  • FIG. 3 is a diagram illustrating a functional configuration example of the image processing apparatus according to the first embodiment.
  • 2 is a diagram illustrating a hardware configuration example of an image processing apparatus according to Embodiment 1.
  • FIG. 3 is a flowchart illustrating an operation example of the image processing apparatus according to the first embodiment.
  • 3 is a flowchart illustrating an operation example of the image processing apparatus according to the first embodiment.
  • 3 is a flowchart illustrating an operation example of the image processing apparatus according to the first embodiment.
  • FIG. 6 is a diagram illustrating an example of a foreground edge image divided into divided regions according to the first embodiment.
  • FIG. 4 is a diagram illustrating an example of a scanning process according to the first embodiment.
  • FIG. 6 shows a state after the first conversion process according to the first embodiment.
  • FIG. 6 shows a state after the second conversion process according to the first embodiment.
  • FIG. 6 is a diagram showing an example of a person contour template according to the first embodiment.
  • FIG. *** Explanation of configuration *** FIG. 1 shows a functional configuration example of an image processing apparatus 100 according to the present embodiment.
  • FIG. 2 shows a hardware configuration example of the image processing apparatus 100. Before describing details of a functional configuration example and a hardware configuration example of the image processing apparatus 100, an outline of the image processing apparatus 100 will be described.
  • the image processing apparatus 100 acquires a captured image of the camera. For example, the image processing apparatus 100 acquires a captured image of the monitoring camera. Then, the image processing apparatus 100 analyzes the captured image and estimates the number of subjects represented in the captured image. In the present embodiment, the image processing apparatus 100 estimates the number of people represented in the captured image as the number of subjects. Further, the image processing apparatus 100 estimates the position of the person represented in the captured image. Furthermore, the image processing apparatus 100 estimates a crowd density in a space represented by a captured image (hereinafter referred to as a “capturing space”) based on the estimated number and position of persons.
  • a captured space hereinafter referred to as a “capturing space”
  • the image processing apparatus 100 represents a person in a captured image by performing foreground extraction based on the edge of the subject extracted by edge analysis and post-processing for eliminating the influence of noise and the like. Correctly extract candidate areas that may be present. Then, the contours of the candidate regions are compared with a human contour template to estimate the position and number of people represented in the captured image. The image processing apparatus 100 outputs person position coordinate number information indicating the estimated number and position of persons. In addition, the image processing apparatus 100 outputs density distribution information indicating the estimated crowd density. Operations performed by the image processing apparatus 100 correspond to an image processing method and an image processing program.
  • the image processing apparatus 100 is a computer including a captured image interface 201, a processor 202, a display device 203, a user interface 204, and a storage device 205 as hardware.
  • the captured image interface 201 is an interface for acquiring a captured image from the surveillance camera.
  • the user interface 204 is an interface that acquires an instruction from a user (monitoring person) of the image processing apparatus 100.
  • the display device 203 displays the human position coordinate number information and density distribution information to the user of the image processing apparatus 100.
  • the processor 202 executes a program that realizes the functions of the edge extraction unit 101, background difference unit 102, resolution compression unit 103, and subject estimation unit 104 shown in FIG.
  • the storage device 205 stores programs that realize the functions of the edge extraction unit 101, the background difference unit 102, the resolution compression unit 103, and the subject estimation unit 104.
  • the edge extraction unit 101 acquires a captured image from the monitoring camera via the captured image interface 201. Then, the edge extraction unit 101 extracts edges in the captured image by edge analysis. The edge extraction unit 101 outputs an image representing an edge of the extracted captured image (hereinafter referred to as an edge image of the captured image) to the background difference unit 102.
  • the background difference unit 102 If the image representing the edge of the background component of the captured image (hereinafter referred to as the background edge image) is not stored in the storage device 205, the background difference unit 102 generates a background edge image. Further, when a background edge image is stored in the storage device 205, the background difference unit 102 extracts an edge of a foreground component of the captured image (hereinafter referred to as a foreground edge) based on the background difference. More specifically, the background difference unit 102 takes the difference between the edge image of the captured image acquired from the edge extraction unit 101 and the background edge image, and extracts the foreground edge of the captured image.
  • an image representing a foreground edge is referred to as a foreground edge image.
  • the background difference unit 102 generates a foreground edge image by extracting the foreground edge of the captured image.
  • the captured image is a rectangle.
  • the foreground edge image is also rectangular.
  • the background difference unit 102 extracts a foreground edge that is an edge that constitutes the outline of the person, and generates a foreground edge image in which the extracted foreground edge is represented. Then, the background difference unit 102 outputs the foreground edge image to the resolution compression unit 103.
  • the resolution compression unit 103 acquires the foreground edge image from the background difference unit 102. Then, the resolution compression unit 103 divides the foreground edge image in the horizontal direction and acquires a plurality of rectangular divided regions. In addition, the resolution compression unit 103 scans each of the acquired plurality of divided regions to extract foreground edge pixels that form a foreground edge. Further, the resolution compression unit 103 converts the pixel value of the pixel that is on the same line in the horizontal direction as the extracted foreground edge pixel into a foreground edge pixel value that is the pixel value of the foreground edge pixel in units of divided regions. An area in which the pixel value is converted into the foreground edge pixel value is referred to as a first area.
  • the resolution compression unit 103 extracts a region between which the pixel value is not converted into the foreground edge pixel value, which is sandwiched between the first regions, as a second region in units of divided regions. Further, the resolution compression unit 103 converts the pixel values of the extracted pixels in the second area into foreground edge pixel values. The resolution compression unit 103 outputs the foreground edge image after the first region and the second region are converted into the foreground edge pixel values to the subject estimation unit 104.
  • the resolution compression unit 103 corresponds to a first conversion unit and a second conversion unit. The operation performed by the resolution compression unit 103 corresponds to a first conversion process and a second conversion process.
  • the subject estimation unit 104 acquires a foreground edge image after the first region and the second region are converted into foreground edge pixel values.
  • foreground edge pixel value regions that is, the first region and the second region
  • the subject estimation unit 104 uses the foreground edge pixel value region to estimate the number of subjects (people) represented in the captured image. More specifically, the subject estimation unit 104 compares the contour of the foreground edge pixel value region and the template of the human contour to estimate the number of people represented in the captured image.
  • the subject estimation unit 104 compares the contour of the foreground edge pixel value region with the template of the human contour, and estimates the position of the person represented in the captured image. Furthermore, the subject estimation unit 104 estimates the density of people (crowd density) in the shooting space based on the estimated number of people. Then, the subject estimation unit 104 outputs person position coordinate number information indicating the estimated number and position of the person to the display device 203. The subject estimation unit 104 also outputs density distribution information indicating the estimated crowd density to the display device 203.
  • the subject estimation unit 104 includes a labeling unit 1041, an extreme value extraction unit 1042, a human position determination unit 1043, and a density estimation unit 1044 as internal configurations. Details of the labeling unit 1041, the extreme value extraction unit 1042, the human position determination unit 1043, and the density estimation unit 1044 will be described later with reference to FIGS. The operation performed by the subject estimation unit 104 corresponds to subject estimation processing.
  • FIG. 1 schematically illustrates a state in which the processor 202 is executing a program that implements the functions of the edge extraction unit 101, the background difference unit 102, the resolution compression unit 103, and the subject estimation unit 104.
  • the edge extraction unit 101 acquires a captured image of the monitoring camera via the captured image interface 201, and extracts an edge of the captured image (step ST301). Then, the edge extraction unit 101 inputs an edge image of the captured image representing the extracted edge to the background difference unit 102.
  • the background difference unit 102 determines whether or not a background edge image of the photographed image exists. That is, the background difference unit 102 determines whether or not a background edge image is stored in the storage device 205 (step ST302).
  • the background difference unit 102 When the background edge image does not exist, the background difference unit 102 notifies the user of the image processing apparatus 100 through the display device 203 that the background edge image does not exist, and generates a background edge image (step ST303). More specifically, the background difference unit 102 generates a background edge image from the edge image of the captured image input from the edge extraction unit 101.
  • the background edge image generation method may be any method including an existing method.
  • the background difference unit 102 displays the generated background edge image on the display device 203 and inquires of the user whether or not the generated background edge image is appropriate (step ST304).
  • the background difference unit 102 stores the generated background edge image in the storage device 205 (step ST305).
  • the background difference unit 102 When it is determined in step ST302 that a background edge image exists, and when the background edge image is stored in the storage device 205 in step ST305, the background difference unit 102 performs background difference (step ST306). More specifically, a difference image between the edge image of the photographed image input from the edge extraction unit 101 and the background edge image stored in the storage device 205 is calculated. This difference image corresponds to the foreground edge image. The background difference unit 102 inputs the foreground edge image to the resolution compression unit 103.
  • the resolution compression unit 103 divides the input foreground edge image into rectangles having a width of N pixels as shown in FIG. 6 (step ST307).
  • a rectangular area obtained by the division is called a divided area.
  • N as a reference for division is, for example, 32.
  • FIG. 6 shows a foreground edge image divided into divided regions. In FIG. 6, although the number of divided areas is eight for the reason of drawing, in reality, ten or more divided areas are obtained.
  • a human figure represented by a white line in FIG. 6 is an edge representing the outline of a person who is a subject, and corresponds to a foreground edge.
  • the resolution compression unit 103 scans each divided region (step ST308). More specifically, as shown in FIG. 7, the resolution compression unit 103 scans each divided region in order from the leftmost divided region in the right direction. In each divided region, the resolution compression unit 103 scans in the horizontal direction downward from the top row of the foreground edge image. If there is at least one foreground edge pixel in the horizontal scanning (YES in step ST309), the resolution compression unit 103 determines all pixels on the same line in the horizontal direction as the foreground edge pixel within the divided area. The value is converted into a foreground edge pixel value (step ST310).
  • the resolution compression unit 103 compresses the horizontal resolution to 1 / N by converting the pixel values of all the pixels on the same line as the foreground edge pixels to the foreground edge pixel values.
  • the resolution compression unit 103 can smooth fine irregularities in the foreground edge image. Therefore, the subject estimation unit 104 can extract only the unevenness corresponding to the human foot and the human head.
  • the resolution compression unit 103 compresses the horizontal resolution.
  • the process of step ST310 corresponds to a first conversion process.
  • FIG. 8 shows the foreground edge image in a state where step ST310 is performed from the left end to the four divided regions.
  • step ST310 is performed from the left end to the four divided regions.
  • no foreground edge pixel is extracted, so that no part of the leftmost divided area is converted to the foreground edge pixel value (the whole area of the divided area remains black).
  • foreground edge pixels are extracted at the portions 601 and 602 in FIG. 6, and the portions 801 and 802 become the foreground edge pixel values in the horizontal direction. It has been converted (the part indicated by reference numeral 801 and the part indicated by reference numeral 802 are changed to white).
  • the portion from which the foreground edge pixel is extracted is converted into the foreground edge pixel value.
  • An area where pixel values are converted into foreground edge pixel values as indicated by reference numerals 801 and 802 is referred to as a first area as described above.
  • the resolution compression unit 103 determines whether scanning in the horizontal direction, conversion of pixel values, and scanning in the vertical direction have been completed for all the divided regions (step ST300).
  • the resolution compression unit 103 determines that the background pixels are equal to or greater than the specified number of consecutive pixels. It is determined whether or not they are continuous (step ST311).
  • the background pixel is a pixel other than the pixel whose pixel value is converted into the foreground edge pixel value in step ST301. That is, the background pixel is an area that remains black in FIG.
  • the resolution compression unit 103 determines whether the background pixel region continuous for the continuous number or more is sandwiched between the first regions. (Step ST312).
  • the resolution compression unit 103 converts the pixel values of the pixels included in the background pixel region into foreground edge pixel values (Ste ST313).
  • the processes in steps ST311 to ST313 correspond to a second conversion process.
  • the resolution compression unit 103 determines whether or not the operations of steps ST311 to ST313 have been performed for all background pixel regions in the foreground edge image (step ST314). If the operations of steps ST311 to ST313 are performed for all the background pixel regions, the process proceeds to step ST315. On the other hand, if there is an area where the operations of steps ST311 to ST313 are not performed, the resolution compression unit 103 performs the operations of steps ST311 to ST313 in the corresponding area.
  • the resolution compression unit 103 performs steps ST311 to ST313, so that the discontinuous components in the foreground edge image are filled with the foreground edge pixel values, and the labeling unit 1041 combines the first region and the second region into one continuous region. Can be processed as.
  • the first area and the second area that are continuous areas are referred to as foreground edge pixel value areas.
  • the resolution compression unit 103 inputs the foreground edge image including the foreground edge pixel value region to the labeling unit 1041.
  • the labeling unit 1041 performs a labeling process on the input foreground edge image (step ST315). Specifically, the labeling unit 1041 extracts a foreground edge pixel value region from the foreground edge image. Then, the labeling unit 1041 inputs the extracted foreground edge pixel value region to the extreme value extraction unit 1042.
  • the extreme value extraction unit 1042 searches for a position where the local maximum value and a local minimum value are obtained in the foreground edge pixel value region (step ST316). Specifically, as shown in FIG. 9, the extreme value extraction unit 1042 specifies the upper end of the foreground edge pixel value area as the position where the maximum value is obtained, and specifies the lower end of the foreground edge pixel value area as the position where the minimum value is obtained. To do. Then, the extreme value extraction unit 1042 notifies the human position determination unit 1043 of the position at which the maximum value is obtained and the position at which the minimum value is obtained. The human position determination unit 1043 can estimate the position having the maximum value as the position of the head of the person who is the subject, and can estimate the position having the minimum value as the position of the person's foot.
  • the human position determination unit 1043 compares the outline of the foreground edge pixel value region with a human outline template (step ST317).
  • FIG. 10 shows an example of a human contour template.
  • the human position determination unit 1043 aligns the upper end of the template with the position where the maximum value of the foreground edge pixel value region is obtained, and enlarges or reduces the size of the template, if necessary, so that the outline of the foreground edge pixel value region and the template It is determined whether or not the contours match within a prescribed tolerance.
  • the human position determination unit 1043 estimates that the foreground edge pixel value area corresponds to the outline of one person.
  • the human position determination unit 1043 estimates as follows. For example, when the vertical length of the foreground edge pixel value area is matched with the vertical length of the template, the horizontal length of the foreground edge pixel value area is m (the horizontal length of the template It is assumed that m ⁇ 2) times. In this case, the person position determination unit 1043 estimates that m persons are lined up side by side in the foreground edge pixel value region. Then, the human position determination unit 1043 estimates the position of the foot of each template when m templates are arranged side by side as the position of each person's foot.
  • the person position determination unit 1043 estimates that one person is shown in the foreground edge pixel value area, but the person's feet are hidden by something. Then, the human position determination unit 1043 estimates the position of the foot of the template as the position of the human foot shown in the foreground edge pixel value area. Then, the human position determination unit 1043 arranges the template of the human contour below the estimated foot position, and compares the foreground edge pixel value region below the estimated foot position with the template.
  • the human position determination unit 1043 saves the coordinates of the foot position (coordinates in the photographed image) in the storage device 205 every time the foreground edge pixel value area matches the human contour template within the allowable range in step ST317. (Step ST318). When the human position determination unit 1043 performs steps ST317 and ST318 for all foreground edge pixel value regions, the human position determination unit 1043 informs the density estimation unit 1044 that steps ST317 and ST318 have been performed for all foreground edge pixel value regions. Notice.
  • the human position determination unit 1043 performs perspective projection conversion based on the coordinates of the foot position stored in the storage device 205 (ST319). Then, the human position determination unit 1043 outputs the human position coordinate number information indicating the position and the number obtained by the perspective projection conversion as the position of the person and the number of persons.
  • the density estimation unit 1044 calculates the mutual distance of the positions obtained by the perspective projection transformation in step ST319, and calculates the crowd density in the imaging space based on the obtained mutual distance (ST320). Then, the density estimation unit 1044 outputs density distribution information indicating the crowd density.
  • the image processing apparatus extracts, as a foreground edge pixel value area, an area where a subject may be represented with reference to an edge having high robustness to disturbance, and extracts the foreground edge The number of subjects is estimated based on the pixel value area. For this reason, the image processing apparatus according to the present embodiment is robust against disturbances, and can estimate the number of subjects represented in a captured image with a small calculation load.
  • the extracted edge when an edge is extracted from a captured image, the extracted edge may not be a closed curve due to the influence of noise or the like.
  • the extracted edge may be a curve with a lot of rattling due to the influence of noise or the like. Even if background difference is performed on an edge that is not a closed curve or an edge that has a lot of shading, a foreground edge that is not a closed curve or a foreground edge that has a lot of shading can be obtained. That is, the feature of the contour shape of the foreground edge is not correctly extracted.
  • the pixel values of the pixels on the same line in the horizontal direction as the foreground edge pixels are converted into foreground edge pixel values, so even if a foreground edge that is not a closed curve or a foreground edge with a lot of shading is obtained, The feature of the contour shape of the foreground edge can be extracted correctly.
  • information in the vertical direction can be maintained by performing resolution compression only in the horizontal direction. In general, the range in which an image can be seen is wider in the depth direction. Thus, it is possible to achieve both smoothing of the contour and accuracy of position estimation in the depth direction.
  • the processor 202 is an IC (Integrated Circuit) that performs processing.
  • the processor 202 is a CPU (Central Processing Unit), a DSP (Digital Signal Processor), or the like.
  • the storage device 205 is a RAM (Random Access Memory), a ROM (Read Only Memory), a flash memory, an HDD (Hard Disk Drive), or the like.
  • the storage device 205 also stores an OS (Operating System). At least a part of the OS is executed by the processor 202.
  • the processor 202 executes a program that realizes the functions of the edge extraction unit 101, the background difference unit 102, the resolution compression unit 103, and the subject estimation unit 104 while executing at least a part of the OS.
  • the processor 202 executes the OS, task management, memory management, file management, communication control, and the like are performed.
  • at least one of information, data, a signal value, and a variable value indicating processing results of the edge extraction unit 101, the background difference unit 102, the resolution compression unit 103, and the subject estimation unit 104 is stored in the storage device 205 and the processor 202.
  • programs for realizing the functions of the edge extraction unit 101, the background difference unit 102, the resolution compression unit 103, and the subject estimation unit 104 include magnetic disks, flexible disks, optical disks, compact disks, Blu-ray (registered trademark) disks, DVDs, and the like. It may be stored in a portable storage medium.
  • the “part” of the edge extraction unit 101, the background difference unit 102, the resolution compression unit 103, and the subject estimation unit 104 may be read as “circuit”, “process”, “procedure”, or “processing”.
  • the image processing apparatus 100 may be realized by an electronic circuit such as a logic IC (Integrated Circuit), a GA (Gate Array), an ASIC (Application Specific Integrated Circuit), or an FPGA (Field-Programmable Gate Array).
  • the edge extraction unit 101, background difference unit 102, resolution compression unit 103, and subject estimation unit 104 are each realized as part of an electronic circuit.
  • the processor and the electronic circuit are also collectively referred to as a processing circuit.
  • DESCRIPTION OF SYMBOLS 100 Image processing apparatus, 101 Edge extraction part, 102 Background difference part, 103 Resolution compression part, 104 Subject estimation part, 1041 Labeling part, 1042 Extreme value extraction part, 1043 Human position determination part, 1044 Density estimation part, 201 Photographed image interface 202 processor, 203 display device, 204 user interface, 205 storage device.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Geometry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Image Processing (AREA)

Abstract

解像度圧縮部(103)は、前景に1つ以上の被写体が表される撮影画像へのエッジ解析及び背景差分により得られた被写体のエッジである前景エッジが表される前景エッジ画像を水平方向で分割して、複数の分割領域を取得し、複数の分割領域の各々を走査して前景エッジ画素を抽出し、前景エッジ画素と水平方向で同一線上にある画素の画素値を、分割領域の単位で、前景エッジ画素値に変換する。また、解像度圧縮部(103)は、画素値が前景エッジ画素値に変換された領域である第1の領域に挟まれている、画素値が前景エッジ画素値に変換されていない領域を、分割領域の単位で、第2の領域として抽出し、第2の領域内の画素の画素値を前景エッジ画素値に変換する。被写体推定部(104)は、前景エッジ画像に含まれる前景エッジ画素値の領域である前景エッジ画素値領域を用いて、撮影画像に表される被写体の数を推定する。

Description

画像処理装置、画像処理方法及び画像処理プログラム
 本発明は、撮影画像を解析する技術に関する。
 監視カメラは人、機器等の監視対象の状況を監視することを目的に設置される。監視カメラは、街頭、店頭、河川、駅など多くの場所に設置されている。撮影画像は一般に防災センター、店舗事務所などの拠点に集約される。そして、監視担当者が撮影画像を通して監視対象に起こっている状況を確認し、必要に応じて対策を講じる。しかし、近年の監視カメラの台数の増加によって監視担当者の業務負荷増が懸念される。このため、コンピュータによる画像解析技術の導入が進んでいる。
 監視カメラの監視対象は、多くの場合、人である。たとえば、駅構内の監視カメラは、混雑、痴漢などの不審者、傷病者などを発見し、それらに対する迅速な対処をすることを目的に設置されていることが多い。特に混雑は日常的に起こり得る。また、混雑は、時には死者を伴う重大事故につながる危険性があるため、監視カメラの設置目的として重要性が高い。
 人の位置を解析する一つの手法として、撮影画像に映る人を認識し、監視カメラの特性及び設置条件から、人の分布及び配置を推定する手法が取られることがある。たとえば、非特許文献1に記載の手法では、画像の輝度勾配に関する特徴量であるHoG(Histgram of Gradients)と識別手法であるSVM(Support Vector Machine)を組み合わせた人の検知手法が開示されている。
 また、特許文献1に記載のように人位置検知の前段階として、背景差分処理が行われることがある。背景差分処理では、人の映っていない撮影画像から生成される背景画像と撮影画像との差分によって人などの前景領域が抽出される。そして、特許文献1の技術では、背景差分処理により抽出された前景領域の輪郭線の特徴から人位置を推定できる。
特開平08-315149号公報
N.Dalal and B.Triggs,"Histograms of oriented gradients for human detection",2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR’05),San Diego,CA,USA,2005,pp.886-893 vol.1.doi:10.1109/CVPR.2005.177
 非特許文献1の技術では、画像の特徴量及び識別手法を用いるため、高い計算負荷がかかる。このため、監視システムの機器コストが増大するという課題がある。
 また、特許文献1の技術では、カラーまたはグレイスケール画像を用いた背景差分処理が行われる場合は、事前に用意した背景成分と被写体の画像濃淡値が近い場合(たとえば、黄色い点字ブロックの前に黄色い服の人が立った場合)に、正しく前景が抽出されないという課題がある。また、車のヘッドライトなどによる外光によっても、前景抽出が正しく行われないという課題がある。
 本発明は、このような課題を解決することを主な目的とする。つまり、本発明は、外光などの外乱に対して頑健で、少ない計算負荷で撮影画像に表される被写体の数を推定できる構成を得ることを主な目的とする。
 本発明に係る画像処理装置は、
 前景に1つ以上の被写体が表される矩形の撮影画像へのエッジ解析及び背景差分により得られた前記被写体のエッジである前景エッジが表される矩形の前景エッジ画像を水平方向で分割して、矩形の複数の分割領域を取得し、取得した前記複数の分割領域の各々を走査して前記前景エッジを構成する前景エッジ画像を抽出し、抽出した前記前景エッジ画素と前記水平方向で同一線上にある画素の画素値を、分割領域の単位で、前記前景エッジ画素の画素値である前景エッジ画素値に変換する第1の変換部と、
 前記第1の変換部により画素値が前記前景エッジ画素値に変換された領域である第1の領域に挟まれている、画素値が前記前景エッジ画素値に変換されていない領域を、前記分割領域の単位で、第2の領域として抽出し、抽出した前記第2の領域内の画素の画素値を前記前景エッジ画素値に変換する第2の変換部と、
 前記第2の変換部により前記第2の領域内の画素値が前記前景エッジ画素値に変換された後に前記前景エッジ画像に含まれる前記前景エッジ画素値の領域である前景エッジ画素値領域を用いて、前記撮影画像に表される前記被写体の数を推定する被写体推定部とを有する。
 本発明では、エッジを基準にして被写体が表されている可能性のある領域を前景エッジ画素値領域として抽出し、抽出した前景エッジ画素値領域に基づいて被写体の数を推定する。このため、本発明によれば、外乱に対して頑健で、少ない計算負荷で撮影画像に表される被写体の数を推定できる構成を得ることができる。
実施の形態1に係る画像処理装置の機能構成例を示す図。 実施の形態1に係る画像処理装置のハードウェア構成例を示す図。 実施の形態1に係る画像処理装置の動作例を示すフローチャート。 実施の形態1に係る画像処理装置の動作例を示すフローチャート。 実施の形態1に係る画像処理装置の動作例を示すフローチャート。 実施の形態1に係る分割領域に分割された前景エッジ画像の例を示す図。 実施の形態1に係る走査処理の例を示す図。 実施の形態1に係る第1の変換処理の後の状態を示す図。 実施の形態1に係る第2の変換処理の後の状態を示す図。 実施の形態1に係る人の輪郭のテンプレートの例を示す図。
 以下、本発明の実施の形態について、図を用いて説明する。以下の実施の形態の説明及び図面において、同一の符号を付したものは、同一の部分または相当する部分を示す。
 実施の形態1.
***構成の説明***
 図1は、本実施の形態に係る画像処理装置100の機能構成例を示す。
 図2は、画像処理装置100のハードウェア構成例を示す。
 画像処理装置100の機能構成例及びハードウェア構成例の詳細を説明する前に、画像処理装置100の概要を説明する。
 画像処理装置100は、カメラの撮影画像を取得する。例えば、画像処理装置100は、監視カメラの撮影画像を取得する。そして、画像処理装置100は、撮影画像を解析して、撮影画像に表される被写体の数を推定する。本実施の形態では、画像処理装置100は、被写体の数として、撮影画像に表わされる人の数を推定する。また、画像処理装置100は、撮影画像に表わされる人の位置を推定する。更に、画像処理装置100は、推定した人物の数と位置とに基づき、撮影画像に表される空間(以下、撮影空間という)における群衆密度を推定する。
 より具体的には、画像処理装置100は、エッジ解析により抽出された被写体のエッジをベースにした前景抽出と、ノイズなどの影響を排するための事後処理によって、撮影画像において人が表されている可能性のある候補領域を正しく抽出する。そして、候補領域の輪郭を人の輪郭のテンプレートと比較して、撮影画像に表される人の位置と数を推定する。
 画像処理装置100は、推定した人物の人数と位置とを示す人位置座標人数情報を出力する。また、画像処理装置100は、推定した群衆密度を示す密度分布情報を出力する。
 画像処理装置100により行われる動作は、画像処理方法及び画像処理プログラムに相当する。
 次に、図2を参照して、画像処理装置100のハードウェア構成例を説明する。
 画像処理装置100は、ハードウェアとして、撮影画像インタフェース201、プロセッサ202、表示装置203、ユーザーインタフェース204、記憶装置205を備えるコンピュータである。
 撮影画像インタフェース201は、監視カメラから撮影画像を取得するためのインタフェースである。
 ユーザーインタフェース204は、画像処理装置100のユーザー(監視担当者)からの指示を取得するインタフェースである。
 表示装置203は、人位置座標人数情報と密度分布情報を画像処理装置100のユーザーに表示する。
 プロセッサ202は、図1に示すエッジ抽出部101、背景差分部102、解像度圧縮部103及び被写体推定部104の機能を実現するプログラムを実行する。
 記憶装置205には、エッジ抽出部101、背景差分部102、解像度圧縮部103及び被写体推定部104の機能を実現するプログラムが記憶されている。
 次に、図1を参照して、画像処理装置100の機能構成例を説明する。
 エッジ抽出部101は、撮影画像インタフェース201を介して監視カメラから撮影画像を取得する。そして、エッジ抽出部101は、エッジ解析により撮影画像内のエッジを抽出する。
 エッジ抽出部101は、抽出した撮影画像のエッジが表される画像(以下、撮影画像のエッジ画像という)を背景差分部102に出力する。
 背景差分部102は、撮影画像の背景成分のエッジが表される画像(以下、背景エッジ画像という)が記憶装置205に記憶されていなければ、背景エッジ画像を生成する。
 また、背景差分部102は、背景エッジ画像が記憶装置205に記憶されている場合は、背景差分により、撮影画像の前景成分のエッジ(以下、前景エッジという)を抽出する。より具体的には、背景差分部102は、エッジ抽出部101から取得した撮影画像のエッジ画像と背景エッジ画像との差分をとり、撮影画像の前景エッジを抽出する。以下では、前景エッジが表される画像を前景エッジ画像という。背景差分部102は、撮影画像の前景エッジを抽出することで、前景エッジ画像を生成する。
 本実施の形態では、撮影画像は矩形である。このため、前景エッジ画像も矩形である。
 撮影画像に前景として人が表されている場合は、背景差分部102は、人の輪郭を構成するエッジである前景エッジを抽出し、抽出した前景エッジが表される前景エッジ画像を生成する。
 そして、背景差分部102は、前景エッジ画像を解像度圧縮部103に出力する。
 解像度圧縮部103は、背景差分部102から前景エッジ画像を取得する。
 そして、解像度圧縮部103は、前景エッジ画像を水平方向で分割して、矩形の複数の分割領域を取得する。また、解像度圧縮部103は、取得した複数の分割領域の各々を走査して前景エッジを構成する前景エッジ画素を抽出する。更に、解像度圧縮部103は、抽出した前景エッジ画素と水平方向で同一線上にある画素の画素値を、分割領域の単位で、前景エッジ画素の画素値である前景エッジ画素値に変換する。画素値が前景エッジ画素値に変換された領域を第1の領域という。
 また、解像度圧縮部103は、第1の領域に挟まれている、画素値が前景エッジ画素値に変換されていない領域を、分割領域の単位で、第2の領域として抽出する。更に、解像度圧縮部103は、抽出した第2の領域内の画素の画素値を前景エッジ画素値に変換する。
 解像度圧縮部103は、第1の領域と第2の領域が前景エッジ画素値に変換された後の前景エッジ画像を被写体推定部104に出力する。
 なお、解像度圧縮部103は、第1の変換部及び第2の変換部に相当する。また、解像度圧縮部103により行われる動作は、第1の変換処理及び第2の変換処理に相当する。
 被写体推定部104は、第1の領域と第2の領域が前景エッジ画素値に変換された後の前景エッジ画像を取得する。なお、以下では、当該前景エッジ画像内の前景エッジ画素値の領域(つまり、第1の領域と第2の領域)を前景エッジ画素値領域という。被写体推定部104は、前景エッジ画素値領域を用いて、撮影画像に表される被写体(人)の数を推定する。より具体的には、被写体推定部104は、前景エッジ画素値領域の輪郭と人の輪郭のテンプレートとを比較して、撮影画像に表される人の数を推定する。また、被写体推定部104は、前景エッジ画素値領域の輪郭と人の輪郭のテンプレートとを比較して、撮影画像に表される人の位置を推定する。更に、被写体推定部104は、推定した人の数に基づいて、撮影空間における人の密度(群衆密度)を推定する。
 そして、被写体推定部104は、推定した人物の人数と位置とを示す人位置座標人数情報を表示装置203に出力する。また、被写体推定部104は、推定した群衆密度を示す密度分布情報を表示装置203に出力する。
 被写体推定部104は、内部構成として、ラベリング部1041、極値抽出部1042、人位置判定部1043及び密度推定部1044を有する。ラベリング部1041、極値抽出部1042、人位置判定部1043及び密度推定部1044の詳細は、図3、図4及び図5を参照して後述する。
 被写体推定部104により行われる動作は、被写体推定処理に相当する。
 なお、前述したように、エッジ抽出部101、背景差分部102、解像度圧縮部103及び被写体推定部104の機能はプログラムにより実現される。そして、プロセッサ202がこれらプログラムを実行して、エッジ抽出部101、背景差分部102、解像度圧縮部103及び被写体推定部104の動作を行う。
 図1では、プロセッサ202がエッジ抽出部101、背景差分部102、解像度圧縮部103及び被写体推定部104の機能を実現するプログラムを実行している状態を模式的に表している。
***動作の説明***
 次に、図3、図4及び図5を参照して、画像処理装置100の動作例を説明する。
 エッジ抽出部101は、撮影画像インタフェース201を介して監視カメラの撮影画像を取得し、撮影画像のエッジを抽出する(ステップST301)。
 そして、エッジ抽出部101は、抽出したエッジが表される撮影画像のエッジ画像を背景差分部102に入力する。
 背景差分部102は、撮影画像の背景エッジ画像が存在するか否かを判定する。つまり、背景差分部102は、背景エッジ画像が記憶装置205に記憶されているか否かを判定する(ステップST302)。
 背景エッジ画像が存在しない場合は、背景差分部102は、表示装置203を介して画像処理装置100のユーザーに背景エッジ画像が存在しない旨を通知し、背景エッジ画像を生成する(ステップST303)。
 より具体的には、背景差分部102は、エッジ抽出部101から入力された撮影画像のエッジ画像から背景エッジ画像を生成する。背景エッジ画像の生成方法は、既存の方法を含むどのような方法でもよい。
 次に、背景差分部102は、生成した背景エッジ画像を表示装置203に表示し、生成した背景エッジ画像が適切であるか否かをユーザーに問合せる(ステップST304)。
 ユーザーインタフェース204を介してユーザーから、生成した背景エッジ画像が適切との回答が得られた場合に、背景差分部102は、生成した背景エッジ画像を記憶装置205に保存する(ステップST305)。
 ステップST302で背景エッジ画像が存在すると判定した場合及びステップST305で背景エッジ画像を記憶装置205に保存した場合に、背景差分部102は、背景差分を行う(ステップST306)。
 より具体的には、エッジ抽出部101から入力された撮影画像のエッジ画像と、記憶装置205に記憶されている背景エッジ画像との差分画像を計算する。この差分画像が前景エッジ画像にあたる。
 背景差分部102は、前景エッジ画像を解像度圧縮部103に入力する。
 解像度圧縮部103は、入力された前景エッジ画像を図6のように幅Nピクセルの矩形に分割する(ステップST307)。分割により得られた矩形の領域を分割領域という。また、分割の基準となるNは、例えば32である。例えば、VGA(Video Graphics Array)画像の水平方向のピクセル数は640ピクセルであるため、VGA画像では、20個の分割領域が得られる。
 なお、図6は分割領域に分割された前景エッジ画像を示す。図6では、作図上の理由から分割領域の数は8個であるが、実際には、10以上の分割領域が得られる。また、図6において白線で表している人型は、被写体である人の輪郭を表わすエッジであり、前景エッジに相当する。
 次に、解像度圧縮部103は、各分割領域を走査する(ステップST308)。
 より具体的には、解像度圧縮部103は、図7に示すように、左端の分割領域から右方向に順に各分割領域を走査する。
 各分割領域では、解像度圧縮部103は、前景エッジ画像の最上位の行から下方向に向けて、水平方向に走査する。
 水平方向への走査において1画素でも前景エッジ画素があれば(ステップST309でYES)、解像度圧縮部103は、分割領域の範囲内で、前景エッジ画素と水平方向で同一線上の全ての画素の画素値を前景エッジ画素値に変換する(ステップST310)。
 このように、解像度圧縮部103は、前景エッジ画素と同一線上の全ての画素の画素値を前景エッジ画素値に変換することで、水平方向の解像度を1/Nに圧縮する。水平方向の解像度を1/Nにすることで、解像度圧縮部103は、前景エッジ画像での細かな凹凸を平滑化できる。従って、被写体推定部104が、人の足及び人の頭に対応する凹凸のみを抽出することができる。
 また、一般に監視カメラのような固定カメラの場合、水平方向で視認される範囲よりも垂直方向で視認される範囲の方が大きい。このため、人位置推定、および群衆密度推定においては、垂直方向の解像度の方が重要度が高い。従って、本実施の形態では、解像度圧縮部103は、水平方向の解像度を圧縮している。
 ステップST310の処理は、第1の変換処理に相当する。
 図8は、左端から4つの分割領域までステップST310が行われた状態の前景エッジ画像を示す。
 左端の分割領域の走査では、前景エッジ画素が抽出されないので、左端の分割領域のいずれの部分も前景エッジ画素値に変換されていない(分割領域の全域が黒いままである)。
 左端から2つ目の分割領域の走査では、図6の符号601と符号602の部分で前景エッジ画素が抽出されるので、符号801の部分と符号802の部分が水平方向で前景エッジ画素値に変換されている(符号801の部分と符号802の部分が白く変化している)。
 左端から3つ目の分割領域及び左端から4つ目の分割領域でも同様にして、前景エッジ画素が抽出される部分が前景エッジ画素値に変換されている。
 符号801及び符号802のように画素値が前景エッジ画素値に変換された領域は、前述のように、第1の領域という。
 解像度圧縮部103は、全ての分割領域について、水平方向への走査、画素値の変換及び垂直方向への走査が完了しているか否かを判定する(ステップST300)。
 全ての分割領域について、水平方向への走査、画素値の変換及び垂直方向への走査が完了している場合(ステップST300でYES)は、解像度圧縮部103は、背景画素が規定の連続数以上連続しているか否かを判定する(ステップST311)。背景画素とは、ステップST301で画素値が前景エッジ画素値に変換された画素以外の画素である。つまり、背景画素は、図8において黒いまま残っている領域である。
 背景画素が連続数以上連続している場合(ステップST311でYES)は、解像度圧縮部103は、連続数以上連続している背景画素の領域が第1の領域で挟まれているか否かを判定する(ステップST312)。
 背景画素の領域が第1の領域で挟まれている場合(ステップST312でYES)は、解像度圧縮部103は、当該背景画素の領域に含まれる画素の画素値を前景エッジ画素値に変換する(ステップST313)。
 ステップST311-ST313の処理は、第2の変換処理に相当する。
 次に、解像度圧縮部103は、前景エッジ画像内の全ての背景画素の領域についてステップST311~ST313の動作を行ったか否かを判定する(ステップST314)。
 全ての背景画素の領域について、ステップST311~ST313の動作が行われている場合は、処理がステップST315に進む。
 一方、ステップST311~ST313の動作が行われていない領域があれば、解像度圧縮部103は、該当する領域にステップST311~ST313の動作を行う。
 解像度圧縮部103がステップST311~ST313を行うことで、前景エッジ画像内の不連続成分が前景エッジ画素値で埋められ、ラベリング部1041が、第1の領域と第2の領域を1つの連続領域として処理できるようになる。
 なお、連続領域となった第1の領域と第2の領域を前景エッジ画素値領域という。
 解像度圧縮部103は、前景エッジ画素値領域が含まれる前景エッジ画像をラベリング部1041に入力する。
 ラベリング部1041は、入力された前景エッジ画像にラベリング処理を行う(ステップST315)。具体的には、ラベリング部1041は、前景エッジ画像から、前景エッジ画素値領域を抽出する。
 そして、ラベリング部1041は、抽出した前景エッジ画素値領域を極値抽出部1042に入力する。
 極値抽出部1042は、前景エッジ画素値領域で極大値をとる位置及び極小値をとる位置を探索する(ステップST316)。
 具体的には、極値抽出部1042は、図9のように、前景エッジ画素値領域の上端を極大値をとる位置として特定し、前景エッジ画素値領域の下端を極小値をとる位置として特定する。
 そして、極値抽出部1042は、極大値をとる位置と極小値をとる位置を人位置判定部1043に通知する。
 人位置判定部1043は、極大値をとる位置を被写体である人の頭の位置と推定でき、極小値をとる位置を人の足の位置と推定できる。
 人位置判定部1043は、前景エッジ画素値領域の輪郭を人の輪郭のテンプレートと比較する(ステップST317)。
 図10は、人の輪郭のテンプレートの例を示す。人位置判定部1043は、前景エッジ画素値領域の極大値をとる位置にテンプレートの上端を合わせ、必要であれば、テンプレートのサイズを拡大又は縮小して、前景エッジ画素値領域の輪郭とテンプレートの輪郭が規定の許容範囲内で一致するか否かを判定する。
 前景エッジ画素値領域の輪郭とテンプレートの輪郭が規定の許容範囲内で一致する場合は、人位置判定部1043は、当該前景エッジ画素値領域は、1人の人の輪郭に対応すると推定する。
 また、前景エッジ画素値領域の輪郭とテンプレートの輪郭が規定の許容範囲内で一致しない場合は、人位置判定部1043は、以下のように推定する。
 例えば、前景エッジ画素値領域の垂直方向の長さをテンプレートの垂直方向の長さに一致させた場合に、前景エッジ画素値領域の水平方向の長さがテンプレートの水平方向の長さのm(m≧2)倍である場合を想定する。この場合は、人位置判定部1043は、当該前景エッジ画素値領域には、m人の人が横に並んでいると推定する。そして、人位置判定部1043は、テンプレートをm個横に並べた際の各テンプレートの足の位置を、各人の足の位置と推定する。
 また、前景エッジ画素値領域の水平方向の長さをテンプレートの水平方向の長さに一致させた場合に、前景エッジ画素値領域の垂直方向の長さがテンプレートの垂直方向の長さよりも長い場合を想定する。この場合は、人位置判定部1043は、前景エッジ画素値領域には、人が1人映っているが、その人の足元が何かによって隠されていると推定する。そして、人位置判定部1043は、テンプレートの足の位置を前景エッジ画素値領域に映っている人の足の位置と推定する。そして、人位置判定部1043は、推定した足の位置から下に人の輪郭のテンプレートを配置し、推定した足の位置から下の前景エッジ画素値領域とテンプレートとを比較する。
 人位置判定部1043は、ステップST317で前景エッジ画素値領域と人の輪郭のテンプレートとが許容範囲内で一致する度に、足の位置の座標(撮影画像内の座標)を記憶装置205に保存する(ステップST318)。
 人位置判定部1043は、全ての前景エッジ画素値領域に対してステップST317及びST318を行うと、密度推定部1044に、全ての前景エッジ画素値領域に対してステップST317及びST318を行ったことを通知する。
 また、人位置判定部1043は、記憶装置205で保存されている足の位置の座標をもとに透視投影変換を行う(ST319)。そして、人位置判定部1043は、透視投影変換により得られた位置と数を、人の位置及び人の数として示す人位置座標人数情報を出力する。
 密度推定部1044は、ステップST319の透視投影変換で得られた位置の相互距離を計算し、得られた相互距離に基づき撮影空間における群衆密度を計算する(ST320)。そして、密度推定部1044は、群衆密度を示す密度分布情報を出力する。
***実施の形態の効果の説明***
 以上、本実施の形態に係る画像処理装置は、外乱への頑健性が高いエッジを基準にして被写体が表されている可能性のある領域を前景エッジ画素値領域として抽出し、抽出した前景エッジ画素値領域に基づいて被写体の数を推定する。このため、本実施の形態に係る画像処理装置は、外乱に対して頑健であり、少ない計算負荷で撮影画像に表される被写体の数を推定することができる。
 一般的に、撮影画像からエッジを抽出した場合に、ノイズの影響などにより、抽出したエッジが閉曲線とならないことがある。また、ノイズの影響などにより、抽出したエッジが、がたつきが多い曲線となることがある。このような閉曲線ではないエッジ、がたつきが多いエッジに対して背景差分を行っても、閉曲線ではない前景エッジ又はがたつきの多い前景エッジが得られることになる。つまり、前景エッジの輪郭形状の特徴が正しく抽出されない。
 本実施の形態では、前景エッジ画素と水平方向で同一線上にある画素の画素値を前景エッジ画素値に変換するので、閉曲線ではない前景エッジ又はがたつきの多い前景エッジが得られた場合でも、前景エッジの輪郭形状の特徴を正しく抽出することができる。
 また、本実施の形態によれば、解像度圧縮を水平方向のみにすることで、垂直方向(奥行き方向)の情報を維持できる。一般に、映像の見える範囲は奥行き方向の方が広いため、このようにすることで、輪郭の平滑化と奥行き方向の位置推定の正確性を両立することができる。
***ハードウェア構成の説明***
 最後に、画像処理装置100のハードウェア構成の補足説明を行う。
 プロセッサ202は、プロセッシングを行うIC(Integrated Circuit)である。
 プロセッサ202は、CPU(Central Processing Unit)、DSP(Digital Signal Processor)等である。
 記憶装置205は、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、HDD(Hard Disk Drive)等である。
 記憶装置205には、OS(Operating System)も記憶されている。
 そして、OSの少なくとも一部がプロセッサ202により実行される。
 プロセッサ202はOSの少なくとも一部を実行しながら、エッジ抽出部101、背景差分部102、解像度圧縮部103及び被写体推定部104の機能を実現するプログラムを実行する。
 プロセッサ202がOSを実行することで、タスク管理、メモリ管理、ファイル管理、通信制御等が行われる。
 また、エッジ抽出部101、背景差分部102、解像度圧縮部103及び被写体推定部104の処理の結果を示す情報、データ、信号値及び変数値の少なくともいずれかが、記憶装置205、プロセッサ202内のレジスタ及びキャッシュメモリの少なくともいずれかに記憶される。
 また、エッジ抽出部101、背景差分部102、解像度圧縮部103及び被写体推定部104の機能を実現するプログラムは、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ブルーレイ(登録商標)ディスク、DVD等の可搬記憶媒体に記憶されてもよい。
 また、エッジ抽出部101、背景差分部102、解像度圧縮部103及び被写体推定部104の「部」を、「回路」又は「工程」又は「手順」又は「処理」に読み替えてもよい。
 また、画像処理装置100は、ロジックIC(Integrated Circuit)、GA(Gate Array)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)といった電子回路により実現されてもよい。
 この場合は、エッジ抽出部101、背景差分部102、解像度圧縮部103及び被写体推定部104は、それぞれ電子回路の一部として実現される。
 なお、プロセッサ及び上記の電子回路を総称してプロセッシングサーキットリーともいう。
 100 画像処理装置、101 エッジ抽出部、102 背景差分部、103 解像度圧縮部、104 被写体推定部、1041 ラベリング部、1042 極値抽出部、1043 人位置判定部、1044 密度推定部、201 撮影画像インタフェース、202 プロセッサ、203 表示装置、204 ユーザーインタフェース、205 記憶装置。

Claims (8)

  1.  前景に1つ以上の被写体が表される矩形の撮影画像へのエッジ解析及び背景差分により得られた前記被写体のエッジである前景エッジが表される矩形の前景エッジ画像を水平方向で分割して、矩形の複数の分割領域を取得し、取得した前記複数の分割領域の各々を走査して前記前景エッジを構成する前景エッジ画像を抽出し、抽出した前記前景エッジ画素と前記水平方向で同一線上にある画素の画素値を、分割領域の単位で、前記前景エッジ画素の画素値である前景エッジ画素値に変換する第1の変換部と、
     前記第1の変換部により画素値が前記前景エッジ画素値に変換された領域である第1の領域に挟まれている、画素値が前記前景エッジ画素値に変換されていない領域を、前記分割領域の単位で、第2の領域として抽出し、抽出した前記第2の領域内の画素の画素値を前記前景エッジ画素値に変換する第2の変換部と、
     前記第2の変換部により前記第2の領域内の画素値が前記前景エッジ画素値に変換された後に前記前景エッジ画像に含まれる前記前景エッジ画素値の領域である前景エッジ画素値領域を用いて、前記撮影画像に表される前記被写体の数を推定する被写体推定部とを有する画像処理装置。
  2.  前記被写体推定部は、
     前記前景エッジ画素値領域の輪郭と前記被写体の輪郭のテンプレートとを比較して、前記撮影画像に表される前記被写体の数を推定する請求項1に記載の画像処理装置。
  3.  前記被写体推定部は、
     前記前景エッジ画素値領域の輪郭と前記被写体の輪郭のテンプレートとを比較して、前記撮影画像に表される前記被写体の位置を推定する請求項1に記載の画像処理装置。
  4.  前記被写体推定部は、
     推定した前記被写体の数に基づいて、前記撮影画像に表される空間における前記被写体の密度を推定する請求項1に記載の画像処理装置。
  5.  前記被写体推定部は、
     前記被写体として人が表される撮影画像に表される人の数を推定する請求項1に記載の画像処理装置。
  6.  前記被写体推定部は、
     前記前景エッジ画素値領域内で人の頭に相当する部分と足に相当する部分を抽出して、前記撮影画像に表される人の数を推定する請求項5に記載の画像処理装置。
  7.  コンピュータが、前景に1つ以上の被写体が表される矩形の撮影画像へのエッジ解析及び背景差分により得られた前記被写体のエッジである前景エッジが表される矩形の前景エッジ画像を水平方向で分割して、矩形の複数の分割領域を取得し、取得した前記複数の分割領域の各々を走査して前記前景エッジを構成する前景エッジ画素を抽出し、抽出した前記前景エッジ画素と前記水平方向で同一線上にある画素の画素値を、分割領域の単位で、前記前景エッジ画素の画素値である前景エッジ画素値に変換し、
     前記コンピュータが、画素値が前記前景エッジ画素値に変換された領域である第1の領域に挟まれている、画素値が前記前景エッジ画素値に変換されていない領域を、前記分割領域の単位で、第2の領域として抽出し、抽出した前記第2の領域内の画素の画素値を前記前景エッジ画素値に変換し、
     前記コンピュータが、前記第2の領域内の画素値が前記前景エッジ画素値に変換された後に前記前景エッジ画像に含まれる前記前景エッジ画素値の領域である前景エッジ画素値領域を用いて、前記撮影画像に表される前記被写体の数を推定する画像処理方法。
  8.  前景に1つ以上の被写体が表される矩形の撮影画像へのエッジ解析及び背景差分により得られた前記被写体のエッジである前景エッジが表される矩形の前景エッジ画像を水平方向で分割して、矩形の複数の分割領域を取得し、取得した前記複数の分割領域の各々を走査して前記前景エッジを構成する前景エッジ画素を抽出し、抽出した前記前景エッジ画素と前記水平方向で同一線上にある画素の画素値を、分割領域の単位で、前記前景エッジ画素の画素値である前景エッジ画素値に変換する第1の変換処理と、
     前記第1の変換処理により画素値が前記前景エッジ画素値に変換された領域である第1の領域に挟まれている、画素値が前記前景エッジ画素値に変換されていない領域を、前記分割領域の単位で、第2の領域として抽出し、抽出した前記第2の領域内の画素の画素値を前記前景エッジ画素値に変換する第2の変換処理と、
     前記第2の変換処理により前記第2の領域内の画素値が前記前景エッジ画素値に変換された後に前記前景エッジ画像に含まれる前記前景エッジ画素値の領域である前景エッジ画素値領域を用いて、前記撮影画像に表される前記被写体の数を推定する被写体推定処理とをコンピュータに実行させる画像処理プログラム。
PCT/JP2017/001990 2017-01-20 2017-01-20 画像処理装置、画像処理方法及び画像処理プログラム WO2018134979A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018546923A JP6456571B2 (ja) 2017-01-20 2017-01-20 画像処理装置、画像処理方法及び画像処理プログラム
PCT/JP2017/001990 WO2018134979A1 (ja) 2017-01-20 2017-01-20 画像処理装置、画像処理方法及び画像処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/001990 WO2018134979A1 (ja) 2017-01-20 2017-01-20 画像処理装置、画像処理方法及び画像処理プログラム

Publications (1)

Publication Number Publication Date
WO2018134979A1 true WO2018134979A1 (ja) 2018-07-26

Family

ID=62908630

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/001990 WO2018134979A1 (ja) 2017-01-20 2017-01-20 画像処理装置、画像処理方法及び画像処理プログラム

Country Status (2)

Country Link
JP (1) JP6456571B2 (ja)
WO (1) WO2018134979A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113361299A (zh) * 2020-03-03 2021-09-07 浙江宇视科技有限公司 一种异常停车的检测方法、装置、存储介质及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001043381A (ja) * 1999-07-27 2001-02-16 Toshiba Corp 動物体輪郭抽出方法
JP2015070359A (ja) * 2013-09-27 2015-04-13 株式会社京三製作所 人数カウント装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001043381A (ja) * 1999-07-27 2001-02-16 Toshiba Corp 動物体輪郭抽出方法
JP2015070359A (ja) * 2013-09-27 2015-04-13 株式会社京三製作所 人数カウント装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113361299A (zh) * 2020-03-03 2021-09-07 浙江宇视科技有限公司 一种异常停车的检测方法、装置、存储介质及电子设备
CN113361299B (zh) * 2020-03-03 2023-08-15 浙江宇视科技有限公司 一种异常停车的检测方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
JP6456571B2 (ja) 2019-01-23
JPWO2018134979A1 (ja) 2019-01-24

Similar Documents

Publication Publication Date Title
JP7130368B2 (ja) 情報処理装置および情報処理システム
KR101758684B1 (ko) 객체 추적 장치 및 방법
JP6494253B2 (ja) 物体検出装置、物体検出方法、画像認識装置及びコンピュータプログラム
US9953211B2 (en) Image recognition apparatus, image recognition method and computer-readable medium
KR101988384B1 (ko) 이미지 매칭 장치, 이미지 매칭 시스템 및 이미지 매칭 방법
US10163027B2 (en) Apparatus for and method of processing image based on object region
WO2018049704A1 (en) Vehicle detection, tracking and localization based on enhanced anti-perspective transformation
JP5936561B2 (ja) 画像における外観及びコンテキストに基づく物体分類
KR101552600B1 (ko) 영상분할을 이용한 복수의 보행자 객체를 동시에 추적하는 방법
US11315360B2 (en) Live facial recognition system and method
JPWO2018147059A1 (ja) 画像処理装置、および画像処理方法、並びにプログラム
JP6110174B2 (ja) 画像検出装置及び制御プログラム並びに画像検出方法
WO2018025336A1 (ja) 劣化検出装置、劣化検出方法、及びコンピュータ読み取り可能な記録媒体
JP2013037539A (ja) 画像特徴量抽出装置およびそのプログラム
JP2008035301A (ja) 移動体追跡装置
KR20080003617A (ko) 에이다부스트와 에스브이엠 학습 분류기를 이용한 눈영역 추출기 및 추출방법
JP2018137636A (ja) 画像処理装置及び画像処理プログラム
JPWO2020213166A1 (ja) 画像処理装置、画像処理方法、及び画像処理プログラム
JP6456571B2 (ja) 画像処理装置、画像処理方法及び画像処理プログラム
US10832044B2 (en) Image recognition device and image recognition program
JP6028972B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム
JP6811244B2 (ja) 画像処理装置、ステレオカメラ装置及び画像処理方法
JP2016053763A (ja) 画像処理装置、画像処理方法及びプログラム
JP6591257B2 (ja) 画像処理装置、画像処理方法及びプログラム
US11763465B2 (en) Object tracking apparatus, object tracking method and program

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2018546923

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17893096

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17893096

Country of ref document: EP

Kind code of ref document: A1