WO2021157213A1 - 画像処理装置および画像処理方法 - Google Patents

画像処理装置および画像処理方法 Download PDF

Info

Publication number
WO2021157213A1
WO2021157213A1 PCT/JP2020/047057 JP2020047057W WO2021157213A1 WO 2021157213 A1 WO2021157213 A1 WO 2021157213A1 JP 2020047057 W JP2020047057 W JP 2020047057W WO 2021157213 A1 WO2021157213 A1 WO 2021157213A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
human body
detection
captured
captured image
Prior art date
Application number
PCT/JP2020/047057
Other languages
English (en)
French (fr)
Inventor
田中 清明
和哉 浦部
一哲 北角
Original Assignee
オムロン株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by オムロン株式会社 filed Critical オムロン株式会社
Publication of WO2021157213A1 publication Critical patent/WO2021157213A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras

Definitions

  • the present invention relates to a technique for detecting a human body in an image.
  • Patent Document 1 images captured by an omnidirectional camera are collected in advance to generate dictionary information, and an image newly captured by the omnidirectional camera is referred to the dictionary information to detect a human body.
  • Patent Document 2 discloses a technique for improving the accuracy of detecting a human body in a captured image by performing distortion correction on an image captured by an omnidirectional camera.
  • the present invention has been made in view of the above circumstances, and an object of the present invention is to provide a technique for detecting a human body with high accuracy while suppressing a processing load of an image captured by an omnidirectional camera.
  • the present invention adopts the following configuration.
  • the first aspect of the present invention is an image acquisition means for acquiring an captured image in which a detection region for detecting a human body is captured by an omnidirectional camera, and a position of the detection region in the captured image of the captured image.
  • a dictionary information selection means for selecting a single type of dictionary information from a plurality of types of dictionary information including a feature amount of a human body used for detecting a human body with respect to the detection area, and a dictionary information selection means in the detection area using the selected dictionary information.
  • the image processing apparatus is characterized by having a human body detecting means for detecting a human body on an image and an output means for outputting the result of the human body detection. As a result, the human body detection for the image in the detection area is executed using only one dictionary information, so that accurate human body detection can be realized while suppressing the processing load of the image processing device as compared with the conventional case.
  • another aspect of the present invention is the imaging based on the image acquisition means for acquiring the captured image in which the detection region for detecting the human body by the omnidirectional camera is captured and the position of the detection region in the captured image.
  • It is an image processing apparatus characterized by having an output means for outputting the result of the above. As a result, even when the human body is in the detection area but the head is outside the detection area, the head is included in the enlarged area, and as a result, the accuracy of the human body detection is improved.
  • the area setting means may expand the detection area in a direction away from the center of the captured image to set the enlarged area. As a result, the probability that the head of the human body enters the enlarged area can be further increased.
  • another aspect of the present invention is the imaging based on the image acquisition means for acquiring the captured image in which the detection region for detecting the human body by the omnidirectional camera is captured and the position of the detection region in the captured image.
  • a threshold setting means for setting a threshold indicating ease of integration for integrating a plurality of overlapping human body candidates detected by human body detection in an image into a single candidate, and a threshold setting means for setting a threshold indicating the ease of integration, and the image in the detection region using the threshold.
  • It is an image processing apparatus characterized by having a human body detecting means for detecting a human body and an output means for outputting the result of the human body detection. As a result, even when the human bodies overlap in the captured image, the accuracy of detecting the individual human bodies can be further improved.
  • the threshold value setting means may set a threshold value indicating the ease of integration based on the threshold value set for each divided region when the captured image is divided into a plurality of regions.
  • the threshold value set in the divided region may be a threshold value in which a plurality of human body candidates are less likely to be integrated into a single candidate as the distance from the center of the captured image increases.
  • another aspect of the present invention is the detection based on the image acquisition means for acquiring the captured image in which the detection region for detecting the human body by the omnidirectional camera is captured and the position of the detection region in the captured image.
  • An image size setting means for setting the image size of the image of the region
  • an image conversion means for converting the image size of the image of the detection region to the set image size
  • the image processing apparatus is characterized by having a human body detecting means for detecting a human body and an output means for outputting the result of the human body detection. As a result, it is possible to effectively suppress the occurrence of a phenomenon in which the human body in the detection region after the image size is changed is too small to be detected.
  • the image size setting means may set the image size of the image in the detection area based on the image size set for each of the divided areas when the captured image is divided into a plurality of areas. Further, the image size set in the divided region may be larger as the distance from the center of the captured image increases. As a result, the human body can be detected accurately even when the image size of the image in the region close to the outer edge of the captured image is converted.
  • the present invention includes an image processing method including at least a part of the above processing, a program for causing a computer to execute these methods, or a computer-readable record in which such a program is recorded non-temporarily. It can also be regarded as a medium.
  • the present invention it is possible to reduce erroneous recognition of the human body in an image captured by an omnidirectional camera, improve the recognition rate of the human body, and accurately detect the number and position of the human body.
  • FIG. 1 is a block diagram showing a configuration example of an image processing apparatus to which the present invention is applied.
  • FIG. 2 is a block diagram showing a configuration example of a PC (image processing device) according to the first embodiment.
  • FIG. 3 is a flowchart showing an example of a PC processing flow according to the first embodiment.
  • FIG. 4 is a schematic view showing a specific example of the captured image according to the first embodiment.
  • FIG. 5 is a block diagram showing a configuration example of a PC according to the second embodiment.
  • FIG. 6 is a schematic view showing a specific example of the captured image according to the second embodiment.
  • FIG. 7 is a flowchart showing an example of a PC processing flow according to the second embodiment.
  • FIG. 1 is a block diagram showing a configuration example of an image processing apparatus to which the present invention is applied.
  • FIG. 2 is a block diagram showing a configuration example of a PC (image processing device) according to the first embodiment.
  • FIG. 3 is a flowchart showing an
  • FIG. 8 is a block diagram showing a configuration example of a PC according to the third embodiment.
  • FIG. 9 is a schematic view showing an example of detecting human bodies that overlap each other in a captured image.
  • FIG. 10 is a schematic diagram showing a specific example of the integrated parameters according to the third embodiment.
  • FIG. 11 is a flowchart showing an example of a PC processing flow according to the third embodiment.
  • FIG. 12 is a block diagram showing a configuration example of a PC according to the fourth embodiment.
  • FIG. 13 is a schematic view showing an example of setting the image size according to the fourth embodiment.
  • FIG. 14 is a flowchart showing an example of a PC processing flow according to the fourth embodiment.
  • FIG. 1 is a block diagram showing a configuration example of an image processing device 100 to which the present invention is applied.
  • the image processing device 100 includes an image acquisition unit 101, a human body detection unit 102, and an output unit 103.
  • the image acquisition unit 101 acquires an image captured by the omnidirectional camera.
  • the human body detection unit 102 executes the process described in detail in the following embodiment to detect the human body on the captured image. More specifically, the human body detection unit 102 performs human body detection (first embodiment) using dictionary information corresponding to the position of the cell line, which is a detection region, and detection expanded according to the position of the cell line in the captured image.
  • Human body detection for the area (second embodiment), human body detection based on the adjustment of parameters that integrate the detected rectangles (third embodiment), and the image size of the detection area according to the position of the cell line.
  • the human body detection to be changed (fourth embodiment) is performed.
  • the output unit 103 outputs the result of the human body detection by the human body detection unit 102.
  • the image acquisition unit 101, the human body detection unit 102, and the output unit 103 are examples of the image acquisition means, the human body detection means, and the output means of the present invention, respectively.
  • the processing load will increase due to preprocessing of the image for human body detection, and that erroneous detection of the human body will occur due to the tilt or distortion of the human body in the image. ..
  • the image processing apparatus 100 it is possible to detect a human body with high accuracy while suppressing the processing load of an image captured by an omnidirectional camera.
  • FIG. 2 is a schematic diagram showing a rough configuration example of the image processing system according to the first embodiment.
  • the image processing system according to the first embodiment includes an omnidirectional camera (fisheye camera), a PC200 (personal computer; an image processing device), and a display device.
  • the omnidirectional camera and the PC200 are connected to each other by wire or wirelessly, and the PC200 and the display device are connected to each other by wire or wirelessly.
  • the area of the cell line in the image captured by the omnidirectional camera becomes the detection area to be detected by the human body.
  • the omnidirectional camera captures the cell line and outputs the captured image to the PC200.
  • the imaging direction of the omnidirectional camera is not particularly limited, but in the first embodiment, for example, the omnidirectional camera is installed on the ceiling of the floor where the cell line is developed in a direction in which the cell line is overlooked.
  • the PC 200 detects the human body based on the image captured by the omnidirectional camera and outputs the detection result to the display device. Examples of display devices include displays and information processing terminals (smartphones, etc.).
  • the PC 200 is a device separate from the omnidirectional camera and the display device in the first embodiment, the PC 200 may be integrally configured with the omnidirectional camera or the display device. Further, the installation location of the PC 200 is not particularly limited. For example, the PC 200 may be installed in the same room as the omnidirectional camera. Further, the PC 200 may be a computer on the cloud.
  • the PC 200 has an input unit 210, a control unit 220, a storage unit 230, and an output unit 240.
  • the control unit 220 includes a cell line position calculation unit 221, a dictionary selection unit 222, and a human body detection unit 223.
  • the input unit 210 acquires an image captured by the cell line captured by the omnidirectional camera from the omnidirectional camera and outputs it to the control unit 220.
  • the omnidirectional camera may capture a moving image. In that case, the input unit 210 acquires a frame constituting the captured moving image from the omnidirectional camera and obtains the frame as the control unit 220. The process of outputting to is sequentially performed. Further, the omnidirectional camera does not have to be an optical camera, and may be a thermal camera or the like.
  • the control unit 220 includes a CPU (Central Processing Unit), a RAM (Random Access Memory), a ROM (Read Only Memory), and the like, and controls each part in the PC 200 and performs various information processing.
  • CPU Central Processing Unit
  • RAM Random Access Memory
  • ROM Read Only Memory
  • the cell line position calculation unit 221 calculates the position of the cell line in the captured image acquired by the input unit 210 from the relationship between the position of the omnidirectional camera and the position of the cell line imaged by the omnidirectional camera.
  • Information regarding the positional relationship between the omnidirectional camera and the cell line may be stored in the storage unit 230 in advance, or may be acquired from the outside via the input unit 210. Further, the information regarding the positional relationship between the omnidirectional camera and the cell line may be acquired together with the captured image, such as being stored in the header of the captured image acquired by the input unit 210.
  • the cell line position calculation unit 221 can also specify the cell line position from the captured image. For example, when the color of the floor of the cell line is a color that can be identified as the cell line, the cell line position calculation unit 221 identifies the position of the cell line based on the color of the floor in the captured image. Can be done. Further, for example, when the floor height of the cell line is different from the floor height other than the cell line, the cell line position calculation unit 221 specifies the position of the cell line based on the floor height in the captured image. be able to.
  • the cell line position calculation unit 221 identifies and identifies the shape of the edge of the cell line in the captured image.
  • the position of the cell line can be specified based on the determination of whether or not the shape matches the shape of the specific arrangement.
  • the cell line position calculation unit 221 uses the learning model to create a cell line in the captured image. The position of can be specified.
  • the information about the cell line necessary for specifying the position of the cell line in the captured image may be stored in the storage unit 230 in advance, or may be acquired from the outside via the input unit 210. good. Further, the information about the cell line may be acquired together with the captured image, such as being stored in the header of the captured image acquired by the input unit 210.
  • the human body is detected by using different dictionary information according to the position of the cell line in the image captured by the omnidirectional camera.
  • the dictionary information is information in which the feature amount of the human body learned based on the image captured in advance is accumulated for the purpose of detecting the human body from the cell line in the captured image.
  • An example of the feature quantity of the human body is information indicating various postures of the human body.
  • the detected human body is distorted according to the position in the image, more specifically, the position with respect to the camera (center of the image). Therefore, in the present embodiment, different dictionary information is used depending on the position of the cell line with respect to the center of the captured image.
  • the upward dictionary information used when the center of the rectangle including the cell line specified by the cell line position calculation unit 221 is upward with respect to the center of the captured image, downward.
  • Downward dictionary information used when in, right dictionary information used when rightward, left dictionary information used when leftward, used when the centers of each other almost overlap Central dictionary information and omnidirectional dictionary information that is generally used regardless of the cell line position. Further, each dictionary information used for human body detection is created in advance and stored in the storage unit 230.
  • the dictionary selection unit 222 selects dictionary information to be used for detecting the human body of the captured image based on the position in the captured image of the cell line specified by the cell line position calculation unit 221.
  • the human body detection unit 223 acquires the dictionary information selected by the dictionary selection unit 222 from the storage unit 230, and uses the dictionary information to capture an image based on the cell line position specified by the cell line position calculation unit 221. Detects the human body from the cell line of. Any algorithm may be used for the human body detection by the human body detection unit 223.
  • the human body may be detected by an existing human body detection process, and specifically, the human body may be detected using a detector that combines image features such as HoG and Haar-like with boosting.
  • the human body may be detected using a trained model generated by existing machine learning, and specifically, it is generated by deep learning (for example, R-CNN, Fast R-CNN, YOLO, SSD, etc.).
  • the human body may be detected using the trained model.
  • the storage unit 230 stores, in addition to the above cell line information and dictionary information, a program executed by the control unit 220, various data used by the control unit 220, and the like.
  • the storage unit 230 is an auxiliary storage device such as a hard disk drive or a solid state drive.
  • the output unit 240 outputs information according to the detection result of the human body by the human body detection unit 223 to the display device.
  • the detection result of the human body by the human body detection unit 223 may be stored in the storage unit 230 and output from the output unit 240 at an arbitrary timing.
  • FIG. 3 is a flowchart showing an example of the processing flow of the PC200.
  • the PC 200 executes the processing flow of FIG. 3 for each image acquired by the input unit 210.
  • the repetition period of the processing flow of FIG. 3 repeatedly executed by the PC 200 is not particularly limited, but in the first embodiment, it is assumed that the processing flow of FIG. 3 is repeated at the frame rate of imaging by the omnidirectional camera.
  • the input unit 210 acquires the captured image captured by the omnidirectional camera from the omnidirectional camera (step S301).
  • the cell line position calculation unit 221 acquires cell line position information indicating the relationship between the position of the omnidirectional camera and the position of the cell line from the captured image, the storage unit 230, or the like (step S302). Then, the cell line position calculation unit 221 specifies the position of the cell line in the captured image acquired in step S301 based on the cell line position information acquired in step S302 (step S303).
  • the dictionary selection unit 222 selects dictionary information to be used for detecting the human body in the captured image based on the position of the cell line in the captured image identified in step S303 (step S304).
  • the human body detection unit 223 acquires the dictionary information selected in step S304 from the storage unit 230 or the like, and uses the acquired dictionary information to detect the human body for the cell line in the captured image acquired in step S301. (Step S305).
  • the output unit 240 outputs the result of the human body detection in step S305 to the display device.
  • the output unit 240 may store the human body detection result in the storage unit 230 instead of or in addition to outputting the human body detection result to the display device.
  • FIG. 4 is a schematic diagram showing a specific example of the result of human body detection by the human body detection unit 223 in the processing flow of FIG.
  • the imaging region 410 is a circular region.
  • the image in the imaging region 410 has a small distortion near the center O of the image, and the distortion increases as the distance from the center O increases.
  • the imaging region 410 includes a cell line 420 composed of steps A to D.
  • the cell line position calculation unit 221 identifies the cell line 420 in the captured image 400. Further, the center O'of the cell line 420 is located upward with respect to the center O of the image. Therefore, the dictionary selection unit 222 selects the upward dictionary information as the dictionary information used for detecting the human body of the captured image 400.
  • the human body detection unit 223 detects the persons 430 and 440 existing in the cell line 420.
  • the human body detection unit 223 sets rectangles 431 and 441 that surround the detected persons 430 and 440. By displaying the rectangles 421 and 441 in the result of the human body detection displayed by the display device, the user of the image processing device 200 can confirm the position of the human body detected by the human body detection unit 223.
  • the dictionary information to be used is specified according to the position of the target area for human body detection in the image captured by the omnidirectional camera. Therefore, the processing load of human body detection by the image processing device 200 can be expected to be reduced as compared with the case of using a plurality of dictionary information as in the prior art. In addition, by selecting appropriate dictionary information for detecting the distorted human body according to the position of the target area for human body detection in the captured image, the accuracy of human body detection in the captured image by the omnidirectional camera is improved. Can also be expected.
  • FIG. 5 is a block diagram showing a configuration example of the PC500 (personal computer; image processing device) according to the second embodiment.
  • the PC 500 has an input unit 210, a control unit 520, a storage unit 230, and an output unit 240.
  • the control unit 520 has the same function as the control unit 220 of FIG. However, the control unit 520 does not have a component corresponding to the dictionary selection unit 222 of FIG. 2, and corresponds to the cell line position calculation unit 521 corresponding to the cell line position calculation unit 221 and the human body detection unit 223. It has a human body detection unit 523 and an area setting unit 524.
  • the area setting unit 524 sets a detection area for detecting the human body based on the position of the cell line in the captured image specified by the cell line position calculation unit 521.
  • the area setting unit 524 sets XY orthogonal coordinates with the center O of the captured image as the origin with respect to the captured image illustrated in FIG. Then, the area setting unit 524 determines a rectangle including the cell line based on the positional relationship between the center O'of the rectangle including the cell line specified by the cell line position calculation unit 521 and the center O of the captured image.
  • the enlarged area surrounded by the rectangle enlarged in the direction of is defined as the detection area for detecting the human body.
  • the center O'of the rectangle 620 including the cell line is located upward with respect to the center O of the captured image. Therefore, the area setting unit 524 moves the XY coordinates of each vertex of the rectangle 620 using, for example, the following equations (1) to (7).
  • Equation (1) is an equation expressing the movement of the X coordinate of the upper left vertex of the rectangle 620.
  • Left_top_x means the "X coordinate of the upper left vertex” of the rectangle 620
  • Left_top_x' means the "X coordinate of the upper left vertex” after being moved by the equation (1). do.
  • equations (2) to (6) represent the movement of the Y coordinate of the upper left vertex, the X coordinate of the upper right vertex, the Y coordinate of the upper right vertex, the X coordinate of the lower left vertex, and the X coordinate of the lower right vertex of the rectangle 620, respectively. It is an expression. Further, “Width” in the equation (7) is the width of the rectangle 620, that is, the length in the X-axis direction, and "Height" is the height of the rectangle 620, that is, the length in the Y-axis direction.
  • an area in which the detection area is expanded is set by an enlargement width ( ⁇ ⁇ f (x)) according to the width and height of the original detection area.
  • the coefficient ⁇ used to determine the enlargement width is determined by considering, for example, how much the human head protrudes from the original detection region in the cell line in the captured image. It can be determined in advance after providing a margin so that the probability of being included is high.
  • the method for determining the enlargement width is not limited to the above as long as the method is such that the probability that the head of the human body protruding from the original detection area is included in the enlargement area is increased.
  • the area setting unit 524 sets an enlarged area in which the area including the cell line is enlarged toward the direction away from the center of the captured image as a detection area used for human body detection.
  • the coordinate information of the detection area set by the area setting unit 524 and the like are stored in the storage unit 230.
  • the human body detection unit 523 detects the human body in the detection area set by the area setting unit 524 with respect to the captured image 600.
  • the human body detection unit 523 detects the persons 630 and 640 existing in the detection area 650.
  • the human body detection unit 523 sets rectangles 631 and 641 that surround the detected persons 630 and 640. By displaying the rectangles 621 and 641 in the result of the human body detection displayed by the display device, the user of the image processing device 500 can confirm the position of the human body detected by the human body detection unit 523.
  • human bodies 630 and 640 are present in the rectangle 620 of the cell line having steps A to D, but the head of each human body is located outside the rectangle 620 of the cell line. Therefore, when the human body detection unit 523 detects the human body on the rectangle 620, the heads of the human bodies 630 and 640 cannot be recognized, and the human bodies 630 and 640 may not be detected. In the second embodiment, the human body detection unit 523 detects the human body in the detection area 650 expanded so that the human body in the cell line is included up to the head by the area setting unit 524, so that the human bodies 630 and 640 Can be detected more accurately.
  • FIG. 7 is a flowchart showing an example of the processing flow of the PC500.
  • the PC 500 repeatedly executes the processing flow of FIG. 7 for each image acquired by the input unit 210 as in the first embodiment.
  • the input unit 210 acquires the captured image captured by the omnidirectional camera from the omnidirectional camera (step S701).
  • the cell line position calculation unit 521 acquires cell line position information indicating the relationship between the position of the omnidirectional camera and the position of the cell line from the captured image, the storage unit 230, or the like (step S702). Then, the cell line position calculation unit 521 specifies the position of the cell line in the captured image acquired in step S701 based on the cell line position information acquired in step S702 (step S703).
  • the area setting unit 524 sets the enlarged area by moving the coordinates of each vertex of the rectangle of the detection area including the cell line with respect to the cell line specified in step S703 (as described above). Step S704).
  • the human body detection unit 523 acquires the detection area set in step S704 from the area setting unit 524, the storage unit 230, and the like, and uses the acquired detection area to detect in the captured image acquired in step S701. Human body detection for the region is performed (step S705).
  • the output unit 240 outputs the result of the human body detection in step S705 to the display device (step S706).
  • the output unit 240 may store the human body detection result in the storage unit 230 instead of or in addition to outputting the human body detection result to the display device.
  • the detection accuracy of the human body existing in the cell line is obtained by setting the expanded region of the cell line in the image captured by the omnidirectional camera as the detection region for human body detection. Can be further enhanced.
  • ⁇ Third embodiment> A third embodiment of the present invention will be described. In the following, points different from the first embodiment (configuration, processing, etc.) will be described in detail, and description of the same points as the first embodiment will be omitted as appropriate.
  • FIG. 8 is a block diagram showing a configuration example of the PC800 (personal computer; image processing device) according to the third embodiment.
  • the PC 800 has an input unit 210, a control unit 820, a storage unit 230, and an output unit 240.
  • the control unit 820 has the same function as the control unit 220 of FIG. However, the control unit 820 does not have a component corresponding to the dictionary selection unit 222 of FIG. 2, and corresponds to the cell line position calculation unit 821 corresponding to the cell line position calculation unit 221 and the human body detection unit 223. It has a human body detection unit 823 and an integrated parameter setting unit 825.
  • the integrated parameter setting unit 825 sets the degree of integration of the detected human body region based on the position of the cell line in the captured image specified by the cell line position calculation unit 821.
  • the integrated parameter setting unit 825 is an example of a threshold value setting means for setting a threshold value indicating the ease of integration in which a plurality of overlapping human body candidates detected by human body detection in a captured image are integrated into a single candidate. be.
  • FIG. 9A-9C schematically show the degree of integration of the human body region detected in human body detection.
  • the detected human body candidates are surrounded by rectangles (rectangles 431 and 441 in FIG. 4, rectangles 621 and 641 in FIG. 6 and the like).
  • a plurality of different rectangles may be set for one human body candidate.
  • a plurality of rectangles may be set across the plurality of human body candidates as illustrated in FIG. 9A.
  • the PC 800 adjusts how much the rectangles surrounding the human body candidates detected in the captured image are integrated (or subdivided) by using a parameter indicating the degree of integration of the rectangles.
  • This parameter is a threshold value indicating the ease of integration into one rectangle that includes each other's rectangles when the rectangles surrounding the detected human body candidates overlap each other.
  • the smaller the threshold value the more the mutual rectangles become. It is difficult to integrate, and the larger the threshold value, the easier it is for the rectangles to be integrated.
  • this parameter will be referred to as an integrated parameter. Therefore, if the integrated parameter to be set is too small, as shown in FIG. 9A, a plurality of rectangles are set across a plurality of human body candidates. Further, if the integrated parameter to be set is too large, as shown in FIG. 9B, one rectangle including a plurality of human body candidates is set.
  • the value of the integration parameter may be a threshold value for whether or not to integrate the rectangles when the degree of overlap of the rectangles is calculated using IOU (Intersection over Union) represented by the following equation (8). Since equation (8) is a well-known algorithm that uses a Non-Maximum Suppression algorithm, detailed description thereof will be omitted here.
  • FIG. 10 schematically shows an example of a table of integrated parameters applied to the captured image in the third embodiment.
  • a frame 1000 showing the outline of the image captured by the omnidirectional camera and a frame 1010 showing the outline of the imaged region in the captured image are shown.
  • the image captured by the omnidirectional camera is divided into a plurality of grid-like regions, and integrated parameters are set for each region.
  • the integrated parameters are set as the distance from the center of the captured image in the table increases.
  • the overlapping rectangles in the detection region are less likely to be integrated, that is, each rectangle is more likely to be treated as surrounding one human body.
  • the farther away from the center of the image the center of the lens of the omnidirectional camera
  • the more easily the human bodies in the image overlap the more easily the human bodies in the image overlap. Therefore, according to the above-mentioned table of integrated parameters, an appropriate rectangle surrounding each human body is set for each divided region in the captured image, and the accuracy of human body detection can be further improved.
  • the data in the integrated parameter table is stored in the storage unit 230 in advance. The data of the integrated parameter table may be acquired from the outside of the PC 800.
  • FIG. 11 is a flowchart showing an example of the processing flow of the PC 800.
  • the PC 800 repeatedly executes the processing flow of FIG. 11 for each image acquired by the input unit 210 as in the first embodiment.
  • the input unit 210 acquires the captured image captured by the omnidirectional camera from the omnidirectional camera (step S1101).
  • the cell line position calculation unit 821 acquires cell line position information indicating the relationship between the position of the omnidirectional camera and the position of the cell line from the captured image, the storage unit 230, or the like (step S1102). Then, the cell line position calculation unit 821 specifies the position of the cell line in the captured image acquired in step S1101 based on the cell line position information acquired in step S1102 (step S1103).
  • the integrated parameter setting unit 825 acquires a table of integrated parameters from the storage unit 230 or the like, and based on the acquired table, applies the integrated parameters to the area corresponding to the position of the cell line specified in step S1103. Set (step S1104).
  • FIG. 10 shows an area corresponding to the position of the cell line specified in step S1103 superimposed on the table of integrated parameters.
  • the outer edge of the region is shown by the frame 1100.
  • the cell line region extends over a plurality of regions in which integration parameters are set. Therefore, the integrated parameter setting unit 825 identifies the area having the maximum integrated parameter among the integrated parameter areas that overlap with the cell line area, and sets the integrated parameter value set in the specified area as the cell line. It is set as an integrated parameter used for human body detection in. For example, in the case of FIG. 10, among the integrated parameters set in the integrated parameter area that overlaps with the area surrounded by the frame 1100, the maximum integrated parameter is “0.4”. Therefore, the integrated parameter setting unit 825 sets the integrated parameter used when detecting the human body for the cell line of the frame 1100 to 0.4.
  • the integrated parameter setting information by the integrated parameter setting unit 825 may be stored in the storage unit 230.
  • the human body detection unit 823 acquires the integrated parameters set in step S1104 from the integrated parameter setting unit 825, the storage unit 230, and the like, and uses the acquired integrated parameters in the captured image acquired in step S1101. Human body detection is performed on the detection area (step S1105).
  • the output unit 240 outputs the result of the human body detection in step S1105 to the display device (step S1106).
  • the output unit 240 may store the human body detection result in the storage unit 230 instead of or in addition to outputting the human body detection result to the display device.
  • the integrated parameter is set according to the area of the cell line in the image captured by the omnidirectional camera, so that the rectangle surrounding the detected candidate of the human body can be appropriately formed. It can be integrated to further improve the detection accuracy of the human body existing in the cell line.
  • FIG. 12 is a block diagram showing a configuration example of the PC 1200 (personal computer; image processing device) according to the fourth embodiment.
  • the PC 1200 has an input unit 210, a control unit 1220, a storage unit 230, and an output unit 240.
  • the control unit 1220 has the same function as the control unit 220 of FIG. However, the control unit 1220 does not have a component corresponding to the dictionary selection unit 222 of FIG. 2, and corresponds to the cell line position calculation unit 1221 corresponding to the cell line position calculation unit 221 and the human body detection unit 1223. It has a human body detection unit 1223, an image size setting unit 1226, and an image conversion unit 1227.
  • the image size setting unit 1226 sets the image size of the cell line area based on the position of the cell line in the captured image specified by the cell line position calculation unit 1221.
  • the control unit 1220 of the PC 1200 cuts out the area of the cell line specified by the cell line position calculation unit 1221 from the captured image, and reduces the image of the cut out cell line. Then, the control unit 1220 executes the human body detection on the image of the cell line whose image size has been changed in this way.
  • the size of the same human body is different between the center and the edge of the image. Therefore, when the image size of the cell line image cut out from the captured image is uniformly changed (reduced) regardless of the position of the cell line region in the captured image, the cell line region becomes the captured image. Since the human body existing in the cell line becomes smaller as the distance from the center of the cell line increases, the accuracy of the human body detection may decrease as the region of the cell line moves away from the center of the captured image. Therefore, in the fourth embodiment, different image sizes are set for the cut out cell line image according to the position of the cell line region in the captured image. As a result, the accuracy of human body detection can be expected to be improved by performing human body detection on an image in which the size of the human body in the region is substantially the same regardless of the position of the cell line region in the captured image.
  • FIG. 13 schematically shows an example of an image size table of the cell line region cut out from the captured image in the fourth embodiment.
  • a frame 1300 showing the outline of the image captured by the omnidirectional camera and a frame 1310 showing the outline of the imaged region in the captured image are shown.
  • the image captured by the omnidirectional camera is divided into a plurality of grid-like regions, and the image size is set for each region.
  • the image size is set larger as the distance from the center of the captured image in the table increases.
  • the image size table data is stored in the storage unit 230 in advance.
  • the data of the image size table may be acquired from the outside of the PC 1200.
  • FIG. 14 is a flowchart showing an example of the processing flow of the PC 1200.
  • the PC 1200 repeatedly executes the processing flow of FIG. 14 for each image acquired by the input unit 210 as in the first embodiment.
  • the input unit 210 acquires the captured image captured by the omnidirectional camera from the omnidirectional camera (step S1401).
  • the cell line position calculation unit 1221 acquires cell line position information indicating the relationship between the position of the omnidirectional camera and the position of the cell line from the captured image, the storage unit 230, or the like (step S1402). Then, the cell line position calculation unit 1221 specifies the position of the cell line in the captured image acquired in step S1401 based on the cell line position information acquired in step S1402 (step S1403).
  • the image size setting unit 1226 acquires an image size table from the storage unit 230 or the like, and sets the image size of the image of the cell line specified in step S1403 based on the acquired table (step S1404). ..
  • FIG. 13 shows an area corresponding to the position of the cell line specified in step S1403 superimposed on the table of integrated parameters.
  • the outer edge of the region is shown by the frame 1320.
  • the cell line region extends over a plurality of regions in which the image size is set. Therefore, the image size setting unit 1226 identifies the area having the maximum image size among the image size areas overlapping the cell line area, and cuts out the image size set in the specified area from the captured image. Set as the image size after image conversion of the cell line image. For example, in the case of FIG. 13, the maximum image size is "352" among the image sizes set in the area of the image size overlapping the area surrounded by the frame 1320. Therefore, the image size setting unit 1226 sets the image size of the cell line image of the frame 1320 after image conversion to "352 pixels x 352 pixels".
  • the image size setting information by the image size setting unit 825 may be stored in the storage unit 230.
  • the image conversion unit 1227 acquires the image size set in step S1404 from the image size setting unit 1226, the storage unit 230, and the like. Further, the image conversion unit 1227 cuts out a cell line image from the captured image acquired in step S1401. Then, the image conversion unit 1227 uses the acquired image size to perform image conversion of the image of the cut out cell line (step S1405).
  • the human body detection unit 1223 detects the human body for the cell line image converted in step S1405 (step S1406).
  • the output unit 240 outputs the result of the human body detection in step S1406 to the display device (step S1407).
  • the output unit 240 may store the result of the human body detection in the storage unit 230 instead of or in addition to outputting the result of the human body detection to the display device.
  • the image size with respect to the cell line image is set according to the position of the cell line region in the image captured by the omnidirectional camera, so that the cell line exists. It is possible to further improve the detection accuracy of the human body.
  • Dictionary information that selects a single type of dictionary information from a plurality of types of dictionary information including a feature amount of a human body used for detecting a human body with respect to the detection area of the captured image based on the position of the detection region in the captured image.
  • An image processing device characterized by having.
  • An image acquisition means (210) for acquiring an captured image in which a detection region for detecting a human body is captured by an omnidirectional camera, and an image acquisition means (210).
  • An area setting means (524) for setting an enlarged area in the captured image, which is an enlargement of the detection area of the captured image, based on the position of the detection area in the captured image.
  • a human body detecting means (523) for detecting a human body for an image in the enlarged region set in the captured image, and a human body detecting means (523).
  • An output means (240) that outputs the result of the human body detection, and An image processing device characterized by having.
  • An image size setting means (1226) that sets the image size of the image in the detection area based on the position of the detection area in the captured image, and
  • An image conversion means (1227) that converts the image size of the image in the detection region to the set image size
  • a human body detecting means (1223) for detecting a human body on an image in the detection region to which the image size has been converted, and a human body detecting means (1223).
  • An output means (240) that outputs the result of the human body detection, and An image processing device characterized by having.
  • Image processing device 101 Image acquisition unit 102: Human body detection unit 103: Output unit 200, 500, 800, 1200: PC (image processing device) 210: Input unit 230: Storage unit 240: Output unit 220, 520, 820, 1220: Control unit 222: Dictionary selection unit 524: Area setting unit 825: Integrated parameter setting unit 1226: Image size setting unit 1227: Image conversion unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

画像処理装置が、全方位カメラによって人体検出を行う検出領域が撮像された撮像画像を取得する画像取得手段と、前記撮像画像内の前記検出領域の位置に基づいて、前記撮像画像の前記検出領域に対する人体検出に使用する人体の特徴量を含む複数種類の辞書情報から単一種類の辞書情報を選択する辞書情報選択手段と、前記選択された辞書情報を用いて前記検出領域内の画像に対する人体検出を行う人体検出手段と、前記人体検出の結果を出力する出力手段とを有する。

Description

画像処理装置および画像処理方法
 本発明は、画像内の人体を検出する技術に関する。
 全方位カメラ(魚眼カメラ)を利用した監視においては、撮像画像に対する人体検出を高精度に行うことが求められる。
 このため、全方位カメラによる撮像画像を処理して人体検出の高速化を図る技術が提案されている。特許文献1には、事前に全方位カメラによる撮像画像を収集して辞書情報を生成し、全方位カメラによって新たに撮像された画像に対して辞書情報を参照して人体検出を行うことで、人体検出の精度を高める技術が開示されている。また、特許文献2には、全方位カメラによる撮像画像に対して歪み補正を行うことで、撮像画像における人体検出の精度を高める技術が開示されている。
特開2016-171526号公報 特開2016-039539号公報
 しかしながら、従来技術では、撮像画像内の分割された領域ごとに異なる辞書情報を用いて人体検出が行われたり、撮像画像に対する歪み補正の前処理が行われたりするため、撮像画像の処理負荷が膨大になる可能性がある。
 本発明は上記実情に鑑みなされたものであって、全方位カメラによる撮像画像の処理負荷を抑えつつ高精度に人体検出を行う技術を提供することを目的とする。
 上記目的を達成するために本発明は、以下の構成を採用する。
 本発明の第一側面は、全方位カメラによって人体検出を行う検出領域が撮像された撮像画像を取得する画像取得手段と、前記撮像画像内の前記検出領域の位置に基づいて、前記撮像画像の前記検出領域に対する人体検出に使用する人体の特徴量を含む複数種類の辞書情報から単一種類の辞書情報を選択する辞書情報選択手段と、前記選択された辞書情報を用いて前記検出領域内の画像に対する人体検出を行う人体検出手段と、前記人体検出の結果を出力する出力手段と、を有することを特徴とする画像処理装置である。これにより、1つの辞書情報のみを用いて検出領域の画像に対する人体検出が実行されるため、従来よりも画像処理装置の処理負荷を抑えつつ精度よい人体検出が実現される。
 また、本発明の別の側面は、全方位カメラによって人体検出を行う検出領域が撮像された撮像画像を取得する画像取得手段と、前記撮像画像内の前記検出領域の位置に基づいて、前記撮像画像内に前記撮像画像の前記検出領域を拡大した拡大領域を設定する領域設定手段と、前記撮像画像内に設定された前記拡大領域内の画像に対する人体検出を行う人体検出手段と、前記人体検出の結果を出力する出力手段と、を有することを特徴とする画像処理装置である。これにより、人体が検出領域内に存在するがその頭部が検出領域外にある場合でも、拡大領域内に頭部が含まれる結果、人体検出の精度が向上する。
 また、前記領域設定手段は、前記撮像画像の中心から離れる方向に前記検出領域を拡大して前記拡大領域を設定してもよい。これにより、拡大領域内に人体の頭部が入る確率をより高めることができる。
 また、本発明の別の側面は、全方位カメラによって人体検出を行う検出領域が撮像された撮像画像を取得する画像取得手段と、前記撮像画像内の前記検出領域の位置に基づいて、前記撮像画像内で人体検出によって検出される互いに重なり合う複数の人体の候補を単一の候補に統合する統合しやすさを示す閾値を設定する閾値設定手段と、前記閾値を用いて前記検出領域の画像に対する人体検出を行う人体検出手段と、前記人体検出の結果を出力する出力手段と、を有することを特徴とする画像処理装置である。これにより、撮像画像内で人体が重なり合っている場合でも、個々の人体を検出する精度をより高めることができる。
 また、前記閾値設定手段は、前記撮像画像を複数の領域に分割した場合の分割領域ごとに設定された閾値に基づいて、前記統合しやすさを示す閾値を設定してもよい。さらに、前記分割領域に設定される閾値は、前記撮像画像の中心から離れるほど、複数の人体の候補が単一の候補に統合されにくい閾値としてもよい。これにより、撮像画像の外縁に近い領域に対して人体検出を行う場合でも、個々の人体を精度よく検出することができる。
 また、本発明の別の側面は、全方位カメラによって人体検出を行う検出領域が撮像された撮像画像を取得する画像取得手段と、前記撮像画像内の前記検出領域の位置に基づいて、前記検出領域の画像の画像サイズを設定する画像サイズ設定手段と、前記検出領域の画像の画像サイズを前記設定された画像サイズに変換する画像変換手段と、前記画像サイズが変換された前記検出領域の画像に対する人体検出を行う人体検出手段と、前記人体検出の結果を出力する出力手段と、を有することを特徴とする画像処理装置である。これにより、画像サイズが変化された後の検出領域内の人体が小さすぎて検出されない現象の発生を効果的に抑制することができる。
 また、前記画像サイズ設定手段は、前記撮像画像を複数の領域に分割した場合の分割領域ごとに設定された画像サイズに基づいて、前記検出領域の画像の前記画像サイズを設定してもよい。さらに、前記分割領域に設定される画像サイズは、前記撮像画像の中心から離れるほど大きくてもよい。これにより、撮像画像の外縁に近い領域の画像の画像サイズが変換された場合でも、人体を精度よく検出することができる。
 なお、本発明は、上記処理の少なくとも一部を含む、画像処理方法や、これらの方法をコンピュータに実行させるためのプログラム、又は、そのようなプログラムを非一時的に記録したコンピュータ読取可能な記録媒体として捉えることもできる。上記構成及び処理の各々は技術的な矛盾が生じない限り互いに組み合わせて本発明を構成することができる。
 本発明によれば、全方位カメラによる撮像画像における人体の誤認識の低減、人体の認識率の向上を図り、人体の数や位置などを精度よく検出することができる。
図1は、本発明が適用された画像処理装置の構成例を示すブロック図である。 図2は、第1の実施形態に係るPC(画像処理装置)の構成例を示すブロック図である。 図3は、第1の実施形態に係るPCの処理フロー例を示すフローチャートである。 図4は、第1の実施形態に係る撮像画像の具体例を示す模式図である。 図5は、第2の実施形態に係るPCの構成例を示すブロック図である。 図6は、第2の実施形態に係る撮像画像の具体例を示す模式図である。 図7は、第2の実施形態に係るPCの処理フロー例を示すフローチャートである。 図8は、第3の実施形態に係るPCの構成例を示すブロック図である。 図9は、撮像画像における互いに重なり合う人体の検出例を示す模式図である。 図10は、第3の実施形態に係る統合パラメータの具体例を示す模式図である。 図11は、第3の実施形態に係るPCの処理フロー例を示すフローチャートである。 図12は、第4の実施形態に係るPCの構成例を示すブロック図である。 図13は、第4の実施形態に係る画像サイズの設定例を示す模式図である。 図14は、第4の実施形態に係るPCの処理フロー例を示すフローチャートである。
 <適用例>
 本発明の適用例について説明する。全方位カメラ(魚眼カメラ)を利用した監視においては、撮像画像に対する人体検出を高精度に行うことが求められる。しかしながら、従来技術では、撮像画像内の分割された領域ごとに異なる辞書情報を用いて人体検出が行われたり、撮像画像に対する歪み補正の前処理が行われたりするため、撮像画像の処理負荷が膨大になる可能性がある。
 図1は、本発明が適用された画像処理装置100の構成例を示すブロック図である。画像処理装置100は、画像取得部101、人体検出部102、出力部103を有する。画像取得部101は、全方位カメラによる撮像画像を取得する。人体検出部102は、以下の実施形態において詳述する処理を実行して、撮像画像に対する人体検出を行う。より具体的には、人体検出部102は、検出領域であるセルラインの位置に対応する辞書情報を用いる人体検出(第1実施形態)、撮像画像内のセルラインの位置に応じて拡大した検出領域に対する人体検出(第2実施形態)、検出された人体を囲む矩形を統合するパラメータの調整を基にした人体検出(第3実施形態)、セルラインの位置に応じて検出領域の画像サイズを変更する人体検出(第4実施形態)を行う。出力部103は、人体検出部102による人体検出の結果を出力する。画像取得部101、人体検出部102、出力部103は、それぞれ本発明の画像取得手段、人体検出手段、出力手段の一例である。
 全方位カメラによる撮像画像に対する人体検出においては、人体検出のための画像の前処理に伴う処理負荷の増大や、画像内の人体の傾きや歪みに起因する人体の誤検出の発生が懸念される。本発明に係る画像処理装置100によれば、全方位カメラによる撮像画像の処理負荷を抑えつつ高精度に人体検出を行うことができる。
 <第1の実施形態>
 本発明の第1の実施形態について説明する。
 図2は、第1の実施形態に係る画像処理システムの大まかな構成例を示す模式図である。第1の実施形態に係る画像処理システムは、全方位カメラ(魚眼カメラ)、PC200(パーソナルコンピュータ;画像処理装置)、及び、表示装置を有する。全方位カメラとPC200は有線または無線で互いに接続されており、PC200と表示装置は有線または無線で互いに接続されている。
 第1の実施形態では、工場や物流倉庫などで展開されるセルラインを全方位カメラによって撮像することを想定する。そして、全方位カメラによる撮像画像内のセルラインの領域が、人体検出の対象となる検出領域となる。全方位カメラは、セルラインを撮像し、撮像画像をPC200に出力する。全方位カメラの撮像方向は特に限定されないが、第1の実施形態では、例えば全方位カメラはセルラインが展開されているフロアの天井に、セルラインを俯瞰する方向に設置されている。PC200は、全方位カメラによる撮像画像に基づいて人体検出を行い、検出結果を表示装置へ出力する。表示装置の一例としては、ディスプレイや情報処理端末(スマートフォンなど)が挙げられる。
 なお、第1の実施形態ではPC200が全方位カメラや表示装置とは別体の装置であるものとするが、PC200は全方位カメラまたは表示装置と一体に構成されてもよい。また、PC200の設置場所は特に限定されない。例えば、PC200は全方位カメラと同じ部屋に設置されてもよい。また、PC200はクラウド上のコンピュータであってもよい。
 PC200は、入力部210、制御部220、記憶部230、及び、出力部240を有する。制御部220は、セルライン位置計算部221、辞書選択部222、及び、人体検出部223を有する。
 入力部210は、全方位カメラによってセルラインを撮像した撮像画像を、全方位カメラから取得して制御部220に出力する。なお、全方位カメラは動画の撮像を行うものであってもよく、その場合は、入力部210は、撮像された動画を構成するフレームを全方位カメラから取得して取得したフレームを制御部220に出力する処理を、順次行う。また、全方位カメラは光学カメラでなくてもよく、サーマルカメラなどであってもよい。
 制御部220は、CPU(Central Processing Unit)やRAM(Random Access Memory)、ROM(Read Only Memory)などを含み、PC200内の各部の制御や、各種情報処理などを行う。
 セルライン位置計算部221は、全方位カメラの位置と、全方位カメラによって撮像されるセルラインの位置との関係から、入力部210によって取得された撮像画像内のセルラインの位置を計算する。全方位カメラとセルラインとの位置関係に関する情報は、あらかじめ記憶部230に記憶されていてもよいし、外部から入力部210を経由して取得されてもよい。また、全方位カメラとセルラインとの位置関係に関する情報は、入力部210によって取得される撮像画像のヘッダに格納されるなど、撮像画像とともに取得されてもよい。
 あるいは、セルライン位置計算部221は、撮像画像からセルラインの位置を特定することもできる。例えば、セルラインの床の色がセルラインであることを識別可能な色である場合は、セルライン位置計算部221は、撮像画像内の床の色に基づいてセルラインの位置を特定することができる。また、例えば、セルラインの床の高さがセルライン以外の床の高さと異なる場合は、セルライン位置計算部221は、撮像画像内の床の高さに基づいてセルラインの位置を特定することができる。また、例えば、セルラインが特定の配置(Uの字形の配置など)である場合は、セルライン位置計算部221は、撮像画像内のセルラインのエッジの形状を識別して識別した形状が当該特定の配置の形状と適合するか否かの判定を基にセルラインの位置を特定することができる。また、例えば、全方位カメラの撮像対象となりうるセルラインの形状を機械学習によって学習した学習モデルを作成した場合は、セルライン位置計算部221は、当該学習モデルを用いて撮像画像内のセルラインの位置を特定することができる。それぞれの場合において、撮像画像内のセルラインの位置の特定に必要なセルラインに関する情報は、あらかじめ記憶部230に記憶されていてもよいし、外部から入力部210を経由して取得されてもよい。また、セルラインに関する情報は、入力部210によって取得される撮像画像のヘッダに格納されるなど、撮像画像とともに取得されてもよい。
 第1の実施形態に係る画像処理装置200では、全方位カメラの撮像画像内のセルラインの位置に応じて異なる辞書情報が使用されて人体検出が行われる。ここで辞書情報とは、撮像画像内のセルラインから人体を検出することを目的として、あらかじめ撮像された画像を基に学習された人体の特徴量などが蓄積された情報である。人体の特徴量の例としては、人体のさまざまな姿勢を示す情報が挙げられる。辞書情報が使用されることで、撮像画像内に含まれるさまざまな形状の人体を検出することができる。
 全方位カメラの撮像画像では、検出される人体は、画像内の位置、より具体的にはカメラ(画像中心)に対する位置に応じて歪んでいる。そこで、本実施形態では、撮像画像の中心に対するセルラインの位置に応じて異なる辞書情報が用いられる。辞書情報の種類の一例として、セルライン位置計算部221によって特定されるセルラインを包含する矩形の中心が撮像画像の中心に対して上方向にある場合に使用される上方向辞書情報、下方向にある場合に使用される下方向辞書情報、右方向にある場合に使用される右方向辞書情報、左方向にある場合に使用される左方向辞書情報、互いの中心がほぼ重なる場合に使用される中央辞書情報、セルラインの位置に関係なく汎用的に使用される全方向辞書情報が挙げられる。また、人体検出に使用される各辞書情報は、あらかじめ作成されて記憶部230に記憶されている。
 辞書選択部222は、セルライン位置計算部221によって特定されたセルラインの撮像画像内の位置に基づいて、当該撮像画像の人体検出に使用する辞書情報を選択する。人体検出部223は、辞書選択部222によって選択された辞書情報を記憶部230から取得し、セルライン位置計算部221によって特定されたセルラインの位置を基に、辞書情報を使用して撮像画像のセルラインから人体を検出する。なお、人体検出部223による人体検出にはどのようなアルゴリズムを用いてもよい。例えば、既存の人体検出処理により人体を検出してもよく、具体的にはHoGやHaar-likeなどの画像特徴とブースティングを組み合わせた検出器を用いて人体を検出してもよい。また、既存の機械学習により生成された学習済みモデルを用いて人体を検出してもよく、具体的にはディープラーニング(例えば、R-CNN、Fast R-CNN、YOLO、SSDなど)により生成された学習済みモデルを用いて人体を検出してもよい。
 記憶部230は、上記のセルラインに関する情報や辞書情報のほか、制御部220で実行されるプログラムや、制御部220で使用される各種データなどを記憶する。例えば、記憶部230は、ハードディスクドライブ、ソリッドステートドライブ、等の補助記憶装置である。出力部240は、人体検出部223による人体の検出結果に応じた情報を、表示装置に出力する。なお、人体検出部223による人体の検出結果は、記憶部230に記憶されて、任意のタイミングで出力部240から出力されてもよい。
 図3は、PC200の処理フロー例を示すフローチャートである。PC200は、入力部210によって取得される画像ごとに図3の処理フローを実行する。PC200によって繰り返し実行される図3の処理フローの繰り返し周期は特に限定されないが、第1の実施形態では、全方位カメラによる撮像のフレームレートで図3の処理フローが繰り返されるとする。
 まず、入力部210が、全方位カメラによって撮像された撮像画像を全方位カメラから取得する(ステップS301)。
 次に、セルライン位置計算部221が、全方位カメラの位置とセルラインの位置との関係を示すセルライン位置情報を撮像画像や記憶部230などから取得する(ステップS302)。そして、セルライン位置計算部221は、ステップS302で取得したセルライン位置情報を基に、ステップS301で取得された撮像画像におけるセルラインの位置を特定する(ステップS303)。
 次に、辞書選択部222が、ステップS303で特定された撮像画像におけるセルラインの位置を基に、撮像画像の人体検出に使用する辞書情報を選択する(ステップS304)。
 次に、人体検出部223が、ステップS304で選択された辞書情報を記憶部230などから取得し、取得した辞書情報を用いて、ステップS301で取得された撮像画像内のセルラインに対する人体検出を行う(ステップS305)。
 次に、出力部240が、ステップS305における人体検出の結果を表示装置に出力する。なお、ステップS305において、出力部240は、人体検出の結果を表示装置に出力する代わりにあるいはこれに加えて、人体検出の結果を記憶部230に記憶してもよい。
 図4は、図3の処理フローで人体検出部223による人体検出の結果の具体例を示す模式図である。入力部210によって取得された全方位カメラの撮像画像400では、撮像領域410が円形の領域となる。撮像領域410の画像は、画像の中心O付近は歪みが小さく、中心Oから離れるにつれて歪みが大きくなる。撮像領域410内には、工程A~工程Dで構成されるセルライン420が含まれている。セルライン位置計算部221によって、撮像画像400におけるセルライン420が特定される。また、セルライン420の中心O’は、画像の中心Oに対して上方向に位置している。このため、辞書選択部222によって撮像画像400の人体検出に用いる辞書情報として上方向辞書情報が選択される。
 人体検出部223によって、セルライン420内に存在する人物430、440が検出される。人体検出部223は、検出した人物430、440を取り囲む矩形431、441を設定する。表示装置によって表示される人体検出の結果には、矩形421、441が表示されることで、画像処理装置200のユーザは、人体検出部223によって検出された人体の位置を確認することができる。
 第1の実施形態によれば、全方位カメラによる撮像画像における人体検出の対象領域の位置に応じて、使用する辞書情報が特定される。このため、画像処理装置200による人体検出の処理負荷は、従来技術のように複数の辞書情報を用いる場合よりも軽減されることが期待できる。また、撮像画像における人体検出の対象領域の位置に応じて、歪んで描出される人体の検出に適切な辞書情報が選択されることで、全方位カメラによる撮像画像における人体検出の精度が高まることも期待できる。
 <第2の実施形態>
 本発明の第2の実施形態について説明する。なお、以下では、第1の実施形態と異なる点(構成や処理など)について詳しく説明し、第1の実施形態と同様の点についての説明は適宜省略する。
 第2の実施形態に係る画像処理システムの大まかな構成は、第1の実施形態(図2)と同様である。図5は、第2の実施形態に係るPC500(パーソナルコンピュータ;画像処理装置)の構成例を示すブロック図である。図5において、図2(第1の実施形態)と同じ構成要素には、図2と同じ符号が付されている。PC500は、入力部210、制御部520、記憶部230、及び、出力部240を有する。制御部520は、図2の制御部220と同様の機能を有する。ただし、制御部520は、図2の辞書選択部222に対応する構成要素を有しておらず、セルライン位置計算部221に対応するセルライン位置計算部521と、人体検出部223に対応する人体検出部523と、領域設定部524とを有する。
 領域設定部524は、セルライン位置計算部521によって特定された撮像画像内のセルラインの位置を基に、人体検出を行う検出領域を設定する。
 ここで、領域設定部524による検出領域の設定の具体例について図6を参照しながら説明する。領域設定部524は、図6に例示する撮像画像に対して、撮像画像の中心Oを原点とするXY直交座標を設定する。そして、領域設定部524は、セルライン位置計算部521によって特定されたセルラインを包含する矩形の中心O’と撮像画像の中心Oとの位置関係を基に、セルラインを包含する矩形を所定の方向に拡大した矩形で囲まれる拡大領域を、人体検出を行う検出領域とする。
 図6の例では、セルラインを包含する矩形620の中心O’が撮像画像の中心Oに対して上方向に位置している。そこで、領域設定部524は、矩形620の各頂点のXY座標を例えば以下の式(1)~(7)を用いて移動する。
Figure JPOXMLDOC01-appb-M000001
Figure JPOXMLDOC01-appb-M000002
Figure JPOXMLDOC01-appb-M000003
Figure JPOXMLDOC01-appb-M000004
Figure JPOXMLDOC01-appb-M000005
Figure JPOXMLDOC01-appb-M000006
Figure JPOXMLDOC01-appb-M000007
 上記の式によって移動前の座標(x,y)が座標(x’,y’)に移動される。式(1)は、矩形620の左上頂点のX座標の移動を表す式である。式(1)において、「Left_top_x」は、矩形620の「左上頂点のX座標」を意味し、「Left_top_x’」は、式(1)によって移動された後の「左上頂点のX座標」を意味する。同様に式(2)~(6)は、それぞれ矩形620の左上頂点のY座標、右上頂点のX座標、右上頂点のY座標、左下頂点のX座標、右下頂点のX座標の移動を表す式である。また、式(7)の「Width」は、矩形620の幅、すなわちX軸方向の長さであり、「Height」は、矩形620の高さ、すなわちY軸方向の長さである。
 式(1)~(7)を用いる場合、元の検出領域の幅と高さに応じた拡大幅(α×f(x))によって検出領域を拡大した領域が設定される。また、拡大幅の決定に用いられる係数αは、例えば、撮像画像内のセルラインにおいて人体の頭部が元の検出領域からはみ出すとすればどの程度はみ出すかを考慮して、人体の頭部が含まれる確率が高くなるようにマージンを設けた上であらかじめ決定することができる。拡大幅の決定方法は、元の検出領域からはみ出た人体の頭部が拡大領域内に含まれる確率が高まるような方法であれば上記に限られない。
 このように、領域設定部524は、セルラインを包含する領域を撮像画像の中心から離れる方向に向かって拡大した拡大領域を人体検出に用いる検出領域として設定する。領域設定部524によって設定される検出領域の座標情報などは、記憶部230に記憶される。そして、人体検出部523は、撮像画像600に対して領域設定部524によって設定された検出領域内の人体検出を行う。人体検出部523によって、検出領域650内に存在する人物630、640が検出される。人体検出部523は、検出した人物630、640を取り囲む矩形631、641を設定する。表示装置によって表示される人体検出の結果には、矩形621、641が表示されることで、画像処理装置500のユーザは、人体検出部523によって検出された人体の位置を確認することができる。
 図6の例では、工程A~工程Dを有するセルラインの矩形620に人体630、640が存在するが、それぞれの人体の頭部がセルラインの矩形620の外側に位置している。このため、人体検出部523が矩形620に対して人体検出を行った場合は、人体630、640の頭部を認識できず、人体630、640を検出できない可能性がある。第2の実施形態では、人体検出部523は、領域設定部524によってセルライン内の人体が頭部まで含まれるように拡大された検出領域650を対象として人体検出を行うため、人体630、640をより精度よく検出することができる。
 図7は、PC500の処理フロー例を示すフローチャートである。PC500は、第1の実施形態と同様に入力部210によって取得される画像ごとに図7の処理フローを繰り返し実行する。
 まず、入力部210が、全方位カメラによって撮像された撮像画像を全方位カメラから取得する(ステップS701)。
 次に、セルライン位置計算部521が、全方位カメラの位置とセルラインの位置との関係を示すセルライン位置情報を撮像画像や記憶部230などから取得する(ステップS702)。そして、セルライン位置計算部521は、ステップS702で取得したセルライン位置情報を基に、ステップS701で取得された撮像画像におけるセルラインの位置を特定する(ステップS703)。
 次に、領域設定部524が、ステップS703において特定したセルラインに対して、上記の説明の通り、セルラインを包含する検出領域の矩形の各頂点の座標を移動して拡大領域を設定する(ステップS704)。
 次に、人体検出部523が、ステップS704で設定された検出領域を領域設定部524や記憶部230などから取得し、取得した検出領域を用いて、ステップS701で取得された撮像画像内の検出領域に対する人体検出を行う(ステップS705)。
 次に、出力部240が、ステップS705における人体検出の結果を表示装置に出力する(ステップS706)。なお、ステップS706において、出力部240は、人体検出の結果を表示装置に出力する代わりにあるいはこれに加えて、人体検出の結果を記憶部230に記憶してもよい。
 以上述べたように、第2の実施形態によれば、全方位カメラの撮像画像におけるセルラインの領域を拡大した領域を人体検出の検出領域とすることで、セルラインに存在する人体の検出精度をさらに高めることができる。
 <第3の実施形態>
 本発明の第3の実施形態について説明する。なお、以下では、第1の実施形態と異なる点(構成や処理など)について詳しく説明し、第1の実施形態と同様の点についての説明は適宜省略する。
 第3の実施形態に係る画像処理システムの大まかな構成は、第1の実施形態(図2)と同様である。図8は、第3の実施形態に係るPC800(パーソナルコンピュータ;画像処理装置)の構成例を示すブロック図である。図8において、図2(第1の実施形態)と同じ構成要素には、図2と同じ符号が付されている。PC800は、入力部210、制御部820、記憶部230、及び、出力部240を有する。制御部820は、図2の制御部220と同様の機能を有する。ただし、制御部820は、図2の辞書選択部222に対応する構成要素を有しておらず、セルライン位置計算部221に対応するセルライン位置計算部821と、人体検出部223に対応する人体検出部823と、統合パラメータ設定部825とを有する。
 統合パラメータ設定部825は、セルライン位置計算部821によって特定された撮像画像内のセルラインの位置を基に、検出された人体の領域の統合の度合いを設定する。なお、統合パラメータ設定部825が、撮像画像内で人体検出によって検出される互いに重なり合う複数の人体の候補を単一の候補に統合する統合しやすさを示す閾値を設定する閾値設定手段の一例である。
 図9A~図9Cに、人体検出において検出される人体の領域の統合の度合いについて模式的に示す。撮像画像の人体検出においては、検出された人体の候補が矩形(図4の矩形431、441や図6の矩形621、641など)によって囲まれる。このとき、1体の人体の候補に対して複数の異なる矩形が設定されることがある。また、画像内で複数の人体の候補が重なり合っている場合は、図9Aに例示するように、複数の人体の候補にまたがって複数の矩形が設定されることがある。PC800は、撮像画像内で検出された人体の候補を囲む矩形をどの程度統合(あるいは細分化)するかを、矩形の統合の度合いを示すパラメータを用いて調整する。このパラメータは、検出された人体の候補を囲む矩形が互いに重なり合う場合に、互いの矩形を包含する1つの矩形に統合する統合のしやすさを示す閾値であり、閾値が小さいほど互いの矩形は統合されにくく、閾値が大きいほど互いの矩形が統合されやすくなる。以下の説明では、このパラメータを統合パラメータと称する。したがって、設定される統合パラメータが小さすぎると、図9Aに示すように、複数の人体の候補にまたがって複数の矩形が設定される。また、設定される統合パラメータが大きすぎると、図9Bに示すように、複数の人体の候補を包含する1つの矩形が設定される。これらいずれの統合パラメータの場合も、個々の人体を適切に検出することはできない。第3の実施形態では、統合パラメータ設定825による統合パラメータの設定に基づいて、図9Cに示すように複数の人体の候補が重なり合っている場合でも個々の人体を包含する個別の矩形が設定される。統合パラメータの値は、矩形の重なり度合いを以下の式(8)で表されるIoU(Intersection over Union)を用いて算出した場合に矩形を統合するか否かの閾値であってもよい。なお、式(8)はNon-Maximum Suppressionのアルゴリズムを用いる周知なものであるため、ここでは詳細な説明は省略する。
Figure JPOXMLDOC01-appb-M000008
 したがって、撮像画像において互いに重なり合う矩形のIoUが統合パラメータよりも大きい場合は互いの矩形が統合され、IoUが統合パラメータよりも小さい場合は矩形は統合されない。図10に第3の実施形態において撮像画像に適用される統合パラメータのテーブルの一例を模式的に示す。説明の都合上、全方位カメラの撮像画像の輪郭を示す枠1000と撮像画像内の撮像領域の輪郭を示す枠1010を示す。図10に示すように、全方位カメラの撮像画像が格子状の複数の領域に分割され、領域ごとに統合パラメータが設定されている。図10に示すように、テーブル内の撮像画像の中心から離れるほど大きい統合パラメータが設定されている。これにより、人体検出の対象となる検出領域が撮像画像の中心から離れるほど、検出領域内で重なり合う矩形は統合されにくい、すなわち各矩形が1つの人体を囲むものとして扱われやすくなる。全方位カメラによる撮像画像では、画像中心(全方位カメラのレンズ中心)から離れるほど、画像内の人体は重なりやすいといえる。したがって、上記の統合パラメータのテーブルによれば、撮像画像内の分割領域ごとに個々の人体を囲む適切な矩形が設定され、人体検出の精度をより高めることができる。第3の実施形態では、統合パラメータのテーブルのデータは、あらかじめ記憶部230に記憶されている。なお、統合パラメータのテーブルのデータは、PC800の外部から取得されてもよい。
 図11は、PC800の処理フロー例を示すフローチャートである。PC800は、第1の実施形態と同様に入力部210によって取得される画像ごとに図11の処理フローを繰り返し実行する。
 まず、入力部210が、全方位カメラによって撮像された撮像画像を全方位カメラから取得する(ステップS1101)。
 次に、セルライン位置計算部821が、全方位カメラの位置とセルラインの位置との関係を示すセルライン位置情報を撮像画像や記憶部230などから取得する(ステップS1102)。そして、セルライン位置計算部821は、ステップS1102で取得したセルライン位置情報を基に、ステップS1101で取得された撮像画像におけるセルラインの位置を特定する(ステップS1103)。
 次に、統合パラメータ設定部825が、記憶部230などから統合パラメータのテーブルを取得して、取得したテーブルを基に、ステップS1103において特定したセルラインの位置に対応する領域に適用する統合パラメータを設定する(ステップS1104)。
 一例として、図10に、統合パラメータのテーブル上に、ステップS1103において特定したセルラインの位置に対応する領域を重ねて示す。当該領域の外縁を枠1100にて示す。図10に示すように、セルラインの領域は統合パラメータが設定されている複数の領域にまたがって存在する。そこで、統合パラメータ設定部825は、セルラインの領域と重なる統合パラメータの領域のうち、最大値の統合パラメータを有する領域を特定し、特定した領域に設定されている統合パラメータの値を、セルラインにおける人体検出に用いる統合パラメータとして設定する。例えば、図10の場合は、枠1100で囲まれる領域と重なる統合パラメータの領域に設定された統合パラメータのうち、最大値の統合パラメータは「0.4」である。したがって、統合パラメータ設定部825は、枠1100のセルラインに対して人体検出を行う際に使用する統合パラメータを0.4に設定する。統合パラメータ設定部825による統合パラメータの設定情報は、記憶部230に記憶されてよい。
 次に、人体検出部823が、ステップS1104で設定された統合パラメータを統合パラメータ設定部825や記憶部230などから取得し、取得した統合パラメータを用いて、ステップS1101で取得された撮像画像内の検出領域に対する人体検出を行う(ステップS1105)。
 次に、出力部240が、ステップS1105における人体検出の結果を表示装置に出力する(ステップS1106)。なお、ステップS1106において、出力部240は、人体検出の結果を表示装置に出力する代わりにあるいはこれに加えて、人体検出の結果を記憶部230に記憶してもよい。
 以上述べたように、第3の実施形態によれば、全方位カメラの撮像画像におけるセルラインの領域に応じて統合パラメータが設定されることで、検出された人体の候補を囲む矩形を適切に統合し、セルラインに存在する人体の検出精度をさらに高めることができる。
 <第4の実施形態>
 本発明の第4の実施形態について説明する。なお、以下では、第1の実施形態と異なる点(構成や処理など)について詳しく説明し、第1の実施形態と同様の点についての説明は適宜省略する。
 第4の実施形態に係る画像処理システムの大まかな構成は、第1の実施形態(図2)と同様である。図12は、第4の実施形態に係るPC1200(パーソナルコンピュータ;画像処理装置)の構成例を示すブロック図である。図12において、図2(第1の実施形態)と同じ構成要素には、図2と同じ符号が付されている。PC1200は、入力部210、制御部1220、記憶部230、及び、出力部240を有する。制御部1220は、図2の制御部220と同様の機能を有する。ただし、制御部1220は、図2の辞書選択部222に対応する構成要素を有しておらず、セルライン位置計算部221に対応するセルライン位置計算部1221と、人体検出部1223に対応する人体検出部1223と、画像サイズ設定部1226と、画像変換部1227とを有する。
 画像サイズ設定部1226は、セルライン位置計算部1221によって特定された撮像画像内のセルラインの位置を基に、セルラインの領域の画像サイズを設定する。
 PC1200の制御部1220は、セルライン位置計算部1221によって特定されたセルラインの領域を撮像画像から切り出し、切り出したセルラインの画像を縮小する。そして、制御部1220は、このように画像サイズが変更されたセルラインの画像に対して人体検出を実行する。
 全方位カメラの特性上、全方位カメラの撮像画像においては、画像の中心と端とでは同一の人体でも大きさが異なって描出される。したがって、撮像画像から切り出されたセルラインの画像に対して、撮像画像におけるセルラインの領域の位置に関係なく、一律に画像サイズの変更(縮小)が行われると、セルラインの領域が撮像画像の中心から離れるほど、セルライン内に存在する人体は小さくなるため、セルラインの領域が撮像画像の中心から離れるほど人体検出の精度が低下する可能性がある。そこで、第4の実施形態では、撮像画像におけるセルラインの領域の位置に応じて、切り出されたセルラインの画像に異なる画像サイズを設定する。これにより、撮像画像におけるセルラインの領域の位置に関係なく、領域内の人体の大きさがほぼ同じである画像に対して人体検出が行われることで、人体検出の精度の向上が期待できる。
 図13に、第4の実施形態において撮像画像から切り出されたセルラインの領域の画像サイズのテーブルの一例を模式的に示す。説明の都合上、全方位カメラの撮像画像の輪郭を示す枠1300と撮像画像内の撮像領域の輪郭を示す枠1310を示す。図13に示すように、全方位カメラの撮像画像が格子状の複数の領域に分割され、領域ごとに画像サイズが設定されている。図13に示すように、テーブル内の撮像画像の中心から離れるほど大きい画像サイズが設定されている。これにより、人体検出の対象となる検出領域が撮像画像の中心から離れるほど、切り出されたセルラインの領域の画像サイズが大きくなるため、撮像画像の中心と同じ画像サイズに変換される場合に比べて画像内の人体が大きくなり、人体検出の精度がより高まる。第4の実施形態では、画像サイズのテーブルのデータは、あらかじめ記憶部230に記憶されている。なお、画像サイズのテーブルのデータは、PC1200の外部から取得されてもよい。
 図14は、PC1200の処理フロー例を示すフローチャートである。PC1200は、第1の実施形態と同様に入力部210によって取得される画像ごとに図14の処理フローを繰り返し実行する。
 まず、入力部210が、全方位カメラによって撮像された撮像画像を全方位カメラから取得する(ステップS1401)。
 次に、セルライン位置計算部1221が、全方位カメラの位置とセルラインの位置との関係を示すセルライン位置情報を撮像画像や記憶部230などから取得する(ステップS1402)。そして、セルライン位置計算部1221は、ステップS1402で取得したセルライン位置情報を基に、ステップS1401で取得された撮像画像におけるセルラインの位置を特定する(ステップS1403)。
 次に、画像サイズ設定部1226が、記憶部230などから画像サイズのテーブルを取得して、取得したテーブルを基に、ステップS1403において特定したセルラインの画像の画像サイズを設定する(ステップS1404)。
 一例として、図13に、統合パラメータのテーブル上に、ステップS1403において特定したセルラインの位置に対応する領域を重ねて示す。当該領域の外縁を枠1320にて示す。図13に示すように、セルラインの領域は画像サイズが設定されている複数の領域にまたがって存在する。そこで、画像サイズ設定部1226は、セルラインの領域と重なる画像サイズの領域のうち、最大の画像サイズを有する領域を特定し、特定した領域に設定されている画像サイズを、撮像画像から切り出されたセルラインの画像の画像変換後の画像サイズとして設定する。例えば、図13の場合は、枠1320で囲まれる領域と重なる画像サイズの領域に設定された画像サイズのうち、最大の画像サイズは「352」である。したがって、画像サイズ設定部1226は、枠1320のセルラインの画像の画像変換後の画像サイズを「352ピクセル×352ピクセル」に設定する。画像サイズ設定部825による画像サイズの設定情報は、記憶部230に記憶されてよい。
 次に、画像変換部1227が、ステップS1404で設定された画像サイズを画像サイズ設定部1226や記憶部230などから取得する。また、画像変換部1227は、ステップS1401で取得された撮像画像からセルラインの画像を切り出す。そして、画像変換部1227は、取得した画像サイズを用いて、切り出したセルラインの画像の画像変換を行う(ステップS1405)。
 次に、人体検出部1223が、ステップS1405で画像変換されたセルラインの画像に対する人体検出を行う(ステップS1406)。
 次に、出力部240が、ステップS1406における人体検出の結果を表示装置に出力する(ステップS1407)。なお、ステップS1407において、出力部240は、人体検出の結果を表示装置に出力する代わりにあるいはこれに加えて、人体検出の結果を記憶部230に記憶してもよい。
 以上述べたように、第4の実施形態によれば、全方位カメラの撮像画像におけるセルラインの領域の位置に応じて、セルラインの画像に対する画像サイズが設定されることで、セルラインに存在する人体の検出精度をさらに高めることができる。
 <その他>
 上記実施形態は、本発明の構成例を例示的に説明するものに過ぎない。本発明は上記の具体的な形態には限定されることはなく、その技術的思想の範囲内で種々の変形が可能である。例えば、上記の各実施形態の構成および処理などは互いに組み合わせられてもよい。また、上記の実施形態では、セルラインを対象として人体検出を行うことを想定しているが、上記の画像処理装置は、上記のセルライン内の各工程の位置の代わりに例えばオフィス内に配置されたデスクの位置に基づいて検出領域を特定して人体検出を行ってもよい。この場合、オフィス環境においてデスクなどのレイアウト変更が行われた場合でも、変更後のレイアウトにおけるデスクの位置を基に人体検出を行うことができる。
 <付記1>
 全方位カメラによって人体検出を行う検出領域が撮像された撮像画像を取得する画像取得手段(210)と、
 前記撮像画像内の前記検出領域の位置に基づいて、前記撮像画像の前記検出領域に対する人体検出に使用する人体の特徴量を含む複数種類の辞書情報から単一種類の辞書情報を選択する辞書情報選択手段(222)と、
 前記選択された辞書情報を用いて前記検出領域内の画像に対する人体検出を行う人体検出手段(223)と、
 前記人体検出の結果を出力する出力手段(240)と、
を有することを特徴とする画像処理装置。
 <付記2>
 全方位カメラによって人体検出を行う検出領域が撮像された撮像画像を取得する画像取得手段(210)と、
 前記撮像画像内の前記検出領域の位置に基づいて、前記撮像画像内に前記撮像画像の前記検出領域を拡大した拡大領域を設定する領域設定手段(524)と、
 前記撮像画像内に設定された前記拡大領域内の画像に対する人体検出を行う人体検出手段(523)と、
 前記人体検出の結果を出力する出力手段(240)と、
を有することを特徴とする画像処理装置。
 <付記3>
 全方位カメラによって人体検出を行う検出領域が撮像された撮像画像を取得する画像取得手段(210)と、
 前記撮像画像内の前記検出領域の位置に基づいて、前記撮像画像内で人体検出によって検出される互いに重なり合う複数の人体の候補を単一の候補に統合する統合しやすさを示す閾値を設定する閾値設定手段(825)と、
 前記閾値を用いて前記検出領域の画像に対する人体検出を行う人体検出手段(823)と、
 前記人体検出の結果を出力する出力手段(240)と、
を有することを特徴とする画像処理装置。
 <付記4>
 全方位カメラによって人体検出を行う検出領域が撮像された撮像画像を取得する画像取得手段(210)と、
 前記撮像画像内の前記検出領域の位置に基づいて、前記検出領域の画像の画像サイズを設定する画像サイズ設定手段(1226)と、
 前記検出領域の画像の画像サイズを前記設定された画像サイズに変換する画像変換手段(1227)と、
 前記画像サイズが変換された前記検出領域の画像に対する人体検出を行う人体検出手段(1223)と、
 前記人体検出の結果を出力する出力手段(240)と、
を有することを特徴とする画像処理装置。
 <付記5>
 全方位カメラによって人体検出を行う検出領域が撮像された撮像画像を取得するステップ(S301)と、
 前記撮像画像内の前記検出領域の位置に基づいて、前記撮像画像の前記検出領域に対する人体検出に使用する人体の特徴量を含む複数種類の辞書情報から単一種類の辞書情報を選択するステップ(S304)と、
 前記選択された辞書情報を用いて前記検出領域内の画像に対する人体検出を行うステップ(S305)と、
 前記人体検出の結果を出力するステップ(S306)と、
を有することを特徴とする画像処理方法。
 <付記6>
 全方位カメラによって人体検出を行う検出領域が撮像された撮像画像を取得するステップ(S701)と、
 前記撮像画像内の前記検出領域の位置に基づいて、前記撮像画像内に前記撮像画像の前記検出領域を拡大した拡大領域を設定するステップ(S704)と、
 前記撮像画像内に設定された前記拡大領域内の画像に対する人体検出を行うステップ(S705)と、
 前記人体検出の結果を出力するステップ(S706)と、
を有することを特徴とする画像処理方法。
 <付記7>
 全方位カメラによって人体検出を行う検出領域が撮像された撮像画像を取得するステップ(S1101)と、
 前記撮像画像内の前記検出領域の位置に基づいて、前記撮像画像内で人体検出によって検出される互いに重なり合う複数の人体の候補を単一の候補に統合する統合しやすさを示す閾値を設定するステップ(S1104)と、
 前記閾値を用いて前記検出領域の画像に対する人体検出を行うステップ(S1105)と、
 前記人体検出の結果を出力するステップ(S1106)と、
を有することを特徴とする画像処理方法。
 <付記8>
 全方位カメラによって人体検出を行う検出領域が撮像された撮像画像を取得するステップ(S1401)と、
 前記撮像画像内の前記検出領域の位置に基づいて、前記検出領域の画像の画像サイズを設定するステップ(S1404)と、
 前記検出領域の画像の画像サイズを前記設定された画像サイズに変換するステップ(S1405)と、
 前記画像サイズが変換された前記検出領域の画像に対する人体検出を行うステップ(S1406)と、
 前記人体検出の結果を出力するステップ(S1407)と、
を有することを特徴とする画像処理方法。
 100:画像処理装置 101:画像取得部 102:人体検出部 103:出力部
 200,500,800,1200:PC(画像処理装置)
 210:入力部 230:記憶部 240:出力部
 220,520,820,1220:制御部
 222:辞書選択部
 524:領域設定部
 825:統合パラメータ設定部
 1226:画像サイズ設定部
 1227:画像変換部

Claims (20)

  1.  全方位カメラによって人体検出を行う検出領域が撮像された撮像画像を取得する画像取得手段と、
     前記撮像画像内の前記検出領域の位置に基づいて、前記撮像画像の前記検出領域に対する人体検出に使用する人体の特徴量を含む複数種類の辞書情報から単一種類の辞書情報を選択する辞書情報選択手段と、
     前記選択された辞書情報を用いて前記検出領域内の画像に対する人体検出を行う人体検出手段と、
     前記人体検出の結果を出力する出力手段と、
    を有することを特徴とする画像処理装置。
  2.  前記撮像画像内の前記検出領域の位置に基づいて、前記撮像画像内に前記撮像画像の前記検出領域を拡大した拡大領域を設定する領域設定手段をさらに有し、
     前記人体検出手段は前記撮像画像内に設定された前記拡大領域内の画像に対する人体検出を行う
    ことを特徴とする請求項1に記載の画像処理装置。
  3.  前記撮像画像内の前記検出領域の位置に基づいて、前記撮像画像内で人体検出によって検出される互いに重なり合う複数の人体の候補を単一の候補に統合する統合しやすさを示す閾値を設定する閾値設定手段をさらに有し、
     前記人体検出手段は前記閾値を用いて前記検出領域の画像に対する人体検出を行う
    ことを特徴とする請求項1または2に記載の画像処理装置。
  4.  前記撮像画像内の前記検出領域の位置に基づいて、前記検出領域の画像の画像サイズを設定する画像サイズ設定手段と、
     前記検出領域の画像の画像サイズを前記設定された画像サイズに変換する画像変換手段と、
    をさらに有し、
     前記人体検出手段は前記画像サイズが変換された前記検出領域の画像に対する人体検出を行う
    ことを特徴とする請求項1から3のいずれか一項に記載の画像処理装置。
  5.  全方位カメラによって人体検出を行う検出領域が撮像された撮像画像を取得する画像取得手段と、
     前記撮像画像内の前記検出領域の位置に基づいて、前記撮像画像内に前記撮像画像の前記検出領域を拡大した拡大領域を設定する領域設定手段と、
     前記撮像画像内に設定された前記拡大領域内の画像に対する人体検出を行う人体検出手段と、
     前記人体検出の結果を出力する出力手段と、
    を有することを特徴とする画像処理装置。
  6.  前記領域設定手段は、前記撮像画像の中心から離れる方向に前記検出領域を拡大して前記拡大領域を設定することを特徴とする請求項5に記載の画像処理装置。
  7.  前記撮像画像内の前記検出領域の位置に基づいて、前記撮像画像内で人体検出によって検出される互いに重なり合う複数の人体の候補を単一の候補に統合する統合しやすさを示す閾値を設定する閾値設定手段をさらに有し、
     前記人体検出手段は前記閾値を用いて前記検出領域の画像に対する人体検出を行う
    ことを特徴とする請求項5または6に記載の画像処理装置。
  8.  前記撮像画像内の前記検出領域の位置に基づいて、前記検出領域の画像の画像サイズを設定する画像サイズ設定手段と、
     前記検出領域の画像の画像サイズを前記設定された画像サイズに変換する画像変換手段と、
    をさらに有し、
     前記人体検出手段は前記画像サイズが変換された前記検出領域の画像に対する人体検出を行う
    ことを特徴とする請求項5から7のいずれか一項に記載の画像処理装置。
  9.  全方位カメラによって人体検出を行う検出領域が撮像された撮像画像を取得する画像取得手段と、
     前記撮像画像内の前記検出領域の位置に基づいて、前記撮像画像内で人体検出によって検出される互いに重なり合う複数の人体の候補を単一の候補に統合する統合しやすさを示す閾値を設定する閾値設定手段と、
     前記閾値を用いて前記検出領域の画像に対する人体検出を行う人体検出手段と、
     前記人体検出の結果を出力する出力手段と、
    を有することを特徴とする画像処理装置。
  10.  前記閾値設定手段は、前記撮像画像を複数の領域に分割した場合の分割領域ごとに設定された閾値に基づいて、前記統合しやすさを示す閾値を設定することを特徴とする請求項9に記載の画像処理装置。
  11.  前記分割領域に設定される閾値は、前記撮像画像の中心から離れるほど、複数の人体の候補が単一の候補に統合されにくい閾値となることを特徴とする請求項10に記載の画像処理装置。
  12.  前記撮像画像内の前記検出領域の位置に基づいて、前記検出領域の画像の画像サイズを設定する画像サイズ設定手段と、
     前記検出領域の画像の画像サイズを前記設定された画像サイズに変換する画像変換手段と、
    をさらに有し、
     前記人体検出手段は前記画像サイズが変換された前記検出領域の画像に対する人体検出を行う
    ことを特徴とする請求項9から11のいずれか一項に記載の画像処理装置。
  13.  全方位カメラによって人体検出を行う検出領域が撮像された撮像画像を取得する画像取得手段と、
     前記撮像画像内の前記検出領域の位置に基づいて、前記検出領域の画像の画像サイズを設定する画像サイズ設定手段と、
     前記検出領域の画像の画像サイズを前記設定された画像サイズに変換する画像変換手段と、
     前記画像サイズが変換された前記検出領域の画像に対する人体検出を行う人体検出手段と、
     前記人体検出の結果を出力する出力手段と、
    を有することを特徴とする画像処理装置。
  14.  前記画像サイズ設定手段は、前記撮像画像を複数の領域に分割した場合の分割領域ごとに設定された画像サイズに基づいて、前記検出領域の画像の前記画像サイズを設定することを特徴とする請求項13に記載の画像処理装置。
  15.  前記分割領域に設定される画像サイズは、前記撮像画像の中心から離れるほど大きくなることを特徴とする請求項14に記載の画像処理装置。
  16.  全方位カメラによって人体検出を行う検出領域が撮像された撮像画像を取得するステップと、
     前記撮像画像内の前記検出領域の位置に基づいて、前記撮像画像の前記検出領域に対する人体検出に使用する人体の特徴量を含む複数種類の辞書情報から単一種類の辞書情報を選択するステップと、
     前記選択された辞書情報を用いて前記検出領域内の画像に対する人体検出を行うステップと、
     前記人体検出の結果を出力するステップと、
    を有することを特徴とする画像処理方法。
  17.  全方位カメラによって人体検出を行う検出領域が撮像された撮像画像を取得するステップと、
     前記撮像画像内の前記検出領域の位置に基づいて、前記撮像画像内に前記撮像画像の前記検出領域を拡大した拡大領域を設定するステップと、
     前記撮像画像内に設定された前記拡大領域内の画像に対する人体検出を行うステップと、
     前記人体検出の結果を出力するステップと、
    を有することを特徴とする画像処理方法。
  18.  全方位カメラによって人体検出を行う検出領域が撮像された撮像画像を取得するステップと、
     前記撮像画像内の前記検出領域の位置に基づいて、前記撮像画像内で人体検出によって検出される互いに重なり合う複数の人体の候補を単一の候補に統合する統合しやすさを示す閾値を設定するステップと、
     前記閾値を用いて前記検出領域の画像に対する人体検出を行うステップと、
     前記人体検出の結果を出力するステップと、
    を有することを特徴とする画像処理方法。
  19.  全方位カメラによって人体検出を行う検出領域が撮像された撮像画像を取得するステップと、
     前記撮像画像内の前記検出領域の位置に基づいて、前記検出領域の画像の画像サイズを設定するステップと、
     前記検出領域の画像の画像サイズを前記設定された画像サイズに変換するステップと、
     前記画像サイズが変換された前記検出領域の画像に対する人体検出を行うステップと、
     前記人体検出の結果を出力するステップと、
    を有することを特徴とする画像処理方法。
  20.  請求項16から19のいずれか一項に記載の画像処理方法の各ステップをコンピュータに実行させるためのプログラム。
PCT/JP2020/047057 2020-02-07 2020-12-16 画像処理装置および画像処理方法 WO2021157213A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-020051 2020-02-07
JP2020020051A JP2021125137A (ja) 2020-02-07 2020-02-07 画像処理装置および画像処理方法

Publications (1)

Publication Number Publication Date
WO2021157213A1 true WO2021157213A1 (ja) 2021-08-12

Family

ID=77199222

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/047057 WO2021157213A1 (ja) 2020-02-07 2020-12-16 画像処理装置および画像処理方法

Country Status (2)

Country Link
JP (1) JP2021125137A (ja)
WO (1) WO2021157213A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023248577A1 (ja) * 2022-06-22 2023-12-28 株式会社Jvcケンウッド 画像認識装置および画像認識方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016171526A (ja) * 2015-03-13 2016-09-23 株式会社東芝 画像センサ、人検出方法、制御システム、制御方法及びコンピュータプログラム
JP2017091127A (ja) * 2015-11-09 2017-05-25 株式会社メガチップス 画像処理装置、画像処理システム、画像処理装置の動作方法及び制御プログラム
JP2017158033A (ja) * 2016-03-01 2017-09-07 住友重機械工業株式会社 作業機械用周辺監視システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016171526A (ja) * 2015-03-13 2016-09-23 株式会社東芝 画像センサ、人検出方法、制御システム、制御方法及びコンピュータプログラム
JP2017091127A (ja) * 2015-11-09 2017-05-25 株式会社メガチップス 画像処理装置、画像処理システム、画像処理装置の動作方法及び制御プログラム
JP2017158033A (ja) * 2016-03-01 2017-09-07 住友重機械工業株式会社 作業機械用周辺監視システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023248577A1 (ja) * 2022-06-22 2023-12-28 株式会社Jvcケンウッド 画像認識装置および画像認識方法

Also Published As

Publication number Publication date
JP2021125137A (ja) 2021-08-30

Similar Documents

Publication Publication Date Title
CN111797650B (zh) 障碍物的识别方法、装置、计算机设备和存储介质
CN113508420B (zh) 物体追踪装置、物体追踪方法以及存储介质
US8995714B2 (en) Information creation device for estimating object position and information creation method and program for estimating object position
JP2018022484A (ja) 画像内の物体を検出する方法及び物体検出システム
JP5517504B2 (ja) 画像処理装置、画像処理方法、およびプログラム
JP5251987B2 (ja) 人判定装置、方法およびプログラム
JP6024658B2 (ja) 物体検出装置、物体検出方法及びプログラム
CN113646803B (zh) 人检测装置以及人检测方法
JP2018180945A (ja) 物体検出装置及びプログラム
CN109543534B (zh) 一种目标跟踪中目标丢失重检的方法及装置
JP2010250419A (ja) 目の様態を検出する画像処理装置
WO2021157213A1 (ja) 画像処理装置および画像処理方法
JP7385416B2 (ja) 画像処理装置、画像処理システム、画像処理方法及び画像処理プログラム
JP6613828B2 (ja) 画像処理プログラム、画像処理装置、及び画像処理方法
US9159118B2 (en) Image processing apparatus, image processing system, and non-transitory computer-readable medium
JP7338174B2 (ja) 物体検出装置および物体検出方法
JP2021056899A (ja) 画像処理装置、画像処理方法およびプログラム
JP6121768B2 (ja) 画像検出装置及び制御プログラム並びに画像検出方法
JP7547415B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2024002327A (ja) 情報処理装置、情報処理システム、情報処理方法、及びプログラム
WO2021166574A1 (ja) 画像処理装置、画像処理方法、及びコンピュータ読み取り可能な記録媒体
US12125274B2 (en) Identification information assignment apparatus, identification information assignment method, and program
CN112115941B (zh) 火灾检测方法、装置、设备及存储介质
KR20230073887A (ko) 3차원 손 자세 추정 방법 및 증강 시스템
JP2022129150A (ja) 処理装置、処理方法およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20918062

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20918062

Country of ref document: EP

Kind code of ref document: A1