WO2015133159A1 - 画像処理装置、画像処理方法、および、画像処理プログラム - Google Patents

画像処理装置、画像処理方法、および、画像処理プログラム Download PDF

Info

Publication number
WO2015133159A1
WO2015133159A1 PCT/JP2015/050222 JP2015050222W WO2015133159A1 WO 2015133159 A1 WO2015133159 A1 WO 2015133159A1 JP 2015050222 W JP2015050222 W JP 2015050222W WO 2015133159 A1 WO2015133159 A1 WO 2015133159A1
Authority
WO
WIPO (PCT)
Prior art keywords
head
image
person
input image
area
Prior art date
Application number
PCT/JP2015/050222
Other languages
English (en)
French (fr)
Inventor
岳彦 指田
雄太 工藤
義満 青木
Original Assignee
コニカミノルタ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by コニカミノルタ株式会社 filed Critical コニカミノルタ株式会社
Priority to US15/123,235 priority Critical patent/US10445566B2/en
Priority to JP2016506153A priority patent/JP6406345B2/ja
Publication of WO2015133159A1 publication Critical patent/WO2015133159A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Definitions

  • the present disclosure relates to an image processing apparatus, an image processing method, and an image processing program capable of detecting a person from an input image.
  • the technology for detecting a person from an image includes, for example, a monitoring camera for detecting an abnormality such as an intrusion of a person, a monitoring camera for detecting a fall of a person in a nursing facility, a sports video form analysis device, It is applied to various things such as image processing devices.
  • image processing apparatuses are made on the assumption that an image from a camera installed on a ceiling or a pillar is analyzed. That is, these image processing apparatuses detect a person so that the processing time does not increase, assuming that the person appears in a predetermined direction.
  • Non-Patent Document 1 discloses a technique for detecting a person from an input image obtained by photographing a standing person from a predetermined direction.
  • Non-Patent Document 2 discloses a technique for detecting a person from an input image obtained by photographing a sleeping person from a predetermined direction.
  • Kiyoshi Hashimoto Tomoyuki Kagaya, Hiroo Kataoka, Yuji Sato, Masaki Tanabe, Kyoko Oshima, Mitsuko Fujita, Yoshimitsu Aoki, “Multi-person tracking with a backbone link model considering posture changes”, Information Processing Society of Japan Research Report, 2011-CVIM-177 (19) Ching-WeiWang, Andrew Hunter, “Robust Pose Recognition of the Obscured Human Body”, International Journal of Computer Vision December 2010, Volume 90, Issue 3, p 313-330, graduate Institute of Technological Science of Science
  • Non-Patent Document 1 can detect only a person captured in a predetermined direction, the camera installation position with respect to the position of the person is limited. The same can be said for the technique disclosed in Non-Patent Document 2.
  • the conventional person detection image processing technique can detect only a person appearing in a certain direction in the input image.
  • This disclosure has been made to solve the above-described problems, and an object in one aspect is to detect a person regardless of the positional relationship between the camera and the person while suppressing an increase in processing time. It is to provide an image processing apparatus capable of performing the above.
  • an image processing apparatus for detecting a human region included in an input image from the input image.
  • the image processing apparatus includes a head detection unit for detecting the position of a person's head in an input image, and a feature amount extracted from a peripheral image region of the position of the head detected by the head detection unit.
  • the specifying unit for specifying the relative positional relationship between the head and other parts in the input image, the direction for searching for the person region according to the relative relationship specified by the specifying unit, and the person
  • a person detection unit is provided for setting at least one of areas to be searched for and detecting a person area from an input image.
  • the specifying unit searches for a feature value indicating a human torso from the feature values extracted from the peripheral image area of the head, and specifies the direction of the torso relative to the head as a relative positional relationship.
  • the input image includes a distance image including a distance to each point on the surface of the subject.
  • the feature amount of the peripheral image area of the head extracted by the specifying unit includes a distribution of normal vectors with respect to the surface of the subject extracted from the distance image.
  • the specifying unit specifies a relative positional relationship from the direction in which the distribution of the normal vector to the surface of the human torso exists in the distribution of the normal vector in the image region around the head.
  • the input image includes a distance image including a distance to each point on the surface of the subject.
  • the feature amount of the peripheral image area of the head extracted by the specifying unit includes the relative distance of the subject from the position of the head extracted from the distance image.
  • the specifying unit specifies a relative positional relationship from a direction in which an area having a certain number of pixels having a relative distance smaller than a predetermined value exists in the peripheral image area of the head.
  • the input image includes a distance image including a distance to each point on the surface of the subject.
  • the feature amount of the peripheral image region of the head extracted by the specifying unit includes a distance difference from the background obtained by subtracting the background distance image obtained by photographing the background when no person is included from the distance image.
  • the specifying unit specifies a relative positional relationship in a direction in which an area having a certain number of pixels having a distance difference larger than a predetermined value exists in the peripheral image area of the head.
  • the feature amount of the peripheral image region of the head extracted by the specific unit includes edge information extracted from the input image.
  • the specifying unit specifies a relative positional relationship from the direction in which two parallel edges exist in the edge information in the peripheral image region of the head.
  • the head detection unit further detects the size of the person's head in the input image.
  • the specifying unit determines the size of the peripheral image region of the head from which the feature amount is extracted according to the size of the head.
  • the relative positional relationship includes a human body direction indicating a direction of another part with respect to the head in the input image.
  • the human detection unit detects a human region in the input image by rotating either a template used for searching the human region or an input image according to the human body direction and performing matching processing.
  • the human detection unit searches for a person region according to at least one of a position of a torso in an input image obtained by searching, a position of a head in the input image, and a size of the head.
  • the person area in the input image is detected by limiting at least one of the direction to search and the area to search for the person area.
  • an image processing method to be executed by a computer for detecting a human region included in an input image from the input image.
  • An image processing method detects a position of a person's head in an input image and uses a feature amount extracted from a peripheral image region of the head position to Specifying the relative positional relationship between the images, and setting at least one of the direction for searching for the person area and the area for searching for the person area according to the relative position relationship, Detecting a region.
  • an image processing program for detecting a human region included in an input image from the input image.
  • the image processing program detects the position of the person's head in the input image and uses the feature amount extracted from the peripheral image area of the head position to detect the head and other parts in the input image. And specifying at least one of a direction for searching for a person area and an area for searching for a person area according to the relative position relation, and specifying an input image And detecting a person area in the image.
  • the present invention it is possible to detect a person regardless of the positional relationship between the camera and the person while suppressing an increase in processing time.
  • FIG. 1 is a diagram illustrating a state in which a camera 110 connected to the image processing apparatus 100 is photographing a subject.
  • FIG. 2 is a diagram showing an input image obtained by the camera 110 photographing a person from various directions.
  • FIG. 3 is a conceptual diagram showing an outline of person detection processing according to the related art.
  • FIG. 4 is a conceptual diagram showing an outline of person detection processing of the image processing apparatus 100.
  • Image processing apparatus 100 can detect a person regardless of the direction of the human body in the input image.
  • FIG. 1 shows a state in which the camera 110 connected to the image processing apparatus 100 is photographing a person 50 existing in a certain space.
  • the input image 60 is obtained by the camera 110 photographing the person 50.
  • the input image 60 obtained from the camera 110 may be a normal two-dimensional image (hereinafter, also referred to as “luminance image”) composed of luminance values, and each distance from the camera 110 to each point of the subject. 3D information (hereinafter also referred to as “distance image”). Further, the input image 60 obtained from the camera 110 may be a still image or a moving image.
  • the person shown in the input image appears in various directions.
  • the posture (A) of FIG. 2 when a person sleeping on the bed is targeted, the person 50 may move in the direction of the input image 60 depending on the positional relationship between the bed and the camera 110. It looks sideways.
  • the camera 110 is installed on the foot side of the person 50 in order to obtain an image in which the person 50 appears in a certain direction (for example, the vertical direction with respect to the input image 60) in the input image 60.
  • the state in which the person 50 is sleeping has a higher degree of freedom of posture than the state in which the person 50 is standing, the person 50 is shown in the posture (B) and posture (C) of FIG. Does not necessarily appear in a certain direction (vertical direction with respect to the input image 60) in the input image 60.
  • Image processing apparatus 100 can detect a person region even if the direction of a person is in various directions in the image.
  • FIG. 3 is a conceptual diagram showing an outline of person detection processing according to the related art.
  • the image processing technology according to the related art searches for a person region while scanning the person search window 80 in the input image 60 and rotating the person search window 80 in small increments.
  • the image processing technology according to the related technology specifies the position of the search window as a person area when, for example, a feature amount extracted from the search window matches a predetermined template (feature amount).
  • feature amount a predetermined template
  • the image processing technique according to the related technique can detect the person region regardless of the human body direction in the image.
  • the image processing technique needs to perform image processing while sequentially rotating the search window, which may take a lot of calculation time.
  • Image processing apparatus 100 can detect a human region without taking a calculation time even if the human body direction is an unknown image. More specifically, as shown in FIG. 4, the image processing apparatus 100 first detects a head position 72 from the input image 60. Next, the image processing apparatus 100 uses the feature amount extracted from the body search window 70 that is the peripheral region of the detected head position 72 to determine the relative relationship between the head and other parts in the input image 60. Specify the positional relationship.
  • the relative positional relationship between the head and the other part includes, for example, the human body direction indicating the direction of the other part with respect to the head in the input image 60.
  • the human body direction includes, for example, the body direction relative to the head and the foot direction relative to the head in the input image 60.
  • the image processing apparatus 100 sets at least one of a direction for searching for the person area and an area for searching for the person area in accordance with the relative positional relationship between the head and other parts.
  • a person area is searched from the image 60.
  • the image processing apparatus 100 sets the person search window 80 according to the position of the head of the person 50 or according to the specified human body direction.
  • the image processing apparatus 100 searches for a person area from the set person search window 80 and detects a person area from the input image 60.
  • the image processing apparatus 100 identifies the human body direction from the feature amount of the peripheral region of the head before detecting the human region.
  • the image processing apparatus 100 does not need to search for a person area while rotating the person search window in small increments, and compared with the person detection process according to the related technology, The calculation time can be greatly reduced.
  • FIG. 5 is a block diagram illustrating an example of a hardware configuration of the image processing apparatus 100. The hardware configuration of the image processing apparatus 100 will be described with reference to FIG.
  • the image processing apparatus 100 is mainly mounted on a computer having a general-purpose architecture.
  • the image processing apparatus 100 includes, as main components, a ROM (Read Only Memory) 1, a CPU (Central Processing Unit) 2, a RAM (Random Access Memory) 3, a camera interface (I / F) 4, and a memory card interface.
  • (I / F) 5 network interface (I / F) 6, and storage device 20 are included.
  • the ROM 1 stores an initial program (boot program) that is executed when the image processing apparatus 100 is started up.
  • the CPU 2 controls the entire image processing apparatus 100 by executing various programs such as an operating system (OS) and an image processing program 24 stored in the ROM 1 and the storage device 20.
  • the RAM 3 functions as a working memory for executing a program by the CPU 2 and temporarily stores various data necessary for executing the program.
  • the camera I / F 4 mediates data communication between the CPU 2 and the camera 110.
  • the camera I / F 4 includes an image buffer and temporarily stores a distance image transmitted from the camera 110.
  • the camera I / F 4 transfers the accumulated data to the storage device 20 or the ROM 1.
  • the camera I / F 4 gives an imaging command to the camera 110 in accordance with an internal command generated by the CPU 2.
  • the camera 110 includes, for example, a stereo camera, a distance image sensor that detects position information of a subject in three dimensions, and a camera that can acquire the positions of other subjects in three dimensions.
  • the camera 110 may be incorporated in the image processing apparatus 100. In this case, the camera I / F 4 is not an essential configuration.
  • the memory card I / F 5 reads / writes data from / to various memory cards (nonvolatile storage media) 5A such as an SD (Secure Digital) card and a CF (Compact Flash (registered trademark)) card.
  • memory cards nonvolatile storage media
  • SD Secure Digital
  • CF Compact Flash
  • the memory card I / F 5 is mounted with a memory card 5A storing a distance image acquired by another device, and the distance image read from the memory card 5A is stored in the storage device 20. .
  • the network I / F 6 exchanges data with other devices (such as a server device) via various communication media such as the antenna 6A. More specifically, the network I / F 6 is connected via a wired line (LAN (Local Area Network), WAN (Wide Area Network), etc.) such as Ethernet (registered trademark) and / or a wireless line such as a wireless LAN. Data communication.
  • LAN Local Area Network
  • WAN Wide Area Network
  • Ethernet registered trademark
  • wireless line such as a wireless LAN.
  • the storage device 20 typically includes a large-capacity magnetic storage medium such as a hard disk.
  • the storage device 20 stores an image processing program 24 for realizing various types according to the present embodiment. Further, the storage device 20 may store a program such as an operating system.
  • the camera 110 may be incorporated in the image processing apparatus 100 instead of being externally attached, and the image processing apparatus 100 main body may have a function of capturing an image of a subject.
  • the image processing apparatus 100 may be configured to acquire a distance image using a mechanism similar to a camera and input the acquired distance image to the image processing apparatus 100 by an arbitrary method. In this case, the distance image is input to the image processing apparatus 100 via the memory card I / F 5 or the network I / F 6.
  • the image processing program 24 stored in the storage device 20 is stored in a storage medium such as a CD-ROM (Compact Disk-Read Only Memory) and distributed, or distributed from a server device or the like via a network.
  • the image processing program 24 may call a required module among program modules provided as a part of the operating system executed by the image processing apparatus 100 at a predetermined timing and order to realize the processing.
  • the image processing program 24 itself does not include modules provided by the operating system, and image processing is realized in cooperation with the operating system.
  • the image processing program 24 may be provided by being incorporated in a part of an arbitrary program instead of a single program. Even in such a case, the image processing program 24 itself does not include a module that is commonly used in an arbitrary program, and image processing is realized in cooperation with the arbitrary program. Even such an image processing program 24 that does not include some modules does not depart from the spirit of the image processing apparatus 100 according to the present embodiment. Furthermore, some or all of the functions provided by the image processing program 24 may be realized by dedicated hardware.
  • the image processing apparatus 100 may not necessarily perform processing in real time.
  • the image processing apparatus 100 may be configured in a form such as a so-called cloud service in which at least one server apparatus realizes processing according to the present embodiment.
  • the distance image is transmitted to the server device (cloud side), and the server device performs image processing according to the present embodiment on the received distance image.
  • the server device side it is not necessary for the server device side to perform all functions (processing), and the user side terminal and the server device may cooperate to realize the image processing according to the present embodiment.
  • FIG. 6 is a block diagram illustrating an example of a functional configuration of the image processing apparatus 100.
  • the image processing apparatus 100 includes a head detection unit 210, a specifying unit 220, and a human detection unit 230.
  • the image processing apparatus 100 can use the position of the head as a starting point when detecting the person region.
  • the head detection unit 210 detects the position of the person's head in the input image 60.
  • the position of the head is detected as coordinate information in the input image 60, for example.
  • the head detecting unit 210 outputs the detected head position to the specifying unit 220.
  • Specific methods of head detection include, for example, methods that focus on facial parts such as eyes and nose, such as template matching using a face database and Haar-Like features.
  • the head detection unit 210 can automatically specify the direction of the human body because the head direction can be specified from the position of the facial parts.
  • the image processing apparatus 100 needs to photograph the face almost from the front.
  • characteristic face parts such as eyes and nose are not captured in the input image 60, and thus the head detection unit 210 may not be able to identify the face orientation.
  • the head detection unit 210 needs to search for the head while rotating the face detection template in small increments in order to match the positional relationship between the facial parts. There is such a possibility.
  • the head detection unit 210 uses the distance image (three-dimensional information) obtained by photographing the subject as the input image 60 and performs head detection from the distance distribution state of the distance image. That is, the head detection unit 210 detects a spherical shape indicating the outer shape of the face in the distance image. Since the head resembles a spherical shape, the outer shape does not change greatly even if it is rotated. For this reason, the head detection unit 210 can detect the head position without rotating the head detection template by detecting the spherical shape. Therefore, the head detection unit 210 can realize a fast and stable head detection process.
  • the process executed by the head detection unit 210 is not limited to the above, and any process that can detect the position of the head from the input image 60 may be used.
  • the head detection unit 210 may perform head detection using a model having a head shape instead of a spherical shape.
  • the head detection unit 210 may use distance information from the camera to the head.
  • the head detection unit 210 can accurately detect the size of the head on the input image 60 by detecting the head using a head shape model or distance information to the head.
  • the head detection unit 210 may detect the position of the head from the input image 60 by detecting the outer edge of the face shown in the luminance image. In this case, the head detection unit 210 detects a circular shape indicating the outer shape of the face in the input image 60.
  • the specifying unit 220 uses the feature amount extracted from the peripheral image region of the position of the head detected by the head detecting unit 210, and the relative positional relationship between the head and other parts in the input image 60. Is identified. Typically, the specifying unit 220 specifies the human body direction indicating the direction of the trunk relative to the head as the positional relationship. The identification unit 220 outputs the identified human body direction to the human detection unit 230. Details of the method of specifying the human body direction of the specifying unit 220 will be described later.
  • the human detection unit 230 detects a human region from the input image 60 using the head detection result by the head detection unit 210 and the human body direction specified by the specification unit 220. For example, in order to shorten the processing time, the person detection unit 230 detects a person region by limiting at least one of the direction to be searched and the region according to the human body direction specified by the specification unit 220.
  • the detected person area is shown as coordinate information in the input image 60, for example.
  • the human detection unit 230 performs input by rotating and performing matching processing according to the human body direction in which one of the template used for searching the human region and the input image 60 is specified. A person region in the image 60 is detected.
  • the template includes edge information, HOG (Histogram of Oriented Gradient), or other feature amount extracted from an image showing a person's standing posture.
  • the person detection unit 230 performs the person detection process by rotating the template in the direction along the specified human body direction with reference to the head position.
  • the human detection unit 230 can specify the scanning direction in the input image 60 from the human body direction, the existing human detection processing can be applied almost as it is. That is, even if the existing human detection process is applied, the human detection unit 230 does not need to rotate the template or the input image 60 each time, and can prevent an increase in calculation amount. Further, the person detection unit 230 may detect the person region by tracking the convex shape in the distance image and detecting the person.
  • the identifying unit 220 determines the human body direction from the input image 60 using the detection result of the head detecting unit 210.
  • the human head and torso are connected by a neck, and the positional relationship between the head and the torso changes slightly by tilting the neck, but the positional relationship that the torso exists around the head is unchanged. .
  • the specifying unit 220 specifies the human body direction using the continuity between the human body parts of the head and the torso. That is, the specifying unit 220 searches for a feature value indicating the human torso from the feature values extracted in the peripheral image area of the head, and specifies the direction of the torso relative to the head as the human body direction.
  • Various methods are conceivable for the specifying process of the human body direction by the specifying unit 220. Below, the specific example of the specific process of the human body direction by the head detection part 210 is demonstrated in order.
  • the method for specifying the human body direction when a person is in a sleeping position will be described.
  • specification part 220 can pinpoint the direction of a human body.
  • FIG. 7 is a conceptual diagram showing an outline of processing for specifying a human body direction from an input image obtained by photographing a person.
  • FIG. 8 is a diagram visually showing a search area around the head.
  • FIG. 9 is a conceptual diagram showing an outline of processing for specifying a human body direction using distance information.
  • the position of the subject is shown in two dimensions, that is, the position (x axis) and the distance (z axis) for the sake of simplicity.
  • the position of the subject can be obtained as three-dimensional information indicated by the x-axis, the z-axis, and the y-axis (not shown) orthogonal to the x-axis and the z-axis.
  • the specifying unit 220 can detect the torso position or direction, the specifying unit 220 can specify the human body direction in the input image 60 from the relative positional relationship between the head position and the torso position.
  • the field of view of the camera includes only half of the human torso surface, for example, as shown in FIG. 7, the distance measurement result of the sleeping person is a half-cylinder shape or along the human body surface. Distributed in a convex shape. For this reason, the specifying unit 220 regards the human torso as a semi-cylindrical shape or a convex shape.
  • the specifying unit 220 can specify the human body direction by searching for a semi-cylindrical shape or a convex shape in a region adjacent to the head.
  • the term “half-cylinder shape” when used, the concept of “convex shape” may be included. Further, when the term “convex shape” is used, the concept of “half-cylinder shape” may be included.
  • the specifying unit 220 determines a region (that is, a torso search window 70) for searching for a torso based on the position of the head in the input image 60 detected by the head detecting unit 210. For example, as illustrated in FIG. 8, the specifying unit 220 searches for the half-cylinder shape of the person in the peripheral region 74 of the head of the person 50. In the example shown in FIG. 8, the body is detected on the lower side of the paper surface of the head. The specifying unit 220 specifies the direction of the trunk relative to the head as the human body direction. Or the specific
  • the identifying unit 220 uses distance information for the bed plane.
  • the human body is considered to have a semi-cylindrical convex distance distribution on the bed surface. For this reason, the specifying unit 220 can specify the direction of the trunk by searching for an area having a convex distance distribution around the head.
  • FIG. 10 is a diagram showing an outline of processing for specifying a human body direction using normal line information with respect to a subject surface calculated from a distance image.
  • the position of the subject is shown in two dimensions, that is, the position (x-axis) and the distance (z-axis) in order to simplify the description.
  • the position of the subject can be obtained as three-dimensional information of the position (x axis, y axis) and distance (z axis).
  • the specifying unit 220 can specify the direction of the trunk by searching for a fan-shaped normal distribution from the image area around the head.
  • the specifying unit 220 extracts a normal vector distribution with respect to the surface of the subject from the peripheral image region of the head.
  • the specifying unit 220 specifies the human body direction from the direction in which the normal vector distribution with respect to the surface of the human torso exists in the extracted normal vector distribution.
  • “distribution of normal vectors with respect to the surface of the human torso” means, for example, the distribution of normal vectors with respect to the semi-cylindrical surface, the distribution of normal vectors with respect to the shape of the human torso obtained by learning in advance, and Includes normal vector distributions showing other torso.
  • the identifying unit 220 detects an area where a normal vector distribution with respect to the surface of the human torso exists as an image of the human torso from an image area around the head, and the direction of the torso area with respect to the head position. Is specified as the human body direction.
  • the specifying unit 220 may specify the human body direction or the body direction from the distribution of normal vectors in the detected body region without using the head position.
  • the specifying unit 220 can reduce the influence of the distance change caused by the futon or the like by using the normal line information calculated from the distance image, as compared with the case of using the distance information as it is. That is, the specifying unit 220 can reduce the influence of noise and can realize stable detection. In addition, since the specifying unit 220 uses the normal line information, a highly accurate determination using a human three-dimensional shape is possible.
  • Still another example of the processing of the specifying unit 220 includes a method using distance difference information. For example, paying attention to the fact that the distance between the head and the torso from the bed plane is the same, the specifying unit 220 calculates the distance from the bed plane around the head, and the distance is greater than a predetermined value. The direction including many small areas is determined as the trunk direction.
  • the predetermined value may be determined from the thickness of the human body and the futon, for example. Alternatively, as the predetermined value, the values of the thickness of the human body and the futon may be used as they are.
  • the specifying unit 220 calculates a relative distance with respect to the bed plane using a distance image including distances to points on the surface of the subject. That is, the specifying unit 220 calculates the distance from each point of the subject around the head to the bed plane. Thereby, the specifying unit 220 extracts a relative distance from each point of the subject around the head to the bed plane as a feature amount. The specifying unit 220 uses the extracted feature amount to specify the human body direction from the direction of a region having a certain number or more of pixels having a relative distance smaller than a predetermined value.
  • the specifying unit 220 detects a region having a certain number or more of pixels having a value smaller than a predetermined value as a human torso region, and specifies the direction of the torso region with respect to the head position as the human body direction.
  • the specifying unit 220 may specify the human body direction or the torso direction from the detected shape of the torso region without using the head position.
  • the specifying unit 220 can efficiently exclude areas that are not related to the human area such as the background area by using the relative distance from the bed plane, and can specify the human body direction with high accuracy. become.
  • the specifying unit 220 specifies the human body direction using the relative distance from the bed plane. However, even if the human body direction is specified using the relative distance from the head in the peripheral image region of the head. Good. More specifically, the specifying unit 220 calculates a relative distance with respect to the head using a distance image including distances to points on the surface of the subject. That is, the specifying unit 220 subtracts the distance at the head position from the distance at each point of the subject around the head. Thereby, the specifying unit 220 extracts the relative distance of the subject around the head with respect to the head as a feature amount.
  • the specifying unit 220 specifies the human body direction from the direction of an area having a certain number or more of pixels having a relative distance smaller than a predetermined value, using the extracted feature amount. Typically, the specifying unit 220 detects a region having a certain number or more of pixels having a value smaller than a predetermined value as a human torso region, and specifies the direction of the torso region with respect to the head position as the human body direction. The specifying unit 220 may specify the human body direction or the torso direction from the detected shape of the torso region without using the head position.
  • Still another example of the processing of the specifying unit 220 includes a method using background difference information obtained by subtracting a background distance image from the input image 60 (distance image). Focusing on the fact that the person is discontinuous with the background, the specifying unit 220 determines the direction in which the distance difference between the image area around the head and the background distance image includes many areas that are larger than a predetermined value. It is determined that the body direction.
  • the specifying unit 220 obtains a distance from the background obtained by subtracting a background distance image obtained by photographing a background when no person is included from a distance image acquired at a certain timing. The difference is extracted as a feature amount. Then, the specifying unit 220 specifies the direction of the region having a distance difference larger than a predetermined value as the human body direction in the peripheral image region of the head. Typically, the identifying unit 220 detects a region having a certain number or more of pixels having a distance difference larger than a predetermined value as a human torso region, and determines the direction of the torso region with respect to the head position in the input image 60. Specify as direction. The specifying unit 220 may specify the human body direction or the torso direction from the detected shape of the torso region without using the head position.
  • the background distance image for example, an image obtained in advance when a person is not included in the field of view of the camera is used.
  • an image obtained by photographing at a timing when the head detecting unit 210 does not detect the head in the input image 60 may be used.
  • the specifying unit 220 can efficiently exclude regions that are not related to the human region such as the background region by using the distance image obtained by performing the background subtraction, and specifies the human body direction with high accuracy. It becomes possible.
  • FIG. 11 is a conceptual diagram showing an outline of processing for specifying the human body direction using edge information acquired from the input image 60.
  • a method using edge information acquired from the input image 60 can be considered.
  • the human torso is considered to be cylindrical, the distance from the camera 110 to the subject changes rapidly on both sides of the human torso. That is, it is considered that two parallel long distance edges occur on both sides of the fuselage.
  • the specifying unit 220 can obtain the direction of the trunk by searching for two parallel long distance edges in the image region adjacent to the head. That is, the specifying unit 220 specifies the human body direction from the direction in which two parallel edges exist in the edge information extracted in the peripheral image region of the head.
  • the specifying unit 220 performs edge extraction from the input image 60 (distance image). Edge extraction is realized by, for example, differentiating a distance image to obtain a gradient of pixel values. Typically, the identifying unit 220 performs edge extraction by convolving a differential filter, a Prewitt filter, a Sobel filter, a Laplacian filter, a LOG filter, and other filters that can extract edges into a distance image. .
  • the specifying unit 220 extracts edge information of an image area around the head as a feature amount, and uses the extracted edge information to extract an image area around the head. An existing straight line is detected. If the identifying unit 220 detects two straight lines that are parallel, or are facing in a similar direction, the identifying unit 220 identifies a region between the two straight lines as a human torso region.
  • the specifying unit 220 can efficiently exclude a region unrelated to a human region having no distance change or luminance change by using the edge information, and can specify the human body direction with high accuracy. Become. Also, since the edge information can be obtained from a low-resolution image, the specifying unit 220 can specify the human body direction even if the image has a low resolution.
  • Still another example of the processing of the specifying unit 220 includes a method using an image composed of luminance values (that is, a luminance image). Unlike the case where the distance image is used, the specifying unit 220 cannot obtain the three-dimensional shape when the luminance image is used as the input image 60, and thus it is difficult to search for the convex shape. However, the specifying unit 220 can specify the direction of the human body by searching for a characteristic characteristic of the body from the luminance image.
  • the specifying unit 220 may use a method using a luminance edge extracted from a luminance image. If the body is considered to be cylindrical, the distance from the camera changes abruptly on both sides of the body. If the distance changes on both sides of the fuselage, there is a high possibility that the brightness will change on both sides. That is, even in the case of a luminance image, two parallel edges can be observed on both sides of the body.
  • the specifying unit 220 specifies the human body direction from the direction in which two parallel edges exist in the edge information extracted in the peripheral image region of the head.
  • Still another example of the processing of the specifying unit 220 includes a method using luminance difference information.
  • the specifying unit 220 can specify a person region by detecting a portion different from the background. That is, the specifying unit 220 determines a direction including many regions around the head where the luminance difference from the background is larger than a predetermined value as the trunk direction.
  • the specifying unit 220 uses, as a feature amount, a luminance difference from a background obtained by taking a luminance image obtained by photographing a background when no person is included from a luminance image acquired at a certain timing. Extract. Then, the specifying unit 220 specifies the human body direction from the direction of the region having a luminance difference larger than a predetermined value in the peripheral image region of the head. Typically, the specifying unit 220 detects a region having a certain number or more of pixels having a luminance difference larger than a predetermined value as a human torso region, and specifies the direction of the torso region with respect to the head position as the human body direction. The specifying unit 220 may specify the human body direction or the body direction from the detected shape of the body region.
  • the identification unit 220 may utilize prior knowledge such as a human body shape model and bed arrangement when searching for a peripheral region of the head.
  • the head is usually present on the side of the pillow, and it seems that the body is located somewhere in the long side direction, so that the search range can be limited accordingly.
  • the specifying unit 220 combines the plurality of processes described in the specific examples 1 to 8 of the above processes, integrates the plurality of processing results, and specifies the human body direction in the input image 60. Also good. For example, the specifying unit 220 searches for an image region around the head and specifies the human body direction by searching for two parallel edges. Thus, the specifying unit 220 can specify the human body direction more accurately by combining a plurality of processes.
  • FIG. 12 is a flowchart showing a part of processing executed by the image processing apparatus 100.
  • the processing in FIG. 12 is realized by the CPU 2 executing a program. In other aspects, some or all of the processing may be performed by circuit elements or other hardware.
  • step S510 the CPU 2 acquires an input image. Typically, the CPU 2 acquires a distance image or a luminance image as an input image.
  • step S512 the CPU 2 detects the position of the head of the person in the acquired input image as the head detection unit 210.
  • step S520 the CPU 2 determines, as the head detection unit 210, whether or not a human head has been detected in the input image. When CPU 2 determines that the head has been detected (YES in step S520), control is switched to step S522. If not (NO in step S520), CPU 2 returns control to step S510.
  • step S522 the CPU 2 specifies the human body direction in the input image using the feature amount extracted from the peripheral image region of the detected head position as the specifying unit 220.
  • step S524 the CPU 2 searches the input image as the human detection unit 230 by limiting at least one of the search direction and the area according to the specified human body direction, and detects the person area.
  • step S530 CPU 2 determines whether or not to end the image processing according to the present embodiment. For example, when receiving a user operation to end the image processing, the CPU 2 ends the image processing. When CPU 2 determines to end the image processing according to the present embodiment (YES in step S530), CPU 2 ends the image processing. If not (NO in step S530), CPU 2 sequentially executes the processes from step S510 to step S530 again.
  • the image processing apparatus 100 can identify the human body direction in the input image and detect the person area according to the human body direction. A person can be detected without depending on it. Further, the image processing apparatus 100 can specify the direction of the person in the input image by a process with a relatively small calculation amount. As a result, the image processing apparatus 100 does not need to search for a person area while sequentially rotating the person search window, so that the calculation time can be greatly reduced.
  • Image processing apparatus 100A according to the present embodiment is different from image processing apparatus 100 according to the first embodiment in that the search range of the body area and the person area in the input image is appropriately changed. Since the hardware configuration is the same as that of image processing apparatus 100 according to the first embodiment, description thereof will not be repeated.
  • each part of the human body correlates to some extent with the size of the head. For this reason, the size or ratio of the human body part (particularly the trunk) relative to the head can be determined to some extent from the size of the head. Focusing on this point, the image processing apparatus 100A uses a body search window 70 (see FIG. 4) for searching for a human body direction according to at least one of the identified head size and head position. Change the size accordingly. Thereby, the image processing apparatus 100A can specify the human body direction by excluding the area where no person is shown. That is, the image processing apparatus 100A can greatly reduce the processing time required for specifying the human body direction, and can further reduce false detection of the human body direction.
  • the image processing apparatus 100A uses not only the human body direction but also at least one information among the head size, the head position, and the torso position information to detect a person area 80 ( The size is changed as appropriate. Thereby, the image processing apparatus 100A can search for a person area by excluding an area where no person is shown. That is, the image processing apparatus 100A can greatly reduce the processing time required for detecting a person area, and can further reduce false detection of a person area.
  • FIG. 13 is a block diagram illustrating an example of a functional configuration of the image processing apparatus 100A.
  • the image processing apparatus 100A includes a head detection unit 210, a specification unit 220, and a human detection unit 230.
  • the specifying unit 220 includes an area setting unit 222 for setting the body search window 70 in the input image 60.
  • the person detection unit 230 includes an area setting unit 232 for setting the person search window 80 in the input image 60.
  • the head detection unit 210 detects the head position in the input image 60 by the method described above, and detects the size of the head in the input image 60.
  • the head detection unit 210 can obtain the size of the head accompanying the detection of the head position.
  • the head detection unit 210 detects the size of the head from a template enlargement rate or a template size in a head detection process such as a template matching process.
  • the size of the head in the input image 60 is indicated by, for example, the number of pixels included in the head region, the head diameter, and the like.
  • the region setting unit 222 determines the size of the peripheral image region of the head from which the feature amount is extracted (that is, the body search window 70) according to the size of the head obtained from the head detection unit 210. Details of the processing of the area setting unit 222 will be described later.
  • the specifying unit 220 searches the body search window 70 set in the input image 60 by the region setting unit 222 and specifies the human body direction.
  • the area setting unit 232 detects the person area by limiting the area to search for the person area according to at least one of the position of the trunk in the input image 60 and the position of the head in the input image 60.
  • the person search window 80 is set in the input image 60 so as to include the head position obtained from the head detection unit 210 and the torso position. Details of the processing of the area setting unit 232 will be described later.
  • the human detection unit 230 detects the human body region by searching the person search window 80 set in the input image 60 by the region setting unit 232.
  • FIG. 14 is a conceptual diagram showing an outline of processing for determining the shape of the body search window 70 according to the position of the head.
  • FIG. 15 is a conceptual diagram showing an outline of processing for determining the size of the body search window 70 in accordance with the size of the head.
  • the image processing apparatus 100A can estimate the size or ratio of the human body part (for example, the torso) with respect to the head to some extent from the head size. Focusing on this, the region setting unit 222 sets the body search window 70 having a shape suitable for the region connected to the head. More specifically, the region setting unit 222 determines at least one of the position and size of the body search window 70 according to the head size. For example, as shown in the posture (B) of FIG. 14, the region setting unit 222 sets the torso search windows 70A to 70H so as to include the head position at one end around the head.
  • the region setting unit 222 may limit the search range and window size by using a human body shape model in the search around the head. Furthermore, the region setting unit 222 may limit the size of the convex shape and the radius of the convex shape that are determined as the body portion according to the size of the head. By using prior knowledge such as a model, the search range, body search window size, and the conditions of the convex shape to be recognized are limited, so that the setting of the window according to the size of the human torso and the influence of the non-human convex shape Can be eliminated.
  • the area setting unit 222 may be configured to change the size of the body search window 70 in accordance with the size of the head. As described above, the size and ratio of other parts of the person relative to the size of the head can be estimated in advance from the head size. For this reason, the region setting unit 222 can perform a search by changing parameters such as a body search range and a body part search window size from the size of the head. Since the image processing apparatus 100A can optimize the parameters in accordance with the size of the head, for example, it is possible to cope with a change in the size of the body search window 70 due to a change in magnification or a difference in physique. .
  • the size of the torso search window 70 is set by the region setting unit 222 so as to increase as the head size in the input image 60 increases.
  • the size of the region of the torso search window 70 is set by the region setting unit 222 so as to decrease as the head size in the input image 60 decreases.
  • the region setting unit 222 enlarges or reduces the size of the input image 60 itself while keeping the size of the body search window 70 constant. It may be configured.
  • FIG. 16 is a concept showing an outline of processing for setting the person search window 80 not only according to the human body direction but also according to at least one of the size of the head in the input image, the position of the head, and the position of the torso.
  • FIG. 16 is a concept showing an outline of processing for setting the person search window 80 not only according to the human body direction but also according to at least one of the size of the head in the input image, the position of the head, and the position of the torso.
  • the area setting unit 232 sets a person area according to the human body direction specified by the specifying unit 220. Typically, the region setting unit 232 determines the direction of the person search window 80 along the human body direction.
  • the region setting unit 232 determines the position of the person search window 80 according to the head position and the torso position in the input image 60. Typically, the region setting unit 232 sets the person search window 80 so that the position of the person search window 80 includes the head position and the torso position in the input image 60.
  • the region setting unit 232 may determine the size of the person search window 80 according to the head size in the input image 60.
  • the size of the person search window 80 is set by the area setting unit 232 such that the size of the head in the input image 60 increases as the head size increases.
  • the size of the area of the person search window 80 is set by the area setting unit 232 such that the smaller the head size in the input image 60 is, the smaller the head size is. .
  • the area setting unit 232 sets the person search window 80 not only according to the human body direction but also according to the position of the head, the position of the torso, and the size of the head. It can be excluded from the search target area. As a result, the processing time can be greatly shortened, and further, erroneous detection of the person area can be reduced.
  • the area setting unit 232 enlarges or reduces the size of the input image 60 itself while keeping the size of the person search window 80 constant. It may be configured.
  • FIG. 17 is a flowchart showing a part of the process executed by image processing apparatus 100A.
  • the processing in FIG. 17 is realized by the CPU 2 executing a program. In other aspects, some or all of the processing may be performed by circuit elements or other hardware.
  • step S510 the CPU 2 acquires an input image. Typically, the CPU 2 acquires a distance image or a luminance image as an input image.
  • step S512 the CPU 2 detects the position of the head of the person in the acquired input image as the head detection unit 210.
  • step S520 the CPU 2 determines, as the head detection unit 210, whether or not a human head has been detected in the input image. If CPU 2 determines that the head has been detected (YES in step S520), it switches control to step S610. If not (NO in step S520), CPU 2 returns control to step S510.
  • step S610 the CPU 2 uses the region setting unit 222 as the region setting unit 222 to extract a feature amount used for detecting a human torso in accordance with the obtained head size, and an image region around the head. That is, the size of the body search window 70 and the position of the body search window 70 are determined.
  • step S ⁇ b> 522 the CPU 2 scans the set body search window 70 as the specifying unit 220 and specifies the human body direction using the feature amount extracted from the body search window 70.
  • step S612 the CPU 2 determines the direction of the person search window 80 according to the specified human body direction as the area setting unit 232, and also determines the size of the head, the position of the head, and the body part in the input image 60.
  • the position of the person search window 80 is determined according to at least one of the positions.
  • step S612 the CPU 2 detects the person area as the area setting unit 232 according to at least one of the specified human body direction, the head size, the head position, and the torso position. The size and position of the image area (that is, the person search window 80) used for the determination are determined.
  • step S ⁇ b> 524 the CPU 2 scans the set person search window 80 as the person detection unit 230, and detects a person area using the feature amount extracted from the person search window 80.
  • step S530 CPU 2 determines whether or not to end the image processing according to the present embodiment. For example, when receiving a user operation to end the image processing, the CPU 2 ends the image processing. When CPU 2 determines to end the image processing according to the present embodiment (YES in step S530), CPU 2 ends the image processing. If not (NO in step S530), CPU 2 sequentially executes the processes from step S510 to step S530 again.
  • image processing apparatus 100A changes the size and position of the body search window according to the position and size of the head in the input image. As a result, it is possible to exclude an area unrelated to the person in the input image, and to greatly reduce the calculation time for detecting the trunk. At the same time, it is possible to reduce the detection error of the body by excluding the inner area related to the person in the input image.
  • the image processing apparatus 100A determines the direction of the person search window according to the specified human body direction, and changes the size and position of the person search window according to the position and size of the head in the input image. .

Abstract

 カメラと人物との位置関係に依らずに人物を検出することが可能な画像処理装置を提供する。入力画像に含まれる人物領域を当該入力画像から検出するための画像処理装置(100)が提供される。画像処理装置(100)は、入力画像内において、人物の頭部の位置を検出するための頭部検出部(210)と、頭部検出部(210)により検出された頭部の位置の周辺画像領域から抽出した特徴量を用いて、入力画像内における頭部とその他の部位との相対的な位置関係を特定するための特定部(220)と、特定部(220)により特定された相対関係に応じて、人物領域を探索する方向と、人物領域を探索する領域とのうちの少なくとも一方を設定し、入力画像から人物領域を探索するための人検出部(230)とを備える。

Description

画像処理装置、画像処理方法、および、画像処理プログラム
 本開示は、入力画像から人物を検出することが可能な画像処理装置、画像処理方法、および、画像処理プログラムに関する。
 従来、画像処理の分野において、画像内から人物を検出するための技術が開発されている。画像から人物を検出する技術は、たとえば、人物の侵入などの異常を検出するための監視カメラ、介護施設などにおいて人物の転倒などを検出するための見守りカメラ、スポーツ映像のフォーム解析装置、その他の画像処理装置など様々なものに応用される。しかしながら、これらの画像処理装置のほとんどは、天井や柱などに設置されたカメラからの画像を解析することを前提に作られている。すなわち、これらの画像処理装置は、人物が所定方向に写っているものとして、処理時間が増加しないよう人物の検出を行なっている。
 たとえば、非特許文献1は、立っている人を所定の方向から撮影して得られた入力画像から人物を検出するための技術を開示している。他にも、非特許文献2は、寝ている人を所定の方向から撮影して得られた入力画像から人物を検出するための技術を開示している。
橋本 潔,加賀屋 智之,片岡 裕雄,里 雄二,田靡 雅基,大島 京子,藤田 光子,青木 義満、「姿勢変動を考慮した基幹リンクモデルによる複数人物追跡」、情報処理学会研究報告、2011-CVIM-177(19) Ching-WeiWang,Andrew Hunter、「Robust Pose Recognition of the Obscured Human Body」、International Journal of Computer Vision December 2010, Volume90, Issue3, p313-330、Graduate Institute of Biomedical Engineering, National Taiwan University of Science and Technology
 非特許文献1に開示される技術は、所定の方向に写った人物しか検出することができないため、人物の位置に対するカメラの設置位置が制限されてしまう。非特許文献2に開示される技術についても同様のことがいえる。このように、従来の人物検出の画像処理技術は、入力画像において一定の方向に写っている人物しか検出することができない。
 この開示は上述のような問題点を解決するためになされたものであって、ある局面における目的は、処理時間の増加を抑えつつ、カメラと人物との位置関係に依らずに人物を検出することが可能な画像処理装置を提供することである。
 一実施の形態に従うと、入力画像に含まれる人物領域を当該入力画像から検出するための画像処理装置が提供される。当該画像処理装置は、入力画像内において、人物の頭部の位置を検出するための頭部検出部と、頭部検出部により検出された頭部の位置の周辺画像領域から抽出した特徴量を用いて、入力画像内における頭部とその他の部位との相対的な位置関係を特定するための特定部と、特定部により特定された相対関係に応じて、人物領域を探索する方向と、人物領域を探索する領域とのうちの少なくとも一方を設定し、入力画像から人物領域を検出するための人検出部とを備える。
 好ましくは、特定部は、頭部の周辺画像領域で抽出した特徴量から人物の胴体を示す特徴量を探索し、頭部に対する胴体の方向を相対的な位置関係として特定する。
 好ましくは、入力画像は、被写体の表面上の各点までの距離からなる距離画像を含む。特定部が抽出する頭部の周辺画像領域の特徴量は、距離画像から抽出した、被写体の表面に対する法線ベクトルの分布を含む。特定部は、頭部周辺の画像領域の法線ベクトルの分布において、人の胴体の表面に対する法線ベクトルの分布が存在する方向から相対的な位置関係を特定する。
 好ましくは、入力画像は、被写体の表面上の各点までの距離からなる距離画像を含む。特定部が抽出する頭部の周辺画像領域の特徴量は、距離画像から抽出した、頭部の位置からの被写体の相対距離を含む。特定部は、頭部の周辺画像領域において、相対距離が所定値よりも小さい画素を一定数以上有する領域が存在する方向から相対的な位置関係を特定する。
 好ましくは、入力画像は、被写体の表面上の各点までの距離からなる距離画像を含む。特定部が抽出する頭部の周辺画像領域の特徴量は、人物が含まれないときの背景を撮影して得られた背景距離画像を距離画像から差分した、背景からの距離差を含む。特定部は、頭部の周辺画像領域において、距離差が所定値よりも大きい画素を一定数以上有する領域が存在する方向から相対的な位置関係を特定する。
 好ましくは、特定部が抽出する頭部の周辺画像領域の特徴量は、入力画像から抽出した、エッジ情報を含む。特定部は、頭部の周辺画像領域におけるエッジ情報において、2本の平行するエッジが存在する方向から相対的な位置関係を特定する。
 好ましくは、頭部検出部は、入力画像における人物の頭部のサイズをさらに検出する。特定部は、頭部のサイズに応じて、特徴量を抽出する頭部の周辺画像領域のサイズを決定する。
 好ましくは、相対的な位置関係は、入力画像内における頭部に対する、その他の部位の方向を示す人体方向を含む。人検出部は、人物領域の探索に用いるテンプレート、および、入力画像のいずれか一方を人体方向に応じて回転するとともにマッチング処理を行い、入力画像内における人物領域を検出する。
 好ましくは、人検出部は、探索して得た入力画像内の胴体の位置、入力画像内の頭部の位置、および、頭部のサイズのうちの少なくとも1つに応じて、人物領域を探索する方向と、人物領域を探索する領域とのうちの少なくとも一方を限定して、入力画像における人物領域を検出する。
 他の実施の形態に従うと、入力画像に含まれる人物領域を当該入力画像から検出するためのコンピュータが実行するための画像処理方法が提供される。画像処理方法は、入力画像内において、人物の頭部の位置を検出することと、頭部の位置の周辺画像領域から抽出した特徴量を用いて、入力画像内における頭部とその他の部位との相対的な位置関係を特定することと、相対的な位置関係に応じて、人物領域を探索する方向と、人物領域を探索する領域とのうちの少なくとも一方を設定し、入力画像内で人物領域を検出することとを備える。
 さらに他の実施の形態に従うと、入力画像に含まれる人物領域を当該入力画像から検出するための画像処理プログラムが提供される。画像処理プログラムは、コンピュータに、入力画像内において、人物の頭部の位置を検出することと、頭部の位置の周辺画像領域から抽出した特徴量を用いて、入力画像内における頭部とその他の部位との相対的な位置関係を特定することと、相対的な位置関係に応じて、人物領域を探索する方向と、人物領域を探索する領域とのうちの少なくとも一方を設定し、入力画像内で人物領域を検出することとを実行させる。
 本発明によれば、処理時間の増加を抑えつつ、カメラと人物との位置関係に依らずに人物を検出することができる。
 本発明の上記および他の目的、特徴、局面および利点は、添付の図面と関連して理解される本発明に関する次の詳細な説明から明らかとなるであろう。
第1の実施の形態に従う画像処理装置に接続されたカメラが被写体を撮影している様子を表している図である。 カメラが様々な方向から人物を撮影して得られた入力画像を示した図である。 関連技術に従う人物検出処理の概略を示した概念図である。 第1の実施の形態に従う画像処理装置の人物検出処理の概略を示した概念図である。 第1の実施の形態に従う画像処理装置のハードウェア構成の一例を示すブロック図である。 第1の実施の形態に従う画像処理装置の機能構成の一例を示すブロック図である。 人物を撮影して得られた画像から人体方向を特定する処理についての概略を示した概念図である。 頭部周辺において探索する領域を視覚的に示した図である。 距離情報を用いて人体方向を特定する処理についての概略を示した概念図である。 距離画像から算出した被写体表面に対する法線情報を用いて人体方向を特定する処理についての概略を示した図である。 入力画像から取得したエッジ情報を用いて人体方向を特定する処理についての概略を示した概念図である。 第1の実施の形態に従う画像処理装置が実行する処理の一部を表わすフローチャートである。 第2の実施の形態に従う画像処理装置の機能構成の一例を示すブロック図である。 頭部の位置に応じて胴体探索ウィンドウの形状を決定する処理の概略を示した概念図である。 頭部のサイズに応じて胴体探索ウィンドウのサイズを決定する処理の概略を示した概念図である。 入力画像内の頭部の位置または胴体の位置に応じて人物探索ウィンドウを設定する処理の概略を示した概念図である。 第2の実施の形態に従う画像処理装置が実行する処理の一部を表わすフローチャートである。
 以下、図面を参照しつつ、本実施の形態について説明する。以下の説明では、同一の部品および構成要素には同一の符号を付してある。それらの名称および機能も同じである。したがって、これらについての詳細な説明は繰り返さない。なお、以下で説明される各実施の形態、および/または、各変形例は、選択的に組み合わされてもよい。
 <第1の実施の形態>
  [概要]
 図1~図4を参照して、第1の実施の形態に従う画像処理装置100の概要について説明する。図1は、画像処理装置100に接続されたカメラ110が被写体を撮影している様子を表している図である。図2は、カメラ110が様々な方向から人物を撮影して得られた入力画像を示した図である。図3は、関連技術に従う人物検出処理の概略を示した概念図である。図4は、画像処理装置100の人物検出処理の概略を示した概念図である。
 近年、人物を検出するための画像処理装置のニーズが多様化している。ニーズの多様化に対応するために、あらゆる場所に設置されたカメラから得られた画像において人物を検出することが求められている。カメラの設置場所に依らずに人物を検出するためには、入力画像内において様々な方向に写っている人物を検出しなければならない。本実施の形態に従う画像処理装置100は、入力画像に写っている人体方向に依らずに人物を検出することができる。
 図1には、画像処理装置100に接続されたカメラ110が、ある空間に存在する人物50を撮影している様子が示されている。入力画像60は、カメラ110が人物50を撮影することで得られたものである。カメラ110から得られた入力画像60は、輝度値からなる通常の2次元画像(以下では、「輝度画像」ともいう。)であってもよいし、カメラ110から被写体の各点までの各距離からなる3次元情報(以下では、「距離画像」ともいう。)であってもよい。また、カメラ110から得られる入力画像60は、静止画像であってもよいし、動画像であってもよい。
 カメラ110の配置位置によっては、入力画像に写っている人物は、様々な方向に写る。たとえば、図2の姿勢(A)に示されるように、ベッド上で寝ている人を対象とした場合、ベッドとカメラ110の位置関係によっては、人物50は、入力画像60の方向に対して横向きに写る。また、人物50が入力画像60内で一定の方向(たとえば、入力画像60に対して縦方向)に写った画像を得るために、カメラ110が人物50の足側に設置された場合について考える。この場合、人物50が寝ている状態は、人物50が立っている状態に比べて姿勢の自由度が高いため、図2の姿勢(B)および姿勢(C)に示されるように、人物50は、入力画像60内において必ずしも一定の方向(入力画像60に対して縦方向)に写るとは限らない。
 その他にも、近年、ボール型カメラのような自由視点のカメラが登場しており、このようなカメラを用いた場合には、視点が常に変動するため、画像内における人体方向も常に変動する。
 このように、人物50は、カメラの設置位置やカメラの種類によって、入力画像60内において様々な方向を向く。本実施の形態に従う画像処理装置100は、人の向きが画像内において様々な方向に向いていたとしても、人物領域を検出することができる。
  (関連技術に従う画像処理の概要)
 図3を参照して、本実施の形態に従う画像処理装置100の理解を深めるために、関連技術に従う人体検出処理について説明する。図3は、関連技術に従う人物検出処理の概略を示した概念図である。
 関連技術に従う画像処理技術は、人物探索ウィンドウ80を入力画像60内で走査させながら、かつ、人物探索ウィンドウ80を小刻みに回転させながら人物領域を探索する。関連技術に従う画像処理技術は、たとえば、探索ウィンドウ内から抽出した特徴量と、予め定められたテンプレート(特徴量)とが一致した場合に、当該探索ウィンドウの位置を人物領域として特定する。これにより、関連技術に従う画像処理技術は、画像内の人体方向に依らずに人物領域を検出することができる。しかしながら、当該画像処理技術は、探索ウィンドウを逐次回転させながら画像処理を行なわなければならず、計算時間が膨大にかかる可能性がある。
  (本実施の形態に従う画像処理の概要)
 本実施の形態に従う画像処理装置100は、人体方向が未知の画像であっても計算時間をかけずに人物領域を検出することができる。より具体的には、画像処理装置100は、図4に示されるように、画像処理装置100は、まず、入力画像60から頭部の位置72を検出する。次に、画像処理装置100は、検出した頭部の位置72の周辺領域である胴体探索ウィンドウ70から抽出した特徴量を用いて、入力画像60内における頭部とその他の部位との相対的な位置関係を特定する。頭部とその他の部位との相対的な位置関係とは、たとえば、入力画像60内における、頭部に対するその他部位の方向を示す人体方向を含む。人体方向は、たとえば、入力画像60内における、頭部に対する胴体の方向、頭部に対する足の方向を含む。
 その後、画像処理装置100は、頭部とその他の部位との相対的な位置関係に応じて、人物領域を探索する方向と、人物領域を探索する領域とのうちの少なくとも一方を設定し、入力画像60から人物領域を探索する。典型的には、画像処理装置100は、人物50の頭部の位置に応じて、または、特定した人体方向に応じて、人物探索ウィンドウ80を設定する。画像処理装置100は、設定した人物探索ウィンドウ80内から人物領域を探索し、入力画像60内から人物領域を検出する。
 このように、画像処理装置100は、人物領域を検出する前に、頭部の周辺領域の特徴量から人体方向を特定する。人体方向に応じて人物探索ウィンドウ80が設定されることにより、画像処理装置100は、人物探索ウィンドウを小刻みに回転させながら人物領域を検索する必要がなくなり、関連技術に従う人物検出処理に比べて、計算時間を大幅に短縮することが可能になる。
  [ハードウェア構成]
 図5は、画像処理装置100のハードウェア構成の一例を示すブロック図である。図5を参照して、画像処理装置100のハードウェア構成について説明する。
 図5を参照して、画像処理装置100は、主として、汎用的なアーキテクチャーを有するコンピュータ上に実装される。画像処理装置100は、主たるコンポーネントとして、ROM(Read Only Memory)1と、CPU(Central Processing Unit)2と、RAM(Random Access Memory)3と、カメラインターフェイス(I/F)4と、メモリーカードインターフェイス(I/F)5と、ネットワークインターフェイス(I/F)6と、記憶装置20とを含む。
 ROM1は、画像処理装置100において起動時に実行される初期プログラム(ブートプログラム)などを格納する。CPU2は、ROM1や記憶装置20などに格納された、オペレーティングシステム(OS:Operating System)や画像処理プログラム24などの各種プログラムを実行することで、画像処理装置100の全体を制御する。RAM3は、CPU2でプログラムを実行するためのワーキングメモリとして機能し、プログラムの実行に必要な各種データを一次的に格納する。
 カメラI/F4は、CPU2とカメラ110とのデータ通信を仲介する。たとえば、カメラI/F4は、画像バッファを含み、カメラ110から伝送される距離画像を一旦蓄積する。カメラI/F4は、少なくとも1枚分の入力画像のデータが蓄積されると、その蓄積されたデータを記憶装置20またはROM1へ転送する。また、カメラI/F4は、CPU2が発生した内部コマンドに従って、カメラ110に対して撮像指令を与える。カメラ110、たとえば、ステレオカメラ、被写体の3次元上の位置情報を検出する距離画像センサ、その他の被写体の3次元上の位置を取得することができるカメラを含む。なお、カメラ110は、画像処理装置100に組み込まれてもよく、この場合には、カメラI/F4は、必須の構成ではない。
 メモリーカードI/F5は、SD(Secure Digital)カードやCF(Compact Flash(登録商標))カードなどの各種メモリーカード(不揮発性記憶媒体)5Aとの間で、データの読み書きを行なう。典型的には、メモリーカードI/F5には、他の装置で取得した距離画像を格納したメモリーカード5Aが装着され、そのメモリーカード5Aから読み出された距離画像が記憶装置20へ格納される。
 ネットワークI/F6は、アンテナ6Aなどの各種の通信媒体を介して、他の装置(サーバ装置など)とデータをやり取りする。より具体的には、ネットワークI/F6は、イーサネット(登録商標)などの有線回線(LAN(Local Area Network)やWAN(Wide Area Network)など)、および/または、無線LANなどの無線回線を介してデータ通信を行なう。
 記憶装置20は、典型的には、ハードディスクなどの大容量磁気記憶媒体などを含む。記憶装置20は、本実施の形態に従う各種を実現するための画像処理プログラム24を格納する。さらに、記憶装置20には、オペレーティングシステムなどのプログラムが格納されてもよい。
 カメラ110は、外付けではなく、画像処理装置100の内部に組み込まれて、画像処理装置100本体が被写体を撮像する機能を有していてもよい。また、画像処理装置100は、カメラに類似した機構を用いて距離画像を取得し、取得した距離画像を任意の方法で画像処理装置100へ入力するように構成されてもよい。この場合、距離画像は、メモリーカードI/F5またはネットワークI/F6を介して画像処理装置100に入力される。
 記憶装置20に格納される画像処理プログラム24は、CD-ROM(Compact Disk-Read Only Memory)などの記憶媒体に格納されて流通し、あるいは、ネットワークを介してサーバ装置などから配信される。画像処理プログラム24は、画像処理装置100で実行されるオペレーティングシステムの一部として提供されるプログラムモジュールのうち必要なモジュールを、所定のタイミングおよび順序で呼出して処理を実現するようにしてもよい。この場合、画像処理プログラム24自体には、オペレーティングシステムによって提供されるモジュールは含まれず、オペレーティングシステムと協働して画像処理が実現される。
 また、画像処理プログラム24は、単体のプログラムではなく、任意のプログラムの一部に組み込まれて提供されてもよい。このような場合にも、画像処理プログラム24自体には、任意のプログラムにおいて共通に利用されるようなモジュールは含まれず、任意のプログラムと協働して画像処理が実現される。このような一部のモジュールを含まない画像処理プログラム24であっても、本実施の形態に従う画像処理装置100の趣旨を逸脱するものではない。さらに、画像処理プログラム24によって提供される機能の一部または全部は、専用のハードウェアによって実現されてもよい。
 さらに、画像処理装置100は、必ずしも、リアルタイムに処理を行なわなくてもよい。たとえば、少なくとも1つのサーバ装置が本実施の形態に従う処理を実現する、いわゆるクラウドサービスのような形態で画像処理装置100が構成されてもよい。この場合、距離画像がサーバ装置(クラウド側)へ送信され、サーバ装置は、受信した距離画像に対して、本実施の形態に従う画像処理を行なう。さらに、サーバ装置側がすべての機能(処理)を行なう必要はなく、ユーザ側の端末とサーバ装置とが協働して、本実施の形態に従う画像処理を実現するようにしてもよい。
  [機能構成]
 図6を参照して、第1の実施の形態に従う画像処理装置100の機能構成について説明する。図6は、画像処理装置100の機能構成の一例を示すブロック図である。画像処理装置100は、頭部検出部210と、特定部220と、人検出部230とを備える。
 人の頭部は、人の体の部位の中でも非常に特徴的であるため、画像処理装置100は、頭部の位置を、人物領域の検出時の起点として用いることができる。頭部検出部210は、入力画像60内において、人物の頭部の位置を検出する。当該頭部の位置は、たとえば、入力画像60内の座標情報として検出される。頭部検出部210は、検出した頭部位置を特定部220に出力する。
 頭部検出の具体的な手法としては、たとえば、顔データベースによるテンプレートマッチングや、Haar-Like特徴のように、目、鼻などの顔のパーツに着目した手法が挙げられる。これらの手法を用いた場合は、頭部検出部210は、顔のパーツの位置などから顔の向きを特定できるため、自動的に人体方向も特定し得る。しかしながら、顔の向きを特定するためには、画像処理装置100は、顔をほぼ正面から撮影する必要がある。顔を正面から撮影できない場合には、目、鼻などの特徴的な顔のパーツが入力画像60に写らないため、頭部検出部210は、顔の向きを特定できない可能性がある。また、頭部検出部210は、顔のパーツ間の位置関係を合わせるために、顔検出用のテンプレートを小刻みに回転させながら頭部の探索を行なう必要があり、この場合には、計算時間がかかる可能性がある。
 このため、好ましくは、頭部検出部210は、被写体を撮影して得られた距離画像(3次元情報)を入力画像60として用い、当該距離画像の距離の分布状況から頭部検出を行なう。すなわち、頭部検出部210は、顔の外形を示す球形状を距離画像内で検出する。頭部は球形状に類似するため、回転させても外形は大きく変化しない。このため、頭部検出部210は、球形状を検出することで、頭部検出用のテンプレートを回転させること無く頭部位置を検出することができる。したがって、頭部検出部210は、高速かつ安定的な頭部検出処理を実現できる。
 なお、頭部検出部210が実行する処理は、上記に限定されるわけではなく、入力画像60から頭部の位置を検出することが可能な処理であればいずれであってもよい。たとえば、頭部検出部210は、球形状ではなく、頭部形状のモデルを用いて頭部検出を行なってもよい。また、頭部検出部210は、カメラから頭部までの距離情報を用いてもよい。頭部検出部210は、頭部形状のモデル、または、頭部までの距離情報を用いて頭部を検出することで、入力画像60上における頭部のサイズを正確に検出することが可能になる。さらに、頭部検出部210は、輝度画像内に写っている顔の外形エッジを検出して入力画像60内から頭部の位置を検出してもよい。この場合は、頭部検出部210は、顔の外形を示す円形状を入力画像60内で検出する。
 特定部220は、頭部検出部210により検出された頭部の位置の周辺画像領域から抽出した特徴量を用いて、入力画像60内における、頭部とその他の部位との相対的な位置関係を特定する。典型的には、特定部220は、当該位置関係として、頭部に対する胴体の方向を示す人体方向を特定する。特定部220は、特定した人体方向を人検出部230に出力する。特定部220の人体方向を特定する方法の詳細については後述する。
 人検出部230は、頭部検出部210による頭部検出結果、および特定部220によって特定された人体方向を用いて、入力画像60から人物領域の検出を行なう。たとえば、人検出部230は、処理時間を短縮するために、特定部220により特定された人体方向に応じて、探索する方向および領域の少なくとも一方を限定して人物領域を検出する。検出された人物領域は、たとえば、入力画像60内の座標情報として示される。
 より具体的な処理手順としては、人検出部230は、人物領域の探索に用いるテンプレート、および、入力画像60のいずれか一方を特定した人体方向に応じて回転するとともにマッチング処理を行なうことで入力画像60内の人物領域を検出する。当該テンプレートには、人の立ち姿勢を写した画像から抽出された、エッジ情報、HOG(Histogram of Oriented Gradient)、またはその他の特徴量が含まれる。典型的には、人検出部230は、当該テンプレートを、頭部位置を基準として、特定した人体方向に沿った方向に回転させて人物検出処理を実行する。
 また、人検出部230は、入力画像60内における走査方向を人体方向から特定できるため、既存の人検出処理を殆どそのまま適用することができる。すなわち、人検出部230は、既存の人検出処理を適用したとしても、テンプレートまたは入力画像60などを都度回転させる必要が無く、計算量の増大を防ぐことができる。また、人検出部230は、距離画像における凸形状を追尾して人物を検出することで人物領域を検出してもよい。
 [特定部220の詳細]
  (特定部220の概要)
 以下、図7~図11を参照して、特定部220の具体的な処理について説明する。特定部220は、頭部検出部210の検出結果を用いて入力画像60から人体方向を判定する。人の頭部と胴体とは首で繋がっており、頭部と胴体との位置関係は、首を傾けることで多少変化するものの、頭部の周囲に胴体が存在するという位置関係は不変である。
 特定部220では、頭部と胴体との人体部位間の連続性を用いて人体方向を特定する。すなわち、特定部220は、頭部の周辺画像領域において抽出した特徴量から人物の胴体を示す特徴量を探索し、頭部に対する胴体の方向を人体方向として特定する。特定部220による人体方向の特定処理については、様々な方法が考えられる。以下では、頭部検出部210による人体方向の特定処理の具体例について順に説明する。
 なお、以下の具体例では、人物が寝ている姿勢をとっている場合の人体方向の特定方法について説明を行なうが、立っている姿勢を取っている場合、その他の姿勢を取っている場合であっても、特定部220は、人体の方向を特定することができる。
  (特定部220の処理の具体例1)
 図7~図9を参照して、特定部220の処理の一例について説明する。図7は、人物を撮影して得られた入力画像から人体方向を特定する処理についての概略を示した概念図である。図8は、頭部周辺において探索する領域を視覚的に示した図である。図9は、距離情報を用いて人体方向を特定する処理についての概略を示した概念図である。なお、図9においては、説明を簡単にするために、被写体の位置が、位置(x軸)および距離(z軸)の二次元で示されているが、実際には、特定部220は、x軸と、z軸と、x軸およびz軸に直交するy軸(図示しない)とで示される三次元の情報として被写体の位置を得ることができる。
 人の胴体は、円筒形状に類似するため、頭部周辺領域に円筒形状が存在するということは、人の胴体の位置を特定するための有力な手掛かりになり得る。特定部220は、胴体位置または方向を検出できると、頭部位置と胴体位置との相対的な位置関係から、入力画像60内における人体方向を特定することができる。ここで、カメラの視野には、人物の胴体表面の半分しか含まれないため、たとえば、図7に示されるように、寝ている人の距離計測結果は、人体表面に沿って半筒形状または凸形状に分布する。このため、特定部220は、人の胴体を半筒形状または凸形状とみなす。すなわち、特定部220は、頭部に隣接する領域において、半筒形状または凸形状を探索することで、人体方向を特定することができる。なお、以下で、「半筒形状」という用語を用いた場合には、「凸形状」という概念も含み得る。また、「凸形状」という用語を用いが場合には、「半筒形状」という概念も含み得る。
 また、特定部220は、頭部検出部210によって検出された入力画像60内の頭部の位置を基準にして胴体を探索する領域(すなわち、胴体探索ウィンドウ70)を決定する。特定部220は、たとえば、図8に示されるように、人物50の頭部の周辺領域74内で人の半筒形状を探索する。図8に示される例おいては、頭部の紙面下側において胴体が検出される。特定部220は、頭部に対する胴体の方向を人体方向として特定する。あるいは、特定部220は、半筒形状の軸方向を人体方向として特定する。
 距離画像から凸形状を探索する際には、図9に示されるように、特定部220は、ベッド平面に対する距離情報を用いる。人の身体は、ベッド面においては、半筒形の凸形状の距離分布を有すると考えられる。このため、特定部220は、頭部周辺において、凸形状の距離分布を持つ領域を探索することで、胴体の方向を特定できる。
  (特定部220の処理の具体例2)
 図10を参照して、特定部220の処理の具体例について説明する。図10は、距離画像から算出した被写体表面に対する法線情報を用いて人体方向を特定する処理についての概略を示した図である。なお、図10においては、説明を簡単にするために、被写体の位置が、位置(x軸)および距離(z軸)の二次元で示されているが、実際には、特定部220は、位置(x軸、y軸)および距離(z軸)の三次元の情報として被写体の位置を得ることができる。
 その他の人体方向の特定方法としては、被写体表面の法線情報を用いる方法が考えられる。上述したように、人の胴体は凸形状を有することから、胴体表面の法線は、図10に示されるように、扇形に分布すると考えられる。つまり、特定部220は、頭部周辺の画像領域から扇形の法線分布を探索することで、胴体の方向を特定できる。
 より具体的な処理手順としては、特定部220は、頭部の周辺画像領域から、被写体の表面に対する法線ベクトルの分布を抽出する。特定部220は、抽出した法線ベクトルの分布において、人の胴体の表面に対する法線ベクトルの分布を存在する方向から人体方向を特定する。ここでいう「人の胴体の表面に対する法線ベクトルの分布」は、たとえば、半筒形表面に対する法線ベクトルの分布、予め学習して得られた人の胴体形状に対する法線ベクトルの分布、およびその他の胴体を示す法線ベクトル分布を含む。
 典型的には、特定部220は、頭部周辺の画像領域から、人の胴体の表面に対する法線ベクトルの分布が存在する領域を人の胴体領域として検出し、頭部位置に対する胴体領域の方向を人体方向として特定する。なお、特定部220は、頭部位置を用いずに、検出した胴体領域における法線ベクトルの分布から人体方向または胴体方向を特定してもよい。
 このように、特定部220は、距離画像から算出した法線情報を用いることで、距離情報をそのまま用いる場合に比べて、布団などによる距離変化の影響を低減することができる。すなわち、特定部220は、ノイズの影響を低減することができ、安定的な検出を実現することが可能になる。また、特定部220が法線情報を用いることで、人の立体形状を用いた高精度な判定が可能になる。
  (特定部220の処理の具体例3)
 特定部220の処理のさらに他の例としては、距離差情報を用いる方法が挙げられる。たとえば、頭部と胴体とのベッド平面からの距離が同じである点に着目して、特定部220は、頭部周辺においてベッド平面からの距離を算出し、当該距離が、所定の値よりも小さい領域を多く含む方向を胴体方向と判定する。当該所定の値は、たとえば、人体および布団の厚みから決定されてもよい。あるいは、当該所定の値は、人体および布団の厚みの値をそのまま用いてもよい。
 より具体的には、特定部220は、被写体の表面上の各点までの距離からなる距離画像を用いてベッド平面に対する相対距離を算出する。すなわち、特定部220は、頭部周辺における被写体の各点からベッド平面までの距離を算出する。これにより、特定部220は、頭部周辺における被写体の各点からベッド平面までの相対距離を特徴量として抽出する。特定部220は、抽出した特徴量を用いて、所定値よりも小さい相対距離を有する画素を一定数以上有する領域の方向から人体方向を特定する。典型的には、特定部220は、所定値よりも小さい値を有する画素を一定数以上有する領域を人の胴体領域として検出し、頭部位置に対する胴体領域の方向を人体方向として特定する。なお、特定部220は、頭部位置を用いずに、検出した胴体領域の形状から人体方向または胴体方向を特定してもよい。
 このように、特定部220は、ベッド平面からの相対距離を用いることで、背景領域などの人物領域とは関係のない領域を効率的に除外でき、人体方向を高精度に特定することが可能になる。
 なお、上記では、特定部220は、ベッド平面からの相対距離を用いて人体方向を特定したが、頭部の周辺画像領域において、頭部からの相対距離を用いて人体方向を特定してもよい。より具体的には、特定部220は、被写体の表面上の各点までの距離からなる距離画像を用いて頭部に対する相対距離を算出する。すなわち、特定部220は、頭部周辺における被写体の各点における距離から頭部位置における距離を差分する。これにより、特定部220は、頭部周辺における被写体の頭部に対する相対距離を特徴量として抽出する。特定部220は、抽出した特徴量を用いて、所定値よりも小さい相対距離を有する画素を一定数以上有する領域の方向から人体方向として特定する。典型的には、特定部220は、所定値よりも小さい値を有する画素を一定数以上有する領域を人の胴体領域として検出し、頭部位置に対する胴体領域の方向を人体方向として特定する。なお、特定部220は、頭部位置を用いずに、検出した胴体領域の形状から人体方向または胴体方向を特定してもよい。
  (特定部220の処理の具体例4)
 特定部220の処理のさらに他の例として、入力画像60(距離画像)から背景距離画像を差分した背景差分情報を用いる方法が挙げられる。人物は、背景とは非連続であることに着目して、特定部220は、頭部周辺の画像領域と、背景距離画像との距離差が、所定の値よりも大きい領域を多く含む方向を胴体方向と判定する。
 より具体的には、特定部220は、人物が含まれないときの背景を撮影して得られた背景距離画像を、あるタイミングで取得された距離画像から差分して得られる、背景からの距離差を特徴量として抽出する。そして、特定部220は、頭部の周辺画像領域において、所定値よりも大きい距離差を有する領域の方向を人体方向として特定する。典型的には、特定部220は、所定値よりも大きい距離差を有する画素を一定数以上有する領域を人の胴体領域として検出し、入力画像60内の頭部位置に対する胴体領域の方向を人体方向として特定する。なお、特定部220は、頭部位置を用いずに、検出した胴体領域の形状から人体方向または胴体方向を特定してもよい。
 背景距離画像としては、たとえば、カメラの視野に人物が含まれない場合に予め撮影して得られた画像が用いられる。あるいは、背景距離画像として、頭部検出部210が入力画像60内で頭部を検出していないタイミングで撮影して得られた画像が用いられてもよい。このように、特定部220は、背景差分して得られた距離画像を用いることで、背景領域などの人物領域とは関係のない領域を効率的に除外でき、人体方向を高精度に特定することが可能になる。
  (特定部220の処理の具体例5)
 図11を参照して、特定部220の処理のさらに他の具体例について説明する。図11は、入力画像60から取得したエッジ情報を用いて人体方向を特定する処理についての概略を示した概念図である。
 人体方向を特定するための方法として、他にも、入力画像60(距離画像)から取得したエッジ情報を用いる方法が考えられる。人の胴体を円筒形と考えた場合、カメラ110から被写体までの距離は、人の胴体の両脇で急激に変化する。すなわち、2本の平行な長い距離エッジが胴体の両脇に生じると考えられる。このため、図11に示されるように、特定部220は、頭部に隣接する画像領域において、2本の平行な長い距離エッジを探索することで、胴体の方向を求めることができる。すなわち、特定部220は、頭部の周辺画像領域において抽出したエッジ情報において、2本の平行するエッジが存在する方向から人体方向を特定する。
 より具体的には、特定部220は、入力画像60(距離画像)からエッジ抽出を行なう。エッジ抽出は、たとえば、距離画像を微分して画素値の勾配を求めることで実現される。典型的には、特定部220は、微分フィルタ、プリューウィットフィルタ、ソーベルフィルタ、ラプラシアンフィルタ、LOGフィルタ、その他のエッジを抽出することが可能なフィルタなどを距離画像に畳み込むことでエッジ抽出を行なう。
 2本の平行なエッジの検出方法としては、たとえば、特定部220は、頭部周辺の画像領域のエッジ情報を特徴量として抽出し、抽出したエッジ情報を用いて、頭部周辺の画像領域に存在する直線の検出を行なう。特定部220は、平行している、若しくわ、類似する方向に向いている2本の直線を検出した場合には、当該2本の直線の間の領域を人の胴体領域として特定する。
 このように、特定部220は、エッジ情報を用いることで、距離変化や輝度変化が無い人物領域とは関係のない領域を効率的に除外でき、人体方向を高精度に特定することが可能になる。また、エッジ情報は、低解像度の画像からでも得られるため、特定部220は、画像が低解像度であったとしても、人体方向を特定することが可能になる。
 また、人は、寝ている時には布団や毛布を被るため、通常の画像では人体の方向を特定しにくい。このようなに人が布団を被っていたとしても、胴体表面が凸形状を有するという点は不変であるため、距離画像を用いた手法は有効である。
  (特定部220の処理の具体例6)
 特定部220の処理のさらに他の例として、輝度値からなる画像(すなわち、輝度画像)を用いた方法が挙げられる。特定部220は、距離画像を用いた場合とは異なり、輝度画像を入力画像60として用いた場合には、立体形状を得ることができないために凸形状を探索することは難しい。しかしながら、特定部220は、身体らしい特徴を輝度画像から探索することで、人体方向を特定することができる。
 より具体的には、特定部220は、輝度画像から抽出した輝度エッジを用いる方法が考えられる。胴体を円筒形と考えた場合、カメラからの距離は、胴体の両脇で急激に変化する。胴体の両脇で距離が変化するということは、その両脇で輝度が変化する可能性も高い。すなわち、輝度画像であっても、胴体の両脇で2本の平行なエッジを観測することができる。特定部220は、頭部の周辺画像領域において抽出したエッジ情報において、2本の平行するエッジが存在する方向から人体方向を特定する。
 また、人が布団を被っていた場合であっても、胴体の両脇においてある程度は、輝度変化が発生する。このため、たとえ、人が布団を被っていた場合などであっても、距離画像と同様に2本の平行なエッジが見られる。
  (特定部220の処理の具体例7)
 特定部220の処理のさらに他の例として、輝度差分情報を用いた方法が挙げられる。特定部220は、ベッドなどを写した背景画像が予め得られる場合には、背景とは異なる部分を検出することで人物領域を特定することができる。すなわち、特定部220は、頭部周辺において背景との輝度差が所定の値よりも大きい領域を多く含む方向を胴体方向と判定する。
 より具体的には、特定部220は、人物が含まれないときの背景を撮影して得られた輝度画像を、あるタイミングで取得された輝度画像から差分した背景からの輝度差を特徴量として抽出する。そして、特定部220は、頭部の周辺画像領域において、所定値よりも大きい輝度差を有する領域の方向から人体方向を特定する。典型的には、特定部220は、所定値よりも大きい輝度差を有する画素を一定数以上有する領域を人の胴体領域として検出し、頭部位置に対する胴体領域の方向を人体方向として特定する。なお、特定部220は、検出した胴体領域の形状から人体方向または胴体方向を特定してもよい。
  (特定部220の処理の具体例8)
 他にも、特定部220は、頭部の周辺領域を探索する際に、人体の形状モデルやベッドの配置などの事前知識を活用してもよい。ベッドの配置が既知の場合、頭は枕の側に通常存在し、長辺方向の何処かに胴体があると思われるため、探索範囲をその分限定することができる。
  (特定部220の処理の具体例9)
 他にも、特定部220は、上記の処理の具体例1~8に記載の複数の処理を組み合わせて、これらの複数の処理結果を統合して、入力画像60内において人体方向を特定してもよい。たとえば、特定部220は、頭部周辺の画像領域に、半筒形状を探索するとともに、2本の平行なエッジを探索することで人体方向を特定する。このように、特定部220は、複数の処理を組み合わせることで、より正確に人体方向を特定することが可能になる。
  [フローチャート]
 図12を参照して、画像処理装置100の制御構造について説明する。図12は、画像処理装置100が実行する処理の一部を表わすフローチャートである。図12の処理は、CPU2がプログラムを実行することにより実現される。他の局面において、処理の一部又は全部が、回路素子その他のハードウェアによって実行されてもよい。
 ステップS510において、CPU2は、入力画像を取得する。典型的には、CPU2は、距離画像または輝度画像を入力画像として取得する。ステップS512において、CPU2は、頭部検出部210として、取得した入力画像内において、人物の頭部の位置を検出する。ステップS520において、CPU2は、頭部検出部210として、入力画像内において人の頭部を検出したか否かを判断する。CPU2は、頭部を検出したと判断した場合には(ステップS520においてYES)、制御をステップS522に切り替える。そうでない場合には(ステップS520においてNO)、CPU2は、制御をステップS510に戻す。
 ステップS522において、CPU2は、特定部220として、検出した頭部の位置の周辺画像領域から抽出した特徴量を用いて、入力画像内における人体方向を特定する。ステップS524において、CPU2は、人検出部230として、特定した人体方向に応じて、探索する方向および領域の少なくとも一方を限定して入力画像内を探索し、人物領域を検出する。
 ステップS530において、CPU2は、本実施の形態に従う画像処理を終了するか否かを判断する。CPU2は、たとえば、当該画像処理を終了するユーザ操作を受けた場合に、当該画像処理を終了する。CPU2は、本実施の形態に従う画像処理を終了すると判断した場合には(ステップS530においてYES)、当該画像処理を終了する。そうでない場合には(ステップS530においてNO)、CPU2は、ステップS510からステップS530までの処理を再度順に実行する。
 [利点]
 以上のようにして、本実施の形態に従う画像処理装置100は、入力画像内における人体方向を特定し、人体方向に応じて人物領域を検出することができるので、カメラと人物との位置関係に依らずに人物を検出することができるようになる。また、画像処理装置100は、比較的計算量が少ない処理で入力画像内における人物の方向を特定できる。これにより、画像処理装置100は、人物探索ウィンドウを逐次回転させながら人物領域を探索する必要がなくなるため、計算時間を大幅に短縮することが可能になる。
 <第2の実施の形態>
 [概要]
 以下、第2の実施の形態に従う画像処理装置100Aの概要について説明する。本実施の形態に従う画像処理装置100Aは、入力画像内における胴体領域および人物領域の探索範囲を適宜変更する点で第1の実施の形態に従う画像処理装置100と異なる。なお、ハードウェア構成については第1の実施の形態に従う画像処理装置100と同じであるので説明を繰り返さない。
 人体の各部位のサイズは、頭部のサイズとある程度相関している。このため、頭部に対する人体部位(特に、胴体部)のサイズまたは比率は、頭部のサイズからある程度定められ得る。この点に着目して、画像処理装置100Aは、特定した頭部のサイズと頭部の位置とのうち少なくとも一方に応じて、人体方向を探索するための胴体探索ウィンドウ70(図4参照)のサイズを適宜変更する。これにより、画像処理装置100Aは、人物が写っていない領域を除外して、人体方向を特定することができる。すなわち、画像処理装置100Aは、人体方向の特定にかかる処理時間を大幅に短縮することができ、さらには、人体方向の誤検出を減らすことができる。
 また、画像処理装置100Aは、人体方向だけでなく、頭部のサイズ、頭部の位置、胴体部の位置のうち少なくとも1つの情報を用いて、人物領域を検出するための人物探索ウィンドウ80(図4参照)のサイズを適宜変更する。これにより、画像処理装置100Aは、人物が写っていない領域を除外して、人物領域を探索することができる。すなわち、画像処理装置100Aは、人物領域の検出にかかる処理時間を大幅に短縮することができ、さらには、人物領域の誤検出を減らすことができる。
 [機能構成]
 図13を参照して、第2の実施の形態に従う画像処理装置100Aの機能構成について説明する。図13は、画像処理装置100Aの機能構成の一例を示すブロック図である。画像処理装置100Aは、頭部検出部210と、特定部220と、人検出部230とを備える。特定部220は、胴体探索ウィンドウ70を入力画像60内に設定するための領域設定部222を含む。人検出部230は、人物探索ウィンドウ80を入力画像60内に設定するための領域設定部232を含む。
 頭部検出部210は、入力画像60内における頭部位置を上述した方法で検出するとともに、入力画像60内における頭部のサイズを検出する。頭部検出部210は、頭部位置の検出に付随して頭部のサイズを得ることができる。たとえば、頭部検出部210は、テンプレートマッチング処理などの頭部検出処理におけるテンプレートの拡大率、またはテンプレートのサイズなどから頭部のサイズを検出する。入力画像60内における頭部のサイズは、たとえば、頭部領域に含まれる画素数、頭部直径などで示される。
 領域設定部222は、頭部検出部210から得た頭部のサイズに応じて、特徴量を抽出する頭部の周辺画像領域(すなわち、胴体探索ウィンドウ70)のサイズを決定する。領域設定部222の処理の詳細については後述する。特定部220は、領域設定部222により入力画像60内に設定された胴体探索ウィンドウ70内を探索して人体方向を特定する。
 領域設定部232は、入力画像60内の胴体の位置、および、入力画像60内の頭部の位置の少なくとも一方に応じて、人物領域を探索する領域を限定して人物領域を検出する。典型的には、頭部検出部210から得た頭部位置、および胴体位置を含むように人物探索ウィンドウ80を入力画像60内において設定する。領域設定部232の処理の詳細については後述する。人検出部230は、領域設定部232により入力画像60内に設定された人物探索ウィンドウ80内を探索して人体領域を検出する。
  (領域設定部222の処理の詳細)
 図14および図15を参照して、領域設定部222による胴体領域の探索範囲の限定方法の詳細について説明する。図14は、頭部の位置に応じて胴体探索ウィンドウ70の形状を決定する処理の概略を示した概念図である。図15は、頭部のサイズに応じて胴体探索ウィンドウ70のサイズを決定する処理の概略を示した概念図である。
 図14の姿勢(A)に示されるように、人体の各部位のサイズは、頭部のサイズとある程度相関している。このため、画像処理装置100Aは、頭部に対する人体部位(たとえば、胴体部)のサイズまたは比率は、頭部のサイズからある程度推定できる。これに着目して、領域設定部222は、頭部に連なる領域に適した形状の胴体探索ウィンドウ70を設定する。より具体的には、領域設定部222は、頭部サイズに応じて、胴体探索ウィンドウ70の位置およびサイズの少なくとも一方を決定する。たとえば、図14の姿勢(B)に示されるように、領域設定部222は、頭部周辺において、一端に頭部位置を含むように胴体探索ウィンドウ70A~70Hを設定する。
 また、領域設定部222は、頭部周辺の探索においては人体の形状モデルを用いることで、探索範囲やウィンドウサイズを限定してもよい。さらに、領域設定部222は、胴体部と判断する凸形状の大きさや凸形状の半径を、頭部のサイズに応じて限定してもよい。モデルのような事前知識を用いて、探索範囲、胴体探索ウィンドウサイズ、認識する凸形状の条件などを限定することで、人の胴体のサイズに合わせたウィンドウの設定や人体ではない凸形状の影響を排除することが可能となる。
 また、領域設定部222は、図15に示されるように、頭部のサイズに応じて胴体探索ウィンドウ70のサイズを変えるように構成されてもよい。上述のように、頭部のサイズに対する人の他の部位のサイズや比率などを、頭部サイズから事前に推定することができる。このため、領域設定部222は、頭部のサイズから胴体探索範囲や胴体部探索ウィンドウサイズといったパラメータを変更して探索を行なうこともできる。画像処理装置100Aは、頭部のサイズに合わせてパラメータを最適化することができるため、たとえば、倍率の変動や体格差などによる胴体探索ウィンドウ70のサイズの変化にも対応することが可能になる。
 典型的には、図15の姿勢(A)に示されるように、胴体探索ウィンドウ70のサイズは、入力画像60内の頭部サイズが大きくなればなるほど大きくなるように領域設定部222により設定される。または、図15の姿勢(B)に示されるように、胴体探索ウィンドウ70の領域のサイズは、入力画像60内の頭部サイズが小さくなればなるほど小さくなるように領域設定部222により設定される。
 なお、上記では胴体探索ウィンドウ70のサイズを変える例について説明を行なったが、領域設定部222は、胴体探索ウィンドウ70のサイズを一定にしたまま入力画像60自体のサイズを拡大または縮小するように構成されてもよい。
  (領域設定部232の処理の詳細)
 図16を参照して、領域設定部232による人物領域の探索範囲の限定方法について説明する。図16は、人体方向だけでなく、入力画像内の頭部のサイズ、頭部の位置、胴体部の位置のうち少なくとも1つに応じて人物探索ウィンドウ80を設定する処理の概略を示した概念図である。
 図16に示されるように、領域設定部232は、特定部220により特定された人体方向に応じて人物領域を設定する。典型的には、領域設定部232は、当該人体方向に沿って人物探索ウィンドウ80の方向を決定する。
 また、領域設定部232は、人物探索ウィンドウ80の位置を、入力画像60内の頭部位置および胴体位置に応じて決定する。典型的には、領域設定部232は、人物探索ウィンドウ80の位置を、入力画像60内の頭部位置および胴体位置を含むように人物探索ウィンドウ80を設定する。
 なお、領域設定部232は、入力画像60内の頭部サイズに応じて、人物探索ウィンドウ80のサイズを決定してもよい。典型的には、図16の姿勢(A)に示されるように、人物探索ウィンドウ80のサイズは、入力画像60内の頭部サイズが大きくなればなるほど大きくなるように領域設定部232により設定される。または、図16の姿勢(B)に示されるように、人物探索ウィンドウ80の領域のサイズは、入力画像60内の頭部サイズが小さくなればなるほど小さくなるように領域設定部232により設定される。
 このように、領域設定部232は、人体方向だけでなく、頭部の位置、胴体の位置、頭部のサイズに応じて人物探索ウィンドウ80を設定するため、人物とは関係のない画像領域を検索対象領域から除外することができる。これにより、処理時間を大幅に短縮することができ、さらには、人物領域の誤検出を減らすことが可能になる。
 なお、上記では人物探索ウィンドウ80のサイズを変える例について説明を行なったが、領域設定部232は、人物探索ウィンドウ80のサイズを一定にしたまま入力画像60自体のサイズを拡大または縮小するように構成されてもよい。
 [フローチャート]
 図17を参照して、画像処理装置100Aの制御構造について説明する。図17は、画像処理装置100Aが実行する処理の一部を表わすフローチャートである。図17の処理は、CPU2がプログラムを実行することにより実現される。他の局面において、処理の一部又は全部が、回路素子その他のハードウェアによって実行されてもよい。
 ステップS510において、CPU2は、入力画像を取得する。典型的には、CPU2は、距離画像または輝度画像を入力画像として取得する。ステップS512において、CPU2は、頭部検出部210として、取得した入力画像内において、人物の頭部の位置を検出する。ステップS520において、CPU2は、頭部検出部210として、入力画像内において人の頭部を検出したか否かを判断する。CPU2は、頭部を検出したと判断した場合には(ステップS520においてYES)、制御をステップS610に切り替える。そうでない場合には(ステップS520においてNO)、CPU2は、制御をステップS510に戻す。
 ステップS610において、CPU2は、領域設定部222として、得られた頭部のサイズに応じて、人の胴体を検出するために用いられる特徴量を抽出する対象となる、頭部の周辺の画像領域(すなわち、胴体探索ウィンドウ70)のサイズと、胴体探索ウィンドウ70の位置を決定する。ステップS522において、CPU2は、特定部220として、設定された胴体探索ウィンドウ70内を走査し、当該胴体探索ウィンドウ70内から抽出した特徴量を用いて人体方向を特定する。
 ステップS612において、CPU2は、領域設定部232として、特定された人体方向に応じて人物探索ウィンドウ80の方向を決定するとともに、入力画像60内の頭部のサイズ、頭部の位置、胴体部の位置のうち少なくとも1つに応じて人物探索ウィンドウ80の位置を決定する。
 ステップS612において、CPU2は、領域設定部232として、特定された人体方向と、頭部のサイズと、頭部の位置と、胴体部の位置とのうち少なくとも1つに応じて人物領域を検出するために用いられる画像領域(すなわち、人物探索ウィンドウ80)のサイズと位置とを決定する。ステップS524において、CPU2は、人検出部230として、設定された人物探索ウィンドウ80内を走査し、当該人物探索ウィンドウ80内から抽出した特徴量を用いて人物領域を検出する。
 ステップS530において、CPU2は、本実施の形態に従う画像処理を終了するか否かを判断する。CPU2は、たとえば、当該画像処理を終了するユーザ操作を受けた場合に、当該画像処理を終了する。CPU2は、本実施の形態に従う画像処理を終了すると判断した場合には(ステップS530においてYES)、当該画像処理を終了する。そうでない場合には(ステップS530においてNO)、CPU2は、ステップS510からステップS530までの処理を再度順に実行する。
 [利点]
 以上のようにして、本実施の形態に従う画像処理装置100Aは、胴体探索ウィンドウのサイズおよび位置を、入力画像内の頭部の位置およびサイズに適応して変更する。これにより、入力画像内における人物とは関係の無い領域を除外することができ、胴体を検出するための計算時間を大幅に短縮することが可能になる。同時に、入力画像内における人物とは関係の内領域を除外することで胴体の誤検出も減らすことができる。
 また、画像処理装置100Aは、人物探索ウィンドウの方向を特定した人体方向に応じて決定するとともに、人物探索ウィンドウのサイズおよび位置を、入力画像内の頭部の位置およびサイズに適応して変更する。これにより、入力画像内における人物とは関係の無い領域を除外することができ、人物領域を検出するための計算時間を大幅に短縮することが可能になる。同時に、入力画像内における人物とは関係の内領域を除外することで人物領域の誤検出も減らすことができる。
 今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した説明ではなく、請求の範囲によって示され、請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
 1 ROM、2 CPU、3 RAM、4 カメラI/F、5 メモリーカードI/F、5A メモリーカード、6 ネットワークI/F、6A アンテナ、20 記憶装置、24 画像処理プログラム、50 人物、60 入力画像、70 胴体探索ウィンドウ、72 位置、80,80A~80H 人物探索ウィンドウ、100,100A 画像処理装置、110 カメラ、210 頭部検出部、220 特定部、222,232 領域設定部、230 人検出部。

Claims (11)

  1.  入力画像内において、人物の頭部の位置を検出するための頭部検出部と、
     前記頭部検出部により検出された頭部の位置の周辺画像領域から抽出した特徴量を用いて、前記入力画像内における頭部とその他の部位との相対的な位置関係を特定するための特定部と、
     前記特定部により特定された相対関係に応じて、人物領域を探索する方向と、人物領域を探索する領域とのうちの少なくとも一方を設定し、前記入力画像から人物領域を検出するための人検出部とを備える、画像処理装置。
  2.  前記特定部は、前記頭部の周辺画像領域で抽出した特徴量から人物の胴体を示す特徴量を探索し、前記頭部に対する胴体の方向を前記相対的な位置関係として特定する、請求項1に記載の画像処理装置。
  3.  前記入力画像は、被写体の表面上の各点までの距離からなる距離画像を含み、
     前記特定部が抽出する前記頭部の周辺画像領域の前記特徴量は、前記距離画像から抽出した、前記被写体の表面に対する法線ベクトルの分布を含み、
     前記特定部は、前記頭部周辺の画像領域の前記法線ベクトルの分布において、人の胴体の表面に対する法線ベクトルの分布が存在する方向から前記相対的な位置関係を特定する、請求項1または2に記載の画像処理装置。
  4.  前記入力画像は、被写体の表面上の各点までの距離からなる距離画像を含み、
     前記特定部が抽出する前記頭部の周辺画像領域の前記特徴量は、前記距離画像から抽出した、前記頭部の位置からの前記被写体の相対距離を含み、
     前記特定部は、前記頭部の周辺画像領域において、前記相対距離が所定値よりも小さい画素を一定数以上有する領域が存在する方向から前記相対的な位置関係を特定する、請求項1~3のいずれか1項に記載の画像処理装置。
  5.  前記入力画像は、被写体の表面上の各点までの距離からなる距離画像を含み、
     前記特定部が抽出する前記頭部の周辺画像領域の前記特徴量は、人物が含まれないときの背景を撮影して得られた背景距離画像を前記距離画像から差分した、背景からの距離差を含み、
     前記特定部は、前記頭部の周辺画像領域において、前記距離差が所定値よりも大きい画素を一定数以上有する領域が存在する方向から前記相対的な位置関係を特定する、請求項1~4のいずれか1項に記載の画像処理装置。
  6.  前記特定部が抽出する前記頭部の周辺画像領域の前記特徴量は、前記入力画像から抽出した、エッジ情報を含み、
     前記特定部は、前記頭部の周辺画像領域における前記エッジ情報において、2本の平行するエッジが存在する方向から前記相対的な位置関係を特定する、請求項1~5のいずれか1項に記載の画像処理装置。
  7.  前記頭部検出部は、前記入力画像における人物の頭部のサイズをさらに検出し、
     前記特定部は、前記頭部のサイズに応じて、前記特徴量を抽出する前記頭部の周辺画像領域のサイズを決定する、請求項1~6のいずれか1項に記載の画像処理装置。
  8.  前記相対的な位置関係は、入力画像内における頭部に対する、その他の部位の方向を示す人体方向を含み、
     前記人検出部は、人物領域の探索に用いるテンプレート、および、前記入力画像のいずれか一方を前記人体方向に応じて回転するとともにマッチング処理を行い、前記入力画像内における人物領域を検出する、請求項1~7のいずれか1項に記載の画像処理装置。
  9.  前記人検出部は、探索して得た前記入力画像内の胴体の位置、前記入力画像内の頭部の位置、および、前記頭部のサイズのうちの少なくとも1つに応じて、人物領域を探索する方向と、人物領域を探索する領域とのうちの少なくとも一方を限定して、前記入力画像における人物領域を検出する、請求項7または8に記載の画像処理装置。
  10.  入力画像内において、人物の頭部の位置を検出することと、
     前記頭部の位置の周辺画像領域から抽出した特徴量を用いて、前記入力画像内における頭部とその他の部位との相対的な位置関係を特定することと、
     前記相対的な位置関係に応じて、人物領域を探索する方向と、人物領域を探索する領域とのうちの少なくとも一方を設定し、前記入力画像内で人物領域を検出することとを備える、画像処理方法。
  11.  画像処理プログラムであって、
     前記画像処理プログラムは、コンピュータに、
     入力画像内において、人物の頭部の位置を検出することと、
     前記頭部の位置の周辺画像領域から抽出した特徴量を用いて、前記入力画像内における頭部とその他の部位との相対的な位置関係を特定することと、
     前記相対的な位置関係に応じて、人物領域を探索する方向と、人物領域を探索する領域とのうちの少なくとも一方を設定し、前記入力画像内で人物領域を検出することとを実行させる、画像処理プログラム。
PCT/JP2015/050222 2014-03-05 2015-01-07 画像処理装置、画像処理方法、および、画像処理プログラム WO2015133159A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US15/123,235 US10445566B2 (en) 2014-03-05 2015-01-07 Image processing apparatus, image processing method, and non-transitory recording medium storing computer readable program
JP2016506153A JP6406345B2 (ja) 2014-03-05 2015-01-07 画像処理装置、画像処理方法、および、画像処理プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014042929 2014-03-05
JP2014-042929 2014-03-05

Publications (1)

Publication Number Publication Date
WO2015133159A1 true WO2015133159A1 (ja) 2015-09-11

Family

ID=54054971

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/050222 WO2015133159A1 (ja) 2014-03-05 2015-01-07 画像処理装置、画像処理方法、および、画像処理プログラム

Country Status (3)

Country Link
US (1) US10445566B2 (ja)
JP (1) JP6406345B2 (ja)
WO (1) WO2015133159A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019144997A (ja) * 2018-02-23 2019-08-29 エイアイビューライフ株式会社 情報処理装置
CN111666786A (zh) * 2019-03-06 2020-09-15 杭州海康威视数字技术股份有限公司 图像处理方法、装置、电子设备及存储介质
WO2022123919A1 (ja) * 2020-12-11 2022-06-16 ソニーグループ株式会社 情報処理装置、情報処理方法、情報処理プログラム

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6627680B2 (ja) * 2016-07-27 2020-01-08 株式会社Jvcケンウッド 人物検出装置、人物検出システム、人物検出方法及び人物検出プログラム
JP6717235B2 (ja) * 2017-03-02 2020-07-01 オムロン株式会社 見守り支援システム及びその制御方法
JP6922410B2 (ja) * 2017-05-19 2021-08-18 富士通株式会社 姿勢判定プログラム、姿勢判定装置及び姿勢判定方法
CN109614848B (zh) * 2018-10-24 2021-07-20 百度在线网络技术(北京)有限公司 人体识别方法、装置、设备及计算机可读存储介质
JP7005546B2 (ja) * 2019-03-15 2022-01-21 株式会社東芝 画像認識装置、画像認識方法および画像認識プログラム
US11381730B2 (en) * 2020-06-25 2022-07-05 Qualcomm Incorporated Feature-based image autofocus
CN113642520B (zh) * 2021-08-31 2023-05-30 中国人民解放军国防科技大学 一种带有头部信息的双任务行人检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09139936A (ja) * 1995-11-16 1997-05-27 Nissan Motor Co Ltd 車両用カメラ
JP2006254321A (ja) * 2005-03-14 2006-09-21 Matsushita Electric Ind Co Ltd 人物追尾装置及び人物追尾プログラム
JP2009026146A (ja) * 2007-07-20 2009-02-05 Canon Inc 画像処理装置及び画像処理方法
JP2013054739A (ja) * 2011-08-31 2013-03-21 Nielsen Co (Us) Llc 画像中の人をカウントするための方法及び装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7386150B2 (en) * 2004-11-12 2008-06-10 Safeview, Inc. Active subject imaging with body identification
US7613324B2 (en) * 2005-06-24 2009-11-03 ObjectVideo, Inc Detection of change in posture in video
JP4516516B2 (ja) * 2005-12-07 2010-08-04 本田技研工業株式会社 人物検出装置、人物検出方法及び人物検出プログラム
US8781162B2 (en) * 2011-01-05 2014-07-15 Ailive Inc. Method and system for head tracking and pose estimation
US9538158B1 (en) * 2012-10-16 2017-01-03 Ocuvera LLC Medical environment monitoring system
KR101800617B1 (ko) * 2013-01-02 2017-12-20 삼성전자주식회사 디스플레이 장치 및 이의 화상 통화 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09139936A (ja) * 1995-11-16 1997-05-27 Nissan Motor Co Ltd 車両用カメラ
JP2006254321A (ja) * 2005-03-14 2006-09-21 Matsushita Electric Ind Co Ltd 人物追尾装置及び人物追尾プログラム
JP2009026146A (ja) * 2007-07-20 2009-02-05 Canon Inc 画像処理装置及び画像処理方法
JP2013054739A (ja) * 2011-08-31 2013-03-21 Nielsen Co (Us) Llc 画像中の人をカウントするための方法及び装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019144997A (ja) * 2018-02-23 2019-08-29 エイアイビューライフ株式会社 情報処理装置
JP7033305B2 (ja) 2018-02-23 2022-03-10 エイアイビューライフ株式会社 情報処理装置
CN111666786A (zh) * 2019-03-06 2020-09-15 杭州海康威视数字技术股份有限公司 图像处理方法、装置、电子设备及存储介质
WO2022123919A1 (ja) * 2020-12-11 2022-06-16 ソニーグループ株式会社 情報処理装置、情報処理方法、情報処理プログラム

Also Published As

Publication number Publication date
JPWO2015133159A1 (ja) 2017-04-06
JP6406345B2 (ja) 2018-10-17
US10445566B2 (en) 2019-10-15
US20170076148A1 (en) 2017-03-16

Similar Documents

Publication Publication Date Title
JP6406345B2 (ja) 画像処理装置、画像処理方法、および、画像処理プログラム
JP6125188B2 (ja) 映像処理方法及び装置
JP5529660B2 (ja) 瞳孔検出装置及び瞳孔検出方法
JP5771413B2 (ja) 姿勢推定装置、姿勢推定システム、および姿勢推定方法
JP4642128B2 (ja) 画像処理方法、画像処理装置及びシステム
TWI701609B (zh) 影像物件追蹤方法及其系統與電腦可讀取儲存媒體
US20160217326A1 (en) Fall detection device, fall detection method, fall detection camera and computer program
JP6007682B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP6587435B2 (ja) 画像処理装置、情報処理方法及びプログラム
JP6217635B2 (ja) 転倒検知装置および転倒検知方法、転倒検知カメラ、並びにコンピュータ・プログラム
JP2008197904A (ja) 人物検索装置および人物検索方法
JP2004192378A (ja) 顔画像処理装置およびその方法
KR20150032630A (ko) 촬상 시스템에 있어서의 제어방법, 제어장치 및 컴퓨터 판독 가능한 기억매체
JP7192582B2 (ja) 物体追跡装置および物体追跡方法
CN106937532B (zh) 用于检测真正用户的系统和方法
JP2006343859A (ja) 画像処理装置及び画像処理方法
JP2018088049A (ja) 画像処理装置、画像処理方法、及びプログラム
US20180191951A1 (en) Imaging apparatus and imaging condition setting method and program
JP5877725B2 (ja) 画像監視装置
WO2019016879A1 (ja) 物体検出装置、及び、物体検出手法
KR101353860B1 (ko) 병렬 영상 필터링 모듈을 구비한 다시점 카메라를 이용한 시각 장애인 가이드 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
JP6767788B2 (ja) 情報処理装置、情報処理装置の制御方法およびプログラム
Pathak et al. Fall detection for elderly people in homes using Kinect sensor
KR20100060622A (ko) 인체 자세 판별 시스템 및 그 방법
JP2017194798A (ja) 情報処理装置、情報処理方法及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15757697

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2016506153

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 15123235

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15757697

Country of ref document: EP

Kind code of ref document: A1