WO2019207721A1 - 情報処理装置、制御方法、及びプログラム - Google Patents
情報処理装置、制御方法、及びプログラム Download PDFInfo
- Publication number
- WO2019207721A1 WO2019207721A1 PCT/JP2018/017031 JP2018017031W WO2019207721A1 WO 2019207721 A1 WO2019207721 A1 WO 2019207721A1 JP 2018017031 W JP2018017031 W JP 2018017031W WO 2019207721 A1 WO2019207721 A1 WO 2019207721A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- estimated position
- candidate
- area
- target object
- candidate area
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Definitions
- the present invention relates to object recognition.
- Patent Document 1 discloses an apparatus that detects a plurality of objects from a captured image and associates the detected objects. Specifically, when the captured image includes an object (for example, a bag) and a plurality of persons, the apparatus of Patent Literature 1 associates the object with the owner's person.
- object for example, a bag
- Patent Literature 1 associates the object with the owner's person.
- the apparatus of Patent Document 1 uses the connection relationship defined in advance to connect while recognizing human parts in order. For example, recognition and connection are performed in the order of face-> neck-> body-> arm. Furthermore, the apparatus of Patent Document 1 recognizes an object that is previously defined as an object that frequently exists around the recognized part. For example, a bag is defined as an object that frequently exists around the arm. Therefore, as described above, the bag is recognized in response to the recognition of the person's arm. As a result, it is understood that the connection is made as “face-> neck-> body-> arm-> bag”. Therefore, the apparatus of Patent Document 1 associates a connected face with a bag (that is, associates a person with a bag).
- Patent Document 1 information for estimating the position of an object that frequently exists around a part of a person is approximately specified with respect to the part.
- Patent Document 1 describes that this information may be used to limit an image area for recognizing an object. For example, when the apparatus of Patent Document 1 detects a person's arm in the above-described flow, an image region for recognizing a bag is obtained using information indicating where the bag is present with respect to the person's arm. limit. Then, the bag is recognized for the limited image region.
- Patent Document 1 on the assumption that a person's part is recognized, an object that frequently exists around the part is recognized. For this reason, if a part of a person is not recognized, an object that frequently exists around the part is not recognized. For example, in the above example, the bag is not recognized unless the person's arm is recognized.
- not all parts of a person are necessarily included in a captured image. For example, if an obstacle stands in front of a person's arm or the person's arm is outside the imaging range of the camera, the person's arm is not recognized from the captured image, and the bag cannot be recognized.
- This invention is made in view of said subject, and is providing the technique which detects a person's property from a captured image with high precision.
- the information processing apparatus 1) Candidate area detection that detects one or more candidate areas, which are image areas presumed to represent a target object, from a captured image based on image characteristics of the target object that is a detection target. And 2) an estimated position detection unit that detects a person region representing a person from the captured image and detects an estimated position of the target object in the captured image based on the person region, and 3) estimates one or more candidate regions And a specifying unit that specifies an object region that is an image region representing the target object from one or more candidate regions based on the position.
- the control method of the present invention is a control method executed by a computer.
- the control method includes: 1) a candidate area detection step of detecting one or more candidate areas that are image areas that are estimated to represent the target object from the captured image based on an image feature of the target object that is a detection target; 2) an estimated position detecting step for detecting a person area representing a person from the captured image and detecting an estimated position of the target object in the captured image based on the person area; and 3) based on one or more candidate areas and the estimated position.
- a specifying step of specifying an object region that is an image region representing the target object from one or more candidate regions.
- the program of the present invention causes a computer to execute each step of the control method of the present invention.
- a technique for detecting a person's belongings from a captured image with high accuracy is provided.
- FIG. 2 is a diagram illustrating a functional configuration of the information processing apparatus according to the first embodiment.
- FIG. It is a figure which illustrates the computer for implement
- 3 is a flowchart illustrating a flow of processing executed by the information processing apparatus according to the first embodiment. It is a figure which illustrates the candidate area
- FIG. 6 is a block diagram illustrating a functional configuration of an information processing apparatus according to a second embodiment. 6 is a flowchart illustrating a flow of processing executed by the information processing apparatus according to the second embodiment.
- each block diagram represents a functional unit configuration, not a hardware unit configuration.
- FIG. 1 is a diagram conceptually showing processing performed by the information processing apparatus 2000 of the present embodiment.
- the information processing apparatus 2000 detects an object region 30 that is an image region representing the target object from the captured image 20 generated by the camera 10.
- the target object is a personal belonging.
- the “person's belongings” here are not limited to things that the person has in hand (such as handbags or canes), but generally include things that the person has in some form.
- a person's belongings are things that a person has on the shoulder (such as a shoulder bag), things that the person carries from the neck (such as an identification card), and things that the person carries on the back (such as a rucksack) , Things worn by people on their heads (hats, helmets, etc.), things worn by people on their faces (glasses, sunglasses, etc.), and things worn by people on their hands (watches, etc.) It is.
- the information processing apparatus 2000 detects one or more candidate areas 22 from the captured image 20 based on the image characteristics of the target object.
- the candidate area 22 is an image area estimated to represent the target object. For example, if the target object is a hat, the information processing apparatus 2000 detects an image area estimated to represent the hat based on the image characteristics of the hat, and sets the detected image area as the candidate area 22.
- the candidate area 22 is an image area in which, for example, the probability of representing the target object is estimated to be a predetermined value or more.
- the information processing apparatus 2000 detects the person area 26 from the captured image 20 and detects the estimated position 24 based on the detected person area 26.
- the person area 26 is an area estimated to represent a person.
- the estimated position 24 is a position where it is estimated that the target object exists in the captured image 20.
- a person's belongings can predict a relative positional relationship with the person according to the kind of the object.
- the position of the hat is highly likely to be a human head.
- the position of sunglasses has a high probability of being a human face.
- the position of the rucksack is highly likely to be a human back portion.
- the information processing apparatus 2000 detects the estimated position 24 based on the relative positional relationship between the target object and the person that can be predicted in this way. For example, if the target object is a hat, the information processing apparatus 2000 detects a position where the hat is estimated to exist based on the relative positional relationship between the person represented by the person region 26 and the hat, and determines the detected position.
- the estimated position is 24.
- the information processing device 2000 identifies the object region 30 based on the candidate region 22 and the estimated position 24.
- the information processing apparatus 2000 identifies the candidate area 22 including the estimated position 24 among the plurality of detected candidate areas 22 as the object area 30.
- the object region 30 specified based on the candidate region 22 and the estimated position 24 is not limited to the candidate region 22 including the estimated position 24.
- Region 30 is identified.
- the candidate area 22 identified as the object area 30 is limited by the estimated position 24.
- the candidate area 22 at a low probability that the target object exists is not specified as the object area 30.
- the image area representing the target object is identified by using two criteria, ie, the image feature of the target object and the image region representing the person. Compared with the case where it does, the image area showing a target object can be specified with high precision.
- the estimated position 24 of the target object is detected using an image area representing a person. Therefore, the estimated position 24 can be detected even if some parts of the person (such as an arm) are not detected from the captured image 20. Therefore, according to the information processing apparatus 2000, even if some parts of a person are not included in the captured image 20, the object region 30 can be specified.
- FIG. 1 The above description with reference to FIG. 1 is an example for facilitating understanding of the information processing apparatus 2000, and does not limit the functions of the information processing apparatus 2000.
- the information processing apparatus 2000 according to the present embodiment will be described in more detail.
- FIG. 2 is a diagram illustrating a functional configuration of the information processing apparatus 2000 according to the first embodiment.
- the information processing apparatus 2000 includes a candidate area detection unit 2020, an estimated position detection unit 2040, and a specification unit 2060.
- the candidate area detection unit 2020 detects one or more candidate areas 22 from the captured image 20 based on the image characteristics of the target object that is the detection target.
- the estimated position detection unit 2040 detects the person region 26 from the captured image 20. Further, the estimated position detection unit 2040 detects the estimated position 24 based on the detected person region 26.
- the specifying unit 2060 specifies the object region 30 based on the candidate region 22 and the estimated position 24.
- Each functional component of the information processing apparatus 2000 may be realized by hardware (eg, a hard-wired electronic circuit) that implements each functional component, or a combination of hardware and software (eg: It may be realized by a combination of an electronic circuit and a program for controlling it).
- hardware eg, a hard-wired electronic circuit
- software eg: It may be realized by a combination of an electronic circuit and a program for controlling it.
- FIG. 3 is a diagram illustrating a computer 1000 for realizing the information processing apparatus 2000.
- the computer 1000 is an arbitrary computer.
- the computer 1000 is a stationary computer such as a personal computer (PC) or a server machine.
- the computer 1000 is a portable computer such as a smartphone or a tablet terminal.
- the computer 1000 may be the camera 10 that generates the captured image 20.
- the computer 1000 may be a dedicated computer designed for realizing the information processing apparatus 2000 or a general-purpose computer.
- the computer 1000 includes a bus 1020, a processor 1040, a memory 1060, a storage device 1080, an input / output interface 1100, and a network interface 1120.
- the bus 1020 is a data transmission path through which the processor 1040, the memory 1060, the storage device 1080, the input / output interface 1100, and the network interface 1120 transmit / receive data to / from each other.
- the method of connecting the processors 1040 and the like is not limited to bus connection.
- the processor 1040 is various processors such as a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), and an FPGA (Field-Programmable Gate Array).
- the memory 1060 is a main storage device realized using a RAM (Random Access Memory) or the like.
- the storage device 1080 is an auxiliary storage device realized by using a hard disk, an SSD (Solid State Drive), a memory card, or a ROM (Read Only Memory).
- the input / output interface 1100 is an interface for connecting the computer 1000 and an input / output device.
- the input / output interface 1100 is connected to an input device such as a keyboard and an output device such as a display device.
- the network interface 1120 is an interface for connecting the computer 1000 to a communication network.
- This communication network is, for example, “LAN (Local Area Network)” or “WAN (Wide Area Network)”.
- a method of connecting the network interface 1120 to the communication network may be a wireless connection or a wired connection.
- the storage device 1080 stores a program module that implements each functional component of the information processing apparatus 2000.
- the processor 1040 implements a function corresponding to each program module by reading each program module into the memory 1060 and executing the program module.
- the camera 10 is an arbitrary imaging device that performs imaging and generates image data as a result.
- the camera 10 is a surveillance camera installed at a surveillance location.
- the computer 1000 that implements the information processing apparatus 2000 may be the camera 10.
- the camera 10 specifies the object region 30 by analyzing the captured image 20 generated by itself.
- an intelligent camera for example, an intelligent camera, a network camera, or a camera called an IP (Internet Protocol) camera can be used.
- IP Internet Protocol
- the information processing apparatus 2000 can be used in any scene where the process of “detecting a predetermined object from image data generated by a camera” is useful.
- the information processing apparatus 2000 is used for analysis of a monitoring video generated by a monitoring camera.
- the camera 10 is a monitoring camera that generates a monitoring video.
- the captured image 20 is a video frame that constitutes a monitoring video.
- the information processing apparatus 2000 identifies an image area representing a predetermined object (that is, the object area 30 representing the target object) from the video frame constituting the monitoring video. By doing so, it is possible to grasp the existence of the target object at the monitoring location. It is also possible to detect a person who has the target object.
- the presence of a dangerous object can be grasped by using a monitoring image, or the face of a person requiring attention (a person having a dangerous object, sunglasses, a helmet, etc.) can be hidden. Or the like of a person who is present).
- the information processing device 2000 analyzes past monitoring images generated by the monitoring cameras installed in various places in the facility, thereby leaving the object left behind. It is also possible to identify the route that has been carried and to detect the person who carried the left object.
- FIG. 4 is a flowchart illustrating the flow of processing executed by the information processing apparatus 2000 according to the first embodiment.
- the information processing apparatus 2000 acquires the captured image 20 (S102).
- the candidate area detection unit 2020 detects one or more candidate areas 22 from the captured image 20 based on the image feature of the target object (S104).
- the estimated position detection unit 2040 detects the person region 26 from the captured image 20 (S106).
- the estimated position detection unit 2040 detects the estimated position 24 based on the detected person region 26 (S108).
- the specifying unit 2060 specifies the object region 30 based on the candidate region 22 and the estimated position 24 (S110).
- the process executed by the candidate area detection unit 2020 (S104) and the process executed by the estimated position detection unit 2040 (S106 and S108) may be executed in parallel.
- the timing at which the information processing apparatus 2000 executes the series of processes shown in FIG. 4 varies. For example, every time the captured image 20 is generated by the camera 10, the information processing apparatus 2000 acquires the captured image 20 and executes a series of processes illustrated in FIG. 4. In addition, for example, the information processing apparatus 2000 acquires a plurality of captured images 20 generated by the camera 10 at a predetermined timing, and executes a series of processes shown in FIG. 4 for each captured image 20 (so-called batch). processing). In addition, for example, the information processing apparatus 2000 receives an input operation for designating the captured image 20 and executes a series of processes on the designated captured image 20.
- the information processing apparatus 2000 acquires the captured image 20 (S102).
- the captured image 20 may be image data itself generated by the camera 10 or may be obtained by performing some processing (for example, color correction or trimming) on the image data generated by the camera 10. Also good.
- the method by which the information processing apparatus 2000 acquires the captured image 20 is arbitrary.
- the information processing apparatus 2000 acquires the captured image 20 by accessing a storage device in which the captured image 20 is stored.
- the storage device in which the captured image 20 is stored may be provided inside the camera 10 or may be provided outside the camera.
- the information processing apparatus 2000 may acquire the captured image 20 by receiving the captured image 20 transmitted from the camera 10. As described above, when the information processing apparatus 2000 is realized as the camera 10, the information processing apparatus 2000 acquires the captured image 20 generated by itself.
- the candidate area detection unit 2020 detects the candidate area 22 from the captured image 20 based on the image feature of the target object (S104).
- an existing technique can be used as a technique for detecting an image area (that is, the candidate area 22) that is assumed to represent the object from the image data.
- a detector that has been learned in advance so as to detect an image region that is estimated to represent the target object from the image data can be used.
- the detector model can be any model such as a neural network (eg, a convolutional neural network) or SVM (support vector machine).
- the candidate area detection unit 2020 detects, as the candidate area 22, an image area whose probability estimated to represent the target object is equal to or greater than a threshold value.
- a threshold value if this threshold value is increased, false negatives (detection omissions) are likely to occur. On the other hand, if this threshold value is reduced, false positives (false detections) are likely to occur.
- the object region 30 is not specified only by the candidate region detection unit 2020, but the object region 30 is specified using the estimated position 24 detected by the estimated position detection unit 2040. .
- the threshold value is smaller and cause erroneous detection than to set the threshold value larger and cause a detection failure. This is because, by setting the threshold value to be small and detecting a large number of candidate areas 22, and narrowing down the candidate areas 22 using the estimated positions 24 detected by the estimated position detection unit 2040, the target objects are extracted. This is because the object area 30 to be represented can be specified with high accuracy.
- the threshold value used by the candidate area detection unit 2020 is equal to or less than the threshold value set when the object area 30 is specified based on only the image feature of the target object (that is, when the estimated position detection unit 2040 is not used). It is preferable to set the value of.
- the candidate area detection unit 2020 generates data representing the detection result of the candidate area 22.
- This data is data for specifying the detected candidate area 22 and indicates, for example, a specific position (for example, coordinates of the upper left corner) and a size (for example, width and height) of the candidate area 22.
- the estimated position detection unit 2040 detects the person region 26 from the captured image 20 (S106).
- a technique for detecting an image region representing a person from image data an existing technique can be used.
- a detector that has been learned in advance so as to detect an image region representing a person from image data can be used.
- any model such as a neural network can be used.
- a human body part head, face, torso, hand, foot, etc.
- a part of a human body can also be detected by detection using the above-described detector or the like, detection using a template image, a local feature amount, or the like.
- the estimated position detection unit 2040 may detect a set of characteristic points of the person such as the positions of the human joints as the person region 26.
- a technique shown in Non-Patent Document 1 can be used as a technique for detecting the position of a characteristic point of a person such as a joint.
- the estimated position detection unit 2040 detects the estimated position 24 based on the person region 26.
- the estimated position 24 is a position where it is estimated that the target object exists in the captured image 20.
- the estimated position 24 may be represented by one point on the captured image 20 or may be represented by an image area.
- the position where the target object is estimated to exist in the image data is detected in advance.
- a learned detector can be used.
- An arbitrary model such as a neural network can be adopted as the detector model.
- the learning of this detector is performed using, for example, teacher data composed of a combination of “image data, a person area in the image data, and a position of the target object in the image data”.
- teacher data composed of a combination of “image data, a person area in the image data, and a position of the target object in the image data”.
- the detector can learn the relative positional relationship between the target object and the person.
- the teacher data includes information indicating the position of each part of the person in the person area.
- the estimated position detection unit 2040 detects a position where the probability that the target object exists is a predetermined value or more as the estimated position 24. At this time, the estimated position detection unit 2040 may output the probability that the target object exists at the estimated position 24 together with the estimated position 24.
- the estimated position detection unit 2040 generates matrix data having the same size as the captured image 20 as data representing the detection result of the estimated position 24.
- This matrix data indicates, for example, 1 at the position of the estimated position 24 and 0 at other positions. Further, when the probability that the target object exists at the estimated position 24 is output, this matrix data indicates the probability that the target object exists at each position.
- the data representing the detection result of the estimated position 24 may be in an arbitrary format and is not limited to matrix data.
- the estimated position detection unit 2040 may limit the image area where the estimated position 24 is detected using the candidate area 22. That is, the estimated position 24 is detected not from the entire captured image 20 but from a part of the image area limited based on the candidate area 22. By doing so, the time and computer resources required to detect the estimated position 24 can be reduced.
- the estimated position detection unit 2040 sets only the inside of the candidate area 22 as the detection range of the estimated position 24.
- the estimated position detection unit 2040 detects the estimated position 24 from a predetermined range including the candidate region 22.
- the predetermined range is a range obtained by enlarging the candidate area 22 with a predetermined magnification larger than 1.
- the estimated position detection unit 2040 may also limit the image area for detecting the person area 26 using the candidate area 22. For example, the estimated position detection unit 2040 detects the person region 26 from a predetermined range including the candidate region 22 (for example, a range obtained by enlarging the candidate region 22).
- the specifying unit 2060 specifies the object region 30 based on the candidate region 22 and the estimated position 24.
- the identifying unit 2060 uses the estimated position 24 to identify and identify a candidate area 22 that is an image area that is estimated to include the target object and that has a particularly high probability of including the target object.
- the candidate area 22 thus identified is specified as the object area 30.
- the object region 30 does not have to coincide completely with any one of the candidate regions 22, and may be a partial image region of the candidate region 22.
- the identifying unit 2060 identifies the object region 30 by paying attention to the overlap between the candidate region 22 and the estimated position 24.
- Various methods can be employed as the specific method. Hereinafter, the specific method is illustrated.
- the specifying unit 2060 specifies the candidate area 22 including the estimated position 24 as the object area 30.
- FIG. 5 is a diagram illustrating the candidate region 22 including the estimated position 24.
- a plurality of candidate areas 22 are detected from the captured image 20.
- One estimated position 24 is detected.
- the estimated position 24 is included in the candidate area 22-1. Therefore, the specifying unit 2060 specifies the candidate area 22-1 as the object area 30.
- ⁇ Specific Method 2 ⁇ Specific Method 2 >> Here, it is assumed that a plurality of estimated positions 24 are calculated. Then, the specifying unit 2060 calculates a score (hereinafter referred to as a first score) indicating the degree of including the estimated position 24 for each candidate region 22. The specifying unit 2060 specifies the object region 30 based on the first score.
- a score hereinafter referred to as a first score
- the specifying unit 2060 specifies the candidate area 22 having the maximum first score as the object area 30.
- the specifying unit 2060 specifies the candidate area 22 having the first score equal to or higher than a predetermined value as the object area 30. In the latter case, a plurality of object areas 30 can be specified.
- the specifying unit 2060 calculates the number of estimated positions 24 included in the candidate area 22 as the first score for the candidate area 22.
- the specifying unit 2060 normalizes the number of estimated positions 24 included in the candidate area 22 by the size of the candidate area 22 (for example, the number of estimated positions 24 is divided by the area of the candidate area 22). Value) is calculated as the first score for the candidate area 22.
- FIG. 6 is a diagram illustrating a first score calculated based on the number of estimated positions 24 included in the candidate area 22.
- the candidate area 22 includes three estimated positions 24. Therefore, for example, the specifying unit 2060 sets the first score of the candidate area 22 to 3.
- the area of the candidate region 22 is S.
- the specifying unit 2060 may use 3 / S obtained by normalizing the first score of the candidate region 22 by the area of the candidate region 22 as the first score.
- the calculation method of the first score is not limited to the above example. For example, it is assumed that the probability that the target object exists is calculated for each estimated position 24. In this case, the specifying unit 2060 may calculate the sum of the existence probabilities calculated for each estimated position 24 included in the candidate area 22 as the first score for the candidate area 22.
- FIG. 7 is a diagram illustrating a first score calculated in consideration of the existence probability of the target object calculated for the estimated position 24.
- the candidate area 22 includes three estimated positions 24, and the existence probabilities calculated for each are p1, p2,, and p3. Therefore, the first score of the candidate area 22 is p1 + p2 + p3.
- the object region 30 representing the target object can be identified with higher accuracy.
- the candidate area 22 including one estimated position 24 having a target object existence probability of 0.6 is selected as the target object, rather than the candidate area 22 including three estimated positions 24 having a target object existence probability of 0.1. It can be said that the probability that the image area is represented is high.
- the first score of the latter candidate area 22 is larger than the first score of the former candidate area 22. Therefore, the latter candidate area 22 is more easily identified as the object area 30.
- the candidate area detection unit 2020 calculates, for each candidate area 22, the probability that the candidate area 22 represents the target object. Further, it is assumed that the specifying unit 2060 calculates the first score described above for each candidate region 22. The specifying unit 2060 calculates the second score as the product of the probability that the candidate area 22 represents the target object and the first score. Then, the specifying unit 2060 specifies the object region 30 based on the second score.
- the specifying unit 2060 specifies the candidate area 22 having the maximum second score as the object area 30.
- the specifying unit 2060 specifies the candidate area 22 having the second score equal to or higher than a predetermined value as the object area 30.
- the specifying unit 2060 calculates a third score based on the distance between the representative point of the candidate region 22 and the estimated position 24, and specifies the object region 30 based on the calculated third score. There are various methods for specifying the object region 30 based on the third score. For example, the specifying unit 2060 specifies the candidate area 22 for which the smallest third score is calculated as the object area 30. In addition, for example, the specifying unit 2060 specifies the candidate area 22 in which the third score equal to or lower than a predetermined value is calculated as the object area 30.
- the representative point of the candidate area 22 can be an arbitrary point included in the candidate area 22.
- the representative point of the candidate area 22 is the center of the candidate area 22.
- the specifying unit 2060 may calculate the distance between each of the estimated positions 24 and the representative point of the candidate area 22, or the candidate area 22 for any one of the estimated positions 24.
- the distance between the representative points may be calculated.
- the specifying unit 2060 calculates the third score based on the calculated statistical values (minimum value, mode value, average value, etc.) of the plurality of distances.
- the specifying unit 2060 calculates a distance between one estimated position 24 and the representative point of the candidate area 22, and calculates a third score based on the distance.
- the specifying unit 2060 calculates the center of the image area composed of the plurality of estimated positions 24, specifies the estimated position 24 closest to the center, and between the specified estimated position 24 and the representative point of the candidate area 22 The distance is calculated.
- the specifying unit 2060 determines the distance between the estimated position 24 having the highest existence probability of the target object and the representative point of the candidate region 22. Is calculated.
- the specifying unit 2060 calculates the third score based on the distance between the representative point of the image area and the representative point of the candidate area 22.
- the representative point of the estimated position 24 represented as the image area is, for example, the center position of the image area.
- the specifying unit 2060 sets the distance between the representative point of the candidate region 22 and the estimated position 24 as the third score.
- the specifying unit 2060 calculates a value obtained by multiplying the distance between the representative point of the candidate region 22 and the estimated position 24 by a correction coefficient based on the probability that the target object exists at the estimated position 24. Score.
- the correction coefficient is set to be smaller as the probability that the target object exists at the estimated position 24 is higher.
- the correction coefficient is the reciprocal of the probability that the target object exists at the estimated position 24.
- the object region 30 representing the target object can be identified with higher accuracy.
- the distance to the estimated position 24 where the probability that the target object exists is 0.6 is 2 rather than the candidate region 22 where the distance to the estimated position 24 where the target object exists is 0.1.
- the candidate area 22 is more likely to be an image area representing the target object.
- the third candidate score is larger in the latter candidate region 22 than in the former candidate region 22. Therefore, the latter candidate area 22 is easily identified as the object area 30.
- the information processing apparatus 2000 outputs information for specifying the object area 30 (hereinafter, output information). There are various methods for outputting the output information. For example, the information processing apparatus 2000 stores output information in an arbitrary storage device. In addition, for example, the information processing apparatus 2000 stores output information in the display apparatus.
- the output information indicates the identifier of the captured image 20, the specific position of the object area 30 (for example, the coordinates of the upper left corner of the object area 30), and the size (for example, the width and height) of the object area 30.
- the output information indicates the position and size for each of the plurality of object areas 30.
- the output information may be a captured image 20 on which information (for example, a frame) indicating the object region 30 is superimposed.
- FIG. 8 is a block diagram illustrating a functional configuration of the information processing apparatus 2000 according to the second embodiment. Except as described below, the information processing apparatus 2000 of the second embodiment has the same functions as the information processing apparatus 2000 of the first embodiment.
- the information processing apparatus 2000 handles a plurality of types of target objects. Specifically, the information processing apparatus 2000 acquires type information indicating the type of object to be detected, and sets the type of object indicated in the type information as a target object. Therefore, the information processing apparatus 2000 according to the second embodiment includes a type information acquisition unit 2080 that acquires type information.
- the type of object indicated by the type information may be one or plural.
- the information processing apparatus 2000 specifies the object region 30 for each target object, with each type of object as a target object. For example, when the type information indicates three types of “hat, sunglasses, and white cane”, the information processing apparatus 2000 includes an object region 30 representing a hat, an object region 30 representing sunglasses, And the object area 30 representing the white cane are specified.
- the type information acquisition unit 2080 acquires type information from a storage device in which type information is stored. In addition, for example, the type information acquisition unit 2080 acquires type information by receiving type information transmitted from another device. In addition, for example, the type information acquisition unit 2080 acquires type information by receiving input of type information from the user.
- the candidate area detection unit 2020 of the second embodiment detects the candidate area 22 for the type of object indicated in the type information.
- an existing technique can be used as a technique for detecting a specific type of object from image data. For example, for each type of object, a detector that is trained to detect that type of object from image data is prepared. The candidate area detection unit 2020 inputs the captured image 20 to a detector that is trained to detect the candidate area 22 for the type of object indicated by the type information, so that the candidate area 22 is detected for the type of object. To detect.
- the estimated position detection unit 2040 detects the estimated position 24 for the type of object indicated in the type information based on the person area 26. For example, in the estimated position detection unit 2040, a detector for detecting the estimated position 24 is prepared for each type of object. That is, the positional relationship between the object and the person is learned for each type of object. The estimated position detection unit 2040 inputs information that identifies the captured image 20 and the person region 26 to a detector that has been trained to detect the estimated position 24 for the type of object indicated by the type information. The estimated position 24 is detected for the type of object.
- the identifying unit 2060 of the second embodiment identifies the object region 30 based on the candidate region 22 and the estimated position 24 detected for the target object of the type indicated by the type information as described above. Output information is generated for each type of object.
- the object region 30 is specified for the type of object indicated by the type information.
- the information processing apparatus 2000 can be set so that a specified object among a plurality of types of objects is detected from the captured image 20. Therefore, it is possible to detect each of a plurality of types of objects from the captured image 20 and change the type of the object detected at each time. Therefore, the convenience of the information processing apparatus 2000 is improved.
- the captured image 20 can be set so as to detect the belongings of the person requiring attention in accordance with the information regarding the belongings of the person requiring attention.
- the information processing apparatus 2000 can be set to detect the left object.
- Example of hardware configuration The hardware configuration of a computer that implements the information processing apparatus 2000 according to the second embodiment is represented by, for example, FIG.
- the storage device 1080 of the computer 1000 that implements the information processing apparatus 2000 according to the present embodiment further stores program modules that implement the functions of the information processing apparatus 2000 according to the present embodiment.
- FIG. 9 is a flowchart illustrating the flow of processing executed by the information processing apparatus 2000 according to the second embodiment.
- the type information acquisition unit 2080 acquires type information (S202).
- the information processing apparatus 2000 acquires the captured image 20 (S204).
- the candidate area detection unit 2020 detects the candidate area 22 for the type of object indicated in the type information (S206).
- the estimated position detection unit 2040 detects the person region 26 (S208). Based on the person area 26, the estimated position detection unit 2040 detects the estimated position 24 for the type of object indicated in the type information (S210).
- the specifying unit 2060 specifies the object region 30 based on the detected candidate region 22 and the estimated position 24.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
情報処理装置(2000)は、対象オブジェクトの画像特徴に基づいて、撮像画像(20)から、候補領域(22)を1つ以上検出する。候補領域(22)は、対象オブジェクトを表すと推定される画像領域である。また、情報処理装置(2000)は、撮像画像(20)から人物領域(26)を検出し、検出した人物領域(26)に基づいて、推定位置(24)を検出する。人物領域(26)は、人物を表すと推定される領域である。推定位置(24)は、撮像画像(20)において対象オブジェクトが存在すると推定される位置である。そして情報処理装置(2000)は、候補領域(22)と推定位置(24)とに基づいて、対象オブジェクトを表す画像領域であるオブジェクト領域(30)を特定する。
Description
本発明は物体認識に関する。
カメラによって生成された撮像画像から物体を検出する技術が開発されている。例えば特許文献1は、撮像画像から複数の物体を検出し、検出した物体の関連づけを行う装置を開示している。具体的には、特許文献1の装置は、撮像画像に物(例えばカバン)と複数の人物とが含まれている場合に、その物と持ち主の人物とを関連づける。
そのために、特許文献1の装置は、予め規定されている接続関係を利用して、人物のパーツを順に認識しながら接続していく。例えば、顔->首->胴体->腕という順番で認識及び接続が行われる。さらに、特許文献1の装置は、認識されたパーツの周辺に頻繁に存在する物として予め規定されている物の認識を行う。例えば、腕の周辺に頻繁に存在する物として、カバンが規定されている。そのため、前述した様に人物の腕が認識されたことに応じて、カバンの認識が行われる。その結果、「顔->首->胴体->腕->カバン」のように接続されていることが分かる。そこで特許文献1の装置は、接続されている顔とカバンの関連づけ(すなわち、人物とカバンの関連づけ)を行う。
ここで特許文献1では、人物のパーツの周辺に頻繁に存在する物について、そのパーツに対しておよそどの辺りの位置にあるのかを推定するための情報が規定されている。そして、特許文献1には、この情報を用いて、物を認識する画像領域を限定してもよいことが記載されている。例えば特許文献1の装置は、前述した流れで人物の腕を検出したら、人物の腕に対しておよそどの辺りにカバンが存在するかを示す情報を利用して、カバンの認識を行う画像領域を限定する。そして、限定した画像領域についてカバンの認識が行われる。
Zhe Cao、外3名、「Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields」、CoRR、2016年11月24日
特許文献1の技術では、人物のパーツを認識したことを前提として、そのパーツの周辺に頻繁に存在する物の認識が行われる。そのため、人物の或るパーツが認識されなかったら、そのパーツの周辺に頻繁に存在する物の認識が行われない。例えば前述の例では、人物の腕が認識されなければ、カバンの認識が行われない。
この点、人物の全てのパーツが必ずしも撮像画像に含まれるとは限らない。例えば、人物の腕の前に障害物が立っていたり、人物の腕がカメラの撮像範囲の外にあったりすると、撮像画像から人物の腕が認識されないため、カバンを認識することもできなくなる。
本願発明は上記の課題に鑑みてなされたものであり、人の持ち物を撮像画像から高い精度で検出する技術を提供することである。
本発明の情報処理装置は、1)検出対象である対象オブジェクトの画像特徴に基づいて、撮像画像から、対象オブジェクトを表すと推定される画像領域である候補領域を1つ以上検出する候補領域検出部と、2)撮像画像から人物を表す人物領域を検出し、人物領域に基づいて、撮像画像における対象オブジェクトの推定位置を検出する推定位置検出部と、3)1つ以上の候補領域と推定位置に基づいて、1つ以上の候補領域の中から、対象オブジェクトを表す画像領域であるオブジェクト領域を特定する特定部と、を有する。
本発明の制御方法は、コンピュータによって実行される制御方法である。当該制御方法は、1)検出対象である対象オブジェクトの画像特徴に基づいて、撮像画像から、対象オブジェクトを表すと推定される画像領域である候補領域を1つ以上検出する候補領域検出ステップと、2)撮像画像から人物を表す人物領域を検出し、人物領域に基づいて、撮像画像における対象オブジェクトの推定位置を検出する推定位置検出ステップと、3)1つ以上の候補領域と推定位置に基づいて、1つ以上の候補領域の中から、対象オブジェクトを表す画像領域であるオブジェクト領域を特定する特定ステップと、を有する。
本発明のプログラムは、コンピュータに、本発明の制御方法が有する各ステップを実行させる。
本発明によれば、人の持ち物を撮像画像から高い精度で検出する技術が提供される。
上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。
以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。また、特に説明する場合を除き、各ブロック図において、各ブロックは、ハードウエア単位の構成ではなく、機能単位の構成を表している。
[実施形態1]
<概要>
図1は、本実施形態の情報処理装置2000が行う処理を概念的に示す図である。情報処理装置2000は、カメラ10によって生成された撮像画像20から、対象オブジェクトを表す画像領域であるオブジェクト領域30を検出する。対象オブジェクトは、人の持ち物である。なお、ここでいう「人の持ち物」とは、人が手に持っている物(手提げカバンや杖など)には限定されず、何らかの形で人が所持している物を全般的に含む。例えば、人の持ち物には、人が肩に掛けている物(肩掛けカバンなど)、人が首から提げている物(身分証明書など)、人が背中に背負っている物(リュックサックなど)、人が頭に装着している物(帽子やヘルメットなど)、人が顔に装着している物(眼鏡やサングラスなど)、及び人が手に装着している物(時計など)などが含まれる。
<概要>
図1は、本実施形態の情報処理装置2000が行う処理を概念的に示す図である。情報処理装置2000は、カメラ10によって生成された撮像画像20から、対象オブジェクトを表す画像領域であるオブジェクト領域30を検出する。対象オブジェクトは、人の持ち物である。なお、ここでいう「人の持ち物」とは、人が手に持っている物(手提げカバンや杖など)には限定されず、何らかの形で人が所持している物を全般的に含む。例えば、人の持ち物には、人が肩に掛けている物(肩掛けカバンなど)、人が首から提げている物(身分証明書など)、人が背中に背負っている物(リュックサックなど)、人が頭に装着している物(帽子やヘルメットなど)、人が顔に装着している物(眼鏡やサングラスなど)、及び人が手に装着している物(時計など)などが含まれる。
情報処理装置2000は、対象オブジェクトの画像特徴に基づいて、撮像画像20から、候補領域22を1つ以上検出する。候補領域22は、対象オブジェクトを表すと推定される画像領域である。例えば対象オブジェクトが帽子であれば、情報処理装置2000は、帽子の画像特徴に基づいて、帽子を表すと推定される画像領域を検出し、検出した画像領域を候補領域22とする。候補領域22は、例えば、対象オブジェクトを表す確率が所定値以上であると推測される画像領域である。
また、情報処理装置2000は、撮像画像20から人物領域26を検出し、検出した人物領域26に基づいて、推定位置24を検出する。人物領域26は、人物を表すと推定される領域である。推定位置24は、撮像画像20において対象オブジェクトが存在すると推定される位置である。
ここで、人の持ち物は、その物の種類に応じて、人との相対的な位置関係を予測することができる。例えば、帽子の位置は、人の頭部である蓋然性が高い。その他にも例えば、サングラスの位置は、人の顔部分である蓋然性が高い。その他にも例えば、リュックサックの位置は、人の背中部分である蓋然性が高い。
そこで情報処理装置2000は、このように予測可能な対象オブジェクトと人との相対的な位置関係に基づいて、推定位置24を検出する。例えば対象オブジェクトが帽子であれば、情報処理装置2000は、人物領域26が表す人物と帽子との相対的な位置関係に基づいて、帽子が存在すると推定される位置を検出し、検出した位置を推定位置24とする。
そして情報処理装置2000は、候補領域22と推定位置24とに基づいて、オブジェクト領域30を特定する。例えば、情報処理装置2000は、複数検出された候補領域22のうち、推定位置24を含む候補領域22を、オブジェクト領域30として特定する。ただし、後述するように、候補領域22と推定位置24とに基づいて特定されるオブジェクト領域30は、推定位置24を含む候補領域22には限定されない。
<作用・効果>
本実施形態の情報処理装置2000によれば、対象オブジェクトの画像特徴に基づいて検出される候補領域22と、人物領域26に基づいて検出される推定位置24とを用いて、対象オブジェクトを表すオブジェクト領域30が特定される。こうすることで、対象オブジェクトの画像特徴に基づいて検出される候補領域22の全てがオブジェクト領域30(対象オブジェクトを表す画像領域)として特定されるわけではなく、人物領域26に基づいて検出される推定位置24によって、オブジェクト領域30として特定される候補領域22が限定される。例えば、対象オブジェクトが存在する蓋然性が低い位置の候補領域22は、オブジェクト領域30として特定されなくなる。このように、対象オブジェクトを表す画像領域を、対象オブジェクトの画像特徴という基準と人物を表す画像領域という基準の2つを利用して特定することにより、対象オブジェクトの画像特徴という1つの基準で特定する場合と比較し、対象オブジェクトを表す画像領域を高い精度で特定することができる。
本実施形態の情報処理装置2000によれば、対象オブジェクトの画像特徴に基づいて検出される候補領域22と、人物領域26に基づいて検出される推定位置24とを用いて、対象オブジェクトを表すオブジェクト領域30が特定される。こうすることで、対象オブジェクトの画像特徴に基づいて検出される候補領域22の全てがオブジェクト領域30(対象オブジェクトを表す画像領域)として特定されるわけではなく、人物領域26に基づいて検出される推定位置24によって、オブジェクト領域30として特定される候補領域22が限定される。例えば、対象オブジェクトが存在する蓋然性が低い位置の候補領域22は、オブジェクト領域30として特定されなくなる。このように、対象オブジェクトを表す画像領域を、対象オブジェクトの画像特徴という基準と人物を表す画像領域という基準の2つを利用して特定することにより、対象オブジェクトの画像特徴という1つの基準で特定する場合と比較し、対象オブジェクトを表す画像領域を高い精度で特定することができる。
ここで、対象オブジェクトの推定位置24は、人物を表す画像領域を利用して検出される。そのため、人物の一部のパーツ(例えば腕など)が撮像画像20から検出されなくても、推定位置24を検出することができる。よって、情報処理装置2000によれば、人物の一部のパーツが撮像画像20に含まれなかったとしても、オブジェクト領域30を特定することができる。
なお、図1を参照した上述の説明は、情報処理装置2000の理解を容易にするための例示であり、情報処理装置2000の機能を限定するものではない。以下、本実施形態の情報処理装置2000についてさらに詳細に説明する。
<情報処理装置2000の機能構成の例>
図2は、実施形態1の情報処理装置2000の機能構成を例示する図である。情報処理装置2000は、候補領域検出部2020、推定位置検出部2040、及び特定部2060を有する。候補領域検出部2020は、検出対象である対象オブジェクトの画像特徴に基づいて、撮像画像20から候補領域22を1つ以上検出する。推定位置検出部2040は、撮像画像20から人物領域26を検出する。さらに推定位置検出部2040は、検出した人物領域26に基づいて、推定位置24を検出する。特定部2060は、候補領域22と推定位置24とに基づいて、オブジェクト領域30を特定する。
図2は、実施形態1の情報処理装置2000の機能構成を例示する図である。情報処理装置2000は、候補領域検出部2020、推定位置検出部2040、及び特定部2060を有する。候補領域検出部2020は、検出対象である対象オブジェクトの画像特徴に基づいて、撮像画像20から候補領域22を1つ以上検出する。推定位置検出部2040は、撮像画像20から人物領域26を検出する。さらに推定位置検出部2040は、検出した人物領域26に基づいて、推定位置24を検出する。特定部2060は、候補領域22と推定位置24とに基づいて、オブジェクト領域30を特定する。
<情報処理装置2000のハードウエア構成>
情報処理装置2000の各機能構成部は、各機能構成部を実現するハードウエア(例:ハードワイヤードされた電子回路など)で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ(例:電子回路とそれを制御するプログラムの組み合わせなど)で実現されてもよい。以下、情報処理装置2000の各機能構成部がハードウエアとソフトウエアとの組み合わせで実現される場合について、さらに説明する。
情報処理装置2000の各機能構成部は、各機能構成部を実現するハードウエア(例:ハードワイヤードされた電子回路など)で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ(例:電子回路とそれを制御するプログラムの組み合わせなど)で実現されてもよい。以下、情報処理装置2000の各機能構成部がハードウエアとソフトウエアとの組み合わせで実現される場合について、さらに説明する。
図3は、情報処理装置2000を実現するための計算機1000を例示する図である。計算機1000は任意の計算機である。例えば計算機1000は、Personal Computer(PC)やサーバマシンなどの据え置き型の計算機である。その他にも例えば、計算機1000は、スマートフォンやタブレット端末などの可搬型の計算機である。その他にも例えば、計算機1000は、撮像画像20を生成するカメラ10であってもよい。計算機1000は、情報処理装置2000を実現するために設計された専用の計算機であってもよいし、汎用の計算機であってもよい。
計算機1000は、バス1020、プロセッサ1040、メモリ1060、ストレージデバイス1080、入出力インタフェース1100、及びネットワークインタフェース1120を有する。バス1020は、プロセッサ1040、メモリ1060、ストレージデバイス1080、入出力インタフェース1100、及びネットワークインタフェース1120が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ1040などを互いに接続する方法は、バス接続に限定されない。
プロセッサ1040は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、FPGA(Field-Programmable Gate Array)などの種々のプロセッサである。メモリ1060は、RAM(Random Access Memory)などを用いて実現される主記憶装置である。ストレージデバイス1080は、ハードディスク、SSD(Solid State Drive)、メモリカード、又は ROM(Read Only Memory)などを用いて実現される補助記憶装置である。
入出力インタフェース1100は、計算機1000と入出力デバイスとを接続するためのインタフェースである。例えば入出力インタフェース1100には、キーボードなどの入力装置や、ディスプレイ装置などの出力装置が接続される。ネットワークインタフェース1120は、計算機1000を通信網に接続するためのインタフェースである。この通信網は、例えば LAN(Local Area Network)や WAN(Wide Area Network)である。ネットワークインタフェース1120が通信網に接続する方法は、無線接続であってもよいし、有線接続であってもよい。
ストレージデバイス1080は、情報処理装置2000の各機能構成部を実現するプログラムモジュールを記憶している。プロセッサ1040は、これら各プログラムモジュールをメモリ1060に読み出して実行することで、各プログラムモジュールに対応する機能を実現する。
<カメラ10について>
カメラ10は、撮像を行い、その結果として画像データを生成する任意の撮像装置である。例えばカメラ10は、監視場所に設置された監視カメラである。
カメラ10は、撮像を行い、その結果として画像データを生成する任意の撮像装置である。例えばカメラ10は、監視場所に設置された監視カメラである。
前述した様に、情報処理装置2000を実現する計算機1000は、カメラ10であってもよい。この場合、カメラ10は、自身で生成した撮像画像20を解析することで、オブジェクト領域30の特定を行う。このような機能を持たせるカメラ10としては、例えば、インテリジェントカメラ、ネットワークカメラ、又は IP(Internet Protocol)カメラなどと呼ばれるカメラを用いることができる。
<情報処理装置2000の利用例>
情報処理装置2000は、「カメラによって生成された画像データから所定のオブジェクトを検出する」という処理が有用な任意の場面で利用することができる。例えば情報処理装置2000は、監視カメラによって生成された監視映像の解析に利用される。この場合、カメラ10は監視映像を生成する監視カメラである。また、撮像画像20は監視映像を構成するビデオフレームである。
情報処理装置2000は、「カメラによって生成された画像データから所定のオブジェクトを検出する」という処理が有用な任意の場面で利用することができる。例えば情報処理装置2000は、監視カメラによって生成された監視映像の解析に利用される。この場合、カメラ10は監視映像を生成する監視カメラである。また、撮像画像20は監視映像を構成するビデオフレームである。
情報処理装置2000は、監視映像を構成するビデオフレームから、所定のオブジェクトを表す画像領域(すなわち、対象オブジェクトを表すオブジェクト領域30)を特定する。こうすることで、監視場所における対象オブジェクトの存在を把握することができる。また、対象オブジェクトを持っている人物を検出することもできる。
より具体的には、情報処理装置2000によれば、監視映像を利用して、危険物の存在を把握したり、要注意人物(危険物を持っている人物やサングラスやヘルメットなどで顔を隠している人物など)の存在を把握したりすることができる。また、監視対象の施設で置き去り物体が発見された場合に、その施設の様々な場所に設置された監視カメラによって生成された過去の監視映像を情報処理装置2000で解析することにより、その置き去り物体が運ばれたルートの特定や、その置き去り物体を運んだ人物の検出などを行うこともできる。
<処理の流れ>
図4は、実施形態1の情報処理装置2000によって実行される処理の流れを例示するフローチャートである。情報処理装置2000は、撮像画像20を取得する(S102)。候補領域検出部2020は、対象オブジェクトの画像特徴に基づいて、撮像画像20から候補領域22を1つ以上検出する(S104)。推定位置検出部2040は、撮像画像20から人物領域26を検出する(S106)。推定位置検出部2040は、検出した人物領域26に基づいて、推定位置24を検出する(S108)。特定部2060は、候補領域22と推定位置24とに基づいて、オブジェクト領域30を特定する(S110)。
図4は、実施形態1の情報処理装置2000によって実行される処理の流れを例示するフローチャートである。情報処理装置2000は、撮像画像20を取得する(S102)。候補領域検出部2020は、対象オブジェクトの画像特徴に基づいて、撮像画像20から候補領域22を1つ以上検出する(S104)。推定位置検出部2040は、撮像画像20から人物領域26を検出する(S106)。推定位置検出部2040は、検出した人物領域26に基づいて、推定位置24を検出する(S108)。特定部2060は、候補領域22と推定位置24とに基づいて、オブジェクト領域30を特定する(S110)。
なお、必ずしも図4に示すように全ての処理がシーケンシャルに実行される必要はない。例えば、候補領域検出部2020が実行する処理(S104)と推定位置検出部2040が実行する処理(S106及びS108)とは、並行して実行されてもよい。
情報処理装置2000が図4に示す一連の処理を実行するタイミングは様々である。例えば情報処理装置2000は、カメラ10によって撮像画像20が生成される度に、その撮像画像20を取得して、図4に示す一連の処理を実行する。その他にも例えば、情報処理装置2000は、所定のタイミングで、カメラ10によって生成された撮像画像20を複数まとめて取得し、各撮像画像20について図4に示す一連の処理を実行する(いわゆるバッチ処理)。その他にも例えば、情報処理装置2000は、撮像画像20を指定する入力操作を受け付け、指定された撮像画像20について一連の処理を実行する。
<撮像画像20の取得:S102>
情報処理装置2000は撮像画像20を取得する(S102)。撮像画像20は、カメラ10によって生成された画像データそのものであってもよいし、カメラ10によって生成された画像データに対して何らかの処理(例えば色調補正やトリミングなど)が加えられたものであってもよい。
情報処理装置2000は撮像画像20を取得する(S102)。撮像画像20は、カメラ10によって生成された画像データそのものであってもよいし、カメラ10によって生成された画像データに対して何らかの処理(例えば色調補正やトリミングなど)が加えられたものであってもよい。
情報処理装置2000が撮像画像20を取得する方法は任意である。例えば情報処理装置2000は、撮像画像20が記憶されている記憶装置にアクセスすることで、撮像画像20を取得する。撮像画像20が記憶されている記憶装置は、カメラ10の内部に設けられていてもよいし、そのカメラの外部に設けられていてもよい。その他にも例えば、情報処理装置2000は、カメラ10から送信される撮像画像20を受信することで、撮像画像20を取得してもよい。なお、前述したように、情報処理装置2000がカメラ10として実現される場合、情報処理装置2000は、自身で生成した撮像画像20を取得する。
<候補領域22の検出:S104>
候補領域検出部2020は、対象オブジェクトの画像特徴に基づいて、撮像画像20から候補領域22を検出する(S104)。ここで、検出対象のオブジェクトの画像特徴に基づいて、画像データからそのオブジェクトを表すと推測される画像領域(すなわち、候補領域22)を検出する技術には、既存の技術を利用することができる。例えば、候補領域22の検出には、対象オブジェクトを表すと推定される画像領域を画像データから検出するように予め学習させた検出器を利用することができる。検出器のモデルには、ニューラルネットワーク(例えば、畳み込みニューラルネットワーク)や SVM(サポートベクトルマシン)などの任意のモデルを採用できる。
候補領域検出部2020は、対象オブジェクトの画像特徴に基づいて、撮像画像20から候補領域22を検出する(S104)。ここで、検出対象のオブジェクトの画像特徴に基づいて、画像データからそのオブジェクトを表すと推測される画像領域(すなわち、候補領域22)を検出する技術には、既存の技術を利用することができる。例えば、候補領域22の検出には、対象オブジェクトを表すと推定される画像領域を画像データから検出するように予め学習させた検出器を利用することができる。検出器のモデルには、ニューラルネットワーク(例えば、畳み込みニューラルネットワーク)や SVM(サポートベクトルマシン)などの任意のモデルを採用できる。
ここで、候補領域検出部2020は、対象オブジェクトを表すと推測される確率が閾値以上である画像領域を、候補領域22として検出する。ここで、この閾値を大きくすると、フォールスネガティブ(検出漏れ)が発生しやすくなる。一方、この閾値を小さくすると、フォールスポジティブ(誤検出)が発生しやすくなる。
この点、情報処理装置2000では、候補領域検出部2020のみによってオブジェクト領域30が特定されるわけではなく、推定位置検出部2040によって検出される推定位置24も用いて、オブジェクト領域30が特定される。そのため、閾値を大きめに設定して検出漏れが発生してしまうよりも、閾値を小さめに設定して誤検出が発生してしまう方が好ましいと言える。なぜなら、閾値を小さめに設定して候補領域22を多めに検出しておき、推定位置検出部2040によって検出される推定位置24を利用して候補領域22の絞り込みを行うという方法により、対象オブジェクトを表すオブジェクト領域30を高い精度で特定できるためである。
そこで、候補領域検出部2020が利用する上記閾値は、対象オブジェクトの画像特徴のみに基づいてオブジェクト領域30の特定を行う場合(すなわち、推定位置検出部2040を利用しない場合)に設定される閾値以下の値にすることが好適である。
候補領域検出部2020は、候補領域22の検出結果を表すデータを生成する。このデータは、検出された候補領域22を特定するデータであり、例えば候補領域22の特定の位置(例えば左上端の座標)及びサイズ(例えば幅と高さ)を示す。
<人物領域26の検出:S106>
推定位置検出部2040は、撮像画像20から人物領域26を検出する(S106)。ここで、画像データから人物を表す画像領域を検出する技術には、既存の技術を利用することができる。例えば、画像データから人物を表す画像領域を検出するように予め学習させた検出器を利用することができる。この検出器のモデルにも、例えば、ニューラルネットワークなどの任意のモデルを利用できる。
推定位置検出部2040は、撮像画像20から人物領域26を検出する(S106)。ここで、画像データから人物を表す画像領域を検出する技術には、既存の技術を利用することができる。例えば、画像データから人物を表す画像領域を検出するように予め学習させた検出器を利用することができる。この検出器のモデルにも、例えば、ニューラルネットワークなどの任意のモデルを利用できる。
ここで、推定位置24を検出するためには、人物領域26から人の身体の部位(頭部、顔、胴体、手、及び足など)を検出することが好適である。人の身体の部位も、前述した検出器などを利用した検出、テンプレート画像や局所特徴量などを利用して検出によって検出することができる。
その他にも例えば、推定位置検出部2040は、人物領域26として、人の関節の位置など、人の特徴的な点の集合を検出してもよい。関節などといった人の特徴的な点の位置を検出する技術には、例えば、非特許文献1に示す技術を利用することができる。
<推定位置24の検出:S106>
推定位置検出部2040は、人物領域26に基づいて推定位置24を検出する。前述した様に、推定位置24は、撮像画像20において対象オブジェクトが存在すると推定される位置である。推定位置24は、撮像画像20上の一点で表されてもよいし、画像領域で表されてもよい。
推定位置検出部2040は、人物領域26に基づいて推定位置24を検出する。前述した様に、推定位置24は、撮像画像20において対象オブジェクトが存在すると推定される位置である。推定位置24は、撮像画像20上の一点で表されてもよいし、画像領域で表されてもよい。
例えば推定位置24の検出には、人物を表す画像領域の位置が指定された画像データが入力されたことに応じて、その画像データにおいて対象オブジェクトが存在すると推定される位置を検出するように予め学習させた検出器を利用することができる。検出器のモデルにも、ニューラルネットワークなどの任意のモデルを採用できる。
この検出器の学習は、例えば、「画像データ、その画像データにおける人物領域、その画像データにおける対象オブジェクトの位置」という組み合わせで構成される教師データを用いて行う。このような教師データを用いることにより、検出器に、対象オブジェクトと人との相対的な位置関係を学習させることができる。さらに、上記教師データには、人物領域における人の各部位の位置を示す情報が含まれることが好適である。
推定位置検出部2040は、対象オブジェクトが存在する確率が所定値以上の位置を、推定位置24として検出する。この際、推定位置検出部2040は、推定位置24と併せて、その推定位置24に対象オブジェクトが存在する確率を出力するようにしてもよい。
例えば推定位置検出部2040は、推定位置24の検出結果を表すデータとして、撮像画像20と同じサイズの行列データを生成する。この行列データは、例えば、推定位置24の位置に1を示し、他の位置に0を示す。また、推定位置24に対象オブジェクトが存在する確率を出力する場合、この行列データは、各位置に対象オブジェクトが存在する確率を示す。ただし、推定位置24の検出結果を表すデータは任意の形式でよく、行列データに限定されない。
<<検出範囲の限定>>
推定位置検出部2040は、推定位置24の検出を行う画像領域を、候補領域22を利用いて限定してもよい。すなわち、撮像画像20全体からではなく、候補領域22に基づいて限定される一部の画像領域から推定位置24の検出を行う。こうすることで、推定位置24の検出に要する時間や計算機資源を削減することができる。
推定位置検出部2040は、推定位置24の検出を行う画像領域を、候補領域22を利用いて限定してもよい。すなわち、撮像画像20全体からではなく、候補領域22に基づいて限定される一部の画像領域から推定位置24の検出を行う。こうすることで、推定位置24の検出に要する時間や計算機資源を削減することができる。
例えば推定位置検出部2040は、候補領域22の内部のみを、推定位置24の検出範囲とする。その他にも例えば、推定位置検出部2040は、候補領域22を含む所定の範囲から推定位置24を検出する。例えばこの所定の範囲は、候補領域22を1より大きい所定の倍率で拡大することで得られる範囲である。
なお、推定位置検出部2040は、人物領域26を検出する画像領域についても、候補領域22を利用して限定してもよい。例えば、推定位置検出部2040は、候補領域22を含む所定の範囲(例えば、候補領域22を拡大することで得られる範囲)から人物領域26を検出する。
<オブジェクト領域30の特定>
特定部2060は、候補領域22と推定位置24とに基づいて、オブジェクト領域30を特定する。概念的には、特定部2060は、推定位置24を用いて、対象オブジェクトを含むと推測される画像領域である候補領域22の中から、対象オブジェクトを含む蓋然性が特に高いものを特定し、特定した候補領域22をオブジェクト領域30として特定する。ただし後述するように、オブジェクト領域30は、いずれか1つの候補領域22と完全に一致する必要はなく、候補領域22の一部の画像領域であってもよい。
特定部2060は、候補領域22と推定位置24とに基づいて、オブジェクト領域30を特定する。概念的には、特定部2060は、推定位置24を用いて、対象オブジェクトを含むと推測される画像領域である候補領域22の中から、対象オブジェクトを含む蓋然性が特に高いものを特定し、特定した候補領域22をオブジェクト領域30として特定する。ただし後述するように、オブジェクト領域30は、いずれか1つの候補領域22と完全に一致する必要はなく、候補領域22の一部の画像領域であってもよい。
特定部2060は、候補領域22と推定位置24との重なりに着目してオブジェクト領域30を特定する。その具体的な方法には、様々な方法を採用することができる。以下、その具体的な方法を例示する。
<<具体的な方法1>>
特定部2060は、推定位置24を含む候補領域22を、オブジェクト領域30として特定する。図5は、推定位置24を含む候補領域22を例示する図である。図5では、撮像画像20から、候補領域22が複数検出されている。また、推定位置24が1つ検出されている。ここで、推定位置24は候補領域22-1に含まれている。そこで特定部2060は、候補領域22-1をオブジェクト領域30として特定する。
特定部2060は、推定位置24を含む候補領域22を、オブジェクト領域30として特定する。図5は、推定位置24を含む候補領域22を例示する図である。図5では、撮像画像20から、候補領域22が複数検出されている。また、推定位置24が1つ検出されている。ここで、推定位置24は候補領域22-1に含まれている。そこで特定部2060は、候補領域22-1をオブジェクト領域30として特定する。
<<具体的な方法2>>
ここでは、推定位置24が複数算出されることを前提とする。そして特定部2060は、各候補領域22について、推定位置24を含む度合いを表すスコア(以下、第1スコア)を算出する。特定部2060は、第1スコアに基づいてオブジェクト領域30を特定する。
ここでは、推定位置24が複数算出されることを前提とする。そして特定部2060は、各候補領域22について、推定位置24を含む度合いを表すスコア(以下、第1スコア)を算出する。特定部2060は、第1スコアに基づいてオブジェクト領域30を特定する。
第1スコアに基づいてオブジェクト領域30を特定する方法は様々である。例えば特定部2060は、第1スコアが最大である候補領域22を、オブジェクト領域30として特定する。その他にも例えば、特定部2060は、第1スコアが所定値以上である候補領域22をオブジェクト領域30として特定する。後者の場合、オブジェクト領域30が複数特定されうる。
第1スコアの定め方は様々である。例えば特定部2060は、候補領域22に含まれる推定位置24の数を、その候補領域22についての第1スコアとして算出する。その他にも例えば、特定部2060は、候補領域22に含まれる推定位置24の数を候補領域22の大きさで正規化した値(例えば、推定位置24の数を候補領域22の面積で割った値)を、その候補領域22についての第1スコアとして算出する。
図6は、候補領域22に含まれる推定位置24の数に基づいて算出される第1スコアを例示する図である。候補領域22には推定位置24が3つ含まれている。そこで例えば、特定部2060は、候補領域22の第1スコアを3とする。ここで、候補領域22の面積が S であるとする。この場合、特定部2060は、候補領域22の第1スコアを候補領域22の面積で正規化した 3/S を第1スコアとしてもよい。
第1スコアの算出方法は前述の例に限定されない。例えば、各推定位置24について、対象オブジェクトが存在する確率が算出されているとする。この場合、特定部2060は、候補領域22に含まれる各推定位置24について算出された存在確率の総和を、その候補領域22についての第1スコアとして算出してもよい。
図7は、推定位置24について算出された対象オブジェクトの存在確率を考慮して算出される第1スコアを例示する図である。候補領域22には推定位置24が3つ含まれており、それぞれについて算出された存在確率は p1, p2, 及び p3 である。そのため、候補領域22の第1スコアは p1+p2+p3 である。
このように、推定位置24に対象オブジェクトが存在する確率を考慮して第1スコアを算出することにより、対象オブジェクトを表すオブジェクト領域30をより高い精度で特定することができる。例えば、対象オブジェクトの存在確率が 0.1 である推定位置24を3つ含む候補領域22よりも、対象オブジェクトの存在確率が 0.6 である推定位置24を1つ含む候補領域22の方が、対象オブジェクトを表す画像領域である蓋然性が高いといえる。存在確率の総和を第1スコアとする算出方法によれば、後者の候補領域22の第1スコアが、前者の候補領域22の第1スコアよりも大きくなる。そのため、後者の候補領域22の方が、オブジェクト領域30として特定されやすくなる。
<<具体的な方法3>>
ここでは、候補領域検出部2020が、各候補領域22について、その候補領域22が対象オブジェクトを表す確率を算出するとする。また、特定部2060は、各候補領域22について、前述した第1スコアを算出するとする。特定部2060は、候補領域22が対象オブジェクトを表す確率と、第1スコアとの積として、第2スコアを算出する。そして特定部2060は、第2スコアに基づいてオブジェクト領域30を特定する。
ここでは、候補領域検出部2020が、各候補領域22について、その候補領域22が対象オブジェクトを表す確率を算出するとする。また、特定部2060は、各候補領域22について、前述した第1スコアを算出するとする。特定部2060は、候補領域22が対象オブジェクトを表す確率と、第1スコアとの積として、第2スコアを算出する。そして特定部2060は、第2スコアに基づいてオブジェクト領域30を特定する。
第2スコアに基づいてオブジェクト領域30を特定する方法は様々である。例えば特定部2060は、第2スコアが最大である候補領域22を、オブジェクト領域30として特定する。その他にも例えば、特定部2060は、第2スコアが所定値以上である候補領域22をオブジェクト領域30として特定する。
<<具体的な方法4>>
特定部2060は、候補領域22の代表点と推定位置24との間の距離に基づく第3スコアを算出し、算出した第3スコアに基づいてオブジェクト領域30を特定する。第3スコアに基づいてオブジェクト領域30を特定する方法は様々である。例えば特定部2060は、最も小さい第3スコアが算出された候補領域22を、オブジェクト領域30として特定する。その他にも例えば、特定部2060は、所定値以下の第3スコアが算出された候補領域22を、オブジェクト領域30として特定する。
特定部2060は、候補領域22の代表点と推定位置24との間の距離に基づく第3スコアを算出し、算出した第3スコアに基づいてオブジェクト領域30を特定する。第3スコアに基づいてオブジェクト領域30を特定する方法は様々である。例えば特定部2060は、最も小さい第3スコアが算出された候補領域22を、オブジェクト領域30として特定する。その他にも例えば、特定部2060は、所定値以下の第3スコアが算出された候補領域22を、オブジェクト領域30として特定する。
候補領域22の代表点は、候補領域22に含まれる任意の点とすることができる。例えば候補領域22の代表点は、候補領域22の中心である。
推定位置24が複数ある場合、特定部2060は、複数の推定位置24それぞれについて候補領域22の代表点との間の距離を算出してもよいし、いずれか1つの推定位置24について候補領域22の代表点との間の距離を算出してもよい。前者の場合、例えば特定部2060は、算出した複数の距離の統計値(最小値、最頻値、又は平均値など)に基づいて第3スコアを算出する。後者の場合、特定部2060は、1つの推定位置24と候補領域22の代表点との間の距離を算出し、その距離に基づいて第3スコアを算出する。
ここで、1つの推定位置24のみについて、候補領域22の代表点との間の距離を算出する場合において、その推定位置24を特定する方法は様々である。例えば特定部2060は、複数の推定位置24で構成される画像領域の中心を算出し、その中心に最も近い推定位置24を特定し、特定した推定位置24と候補領域22の代表点との間の距離を算出する。その他にも例えば、各推定位置24について対象オブジェクトの存在確率が算出されている場合、特定部2060は、対象オブジェクトの存在確率が最も高い推定位置24と候補領域22の代表点との間の距離を算出する。
また、推定位置24が画像領域として表されている場合、特定部2060は、その画像領域の代表点と候補領域22の代表点との間の距離に基づいて、第3スコアを算出する。画像領域として表されている推定位置24の代表点は、例えば、その画像領域の中心位置である。
推定位置24と候補領域22の代表点との間の距離に基づいて第3スコアを算出する方法は様々である。例えば特定部2060は、候補領域22の代表点と推定位置24との間の距離そのものを第3スコアとする。
その他にも例えば、特定部2060は、候補領域22の代表点と推定位置24との間の距離に、その推定位置24に対象オブジェクトが存在する確率に基づく補正係数を乗算した値を、第3スコアとする。補正係数は、推定位置24に対象オブジェクトが存在する確率が高いほど小さくなるようにする。例えば補正係数は、推定位置24に対象オブジェクトが存在する確率の逆数である。
このように推定位置24に対象オブジェクトが存在する確率を考慮することで、対象オブジェクトを表すオブジェクト領域30をより高い精度で特定することができる。例えば、対象オブジェクトが存在する確率が 0.1 である推定位置24との間の距離が1である候補領域22よりも、対象オブジェクトが存在する確率が 0.6 である推定位置24との間の距離が2である候補領域22の方が、対象オブジェクトを表す画像領域である蓋然性が高いと考えられる。上述した補正係数を利用する方法によれば、後者の候補領域22の方が、前者の候補領域22よりも、第3スコアが大きくなる。よって、後者の候補領域22の方が、オブジェクト領域30として特定されやすくなる。
<結果の出力>
情報処理装置2000は、オブジェクト領域30を特定する情報(以下、出力情報)を出力する。出力情報を出力する方法は様々である。例えば情報処理装置2000は、出力情報を任意の記憶装置に記憶させる。その他にも例えば、情報処理装置2000は、出力情報をディスプレイ装置に記憶させる。
情報処理装置2000は、オブジェクト領域30を特定する情報(以下、出力情報)を出力する。出力情報を出力する方法は様々である。例えば情報処理装置2000は、出力情報を任意の記憶装置に記憶させる。その他にも例えば、情報処理装置2000は、出力情報をディスプレイ装置に記憶させる。
例えば出力情報は、撮像画像20の識別子、オブジェクト領域30の特定の位置(例えば、オブジェクト領域30の左上端の座標)、及びオブジェクト領域30のサイズ(例えば、幅と高さ)を示す。撮像画像20からオブジェクト領域30が特定された場合、出力情報は、複数のオブジェクト領域30それぞれについて、位置及びサイズを示す。その他にも例えば、出力情報は、オブジェクト領域30を示す情報(例えば枠)を重畳させた撮像画像20であってもよい。
[実施形態2]
図8は、実施形態2の情報処理装置2000の機能構成を例示するブロック図である。以下で説明する点を除き、実施形態2の情報処理装置2000は、実施形態1の情報処理装置2000と同様の機能を有する。
図8は、実施形態2の情報処理装置2000の機能構成を例示するブロック図である。以下で説明する点を除き、実施形態2の情報処理装置2000は、実施形態1の情報処理装置2000と同様の機能を有する。
実施形態2の情報処理装置2000は、複数の種類の対象オブジェクトを扱う。具体的には、情報処理装置2000は、検出すべきオブジェクトの種類を示す種類情報を取得し、種類情報に示されている種類のオブジェクトを対象オブジェクトとする。そのために、実施形態2の情報処理装置2000は、種類情報を取得する種類情報取得部2080を有する。
種類情報が示すオブジェクトの種類は、1つであってもよいし、複数であってもよい。種類情報がオブジェクトの種類を複数示す場合、情報処理装置2000は、各種類のオブジェクトをそれぞれ対象オブジェクトとして、各対象オブジェクトについてオブジェクト領域30を特定する。例えば、種類情報が「帽子、サングラス、白杖」という3つの種類を示している場合、情報処理装置2000は、撮像画像20の中から、帽子を表すオブジェクト領域30、サングラスを表すオブジェクト領域30、及び白杖を表すオブジェクト領域30をそれぞれ特定する。
種類情報取得部2080が種類情報を取得する方法は様々である。例えば種類情報取得部2080は、種類情報が記憶されている記憶装置から種類情報を取得する。その他にも例えば、種類情報取得部2080は、他の装置から送信される種類情報を受信することで、種類情報を取得する。その他にも例えば、種類情報取得部2080は、ユーザから種類情報の入力を受け付けることで、種類情報を取得する。
実施形態2の候補領域検出部2020は、種類情報に示されている種類のオブジェクトについて候補領域22を検出する。ここで、特定の種類のオブジェクトを画像データから検出する技術には、既存の技術を利用できる。例えば、オブジェクトの種類ごとに、その種類のオブジェクトを画像データから検出するように学習させた検出器を用意しておく。候補領域検出部2020は、撮像画像20を、種類情報が示す種類のオブジェクトについて候補領域22を検出するように学習させた検出器に対して入力することで、その種類のオブジェクトについて候補領域22を検出する。
実施形態2の推定位置検出部2040は、人物領域26に基づき、種類情報に示されている種類のオブジェクトについて推定位置24を検出する。例えば、推定位置検出部2040においても、オブジェクトの種類ごとに、推定位置24を検出する検出器を用意しておく。すなわち、オブジェクトの種類ごとに、オブジェクトと人との位置関係を学習させておく。推定位置検出部2040は、撮像画像20及び人物領域26を特定する情報を、種類情報が示す種類のオブジェクトについて推定位置24を検出するように学習させた検出器に対して入力することで、その種類のオブジェクトについて推定位置24を検出する。
実施形態2の特定部2060は、上述のように種類情報が示す種類の対象オブジェクトについて検出された候補領域22及び推定位置24に基づいてオブジェクト領域30を特定する。出力情報は、オブジェクトの種類ごとに生成される。
<作用効果>
実施形態の情報処理装置2000によれば、種類情報によって示されている種類のオブジェクトについて、オブジェクト領域30が特定される。こうすることで、複数の種類のオブジェクトのうち、指定されたオブジェクトを撮像画像20から検出するように、情報処理装置2000を設定できる。そのため、複数の種類のオブジェクトそれぞれを撮像画像20から検出したり、その時々で検出するオブジェクトの種類を変更したりすることができる。そのため、情報処理装置2000の利便性が向上する。
実施形態の情報処理装置2000によれば、種類情報によって示されている種類のオブジェクトについて、オブジェクト領域30が特定される。こうすることで、複数の種類のオブジェクトのうち、指定されたオブジェクトを撮像画像20から検出するように、情報処理装置2000を設定できる。そのため、複数の種類のオブジェクトそれぞれを撮像画像20から検出したり、その時々で検出するオブジェクトの種類を変更したりすることができる。そのため、情報処理装置2000の利便性が向上する。
例えば、要注意人物の持ち物に関する情報が得られたことに応じ、要注意人物の持ち物を検出するように撮像画像20を設定することができる。また、置き去り物体が発見された場合、その置き去り物体を検出するように情報処理装置2000を設定することができる。
<ハードウエア構成の例>
実施形態2の情報処理装置2000を実現する計算機のハードウエア構成は、実施形態1と同様に、例えば図3によって表される。ただし、本実施形態の情報処理装置2000を実現する計算機1000のストレージデバイス1080には、本実施形態の情報処理装置2000の機能を実現するプログラムモジュールがさらに記憶される。
実施形態2の情報処理装置2000を実現する計算機のハードウエア構成は、実施形態1と同様に、例えば図3によって表される。ただし、本実施形態の情報処理装置2000を実現する計算機1000のストレージデバイス1080には、本実施形態の情報処理装置2000の機能を実現するプログラムモジュールがさらに記憶される。
<処理の流れ>
図9は、実施形態2の情報処理装置2000によって実行される処理の流れを例示するフローチャートである。種類情報取得部2080は、種類情報を取得する(S202)。情報処理装置2000は撮像画像20を取得する(S204)。候補領域検出部2020は、種類情報に示される種類のオブジェクトについて、候補領域22を検出する(S206)。推定位置検出部2040は人物領域26を検出する(S208)。推定位置検出部2040は、人物領域26に基づき、種類情報に示される種類のオブジェクトについて、推定位置24を検出する(S210)。特定部2060は、検出された候補領域22及び推定位置24に基づいて、オブジェクト領域30を特定する。
図9は、実施形態2の情報処理装置2000によって実行される処理の流れを例示するフローチャートである。種類情報取得部2080は、種類情報を取得する(S202)。情報処理装置2000は撮像画像20を取得する(S204)。候補領域検出部2020は、種類情報に示される種類のオブジェクトについて、候補領域22を検出する(S206)。推定位置検出部2040は人物領域26を検出する(S208)。推定位置検出部2040は、人物領域26に基づき、種類情報に示される種類のオブジェクトについて、推定位置24を検出する(S210)。特定部2060は、検出された候補領域22及び推定位置24に基づいて、オブジェクト領域30を特定する。
以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
Claims (19)
- 検出対象である対象オブジェクトの画像特徴に基づいて、撮像画像から、前記対象オブジェクトを表すと推定される画像領域である候補領域を1つ以上検出する候補領域検出部と、
前記撮像画像から人物を表す人物領域を検出し、前記人物領域に基づいて、前記撮像画像における前記対象オブジェクトの推定位置を検出する推定位置検出部と、
前記1つ以上の候補領域と前記推定位置に基づいて、前記1つ以上の候補領域の中から、前記対象オブジェクトを表す画像領域であるオブジェクト領域を特定する特定部と、を有する情報処理装置。 - 前記推定位置検出部は、人物領域が入力されたことに応じて前記対象オブジェクトの推定位置を出力するように学習された検出器を用いて、前記撮像画像から前記対象オブジェクトの推定位置を検出する、請求項1に記載の情報処理装置。
- 前記特定部は、前記1つ以上の候補領域のうち、前記推定位置を含む前記候補領域を、前記オブジェクト領域として特定する、請求項1又は2に記載の情報処理装置。
- 前記推定位置検出部は、前記対象オブジェクトの推定位置を複数検出し、
前記特定部は、各前記候補領域について、その候補領域が前記推定位置を含む度合いを表す第1スコアを算出し、前記第1スコアが最も大きい前記候補領域、又は前記第1スコアが所定値以上である候補領域を、前記オブジェクト領域として特定する、請求項1又は2に記載の情報処理装置。 - 前記候補領域検出部は、各候補領域について、その候補領域が前記対象オブジェクトを表す確率を算出し、
前記特定部は、各候補領域について、その候補領域が前記推定位置を含む度合いと、その候補領域が前記対象オブジェクトを表す確率との積に基づく第2スコアを算出し、前記第2スコアが最も大きい前記候補領域、又は前記第2スコアが所定値以上である候補領域を、前記オブジェクト領域として特定する、請求項1又は2に記載の情報処理装置。 - 前記特定部は、前記候補領域の代表点と前記推定位置との間の距離を算出し、前記算出した距離が所定値以下である前記候補領域を前記オブジェクト領域として特定する、請求項1又は2に記載の情報処理装置。
- 前記推定位置検出部は、前記対象オブジェクトが所定値以上の確率で存在する前記撮像画像上の位置を前記推定位置として算出する、請求項1乃至6いずれか一項に記載の情報処理装置。
- 前記推定位置検出部は、前記撮像画像のうち、前記候補領域を含む一部の画像領域から前記推定位置を検出する、請求項1乃至7いずれか一項に記載の情報処理装置。
- オブジェクトの種類を示す種類情報を取得する種類情報取得部を有し、
前記種類情報に示されている種類のオブジェクトを前記対象オブジェクトとする、請求項1乃至8いずれか一項に記載の情報処理装置。 - コンピュータによって実行される制御方法であって、
検出対象である対象オブジェクトの画像特徴に基づいて、撮像画像から、前記対象オブジェクトを表すと推定される画像領域である候補領域を1つ以上検出する候補領域検出ステップと、
前記撮像画像から人物を表す人物領域を検出し、前記人物領域に基づいて、前記撮像画像における前記対象オブジェクトの推定位置を検出する推定位置検出ステップと、
前記1つ以上の候補領域と前記推定位置に基づいて、前記1つ以上の候補領域の中から、前記対象オブジェクトを表す画像領域であるオブジェクト領域を特定する特定ステップと、を有する制御方法。 - 前記推定位置検出ステップにおいて、人物領域が入力されたことに応じて前記対象オブジェクトの推定位置を出力するように学習された検出器を用いて、前記撮像画像から前記対象オブジェクトの推定位置を検出する、請求項10に記載の制御方法。
- 前記特定ステップにおいて、前記1つ以上の候補領域のうち、前記推定位置を含む前記候補領域を、前記オブジェクト領域として特定する、請求項10又は11に記載の制御方法。
- 前記推定位置検出ステップにおいて、前記対象オブジェクトの推定位置を複数検出し、
前記特定ステップにおいて、各前記候補領域について、その候補領域が前記推定位置を含む度合いを表す第1スコアを算出し、前記第1スコアが最も大きい前記候補領域、又は前記第1スコアが所定値以上である候補領域を、前記オブジェクト領域として特定する、請求項10又は11に記載の制御方法。 - 前記候補領域検出ステップにおいて、各候補領域について、その候補領域が前記対象オブジェクトを表す確率を算出し、
前記特定ステップにおいて、各候補領域について、その候補領域が前記推定位置を含む度合いと、その候補領域が前記対象オブジェクトを表す確率との積に基づく第2スコアを算出し、前記第2スコアが最も大きい前記候補領域、又は前記第2スコアが所定値以上である候補領域を、前記オブジェクト領域として特定する、請求項10又は11に記載の制御方法。 - 前記特定ステップにおいて、前記候補領域の代表点と前記推定位置との間の距離を算出し、前記算出した距離が所定値以下である前記候補領域を前記オブジェクト領域として特定する、請求項10又は11に記載の制御方法。
- 前記推定位置検出ステップにおいて、前記対象オブジェクトが所定値以上の確率で存在する前記撮像画像上の位置を前記推定位置として算出する、請求項10乃至15いずれか一項に記載の制御方法。
- 前記推定位置検出ステップにおいて、前記撮像画像のうち、前記候補領域を含む一部の画像領域から前記推定位置を検出する、請求項10乃至16いずれか一項に記載の制御方法。
- オブジェクトの種類を示す種類情報を取得する種類情報取得ステップを有し、
前記種類情報に示されている種類のオブジェクトを前記対象オブジェクトとする、請求項10乃至17いずれか一項に記載の制御方法。 - 請求項10乃至18いずれか一項に記載の制御方法の各ステップをコンピュータに実行させるプログラム。
Priority Applications (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/048,235 US11610385B2 (en) | 2018-04-26 | 2018-04-26 | Information processing apparatus, control method, and non-transitory storage medium |
JP2020515397A JP6992881B2 (ja) | 2018-04-26 | 2018-04-26 | 情報処理装置、制御方法、及びプログラム |
PCT/JP2018/017031 WO2019207721A1 (ja) | 2018-04-26 | 2018-04-26 | 情報処理装置、制御方法、及びプログラム |
JP2021197557A JP7331910B2 (ja) | 2018-04-26 | 2021-12-06 | 情報処理装置、情報処理方法、及びプログラム |
US17/949,376 US11887331B2 (en) | 2018-04-26 | 2022-09-21 | Information processing apparatus, control method, and non-transitory storage medium |
JP2023122331A JP7501747B2 (ja) | 2018-04-26 | 2023-07-27 | 情報処理装置、制御方法、及びプログラム |
US18/528,904 US20240104769A1 (en) | 2018-04-26 | 2023-12-05 | Information processing apparatus, control method, and non-transitory storage medium |
JP2024084545A JP2024098114A (ja) | 2018-04-26 | 2024-05-24 | 情報処理装置、情報処理方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/017031 WO2019207721A1 (ja) | 2018-04-26 | 2018-04-26 | 情報処理装置、制御方法、及びプログラム |
Related Child Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
US17/048,235 A-371-Of-International US11610385B2 (en) | 2018-04-26 | 2018-04-26 | Information processing apparatus, control method, and non-transitory storage medium |
US17/949,376 Continuation US11887331B2 (en) | 2018-04-26 | 2022-09-21 | Information processing apparatus, control method, and non-transitory storage medium |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2019207721A1 true WO2019207721A1 (ja) | 2019-10-31 |
Family
ID=68293889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2018/017031 WO2019207721A1 (ja) | 2018-04-26 | 2018-04-26 | 情報処理装置、制御方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (3) | US11610385B2 (ja) |
JP (1) | JP6992881B2 (ja) |
WO (1) | WO2019207721A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118075438A (zh) * | 2024-04-19 | 2024-05-24 | 北京电科智芯科技有限公司 | 视频显示方法及装置、控制器、视频显示系统 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111814513B (zh) * | 2019-04-11 | 2024-02-13 | 富士通株式会社 | 行人物品检测装置及方法、电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013065156A (ja) * | 2011-09-16 | 2013-04-11 | Kddi Corp | 画像解析装置および画像評価装置 |
JP2016162414A (ja) * | 2015-03-05 | 2016-09-05 | 株式会社日立製作所 | 画像処理装置 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4912206B2 (ja) | 2007-04-18 | 2012-04-11 | 富士通株式会社 | 画像処理方法、画像処理装置、画像処理システム及びコンピュータプログラム |
JP5247337B2 (ja) | 2008-10-02 | 2013-07-24 | キヤノン株式会社 | 画像認識装置および画像認識方法 |
US8848970B2 (en) * | 2011-04-26 | 2014-09-30 | Digimarc Corporation | Salient point-based arrangements |
US9111147B2 (en) * | 2011-11-14 | 2015-08-18 | Massachusetts Institute Of Technology | Assisted video surveillance of persons-of-interest |
US9177360B2 (en) * | 2012-09-11 | 2015-11-03 | Apple Inc. | Automatic image orientation and straightening through image analysis |
JP6185517B2 (ja) | 2015-06-30 | 2017-08-23 | セコム株式会社 | 画像監視装置 |
JP6649306B2 (ja) * | 2017-03-03 | 2020-02-19 | 株式会社東芝 | 情報処理装置、情報処理方法及びプログラム |
JP7229174B2 (ja) * | 2017-04-14 | 2023-02-27 | コーニンクレッカ フィリップス エヌ ヴェ | 人識別システム及び方法 |
WO2020102021A2 (en) * | 2018-11-13 | 2020-05-22 | Nvidia Corporation | Determining associations between objects and persons using machine learning models |
US20210375045A1 (en) * | 2020-05-29 | 2021-12-02 | Viettel Group | System and method for reconstructing a 3d human body under clothing |
-
2018
- 2018-04-26 WO PCT/JP2018/017031 patent/WO2019207721A1/ja active Application Filing
- 2018-04-26 US US17/048,235 patent/US11610385B2/en active Active
- 2018-04-26 JP JP2020515397A patent/JP6992881B2/ja active Active
-
2022
- 2022-09-21 US US17/949,376 patent/US11887331B2/en active Active
-
2023
- 2023-12-05 US US18/528,904 patent/US20240104769A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013065156A (ja) * | 2011-09-16 | 2013-04-11 | Kddi Corp | 画像解析装置および画像評価装置 |
JP2016162414A (ja) * | 2015-03-05 | 2016-09-05 | 株式会社日立製作所 | 画像処理装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118075438A (zh) * | 2024-04-19 | 2024-05-24 | 北京电科智芯科技有限公司 | 视频显示方法及装置、控制器、视频显示系统 |
Also Published As
Publication number | Publication date |
---|---|
JP6992881B2 (ja) | 2022-01-13 |
US11610385B2 (en) | 2023-03-21 |
US11887331B2 (en) | 2024-01-30 |
US20210073564A1 (en) | 2021-03-11 |
US20230018589A1 (en) | 2023-01-19 |
JPWO2019207721A1 (ja) | 2021-04-01 |
US20240104769A1 (en) | 2024-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3539054B1 (en) | Neural network image processing apparatus | |
US9075453B2 (en) | Human eye controlled computer mouse interface | |
Ibrahim et al. | Embedded system for eye blink detection using machine learning technique | |
JP6013241B2 (ja) | 人物認識装置、及び方法 | |
US11887331B2 (en) | Information processing apparatus, control method, and non-transitory storage medium | |
CN111259751A (zh) | 基于视频的人体行为识别方法、装置、设备及存储介质 | |
JP2014093023A (ja) | 物体検出装置、物体検出方法及びプログラム | |
WO2018078857A1 (ja) | 視線推定装置、視線推定方法及びプログラム記録媒体 | |
JP2024098114A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
WO2021250808A1 (ja) | 画像処理装置、画像処理方法、及びプログラム | |
WO2022009301A1 (ja) | 画像処理装置、画像処理方法、及びプログラム | |
JP6992900B2 (ja) | 情報処理装置、制御方法、及びプログラム | |
JP7364077B2 (ja) | 画像処理装置、画像処理方法、及びプログラム | |
JP7259921B2 (ja) | 情報処理装置、及び制御方法 | |
JP7435781B2 (ja) | 画像選択装置、画像選択方法、及びプログラム | |
WO2022079794A1 (ja) | 画像選択装置、画像選択方法、及びプログラム | |
EP4405896A1 (en) | Electronic device and method for determining human height using neural networks | |
WO2021038840A1 (ja) | 物体数推定装置、制御方法、及びプログラム | |
CN112149598A (zh) | 一种侧脸评估方法、装置、电子设备及存储介质 | |
Zhao et al. | Octree segmentation based calling gesture recognition for elderly care robot | |
JP7302741B2 (ja) | 画像選択装置、画像選択方法、およびプログラム | |
WO2021250809A1 (ja) | 画像処理装置、画像処理方法、及びプログラム | |
WO2022249278A1 (ja) | 画像処理装置、画像処理方法、およびプログラム | |
WO2023112321A1 (ja) | 画像処理システム、画像処理方法及び非一時的なコンピュータ可読媒体 | |
WO2022249331A1 (ja) | 画像処理装置、画像処理方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 18916412 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2020515397 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 18916412 Country of ref document: EP Kind code of ref document: A1 |