WO2021260934A1 - 情報処理装置、情報処理方法およびプログラム記憶媒体 - Google Patents

情報処理装置、情報処理方法およびプログラム記憶媒体 Download PDF

Info

Publication number
WO2021260934A1
WO2021260934A1 PCT/JP2020/025309 JP2020025309W WO2021260934A1 WO 2021260934 A1 WO2021260934 A1 WO 2021260934A1 JP 2020025309 W JP2020025309 W JP 2020025309W WO 2021260934 A1 WO2021260934 A1 WO 2021260934A1
Authority
WO
WIPO (PCT)
Prior art keywords
recognition target
feature amount
tracking
candidate
extraction
Prior art date
Application number
PCT/JP2020/025309
Other languages
English (en)
French (fr)
Inventor
威 有熊
貴稔 北野
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2022532219A priority Critical patent/JP7364079B2/ja
Priority to PCT/JP2020/025309 priority patent/WO2021260934A1/ja
Publication of WO2021260934A1 publication Critical patent/WO2021260934A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion

Definitions

  • the present invention relates to a technique for recognizing a recognition target from an image.
  • a recognition target for example, an object such as a person or a vehicle
  • a computer detects a candidate to be recognized from a video, and a feature amount is extracted from the image of the detected candidate. Then, the extracted feature amount and the feature amount of the image to be recognized registered in advance are compared, and based on the comparison result, whether or not the candidate image detected from the video is the image to be recognized. Is judged.
  • the feature amount extraction process that extracts the feature amount from the image puts a heavy load on the computer. Further, if the feature amount extraction processing is performed on all the recognition target candidates included in the video, the load on the computer by the feature amount extraction processing increases according to the number of recognition target candidates included in the video. In other words, the feature quantity extraction process consumes a large amount of computational resources, and also increases the consumption of computational resources as the number of recognition target candidates included in the video increases.
  • recognition included in the image such as many candidates for recognition (for example, people and cars) appearing in the image of the surveillance area during the daytime, but hardly appearing at night.
  • the number of target candidates may fluctuate significantly depending on the situation. Therefore, it is assumed that a computational resource for executing the feature quantity extraction process is prepared according to the case where the number of recognition target candidates expected to be included in the video is large. In this case, if the number of recognition target candidates included in the video is small, the consumption of computational resources by the feature quantity extraction process is reduced, so that a situation occurs in which the computational resources are wasted. On the contrary, it is assumed that a computational resource for executing the feature quantity extraction process is prepared according to the case where the number of recognition target candidates expected to be included in the video is small.
  • the recognition target is recognized after being photographed. It takes time to do so, which may interfere with video surveillance.
  • Patent Document 1 in order to suppress the consumption of computational resources, a plurality of images set as a selection width in a series of time-series frames constituting a moving image are included in a face image detected as the same person. It is shown that the best shot is selected for evaluation.
  • the technique of Patent Document 1 can suppress the consumption of computational resources as compared with the case of evaluating all the facial images of the same person.
  • the technique of Patent Document 1 As the number of facial images contained in the same frame increases, the number of best shot facial images selected as evaluation targets from the frames of the selection width increases accordingly. , The consumption of computational resources due to the evaluation process will increase. Further, since the technique of Patent Document 1 evaluates only the best shots selected for each predetermined number of sheets, the best shots selected as the best shots are unclear facial images that are not suitable for evaluation. In some cases, there is a problem that the evaluation accuracy is lowered.
  • the main object of the present invention is to provide a technique capable of reducing computational resources while maintaining the recognition accuracy of recognizing a recognition target from a video.
  • the information processing apparatus is, as one aspect thereof.
  • the recognition target candidate for which the feature amount extraction process for extracting the feature amount is executed is selected based on the selection condition for selecting the recognition target candidate as the extraction target.
  • An estimation unit that estimates the load of the feature amount extraction process using the number of extraction targets in a predetermined unit period, and an estimation unit.
  • a setting unit for setting the selection condition based on the estimated load of the feature amount extraction process and the history information obtained by using the information obtained by the tracking process for the candidate to be recognized.
  • An extraction unit that extracts the feature amount from the recognition target candidate selected as the extraction target based on the selection condition, and an extraction unit.
  • a recognition unit for determining whether or not the candidate for the recognition target is the recognition target is provided based on the comparison result between the extracted feature amount and the registered feature amount of the recognition target registered in advance.
  • the recognition target candidate for which the feature amount extraction process for extracting the feature amount is executed is selected based on the selection condition for selecting the recognition target candidate as the extraction target.
  • the load of the feature amount extraction process is estimated.
  • the selection condition is set based on the estimated load of the feature amount extraction process and the history information obtained by using the information obtained by the tracking process for the candidate to be recognized.
  • the feature amount is extracted from the recognition target candidates selected as the extraction target based on the selection conditions. Based on the comparison result between the extracted feature amount and the registered feature amount of the recognition target registered in advance, it is determined whether or not the recognition target candidate is the recognition target.
  • the recognition target candidate for which the feature amount extraction process for extracting the feature amount is executed is selected based on the selection condition for selecting the recognition target candidate as the extraction target.
  • the computer executes a process of determining whether or not the recognition target candidate is the recognition target. Memorize the computer program to be made.
  • FIG. 7 is a diagram illustrating information used when selecting an extraction target.
  • FIG. 1 is a block diagram showing a functional configuration of the information processing apparatus according to the first embodiment of the present invention.
  • the information processing device 1 of the first embodiment is incorporated in a video surveillance system 5 as shown in FIG.
  • the video monitoring system 5 includes an information processing device 1, a camera 2 as a photographing device, and a display device 3, and is a system for monitoring a predetermined monitoring area 6. That is, the camera 2 has a function of being able to shoot a moving image, and is installed so that the monitoring area 6 can be shot.
  • the camera 2 is communicably connected to the information processing device 1, and outputs the captured video (moving image) to the information processing device 1.
  • the number of cameras 2 provided in the video surveillance system 5 is not limited to one, and may be multiple.
  • the display device 3 is a device having a function of displaying information on the screen.
  • the display device 3 is connected to the information processing device 1, and displays a captured image taken by the camera 2 or displays the result of processing by the information processing device 1 according to the display control by the information processing device 1. ..
  • the information processing device 1 is composed of a computer device 900 as shown in FIG. 3, and has a function of recognizing a predetermined recognition target from an image captured by the camera 2. That is, the information processing apparatus 1 extracts the detection unit 11, the tracking unit 12, the connection unit 13, the estimation unit 14, the setting unit 15, the selection unit 16, and the extraction unit 11 shown in FIG. 1 as functional units. A unit 17 and a recognition unit 18 are provided.
  • the recognition target is not particularly limited, but in the following description, the recognition target is a human face.
  • the computer device 900 is an example of a computer device and includes the following configurations.
  • -Processors 901 such as CPU (Central Processing Unit) and GPU (Graphics Processing Unit) -ROM (Read Only Memory) 902 -RAM (Random Access Memory) 903 -Computer program (program) 904 loaded in RAM 903
  • a storage device 905 that stores the program 904.
  • Drive device 907 for reading and writing the storage medium 906.
  • -Communication interface 908 to connect to the communication network 909 -I / O interface 910 for inputting / outputting data -Bus 911 connecting each component
  • the information processing device 1 is connected to a storage device (database) 4 as shown in FIG.
  • the storage device 4 stores, for example, data used in a process executed by the information processing device 1.
  • the information processing device 1 is connected to the storage device 4, but when the storage device 905 stores data instead of the storage device 4, it does not have to be connected to the storage device 4. ..
  • the functional units (detection unit 11, tracking unit 12, connecting unit 13, estimation unit 14, setting unit 15, selection unit 16, extraction unit 17, and recognition unit 18) included in the information processing unit 1 are programs that realize these functions. This is realized by the processor 901 acquiring and executing the 904.
  • the program 904 is stored in the storage device 905 or the ROM 902 in advance, for example, and the processor 901 loads the program 901 into the RAM 903 and executes the program 904 as needed.
  • the program 904 may be supplied to the processor 901 via the communication network 909, or may be stored in the storage medium 906 in advance, and the drive device 907 may read the program and supply the program to the processor 901.
  • the information processing device 1 also has a display control function for controlling the display operation of the display device 3, but the illustration and description of the functional unit related to the display control function will be omitted.
  • the detection unit 11 of the information processing apparatus 1 has a function of detecting a candidate for a recognition target considered to be a predetermined recognition target from a frame constituting a video (moving image) received from the camera 2.
  • detecting candidates for recognition targets from frames such as a template matching method that uses a pattern given in advance for recognition targets, and a method that uses a detection model for recognition targets that has been learned in advance. ..
  • an appropriate method considering the shooting environment of the camera 2 and the computing power of the information processing apparatus 1 is adopted.
  • the frame for detecting the candidate to be recognized is not limited to all the frames of the image taken by the camera 2, and may be a frame for each number preset according to the frame rate from a plurality of frames in the time series. good.
  • the detection unit 11 generates detection information representing the detected recognition target candidate.
  • This detection information is generated for each candidate to be recognized, and includes, for example, identification information (frame number) of the detected frame, information representing the detected frame area, and shooting information of the candidate to be recognized.
  • the shooting information includes, for example, pan information, tilt information, roll information, and size information as shown in FIG.
  • the pan information is information indicating the degree of lateral shake of the photographed face as compared with the case where the face is facing the front.
  • the tilt information is information indicating the degree of vertical tilt of the photographed face as compared with the case where the face is facing the front.
  • the roll information is information indicating the degree of deviation of the direction in which the front is facing with respect to the direction toward the camera 2 when the face is facing the front.
  • the size information is information indicating the size of the image of the candidate to be recognized, and is represented by the number of pixels (pixels) in the example of FIG.
  • the shooting information including such pan information, tilt information, roll information, and size information is given a shooting ID (Identification) for each candidate to be recognized, and is detected.
  • the information includes a shooting ID as shooting information.
  • the detection information regarding such a candidate for recognition target is stored in, for example, a storage device 905 or the like.
  • the extraction unit 17 has a function of extracting a feature amount from an image of a candidate to be recognized (hereinafter, also referred to as a candidate image) by using, for example, a deep learning technique.
  • the recognition unit 18 collates the feature amount of the candidate image extracted by the extraction unit 17 with the feature amount of the recognition target registered in advance (hereinafter, also referred to as a registered feature amount), whereby the candidate image (recognition target). It has a function to calculate the similarity between the candidate) and the recognition target as a collation score.
  • the method for calculating the collation score is not limited here, and the description thereof is omitted. Further, in the following description, the collation score is represented by a numerical value within the range of 0 or more and 1 or less, and as the collation score approaches the numerical value "1", the degree of similarity between the candidate image and the recognition target is. It means that it will be higher.
  • the recognition unit 18 compares the calculated collation score with a threshold value (for example, 0.6, hereinafter also referred to as a collation threshold value), and when the collation score is equal to or higher than the collation threshold value, the candidate image is a recognition target. It has a function to determine (recognize) that it is. In other words, the recognition unit 18 has a function of determining whether or not the candidate image is a recognition target based on the comparison result between the feature amount of the candidate image and the registered feature amount of the recognition target.
  • a threshold value for example, 0.6, hereinafter also referred to as a collation threshold value
  • the information processing device 1 When the recognition target is determined (recognized) by the recognition unit 18 in this way, the information processing device 1 indicates, for example, a mark indicating the recognition target in the image of the camera 2 displayed on the screen of the display device 3. It may have a function to display such as.
  • the information processing apparatus 1 of the first embodiment suppresses the increase of the extraction target by selecting the recognition target candidate for executing the feature quantity extraction process as the extraction target from the recognition target candidates.
  • It has a function to suppress the increase in the load of the feature amount extraction process.
  • the recognition detected by the detection unit 11 in the unit period TH so that the load of the feature amount extraction process in the predetermined unit period (hereinafter, also referred to as the unit period TH) does not become larger than the predetermined upper limit value.
  • the upper limit number to be selected as the extraction target is set.
  • the unit period TH is set to 1 second
  • the upper limit number of extraction targets for executing the feature amount extraction process in 1 second which is the unit period TH
  • the information processing apparatus 1 has a function of setting (changing) the selection condition for selecting the extraction target from the recognition target candidates according to the situation as follows. ..
  • the recognition target candidate detected by the detection unit 11 is tracked by a tracking method such as a tracking method using a particle filter. Further, the same tracking ID (Identification) is assigned to a plurality of recognition target candidates determined to be the same recognition target candidate by the tracking process.
  • a tracking method such as a tracking method using a particle filter.
  • the same tracking ID is assigned to a plurality of recognition target candidates determined to be the same recognition target candidate by the tracking process.
  • FIG. 5 the frames f1 to f7 in which the recognition target candidate is detected by the detection unit 11 are represented in time series.
  • the recognition target candidates determined to be the same recognition target candidates have the same numerical values “001” to “004” as tracking IDs. Is given.
  • Such a tracking ID is associated with the detection information in the recognition target candidate as history information. Further, among the recognition target candidates detected by the detection unit 11, a new tracking ID is assigned to the recognition target candidate to which the tracking ID has not been assigned by the tracking process as described above, and the tracking ID is also detected. Associated
  • the frames up to the frame f3 shown in FIG. 5 are processed frames in which a series of processes from the detection process by the detection unit 11 to the recognition process by the recognition unit 18 are executed. Further, the frames after the frame f4 are the frames to be processed in which the series of processes is executed. Further, the detection information regarding the recognition target candidate that is detected from the processed frame and the detection information is generated and the processing by the extraction unit 17 and the recognition unit 18 is executed is the extracted feature amount. Information and the matching score information are associated as historical information.
  • the collation score information includes not only the collation score itself, but also the entry number in the storage device 4 (database) in which the registered feature amount used in the collation score calculation process is registered.
  • the selection condition for selecting the extraction target from the recognition target candidates is set for each tracking ID with reference to the upper limit number of extraction targets in the unit period TH and the history information of the recognition target candidates as described above. For example, for each tracking ID, information on the selection width and the number of selections as shown in FIG. 6 is given as selection conditions. In the example of FIG. 6, the number of frames is given as the selection width, and for the tracking ID "001", the recognition target candidates of the tracking ID "001" are selected by the number of selections every three frames which are the selection widths. A selection condition such as selecting two of them is associated with the tracking ID "001". Further, in the example of FIG. 6, the tracking ID is associated with the information of the latest selection number.
  • the latest selection number is the number selected as the extraction target in the unit period TH in the latest selection process executed according to the selection condition for each tracking ID.
  • matching score information is also associated with the tracking ID.
  • the collation score information is, for example, the highest numerical value in the latest unit period TH among the collation scores calculated by the recognition process executed by the recognition unit 18 for the recognition target candidate of the same tracking ID.
  • the shooting ID of the shooting information associated with the recognition target candidate corresponding to the highest numerical collation score is associated with the tracking ID.
  • the tracking ID is also associated with an entry number representing a registration location where the registered features of the recognition target used in the calculation of such a collation score are registered.
  • the reference shooting information which is the shooting information of the face image to be recognized from which the registered feature amount is extracted, is associated with the tracking ID by the shooting ID (shooting ID “S” in the example of FIG. 8).
  • the history information of the candidates to be recognized is used as follows. That is, for example, the recognition unit 18 has already determined whether or not the candidate for the recognition target of the tracking ID “001” in the processed frames f1 to f3 shown in FIG. 5 is the recognition target. On the other hand, the determination result by the recognition unit 18 regarding the recognition target candidate of the tracking ID "001" in the processing target frames f4 to f7 is the recognition target candidate of the same tracking ID "001" in the processed frames f1 to f3. It is expected that the result will be the same as the judgment result of.
  • the recognition accuracy is improved even if the number of processes executed by the recognition unit 18 (in other words, the number of extraction targets) is reduced. It is considered that the decrease can be suppressed. For this reason, regarding the setting of the selection condition, the selection condition is changed in the direction of reducing the number of extraction targets for the tracking ID for which the determination result by the recognition unit 18 is obtained.
  • the selection condition for the tracking ID whose collation score is less than the threshold value and whose judgment result by the recognition unit 18 may change is the number of extraction targets. It is preferable that the value is not changed or is set to increase. For a new tracking ID that does not have a determination result by the recognition unit 18, preset selection conditions set in advance according to shooting information are adopted.
  • the change rule when changing the selection condition is determined by the collation score which is the historical information. That is, the change rule is greater than K, where the collation score is greater than or equal to the threshold and below the threshold and at a predetermined lower limit lower than the threshold (eg, n% lower than the threshold). It is set separately for the case where it is within the range and the case where it is equal to or less than the lower limit value K.
  • the selection condition of the tracking ID is changed as follows. That is, the selection condition of the tracking ID expands the selection width to the maximum value of the preset selection width (for example, 4 frames), and increases the number of selections to the minimum value of the preset number of selections (for example, 4 frames). It is set to the selection condition reduced to "1").
  • the selection condition narrows the selection width to the minimum value of the preset selection width (for example, 3 frames), and the number of selections is the maximum value of the preset number of selections (for example, "3"). It is set to the increased selection condition.
  • the selection condition of the tracking ID associated with such a collation score is changed as follows. That is, the selection condition is set to the selection condition in which the selection width is expanded by the preset width and the selection number is reduced by the preset number.
  • the load of feature quantity extraction processing is the number of selections selected as the extraction target in the unit period TH from the recognition target candidates detected in the frame to be processed.
  • the selection conditions as shown in FIG. 6 are set for each tracking ID. Further, as shown in FIG.
  • the recognition target candidates having the tracking IDs “001”, “003”, and “004” are detected in the unit period TH in the frame to be processed.
  • the recognition target of the tracking ID "001" in the unit period TH is estimated to be 10.
  • the number selected as the extraction target is estimated to be 10.
  • the number selected as the extraction target among the recognition target candidates of the tracking ID “004” is estimated to be 3.5. Therefore, in the unit period TH, the total number selected as the extraction target is 18.5, which is larger than the upper limit of 15.
  • the information processing apparatus 1 changes the selection condition so that the number of extraction targets in the unit period TH is equal to or less than the upper limit.
  • the information processing apparatus 1 has a tracking ID selection condition in which the number of selections is larger than the minimum value among the tracking ID selection conditions given to the recognition target candidates detected in the frame to be processed.
  • the number of selections of is reduced by, for example, "1".
  • the information processing apparatus 1 repeats such processing until the number of extraction targets in the unit period TH becomes equal to or less than the upper limit.
  • the number of selections of the selection condition in the tracking ID “001” in which the number of selections is larger than the minimum value is from “2”. It is changed to "1".
  • the number selected as the extraction target for the tracking ID “001” is reduced to five. Therefore, in the unit period TH, the total number selected as the extraction target is 13.5, and the upper limit is 15 or less.
  • the number of selections is reduced in order to reduce the number of extraction targets, but the selection range may be expanded instead. Alternatively, both the number of selections and the selection width may be changed.
  • the recognition target candidate of the tracking ID "004" shown in FIG. 5 is the same recognition target candidate as the tracking ID "002".
  • the candidate for the recognition target of the tracking ID "002" is out of the shooting range of the camera 2 and is not shown in the image, and as a result, the tracking is not possible. Therefore, the candidate is reflected in the image by the camera 2 again in the frame f6. When this happens, a new tracking ID will be assigned.
  • since history information is used for setting (changing) the selection condition regarding the extraction target it is preferable that the same tracking ID is given to the same recognition target candidate.
  • the information processing apparatus 1 also has a function of concatenating a plurality of tracking IDs when a plurality of tracking IDs are assigned to the same recognition target candidate. For example, after the feature amount is extracted by the extraction unit 17 from the image of the candidate to be recognized to which the tracking ID is newly assigned, the feature amount is collated with the feature amount associated with another tracking ID. By this collation, a collation score is calculated, and when the calculated collation score is equal to or higher than the threshold value for concatenation determination (for example, 0.8), the tracking ID is the same as shown in FIG.
  • the tracking IDs of the recognition target candidates determined to be are associated as the same tracking ID. Even if the candidates are the same recognition target, different tracking IDs are assigned to different cameras 2 that have been photographed, but the tracking IDs can be linked by the linking process as described above.
  • the information processing device 1 also has the following functions in order to suppress a decrease in recognition accuracy. That is, when the information processing apparatus 1 selects a number of extraction targets based on the selection conditions from a plurality of recognition target candidates having the same tracking ID, the information processing apparatus 1 obtains shooting information associated with the detection information in the recognition target candidates. Use. That is, the orientation of the face in the image (candidate image) of the candidate to be recognized whose feature amount is extracted by the extraction unit 17 is the face image of the extraction source from which the registered feature amount to be matched with the extracted feature amount is extracted. It is preferable that the orientation is similar to that of the face in order to improve the accuracy of the matching score.
  • the information processing apparatus 1 uses the shooting information to select the priority regarding the selection. It is given to multiple recognition target candidates as options within.
  • the priority of the registered feature amount increases as the priority of the recognition target candidate, which is the face image of the shooting information close to the reference shooting information of the face image of the extraction source, becomes larger.
  • the shooting information includes information on shooting quality in addition to pan information, tilt information, and roll information.
  • the shooting quality is an index of how the candidate to be recognized is reflected, and is calculated based on the size of the image, the presence or absence of blurring, the way the light hits, and the like. This shooting quality calculation method is not limited here, and its description is omitted.
  • the reference shooting information in the face image of the extraction source of the registered feature amount to be collated with the feature amount extracted from the image of the candidate to be recognized with the tracking ID “X” has the shooting ID “S” shown in FIG. It is assumed that the shooting information is associated with ".
  • the weighted sum of the absolute values of the differences between and is calculated.
  • An example of the calculated value of the weighted sum is shown in FIG.
  • the maximum value of the calculated weighted sum (“92” in the example of FIG. 7) of the recognition target candidates of the tracking ID “X” in the three frames a, b, and c is set to “1.0”.
  • the weighted sum is normalized, and the value obtained by subtracting the normalized value from "1" is calculated as the similarity score. Further, the weighted sum of the similarity score and the shooting quality associated with the shooting information is calculated as the priority.
  • the recognition accuracy of the recognition unit 18 is lowered with respect to the case where all the candidates of the recognition target are the extraction targets. Is suppressed.
  • the recognition target differs greatly depending on the shooting direction
  • the image taken from the front, the image taken from the side, and the image taken from the rear are different in a person or a vehicle.
  • the shot image differs depending on the shooting timing.
  • the information processing apparatus 1 of the first embodiment has a tracking unit 12 and a connecting unit shown in FIG. 1 as a function of suppressing an increase in the load of the feature amount extraction process while suppressing a decrease in recognition accuracy. It includes 13, an estimation unit 14, a setting unit 15, and a selection unit 16.
  • the tracking unit 12 has a function of tracking the recognition target candidate detected by the detection unit 11.
  • the tracking unit 12 tracks the same recognition target candidate that is considered to be the same recognition target candidate detected in a plurality of time-series frames in which the detection unit 11 has executed the detection process for detecting the recognition target candidate. Attach an ID.
  • the method by which the tracking unit 12 tracks the candidate to be recognized is not particularly limited, and for example, there is a tracking method using a particle filter.
  • the tracking unit 12 assigns a new tracking ID to the recognition target candidate to which the existing tracking ID is not assigned among the recognition target candidates detected by the detection unit 11.
  • the tracking unit 12 associates the tracking ID information given to the recognition target candidate with the detection information of the recognition target candidate stored in the storage device 905 or the like.
  • the setting unit 15 refers to the tracking ID assigned to the recognition target candidate in the frame to be processed in which the processing by the extraction unit 17 and the recognition unit 18 is executed, and the history information associated with the recognition target candidate. , It has a function to set selection conditions for each tracking ID.
  • the setting unit 15 has a function of setting selection conditions for each tracking ID even when the load of the feature amount extraction process estimated by the estimation unit 14 as described below becomes larger than the upper limit value.
  • the selection condition can be set to the preset selection condition of the initial setting, or the selection condition can be changed from the already set selection condition and the selection condition can be reset.
  • the estimation unit 14 uses the selection condition for each tracking ID given to the recognition target candidate detected by the detection unit 11 for the frame to be processed, and as described above, the estimation unit 14 is the extraction target selected in the unit period TH. The number is estimated as the load of the feature extraction process.
  • the selection unit 16 has a function of selecting an extraction target for each tracking ID in the frame to be processed according to the selection conditions set by the setting unit 15. For the selection of the extraction target by the selection unit 16, for example, the priority calculated by using the shooting information as described above is referred to.
  • the new tracking ID is combined with the existing tracking ID at a predetermined timing after the feature amount is extracted by the extraction unit 17 from the image of the candidate to be recognized to which the new tracking ID is given. It has a function to judge whether or not it can be linked by using the extracted features. Then, when it is determined that the connection unit 13 can be connected, for example, the new tracking ID is associated with the existing tracking ID to be connected. In this way, the selection condition for the new tracking ID that can be linked with the existing tracking ID is set by the setting unit 15 to match the selection condition of the existing tracking ID.
  • the information processing device 1 of the first embodiment is configured as described above. Hereinafter, operations related to a series of processes from the detection process by the detection unit 11 to the recognition process by the recognition unit 18 in the information processing apparatus 1 will be described with reference to FIGS. 9 to 12.
  • the detection unit 11 of the information processing apparatus 1 detects a candidate to be recognized in one frame of the image received from the camera 2 (step S101 in FIG. 9). Then, the tracking unit 12 assigns an existing tracking ID using the tracking method or a new tracking ID to the detected candidate for the recognition target (step S102).
  • FIG. 10 is a flowchart showing an example of the operation of the connection process executed by the connection unit 13.
  • the connecting unit 13 has not executed the unprocessed tracking that determines whether or not there is a tracking ID to be linked using the feature amount by the extraction unit 17 among the existing tracking IDs. It is determined whether or not there is an ID (step S301).
  • the tracking ID is associated with information indicating whether or not the above-mentioned connection possibility determination has been processed, and the connection unit 13 outputs the determination result in step S301 by using this information. ..
  • the connection unit 13 ends the connection process.
  • the connecting unit 13 determines whether or not the feature amount is extracted by the extracting unit 17 from the image of the candidate to be recognized associated with the unprocessed tracking ID. Determine (step S302). If the feature amount has not been extracted, the connection process cannot proceed, so the connection unit 13 ends the connection process.
  • the connecting unit 13 uses the unprocessed tracking ID from which the feature amount is extracted as the tracking ID of the connection processing target. Then, the connecting unit 13 collates the extracted feature amount with the feature amount associated with the tracking ID selected from the existing tracking IDs other than the tracking ID of the connection processing target (step S303). ..
  • the concatenation unit 13 calculates the collation score and determines whether or not the concatenation is possible to determine whether or not the calculated collation score is equal to or higher than the threshold for the concatenation determination (step S304).
  • the connecting unit 13 determines whether or not it is (step S306).
  • the connecting unit 13 replaces the existing tracking ID of the other party that determines whether or not to connect with the tracking ID of the connection processing target, and repeats the operations of step S303 and subsequent steps. Then, when it is determined in step S306 that the connection is completed, the connection unit 13 associates the tracking ID of the connection processing target with the information for which the connection possibility determination has been processed, and then ends the connection processing.
  • FIG. 11 is a flowchart showing an example of the operation of the selection condition change processing for each tracking ID executed by the setting unit 15.
  • the setting unit 15 executes the following processing for each tracking ID. That is, the setting unit 15 determines whether or not the collation score associated with the tracking ID is equal to or greater than the collation threshold value (step S401). As a result, when the collation score is equal to or higher than the collation threshold value, the setting unit 15 expands the selection range to a predetermined maximum value with respect to the selection condition associated with the tracking ID, and increases the number of selections in advance. The selection condition is changed to the specified minimum value (step S402).
  • the setting unit 15 determines whether or not the collation score is less than the collation threshold value and larger than the lower limit value K (step S403). If the collation score is less than the collation threshold and is not greater than the lower limit K, that is, if the collation score is less than or equal to the lower limit, the setting unit 15 sets the selection condition associated with the tracking ID as follows. Change to. That is, the setting unit 15 changes the selection condition to a selection condition in which the selection width is expanded by a predetermined change width, for example, the number of frames "1", and the selection number is reduced by a predetermined change number "1". (Step S404).
  • the setting unit 15 associates the shooting ID of the shooting information of the recognition target candidate for which such a collation score is calculated with the tracking ID. (Step S405). Then, the setting unit 15 changes the selection condition associated with the tracking ID as follows. That is, the setting unit 15 changes the selection condition to a selection condition in which the selection width is narrowed to a predetermined minimum value and the number of selections is increased to a predetermined maximum value (step S406).
  • the setting unit 15 changes the selection condition for each tracking ID by using the collation score which is the historical information associated with the tracking ID as described above.
  • FIG. 12 is a flowchart showing an example of the operation of the selection condition change processing executed by the estimation unit 14 and the setting unit 15.
  • the estimation unit 14 estimates the number of recognition target candidates selected as extraction targets in the unit period TH based on the selection conditions for the frame to be processed as the load of the feature quantity extraction process. (Step S601).
  • the load of the estimated feature amount extraction process is also referred to as an estimated load.
  • the setting unit 15 determines whether or not the number of extraction targets, which is the estimated load, is larger than the upper limit number (step S602). As a result, if the number of extraction targets is not larger than the upper limit, it is assumed that the load of the feature amount extraction process will not be larger than the upper limit. Therefore, the setting unit 15 sets the selection condition according to the estimated load. Ends the change process of. On the other hand, when the number of extraction targets is larger than the upper limit, it is assumed that the load of the feature amount extraction process is larger than the upper limit value. , Change the selection conditions as follows. For example, the setting unit 15 searches for a selection condition of a tracking ID in which the number of selections of the selection condition is larger than the minimum value (step S603).
  • the setting unit 15 reduces the number of selections of the selection conditions that hit the search by "1", which is a predetermined reduction value (step S604). After that, the estimation unit 14 and the setting unit 15 repeat the operations after step S601 until the number of extraction targets, which is the estimation load, becomes the upper limit number or less.
  • step S105 After the selection condition change processing (step S105) by the estimation unit 14 and the setting unit 15 is executed in order to suppress the load of the feature amount extraction processing, the selection unit 16 , Select the extraction target (step S106). That is, the selection unit 16 selects an extraction target from the recognition target candidates in the frame to be processed according to the selection condition for each tracking ID.
  • the extraction unit 17 extracts the feature amount from the selected extraction target (candidate image) (step S107). Then, the recognition unit 18 collates the extracted feature amount with the registered feature amount (step S108). As a result, the recognition unit 18 calculates the collation score, and when the calculated collation score is equal to or higher than the collation threshold value, it is determined that the candidate to be recognized is the recognition target, and the calculated collation score is the collation threshold value. If it is less than, it is determined that the recognition target candidate is not a recognition target.
  • the recognition target is recognized in the image captured by the camera 2 by a series of processes from the detection process by the detection unit 11 to the recognition process by the recognition unit 18 in the information processing apparatus 1 as described above.
  • the information processing apparatus 1 of the first embodiment selects an extraction target by using an estimated load in a frame to be processed and a collation score which is historical information related to a candidate to be recognized. It has a function to change the conditions. As a result, the information processing apparatus 1 has the effect of being able to reduce computational resources while maintaining the recognition accuracy of recognizing the recognition target from the video.
  • the camera 2 may have some functions such as a detection unit.
  • the information processing apparatus 1 acquires the information obtained by the functions such as, and executes the process.
  • FIG. 13 is a block diagram showing a functional configuration of the information processing apparatus of the second embodiment.
  • the information processing apparatus 50 of the second embodiment has a basic configuration configured to reduce computational resources while maintaining recognition accuracy of recognizing a recognition target from a video. That is, the information processing apparatus 50 includes an estimation unit 51, a setting unit 52, an extraction unit 53, and a recognition unit 54.
  • the estimation unit 51 estimates the load of the feature amount extraction process for extracting the feature amount from the recognition target candidates detected from the frames constituting the moving image. This estimation utilizes the number of extraction targets in a predetermined unit period in which the recognition target candidates for which the feature quantity extraction process is executed are selected based on the selection conditions for selecting the extraction targets.
  • the setting unit 52 sets the selection condition based on the estimated load of the feature amount extraction process and the history information obtained by using the information obtained by the tracking process for the candidate to be recognized.
  • the extraction unit 53 extracts the feature amount from the recognition target candidates selected as the extraction target based on the selection condition.
  • the recognition unit 54 determines whether or not the candidate for the recognition target is the recognition target based on the comparison result between the extracted feature amount and the registered feature amount of the recognition target registered in advance.
  • the estimation unit 51, the setting unit 52, the extraction unit 53, and the recognition unit 54 are realized by, for example, a computer.
  • FIG. 14 is a flowchart showing an example of the operation of the information processing apparatus 50.
  • the estimation unit 51 of the information processing apparatus 50 estimates the load of the feature amount extraction process (step S1).
  • the setting unit 52 sets the selection condition based on the estimated load of the feature amount extraction process and the history information obtained by using the information obtained by the tracking process for the candidate to be recognized (step).
  • the extraction unit 53 extracts the feature amount from the recognition target candidates selected as the extraction target based on the set selection conditions (step S3).
  • the recognition unit 54 recognizes whether or not the recognition target candidate is a recognition target based on the comparison result between the extracted feature amount and the registered feature amount of the recognition target registered in advance (step S4). ).
  • the information processing apparatus 50 of the second embodiment sets selection conditions by using the load of the feature amount extraction process and the information obtained by the tracking process of the candidate to be recognized. As a result, the information processing apparatus 50 of the second embodiment can reduce computational resources while maintaining the recognition accuracy of recognizing the recognition target from the video.

Abstract

映像から認識対象を認識する認識精度を維持しつつ、計算資源の削減を図ることができる技術を提供するために、情報処理装置は、推定部と設定部を備える。推定部は、動画を構成するフレームから検知された認識対象の候補から特徴量を抽出する特徴量抽出処理の負荷を推定する。この推定は、特徴量抽出処理が実行される認識対象の候補を、抽出対象として選択する選択条件に基づいて選択される、予め定められた単位期間における抽出対象の数を利用する。設定部は、推定された特徴量抽出処理の負荷と、認識対象の候補についての追跡処理により得られる情報を利用して得られる履歴情報とに基づいて、選択条件を設定する。

Description

情報処理装置、情報処理方法およびプログラム記憶媒体
 本発明は、映像から認識対象を認識する技術に関する。
 コンピュータによって、映像から認識対象(例えば、人や、車両などの物体)を認識する技術がある。この技術では、例えば、コンピュータによって、映像から認識対象の候補が検知され、検知された候補の画像から特徴量が抽出される。そして、抽出された特徴量と、予め登録されている認識対象の画像の特徴量とが比較され、比較結果に基づいて、映像から検知された候補の画像が認識対象の画像であるか否かが判断される。
 画像から特徴量を抽出する特徴量抽出処理はコンピュータに大きな負荷が掛かる。また、映像に含まれている認識対象の候補の全てについて特徴量抽出処理を行うと、映像に含まれている認識対象の候補の数に応じて特徴量抽出処理によるコンピュータの負荷が増加する。換言すれば、特徴量抽出処理は、計算資源の消費が多く、その上、映像に含まれている認識対象の候補の数が増加するにつれて計算資源の消費を増加させる。
 上述したような映像から認識対象を認識する技術を利用して監視領域を監視する映像監視システムがある。この映像監視システムにおいて、認識対象の認識精度を高めるべく、監視領域を撮影するカメラの解像度(つまり、映像の解像度)が高くなってきている。映像の解像度が高くなると、それに応じて、特徴量抽出処理による計算資源の消費は増加する。
 ところで、監視領域を撮影した映像に、認識対象の候補(例えば、人や車)が、昼間には多く映っているが、夜間には殆ど映っていないというように、映像に含まれている認識対象の候補の数が状況に応じて大きく変動することがある。このため、映像に含まれると想定される認識対象の候補の数が多い場合に合わせて、特徴量抽出処理を実行する計算資源を用意したとする。この場合、映像に含まれている認識対象の候補の数が少ないと、特徴量抽出処理による計算資源の消費が減るので、計算資源の無駄が多くなってしまう事態が生じる。反対に、映像に含まれると想定される認識対象の候補の数が少ない場合に合わせて、特徴量抽出処理を実行する計算資源を用意したとする。この場合、映像に含まれている認識対象の候補の数が多くなると、特徴量抽出処理による計算資源の消費が増えるので、計算資源が不足し、例えば、撮影されてから認識対象が認識されるまでに時間が掛かり、映像監視に支障を来す事態が生じる。
 このように、映像監視システムにおいて、解像度の高いカメラを利用することによる計算資源の消費の増加や、映像に含まれる認識対象の候補数の変動を考えると、少ない計算資源で、認識精度を高めることが難しい。
 特許文献1には、計算資源の消費を抑制するために、動画を構成する一連の時系列のフレームにおける選択幅として設定された複数枚毎に、同じ人と検知された顔画像の中でのベストショットを、評価対象として選択することが示されている。
特開2005-227957号公報
 特許文献1に記載されている技術では、複数のフレームにおける同じ人の顔画像の中からベストショットとして選択された顔画像が評価される。このため、特許文献1の技術は、同じ人の顔画像の全てについて評価する場合に比べて、計算資源の消費を抑制できる。しかしながら、特許文献1の技術では、同じフレームに含まれる顔画像の数が増加すると、それに応じて、選択幅のフレームから評価対象として選択されるベストショットの顔画像の数が増加し、これにより、評価処理による計算資源の消費は増加してしまう。また、特許文献1の技術は、予め定められた枚数毎に選択されたベストショットについてのみ評価するから、ベストショットとして選択されたものの当該ベストショットが評価には適当ではない不鮮明な顔画像である場合に評価精度が下がるという問題がある。
 映像監視システムにおいては、映像から認識対象を認識する認識精度を維持しつつ、少ない計算資源で効率的に認識対象を認識できることが実用化の上で重要である。
 すなわち、本発明の主な目的は、映像から認識対象を認識する認識精度を維持しつつ、計算資源の削減を図ることができる技術を提供することにある。
 上記目的を達成するために、本発明に係る情報処理装置は、その一態様として、
 動画を構成するフレームから検知された認識対象の候補のうち、特徴量を抽出する特徴量抽出処理が実行される前記認識対象の候補を、抽出対象として選択する選択条件に基づいて選択される、予め定められた単位期間における前記抽出対象の数を利用して、前記特徴量抽出処理の負荷を推定する推定部と、
 推定された前記特徴量抽出処理の負荷と、前記認識対象の候補についての追跡処理により得られる情報を利用して得られる履歴情報とに基づき、前記選択条件を設定する設定部と、
 前記選択条件に基づき前記抽出対象として選択された前記認識対象の候補から前記特徴量を抽出する抽出部と、
 抽出した前記特徴量と、予め登録されている前記認識対象の登録特徴量との比較結果に基づいて、前記認識対象の候補が前記認識対象であるか否かを判断する認識部と
を備える。
 本発明に係る情報処理方法は、その一態様として、
 コンピュータによって、
 動画を構成するフレームから検知された認識対象の候補のうち、特徴量を抽出する特徴量抽出処理が実行される前記認識対象の候補を、抽出対象として選択する選択条件に基づいて選択される、予め定められた単位期間における前記抽出対象の数を利用して、前記特徴量抽出処理の負荷を推定し、
 推定された前記特徴量抽出処理の負荷と、前記認識対象の候補についての追跡処理により得られる情報を利用して得られる履歴情報とに基づき、前記選択条件を設定し、
 前記選択条件に基づき前記抽出対象として選択された前記認識対象の候補から前記特徴量を抽出し、
 抽出した前記特徴量と、予め登録されている前記認識対象の登録特徴量との比較結果に基づいて、前記認識対象の候補が前記認識対象であるか否かを判断する。
 本発明に係るプログラム記憶媒体は、その一態様として、
 動画を構成するフレームから検知された認識対象の候補のうち、特徴量を抽出する特徴量抽出処理が実行される前記認識対象の候補を、抽出対象として選択する選択条件に基づいて選択される、予め定められた単位期間における前記抽出対象の数を利用して、前記特徴量抽出処理の負荷を推定する処理と、
 推定された前記特徴量抽出処理の負荷と、前記認識対象の候補についての追跡処理により得られる情報を利用して得られる履歴情報とに基づき、前記選択条件を設定する処理と、
 前記選択条件に基づき前記抽出対象として選択された前記認識対象の候補から前記特徴量を抽出する処理と、
 抽出した前記特徴量と、予め登録されている前記認識対象の登録特徴量との比較結果に基づいて、前記認識対象の候補が前記認識対象であるか否かを判断する処理と
をコンピュータに実行させるコンピュータプログラムを記憶する。
 本発明によれば、映像から認識対象を認識する認識精度を維持しつつ、計算資源の削減を図ることができる。
本発明に係る第1実施形態の情報処理装置の機能構成を表すブロック図である。 第1実施形態の情報処理装置が組み込まれる映像監視システムの一例を表す図である。 第1実施形態の情報処理装置のハードウェア構成の一例を表す図である。 撮影情報の一例を説明する図である。 映像のフレームにおいて検知された認識対象の候補と追跡IDを説明する図である。 追跡ID毎に関連付けられる情報を説明する図である。 抽出対象を選択する際に利用する情報を説明する図である。 図7と共に、抽出対象を選択する際に利用する情報を説明する図である。 第1実施形態の情報処理装置の動作例を表すフローチャートである。 追跡IDの連結処理を説明するフローチャートである。 追跡ID毎に選択情報を変更する処理を説明するフローチャートである。 負荷に応じて選択情報を変更する処理を説明するフローチャートである。 第2実施形態の情報処理装置の機能構成を表すブロック図である。 第2実施形態の情報処理装置の動作例を表すフローチャートである。
 以下に、本発明に係る実施形態を図面を参照しつつ説明する。
 <第1実施形態>
 図1は、本発明に係る第1実施形態の情報処理装置の機能構成を表すブロック図である。第1実施形態の情報処理装置1は、図2に表されるような映像監視システム5に組み込まれる。映像監視システム5は、情報処理装置1と、撮影装置であるカメラ2と、表示装置3とを備え、予め定められた監視領域6を監視するシステムである。すなわち、カメラ2は、動画を撮影可能な機能を有し、監視領域6を撮影できるように設置されている。カメラ2は、情報処理装置1と通信可能に接続されており、撮影した映像(動画)を情報処理装置1に出力する。なお、映像監視システム5に備えられるカメラ2は、1台とは限らず、複数台であってもよい。
 表示装置3は、情報を画面に表示する機能を備えている装置である。表示装置3は、情報処理装置1に接続されており、情報処理装置1による表示制御に従って、カメラ2により撮影された撮影映像を表示したり、情報処理装置1による処理の結果を表示したりする。
 情報処理装置1は、図3に表されるようなコンピュータ装置900により構成され、カメラ2による撮影映像から、予め定められている認識対象を認識する機能を備えている。すなわち、情報処理装置1は、機能部として、図1に表されている検知部11と、追跡部12と、連結部13と、推定部14と、設定部15と、選択部16と、抽出部17と、認識部18とを備える。なお、認識対象は、特に限定されないが、以下の説明では、認識対象を人の顔とする。
 ここで、図3に表されるコンピュータ装置900の構成について説明する。コンピュータ装置900は、コンピュータ装置の一例であって、以下のような構成を含む。
・CPU(Central Processing Unit)やGPU(Graphics Processing Unit)等のプロセッサ901
・ROM(Read Only Memory)902
・RAM(Random Access Memory)903
・RAM903にロードされるコンピュータプログラム(プログラム)904
・プログラム904を格納する記憶装置905
・記憶媒体906の読み書きを行うドライブ装置907
・通信ネットワーク909と接続する通信インターフェース908
・データの入出力を行う入出力インターフェース910
・各構成要素を接続するバス911
 なお、情報処理装置1は、図3に表されているコンピュータ装置900の記憶装置905とは別に、図1に表されるような記憶装置(データベース)4に接続される。記憶装置4には、例えば、情報処理装置1が実行する処理で用いるデータが格納される。なお、この例では、情報処理装置1は、記憶装置4に接続されているが、記憶装置4に代えて記憶装置905がデータを格納する場合には、記憶装置4に接続されていなくともよい。
 情報処理装置1が備える機能部(検知部11と追跡部12と連結部13と推定部14と設定部15と選択部16と抽出部17と認識部18)は、それらの機能を実現するプログラム904をプロセッサ901が取得して実行することで実現される。プログラム904は、例えば、予め記憶装置905やROM902に格納されており、必要に応じてプロセッサ901がRAM903にロードして実行される。なお、プログラム904は、通信ネットワーク909を介してプロセッサ901に供給されてもよいし、予め記憶媒体906に格納されており、ドライブ装置907が当該プログラムを読み出してプロセッサ901に供給してもよい。なお、情報処理装置1は、表示装置3の表示動作を制御する表示制御機能をも有するが、その表示制御機能に関する機能部の図示およびその説明は省略する。
 情報処理装置1の検知部11は、カメラ2から受信した映像(動画)を構成するフレームから、予め定められている認識対象と考えられる認識対象の候補を検知する機能を備えている。フレームから認識対象の候補を検知する手法には、認識対象の予め与えられているパターンを利用するテンプレートマッチング手法や、事前に学習した認識対象の検知モデルを利用する手法など、様々な手法がある。ここでは、そのような手法の中から、カメラ2の撮影環境や、情報処理装置1の計算能力などを考慮した適宜な手法が採用される。また、認識対象の候補を検知するフレームは、カメラ2による映像の全てのフレームとは限らず、時系列の複数のフレームから、フレームレートに応じて予め設定された枚数毎のフレームであってもよい。
 検知部11は、検知した認識対象の候補を表す検知情報を生成する。この検知情報は、認識対象の候補毎に生成され、例えば、検知されたフレームの識別情報(フレーム番号)と、検知されたフレーム領域を表す情報と、認識対象の候補の撮影情報とを含む。撮影情報は、例えば、図4に表されるようなパン(pan)情報とチルト(tilt)情報とロール(roll)情報とサイズの情報を含む。パン(pan)情報は、顔が正面を向いている場合に比べて、撮影された顔の左右方向の振れ度合いを表す情報である。チルト(tilt)情報は、顔が正面を向いている場合に比べて、撮影された顔の上下方向の傾き度合いを表す情報である。ロール(roll)情報は、顔が正面を向いた場合にその正面が向いている方向がカメラ2に向かう方向に対してのずれ度合いを表す情報である。これらパン(pan)情報とチルト(tilt)情報とロール(roll)情報は、図4の例では、角度により表されている。サイズの情報は、認識対象の候補の画像の大きさを表す情報であり、図4の例では、画素数(pixel)により表される。このようなパン(pan)情報とチルト(tilt)情報とロール(roll)情報とサイズの情報を含む撮影情報には、認識対象の候補毎に、撮影ID(Identification)が付与されており、検知情報には、撮影情報として、撮影IDが含まれる。このような認識対象の候補に関する検知情報は、例えば、記憶装置905等に格納される。
 抽出部17は、認識対象の候補の画像(以下、候補画像とも記す)から特徴量を、例えばディープラーニング技術を利用して抽出する機能を備える。
 認識部18は、抽出部17により抽出された候補画像の特徴量を、予め登録されている認識対象の特徴量(以下、登録特徴量とも記す)と照合することによって、候補画像(認識対象の候補)と認識対象との類似度を照合スコアとして算出する機能を備える。照合スコアを算出する手法は、ここでは、限定されず、その説明は省略される。また、以下の説明では、照合スコアは、0以上、かつ、1以下の範囲内の数値で表され、照合スコアが数値“1”に近付くにつれて、候補画像と認識対象が類似している度合いが高くなることを表している。
 さらに、認識部18は、算出された照合スコアを閾値(例えば、0.6であり、以下、照合閾値とも記す)と比較し、照合スコアが照合閾値以上である場合に、候補画像は認識対象であると確定する(認識する)機能を備える。換言すれば、認識部18は、候補画像の特徴量と、認識対象の登録特徴量との比較結果に基づいて、候補画像が認識対象であるか否かを判断する機能を備える。
 このように認識部18により認識対象が確定(認識)された場合には、情報処理装置1は、例えば、表示装置3の画面に表示させているカメラ2の映像において、認識対象を明示するマークなどを表示させる機能を備えていてもよい。
 ところで、カメラ2による撮影映像に映っている認識対象の候補の数が増加すると、それに応じて、抽出部17が特徴量を抽出する特徴量抽出処理に係る負荷が増加する。そこで、第1実施形態の情報処理装置1は、認識対象の候補の中から、特徴量抽出処理を実行する認識対象の候補を抽出対象として選択することによって抽出対象の増加を抑制し、これにより、特徴量抽出処理の負荷の増加を抑制する機能を備える。例えば、予め定められた単位期間(以下、単位期間THとも記す)における特徴量抽出処理の負荷が予め定められた上限値よりも大きくならないように、単位期間THにおいて検知部11により検知された認識対象の候補のうち、抽出対象として選択される上限数が設定される。具体的には、その一例として、単位期間THは1秒間と設定され、単位期間THである1秒間に特徴量抽出処理を実行する抽出対象の上限数は、情報処理装置1の処理能力などを考慮して例えば15個というように設定される。
 また、認識対象の認識精度の低下を抑制すべく、認識対象の候補の中から抽出対象を選択する選択条件を次のように状況に応じて設定(変更)する機能を情報処理装置1は備える。
 すなわち、情報処理装置1では、検知部11により検知された認識対象の候補を、パーティクルフィルタを用いた追跡手法等の追跡手法により追跡することとする。また、その追跡処理により、同じ認識対象の候補であると判断された複数の認識対象の候補には同じ追跡ID(Identification)が付与されることとする。その具体例が図5に表されている。図5では、検知部11によって認識対象の候補が検知されたフレームf1~f7が時系列で表されている。これらフレームf1~f7において、検知部11によって検知された認識対象の候補のうち、同じ認識対象の候補と判断された認識対象の候補には、追跡IDとして、同じ数値“001”~“004”が付与されている。このような追跡IDは、認識対象の候補における検知情報に履歴情報として関連付けられる。また、検知部11によって検知された認識対象の候補のうち、上述のような追跡処理によって追跡IDが付与されなかった認識対象の候補には、新たな追跡IDが付与され、当該追跡IDも検知情報に関連付けられる。
 ここで、図5に表されるフレームf3までのフレームについては、検知部11による検知処理から認識部18による認識処理までの一連の処理が実行された処理済みのフレームとする。また、フレームf4以降のフレームは、その一連の処理が実行される処理対象のフレームとする。また、処理済みのフレームから検知され検知情報が生成された認識対象の候補であって抽出部17と認識部18による処理が実行された認識対象の候補に関する検知情報には、抽出された特徴量の情報と、照合スコアの情報とが履歴情報として関連付けられる。なお、照合スコアの情報は、照合スコアそのものを含むだけでなく、その照合スコアの算出処理で利用された登録特徴量が登録されている記憶装置4(データベース)におけるエントリ番号も含む。
 認識対象の候補から抽出対象を選択する選択条件は、単位期間THにおける抽出対象の上限数、および、上記のような認識対象の候補における履歴情報を参照して、追跡ID毎に設定される。例えば、追跡ID毎に、選択条件として、図6に表されるような選択幅と選択数の情報が与えられている。図6の例では、選択幅としてフレーム数が与えられており、追跡IDが“001”については、選択幅である3フレーム毎に、追跡ID“001”の認識対象の候補を、選択数である2個、選択するというような選択条件が追跡ID“001”に関連付けられている。また、図6の例では、追跡IDには直近選択数の情報が関連付けられている。直近選択数とは、追跡ID毎に、選択条件に従って実行された直近の選択処理において、単位期間THにおける抽出対象として選択された数である。また、追跡IDには照合スコアの情報も関連付けられている。この照合スコアの情報は、同じ追跡IDの認識対象の候補について実行された認識部18による認識処理によって算出された照合スコアのうち、例えば直近の単位期間THにおいて最も高い数値である。また、その最も高い数値の照合スコアに対応する認識対象の候補に関連付けられている撮影情報の撮影IDが追跡IDに関連付けられている。さらに、図示されていないが、追跡IDには、そのような照合スコアの算出で用いられた認識対象の登録特徴量が登録されている登録場所を表すエントリ番号も関連付けられている。さらに、その登録特徴量を抽出した認識対象の顔画像の撮影情報である参照撮影情報が、撮影ID(図8の例では、撮影ID“S”)によって、追跡IDに関連付けられている。
 選択条件の設定に際し、認識対象の候補における履歴情報は次のように利用される。つまり、例えば、図5に表される処理済みのフレームf1~f3における追跡ID“001”の認識対象の候補が認識対象であるか否かの判断は認識部18により実行済みである。一方、処理対象のフレームf4~f7における追跡ID“001”の認識対象の候補についての認識部18による判断結果は、処理済みのフレームf1~f3における同じ追跡ID“001”の認識対象の候補についての判断結果と同じになると想定される。これにより、認識部18による判断結果が出ている追跡IDを持つ認識対象の候補に関しては、認識部18による処理の実行数(換言すれば抽出対象の数)を減少しても、認識精度の低下を抑制できると考えられる。このようなことから、選択条件の設定に関し、認識部18による判断結果が出ている追跡IDについては抽出対象の数を減少させる方向に選択条件を変更する。
 ただし、認識対象ではないとの判断済みでも、実際には認識対象である場合がある。これは、認識対象の候補の画像が不鮮明であったり、顔が横を向いていたりというような理由によって、抽出された特徴量と、登録されている特徴量との類似度が低くなり、照合スコアが閾値未満となってしまったからであると考えられる。このような事態を想定し、照合スコアが、閾値未満であって、かつ、認識部18による判断結果が変更となる可能性がある範囲内である追跡IDについての選択条件は、抽出対象の数を変更しないか、あるいは、増加するように設定されることが好ましい。なお、認識部18による判断結果を持たない新規の追跡IDについては、撮影情報に応じた予め設定されている初期設定の選択条件が採用される。
 上記のようなことを考慮して、例えば、選択条件を変更する際の変更ルールは、履歴情報である照合スコアによって決定される。つまり、変更ルールは、照合スコアが、閾値以上である場合と、閾値未満、かつ、閾値よりも低い予め定められた下限値(例えば閾値から閾値のn%の数値だけ低い値)Kよりも大きい範囲内である場合と、その下限値K以下である場合とに分けて設定される。
 ここで、追跡ID毎の選択条件の設定(変更)について、具体例を述べる。
 例えば、図6に表されているように追跡IDに関連付けられている照合スコアが照合閾値以上である場合には、その追跡IDの選択条件が次のように変更される。つまり、その追跡IDの選択条件は、選択幅を、予め設定されている選択幅の最大値(例えば4フレーム)まで拡げ、かつ、選択数を、予め設定されている選択数の最小値(例えば“1”)まで減少させた選択条件に設定される。
 また、照合スコアが、閾値未満であって、かつ、閾値よりも低い予め定められた下限値Kよりも大きい範囲内である場合には、そのような照合スコアに関連付けられている追跡IDの選択条件は次のように変更される。つまり、選択条件は、選択幅を、予め設定されている選択幅の最小値(例えば3フレーム)まで狭め、かつ、選択数を、予め設定されている選択数の最大値(例えば“3”)まで増加した選択条件に設定される。
 さらに、照合スコアが下限値K以下である場合には、そのような照合スコアに関連付けられている追跡IDの選択条件は次のように変更される。つまり、選択条件は、選択幅を予め設定された幅分、拡げ、かつ、選択数を、予め設定された数分、減少させた選択条件に設定される。
 上記のように設定された追跡ID毎の選択条件に基づいて、処理対象のフレームにおいて検知された認識対象の候補から、単位期間THにおける抽出対象として選択される選択数を特徴量抽出処理の負荷として推定することができる。例えば、カメラ2による映像の1秒間のフレームのうち、検知部11による検知処理が実行されるフレームの数が15枚であるとし、単位期間THである1秒間における抽出対象の上限数が15個であるとする。また、追跡ID毎に、図6に表されるような選択条件が設定されているとする。さらに、図5に表されるように、処理対象のフレームにおいて、単位期間THに、追跡IDが“001”と“003”と“004”の認識対象の候補が検知されているとする。このような場合、処理対象のフレームにおいて、追跡IDが“001”と“003”と“004”に設定されている選択条件に基づくと、単位期間THにおいて、追跡ID“001”の認識対象の候補のうち、抽出対象として選択される数は10個と推定される。また、単位期間THにおいて、追跡ID“003”の認識対象の候補のうち、抽出対象として選択される数は5個と推定される。さらに、単位期間THにおいて、追跡ID“004”の認識対象の候補のうち、抽出対象として選択される数は3.5個と推定される。よって、単位期間THにおいて、抽出対象として選択される合計数は18.5個となり、上限数15個よりも大きくなってしまう。
 このような場合には、情報処理装置1は、単位期間THにおける抽出対象の数が上限数以下となるように選択条件を変更する。この変更の一例として、情報処理装置1は、処理対象のフレームにおいて検知された認識対象の候補に付与されている追跡IDの選択条件のうち、選択数が最小値よりも大きい追跡IDの選択条件の選択数を例えば“1”減少させる。単位期間THにおける抽出対象の数が上限数以下となるまで、情報処理装置1は、そのような処理を繰り返す。
 このような処理により、例えば、前述したような抽出対象の上限数よりも大きくなってしまう例において、選択数が最小値よりも大きい追跡ID“001”における選択条件の選択数が“2”から“1”に変更される。この選択条件の変更により、追跡ID“001”に関し、抽出対象として選択される数は5個に減少すると推定される。このため、単位期間THにおいて、抽出対象として選択される合計数は13.5個となり、上限数15個以下となる。なお、上記例では、抽出対象の数を減少させるために、選択数が下げられているが、それに代えて、選択幅が拡げられてもよい。あるいは、選択数と選択幅の両方が変更されてもよい。
 ところで、図5に表される追跡ID“004”の認識対象の候補は追跡ID“002”と同じ認識対象の候補である。しかし、追跡ID“002”の認識対象の候補が、カメラ2の撮影範囲から外れて映像に映らなくなるフレームアウトし、これにより、追跡できなくなったために、フレームf6において、再びカメラ2による映像に映るようになった際に、新規の追跡IDが付与される。前述したように、抽出対象に関する選択条件の設定(変更)には、履歴情報を利用することから、同じ認識対象の候補には同じ追跡IDが付与されることが好ましい。そこで、情報処理装置1は、同じ認識対象の候補に複数の追跡IDが付与されている場合に、それらを複数の追跡IDを連結する機能をも備える。例えば、新規に追跡IDが付与された認識対象の候補の画像から特徴量が抽出部17によって抽出された後に、その特徴量が、他の追跡IDに関連付けられている特徴量と照合される。この照合により、照合スコアが算出され、算出された照合スコアが連結判断用の閾値(例えば、0.8)以上であった場合には、図6に表されるように、追跡IDに、同じであると判断された認識対象の候補の追跡IDが同一追跡IDとして、関連付けられる。なお、同じ認識対象の候補であっても、撮影されたカメラ2が異なると、異なる追跡IDが付与されるが、上述したような連結処理によって、追跡IDを連結することができる。
 情報処理装置1は、さらに、認識精度の低下を抑制するために、次のような機能をも備える。すなわち、情報処理装置1は、同じ追跡IDの複数の認識対象の候補から、選択条件に基づいた数の抽出対象を選択する場合に、認識対象の候補における検知情報に関連付けられている撮影情報を利用する。つまり、抽出部17により特徴量が抽出された認識対象の候補の画像(候補画像)における顔の向きが、その抽出された特徴量と照合する登録特徴量が抽出された抽出元の顔画像における顔の向きと同様であることが、照合スコアの正確さを高める上で好ましい。そこで、情報処理装置1は、同じ追跡IDの複数の認識対象の候補から、選択条件に基づいた数の抽出対象を選択する場合に、撮影情報を利用して、選択に関する優先度を、選択幅内の選択肢としての複数の認識対象の候補に付与する。その優先度は、登録特徴量における抽出元の顔画像の参照撮影情報に近い撮影情報の顔画像である認識対象の候補の優先度ほど、数値が大きくなる。
 ここで、その優先度の算出の具体例を述べる。例えば、追跡ID“X”に関する選択条件として、3フレーム毎に2個の抽出対象を選択するという条件が設定されている場合に、選択幅である3フレームのそれぞれに追跡ID“X”の認識対象の候補が検知されているとする。それら選択幅である3フレームのフレーム番号をそれぞれ図7に表される“a”、“b”、“c”とする。また、フレームa、b、cにおける追跡ID“X”の認識対象の候補の検知情報にそれぞれ関連付けられている撮影IDは、図7に表されるように、“001”、“002”、“003”であるとする。さらに、撮影ID“001”、“002”、“003”は、図8に表されるような撮影情報に関連付けられているとする。図8の例では、撮影情報は、パン(pan)情報とチルト(tilt)情報とロール(roll)情報に加えて、撮影品質の情報をも含む。撮影品質は、認識対象の候補の映り方の指標であり、映っている大きさやブレの有無、光の当たり方等を基に算出される。この撮影品質の算出手法はここでは限定されず、その説明は省略される。
 さらに、追跡ID“X”の認識対象の候補の画像から抽出される特徴量と照合される登録特徴量の抽出元の顔画像における参照撮影情報は、図8に表される撮影IDが“S”に関連付けられている撮影情報であるとする。
 まず、選択幅である3つのフレームa、b、cにおける追跡ID“X”の認識対象の候補について、当該認識対象の候補の撮影情報と、参照撮影情報とにおけるパン情報とチルト情報とロール情報とのそれぞれの差分の絶対値の加重和が算出される。この加重和の算出値の一例が図7に表されている。さらに、3つのフレームa、b、cにおける追跡ID“X”の認識対象の候補について、算出した加重和の最大値(図7の例では“92”)が“1.0”となるように、加重和が正規化され、正規化された値を“1”から差し引いた値が類似スコアとして算出される。さらに、類似スコアと、撮影情報に関連付けられている撮影品質との加重和が優先度として算出される。
 このようにして、図7に表されるような優先度が算出されたとする。この場合には、3フレームから2個の抽出対象を選択するという選択条件に基づき、3つのフレームa、b、cにおける追跡ID“X”の認識対象の候補のうち、優先度が高い順に、フレームa、bの2個の認識対象の候補が抽出対象として選択される。
 このように、撮影情報に基づいて算出される優先度を利用し、選択条件に従って抽出対象を選択することによって、認識対象の候補の全てを抽出対象とする場合に対する認識部18による認識精度の低下が抑制される。特に、認識対象が撮影方向によって撮影映像における映り方が大きく異なる場合、このような撮影情報に基づいて算出される優先度を利用して抽出対象を選択することは、認識精度を高める上で有効である。なお、認識対象が撮影方向によって撮影映像における映り方が大きく異なる具体例としては、人や車両において、正面からの撮影映像と、横側からの撮影映像と、後方からの撮影映像とは異なる。また、手や足を大きく動かしている人において、撮影タイミングによって撮影映像が異なる。
 第1実施形態の情報処理装置1は、認識精度の低下を抑制しつつ特徴量抽出処理の負荷の増加を抑制する機能として、前述したように、図1に表される追跡部12と連結部13と推定部14と設定部15と選択部16を備える。
 すなわち、追跡部12は、検知部11により検知された認識対象の候補を追跡する機能を備える。例えば、追跡部12は、検知部11が認識対象の候補を検知する検知処理を実行した時系列の複数のフレームにおいて検知された同じ認識対象の候補であると考えられる認識対象の候補に同じ追跡IDを付す。このような追跡部12が認識対象の候補を追跡する手法は、特に限定されないが、例えば、パーティクルフィルタを用いた追跡手法がある。
 また、追跡部12は、検知部11によって検知された認識対象の候補のうち、既存の追跡IDが付与されない認識対象の候補には、新たな追跡IDを付与する。
 さらに、追跡部12は、認識対象の候補に付与した追跡IDの情報を、記憶装置905等に記憶されている認識対象の候補の検知情報に関連付ける。
 設定部15は、抽出部17および認識部18による処理を実行する処理対象のフレームにおける認識対象の候補に付与された追跡IDと、その認識対象の候補に関連付けられている履歴情報とを参照し、追跡ID毎の選択条件を設定する機能を備える。
 また、設定部15は、次のような推定部14により推定される特徴量抽出処理の負荷が上限値よりも大きくなってしまう場合にも、追跡ID毎の選択条件を設定する機能を備える。
 設定部15による上述のような履歴情報や特徴量抽出処理の負荷に基づいた選択条件の設定手法は、その一例として、前述したような具体例で述べた手法がある。なお、選択条件を予め定められた初期設定の選択条件に設定することも、既に設定されている選択条件から変更して選択条件を再設定することも、設定すると述べることとする。
 推定部14は、処理対象のフレームについて、検知部11により検知された認識対象の候補に付与された追跡ID毎の選択条件を利用して、前述の如く単位期間THにおける選択される抽出対象の数を特徴量抽出処理の負荷として推定する。
 選択部16は、設定部15により設定された選択条件に従って、処理対象のフレームにおいて、追跡ID毎に、抽出対象を選択する機能を備える。選択部16による抽出対象の選択は、例えば、前述したような撮影情報を利用して算出した優先度が参照される。
 連結部13は、新規の追跡IDが付与された認識対象の候補の画像から抽出部17により特徴量が抽出された以降の予め定められたタイミングでもって、新規の追跡IDが既存の追跡IDと連結できるか否かを、抽出された特徴量を利用して判断する機能を備える。そして、連結部13は、連結できると判断した場合には、例えば、新規の追跡IDに、連結する既存の追跡IDを関連付ける。このように、既存の追跡IDと連結できた新規の追跡IDについての選択条件は、設定部15により、既存の追跡IDの選択条件に合わせるべく設定される。
 第1実施形態の情報処理装置1は上記のように構成されている。以下に、情報処理装置1における検知部11による検知処理から認識部18による認識処理までの一連の処理に係る動作を図9~図12に基づいて説明する。
 まず、情報処理装置1の検知部11は、カメラ2から受信した映像の一つのフレームにおいて、認識対象の候補を検知する(図9におけるステップS101)。そして、追跡部12が、その検知された認識対象の候補について、追跡手法を利用した既存の追跡ID、あるいは、新規の追跡IDを付与する(ステップS102)。
 その後、同じ認識対象の候補に関連付けられている異なる複数の追跡IDを連結する連結処理を連結部13が実行する(ステップS103)。図10は、連結部13が実行する連結処理の動作の一例を表すフローチャートである。この図10の例では、連結部13は、既存の追跡IDのうち、抽出部17による特徴量を利用した連結する追跡IDがあるか否かの連結可否判断を実行していない未処理の追跡IDが有るか否かを判断する(ステップS301)。例えば、追跡IDには、上述のような連結可否判断を処理済みであるか否かを表す情報が関連付けられており、この情報を利用して、連結部13は、ステップS301の判断結果を出す。
 未処理の追跡IDが無い場合には、連結部13は、連結処理を終了する。一方、未処理の追跡IDが有る場合には、連結部13は、その未処理の追跡IDに関連付けられている認識対象の候補の画像から抽出部17によって特徴量が抽出されているか否かを判断する(ステップS302)。特徴量が抽出されていない場合には、連結処理を進めることができないので、連結部13は、連結処理を終了する。また、特徴量が抽出されている場合には、連結部13は、特徴量が抽出されている未処理の追跡IDを連結処理対象の追跡IDとする。そして、連結部13は、その抽出されている特徴量を、連結処理対象の追跡ID以外の既存の追跡IDの中から選択された追跡IDに関連付けられている特徴量と照合する(ステップS303)。これにより、連結部13は、照合スコアを算出し、算出した照合スコアが連結判断用の閾値以上であるか否かを判断する連結可否判断を行う(ステップS304)。
 この判断により、照合スコアが連結判断用の閾値以上であった場合には、連結可能と判断し、その照合スコアの算出に利用した2つの特徴量と関連する追跡ID同士を連結する(ステップS305)。その後、連結処理対象の追跡IDについて、それ以外の全ての既存の追跡IDとの間で、上述したような特徴量の照合から照合スコアに基づいた連結可否判断までの一連の処理が終了したか否かを連結部13は判断する(ステップS306)。終了していない場合には、連結部13は、連結処理対象の追跡IDとの間で連結可否判断を行う相手の既存の追跡IDを替えて、ステップS303以降の動作を繰り返す。そして、連結部13は、ステップS306にて、終了したと判断した場合には、連結処理対象の追跡IDに、連結可否判断が処理済みである情報を関連付け、その後、連結処理を終了する。
 このような連結処理が終了した後に、図9に表されるように、設定部15が、追跡ID毎の選択条件の変更処理を実行する(ステップS104)。図11は、設定部15が実行する追跡ID毎の選択条件の変更処理の動作の一例を表すフローチャートである。この図11の例では、設定部15は、追跡ID毎に以下のような処理を実行する。すなわち、設定部15は、追跡IDに関連付けられている照合スコアが照合閾値以上であるか否かを判断する(ステップS401)。これにより、照合スコアが照合閾値以上である場合には、設定部15は、追跡IDに関連付けられている選択条件に関し、選択幅を予め定められている最大値まで拡げ、かつ、選択数を予め定められている最小値まで下げた選択条件に変更する(ステップS402)。
 また、照合スコアが照合閾値以上でなかった場合には、設定部15は、照合スコアが照合閾値未満、かつ、下限値Kよりも大きいか否かを判断する(ステップS403)。照合スコアが照合閾値未満、かつ、下限値Kよりも大きくなかった場合、つまり、照合スコアが下限値以下であった場合には、設定部15は、追跡IDに関連付けられている選択条件を次のように変更する。すなわち、設定部15は、選択幅を所定の変更幅である例えばフレーム数“1”だけ拡げ、かつ、選択数を所定の変更数である“1”だけ下げた選択条件に、選択条件を変更する(ステップS404)。
 さらに、照合スコアが照合閾値未満、かつ、下限値Kよりも大きい場合には、設定部15は、そのような照合スコアが算出された認識対象の候補の撮影情報の撮影IDを追跡IDに関連付ける(ステップS405)。そして、設定部15は、追跡IDに関連付けられている選択条件を次のように変更する。すなわち、設定部15は、選択幅を予め定められている最小値まで狭め、かつ、選択数を予め定められている最大値まで上げた選択条件に変更する(ステップS406)。
 設定部15は、追跡ID毎の選択条件を、上記のように、追跡IDに関連付けられている履歴情報である照合スコアを利用して変更する。
 追跡ID毎の選択条件の変更処理(ステップS104)が終了した後に、図9に表されるように、推定部14と設定部15が、特徴量抽出処理の負荷を考慮した選択条件の変更処理を実行する(ステップS105)。図12は、推定部14および設定部15が実行する選択条件の変更処理の動作の一例を表すフローチャートである。この図12の例では、まず、推定部14が、処理対象のフレームに関し、選択条件に基づき単位期間THにおける抽出対象として選択される認識対象の候補の数を特徴量抽出処理の負荷として推定する(ステップS601)。以下、その推定された特徴量抽出処理の負荷を推定負荷とも記す。
 その後、設定部15が、推定負荷である抽出対象の数が上限数よりも大きいか否かを判断する(ステップS602)。これにより、抽出対象の数が上限数よりも大きくなかった場合には、特徴量抽出処理の負荷は上限値よりも大きくならないと想定されるから、設定部15は、推定負荷に応じた選択条件の変更処理を終了する。一方、抽出対象の数が上限数よりも大きかった場合には、特徴量抽出処理の負荷は上限値よりも大きくなると想定されるから、設定部15は、特徴量抽出処理の負荷を抑制すべく、選択条件を次のように変更する。例えば、設定部15は、選択条件の選択数が最小値よりも大きい追跡IDの選択条件を検索する(ステップS603)。そして、設定部15は、検索にヒットした選択条件の選択数を所定の下げ値である“1”下げる(ステップS604)。その後、推定部14と設定部15は、ステップS601以降の動作を、推定負荷である抽出対象の数が上限数以下となるまで、繰り返す。
 このように、特徴量抽出処理の負荷を抑制すべく推定部14と設定部15による選択条件の変更処理(ステップS105)が実行された後に、図9に表されるように、選択部16が、抽出対象を選択する(ステップS106)。つまり、選択部16は、追跡ID毎に、選択条件に従って、処理対象のフレームにおける認識対象の候補から抽出対象を選択する。
 その後、抽出部17が、選択された抽出対象(候補画像)から特徴量を抽出する(ステップS107)。そして、認識部18が、抽出された特徴量を登録特徴量と照合する(ステップS108)。これにより、認識部18が、照合スコアを算出し、算出された照合スコアが照合閾値以上である場合には、認識対象の候補は認識対象であると確定し、算出された照合スコアが照合閾値未満である場合には、認識対象の候補は認識対象でないと確定する。
 上述したような情報処理装置1における検知部11による検知処理から認識部18による認識処理までの一連の処理によって、カメラ2に撮影された映像において認識対象が認識される。
 第1実施形態の情報処理装置1は、上述したように、処理対象のフレームにおける推定負荷と、認識対象の候補に関連する履歴情報である照合スコアとを利用して、抽出対象を選択する選択条件を変更する機能を備えている。これにより、情報処理装置1は、映像から認識対象を認識する認識精度を維持しつつ、計算資源の削減を図ることができるという効果が得られる。
 なお、第1実施形態の情報処理装置1を構成する機能部のうち、例えば、検知部等の一部の機能はカメラ2が備えていてもよく、この場合には、カメラ2が持つ検知部等の機能により得られた情報を情報処理装置1は取得して処理を実行する。
 <第2実施形態>
 以下に、本発明に係る第2実施形態を説明する。
 図13は、第2実施形態の情報処理装置の機能構成を表すブロック図である。第2実施形態の情報処理装置50は、映像から認識対象を認識する認識精度を維持しつつ、計算資源の削減を図るべく構成される基本構成を持つ。すなわち、情報処理装置50は、推定部51と、設定部52と、抽出部53と、認識部54とを備える。
 推定部51は、動画を構成するフレームから検知された認識対象の候補から特徴量を抽出する特徴量抽出処理の負荷を推定する。この推定は、特徴量抽出処理が実行される認識対象の候補を、抽出対象として選択する選択条件に基づいて選択される、予め定められた単位期間における抽出対象の数を利用する。
 設定部52は、推定された特徴量抽出処理の負荷と、認識対象の候補についての追跡処理により得られる情報を利用して得られる履歴情報とに基づいて、選択条件を設定する。
 抽出部53は、選択条件に基づき抽出対象として選択された認識対象の候補から特徴量を抽出する。
 認識部54は、抽出した特徴量と、予め登録されている認識対象の登録特徴量との比較結果に基づいて、認識対象の候補が認識対象であるか否かを判断する。
 これら推定部51と、設定部52と、抽出部53と、認識部54とは、例えば、コンピュータにより実現される。
 以下に、情報処理装置50の動作の一例を図14に基づいて説明する。図14は、情報処理装置50の動作の一例を表すフローチャートである。まず、情報処理装置50の推定部51が、特徴量抽出処理の負荷を推定する(ステップS1)。その後、設定部52が、推定された特徴量抽出処理の負荷と、認識対象の候補についての追跡処理により得られる情報を利用して得られる履歴情報とに基づいて、選択条件を設定する(ステップS2)。然る後に、抽出部53が、設定された選択条件に基づき抽出対象として選択された認識対象の候補から特徴量を抽出する(ステップS3)。さらに、認識部54は、抽出した特徴量と、予め登録されている認識対象の登録特徴量との比較結果に基づいて、認識対象の候補が認識対象であるか否かを認識する(ステップS4)。
 第2実施形態の情報処理装置50は、第1実施形態と同様に、特徴量抽出処理の負荷と、認識対象の候補についての追跡処理により得られる情報を利用して選択条件を設定する。これにより、第2実施形態の情報処理装置50は、映像から認識対象を認識する認識精度を維持しつつ、計算資源の削減を図ることができる。
 以上、上述した実施形態を模範的な例として本発明を説明した。しかしながら、本発明は、上述した実施形態には限定されない。即ち、本発明は、本発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。
 1,50 情報処理装置
 11 検知部
 12 追跡部
 13 連結部
 14,51 推定部
 15,52 設定部
 16 選択部
 17,53 抽出部
 18,54 認識部

Claims (7)

  1.  動画を構成するフレームから検知された認識対象の候補のうち、特徴量を抽出する特徴量抽出処理が実行される前記認識対象の候補を、抽出対象として選択する選択条件に基づいて選択される、予め定められた単位期間における前記抽出対象の数を利用して、前記特徴量抽出処理の負荷を推定する推定手段と、
     推定された前記特徴量抽出処理の負荷と、前記認識対象の候補についての追跡処理により得られる情報を利用して得られる履歴情報とに基づき、前記選択条件を設定する設定手段と、
     前記選択条件に基づき前記抽出対象として選択された前記認識対象の候補から前記特徴量を抽出する抽出手段と、
     抽出した前記特徴量と、予め登録されている前記認識対象の登録特徴量との比較結果に基づいて、前記認識対象の候補が前記認識対象であるか否かを判断する認識手段と
    を備える情報処理装置。
  2.  前記認識対象の候補について前記追跡処理を実行することによって、一連の前記フレームから検知された同じ前記認識対象の候補に同じ追跡ID(Identification)を付与する追跡手段をさらに備え、
     前記履歴情報は、前記追跡処理により得られる情報である前記追跡IDを利用した、同じ前記認識対象の候補に対する前記認識手段の処理に関わる情報の履歴情報である
    請求項1に記載の情報処理装置。
  3.  同じ前記認識対象の候補に付与された異なる複数の前記追跡IDを、前記抽出手段により抽出された前記特徴量を利用して連結する連結手段をさらに備える
    請求項2に記載の情報処理装置。
  4.  前記選択条件は、前記追跡ID毎に設定されており、
     前記設定手段は、前記追跡ID毎の前記履歴情報に基づいて、前記選択条件を設定する
    請求項2又は請求項3に記載の情報処理装置。
  5.  前記認識対象の候補のうち、前記選択条件に基づき前記抽出対象としての前記認識対象の候補を選択する選択手段をさらに備え、
     前記認識対象の候補には、当該認識対象の候補の映り方の情報が撮影情報として関連付けられ、また、前記認識手段によって利用される前記登録特徴量を抽出した前記認識対象の映り方の情報が参照撮影情報として与えられており、
     前記選択手段は、前記認識対象の候補における撮影情報と、前記参照撮影情報との類似度に基づいて算出された優先度を利用して、前記選択条件に従って前記抽出対象を選択する
    請求項1乃至請求項4の何れか一項に記載の情報処理装置。
  6.  コンピュータによって、
     動画を構成するフレームから検知された認識対象の候補のうち、特徴量を抽出する特徴量抽出処理が実行される前記認識対象の候補を、抽出対象として選択する選択条件に基づいて選択される、予め定められた単位期間における前記抽出対象の数を利用して、前記特徴量抽出処理の負荷を推定し、
     推定された前記特徴量抽出処理の負荷と、前記認識対象の候補についての追跡処理により得られる情報を利用して得られる履歴情報とに基づき、前記選択条件を設定し、
     前記選択条件に基づき前記抽出対象として選択された前記認識対象の候補から前記特徴量を抽出し、
     抽出した前記特徴量と、予め登録されている前記認識対象の登録特徴量との比較結果に基づいて、前記認識対象の候補が前記認識対象であるか否かを判断する
    情報処理方法。
  7.  動画を構成するフレームから検知された認識対象の候補のうち、特徴量を抽出する特徴量抽出処理が実行される前記認識対象の候補を、抽出対象として選択する選択条件に基づいて選択される、予め定められた単位期間における前記抽出対象の数を利用して、前記特徴量抽出処理の負荷を推定する処理と、
     推定された前記特徴量抽出処理の負荷と、前記認識対象の候補についての追跡処理により得られる情報を利用して得られる履歴情報とに基づき、前記選択条件を設定する処理と、
     前記選択条件に基づき前記抽出対象として選択された前記認識対象の候補から前記特徴量を抽出する処理と、
     抽出した前記特徴量と、予め登録されている前記認識対象の登録特徴量との比較結果に基づいて、前記認識対象の候補が前記認識対象であるか否かを判断する処理と
    をコンピュータに実行させるコンピュータプログラムを記憶するプログラム記憶媒体。
PCT/JP2020/025309 2020-06-26 2020-06-26 情報処理装置、情報処理方法およびプログラム記憶媒体 WO2021260934A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022532219A JP7364079B2 (ja) 2020-06-26 2020-06-26 情報処理装置、情報処理方法およびコンピュータプログラム
PCT/JP2020/025309 WO2021260934A1 (ja) 2020-06-26 2020-06-26 情報処理装置、情報処理方法およびプログラム記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/025309 WO2021260934A1 (ja) 2020-06-26 2020-06-26 情報処理装置、情報処理方法およびプログラム記憶媒体

Publications (1)

Publication Number Publication Date
WO2021260934A1 true WO2021260934A1 (ja) 2021-12-30

Family

ID=79282146

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/025309 WO2021260934A1 (ja) 2020-06-26 2020-06-26 情報処理装置、情報処理方法およびプログラム記憶媒体

Country Status (2)

Country Link
JP (1) JP7364079B2 (ja)
WO (1) WO2021260934A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015210824A (ja) * 2014-04-25 2015-11-24 ゼロックス コーポレイションXerox Corporation 外観ベースの分類による隣り合ったドライブスルー構造における車両の自動順位付け方法及びシステム
JP2019003334A (ja) * 2017-06-13 2019-01-10 コニカミノルタ株式会社 物体追跡方法、物体追跡プログラム、および物体追跡システム
JP2019069734A (ja) * 2017-10-11 2019-05-09 トヨタ自動車株式会社 車両制御装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015210824A (ja) * 2014-04-25 2015-11-24 ゼロックス コーポレイションXerox Corporation 外観ベースの分類による隣り合ったドライブスルー構造における車両の自動順位付け方法及びシステム
JP2019003334A (ja) * 2017-06-13 2019-01-10 コニカミノルタ株式会社 物体追跡方法、物体追跡プログラム、および物体追跡システム
JP2019069734A (ja) * 2017-10-11 2019-05-09 トヨタ自動車株式会社 車両制御装置

Also Published As

Publication number Publication date
JP7364079B2 (ja) 2023-10-18
JPWO2021260934A1 (ja) 2021-12-30

Similar Documents

Publication Publication Date Title
JP5001260B2 (ja) オブジェクト追跡方法及びオブジェクト追跡装置
KR101434768B1 (ko) 이동 물체 추적 시스템 및 이동 물체 추적 방법
JP5285575B2 (ja) 人物行動判定装置及びそのプログラム
JP4373840B2 (ja) 動物体追跡方法、動物体追跡プログラムおよびその記録媒体、ならびに、動物体追跡装置
JP5085621B2 (ja) 画像認識処理に適用する特徴情報選択装置、画像認識処理装置、監視システム、方法、及びプログラム
EP2309454A2 (en) Apparatus and method for detecting motion
US10496874B2 (en) Facial detection device, facial detection system provided with same, and facial detection method
US20230394792A1 (en) Information processing device, information processing method, and program recording medium
JP4821355B2 (ja) 人物追跡装置、人物追跡方法および人物追跡プログラム
JP7446060B2 (ja) 情報処理装置、プログラム及び情報処理方法
JP6798609B2 (ja) 映像解析装置、映像解析方法およびプログラム
CN114764895A (zh) 异常行为检测装置和方法
WO2021260934A1 (ja) 情報処理装置、情報処理方法およびプログラム記憶媒体
CN111738059A (zh) 一种面向无感场景的人脸识别方法
JP6384167B2 (ja) 移動体追跡装置及び移動体追跡方法、並びにコンピュータ・プログラム
JP2007510994A (ja) ビデオ画像内でのオブジェクトトラッキング
US20190355130A1 (en) Image processing device, image processing method, and recording medium storing program
CN115546825A (zh) 一种安检规范性自动监测方法
JP5241687B2 (ja) 物体検出装置及び物体検出プログラム
JP7374632B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP7215569B2 (ja) オブジェクト特徴量抽出装置、オブジェクト特徴量抽出方法及びプログラム
JP7211496B2 (ja) 教師データ生成装置
JP7211495B2 (ja) 教師データ生成装置
JPH09107540A (ja) 監視カメラ装置
US20220301292A1 (en) Target object detection device, target object detection method, and non-transitory computer readable storage medium storing target object detection program

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20941573

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022532219

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20941573

Country of ref document: EP

Kind code of ref document: A1