WO2015129318A1 - 画像検索方法、サーバ及び画像検索システム - Google Patents

画像検索方法、サーバ及び画像検索システム Download PDF

Info

Publication number
WO2015129318A1
WO2015129318A1 PCT/JP2015/050897 JP2015050897W WO2015129318A1 WO 2015129318 A1 WO2015129318 A1 WO 2015129318A1 JP 2015050897 W JP2015050897 W JP 2015050897W WO 2015129318 A1 WO2015129318 A1 WO 2015129318A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
feature quantity
image feature
server
images
Prior art date
Application number
PCT/JP2015/050897
Other languages
English (en)
French (fr)
Inventor
大輔 松原
廣池 敦
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Publication of WO2015129318A1 publication Critical patent/WO2015129318A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/167Detection; Localisation; Normalisation using comparisons between temporally consecutive images

Definitions

  • the present invention relates to an image search system and method, and information search on a computer.
  • the similar search technique refers to a technique in which data similar to a search query designated by a user is searched from target data and the result is presented.
  • the similar image search technique is a technique for searching for data having a high degree of similarity between feature quantities using feature quantities such as hue, shape, composition, etc. extracted from the image itself. For example, when searching for a person, vector data such as an edge pattern of a face image and a clothes color histogram can be used as a feature amount. Also, the similarity increases as the distance between feature quantity vectors decreases.
  • such a feature quantity is a high-dimensional vector such as several hundreds to thousands of dimensions. Therefore, when calculating a distance between feature quantity vectors, a large amount of computation is a problem.
  • a method using discriminant analysis has been proposed as a method of compressing a high-dimensional vector to a low dimension.
  • Japanese Unexamined Patent Application Publication No. 2009-140513 discloses a technique for converting a feature vector using discriminant analysis in order to obtain a feature vector effective for discrimination of a character image or a face image from the input feature vector. .
  • Japanese Patent Application Laid-Open No. 2004-310639 discloses a technique for improving accuracy by using both high-quality image data and low-quality image data when performing dimensional compression using discriminant analysis on a character image. It is disclosed.
  • Discriminant analysis is to obtain a feature vector transformation matrix that increases the variance between classes and reduces the variance within a class when learning data in the form of pairs of classes and feature vectors is given. This is a supervised dimension reduction method.
  • this transformation matrix is referred to as a discrimination matrix.
  • one discriminant matrix is created from the entire learning data, and projection using this discriminant matrix is performed for all feature quantity vectors extracted from the face image. Then, the vector distance between the projected feature quantity vectors is calculated, and similar face images are searched by sorting in order from the smallest distance value. Therefore, it is presumed that the accuracy of finding the person himself / herself is improved when a similar image search is performed using a feature quantity vector subjected to dimension reduction by discriminant analysis.
  • the d dimension is the number of dimensions of the number of images extracted from the face image.
  • the d ′ dimension is the number of dimensions after compression, and is the number of dimensions set according to the required accuracy, computer performance, and the like.
  • the intra-class variance matrix W is calculated using the data belonging to each other, that is, the data belonging to the same class
  • the inter-class variance matrix B is calculated using the data belonging to other people, that is, different classes.
  • the number of classes is c ⁇ 2
  • the total number of data is n
  • the average value of the entire data is ave x.
  • the data set of classes i x i, the number of data of the data set x i n i, the average of the data of the data number n i and ave x i. T represents a transposed matrix.
  • is a matrix having eigenvalues ⁇ i ( ⁇ 1 ⁇ ⁇ 2 ⁇ ... ⁇ ⁇ d) as diagonal elements.
  • a matrix ⁇ ⁇ 1, ⁇ 2,..., ⁇ d ⁇ in which d ′ eigenvectors obtained in this way are arranged in descending order of eigenvalues is a discrimination matrix.
  • a space projected using this discriminant matrix ⁇ is called a discriminant space.
  • the d′-dimensional feature quantity vector Y after compression is expressed as the following equation (4).
  • the discriminant matrix is created by obtaining the eigenvector matrix ⁇ ′ and the eigenvalue matrix ⁇ ′ satisfying the following equation (6) using only the interclass variance matrix B without using the intraclass variance matrix W. It is also possible to do.
  • the discriminant space created once can be used in another location. Conceivable. Therefore, when dimensional compression is performed for a controlled environment, it takes a lot of time to create initial learning data, but it is possible to reuse the same learning data.
  • the appropriate discrimination space is likely to be different. For example, when a discriminant space is learned using a face photograph that faces the camera, such as an ID photograph, an appropriate projection cannot be performed in an environment in which the face image facing obliquely or the illumination is dark.
  • An image search method for searching for an image using a computer having a processor and a memory wherein the computer detects a first object and a second object from an input image, and the computer , A second step of extracting a first image feature quantity of the first object and a second image feature quantity of the second object, and the computer comprising the first object and the second object.
  • a third step of determining that the object is different from the object, and the computer having a large variance between the first image feature quantity and the second image feature quantity that are different objects A fourth step of generating a simple transformation matrix, and a fifth step of storing the image feature quantity after the computer has transformed the image feature quantity using the transformation matrix; Including.
  • the present invention in order to increase the variance B between feature quantities of different objects, it is possible to generate a better transformation matrix and improve search accuracy by determining that the objects in the same image are different objects. To do. Since learning data for creating a transformation matrix can be automatically collected, the process for creating learning data can be reduced and the operating cost of the system can be suppressed.
  • FIG. 1 is a block diagram illustrating a configuration of an image search system according to a first embodiment of this invention. It is explanatory drawing which shows the 1st Example of this invention and shows feature-value management information.
  • FIG. 2 shows a first embodiment of the present invention, showing generation of another person information, and an image of a camera.
  • FIG. Fig. 3 shows a first embodiment of the present invention, showing generation of different person information, and an image of another camera.
  • FIG. 1 is a block diagram showing the configuration of the image search system of the first embodiment.
  • the image search system of the first embodiment includes a server computer 110, a client computer 130, discriminant matrix information 140, a search database 150, and a camera 160. Each device is connected to each other by a communication infrastructure 120.
  • the server computer 110 includes an external interface 111, a central processing unit (CPU) 112, a memory 113, and a large-capacity external storage device (HD) 114.
  • CPU central processing unit
  • HD large-capacity external storage device
  • the external interface 111 is an interface (I / F) for connecting the server computer 110 to the communication infrastructure 120.
  • the CPU 112 is a processor that executes processing of the server computer 110.
  • the memory 113 is a work area for processing executed by the CPU 112, and stores various data and programs loaded from the HD 114.
  • the HD 114 is a mass storage device such as a hard disk, and stores programs executed by the CPU 112, data (discriminant matrix information 140, search database 150), and the like.
  • the HD 114 may be an external storage device connected to the server computer 110.
  • the client computer 130 is a computer connected to the communication infrastructure 120. Although FIG. 1 shows one client computer 130, any number of client computers 130 may be provided. If the server computer 110 has a function equivalent to that of the client computer 130, all processing may be performed by the server computer 110.
  • the client computer 130 may be a computer having any configuration.
  • FIG. 1 shows a configuration of a typical client computer 130. That is, the client computer 130 of FIG. 1 includes a CPU 131, a memory 132, an I / F 133, an input device 134, and an output device 135.
  • the CPU 131 is a processor that executes a program stored in the memory 132.
  • the memory 132 is a storage device that stores programs executed by the CPU 131.
  • the I / F 133 is an interface connected to the communication infrastructure 120 and used for communication between the client computer 130 and the server computer 110.
  • the input device 134 is a device that receives input from the user of the client computer 130.
  • the input device 134 is, for example, a keyboard or a mouse.
  • the output device 135 is a device that displays information to the user of the client computer 130.
  • an image display device such as a CRT or a liquid crystal display.
  • a display provided with a touch sensor may be used as an input / output device.
  • the image search system has a configuration in which a server computer 110 and a client computer 130 connected via a communication infrastructure 120 (network) provide a service.
  • the configuration may be such that a service is provided by an application.
  • the discriminant matrix information 140 stores a discriminant matrix (or transformation matrix) 300 for performing dimensional compression of the feature vector. Note that a matrix obtained by transposing the discriminant matrix 300 may be stored.
  • the search database 150 is a database for storing image feature amounts (feature amount vectors) extracted from images to be searched, and stores, for example, feature amount management information 200 (see FIG. 2).
  • Cameras 160a to 160n are cameras installed in the monitoring target area.
  • the generic name of the cameras 160a to 160n is referred to as the camera 160.
  • image data (video or image) to be processed may be stored in the HD 114 in advance.
  • the image data received from the camera 160 may be stored in the HD 114.
  • the CPU 112 operates as a functional unit that provides a predetermined function by executing processing of each program.
  • the CPU 112 functions as a discriminant matrix generation unit by performing processing according to the discriminant matrix generation program 400.
  • the discriminant matrix generation unit includes an image acquisition unit 401, a face detection processing unit 402, a person information generation unit 403, a feature amount extraction unit 404, an interclass variance calculation unit 405, and a discrimination matrix generation unit. 406 and a functional unit of the discriminant matrix storage unit 407.
  • the CPU 112 functions as a search feature value conversion unit by performing processing according to the search feature value conversion program 500.
  • the search feature quantity conversion unit includes functional units of an image acquisition unit 501, a face detection processing unit 502, a feature quantity extraction unit 503, a feature quantity conversion unit 504, and a feature quantity storage unit 505. including.
  • the CPU 112 functions as a search unit by performing processing according to the search program 600.
  • the search unit includes functions of an image input unit 601, a face detection processing unit 602, a feature amount extraction unit 603, a feature amount conversion unit 604, a similarity search unit 605, and a search result output unit 606. Part.
  • the CPU 112 also operates as a functional unit that provides the functions of a plurality of processes executed by each program.
  • a computer and a computer system are an apparatus and a system including these functional units.
  • Information such as programs and tables for realizing each function of the server computer 110 is stored in a storage device such as an HD 114, a nonvolatile semiconductor memory, a hard disk drive, an SSD (Solid State Drive), or a computer such as an IC card, an SD card, or a DVD. It can be stored in a readable non-transitory data storage medium.
  • a storage device such as an HD 114, a nonvolatile semiconductor memory, a hard disk drive, an SSD (Solid State Drive), or a computer such as an IC card, an SD card, or a DVD. It can be stored in a readable non-transitory data storage medium.
  • FIG. 2 is an explanatory diagram showing the feature quantity management information 200 of the first embodiment.
  • the feature amount management information 200 includes a search data ID 201 and a search target image feature amount 202.
  • the search data ID 201 is an identifier for identifying a feature amount, and is used for associating image data and the like.
  • the search target image feature amount 202 is a feature amount vector that is extracted from the image and then converted using the discrimination matrix 300.
  • the discriminant matrix information 140 and the search database 150 may be stored in the HD 114 included in the server computer 110 or may be stored in another hard disk different from the HD 114.
  • the search data ID 201 is assigned to the image data corresponding to the search target image feature amount 202.
  • an instruction to assign the search data ID 201 to the image data corresponding to the search target image feature amount 202 may be transmitted.
  • FIG. 4 is a block diagram illustrating an example of a discriminant matrix generation process performed by the discriminant matrix generation program 400 of the first embodiment.
  • FIG. 3A the discriminant matrix generation process will be described with reference to FIGS. 3A, 3B, and 4.
  • the server computer 110 functions as a discriminant matrix generation unit by executing the discriminant matrix generation program 400.
  • the discriminant matrix generation unit includes an image acquisition unit 401, a face detection processing unit 402, a person information generation unit 403, a feature amount extraction unit 404, an interclass variance calculation unit 405, a discriminant matrix generation unit 406, and a discrimination matrix storage unit 407.
  • the discriminant matrix 300 is generated.
  • the CPU 112 shown in FIG. 1 loads various programs stored in the HD 114 into the memory 113, reads the various programs loaded in the memory 113, and executes the read various programs, thereby obtaining an image acquisition unit.
  • the face detection processing unit 402, the person information generation unit 403, the feature amount extraction unit 404, the interclass variance calculation unit 405, the discrimination matrix generation unit 406, and the discrimination matrix storage unit 407 are realized as described above.
  • the server computer 110 acquires an image from the camera 160 via the communication infrastructure 120.
  • the image acquisition unit 401 acquires an image as learning data.
  • the server computer 110 may acquire the image for each frame by decoding the video after acquiring the video from the camera 160.
  • an image or video captured by the camera 160 is temporarily stored in the client computer 130, and the image or video is transmitted from the client computer 130 to the server computer 110 via the communication infrastructure 120 and received by the image acquisition unit 401.
  • an image captured in advance as learning data may be stored in the HD 114, and an image may be acquired (or input) from the HD 114.
  • the face detection processing unit 402 performs face detection processing on the acquired image, and acquires the face area of the person shown in the image.
  • a known or publicly known technique may be applied, and thus will not be described in detail here.
  • the person information generation unit (object information generation unit) 403 when a plurality of persons are captured in an image acquired from one camera 160 for the face area detected by the face detection processing unit 402, The person information is generated assuming that the person in the picture is a different person.
  • the person information generation unit 403 generates information that the persons 320A, 320B, and 302C are different persons.
  • the person information generation unit 403 generates information that 340A, 340B, 340C, and 340D are different persons.
  • the person information generation unit 403 may assign an identifier for each person in the face area as information on the same person or information on another person, and assign a different identifier to another person.
  • the feature quantity extraction unit 404 extracts a d-dimensional feature quantity vector as a face image feature quantity from the face area detected by the face detection processing unit 402.
  • the face image feature amount is, for example, a multidimensional vector created based on an edge pattern, a color histogram, or the like. Note that the calculation of the feature vector is not described in detail here because a known or publicly known technique such as the edge pattern or the color histogram may be used.
  • processing of the person information generation unit 403 and the feature amount extraction unit 404 may be performed in parallel, or one of them may be performed first.
  • the interclass variance calculation unit 405 calculates the interclass variance B using the feature quantity vector extracted from the face area according to the following equation (7).
  • the class number c j ⁇ 2 is the number of face images (face regions) detected from the j-th frame image
  • x ij is the j-th frame image. This is a feature vector extracted from the i-th face region, and the average of the feature vector data is ave x j .
  • a discriminant matrix generation unit (transformation matrix generation unit) 406 obtains an eigenvector matrix ⁇ B and an eigenvalue matrix ⁇ B that satisfy the following equation (8).
  • the discriminant matrix storage unit 407 stores the discriminant matrix (transform matrix) 300 in the discriminant matrix information (transform matrix information) 140.
  • the server computer 110 extracts a face area from the input image, and extracts person information and a feature vector from the face area. Then, the server computer 110 calculates a discriminant matrix 300 such that the inter-class variance B becomes large from the extracted person information and feature quantity vector, and stores the discriminant matrix 300 in the discriminant matrix information 140.
  • FIG. 5 is a block diagram showing a feature vector registration process performed by the search feature conversion program 500 of the first embodiment.
  • the server computer 110 functions as a search feature value conversion unit by executing the search feature value conversion program 500.
  • the search feature quantity conversion unit registers the feature quantity vector in the feature quantity management information 200 using the image acquisition unit 501, face detection processing unit 502, feature quantity extraction unit 503, feature quantity conversion unit 504, and feature quantity storage unit 505. Execute the process.
  • the image acquisition unit 501, face detection processing unit 502, and feature amount extraction unit 503 may be the same as or different from the image acquisition unit 401, face detection processing unit 402, and feature amount extraction unit 404 shown in FIG. Also good.
  • the image acquisition unit 501 acquires an image to be searched for similar images from the camera 160 via the communication infrastructure 120.
  • the image may be acquired by decoding the video after acquiring the video.
  • the image acquisition unit 501 may transmit an image or video to be searched for similar images from the client computer 130 via the communication infrastructure 120.
  • an image captured in advance may be stored in the HD 114, and an image may be acquired (or input) from the HD 114.
  • the face detection processing unit 502 executes face detection processing on the acquired image, and acquires the face area of the person shown in the image.
  • the face detection process is the same as that of the face detection processing unit 402 in FIG. 4, and a known or publicly known technique may be applied.
  • the feature quantity extraction unit 503 extracts a d-dimensional feature quantity vector as the feature quantity of the face image from the face area detected by the face detection processing unit 502.
  • the face image feature amount is, for example, a multidimensional vector created based on an edge pattern or a color histogram.
  • the face detection processing unit 502 detects a plurality of face areas, d-dimensional feature quantity vectors are extracted from all the face areas.
  • the feature quantity vector is the same as that of the feature quantity extraction unit 404 of FIG. 4, and a known or publicly known technique may be used.
  • the feature quantity conversion unit 504 calculates a product of the d-dimensional feature quantity vector extracted by the feature quantity extraction unit 503 and the discriminant matrix 300 acquired from the discriminant matrix information 140, and obtains a d′-dimensional feature quantity vector. Convert to Note that the number of dimensions is d ′ ⁇ d, and the feature vector is compressed by the discriminant matrix 300.
  • the feature quantity storage unit 505 stores the d′-dimensional feature quantity vector obtained by the feature quantity conversion unit 504 in the feature quantity management information 200 of the search database 150.
  • the feature quantity storage unit 505 stores a feature quantity vector in the search target image feature quantity 202 of the feature quantity management information 200, and assigns a search data ID 201 corresponding to the feature quantity vector.
  • the feature quantity management information 200 clustering or hashing may be generated and index information may be stored together in order to perform high-speed search during search processing.
  • the feature amount management information 200 may include an image identifier or location (file path or the like) corresponding to the search target image feature amount 202.
  • the server computer 110 calculates a d-dimensional feature vector from the input image (or video), converts it into a d′-dimensional feature vector using the discriminant matrix 300, and performs dimensional compression.
  • the feature quantity vector is stored in the feature quantity management information 200.
  • FIG. 6 is a block diagram showing search processing performed by the search program 600 of the first embodiment.
  • the server computer 110 functions as a search unit by executing the search program 600.
  • the search unit executes a search process using the image input unit 601, the face detection processing unit 602, the feature amount extraction unit 603, the feature amount conversion unit 604, the similarity search unit 605, and the search result output unit 606.
  • the face detection processing unit 602, the feature amount extraction unit 603, and the feature amount conversion unit 604 may be the same as the face detection processing unit 402, the feature amount extraction unit 404, and the feature amount conversion unit 504 illustrated in FIG. It may be different.
  • an image (search target image) showing a person as a search key (search target) for similar image search is input from the client computer 130 via the communication infrastructure 120. Accept.
  • the face detection processing unit 602 executes face detection processing on the input image (search target image), and acquires the face area of the person shown in the image.
  • the face detection processing is the same as the face detection processing unit 402 in FIG.
  • the feature quantity extraction unit 603 extracts a d-dimensional feature quantity vector as a face image feature quantity from the face area detected by the face detection processing unit 502.
  • the face image feature amount is, for example, a multidimensional vector created based on an edge pattern or a color histogram.
  • d-dimensional feature quantity vectors are extracted from all the face areas.
  • a face area as a search key may be specified from the client computer 130, or feature quantity vectors may be extracted from all the plurality of face areas. It may be used for future processing.
  • the feature quantity vector is the same as that of the feature quantity extraction unit 404 in FIG.
  • the feature quantity conversion unit 604 calculates the product of the d-dimensional feature quantity vector extracted by the feature quantity extraction unit 603 and the discriminant matrix 300 acquired from the discriminant matrix information 140 to obtain a d′-dimensional feature quantity vector. Get.
  • all feature vectors are converted using the discrimination matrix 300. Note that the feature value conversion is the same as the feature value conversion unit 504 in FIG.
  • the similarity search unit 605 calculates the distance between vectors of the feature vector that is the search key and the search target image feature 202 stored in the search database 150. Then, the search data IDs 201 are arranged in ascending order from the smallest vector distance.
  • the search result output unit 606 outputs the search result to the client computer 130 based on the sorted search data ID 201. For example, when image data is associated with the search data ID 201, an image data string is output.
  • the server computer 110 calculates the d′-dimensional feature vector for the search target image input from the client computer 130 and calculates the inter-vector distance of the search target image feature 202 in the search database 150. . Then, the server computer 110 transmits the search data ID 201 or the image as a search result to the client computer 130 in ascending order of the vector distance.
  • the number of search data IDs 201 or the number of images that the server computer 110 transmits to the client computer 130 as a search result may be limited to a predetermined value.
  • the facial feature amount extracted from the detected face region has been described as an object.
  • any feature feature can be used as long as it can be detected from the image.
  • a person feature amount extracted from a person region or a feature amount of an object other than a person may be used.
  • the image search system detects the first object and the second object from the input image, the first image feature amount of the first object, A second image feature amount of a second object is extracted, the first object and the second object are determined to be different objects, and the first image feature amount to be different objects from each other; Generating a transformation matrix (discriminant matrix 300) such that a variance B between the second image feature amount and the second image feature amount is increased, and performing a search using the image feature amount after being transformed using the transformation matrix; And
  • Such a feature can generate a transformation matrix in which the distance between vectors between individuals is small and the distance between vectors between others is large, without human intervention, and the search accuracy is improved. Since learning data for creating a transformation matrix can be automatically collected, the process for creating learning data can be reduced and the operating cost of the system can be suppressed.
  • the image search system of the second embodiment is realized by using the same computer system as the image search system of the first embodiment, a block diagram showing a configuration, an explanatory diagram showing feature quantity management information, The block diagram showing the feature vector registration process and the block diagram showing the search process are the same.
  • FIG. 7 is a schematic diagram showing generation of different person information and the same person information in the second embodiment
  • FIG. 8 is a block diagram showing discrimination matrix generation processing in the second embodiment.
  • the server computer 110 functions as a discriminant matrix generation unit by executing the discriminant matrix generation program 400.
  • the discriminant matrix generation unit includes an image acquisition unit 801, a face detection processing unit 802, a person tracking unit 803, a person information generation unit 804, a feature amount extraction unit 805, an interclass variance calculation unit 806, an intraclass
  • the discriminant matrix 300 is generated by the variance calculation unit 807, the discriminant matrix generation unit 808, and the discriminant matrix storage unit 809.
  • the server computer 110 acquires an image from the camera 160 via the communication infrastructure 120.
  • the image acquisition unit 801 acquires an image as learning data, as in the first embodiment.
  • the server computer 110 may acquire an image for each frame by decoding the video after acquiring the video from the camera 160.
  • an image or video captured by the camera 160 or another camera is temporarily stored in the client computer 130, and the image or video is transmitted from the client computer 130 to the server computer 110 via the communication infrastructure 120 to obtain an image. It may be received by the unit 801.
  • an image captured in advance as learning data may be stored in the HD 114, and an image may be acquired (or input) from the HD 114.
  • the face detection processing unit 802 executes face detection processing on the acquired image, and acquires the face area of the person shown in the image.
  • the face detection 0 process is the same as the face detection processing unit 402 shown in FIG. 4 of the first embodiment, and a known or known technique may be applied.
  • the person tracking unit 803 tracks a person captured in a continuous frame (image).
  • the face detection processing unit 802 detects a plurality of face areas, each face area is tracked.
  • the tracking of the face area of the person tracking unit 803 associates the face area of the same person between different frames, and a well-known or publicly known technique may be used, and will not be described in detail here.
  • the person information generation unit 804 when a plurality of persons are shown in the image acquired from one camera 160 for the face area detected by the face detection processing unit 802, the person shown at the same time is a different person. As a result, personal information for another person is generated. As person information for another person, a person ID may be given to a face area in the image, or only information about another person may be held. Further, the person tracking unit 803 generates person information for the same person, assuming that the tracked face area is the same person. As person information for the same person, a person ID may be assigned and grouped. As described above, the person tracking unit 803 specifies the same object (the same person) if the first object or the second object is the same among the plurality of images input to the server computer 110.
  • the person tracking unit 803 when face regions (persons) 720A, 720B, and 720C are shown in an image (frame) 710 acquired from the camera 160a, the persons 720A, 720B, and 720C are different persons. It is estimated to be. Therefore, the person tracking unit 803 generates information that the persons 720A, 720B, and 702C are different persons. The person tracking unit 803 is the same for the persons 740A, 740B, and 740C shown in the image 730 and the persons 760A, 760B, and 760C shown in the image 750.
  • the person tracking unit 803 detects 740A, 740B, and 740C in the image 730 as a result of tracking the persons 720A, 720B, and 720C of the image 710, and detects 760A, 760B, and 760C in the image 750. If detected, the persons 720A, 740A, and 760A are the same person, the persons 720B, 740B, and 760B are the same person, and the persons 720C, 740C, and 760C generate information that is the same person.
  • the person information generation unit 804 assigns an identifier for each person in the face area as information about the same person or information about another person, assigns the same identifier to the same person, and assigns a different identifier to another person. good.
  • the feature quantity extraction unit 805 extracts a d-dimensional feature quantity vector as a face image feature quantity from the face area detected by the face detection processing unit 802.
  • the face image feature amount is, for example, a multidimensional vector created based on an edge pattern or a color histogram.
  • the processing of the person tracking unit 803 and the person information generation unit 804 and the processing of the feature amount extraction unit 805 may be performed in parallel, or one of them may be performed first.
  • the feature quantity vector is the same as that of the feature quantity extraction unit 404 of the first embodiment, and a known or publicly known technique may be used.
  • the inter-class variance calculation unit 806 calculates the inter-class variance B using the feature vector extracted from the face area according to the equation (7) shown in the first embodiment.
  • the intra-class variance calculation unit 807 calculates the intra-class variance W using the feature quantity vector extracted from the face area according to the following equation (9).
  • p j ⁇ 2 is the number of face images (face regions) detected from the j-th person
  • x ij is the j-th number.
  • This is a feature vector extracted from the i-th face area of a person, and the average of the feature vector data is ave x j .
  • the discriminant matrix generation unit 808 obtains an eigenvector matrix ⁇ BW and an eigenvalue matrix ⁇ BW that satisfy the following expression (10).
  • .lambda.B W is the eigenvalue ⁇ B Wi ( ⁇ B W1 ⁇ ⁇ B W2 ⁇ ... ⁇ ⁇ B Wd) on the diagonal It is a matrix with.
  • a matrix ⁇ B W ⁇ B W1 , ⁇ B W2 ,..., ⁇ B Wd ' ⁇ obtained by arranging d ′ eigenvectors ⁇ B Wi obtained in this order in descending order of the eigenvalues becomes a discriminant matrix 300 of d columns ⁇ d ′ rows.
  • a discriminant matrix 300 having a large interclass variance B and a small intra-class variance can be obtained.
  • the discriminant matrix storage unit 809 stores the calculated discriminant matrix 300 in the discriminant matrix information 140.
  • the variance W is obtained in the same class (face region).
  • a smaller transformation matrix (second transformation matrix) can be obtained.
  • inter-class variance calculation unit 405 of the first embodiment an example is shown in which the inter-class variance B is calculated using the feature vector extracted from the face image (face area) shown in one image.
  • the calculation is not performed using only the face image shown in one image, but as shown in the second embodiment, each face image (face As a result of tracking (region), calculation may be performed using a plurality of face images regarded as the same person.
  • the interclass variance B is calculated using the feature vector extracted from the face area according to the following equation (11).
  • the class number c j ⁇ 2 is the number of face images (face areas) detected from the j-th frame image.
  • y ij is the average value of the feature vector extracted from the i-th face area of the j-th frame image and other face images regarded as the same person as a result of tracking
  • ave y j is the feature This is the average value of the quantity vector y ij .
  • the server computer 110 calculates the inter-class variance B using the average value of the feature amount vectors of the three face regions 720A, 740A, and 760A.
  • the discriminant matrix 300 that increases the interclass variance B by calculating the interclass variance B from the average value of the feature amount vectors of the face regions regarded as the same person in a plurality of frames (images). It is possible to improve the accuracy.
  • the plurality of images may be continuous images or images every predetermined time.
  • the interclass variance B is calculated using the feature vector extracted from the face image (face area) shown in one image.
  • the interclass variance B may be calculated using the feature vector of the face area of the image.
  • the server computer 110 recognizes each face area 760C as a different person. Then, the server computer 110 calculates the interclass variance B using the feature amount vectors of the three face regions 720A, 740B, and 760C.
  • the accuracy of the discriminant matrix 300 that increases the inter-class variance B is improved by calculating the inter-class variance B from the feature vector of the face area regarded as a different person in a plurality of frames (images). It becomes possible to make it.
  • the configuration of the computer, the processing unit, and the processing unit described in the present invention may be partially or entirely realized by dedicated hardware.
  • the various software exemplified in the present embodiment can be stored in various recording media (for example, non-transitory storage media) such as electromagnetic, electronic, and optical, and through a communication network such as the Internet. It can be downloaded to a computer.
  • recording media for example, non-transitory storage media
  • a communication network such as the Internet. It can be downloaded to a computer.
  • the present invention is not limited to the above-described embodiments, and includes various modifications.
  • the above-described embodiments have been described in detail for easy understanding of the present invention, and are not necessarily limited to those having all the configurations described.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

プロセッサとメモリを備えた計算機が、入力された画像から第1のオブジェクトと第2のオブジェクトとを検知し、前記第1のオブジェクトの第1の画像特徴量と、前記第2のオブジェクトの第2の画像特徴量とを抽出し、前記第1のオブジェクトと前記第2のオブジェクトとが異なるオブジェクトであると判定し、異なるオブジェクト同士となる前記第1の画像特徴量と前記第2の画像特徴量との間の分散が大きくなるような変換行列を生成し、前記変換行列を用いて前記画像特徴量を変換した後の画像特徴量を格納する。

Description

画像検索方法、サーバ及び画像検索システム 参照による取り込み
 本出願は、平成26年(2014年)2月25日に出願された日本出願である特願2014-034008の優先権を主張し、その内容を参照することにより、本出願に取り込む。
 本発明は、画像検索システム及び方法に関し、計算機での情報検索に関する。
 近年、凶悪犯罪の増加やセキュリティ意識の向上に伴い、店舗や空港、道路などの人が集まる場所に、多くの監視カメラが設置されつつある。これらの監視カメラで撮影された映像は、監視レコーダなどの蓄積装置に格納され、必要に応じて閲覧される。しかしながら、IPカメラ(ネットワーク接続カメラ)の普及によってネットワーク経由で多数のカメラが接続可能になり、また蓄積装置の大容量化が進んだことも相まって、膨大な量の映像が蓄積されつつある。したがって、従来のように目視で全映像データを確認することは非常に困難になっている。
 そこで、蓄積装置の大量の映像データの中から、特定の人物や物体が映っている場面を検索して提示するために、様々な類似検索技術が提案されている。ここで、類似検索技術とは、ユーザが指定した検索クエリに類似したデータを対象データ内から探して、その結果を提示する技術を指す。特に、類似画像検索技術とは、画像自体から抽出される色合いや形状、構図等の特徴量を用いて、特徴量間の類似度が大きいデータを検索する技術である。例えば、人物を検索する際には、顔画像のエッジパターンや服の色ヒストグラムなどのベクトルデータを特徴量として用いることができる。また、特徴量ベクトル間の距離が小さいほど類似度が大きくなる。
 しかしながら、一般的にこのような特徴量は数百次元から数千次元といった高次元ベクトルになるため、特徴量ベクトル間の距離を計算する際に、計算量が大きいことが課題となっている。
 そこで、高次元の特徴量ベクトルを低次元に圧縮して、距離計算の回数を削減する必要がある。高次元ベクトルを低次元に圧縮する方法として、判別分析を用いる方法が提案されている。
 特開2009-140513号では、入力された特徴量ベクトルから文字画像や顔画像の判別に有効な特徴量ベクトルを得るために、判別分析を用いて特徴量ベクトルを変換する技術が開示されている。
 特開2004-310639号では、文字画像を対象にして判別分析を用いて次元圧縮を行う際に、高品質な画像データと低品質な画像データの両方を用いることで、精度を向上する技術が開示されている。
 判別分析とは、クラスと特徴量ベクトルが対となっている形式の学習データが与えられたとき、クラス間の分散を大きくし、クラス内の分散を小さくするような特徴量ベクトル変換行列を求めるための教師あり次元削減方法である。以下、この変換行列を判別行列と呼ぶ。
 顔画像から抽出した特徴量ベクトルに対して判別分析による次元圧縮を行う場合、同一人物の顔画像の集合を上記同一クラスとして扱う。したがって、本人同士のベクトル間距離が小さく、他人同士のベクトル間距離が大きくなるような判別行列を求めることになる。つまり、顔の向きや表情、照明条件が異なる場合でも本人同士の類似度が大きくなり、同一環境で撮影した場合でも他人同士の類似度が小さくなるように変換される。
 類似画像検索に適用する場合は、学習データ全体から一つの判別行列を作成し、顔画像から抽出した特徴量ベクトル全てに対して、この判別行列を用いた射影を行う。そして、射影された特徴量ベクトル同士のベクトル間距離の計算を行い、距離の値が小さいものから順にソートすることで、類似した顔画像を検索する。よって、判別分析による次元削減を行った特徴量ベクトルを用いて類似画像検索を行うと、本人を見つける精度が向上すると推定される。
 以下、判別分析を用いた次元圧縮方法について説明する。ここでは、ある顔画像から抽出したd次元の特徴量ベクトルxを、判別分析によってd'次元の特徴量ベクトルに変換するための判別行列Φの生成方法について述べる。なお、d次元は、顔画像から抽出した画像の数の次元数である。また、d'次元は、圧縮後の次元数で、必要とされる精度や計算機の性能などに応じて設定された次元数である。
 まず、次式に示すように、本人同士、つまり同一クラスに属するデータを用いてクラス内分散行列Wを、他人同士、つまり異クラスに属するデータを用いてクラス間分散行列Bを計算する。
Figure JPOXMLDOC01-appb-M000001
Figure JPOXMLDOC01-appb-M000002
 ここで、クラス数はc≧2、総データ数はn、データ集合はX={x}、データ全体の平均値はavexである。また、クラスiのデータ集合をx、データ集合xのデータ数をn、データ数nのデータの平均をaveとする。また、Tは転置行列を示す。
 これらのクラス内分散行列Wとクラス間分散行列Bを用いて、次の(3)式を満たす固有ベクトル行列Ψと固有値行列Λを求める。
 BΨ = WΨΛ   ・・・ (3)
 ここで、Ψは固有ベクトルψi (i=0、…、d)を列ベクトルとする行列であり、Λは固有値λ(λ1≧λ2≧…≧λd)を対角要素に持つ行列である。こうして得られた固有ベクトルを固有値の大きい順にd'個並べた行列Φ={φ1、φ2、…、φd}が判別行列となる。尚、この判別行列Φを用いて射影した空間を判別空間と呼ぶ。
 圧縮前のd次元の特徴量ベクトルXと判別行列Φを用いて、圧縮後のd'次元の特徴量ベクトルYは次の(4)式のように表される。
 Y = ΦX    ・・・ (4)
 なお、圧縮後の次元数d'と学習データのクラス数cは、次の(5)式のような関係になる。
 m≦(c-1) ・・・ (5)
 また、クラス内分散行列Wを使用せずに、クラス間分散行列Bのみを使用して、次の(6)式を満たす固有ベクトル行列Ψ'と固有値行列Λ'を求めることで、判別行列を作成することも可能である。
 BΨ'=Ψ'Λ'   ・・・ (6)
 このように判別分析を用いて次元圧縮を行う場合は、人物の顔画像が映っている学習データを予め用意し、各顔画像を人物ごとに分類する必要がある。また、人物の特徴を保持したまま特徴量を圧縮できる量には限度があるため、一般的に数千次元の特徴量を圧縮する場合は数百次元の特徴量になると考えられる。
 したがって、上記(5)式に示したように、数百人以上の異なる人物が写っている画像を学習データとして収集する必要がある。さらに、クラス内分散を計算するためには、同一人物の学習データも多数必要である。以上の理由から、人手で学習データを作成するためには非常に多くの時間を必要としていた。
 一方、顔認証装置のように、人物が撮影される環境の照明条件や顔画像の向きや大きさが統制されていて変化がない場合は、一度作成した判別空間を別の場所でも使用できると考えられる。したがって、統制環境向けに次元圧縮を行う場合は、初期の学習データ作成に多くの時間が必要となるが、同じ学習データを使いまわすことが可能であった。
 しかしながら、カメラの撮影パラメータが異なる場合や、周囲の照明条件、人物が写る角度や大きさなどの撮影環境が異なる場合、適切な判別空間は異なる可能性が高い。例えば、証明写真のようにカメラに正対した顔写真を用いて判別空間を学習した場合、斜めを向いた顔画像や照明が暗い環境では適切な射影を行うことができない。
 したがって、監視カメラのように周囲の環境や人物の行動が予測できない非統制な状況で撮影された画像を対象に類似顔画像検索を行う場合、対象となる監視カメラで撮影された顔画像を用いて学習データを作成することが望ましい。
 以上のことから、異なる環境で事前に作成した判別空間を用いても高精度な次元圧縮を行うことはできない。よって、実際に使用される場所に設置された多数のカメラに写った顔画像を用いて、判別空間を学習して判別行列を一つ作成し、この判別行列を用いて特徴量ベクトルを射影することが求められる。この場合、事前に学習データを作成することができないため、カメラを設置した後に学習データを作成することになり、運用コストが非常に大きくなることが課題である。
 プロセッサとメモリを備えた計算機で画像を検索する画像検索方法であって、前記計算機が、入力された画像から第1のオブジェクトと第2のオブジェクトとを検知する第1のステップと、前記計算機が、前記第1のオブジェクトの第1の画像特徴量と、前記第2のオブジェクトの第2の画像特徴量とを抽出する第2のステップと、前記計算機が、前記第1のオブジェクトと前記第2のオブジェクトとが異なるオブジェクトであると判定する第3のステップと、前記計算機が、異なるオブジェクト同士となる前記第1の画像特徴量と前記第2の画像特徴量との間の分散が大きくなるような変換行列を生成する第4のステップと、前記計算機が、前記変換行列を用いて前記画像特徴量を変換した後の画像特徴量を格納する第5のステップと、を含む。
 本発明によれば、異なるオブジェクト同士の特徴量間の分散Bを大きくするために、同一画像中のオブジェクトは異なるオブジェクトであると決定することで、よりよい変換行列が生成でき、検索精度が向上する。そして、変換行列を作成する学習データを自動的に収集できるため、学習データを作成する処理を低減し、システムの運用コストを抑制することができる。
本発明の第1の実施例を示し、画像検索システムの構成を示すブロック図である。 本発明の第1の実施例を示し、特徴量管理情報を示す説明図である。 本発明の第1の実施例を示し、別人情報の生成を示し、カメラの画像である。 本発明の第1の実施例を示し、別人情報の生成を示し、他のカメラの画像である。 本発明の第1の実施例を示し、判別行列生成処理を示すブロック図である。 本発明の第1の実施例を示し、特徴量ベクトル登録処理を示すフローチャートである。 本発明の第1の実施例を示し、検索処理を示すフローチャートである。 本発明の第2の実施例を示し、別人情報および同一人物情報の生成を示す模式図である。 本発明の第2の実施例を示し、判別行列生成処理を示すフローチャートである。
 以下、本発明の実施形態を添付図面に基づいて説明する。
 以下、本発明の第1の実施例の画像検索システムについて、図面に従って説明する。
 図1は、第1の実施例の画像検索システムの構成を示すブロック図である。
 第1の実施例の画像検索システムは、サーバ計算機110、クライアント計算機130、判別行列情報140、及び検索データベース150、カメラ160を備える。各装置は、通信基盤120によって相互に接続される。
 サーバ計算機110は、外部インタフェース111、中央処理演算装置(CPU)112、メモリ113及び大容量外部記憶装置(HD)114を備える。
 外部インタフェース111は、サーバ計算機110を通信基盤120に接続するためのインタフェース(I/F)である。CPU112は、サーバ計算機110の処理を実行するプロセッサである。メモリ113は、CPU112によって実行される処理のための作業領域であり、各種データ、及び、HD114からロードされたプログラムを格納する。HD114は、ハードディスクなどの大容量記憶装置であり、CPU112によって実行されるプログラム、データ(判別行列情報140、検索データベース150)などを格納する。なお、HD114は、サーバ計算機110に接続された外部の記憶装置であってもよい。
 クライアント計算機130は、通信基盤120に接続される計算機である。図1には1つのクライアント計算機130を示すが、任意の数のクライアント計算機130を備えてもよい。尚、クライアント計算機130と同等の機能をサーバ計算機110が備えている場合、全ての処理をサーバ計算機110で行っても良い。
 クライアント計算機130は、いかなる構成の計算機であってもよい。図1には、典型的なクライアント計算機130の構成を示す。すなわち、図1のクライアント計算機130は、CPU131、メモリ132、I/F133、入力装置134及び出力装置135を備える。
 CPU131は、メモリ132に格納されたプログラムを実行するプロセッサである。メモリ132は、CPU131によって実行されるプログラム等を格納する記憶装置である。I/F133は、通信基盤120に接続され、クライアント計算機130とサーバ計算機110との間の通信に使用されるインタフェースである。入力装置134は、クライアント計算機130のユーザから入力を受け付ける装置である。入力装置134は、例えば、キーボード又はマウス等である。出力装置135は、クライアント計算機130のユーザに情報を表示する装置である。例えばCRT又は液晶ディスプレイのような画像表示装置である。なお、入力装置134及び出力装置135としては、タッチセンサを備えたディスプレイを入出力装置として用いてもよい。
 なお、本実施例の画像検索システムは、通信基盤120(ネットワーク)を介して接続されたサーバ計算機110とクライアント計算機130とがサービスを提供する構成であるが、一般的なパーソナルコンピュータが画像検索のアプリケーションによってサービスを提供する構成であってもよい。
 判別行列情報140は、特徴量ベクトルの次元圧縮を行うための判別行列(または変換行列)300を格納している。なお、判別行列300を転置した行列を格納しても良い。
 また、検索データベース150は、検索対象とする画像から抽出された画像特徴量(特徴量ベクトル)を格納するためのデータベースであり、例えば、特徴量管理情報200(図2参照)を格納する。
 カメラ160aから160nは、監視対象エリアに設置したカメラである。以下、カメラ160aから160nの総称を、カメラ160と呼ぶ。なお、処理対象となる映像もしくは画像を事前に撮影しており、クライアント計算機130からサーバ計算機110に全ての映像もしくは画像を送信する場合は、カメラ160を備えなくても良い。あるいは、処理対象となる画像データ(映像または画像)を、予めHD114に格納しておいても良い。または、カメラ160から受信した画像データを、HD114に格納してもよい。
 CPU112は、各プログラムの処理を実行することによって、所定の機能を提供する機能部として稼働する。例えば、CPU112は、判別行列生成プログラム400に従って処理することで判別行列生成部として機能する。ここで、判別行列生成部は、図4で示すように、画像取得部401、顔検知処理部402、人物情報生成部403、特徴量抽出部404、クラス間分散計算部405、判別行列生成部406、及び判別行列格納部407の機能部を含む。
 また、CPU112は、検索用特徴量変換プログラム500に従って処理することで検索用特徴量変換部として機能する。ここで、検索用特徴量変換部は、図5で示すように、画像取得部501、顔検知処理部502、特徴量抽出部503、特徴量変換部504、及び特徴量格納部505の機能部を含む。
 また、CPU112は、検索プログラム600に従って処理することで検索部として機能する。ここで、検索部は、図6で示すように、画像入力部601、顔検知処理部602、特徴量抽出部603、特徴量変換部604、類似検索部605、及び検索結果出力部606の機能部を含む。
このように、CPU112は、各プログラムが実行する複数の処理のそれぞれの機能を提供する機能部としても稼働する。計算機及び計算機システムは、これらの機能部を含む装置及びシステムである。
 サーバ計算機110の各機能を実現するプログラム、テーブル等の情報は、HD114や不揮発性半導体メモリ、ハードディスクドライブ、SSD(Solid State Drive)等の記憶デバイス、または、ICカード、SDカード、DVD等の計算機読み取り可能な非一時的データ記憶媒体に格納することができる。
 図2は、第1の実施例の特徴量管理情報200を示す説明図である。
 特徴量管理情報200は、検索データID201、及び検索対象画像特徴量202を含む。検索データID201は、特徴量を識別するための識別子であり、画像データなどを紐付けるために使用される。検索対象画像特徴量202は、画像から抽出された後に判別行列300を用いて変換された特徴量ベクトルである。
 なお、判別行列情報140及び検索データベース150は、サーバ計算機110が備えるHD114に格納されてもよいし、HD114とは異なる他のハードディスクに格納されてもよい。また、画像データがHD114に格納される場合、検索対象画像特徴量202に対応する画像データには検索データID201が付与される。あるいは、画像データが他の装置に格納される場合、検索対象画像特徴量202に対応する画像データに、検索データID201を付与する指示を送信しても良い。
 図3A、図3Bは、第1の実施例の別人情報の生成を示し、カメラ160a、160bの画像である。図4は、第1の実施例の判別行列生成プログラム400で行われる判別行列生成処理の一例を示すブロック図である。
 以下、図3A、図3Bと図4を使用して、判別行列生成処理について説明する。
 本実施例では、サーバ計算機110は判別行列生成プログラム400を実行することで、判別行列生成部として機能する。判別行列生成部は、画像取得部401、顔検知処理部402、人物情報生成部403、特徴量抽出部404、クラス間分散計算部405、判別行列生成部406、及び判別行列格納部407によって、判別行列300の生成を実行する。
 なお、図1に示したCPU112は、HD114に格納された各種プログラムをメモリ113にロードし、メモリ113にロードされた各種プログラムを読み出し、読み出された各種プログラムを実行することによって、画像取得部401、顔検知処理部402、人物情報生成部403、特徴量抽出部404、クラス間分散計算部405、判別行列生成部406、及び判別行列格納部407の機能部を上述したように実現する。
 まず、画像取得部401では、サーバ計算機110が、カメラ160から通信基盤120を経由して、画像を取得する。画像取得部401では、学習データとして画像を取得する。なお、サーバ計算機110は、カメラ160から映像を取得した後に映像をデコードして、フレーム毎の画像を取得しても良い。また、カメラ160で撮影した画像もしくは映像を一旦クライアント計算機130に保存しておき、クライアント計算機130から通信基盤120を経由して、サーバ計算機110に画像もしくは映像を送信し、画像取得部401で受信しも良い。あるいは、学習データとして予め撮影した画像をHD114に格納しておき、HD114から画像を取得(または入力)しても良い。
 次に、顔検知処理部402では、取得した画像に対して顔検知処理を実行し、画像に写った人物の顔領域を取得する。顔検知処理については、周知または公知の技術を適用すればよいので、ここでは詳述しない。
 次に、人物情報生成部(オブジェクト情報生成部)403では、顔検知処理部402で検知した顔領域を対象に、一台のカメラ160から取得した画像に複数の人物が写っている場合、同時に写っている人物は別人であるとして、人物情報を生成する。
 例えば、図3A、図3Bを用いて説明すると、カメラ160aから取得した画像310に人物320A、320B、320Cが映っていた場合、人物320A、320B、320Cはそれぞれ別の人物であると推定される。よって、人物情報生成部403は人物320Aと320Bと302Cは各々が別人であるという情報を生成する。
 また、カメラ160bから取得した画像330に人物340A、340B、340C、340Dが映っていた場合、人物340A、340B、340C、340Dもそれぞれ別の人物であると推定される。よって、人物情報生成部403は340Aと340Bと340Cと340Dも各々が別人であるという情報を生成する。
 人物情報生成部403は、同一人物という情報や別人の情報として、例えば、顔領域の人物毎に識別子を付与し、別人には異なる識別子を付与すれば良い。
 次に、特徴量抽出部404では、顔検知処理部402で検知した顔領域から、顔画像特徴量としてd次元の特徴量ベクトルを抽出する。顔画像特徴量は例えば、エッジパターンや色ヒストグラム等に基づいて作成される多次元ベクトルである。なお、特徴量ベクトルの算出については前記エッジパターンや色ヒストグラム等の周知または公知の技術を用いればよいのでここでは詳述しない。
 なお、前記人物情報生成部403と特徴量抽出部404の処理は、並列して行っても良いし、どちらかを先に行っても良い。
 次に、クラス間分散計算部405では、次の(7)式に従って、顔領域から抽出した特徴量ベクトルを用いて、クラス間分散Bを計算する。
Figure JPOXMLDOC01-appb-M000003
 ここで、学習データの全フレーム数をnfとすると、クラス数c≧2はj番目のフレーム画像から検出された顔画像(顔領域)の数であり、xijはj番目のフレーム画像のi番目の顔領域から抽出された特徴量ベクトルであり、特徴量ベクトルのデータの平均はaveである。
 次に、判別行列生成部(変換行列生成部)406では、次の(8)式を満たす固有ベクトル行列Ψと固有値行列ΛBを求める。
 BΨ = ΨΛ   ・・・ (8)
 ここで、Ψは固有ベクトルψBi(i=0、…、d)を列ベクトルとする行列であり、ΛBは、固有値λBi(λB1≧λB2≧…≧λBd)を対角要素に持つ行列である。こうして得られた固有ベクトルΨBiを固有値λBiの大きい順にd'個並べた行列ΦB={ΦB1,ΦB2,…,ΦBd}がd列×d'行の判別行列300となる。この判別行列ΦBを用いて後述する変換を行うことでクラス間の分散Bは大きくなる。
 最後に、判別行列格納部407では、判別行列(変換行列)300を判別行列情報(変換行列情報)140に格納する。
 以上の処理により、サーバ計算機110は入力された画像から顔領域を抽出し、顔領域から人物情報と特徴量ベクトルを抽出する。そして、サーバ計算機110は、抽出した人物情報と特徴量ベクトルからクラス間分散Bが大きくなるような判別行列300を算出し、判別行列情報140に格納する。
 図5は、第1の実施例の検索用特徴量変換プログラム500で行われる特徴量ベクトル登録処理を示すブロック図である。
 本実施例では、サーバ計算機110は検索用特徴量変換プログラム500を実行することで、検索用特徴量変換部として機能する。検索用特徴量変換部は、画像取得部501、顔検知処理部502、特徴量抽出部503、特徴量変換部504、及び特徴量格納部505によって、特徴量ベクトルを特徴量管理情報200に登録する処理を実行する。なお、画像取得部501、顔検知処理部502、特徴量抽出部503は、それぞれ図4に示した画像取得部401、顔検知処理部402、特徴量抽出部404と同一でも良いし、異なっても良い。
 まず、画像取得部501では、カメラ160から通信基盤120を経由して、類似画像の検索の対象となる画像を取得する。なお、映像を取得した後に映像をデコードして画像を取得しても良い。また、クライアント計算機130から通信基盤120を経由して、類似画像検索の対象となる画像もしくは映像を送信し、画像取得部501で受け取っても良い。あるいは、予め撮影した画像をHD114に格納しておき、HD114から画像を取得(または入力)しても良い。
 次に、顔検知処理部502では、取得した画像に対して顔検知処理を実行し、画像に写った人物の顔領域を取得する。顔検知処理は、前記図4の顔検知処理部402と同様であり、周知または公知の技術を適用すればよい。
 次に、特徴量抽出部503では、顔検知処理部502で検知した顔領域から、顔画像の特徴量としてd次元の特徴量ベクトルを抽出する。顔画像特徴量は例えば、エッジパターンや色ヒストグラムに基づいて作成される多次元ベクトルである。顔検知処理部502で複数の顔領域を検出した場合は、全ての顔領域からd次元の特徴量ベクトルを抽出する。なお、特徴量ベクトルは前記図4の特徴量抽出部404と同様であり、周知または公知の技術を用いればよい。
 次に、特徴量変換部504では、特徴量抽出部503で抽出したd次元の特徴量ベクトルと、判別行列情報140から取得した判別行列300の積を計算して、d'次元の特徴量ベクトルに変換する。なお、次元数はd'<dで、判別行列300によって特徴量ベクトルの圧縮を行う。
 最後に、特徴量格納部505では、特徴量変換部504で得たd'次元の特徴量ベクトルを検索データベース150の特徴量管理情報200に格納する。
 ここで、特徴量格納部505は、特徴量管理情報200の検索対象画像特徴量202に特徴量ベクトルを格納し、この特徴量ベクトルに対応する検索データID201を付与する。なお、特徴量管理情報200には、検索処理時に高速検索を行うために、クラスタリングやハッシュを生成し、インデクス情報も併せて格納しても良い。また、特徴量管理情報200には、検索対象画像特徴量202に対応する画像の識別子や所在(ファイルパス等)を付加しても良い。
 上記処理によって、サーバ計算機110は、入力された画像(または映像)からd次元の特徴量ベクトルを算出し、判別行列300を用いてd'次元の特徴量ベクトルに変換し、次元圧縮を行って特徴量管理情報200に特徴量ベクトルを格納する。
 図6は、第1の実施例の検索プログラム600で行われる検索処理を示すブロック図である。
 本実施例では、サーバ計算機110は検索プログラム600を実行することで、検索部として機能する。検索部は、画像入力部601、顔検知処理部602、特徴量抽出部603、特徴量変換部604、類似検索部605、及び検索結果出力部606によって、検索処理を実行する。なお、顔検知処理部602、特徴量抽出部603、特徴量変換部604は、それぞれ図4に示した顔検知処理部402、特徴量抽出部404、特徴量変換部504と同一でも良いし、異なっても良い。
 まず、画像入力部601では、クライアント計算機130から通信基盤120を経由して、類似画像検索の検索キー(検索対象)となる人物が写っている画像(検索対象画像)が入力され、この画像を受け付ける。
 次に、顔検知処理部602では、入力された画像(検索対象画像)に対して顔検知処理を実行し、画像に写った人物の顔領域を取得する。顔検知処理は、前記図4の顔検知処理部402と同様である。
 次に、特徴量抽出部603では、顔検知処理部502で検知した顔領域から、顔画像特徴量としてd次元の特徴量ベクトルを抽出する。顔画像特徴量は例えば、エッジパターンや色ヒストグラムに基づいて作成される多次元ベクトルである。顔検知処理部502で複数の顔領域を検出した場合は、全ての顔領域からd次元の特徴量ベクトルを抽出する。なお、顔検知処理部602で複数の顔領域が検知された場合は、クライアント計算機130から検索キーとなる顔領域を指定しても良いし、複数の顔領域全てから特徴量ベクトルを抽出して、今後の処理に使用しても良い。なお、特徴量ベクトルは前記図4の特徴量抽出部404と同様である。
 次に、特徴量変換部604では、特徴量抽出部603で抽出したd次元の特徴量ベクトルと、判別行列情報140から取得した判別行列300の積を計算して、d'次元の特徴量ベクトルを得る。なお、複数の検索キーを用いる場合は、判別行列300を用いて全ての特徴量ベクトルを変換する。なお、特徴量の変換は、前記図5の特徴量変換部504と同様である。
 次に、類似検索部605では、検索キーである特徴量ベクトルと、検索データベース150に格納されている検索対象画像特徴量202のベクトル間距離を計算する。そして、ベクトル間距離の小さいものから昇順に、検索データID201を並べる。
 最後に、検索結果出力部606では、並び替えられた検索データID201を元に検索結果をクライアント計算機130に出力する。例えば、検索データID201に画像データが紐付けられている場合は、画像データ列を出力する。
 以上の処理によって、サーバ計算機110は、クライアント計算機130から入力された検索対象画像について、d'次元の特徴量ベクトルを算出し、検索データベース150の検索対象画像特徴量202のベクトル間距離を算出する。そして、サーバ計算機110は、ベクトル間距離の小さい順に検索データID201または画像をクライアント計算機130へ検索結果として送信する。なお、サーバ計算機110が検索結果としてクライアント計算機130へ送信する検索データID201の数または画像の数は、所定の値以内に制限しても良い。
 なお、本実施例1では、検出した顔領域から抽出した顔特徴量を対象に説明したが、画像の中から検出できるものであれば、全て特徴量の対象にすることができる。例えば、人物領域から抽出した人物特徴量や、人物以外の物体の特徴量を用いても良い。
 以上を踏まえ、本実施例1に記載の画像検索システムは、入力された画像から第1のオブジェクトと第2のオブジェクトとを検知し、前記第1のオブジェクトの第1の画像特徴量と、前記第2のオブジェクトの第2の画像特徴量とを抽出し、前記第1のオブジェクトと前記第2のオブジェクトとが異なるオブジェクトであると決定し、異なるオブジェクト同士となる前記第1の画像特徴量と前記第2の画像特徴量との間の分散Bが大きくなるような変換行列(判別行列300)を生成し、前記変換行列を用いて変換した後の画像特徴量を用いて検索することを特徴とする。
 かかる特徴により、人手を介することなく、本人同士のベクトル間距離が小さく、他人同士のベクトル間距離が大きくなるような変換行列が生成でき、検索精度が向上する。そして、変換行列を作成する学習データを自動的に収集できるため、学習データを作成する処理を低減し、システムの運用コストを抑制することができる。
 以下、本発明の第2の実施例の画像検索システムについて、図7、図8に従って説明する。
 第2の実施例の画像検索システムは、前記第1の実施の例の画像検索システムと同じコンピュータシステムを用いて実現したものであり、構成を示すブロック図、特徴量管理情報を示す説明図、特徴量ベクトル登録処理を示すブロック図、検索処理を示すブロック図は同一である。
 図7は、第2の実施例の別人情報および同一人物情報の生成を示す模式図であり、図8は、第2の実施例の判別行列生成処理を示すブロック図である。
 以下、図7と図8を使用して、第2の実施例の判別行列生成処理について説明する。
 本実施例2では、サーバ計算機110は判別行列生成プログラム400を実行することで、判別行列生成部として機能する。判別行列生成部は、図8で示すように、画像取得部801、顔検知処理部802、人物追跡部803、人物情報生成部804、特徴量抽出部805、クラス間分散計算部806、クラス内分散計算部807、判別行列生成部808、及び判別行列格納部809によって、判別行列300の生成を実行する。
 まず、画像取得部801では、サーバ計算機110が、カメラ160から通信基盤120を経由して、画像を取得する。画像取得部801では、前記実施例1と同様に、学習データとして画像を取得する。
 なお、サーバ計算機110は、カメラ160から映像を取得した後に映像をデコードして、フレーム毎の画像を取得しても良い。また、カメラ160または他のカメラで撮影した画像もしくは映像を一旦クライアント計算機130に保存しておき、クライアント計算機130から通信基盤120を経由して、サーバ計算機110に画像もしくは映像を送信し、画像取得部801で受信しも良い。あるいは、学習データとして予め撮影した画像をHD114に格納しておき、HD114から画像を取得(または入力)しても良い。
 次に、顔検知処理部802では、取得した画像に対して顔検知処理を実行し、画像に写った人物の顔領域を取得する。顔検知0処理は、前記実施例1の図4に示した顔検知処理部402と同様であり、周知または公知の技術を適用すればよい。
 次に、人物追跡部803では、連続したフレーム(画像)中に写った人物を追跡する。顔検知処理部802で複数の顔領域を検知した場合は、それぞれの顔領域を追跡する。人物追跡部803の顔領域の追跡は、異なるフレーム間で同一人物の顔領域を関連付けるもので、周知または公知の技術を用いればよいので、ここでは詳述しない。
 次に、人物情報生成部804では、顔検知処理部802で検知した顔領域を対象に、一台のカメラ160から取得した画像に複数の人物が写っている場合、同時に写っている人物は別人であるとして、別人用人物情報を生成する。別人用人物情報として、画像中の顔領域に人物IDを付与しても良いし、別人という情報のみを保持しておいても良い。さらに、人物追跡部803で、追跡した顔領域は同一人物であるとして、同一人物用人物情報を生成する。同一人物用人物情報として、人物IDを付与してグループ化しても良い。このように人物追跡部803は、サーバ計算機110に入力された複数の画像間で第1のオブジェクトまたは第2のオブジェクトが同一であれば同一のオブジェクト(同一人物)として特定する。
 例えば、図7を用いて説明すると、カメラ160aから取得した画像(フレーム)710に顔領域(人物)720A、720B,720Cが映っていた場合、人物720A、720B,720Cはそれぞれ別の人物であると推定される。よって、人物追跡部803は、人物720Aと720Bと702Cは各々が別人であるという情報を生成する。人物追跡部803は、画像730に写っている人物740A,740B,740Cと、画像750に写っている人物760A,760B,760Cについても同様である。また、人物追跡部803は、画像710の人物720A、720B,720Cを画像730,750で追跡した結果、画像730中に740A、740B,740Cを検出し、画像750中に760A、760B,760Cを検出した場合、人物720A,740A,760Aは同一人物であり、人物720B,740B,760Bは同一人物であり、人物720C,740C,760Cは同一人物という情報を生成する。
 人物情報生成部804は、同一人物という情報や別人の情報として、例えば、顔領域の人物毎に識別子を付与し、同一人物には同一の識別子を付与し、別人には異なる識別子を付与すれば良い。
 次に、特徴量抽出部805では、顔検知処理部802で検知した顔領域から、顔画像特徴量としてd次元の特徴量ベクトルを抽出する。顔画像特徴量は例えば、エッジパターンや色ヒストグラムに基づいて作成される多次元ベクトルである。なお、人物追跡部803と人物情報生成部804の処理と、特徴量抽出部805の処理は、並列して行っても良いし、どちらかを先に行っても良い。なお、特徴量ベクトルは前記実施例1の特徴量抽出部404と同様であり、周知または公知の技術を用いればよい。
 次に、クラス間分散計算部806では、前記実施例1に示した(7)式に従って、顔領域から抽出した特徴量ベクトルを用いて、クラス間分散Bを計算する。
 次に、クラス内分散計算部807では、次の(9)式に従って、顔領域から抽出した特徴量ベクトルを用いて、クラス内分散Wを計算する。
Figure JPOXMLDOC01-appb-M000004
 ここで、人物追跡部803で追跡された人物の数をnとすると、p≧2はj番目の人物から検出された顔画像(顔領域)の数であり、xijはj番目の人物のi番目の顔領域から抽出された特徴量ベクトルであり、特徴量ベクトルのデータの平均はaveである。
 次に、判別行列生成部808では、次の(10)式を満たす固有ベクトル行列ΨBWと固有値行列ΛBWを求める。
 BΨBW = WΨBWΛBW  ・・・ (10)
 ここで、ΨBは固有ベクトルψBWi(i=0、…、d)を列ベクトルとする行列であり、ΛBは固有値λBWi(λBW1≧λBW2≧…≧λBWd)を対角要素に持つ行列である。こうして得られた固有ベクトルψBWiを固有値の大きい順にd'個並べた行列ΦB={ΦBW1,ΦBW2,…,ΦBWd'}がd列×d'行の判別行列300となる。これにより、クラス間分散Bが大きく、同一のクラス内分散が小さくなるような判別行列300を求めることができる。
 最後に、判別行列格納部809では、上記算出された判別行列300を判別行列情報140に格納する。
 以上により、複数の画像を入力した場合、異なるクラス(顔領域)間では分散Bが大きくなる変換行列(第1変換行列)を得るのに加え、同一のクラス(顔領域)内では分散Wが小さくなる変換行列(第2変換行列)を得ることができる。これにより、本実施例2では前記実施例1の効果に加えて、同一人物の検出精度を向上させることが可能となる。
 前記実施例1のクラス間分散計算部405では、1枚の画像に映っている顔画像(顔領域)ら抽出した特徴量ベクトルを用いて、クラス間分散Bを計算する例を示した。実施例3では、クラス間分散Bの計算を行う際に、1枚の画像に映っている顔画像のみを用いて計算するのではなく、前記実施例2で示したように各顔画像(顔領域)を追跡した結果、同一人物だと見なされた複数の顔画像を用いて計算しても良い。
 本実施例3では、次の(11)式に従って、顔領域から抽出した特徴量ベクトルを用いて、クラス間分散Bを計算する。
Figure JPOXMLDOC01-appb-M000005
 ここで、学習データの全フレーム数をnとすると、クラス数c≧2はj番目のフレーム画像から検出された顔画像(顔領域)数である。また、yijはj番目のフレーム画像のi番目の顔領域と、追跡の結果、同一人物と見なされた他の顔画像から抽出された特徴量ベクトルの平均値であり、aveは特徴量ベクトルyijの平均値である。
 すなわち、学習データとして図7で示したように複数の画像710、730、750が入力された場合、サーバ計算機110は、例えば、画像710の顔領域720Aは、画像730の顔領域740Aと、画像750の顔領域760Aと同一人物と判定する。そして、上述のようにサーバ計算機110は、3つの顔領域720A、740A、760Aの特徴量ベクトルの平均値を用いてクラス間分散Bを算出する。
 以上のように、複数のフレーム(画像)で同一人物と見なされた顔領域の特徴量ベクトルの平均値からクラス間分散Bを演算することで、クラス間分散Bが大きくなるような判別行列300の精度を向上させることが可能となる。なお、複数の画像は、連続した画像あるいは所定時間毎の画像であればよい。
 <変形例>
 前記実施例1のクラス間分散計算部405では、1枚の画像に映っている顔画像(顔領域)ら抽出した特徴量ベクトルを用いてクラス間分散Bを計算する例を示したが、異なる画像の顔領域の特徴量ベクトルを用いてクラス間分散Bを算出しても良い。
 例えば、学習データとして図7で示したように画像710、730、750を入力された場合、前記実施例2より画像710の顔領域(人物)720Aと、画像730の顔領域740Bと、画像750の顔領域760Cはそれぞれ別人としてサーバ計算機110は認識する。そして、サーバ計算機110は、3つの顔領域720A、740B、760Cの特徴量ベクトルを用いてクラス間分散Bを算出する。
 以上のように、複数のフレーム(画像)で別人と見なされた顔領域の特徴量ベクトルからクラス間分散Bを演算することで、クラス間分散Bが大きくなるような判別行列300の精度を向上させることが可能となる。
 なお、本発明において説明した計算機等の構成、処理部及び処理手段等は、それらの一部又は全部を、専用のハードウェアによって実現してもよい。
 また、本実施例で例示した種々のソフトウェアは、電磁的、電子的及び光学式等の種々の記録媒体(例えば、非一時的な記憶媒体)に格納可能であり、インターネット等の通信網を通じて、コンピュータにダウンロード可能である。
 また、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明をわかりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。

Claims (15)

  1.  プロセッサとメモリを備えた計算機で画像を検索する画像検索方法であって、
     前記計算機が、入力された画像から第1のオブジェクトと第2のオブジェクトとを検知する第1のステップと、
     前記計算機が、前記第1のオブジェクトの第1の画像特徴量と、前記第2のオブジェクトの第2の画像特徴量とを抽出する第2のステップと、
     前記計算機が、前記第1のオブジェクトと前記第2のオブジェクトとが異なるオブジェクトであると判定する第3のステップと、
     前記計算機が、異なるオブジェクト同士となる前記第1の画像特徴量と前記第2の画像特徴量との間の分散が大きくなるような変換行列を生成する第4のステップと、
     前記計算機が、前記変換行列を用いて前記画像特徴量を変換した後の画像特徴量を格納する第5のステップと、
    を含むことを特徴とする画像検索方法。
  2.  請求項1に記載の画像検索方法であって、
     前記計算機が、検索対象の画像を受け付けて、前記変換行列で変換された前記画像特徴量を用いて、前記受け付けた画像の検索を行う第6のステップをさらに含むことを特徴とする画像検索方法。
  3.  請求項1に記載の画像検索方法であって、
     前記第1のステップは、
     入力された複数の画像のそれぞれから第1のオブジェクトと第2のオブジェクトとを検知し、
     前記第3のステップは、
     同一の画像で前記第1のオブジェクトと前記第2のオブジェクトとが異なるオブジェクトであると判定するステップと、
     前記複数の画像間で前記第1のオブジェクトまたは前記第2のオブジェクトのうち同一のオブジェクトを特定するステップと、
    を含むことを特徴とする画像検索方法。
  4.  請求項3に記載の画像検索方法であって、
     前記第4のステップは、
     異なるオブジェクト同士となる前記第1の画像特徴量と前記第2の画像特徴量との間の分散が大きくなる第1の変換行列を生成するステップと、
     前記複数の画像で同一のオブジェクトとして特定された前記第1の画像特徴量または第2の画像特徴量の画像間の分散が小さくなる第2の変換行列を生成するステップと、
    を含むことを特徴とする画像検索方法。
  5.  請求項3に記載の画像検索方法であって、
     前記第4のステップは、
     前記複数の画像で同一のオブジェクトとして特定された前記第1の画像特徴量または第2の画像特徴量の平均値から前記変換行列を生成することを特徴とする画像検索方法。
  6.  請求項3に記載の画像検索方法であって、
     前記第4のステップは、
     前記複数の画像のうち第1のオブジェクトと第2のオブジェクトとを含む第1の画像と第2の画像がある場合、第1の画像の第1のオブジェクトの画像特徴量と、第2の画像の第2のオブジェクトの画像特徴量から前記変換行列を生成することを特徴とする画像検索方法。
  7.  プロセッサとメモリを備えて画像を検索するサーバであって、
     前記サーバは、
     入力された画像から第1のオブジェクトと第2のオブジェクトとを検知する検知処理部と、
     前記第1のオブジェクトの第1の画像特徴量と、前記第2のオブジェクトの第2の画像特徴量とを抽出する特徴量抽出部と、
     前記第1のオブジェクトと前記第2のオブジェクトとが異なるオブジェクトであると判定するオブジェクト情報生成部と、
     異なるオブジェクト同士となる前記第1の画像特徴量と前記第2の画像特徴量との間の分散が大きくなるような変換行列を生成する変換行列生成部と、
    を有することを特徴とするサーバ。
  8.  請求項7に記載のサーバであって、
     検索対象の画像を受け付けて、前記変換行列で変換された前記画像特徴量を用いて、前記受け付けた画像の検索を行う検索部をさらに有することを特徴とするサーバ。
  9.  請求項7に記載のサーバであって、
     前記検知処理部は、
     入力された複数の画像のそれぞれから第1のオブジェクトと第2のオブジェクトとを検知し、
     前記オブジェクト情報生成部は、
     同一の画像で前記第1のオブジェクトと前記第2のオブジェクトとが異なるオブジェクトであると判定し、前記複数の画像間で前記第1のオブジェクトまたは前記第2のオブジェクトのうち同一のオブジェクトを特定することを特徴とするサーバ。
  10.  請求項9に記載のサーバであって、
     前記変換行列生成部は、
     異なるオブジェクト同士となる前記第1の画像特徴量と前記第2の画像特徴量との間の分散が大きくなる第1の変換行列を生成し、前記複数の画像で同一のオブジェクトとして特定された前記第1の画像特徴量または第2の画像特徴量の画像間の分散が小さくなる第2の変換行列を生成することを特徴とするサーバ。
  11.  請求項9に記載のサーバであって、
     前記変換行列生成部は、
     前記複数の画像で同一のオブジェクトとして特定された前記第1の画像特徴量または第2の画像特徴量の平均値から前記変換行列を生成することを特徴とするサーバ。
  12.  請求項9に記載のサーバであって、
     前記変換行列生成部は、
     前記複数の画像のうち第1のオブジェクトと第2のオブジェクトとを含む第1の画像と第2の画像がある場合、第1の画像の第1のオブジェクトの画像特徴量と、第2の画像の第2のオブジェクトの画像特徴量から前記変換行列を生成することを特徴とするサーバ。
  13.  プロセッサとメモリを備えたサーバと、
     前記サーバに接続された撮像装置と、を有する画像検索システムであって、
     前記サーバは、
     前記撮像装置から入力された画像から第1のオブジェクトと第2のオブジェクトとを検知する検知処理部と、
     前記第1のオブジェクトの第1の画像特徴量と、前記第2のオブジェクトの第2の画像特徴量とを抽出する特徴量抽出部と、
     前記第1のオブジェクトと前記第2のオブジェクトとが異なるオブジェクトであると判定するオブジェクト情報生成部と、
     異なるオブジェクト同士となる前記第1の画像特徴量と前記第2の画像特徴量との間の分散が大きくなるような変換行列を生成する変換行列生成部と、
    を有することを特徴とする画像検索システム。
  14.  請求項13に記載の画像検索システムであって、
     前記サーバに接続されたクライアント計算機をさらに有し、
     前記サーバは、前記クライアント計算機から検索対象の画像を受け付けて、前記変換行列で変換された前記画像特徴量を用いて、前記受け付けた画像の検索を行う検索部をさらに有することを特徴とする画像検索システム。
  15.  請求項13に記載の画像検索システムであって、
     前記検知処理部は、
     入力された複数の画像のそれぞれから第1のオブジェクトと第2のオブジェクトとを検知し、
     前記オブジェクト情報生成部は、
     同一の画像で前記第1のオブジェクトと前記第2のオブジェクトとが異なるオブジェクトであると判定し、前記複数の画像間で前記第1のオブジェクトまたは前記第2のオブジェクトのうち同一のオブジェクトを特定することを特徴とする画像検索システム。
PCT/JP2015/050897 2014-02-25 2015-01-15 画像検索方法、サーバ及び画像検索システム WO2015129318A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014034008A JP2015158848A (ja) 2014-02-25 2014-02-25 画像検索方法、サーバ及び画像検索システム
JP2014-034008 2014-02-25

Publications (1)

Publication Number Publication Date
WO2015129318A1 true WO2015129318A1 (ja) 2015-09-03

Family

ID=54008647

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/050897 WO2015129318A1 (ja) 2014-02-25 2015-01-15 画像検索方法、サーバ及び画像検索システム

Country Status (2)

Country Link
JP (1) JP2015158848A (ja)
WO (1) WO2015129318A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10529103B2 (en) * 2016-01-05 2020-01-07 Canon Kabushiki Kaisha Image processing apparatus and method for collating a plurality of images

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007304857A (ja) * 2006-05-11 2007-11-22 Konica Minolta Holdings Inc 認証システム、認証方法、及びプログラム
JP2009140513A (ja) * 2002-07-16 2009-06-25 Nec Corp パターン特徴抽出方法及びその装置
JP2012181209A (ja) * 2012-06-14 2012-09-20 Hitachi Ltd 欠陥分類方法及びその装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009140513A (ja) * 2002-07-16 2009-06-25 Nec Corp パターン特徴抽出方法及びその装置
JP2007304857A (ja) * 2006-05-11 2007-11-22 Konica Minolta Holdings Inc 認証システム、認証方法、及びプログラム
JP2012181209A (ja) * 2012-06-14 2012-09-20 Hitachi Ltd 欠陥分類方法及びその装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10529103B2 (en) * 2016-01-05 2020-01-07 Canon Kabushiki Kaisha Image processing apparatus and method for collating a plurality of images

Also Published As

Publication number Publication date
JP2015158848A (ja) 2015-09-03

Similar Documents

Publication Publication Date Title
Nambiar et al. Gait-based person re-identification: A survey
JP6013241B2 (ja) 人物認識装置、及び方法
US7925112B2 (en) Video data matching using clustering on covariance appearance
US11908238B2 (en) Methods and systems for facial point-of-recognition (POR) provisioning
KR101385599B1 (ko) 몽타주 추론 방법 및 장치
US20100124357A1 (en) System and method for model based people counting
Arigbabu et al. Integration of multiple soft biometrics for human identification
US10719735B2 (en) Information processing method, information processing device and video surveillance system
JP5936561B2 (ja) 画像における外観及びコンテキストに基づく物体分類
Sun et al. Tagging and classifying facial images in cloud environments based on KNN using MapReduce
Nanda et al. Illumination and scale invariant relevant visual features with hypergraph-based learning for multi-shot person re-identification
Parde et al. Face and image representation in deep CNN features
Martinel et al. Classification of local eigen-dissimilarities for person re-identification
JP2022044654A (ja) 情報処理装置、容疑者情報生成方法及びプログラム
Parde et al. Deep convolutional neural network features and the original image
Seal et al. UGC-JU face database and its benchmarking using linear regression classifier
Bekhet et al. Gender recognition from unconstrained selfie images: a convolutional neural network approach
Bresan et al. Facespoof buster: a presentation attack detector based on intrinsic image properties and deep learning
AU2011265494A1 (en) Kernalized contextual feature
KR101826669B1 (ko) 동영상 검색 시스템 및 그 방법
Mucha et al. Depth and thermal images in face detection-a detailed comparison between image modalities
WO2015129318A1 (ja) 画像検索方法、サーバ及び画像検索システム
CN108830163B (zh) 一种基于局部判别cca的海关身份验证系统及方法
Chakraborty et al. Person re-identification using multiple first-person-views on wearable devices
Jia et al. Fast face hallucination with sparse representation for video surveillance

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15754601

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15754601

Country of ref document: EP

Kind code of ref document: A1