WO2018163398A1 - 類似画像検索システム - Google Patents

類似画像検索システム Download PDF

Info

Publication number
WO2018163398A1
WO2018163398A1 PCT/JP2017/009665 JP2017009665W WO2018163398A1 WO 2018163398 A1 WO2018163398 A1 WO 2018163398A1 JP 2017009665 W JP2017009665 W JP 2017009665W WO 2018163398 A1 WO2018163398 A1 WO 2018163398A1
Authority
WO
WIPO (PCT)
Prior art keywords
search
image
person
images
group
Prior art date
Application number
PCT/JP2017/009665
Other languages
English (en)
French (fr)
Inventor
小倉 慎矢
佑一郎 小宮
Original Assignee
株式会社日立国際電気
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立国際電気 filed Critical 株式会社日立国際電気
Priority to US16/483,024 priority Critical patent/US10817709B2/en
Priority to JP2019504262A priority patent/JP6589082B2/ja
Priority to PCT/JP2017/009665 priority patent/WO2018163398A1/ja
Publication of WO2018163398A1 publication Critical patent/WO2018163398A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Definitions

  • the present invention relates to a similar image search system and a similar image search method, and more particularly to a similar image search system and a similar image suitable for use in making a user interface for searching a person in a video surveillance system easy to use. It relates to the search method.
  • video surveillance systems have been installed in facilities visited by an unspecified number of people such as hotels, buildings, convenience stores, financial institutions, dams and roads for the purpose of crime prevention and accident prevention. This is because a person to be monitored is photographed by an imaging device such as a camera, and the video is transmitted to a monitoring center such as a management office or a security room, and the resident supervisor monitors it, and the purpose and necessity Depending on the situation, attention is given, or video is recorded / saved.
  • a monitoring center such as a management office or a security room
  • a random access medium represented by a hard disk drive (HDD) is used as a recording medium from a conventional video tape medium.
  • HDD hard disk drive
  • the capacity of such recording media has been increasing. Increasing the capacity of recording media has dramatically increased the amount of video that can be recorded, enabling more locations and longer recordings, while increasing the burden of visually checking recorded images is becoming a problem. is there.
  • the person search function is a function for recording the appearance of a person in a video in real time as an object of automatic detection and searching for the person appearance image from the recorded image after the fact. From the functional aspect, the person search function is roughly divided into the following two types.
  • the appearance event search function is a function for simply searching for the presence or absence of a person (event) in the video.
  • the search result in addition to the presence or absence of an event, if it is determined that there is an event, the number of events, the occurrence time of each event, the imaging device number that captured the event, the captured image (person appearance image), etc. are presented .
  • an event occurrence time, an imaging device number, and the like are given to the search query as information for narrowing down the search target range.
  • the information for narrowing down the search target range is referred to as “narrowing parameter”.
  • the second is a similar person search function. While the above-mentioned appearance event search function is a search that does not specify a character, this is whether or not a specific person specified by the user has been taken by an imaging device at another time or at another point. This is a function to search from recorded images. In the search result, in addition to the presence / absence of other images showing a specific person, the number and shooting time, imaging device number, captured image (person appearance image), similarity described later, etc. are reflected if there are Let
  • Designation of a specific person is performed when the user designates one image (hereinafter referred to as a search key image) showing the person to be searched for.
  • the search key image is designated from a recorded image or an arbitrary image from an external device.
  • the image feature amount of the person in the search key image is extracted by image recognition technology, collated with the image feature amount of the person in the recorded image, the similarity (similarity) is obtained, and the same person determination is performed. It is realized by doing.
  • the extraction and recording of the human feature amount in the recorded image is performed in advance at another timing such as during video recording. Even in this search query, it is often possible to give a refinement parameter.
  • both of the search functions linkage information for extracting a recorded image is added to the search result, so that the recorded image can be cued and reproduced from the search result.
  • multiple images are recorded. For example, when it passes in front of a security camera system that takes 5 images per second over 3 seconds, 15 images are recorded.
  • the search functions when the user wants to know various aspects of the person when displaying the search result, if the user displays a number of images close in time, the user can search the search result page. It is inconvenient because the feed is repeated many times. To avoid this, there is a function to display search results that are close in time as a group. This function is called time reduction.
  • Patent Literature 1 the user designates the search key image designation as described above, selects the image from the search result, displays it in another display area, and makes it the next key image.
  • An image search apparatus that improves the performance is disclosed.
  • the present invention has been made in view of such a situation, and as a result of searching for a person image similar to a person image serving as a search key, a display that is difficult to see when many images of the same person are searched.
  • the purpose is to propose a technology capable of suppressing the above.
  • a similar image search system is configured as follows. (1) In a similar image search system that searches for a person image similar to a search key image that is a person image serving as a search key, a plurality of groups of searched person images are grouped based on the similarity between the person images. In a display area provided for each group, at least one of the person images belonging to the group is displayed, and the display by group indicates the similarity between each group and the search key image. It is performed in a mode in which the order can be visually recognized.
  • the grouped display is performed when the number of searched human images is equal to or greater than a predetermined threshold.
  • the present invention since a plurality of person images similar to the search key image are displayed for each group, it is possible to suppress the display from being difficult to see when many images of the same person are searched. Moreover, it is possible to easily grasp the order of similarity with the search key images of each group.
  • FIG. 1 shows an example of the system configuration of a similar image search system according to an embodiment of the present invention.
  • the similar image search system is configured such that an imaging device 100, a recording device 200, and a terminal device 300 are connected to a network 400 and can communicate with each other.
  • the network 400 is a communication unit that performs communication by mutually connecting devices such as a dedicated network that performs data communication, an intranet, the Internet, and a wireless local area network (LAN).
  • the imaging apparatus 100 performs digital conversion processing on an image captured by a charge coupled device (CCD) or a complementary metal oxide semiconductor (CMOS) element, and outputs the converted image data to the recording apparatus 200 via the network 400.
  • CCD charge coupled device
  • CMOS complementary metal oxide semiconductor
  • Devices such as network cameras and surveillance cameras.
  • the recording apparatus 200 is an apparatus such as a network digital recorder that records image data input from the imaging apparatus 100 via the network 400 on a recording medium such as an HDD.
  • the apparatus is also equipped with a person search function including the method of the present invention.
  • the recording apparatus 200 includes an image transmission / reception unit 201, an image recording unit 202, a reproduction control unit 203, a person area detection unit 204, a person feature amount extraction unit 205, a person feature amount recording unit 206, an attribute information recording unit 207, as functional configurations.
  • Each processing unit includes a request reception unit 208, a similar person search unit 209, an appearance event search unit 210, a search result transmission unit 211, a keyword recording unit 212, and a keyword search unit 213.
  • the image transmission / reception unit 201 is a processing unit that performs image input / output from the outside of the apparatus, and receives input image data from the imaging apparatus 100 and transmits output image data to the terminal apparatus 300.
  • the image recording unit 202 writes input image data to a recording medium and reads output image data from the recording medium. At the time of writing, in addition to the image data, an image ID (image identification information) serving as information for reading the image data is also recorded.
  • the playback control unit 203 controls video playback on the terminal device 300.
  • the person area detection unit 204 performs person detection using image recognition technology on the input image data, determines the presence of a person in the image, and, if a person exists, calculates the coordinates of that area.
  • the person feature quantity extraction unit 205 performs feature quantity calculation on the image area detected by the person area detection unit 204 using an image recognition technique. For example, the target image area is subdivided (divided) into multiple blocks, edges are detected in each block, the degree of coincidence with the basic edge pattern is tabulated for each block, the specific block or edge direction, etc. Is weighted to calculate a person feature amount.
  • the human feature amount calculated here includes the shape and direction of the outline of a face, which is a representative part for identifying a person, and the size, shape and arrangement relationship of main components such as eyes, nose and mouth.
  • any type or number of feature quantities may be used.
  • the hairstyle and clothes are unchanged in the short term (for example, within the day), but change in the long term.
  • Information is also calculated simultaneously as a feature quantity.
  • a face image in which the entire face (head excluding hair) is stored is used.
  • a head image in which the head including the face and hair is accommodated in accordance with the specification of MPEG (Moving Picture Experts Group) -7 can be used.
  • MPEG Motion Picture Experts Group
  • an intermediate image between the face image and the head image (the face and a part of the hair are stored).
  • the feature amount of the hairstyle may be detected using the image.
  • the person feature amount recording unit 206 writes and reads the feature amount calculated by the person feature amount extraction unit 205 to and from the recording medium.
  • the image data recording medium in the image recording unit 202 and the person feature amount recording medium in the processing unit may be the same or different.
  • the attribute information recording unit 207 writes and reads attribute information related to image data to and from a recording medium.
  • the attribute information is, for example, an image shooting time, an imaging device number, shooting position information, and the like.
  • the request receiving unit 208 receives a search request and a keyword assignment request from the terminal device 300.
  • the search request includes a similar image search request and an appearance event search request.
  • the similar person search unit 209 performs similar person search when the request received by the request reception unit 208 is a similar person search request.
  • the appearance event search unit 210 performs an appearance event search when the request received by the request reception unit 208 is an appearance event search request.
  • the search result transmission unit 211 transmits the similar person search result and the appearance event search result obtained from the similar person search unit 209 and the appearance event search unit 210 to the terminal device 300.
  • the keyword recording unit 212 writes and reads a keyword on the recording medium based on the keyword assignment request received by the request receiving unit 208.
  • the keyword search unit 213 performs a keyword search when the search request data received by the request reception unit 208 includes a keyword.
  • the terminal device 300 may be realized by a general PC (personal computer) having a network function, or may be a dedicated search terminal.
  • the terminal device 300 includes, as functional components, a search request transmission unit 301, a search result reception unit 302, a search result display unit 303, a reproduction image display unit 304, a screen operation detection unit 305, a keyword assignment request transmission unit 306, and a plurality of search key selections.
  • Each processing unit of the unit 307 is included.
  • the apparatus is also equipped with a person search function for realizing the method of the present invention.
  • the search request transmission unit 301 transmits a search request to the recording device 200.
  • the search request data includes a search key image.
  • the search request data can also include a refinement parameter.
  • the search result receiving unit 302 receives the search result from the recording device 200.
  • the data received as the search result includes a set of images obtained by performing similar person search or appearance event search in the recording apparatus 200. Individual images constituting the set are generated by performing image size reduction processing or the like from video recorded in the recording device 200.
  • each individual image is referred to as a “search result image”
  • data transmitted and received as a search result is referred to as “search result data”.
  • the search result display unit 303 displays the search result received by the search result receiving unit 302 on the screen. An example of the displayed screen will be described later.
  • the reproduced image display unit 304 displays a continuous moving image on the screen of the image data input from the recording device 200.
  • the screen operation detection unit 305 detects and acquires the operation content by the user.
  • the keyword assignment request transmission unit 306 transmits a keyword assignment request to the recording device 200.
  • the multiple search key selection unit 307 performs processing to appropriately select a smaller number of search key images when a plurality of search key images are selected.
  • the multiple search key selection unit 307 may be provided in the recording device 200.
  • FIG. 2 illustrates an example of a hardware configuration of the imaging apparatus 100.
  • the hardware configuration of the imaging apparatus 100 is a configuration in which an imaging unit 121, a main storage unit 122, an encoding unit 123, and a network I / F 124 are coupled via a bus 120, as shown in FIG.
  • the imaging unit 121 converts the optical signal captured by the lens into digital data.
  • the encoding unit 123 encodes the digital data output from the imaging unit 121 and converts it into image data such as JPEG (JointoPhotographic Experts Group).
  • the main storage unit 122 stores captured digital data and encoded image data.
  • the network I / F 124 is an interface for transmitting image data on the main storage unit 122 to the recording apparatus 200 via the network 400.
  • FIG. 3 shows an example of the hardware configuration of the recording apparatus 200.
  • a CPU Central Processing Unit
  • main storage unit 222 main storage unit
  • auxiliary storage unit 223 main storage unit
  • network I / F 224 network I / F 224
  • the CPU 221 controls each part of the recording device 200 and executes a program for realizing the function.
  • the main storage unit 222 is realized by a semiconductor device such as a DRAM (Dynamic Random Access Memory), and is an intermediate memory for loading and storing image data for search and a program executed by the CPU 221.
  • the auxiliary storage unit 223 is realized by an HDD, a flash memory, or the like, and has a larger capacity than the main storage unit 222, and stores image data and programs.
  • the network I / F 224 is an interface for receiving image data from the imaging apparatus 100, receiving a search keyword from the terminal apparatus 300, and transmitting image data to the terminal apparatus 300 via the network 400.
  • FIG. 4 shows an example of the hardware configuration of the terminal device 300.
  • the hardware configuration of the terminal device 300 includes a CPU 321, a main storage unit 322, an auxiliary storage unit 323, a display I / F 324, an input / output I / F 325, and a network I / F 326 via a bus 320. It is a combined form.
  • the CPU 321 performs control of each unit of the terminal device 300 and execution of a program for realizing the function.
  • the main storage unit 322 is realized by a semiconductor device such as a DRAM, and is an intermediate memory for loading and storing image data for display and a program executed by the CPU 321.
  • the auxiliary storage unit 323 is realized by an HDD, a flash memory, or the like, and has a larger capacity than the main storage unit 322, and stores search keywords, image data, and programs.
  • the display I / F 324 is an interface for connecting to the display device 340.
  • the input / output I / F 325 is an interface for connecting to input / output devices such as a keyboard 350 and a mouse 352.
  • the network I / F 326 is an interface for transmitting a search keyword to the recording apparatus 200 and receiving image data from the recording apparatus 200 via the network 400.
  • the display device 340 is a device such as an LCD (Liquid Crystal Display), for example, and is a device that displays an image or a moving image.
  • FIGS. 5 to 8 show the display contents of the search screen displayed on the terminal device 300.
  • FIG. FIG. 5 is an example of a search screen according to the conventional method
  • FIGS. 6 to 8 are examples of a search screen according to the method of the present invention.
  • FIG. 6 shows how the search results are summarized based on hairstyles.
  • FIG. 7 shows a state in which search results are collected based on hairstyles and expanded for each person.
  • FIG. 8 shows a state in which one person is searched again from the search results and further search results are obtained.
  • the search screen includes a reproduction image display area 3001, an image reproduction operation area 3003, a search key image designation area 3004, a search refinement parameter designation area 3008, a search execution area 3017, and a search result display area 3021.
  • a reproduction image display area 3001 is an area for displaying an image recorded in the recording apparatus 200 as a moving image.
  • a moving image 3002 displayed in the reproduction image display area 3001 displays an image recorded in the recording device 200 as a moving image.
  • An image reproduction operation area 3003 is an area for performing an operation for reproducing an image recorded in the recording apparatus 200.
  • Each button constituting this area is assigned a unique reproduction type. This figure shows an example in which, for example, rewind, reverse playback, playback stop, forward playback, and fast forward playback types are assigned in order from the left button. By appropriately pressing each button, the moving image 3002 is switched to the reproduction type assigned to the button.
  • the search key image designation area 3004 is an area for designating and displaying the search key image. This area includes a search key image 3005, a video designation button 3006, and a file designation button 3007.
  • a search key image 3005 is an image used as a key for similarity search. In the initial state, the search key image 3005 is not specified, so that no image is displayed. Or you may make it display the image which shows the non-designated state prepared separately, or undesignated.
  • a video designation button 3006 is a button for designating an image displayed in the reproduction image display area 3001 as a search key image 3005 when pressed.
  • the file designation button 3007 is a button for designating an image other than the image recorded in the recording apparatus 200, for example, an image taken with a digital still camera, an image taken with a scanner, or the like as the search key image 3005. When this button is pressed, a dialog box for designating those images as files is displayed, and the user designates a desired image there.
  • the search refinement parameter designation area 3008 is an area for designating the type and value (range) of the refinement parameter at the time of search. This area has imaging device designation check boxes 3009, 3010, 3011 and 3012, time designation check boxes 3013 and 3014, and time designation columns 3015 and 3016.
  • Imaging device designation check boxes 3009, 3010, 3011 and 3012 are checkboxes for designating the imaging device 100 to be searched at the time of searching. Each check box displays a check mark indicating that it has been selected when pressed. This mark disappears when pressed again, and is repeatedly displayed and hidden when pressed. In the initial state, since all the imaging devices 100 (cameras 1 to 4) are to be searched, the imaging device designation check boxes 3009, 3010, 3011 and 3012 are all selected.
  • the time specification check boxes 3013 and 3014 are check boxes for specifying a time range to be searched at the time of search. As for the display mode, this check box is the same as the other check boxes.
  • the start time is given to the time range. In the non-selected state, it means that the start time is not given to the time range, that is, the image with the oldest time recorded in the recording device 200 is set as the search target range.
  • the end time is given to the time range. In the non-selected state, it means that the end time is not given to the time range, that is, the image of the latest time recorded in the recording device 200 is set as the search target range.
  • the time designation columns 3015 and 3016 are input columns for designating the above-described start time and end time values.
  • the time specification check boxes 3013 and 3014 are all in a non-selected state, and the time specification columns 3015 and 3016 are blank.
  • the search execution area 3017 is an area for instructing search execution. This area includes a similar person search button 3020 from the search result in addition to the similar person search button 3018 and the appearance event search button 3019.
  • the similar person search button 3018 is a button for instructing execution of a similar person search by the search key image 3005.
  • execution of similar person search is instructed according to the specified parameters.
  • the appearance event search button 3019 is a button for instructing execution of an appearance event search.
  • Search result display area 3021 is an area for displaying search results. Search results are displayed by displaying a list of search result images. In the initial state, nothing is displayed in the search result display area 3021.
  • the user depresses the image designation button 3006, depresses the imaging device designation check boxes 3009, 3010, and 3012, depresses the time designation check boxes 3013 and 3014, and enters the time designation fields 3015 and 3016.
  • “2016/8/1 0:00:00” and “2016/8/2 0:00:00” are respectively input.
  • the search key image 3005 the person “Mr. A” displayed in the video 3002 is displayed as the search key image, and “camera 1”, “camera 2”, “ “Camera 4” is specified, and “from 2016/8/1 0:00 to 2016/8/2 0:00” is specified as the time range to be searched.
  • the search result display area 3021 displays a search result obtained by performing a similar person search using the search key image 3005 as a key.
  • Search results are displayed by displaying a list of search result images (in FIG. 5, search result images 3031 to 3141).
  • the search result images 3031 to 3141 are displayed in the order of similarity to the search key image 3005, for example, from the top left to the right, and then from the second left to the right.
  • the search result image 3031 has the highest similarity to the search key image 3005, and the search result image 3141 has the lowest similarity.
  • the icons illustrated as the search result images 3031 to 3141 are simple displays of human faces.
  • the search result image 3031 includes the same person as the search key image 3005. It is shown that “Mr. A” appears.
  • the similar face image search system does not always search for the same person as the search key image.
  • another person referred to as “Mr. B”
  • another person referred to as “Mr. C”
  • an actual image is displayed in this simplified display portion in the actual system display.
  • FIG. 5 three persons are irregularly displayed in the search result display area 3021.
  • Such a screen display according to the conventional method is inconvenient because a plurality of persons appear in a plurality of images, and the user has to determine each person. Therefore, in order to eliminate the inconvenience described above, the present invention proposes a screen display as shown in FIGS.
  • the search result display area 3021 has an area for displaying a plurality of search results for each person.
  • Search result summary areas 3201, 3202, and 3203 are display areas indicating that a plurality of search results are collected.
  • FIG. 6 only one representative image of a group of search results is displayed in the search result summary areas 3201, 3202, and 3203.
  • search result images 3031 to 3141 obtained as search results are grouped using the hairstyle feature values associated with them. That is, the search result images 3031 to 3141 are classified so that those with similar hairstyles are in the same group. For example, if the search result images 3031, 3071, 3091, 3111, and 3141 are similar to the search result image 3031 in FIG. 5 (the similarity is high), the search result images are summarized in FIG. They are grouped in the area 3201. Then, only one search result image 3031 is displayed in a form representing other search results. Next, among the remaining search result images, the search result image 3061 and the hairstyle feature amount close to each other (high similarity) are grouped together in the search result summarizing area 3202.
  • the search result image 3051 and the hairstyle features that are close to each other are grouped together in the search result summary area 3203.
  • a grouping criterion for example, a requirement that the similarity between hairstyle feature values is 90% or more can be used.
  • you may group based on the feature-values other than a hairstyle for example, you may group based on the feature-value of clothes. Hairstyles, clothes, ornaments, etc. usually do not change during the day (they wear the same items), so it is appropriate to use them as feature quantities when performing similar searches within 24 hours, for example. It is. In this way, by performing group-by-group display that classifies search result images into groups and displays them, the user need only confirm three cases.
  • the similarity between the search result images may be adjusted based on the imaging position and the imaging time of the search result image. That is, for search result images captured within a predetermined time by different imaging devices that are close to each other, there is a high possibility that the same person has been imaged. Therefore, adjustment is performed to increase the similarity between these search result images. In addition, since there is a high possibility that different persons have been imaged within a predetermined time by different imaging devices that are not close to each other, adjustment is performed to reduce the similarity between these search result images. As an example, by storing in advance a combination of imaging devices that are in proximity, it is possible to determine whether images are captured by imaging devices that are close to each other.
  • imaging position information position information of the imaging device
  • the distance between the imaging positions obtained from the imaging position information of each search result image is compared with a predetermined value. In this way, it can be determined whether the images are taken by the imaging devices close to each other. By performing such adjustment, the accuracy of grouping can be improved. Note that only the adjustment for increasing the degree of similarity may be performed, only the adjustment for decreasing the degree of similarity may be performed, or both adjustments may be performed.
  • the search result summary areas 3201, 3202, and 3203 are displayed in order of similarity, for example, from left to right (and from top to bottom).
  • the search result summary area 3201 has the highest similarity to the search key image 3005, and the search result summary area 3203 has the lowest similarity.
  • the search result summary area 3201 has the highest similarity to the search key image 3005
  • the search result summary area 3203 has the lowest similarity.
  • each group is displayed in order of similarity with the search key image.
  • the order of similarity between each group and the search key image may be displayed in another manner. For example, a numerical value indicating similarity is additionally displayed, a frame of the search result summary area or a color display in which the color or shade of the background is changed according to the similarity, or an icon that visually represents the similarity May be additionally displayed.
  • the grouping display of the search result images may be always performed, but may be performed when the number of the search result images exceeds a predetermined threshold.
  • a threshold value in this case, a fixed value may be used, or a user may arbitrarily set it, and the system automatically sets (for example, sets the upper limit number of images that can be accommodated in the search result display area without scrolling). May be.
  • the number of images in the search result display area 3021 increases, so that it is possible to avoid an inconvenient situation where the image cannot fit on the screen or cannot be viewed.
  • search result summary areas 3201, 3202, and 3203 are expanded.
  • search result summary area to be concerned about is clicked with the mouse
  • a plurality of search results are expanded in the search result summary area as shown in FIG.
  • FIG. 7 shows 12 search results as in FIG. 5, but it is not displayed separately as in FIG. 5, but is organized for each hairstyle, so it is easy for the user to understand.
  • FIG. 8 shows a state where the search result summary area 3201 is selected and the similar search button 3020 is clicked from the search result.
  • the additional search result display area 3301 is an area for displaying a search result newly found by searching the search result images 3031, 3041, 3071, 3091, 3111 and 3141 as search key images.
  • newly found additional search result images 3311, 3321, 3331, 3341, 3351, and 3361 are displayed in the additional search result display area 3301.
  • a method for appropriately searching from a plurality of search key images for example, there is a method disclosed in Japanese Patent Application Laid-Open No. 2013-101431.
  • a plurality of searched person images (3031 to 3141). are classified into a plurality of groups based on the degree of similarity between the person images, and at least one of the person images belonging to the group is displayed in a display area (3201, 3202, 3203) provided for each group.
  • the group-by-group display is performed, and the group-by-group display is configured in such a manner that the order of similarity between each group and the search key image can be visually recognized.
  • similar person search search for person images similar to the search key image
  • search result grouping classification of searched person images
  • feature quantities can be used for similar person search
  • feature quantities other than faces for example, hairstyle and clothes
  • the similar person search may use facial and hairstyle feature quantities
  • the search result grouping may use other (for example, clothing) feature quantities.
  • feature amounts detected by a system different from the similar image search system for example, a face authentication system
  • various modes can be used as a mode in which the order of similarity between each group and the search key image can be visually recognized. For example, a mode in which each group is displayed in order of similarity, a mode in which a numerical value indicating the level of similarity is additionally displayed, a mode in which the frame or background color or shade of the search result summary area is changed according to the level of similarity, and the like, For example, an icon that visually represents the similarity is additionally displayed.
  • a first mode for displaying only person images representing the group and a second mode for displaying all person images in the group are prepared, and these can be switched by a user operation.
  • the first mode one person image most similar to the search key image may be representative, and a predetermined number of person images may be represented in descending order of similarity.
  • the display by group is performed when the number of search result images exceeds a predetermined threshold.
  • the grouped display can be performed only when the display by group is more desirable than the normal display, that is, when the number of search result images is too large to be viewed.
  • the normal display is preferable to the group-by-group display, that is, when the number of search result images is small enough to grasp all the search result images at a glance, the group display is possible. Can be prevented.
  • the search result grouping can be performed by increasing the similarity between human images captured within a predetermined time by different imaging devices close to each other, or by human images captured within a predetermined time by different imaging devices not adjacent to each other. It is preferable to perform based on the result of performing at least one of the adjustments for reducing the degree of similarity between each other. In this way, human images that are likely to be the same person are classified into the same group in consideration of the shooting position and shooting time, while a person who is highly likely to be a different person in consideration of the shooting location and shooting time. Images can be classified into different groups, and the accuracy of grouping can be improved.
  • information indicating an action mode indicating whether the person is acting alone or a person acting as a plurality of people is associated with each person image, and the person image having the same action mode is associated with the person image.
  • Search result grouping may be performed based on the result of performing adjustment to increase the degree of similarity between each other or adjustment to decrease the degree of similarity between human images of different behavior modes. Thereby, it is possible to perform grouping in consideration of whether a person likes a single action or a person who likes a group action.
  • the information indicating the behavior mode the number of persons acting together may be associated, and the degree of similarity may be adjusted in consideration of the number of persons acting together.
  • the present invention can also be provided as, for example, a method and method for executing the processing according to the present invention, a program for realizing such a method and method, and a storage medium for storing the program.
  • the present invention can be used in a similar image search system that searches for a person image similar to a search key image that is a person image serving as a search key.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

検索キーとなる人物画像に類似する人物画像を検索した結果、同一の人物の画像が多数検索された場合に見づらい表示となることを抑制できる技術を提案する。 検索キーとなる人物画像である検索キー画像(3005)に類似する人物画像を検索する類似画像検索システムにおいて、検索された複数の人物画像(3031~3141)を各々の人物画像同士の類似度に基づいて複数のグループに分類し、グループ毎に設けた表示領域(3201,3202,3203)に、該グループに属する人物画像のうちの少なくとも1つを表示するグループ別表示を行い、前記グループ別表示は、各グループと検索キー画像との類似度順を視認できる態様で行われる。

Description

類似画像検索システム
 本発明は、類似画像検索システム及び類似画像検索方法に係り、特に、映像監視システムの人物の検索のためのユーザインタフェースを使い勝手のよいものにする用途に用いて好適な類似画像検索システム及び類似画像検索方法に関する。
 従来から、ホテル、ビル、コンビニエンスストア、金融機関、ダムや道路といった不特定多数の人が訪れる施設には、犯罪抑止や事故防止等の目的で、映像監視システムが設置されている。これは、監視対象の人物等をカメラ等の撮像装置で撮影し、その映像を、管理事務所や警備室等の監視センタに伝送し、常駐する監視者がそれを監視し、目的や必要に応じて、注意をしたり、あるいは映像を録画・保存するものである。
 映像監視システムでの映像の録画・保存において、記録媒体には従来のビデオテープ媒体から、ハードディスクドライブ(HDD;Hard Disk Drive)に代表されるランダムアクセス媒体が用いられる事例が増えている。さらに近年ではこのような記録媒体の大容量化が進んでいる。
 記録媒体の大容量化は録画できる映像の量を飛躍的に増大させ、より多地点や長時間の録画を可能にしつつある反面、録画画像を目視でチェックする負担の増加が問題として顕在化しつつある。
 このような背景から、所望の映像をより簡単に見つけ出すための検索機能を備える映像監視システムが普及しつつある。特に、近年では、映像中の特定の事象(イベント)の発生を画像認識技術を用いてリアルタイムに自動検知して映像とともに記録し、事後にそれらのイベントを検索可能とする、より高度な検索機能を備えたシステムが登場しつつある。その中の代表的な一つに人物検索機能がある。
 人物検索機能とは、映像中への人物の登場を自動検知の対象として、リアルタイムに記録し、事後に録画画像中から人物登場画像を探し出せる機能である。機能面から人物検索機能は、以下の2種類に大別される。
 一つ目は、登場イベント検索機能である。登場イベント検索機能は、映像中への人物の登場(イベント)の有無を、単純に探し出す機能である。検索結果にはイベントの有無に加え、イベント有と判定された場合には、そのイベント数と各イベントの発生時刻やイベントを撮影した撮像装置番号、撮影した画像(人物登場画像)等を提示する。なお、この検索のクエリには、イベント発生時刻や撮像装置番号等を、検索対象範囲を絞込むための情報として与える場合が多い。以下では、この検索対象範囲を絞込むための情報を、「絞込みパラメータ」ということにする。
 二つ目は、類似人物検索機能である。上述の登場イベント検索機能が、登場人物を特定しない検索であるのに対し、こちらはユーザが指定する特定人物が、他の時間、あるいは他の地点の撮像装置で撮影されていないかどうかを、録画画像中から探し出す機能である。検索結果には、特定人物が映った他の画像の有無に加え、有の場合には、その数と撮影時刻、撮像装置番号、撮影した画像(人物登場画像)、後述の類似度等を反映させる。
 特定人物の指定は、探したい人物が映った画像(以降、検索キー画像)をユーザが1ケ指定することで実施される。検索キー画像は、録画画像や外部装置からの任意の画像から指定される。検索は、この検索キー画像中の人物の画像特徴量を画像認識技術により抽出し、録画画像中の人物の画像特徴量と照合し、その類似性(類似度)を求め、同一人物判定を実施することにより実現される。録画画像中の人物特徴量の抽出と記録は、映像録画時等の別タイミングにて予め実施しておく。この検索のクエリにおいても、絞込みパラメータを与えることが可能である場合が多い。
 両検索機能のどちらにおいても、検索結果には録画画像を取り出すためのリンケージ情報が付与されており、検索結果から録画画像の頭出し再生が可能になっている。
 カメラの前を人物が数秒かけて通るとき、複数枚の画像が記録される。例えば毎秒5枚撮影している防犯カメラシステムの前を3秒かけて通った場合、15枚の画像が記録される。このとき、両検索機能のどちらにおいても、検索結果を表示する際、ユーザが様々な当該人物の様子を知りたい場合において、時間的に近い映像が多数表示されると、ユーザは検索結果のページ送りを何度も行うことになり、不便である。このようなことを避けるため、時間的に近い検索結果をひとまとめにして表示する機能がある。この機能は時間縮約と呼ばれる。
 特許文献1には、このように検索キー画像指定を指定して、検索結果の画像から選択して、別の表示領域に表示して、それを次のキー画像にするなどしてユーザの利便性を高めるようにした画像検索装置が開示されている。
特開2009-123196号公報
 従来からある時間縮約機能のみでは、防犯カメラシステムにおいて多数のカメラが施設の各所に存在する場合、同一の人物が何度も繰り返して検索結果に出現し、ユーザにとって分かりにくい表示となってしまう。ユーザとしては、検索結果の中でも同一の人物はまとめて表示されると、分かり易い表示となる。
 また、類似人物検索においては、検索結果の中から適切な画像を新たなキー画像として検索すると、従来見つかっていなかった当該人物の別の日あるいは別の場所の様子を見つけることができる場合がある。このような場合においても、同一の人物がまとめられていると、適切な画像を新たなキー画像として検索し易い。
 本発明は、このような状況に鑑みてなされたものであり、検索キーとなる人物画像に類似する人物画像を検索した結果、同一の人物の画像が多数検索された場合に見づらい表示となることを抑制できる技術を提案することを目的とする。
 上記の目的を達成するために、本発明に係る類似画像検索システムは以下のように構成される。
(1) 検索キーとなる人物画像である検索キー画像に類似する人物画像を検索する類似画像検索システムにおいて、検索された複数の人物画像を各々の人物画像同士の類似度に基づいて複数のグループに分類し、グループ毎に設けた表示領域に、該グループに属する人物画像のうちの少なくとも1つを表示するグループ別表示を行い、前記グループ別表示は、各グループと検索キー画像との類似度順を視認できる態様で行われることを特徴とする。
(2) 上記(1)に記載の類似画像検索システムにおいて、検索された人物画像の数が所定の閾値以上である場合に前記グループ別表示を行うことを特徴とする。
(3) 上記(1)又は(2)に記載の類似画像検索システムにおいて、検索された人物画像に対し、互いに近接する異なる撮像装置で所定時間内に撮像された人物画像同士の類似度を上げる調整、又は、互いに近接しない異なる撮像装置で所定時間内に撮像された人物画像同士の類似度を下げる調整の少なくとも一方を行った結果に基づいて、各グループへの分類を行うことを特徴とする。
 本発明によれば、検索キー画像に類似する複数の人物画像がグループ別に表示されるので、同一の人物の画像が多数検索された場合に見づらい表示となることを抑制できる。しかも、各グループの検索キー画像との類似度順を容易に把握することができる。
本発明の一実施形態に係る類似画像検索システムのシステム構成の一例を示す図である。 撮像装置のハードウェア構成の一例を示す図である。 録画装置のハードウェア構成の一例を示す図である。 端末装置のハードウェア構成の一例を示す図である。 従来方式に係る検索画面の一例を示す図である。 本発明方式に係る検索画面の一例であって、検索結果を髪型をもとにまとめた様子を示す図である。 本発明方式に係る検索画面の一例であって、検索結果を髪型をもとにまとめたものを人物毎に展開した様子を示す図である。 本発明方式に係る検索画面の一例であって、検索結果のうち一人の人物について検索結果から再度検索し、更なる検索結果を得た様子を示す図である。
 以下、本発明の一実施形態について、図面を用いて説明する。まず、図1~図4を用いて、本発明の一実施形態に係る類似画像検索システムの構成について説明する。
 図1には、本発明の一実施形態に係る類似画像検索システムのシステム構成の一例を示してある。
 類似画像検索システムは、図1に示されるように、ネットワーク400に、撮像装置100、録画装置200、端末装置300が接続され、互いに通信可能に構成される。
 ネットワーク400は、データ通信を行う専用ネットワークやイントラネット、インターネット、無線LAN(Local Area Network)等の各装置を相互に接続して通信を行う通信手段である。
 撮像装置100は、CCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)素子等で撮像した画像にデジタル変換処理を施し、変換された画像データを、ネットワーク400を介して録画装置200へ出力するネットワークカメラや監視カメラ等の装置である。
 録画装置200は、ネットワーク400を介して撮像装置100より入力された画像データをHDD等の記録媒体に記録するネットワークデジタルレコーダ等の装置である。また、本装置には、本発明の方式を含む人物検索機能も搭載してある。
 録画装置200は、機能構成として、画像送受信部201、画像記録部202、再生制御部203、人物領域検出部204、人物特徴量抽出部205、人物特徴量記録部206、属性情報記録部207、要求受信部208、類似人物検索部209、登場イベント検索部210、検索結果送信部211、キーワード記録部212、キーワード検索部213の各処理部を有する。
 画像送受信部201は、装置外部からの画像入出力を行う処理部であり、撮像装置100からの入力画像データの受信、端末装置300への出力画像データの送信を行う。
 画像記録部202は、入力画像データの記録媒体への書込みや出力画像データの記録媒体からの読出しを行う。書込みの際には、画像データに加え、画像データを読出す際の情報となる画像ID(画像の識別情報)も併せて記録する。
 再生制御部203は、端末装置300への映像再生を制御する。
 人物領域検出部204は、入力画像データに対し画像認識技術を用いた人物検出を行い、画像中の人物の存在判定をし、人物が存在する場合には、その領域の座標算出を行う。
 人物特徴量抽出部205は、人物領域検出部204で検出した画像領域に対して画像認識技術を用いて特徴量算出を行う。例えば、対象となる画像領域を複数のブロックに細分化(分割)し、それぞれのブロック内でエッジを検出し、基本エッジパタンとの一致度をブロック毎に集計し、特定のブロックやエッジの方向などに重み付けを行って、人物特徴量を算出する。
 ここで算出する人物特徴量とは、人物を特定する代表的な部位である顔の輪郭の形状や方向、目・鼻・口といった主要構成要素の大きさ・形状や配置関係等が挙げられるが、本実施形態においては、使用する特徴量の種類や数はいずれであってもよい。本実施形態においては、上記のような人物にとって不変の特徴量(顔の特徴量)とは別に、髪型や服装など短期的(例えば当日内)には不変であるが、長期的には変化する情報も特徴量として同時に算出する。なお、顔の特徴量の検出では、例えば、顔(髪を除く頭部)を全体に収めた顔画像が用いられる。また、髪型の特徴量の検出では、例えば、MPEG(Moving Picture Experts Group)-7の仕様に則った、顔及び髪を含む頭部を全体に収めた頭部画像を用いることができる。ただし、頭部画像を用いると背景や髪型の影響を受けやすいという問題があるので、これに対応するために、顔画像と頭部画像との中間の画像(顔と髪の一部とを収めた画像)を用いて髪型の特徴量の検出を行ってもよい。
 人物特徴量記録部206は、人物特徴量抽出部205で算出した特徴量の記録媒体への書込みと読出しを行う。画像記録部202における画像データの記録媒体と本処理部における人物特徴量の記録媒体とは同一であっても別個であってもよい。
 属性情報記録部207は、画像データに関連する属性情報の記録媒体への書込みと読出しを行う。属性情報とは、例えば、画像の撮影時刻、撮像装置番号、撮影位置情報等である。
 要求受信部208は、端末装置300からの検索要求やキーワード付与要求の受信を行う。検索要求には、類似画像検索要求と、登場イベント検索要求がある。
 類似人物検索部209は、要求受信部208にて受信した要求が類似人物検索要求であった場合に、類似人物検索を行う。
 登場イベント検索部210は、要求受信部208にて受信した要求が登場イベント検索要求であった場合に、登場イベント検索を行う。
 検索結果送信部211は、類似人物検索部209や登場イベント検索部210から得た類似人物検索結果や登場イベント検索結果の端末装置300への送信を行う。
 キーワード記録部212は、要求受信部208にて受信したキーワード付与要求に基づくキーワードの記録媒体への書込みと読出しを行う。
 キーワード検索部213は、要求受信部208にて受信した検索要求データ中にキーワードが含まれていた場合に、キーワード検索を行う。
 端末装置300は、ネットワーク機能を有する一般のPC(パーソナルコンピュータ)で実現してもよいし、専用の検索端末でもよい。
 端末装置300は、機能構成として、検索要求送信部301、検索結果受信部302、検索結果表示部303、再生画像表示部304、画面操作検知部305、キーワード付与要求送信部306、複数検索キー選択部307の各処理部を有する。また、本装置には、本発明の方式を実現するための人物検索機能も搭載してある。
 検索要求送信部301は、検索要求の録画装置200への送信を行う。類似人物検索の場合、検索要求データには、検索キー画像が含まれる。また、検索要求データには、絞込みパラメータを含めることも可能である。
 検索結果受信部302は、検索結果の録画装置200からの受信を行う。検索結果として受信するデータには、録画装置200において、類似人物検索、あるいは、登場イベント検索を実施して得られた画像の集合が含まれる。集合を構成する個々の画像は、録画装置200に記録された映像から画像サイズ縮小処理等を施して生成される。以下、この個々の画像を「検索結果画像」、検索結果として送受信するデータを「検索結果データ」ということにする。
 検索結果表示部303は、検索結果受信部302にて受信した検索結果の画面表示を行う。表示される画面例については後述する。
 再生画像表示部304は、録画装置200から入力された画像データの画面への連続動画表示を行う。
 画面操作検知部305は、ユーザによる操作内容の検知・取得を行う。
 キーワード付与要求送信部306は、キーワード付与要求の録画装置200への送信を行う。
 複数検索キー選択部307は、検索キー画像が複数選択されたときに、より少ない数の検索キー画像を適切に選択する処理を行う。複数検索キー選択部307は録画装置200内に設けても良い。
 図2には、撮像装置100のハードウェア構成の一例を示してある。
 撮像装置100のハードウェア構成としては、図2に示されるように、撮像部121、主記憶部122、符号化部123、ネットワークI/F124が、バス120で結合された形態である。
 撮像部121は、レンズで撮像した光信号をデジタルデータに変換する。符号化部123は、撮像部121が出力するデジタルデータを符号化して、JPEG(Joint Photographic Experts Group)などの画像データに変換する。主記憶部122は、撮像したデジタルデータ、符号化された画像データを記憶する。ネットワークI/F124は、主記憶部122上の画像データをネットワーク400を介して、録画装置200に送信するためのインタフェースである。
 図3には、録画装置200のハードウェア構成の一例を示してある。
 録画装置200のハードウェア構成としては、図3に示されるように、CPU(Central Processing Unit)221、主記憶部222、補助記憶部223、ネットワークI/F224が、バス220で結合された形態である。
 CPU221は、録画装置200の各部の制御と、機能を実現するためのプログラムの実行を行う。主記憶部222は、DRAM(Dynamic Random Access Memory)などの半導体装置で実現され、検索のための画像データやCPU221で実行するプログラムをロードして格納するための中間的なメモリである。補助記憶部223は、HDDやフラッシュメモリなどで実現され、主記憶部222より大容量のメモリであり、画像データやプログラムを格納する。ネットワークI/F224は、ネットワーク400を介して、撮像装置100からの画像データを受信したり、端末装置300から検索キーワードを受信したり、端末装置300に画像データを送信するためのインタフェースである。
 図4には、端末装置300のハードウェア構成の一例を示してある。
 端末装置300のハードウェア構成としては、図4に示されるように、CPU321、主記憶部322、補助記憶部323、表示I/F324、入出力I/F325、ネットワークI/F326が、バス320で結合された形態である。
 CPU321は、端末装置300の各部の制御と、機能を実現するためのプログラムの実行を行う。主記憶部322は、DRAMなどの半導体装置で実現され、表示のための画像データやCPU321で実行するプログラムをロードして格納するための中間的なメモリである。補助記憶部323は、HDDやフラッシュメモリなどで実現され、主記憶部322より大容量のメモリであり、検索キーワード、画像データやプログラムを格納する。表示I/F324は、表示装置340と接続するためのインタフェースである。入出力I/F325は、キーボード350やマウス352などの入出力装置と接続するためのインタフェースである。ネットワークI/F326は、ネットワーク400を介して、録画装置200に検索キーワードを送信したり、録画装置200から画像データを受信するためのインタフェースである。表示装置340は、例えば、LCD(Liquid Crystal Display)などの装置であり、画像や動画を表示する装置である。
 次に、図5~図8を用いて、適切に検索結果をまとめる方法について説明する。図5~図8はいずれも端末装置300に表示される検索画面の表示内容を示している。図5は、従来方式に係る検索画面の例であり、図6~図8は、本発明方式に係る検索画面の例である。図6には、検索結果を髪型をもとにまとめた様子を示してある。図7には、検索結果を髪型をもとにまとめたものを人物毎に展開した様子を示してある。図8には、検索結果のうち一人の人物について検索結果から再度検索し、更なる検索結果を得た様子を示してある。
 まず、図5に示された、従来方式に係る検索画面について説明する。
 検索画面は、再生画像表示領域3001、画像再生操作領域3003、検索キー画像指定領域3004、検索絞込パラメータ指定領域3008、検索実行領域3017、検索結果表示領域3021を有する。
 再生画像表示領域3001は、録画装置200に記録された画像を動画像として表示する領域である。再生画像表示領域3001に表示される動画3002は、録画装置200に記録された画像を動画像として表示するものである。
 画像再生操作領域3003は、録画装置200に記録された画像を再生操作する領域である。本領域を構成する各ボタンには、それぞれ固有の再生種類が割当てられている。本図においては、左のボタンから順に、例えば、巻戻し、逆再生、再生停止、順再生、早送りの再生種類が割当てられている例を示している。各ボタンを適宜押下することにより、動画3002がボタンに割当てられた再生種類に切り替る。
 検索キー画像指定領域3004は、検索キー画像の指定と表示を行う領域である。本領域は、検索キー画像3005、映像指定ボタン3006、ファイル指定ボタン3007を有する。
 検索キー画像3005は、類似検索のためのキーとする画像である。初期状態においては、検索キー画像3005は、未指定であるので、画像表示はされていない状態となる。あるいは、別途用意した未指定状態を示す画像を表示したり、未指定である旨の表記をするようにしてもよい。
 映像指定ボタン3006は、押下時に再生画像表示領域3001に表示されている画像を、検索キー画像3005として指定するボタンである。
 ファイル指定ボタン3007は、録画装置200に記録されている画像以外の画像、例えば、デジタルスチルカメラで撮影した画像やスキャナで取込んだ画像等を、検索キー画像3005として指定するボタンである。このボタンを押下すると、それらの画像をファイル指定するダイアログボックスが表示され、ユーザはそこで所望の画像を指定する。
 検索絞込パラメータ指定領域3008は、検索の際の絞込パラメータの種類とその値(範囲)を指定する領域である。本領域は、撮像装置指定チェックボックス3009,3010,3011,3012、時刻指定チェックボックス3013,3014、時刻指定欄3015,3016を有する。
 撮像装置指定チェックボックス3009,3010,3011,3012は、検索の際に検索対象とする撮像装置100を指定するチェックボックスである。本チェックボックスは、押下すると選ばれたことを示すチェックマークがそれぞれ表示される。このマークは再押下すると非表示となり、押下で表示・非表示を繰り返す。
 初期状態においては、全ての撮像装置100(カメラ1~4)を検索対象とするため、撮像装置指定チェックボックス3009,3010,3011,3012は全て選択状態となる。
 時刻指定チェックボックス3013,3014は、検索の際に検索対象とする時刻範囲を指定するチェックボックスである。表示の態様については本チェックボックスも他のチェックボックスと同様である。時刻指定チェックボックス3013を選択状態にした場合には時刻範囲に先頭時刻を与える。非選択状態にした場合には、時刻範囲に先頭時刻を与えない、すなわち、録画装置200に記録された最も古い時刻の画像までを検索対象範囲とすることを意味する。同様に時刻指定チェックボックス3014を選択状態にした場合には時刻範囲に末尾時刻を与える。非選択状態にした場合には、時刻範囲に末尾時刻を与えない、すなわち、録画装置200に記録された最も新しい時刻の画像までを検索対象範囲とすることを意味する。
 時刻指定欄3015,3016は、上述の先頭時刻と末尾時刻の値を指定する入力欄である。
 初期状態においては、全時間帯を検索対象とするため、時刻指定チェックボックス3013,3014は全て非選択状態、時刻指定欄3015,3016は空欄とする。
 検索実行領域3017は、検索実行を指示する領域である。本領域は、類似人物検索ボタン3018、登場イベント検索ボタン3019に加え、検索結果からの類似人物検索ボタン3020を有する。
 類似人物検索ボタン3018は、検索キー画像3005による類似人物検索の実行を指示するボタンである。検索絞込パラメータ指定領域3008にてパラメータが指定されている場合には、指定されたパラメータに従って類似人物検索の実行を指示する。
 登場イベント検索ボタン3019は、登場イベント検索の実行を指示するボタンである。検索絞込パラメータ指定領域3008にてパラメータが指定されている場合には、指定されたパラメータに従って登場イベント検索の実行を指示する。
 検索結果表示領域3021は、検索結果を表示する領域である。検索結果の表示は、検索結果画像を一覧表示することにより実施する。初期状態においては、検索結果表示領域3021には何も表示されない。
 ここで、ユーザが、映像指定ボタン3006を押下し、また、撮像装置指定チェックボックス3009,3010,3012を押下し、さらに、時刻指定チェックボックス3013,3014を押下し、時刻指定欄3015,3016にそれぞれ「2016/8/1 0:00:00」,「2016/8/2 0:00:00」と入力したとする。
 その結果、検索キー画像3005には、動画3002に表示された人物「Aさん」が検索キー画像として表示され、また、検索対象としたい撮像装置201として「カメラ1」,「カメラ2」,「カメラ4」の三つが指定され、検索対象としたい時刻範囲として「2016/8/1 0:00:00から2016/8/2 0:00:00まで」が指定される。
 その後、ユーザが、類似人物検索ボタン3018を押下したとする。すると、検索結果表示領域3021には、検索キー画像3005をキーとして類似人物検索を実行して得られた検索結果が表示される。検索結果の表示は、検索結果画像(図5では、検索結果画像3031~3141)を一覧表示することにより実施する。
 検索結果画像3031~3141は、例えば、最上段左から右へ、次に2段目左から右へと、検索キー画像3005に対する類似度順に表示する。この表示例においては、検索結果画像3031が検索キー画像3005に対し最も類似度が高く、検索結果画像3141が最も類似度が低いということを示している。
 この図に示された例の表記において、検索結果画像3031~3141として図示したアイコンは、人物の顔を簡略表示したものであり、例えば、検索結果画像3031には、検索キー画像3005と同一人物である「Aさん」が登場することを示している。類似顔画像検索システムは必ずしも、検索キー画像と同一人物が検索されるとは限らない。例えば、検索結果画像3051には別の人物(「Bさん」とする)が表示されており、検索結果画像3061にはさらに別の人物(「Cさん」とする)が表示されている。この簡略表示している部分には、もちろん、実際のシステムでの表示では実画像が表示される。
 検索結果画像3031~3141のいずれかをマウスでクリックして選択すると、選択された検索結果画像が、検索キー画像3005に表示される。これにより、検索結果画像を使っての再検索を実施することができる。
 ここで、図5では、検索結果表示領域3021に3名の人物が不規則に表示されている。このような従来方式に係る画面表示だと、複数の人物が各々複数の画像登場するため、各人物の判別をユーザ自身が行わなければならず、不便である。
 そこで、上記の不便さを解消するために、本発明では、図6~図8に示されるような画面表示を提案する。
 本発明方式に係る画面表示では、検索結果表示領域3021内に、複数の検索結果を人物毎にまとめて表示する領域を有する。図6~図8に示す例では、検索された3人の人物各々に対応して、3つの検索結果まとめ領域3201,3202,3203を有している。
 検索結果まとめ領域3201,3202,3203は、複数の検索結果がひとまとまりであることを示す表示領域である。図6には、検索結果まとめ領域3201,3202,3203内に、それぞれ、ひとまとまりとした検索結果のうちの代表画像が1枚のみ表示されている。
 図6では、検索結果として得られた12件の検索結果画像3031~3141について、それぞれに紐づけられた髪型の特徴量を用いてグループ分けされている。すなわち、髪型が類似するもの同士が同じグループとなるように、検索結果画像3031~3141が分類されている。例えば、図5における検索結果画像3031と髪型の特徴量が近い(類似度が高い)ものが検索結果画像3041,3071,3091,3111,3141であった場合、図6では、これらを検索結果まとめ領域3201内にひとまとめにされる。そして、検索結果画像3031が他の検索結果を代表する形で1枚のみ表示される。次に、残った検索結果画像の中で、検索結果画像3061と髪型の特徴量が近い(類似度が高い)ものが検索結果まとめ領域3202にひとまとめにされる。さらに、検索結果画像3051と髪型の特徴量が近い(類似度が高い)ものが検索結果まとめ領域3203にひとまとめにされる。グループ化の基準としては、例えば、髪型の特徴量の類似度が90%以上という要件を用いることができる。なお、髪型以外の特徴量に基づいてグループ化してもよく、例えば、服装の特徴量に基づいてグループ化してもよい。髪型や服装、装飾品等は、通常、1日の間は変化しない(同じものを身に着けている)ため、例えば24時間以内の範囲で類似検索する場合に特徴量として利用することが適切である。
 このように、検索結果画像をグループに分類して表示するグループ別表示を行うことで、ユーザは3件のみ確認すればよい。
 ここで、類似画像検索システムが複数の撮像装置を有する場合には、検索結果画像の撮像位置及び撮像時間に基づいて、検索結果画像同士の類似度を調整してもよい。すなわち、互いに近接する異なる撮像装置で所定時間内に撮像された検索結果画像については、同一の人物が撮像されている可能性が高いので、これら検索結果画像同士の類似度を上げる調整を行う。また、互いに近接しない異なる撮像装置で所定時間内に撮像された検索結果画像については、異なる人物が撮像されている可能性が高いので、これら検索結果画像同士の類似度を下げる調整を行う。なお、一例として、近接関係にある撮像装置の組み合わせを予め記憶しておくことで、互いに近接する撮像装置で撮像されたかを判断できる。また、別の例として、検索結果画像に撮像位置情報(撮像装置の位置情報)を付加して記憶し、各検索結果画像の撮像位置情報から求めた撮像位置間の距離を所定値と比較することで、互いに近接する撮像装置で撮像されたかを判断できる。
 このような調整を行うことで、グループ分けの精度の向上を図ることができる。なお、類似度を上げる調整だけを行ってもよいし、類似度を下げる調整だけを行ってもよいし、両方の調整を行ってもよい。
 また、検索結果まとめ領域3201,3202,3203は、例えば、左から右へ(更には上から下へ)と類似度順に表示される。この表示例においては、検索結果まとめ領域3201が検索キー画像3005に対し最も類似度が高く、検索結果まとめ領域3203が最も類似度が低いということを示している。
 このように、グループ別表示における各グループ(検索結果まとめ領域)を類似度順に表示することで、ユーザは目的とする人物画像を見つけやすくなる。
 なお、各グループと検索キー画像との類似度としては、そのグループに属する検索結果画像毎に算出した検索キー画像との類似度の最大値を用いてもよく、これら類似度の平均値を用いてもよく、他の手法により算出した値を用いてもよい。
 また、本例では、各グループを検索キー画像との類似度順に並べた表示にしているが、各グループと検索キー画像との類似度順を視認できる他の態様で表示してもよい。例えば、類似度を表す数値を付加的に表示したり、類似度に応じて検索結果まとめ領域の枠又は背景の色や濃淡などを変えた色表示としたり、類似度を視覚的に表現したアイコンを付加的に表示したりしてもよい。
 ここで、検索結果画像のグループ分け表示は、常に行ってもよいが、検索結果画像の数が所定の閾値以上となった場合に行うようにしてもよい。この場合の閾値としては、固定値を用いてもよく、ユーザが任意に設定してもよく、システムが自動的に設定(例えば、スクロール無しで検索結果表示領域に収まる上限の画像数を設定)してもよい。これにより、検索結果表示領域3021の画像数が増えることにより、画面上に収まり切れない場合や視認できないといった不便な状況を回避することができる。
 次に、図7では、検索結果まとめ領域3201,3202,3203を展開している。例えば、気になる検索結果まとめ領域をマウスでクリックすると、図7に示すように複数の検索結果を検索結果まとめ領域内で展開する。図7は、図5と同じく12件の検索結果が表示されているが、図5のようにバラバラに表示されるのではなく、髪型ごとにまとまっているので、ユーザにとって分かり易い。
 さらに、図8では、検索結果まとめ領域3201を選択し、検索結果から類似検索ボタン3020をクリックした状態を表している。追加検索結果表示領域3301は、検索結果画像3031,3041,3071,3091,3111,3141を検索キー画像として検索したことによって新たに見つかった検索結果を表示する領域である。図8では、追加検索結果表示領域3301内に、新たに見つかった追加検索結果画像3311,3321,3331,3341,3351,3361が表示されている。なお、複数の検索キー画像から適切に検索する方法としては、例えば、特開2013-101431号公報に開示された方法がある。
 本実施形態においては、人物検索に関わる人物検出処理や人物特徴量抽出処理等を録画装置上で実施する構成で説明したが、ネットワークで接続された録画装置とは別個の装置にて実施するようにしてもよい。
 さらに、本実施形態においては、髪型の特徴量の類似度によって検索結果をまとめる方法を示したが、服装や装飾品、所持品等の特徴量を用いてもよい。
 以上のように、本実施形態は、検索キーとなる人物画像である検索キー画像(3005)に類似する人物画像を検索する類似画像検索システムにおいて、検索された複数の人物画像(3031~3141)を各々の人物画像同士の類似度に基づいて複数のグループに分類して、グループ毎に設けた表示領域(3201,3202,3203)に、該グループに属する人物画像のうちの少なくとも1つを表示するグループ別表示を行い、前記グループ別表示は、各グループと検索キー画像との類似度順を視認できる態様で行われる構成となっている。
 これにより、検索キー画像に類似する複数の人物画像がグループ別に表示されるので、同一の人物の画像が多数検索された場合に見づらい表示となることを抑制できる。しかも、各グループの検索キー画像との類似度順を容易に把握することができる。
 ここで、類似人物検索(検索キー画像に類似する人物画像の検索)と、検索結果グループ分け(検索された人物画像の分類)とは、ともに人物画像から検出した特徴量に基づいて行われるが、それぞれ異なる種類の特徴量が用いられる。一例として、類似人物検索では顔の特徴量を用い、検索結果グループ分けでは顔以外(例えば、髪型や服装)の特徴量を用いることができる。また、類似人物検索では顔及び髪型の特徴量を用い、検索結果グループ分けではそれ以外(例えば、服装)の特徴量を用いてもよい。また、検索結果グループ分けに、類似画像検索システムとは別のシステム(例えば、顔認証システム)で検出された特徴量を用いても構わない。
 また、各グループと検索キー画像との類似度順を視認できる態様としては、種々の態様を用いることができる。例えば、各グループを類似度順に表示する態様、類似度を表す数値を付加的に表示する態様、類似度に応じて検索結果まとめ領域の枠又は背景の色や濃淡などを変えて表示する態様、類似度を視覚的に表現したアイコンを付加的に表示する態様などが挙げられる。
 また、グループ別表示として、グループを代表する人物画像だけを表示する第1モードと、グループ内の全ての人物画像を表示する第2モードとを用意し、これらをユーザ操作により切り替え可能にすることが好ましい。ここで、第1モードでは、検索キー画像に最も類似する1枚の人物画像を代表としてもよく、類似度が高い順に所定数の人物画像を代表としてもよい。
 また、グループ別表示は、検索結果画像の数が所定の閾値以上となった場合に行うことが好ましい。これにより、通常の表示よりもグループ別表示の方が望ましい場合、すなわち、検索結果画像の数が多すぎて見づらくなるような場合にのみ、グループ分け表示を行うことができる。逆に、グループ別表示よりも通常の表示の方が望ましい場合、すなわち、全ての検索結果画像を一目して把握できるほど検索結果画像の数が少ないような場合にまで、グループ分け表示となることを防ぐことができる。
 また、検索結果グループ分けは、互いに近接する異なる撮像装置で所定時間内に撮像された人物画像同士の類似度を上げる調整、又は、互いに近接しない異なる撮像装置で所定時間内に撮像された人物画像同士の類似度を下げる調整の少なくとも一方を行った結果に基づいて行うことが好ましい。これにより、撮影位置及び撮影時間を考慮すれば同一人物である可能性が高い人物画像同士を同じグループに分類する一方で、撮影場所及び撮影時間を考慮すれば別人物である可能性が高い人物画像同士を別のグループに分類することができ、グループ分けの精度の向上が図られる。
 なお、更なる拡張例として、単独で行動している人物か、あるいは複数人で行動している人物かを示す行動態様を示す情報を各人物画像に対応付けておき、同じ行動態様の人物画像同士の類似度を上げる調整、又は、異なる行動態様の人物画像同士の類似度を下げる調整を行った結果に基づいて、検索結果グループ分けを行うようにしてもよい。これにより、単独行動を好む人物かグループ行動を好む人物か等を考慮したグループ分けを行うことができる。なお、行動態様を示す情報として、共に行動する人物数を対応付けておき、共に行動する人物数を考慮して類似度の調整を行ってもよい。
 なお、本発明に係るシステムや装置などの構成としては、必ずしも以上に示したものに限られず、種々な構成が用いられてもよい。
 また、本発明は、例えば、本発明に係る処理を実行する方法や方式、そのような方法や方式を実現するためのプログラム、そのプログラムを記憶する記憶媒体などとして提供することも可能である。
 本発明は、検索キーとなる人物画像である検索キー画像に類似する人物画像を検索する類似画像検索システムに利用することができる。
 100:撮像装置、 120:バス、 121:撮像部、 122:主記憶部、 123:符号化部、 124:ネットワークI/F、 200:録画装置、 201:画像送受信部、 202:画像記録部、 203:再生制御部、 204:人物領域検出部、 205:人物特徴量抽出部、 206:人物特徴量記録部、 207:属性情報記録部、 208:要求受信部、 209:類似人物検索部、 210:登場イベント検索部、 211:検索結果送信部、 212:キーワード記録部、 213:キーワード検索部、 220:バス、 221:CPU、 222:主記憶部、 223:補助記憶部、 224:ネットワークI/F、 300:端末装置、 301:検索要求送信部、 302:検索結果受信部、 303:検索結果表示部、 304:再生画像表示部、 305:画面操作検知部、 306:キーワード付与要求送信部、 307:複数検索キー選択部、 320:バス、 321:CPU、 322:主記憶部、 323:補助記憶部、 324:表示I/F、 326:ネットワークI/F、 340:表示装置、 350:キーボード、 352:マウス、 400:ネットワーク、 3001:再生画像表示領域、 3002:動画、 3003:画像再生操作領域、 3004:検索キー画像指定領域、 3005:検索キー画像、 3006:映像指定ボタン、 3007:ファイル指定ボタン、 3008:検索絞込パラメータ指定領域、 3009,3010,3011,3012:撮像装置指定チェックボックス、 3013,3014:時刻指定チェックボックス、 3015,3016:時刻指定欄、 3017:検索実行領域、 3018:類似人物検索ボタン、 3019:登場イベント検索ボタン、 3020:検索結果からの類似人物検索ボタン、 3021:検索結果表示領域、 3031,3041,3051,3061,3071,3081,3091,3101,3111,3121,3131,3141:検索結果画像、 3201,3202,3203:検索結果まとめ領域、 3301:追加検索結果表示領域、 3311,3321,3331,3341,3351,3361:追加検索結果画像

Claims (3)

  1.  検索キーとなる人物画像である検索キー画像に類似する人物画像を検索する類似画像検索システムにおいて、
     検索された複数の人物画像を各々の人物画像同士の類似度に基づいて複数のグループに分類し、グループ毎に設けた表示領域に、該グループに属する人物画像のうちの少なくとも1つを表示するグループ別表示を行い、
     前記グループ別表示は、各グループと検索キー画像との類似度順を視認できる態様で行われることを特徴とする類似画像検索システム。
  2.  請求項1に記載の類似画像検索システムにおいて、
     検索された人物画像の数が所定の閾値以上である場合に前記グループ別表示を行うことを特徴とする類似画像検索システム。
  3.  請求項1又は請求項2に記載の類似画像検索システムにおいて、
     検索された人物画像に対し、互いに近接する異なる撮像装置で所定時間内に撮像された人物画像同士の類似度を上げる調整、又は、互いに近接しない異なる撮像装置で所定時間内に撮像された人物画像同士の類似度を下げる調整の少なくとも一方を行った結果に基づいて、各グループへの分類を行うことを特徴とする類似画像検索システム。
PCT/JP2017/009665 2017-03-10 2017-03-10 類似画像検索システム WO2018163398A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US16/483,024 US10817709B2 (en) 2017-03-10 2017-03-10 Similar image search system
JP2019504262A JP6589082B2 (ja) 2017-03-10 2017-03-10 類似画像検索システム
PCT/JP2017/009665 WO2018163398A1 (ja) 2017-03-10 2017-03-10 類似画像検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/009665 WO2018163398A1 (ja) 2017-03-10 2017-03-10 類似画像検索システム

Publications (1)

Publication Number Publication Date
WO2018163398A1 true WO2018163398A1 (ja) 2018-09-13

Family

ID=63448709

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/009665 WO2018163398A1 (ja) 2017-03-10 2017-03-10 類似画像検索システム

Country Status (2)

Country Link
JP (1) JP6589082B2 (ja)
WO (1) WO2018163398A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020047110A (ja) * 2018-09-20 2020-03-26 パナソニック株式会社 人物検索システムおよび人物検索方法
JP2020047259A (ja) * 2019-07-11 2020-03-26 パナソニックi−PROセンシングソリューションズ株式会社 人物検索システムおよび人物検索方法
CN112785400A (zh) * 2021-01-12 2021-05-11 四川天行健穗金科技有限公司 一种用于去财税数据的智能检索方法及系统
WO2022030549A1 (ja) * 2020-08-07 2022-02-10 エヌ・ティ・ティ・コミュニケーションズ株式会社 情報検索装置、情報検索方法、及びプログラム
JP2022131194A (ja) * 2021-02-26 2022-09-07 Necパーソナルコンピュータ株式会社 情報処理装置及び画像検出方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000331009A (ja) * 1999-05-18 2000-11-30 Nippon Telegr & Teleph Corp <Ntt> 映像検索方法および装置と映像検索プログラムを記録した記録媒体
JP2009217828A (ja) * 2009-04-10 2009-09-24 Konica Minolta Holdings Inc 画像検索装置
JP2010128633A (ja) * 2008-11-26 2010-06-10 Denso It Laboratory Inc 情報提示装置、方法およびプログラム
JP2013211026A (ja) * 2013-05-09 2013-10-10 Panasonic Corp 類似画像検索の結果表示装置及び類似画像検索の結果表示方法
JP2015507299A (ja) * 2012-02-10 2015-03-05 グーグル・インコーポレーテッド 検索結果分類

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000331009A (ja) * 1999-05-18 2000-11-30 Nippon Telegr & Teleph Corp <Ntt> 映像検索方法および装置と映像検索プログラムを記録した記録媒体
JP2010128633A (ja) * 2008-11-26 2010-06-10 Denso It Laboratory Inc 情報提示装置、方法およびプログラム
JP2009217828A (ja) * 2009-04-10 2009-09-24 Konica Minolta Holdings Inc 画像検索装置
JP2015507299A (ja) * 2012-02-10 2015-03-05 グーグル・インコーポレーテッド 検索結果分類
JP2013211026A (ja) * 2013-05-09 2013-10-10 Panasonic Corp 類似画像検索の結果表示装置及び類似画像検索の結果表示方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020047110A (ja) * 2018-09-20 2020-03-26 パナソニック株式会社 人物検索システムおよび人物検索方法
US11030463B2 (en) 2018-09-20 2021-06-08 Panasonic I-Pro Sensing Solutions Co., Ltd. Systems and methods for displaying captured videos of persons similar to a search target person
US11527071B2 (en) 2018-09-20 2022-12-13 i-PRO Co., Ltd. Person search system and person search method
JP2020047259A (ja) * 2019-07-11 2020-03-26 パナソニックi−PROセンシングソリューションズ株式会社 人物検索システムおよび人物検索方法
JP7235612B2 (ja) 2019-07-11 2023-03-08 i-PRO株式会社 人物検索システムおよび人物検索方法
WO2022030549A1 (ja) * 2020-08-07 2022-02-10 エヌ・ティ・ティ・コミュニケーションズ株式会社 情報検索装置、情報検索方法、及びプログラム
CN112785400A (zh) * 2021-01-12 2021-05-11 四川天行健穗金科技有限公司 一种用于去财税数据的智能检索方法及系统
JP2022131194A (ja) * 2021-02-26 2022-09-07 Necパーソナルコンピュータ株式会社 情報処理装置及び画像検出方法
JP7239623B2 (ja) 2021-02-26 2023-03-14 Necパーソナルコンピュータ株式会社 情報処理装置及び画像検出方法

Also Published As

Publication number Publication date
JP6589082B2 (ja) 2019-10-09
JPWO2018163398A1 (ja) 2019-11-07

Similar Documents

Publication Publication Date Title
JP6589082B2 (ja) 類似画像検索システム
JP5863400B2 (ja) 類似画像検索システム
JP5438436B2 (ja) 画像検索装置
JP5506324B2 (ja) 類似画像検索システム、および、類似画像検索方法
JP4945477B2 (ja) 監視システム、人物検索方法
US10089532B2 (en) Method for output creation based on video content characteristics
KR20180058019A (ko) 영상 검색 장치, 데이터 저장 방법 및 데이터 저장 장치
JP4490214B2 (ja) 電子アルバム表示システム、電子アルバム表示方法、及び電子アルバム表示プログラム
JP6203188B2 (ja) 類似画像検索装置
EP2053540B1 (en) Imaging apparatus for detecting a scene where a person appears and a detecting method thereof
JP4678043B2 (ja) 画像記憶装置、監視システム、記憶媒体
JP2009123196A (ja) 画像検索装置
US10817709B2 (en) Similar image search system
JP6214762B2 (ja) 画像検索システム、検索画面表示方法
KR101033238B1 (ko) 영상 감시 장치와 영상 감시 프로그램이 기록된 기록매체
JP5826513B2 (ja) 類似画像検索システム
JP2006079460A (ja) 電子アルバム表示システム、電子アルバム表示方法、電子アルバム表示プログラム、画像分類装置、画像分類方法、及び画像分類プログラム
JP6210634B2 (ja) 画像検索システム
JP6485978B2 (ja) 画像処理装置および画像処理システム
JP4175622B2 (ja) 画像表示システム
JP5351445B2 (ja) 画像検索システム
JP4326753B2 (ja) 映像情報インデキシング支援システム、プログラム及び記憶媒体
JP5147737B2 (ja) 撮像装置
KR101029730B1 (ko) 사람과 차량을 식별하는 영상 감시 장치
JP2004533172A (ja) スーパヒストグラム及びフレームサインを用いるコンパクトビジュアルサマリ

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17899571

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019504262

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17899571

Country of ref document: EP

Kind code of ref document: A1