WO2012157611A1 - 類似画像検索システム - Google Patents

類似画像検索システム Download PDF

Info

Publication number
WO2012157611A1
WO2012157611A1 PCT/JP2012/062309 JP2012062309W WO2012157611A1 WO 2012157611 A1 WO2012157611 A1 WO 2012157611A1 JP 2012062309 W JP2012062309 W JP 2012062309W WO 2012157611 A1 WO2012157611 A1 WO 2012157611A1
Authority
WO
WIPO (PCT)
Prior art keywords
search
image
keyword
image data
similar
Prior art date
Application number
PCT/JP2012/062309
Other languages
English (en)
French (fr)
Inventor
小倉 慎矢
平井 誠一
秀昭 打越
智巳 高田
伊藤 渡
Original Assignee
株式会社日立国際電気
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立国際電気 filed Critical 株式会社日立国際電気
Publication of WO2012157611A1 publication Critical patent/WO2012157611A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings

Definitions

  • the present invention relates to a similar image search system and a similar image search method, and more particularly to a similar image search system and a similar image search method with improved usability of a user interface for searching for a person in a video surveillance system. .
  • video surveillance systems have been installed in facilities visited by an unspecified number of people such as hotels, buildings, convenience stores, financial institutions, dams and roads for the purpose of crime prevention and accident prevention. This is because a person to be monitored is photographed with an imaging device such as a video camera, and the video is transmitted to a monitoring center such as a management office or a security room, where the resident supervisor monitors it and warns by voice. It is necessary to take necessary measures such as, or to record a video.
  • a random access medium represented by a hard disk drive (HDD) is increasingly used as a recording medium for recording video from a conventional videotape medium.
  • HDD hard disk drive
  • the capacity of such recording media has been increasing.
  • Increasing the capacity of recording media has dramatically increased the amount of video that can be recorded, making it possible to record at many locations and for a long time, while increasing the burden of visually checking recorded images has become a problem. did.
  • the person search function is a function that records in real time the appearance of a person in a video as an object of automatic detection, and can search for a person appearance image from recorded images after the fact.
  • the person search function is roughly divided into the following two types.
  • the first is an appearance event search function.
  • the appearance event search function is a function for simply searching for the presence or absence of a person (event) in the video.
  • the search result in addition to the presence or absence of an event, if it is determined that there is an event, the number of events, the occurrence time of each event, the imaging device number that captured the event, the captured image (person appearance image), etc. are presented .
  • this search query is given as information for narrowing the search target range such as the event occurrence time and the imaging device number.
  • the information for narrowing down the search target range is referred to as “narrowing parameter”.
  • the second is a similar person search function.
  • While the above-mentioned appearance event search function is a search that does not specify a character, this is whether or not a specific person specified by the user has been taken by an imaging device at another time or at another point. This is a function for searching for recorded images.
  • the search result in addition to the presence / absence of other images showing a specific person, the number and shooting time, imaging device number, captured image (person appearing image), similarity degree to be described later, and the like are returned if present. .
  • the specific person is specified by the user specifying one image (hereinafter referred to as a search key image) showing the person to be searched.
  • the search key image is designated from a recorded image or an arbitrary image from an external device.
  • the image feature quantity of the person in this search key image is extracted by image recognition technology, collated with the image feature quantity of the person in the recorded image, the similarity (similarity) is obtained, and the same person determination is performed. It is realized by doing.
  • the extraction and recording of the human feature amount in the recorded image is performed in advance at another timing such as during video recording. Even in this search query, it is often possible to give a refinement parameter.
  • Patent Literature 1 an arbitrary image is selected from a plurality of images as a search result and held in another display area so that the image can be used for the next search key image.
  • An image search apparatus is disclosed that can create a group of images.
  • Patent Document 2 describes a similar image search system that further enhances user convenience.
  • the user gives keywords such as a person name and features to the result of similar image search.
  • search methods available for image search: similar image search that excludes images with keywords from search targets, and appearance event search that searches only images with keywords. is there. The user performs similar event search a plurality of times, and performs appearance event search after determining that keywords have been assigned to a sufficiently large number of images.
  • the keyword assignment function as shown in Patent Document 2 is very convenient when performing a similar image search.
  • the keyword assignment function in the current similar person search has a problem that the user's input load is large. That is, the user needs to select a number of correct images from the search results and assign keywords to the similar image search results.
  • an object of the present invention is to provide a similar image search system with an improved keyword assignment function and improved search ease.
  • One aspect of the present invention is a similar image search system including an imaging device, a recording device that records image data input from the imaging device on a recording medium, and a terminal device, wherein the recording device includes the image data Feature values are extracted, image similarity is evaluated, a search key image is specified, image data having a high similarity to the specified search key image is searched, and a keyword is assigned to each image data. And means for dynamically presenting the keyword candidate.
  • Another aspect of the present invention is characterized in that the terminal device automatically selects and displays an image having a high degree of similarity based on a search result of the recording device.
  • Another aspect of the present invention is a similar image search system including an imaging device, a recording device that records image data input from the imaging device on a recording medium, and a terminal device, wherein the terminal device is the recording device.
  • a similar image search result includes a keyword-added result
  • the keyword is displayed as an assignment candidate, and an appearance event search that presents a list of image data regardless of the image similarity is provided. Is.
  • the system block diagram of one Example of the similar image search system of this invention The hardware block diagram of the imaging device used for one Example.
  • the hardware block diagram of the terminal device used for one Example. The figure which shows the data structure used for one Example.
  • the figure which shows the search screen in the state just before execution of a similar person search The figure which shows the search screen in the state immediately after similar person search execution.
  • the figure which shows the search screen in a state immediately after keyword provision execution The figure which shows the search screen in a state just before execution event search execution.
  • the figure which shows the search screen in a state immediately after performing appearance event search The figure which shows the search screen after the person selection operation by the user after appearance event search.
  • the similar image retrieval system of the present invention retrieves a desired image from, for example, an imaging device, a recording device that records image data transmitted from the imaging device, and image data recorded in the recording device. Consists of terminal devices that request and display.
  • the recording apparatus includes a first CPU that executes a first program for realizing control of each unit of the recording apparatus and a predetermined function, and image data for search and the first CPU that is executed by the first CPU.
  • the first main storage unit that loads and stores the program and the first auxiliary storage unit that stores the image data received from the imaging apparatus and the first program.
  • the terminal device includes, for example, a second CPU that executes a second program for realizing control of each unit of the terminal device and a predetermined function, image data to be displayed on the display device, and a second CPU 261.
  • the second main storage unit for loading and storing the second program to be executed in (2), and the second auxiliary storage unit for storing the search keyword, the image data, and the second program.
  • the first CPU performs person detection using image recognition technology on the image data received from the imaging device, determines the presence of a person in the image, and if a person exists, A person area detection unit that performs coordinate calculation, a person feature amount extraction unit that performs image feature calculation on an area detected by the person area detection unit, and a feature amount calculated by the person feature amount extraction unit A personal feature amount recording unit to be recorded in the unit, a request receiving unit for receiving a search request from the terminal device, a search unit for performing a search according to the search request received by the request receiving unit, and a search result obtained from the search unit A search result transmission unit to be transmitted to the terminal device, a keyword recording unit for recording a keyword in the main storage unit based on a keyword assignment request received by the request reception unit from the terminal device, and a key in the search request data received by the request reception unit If that contained over de includes a keyword search part which performs a search on the keyword for the image data recorded in the auxiliary storage unit.
  • the second CPU receives the search request transmission unit that transmits the search request to the recording device, the search result reception unit that receives the search result image and the search result data from the recording device, and the search result reception unit.
  • a search result display unit that displays a search result image on a screen
  • a playback image display unit that continuously displays image data input from a recording device
  • a screen operation detection unit that detects and obtains operation contents by a user
  • a keyword assignment request transmitter for transmitting to the recording device is provided.
  • the search request of the similar image search system of the present invention is a similar image search request and an appearance event search request.
  • FIGS. 1 to 7 and FIGS. 8A to 8H a similar image search system according to an embodiment of the present invention will be described with reference to FIGS. 1 to 7 and FIGS. 8A to 8H.
  • FIGS. 8A to 8H the configuration of a similar image search system according to an embodiment will be described with reference to FIGS.
  • FIG. 1 is a system configuration diagram of an embodiment of a similar image search system of the present invention.
  • the similar image search system is configured such that an imaging apparatus 201, a recording apparatus 102, and a terminal apparatus 103 are connected to a network 200 and can communicate with each other.
  • the network 200 is a communication unit that connects devices to each other and performs IP (Internet Protocol) communication, and is a dedicated network, an intranet, the Internet, a wireless LAN (Local Area Network), or the like.
  • the imaging device 201 performs digital conversion processing on an image captured by a CCD (Charge Coupled Device), a CMOS (Complementary Metal Oxide Semiconductor) element, or the like, and transmits the converted image data to the recording device via the network 200.
  • Devices such as network cameras and surveillance cameras.
  • the recording device 102 is a device such as a digital video recorder that records image data input from the imaging device 201 via the network 200 on a recording medium such as an HDD. Further, this apparatus is equipped with a person search function that is characteristic of the present invention.
  • the recording apparatus 102 has an image transmission / reception unit 210, an image recording unit 211, a reproduction control unit 212, a person area detection unit 213, a person feature amount extraction unit 214, a person feature amount recording unit 215, an attribute information recording unit 216, as a functional configuration.
  • the processing unit includes a request receiving unit 217, a search unit, a search result transmission unit 220, a keyword recording unit 110, and a keyword search unit 111.
  • the search unit includes a similar person search unit 218 and an appearance event search unit 219.
  • the image transmission / reception unit 210 receives input image data from the imaging device 201 and transmits output image data to the terminal device 103.
  • the image recording unit 211 writes input image data to a recording medium and reads output image data from the recording medium. At the time of writing, in addition to the image data, an image ID (described later) serving as information for reading the image data is also recorded.
  • the playback control unit 212 controls playback of the video read from the image recording unit 211 on the terminal device 103.
  • the person area detection unit 213 performs person detection using image recognition technology on the input image data, determines the presence of a person (face) in the image, and if there is a person, calculates the coordinates of that area. Do.
  • the person feature amount extraction unit 214 performs feature amount calculation on the region detected by the person region detection unit 212 using an image recognition technique.
  • the human feature amount calculated here is, for example, the arrangement relationship of feature points extracted corresponding to the eyes, nose, mouth, cheekbones, etc., the contour shape of the whole body of the person, clothing, skin color, It is a known feature quantity such as a gait (how to roll a leg such as which leg is moved at what timing).
  • the person feature amount recording unit 215 writes and reads the feature amount calculated by the person feature amount extraction unit 214 to and from the recording medium.
  • the image data recording medium in the image recording unit and the human feature amount recording medium in the processing unit may be the same or different.
  • the attribute information recording unit 216 writes and reads attribute information related to image data to and from a recording medium.
  • the attribute information is, for example, an image shooting time, an imaging device number, or the like.
  • the request reception unit 217 receives a search request or a keyword assignment request from the terminal device 103 and passes it to the similar person search unit 218 or the like.
  • the search request includes a similar image search request and an appearance event search request.
  • the similar person search unit 218 searches for similar images when the request received by the request reception unit 217 is a similar person search request.
  • the appearance event search unit 219 searches for an appearance event when the request received by the request reception unit 217 is an appearance event search request.
  • the search result transmission unit 220 transmits the similar person search result and the appearance event search result obtained from the similar person search unit 218 and the appearance event search unit 219 to the terminal device.
  • the keyword recording unit 110 writes and reads a keyword on the recording medium based on the keyword assignment request received by the request receiving unit 217.
  • the keyword search unit 111 performs a keyword search when the search request data received by the request reception unit 217 includes a keyword.
  • the terminal device 103 includes, as functional configurations, processing units such as a search request transmission unit 221, a search result reception unit 222, a search result display unit 223, a reproduction image display unit 224, a screen operation detection unit 225, and a keyword assignment request transmission unit 112. Configured.
  • the terminal device 103 is realized by a general PC (personal computer) having a network connection, a portable terminal, or a dedicated search terminal.
  • the search request transmission unit 221 transmits a search request to the recording device.
  • the search request data includes a search key image.
  • the search request data can also include a refinement parameter.
  • the search result receiving unit 222 receives the search result from the recording device.
  • the data received as a search result includes a set of images obtained by performing similar person search or appearance event search in the recording apparatus.
  • the individual images constituting the set are generated by performing image size reduction processing or the like from the video recorded in the recording device.
  • each individual image is referred to as a “search result image”
  • data transmitted and received as a search result is referred to as “search result data”.
  • the search result display unit 223 displays a screen of the search result received by the search result receiving unit.
  • the reproduction image display unit 224 performs continuous moving image display on the screen of the image data input from the recording device.
  • the screen operation detection unit 225 detects and acquires the operation content by the user.
  • the keyword assignment request transmission unit 112 transmits a keyword assignment request to the recording device.
  • FIG. 2 is a hardware configuration diagram of an imaging apparatus used in one embodiment of the similar image search system of the present invention.
  • the imaging apparatus 201 is configured by an imaging unit 241, a main storage unit 242, an encoding unit 243, and a network interface (I / F) 244 that are connected by a bus 240.
  • I / F network interface
  • the imaging unit 241 converts light imaged on the imaging element by the lens into digital data.
  • the encoding unit 243 encodes the digital data output from the imaging unit 241 and converts it into image data such as JPEG (JointoPhotographic Experts Group) or MPEG.
  • the main storage unit 242 stores captured digital data and encoded image data.
  • the network I / F 244 is an interface for transmitting image data on the main storage unit 242 to the recording device 102 via the network 200.
  • FIG. 3 is a hardware configuration diagram of a recording apparatus used in one embodiment of the similar image search system of the present invention.
  • the hardware configuration of the recording apparatus 102 is a form in which a CPU (Central Processing Unit) 251, a main storage unit 252, an auxiliary storage unit 253, and a network I / F 254 are coupled via a bus 250. .
  • a CPU Central Processing Unit
  • main storage unit 252 main storage unit
  • auxiliary storage unit 253 main storage unit
  • network I / F 254 network I / F
  • the CPU 251 performs control of each unit of the recording device 102 and execution of a program for realizing the function.
  • the main storage unit 252 is realized by a semiconductor device such as DRAM (Dynamic Random Access Memory), and is an intermediate memory for loading and storing image data for search and a program executed by the CPU 251.
  • the auxiliary storage unit 253 is realized by an HDD, a flash memory, or the like, and has a larger capacity than the main storage unit 252 and stores image data and programs.
  • the network I / F 254 is an interface for receiving image data from the imaging apparatus 201, receiving a search keyword from the terminal apparatus 103, and transmitting image data to the terminal apparatus 103 via the network 200.
  • FIG. 4 is a hardware configuration diagram of a terminal device used in one embodiment of the similar image search system of the present invention.
  • the hardware configuration of the terminal device 103 includes a CPU 261, a main storage unit 262, an auxiliary storage unit 263, a display I / F 264, an input / output I / F 265, and a network I / F 266 coupled via a bus 260. It is a form made.
  • the display I / F 264 is connected to the display device 270, and the input / output I / F 265 is connected to input / output devices such as a keyboard 280 and a mouse 282.
  • the CPU 261 performs control of each unit of the terminal device 103 and execution of a program for realizing the function.
  • the main storage unit 262 is realized by a semiconductor device such as a DRAM, and is a memory for storing image data for display and a program executed by the CPU 261.
  • the auxiliary storage unit 263 is realized by a flash memory or the like, and stores programs and setting information (search keywords, image data).
  • the display I / F 264 is an interface for connecting to the display device 270.
  • the input / output I / F 265 is an interface for connecting to input / output devices such as a keyboard 280 and a mouse 282.
  • the network I / F 266 is an interface for receiving image data from the recording apparatus 102, transmitting a search keyword to the recording apparatus 102, and receiving image data from the recording apparatus 102 via the network 200.
  • the display device 270 is a graphic display such as an LCD (Liquid Crystal Display), and displays an image or a moving image on a display unit (screen).
  • the user operates the input / output device such as the keyboard 280 and the mouse 282 on the image displayed on the display unit of the display device 270, for example, by operating the GUI (Graphical User Interface), and the terminal device 103 and the like. Operate the image search system.
  • the terminal device 103 realizes the function of the Web browser with these configurations.
  • FIG. 5A to 5C are diagrams schematically illustrating a data structure used in the similar image search system according to the embodiment of the present invention.
  • the important data structure used in the similar image search system according to the embodiment of the present invention includes a frame table 300 as shown in FIG. 5A, an attribute information table 310 as shown in FIG. 5B, and as shown in FIG. 5C.
  • Search result table 320 includes a frame table 300 as shown in FIG. 5A, an attribute information table 310 as shown in FIG. 5B, and as shown in FIG. 5C.
  • the frame table 300 is a table for storing video data.
  • An image ID 301 is assigned to the frame table 300, and frame data 302 associated with the assigned image ID is recorded.
  • the frame data 302 is recorded, for example, as JPEG format data.
  • the attribute information table 310 is a table for storing attribute information data about an image obtained as a result of analyzing the image data.
  • a registration ID 311 is assigned for identification, and an image ID 312, a feature amount 313, a camera ID 314, time information 315, and a keyword 316 are recorded in association with the assigned registration ID 311.
  • one of the frames stored in the frame table 300 in association with the given registration ID 311 is designated by the image ID 312.
  • the feature amount of the image corresponds to the feature amount 313, the ID of the imaging device 201 that has captured the image corresponds to the camera ID 314, the information related to the imaging time of the frame corresponds to the time information 315, and the keyword assigned to the frame corresponds to the keyword 316.
  • the feature amount of the image corresponds to the feature amount 313, the ID of the imaging device 201 that has captured the image corresponds to the camera ID 314, the information related to the imaging time of the frame corresponds to the time information 315, and the keyword assigned to the frame corresponds to the keyword 316
  • the search result table 320 is a table that holds information related to a single search result. For a recorded image having a high similarity, the similarity between the search key image of the image and the keyword attached to the image. (Obtained by referring to the attribute information table 310) and stored.
  • the search result table 320 may separately hold the image ID of the search key image so that the search key image can be specified, and can be extended to a multi-face configuration so that the search results of the past multiple times can be held.
  • FIG. 6 is a processing sequence diagram between the recording device 102 and the terminal device 103 in assigning keywords from the similar image search result according to an embodiment of the similar image search system of the present invention.
  • an axis 501 represents input / output and processing of the recording apparatus 102 with a downward time axis
  • an axis 502 represents input / output and processing of the terminal apparatus 103 with a downward time axis.
  • Timings 503 to 506 represent timings on a time series, and the screens displayed on the terminal device 103 and the contents of user operations at each timing will be described later.
  • communications 510 to 512 indicate main communications between the recording apparatus 102 and the terminal apparatus 103.
  • Communication 510 and communication 511 are in a request-response relationship, communication 510 includes a similar person search request, and communication 511 includes a similar person search result.
  • One similar person search is executed by this one set of communications.
  • Communication 512 includes a keyword assignment request for an image.
  • the similar person search result included in the communication 511 includes not only the static information of the attribute information table 310 such as the image ID 301 but also the similarity to the search key image calculated during the search processing in the recording apparatus 102.
  • the similarity is a numerical value in the range of 0 to 100, and the closer to 100, the more similar to the search key image.
  • FIG. 8A shows an example of a search screen 801 displayed on the display unit of the terminal device 103 at the initial state before execution of the search, that is, at the timing 503 in FIG.
  • the user starts a search from this search screen 801.
  • 8A includes a reproduction image display area 3001, an image reproduction operation area 3003, a search key image designation area 3004, a search refinement parameter designation area 3008, a search execution area 4017, and a search result display area 4020.
  • a playback image display area 3001 is an area for displaying an image recorded in the recording apparatus 102 as a moving image.
  • the moving image 3002 in the reproduction image display area 3001 is displayed by the function of the reproduction control unit 212 as an image recorded in the recording device.
  • An image reproduction operation area 3003 is an area for performing an operation for reproducing an image recorded in the recording apparatus.
  • Each button constituting the image playback operation area 3003 is assigned a unique playback type.
  • Each button in FIG. 8A is assigned, for example, from the left, playback types of rewind, reverse playback, playback stop, forward playback, and fast forward. When the user appropriately presses each button with the mouse 282, the moving image 3002 is switched to the reproduction type assigned to the button.
  • a search key image designation area 3004 is an area for designating and displaying a search key image. This area includes a search key image 3005, a video designation button 3006, and a file designation button 3007.
  • a search key image 3005 is an image used as a key for similarity search. In the initial state, the search key image is not specified, so that no image is displayed. In the case of non-designation, an indication of non-designation may be provided, such as displaying an image indicating a non-designated state prepared separately.
  • a video designation button 3006 is a button for designating an image displayed in the reproduction image display area 3001 as a search key image 3005 when pressed.
  • the file designation button 3007 is a button for designating an image other than the image recorded in the recording apparatus 102, for example, an image taken with a digital still camera or an image taken with a scanner as the search key image 3005.
  • a dialog box for designating those images is displayed, and the user can designate a desired image there.
  • the search refinement parameter designation area 3008 is an area for designating the type and value (range) of the refinement parameter at the time of search.
  • This area 3008 includes imaging device (camera) designation check boxes 3009, 3010, 3011, and 3012, time designation check boxes 3013 and 3014, and time designation columns 3015 and 3016.
  • Imaging device designation check boxes 3009, 3010, 3011, and 3012 are buttons for designating imaging devices (cameras 1 to 4) to be searched at the time of searching. When this button is pressed, a check mark indicating that it has been selected is displayed. This mark disappears when pressed again, and is repeatedly displayed and hidden when pressed. In the initial state, all imaging devices are targeted for search, and all imaging device designation check boxes are selected.
  • the time designation check boxes 3013 and 3014 are buttons for designating a time range to be searched in the search. As for the display mode, this button is the same as other check boxes.
  • the time designation check box 3013 When the time designation check box 3013 is selected, the lower limit of the time range is given. In the non-selected state, it means that a lower limit is not specified for the time range, that is, an image of the oldest time recorded in the recording device is set as the search target range.
  • an upper limit is given to the time range. In the non-selected state, it means that no upper limit is given to the time range, that is, up to the latest time image recorded in the recording device is set as the search target range.
  • the time designation fields 3015 and 3016 are input fields for designating the above-described upper limit (start time) and lower limit (end time) values. In the initial state, since all time zones are to be searched, all the time specification check boxes are not selected and the time specification column is blank.
  • the search execution area 4017 is an area for instructing search execution. This area includes a keyword specification check box 4021, a keyword specification field 4022, and a keyword assignment button 4023 in addition to a similar person search button 3018 and an appearance event search button 3019.
  • the similar person search button 3018 is a button for instructing execution of a similar person search by the search key image 3005.
  • the appearance event search button 3019 is a button for instructing execution event search execution.
  • an instruction is given to execute the search according to the specified parameter.
  • the keyword designation check box 4021 is a button for designating whether the keyword designation field 4022 is valid or invalid. Regarding the display mode, this button is the same as the imaging device designation check box.
  • the keyword specification field 4022 is an input field for specifying a keyword value. When the similar person search button 3018 or the appearance event search button 3019 is clicked while the keyword specification check box 4021 is checked, those search results are narrowed down to images added with the keyword input in the keyword specification column. If an appearance event search is performed by specifying a narrowing parameter so that all are to be searched, it is practically possible to search using only keywords.
  • the keyword assignment button 4023 is a button for instructing processing (to be described later) for collectively assigning keywords input to the keyword designation field 4022 to the search result image, and is in an invalid state in which it cannot be operated in the initial state.
  • the search result display area 4020 is an area for displaying search results.
  • the search result is displayed by displaying the search result image as a thumbnail. In the initial state, nothing is displayed in the search result display area 4020.
  • the user depresses the video designation button 3006, depresses the imaging apparatus designation check boxes 3009, 3010, and 3012, depresses the time designation check boxes 3013 and 3014, and enters the time designation columns 3015 and 3016. Enter “2009/6/26 15:30:20" and "2009/7/13 12:30:20” respectively.
  • the search screen transits to a state immediately before the similar person search execution, that is, the timing 504 shown in FIG.
  • FIG. 8B shows an example of the search screen 802 in this state.
  • the search key image 3005 displays the person “Mr. A” displayed in the video 3002 as a search key image, and “camera 1, camera 2,
  • the state that 3 imaging devices of “Camera 4” are specified and “From 6/26/15 15:30:20 to 2009/7/13 12:30:20” is specified as the time range to be searched.
  • the user presses the similar person search button 3018. By this pressing, a search is performed on the recording apparatus 102 side, and the search screen transitions to a state immediately after executing the similar person search, that is, the timing 505 in FIG. FIG. 8C shows a search screen 803 in this state.
  • the search result display area 4020 displays search results obtained by executing similar person search using the search key image 3005 as a key.
  • the search results are displayed by displaying the search result images 3031 to 3141 in the search result display area 4020 as thumbnails (catalog display).
  • the search result images 3031 to 3141 are displayed, for example, in the descending order of similarity to the search key image from the top left to the right, and then from the second left to the right.
  • the search result image 3031 has the highest similarity to the search key image 3005, and the search result image 3141 has the lowest similarity (when displayed).
  • the keyword assignment button 4023 is enabled to be operated.
  • the circles and alphabets shown on the search result image in the search result display area 4020 are simplified representations of the person's face and person name.
  • the search result image 3031 indicates that a person “Mr. A” appears.
  • an actual image is displayed in this simplified display portion in the actual system display.
  • a cue playback button 3032, a search key image designation button 3033, and a keyword target check box 4034 are provided in the vicinity of the search result image 3031.
  • the cue playback button 3032 is a button for instructing the start of continuous video playback starting from the search result image, and is indicated by a right-pointing triangle. For example, when the cue / play button 3032 is pressed, the moving image 3002 is switched to the search result image 3031 and the user can view the moving image starting from the search result image.
  • the search key image designation button 3033 is a button for designating the corresponding search result image 3031 as the search key image 3005. For example, when a search key image designation button 3033 is pressed, a search result image 3031 is displayed on the search key image 3005. As a result, the search can be performed again using the designated search result image 3005.
  • the similarity display column 8035 is an area for displaying the similarity to the search key image. For example, a value of 90 is displayed in the similarity display column 8035 of the search result image 3031, and a numerical value is also displayed in each of the similarity display columns of other search results.
  • the keyword assignment check box 4034 is a button for designating a search result image as a keyword assignment target. As for the display mode, this button is the same as other check boxes. For example, when the user presses the keyword assignment check box 4034, a check mark is displayed, and the corresponding search result image 3031 becomes a keyword assignment target.
  • the keyword assignment check boxes of the search result images 3031, 3041, 3051, 3061, 3071, 3081, and 3091 in the similarity display column 8035 that are more than a certain value and 75 or more in FIG. 8C are already selected by default. Note that the example shown in FIG. 8C is a similar person search for “Mr. A”, so that the search result images 3031, 3041, 3051, 3061, 3081, 3091, 3121, 3141 are correct, and the search result image 3071. 3101, 3111 and 3131 are incorrect answers.
  • the keyword target check box 4034 can be set to a non-selected state or all by providing a process for switching whether or not the keyword target check box 4034 is selected depending on the similarity.
  • the correct image can be selected with a smaller number of selection operations compared to the conventional method of selecting. For example, when all the search result images 3031, 3041, 3051, 3061, 3081, 3091, 3121, and 3141 that are correct answers are selected, the selection operation is performed eight times in the method in which all are selected immediately after the similar person search is executed. In the method of making all the selected states immediately after executing the similar person search, an operation of removing the selection four times is necessary. On the other hand, in the method of the present embodiment, a total of three operations, that is, an operation for removing one selection and an operation for selecting twice may be performed.
  • the search screen 803 transitions to a state immediately after execution of keyword assignment, that is, the timing 506 in FIG. FIG. 8D shows an example of the search screen 804 at the timing 506.
  • FIG. 7 shows an example of a processing sequence diagram between the recording device and the terminal device in assigning keywords from the appearance event search result in the similar image search system of the present invention.
  • the appearance event search processing sequence between the recording device 102 and the terminal device 103 in the keyword assignment from the appearance event search result of the present invention will be described with reference to FIG.
  • the axes 501 and 502 in FIG. 7 represent time series that proceed from the top to the bottom of the recording device 102 and the terminal device 103.
  • Timings 703 to 707 represent timings in time series. An example of a screen displayed on the display unit of the terminal device 103 at each timing and an example of user operation content will be described later.
  • communications 711 to 718 indicate main communications between the recording apparatus 102 and the terminal apparatus 103.
  • the communication 711 and the communication 712 have a request-response relationship.
  • the communication 711 includes an appearance event search request, and the communication 712 includes an appearance event search result. Will be executed.
  • the communication 713 includes a similar person search request, and the communication 714 includes a similar person search result.
  • the communication 715 includes a keyword assignment request for the image. The same applies to the communication 718.
  • FIG. 8A, FIG. 8E, FIG. 8F, FIG. 8G, and FIG. 8H show screens for each phase when searching for appearance events displayed on the display device 270 of the terminal device 103 in the similar image search of the present invention.
  • FIG. 8A, FIG. 8E, FIG. 8F, FIG. 8G, and FIG. 8H show screens for each phase when searching for appearance events displayed on the display device 270 of the terminal device 103 in the similar image search of the present invention.
  • FIG. 8A shows the initial state (search screen 801) before execution of search, as described above.
  • This is an example of a search screen on the terminal device 103 at the timing 703 in FIG.
  • the user presses the imaging device specification check boxes 3009, 3010, and 3012, further presses the time specification check boxes 3013 and 3014, and inputs the times in the time specification fields 3015 and 3016, respectively.
  • the search screen transits to the state immediately before the appearance event search execution, that is, the state of the terminal device 103 at the timing 704 in FIG.
  • FIG. 8E shows an example of the search screen 805 in this state.
  • “Camera 1, Camera 2, Camera 4” is designated as the imaging device to be searched, and the time range to be searched is from “2009/6/26 15:30:20 to 2009/7/13 12:30 : Up to 20 ”is indicated.
  • the search key image 3005 is not specified in the search screen 805 in FIG. 8E.
  • the user presses the appearance event search button 3019.
  • the search screen 805 transitions to the state immediately after the appearance event search is executed, that is, the state at the timing 705 in FIG.
  • FIG. 8F shows an example of the search screen 806 in this state.
  • the person rectangle display 8036 is an operable rectangular frame for designating an arbitrary person from a plurality of persons in the image. Initially, the person rectangle display 8013 indicates an area recognized as a person by the person area detection unit 213. One or a plurality of rectangles.
  • the person rectangle display 8036 can be selected by a user operation such as clicking with a mouse. When the selected human face rectangle display 8036 is selected again, it can be brought into a non-selected state. The selected state and the non-selected state may be presented by changing the thickness of the rectangular frame, or may be presented by changing the color.
  • a selectable display such as a person rectangle display 8036 is provided instead of the keyword target check box 4034 in FIG. 8C.
  • the other items are the same as in FIG.
  • the user wants to assign a keyword to the search result image 3031 which is one of the search result images, and the user or another user has previously performed an operation of giving the keyword. To do.
  • the user performs a selection operation by clicking the person rectangle display 8036 of the search result image 3031 with the mouse.
  • the search screen transitions to a person selected state, that is, a state at timing 706 in FIG.
  • the terminal apparatus 103 makes a similar person search request 713 using the person image of Mr. A as a key image in the background.
  • the search key image 3005 is not specified and the search result display area 4020 is also updated as compared with the case where the transition is made from FIG. 8A to FIG. 8B and FIG. 8B to FIG.
  • similar person search request processing is performed in the background.
  • the similar person search result includes the search result table 320 shown in FIG. 5C, and stores the similarity to the attribute information (keyword) and the search key image.
  • the search result table 320 included in the similar person search result 714 includes items to which the keywords “Mr. A”, “Mr. B”, and “Mr. C” are assigned and items that are blank, that is, keywords not assigned.
  • FIG. 8G shows an example of the search screen 806 in the state of timing 706.
  • the person rectangle display 8036 is a thick frame display indicating the selected state.
  • a keyword designation field 4022 is a keyword designation and keyword candidate selection field 8100.
  • a keyword can be input and can be selected from displayed candidates.
  • the keyword designation and candidate selection column 8100 is automatically expanded as shown in FIG. 8G in response to the selection operation in FIG. 8F.
  • the terminal device 103 Upon receiving the similar person search result 714, the terminal device 103 extracts keywords from the search result table 320 in the descending order of similarity, removes keyword duplication, and displays them in the keyword designation and candidate selection field 8100.
  • the user confirms that the name (keyword) “Mr. A” in the keyword candidate display field 8100 matches the person in the search result image 3031, the user clicks “Mr. A” with a mouse or the like. Select.
  • the state transitions to the state at timing 707 in FIG. 7, and the search image 808 in FIG. 8H is displayed.
  • FIG. 8H is a diagram showing a search screen in a state immediately after execution of keyword assignment after appearance event search.
  • a keyword display field 8037 is newly displayed in association with the search result image 3031 to which the keyword is assigned.
  • the keyword display field 8037 is a small tag-like display indicating the assigned keywords, and is arranged in contact with the left side of the person rectangular display 8036 in this example.
  • the user can select one or more of the search result images at the same time and perform the keyword assignment operation.
  • the user's keyword assignment operation in one appearance event search is completed, the user can change the conditions and perform the appearance event search again. In this way, even if the user does not know the exact kanji or spelling of the name “Mr.
  • the similar image search system shown in the present embodiment enables the user to assign keywords to the result of the similar image search with a smaller number of selected result images.
  • a user assigns a keyword in an appearance event search it is possible to assign a keyword without having to input an accurate keyword with the keyboard every time.
  • the imaging device, the recording device, and the terminal device are not limited to one each, and a plurality of imaging devices and terminal devices may be connected as shown in FIG.
  • the narrowing parameters are not limited to the camera and time, but various parameters such as operating states of various sensors and facilities provided in the camera and news distributed from a communication company can be used.
  • a similar person search request is made after selecting a search result after an appearance event search.
  • processing equivalent to that requested for the similar person search in the recording apparatus 102 at the time of appearance event search request 711 is performed, and appearance event search results 712 including keyword assignment candidates based on similarities for the respective search result images are included.
  • an embodiment may be adopted in which a similar person search request that is performed each time a search result is selected is omitted.
  • the keyword and similarity are displayed in the keyword candidate display field 8100, but the number of cases may be included.
  • “Mr. A” has three results, “Mr. B” and “Mr. C” each have one result, and this is displayed as a keyword candidate display field. It may be an embodiment in which the reference information of the user's judgment is increased by displaying it in 8100.
  • the similarity is also transmitted with the keyword non-assigned search result, but the embodiment in which the keyword non-assigned is excluded from the communication may be used.
  • the person detection process related to person search, the person feature amount extraction process, and the like have been described as being performed on the recording apparatus.
  • the apparatus is implemented on a separate apparatus from the networked recording apparatus. You may make it do.
  • the keyword is shown as a character string.
  • the keyword may be executed with a specific number or symbol string.
  • the present invention is suitable for the purpose of providing a desired image group by removing impurities using human vision from the result of similar image search by a computer.
  • the video on a network It can be used for editing and searching for products sold online.
  • 102 Recording device, 103: Terminal device, 110: Keyword recording unit, 111: Keyword search unit, 112: Keyword assignment request transmission unit, 200: Network, 201: Imaging device, 202: Recording device, 203: Terminal device, 210 : Image transmission / reception unit, 211: Image recording unit, 212: Playback control unit, 213: Person area detection unit, 214: Person feature amount extraction unit, 215: Person feature amount recording unit, 216: Attribute information recording unit, 217: Request receiving unit, 218: Similar person search unit, 219: Appearance event search unit, 220: Search result transmission unit, 221: Search request transmission unit, 222: Search result reception unit, 223: Search result display unit, 224: Playback image display unit, 225: Screen Operation detection unit, 240: bus, 241: imaging unit, 242: main storage unit, 243: encoding unit, 244: network I / F, 250: bus, 251: CPU, 252: main storage unit, 253: auxiliary storage 254

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

キーワード付与機能の向上、検索の容易性の向上した類似画像検索システムの提供する類似画像検索システムは、撮像装置、前記撮像装置から入力された画像データを記録媒体に記録する録画装置、および端末装置から構成される。前記録画装置は、録画中に前記画像データの特徴量を抽出して保持する。指定された検索キー画像の特徴量に対して類似度が高い画像データを検索して表示するときは、検索された複数の画像データのうち任意の一部に同じキーワードを一度に付与する手段と、前記一部の画像データの選定を類似度に応じて補助する手段を設ける。類似度を用いずパラメータを指定するイベント検索であっても、検索された画像データをキー画像としてバックグラウンドで類似画像検索を行い、類似画像に既に付与されているキーワードを、当該検索された画像データに付与する候補としてユーザに提示する。

Description

類似画像検索システム
 本発明は、類似画像検索システム、および、類似画像検索方法に係り、特に、映像監視システムの人物の検索のためのユーザインタフェースの使い勝手が改善された類似画像検索システム、および、類似画像検索方法に関する。
 従来から、ホテル、ビル、コンビニエンスストア、金融機関、ダムや道路といった不特定多数の人が訪れる施設には、犯罪抑止や事故防止等の目的で、映像監視システムが設置されている。これは、監視対象の人物等をビデオカメラ等の撮像装置で撮影し、その映像を、管理事務所や警備室等の監視センタに伝送し、常駐する監視者がそれを監視し、音声による警告等の必要な措置をしたり、映像を記録したりするものである。
 映像監視システムにおいて、映像を記録するための記録媒体には、従来のビデオテープ媒体から、ハードディスクドライブ(HDD)に代表されるランダムアクセス媒体が用いられる事例が増えている。さらに近年ではこのような記録媒体の大容量化が進んでいる。
 記録媒体の大容量化は、記録できる映像の量を飛躍的に増大させ、より多地点や長時間の記録を可能にしつつある反面、記録画像を目視でチェックする負担の増加が問題として顕在化した。
 このような背景から、所望の映像をより簡単に見つけ出すための検索機能を備える映像監視システムが普及しつつある。特に、近年では、映像中の特定の事象(イベント)の発生に対して、画像認識技術を用いてリアルタイムに自動検知して映像と共に記録し、事後にそれらのイベントを検索可能とする、より高度な検索機能を備えたシステムが登場しつつある。その中の代表的な一つに人物検索機能がある。
 人物検索機能とは、映像中への人物の登場を自動検知の対象として、リアルタイムに記録し、事後に記録画像中から人物登場画像を探し出せる機能である。
 機能面から人物検索機能は、以下の2種類に大別される。
 1つ目は、登場イベント検索機能である。登場イベント検索機能は、映像中への人物の登場(イベント)の有無を、単純に探し出す機能である。検索結果にはイベントの有無に加え、イベント有と判定された場合には、そのイベント数と各イベントの発生時刻やイベントを撮影した撮像装置番号、撮影した画像(人物登場画像)等を提示する。なお、この検索のクエリ(Query)には、イベント発生時刻や撮像装置番号等の検索対象範囲を絞込むための情報として与える場合が多い。以下では、この検索対象範囲を絞込むための情報を、「絞込みパラメータ」ということにする。
 2つ目は、類似人物検索機能である。上述の登場イベント検索機能が、登場人物を特定しない検索であるのに対し、こちらはユーザが指定する特定人物が、他の時間、あるいは他の地点の撮像装置で撮影されていないかどうかを、記録画像中から探し出す機能である。検索結果には、特定人物が映った他の画像の有無に加え、有の場合には、その数と撮影時刻、撮像装置番号、撮影した画像(人物登場画像)、後述の類似度等を返す。
 特定人物の指定は、探したい人物が映った画像(以降、検索キー画像)1つをユーザが指定することで実施される。検索キー画像は、記録画像や外部装置からの任意の画像から指定される。検索は、この検索キー画像中の人物の画像特徴量を画像認識技術により抽出し、記録画像中の人物の画像特徴量と照合し、その類似性(類似度)を求め、同一人物判定を実施することにより実現される。記録画像中の人物特徴量の抽出と記録は、映像録画時等の別タイミングにて予め実施しておく。この検索のクエリにおいても、絞込みパラメータを与えることが可能である場合が多い。
 両検索機能のどちらにおいても、検索結果には記録画像を取り出すためのリンケージ情報が付与されており、検索結果から記録画像の頭出し再生が可能になっている。
 特許文献1には、検索結果の複数の画像から任意のものを選択して、別の表示領域に保持しておき、それを次の検索キー画像に利用できるようにし、ユーザが適切な検索キー画像の一群を作れるようにした画像検索装置が開示されている。
 また、特許文献2には、ユーザの利便性をさらに高める類似画像検索システムが記載されている。この特許文献2では、ユーザは、類似画像検索の結果に対して、人名や特徴などのキーワードを付与する。画像検索には、二種類の検索方法が用意されており、キーワードを付与された画像を検索の対象から除く類似画像検索と、キーワードを付与された画像のみを検索の対象とする登場イベント検索がある。ユーザは、類似画像検索を複数回行い、充分多くの画像にキーワードを付与した判断した後に、登場イベント検索を行う。
特開2009-123196号公報 特開2011-090476号公報
 特許文献2に示すようなキーワード付与機能は、類似画像検索を行う場合に非常に便利である。しかしながら、現状の類似人物検索におけるキーワード付与機能は、ユーザの入力負荷が大きいという問題がある。即ち、ユーザは類似画像検索の結果に対し、検索結果から多数の正解画像を選択してキーワードの付与を行う必要がある。
 また、登場イベント検索の結果に対してキーワードを付与したい場合には、キーワードを、その都度キーボードから入力する手間をかける必要がある。例えば、当該システムの運用において、例えば名字と名前を合わせたフルネームをキーワードとして入力することと規定されていた場合には、ユーザはそのフルネームを完全に知っておく必要がある。つまり、以前に入力したことはあるが、姓を覚えているが名を忘れてしまった場合や漢字やスペルを忘れてしまった場合に、別途調査して完全な情報を手に入れないと入力できない問題がある。
 本発明は、上記のような問題に鑑み、キーワード付与機能の向上、検索の容易性の向上した類似画像検索システムの提供を目的とする。
 本発明の1つの側面は、撮像装置、前記撮像装置から入力された画像データを記録媒体に記録する録画装置、および端末装置から構成される類似画像検索システムにおいて、前記録画装置は、前記画像データの特徴量を抽出して、画像の類似度を評価し、検索キー画像を指定して、指定された当該検索キー画像に対して類似度が高い画像データを検索し、各々の画像データにキーワードを付与する手段と、前記キーワードの付与候補を動的に提示する手段を有するものである。
 本発明の他の側面は、前記端末装置は、前記録画装置が検索した結果から、類似度が高い画像を自動的に選択状態にして表示することを特徴とする。
 本発明の他の側面は、撮像装置、前記撮像装置から入力された画像データを記録媒体に記録する録画装置、および端末装置から構成される類似画像検索システムにおいて、前記端末装置は、前記録画装置が当該登場イベント検索手段を実行した結果を表示し、前記録画装置は、前記端末装置に表示された画像データの一覧から、ユーザによって選択された画像を検索キー画像として類似度が高い画像データを検索し、類似画像検索結果にキーワード付与済みの結果が含まれていれば、そのキーワードを付与候補として表示する、画像の類似度によらず画像データの一覧を提示する登場イベント検索する手段を有するものである。
 本発明によれば、類似画像検索の結果から、多数の画像を選択して、一度にキーワードを付与することができる。
本発明の類似画像検索システムの一実施例のシステム構成図。 一実施例に用いる撮像装置のハードウェア構成図。 一実施例に用いる録画装置のハードウェア構成図。 一実施例に用いる端末装置のハードウェア構成図。 一実施例に用いられるデータ構造を示す図。 一実施例に用いられるデータ構造を示す図。 一実施例に用いられるデータ構造(検索結果テーブル)を示す図。 一実施例に係る、類似画像検索結果からのキーワード付与における録画装置102と端末装置103の間の処理シーケンス図。 一実施例に係る、登場イベント検索結果からのキーワード付与における録画装置と端末装置の間の処理シーケンス図。 一実施例に係る、検索実行前の初期状態における検索画面を示す図。 類似人物検索実行直前状態における検索画面を示す図。 類似人物検索実行直後状態における検索画面を示す図。 キーワード付与実行直後状態における検索画面を示す図。 登場イベント検索実行直前状態における検索画面を示す図。 登場イベント検索実行直後状態における検索画面を示す図。 登場イベント検索後のユーザよる人物選択操作後の検索画面を示す図。 登場イベント検索後のキーワード付与実行直後状態における検索画面を示す図。
 本発明の類似画像検索システムは、例えば、撮像装置、撮像装置から送信された画像データを記録する録画装置、および録画装置に記録された画像データから所望の画像を検索し、当該検索した画像を要求して表示する端末装置から構成される。
 録画装置は、当該録画装置の各部の制御および所定の機能を実現するための第1のプログラムを実行する第1のCPUと、検索のための画像データおよび第1のCPUで実行する前記第1のプログラムをロードして格納する第1の主記憶部と、撮像装置から受信した画像データおよび第1のプログラムを格納する第1の補助記憶部とからなる。
 また端末装置は、例えば、当該端末装置の各部の制御および所定の機能を実現するための第2のプログラムを実行する第2のCPUと、表示装置に表示するための画像データや第2のCPU261で実行する第2のプログラムをロードして格納するための第2の主記憶部と、検索キーワード、画像データ、および第2のプログラムを格納する第2の補助記憶部とからなる。
 また例えば、第1のCPUは、撮像装置から受信した画像データに対し画像認識技術を用いた人物検出を行い、画像中の人物の存在判定をし、人物が存在する場合には、その領域の座標算出を行う人物領域検出部、人物領域検出部で検出した領域に対して画像認識技術を用いて特徴量算出を行う人物特徴量抽出部、人物特徴量抽出部で算出した特徴量を主記憶部に記録する人物特徴量記録部、端末装置からの検索要求の受信を行う要求受信部、要求受信部にて受信した検索要求に応じて検索を行う検索部、検索部から得た検索結果を端末装置に送信する検索結果送信部、要求受信部が前記端末装置から受信したキーワード付与要求に基づきキーワードを主記憶部に記録するキーワード記録部、要求受信部が受信した検索要求データ中にキーワードが含まれていた場合には、補助記憶部に記録された画像データについてキーワードで検索を行うキーワード検索部を備える。
 また例えば、第2のCPUは、検索要求の録画装置への送信を行う検索要求送信部、検索結果画像および検索結果データを録画装置から受信する検索結果受信部、検索結果受信部にて受信した検索結果画像を画面表示する検索結果表示部、録画装置から入力された画像データを連続動画表示する再生画像表示部、ユーザによる操作内容の検知および取得を行う画面操作検知部、キーワード付与要求を前記録画装置に送信するキーワード付与要求送信部を備える。
 さらに、本発明の類似画像検索システムの検索要求は、類似画像検索要求と登場イベント検索要求である。
 以下、本発明の一実施形態に係る類似画像検索システムを、図1~図7および図8A~図8Hを用いて説明する。
 まず、図1~図4を用いて、一実施形態に係る類似画像検索システムの構成について説明する。
 図1は、本発明の類似画像検索システムの一実施例のシステム構成図である。
 類似画像検索システムは、図1に示すように、ネットワーク200に、撮像装置201、録画装置102、端末装置103が接続され、互いに通信可能な状態で構成される。
 ネットワーク200は、各装置を相互に接続してIP(Internet Protocol)通信を行う通信手段であり、専用ネットワークやイントラネット、インターネット、無線LAN(Local Area Network)等である。
 撮像装置201は、CCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)素子等で撮像した画像にデジタル変換処理を施し、変換処理された画像データを、ネットワーク200を介して録画装置へ送信するネットワークカメラや監視カメラ等の装置である。
 録画装置102は、ネットワーク200を介して撮像装置201から入力された画像データをHDD等の記録媒体に記録するデジタルビデオレコーダ等の装置である。また、本装置には、本発明の特徴的である人物検索機能を搭載している。
 録画装置102は、機能構成として、画像送受信部210、画像記録部211、再生制御部212、人物領域検出部213、人物特徴量抽出部214、人物特徴量記録部215、属性情報記録部216、要求受信部217、検索部、検索結果送信部220、キーワード記録部110、キーワード検索部111の各処理部よりなる。検索部は、類似人物検索部218および登場イベント検索部219で構成される。
 画像送受信部210は、撮像装置201からの入力画像データの受信、端末装置103への出力画像データの送信を行う。
 画像記録部211は、入力画像データの記録媒体への書込みや出力画像データの記録媒体からの読出しを行う。書込みの際には、画像データに加え、画像データを読出す際の情報となる画像ID(後述)も併せて記録する。
 再生制御部212は、画像記録部211から読み出した映像の端末装置103への再生を制御する。
 人物領域検出部213は、入力画像データに対し画像認識技術を用いた人物検出を行い、画像中の人物(顔)の存在判定をし、人物が存在する場合には、その領域の座標算出を行う。
 人物特徴量抽出部214は、人物領域検出部212で検出した領域に対して画像認識技術を用いて特徴量算出を行う。ここで算出する人物特徴量とは、例えば、目、鼻、口、頬骨等に対応して抽出される特徴点の配置関係であったり、人物全身の輪郭の形状や、衣服、皮膚の色、歩容(どの脚をどのようにどんなタイミングで動かすかといった脚の捌き方)等、公知の特徴量である。通常、これらの特徴量は、多次元のベクトル(数百個の数値の組み合わせ)で表現され、撮影方向や倍率に対して不変なものが好まれる。
 人物特徴量記録部215は、人物特徴量抽出部214で算出した特徴量の記録媒体への書込みと読出しを行う。画像記録部における画像データの記録媒体と本処理部における人物特徴量の記録媒体とは同一であっても別個であってもよい。
 属性情報記録部216は、画像データに関連する属性情報の記録媒体への書込みと読出しを行う。属性情報とは、例えば、画像の撮影時刻や撮像装置番号等である。
 要求受信部217は、端末装置103からの検索要求やキーワード付与要求の受信し、類似人物検索部218等に渡す。検索要求には、類似画像検索要求と、登場イベント検索要求がある。
 類似人物検索部218は、要求受信部217にて受信した要求が類似人物検索要求であった場合に、類似画像の検索を行う。
 登場イベント検索部219は、要求受信部217にて受信した要求が登場イベント検索要求であった場合に、登場イベントの検索を行う。
 検索結果送信部220は、類似人物検索部218や登場イベント検索部219から得た類似人物検索結果や登場イベント検索結果の端末装置への送信を行う。
 キーワード記録部110は、要求受信部217にて受信したキーワード付与要求に基づくキーワードの記録媒体への書込みと読出しを行う。
 キーワード検索部111は、要求受信部217にて受信した検索要求データ中にキーワードが含まれていた場合に、キーワード検索を行う。
 端末装置103は、機能構成として、検索要求送信部221、検索結果受信部222、検索結果表示部223、再生画像表示部224、画面操作検知部225、キーワード付与要求送信部112の各処理部にて構成される。端末装置103は、ネットワーク接続を有する一般のPC(パーソナルコンピュータ)や携帯端末、専用の検索端末で実現される。
 検索要求送信部221は、検索要求の録画装置への送信を行う。類似人物検索の場合、検索要求データには、検索キー画像が含まれる。また、検索要求データには、絞込みパラメータを含めることも可能である。
 検索結果受信部222は、検索結果の録画装置からの受信を行う。検索結果として受信するデータには、録画装置において、類似人物検索、あるいは、登場イベント検索を実施して得られた画像の集合が含まれる。集合を構成する個々の画像は、録画装置に記録された映像から画像サイズ縮小処理等を施して生成される。以下、この個々の画像を「検索結果画像」、検索結果として送受信するデータを「検索結果データ」と称する。
 検索結果表示部223は、検索結果受信部にて受信した検索結果の画面表示を行う。表示される画面例については後述する。
 再生画像表示部224は、録画装置から入力された画像データの画面への連続動画表示を行う。
 画面操作検知部225は、ユーザによる操作内容の検知および取得を行う。
 キーワード付与要求送信部112は、キーワード付与要求の録画装置への送信を行う。
 図2は、本発明の類似画像検索システムの一実施例に用いる撮像装置のハードウェア構成図である。撮像装置201は、撮像部241、主記憶部242、符号化部243、ネットワークインタフェース(I/F)244が、バス240で結合されて構成される。
 撮像部241は、レンズにより撮像素子に結像した光をデジタルデータに変換する。符号化部243は、撮像部241が出力するデジタルデータを符号化して、JPEG(Joint Photographic Experts Group)やMPEGなどの画像データに変換する。主記憶部242は、撮像したデジタルデータ、符号化された画像データを記憶する。ネットワークI/F244は、ネットワーク200を介して、主記憶部242上の画像データを録画装置102に送信するためのインタフェースである。
 図3は、本発明の類似画像検索システムの一実施例に用いる録画装置のハードウェア構成図である。録画装置102のハードウェア構成としては、図3に示すように、CPU(Central Processing Unit)251、主記憶部252、補助記憶部253、ネットワークI/F254が、バス250で結合された形態である。
 CPU251は、録画装置102の各部の制御と、機能を実現するためのプログラムの実行を行う。主記憶部252は、DRAM(Dynamic Random Access Memory)などの半導体装置で実現され、検索のための画像データやCPU251で実行するプログラムをロードして格納するための中間的なメモリである。補助記憶部253は、HDDやフラッシュメモリなどで実現され、主記憶部252より大容量のメモリであり、画像データやプログラムを格納する。ネットワークI/F254は、ネットワーク200を介して、撮像装置201からの画像データを受信したり、端末装置103から検索キーワードを受信したり、端末装置103に画像データを送信するためのインタフェースである。
 図4は、本発明の類似画像検索システムの一実施例に用いる端末装置のハードウェア構成図である。端末装置103のハードウェア構成としては、図4に示すように、CPU261、主記憶部262、補助記憶部263、表示I/F264、入出力I/F265、ネットワークI/F266が、バス260で結合された形態である。また、表示I/F264は、表示装置270と接続し、入出力I/F265は、キーボード280やマウス282などの入出力装置と接続する。
 図4において、CPU261は、端末装置103の各部の制御と、機能を実現するためのプログラムの実行を行う。主記憶部262は、DRAMなどの半導体装置で実現され、表示のための画像データやCPU261で実行するプログラムを格納するためのメモリである。補助記憶部263は、フラッシュメモリなどで実現され、プログラムや設定情報(検索キーワード、画像データ)を格納する。表示I/F264は、表示装置270と接続するためのインタフェースである。入出力I/F265は、キーボード280やマウス282などの入出力装置と接続するためのインタフェースである。ネットワークI/F266は、ネットワーク200を介して、録画装置102からの画像データを受信したり、録画装置102に検索キーワードを送信したり、録画装置102から画像データを受信するためのインタフェースである。表示装置270は、例えば、LCD(Liquid Crystal Display)などのグラフィックディスプレーであり、画像や動画を表示部(スクリーン)に表示する。ユーザは、表示装置270の表示部に表示された画像を、キーボード280やマウス282などの入出力装置を操作して、例えばGUI(Graphical User Interface)操作することによって、端末装置103、および、類似画像検索システムを操作する。端末装置103は、これらの構成によりWebブラウザの機能を実現する。
 図5Aから図5Cは、本発明の一実施形態に係る類似画像検索システムに用いられるデータ構造を模式的に示す図である。
 本発明の一実施形態に係る類似画像検索システムに用いられる重要なデータ構造としては、図5Aに示すようなフレームテーブル300と、図5Bに示すような属性情報テーブル310と、図5Cに示すような検索結果テーブル320とがある。
 フレームテーブル300は、映像データを格納するためのテーブルである。フレームテーブル300には、画像ID301が付され、付された画像IDと関連付けられたフレームデータ302が記録される。フレームデータ302は、例えば、JPEG形式のデータなどで記録される。
 属性情報テーブル310は、画像データを解析した結果の画像についての属性情報データを格納するためのテーブルである。属性情報テーブル310には、登録ID311が識別のために付与され、付与された登録ID311と関連付けられて、画像ID312、特徴量313、カメラID314、時刻情報315、およびキーワード316が記録される。
 例えば、付与された登録ID311と関連付けられて、フレームテーブル300に格納されたフレームの1つが、画像ID312により指定される。また、その画像の特徴量は特徴量313に、撮像した撮像装置201のIDはカメラID314に、フレームの撮像時刻に関する情報は時刻情報315に、フレームに付与されたキーワードはキーワード316に、と対応する各々のフィールドに格納される。
 なお、録画のフレームレートが仮に30fps(Frames Per Second)のときに、画像の解析を行うのは、その画像内で人がいると認識された部分であり、また一旦検出された後は、10フレーム程度の間隔で行ってもよい。つまり、必要とされる連続解析能力は、3fps程度と考えられている。
 検索結果テーブル320は、1回の検索結果に関する情報を保持するテーブルであり、類似度が高かった記録画像について、その画像の検索キー画像との間の類似度と、その画像に付されたキーワード(属性情報テーブル310を参照して取得される)とが、対応付けて格納される。検索結果テーブル320は、検索キー画像を特定できるように検索キー画像の画像IDを別途保持してもよく、過去複数回の検索結果を保持できるよう、多面構成に拡張できる。
 次に図6、図8A、図8B、図8C、および図8Dを用いて、本発明の類似画像検索における類似度が高い検索結果画像を自動的に選択状態にして提示する選択方式について説明する。図6は、本発明の類似画像検索システムの一実施例に係る、類似画像検索結果からのキーワード付与における録画装置102と端末装置103の間の処理シーケンス図である。
 図6において、軸501は、録画装置102の入出力や処理を、下向きの時間軸で表し、軸502は、端末装置103の入出力や処理を、下向きの時間軸で表している。また、タイミング503~506は、それぞれ時系列上でのタイミングを表しており、各タイミングにおいて端末装置103上に表示される画面やユーザ操作の内容については後述する。
 図6において、通信510~512は、録画装置102と端末装置103間の主な通信を示している。
 通信510と通信511は、リクエストとレスポンスの関係にあり、通信510は、類似人物検索要求を含み、通信511は、類似人物検索結果を含む。この1組の通信により、1回の類似人物検索が実行されることになる。
 通信512は、画像に対するキーワード付与要求を含む。
 ここで、通信511に含まれる類似人物検索結果には、画像ID301等の属性情報テーブル310の静的な情報だけでなく、録画装置102における検索処理時に算出された検索キー画像に対する類似度を含むようにする。
 本実施例では類似度は0~100までの範囲の数値とし、100に近いほど検索キー画像に似た画像であることを表すものとする。
 次に、図8A~図8Dを用いて、本発明の一実施形態に係る類似画像検索システムの端末装置103におけるユーザ操作の概念について説明する。
 図8Aは、検索実行前の初期状態、すなわち、図6のタイミング503における端末装置103の表示部に表示される検索画面801の一実施例である。ユーザは、この検索画面801から検索を開始する。
 図8Aの検索画面801は、再生画像表示領域3001、画像再生操作領域3003、検索キー画像指定領域3004、検索絞込パラメータ指定領域3008、検索実行領域4017、および、検索結果表示領域4020よりなる。
 図8Aの検索画面801において、再生画像表示領域3001は、録画装置102に記録された画像を動画像として表示する領域である。また再生画像表示領域3001の動画3002は、録画装置に記録された画像が再生制御部212の機能により表示される。
 画像再生操作領域3003は、録画装置に記録された画像を再生操作する領域である。 画像再生操作領域3003を構成する各ボタンには、それぞれ固有の再生種類が割当てられている。図8Aにおける各ボタンには、例えば左から、巻戻し、逆再生、再生停止、順再生、早送りの再生種類が割当てられている。ユーザが各ボタンをマウス282で適宜押下することにより、動画3002がボタンに割当てられた再生種類に切り替る。
 検索キー画像指定領域3004は、検索キー画像の指定と表示を行う領域である。本領域は、検索キー画像3005と、映像指定ボタン3006、ファイル指定ボタン3007よりなる。
 検索キー画像3005は、類似検索のためのキーとする画像である。初期状態においては、検索キー画像は、未指定であるので、画像表示はされていない状態となる。なお、未指定の場合に、別途用意した未指定状態を示す画像を表示する等、未指定である旨の表記をするようにしてもよい。
 映像指定ボタン3006は、押下時に再生画像表示領域3001に表示されている画像を、検索キー画像3005として指定するボタンである。
 ファイル指定ボタン3007は、録画装置102に記録されている画像以外の画像、例えば、デジタルスチルカメラで撮影した画像やスキャナで取込んだ画像等を、検索キー画像3005として指定するボタンである。このボタン3007を押下すると、それらの画像をファイル指定するダイアログボックスが表示され、ユーザはそこで所望の画像を指定することができる。
 検索絞込パラメータ指定領域3008は、検索の際の絞込パラメータの種類とその値(範囲)を指定する領域である。この領域3008は、撮像装置(カメラ)指定チェックボックス3009、3010、3011、3012と、時刻指定チェックボックス3013、3014、時刻指定欄3015、3016から構成される。
 撮像装置指定チェックボックス3009、3010、3011、3012は、検索の際に検索対象とする撮像装置(カメラ1~4)を指定するボタンである。本ボタンは、押下すると選ばれたことを示すチェックマークがそれぞれ表示される。このマークは再押下すると非表示となり、押下で表示と非表示を繰り返す。
 初期状態においては、全撮像装置を検索対象とするため、撮像装置指定チェックボックスは全て選択状態となる。
 時刻指定チェックボックス3013、3014は、検索の際に検索対象とする時刻範囲を指定するボタンである。表示の態様については本ボタンも他のチェックボックスと同様である。時刻指定チェックボックス3013を選択状態にした場合には時刻範囲の下限を与える。非選択状態にした場合には、時刻範囲に下限を指定しない、即ち、録画装置に記録された最も古い時刻の画像までを検索対象範囲とすることを意味する。
 同様に時刻指定チェックボックス3014を選択状態にした場合には時刻範囲に上限を与える。非選択状態にした場合には、時刻範囲に上限を与えない、すなわち、録画装置に記録された最も新しい時刻の画像までを検索対象範囲とすることを意味する。
 時刻指定欄3015、3016は、上述の上限(先頭時刻)と下限(末尾時刻)の値を指定する入力欄である。
 初期状態においては、全時間帯を検索対象とするため、時刻指定チェックボックスは全て非選択状態、時刻指定欄は空欄とする。
 検索実行領域4017は、検索実行を指示する領域である。本領域は、類似人物検索ボタン3018と登場イベント検索ボタン3019に加え、キーワード指定チェックボックス4021とキーワード指定欄4022、キーワード付与ボタン4023よりなる。
 類似人物検索ボタン3018は、検索キー画像3005による類似人物検索実行を指示するボタンである。検索絞込パラメータ指定領域3008にてパラメータが指定されている場合には、指定されたパラメータに従って検索の実行をすることを指示する。
 登場イベント検索ボタン3019は、登場イベント検索実行を指示するボタンである。検索絞込パラメータ指定領域3008にてパラメータが指定されている場合には、指定されたパラメータに従って検索の実行をすることを指示する。
 キーワード指定チェックボックス4021は、キーワード指定欄4022の有効または無効を指定するボタンである。表示の態様については本ボタンも撮像装置指定チェックボックスと同様である。
 キーワード指定欄4022は、キーワードの値を指定する入力欄である。
 キーワード指定チェックボックス4021がチェックされている状態で類似人物検索ボタン3018又は登場イベント検索ボタン3019をクリックすると、それらの検索結果が、キーワード指定欄に入力されたキーワードが付加された画像に絞られる。全てが検索対象となるように絞込みパラメータを指定して登場イベント検索すれば、実質的に、キーワードのみで検索できる。
 キーワード付与ボタン4023は、キーワード指定欄4022に入力されたキーワードを検索結果画像に一括付与する処理(後述する)を指示するボタンであり、初期状態においては、操作できない無効化状態となっている。
 検索結果表示領域4020は、検索結果を表示する領域である。検索結果の表示は、検索結果画像をサムネイル表示することにより実施する。初期状態においては、検索結果表示領域4020には何も表示されない。
 ここで、ユーザは、映像指定ボタン3006を押下し、また、撮像装置指定チェックボックス3009、3010、3012を押下し、さらに、時刻指定チェックボックス3013、3014を押下し、時刻指定欄3015、3016にそれぞれ「2009/6/26 15:30:20」「2009/7/13 12:30:20」と入力する。
 この操作により、検索画面は、類似人物検索実行直前状態、すなわち、図6に示されるタイミング504に遷移する。図8Bは、この状態における検索画面802の一実施例を示したものである。
 図8Bの検索画面802において、検索キー画像3005には、動画3002に表示された人物「Aさん」が検索キー画像として表示され、また、検索対象としたい撮像装置として「カメラ1、カメラ2、カメラ4」の3つの撮像装置が指定され、検索対象としたい時刻範囲として「2009/6/26 15:30:20から2009/7/13 12:30:20まで」と指定されている状態を示している。
 ここで、ユーザが、類似人物検索ボタン3018を押下する。この押下によって録画装置102側で検索が行われ、検索画面は、類似人物検索実行直後状態、即ち、図6におけるタイミング505に遷移する。図8Cは、この状態における検索画面803を示したものである。
 図8Cの検索画面803において、検索結果表示領域4020には、検索キー画像3005をキーとして類似人物検索を実行し得られた検索結果を表示している。検索結果の表示は、検索結果画像3031~3141を検索結果表示領域4020にサムネイル表示(カタログ表示)して行う。
 検索結果画像3031~3141は、例えば、最上段左から右へ、次に2段目左から右へと検索キー画像に対する類似度が下がる順に並べて表示する。この表示例においては、検索結果画像3031が検索キー画像3005に対し最も類似度が高く、検索結果画像3141が(表示されている中では)最も類似度が低いということを示している。
 また、検索結果表示領域4020にすくなくとも1つの検索結果画像が表示されたことで、キーワード付与ボタン4023が、操作できる有効化状態になる。
 図8Cに示された表記において、検索結果表示領域4020内の検索結果画像上に図示した円とアルファベットは、人物の顔と人物名称を簡略表示したものである。
 例えば、検索結果画像3031には、人物「Aさん」が登場することを示している。この簡略表示している部分には、もちろん、実際のシステムでの表示では実画像が表示される。
 検索結果画像3031の周辺には、頭出し再生ボタン3032と検索キー画像指定ボタン3033、キーワード対象チェックボックス4034を備える。他の検索結果画像でも同様である。
 頭出し再生ボタン3032は、検索結果画像を先頭とした連続動画再生開始を指示するボタンであり、右向きの三角形で示される。例えば、頭出し再生ボタン3032を押下すると動画3002が検索結果画像3031に切り替り、その検索結果画像を先頭として始まる動画をユーザは、視聴することができる。
 検索キー画像指定ボタン3033は、対応する検索結果画像3031を検索キー画像3005として指定するボタンである。例えば、検索キー画像指定ボタン3033を押下すると、検索結果画像3031が、検索キー画像3005に表示される。これにより、指定された検索結果画像3005を使って、画像の再検索を実施することができる。
 類似度表示欄8035は、検索キー画像に対する類似度を表示する領域である。検索結果画像3031の類似度表示欄8035には、例えば、90という値が表示されており、他の検索結果の類似度表示欄にもそれぞれ数値が表示されている。
 キーワード付与チェックボックス4034は、キーワード付与の対象となる検索結果画像を指定するボタンである。表示の態様については本ボタンも他のチェックボックスと同様である。例えば、ユーザが、キーワード付与チェックボックス4034を押下すると、チェックマークが表示され、対応する検索結果画像3031が、キーワード付与対象となる。類似度表示欄8035の数値が一定以上、図8Cにおいては75以上の検索結果画像3031、3041、3051、3061、3071、3081、3091のキーワード付与チェックボックスは、デフォルトで既選択状態になる。
 なお、図8Cに示された例は、「Aさん」を目的にした類似人物検索なので、検索結果画像3031、3041、3051、3061、3081、3091、3121、3141が正解で、検索結果画像3071、3101、3111、3131が不正解である。
 類似人物検索実行直後(タイミング505)の状態において、キーワード対象チェックボックス4034を、本発明のように類似度によって選択状態か否かを切り替える処理を設けることによって、全て非選択状態にする方法や全て選択状態にする従来の方法と比較し、少ない選択操作数で正解画像を選択できる。
 例えば、正解である検索結果画像3031、3041、3051、3061、3081、3091、3121、3141を全て選択する場合、類似人物検索実行直後状態に全て非選択状態にする方法では、8回の選択操作が必要であり、類似人物検索実行直後状態に全て選択状態にする方法では4回の選択を外す操作が必要である。一方、本実施形態の方法では1回の選択を外す操作と2回の選択する操作の計3回の操作で良い。
 また、ユーザがキーワード指定チェックボックス4021を押下し、キーワード指定欄4022に「Aさん」と入力し、さらにキーワード付与ボタン4023を押下する。ユーザのこの操作によって、検索画面803は、キーワード付与実行直後の状態、即ち、図6のタイミング506に遷移する。図8Dは、タイミング506における検索画面804の一例を示したものである。
 次に図7、図8A、図8D、図8F、図8G、図8H、および図5Cを用いて、本発明の登場イベント検索における類似度を用いたキーワードの付与候補を提示する方式について説明する。図7は、本発明の類似画像検索システムにおいて、登場イベント検索結果からのキーワード付与における録画装置と端末装置の間の処理シーケンス図の一実施例を示すである。
 図7を用いて、本発明の登場イベント検索結果からのキーワード付与における録画装置102と端末装置103の間の登場イベント検索の処理シーケンスを説明する。
 ここで、図6と同様に、図7の軸501と軸502は、録画装置102、端末装置103の上部から下部へ進む時系列を表している。また、タイミング703~707は、それぞれ時系列上でのタイミングを表している。各タイミングにおける端末装置103の表示部上に表示される画面の一例や、ユーザ操作内容の一例については後述する。
 図7において、通信711~718は、録画装置102と端末装置103間の主な通信を示している。
 通信711と通信712は、リクエストとレスポンスの関係にあり、通信711には登場イベント検索要求を、通信712には登場イベント検索結果を含み、この2つの通信により、1回の登場イベント検索要求が実行されることになる。さらに通信713は類似人物検索要求を、通信714は類似人物検索結果を含む。通信716、717についても同様である。通信715には、画像に対するキーワード付与要求を含む。通信718についても同様である。
 次に、図8E、図8F、図8G、および図8Hを用いて本発明の類似画像検索システムの端末装置103におけるユーザの操作イメージについて説明する。
 図8A、図8E、図8F、図8G、図8Hは、本発明の類似画像検索において、端末装置103の表示装置270に表示される登場イベント検索を行っているときの各フェーズの画面を示す図である。
 図8Aは、前述したように、検索実行前の初期状態(検索画面801)である。ここでは、図7のタイミング703における端末装置103での検索画面の一実施例である。
 ここで、ユーザは、撮像装置指定チェックボックス3009、3010、および3012を押下し、さらに、時刻指定チェックボックス3013、3014を押下し、時刻指定欄3015、3016にそれぞれ時刻を入力する。このユーザ操作により、検索画面は、登場イベント検索実行直前状態、即ち、図7のタイミング704の端末装置103の状態に遷移する。
 図8Eは、この状態における検索画面805の一実施例を示したものである。検索対象としたい撮像装置として「カメラ1、カメラ2、カメラ4」の3つが指定され、検索対象としたい時刻範囲として「2009/6/26 15:30:20から2009/7/13 12:30:20まで」と指定されている状態を示している。
 図8Bの検索画面802と比較すると、図8Eの検索画面805では、検索キー画像3005が指定されていない。
 ここで、ユーザが、登場イベント検索ボタン3019を押下する。すると、検索画面805は、登場イベント検索実行直後状態、すなわち、図7のタイミング705の状態に遷移する。
 図8Fは、この状態における検索画面806の一例を示したものである。人物矩形表示8036は、画像中の複数の人物から任意の人物を指定するための、操作可能な矩形の枠であり、初期的には、人物領域検出部213が人物として認識した領域を示す1つ或いは複数の矩形となっている。人物矩形表示8036は、マウスでクリックするなどのユーザ操作によって選択できる。選択状態の人物顔矩形表示8036を再度選択すると、非選択状態にできる。選択状態と非選択状態は矩形枠の太さを変えて提示する場合や、色を変えて提示する場合がある。
 登場イベント検索では、検索結果画像3081のように1つの画像に2つ以上の選択すべき人物が現れる場合がある。このため、図8Cのキーワード対象チェックボックス4034ではなく、人物矩形表示8036のような選択可能な表示を設ける。
 なお、他の項目に関しては図8Cと同じであるので説明を省略する。
 ここで、ユーザが、検索結果画像のうちの1つである検索結果画像3031にキーワードを付与したいと考えていて、キーワードを与える操作を、過去にユーザあるいは他のユーザが行っている場合を想定する。
 このとき、ユーザは、検索結果画像3031の人物矩形表示8036をマウスでクリックして選択操作を行う。その結果、検索画面は、人物選択済み状態、即ち、図7のタイミング706の状態に遷移する。また端末装置103は、バックグラウンドで、Aさんの人物画像をキー画像にして類似人物検索要求713を行う。
 ここで、先の類似画像検索の説明で、図8Aから図8B、および図8Bから図8Cに遷移したときと比較すると、検索キー画像3005は指定されておらず、検索結果表示領域4020も更新されず、バックグランドで類似人物検索要求処理が行われることに注意されたい。
 その後、類似人物検索要求713の応答として、類似人物検索結果714を受信することで、図7のタイミング706の状態に遷移する。類似人物検索結果には、図5(c)に示した検索結果テーブル320が含まれており、属性情報(キーワード)と検索キー画像に対する類似度が格納されている。 
 類似人物検索結果714に含まれる検索結果テーブル320は、ここでは、キーワード「Aさん」「Bさん」「Cさん」が付与されているものおよび空欄すなわちキーワード未付与のものを含んでいる。
 図8Gは、タイミング706の状態における検索画面806の一例を示したものである。図8Fと比較すると、人物矩形表示8036は、選択済み状態を表す太枠表示になっている。また、キーワード指定欄4022がキーワード指定およびキーワード候補選択欄8100になっている。
 キーワード指定および候補選択欄8100は、キーワードを入力することが可能であり、表示されている候補の中から選択することも可能である。キーワード指定および候補選択欄8100は、図8Fでの選択操作に呼応して、図8Gに示すように自動的に展開される。
 端末装置103は、類似人物検索結果714を受信すると、検索結果テーブル320から、類似度が下がる順にキーワードを取り出して、キーワードの重複を除去してから、キーワード指定および候補選択欄8100に表示する。
 ユーザは、これを見て、キーワード候補表示欄8100の「Aさん」という名称(キーワード)が、検索結果画像3031の人物に一致することを確認すると、マウスを使ってクリックなどで「Aさん」を選択する。それにより、図7のタイミング707の状態に遷移し、図8Hの検索画像808が表示される。
 図8Hは、登場イベント検索後のキーワード付与実行直後状態における検索画面を示す図である。キーワードが付与された検索結果画像3031に対応付けて、キーワード表示欄8037が新たに表示される。キーワード表示欄8037は、付与済みのキーワードを示す、小さなタグ状の表示であり、本例では、人物矩形表示8036の左辺に接して配置される。
 ユーザは、以後も、検索結果画像の中から1つあるいは複数同時に選択して、キーワード付与操作を行うことができる。1回の登場イベント検索におけるユーザのキーワード付与操作が全て終われば、ユーザは条件を変えて再度登場イベント検索を行うこともできる。
 このようにすることで、ユーザが「Aさん」の名前の正確な漢字やスペルを知らなくても、他のユーザが正確な漢字やスペルを入力済みであれば、誤りなく入力できる。また、ユーザが、毎回キーボードで「Aさん」の名前を入力しなくても、マウスでクリックするだけで、キーワードを付与する作業を行うことができる。
 ここまでに示したように、本実施形態に示した類似画像検索システムより、ユーザは類似画像検索の結果に対し、より少ない結果画像の選択回数でキーワードの付与を行うことを可能にした。また、ユーザが登場イベント検索においてキーワードを付与する場合に毎回キーボードによる正確なキーワードの入力を行う必要のないキーワード付与を可能にした。
 また、ここまでの説明においては、撮像装置、録画装置、および端末装置は、各1台に限られず、図1に示したように、撮像装置や端末装置が複数台接続されていてもよい。また、絞込みパラメータは、カメラや時刻に限らず、カメラに併設された各種センサや設備の作動状態や、通信社から配信されるニュース等、各種のものが利用できる。
 本実施形態においては、図7に示すように、登場イベント検索後の検索結果選択後に類似人物検索要求を行った。しかし、登場イベント検索要求711時に録画装置102内部において類似人物検索要求されたのと同等の処理を行い、あらかじめ各々の検索結果画像に対する類似度によるキーワード付与候補を含めたものを登場イベント検索結果712として、検索結果選択時に都度行う類似人物検索要求を省略するような実施形態でもよい。
 また、本実施形態においては、図8Gに示すように、キーワード候補表示欄である8100にキーワードと類似度を表示したが、件数を含めてもよい。図5(c)の類似画像検索の検索結果に含まれるデータ302においては「Aさん」が3件、「Bさん」および「Cさん」がそれぞれ1件という結果となり、これをキーワード候補表示欄である8100に表示することでユーザの判断の参考情報を増やすような実施形態でもよい。
 また、本実施形態においては、類似度を図5(c)に示すように、キーワード未付与の検索結果も通信したが、キーワード未付与のものを通信から除くような実施形態でもよい。
 また、本実施形態においては、人物検索に関わる人物検出処理や人物特徴量抽出処理等を録画装置上で実施する構成で説明したが、ネットワークで接続された録画装置とは別個の装置にて実施するようにしてもよい。
 また、本実施形態においては、キーワードが文字列であるように示したが、特定の番号や記号列にて実施するようにしてもよい。
 本発明は、コンピュータによる類似画像検索の結果から、人の視覚を用いて不純物を除き、所望の画像群を提供する用途に好適であり、記録映像からの人物検索のほか、ネットワーク上での映像編集、ネット販売の商品の検索等に利用可能である。
 102:録画装置、 103:端末装置、 110:キーワード記録部、 111:キーワード検索部、 112:キーワード付与要求送信部、 200:ネットワーク、 201:撮像装置、 202:録画装置、 203:端末装置、 210:画像送受信部、
 211:画像記録部、 212:再生制御部、 213:人物領域検出部、 214:人物特徴量抽出部、 215:人物特徴量記録部、 216:属性情報記録部、 217:要求受信部、 218:類似人物検索部、 219:登場イベント検索部、 220:検索結果送信部、 221:検索要求送信部、 222:検索結果受信部、 223:検索結果表示部、 224:再生画像表示部、 225:画面操作検知部、 240:バス、 241:撮像部、 242:主記憶部、 243:符号化部、 244:ネットワークI/F、 250:バス、 251:CPU、 252:主記憶部、 253:補助記憶部、 254:ネットワークI/F、 260:バス、 261:CPU、 262:主記憶部、 263:補助記憶部、 264:表示I/F、 265:入出力I/F、 266:ネットワークI/F、 270:表示装置、 280:キーボード、 282:マウス、 300:フレームテーブル、 301:画像ID、 302:フレームデータ、 310:属性情報テーブル、 311:登録ID、 312:画像ID、 313:特徴量、 314:カメラID、 315:時刻情報、 316:キーワード、 320:類似画像検索の検索結果に含まれるデータ、 801、802、803、804、805、806、807、808:検索画面、 3001:再生画像表示領域、 3002:動画、 3003:画像再生操作領域、 3004:検索キー画像指定領域、 3005:検索キー画像、 3006:映像指定ボタン、 3007:ファイル指定ボタン、 3008:検索絞込パラメータ指定領域、 3009~3012:撮像装置指定チェックボックス、 3013~3014:時刻指定チェックボックス、 3015~3016:時刻指定欄、 3017:検索実行領域、 3018:類似人物検索ボタン、 3019:登場イベント検索ボタン、 3020:検索結果表示領域、 3031、3041、3051、3061、3071、3081、3091、3101、3111、3121、3131、3141:検索結果画像、 3032:頭出し再生ボタン、 3033:検索キー画像指定ボタン、 4017:検索実行領域、 4020:検索結果表示領域、 4021:キーワード指定チェックボックス、 4022:キーワード指定欄、 4023:キーワード付与ボタン、 4034:キーワード付与チェックボックス、 8035:類似度表示欄、 8036:人物矩形表示、 8037:キーワード表示欄、 8100:キーワード指定およびキーワード候補選択欄。

Claims (2)

  1.  撮像装置、前記撮像装置から入力された画像データを記録媒体に記録する録画装置、および端末装置から構成される類似画像検索システムにおいて、
     前記録画装置は、前記画像データの特徴量を抽出して、画像の類似度を評価し、検索キー画像を指定して、指定された当該検索キー画像に対して類似度が高い画像データを検索し、各々の画像データにキーワードを付与する手段と、前記キーワードの付与候補を動的に提示する手段を有することを特徴とする類似画像検索システム。
  2.  撮像装置、前記撮像装置から入力された画像データを記録媒体に記録する録画装置、および端末装置から構成される類似画像検索システムにおいて、
     前記端末装置は、前記録画装置が当該登場イベント検索手段を実行した結果を表示し、
     前記録画装置は、前記端末装置に表示された画像データの一覧から、ユーザによって選択された画像を検索キー画像として類似度が高い画像データを検索し、類似画像検索結果にキーワード付与済みの結果が含まれていれば、そのキーワードを付与候補として表示する、画像の類似度によらず画像データの一覧を提示する登場イベント検索する手段を有することを特徴とする類似画像検索システム。
PCT/JP2012/062309 2011-05-16 2012-05-14 類似画像検索システム WO2012157611A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011-109071 2011-05-16
JP2011109071A JP5826513B2 (ja) 2011-05-16 2011-05-16 類似画像検索システム

Publications (1)

Publication Number Publication Date
WO2012157611A1 true WO2012157611A1 (ja) 2012-11-22

Family

ID=47176928

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/062309 WO2012157611A1 (ja) 2011-05-16 2012-05-14 類似画像検索システム

Country Status (2)

Country Link
JP (1) JP5826513B2 (ja)
WO (1) WO2012157611A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020047110A (ja) * 2018-09-20 2020-03-26 パナソニック株式会社 人物検索システムおよび人物検索方法
JP2020047259A (ja) * 2019-07-11 2020-03-26 パナソニックi−PROセンシングソリューションズ株式会社 人物検索システムおよび人物検索方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6213557B2 (ja) * 2013-03-01 2017-10-18 日本電気株式会社 情報処理装置、そのデータ処理方法、およびプログラム
JP6947085B2 (ja) * 2018-03-09 2021-10-13 オムロン株式会社 電子機器及びその制御方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1196176A (ja) * 1997-09-22 1999-04-09 Minolta Co Ltd キーワード付与方法およびキーワード自動付与装置
JP2000099531A (ja) * 1998-09-22 2000-04-07 Minolta Co Ltd 情報処理装置
JP2005352782A (ja) * 2004-06-10 2005-12-22 Canon Inc 画像検索装置および画像検索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010271769A (ja) * 2009-05-19 2010-12-02 Seiko Epson Corp 画像処理方法及び装置、並びに、そのためのコンピュータプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1196176A (ja) * 1997-09-22 1999-04-09 Minolta Co Ltd キーワード付与方法およびキーワード自動付与装置
JP2000099531A (ja) * 1998-09-22 2000-04-07 Minolta Co Ltd 情報処理装置
JP2005352782A (ja) * 2004-06-10 2005-12-22 Canon Inc 画像検索装置および画像検索方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020047110A (ja) * 2018-09-20 2020-03-26 パナソニック株式会社 人物検索システムおよび人物検索方法
US11030463B2 (en) 2018-09-20 2021-06-08 Panasonic I-Pro Sensing Solutions Co., Ltd. Systems and methods for displaying captured videos of persons similar to a search target person
US11527071B2 (en) 2018-09-20 2022-12-13 i-PRO Co., Ltd. Person search system and person search method
JP2020047259A (ja) * 2019-07-11 2020-03-26 パナソニックi−PROセンシングソリューションズ株式会社 人物検索システムおよび人物検索方法
JP7235612B2 (ja) 2019-07-11 2023-03-08 i-PRO株式会社 人物検索システムおよび人物検索方法

Also Published As

Publication number Publication date
JP5826513B2 (ja) 2015-12-02
JP2012242878A (ja) 2012-12-10

Similar Documents

Publication Publication Date Title
JP5863400B2 (ja) 類似画像検索システム
JP5506324B2 (ja) 類似画像検索システム、および、類似画像検索方法
US11308158B2 (en) Information processing system, method for controlling information processing system, and storage medium
KR20180058019A (ko) 영상 검색 장치, 데이터 저장 방법 및 데이터 저장 장치
JP6589082B2 (ja) 類似画像検索システム
JP6203188B2 (ja) 類似画像検索装置
JP4678043B2 (ja) 画像記憶装置、監視システム、記憶媒体
WO2012157611A1 (ja) 類似画像検索システム
JP2007188404A (ja) 画像検索装置、画像検索方法、および画像検索プログラム
JP5768265B2 (ja) 類似画像検索システム
JP2009123196A (ja) 画像検索装置
CN110502117A (zh) 电子终端中的截图方法以及电子终端
JP5329130B2 (ja) 検索結果表示方法
JP6214762B2 (ja) 画像検索システム、検索画面表示方法
US10817709B2 (en) Similar image search system
JP2006163527A (ja) 画像検索装置及び方法
JP6210634B2 (ja) 画像検索システム
JP5351445B2 (ja) 画像検索システム
JP5147737B2 (ja) 撮像装置
JP2002094898A (ja) 映像記録システムにおける映像データ検索表示方法
JP2003208435A (ja) 描画履歴登録システム、描画履歴再生システム、描画履歴登録端末、描画履歴登録プログラム及び端末用プログラム、並びに描画履歴登録方法
JP2019101783A (ja) 情報処理装置及び方法
JP3727794B2 (ja) 情報記憶検索方法および情報記憶検索装置および記録媒体
JP2009064256A (ja) ファイル管理システム、ファイル管理プログラム、およびファイル管理端末
JP2006331121A (ja) プロジェクタ

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12786380

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12786380

Country of ref document: EP

Kind code of ref document: A1