WO2016098187A1 - 画像検索装置および画像検索方法 - Google Patents

画像検索装置および画像検索方法 Download PDF

Info

Publication number
WO2016098187A1
WO2016098187A1 PCT/JP2014/083326 JP2014083326W WO2016098187A1 WO 2016098187 A1 WO2016098187 A1 WO 2016098187A1 JP 2014083326 W JP2014083326 W JP 2014083326W WO 2016098187 A1 WO2016098187 A1 WO 2016098187A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
scene
similar
search
video
Prior art date
Application number
PCT/JP2014/083326
Other languages
English (en)
French (fr)
Inventor
直人 秋良
廣池 敦
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to PCT/JP2014/083326 priority Critical patent/WO2016098187A1/ja
Publication of WO2016098187A1 publication Critical patent/WO2016098187A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Definitions

  • the present invention relates to an image search device and an image search method for searching a scene from stored video.
  • Patent Document 1 is a technique that can search for scenes that look similar to the input video.
  • a video of a scene to be found (hereinafter referred to as an inquiry video) 100 is sequentially input for each frame by the inquiry video input unit 102 in advance of the search. And temporarily stored in the memory 9.
  • the frame feature quantity extraction unit 106 extracts the feature quantity 108 from the frame image 104 of the memory 9.
  • the feature quantity table creation unit 110 has the feature quantity within the allowable variation range. For each continuous section, the feature quantity and the first frame number are paired to create a feature quantity table 112 and record it in the storage device 114.
  • the video image 116 to be searched is also referred to as an inquiry video.
  • each frame is sequentially input by the collation target video input unit 118 and temporarily stored in the memory 9.
  • the frame feature amount extraction unit 122 is a memo.
  • the feature quantity 124 is extracted from the frame image 120.
  • 122 performs exactly the same processing as 106.
  • the feature quantity collating unit 130 includes the latest time series of the feature quantity 124 sequentially sent from 122. It is disclosed that the alignment and the recorded feature quantity table 300 (data contents are the same as 112) are matched or collated.
  • Patent Document 1 when the same material image such as a broadcast image is used repeatedly, it is assumed that the application searches for where the specified material image is used. In other words, search for scenes with the same original video source, such as material video with different image quality and size, material video with part of the frame image deleted by editing, and material video with time stretched There is a problem that it is difficult to search for a scene that is a target of (collation) and whose original video is different.
  • the present application includes a plurality of means for solving the above problems.
  • the present application is an image search device that includes a scene composed of a plurality of temporally continuous images and a plurality of scenes.
  • An apparatus for searching for a moving image, a query moving image, a plurality of moving images for searching, a plurality of first image features extracted from a plurality of first images constituting the moving image for searching, and for searching A storage unit that stores first scene information that is information about a first scene that configures a moving image; an extraction unit that extracts a plurality of second image feature amounts from a plurality of second images that configure a query moving image; Using the second image feature amount and the first image feature amount, a search unit that searches for a first image similar to the second image and outputs the search result, and using the search result and the first scene information A first similar to the second scene constituting the query moving image
  • an image search method is a method for searching a scene composed of a plurality of temporally continuous images and a moving image composed of a plurality of scenes, and includes a query moving image and a plurality of search images.
  • a moving image, a plurality of first image feature amounts extracted from a plurality of first images constituting the search moving image, and first scene information that is information about the first scene constituting the search moving image are stored.
  • a first step that is stored in a part a second step that extracts a plurality of second image feature amounts from a plurality of second images that constitute a query moving image, and a second image feature amount and a first image feature amount.
  • the third step of searching for the first image similar to the second image and outputting the search result, and using the search result and the first scene information are similar to the second scene constituting the query moving image.
  • Detect the first scene as a similar scene A fourth step that is characterized by having a.
  • a similar scene can be searched for each scene with respect to an input video composed of a plurality of scenes.
  • FIG. 1 is a configuration diagram showing an example of a video scene search system according to the present embodiment.
  • a video scene search system includes an input device 1 composed of a photographing device, a sensor device, etc., a network 2 such as the Internet or an intranet connecting each input device and each PC (personal computer), and input or storage.
  • Video analysis PC3 for analyzing the contents of the video
  • video storage PC4 for storing video and video-related data
  • work terminal used for an instruction for searching similar scenes an instruction for registering video data
  • a display of search results It is mainly composed of PC5.
  • the input device 1 acquires an AR camera 101 that captures a worker's visual field image, a fixed camera 102 that captures a worker's work scene from a fixed position, a tablet terminal 103 that captures and browses information, and audio information.
  • the microphone 104 and a device sensor 105 such as a pressure sensor, an ammeter, a voltmeter, and a thermometer for grasping the operation status of the plant. It is also possible to install these devices at a plurality of bases and share and utilize video images among the plurality of bases. Moreover, it is not necessary to install all the devices for these input devices, and a necessary type of device may be installed.
  • the AR camera 101 is composed of a camera attached to the glasses and a display device such as a display for displaying arbitrary information superimposed on the video of the camera.
  • the video storage PC 4 is wireless or wired such as a wireless LAN or a USB cable. Network 2.
  • the AR glasses 101 may realize the same function by a combination of a web camera and a head mounted display. If the operator does not need to check the information on the spot, the camera may only be attached to the head or the like.
  • the fixed camera 102 is installed at a position where the worker's work can be confirmed, and the work content of the worker can be confirmed from a fixed viewpoint. If it is difficult to install a fixed camera, it may be omitted.
  • the tablet terminal 103 is used for an operator to browse work procedure manuals and manuals, and to photograph work contents when there is no AR camera 101 or camera 102. If there is a photographing device and a display, a smartphone or the like can be used instead. If the tablet terminal 103 is unnecessary, it may be omitted.
  • the microphone 104 inputs sound generated by the operation of the device, worker's voice, and the like. If the AR camera 101 or the fixed camera 102 has a built-in microphone, they may be used as a substitute. If voice processing is not necessary, the microphone 104 may be omitted.
  • the equipment sensor is composed of sensors such as a pressure sensor, an ammeter, a voltmeter, and a thermometer, and information for grasping the situation of the pipes and meters is input as an electrical signal. If information cannot be transmitted directly from the sensor to the video storage PC 4, a separate PC may be prepared for control.
  • the video analysis PC 3 that analyzes the video stored in the video storage PC 4 and searches for similar scenes from the video selected or input by the work terminal PC 5 is configured as shown in FIG.
  • the computer 201 includes a CPU 201, a main memory 202, an input unit 203, a display unit 204, a communication unit 205, and a storage unit 210.
  • the storage unit 210 includes an OS 211, cache data 212, an image feature amount extraction program 213, an object detection program 214, a similar scene section detection program 215, a similar scene selection program 216, a similar image search program 217, A frame image acquisition program 218, a data input / output program 219, and a sensor information acquisition program 220 are registered.
  • the cache data 212 temporarily stores video data acquired by the data input / output program 219 and necessary for video analysis. If video analysis is possible without caching, such as high-speed communication, it may be omitted.
  • the image feature amount extraction program 213 extracts an image feature amount representing the appearance feature of the image from the frame image acquired by the frame image acquisition program 218.
  • a multi-dimensional vector indicating the distribution of edge patterns in an image is generated using pixel value information of the image, and the multi-dimensional vector is dimensionally compressed using principal component analysis or the like to be several tens to several hundreds of dimensions This vector can be generated and used as an image feature amount.
  • a plurality of characteristic edge patterns are set in advance, the area is divided into a grid, and the number of edge patterns included in each area is counted.
  • other feature amounts such as edge histogram features stipulated in MPEG-7, which is generally known, may be used as long as they are feature amounts indicating the appearance features of an image.
  • the object detection program 214 performs template matching using an object image such as a part image registered in advance as a template, and detects an image region having a high possibility as a unit of the object.
  • Template matching uses a widely known pattern recognition approach, an approach that performs matching by searching for image feature amounts, and the like. For example, an area can be detected by cutting out an image from rectangular areas of various shapes and sizes from an image to be detected, and searching for the presence or absence of a rectangular area whose image feature quantity is similar to a similar image of an object image. Any method may be used as long as the object region can be specified.
  • the object may be acquired by associating the three-dimensional structure information acquired using a sensor such as a 3D camera or a laser radar with the design drawing.
  • the similar scene section detection program 215 detects a similar section that appears frequently from the frame images of the stored video acquired by the frame image acquisition program 218 using the image feature amount acquired by the image feature amount extraction program 213, and detects the scene section. Get similarities and similarities between scenes.
  • the acquired scene information is registered in the scene data 416. If the object can be detected, the object consistency acquired by the object detection program 214 may be used to determine the similarity of the frames.
  • the similar scene selection program 216 is adapted to the user's condition using the content before and after the scene and the sensor information acquired by the sensor information acquisition program 220 from a plurality of similar scene candidates acquired by the similar scene section detection program 215. Select the optimal scene to be used.
  • the similar image search program 217 calculates the distance between vectors of the image feature amount of the image requested for search and the image feature amount of each search target image acquired by the image feature amount extraction program 213, and calculates the feature amount in the feature amount vector space. This is a program for acquiring an image having a small distance between the two as an image having a high degree of visual similarity. It should be noted that any method may be used for calculating the distance between vectors as long as the similarity between vectors such as a square distance can be calculated.
  • the frame image acquisition program 218 acquires a frame image from a video acquired from the input device 1 or a video input as a file on the work terminal PC5.
  • the bit rate of the video is high, the calculation amount increases when all the frames are used. For example, it may be detected by thinning out every second.
  • the data input / output program 219 transmits / receives data to / from the input device 1, the video storage PC 4, and the work terminal PC 5.
  • the sensor information acquisition program 220 acquires various sensor information from the input device 1 and voice acquired by the microphone 104.
  • a video storage PC 4 that stores video input from the input device 1 or the work terminal PC 5 and related data includes a CPU 401, a main memory 402, an input unit 403, a display unit 404, communication, as shown in the configuration diagram of FIG. 4.
  • the computer includes a unit 405 and a storage unit 410.
  • an OS 411, video data 412, frame image data 413, object data 414, sensor data 415, scene data 416, a video accumulation program 417, and a data input / output program 418 are registered.
  • the original video and video attribute information such as an ID for identifying the video, a video storage destination, a shooting device, and a shooting date and time are registered.
  • any storage method such as a file or a database may be used as long as the video data can be stored.
  • a frame image ID for identifying the frame image As shown in the example of FIG. 6, a frame image ID for identifying the frame image, a video ID indicating the video to which the frame image belongs, and a time indicating the position of the frame image from the head in the video
  • the image feature amount, the frame image, etc. acquired from the frame image by the image feature amount extraction program 213 are registered.
  • a frame image ID indicating the frame to which the object belongs an object ID indicating the type of the object, and coordinates indicating the position in the frame image where the object appears are registered. Is done.
  • a frame image ID for identifying a frame image, a sensor type indicating a sensor type, a measured value of the sensor, and the like are registered.
  • values indicating the type of sound and the volume of the sound are registered as sensor data.
  • a scene ID for identifying a scene for example, a scene ID for identifying a scene, a scene type ID to which the same ID is assigned to similar scenes, a start frame and an end frame of the scene
  • the frame image ID, the video ID of the video to which the scene belongs, and the like are registered.
  • the video storage program 417 converts the video data input from the input device 1 or the work terminal PC and the related information of the video analyzed by the video analysis PC 3 into a format for storing the video data 412, frame image data 413, and object data 414. , Registered in the sensor data 415 and the scene data 416. Note that the video storage program 417 may execute registration processing in response to an external video registration request, as long as the video and related information can be stored, even if the video storage program 417 does not operate independently.
  • the data input / output program 418 transmits / receives data to / from the input device 1, the video analysis PC 3, and the work terminal PC 5.
  • the work terminal PC5 that performs video editing and display of screens for workers and supervisors, as shown in the configuration diagram of FIG. 9, includes a CPU 901, a main memory 902, an input unit 903, a display unit 904, and a communication unit. 905 and a computer including a storage unit 910.
  • the storage unit 910 includes an OS 911, a video editing program 912, an editing screen generation program 913, an operator screen generation program 914, a supervisor screen generation program 915, a screen display program 916, and a data input / output program 917. Is registered.
  • the video editing program 912 uses the video analysis result such as generating a video in which a plurality of scenes included in the input video are replaced with another similar scene using the video analysis result analyzed by the video analysis PC 3. Edit the video.
  • the editing screen generation program 913 generates a screen for video editing instructions and material selection. If the editing screen is unnecessary, it may be omitted.
  • the worker screen generation program 914 generates a screen to be displayed on the work terminal that performs the actual work. In addition, when the screen for workers is unnecessary, it may be omitted.
  • the supervisor screen generation program 915 generates a screen for a supervisor who is in a position to guide a worker. If a supervisor screen is not required, it may be omitted.
  • the screen display program 916 displays a screen on the work terminal PC5 or a display device such as a tablet used by the worker.
  • the data input / output program 418 transmits / receives data to / from the input device 1, the video analysis PC 3, and the video storage PC 4.
  • Video data storage Next, the procedure for accumulating video data in the storage unit 1101 will be described with reference to the flowchart shown in FIG.
  • the video data is stored in the video analysis unit 1100 in FIG.
  • the video storage program 417 acquires the video input from the AR camera 101, the fixed camera 102, and the tablet terminal 103 (S1001). Note that the video may be acquired by receiving an input of a video file from the user at the work terminal PC5 or the like.
  • the acquired video is stored in the cache data of the video analysis PC 3 by the data input / output program 418, the frame image is acquired by the frame image acquisition program 218, and stored in the cache data 212 (S1002).
  • the acquisition of frame images can be performed at predetermined time intervals (for example, every second), thereby reducing the amount of calculation and the amount of data.
  • an image feature amount is acquired from the acquired frame image by the image feature amount extraction program 213 and stored in the cache data 212 (S1003).
  • the composition differs depending on the viewpoint position. Therefore, a rectangular area from which a predetermined feature amount is extracted is obtained based on positional information such as SIFT feature amount correspondence or AR marker.
  • the feature amount may be extracted from the region. By specifying the area based on the position information, it is possible to search for moving images obtained by photographing the same place with different compositions.
  • the object detection program 214 detects the object area from the frame image, and stores the detection result in the cache data 212 (S1004).
  • the same object is often displayed at a position close to the previous and subsequent frames, so the result obtained by majority vote from the object detection results of the previous and subsequent frames can be used as an object, or every fixed frame.
  • the detected object can be tracked with a particle filter or the like to complement the object of the frame that has not been detected, or the object can be detected by utilizing the continuity of the video. As a result, the amount of computation processing of the PC can be reduced as compared with the case where object detection is performed for all frames.
  • the sensor information acquisition program 220 acquires information from device sensors and microphones connected to the input device 1 and relates the frame images of the cameras close to the pre-registered device sensors and microphone installation positions.
  • the data is stored in the cache data 212 (S1005).
  • the similar scene section detection program 215 detects a scene section by detecting a set of similar frames frequently appearing in each moving image (1006).
  • a scene refers to a section of a video composed of a plurality of temporally continuous frame images, and in the case of a work video, a screw is tightened, a meter is checked, etc. A section in which the same work is performed becomes a scene.
  • the scene section is detected by using 1% of all the moving images accumulated in the storage unit 410 using the image feature amount acquired in the step (S1003) of acquiring the image feature amount.
  • a frame similar to the query frame is searched by the similar image search program 217 using all frames constituting the moving image as a query and all frames constituting the remaining moving image as search targets.
  • finding an ID string that is continuous within a predetermined number of frames from the search result it is detected which frame is one scene section. Whether or not they are similar can be determined based on whether or not the similarity acquired by the similar image search program 217 is equal to or greater than a predetermined threshold.
  • the frame ID displayed in the first line is the ID of the query frame, and the other is the ID of the search target frame.
  • the underlined ID is a continuous frame, in actual data, an ID string of a plurality of similar frames is searched for one section.
  • the plurality of ID strings are arranged for each section, it is as shown in FIG. 15, and the section having the maximum number of scenes is adopted as the final scene section.
  • the number of scenes is 3, whereas a section with frame IDs 77769 to 77772 and a section with 77773 to 77778 are set as scene sections.
  • a lower limit is set for the length of the section in the scene section.
  • the boundary of the scene section often includes a slight variation, when determining the section having the maximum number of scenes, the determination is performed with margins at both ends. This step has the effect that the scene division of the input video and the association of similar scenes can be performed simultaneously.
  • the video of the fixed camera is the search target.
  • the video of the AR camera is the search target. It is possible to accommodate differences. Note that similar frame determination may be performed using a method that uses the commonness of the type, size, and position of objects in the video, the degree of coincidence of AR markers in the video, the commonality of sensor information, and the like. When the camera of the AR camera 101 is used, the angle of view changes due to the movement of the head or the like. In such a case, similar work can be detected by using the commonality of objects. Since the process of detecting a continuous ID string from the result of similar frames of each frame only needs to determine whether there is a frame close to each similar frame of the previous frame, the amount of calculation should be within a realistic range. Is possible.
  • the data input / output program 219 transmits the data acquired in steps S1001 to S1006 to the video storage PC 4 and stores it in the video data 412, frame image data 413, object data 414, sensor data 415, and scene data 416. .
  • the above process is repeated until an end instruction is received, and when there is an end instruction, the registration process is ended (S1007).
  • the data input / output load during video analysis can be reduced by leaving the data in the cache data 212.
  • the scene data 416 is referred to search for the presence or absence of a scene section registered in the added video. If a similar scene is included, the scene is similar to that scene. You may register as a scene.
  • the screen display program 916 displays a screen for selecting or inputting an image shown in FIG. 16 on the display unit 904 of the work terminal PC5, and the video stored in the storage unit 1101 (video storage PC). Is acquired as a query (S1101).
  • a video acquired by capturing a moving image with the tablet 103 may be input and used as a query video.
  • the user designates a designated scene (or a scene including the designated frame) as a query scene by designating a predetermined scene or a predetermined frame in the query video via the work terminal.
  • search by specifying a video of a necessary scene in a moving image having a certain amount of time.
  • the search is automatically performed with the first scene of the input video as the designated query scene.
  • it is also possible to register in advance which scene is set as the query scene.
  • the data input / output program 917 transmits the query video input as the query to the video analysis PC 3 and stores the video, as in steps S1002 to S1005.
  • Sensor information is acquired and stored in the cache data 212 (S1102, S1103, S1104, S1105).
  • the step (S1105) of acquiring sensor information may be omitted.
  • the extraction unit performs the processing from S1103 to S1105.
  • the similar scene section detection program 215 acquires similar scenes for a plurality of scenes included in the input video.
  • the first case is when the input video input as a query has been analyzed, that is, when a moving image stored in the storage unit 401 is designated as a query.
  • this information since the data of the scene section is registered in the scene data 416 in advance, this information may be called up.
  • the scene detection unit 1104 directly refers to the scene data 416 without executing the search unit 1103 and executes the subsequent processing.
  • the second case is when the input video input as a query has not been analyzed.
  • the similar image search program 217 performs a similar image search using each frame of the input video as a query, and acquires a similar image for each frame (S1106).
  • the search unit 1103 performs processing using this similar image search program.
  • the scene segment of the input video is detected, and the similar scene is detected using the result of the similar image search.
  • the similar scene selection program 216 selects a scene to be adopted as a similar scene from the plurality of scenes detected in step S1107 (S1108).
  • similar scene candidates are expanded as additional scene candidates having the same scene type ID in the scene data 416, and an optimal scene is selected from the expanded scene candidates.
  • selecting a scene it is considered that a scene with similar content before and after is considered to be more suitable as a similar scene.
  • a scene similar to the scene before and after the scene is selected as a similar scene.
  • a candidate stored video having similar scenes before and after is preferentially selected.
  • the similarity of the sensor data there is an effect that the work contents in the same situation can be preferentially selected by the devices.
  • the degree of skill is determined using information such as the attributes of the worker, and when there are a plurality of similar scenes, it is possible to actively present the image of the skilled worker.
  • the processing from S1107 to S1108 is performed by the scene detection unit 1105.
  • the video editing program 912 uses the similar scene information acquired by the similar scene selection program 216 to edit the video (S1109).
  • the skill level is high based on the skill level or work time (scene duration) of the worker registered with the stored video Alternatively, a short duration time of the scene that is estimated to be efficiently realized is selected, and a video in which each scene of the input video is replaced with the selected scene is generated. It should be noted that other criteria may be used for scene selection.
  • the replacement video generation unit performs the processing in S1109. Of course, a similar scene can be displayed as it is without generating a replacement image. By using this step, it is possible to easily generate an educational video in which only moving images determined to have a high degree of skill are connected, or a broadcast video that has the same configuration as the input video and has no rights problem.
  • the screen display program 916 displays the video including the scene determined as the similar scene in S1108 or the video generated in step S1109 for editing the video on the display unit 904 (S1110).
  • the viewer of the video is a worker
  • the work content is input after the work using the screen generated by the worker screen generation program 914, and the work efficiency is more improved with the same work video stored in the stored video.
  • the viewer of the video is a supervisor
  • the operator is designated using the screen generated by the supervisor screen generation program 914, and the scene included in the worker's work video and other workers'
  • the video that cannot be used for rights is used as an input, and by acquiring and replacing scenes that are not problematic from the stored video, there are rights issues with the same configuration as the input video. There is an effect that it is possible to generate a video without any.
  • the image search device described in the present embodiment is a device that searches a scene composed of a plurality of temporally continuous images and a moving image composed of a plurality of scenes, Information about the query moving image, the plurality of search moving images, the plurality of first image features extracted from the plurality of first images constituting the search moving image, and the first scene constituting the search moving image
  • the search unit that searches for a first image similar to the second image using the amount and outputs the search result, and the second scene constituting the query moving image using the search result and the first scene information.
  • a similar scene detection unit that detects a similar first scene as a similar scene.
  • the image search method described in the present embodiment is a method for searching a scene composed of a plurality of temporally continuous images and a moving image composed of a plurality of scenes, and includes a query moving image, A plurality of search moving images, a plurality of first image feature amounts extracted from a plurality of first images constituting the search moving images, and a first scene that is information about a first scene constituting the search moving images
  • a first step of storing information in the storage unit a second step of extracting a plurality of second image feature amounts from a plurality of second images constituting the query moving image, a second image feature amount, and a first image feature
  • the first scene similar to the scene is the similar scene
  • a fourth step of detecting characterized in that it has a.
  • the image search device of the present embodiment it is possible to search the scene division of the input video and similar scenes of each scene based on the characteristics of the stored video.
  • an image there is an effect that an image can be generated by selecting an optimal scene material.
  • working videos are targeted, by detecting similar scenes, it is possible to easily view videos of the same work content that other workers have worked on, so work content check and work efficiently As an instruction manual, the video can be used.

Abstract

 複数の時間的に連続した画像から構成されるシーンと、複数のシーンから構成される動画像を検索する装置であって、クエリ動画像と、複数の検索用動画像と、検索用動画像を構成する複数の第1画像から抽出した複数の第1画像特徴量と、検索用動画像を構成する第1シーンについての情報である第1シーン情報とを記憶する記憶部と、クエリ動画像を構成する複数の第2画像から複数の第2画像特徴量を抽出する抽出部と、第2画像特徴量と第1画像特徴量とを用いて、第2画像に類似する第1画像を検索し、検索結果を出力する検索部と、検索結果と前記第1シーン情報とを用いて、クエリ動画像を構成する第2シーンに類似した第1シーンを、類似シーンとして検出する類似シーン検出部と、を有する画像検索装置。

Description

画像検索装置および画像検索方法
 本発明は、蓄積されている映像の中からシーンを検索する画像検索装置および画像検索方法に関する。
 ストレージの低価格化に伴い、プラントにおける作業風景を記録した作業映像や放送映像、監視カメラでの映像等、映像データが大量に蓄積されるようになり、これらの映像データを有効に活用したいというニーズが高まっている。映像を活用する目的として、映像の内容を構成している単位であるシーンに着目し、大量の映像から同じシーンを探すことで、映像の再利用状況を確認したり、視聴する映像を探したりといった用途が挙げられる。これらの用途では、再生してデータを確認するために実時間に近い時間を要してしまうことから、大量の映像データを対象とした場合には活用が困難であるという問題があった。
 これに対し、入力された映像と見た目が類似するシーンを検索可能な技術としては特許文献1があげられる。特許文献1の段落番号0010には、「本実施例では、見つけ出したいシーンの映像(以下、問合せ映像と呼ぶ)100は、検索に先立って予め、問合せ用映像入力部102によってフレーム毎に逐次入力され、メモリ9に一時的に格納される。フレーム特徴量抽出部106は、メモリ9のフレーム画像104から特徴量108を抽出する。特徴量テーブル作成部110は、特徴量が許容変動範囲内にある一続きの区間ごとに、その特徴量と、その先頭フレーム番号とを対にして、特徴量テーブル112を作成し、記憶装置114に記録する。検索対象であるビデオ映像116も、問合せ映像と同様にして照合対象映像入力部118によってフレーム毎に逐次入力され、メモリ9に一時的に格納される。フレーム特徴量抽出部122は、メモリ9のフレーム画像120から特徴量124を抽出する。ここで、122は106と全く同じ処理を行う。特徴量照合部130は、122から次々と送られてくる特徴量124の最新の時系列の並びと、記録された特徴量テーブル300(データ内容は112と同一)とが一致するか比較照合する。」と開示されている。
特開2003-224791号公報
 特許文献1の技術では、放送映像など繰り返し同じ素材映像が用いられている場合に、指定した素材映像がどこで使われているかを探すといった用途を想定している。即ち、画質やサイズが異なる素材映像、編集でフレーム画像の一部が削除された素材映像、時間が伸縮された素材映像のように、基本的にはオリジナルの映像ソースが同じであるシーンを検索(照合)の対象としており、オリジナルの映像が異なるシーンを検索することは困難という問題があった。
 特に、権利上そのままでは使えない放送映像を、シーン単位で権利上問題ない映像に置き換えたいという場合に、類似する景色や雰囲気のシーンを探すことが困難である。
 また、特許文献1に対し、公知技術である類似画像を検索する技術を適用し、まったく同じ映像ではなく類似する映像を探そうとしても、検索の入力となる映像が複数のシーンで構成されている場合、事前にシーンに分割して、シーン単位で入力しなければならないという問題があった。例えば、シーンの内容をABCDの記号で表した場合に、BCDAという4つの内容で構成されるシーンを入力として、類似する素材映像の連続であるB’C’D’A’を探そうとした場合に、B’C’D’A’各々を別々の動画から取得するといった用途には対応できない。
 そこで、同じ作業内容が映っている別の映像や、同じような風景が映っている別の映像のように、情報ソースが異なる類似したシーンを、シーンの前後の内容を考慮した上で高精度に検索することを本発明が解決すべき課題とする。
 上記課題を解決するために、例えば請求の範囲に記載の構成を採用する。本願は上記課題を解決する手段を複数含んでいるが、その一例を挙げるならば、画像検索装置であって、複数の時間的に連続した画像から構成されるシーンと、複数のシーンから構成される動画像を検索する装置であって、クエリ動画像と、複数の検索用動画像と、検索用動画像を構成する複数の第1画像から抽出した複数の第1画像特徴量と、検索用動画像を構成する第1シーンについての情報である第1シーン情報とを記憶する記憶部と、クエリ動画像を構成する複数の第2画像から複数の第2画像特徴量を抽出する抽出部と、第2画像特徴量と第1画像特徴量とを用いて、第2画像に類似する第1画像を検索し、検索結果を出力する検索部と、検索結果と第1シーン情報とを用いて、クエリ動画像を構成する第2シーンに類似した第1シーンを、類似シーンとして検出する類似シーン検出部と、を有することを特徴とする。
 あるいは、画像検索方法であって、複数の時間的に連続した画像から構成されるシーンと、複数のシーンから構成される動画像を検索する方法であって、クエリ動画像と、複数の検索用動画像と、検索用動画像を構成する複数の第1画像から抽出した複数の第1画像特徴量と、検索用動画像を構成する第1シーンについての情報である第1シーン情報とを記憶部に記憶する第1ステップと、クエリ動画像を構成する複数の第2画像から複数の第2画像特徴量を抽出する第2ステップと、第2画像特徴量と第1画像特徴量とを用いて、第2画像に類似する第1画像を検索し、検索結果を出力する第3ステップと、検索結果と前記第1シーン情報とを用いて、クエリ動画像を構成する第2シーンに類似した第1シーンを、類似シーンとして検出する第4ステップと、を有することを特徴とする。
 本発明によれば、複数のシーンから構成される入力映像に対し、シーンごとに類似するシーンを検索することができる。
本発明の画像検索システムの構成を示す図である。 本発明の映像解析PCの構成の一例を示すブロック図である。 画像特徴量の一例を示す図である。 本発明の映像蓄積PCの構成の一例を示すブロック図である。 映像データの一例を示す図である。 フレーム画像データの一例を示す図である。 オブジェクトデータの一例を示す図である。 センサデータの一例を示す図である。 本発明の作業端末の構成の一例を示すブロック図である。 本発明の映像を蓄積する手順を示すフローチャートである。 本発明の映像シーンを検索する手順を示すフローチャートである。 シーンデータの一例を示す図である。 分割されたシーンの例を示す図である。 類似フレームからの連続したフレームの検出例を示す図である。 頻出するシーン区間の選定方法を示す図である。 動画の選択画面の一例を示す図である。 本発明の画像検索システムの一例を示す図である。
<全体構成>
 まず本発明の第一の実施の形態について、図面を参照して説明する。
 図1は、本実施例の映像シーン検索システムの一例を示す構成図である。図1において、映像シーン検索システムは、撮影デバイスやセンサデバイスなどで構成される入力デバイス1と、各入力デバイスと各PC(パーソナルコンピュータ)を接続するインターネットやイントラネットなどのネットワーク2と、入力または蓄積された映像の内容を解析する映像解析PC3と、映像および映像関連データを蓄積する映像蓄積PC4と、類似シーンの検索の指示や映像データの登録の指示、および検索結果の表示などに用いる作業端末PC5を主体に構成される。入力デバイス1は、作業者の視野映像を撮影するARカメラ101と、作業者の作業風景を定位置から撮影する固定カメラ102と、撮影や情報の閲覧を行うタブレット端末103と、音声情報を取得するマイク104と、プラントの稼働状況などを把握する圧力センサ、電流計、電圧計、温度計などの機器センサ105とで構成される。また、これらのデバイスを複数の拠点に設置し、複数拠点間で映像などを共有して活用することも可能である。また、これらの入力デバイスは、すべてのデバイスを設置する必要はなく、必要な種類のデバイスを設置すればよい。
 次に、ARカメラ101の構成について、以下に説明する。ARカメラ101は、メガネに付いているカメラと、該カメラの映像に任意の情報を重畳表示するディスプレイなどの表示装置で構成され、映像蓄積PC4とは、無線LANやUSBケーブルなど、無線または有線のネットワーク2で構成される。尚、ARメガネ101は、ウェブカメラとヘッドマウントディスプレイの組合せなどで同様の機能を実現しても構わない。また、作業者が情報をその場で確認する必要がない場合は、頭部等にカメラを取り付けるのみでも構わない。
 次に、固定カメラ102の構成について、以下に説明する。固定カメラ102は、作業者の作業が確認できる位置に設置されており、作業者の作業内容を固定視点で確認できる。尚、固定カメラの設置が困難な場合には、省略しても構わない。
 次に、タブレット端末103の構成について、以下に説明する。タブレット端末103は、作業者が作業手順書やマニュアルを閲覧したり、ARカメラ101やカメラ102がない場合に、作業内容を撮影したりするために用いる。尚、撮影デバイスとディスプレイがあれば、スマートフォンなどを代用に用いることも可能である。尚、タブレット端末103が不要な場合には、省略しても構わない。
 次に、マイク104の構成について、以下に説明する。マイク104は、機器の稼働により生じる音や、作業者の音声などを入力する。尚、ARカメラ101や固定カメラ102にマイクが内蔵されている場合は、それらを代用として用いても構わない。また、音声処理が不要な場合は、マイク104を省略しても構わない。
 次に、機器センサ105の構成について、以下に説明する。機器センサは、圧力センサ、電流計、電圧計、温度計などのセンサで構成され、配管やメータなどの状況を把握するための情報が電気信号として入力される。直接センサから映像蓄積PC4に情報を送信できない場合は、制御用に別途PCを用意しても構わない。
 次に、映像解析PC3の構成要素について、図2を参照しながら、以下に説明する。映像蓄積PC4に蓄積された映像に対して、映像を解析したり、作業端末PC5で選択または入力された映像から類似シーンを検索したりする映像解析PC3は、図2に例を示す構成図のように、CPU201、主メモリ202、入力部203、表示部204、通信部205および記憶部210を含む計算機で構成される。記憶部210には、OS211と、キャッシュデータ212と、画像特徴量抽出プログラム213と、オブジェクト検出プログラム214と、類似シーン区間検出プログラム215と、類似シーン選定プログラム216と、類似画像検索プログラム217と、フレーム画像取得プログラム218と、データ入出力プログラム219と、センサ情報取得プログラム220とが登録される。
 キャッシュデータ212には、データ入出力プログラム219で取得した、映像解析に必要な映像データが一時保存される。尚、通信が高速であるなど、キャッシュしなくても映像解析が可能な場合は、省略しても構わない。
 画像特徴量抽出プログラム213は、フレーム画像取得プログラム218で取得したフレーム画像から、画像の見た目の特徴を表す画像特徴量を抽出する。例えば、画像の画素値情報を用いて、画像中のエッジパターンの分布を示す多次元ベクトルを生成し、主成分分析法などを用いて多次元ベクトルを次元圧縮して数十~数百次元程度のベクトルを生成し、画像特徴量とすることができる。ここで、エッジパターンの分布は、図3に例を示す図のように、特徴的なエッジパターンを予め複数設定し、格子状に領域分割を行い、各領域内に含まれるエッジパターン数を計数することによって多次元ベクトルを生成し、主成分分析法を用いて次元圧縮することにより生成される。尚、画像の見た目の特徴を示す特徴量であれば、一般に広く知られているMPEG-7で規定されているエッジヒストグラム特徴など他の特徴量を用いても構わない。
 オブジェクト検出プログラム214は、事前に登録された部品画像などのオブジェクト画像をテンプレートとしてテンプレートマッチングを行い、オブジェクトの単位として可能性の高い画像領域を検出する。テンプレートマッチングは、広く知られているパターン認識的なアプローチや、画像特徴量を対象とした検索によるマッチングを行うアプローチなどを用いる。例えば、検出対象の画像から、様々な形状やサイズの矩形領域で画像を切り出し、オブジェクト画像の類似画像と画像特徴量が類似する矩形領域の有無を探索することで領域を検出できる。尚、オブジェクト領域が特定できれば、どのような方式を用いても構わない。また、3Dカメラやレーザーレーダーなどのセンサを用いて取得した三次元構造の情報と設計図面の対応付けによってオブジェクトを取得しても構わない。
 類似シーン区間検出プログラム215は、フレーム画像取得プログラム218で取得した蓄積映像のフレーム画像から、画像特徴量抽出プログラム213で取得した画像特徴量を用いて、頻出する類似区間を検出し、シーン区間の特定およびシーン間の類似性を取得する。尚、取得したシーンの情報は、シーンデータ416に登録される。尚、オブジェクトが検出できる場合は、オブジェクト検出プログラム214で取得したオブジェクトの一致性をフレームの類似の判定に用いても構わない。
 類似シーン選定プログラム216は、類似シーン区間検出プログラム215で取得した複数の類似シーンの候補から、シーンの前後の内容およびセンサ情報取得プログラム220で取得したセンサ情報などを用いて、ユーザの条件に適合する最適なシーンを選定する。
類似画像検索プログラム217は、検索要求の画像の画像特徴量と、画像特徴量抽出プログラム213で取得した検索対象の画像各々の画像特徴量とのベクトル間の距離を計算し、特徴量ベクトル空間における両者間の距離が小さい画像を、見た目の類似度が高い画像として取得するプログラムである。尚、ベクトル間の距離の計算は、自乗距離など、ベクトル間の類似度を計算できれば、どのような方式を用いても構わない。
 フレーム画像取得プログラム218は、入力デバイス1から取得した映像、または作業端末PC5でファイルとして入力された映像からフレーム画像を取得する。映像のビットレートが高い場合は、すべてのフレームを用いてしまうと計算量が大きくなるため、例えば1秒毎など間引いて検出しても構わない。
 データ入出力プログラム219は、入力デバイス1および映像蓄積PC4、作業端末PC5とのデータの送受信を行う。
 センサ情報取得プログラム220は、入力デバイス1から各種センサ情報およびマイク104で取得した音声を取得する。
 次に、映像蓄積PC4の構成要素について、図4を参照しながら、以下に説明する。入力デバイス1または作業端末PC5から入力された映像および関連データを蓄積する映像蓄積PC4は、図4に例を示す構成図のように、CPU401、主メモリ402、入力部403、表示部404、通信部405および記憶部410を含む計算機で構成される。記憶部410には、OS411と、映像データ412と、フレーム画像データ413と、オブジェクトデータ414と、センサデータ415と、シーンデータ416と、映像蓄積プログラム417と、データ入出力プログラム418とが登録される。
 映像データ412には、図5に例を示すように、映像を識別するためのID、映像の格納先、撮影装置、撮影日時など、オリジナルの映像および映像の属性情報が登録される。尚、映像データが保存できれば、ファイルやデータベースなど、どのような保存方法を用いても構わない。
 フレーム画像データ413には、図6に例を示すように、フレーム画像を識別するためのフレーム画像ID、フレーム画像が属する映像を示す映像ID、映像中の先頭からのフレーム画像の位置を示す時間、フレーム画像から画像特徴量抽出プログラム213で取得した画像特徴量、フレーム画像などが登録される。
 オブジェクトデータ414には、図7に例を示すように、オブジェクトが属するフレームを示すフレーム画像IDと、オブジェクトの種類を示すオブジェクトIDと、オブジェクトが出現するフレーム画像中の位置を示す座標などが登録される。
 センサデータ415には、図8に例を示すように、フレーム画像を識別するためのフレーム画像ID、センサの種類を示すセンサ種別、センサの計測値などが登録される。尚、マイクで取得された音声データは、音の種別や音の大きさを示す値がセンサデータとして登録される。
 シーンデータ416には、図12に例を示すように、シーンを識別するためのシーンID、類似しているシーンに対して同じIDが付与されるシーン種別ID、シーンの開始フレームと終了フレームのフレーム画像ID、シーンが属する映像の映像IDなどが登録される。
 映像蓄積プログラム417は、入力デバイス1または作業端末PCから入力した映像データ、および映像解析PC3で解析した映像の関連情報を保存する形式に変換し、映像データ412、フレーム画像データ413、オブジェクトデータ414、センサデータ415、シーンデータ416に登録する。尚、映像蓄積プログラム417は、映像および関連情報が蓄積できれば、映像蓄積プログラム417が主体的に動作しなくても、外部からの映像登録要求に応じて登録処理を実行しても構わない。
 データ入出力プログラム418は、入力デバイス1および映像解析PC3、作業端末PC5とのデータの送受信を行う。
 次に、作業端末PC5について、図9を参照しながら以下に説明する。映像の編集や作業者および監督者向けの画面の表示などを行う作業端末PC5は、図9に例を示す構成図のように、CPU901、主メモリ902、入力部903、表示部904、通信部905および記憶部910を含む計算機で構成される。記憶部910には、OS911と、映像編集プログラム912と、編集画面生成プログラム913と、作業者画面生成プログラム914と、監督者画面生成プログラム915と、画面表示プログラム916と、データ入出力プログラム917とが登録される。
 映像編集プログラム912は、映像解析PC3で解析した映像解析結果を用いて、入力映像に含まれる複数のシーンに対して、別の類似シーンに置き換えた映像を生成するなど、映像解析結果を用いた映像の編集を行う。
 編集画面生成プログラム913は、映像編集の指示や素材の選択を行うための画面を生成する。尚、編集画面が不要な場合は、省略しても構わない。
 作業者画面生成プログラム914は、実作業を行う作業端末に表示させる画面を生成する。尚、作業者向けの画面が不要な場合は、省略しても構わない。
 監督者画面生成プログラム915は、作業員を指導する立場にある監督者向けの画面を生成する。尚、監督者向けの画面が不要な場合は省略しても構わない。
 画面表示プログラム916は、作業端末PC5または作業者が使用しているタブレットなどの表示装置に画面を表示させる。
 データ入出力プログラム418は、入力デバイス1および映像解析PC3、映像蓄積PC4とのデータの送受信を行う。
<映像データ蓄積>
 次に、映像データを記憶部1101へ蓄積する手順を、図10に示すフローチャートを用いて説明する。この映像データ蓄積を行うのは、図17の映像解析部1100である。
 まず、映像蓄積プログラム417で、ARカメラ101、固定カメラ102、タブレット端末103で入力された映像を取得する(S1001)。なお、映像の取得は、作業端末PC5等で、ユーザから映像ファイルの入力を受け、映像を取得しても構わない。
 次に、取得された映像をデータ入出力プログラム418で、映像解析PC3のキャッシュデータに保存し、フレーム画像取得プログラム218で、フレーム画像を取得し、キャッシュデータ212に保存する(S1002)。ここで、フレーム画像の取得は、事前に定めた時間毎(たとえば1秒ごと)に取得することで計算量およびデータ量を低減することができる。
 次に、取得したフレーム画像から、画像特徴量抽出プログラム213で画像特徴量を取得し、キャッシュデータ212に保存する(S1003)。ここで、ARカメラ101のフレーム画像である場合は、視点位置によって構図が異なるため、事前に定めた特徴量を抽出する矩形領域を、SIFT特徴量の対応付けやARマーカーなどによる位置情報を元に切り出し、その領域から特徴量を抽出してもよい。位置情報をもとに領域を特定することで、異なる構図で同じ場所を撮影した動画像を検索することができる。
 次に、オブジェクト検出プログラム214で、フレーム画像からオブジェクト領域を検出し、キャッシュデータ212に検出結果を保存する(S1004)。なお、連続するフレーム画像の場合、同じオブジェクトが前後のフレームの近い位置に表示されることが多いことから、前後のフレームのオブジェクト検出結果から多数決で取得した結果をオブジェクトとして用いたり、一定フレーム毎に検出したオブジェクトをパーティクルフィルター等で追跡して検出していないフレームのオブジェクトを補完したり、映像の連続性を活用してオブジェクトを検出することができる。これにより、全てのフレームに対してオブジェクト検出を行った場合に比べてPCの演算処理量を低減できる。
 次に、センサ情報取得プログラム220で、入力デバイス1に接続されている機器センサやマイクなどから情報を取得し、事前に登録されている機器センサやマイクの設置位置に近いカメラのフレーム画像の関連データとして、キャッシュデータ212に保存する(S1005)。
 次に、類似シーン区間検出プログラム215で、図13に結果の例を示すように、各動画で頻出する類似フレームの集合を検出することで、シーン区間を検出する(1006)。ここで、シーンとは時間的に連続する複数のフレーム画像で構成される内容が同一である映像の区間を示し、作業映像の場合には、ネジを締めている、メータを確認しているなど、同一の作業をしている区間がシーンとなる。
 シーン区間の検出は、図14に例を示すように、画像特徴量を取得するステップ(S1003)で取得した画像特徴量を用いて、記憶部410に蓄積されているすべての動画のうち、1の動画を構成する全フレームをクエリとし、残りの動画を構成する全フレームを検索対象として、クエリフレームに類似するフレームを類似画像検索プログラム217で検索する。検索結果の中から事前に定めたフレーム数以内で連続するID列を見つけることで、どのフレームが1のシーン区間かを検出する。なお、類似するかどうかの判定は、類似画像検索プログラム217で取得した類似度が事前に定めた閾値以上であるかどうかで判断できる。
 図14では、1行目に表示されているフレームIDがクエリフレームにIDであり、他は検索対象フレームのIDである。ここで下線付きのIDが連続するフレームであるが、実際のデータでは、一つの区間について複数の類似フレームのID列が検索される。この複数のID列を各区間について並べると、図15のようになり、この中でシーン数を最大とする区間を最終的なシーン区間として採用する。ここでは、フレームIDが77769から77778の区間をシーン区間とした場合には、シーン数が3であるのに対し、フレームIDが77769~77772の区間と、77773~77778の区間をシーン区間とした場合には、シーン数は11となるため、後者を採用し、クエリとなる動画のシーン区間としてシーンデータ(図12)に登録する。これを、記憶部401に蓄積されているすべての動画に対して行うことで、蓄積されている動画のシーン区間を検出することできる。
 なお、内容がほとんどないシーン区間となることを防止するために、シーン区間には区間の長さに下限値を設ける。また、シーン区間の境界は、若干の変動が含まれることが多いことから、シーン数を最大とする区間を判定する際には、両端にマージンもたせて判定を行う。このステップにより、入力映像のシーン分割と、類似シーンの対応付けが同時にできるという効果がある。
 また、入力映像が固定カメラの場合には、固定カメラの映像を検索対象とし、入力映像がARカメラの場合には、ARカメラの映像を検索対象とすることで、撮影条件の違いによる映像の違いに対応することが可能である。なお、類似フレームの判定には、映像中のオブジェクトの種別・大きさ・位置の共通性を用いる方法、映像中のARマーカーなどの一致度、センサ情報の共通性などを用いても構わない。ARカメラ101のカメラを使用した場合には、頭部の動き等で画角が変化するが、そのような場合にはオブジェクトの共通性などを用いることで、同様の作業を検出できる。各フレームの類似フレームの結果から連続するID列を検出する処理は、前のフレームの類似フレーム各々と近いフレームがあるかどうかのみ判定すればよいので、計算量は現実的な範囲内に収めることが可能である。
 次に、データ入出プログラム219で、上記ステップS1001乃至S1006で取得したデータを、映像蓄積PC4に送信し、映像データ412、フレーム画像データ413、オブジェクトデータ414、センサデータ415、シーンデータ416に保存する。上記処理を終了指示があるまで繰り返し、終了指示があった場合には登録処理を終了する(S1007)。ここで、映像解析に使用するデータに関しては、キャッシュデータ212に残しておくことで、映像解析時のデータの入出力の負荷を低減することができる。尚、映像が追加された場合は、シーンデータ416を参照して、追加した映像に登録されているシーン区間の有無を検索し、類似シーンが含まれている場合には、そのシーンと類似するシーンとして登録しても構わない。但し、大量の映像を追加した場合は、映像全体としてシーンの定義を変更したほうがよいため、その場合は全データでシーンデータを再構築したほうがよい。
<映像シーン検索>
 次に、映像シーンを検索する手順を、図11に示すフローチャートと図17のブロック図を用いて説明する。まず、画面表示プログラム916で、作業端末PC5の表示部904に、図16に例を示す映像を選択または入力するための画面を表示させ、記憶部1101(映像蓄積PC)に蓄積されている映像をクエリとして取得する(S1101)。ここで、作業者が映像を入力したい場合は、タブレット103で動画を撮像する等して取得した映像を入力し、クエリ映像としても構わない。このときユーザは、作業端末を介し、クエリ映像のうち所定のシーンあるいは所定のフレームを指定することで、指定したシーン(あるいは指定されたフレームを含むシーン)をクエリシーンとして指定する。これにより、ある程度の時間がある動画の中で、必要な場面の映像を指定して検索することができる。ユーザからの入力が無い場合には、自動的に入力映像の最初のシーンを指定されたクエリシーンとして検索を行う。もちろん、システムにおいて、ユーザからのクエリシーン指定が無い場合には、どのシーンをクエリシーンとするかあらかじめ登録しておくことも可能である。
 次に、データ入出力プログラム917で、クエリとして入力されたクエリ映像を映像解析PC3に送信し、映像を蓄積するステップのステップS1002乃至ステップ1005と同様に、フレーム画像、画像特徴量、オブジェクト領域およびセンサ情報を取得し、キャッシュデータ212に保存する(S1102、S1103、S1104、S1105)。ここで、センサ情報がない場合には、センサ情報を取得するステップ(S1105)は省略しても構わない。このS1103からS1105の処理は抽出部が行う。
 次に、類似シーン区間検出プログラム215で、入力映像に含まれる複数のシーンに対して、類似シーンを取得する。ここで、シーン区間の検出は、2種類のやり方がある。
 一つ目は、クエリとして入力された入力映像が解析済みの場合、すなわち記憶部401に蓄積されている動画がクエリとして指定された場合である。この場合には、シーン区間のデータはあらかじめシーンデータ416に登録されているため、この情報を呼び出してくれば良い。この場合、検索部1103を経ずに、直接シーン検出部1104がシーンデータ416を参照してこの後の処理を実行する。
 二つ目は、クエリとして入力された入力映像が解析されていない場合である。この場合には、類似画像検索プログラム217で、入力映像の各フレームをクエリとした類似画像検索を行ってフレームごとに類似画像を取得する(S1106)。この類似画像検索プログラムを用いた処理は検索部1103が行う。
 次に、入力映像と類似するフレーム画像が連続しているID列の有無を、シーンデータ416を参照して検索し、シーン数を最大とする対応がとれる区間を入力映像のシーン区間として検出する(S1107)。
 なお、ここではシーンデータに含まれるシーン区間があるかどうかのみ判定すればよいので、映像を蓄積する手順のように、すべての映像から再度シーン区間を検出し直す必要はない。また、ここで複数の類似シーンがある場合には、複数の候補を取得する。
 このいずれかのやり方により、入力映像のシーン区間を検出し、類似画像検索の結果を用いて類似シーンを検出する。
 次に、類似シーン選定プログラム216で、ステップS1107で検出した複数のシーンから、類似シーンとして採用するシーンを選定する(S1108)。
 まず、類似シーンの候補を、シーンデータ416のシーン種別IDが同じシーンを追加シーンの候補として拡張し、その中から最適なシーンを選定する。ここで、シーンの選定には、前後の内容が似ているシーンであれば、より類似シーンとして適していると考えられるため、ある1シーンが類似である映像が複数あった場合には、当該シーンの
前後のシーンも類似するシーンを類似シーンとして選定する。具体的には、入力映像と蓄積映像の類似シーン各々に対して、前後のシーンも類似している候補の蓄積映像を優先的に選定する。
 なお、前後の類似性の判定に、センサデータ415に蓄積されているセンサ情報の一致度を用いて選定しても構わない。センサデータの類似性を用いることで、機器が同じような状況における作業内容を優先的に選定できるという効果がある。類似しているシーンから、更に前後のシーンの類似性を加味して、類似シーンを絞り込むことで、同じ作業を示す映像であっても、より同一の作業内容を示すシーンが見つけやすくなるという効果がある。また、作業者の属性などの情報を用いて、熟練度合いを判定し、類似シーンが複数の場合には、熟練者の映像を積極的に提示することも可能である。このS1107からS1108の処理はシーン検出部1105が行う。
 次に、映像編集プログラム912で、類似シーン選定プログラム216で取得した類似シーンの情報を用いて映像を編集する(S1109)。作業映像を対象とする場合、複数の類似シーンが取得されている場合には、蓄積映像と共に登録されている作業者の熟練度合いまたは作業時間(シーンの継続時間)を基に、熟練度合いが高い、または効率的に作業が実現できていると推測されるシーンの継続時間が短い時間を選択して、入力映像の各々のシーンを選択されたシーンに置換した映像を生成する。なお、シーンの選定には、他の基準を用いても構わない。このS1109の処理は置換映像生成部が行う。もちろん、置換映像を生成せずに、類似シーンをそのまま表示することもできる。本ステップを用いることで、熟練度合いが高いと判断された動画のみをつなぎ合わせた教育用映像や、入力映像と同じ構成で、かつ権利上問題がない放送映像を容易に生成することができる。
 次に、S1108で類似シーンとされたシーンを含む映像、あるいは映像を編集するステップS1109で生成された映像を、画面表示プログラム916で、表示部904などに表示させる(S1110)。ここで映像の閲覧者が作業者である場合は、作業者画面生成プログラム914で生成した画面を用いて、作業後に作業内容を入力し、蓄積映像に保存されている同じ作業映像でより作業効率が高いシーンが含まれる映像を確認することで、改善すべき作業箇所の確認や作業漏れを確認できるという効果がある。
 また、映像の閲覧者が監督者である場合は、監督者画面生成プログラム914で生成した画面を用いて、作業者を指定し、その作業者の作業映像に含まれるシーンと他の作業者のシーンを比較することで、作業効率が高い部分と低い部分を容易に分析できるという効果がある。また、放送映像などを対象とする場合、権利上使えない映像を入力として、蓄積されている映像から権利上問題ないシーンを取得して置換することで、入力映像と同じ構成で権利上問題がない映像を生成できるという効果がある。
 以上を踏まえ、本実施例に記載の画像検索装置は、複数の時間的に連続した画像から構成されるシーンと、複数のシーンから構成される動画像を検索する装置であって、
 クエリ動画像と、複数の検索用動画像と、検索用動画像を構成する複数の第1画像から抽出した複数の第1画像特徴量と、検索用動画像を構成する第1シーンについての情報である第1シーン情報とを記憶する記憶部と、クエリ動画像を構成する複数の第2画像から複数の第2画像特徴量を抽出する抽出部と、第2画像特徴量と第1画像特徴量とを用いて、第2画像に類似する第1画像を検索し、検索結果を出力する検索部と、検索結果と第1シーン情報とを用いて、クエリ動画像を構成する第2シーンに類似した第1シーンを、類似シーンとして検出する類似シーン検出部と、を有することを特徴とする。
 また、本実施例に記載の画像検索方法は、複数の時間的に連続した画像から構成されるシーンと、複数のシーンから構成される動画像を検索する方法であって、クエリ動画像と、複数の検索用動画像と、検索用動画像を構成する複数の第1画像から抽出した複数の第1画像特徴量と、検索用動画像を構成する第1シーンについての情報である第1シーン情報とを記憶部に記憶する第1ステップと、クエリ動画像を構成する複数の第2画像から複数の第2画像特徴量を抽出する第2ステップと、第2画像特徴量と第1画像特徴量とを用いて、第2画像に類似する前記第1画像を検索し、検索結果を出力する第3ステップと、検索結果と第1シーン情報とを用いて、クエリ動画像を構成する第2シーンに類似した第1シーンを、類似シーンとして検出する第4ステップと、を有することを特徴とする。
 本実施例の画像検索装置を用いることで、蓄積映像の性質に基づいて、入力映像のシーン分割と、各々のシーンの類似シーンが検索できるので、異なる蓄積映像から最適なシーンを集めて置換映像を生成したい場合に、最適なシーンの素材を選択して映像を生成できるという効果がある。また、作業映像を対象とした場合に、類似シーンを検出することで、他の作業員が作業した同じ作業内容の映像を容易に閲覧することができるため、作業内容のチェックや効率よく作業するためのマニュアルとして映像が活用できるという効果がある。
 101 ARカメラ
 102 カメラ
 103 タブレット
 104 マイク
 105 機器センサ
 201 CPU
 202 主メモリ
 203 入力部
 204 表示部
 205 通信部
 210 記憶部
 211 OS
 212 キャッシュデータ
 213 画像特徴量抽出プログラム
 214 オブジェクト検出プログラム 
 215 類似シーン区間検出プログラム
 216 類似シーン選定プログラム
 217 類似画像検索プログラム 
 218 フレーム画像取得プログラム
 219 データ入出力プログラム
 220 センサ情報取得プログラム
 401 CPU
 402 主メモリ
 403 入力部
 404 表示部
 405 通信部
 410 記憶部
 411 OS
 412 映像データ
 413 フレーム画像データ
 414 オブジェクトデータ
 415 センサデータ
 416 シーンデータ
 417 映像蓄積プログラム
 418 データ入出力プログラム
 901 CPU
 902 主メモリ
 903 入力部
 904 表示部
 905 通信部
 910 記憶部
 911 OS
 912 映像編集プログラム
 913 編集画面生成プログラム
 914 作業者画面生成プログラム
 915 監督者画面生成プログラム
 916 画面表示プログラム
 917 データ入出力プログラム
 1000 映像検索システム
 1100 映像解析部
 1101 記憶部
 1102 特徴量抽出部
 1103 検索部
 1104 シーン検出部
 1105 置換映像生成部。

Claims (10)

  1.  複数の時間的に連続した画像から構成されるシーンと、複数の前記シーンから構成される動画像を検索する装置であって、
     クエリ動画像と、複数の検索用動画像と、前記検索用動画像を構成する複数の第1画像から抽出した複数の第1画像特徴量と、前記検索用動画像を構成する複数の第1シーンについての情報である第1シーン情報とを記憶する記憶部と、
     前記クエリ動画像を構成する複数の第2画像から複数の第2画像特徴量を抽出する抽出部と、
     前記第2画像特徴量と第1画像特徴量とを用いて、前記第2画像に類似する前記第1画像を検索し、検索結果を出力する検索部と、
     前記検索結果と前記第1シーン情報とを用いて、前記クエリ動画像を構成する複数の第2シーンのうち、指定されたクエリシーンに類似する類似第1シーンを類似シーンとして検出し、前記類似シーンを含む検索用動画像を出力する類似シーン検出部と、を有することを特徴とする画像検索装置。
  2.  請求項1に記載の画像検索装置であって、
     複数の前記検索用動画像を解析し、前記第1画像特徴量と前記第1シーン情報とを前記記憶部へ出力する解析部を、さらに有し、
     前記解析部では、
    複数の前記検索用動画像を構成する複数の画像から前記第1画像特徴量を抽出し、
    前記第1画像特徴量を用いて類似度を算出することで、一の前記検索用動画像を構成する第3画像に類似する第4画像を検索し、
    複数の前記第4画像のうち、時間的に連続する区間を検出し、
    前記区間に含まれる前記第4画像と類似する複数の前記第3画像を1のシーンと判定し、前記第1シーン情報として出力することを特徴とする画像検索装置。
  3.  請求項2に記載の画像検索装置であって、
     前記類似シーン検出部では、
    前記類似第1シーンが複数検出された場合、前記クエリシーンの時間的に前のシーンと前記類似第1シーンの時間的に前のシーンとが類似する前記類似第1シーンを前記類似シーンとして検出することを特徴とする画像検索装置。
  4.  請求項1に記載の画像検索装置であって、
     前記クエリ動画像は、複数の前記検索用動画像のうちから指定されることを特徴とする画像検索装置。
  5.  請求項1に記載の画像検索装置であって、
     前記第2シーンを前記類似シーンに置き換えることにより、置換動画像を生成する生成部、をさらに有することを特徴とする画像検索装置。
  6.  複数の時間的に連続した画像から構成されるシーンと、複数の前記シーンから構成される動画像を検索する方法であって、
     クエリ動画像と、複数の検索用動画像と、前記検索用動画像を構成する複数の第1画像から抽出した複数の第1画像特徴量と、前記検索用動画像を構成する第1シーンについての情報である第1シーン情報とを記憶部に記憶する第1ステップと、
     前記クエリ動画像を構成する複数の第2画像から複数の第2画像特徴量を抽出する第2ステップと、
     前記第2画像特徴量と第1画像特徴量とを用いて、前記第2画像に類似する前記第1画像を検索し、検索結果を出力する第3ステップと、
     前記検索結果と前記第1シーン情報とを用いて、前記クエリ動画像を構成する複数の第2シーンのうち、指定されたクエリシーンに類似する類似第1シーンを、類似シーンとし、前記類似シーンを含む検索用動画像を出力する第4ステップと、を有することを特徴とする画像検索方法。
  7.  請求項6に記載の画像検索方法であって、
     複数の前記検索用動画像を解析し、前記第1画像特徴量と前記第1シーン情報とを前記記憶部へ出力する第5ステップ、をさらに有し、
     前記第5ステップでは、
    複数の前記検索用動画像を構成する複数の画像から前記第1画像特徴量を抽出し、
    前記第1画像特徴量を用いて類似度を算出することで、一の前記検索用動画像を構成する第3画像に類似する第4画像を検索し、
    複数の前記第4画像のうち、時間的に連続する区間を検出し、
    前記区間に含まれる前記第4画像と類似する複数の前記第3画像を1のシーンと判定し、前記第1シーン情報として出力することを特徴とする画像検索方法。
  8.  請求項7に記載の画像検索方法であって、
     前記第2ステップでは、
    前記類似第1シーンが複数検出された場合、前記クエリシーンの時間的に前のシーンと前記類似第1シーンの時間的に前のシーンとが類似する前記類似第1シーンを、前記類似シーンとして検出することを特徴とする画像検索方法。
  9.  請求項6に記載の画像検索方法であって、
     前記クエリ動画像は、複数の前記検索用動画像のうちから指定されることを特徴とする画像検索方法。
  10.  請求項6に記載の画像検索方法であって、
     前記第2シーンを前記類似シーンに置き換えることにより、置換動画像を生成する第6ステップ、をさらに有することを特徴とする画像検索方法。
PCT/JP2014/083326 2014-12-17 2014-12-17 画像検索装置および画像検索方法 WO2016098187A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/083326 WO2016098187A1 (ja) 2014-12-17 2014-12-17 画像検索装置および画像検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/083326 WO2016098187A1 (ja) 2014-12-17 2014-12-17 画像検索装置および画像検索方法

Publications (1)

Publication Number Publication Date
WO2016098187A1 true WO2016098187A1 (ja) 2016-06-23

Family

ID=56126110

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/083326 WO2016098187A1 (ja) 2014-12-17 2014-12-17 画像検索装置および画像検索方法

Country Status (1)

Country Link
WO (1) WO2016098187A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005303840A (ja) * 2004-04-14 2005-10-27 Sony Corp 動画編集装置及び動画編集方法
JP2010074832A (ja) * 2008-09-16 2010-04-02 Widilab デジタル動画コンテンツの類似度の測定方法、これを用いる動画コンテンツの管理方法、及び前記管理方法を用いる動画コンテンツの管理システム
JP2011041299A (ja) * 2003-01-06 2011-02-24 Koninkl Philips Electronics Nv 類似のビデオコンテンツへの乗り換えのための方法および装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011041299A (ja) * 2003-01-06 2011-02-24 Koninkl Philips Electronics Nv 類似のビデオコンテンツへの乗り換えのための方法および装置
JP2005303840A (ja) * 2004-04-14 2005-10-27 Sony Corp 動画編集装置及び動画編集方法
JP2010074832A (ja) * 2008-09-16 2010-04-02 Widilab デジタル動画コンテンツの類似度の測定方法、これを用いる動画コンテンツの管理方法、及び前記管理方法を用いる動画コンテンツの管理システム

Similar Documents

Publication Publication Date Title
US10964108B2 (en) Augmentation of captured 3D scenes with contextual information
US11321583B2 (en) Image annotating method and electronic device
US9210385B2 (en) Method and system for metadata extraction from master-slave cameras tracking system
JP5801395B2 (ja) シャッタクリックを介する自動的メディア共有
US11315340B2 (en) Methods and systems for detecting and analyzing a region of interest from multiple points of view
JP2017130146A (ja) 画像管理装置、画像管理方法及びプログラム
US20200296332A1 (en) System and method of video capture and search optimization
KR20090093904A (ko) 장면 변화에 강인한 멀티미디어 영상 분석 장치 및 그 방법과, 그를 이용한 객체 기반 멀티미디어 편집 시스템
JP2009289112A (ja) 作業情報提供装置、作業情報提供方法、およびプログラム
JP6618349B2 (ja) 映像検索システム
CN111402289A (zh) 基于深度学习的人群表演误差检测方法
JP2007316876A (ja) 文書検索プログラム
JP7015130B2 (ja) データ処理装置
WO2016098187A1 (ja) 画像検索装置および画像検索方法
CN114048541B (zh) 基于数字孪生的资产空间标记方法及系统
JP2017028688A (ja) 画像管理装置、画像管理方法及びプログラム
CN106777078A (zh) 一种基于信息数据库的视频检索方法和系统
WO2021149261A1 (ja) 表示システムおよび表示方法
WO2015159417A1 (ja) 撮影映像による文書検索システム
US20230046304A1 (en) Display system and display method
JP2020119368A (ja) 映像情報管理システムおよび映像情報管理方法
US11915356B2 (en) Semi-automatic 3D scene optimization with user-provided constraints
KR102542363B1 (ko) 3차원 공간에서 객체를 인식하는 방법
US20180189602A1 (en) Method of and system for determining and selecting media representing event diversity
KR101640020B1 (ko) 강화 이미지 제공 시스템 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14908397

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14908397

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP