WO2022070340A1 - 映像検索システム、映像検索方法、及びコンピュータプログラム - Google Patents

映像検索システム、映像検索方法、及びコンピュータプログラム Download PDF

Info

Publication number
WO2022070340A1
WO2022070340A1 PCT/JP2020/037251 JP2020037251W WO2022070340A1 WO 2022070340 A1 WO2022070340 A1 WO 2022070340A1 JP 2020037251 W JP2020037251 W JP 2020037251W WO 2022070340 A1 WO2022070340 A1 WO 2022070340A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
similarity
scene information
search query
cluster
Prior art date
Application number
PCT/JP2020/037251
Other languages
English (en)
French (fr)
Inventor
洋介 本橋
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2020/037251 priority Critical patent/WO2022070340A1/ja
Priority to JP2022553334A priority patent/JPWO2022070340A1/ja
Priority to US18/023,124 priority patent/US20230297613A1/en
Publication of WO2022070340A1 publication Critical patent/WO2022070340A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings

Definitions

  • the present invention relates to a video search system for searching video, a video search method, and a technical field of a computer program.
  • Patent Document 1 discloses a technique for extracting an image feature amount for each frame from a video and searching for the video.
  • Patent Document 2 discloses a technique for searching a video using a still image for a search query.
  • the present invention has been made in view of the above problems, and an object of the present invention is to provide a video search system, a video search method, and a computer program capable of appropriately searching for a desired video.
  • One aspect of the video search system of the present invention is a scene information acquisition unit that acquires scene information indicating the scene of the video, a search query acquisition unit that acquires a search query, and similarities between the scene information and the search query.
  • a similarity calculation unit for calculating the degree and a video search unit for searching the video corresponding to the search query based on the similarity are provided.
  • scene information indicating a video scene is acquired, a search query is acquired, the similarity between the scene information and the search query is calculated, and the similarity is based on the similarity.
  • Search for the video corresponding to the search query is acquired.
  • One aspect of the computer program of the present invention is to acquire scene information indicating a video scene, acquire a search query, calculate the similarity between the scene information and the search query, and based on the similarity, Operate the computer to search for the video corresponding to the search query.
  • each one of the above-mentioned video search system, video search method, and computer program it is possible to appropriately search for a desired video, and in particular, appropriately execute a video search using natural language. can do.
  • FIG. 1 is a block diagram showing a hardware configuration of the video search system according to the first embodiment.
  • the video search system 10 includes a CPU (Central Processing Unit) 11, a RAM (Random Access Memory) 12, a ROM (Read Only Memory) 13, and a storage device 14. It is equipped with.
  • the video search system 10 may further include an input device 15 and an output device 16.
  • the CPU 11, the RAM 12, the ROM 13, the storage device 14, the input device 15, and the output device 16 are connected via the data bus 17.
  • the CPU 11 reads a computer program.
  • the CPU 11 is configured to read a computer program stored in at least one of the RAM 12, the ROM 13, and the storage device 14.
  • the CPU 11 may read a computer program stored in a computer-readable recording medium using a recording medium reading device (not shown).
  • the CPU 11 may acquire (that is, may read) a computer program from a device (not shown) arranged outside the video search system 10 via a network interface.
  • the CPU 11 controls the RAM 12, the storage device 14, the input device 15, and the output device 16 by executing the read computer program.
  • a functional block for searching a video is realized in the CPU 11.
  • the RAM 12 temporarily stores the computer program executed by the CPU 11.
  • the RAM 12 temporarily stores data temporarily used by the CPU 11 while the CPU 11 is executing a computer program.
  • the RAM 12 may be, for example, a D-RAM (Dynamic RAM).
  • the ROM 13 stores a computer program executed by the CPU 11.
  • the ROM 13 may also store fixed data.
  • the ROM 13 may be, for example, a P-ROM (Programmable ROM).
  • the storage device 14 stores data stored for a long period of time by the video search system 10.
  • the storage device 14 may operate as a temporary storage device of the CPU 11.
  • the storage device 14 may include, for example, at least one of a hard disk device, a magneto-optical disk device, an SSD (Solid State Drive), and a disk array device.
  • the input device 15 is a device that receives an input instruction from the user of the video search system 10.
  • the input device 15 may include, for example, at least one of a keyboard, a mouse and a touch panel.
  • the output device 16 is a device that outputs information about the video search system 10 to the outside.
  • the output device 16 may be a display device (for example, a display) capable of displaying information about the video search system 10.
  • FIG. 2 is a block diagram showing a functional block included in the video search system according to the first embodiment.
  • FIG. 3 is a block diagram showing a configuration of a modified example of the video search system according to the first embodiment.
  • the video search system 10 is configured to be able to search for a desired video (specifically, a video corresponding to a search query input by a user) from the stored video.
  • the video to be searched includes, for example, a life log based on the video, but is not particularly limited.
  • the video may be stored in, for example, a storage device 14 (see FIG. 1) or a storage means (for example, a server or the like) outside the system.
  • the video search system 10 includes a scene information acquisition unit 110, a search query acquisition unit 120, a similarity calculation unit 130, and a video search unit 140 as functional blocks for realizing the function. .. These functional blocks are realized, for example, in the CPU 11 (see FIG. 1).
  • the scene information acquisition unit 110 is configured to be able to acquire scene information indicating a video scene.
  • the scene information includes, for example, location information on which the image was captured, time information, information indicating the situation and atmosphere when the image was taken, and the like.
  • the scene information may include other information that may be related to the scene of the video.
  • the position information is information obtained from, for example, GPS (Global Positioning System) or the like.
  • the time information is information about the date and time obtained from a time stamp or the like.
  • the information indicating the situation, atmosphere, etc. when the image is taken may include information obtained from the behavior of the imager or the imaged person.
  • the scene information may be assigned to one video one by one, or a plurality of scene information may be assigned to one video for a video in which scenes are switched.
  • a plurality of scene information may be added to the video of a certain period.
  • time information obtained from a time stamp and position information obtained from GPS may be added as scene information to a video of a certain period.
  • the scene information acquisition unit 110 may include a storage unit that stores the acquired scene information. The scene information acquired by the scene information acquisition unit 110 is output to the similarity calculation unit 130.
  • the search query acquisition unit 120 is configured to be able to acquire the search query input by the user.
  • the search query contains information about the video desired by the user (that is, the video to be searched for).
  • the search query is entered, for example, as a natural language.
  • the search query in this case may include, for example, a plurality of words or phrases. Examples of search queries in natural language include "sandwiches eaten while using a computer", “distillation kilns visited", and "lunch eaten in Hokkaido".
  • the user can input a search query using, for example, an input device 15 (see FIG. 1 or the like).
  • the search query acquired by the search query acquisition unit 120 is configured to be output to the similarity calculation unit 130.
  • the similarity calculation unit 130 is configured to be able to calculate the similarity between the object tag acquired by the scene information acquisition unit 110 and the search query acquired by the search query acquisition unit 120.
  • the "similarity" here is calculated as a quantitative parameter indicating the degree of similarity between the scene information and the search query.
  • the similarity may be calculated for each of the plurality of images, or may be calculated for each predetermined period of the images. In this case, the predetermined period may be appropriately determined according to the image and may be variable.
  • the similarity calculation unit 130 may have a function of decomposing a search query into a plurality of words (search terms) by using, for example, a dictionary or morphological analysis.
  • the similarity calculation unit 130 may calculate the number of matches between the object tag and the search term as the similarity.
  • the number of matches between the object tag and the search term may be calculated, for example, in a preset aggregation time (for example, 1 minute, 1 hour, etc.).
  • the similarity calculated by the similarity calculation unit 130 is output to the video search unit 140.
  • the similarity calculation unit 130 may divide the video into a plurality of scene ranges based on the scene information, divide the video into a plurality of scene ranges based on the scene information, and calculate the similarity for each scene range.
  • the scene range may be set using the bias of the scene information in the video.
  • the image is divided by a predetermined time (for example, 10 seconds) and the position information of each divided image (hereinafter, appropriately referred to as "separated image") is obtained. Calculate the average value of the latitude and longitude information included in.
  • the difference between the calculated average values of the adjacent separated videos is less than the predetermined value, they are integrated as the same divided video (for example, there are separated videos such as 1, 2, 3, 4, ..., 3 and 4). If the difference between 3 and 4 is less than a predetermined value, 3 and 4 are integrated into 5, and 1, 2, 5, ). After that, the average value is calculated again for the integrated separated video, and the same process is repeated until there is no difference whose difference is less than the predetermined value. By doing so, the images taken at a relatively close place will be set as one scene.
  • the scene range may be set using the bias of the object tag.
  • the scene range may be set using information that is reflected in the image for a certain period of time or longer. For example, a period in which the same object is continuously reflected for a certain period or longer may be set as one scene range.
  • an object tag may be used to identify the object reflected in the image.
  • the video search unit 140 searches for video according to the search query based on the similarity calculated by the similarity calculation unit 130.
  • the video search unit 140 searches for a video whose similarity satisfies a predetermined condition, for example.
  • the video search unit 140 may output the searched video as a search result. In this case, a plurality of images may be output.
  • the video search unit 140 may output the video having the highest degree of similarity, or may output a plurality of videos having the highest degree of similarity as the search result.
  • the video search unit 140 may have a function of reproducing the video output as the search result.
  • the video search unit 140 may have a function of displaying an image showing a video output as a search result, such as a thumbnail.
  • the video search system 10 may be configured to include a scene information adding unit 150.
  • the scene information adding unit 150 adds scene information to the video by using, for example, a pre-machine-learned scene recognition model. As a specific method of automatically recognizing a scene and adding scene information, it is possible to appropriately adopt an existing technique.
  • the video search system 10 includes the scene information adding unit 150, the video search can be performed even when the scene information is not added to the video. That is, in the video search system 10, the scene information adding unit 150 can add scene information to the video and then perform the video search.
  • the video search system 10 does not include the scene information adding unit 150, it is sufficient to prepare a video to which the scene information is added in advance. In this case, the scene information may be automatically given by video analysis or may be given manually.
  • FIG. 4 is a flowchart showing the operation flow of the video search system according to the first embodiment.
  • the scene information acquisition unit 110 first acquires scene information from the accumulated video (step S101).
  • scene information may be added by the scene information adding unit 150 before step S101 is executed.
  • the search query acquisition unit 120 acquires the search query entered by the user (step S102).
  • the similarity calculation unit 130 calculates the similarity between the scene information acquired by the scene information acquisition unit 110 and the search query acquired by the search query acquisition unit 120 (step S103).
  • the video search unit 140 searches for the video according to the search query based on the degree of similarity (step S104).
  • the video search system 10 may be configured to enable narrowing down of search results. In this case, after a new search query is acquired by the search query acquisition unit 120, the process of step S103 (that is, calculation of similarity) and the process of step S104 (that is, video search based on the similarity) described above are performed. Should be executed again.
  • video search is performed based on the degree of similarity between the scene information and the search query. Therefore, it is possible to appropriately search for the video corresponding to the search query. Then, in the video search system 10 according to the present embodiment, in particular, even when the search query is input as a natural language, the video desired by the user can be appropriately searched.
  • video search using a search query in natural language can be performed, so even if some information is missing in the search query, it is desired from a large amount of video. It is possible to search for the video to be used. In other words, it is possible to realize highly accurate video search while allowing some ambiguity.
  • the second embodiment differs from the first embodiment described above in a part of the configuration and operation (specifically, the point that the cluster is used for calculating the similarity), and the other parts are different. It is almost the same. Therefore, in the following, the parts different from the first embodiment will be described in detail, and the description of other overlapping parts will be omitted as appropriate.
  • FIG. 5 is a block diagram showing a functional block included in the video search system according to the second embodiment.
  • FIG. 6 is a table showing an example of a word corresponding to a cluster.
  • the same components as those shown in FIG. 2 are designated by the same reference numerals.
  • the video search system 10 includes a word vector analysis unit 50, a word clustering unit 60, a word cluster information storage unit 70, a scene information acquisition unit 110, and a search query acquisition.
  • a unit 120, a similarity calculation unit 130, a video search unit 140, a first cluster acquisition unit 160, and a second cluster acquisition unit 170 are provided. That is, in the video search system 10 according to the second embodiment, in addition to the configuration of the first embodiment (see FIG. 2), the word vector analysis unit 50, the word clustering unit 60, the word cluster information storage unit 70, and the first cluster The acquisition unit 160 and the second cluster acquisition unit 170 are further provided.
  • the word vector analysis unit 50 is configured to analyze document data and convert words contained in the document into vector data (hereinafter, appropriately referred to as "word vector").
  • the document data may be, for example, a general document such as a web site or a time point, or a document related to a video (for example, a document related to the business or service of the photographer of the video).
  • a document related to video it is possible to analyze the similarity based on technical terms related to video rather than the similarity of general words.
  • the word vector analysis unit 50 converts into a word vector by using, for example, a wordembedding method such as word2vec or a docembedding method such as doc2vec.
  • the word vector generated by the word vector analysis unit 50 is output to the word clustering unit 60.
  • the word clustering unit 60 is configured so that each word can be clustered based on the word vector generated by the word vector analysis unit 50.
  • the word clustering unit 60 may perform clustering based on the similarity between the vectors of words.
  • the word clustering unit 60 performs clustering by k-means, for example, based on the cos similarity between word vectors and the Euclidean distance.
  • the clustering method is not particularly limited.
  • the clustering result of the word clustering unit 60 is output to the word cluster information storage unit 70.
  • the word cluster information storage unit 70 is configured to be able to store the result of clustering by the word clustering unit 60.
  • the word cluster information storage unit 70 stores the ID of each cluster and the words belonging to each cluster, as shown in FIG. 7, for example.
  • the information stored in the word cluster information storage unit 70 is stored in a state in which it can be appropriately used by the first cluster acquisition unit 160 and the second cluster acquisition unit 170.
  • the first cluster acquisition unit 160 uses the information stored in the word cluster information storage unit 70 (that is, the result of clustering) to perform clustering using the information included in the scene information acquired by the scene information acquisition unit 110. It is configured to be able to execute and acquire a cluster to which the information included in the scene information belongs (hereinafter, appropriately referred to as "first cluster").
  • the information contained in the object tag includes, for example, a word contained in the object tag, but the information is not limited to this.
  • the information about the first cluster acquired by the first cluster acquisition unit 160 is output to the similarity calculation unit 130.
  • the second cluster acquisition unit 170 uses the information stored in the word cluster information storage unit 70 (that is, the result of clustering), and the information included in the search query acquired by the search query acquisition unit 120 (typically). , A cluster (hereinafter, appropriately referred to as "second cluster") to which a word included in a search query belongs can be acquired.
  • the information about the second cluster acquired by the second cluster acquisition unit 170 is output to the similarity calculation unit 130.
  • FIG. 7 is a flowchart showing the operation flow of the video search system according to the second embodiment.
  • the same reference numerals are given to the same processes as those shown in FIG.
  • the scene information acquisition unit 110 first acquires scene information from the accumulated video (step S101). Then, the first cluster acquisition unit 160 acquires the first cluster to which the information included in the scene information belongs by using the clustering result stored in the word cluster information storage unit 70 (step S102). For example, the first cluster acquisition unit 160 makes an inquiry to the word cluster information storage unit 70 for each of the words included in the scene information acquired from the video, and acquires the cluster ID corresponding to each word.
  • the search query acquisition unit 120 acquires the search query entered by the user (step S102).
  • the second cluster acquisition unit 170 acquires the second cluster to which the information included in the search query belongs by using the clustering result stored in the word cluster information storage unit 70 (step S202).
  • the second cluster acquisition unit 170 makes an inquiry to the word cluster information storage unit 70 for each of the search terms included in the search query, and acquires the cluster ID corresponding to each search term.
  • the similarity calculation unit 130 calculates the similarity between the object tag and the search query by comparing the first cluster and the second cluster (step S103).
  • the similarity in the second embodiment is calculated as the similarity between the first cluster (that is, the cluster to which the scene information belongs) and the second cluster (that is, the cluster to which the search query belongs).
  • the video search unit 140 searches for the video corresponding to the search query based on the similarity (step S104).
  • the similarity between the first cluster and the second cluster can be calculated as the cos similarity when the cluster information of the first cluster and the cluster information of the second cluster are regarded as vectors.
  • the cluster information of the first cluster is Va
  • the cluster information of the second cluster is Vb
  • the degree of similarity between the first cluster and the second cluster can be calculated using the following equation (1).
  • is norms of Va and Vb, respectively.
  • the similarity is calculated using the cluster to which the word included in the scene information and the search query belongs. By doing so, the similarity between the object tag and the search query can be calculated as a more appropriate value. Therefore, it is possible to search the video corresponding to the search query more appropriately.
  • the video search system 10 according to the third embodiment will be described with reference to FIGS. 8 to 11.
  • the third embodiment differs from the first and second embodiments described above only in a part of the configuration and operation (specifically, the point of using an object tag), and the other parts are generally different. The same is true. Therefore, in the following, the parts different from the first and second embodiments will be described in detail, and the description of other overlapping parts will be omitted as appropriate.
  • FIG. 8 is a block diagram showing a functional block included in the video search system according to the third embodiment.
  • FIG. 9 is a table showing an example of an object tag.
  • FIG. 10 is a block diagram showing a configuration of a modified example of the video search system according to the third embodiment.
  • the same components as those shown in FIGS. 2 and 3 are designated by the same reference numerals.
  • the video search system 10 according to the third embodiment has a scene information acquisition unit 110, a search query acquisition unit 120, a similarity calculation unit 130, a video search unit 140, and an object tag acquisition unit. It is equipped with 180. That is, the video search system 10 according to the third embodiment is configured to further include an object tag acquisition unit 180 in addition to the configuration of the first embodiment (see FIG. 2).
  • the object tag acquisition unit 180 is configured to be able to acquire an object tag from the accumulated video.
  • the object tag is information about an object reflected in the image, and is associated with each object in the image. However, a plurality of object tags may be associated with one object.
  • the object tag is typically a general noun, but may be associated with a proper noun by performing an identity test or the like, for example. That is, the object tag may include unique identification information that individually distinguishes the objects). Further, the object tag may be information indicating information other than the name of the object (for example, shape, property, etc.).
  • the object tag acquisition unit 180 may acquire an object tag in units of frames of video, for example.
  • the object tag acquisition unit 180 may include a storage unit that stores the acquired object tag. As shown in FIG. 9, for example, the object tag may be stored in the storage unit for each frame of each video.
  • the object tag acquired by the object tag acquisition unit 180 is configured to be output to the similarity calculation unit 130.
  • the video search system 10 may include a scene information adding unit 150 and an object tag adding unit 190. That is, the object tagging unit 190 may be further provided in the modified example of the video search system shown in FIG.
  • the object tagging unit 190 associates an object tag with an object reflected in an image by using, for example, a machine-learned object recognition model in advance.
  • a specific method of recognizing an object and attaching an object tag it is possible to appropriately adopt an existing technique.
  • the video search system 10 includes the object tag attachment unit 190, the video search can be performed even when the object tag is not attached to the video. That is, the video search system 10 can perform a video search after the object tag adding unit 190 attaches an object tag to the video.
  • a video to which the object tag is attached may be prepared in advance. In this case, the object tag may be automatically attached by video analysis or may be attached manually.
  • FIG. 11 is a flowchart showing the operation flow of the video search system according to the third embodiment.
  • the same reference numerals are given to the same processes as those shown in FIG.
  • the scene information acquisition unit 110 first acquires scene information from the accumulated video (step S101). Further, the object tag acquisition unit 180 acquires the object tag from the accumulated video (step S301). Further, the search query acquisition unit 120 acquires the search query input by the user (step S102). In the configuration provided with the object tagging unit 190 described above, the object tag attachment unit 190 may execute the object tag attachment before the step S301 is executed.
  • the similarity calculation unit 130 calculates the similarity between the scene information and the object tag and the search query (step S103).
  • the similarity here may be calculated separately as the similarity between the scene information and the search query, and the similarity between the object tag and the search query (that is, the similarity regarding the scene information and the similarity regarding the object tag). Two types of similarity with and may be calculated).
  • the similarity may be calculated collectively as the similarity between both the scene information and the object tag and the search query (that is, one kind of similarity considering both the scene information and the object tag is calculated. May be).
  • the video search unit 140 searches for the video according to the search query based on the similarity (step S104). If the similarity between the scene information and the search query and the similarity between the object tag and the search query are calculated separately, the overall similarity calculated from the two similarities (for example,). The video according to the search query may be searched based on the average value of the two similarities, etc.).
  • the similarity is further calculated using the object tag.
  • the video search system 10 according to the fourth embodiment will be described with reference to FIGS. 12 and 13. It should be noted that the fourth embodiment differs from the third embodiment described above only in a part of the configuration and operation (specifically, the point that the cluster is used for calculating the similarity), and the other parts are different. It is almost the same. Therefore, in the following, the parts different from the third embodiment will be described in detail, and the description of other overlapping parts will be omitted as appropriate.
  • FIG. 12 is a block diagram showing a functional block included in the video search system according to the fourth embodiment.
  • the same components as those shown in FIGS. 5 and 8 are designated by the same reference numerals.
  • the video search system 10 includes a word vector analysis unit 50, a word clustering unit 60, a word cluster information storage unit 70, a scene information acquisition unit 110, and a search query acquisition.
  • a unit 120, a similarity calculation unit 130, a video search unit 140, a first cluster acquisition unit 160, a second cluster acquisition unit 170, an object tag acquisition unit 180, and a third cluster acquisition unit 200 are provided.
  • the first cluster acquisition unit 160, the second cluster acquisition unit 170, and the third cluster acquisition unit 200 are further provided.
  • the first cluster acquisition unit 160 and the second cluster acquisition unit 170 may be the same as the configuration of the second embodiment (see FIG. 5).
  • the third cluster acquisition unit 200 uses the information stored in the word cluster information storage unit 70 (that is, the result of clustering), and the cluster to which the information included in the object tag acquired by the object tag acquisition unit 180 belongs (hereinafter referred to as). , Appropriately referred to as "third cluster").
  • the information about the third cluster acquired by the third cluster acquisition unit 200 is output to the similarity calculation unit 130.
  • FIG. 13 is a flowchart showing the operation flow of the video search system according to the fourth embodiment.
  • the same reference numerals are given to the same processes as those shown in FIGS. 7 and 11.
  • the scene information acquisition unit 110 first acquires scene information from the stored video (step S101). Then, the first cluster acquisition unit 160 acquires the first cluster to which the information included in the scene information belongs by using the clustering result stored in the word cluster information storage unit 70 (step S102).
  • the object tag acquisition unit 180 acquires the object tag from the accumulated video (step S301). Then, the third cluster acquisition unit 200 acquires the third cluster to which the information included in the object tag belongs by using the clustering result stored in the word cluster information storage unit 70 (step S401).
  • the search query acquisition unit 120 acquires the search query entered by the user (step S102). Then, the second cluster acquisition unit 170 acquires the second cluster to which the information included in the search query belongs by using the clustering result stored in the word cluster information storage unit 70 (step S202).
  • the similarity calculation unit 130 calculates the similarity between the scene information and the object tag and the search query by comparing the first cluster, the third cluster, and the second cluster (step S103).
  • the similarity in the fourth embodiment is the first cluster (that is, the cluster to which the scene information belongs) and the third cluster (that is, the cluster to which the object tag belongs) and the second cluster (that is, the cluster to which the search query belongs). ) Is calculated as the degree of similarity.
  • the video search unit 140 searches for the video corresponding to the search query based on the similarity (step S104).
  • the similarity is calculated using the scene information, the object tag, and the information about the cluster to which the information included in the search query belongs. Will be. By doing so, the degree of similarity between the scene information and the object tag and the search query can be calculated as a more appropriate value. Therefore, it is possible to search the video corresponding to the search query more appropriately.
  • the video search system described in Appendix 1 calculates the similarity between the scene information and the search query, the scene information acquisition unit that acquires the scene information indicating the video scene, the search query acquisition unit that acquires the search query, and the scene information. It is a video search system characterized by including a similarity calculation unit and a video search unit that searches for a video corresponding to the search query based on the similarity.
  • the video search system described in Appendix 2 has a first cluster acquisition unit that acquires the first cluster to which the information included in the scene information belongs, and a second cluster that acquires the second cluster to which the information included in the search query belongs.
  • the appendix 1 is further provided with an acquisition unit, wherein the similarity calculation unit compares the first cluster with the second cluster and calculates the similarity between the scene information and the search query. It is a video search system described in.
  • the video search system according to the appendix 3 is the video search system according to the appendix 1 or 2, wherein the scene information includes information about a place where the video is taken.
  • the video search system according to the appendix 4 is the video search system according to any one of the appendices 1 to 3, wherein the scene information includes information regarding the date and time when the video was taken.
  • the video search system according to the appendix 5 is any one of the appendices 1 to 4, wherein the scene information includes information on the behavior of the imager of the image or the imaged person reflected in the image.
  • the video search system according to Supplementary Note 6 is the video search system according to any one of Supplementary note 1 to 5, further comprising a scene information adding unit for adding the scene information to the video.
  • the video search system according to Appendix 7 further includes an object tag acquisition unit that acquires an object tag associated with an object reflected in the image, and the similarity calculation unit includes the scene information and the object tag.
  • the video search system according to the appendix 8 is the video search system according to the appendix 7, further comprising an object information adding unit for associating the object tag with the object reflected in the video.
  • the video search system according to Appendix 9 is characterized in that the similarity calculation unit divides the video into a plurality of scene ranges based on the scene information and calculates the similarity for each scene range. It is a video search system according to any one of 8 to 8.
  • the video search system according to the appendix 10 is the video search system according to any one of the appendices 1 to 9, wherein the search query is in a natural language.
  • the video search method according to Appendix 11 acquires scene information indicating a video scene, acquires a search query, calculates the similarity between the scene information and the search query, and based on the similarity, said. It is a video search method characterized by searching for a video corresponding to a search query.
  • Appendix 12 The computer program according to Appendix 12 acquires scene information indicating a video scene, acquires a search query, calculates the similarity between the scene information and the search query, and searches the search based on the similarity. It is a computer program characterized by operating a computer to search for a video corresponding to a query.
  • Appendix 13 The recording medium described in Appendix 13 is a recording medium characterized in that the computer program described in Appendix 12 is recorded.
  • the present invention can be appropriately modified within the scope of the claims and within a range not contrary to the gist or idea of the invention that can be read from the entire specification, and a video search system, a video search method, and a computer program accompanied by such changes are also possible. It is also included in the technical idea of the present invention.
  • Video search system 110 Scene information acquisition unit 120 Search query acquisition unit 130 Similarity calculation unit 140
  • Video search unit 150 Scene information assignment unit 160
  • Second cluster acquisition unit 180 Object tag acquisition unit 190
  • Object tag assignment unit 200 Third cluster acquisition unit

Abstract

映像検索システム(10)は、映像のシーンを示すシーン情報を取得するシーン情報取得部(110)と、検索クエリを取得する検索クエリ取得部(120)と、シーン情報と検索クエリとの類似度を算出する類似度算出部(130)と、類似度に基づいて、検索クエリに対応した映像を検索する映像検索部(140)とを備える。このような映像検索システムによれば、例えば自然言語による検索クエリを用いて映像を適切に認識することが可能となる。

Description

映像検索システム、映像検索方法、及びコンピュータプログラム
 本発明は、映像を検索する映像検索システム、映像検索方法、及びコンピュータプログラムの技術分野に関する。
 この種のシステムとして、大量の映像データの中から所望の映像を検索するものが知られている。例えば特許文献1では、映像からフレームごとの画像特徴量を抽出して映像を検索する技術が開示されている。特許文献2では、検索クエリ用の静止画像を用いて映像を検索する技術が開示されている。
特開2015-114685号公報 特開2013-92941号公報
 検索方法の一例として、自然言語を用いるものが考えられる。しかしながら、上述した特許文献1及び2に記載されているような技術では、画像を用いた検索しか想定されておらず、自然言語を用いて映像を検索することができない。
 本発明は、上記問題点に鑑みてなされたものであり、所望の映像を適切に検索することが可能な映像検索システム、映像検索方法、及びコンピュータプログラムを提供することを課題とする。
 本発明の映像検索システムの一の態様は、前記映像のシーンを示すシーン情報を取得するシーン情報取得部と、検索クエリを取得する検索クエリ取得部と、前記シーン情報と前記検索クエリとの類似度を算出する類似度算出部と、前記類似度に基づいて、前記検索クエリに対応した映像を検索する映像検索部とを備える。
 本発明の映像検索方法の一の態様は、映像のシーンを示すシーン情報を取得し、検索クエリを取得し、前記シーン情報と前記検索クエリとの類似度を算出し、前記類似度に基づいて、前記検索クエリに対応した映像を検索する。
 本発明のコンピュータプログラムの一の態様は、映像のシーンを示すシーン情報を取得し、検索クエリを取得し、前記シーン情報と前記検索クエリとの類似度を算出し、前記類似度に基づいて、前記検索クエリに対応した映像を検索するようにコンピュータを動作させる。
 上述した映像検索システム、映像検索方法、及びコンピュータプログラムのそれぞれの一の態様によれば、所望の映像を適切に検索することが可能であり、特に、自然言語を用いた映像検索を適切に実行することができる。
第1実施形態に係る映像検索システムのハードウェア構成を示すブロック図である。 第1実施形態に係る映像検索システムが備える機能ブロックを示すブロック図である。 第1実施形態に係る映像検索システムの変形例の構成を示すブロック図である。 第1実施形態に係る映像検索システムの動作の流れを示すフローチャートである。 第2実施形態に係る映像検索システムが備える機能ブロックを示すブロック図である。 クラスタに対応する単語の一例を示す表である。 第2実施形態に係る映像検索システムの動作の流れを示すフローチャートである。 第3実施形態に係る映像検索システムが備える機能ブロックを示すブロック図である。 物体タグの一例を示す表である。 第3実施形態に係る映像検索システムの変形例の構成を示すブロック図である。 第3実施形態に係る映像検索システムの動作の流れを示すフローチャートである。 第4実施形態に係る映像検索システムが備える機能ブロックを示すブロック図である。 第4実施形態に係る映像検索システムの動作の流れを示すフローチャートである。
 以下、図面を参照しながら、映像検索システム、映像検索方法、及びコンピュータプログラムの実施形態について説明する。
 <第1実施形態>
 まず、第1実施形態に係る映像検索システムについて、図1から図4を参照して説明する。
 (ハードウェア構成)
 図1を参照しながら、第1実施形態に係る映像検索システムのハードウェア構成について説明する。図1は、第1実施形態に係る映像検索システムのハードウェア構成を示すブロック図である。
 図1に示すように、第1実施形態に係る映像検索システム10は、CPU(Central Processing Unit)11と、RAM(Random Access Memory)12と、ROM(Read Only Memory)13と、記憶装置14とを備えている。映像検索システム10は更に、入力装置15と、出力装置16とを備えていてもよい。CPU11と、RAM12と、ROM13と、記憶装置14と、入力装置15と、出力装置16とは、データバス17を介して接続されている。
 CPU11は、コンピュータプログラムを読み込む。例えば、CPU11は、RAM12、ROM13及び記憶装置14のうちの少なくとも一つが記憶しているコンピュータプログラムを読み込むように構成されている。或いは、CPU11は、コンピュータで読み取り可能な記録媒体が記憶しているコンピュータプログラムを、図示しない記録媒体読み取り装置を用いて読み込んでもよい。CPU11は、ネットワークインタフェースを介して、映像検索システム10の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい(つまり、読み込んでもよい)。CPU11は、読み込んだコンピュータプログラムを実行することで、RAM12、記憶装置14、入力装置15及び出力装置16を制御する。本実施形態では特に、CPU11が読み込んだコンピュータプログラムを実行すると、CPU11内には、映像を検索するための機能ブロックが実現される。
 RAM12は、CPU11が実行するコンピュータプログラムを一時的に記憶する。RAM12は、CPU11がコンピュータプログラムを実行している際にCPU11が一時的に使用するデータを一時的に記憶する。RAM12は、例えば、D-RAM(Dynamic RAM)であってもよい。
 ROM13は、CPU11が実行するコンピュータプログラムを記憶する。ROM13は、その他に固定的なデータを記憶していてもよい。ROM13は、例えば、P-ROM(Programmable ROM)であってもよい。
 記憶装置14は、映像検索システム10が長期的に保存するデータを記憶する。記憶装置14は、CPU11の一時記憶装置として動作してもよい。記憶装置14は、例えば、ハードディスク装置、光磁気ディスク装置、SSD(Solid State Drive)及びディスクアレイ装置のうちの少なくとも一つを含んでいてもよい。
 入力装置15は、映像検索システム10のユーザからの入力指示を受け取る装置である。入力装置15は、例えば、キーボード、マウス及びタッチパネルのうちの少なくとも一つを含んでいてもよい。
 出力装置16は、映像検索システム10に関する情報を外部に対して出力する装置である。例えば、出力装置16は、映像検索システム10に関する情報を表示可能な表示装置(例えば、ディスプレイ)であってもよい。
 (機能的構成)
 続いて、図2及び図3を参照しながら、第1実施形態に係る映像検索システム10の機能的構成について説明する。図2は、第1実施形態に係る映像検索システムが備える機能ブロックを示すブロック図である。図3は、第1実施形態に係る映像検索システムの変形例の構成を示すブロック図である。
 図2に示すように、第1実施形態に係る映像検索システム10は、蓄積された映像から所望の映像(具体的には、ユーザによって入力される検索クエリに応じた映像)を検索可能に構成されている。検索対象となる映像には、例えば映像によるライフログが含まれるが、特に限定されない。なお、映像は、例えば記憶装置14(図1参照)等に蓄積されていてもよいし、システム外部の記憶手段(例えば、サーバ等)に蓄積されていてもよい。映像検索システム10は、その機能を実現するための機能ブロックとして、シーン情報取得部110と、検索クエリ取得部120と、類似度算出部130と、映像検索部140とを備えて構成されている。これらの機能ブロックは、例えばCPU11(図1参照)において実現される。
 シーン情報取得部110は、映像のシーンを示すシーン情報を取得可能に構成されている。シーン情報は、例えば映像が撮像された場所情報、時間情報、映像が撮影された際の状況や雰囲気等を示す情報を含んでいる。シーン情報としては、映像のシーンと関係し得るその他の情報が含まれていてもよい。シーン情報のより具体的な例としては、位置情報は、例えばGPS(Global Positioning System)等から得られる情報である。時間情報は、タイムスタンプ等から得られる日時に関する情報である。また、映像が撮影された際の状況や雰囲気等を示す情報としては、撮像者又は被撮像者の行動から得られる情報が含まれていてもよい。シーン情報は、1つの映像に1つずつ付与されたものであってもよいし、シーンが切り替わる映像については1つの映像に複数のシーン情報が付与されていてもよい。ある期間の映像に、複数のシーン情報が付与されていてもよい。例えば、ある期間の映像に、タイムスタンプから得られた時間情報と、GPSから得られた位置情報とがシーン情報として付与されてもよい。シーン情報取得部110は、取得したシーン情報を記憶する記憶部を備えていてもよい。シーン情報取得部110で取得されたシーン情報は、類似度算出部130に出力される構成となっている。
 検索クエリ取得部120は、ユーザが入力する検索クエリを取得可能に構成されている。検索クエリは、ユーザが所望する映像(即ち、検索しようとする映像)に関する情報を含むものである。検索クエリは、例えば自然言語として入力される。この場合の検索クエリは、例えば複数の単語や句を含んでいてもよい。自然言語である検索クエリの一例としては、「コンピュータを使いながら食べたサンドイッチ」、「見学した蒸留窯」、及び「北海道で食べた昼食」等が挙げられる。ユーザは、例えば入力装置15(図1参照等)を用いて検索クエリを入力することができる。検索クエリ取得部120で取得された検索クエリは、類似度算出部130に出力される構成となっている。
 類似度算出部130は、シーン情報取得部110で取得された物体タグと、検索クエリ取得部120で取得された検索クエリとを比較して、これらの類似度を算出可能に構成されている。ここでの「類似度」は、シーン情報と検索クエリとが類似している程度を示す定量的なパラメータとして算出される。類似度は、複数の映像の各々について算出されてもよいし、映像の所定期間ごとに算出されてもよい。この場合の所定期間は、映像に応じて適宜定められればよく、可変であってもよい。類似度算出部130は、例えば辞書や形態素解析を用いて、検索クエリを複数の単語(検索語)に分解する機能を有していてもよい。この場合、類似度算出部130は、物体タグと検索語との一致件数を類似度として算出してもよい。物体タグと検索語との一致件数は、例えば予め設定された集計時間(例えば、1分や1時間等)単位で算出されてよい。類似度算出部130で算出された類似度は、映像検索部140に出力される構成となっている。
 また、類似度算出部130は、シーン情報に基づいて映像を複数のシーン範囲に区切り、シーン情報に基づいて映像を複数のシーン範囲に区切り、シーン範囲毎に類似度を算出してもよい。例えば、シーン範囲は、映像内のシーン情報の偏りを用いて設定されてよい。例えば、シーン情報として、映像を撮影した位置情報が取得されている場合、映像を所定時間(例えば、10秒)で区切り、区切った各映像(以下、適宜「区切り映像」と称する)の位置情報に含まれる緯度経度情報の平均値を算出する。そして、隣接する区切り映像について、算出した平均値の差分が所定値未満である場合は同じ区切りとして統合する(例えば、1,2,3,4,・・・と区切り映像があり、3と4との差分が所定値未満であった場合には、3及び4を5に統合して、1,2、5・・・とする)。その後、統合した区切り映像についても再度平均値を算出し、差分が所定値未満となるものがなくなるまで同様の処理を繰り返す。このようにすれば、比較的近い場所で撮影された映像が1つのシーンとして設定されることになる。
 或いは、シーン範囲は、物体タグの偏りを用いて設定されてよい。或いは、シーン範囲は、映像に一定期間以上映り込んでいる情報を用いて設定されてよい。例えば、同じ物体が一定期間以上連続して映り込んでいる期間については、1つのシーン範囲として設定してもよい。この場合、映像に映り込んでいる物体を識別するために、物体タグを用いてもよい。
 映像検索部140は、類似度算出部130で算出された類似度に基づいて、検索クエリに応じた映像を検索する。映像検索部140は、例えば類似度が所定の条件を満たす映像を検索する。映像検索部140は、検索した映像を検索結果として出力してもよい。この場合、出力される映像は複数であってもよい。或いは、映像検索部140は、類似度が最も高い映像を出力してもよいし、類似度の高い複数個の映像を検索結果として出力してもよい。更に、映像検索部140は、検索結果として出力した映像を再生する機能を有していてもよい。また、映像検索部140は、サムネイルのように、検索結果として出力した映像を示す画像を表示する機能を有していてもよい。
 図3に示すように、映像検索システム10は、シーン情報付与部150を備えて構成されてもよい。シーン情報付与部150は、例えば事前に機械学習されたシーン認識モデルを用いて、映像にシーン情報を付与する。なお、シーンを自動的に認識してシーン情報を付与する具体的な手法については、適宜既存の技術を採用することが可能である。映像検索システム10がシーン情報付与部150を備えている場合は、映像にシーン情報が付与されていない場合であっても映像検索を行うことができる。即ち、映像検索システム10は、シーン情報付与部150が映像にシーン情報を付与した上で、映像検索を行うことができる。一方、映像検索システム10がシーン情報付与部150を備えていない場合には、事前にシーン情報を付与した映像を用意すればよい。この場合、シーン情報は、映像分析によって自動的に付与されてもよいし、手作業によって付与されてもよい。
 (動作説明)
 次に、図4を参照しながら、第1実施形態に係る映像検索システム10の動作の流れについて説明する。図4は、第1実施形態に係る映像検索システムの動作の流れを示すフローチャートである。
 図4に示すように、第1実施形態に係る映像検索システム10が動作する際には、まずシーン情報取得部110が、蓄積された映像からシーン情報を取得する(ステップS101)。なお、上述したシーン情報付与部150が備えられる構成では、ステップS101が実行される前に、シーン情報付与部150によるシーン情報の付与が実行されてもよい。
 続いて、検索クエリ取得部120が、ユーザが入力した検索クエリを取得する(ステップS102)。そして、類似度算出部130が、シーン情報取得部110で取得されたシーン情報と、検索クエリ取得部120で取得された検索クエリとの類似度を算出する(ステップS103)。
 最後に、映像検索部140が、類似度に基づいて検索クエリに応じた映像を検索する(ステップS104)。なお、映像検索システム10は、検索結果の絞り込みを可能に構成されていてもよい。この場合、検索クエリ取得部120によって新たな検索クエリが取得された後に、上述したステップS103の処理(即ち、類似度の算出)、及びステップS104の処理(即ち、類似度に基づいた映像検索)が再び実行されればよい。
 (技術的効果)
 次に、第1実施形態に係る映像検索システム10によって得られる技術的効果について説明する。
 図1から図4で説明したように、第1実施形態に係る映像検索システム10では、シーン情報と検索クエリとの類似度に基づいて映像検索が行われる。よって、検索クエリに応じた映像を適切に検索することができる。そして、本実施形態に係る映像検索システム10では特に、検索クエリが自然言語として入力された場合であっても、ユーザが所望する映像を適切に検索できる。
 なお、このような技術的効果は、例えばライフログ等の映像検索において顕著に発揮され得る。人はすべての行動や状況を明確に記憶することは難しく、断片的に且つ曖昧に記憶していることが多い。しかるに第1実施形態に係る映像検索システム10によれば、自然言語による検索クエリを用いた映像検索が行えるため、検索クエリに一部情報が欠如していたとしても、大量の映像の中から所望する映像を検索することが可能である。言い換えれば、多少の曖昧さを許容した上で、精度の高い映像検索を実現することができる。
 <第2実施形態>
 次に、第2実施形態に係る映像検索システム10について、図5から図7を参照して説明する。なお、第2実施形態は、上述した第1実施形態と比べて一部の構成及び動作(具体的には、類似度の算出にクラスタを用いる点)が異なるのみであり、その他の部分については概ね同様である。このため、以下では第1実施形態と異なる部分について詳細に説明し、他の重複する部分については適宜説明を省略するものとする。
 (機能的構成)
 まず、図5及び図6を参照しながら、第2実施形態に係る映像検索システム10の機能的構成について説明する。図5は、第2実施形態に係る映像検索システムが備える機能ブロックを示すブロック図である。図6は、クラスタに対応する単語の一例を示す表である。なお、図5では、図2で示した構成要素と同様のものに同一の符号を付している。
 図5に示すように、第2実施形態に係る映像検索システム10は、単語ベクトル解析部50と、単語クラスタリング部60と、単語クラスタ情報記憶部70と、シーン情報取得部110と、検索クエリ取得部120と、類似度算出部130と、映像検索部140と、第1クラスタ取得部160と、第2クラスタ取得部170とを備えている。即ち、第2実施形態に係る映像検索システム10は、第1実施形態の構成(図2参照)に加えて、単語ベクトル解析部50、単語クラスタリング部60、単語クラスタ情報記憶部70、第1クラスタ取得部160及び第2クラスタ取得部170を更に備えて構成されている。
 単語ベクトル解析部50は、文書データを解析して、文書に含まれる単語をベクトルデータ(以下、適宜「単語ベクトル」と称する)に変換可能に構成されている。文書データは、例えばwebサイトや時点などの一般的な文書であってもよいし、映像に関連する文書(例えば、映像の撮影者の業務やサービスに関する文書)等であってもよい。映像に関連する文書を用いた場合、一般的な単語の類似性ではなく、映像に関連する専門用語に基づいた類似性を解析することが可能となる。単語ベクトル解析部50は、例えば、word2vec等のwordEmbedding手法、又はdoc2vec等のdocEmbedding手法を用いて、単語ベクトルへの変換を行う。単語ベクトル解析部50で生成された単語ベクトルは、単語クラスタリング部60に出力される構成となっている。
 単語クラスタリング部60は、単語ベクトル解析部50で生成された単語ベクトルに基づいて、各単語をクラスタリング可能に構成されている。単語クラスタリング部60は、単語同士のベクトルの類似性に基づいてクラスタリングを行えばよい。単語クラスタリング部60は、例えば、単語ベクトル同士のcos類似度やユークリッド距離に基づいて、k-meansによるクラスタリングを行う。ただし、クラスタリングの手法については、特に限定されない。単語クラスタリング部60のクラスタリング結果は、単語クラスタ情報記憶部70に出力される構成となっている。
 単語クラスタ情報記憶部70は、単語クラスタリング部60によるクラスタリングの結果を記憶可能に構成されている。単語クラスタ情報記憶部70は、例えば図7に示すように、各クラスタのIDと、各クラスタに属する単語とを記憶する。単語クラスタ情報記憶部70に記憶された情報は、第1クラスタ取得部160及び第2クラスタ取得部170により、適宜利用可能な状態で記憶されている。
 第1クラスタ取得部160は、単語クラスタ情報記憶部70に記憶された情報(即ち、クラスタリングの結果)を用いて、シーン情報取得部110で取得されたシーン情報に含まれる情報を用いてクラスタリングを実行し、シーン情報に含まれる情報が属するクラスタ(以下、適宜「第1クラスタ」と称する)を取得可能に構成されている。物体タグに含まれる情報には、例えば物体タグに含まれる単語があるが、これには限られない。第1クラスタ取得部160で取得された第1クラスタに関する情報は、類似度算出部130に出力される構成となっている。
 第2クラスタ取得部170は、単語クラスタ情報記憶部70に記憶された情報(即ち、クラスタリングの結果)を用いて、検索クエリ取得部120で取得された検索クエリに含まれる情報(典型的には、検索クエリに含まれる単語)が属するクラスタ(以下、適宜「第2クラスタ」と称する)を取得可能に構成されている。第2クラスタ取得部170で取得された第2クラスタに関する情報は、類似度算出部130に出力される構成となっている。
 (動作説明)
 次に、図7を参照しながら、第2実施形態に係る映像検索システム10の動作の流れについて説明する。図7は、第2実施形態に係る映像検索システムの動作の流れを示すフローチャートである。なお、図7では、図4で示した処理と同様の処理に同一の符号を付している。
 図6に示すように、第2実施形態に係る映像検索システム10が動作する際には、まずシーン情報取得部110が、蓄積された映像からシーン情報を取得する(ステップS101)。そして、第1クラスタ取得部160が、単語クラスタ情報記憶部70に記憶されたクラスタリング結果を用いて、シーン情報に含まれる情報が属する第1クラスタを取得する(ステップS102)。第1クラスタ取得部160は、例えば、映像から取得したシーン情報に含まれる単語の各々について、単語クラスタ情報記憶部70に対する問い合わせを行い、各単語に対応するクラスタIDを取得する。
 続いて、検索クエリ取得部120が、ユーザが入力した検索クエリを取得する(ステップS102)。そして、第2クラスタ取得部170が、単語クラスタ情報記憶部70に記憶されたクラスタリング結果を用いて、検索クエリに含まれる情報が属する第2クラスタを取得する(ステップS202)。第2クラスタ取得部170は、例えば、検索クエリに含まれる検索語の各々について、単語クラスタ情報記憶部70に対して問い合わせを行い、各検索語に対応するクラスタIDを取得する。
 続いて、類似度算出部130が、第1クラスタと第2クラスタとを比較することで、物体タグと検索クエリとの類似度を算出する(ステップS103)。言い換えれば、第2実施形態における類似度は、第1クラスタ(即ち、シーン情報が属するクラスタ)と、第2クラスタ(即ち、検索クエリが属するクラスタ)との類似度として算出される。類似度が算出されると、映像検索部140が、類似度に基づいて検索クエリに応じた映像を検索する(ステップS104)。
 なお、第1クラスタと第2クラスタとの類似度は、第1クラスタのクラスタ情報及び第2クラスタのクラスタ情報をそれぞれベクトルに見立てた場合の、cos類似度として算出することができる。例えば、第1クラスタのクラスタ情報をVa、第2クラスタのクラスタ情報をVbとした場合、第1クラスタと第2クラスタとの類似度は、下記式(1)を用いて算出できる。
  (Va/||Va||)・(Vb/||Vb||) ・・・(1)
 なお、||Va||及び||Vb||は、それぞれVa及びVbのノルムである。
 (技術的効果)
 次に、第2実施形態に係る映像検索システム10によって得られる技術的効果について説明する。
 図5から図7で説明したように、第2実施形態に係る映像検索システム10では、シーン情報及び検索クエリに含まれる単語が属するクラスタを用いて類似度の算出が行われる。このようにすれば、物体タグと検索クエリとの類似度をより適切な値として算出することができる。よって、検索クエリに応じた映像をより適切に検索することが可能となる。
 <第3実施形態>
 次に、第3実施形態に係る映像検索システム10について、図8から図11を参照して説明する。なお、第3実施形態は、上述した第1及び第2実施形態と比べて一部の構成及び動作(具体的には、物体タグを用いる点)が異なるのみであり、その他の部分については概ね同様である。このため、以下では第1及び第2実施形態と異なる部分について詳細に説明し、他の重複する部分については適宜説明を省略するものとする。
 (機能的構成)
 まず、図8から図10を参照しながら、第3実施形態に係る映像検索システム10の機能的構成について説明する。図8は、第3実施形態に係る映像検索システムが備える機能ブロックを示すブロック図である。図9は、物体タグの一例を示す表である。図10は、第3実施形態に係る映像検索システムの変形例の構成を示すブロック図である。なお、図8及び図10では、図2及び図3で示した構成要素と同様のものに同一の符号を付している。
 図8に示すように、第3実施形態に係る映像検索システム10は、シーン情報取得部110と、検索クエリ取得部120と、類似度算出部130と、映像検索部140と、物体タグ取得部180とを備えている。即ち、第3実施形態に係る映像検索システム10は、第1実施形態の構成(図2参照)に加えて、物体タグ取得部180を更に備えて構成されている。
 物体タグ取得部180は、蓄積された映像から物体タグを取得可能に構成されている。物体タグは、映像に映り込んでいる物体に関する情報であり、映像中の各物体に紐付けられている。ただし、1つの物体に対して複数の物体タグが紐付けられていてもよい。物体タグは、典型的には一般名詞であるが、例えば同一性検査等を行って固有名詞と紐付けられていてもよい。即ち、物体タグには、物体を個々に区別する固有識別情報が含まれてもよい)。また、物体タグは、物体の名称以外の情報(例えば、形状や性質等)を示す情報であってもよい。物体タグ取得部180は、例えば映像のフレーム単位で物体タグを取得してもよい。物体タグ取得部180は、取得した物体タグを記憶する記憶部を備えていてもよい。物体タグは、例えば図9に示すように、各映像の各フレーム単位で記憶部に記憶されてよい。物体タグ取得部180で取得された物体タグは、類似度算出部130に出力される構成となっている。
 図10に示すように、映像検索システム10は、シーン情報付与部150と、物体タグ付与部190とを備えていてもよい。即ち、図3に示した映像検索システムの変形例に、物体タグ付与部190を更に備えて構成されてもよい。
物体タグ付与部190は、例えば事前に機械学習された物体認識モデルを用いて、映像に映り込んでいる物体に物体タグを紐付ける。なお、物体を認識して物体タグを付与する具体的な手法については、適宜既存の技術を採用することが可能である。映像検索システム10が物体タグ付与部190を備えている場合は、映像に物体タグが付与されていない場合であっても映像検索を行うことができる。即ち、映像検索システム10は、物体タグ付与部190が映像に物体タグを付与した上で、映像検索を行うことができる。一方、映像検索システム10が物体タグ付与部190を備えていない場合には、事前に物体タグを付与した映像を用意すればよい。この場合、物体タグは、映像分析によって自動的に付与されてもよいし、手作業によって付与されてもよい。
 (動作説明)
 次に、図11を参照しながら、第3実施形態に係る映像検索システム10の動作の流れについて説明する。図11は、第3実施形態に係る映像検索システムの動作の流れを示すフローチャートである。なお、図11では、図4で示した処理と同様の処理に同一の符号を付している。
 図11に示すように、第3実施形態に係る映像検索システム10が動作する際には、まずシーン情報取得部110が、蓄積された映像からシーン情報を取得する(ステップS101)。また、物体タグ取得部180が、蓄積された映像から物体タグを取得する(ステップS301)。更に、検索クエリ取得部120が、ユーザが入力した検索クエリを取得する(ステップS102)。なお、上述した物体タグ付与部190が備えられる構成では、ステップS301が実行される前に、物体タグ付与部190による物体タグの付与が実行されてもよい。
 続いて、類似度算出部130は、シーン情報及び物体タグと、検索クエリとの類似度を算出する(ステップS103)。ここでの類似度は、シーン情報と検索クエリとの類似度、及び物体タグと検索クエリとの類似度として別々に算出されてもよい(即ち、シーン情報に関する類似度と、物体タグに関する類似度との2種類の類似度が算出されてもよい)。或いは、類似度は、シーン情報及び物体タグの両方と、検索クエリとの類似度としてまとめて算出されてもよい(即ち、シーン情報及び物体タグの両方を考慮した1種類の類似度が算出されてもよい)。
 類似度が算出されると、映像検索部140が、類似度に基づいて検索クエリに応じた映像を検索する(ステップS104)。なお、シーン情報との検索クエリとの類似度、及び物体タグと検索クエリとの類似度とが別々に算出されている場合、それら2つの類似度から算出される総合的な類似度(例えば、2つの類似度の平均値等)に基づいて、検索クエリに応じた映像を検索すればよい。
 (技術的効果)
 次に、第3実施形態に係る映像検索システム10によって得られる技術的効果について説明する。
 図7から図9で説明したように、第3実施形態に係る映像検索システム10では、更に物体タグを用いて類似度が算出される。このようにすれば、例えば、映像に映り込んでいる物体の名称等を考慮して、映像を検索することができる。この結果、ユーザが所望する映像をより適切に検索することが可能となる。
 <第4実施形態>
 次に、第4実施形態に係る映像検索システム10について、図12及び図13を参照して説明する。なお、第4実施形態は、上述した第3実施形態と比べて一部の構成及び動作(具体的には、類似度の算出にクラスタを用いる点)が異なるのみであり、その他の部分については概ね同様である。このため、以下では第3実施形態と異なる部分について詳細に説明し、他の重複する部分については適宜説明を省略するものとする。
 (機能的構成)
 まず、図12を参照しながら、第4実施形態に係る映像検索システム10の機能的構成について説明する。図12は、第4実施形態に係る映像検索システムが備える機能ブロックを示すブロック図である。なお、図12では、図5及び8で示した構成要素と同様のものに同一の符号を付している。
 図12に示すように、第4実施形態に係る映像検索システム10は、単語ベクトル解析部50と、単語クラスタリング部60と、単語クラスタ情報記憶部70と、シーン情報取得部110と、検索クエリ取得部120と、類似度算出部130と、映像検索部140と、第1クラスタ取得部160と、第2クラスタ取得部170と、物体タグ取得部180と、第3クラスタ取得部200とを備えている。即ち、第4実施形態に係る映像検索システム10は、第3実施形態の構成(図7参照)に加えて、単語ベクトル解析部50と、単語クラスタリング部60と、単語クラスタ情報記憶部70と、第1クラスタ取得部160と、第2クラスタ取得部170と、第3クラスタ取得部200とを更に備えて構成されている。なお、第1クラスタ取得部160及び第2クラスタ取得部170については、第2実施形態の構成(図5参照)と同様でよい。
 第3クラスタ取得部200は、単語クラスタ情報記憶部70に記憶された情報(即ち、クラスタリングの結果)を用いて、物体タグ取得部180で取得された物体タグに含まれる情報が属するクラスタ(以下、適宜「第3クラスタ」と称する)を取得可能に構成されている。第3クラスタ取得部200で取得された第3クラスタに関する情報は、類似度算出部130に出力される構成となっている。
 (動作説明)
 次に、図13を参照しながら、第4実施形態に係る映像検索システム10の動作の流れについて説明する。図13は、第4実施形態に係る映像検索システムの動作の流れを示すフローチャートである。なお、図13では、図7及び図11で示した処理と同様の処理に同一の符号を付している。
 図13に示すように、第4実施形態に係る映像検索システム10が動作する際には、まずシーン情報取得部110が、蓄積された映像からシーン情報を取得する(ステップS101)。そして、第1クラスタ取得部160が、単語クラスタ情報記憶部70に記憶されたクラスタリング結果を用いて、シーン情報に含まれる情報が属する第1クラスタを取得する(ステップS102)。
 続いて、物体タグ取得部180が、蓄積された映像から物体タグを取得する(ステップS301)。そして、第3クラスタ取得部200が、単語クラスタ情報記憶部70に記憶されたクラスタリング結果を用いて、物体タグに含まれる情報が属する第3クラスタを取得する(ステップS401)。
 続いて、検索クエリ取得部120が、ユーザが入力した検索クエリを取得する(ステップS102)。そして、第2クラスタ取得部170が、単語クラスタ情報記憶部70に記憶されたクラスタリング結果を用いて、検索クエリに含まれる情報が属する第2クラスタを取得する(ステップS202)。
 続いて、類似度算出部130は、第1クラスタ及び第3クラスタと第2クラスタとを比較することで、シーン情報及び物体タグと、検索クエリとの類似度を算出する(ステップS103)。言い換えれば、第4実施形態における類似度は、第1クラスタ(即ち、シーン情報が属するクラスタ)及び第3クラスタ(即ち、物体タグが属するクラスタ)と、第2クラスタ(即ち、検索クエリが属するクラスタ)との類似度として算出される。類似度が算出されると、映像検索部140が、類似度に基づいて検索クエリに応じた映像を検索する(ステップS104)。
 (技術的効果)
 次に、第4実施形態に係る映像検索システム10によって得られる技術的効果について説明する。
 図12及び図13で説明したように、第4実施形態に係る映像検索システム10では、シーン情報、物体タグ、及び検索クエリに含まれる情報が属するクラスタに関する情報を用いて類似度の算出が行われる。このようにすれば、シーン情報及び物体タグと検索クエリとの類似度をより適切な値として算出することができる。よって、検索クエリに応じた映像をより適切に検索することが可能となる。
 <付記>
 以上説明した実施形態に関して、更に以下の付記を開示する。
 (付記1)
 付記1に記載の映像検索システムは、映像のシーンを示すシーン情報を取得するシーン情報取得部と、検索クエリを取得する検索クエリ取得部と、前記シーン情報と前記検索クエリとの類似度を算出する類似度算出部と、前記類似度に基づいて、前記検索クエリに対応した映像を検索する映像検索部とを備えることを特徴とする映像検索システムである。
 (付記2)
 付記2に記載の映像検索システムは、前記シーン情報に含まれる情報が属する第1クラスタを取得する第1クラスタ取得部と、前記検索クエリに含まれる情報が属する第2クラスタを取得する第2クラスタ取得部とを更に備え、前記類似度算出部は、前記第1クラスタと前記第2クラスタとを比較して、前記シーン情報と前記検索クエリとの類似度を算出することを特徴とする付記1に記載の映像検索システムである。
 (付記3)
 付記3に記載の映像検索システムは、前記シーン情報は、前記映像が撮影された場所に関する情報を含むことを特徴とする付記1又は2に記載の映像検索システムである。
 (付記4)
 付記4に記載の映像検索システムは、前記シーン情報は、前記映像が撮影された日時に関する情報を含むことを特徴とする付記1から3のいずれか一項に記載の映像検索システムである。
 (付記5)
 付記5に記載の映像検索システムは、前記シーン情報は、前記映像の撮像者又は前記映像に映り込んでいる被撮像者の行動に関する情報を含むことを特徴とする付記1から4のいずれか一項に記載の映像検索システムである。
 (付記6)
 付記6に記載の映像検索システムは、前記映像に前記シーン情報を付与するシーン情報付与部を更に備えることを特徴とする付記1から5のいずれか一項に記載の映像検索システムである。
 (付記7)
 付記7に記載の映像検索システムは、前記映像に映り込んでいる物体に紐付けられた物体タグを取得する物体タグ取得部を更に備え、前記類似度算出部は、前記シーン情報及び前記物体タグと、前記検索クエリとの類似度を算出することを特徴とする付記1から6のいずれか一項に記載の映像検索システムである。
 (付記8)
 付記8に記載の映像検索システムは、前記映像に映り込んでいる物体に前記物体タグを紐付ける物体情報付与部を更に備えることを特徴とする付記7に記載の映像検索システムである。
 (付記9)
 付記9に記載の映像検索システムは、前記類似度算出部は、前記シーン情報に基づいて前記映像を複数のシーン範囲に区切り、前記シーン範囲毎に類似度を算出することを特徴とする付記1から8のいずれか一項に記載の映像検索システムである。
 (付記10)
 付記10に記載の映像検索システムは、前記検索クエリは自然言語であることを特徴とする付記1から9のいずれか一項に記載の映像検索システムである。
 (付記11)
 付記11に記載の映像検索方法は、映像のシーンを示すシーン情報を取得し、検索クエリを取得し、前記シーン情報と前記検索クエリとの類似度を算出し、前記類似度に基づいて、前記検索クエリに対応した映像を検索することを特徴とする映像検索方法である。
 (付記12)
 付記12に記載のコンピュータプログラムは、映像のシーンを示すシーン情報を取得し、検索クエリを取得し、前記シーン情報と前記検索クエリとの類似度を算出し、前記類似度に基づいて、前記検索クエリに対応した映像を検索するようにコンピュータを動作させることを特徴とするコンピュータプログラムである。
 (付記13)
 付記13に記載の記録媒体は、付記12に記載のコンピュータプログラムを記録していることを特徴とする記録媒体である。
 本発明は、請求の範囲及び明細書全体から読み取ることのできる発明の要旨又は思想に反しない範囲で適宜変更可能であり、そのような変更を伴う映像検索システム、映像検索方法、及びコンピュータプログラムもまた本発明の技術思想に含まれる。
 10 映像検索システム
 110 シーン情報取得部
 120 検索クエリ取得部
 130 類似度算出部
 140 映像検索部
 150 シーン情報付与部
 160 第1クラスタ取得部
 170 第2クラスタ取得部
 180 物体タグ取得部
 190 物体タグ付与部
 200 第3クラスタ取得部

Claims (12)

  1.  映像のシーンを示すシーン情報を取得するシーン情報取得部と、
     検索クエリを取得する検索クエリ取得部と、
     前記シーン情報と前記検索クエリとの類似度を算出する類似度算出部と、
     前記類似度に基づいて、前記検索クエリに対応した映像を検索する映像検索部と
     を備えることを特徴とする映像検索システム。
  2.  前記シーン情報に含まれる情報が属する第1クラスタを取得する第1クラスタ取得部と、
     前記検索クエリに含まれる情報が属する第2クラスタを取得する第2クラスタ取得部と
     を更に備え、
     前記類似度算出部は、前記第1クラスタと前記第2クラスタとを比較して、前記シーン情報と前記検索クエリとの類似度を算出する
     ことを特徴とする請求項1に記載の映像検索システム。
  3.  前記シーン情報は、前記映像が撮影された場所に関する情報を含むことを特徴とする請求項1又は2に記載の映像検索システム。
  4.  前記シーン情報は、前記映像が撮影された日時に関する情報を含むことを特徴とする請求項1から3のいずれか一項に記載の映像検索システム。
  5.  前記シーン情報は、前記映像の撮像者又は前記映像に映り込んでいる被撮像者の行動に関する情報を含むことを特徴とする請求項1から4のいずれか一項に記載の映像検索システム。
  6.  前記映像に前記シーン情報を付与するシーン情報付与部を更に備えることを特徴とする請求項1から5のいずれか一項に記載の映像検索システム。
  7.  前記映像に映り込んでいる物体に紐付けられた物体タグを取得する物体タグ取得部を更に備え、
     前記類似度算出部は、前記シーン情報及び前記物体タグと、前記検索クエリとの類似度を算出する
     ことを特徴とする請求項1から6のいずれか一項に記載の映像検索システム。
  8.  前記映像に映り込んでいる物体に前記物体タグを紐付ける物体情報付与部を更に備えることを特徴とする請求項7に記載の映像検索システム。
  9.  前記類似度算出部は、前記シーン情報に基づいて前記映像を複数のシーン範囲に区切り、前記シーン範囲毎に類似度を算出することを特徴とする請求項1から8のいずれか一項に記載の映像検索システム。
  10.  前記検索クエリは自然言語であることを特徴とする請求項1から9のいずれか一項に記載の映像検索システム。
  11.  映像のシーンを示すシーン情報を取得し、
     検索クエリを取得し、
     前記シーン情報と前記検索クエリとの類似度を算出し、
     前記類似度に基づいて、前記検索クエリに対応した映像を検索する
     ことを特徴とする映像検索方法。
  12.  映像のシーンを示すシーン情報を取得し、
     検索クエリを取得し、
     前記シーン情報と前記検索クエリとの類似度を算出し、
     前記類似度に基づいて、前記検索クエリに対応した映像を検索する
     ようにコンピュータを動作させることを特徴とするコンピュータプログラム。
PCT/JP2020/037251 2020-09-30 2020-09-30 映像検索システム、映像検索方法、及びコンピュータプログラム WO2022070340A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2020/037251 WO2022070340A1 (ja) 2020-09-30 2020-09-30 映像検索システム、映像検索方法、及びコンピュータプログラム
JP2022553334A JPWO2022070340A1 (ja) 2020-09-30 2020-09-30
US18/023,124 US20230297613A1 (en) 2020-09-30 2020-09-30 Video search system, video search method, and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/037251 WO2022070340A1 (ja) 2020-09-30 2020-09-30 映像検索システム、映像検索方法、及びコンピュータプログラム

Publications (1)

Publication Number Publication Date
WO2022070340A1 true WO2022070340A1 (ja) 2022-04-07

Family

ID=80949998

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/037251 WO2022070340A1 (ja) 2020-09-30 2020-09-30 映像検索システム、映像検索方法、及びコンピュータプログラム

Country Status (3)

Country Link
US (1) US20230297613A1 (ja)
JP (1) JPWO2022070340A1 (ja)
WO (1) WO2022070340A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09128401A (ja) * 1995-10-27 1997-05-16 Sharp Corp 動画像検索装置及びビデオ・オン・デマンド装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050114357A1 (en) * 2003-11-20 2005-05-26 Rathinavelu Chengalvarayan Collaborative media indexing system and method
US8126643B2 (en) * 2007-12-28 2012-02-28 Core Wireless Licensing S.A.R.L. Method, apparatus and computer program product for providing instructions to a destination that is revealed upon arrival
JP2016502194A (ja) * 2012-11-30 2016-01-21 トムソン ライセンシングThomson Licensing ビデオ検索方法及び装置
CN106294344B (zh) * 2015-05-13 2019-06-18 北京智谷睿拓技术服务有限公司 视频检索方法和装置
US10311104B2 (en) * 2016-04-13 2019-06-04 Google Llc Video competition discovery and recommendation
US20180101540A1 (en) * 2016-10-10 2018-04-12 Facebook, Inc. Diversifying Media Search Results on Online Social Networks
US10061987B2 (en) * 2016-11-11 2018-08-28 Google Llc Differential scoring: a high-precision scoring method for video matching
CN110110144A (zh) * 2018-01-12 2019-08-09 天津三星通信技术研究有限公司 视频的处理方法和设备
KR20200024541A (ko) * 2018-08-28 2020-03-09 십일번가 주식회사 동영상 컨텐츠 검색 지원 방법 및 이를 지원하는 서비스 장치
CN110688529A (zh) * 2019-09-26 2020-01-14 北京字节跳动网络技术有限公司 用于检索视频的方法、装置和电子设备
US11500927B2 (en) * 2019-10-03 2022-11-15 Adobe Inc. Adaptive search results for multimedia search queries
US11302361B2 (en) * 2019-12-23 2022-04-12 Samsung Electronics Co., Ltd. Apparatus for video searching using multi-modal criteria and method thereof
CN113094550B (zh) * 2020-01-08 2023-10-24 百度在线网络技术(北京)有限公司 视频检索方法、装置、设备和介质
US11386151B2 (en) * 2020-04-11 2022-07-12 Open Space Labs, Inc. Image search in walkthrough videos
CN111611436B (zh) * 2020-06-24 2023-07-11 深圳市雅阅科技有限公司 一种标签数据处理方法、装置以及计算机可读存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09128401A (ja) * 1995-10-27 1997-05-16 Sharp Corp 動画像検索装置及びビデオ・オン・デマンド装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MORIMOTO, MAYO; MIKAMI, SAWAKO; MOTHASHI, YOSUKE: "A Study of Video Lifelog Retrieval System by using Natural Language", IPSJ SIG TECHNICAL REPORT, vol. 2020, no. 34 (2020-GN-109), 16 January 2020 (2020-01-16), JP , pages 1 - 8, XP009536891, ISSN: 0919-6072 *

Also Published As

Publication number Publication date
JPWO2022070340A1 (ja) 2022-04-07
US20230297613A1 (en) 2023-09-21

Similar Documents

Publication Publication Date Title
JP4337064B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US9665798B2 (en) Device and method for detecting specified objects in images using metadata
US8971641B2 (en) Spatial image index and associated updating functionality
JP5489660B2 (ja) 画像管理装置およびその制御方法およびプログラム
JP2006216026A (ja) ディジタル写真の時間的イベント・クラスタリングのための有効な方法
KR101777238B1 (ko) 영상 트렌드 검출 및 큐레이션을 위한 방법 및 시스템
Karthika et al. Digital video copy detection using steganography frame based fusion techniques
Pita et al. A Spark-based Workflow for Probabilistic Record Linkage of Healthcare Data.
Trad et al. Large scale visual-based event matching
JP6377917B2 (ja) 画像検索装置及び画像検索プログラム
WO2021145030A1 (ja) 映像検索システム、映像検索方法、及びコンピュータプログラム
US8533196B2 (en) Information processing device, processing method, computer program, and integrated circuit
JP7116969B2 (ja) 2次元マップ生成装置、2次元マップ生成方法および2次元マップ生成用プログラム
JP6314071B2 (ja) 情報処理装置、情報処理方法及びプログラム
US9378248B2 (en) Retrieval apparatus, retrieval method, and computer-readable recording medium
WO2014167880A1 (ja) 画像検索装置、画像検索方法、および記録媒体
WO2022070340A1 (ja) 映像検索システム、映像検索方法、及びコンピュータプログラム
JP2016110256A (ja) 情報処理装置及び情報処理プログラム
JP5265610B2 (ja) 関連語抽出装置
US20180189602A1 (en) Method of and system for determining and selecting media representing event diversity
JP6509391B1 (ja) 計算機システム
JP5094915B2 (ja) 検索装置
WO2022003826A1 (ja) 映像提供システム、映像提供方法、及びコンピュータプログラム
Makkonen et al. Detecting events by clustering videos from large media databases
WO2014061303A1 (ja) 情報処理装置及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20956268

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022553334

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20956268

Country of ref document: EP

Kind code of ref document: A1