WO2023095187A1 - 映像検索装置、映像検索システム、映像検索方法、及びプログラム - Google Patents

映像検索装置、映像検索システム、映像検索方法、及びプログラム Download PDF

Info

Publication number
WO2023095187A1
WO2023095187A1 PCT/JP2021/042875 JP2021042875W WO2023095187A1 WO 2023095187 A1 WO2023095187 A1 WO 2023095187A1 JP 2021042875 W JP2021042875 W JP 2021042875W WO 2023095187 A1 WO2023095187 A1 WO 2023095187A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
search
information
input
query
Prior art date
Application number
PCT/JP2021/042875
Other languages
English (en)
French (fr)
Inventor
佑嗣 小林
純明 榮
裕樹 多賀戸
貴史 小梨
淳 西岡
純 児玉
悦子 市原
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2021/042875 priority Critical patent/WO2023095187A1/ja
Publication of WO2023095187A1 publication Critical patent/WO2023095187A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying

Definitions

  • the present invention relates to technology for searching for videos.
  • Patent Document 1 describes a video search system that searches a video database based on input search conditions.
  • This video retrieval system allows a user to select and classify videos similar to a target video from a set of videos obtained by searching, and extracts video information about the classified videos from a video database.
  • this video search system uses the extracted video information and classification information to determine the feature amount of the target video, and uses the determined feature amount to search the video database again.
  • One aspect of the present invention has been made in view of the above problems, and an example of its purpose is to develop a technique for improving the accuracy of video retrieval even when the amount or accuracy of information related to video is insufficient. to provide.
  • a video search device includes generation means for generating description information for each video stored in a video storage device, acquisition means for acquiring a search query, and using the search query and the description information, , search means for retrieving a video from the video storage device, output means for outputting a search result by the search means, input means for receiving an input of a judgment result of a user with respect to the search result, the judgment result and the search updating means for updating the description information based on the query.
  • a video search system includes generating means for generating description information for each video stored in a video storage device, obtaining means for obtaining a search query, and searching using the search query and the description information. , search means for retrieving a video from the video storage device, output means for outputting a search result by the search means, input means for receiving an input of a judgment result of a user with respect to the search result, the judgment result and the search updating means for updating the description information based on the query.
  • a video search method generates description information for each video stored in a video storage device, acquires a search query, and uses the search query and the description information to retrieve information from the video storage device.
  • a video is searched, a search result is output, an input of a user's determination result with respect to the search result is received, and the explanation information is updated based on the determination result and the search query.
  • a program according to one aspect of the present invention is a program for causing a computer to function as a video search device, the computer comprising generating means for generating description information for each video stored in a video storage device, search query a retrieval means for retrieving a video from the video storage device using the search query and the description information; an output means for outputting the search result by the search means; and a user for the search result and updating means for updating the explanation information based on the determination result and the search query.
  • FIG. 1 is a block diagram showing the configuration of a video search device according to Exemplary Embodiment 1 of the present invention
  • FIG. FIG. 4 is a flow chart showing the flow of a video retrieval method according to exemplary embodiment 1 of the present invention
  • 1 is a block diagram showing the configuration of a video search system according to exemplary embodiment 1 of the present invention
  • FIG. FIG. 10 is a block diagram showing the configuration of a video search system according to exemplary embodiment 2 of the present invention
  • FIG. 10 is a schematic diagram illustrating details of moving images and sensor information according to exemplary embodiment 2 of the present invention
  • FIG. 6 is a flow diagram showing the flow of a video retrieval method according to exemplary embodiment 2 of the present invention
  • FIG. 9 is a diagram showing an example of explanatory information according to exemplary embodiment 2 of the present invention
  • FIG. 9 is a schematic diagram showing a specific example of a video search method according to exemplary embodiment 2 of the present invention
  • FIG. 10 is a schematic diagram showing another specific example of the video retrieval method according to the exemplary embodiment 2 of the present invention
  • FIG. 11 is a schematic diagram showing still another specific example of the video retrieval method according to the exemplary embodiment 2 of the present invention
  • FIG. 10 is a block diagram showing the configuration of a video retrieval system according to exemplary embodiment 3 of the present invention
  • FIG. 8 is a flow diagram showing the flow of a video retrieval method according to exemplary embodiment 3 of the present invention
  • 1 is a diagram showing an example of a hardware configuration of a video search device according to each exemplary embodiment of the present invention
  • FIG. 9 is a schematic diagram showing a specific example of a video search method according to exemplary embodiment 2 of the present invention
  • FIG. 10 is a schematic diagram showing another specific
  • FIG. 1 is a block diagram showing the configuration of the video retrieval device 1. As shown in FIG.
  • the video search device 1 includes a generation unit 11, an acquisition unit 12, a search unit 13, an output unit 14, an input unit 15, and an update unit 16.
  • the generator 11 is an example of a configuration that implements the generator described in the claims.
  • the acquisition unit 12 is an example of a configuration that implements the acquisition means described in the claims.
  • the search unit 13 is an example of a configuration that implements the search means described in the claims.
  • the output unit 14 is an example of a configuration that implements output means described in the claims.
  • the input unit 15 is an example of a configuration that implements input means described in the claims.
  • the updating unit 16 is an example of a configuration that implements updating means described in the claims.
  • the generation unit 11 generates explanatory information for each video stored in the video storage device.
  • the acquisition unit 12 acquires a search query.
  • the search unit 13 searches for videos from the video storage device using the search query and the description information.
  • the output unit 14 outputs search results from the search unit 13 .
  • the input unit 15 receives an input of the user's determination result for the search result.
  • the updating unit 16 updates the explanation information based on the determination result and the search query. "Description information”, "search query”, and “determination result" will be specifically described in the flow of the video search method S1, which will be described later.
  • FIG. 2 is a flow diagram showing the flow of the video retrieval method S1. As shown in FIG. 2, the video retrieval method S1 includes steps S11 to S16.
  • step S11 the generation unit 11 generates explanation information for each video stored in the video storage device.
  • the image storage device is a device that stores a plurality of images to be searched.
  • the video retrieval device 1 is communicably connected to a video storage device via a network, for example.
  • a video to be searched may be a still image or a moving image.
  • the search target unit may be a video segment obtained by dividing the moving image along the time axis.
  • the video storage device may be provided in the video search device 1 as a video storage unit.
  • the explanation information is information explaining each video to be searched.
  • the descriptive information may be, for example, a key-value pair or a natural language sentence.
  • the representation format of the description information is not limited to this.
  • the generation unit 11 generates explanatory information based on analysis results by analyzing each video. Further, for example, the generation unit 11 may acquire a description input by the user for each video, and generate description information based on the acquired description. In this case, the explanation input by the user is acquired via the input device or the network. Further, the generation unit 11 associates the generated explanation information with the video and stores it in the memory. Since the generation unit 11 generates explanation information for each of a plurality of videos, the generation unit 11 also generates a plurality of pieces of explanation information.
  • Step S12 the acquisition unit 12 acquires a search query.
  • the search query contains information for specifying the desired video.
  • the search query is a query for searching for descriptive information.
  • a search query may be, for example, a key-value pair or a natural language sentence.
  • the expression format of the search query is not limited to this.
  • the acquisition unit 12 may acquire the search query input by the user via an input device or network, or may acquire it by reading the search query stored in the memory. Also, the acquisition unit 12 may acquire a search query generated by another device or another functional block (not shown).
  • step S13 the search unit 13 searches for videos from the video storage device using the search query and the description information.
  • the searching unit 13 extracts explanatory information that at least partially matches the search query from among the multiple pieces of explanatory information generated by the generating unit 11 . Also, the search unit 13 sets the video associated with the extracted explanation information as a search result.
  • the number of videos obtained by the search unit 13 as a search result may be one or may be plural.
  • a plurality of images are obtained as search results when the search unit 13 extracts a plurality of pieces of explanatory information that at least partially match the search query. In this case, the search unit 13 sets the video associated with each of the extracted plurality of explanatory information as the search result.
  • Step S14 the output unit 14 outputs the search result by the search unit 13 .
  • Search results include one or more videos.
  • the output unit 14 may output the search result by the search unit 13 by transmitting it to the terminal device of the user.
  • the terminal device displays the received search results on a display connected to the terminal device.
  • the output unit 14 may display the search result by the search unit 13 on a display connected to the video search device 1 . By outputting the search results in this manner, the output unit 14 can present the search results to the user.
  • step S15 the input unit 15 receives an input of the user's determination result for the search result.
  • the judgment result is the result of the user judging whether or not each video included in the search result is the desired video.
  • the input unit 15 includes a user interface component that can select "appropriate (target video)" or “inappropriate (not target video)" near each video displayed as a search result. display.
  • the user interface component may be displayed on a display connected to the video search device 1, or may be displayed on the user's terminal device.
  • the input unit 15 transmits information indicating the user interface components to the terminal device, thereby displaying them near each image.
  • the input unit 15 receives an input of the determination result of the image according to the user's selection operation performed on the user interface component.
  • the user's selection operation may be performed using an input device connected to the video search device 1, or may be performed on the user's terminal device.
  • the terminal device accepts the user's selection operation for the user interface component and transmits information indicating the selection operation to the video search device 1 .
  • the input unit 15 receives input of the determination result by receiving information indicating the selection operation from the terminal device.
  • the method of accepting input of determination results is not limited to this specific example.
  • the determination result is not limited to "whether or not the video is the target video", but may indicate "the degree of matching with the target video”.
  • the input unit 15 may display three or more options, or a user interface component that allows selection of any numerical value within a predetermined range (eg, 1 to 100).
  • step S16 the updating unit 16 updates the explanation information based on the determination result and the search query. For example, the update unit 16 updates the part of the description information that partially matches the search query that does not match the search query, according to the determination result. For example, if a determination result is obtained that the image related to the description information is "appropriate", the portion of the description information that does not match the search query is updated so that it matches the search query.
  • description information is generated for each video stored in the video storage device, a search query is acquired, and a search query and description information, retrieve one or more videos from the video storage device, output the search results, accept input of the user's determination results for the search results, and provide description information based on the determination results and the search query is updated.
  • the generating unit 11 generates the explanatory information about the video, and performs a search using the generated explanatory information. Able to search well. Moreover, according to the said structure, description information can be updated accurately by a user's feedback with respect to a search result. As a result, a search can be performed using the updated description information, thereby improving the search accuracy. Thus, according to this configuration, it is possible to provide a technique for improving the accuracy of video retrieval even when the amount or accuracy of information regarding video is insufficient.
  • FIG. 3 is a block diagram showing the configuration of a video search system 10 according to another aspect.
  • the video search system 10 includes a generator 11 , an acquirer 12 , a searcher 13 , an outputter 14 , an inputter 15 and an updater 16 .
  • the video retrieval system 10 includes a plurality of physically different devices, and one or more of these units are distributed among the plurality of devices. Details of the configuration and operation of each unit are as described above.
  • FIG. 4 is a block diagram showing the configuration of the video retrieval system 20. As shown in FIG.
  • the video retrieval system 20 includes a video retrieval device 2 and a video storage device 9.
  • the video search device 2 includes a control section 210 , a storage section 220 , an input/output section 230 and a communication section 240 .
  • Video storage device 9 The video storage device 9 stores one or more moving images and one or more types of sensor information. Moving images and sensor information will be described with reference to FIG. FIG. 5 is a schematic diagram illustrating details of moving images and sensor information.
  • the moving image was taken by a camera mounted on a mobile object.
  • a mobile object For example, an automobile and a drive recorder are given as an example of a moving object and a photographing device.
  • the moving body and the imaging device are not limited to these.
  • the moving image is associated with the moving object ID.
  • the moving object ID identifies the moving object that mounts the imaging device that shot the moving image.
  • the frames forming each moving image are associated with time information when the frame was shot.
  • a moving image is composed of a plurality of video segments divided along the time axis.
  • a video segment includes multiple frames. The temporal length of each video segment is, for example, 10 to 20 seconds long, but is not limited to this.
  • a video segment that constitutes a moving image is an example of the “video” described in the claims, and is a unit to be searched.
  • the sensor information is the information acquired by the sensors mounted on the mobile object.
  • sensors include a vehicle speed sensor, a steering angle sensor, an engine speed sensor, a positioning sensor, and the like.
  • the "time series data of vehicle speed” shown in FIG. 5 is an example of sensor information acquired by the vehicle speed sensor.
  • time-series data of location information is an example of sensor information acquired by the positioning sensor.
  • the types of sensors and sensor information are not limited to these.
  • the sensor information is associated with a moving body ID.
  • the moving object ID identifies the moving object on which the sensor that acquired the sensor information is mounted.
  • the sensor information is associated with time information when the sensor information was acquired.
  • sensor information is associated with video segments.
  • Video segments and sensor information can be linked by using mobile IDs and time information linked to them, respectively.
  • a video segment is associated with time-series data of sensor information that has the same moving object ID and is acquired from the start to the end of shooting of the video segment.
  • the storage unit 220 stores a generative model, explanatory information, and a search query.
  • a generative model is a model that is generated to output descriptive information with at least video as input.
  • Generative models include machine learning models and rule-based models.
  • a machine learning model is, for example, a model generated using teacher data so that at least video segments are input and descriptive information is output.
  • machine learning models include, but are not limited to, support vector machines, decision trees, random forests, neural network models, and the like.
  • the machine learning model may be generated by the generation unit 21, which will be described later, or may be generated by an external device.
  • the input of the machine learning model may include sensor information associated with the video segment in addition to or instead of the video segment itself.
  • a rule-based model includes, for example, one or more rules.
  • Each rule includes a condition regarding sensor information and descriptive information that is adopted when the condition is satisfied.
  • each rule may include a condition regarding information obtained by analyzing a video segment in addition to or instead of the condition regarding sensor information.
  • the information obtained by analyzing the video segment may be, for example, the type, color, etc. of the subject, but is not limited to these.
  • the explanation information is generated and stored by the generation unit 21, which will be described later.
  • the search query is acquired and stored by an acquisition unit 22, which will be described later. Details of the description information and the search query will be described later.
  • the input/output unit 230 controls input/output to/from the video search device 2 .
  • the input/output unit 230 includes, for example, a keyboard, mouse, touch pad, display, and the like.
  • the communication unit 240 is connected to a network and controls communication with the video storage device 9 .
  • the network to be connected may be, for example, a wireless LAN (Local Area Network), a wired LAN, the Internet, a mobile data communication network, or a combination thereof.
  • control unit 210 The control unit 210 controls each unit of the storage unit 220 , the input/output unit 230 and the communication unit 240 to control the operation of the video search device 2 as a whole.
  • Control unit 210 includes generation unit 21 , acquisition unit 22 , search unit 23 , output unit 24 , input unit 25 , and update unit 26 .
  • the acquisition unit 22, the output unit 24, and the input unit 25 are configured in the same manner as the acquisition unit 12, the output unit 14, and the input unit 15 in the exemplary embodiment 1, so detailed description will not be repeated.
  • the generating unit 21 generates explanatory information using the generative model. Also, the generation unit 21 generates explanation information using the video segment and the sensor information.
  • the search unit 23 searches the video storage device 9 for video segments whose descriptive information at least partially matches the search query.
  • the updating unit 26 updates, in accordance with the determination result, portions of the explanatory information relating to the searched video segment that do not match the search query. Details of "retrieving a partially matching video segment" and “updating a non-matching portion" will be described in the flow of the video retrieval method S2, which will be described later.
  • FIG. 6 is a flow diagram showing the flow of the video retrieval method S2. As shown in FIG. 6, the video search method S2 includes steps S21 to S26.
  • step S21 the generation unit 21 generates explanatory information for each video segment according to a generation model using the video segment and sensor information. Specifically, the generation unit 21 inputs the video segment to the machine learning model. The generation unit 21 also inputs the sensor information associated with the video segment into the rule-based model. Then, the generating unit 21 associates the explanatory information output from the machine learning model and the rule-based model with the video segment and stores them in the storage unit 220 .
  • FIG. 7 is a diagram illustrating a specific example of explanatory information.
  • the descriptive information is expressed as a pair of key and value.
  • the explanation information may include a key with a null value.
  • the value of the key "state” included in the road information is null.
  • a set of key "x" and value "y” is also described as value "y" of key "x", value "y” of key "x”, and the like.
  • Types of keys that can be included in the explanation information include, for example, (i) “vehicle information”, (ii) “traffic participant information (individual)”, (iii) traffic participant information (aggregate), (iv) There are “self vehicle and other vehicle relative information”, (v) “road information”, (vi) “event information”, (vii) "meta information", and the like.
  • "Own vehicle information” includes keys related to the own vehicle itself, such as “vehicle type", “lane type”, and "operation”.
  • vehicle refers to a moving body equipped with an imaging device that captures a moving image including the video segment.
  • the key “vehicle type” indicates the attribute of the own vehicle, and in this example, its value is "ordinary car”.
  • key “lane type” indicates one of the driving states of the own vehicle during video segment shooting, and in this example, its value is "passing lane”. Examples of other keys that indicate the running state of the own vehicle include keys such as "position”, "speed”, and "acceleration” (not shown).
  • the key “action” indicates one of the actions of the own vehicle during video segment shooting, and in this example its value is “brake operation”.
  • values such as “steering (right turn or left turn)", “merging/dividing/changing lanes”, or “overtaking/overtaking”.
  • Traffic participant information includes keys “driver”, "type”, etc. related to each of the traffic participants during video segment shooting.
  • a traffic participant is a person, an object, or a vehicle participating in traffic inside or outside the own vehicle.
  • the value of the key “driver” is “female” in this example.
  • the key “type” indicates the type of traffic participant other than the driver, and in this example, its value is "motorcycle”. Examples of other possible values for the key “type” include “another car”, “motorcycle”, “bicycle”, “pedestrian”, and "animal”.
  • Traffic participant information (iii) Traffic participant information (set)
  • the "Traffic Participant Information (Set)” includes the keys “Center of Gravity”, “Range”, etc. related to a plurality of traffic participants during video segment shooting.
  • the key “centroid” indicates the centroid of the locations of the traffic participants, and its value is null in this example.
  • the key “Range” indicates the range in which more than one traffic participant is included, and its value is null in this example.
  • the "own vehicle relative to other vehicle information" includes keys such as “relative distance” and “relative motion” that indicate the relationship between the own vehicle and the other vehicle during video segment shooting.
  • the key “relative distance” indicates the relative distance between the own vehicle and the other vehicle, and its value is null in this example.
  • the key “relative movement” indicates the relative movement of the vehicle and the other vehicle, and its value is “approaching” in this example.
  • Examples of other keys indicating the relationship between the own vehicle and other vehicles include keys such as “relative velocity” and “relative acceleration” (not shown).
  • the 'road information' includes keys 'shape', 'area', 'state', etc. related to the road on which the vehicle traveled during video segment shooting.
  • the key “shape” indicates the shape of the road and its value is “fork” in this example. Examples of other possible values for the key “shape” include “lane increase/decrease”, “merging”, and “intersection”.
  • the key “area” indicates the area in which the road exists, and in this example its value is “tunnel”. Examples of other possible values for the key “area” include “no lane change", “zebra zone”, “safety zone”, “parking lot”, “highway”, “urban area”, “place name”, etc. be.
  • the key “state” indicates the state of the road and its value is null in this example. Examples of values that the key “state” can take include weather such as “rainfall” and “snowfall", and "pavement”.
  • the “event information” includes keys such as "hiyari-hatto” and "traffic jam” related to events occurring during video segment shooting.
  • the key “hiyari-hatto” indicates whether or not a so-called near-miss event has occurred, and in this example, its value is “applicable”.
  • the key “congestion” indicates whether or not there was traffic congestion, and in this example its value is “applicable”.
  • Examples of other keys that can be included in “event information” include “accident”, “construction”, “good or bad visibility”, “good or bad visibility (fog, backlight, heavy rain)", “accident", etc.
  • Metal information etc.
  • “Meta information” includes keys such as “motion blur” and “likely to appear in commercials (CM)” indicating meta information for video segments. These keys are information indicating characteristics of the video segment as a video regardless of what kind of traffic situation is shown in the video segment.
  • the value of the key “motion blur” is “none” in this example.
  • the value of the key “likely to appear in commercials” is null in this example.
  • FIG. 7 shows an example in which one key has one value
  • the descriptive information may include a key and multiple value pairs.
  • the key “action” included in the type “vehicle information” (hereinafter also referred to as “vehicle action”) may have multiple values “brake operation” and "left turn”.
  • a value corresponding to one key may be represented by a range value.
  • the value of the key "speed” (hereinafter also referred to as "vehicle speed”) included in the type "own vehicle information” may be "10 to 15 km/h”.
  • "X to Y" represents a range from X to Y
  • "km/h” represents kilometers per hour.
  • step S22 the acquisition unit 22 acquires a search query.
  • the operation of this step is almost the same as the operation of step S12 described in the first exemplary embodiment.
  • the search query acquired in this step includes one or more queries.
  • each query included in the search query is represented by a set of keys and values.
  • the search query includes multiple pairs of keys and values.
  • “keys and values representing each query included in a search query” are also referred to as “keys and values specified in a search query (or query)”.
  • step S23 the search unit 23 searches the video storage device 9 for video segments whose description information at least partially matches the search query. For example, when the search query includes a plurality of queries, the search unit 23 extracts from the storage unit 220 explanatory information that satisfies at least some of the queries. Further, the search unit 23 uses video segments linked to the extracted explanation information as search results. For example, suppose the search query included a first query and a second query. The first query is represented by a first key and first value pair, and the second query is represented by a second key and second value pair.
  • the search unit 23 retrieves from the description information stored in the storage unit 220, (i) description information that matches at least the first query (including a set of a first key and a first value), and ( ii) extracting descriptive information (including a second key and second value pair) matching at least the second query;
  • the (i) descriptive information includes what matches the second query and what does not match the second query. Descriptive information that matches the first query but not the second query does not fully match the search query, but partially matches it.
  • the descriptive information of (ii) includes what matches the first query and what does not match the first query. Descriptive information that matches the second query but not the first query does not fully match the search query, but partially matches it. Note that when the explanation information includes a key (a key other than the first key and the second key) that is not specified in the search query, the search unit 23 determines what value the key has. Extraction is performed as if it is acceptable.
  • a first specific example relates to a query specifying a key having only one value (for example, "vehicle model").
  • a query is represented by a set of key "vehicle model” and value "ordinary car”.
  • the explanation information if the key "vehicle type” has the value "ordinary car”, the explanation information matches the query.
  • the description information if the key "vehicle type” has the value "light vehicle”, the description information does not match the query.
  • a second specific example relates to a query that specifies a key that can have multiple values ("vehicle motion" as an example).
  • a query is represented, for example, by a set of key “vehicle action” and value "braking action”.
  • the explanation information if the key “own vehicle operation” has a plurality of values “brake operation” and “left turn”, the explanation information matches the query.
  • the explanation information if the key “vehicle movement” has multiple values “accelerate” and "turn left”, the explanation information does not match the query. That is, in the description information, if the key specified in the query has at least the value specified in the query, the description information matches the query.
  • a query may be represented by a set of one key and multiple values.
  • the description information if the key specified in the query has at least all the values specified in the query, the description information may match the query, and otherwise may not match.
  • the descriptive information if the key specified in the query has at least one of the multiple values specified in the query, the descriptive information may match the query. In this case, if the key specified in the query does not have any of the multiple values specified in the query in the description information, the description information may not match the query.
  • the third specific example relates to a query specifying a key whose value is represented by a range value ("vehicle speed" as an example).
  • a query is represented by a set of key “vehicle speed” and value "10 to 30 km/h", for example.
  • the explanation information if the key "vehicle speed” has the value "10-15 km/h”, the explanation information matches the query. Also, in the explanation information, if the key "vehicle speed" has the value "40-50 km/h", the explanation information does not match the query.
  • the description information if the range value indicated by the value of the key specified in the query (hereinafter also referred to as the range value of the description information) is included in the range value specified in the query, the description information matches Also, if there is no overlap between the range value of the description information and the range value specified by the query, the description information does not match the query.
  • the range value of the description information may include both overlapping and non-overlapping portions with respect to the range value specified by the query. For example, the range value of the description information is "0 to 15 km/h" and the range value specified by the query is "10 to 40 km/h". Such descriptive information may or may not match.
  • the determination of whether or not the description information matches each query included in the search query is not limited to the above specific example. Also, the matching condition used in such determination may optionally be designated by the user.
  • Step S24 In step S ⁇ b>24 , the output unit 24 outputs the search result by the search unit 23 .
  • the operation of this step is almost the same as the operation of step S14 described in the first exemplary embodiment. However, the difference is that the unit to be output as a search result is a video segment.
  • Step S25 the input unit 25 receives an input of the user's determination result for the search result.
  • the operation of this step is almost the same as the operation of step S15 described in the first exemplary embodiment. However, the difference is that the unit for receiving the input of the determination result is the video segment.
  • step S26 In step S ⁇ b>26 , the update unit 26 updates the portion of the explanatory information related to the searched video segment that does not match the search query according to the determination result. A specific example of the updating process in this step will be described with reference to FIGS. 8 to 10. FIG.
  • FIG. 8 is a schematic diagram illustrating a specific example 1 of the video search method S2.
  • the search query acquired in step S22 is "the value of the first key 'shape' is 'merge'" and 'the value of the second key 'state' is Contains the value "snowfall”.
  • step S23 the value of the first key "status” is "merge", but the value of the second key "status" is null. Therefore, this descriptive information partially matches the search query because it satisfies the search query for the first key and not for the second key.
  • step S24 the video segment linked to this explanation information is displayed on the display. Also, the determination result accepted in step S25 indicates "appropriate".
  • step S26 the update unit 26 updates the value of the second key "state” that does not match the search query in the description information to "snowfall” so that it matches the search query.
  • the updating unit 26 updates the value of the key that does not match the search query in the description information so that it matches the search query. do.
  • FIG. 9 is a schematic diagram for explaining a specific example 2 of the video search method S2. As shown in FIG. 9, the search query obtained in step S22 of this specific example is the same as that of the first specific example.
  • the explanatory information extracted in step S23 does not include the second key, although the value of the first key "status" is "merge". Therefore, this descriptive information partially matches the search query because it satisfies the first query and not the second query.
  • step S24 video segments linked to such explanatory information are displayed on the display. Also, the determination result accepted in step S25 indicates "appropriate".
  • step S26 the update unit 26 adds the second key "state” to the description information and updates its value to "snowfall” to match the search query.
  • the update unit 26 newly adds a key that is not included in the search query in the description information, and searches for the value of the key. Update to match query.
  • FIG. 10 is a schematic diagram for explaining a specific example 3 of the video search method S2. As shown in FIG. 10, the search query acquired in step S22 of this specific example is the same as that of the first and second specific examples.
  • step S23 the value of the first key "status” is "merge", but the value of the second key "status" is null. Therefore, this descriptive information partially matches the search query because it satisfies the search query for the first key and not for the second key.
  • step S24 video segments linked to such explanatory information are displayed on the display. Also, the determination result accepted in step S25 indicates "inappropriate".
  • step S26 the update unit 26 updates the value of the second key "status" that does not match the search query in the description information to "not snowfall” to negate the search query.
  • the updating unit 26 denies the search query by determining the value of the key that does not match the search query in the description information. update.
  • the searching unit 23 does not extract explanatory information that includes information denying the search query.
  • step S26 if the description information completely matches the search query and the determination result is "inappropriate", the update unit 26 updates at least a portion of the description information that matches the search query as a match. You can update it to not.
  • the video storage device 9 referred to by the video retrieval device 2 and the video retrieval method S2 according to the present exemplary embodiment store the moving images captured by the imaging device mounted on the moving body, and sensor information acquired by the sensors mounted on the . Further, the sensor information is linked to video segments obtained by dividing the moving image along the time axis. Further, according to the video search device 2 and the video search method S2, in addition to the configuration similar to that of the exemplary embodiment, a generative model generated to output explanatory information with input of video segments and sensor information is used. , to generate explanation information.
  • the generative model is used to generate the descriptive information, so the descriptive information can be generated with high accuracy. Also, since the description information is generated using the sensor information in addition to the video segment, the description information can be generated with high accuracy. Therefore, in this exemplary embodiment, even if there is no or insufficient information associated with the moving image in advance, it is possible to more accurately search for the video segment using the accurately generated description information. can.
  • images whose description information partially matches the search query are searched from the image storage device 9 and searched.
  • a configuration is adopted in which, of the explanatory information about the retrieved video, the part that does not match the search query is updated according to the determination result.
  • Mode 1 is a mode in which priority is given to searching for a target video segment.
  • the output unit 24 and step S24 are modified as follows.
  • step S24 if the search results include a plurality of video segments, the output unit 24 outputs the search results in descending order of search accuracy by the search unit 23.
  • a high search accuracy may be a high degree of reliability regarding a portion of the description information that matches the search query.
  • the reliability it is possible to employ the reliability that is output together with the explanation information from the machine learning model.
  • the generation unit 21 associates the explanation information and the reliability output from the machine learning model with the video segment and stores them in the storage unit 220 .
  • the output unit 24 outputs the video segments in descending order of reliability associated with the portion of the description information that matches the search query.
  • high search accuracy may mean that there are many parts that match the search query in the description information. For example, if a search query contains 3 queries, description information matches all 3 queries, description information matches 2 queries and does not match 1 query, description information matches 1 query and does not match 2 queries. Search accuracy is high in the order of description information.
  • high search accuracy may mean that the weight of a matching query is high.
  • the multiple queries included in the search query are weighted.
  • the weight may be user specified.
  • this weight may be specified in advance or may be specified together with the search query.
  • the search queries include a query specifying the key "vehicle motion” and a query specifying the key "vehicle speed”, and the key "vehicle motion” has a greater weight than the key "vehicle speed”.
  • the search accuracy is higher in the order of description information with at least the matching key "vehicle motion” and description information with the matching key "vehicle speed” but not with the key "vehicle motion”.
  • the "output order" may be realized, for example, by the arrangement order on the display or by the temporal order.
  • the output unit 24 arranges a plurality of video segments included in the search results in a predetermined direction (for example, from top to bottom) in descending order of search accuracy and displays them on the display.
  • the output unit 24 repeats displaying a predetermined number of video segments on the display in descending order of search accuracy, and receiving determination results for them, and then displaying a predetermined number of video segments with the next highest search accuracy on the display.
  • the method for realizing the "output order" is not limited to these.
  • search results are output in order of high search accuracy, so video segments are presented to the user in the order in which they are output.
  • the user can recognize video segments in descending order of search accuracy, and enjoy the advantage of being able to easily search for a desired video segment.
  • (Aspect 2) Mode 2 is a mode in which priority is given to improving the accuracy of the explanation information.
  • the output unit 24 and step S24 are modified as follows.
  • step S24 if the search results include a plurality of video segments, the output unit 24 outputs the search results in descending order of search accuracy by the search unit 23.
  • the extent to which the description information matches the search query may be low.
  • search accuracy is low in the order of only one matching, only two matching, and all three matching.
  • the output unit 24 outputs the video segments in descending order of the extent to which the description information matches the search query.
  • low search accuracy may mean that there are few parts of the description information that match the search query. For example, if a search query contains 3 queries, description information that matches 1 query but not 2 queries, description information that matches 2 queries but does not match 1 query, and description information that matches all 3 queries Search accuracy is low in the order of description information.
  • low search accuracy may mean that the weight of a matching query is low.
  • the weight is as described in the third specific example of high retrieval accuracy.
  • the search queries include a query specifying the key "vehicle motion” and a query specifying the key "vehicle speed”, and the key "vehicle speed" has a smaller weight than the key "vehicle motion”.
  • the search accuracy is lower in the order of the explanation information with at least the matching key "vehicle speed” and the explanation information with the matching key "vehicle motion” but not the key “vehicle speed”.
  • low search accuracy may be a large number of null values included in the description information.
  • the output unit 24 outputs the video segments in descending order of description information including many null values.
  • step S25 the user may not input determination results for all of the video segments included in the search results, but may input determination results for some of the video segments that are output earlier.
  • the number of video segments included in the search results is large, it is considered that such a tendency increases.
  • the search results are output in order of decreasing search accuracy, so the video segments are presented to the user in the order of output.
  • the user recognizes the video segments in order of decreasing search accuracy, so it can be expected that the earlier the recognition order, the higher the possibility of inputting the determination result.
  • it is possible to receive more determination results for video segments with lower search accuracy, and update the explanation information with higher accuracy.
  • Aspect 3 is an aspect in which each of aspects 1 and 2 can be switched as a mode.
  • the video retrieval device 2 is modified so as to accept an input as to which mode is to be selected by the user.
  • the video search device 2 operates as mode 1 or mode 2 according to the mode selected by the user.
  • the user can enjoy the advantage of being able to switch between giving priority to searching for the target video segment and giving priority to improving the accuracy of the explanation information according to the situation. .
  • Mode 4 is a mode of classifying search results.
  • the output unit 24 and step S24, and the input unit 25 and step S25 are modified as follows.
  • the output unit 24 classifies and outputs the search result.
  • the output unit 24 may classify multiple video segments according to the descriptive information. For example, multiple video segments included in the search results may be classified according to the value of the key "area". In this case, the keys used for classification may or may not be included in the search query.
  • the output unit 24 may classify a plurality of video segments according to video features of the video segments (for example, subject type, color, etc.).
  • the output unit 24 may also classify multiple video segments using a classification model. In this case, the classification model was generated using machine learning to take a video segment as input and output its classification.
  • the classification model may be stored in the storage unit 220 of the video search device 2, or may be stored in an external device. If stored in an external device, video retrieval device 2 uses the classification model by communicating with the external device. Also, the classification model may be generated by a functional block (not shown) of the video search device 2, or may be generated by another device.
  • a method of "classifying and outputting” for example, there is a method of dividing the display area of the display into a plurality of areas and making the areas correspond to the classifications. Further, as another method, for example, there is a method of generating different screens for each classification and switching the screens for display. Note that the method of “classifying and outputting” is not limited to these.
  • step S25 the input unit 25 accepts input of determination results for each classification.
  • the input unit 25 may display a user interface component for receiving determination results for each area and receive an input operation for each user interface component.
  • the method of "accepting input of determination results for each classification" is not limited to this.
  • the user does not need to individually input determination results for each video segment included in the search results, and can collectively input determination results for each classification. Therefore, determination results can be accepted for more video segments, and explanation information can be updated more accurately.
  • Mode 5 is a mode using a plurality of determination results.
  • the input unit 25 and step S25, and the update unit 26 and step S26 are modified as follows.
  • step S25 the input unit 25 accepts input of a plurality of determination results for the search results.
  • the video search device 2 may reoutput the video segment for which the determination result has been received and may receive the determination result again.
  • one user inputs a plurality of judgment results.
  • the video search device 2 may output search results to a plurality of terminals in step S24, and may receive input of determination results from a plurality of terminals in step S25. In this case, a plurality of users each input the determination results.
  • step S26 the update unit 26 updates the explanation information using a plurality of determination results.
  • the update unit 26 may use the determination result with the largest number of determination results. As a specific example, if three out of five determination results are "appropriate" and two are "inappropriate," the updating unit 26 adopts the "appropriate" determination result that has more determination results to update the explanation information. .
  • the updating unit 26 may weight each of the plurality of determination results. For example, when a plurality of determination result inputs are accepted by repeating steps S24 and S25, the weight may be increased as the order of acceptance of determination result inputs is closer.
  • the user when receiving multiple judgment results from one user, the user may hesitate to judge whether the output video segment is the desired one and change the judgment result each time it is input. . Also, when receiving determination results from a plurality of users, there is a possibility that the determination result of a certain user is different from the determination result of another user. According to the configuration of aspect 5, since a plurality of determination results are used, it is possible to update the explanation information with higher accuracy than in the case of using one determination result.
  • Mode 6 is a mode of applying the same interpolation to similar video segments.
  • the update unit 26 and step S26 are modified as follows.
  • each video segment of the moving image stored in the video storage device 9 is associated with time information and position information. This linking is possible by comparing the time stamp attached to each frame of the moving image and the time-series data of the position information included in the sensor information.
  • step S26 the update unit 26 updates another video segment similar to one or both of the time information and the position information to the video segment whose description information is to be updated among the videos stored in the video storage device 9. to extract In addition, the updating unit 26 further updates the explanatory information regarding the extracted other videos. More specifically, the update unit 26 updates the extracted description information about the other video in the same manner as the description information to be updated.
  • the video segment whose description information is to be updated is, for example, a video segment whose description information at least partially matches the search query, as described above.
  • the value of the key "status" is updated from null to "snowfall".
  • the updating unit 26 extracts other video segments whose temporal distance and spatial distance are each within a threshold value with respect to the video segment to which the explanation information is linked.
  • the extracted other video segment is, for example, a video segment shot by another moving object that was traveling around the moving object when the video segment was shot.
  • the update unit 26 also updates the value of the key “state” to “snowfall” for the explanatory information linked to the other extracted video segment.
  • each video segment may be associated with either one of the time information and the location information, not just both.
  • the update unit 26 may extract other video segments with similar running directions in addition to similar time information and position information. For example, even if a vehicle travels on the same road during a similar period of time, there is a possibility that the explanatory information to be added to the video may differ depending on whether the vehicle is traveling in an upward direction or a downward direction. By adding the driving direction condition, it is possible to more accurately extract other video segments that similarly update the description information.
  • the updating unit 26 identifies the running direction of the moving object when the video segment whose description information is to be updated is captured. For example, the updating unit 26 can identify the traveling direction by using the time-series data of the position information associated with the video segment.
  • the other video segment to be extracted is, for example, a video segment shot by another moving body that was traveling in the same direction (up or down) on the same road as the moving body when the video segment was shot. be.
  • the description information can be updated more accurately for more video segments.
  • Mode 7 is a mode that considers the dependency relationship between explanatory information.
  • the update unit 26 and step S26 are modified as follows.
  • the explanation information includes first explanation information and second explanation information.
  • the first explanation information and the second explanation information have a dependency relationship.
  • the storage unit 220 stores information about such dependencies.
  • the key "area” is given as an example of the first description information.
  • An example of the second explanation information is the key "status”. For example, if the value of the key "area” is "tunnel", the value of the key "state” cannot be “rain” or "snow". That is, there is a dependency between the key "Area” and the key "State”.
  • step S26 the update unit 26 updates the explanation information using the dependency relationship between the first explanation information and the second explanation information.
  • the value of the key "status” was updated from null to "snowfall".
  • the updating unit 26 considers the dependency relationship between the key "area” and the key "state” Don't update the value to 'snowfall'.
  • the explanation information since the explanation information is updated in consideration of the dependency relationship between the first explanation information and the second explanation information, the explanation information can be updated more accurately.
  • Aspect 8 is an aspect of limiting the types of explanatory information to be updated.
  • the update unit 26 and step S26 are modified as follows.
  • the explanation information includes the third explanation information and the fourth explanation information.
  • the generation unit 21 generates the third explanatory information using the rule-based model.
  • the generation unit 21 generates the fourth explanatory information based on the machine learning model or user input.
  • the rule-based model and the machine learning model are stored in the storage unit 220, the details of which are as described above.
  • the generation unit 21 may acquire a description input by the user for each video, and generate the fourth description information based on the acquired description.
  • the details of generating the descriptive information based on the descriptive text entered by the user are as described in the first exemplary embodiment.
  • the storage unit 220 stores information indicating which of the third explanatory information and the fourth explanatory information is according to the type (for example, key) of the explanation information.
  • step S26 the updating unit 26 does not update the third explanatory information, but updates the fourth explanatory information.
  • the third explanatory information is derived based on the rule-based model, it is highly likely that it will be highly objective and clearly defined. Therefore, it can be said that the third explanation information is relatively highly accurate information. Since the fourth explanatory information is derived based on machine learning models or user input, it may be difficult to define clearly or may be less objective. Therefore, it can be said that the fourth explanation information is information that has room for improvement in accuracy through feedback of the determination result.
  • the fourth explanatory information which has room for accuracy improvement, is updated without updating the highly accurate third explanatory information, so that the explanatory information can be updated with higher accuracy.
  • FIG. 11 is a block diagram showing the configuration of the video retrieval system 30. As shown in FIG.
  • the video retrieval system 30 includes a video retrieval device 3 and a video storage device 9.
  • the video search device 3 includes a control section 310 , a storage section 320 , an input/output section 330 and a communication section 340 .
  • the video storage device 9 is as described in the second exemplary embodiment. Further, since the storage unit 320, the input/output unit 330, and the communication unit 340 are the same as the storage unit 220, the input/output unit 230, and the communication unit 240 described in the second exemplary embodiment, the detailed description will be repeated. do not have.
  • control unit 310 includes a generation unit 31, an acquisition unit 32, a search unit 33, an output unit 34, an input unit 35, an update unit 36, and a model update unit 37.
  • model updating unit 37 will be described.
  • Other functional blocks are configured in the same manner as in exemplary embodiment 2, and detailed description thereof will not be repeated.
  • the model updating unit 37 uses the explanatory information updated by the updating unit 36 to update the generative model. Details of the update of the generative model will be described in the flow of the video search method S3, which will be described later.
  • FIG. 12 is a flow diagram showing the flow of the video retrieval method S3.
  • the video search method S3 includes steps S31 to S37.
  • the operations of steps S31 to S36 are the same as the operations of steps S21 to S26 described as the second exemplary embodiment.
  • the operation of step S37 will be described.
  • step S37 the model updating unit 37 updates the generative model using the explanatory information updated in step S36.
  • the model updating unit 37 performs additional learning on the machine learning model included in the generated model using the updated explanation information as teacher data.
  • the model updating unit 37 performs additional learning on the machine learning model so that when the corresponding video segment is input, a set of the key "state” and the value "snowfall” is output.
  • the video retrieval device 3 and the video retrieval method S3 according to this exemplary embodiment employ a configuration in which the generative model is updated using the explanatory information updated by the updating unit 36 .
  • the generative model is updated so as to output explanatory information that matches the judgment result by the user, it is possible to perform a search using the explanatory information generated using the updated generative model, thereby improving the search accuracy. can be improved.
  • the video storage device 9 may store still images, and the still images may be searched.
  • the still image is an example of the image described in the claims.
  • the video storage device 9 may store moving images, and the moving images may be searched for in units of files rather than in units of video segments.
  • the moving image file is an example of the video described in the claims.
  • the generative model is not limited to both the machine learning model and the rule-based model, but may include only one of them.
  • the generators 21 and 31 may generate explanatory information using various types of information that can be associated with the video segments, in addition to the video segments and sensor information.
  • various types of information is weather information observed in the vicinity of the moving object when the video segment was shot, but is not limited to this.
  • one or both of the descriptive information and the search query may be natural text.
  • each functional block of the video search devices 2 and 3 may be included in a physically single device, or may be distributed and included in a plurality of physically different devices. may be
  • Some or all of the functions of the video search devices 1, 2, and 3 may be implemented by hardware such as integrated circuits (IC chips), or by software.
  • the video search devices 1, 2, and 3 are implemented by computers that execute program instructions, which are software that implements each function, for example.
  • An example of such a computer (hereinafter referred to as computer C) is shown in FIG.
  • Computer C comprises at least one processor C1 and at least one memory C2.
  • a program P for operating the computer C as the video retrieval devices 1, 2, and 3 is recorded in the memory C2.
  • the processor C1 reads the program P from the memory C2 and executes it, thereby implementing the functions of the video search devices 1, 2, and 3.
  • processor C1 for example, CPU (Central Processing Unit), GPU (Graphic Processing Unit), DSP (Digital Signal Processor), MPU (Micro Processing Unit), FPU (Floating point number Processing Unit), PPU (Physics Processing Unit) , a microcontroller, or a combination thereof.
  • memory C2 for example, a flash memory, HDD (Hard Disk Drive), SSD (Solid State Drive), or a combination thereof can be used.
  • the computer C may further include a RAM (Random Access Memory) for expanding the program P during execution and temporarily storing various data.
  • Computer C may further include a communication interface for sending and receiving data to and from other devices.
  • Computer C may further include an input/output interface for connecting input/output devices such as a keyboard, mouse, display, and printer.
  • the program P can be recorded on a non-temporary tangible recording medium M that is readable by the computer C.
  • a recording medium M for example, a tape, disk, card, semiconductor memory, programmable logic circuit, or the like can be used.
  • the computer C can acquire the program P via such a recording medium M.
  • the program P can be transmitted via a transmission medium.
  • a transmission medium for example, a communication network or broadcast waves can be used.
  • Computer C can also obtain program P via such a transmission medium.
  • a video search device comprising:
  • the generated explanation information can be updated with high accuracy, and the accuracy of the search using the updated explanation information can be improved. can be done.
  • the generating means generates the explanatory information using a generative model generated so as to output explanatory information with at least video as input.
  • the video retrieval device according to appendix 1.
  • Appendix 3 further comprising model updating means for updating the generative model using the explanatory information updated by the updating means;
  • model updating means for updating the generative model using the explanatory information updated by the updating means.
  • the explanatory information can be generated with higher accuracy.
  • the search means searches the video storage device for videos in which the descriptive information at least partially matches the search query;
  • the updating means updates, in accordance with the determination result, a portion of the explanatory information related to the searched video that does not match the search query. 3.
  • the video search device according to any one of Appendices 1 to 3.
  • the output means outputs the search results in descending order of search accuracy by the search means. 5.
  • the video search device according to any one of Appendices 1 to 4.
  • the user can enjoy the advantage of being able to easily search for the desired video segment.
  • the output means outputs the search results in descending order of search accuracy by the search means. 5.
  • the video search device according to any one of Appendices 1 to 4.
  • the user will input the judgment results in descending order of search accuracy. As a result, it is possible to update the description information about the video with low search accuracy with higher accuracy.
  • Appendix 7 the output means classifies and outputs the search results when the search results include a plurality of videos;
  • the input means receives input of the determination result for each of the classifications.
  • the video search device according to any one of Appendices 1 to 6.
  • the user does not need to input the determination results individually for each video included in the search results, and can collectively input the determination results for each category. easier. Therefore, the possibility of inputting determination results for more videos increases, and the explanation information can be updated more accurately.
  • the input means accepts input of a plurality of the determination results for the search results,
  • the updating means updates the explanation information using a plurality of the determination results.
  • the video search device according to any one of Appendices 1 to 7.
  • Each video stored in the video storage device is associated with one or both of time information and position information,
  • the updating means further updates the description information about other videos having one or both of time information and position information similar to the video whose description information is to be updated, among the videos stored in the video storage device.
  • Update 9.
  • the video search device according to any one of Appendices 1 to 8.
  • the explanation information includes first explanation information and second explanation information
  • the video search device according to any one of Appendices 1 to 9.
  • Each image stored in the image storage device is An image captured by a camera mounted on a moving object, Each image is associated with sensor information acquired by a sensor mounted on the moving body, The generation means uses the image and the sensor information to generate the explanation information.
  • the video search device according to any one of Appendices 1 to 10.
  • the updating means is Identifying the running direction of the moving body at the time of shooting the image for the image to be updated of the description information, further updating the explanation information related to another image similar in the running direction to the image to be updated of the explanation information among the images stored in the image storage device; 12.
  • the video retrieval device according to appendix 11.
  • the explanation information includes third explanation information and fourth explanation information
  • the generating means generates the third explanatory information using a rule-based model and generates the fourth explanatory information based on a machine learning model or user input
  • the updating means updates the fourth explanatory information without updating the third explanatory information; 13.
  • the video search device according to appendix 11 or 12.
  • the third explanatory information is generated by a rule-based model, it is highly likely that it will be highly objective and clearly defined.
  • the fourth explanatory information is generated based on a machine learning model or user input, so it may be difficult to define or less objective.
  • the third explanatory information that is highly objective and clearly defined is generated by the generation unit, and the fourth explanatory information that is less objective or difficult to define is updated. Description information can be updated with high accuracy.
  • a program for causing a computer to function as a video retrieval device comprising: generating means for generating explanatory information for each video stored in the video storage device; an acquisition means for acquiring a search query; a retrieval means for retrieving a video from the video storage device using the search query and the descriptive information; an output means for outputting search results by the search means; an input means for receiving an input of a user's determination result for the search result; updating means for updating the description information based on the determination result and the search query;
  • the processor a generation process for generating explanatory information for each video stored in the video storage device; Acquisition processing for acquiring a search query; a search process for retrieving a video from the video storage device using the search query and the descriptive information; an output process for outputting search results from the search process; an input process for receiving an input of a user's determination result for the search result; an update process of updating the description information based on the determination result and the search query;
  • a video search device that executes
  • the video search device may further include a memory, and the memory stores the generation process, the acquisition process, the search process, the output process, the input process, and the update process.
  • a program to be executed by the processor may be stored.
  • this program may be recorded in a computer-readable non-temporary tangible recording medium.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

映像に関する情報の量または精度が充分でない場合であっても、映像の検索精度を向上させる、との課題を解決するために、映像検索装置(1)は、映像記憶装置に記憶された映像ごとに説明情報を生成する生成部(11)と、検索クエリを取得する取得部(12)と、検索クエリおよび説明情報を用いて、映像記憶装置から映像を検索する検索部(13)と、検索部(13)による検索結果を出力する出力部(14)と、検索結果に対する利用者の判定結果の入力を受け付ける入力部(15)と、判定結果および検索クエリに基づいて、説明情報を更新する更新部(16)と、を備える。

Description

映像検索装置、映像検索システム、映像検索方法、及びプログラム
 本発明は、映像を検索する技術に関する。
 特許文献1には、入力された検索条件に基づいて映像データベースを検索する映像検索システムが記載されている。この映像検索システムは、利用者に、検索して得られた映像集合から目的の映像に類似した映像を選択させて分類させ、分類された映像に関する映像情報を映像データベースから抽出する。また、この映像検索システムは、抽出した映像情報と分類情報とを用いて目的の映像に関する特徴量を判定し、判定した特徴量を用いて映像データベースを再検索する。
特開2000-331009号公報
 特許文献1に記載の映像検索システムにおいては、映像データベースに映像情報が充分に記憶されていない場合、分類された映像に関する映像情報を充分に抽出できない。また、映像データベースに記憶された映像情報の精度が充分でない場合、分類された映像に関して抽出した映像情報の精度も充分ではない。このため、目的の映像に関する特徴量を精度よく判定することができず、検索精度を向上できない可能性がある。
 本発明の一態様は、上記の問題に鑑みてなされたものであり、その目的の一例は、映像に関する情報の量または精度が充分でない場合であっても、映像の検索精度を向上させる技術を提供することである。
 本発明の一側面に係る映像検索装置は、映像記憶装置に記憶された映像ごとに説明情報を生成する生成手段と、検索クエリを取得する取得手段と、前記検索クエリおよび前記説明情報を用いて、前記映像記憶装置から映像を検索する検索手段と、前記検索手段による検索結果を出力する出力手段と、前記検索結果に対する利用者の判定結果の入力を受け付ける入力手段と、前記判定結果および前記検索クエリに基づいて、前記説明情報を更新する更新手段と、を備える。
 本発明の一側面に係る映像検索システムは、映像記憶装置に記憶された映像ごとに説明情報を生成する生成手段と、検索クエリを取得する取得手段と、前記検索クエリおよび前記説明情報を用いて、前記映像記憶装置から映像を検索する検索手段と、前記検索手段による検索結果を出力する出力手段と、前記検索結果に対する利用者の判定結果の入力を受け付ける入力手段と、前記判定結果および前記検索クエリに基づいて、前記説明情報を更新する更新手段と、を備える。
 本発明の一側面に係る映像検索方法は、映像記憶装置に記憶された映像ごとに説明情報を生成し、検索クエリを取得し、前記検索クエリおよび前記説明情報を用いて、前記映像記憶装置から映像を検索し、検索結果を出力し、前記検索結果に対する利用者の判定結果の入力を受け付け、前記判定結果および前記検索クエリに基づいて、前記説明情報を更新する。
 本発明の一側面に係るプログラムは、コンピュータを映像検索装置として機能させるためのプログラムであって、前記コンピュータを、映像記憶装置に記憶された映像ごとに説明情報を生成する生成手段と、検索クエリを取得する取得手段と、前記検索クエリおよび前記説明情報を用いて、前記映像記憶装置から映像を検索する検索手段と、前記検索手段による検索結果を出力する出力手段と、前記検索結果に対する利用者の判定結果の入力を受け付ける入力手段と、前記判定結果および前記検索クエリに基づいて、前記説明情報を更新する更新手段と、として機能させる。
 本発明の一態様によれば、映像に関する情報の量または精度が充分でない場合であっても、映像の検索精度を向上させることができる。
本発明の例示的実施形態1に係る映像検索装置の構成を示すブロック図である。 本発明の例示的実施形態1に係る映像検索方法の流れを示すフロー図である。 本発明の例示的実施形態1に係る映像検索システムの構成を示すブロック図である。 本発明の例示的実施形態2に係る映像検索システムの構成を示すブロック図である。 本発明の例示的実施形態2に係る動画像及びセンサ情報の詳細を説明する模式図である。 本発明の例示的実施形態2に係る映像検索方法の流れを示すフロー図である。 本発明の例示的実施形態2に係る説明情報の一例を示す図である。 本発明の例示的実施形態2に係る映像検索方法の具体例を示す模式図である。 本発明の例示的実施形態2に係る映像検索方法の他の具体例を示す模式図である。 本発明の例示的実施形態2に係る映像検索方法のさらに他の具体例を示す模式図である。 本発明の例示的実施形態3に係る映像検索システムの構成を示すブロック図である。 本発明の例示的実施形態3に係る映像検索方法の流れを示すフロー図である。 本発明の各例示的実施形態に係る映像検索装置のハードウェア構成の一例を示す図である。
 〔例示的実施形態1〕
 本発明の第1の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。
 <映像検索装置1の構成>
 本例示的実施形態に係る映像検索装置1の構成について、図1を参照して説明する。図1は、映像検索装置1の構成を示すブロック図である。
 図1に示すように、映像検索装置1は、生成部11と、取得部12と、検索部13と、出力部14と、入力部15と、更新部16とを含む。生成部11は、請求の範囲に記載した生成手段を実現する構成の一例である。取得部12は、請求の範囲に記載した取得手段を実現する構成の一例である。検索部13は、請求の範囲に記載した検索手段を実現する構成の一例である。出力部14は、請求の範囲に記載した出力手段を実現する構成の一例である。入力部15は、請求の範囲に記載した入力手段を実現する構成の一例である。更新部16は、請求の範囲に記載した更新手段を実現する構成の一例である。
 生成部11は、映像記憶装置に記憶された映像ごとに説明情報を生成する。取得部12は、検索クエリを取得する。検索部13は、検索クエリおよび説明情報を用いて、映像記憶装置から映像を検索する。出力部14は、検索部13による検索結果を出力する。入力部15は、検索結果に対する利用者の判定結果の入力を受け付ける。更新部16は、判定結果および検索クエリに基づいて、説明情報を更新する。「説明情報」、「検索クエリ」、「判定結果」については、後述する映像検索方法S1の流れにおいて具体的に説明する。
 <映像検索方法S1の流れ>
 映像検索装置1は、本例示的実施形態に係る映像検索方法S1を実行する。映像検索方法S1の流れについて、図2を参照して説明する。図2は、映像検索方法S1の流れを示すフロー図である。図2に示すように、映像検索方法S1は、ステップS11~S16を含む。
 (ステップS11)
 ステップS11において、生成部11は、映像記憶装置に記憶された映像ごとに説明情報を生成する。
 ここで、映像記憶装置は、検索対象となる複数の映像を記憶する装置である。映像検索装置1は、例えば、ネットワークを介して映像記憶装置と通信可能に接続される。検索対象となる映像は、静止画像であってもよいし、動画像であってもよい。また、動画像である場合、検索対象の単位は、動画像を時間軸に沿って分割した映像セグメントであってもよい。なお、映像記憶装置は、映像記憶部として映像検索装置1に備えられてもよい。
 また、説明情報は、検索対象となる各映像を説明する情報である。説明情報は、例えば、キー及びバリューの組であってもよいし、自然言語文であってもよい。ただし、説明情報の表現形式はこれに限られない。例えば、生成部11は、各映像を解析することにより、解析結果に基づく説明情報を生成する。また、例えば、生成部11は、各映像に関してユーザが入力した説明文を取得し、取得した説明文に基づき説明情報を生成してもよい。この場合、ユーザが入力した説明文は、入力装置又はネットワークを介して取得される。また、生成部11は、生成した説明情報を、当該映像に紐づけてメモリに記憶する。生成部11は、複数の映像それぞれについて説明情報を生成するので、生成部11が生成する説明情報も複数となる。
 (ステップS12)
 ステップS12において、取得部12は、検索クエリを取得する。
 検索クエリは、目的の映像を特定するための情報を含む。具体的には、検索クエリは、説明情報を検索するクエリである。検索クエリは、例えば、キー及びバリューの組であってもよいし、自然言語文であってもよい。ただし、検索クエリの表現形式はこれに限られない。
 本ステップにおいて、取得部12は、利用者が入力する検索クエリを入力装置又はネットワークを介して取得してもよいし、メモリに記憶された検索クエリを読み込むことにより取得してもよい。また、取得部12は、他の装置、又は、図示しない他の機能ブロックが生成した検索クエリを取得してもよい。
 (ステップS13)
 ステップS13において、検索部13は、検索クエリおよび説明情報を用いて、映像記憶装置から映像を検索する。
 例えば、検索部13は、生成部11が生成した複数の説明情報のうち、検索クエリに少なくとも部分的に合致する説明情報を抽出する。また、検索部13は、抽出した説明情報に紐づけられた映像を、検索結果とする。なお、検索部13が検索結果として得る映像の個数は、1つであってもよいし、複数であってもよい。検索結果として得る映像の個数が複数となるのは、検索部13が、検索クエリに少なくとも部分的に合致する複数の説明情報を抽出した場合である。この場合、検索部13は、抽出した複数の説明情報のそれぞれに紐づけられた映像を、検索結果とする。
 (ステップS14)
 ステップS14において、出力部14は、検索部13による検索結果を出力する。検索結果には、1又は複数の映像が含まれる。ここで、出力部14は、検索部13による検索結果を、利用者の端末装置に送信することにより出力してもよい。この場合、当該端末装置は、受信した検索結果を、当該端末装置に接続されたディスプレイに表示する。また、出力部14は、検索部13による検索結果を、映像検索装置1に接続されたディスプレイに表示してもよい。このようにして検索結果を出力することにより、出力部14は、検索結果を利用者に提示することができる。
 (ステップS15)
 ステップS15において、入力部15は、検索結果に対する利用者の判定結果の入力を受け付ける。
 判定結果とは、検索結果に含まれる各映像が、目的の映像であるか否かを利用者が判定した結果である。具体例として、入力部15は、検索結果として表示された各映像の近傍に、「適当(目的の映像である)」又は「不適当(目的の映像ではない)」を選択可能なユーザインタフェース部品を表示する。なお、ユーザインタフェース部品は、映像検索装置1に接続されたディスプレイに表示されてもよいし、利用者の端末装置に表示されてもよい。例えば、検索結果が利用者の端末装置に表示されている場合、入力部15は、当該ユーザインタフェース部品を示す情報を当該端末装置に送信することにより、これらを各映像の近傍に表示する。また、入力部15は、当該ユーザインタフェース部品に対して行われる利用者の選択操作に応じて、当該映像の判定結果の入力を受け付ける。例えば、利用者の選択操作は、映像検索装置1に接続された入力装置を使用して行われてもよいし、利用者の端末装置に対して行われてもよい。ユーザインタフェース部品が利用者の端末装置に表示されている場合、当該端末装置は、ユーザインタフェース部品に対する利用者の選択操作を受け付け、選択操作を示す情報を映像検索装置1に送信する。入力部15は、選択操作を示す情報を当該端末装置から受信することにより、判定結果の入力を受け付ける。ただし、判定結果の入力を受け付ける手法は、この具体例に限定されない。
 なお、判定結果は、「目的の映像であるか否か」に限らず、「目的の映像との合致度」を示すものであってもよい。この場合、入力部15は、3段階以上の選択肢、又は、所定範囲(一例として1から100まで)に含まれる任意の数値等を選択可能なユーザインタフェース部品を表示してもよい。
 (ステップS16)
 ステップS16において、更新部16は、判定結果および検索クエリに基づいて、説明情報を更新する。例えば、更新部16は、検索クエリに部分的に合致した説明情報のうち検索クエリに合致しない部分を、判定結果に応じて更新する。例えば、当該説明情報に関する映像について「適当」との判定結果を得られた場合、当該説明情報のうち検索クエリに合致しない部分を、検索クエリに合致するよう更新する。
 <本例示的実施形態の効果>
 以上のように、本例示的実施形態に係る映像検索装置1、及び映像検索方法S1によれば、映像記憶装置に記憶された映像ごとに説明情報を生成し、検索クエリを取得し、検索クエリおよび説明情報を用いて、映像記憶装置から1又は複数の映像を検索し、検索結果を出力し、検索結果に対する利用者の判定結果の入力を受け付け、判定結果および検索クエリに基づいて、説明情報を更新する、との構成が採用されている。
 当該構成によれば、生成部11が映像に関する説明情報を生成し、生成した説明情報を用いて検索を行うので、映像に事前に紐づけられた情報の量または精度が充分でない場合にも精度よく検索を行うことができる。また、当該構成によれば、検索結果に対する利用者のフィードバックにより説明情報を精度よく更新できる。その結果、更新した説明情報を用いて検索を行うことができるので、検索精度が向上する。このように、当該構成によれば、映像に関する情報の量または精度が充分でない場合であっても、映像の検索精度を向上させる技術を提供することができる。
 <本例示的実施形態の他の態様>
 本例示的実施形態の他の態様について、図3を参照して説明する。図3は、他の態様に係る映像検索システム10の構成を示すブロック図である。図3に示すように、映像検索システム10は、生成部11と、取得部12と、検索部13と、出力部14と、入力部15と、更新部16とを含む。映像検索システム10は、物理的に異なる複数の装置を含み、これらの各部のうちの一つ又は複数の部が複数の装置に分散して配置される。各部の構成及び動作の詳細については、上述した通りである。
 〔例示的実施形態2〕
 本発明の第2の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を適宜省略する。
 <映像検索システム20の構成>
 本例示的実施形態に係る映像検索システム20の構成について、図4を参照して説明する。図4は、映像検索システム20の構成を示すブロック図である。
 図4に示すように、映像検索システム20は、映像検索装置2と、映像記憶装置9とを含む。映像検索装置2は、制御部210と、記憶部220と、入出力部230と、通信部240とを備える。
 (映像記憶装置9)
 映像記憶装置9は、1又は複数の動画像と、1又は複数種類のセンサ情報とを記憶する。動画像及びセンサ情報について、図5を参照して説明する。図5は、動画像及びセンサ情報の詳細を説明する模式図である。
 動画像は、移動体に搭載された撮影装置が撮影したものである。例えば、移動体及び撮影装置の一例として、自動車及びドライブレコーダが挙げられる。ただし、移動体及び撮影装置は、これらに限られない。図5に示すように、動画像には、移動体IDが紐づけられる。移動体IDは、当該動画像を撮影した撮影装置を搭載する移動体を識別する。また、各動画像を構成するフレームには、当該フレームが撮影された時間情報が紐づけられる。また、動画像は、時間軸にしたがって分割された複数の映像セグメントからなる。映像セグメントは、複数のフレームを含む。各映像セグメントの時間的な長さは、例えば、10~20秒間の長さであるが、これに限られない。動画像を構成する映像セグメントは、請求の範囲に記載された「映像」の一例であり、検索対象となる単位である。
 センサ情報は、移動体に搭載されたセンサが取得した情報である。センサの一例としては、車速センサ、操舵角センサ、エンジン回転数センサ、又は測位センサ等がある。図5に示す「車速の時系列データ」は、車速センサが取得したセンサ情報の一例である。また、「位置情報の時系列データ」は、測位センサが取得したセンサ情報の一例である。ただし、センサ及びセンサ情報の種類は、これらに限られない。また、センサ情報には、移動体IDが紐づけられる。移動体IDは、当該センサ情報を取得したセンサを搭載する移動体を識別する。また、センサ情報には、当該センサ情報が取得された時間情報が紐づけられる。
 また、図5に示すように、映像セグメントには、センサ情報が紐づけられる。映像セグメント及びセンサ情報は、それぞれに紐づけられた移動体ID及び時間情報を用いることにより紐づけが可能である。例えば、ある映像セグメントには、移動体IDが同一であり、かつ、当該映像セグメントの撮影開始から終了までに取得されたセンサ情報の時系列データが紐づけられる。
 (記憶部220)
 記憶部220は、生成モデルと、説明情報と、検索クエリとを記憶する。
 生成モデルは、少なくとも映像を入力として説明情報を出力するよう生成されたモデルである。生成モデルは、機械学習モデルと、ルールベースモデルとを含む。
 機械学習モデルは、例えば、少なくとも映像セグメントを入力とし説明情報を出力するよう、教師データを用いて生成されたモデルである。機械学習モデルの一例としては、サポートベクタマシン、決定木、ランダムフォレスト、ニューラルネットワークモデル等があげられるが、これらに限られない。機械学習モデルは、後述する生成部21が生成したものであってもよいし、外部の装置において生成されたものであってもよい。なお、機械学習モデルの入力は、映像セグメント自体に加えて、又は替えて、当該映像セグメントに紐づけられたセンサ情報を含んでいてもよい。
 ルールベースモデルは、例えば、1以上のルールを含む。各ルールは、センサ情報に関する条件と、当該条件が満たされた場合に採用される説明情報とを含む。なお、各ルールは、センサ情報に関する条件に加えて、又は替えて、映像セグメントを解析して得られる情報に関する条件を含んでいてもよい。映像セグメントを解析して得られる情報とは、例えば、被写体の種類、色等であってもよいが、これらに限られない。
 説明情報は、後述する生成部21によって生成され、記憶される。検索クエリは、後述する取得部22によって取得され、記憶される。説明情報及び検索クエリの詳細については後述する。
 (入出力部230)
 入出力部230は、映像検索装置2に対する入出力を制御する。入出力部230は、例えば、キーボード、マウス、タッチパッド、ディスプレイ等を含む。
 (通信部240)
 通信部240は、ネットワークに接続して映像記憶装置9との通信を制御する。接続するネットワークは、例えば、無線LAN(Local Area Network)、有線LAN、インターネット、モバイルデータ通信ネットワーク、またはこれらの組み合わせであってもよい。
 (制御部210)
 制御部210は、記憶部220、入出力部230及び、通信部240の各部を制御して、映像検索装置2全体の動作を制御する。制御部210は、生成部21と、取得部22と、検索部23と、出力部24と、入力部25と、更新部26とを含む。取得部22、出力部24、及び入力部25は、例示的実施形態1における取得部12、出力部14、及び入力部15と同様に構成されるため、詳細な説明を繰り返さない。
 生成部21は、生成モデルを用いて、説明情報を生成する。また、生成部21は、映像セグメント及びセンサ情報を用いて、説明情報を生成する。検索部23は、説明情報が検索クエリに少なくとも部分的に合致する映像セグメントを映像記憶装置9から検索する。更新部26は、検索された映像セグメントに関する説明情報のうち、検索クエリに合致しない部分を、判定結果に応じて更新する。「部分的に合致する映像セグメントを検索」すること、及び「合致しない部分を更新」すること等の詳細については、後述する映像検索方法S2の流れにおいて説明する。
 <映像検索方法S2の流れ>
 以上のように構成された映像検索装置2は、本例示的実施形態に係る映像検索方法S2を実行する。映像検索方法S2の流れについて、図6を参照して説明する。図6は、映像検索方法S2の流れを示すフロー図である。図6に示すように、映像検索方法S2は、ステップS21~S26を含む。
 (ステップS21)
 ステップS21において、生成部21は、映像セグメント及びセンサ情報を用いて、生成モデルによって、映像セグメント毎に説明情報を生成する。具体的には、生成部21は、映像セグメントを機械学習モデルに入力する。また、生成部21は、当該映像セグメントに紐づけられたセンサ情報をルールベースモデルに入力する。そして、生成部21は、機械学習モデル及びルールベースモデルからそれぞれ出力される説明情報を、映像セグメントに紐づけて記憶部220に記憶する。
 ここで、ステップS21で生成される説明情報の具体例について、図7を参照して説明する。図7は、説明情報の具体例を説明する図である。この具体例では、説明情報は、キー及びバリューの組で表現される。なお、説明情報には、バリューが空値であるキーが含まれていてもよい。図7の例では、例えば、道路情報に含まれるキー「状態」のバリューは空値である。以下では、キー「x」及びバリュー「y」の組を、キー「x」のバリュー「y」、キー「x」が有するバリュー「y」等とも記載する。
 説明情報に含まれ得るキーの種別としては、例えば、(i)「自車情報」、(ii)「交通参加者情報(単体)」、(iii)交通参加者情報(集合)、(iv)「自車他車相対情報」、(v)「道路情報」、(vi)「イベント情報」、(vii)「メタ情報」等がある。
 (i)「自車情報」には、自車自体に関係するキー「車種」、「車線種別」、「動作」等が含まれる。なお、「自車」とは、当該映像セグメントを含む動画像を撮影した撮像装置が搭載された移動体を指す。キー「車種」は、自車の属性を示し、この例ではそのバリューは「普通車」である。また、キー「車線種別」は、映像セグメント撮影中の自車の走行状態の1つを示し、この例ではそのバリューは「追い越し車線」である。自車の走行状態を示す他のキーの例としては、図示しないキー「位置」、「速度」、又は「加速度」等もある。また、キー「動作」は、映像セグメント撮影中の自車の動作の1つを示し、この例ではそのバリューは「ブレーキ操作」である。キー「動作」がとり得る他のバリューの例としては、図示しないバリュー「ステアリング(右旋回又は左旋回)」、「合分流/車線変更」、又は「追い越し/追い抜き」等もある。
 (ii)「交通参加者情報(単体)」には、映像セグメント撮影中における交通参加者の各々に関係するキー「ドライバー」、「種別」等が含まれる。なお、交通参加者とは、自車の内外で交通に参加している人、物又は車両である。キー「ドライバー」のバリューは、この例では「女性」である。また、キー「種別」は、ドライバー以外の交通参加者の種別を示し、この例ではそのバリューは「バイク」である。キー「種別」がとり得る他のバリューの例としては、「他車」、「バイク」、「自転車」、「歩行者」、「動物」等もある。
 (iii)交通参加者情報(集合)
 「交通参加者情報(集合)」には、映像セグメント撮影中における複数の交通参加者に関係するキー「重心」、「範囲」等が含まれる。キー「重心」は、複数の交通参加者の位置の重心を示し、この例ではそのバリューは空値である。キー「範囲」は、複数の交通参加者が含まれる範囲を示し、この例ではそのバリューは空値である。
 (iv)「自車他車相対情報」
 「自車他車相対情報」には、映像セグメント撮影中における自車及び他車の関係を示すキー「相対距離」、「相対動作」等が含まれる。キー「相対距離」は、自車及び他車の相対距離を示し、この例ではそのバリューは空値である。キー「相対動作」は、自車及び他車の相対動作を示し、この例ではそのバリューは「接近」である。自車及び他車の関係を示す他のキーの例としては、図示しないキー「相対速度」、「相対加速度」等もある。
 (v)「道路情報」
 「道路情報」には、映像セグメント撮影中に自車が走行した道路に関係するキー「形状」、「エリア」、「状態」等が含まれる。キー「形状」は、道路の形状を示し、この例ではそのバリューは「分岐」である。キー「形状」がとり得る他のバリューの例としては、「車線増減」、「合流」、「交差点」等もある。キー「エリア」は、道路が存在するエリアを示し、この例ではそのバリューは「トンネル」である。キー「エリア」がとり得る他のバリューの例としては、「車線変更禁止」、「ゼブラゾーン」、「安全地帯」、「駐車場」、「高速道」、「市街地」、「地名」等もある。キー「状態」は、道路の状態を示し、この例ではそのバリューは空値である。キー「状態」がとり得るバリューの例としては、「降雨」、「降雪」等といった天候を示すもの、「舗装」等もある。
 (vi)「イベント情報」
 「イベント情報」には、映像セグメント撮影中に発生したイベントに関係するキー「ヒヤリハット」、「渋滞」等が含まれる。キー「ヒヤリハット」は、所謂ヒヤリハットの事象が発生したか否かを示し、この例ではそのバリューは「該当」である。キー「渋滞」は、渋滞が発生していたか否かを示し、この例ではそのバリューは「該当」である。「イベント情報」に含まれ得る他のキーの例としては、「事故」、「工事」、「見通しの良し悪し」、「視界の良し悪し(霧、逆光、豪雨)」、「もらい事故」等もある。
 (vii)「メタ情報」等
 「メタ情報」には、映像セグメントに対するメタな情報を示すキー「モーションブラー」、「コマーシャル(CM)に出てきそう」等が含まれる。これらのキーは、映像セグメントにどのような交通状況が映されているかに関わらず、映像セグメントの映像としての特徴を示す情報である。キー「モーションブラー」のバリューは、この例では「無し」である。また、キー「CMに出てきそう」のバリューは、この例では空値である。
 なお、図7では、1つのキーが1つのバリューを有する例を挙げたが、1つのキーは複数のバリューを有してもよい。換言すると、説明情報は、1つのキー及び複数のバリューの組を含んでいてもよい。例えば、図7において、種別「自車情報」に含まれるキー「動作」(以降、「自車動作」とも記載する)は、複数のバリュー「ブレーキ操作」及び「左折」を有してもよい。また、1つのキーに対応するバリューは、範囲値で表されてもよい。例えば、種別「自車情報」に含まれる図示しないキー「速度」(以降、「車速」とも記載する)のバリューは、「10~15km/h」であってもよい。ここでは、「X~Y」とは、X以上Y以下との範囲を表し、「km/h」とは、キロメートル毎時を表す。
 (ステップS22)
 ステップS22において、取得部22は、検索クエリを取得する。本ステップの動作は、例示的実施形態1で説明したステップS12の動作とほぼ同様である。ただし、当該ステップで取得する検索クエリは、1又は複数のクエリを含む。説明情報が図7に示すキー及びバリューの組で表現される場合、検索クエリに含まれる各クエリは、キー及びバリューの組で表される。換言すると、検索クエリは、キー及びバリューの複数の組を含む。以下では、「検索クエリに含まれる各クエリを表すキー、バリュー」を、「検索クエリ(又はクエリ)で指定されたキー、バリュー」等とも記載する。
 (ステップS23)
 ステップS23において、検索部23は、説明情報が検索クエリに少なくとも部分的に合致する映像セグメントを映像記憶装置9から検索する。例えば、検索部23は、検索クエリに複数のクエリが含まれる場合に、少なくとも一部のクエリを満たす説明情報を、記憶部220から抽出する。また、検索部23は、抽出した説明情報に紐づけられた映像セグメントを検索結果とする。例えば、検索クエリに第1のクエリと、第2のクエリとが含まれていたとする。第1のクエリは、第1のキー及び第1のバリューの組で表され、第2のクエリは、第2のキー及び第2のバリューの組で表される。このとき、検索部23は、記憶部220に記憶された説明情報から、(i)少なくとも第1のクエリに合致する(第1のキー及び第1のバリューの組を含む)説明情報と、(ii)少なくとも第2のクエリに合致する(第2のキー及び第2のバリューの組を含む)説明情報とを抽出する。(i)の説明情報は、第2のクエリに合致するものと、第2のクエリに合致しないものとを含む。第1のクエリに合致するが第2のクエリに合致しない説明情報は、検索クエリに完全に合致しておらず、部分的に合致している。(ii)の説明情報は、第1のクエリに合致するものと、第1のクエリに合致しないものとを含む。第2のクエリに合致するが第1のクエリに合致しない説明情報は、検索クエリに完全に合致しておらず、部分的に合致している。なお、検索部23は、説明情報に、検索クエリで指定されていないキー(第1のキー及び第2のキー以外のキー)が含まれる場合については、当該キーについてはどのようなバリューであってもよいものとして抽出を行う。
 ここで、検索クエリに含まれる各クエリに説明情報が合致するか否かの判断について、具体例を挙げて説明する。1つ目の具体例は、1つのバリューのみを有するキー(一例として、「車種」)を指定したクエリに関する。このようなクエリは一例として、キー「車種」及びバリュー「普通車」の組で表される。このとき、説明情報において、キー「車種」がバリュー「普通車」を有する場合、当該説明情報は当該クエリに合致する。一方、説明情報において、キー「車種」がバリュー「軽自動車」を有する場合、当該説明情報は、当該クエリに合致しない。
 2つ目の具体例は、複数のバリューを有し得るキー(一例として、「自車動作」)を指定したクエリに関する。このようなクエリは一例として、キー「自車動作」及びバリュー「ブレーキ動作」の組で表される。このとき、説明情報において、キー「自車動作」が複数のバリュー「ブレーキ動作」及び「左折」を有する場合、当該説明情報は、当該クエリに合致する。一方、説明情報において、キー「自車動作」が複数のバリュー「加速」及び「左折」を有する場合、当該説明情報は、当該クエリに合致しない。つまり、説明情報において、クエリで指定されたキーが、クエリで指定されたバリューを少なくとも有する場合、当該説明情報は、当該クエリに合致する。なお、クエリが、1つのキー及び複数のバリューの組で表される場合も考えられる。この場合、説明情報において、クエリで指定されたキーが、クエリで指定された全てのバリューを少なくとも有する場合、当該説明情報は、当該クエリに合致するとし、それ以外は合致しないとしてもよい。または、説明情報において、クエリで指定されたキーが、クエリで指定された複数のバリューの少なくとも1つを有する場合、当該説明情報は、当該クエリに合致するとしてもよい。この場合、説明情報において、クエリで指定されたキーが、クエリで指定された複数のバリューの何れも有していない場合、当該説明情報は、当該クエリに合致しないとしてもよい。
 また、3つ目の具体例は、バリューが範囲値で表されるキー(一例として、「車速」)を指定したクエリに関する。このようなクエリは一例として、キー「車速」及びバリュー「10~30km/h」の組で表される。このとき、説明情報において、キー「車速」がバリュー「10~15km/h」を有する場合、当該説明情報は、当該クエリに合致する。また、説明情報において、キー「車速」がバリュー「40~50km/h」を有する場合、当該説明情報は、当該クエリに合致しない。つまり、説明情報において、クエリで指定されたキーのバリューが示す範囲値(以下、説明情報の範囲値ともいう)が、クエリで指定された範囲値に含まれる場合、当該説明情報は、当該クエリに合致する。また、説明情報の範囲値と、クエリで指定された範囲値との間に重複する部分がない場合、当該説明情報は、当該クエリに合致しない。なお、説明情報の範囲値が、クエリで指定された範囲値に対して重複する部分及び重複しない部分の双方を含む場合がある。例えば、説明情報の範囲値が「0~15km/h」であり、クエリで指定された範囲値が「10~40km/h」である場合が挙げられる。このような説明情報は、合致するとしてもよいし、合致しないとしてもよい。
 検索クエリに含まれる各クエリに説明情報が合致するか否かの判断については、上述の具体例に限られない。また、このような判断で用いる合致条件は、オプションとしてユーザが指定可能であってもよい。
 (ステップS24)
 ステップS24において、出力部24は、検索部23による検索結果を出力する。本ステップの動作は、例示的実施形態1で説明したステップS14の動作とほぼ同様である。ただし、検索結果として出力する単位が映像セグメントである点が異なる。
 (ステップS25)
 ステップS25において、入力部25は、検索結果に対する利用者の判定結果の入力を受け付ける。本ステップの動作は、例示的実施形態1で説明したステップS15の動作とほぼ同様である。ただし、判定結果の入力を受け付ける単位が映像セグメントである点が異なる。
 (ステップS26)
 ステップS26において、更新部26は、検索された映像セグメントに関する説明情報のうち、検索クエリに合致しない部分を、判定結果に応じて更新する。本ステップにおける更新処理の具体例について、図8~図10を参照して説明する。
 (具体例1)
 図8は、映像検索方法S2の具体例1を説明する模式図である。図8に示すように、この具体例では、ステップS22において取得された検索クエリは、「第1のキー「形状」のバリューが「合流」である」と、「第2のキー「状態」のバリュー「降雪」である」とを含む。
 ステップS23において抽出された説明情報は、第1のキー「状態」のバリューは「合流」であるが、第2のキー「状態」のバリューは空値である。したがって、この説明情報は、第1のキーについて検索クエリを満たし、第2のキーについて検索クエリを満たしていないので、検索クエリに部分的に合致している。
 ステップS24では、この説明情報に紐づけられた映像セグメントがディスプレイに表示される。また、ステップS25で受け付けられた判定結果は、「適当」を示す。
 この場合、ステップS26において、更新部26は、当該説明情報において検索クエリに合致しない第2のキー「状態」のバリューを、検索クエリに合致するよう「降雪」に更新する。
 このように、更新部26は、当該映像セグメントが適当であることを示す判定結果が得られた場合に、当該説明情報において検索クエリに合致していないキーのバリューを検索クエリに合致するよう更新する。
 (具体例2)
 図9は、映像検索方法S2の具体例2を説明する模式図である。図9に示すように、この具体例のステップS22において取得された検索クエリは、具体例1と同様である。
 ステップS23において抽出された説明情報は、第1のキー「状態」のバリューは「合流」であるが、第2のキーを含んでいない。したがって、この説明情報は、第1のクエリを満たし、第2のクエリを満たしていないので、検索クエリに部分的に合致している。
 ステップS24では、このような説明情報に紐づけられた映像セグメントがディスプレイに表示される。また、ステップS25で受け付けられた判定結果は、「適当」を示す。
 この場合、ステップS26において、更新部26は、当該説明情報に、第2のキー「状態」を追加するとともに、そのバリューを検索クエリに合致するよう「降雪」に更新する。
 このように、更新部26は、当該映像セグメントが適当であることを示す判定結果が得られた場合に、当該説明情報において検索クエリに含まれていないキーを新たに追加し、そのバリューを検索クエリに合致するよう更新する。
 (具体例3)
 図10は、映像検索方法S2の具体例3を説明する模式図である。図10に示すように、この具体例のステップS22において取得された検索クエリは、具体例1、2と同様である。
 ステップS23において抽出された説明情報は、第1のキー「状態」のバリューは「合流」であるが、第2のキー「状態」のバリューは空値である。したがって、この説明情報は、第1のキーについて検索クエリを満たし、第2のキーについて検索クエリを満たしていないので、検索クエリに部分的に合致している。
 ステップS24では、このような説明情報に紐づけられた映像セグメントがディスプレイに表示される。また、ステップS25で受け付けられた判定結果は、「不適当」を示す。
 この場合、ステップS26において、更新部26は、当該説明情報において検索クエリに合致しない第2のキー「状態」のバリューを、検索クエリを否定するよう「not 降雪」に更新する。
 このように、更新部26は、当該映像セグメントが不適当であることを示す判定結果が得られた場合に、当該説明情報において検索クエリに合致していないキーのバリューを、検索クエリを否定するよう更新する。なお、この場合、検索部23は、少なくとも一部の検索クエリを満たす説明情報を記憶部220から抽出する際に、検索クエリを否定する情報を含む説明情報は抽出しない。
 (検索クエリに完全に合致する場合)
 なお、ステップS26において、更新部26は、説明情報が検索クエリに完全に合致し、かつ、判定結果が「不適当」である場合、当該説明情報のうち検索クエリに合致する少なくとも一部分を、合致しないように更新してもよい。
 <本例示的実施形態の効果>
 以上のように、本例示的実施形態に係る映像検索装置2、及び映像検索方法S2が参照する映像記憶装置9には、移動体に搭載された撮影装置が撮影した動画像と、当該移動体に搭載されたセンサが取得したセンサ情報とが記憶されている。また、動画像を時間軸に沿って分割した映像セグメントに、当該センサ情報が紐づけられている。また、映像検索装置2、及び映像検索方法S2によれば、例示的実施形態と同様の構成に加えて、映像セグメント及びセンサ情報を入力として説明情報を出力するよう生成された生成モデルを用いて、説明情報を生成する、との構成が採用されている。
 当該構成によれば、生成モデルを用いて説明情報を生成するので、説明情報を精度よく生成できる。また、映像セグメントに加えてセンサ情報を用いて説明情報を生成するので、説明情報を精度よく生成できる。したがって、本例示的実施形態は、動画像に事前に紐づけられた情報が無い又は充分にない場合にも、精度よく生成した説明情報を用いて、より精度よく映像セグメントの検索を行うことができる。
 また、映像検索装置2、及び映像検索方法S2によれば、例示的実施形態と同様の構成に加えて、説明情報が検索クエリに部分的に合致する映像を映像記憶装置9から検索し、検索された映像に関する説明情報のうち、検索クエリに合致しない部分を判定結果に応じて更新する、との構成が採用されている。
 当該構成によれば、検索した映像に関する説明情報のうち検索クエリに合致しない部分を、精度よく更新することができる。
 <本例示的実施形態の他の態様>
 本例示的実施形態を変形した他の態様1~8について説明する。
 (態様1)
 態様1は、目的の映像セグメントを検索することを優先する態様である。態様1では、出力部24及びステップS24は、以下のように変形される。
 出力部24は、ステップS24において、検索結果に複数の映像セグメントが含まれる場合、検索部23による検索精度が高い順に検索結果を出力する。
 ここで、検索精度が高いことの具体例について説明する。1つ目の具体例として、検索精度が高いとは、説明情報のうち検索クエリに合致した部分に関する信頼度が高いことであってもよい。このような信頼度としては、機械学習モデルから説明情報とともに出力される信頼度を採用可能である。例えば、生成部21は、機械学習モデルから出力された説明情報及び信頼度を、映像セグメントに紐づけて記憶部220に記憶する。この場合、出力部24は、説明情報のうち検索クエリに合致した部分に紐づけられた信頼度が高いものから順に、映像セグメントを出力する。
 2つ目の具体例として、検索精度が高いとは、説明情報において検索クエリに合致した部分が多いことであってもよい。例えば、検索クエリに3つのクエリが含まれる場合、3つのクエリすべてに合致する説明情報、2つのクエリに合致し1つのクエリに合致しない説明情報、1つのクエリに合致し2つのクエリに合致しない説明情報、の順に検索精度が高い。
 3つ目の具体例として、検索精度が高いとは、合致したクエリの重みが大きいことであってもよい。この場合、検索クエリに含まれる複数のクエリには、重みが付与されていることが前提である。この重みは、ユーザが指定するものであってもよい。また、この重みは、事前に指定されたものであってもよいし、検索クエリと共に指定されるものであってもよい。例えば、検索クエリに、キー「自車動作」を指定したクエリ、キー「車速」を指定したクエリの2つが含まれ、キー「自車動作」はキー「車速」より重みが大きいとする。この場合、キー「自車動作」が少なくとも合致した説明情報、キー「自車動作」が合致せずにキー「車速」が合致した説明情報、の順に検索精度が高い。
 なお、「出力する順序」は、例えば、ディスプレイ上の配列順序により実現してもよいし、時間的な順序により実現してもよい。例えば、出力部24は、検索結果に含まれる複数の映像セグメントを、検索精度が高い順に所定方向に(例えば、上から下に)配列してディスプレイに表示する。また、出力部24は、検索精度が高い順に所定数の映像セグメントをディスプレイに表示し、それらについて判定結果を受け付けると、次に検索精度が高い所定数の映像セグメントをディスプレイに表示することを繰り返す。ただし、「出力する順序」を実現する手法は、これらに限られない。
 態様1の構成によれば、検索精度が高い順に検索結果を出力するので、利用者には、出力される順に映像セグメントが提示される。これにより、利用者は、検索精度が高い順に映像セグメントを認識することができ、目的の映像セグメントを探しやすいというメリットを享受することができる。
 (態様2)
 態様2は、説明情報の精度向上を優先する態様である。態様2では、出力部24及びステップS24は、以下のように変形される。
 出力部24は、ステップS24において、検索結果に複数の映像セグメントが含まれる場合、検索部23による検索精度が低い順に検索結果を出力する。
 ここで、検索精度が低いことの具体例について説明する。1つ目の具体例として、例えば、説明情報が検索クエリに合致している程度が低いことであってもよい。例えば、検索クエリに3つのクエリが含まれる場合、1つのみが合致、2つのみが合致、3つ全てが合致、の順に、検索精度が低いといえる。この場合、出力部24は、説明情報が検索クエリに合致している程度が低いものから順に映像セグメントを出力する。
 2つ目の具体例として、検索精度が低いとは、説明情報において検索クエリに合致した部分が少ないことであってもよい。例えば、検索クエリに3つのクエリが含まれる場合、1つのクエリに合致し2つのクエリに合致しない説明情報、2つのクエリに合致し1つのクエリに合致しない説明情報、3つのクエリすべてに合致する説明情報、の順に検索精度が低い。
 3つ目の具体例として、検索精度が低いとは、合致したクエリの重みが小さいことであってもよい。重みについては、検索精度が高いことの3つ目の具体例で説明した通りである。例えば、検索クエリに、キー「自車動作」を指定したクエリ、キー「車速」を指定したクエリの2つが含まれ、キー「車速」はキー「自車動作」より重みが小さいとする。この場合、キー「車速」が少なくとも合致した説明情報、キー「車速」が合致せずにキー「自車動作」が合致した説明情報、の順に検索精度が低い。
 4つめの具体例として、検索精度が低いとは、説明情報に含まれる空値の個数が多いことであってもよい。この場合、出力部24は、説明情報が空値を多く含むものから順に映像セグメントを出力する。
 なお、利用者に出力する順序の具体例については、態様1と同様であるため、詳細な説明を省略する。
 ここで、ステップS25において、利用者は、検索結果に含まれる映像セグメントの全てについて判定結果を入力せず、出力される順序が早い一部について判定結果を入力する可能性がある。特に、検索結果に含まれる映像セグメントの個数が多い場合、このような傾向が高くなると考えられる。
 したがって、態様2の構成によれば、検索精度が低い順に検索結果を出力するので、利用者には、出力される順に映像セグメントが提示される。これにより、利用者は、検索精度が低い順に映像セグメントを認識するので、認識した順序が早いものほど判定結果を入力する可能性が高くなることが期待できる。その結果、検索精度がより低い映像セグメントに対する判定結果をより多く受け付けることができ、説明情報をより精度よく更新できる。
 (態様3)
 態様3は、態様1及び態様2のそれぞれをモードとして切り替え可能とする態様である。態様3では、映像検索装置2は、利用者によりいずれのモードを選択するかの入力を受け付けるよう変形される。映像検索装置2は、利用者により選択されたモードにしたがって、態様1又は態様2として動作する。
 態様3の構成によれば、利用者は、目的の映像セグメントを検索することを優先するか、説明情報の精度向上を優先するかを、状況に応じて切り替えられるというメリットを享受することができる。
 (態様4)
 態様4は、検索結果を分類する態様である。態様4では、出力部24及びステップS24、並びに、入力部25及びステップS25は、以下のように変形される。
 出力部24は、ステップS24において、検索結果に複数の映像セグメントが含まれる場合、検索結果を分類して出力する。例えば、出力部24は、説明情報に応じて複数の映像セグメントを分類してもよい。例えば、検索結果に含まれる複数の映像セグメントを、キー「エリア」のバリューに応じて分類してもよい。この場合、分類に用いるキーは、検索クエリに含まれているキーであってもよいし、含まれていないキーであってもよい。そのほか、出力部24は、映像セグメントの映像としての特徴(例えば、被写体の種別、色等)に応じて複数の映像セグメントを分類してもよい。また、出力部24は、分類モデルを用いて複数の映像セグメントを分類してもよい。この場合、分類モデルは、映像セグメントを入力としてその分類を出力するよう機械学習を用いて生成されたものである。分類モデルは、映像検索装置2の記憶部220に記憶されていてもよいし、外部の装置に記憶されていてもよい。外部の装置に記憶されている場合、映像検索装置2は、外部の装置と通信することにより分類モデルを用いる。また、分類モデルは、映像検索装置2の図示しない機能ブロックが生成したものであってもよいし、他の装置が生成したものであってもよい。
 なお、「分類して出力」する手法としては、例えば、ディスプレイの表示領域を複数の領域に分割し、領域及び分類を対応させる手法がある。また、他の手法としては、例えば、分類ごとに異なる画面を生成し、画面を切り替えて表示する手法がある。なお、「分類して出力」する手法は、これらに限られない。
 入力部25は、ステップS25において、分類ごとに判定結果の入力を受け付ける。例えば、映像セグメントが複数の領域に分類されて表示されている場合、入力部25は、判定結果を受け付けるユーザインタフェース部品を領域ごとに表示し、各ユーザインタフェース部品に対する入力操作を受け付けてもよい。ただし、「分類ごとに判定結果の入力を受け付ける」手法は、これに限られない。
 態様4の構成によれば、利用者は、検索結果に含まれる各映像セグメントについて個別に判定結果を入力する必要がなく、分類ごとに一括して判定結果を入力することができる。そのため、より多くの映像セグメントについて判定結果を受け付けることができ、説明情報をより精度よく更新することができる。
 (態様5)
 態様5は、複数の判定結果を用いる態様である。態様5では、入力部25及びステップS25、並びに更新部26及びステップS26は、以下のように変形される。
 入力部25は、ステップS25において、検索結果に対する複数の判定結果の入力を受け付ける。例えば、映像検索装置2は、ステップS24からステップS25までを繰り返すことにより、判定結果を受け付けた映像セグメントを再度出力して再度判定結果を受け付けてもよい。この場合、1人の利用者が複数の判定結果を入力する。また、例えば、映像検索装置2は、ステップS24において検索結果を複数の端末に出力し、ステップS25において複数の端末から判定結果の入力を受け付けてもよい。この場合、複数の利用者がそれぞれ判定結果を入力する。
 更新部26は、ステップS26において、複数の判定結果を用いて説明情報を更新する。例えば、更新部26は、複数の判定結果のうち最も多い判定結果を用いてもよい。具体例として、5つの判定結果のうち3つが「適当」を示し2つが「不適当」を示す場合、更新部26は、判定結果が多い方の「適当」を採用して説明情報を更新する。また、更新部26は、複数の判定結果の各々に対して重みづけを行ってもよい。例えば、ステップS24~S25を繰り返すことにより複数の判定結果の入力を受け付けた場合、判定結果の入力を受け付けた順序が直近に近いほど重みを大きくしてもよい。
 例えば、1人の利用者から複数の判定結果を受け付ける場合、利用者は、出力された映像セグメントが目的のものであるかどうか判断に迷い、入力する度に判定結果を変更する可能性がある。また、複数の利用者から判定結果を受け付ける場合、ある利用者の判定結果は、他の利用者の判定結果とは異なる可能性がある。態様5の構成によれば、複数の判定結果を用いるので、1つの判定結果を用いる場合と比べて、説明情報を精度よく更新することができる。
 (態様6)
 態様6は、類似する映像セグメントに同一の補完を適用する態様である。態様6では、更新部26及びステップS26は、以下のように変形される。
 ここで、前述したように、映像記憶装置9に記憶された動画像の各映像セグメントには、時間情報及び位置情報が紐づけられている。この紐づけは、動画像の各フレームに付されたタイムスタンプ、及び、センサ情報に含まれる位置情報の時系列データを照合することにより可能である。
 更新部26は、ステップS26において、映像記憶装置9に記憶された映像のうち、説明情報の更新対象となる映像セグメントに対して、時間情報及び位置情報の一方又は両方が類似する他の映像セグメントを抽出する。また、更新部26は、抽出した他の映像に関する説明情報をさらに更新する。より具体的には、更新部26は、抽出した他の映像に関する説明情報を、更新対象の説明情報と同様に更新する。
 ここで、説明情報の更新対象となる映像セグメントとは、前述した通り、例えば、説明情報が検索クエリに少なくとも部分的に合致した映像セグメントである。
 例えば、図8を参照した説明情報の更新の具体例では、キー「状態」のバリューを空値から「降雪」に更新している。この具体例において、本態様では、更新部26は、当該説明情報が紐づけられた映像セグメントに対して、時間的な距離及び空間的な距離がそれぞれ閾値以内の他の映像セグメントを抽出する。抽出される他の映像セグメントは、例えば、当該映像セグメントの撮影時に当該移動体の周辺を走行していた他の移動体で撮影された映像セグメントである。そして、更新部26は、抽出した他の映像セグメントに紐づけられた説明情報についても、キー「状態」のバリューを「降雪」に更新する。
 なお、各映像セグメントには、時間情報及び位置情報の両方に限らず、何れか一方が紐づけられていてもよい。
 また、更新部26は、ステップS26において、時間情報及び位置情報が類似することに加えて、走行方向が類似する他の映像セグメントを抽出するようにしてもよい。例えば、類似する時間帯に同一の道路を走行する場合であっても、走行方向が上りであるか下りであるかに応じて、映像に付与すべき説明情報は異なる可能性がある。走行方向の条件を追加することにより、説明情報を同様に更新する他の映像セグメントをより精度よく抽出できる。
 具体的には、更新部26は、ステップS26において、説明情報の更新対象となる映像セグメントの撮影時における移動体の走行方向を特定する。例えば、更新部26は、映像セグメントに紐づけられる位置情報の時系列データを用いることにより、走行方向を特定可能である。抽出される他の映像セグメントは、例えば、当該映像セグメントの撮影時に、当該移動体と同一の道路を、同じ方向(上り又は下り)に走行していた他の移動体で撮影された映像セグメントである。
 態様6の構成によれば、ある映像セグメントに対する利用者の判定結果に応じて、利用者の判定結果を受け付けていない他の映像セグメントについても説明情報を更新できる。そのため、より多くの映像セグメントについて、説明情報をより精度よく更新することができる。
 (態様7)
 態様7は、説明情報間の依存関係を考慮する態様である。態様7では、更新部26及びステップS26は、以下のように変形される。
 本態様では、説明情報は、第1説明情報及び第2説明情報を含む。第1説明情報及び第2説明情報は、依存関係を有する。記憶部220には、このような依存関係に関する情報が記憶されている。例えば、図7を参照して説明した説明情報では、第1説明情報の一例として、キー「エリア」が挙げられる。また、第2説明情報の一例として、キー「状態」が挙げられる。例えば、キー「エリア」のバリューが「トンネル」である場合には、キー「状態」のバリューは「降雨」、「降雪」ではあり得ない。つまり、キー「エリア」とキー「状態」との間には依存関係がある。
 更新部26は、ステップS26において、第1説明情報及び第2説明情報の依存関係を用いて説明情報を更新する。
 例えば、図8を参照した説明情報の更新の具体例では、キー「状態」のバリューを空値から「降雪」に更新していた。この具体例において、もし、キー「エリア」のバリューが「トンネル」であった場合、更新部26は、キー「エリア」及びキー「状態」間の依存関係を考慮して、キー「状態」のバリューを「降雪」に更新しない。
 態様7の構成によれば、第1説明情報及び第2説明情報の依存関係を考慮して説明情報を更新するので、説明情報をより精度よく更新することができる。
 (態様8)
 態様8は、更新対象とする説明情報の種類を制限する態様である。態様4では、更新部26及びステップS26は、以下のように変形される。
 本態様では、説明情報には、第3説明情報と第4説明情報とが含まれる。また、生成部21は、ルールベースモデルを用いて第3説明情報を生成する。また、生成部21は、機械学習モデル又はユーザ入力に基づき第4説明情報を生成する。ルールベースモデル及び機械学習モデルは、記憶部220に記憶され、その詳細については上述した通りである。また、生成部21は、各映像に関してユーザが入力した説明文を取得し、取得した説明文に基づき第4説明情報を生成してもよい。ユーザが入力した説明文に基づき説明情報を生成することの詳細については、例示的実施形態1で説明した通りである。記憶部220には、説明情報の種類(例えば、キー)に応じて、第3説明情報及び第4説明情報のいずれであるかを示す情報が記憶されている。
 更新部26は、ステップS26においては、第3説明情報を更新せず、第4説明情報を更新する。
 ここで、第3説明情報は、ルールベースモデルに基づいて導出されるため、客観性が高く、かつ、明確に定義される可能性が高い。このため、第3説明情報は、比較的高精度な情報であると言える。第4説明情報は、機械学習モデル又はユーザ入力に基づいて導出されるため、明確な定義が難しい可能性があったり、客観性が低い可能性があったりする。このため、第4説明情報は、判定結果のフィードバックにより精度向上の余地がある情報であると言える。
 態様8の構成によれば、高精度な第3説明情報を更新せず、精度向上の余地がある第4説明情報を更新するので、説明情報をより精度よく更新することができる。
 〔例示的実施形態3〕
 本発明の第3の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態2にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を適宜省略する。
 <映像検索システム30の構成>
 本例示的実施形態に係る映像検索システム30の構成について、図11を参照して説明する。図11は、映像検索システム30の構成を示すブロック図である。
 図11に示すように、映像検索システム30は、映像検索装置3と、映像記憶装置9とを含む。映像検索装置3は、制御部310と、記憶部320と、入出力部330と、通信部340とを備える。映像記憶装置9については、例示的実施形態2において説明した通りである。また、記憶部320、入出力部330、及び通信部340については、例示的実施形態2において説明した記憶部220、入出力部230、及び通信部240と同様であるため、詳細な説明を繰り返さない。
 図11に示すように、制御部310は、生成部31と、取得部32と、検索部33と、出力部34と、入力部35と、更新部36と、モデル更新部37とを含む。ここでは、モデル更新部37の構成について説明する。それ以外の各機能ブロックについては、例示的実施形態2と同様に構成されるため、詳細な説明を繰り返さない。
 モデル更新部37は、更新部36により更新された説明情報を用いて、生成モデルを更新する。生成モデルの更新の詳細については、後述する映像検索方法S3の流れにおいて説明する。
 <映像検索方法S3の流れ>
 以上のように構成された映像検索装置3は、本例示的実施形態に係る映像検索方法S3を実行する。映像検索方法S3の流れについて、図12を参照して説明する。図12は、映像検索方法S3の流れを示すフロー図である。図12に示すように、映像検索方法S3は、ステップS31~S37を含む。ステップS31~S36の動作は、例示的実施形態2として説明したステップS21~S26の動作と同様である。ここでは、ステップS37の動作について説明する。
 (ステップS37)
 ステップS37において、モデル更新部37は、ステップS36で更新された説明情報を用いて、生成モデルを更新する。
 例えば、モデル更新部37は、更新された説明情報を教師データとして、生成モデルに含まれる機械学習モデルに対して追加学習を行う。具体例として、図8を参照して説明したように、キー「状態」のバリューが空値から「降雪」に更新された場合について説明する。この場合、モデル更新部37は、機械学習モデルに対して、該当する映像セグメントを入力するとキー「状態」及びバリュー「降雪」の組を出力するよう、追加学習を行う。
 <本例示的実施形態の効果>
 本例示的実施形態に係る映像検索装置3及び映像検索方法S3は、更新部36により更新された説明情報を用いて、生成モデルを更新する、との構成を採用している。
 当該構成によれば、利用者による判定結果に適合した説明情報を出力するよう生成モデルを更新するので、更新した生成モデルを用いて生成した説明情報を用いた検索を行うことができ、検索精度を向上させることができる。
 〔変形例〕
 例示的実施形態2~3の各々は、以下のように変形可能である。
 各例示的実施形態において、映像記憶装置9は静止画を記憶し、静止画を検索対象としてもよい。この場合、静止画は、請求の範囲に記載した映像の一例である。また、映像記憶装置9は動画像を記憶し、動画像を映像セグメント単位ではなくファイル単位で検索対象としてもよい。この場合、動画像のファイルは、請求の範囲に記載した映像の一例である。
 各例示的実施形態において、生成モデルは、機械学習モデル及びルールベースモデルの両方に限らず、どちらか一方のみを含んでいてもよい。
 各例示的実施形態において、生成部21、31は、映像セグメント及びセンサ情報に加えて、映像セグメントと紐づけ可能な各種情報を用いて説明情報を生成してもよい。そのような各種情報の一例としては、例えば、映像セグメントの撮影時に移動体の近傍で観測された気象情報があるが、これに限られない。
 各例示的実施形態において、説明情報及び検索クエリの一方又は両方は、自然文であってもよい。
 各例示的実施形態において、映像検索装置2、3の各機能ブロックは、物理的に単体で構成される装置に含まれていてもよいし、物理的に異なる複数の装置に分散して含まれていてもよい。
 〔ソフトウェアによる実現例〕
 映像検索装置1、2、3の一部又は全部の機能は、集積回路(ICチップ)等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。
 後者の場合、映像検索装置1、2、3は、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例(以下、コンピュータCと記載する)を図13に示す。コンピュータCは、少なくとも1つのプロセッサC1と、少なくとも1つのメモリC2と、を備えている。メモリC2には、コンピュータCを映像検索装置1、2、3として動作させるためのプログラムPが記録されている。コンピュータCにおいて、プロセッサC1は、プログラムPをメモリC2から読み取って実行することにより、映像検索装置1、2、3の各機能が実現される。
 プロセッサC1としては、例えば、CPU(Central Processing Unit)、GPU(Graphic Processing Unit)、DSP(Digital Signal Processor)、MPU(Micro Processing Unit)、FPU(Floating point number Processing Unit)、PPU(Physics Processing Unit)、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリC2としては、例えば、フラッシュメモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)、又は、これらの組み合わせなどを用いることができる。
 なお、コンピュータCは、プログラムPを実行時に展開したり、各種データを一時的に記憶したりするためのRAM(Random Access Memory)を更に備えていてもよい。また、コンピュータCは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータCは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。
 また、プログラムPは、コンピュータCが読み取り可能な、一時的でない有形の記録媒体Mに記録することができる。このような記録媒体Mとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータCは、このような記録媒体Mを介してプログラムPを取得することができる。また、プログラムPは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータCは、このような伝送媒体を介してプログラムPを取得することもできる。
 〔付記事項1〕
 本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。
 〔付記事項2〕
 上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。
 (付記1)
 映像記憶装置に記憶された映像ごとに説明情報を生成する生成手段と、
 検索クエリを取得する取得手段と、
 前記検索クエリおよび前記説明情報を用いて、前記映像記憶装置から映像を検索する検索手段と、
 前記検索手段による検索結果を出力する出力手段と、
 前記検索結果に対する利用者の判定結果の入力を受け付ける入力手段と、
 前記判定結果および前記検索クエリに基づいて、前記説明情報を更新する更新手段と、
を備える映像検索装置。
 上記の構成によれば、映像に関する情報の量または精度が充分でない場合であっても、生成した説明情報を精度よく更新することができ、更新した説明情報を用いた検索の精度を向上させることができる。
 (付記2)
 前記生成手段は、少なくとも映像を入力として説明情報を出力するよう生成された生成モデルを用いて、前記説明情報を生成する、
 付記1に記載の映像検索装置。
 上記の構成によれば、生成モデルを用いることにより、映像に関する情報が無い又は充分でない場合であっても、当該映像の説明情報を精度よく生成することができる。
 (付記3)
 前記更新手段により更新された説明情報を用いて、前記生成モデルを更新するモデル更新手段をさらに備える、
 付記2に記載の映像検索装置。
 上記の構成によれば、更新された生成モデルを用いることにより、説明情報をさらに精度よく生成することができる。
 (付記4)
 前記検索手段は、前記説明情報が前記検索クエリに少なくとも部分的に合致する映像を前記映像記憶装置から検索し、
 前記更新手段は、検索された映像に関する説明情報のうち、前記検索クエリに合致しない部分を、前記判定結果に応じて更新する、
 付記1から3の何れか1つに記載の映像検索装置。
 上記の構成によれば、検索された映像に関する説明情報のうち検索クエリに合致しない部分を精度よく更新することができる。
 (付記5)
 前記出力手段は、前記検索結果に複数の映像が含まれる場合、前記検索手段による検索精度が高い順に前記検索結果を出力する、
 付記1から4の何れか1つに記載の映像検索装置。
 上記の構成によれば、利用者は、目的の映像セグメントを探しやすいというメリットを享受することができる。
 (付記6)
 前記出力手段は、前記検索結果に複数の映像が含まれる場合、前記検索手段による検索精度が低い順に前記検索結果を出力する、
 付記1から4の何れか1つに記載の映像検索装置。
 上記の構成によれば、利用者は、検索精度の低いものから順に判定結果を入力することになる。これにより、検索精度の低い映像に関する説明情報をより精度よく更新することができる。
 (付記7)
 前記出力手段は、前記検索結果に複数の映像が含まれる場合、前記検索結果を分類して出力し、
 前記入力手段は、前記分類ごとに前記判定結果の入力を受け付ける、
 付記1から6の何れか1つに記載の映像検索装置。
 上記の構成によれば、利用者は、検索結果に含まれる映像ごとに個別に判定結果を入力する必要がなく、分類ごとに一括して判定結果を入力することができ、判定結果を入力しやすくなる。このため、より多くの映像に対して判定結果が入力される可能性が高くなり、説明情報をより精度よく更新することができる。
 (付記8)
 前記入力手段は、前記検索結果に対する複数の前記判定結果の入力を受け付け、
 前記更新手段は、複数の前記判定結果を用いて前記説明情報を更新する、
 付記1から7の何れか1つに記載の映像検索装置。
 上記の構成によれば、1つの判定結果を用いる場合と比べてより確実な判定結果を得ることができる。これにより、より精度よく説明情報を更新することができる。
 (付記9)
 前記映像記憶装置に記憶された各映像には時間情報及び位置情報の一方又は両方が紐づけられ、
 前記更新手段は、前記映像記憶装置に記憶された映像のうち、前記説明情報の更新対象となる映像に対して時間情報及び位置情報の一方又は両方が類似する他の映像に関する前記説明情報をさらに更新する、
 付記1から8の何れか1つに記載の映像検索装置。
 上記の構成によれば、判定結果の入力を受け付けていない映像についても、説明情報を精度よく更新することができる。
 (付記10)
 前記説明情報は、第1説明情報及び第2説明情報を含み、
 前記更新手段は、前記第1説明情報及び前記第2説明情報の依存関係を用いて前記説明情報を更新する、
 付記1から9の何れか1つに記載の映像検索装置。
 上記の構成によれば、依存関係を有する第1説明情報及び前記第2説明情報をより精度よく更新することができる。
 (付記11)
 前記映像記憶装置に記憶された各映像は、
  移動体に搭載された撮影装置が撮影した映像であり、
  各映像には、前記移動体に搭載されたセンサが取得したセンサ情報が紐づけられ、
 前記生成手段は、前記映像及び前記センサ情報を用いて、前記説明情報を生成する、
 付記1から10の何れか1つに記載の映像検索装置。
 上記の構成によれば、移動体に搭載された撮影装置が撮影した映像に関する情報の量または精度が充分でない場合であっても、当該映像の検索精度を向上させることができる。
 (付記12)
 前記更新手段は、
  前記説明情報の更新対象となる映像について、当該映像の撮影時における前記移動体の走行方向を特定し、
  前記映像記憶装置に記憶された映像のうち、前記説明情報の更新対象となる映像に対して前記走行方向が類似する他の映像に関する前記説明情報をさらに更新する、
 付記11に記載の映像検索装置。
 上記の構成によれば、移動体の走行方向を考慮することで、判定結果の入力を受け付けていない映像についても、説明情報を精度よく更新することができる。
ことができる。
 (付記13)
 前記説明情報には、第3説明情報と第4説明情報とが含まれ、
 前記生成手段は、ルールベースモデルを用いて前記第3説明情報を生成するとともに、機械学習モデル又はユーザ入力に基づき前記第4説明情報を生成し、
 前記更新手段は、前記第3説明情報を更新せず、前記第4説明情報を更新する、
 付記11又は12に記載の映像検索装置。
 第3説明情報は、ルールベースモデルにより生成されるため、客観性が高く、かつ、明確に定義される可能性が高い。これに対して、第4説明情報は、機械学習モデル又はユーザ入力に基づき生成されるため、定義が難しい、または、客観性が低い可能性がある。上記構成によれば、客観性が高く明確に定義される第3説明情報については、生成部が生成したものを採用し、客観性が低い又は定義が難しい第4説明情報を更新することで、精度よく説明情報を更新することができる。
 (付記14)
 映像記憶装置に記憶された映像ごとに説明情報を生成する生成手段と、
 検索クエリを取得する取得手段と、
 前記検索クエリおよび前記説明情報を用いて、前記映像記憶装置から映像を検索する検索手段と、
 前記検索手段による検索結果を出力する出力手段と、
 前記検索結果に対する利用者の判定結果の入力を受け付ける入力手段と、
 前記判定結果および前記検索クエリに基づいて、前記説明情報を更新する更新手段と、
を備える映像検索システム。
 上記の構成によれば、付記1と同様の効果を奏する。
 (付記15)
 映像記憶装置に記憶された映像ごとに説明情報を生成し、
 検索クエリを取得し、
 前記検索クエリおよび前記説明情報を用いて、前記映像記憶装置から映像を検索し、
 検索結果を出力し、
 前記検索結果に対する利用者の判定結果の入力を受け付け、
 前記判定結果および前記検索クエリに基づいて、前記説明情報を更新する、映像検索方法。
 上記の構成によれば、付記1と同様の効果を奏する。
 (付記16)
 コンピュータを映像検索装置として機能させるためのプログラムであって、前記コンピュータを、
 映像記憶装置に記憶された映像ごとに説明情報を生成する生成手段と、
 検索クエリを取得する取得手段と、
 前記検索クエリおよび前記説明情報を用いて、前記映像記憶装置から映像を検索する検索手段と、
 前記検索手段による検索結果を出力する出力手段と、
 前記検索結果に対する利用者の判定結果の入力を受け付ける入力手段と、
 前記判定結果および前記検索クエリに基づいて、前記説明情報を更新する更新手段と、
として機能させるプログラム。
 上記の構成によれば、付記1と同様の効果を奏する。
 〔付記事項3〕
 上述した実施形態の一部又は全部は、更に、以下のように表現することもできる。
 少なくとも1つのプロセッサを備え、
 前記プロセッサは、
  映像記憶装置に記憶された映像ごとに説明情報を生成する生成処理と、
  検索クエリを取得する取得処理と、
  前記検索クエリおよび前記説明情報を用いて、前記映像記憶装置から映像を検索する検索処理と、
  前記検索処理による検索結果を出力する出力処理と、
  前記検索結果に対する利用者の判定結果の入力を受け付ける入力処理と、
  前記判定結果および前記検索クエリに基づいて、前記説明情報を更新する更新処理と、
を実行する映像検索装置。
 なお、この映像検索装置は、更にメモリを備えていてもよく、このメモリには、前記生成処理と、前記取得処理と、前記検索処理と、出力処理と、入力処理と、更新処理と、を前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。
10、20、30 映像検索システム
1、2、3 映像検索装置
9 映像記憶装置
11、21、31 生成部
12、22、32 取得部
13、23、33 検索部
14、24、34 出力部
15、25、35 入力部
16、26、36 更新部
37 モデル更新部
210、310 制御部
220、320 記憶部
230、330 入出力部
240、340 通信部
C1 プロセッサ
C2 メモリ
S1、S2、S3 映像検索方法

 

Claims (16)

  1.  映像記憶装置に記憶された映像ごとに説明情報を生成する生成手段と、
     検索クエリを取得する取得手段と、
     前記検索クエリおよび前記説明情報を用いて、前記映像記憶装置から映像を検索する検索手段と、
     前記検索手段による検索結果を出力する出力手段と、
     前記検索結果に対する利用者の判定結果の入力を受け付ける入力手段と、
     前記判定結果および前記検索クエリに基づいて、前記説明情報を更新する更新手段と、
    を備える映像検索装置。
  2.  前記生成手段は、少なくとも映像を入力として説明情報を出力するよう生成された生成モデルを用いて、前記説明情報を生成する、
     請求項1に記載の映像検索装置。
  3.  前記更新手段により更新された説明情報を用いて、前記生成モデルを更新するモデル更新手段をさらに備える、
     請求項2に記載の映像検索装置。
  4.  前記検索手段は、前記説明情報が前記検索クエリに少なくとも部分的に合致する映像を前記映像記憶装置から検索し、
     前記更新手段は、検索された映像に関する説明情報のうち、前記検索クエリに合致しない部分を、前記判定結果に応じて更新する、
     請求項1から3の何れか1項に記載の映像検索装置。
  5.  前記出力手段は、前記検索結果に複数の映像が含まれる場合、前記検索手段による検索精度が高い順に前記検索結果を出力する、
     請求項1から4の何れか1項に記載の映像検索装置。
  6.  前記出力手段は、前記検索結果に複数の映像が含まれる場合、前記検索手段による検索精度が低い順に前記検索結果を出力する、
     請求項1から4の何れか1項に記載の映像検索装置。
  7.  前記出力手段は、前記検索結果に複数の映像が含まれる場合、前記検索結果を分類して出力し、
     前記入力手段は、前記分類ごとに前記判定結果の入力を受け付ける、
     請求項1から6の何れか1項に記載の映像検索装置。
  8.  前記入力手段は、前記検索結果に対する複数の前記判定結果の入力を受け付け、
     前記更新手段は、複数の前記判定結果を用いて前記説明情報を更新する、
     請求項1から7の何れか1項に記載の映像検索装置。
  9.  前記映像記憶装置に記憶された各映像には時間情報及び位置情報の一方又は両方が紐づけられ、
     前記更新手段は、前記映像記憶装置に記憶された映像のうち、前記説明情報の更新対象となる映像に対して時間情報及び位置情報の一方又は両方が類似する他の映像に関する前記説明情報をさらに更新する、
     請求項1から8の何れか1項に記載の映像検索装置。
  10.  前記説明情報は、第1説明情報及び第2説明情報を含み、
     前記更新手段は、前記第1説明情報及び前記第2説明情報の依存関係を用いて前記説明情報を更新する、
     請求項1から9の何れか1項に記載の映像検索装置。
  11.  前記映像記憶装置に記憶された各映像は、
      移動体に搭載された撮影装置が撮影した映像であり、
      各映像には、前記移動体に搭載されたセンサが取得したセンサ情報が紐づけられ、
     前記生成手段は、前記映像及び前記センサ情報を用いて、前記説明情報を生成する、
     請求項1から10の何れか1項に記載の映像検索装置。
  12.  前記更新手段は、
      前記説明情報の更新対象となる映像について、当該映像の撮影時における前記移動体の走行方向を特定し、
      前記映像記憶装置に記憶された映像のうち、前記説明情報の更新対象となる映像に対して前記走行方向が類似する他の映像に関する前記説明情報をさらに更新する、
     請求項11に記載の映像検索装置。
  13.  前記説明情報には、第3説明情報と第4説明情報とが含まれ、
     前記生成手段は、ルールベースモデルを用いて前記第3説明情報を生成するとともに、機械学習モデル又はユーザ入力に基づき前記第4説明情報を生成し、
     前記更新手段は、前記第3説明情報を更新せず、前記第4説明情報を更新する、
     請求項11又は12に記載の映像検索装置。
  14.  映像記憶装置に記憶された映像ごとに説明情報を生成する生成手段と、
     検索クエリを取得する取得手段と、
     前記検索クエリおよび前記説明情報を用いて、前記映像記憶装置から映像を検索する検索手段と、
     前記検索手段による検索結果を出力する出力手段と、
     前記検索結果に対する利用者の判定結果の入力を受け付ける入力手段と、
     前記判定結果および前記検索クエリに基づいて、前記説明情報を更新する更新手段と、
    を備える映像検索システム。
  15.  映像記憶装置に記憶された映像ごとに説明情報を生成し、
     検索クエリを取得し、
     前記検索クエリおよび前記説明情報を用いて、前記映像記憶装置から映像を検索し、
     検索結果を出力し、
     前記検索結果に対する利用者の判定結果の入力を受け付け、
     前記判定結果および前記検索クエリに基づいて、前記説明情報を更新する、映像検索方法。
  16.  コンピュータを映像検索装置として機能させるためのプログラムであって、前記コンピュータを、
     映像記憶装置に記憶された映像ごとに説明情報を生成する生成手段と、
     検索クエリを取得する取得手段と、
     前記検索クエリおよび前記説明情報を用いて、前記映像記憶装置から映像を検索する検索手段と、
     前記検索手段による検索結果を出力する出力手段と、
     前記検索結果に対する利用者の判定結果の入力を受け付ける入力手段と、
     前記判定結果および前記検索クエリに基づいて、前記説明情報を更新する更新手段と、
    として機能させるプログラム。

     
PCT/JP2021/042875 2021-11-24 2021-11-24 映像検索装置、映像検索システム、映像検索方法、及びプログラム WO2023095187A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/042875 WO2023095187A1 (ja) 2021-11-24 2021-11-24 映像検索装置、映像検索システム、映像検索方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/042875 WO2023095187A1 (ja) 2021-11-24 2021-11-24 映像検索装置、映像検索システム、映像検索方法、及びプログラム

Publications (1)

Publication Number Publication Date
WO2023095187A1 true WO2023095187A1 (ja) 2023-06-01

Family

ID=86539089

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/042875 WO2023095187A1 (ja) 2021-11-24 2021-11-24 映像検索装置、映像検索システム、映像検索方法、及びプログラム

Country Status (1)

Country Link
WO (1) WO2023095187A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012208656A (ja) * 2011-03-29 2012-10-25 Nifty Corp 情報処理装置及び情報処理方法
JP2020077343A (ja) * 2018-11-09 2020-05-21 富士通株式会社 ルール生成装置、ルール生成方法及びルール生成プログラム
JP2020201434A (ja) * 2019-06-12 2020-12-17 株式会社デンソーテン 生成装置、生成システムおよび生成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012208656A (ja) * 2011-03-29 2012-10-25 Nifty Corp 情報処理装置及び情報処理方法
JP2020077343A (ja) * 2018-11-09 2020-05-21 富士通株式会社 ルール生成装置、ルール生成方法及びルール生成プログラム
JP2020201434A (ja) * 2019-06-12 2020-12-17 株式会社デンソーテン 生成装置、生成システムおよび生成方法

Similar Documents

Publication Publication Date Title
Alsrehin et al. Intelligent transportation and control systems using data mining and machine learning techniques: A comprehensive study
US20200406905A1 (en) Approaches for encoding environmental information
Munoz-Organero et al. Automatic detection of traffic lights, street crossings and urban roundabouts combining outlier detection and deep learning classification techniques based on GPS traces while driving
JP6307356B2 (ja) 運転コンテキスト情報生成装置
Rasouli et al. Are they going to cross? a benchmark dataset and baseline for pedestrian crosswalk behavior
US9805276B2 (en) Generating real-time driver familiarity index for fine-grained dynamic road scenes
JP6330651B2 (ja) 異常検出装置
EP2876620A1 (en) Driving assistance system and driving assistance method
US11919545B2 (en) Scenario identification for validation and training of machine learning based models for autonomous vehicles
US11993291B2 (en) Neural networks for navigation of autonomous vehicles based upon predicted human intents
US11157007B2 (en) Approaches for encoding environmental information
US20210406262A1 (en) Systems and methods for encoding and searching scenario information
US11449475B2 (en) Approaches for encoding environmental information
JP2017010206A (ja) 運転操作判別装置
JP6238738B2 (ja) 経路探索装置及びその方法、並びに経路を探索するためのコンピュータプログラム及びコンピュータプログラムを記録した記録媒体
Chandra et al. Meteor: A dense, heterogeneous, and unstructured traffic dataset with rare behaviors
WO2023095187A1 (ja) 映像検索装置、映像検索システム、映像検索方法、及びプログラム
JP4595866B2 (ja) 経路情報作成システム及び経路情報作成方法
JP6799523B2 (ja) 走行現調支援装置
Zahraoui et al. Driver profiling: The pathway to deeper personalization
EP4256823A1 (en) Systems and methods for extracting data from autonomous vehicles
JP7035814B2 (ja) 車両提案システム、運転特徴生成装置、車両提案装置
Adnan et al. Traffic congestion prediction using deep convolutional neural networks: A color-coding approach
Das et al. Dribe: on-road mobile telemetry for locality-neutral driving behavior annotation
US20240109536A1 (en) Method, apparatus and system for driving by detecting objects around the vehicle

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21965561

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023563366

Country of ref document: JP

Kind code of ref document: A