WO2023238721A1 - 情報作成方法、及び情報作成装置 - Google Patents

情報作成方法、及び情報作成装置 Download PDF

Info

Publication number
WO2023238721A1
WO2023238721A1 PCT/JP2023/019903 JP2023019903W WO2023238721A1 WO 2023238721 A1 WO2023238721 A1 WO 2023238721A1 JP 2023019903 W JP2023019903 W JP 2023019903W WO 2023238721 A1 WO2023238721 A1 WO 2023238721A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
information
sound source
accuracy
importance
Prior art date
Application number
PCT/JP2023/019903
Other languages
English (en)
French (fr)
Inventor
俊輝 小林
祐也 西尾
潤 小林
啓 山路
Original Assignee
富士フイルム株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士フイルム株式会社 filed Critical 富士フイルム株式会社
Publication of WO2023238721A1 publication Critical patent/WO2023238721A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/92Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback

Definitions

  • One embodiment of the present invention relates to an information creation method and an information creation device.
  • sound characteristics include physical characteristics such as volume, amplitude, and frequency, type of sound source, and sound-based determination results (see, for example, Patent Document 1).
  • the sounds that are recorded as sound data are diverse, and there is no need to uniformly create supplementary information for all types of sounds in accordance with unified standards. In light of this point, there is a need to efficiently create supplementary information regarding sound characteristics for each of a plurality of sounds included in sound data.
  • An object of the present invention is to provide an information creation method and an information creation device for efficiently creating supplementary information regarding the characteristics of each of a plurality of sounds included in sound data.
  • an information creation method includes a first acquisition step of acquiring sound data including a plurality of sounds from a plurality of sound sources;
  • This information creation method includes a setting step of setting accuracy, and a creation step of creating information regarding characteristics of a sound as supplementary information of video data corresponding to the sound data based on the accuracy.
  • importance may be set for the sound or sound source, and accuracy may be set according to the importance.
  • the sound may be a non-linguistic sound.
  • the information creation method may include a second acquisition step of acquiring video data including a plurality of image frames. Furthermore, in the setting step, it is preferable to set the accuracy for the sound source depending on whether the sound source exists within the angle of view of a corresponding image frame among the plurality of image frames.
  • the information creation method includes a determination step of determining whether or not the sound satisfies a predetermined criterion when the sound source does not exist within the angle of view of the corresponding image frame. But that's fine. Further, in the setting step, the accuracy for sounds when a predetermined standard is satisfied may be set higher than when the predetermined standard is not satisfied.
  • the imaging lens of the imaging device when the sound satisfies a predetermined standard, is changed in direction so that it approaches the direction of the sound source, or may include a step of lowering the zoom magnification of the imaging device so that the image is included within the angle of view of the image frame.
  • the accuracy for the sound source may be set based on the result of image recognition regarding the sound source in the corresponding image frame, or the device information associated with the image frame regarding the imaging device that photographs the image frame.
  • the accuracy for the sound source may be set based on the device information.
  • the device information may be information regarding the focal position of the imaging device in the image frame or the line-of-sight position of the user of the imaging device in the image frame.
  • information regarding whether or not a sound source exists within the angle of view of the corresponding image frame may be created as additional information.
  • the information creation method may include an inspection step of inspecting whether the sound satisfies the inspection standard when the accuracy according to the degree of importance satisfies a predetermined condition.
  • an inspection step of inspecting whether the sound satisfies the inspection standard when the accuracy according to the degree of importance satisfies a predetermined condition may be created as supplementary information.
  • reliability information regarding the reliability of the test results may be further created as additional information.
  • importance information regarding importance may be created as additional information.
  • onomatopoeia information in which sounds are converted into text as onomatopoeias, may be created as supplementary information.
  • onomatopoeia information which is a text of the state of the sound source in the corresponding image frame as a mimetic word, may be further created as supplementary information.
  • an information creation device is an information creation device including a processor, wherein the processor acquires sound data including a plurality of sounds from a plurality of sound sources, and the processor acquires sound data including a plurality of sounds from a plurality of sound sources. Accuracy is set for the sound, and the processor creates information regarding the characteristics of the sound as supplementary information of the moving image corresponding to the sound data, based on the accuracy.
  • FIG. 3 is a diagram regarding video data and sound data.
  • 1 is a diagram illustrating a configuration example of an information creation device according to an embodiment of the present invention. It is a figure which shows an example of supplementary information.
  • FIG. 3 is a diagram showing an example of the positional relationship between the angle of view and the sound source.
  • FIG. 4 is a diagram related to a procedure for identifying the position of a sound source.
  • FIG. 7 is a diagram regarding another example of the procedure for identifying the position of a sound source.
  • FIG. 3 is a diagram showing various types of information included in sound supplementary information.
  • FIG. 2 is a diagram regarding the functions of the information creation device according to the first embodiment of the present invention.
  • FIG. 1 is a diagram illustrating an example of an imaging device and a camera platform according to a first embodiment of the present invention. It is an explanatory diagram about onomatopoeia information. It is an explanatory diagram about mimetic word information.
  • FIG. 3 is a diagram showing an information creation flow according to the first embodiment of the present invention.
  • FIG. 3 is a diagram showing an example of a specific scene in which a moving image file is created in the first embodiment. It is a figure showing the flow of a creation process.
  • 14 is a diagram showing an example of sound supplementary information created in the case of FIG. 13.
  • FIG. It is a figure regarding the function of the information creation device concerning a 2nd embodiment of the present invention.
  • FIG. 7 is a diagram showing an example of a specific scene in which a moving image file is created in the second embodiment.
  • 19 is a diagram showing an example of sound supplementary information created in the case of FIG. 18.
  • FIG. 7 is a diagram showing an example of a specific scene in which a moving image file is created in the second embodiment.
  • the concept of "device” includes a single device that performs a specific function, as well as a device that exists in a distributed manner and independently of each other, but cooperates (cooperates) to perform a specific function. It also includes combinations of multiple devices that achieve this.
  • person means a subject who performs a specific act, and the concept includes individuals, groups such as families, corporations such as companies, and organizations.
  • artificial intelligence refers to intellectual functions such as inference, prediction, and judgment that are realized using hardware and software resources.
  • the artificial intelligence algorithm may be arbitrary, such as an expert system, case-based reasoning (CBR), Bayesian network, or subsumption architecture.
  • One embodiment of the present invention relates to an information creation method and an information creation device that create incidental information of video data included in a video file based on sound data included in the video file.
  • One embodiment of the present invention also relates to a video file including the above-mentioned supplementary information.
  • the video file includes video data, sound data, and supplementary information.
  • the file formats of video files include MPEG (Moving Picture Experts Group)-4, H. Examples include H.264, MJPEG (Motion JPEG), HEIF (High Efficiency Image File Format), AVI (Audio Video Interleave), MOV (QuickTime file format), WMV (Windows Media Video), and FLV (Flash Video).
  • Video data is acquired by known imaging devices such as video cameras, digital cameras, and the like.
  • the imaging device images a subject within an angle of view, creates image frame data at a constant frame rate, and obtains video data consisting of a plurality of image frames as shown in FIG.
  • the subject recorded in each image frame includes a background (landscape). Note that, as shown in FIG. 2, each image frame in the video data is assigned a frame number (denoted as #n in the figure, where n is a natural number).
  • video data is created by capturing an image of a situation in which a plurality of sound sources emit sound. Specifically, at least one sound source is recorded in each image frame included in the video data, and a plurality of sound sources are recorded in the entire video data.
  • a sound source is an object that emits sound, and specifically includes animals, plants, machines, equipment, musical instruments, tools, devices such as sirens and alarm bells, vehicles, natural objects (environment) such as mountains and oceans, explosions, etc. accidents, and natural phenomena such as lightning or wind and rain. Note that the sound source may include a person.
  • the sound data is data in which sound is recorded so as to correspond to the video data.
  • the sound data includes sounds from a plurality of sound sources recorded in the video data. That is, the sound data is acquired by collecting sounds from each sound source using a microphone or the like built in or externally attached to the imaging device during acquisition of moving image data (that is, during imaging).
  • the sounds included in the sound data are mainly non-verbal sounds, such as the operating sounds of machines, the sounds of vehicles, the sounds of natural objects such as waterfalls, the sounds of animals, and the sounds of accidents. , sounds of natural phenomena, and noise.
  • the sounds included in the sound data may include emotional sounds such as a person's laughter, crying, and annoyed voice, as well as sounds generated due to a person's actions.
  • the video data and the sound data are synchronized with each other, and the acquisition of the video data and the sound data starts at the same timing and ends at the same timing. That is, in one embodiment of the present invention, the audio data and the corresponding video data are acquired during the same period as the acquisition period of the audio data.
  • the supplementary information is information related to video data that can be recorded in a box area provided in a video file.
  • the supplementary information includes, for example, tag information in Exif (Exchangeable image file format) format, specifically, tag information regarding shooting date and time, shooting location, shooting conditions, and the like.
  • the supplementary information according to one embodiment of the present invention includes supplementary information regarding the video recorded in the video data (hereinafter referred to as video supplementary information) and supplementary information regarding the sound included in the sound data.
  • information hereinafter referred to as sound incidental information.
  • the incidental information of the video includes incidental information regarding the subject in the video (hereinafter referred to as incidental information of the subject). Additional information will be explained in detail in a later section.
  • a video file having additional information can be used as training data in machine learning for sound recognition, for example.
  • machine learning it is possible to construct a learning model (hereinafter referred to as a sound recognition model) that recognizes the sound in an input video and outputs the recognition result.
  • the sound data included in the video file includes one or more non-verbal sounds.
  • a sound recognition model for recognizing non-linguistic sounds and identifying the type of sound.
  • An information creation device (hereinafter referred to as information creation device 10) according to one embodiment of the present invention includes a processor 11, a memory 12, and a communication interface 13, as shown in FIG.
  • the processor 11 includes, for example, a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), a DSP (Digital Signal Processor), or a TPU (Tensor Processing Unit).
  • the memory 12 is configured by, for example, a semiconductor memory such as a ROM (Read Only Memory) and a RAM (Random Access Memory).
  • the memory 12 stores a program for creating supplementary information of video data (hereinafter referred to as an information creation program).
  • the information creation program is a program for causing the processor 11 to execute each step of the information creation method described later. Note that the information creation program may be obtained by reading it from a computer-readable recording medium, or may be obtained by downloading it through a communication network such as the Internet or an intranet.
  • the communication interface 13 is configured by, for example, a network interface card or a communication interface board.
  • the information creation device 10 can communicate with other devices through the communication interface 13 and can send and receive data to and from the devices.
  • the information creation device 10 further includes an input device 14 and an output device 15, as shown in FIG.
  • the input devices 14 include devices that accept user operations, such as a touch panel and cursor buttons, and devices that accept sound input, such as a microphone.
  • the output device 15 includes a display device such as a display, and an audio device such as a speaker.
  • the information creation device 10 can freely access various data stored in the storage 16.
  • the data stored in the storage 16 includes data necessary to create supplementary information.
  • the storage 16 stores data for specifying the sound source of the sound included in the sound data, data for identifying the subject recorded in the video data, and the like.
  • the storage 16 may be built-in or externally attached to the information creation device 10, or may be configured by NAS (Network Attached Storage) or the like.
  • the storage 16 may be an external device that can communicate with the information creation device 10 via the Internet or a mobile communication network, such as an online storage.
  • the information creation device 10 is installed in an imaging device such as a video camera, as shown in FIG.
  • the mechanical configuration of an imaging device (hereinafter referred to as imaging device 20) including the information creation device 10 is substantially the same as a known imaging device having a function of acquiring video data and sound data.
  • the imaging device 20 also includes an internal clock and has a function of recording the time at each point in time during imaging. Thereby, the imaging time of each image frame of the video data can be specified and recorded.
  • the imaging device 20 may be portable, such as a digital camera, or may be fixed at a predetermined position, such as a surveillance camera or a fixed-point camera.
  • the imaging device 20 includes an imaging lens 20L, which images a subject within an angle of view, creates image frames recording the subject at a constant frame rate, and generates video data. get. Further, during imaging, the imaging device 20 collects sounds from sound sources around the device using a microphone or the like to obtain sound data. Furthermore, the imaging device 20 creates additional information based on the acquired video data and sound data, and creates a video file including the video data, sound data, and additional information.
  • the imaging device 20 may have an autofocus (AF) function that automatically focuses on a predetermined position within the angle of view during imaging, and a function that specifies the focal position (AF point).
  • the AF point is specified as a coordinate position when the reference position within the angle of view is the origin.
  • the viewing angle is a data processing range in which an image is displayed or drawn, and the range is defined as a two-dimensional coordinate space whose coordinate axes are two mutually orthogonal axes.
  • the imaging device 20 may include a finder 20F through which the user (that is, the photographer) looks during imaging.
  • the imaging device 20 may have a function of detecting the respective positions of the user's line of sight and pupils while using the finder to specify the position of the user's line of sight.
  • the user's line of sight position corresponds to the intersection position of the user's line of sight looking into the finder 20F and the display screen within the finder 20F.
  • the imaging device 20 may be equipped with a known distance sensor such as an infrared sensor, and in this case, the distance sensor can measure the distance (depth) of the subject within the angle of view in the depth direction.
  • a known distance sensor such as an infrared sensor
  • the imaging device 20 may be equipped with a sensor for GPS (Global Positioning System) or GNSS (Global Navigation Satellite System). In this case, it is possible to measure the location (latitude and longitude) of the imaging device 20 by the function of the sensor.
  • GPS Global Positioning System
  • GNSS Global Navigation Satellite System
  • the imaging device 20 may be used while being supported by a pan head during imaging (see FIG. 9B).
  • the pan head has a structure that can change the attitude of supporting the imaging device 20, and may include a mechanism for changing the attitude and a control circuit thereof.
  • the imaging device 20 may communicate with the above control circuit through the communication interface 13 and control the attitude of the pan head via the control circuit. Thereby, during imaging, the angle of view can be changed by changing the direction of the imaging lens 20L based on the command signal from the imaging device 20.
  • supplementary information of video data is created by the function of the information creation device 10 installed in the imaging device 20.
  • the created incidental information is attached to the moving image data and sound data and becomes a constituent element of the moving image file.
  • the supplementary information is created in association with the image frame, for example, while the imaging device 20 is acquiring moving image data and sound data (that is, during imaging).
  • incidental information of a photographic subject is created based on video data
  • incidental information of sound is created based on sound data.
  • the incidental information of the subject and the incidental information of the sound are created in association with each other.
  • each piece of supplementary information is created in association with two or more image frames among a plurality of image frames included in the video data, as shown in FIG.
  • the accompanying information about the sound is created in association with two or more image frames captured while the sound is occurring.
  • the incidental information of the subject is created in association with two or more image frames that are associated with the incidental information of the sound.
  • correspondence information information regarding the correspondence between the sound incidental information and two or more image frames (hereinafter referred to as correspondence information) is preferably created as the incidental information.
  • the correspondence information is information about the corresponding times of the start and end of the sound generation period, or the frame numbers of image frames captured at the start and end of the sound generation period, respectively, as shown in FIG.
  • the incidental information about the subject is information about the subject existing within the angle of view of the image frame constituting the video data, and includes information about the type of the subject, as shown in FIG. 4, for example.
  • the type of subject is a type based on the morphological attributes of the subject, and specifically, is a general name of an object, event, or the like.
  • the method for identifying the type of subject is not particularly limited, but the type of subject may be identified using known subject recognition technology and image processing technology from the characteristics of the area where the subject exists in the image frame.
  • Features of the area where the subject exists include the area's hue, saturation, brightness, shape, size, and position within the viewing angle.
  • onomatopoeic word information is created as supplementary information of the subject, which is a text of the state of the subject, which is the sound source, as a mimetic word.
  • the mimetic word information is created by identifying the state of the subject using known subject recognition technology and image processing technology from the characteristics of the area where the subject is present in the image frame.
  • the function of converting the state of the subject into text is realized by artificial intelligence (AI), specifically, a learning model that outputs a mimetic word when the state of the subject is input.
  • AI artificial intelligence
  • the state of the subject that is converted into text as a mimetic word includes the subject's appearance, form (manner), surface characteristics, posture, movement, action, demeanor, speed, facial expression, etc.
  • Mimetic words include language that imitatively expresses the state of a person or thing, specifically, onomatopoeic words that express movement or state, etc., mimetic words (onomatopoeic words) that express action or manner, etc., and expressions or feelings, etc. Contains mimetic words (mimetic words) that represent
  • the supplementary information for the subjects may be created for each subject, or may be created only for some subjects (for example, the main subject).
  • the sound supplementary information is information related to the sound from the sound source stored in the video data, and in particular, information related to the non-verbal sounds emitted by the sound source. Additional sound information is created every time a sound source emits a sound. In other words, as shown in FIG. 4, for each of a plurality of sounds from a sound source included in the sound data, sound supplementary information is created for each sound.
  • the sound supplementary information includes feature information regarding the characteristics of the sound.
  • the characteristics of a sound include the nature and characteristics of the sound, the evaluation results for the sound, the language expressing the content of the sound, the effects and influences brought about by the sound, and other items related to the sound.
  • sound frequency, dominant frequency (formant component), amplitude, volume (sound pressure), sound waveform, text information of sound as text, language expressed by imitating sound (onomatopoeia), etc. corresponds to the characteristics of sound.
  • the type of sound and the type of sound source correspond to characteristics of the sound.
  • the type of sound indicates what kind of sound it is, whether it is a noise sound, or what kind of scene the sound is in.
  • the type of sound source is a type based on the morphological attributes of the sound source, and specifically, it is a general name of an object, person, event, etc. that emits a sound.
  • the feature information is created according to the precision set for the sound or the sound source emitting the sound.
  • Accuracy is a concept representing the degree of detail (definition) of information created as feature information. For sounds or sound sources for which higher accuracy is set, more detailed feature information is created, for example, feature information regarding more items is created. Note that the concept of accuracy may include the selection of whether or not to create feature information.
  • the accuracy is set depending on the importance of the sound or sound source.
  • the degree of importance may be expressed by stages or ranks such as "high, medium, and low,” or by numerical values.
  • the importance of a sound is the degree to which the sound stands out, and specifically, the degree to which the characteristics of the sound stand out.
  • the importance of a sound is set based on physical properties of the sound such as volume and frequency; for example, the louder the volume, the higher the importance is set.
  • the importance level of a sound may be set based on the type of sound.
  • the type of sound is a concept that represents what kind of sound it is, for example, whether it is a sudden sound such as a warning sound, an environmental sound, a noise sound, and whether it is an explosion sound. Is the sound unique and characteristic, such as a sound? It is usually best to set a high importance level for characteristic sounds, and a low importance level for noise sounds or environmental sounds. However, when it comes to environmental sounds, there are cases where the source of the sound becomes the main subject (for example, the sound of a running train when photographing a train), and in that case, even if it is an environmental sound, it is given high importance. May be set.
  • AI for sound recognition may be used as a means for identifying the type of sound.
  • the importance level of a sound may be set by an AI for setting the importance level, more specifically, by a learning model that outputs the importance level of the sound included in the sound data when the sound data is input.
  • the importance of a sound source is the degree of influence that a sound source has on video data, and is set based on, for example, sound data and video data. Specifically, the importance of a sound source is set depending on whether the sound source exists within the field of view of the corresponding image frame. To be more specific, a sound source that exists as a subject within the angle of view is selected as an imaging target, and is therefore likely to be important to the user. Based on this, higher importance is generally set for a sound source existing within the field of view or a sound emitted from the sound source.
  • FIG. 5 shows a situation where an explosion sound is occurring outside the field of view.
  • the range surrounded by the dotted line represents the area of the angle of view (photographing angle of view).
  • the source of the explosion sound (that is, the location of the explosion) is not recorded as a subject in the image frame, so it is determined that it exists outside the angle of view. Note that before identifying the type of sound from the sound data, it may be determined whether the subject (sound source) at the time the sound is generated is present in the image frame.
  • the method for determining whether a sound source exists within the angle of view is not limited to the above method.
  • the position of the sound source may be specified using a known sound source search technique, and it may be determined from the specified position of the sound source whether the sound source exists within the angle of view.
  • a directional microphone is used as a sound collecting microphone, the position of the sound source is specified from the sound collecting direction of the directional microphone, and it is determined whether the sound source exists within the angle of view.
  • the directional microphone is preferably a microphone that combines multiple microphone elements to collect sounds over a wide range of 180° or more (preferably 360°) and is capable of determining the direction of each collected sound. .
  • the importance of the sound source may be set based on the result of image recognition regarding the sound source in the image frame.
  • the degree of importance may be set based on the size of the sound source relative to the angle of view, the type of the sound source, and the like. In this case, for example, the larger the size, the higher the importance may be set.
  • the sound source is a person, the importance level may be set relatively low, and when the sound source is an object, the importance level may be set relatively high.
  • AI for sound source identification may be used as a means for identifying the type of sound source.
  • the importance of the sound source may be set based on device information associated with the image capturing device 20 that photographs the image frame.
  • the device information may be, for example, the focal position (AF point) of the imaging device 20 in the image frame, or the gaze position of the user of the imaging device 20 in the image frame (more specifically, the user's gaze position detected using a finder with a gaze detection sensor). This is information regarding the position of the line of sight).
  • the method for identifying the position of the sound source within the angle of view is not particularly limited, but for example, as shown in FIG. do. If the sound source area is a rectangular area, the coordinates of the two intersection points (points indicated by white circles and black circles in FIG. 6) located at both ends of the diagonal line at the edge of the area are calculated as the sound source position (coordinate position). It is recommended to specify it as On the other hand, if the sound source area is a circular area as shown in FIG. 7, for example, the sound source is It is best to specify the location. Note that even when the sound source area is rectangular, the position of the sound source may be specified by the coordinates of the center (intersection of diagonals) of the area and the distance from the center to the edge.
  • the distance (depth) of the sound source may be referred to and the degree of importance may be set based on both the position and distance of the sound source.
  • the importance of the sound source may be set based on a video scene or an event recorded in the video data. Specifically, important scenes or events are recognized based on video data, and importance is set based on the relationship between the recognized scenes or events and sounds emitted by sound sources outside the field of view. It's okay. For example, in a case where a "festival" scene is recorded in the video data, the drum sound of the festival is recorded in the sound data, but if the sound source, the drum, is outside the field of view, the sound source (the drum) The importance level of is set relatively high. Furthermore, in the scene shown in FIG.
  • the importance of the explosion sound is set to be relatively high even if the sound source is outside the angle of view.
  • the location of the imaging device 20 may be specified using a GPS sensor provided in the imaging device 20, and the scene, event, etc. may be determined based on the location. good.
  • the method for setting the degree of importance is not limited to the method described above; for example, the degree of importance of a sound or sound source may be specified by the user. Thereby, the user's intention can be reflected in the accompanying information of the sound, more specifically, in the accuracy when creating the accompanying information.
  • the accuracy is set for that sound or sound source according to the importance. Specifically, the higher the degree of importance, the more detailed precision is set. Then, with respect to the sound or sound source for which the precision has been set, characteristic information about the sound is created according to the precision. For example, for sounds with higher importance, feature information is created with higher accuracy. On the other hand, for sounds of lower importance, feature information is created with lower accuracy. As a result, feature information can be created more efficiently than when feature information is created with a unified definition or information amount for each of the plurality of sounds included in the sound data.
  • the feature information can be used when performing machine learning using a video file containing the supplementary information as training data. Specifically, when selecting (annotating) a video file as teacher data, feature information included in the video file can be used.
  • video files can be selected more appropriately.
  • feature information is created for the sounds included in the sound data according to the accuracy. For example, more detailed feature information is created for important sounds, so annotations can be made based on that feature information. It can be carried out.
  • importance information regarding the importance level set for a sound or a sound source may be created as accompanying information of the sound.
  • importance information as additional information included in the video file can be used.
  • presence/absence information information regarding the determination result
  • a video file to be used as teacher data can be selected (annotated) based on presence/absence information included in the video file.
  • type information information regarding the type of sound source of the sound included in the sound data
  • a desired video file can be searched based on type information included in the video file as supplementary information.
  • the type information as additional information can be used as a search key when searching for video files.
  • onomatopoeia information which is a text of the sound as an onomatopoeia, is used as accompanying information of the sound (more specifically, one of the feature information mentioned above). You may create one.
  • Onomatopoeic word information is created by applying known sound recognition technology to the sounds (non-linguistic sounds) included in the sound data and assigning plausible words based on the pronunciation of the sounds. The function of converting sounds into text is realized by artificial intelligence (AI), specifically, a learning model that outputs onomatopoeic words when sounds are input.
  • AI artificial intelligence
  • onomatopoeias include onomatopoeias (words expressed by imitating sounds) such as human laughter and animal sounds.
  • onomatopoeia information which is a text of non-linguistic sounds
  • the usefulness of the video file is further improved.
  • by performing machine learning using a video file containing onomatopoeia information as training data it is possible to learn the relationship between non-linguistic sounds and onomatopoeia information, and to construct a more accurate sound recognition model.
  • onomatopoeia information information regarding the type of onomatopoeia (for example, whether it is a human laugh or an animal sound) may also be created (see Figure 10). ). Note that for sounds or sound sources with low importance, onomatopoeia information may not be created from the viewpoint of load reduction, but the present invention is not limited to this, and onomatopoeia information may be created.
  • the sound supplementary information may further include link destination information and rights-related information, as shown in FIG.
  • the link destination information is information that indicates a link to the storage location (save location) of the audio file when the same audio data as the audio data of the video file is created as a separate file (audio file). Note that since sounds from multiple sound sources are recorded in the sound data of the video file, an audio file may be created for each sound source. In that case, link destination information is created as supplementary information for each audio file (that is, for each sound source).
  • the rights-related information is information regarding the attribution of rights regarding the sound included in the sound data and the attribution of the rights regarding the video data. For example, if a video file is created by capturing images of a scene in which multiple musicians perform in order, the rights (copyright) to the video data belong to the creator (that is, the photographer) of the video file. On the other hand, the rights to the sounds (performance sounds) of each of the plurality of performers recorded in the sound data belong to each performer or the organization to which he or she belongs. In this case, rights-related information that defines the ownership relationship of these rights is created as additional information.
  • the information creation device 10 includes an acquisition unit 21, a identification unit 22, a determination unit 23, a setting unit 24, a first creation unit 25, a second creation unit 26, and a change unit. It has 27.
  • These functional units cooperate with the hardware devices (processor 11, memory 12, communication interface 13, input device 14, output device 15, and storage 16) of the information creation device 10 and software including the above-mentioned information creation program. It is realized by working. Additionally, some functions are realized using artificial intelligence (AI).
  • AI artificial intelligence
  • the acquisition unit 21 controls each part of the imaging device 20 to acquire video data and sound data.
  • the acquisition unit 21 synchronizes the video data and sound data and simultaneously creates these data.
  • the acquisition unit 21 acquires video data consisting of a plurality of image frames so that at least one sound source is recorded in one image frame.
  • the acquisition unit 21 acquires sound data including a plurality of sounds from a plurality of sound sources recorded in a plurality of image frames included in the video data.
  • each sound is associated with two or more image frames acquired during the generation period of the sound among the plurality of image frames (for example, see FIG. 4).
  • the specifying unit 22 specifies content related to sound included in the sound data based on the video data and sound data obtained by the obtaining unit 21.
  • the identifying unit 22 identifies the correspondence between a sound and an image frame for each of a plurality of sounds included in the sound data. Identify the image frame of.
  • the identifying unit 22 also identifies the characteristics (volume, sound pressure, amplitude, frequency, type of sound, etc.) and sound source for each sound. Further, the specifying unit 22 specifies whether or not the sound source of the sound exists within the angle of view of the corresponding image frame.
  • the corresponding image frame is an image frame captured at the time when the sound source emits the sound, among the plurality of image frames included in the video data.
  • the identification unit 22 identifies the position and distance (depth) of the sound source within the angle of view.
  • the specifying unit 22 recognizes an image (specifically, a sound source region) related to the sound source in the corresponding image frame, and specifies the size of the sound source, the type of the sound source, etc. as a result of the image recognition.
  • the identifying unit 22 acquires device information regarding the focal position (AF point) of the imaging device 20 or the user's line of sight position in the corresponding image frame, and identifies the distance (interval) between these positions and the position of the sound source. .
  • the determination unit 23 determines whether the sound from the sound source satisfies a predetermined criterion (hereinafter referred to as the determination criterion) based on the characteristics identified by the identification unit 22. Determine whether or not.
  • Judgment criteria are standards set for sounds from sound sources outside the field of view, such as whether the volume is above a certain level, whether the sound is in a specific frequency range, or whether the sound is unusual and characteristic. Is it a sound? Note that the determination criteria may be set in advance on the imaging device 20 side, or may be set by the user.
  • the setting unit 24 sets the degree of importance for each of a plurality of sounds from a plurality of sound sources included in the sound data or the sound source of each sound.
  • the setting unit 24 sets the degree of importance based on whether the sound source exists within the angle of view of the corresponding image frame. Further, when the sound source exists within the field of view, the setting unit 24 determines the importance of the sound source based on the result of image recognition regarding the sound source in the image frame, that is, the size and type of the sound source identified by the identifying unit 22. Set the degree.
  • the setting unit 24 specifies the focal position of the imaging device 20 or the user's line of sight position from the device information, and based on the distance between the specified position and the position of the sound source. You may also set the importance of the sound source.
  • the setting unit 24 sets the importance level for the sound from the sound source based on the determination result by the determination unit 23.
  • the setting unit 24 sets, for example, a higher degree of importance for a sound that satisfies the determination criteria than for a sound that does not satisfy the determination criteria. Sounds from sources outside the field of view are generally given low importance, but if a characteristic sound such as an explosion satisfies the criteria, even if the sound comes from a sound source outside the field of view, Even a sound can be important to the user. In the first embodiment, taking this point into consideration, it is possible to appropriately set the degree of importance for sounds from sound sources outside the angle of view, depending on the success or failure of the judgment criteria.
  • the setting unit 24 sets accuracy for each sound or sound source according to the set importance level. Specifically, higher accuracy is set for sounds or sound sources that are set with higher importance, and lower accuracy is set for sounds or sound sources that are set with lower importance. .
  • the first creation unit 25 creates feature information for each of the plurality of sounds from the plurality of sound sources included in the sound data, based on the characteristics specified by the identification unit 22. At this time, the first creation unit 25 creates the feature information based on the accuracy set for the sound or its sound source by the setting unit 24, and specifically, the first creation unit 25 creates the feature information with the detail (definition) according to the accuracy. Create feature information.
  • the first creation unit 25 creates correspondence information regarding the correspondence relationship based on the correspondence relationship between the sound and the image frame specified by the identification unit 22. Further, the first creation unit 25 stores importance information regarding the importance set by the setting unit 24 for each sound or its sound source for each of a plurality of sounds from a plurality of sound sources included in the sound data. Create as information. Further, when the identification unit 22 identifies whether or not a sound source exists within the angle of view of the corresponding image frame, the first creation unit 25 generates information regarding the presence or absence of the sound source within the angle of view of the sound incidental. Create further information. Further, when the type of sound source within the viewing angle is specified by the specifying unit 22, the first creating unit 25 further creates type information regarding the type of sound source as accompanying information of the sound.
  • the first creation unit 25 when the accuracy set according to the importance of the sound or its sound source satisfies a predetermined condition (hereinafter referred to as the first condition), the first creation unit 25 generates an onomatopoeic word that converts the sound into a text as an onomatopoeic word.
  • Information can be created as ancillary information to the sound. For example, as shown in FIG. 10, when the sound included in the sound data is a dog's bark and the accuracy set according to the importance of the sound satisfies the first condition, the first creation unit 25 Create onomatopoeia information for "wanwan". At this time, the first creation unit 25 may also create additional information regarding the type of onomatopoeic word, as shown in FIG.
  • the first condition is that the onomatopoeia information must be created with accuracy, for example, that the onomatopoeia information must be created with accuracy that corresponds to a level of importance that is above a certain level.
  • the sound may include a sound that continues for a long time, such as the sound of rain, or a sound that repeatedly sounds for a certain period of time, such as a siren.
  • the second creation unit 26 creates supplementary information (subject information) for a subject existing within the angle of view of an image frame included in the video data.
  • supplementary information subject information
  • the second creation unit 26 when the accuracy according to the importance set for a sound or a sound source satisfies a predetermined condition (hereinafter referred to as a second condition), the second creation unit 26 generates a mimetic word for the sound source. Create information.
  • the mimetic word information is information regarding the state of the sound source in the corresponding image frame. For example, as shown in FIG.
  • the second creation unit 26 Create onomatopoeia information called "Niko Niko".
  • the second creation unit 26 may also create supplementary information regarding the type of human emotion converted into text as a mimetic word.
  • the state of the sound source may be identified from a video using a known image analysis technique, and a mimetic word corresponding to the identified state may be assigned using AI.
  • the second condition is that the accuracy with which the mimetic word information should be created is met, for example, the accuracy is met that corresponds to the degree of importance above a certain level.
  • the sound source whose accuracy satisfies the second text condition may be, for example, the main subject within the corresponding image frame.
  • the main subject is the largest subject in the image frame, the subject closest to the focal point or the user's line of sight, or the like.
  • the second creation unit 26 it is possible to create mimetic word information that expresses the state of the sound source in language (mimetic words) as supplementary information. This further improves the usefulness of the video file. Specifically, by performing machine learning using video files containing onomatopoeia information as training data, we will build a learning model that outputs onomatopoeias based on the video of the subject (more specifically, the sound source) when the video of the subject (more specifically, the sound source) is input. can do.
  • the second creation unit 26 may detect the movement of the sound source from the video indicated by the video data, and create onomatopoeia information representing the movement as supplementary information.
  • the changing unit 27 controls the pan head to change the direction of the imaging lens 20L of the imaging device 20, and changes the zoom magnification of the imaging device 20. Specifically, if the sound source does not exist within the field of view of the corresponding image frame, as described above, the determination unit 23 determines whether the sound from the sound source satisfies the determination criteria. Then, when the sound satisfies the determination criteria, the changing unit 27 changes the direction of the imaging lens 20L so that the imaging lens 20L approaches the direction of the sound source (that is, faces the sound source). Alternatively, the changing unit 27 lowers the zoom magnification of the imaging device 20 so that the sound source is included within the angle of view of the image frame.
  • the pan head is not particularly limited as long as it has a structure that allows the direction of the imaging lens 20L to be changed, and an example of the pan head is the pan head 33 shown in FIG. 9B.
  • the pan head 33 is a three-axis moving mechanism that can move the housing 32 that houses the main body of the imaging device 20 in three axial directions (roll, pitch, and yaw directions).
  • the configurations of the housing 32 and the pan head 33, which is a three-axis moving mechanism, are known configurations, and the imaging device 20, the housing 32, and the pan head 33 have a dome-like structure, as shown in FIG. 9B.
  • a configuration in which it is covered by a cover 31 may also be used.
  • the change unit 27 Due to the function of the change unit 27 described above, when a characteristic sound such as an explosion sound occurs and the sound source does not exist within the field of view of the corresponding image frame, the field of view is changed to include the sound source. can be changed. With this, it is possible to record an image of the sound source (the location where the sound is generated) for a characteristic sound that occurs outside the field of view.
  • the orientation and zoom magnification of the imaging lens 20L (in other words, the angle of view after the change) changed by the changing unit 27 remain unchanged for a predetermined period, specifically, while a sound that satisfies the determination criteria is being generated. Good to be maintained. Further, the direction and zoom magnification of the imaging lens 20L may be returned to the settings before the change after the settings after the change are maintained for a predetermined period of time.
  • Each step (process) in the information creation flow is executed by the processor 11 included in the information creation device 10. That is, in each step in the information creation flow, the processor 11 executes a process corresponding to each step among the data processing prescribed by the information creation program.
  • the information creation flow according to the first embodiment proceeds according to the flow shown in FIG. 12.
  • video data and sound data are acquired, additional information of the video data is created, and a video file is created.
  • the processor 11 performs a first acquisition step (S001) in which the processor 11 acquires sound data including multiple sounds from multiple sound sources, and a second acquisition step (S002) in which the processor 11 acquires video data including multiple image frames. ).
  • S001 first acquisition step
  • S002 second acquisition step
  • the second acquisition step is to be performed after the first acquisition step, but for example, when capturing a moving image with sound using the imaging device 20, the first acquisition step The step and the second acquisition step will be performed simultaneously.
  • the processor 11 implements the identification step S003).
  • the identifying step content related to the sound included in the sound data is identified, and specifically, the correspondence between the sound and the image frame, the characteristics of the sound, the type of the sound, the sound source, etc. are identified.
  • the identifying step it is determined whether the sound source of the sound exists within the angle of view of the corresponding image frame. For sound sources existing within the angle of view, the position and distance (depth) of the sound source within the angle of view, the size and type of the sound source, etc. are further specified. If a sound source exists within the field of view, acquire device information regarding the focus position (AF point) of the imaging device 20 or the user's line of sight position in the corresponding image frame, and compare the position indicated by the device information with the position of the sound source. Determine distance.
  • the processor 11 moves to the setting process (S008).
  • the processor 11 executes the determination step (S005).
  • the determination step it is determined whether the sound from the sound source outside the angle of view satisfies the determination criteria based on the characteristics specified in the identification step.
  • the processor 11 executes the changing step (S007).
  • the changing step the direction of the imaging lens 20L of the imaging device 20 is changed so that it approaches the direction of the sound source, or the direction of the imaging device 20 is changed so that the sound source is included within the field of view of the image frame. Reduce the zoom magnification.
  • the processor 11 moves to a setting process (S008).
  • the processor 11 sets importance levels for each of a plurality of sounds from a plurality of sound sources included in the sound data or for each sound source.
  • the degree of importance is set based on the presence or absence of the sound source within the angle of view of the corresponding image frame. Further, for a sound source existing within the angle of view, the degree of importance is set based on the result of image recognition regarding the sound source in the image frame (specifically, the size of the sound source, the type of the sound source, etc.). Further, for a sound source existing within the field of view, the degree of importance is set based on the distance between the position of the sound source and the focus position of the imaging device 20 or the line of sight position of the user, which is specified from the device information.
  • accuracy is set for each sound or sound source according to the set importance level.
  • the importance of the sound source existing within the angle of view is set based on whether the sound source exists within the angle of view of the corresponding image frame, as described above. Therefore, for a sound source existing within the angle of view, accuracy is set based on the presence or absence of the sound source within the angle of view.
  • the degree of importance is set based on the result of image recognition regarding the sound source in the corresponding image frame and the focal position or the user's line of sight indicated by the device information. Therefore, for a sound source existing within the field of view, accuracy is set based on the result of image recognition regarding the sound source and device information.
  • the importance level is set based on whether the sound satisfies the judgment criteria.
  • the accuracy is set based on At this time, the accuracy for the sound when the determination criterion is met is set higher than when the predetermined criterion is not met.
  • the flow up to this point will be specifically explained using the case shown in FIG. 13 as an example.
  • a video is captured with a waterfall as the subject, and at a certain point after the start of capturing (corresponding to #1000 in terms of frame number), lightning occurs outside the angle of view. Therefore, the sound data acquired during video imaging includes the sound of a waterfall and the sound of thunder.
  • the waterfall sound corresponds to image frames #1 to 999 in the video.
  • the sound of thunder corresponds to image frame #1000 captured at the time of lightning occurrence.
  • the sound source of the waterfall that is, the waterfall
  • the importance of the waterfall as a sound source is set based on the size of the waterfall within the angle of view, the distance between the focal position of the imaging device or the user's line of sight, and the waterfall.
  • the waterfall corresponds to the main subject, and therefore, the importance level for the waterfall is set to be relatively high.
  • the accuracy for waterfalls is set relatively high depending on the degree of importance.
  • the source of the thunder sound that occurred at the time corresponding to frame number #1000 that is, the lightning
  • the determination criteria for example, whether the volume of the sound of thunder is greater than or equal to the reference value.
  • the sound of thunder does not meet the criteria, and therefore the importance level for the sound of thunder is set to be relatively low.
  • the accuracy with respect to lightning is set relatively low depending on the degree of importance.
  • the processor 11 implements the creation step (S009) of creating additional information of the video data.
  • the creation process proceeds according to the flow shown in FIG.
  • audio accompanying information and video accompanying information are created as accompanying information of the video data.
  • the accompanying sound information is created based on the content specified in the specifying step.
  • a step (S021) of creating feature information for each of a plurality of sounds from a plurality of sound sources included in the sound data is implemented.
  • feature information is created based on the precision set in the setting step. That is, when the precision for a sound or sound source is set relatively high, more detailed feature information is created for that sound. On the other hand, if the accuracy is set relatively low for a sound or a sound source, feature information is created with lower detail for that sound, or creation of feature information is omitted.
  • a step (S022) is also performed to create importance information regarding the importance of the sound or sound source set in the setting step as supplementary information. Further, in the creation step, a step (S023) is performed to create presence/absence information regarding whether or not the sound source exists within the angle of view of the corresponding image frame as supplementary information.
  • a step of creating onomatopoeia information which is a text of the sound as an onomatopoeia, as incidental information (S025) ).
  • the accuracy according to the importance set for the sound source existing within the angle of view of the image frame satisfies the second condition (S026)
  • the onomatopoeic word information that is converted into text as a mimetic word for the state of the sound source
  • S027 of creating additional information is executed.
  • other related information specifically, correspondence information, type information, etc.
  • Steps S001 to S009 in the information creation flow are repeatedly performed during the period of acquiring video data and sound data (that is, while shooting a video).
  • sound supplementary information is created for each of the plurality of sound sources included in the sound data.
  • FIG. 15 shows the accompanying information of the sound created for the case of FIG. 13 described above.
  • the importance of the "waterfall sound” corresponding to image frames #1 to #999 is set higher than that of the waterfall that is the sound source. Therefore, for the "sound of a waterfall,” feature information is created with higher precision as shown in Figure 15, and specifically, information about the volume, the type of sound source, and the positional relationship between the sound source and the focal point is created. etc. are created as feature information.
  • the importance level is set lower for the "sound of thunder” corresponding to the image frame #1000. For this reason, as shown in Figure 15, for the "sound of thunder,” the accuracy when creating feature information is lower, and while information indicating the type of sound is created, information regarding the volume and type of sound source, etc. No feature information is created.
  • the plurality of sounds included in the sound data include the sounds emitted from each of the plurality of test objects during the test. That is, in the second embodiment, a plurality of sound sources include a plurality of test targets.
  • the plurality of inspection objects may be a plurality of inspection target products, or may be a plurality of inspection points set on one object (including a structure such as a building).
  • each of the plurality of products to be inspected is sequentially transported to an inspection point one by one, and subjected to the hammering test at the testing point.
  • the appearance of the tapping sound test is captured by an imaging device 20 equipped with the information creation device 10, and the sounds generated during the test are collected by a microphone included in the imaging device 20.
  • video data and sound data regarding the percussion test are acquired.
  • the sound data includes a plurality of sounds, and the plurality of sounds include a test sound and a carrier sound.
  • the inspection sound is a sound emitted from an inspection object to which an inspection blow has been applied at an inspection point.
  • the conveyance sound is an operation sound when a conveyance device (not shown) is operated to exchange the inspection object placed at the inspection point.
  • the information creation device 10 can identify an inspection target product placed at an inspection point and undergoing inspection. Specifically, each item to be inspected is attached with a memory element that stores its identification information (ID), and a sensor (not shown) identifies the item from the storage element of the item to be inspected placed at the inspection point. Read information. The information creation device 10 communicates with the above-mentioned sensor through the communication interface 13 to obtain the identification information read by the sensor. Thereby, the ID of the item to be inspected that is being inspected is specified by the information creation device 10. Note that when the items to be inspected are arranged at different locations, each item to be inspected may be specified by using a GPS function or the like to specify the placement position of the items to be inspected. Furthermore, when the inspection target items have identification information on their surfaces, the identification information may be recognized using the image authentication technology of the imaging device 20, and each inspection target item may be identified from the identification information.
  • the information creation device 10 creates sound supplementary information for each of the test sound and carrier sound included in the sound data. Specifically, the information creation device 10 sets the degree of importance for each of the test sound and the carrier sound, and then sets the precision according to the degree of importance. At this time, a higher degree of importance is set for the test sound, and a lower degree of importance is set for the carrier sound. Thereafter, the information creation device 10 creates supplementary information for each sound according to its accuracy. Regarding the test sounds, information regarding the results of the hammering sound test is created as additional information (strictly speaking, the above-mentioned feature information). On the other hand, no information regarding test results is created for carrier sounds.
  • the information creation device 10 includes the same functional units as in the first embodiment and also includes an inspection unit 28, as shown in FIG.
  • the inspection unit 28 inspects whether or not the sound satisfies the inspection criteria when the accuracy set for the sound included in the sound data (in detail, the accuracy according to the degree of importance) satisfies a predetermined condition. .
  • the inspection unit 28 determines whether the sound satisfies the inspection criteria based on the characteristics of the sound (for example, frequency, etc.).
  • the inspection standard is a standard for determining the quality of the product to be inspected, which is the source of the sound (inspection sound), for example, whether the test sound is an abnormal sound different from the sound of a normal product.
  • the means for testing whether or not a sound satisfies the testing criteria is AI for testing, more specifically, a learning model that determines whether the sound satisfies the testing criteria from the characteristics of the input sound. You may use it.
  • the first creation unit 25 converts information regarding the inspection result by the inspection unit 28 into feature information (incidental information of the sound) for a sound whose accuracy according to the degree of importance satisfies a predetermined condition, that is, a test sound. ). At this time, the first creation unit 25 creates information regarding the physical characteristics (e.g., frequency, volume, amplitude, etc.) of the test sound used when testing whether the test sound satisfies the test criteria as incidental information. You may.
  • the first creation unit 25 when the first creation unit 25 creates information regarding the test results, it can create reliability information regarding the reliability of the test results as characteristic information.
  • Reliability is an index that indicates the accuracy or validity of test results, such as a numerical value calculated from a predetermined calculation formula, a rank or classification determined based on that numerical value, or a value used to evaluate reliability. It is expressed by evaluation terms etc.
  • AI for reliability evaluation may be used, more specifically, another AI that evaluates the accuracy or likelihood of test results by AI for testing may be used. .
  • the information creation flow according to the second embodiment is generally the same as the first embodiment.
  • the processor 11 performs a first acquisition step (S041) of acquiring sound data and a second acquisition step (S042) of acquiring video data.
  • the video data alternately records a video of inspecting the product to be inspected and a video of the product being transported, and the sound data includes the inspection sound and the transport sound. Recorded alternately.
  • the processor 11 executes the identification step S043) and identifies the correspondence between the sound and the image frame, the characteristics of the sound, and the sound content included in the sound data. Specify the type, sound source, etc. Furthermore, in the identifying step, it is determined whether the sound source of the sound exists within the angle of view of the corresponding image frame. For a sound source existing within the field of view, device information regarding the focus position (AF point) of the imaging device 20 or the user's line of sight position in the corresponding image frame is acquired, and the distance between the position indicated by the device information and the position of the sound source is calculated. Identify.
  • the ID of the product to be inspected that is the source of the sound is specified, and specifically, the identification information of the product to be inspected is obtained from the above-mentioned sensor and the ID is determined. Identify.
  • the processor 11 After implementing the specifying step, the processor 11 performs a setting step (S044) and sets the degree of importance for each of the plurality of sounds (i.e., test sound and carrier sound) included in the sound data. Further, in the setting step, accuracy is set for each sound or sound source according to the set importance level. At this time, higher importance and accuracy are set for the test sound, and lower importance and accuracy are set for the carrier sound.
  • S044 sets the degree of importance for each of the plurality of sounds (i.e., test sound and carrier sound) included in the sound data.
  • accuracy is set for each sound or sound source according to the set importance level. At this time, higher importance and accuracy are set for the test sound, and lower importance and accuracy are set for the carrier sound.
  • the processor 11 determines, for each of the plurality of sounds whose accuracy has been set in the setting step, whether the accuracy satisfies a predetermined condition, and specifically, whether or not it corresponds to the accuracy with respect to the test sound. (S045). Then, the processor 11 performs an inspection process on the sound whose accuracy satisfies a predetermined condition, that is, the test sound (S046). In the inspection process, it is inspected whether the inspection sound satisfies the inspection criteria, more specifically, whether the inspection sound is an abnormal sound different from the sound of a normal product.
  • the processor 11 executes a creation step (S047) of creating additional information of the video data.
  • sound supplementary information including feature information is created for each of a plurality of sounds from a plurality of sound sources included in the sound data.
  • the creation step sound supplementary information including feature information is created for each of a plurality of sounds from a plurality of sound sources included in the sound data.
  • information about the test results in the test process is created as characteristic information.
  • reliability information regarding the reliability of the test result is further created as additional information of the sound.
  • the product to be inspected its ID (identification information) is specified in the identification process, and the incidental information of the sound including information regarding the inspection result and reliability information is as shown in Figure 19. It is associated with the ID of the target product.
  • the learning accuracy described above can be improved.
  • video files can be selected (annotated) based on the reliability of test results. Thereby, machine learning can be performed while ensuring the reliability of test results, and more valid learning results can be obtained.
  • moving image data and sound data are simultaneously acquired, and these data are included in one moving image file.
  • the video data and sound data may be acquired using separate devices, and each data may be recorded as separate files. In that case, it is preferable to acquire each of the video data and sound data while synchronizing them with each other.
  • the plurality of sounds included in the sound data may include sounds other than non-verbal sounds, that is, linguistic sounds such as human conversation sounds.
  • the accuracy of the supplementary information (incidental information of sounds) created for the speech sounds may be set depending on the importance of the sound source of the speech sounds.
  • the importance and accuracy should be set relatively high. may set the precision in different ways.
  • the incidental information of the video data is created by the imaging device that acquires the video data and the sound data.
  • the present invention is not limited to this, and the supplementary information may be created by a device other than the imaging device, specifically, a PC, a smartphone, a tablet terminal, or the like connected to the imaging device.
  • supplementary information of the video data may be created using a device different from the imaging device.
  • the additional information may be created after acquiring the video data and sound data.
  • the processor included in the information creation device of the present invention includes various types of processors.
  • processors include, for example, a CPU, which is a general-purpose processor that executes software (programs) and functions as various processing units.
  • various types of processors include PLDs (Programmable Logic Devices), which are processors whose circuit configurations can be changed after manufacturing, such as FPGAs (Field Programmable Gate Arrays).
  • various types of processors include dedicated electric circuits, such as ASICs (Application Specific Integrated Circuits), which are processors having circuit configurations specifically designed to perform specific processing.
  • ASICs Application Specific Integrated Circuits
  • one functional unit included in the information creation device of the present invention may be configured by one of the various processors described above.
  • one functional unit included in the information creation device of the present invention may be configured by a combination of two or more processors of the same type or different types, for example, a combination of multiple FPGAs, or a combination of an FPGA and a CPU.
  • the plurality of functional units included in the information creation device of the present invention may be configured by one of various processors, or two or more of the plurality of functional units may be configured by a single processor. It's okay.
  • one processor may be configured by a combination of one or more CPUs and software, and this processor may function as a plurality of functional units.
  • a processor is used that realizes the functions of the entire system including multiple functional units in the information creation device of the present invention with one IC (Integrated Circuit) chip. It may also be in the form of Further, the hardware configuration of the various processors described above may be an electric circuit (Circuitry) that is a combination of circuit elements such as semiconductor elements.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Studio Devices (AREA)

Abstract

音データに含まれる複数の音のそれぞれに関して、その特徴に関する付帯情報を効率よく作成するための情報作成方法、及び情報作成装置を提供する。 本発明の一つの実施形態に係る情報作成方法は、複数の音源からの複数の音を含む音データを取得する第1取得工程と、音源又は音に対して、精度を設定する設定工程と、精度に基づいて、音についての特徴に関する情報を、音データと対応する動画データの付帯情報として作成する作成工程と、を含む。

Description

情報作成方法、及び情報作成装置
 本発明の一つの実施形態は、情報作成方法、及び情報作成装置に関する。
 音源からの音を含む音データと、その音データと対応する動画データとを含む動画ファイルを作成する場合に、音の特徴に関する情報を、動画データの付帯情報として作成することがある。音の特徴としては、例えば、音量、振幅及び周波数等の物理的特徴、音源の種別、並びに、音に基づく判定結果等が挙げられる(例えば、特許文献1参照)。
国際公開第2011/145249号
 音データとして記録される音(特に、環境音等の非言語音)は、多様であり、あらゆる種類の音について、一律に、統一された基準に則って付帯情報を作成する必要はない。この点を踏まえ、音データに含まれる複数の音のそれぞれに関して、音の特徴に関する付帯情報を効率よく作成することが求められている。
 本発明は、音データに含まれる複数の音のそれぞれに関して、その特徴に関する付帯情報を効率よく作成するための情報作成方法、及び情報作成装置を提供することを目的とする。
 上記の目的を達成するために、本発明の一つの実施形態に係る情報作成方法は、複数の音源からの複数の音を含む音データを取得する第1取得工程と、音源又は音に対して、精度を設定する設定工程と、精度に基づいて、音についての特徴に関する情報を、音データと対応する動画データの付帯情報として作成する作成工程と、を含む情報作成方法である。
 また、設定工程では、音又は音源に対して重要度を設定し、重要度に応じた精度を設定してもよい。
 また、音は、非言語音であってもよい。
 また、本発明の一つの実施形態に係る情報作成方法は、複数の画像フレームを含む動画データを取得する第2取得工程を備えてもよい。また、設定工程では、音源が、複数の画像フレームのうち、対応する画像フレームの画角内に存在するか否かに応じて、音源に対する精度を設定するとよい。
 また、本発明の一つの実施形態に係る情報作成方法は、音源が、対応する画像フレームの画角内に存在しない場合に、音が所定の基準を満たすか否かを判定する判定工程を含んでもよい。また、設定工程では、所定の基準を満たす場合の音に対する精度を、所定の基準を満たさない場合に比べて高く設定してもよい。
 また、本発明の一つの実施形態に係る情報作成方法は、音が所定の基準を満たす場合には、撮像装置の撮像レンズが音源の方向に近づくように撮像レンズの向きを変え、又は、音源が画像フレームの画角内に含まれるように撮像装置のズーム倍率を下げる変更工程を含んでもよい。
 また、設定工程では、対応する画像フレームにおける音源に関する画像認識の結果、又は、画像フレームを撮影する撮像装置について画像フレームと関連付けられた装置情報に基づいて、音源に対する精度を設定してもよい。
 また、設定工程では、装置情報に基づいて音源に対する精度を設定してもよい。この場合、装置情報は、画像フレームにおける撮像装置の焦点位置、又は、画像フレームにおける撮像装置のユーザの視線位置に関する情報であるとよい。
 また、作成工程では、付帯情報として、対応する画像フレームの画角内に音源が存在するか否かに関する情報を作成してもよい。
 また、本発明の一つの実施形態に係る情報作成方法は、重要度に応じた精度が所定の条件を満たす場合に、音が検査基準を満たすか否かを検査する検査工程を含んでもよい。この場合、作成工程では、付帯情報として、検査工程での検査結果に関する情報を作成するとよい。
 また、作成工程では、付帯情報として、検査結果の信頼性に関する信頼性情報をさらに作成してもよい。
 また、作成工程では、付帯情報として、重要度に関する重要度情報を作成してもよい。
 また、重要度に応じた精度が第1条件を満たす場合に、作成工程では、音を擬音語としてテキスト化した擬音語情報を、付帯情報として作成してもよい。
 また、重要度に応じた精度が第2条件を満たす場合に、作成工程では、対応する画像フレーム中の音源の状態を擬態語としてテキスト化した擬態語情報を、付帯情報としてさらに作成してもよい。
 また、本発明の一つの実施形態に係る情報作成装置は、プロセッサを備える情報作成装置であって、プロセッサが、複数の音源からの複数の音を含む音データを取得し、プロセッサが、音源又は音に対して、精度を設定し、プロセッサが、精度に基づいて、音についての特徴に関する情報を、音データと対応する動画の付帯情報として作成する。
動画ファイルの説明図である。 動画データと音データに関する図である。 本発明の一つの実施形態に関する情報作成装置の構成例を示す図である。 付帯情報の一例を示す図である。 画角と音源との位置関係についての一例を示した図である。 音源の位置を特定する手順に関する図である。 音源の位置を特定する手順の別例に関する図である。 音の付帯情報に含まれる各種の情報を示す図である。 本発明の第1実施形態に係る情報作成装置の機能に関する図である。 本発明の第1実施形態に係る撮像装置及び雲台の一例を示す図である。 擬音語情報についての説明図である。 擬態語情報についての説明図である。 本発明の第1実施形態に係る情報作成フローを示す図である。 第1実施形態において動画ファイルを作成する具体的場面の一例を示す図である。 作成工程の流れを示す図である。 図13のケースにて作成される音の付帯情報の一例を示す図である。 本発明の第2実施形態に係る情報作成装置の機能に関する図である。 本発明の第2実施形態に係る情報作成フローを示す図である。 第2実施形態において動画ファイルを作成する具体的場面の一例を示す図である。 図18のケースにて作成される音の付帯情報の一例を示す図である。
 本発明の具体的な実施形態について説明する。ただし、以下に説明する実施形態は、本発明の理解を容易にするための一例に過ぎず、本発明を限定するものではない。本発明は、その趣旨を逸脱しない限り、以下に説明する実施形態から変更又は改良され得る。また、本発明には、その等価物が含まれる。
 また、本明細書において、「装置」という概念には、特定の機能を発揮する単一の装置が含まれるとともに、分散して互いに独立して存在しつつ協働(連携)して特定の機能を発揮する複数の装置の組み合わせも含まれることとする。
 また、本明細書において、「者」は、特定の行為を行う主体を意味し、その概念には、個人、家族等のグループ、企業等の法人、及び団体等が含まれる。
 また、本明細書において、「人工知能(AI:Artificial Intelligence)」は、推論、予測及び判断等の知的な機能をハードウェア資源及びソフトウェア資源を使って実現されるものである。なお、人工知能のアルゴリズムは任意であり、例えば、エキスパートシステム、事例ベース推論(CBR:Case-Based Reasoning)、ベイジアンネットワーク又は包摂アーキテクチャ等である。
 <<本発明の一つの実施形態について>>
 本発明の一つの実施形態は、動画ファイルに含まれる動画データの付帯情報を、動画ファイルに含まれる音データに基づいて作成する情報作成方法、及び情報作成装置に関するものである。本発明の一つの実施形態は、また、上記の付帯情報を含む動画ファイルに関する。
 動画ファイルは、図1に示すように、動画データと音データと付帯情報を含む。動画ファイルのファイル形式には、MPEG(Moving Picture Experts Group)-4、H.264、MJPEG(Motion JPEG)、HEIF(High Efficiency Image File Format)、AVI(Audio Video Interleave)、MOV(QuickTime file format)、WMV(Windows Media Video)、及びFLV(Flash Video)等が挙げられる。
 動画データは、ビデオカメラ及びデジタルカメラ等のような公知の撮像装置によって取得される。撮像装置は、画角内の被写体を撮像して画像フレームのデータを一定のフレームレートにて作成し、図2に示すように複数の画像フレームからなる動画データを取得する。本発明の一つの実施形態において、各画像フレームに記録される被写体には、背景(風景)が含まれる。
 なお、動画データ中の各画像フレームに対しては、図2に示すように、フレーム番号(図中、#nと表記:nは自然数)が付与される。
 本発明の一つの実施形態では、複数の音源が音を発する状況を撮像して動画データが作成されることとする。詳しくは、動画データに含まれる各画像フレームには、少なくとも一つの音源が記録され、動画データ全体には、複数の音源が記録される。音源は、音を発する物であり、具体的には、動物、植物、機械、機器、楽器、道具、サイレン及び警鐘等の装置、乗物、山及び海等のような自然物(環境)、爆発等の事故、並びに、雷又は風雨等の自然現象等である。なお、音源には、人が含まれていてもよい。
 音データは、動画データと対応するように音を記録したデータである。具体的に説明すると、音データは、動画データに記録された複数の音源からの音を含む。すなわち、音データは、動画データの取得中(つまり、撮像中)に各音源からの音を、撮像装置に内蔵又は外付けされたマイク等により収音することで取得される。本発明の一つの実施形態において、音データに含まれる音は、主として非言語音であり、例えば機械の作動音、乗物の音、滝等のような自然物の音、動物の鳴き声、事故の音、自然現象の音、及びノイズ等である。また、音データに含まれる音には、人の笑い声、泣き声及び驚く声等のような感情音、並びに、人の動作に起因して発生する音等が含まれてもよい。
 本発明の一つの実施形態では、動画データと音データとが互いに同期しており、動画データ及び音データの取得は、同じタイミングで開始され、同じタイミングで終了するものとする。つまり、本発明の一つの実施形態では、音データと対応する動画データが、音データの取得期間と同じ期間に取得される。
 付帯情報は、動画ファイルに設けられたボックス領域に記録可能な、動画データに関する情報である。付帯情報には、例えば、Exif(Exchangeable image file format)形式のタグ情報、具体的には、撮影日時、撮影場所及び撮影条件等に関するタグ情報が含まれる。
 また、本発明の一つの実施形態に係る付帯情報は、図1に示すように、動画データに記録された映像に関する付帯情報(以下、映像の付帯情報)と、音データに含まれる音に関する付帯情報(以下、音の付帯情報)とを含む。映像の付帯情報には、映像中の被写体に関する付帯情報(以下、被写体の付帯情報)が含まれる。
 付帯情報については、後の項で詳しく説明する。
 付帯情報を有する動画ファイルは、例えば、音認識用の機械学習において教師データとして利用することができる。この機械学習により、入力映像中の音を認識し、その認識結果を出力する学習モデル(以下、音認識モデル)を構築することができる。
 また、本発明の一つの実施形態では、動画ファイルが含む音データには、一つ以上の非言語音が含まれる。この場合、上記の動画ファイルを教師データとして用いて機械学習を行うことにより、非言語音を認識して音の種別等を識別するための音認識モデルを構築することができる。
 <<本発明の一つの実施形態に係る情報作成装置の構成例>>
 本発明の一つの実施形態に係る情報作成装置(以下、情報作成装置10)は、図3に示すように、プロセッサ11、メモリ12及び通信用インタフェース13を備える。
 プロセッサ11は、例えば、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)、又はTPU(Tensor Processing Unit)等によって構成される。
 メモリ12は、例えば、ROM(Read Only Memory)及びRAM(Random Access Memory)等の半導体メモリ等によって構成される。メモリ12には、動画データの付帯情報を作成するためのプログラム(以下、情報作成プログラム)が格納されている。情報作成プログラムは、後に説明する情報作成方法の各工程をプロセッサ11に実施させるためのプログラムである。
 なお、情報作成プログラムは、コンピュータが読み取り可能な記録媒体から読み込むことで取得されてもよいし、インターネット又はイントラネット等の通信網を通じてダウンロードすることで取得されてもよい。
 通信用インタフェース13は、例えば、ネットワークインタフェースカード又は通信インタフェースボード等によって構成される。情報作成装置10は、通信用インタフェース13を通じて他の機器と通信し、その機器との間でデータを送受信することができる。
 情報作成装置10は、図3に示すように入力機器14及び出力機器15をさらに備える。入力機器14は、タッチパネル及びカーソルボタン等のようなユーザ操作を受け付ける機器と、マイク等のような音の入力を受け付ける機器とを含む。出力機器15は、ディスプレイ等のような表示機器と、スピーカ等のような音響機器とを含む。
 また、情報作成装置10は、ストレージ16内に記憶された各種のデータに自由にアクセス可能である。ストレージ16に記憶されたデータには、付帯情報を作成するために必要なデータが含まれる。具体的には、音データに含まれる音の音源を特定するためのデータ、及び、動画データに記録された被写体を識別するためのデータ等がストレージ16に記憶されている。
 なお、ストレージ16は、情報作成装置10に内蔵又は外付けされてもよく、若しくはNAS(Network Attached Storage)等によって構成されてもよい。あるいは、ストレージ16が、情報作成装置10とインターネット又はモバイル通信網を通じて通信可能な外部機器、例えばオンラインストレージでもよい。
 本発明の一つの実施形態において、情報作成装置10は、図3に示すように、ビデオカメラ等のような撮像装置に搭載される。情報作成装置10を備える撮像装置(以下、撮像装置20と称する)のメカ構成は、動画データ及び音データを取得する機能を有する公知の撮像装置と略共通する。また、撮像装置20は、内部時計を備え、撮像中の各時点の時刻を記録する機能を有する。これにより、動画データの各画像フレームの撮像時刻を特定して記録することができる。
 なお、撮像装置20は、デジタルカメラ等のように持ち運び可能なものでもよく、あるいは、監視カメラ又は定点カメラ等のように所定位置に固定されて用いられるものでもよい。
 撮像装置20は、図3に示すように撮像レンズ20Lを備え、撮像レンズ20Lにより画角内の被写体を結像し、被写体を記録した画像フレームを一定のフレームレートにて作成して、動画データを取得する。また、撮像装置20は、撮像中、装置周辺の音源からの音をマイク等によって収音して音データを取得する。さらに、撮像装置20は、取得した動画データ及び音データに基づいて付帯情報を作成し、動画データと音データと付帯情報とを含む動画ファイルを作成する。
 撮像装置20は、撮像中、画角内の所定位置に自動的に合焦するオートフォーカス(AF)機能、及び、焦点位置(AFポイント)を特定する機能を備えてもよい。AFポイントは、画角内の基準位置を原点とした場合の座標位置として特定される。画角は、画像が表示又は描画されるデータ処理上の範囲であり、その範囲は、互いに直交する2つの軸を座標軸とする二次元座標空間として規定される。
 撮像装置20は、図3に示すように、撮像中にユーザ(すなわち、撮影者)が覗き込むファインダ20Fを備えてもよい。この場合、撮像装置20は、ファインダ使用中のユーザの視線及び瞳のそれぞれの位置を検出してユーザの視線位置を特定する機能を備えてもよい。ユーザの視線位置は、ファインダ20F内を覗き込んでいるユーザの視線と、ファインダ20F内の表示画面との交点位置に相当する。
 撮像装置20は、赤外センサ等の公知の距離センサを搭載してもよく、この場合には、距離センサにより、奥行方向における画角内の被写体の距離(深度)を測定可能である。
 撮像装置20は、GPS(Global Positioning System)又はGNSS(Global Navigation Satellite System)用のセンサを搭載してもよい。この場合には、上記センサの機能により、撮像装置20の所在位置(緯度及び経度)を測定することが可能である。
 撮像装置20は、撮像中、雲台に支持された状態で利用されてもよい(図9B参照)。雲台は、撮像装置20を支持する姿勢を変更可能な構造であり、姿勢変更用の機構と、その制御回路とを備えてもよい。この場合、撮像装置20は、通信用インタフェース13を通じて上記の制御回路と通信し、制御回路を介して雲台の姿勢を制御してもよい。これにより、撮像中、撮像装置20からの指令信号に基づき、撮像レンズ20Lの向きを変えて画角を変更させることができる。
 <<付帯情報について>>
 本発明の一つの実施形態では、撮像装置20に搭載された情報作成装置10の機能により、動画データの付帯情報が作成される。作成された付帯情報は、動画データ及び音データに付帯されて動画ファイルの構成要素となる。
 付帯情報は、例えば、撮像装置20が動画データ及び音データを取得している間(つまり、撮像中)、画像フレームと対応付けて作成される。
 本発明の一つの実施形態では、動画データに基づいて被写体の付帯情報を作成し、音データに基づいて音の付帯情報を作成する。被写体の付帯情報、及び音の付帯情報は、互いに関連付けられて作成される。詳しく説明すると、それぞれの付帯情報は、図4に示すように、動画データに含まれる複数の画像フレームのうち、2以上の画像フレームと対応付けられて作成される。具体的には、音の付帯情報は、その音の発生中に撮像された2以上の画像フレームと対応付けて作成される。被写体の付帯情報は、音の付帯情報と対応付けられた2以上の画像フレームと対応付けて作成される。
 なお、音の付帯情報と2以上の画像フレームとの対応関係に関する情報(以下、対応情報)が、付帯情報として作成されるとよい。対応情報は、音の発生期間の開始時点及び終了時点の各々の該当時刻、あるいは、図4に示すように、開始時点及び終了時点の各々で撮像された画像フレームのフレーム番号に関する情報である。
 被写体の付帯情報は、動画データを構成する画像フレームの画角内に存在する被写体に関する情報であり、例えば、図4に示すように、被写体の種別に関する情報を含む。被写体の種別は、被写体の形態的属性に基づく種類であり、具体的には、物又は事象等の一般名称である。
 被写体の種別を特定する手法は、特に限定されないが、画像フレームにおいて被写体が存在する領域の特徴から、公知の被写体認識技術及び画像処理技術によって被写体の種別を特定してもよい。被写体が存在する領域の特徴としては、その領域の色相、彩度、輝度、形状、大きさ、及び画角内における位置等が挙げられる。
 また、被写体が音源であり、且つ所定の条件が成立した場合には、被写体の付帯情報として、音源である被写体の状態を擬態語としてテキスト化した擬態語情報が作成される。擬態語情報は、画像フレームにおいて被写体が存在する領域の特徴から、公知の被写体認識技術及び画像処理技術によって被写体の状態を特定することで作成される。被写体の状態をテキスト化する機能は、人工知能(AI)、詳しくは、被写体の状態を入力した場合に擬態語を出力する学習モデルによって実現される。
 ここで、擬態語としてテキスト化される被写体の状態には、被写体の外観、形態(様態)、表面の特性、姿勢、動き、動作、様子、速度、及び表情等が含まれる。また、擬態語には、人又は物の状態を模倣的に表す言語、具体的には、動き又は様子等を表す擬態語、動作又は様態等を表す擬態語(擬容語)、及び、表情又は心情等を表す擬態語(擬情語)が含まれる。
 画像フレーム内に複数の被写体が存在する場合、被写体の付帯情報は、それぞれの被写体について作成されてもよく、あるいは、一部の被写体(例えば、主要被写体)に限定して作成されてもよい。
 音の付帯情報は、動画データに記憶される音源からの音に関する情報であり、特に、音源が発する非言語音に関する情報である。音の付帯情報は、音源が音を発する度に作成される。換言すると、図4に示すように、音データに含まれる音源からの複数の音のそれぞれに対して、音の付帯情報が音毎に作成される。
 音の付帯情報は、図4に示すように、音についての特徴に関する特徴情報を含む。音についての特徴は、その音の性質及び特性、音に対する評価結果、音の内容を表現する言語、音がもたらす効果及び影響、並びに、その他の音に関する項目である。具体的には、音の周波数、卓越周波数(フォルマント成分)、振幅、音量(音圧)、音の波形、音をテキスト化したテキスト情報、及び音を模倣して表現した言語(擬音語)等が音についての特徴に相当する。
 また、音の種別及び音源の種類は、音についての特徴に相当する。音の種別は、どのような音であるか、ノイズ音であるか否か、あるいは、どのようなシーンにおける音であるかを表す。音源の種類は、音源の形態的属性に基づく種類であり、具体的には、音を発する物、人又は事象等の一般名称である。
 本発明の一つの実施形態において、特徴情報は、音、又はその音を発する音源に対して設定される精度に応じて作成される。精度とは、特徴情報として作成する情報の詳しさの度合い(精細度)を表す概念である。より高い精度が設定された音又は音源に対しては、より詳細な特徴情報が作成され、例えば、より多くの項目に関する特徴情報が作成される。
 なお、精度の概念には、特徴情報を作成する/しないの選択が含まれ得る。
 また、精度は、音又は音源の重要度に応じて設定される。重要度は、「高・中・低」のような段階又はランク等によって表されてもよく、あるいは数値によって表されてもよい。
 音の重要度は、音の目立ち度合いであり、具体的には、音の特徴が際立っている度合いである。音の重要度は、音量及び周波数等の音の物理的性質に基づいて設定され、例えば、音量が大きくなるほど、重要度が高く設定される。
 また、音の重要度は、音の種別に基づいて設定されてもよい。音の種別は、どのような音であるかを表す概念であり、例えば、警告音等のように突然発せられた音であるか、環境音であるか、ノイズ音であるか、及び、爆発音等のような異質で特徴的な音であるか等である。特徴的な音に対しては、通常、重要度を高く設定するのがよく、ノイズ音又は環境音に対しては、通常、重要度を低く設定するのがよい。ただし、環境音に関しては、その音源が主要被写体になる場合があり(例えば、電車を撮影している場合の電車の走行音等)、その場合には、環境音であっても重要度を高く設定してもよい。
 なお、音の種別を特定する手段として、音認識用のAIを利用してもよい。また、音の重要度は、重要度設定用のAI、詳しくは、音データを入力した際に音データに含まれる音の重要度を出力する学習モデルによって設定してもよい。
 音源の重要度は、動画データにおいて音源が及ぼす影響の度合いであり、例えば、音データ及び動画データに基づいて設定される。具体的には、音源の重要度は、その音源が対応する画像フレームの画角内に存在するか否かに応じて設定される。具体的に説明すると、画角内に被写体として存在する音源は、撮像対象として選択されているため、ユーザにとって重要である可能性が高い。その事を踏まえて、画角内に存在する音源、又は音源から発せられる音に対しては、一般的により高い重要度が設定される。
 音源が画角内に存在するか否かを判定する方法について、図5に示すケースを例に挙げて説明する。図5では、画角の外で爆発音が発生している状況を表している。図5中、点線にて囲んだ範囲は、画角(撮影画角)のエリアを表している。
 音源が画角内に存在するか否かを判定するには、先ず、音データから音の種別を特定する。その後、動画データ中、音が発生した時点の画像フレームに映る被写体に、音の種別と対応する音源が存在するかを判定する。図5のケースでは、爆発音の音源(つまり、爆発箇所)が、画像フレームにおける被写体として記録されていないため、画角の外に存在すると判定される。
 なお、音データから音の種別を特定する前段階で、音が発生した時点での被写体(音源)が画像フレーム内に存在するか否かを判定してもよい。
 なお、音源が画角内に存在するか否かを判定する方法は、上記の方法に限定されない。例えば、公知の音源探索技術を利用して音源の位置を特定し、特定された音源の位置から、音源が画角内に存在するか否かを判定してもよい。その場合、収音用のマイクとして指向性マイクを利用し、指向性マイクの収音方向から音源の位置を特定して、音源が画角内に存在するか否かを判定する。また、指向性マイクは、複数のマイク要素を組み合わせて180°以上の広範囲(好ましくは、360°)の音を集音し、集音された各音の方向を判断可能なマイクであると好ましい。
 画像フレームの画角内に音源が存在する場合、音源の重要度は、画像フレームにおける音源に関する画像認識の結果に基づいて設定されてもよい。具体的には、画角に対する音源のサイズ、及び音源の種類等に基づいて重要度を設定してもよい。この場合、例えば、サイズが大きいほど重要度を高く設定してもよい。また、音源が人である場合には、重要度を比較的低く設定し、音源が物である場合には、重要度を比較的高く設定してもよい。このように音源に関する画像認識の結果に基づいて音源の重要度を設定することで、設定された重要度の妥当性が高められる。
 なお、音源の種類を特定する手段として、音源特定用のAIを利用してもよい。
 また、画像フレームの画角内に音源が存在する場合、音源の重要度は、その画像フレームを撮影する撮像装置20について当該画像フレームと関連付けられた装置情報に基づいて設定されてもよい。装置情報は、例えば、画像フレームにおける撮像装置20の焦点位置(AFポイント)、又は、画像フレームにおける撮像装置20のユーザの視線位置(詳しくは、視線検出センサ付きのファインダを用いて検出したユーザの視線位置)に関する情報である。
 装置情報に基づいて重要度を設定する際には、画角内における音源の位置と焦点位置との距離、あるいは、音源の位置と視線位置との距離を特定し、距離が小さいほど、重要度を高く設定するとよい。これは、焦点位置又は視線位置に近いほど、ユーザにとって重要な被写体である傾向にあることを反映している。このように撮像装置20の装置情報に基づいて重要度を設定することにより、設定された重要度の妥当性が高められる。特に、装置情報として、撮像装置20の焦点位置、又はユーザの視線位置を用いた場合には、上記の理由により、より妥当な重要度を設定することができる。
 なお、画角内における音源の位置を特定する方法については特に限定されないが、例えば、図6に示すように、画角において、音源の一部又は全体を囲む領域(以下、音源領域)を規定する。そして、音源領域が矩形領域である場合には、その領域の縁において対角線の両端に位置する2つの交点(図6にて白丸及び黒丸で示す点)の座標を、音源の位置(座標位置)として特定するとよい。一方、例えば、図7に示すように音源領域が円形領域である場合には、その領域の中心(基点)の座標、及び、基点から領域の縁までの距離(つまり、半径r)によって音源の位置を特定するとよい。なお、音源領域が矩形である場合にも、その領域の中心(対角線の交点)の座標、及び中心から縁までの距離によって音源の位置を特定してもよい。
 また、音源の位置に基づいて重要度を設定する際には、音源の距離(深度)を参照し、音源の位置及び距離の双方に基づいて重要度を設定してもよい。
 また、画像フレームの画角の外に音源が存在する場合、音源の重要度は、動画データに記録される映像のシーン又はイベント等に基づいて設定されてもよい。具体的には、動画データに基づいて、重要なシーン又はイベント等を認識し、認識されたシーン又はイベント等と、画角外の音源が発する音との関連性に基づいて重要度を設定してもよい。例えば、動画データに「お祭り」のシーンが記録されているケースにおいて、お祭りの太鼓音が音データに記録されている一方で、その音源である太鼓が画角外にある場合、音源(太鼓)の重要度は、比較的高く設定される。また、前述の図5に示すシーンにおいて、爆発音のような特異な音については、その音源が画角外に存在しても、爆発音の重要度は、比較的高く設定される。
 なお、シーン又はイベント等を認識する際には、撮像装置20に備えられたGPS用のセンサによって撮像装置20の所在位置を特定し、その所在位置に基づいて、シーン又はイベント等を割り出してもよい。
 重要度の設定方法については、上記の方法に限定されず、例えば、音又は音源の重要度は、ユーザによって指定されてもよい。これにより、音の付帯情報、より詳しくは、付帯情報を作成する際の精度にユーザの意向を反映させることができる。
 以上の要領で音又は音源の重要度が設定されると、その音又は音源に対して、重要度に応じた精度が設定される。具体的には、重要度が高いほど、より詳しい精度が設定される。そして、精度が設定された音又は音源に関して、その音についての特徴情報が、精度に応じて作成される。例えば、重要度がより高い音については、より高い精度にて特徴情報が作成される。反対に、重要度がより低い音については、精度を下げて特徴情報が作成される。この結果、音データに含まれる複数の音のそれぞれについて、統一された精細度又は情報量で特徴情報を作成する場合に比較して、より効率よく特徴情報を作成することができる。
 また、特徴情報が付帯情報として作成されることにより、付帯情報を含む動画ファイルを教師データとして用いて機械学習を実施する場合に、特徴情報を利用することができる。具体的には、教師データとして動画ファイルを選別(アノテーション)する際に、動画ファイルに含まれる特徴情報を利用することができる。
 また、音データに含まれる音、又はその音源に対して精度を設定し、精度に応じて特徴情報が作成されることにより、より適切に動画ファイルを選別することができる。すなわち、音データに含まれる音について、精度に応じた特徴情報が作成されることで、例えば、重要な音については、より詳しい特徴情報が作成されるため、その特徴情報を踏まえて、アノテーションを行うことができる。
 また、図4に示すように、音又は音源に対して設定された重要度に関する重要度情報を、音の付帯情報として作成してもよい。この場合には、動画ファイルを教師データとして用いて機械学習を実施する際に、その動画ファイルに含まれる付帯情報としての重要度情報を利用することができる。具体的には、機械学習の実施に際して、重要度情報に基づいて、より重要度が高い音のデータを抽出し、その音についての特徴情報等を用いて機械学習を実施することができる。
 また、音源に対して重要度を設定するにあたり、音源の位置及び距離(深度)を特定した場合には、音源の位置及び距離(深度)に関する情報を、音の付帯情報としてさらに作成してもよい。
 また、音データに含まれる音の音源が、その音と対応する画像フレームの画角内に存在するか否かを判定し、その判定結果に関する情報(以下、存否情報)を、図4に示すように、音の付帯情報としてさらに作成してもよい。この場合には、動画ファイルに含まれる存否情報に基づいて、教師データとして用いる動画ファイルを選別(アノテーション)することができる。
 また、図4に示すように、音データに含まれる音の音源の種類に関する情報(以下、種類情報)を、音の付帯情報として作成してもよい。この場合、動画ファイルに付帯情報として含まれる種類情報に基づいて、所望の動画ファイルを検索することができる。つまり、付帯情報としての種類情報は、動画ファイルを検索する際の検索キーとして活用することができる。
 また、重要度が高い音又は音源については、図8に示すように、その音を擬音語としてテキスト化した擬音語情報を、音の付帯情報(詳しくは、上述した特徴情報の一つ)として作成してもよい。擬音語情報は、音データに含まれる音(非言語音)に対して公知の音認識技術を適用し、音の発音から尤もらしい言葉を割り当てることで作成される。音をテキスト化する機能は、人工知能(AI)、詳しくは、音を入力した場合に擬音語を出力する学習モデルによって実現される。
 なお、擬音語には、人の笑い声及び動物の鳴き声等のような擬声語(音声を模倣して表した言葉)が含まれる。
 非言語音をテキスト化した擬音語情報を付帯情報として作成することにより、動画ファイルの有用性がより向上する。つまり、擬音語情報を含む動画ファイルを教師データとして機械学習を実施することにより、非言語音と擬音語情報との関係を学習し、より正確な音認識モデルを構築することができる。
 また、擬音語情報を作成する場合には、その擬音語の種類(例えば、人の笑い声であるか、あるいは動物の鳴き声であるか等)に関する情報を併せて作成してもよい(図10参照)。なお、重要度が低い音又は音源については、負荷軽減の観点から、擬音語情報を作成しなくてもよいが、これに限定されず、擬音語情報を作成してもよい。
 本発明の一つの実施形態において、音の付帯情報は、図8に示すように、リンク先情報及び権利関係情報をさらに含んでもよい。
 リンク先情報は、動画ファイルの音データと同じ音データが別ファイル(音声ファイル)として作成される場合に、その音声ファイルの記憶先(保存先)へのリンクを示す情報である。なお、動画ファイルの音データには複数の音源からの音が記録されているため、音声ファイルは、音源毎に作成されてもよい。その場合には、音声ファイル毎に(つまり、音源毎に)、リンク先情報が付帯情報として作成される。
 権利関係情報は、音データに含まれる音に関する権利の帰属、及び、動画データに関する権利の帰属に関する情報である。例えば、複数の演奏家が順番に演奏するシーンを撮像して動画ファイルを作成した場合、動画データの権利(著作権)は、動画ファイルの作成者(つまり、撮影者)に帰属する。一方、音データに記録された複数の演奏家のそれぞれの音(演奏音)に関する権利は、各演奏家又はその所属団体等に帰属する。この場合、これらの権利の帰属関係を規定した権利関係情報が付帯情報として作成される。
 <<情報作成装置の機能について>>
 本発明の一つの実施形態(以下、第1実施形態)に係る情報作成装置10の機能について、図9Aを参照しながら説明する。
 第1実施形態に係る情報作成装置10は、図9Aに示すように、取得部21、特定部22、判定部23、設定部24、第1作成部25、第2作成部26、及び変更部27を有する。これらの機能部は、情報作成装置10のハードウェア機器(プロセッサ11、メモリ12、通信用インタフェース13、入力機器14、出力機器15及びストレージ16)と、前述の情報作成プログラムを含むソフトウェアとの協働によって実現される。また、一部の機能については、人工知能(AI)を利用して実現される。以下、各機能部について説明する。
 (取得部)
 取得部21は、撮像装置20の各部を制御して、動画データ及び音データを取得する。第1実施形態では、複数の音源が音(非言語音)を発している間に、取得部21が、動画データ及び音データを同期させながら、これらのデータを同時に作成する。具体的には、取得部21は、一つの画像フレームに少なくとも一つの音源が記録されるように、複数の画像フレームからなる動画データを取得する。また、取得部21は、動画データに含まれる複数の画像フレームに記録された複数の音源からの複数の音を含む音データを取得する。この際、それぞれの音は、複数の画像フレームのうち、その音の発生期間に取得された2以上の画像フレームと対応付けられる(例えば、図4参照)。
 (特定部)
 特定部22は、取得部21により取得された動画データ及び音データに基づいて、音データに含まれる音に関する内容を特定する。
 具体的に説明すると、特定部22は、音データに含まれる複数の音のそれぞれについて、音と画像フレームとの対応関係を特定し、詳しくは、それぞれの音の発生期間に取得された2以上の画像フレームを特定する。
 また、特定部22は、それぞれの音について、特徴(音量、音圧、振幅、周波数、及び音の種別等)及び音源を特定する。
 また、特定部22は、音の音源が対応する画像フレームの画角内に存在するか否かを特定する。ここで、対応する画像フレームとは、動画データに含まれる複数の画像フレームのうち、音源が音を発した時点で撮像された画像フレームである。
 また、音源が画角内に存在する場合、特定部22は、画角内における音源の位置及び距離(深度)を特定する。この場合、特定部22は、対応する画像フレームにおける音源に関する画像(詳しくは、音源領域)を認識し、画像認識の結果として、音源のサイズ、及び音源の種類等を特定する。さらに、特定部22は、対応する画像フレームにおける撮像装置20の焦点位置(AFポイント)又はユーザの視線位置に関する装置情報を取得し、これらの位置と音源の位置との距離(間隔)を特定する。
 (判定部)
 判定部23は、音源が対応する画像フレームの画角内に存在しない場合に、特定部22により特定された特徴に基づき、当該音源からの音が所定の基準(以下、判定基準)を満たすか否かを判定する。判定基準は、画角外の音源からの音に対して設定された基準であり、例えば、音量が一定レベル以上であるか、特定の周波数帯域の音であるか、音が異質で特徴的な音であるか等である。
 なお、判定基準は、撮像装置20側で予め設定されてもよく、あるいはユーザによって設定されてもよい。
 (設定部)
 設定部24は、音データに含まれる複数の音源からの複数の音のそれぞれ、又は、それぞれの音の音源に対して、重要度を設定する。
 音源に対して重要度を設定する場合、設定部24は、音源が対応する画像フレームの画角内に存在するか否かに基づいて重要度を設定する。
 また、音源が画角内に存在する場合、設定部24は、画像フレームにおける音源に関する画像認識の結果、すなわち、特定部22により特定された音源のサイズ及び音源の種類等に基づいて音源の重要度を設定する。
 さらに、音源が画角内に存在する場合には、設定部24は、装置情報から撮像装置20の焦点位置又はユーザの視線位置を特定し、特定された位置と音源の位置との距離に基づいて音源の重要度を設定してもよい。
 また、音源が画角内に存在しない場合、設定部24は、判定部23による判定結果に基づき、当該音源からの音に対して重要度を設定する。具体的に説明すると、設定部24は、例えば、判定基準を満たす音に対し、判定基準を満たさない場合よりも高い重要度を設定する。画角外の音源からの音に対しては、一般的に重要度が低く設定されるが、爆発音のような特徴的な音が判定基準を満たす場合においては、例え画角外の音源からの音であっても、ユーザにとって重要な音となり得る。第1実施形態では、その点を考慮し、画角外の音源からの音に対して、判断基準の成否に応じて適切に重要度を設定することができる。
 そして、設定部24は、それぞれの音又は音源に対して、設定された重要度に応じて精度を設定する。具体的には、より高い重要度が設定された音又は音源に対しては、より高い精度を設定し、より低い重要度が設定された音又は音源に対しては、より低い精度を設定する。
 (第1作成部)
 第1作成部25は、音データに含まれる複数の音源からの複数の音のそれぞれについて、特定部22によって特定された特徴に基づき、特徴情報を作成する。この際、第1作成部25は、設定部24が音又はその音源に対して設定した精度に基づいて特徴情報を作成し、具体的には、精度に応じた詳しさ(精細度)にて特徴情報を作成する。
 また、第1作成部25は、特定部22により特定された音と画像フレームとの対応関係に基づき、その対応関係に関する対応情報を作成する。
 また、第1作成部25は、音データに含まれる複数の音源からの複数の音のそれぞれについて、設定部24が音又はその音源に対して設定した重要度に関する重要度情報を、音の付帯情報として作成する。
 また、特定部22が、対応する画像フレームの画角内に音源が存在するか否かを特定した場合、第1作成部25は、画角内における音源の存否に関する存否情報を、音の付帯情報としてさらに作成する。
 また、画角内の音源の種類が特定部22によって特定された場合、第1作成部25は、音源の種類に関する種類情報を、音の付帯情報としてさらに作成する。
 また、第1作成部25は、音又はその音源の重要度に応じて設定された精度が所定の条件(以下、第1条件)を満たす場合に、その音を擬音語としてテキスト化した擬音語情報を、音の付帯情報として作成することができる。例えば、図10に示すように、音データに含まれる音が犬の鳴き声であり、その音の重要度に応じて設定された精度が第1条件を満たす場合に、第1作成部25は、「わんわん」という擬音語情報を作成する。この際、第1作成部25は、図10に示すように、擬音語の種類に関する付帯情報を併せて作成してもよい。
 第1条件は、擬音語情報を作成すべき精度に該当することであり、例えば、一定以上の重要度に応じた精度に該当することである。
 なお、音には、雨音のように長時間に亘って続く音、あるいは、サイレンのように一定時間繰り返して鳴る音が含まれ得る。そのような音については、当該音の発生期間分の擬音語情報をすべて作成する必要はなく、例えば、一定間隔(具体的には、数百フレームに1回の頻度)で擬音語情報を作成するとよい。つまり、音(非言語音)の種類に応じて、付帯情報を作成する頻度を変えるとよい。
 (第2作成部)
 第2作成部26は、動画データに含まれる画像フレームの画角内に存在する被写体について、付帯情報(被写体の付帯情報)を作成する。第1実施形態では、音又は音源に対して設定された重要度に応じた精度が所定の条件(以下、第2条件)を満たした場合、第2作成部26は、その音の音源について擬態語情報を作成する。擬態語情報は、対応する画像フレーム中の音源の状態に関する情報である。例えば、図11に示すように、画角内の音源が笑っている人であり、その音の重要度に応じて設定された精度が第2条件を満たす場合に、第2作成部26は、「にこにこ」という擬態語情報を作成する。この際、第2作成部26は、図11に示すように、擬態語としてテキスト化された人の感情の種類に関する付帯情報を併せて作成してもよい。
 なお、音源の状態について擬態語情報を作成する手法としては、例えば、公知の画像解析技術を用いて動画から音源の状態を特定し、特定した状態と対応する擬態語をAIによって付与してもよい。
 第2条件は、擬態語情報を作成すべき精度に該当することであり、例えば、一定以上の重要度に応じた精度に該当することである。精度が第2テキスト条件を満たす音源は、例えば、対応する画像フレーム内の主要被写体であってもよい。主要被写体としては、画像フレームにおいて最もサイズが大きい被写体、あるいは焦点位置又はユーザの視線位置に最も近い被写体等が該当する。
 以上のように、第2作成部26の機能によれば、音源の状態を言語(擬態語)で表す擬態語情報を付帯情報として作成することができる。これにより、動画ファイルの有用性がより向上する。具体的には、擬態語情報を含む動画ファイルを教師データとして機械学習を実施することで、被写体(詳しくは、音源)の映像が入力された際に当該映像に基づく擬態語を出力する学習モデルを構築することができる。
 また、音源が動いた場合には、第2作成部26は、動画データが示す動画から音源の動きを検出し、その動きを表す擬態語情報を付帯情報として作成してもよい。特に、動画内で被写体である音源が大きく動くなど、音源の動きが所定の条件を満たした場合に、擬態語情報を作成するのがよい。
 (変更部)
 変更部27は、雲台を制御して撮像装置20の撮像レンズ20Lの向きを変えたり、撮像装置20のズーム倍率を変えたりする。具体的に説明すると、音源が対応する画像フレームの画角内に存在しない場合には、前述したように、判定部23が、当該音源からの音が判定基準を満たすか否かを判定する。そして、音が判定基準を満たす場合、変更部27は、撮像レンズ20Lが当該音源の方向に近づくように(つまり、音源を向くように)撮像レンズ20Lの向きを変える。あるいは、変更部27は、当該音源が画像フレームの画角内に含まれるように撮像装置20のズーム倍率を下げる。
 なお、雲台は、撮像レンズ20Lの向きを変更可能な構造であれば特に限定されず、図9Bに示す雲台33が一例として挙げられる。この雲台33は、撮像装置20の本体を収容する筐体32を、3軸方向(ロール、ピッチ、及びヨーの各方向)に移動させることが可能な3軸移動機構である。筐体32、及び3軸移動機構である雲台33の構成については、公知の構成であり、また、撮像装置20、筐体32及び雲台33は、図9Bに示すように、ドーム状のカバー31によって覆われる構成でもよい。
 上述した変更部27の機能により、爆発音のような特徴的な音が発生した際に、その音源が対応する画像フレームの画角内に存在しない場合には、その音源を含むように画角を変更することができる。これにより、画角外で発生した特徴的な音について、その音源(音の発生箇所)の映像を記録しておくことができる。
 なお、変更部27によって変更された撮像レンズ20Lの向き及びズーム倍率(換言すると、変更後の画角)は、所定期間、具体的には、判定基準を満たす音が発生している間には維持されるのがよい。また、撮像レンズ20Lの向き及びズーム倍率は、変更後の設定内容にて所定期間維持された後には、変更前の設定内容に戻ってもよい。
 <<本発明の一つの実施形態に係る情報作成フローについて>>
 次に、情報作成装置10を用いた情報作成フローについて説明する。以下に説明する情報作成フローでは、本発明の情報作成方法が用いられる。つまり、以下に説明する情報作成フロー中の各ステップは、本発明の情報作成方法の構成要素に相当する。
 なお、下記のフローは、あくまでも一例であり、本発明の趣旨を逸脱しない範囲において、フロー中の不要なステップを削除したり、フローに新たなステップを追加したり、フローにおける2つのステップの実行順序を入れ替えてもよい。
 情報作成フロー中の各ステップ(工程)は、情報作成装置10が備えるプロセッサ11によって実行される。つまり、情報作成フロー中の各工程において、プロセッサ11は、情報作成プログラムによって規定されたデータ処理のうち、各工程と対応する処理を実行する。
 第1実施形態に係る情報作成フローは、図12に示す流れに従って進行する。本フローでは、動画データ及び音データを取得し、動画データの付帯情報を作成して動画ファイルを作成する。
 情報作成フローでは、プロセッサ11が、複数の音源からの複数の音を含む音データを取得する第1取得工程(S001)と、複数の画像フレームを含む動画データを取得する第2取得工程(S002)とを実施する。
 なお、図12に示すフローでは、第1取得工程の後に第2取得工程が実施されることになっているが、例えば、撮像装置20を用いて音付きの動画を撮像する場合、第1取得工程及び第2取得工程を同時に行うことになる。
 第1取得工程及び第2取得工程の実施期間中、プロセッサ11は、特定工程S003)を実施する。特定工程では、音データに含まれる音に関する内容を特定し、具体的には、音と画像フレームとの対応関係、音の特徴、音の種別、及び音源等を特定する。
 また、特定工程では、音の音源が対応する画像フレームの画角内に存在するか否かを特定する。画角内に存在する音源については、その音源の画角内における位置及び距離(深度)、音源のサイズ及び種類等をさらに特定する。
 画角内に音源が存在する場合には、対応する画像フレームにおける撮像装置20の焦点位置(AFポイント)又はユーザの視線位置に関する装置情報を取得し、装置情報が示す位置と音源の位置との距離を特定する。
 特定工程において、音源が対応する画像フレームの画角内に存在することが特定された場合(S004でYes)、プロセッサ11は、設定工程(S008)へ移行する。
 一方、音源が対応する画像フレームの画角内に存在しない場合(S004でNo)、プロセッサ11は、判定工程(S005)を実施する。判定工程では、特定工程にて特定された特徴に基づき、画角外の音源からの音が判定基準を満たすか否かを判定する。
 そして、音が判定基準を満たす場合(S006でYes)、プロセッサ11は、変更工程(S007)を実施する。変更工程では、撮像装置20の撮像レンズ20Lが上記の音源の方向に近づくように撮像レンズ20Lの向きを変え、又は、上記の音源が画像フレームの画角内に含まれるように撮像装置20のズーム倍率を下げる。
 変更工程の実施後、プロセッサ11は、設定工程(S008)へ移行する。
 設定工程において、プロセッサ11は、音データに含まれる複数の音源からの複数の音のそれぞれ、又は、それぞれの音の音源に対して、重要度を設定する。
 重要度は、対応する画像フレームの画角内における音源の存否に基づいて設定される。また、画角内に存在する音源については、画像フレームにおける当該音源に関する画像認識の結果(具体的には、音源のサイズ及び音源の種類等)に基づいて、重要度が設定される。さらに、画角内に存在する音源については、装置情報から特定される撮像装置20の焦点位置又はユーザの視線位置と、音源の位置との距離に基づいて、重要度が設定される。
 画角内に存在しない音源については、判定工程での判定結果に基づいて重要度が設定され、判定基準を満たす場合には、判定基準を満たさない場合に比べて、より高い重要度が設定される。
 そして、設定工程では、それぞれの音又は音源に対して、設定された重要度に応じた精度を設定する。ここで、画角内に存在する音源に対する重要度は、前述したように、対応する画像フレームの画角内に音源が存在するか否かに基づいて設定される。したがって、画角内に存在する音源に対しては、画角内における音源の存否に基づいて精度が設定されることになる。
 また、画角内に存在する音源については、対応する画像フレームにおける当該音源に関する画像認識の結果、及び装置情報が示す焦点位置又はユーザの視線位置に基づいて重要度が設定される。したがって、画角内に存在する音源に対しては、音源に関する画像認識の結果及び装置情報に基づいて、精度が設定されることになる。
 他方、画角内にない音源については、その音が判定基準を満たすか否かに基づいて重要度が設定されるため、画角外の音源からの音に対しては、判定基準の成否に基づいて精度が設定される。その際、判定基準を満たす場合の音に対する精度が、所定の基準を満たさない場合に比べて高く設定される。
 ここまでの流れについて、図13に示すケースを例に挙げて具体的に説明する。図13に示すケースでは、滝を被写体として動画を撮像しており、撮像開始後のある時点(フレーム数では#1000に相当する時点)にて、画角の外で雷が発生している。このため、動画撮像中に取得される音データには、滝の音と雷の音とが含まれる。滝の音は、動画中の画像フレーム#1~999と対応している。他方、雷の音は、雷発生時点で撮像された画像フレーム#1000と対応している。
 例えば、フレーム数#1~#999に相当する期間において、滝の音の音源、すなわち滝は、図13から分かるように、対応する画像フレームの画角内に存在する。このため、音源としての滝に対する重要度は、画角内での滝のサイズ、及び、撮像装置の焦点位置又はユーザの視線位置と滝との距離等に基づいて設定される。図13に示すケースでは、滝のサイズが基準サイズより大きいため、滝が主要被写体に該当することになり、そのため、滝に対する重要度が比較的高く設定される。この結果、滝に対する精度は、重要度に応じて比較的高く設定されることになる。
 他方、フレーム数#1000に相当する時点で発生した雷の音の音源、すなわち雷は、前述した、対応する画像フレームの画角の外にある。このため、判定工程において、雷の音が判定基準を満たすか否か、例えば、雷の音の音量が基準値以上であるか否かが判定される。図13に示すケースでは、雷の音が判定基準を満たしておらず、そのため、雷の音に対する重要度が比較的低く設定される。この結果、雷に対する精度は、重要度に応じて比較的低く設定されることになる。
 なお、仮に雷の音が判定基準を満たした場合には、判定基準を満たしていない場合よりも重要度及び精度が高く設定されることになる。さらに、その場合には、変更工程が実施され、音源としての雷が画角の外から画角内に位置するように撮像レンズ20Lの向き又はズーム倍率が変更されることになる。
 情報作成フローの説明に戻ると、設定工程の実施後、プロセッサ11は、動画データの付帯情報を作成する作成工程(S009)を実施する。作成工程は、図14に示す流れに従って進行する。作成工程では、動画データの付帯情報として、音の付帯情報及び映像の付帯情報を作成する。
 音の付帯情報は、特定工程にて特定された内容に基づいて作成される。具体的に説明すると、作成工程では、音データに含まれる複数の音源からの複数の音のそれぞれについて、特徴情報を作成するステップ(S021)を実施する。このステップS021では、設定工程にて設定された精度に基づいて特徴情報を作成する。すなわち、音又は音源に対する精度が比較的高く設定された場合、その音について、より詳しい特徴情報が作成される。他方、音又は音源に対して精度が比較的低く設定された場合、その音については、より低い詳しさで特徴情報が作成され、あるいは、特徴情報の作成が省略される。
 作成工程では、また、設定工程で設定された音又は音源の重要度に関する重要度情報を、付帯情報として作成するステップ(S022)を実施する。
 さらに、作成工程では、音源が対応する画像フレームの画角内に存在するか否かに関する存否情報を、付帯情報として作成するステップ(S023)を実施する。
 また、音又はその音源の重要度に応じて設定された精度が、第1条件を満たす場合(S024)、その音を擬音語としてテキスト化した擬音語情報を、付帯情報として作成するステップ(S025)を実施する。
 また、画像フレームの画角内に存在する音源に対して設定された重要度に応じた精度が、第2条件を満たす場合(S026)、その音源の状態を擬態語としてテキスト化した擬態語情報を、付帯情報として作成するステップ(S027)を実施する。作成工程では、また、その他の関連情報(具体的には、対応情報、及び種類情報等)を作成する(S028)。
 情報作成フロー中のステップS001~S009は、動画データ及び音データを取得する期間中(つまり、動画の撮影中)、繰り返し実施される。これにより、図15に示すように、音データに含まれる複数の音源からの複数の音源のそれぞれについて、音の付帯情報が作成される。図15は、先に述べた図13のケースについて作成された音の付帯情報を示している。
 図15に示すように、#1~#999までの画像フレームと対応する「滝の音」に対しては、音源である滝に対して重要度がより高く設定されている。このため、「滝の音」については、図15に示すように、より高精度で特徴情報が作成され、具体的には、音量、音源の種類、及び音源と焦点位置との位置関係に関する情報等が特徴情報として作成される。
 他方、#1000の画像フレームと対応する「雷の音」に対しては、重要度がより低く設定されている。このため、「雷の音」については、図15に示すように、特徴情報を作成する際の精度がより低く、音の種別を示す情報が作成される一方で、音量及び音源の種類等に関する特徴情報は作成されない。
 そして、これらのデータの取得が終了すると(S010)、それに伴って情報作成フローが終了する。
 <<本発明の第2実施形態について>>
 打音検査のように、音を利用して、検査対象における異常の有無を検査することがある。その検査の動画データ及び音データを取得して動画ファイルを作成する際に、音に基づく検査結果に関する情報を、音の付帯情報として作成してもよい。かかる構成を本発明の第2実施形態とし、以下、第2実施形態について説明することとする。
 なお、以下の説明では、第2実施形態について、第1実施形態と異なる点を主に説明することとする。
 第2実施形態において、音データに含まれる複数の音は、検査時に複数の検査対象の各々から発せられる音を含む。つまり、第2実施形態では、複数の音源に、複数の検査対象が含まれる。複数の検査対象は、複数の検査対象品であってもよく、あるいは、一つの物(建物のような構造物を含む)に設定される複数の検査箇所であってもよい。
 以下では、複数の検査対象品(製品)を対象として打音検査を行うケースを例に挙げて説明する。
 なお、打音検査では、複数の検査対象品のそれぞれが一つずつ順に検査地点に搬送され、検査地点にて打音検査を受ける。
 打音検査の様子は、情報作成装置10を備えた撮像装置20によって撮像され、検査時に発生する音は、撮像装置20が備えるマイクによって収音される。これにより、打音検査についての動画データ及び音データが取得される。音データには複数の音が含まれ、複数の音には、検査音と搬送音とが含まれる。検査音は、検査地点にて検査用の打撃が付与された検査対象品から発せられる音である。搬送音は、検査地点に配置する検査対象品を交換するために不図示の搬送装置が作動した際の作動音である。
 情報作成装置10は、検査地点に配置されて検査を受けている検査対象品を特定することができる。具体的には、各検査対象品には、その識別情報(ID)が記憶された記憶素子が取り付けられており、不図示のセンサが、検査地点に配置された検査対象品の記憶素子から識別情報を読み取る。情報作成装置10は、通信用インタフェース13を通じて上記のセンサと通信することで、当該センサが読み取った識別情報を入手する。これにより、検査実施中の検査対象品のIDが情報作成装置10によって特定される。
 なお、検査対象品が異なる場所に配置される場合にはGPS機能等を利用して、検査対象品の配置位置を特定することで、各検査対象品を特定してもよい。また、検査対象品が識別情報を表面に有する場合は、撮像装置20の画像認証技術を用いて識別情報を認識し、識別情報から各検査対象品を特定してもよい。
 そして、情報作成装置10は、音データに含まれる検査音及び搬送音のそれぞれについて、音の付帯情報を作成する。具体的に説明すると、情報作成装置10は、検査音及び搬送音のそれぞれに対して、重要度を設定した後、重要度に応じた精度を設定する。この際、検査音に対しては、より高い重要度が設定され、搬送音に対しては、より低い重要度が設定される。
 その後、情報作成装置10は、それぞれの音について、精度に応じた付帯情報を作成する。検査音については、打音検査の結果に関する情報が付帯情報(厳密には、上述した特徴情報)として作成される。一方、搬送音については、検査結果に関する情報が作成されない。
 より詳しく説明すると、第2実施形態において、情報作成装置10は、図16に示すように、第1実施形態と同じ機能部を備えるとともに、検査部28を備える。検査部28は、音データに含まれる音に対して設定された精度(詳しく、重要度に応じた精度)が所定の条件を満たす場合に、その音が検査基準を満たすか否かを検査する。具体的に説明すると、検査部28は、音の精度が検査音に対して設定される精度である場合、音の特徴(例えば、周波数等)に基づいて、その音が検査基準を満たすか否かを検査する。検査基準とは、音(検査音)の音源である検査対象品の良否を判定するための基準であり、例えば、検査音が正常品の音とは異なる異常音であるか否かである。
 なお、音が検査基準を満たすか否かを検査する手段としては、検査用のAI、より詳しくは、入力された音の特徴から当該音が検査基準を満たすか否かを判定する学習モデルを利用してもよい。
 そして、第2実施形態において、第1作成部25は、重要度に応じた精度が所定の条件を満たす音、すなわち検査音について、検査部28による検査結果に関する情報を特徴情報(音の付帯情報)として作成する。この際、第1作成部25は、検査音が検査基準を満たすか否かを検査する際に用いた検査音の物理的特徴(例えば、周波数、音量及び振幅等)に関する情報を付帯情報として作成してもよい。
 また、第2実施形態において、第1作成部25は、検査結果に関する情報を作成した場合に、その検査結果の信頼性に関する信頼性情報を特徴情報として作成することができる。信頼性は、検査結果の正確さ又は妥当性を示す指標であり、例えば、所定の算出式から算出される数値、その数値に基づいて決められるランク若しくは区分、あるいは信頼性を評価する場合に用いられる評価用語等によって表される。
 なお、検査結果の信頼性を評価する手段としては、信頼性評価用のAI、より詳しくは、検査用のAIによる検査結果の正確さ又は尤度を評価する別のAIを利用してもよい。
 次に、第2実施形態に係る情報作成フローについて、図17を参照しながら説明する。第2実施形態に係る情報作成フローは、概ね第1実施形態と共通している。具体的には、打音検査の実施期間中に、プロセッサ11が、音データを取得する第1取得工程(S041)と、動画データを取得する第2取得工程(S042)とを実施する。この場合、図18に示すように、動画データには、検査対象品を検査する映像と、検査対象品を搬送する映像とが交互に記録され、音データには、検査音と搬送音とが交互に記録される。
 第1取得工程及び第2取得工程の実施期間中、プロセッサ11は、特定工程S043)を実施し、音データに含まれる音に関する内容として、音と画像フレームとの対応関係、音の特徴、音の種別、及び音源等を特定する。
 また、特定工程では、音の音源が対応する画像フレームの画角内に存在するか否かを特定する。画角内に存在する音源については、対応する画像フレームにおける撮像装置20の焦点位置(AFポイント)又はユーザの視線位置に関する装置情報を取得し、装置情報が示す位置と音源の位置との距離を特定する。
 また、音が検査音である場合には、特定工程において、その音源である検査対象品のIDを特定し、具体的には、上述したセンサから検査対象品の識別情報を入手してIDを特定する。
 特定工程の実施後、プロセッサ11は、設定工程(S044)を実施し、音データに含まれる複数の音(すなわち、検査音及び搬送音)のそれぞれに対して、重要度を設定する。また、設定工程では、それぞれの音又は音源に対して、設定された重要度に応じた精度を設定する。この際、検査音に対しては、より高い重要度及び精度が設定され、搬送音に対しては、より低い重要度及び精度が設定される。
 その後、プロセッサ11は、設定工程にて精度が設定された複数の音のそれぞれについて、その精度が所定の条件を満たすか、具体的には、検査音に対する精度に相当するか否かを判断する(S045)。そして、プロセッサ11は、精度が所定の条件を満たす音、すなわち検査音について検査工程を実施する(S046)。検査工程では、検査音が検査基準を満たすか否か、詳しくは、検査音が正常品の音とは異なる異常音であるか否かを検査する。
 その後、プロセッサ11は、動画データの付帯情報を作成する作成工程(S047)を実施する。
 具体的に説明すると、作成工程では、音データに含まれる複数の音源からの複数の音のそれぞれについて、特徴情報を含む音の付帯情報を作成する。より詳しく説明すると、精度がより高く設定された検査音については、図19に示すように、音の周波数等に関する情報に加えて、検査工程での検査結果に関する情報が、特徴情報として作成される。また、図19に示すように、検査音については、検査結果の信頼性に関する信頼性情報が音の付帯情報としてさらに作成される。
 また、検査対象品については、特定工程において、そのID(識別情報)が特定されており、検査結果に関する情報及び信頼性情報を含む音の付帯情報は、図19に示すように、対象品検査対象品のIDに関連付けられる。
 他方、精度がより低く設定された搬送音については、図19に示すように、音の周波数等に関する情報が特徴情報として作成される一方で、検査結果に関する情報は作成されない。
 上記一連の工程は、動画データ及び音データの取得が継続される間、つまり、打音検査が続行される間、繰り返し実施される。そして、すべての検査対象品についての検査が終了してデータの取得が終了した時点で(S048)、情報作成フローが終了する。
 第2実施形態では、以上の手順により、音に基づく検査結果に関する情報を付帯情報(特徴情報)として作成し、その付帯情報を含む動画ファイルを作成することができる。この動画ファイルを教師データとして用いて機械学習を実施することで、入力された検査音から検査結果を出力(推定)する学習モデルを構築することができる。
 また、検査結果の信頼性に関する信頼性情報が付帯情報として作成されることで、上記の学習精度を向上させることができる。具体的には、検査結果の信頼性に基づいて動画ファイルを選別(アノテーション)することができる。これにより、検査結果の信頼性を確保した上で機械学習を実施することができ、より妥当な学習結果が得られるようになる。
 <<その他の実施形態>>
 以上までに説明してきた実施形態は、本発明の情報作成方法、及び情報作成装置を分かり易く説明するために挙げた具体例であり、あくまでも一例に過ぎず、その他の実施形態も考えられる。
 (動画データ及び音データを記録するファイルについて)
 上記の実施形態では、マイク付きの撮像装置20を用いて音付きの動画を撮像することで、動画データ及び音データを同時に取得し、これらのデータを一つの動画ファイルに含めることとした。ただし、これに限定されるものではない。動画データ及び音データを別機器にて取得し、それぞれのデータを別ファイルにて記録してもよい。その場合、動画データ及び音データの各々を互いに同期させながら取得するのが好ましい。
 (精度の設定について)
 上記の実施形態では、音データに含まれる音又はその音源に対して、重要度を設定し、重要度に応じて精度を設定することとした。ただし、必ずしも重要度を設定する必要はなく、音又は音源に関する情報から精度を直接設定してもよい。
 (音データに含まれる音について)
 上記の実施形態では、音データに含まれる複数の音には、非言語音以外の音、つまり人の会話音のような言語音が含まれてもよい。この場合、言語音について作成される付帯情報(音の付帯情報)の精度は、言語音の音源の重要度に応じて設定してもよい。ただし、言語音については、例えば、その音源が画角の外に存在した場合でも、その言語音が明瞭である場合には重要度及び精度を比較的高く設定する等、非言語音の場合とは異なる要領で精度を設定してもよい。
 (情報作成装置の構成について)
 上記の実施形態では、本発明の情報作成装置が撮像機器に搭載されている構成を説明した。つまり、上記の実施形態では、動画データ及び音データを取得する撮像装置によって、動画データの付帯情報が作成されることとした。ただし、これに限定されるものではなく、付帯情報は、撮像装置とは異なる装置、具体的には撮像装置に接続されたPC、スマートフォン又はタブレット型端末等によって作成されてもよい。この場合、撮像装置により動画データ及び音データを取得しながら、撮像装置とは別の機器により、動画データの付帯情報(詳しくは、音の付帯情報)を作成してもよい。あるいは、動画データ及び音データを取得した後に、付帯情報を作成してもよい。
 (プロセッサの構成について)
 本発明の情報作成装置が備えるプロセッサには、各種のプロセッサが含まれる。各種のプロセッサには、例えば、ソフトウェア(プログラム)を実行して各種の処理部として機能する汎用的なプロセッサであるCPUが含まれる。
 また、各種のプロセッサには、FPGA(Field Programmable Gate Array)等の製造後に回路構成を変更可能なプロセッサであるPLD(Programmable Logic Device)が含まれる。
 さらに、各種のプロセッサには、ASIC(Application Specific Integrated Circuit)等の特定の処理をさせるために専用に設計された回路構成を有するプロセッサである専用電気回路等が含まれる。
 また、本発明の情報作成装置が有する1つの機能部を、上述した各種のプロセッサのうちの1つによって構成してもよい。あるいは、本発明の情報作成装置が有する1つの機能部を、同種又は異種の2つ以上のプロセッサの組み合わせ、例えば、複数のFPGAの組み合わせ、若しくは、FPGA及びCPUの組み合わせ等によって構成してもよい。
 また、本発明の情報作成装置が有する複数の機能部を、各種のプロセッサのうちの1つによって構成してもよいし、複数の機能部のうちの2以上をまとめて1つのプロセッサによって構成してもよい。
 また、上述の実施形態のように、1つ以上のCPUとソフトウェアの組み合わせで1つのプロセッサを構成し、このプロセッサが複数の機能部として機能する形態でもよい。
 また、例えば、SoC(System on Chip)等に代表されるように、本発明の情報作成装置における複数の機能部を含むシステム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態でもよい。また、上述した各種のプロセッサのハードウェア的な構成は、半導体素子等の回路素子を組み合わせた電気回路(Circuitry)でもよい。
 10 情報作成装置
 11 プロセッサ
 12 メモリ
 13 通信用インタフェース
 14 入力機器
 15 出力機器
 16 ストレージ
 20 撮像装置
 20L 撮像レンズ
 20F ファインダ
 21 取得部
 22 特定部
 23 判定部
 24 設定部
 25 第1作成部
 26 第2作成部
 27 変更部
 28 検査部
 31 カバー
 32 筐体
 33 雲台

Claims (15)

  1.  複数の音源からの複数の音を含む音データを取得する第1取得工程と、
     前記音源又は前記音に対して、精度を設定する設定工程と、
     前記精度に基づいて、前記音についての特徴に関する情報を、前記音データと対応する動画データの付帯情報として作成する作成工程と、を含む情報作成方法。
  2.  前記設定工程では、前記音又は前記音源に対して重要度を設定し、前記重要度に応じた前記精度を設定する、請求項1に記載の情報作成方法。
  3.  前記音は、非言語音である、請求項1又は2に記載の情報作成方法。
  4.  複数の画像フレームを含む動画データを取得する第2取得工程を備え、
     前記設定工程では、前記音源が、前記複数の画像フレームのうち、対応する画像フレームの画角内に存在するか否かに応じて、前記音源に対する前記精度を設定する、請求項1に記載の情報作成方法。
  5.  前記音源が、対応する画像フレームの画角内に存在しない場合に、前記音が所定の基準を満たすか否かを判定する判定工程を含み、
     前記設定工程では、前記所定の基準を満たす場合の前記音に対する前記精度を、前記所定の基準を満たさない場合に比べて高く設定する、請求項1に記載の情報作成方法。
  6.  前記音が前記所定の基準を満たす場合には、撮像装置の撮像レンズが前記音源の方向に近づくように前記撮像レンズの向きを変え、又は、前記音源が前記画像フレームの画角内に含まれるように前記撮像装置のズーム倍率を下げる変更工程を含む、請求項5に記載の情報作成方法。
  7.  前記設定工程では、対応する画像フレームにおける前記音源に関する画像認識の結果、又は、前記画像フレームを撮影する撮像装置について前記画像フレームと関連付けられた装置情報に基づいて、前記音源に対する前記精度を設定する、請求項1に記載の情報作成方法。
  8.  前記設定工程では、前記装置情報に基づいて前記音源に対する前記精度を設定し、
     前記装置情報は、前記画像フレームにおける前記撮像装置の焦点位置、又は、前記画像フレームにおける前記撮像装置のユーザの視線位置に関する情報である、請求項7に記載の情報作成方法。
  9.  前記作成工程では、前記付帯情報として、対応する画像フレームの画角内に前記音源が存在するか否かに関する情報を作成する、請求項1に記載の情報作成方法。
  10.  前記重要度に応じた前記精度が所定の条件を満たす場合に、前記音が検査基準を満たすか否かを検査する検査工程を含み、
     前記作成工程では、前記付帯情報として、前記検査工程での検査結果に関する情報を作成する、請求項2に記載の情報作成方法。
  11.  前記作成工程では、前記付帯情報として、前記検査結果の信頼性に関する信頼性情報をさらに作成する、請求項10に記載の情報作成方法。
  12.  前記作成工程では、前記付帯情報として、前記重要度に関する重要度情報を作成する、請求項2に記載の情報作成方法。
  13.  前記重要度に応じた前記精度が第1条件を満たす場合に、前記作成工程では、前記音を擬音語としてテキスト化した擬音語情報を、前記付帯情報として作成する、請求項2に記載の情報作成方法。
  14.  前記重要度に応じた前記精度が第2条件を満たす場合に、前記作成工程では、対応する画像フレーム中の前記音源の状態を擬態語としてテキスト化した擬態語情報を、前記付帯情報としてさらに作成する、請求項13に記載の情報作成方法。
  15.  プロセッサを備える情報作成装置であって、
     前記プロセッサが、複数の音源からの複数の音を含む音データを取得し、
     前記プロセッサが、前記音源又は前記音に対して、精度を設定し、
     前記プロセッサが、前記精度に基づいて、前記音についての特徴に関する情報を、前記音データと対応する動画の付帯情報として作成する、情報作成装置。
PCT/JP2023/019903 2022-06-08 2023-05-29 情報作成方法、及び情報作成装置 WO2023238721A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-092808 2022-06-08
JP2022092808 2022-06-08

Publications (1)

Publication Number Publication Date
WO2023238721A1 true WO2023238721A1 (ja) 2023-12-14

Family

ID=89118254

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/019903 WO2023238721A1 (ja) 2022-06-08 2023-05-29 情報作成方法、及び情報作成装置

Country Status (1)

Country Link
WO (1) WO2023238721A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011122521A1 (ja) * 2010-03-30 2011-10-06 日本電気株式会社 情報表示システム、情報表示方法及びプログラム
US20150092052A1 (en) * 2013-09-27 2015-04-02 Samsung Techwin Co., Ltd. Image monitoring system and surveillance camera
JP2015212732A (ja) * 2014-05-01 2015-11-26 日本放送協会 音喩認識装置、及びプログラム
JP2016126188A (ja) * 2015-01-05 2016-07-11 コニカミノルタ株式会社 音声情報表示装置
JP2022062971A (ja) * 2020-10-09 2022-04-21 株式会社長谷工コーポレーション 検出装置及び検出方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011122521A1 (ja) * 2010-03-30 2011-10-06 日本電気株式会社 情報表示システム、情報表示方法及びプログラム
US20150092052A1 (en) * 2013-09-27 2015-04-02 Samsung Techwin Co., Ltd. Image monitoring system and surveillance camera
JP2015212732A (ja) * 2014-05-01 2015-11-26 日本放送協会 音喩認識装置、及びプログラム
JP2016126188A (ja) * 2015-01-05 2016-07-11 コニカミノルタ株式会社 音声情報表示装置
JP2022062971A (ja) * 2020-10-09 2022-04-21 株式会社長谷工コーポレーション 検出装置及び検出方法

Similar Documents

Publication Publication Date Title
Girdhar et al. Imagebind: One embedding space to bind them all
US11409791B2 (en) Joint heterogeneous language-vision embeddings for video tagging and search
US20230274164A1 (en) Class aware object marking tool
US11126853B2 (en) Video to data
CN111062871B (zh) 一种图像处理方法、装置、计算机设备及可读存储介质
CN109874029B (zh) 视频描述生成方法、装置、设备及存储介质
US20190341058A1 (en) Joint neural network for speaker recognition
CN104919794B (zh) 用于从主从式相机跟踪系统提取元数据的方法和系统
US10241990B2 (en) Gesture based annotations
US9525841B2 (en) Imaging device for associating image data with shooting condition information
US10652454B2 (en) Image quality evaluation
CN113095346A (zh) 数据标注的方法以及数据标注的装置
US8320609B2 (en) Device and method for attaching additional information
JP7116424B2 (ja) 画像に応じて音オブジェクトを混合するプログラム、装置及び方法
WO2023238721A1 (ja) 情報作成方法、及び情報作成装置
US20230052442A1 (en) Analyzing Objects Data to Generate a Textual Content Reporting Events
CN116580707A (zh) 基于语音生成动作视频的方法和装置
CN115512104A (zh) 一种数据处理方法及相关设备
WO2023238722A1 (ja) 情報作成方法、情報作成装置、及び動画ファイル
CN111062479A (zh) 基于神经网络的模型快速升级方法及装置
JP2020135424A (ja) 情報処理装置、情報処理方法、及びプログラム
KR102472892B1 (ko) 자전거 라이더를 위한 음성인식 기반 라이딩 영상 편집 방법 및 시스템
JP7041093B2 (ja) 情報処理装置、情報処理方法、及びプログラム
CN114581798A (zh) 目标检测方法、装置、飞行设备及计算机可读存储介质
CN112183166A (zh) 确定训练样本的方法、装置和电子设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23819701

Country of ref document: EP

Kind code of ref document: A1