WO2024047816A1 - 映像関連音再生方法、映像関連音再生装置及び映像関連音再生プログラム - Google Patents

映像関連音再生方法、映像関連音再生装置及び映像関連音再生プログラム Download PDF

Info

Publication number
WO2024047816A1
WO2024047816A1 PCT/JP2022/032863 JP2022032863W WO2024047816A1 WO 2024047816 A1 WO2024047816 A1 WO 2024047816A1 JP 2022032863 W JP2022032863 W JP 2022032863W WO 2024047816 A1 WO2024047816 A1 WO 2024047816A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature
video
sound
input video
unit
Prior art date
Application number
PCT/JP2022/032863
Other languages
English (en)
French (fr)
Inventor
隆行 黒住
真二 深津
英一郎 松本
俊彦 江浦
馨亮 長谷川
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2022/032863 priority Critical patent/WO2024047816A1/ja
Publication of WO2024047816A1 publication Critical patent/WO2024047816A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams

Definitions

  • One aspect of the present invention relates to a video-related sound reproduction method, a video-related sound reproduction device, and a video-related sound reproduction program.
  • video and audio playback has become popular, which involves digitizing video and audio recorded at a certain point, transmitting it in real time to a remote location via communication lines such as IP (Internet Protocol) networks, and playing back the video and audio at the remote location.
  • IP Internet Protocol
  • devices have come into use.
  • online live performances and public viewing which transmit real-time video and audio of live music performances held at music venues and sports competitions held at competition venues, to remote locations are becoming more popular. It's being done.
  • Such video/audio transmission is not limited to one-to-one one-way transmission.
  • Video and audio are transmitted from the venue where the music live performance is being held (hereinafter referred to as the event venue) to multiple remote locations, and even at each of these multiple remote locations, the video and audio such as cheers of the audience enjoying the live performance are transmitted.
  • Two-way transmission is also being carried out, in which video and audio are photographed and recorded, transmitted to event venues and other remote locations, and output from large video display devices and speakers at each site.
  • Non-Patent Document 1 and Non-Patent Document 2 describe methods for selecting sounds based on sound characteristics associated with images.
  • Cross-modal sound search based on specific co-occurrence relationships indicated by weak labels, Masahiro Yasuda, Yasutoshi Oishi, Yuma Koizumi, Noboru Harada, Proceedings of the Acoustical Society of Japan, September 2020 Masahiro Yasuda, Yasunori Ohishi, Yuma Koizumi, and Noboru Harada.
  • Crossmodal Sound Retrieval Based on Specific Target Co-Occurrence Denoted with Weak Labels. Proc. Interspeech 2020, pp. 1446-1450, 2020.
  • Non-Patent Document 1 and Non-Patent Document 2 are methods that calculate distance and similarity based on sound features related to images, and it is difficult to reproduce sounds related to images.
  • This invention has been made in view of the above circumstances, and its purpose is to provide a technology for reproducing sound related to images.
  • a video-related sound reproduction method includes an input video feature extraction step of extracting input video features from an input video, and a reference feature accumulation step of storing reference features extracted in advance from at least one of video and sound. a feature matching step of matching the input video feature and the reference feature to output a distance or similarity between the input video feature and the reference feature; and a matching result between the input video feature and the reference feature. and a sound reproduction process of reproducing the sound source based on the sound source.
  • FIG. 1 is a block diagram showing an example of the hardware configuration of each electronic device included in the video-related sound reproduction system according to the first embodiment.
  • FIG. 2 is a block diagram showing an example of the software configuration of a server that constitutes the video-related sound reproduction system according to the first embodiment.
  • FIG. 3 is a diagram illustrating an example of an image of an audience at a remote location according to the first embodiment.
  • FIG. 4 is a diagram showing an example of a video at an event venue according to the first embodiment.
  • FIG. 5 is a conceptual diagram showing input video feature extraction by the server according to the first embodiment.
  • FIG. 6 is a flowchart illustrating an example of a video-related sound reproduction procedure and processing contents of the server according to the first embodiment.
  • FIG. 7 is a block diagram illustrating an example of the software configuration of a server configuring the video-related sound reproduction system according to the second embodiment.
  • FIG. 8 is a flowchart illustrating an example of a video-related sound reproduction procedure and processing contents of the server according to the second embodiment.
  • FIG. 9 is a block diagram illustrating an example of the software configuration of a server configuring the video-related sound reproduction system according to the third embodiment.
  • FIG. 10 is a flowchart illustrating an example of the learning procedure and processing contents of the server feature extraction method according to the third embodiment.
  • FIG. 11 is a block diagram showing an example of the software configuration of a server that constitutes the video-related sound reproduction system according to the fourth embodiment.
  • FIG. 12 is a flowchart illustrating an example of a video processing procedure and processing contents of the server according to the fourth embodiment.
  • FIG. 13 is a diagram illustrating an example of a method of photographing a video at an event venue according to the embodiment.
  • FIG. 14 is a conceptual diagram illustrating an example of outputting cheering sounds and images at an event venue according to the embodiment.
  • the cheering sound shall be played using the characteristics of the remote audience video as shown in Figure 3.
  • FIG. 3 shows images of multiple remote spectators.
  • FIG. 3 shows a situation in which multiple remote spectators are excited using penlights.
  • cheering sounds are selected using the characteristics of a 5 ⁇ 5 matrix input video as shown in FIG.
  • the cheering sound may be selected using the characteristics of the image of the crowd at the event venue as shown in FIG.
  • FIG. 4 shows a crowd at an event venue being excited using penlights.
  • a part of the video of the crowd at the event venue may be cut out and used as the input video, or the entire video may be used as the input video.
  • the audience carries a characteristic item such as a penlight, and uses the item to express excitement when the event is more exciting than usual.
  • the first embodiment is an embodiment in which cheering sounds are reproduced at an event venue using characteristics of images of remote spectators.
  • FIG. 1 is a block diagram showing an example of the hardware configuration of each electronic device included in the video-related sound reproduction system according to the first embodiment.
  • the video-related sound reproduction system S includes a server 1, an audio output device 101, a video output device 102, and a plurality of audience terminals 2 to 2n.
  • the server 1, the audio output device 101, the video output device 102, and the plurality of audience terminals 2 to 2n can communicate with each other via an IP network.
  • the server 1 is an electronic device that collects data and processes the collected data.
  • Electronic devices include computers.
  • the audio output device 101 is a device that includes a speaker that reproduces and outputs audio.
  • the audio output device 101 is, for example, a device that outputs audio at an event venue.
  • the video output device 102 is a device that includes a display that plays and displays video.
  • the display is a liquid crystal display.
  • the video output device 102 is, for example, a device that plays and displays video at an event venue.
  • Each of the spectator terminals 2 to 2n is a terminal used by each of a plurality of remote spectators.
  • Each of the spectator terminals 2 to 2n is an electronic device having an input function, a display function, and a communication function.
  • each of the audience terminals 2 to 2n is a tablet terminal, a smartphone, a PC (Personal Computer), or the like, but is not limited to these.
  • the spectator terminal 2 is an example of a terminal.
  • the server 1 includes a control section 11, a program storage section 12, a data storage section 13, a communication interface 14, and an input/output interface 15. Each element included in the server 1 is connected to each other via a bus.
  • the control unit 11 corresponds to the central part of the server 1.
  • the control unit 11 includes a processor such as a central processing unit (CPU).
  • the control unit 11 includes a ROM (Read Only Memory) as a nonvolatile memory area.
  • the control unit 11 includes a RAM (Random Access Memory) as a volatile memory area.
  • the processor expands the program stored in the ROM or the program storage unit 12 into the RAM.
  • the control unit 11 realizes each functional unit described below by the processor executing the program loaded in the RAM.
  • the control unit 11 constitutes a computer.
  • the program storage unit 12 is configured of a non-volatile memory that can be written to and read from at any time, such as an HDD (Hard Disk Drive) or an SSD (Solid State Drive), as a storage medium.
  • the program storage unit 12 stores programs necessary to execute various control processes.
  • the program storage unit 12 stores a program that causes the server 1 to execute processing by each functional unit implemented in the control unit 11, which will be described later.
  • the program storage unit 12 is an example of storage.
  • the data storage unit 13 is composed of a nonvolatile memory that can be written to and read from at any time, such as an HDD or an SSD, as a storage medium.
  • the data storage unit 13 is an example of a storage or a storage unit.
  • the communication interface 14 includes various interfaces that communicatively connect the server 1 to other electronic devices using communication protocols defined by IP networks.
  • the input/output interface 15 is an interface that enables communication between the server 1 and each of the audio output device 101 and the video output device 102.
  • the input/output interface 15 may include a wired communication interface or a wireless communication interface.
  • the hardware configuration of the server 1 is not limited to the above-mentioned configuration.
  • the server 1 allows the above-mentioned components to be omitted and changed, and new components to be added as appropriate.
  • FIG. 2 is a block diagram showing an example of the software configuration of the server 1 that constitutes the video-related sound reproduction system according to the first embodiment.
  • the server 1 includes an input video feature extraction section 110, a reference sound feature storage section 111, a feature matching section 112, and a sound reproduction section 113.
  • Each functional unit is realized by execution of a program by the control unit 11. It can also be said that each functional unit is included in the control unit 11 or the processor. Each functional unit can be read as the control unit 11 or a processor.
  • the input video feature extraction unit 110 extracts input video features from the input video.
  • the input video includes, for example, a 5 ⁇ 5 matrix video as shown in FIG.
  • the input video includes, for example, multiple remote audience videos.
  • the input video may include a video of a crowd at an event venue, as shown in FIG.
  • Input video features are features found in the input video.
  • Input video features include, for example, human movements, objects, human facial expressions, etc. included in the input video.
  • the input image characteristics include human movements such as waving a penlight, lifting a towel, raising a hand, and waving a hand from side to side.
  • Input video features may include objects such as penlights, towels, etc.
  • Input video features may include human facial expressions such as smiling faces, crying faces, etc.
  • Input video features may be used to determine the excitement of an event. For example, the movement of waving a penlight indicates excitement.
  • the input video feature extraction unit 110 performs feature extraction while shifting the input video, for example, as shown in FIG. FIG. 5 is a conceptual diagram showing input video feature extraction by the server 1 according to the first embodiment. As shown in FIG. 5, the input video feature extraction unit 110 cuts out the input video based on the video clipping window width. The input video feature extraction unit 110 determines the starting point of the video clipping window width based on the clipping interval. The input video feature extracting unit 110 extracts features from an input video of a certain video clipping window width, shifts by the clipping interval, and then extracts features from an input video of the next video clipping window width.
  • the input video feature extraction unit 110 may perform feature extraction using machine learning, for example, to identify videos that are targets of cross-modal search.
  • the input video feature extraction unit 110 may perform feature extraction using a known method.
  • the reference sound feature storage unit 111 stores reference sound features extracted from the sound source in advance as reference features. For example, when it is desired to reproduce cheering sounds, the reference sound feature storage unit 111 accumulates reference sound features extracted from various cheering sounds.
  • the cheering sounds include the excited cheering sounds of the audience, the cheering sounds of the audience that are not excited, and the like.
  • the cheering sounds may include people's cheers, talking voices, surrounding sounds, and the like.
  • Reference sound features may be used to determine the excitement of an event.
  • a reference sound feature indicating loud cheers indicates excitement.
  • the reference sound characteristic of the excited audience sound is, for example, loud cheers.
  • a reference sound characteristic of the audience sound without excitement is, for example, the absence of cheering sounds.
  • the reference sound feature may be extracted from the reference video.
  • the reference sound feature storage unit 111 is an example of a reference feature storage unit.
  • the reference sound feature is an example of a reference feature.
  • the feature matching unit 112 matches the input video feature and the reference feature, and outputs the distance or similarity between the input video feature and the reference feature.
  • the feature matching unit 112 matches the input video feature and the reference sound feature, and outputs the distance or similarity between the input video feature and the reference sound feature.
  • the feature matching unit 112 may match the input video feature and the reference sound feature using a known method. In this case, the feature matching unit 112 may match the input video feature and the reference sound feature using a distance measure such as Euclidean distance.
  • the feature matching unit 112 repeatedly matches the input video feature and the reference video feature to determine the distance or similarity between the input video feature and the reference sound feature at each time.
  • the feature matching unit 112 may output the matching result as a likelihood.
  • the likelihood includes, for example, a rise likelihood that indicates the degree of rise.
  • the likelihood is, for example, a numerical value such as "0" or "1". For example, a likelihood of "0" indicates a state where there is no excitement at all. A likelihood of "1" indicates a state where there is excitement.
  • the feature matching unit 112 may output the likelihood as "1". If the distance between the input video feature and the reference video feature is long, the feature matching unit 112 may output the likelihood as "0".
  • the feature matching unit 112 may determine whether the distance between the input video feature and the reference video feature is close or far based on a predetermined threshold.
  • the feature matching unit 112 may calculate the likelihood as "1" when the degree of similarity between the input video feature and the reference video feature is high.
  • the feature matching unit 112 may calculate the likelihood as "0" when the degree of similarity between the input video feature and the reference video feature is low.
  • the feature matching unit 112 may determine whether the degree of similarity between the input video feature and the reference video feature is high or low based on a predetermined threshold.
  • the likelihood includes, for example, the likelihood of rising.
  • the sound reproduction unit 113 reproduces the sound source based on the result of matching the input video feature and the reference feature.
  • the sound reproduction unit 113 reproduces the cheering sound source based on the selected reference sound feature.
  • the sound reproduction unit 113 may reproduce a cheering sound when the distance between the input video feature and the reference feature is less than a preset threshold.
  • the sound reproducing unit 113 does not need to reproduce the cheering sound when the distance between the input video feature and the reference feature is equal to or greater than the threshold value.
  • the sound reproduction unit 113 controls the reproduction of cheering sounds according to the content of the input video.
  • the sound reproduction unit 113 may reproduce a cheering sound when the degree of similarity between the input video feature and the reference feature is equal to or greater than a preset threshold.
  • the sound reproduction unit 113 does not need to reproduce the cheering sound when the degree of similarity between the input video feature and the reference feature is less than the threshold value.
  • the sound reproduction unit 113 may reproduce a cheering sound when the likelihood is greater than or equal to a preset threshold.
  • the sound reproduction unit 113 does not need to reproduce the cheering sound when the likelihood is less than the threshold value.
  • the sound reproduction unit 113 may increase the reproduction volume of the cheering sound as the likelihood increases.
  • the sound reproduction unit 113 may reproduce the input cheering sound with the volume set to the "maximum volume”.
  • the volume of the sound reproduced by the sound reproduction unit 113 includes, for example, a "minimum volume” and a “maximum volume.”
  • “Minimum volume” indicates, for example, a silent state.
  • the "minimum volume” is, for example, "0”.
  • the likelihood is not limited to the two levels of "1” and "0”, but may be any number of levels.
  • the volume of the reproduced sound may include “minimum volume”, “half volume”, and “maximum volume”.
  • "reproduction” may be read as “output” or "transmission”.
  • processing procedure described below is only an example, and each process may be changed as much as possible. Further, regarding the processing procedure described below, steps can be omitted, replaced, or added as appropriate depending on the embodiment.
  • FIG. 6 is a flowchart illustrating an example of a video-related sound reproduction procedure and processing contents of the server 1 according to the first embodiment.
  • the input video, reference sound features, and playback sound source are input, and the playback sound is output.
  • the input video is a remote audience video obtained from the spectator terminals 2 to 2n.
  • the reference sound features are a reference sound feature of an excited audience sound and a reference sound feature of a non-exciting audience sound.
  • the reference sound feature of the excited audience sound is associated with a likelihood of "1".
  • the reference sound feature of the audience's sound without excitement is associated with a likelihood of "0".
  • the reference sound characteristic of a video of an excited audience is loud cheers.
  • the reproduced sound source is the cheering sound of the remote audience obtained from the spectator terminals 2 to 2n, and the reproduced sound is the cheering sound reproduced at the event venue.
  • the reference sound feature storage unit 111 stores reference sound features extracted from the sound source in advance (step S1).
  • step S1 for example, the reference sound feature storage unit 111 stores reference sound features of the audience's excited sounds and reference sound features of the audience's sounds that are not excited.
  • the input video feature extraction unit 110 determines whether the input video has been acquired (step S2). If the input video feature extraction unit 110 determines that the input video has been acquired (step S2: YES), the process transitions from step S2 to step S3. If the input video feature extraction unit 110 determines that no input video has been acquired (step S2: NO), the process repeats step S2.
  • the input video feature extraction unit 110 extracts input video features from the input video (step S3).
  • step S3 for example, the input video feature extraction unit 110 extracts input video features while shifting the input video, as shown in FIG.
  • the feature matching unit 112 matches the input video feature and the reference feature (step S4).
  • step S4 for example, the feature matching unit 112 matches the input video feature and the reference sound feature, and outputs the distance or similarity between the input video feature and the reference sound feature.
  • the feature matching unit 112 may output the distance or similarity between the input video feature and the reference sound feature as the likelihood.
  • the sound playback unit 113 determines whether the distance between the input video feature and the reference sound feature is less than a predetermined threshold (step S5).
  • the feature matching unit 112 matches the input video feature and the reference sound feature, and outputs the distance between the input video feature and the reference sound feature. If the sound reproduction unit 113 determines that the distance between the input video feature and the reference sound feature is less than the predetermined threshold (step S5: YES), the process transitions from step S5 to step S6. If the sound reproduction unit 113 determines that the distance between the input video feature and the reference sound feature is not less than the predetermined threshold (step S5: NO), the process transitions from step S5 to step S7.
  • the feature matching unit 112 matches the input video feature and the reference sound feature and outputs the degree of similarity between the input video feature and the reference sound feature.
  • the sound reproduction unit 113 compares the degree of similarity between the input video feature and the reference sound feature with a predetermined threshold. The sound reproduction unit 113 determines whether the degree of similarity is greater than a predetermined threshold. If the sound reproduction unit 113 determines that the degree of similarity between the input video feature and the reference sound feature is greater than a predetermined threshold (step S5: YES), the process transitions from step S5 to step S6.
  • step S5 determines that the degree of similarity between the input video feature and the reference sound feature is less than or equal to the predetermined threshold.
  • the feature matching unit 112 matches the input video feature and the reference sound feature and outputs the likelihood.
  • the sound reproduction unit 113 compares the likelihood with a predetermined threshold.
  • the sound reproduction unit 113 determines whether the likelihood is greater than a predetermined threshold. If the sound reproduction unit 113 determines that the likelihood is greater than the predetermined threshold (step S5: YES), the process transitions from step S5 to step S6. If the sound reproduction unit 113 determines that the likelihood is less than or equal to the predetermined threshold (step S5: NO), the process transitions from step S5 to step S7.
  • the sound reproduction unit 113 reproduces the reproduced sound (step S6).
  • step S6 for example, the sound reproduction unit 113 reproduces a cheering sound source associated with the selected reference sound feature.
  • the input video feature extraction unit 110 determines whether all input videos have been processed (step S7). If the input video feature extraction unit 110 determines that all input videos have been processed (step S7: YES), the process ends. If the input video feature extraction unit 110 determines that all input videos have not been processed (step S7: NO), the process transitions from step S7 to step S2.
  • the second embodiment is an embodiment in which sound is played back based on likelihood.
  • the processing up to outputting the likelihood is the same as that in the first embodiment, so the explanation will be omitted.
  • FIG. 7 is a block diagram showing an example of the software configuration of the server 1 configuring the video-related sound reproduction system according to the second embodiment.
  • the server 1 includes an input video feature extraction section 110, a reference video feature storage section 114, a feature matching section 112, a likelihood calculation section 115, and a sound reproduction section 113.
  • Each functional unit is realized by execution of a program by the control unit 11. It can also be said that each functional unit is included in the control unit 11 or the processor. Each functional unit can be read as the control unit 11 or a processor.
  • the reference video feature storage unit 114 stores reference video features extracted from videos linked to sound sources in advance. For example, when it is desired to detect a cheering sound, the reference video feature storage unit 114 extracts the reference video feature from a video of cheering. The reference video feature storage unit 114 also prepares reference video features extracted from videos that do not include cheering in order to detect that the sound is not a cheering sound.
  • the cheering video includes reference video features of a video of an excited audience.
  • the non-cheering video includes reference video features of non-cheering audience video.
  • the reference video features may include human movements such as waving a penlight, lifting a towel, raising a hand, and waving a hand from side to side.
  • Reference video features may include objects such as penlights, towels, etc.
  • the reference video features may include human facial expressions such as smiling faces and crying faces.
  • Reference video features may be used to determine the excitement of an event. For example, a reference video feature that shows a motion of shaking a penlight indicates excitement.
  • a reference video feature of a lively audience video is, for example, a movement of waving a penlight.
  • a reference image characteristic of the image of the audience who is not excited is, for example, that the audience does not have a penlight.
  • the reference video feature of a video of an excited audience is associated with the likelihood of excitement being "1".
  • the reference video feature of the video of the audience with no excitement is associated with the excitement likelihood of "0".
  • the reference video feature storage unit 114 is an example of a reference feature storage unit.
  • the reference video feature is an example
  • the likelihood calculation unit 115 selects the reference feature closest to the input video feature or the most similar to the input video feature based on the result of matching the input video feature with a reference feature linked to the likelihood in advance.
  • the likelihood corresponding to the reference feature with high degree is output.
  • the likelihood calculation unit 115 selects, from among the reference video features, the reference video feature that is closest to the input video feature or the reference video feature that has the highest degree of similarity to the input video feature, and selects the reference video feature that corresponds to the selected reference video feature.
  • the likelihood calculation unit 115 collates all the accumulated reference video features using the input video feature extracted from the input video as a key, and calculates the distance or similarity between the input video feature and the reference video feature.
  • FIG. 8 is a flowchart illustrating an example of a video-related sound reproduction procedure and processing contents of the server 1 according to the second embodiment.
  • the input video, reference video features, and playback sound source are input, and the processed video and playback sound are output.
  • the input video is, for example, a low-quality video such as a video from a remote spectator's camera obtained from the spectator terminals 2 to 2n.
  • the reference video feature is, for example, a reference video feature that is stored for search.
  • reference video features reference video features of a video of an excited audience and reference video features of a video of an audience without excitement are input.
  • the reference video feature of the excited audience video is associated with the excitement likelihood of "1".
  • the reference video feature of the video of the audience with no excitement is associated with the excitement likelihood of "0".
  • the reference video feature of a video of an excited audience is the audience cheering.
  • the reproduction sound source is, for example, a high-quality reproduction sound source for reproduction at a venue. It is assumed that the reproduced sound is a cheering sound reproduced at the event venue.
  • the input video feature extraction unit 110 extracts input video features from the input video (step S11).
  • the input video is a video of a remote audience cheering.
  • the input video feature extracting unit 110 extracts the input video feature of cheering from the input video.
  • the reference video feature storage unit 114 acquires reference video features extracted from the reference video linked to the sound source in advance (step S12).
  • the reference video feature storage unit 114 stores a reference video feature extracted from a video of a lively audience associated with cheering, and a reference video feature extracted from a video of a lively audience associated with cheering, and a reference video feature extracted from a video of a lively audience associated with cheering, and a reference video feature extracted from a video of a lively audience associated with cheering, and a reference video feature extracted from a video of a lively audience that is associated with cheering, and a reference video feature that is extracted from a video of a lively audience that is associated with cheering, and a reference video feature that is extracted from a lively audience that is associated with cheering, and a non-excited audience that is associated with a sound source of a non-cheering audience.
  • the reference video feature storage unit 114 stores reference video features.
  • the likelihood calculation unit 115 determines the likelihood based on the result of matching the input video feature with the reference video feature linked to the likelihood in advance (step S13).
  • step S13 for example, the likelihood calculation unit 115 compares the input video feature and the reference video feature.
  • the likelihood calculation unit 115 selects the closest reference video feature based on the distance or similarity between the input video feature and the reference video feature obtained as a matching result, and outputs the corresponding likelihood.
  • the likelihood calculation unit 115 selects the closest reference video feature or the reference video feature with the highest degree of similarity among the reference video features, and calculates the likelihood corresponding to the selected reference video feature. It can be used as a result.
  • the likelihood calculation unit 115 compares all the accumulated reference video features with the input video features using the input video features extracted from the input video as a key, and calculates the distance or similarity between the input video features and the reference video features. You can also calculate the degree.
  • the control unit 11 repeats the processing of steps S11 to S13 and determines the likelihood at each time.
  • the sound reproduction unit 113 reproduces the sound source based on the result of matching the input video feature and the reference feature.
  • the sound reproduction unit 113 may change the volume of the reproduced sound based on the likelihood.
  • the third embodiment is an embodiment in which videos of a plurality of audience members and cheering sounds are learned in association with each other, and feature extraction is optimized to specialize in cheering or excitement.
  • the processes other than the feature extraction process are the same as those in the first embodiment and the second embodiment, so the description thereof will be omitted.
  • FIG. 9 is a block diagram illustrating an example of the software configuration of a server configuring the video-related sound reproduction system according to the third embodiment.
  • the server 1 includes an input video feature extraction section 110, a reference sound feature storage section 111, a feature extraction learning section 116, a feature matching section 112, a likelihood calculation section 115, and a sound reproduction section 113.
  • Each functional unit is realized by execution of a program by the control unit 11. It can also be said that each functional unit is included in the control unit 11 or the processor. Each functional unit can be read as the control unit 11 or a processor.
  • the feature extraction learning unit 116 learns a feature extraction method based on the correspondence between a plurality of videos and sounds.
  • the feature extraction learning unit 116 learns by associating a plurality of cheering sounds with a plurality of exciting videos.
  • the feature extraction learning unit 116 may perform learning using a known method.
  • FIG. 10 is a flowchart illustrating an example of the learning procedure and processing contents of the server feature extraction method according to the third embodiment.
  • the learning video is, for example, video of a plurality of spectators.
  • the images of the audience include images of the audience being excited and images of the audience not being excited.
  • the audience video includes a plurality of videos depending on the level of excitement of the audience.
  • the footage of the audience is also called the excitement footage.
  • the learning sound is the sound of the audience cheering.
  • the cheering sounds include the excited cheering sounds of the audience and the cheering sounds of the audience that are not excited.
  • the cheering sound of the audience without excitement includes the sound of the audience not cheering. Audio from spectators who are not cheering includes silence. Includes cheering sounds and multiple sounds depending on the level of excitement of the audience.
  • the feature extraction learning unit 116 acquires a learning video and a learning sound (step S21).
  • step S21 for example, the feature extraction learning unit 116 acquires a plurality of cheering sounds and a plurality of exciting videos.
  • the feature extraction learning unit 116 generates a feature extraction model for extracting features constructed by machine learning or the like using a plurality of cheering sounds and a plurality of exciting videos (step S22).
  • the feature extraction model is a model that receives cheering sounds and exciting videos as input, and outputs input video features or reference sound features.
  • the feature extraction model may be a model that outputs reference video features.
  • the feature extraction learning unit 116 learns a feature extraction method by machine learning.
  • the feature extraction learning unit 116 estimates features to be extracted from the input video or reference sound based on the correspondence between cheering sounds and exciting videos.
  • Machine learning includes, but is not limited to, neural networks. Since the cheering sound changes depending on the level of excitement, there may be a certain correlation between the cheering sound and the excitement video. Therefore, there may be a certain correlation between the features and the input video or reference sound.
  • the feature extraction learning unit 116 stores the feature extraction model (step S23).
  • the fourth embodiment is an embodiment in which video is processed based on likelihood.
  • the fourth embodiment is the same as the first embodiment and the second embodiment except for the process of processing video, so the description thereof will be omitted.
  • FIG. 11 is a block diagram showing an example of the software configuration of a server that constitutes the video-related sound reproduction system according to the fourth embodiment.
  • the server 1 includes an input video feature extraction section 110, a reference sound feature storage section 111, a feature matching section 112, a likelihood calculation section 115, a sound reproduction section 113, and a video processing section 117.
  • Each functional unit is realized by execution of a program by the control unit 11. It can also be said that each functional unit is included in the control unit 11 or the processor. Each functional unit can be read as the control unit 11 or a processor.
  • the video processing unit 117 processes the original video based on the matching result by the feature matching unit 112.
  • the video processing unit 117 processes the original video using, for example, XR (extended reality).
  • the original video includes, for example, a 5 ⁇ 5 matrix video as shown in FIG.
  • the original video includes, for example, videos of multiple remote viewers.
  • the original video may include a video of a crowd at an event venue as shown in FIG.
  • the video processing unit 117 may add a larger video effect to the original video as the degree of excitement in the original video increases.
  • the video processing unit 117 may add a larger video effect to the original video as the likelihood value increases.
  • the video effects may include, for example, a video effect that sprinkles stars on the original video, a video effect that flashes the original video at a predetermined frequency, and the like.
  • the video processing unit 117 may add a video effect in which the higher the likelihood, the more stars are scattered.
  • the video processing unit 117 may add a video effect that causes the original video to blink more frequently as the likelihood increases. For example, when the likelihood is "2", the video processing unit 117 adds a larger video effect than when the likelihood is "1". When the likelihood is "1", the video processing unit 117 may add a video effect that is larger than when the likelihood is "0" and smaller than when the likelihood is "2".
  • the video processing unit 117 When the likelihood is "0", the video processing unit 117 adds a smaller video effect than when the likelihood is "1".
  • the video processing unit 117 adds at least one type of video effect to the original video based on the likelihood.
  • the video processing unit 117 may change the number of types of video effects to be added based on the likelihood.
  • the video processing unit 117 outputs a processed video obtained by adding video effects to the original video.
  • FIG. 12 is a flowchart illustrating an example of a video processing procedure and processing contents of the server 1 according to the fourth embodiment.
  • a process of processing the original video based on the matching result by the feature matching unit 112 will be described.
  • the input video, original video, reference sound features, and playback sound source are input, and the processed video and playback sound are output.
  • the original video is a remote audience video obtained from the spectator terminals 2 to 2n.
  • the processed video is a video obtained by processing the original video.
  • the video processing unit 117 processes the original video based on the likelihood output by the likelihood calculation unit 115. (Step S31). In this example, it is assumed that the video effect is to sprinkle stars. For example, when the likelihood of excitement is "2", the video processing unit 117 adds a video effect of scattering more stars to the video of the remote audience than when the likelihood of excitement is "1".
  • the video processing unit 117 outputs the processed video (step S32).
  • step S32 for example, the video processing unit 117 outputs a processed video obtained by adding video effects to the video of the remote audience.
  • the video processing unit 117 outputs the processed video to the video output device 102 via the input/output interface 15.
  • Video output device 102 outputs processed video.
  • FIG. 13 is a diagram illustrating an example of a method of photographing a video at an event venue according to the embodiment.
  • a camera installed inside the event venue photographs the crowd inside the venue.
  • an image of the crowd as shown in FIG. 4 is captured by a camera in the venue.
  • cameras in the venue are installed on the stage side of the venue, and are installed to take pictures of the audience seats.
  • the number of cameras in the venue is not limited to one, and a plurality of cameras may be installed.
  • the crowd image may be an image selected from images captured by at least one camera.
  • FIG. 14 is a conceptual diagram illustrating an example of outputting cheering sounds and images at an event venue according to the embodiment.
  • large screen displays and venue speakers are installed on the left and right sides of a stage at an event venue.
  • a case will be described in which the left and right large screen displays and the left and right venue speakers output images and cheers based on images of separate remote audience groups, respectively.
  • a large screen display is an example of the video output device 102.
  • the venue speaker is an example of the audio output device 101.
  • the feature matching unit 112 outputs the likelihood based on the video of the group of remote spectators and the sound of cheers output to the right display.
  • the sound reproduction unit 113 Based on the determination result, the sound reproduction unit 113 outputs cheering sound from the right venue speaker.
  • the video processing unit 117 processes the original video based on the determination result and outputs the processed video to the remote audience's audience terminals 2 to 2n.
  • the processing based on the images of the remote audience group and the cheering sounds output to the left display is also similar to the processing described above.
  • cheering sounds can be placed at the event venue and different cheering sounds can be played based on multiple groups of remote spectators.
  • the feature matching unit 112 may output the likelihood based on images of the crowd at the event venue and cheering sounds.
  • the sound reproduction unit 113 may output cheering sounds from the left and right venue speakers based on the determination result.
  • the server 1 extracts input video features from the input video, stores reference features extracted from at least one of the video and sound in advance, matches the input video features with the reference features, and extracts the input video features from the input video.
  • the distance or similarity between the feature and the reference feature can be output, and the sound source can be played back based on the result of matching the input video feature and the reference feature. Therefore, the server 1 can reproduce the sound related to the input video based on the reference feature related to the feature of the input video.
  • the server 1 can store reference features linked to sound sources in advance, and match input video features with at least one of the reference sound features and the reference video features. Therefore, the server 1 can reproduce sounds that are more relevant to the input video based on the characteristics of the input video and the reference characteristics of various sound sources.
  • the server 1 selects the reference feature closest to the input video feature or the reference feature with the highest degree of similarity based on the result of matching the input video feature with the reference feature associated with the likelihood in advance. It is possible to output the likelihood corresponding to the feature. Therefore, the server 1 can output a likelihood based on a reference feature that is more related to the input video feature, and can reproduce sound based on the likelihood. This allows the server 1 to reproduce sounds that are more relevant to the input video features.
  • the server 1 can change the volume based on the likelihood. Therefore, the server 1 can reproduce the sound associated with the input video feature at a volume suitable for the input video feature.
  • the server 1 can learn feature extraction methods based on the correspondence between multiple images and sounds. Thereby, the server 1 can realize feature extraction specialized for video and sound that has been learned in advance. For example, the server 1 can optimize feature extraction to be specialized for cheering and excitement by learning feature extraction in association with cheering sounds and excitement videos.
  • the video-related sound reproduction device may be realized by one device as explained in the above example, or may be realized by a plurality of devices with distributed functions.
  • the program may be transferred while being stored in the electronic device, or may be transferred without being stored in the electronic device. In the latter case, the program may be transferred via a network or may be transferred while being recorded on a recording medium.
  • the recording medium is a non-transitory tangible medium.
  • the recording medium is a computer readable medium.
  • the recording medium may be any medium capable of storing a program and readable by a computer, such as a CD-ROM or a memory card, and its form is not limited.
  • the present invention is not limited to the above-described embodiments as they are, but can be embodied by modifying the constituent elements at the implementation stage without departing from the spirit of the invention.
  • various inventions can be formed by appropriately combining the plurality of components disclosed in the above embodiments. For example, some components may be deleted from all the components shown in the embodiments. Furthermore, components from different embodiments may be combined as appropriate.
  • the embodiments described above may be applied not only to electronic devices but also to methods performed by electronic devices.
  • the above-described embodiments may be applied to a program that allows a computer to execute the processing of each part of an electronic device.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

一実施形態では、映像関連音再生方法は、入力映像から入力映像特徴を抽出する入力映像特徴抽出過程と、予め映像、又は音の少なくとも一方から抽出した参照特徴を蓄積する参照特徴蓄積過程と、前記入力映像特徴と前記参照特徴を照合して、入力映像特徴と参照特徴との距離、又は、類似度を出力する特徴照合過程と、前記入力映像特徴と前記参照特徴との照合結果に基づいて、音源を再生する音再生過程と、を備える。

Description

映像関連音再生方法、映像関連音再生装置及び映像関連音再生プログラム
 この発明の一態様は、映像関連音再生方法、映像関連音再生装置及び映像関連音再生プログラムに関する。
 近年、ある地点で撮影・収録された映像・音声をデジタル化してIP(Internet Protocol)ネットワーク等の通信回線を介して遠隔地にリアルタイム伝送し、遠隔地で映像・音声を再生する映像・音声再生装置が用いられるようになってきた。例えば、音楽ライブの会場で行われている音楽ライブの映像・音声や、競技会場で行われているスポーツ競技試合の映像・音声を遠隔地にリアルタイム伝送するオンラインライブやパブリックビューイング等が盛んに行われている。このような映像・音声の伝送は1対1の一方向伝送にとどまらない。音楽ライブが行われている会場(以下、イベント会場とする)から映像・音声を複数の遠隔地に伝送し、それら複数の遠隔地でもそれぞれ観客がライブを楽しんでいる映像や歓声等の音声を撮影・収録し、それらの映像・音声をイベント会場や他の遠隔地に伝送し、各拠点において大型映像表示装置やスピーカから出力する、というような双方向伝送も行なわれている。
 このような双方向での映像・音声の伝送においては、音楽ライブ等の映像を遠隔地で楽しんでいる顧客が、イベント会場へ接続し、声援を送りたい場合、音をそのままイベント会場内で流すことは難しい。なぜなら、遠隔地の視聴環境では、家庭でのノイズがあったり、音質が不明であったりすることが多いため、視聴環境においてマイクで取得した音をそのままイベント会場で流すと、イベント会場内での観客の視聴品質が損なわれる。
 そこで、クロスモーダル検索を使用して、疑似歓声音を流すということが考えられる(非特許文献1及び非特許文献2)。非特許文献1及び非特許文献2には、映像と関連する音特徴に基づいて、音を選択する方法が記載されている。
弱ラベルで示される特定の共起関係に基づいたクロスモーダル音検索、安田昌弘、大石康智、小泉悠馬、原田登、日本音響学会講演論文集、2020年9月 Masahiro Yasuda, Yasunori Ohishi, Yuma Koizumi, and Noboru Harada. Crossmodal Sound Retrieval Based on Specific Target Co-Occurrence Denoted with Weak Labels. Proc. Interspeech 2020, pp. 1446-1450, 2020.
 しかしながら,非特許文献1及び非特許文献2の方法は、映像と関連する音特徴に基づいて、距離や類似度を計算する方法であり、映像に関連する音を再生することは困難である。
 この発明は、上記事情に着目してなされたもので、その目的とするところは、映像に関連する音を再生する技術を提供することにある。
 この発明の一実施形態では、映像関連音再生方法は、入力映像から入力映像特徴を抽出する入力映像特徴抽出過程と、予め映像、又は音の少なくとも一方から抽出した参照特徴を蓄積する参照特徴蓄積過程と、前記入力映像特徴と前記参照特徴を照合して、入力映像特徴と参照特徴との距離、又は、類似度を出力する特徴照合過程と、前記入力映像特徴と前記参照特徴との照合結果に基づいて、音源を再生する音再生過程と、を備える。
 この発明の一態様によれば、映像に関連する音を再生することができる。
図1は、第1の実施形態に係る映像関連音再生システムに含まれる各電子機器のハードウェア構成の一例を示すブロック図である。 図2は、第1の実施形態に係る映像関連音再生システムを構成するサーバのソフトウェア構成の一例を示すブロック図である。 図3は、第1の実施形態に係る遠隔地での観客の映像の一例を示す図である。 図4は、第1の実施形態に係るイベント会場での映像の一例を示す図である。 図5は、第1の実施形態に係るサーバの入力映像特徴抽出を示す概念図である。 図6は、第1の実施形態に係るサーバの映像関連音再生手順と処理内容の一例を示すフローチャートである。 図7は、第2の実施形態に係る映像関連音再生システムを構成するサーバのソフトウェア構成の一例を示すブロック図である。 図8は、第2の実施形態に係るサーバの映像関連音再生手順と処理内容の一例を示すフローチャートである。 図9は、第3の実施形態に係る映像関連音再生システムを構成するサーバのソフトウェア構成の一例を示すブロック図である。 図10は、第3の実施形態に係るサーバの特徴抽出方法の学習手順と処理内容の一例を示すフローチャートである。 図11は、第4の実施形態に係る映像関連音再生システムを構成するサーバのソフトウェア構成の一例を示すブロック図である。 図12は、第4の実施形態に係るサーバの映像加工手順と処理内容の一例を示すフローチャートである。 図13は、実施形態に係るイベント会場での映像の撮影方法の一例を示す図である。 図14は、実施形態に係るイベント会場において歓声音及び映像を出力する場合の一例を示す概念図である。
 以下、図面を参照してこの発明に係るいくつかの実施形態を説明する。 
 音楽ライブ会場等のイベント会場において、遠隔地でライブを視聴する観客(以下、リモート観客という)の映像の特徴を利用して歓声音を選択し、イベント会場において再生することを想定する。
 歓声音は、図3に示すようなリモート観客の映像の特徴を利用して再生するものとする。図3は、複数のリモート観客の映像を示す。図3は、複数のリモート観客がペンライトを使用して盛り上がっている状態を示す。例えば、図3に示すような、5×5のマトリックス状の入力映像の特徴を利用して歓声音を選択する。なお、図4に示すようなイベント会場の群衆の映像の特徴を利用して歓声音を選択してもよい。図4は、イベント会場の群衆がペンライトを使用して盛り上がっている状態を示す。この場合、イベント会場の群衆の映像の一部を切り出して入力映像として使用してもよいし、全体を入力映像として使用してもよい。
 図3及び図4に示すように、観客は、ペンライトのような特徴的なアイテムを持ち、通常時と比べて盛り上がっている時にアイテムを使用して盛り上がりを表現することが想定される。
 [第1の実施形態] 
 第1の実施形態は、イベント会場において、リモート観客の映像の特徴を利用して、歓声音を再生する実施形態である。
 (構成例) 
 図1は、第1の実施形態に係る映像関連音再生システムに含まれる各電子機器のハードウェア構成の一例を示すブロック図である。 
 映像関連音再生システムSは、サーバ1、音声出力装置101、映像出力装置102、複数の観客用端末2~2nを含む。サーバ1、音声出力装置101、映像出力装置102、複数の観客用端末2~2nは、IPネットワークを介して互いに通信可能である。
 サーバ1は、データを収集し、収集したデータを処理する電子機器である。電子機器は、コンピュータを含む。
 音声出力装置101は、音声を再生して出力するスピーカを含む装置である。音声出力装置101は、例えば、イベント会場において音声を出力する装置である。
 映像出力装置102は、映像を再生して表示するディスプレイを含む装置である。例えば、ディスプレイは、液晶ディスプレイである。映像出力装置102は、例えば、イベント会場において映像を再生して表示する装置である。
 観客用端末2~2nのそれぞれは、複数のリモート観客のそれぞれが使用する端末である。観客用端末2~2nのそれぞれは、入力機能、表示機能及び通信機能を備える電子機器である。例えば、観客用端末2~2nのそれぞれは、タブレット端末、スマートフォン、又はPC(Personal Computer)等であるが、これらに限定されない。観客用端末2は、端末の一例である。
 サーバ1の構成例について説明する。 
 サーバ1は、制御部11、プログラム記憶部12、データ記憶部13、通信インタフェース14及び入出力インタフェース15を備える。サーバ1が備える各要素は、バスを介して、互いに接続されている。
 制御部11は、サーバ1の中枢部分に相当する。制御部11は、中央処理ユニット(Central Processing Unit:CPU)等のプロセッサを備える。制御部11は、不揮発性のメモリ領域としてROM(Read Only Memory)を備える。制御部11は、揮発性のメモリ領域としてRAM(Random Access Memory)を備える。プロセッサは、ROM、又はプログラム記憶部12に記憶されているプログラムをRAMに展開する。プロセッサがRAMに展開されるプログラムを実行することで、制御部11は、後述する各機能部を実現する。制御部11は、コンピュータを構成する。
 プログラム記憶部12は、記憶媒体としてHDD(Hard Disk Drive)、又はSSD(Solid State Drive)等の随時書込み及び読出しが可能な不揮発性メモリで構成される。プログラム記憶部12は、各種制御処理を実行するために必要なプログラムを記憶する。例えば、プログラム記憶部12は、制御部11に実現される後述する各機能部による処理をサーバ1に実行させるプログラムを記憶する。プログラム記憶部12は、ストレージの一例である。
 データ記憶部13は、記憶媒体としてHDD、又はSSD等の随時書込み及び読出しが可能な不揮発性メモリで構成される。データ記憶部13は、ストレージ、又は記憶部の一例である。
 通信インタフェース14は、IPネットワークにより定義される通信プロトコルを使用して、サーバ1を他の電子機器と通信可能に接続する種々のインタフェースを含む。
 入出力インタフェース15は、サーバ1と音声出力装置101、映像出力装置102のそれぞれとの通信を可能にするインタフェースである。入出力インタフェース15は、有線通信のインタフェースを備えていてもいいし、無線通信のインタフェースを備えていてもよい。
 なお、サーバ1のハードウェア構成は、上述の構成に限定されるものではない。サーバ1は、適宜、上述の構成要素の省略、及び変更並びに新たな構成要素の追加を可能とする。
 図2は、第1の実施形態に係る映像関連音再生システムを構成するサーバ1のソフトウェア構成の一例を示すブロック図である。
 サーバ1は、入力映像特徴抽出部110、参照音特徴蓄積部111、特徴照合部112、及び音再生部113を備える。各機能部は、制御部11によるプログラムの実行によって実現される。各機能部は、制御部11又はプロセッサが備えるということもできる。各機能部は、制御部11又はプロセッサと読み替え可能である。
 入力映像特徴抽出部110は、入力映像から入力映像特徴を抽出する。入力映像は、例えば、図3に示すような、5×5のマトリックス状の映像を含む。入力映像は、例えば、複数のリモート観客の映像を含む。入力映像は、図4に示すようなイベント会場の群衆の映像を含んでもよい。入力映像特徴は、入力映像に見られる特徴である。入力映像特徴は、例えば、入力映像に含まれる人の動き、物、人の表情等を含む。入力映像が観客の映像である場合、入力映像特徴は、ペンライトを振る動き、タオルを持ち上げる動き、手を上にあげる動き、手を左右に振る動き等の人の動きを含む。入力映像特徴は、ペンライト、タオル等の物を含んでもよい。入力映像特徴は、笑顔、泣き顔等の人の表情を含んでもよい。入力映像特徴は、イベントの盛り上がりを判定するために使用され得る。例えば、ペンライトを振る動きは、盛り上がりを示す。
 入力映像特徴抽出部110は、例えば、図5に示すように、入力映像をずらしながら特徴抽出を行う。図5は、第1の実施形態に係るサーバ1の入力映像特徴抽出を示す概念図である。図5に示すように、入力映像特徴抽出部110は、入力映像を映像切り出し窓幅に基づいて切り出す。入力映像特徴抽出部110は、切り出し間隔に基づいて映像切り出し窓幅の始点を決定する。入力映像特徴抽出部110は、ある映像切り出し窓幅の入力映像から特徴を抽出した後、切り出し間隔の分だけずらして、次の映像切り出し窓幅の入力映像から特徴を抽出する。
 入力映像特徴抽出部110は、例えば、クロスモーダル検索の対象となる映像の識別に、機械学習を用いて特徴抽出を行ってもよい。入力映像特徴抽出部110は、公知の方法により特徴抽出を行ってもよい。
 参照音特徴蓄積部111は、予め音源から抽出した参照音特徴を参照特徴として蓄積する。参照音特徴蓄積部111は、例えば、歓声音を再生したい場合は、様々な歓声音から抽出された参照音特徴を蓄積する。歓声音は、盛り上がりのある観客の歓声音、盛り上がりのない観客の歓声音等を含む。歓声音は、人の歓声、話し声、周囲の音等を含んでもよい。参照音特徴は、イベントの盛り上がりを判定するために使用され得る。例えば、大きな歓声を示す参照音特徴は、盛り上がりを示す。盛り上がりのある観客の音の参照音特徴は、例えば、大きな歓声である。盛り上がりのない観客の音の参照音特徴は、例えば、歓声音がないことである。なお、参照音特徴は、参照映像から抽出されてもよい。参照音特徴蓄積部111は、参照特徴蓄積部の一例である。参照音特徴は、参照特徴の一例である。
 特徴照合部112は、入力映像特徴と参照特徴を照合して、入力映像特徴と参照特徴との距離、又は類似度を出力する。この例では、特徴照合部112は、入力映像特徴と参照音特徴を照合して、入力映像特徴と参照音特徴との距離、又は類似度を出力する。特徴照合部112は、公知の方法により入力映像特徴と参照音特徴との照合を行ってもよい。この場合、特徴照合部112は、ユークリッド距離等の距離尺度を使用して入力映像特徴と参照音特徴との照合を行ってもよい。特徴照合部112は、入力映像特徴と参照映像特徴との照合を繰り返して、各時刻の入力映像特徴と参照音特徴との距離、又は類似度を決定する。
 特徴照合部112は、照合結果を尤度として出力してもよい。尤度は、例えば、盛り上がりの程度を示す盛り上がり尤度を含む。尤度は、例えば、「0」、「1」等の数値である。例えば、尤度「0」は、まったく盛り上がりがない状態を示す。尤度「1」は、盛り上がりがある状態を示す。この場合、特徴照合部112は、入力映像特徴と参照映像特徴との距離が近い場合、尤度を「1」として出力してもよい。特徴照合部112は、入力映像特徴と参照映像特徴との距離が遠い場合、尤度を「0」として出力してもよい。特徴照合部112は、入力映像特徴と参照映像特徴との距離を所定の閾値に基づいて近いか遠いかの判定をしてもよい。特徴照合部112は、入力映像特徴と参照映像特徴との類似度が高い場合、尤度を「1」として算出してもよい。特徴照合部112は、入力映像特徴と参照映像特徴との類似度が低い場合、尤度を「0」として算出してもよい。特徴照合部112は、入力映像特徴と参照映像特徴との類似度を所定の閾値に基づいて高いか低いかの判定をしてもよい。尤度は、例えば、盛り上がり尤度を含む。
 音再生部113は、入力映像特徴と参照特徴との照合結果に基づいて、音源を再生する。音再生部113は、選択された参照音特徴に基づいて歓声音源を再生する。音再生部113は、例えば、入力映像特徴と参照特徴の距離が、予め設定した閾値未満の場合、歓声音を再生してもよい。音再生部113は、入力映像特徴と参照特徴の距離が、閾値以上の場合、歓声音を再生しなくてもよい。音再生部113は、入力映像の内容に応じて、歓声音の再生制御を行う。音再生部113は、入力映像特徴と参照特徴の類似度が、予め設定した閾値以上の場合、歓声音を再生してもよい。音再生部113は、入力映像特徴と参照特徴の類似度が、閾値未満の場合、歓声音を再生しなくてもよい。照合結果が尤度である場合について説明する。音再生部113は、尤度が予め設定した閾値以上の場合、歓声音を再生してもよい。音再生部113は、尤度が閾値未満の場合、歓声音を再生しなくてもよい。
 音再生部113は、尤度が大きい値ほど、歓声音の再生音量を大きくしてもよい。尤度が「1」である場合、音再生部113は、入力された歓声音の音量を「最大音量」にして再生してもよい。音再生部113により再生される音の音量は、例えば、「最小音量」、「最大音量」を含む。「最小音量」は、例えば、無音状態を示す。「最小音量」は、例えば「0」である。例えば、尤度が「0」である場合、音再生部113は、入力された歓声音の音量を「最小音量」にして再生してもよい。なお、尤度は、「1」及び「0」の2段階に限られず、複数の段階があればよい。例えば、尤度が「2」、「1」、「0」である場合、再生される音の音量は、「最小音量」、「半分の音量」、「最大音量」を含んでもよい。以下の説明において、「再生」は、「出力」、又は「送信」と読み替えてもよい。
 (動作例) 
 サーバ1による処理の手順について説明する。 
 なお、以下のサーバ1を主体とする説明では、サーバ1を制御部11と読み替えてもよい。
 なお、以下で説明する処理手順は一例に過ぎず、各処理は可能な限り変更されてよい。また、以下で説明する処理手順について、実施形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。
 図6は、第1の実施形態に係るサーバ1の映像関連音再生手順と処理内容の一例を示すフローチャートである。
 以下の処理では、入力映像、参照音特徴、及び再生音源を入力とし、再生音を出力とする。入力映像は、観客用端末2~2nから取得されるリモート観客の映像であるとする。参照音特徴は、盛り上がりのある観客の音の参照音特徴と、盛り上がりのない観客の音の参照音特徴であるとする。盛り上がりのある観客の音の参照音特徴は、尤度「1」と紐づけられている。盛り上がりのない観客の音の参照音特徴は、尤度「0」と紐づけられている。例えば、盛り上がりのある観客の映像の参照音特徴は、大きな歓声である。再生音源は、観客用端末2~2nから取得されるリモート観客の歓声音であり、再生音は、イベント会場において再生される歓声音であるとする。
 参照音特徴蓄積部111は、予め音源から抽出した参照音特徴を蓄積する(ステップS1)。ステップS1では、例えば、参照音特徴蓄積部111は、盛り上がりのある観客の音の参照音特徴と、盛り上がりのない観客の音の参照音特徴を蓄積する。
 入力映像特徴抽出部110は、入力映像を取得したか否かを判定する(ステップS2)。入力映像特徴抽出部110により、入力映像を取得したと判定された場合(ステップS2:YES)、処理は、ステップS2からステップS3へ遷移する。入力映像特徴抽出部110により、入力映像を取得していないと判定された場合(ステップS2:NO)、処理は、ステップS2を繰り返す。
 入力映像特徴抽出部110は、入力映像から入力映像特徴を抽出する(ステップS3)。ステップS3では、例えば、入力映像特徴抽出部110は、図5に示すように、入力映像をずらしながら入力映像特徴を抽出する。
 特徴照合部112は、入力映像特徴と参照特徴を照合する(ステップS4)。ステップS4では、例えば、特徴照合部112は、入力映像特徴と参照音特徴とを照合し、入力映像特徴と参照音特徴の距離、又は類似度を出力する。特徴照合部112は、入力映像特徴と参照音特徴の距離、又は類似度を尤度として出力してもよい。
 音再生部113は、照合結果に基づいて、入力映像特徴と参照音特徴の距離が所定の閾値未満であるか否かを判定する(ステップS5)。この例では、特徴照合部112は、入力映像特徴と参照音特徴とを照合し、入力映像特徴と参照音特徴の距離を出力する。音再生部113により、入力映像特徴と参照音特徴の距離が所定の閾値未満であると判定された場合(ステップS5:YES)、処理は、ステップS5からステップS6へ遷移する。音再生部113により、入力映像特徴と参照音特徴の距離が所定の閾値未満でないと判定された場合(ステップS5:NO)、処理は、ステップS5からステップS7へ遷移する。特徴照合部112が、入力映像特徴と参照音特徴とを照合し、入力映像特徴と参照音特徴の類似度を出力する場合について説明する。音再生部113は、入力映像特徴と参照音特徴の類似度と所定の閾値を比較する。音再生部113は、類似度が所定の閾値より大きいか否かを判定する。音再生部113により、入力映像特徴と参照音特徴の類似度が所定の閾値より大きいと判定された場合(ステップS5:YES)、処理は、ステップS5からステップS6へ遷移する。音再生部113により、入力映像特徴と参照音特徴の類似度が所定の閾値以下であると判定された場合(ステップS5:NO)、処理は、ステップS5からステップS7へ遷移する。特徴照合部112が、入力映像特徴と参照音特徴とを照合し、尤度を出力する場合について説明する。音再生部113は、尤度と所定の閾値を比較する。音再生部113は、尤度が所定の閾値より大きいか否かを判定する。音再生部113により、尤度が所定の閾値より大きいと判定された場合(ステップS5:YES)、処理は、ステップS5からステップS6へ遷移する。音再生部113により、尤度が所定の閾値以下であると判定された場合(ステップS5:NO)、処理は、ステップS5からステップS7へ遷移する。
 音再生部113は、再生音を再生する(ステップS6)。ステップS6では、例えば、音再生部113は、選択された参照音特徴に紐づいた歓声音源を再生する。
 入力映像特徴抽出部110は、全ての入力映像が処理されたか否かを判定する(ステップS7)。入力映像特徴抽出部110により、全ての入力映像が処理されたと判定された場合(ステップS7:YES)、処理は、終了する。入力映像特徴抽出部110により、全ての入力映像が処理されていないと判定された場合(ステップS7:NO)、処理は、ステップS7からステップS2へ遷移する。
 [第2の実施形態] 
 第2の実施形態は、尤度に基づいて、音の再生を行う実施形態である。第2の実施形態は、尤度を出力するまでの処理は、第1の実施形態と同様であるため、説明を省略する。
 (構成例) 
 第2の実施形態では、第1の実施形態と同様の構成については同一の符号を付し、その説明を省略する。第2の実施形態では、主として、第1の実施形態と異なる部分について説明する。
 図7は、第2の実施形態に係る映像関連音再生システムを構成するサーバ1のソフトウェア構成の一例を示すブロック図である。 
 サーバ1は、入力映像特徴抽出部110、参照映像特徴蓄積部114、特徴照合部112、尤度計算部115、及び音再生部113を備える。各機能部は、制御部11によるプログラムの実行によって実現される。各機能部は、制御部11又はプロセッサが備えるということもできる。各機能部は、制御部11又はプロセッサと読み替え可能である。
 参照映像特徴蓄積部114は、予め音源に紐づけられた映像から抽出した参照映像特徴を蓄積する。参照映像特徴蓄積部114は、例えば、歓声音を検出したい場合は、歓声を上げている映像から参照映像特徴を抽出する。参照映像特徴蓄積部114は、歓声音でないということも検出するために、歓声を上げていない映像から抽出した参照映像特徴も用意しておく。歓声を上げている映像は、盛り上がりのある観客の映像の参照映像特徴を含む。歓声を上げていない映像は、盛り上がりのない観客の映像の参照映像特徴を含む。参照映像特徴蓄積部114は、歓声を上げている参照映像特徴に盛り上がり尤度L=1、歓声を上げていない参照映像特徴に盛り上がり尤度L=0を対応づけておく。
 なお、参照映像特徴は、ペンライトを振る動き、タオルを持ち上げる動き、手を上にあげる動き、手を左右に振る動き等の人の動きを含んでもよい。参照映像特徴は、ペンライト、タオル等の物を含んでもよい。参照映像特徴は、笑顔、泣き顔等の人の表情を含んでもよい。参照映像特徴は、イベントの盛り上がりを判定するために使用され得る。例えば、ペンライトを振る動きを示す参照映像特徴は、盛り上がりを示す。盛り上がりのある観客の映像の参照映像特徴は、例えば、ペンライトを振る動きである。盛り上がりのない観客の映像の参照映像特徴は、例えば、ペンライトを持っていないことである。例えば、盛り上がりのある観客の映像の参照映像特徴は、盛り上がり尤度「1」と紐づけられている。盛り上がりのない観客の映像の参照映像特徴は、盛り上がり尤度「0」と紐づけられている。参照映像特徴蓄積部114は、参照特徴蓄積部の一例である。参照映像特徴は、参照特徴の一例である。
 尤度計算部115は、入力映像特徴と予め尤度に紐づけておいた参照特徴との照合の結果に基づいて、入力映像特徴と最も距離の近い参照特徴、又は、入力映像特徴と最も類似度の高い参照特徴に対応する尤度を出力する。尤度計算部115は、参照映像特徴のうち、入力映像特徴と最も距離が近い参照映像特徴、又は入力映像特徴と最も類似度の高い参照映像特徴を選択し、選択された参照映像特徴に対応する尤度Lを尤度計算の結果とする。尤度計算部115は、入力映像から抽出された入力映像特徴をキーとして蓄積された全ての参照映像特徴を照合し、入力映像特徴と参照映像特徴との距離、又は類似度を計算する。
 音再生部113は、尤度計算結果として算出された尤度に基づいて音を再生する。音再生部113は、例えば、尤度がL=0のときは無音にする。音再生部113は、尤度がL=1のときは、歓声音を再生する。
 (動作例) 
 図8は、第2の実施形態に係るサーバ1の映像関連音再生手順と処理内容の一例を示すフローチャートである。 
 以下の処理では、入力映像、参照映像特徴、及び再生音源を入力とし、加工映像及び再生音を出力とする。入力映像は、例えば、観客用端末2~2nから取得されるリモート観客のカメラの映像ような低品質な映像である。参照映像特徴は、例えば、検索用に蓄積される参照映像特徴である。参照映像特徴として、盛り上がりのある観客の映像の参照映像特徴と、盛り上がりのない観客の映像の参照映像特徴が入力される。盛り上がりのある観客の映像の参照映像特徴は、盛り上がり尤度「1」と紐づけられている。盛り上がりのない観客の映像の参照映像特徴は、盛り上がり尤度「0」と紐づけられている。例えば、盛り上がりのある観客の映像の参照映像特徴は、歓声を上げている観客である。再生音源は、例えば、会場で再生するための高品質な再生用の音源である。再生音は、イベント会場において再生される歓声音であるとする。
 入力映像特徴抽出部110は、入力映像から入力映像特徴を抽出する(ステップS11)。入力映像が、リモート観客が歓声を上げている映像である場合について説明する。ステップS21では、例えば、入力映像特徴抽出部110は、入力映像から歓声を上げているという入力映像特徴を抽出する。
 参照映像特徴蓄積部114は、予め音源に紐づけられた参照映像から抽出した参照映像特徴を取得する(ステップS12)。ステップS12では、例えば、参照映像特徴蓄積部114は、歓声に紐づけられた盛り上がりのある観客の映像から抽出した参照映像特徴と、歓声を上げていない観客の音源に紐づけられた盛り上がりのない観客の映像から抽出した参照映像特徴を取得する。参照映像特徴蓄積部114は、参照映像特徴を蓄積する。
 尤度計算部115は、入力映像特徴と予め尤度に紐づけておいた参照映像特徴との照合の結果に基づいて、尤度を決定する(ステップS13)。ステップS13では、例えば、尤度計算部115は、入力映像特徴と参照映像特徴とを照合する。尤度計算部115は、照合結果として得られる入力映像特徴と参照映像特徴との距離、又は類似度に基づいて、最も近い参照映像特徴を選択し、それに対応する尤度を出力する。尤度計算部115は、参照映像特徴のうち、最も距離が近い参照映像特徴、又は最も類似度の高い参照映像特徴を選択し、選択された参照映像特徴に対応する尤度を尤度計算の結果としてもよい。なお、尤度計算部115は、入力映像から抽出された入力映像特徴をキーとして蓄積された全ての参照映像特徴を入力映像特徴と照合し、入力映像特徴と参照映像特徴との距離、又は類似度を計算してもよい。
 制御部11は、ステップS11~S13の処理を繰り返し、各時刻の尤度を決定する。
 なお、この例では、音再生部113は、入力映像特徴と参照特徴との照合結果に基づいて、音源を再生する。音再生部113は、尤度に基づいて再生音の制御を行う。例えば、尤度L=0のときは無音にする。音再生部113は、尤度L=1のときは、歓声音を再生する。音再生部113は、尤度に基づいて再生音の音量を変えてもよい。
 [第3の実施形態] 
 第3の実施形態は、複数の観客の映像と歓声音を対応付けて学習し、特徴抽出を歓声、又は盛り上がりに特化するよう最適化する実施形態である。第3の実施形態は、特徴抽出処理以外の処理は、第1の実施形態、及び第2の実施形態と同様であるため、それらの説明を省略する。
 (構成例) 
 第3の実施形態では、第1の実施形態、及び第2の実施形態と同様の構成については同一の符号を付し、その説明を省略する。第3の実施形態では、主として、第1の実施形態、及び第2の実施形態と異なる部分について説明する。
 図9は、第3の実施形態に係る映像関連音再生システムを構成するサーバのソフトウェア構成の一例を示すブロック図である。 
 サーバ1は、入力映像特徴抽出部110、参照音特徴蓄積部111、特徴抽出学習部116、特徴照合部112、尤度計算部115、及び音再生部113を備える。各機能部は、制御部11によるプログラムの実行によって実現される。各機能部は、制御部11又はプロセッサが備えるということもできる。各機能部は、制御部11又はプロセッサと読み替え可能である。
 特徴抽出学習部116は、複数の映像と音の対応による特徴抽出方法を学習する。特徴抽出学習部116は、複数の歓声音と複数の盛り上がり映像を対応付けて学習する。特徴抽出学習部116は、公知の方法により学習を実施してもよい。
 (動作例) 
 図10は、第3の実施形態に係るサーバの特徴抽出方法の学習手順と処理内容の一例を示すフローチャートである。 
 以下の処理では、学習映像、学習音、入力映像、参照音特徴、及び再生音源を入力とし、再生音を出力とする。学習映像は、例えば、複数の観客の映像である。観客の映像は、盛り上がりのある観客の映像、盛り上がりのない観客の映像を含む。観客の映像は、観客の盛り上がりの程度に応じた複数の映像を含む。観客の映像は、盛り上がり映像ともいう。学習音は、観客の歓声音である。歓声音は、盛り上がりのある観客の歓声音、盛り上がりのない観客の歓声音を含む。盛り上がりのない観客の歓声音は、歓声を上げていない観客の音声を含む。歓声を上げていない観客の音声は、無音を含む。歓声音、観客の盛り上がりの程度に応じた複数の音声を含む。
 特徴抽出学習部116は、学習映像、及び学習音を取得する(ステップS21)。ステップS21では、例えば、特徴抽出学習部116は、複数の歓声音と複数の盛り上がり映像を取得する。
 特徴抽出学習部116は、複数の歓声音と複数の盛り上がり映像を用いて機械学習等により構築された特徴を抽出するための特徴抽出モデルを生成する(ステップS22)。特徴抽出モデルは、歓声音と盛り上がり映像を入力として、入力映像特徴、又は参照音特徴を出力とするモデルである。なお、特徴抽出モデルは、参照映像特徴を出力とするモデルであってもよい。特徴抽出学習部116は、機械学習により、特徴抽出方法を学習する。特徴抽出学習部116は、歓声音と盛り上がり映像との対応関係に基づいて、入力映像、又は参照音から抽出する特徴を推定する。機械学習は、ニューラルネットワーク等であるが、これに限定されない。歓声音は、盛り上がりの程度に応じて変化するため、歓声音と盛り上がり映像との間には、一定の相関関係があり得る。したがって、特徴と、入力映像、又は参照音との間にも、一定の相関関係があり得る。
 特徴抽出学習部116は、特徴抽出モデルを記憶する(ステップS23)。
 [第4の実施形態] 
 第4の実施形態は、尤度に基づいて、映像の加工を行う実施形態である。第4の実施形態は、映像の加工を行う処理以外は、第1の実施形態、及び第2の実施形態と同様であるため、それらの説明を省略する。
 (構成例) 
 第4の実施形態では、第1の実施形態、及び第2の実施形態と同様の構成については同一の符号を付し、その説明を省略する。第3の実施形態では、主として、第1の実施形態、及び第2の実施形態と異なる部分について説明する。
 図11は、第4の実施形態に係る映像関連音再生システムを構成するサーバのソフトウェア構成の一例を示すブロック図である。 
 サーバ1は、入力映像特徴抽出部110、参照音特徴蓄積部111、特徴照合部112、尤度計算部115、音再生部113、及び映像加工部117を備える。各機能部は、制御部11によるプログラムの実行によって実現される。各機能部は、制御部11又はプロセッサが備えるということもできる。各機能部は、制御部11又はプロセッサと読み替え可能である。
 映像加工部117は、特徴照合部112による照合結果に基づいて原映像を加工する。映像加工部117は、例えば、XR(extended reality)等により原映像を加工する。原映像は、例えば、図3に示すような、5×5のマトリックス状の映像を含む。原映像は、例えば、複数のリモート観客の映像を含む。原映像は、図4に示すようなイベント会場の群衆の映像を含んでもよい。映像加工部117は、照合結果に基づいて、原映像の盛り上がりの程度が大きいほど、大きな映像効果を原映像に加えてもよい。映像加工部117は、尤度が大きい値であるほど、大きな映像効果を原映像に加えてもよい。映像効果は、例えば、原映像に星印を散りばめる映像効果、所定の頻度で原映像を点滅させる映像効果等を含んでもよい。映像加工部117は、例えば、尤度が大きいほど、多くの星印を散りばめる映像効果を加えてもよい。映像加工部117は、尤度が大きいほど、高い頻度で原映像を点滅させる映像効果を加えてもよい。例えば、尤度が「2」である場合、映像加工部117は、尤度が「1」の場合より大きな映像効果を加える。尤度が「1」である場合、映像加工部117は、尤度が「0」の場合より大きく、尤度が「2」の場合より小さい映像効果を加えてもよい。尤度が「0」である場合、映像加工部117は、尤度が「1」の場合より小さい映像効果を加える。映像加工部117は、尤度に基づいて、少なくとも1種類の映像効果を原映像に加える。映像加工部117は、尤度に基づいて、加える映像効果の種類の数を変えてもよい。映像加工部117は、原映像に映像効果を加えた加工映像を出力する。
 (動作例)
 図12は、第4の実施形態に係るサーバ1の映像加工手順と処理内容の一例を示すフローチャートである。 
 以下では、特徴照合部112による照合結果に基づいて、原映像を加工する処理について説明する。以下の処理では、入力映像、原映像、参照音特徴、及び再生音源を入力とし、加工映像、及び再生音を出力とする。原映像は、観客用端末2~2nから取得されるリモート観客の映像であるとする。加工映像は、原映像を加工した映像である。
 映像加工部117は、尤度計算部115により出力された尤度に基づいて原映像を加工する。(ステップS31)。この例では、映像効果は、星印を散りばめることであるとする。例えば、盛り上がり尤度が「2」である場合、映像加工部117は、リモート観客の映像に盛り上がり尤度が「1」の場合より多くの数の星印を散りばめる映像効果を加える。
 映像加工部117は、加工映像を出力する(ステップS32)。ステップS32では、例えば、映像加工部117は、リモート観客の映像に映像効果を加えた加工映像を出力する。映像加工部117は、入出力インタフェース15を介して、映像出力装置102に加工映像を出力する。映像出力装置102は、加工映像を出力する。
 イベント会場において群衆の映像を撮影する方法について説明する。 
 図13は、実施形態に係るイベント会場での映像の撮影方法の一例を示す図である。 
 図13に示すように、イベント会場内に設置されたカメラにより会場内の群衆を撮影する。会場内のカメラにより例えば、図4に示すような群衆の映像が撮影される。例えば、会場内のカメラは、会場のステージ側に設置され、客席側を撮影するように設置される。会場内のカメラは、1つに限られず、複数個設置されてもよい。群衆の映像は、少なくとも1つのカメラにより撮影された映像から選択される映像であってもよい。
 イベント会場において再生される歓声音及び加工映像の一例について説明する。 
 図14は、実施形態に係るイベント会場において歓声音及び映像を出力する場合の一例を示す概念図である。 
 図14に示すように、例えば、イベント会場においてステージの左右に大画面ディスプレイ、及び会場スピーカが設置される。左右の大画面ディスプレイ、左右の会場スピーカは、それぞれ別々のリモート観客のグループの映像に基づく映像、及び歓声が出力される場合について説明する。大画面ディスプレイは、映像出力装置102の一例である。会場スピーカは、音声出力装置101の一例である。
 例えば、右側のディスプレイに出力されるリモート観客のグループの映像、及び歓声音に基づいて、特徴照合部112は、尤度を出力する。
 音再生部113は、判定結果に基づいて、歓声音を右側の会場スピーカから出力する。映像加工部117は、判定結果に基づいて、原映像を加工して、加工映像をリモート観客の観客用端末2~2nに出力する。
 左側のディスプレイに出力されるリモート観客のグループの映像、及び歓声音に基づく処理も上述の処理と同様である。
 この例によれば、リモート観客の複数のグループに基づいて、イベント会場に歓声音をおいて歓声音を鳴らし分けることができる。
 特徴照合部112は、イベント会場の群衆の映像、及び歓声音に基づいて、尤度を出力してもよい。この場合、音再生部113は、判定結果に基づいて、歓声音を左右の会場スピーカから出力してもよい。
 (効果) 
 上述の実施形態では、サーバ1は、入力映像から入力映像特徴を抽出し、予め映像、又は音の少なくとも一方から抽出した参照特徴を蓄積し、入力映像特徴と参照特徴を照合して、入力映像特徴と参照特徴との距離、又は、類似度を出力し、入力映像特徴と参照特徴との照合結果に基づいて、音源を再生することができる。そのため、サーバ1は、入力映像の特徴と関連する参照特徴に基づいて、入力映像に関連する音を再生することができる。
 上述の実施形態では、サーバ1は、予め音源に紐づいた参照特徴を蓄積し、入力映像特徴に対して参照音特徴、又は参照映像特徴の少なくとも一方と照合することができる。そのため、サーバ1は、入力映像の特徴と様々な音源の参照特徴に基づいて、入力映像により関連する音を再生することができる。
 上述の実施形態では、サーバ1は、入力映像特徴と予め尤度に紐付いた参照特徴との照合の結果に基づいて、入力映像特徴と最も距離の近い参照特徴、又は、最も類似度の高い参照特徴に対応する尤度を出力することができる。そのため、サーバ1は、入力映像特徴とより関連のある参照特徴に基づいて尤度を出力し、尤度に基づいて音を再生することができる。これにより、サーバ1は、入力映像特徴とより関連する音を再生することができる。
 上述の実施形態では、サーバ1は、尤度に基づいて、音量を変更することができる。そのため、サーバ1は、入力映像特徴と関連する音を入力映像特徴に適した音量で再生することができる。
 上述の実施形態では、サーバ1は、複数の映像と音の対応による特徴抽出方法を学習することができる。これにより、サーバ1は、予め学習した映像と音に特化した特徴抽出を実現することができる。例えば、サーバ1は、特徴抽出を歓声音と盛り上がり映像を対応付けて学習することで,特徴抽出を歓声や盛り上がりに特化する形に最適化することができる。
 [その他の実施形態] 
 映像関連音再生装置は、上記の例で説明したように1つの装置で実現されてもよいし、機能を分散させた複数の装置で実現されてもよい。
 プログラムは、電子機器に記憶された状態で譲渡されてよいし、電子機器に記憶されていない状態で譲渡されてもよい。後者の場合は、プログラムは、ネットワークを介して譲渡されてよいし、記録媒体に記録された状態で譲渡されてもよい。記録媒体は、非一時的な有形の媒体である。記録媒体は、コンピュータ可読媒体である。記録媒体は、CD-ROM、メモリカード等のプログラムを記憶可能かつコンピュータで読取可能な媒体であればよく、その形態は問わない。
 以上、本発明の実施形態を詳細に説明してきたが、前述までの説明はあらゆる点において本発明の例示に過ぎない。本発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。つまり、本発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。
 要するにこの発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
 上述の実施形態は、電子機器だけでなく、電子機器が実行する方法に適用されてもよい。上述の実施形態は、電子機器が備える各部の処理をコンピュータに実行させることが可能なプログラムに適用されてもよい。
 1 サーバ
 2~2n 観客用端末
 11 制御部
 12 プログラム記憶部
 13 データ記憶部
 14 通信インタフェース
 15 入出力インタフェース
 101 音声出力装置
 102 映像出力装置
 110 入力映像特徴抽出部
 111 参照音特徴蓄積部
 112 特徴照合部
 113 音再生部
 114 参照映像特徴蓄積部
 115 尤度計算部
 116 特徴抽出学習部
 117 映像加工部
 S 映像関連音再生システム

Claims (8)

  1.  入力映像から入力映像特徴を抽出する入力映像特徴抽出過程と、
     予め映像、又は音の少なくとも一方から抽出した参照特徴を蓄積する参照特徴蓄積過程と、
     前記入力映像特徴と前記参照特徴を照合して、前記入力映像特徴と前記参照特徴との距離、又は、類似度を出力する特徴照合過程と、
     前記入力映像特徴と前記参照特徴との照合結果に基づいて、音源を再生する音再生過程と、
     を備える、映像関連音再生方法。
  2.  前記参照特徴蓄積過程は、予め前記音源に紐づいた参照特徴を蓄積する、
     請求項1に記載の映像関連音再生方法。
  3.  前記特徴照合過程は、前記入力映像特徴に対して参照音特徴、又は参照映像特徴の少なくとも一方と照合する、
     請求項1に記載の映像関連音再生方法。
  4.  前記入力映像特徴と予め尤度に紐付いた参照特徴との照合の結果に基づいて、前記入力映像特徴と最も距離の近い参照特徴、又は、最も類似度の高い参照特徴に対応する尤度を出力する尤度計算過程をさらに備える、
     請求項1に記載の映像関連音再生方法。
  5.  前記音再生過程は、前記尤度に基づいて、音量を変更する、
     請求項4に記載の映像関連音再生方法。
  6.  複数の映像と音の対応による特徴抽出方法を学習する特徴抽出学習過程をさらに備える、
     請求項1に記載の映像関連音再生方法。
  7.  入力映像から入力映像特徴を抽出する入力映像特徴抽出部と、
     予め映像、又は音の少なくとも一方から抽出した参照特徴を蓄積する参照特徴蓄積部と、
     前記入力映像特徴と前記参照特徴を照合して、前記入力映像特徴と前記参照特徴との距離、又は、類似度を出力する特徴照合部と、
     前記入力映像特徴と前記参照特徴との照合結果に基づいて、音源を再生する音再生部と、
     を備える、映像関連音再生装置。
  8.  コンピュータに、
     入力映像から入力映像特徴を抽出することと、
     予め映像、又は音の少なくとも一方から抽出した参照特徴を蓄積することと、
     前記入力映像特徴と前記参照特徴を照合して、前記入力映像特徴と前記参照特徴との距離、又は、類似度を出力することと、
     前記入力映像特徴と前記参照特徴との照合結果に基づいて、音源を再生することと、
     を実行させるための映像関連音再生プログラム。
PCT/JP2022/032863 2022-08-31 2022-08-31 映像関連音再生方法、映像関連音再生装置及び映像関連音再生プログラム WO2024047816A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/032863 WO2024047816A1 (ja) 2022-08-31 2022-08-31 映像関連音再生方法、映像関連音再生装置及び映像関連音再生プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/032863 WO2024047816A1 (ja) 2022-08-31 2022-08-31 映像関連音再生方法、映像関連音再生装置及び映像関連音再生プログラム

Publications (1)

Publication Number Publication Date
WO2024047816A1 true WO2024047816A1 (ja) 2024-03-07

Family

ID=90098977

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/032863 WO2024047816A1 (ja) 2022-08-31 2022-08-31 映像関連音再生方法、映像関連音再生装置及び映像関連音再生プログラム

Country Status (1)

Country Link
WO (1) WO2024047816A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016144192A (ja) * 2015-02-05 2016-08-08 日本放送協会 盛り上がり通知システム
WO2022044100A1 (ja) * 2020-08-25 2022-03-03 日本電信電話株式会社 学習装置、検索装置、学習方法、及びプログラム
WO2022163137A1 (ja) * 2021-01-27 2022-08-04 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
WO2022162990A1 (ja) * 2021-01-26 2022-08-04 株式会社Jvcケンウッド 端末装置、配信システム及び配信方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016144192A (ja) * 2015-02-05 2016-08-08 日本放送協会 盛り上がり通知システム
WO2022044100A1 (ja) * 2020-08-25 2022-03-03 日本電信電話株式会社 学習装置、検索装置、学習方法、及びプログラム
WO2022162990A1 (ja) * 2021-01-26 2022-08-04 株式会社Jvcケンウッド 端末装置、配信システム及び配信方法
WO2022163137A1 (ja) * 2021-01-27 2022-08-04 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム

Similar Documents

Publication Publication Date Title
CN106237614B (zh) 采撷对预先记录的游戏玩法的异步评论
US20160336039A1 (en) Systems and methods for creating music videos synchronized with an audio track
JP2014530377A5 (ja)
CN104618446A (zh) 一种实现多媒体推送的方法和装置
US20170092253A1 (en) Karaoke system
JP2014082582A (ja) 視聴装置、コンテンツ提供装置、視聴プログラム、及びコンテンツ提供プログラム
JP2021197614A (ja) 映像配信システム、それに用いるコンピュータプログラム、及び制御方法
JP2014219443A (ja) カラオケシステム
CN115918089A (zh) 用于处理和呈现媒体数据以允许虚拟参与事件的系统和方法
WO2024047816A1 (ja) 映像関連音再生方法、映像関連音再生装置及び映像関連音再生プログラム
WO2012166072A1 (en) Apparatus, systems and methods for enhanced viewing experience using an avatar
WO2013008869A1 (ja) 電子機器及びデータ生成方法
WO2024047815A1 (ja) 盛り上がり尤度制御方法、盛り上がり尤度制御装置及び盛り上がり尤度制御プログラム
JP2009194767A (ja) ビデオ評価装置及び方法、並びにビデオ提供装置
WO2024047814A1 (ja) 再生音量制御方法、再生音量制御装置及び再生音量制御プログラム
WO2014203870A1 (ja) 演奏システム、演奏方法及び演奏プログラム
Bennett Fandom, liveness and technology at Tori Amos music concerts: Examining the movement of meaning within social media use
JP7480846B2 (ja) 応援支援方法、応援支援装置、およびプログラム
JP7153143B2 (ja) 映像提供システムおよびプログラム
JP6958676B1 (ja) 制御方法および制御システム
WO2024047813A1 (ja) 音響情報出力制御装置、方法およびプログラム
WO2024057399A1 (ja) メディア再生制御装置、メディア再生制御方法及びメディア再生制御プログラム
US20220201370A1 (en) Simulating audience reactions for performers on camera
WO2024052964A1 (ja) 映像同期装置、映像同期方法及び映像同期プログラム
US20220394323A1 (en) Supplmental audio generation system in an audio-only mode

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22957413

Country of ref document: EP

Kind code of ref document: A1