WO2021095536A1 - 情報処理装置、情報処理方法、並びにプログラム - Google Patents

情報処理装置、情報処理方法、並びにプログラム Download PDF

Info

Publication number
WO2021095536A1
WO2021095536A1 PCT/JP2020/040561 JP2020040561W WO2021095536A1 WO 2021095536 A1 WO2021095536 A1 WO 2021095536A1 JP 2020040561 W JP2020040561 W JP 2020040561W WO 2021095536 A1 WO2021095536 A1 WO 2021095536A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
video
content
time
processing device
Prior art date
Application number
PCT/JP2020/040561
Other languages
English (en)
French (fr)
Inventor
諒 横山
猛史 荻田
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to CN202080077002.4A priority Critical patent/CN114731456A/zh
Priority to US17/774,547 priority patent/US11887631B2/en
Publication of WO2021095536A1 publication Critical patent/WO2021095536A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs

Definitions

  • the present technology relates to an information processing device, an information processing method, and a program, for example, an information processing device, an information processing method, and a program in which video and sound are presented so as not to cause discomfort.
  • the sound when viewing a sound and an image of a sound source that produced the sound, the sound may reach the viewer later than the image due to the difference between the speed of light and the speed of sound. Such a delay in sound becomes more pronounced as the distance from the sound source increases.
  • Patent Document 1 proposes that when a tactile device that gives a tactile sensation to a user is used, the output timing of the tactile device is adjusted in consideration of the arrival delay of sound.
  • the sound when viewing the sound and the video of the sound source that produced the sound, the sound may arrive later than the video. Such a delay in sound, in other words, a mismatch between video and sound, may contribute to a sense of discomfort to the viewer.
  • This technology was made in view of such a situation, and makes it possible to provide video and sound without any discomfort.
  • the information processing device of one aspect of the present technology includes a determination unit that determines whether or not the content has a sound delayed with respect to the image, and a content whose sound is delayed with respect to the image by the determination unit. If it is determined that there is, the video is provided with a processing unit that delays the video by a predetermined time and reproduces the video.
  • the information processing device that processes the video determines whether or not the content is delayed with respect to the video, and the sound is delayed with respect to the video. When it is determined that the content is content, the video is played back with a delay of a predetermined time.
  • the program of one aspect of the present technology determines whether or not the content is delayed with respect to the image by the computer, and when it is determined that the content is delayed with respect to the image. , A process including a step of delaying the video by a predetermined time and playing the video is executed.
  • the video is played back with a delay of a predetermined time.
  • the information processing device may be an independent device or an internal block constituting one device.
  • the program can be provided by transmitting via a transmission medium or by recording on a recording medium.
  • This technology can be applied to a system that generates content including video and sound and reproduces the generated content.
  • the video and sound can be edited so that the user does not feel uncomfortable, and the edited content can be applied to a playback system.
  • the content is the content including video and sound. It also includes the case where either or both of the video and sound are content that is provided directly or indirectly to the viewer.
  • To be provided directly to the viewer means to be provided to the viewer without any processing, and to be provided indirectly means to be provided to the viewer after some processing is performed. Suppose it means to be provided.
  • providing sound directly to the viewer means that the sound produced by the sound source reaches the viewer's ears without any processing, and the sound is indirectly delivered to the viewer. Being provided means that the sound produced by the sound source reaches the viewer's ears after some processing such as an effect has been applied.
  • the video is provided to the viewer with a delay of a predetermined amount with respect to the sound, but it is indirect to the viewer that such a delayed video is provided to the viewer. This is an example of a case where a video is provided.
  • FIG. 1 is a diagram showing a configuration of an embodiment of an information processing system that processes contents to which the present technology is applied.
  • the information processing system includes a content distribution device 11, a content processing device 12, a video presentation device 13, a sound presentation device 14, and a tactile presentation device 15.
  • the content distribution device 11 distributes the content. Content is distributed via a network or as a television broadcast. Further, the content may be distributed by being recorded on the recording medium.
  • the content processing device 12 receives and processes the content distributed from the content distribution device 11.
  • the content processing device 12 is a television receiver, a personal computer (PC), a smartphone, or the like.
  • the communication between the content distribution device 11 and the content processing device 12 may be wired or wireless.
  • the content processing device 12 may have a function of generating the content by the content processing device 12 itself.
  • the content processing device 12 may have a camera and may be configured to process the video captured by the camera as content.
  • the content processing device 12 may be an AR glass (augmented reality glass) or the like.
  • the video presentation device 13 is a device that presents a video based on video data included in the content processed by the content processing device 12 to the user.
  • the image presentation device 13 is, for example, a monitor, a projector, an HMD (Head Mounted Display), or the like.
  • the sound presentation device 14 is a device that presents a sound based on sound data included in the content processed by the content processing device 12 to the user.
  • the sound presentation device 14 is a speaker, an earphone, or the like.
  • the tactile presentation device 15 is a device that presents vibrations that match images and sounds to the user.
  • the tactile presentation device 15 is, for example, a wristband, a globe, a vest, a controller, or the like in which an oscillator is incorporated.
  • the content processing device 12, the video presentation device 13, and the sound presentation device 14 may be configured as one device, and may be configured by a television receiver, a personal computer (PC), a smartphone, or the like. Further, the tactile presentation device 15 may also be incorporated in one device. For example, a smartphone or the like has a vibration function, and a device that realizes the vibration function may be used as the tactile presentation device 15. ..
  • FIG. 2 is a diagram showing a functional configuration example of the content processing device 12.
  • the content processing device 12 includes a content acquisition unit 31, a content analysis unit 32, a delay processing unit 33, a video control unit 34, a sound control unit 35, and a tactile control unit 36.
  • the content acquisition unit 31 controls the reception of the distributed content and acquires the video taken by the camera of the content acquisition unit 31 as the content. Further, when a sound collecting device such as a microphone is provided, the content acquisition unit 31 also acquires the sound collected by the sound collecting device. The content whose acquisition is controlled by the content acquisition unit 31 is supplied to the content analysis unit 32.
  • the content analysis unit 32 analyzes the content supplied from the content acquisition unit 31.
  • the analysis performed by the content analysis unit 32 mainly performs an analysis for determining whether or not the content includes a delay.
  • the content analysis unit 32 analyzes, for example, video data to estimate the distance to the subject, or analyzes the sound data to classify the sound by type. To classify.
  • the information obtained from such a sensor can be used as information for determining whether or not the content includes a delay.
  • the content analysis unit 32 uses the information from the sensor to analyze whether or not the content acquired by the content acquisition unit 31 is the content including the delay.
  • the analysis result by the content analysis unit 32 is supplied to the delay processing unit 33.
  • the delay processing unit 33 adjusts the amount of video delay using the analysis result of the content analysis unit 32. As will be described later, a process of delaying the video is performed so that the video and the sound match the video. Processing related to this delay is performed in the delay processing unit 33. Further, when the delay processing unit 33 is configured to delay the sound, the delay processing unit 33 also adjusts the delay amount of the sound.
  • the video control unit 34 controls so that the delayed video is presented by the video presentation device 13 (FIG. 1) by the delay amount.
  • the sound control unit 35 controls so that the delayed sound is presented by the sound presenting device 14 (FIG. 1) by the delay amount.
  • the tactile control unit 36 controls so that the tactile sensation matching the sound is presented by the tactile presentation device 15 (FIG. 1).
  • the content processing device 12 that is not configured to control the sound presentation device 14 and the tactile presentation device 15, and the content processing device 12 can be used as the sound control unit 35 or the tactile sensation. It is also possible to have a configuration that does not include the control unit 36.
  • the tactile data supplied to the tactile control unit 36 is supplied from the content distribution device 11 (FIG. 1) together with the content.
  • the tactile data may be generated by the content analysis unit 32 analyzing the video data and the sound data.
  • the fireworks are launched in the sky and make a loud noise when opened.
  • this sound is expressed by an onomatopoeia called “dawn”. Audiences may be delighted to see the open fireworks.
  • the camera 51-1 photographs the fireworks from a distance L1 from the flowering fireworks
  • the camera 51-2 photographs the fireworks from a distance L2 from the flowering fireworks.
  • the distance L1 is located closer than the distance L2. That is, the relationship of distance L1 ⁇ distance L2 is satisfied.
  • the image When comparing the image of fireworks and the sound of fireworks, the image reaches the camera 51 at the speed of light and the sound reaches the camera 51 at the speed of sound, so the image reaches the camera 51 before the sound. Further, when the fireworks image blooms, the image of the flowered fireworks reaches the camera 51 almost instantly and is photographed, but the sound generated when the fireworks bloom reaches the camera 51 after the image. , Will be recorded. The time it takes for the sound to reach increases as the distance increases.
  • FIG. 4 is a diagram showing the relationship between the image and the sound reaching the camera 51 (audience).
  • the fireworks at the time of flowering are photographed by the camera 51-1 and the camera 51-2 at almost the same time at time t1.
  • the camera 51-1 collects the sound of fireworks at the time of flowering at time t2.
  • time t3 which is later than time t2, the camera 51-2 collects the sound of fireworks at the time of flowering.
  • the time the sound arrives will differ depending on the distance from the fireworks.
  • the audience watching the fireworks at the camera 51-1 decides to hear the sound of the fireworks blooming when (time t2-time t1) minutes have passed from the image when the fireworks bloomed. Become.
  • the audience watching the fireworks at the camera 51-2 hears the sound of the fireworks blooming when (time t3-time t2) minutes have passed from the image when the fireworks bloomed. It will be.
  • the audience (camera 51) does not experience the image and sound at the same time, even if the image and sound are when the fireworks bloom. In other words, the image of the fireworks and the sound of the fireworks are offset and reach the audience (camera 51). Also, the farther away from the fireworks, the greater the gap between the image and the sound.
  • the viewer is viewing the content including the video and sound acquired by the camera 51. Further, when the viewer views the fireworks content acquired by the camera 51, the viewer may feel the difference between the image and the sound more.
  • the camera 51 When the camera 51 shoots the fireworks and makes the audience watch them, the camera 51 often zooms to the fireworks and provides the audience (viewer) with the image shot with the fireworks enlarged.
  • shooting fireworks in a zoomed state is equivalent to shooting fireworks nearby. That is, even if the image is a firework taken near, the sound becomes a firework that collects the sound in the distance, and there is a possibility that the difference between the image and the sound becomes large.
  • the process for eliminating such a gap between the image and the sound and providing the user (the audience, the viewer, etc. are collectively referred to as the user) in a state where the image and the sound match.
  • the user the process for eliminating such a gap between the image and the sound and providing the user (the audience, the viewer, etc. are collectively referred to as the user) in a state where the image and the sound match.
  • the AR glass is the content processing device 12 shown in FIG. 2
  • the content processing device 12 as an AR glass has an appearance configuration as shown in FIG.
  • the AR glass is a wearable terminal having a spectacle-shaped shape.
  • the content processing device 12 as an AR glass shown in FIG. 5 has a spectacle-shaped shape as a whole, and includes an image presentation device 13 and a camera 51.
  • the image presentation device 13 corresponds to the lens portion of the eyeglasses, and for example, all of them are configured as a transmissive display. Therefore, the image presentation device 13 transparently superimposes and displays the annotation (virtual object) on the image (real object) in the real world that the user is directly viewing.
  • the camera 51 is provided at the end of the image presentation device 13 corresponding to the left eye of the user wearing the AR glass, and captures an image of the real space included in the user's field of view.
  • the camera 51 is configured by using a solid-state image sensor such as a CCD (Charge Coupled Device) image sensor or a CMOS (Complementary Metal Oxide Semiconductor) image sensor. A plurality of each sensor may be provided. That is, the camera 51 may be configured as a stereo camera.
  • the image presentation device 13 can display an image acquired by the camera 51 and display an annotation superimposed on the image.
  • the image presentation device 13 only needs to display the image acquired by the camera 51, and it is not essential that the annotations are superimposed and displayed.
  • the AR glass as the content processing device 12 may be configured such that various sensors, buttons, speakers, and the like are housed or mounted in the housing corresponding to the frame of the eyeglasses. it can.
  • the shape of the AR glass is not limited to the shape shown in FIG. 5, and various shapes such as a hat shape, a belt shape fixed around the user's head, and a helmet shape covering the entire user's head can be used. Can be taken.
  • AR glasses as shown in FIG. 5 as an example, but the technique according to the present disclosure can be applied to HMD (Head Mounted Display) in general.
  • HMD Head Mounted Display
  • the content processing device 12 as an AR glass performs the processing as described with reference to FIG.
  • the content processing device 12 photographs fireworks with the camera 51 (FIG. 5). It is assumed that the fireworks bloom at time t11 and the blooming fireworks are photographed by the camera 51. When the fireworks bloom at time t11, the sound produced at that time reaches the user at time t12.
  • the content processing device 12 shifts the image by the amount of this deviation and presents it to the user. That is, in this case, the sound is delayed by the time T11 with respect to the video, and the video is delayed by the delay of this sound and presented to the user.
  • the content processing device 12 provides the user with the image captured by the camera 51 from the time t12. Further, the content processing device 12 masks the image from the time t11 to the time t12 (time T11) so that the image is not supplied to the user.
  • the content processing device 12 shoots fireworks from time t11, masks the image from time t11 to time t12, and starts playing the shot fireworks from time t12.
  • the image is masked by, for example, presenting the image taken before the time t11 to the user before the fireworks go up. Then, at time t12, the image of the fireworks that bloomed at time t11 is provided to the user. Then, at time t12, the sound of the fireworks that bloomed at time t11 reaches the user directly.
  • the video is processed as a delay and indirectly provided to the user, whereas the sound is directly provided to the user without being processed.
  • the sound is directly provided to the user without being processed.
  • the user will be provided with the image and sound of the fireworks that bloomed at time t12 at the same time.
  • the user can experience a more realistic feeling, and an intuitive and less uncomfortable experience becomes possible.
  • the presentation starts at time t12. That is, in this case, the tactile sensation (vibration) is presented to the user in accordance with the sound.
  • step S11 the content acquisition unit 31 (FIG. 2) acquires the content data.
  • the content data is the data of the image taken by the camera 51 (FIG. 5).
  • sound data may be acquired as content data.
  • step S12 the content analysis unit 32 analyzes the content data acquired by the content acquisition unit 31. This analysis is an analysis for determining whether or not the content includes a delay.
  • the content data is video data
  • the subject appearing as an image based on the video data is specified, and whether or not the subject may be out of sync with the sound when such a subject is photographed. Is judged. For example, when it is specified that fireworks are photographed as a subject, it is determined that the content includes a delay.
  • a database for making such a determination may be provided, and the determination may be made with reference to such a database.
  • the determination may be performed using the video data acquired by the camera 51 and the sound data acquired by the microphone (not shown).
  • the subject obtained by analyzing the video data and the sound estimated to have been produced by the subject as a sound source were extracted by analyzing the sound data, and the image was taken when the sound source produced the sound. It may be performed by determining whether or not there is a discrepancy between the time and the time when the sound is collected.
  • the distance to the subject is calculated, and the distance to the subject is equal to or longer than a predetermined distance, for example, the distance that the sound travels in one second or more, the content includes a delay. It may be judged.
  • step S13 it is determined whether or not the analysis result in step S12 is the content including the delay. This determination may be performed by the content analysis unit 32, or may be performed by the delay processing unit 33 by receiving the supply of the analysis result from the content analysis unit 32.
  • step S13 If it is determined in step S13 that the content does not include a delay, the process proceeds to step S14. In this case, since the content does not include delay, the content (video data) acquired by the content acquisition unit 31 is supplied to the video control unit 34 and provided by the video presentation device 13 without delay.
  • step S15 the image is masked.
  • the video control unit 34 temporarily stops the presentation of the video on the video presentation device 13, and continuously displays the image displayed at that time, that is, displays the still image.
  • the image is masked by controlling.
  • the image control unit 34 may display a black screen.
  • step S16 the delay processing unit 33 executes the delay amount setting process.
  • the delay amount corresponds to the time T11 described with reference to FIG. 6, and is an amount for shifting the playback start time of the video in order to match the video with the sound.
  • the delay amount setting process executed in step S16 will be described with reference to the flowchart of FIG.
  • step S31 the maximum distance included in the video is estimated or measured.
  • the video data is analyzed, the subject in the video is identified, and the distance to the subject is estimated.
  • a stereo camera is used to shoot an image, and image recognition using the image data obtained from the stereo camera is used to estimate the distance to the sound source.
  • the distance to the sound source may be measured by measuring the distance using a microphone array.
  • a Doppler sensor may be used to measure the distance to the sound source.
  • a plurality of estimation methods and measurement methods may be combined to determine the distance to the sound source.
  • the distance to each subject is estimated or measured (hereinafter, it is described as estimated, but it is also included in the case of measurement), and the farthest distance among them is Be extracted.
  • step S12 when the subject is detected when determining whether or not the content includes a delay, or the distance to the subject is obtained and determined. It is also possible to use the information obtained in the process in step S12, such as in the case of performing the above, or in the case of measuring the distance to the subject and making a determination based on the distance.
  • step S31 the maximum distance included in the video is estimated. This estimated maximum distance is described as the maximum distance Lmax.
  • step S32 the amount of video delay is set according to the maximum distance.
  • the video delay amount t0 is calculated by the following equation (1).
  • Delay amount t0 maximum distance Lmax / speed of sound v ... (1)
  • Equation (1) is an equation for calculating the delay amount t0 by dividing the maximum distance Lmax by the speed of sound v.
  • the farthest distance is extracted and the delay amount with respect to the distance is calculated.
  • the delay is delayed for each of those subjects. The amount may be calculated.
  • the delay amount is calculated by executing the processing of the flowchart shown in FIG. 8 has been described as an example, but the delay amount is calculated by another method (calculation formula). You may.
  • the subject and the delay amount are set in advance, and for example, when it is determined that the subject is fireworks, the delay amount set for the fireworks may be applied.
  • step S32 When the video delay amount t0 is set in step S32, the process proceeds to step S14 (FIG. 7).
  • step S14 the video delayed by the set delay amount t0 is provided. By delaying the start of providing the video by the delay amount t0, the video synchronized with the sound delivered to the user in real time is provided.
  • the set delay amount can be used until the type of content changes, in other words, until the subject being photographed changes.
  • the processing of the flowchart shown in FIG. 7 is performed, for example, after the shooting of the fireworks is started and while several fireworks are launched. Then, the delay amount is calculated, and once the video is delayed based on the delay amount, the reproduction is maintained as it is.
  • the image when the ball is hit and the hitting sound at that time are matched.
  • This technology can be applied to competitions other than soccer and baseball, such as table tennis and volleyball.
  • this technology can be applied when the hitting sound and the image when the hitting sound is produced are matched.
  • the content processing device 12 used by the user is provided with the sound presentation device 14 (FIG. 1), and a sound collecting device such as a microphone (FIG. 1) is provided. If (not shown) is provided, the sound may also be delayed as shown in FIG.
  • the content processing device 12 captures, for example, fireworks with the camera 51 (FIG. 5). It is assumed that the fireworks bloom at time t21 and the blooming fireworks are photographed by the camera 51. When the fireworks bloom at time t21, the sound produced at that time reaches the user at time t22. If the content processing device 12 presents the image and sound without processing, the image of the fireworks that bloomed from time t21 is presented, and the sound when the fireworks bloom at time t22 is presented.
  • the content processing device 12 presents the image of the flowering fireworks to the user at the time t23 when only the time T21 has passed from the time t21. Further, the content processing device 12 presents to the user the sound when the fireworks bloom at the time t23 when only the time T22 has passed from the time t22. That is, the content processing device 12 delays the start of the presentation of the video and the sound until the time t23, and then starts the presentation.
  • the content processing device 12 masks the image from the time t21 to the time t23.
  • the content processing device 12 also masks the sound from the time t22 to the time t23.
  • the processing related to the video is performed in the same manner as in the above case.
  • the sound collected by the microphone at time t22 is once recorded, and the recorded sound is reproduced at time t23.
  • the external sound in this case, the sound of fireworks
  • the external sound is erased by generating a sound having a phase opposite to the frequency of the collected sound.
  • Sound can be masked by applying a technique used in a technique called a so-called noise canceller or the like.
  • the sound recorded before the time t22 may be replayed or the like so that the sound is not interrupted.
  • the presentation starts at time t23. That is, in this case, the sense of touch (vibration) is presented to the user in accordance with the image and sound.
  • the first process relating to the matching of the image and the sound for example, when the fireworks are being viewed in real time, the case where the image and the sound when the fireworks bloom are matched and presented to the user has been described as an example. .. Further, in the first process, as described with reference to FIG. 9, even when the video and sound are delayed, the case where there is only one sound source has been described as an example.
  • the sounds include the sound when the fireworks bloom and the sound (voice of joy) emitted from the audience around the user.
  • the sound voice of joy
  • FIG. 6 consider a case where the image when the fireworks bloom is delayed so as to match the sound when the fireworks bloom. It is thought that the audience around the user makes a joyful voice when the fireworks bloom.
  • the user will be presented with the image when the fireworks bloom after hearing the joyful voices of the spectators around the user.
  • the user hears the joyful voice of the audience (hereinafter, appropriately referred to as the audience sound) when the image is masked and the fireworks cannot be seen.
  • the deviation between the flowering of the fireworks and the sound of the audience may cause the user to feel a sense of discomfort, which may contribute to the loss of the sense of presence.
  • the content processing device 12 will continue to be described as a wearable device such as AR glasses.
  • the content processing device 12 photographs fireworks with the camera 51 (FIG. 5). It is assumed that the fireworks bloom at time t31 and the blooming fireworks are photographed by the camera 51. When the fireworks bloom at time t31, the sound produced at that time (described as fireworks sound as appropriate) reaches the user at time t32.
  • the audience sound when the fireworks bloom reaches the user at time t31 is a sound that is close to the user and reaches the user without delay.
  • the spectator sound includes a sound from a spectator who is close to the fireworks launch location and away from the user. In such a case, the spectator sound may reach the user at time t32 as in the case of the fireworks sound.
  • the delay amount of the audience sound which will be described later, differs depending on which sound is processed. Therefore, the distance between individual spectator sounds (individual subjects) may be estimated, and the delay amount may be set for each of those spectator sounds. Further, although the individual audience sounds are used here, sounds other than the audience sounds can also be processed.
  • the content processing device 12 shifts the image by the amount of this deviation and presents it to the user. That is, in this case, the content processing device 12 provides the user with the image captured by the camera 51 from the time t32. From time t31 to time t32, the image is masked so that the image is not supplied to the user.
  • the content processing device 12 presents the audience sound to the user by shifting the time T31 in this case. That is, in this case, the content processing device 12 presents the audience sound collected by the sound collecting device (not shown) such as a microphone to the user from the time t32. From time t31 to time t32 (time T31), the spectator sound is masked so that the spectator sound is not presented to the user.
  • time t31 and time t32 By performing such processing, between time t31 and time t32, for example, the video and sound that were shot and recorded before the time t31, and the video and sound before the fireworks went up , Presented to the user. Then, at time t32, the image and sound of the fireworks that bloomed at time t31 are presented to the user. Then, at time t32, the beloved sound of the audience who was delighted by the fireworks that bloomed at time t31 also reaches the user.
  • the user will be provided with the image of the fireworks that bloomed at time t32, the sound of the fireworks, and the sound of the audience at the same time.
  • the user can experience a more realistic feeling, and an intuitive and less uncomfortable experience becomes possible.
  • the presentation is started from the time t32. That is, in this case, the tactile sensation (vibration) is presented to the user in accordance with the sound.
  • a tactile sensation corresponding to the plurality of sounds may be presented. In the case of the example shown in FIG. 10, the tactile sensation corresponding to the fireworks sound and the tactile sensation corresponding to the audience sound may be presented respectively.
  • steps S51 to S54 are the same as the processes of steps S11 to S14 (FIG. 7), and the description is duplicated. Therefore, the description thereof will be omitted here. If it is determined in step S53 that the content includes a delay, the process proceeds to step S55.
  • step S55 the sound source separation technique is applied to separate the sound source. For example, fireworks sounds and audience sounds are extracted from the sounds collected by a microphone. While the sound source separation is being executed, in step S56, video and sound masking is being executed.
  • the processing related to the sound source separation may be performed by the content analysis unit 32 (FIG. 2), and the sound control unit 35 may perform masking and delay processing using the result. Further, the sound control unit 35 may execute processing related to sound source separation, masking, and delay.
  • step S57 While the video and sound masking is being executed, the delay amount setting process is performed in step S57.
  • the delay amount setting process executed in step S57 will be described with reference to the flowchart of FIG.
  • steps S71 and S72 are performed in the same manner as the processes of steps S13 and S32 (FIG. 8), the description thereof will be omitted. That is, in steps S71 and S72, the amount of video delay is set.
  • step S73 the distance to each sound source is estimated or measured. This process is performed for each sound source separated in step S55. In this case, since the fireworks sound and the audience sound are extracted as the sound sources, the distance to the sound source of the fireworks sound and the distance to the sound source of the audience sound are estimated (measured), respectively.
  • This estimation (measurement) may be performed by measuring the distance with a microphone array or measuring the distance with a Doppler sensor, as in the above case, or by analyzing the image from the stereo camera to the sound source. The distance may be estimated.
  • information obtained in advance may be used for estimation (measurement).
  • the data of the 3D model of the venue may be downloaded, and the 3D model data may be used to estimate (measure) the distance to the sound source.
  • the information on the position where the user watches can be acquired in advance at the time before the actual viewing starts), and if such information can be acquired, such information is also used.
  • the distance between the user's position and the position of the sound source based on the 3D model data may be calculated.
  • the distance to the sound source of the fireworks sound is defined as the distance L1
  • the distance to the sound source of the audience sound is defined as the distance L2.
  • step S74 the amount of sound delay according to the distance is set.
  • the sound delay amount ti is calculated by the following equation (2).
  • Sound delay amount ti Video delay amount t0-Distance Li / Sound velocity v ... (2)
  • Equation (2) is an equation for calculating the sound delay amount ti by subtracting the value obtained by dividing the distance Li by the sound velocity v from the video delay amount t0.
  • the distance L1 is the distance to the fireworks, and the maximum distance Lmax is obtained. Therefore, the distance L1 / sound velocity v becomes the maximum distance Lmax / sound velocity v, and as a result, it becomes the same value as the video delay amount t0. Therefore, the delay amount of the fireworks sound becomes 0.
  • the fireworks sound is presented to the user without delay processing.
  • the distance L2 is a value close to 0 (here, 0). Therefore, the distance L2 / sound velocity v becomes 0. Therefore, the delay amount of the audience sound is substantially the same as the video delay amount t0. Since the image delay amount t0 is the time T31 in the example shown in FIG. 10, when the image of the fireworks that have bloomed is presented with a delay equivalent to the image, the voice of the audience when the fireworks bloom. Is presented.
  • step S74 When the sound delay amount is set in step S74, the process proceeds to step S54 (FIG. 11).
  • step S73 and step S74 is executed, in other words, the sound delay amount is set according to the distance, but it is set by another method (calculation formula). You can do it.
  • the subject and the delay amount are set in advance.
  • the delay amount set for the fireworks is applied, and when it is determined to be an audience. , The delay amount set for the spectator may be applied.
  • step S54 the video is delayed by the video delay amount t0, and the sound is delayed by the sound delay amount ti and presented to the user.
  • the second process has been described by taking the case where the subject is fireworks as an example, it can be applied to other subjects as in the first process.
  • the image when the ball is kicked matches the sound produced at that time. it can. It is also possible to delay the voice of the audience and the voice of the actual situation according to the distance.
  • the position where the user is watching the game is defined as the position L0.
  • This position L0 is the position where the microphone is installed and is also the position of the spectator.
  • the position L0 is 0 as the distance from the user.
  • the distance from the user's position L0 to the batter's box position is defined as the distance L1.
  • the distance from the user's position L0 to the position where the ball has fallen is defined as the distance L2.
  • the distance from the user's position L0 to the fence position is defined as the distance L3.
  • the collision sound when the batter hits the ball and the ball hits the fence is delayed by the sound delay amount t3.
  • the sound delay amount is sound delay amount t1 ⁇ sound delay amount t2 ⁇ sound delay amount t3. That is, the longer the distance, the larger the amount of sound delay.
  • the sound delay amount is set according to the distance, and the video delay amount is also set according to the distance as in the above case.
  • the video delay amount is also set according to the distance as in the above case.
  • the first process and the second process relating to the matching of video and sound described above can also be applied when the content is broadcast content.
  • the hitting sound when the batter hits the ball may not match the enlarged image of the batter being broadcast.
  • the position of the camera is set to the viewing position L0, the image is delayed in consideration of the distance L2 to the bat box, and the hitting sound is also delayed as necessary. As a result, it is possible to broadcast in a state where the image and sound when the ball hits the bat match.
  • This technology can be applied not only when broadcasting in real time but also when broadcasting recorded content.
  • the above-mentioned processing may be executed to edit the content so that the video and sound match, and the edited content may be broadcast.
  • the delay amount may be transmitted and received as information accompanying the broadcast content.
  • the broadcast content is the content obtained by shooting fireworks
  • information such as delaying the fireworks sound by 1 second and delaying the audience sound by 0.1 seconds is transmitted and received as information accompanying the broadcast content (in the information transmission format). It may be described and sent / received).
  • the content processing device 12 can also perform processing in which the video or sound is delayed by using the information on the delay amount associated with such broadcast content. Further, a mechanism may be provided so that whether or not such a delay is actually performed can be set on the content processing device 12 side. For example, a mechanism may be provided in which whether or not to execute the delay processing is set by the user.
  • the broadcast content is content that is shot (collected) in real time and broadcast, such as a baseball broadcast, it is necessary to consider the broadcast time as well.
  • the broadcasting start time and the broadcasting end time are set, and it is necessary that the playback of the content is stopped between them. This is the same even when the content is not such that the content is shot (sound collected) and broadcast in real time as in a baseball broadcast.
  • the video may be masked at the start of the broadcast, or the video that cannot be divided may remain at the end of the broadcast. There is.
  • the processing as shown in FIG. 14 may be performed.
  • shooting is started from time t41 before the broadcast start time t42.
  • the video captured at time t41 is delayed until time t42, and broadcasting starts at time t42.
  • the sound the sound collected from the time t42 at the start of broadcasting is broadcast as it is.
  • the broadcast end time is time t43
  • the broadcast section is from the beginning of the video to the end of the sound.
  • the presentation is performed within this broadcasting section.
  • the video is played back slowly from the broadcast start time t51 to the time t52.
  • the collected sound is broadcast as it is from the broadcast start time t51.
  • the video is fast-forwarded and played from time t53 before the broadcast end time t54.
  • the collected sound is broadcast as it is until the broadcast end time t54.
  • slow playback is performed at the beginning of the video
  • fast-forward playback is performed at the end
  • delayed playback is performed otherwise.
  • the entire section of sound from the beginning to the end is the broadcast section.
  • the presentation is performed within this broadcasting section.
  • the side that transmits the content for example, the content distribution device 11 shown in FIG. 1, executes the first process or the second process related to the matching of the video and sound described above, and performs the first process or the second process in FIG. 14 or The process with reference to FIG. 15 may be executed.
  • a part of the functions of the content processing device 12 shown in FIG. 2 is configured to be provided in the content distribution device 11.
  • the content processing device 12 may execute the first process or the second process related to the matching of the video and sound described above, and also execute the process with reference to FIG. 14 or FIG. Further, when the content processing device 12 is used for processing, the content processing device 12 may be provided with information that the content includes a delay from the content distribution device 11. Then, when such information is received, the content processing device 12 may execute the above-mentioned processing.
  • the delay is significantly increased, for example, 30 seconds. You may. If it is possible to delay significantly, the delay amount may be set after sufficient analysis, and the delayed content may be generated according to the delay amount and provided to the user side. When such contents are sufficiently analyzed, it becomes possible to generate an appropriate tactile sensation (vibration, etc.).
  • the position of the microphone is set to position L0.
  • the distance from the position L0 of the microphone to the position of the batter box is defined as the distance L1
  • the distance to the position where the ball has fallen is defined as the distance L2
  • the distance to the position of the fence is defined as the distance L3.
  • the viewing position is defined as the viewing position Lv, which is the position between the batter's box and the ball falling position.
  • the distance from the microphone position L0 to the viewing position Lv is defined as the distance Lv.
  • the image corresponding to the hitting sound when the batter hits the ball is delayed by the image delay amount t1.
  • the image delay amount t1 is obtained by subtracting the distance L1 from the absolute value of the difference value between the distance L1 and the distance Lv and dividing the subtracted value by the sound velocity v.
  • the image corresponding to the falling sound when the batter hits the ball and the ball falls to the ground is delayed by the image delay amount t2.
  • the image delay amount t2 is obtained by subtracting the distance L2 from the absolute value of the difference value between the distance L2 and the distance Lv and dividing the subtracted value by the sound velocity v.
  • the image corresponding to the collision sound when the batter hits the ball and the ball hits the fence is delayed by the image delay amount t3.
  • the image delay amount t3 is obtained by subtracting the distance L3 from the absolute value of the difference value between the distance L3 and the distance Lv and dividing the subtracted value by the sound velocity v.
  • a positive value or a negative value is calculated as the video delay amount t. If it is a positive value, the start of playback will be shifted to a time later than the time set as the start time of video playback, and if it is a negative value, it will be from the time set as the start time of video playback. The start of playback is shifted to the previous time.
  • the deviation amount can be finely adjusted according to the distance.
  • the sound collected outside the room may be output to the user by a device such as a speaker in the room.
  • the microphone that collects sound should be installed near the sound source.
  • a sound collecting device such as a microphone
  • some effect may be applied to the provided sound so that the sound to which the effect is applied is provided to the user.
  • a mechanism may be provided to apply an effect to the sound when the batter misses the ball to produce a flashy sound.
  • the CG effect may be superimposed and provided on the glass to the user who is watching the game in the above-mentioned glass-walled room or the like.
  • a sound collecting device such as a microphone may be installed near the sound source to provide the user with the collected sound, and the content in which the collected sound and the image match may be provided to the user. ..
  • the video and the sound may be acquired separately, the video may be delayed (fine-tuned) to match the sound, and the content in which the sound and the video match may be provided to the user.
  • the sound when the sound is provided to the user by a sound output device such as a speaker, the sound can be converted into a sound in a band that is easy for the user to hear, or the user's favorite voice quality (male voice, female voice, favorite singer's voice, etc.).
  • the sound may be provided to the user by converting it into a voice that feels like speaking in the ear.
  • this technology can be applied even when, for example, a user wears AR glasses, which is a wearable device shown in FIG. 5, at a live venue and enjoys a live performance.
  • the sound is heard by the user as live sound (sound that is not processed by the content processing device 12 and is directly heard by the user), and the video is provided with a delay by the content processing device 12.
  • the time it takes for the sound to reach differs depending on the position of the audience. You can enjoy the same video and sound with.
  • the live performance is divided into a performance and a chat called MC.
  • the delay method may be switched between playing and MC.
  • the delay time may be different between playing and MC, for example, with or without delay.
  • the mode in which the video is delayed and the mode in which the audio is delayed may be switched depending on which one you want to experience live, during performance or MC. Further, such switching may be set by the user.
  • an AR glass which is a wearable device shown in FIG. 5, is attached and a baseball game or the like is watched is described as an example.
  • the ball may jump into the spectators' seats.
  • a user who applies this technology and is watching a delayed image may not notice that the ball is flying even if the ball flies toward the user.
  • the display of the delayed video may be stopped and a mechanism may be provided to switch to the real-time video.
  • the content processing device 12 may provide a mechanism for analyzing the image being shot and detecting the danger when, for example, the ball is shot in a large size and it is determined that the ball is approaching. ..
  • a mechanism is provided in which a signal notifying the danger is transmitted from the device side to the user's terminal (content processing device 12). good.
  • the series of processes described above can be executed by hardware or software.
  • the programs constituting the software are installed on the computer.
  • the computer includes a computer embedded in dedicated hardware and, for example, a general-purpose personal computer capable of executing various functions by installing various programs.
  • FIG. 17 is a block diagram showing a configuration example of computer hardware that executes the above-mentioned series of processes programmatically.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input / output interface 505 is further connected to the bus 504.
  • An input unit 506, an output unit 507, a storage unit 508, a communication unit 509, and a drive 510 are connected to the input / output interface 505.
  • the input unit 506 includes a keyboard, a mouse, a microphone, and the like.
  • the output unit 507 includes a display, a speaker, and the like.
  • the storage unit 508 includes a hard disk, a non-volatile memory, and the like.
  • the communication unit 509 includes a network interface and the like.
  • the drive 510 drives a removable recording medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 501 loads the program stored in the storage unit 508 into the RAM 503 via the input / output interface 505 and the bus 504 and executes the above-described series. Is processed.
  • the program executed by the computer (CPU 501) can be recorded and provided on a removable recording medium 511 as a package medium or the like, for example. Programs can also be provided via wired or wireless transmission media such as local area networks, the Internet, and digital satellite broadcasting.
  • the program can be installed in the storage unit 508 via the input / output interface 505 by mounting the removable recording medium 511 in the drive 510. Further, the program can be received by the communication unit 509 and installed in the storage unit 508 via a wired or wireless transmission medium. In addition, the program can be pre-installed in the ROM 502 or the storage unit 508.
  • the program executed by the computer may be a program that is processed in chronological order according to the order described in this specification, or may be a program that is processed in parallel or at a necessary timing such as when a call is made. It may be a program in which processing is performed.
  • system represents the entire device composed of a plurality of devices.
  • the present technology can also have the following configurations.
  • a judgment unit that determines whether or not the content has a delayed sound with respect to the video An information processing device including a processing unit that delays and reproduces the video by a predetermined time when the determination unit determines that the content has a sound delayed with respect to the video.
  • the processing unit delays and reproduces the video so that the video when the sound source emits the sound matches the sound.
  • the predetermined time corresponds to a time during which the sound is delayed.
  • the information processing device according to any one of (1) to (3), wherein the predetermined time is set according to the distance to the sound source of the sound.
  • the information processing device further equipped with a shooting unit for shooting the above-mentioned image, The information processing device according to any one of (1) to (4) above, wherein the processing unit delays an image captured by the photographing unit.
  • the sound is a sound that reaches the user directly.
  • the information processing device according to (5) above, wherein the photographing unit captures an image directly delivered to the user.
  • the information processing device according to any one of (1) to (6) above, wherein the processing unit masks the image for the predetermined time.
  • the collected sound is separated into sound sources, The information processing apparatus according to any one of (1) to (7) above, wherein the processing unit delays and reproduces the sound according to the distance to the sound source separated by the sound source separation.
  • the content has a start time and an end time set, and the video captured at a time before the start time is reproduced from the start time according to any one of (1) to (8).
  • Information processing equipment (10) The content has a start time and an end time set, and is played back slowly within a predetermined time from the start time, and is played back in fast forward within a predetermined time before the end time (1) to (1).
  • the information processing apparatus according to any one of 8).
  • the content is VR (Virtual Reality) content, and is The processing unit delays and reproduces the video by a predetermined time according to the distance between the position where the user is viewing in the virtual space and the position where the sound of the content is collected (1). ) To (10).
  • the information processing device according to any one of (1) to (11) above, which presents a tactile sensation matching the sound.
  • An information processing device that processes video Determine if the content is delayed with respect to the video An information processing method in which, when it is determined that the content is delayed in sound with respect to the video, the video is played back with a delay of a predetermined time.
  • On the computer Determine if the content is delayed with respect to the video A program for executing a process including a step of delaying and playing back the video by a predetermined time when it is determined that the content has a delayed sound with respect to the video.
  • 11 content distribution device 12 content processing device, 13 video presentation device, 14 sound presentation device, 15 tactile presentation device, 31 content acquisition unit, 32 content analysis unit, 33 delay processing unit, 34 video control unit, 35 sound control unit, 36 Tactile control unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本技術は、映像と音が一致した状態で提供することができるようにする情報処理装置、情報処理方法、並びにプログラムに関する。 映像に対して音が遅延しているコンテンツであるか否かを判定する判定部と、判定部により映像に対して音が遅延しているコンテンツであると判定された場合、映像を所定の時間だけ遅延させて再生する処理部とを備える。処理部は、音源が音を出したときの映像と音が一致するように映像を遅延させて再生する。所定の時間は、音が遅延している時間に相当する。本技術は、映像を処理する情報処理装置に適用できる。

Description

情報処理装置、情報処理方法、並びにプログラム
 本技術は、情報処理装置、情報処理方法、並びにプログラムに関し、例えば、映像と音を違和感がないように提示するようにした情報処理装置、情報処理方法、並びにプログラムに関する。
 例えば、音と、その音を出した音源の映像を視聴したときに、光速と音速の違いにより、映像よりも音が遅れて視聴者に届くことがある。このような音の遅延は、音源からの距離が離れるほど顕著に表れる。
 特許文献1では、ユーザに触覚を与える触覚デバイスを用いたときに、音の到達遅延を考慮して、触覚デバイスの出力タイミングを調整することが提案されている。
WO2019/013056A1号公報
 上記したように、音と、その音を出した音源の映像を視聴したときに、映像よりも音が遅延して届くことがある。このような音の遅延、換言すれば、映像と音の不一致は、視聴者に違和感を与える一因となる可能性があった。
 本技術は、このような状況に鑑みてなされたものであり、映像と音を違和感がないように提供できるようにするものである。
 本技術の一側面の情報処理装置は、映像に対して音が遅延しているコンテンツであるか否かを判定する判定部と、前記判定部により映像に対して音が遅延しているコンテンツであると判定された場合、前記映像を所定の時間だけ遅延させて再生する処理部とを備える。
 本技術の一側面の情報処理方法は、映像を処理する情報処理装置が、映像に対して音が遅延しているコンテンツであるか否かを判定し、映像に対して音が遅延しているコンテンツであると判定された場合、前記映像を所定の時間だけ遅延させて再生する。
 本技術の一側面のプログラムは、コンピュータに、映像に対して音が遅延しているコンテンツであるか否かを判定し、映像に対して音が遅延しているコンテンツであると判定された場合、前記映像を所定の時間だけ遅延させて再生するステップを含む処理を実行させる。
 本技術の一側面の情報処理装置、情報処理方法、並びにプログラムにおいては、映像に対して音が遅延しているコンテンツである場合、映像が所定の時間だけ遅延されて再生される。
 なお、情報処理装置は、独立した装置であっても良いし、1つの装置を構成している内部ブロックであっても良い。
 また、プログラムは、伝送媒体を介して伝送することにより、または、記録媒体に記録して、提供することができる。
本技術を適用したシステムの一実施の形態の構成を示す図である。 本技術を適用したコンテンツ処理装置の一実施の形態の構成を示す図である。 遅延を含むコンテンツについて説明するための図である。 遅延を含むコンテンツについて説明するための図である。 ARグラスの外観の構成例を示す図である。 映像の遅延について説明するための図である。 コンテンツの第1の処理について説明するためのフローチャートである。 遅延量の設定処理の詳細について説明するためのフローチャートである。 映像と音を遅延させる場合について説明するための図である。 映像と音を遅延させる場合について説明するための図である。 コンテンツの第2の処理について説明するためのフローチャートである。 遅延量の設定処理の詳細について説明するためのフローチャートである。 音遅延量の設定の仕方について説明するための図である。 放送コンテンツの処理例について説明するための図である。 放送コンテンツの処理例について説明するための図である。 VRコンテンツの処理例について説明するための図である。 パーソナルコンピュータの構成例を示す図である。
 以下に、本技術を実施するための形態(以下、実施の形態という)について説明する。
 <情報処理システムの構成>
 本技術は、映像と音を含むコンテンツを生成し、生成されたコンテンツを再生するシステムに適用できる。また映像と音を、ユーザが違和感を覚えることがないように編集し、その編集されたコンテンツを再生するシステムに適用できる。
 以下の説明において、コンテンツとは、映像と音を含むコンテンツである。また、映像と音のどちらか一方または両方が、視聴者に直接的または間接的に提供されるコンテンツである場合も含まれる。
 視聴者に直接的に提供されるとは、何らかの処理が行われることなく、視聴者に提供されることを意味し、間接的に提供されるとは、何らかの処理が行われて、視聴者に提供されることを意味するとする。
 例えば、視聴者に直接的に音が提供されるとは、音源で出された音が、何らかの処理が行われることなく視聴者の耳に届くことを意味し、視聴者に間接的に音が提供されるとは、音源で出された音が、エフェクトなどの何らかの処理が施されたあと、視聴者の耳に届くことを意味する。
 また、後述するように、映像は音に対して所定の遅延量だけ遅延されて視聴者に提供されるが、このような遅延された映像が視聴者に提供されるのは、視聴者に間接的に映像が提供される場合の一例である。
 図1は、本技術を適用したコンテンツを処理する情報処理システムの一実施の形態の構成を示す図である。情報処理システムは、コンテンツ配信装置11、コンテンツ処理装置12、映像提示デバイス13、音提示デバイス14、および触覚提示デバイス15を含む。
 コンテンツ配信装置11は、コンテンツを配信する。コンテンツの配信は、ネットワークを介して行われたり、テレビジョン放送として行われたりする。また、記録媒体にコンテンツが記録されることで配信されても良い。
 コンテンツ処理装置12は、コンテンツ配信装置11から配信されたコンテンツを受信し、処理する。コンテンツ処理装置12は、テレビジョン受像器、パーソナルコンピュータ(PC)、スマートフォンなどである。コンテンツ配信装置11とコンテンツ処理装置12との間での通信は、有線であっても無線であっても良い。
 またコンテンツ処理装置12は、コンテンツ処理装置12自身がコンテンツ生成する機能を有していても良い。例えば、コンテンツ処理装置12は、カメラを有し、カメラで撮影された映像をコンテンツとして処理する構成とされていても良い。例えば、後述するように、コンテンツ処理装置12は、ARグラス(augmented reality glass)などでも良い。
 映像提示デバイス13は、コンテンツ処理装置12により処理されたコンテンツに含まれる映像データに基づく映像をユーザに提示するデバイスである。映像提示デバイス13は、例えば、モニタ、プロジェクタ、HMD(Head Mounted Display)などである。
 音提示デバイス14は、コンテンツ処理装置12により処理されたコンテンツに含まれる音データに基づく音をユーザに提示するデバイスである。音提示デバイス14は、スピーカ、イヤホンなどである。
 触覚提示デバイス15は、映像や音に合った振動をユーザに提示するデバイスである。触覚提示デバイス15は、例えば、振動子が組み込まれたリストバンド、グローブ、ベスト、コントローラなどである。
 コンテンツ処理装置12、映像提示デバイス13、および音提示デバイス14は、1台の装置として構成されていても良く、テレビジョン受像器、パーソナルコンピュータ(PC)、スマートフォンなどで構成することができる。さらに、触覚提示デバイス15も1台の装置に組み込まれていても良く、例えばスマートフォンなどには、バイブレーション機能があり、そのバイブレーション機能を実現するデバイスを、触覚提示デバイス15として用いるようにしても良い。
 図2は、コンテンツ処理装置12の機能構成例を示す図である。コンテンツ処理装置12は、コンテンツ取得部31、コンテンツ解析部32、遅延処理部33、映像制御部34、音制御部35、および触覚制御部36を含む。
 コンテンツ取得部31は、配信されたコンテンツの受信を制御したり、自己が備えるカメラで撮影された映像をコンテンツとして取得したりする。またマイクロフォンなどの集音装置を備えている場合、コンテンツ取得部31が、集音装置で集音された音も取得する。コンテンツ取得部31により取得が制御されたコンテンツは、コンテンツ解析部32に供給される。
 コンテンツ解析部32は、コンテンツ取得部31から供給されたコンテンツを解析する。コンテンツ解析部32が行う解析は、主にコンテンツが遅延を含むコンテンツであるか否かを判定するための解析を行う。
 コンテンツ解析部32は、遅延を含むコンテンツであるか否かを判定するために、例えば、映像データを解析して、被写体までの距離を推定したり、音データを解析して、音を種類別に分類したりする。
 また、測距するためのセンサなどが備えられている場合、そのようなセンサから得られた情報を、遅延を含むコンテンツであるか否かを判定するため情報として用いることができる。このような構成である場合、コンテンツ解析部32は、センサからの情報を用いて、コンテンツ取得部31で取得されたコンテンツは、遅延を含むコンテンツであるか否かの解析を行う。
 コンテンツ解析部32による解析結果は、遅延処理部33に供給される。
 遅延処理部33は、コンテンツ解析部32による解析結果を用いて、映像の遅延量を調整する。後述するように、映像と音が一致した映像が提示されるように、映像を遅延させる処理が行われる。この遅延に関する処理が遅延処理部33において行われる。また遅延処理部33は、音も遅延させるように構成されている場合、音の遅延量も調整する。
 映像制御部34は、遅延処理部33により遅延量が設定された場合、その遅延量分だけ、遅延された映像が、映像提示デバイス13(図1)で提示されるように制御する。
 音制御部35は、遅延処理部33により音に関する遅延量が設定された場合、その遅延量分だけ、遅延された音が、音提示デバイス14(図1)で提示されるように制御する。触覚制御部36は、音に合った触覚が、触覚提示デバイス15(図1)で提示されるように制御する。
 なお、音提示デバイス14や触覚提示デバイス15を制御する構成とされていないコンテンツ処理装置12に対しても本技術を適用することは可能であり、コンテンツ処理装置12を、音制御部35や触覚制御部36を備えない構成とすることも可能である。
 触覚制御部36に供給される触覚データは、コンテンツとともに、コンテンツ配信装置11(図1)から供給される。または触覚データは、コンテンツ解析部32が映像データや音データを解析することで生成するようにしても良い。
 <コンテンツ処理装置の処理の概略>
 コンテンツ処理装置12が実行する処理の概略について説明する。ここでは、コンテンツとして、花火を撮影した映像である場合を例に挙げて説明を行う。
 打ち上げ花火は、上空に打ち上げられ、開いたときに大きな音が鳴る。ここでは、この音は“ドーン”という擬音で表現する。観客は、開いた打ち上げ花火を見て歓喜の声を上げることもある。
 図3に示したように、カメラ51-1とカメラ51-2で花火を撮影する場合を想定する。カメラ51-1は、開花した花火からの距離が距離L1のところから花火を撮影し、カメラ51-2は、開花した花火からの距離が距離L2のところから花火を撮影する。距離L1は、距離L2より近い位置に位置する。すなわち、距離L1<距離L2の関係が満たされる。
 花火の映像と花火の音を比較した場合、映像は光速でカメラ51に届き、音は音速でカメラ51に届くため、映像の方が、音よりも先にカメラ51に届く。また、花火の映像は、開花したときに、開花した花火の映像がほぼ瞬時にカメラ51に届き、撮影されるが、花火が開花したときに発生する音は、映像よりも後にカメラ51に届き、録音される。音が届くまでの時間は、距離が離れているほど長くなる。
 このようなことは、カメラ51で花火を撮影している場合に限らず、カメラ51の代わりに観客がいるときも同じである。すなわち、花火の映像は、開花したときに、開花した花火の映像がほぼ瞬時に観客に届き、見られるが、花火が開花したときに発生する音は、映像よりも後に観客に届き、聞かれることになる。
 図4は、カメラ51(観客)に届く映像と音との関係を示す図である。開花したときの花火は、時刻t1において、カメラ51-1とカメラ51-2に、ほぼ同時に撮影される。カメラ51-1は、時刻t2において、開花したときの花火の音を集音する。時刻t2よりも後の時刻t3において、カメラ51-2は、開花したときの花火の音を集音する。
 同一の花火を撮影していても、花火からの距離により、音が届く時間が異なる。カメラ51-1のところで花火を見ている観客は、花火が開花したときの映像よりも(時刻t2―時刻t1)分の時間だけ経過したときに、花火が開花したときの音を聞くことになる。また、カメラ51-2のところで花火を見ている観客は、花火が開花したときの映像よりも(時刻t3―時刻t2)分の時間だけ経過したときに、花火が開花したときの音を聞くことになる。
 観客(カメラ51)は、花火が開花したときの映像と音であっても、その映像と音を同時に体感するわけではない。換言すれば、花火の映像と花火の音は、ずれて観客(カメラ51)に届くことになる。また花火からの距離が遠くなればなるほど、映像と音のずれは大きくなる。
 観客は、花火をリアルタイムで見ていても、花火が開花したときの映像と音を同時に体感することはできない可能性があり、臨場感が失われる可能性がある。
 カメラ51で取得された映像と音を含むコンテンツを視聴者が視聴している場合も同様である。さらにカメラ51で取得された花火のコンテンツを視聴者が視聴する場合、視聴者は、映像と音のずれをより感じてしまう可能性がある。
 カメラ51で花火を撮影し、観客に視聴させる場合、カメラ51では、花火にズームして、花火が拡大された状態で撮影された映像が観客(視聴者)に提供されることが多い。
 ズームした状態で花火を撮影することは、花火を近くで撮影している状況に等しいともいえる。すなわち、映像は近くで撮影した花火であっても、音は遠くで集音した花火となり、映像と音のずれが大きくなる可能性がある。
 このようなずれは、上記した場合と同じく、臨場感が失われる原因となる。また、視聴者は、拡大された花火を見るため、花火との距離感をつかめず、さらに音が遅延して聞こえることで違和感を覚えてしまう可能性もある。
 以下の説明においては、このような映像と音のずれを解消し、映像と音が一致した状態で、ユーザ(観客や視聴者などを総称してユーザと記載する)に提供するための処理について説明を加える。
 <映像と音の一致に関する第1の処理>
 映像と音の一致に関する第1の処理として、例えば、ユーザがリアルタイムに、花火が見える場所で花火を見ているときに、花火と観賞している位置との距離に係わらず、花火が開花したときの映像と音を一致させてユーザに提示する場合を例に挙げて説明する。
 例えば、ユーザは、ARグラスなどと称されるウェアラブルデバイスを装着して、花火を見ている場合を想定する。またここではARグラスが、図2に示したコンテンツ処理装置12である場合を例に挙げて説明する。例えば、ARグラスとしてのコンテンツ処理装置12は、図5に示すような外観構成を有する。
 ARグラスは、図5に示すように、眼鏡型の形状を有するウェアラブル端末である。図5に示したARグラスとしてのコンテンツ処理装置12は、全体として眼鏡型の形状を採り、映像提示デバイス13と、カメラ51を備えている。
 映像提示デバイス13は、眼鏡のレンズ部分に対応し、例えばその全部が透過型のディスプレイとして構成される。したがって、映像提示デバイス13は、ユーザが直接視認している実世界の像(実オブジェクト)に、アノテーション(仮想オブジェクト)を透過的に重畳表示する。
 カメラ51は、ARグラスを装着するユーザの左眼に対応する映像提示デバイス13の端に設けられ、そのユーザの視野に含まれる実空間の像を撮像する。カメラ51は、例えばCCD(Charge Coupled Device)イメージセンサや、CMOS(Complementary Metal Oxide Semiconductor)イメージセンサなどの固体撮像素子を用いて構成される。なお、各センサは、それぞれ複数設けられていてもよい。すなわち、カメラ51は、ステレオカメラとして構成されてもよい。
 映像提示デバイス13には、カメラ51により取得された画像を表示させるとともに、その画像に対してアノテーションを重畳表示させるようにすることもできる。本実施の形態においては、後述するように、映像提示デバイス13には、カメラ51により取得された画像が表示されれば良く、アノテーションが重畳表示されるのは必須ではない。
 また、図示はしないが、コンテンツ処理装置12としてのARグラスにおいて眼鏡のフレームに対応する筐体には、各種のセンサ類やボタン、スピーカなどが、収納または搭載されているように構成することもできる。
 なお、ARグラスの形状は、図5に示される形状に限らず、帽子形状、ユーザの頭部を一周して固定されるベルト形状、ユーザの頭部全体を覆うヘルメット形状など、さまざまな形状を採ることができる。ここでは、図5に示したようなARグラスを例に挙げて説明を続けるが、本開示に係る技術は、HMD(Head Mounted Display)全般に適用することができる。
 ARグラスとしてのコンテンツ処理装置12は、図6を参照して説明するような処理を行う。コンテンツ処理装置12は、カメラ51(図5)により、花火を撮影する。時刻t11に花火が開花し、その開花した花火をカメラ51により撮影したとする。時刻t11において、花火が開花すると、そのときに出た音は、時刻t12において、ユーザに届く。
 ユーザに映像が届いてから音が届くまでに、時間T11(=時刻t12-時刻t11)だけずれがある。このずれ分だけ、コンテンツ処理装置12は、映像をずらしてユーザに提示する。すなわちこの場合、映像に対して音は、時間T11だけ遅延しており、この音の遅延分だけ映像を遅延させてユーザに提示する。
 コンテンツ処理装置12は、時刻t12から、カメラ51で撮影していた映像を、ユーザに提供する。またコンテンツ処理装置12は、時刻t11から時刻t12(時間T11)の間は、映像をマスキングするなどして、ユーザに映像が供給されないようにする。
 コンテンツ処理装置12は、時刻t11から花火を撮影し、時刻t11から時刻t12まで、映像をマスキングし、時刻t12から、撮影した花火の再生を開始する。
 映像をマスキングとしては、例えば、時刻t11よりも前に撮影していた映像であり、花火が上がる前の映像を、ユーザに提示することで行われる。そして、時刻t12になると、時刻t11のときに開花した花火の映像が、ユーザに提供される。そして、時刻t12においては、時刻t11に開花した花火の音が、直接的にユーザに届く。
 この例では、映像は、遅延という処理が施され、間接的にユーザに提供されるのに対して、音は、処理が施されることなく、直接的にユーザに提供される。このように音はそのまま活かし、映像の方を遅延させることで、音に合った映像が提供される。
 ユーザには時刻t12に開花した花火の映像と音が同時に提供されることになる。このように、映像と音が同時に提供されることで、ユーザはより臨場感を味わうことができ、直感的で違和感の少ない体験が可能となる。
 図6に示したように、触覚を触覚提示デバイス15(図1)で提供するようにした場合、時刻t12から提示が開始される。すなわちこの場合、音に合わせて触覚(振動)がユーザに提示される。
 このような処理を行うコンテンツ処理装置12の処理について、図7に示したフローチャートを参照し説明する。
 ステップS11において、コンテンツ取得部31(図2)は、コンテンツデータを取得する。この場合、コンテンツデータは、カメラ51(図5)で撮影された映像のデータである。マイクロフォンを備え、音を集音するように構成されている場合、コンテンツデータとして音データも取得されるようにしても良い。
 ステップS12において、コンテンツ解析部32は、コンテンツ取得部31により取得されたコンテンツデータを解析する。この解析は、遅延が含まれるコンテンツであるか否かを判定するための解析である。
 例えば、コンテンツデータが、映像データである場合、その映像データによる映像として写っている被写体を特定し、そのような被写体が撮影されたときに音とずれが生じる可能性がある被写体であるか否かが判定される。例えば、被写体として花火が撮影されていると特定された場合、遅延が含まれるコンテンツであると判定される。このような判定を行うためのデータベースを備え、そのようなデータベースが参照されて判定が行われるようにしても良い。
 また、カメラ51により取得される映像データと、マイクロフォン(不図示)により取得される音データを用いた判定が行われるようにしても良い。例えば映像データを解析することで得られる被写体と、その被写体が音源となって出したと推定される音を、音データを解析することで抽出し、音源が音を出したときに撮影された時刻と音が集音された時刻とにずれがあるか否かを判定することで行われるようにしても良い。
 また、映像データを解析し、被写体までの距離を算出し、その被写体までの距離が、所定の距離以上、例えば、1秒間に音が進む距離以上である場合、遅延が含まれるコンテンツであると判定されるようにしても良い。
 ステップS13において、ステップS12における解析結果が、遅延が含まれるコンテンツであるか否かが判定される。この判定は、コンテンツ解析部32で行われるようにしても良いし、遅延処理部33が、コンテンツ解析部32からの解析結果の供給を受けて行うようにしても良い。
 ステップS13において、遅延が含まれるコンテンツではないと判定された場合、ステップS14に処理は進められる。この場合、遅延を含まないコンテンツであるため、コンテンツ取得部31で取得されたコンテンツ(映像データ)は、映像制御部34に供給され、遅延されることなく映像提示デバイス13で提供される。
 一方、ステップS13において、遅延が含まれるコンテンツであると判定された場合、ステップS15に処理は進められる。ステップS15において、映像がマスキングされる。映像制御部34は、例えば、映像提示デバイス13での映像の提示を一時的に停止し、その時点で表示されている画像を継続して表示される、すなわち静止画像が表示されるように表示を制御することで、映像のマスキングを行う。または映像制御部34は、黒画面を表示するようにしても良い。
 映像のマスキングが実行されている一方で、ステップS16において、遅延処理部33により、遅延量の設定処理が実行される。遅延量は、図6を参照して説明した時間T11に該当し、映像が音に合うようにするために、映像の再生の開始時刻をずらすための量である。ステップS16において実行される遅延量設定処理について、図8のフローチャートを参照して説明する。
 ステップS31において、映像中に含まれる最大距離が推定または測定される。映像データを解析し、映像内の被写体を特定し、その被写体までの距離が推定される。例えば、ステレオカメラを用いて、映像を撮影し、ステレオカメラから得られた映像データを用いた画像認識により、音の発生源までの距離が推定される。
 または、マイクアレイを用いた距離測定により、音の発生源までの距離が測定されるようにしても良い。またはドップラーセンサを用いて、音の発生源までの距離が測定されるようにしても良い。
 距離の推定や計測は、複数の推定方法や計測方法が組み合わされて音の発生源までの距離が確定されるようにしても良い。また被写体が複数検出された場合、それぞれの被写体までの距離が推定または計測(以下、推定されるとして記載するが、計測の場合も含まれる記載であるとする)され、そのうちの最も遠い距離が抽出される。
 なお、ステップS31の処理は、ステップS12(図7)において、遅延が含まれるコンテンツであるか否かの判定のときに被写体を検出するようにした場合や、その被写体までの距離を求めて判定をするような場合や、被写体までの距離を計測して、その距離により判定を行うような場合など、ステップS12における処理で得られた情報を用いて行われるようにすることもできる。
 ステップS31において、映像中に含まれる最大距離が推定される。この推定された最大距離を最大距離Lmaxと記載する。ステップS32において、最大距離に応じて映像遅延量が設定される。例えば、映像遅延量t0は、次式(1)により算出される。
  遅延量t0=最大距離Lmax/音速v  ・・・(1)
 式(1)は、最大距離Lmaxを音速vで除算することで、遅延量t0を算出する式である。
 なお、ここでは被写体が複数検出された場合、最も遠い距離が抽出され、その距離に対する遅延量が算出されるとして説明をしたが、複数の被写体が検出された場合、それらの被写体毎に、遅延量が算出されるようにしても良い。
 ここでは、図8に示したフローチャートの処理が実行されることで遅延量が算出される場合を例に挙げて説明したが、他の方法(演算式)により、遅延量が算出されるようにしても良い。
 例えば、被写体と遅延量が予め設定されており、例えば、被写体が花火であると判定された場合には、花火に設定されている遅延量が適用されるようにしても良い。
 ステップS32において、映像の遅延量t0が設定されると、処理はステップS14(図7)に進められる。ステップS14において、設定された遅延量t0だけ遅延された映像の提供が行われる。遅延量t0だけ映像の提供の開始が遅延されることで、リアルタイムにユーザに届いた音に同期した映像が提供される。
 このように、映像の再生開始時刻をずらすことで、音と一致した映像を提供することができる。
 このように、設定された遅延量は、コンテンツの種類が変わるまで、換言すれば、撮影されている被写体が変わるまで用いられるようにすることができる。このようにした場合、図7に示したフローチャートの処理は、例えば、花火の撮影が開始されてから、数発花火が打ち上げられている間に行わる。そして、遅延量が算出され、その遅延量に基づいて一度映像が遅延されると、そのまま再生が維持される。
 ここでは、被写体が花火である場合を例に挙げて説明したが、もちろん、他の被写体であっても本技術を適用することはできる。
 例えば、サッカースタジアムでサッカーを観戦しているとき、ボールが蹴られた瞬間の映像を遅延させることで、ボールが蹴られたときの映像と、そのときに出た音を一致させる。
 また例えば、野球場でボールが打たれた瞬間の映像を遅延させることで、ボールが打たれたときの映像と、そのときの打球音を一致させる。
 サッカーや野球以外の競技、例えば卓球やバレーボールなどであっても、本技術を適用でき、例えば、打球音と打球音が出たときの映像を一致させる等の場合に、本技術を適用できる。
 ここでは、映像が遅延され、音は遅延されない場合を例に挙げて説明したが、ユーザが用いるコンテンツ処理装置12に、音提示デバイス14(図1)が備えら、マイクロフォンなどの集音装置(不図示)が備えられているような場合、図9に示すように、音も遅延されるようにしても良い。
 コンテンツ処理装置12は、カメラ51(図5)により、例えば花火を撮影する。時刻t21に花火が開花し、その開花した花火をカメラ51により撮影したとする。時刻t21において、花火が開花すると、そのときに出た音は、時刻t22において、ユーザに届く。仮に、コンテンツ処理装置12で、処理を行わずに映像と音を提示した場合、時刻t21から開花した花火の映像が提示され、時刻t22に花火が開花したときの音が提示される。
 コンテンツ処理装置12は、時刻t21から時間T21だけ経過した時刻t23において、開花した花火の映像をユーザに提示する。またコンテンツ処理装置12は、時刻t22から時間T22だけ経過した時刻t23において、花火が開花したときの音をユーザに提示する。すなわち、コンテンツ処理装置12は、映像と音の提示の開始を、それぞれ時刻t23まで遅延させてから、提示を開始する。
 このように、映像と音の両方を遅延させることで、映像と音が一致した状態でユーザに映像と音を提示することができる。例えば、放送コンテンツのように、十分にコンテンツを解析することができる場合などに適用することができる。
 コンテンツ処理装置12は、時刻t21から時刻t23までの間、映像をマスキングする。またコンテンツ処理装置12は、時刻t22から時刻t23までの間、音もマスキングする。映像に係わる処理は、上記した場合と同様に行われる。
 音に関する処理は、時刻t22においてマイクロフォンで集音された音が一旦録音され、その録音された音が、時刻t23において再生される。
 また時刻t22から時刻t23までは、集音されている音の周波数と逆相の音を生成することで、外部の音(この場合、花火の音)が消去される。いわゆるノイズキャンセラなどと称される技術に用いられている技術を適用して音をマスキングすることができる。または、時刻t22よりも前の時点で録音されていた音が、再度再生される等されるなどして、音が途切れることがないような処理がなされるようにしても良い。
 なお、図9に示したように、触覚を触覚提示デバイス15(図1)で提供するようにした場合、時刻t23から提示が開始される。すなわちこの場合、映像と音に合わせて触覚(振動)がユーザに提示される。
 <映像と音の一致に関する第2の処理>
 映像と音の一致に関する第2の処理について説明する。
 映像と音の一致に関する第1の処理においては、例えば、リアルタイムに花火を見ているときに、花火が開花したときの映像と音を一致させてユーザに提示する場合を例に挙げて説明した。また、第1の処理においては、図9を参照して説明したように、映像と音を遅延させる場合であっても、音源が1つである場合を例に挙げて説明した。
 映像と音の一致に関する第2の処理として、映像と音を遅延させる場合であり、音が複数ある場合を例に挙げて説明する。ここでも、花火が開花したときを例に挙げて説明を続ける。
 例えば、花火を鑑賞しているとき、音としては、花火が開花したときの音と、ユーザの周りにいる観客から発せられる音(歓喜の声)がある。図6を参照して説明したように、花火が開花したときの映像を、花火が開花したときの音に合うように遅延させた場合を考える。ユーザの周りにいる観客が歓喜の声を出すのは、花火が開花したときであると考えられる。
 花火が開花したときの映像を遅延させた場合、ユーザには、ユーザの周りにいる観客の歓喜の声が聞こえた後、花火が開花したときの映像が提示されることになる。さらに換言すると、ユーザは、映像がマスキングされている状態で、花火が見えない状態のときに、観客の歓喜の声(以下、観客音と適宜記載する)を聞くことになる。このような花火の開花と観客音がずれることで、ユーザは違和感を覚え、臨場感が損なわれる一因となる可能性がある。
 そこで、図10を参照して説明するようにコンテンツ処理装置12において処理がなされるようにする。ここでも、コンテンツ処理装置12は、ARグラスのようなウェアラブルデバイスであるとして説明を続ける。
 コンテンツ処理装置12は、カメラ51(図5)により、花火を撮影する。時刻t31に花火が開花し、その開花した花火をカメラ51により撮影したとする。時刻t31において、花火が開花すると、そのときに出た音(花火音と適宜記載する)は、時刻t32において、ユーザに届く。
 また、花火が開花したときの観客音は、時刻t31において、ユーザに届く。ここでは、観客音は、ユーザの近くにいる観客であり、ユーザには遅延なく届く音である場合を例にあげて説明する。観客音としては、花火の打ち上げ場所に近く、ユーザからは離れた位置にいる観客からの音もあり、このような場合には、花火音と同じく、時刻t32においてユーザに届く場合もある。
 すなわち、ユーザからの距離により、ユーザに観客音が届く時間が異なるため、どの音を処理するかにより後述する観客音の遅延量は異なる。よって、個々の観客音(個々の被写体)の距離を推定し、それらの観客音毎に遅延量が設定されるようにしても良い。また、ここでは個々の観客音とするが、観客音以外の音も、処理対象とすることもできる。
 ユーザに映像が届いてから花火音が届くまでに、時間T31(=時刻t32-時刻t31)だけずれがある。このずれ分だけ、コンテンツ処理装置12は、映像をずらしてユーザに提示する。すなわちこの場合、コンテンツ処理装置12は、時刻t32から、カメラ51で撮影していた映像を、ユーザに提供する。時刻t31から時刻t32の間は、映像をマスキングするなどして、ユーザに映像が供給されないようにする。
 またユーザに映像が届いたときに、観客音も届くが、この観客音は、花火音と同時または少し後に届かないと、ユーザに違和感を覚えさせてしまう可能性がある。そこで、コンテンツ処理装置12は、観客音を、この場合時間T31だけずらしてユーザに提示する。すなわちこの場合、コンテンツ処理装置12は、マイクロフォンなどの集音装置(不図示)で集音していた観客音を、時刻t32から、ユーザに提示する。時刻t31から時刻t32(時間T31)の間は、観客音をマスキングするなどして、ユーザに観客音が提示されないようにする。
 このような処理がなされることで、時刻t31から時刻t32までの間は、例えば、時刻t31よりも前に撮影され、録音されていた映像と音であり、花火が上がる前の映像と音が、ユーザに提示される。そして、時刻t32になると、時刻t31のときに開花した花火の映像と音が、ユーザに提示される。そして、時刻t32においては、時刻t31に開花した花火に歓喜した観客の歓喜音も、ユーザに届く。
 よって、ユーザには時刻t32に開花した花火の映像、花火音、および観客音が同時に提供されることになる。このように、映像と音が同時に提供されることで、ユーザはより臨場感を味わうことができ、直感的で違和感の少ない体験が可能となる。
 図10に示したように、触覚を触覚提示デバイス15(図1)で提供するようにした場合、時刻t32から提示が開始される。すなわちこの場合、音に合わせて触覚(振動)がユーザに提示される。また、図10に示していないが、複数の音が処理される場合、複数の音に対応する触覚が提示されるようにしても良い。図10に示した例の場合、花火音に対応する触覚と、観客音に対応する触覚が、それぞれ提示されるようにしても良い。
 このような処理を行うコンテンツ処理装置12の処理について、図11に示したフローチャートを参照し説明する。
 ステップS51乃至S54の処理は、ステップS11乃至S14(図7)の処理と同様の処理であり、説明が重複するため、ここでは説明を省略する。ステップS53において、遅延が含まれるコンテンツであると判定された場合、ステップS55に処理は進められる。
 ステップS55において、音源分離技術が適用されて音源が分離される。例えば、マイクロフォンで集音された音から、花火音と観客音が抽出される。音源分離が実行されている一方で、ステップS56において、映像と音のマスキングが実行される。
 音源分離に係わる処理は、コンテンツ解析部32(図2)が行い、その結果を用いて、音制御部35がマスキングや遅延の処理を行うようにしても良い。また音制御部35が、音源分離、マスキング、および遅延に係わる処理を実行するようにしても良い。
 映像と音のマスキングが実行されている間に、ステップS57において、遅延量の設定処理が行われる。ステップS57において実行される遅延量の設定処理について、図12のフローチャートを参照して説明する。
 ステップS71とステップS72の処理は、ステップS13とステップS32(図8)の処理と同様に行われるため、その説明は省略する。すなわち、ステップS71とステップS72において、映像の遅延量が設定される。
 ステップS73において、個々の音発生源までの距離が推定または計測される。この処理は、ステップS55において分離された音源毎に行われる。この場合、音源として、花火音と観客音が抽出されるため、花火音の音源までの距離と観客音の音源までの距離がそれぞれ推定(計測)される。この推定(計測)は、上記した場合と同じく、マイクアレイでの距離測定や、ドップラーセンサでの距離計測が行われても良いし、ステレオカメラからの画像を解析することで、音発生源までの距離が推定されるようにしても良い。
 また、推定(計測)は、事前に得られる情報が用いられても良い。例えば、会場に着いた時点で、その会場の3Dモデルのデータをダウンロードし、その3Dモデルデータが用いられて、音源までの距離が推定(計測)されるようにしても良い。この場合、ユーザが視聴する位置の情報も事前(実際に鑑賞を開始するよりも前の時点)に取得することができ、そのような情報も取得できた場合、そのような情報も利用して、ユーザの位置と3Dモデルデータによる音源の位置までの距離が算出されるようにしても良い。
 ここでは花火音の音源までの距離を距離L1とし、観客音の音源までの距離を距離L2とする。ステップS73において、個々の音源までの距離が求められると、ステップS74に処理は進められる。
 ステップS74において、距離に応じた音の遅延量が設定される。例えば、音遅延量tiは、次式(2)により算出される。
  音遅延量ti=映像遅延量t0―距離Li/音速v  ・・・(2)
 式(2)は、映像遅延量t0から、距離Liを音速vで除算した値を減算することで、音遅延量tiを算出する式である。
 例えば、花火音の遅延量は、
 音遅延量t1=映像遅延量t0―距離L1/音速v
で求められる。この場合、花火音は、花火が開花した位置が音源となるため、距離L1は、花火までの距離となり、最大距離Lmaxとなる。よって、距離L1/音速vは、最大距離Lmax/音速vとなり、結果として、映像遅延量t0と同じ値になる。よって、花火音の遅延量は、0となる。花火音は、遅延処理されることなく、ユーザに提示される。
 例えば、観客音の遅延量は、
 音遅延量t2=映像遅延量t0―距離L2/音速v
で求められる。この場合、観客音は、ユーザの周囲の観客を対象としているため、ユーザのいる位置(周辺)が音源となるため、距離L2は、0に近い値(ここでは0とする)となる。よって、距離L2/音速vは、0となる。よって、観客音の遅延量は、映像遅延量t0とほぼ同じ値となる。映像遅延量t0は、図10に示した例では時間T31となるため、映像と同等の時間だけ遅延されて、開花した花火の映像が提示されるときに、花火が開花したときの観客の声が提示される。
 ステップS74において、音の遅延量が設定されると、ステップS54(図11)に処理は進められる。
 なおここでは、ステップS73とステップS74の処理が実行されることで、換言すれば、距離に応じて音遅延量が設定されるとして説明したが、他の方法(演算式)で設定されるようにしても良い。
 例えば、被写体と遅延量が予め設定されており、例えば、被写体が花火であると判定された場合には、花火に設定されている遅延量が適用され、観客であると判定された場合には、観客に設定されている遅延量が適用されるようにしても良い。
 ステップS54において、映像が、映像遅延量t0だけ遅延され、音が、音遅延量tiだけ遅延されて、ユーザに提示される。
 このように、ユーザが違和感を覚えることなく、また臨場感を損なうことがないように、映像と音が適切に遅延される。
 第2の処理においても、被写体が花火である場合を例に挙げて説明したが、第1の処理と同じく他の被写体であっても適用することはできる。例えば、サッカースタジアムでサッカーを観戦しているとき、ボールが蹴られた瞬間の映像を遅延させることで、ボールが蹴られたときの映像と、そのときに出た音を一致させるようにすることできる。また観客の声や実況の声を、それぞれ距離に応じて遅延させることもできる。
 また例えば、野球場でボールが打たれた習慣の映像を遅延させることで、ボールが打たれたときの映像と、そのときに出た音を一致させるようにすることもできる。また観客の声や実況の声を、それぞれ距離に応じて遅延させることもできる。また、ボールが落下したときの音、フェンスにぶつかったときの音なども、距離に応じて遅延されるようにすることができる。
 ここで、野球を観戦しているとき(野球が撮影されているとき)の音の遅延量について説明を加える。ユーザが観戦している位置、図13では視聴位置とした位置を、位置L0とする。この位置L0は、マイクロフォンが設置されている位置であり、観客の位置でもある。位置L0は、ユーザからの距離としては0である。
 ユーザの位置L0から、バッターボックスの位置までの距離を、距離L1とする。ユーザの位置L0から、ボールが落下した位置までの距離を、距離L2とする。また、ユーザの位置L0から、フェンスの位置までの距離を、距離L3とする。
 バッターボックスで、打者がボールを打ったときの打球音は、音遅延量t1だけ遅延される。音遅延量t1は、
 音遅延量t1=映像遅延量t0―距離L1/音速v
で算出される。
 打者がボールを打ち、そのボールがグランドに落下したときの落下音は、音遅延量t2だけ遅延される。音遅延量t2は、
 音遅延量t2=映像遅延量t0―距離L2/音速v
で算出される。
 打者がボールを打ち、そのボールがフェンスに当たった衝突音は、音遅延量t3だけ遅延される。音遅延量t3は、
 音遅延量t3=映像遅延量t0―距離L3/音速v
で算出される。
 図13に示したように、距離L1<距離L2<距離L3である場合、音遅延量としては、音遅延量t1<音遅延量t2<音遅延量t3となる。すなわち、距離が遠くなるほど音遅延量も大きくなる。
 このように、距離に応じて音の遅延量(補正量)を細かく調整することで、映像のタイミングとより一致させることができる。
 図13を参照して説明したように、音遅延量を距離に応じて設定するとともに、上記した場合と同じく、映像遅延量も、距離に応じて設定されている。このように、映像と音の両方を遅延させることで、例えば、映像の方の遅延(補正)を大幅に行い、音の遅延で細かな調整を行うといった処理も可能となる。このことにより、より適切に映像と音を一致させることができる。
 <放送されるコンテンツを処理する場合>
 上記した映像と音の一致に関する第1の処理と第2の処理は、コンテンツが放送されるコンテンツである場合にも適用できる。
 本技術を適用することで、例えば、野球中継のとき、映像と合った音を放送することができるようになる。野球中継の場合、カメラのある位置と、例えばバッターボックスは、離れた位置にあるが、カメラで撮影され放送されるのは、バッターボックスに立ったバッターが拡大された映像である。
 バッターボックスとカメラ(マイクロフォン)が離れた位置にあるため、バッターがボールを打ったときの打球音は、放送されているバッターが拡大された映像と合わない可能性がある。
 図13を参照して説明したように、カメラ(マイクロフォン)の位置を、視聴位置L0として、バッターボックスまでの距離L2を考慮して、映像を遅延させ、また打球音も必要に応じて遅延させることで、バットにボールが当たったときの映像と音が一致した状態で放送を行うことができる。
 リアルタイムに放送する場合に限らず、録画されたコンテンツを放送する場合にも、本技術を適用できる。例えば、放送する前の時点で、上記した処理を実行し、映像と音が一致したコンテンツに編集しておき、その編集済みのコンテンツが放送されるようにしても良い。
 放送コンテンツをコンテンツ処理装置12が処理する場合、放送コンテンツに付随する情報として、遅延量が送受信されるようにしても良い。例えば、放送コンテンツが花火を撮影したコンテンツである場合、花火音は1秒遅延させ、観客音は0.1秒遅延させるといった情報が、放送コンテンツに付随する情報として送受信される(情報伝送フォーマットに記載され、送受信される)ようにしても良い。
 また、コンテンツ処理装置12は、そのような放送コンテンツに付随している遅延量に関する情報を用いて、映像や音を遅延させた処理を行うようにすることもできる。また、そのような遅延を実際に行うか否かは、コンテンツ処理装置12側で設定できる仕組みを設けても良い。例えば、遅延の処理を実行するか否かは、ユーザにより設定される仕組みを設けても良い。
 放送コンテンツが、野球中継のようなリアルタイムに撮影(集音)し、放送するようなコンテンツである場合、放送時間も考慮する必要がある。放送の場合、放送開始時刻と放送終了時刻が設定されており、その間にコンテンツの再生が収まる必要がある。このことは、野球中継のようなリアルタイムに撮影(集音)し、放送するようなコンテンツであはない場合であっても同様である。
 映像を遅延させたり、必要に応じて、音を遅延させたりするといった処理を実行すると、放送開始時に、映像がマスキングされていたり、放送終了時に、放送仕切れない映像が残ってしまったりする可能性がある。
 そこで、図14に示すような処理が行われるようにしても良い。放送開始時刻を時刻t42とした場合、放送開始時刻t42より前の時刻t41から撮影は開始される。時刻t41に撮影された映像は、時刻t42まで遅延され、時刻t42から放送が開始される。音は、放送開始時の時刻t42から集音された音が、そのまま放送される。
 放送終了時刻が時刻t43である場合、音は、放送終了時に終了される。映像は、遅延された状態で放送されているため、放送終了時刻t43の時点では、時刻t43より前の時点(時刻t43’とする)で撮影されていた映像が放送されている。時刻t43’から時刻t43までの間に撮影された映像は、カットされる。
 図14に示した例では、映像の冒頭から音の末尾までが放送区間とされる。また、触覚を提示する場合、この放送区間内で提示が行われる。
 図15を参照して、放送時における他の処理について説明する。映像は、放送開始時刻t51から時刻t52までスロー再生される。音は、放送開始時刻t51から、集音された音が、そのまま放送される。
 映像は、放送終了時刻t54より前の時刻t53から、早送り再生される。音は、放送終了時刻t54まで、集音された音が、そのまま放送される。
 図15に示した例では、映像の冒頭はスロー再生、末尾は早送り再生、それ以外は遅延された再生が行われる。音は、冒頭から末尾まで全区間が放送区間とされる。また、触覚を提示する場合、この放送区間内で提示が行われる。
 放送コンテンツの場合、コンテンツを送信する側、例えば、図1に示したコンテンツ配信装置11側で、上記した映像と音の一致に関する第1の処理または第2の処理を実行し、かつ図14または図15を参照した処理を実行するようにしても良い。このようにした場合、図2に示したコンテンツ処理装置12の機能の一部は、コンテンツ配信装置11が備える構成とされる。
 または、コンテンツ処理装置12側で、上記した映像と音の一致に関する第1の処理または第2の処理を実行し、かつ図14または図15を参照した処理も実行するようにしても良い。またコンテンツ処理装置12側で処理するようにした場合、コンテンツ処理装置12側に、コンテンツ配信装置11側から、遅延を含むコンテンツであるという情報が供給されるようにしても良い。そして、そのような情報を受信した場合、コンテンツ処理装置12は、上記した処理を実行するようにしても良い。
 図9を参照して説明したように、映像と音の両方を遅延させ、映像と音を一致させるような場合であり、そのようなコンテンツを放送する場合、例えば、30秒など大幅に遅延させても良い。また大幅に遅延させることが可能な場合、十分に解析した後、遅延量が設定され、その遅延量に応じて遅延されたコンテンツが生成され、ユーザ側に提供されるようにしても良い。このようなコンテンツが十分に解析されることで、適切な触覚(振動など)を生成することができるようになる。
 <VRコンテンツを処理する場合>
 上記した映像と音の一致に関する第1の処理と第2の処理は、VR(Virtual Reality)のコンテンツである場合にも適用できる。
 本技術を適用することで、例えば、野球中継を、VRコンテンツとして配信したときに、映像と音が合ったコンテンツを提供することができるようになる。また、VRコンテンツの場合、リアル感を出すために、映像と音にずれがあるように提供することもできる。ここでは、図13を参照して説明した野球中継を、VRコンテンツとして提供した場合を例に挙げて、映像と音にずれがあるように提供する処理について説明する。
 図16において、マイクロフォンの位置を、位置L0とする。マイクロフォンの位置L0から、バッターボックスの位置までの距離を距離L1、ボールが落下した位置までの距離を距離L2、フェンスの位置までの距離を距離L3とする。
 空間内をユーザが動き回れるように設計されているVRコンテンツである場合、例えばこの場合、ユーザはグラウンド内に位置し、グランド内から観戦することもできる。図16では、視聴位置を視聴位置Lvとし、バッターボックスとボール落下位置との間の位置であるとする。マイクロフォンの位置L0から、視聴位置Lvまでの距離を距離Lvとする。
 バッターボックスで、打者がボールを打ったときの打球音に該当する映像は、映像遅延量t1だけ遅延される。映像遅延量t1は、
 映像遅延量t1=(|距離L1―距離Lv|―距離L1)/音速v
で算出される。この場合、距離L1と距離Lvの差分値の絶対値から距離L1を減算し、その減算値を音速vで除算した値が映像遅延量t1とされる。
 打者がボールを打ち、そのボールがグランドに落下したときの落下音に該当する映像は、映像遅延量t2だけ遅延される。映像遅延量t2は、
 映像遅延量t2=(|距離L2―距離Lv|―距離L2)/音速v
で算出される。この場合、距離L2と距離Lvの差分値の絶対値から距離L2を減算し、その減算値を音速vで除算した値が映像遅延量t2とされる。
 打者がボールを打ち、そのボールがフェンスに当たった衝突音に該当する映像は、映像遅延量t3だけ遅延される。映像遅延量t3は、
 映像遅延量t3=(|距離L3―距離Lv|―距離L3)/音速v
で算出される。この場合、距離L3と距離Lvの差分値の絶対値から距離L3を減算し、その減算値を音速vで除算した値が映像遅延量t3とされる。
 図16に示した計算式によると、映像遅延量tとして、プラスの値またはマイナスの値が算出される。プラスの値の場合、映像の再生の開始時刻として設定されている時刻よりも後の時刻に再生の開始がずらされ、マイナスの値の場合、映像の再生の開始時刻として設定されている時刻よりも前の時刻に再生の開始がずらされる。
 映像と音が一致した状態で作り込まれているVRコンテンツの場合、映像の再生開始時刻を、設定されている再生開始時刻よりも前または後にずらすことで、仮想空間において、現実空間のようなずれをあえてユーザに与えることができるようになる。また図16を参照して説明したように、ずれ量を距離に応じて細かく調整することができる。
 VRコンテンツとして、ここでは野球観戦の場合を例に挙げて説明したが、他のコンテンツ内容であっても本技術を適用できる。
 <他の適用例など>
 上記した実施の形態においては、コンテンツの内容として花火を鑑賞している場合や、野球などのスポーツを観戦している場合を例に挙げて説明したが、これらのコンテンツ内容以外の他のコンテンツの内容であっても本技術を適用できる。すなわち、本技術は、コンテンツの内容によらず、適用可能である。
 また野球などの試合が行われるスタジアムには、VIPルームなどと称される観覧席もあり、ガラス張りで、外の音が伝わりづらい構造の部屋がある。このような部屋内で観戦しているユーザに対して、部屋の外部で集音された音を、部屋内のスピーカなどの装置で出音させ、ユーザに提供するようにしても良い。このようにしたとき、集音するマイクロフォンは、音源付近に設置されるようにする。音源付近に設置したマイクロフォンで集音した音をユーザに提供することで、映像と音が一致した状態にすることができる。
 また、このように、マイクロフォンなどの集音装置で集音された音をユーザに提供する場合、現実社会からの音はキャンセルする処理がなされる。また、集音された音をユーザに提供する場合、その提供する音に、何らかのエフェクトをかけ、エフェクトがかけられた音がユーザに提供されるようにしても良い。
 例えば、バッターボックス付近に設置されたマイクロフォンにより集音された音をユーザに提供する場合、バッターが空振りしたときの音にエフェクトをかけ、派手に演出したりするような仕組みを設けても良い。また、上記したガラス張りの部屋などで観戦しているユーザに対して、ガラス上にCGエフェクトを重畳して提供するようにしても良い。
 マイクロフォンなどの集音装置を、音源付近に設置し、集音された音をユーザに提供する構成とし、その集音された音と映像が一致したコンテンツがユーザに提供されるようにしても良い。この場合、映像と音は別々に取得され、音に合うように映像が遅延(微調整)され、音と映像が一致したコンテンツがユーザに提供されるようにしても良い。
 また、スピーカなどの出音装置で音をユーザに提供する場合、ユーザが聞きやすい帯域の音に変換したり、ユーザが好みの声質(男性の声、女性の声、好きな歌手の声など)に変換したり、耳元で話している感じの声に変換したりして、ユーザに音が提供されるようにしても良い。
 また、本技術は、例えば、ユーザが、ライブ会場で図5に示したウェアラブルデバイスであるARグラスを装着し、ライブを楽しむような場合にでも適用できる。ライブ会場では、音を生音(コンテンツ処理装置12で処理していない音であり、ユーザに直接的に聞こえる音)でユーザに聞かせ、映像はコンテンツ処理装置12で遅延させて提供する。例えば、ステージと観客の位置との距離の違いにより、観客の位置により音が到達するまでの時間が異なることが考えられるが、そのような違いを吸収して、会場内の人達に、同じタイミングで同じ映像と音を楽しませることができる。
 またライブは、演奏時とMCなどと称されるしゃべり時に分けられる。演奏時とMC時で遅延の仕方が切り替えられるようにしても良い。例えば、遅延時間が演奏時とMC時で異なる、例えば遅延ありまたは遅延なしとなるようにしても良い。また演奏時とMC時で、どちらを生で体感したいかにより、映像を遅延させるモードと、音声を遅延させるモードが切り替えられるようにしても良い。また、このような切り替えは、ユーザにより設定されるようにしてもよい。
 上記した実施の形態においては、例えば、図5に示したウェアラブルデバイスであるARグラスを装着し、野球などを観戦する場合を例に挙げて説明した。例えば野球観戦をしているとき、ボールが観客席に飛び込んでくることがある。本技術を適用して、遅延された映像を見ているユーザの場合、仮に、そのユーザの方にボールが飛んできても、ボールが飛んできていることに気づかない可能性がある。
 このような危険を回避するために、危険が検知された場合には、遅延されている映像の表示が停止され、リアルタイムの映像に切り替えられるような仕組みを設けても良い。危険の検知は、コンテンツ処理装置12が、撮影している映像を解析し、例えば、ボールが大きく撮影され、近づいてきていると判定されるときに危険を検知するような仕組みを設けても良い。また危険の検知は、観戦会場に設置されている装置が危険を検知し、その装置側から、ユーザの端末(コンテンツ処理装置12)側に、危険を知らせる信号が送信される仕組みを設けても良い。
 <記録媒体について>
 上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図17は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。コンピュータにおいて、CPU(Central Processing Unit)501、ROM(Read Only Memory)502、RAM(Random Access Memory)503は、バス504により相互に接続されている。バス504には、さらに、入出力インタフェース505が接続されている。入出力インタフェース505には、入力部506、出力部507、記憶部508、通信部509、及びドライブ510が接続されている。
 入力部506は、キーボード、マウス、マイクロフォンなどよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記憶部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインタフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
 以上のように構成されるコンピュータでは、CPU501が、例えば、記憶部508に記憶されているプログラムを、入出力インタフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インタフェース505を介して、記憶部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記憶部508にインストールすることができる。その他、プログラムは、ROM502や記憶部508に、予めインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
 なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 なお、本技術は以下のような構成も取ることができる。
(1)
 映像に対して音が遅延しているコンテンツであるか否かを判定する判定部と、
 前記判定部により映像に対して音が遅延しているコンテンツであると判定された場合、前記映像を所定の時間だけ遅延させて再生する処理部と
 を備える情報処理装置。
(2)
 前記処理部は、音源が前記音を出したときの前記映像と前記音が一致するように前記映像を遅延させて再生する
 前記(1)に記載の情報処理装置。
(3)
 前記所定の時間は、前記音が遅延している時間に相当する
 前記(1)または(2)に記載の情報処理装置。
(4)
 前記所定の時間は、前記音の音源までの距離に応じて設定される
 前記(1)乃至(3)のいずれかに記載の情報処理装置。
(5)
 前記映像を撮影する撮影部をさらに備え、
 前記処理部は、前記撮影部で撮影された映像を遅延する
 前記(1)乃至(4)のいずれかに記載の情報処理装置。
(6)
 前記音は、ユーザに直接的に届く音であり、
 前記撮影部は、前記ユーザに直接的に届いた映像を撮影する
 前記(5)に記載の情報処理装置。
(7)
 前記処理部は、前記所定の時間の間、前記映像をマスキングする
 前記(1)乃至(6)のいずれかに記載の情報処理装置。
(8)
 集音された音を音源分離し、
 前記処理部は、前記音源分離により分離された音源までの距離に応じて、前記音を遅延させて再生する
 前記(1)乃至(7)のいずれかに記載の情報処理装置。
(9)
 前記コンテンツは、開始時刻と終了時刻が設定されており、前記開始時刻よりも前の時点で撮影された映像が、前記開始時刻から再生される
 前記(1)乃至(8)のいずれかに記載の情報処理装置。
(10)
 前記コンテンツは、開始時刻と終了時刻が設定されており、前記開始時刻から所定の時間内はスロー再生され、前記終了時刻より前の所定の時間内は早送りで再生される
 前記(1)乃至(8)のいずれかに記載の情報処理装置。
(11)
 前記コンテンツは、VR(Virtual Reality)コンテンツであり、
 前記処理部は、ユーザが仮想空間内で視聴している位置と、前記コンテンツの音が集音されていた位置との距離に応じて前記映像を所定の時間だけ遅延させて再生する
 前記(1)乃至(10)のいずれかに記載の情報処理装置。
(12)
 前記音に合った触覚を提示する
 前記(1)乃至(11)のいずれかに記載の情報処理装置。
(13)
 映像を処理する情報処理装置が、
 映像に対して音が遅延しているコンテンツであるか否かを判定し、
 映像に対して音が遅延しているコンテンツであると判定された場合、前記映像を所定の時間だけ遅延させて再生する
 情報処理方法。
(14)
 コンピュータに、
 映像に対して音が遅延しているコンテンツであるか否かを判定し、
 映像に対して音が遅延しているコンテンツであると判定された場合、前記映像を所定の時間だけ遅延させて再生する
 ステップを含む処理を実行させるためのプログラム。
 11 コンテンツ配信装置, 12 コンテンツ処理装置, 13 映像提示デバイス, 14 音提示デバイス, 15 触覚提示デバイス, 31 コンテンツ取得部, 32 コンテンツ解析部, 33 遅延処理部, 34 映像制御部, 35 音制御部, 36 触覚制御部

Claims (14)

  1.  映像に対して音が遅延しているコンテンツであるか否かを判定する判定部と、
     前記判定部により映像に対して音が遅延しているコンテンツであると判定された場合、前記映像を所定の時間だけ遅延させて再生する処理部と
     を備える情報処理装置。
  2.  前記処理部は、音源が前記音を出したときの前記映像と前記音が一致するように前記映像を遅延させて再生する
     請求項1に記載の情報処理装置。
  3.  前記所定の時間は、前記音が遅延している時間に相当する
     請求項1に記載の情報処理装置。
  4.  前記所定の時間は、前記音の音源までの距離に応じて設定される
     請求項1に記載の情報処理装置。
  5.  前記映像を撮影する撮影部をさらに備え、
     前記処理部は、前記撮影部で撮影された映像を遅延する
     請求項1に記載の情報処理装置。
  6.  前記音は、ユーザに直接的に届く音であり、
     前記撮影部は、前記ユーザに直接的に届いた映像を撮影する
     請求項5に記載の情報処理装置。
  7.  前記処理部は、前記所定の時間の間、前記映像をマスキングする
     請求項1に記載の情報処理装置。
  8.  集音された音を音源分離し、
     前記処理部は、前記音源分離により分離された音源までの距離に応じて、前記音を遅延させて再生する
     請求項1に記載の情報処理装置。
  9.  前記コンテンツは、開始時刻と終了時刻が設定されており、前記開始時刻よりも前の時点で撮影された映像が、前記開始時刻から再生される
     請求項1に記載の情報処理装置。
  10.  前記コンテンツは、開始時刻と終了時刻が設定されており、前記開始時刻から所定の時間内はスロー再生され、前記終了時刻より前の所定の時間内は早送りで再生される
     請求項1に記載の情報処理装置。
  11.  前記コンテンツは、VR(Virtual Reality)コンテンツであり、
     前記処理部は、ユーザが仮想空間内で視聴している位置と、前記コンテンツの音が集音されていた位置との距離に応じて前記映像を所定の時間だけ遅延させて再生する
     請求項1に記載の情報処理装置。
  12.  前記音に合った触覚を提示する
     請求項1に記載の情報処理装置。
  13.  映像を処理する情報処理装置が、
     映像に対して音が遅延しているコンテンツであるか否かを判定し、
     映像に対して音が遅延しているコンテンツであると判定された場合、前記映像を所定の時間だけ遅延させて再生する
     情報処理方法。
  14.  コンピュータに、
     映像に対して音が遅延しているコンテンツであるか否かを判定し、
     映像に対して音が遅延しているコンテンツであると判定された場合、前記映像を所定の時間だけ遅延させて再生する
     ステップを含む処理を実行させるためのプログラム。
PCT/JP2020/040561 2019-11-12 2020-10-29 情報処理装置、情報処理方法、並びにプログラム WO2021095536A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202080077002.4A CN114731456A (zh) 2019-11-12 2020-10-29 信息处理装置、信息处理方法和程序
US17/774,547 US11887631B2 (en) 2019-11-12 2020-10-29 Information processing device and information processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-204441 2019-11-12
JP2019204441 2019-11-12

Publications (1)

Publication Number Publication Date
WO2021095536A1 true WO2021095536A1 (ja) 2021-05-20

Family

ID=75912368

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/040561 WO2021095536A1 (ja) 2019-11-12 2020-10-29 情報処理装置、情報処理方法、並びにプログラム

Country Status (3)

Country Link
US (1) US11887631B2 (ja)
CN (1) CN114731456A (ja)
WO (1) WO2021095536A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150037000A1 (en) * 2013-07-31 2015-02-05 United Video Properties, Inc. Methods and systems for providing variable speed fast-access playback operations
JP2017103542A (ja) * 2015-11-30 2017-06-08 株式会社小野測器 同期装置、同期方法及び同期プログラム
WO2019013056A1 (ja) * 2017-07-10 2019-01-17 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3830931B2 (ja) * 1999-07-07 2006-10-11 松下電器産業株式会社 Avデータ記録装置及び方法、当該avデータ記録装置又は方法で記録されたディスク、avデータ再生装置及び方法
US6912010B2 (en) * 2002-04-15 2005-06-28 Tektronix, Inc. Automated lip sync error correction
US7542655B2 (en) * 2004-06-29 2009-06-02 International Business Machines Corporation Saving presented clips of a program
JP4991129B2 (ja) * 2005-07-19 2012-08-01 Necディスプレイソリューションズ株式会社 映像音声再生装置および映像音声再生方法
JP2007158527A (ja) * 2005-12-01 2007-06-21 Sony Corp 信号処理装置、信号処理方法、再生装置、記録装置
US20080204420A1 (en) * 2007-02-28 2008-08-28 Fuji Xerox Co., Ltd. Low relief tactile interface with visual overlay
JP4873162B2 (ja) * 2007-03-13 2012-02-08 ヤマハ株式会社 映像コンテンツ再生装置
US20090207277A1 (en) * 2008-02-20 2009-08-20 Kabushiki Kaisha Toshiba Video camera and time-lag correction method
US20120057006A1 (en) * 2010-09-08 2012-03-08 Disney Enterprises, Inc. Autostereoscopic display system and method
JP5772069B2 (ja) * 2011-03-04 2015-09-02 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
JP2015166890A (ja) * 2014-03-03 2015-09-24 ソニー株式会社 情報処理装置、情報処理システム、情報処理方法及びプログラム
JP6274244B2 (ja) * 2016-03-31 2018-02-07 沖電気工業株式会社 収音再生装置、収音再生プログラム、収音装置及び再生装置
JPWO2018123612A1 (ja) * 2016-12-28 2019-10-31 ソニー株式会社 オーディオ信号再生装置及び再生方法、収音装置及び収音方法、並びにプログラム
WO2019013055A1 (ja) 2017-07-10 2019-01-17 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
WO2019168931A1 (en) * 2018-03-01 2019-09-06 Sony Corporation Dynamic lip-sync compensation for truly wireless bluetooth devices

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150037000A1 (en) * 2013-07-31 2015-02-05 United Video Properties, Inc. Methods and systems for providing variable speed fast-access playback operations
JP2017103542A (ja) * 2015-11-30 2017-06-08 株式会社小野測器 同期装置、同期方法及び同期プログラム
WO2019013056A1 (ja) * 2017-07-10 2019-01-17 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
CN114731456A (zh) 2022-07-08
US20220392496A1 (en) 2022-12-08
US11887631B2 (en) 2024-01-30

Similar Documents

Publication Publication Date Title
US10825480B2 (en) Automatic processing of double-system recording
RU2745414C2 (ru) Устройство обработки информации, способ генерации изображения, способ управления и носитель данных
JP6565903B2 (ja) 情報再生装置及び情報再生方法
US10390165B2 (en) Mixed reality system with spatialized audio
US10979613B2 (en) Audio capture for aerial devices
JP5594850B2 (ja) 代替現実システム制御装置、代替現実システム、代替現実システム制御方法、プログラム、および記録媒体
US20210092466A1 (en) Information processing apparatus, information processing method, and program
US11303689B2 (en) Method and apparatus for updating streamed content
JP6882057B2 (ja) 信号処理装置、信号処理方法、およびプログラム
WO2017002642A1 (ja) 情報機器及び表示処理方法
JP5155092B2 (ja) カメラ、再生装置、および再生方法
US20240098446A1 (en) Head tracked spatial audio and/or video rendering
JP2006041886A (ja) 情報処理装置および方法、記録媒体、並びにプログラム
US6782238B2 (en) Method for presenting media on an electronic device
JP5214394B2 (ja) カメラ
WO2021095536A1 (ja) 情報処理装置、情報処理方法、並びにプログラム
KR20090000550A (ko) 입체영상을 이용한 무대공연 컨텐츠의 가상현실 공연방법
Arnaud et al. The CAVA corpus: synchronised stereoscopic and binaural datasets with head movements
WO2020184316A1 (ja) 情報処理装置、情報処理方法、及びプログラム
JP5750668B2 (ja) カメラ、再生装置、および再生方法
WO2014060598A2 (en) Sensing systems, associated methods and apparatus
US20230388598A1 (en) Systems and methods for enabling artificial reality commentary
US20230254660A1 (en) Head tracking and hrtf prediction
US20230283976A1 (en) Device and rendering environment tracking
EP3777247B1 (fr) Procédé et système de diffusion d'un flux audio multicanal à des terminaux de spectateurs assistant à un évènement sportif

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20887967

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20887967

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP