WO2020080204A1 - 音響コンテンツ生成装置、音響コンテンツ生成方法、音響コンテンツ再生装置、音響コンテンツ再生方法、音響コンテンツ再生用プログラム、音響コンテンツ提供装置および音響コンテンツ配信システム - Google Patents

音響コンテンツ生成装置、音響コンテンツ生成方法、音響コンテンツ再生装置、音響コンテンツ再生方法、音響コンテンツ再生用プログラム、音響コンテンツ提供装置および音響コンテンツ配信システム Download PDF

Info

Publication number
WO2020080204A1
WO2020080204A1 PCT/JP2019/039723 JP2019039723W WO2020080204A1 WO 2020080204 A1 WO2020080204 A1 WO 2020080204A1 JP 2019039723 W JP2019039723 W JP 2019039723W WO 2020080204 A1 WO2020080204 A1 WO 2020080204A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
vibration
audio
vibration information
frequency band
Prior art date
Application number
PCT/JP2019/039723
Other languages
English (en)
French (fr)
Inventor
理絵子 鈴木
靖 佐藤
Original Assignee
株式会社ティーオースウィング
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ティーオースウィング filed Critical 株式会社ティーオースウィング
Priority to JP2019571751A priority Critical patent/JP6661210B1/ja
Publication of WO2020080204A1 publication Critical patent/WO2020080204A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/02Synthesis of acoustic waves
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Definitions

  • the present invention relates to an audio content generation device, an audio content generation method, an audio content reproduction device, an audio content reproduction method, an audio content reproduction program, an audio content providing device, and an audio content distribution system, and in particular, audio information and vibration information.
  • the present invention relates to generation, reproduction, provision and distribution of included audio contents.
  • Patent Document 1 discloses a sensory presentation device that presents sensory information including tactile information to a user in association with the acquired video content.
  • a predetermined subject is selected from among the subjects included in the program content based on the state of the user who views the program content, and video information, audio information, and vibration information corresponding to the selected subject are selected.
  • video information is displayed on a screen such as a monitor or a display
  • the voice information is output from a speaker or an earphone
  • the vibration information is output to a voice coil motor, an eccentric motor, a linear resonance actuator, or the like.
  • Patent Document 1 a program content (multi-modal content) of a tennis game relay is explained as a specific example. That is, when creating program content, the vibration sensor provided on the player's racket, the vibration sensor provided on the player's shoes, the vibration sensor provided on the spectator's seat, the vibration sensor provided on the ball, the net, etc. Vibration information is acquired using a provided vibration sensor or the like, and each subject (person, ball, racket, net, etc.) and vibration information are associated and stored in the storage unit. Then, while the program content created in this way is being viewed by the user, the user's state (line of sight) is detected from the image captured by the camera, and vibration information associated with the subject being watched is presented. .
  • Patent Document 2 discloses a vibration generation device capable of generating vibration in accordance with the reproduced sound of music.
  • the sound data corresponding to the range of the reproduced sound of the bass and the sound data corresponding to the range of the reproduced sound of the drum are calculated from analog music information in which sounds of a plurality of musical instruments are mixed. And is extracted by a bandpass filter, and a drive pulse having a low frequency is generated within a data section in which the sound data of the bass sound is equal to or higher than a predetermined level, while the sound data of the drum sound is equal to or higher than a predetermined level.
  • the vibration is generated in accordance with the reproduced sound of music.
  • the music information is reproduced from either the speaker or the earphone, and the vibration information is supplied to the vibrating body of the vibrating mechanism section.
  • Patent Document 3 discloses an information transmission system of a portable device that can transmit necessary information to a user by vibrating without disturbing music reproduction or interrupting music reproduction.
  • the information transmission system described in Patent Document 3 includes a vibrator-equipped earphone worn by a user on the ear, and a vibration driving device provided between the portable information terminal and the vibrator-equipped earphone, and a voice signal of music.
  • the mobile information terminal outputs a voice vibration synthesis signal obtained by synthesizing the vibration signal and the vibration signal.
  • the audio signal and the vibration signal are frequency-separated, and the audio signal is supplied to the speaker of the earphone with the vibrator, while the vibration signal (for example, information that informs the pace allocation of exercise such as jogging, cycling, and walking) is transmitted.
  • the vibration signal for example, information that informs the pace allocation of exercise such as jogging, cycling, and walking
  • Supply to the vibrator of the earphone with vibrator Since the vibration of the oscillator is not output as sound, it is said that it does not interfere with music playback.
  • the voice information is the main content, and the vibration information is only auxiliary and appropriate timing. It is an intermittent thing that occurs in.
  • the sound is output from the speaker or the earphone, and the vibration is output from the vibration generator other than the speaker.
  • vibration is considered to be an obstacle (noise) to music reproduction, and how to apply vibration so as not to interfere with music reproduction is an issue. Most of them are devised to solve the problem.
  • a chattering phenomenon is generated by suppressing the frequency band of a vibration waveform in the frequency band of a voice waveform (a phenomenon in which a casing resonates due to voice output from a speaker, which causes abnormal noise or sound distortion). Etc., which is a cause of impairing sound quality). It can be said that the technique described in Patent Document 4 is exactly how to suppress the chattering phenomenon caused by the vibration on the assumption that the vibration is an obstacle to the generation of abnormal sound in music reproduction.
  • the technique described in Patent Document 4 although the generation of abnormal noise due to the chattering phenomenon can be suppressed, since the processing for suppressing a part of the frequency band of the voice waveform is performed, the reproduced voice itself does not deteriorate in sound quality. There is a problem that it will occur.
  • Patent Document 5 a sound reproducing device (portable sound reproducing player) capable of reproducing a comfortable and realistic audio signal by outputting a high-pitched sound and a low-pitched vibration.
  • a DSP Digital Signal Processor
  • the low frequency component that is generated is extracted and an MBS (Mobile Body Sonic) signal is generated.
  • MBS Mobile Body Sonic
  • the audio playback device described in Patent Document 5 is used by connecting a headphone plug to the jack.
  • the headphone plug has an Lch connection terminal section for inputting an Lch signal, an Lch connection terminal section for inputting an Rch signal, an MBS connection terminal section for inputting an MBS signal, and a GND connection terminal section for inputting a GND signal.
  • the connection terminal has a four-terminal structure.
  • the Lch signal, the Rch signal, and the MBS signal input to the headphone plug from the LR amplifier and the MBS amplifier of the audio reproduction device are output to the Lch speaker, the Rch speaker, and the transducer, respectively.
  • the MBS signal is converted into mechanical vibration by a transducer attached to the user's clothes or the like.
  • Patent Document 5 a low-frequency vibration signal (MBS signal) is generated from a sound signal during music reproduction, and vibration is continuously output together with sound.
  • MBS signal low-frequency vibration signal
  • Patent Documents 1 to 3 and 5 are common in that the sound is output from the speaker while the vibration is output from the vibration applying body. It is considered that this is based on the conventional technical common sense that voice and vibration cannot be output together (vibration interferes with voice).
  • headphones equipped with a plug of a four-terminal structure are used, and at the expense of not being able to use commercially available headphones for general purposes.
  • vibration that is output at the same time becomes an obstacle (noise) of the voice.
  • vibration has been configured to present vibration through a vibration imparting body different from the voice output unit, as a supplement to voice. Therefore, for example, as in Patent Documents 2 and 5, even if the user is presented with the vibration generated based on the audio signal of the music in accordance with the music to be played, the part (ear) where the user feels the sound.
  • the part where vibration is felt part of the body other than the ear
  • the present invention has been made to solve such a problem, and allows a user to experience voice and vibration as a more integrated body, the vibration does not disturb the voice, and the vibration does not affect the voice. It aims to provide epoch-making audio content that has never existed so far, which directly and directly gives a synergistic effect.
  • the vibration information is converted into the vibration information.
  • the processing is performed so that the voice generated based on the voice information is masked by the voice generated based on the voice information, and the processed voice information and the vibration information are mixed to generate the acoustic content including the voice information and the vibration information. I have to.
  • acoustic content including audio information and vibration information which is processed so that the audio generated based on the vibration information is masked by the audio generated based on the audio information Content can be generated.
  • a voice output unit such as a speaker, an earphone, or a headphone
  • a voice and a vibration are generated from the same voice output unit, so that the user may experience this as an integrated one. it can.
  • the vibration information included in the audio content appears as a voice
  • the voice generated based on the vibration information can be heard by the user by the masking effect by the sound generated based on the voice information included in the same audio content. It's difficult.
  • the user can experience the voice and the vibration as a more integrated body, the vibration does not disturb the voice, and the vibration directly gives a synergistic effect to the voice. It is possible to provide epoch-making sound content that does not exist at all until now.
  • FIG. 1 It is a block diagram which shows the functional structural example of the audio content production
  • FIG. 6 is a flowchart showing an operation example of the audio content generation device according to the first exemplary embodiment. It is a block diagram showing an example of functional composition of an audio contents reproducing device concerning one embodiment of the present invention. It is a block diagram which shows the functional structural example of the audio content production
  • FIG. 1 is a block diagram showing a functional configuration example of an audio content generation device according to the first embodiment.
  • the audio content generation device 10 includes a voice information acquisition unit 11, a vibration information acquisition unit 12, a processing unit 13, and a mixing unit 14 as its functional configuration.
  • the processing unit 13 includes a voice information processing unit 13A and a vibration information processing unit 13B.
  • Each of the functional blocks 11 to 14 can be configured by any of hardware, DSP (Digital Signal Processor), and software.
  • DSP Digital Signal Processor
  • each of the functional blocks 11 to 14 is actually configured by including a CPU, a RAM, a ROM of a computer, and a program stored in a recording medium such as a RAM, a ROM, a hard disk or a semiconductor memory. Is realized by operating.
  • the voice information acquisition unit 11 acquires voice information.
  • the voice information acquired here relates to, for example, music, speech, sound effects, alarm sounds, and the like. Note that the examples given here are examples, and any information can be used as long as the information is such that a voice is output from a voice output unit such as a speaker, an earphone, or headphones. In the following, a case of using audio information of music will be described as an example.
  • the audio information acquisition unit 11 acquires audio information desired by the user, that is, desired audio information for which it is desired to generate acoustic content together with the vibration information, in response to a predetermined selection operation by the user.
  • an external device in which audio information is stored for example, a personal computer, a server, a mobile terminal such as a smartphone, a removable storage medium, etc.
  • the audio information acquisition unit 11 is selected by a user operation.
  • the obtained voice information is acquired from the external device.
  • the audio content generation device 10 may store audio information in an internal storage medium
  • the audio information acquisition unit 11 may acquire audio information selected by a user operation from the internal storage medium.
  • the audio information acquired by the audio information acquisition unit 11 is recorded on any one or a plurality of tracks prepared in advance in the audio content generation device 10.
  • the voice information includes voice information of various parts such as voices of a plurality of musical instruments, vocal voices, and chorus voices.
  • the audio information of each of these parts belongs to different frequency bands.
  • the audio content generation device 10 can record the audio information by dividing it into a plurality of tracks for each of several frequency bands. Of course, it is also possible to record all the frequency bands as one audio information on one track. It is also possible to record the audio information for each part by dividing it into a plurality of tracks.
  • the audio information is stereo audio consisting of two channels
  • the vibration information acquisition unit 12 acquires vibration information including a part of the frequency band included in the voice information acquired by the voice information acquisition unit 11.
  • the frequency band included in the vibration information is preferably a relatively low frequency band in the audible frequency band of 20 to 20 kHz, for example, a frequency band of 100 Hz or less.
  • vibration information having a frequency band of 20 to 80 Hz, preferably 30 to 60 Hz, and more preferably 35 to 50 Hz.
  • acoustic content including the audio information acquired by the audio information acquisition unit 11 and the vibration information acquired by the vibration information acquisition unit 12 is generated.
  • this audio content is supplied to a voice output unit such as a speaker, a voice is generated not only from the voice information but also from the vibration information.
  • the sound generated based on the vibration information can be masked by the sound generated based on the sound information to make it difficult for the user to hear.
  • the vibration information in the frequency band it is possible to further enhance the masking effect.
  • the acoustic content is generated by using the vibration information in the frequency band having sufficient energy to transmit the vibration to the user and in the frequency band in which the masking effect is easily obtained.
  • the above-mentioned frequency band is an example of a frequency band in which a masking effect is easily obtained, and is not limited to this.
  • vibration information other than the above-mentioned frequency band may be used.
  • the vibration information acquisition unit 12 acquires the vibration information desired by the user, that is, the desired vibration information for which it is desired to generate the audio content together with the audio information, in response to a predetermined selection operation by the user.
  • the vibration information acquisition unit 12 acquires the vibration information selected by the user operation from the external device.
  • the acoustic content generation device 10 may store vibration information in an internal storage medium, and the vibration information acquisition unit 12 may acquire vibration information selected by a user operation from the internal storage medium.
  • the vibration information desired by the user is, for example, vibration information that can be used as an information transmission medium developed by the inventor of the present application (see, for example, the description in WO2018 / 217167). That is, an example of the vibration information used in the present embodiment is vibration information having a unique haptic effect derived from the tactile feature amount specified based on the strength of the vibration waveform and the length of the divided section. For example, various kinds of vibration information having different properties such as one with a fast (or slow) tactile sensation and one with a large variety of tactile sensations (or small) are prepared in advance, and the vibration desired by the user can be selected from the vibration information. It is possible to select and use information.
  • vibration effects expected to be given to a user who receives vibration various kinds of vibration information having different physical or psychological effects are prepared in advance, and the user selects desired vibration information from them. It is also possible to use. What physical effect or psychological effect the vibration information exerts is determined according to a combination of tactile parameters (strength of vibration waveform, length of divided section) that determines the tactile feature amount.
  • the strength of the vibration waveform and the length of the divided section used as tactile parameters can be said to be parameters indicating the degree of opposing tactile (hereinafter referred to as tactile pair) such as ⁇ hard-soft> and ⁇ rough-smooth>.
  • the strength of the vibration waveform can be used as the tactile parameter for the tactile pair ⁇ hard-soft>.
  • the length of the divided section of the vibration waveform as a tactile parameter for the tactile pair ⁇ coarse-smooth>. In this case, the longer the divided section is, the smoother it is. The shorter the value, the coarser it is.
  • vibration information having any physical or psychological effect For example, vibration information that has a physical effect that gives a "fluffy” feel, vibration information that has a physical effect that gives a “soft” feel, vibration information that has a psychological effect such as "security” or “relaxation”, It is possible to prepare various types of vibration information such as vibration information having psychological effects such as “excitement” and “motivation up” in advance, and the user can select and use desired vibration information from the vibration information. is there.
  • the vibration information acquired by the vibration information acquisition unit 12 is recorded in any one or a plurality of tracks prepared in advance in the audio content generation device 10.
  • the track on which vibration information is recorded is a track different from the track on which audio information is recorded.
  • the vibration information acquired by the vibration information acquisition unit 12 may be recorded in one track.
  • one vibration information is frequency-separated to be divided into a plurality of pieces.
  • the tracks may be recorded separately.
  • the vibration information of the frequency band of the unpleasant sound is separated and recorded in one track. Good.
  • the processing of the voice information and the vibration information by the processing unit 13 described below can be performed for each track.
  • the processing unit 13 processes at least one of the voice information acquired by the voice information acquisition unit 11 and the vibration information acquired by the vibration information acquisition unit 12.
  • the voice information processing unit 13A processes the voice information acquired by the voice information acquisition unit 11.
  • the vibration information processing unit 13B processes the vibration information acquired by the vibration information acquisition unit 12.
  • the processing unit 13 processes at least one of the voice information and the vibration information so that the voice generated based on the vibration information is masked by the voice generated based on the voice information. I do.
  • ⁇ Masking is a phenomenon in which when two sounds overlap, one sound is drowned out and the other becomes inaudible. In other words, masking is a phenomenon that humans cannot perceive even though it is a sound that physically exists.
  • the processing unit 13 supplies the processed (or unprocessed) vibration information to the audio output unit as a sound generated when the processed (or unprocessed) vibration information is supplied to the audio output unit. At least one of the voice information and the vibration information is processed in such a manner as to be masked by the voice generated in some cases.
  • the mixing unit 14 mixes the voice information and the vibration information processed by the processing unit 13 to generate acoustic content including the voice information and the vibration information. That is, the mixing unit 14 includes one or a plurality of audio information recorded in one or a plurality of tracks (processed as necessary by the audio information processing unit 13A) and one or a plurality of tracks different from the audio information track. By mixing the vibration information recorded on the track (the information processed by the vibration information processing unit 13B as necessary), one audio content is generated.
  • the audio content generated by the mixing unit 14 is recorded as information of one or more tracks (channels). For example, when generating monaural audio content, the mixing unit 14 performs a process of tracking down the audio information and the vibration information recorded on a plurality of tracks to one track, so that the monaural audio consisting of one channel is generated. Generate content.
  • the audio content of one channel includes audio information and vibration information.
  • the mixing unit 14 when generating stereo audio content, performs a process of tracking down the audio information and the vibration information recorded on a plurality of tracks to two tracks, so that the stereo audio of two channels is generated.
  • the first channel includes audio information and vibration information of the L channel.
  • the second channel includes audio information and vibration information of the R channel.
  • the vibration information included in each of the two channels may be the same or different.
  • the vibration information for each channel is generated by processing by the vibration information processing unit 13B.
  • the vibration pressure or the vibration amount of the vibration information acquired by the vibration information acquisition unit 12 has a frequency equal to the frequency band of the vibration information in the frequency band of the voice information acquired by the voice information acquisition unit 11. At least one of the processing of voice information and the processing of vibration information is performed so as to be lower than the sound pressure or volume in the band.
  • the vibration pressure or the vibration amount of the vibration information can be restated as the sound pressure or the volume of the vibration information.
  • sound pressure or “volume” is also used for vibration information.
  • the sound pressure is the pressure of the sound, and is expressed in decibel [dB] using a sound pressure level that represents how loud the sound is with respect to a reference value, according to the human auditory characteristics. It was done.
  • the volume means the volume of sound set by the so-called volume. Both are almost equivalent as representing the strength of sound, and will be described below by using "sound pressure".
  • FIG. 2 is a diagram showing frequency-sound pressure characteristics (hereinafter, simply referred to as frequency characteristics) representing sound pressure for each frequency for each of voice information and vibration information.
  • FIG. 2A shows frequency characteristics of voice information
  • FIG. 2B shows frequency characteristics of vibration information. It is assumed that the frequency characteristic shown in FIG. 2 shows the frequency characteristic at one point in time of time-series voice information and vibration information.
  • the frequency characteristic is schematically shown as an envelope shape.
  • the horizontal axis represents frequency and the vertical axis represents sound pressure.
  • the maximum value of sound pressure is VP in the entire frequency band of vibration information.
  • the minimum value of the sound pressure in the frequency band equivalent to the frequency band of the vibration information among all the frequency bands of the audio information shown in FIG. 2A is MP.
  • MP it is assumed that MP ⁇ VP.
  • the processing unit 13 sets the maximum sound pressure VP of the vibration information to be smaller than the minimum sound pressure MP of the sound information in a frequency band equivalent to the frequency band of the vibration information (hereinafter, referred to as a specific frequency band).
  • a specific frequency band hereinafter, referred to as a specific frequency band.
  • the processing method for setting MP ′> VP ′ is 3
  • the third pattern is a method of processing voice information to increase the minimum sound pressure MP and processing vibration information to decrease the maximum sound pressure VP (VP ' ⁇ VP, MP'> MP). In this embodiment, any of the first to third patterns may be applied.
  • FIG. 3 shows that by processing both the voice information and the vibration information by applying the third pattern, the maximum sound pressure VP ′ of the processed vibration information is the minimum sound in the specific frequency band of the processed voice information. It is a figure which shows the frequency characteristic as a result of making it smaller than pressure MP '.
  • the vibration information processing unit 13B processes the entire frequency band of the vibration information to reduce the maximum sound pressure VP before processing to the maximum sound pressure VP ′ after processing. .
  • the voice information processing unit 13A processes only the specific frequency band of the voice information, and changes the minimum sound pressure MP before processing and the minimum sound pressure MP after processing in the specific frequency band. 'Has been raised.
  • MP '> VP' The relationship of MP '> VP' is one aspect of the "predetermined relationship" in the claims.
  • vibration information is recorded in one track for all frequency bands
  • audio information can be recorded in multiple tracks for each frequency band.
  • the audio information in the frequency band that completely matches the frequency band of the vibration information is not always recorded in any one track.
  • the audio information processing unit 13A processes, for example, the audio information of the track in which the frequency band closest to the frequency band of the vibration information is recorded.
  • the audio information of the plurality of tracks may be processed.
  • the frequency band of the voice information including the frequency band of the vibration information, which does not completely match the frequency band of the vibration information is also the “frequency band equivalent to the frequency band of the vibration information”.
  • a specific frequency in the audio information is set.
  • the sound pressure in the band needs to be raised with a relatively large amount of change.
  • the sound quality may change so much that the user hears the difference in the sound quality of the audio information before and after the processing.
  • the second pattern does not change the sound quality because the sound information is not processed, but the sound pressure of the vibration information must be lowered with a relatively large amount of change in order to satisfy MP '> VP'. Cases can happen. In this case, there is a possibility that the vibration gives the user a small feeling.
  • the third pattern has an advantage that both the amount of change in voice information and the amount of change in vibration information can be suppressed to the necessary minimum.
  • any one of the first to third patterns may be appropriately applied depending on how much the amount of change in sound pressure is required and how much importance is attached to sound quality or vibration.
  • the audio information processing unit 13A processes the specific frequency band of the audio information as shown in FIG. 3A.
  • the present invention is not limited to this.
  • the voice information processing unit 13A may process the entire frequency band of voice information.
  • the vibration information processing unit 13B sets the sound pressure of the frequency band of the vibration information as shown in FIG. 3B.
  • the vibration information processing unit 13B sets a frequency band larger than a predetermined frequency in the frequency band of the vibration information as shown in FIG. It may be processed.
  • the lower the frequency of the masked voice the higher the masking effect. Therefore, even if the sound pressure is not lowered particularly in the vibration information in the low frequency region in the frequency band of the vibration information, the low frequency sound generated from the vibration information in the low frequency region is generated by the sound generated based on the sound information. May be effectively masked. Therefore, when the vibration information is also recorded in a plurality of tracks, the sound pressure may be reduced by targeting only the vibration information in the higher frequency band. By doing so, it is possible to prevent the sound based on the vibration information from being perceived by the user by the masking effect without reducing the overall sound pressure of the vibration information as much as possible.
  • the minimum sound pressure MP 'of the voice information is processed to be smaller than the maximum sound pressure VP' of the vibration information, but the present invention is not limited to this.
  • the maximum sound pressure of the voice information may be used instead of the minimum sound pressure of the voice information.
  • an intermediate value between the minimum sound pressure and the maximum sound pressure of the audio information may be used.
  • the minimum sound pressure of the voice information is used, the sound pressure of the vibration information is smaller than the sound pressure of the voice information over the entire frequency band of the vibration information, which is advantageous in that the masking effect is easily obtained. Have.
  • the processing characteristics of the sound pressure are explained by showing the frequency characteristics at time points of the time-series audio information and vibration information, but the frequency characteristics at other points are different.
  • the relationship between the minimum sound pressure in the specific frequency band of the voice information and the maximum sound pressure of the vibration information is taken into consideration at each time point (at a predetermined sampling period) from the start point to the end point of the voice information and the vibration information.
  • individual processing may be performed by doing so, this makes the processing complicated. Therefore, for example, for sound information, the minimum sound pressure (or the maximum sound pressure or an intermediate value) in a specific frequency band from the start time to the end time is obtained, and the vibration information also has the maximum sound pressure from the start time to the end time.
  • the pressure may be obtained, and in consideration of the relationship between the minimum sound pressure of the voice information and the maximum sound pressure of the vibration information thus obtained, uniform processing may be performed from the start point to the end point.
  • FIG. 6 is a diagram showing time-series waveform information of voice information (FIG. 6 (a)) and time-series waveform information of vibration information (FIG. 6 (b)) in specific vibration information.
  • voice information and the waveform information show a part of the whole.
  • the horizontal axis represents time and the vertical axis represents amplitude.
  • the waveform information shown in FIG. 6 is a display (not shown) included in the audio content generation device 10 when the user performs an operation of designating a track using an operator (not shown) included in the audio content generation device 10. Can be displayed on. That is, FIG. 6A shows waveform information displayed when a track on which audio information in a specific frequency band is recorded is designated, and FIG. 6B shows a track on which vibration information is recorded. This is the waveform information displayed when specified.
  • the amplitude of the time-series waveform information substantially indicates the volume of sound at each time point, that is, the sound pressure. Therefore, by displaying the waveform information shown in FIG. 6 on the screen, it is possible to confirm the change in the sound pressure at each time point for the audio information and the vibration information in the frequency band of the designated track.
  • the user can process at least one of the sound pressure of the voice information and the sound pressure of the vibration information by operating the operation element provided in the audio content generation device 10 while visually observing the waveform information.
  • the waveform of the voice information has a large amplitude at the time when a sound is generated, and the amplitude gradually decreases with the passage of time.
  • the minimum sound pressure from the start time point to the end time point of the audio information can be defined as the minimum value of the amplitude at the time when the sound is generated with respect to the repeatedly generated sound, for example.
  • MP min is the minimum sound pressure.
  • the maximum sound pressure from the start time point to the end time point can be grasped for the vibration information by checking the waveform information displayed on the screen.
  • the waveform information in FIG. 6B indicates that vibrations whose amplitude does not change significantly are continuously applied.
  • the maximum sound pressure from the start point to the end point of the vibration information is VP max .
  • the user operates an operator provided in the audio content generation device 10 to process at least one of the sound pressure of the sound information shown in FIG. 6A and the sound pressure of the vibration information shown in FIG. 6B.
  • the maximum sound pressure VP max of the vibration information is set to be smaller than the minimum sound pressure MP min in the specific frequency band of the sound information.
  • the amplitude of the vibration information is greater than the amplitude of the audio information during the period in which the amplitude of the audio information gradually attenuates between the occurrence of one sound and the occurrence of the next sound. Can also grow.
  • the sound pressure is adjusted at different compression rates for each of the plurality of divided sections.
  • the sound pressure may be uniformly reduced in the entire compression period from the start time to the end time, and the sound pressure may be reduced at an exceptionally different compression ratio only in a specific section.
  • the sound pressure may be adjusted for each section, but if the sound pressure adjustment rate is changed too much for each section, the sound quality may be affected. It is preferable that the adjustment rate of sound pressure does not change significantly.
  • FIG. 7 shows that by processing both the voice information and the vibration information with respect to the waveform information shown in FIG. 6, the maximum sound pressure VP max 'of the processed vibration information becomes a specific frequency band of the processed voice information.
  • 6 is a diagram showing waveform information obtained as a result of being smaller than the minimum sound pressure MP min 'in FIG. That is, as shown in FIG. 6B, the vibration information processing unit 13B uniformly reduces the sound pressure at the same compression rate in the entire period from the start time point to the end time point of the vibration information, so that the maximum sound pressure before processing is increased. The pressure VP max is reduced to the maximum sound pressure VP max 'after processing.
  • FIG. 6 is a diagram showing waveform information obtained as a result of being smaller than the minimum sound pressure MP min 'in FIG. That is, as shown in FIG. 6B, the vibration information processing unit 13B uniformly reduces the sound pressure at the same compression rate in the entire period from the start time point to the end time point of the vibration information, so that the maximum sound pressure before processing
  • the voice information processing unit 13A uniformly raises the sound pressure at the same rate of increase in the entire period from the start point to the end point of the voice information, so that the minimum sound level before the processing is changed.
  • the pressure MP min is raised to the minimum sound pressure MP min 'after processing.
  • the user operates the operator of the audio content generation device 10 to display the waveform information of the voice information and the vibration information on the screen, and the user can visually observe the waveform information and the audio content generation device.
  • An example in which the sound pressure relating to at least one of the voice information and the vibration information is adjusted by operating the operator of 10 has been described, but this may be automatically performed as the process of the audio content generation device 10.
  • the voice information processing unit 13A detects MP min as the minimum sound pressure from the start time point to the end time point for the voice information in the specific frequency band.
  • the vibration information processing unit 13B detects the maximum sound pressure VP max from the start time point to the end time point of the vibration information. Then, the processing unit 13 determines whether a MP min ⁇ VP max, if that is the MP min ⁇ VP max, together with the audio information processing unit 13A pulls the sound pressure of the audio information, the vibration The information processing unit 13B lowers the sound pressure of the vibration information so that the adjusted sound pressure becomes MP min '> VP max '. For example, the process is performed by gradually increasing the sound pressure of the voice information and decreasing the sound pressure of the vibration information as step processing, and ending the step processing when MP min '> VP max '. It is possible to
  • FIG. 8 is a flowchart showing an operation example of the audio content generation device 10 when the processing unit 13 automatically performs the processing.
  • the audio information acquisition unit 11 acquires the audio information selected by the user by operating the operation element of the audio content generation device 10 (step S1).
  • the vibration information acquisition unit 12 acquires the vibration information selected by the user by operating the operation element of the audio content generation device 10 (step S2).
  • the vibration information acquired by the vibration information acquisition unit 12 is recorded on one track.
  • the voice information processing unit 13A detects MP min, which is the minimum sound pressure from the start point to the end point, for the voice information in the specific frequency band (step S3). Further, the vibration information processing unit 13B detects the maximum sound pressure VP max from the start point to the end point of the vibration information (step S4). Then, the processing unit 13 determines whether MP min ⁇ VP max (step S5). If MP min ⁇ VP max is not satisfied, the process of the flowchart shown in FIG. 8 ends.
  • the voice information processing section 13A raises the sound pressure of the voice information by x [dB] (step S6).
  • the amount x of increasing the sound pressure can be set in advance as an arbitrary amount. That is, the voice information processing unit 13A raises the sound pressure of the voice information so that the value of the adjusted minimum sound pressure MP min 'is (MP min ' + x).
  • the vibration information processing unit 13B lowers the sound pressure of the vibration information by x [dB] (step S7). That is, the vibration information processing unit 13B reduces the sound pressure of the vibration information so that the value of the adjusted maximum sound pressure VP max 'is (VP max'- x).
  • the sound pressure increase amount of the voice information and the sound pressure decrease amount of the vibration information are the same x [dB] here, they may be different amounts.
  • the processing unit 13 determines whether or not the sound pressure of the voice information and the vibration information adjusted in steps S6 and S7 is MP min '> VP max ' (step S8). If MP min '> VP max ', the process returns to step S6 to continue adjusting the sound pressure of the voice information and the vibration information. On the other hand, when MP min '> VP max ', it means that the adjustment of the sound pressure has been completed, so the processing of the flowchart shown in FIG. 8 ends. In the determination of step S8, a predetermined amount of margin ⁇ may be provided to determine whether MP min ′> VP max ′ + ⁇ .
  • FIG. 9 is a block diagram showing an example of the functional configuration of the audio content reproduction device 20 that reproduces the audio content generated by the audio content generation device 10 configured as described above.
  • the audio content reproduction device 20 for example, a smartphone, a portable music reproduction player, a personal computer, or the like can be used.
  • the audio content reproduction device 20 may be incorporated in any device.
  • the audio content reproduction device 20 of this embodiment includes an audio content acquisition unit 21 and an audio content supply unit 22 as its functional configuration.
  • Each of these functional blocks 21 and 22 can be configured by any of hardware, DSP, and software.
  • each of the functional blocks 21 and 22 is actually configured by including a CPU, RAM, ROM, etc. of a computer, and a program stored in a recording medium such as RAM, ROM, hard disk or semiconductor memory. Is realized by operating.
  • the audio content acquisition unit 21 acquires the audio content generated by the audio content generation device 10 shown in FIG.
  • the audio content generation device 10 is connected to the audio content reproduction device 20, and the audio content acquisition unit 21 acquires the audio content selected by the user operation from the audio content generation device 10.
  • the audio content generation device 10 has generated a plurality of types of audio content.
  • an external device that stores a plurality of types of audio content generated by the audio content generation device 10 is connected to the audio content reproduction device 20, and the audio content acquisition unit 21 outputs the audio content selected by the user operation to the external device. May be acquired from.
  • the external device may be one directly connected to the audio content reproduction device 20 by wire or wirelessly (for example, a personal computer, a mobile terminal such as a smartphone, a removable storage medium, or the like), It may be a server device configured to be connectable to the audio content reproduction device 20 via a communication network.
  • the audio content acquisition unit 21 can acquire the audio content from the server device in a streaming manner and provide the audio content to the audio content supply unit 22.
  • the acoustic content reproducing apparatus 20 stores a plurality of types of acoustic content generated by the acoustic content generation apparatus 10 in an internal storage medium, and the acoustic content acquisition unit 21 is selected by a user operation.
  • the audio content may be acquired from an internal storage medium.
  • the audio content acquisition unit 21 outputs the audio content from a server device configured to be connectable to the audio content reproduction device 20 via a communication network. May be downloaded and stored in an internal storage medium.
  • the server device when the server device is configured to be able to download the audio content to the audio content playback device 20, or when the server device is configured to be able to stream the audio content to the audio content playback device 20, the server The device corresponds to the audio content providing device in the claims. That is, the server device in this case stores the audio content generated by the audio content generation device 10 and provides the audio content to the audio content reproduction device 20 in response to a request from the audio content reproduction device 20. Further, the system in which the server device and the audio content reproduction device 20 are configured to be connectable via a communication network constitutes the audio content distribution system in the claims.
  • the audio content stored in the server device may be generated by the audio content generation device 10 'described in the second embodiment.
  • the audio content supply unit 22 supplies the audio content acquired by the audio content acquisition unit 21 to the audio output unit 100 without separating the audio information and the vibration information included in the audio content.
  • the audio output unit 100 may be a stationary or portable speaker, an earphone, or a headphone. These audio output units 100 are wired or wirelessly connected to the audio content reproduction device 20. Further, the audio output unit 100 may be a speaker built in the audio content reproduction device 20.
  • the audio content supply unit 22 performs general D / A conversion, amplification processing using an amplifier, waveform shaping processing, and the like on the audio information and the vibration information of the audio content acquired by the audio content acquisition unit 21. It may include that the audio signal processing is performed and then the information after the signal processing is supplied to the audio output unit 100.
  • the diaphragm included in the audio output unit 100 causes the audio based on the audio information and the audio based on the vibration information. And will occur.
  • the sound pressure of the voice information and the sound pressure of the vibration information are adjusted so that the voice based on the vibration information is masked by the voice based on the voice information, the sound based on the vibration information is the voice based on the voice information. It is wiped out by the user and hard to hear in the user's ear.
  • the vibration information does not exist, but the vibration information that is strictly present is transmitted to the diaphragm of the audio output unit 100, so that vibration unique to the vibration information is generated.
  • the voice of the music generated based on the voice information is transmitted to the user while maintaining the sound quality without being disturbed by the voice generated based on the vibration information, and the vibration based on the vibration information is simultaneously transmitted to the user from the same diaphragm. It becomes possible.
  • the processing is performed so that the sound is masked by the sound based on the sound information, and the processed sound information and the vibration information are mixed to generate the acoustic content including the sound information and the vibration information. Then, the audio content generated in this manner is supplied to the audio output unit in a state where the audio information and the vibration information included in the audio content are not separated.
  • the audio content including the audio information and the vibration information is processed so that the audio generated based on the vibration information is masked by the audio generated based on the audio information.
  • Audio content can be generated.
  • the audio content generated according to the first embodiment is supplied to the audio output unit 100, sound and vibration are generated from the same audio output unit 100, so that the user can experience this as a unit.
  • the vibration information included in the audio content appears as a voice
  • the voice generated based on the vibration information can be heard by the user by the masking effect by the sound generated based on the voice information included in the same audio content. It's difficult.
  • the user can experience the voice and the vibration as a more integrated body, the vibration does not disturb the voice, and the vibration directly gives a synergistic effect to the voice. It is possible to provide such epoch-making sound content that does not exist at all until now.
  • the vibration unlike the related art in which the vibration based on the vibration information is generated from the vibration imparting body different from the sound output unit, the vibration is generated from the diaphragm of the same sound output unit 100.
  • the generated vibration directly gives a synergistic effect to the sound, so that it is possible to provide the user with the sound with vibration in which the acoustic depth, thickness, or stereoscopic effect is increased.
  • the vibration information having the predetermined tactile effect and the vibration information having the predetermined physical effect or the psychological effect as described above, it is possible to expect a synergistic effect with the audio information as an information transmission medium.
  • FIG. 10 is a block diagram showing a functional configuration example of an audio content generation device 10 ′ according to the second embodiment. It is to be noted that, in FIG. 10, those denoted by the same reference numerals as those shown in FIG. 1 have the same function, and therefore, duplicated description will be omitted here.
  • an audio content generation device 10 ′ has a processing unit 13 ′ in place of the processing unit 13 as its functional configuration.
  • a vibration information processing unit 13B ' is provided instead of the vibration information processing unit 13B, and the method of processing the vibration information is different from that in the first embodiment.
  • FIG. 11 is a block diagram showing a specific functional configuration example of the vibration information processing unit 13B '.
  • the vibration information processing unit 13B ' includes a feature extraction unit 131, a weight information generation unit 132, a weight processing unit 133, and a vibration adjustment unit 134 as its functional configuration.
  • the feature extraction unit 131 extracts a plurality of feature points that can be distinguished from other points in the waveform information of the specific frequency band in the frequency band of the voice information acquired by the voice information acquisition unit 11. For example, the feature extraction unit 131 extracts, in the waveform information of the audio information, a location where the amplitude value becomes larger than the predetermined value during the predetermined time as a feature location.
  • the place where the amplitude value becomes larger than the predetermined value during the predetermined time is typically each generation time point of a plurality of sounds that are repeatedly generated from the start time point to the end time point of the time-series audio information.
  • the weight information generation unit 132 generates weight information whose value changes with time in the time interval between the feature locations based on the plurality of feature locations extracted by the feature extraction unit 131. For example, the weighting information generation unit 132, based on the plurality of feature points extracted by the feature extraction unit 131, has a value that changes with time from the time when one feature point is extracted to the time when the next feature point is extracted. The weight information that becomes gradually smaller is generated.
  • FIG. 12 is a diagram for explaining the processing contents of the feature extraction unit 131 and the weight information generation unit 132.
  • FIG. 12A shows a part of the waveform information in the specific frequency band of the voice information acquired by the voice information acquisition unit 11.
  • FIG. 12B shows a state in which the weight information generated by the weight information generation unit 132 is schematically superimposed on the waveform information of the vibration information acquired by the vibration information acquisition unit 12.
  • the waveform information of the audio information shown in FIG. 12 (a) is the same as that shown in FIG. 6 (a).
  • the feature extraction unit 131 determines a plurality of feature points F 1 , where the amplitude value becomes greater than the predetermined value during a predetermined time (for example, 0.1 seconds). Extract as F 2 , F 3 , .... That is, the feature extraction unit 131 extracts a location where the amplitude value of the waveform information of the voice information suddenly increases as a feature location F 1 , F 2 , F 3 , ... This corresponds to extracting a portion where the amplitude sharply increases at the time when the sound is generated, as described with reference to FIG.
  • the weighting information whose value gradually decreases with time from the time when () is extracted to the time when the next feature point F i + 1 is extracted is generated.
  • This weight information is information in which the weight values (both are positive values) range from the minimum value to the maximum value, and are schematically shown as a sawtooth wave in FIG.
  • the weight value becomes maximum at the time when one feature point F i is extracted, and the value gradually decreases linearly or stepwise from there, and the next feature point F i
  • the weight information is generated so that the weight value becomes maximum again at the time when i + 1 is extracted.
  • the weight information generation unit 132 determines that the weight value becomes maximum at the time when one feature point F i is extracted and that the weight value is just the minimum value at the time when the next feature point F i + 1 is reached. Such weight information is generated.
  • FIG. 12B shows an example in which the weight value linearly gradually decreases at a constant rate, but the next characteristic point F i + 1 is extracted from the time when one characteristic point F i is extracted. Until such time, the weight information may be generated such that the value gradually decreases in a curve according to a predetermined quadratic function or logarithmic function.
  • the ratio in which the weight value gradually decreases may be the same in all sections.
  • the weight value reaches a minimum value before reaching the next feature point F i + 1.
  • the weight information generation unit 132 generates weight information such that the weight value is fixed to the minimum value, for example, after the weight value reaches the minimum value until the next feature point F i + 1 .
  • the maximum value and the minimum value of the weight values may not be fixed values, but may be variable values that vary according to a predetermined condition.
  • the maximum weight value may be variable according to the magnitude of the amplitude value at the characteristic location.
  • the weight information generation unit 132 sets the weight information such that the larger the amplitude value at one characteristic point F i, the larger the weight value, and gradually decreases from that point to the next characteristic point F i + 1. To generate. With this configuration, a larger weight value is set as the amplitude value of the characteristic location F i is larger among the plurality of characteristic locations F i whose amplitude value is greater than the predetermined value during the predetermined time.
  • the weight processing unit 133 processes the vibration information acquired by the vibration information acquisition unit 12 with the weight information generated by the weight information generation unit 132. For example, the weight processing unit 133 processes the vibration information of the vibration information by multiplying the amplitude value of the waveform information of the vibration information by the weight value of the weight information.
  • the weighting unit 133 has the same amplitude value at each time of the waveform information of the vibration information shown in FIG. 12B, but at each time schematically shown as a sawtooth wave in FIG. 12B. Multiply the weight values.
  • FIG. 12B the waveform information of the vibration information and the weight information are shown in a superimposed manner to clearly show the correspondence relationship between the amplitude value of the waveform information at each time and the weight value to be multiplied. This is because.
  • FIG. 13 is a diagram showing the waveform information of the vibration information processed by the weight processing unit 133 together with the waveform information of the voice information.
  • 13A shows waveform information of the voice information acquired by the voice information acquisition unit 11 in a specific frequency band
  • FIG. 13B shows waveform information of the vibration information processed by the weight processing unit 133. ing.
  • the waveform information of the audio information shown in FIG. 13A is the same as the waveform information of the audio information shown in FIG.
  • the vibration information of FIG. 13B processed in this way is the amplitude value of the waveform processed by the weight information in which the weight value fluctuates in a manner in synchronization with the characteristic portion in the waveform information of the voice information. Therefore, the vibration information processed by the weight processing unit 133 changes in amplitude in a manner in synchronization with the change in amplitude of voice information. That is, as shown in FIG. 12A, if the vibration information before processing is such that the amplitude value does not largely change with time, a sound is generated in the voice information by processing this with the weight information described above. It is possible to obtain vibration information having a waveform in which the amplitude increases at a time point and the amplitude gradually decreases by the time when a sound is generated next time.
  • the vibration adjusting unit 134 adjusts the sound pressure of the vibration information processed by the weight processing unit 133 so that the sound pressure of the adjusted vibration information becomes smaller than the sound pressure of the sound information in the specific frequency band. To do.
  • the process of the vibration adjusting unit 134 is the same as the process described in the first embodiment, and thus the detailed description will be omitted. Further, as described in the first embodiment, it is possible that only the voice information processing unit 13A processes the voice information and the vibration information processing unit 13B ′ does not process the vibration information. is there. Alternatively, regarding the processing of the vibration information, it is possible that the weight processing unit 133 is processed but the vibration adjustment unit 134 is not adjusted.
  • the plurality of characteristic points extracted from the waveform information of the voice information by the characteristic extraction unit 131 is not limited to the example described above.
  • the feature extraction unit 131 may extract, in the waveform information of the audio information, a location where the amplitude value is a predetermined value or more as a feature location.
  • the waveform information of the voice information may be frequency-analyzed for each time, and the portion where the included frequency component changes abruptly may be extracted as the characteristic portion.
  • the weight information generation unit 132 generates weight information such that the value gradually decreases from the time when one feature point F i is extracted to the time when the next feature point F i + 1 is extracted.
  • the present invention is not limited to this.
  • the feature extraction unit 131 extracts a location where the amplitude value sharply decreases in a predetermined time in the waveform information of the voice information as a feature location, and the weight information generation unit 132 determines that one feature location F i is Weighting information may be generated such that the value gradually increases from the time of extraction to the time of extraction of the next characteristic point F i + 1 .
  • the audio content reproduction apparatus 20 shown in FIG. 9 can be used also when reproducing the audio content generated by the audio content generation apparatus 10 'according to the second embodiment configured as described above.
  • the vibration information whose amplitude is increased or decreased in a manner synchronized with the increase or decrease of the amplitude in the time-series waveform information of the audio information is obtained, and such vibration information is obtained.
  • sound pressure can be processed. This allows the amplitude of the vibration information to be significantly larger than the amplitude of the voice information during the period in which the amplitude of the voice information gradually decreases between the generation of one sound and the generation of the next sound. It is possible to avoid this. Therefore, the effect of masking the sound based on the vibration information by the sound based on the sound information can be further enhanced.
  • the vibration information processing unit 13B 'shown in FIG. 14 includes an envelope generation unit 135 and a weight information generation unit 132' instead of the feature extraction unit 131 and the weight information generation unit 132 shown in FIG.
  • the envelope generation unit 135 generates an envelope waveform for the waveform information in the specific frequency band of the voice information acquired by the voice information acquisition unit 11. For example, the envelope generation unit 135 generates the envelope waveform of the audio information by performing low-pass fill processing on the waveform information in the specific frequency band of the audio information acquired by the audio information acquisition unit 11.
  • the weight information generation unit 132 ′ generates weight information whose value changes so as to synchronize with the amplitude of the envelope waveform generated by the envelope generation unit 135. For example, the weight information generation unit 132 'generates weight information whose value changes in the same curve as the envelope waveform. In this way, the vibration information whose amplitude increases and decreases in a manner that more closely matches the amplitude increase and decrease in the time-series waveform information of the audio information is obtained, and the sound pressure is processed for such vibration information. It can be carried out. This allows the amplitude of the vibration information to be significantly larger than the amplitude of the voice information during the period in which the amplitude of the voice information gradually decreases between the generation of one sound and the generation of the next sound. This can be avoided more effectively. Therefore, the effect of masking the sound based on the vibration information by the sound based on the sound information can be further enhanced.
  • the vibration information processed by the configuration of FIG. 11 or 14 may be acquired from the vibration information acquisition unit 12. That is, in the first embodiment, the vibration information acquisition unit 12 is a time section between a plurality of characteristic points that can be distinguished from other points in the waveform information in the specific frequency band of the audio information acquired by the audio information acquisition section 11. It is also possible to acquire the vibration information obtained by processing the predetermined vibration information by the weight information whose value changes with time for each time. Alternatively, the vibration information acquisition unit 12 is configured to process the predetermined vibration information by weight information whose value changes so as to be synchronized with the amplitude of the envelope waveform in the specific frequency band of the audio information acquired by the audio information acquisition unit 11. The vibration information may be acquired.
  • At least one of the processing of the voice information and the processing of the vibration information may be performed so that the relationship between the sound pressure of the vibration information and the sound pressure in the specific frequency band has a predetermined relationship.
  • the frequency of the vibration information minimum frequency or maximum frequency of the frequency band
  • the sound pressure difference when the masking effect appears the difference between the sound pressure of the voice information and the sound pressure of the vibration information, the former case is larger , And the latter case may be included
  • the result is stored in the audio content generation device 10 or 10 ′ as table information or a learning model of machine learning.
  • the sound pressure difference in this case corresponds to the above “predetermined relationship”.
  • the processing units 13 and 13 ′ refer to or utilize the above-mentioned stored information so that the sound pressure difference is obtained from the stored information. At least one of voice information and vibration information is processed.
  • the minimum sound pressure difference is associated with the frequency of the vibration information and stored in the table information.
  • the maximum sound pressure difference among the sound pressure differences when the masking effect appears is stored in the table information in association with the frequency of the vibration information.
  • the learning model in this case can be, for example, a model in which the parameters are adjusted so as to output the sound pressure difference having the relationship described in the above table information. Also in this case, the masking effect can be obtained with the sound pressure of the vibration information being as large as possible.
  • the table information and learning model described here are examples, and the present invention is not limited to these.
  • the present invention is not limited to this. Not limited.
  • the vibration information when the sound pressure of the vibration information is reduced by a predetermined amount from VP to VP ′ and the processed sound pressure VP ′ is larger than the threshold sound pressure VP ′′, the vibration information The limit processing may be performed so that the sound pressure does not exceed the threshold sound pressure VP ′′.
  • the threshold sound pressure VP ′′ can be set to a predetermined value.
  • a minimum sound pressure value in a specific frequency band of processed or unprocessed audio information or a value smaller than the minimum sound pressure value by a predetermined value. May be set as the threshold sound pressure VP ′′.
  • the maximum sound pressure after the decrease of the vibration information is smaller than the minimum sound pressure of the processed or unprocessed sound information in the specific frequency band. It is not essential to bring it down.
  • the vibration information acquisition unit 12 may acquire vibration information of a low frequency (for example, 100 Hz or less) whose sound pressure at the center frequency is lower than 0 dB.
  • the reproduced sound tends to be muffled.
  • the low-frequency vibration information whose sound pressure at the center frequency is 0 dB or less is added to the voice information, the sound pressure of the voice information in the middle-high frequency region decreases, so that the entire frequency range from the low-pitched part to the high-pitched part is reduced. You can obtain a well-balanced playback sound. As a result, it is possible to reproduce at a high volume without causing sound cracks, and there is an advantage that the reproduced sound at that time becomes clear.
  • the voice information acquired by the voice information acquisition unit 11 is recorded in one or a plurality of tracks, and the vibration information acquired by the vibration information acquisition unit 12 is set to one.
  • the information is recorded on a plurality of tracks and the audio information and the vibration information are processed in track units, but the present invention is not limited to this.
  • both the voice information and the vibration information may be recorded regardless of the track, or may be recorded in one track so that an arbitrary frequency band can be designated and processed.
  • the vibration information acquisition unit 12 may acquire the vibration information by separating the vibration information included in the voice information acquired by the voice information acquisition unit 11.
  • the vibration information having a relatively large amplitude included in the voice information is separated and extracted, and the processing described in the above embodiment is applied to the vibration information, so that the vibration information that may originally cause annoyance is changed to comfortable vibration information. It is possible to generate the audio content in the state.
  • each of the first and second embodiments described above is merely an example of the embodiment for carrying out the present invention, and the technical scope of the present invention is not limitedly interpreted by these. It does not happen. That is, the present invention can be implemented in various forms without departing from the gist or the main features thereof.
  • Audio information acquisition section 10 Vibration information acquisition section 13, 13' Processing section 13A Audio information processing section 13B, 13B 'Vibration information processing section 14 Mixing section 20 Acoustic content reproduction apparatus 21 Acoustic content acquisition section 22 Audio Content Supply Unit 100 Audio Output Unit 131 Feature Extraction Unit 132, 132 ′ Weight Information Generation Unit 133 Weight Processing Unit 134 Vibration Adjustment Unit 135 Envelope Generation Unit

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

振動情報と、当該振動情報に対応する周波数帯域の音声情報との少なくとも一方に対し、加工後における振動情報に基づく音声が音声情報に基づく音声によってマスキングされるように加工を行う加工部13と、加工された音声情報と振動情報とをミキシングするミキシング部14とを備え、音声情報および振動情報を含む音響コンテンツであって、振動音が音声によってマスキングされるように加工された音響コンテンツを生成することにより、振動情報が厳然として存在しながらも、その振動情報がスピーカに供給されることによって音声となって現れたとしても、振動情報に基づき発生する音声がマスキング効果によってユーザに聴取し難いものとなるようにする。

Description

音響コンテンツ生成装置、音響コンテンツ生成方法、音響コンテンツ再生装置、音響コンテンツ再生方法、音響コンテンツ再生用プログラム、音響コンテンツ提供装置および音響コンテンツ配信システム
 本発明は、音響コンテンツ生成装置、音響コンテンツ生成方法、音響コンテンツ再生装置、音響コンテンツ再生方法、音響コンテンツ再生用プログラム、音響コンテンツ提供装置および音響コンテンツ配信システムに関し、特に、音声情報と振動情報とを含む音響コンテンツの生成、再生、提供および配信に関するものである。
 従来、人間が有する五感のうち、視覚を利用した映像コンテンツや、聴覚を利用した音声コンテンツが様々な産業分野において広く提供されている。また、視覚(映像)および/または聴覚(音声)に触覚(振動)を第3の感覚として用いたコンテンツを提供することで、ユーザに対して何らかのメッセージを伝えたり、映像または音声に関するリアリティや臨場感を高めたりすることができるようにした技術も広く提供されている(例えば、特許文献1~3参照)。
 特許文献1には、取得した映像コンテンツに対応させて触覚情報を含む感覚情報をユーザに提示する感覚提示装置が開示されている。この感覚提示装置では、番組コンテンツを視聴するユーザの状態に基づいて、番組コンテンツに含まれる各被写体の中から所定の被写体を選択し、選択した被写体に対応する映像情報と音声情報と振動情報とを記憶部から取得して合成し、合成された情報をユーザに提示するように構成されている。ここで、映像情報はモニタやディスプレイ等の画面に表示され、音声情報はスピーカやイヤホン等から出力され、振動情報はボイスコイルモータや偏心モータ、リニア共振アクチュエータ等に出力される。
 この特許文献1には、テニスの試合中継の番組コンテンツ(マルチモーダルコンテンツ)が具体例として説明されている。すなわち、番組コンテンツを制作するときに、選手のラケットに設けられた振動センサ、選手の靴に設けられた振動センサ、観客席に設けられた振動センサ、ボール内に設けられた振動センサ、ネットに設けられた振動センサなどを用いて振動情報を取得し、各被写体(人物やボール、ラケット、ネット等)と振動情報とを関連付けて記憶部に記憶する。そして、このように制作された番組コンテンツをユーザが視聴しているときに、カメラによる撮影画像からユーザの状態(視線)を検出して、注視している被写体に関連付けられた振動情報を提示する。
 特許文献2には、音楽の再生音に合わせて振動を発生させることができる振動発生装置が開示されている。この特許文献2に記載の振動発生装置では、複数の楽器の音が混在したアナログの音楽情報から、ベースの再生音の音域に対応する音データと、ドラムの再生音の音域に対応する音データとをバンドパスフィルターによって抽出し、ベース音の音データが所定のレベル以上となるデータ区間の期間内に低域の周波数の駆動パルスを発生させる一方、ドラム音の音データが所定のレベル以上となるデータ区間の期間内に高域の周波数の駆動パルスを発生させることにより、音楽の再生音に合わせて振動を発生するようにしている。ここで、音楽情報はスピーカまたはイヤホンのいずれかから再生され、振動情報は振動機構部の振動体に供給される。
 特許文献3には、音楽再生の邪魔になったり、音楽再生を中断させたりすることなく、必要な情報を振動によってユーザに伝達できるようにした携帯機器の情報伝達システムが開示されている。この特許文献3に記載の情報伝達システムでは、ユーザが耳に装着する振動子付きイヤホンと、携帯情報端末と振動子付きイヤホンとの間に設けられた振動駆動装置とを備え、音楽の音声信号と振動信号とを合成した音声振動合成信号を携帯情報端末から出力する。振動駆動装置では、音声信号と振動信号とを周波数分離し、音声信号を振動子付きイヤホンのスピーカに供給する一方、振動信号(例えば、ジョギングやサイクリング、ウォーキングといった運動のペース配分を知らせる情報)を振動子付きイヤホンの振動子に供給する。振動子の振動は、音としては出力されないので、音楽再生の邪魔にならないとされている。
 以上のように、音声情報と振動情報とを同時に出力することに関する技術が種々提供されているが、それらは何れも、音声情報が主コンテンツであり、振動情報はあくまでも補助的かつ、適宜のタイミングで発生する断続的なものである。そして、何れの技術においても、音声はスピーカやイヤホンから出力され、振動はそれとは別の振動発生体から出力されるようになっている。特に、音声情報が音楽などの場合、振動は音楽再生の邪魔(ノイズ)になるものと考えられており、いかに音楽再生の邪魔とならないように振動を付与するかが課題とされて、その課題を解決するための工夫を凝らしているものが殆どである。
 例えば、特許文献4には、音声波形の周波数帯域のうち、振動波形の周波数帯域を抑制することによってビビリ現象(スピーカから出力された音声によって筐体が共振する現象で、異音あるいは音の歪み等が発生して音質を損なう一因となる)の発生を防ぐことが開示されている。この特許文献4に記載の技術はまさに、音楽再生において振動は異音の発生につながる邪魔なものという前提のもと、振動に起因するビビリ現象をいかに抑制するかを課題としたものと言える。ただし、この特許文献4に記載の技術では、ビビリ現象による異音の発生は抑制できるものの、音声波形の周波数帯域の一部を抑制する処理を行っているので、再生音声自体に音質の劣化が生じるという問題がある。
 なお、特許文献5には、高音の音声と低音の振動とを出力することにより、臨場感のある快適な音声信号を再生することができるようにした音声再生装置(携帯型の音声再生プレーヤ)が開示されている。この特許文献5に記載の音声再生装置において、体感モードが選択されたときには、DSP(Digital Signal Processor)では、入力されたLch信号およびRch信号を加算器により加算し、ローパスフィルタにより音声信号に含まれる低周波成分を取り出してMBS(Mobile Body Sonic)信号を生成する。
 この特許文献5に記載の音声再生装置は、そのジャックにヘッドホンのプラグを接続して使用される。ヘッドホンのプラグは、Lch信号を入力するLch接続端子部と、Rch信号を入力するLch接続端子部と、MBS信号を入力するMBS接続端子部と、GND信号を入力するGND接続端子部とを有する4端子構造の接続端子である。音声再生装置のL-RアンプおよびMBSアンプからヘッドホンのプラグに入力されたLch信号、Rch信号およびMBS信号は、それぞれLchスピーカ、Rchスピーカおよびトランスデューサに出力される。そして、MBS信号は、ユーザの衣服などに取り付けられたトランスデューサによって機械的振動に変換される。
 この特許文献5に記載の技術では、音楽再生中の音声信号から低周波の振動信号(MBS信号)が生成され、音声と共に振動が連続的に出力される。この点において、特許文献5に記載の技術は特許文献1~3に記載の技術とは異なる。ただし、音声がスピーカから出力される一方で、振動が振動付与体から出力されるという点で、特許文献1~3,5は全て共通している。これは、音声と振動とは一緒に出力することができない(振動が音声の邪魔をする)という従来の技術常識に基づいたものであると考えられる。特に、特許文献5では、音声信号とMBS信号とを分離するために、4端子構造のプラグを備えたヘッドホンを使用するものとしており、市販品のヘッドホンを汎用的に使用できないという犠牲を払ってでも、音声と振動とを分離しようとする意図が伺われる。
特開2016-213667号公報 特開2013-56309号公報 特開2011-171954号公報 特開2015-41803号公報 特開2006-33591号公報
 上述したように、従来の各種電子機器では、スピーカやイヤホン、ヘッドホンなどの音声出力部から音楽等の音声を出力する際に、同時に出力される振動は音声の邪魔(ノイズ)になるものであるとの思考のもと、あくまでも振動は音声に対する補助的なものとして、音声出力部とは異なる振動付与体を通じて振動を呈示するように構成されてきた。そのため、例えば特許文献2,5のように、再生される音楽に合わせて、当該音楽の音声信号に基づいて生成された振動をユーザに呈示するとしても、ユーザが音声を感じる部分(耳)と振動を感じる部分(耳以外の身体の一部)とが異なっているため、音楽は音楽、振動は振動として別々に体感されるに過ぎないという問題があった。
 本発明は、このような問題を解決するために成されたものであり、ユーザが音声と振動とをより一体のものとして体感でき、振動が音声の邪魔をせず、むしろ振動が音声に対して直接的に相乗効果を与えるような、今までに全く存在しない画期的な音響コンテンツを提供することを目的とする。
 上記した課題を解決するために、本発明の音響コンテンツ生成装置では、音声情報と、当該音声情報が有する周波数帯域のうち一部の周波数帯域から成る振動情報との少なくとも一方に対し、振動情報に基づき発生する音声が音声情報に基づき発生する音声によってマスキングされるように加工を行い、加工された音声情報と振動情報とをミキシングすることにより、音声情報および振動情報を含む音響コンテンツを生成するようにしている。
 上記のように構成した本発明によれば、音声情報および振動情報を含む音響コンテンツであって、振動情報に基づき発生する音声が音声情報に基づき発生する音声によってマスキングされるように加工された音響コンテンツを生成することができる。本発明により生成される音響コンテンツをスピーカやイヤホンまたはヘッドホン等の音声出力部に供給した場合、音声と振動とが同じ音声出力部から発生するので、これをユーザは一体のものとして体感することができる。しかも、音響コンテンツに含まれる振動情報が音声となって現れたとしても、同じ音響コンテンツに含まれる音声情報に基づき発生される音声よるマスキング効果によって、振動情報に基づき発生する音声はユーザに聴取し難いものとなっている。これにより、本発明によれば、ユーザが音声と振動とをより一体のものとして体感でき、振動が音声の邪魔をせず、むしろ振動が音声に対して直接的に相乗効果を与えるような、今までに全く存在しない画期的な音響コンテンツを提供することができる。
第1の実施形態による音響コンテンツ生成装置の機能構成例を示すブロック図である。 音声情報および振動情報のそれぞれについて、周波数毎の音圧を表した周波数特性を示す図である。 音声情報および振動情報の加工後の周波数特性を示す図である。 音声情報の加工に関する変形例を示す図である。 振動情報の加工に関する変形例を示す図である。 音声情報の波形情報および振動情報の波形情報の一例を示す図である。 図6に示す波形情報に対して音声情報および振動情報の双方を加工した結果の波形情報を示す図である。 第1の実施形態による音響コンテンツ生成装置の動作例を示すフローチャートである。 本発明の一実施形態に係る音響コンテンツ再生装置の機能構成例を示すブロック図である。 第2の実施形態による音響コンテンツ生成装置の機能構成例を示すブロック図である。 第2の実施形態による振動情報加工部の具体的な機能構成を示すブロック図である。 第2の実施形態による特徴抽出部および重み情報生成部の処理内容を説明するための図である。 第2の実施形態による重み加工部により加工された振動情報の波形情報を音声情報の波形情報と共に示す図である。 第2の実施形態による振動情報加工部の変形例を示すブロック図である。 振動情報の加工に関する変形例を示す図である。
(第1の実施形態)
 以下、本発明の第1の実施形態を図面に基づいて説明する。図1は、第1の実施形態による音響コンテンツ生成装置の機能構成例を示すブロック図である。図1に示すように、第1の実施形態による音響コンテンツ生成装置10は、その機能構成として、音声情報取得部11、振動情報取得部12、加工部13およびミキシング部14を備えている。加工部13には音声情報加工部13Aと振動情報加工部13Bとが含まれる。
 上記各機能ブロック11~14は、ハードウェア、DSP(Digital Signal Processor)、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記各機能ブロック11~14は、実際にはコンピュータのCPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。
 音声情報取得部11は、音声情報を取得する。ここで取得する音声情報は、例えば音楽、発話、効果音、アラーム音などに関するものである。なお、ここに挙げたものは一例であり、スピーカやイヤホン、またはヘッドホン等の音声出力部から音声が出力される情報であれば何れも用いることが可能である。以下では、音楽の音声情報を用いる場合を例にとって説明する。
 例えば、音声情報取得部11は、ユーザによる所定の選択操作に応じて、ユーザが所望する音声情報、すなわち、振動情報と一緒にして音響コンテンツを生成したいと考える所望の音声情報を取得する。例えば、音声情報が記憶された外部装置(例えば、パーソナルコンピュータ、サーバ、スマートフォン等の携帯端末、リムーバル記憶媒体など)を音響コンテンツ生成装置10に接続し、音声情報取得部11は、ユーザ操作により選択された音声情報を外部装置から取得する。なお、音響コンテンツ生成装置10が音声情報を内部の記憶媒体に記憶していて、音声情報取得部11は、ユーザ操作により選択された音声情報を内部の記憶媒体から取得するようにしてもよい。
 音声情報取得部11により取得された音声情報は、音響コンテンツ生成装置10にあらかじめ用意されている複数のトラックのうち何れか1つまたは複数に記録される。音声情報が音楽の場合、その音声情報の中には、複数の楽器の音声、ボーカルの音声、コーラスの音声といった様々なパートの音声情報が含まれている。これらの各パートの音声情報は、異なる周波数帯域に属している。音響コンテンツ生成装置10は、いくつかの周波数帯域毎に音声情報を複数のトラックに分けて記録することが可能である。もちろん、全ての周波数帯域をまとめて1つの音声情報として1つのトラックに記録することも可能である。また、パート毎の音声情報を複数のトラックに分けて記録することも可能である。なお、音声情報が2チャンネルから成るステレオ音声の場合、Lチャンネルの音声情報とRチャンネルの音声情報とを2つのトラックに分けて記録することも可能であるし、さらに各チャンネルの音声情報を上述のように複数のトラックに分けて記録することも可能である。
 振動情報取得部12は、音声情報取得部11により取得される音声情報が有する周波数帯域のうち一部の周波数帯域から成る振動情報を取得する。振動情報が有する周波数帯域は、20~20kHzの可聴周波数帯域の中でも比較的低い周波数帯域、例えば100Hz以下の周波数帯域とするのが好ましい。具体的には、20~80Hz、好ましくは30~60Hz、更に好ましくは35~50Hz程度の周波数帯域から成る振動情報を用いるのがよい。
 これから詳しく説明するように、第1の実施形態では、音声情報取得部11により取得された音声情報と、振動情報取得部12により取得された振動情報とを含む音響コンテンツを生成する。この音響コンテンツをスピーカ等の音声出力部に供給すると、音声情報からだけでなく、振動情報からも音声が発生することになる。後述するように、この振動情報に基づき発生する音声は、音声情報に基づき発生する音声によってマスキングされてユーザには聴取され難くなるようにすることができるが、元々人間の耳に聴取されにくい低周波帯域の振動情報を用いることにより、マスキングの効果をより大きくすることが可能である。
 単純に、20Hz以下の非可聴周波数帯域の振動情報を用いれば、その振動情報に基づいて仮に音声が発生しても、ユーザには聞こえない。しかし、周波数が低くなるほど振動波のエネルギーが小さくなるため、振動をユーザに伝えることも難しくなる。そこで、本実施形態では、ユーザに振動を伝えるのに十分なエネルギーを持った周波数帯域で、かつ、マスキングの効果を得やすい周波数帯域の振動情報を用いて音響コンテンツを生成するようにしている。
 なお、上述の周波数帯域は、マスキング効果が得られやすい周波数帯域を例示したものであり、これに限定されるものではない。使用する音声情報との組み合わせでマスキング効果が得られる場合には、上述した周波数帯域以外の振動情報を用いてもよい。
 ここで、振動情報取得部12は、ユーザによる所定の選択操作に応じて、ユーザが所望する振動情報、すなわち、音声情報と一緒にして音響コンテンツを生成したいと考える所望の振動情報を取得する。例えば、振動情報が記憶された外部装置を音響コンテンツ生成装置10に接続し、振動情報取得部12は、ユーザ操作により選択された振動情報を外部装置から取得する。なお、音響コンテンツ生成装置10が振動情報を内部の記憶媒体に記憶していて、振動情報取得部12は、ユーザ操作により選択された振動情報を内部の記憶媒体から取得するようにしてもよい。
 ユーザが所望する振動情報は、例えば、本出願の発明者が開発した情報伝達メディアとして使用可能な振動情報である(例えば、WO2018/211767号公報の記載を参照)。すなわち、本実施形態において用いる振動情報の一例は、振動波形の強度および分割区間の長さに基づいて特定される触質特徴量に由来する固有の触覚効果を持った振動情報である。例えば、触感のリズムが早いもの(または遅いもの)、触感の多様度が大きいもの(または小さいもの)といった異なる性質を有する多様な振動情報をあらかじめ用意しておき、その中からユーザが所望の振動情報を選択して用いるようにすることが可能である。
 また、振動を受けるユーザに与えられることが期待される振動効果として、身体的効果または心理的効果が異なる多様な振動情報をあらかじめ用意しておき、その中からユーザが所望の振動情報を選択して用いるようにすることも可能である。振動情報がどのような身体的効果または心理的効果を奏するかは、触質特徴量を決定する触質パラメータ(振動波形の強度、分割区間の長さ)の組み合わせに応じて定まる。
 触質パラメータとして用いる振動波形の強度と分割区間の長さは、<硬い-柔らかい>、<粗い-滑らか>のように対立する触質(以下、触質対という)の程度を表すパラメータといえる。例えば、<硬い-柔らかい>という触質対に関する触質パラメータとして、振動波形の強度を用いることが可能であり、この場合、強度が大きいほど硬いことを表し、強度が小さいほど柔らかいことを表す。また、<粗い-滑らか>という触質対に関する触質パラメータとして、振動波形の分割区間の長さを用いることが可能であり、この場合、分割区間が長いほど滑らかであることを表し、分割区間が短いほど粗いことを表す。
 この他、<大きい-小さい>、<鋭い-鈍い>、<重い-軽い>、<ざらざら-つるつる>、<揺らぎのある-安定した>、<消えるような-残るような>などの様々な触質対に基づいて2つの触質パラメータ(振動波形の強度、分割区間の長さ)を任意に用いることが可能である。
 このような触質パラメータによって特徴付けられる振動情報を生成することにより、任意の身体的効果または心理的効果を有する振動情報を得ることが可能である。例えば、「ふわふわ」した触感を与える身体的効果を有する振動情報、「さらさら」した触感を与える身体的効果を有する振動情報、「安心」や「リラックス」等の心理的効果を有する振動情報、「興奮」や「モチベーションアップ」等の心理的効果を有する振動情報などの多様な振動情報をあらかじめ用意しておき、その中からユーザが所望の振動情報を選択して用いるようにすることが可能である。
 振動情報取得部12により取得された振動情報は、音響コンテンツ生成装置10にあらかじめ用意されている複数のトラックのうち何れか1つまたは複数に記録される。振動情報が記録されるトラックは、音声情報が記録されるトラックとは異なるトラックである。基本的に、振動情報取得部12により取得された振動情報は1つのトラックに記録すればよいが、振動情報のカバーする周波数帯域が比較的広い場合は、1つの振動情報を周波数分離して複数のトラックに分けて記録するようにしてもよい。
 なお、一般的に、多くの人間にとって耳障りあるいは不快と言われている音が存在する。そのような不快な音の周波数帯域(例えば、2k~4kHz)を部分的に加工しやすくするために、当該不快な音の周波数帯域の振動情報を分離して1つのトラックに記録するようにしてもよい。以下に述べる加工部13による音声情報および振動情報に対する加工は、トラックごとに行うことが可能である。
 加工部13は、音声情報取得部11により取得された音声情報と、振動情報取得部12により取得された振動情報との少なくとも一方を加工する。ここで、音声情報加工部13Aは、音声情報取得部11により取得された音声情報を加工する。振動情報加工部13Bは、振動情報取得部12により取得された振動情報を加工する。加工の具体的内容については後述するが、加工部13は、振動情報に基づき発生する音声が音声情報に基づき発生する音声によってマスキングされるように、音声情報の加工および振動情報の加工の少なくとも一方を行う。
 マスキングとは、2つの音が重なったときに、一方の音にもう一方の音がかき消されて聞こえなくなる現象をいう。すなわち、マスキングとは、物理的には存在する音なのに、人には知覚することのできない現象と言える。加工部13は、加工された(または加工されていない)振動情報を音声出力部に供給した場合に発生する音声が、加工された(または加工されていない)音声情報を音声出力部に供給した場合に発生する音声によってマスキングされるような態様で、音声情報および振動情報の少なくとも一方を加工する。
 ミキシング部14は、加工部13により加工された音声情報と振動情報とをミキシングすることにより、音声情報および振動情報を含む音響コンテンツを生成する。すなわち、ミキシング部14は、1つまたは複数のトラックに記録された音声情報(音声情報加工部13Aにより必要に応じて加工されたもの)と、音声情報のトラックとは別の1つまたは複数のトラックに記録された振動情報(振動情報加工部13Bにより必要に応じて加工されたもの)とをミキシングすることにより、1つの音響コンテンツを生成する。
 ミキシング部14により生成される音響コンテンツは、1つまたは複数のトラック(チャンネル)の情報として記録される。例えば、モノラルの音響コンテンツを生成する場合、ミキシング部14は、複数のトラックに記録された音声情報および振動情報を1つのトラックにトラック・ダウンする処理を行うことにより、1チャンネルから成るモノラルの音響コンテンツを生成する。この1チャンネルの音響コンテンツには、音声情報と振動情報とが含まれる。
 また、ステレオの音響コンテンツを生成する場合、ミキシング部14は、複数のトラックに記録された音声情報および振動情報を2つのトラックにトラック・ダウンする処理を行うことにより、2チャンネルから成るステレオの音響コンテンツを生成する。ここで、第1チャンネルにはLチャンネルの音声情報と振動情報とが含まれる。また、第2チャンネルにはRチャンネルの音声情報と振動情報とが含まれる。2つのチャンネルにそれぞれ含まれる振動情報は、同じものであってもよいし、異なるものであってもよい。Lチャンネル用およびRチャンネル用に異なる振動情報を用いる場合は、各チャンネル用の振動情報を振動情報加工部13Bによる加工によって生成する。
 次に、加工部13の具体的な処理内容について説明する。加工部13は、振動情報取得部12により取得された振動情報の振動圧力または振動量が、音声情報取得部11により取得された音声情報の周波数帯域のうち、振動情報の周波数帯域と同等の周波数帯域における音圧または音量よりも小さくなるように、音声情報の加工および振動情報の加工の少なくとも一方を行う。ここで、振動情報は、音声出力部に供給された場合には音声となって現れることから、振動情報の振動圧力または振動量は、振動情報の音圧または音量と言い換えることが可能である。以下では、説明の便宜上、振動情報についても音圧または音量という用語を用いるものとする。
 なお、音圧は、音の圧力のことであり、人間の聴覚特性に合わせ、基準となる値に対して音がどれだけ大きいかをデシベル[dB]によって表現される音圧レベルを用いて表したものである。一方、音量は、いわゆるボリュームで設定される音の大きさのことをいう。どちらも音の強さを表すものとしてほぼ等価なものであり、以下では「音圧」を用いて説明する。
 図2は、音声情報および振動情報のそれぞれについて、周波数毎の音圧を表した周波数-音圧特性(以下、単に周波数特性という)を示す図である。図2(a)が音声情報の周波数特性、図2(b)が振動情報の周波数特性である。図2に示す周波数特性は、時系列的な音声情報および振動情報の一時点における周波数特性を示したものであるとする。なお、ここでは便宜上、周波数特性を包絡形状として模式的に示している。図2において、横軸は周波数、縦軸は音圧である。
 図2(b)に示すように、振動情報の全周波数帯域の中で音圧の最大値はVPである。一方、図2(a)に示す音声情報の全周波数帯域のうち、振動情報の周波数帯域と同等の周波数帯域における音圧の最小値はMPである。ここで、MP<VPであるものとする。加工部13は、例えば、この振動情報の最大音圧VPが、当該振動情報の周波数帯域と同等の周波数帯域(以下、特定周波数帯域という)における音声情報の最小音圧MPよりも小さくなるように、音声情報および振動情報の少なくとも一方に対して加工を行う。
 ここで、加工後における音声情報の最小音圧をMP’、加工後における振動情報の最大音圧をVP’とした場合、MP’>VP’となるようにするための加工の方法は、3パターンある。第1のパターンは、振動情報は加工せず、音声情報を加工して最小音圧MPを引き上げるという方法である(VP’=VP、MP’>MP)。第2のパターンは、音声情報は加工せず、振動情報を加工して最大音圧VPを引き下げるという方法である(VP’<VP、MP’=MP)。第3のパターンは、音声情報を加工して最小音圧MPを引き上げるとともに、振動情報を加工して最大音圧VPを引き下げるという方法である(VP’<VP、MP’>MP)。本実施形態では、第1~第3のパターンの何れを適用してもよい。
 図3は、第3のパターンを適用して音声情報および振動情報の双方を加工することにより、加工後の振動情報の最大音圧VP’が、加工後の音声情報の特定周波数帯域における最小音圧MP’よりも小さくなるようにした結果の周波数特性を示す図である。振動情報加工部13Bは、図3(b)に示すように、振動情報の周波数帯域の全体を加工することにより、加工前の最大音圧VPを加工後の最大音圧VP’に引き下げている。一方、音声情報加工部13Aは、図3(a)に示すように、音声情報の特定周波数帯域のみを加工し、当該特定周波数帯域における加工前の最小音圧MPを加工後の最小音圧MP’に引き上げている。これにより、MP’>VP’となるようにしている。MP’>VP’となる関係は、特許請求の範囲における「所定の関係」の一態様である。
 なお、振動情報に関しては全周波数帯域が1つのトラックに記録されるのに対し、音声情報に関しては複数の周波数帯域毎に複数のトラックに分けて記録され得る。この場合、振動情報の周波数帯域と完全に一致する周波数帯域の音声情報が何れか1つのトラックに記録されているとは限らない。この場合、音声情報加工部13Aは、例えば、振動情報の周波数帯域に最も近い周波数帯域が記録されたトラックの音声情報を加工する。あるいは、振動情報の周波数帯域が音声情報の複数のトラックにまたがって存在する場合に、その複数のトラックの音声情報を加工するようにしてもよい。このように、振動情報の周波数帯域と完全に一致しないものの、振動情報の周波数帯域を含む音声情報の周波数帯域も「振動情報の周波数帯域と同等の周波数帯域」である。
 図3(a)のように、音声情報について特定周波数帯域のみを加工の対象とする場合、加工の第1のパターンでは、MP’>VP’となるようにするために、音声情報における特定周波数帯域の音圧を比較的大きな変化量をもって上げなければならない場合が起こり得る。この場合、加工前後で音声情報の音質の違いがユーザに聴取されるほどに音質が変わってしまう可能性がある。一方、第2のパターンは、音声情報を加工しないので音質に変化はないが、MP’>VP’となるようにするために、振動情報の音圧を比較的大きな変化量をもって下げなければならない場合が起こり得る。この場合、振動がユーザに与える体感の大きさが小さくなってしまう可能性がある。これに対し、第3のパターンであれば、音声情報の変化量も振動情報の変化量も必要最小限に抑えることができるというメリットがある。実際には、どの程度の音圧の変化量が必要となるかや、音質または振動をどの程度重視するかなどに応じて、第1~第3のパターンの何れかを適宜適用すればよい。
 ここでは、振動情報の音圧が音声情報の特定周波数帯域における音圧よりも小さくなるようにするために、図3(a)のように音声情報加工部13Aが音声情報の特定周波数帯域を加工する例を示したが、本発明はこれに限定されない。例えば、図4に示すように、音声情報加工部13Aは、音声情報の周波数帯域の全体を加工するようにしてもよい。
 また、ここでは、振動情報の音圧が音声情報の特定周波数帯域における音圧よりも小さくなるようにするために、図3(b)のように振動情報加工部13Bが振動情報の周波数帯域の全体を加工する例を示したが、本発明はこれに限定されない。例えば、振動情報も複数のトラックに分けて記録されている場合には、振動情報加工部13Bは、図5に示すように、振動情報の周波数帯域のうち、所定の周波数よりも大きい周波数帯域を加工するようにしてもよい。
 一般的に、マスキングされる音声の周波数が低くなるほど、マスキング効果が高くなることが知られている。そのため、振動情報の周波数帯域の中でも特に低周波領域の振動情報については音圧を下げなくても、当該低周波領域の振動情報から発生する低周波の音声が、音声情報に基づき発生する音声によって有効にマスキングされる可能性がある。そこで、振動情報も複数のトラックに分けて記録されている場合には、周波数が高い方の周波数帯域の振動情報のみを対象として音圧を下げる加工を行うようにしてもよい。このようにすれば、振動情報の全体的な音圧を極力下げることなく、振動情報に基づく音声がマスキング効果によってユーザに知覚されないようにすることができる。
 なお、ここでは、音声情報の最小音圧MP’が振動情報の最大音圧VP’よりも小さくなるように加工する例を示したが、本発明はこれに限定されない。例えば、音声情報の最小音圧に代えて、音声情報の最大音圧を用いるようにしてもよい。あるいは、音声情報の最小音圧に代えて、音声情報の最小音圧と最大音圧との中間値を用いるようにしてもよい。ただし、音声情報の最小音圧を用いた場合は、振動情報が有する周波数帯域の全体において、振動情報の音圧が音声情報の音圧よりも小さくなるので、マスキング効果を得やすくなるというメリットを有する。
 また、ここでは説明の便宜上、時系列的な音声情報および振動情報の一時点における周波数特性を示して音圧の加工内容を説明したが、他の時点における周波数特性は異なるものとなる。この場合、音声情報および振動情報の開始時点から終了時点までの各時点毎に(所定のサンプリング周期で)、音声情報の特定周波数帯域における最小音圧と振動情報の最大音圧との関係を踏まえて個別の加工を行うようにしてもよいが、これでは処理が煩雑となる。そこで、例えば、音声情報について開始時点から終了時点までの特定周波数帯域における最小音圧(または、最大音圧や中間値でもよい)を求めるとともに、振動情報についても開始時点から終了時点までの最大音圧を求め、このようにして求めた音声情報の最小音圧と振動情報の最大音圧との関係を踏まえて、開始時点から終了時点まで一律の加工を行うようにしてもよい。
 図6は、特定振動情報における音声情報の時系列的な波形情報(図6(a))と、振動情報の時系列的な波形情報(図6(b))とを示す図である。ここでは、音声情報および波形情報の両方とも、全体の中の一部を示している。図6において、横軸は時間、縦軸は振幅である。
 図6に示す波形情報は、音響コンテンツ生成装置10が備える操作子(図示せず)を用いてユーザがトラックを指定する操作を行うことにより、音響コンテンツ生成装置10が備えるディスプレイ(図示せず)に表示させることが可能である。すなわち、図6(a)は、特定周波数帯域における音声情報が記録されているトラックを指定したときに表示される波形情報であり、図6(b)は、振動情報が記録されているトラックを指定したときに表示される波形情報である。
 ここで、時系列的な波形情報の振幅は、各時点における音の大きさ、つまり音圧を実質的に示していると言える。したがって、図6に示す波形情報を画面に表示させることにより、指定したトラックの周波数帯域における音声情報および振動情報について、各時点における音圧の変化を確認することが可能である。ユーザは、この波形情報を目視しながら、音響コンテンツ生成装置10が備える操作子を操作することにより、音声情報の音圧および振動情報の音圧の少なくとも一方を加工することが可能である。
 例えば、図6(a)に示す波形情報を確認することにより、特定周波数帯域の音声情報について開始時点から終了時点までの最小音圧を把握することができる。ここで、音声情報の波形は、音が発生した時点で振幅が大きくなり、時間の経過と共に振幅が徐々に減衰していく。複数の音が時系列的に発生すると、音が発生する毎に振幅が大きくなっては減衰することを繰り返す。図6(a)の波形情報はそのような状態を示している。この場合において、音声情報の開始時点から終了時点までの最小音圧は、例えば、繰り返し発生する音に関して音が発生した時点における振幅のうち最小値と定義することが可能である。図6(a)に示す波形情報の場合、MPminがその最小音圧となる。
 図6(b)に示す振動情報についても同様に、画面に表示された波形情報を確認することにより、振動情報について開始時点から終了時点までの最大音圧を把握することができる。図6(b)の波形情報は、振幅があまり大きく変化しない振動が連続的に与えられ続けることを示している。この場合において、振動情報の開始時点から終了時点までの最大音圧はVPmaxなる。
 ユーザは、音響コンテンツ生成装置10が備える操作子を操作して、図6(a)に示す音声情報の音圧および図6(b)に示す振動情報の音圧の少なくとも一方を加工することにより、振動情報の最大音圧VPmaxが音声情報の特定周波数帯域における最小音圧MPminより小さくなるようにする。なお、このように加工した場合、ある音が発生してから次の音が発生するまでの間に音声情報の振幅が徐々に減衰していく期間において、振動情報の振幅が音声情報の振幅よりも大きくなることがある。
 そこで、振動情報については、開始時点から終了時点までの全期間において一律に同じ圧縮率で音圧を下げるのではなく、複数に分割した区間ごとに異なる圧縮率で音圧を調整するようにしてもよい。あるいは、基本的には開始時点から終了時点までの全期間において一律に同じ圧縮率で音圧を下げることとし、特定の区間のみ例外的に異なる圧縮率で音圧を下げるようにしてもよい。なお、音声情報についても同様に区間ごとに音圧を調整するようにしてもよいが、区間ごとに音圧の調整率を大きく変えすぎると音質に影響を与える可能性があるので、区間ごとの音圧の調整率は大きく変えないようにするのが好ましい。
 図7は、図6に示す波形情報に対して、音声情報および振動情報の双方を加工することにより、加工後の振動情報の最大音圧VPmax’が、加工後の音声情報の特定周波数帯域における最小音圧MPmin’より小さくなるようにした結果の波形情報を示す図である。すなわち、振動情報加工部13Bは、図6(b)に示すように、振動情報の開始時点から終了時点までの全期間において一律に同じ圧縮率で音圧を引き下げることにより、加工前の最大音圧VPmaxを加工後の最大音圧VPmax’に引き下げている。一方、音声情報加工部13Aは、図6(a)に示すように、音声情報の開始時点から終了時点までの全期間において一律に同じ上昇率で音圧を引き上げることにより、加工前の最小音圧MPminを加工後の最小音圧MPmin’に引き上げている。これにより、MPmin’>VPmax’となるようにしている。
 なお、図7では、振動情報の最大音圧VPmaxが音声情報の最小音圧MPminよりも小さくなるように音声情報および振動情報の少なくとも一方を加工する例について説明したが、上述したように、音声情報の最小音圧MPminに代えて、音声情報の最大音圧を用いるようにしてもよいし、音声情報の最小音圧と最大音圧との中間値を用いるようにしてもよい。
 また、上記実施形態では、ユーザが音響コンテンツ生成装置10の操作子を操作することによって音声情報および振動情報の波形情報を画面上に表示させ、この波形情報をユーザが目視しながら音響コンテンツ生成装置10の操作子を操作することによって音声情報および振動情報の少なくとも一方に関する音圧を調整する例について説明したが、これを音響コンテンツ生成装置10の処理として自動的に行うようにしてもよい。
 すなわち、音声情報加工部13Aは、特定周波数帯域における音声情報について、開始時点から終了時点までの最小音圧をMPminを検出する。一方、振動情報加工部13Bは、振動情報の開始時点から終了時点までの最大音圧VPmaxを検出する。そして、加工部13は、MPmin<VPmaxとなっているか否かを判定し、MPmin<VPmaxとなっている場合に、音声情報加工部13Aが音声情報の音圧を引き上げるとともに、振動情報加工部13Bが振動情報の音圧を引き下げることにより、調整後の音圧がMPmin’>VPmax’となるようにする。例えば、音声情報の音圧の上昇と振動情報の音圧の下降とをステップ処理として段階的に行っていき、MPmin’>VPmax’となった時点でステップ処理を終了するという方法で処理することが可能である。
 図8は、加工部13における加工を自動的に行うようにした場合における音響コンテンツ生成装置10の動作例を示すフローチャートである。図8において、まず、音声情報取得部11は、音響コンテンツ生成装置10の操作子を操作することによってユーザにより選択された音声情報を取得する(ステップS1)。また、振動情報取得部12は、音響コンテンツ生成装置10の操作子を操作することによってユーザにより選択された振動情報を取得する(ステップS2)。ここでは、振動情報取得部12により取得された振動情報は1つのトラックに記録されるものとする。
 次いで、音声情報加工部13Aは、特定周波数帯域における音声情報について、開始時点から終了時点までの最小音圧をMPminを検出する(ステップS3)。また、振動情報加工部13Bは、振動情報の開始時点から終了時点までの最大音圧VPmaxを検出する(ステップS4)。そして、加工部13は、MPmin<VPmaxとなっているか否かを判定する(ステップS5)。MPmin<VPmaxとなっていなければ、図8に示すフローチャートの処理は終了する。
 一方、MPmin<VPmaxとなっている場合、音声情報加工部13Aは、音声情報の音圧をx[dB]だけ引き上げる(ステップS6)。ここで、音圧を引き上げる量xは、あらかじめ任意の量として設定しておくことが可能である。すなわち、音声情報加工部13Aは、調整後の最小音圧MPmin’の値が(MPmin’+x)となるように、音声情報の音圧を引き上げる。
 また、振動情報加工部13Bは、振動情報の音圧をx[dB]だけ引き下げる(ステップS7)。すなわち、振動情報加工部13Bは、調整後の最大音圧VPmax’の値が(VPmax’-x)となるように、振動情報の音圧を引き下げる。なお、ここでは音声情報の音圧の上昇量と振動情報の音圧の下降量とを同じx[dB]としているが、異なる量としてもよい。
 次に、加工部13は、ステップS6,S7で調整した後の音声情報および振動情報の音圧が、MPmin’>VPmax’となったか否かを判定する(ステップS8)。MPmin’>VPmax’となっていない場合、処理はステップS6に戻り、音声情報および振動情報の音圧の調整を継続する。一方、MPmin’>VPmax’となった場合は、音圧の調整が完了したことになるので、図8に示すフローチャートの処理は終了する。なお、ステップS8の判定において、所定量のマージンαを持たせて、MPmin’>VPmax’+αとなったか否かを判定するようにしてもよい。
 図9は、以上のように構成した音響コンテンツ生成装置10により生成された音響コンテンツを再生する音響コンテンツ再生装置20の機能構成例を示すブロック図である。音響コンテンツ再生装置20としては、例えば、スマートフォン、携帯型音楽再生プレイヤ、パーソナルコンピュータなどを用いることが可能である。あるいは、音響コンテンツ再生装置20は、任意の機器に組み込んだものであってもよい。
 図9に示すように、本実施形態の音響コンテンツ再生装置20は、その機能構成として、音響コンテンツ取得部21および音響コンテンツ供給部22を備えている。これら各機能ブロック21,22は、ハードウェア、DSP、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記各機能ブロック21,22は、実際にはコンピュータのCPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。
 音響コンテンツ取得部21は、図1に示した音響コンテンツ生成装置10により生成された音響コンテンツを取得する。例えば、音響コンテンツ生成装置10を音響コンテンツ再生装置20に接続し、音響コンテンツ取得部21は、ユーザ操作により選択された音響コンテンツを音響コンテンツ生成装置10から取得する。なお、ここでは、音響コンテンツ生成装置10により複数種類の音響コンテンツが生成されているとの前提である。
 あるいは、音響コンテンツ生成装置10により生成された複数種類の音響コンテンツが記憶された外部装置を音響コンテンツ再生装置20に接続し、音響コンテンツ取得部21は、ユーザ操作により選択された音響コンテンツを外部装置から取得するようにしてもよい。この場合の外部装置は、音響コンテンツ再生装置20に対して有線または無線で直接的に接続されたもの(例えば、パーソナルコンピュータ、スマートフォン等の携帯端末、リムーバル記憶媒体など)であってもよいし、音響コンテンツ再生装置20に対して通信ネットワークを介して接続可能に構成されたサーバ装置であってもよい。サーバ装置を用いる場合、音響コンテンツ取得部21は、サーバ装置から音響コンテンツをストリーミング的に取得して音響コンテンツ供給部22に提供することが可能である。
 また、別の例として、音響コンテンツ生成装置10により生成された複数種類の音響コンテンツを音響コンテンツ再生装置20が内部の記憶媒体に記憶していて、音響コンテンツ取得部21は、ユーザ操作により選択された音響コンテンツを内部の記憶媒体から取得するようにしてもよい。音響コンテンツ再生装置20が内部の記憶媒体に音響コンテンツを記憶する形態として、音響コンテンツ再生装置20に対して通信ネットワークを介して接続可能に構成されたサーバ装置から、音響コンテンツ取得部21が音響コンテンツをダウンロードして内部の記憶媒体に記憶させるようにしてもよい。
 上記のように、サーバ装置が音響コンテンツ再生装置20に対して音響コンテンツをダウンロード可能に構成した場合や、サーバ装置が音響コンテンツ再生装置20に対して音響コンテンツをストリーミング配信可能に構成した場合、サーバ装置は特許請求の範囲の音響コンテンツ提供装置に相当する。すなわち、この場合のサーバ装置は、音響コンテンツ生成装置10により生成された音響コンテンツを記憶し、音響コンテンツ再生装置20からの要求に応じて音響コンテンツを音響コンテンツ再生装置20に提供する。また、サーバ装置と音響コンテンツ再生装置20とが通信ネットワークを介して接続可能に構成されたシステムによって、特許請求の範囲の音響コンテンツ配信システムが構成される。なお、サーバ装置が記憶する音響コンテンツは、第2の実施形態で説明する音響コンテンツ生成装置10’により生成されるものであってもよい。
 音響コンテンツ供給部22は、音響コンテンツ取得部21により取得された音響コンテンツを、当該音響コンテンツに含まれる音声情報と振動情報とを分離しない状態のまま音声出力部100に供給する。ここで、音声出力部100は、据置型または携帯型のスピーカであってもよいし、イヤホンであってもよいし、ヘッドホンであってもよい。これらの音声出力部100は、音響コンテンツ再生装置20に対して有線または無線で接続される。また、音声出力部100は、音響コンテンツ再生装置20が内蔵しているスピーカであってもよい。
 なお、音響コンテンツ供給部22は、音響コンテンツ取得部21により取得された音響コンテンツの音声情報および振動情報に対して、D/A変換、アンプを用いた増幅処理、波形整形処理などの一般的な音声信号処理を行った上で、信号処理後の情報を音声出力部100に供給することを含んでもよい。
 このように、音響コンテンツに含まれる音声情報と振動情報とを分離しない状態のまま音声出力部100に供給すると、音声出力部100が有する振動板から、音声情報に基づく音声と振動情報に基づく音声とが発生することになる。ただし、振動情報に基づく音声が音声情報に基づく音声によってマスキングされるように音声情報の音圧と振動情報の音圧とが調整されているので、振動情報に基づく音声は、音声情報に基づく音声によってかき消され、ユーザの耳には聴取しにくいものとなっている。しかも、振動情報が存在しないわけではなく、厳然として存在する振動情報が音声出力部100の振動板に伝わることにより、振動情報に固有の振動が発生する。これにより、音声情報に基づき発生する音楽の音声を、振動情報に基づき発生する音声によって邪魔されない状態で音質を保ったままユーザに伝えつつ、振動情報に基づく振動も同じ振動板からユーザに同時に伝えることが可能となる。
 以上詳しく説明したように、第1の実施形態では、音声情報と、当該音声情報が有する周波数帯域のうち一部の周波数帯域から成る振動情報との少なくとも一方に対し、加工後における振動情報に基づく音声が音声情報に基づく音声によってマスキングされるように加工を行い、加工された音声情報と振動情報とをミキシングすることにより、音声情報および振動情報を含む音響コンテンツを生成するようにしている。そして、このようにして生成した音響コンテンツを、当該音響コンテンツに含まれる音声情報と振動情報とを分離しない状態のまま音声出力部に供給するようにしている。
 上記のように構成した第1の実施形態によれば、音声情報および振動情報を含む音響コンテンツであって、振動情報に基づき発生する音声が音声情報に基づき発生する音声によってマスキングされるように加工された音響コンテンツを生成することができる。第1の実施形態により生成される音響コンテンツを音声出力部100に供給した場合、音声と振動とが同じ音声出力部100から発生するので、これをユーザは一体のものとして体感することができる。しかも、音響コンテンツに含まれる振動情報が音声となって現れたとしても、同じ音響コンテンツに含まれる音声情報に基づき発生される音声よるマスキング効果によって、振動情報に基づき発生する音声はユーザに聴取し難いものとなっている。
 これにより、第1の実施形態によれば、ユーザが音声と振動とをより一体のものとして体感でき、振動が音声の邪魔をせず、むしろ振動が音声に対して直接的に相乗効果を与えるような、今までに全く存在しない画期的な音響コンテンツを提供することができる。特に、第1の実施形態によれば、振動情報に基づく振動が音声出力部とは異なる振動付与体から発生するように構成された従来技術とは異なり、同じ音声出力部100の振動板から発生する振動が音声に対して直接的に相乗効果を与えることにより、音響的な奥行き感や厚み感、あるいは立体感などが増したような振動付き音声をユーザに提供することができる。また、上述したように所定の触覚効果を持った振動情報、所定の身体的効果または心理的効果を奏する振動情報を用いることにより、情報伝達メディアとして音声情報との相乗効果の発揮も期待できる。
(第2の実施形態)
 次に、本発明の第2の実施形態を図面に基づいて説明する。図10は、第2の実施形態による音響コンテンツ生成装置10’の機能構成例を示すブロック図である。なお、この図10において、図1に示した符号と同一の符号を付したものは同一の機能を有するものであるので、ここでは重複する説明を省略する。
 図10に示すように、第2の実施形態による音響コンテンツ生成装置10’は、その機能構成として、加工部13に代えて加工部13’を備えている。特に、第2の実施形態では、振動情報加工部13Bに代えて振動情報加工部13B’を備え、振動情報の加工の仕方が第1の実施形態と異なっている。
 図11は、振動情報加工部13B’の具体的な機能構成例を示すブロック図である。図11に示すように、振動情報加工部13B’は、その機能構成として、特徴抽出部131、重み情報生成部132、重み加工部133および振動調整部134を備えている。
 特徴抽出部131は、音声情報取得部11により取得された音声情報の周波数帯域のうち特定周波数帯域の波形情報において、他の箇所と区別し得る複数の特徴箇所を抽出する。例えば、特徴抽出部131は、音声情報の波形情報において、所定時間の間に振幅値が所定値以上大きくなる箇所を特徴箇所として抽出する。所定時間の間に振幅値が所定値以上大きくなる箇所は、典型的には、時系列な音声情報の開始時点から終了時点までの中で繰り返し発生する複数の音のそれぞれの発生時点である。
 重み情報生成部132は、特徴抽出部131により抽出された複数の特徴箇所に基づいて、特徴箇所間の時間区間において経時的に値が変化する重み情報を生成する。例えば、重み情報生成部132は、特徴抽出部131により抽出された複数の特徴箇所に基づいて、一の特徴箇所が抽出された時間から次の特徴箇所が抽出された時間まで値が経時的に徐々に小さくなる重み情報を生成する。
 図12は、特徴抽出部131および重み情報生成部132の処理内容を説明するための図である。ここで、図12(a)は、音声情報取得部11により取得された音声情報の特定周波数帯域における波形情報の一部を示している。図12(b)は、振動情報取得部12により取得された振動情報の波形情報に対し、重み情報生成部132により生成された重み情報を模式的に重ねて示した状態を示している。なお、図12(a)に示す音声情報の波形情報は、図6(a)に示したものと同じである。
 特徴抽出部131は、図12(a)に示す音声情報の波形情報において、所定時間(例えば、0.1秒)の間に振幅値が所定値以上大きくなる箇所を複数の特徴箇所F,F,F,・・・として抽出する。すなわち、特徴抽出部131は、音声情報の波形情報の振幅値が急激に大きくなる箇所を特徴箇所F,F,F,・・・として抽出する。これは、図6で説明したように、音が発生した時点で振幅が急激に大きくなる箇所を抽出することに相当する。
 重み情報生成部132は、特徴抽出部131により抽出された複数の特徴箇所F,F,F,・・・に基づいて、一の特徴箇所F(i=1,2,・・・)が抽出された時間から、次の特徴箇所Fi+1が抽出された時間まで、値が経時的に徐々に小さくなる重み情報を生成する。この重み情報は、重み値(何れも正の値)が最小値から最大値までの間をとる情報であり、図12(b)においてノコギリ波として模式的に示されている。
 図12(b)の例では、一の特徴箇所Fが抽出された時間において重み値が最大となり、そこから線形的あるいは段階的に値が経時的に徐々に小さくなり、次の特徴箇所Fi+1が抽出された時間において重み値が再び最大となるような重み情報を生成している。ここで、重み情報生成部132は、一の特徴箇所Fが抽出された時間において重み値が最大となり、次の特徴箇所Fi+1が抽出された時間に達する時点で重み値がちょうど最小値となるような重み情報を生成している。
 なお、ここに示した重み情報の生成処理は一例であり、これに限定されるものではない。例えば、図12(b)では、重み値が一定の割合で直線的に徐々に小さくなる例を示したが、一の特徴箇所Fが抽出された時間から次の特徴箇所Fi+1が抽出された時間まで、所定の2次関数あるいは対数関数などに従って値が曲線的に徐々に小さくなるような重み情報を生成するようにしてもよい。
 また、重み値が徐々に小さくなる割合(ノコギリ波で示される斜線部の傾斜角)を、どの区間も同じとするようにしてもよい。この場合、一の特徴箇所Fと次の特徴箇所Fi+1との間が長い区間があると、次の特徴箇所Fi+1に至る前に重み値が最小値に達する。この場合、重み情報生成部132は、例えば、重み値が最小値に達した後、次の特徴箇所Fi+1に至るまで、重み値が最小値に固定するような重み情報を生成する。
 また、重み値の最大値と最小値とを固定値とせず、所定の条件に応じて変動する変動値とするようにしてもよい。例えば、特徴箇所における振幅値の大きさに応じて、重み値の最大値を可変とするようにしてもよい。この場合、重み情報生成部132は、一の特徴箇所Fにおける振幅値が大きいほど重み値が大きくなるようにし、そこから次の特徴箇所Fi+1まで値が徐々に小さくなるような重み情報を生成する。このようにすれば、所定時間の間に振幅値が所定値以上大きくなる複数の特徴箇所Fのうち、その特徴箇所Fの振幅値が大きいほど大きな重み値が設定されるようになる。
 重み加工部133は、振動情報取得部12により取得された振動情報を、重み情報生成部132により生成された重み情報によって加工する。例えば、重み加工部133は、振動情報の波形情報の振幅値に対して重み情報の重み値を乗算することにより、振動情報の振動情報を加工する。
 すなわち、重み加工部133は、図12(b)に示している振動情報の波形情報の各時間における振幅値に対し、同じく図12(b)にノコギリ波として模式的に示している各時間における重み値を乗算する。図12(b)において、振動情報の波形情報と重み情報とを重ねて示しているのは、各時刻における波形情報の振幅値と、これに対して乗算する重み値との対応関係を明示するためである。
 図13は、重み加工部133により加工された振動情報の波形情報を音声情報の波形情報と共に示す図である。図13(a)は、音声情報取得部11により取得された音声情報の特定周波数帯域における波形情報を示し、図13(b)は、重み加工部133により加工された振動情報の波形情報を示している。図13(a)に示す音声情報の波形情報は、図12(a)に示す音声情報の波形情報と同じである。
 このようにして加工される図13(b)の振動情報は、音声情報の波形情報における特徴箇所と同調する態様で重み値が変動する重み情報によって波形の振幅値が加工されたものである。このため、重み加工部133により加工された振動情報は、音声情報の振幅の変化と同調した態様で振幅が変化するものとなる。すなわち、図12(a)のように、加工前の振動情報が、時間と共に振幅値が大きく変動しないものであれば、これを上述した重み情報によって加工することにより、音声情報において音が発生した時点で振幅が大きくなり、次に音が発生する時点までの間に振幅が徐々に小さくなっていくような波形を有する振動情報が得られる。
 振動調整部134は、重み加工部133により加工された振動情報の音圧を調整することにより、調整後の振動情報の音圧が、音声情報の特定周波数帯域における音圧よりも小さくなるようにする。なお、この振動調整部134の処理は、第1の実施形態で説明した処理と同じであるので、詳細な説明は割愛する。また、第1の実施形態で説明したのと同様に、音声情報加工部13Aによる音声情報の加工のみを行い、振動情報加工部13B’による振動情報の加工は行わないようにすることも可能である。あるいは、振動情報の加工に関しては、重み加工部133の加工は行う一方で、振動調整部134の調整は行わないようにすることも可能である。
 なお、特徴抽出部131が音声情報の波形情報から抽出する複数の特徴箇所は、以上に説明した例に限定されない。例えば、特徴抽出部131は、音声情報の波形情報において、振幅値が所定値以上となる箇所を特徴箇所として抽出するようにしてもよい。あるいは、音声情報の波形情報を時間ごとに周波数解析し、含まれる周波数成分が急激に変わる箇所を特徴箇所として抽出するようにしてもよい。
 また、上記実施形態では、重み情報生成部132は、一の特徴箇所Fが抽出された時間から次の特徴箇所Fi+1が抽出された時間まで値が徐々に小さくなるような重み情報を生成したが、本発明はこれに限定されない。例えば、特徴抽出部131が、音声情報の波形情報において所定時間の間に振幅値が急激に小さくなる箇所を特徴箇所として抽出するようにし、重み情報生成部132が、一の特徴箇所Fが抽出された時間から次の特徴箇所Fi+1が抽出された時間まで値が徐々に大きくなるような重み情報を生成するようにしてもよい。
 以上のように構成した第2の実施形態による音響コンテンツ生成装置10’により生成された音響コンテンツを再生する場合も、図9に示した音響コンテンツ再生装置20を用いることが可能である。
 このように構成した第2の実施形態によれば、音声情報の時系列的な波形情報における振幅の増減と同調する態様で振幅が増減するような振動情報を得て、そのような振動情報に対して音圧の加工を行うことができる。これにより、ある音が発生してから次の音が発生するまでの間に音声情報の振幅が徐々に減衰していく期間において、振動情報の振幅が音声情報の振幅よりも大幅に大きくなるようなことを回避することができる。このため、音声情報に基づく音声による振動情報に基づく音声のマスキング効果をより高めることができる。
 なお、図11に示した構成に代えて、図14のような構成を採用してもよい。図14に示す振動情報加工部13B’は、図11に示した特徴抽出部131および重み情報生成部132に代えて、エンベロープ生成部135および重み情報生成部132’を備えている。
 エンベロープ生成部135は、音声情報取得部11により取得された音声情報の特定周波数帯域における波形情報に対するエンベロープ波形を生成する。例えば、エンベロープ生成部135は、音声情報取得部11により取得された音声情報の特定周波数帯域における波形情報に対してローパスフィル処理を施すことにより、音声情報のエンベロープ波形を生成する。
 重み情報生成部132’は、エンベロープ生成部135により生成されたエンベロープ波形の振幅と同調するように値が変化する重み情報を生成する。例えば、重み情報生成部132’は、エンベロープ波形と同じカーブで値が変動する重み情報を生成する。このようにすれば、音声情報の時系列的な波形情報における振幅の増減とより合致する態様で振幅が増減するような振動情報を得て、そのような振動情報に対して音圧の加工を行うことができる。これにより、ある音が発生してから次の音が発生するまでの間に音声情報の振幅が徐々に減衰していく期間において、振動情報の振幅が音声情報の振幅よりも大幅に大きくなるようなことをより効果的に回避することができる。このため、音声情報に基づく音声による振動情報に基づく音声のマスキング効果をより高めることができる。
 なお、上述した第1の実施形態において、図11または図14の構成により加工した振動情報を振動情報取得部12から取得するようにしてもよい。すなわち、第1の実施形態において、振動情報取得部12は、音声情報取得部11により取得される音声情報の特定周波数帯域における波形情報において他の箇所と区別し得る複数の特徴箇所間の時間区間ごとに経時的に値が変化する重み情報によって所定の振動情報が加工されてなる振動情報を取得するようにしてもよい。または、振動情報取得部12は、音声情報取得部11により取得された音声情報の特定周波数帯域におけるエンベロープ波形の振幅と同調するように値が変化する重み情報によって所定の振動情報が加工されてなる振動情報を取得するようにしてもよい。
 上記第1および第2の実施形態では、振動情報の音圧が音声情報の特定周波数帯域における音圧よりも小さくなるように、音声情報および振動情報の少なくとも一方を加工する例について説明したが、振動情報の音圧が音声情報の音圧よりも小さくなるようにすることを必須とするものではない。マスキング現象は、マスキングされる音の周波数が低くなるほど起こりやすく、低周波領域においてマスキング効果が高くなる傾向にある。よって、振動情報取得部12により取得される振動情報の周波数がかなり小さい場合には、振動情報の音圧が音声情報の音圧よりも小さくなくても、すなわち、両者の音圧が同等程度あるいは振動情報の音圧が音声情報の音圧より若干大きい状態でも、ある程度のマスキング効果は期待できる。
 したがって、振動情報の音圧と、特定周波数帯域における音圧との関係が所定の関係となるように、音声情報の加工および振動情報の加工の少なくとも一方を行うようにすればよい。例えば、振動情報の周波数(周波数帯域の最小周波数または最大周波数)と、マスキング効果が現れるときの音圧差(音声情報の音圧と振動情報の音圧との差で、前者の方が大きい場合と、後者の方が大きい場合との両方を含み得る)との関係をあらかじめ試行的に求め、その結果をテーブル情報や機械学習の学習モデル等として音響コンテンツ生成装置10、10’に記憶しておく。この場合の音圧差(音声情報の音圧と振動情報の音圧のどちらの方が高いかを示す情報を含む)が上述の「所定の関係」に相当する。そして、振動情報取得部12により取得された振動情報の周波数に応じて、加工部13,13’が上記の記憶情報を参照または利用し、記憶情報から求められる音圧差の関係となるように、音声情報および振動情報の少なくとも一方を加工する。
 テーブル情報を用いる例において、例えば、音声情報の音圧の方が振動情報の音圧よりも大きい場合にのみマスキング効果が現れるような振動情報の場合は、マスキング効果が現れるときの音圧差のうち最小の音圧差を振動情報の周波数と関係付けてテーブル情報に記憶しておく。一方、振動情報の音圧の方が音声情報の音圧よりも大きい場合でもマスキング効果が現れるような振動情報の場合は、振動情報の音圧の方が音声情報の音圧よりも大きい場合にマスキング効果が現れるときの音圧差のうち最大の音圧差を振動情報の周波数と関係付けてテーブル情報に記憶しておく。このようにすれば、振動情報の音圧をできるだけ大きくした状態でマスキング効果を得るようにすることができる。
 また、学習モデルを用いる場合は、振動情報の周波数を入力した際にマスキング効果が現れる音圧差の情報が出力されるように機械学習によってパラメータが調整された学習モデルを記憶しておく。この場合の学習モデルは、例えば、上述のテーブル情報で説明したような関係となる音圧差を出力するようにパラメータが調整されたモデルとすることが可能である。この場合も、振動情報の音圧をできるだけ大きくした状態でマスキング効果を得るようにすることができる。なお、ここに説明したテーブル情報および学習モデルは一例であり、これに限定されるものではない。
 また、上記第1および第2の実施形態では、振動情報の加工に関して、図3(b)または図5に例示したように振動情報の音圧を引き下げる例について説明したが、本発明はこれに限定されない。例えば、図15(a)に示すように、振動情報の音圧をVPからVP’に所定量引き下げるとともに、加工後の音圧VP’が閾値の音圧VP”より大きい場合に、振動情報の音圧が閾値の音圧VP”を超えないようにリミット処理するようにしてもよい。
 ここで、閾値の音圧VP”は、あらかじめ定めた値とすることが可能である。または、加工後または未加工の音声情報の特定周波数帯域における最小音圧値またはそれより所定値だけ小さい値を閾値の音圧VP”として設定するようにしてもよい。この例の場合、振動情報の音圧をVPからVP’に引き下げる際に、振動情報の下降後の最大音圧が、加工後または未加工の音声情報の特定周波数帯域における最小音圧よりも小さくなるところまで引き下げることは必須ではない。
 このようにすると、図15(b)に示すように、経時的に音圧が変動する振動情報を用いる場合に、全体として音圧をΔV(=VP-VP’)引き下げるだけで閾値VP”以下となる時間区間Tではその音圧のままとなり、音圧をΔV引き下げるだけだと下降後の音圧が閾値VP”を超える時間区間Tでは音圧が閾値VP”を超えないようにリミット処理されることとなる。これにより、振動情報の音圧を引き下げる量をできるだけ少なくした上で、マスキング効果を利用することが可能となる。
 また、上記第1および第2の実施形態では、所望の振動情報を音声情報に加えてミキシングする例について説明し、所望の振動情報の一例として、振動波形の強度および分割区間の長さに基づいて特定される触質特徴量に由来する固有の触覚効果を持った振動情報を用いる例について説明したが、本発明はこれに限定されない。例えば、振動情報取得部12は、中心周波数の音圧が0dBよりも小さい低周波(例えば、100Hz以下)の振動情報を取得するようにしてもよい。
 中心周波数の音圧が0dBよりも小さい低周波の振動情報を音声情報に合成すると、その影響を受けて音声情報の中心周波数の音圧が0dBを下回るため、振動情報の周波数領域よりも高域側の中高周波領域(特に中周波領域)の音声情報の音圧が低下する。このため、このように音声情報と振動情報とが合成された音響コンテンツを再生するときに、音量を大きくしても音割れが生じにくくなる。一般に、音声情報を再生するときの音量がかなり大きくなると、音割れが生じることがある。これに対し、中心周波数の音圧が0dB以下の低周波振動情報を音声情報に加えてミキシングすることにより、大きな音量で再生したときの音割れを生じにくくすることが可能となる。
 また、一般的に、音声情報の全体的な周波数のバランスが悪く、中周波数域の音圧が大きすぎると、再生音はこもった音になる傾向がある。これに対し、中心周波数の音圧が0dB以下の低周波振動情報を音声情報に加えると、中高周波領域の音声情報の音圧が低下するため、低音部から高音部までの全体の周波数領域をバランスよく含んだ再生音が得られる。その結果、音割れを生じることなく大きな音量で再生することが可能で、そのときの再生音がクリアになるというメリットを有する。
 また、上記第1および第2の実施形態では、音声情報取得部11により取得された音声情報を1つまたは複数のトラックに記録するとともに、振動情報取得部12により取得された振動情報を1つまたは複数のトラックに記録し、トラック単位で音声情報および振動情報の加工を行う例について説明したが、本発明はこれに限定されない。例えば、音声情報および振動情報の何れもトラックに関係なく、あるいは1つのトラックに記録し、任意の周波数帯域を指定して加工を行うことができるようにしてもよい。
 また、上記第1および第2の実施形態では、音声情報取得部11により取得される音声情報と、振動情報取得部12により取得される振動情報とが元々別のものである例について説明したが、本発明はこれに限定されない。例えば、振動情報取得部12は、音声情報取得部11により取得される音声情報に含まれる振動情報を分離することによって振動情報を取得するようにしてもよい。例えば、音声情報に含まれる比較的大きな振幅の振動情報を分離して取り出し、これに対して上記実施形態で説明した加工を施すことにより、元々は耳障りとなり得る振動情報を心地よい振動情報に変えた状態にして音響コンテンツを生成することが可能である。
 その他、上記第1および第2の実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。
 10,10’ 音響コンテンツ生成装置
 11 音声情報取得部
 12 振動情報取得部
 13,13’ 加工部
 13A 音声情報加工部
 13B,13B’ 振動情報加工部
 14 ミキシング部
 20 音響コンテンツ再生装置
 21 音響コンテンツ取得部
 22 音響コンテンツ供給部
 100 音声出力部
 131 特徴抽出部
 132,132’ 重み情報生成部
 133 重み加工部
 134 振動調整部
 135 エンベロープ生成部

Claims (19)

  1.  音声情報を取得する音声情報取得部と、
     上記音声情報が有する周波数帯域のうち一部の周波数帯域から成る振動情報を取得する振動情報取得部と、
     上記音声情報取得部により取得された音声情報および上記振動情報取得部により取得された振動情報の少なくとも一方を加工する加工部と、
     上記加工部により加工された音声情報と振動情報とをミキシングすることにより、音声情報および振動情報を含む音響コンテンツを生成するミキシング部とを備え、
     上記加工部は、振動情報に基づき発生する音声が音声情報に基づき発生する音声によってマスキングされるように、上記音声情報の加工および上記振動情報の加工の少なくとも一方を行うことを特徴とする音響コンテンツ生成装置。
  2.  上記加工部は、振動情報の振動圧力または振動量と、音声情報の周波数帯域のうち上記振動情報の周波数帯域と同等の周波数帯域における音圧または音量との関係が所定の関係となるように、上記音声情報の加工および上記振動情報の加工の少なくとも一方を行うことを特徴とする請求項1に記載の音響コンテンツ生成装置。
  3.  上記加工部は、振動情報の振動圧力または振動量が、音声情報の周波数帯域のうち上記振動情報の周波数帯域と同等の周波数帯域における音圧または音量よりも小さくなるように、上記音声情報の加工および上記振動情報の加工の少なくとも一方を行うことを特徴とする請求項2に記載の音響コンテンツ生成装置。
  4.  上記加工部は、上記振動情報に対する加工を行う場合、上記振動情報の振動圧力または振動量を所定量引き下げるとともに、下降後の振動圧力または振動量が閾値より大きい場合に、振動情報の振動圧力または振動量が上記閾値を超えないようにリミット処理することを特徴とする請求項1に記載の音響コンテンツ生成装置。
  5.  上記振動情報取得部は、所定周波数より低い低周波帯域から成り、かつ、中心周波数の振動圧力が0dBよりも小さい振動情報を取得することを特徴とする請求項1に記載の音響コンテンツ生成装置。
  6.  上記加工部は、上記音声情報に対する加工を行う場合、上記音声情報取得部により取得された音声情報の周波数帯域のうち、上記振動情報の周波数帯域と同等の周波数帯域を加工することを特徴とする請求項1~5の何れか1項に記載の音響コンテンツ生成装置。
  7.  上記加工部は、上記音声情報に対する加工を行う場合、上記音声情報取得部により取得された音声情報の周波数帯域の全体を加工することを特徴とする請求項1~5の何れか1項に記載の音響コンテンツ生成装置。
  8.  上記加工部は、上記振動情報に対する加工を行う場合、上記振動情報取得部により取得された振動情報の周波数帯域の全体を加工することを特徴とする請求項1~7の何れか1項に記載の音響コンテンツ生成装置。
  9.  上記加工部は、上記振動情報に対する加工を行う場合、上記振動情報取得部により取得された振動情報の周波数帯域のうち、所定の周波数よりも大きい周波数帯域を加工することを特徴とする請求項1~7の何れか1項に記載の音響コンテンツ生成装置。
  10.  上記加工部は、振動情報の振動圧力または振動量と、音声情報の周波数帯域のうち上記振動情報の周波数帯域と同等の周波数帯域における音圧または音量との関係が所定の関係となるように、上記音声情報および上記振動情報の双方に対して加工を行うことを特徴とする請求項2~9の何れか1項に記載の音響コンテンツ生成装置。
  11.  上記加工部は、
     上記音声情報取得部により取得された音声情報の周波数帯域のうち上記振動情報の周波数帯域と同等の周波数帯域の波形情報において、他の箇所と区別し得る複数の特徴箇所を抽出する特徴抽出部と、
     上記特徴抽出部により抽出された複数の特徴箇所に基づいて、特徴箇所間の時間区間において経時的に値が変化する重み情報を生成する重み情報生成部と、
     上記振動情報取得部により取得された振動情報を、上記重み情報生成部により生成された上記重み情報によって加工する重み加工部と、
     上記重み加工部により加工された振動情報の振動圧力または振動量を調整することにより、調整後の振動情報の振動圧力または振動量と、上記音声情報の周波数帯域のうち上記振動情報の周波数帯域と同等の周波数帯域における音圧または音量との関係が所定の関係となるようにする振動調整部とを備えたことを特徴とする請求項1~10の何れか1項に記載の音響コンテンツ生成装置。
  12.  上記加工部は、
     上記音声情報取得部により取得された音声情報の周波数帯域のうち上記振動情報の周波数帯域と同等の周波数帯域の波形情報に対するエンベロープ波形を生成するエンベロープ生成部と、
     上記エンベロープ生成部により生成されたエンベロープ波形の振幅と同調するように値が変化する重み情報を生成する重み情報生成部と、
     上記振動情報取得部により取得された振動情報を、上記重み情報生成部により生成された上記重み情報によって加工する重み加工部と、
     上記重み加工部により加工された振動情報の振動圧力または振動量を調整することにより、調整後の振動情報の振動圧力または振動量と、上記音声情報の周波数帯域のうち上記振動情報の周波数帯域と同等の周波数帯域における音圧または音量との関係が所定の関係となるようにする振動調整部とを備えたことを特徴とする請求項1~10の何れか1項に記載の音響コンテンツ生成装置。
  13.  上記振動情報取得部は、上記音声情報取得部により取得される音声情報の周波数帯域のうち上記振動情報の周波数帯域と同等の周波数帯域の波形情報において他の箇所と区別し得る複数の特徴箇所間の時間区間ごとに経時的に値が変化する重み情報によって所定の振動情報が加工されてなる振動情報を取得することを特徴とする請求項1~10の何れか1項に記載の音響コンテンツ生成装置。
  14.  音響コンテンツ生成装置の加工部が、音声情報および当該音声情報が有する周波数帯域のうち一部の周波数帯域から成る振動情報のうち少なくとも一方を加工する第1のステップと、
     上記音響コンテンツ生成装置のミキシング部が、上記加工部により加工された音声情報と振動情報とをミキシングすることにより、音声情報および振動情報を含む音響コンテンツを生成する第2のステップとを有し、
     上記第1のステップにおいて、上記加工部は、振動情報に基づき発生する音声が音声情報に基づき発生する音声によってマスキングされるように、上記音声情報の加工および上記振動情報の加工の少なくとも一方を行うことを特徴とする音響コンテンツ生成方法。
  15.  音声情報と、当該音声情報が有する周波数帯域のうち一部の周波数帯域から成る振動情報とがミキシングされて成る音響コンテンツであって、振動情報に基づき発生する音声が音声情報に基づき発生する音声によってマスキングされるように調整された音響コンテンツを取得する音響コンテンツ取得部と、
     上記音響コンテンツ取得部により取得された音響コンテンツを、当該音響コンテンツに含まれる音声情報と振動情報とを分離しない状態のまま音声出力部に供給する音響コンテンツ供給部とを備えたことを特徴とする音響コンテンツ再生装置。
  16.  音響コンテンツ再生装置の音響コンテンツ取得部が、音声情報と、当該音声情報が有する周波数帯域のうち一部の周波数帯域から成る振動情報とがミキシングされて成る音響コンテンツであって、振動情報に基づき発生する音声が音声情報に基づき発生する音声によってマスキングされるように調整された音響コンテンツを取得する第1のステップと、
     上記音響コンテンツ再生装置の音響コンテンツ供給部が、上記音響コンテンツ取得部により取得された音響コンテンツを、当該音響コンテンツに含まれる音声情報と振動情報とを分離しない状態のまま音声出力部に供給する第2のステップとを有することを特徴とする音響コンテンツ再生方法。
  17.  音声情報と、当該音声情報が有する周波数帯域のうち一部の周波数帯域から成る振動情報とがミキシングされて成る音響コンテンツであって、振動情報に基づき発生する音声が音声情報に基づき発生する音声によってマスキングされるように調整された音響コンテンツを取得する音響コンテンツ取得手段、
     上記音響コンテンツ取得手段により取得された音響コンテンツを、当該音響コンテンツに含まれる音声情報と振動情報とを分離しない状態のまま音声出力部に供給する音響コンテンツ供給手段
    としてコンピュータを機能させるための音響コンテンツ再生用プログラム。
  18.  音声情報と、当該音声情報が有する周波数帯域のうち一部の周波数帯域から成る振動情報とがミキシングされて成る音響コンテンツであって、振動情報に基づき発生する音声が音声情報に基づき発生する音声によってマスキングされるように調整された音響コンテンツを記憶し、請求項15に記載の音響コンテンツ再生装置からの要求に応じて上記音響コンテンツを上記音響コンテンツ再生装置に提供する音響コンテンツ提供装置。
  19.  請求項15に記載の音響コンテンツ再生装置と、請求項18に記載の音響コンテンツ提供装置とが通信ネットワークを介して接続可能に構成された音響コンテンツ配信システム。
PCT/JP2019/039723 2018-10-19 2019-10-08 音響コンテンツ生成装置、音響コンテンツ生成方法、音響コンテンツ再生装置、音響コンテンツ再生方法、音響コンテンツ再生用プログラム、音響コンテンツ提供装置および音響コンテンツ配信システム WO2020080204A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019571751A JP6661210B1 (ja) 2018-10-19 2019-10-08 音響コンテンツ生成装置、音響コンテンツ生成方法、音響コンテンツ再生装置、音響コンテンツ再生方法、音響コンテンツ再生用プログラム、音響コンテンツ提供装置および音響コンテンツ配信システム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018197295 2018-10-19
JP2018-197295 2018-10-19

Publications (1)

Publication Number Publication Date
WO2020080204A1 true WO2020080204A1 (ja) 2020-04-23

Family

ID=70284600

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/039723 WO2020080204A1 (ja) 2018-10-19 2019-10-08 音響コンテンツ生成装置、音響コンテンツ生成方法、音響コンテンツ再生装置、音響コンテンツ再生方法、音響コンテンツ再生用プログラム、音響コンテンツ提供装置および音響コンテンツ配信システム

Country Status (1)

Country Link
WO (1) WO2020080204A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021111965A1 (ja) * 2019-12-04 2021-06-10 株式会社ティーオースウィング 音場生成システム、音声処理装置および音声処理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02101894A (ja) * 1988-10-07 1990-04-13 Toyo Tire & Rubber Co Ltd 音響振動装置
WO2013084958A1 (ja) * 2011-12-06 2013-06-13 株式会社ニコン 電子機器及び振動音減衰方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02101894A (ja) * 1988-10-07 1990-04-13 Toyo Tire & Rubber Co Ltd 音響振動装置
WO2013084958A1 (ja) * 2011-12-06 2013-06-13 株式会社ニコン 電子機器及び振動音減衰方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021111965A1 (ja) * 2019-12-04 2021-06-10 株式会社ティーオースウィング 音場生成システム、音声処理装置および音声処理方法

Similar Documents

Publication Publication Date Title
US11263879B2 (en) Tactile transducer with digital signal processing for improved fidelity
EP2215858B2 (en) Method and arrangement for fitting a hearing system
US7564979B2 (en) Listener specific audio reproduction system
WO2016153825A1 (en) System and method for improved audio perception
KR101057661B1 (ko) 음악을 이용한 맞춤형 이명 치료 장치 및 방법
US20060281403A1 (en) Enhancing perceptions of the sensory content of audio and audio-visual media
US9191764B2 (en) Binaural audio signal-based applications
CN102682761A (zh) 个性化的声音处理系统和设备
TW200919953A (en) Automatic gain control device and method
JPWO2016027366A1 (ja) 振動信号生成装置及び振動信号生成方法
JP7347421B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2009177574A (ja) ヘッドホン
WO2009103823A2 (en) Method and system for fitting hearing systems
WO2021111965A1 (ja) 音場生成システム、音声処理装置および音声処理方法
WO2020080204A1 (ja) 音響コンテンツ生成装置、音響コンテンツ生成方法、音響コンテンツ再生装置、音響コンテンツ再生方法、音響コンテンツ再生用プログラム、音響コンテンツ提供装置および音響コンテンツ配信システム
WO2021124906A1 (ja) 制御装置、信号処理方法およびスピーカ装置
Merchel et al. Vibratory and acoustical factors in multimodal reproduction of concert DVDs
US20200322713A1 (en) Vibration generation system, signal generator, and vibrator device
JP6661210B1 (ja) 音響コンテンツ生成装置、音響コンテンツ生成方法、音響コンテンツ再生装置、音響コンテンツ再生方法、音響コンテンツ再生用プログラム、音響コンテンツ提供装置および音響コンテンツ配信システム
JP2011239043A (ja) 体感音響装置用信号処理回路
JP7196184B2 (ja) リスナーの聴覚特性を考慮に入れた、ヘッドセットにおけるライブパブリックアドレス方法
JP2012033988A (ja) 超重低音生成方法
JP5790021B2 (ja) 音声出力システム
JPH0619269Y2 (ja) 体感音響装置
JP7307929B1 (ja) 信号処理装置、認知機能改善システム、信号処理方法、及びプログラム

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2019571751

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19874486

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 01/07/2021)

122 Ep: pct application non-entry in european phase

Ref document number: 19874486

Country of ref document: EP

Kind code of ref document: A1