WO2022176421A1 - 音の処理方法及び音処理装置 - Google Patents

音の処理方法及び音処理装置 Download PDF

Info

Publication number
WO2022176421A1
WO2022176421A1 PCT/JP2022/000219 JP2022000219W WO2022176421A1 WO 2022176421 A1 WO2022176421 A1 WO 2022176421A1 JP 2022000219 W JP2022000219 W JP 2022000219W WO 2022176421 A1 WO2022176421 A1 WO 2022176421A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
data
type
processing device
unit
Prior art date
Application number
PCT/JP2022/000219
Other languages
English (en)
French (fr)
Inventor
拓真 竹本
克己 石川
明央 大谷
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Publication of WO2022176421A1 publication Critical patent/WO2022176421A1/ja
Priority to US18/366,865 priority Critical patent/US20230386495A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S1/005For headphones

Definitions

  • An embodiment of the present invention relates to a sound processing method and a sound processing device.
  • Patent Literature 1 discloses an audio playback device that includes means for detecting the direction in which a user faces a specific area and means for detecting the positional relationship between the specific area and the user.
  • the sound reproduction device of Patent Literature 1 changes sounds to be reproduced based on the direction in which the user faces and the positional relationship between a specific area and the user. Thereby, the audio reproducing device makes it easier for the user to imagine the impression of the specific area.
  • an object of one embodiment of the present invention is to provide a sound processing method that allows a user to listen to sounds with a higher sense of immersion without discomfort.
  • a sound processing method comprises: get the first sound, Acquiring a second sound composed of pre-created sound data, Analyze the first sound, Based on the analysis result of the first sound, reproduce sound data related to a second sound of a type that does not match the first sound, A sound signal related to the reproduced sound data is output.
  • the user can listen to sounds with a more immersive feeling without discomfort.
  • FIG. 1 is a block diagram showing an example of the main configuration of a sound processing device 1 according to the first embodiment.
  • FIG. 2 is a block diagram showing an example of the main configuration of the sound processing device 1 according to the first embodiment, and is a diagram showing an example different from FIG.
  • FIG. 3 is a flow chart showing an example of the operation of the sound processing device 1 according to the first embodiment.
  • FIG. 4 is a diagram showing an example of movement of sound data in the sound processing device 1 according to the first embodiment.
  • FIG. 5 is a diagram showing an example of analysis by the analysis unit 200a.
  • FIG. 6 is a flow chart showing an example of the operation of the sound processing device 1a according to the second embodiment.
  • FIG. 7 is a diagram showing an example of movement of sound data in the sound processing device 1a according to the second embodiment.
  • FIG. 8 is a block diagram showing an example of the main configuration of a sound processing device 1b according to the third embodiment.
  • FIG. 9 is an image diagram of the operation of the sound processing device 1b according to the third embodiment.
  • FIG. 10 is a diagram showing an example of movement of sound data in the sound processing device 1b according to the third embodiment.
  • FIG. 11 is a flow chart showing an example of the operation of the sound processing device 1c according to the fourth embodiment.
  • FIG. 12 is a diagram showing an example of movement of sound data in the sound processing device 1c according to the fourth embodiment.
  • FIG. 13 is a diagram illustrating an example of output of the first sound and reproduction of sound data.
  • FIG. 14 is a diagram showing an example in which the sound processing apparatuses 1, 1a, 1b, and 1c do not reproduce sound data.
  • FIG. 15 is a diagram showing an example of erasing sounds of a sound source of a type that does not match the second sound among the first sounds.
  • FIG. 1 is a block diagram showing an example of the main configuration of a sound processing device 1 according to the first embodiment.
  • FIG. 2 is a block diagram showing an example of the main configuration of the sound processing device 1 according to the first embodiment, and is a diagram showing an example different from FIG.
  • FIG. 3 is a flow chart showing an example of the operation of the sound processing device 1 according to the first embodiment.
  • FIG. 4 is a diagram showing an example of movement of sound data in the sound processing device 1 according to the first embodiment.
  • FIG. 5 is a diagram showing an example of analysis by the analysis unit 200a.
  • the sound processing device 1 includes a terminal 20 and headphones 30.
  • Terminal 20 has microphone 10 , CPU 200 , ROM 201 , RAM 202 , and output I/F 203 .
  • the terminal 20 and the headphones 30 are connected to each other by wire or wirelessly.
  • the headphone 30 may have the microphone 10 as shown in FIG. In other words, the headphones 30 may be headphones with a microphone.
  • the microphone 10 acquires environmental sounds around the place where the microphone 10 is installed (in other words, environmental sounds around the user).
  • the microphone 10 converts the acquired environmental sound into a sound signal.
  • Microphone 10 outputs the sound signal obtained by conversion to CPU 200 of terminal 20 .
  • Environmental sounds include, for example, car engine sounds and thunder sounds.
  • the environmental sound around the place where the microphone 10 is installed corresponds to the first sound. Also, the microphone 10 corresponds to the first sound acquisition unit in the present invention.
  • the terminal 20 stores sound data created in advance by another PC or the like by the creator of the content (hereinafter referred to as creator).
  • the terminal 20 is, for example, a mobile device such as a smart phone.
  • the microphone 10 is a built-in microphone provided in a smart phone or the like.
  • the terminal 20 corresponds to the second sound acquisition section in the present invention.
  • Sound data is data that records specific sounds.
  • the specific sound is, for example, the sound of waves, the sound of cicadas, or the like. That is, the sound data includes data to which sound source information (second sound source information in this embodiment) indicating the type of sound source (second sound source in this embodiment) is added in advance.
  • the terminal 20 stores the sound data as multi-track content data having tracks.
  • the terminal 20 stores multi-track content data including two tracks of sound data of the sound of waves and sound data of cicadas.
  • the sound data (content data) created by the creator corresponds to the second sound in this embodiment. That is, the second sound is composed of sound data.
  • the sound data set via the terminal 20 will be referred to as sound data relating to the second sound.
  • Creators create content to give users a specific impression. For example, when a creator creates content that wants to give the user an impression of summer, the creator creates sound data such as the sound of waves and the sound of cicadas, which are sounds related to summer.
  • the ROM 201 stores various data.
  • the various data are, for example, a program for operating the terminal 20, environmental sound data input from the microphone 10, content data received from another PC or the like, and the like.
  • the RAM 202 temporarily stores predetermined data stored in the ROM 201.
  • the CPU 200 controls the operation of the terminal 20.
  • the CPU 200 performs various operations by reading predetermined programs stored in the ROM 201 to the RAM 202 .
  • the CPU 200 includes an analysis section 200a, a comparison section 200b, and a reproduction section 200c.
  • the CPU 200 performs various processes on the input first sound (environmental sound).
  • the various processes include analysis processing by the analysis unit 200a, comparison processing by the comparison unit 200b, and reproduction processing by the reproduction unit 200c in the CPU 200.
  • FIG. the CPU 200 executes a program including an analysis processing program for the analysis unit 200a, a comparison processing program for the comparison unit 200b, and a reproduction processing program for the reproduction unit 200c.
  • the analysis unit 200a performs predetermined analysis processing on data related to environmental sounds.
  • the predetermined analysis processing in the analysis unit 200a is, for example, sound source recognition processing by artificial intelligence such as a neural network.
  • the analysis unit 200a calculates the feature amount of the environmental sound based on the input data related to the environmental sound.
  • a feature amount is a parameter indicating a feature of a sound source.
  • the feature quantity includes at least power or cepstrum coefficients.
  • Power is the power of the sound signal.
  • the cepstrum coefficient is the logarithm of the amplitude of the discrete cosine transform of the sound signal on the frequency axis. Note that the sound feature quantity is not limited to power and cepstrum coefficients.
  • the analysis unit 200a recognizes the sound source (estimates the type of the sound source) based on the feature amount of the sound source. For example, when the environmental sound includes the feature amount of the cries of cicadas, the analysis unit 200a recognizes that the type of sound source is the cries of cicadas. As shown in FIG. 4, the analysis unit 200a outputs an analysis result D (sound source recognition result) to the comparison unit 200b. For example, when the analysis unit 200a recognizes that "the sound source is the cries of cicadas", the analysis unit 200a outputs the analysis result D that "the sound source is the cries of cicadas" to the comparison unit 200b. That is, the analysis result D includes sound source information (first sound source information in this embodiment) indicating the type of the sound source (first sound source in this embodiment) included in the environmental sound that is the first sound. I'm in.
  • the terminal 20 has a trained neural network NN1 that outputs the type of sound source when the feature amount of the sound source is input.
  • the neural network NN1 recognizes a sound source based on a plurality of feature amounts of sounds.
  • the sound feature quantity used by the neural network NN1 for sound source recognition processing is, for example, the power P1 and the cepstrum coefficient P2.
  • the neural network NN1 outputs the matching degree of the feature amount of each sound source with respect to various feature amounts of the environmental sound. Then, the neural network NN1 outputs the type of sound source with the highest degree of matching as the analysis result D.
  • a trained model for example, parameter tuning such as weighting in artificial intelligence has been completed
  • the neural network NN1 inputs the feature amount included in the first sound calculated in the analysis of the first sound to the trained model.
  • the neural network NN1 outputs information on the type of sound source corresponding to the input feature amount as an analysis result.
  • the neural network NN1 outputs the degree of matching between the environmental sound and the learned sound source based on the input feature amount of the environmental sound.
  • the neural network NN1 outputs information on the type of sound source with the highest degree of matching (for example, label information of cicadas) among the learned sound sources to the comparing section 200b.
  • the neural network NN1 calculates the degree of matching between the environmental sound and the cries of cicadas, and the degree of matching between the environmental sound and the engine sound of a car.
  • the neural network NN1 calculates that the environmental sound and the sound of cicadas match with a probability of 60%, and that the environmental sound and the engine sound of a car match with a probability of 30%. ing.
  • the probability that the environmental sound does not match any recognition data is also calculated.
  • the neural network NN1 calculates a probability of 10% that neither the cries of a cicada nor the engine sound of a car match.
  • the neural network NN1 outputs the analysis result D that "the sound source is the cry of a cicada.” In this way, the neural network NN1 can estimate the type of sound source that matches the environmental sound (recognize the sound source) when the feature amount of the sound source is input. Note that the type of sound source to be output is specified in advance by the creator or the like.
  • the method of recognizing the type of sound source is not limited to the method using a neural network.
  • the analysis unit 200a may perform matching by comparing waveforms of sound signals.
  • waveform data template data
  • the analysis unit 200a determines whether or not the waveform of the environmental sound matches the template data.
  • the analysis unit 200a recognizes that the environmental sound is the sound source of the type of the template data.
  • the analysis unit 200a determines whether the environmental sound waveform matches the cicada cries waveform. If it is determined that they match, the analysis unit 200a outputs an analysis result D indicating that the environmental sound is the cry of a cicada.
  • the matching in the analysis unit 200a is not limited to the method of comparing the waveform data.
  • the analysis unit 200a may perform matching by comparing feature amounts of sound sources. In this case, the terminal 20 is pre-recorded with sound source feature amounts (power, cepstrum coefficients, etc.) as data for recognition. Then, the analysis unit 200a determines whether or not the feature amount of the environmental sound matches the feature amount of the sound source.
  • the comparison unit 200b performs comparison processing between the analysis result D and the sound data related to the second sound.
  • Information indicating the type of sound source for example, information indicating that the sound data is the cry of a cicada
  • the comparison unit 200b compares the analysis result D of the analysis unit 200a with information indicating the type of sound source added to each sound data. Then, when the analysis result D matches the sound data related to the second sound (specifically, when the environmental sound and the sound data related to the second sound are the same type of sound source), , the comparison unit 200b excludes the sound data related to the second sound that matches the environmental sound from the reproduction target.
  • the comparison unit 200b excludes the sound data of cicadas' cries from the reproduction target. . Then, the comparison unit 200b outputs sound data other than the excluded sound data to the reproduction unit 200c. In other words, the sound data related to the second sound that matches the analysis result D is not output to the reproducing unit 200c. Note that the exclusion in the comparison unit 200b is to distinguish between sound data to be output to the reproduction unit 200c and sound data not to be output. Therefore, exclusion is not deletion of sound data from the terminal 20 .
  • the sound data related to the second sound of the same type as the first sound is the second sound data excluded from the reproduction target as a result of the comparison processing.
  • the sound data related to the second sound that does not match the first sound is the second sound data that is not excluded from the reproduction target as a result of the comparison processing.
  • the sound data related to the second sound includes data related to the second sound whose type matches the first sound and sound data related to the second sound whose type does not match the first sound. divided into
  • matching of the sound data relating to the first sound and the second sound in the present embodiment means that the environmental sound type information output by the analysis unit 200a matches the sound data type information. It is to be. For example, when the analysis unit 200a uses a neural network or the like to recognize that the environmental sound type information is "the cries of cicadas", the first sound type information becomes “the cries of cicadas”. At this time, it is estimated that the sound data of the first sound and the sound data of the second sound match when the type information of the sound data of the second sound is recorded as "sound of cicadas". However, the comparison unit 200b may determine that the sound data relating to the first sound and the second sound match when at least some of the feature quantities match.
  • the reproduction unit 200c receives sound data related to the second sound from the comparison unit 200b.
  • the reproducing unit 200c decodes sound data relating to the second sound. Then, the reproduction unit 200c outputs the decoded sound data related to the second sound to the output I/F 203 as a sound signal.
  • the output I/F 203 is, for example, an audio terminal, a USB terminal, a communication I/F, and the like.
  • the output I/F 203 corresponds to the output section in the present invention.
  • the output I/F 203 that receives the sound signal outputs the sound signal to the headphone 30 .
  • the headphone 30 outputs the sound signal input from the output I/F 203 as sound.
  • the headphones 30 are, for example, headphones owned by the user. The user listens to the sound based on the sound signal associated with the second sound via the headphone 30 .
  • the headphones 30 in this embodiment are devices that emit sound from sounding bodies (such as speakers) that are close to human ears. Accordingly, in this embodiment, the headphones 30 include devices such as bone-powered earphones and shoulder-mounted speakers.
  • FIG. 3 is a flow chart showing an example of the operation of the sound processing device 1.
  • FIG. 4 is a diagram showing movement of sound data in the sound processing device 1.
  • the excluded sound data are indicated by dotted-line squares.
  • the comparison between the environmental sound data and the sound data relating to the second sound in the comparing section 200b is indicated by a double arrow.
  • illustration of RAM202 and output I/F203 is abbreviate
  • the microphone 10 acquires the environmental sound (first sound) around the user (Fig. 3: S10).
  • the microphone 10 converts the acquired environmental sound into a sound signal.
  • Microphone 10 outputs the sound signal obtained by conversion to analysis section 200 a of terminal 20 .
  • the terminal 20 acquires content data (second sound) composed of sound data (Fig. 3: S11).
  • the acquired content data is stored in the ROM 201 .
  • sound data A, sound data B, and sound data C are stored in the ROM 201 as content data.
  • the analysis unit 200a performs a predetermined analysis on the acquired environmental sounds (Fig. 3: S12).
  • the environmental sound analysis result is output to the comparison unit 200b.
  • the analysis unit 200a outputs data of analysis result D to the comparison unit 200b as the analysis result of the environmental sound.
  • the comparison unit 200b reads the content data from the ROM201.
  • the comparison unit 200b reads sound data A, sound data B, and sound data C from the ROM 201.
  • FIG. 4 illustrates the comparison unit 200b.
  • the comparison unit 200b compares the analysis result of the environmental sound related to the first sound with the content data (sound data related to the second sound) (Fig. 3: S13).
  • each of sound data A, sound data B, and sound data C is compared with the analysis result D.
  • the comparison unit 200b performs Sound data is excluded from content data (FIG. 4: S14). In other words, the comparison unit 200b selects the sound data related to the second sound other than the sound data related to the second sound that matches the analysis result of the environmental sound. In the example shown in FIG. 4, since the analysis result D matches the sound data B, the comparison unit 200b excludes the sound data B from the content data.
  • the comparison unit 200b and the sound data of the second sound corresponds to the first comparison in the present invention.
  • the comparison unit 200b selects sound data related to the second sound other than the excluded sound data (Fig. 3: S15). If there is no sound data to be excluded (Fig. 3: S13 No), all sound data related to the second sound are selected (Fig. 3: S16). In the example shown in FIG. 4, sound data A and sound data C are selected by the comparator 200b.
  • the comparison unit 200b outputs sound data related to the selected second sound to the reproduction unit 200c (Fig. 3: S17).
  • the comparison unit 200b outputs sound data A and sound data C (content data excluding sound data B) to the reproduction unit 200c.
  • the reproduction unit 200c decodes (reproduces) the content data input from the comparison unit 200b, and outputs it to the output I/F 203 as a sound signal.
  • the output I/F 203 that receives the sound signal outputs the sound signal to the headphone 30 .
  • the headphone 30 that receives the sound signal outputs the sound signal as sound.
  • the reproducing unit 200c decodes sound data A and sound data C into sound signal A2 and sound signal C2, respectively.
  • the reproduction unit 200c outputs the decoded sound signal A2 and sound signal C2 to the headphone 30 via the output I/F 203.
  • FIG. In other words, the reproducing unit 200c reproduces the type of sound data (sound data relating to the second sound) that does not match the first sound (environmental sound) based on the result of the first comparison.
  • the headphone 30 that receives the sound signal A2 and the sound signal C2 outputs the sound A3 based on the sound signal A2 and the sound C3 based on the sound signal C2.
  • the headphones 30 output reproduced sound data (sound data relating to the second sound).
  • the sound processing device 1 repeats the operations from S10 to S17. Therefore, when an environmental sound that matches the second sound is produced, the headphones 30 do not output the second sound that matches the environmental sound. Then, when the environmental sound that matches the second sound is not being heard, the headphones 30 output the second sound. In this way, the sound processing device 1 can switch whether to output the second sound according to changes in the environmental sound.
  • the sound processing device 1 enables sound processing that allows the user to listen to sounds with a more immersive feeling without discomfort.
  • the sound processing device 1 and the sound processing device according to the present embodiment that does not process sound (hereinafter referred to as Comparative Example 1) will be compared and described.
  • Comparative Example 1 a case where there is one river around the user will be described as an example. In other words, this is the case where one river sound is included in the environmental sounds around the user, and the river sound enters from the outside of the headphones 30 (headphones in the case of Comparative Example 1). That is, the user hears the sound output from the headphone 30 (the headphone in the case of Comparative Example 2) and the river sound, which is the surrounding environmental sound.
  • Comparative Example 1 does not switch whether to output sound from the headphones according to changes in the surrounding environmental sound. Therefore, when a river sound is output from headphones, both the river sound output from the headphone (virtual space river sound) and the river sound entering from the outside of the headphone (river sound) are transmitted to the user. hear. In other words, in Comparative Example 1, the user hears overlapping sounds between the sounds in the virtual space and the sounds in the real space. On the other hand, the number of rivers visually recognized by the user is one. That is, in the user's perception, there is a discrepancy between visual information (the user can see one river) and auditory information (the user can hear the sounds of two rivers). Therefore, in the case of Comparative Example 1, the user may feel uncomfortable. As a result, there is a possibility that the user's sense of immersion may deteriorate.
  • the sound processing device 1 switches whether to output sound from the headphones 30 according to changes in ambient environmental sounds. Therefore, when the ambient environmental sound includes the sound of the river, the sound processing device 1 does not reproduce the sound data including the sound of the river. Therefore, the user can hear the sound of the river entering from the outside of the headphone 30, but the user cannot hear the sound of the river output from the headphone 30. - ⁇ In other words, there is no discrepancy between visual information (the user sees one river) and auditory information (the user hears the sounds of two rivers) in the user's perception. . Therefore, in the case of the sound processing device 1, there is a low possibility that the user will feel uncomfortable. As a result, it is possible to prevent the user's sense of immersion from deteriorating.
  • FIG. 6 is a flow chart showing the operation of the sound processing device 1a according to the second embodiment.
  • FIG. 7 is a diagram showing an example of movement of sound data in the sound processing device 1a according to the second embodiment.
  • the sound processing device 1a differs from the sound processing device 1 in that it determines whether or not to reproduce the second sound based on reproduction conditions created by the creator.
  • the reproduction condition is data recording the reproduction condition of the second sound. Specifically, in the reproduction condition, it is set whether or not overlapping reproduction of the environmental sound and the second sound is permitted. For example, when the sound data relating to the second sound is set to "reproduction condition: duplicate reproduction permitted" in the reproduction condition, the sound processing device 1a reproduces the second sound regardless of the result of the comparison in the comparison unit 200b. Outputs sound data related to On the other hand, when the sound data related to the second sound is set to "reproduction condition: duplicate reproduction not permitted" in the reproduction condition, the sound processing device 1a does not output the same kind of sound data as the environmental sound. Playback conditions are obtained via the terminal 20 in the same manner as obtaining the second sound. After acquisition of the reproduction conditions, the reproduction conditions are stored in the ROM 201 .
  • the sound data B is the same type of sound as the sound source d (one of the sound sources included in the environmental sound).
  • the sound data C is a different type of sound from each of the sound sources d and e.
  • the processing of S11, S12, S15, S16 and S17 is the same processing as that of the sound processing device 1, so the description thereof will be omitted.
  • the comparison unit 200b After the predetermined analysis of the first sound by the analysis unit 200a (FIG. 6: after S12), the comparison unit 200b acquires the playback conditions created in advance by the creator (FIG. 6: S20). In the example shown in FIG. 7, the comparison unit 200b acquires the reproduction conditions (sound data A: duplicate reproduction permitted, sound data B: duplicate reproduction not permitted, sound data C: duplicate reproduction permitted) from the ROM 201 .
  • the comparison unit 200b compares whether the analysis result D and the reproduction conditions match (FIG. 6: S21). Specifically, as shown in FIG. 7, the comparison unit 200b compares whether the sound sources d and e included in the analysis result D match the sound data A, B, and C included in the reproduction conditions. do. For example, when the comparison unit 200b receives the analysis result D from the analysis unit 200a that “environmental sound is the sound of sea waves”, and the data included in the reproduction condition is “sound of sea waves”. ,” the comparison unit 200b determines that the analysis result D of the environmental sound matches the reproduction condition.
  • the comparison between the analysis result of the first sound by the comparison unit 200b and the reproduction conditions corresponds to the second comparison in the present invention.
  • the match between the analysis result D and the reproduction condition means, for example, that the information on the type of environmental sound output by the analysis unit 200a matches the information on the type of sound data.
  • the comparison unit 200b permits overlapping reproduction of the environmental sound analysis result data and the sound data related to the second sound. It is determined whether or not it is set (Fig. 6: S22). For example, when the data of the environmental sound analysis result and the reproduction condition match the sound of the waves, the comparison unit 200b determines whether or not the overlapping reproduction of the sound of the waves is permitted based on the reproduction conditions. . If the environmental sound analysis result data and the reproduction conditions do not match (Fig. 6: S21 No), the comparison unit 200b selects sound data related to all the second sounds (Fig. 6: S16).
  • the comparison unit 200b determines that duplicate reproduction of sound data is not possible based on the reproduction conditions (Fig. 6: S22 Yes), the comparison unit 200b determines that duplicate reproduction of the sound data (type of sound that does not satisfy the reproduction conditions) is prohibited. data) is excluded from the content data (FIG. 6: S23). For example, when the environmental sound data and the sound of waves match the reproduction conditions, the comparison unit 200b excludes the sound data of the sound of waves from the content data. In the example shown in FIG. 7, the sound data B matches the sound source d. Therefore, the comparison unit 200b excludes the sound data B from the content data. Next, the comparison unit 200b selects sound data other than the excluded sound data (a type of sound data that satisfies the reproduction condition) (FIG. 6: S15). If the comparison unit 200b determines that duplicate reproduction of the sound is permitted based on the reproduction conditions (Fig. 6: S22 No), the comparison unit 200b selects sound data related to the second sound (Fig. 6: S16).
  • the comparison unit 200b outputs the selected sound data to the reproduction unit 200c (FIG. 6: S17). Note that the processing after the comparison unit 200b outputs the selected sound data to the reproduction unit 200c is the same as that of the sound processing device 1, so description thereof will be omitted.
  • the sound processing device 1a determines whether or not to reproduce the sound data relating to the second sound based on the reproduction conditions.
  • the sound data B for which duplicate reproduction is not permitted is not reproduced. Therefore, as shown in FIG. 7, when the creator has an intention not to reproduce a specific sound redundantly, the creator creates sound data containing the specific sound in the sound processing device 1a by creating a reproduction condition. can be prevented from being reproduced in duplicate.
  • the sound processing device 1a enables sound processing that allows the user to listen to sounds with a more immersive feeling without discomfort. Specifically, the creator is able to reproduce sounds that would be uncomfortable if overlapped, without overlapping.
  • a case where the creator creates sound data of the sound of waves and sound data of the cries of cicadas as content data, and the case where the sound of waves and the cries of cicadas are included as environmental sounds will be described below as an example.
  • the creator can set the reproduction conditions so that sounds that are considered problematic (uncomfortable) when reproduced in duplicate are not reproduced. Furthermore, it is also possible to set so as to reproduce a sound that is not problematic even if it is duplicated (no sense of incongruity). In other words, the creator can choose whether to use the sound in the real space or the sound in the virtual space. For example, if the creator determines that overlapping sounds of waves will make the user feel uncomfortable, the creator sets the sound data of the sounds of waves as a reproduction condition: duplication not permitted. In addition, when the creator determines that the user does not feel uncomfortable even if the cicada cries are duplicated, the sound data of the cicada cries is set as the reproduction condition: duplication permitted.
  • the user can hear the sounds of the real space without duplication as the sounds of the waves, and can also hear the cries of a plurality of cicadas (the cicadas in the real space and the cicadas in the virtual space). That is, the sound processing device 1a can use the sound in the sound reproduction site, and can supplement the sound that seems to be insufficient as the sound of the virtual space. Thereby, the sound processing device 1a can provide the content intended by the creator to the user. Therefore, the sound processing device 1a is less likely to give the user a sense of discomfort. As a result, it is possible to prevent the user's sense of immersion from deteriorating.
  • FIG. 8 is a block diagram showing the configuration of a sound processing device 1b according to the third embodiment.
  • FIG. 9 is a flow chart showing the operation of the sound processing device 1b according to the third embodiment.
  • FIG. 10 is a diagram showing an example of movement of sound data in the sound processing device 1b according to the third embodiment.
  • the CPU 200 of the sound processing device 1b differs from the CPU 200 of the sound processing device 1 in that it includes an external environment data acquisition section 200d. Further, as shown in FIG. 9 , the sound processing device 1b compares the acquired external environment data with the sound data related to the second sound, and selects the second sound data according to the external environment data. is different from the sound processing device 1 in that it selects a sound related to .
  • the external environment data acquisition unit 200d acquires information data (hereinafter referred to as external environment data) of the environment around the terminal 20 (environment around the user). As shown in FIG. 8, external environment data is acquired by a sensor 40a.
  • the external environment data acquisition unit 200d acquires external environment data from the sensor 40a.
  • the sensor 40a is, for example, a thermometer (temperature data), an illuminometer (illuminance data), a hygrometer (humidity data), GPS (latitude and longitude data), or the like. That is, the external environment data includes information other than sound.
  • the external environment data acquisition unit 200d corresponds to the environment data acquisition unit in the present invention.
  • Such an external environment data acquisition unit 200d is, for example, a USB (Universal Serial Bus) or a communication interface such as a network interface.
  • USB Universal Serial Bus
  • the external environment data acquisition unit 200d may acquire external environment data via a server 40b connected to a network.
  • the external environment data acquisition unit 200d acquires, for example, weather information (temperature data, humidity data, etc.) or map information (latitude and longitude data) from the server 40b.
  • a network is specifically a LAN (Local Area Network), a WAN (Wide Area Network), or the like.
  • the acquisition destination of the external environment data via the network is not limited to the server 40b.
  • the external environment data acquisition unit 200d may acquire external environment data from a sensor connected via a network.
  • the external environment data is obtained by installing the terminal 20 indoors and installing a thermometer (an example of a sensor) outdoors. At this time, the thermometer transmits the acquired data to the terminal 20 via the wireless LAN.
  • the comparison unit 200b of the sound processing device 1b compares the acquired external environment data with the sound data related to the second sound. Specifically, the sound processing device 1b stores in advance an output condition (hereinafter referred to as an external environment-sound data condition) for changing the second sound to be output according to the external environment. Then, when the external environment data satisfies the external environment-sound data condition, the sound processing device 1b outputs the sound data. For example, when the temperature of 25 degrees or higher is set as the condition between the external environment and the sound data for the sound of cicadas, the sound processing device 1b obtains the temperature of 25 degrees from the external environment data acquisition unit 200d (thermometer). Outputs the sound of a cicada when the above values are obtained.
  • an output condition hereinafter referred to as an external environment-sound data condition
  • the external environment data acquisition unit 200d After selecting the sound data related to the second sound (FIG. 9: after S15 or S16), the external environment data acquisition unit 200d acquires the external environment data (FIG. 9: S30). In the example shown in FIG. 10, the external environment data acquisition unit 200d acquires external environment data from the sensor 40a and the server 40b. The external environment data acquisition unit 200d outputs the acquired external environment data to the comparison unit 200b. In the example shown in FIG. 10, the external environment data acquisition unit 200d outputs the external environment data X and the external environment data Y to the comparison unit 200b.
  • the comparison unit 200b compares the external environment data with the external environment-sound data condition (FIG. 9: S31). For example, in the example shown in FIG. 10, when the sound data A is the sound data of cicadas chirping, the creator sets the condition of the external environmental sound data to season: summer. Then, the sound processing device 1b determines whether the season is summer or not, based on the information (specifically, server calendar information, etc.) acquired from the external environment data acquisition unit 200d.
  • the information specifically, server calendar information, etc.
  • the comparison unit 200b selects the sound data corresponding to the external environment data (Fig. 9: S32). For example, in FIG. 10, when the data "season: summer” is acquired as the external environment data X, and the condition between the external environment sound data of the sound data A is set to "season: summer," the comparison unit 200b Select sound data A.
  • the comparison unit 200b does not select the sound data corresponding to the external environment data (Fig. 9: S33). .
  • the comparison unit 200b does not select sound data C;
  • the comparison unit 200b outputs the selected sound data to the reproduction unit 200c (Fig. 9: S17).
  • the comparison unit 200b outputs sound data A to the reproduction unit 200c.
  • the processing after the comparison unit 200b outputs the selected sound data to the reproduction unit 200c is the same as that of the sound processing device 1, so description thereof will be omitted.
  • the sound processing device 1b enables sound processing that allows the user to listen to sounds with a more immersive feeling without discomfort. Specifically, the sound processing device 1b can switch whether or not to output sound data according to changes in the external environment. Therefore, the possibility of outputting sound data that is not in harmony with the external environment is reduced.
  • the comparison unit 200b acquires map information around the terminal 20 from the external environment data acquisition unit 200d to determine whether there is a river around the terminal 20 (whether there is a river in the acquired map). or). If there is a river in the map, the sound processing device 1b determines that there is a river near the user.
  • the sound processing device 1b does not output the sound data of the river sound so as not to duplicate the sound of the river. Further, when the user's movement changes the acquired map information from a state where there is a river to a state where there is no river, the sound processing device 1b determines that there is no river near the user. Then, the sound processing device 1b outputs the sound data of the river sound in order to prevent the shortage of the river sound. Therefore, with the sound processing device 1b, it is possible for the user to hear the necessary sounds of the virtual space and the sounds of the real space in just the right amount. Therefore, in the case of the sound processing device 1b, the user is less likely to feel discomfort. As a result, it is possible to further prevent the user's sense of immersion from deteriorating.
  • FIG. 11 is a flowchart showing an example of the operation of the sound processing device 1c according to the fourth embodiment.
  • FIG. 12 shows an example of moving sound data in the sound processing device 1c according to the fourth embodiment. It is a diagram.
  • the CPU 200 of the sound processing device 1c differs from the CPU 200 of the sound processing device 1 in that it includes a specific sound erasing section 200e. Further, as shown in FIG. 11, the sound processing device 1c differs from the sound processing device 1 in that it acquires conditions for erasing environmental sound data. Further, the sound processing device 1c differs from the sound processing device 1 in that it compares whether there is an environmental sound that matches the erasing conditions. In FIG. 12, the sound sources included in the environmental sounds that match the erasing conditions are circled.
  • the specific sound elimination unit 200e eliminates the specific sound when the environmental sound includes the specific sound.
  • the specific sound is the engine sound of a car. That is, when the sound entering from the outside of the headphones 30 includes a specific sound (for example, the engine sound of a car), the sound processing device 1c erases the specific sound entering from the outside. For example, when the engine sound of a car is set as the specific sound to be erased, the sound processing device 1c performs an operation to erase the engine sound of the car. Elimination of the specific sound is performed, for example, by outputting a sound having a phase opposite to that of the specific sound from the headphones 30 .
  • the ROM 201 of the sound processing device 1c stores erasing conditions in which conditions for erasing a specific sound are set. For example, when the erasing condition is set to the engine sound of a car, the sound processing device 1c performs an operation of erasing the engine sound of the car as the specific sound to be erased.
  • the deletion condition is stored in the terminal 20 in advance.
  • the specific sound erasing unit 200e After selecting the sound data related to the second sound (FIG. 11: after S15 or S16), the specific sound erasing unit 200e acquires the erasing condition (FIG. 11: S40). In the example shown in FIG. 10, the specific sound erasing unit 200e acquires erasing conditions from the ROM 201. In the example shown in FIG.
  • the specific sound erasing unit 200e compares whether there is an environmental sound that matches the erasing condition (whether there is an overlapping sound) (FIG. 11: S41).
  • the specific sound elimination unit 200e compares each of the sound sources d and e included in the analysis result D with the elimination conditions.
  • the specific sound erasing unit 200e creates cancellation data for erasing the sound source that meets the erasing condition (S42).
  • the specific sound erasing section 200e creates the cancellation data CD based on the sound source d that matches the erasing conditions. If there is no environmental sound data that matches the erasing conditions (Fig. 11: S41 No), the specific sound erasing section 200e does not create cancellation data.
  • the specific sound erasing section 200e outputs the cancellation data to the reproducing section 200c.
  • the specific sound erasing section 200e outputs the cancellation data CD to the reproducing section 200c.
  • the reproducing unit 200c outputs the sound data related to the second sound input from the comparing unit 200b and the canceling data CD input from the specific sound erasing unit 200e to the headphone 30 as sound signals (FIG. 11: S43). .
  • the reproduction unit 200c converts sound data A and sound data C (input from the comparison unit 200b) into sound signals A2 and C2, respectively, and cancels data CD (from the specific sound erasure unit 200e). input) is output to the headphone 30 as a canceling signal CD2.
  • the headphone 30 outputs a sound A3 based on the sound signal A2, a sound C3 based on the sound signal C2, and a canceling sound CD3 based on the canceling signal CD2.
  • the sound processing device 1c enables sound processing that allows the user to listen to sounds with a more immersive feeling without discomfort.
  • the sound processing device 1c can eliminate the noise when the external environmental sound includes the noise.
  • the creator sets the engine sound of a car (an example of noise sound) as the specific sound to be erased in the sound processing device 1c.
  • the sound processing device 1c eliminates the engine sound of the vehicle when determining that the engine sound of the vehicle is included as the external environmental sound. Therefore, the user can experience the content without the noise of the car engine. In this way, the sound processing device 1c prevents the user from being disturbed by noise. Therefore, in the case of the sound processing device 1c, the user is less likely to feel discomfort. As a result, it is possible to further prevent the user's sense of immersion from deteriorating.
  • the deletion conditions may be created in advance by the content creator.
  • the deletion conditions created by the creator are stored in the ROM 201 .
  • the specific sound erasing section 200e erases the specific sound from the environmental sounds based on the erasing conditions created by the creator. In this case, the user cannot hear environmental sounds not intended by the creator. Therefore, the user can listen to the sound with a more immersive feeling without discomfort.
  • Modification 1 Modification 1 will be described below.
  • the sound processing devices 1, 1a, 1b, and 1c according to Modification 1 for example, the sound of the sound source is recorded at a travel destination (hereinafter referred to as the site), and the content based on the sound of the recorded sound source is reproduced. It is possible to take it home. For example, when a user goes to a specific place (for example, Waikiki Beach in Hawaii) while listening to specific content (for example, tropical sound content) on a trip, the sound processing devices 1, 1a, 1b, and 1c travel to Waikiki. Record the sound of waves on the beach.
  • a specific place for example, Waikiki Beach in Hawaii
  • specific content for example, tropical sound content
  • the sound processing device 1 reproduces the recorded wave sound data of Waikiki Beach instead of the prerecorded wave sound data.
  • the sound processing devices 1, 1a, 1b, and 1c can switch sounds to be reproduced. Accordingly, the sound processing devices 1, 1a, 1b, and 1c can motivate the user to go to a specific place.
  • Modification 2 Modification 2 will be described below.
  • the sound processing devices 1, 1a, 1b, and 1c acquire multitrack content data by separating a plurality of sound data from a sound obtained by mixing sounds from a plurality of sound sources.
  • the sound processing devices 1, 1a, 1b, and 1c according to Modification 2 separate, for example, sounds obtained by mixing sounds from a plurality of sound sources into a plurality of sound data using a known sound source separation technique.
  • the well-known sound source separation technique is, for example, BSS (Blind Signal Separation) or a nonlinear filter that separates a specific sound source by machine learning.
  • the terminal 20 may further acquire localization processing data used in sound image localization processing for the second sound.
  • Localization processing data is, for example, information on the positional relationship between a sound source and a user in a virtual space (three-dimensional space). This makes it possible to perform sound image localization processing in which sound is localized at a predetermined position intended by the creator. For example, if the creator wishes to localize the sound of the river to the right of the user's position, the creator sets the position information of the sound data of the river's sound to the right of the user. In this case, the user can hear the sound of the river as if it were located to the right of the user. This allows the user to naturally recognize the directions of surrounding objects. Therefore, the user can listen to the sound with a more immersive feeling without discomfort.
  • the terminal 20 may acquire a track (sound data) switching condition.
  • the switching condition is set in advance via the terminal 20 by the creator.
  • the sound processing devices 1, 1a, 1b and 1c reproduce the sound data of the track designated by the switching condition.
  • Switching based on switching conditions is, for example, switching of sound data triggered by a specific sound when environmental sounds include a specific sound.
  • a case where the sound processing devices 1, 1a, 1b and 1c have conditions (1) and (2) will be described below as an example.
  • the sound processing devices 1, 1a, 1b, and 1c reproduce the sound data of the sound of waves when there is no sound of waves in the real space. That is, the user hears the sound of waves in the virtual space.
  • the switching condition is met, so the sound data is switched to the sound of a ship's whistle.
  • the user can hear the sound of waves in the real space and the sound of the ship's whistle in the virtual space. That is, the sound processing apparatuses 1, 1a, 1b, and 1c use sounds in the virtual space while using sounds in the real space as much as possible, so that the user's sense of immersion can be enhanced.
  • the sound processing devices 1, 1a, 1b, and 1c can perform an effect for enhancing the sense of immersion without making the user aware of it.
  • the sound processing devices 1, 1a, 1b, and 1c can output a sound corresponding to the scene to be reproduced by performing an effect of switching the plurality of second sounds. Therefore, the user can listen to the sound with a more immersive feeling without discomfort.
  • the sound in the real space corresponds to the first sound
  • the sound in the virtual space corresponds to the second sound.
  • the microphone 10 may be connected to the terminal 20 via a wire. In this case, even if the terminal 20 and the headphones 30 do not have the microphone 10, the terminal 20 can acquire the environmental sound with the microphone 10 connected via a wire.
  • the terminal 20 may be equipped with an application program capable of editing sound data.
  • the user can edit the sound data in real time by operating the terminal 20 .
  • the sound processing devices 1, 1a, 1b, and 1c select the second sound of the type that matches the first sound.
  • the acquired first sound may be output to the headphones 30 without reproducing the sound data related to the above.
  • the headphone 30 has a hear-through mode for outputting the sound picked up by the microphone of its own device.
  • the hear-through mode sound picked up by the microphone of the headphone 30 is output from the speaker of the headphone 30 . That is, in this case, the headphone 30 outputs the environmental sound acquired by the microphone of the own device and the second sound of a type that does not match the environmental sound.
  • FIG. 13 is a diagram illustrating an example of output of the first sound and reproduction of sound data.
  • the headphone 30 outputs the cicadas' cry and the sound of the ship's whistle acquired by the microphone of its own device.
  • the sound data relating to the second sound includes the cries of cicadas
  • the sound data of cicadas is not reproduced.
  • the river sound and the car engine sound which are sound data that do not match the first sound, are reproduced. This allows the user to hear the sound intended by the creator.
  • FIG. 14 is a diagram showing an example in which the sound processing apparatuses 1, 1a, 1b, and 1c do not reproduce sound data. As shown in FIG. 14, when only cicada cries are set as sound data and cicada cries are acquired as the first sound, the sound processing devices 1, 1a, 1b and 1c Don't play cicada sounds in sound data.
  • the sound processing devices 1, 1a, 1b, and 1c output only the cicada's cry in the real space. Therefore, for example, when the sound of cicadas in the real space continues to be acquired for 30 seconds, the sound processing devices 1, 1a, 1b, and 1c do not reproduce sound data for 30 seconds. Then, when the sound of cicadas in the real space is no longer acquired, the sound processing devices 1, 1a, 1b, and 1c reproduce sound data.
  • the sound processing devices 1, 1a, 1b, and 1c may cause the headphones 30 to erase the sound of the type of sound source that does not match the second sound among the first sounds acquired by the microphone 10.
  • FIG. 15 is a diagram showing an example of erasing sounds of a sound source of a type that does not match the second sound among the first sounds.
  • the sound processing device 1, 1a, 1b, and 1c may cause the headphones 30 to perform processing to eliminate ship whistle sounds and airplane engine sounds (sounds that do not match the second sound).
  • the sound processing devices 1, 1a, 1b, and 1c transmit to the headphone 30 a sound signal after erasing the sound of the ship's whistle and the sound of the engine of the airplane from the sound acquired by the microphone 10, and cause the headphone 30 to output the sound signal.
  • the environmental sound output from the headphone 30 is only the cry of cicadas. Therefore, the sound processing devices 1, 1a, 1b, and 1c can output only the environmental sound intended by the creator while reproducing the sound data intended by the creator. As a result, the user can hear the sound intended by the creator. If the sound processing devices 1, 1a, 1b, and 1c include the specific sound erasing section 200e, the sound of the ship's whistle and the sound of the engine of the airplane may be eliminated by the specific sound erasing section 200e.

Abstract

音の処理方法は、第1の音を取得し、予め作成された音データにより構成される第2の音を取得し、第1の音の解析を行い、第1の音の解析結果に基づいて、第1の音と一致しない種類の第2の音に係る音データを再生し、再生した音データに係る音を出力する。

Description

音の処理方法及び音処理装置
 この発明に係る一実施形態は、音の処理方法及び音処理装置に関する。
 特許文献1は、特定のエリアに対してユーザが向いている方向を検出する手段と、特定のエリアとユーザとの位置関係を検出する手段と、を備えた音声再生装置を開示している。特許文献1の音声再生装置は、ユーザの向く方向及び特定のエリアとユーザとの間の位置関係を基に、再生する音を変化させる。これにより、音声再生装置は、ユーザに対して特定のエリアの印象を想像させやすくする。
国際公開2018-088450
 ユーザが、違和感なくより没入感を高めて音を聞くことができる方法が望まれている。
 そこで、この発明に係る一実施形態は、ユーザが、違和感なくより没入感を高めて音を聞くことができる音の処理方法を提供することを目的とする。
 本発明の一実施形態に係る音の処理方法は、
 第1の音を取得し、
 予め作成された音データにより構成される第2の音を取得し、
 第1の音の解析を行い、
 第1の音の解析結果に基づいて、第1の音と一致しない種類の第2の音に係る音データを再生し、
 再生した音データに係る音信号を出力する。
 この発明に係る一実施形態によれば、ユーザは違和感なくより没入感を高めて音を聞くことができる。
図1は、第1の実施形態に係る音処理装置1の主要な構成の一例を示すブロック図である。 図2は、第1の実施形態に係る音処理装置1の主要な構成の一例を示すブロック図であり、且つ、図1とは異なる一例を示す図である。 図3は、第1の実施形態に係る音処理装置1の動作の一例を示すフローチャートである。 図4は、第1の実施形態に係る音処理装置1における音データの移動の一例を示した図である。 図5は、解析部200aにおける解析の一例を示す図である。 図6は、第2の実施形態に係る音処理装置1aの動作の一例を示すフローチャートである。 図7は、第2の実施形態に係る音処理装置1aにおける音データの移動の一例を示した図である。 図8は、第3の実施形態に係る音処理装置1bの主要な構成の一例を示すブロック図である。 図9は、第3の実施形態に係る音処理装置1bの動作のイメージ図である。 図10は、第3の実施形態に係る音処理装置1bにおける音データの移動の一例を示した図である。 図11は、第4の実施形態に係る音処理装置1cの動作の一例を示すフローチャートである。 図12は、第4の実施形態に係る音処理装置1cにおける音データの移動の一例を示した図である。 図13は、第1の音の出力及び音データの再生の一例を示す図である。 図14は、音処理装置1,1a,1b及び1cが、音データの再生をしない場合の一例を示す図である。 図15は、第1の音のうち、第2の音に一致しない種類の音源の音の消去の一例を示す図である。
 (第1の実施形態)
 以下、第1の実施形態に係る音処理装置1について、図を参照して説明する。図1は、第1の実施形態に係る音処理装置1の主要な構成の一例を示すブロック図である。図2は、第1の実施形態に係る音処理装置1の主要な構成の一例を示すブロック図であり、且つ、図1とは異なる一例を示す図である。図3は、第1の実施形態に係る音処理装置1の動作の一例を示すフローチャートである。図4は、第1の実施形態に係る音処理装置1における音データの移動の一例を示した図である。図5は、解析部200aにおける解析の一例を示す図である。
 図1に示すように、音処理装置1は、端末20と、ヘッドフォン30とを備える。端末20は、マイク10と、CPU200と、ROM201と、RAM202と、出力I/F203とを有する。端末20と、ヘッドフォン30とは、互いに有線又は無線を介して接続される。なお、図2に示すように、ヘッドフォン30が、マイク10を有していてもよい。言い換えると、ヘッドフォン30が、マイク付きヘッドフォンであってもよい。
 マイク10は、マイク10の設置された場所の周囲の環境音(言い換えると、ユーザの周囲の環境音である。)を取得する。マイク10は、取得した環境音を音信号に変換する。マイク10は、変換により得られた音信号を端末20のCPU200へ出力する。環境音とは、例えば車のエンジン音や、雷の音等を含んでいる。マイク10の設置された場所の周囲の環境音は、第1の音に該当する。また、マイク10は、本発明における、第1の音取得部に該当する。
 端末20は、コンテンツの作成者(以下、クリエイターと称す)により予め他のPC等で作成された音データを記憶する。端末20は、例えば、スマートフォン等の携帯機器である。この場合、マイク10は、スマートフォン等に備わる内蔵マイクである。端末20は、本発明における第2の音取得部に該当する。
 音データとは、特定の音を記録したデータである。特定の音とは、例えば、波の音やセミの鳴き声の音等である。すなわち、音データは音源(本実施形態における第2音源である)の種類を示す音源情報(本実施形態における第2音源情報である)が予め付加されたデータを含んでいる。端末20は、音データをトラックとして備えたマルチトラックのコンテンツデータとして記憶する。例えば、端末20は、波の音の音データとセミの鳴き声の音データとの2つのトラックを備えたマルチトラックのコンテンツデータを記憶する。クリエイターにより作成された音データ(コンテンツデータ)は、本実施形態における第2の音に相当する。すなわち、第2の音は音データにより構成される。以下、端末20を介して設定された音データを第2の音に係る音データと称す。
 クリエイターは、ユーザに特定の印象を与えるためのコンテンツを作成する。例えば、クリエイターが、ユーザに夏の印象を与えたいコンテンツを作成する場合、クリエイターは夏に関連する音である波の音、セミの鳴き声の音等の音データを作成する。
 ROM201は、種々のデータを記憶する。種々のデータとは、例えば、端末20を動作させるプログラム、マイク10から入力した環境音データ、他のPC等から受信したコンテンツデータ等である。
 RAM202は、ROM201に記憶された所定のデータを一時的に記憶する。
 CPU200は、端末20の動作を制御する。CPU200は、ROM201に記憶された所定のプログラムをRAM202に読み出すことにより各種の動作を行う。CPU200は、解析部200aと、比較部200bと、再生部200cとを含む。CPU200は、入力した第1の音(環境音)に種々の処理を行う。種々の処理は、CPU200における、解析部200aの解析処理と、比較部200bの比較処理と、再生部200cの再生処理とを含む。言い換えると、CPU200は、解析部200aの解析処理のプログラムと、比較部200bの比較処理のプログラムと、再生部200cの再生処理のプログラムとを含むプログラムを実行する。
 解析部200aは、環境音に係るデータに対して所定の解析処理を行う。言い換えると、解析部200aは、第1の音の解析を行う。解析部200aにおける所定の解析処理とは、例えば、ニューラルネットワーク等の人工知能による音源認識処理である。この場合、解析部200aは、入力した環境音に係るデータを基に、環境音の特徴量を算出する。特徴量とは、音源の特徴を示すパラメータである。例えば、特徴量は、少なくともパワー又はケプストラム係数等を含む。パワーは、音信号のパワーである。ケプストラム係数は、周波数軸の音信号の離散コサイン変換の振幅の対数である。なお、音の特徴量は、パワー及びケプストラム係数のみに限定されない。
 解析部200aは、音源の特徴量に基づいて、音源を認識する(音源の種類を推定する)。例えば、環境音にセミの鳴き声の特徴量が含まれている場合、解析部200aは、音源の種類をセミの鳴き声であると認識する。解析部200aは、図4に示すように、解析結果D(音源の認識結果)を比較部200bへ出力する。例えば、解析部200aが、「音源は、セミの鳴き声である」と認識した場合、解析部200aは、「音源は、セミの鳴き声である」という解析結果Dを比較部200bへ出力する。すなわち、解析結果Dは、第1の音である環境音に含まれる音源(本実施形態における第1音源である)の種類を示す音源情報(本実施形態における第1音源情報である)を含んでいる。
 ここで、解析部200aがニューラルネットワークを用いて音源認識処理を行う場合について詳細に説明する。以下、図5に示すように、解析部200aが、ニューラルネットワークNN1を用いる場合を例に説明する。
 端末20は、音源の特徴量を入力した場合に、音源の種類を出力する学習済のニューラルネットワークNN1を有する。図5に示すように、ニューラルネットワークNN1は、複数の音の特徴量に基づいて音源を認識する。図5に示すように、ニューラルネットワークNN1が音源認識処理に用いる音の特徴量は、例えば、パワーP1及びケプストラム係数P2等である。ニューラルネットワークNN1は、環境音の各種特徴量に対する各音源の特徴量の一致度を出力する。そして、ニューラルネットワークNN1は、一致度の最も高かった音源の種類を、解析結果Dとして出力する。
 より詳細には、まず、ニューラルネットワークNN1が有する学習済モデルであって、音源の種類を示す情報(以下、第3音源情報と称す)及び当該第3音源の特徴量の関係を示すデータセットを学習データとして学習済(例えば、人工知能における重み付け等のパラメータチューニングを完了済)の学習済モデルを用意する。そして、ニューラルネットワークNN1は、第1の音の解析において算出された第1の音に含まれる特徴量を、学習済モデルに入力する。ニューラルネットワークNN1は、学習済モデルへの特徴量の入力後に、入力した特徴量に対応する音源の種類の情報を解析結果として出力する。例えば、ニューラルネットワークNN1は、入力した環境音の特徴量を基に、環境音と学習済音源との一致度を出力する。そして、ニューラルネットワークNN1は、各学習済音源の中で、最も一致度の高い音源の種類の情報(例えば、セミというラベル情報)を比較部200bへ出力する。
 例えば、図5に示すように、ニューラルネットワークNN1は、環境音とセミの鳴き声の一致度、環境音と車のエンジン音の一致度をそれぞれ算出する。図5に示す例では、ニューラルネットワークNN1は、環境音とセミの鳴き声とが60%の確率で一致し、且つ、環境音と車のエンジン音とが30%の確率で一致する、と算出している。このとき、環境音がどの認識用データとも一致しない確率も算出する。図5に示す例では、ニューラルネットワークNN1は、セミの鳴き声及び車のエンジン音のどちらとも一致しない確率を10%と算出している。上記の算出結果の場合、一致度の最も高い音源種別は、セミの鳴き声である。従って、ニューラルネットワークNN1は、「音源は、セミの鳴き声である」という解析結果Dを出力する。このように、ニューラルネットワークNN1は、音源の特徴量を入力したときに環境音と一致する音源の種類を推定(音源を認識)できる。なお、出力対象である音源の種類は、クリエイター等によって予め指定される。
 なお、音源の種類の認識方法は、ニューラルネットワークを用いた方法に限定されない。例えば、解析部200aは、音信号の波形同士を比較するマッチングを行ってもよい。この場合、端末20には、認識用データとして音源の種類毎の波形データ(テンプレートデータ)が予め記録される。そして、解析部200aは、環境音の波形がテンプレートデータと一致するか否かを判定する。解析部200aは、テンプレートデータと環境音の波形とが一致したと判定した場合、環境音は当該テンプレートデータの種類の音源であると認識する。例えば、端末20に、テンプレートデータとしてセミの鳴き声の波形が記録されている場合、解析部200aは、環境音の波形が、セミの鳴き声の波形と一致するかを判定する。一致すると判定した場合、解析部200aは、環境音はセミの鳴き声であるという解析結果Dを出力する。なお、解析部200aにおけるマッチングは、波形データ同士を比較する方法のみに限定されない。例えば、解析部200aは、音源の特徴量同士を比較するマッチングを行ってもよい。この場合、端末20には、認識用データとして音源の特徴量(パワー、ケプストラム係数等)が予め記録される。そして、解析部200aは、環境音の特徴量が、音源の特徴量と一致するか否かを判定する。
 比較部200bは、図4に示すように、解析結果Dと、第2の音に係る音データとの比較処理を行う。第2の音に係る音データには、音源の種類を示す情報(例えば、音データは、セミの鳴き声であるという情報)が付加されている。図4に示すように、比較部200bは、解析部200aの解析結果Dと、それぞれの音データに付加されている音源の種類を示す情報とを比較する。そして、解析結果Dと、第2の音に係る音データとが一致した場合(具体的には、環境音と、第2の音に係る音データとが、同じ種類の音源である場合)に、比較部200bは、環境音と一致した第2の音に係る音データを再生対象から除外する。例えば、解析結果Dが「環境音はセミの鳴き声である」という結果の場合、且つ、音データがセミの鳴き声である場合、比較部200bは、セミの鳴き声の音データを再生対象から除外する。そして、比較部200bは、除外した音データ以外の音データを再生部200cへ出力する。言い換えると、解析結果Dと一致した第2の音に係る音データは、再生部200cへ出力されない。なお、比較部200bにおける除外とは、再生部200cに出力する音データと、出力しない音データとを区別することである。従って、除外とは、端末20からの音データの削除ではない。なお、本発明において、第1の音と一致する種類の第2の音に係る音データとは、比較処理の結果、再生対象から除外した第2の音データのことである。なお、第1の音と一致しない種類の第2の音に係る音データとは、比較処理の結果、再生対象から除外されない第2の音データのことである。言い換えると、第2の音に係る音データは、第1の音と一致する種類の第2の音に係るとデータと、第1の音と一致しない種類の第2の音に係る音データとに分けられる。
 なお、本実施形態における「第1の音と第2の音に係る音データとの一致」とは、解析部200aが出力した環境音の種類の情報と、音データの種類の情報とが一致することである。例えば、解析部200aが、ニューラルネットワーク等を用いて環境音の種類情報は、「セミの鳴き声である」と認識した場合、第1の音の種類情報は、「セミの鳴き声」となる。このとき、第2の音に係る音データの種類情報に「セミの鳴き声」と記録されていた場合に、第1の音と第2の音に係る音データとが一致すると推定する。ただし、比較部200bは、少なくとも一部の特徴量が一致する場合に、第1の音と第2の音に係る音データとが一致すると判断してもよい。
 再生部200cは、比較部200bから、第2の音に係る音データを入力する。再生部200cは、第2の音に係る音データをデコードする。そして、再生部200cは、デコードされた第2の音に係る音データを音信号として、出力I/F203へ出力する。出力I/F203は、例えば、オーディオ端子、USB端子、通信I/F等である。出力I/F203は、本発明における出力部に該当する。音信号を入力した出力I/F203は、音信号をヘッドフォン30へ出力する。
 ヘッドフォン30は、出力I/F203から入力した音信号を音として出力する。ヘッドフォン30は、例えば、ユーザの所有するヘッドフォンである。ユーザは、ヘッドフォン30を介して第2の音に係る音信号を基にした音を聞く。なお、本実施形態におけるヘッドフォン30とは、人の耳に近接した発音体(スピーカー等)から音を出す機器である。従って、本実施形態においてヘッドフォン30には、例えば、骨電動イヤホン、肩掛けスピーカー等の機器を含んでいる。
 以下、音処理装置1の一連の処理について、図3及び図4を参照して説明する。図3は、音処理装置1の動作の一例を示すフローチャートである。図4は、音処理装置1における音データの移動を示した図である。なお、図4では、除外した音データを点線の四角で示している。なお、図4では、比較部200bにおける、環境音データと第2の音に係る音データとの比較は、両矢印で示している。なお、図4では、RAM202及び出力I/F203の図示を省略している。
 まず、マイク10は、ユーザの周囲の環境音(第1の音)を取得する(図3:S10)。マイク10は、取得した環境音を音信号に変換する。マイク10は、変換により得られた音信号を端末20の解析部200aへ出力する。
 次に、端末20は、音データにより構成されるコンテンツデータ(第2の音)を取得する(図3:S11)。取得したコンテンツデータは、ROM201へ記憶される。図4に示す例では、コンテンツデータとして、音データA、音データB及び音データCがROM201に記憶されている。
 次に、解析部200aは、取得した環境音に対して所定の解析を行う(図3:S12)。環境音の解析結果は、比較部200bへ出力される。図4に示す例では、解析部200aは、環境音の解析結果として解析結果Dというデータを比較部200bへ出力している。
 次に、比較部200bは、ROM201からコンテンツデータを読み出す。図4に示す例では、比較部200bは、音データA、音データB及び音データCをROM201から読み出している。
 次に、比較部200bは、第1の音に係る環境音の解析結果と、コンテンツデータ(第2の音に係る音データ)との比較を行う(図3:S13)。図4に示す例では、音データA、音データB及び音データCのそれぞれと、解析結果Dとを比較している。
 次に、比較部200bは、環境音の解析結果と、第2の音に係る音データとが一致した場合(図4:S13 Yes)、環境音の解析結果と一致した第2の音に係る音データをコンテンツデータから除外する(図4:S14)。言い換えると、比較部200bは、環境音の解析結果と一致した第2の音に係る音データ以外の第2の音に係る音データを選択する。図4に示す例では、解析結果Dと、音データBとが一致したため、比較部200bは、音データBをコンテンツデータから除外している。
 比較の結果、環境音の解析結果と一致する第2の音に係る音データがない場合(図3:S13 No)、コンテンツデータから第2の音は除外されない。比較部200bによる環境音のデータ(第1の音の解析結果)と、第2の音に係る音データとの比較が、本発明における第1の比較に該当する。
 次に、比較部200bは、除外した音データ以外の第2の音に係る音データを選択する(図3:S15)。除外する音データが無い場合(図3:S13 No)、第2の音に係る音データは全て選択される(図3:S16)。図4に示す例では、音データA及び音データCが比較部200bにより選択されている。
 次に、比較部200bは、選択した第2の音に係る音データを、再生部200cへ出力する(図3:S17)。図4に示す例では、比較部200bは、音データA及び音データC(音データBを除いたコンテンツデータ)を再生部200cへ出力している。
 次に、再生部200cは、比較部200bから入力したコンテンツデータをデコードし(再生し)、音信号として出力I/F203へ出力する。音信号を入力した出力I/F203は、音信号をヘッドフォン30へ出力する。音信号を入力したヘッドフォン30は、入力した音信号を音として出力する。図4に示す例では、再生部200cは、音データA及び音データCをそれぞれ、音信号A2及び音信号C2へデコードしている。そして、再生部200cは、デコードした音信号A2及び音信号C2を出力I/F203を介してヘッドフォン30へ出力している。言い換えると、再生部200cは、第1の比較の結果に基づいて、第1の音(環境音)と一致しない種類の音データ(第2の音に係る音データ)を再生する。
 最後に、音信号A2及び音信号C2を入力したヘッドフォン30は、音信号A2を基にした音A3及び音信号C2を基にした音C3を出力する。言い換えると、ヘッドフォン30は、再生した音データ(第2の音に係る音データ)を出力する。
 音処理装置1は、S10からS17の動作を繰り返す。従って、第2の音と一致する環境音が鳴っている場合、ヘッドフォン30は、環境音と一致する第2の音を出力しない。そして、第2の音と一致する環境音が鳴っていない場合、ヘッドフォン30は、第2の音を出力する。このように、音処理装置1は、環境音の変化に応じて、第2の音を出力するか否かを切り替えることが可能である。
 以上の構成により、音処理装置1は、ユーザが違和感なくより没入感を高めて音を聞くことができる音の処理を可能とする。以下、音処理装置1と、本実施形態に係る音の処理を行わない音処理装置(以下、比較例1と称す)とを比較して説明する。音処理装置1と、比較例1との比較においては、ユーザの周囲に川が1つある場合を例に説明する。言い換えると、ユーザの周囲の環境音に川の音が1つ含まれている場合、且つ、ヘッドフォン30(比較例1の場合はヘッドフォン)の外部から川の音が侵入する場合である。すなわち、ユーザには、ヘッドフォン30(比較例2の場合はヘッドフォン)から出力される音と、周囲の環境音である川の音とが聞こえる。
 比較例1は、周囲の環境音の変化に応じてヘッドフォンから音を出力するか否かを切り替えない。従って、ヘッドフォンから川の音が出力される場合、ヘッドフォンから出力される川の音(仮想空間の川の音)及びヘッドフォンの外部から侵入した川の音(川の音)の両方が、ユーザに聞こえる。言い換えると、比較例1において、仮想空間の音と、現実空間の音とで重複した音がユーザに聞こえる。一方、ユーザが視認している川は1つである。すなわち、ユーザの認識において視覚情報(ユーザには、1つの川が見えている状態)と聴覚情報(ユーザには、2つの川の音が聞こえている状態)との間に不一致が発生する。従って、比較例1の場合、ユーザに違和感を与える可能性がある。結果、ユーザの没入感が低下する虞がある。
 一方、本実施形態における音処理装置1は、周囲の環境音の変化に応じてヘッドフォン30から音を出力するか否かを切り替える。従って、周囲の環境音に川の音が含まれている場合、音処理装置1は、川の音が含まれている音データを再生しない。そのため、ヘッドフォン30の外部から侵入する川の音は、ユーザに聞こえるが、ヘッドフォン30から出力される川の音は、ユーザに聞こえない。言い換えると、ユーザの認識において視覚情報(ユーザには、1つの川が見えている状態)と聴覚情報(ユーザには、2つの川の音が聞こえている状態)との間に不一致が発生しない。従って、音処理装置1の場合、ユーザに違和感を与える可能性が低い。結果、ユーザの没入感の低下を防ぐことが可能となる。
 (第2の実施形態)
 以下、第2の実施形態に係る音処理装置1aの構成について、図を参照して説明する。図6は、第2の実施形態に係る音処理装置1aの動作を示すフローチャートである。図7は、第2の実施形態に係る音処理装置1aにおける音データの移動の一例を示した図である。
 図7に示すように、音処理装置1aは、クリエイターにより作成された再生条件に基づいて第2の音を再生するか否かを判断する点で、音処理装置1と異なる。
 再生条件は、第2の音の再生条件を記録したデータである。具体的には、再生条件には、環境音と第2の音との重複再生を許可するか否かが設定されている。例えば、再生条件において第2の音に係る音データに「再生条件:重複再生許可」と設定された場合、音処理装置1aは、比較部200bにおける比較の結果に因らずに第2の音に係る音データを出力する。一方、再生条件において第2の音に係る音データに「再生条件:重複再生不許可」と設定された場合、音処理装置1aは、環境音と同じ種類の音データを出力しない。再生条件は、第2の音の取得と同じように端末20を介して取得される。再生条件の取得後、再生条件はROM201へ記憶される。
 以下、音処理装置1aの一連の動作について説明する。なお、図7に示す例では、音データBは、音源d(環境音に含まれている音源の一つ)と同じ種類の音である。なお、図7に示す例では、音データCは、音源d及び音源eのそれぞれと、異なる種類の音である。なお、S11、S12、S15、S16及びS17の処理は、音処理装置1と同様の処理のため、説明を省略する。
 比較部200bは、解析部200aにおける第1の音に対する所定の解析の後(図6:S12の後)、クリエイターにより予め作成された再生条件を取得する(図6:S20)。図7に示す例では、比較部200bは、再生条件(音データA:重複再生許可、音データB:重複再生不可、音データC:重複再生許可)をROM201から取得している。
 次に、比較部200bは、解析結果Dと再生条件とが一致するかを比較する(図6:S21)。具体的には、図7に示すように、比較部200bにおいて解析結果Dに含まれている音源d,eが、再生条件に含まれている音データA,B,Cと一致するかを比較する。例えば、比較部200bが、解析部200aから「環境音は、海の波の音である」という解析結果Dを入力した場合、且つ、再生条件に含まれているデータに「海の波の音」と設定されていた場合は、比較部200bは、環境音の解析結果Dと再生条件とが一致すると判断する。比較部200bによる第1の音の解析結果と、再生条件との比較が、本発明における第2の比較に該当する。なお、解析結果Dと再生条件の一致とは、例えば、解析部200aが出力した環境音の種類の情報と、音データの種類の情報とが一致することである。
 環境音の解析結果Dと再生条件とが一致した場合(図6:S21 Yes)、比較部200bは、当該環境音の解析結果のデータと第2の音に係る音データとの重複再生が許可されているか否かを判断する(図6:S22)。例えば、環境音の解析結果のデータと、再生条件とで波の音が一致した場合、比較部200bは、波の音の重複再生が許可されているか否かを、再生条件を基に判断する。環境音の解析結果のデータと再生条件とが一致しない場合(図6:S21 No)、比較部200bは、全ての第2の音に係る音データを選択する(図6:S16)。
 比較部200bが、再生条件を基に音データの重複再生不可と判断した場合(図6:S22 Yes)、比較部200bは、重複再生不可と判断した音データ(再生条件を満たさない種類の音データ)をコンテンツデータから除外する(図6:S23)。例えば、環境音データと、再生条件とで波の音が一致した場合、比較部200bは、波の音の音データをコンテンツデータから除外する。図7に示す例では、音データBが、音源dと一致している。そのため、比較部200bは、音データBをコンテンツデータから除外している。次に、比較部200bは、除外した音データ以外の音データ(再生条件を満たす種類の音データ)を選択する(図6:S15)。比較部200bが、再生条件を基に、当該音は重複再生許可であると判断した場合(図6:S22 No)、比較部200bは、当該第2の音に係る音データを選択する(図6:S16)。
 最後に、比較部200bは、選択された音データを再生部200cへ出力する(図6:S17)。なお、比較部200bが、選択された音データを再生部200cへ出力した後の処理は、音処理装置1と同様であるため説明を省略する。
 これにより、音処理装置1aは、再生条件に基づいて第2の音に係る音データを再生するか否かを決める。図7に示す例では、重複再生不許可の音データBは、再生されない。従って、図7に示すように、クリエイターに特定の音を重複して再生したくないという意図がある場合、クリエイターは、再生条件を作成することによって音処理装置1aに特定の音を含む音データを重複して再生させないことが可能となる。
 以上の構成により、音処理装置1aは、ユーザが違和感なくより没入感を高めて音を聞くことができる音の処理を可能とする。具体的には、クリエイターは、重複すると違和感のある音を重複させずに再生させることが可能である。以下、クリエイターが、コンテンツデータとして波の音の音データ及びセミの鳴き声の音データを作成した場合、且つ、環境音として波の音及びセミの鳴き声が含まれている場合を例に説明する。
 この場合、クリエイターは、再生条件を設定することにより、重複して再生されると問題がある(違和感がある)と考える音を再生しない様に設定することが可能である。更に、重複して再生されても問題ない(違和感がない)と考える音を再生する様に設定することも可能である。言い換えると、クリエイターは、現実空間の音を利用するか、仮想空間の音を利用するかを選択可能である。例えば、波の音が重複して聞こえるとユーザに違和感を与えるとクリエイターが判断した場合は、波の音の音データを再生条件:重複不許可として設定する。また、セミの鳴き声が重複して聞こえてもユーザに違和感を与えないとクリエイターが判断した場合は、セミの鳴き声の音データを再生条件:重複許可として設定する。この場合、ユーザは、波の音として現実空間の音を重複なく聞くことができ、且つ、複数のセミの鳴き声(現実空間のセミの鳴き声及び仮想空間のセミの鳴き声)を聞くことができる。すなわち、音処理装置1aは、音の再生現場にある音を利用でき、且つ、不足すると思われる音を、仮想空間の音として補うことができる。これにより、音処理装置1aは、クリエイターの意図するコンテンツをユーザに提供できる。従って、音処理装置1aは、ユーザに違和感を与える可能性が少ない。結果、ユーザの没入感の低下を防ぐことが可能となる。
 (第3の実施形態)
 以下、第3の実施形態に係る音処理装置1bの構成について、図を参照して説明する。図8は、第3の実施形態に係る音処理装置1bの構成を示すブロック図である。図9は、第3の実施形態に係る音処理装置1bの動作を示すフローチャートである。図10は、第3の実施形態に係る音処理装置1bにおける音データの移動の一例を示した図である。
 図8及び図10に示すように、音処理装置1bのCPU200は、外部環境データ取得部200dを備える点で、音処理装置1のCPU200と異なる。また、図に示すように、音処理装置1bは、取得した外部環境データと第2の音に係る音データとを比較する点、及び、外部環境データに応じて選択する第2の音データに係る音を選択する点で、音処理装置1と異なる。
 外部環境データ取得部200dは、端末20の周囲の環境(ユーザの周囲の環境)の情報のデータ(以下、外部環境データと称す)を取得する。図8に示すように、外部環境データは、センサー40aにより取得される。外部環境データ取得部200dは、センサー40aから外部環境データを取得する。センサー40aとは、例えば、温度計(温度データ)、照度計(照度データ)、湿度計(湿度データ)、又はGPS(緯度及び経度データ)等である。すなわち、外部環境データには音以外の情報が含まれる。外部環境データ取得部200dは、本発明における環境データ取得部に該当する。このような外部環境データ取得部200dは、例えば、USB(Universal Serial Bus)、又は、ネットワークインタフェース等の通信インタフェースである。
 また、図8に示すように、外部環境データ取得部200dは、ネットワークに接続されたサーバー40bを介して外部環境データを取得してもよい。この場合、外部環境データ取得部200dは、サーバー40bから、例えば、天気情報(気温データ、湿度データ等)、又は地図情報(緯度及び経度データ)等を取得する。ネットワークとは、具体的には、LAN(Local Area Network)、WAN(Wide Area Network)等である。
 なお、ネットワークを介したときの外部環境データの取得先は、サーバー40bに限定されない。具体的には、外部環境データ取得部200dは、ネットワークを介して接続されたセンサーから外部環境データを取得してもよい。例えば、外部環境データの取得先は、端末20を屋内に設置し、温度計(センサーの一例である)を屋外に設置する。このとき、温度計は、取得したデータを、無線LANを介して端末20に送信する。
 音処理装置1bの比較部200bは、取得した外部環境データと、第2の音に係る音データとを比較する。具体的には、音処理装置1bは、外部環境に対応して出力させる第2の音を変化させる出力条件(以下、外部環境-音データ間の条件と称す)を予め記憶する。そして、外部環境データが、外部環境-音データ間の条件を満たす場合に、音処理装置1bは、当該音データを出力する。例えば、セミの鳴き声の音に外部環境-音データ間の条件として、気温25度以上と設定されていた場合、音処理装置1bは、外部環境データ取得部200d(温度計)から、気温25度以上の値を取得したときにセミの鳴き声の音を出力する。
 以下、音処理装置1bの一連の動作について説明する。なお、S11からS17の処理は、音処理装置1と同様の処理のため、説明を省略する。
 外部環境データ取得部200dは、第2の音に係る音データを選択した後(図9:S15又はS16の後)、外部環境データを取得する(図9:S30)。図10に示す例では、外部環境データ取得部200dは、センサー40a及びサーバー40bから外部環境データを取得している。外部環境データ取得部200dは、取得した外部環境データを比較部200bに出力する。図10に示す例では、外部環境データ取得部200dは、外部環境データX及び外部環境データYを比較部200bに出力している。
 次に、比較部200bは、外部環境データと、外部環境-音データ間の条件とを比較する(図9:S31)。例えば、図10に示す例において、音データAがセミの鳴き声の音データである場合、クリエイターは、外部環境音データ間の条件に季節:夏と設定する。そして、音処理装置1bは、外部環境データ取得部200dから取得した情報(具体的には、サーバーのカレンダー情報等である)を基に、季節:夏かどうかを判断する。
 外部環境データと外部環境-音データ間の条件とが一致する場合(図9:S31 Yes)、比較部200bは、当該外部環境データに対応する音データを選択する(図9:S32)。例えば、図10において、外部環境データXとして季節:夏というデータを取得し、且つ、音データAの外部環境音データ間の条件に季節:夏と設定されていた場合は、比較部200bは、音データAを選択する。
 一方、外部環境データと外部環境-音データ間の条件とが一致しない場合(図9:S31 No)、比較部200bは、当該外部環境データに対応する音データを選択しない(図9:S33)。例えば、図10において、外部環境データYとして気温:25度というデータを取得し、且つ、音データCの外部環境音データ間の条件に気温:15度以下と設定されていた場合は、比較部200bは、音データCを選択しない。
 次に、比較部200bは、選択された音データを再生部200cへ出力する(図9:S17)。図10に示す例では、比較部200bは、音データAを、再生部200cへ出力している。なお、比較部200bが、選択された音データを再生部200cへ出力した後の処理は、音処理装置1と同様であるため説明を省略する。
 以上の構成により、音処理装置1bは、ユーザが違和感なくより没入感を更に高めて音を聞くことができる音の処理を可能とする。具体的には、音処理装置1bは、外部の環境の変化に応じて音データを出力するか否かを切り替えることができる。そのため、外部の環境に調和しない音データが出力される可能性が低下する。以下、音データに川の音のデータが含まれている場合を例に説明する。この場合、比較部200bは、外部環境データ取得部200dから端末20の周囲の地図情報を取得することによって、端末20の周囲に川があるか否か(取得した地図内に川があるか否か)を判断する。地図内に川があった場合、音処理装置1bは、ユーザの近くに川があると判断する。そして、音処理装置1bは、川の音を重複させないために、川の音の音データを出力しない。また、ユーザの移動によって、取得した地図情報に川がある状態から川のない状態に変化した場合、音処理装置1bは、ユーザの近くに川がないと判断する。そして、音処理装置1bは、川の音の不足を防ぐために、川の音の音データを出力する。従って、音処理装置1bによって、仮想空間の音と、現実空間の音とで必要な音を過不足なくユーザに聞かせることが可能となる。従って、音処理装置1bの場合は、ユーザに違和感を与える可能性が更に低い。結果、ユーザの没入感の低下を更に防ぐことが可能となる。
 (第4の実施形態)
 以下、第4の実施形態に係る音処理装置1cの構成について、図を参照して説明する。図11は、第4の実施形態に係る音処理装置1cの動作の一例を示すフローチャートである、図12は、第4の実施形態に係る音処理装置1cにおける音データの移動の一例を示した図である。
 図12に示すように、音処理装置1cのCPU200は、特定音消去部200eを備える点で、音処理装置1のCPU200と異なる。また、図11に示すように、音処理装置1cは、環境音データの消去条件を取得する点で音処理装置1と異なる。また、音処理装置1cは、消去条件と一致する環境音があるかを比較する点で、音処理装置1と異なる。なお、図12において、消去条件と一致した環境音に含まれる音源を円で囲んでいる。
 特定音消去部200eは、環境音に特定の音が含まれている場合に、当該特定の音の消去を行う。例えば、特定の音とは、車のエンジン音である。すなわち、音処理装置1cは、ヘッドフォン30の外部から侵入する音に特定の音(例えば、車のエンジン音)が含まれている場合に、外部から侵入してきた特定の音の消去を行う。例えば、消去対象の特定の音として車のエンジン音が設定された場合に、音処理装置1cは、車のエンジン音を消去する動作を行う。特定の音の消去は、例えば、当該特定の音と逆の位相を持つ音をヘッドフォン30から出力することにより行う。
 音処理装置1cのROM201は、特定の音を消すための条件が設定された消去条件を記憶する。例えば、消去条件に車のエンジン音と設定した場合、音処理装置1cは、消去対象の特定の音として車のエンジン音を消去する動作を行う。消去条件は、予め端末20に記憶される。
 以下、音処理装置1cの一連の動作について説明する。なお、S11からS16の処理は、音処理装置1と同様の処理のため、説明を省略する。
 特定音消去部200eは、第2の音に係る音データを選択した後(図11:S15又はS16の後)、消去条件を取得する(図11:S40)。図10に示す例では、特定音消去部200eは、消去条件をROM201から取得している。
 次に、特定音消去部200eは、消去条件と一致する環境音はあるか(重複する音はあるか)の比較を行う(図11:S41)。図12に示す例では、特定音消去部200eは、解析結果Dに含まれる音源d,eのそれぞれと、消去条件との比較を行っている。
 消去条件と一致する音源がある場合(図11:S41 Yes)、特定音消去部200eは、消去条件と一致する音源を消去するキャンセル用データを作成する(S42)。図12に示す例では、特定音消去部200eは、消去条件と一致した音源dを基に、キャンセル用データCDを作成している。消去条件と一致する環境音データがない場合(図11:S41 No)、特定音消去部200eは、キャンセル用データを作成しない。
 次に、特定音消去部200eは、キャンセル用データを再生部200cに出力する。図12に示す例では、特定音消去部200eは、キャンセル用データCDを、再生部200cに出力している。
 次に、再生部200cは、比較部200bから入力した第2の音に係る音データ及び特定音消去部200eから入力したキャンセル用データCDを音信号としてヘッドフォン30へ出力する(図11:S43)。図12に示す例では、再生部200cは、音データA及び音データC(比較部200bから入力)をそれぞれ音信号A2及び音信号C2として、且つ、キャンセル用データCD(特定音消去部200eから入力)をキャンセル用信号CD2としてヘッドフォン30へ出力している。
 最後に、ヘッドフォン30は、音信号A2を基にした音A3、音信号C2を基にした音C3及びキャンセル用信号CD2を基にしたキャンセル用の音CD3を出力する。
 以上の構成により、音処理装置1cは、ユーザが違和感なくより没入感を更に高めて音を聞くことができる音の処理を可能とする。具体的には、音処理装置1cは、外部の環境音にノイズ音が含まれている場合に、当該ノイズ音を消去することが可能である。例えば、クリエイターは、音処理装置1cに、消去する特定音として車のエンジン音(ノイズ音の一例である)を設定する。この場合、音処理装置1cは、外部の環境音として車のエンジン音が含まれていると判断した場合に、当該車のエンジン音を消去する。従って、ユーザは、ノイズとなる車のエンジン音のない状態で、コンテンツ体験が可能となる。このように、音処理装置1cによってユーザは、ノイズにより没入感を阻害されることがなくなる。従って、音処理装置1cの場合は、ユーザに違和感を与える可能性が更に低い。結果、ユーザの没入感の低下を更に防ぐことが可能となる。
 また、消去条件は予めコンテンツ作成者により作成されていてもよい。この場合、クリエイターの作成した消去条件が、ROM201に記憶される。そして、特定音消去部200eは、クリエイターの作成した消去条件を基に、環境音から特定の音の消去を行う。この場合、クリエイターの意図しない環境音はユーザに聞こえない。従って、ユーザは、違和感なくより没入感を高めて音を聞くことができる。
 (変形例1)
 以下、変形例1について説明する。変形例1に係る音処理装置1、1a、1b及び1cを用いることによって、例えば、旅行先(以下、現地と称す)で音源の音を記録し、記録した音源の音を基にしたコンテンツを持ち帰ることが可能である。例えば、ユーザが旅行において特定のコンテンツ(例えば、南国風の音のコンテンツ)を聴きながら特定の場所(例えば、ハワイのワイキキビーチ)に行った場合に、音処理装置1、1a、1b及び1cは、ワイキキビーチの波の音を記録する。そして、音処理装置1は、次回、同じ南国風の音のコンテンツを再生する場合に、予め記録されていた波の音データに変えて、記録したワイキキビーチの波の音データを再生する。この様にして、音処理装置1、1a、1b及び1cは再生させる音を切り替えることが可能である。これにより、音処理装置1、1a、1b及び1cは、ユーザに対して、特定の場所へ赴く動機を提起させることができる。
 (変形例2)
 以下、変形例2について説明する。変形例2において、音処理装置1、1a、1b及び1cは、複数の音源の音を混合した音から、複数の音データを分離することによって、マルチトラックのコンテンツデータを取得する。変形例2における音処理装置1、1a、1b及び1cは、例えば、複数の音源の音を混合した音を、公知の音源分離技術によって複数の音データに分離する。この場合、公知の音源分離技術とは、例えば、BSS(Blind Signal Separation)、又は、機械学習により特定の音源を分離する非線形フィルタ等である。
 (その他の変形例)
 端末20(第2の音取得部)は、第2の音に係る音像定位の処理において用いられる定位処理データを更に取得してもよい。定位処理データとは、例えば、仮想空間(3次元空間)における音源とユーザとの位置関係の情報である。これにより、クリエイターの意図した所定の位置に音が定位する音像定位処理を行うことが可能である。例えば、クリエイターが、ユーザの位置に対して右方向に川の音を定位させたい場合、クリエイターは、川の音の音データの位置情報をユーザに対して右方向に設定する。この場合、ユーザは、自身の右方向に川が位置するかのように川の音を聞くことができる。これにより、ユーザは、周囲の物体の方向等を自然に認識できる。従って、ユーザは、違和感なくより没入感を高めて音を聞くことができる。
 なお、第2の音がマルチトラックである場合、端末20は、トラック(音データ)の切り替え条件を取得してもよい。切り換え条件は、クリエイターによって端末20を介して予め設定される。この場合、音処理装置1、1a、1b及び1cは、切り換え条件で指定されたトラックの音データを再生する。切り換え条件による切り換えとは、例えば、環境音に特定の音が含まれていた場合に、特定の音をトリガーとした音データの切り替えである。以下、音処理装置1、1a、1b及び1cが、(1)且つ(2)の条件を持つ場合を例に説明する。
 (1)音処理装置1、1a、1b及び1cが、波の音の音データ及び船の汽笛の音の音データを記録している場合。
 (2)音処理装置1、1a、1b及び1cが、現実空間の波の音を取得した場合に波の音の音データから船の汽笛の音の音データへ切り換えるという切り換え条件を持つ場合。
 (1)且つ(2)の条件において、音処理装置1、1a、1b及び1cは、現実空間に波の音がない場合は、波の音の音データを再生する。すなわち、ユーザには仮想空間の波の音が聞こえる。しかし、音処理装置1、1a、1b及び1cが、現実空間の波の音を取得した場合は、切り換え条件に一致するため、音データが船の汽笛の音に切り替わる。結果、ユーザには、現実空間の波の音及び仮想空間の船の汽笛の音が聞こえる。すわなち、音処理装置1、1a、1b及び1cは、可能な限り現実空間の音を利用しつつ仮想空間の音を利用するので、ユーザの没入感を高めることができる。これにより、音処理装置1、1a、1b及び1cは、没入感を高めるための演出をユーザに意識させずに行うことができる。このように、複数の第2の音を切り替える演出を行うことによって、音処理装置1、1a、1b及び1cは、再生する場面に応じた音を出力させることが可能である。従って、ユーザは、違和感なくより没入感を高めて音を聞くことができる。なお、本変形例において、現実空間の音は、第1の音に対応し、且つ、仮想空間の音は、第2の音に対応する。
 なお、マイク10は、端末20に有線を介して接続されていてもよい。この場合、端末20及びヘッドフォン30が、マイク10を有していなくても、端末20は、有線を介して接続されたマイク10により環境音を取得できる。
 なお、端末20は、音データを編集できるアプリケーションプログラムを備えていてもよい。この場合、例えば、ユーザが、端末20を操作することによって、リアルタイムに音データを編集することが可能である。
 なお、音処理装置1、1a、1b及び1cは、第1の比較において、第1の音の種類と第2の種類とが一致した場合、第1の音と一致した種類の第2の音に係る音データを再生せず、取得した第1の音をヘッドフォン30に出力させてもよい。この場合、ヘッドフォン30は、自装置のマイクで取得した音を出力するヒアスルーモードを備えている。ヒアスルーモードは、ヘッドフォン30のマイクで取得した音をヘッドフォン30のスピーカーから出力する。つまりこの場合、ヘッドフォン30は、自装置のマイクで取得した環境音と環境音に一致しない種類の第2の音とを出力する。以下、図13を参照して詳細に説明する。図13は、第1の音の出力及び音データの再生の一例を示す図である。例えば、図13に示すように、マイク10がセミの鳴き声及び船の汽笛の音を取得した場合、ヘッドフォン30は、自装置のマイクの取得したセミの鳴き声及び船の汽笛の音を出力する。このとき、図13に示すように、第2の音に係る音データにセミの鳴き声が含まれていた場合、セミの鳴き声である音データは再生されない。そして、図13に示すように、第1の音と一致しない音データである川の音及び車のエンジン音は再生される。これにより、ユーザは、クリエイターの意図した音を聞くことができる。
 なお、ヘッドフォン30が、ヒアスルーモードを備えている場合、音処理装置1、1a、1b及び1cは、音データの再生を必ずしもしなくてよい(音データを基にした音がユーザに聞こえなくてもよい)。以下、図14を参照して詳細に説明する。図14は、音処理装置1、1a、1b及び1cが音データの再生をしない場合の一例を示す図である。図14に示すように、音データとしてセミの鳴き声のみが設定されている場合、且つ、第1の音としてセミの鳴き声が取得された場合は、音処理装置1、1a、1b及び1cは、音データのセミの鳴き声を再生しない。この場合、音処理装置1、1a、1b及び1cは、現実空間のセミの鳴き声のみを出力する。従って、例えば、現実空間のセミの鳴き声が30秒間取得され続けた場合、音処理装置1、1a、1b及び1cは、音データの再生を30秒間行わない。そして、現実空間のセミの鳴き声が、取得されなくなったときに、音処理装置1、1a、1b及び1cは、音データの再生を行う。
 また、音処理装置1、1a、1b及び1cは、ヘッドフォン30に対して、マイク10で取得した第1の音のうち第2の音に一致しない種類の音源の音を消去させてもよい。以下、図15を参照して詳細に説明する。図15は、第1の音のうち、第2の音に一致しない種類の音源の音の消去の一例を示す図である。例えば、マイク10がセミの鳴き声、船の汽笛の音及び飛行機のエンジン音を取得した場合、且つ、第2の音に係る音データにセミの鳴き声が含まれていた場合、音処理装置1、1a、1b及び1cは、ヘッドフォン30に対して船の汽笛の音及び飛行機のエンジン音(第2の音に一致していない音)を消去させる処理を行わせてもよい。あるいは、音処理装置1、1a、1b及び1cは、マイク10で取得した音から船の汽笛の音及び飛行機のエンジン音を消去した後の音信号をヘッドフォン30に送信し、ヘッドフォン30に出力させてもよい。これにより、ヘッドフォン30が出力する環境音は、セミの鳴き声のみとなる。従って、音処理装置1、1a、1b及び1cは、クリエイターの意図した音データを再生しつつ、クリエイターの意図した環境音のみを出力することができる。結果、ユーザは、さらにクリエイターの意図した音を聞くことができる。なお、音処理装置1、1a、1b及び1cが、特定音消去部200eを備えている場合、特定音消去部200eによって船の汽笛の音及び飛行機のエンジン音を消去してもよい。
 本実施形態の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。更に、本発明の範囲には、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
1,1a,1b,1c…音処理装置
10…マイク
20…端末
200…CPU
200a…解析部
200b…比較部
200c…再生部
200d…外部環境データ取得部
200e…特定音消去部
201…ROM
202…RAM
203…出力I/F
30…ヘッドフォン
40a…センサー
40b…サーバー

Claims (13)

  1.  第1の音を取得し、
     予め作成された音データにより構成される第2の音を取得し、
     前記第1の音の解析を行い、
     前記第1の音の解析結果に基づいて、前記第1の音と一致しない種類の前記第2の音に係る前記音データを再生し、
     再生した前記音データに係る音信号を出力する、
     音の処理方法。
  2.  前記第2の音に係る音データの再生条件を取得し、
     前記第1の音の解析結果と前記再生条件との比較結果に基づいて、前記再生条件を満たす種類の前記第2の音に係る前記音データを再生し、
     再生した前記音データに係る音を出力する、
     請求項1に記載の音の処理方法。
  3.  前記解析結果は、取得された前記第1の音に含まれる第1音源の種類を示す第1音源情報を含み、
     前記音データは、第2音源の種類を示す第2音源情報が予め付加されたデータを含む、
     請求項1又は2に記載の音の処理方法。
  4.  前記第1の音の種類と前記第2の音の種類とが一致した場合、前記第1の音と一致した種類の前記第2の音に係る音データを再生せず、取得した前記第1の音を出力する、
     請求項1から3のいずれかに記載の音の処理方法。
  5.  前記第1の音のうち前記第2の音に一致しない種類の第1音源の音を消去する、
     請求項4に記載の音の処理方法。
  6.  第3音源の種類を示す第3音源情報と前記第3音源の特徴量との関係を示すデータセットを学習データとして学習済の学習済モデルを用意し、
     前記第1の音の解析において、
      前記第1の音に含まれる前記特徴量を算出し、
      前記特徴量の算出の後に、前記特徴量を前記学習済モデルに入力することによって、前記特徴量に対応する前記第3音源情報を、前記第1の音の解析結果として出力する、
     請求項1から5のいずれかに記載の音の処理方法。
  7.  周囲の環境データを取得し、
     取得した前記環境データに基づいて前記第2の音に係る音データを再生する処理を行う、
     請求項1から6のいずれかに記載の音の処理方法。
  8.  前記第1の音が特定の音を含む場合に、前記特定の音の消去を行う、
     請求項1から7のいずれかに記載の音の処理方法。
  9.  予め作成された、特定の音を消すための消去条件を取得し、
     前記消去条件に基づいて、前記第1の音から前記特定の音の消去を行う、
     請求項1から7のいずれかに記載の音の処理方法。
  10.  前記第2の音に係る音像定位の処理において用いられる定位処理データを取得する、
     請求項1から9のいずれかに記載の音の処理方法。
  11.  前記第2の音はマルチトラックであり、
     前記マルチトラックの切り換え条件を取得し、
     前記切り換え条件を満たす種類の前記第2の音に係る音データを再生する、
     請求項1から10のいずれかに記載の音の処理方法。
  12.  第1の音を取得する第1の音取得部と、
     予め作成された音データにより構成される第2の音を取得する第2の音取得部と、
     前記第1の音の解析を行う解析部と、
     前記第1の音の解析結果に基づいて、前記第1の音と一致しない種類の前記第2の音に係る前記音データを再生する再生部と、
     前記再生部で再生した前記音データに係る音信号を出力する出力部と、
    を備える、
     音処理装置。
  13.  前記音処理装置は、音を出力するヘッドフォンと接続されており、
     前記第1の音の種類と前記第2の音の種類とが一致した場合、前記再生部は、前記第1の音と一致した種類の前記第2の音に係る音データを再生せず、且つ、前記音処理装置は、取得した前記第1の音を前記ヘッドフォンに出力させる、
     請求項12に記載の音処理装置。
PCT/JP2022/000219 2021-02-18 2022-01-06 音の処理方法及び音処理装置 WO2022176421A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US18/366,865 US20230386495A1 (en) 2021-02-18 2023-08-08 Sound processing method, sound processing apparatus and sound processing system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-024161 2021-02-18
JP2021024161A JP2022126224A (ja) 2021-02-18 2021-02-18 音の処理方法及び音処理装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/366,865 Continuation US20230386495A1 (en) 2021-02-18 2023-08-08 Sound processing method, sound processing apparatus and sound processing system

Publications (1)

Publication Number Publication Date
WO2022176421A1 true WO2022176421A1 (ja) 2022-08-25

Family

ID=82930617

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/000219 WO2022176421A1 (ja) 2021-02-18 2022-01-06 音の処理方法及び音処理装置

Country Status (3)

Country Link
US (1) US20230386495A1 (ja)
JP (1) JP2022126224A (ja)
WO (1) WO2022176421A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019139175A (ja) * 2018-02-15 2019-08-22 株式会社Jvcケンウッド 周囲環境音キャンセル装置、片耳用イヤホン、通信装置、周囲環境音キャンセル方法
WO2021006065A1 (ja) * 2019-07-11 2021-01-14 ソニー株式会社 情報処理システム、情報処理方法、及び記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019139175A (ja) * 2018-02-15 2019-08-22 株式会社Jvcケンウッド 周囲環境音キャンセル装置、片耳用イヤホン、通信装置、周囲環境音キャンセル方法
WO2021006065A1 (ja) * 2019-07-11 2021-01-14 ソニー株式会社 情報処理システム、情報処理方法、及び記録媒体

Also Published As

Publication number Publication date
JP2022126224A (ja) 2022-08-30
US20230386495A1 (en) 2023-11-30

Similar Documents

Publication Publication Date Title
US20220159403A1 (en) System and method for assisting selective hearing
Breebaart et al. Spatial audio processing: MPEG surround and other applications
US20190139530A1 (en) Audio scene apparatus
US5982902A (en) System for generating atmospheric quasi-sound for audio performance
KR101480258B1 (ko) 미리 계산된 참조 곡선을 이용한 입력 신호 분해 장치 및 방법
JP3521900B2 (ja) バーチャルスピーカアンプ
KR101764175B1 (ko) 입체 음향 재생 방법 및 장치
US11317233B2 (en) Acoustic program, acoustic device, and acoustic system
CN105409247A (zh) 用于音频信号处理的多声道直接-周围分解的装置及方法
US20230164509A1 (en) System and method for headphone equalization and room adjustment for binaural playback in augmented reality
JP2005252467A (ja) 音響再生方法、音響再生装置および記録メディア
CN111654806B (zh) 音频播放方法、装置、存储介质及电子设备
WO2022176421A1 (ja) 音の処理方法及び音処理装置
KR101725952B1 (ko) 사용자의 hrtf 정보를 이용하여 n채널의 음원을 사용자에 최적화된 바이노럴 음원으로 다운 믹스하는 방법 및 시스템
CN113039815B (zh) 声音生成方法及执行其的装置
CN1934640B (zh) 用于写入到音频cd的设备和方法以及音频cd
JP7131550B2 (ja) 情報処理装置および情報処理方法
JP2010197882A (ja) 音声情報選択装置、音声情報選択方法、音声情報選択プログラムおよび記録媒体
Rudzki et al. SALTE Pt. 2: On the Design of the SALTE Audio Rendering Engine for Spatial Audio Listening Tests in VR
Algazi et al. Motion-tracked binaural sound for personal music players
CN114598985B (zh) 音频处理方法及装置
Picinali et al. Acquisition of spatial knowledge of architectural spaces via active and passive aural explorations by the blind
US20230104111A1 (en) Determining a virtual listening environment
WO2020128552A1 (ja) 音声認識装置、音声認識装置の制御方法、コンテンツ再生装置、及びコンテンツ送受信システム
JPH07123499A (ja) 音響信号処理装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22755747

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22755747

Country of ref document: EP

Kind code of ref document: A1