WO2012070655A1 - マスカ音生成装置、マスカ音信号を記憶した記憶媒体、マスカ音再生装置、およびプログラム - Google Patents

マスカ音生成装置、マスカ音信号を記憶した記憶媒体、マスカ音再生装置、およびプログラム Download PDF

Info

Publication number
WO2012070655A1
WO2012070655A1 PCT/JP2011/077222 JP2011077222W WO2012070655A1 WO 2012070655 A1 WO2012070655 A1 WO 2012070655A1 JP 2011077222 W JP2011077222 W JP 2011077222W WO 2012070655 A1 WO2012070655 A1 WO 2012070655A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound signal
signal sequence
sound
masker
shift
Prior art date
Application number
PCT/JP2011/077222
Other languages
English (en)
French (fr)
Inventor
高史 山川
舞 小池
雅人 秦
寧 清水
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Priority to EP11843925.6A priority Critical patent/EP2645361A4/en
Priority to CN201180056474.2A priority patent/CN103238179B/zh
Priority to US13/989,775 priority patent/US9390703B2/en
Publication of WO2012070655A1 publication Critical patent/WO2012070655A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/1752Masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/40Jamming having variable characteristics
    • H04K3/45Jamming having variable characteristics characterized by including monitoring of the target or target signal, e.g. in reactive jammers or follower jammers for example by means of an alternation of jamming phases and monitoring phases, called "look-through mode"
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/40Jamming having variable characteristics
    • H04K3/46Jamming having variable characteristics characterized in that the jamming signal is produced by retransmitting a received signal, after delay or processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/80Jamming or countermeasure characterized by its function
    • H04K3/82Jamming or countermeasure characterized by its function related to preventing surveillance, interception or detection
    • H04K3/825Jamming or countermeasure characterized by its function related to preventing surveillance, interception or detection by jamming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/80Jamming or countermeasure characterized by its function
    • H04K3/84Jamming or countermeasure characterized by its function related to preventing electromagnetic interference in petrol station, hospital, plane or cinema
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K2203/00Jamming of communication; Countermeasures
    • H04K2203/10Jamming or countermeasure used for a particular application
    • H04K2203/12Jamming or countermeasure used for a particular application for acoustic communication

Definitions

  • the present invention relates to a technique for generating a masker sound to prevent sound leakage.
  • the masking effect is that when two kinds of sound signals are propagated in the same space, the listener in the space can interfere with the listening of one sound (target sound) due to the presence of the other sound (masker sound). It is a phenomenon that receives. Many of this type of technology emits masker sounds toward a region where a speaker who is the source of the target sound is present and a region adjacent to the region through a wall or a partition.
  • Patent Document 1 discloses a technique for generating a masker sound that hinders hearing by processing a sound waveform of a person's speech as a target sound.
  • a voice signal indicating a person's voice is divided into a plurality of segments that are sections corresponding to one phoneme.
  • segmented segment at random is reproduced
  • the sound obtained by this technology is like a human voice, but its meaning cannot be understood. By using such a sound as a masking sound, it is possible to generate a higher masking effect than when using a sound having a wide band spectrum such as an environmental sound.
  • An object of the present invention is to reduce a sense of discomfort given to a person in the space while ensuring a high masking effect in the space.
  • the present invention includes acquisition means for acquiring a sound signal sequence indicating sound, and superimposing means for extracting a plurality of sound signal sequences in different sections in the sound signal sequence and superimposing the extracted sound signal sequences on a time axis. And a generating unit that generates a masker sound signal from the sound signal sequence acquired by the acquiring unit and processed by the superimposing unit.
  • the sound signal sequence that has undergone the processing of the superimposing means is a superposition of the sound signal sequences of different sections in the original sound signal sequence. Although it is a sound signal string, when attention is paid to each section of a different section, the order of phonemes in the section is the same as the original sound signal string.
  • the masker sound obtained by the present invention can generate the same masking effect as a masker sound obtained by randomly rearranging sound signals indicating human speech for each section corresponding to one phoneme. Despite this, the listener does not feel uncomfortable. Therefore, according to the present invention, it is possible to reduce a sense of discomfort given to persons in the space while ensuring a high masking effect in the space.
  • the superimposing means replaces the sound signal sequence up to the reference position in the sound signal sequence and the sound signal sequence after the reference position with respect to the sound signal sequence to be processed.
  • a shift addition means for outputting a sound signal sequence obtained by adding the sound signal sequence subjected to the shift processing and the original sound signal sequence before being subjected to the shift processing.
  • the masker sound obtained by this aspect can generate the same masking effect as a masker sound obtained by randomly rearranging sound signals indicating human speech for each section corresponding to one phoneme. , Does not give the listener a sense of incongruity. Therefore, the uncomfortable feeling given to the person in the space can be reduced while ensuring a high masking effect in the space.
  • the superimposing means is a sound signal sequence before a different reference position in the sound signal sequence and a sound signal sequence after the reference position for the sound signal sequence to be processed.
  • Shift adding means for performing a plurality of shift processes, which is a process of replacing the two, and outputting a sound signal sequence obtained by adding a plurality of sound signal sequences obtained by the plurality of shift processes.
  • the plurality of shift means perform the shift process with different reference positions from each other, the number of phonemes within a predetermined time included in the masker sound signal can be increased, and the sound signal as the material can be further increased. A disturbing masker sound can be generated.
  • the superimposing unit includes a division addition unit that divides and adds a sound signal sequence to be processed into a sound signal sequence having a shorter time length on the time axis, and the division addition unit and the A sound signal sequence that has undergone each process of the shift addition means is output.
  • the masker sound obtained by this aspect can generate the same masking effect as a masker sound obtained by randomly rearranging sound signals indicating human speech for each section corresponding to one phoneme. , Does not give the listener a sense of incongruity. Therefore, the uncomfortable feeling given to the person in the space can be reduced while ensuring a high masking effect in the space.
  • the superimposing means divides the sound signal sequence to be processed into sound signal sequences having a shorter time length on the time axis and adds the divided addition means, and the processing of the divided addition means
  • a plurality of shift means each for performing a shift process that is a process of replacing a sound signal sequence before a different reference position in the sound signal sequence and a sound signal sequence after the reference position in the sound signal sequence that has passed
  • an adding means for adding the sound signal sequences that have undergone the processing of the plurality of shifting means.
  • the masker sound generation device includes means for avoiding the processing of the division addition means.
  • the processing of the division adding means has an effect of increasing the number of phonemes included in the sound signal sequence within a predetermined time, while shortening the time length of the sound signal sequence.
  • the superimposing means has a sound signal sequence before a different reference position in the sound signal sequence and a sound signal after the reference position for the sound signal sequence to be processed.
  • a plurality of shift means each for performing a shift process that is a process of replacing the columns, and each sound signal sequence that has undergone the processes of the plurality of shift means is a processing target, and each sound signal sequence that is a processing target is a plurality of processing
  • a plurality of reversing means for generating a sound signal string obtained by reversing the sound signal string in each section divided into sections and reversing the arrangement order, and each sound signal string that has undergone the processing of the plurality of reversing means.
  • Adding means for adding is
  • the plurality of reversing means perform front / reverse reversal of the sound signal sequence in each section by making the boundaries of the sections in the sound signal sequence different from each other. According to this aspect, it is possible to further disturb the masker sound signal with respect to the original sound signal as the material.
  • FIG. 1 is a diagram showing a configuration of a masking system including a masker sound generation device 10 according to the first embodiment of the present invention.
  • the microphone 11 in the masker sound generation apparatus 10 collects the reading sound and outputs an analog signal indicating the waveform.
  • the A / D conversion unit 12 converts the analog signal output from the microphone 11 into a digital sound signal Xn between the time when the reader starts reading the sentence and finishes the reading, and the converted sound signal Xn Is stored in the storage unit 13.
  • the writing control unit 15 stores the sound signal Zn supplied from the control unit 14 and identification information In unique to the sound signal Zn in the storage medium 30.
  • the control unit 14 includes a CPU 21, a RAM 22, and a ROM 23.
  • the CPU 21 executes the masker sound generation program 24 stored in the ROM 23 while using the RAM 22 as a work area.
  • Generation Function This is a function for generating a masker sound signal Zn from each sound signal Xn acquired from the storage unit 13 and outputting the generated sound signal Zn to the writing control unit 15.
  • FIG. 2 is a flowchart showing the operation of this embodiment.
  • Step S10 in FIG. 2 is a process executed by the CPU 21 by the function of the acquisition function described above, and steps S11 to S23 are processes executed by the CPU 21 by the function of the generation function described above.
  • the CPU 21 removes the sound signal of the silent section and the sound signal of the sudden sound section from the sound signal Xn of the time length T1 in the RAM 22, and the remaining sound signal A sound signal X 11 -n for a time length T1 ′ (T1 ′ ⁇ T1) connecting the sections is generated (S11).
  • HPF High Pass Filter
  • the CPU 21 performs an overlay process on the sound signal X 12 -n (S13).
  • the superimposing process is a process of extracting sound signals in different sections in the sound signal X 12 -n, superimposing the extracted sound signals on the time axis, and outputting the superimposed sound signal on the time axis. More specifically, in this superposition process, the CPU 21 causes the sound signal X 12 -n corresponding to the time length T1 ′ in the RAM 22 to the sound signal corresponding to the first time length T1 ′ / 2 and the second time length T1. Take out the sound signal of '/ 2 minutes.
  • the sound signal X 13 -n which is the result of the superposition process, is obtained by superimposing the sound signals of time length T1 ′ / 2, which are obtained by superimposing the first and second half sound signals with their head and tail positions aligned.
  • the CPU 21 performs a reverse rotation process (S14).
  • the CPU 21 sets the start point of the sound signal X 13 -n for the time length T1 ′ / 2 in the RAM 22 as the start point of the first section D 1 and starts from the start point. a point after only 2t + T2 to the end point of the interval D 1, cut out sound signal XD 1 in the interval D 1.
  • the CPU 21 sets the point after the time t + T2 from the start point in the sound signal X 13 -n (that is, the point before the end point of the first section D 1 by the time t) as the start point of the second section D 2 .
  • CPU 21 is the third section D 3 in the sound signal XD 3, 4-th sound signal in interval D in 4 XD 4 ... L-1 th interval D L-1 in the sound signal XD L ⁇ 1 and the sound signal XD L in the Lth section D L are cut out in order.
  • the CPU 21 performs normalization processing (S15).
  • the value RMSA and the individual effective value RMSD i for each interval D i are calculated.
  • the window function W is for gently attenuating each sound signal XD ′′ i on the start end side and the end end side to smoothly combine the sound signal XD ′′ i and the sound signals in the preceding and following sections.
  • the CPU 21 performs shift addition processing (S17).
  • the shift addition process with respect to the sound signal X 16 -n obtained as a result of the cross-fade process, the sound signal before the reference position of the sound signal X 16 -n and the sound signal after the reference position Is a process of adding the sound signal that has been subjected to the shift process and the original sound signal X 16 -n that has not been subjected to the shift process.
  • the CPU 21 selects the reference position Pa from the sample data from the start end to the end in the sound signal Xa 16 -n.
  • the CPU 21 selects a reference position Pb different from the reference position Pa of the sound signal Xa 16 -n from the sample data from the start end to the end of the sound signal Xb 16 -n.
  • a sample from the beginning of the sound signal Xb 16 -n to the end from the reference position Pb of the sound signal Xb 16 -n before sample data shifted to the rearward moves the sample data to the reference position Pb at the rear
  • the connected data is defined as a sound signal Xb 16 '-n.
  • the CPU 21 adds the sound signals X 16 -n, Xa 16 ′ -n, and Xb 16 ′ -n with their start and end aligned, and the addition result is the processing result of the shift addition process. It is assumed that the sound signal X 17 -n.
  • the CPU 21 performs a speech speed conversion process (S18).
  • the CPU 21 expands the time axis of the sound signal X 17 -n for the time length T1 ′ / 2 written in the RAM 22 as the processing result of the shift process, and sets the time length T3 (T3> T1 ′). / 2) sound signal X 18 -n.
  • Patent Document 2 for a specific procedure of the speech speed conversion process.
  • the CPU 21 performs LPF processing for attenuating the band of the frequency fc1 or higher and HPF processing for attenuating the band of the frequency fc2 or lower with respect to the sound signal X 18 -n.
  • the processing result is set as a sound signal X 19 -n (S19).
  • the CPU 21 performs time length adjustment processing on the sound signal X 19 -n (S20).
  • the CPU 21 performs the sound signal X 20 corresponding to the time length T4 (T4 ⁇ T3) described above from the sound signal X 19 -n written in the RAM 22 as a result of the LPF process and the HPF process in step S18. -N is cut out.
  • the CPU 21 performs an overall level adjustment process on the sound signal X 20 -n (S21).
  • the entire sound signal X 20 -n for the time length T4 written in the RAM 22 as the processing result of the time length adjustment processing is multiplied by the correction coefficient P for level adjustment, and this multiplication result is used as a whole. It is assumed that the sound signal X 21 -n is the result of the level adjustment process.
  • the CPU 21 outputs the sound signal X 21 -n, which is the processing result of the overall level adjustment process, to the writing control unit 15 as a masker sound signal Zn (S22).
  • the write control unit 15 stores the sound signal Z-n output from the CPU 21 in the storage medium 30 attached to the write control unit 15.
  • a process of randomly rearranging sound signals indicating human speech for each section corresponding to one phoneme is not performed.
  • a series of processing from the sound signal of the human voice to the generation of the masker sound signal in this embodiment includes a superimposition process (S13) and a shift addition process (S17).
  • the reproduced sound of the sound signal obtained through a series of processes including the superimposition process (S13) and the shift addition process (S17) does not occur for every section corresponding to one phoneme.
  • the listener does not feel uncomfortable. Therefore, according to the present embodiment, it is possible to reduce a sense of discomfort given to persons in the region B while ensuring a high masking effect.
  • one type of sound signal Xn is acquired from the storage unit 13 one by one, and one type of sound signal Zn is generated from one type of sound signal Xn.
  • R (2 ⁇ R ⁇ N) types of sound signals Xn are collectively acquired from the storage unit 13, and the acquired R types of sound signals Xn are subjected to the processes of steps S11 to S21, respectively.
  • a sound signal obtained by adding R types of sound signals obtained as a result of this processing may be a masker sound signal Zn. According to this embodiment, even when there are a plurality of speakers having different voice characteristics in the region A, a high masking effect is generated in the region B corresponding to a wide range of these speakers. be able to.
  • the sound signal X-n acquired from the storage unit 13 without performing the processes of Steps S11 to S16 and Steps S18 to S21 is the processing target of the shift addition process of Step S17.
  • the sound signal obtained by this shift addition process may be a masker sound signal Zn.
  • the sound signal Xn obtained by performing only the shift addition process on the sound signal Xn of the human speech without performing the superposition process is used as the sound signal Zn of the masker sound.
  • the uncomfortable feeling given to the person in the region B can be reduced while ensuring a high masking effect.
  • the sound signal X-n acquired from the storage unit 13 is set as the processing target of the superimposition processing of step S13, and this superimposition processing is performed.
  • the sound signal obtained by the above may be a masker sound signal Zn.
  • the sound signal obtained by performing only the superposition process on the sound signal Xn of the human speech without performing the shift addition process is high even if the sound signal Zn of the masker sound is high.
  • the uncomfortable feeling given to the person in the region B can be reduced while securing the masking effect.
  • the CPU 21 converts the sound signal X 12 -n corresponding to the time length T1 ′ in the RAM 22 to the time length T1 ′ / 2 of the first half of the sound signal X 12 -n.
  • the sound signal of the minute and the sound signal of the second time length T1 ′ / 2 are taken out, and these two sound signals are overlapped with the positions of the beginning and end of each of them to overlap the sound signal of the time length T1 ′ / 2.
  • X 13 -n was produced.
  • the sound signals X 13 -n having a time length of T1 ′ / 2 may be generated by aligning the positions of the two.
  • the number of sound signals extracted from the sound signal X 12 -n does not have to be two, and three or more sound signals may be extracted and overlapped. Further, the lengths of the plurality of sound signals extracted from the sound signal X 12 -n do not have to be the same.
  • the sound signal X 12 -n for the time length T1 ′ is divided into two, that is, a sound signal shorter than the half by a time T5 (T5 ⁇ T1 ′ / 2) and a sound signal longer by a time length T5.
  • the sound signal X 13 -n may be generated by superimposing two sound signals.
  • step S17 two copies of the sound signal X 16 -n are generated, but the number of copies M of the sound signal X 16 -n may be one or three. You may do it above.
  • the number of replicas M of the sound signal X 16 -n is plural, a unique random number is generated for each of the sound signals Xa 16 -n, Xb 16 -n, Xc 16 -n.
  • the different reference positions Pa, Pb, Pc... For each of the sound signals Xa 16 -n, Xb 16 -n, Xc 16 -n.
  • a table storing data indicating a plurality of types of reference positions Pa, Pb, Pc... Is provided, and the reference positions Pa, Pb, Pc for each of the sound signals Xa 16 -n, Xb 16 -n, Xc 16 -n. ... may be selected from this table.
  • step S17 the copy of the sound signal X 16 -n is subjected to the shift process, and the sound signal subjected to the shift process and the original sound signal before the shift process are added. did.
  • step S17 the copy of the sound signal X 16 -n is subjected to a shift process, and the sound signal subjected to the shift process and the original sound signal before the shift process are added. did.
  • step S14 the sound signal X 13 -n obtained as a result of the superimposition process is divided into a plurality of sections, and the arrangement order of the sound signals in each divided section is changed back and forth. Reversed.
  • the sound signal X 13 -n overall arrangement order may be reversed front and rear.
  • the normalization process in step S15 and the crossfade process in step S16 are preferably not performed.
  • the respective processes are executed in the order of the reverse rotation process (S14), the normalization process (S15), the cross-fade combination process (S16), and the shift addition process (S17).
  • each process may be executed in the order of the shift addition process (S17), the normalization process (S15), the reverse rotation process (S14), and the crossfade coupling process (S16).
  • FIG. 8 is a flowchart showing the operation of the masker sound generating apparatus according to the second embodiment of the present invention.
  • step numbers Sxx common to those used in the first embodiment are used for the processes corresponding to those in the first embodiment (FIG. 2).
  • the masker sound generation program 24 in the first embodiment includes an overlay process (S13) and a shift addition process (S17) as shown in FIG.
  • Each of these processes is a process of extracting sound signal sequences in different sections in the sound signal sequence to be processed, and superimposing the extracted sound signal sequences on the time axis, and as a whole the original sound signal If the sound signal sequence is disturbed with respect to the sequence and attention is paid to each segment in a different segment, the order of the phonemes in the segment is basically the same as the original signal sequence. Play.
  • the first difference between the present embodiment and the first embodiment is that in the present embodiment, the superposition process (S13) of these two types of superposition processes is skipped according to the operation of the operation unit or the like. It is in the point that was able to be.
  • a sound signal string that is half the length of the sound signal string after the LPF process and the HPF process is shown in FIG. 8 to be processed by macro processing M_1 to M_J shown in FIG.
  • the sound signal sequence after the LPF process and the HPF process is the processing target of the macro processes M_1 to M_J shown in FIG.
  • the masker sound signal generated in the present embodiment has a period depending on the length of the sound signal sequence to be processed by the macro processes M_1 to M_J. In order not to give a sense of incongruity to the listener, it is preferable that the period of the masker sound signal is long, and for this purpose, it is preferable that the duration of the sound signal Xn that is the source of the masker sound signal is long. However, it is difficult to extend the recording time, and the duration of the sound signal Xn used for generating the masker sound signal may be shortened. In such a case, it is not preferable to execute the superimposition process (S13) because the cycle of the generated masker sound signal is shortened. Therefore, in the present embodiment, when the duration of the sound signal Xn used for generating the masker sound signal is short, the superimposition process (S13) is skipped to avoid shortening the masker sound signal cycle. I was able to do that.
  • the shift process (S17 ′) which is a part of the shift addition process (S17) of the first embodiment, is executed in each of the macro processes M_1 to M_J, and the results of the macro processes M_1 to M_J are obtained.
  • a masker sound signal is generated from the sum.
  • the macro processing M_1 to M_J and the addition processing of the processing results serve to disturb the sound signal sequence. Therefore, even if the superimposition process (S17) is skipped, it is possible to generate a masker sound that does not feel uncomfortable.
  • the second difference between the present embodiment and the first embodiment is that, in this embodiment, a sound signal sequence or LPF process, which is a result of the superimposition process (S13), according to an operation of an operation unit (not shown), and J-1 copies of the sound signal sequence (when the superposition processing is skipped) as a result of the HPF processing (S12) are created, and the macro processing M_1 ⁇ Each M_J is executed, and the sound signal sequence obtained by superimposing the J sound signal sequences as the execution result on the time axis is delivered to the speech speed conversion process (S18).
  • a shift process (S17 '), a normalize process (S15), a reverse process (S14), and a crossfade coupling process (S16) are sequentially executed.
  • the number J of the sound signal sequences to be generated and the number J of the macro processes M_1 to M_J to be executed can be designated by operating an operation unit (not shown).
  • the processes are executed in the order of the reverse process (S14), the normalize process (S15), the crossfade combination process (S16), and the shift addition process (S17).
  • each process is executed in the order of the shift process (S17 ′), the normalize process (S15), the reverse process (S14), and the crossfade combination process (S16). .
  • This point is also a difference between the present embodiment and the first embodiment.
  • the shift process (S17 ') is a process of switching the previous section and the subsequent section with the reference position Pa of the sound signal sequence to be processed as a boundary. Unlike the shift addition process (S17) in the first embodiment, the shift process (S17 ') does not perform addition with the original sound signal sequence. In each of the macro processes M_1 to M_J, the shift process (S17 ') is executed instead of the shift addition process (S17) for the following reason. That is, if the shift addition process (S17) is executed in each of the macro processes M_1 to M_J, each sound signal sequence obtained by each shift addition process (S17) includes components of the original sound signal sequence.
  • the reference position Pa in the shift process (S17 ') is different among the macro processes M_1 to M_J.
  • each of the shift processes (S17 ′) of the macro processes M_1 to M_J indicates a phoneme string composed of a plurality of phonemes, and J sound signal strings whose positions on the time axis are shifted from each other. Is obtained.
  • the position of each phoneme in the sound signal sequence on the time axis corresponds to the corresponding phoneme in the original sound signal sequence.
  • the order of each phoneme in the sound signal sequence is basically the same as the order of each phoneme in the original sound signal sequence.
  • each of the J sound signal sequences obtained by the shift process (S17 ′) except that the last phoneme in the original sound signal sequence is followed by the first phoneme in the original sound signal sequence.
  • the order of each phoneme in each sound signal sequence is the same as the order of each phoneme in the original sound signal sequence.
  • the shift processes (S17) of the macro processes M_1 to M_J are performed according to the operation of the operation unit (not shown). Each reference position Pa in ') is set independently.
  • the normalization process (S15) is performed on the sound signal sequence obtained by the shift process (S17 ').
  • this normalization process (S15) as in the reverse rotation process (S14) of the first embodiment, the sound signal sequence to be processed is overlapped with a predetermined time length t between the preceding and following sections. Divide into multiple sections.
  • a correction coefficient for making the effective value RMS of the sound signal through one section constant in a plurality of sections is calculated for each section, and the correction coefficient obtained for each section is calculated in each section. Execute normalization to multiply the sound signal.
  • the normalization calculation method is basically the same as that of the first embodiment, but in this embodiment, in order to avoid excessive normalization, the correction coefficient is multiplied by a certain relaxation coefficient, and the final correction coefficient is also calculated. Is limited to a predetermined upper limit value and lower limit value.
  • the boundary of the section when the sound signal sequence to be processed is divided into a plurality of sections in the normalization process (S15) is made different between the macro processes M_1 to M_J.
  • the length of one section (or the number of sections) when dividing the sound signal sequence is set to each macro process M_1 to M_J. I try to make them different from each other.
  • a reverse process (S14) is performed on the sound signal sequence that is the result of the normalization process (S15).
  • this reversal process (S14) the arrangement order of the sound signal samples is reversed for each of a plurality of sections of the normalized sound signal sequence.
  • the reverse process (S14) of the macro processes M_1 to M_J sections having different lengths are used as units. As a result, the arrangement order of the sound signal samples in the section is reversed.
  • the reverse rotation process (S14) can be prohibited from being executed in a part of the macro processes M_1 to M_J (for example, the macro process M_J) by operating the operation unit or the like. ing. By prohibiting this part of the reverse rotation processing (S14), it is possible to prevent the occurrence of a flawed intonation in the finally generated sound signal.
  • each section of the sound signal sequence that is the process result of the reverse process (S14) is overlapped by a predetermined time length t on the time axis. Then, the cross-fade coupling process (S16) is performed.
  • the sound signal sequence obtained as a result is the processing result of each of the macro processes M_1 to M_J, and the sound signal sequence obtained by superimposing the sound signal sequences on the time axis is the processing target of the speech speed conversion process (S18).
  • the contents of each process after the speech speed conversion process (S18) are the same as those in the first embodiment. The above is the details of the present embodiment.
  • the same effect as the first embodiment can be obtained.
  • the superimposition process (S13) can be skipped, and the sound signal string that is the result of the superposition process (S13) or the sound signal string that is the result of the LPF process and the HPF process (S12). Since the desired number (J) of sound signal sequences can be generated by duplication and the macro processing M_1 to M_J can be executed, for example, the masker sound generation device is selectively used according to various situations as follows. It becomes possible to do.
  • the overlay process (S13) is executed, and if the duration is relatively short, the overlay process (S13) is skipped. .
  • the masker sound signals finally obtained from the sound signals of a plurality of persons are added and used for generating masker sounds, the sound signals generated for the macro processes M_1 to M_J and the macro processes M_1 to M_J.
  • the number J of rows may be reduced.
  • the overlay process (S13) may be skipped.
  • a masker sound signal generated from one person's sound signal is output as a masker sound, it is preferable not to skip the overlay process (S13). Further, when the duration of the sound signal used for generating the masker sound signal is short and the superposition process (S13) is skipped, the sound signals generated for the macro processes M_1 to M_J and the macro processes M_1 to M_J. It is preferable to increase the number J of rows.
  • the macro processing M_1 to M_J and the number J of sound signal sequences to be generated as the processing targets are not determined according to the operation of the operation unit, but may be a predetermined number.
  • Each reference position Pa in each shift process (S17 ') of the macro processes M_1 to M_J may be determined by the masker sound generation apparatus itself, instead of being determined according to the operation of the operation unit. For example, J boundary positions that divide the sound signal sequence into J + 1 equal parts may be obtained, and these boundary positions may be used as the reference positions Pa in the shift processes (S17 ') of the macro processes M_1 to M_J. Alternatively, J-1 boundary positions that divide the sound signal sequence equally into J are obtained, and the boundary positions and the head position of the sound signal sequence are used as the reference positions Pa in the shift processes (S17 ′) of the macro processing M_1 to M_J. Also good.
  • the reference position Pa is the head position, there is the entire sound signal sequence after the reference position Pa, and there is nothing before the reference position Pa. The same sound signal sequence as the original sound signal sequence is obtained.
  • the masker sound generation device itself determines the number of sections when the sound signal string is divided into a plurality of sections in each normalization process (S15) of the macro processing M_1 to M_J, instead of determining the number of sections according to the operation of the operation unit. You may make it do. For example, a number sequence in which numbers that are relatively disjoint are arranged in ascending order is prepared, the top J numbers are selected from the number sequence, and the sound signal sequence is selected in each normalization process (S15) of macro processing M_1 to M_J. It is good also as the number of the sections at the time of dividing into a plurality of sections.
  • a masker sound generating apparatus having a configuration in which the superimposition process (S13) is not always executed may be used.
  • the length of the section (or the number of sections) when dividing the data into a plurality of sections is made different between the macro processes M_1 to M_J.
  • the length of the section (or the number of sections) when dividing the sound signal sequence into a plurality of sections is the same between the macro processes M_1 to M_J, and only the position of the boundary of the section is determined.
  • the macro processing M_1 to M_J may be shifted.
  • J macro processes M_1 to M_J are executed in parallel.
  • the macro process M_1 is executed, then the macro process M_2 is executed, and so on.
  • the macro processes M_1 to M_J may be executed sequentially. That is, in the present invention, the plurality of shift means (the shift processes (S17 ′) of the J macro processes M_1 to M_J) do not have to operate simultaneously in parallel, but operate sequentially. Also good.
  • a plurality of reverse rotation means reverse rotation process (S14) of J macro processes M_1 to M_J).
  • the overlay process (S13) can be skipped.
  • the overlay process (S13) may be executed, and the shift process (S17 ') in the macro processes M_1 to M_J may be skipped according to the operation of the operation unit.
  • a program executed by the masker sound generation device includes a magnetic recording medium (magnetic tape, magnetic disk (HDD, FD), etc.), an optical recording medium (optical disk (CD, DVD), etc.), optical It can be provided in a state where it is recorded on a computer-readable recording medium such as a magnetic recording medium or a semiconductor memory.
  • the program can also be downloaded via a network such as the Internet.
  • a masker sound signal generated by the masker sound generation device is recorded on a recording medium, and the masker sound signal recorded on the recording medium is recorded at a remote place geographically separated from the masker sound generation device. It may be played back for sound masking.
  • the recording medium for recording the masker sound signal is arbitrary, and includes a magnetic recording medium (magnetic tape, magnetic disk (HDD, FD), etc.), an optical recording medium (optical disk (CD, DVD), etc.), and magneto-optical.
  • Masker sound signals can be recorded on various computer-readable recording media such as recording media and semiconductor memories. It is also possible to download the masker sound signal file via a network such as the Internet.
  • the masker sound generating device of the present invention it is possible to reduce the uncomfortable feeling given to the person in the space while securing the masking effect in the space where the masker sound is emitted.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Chemical & Material Sciences (AREA)
  • Electromagnetism (AREA)
  • Oil, Petroleum & Natural Gas (AREA)
  • Public Health (AREA)
  • Health & Medical Sciences (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Stereophonic System (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

 マスカ音を放音する空間内におけるマスキング効果を確保しつつ、その空間内の者に与える違和感を軽減することができる。CPU21は、重ね合わせ処理では、人の音声の音信号X12-n内の異なる区間の音信号を取り出し、取り出した音信号を時間軸上において重ね合わせ、この時間軸上において重ね合わせた音信号X13-nを出力する。また、CPU21は、シフト加算処理では、音信号X16-nに対して、当該音信号X16-nの基準位置の前の音信号とその基準位置の後の音信号とを入れ替える処理であるシフト処理を施し、シフト処理を施した音信号X16'-nとシフト処理が施されていない元の音信号X16-nとを加算した音信号X17-nを出力する。

Description

マスカ音生成装置、マスカ音信号を記憶した記憶媒体、マスカ音再生装置、およびプログラム
 本発明は、マスカ音を生成して音の漏れ聞こえを防ぐ技術に関する。
 マスキング効果を利用して音の漏れ聞こえを防ぐ技術が各種提案されている。マスキング効果は、2種類の音信号を同じ空間内に伝搬させた場合に、空間内の聴者において、一方の音(ターゲット音)の聴き取りが、他方の音(マスカ音)の存在によって、妨害を受ける現象である。この種の技術の多くは、ターゲット音の発声源である話者が居る領域と壁や衝立を介して隣接している領域に向けてマスカ音を放音するものである。
 特許文献1には、ターゲット音たる人の話声の音波形を加工することによってその聞き取りを妨げるマスカ音を生成する技術の開示がある。同文献に開示されたマスキング方法では、人の話声を示す音声信号を一音素に相当する区間である複数のセグメントに分断する。そして、分断した複数のセグメントの順序を無作為に並び替えた音声信号をマスカ音として再生する。この技術により得られる音は、人の音声のようではあるがその意味が理解できないものとなる。このような音をマスカ音として利用することにより、環境音のような広い帯域のスペクトルを有する音を利用する場合よりも高いマスキング効果を発生させることができる。
日本国特許4324104号公報 日本国特開2008-107706号公報
 しかしながら、人の話声を一音素に相当する区間毎に無作為に並び替えて得られる音は、それ自体が耳慣れない聴感を持ったものとなる。このため、特許文献1に開示された技術により生成した音声信号をマスカ音とした場合、空間内の聴者に違和感を感じさせるという問題があった。
 本発明は、空間内における高いマスキング効果を確保しつつ、その空間内の者に与える違和感を軽減することを目的とする。
 本発明は、音声を示す音信号列を取得する取得手段と、音信号列内の異なる区間の音信号列を複数取り出し、取り出した各音信号列を時間軸上において重ね合わせる重ね合わせ手段を含み、前記取得手段により取得され、前記重ね合わせ手段の処理を経た音信号列からマスカ音信号を生成する生成手段とを具備することを特徴とするマスカ音生成装置を提供する。この発明において、重ね合わせ手段の処理を経た音信号列は、元の音信号列内の異なる区間の音信号列を重ね合わせたものであり、全体に着目すると、元の音信号列を撹乱した音信号列となっているが、異なる区間の各区間に着目すると、区間内での音素の順序は元の音信号列と変わらない。従って、この発明によって得られるマスカ音は、人の音声を示す音信号を一音素に相当する区間毎に無作為に並べ替えて得られるマスカ音と同程度のマスキング効果を発生させることが可能でありながら、聴者に違和感を与えることがない。よって、本発明によると、空間内における高いマスキング効果を確保しつつ、その空間内の者に与える違和感を軽減することができる。
 好ましい態様において、前記重ね合わせ手段は、処理対象である音信号列に対して当該音信号列内の基準位置の前までの音信号列とその基準位置の後からの音信号列とを入れ替える処理であるシフト処理を施し、シフト処理を施した音信号列とシフト処理を施す前の元の音信号列とを加算した音信号列を出力するシフト加算手段を含む。この態様によって得られるマスカ音も、人の音声を示す音信号を一音素に相当する区間毎に無作為に並べ替えて得られるマスカ音と同程度のマスキング効果を発生させることが可能でありながら、聴者に違和感を与えることがない。よって、空間内における高いマスキング効果を確保しつつ、その空間内の者に与える違和感を軽減することができる。
 他の好ましい態様において、前記重ね合わせ手段は、処理対象である音信号列に対して各々当該音信号列内の異なる基準位置の前までの音信号列とその基準位置の後からの音信号列とを入れ替える処理である複数のシフト処理を施し、複数のシフト処理により得られる複数の音信号列を加算した音信号列を出力するシフト加算手段を含む。この場合、前記複数のシフト手段が各基準位置を互いに異ならせてシフト処理を実行するので、マスカ音信号に含まれる一定時間内の音素数を増加させることができ、素材である音信号をより撹乱したマスカ音を生成することができる。
 他の好ましい態様において、前記重ね合わせ手段は、処理対象である音信号列を時間軸上においてより時間長の短い音信号列に分割して加算する分割加算手段を含み、前記分割加算手段および前記シフト加算手段の各処理を経た音信号列を出力する。この態様によって得られるマスカ音も、人の音声を示す音信号を一音素に相当する区間毎に無作為に並べ替えて得られるマスカ音と同程度のマスキング効果を発生させることが可能でありながら、聴者に違和感を与えることがない。よって、空間内における高いマスキング効果を確保しつつ、その空間内の者に与える違和感を軽減することができる。
 他の好ましい態様において、前記重ね合わせ手段は、処理対象である音信号列を時間軸上においてより時間長の短い音信号列に分割して加算する分割加算手段と、前記分割加算手段の処理を経た音信号列に対して当該音信号列内の異なる基準位置の前までの音信号列とその基準位置の後からの音信号列とを入れ替える処理であるシフト処理を各々施す複数のシフト手段と、前記複数のシフト手段の処理を経た音信号列を加算する加算手段とを含む。この態様によれば、マスカ音信号に含まれる一定時間内の音素数をさらに増加させることができる。
 他の好ましい態様において、マスカ音生成装置は、前記分割加算手段の処理を回避する手段を具備する。例えばマスカ音信号の生成に用いる音信号の継続時間が短い場合には、この手段により前記分割加算手段の処理を回避することが好ましい。前記分割加算手段の処理は、音信号列に含まれる一定時間内の音素数を増加させる効果を奏する一方、音信号列の時間長を短くするからである。
 他の好ましい態様において、前記重ね合わせ手段は、各々の処理対象である音信号列に対して当該音信号列内の異なる基準位置の前までの音信号列とその基準位置の後からの音信号列とを入れ替える処理であるシフト処理を各々施す複数のシフト手段と、前記複数のシフト手段の処理を経た各音信号列を各々の処理対象とし、各々の処理対象である音信号列を複数の区間に区切った各区間内の音信号列を前後逆転させ、この配列順を前後逆転させた音信号列を各々生成する複数の逆転手段と、前記複数の逆転手段の処理を経た各音信号列を加算する加算手段とを含む。この場合において、前記複数の逆転手段は、前記音信号列における前記複数の区間の境界を互いに異ならせて前記各区間内の音信号列の前後逆転を行うことが好ましい。この態様によれば、素材となる元の音信号に対してマスカ音信号をさらに撹乱させたものにすることができる。
本発明の一実施形態であるマスカ音生成装置を含むマスキングシステムの構成を示すブロック図である。 同マスカ音生成装置の動作を示すフローチャートである。 同マスカ音生成装置による音信号の処理の様子を示す図である。 同マスカ音生成装置による音信号の処理の様子を示す図である。 同マスカ音生成装置により実行されるシフト加算処理の内容を示す図である。 本発明の他の実施形態であるマスカ音生成装置により実行されるシフト加算処理の内容を示す図である。 本発明の他の実施形態であるマスカ音生成装置により実行されるシフト加算処理の内容を示す図である。 本発明の第2実施形態であるマスカ音生成装置の動作を示すフローチャートである。
 以下、図面を参照しつつ本発明の実施形態について説明する。
<第1実施形態>
 図1は、本発明の第1実施形態であるマスカ音生成装置10を含むマスキングシステムの構成を示す図である。マスカ音生成装置10は、様々な声の特徴を持ったN(Nは1以上の自然数)人の朗読者に様々な音素(子音、母音)を含んだ文章を時間長T1(例えば、T1=2分間とする)に渡って朗読させ、各朗読者の朗読音を示すN種類の音信号X-n(n=1~N)から時間長T4(T4<T1:例えば、T4=1分とする)分のマスカ音の音信号Z-n(n=1~N)をそれぞれ生成し、生成した音信号Z-n(n=1~N)を記憶媒体30に記憶する装置である。マスカ音再生装置50は、音信号Z-n(n=1~N)が記憶された記憶媒体30が当該マスカ音再生装置50に装着された場合に、記憶媒体30内のN種類の音信号Z-n(n=1~N)のうち1つを選んで再生し、この再生音を衝立51を挟んで隣り合う領域A及びBのうち一方(図1の例では領域B)に向けてスピーカ52から放音させる装置である。
 マスカ音生成装置10におけるマイクロホン11は、朗読音を収音し、その波形を示すアナログ信号を出力する。A/D変換部12は、朗読者が文章の朗読を始めてから終えるまでの間にマイクロホン11から出力されたアナログ信号をデジタル形式の音信号X-nに変換し、変換した音信号X-nを記憶部13に記憶させる。制御部14は、記憶部13内におけるN種類の音信号X-n(n=1~N)を1種類ずつ取得し、取得した音信号X-nから時間長T4分のマスカ音の音信号Z-nを生成し、生成した音信号Z-nを書込制御部15に出力する。この制御部14の構成の詳細については、後述する。書込制御部15は、制御部14から供給された音信号Z-nと当該音信号Z-nに固有の識別情報Inとを記憶媒体30に記憶する。
 次に、制御部14の構成の詳細について説明する。制御部14は、CPU21、RAM22、およびROM23を有する。CPU21は、RAM22をワークエリアとして利用しつつ、ROM23に記憶されたマスカ音生成プログラム24を実行する。マスカ音生成プログラム24は、CPU21に次の2つの機能を与えるプログラムである。
a1.取得機能
 これは、記憶部13に記憶された音信号X-n(n=1~N)の各々を同部13から取得する機能である。
a2.生成機能
 これは、記憶部13から取得した各音信号X-nからマスカ音の音信号Z-nを生成し、生成した音信号Z-nを書込制御部15に出力する機能である。
 次に、本実施形態の動作について説明する。図2は、本実施形態の動作を示すフローチャートである。図2におけるステップS10は上述した取得機能の働きによりCPU21が実行する処理であり、ステップS11~ステップS23は上述した生成機能の働きによりCPU21が実行する処理である。まず、CPU21は、記憶部13におけるN種類の音信号X-n(n=1~N)のうち1つの音信号X-nを取得してRAM22に記憶させる(S10)。
 次に、CPU21は、図3(A)に示すように、RAM22内における時間長T1分の音信号X-nから無音の区間の音信号と突発音の区間の音信号を除去し、残りの区間を繋げた時間長T1’(T1’<T1)分の音信号X11-nを生成する(S11)。
 次に、CPU21は、図3(B)に示すように、音信号X-nに対して音声帯域の上限の周波数fc1(例えば、fc1=3400Hz)以上の帯域を減衰させるLPF(Low Pass Filter)処理と音声帯域の下限の周波数fc2(例えば、fc2=100Hz)以下の帯域の成分を減衰させるHPF(High Pass Filter)処理とを施し、この処理結果を音信号X12-nとする(S12)。
 次に、CPU21は、図3(C)に示すように、音信号X12-nに対して重ね合わせ処理を施す(S13)。重ね合わせ処理は、音信号X12-n内の異なる区間の音信号を取り出し、取り出した音信号を時間軸上において重ね合わせ、この時間軸上において重ね合わせた音信号を出力する処理である。より具体的に説明すると、この重ね合わせ処理では、CPU21は、RAM22内における時間長T1’分の音信号X12-nから前半の時間長T1’/2分の音信号と後半の時間長T1’/2分の音信号とを取り出す。そして、この前半と後半の2つの音信号を各々の先頭と末尾の位置を揃えて重ね合わせた時間長T1’/2分の音信号を重ね合わせ処理の処理結果である音信号X13-nとする。
 次に、CPU21は、図3(D)に示すように、逆転処理を行う(S14)。逆転処理は、重ね合わせ処理の処理結果として得られた音信号X13-nを、各々の前後の区間との間に時間t(例えば、t=100ミリ秒)の重複部分を有するL(L=((T1’/2)-t)/(T2+t)):例えば、T2=500ミリ秒)個の一定長の区間D(i=1~L)に区切り、区切った各区間D内の音信号の配列順を前後逆転させる処理である。
 より具体的に説明すると、この逆転処理では、CPU21は、RAM22内の時間長T1’/2分の音信号X13-nの始点を1番目の区間Dの始点とするとともにこの始点から時間2t+T2だけ後の点を区間Dの終点とし、区間D内の音信号XDを切り出す。次に、CPU21は、音信号X13-nにおける始点から時間t+T2だけ後の点(すなわち、1番目の区間Dの終点よりも時間tだけ前の点)を2番目の区間Dの始点とするとともにこの始点から時間2t+T2だけ後の点を区間Dの終点とし、区間D内の音信号XDを切り出す。以下、同様に、CPU21は、3番目の区間D内の音信号XD、4番目の区間D内の音信号XD…L-1番目の区間DL-1内の音信号XDL-1、及びL番目の区間D内の音信号XDを順に切り出す。その上で、CPU21は、各区間Dの音信号XDの配列順を前後逆転させ、配列順を逆転させたL個の音信号XD'(i=1~L)を次のノーマライズ処理の処理対象とする。
 CPU21は、図3(E)に示すように、ノーマライズ処理を行う(S15)。ノーマライズ処理は、逆転処理の処理結果として得られた音信号XD'(i=1~L)の音量の時間変動を所定範囲内に収める処理である。より具体的に説明すると、このノーマライズ処理では、CPU21は、RAM22内の音信号XD'(i=1~L)における1番目乃至L番目の区間D(i=1~L)全体の実効値RMSAと、各区間Dの個別の実効値RMSDとを計算する。次に、CPU21は、各区間Dについて、当該区間Dの実効値RMSDで実効値RMSAを除算した値を当該区間Dの補正係数Sとし、当該区間Dの音信号XD'に補正係数Sを乗算する。そして、CPU21は、補正係数S(i=1~N)を乗算したL個の音信号XD”(i=1~L)を次のクロスフェード結合処理の処理対象とする。
 次に、CPU21は、図4(F)に示すように、クロスフェード結合処理を行う(S16)。クロスフェード結合処理は、ノーマライズ処理の処理結果として得られたL個の音信号XD”(i=1~L)を相前後するもの同士の境界が円滑に繋がるように再結合する処理である。より具体的に説明すると、このクロスフェード結合処理では、CPU21は、RAM22内におけるL個の音信号XD”(i=1~L)の各々に窓関数Wを乗算する。この窓関数Wは、各音信号XD”を始端側と終端側において緩やかに減衰させて、当該音信号XD”と前後の区間の音信号とを円滑に結合するためのものである。音信号XD”(i=1~L)の各々に窓関数Wを乗算した後、CPU21は、各音信号XD”と窓関数Wの乗算結果である区間D毎の音信号XD”×Wを、先行する区間の音信号と後続する区間の音信号とが互いに時間tだけ重複するように結合する。そして、この結合によって得られた時間長T1’/2分の音信号をクロスフェード結合処理の処理結果である音信号X16-nとする。
 次に、CPU21は、図4(G)に示すように、シフト加算処理を行う(S17)。シフト加算処理は、クロスフェード処理の処理結果として得られた音信号X16-nに対して、当該音信号X16-nの基準位置の前の音信号とその基準位置の後の音信号とを入れ替える処理であるシフト処理を施し、シフト処理を施した音信号とシフト処理が施されていない元の音信号X16-nとを加算する処理である。
 より具体的に説明すると、図5に示すように、CPU21は、RAM22内の時間長T1’/2分の音信号X16-nの複製をM(例えば、M=2とする)個生成し、このM(M=2)個の複製を音信号Xa16-n及びXb16-nとする。CPU21は、音信号Xa16-nにおける始端から終端までのサンプルデータの中から基準位置Paを選択する。CPU21は、音信号Xa16-nの始端から基準位置Paまでのサンプルデータを後方に移動させるとともにその後方にずらしたサンプルデータの前に音信号Xa16-nの基準位置Paから終端までのサンプルデータを繋げたものを、音信号Xa16’-nとする。
 また、CPU21は、音信号Xb16-nにおける始端から終端までのサンプルデータの中から音信号Xa16-nの基準位置Paとは異なる基準位置Pbを選択する。CPU21は、音信号Xb16-nの始端から基準位置Pbまでのサンプルデータを後方に移動させるとともにその後方にずらしたサンプルデータの前に音信号Xb16-nの基準位置Pbから終端までのサンプルデータを繋げたものを、音信号Xb16’-nとする。その上で、CPU21は、音信号X16-n,Xa16’-n,及びXb16’-nを各々の始端と終端を揃えて加算し、この加算結果をシフト加算処理の処理結果である音信号X17-nとする。
 次に、CPU21は、図4(H)に示すように、話速変換処理を行う(S18)。話速変換処理では、CPU21は、シフト処理の処理結果としてRAM22に書き込まれている時間長T1’/2分の音信号X17-nの時間軸を伸長して時間長T3(T3>T1’/2)分の音信号X18-nとする。この話速変換処理の具体的な手順については、特許文献2を参照されたい。
 次に、CPU21は、図4(I)に示すように、音信号X18-nに対して周波数fc1以上の帯域を減衰させるLPF処理と周波数fc2以下の帯域の成分を減衰させるHPF処理とを施し、この処理結果を音信号X19-nとする(S19)。
 次に、CPU21は、図4(J)に示すように、音信号X19-nに対して時間長調整処理を施す(S20)。時間長調整処理では、CPU21は、ステップS18におけるLPF処理及びHPF処理の処理結果としてRAM22に書き込まれている音信号X19-nから上述した時間長T4(T4<T3)分の音信号X20-nを切り出す。
 次に、CPU21は、図4(K)に示すように、音信号X20-nに対して全体レベル調整処理を施す(S21)。全体調整レベル調整処理では、時間長調整処理の処理結果としてRAM22に書き込まれている時間長T4分の音信号X20-n全体にレベル調整用の補正係数Pを乗算し、この乗算結果を全体レベル調整処理の処理結果である音信号X21-nとする。
 次に、CPU21は、全体レベル調整処理の処理結果である音信号X21-nをマスカ音の音信号Z-nとして書込制御部15に出力する(S22)。書込制御部15は、CPU21から出力された音信号Z-nを当該書込制御部15に装着されている記憶媒体30に記憶させる。
 次に、CPU21は、記憶部13におけるN種類の音信号X-n(n=1~N)の全てを取得したか否かを判断する(S23)。CPU21は、記憶部13に未だ取得していない音信号X-nがある場合には(S23:No)、ステップS10に戻り、未取得の音信号X-nを同部13から取得してRAM22に書込み、以降の処理を繰り返す。一方、記憶部13におけるN種類の音信号X-n(n=1~N)の全てを取得した場合には(S23:Yes)、処理を終了させる。
 以上説明した本実施形態によると、次の効果が得られる。本実施形態では、特許文献1に開示された技術のように、人の音声を示す音信号を一音素に相当する区間毎に無作為に並べ替える処理は行わない。その代わりに、本実施形態における人の音声の音信号からマスカ音の音信号の生成に至る一連の処理は、重ね合わせ処理(S13)とシフト加算処理(S17)とを含む。重ね合わせ処理(S13)とシフト加算処理(S17)とを含む一連の処理を経て得られて得られる音信号の再生音は、人の音声を示す音信号を一音素に相当する区間毎に無作為に並べ替えて得られるマスカ音と同程度のマスキング効果を発生させることが可能でありながら、聴者に違和感を与えることがない。よって、本実施形態によると、高いマスキング効果を確保しつつ、領域B内の者に与える違和感を軽減することができる。
<第1実施形態の変形例>
 以上説明した第1実施形態の変形例として次のものがある。
(1)上記実施形態では、記憶部13内から音信号X-nを1種類ずつ取得し、1種類の音信号X-nから1種類の音信号Z-nを生成した。しかし、記憶部13内からR(2≦R≦N)種類の音信号X-nを纏めて取得し、取得したR種類の音信号X-nにそれぞれステップS11~ステップS21の処理を施し、この処理結果として得られたR種類の音信号を加算した音信号をマスカ音の音信号Z-nとしてもよい。この実施形態によると、領域A内に異なる声の特徴をもった複数人の話者がいる場合でも、これら複数人の話者に広範囲に対応して、領域B内において高いマスキング効果を発生させることができる。
(2)上記実施形態において、ステップS11~ステップS16及びステップS18~ステップS21の処理を行わずに、記憶部13内から取得した音信号X-nをステップS17のシフト加算処理の処理対象とし、このシフト加算処理によって得られた音信号をマスカ音の音信号Z-nとしてもよい。この実施形態のように、重ね合わせ処理を行うことなく、人の話声の音信号X-nにシフト加算処理だけを施して得られる音信号X-nをマスカ音の音信号Z-nとしても、高いマスキング効果を確保しつつ、領域B内の者に与える違和感を軽減することができる。また、ステップS11~ステップS12の処理及びステップS14~ステップS21の処理を行わずに、記憶部13内から取得した音信号X-nをステップS13の重ね合わせ処理の処理対象とし、この重ね合わせ処理によって得られた音信号をマスカ音の音信号Z-nとしてもよい。この実施形態のように、シフト加算処理を行うことなく、人の話声の音信号X-nに重ね合わせ処理だけを施して得られる音信号をマスカ音の音信号Z-nとしても、高いマスキング効果を確保しつつ、領域B内の者に与える違和感を軽減することができる。さらに図示しない操作部の操作等に応じてステップS13の重ね合わせ処理またはステップS17のシフト加算処理をスキップする構成としてもよい。
(3)上記実施形態におけるステップS13の重ね合わせ処理では、CPU21は、RAM22内における時間長T1’分の音信号X12-nから当該音信号X12-nの前半の時間長T1’/2分の音信号と後半の時間長T1’/2分の音信号を取り出し、これら2つの音信号同士を各々の先頭と末尾の位置を揃えて重ね合わせて時間長T1’/2分の音信号X13-nを生成した。しかし、RAM内の音信号X12-nから各々の前後に一部重複する部分を有する時間長T’/2分の音信号を2個取り出し、これら2つの音信号同士を各々の先頭と末尾の位置を揃えて重ね合わせて時間長T1’/2分の音信号X13-nを生成してもよい。また、音信号X12-nから取り出す音信号の個数は2つである必要はなく、3つ以上の音信号を取り出してそれらを重ね合わせてもよい。また、音信号X12-nから取り出す複数個の音信号の長さは同じである必要はない。例えば、時間長T1’分の音信号X12-nをその半分よりも時間T5(T5<T1’/2)だけ短い音信号と時間長T5だけ長い音信号の2つに分割し、分割した2つの音信号同士を重ねあわせて音信号X13-nを生成してもよい。
(4)上記実施形態におけるステップS17のシフト加算処理では、音信号X16-nの複製を2個生成したが、音信号X16-nの複製数Mを1つにしてもよいし3つ以上にしてもよい。また、音信号X16-nの複製数Mを複数にした場合、複製である音信号Xa16-n,Xb16-n,Xc16-n…毎に固有の乱数を発生させ、この乱数を用いて音信号Xa16-n,Xb16-n,Xc16-n…毎の異なる基準位置Pa,Pb,Pc…を決定してもよい。また、複数種類の基準位置Pa,Pb,Pc…を示すデータが格納されたテーブルを設け、音信号Xa16-n,Xb16-n,Xc16-n…毎の基準位置Pa,Pb,Pc…をこのテーブル内から選択するようにしてもよい。
(5)上記実施形態におけるステップS17のシフト加算処理では、音信号X16-nの複製にシフト処理を施し、シフト処理を施した音信号とシフト処理を施す前の元の音信号とを加算した。しかし、図6に示すように、音信号X16-nの複製をM’(M’は2以上の自然数:例えば、M’=2とする)個生成し、複製であるM’(M’=2)個の音信号Xa16-n及びXb16-nの各々に対してのみ上述したシフト処理を施し、シフト処理を施したM’個の音信号Xa16’-n及びXb16’-nを加算した音信号をシフト加算処理の処理結果としてもよい。この実施形態によっても、高いマスキング効果を確保しつつ、領域B内の者に与える違和感を軽減することができる。
(6)上記実施形態におけるステップS17のシフト加算処理では、音信号X16-nの複製にシフト処理を施し、シフト処理を施した音信号とシフト処理を施す前の元の音信号とを加算した。しかし、図7に示すように、音信号X16-nの複製をM”(M”は1以上の自然数:例えば、M”=2とする)個生成し、複製元の音信号X16-nと複製であるM”(M”=2)個の音信号Xa16-n,Xb16-nとを含むM+1個の音信号X16-n,Xa16-n,及びXb16-nの各々に対して上述したシフト処理を施し、シフト処理を施したM”+1個の音信号X’16-n,Xa’16-n,及びXb’16-nを加算した音信号をシフト加算処理の処理結果としてもよい。この実施形態によっても、高いマスキング効果を確保しつつ、領域B内の者に与える違和感を軽減することができる。
(7)上記実施形態におけるステップS14の逆転処理では、重ね合わせ処理の処理結果として得られた音信号X13-nを複数の区間に区切り、区切った各区間内の音信号の配列順を前後逆転させた。しかし、音信号X13-nを複数の区間に区切ることなく、音信号X13-n全体の配列順を前後逆転させてもよい。この場合は、ステップS15のノーマライズ処理やステップS16のクロスフェード処理は行わないようにするとよい。
(8)上記実施形態では、逆転処理(S14)、ノーマライズ処理(S15)、クロスフェード結合処理(S16)およびシフト加算処理(S17)の順に各処理を実行したが、後述する第2実施形態のように、上記実施形態において、シフト加算処理(S17)、ノーマライズ処理(S15)、逆転処理(S14)およびクロスフェード結合処理(S16)の順に各処理を実行するようにしてもよい。
<第2実施形態>
 図8は本発明の第2実施形態であるマスカ音生成装置の動作を示すフローチャートである。なお、このフローチャートにおいて、上記第1実施形態(図2)のものと対応する各処理には、上記第1実施形態において用いられたものと共通のステップ番号Sxxが使用されている。
 上記第1実施形態におけるマスカ音生成プログラム24は、図2に示されるように重ね合わせ処理(S13)とシフト加算処理(S17)とを含んでいた。これらの各処理は、いずれも処理対象である音信号列内の異なる区間の音信号列を取り出し、取り出した各音信号列を時間軸上において重ね合わせる処理であり、全体としては元の音信号列に対して撹乱された音信号列であって、異なる区間の各区間に着目すると、区間内の音素の順序は基本的に元の音信号列と変わっていない音信号列を生成する効果を奏する。本実施形態と上記第1実施形態との第1の相違点は、本実施形態ではこの2種類の重ね合わせ処理のうちの重ね合わせ処理(S13)を操作部の操作等に応じてスキップすることができるようにした点にある。
 重ね合わせ処理(S13)をスキップしなかった場合、重ね合わせ処理(S13)の実行により、LPF処理およびHPF処理(ステップS12)後の音信号列の半分の長さになった音信号列が図8に示すマクロ処理M_1~M_Jの処理対象となる。重ね合わせ処理(S13)をスキップした場合、LPF処理およびHPF処理(ステップS12)後の音信号列が図8に示すマクロ処理M_1~M_Jの処理対象となる。
 本実施形態において生成されるマスカ音信号は、マクロ処理M_1~M_Jの処理対象となる音信号列の長さに依存した周期を持つ。聴者に違和感を与えないためには、このマスカ音信号の周期が長い方が好ましく、そのためにはマスカ音信号の元となる音信号X-nの継続時間が長いことが好ましい。しかしながら、録音時間を長時間にすることが困難であり、マスカ音信号の生成に用いる音信号X-nの継続時間が短くなる場合もある。このような場合に重ね合わせ処理(S13)を実行すると、生成されるマスカ音信号の周期を短くする結果となるので好ましくない。そこで、本実施形態では、マスカ音信号の生成に用いる音信号X-nの継続時間が短い場合には、重ね合わせ処理(S13)をスキップして、マスカ音信号の周期の短縮化を回避することができるようにした。
 ここで、重ね合わせ処理(S13)をスキップした場合には、音信号列を撹乱するための手段を1つ失うことになる。しかしながら、本実施形態では、上記第1実施形態のシフト加算処理(S17)の一部であるシフト処理(S17’)をマクロ処理M_1~M_Jの各々において実行し、マクロ処理M_1~M_Jの結果を加算したものからマスカ音信号を生成するようにしている。そして、このマクロ処理M_1~M_Jおよびそれらの処理結果の加算処理が音信号列を撹乱する役割を果たす。従って、重ね合わせ処理(S17)をスキップしたとしても違和感のないマスカ音を生成することができる。
 本実施形態と上記第1実施形態との第2の相違点は、本実施形態では、図示しない操作部の操作に応じて、重ね合わせ処理(S13)の結果である音信号列またはLPF処理及びHPF処理(S12)の結果である音信号列(重ね合わせ処理をスキップした場合)のJ-1個の複製を作成し、原型および複製からなるJ個の音信号列を用いてマクロ処理M_1~M_Jを各々実行し、実行結果であるJ個の音信号列を時間軸上において重ね合わせた音信号列を話速変換処理(S18)に引き渡すようにした点にある。マクロ処理M_1~M_Jの各々では、シフト処理(S17’)、ノーマライズ処理(S15)、逆転処理(S14)およびクロスフェード結合処理(S16)を順次実行する。ここで、生成する音信号列の個数Jおよび実行するマクロ処理M_1~M_Jの個数Jは、図示しない操作部の操作により指定可能である。
 上記第1実施形態では、逆転処理(S14)、ノーマライズ処理(S15)、クロスフェード結合処理(S16)およびシフト加算処理(S17)の順に各処理を実行した。これに対し、本実施形態では、各マクロ処理M_1~M_Jにおいて、シフト処理(S17’)、ノーマライズ処理(S15)、逆転処理(S14)およびクロスフェード結合処理(S16)の順に各処理を実行する。この点も本実施形態と上記第1実施形態との相違点である。
 シフト処理(S17’)は、処理対象である音信号列の基準位置Paを境に前の区間と後の区間を入れ替える処理である。上記第1実施形態におけるシフト加算処理(S17)と異なり、シフト処理(S17’)では、元の音信号列との加算は行わない。各マクロ処理M_1~M_Jにおいて、シフト加算処理(S17)ではなく、シフト処理(S17’)を実行するのは次の理由による。すなわち、仮に各マクロ処理M_1~M_Jにおいてシフト加算処理(S17)を実行したとすると、各シフト加算処理(S17)により得られる各音信号列は元の音信号列の成分を含んでいるため、各マクロ処理M_1~M_Jの処理結果を加算すると、その加算結果において元の音信号列が持っていた繰り返し感が強調されることとなる。このような事態を回避するため、各マクロ処理M_1~M_Jにおいて、元の音信号列との加算を行わないシフト処理(S17’)を実行するようにしているのである。
 本実施形態では、シフト処理(S17’)における基準位置Paを各マクロ処理M_1~M_J間で異ならせている。このため、マクロ処理M_1~M_Jの各シフト処理(S17’)により、各々複数の音素からなる音素列を示し、かつ、時間軸上での各音素の位置が互いにずれたJ個の音信号列が得られる。ここで、シフト処理(S17’)により得られるJ個の音信号列の各々に着目すると、音信号列内の各音素の時間軸上での位置は、元の音信号列内の対応する音素の位置からずれているが、音信号列内の各音素の順序は元の音信号列における各音素の順序と基本的に同じである。すなわち、シフト処理(S17’)により得られるJ個の音信号列の各々に着目すると、元の音信号列における最後の音素の次に元の音信号列の先頭の音素が続く点を除けば、各音信号列における各音素の順序は元の音信号列における各音素の順序と同じである。基準位置Paを各マクロ処理M_1~M_J間で異ならせるための手段としては各種考えられるが、本実施形態では、図示しない操作部の操作に応じて各マクロ処理M_1~M_Jの各シフト処理(S17’)における各基準位置Paを各々独立に設定する。
 各マクロ処理M_1~M_Jでは、シフト処理(S17’)により得られた音信号列に対して、ノーマライズ処理(S15)を施す。このノーマライズ処理(S15)では、上記第1実施形態の逆転処理(S14)において行ったように、処理対象である音信号列を、各々が前後の区間との間に一定時間長tの重複を持った複数の区間に分割する。そして、ノーマライズ処理(S15)では、一区間を通じての音信号の実効値RMSを複数の区間において一定にするための補正係数を区間毎に演算し、区間毎に求めた補正係数を各区間内の音信号に対して乗算するノーマライズを実行する。このノーマライズの演算方法は、基本的に上記第1実施形態と同様であるが、本実施形態では、過大なノーマライズを避けるため、補正係数にはある緩和係数を掛け、また、最終的の補正係数を予め決められた上限値および下限値の範囲内に制限する。
 本実施形態では、ノーマライズ処理(S15)において処理対象である音信号列を複数の区間に分割する際の区間の境界を各マクロ処理M_1~M_J間で異ならせるようにしている。具体的には、本実施形態では、各マクロ処理M_1~M_Jの各ノーマライズ処理(S15)において、音信号列を分割する際の一区間の長さ(あるいは区間数)を各マクロ処理M_1~M_J間で互いに異ならせるようにしている。この音信号列を分割する際の一区間の長さ(あるいは区間数)を各マクロ処理M_1~M_J間で互いに異ならせるための手段としては各種考えられるが、本実施形態では、図示しない操作部の操作に応じて各マクロ処理M_1~M_J毎に一区間の長さ(あるいは区間数)を各々独立に設定する。
 各マクロ処理M_1~M_Jでは、ノーマライズ処理(S15)の処理結果である音信号列に対して逆転処理(S14)を施す。この逆転処理(S14)では、ノーマライズの行われた音信号列の複数の区間の各区間毎に音信号のサンプルの並び順を逆転させる。ここで、音信号列における一区間の長さを各マクロ処理M_1~M_J間で異ならせた場合には、各マクロ処理M_1~M_Jの逆転処理(S14)では、互いに異なる長さの区間を単位として、区間内の音信号のサンプルの並び順の逆転が行われることとなる。
 本実施形態では、操作部の操作等により、各マクロ処理M_1~M_Jの中の一部のマクロ処理(例えばマクロ処理M_J)において、逆転処理(S14)の実行を禁止することができるようになっている。この一部の逆転処理(S14)の禁止により、最終的に生成される音信号に癖のあるイントネーションが生じるのを防止することができる。
 各マクロ処理M_1~M_Jでは、逆転処理(S14)を終えると、逆転処理(S14)の処理結果である音信号列の各区間を、時間軸上において上記一定時間長tを区間だけ前後重複させて重ね合わせるクロスフェード結合処理(S16)を実行する。この結果得られる音信号列が各マクロ処理M_1~M_Jの処理結果となり、この各音信号列を時間軸上において重ね合わせた音信号列が話速変換処理(S18)の処理対象となる。
 話速変換処理(S18)以降の各処理の内容は上記第1実施形態と同様である。
 以上が本実施形態の詳細である。
 本実施形態によれば、上記第1実施形態と同様な効果が得られる。また、本実施形態によれば、重ね合わせ処理(S13)をスキップ可能とし、重ね合わせ処理(S13)の結果である音信号列またはLPF処理及びHPF処理(S12)の結果である音信号列の複製により所望の個数(J個)の音信号列を生成してマクロ処理M_1~M_Jを実行することができるようにしたので、例えば次のように様々な状況に応じてマスカ音生成装置の使い分けをすることが可能になる。
a.マスカ音信号の素材となる音信号の継続時間が相対的に長い場合には、重ね合わせ処理(S13)を実行し、継続時間が相対的に短い場合には重ね合わせ処理(S13)をスキップする。
b.重ね合わせ処理(S13)をスキップする場合には、マクロ処理M_1~M_Jおよびそれらのマクロ処理M_1~M_Jのために生成する音信号列の個数Jを増加させて、1周期分のマスカ音信号に含ませる音素数を増加させる。
c.最終的に複数人の音信号から得られたマスカ音信号を加算してマスカ音の生成に使用する場合には、マクロ処理M_1~M_Jおよびそれらのマクロ処理M_1~M_Jのために生成する音信号列の個数Jを減らしてもよい。また、この場合には、重ね合わせ処理(S13)をスキップしてもよい。
d.1人の音信号から生成したマスカ音信号をマスカ音として出力する場合には、重ね合わせ処理(S13)をスキップしないことが好ましい。また、マスカ音信号の生成に用いる音信号の継続時間が短くて重ね合わせ処理(S13)をスキップする場合には、マクロ処理M_1~M_Jおよびそれらのマクロ処理M_1~M_Jのために生成する音信号列の個数Jを増加させることが好ましい。
<第2実施形態の変形例>
 第2実施形態についても上記第1実施形態と同様な変形例の実施が可能である。この他に第2実施形態に特有の変形例として次のものがある。
(1)マクロ処理M_1~M_Jおよびそれらの処理対象として生成する音信号列の個数Jを、操作部の操作に応じて決定するのでなく、予め決められた個数としてもよい。
(2)重ね合わせ処理(S13)をスキップするか否かの情報と、マクロ処理M_1~M_Jおよびそれらの処理対象として生成する音信号列の個数Jを、マスカ音信号の素材となる音信号の提供者の人数、提供者一人当たりの音信号の録音時間等のパラメータに対応付けたテーブルをマスカ音生成装置に記憶させ、このパラメータとテーブルに従って個数Jを自動的に決定するようにしてもよい。
(3)マクロ処理M_1~M_Jの各シフト処理(S17’)における各基準位置Paを操作部の操作に応じて決定するのでなく、マスカ音生成装置自体が決定するようにしてもよい。例えば音信号列をJ+1等分するJ個の境界位置を求め、それらの境界位置をマクロ処理M_1~M_Jの各シフト処理(S17’)における各基準位置Paとしてもよい。あるいは音信号列をJ等分するJ-1個の境界位置を求め、それらの境界位置と音信号列の先頭位置をマクロ処理M_1~M_Jの各シフト処理(S17’)における各基準位置Paとしてもよい。ここで、基準位置Paが先頭位置である場合、この基準位置Paの後に音信号列の全体があり、基準位置Paの前には何もないので、基準位置Paの前後を入れ替えた場合に、元の音信号列と同じ音信号列が得られる。
(4)マクロ処理M_1~M_Jの各ノーマライズ処理(S15)において音信号列を複数の区間に分割する際の区間数を操作部の操作に応じて決定するのでなく、マスカ音生成装置自体が決定するようにしてもよい。例えば互いに素な関係にある数を小さい順に並べた数列を用意しておき、この数列の中から上位J個の数を選び、マクロ処理M_1~M_Jの各ノーマライズ処理(S15)において音信号列を複数の区間に分割する際の区間数としてもよい。
(5)重ね合わせ処理(S13)を常に実行しない構成のマスカ音生成装置としてもよい。
(6)上記第2実施形態では、シフト処理(S17’)における基準位置Paと、ノーマライズ処理(S15)(および逆転処理(S14))における音信号列の複数の区間の境界の両方を各マクロ処理M_1~M_J間で異ならせるようにしたが、いずれか一方のみを各マクロ処理M_1~M_J間で異ならせるようにしてもよい。
(7)上記第2実施形態では、ノーマライズ処理(S15)(および逆転処理(S14))における音信号列の複数の区間の境界を各マクロ処理M_1~M_J間で異ならせるために、音信号列を複数の区間に分割する際の区間の長さ(あるいは区間数)を各マクロ処理M_1~M_J間で異ならせた。しかし、そのようにする代わりに、音信号列を複数の区間に分割する際の区間の長さ(あるいは区間数)は各マクロ処理M_1~M_J間で同じにして、区間の境界の位置のみを各マクロ処理M_1~M_J間でずらすようにしてもよい。
(8)上記第2実施形態では、J個のマクロ処理M_1~M_Jを並列に実行したが、まず、マクロ処理M_1を実行し、次いでマクロ処理M_2を実行し、~という具合に、J個のマクロ処理M_1~M_Jを順次実行するようにしてもよい。すなわち、この発明において、複数のシフト手段(J個のマクロ処理M_1~M_Jのシフト処理(S17’))は、各々が同時並列に動作するものである必要はなく、順次動作するものであってもよい。複数の逆転手段(J個のマクロ処理M_1~M_Jの逆転処理(S14))についても同様である。
(9)上記第2実施形態では、重ね合わせ処理(S13)をスキップ可能にしていた。しかし、そのようにする代わりに、重ね合わせ処理(S13)を実行し、マクロ処理M_1~M_J内のシフト処理(S17’)を操作部の操作に応じてスキップするようにしてもよい。
<第1および第2実施形態の両方の変形例>
(1)上記各実施形態によるマスカ音生成装置によって実行されるプログラムは、磁気記録媒体(磁気テープ、磁気ディスク(HDD、FD)など)、光記録媒体(光ディスク(CD、DVD)など)、光磁気記録媒体、半導体メモリなどのコンピュータ読み取り可能な記録媒体に記録した状態で提供し得る。また、当該プログラムは、インターネットのようなネットワーク経由でダウンロードさせることも可能である。
(2)上記各実施形態によるマスカ音生成装置によって生成されたマスカ音信号を記録媒体に記録し、この記録媒体に記録されたマスカ音信号をマスカ音生成装置から地理的に離れた遠隔地においてサウンドマスキングのために再生してもよい。その際、マスカ音信号を記録するための記録媒体は任意であり、磁気記録媒体(磁気テープ、磁気ディスク(HDD、FD)など)、光記録媒体(光ディスク(CD、DVD)など)、光磁気記録媒体、半導体メモリなどのコンピュータ読み取り可能な各種の記録媒体にマスカ音信号を記録可能である。また、当該マスカ音信号のファイルをインターネットのようなネットワーク経由でダウンロードさせることも可能である。
 本出願は、2010年11月25日出願の日本特許出願(特願2010-262250)、2011年3月2日出願の日本特許出願(特願2011-044873)、及び2011年11月18日出願の日本特許出願(特願2011-252833)に基づくものであり、その内容はここに参照として取り込まれる。
 本発明のマスカ音生成装置によれば、マスカ音を放音する空間内におけるマスキング効果を確保しつつ、その空間内の者に与える違和感を軽減することができる。
10…マスカ音生成装置、11…マイクロホン、12…A/D変換部、13…記憶部、14…制御部、15…書込制御部、21…CPU、22…RAM、23…ROM、24…マスカ音生成プログラム、30…記憶媒体、50…マスカ音再生装置、51…衝立、52…スピーカ

Claims (11)

  1.  音声を示す音信号列を取得する取得手段と、
     音信号列内の異なる区間の音信号列を複数取り出し、取り出した各音信号列を時間軸上において重ね合わせる重ね合わせ手段を含み、前記取得手段により取得され、前記重ね合わせ手段の処理を経た音信号列からマスカ音信号を生成する生成手段と
     を具備することを特徴とするマスカ音生成装置。
  2.  前記重ね合わせ手段は、処理対象である音信号列に対して当該音信号列内の基準位置の前までの音信号列とその基準位置の後からの音信号列とを入れ替える処理であるシフト処理を施し、シフト処理を施した音信号列とシフト処理を施す前の元の音信号列とを加算した音信号列を出力するシフト加算手段を含むことを特徴とする請求項1に記載のマスカ音生成装置。
  3.  前記重ね合わせ手段は、処理対象である音信号列に対して各々当該音信号列内の異なる基準位置の前までの音信号列とその基準位置の後からの音信号列とを入れ替える処理である複数のシフト処理を施し、複数のシフト処理により得られる複数の音信号列を加算した音信号列を出力するシフト加算手段を含むことを特徴とする請求項1に記載のマスカ音生成装置。
  4.  前記重ね合わせ手段は、処理対象である音信号列を時間軸上においてより時間長の短い音信号列に分割して加算する分割加算手段を含み、
     前記分割加算手段および前記シフト加算手段の各処理を経た音信号列を出力することを特徴とする請求項2または3に記載のマスカ音生成装置。
  5.  前記重ね合わせ手段は、
     処理対象である音信号列を複数の区間に区切り、区切った各区間内の音信号の配列順を前後逆転させ、この配列順を前後逆転させた音信号列を生成する逆転手段を含み、前記逆転手段の処理を経た音信号列を前記シフト加算手段の処理対象とすることを特徴とする請求項2~4のいずれか1項の請求項に記載のマスカ音生成装置。
  6.  前記重ね合わせ手段は、
     処理対象である音信号列を複数の区間に区切り、区切った各区間内の音信号の配列列を前後逆転させ、この配列順を前後逆転させた音信号列を生成する逆転手段を含み、前記シフト加算手段および前記逆転手段の各処理を経た音信号列を出力することを特徴とする請求項2~4のいずれか1項の請求項に記載のマスカ音生成装置。
  7.  前記重ね合わせ手段は、
     処理対象である音信号列を時間軸上においてより時間長の短い音信号列に分割して加算する分割加算手段と、
     前記分割加算手段の処理を経た音信号列に対して当該音信号列内の異なる基準位置の前までの音信号列とその基準位置の後からの音信号列とを入れ替える処理であるシフト処理を各々施す複数のシフト手段と、
     前記複数のシフト手段の処理を経た音信号列を加算する加算手段と
     を含むことを特徴とする請求項1に記載のマスカ音生成装置。
  8.  前記重ね合わせ手段は、各々の処理対象である音信号列に対して当該音信号列内の異なる基準位置の前までの音信号列とその基準位置の後からの音信号列とを入れ替える処理であるシフト処理を各々施す複数のシフト手段と、
     前記複数のシフト手段の処理を経た各音信号列を各々の処理対象とし、各々の処理対象である音信号列を複数の区間に区切った各区間内の音信号列を前後逆転させ、この配列順を前後逆転させた音信号列を各々生成する複数の逆転手段と、
     前記複数の逆転手段の処理を経た各音信号列を加算する加算手段と
     を含むことを特徴とする請求項1に記載のマスカ音生成装置。
  9.  請求項1~8のいずれか1項の請求項に記載のマスカ音生成装置により出力されたマスカ音信号を記憶した記憶媒体。
  10.  請求項1~8のいずれか1項の請求項に記載のマスカ音生成装置により出力されたマスカ音信号をマスカ音として放音するマスカ音再生装置。
  11.  コンピュータに、
     音声を示す音信号列を取得する取得手段と、
     音信号列内の異なる区間の複数の音信号列を取り出し、取り出した各音信号列を時間軸上において重ね合わせる重ね合わせ手段を含み、前記取得手段により取得され、前記重ね合わせ手段の処理を経た音信号列からマスカ音信号を生成する生成手段と
     を実現させるプログラム。
PCT/JP2011/077222 2010-11-25 2011-11-25 マスカ音生成装置、マスカ音信号を記憶した記憶媒体、マスカ音再生装置、およびプログラム WO2012070655A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP11843925.6A EP2645361A4 (en) 2010-11-25 2011-11-25 Masker sound generation device, storage medium which stores masker sound signal, masker sound player device, and program
CN201180056474.2A CN103238179B (zh) 2010-11-25 2011-11-25 掩蔽声产生设备、存储有掩蔽声信号的存储介质、掩蔽声再现设备
US13/989,775 US9390703B2 (en) 2010-11-25 2011-11-25 Masking sound generating apparatus, storage medium stored with masking sound signal, masking sound reproducing apparatus, and program

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP2010-262250 2010-11-25
JP2010262250 2010-11-25
JP2011-044873 2011-03-02
JP2011044873 2011-03-02
JP2011-252833 2011-11-18
JP2011252833A JP6007481B2 (ja) 2010-11-25 2011-11-18 マスカ音生成装置、マスカ音信号を記憶した記憶媒体、マスカ音再生装置、およびプログラム

Publications (1)

Publication Number Publication Date
WO2012070655A1 true WO2012070655A1 (ja) 2012-05-31

Family

ID=46145992

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/077222 WO2012070655A1 (ja) 2010-11-25 2011-11-25 マスカ音生成装置、マスカ音信号を記憶した記憶媒体、マスカ音再生装置、およびプログラム

Country Status (5)

Country Link
US (1) US9390703B2 (ja)
EP (1) EP2645361A4 (ja)
JP (1) JP6007481B2 (ja)
CN (1) CN103238179B (ja)
WO (1) WO2012070655A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115512683A (zh) * 2022-09-21 2022-12-23 中国人民解放军61623部队 语音处理方法、装置、计算机设备和存储介质

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130259254A1 (en) * 2012-03-28 2013-10-03 Qualcomm Incorporated Systems, methods, and apparatus for producing a directional sound field
US10448161B2 (en) 2012-04-02 2019-10-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for gestural manipulation of a sound field
US10497356B2 (en) * 2015-05-18 2019-12-03 Panasonic Intellectual Property Management Co., Ltd. Directionality control system and sound output control method
CN105185370B (zh) * 2015-08-10 2019-02-12 电子科技大学 一种声掩蔽门
US20170256251A1 (en) * 2016-03-01 2017-09-07 Guardian Industries Corp. Acoustic wall assembly having double-wall configuration and active noise-disruptive properties, and/or method of making and/or using the same
US10354638B2 (en) * 2016-03-01 2019-07-16 Guardian Glass, LLC Acoustic wall assembly having active noise-disruptive properties, and/or method of making and/or using the same
US10134379B2 (en) 2016-03-01 2018-11-20 Guardian Glass, LLC Acoustic wall assembly having double-wall configuration and passive noise-disruptive properties, and/or method of making and/or using the same
WO2017201269A1 (en) 2016-05-20 2017-11-23 Cambridge Sound Management, Inc. Self-powered loudspeaker for sound masking
US10373626B2 (en) 2017-03-15 2019-08-06 Guardian Glass, LLC Speech privacy system and/or associated method
US10304473B2 (en) 2017-03-15 2019-05-28 Guardian Glass, LLC Speech privacy system and/or associated method
US10726855B2 (en) 2017-03-15 2020-07-28 Guardian Glass, Llc. Speech privacy system and/or associated method
JP6866764B2 (ja) * 2017-05-22 2021-04-28 ヤマハ株式会社 音声処理システム及び音声処理装置
JP7287182B2 (ja) * 2019-08-21 2023-06-06 沖電気工業株式会社 音響処理装置、音響処理プログラム及び音響処理方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006243178A (ja) * 2005-03-01 2006-09-14 Japan Advanced Institute Of Science & Technology Hokuriku 音声処理方法と装置及びプログラム並びに音声システム
JP2008090296A (ja) * 2006-09-07 2008-04-17 Yamaha Corp 音声スクランブル信号作成方法と装置及び音声スクランブル方法と装置
JP2008107706A (ja) 2006-10-27 2008-05-08 Yamaha Corp 話速変換装置およびプログラム
JP2008209785A (ja) * 2007-02-27 2008-09-11 Yamaha Corp サウンドマスキングシステム
JP2008233671A (ja) * 2007-03-22 2008-10-02 Yamaha Corp サウンドマスキングシステム、マスキングサウンド生成方法およびプログラム
JP4324104B2 (ja) 2002-07-24 2009-09-02 アプライド マインズ インク 言語をマスキングするための方法およびシステム
JP2010262250A (ja) 2009-05-11 2010-11-18 Kaseihin Shoji Kk ウレタンレンズの後処理法と染色法並びに染色レンズ
JP2011044873A (ja) 2009-08-20 2011-03-03 Hitachi Kokusai Electric Inc 映像監視システム
JP2011252833A (ja) 2010-06-03 2011-12-15 Mitsubishi Electric Corp 位置標定装置、位置標定方法および位置標定プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4582384B2 (ja) * 1999-10-29 2010-11-17 ソニー株式会社 信号処理装置及びその方法並びにプログラム格納媒体
US20080243492A1 (en) * 2006-09-07 2008-10-02 Yamaha Corporation Voice-scrambling-signal creation method and apparatus, and computer-readable storage medium therefor

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4324104B2 (ja) 2002-07-24 2009-09-02 アプライド マインズ インク 言語をマスキングするための方法およびシステム
JP2006243178A (ja) * 2005-03-01 2006-09-14 Japan Advanced Institute Of Science & Technology Hokuriku 音声処理方法と装置及びプログラム並びに音声システム
JP2008090296A (ja) * 2006-09-07 2008-04-17 Yamaha Corp 音声スクランブル信号作成方法と装置及び音声スクランブル方法と装置
JP2008107706A (ja) 2006-10-27 2008-05-08 Yamaha Corp 話速変換装置およびプログラム
JP2008209785A (ja) * 2007-02-27 2008-09-11 Yamaha Corp サウンドマスキングシステム
JP2008233671A (ja) * 2007-03-22 2008-10-02 Yamaha Corp サウンドマスキングシステム、マスキングサウンド生成方法およびプログラム
JP2010262250A (ja) 2009-05-11 2010-11-18 Kaseihin Shoji Kk ウレタンレンズの後処理法と染色法並びに染色レンズ
JP2011044873A (ja) 2009-08-20 2011-03-03 Hitachi Kokusai Electric Inc 映像監視システム
JP2011252833A (ja) 2010-06-03 2011-12-15 Mitsubishi Electric Corp 位置標定装置、位置標定方法および位置標定プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP2645361A4 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115512683A (zh) * 2022-09-21 2022-12-23 中国人民解放军61623部队 语音处理方法、装置、计算机设备和存储介质
CN115512683B (zh) * 2022-09-21 2024-05-24 中国人民解放军61623部队 语音处理方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN103238179B (zh) 2015-07-15
US20130315413A1 (en) 2013-11-28
US9390703B2 (en) 2016-07-12
EP2645361A4 (en) 2017-11-08
JP6007481B2 (ja) 2016-10-12
EP2645361A1 (en) 2013-10-02
JP2012194528A (ja) 2012-10-11
CN103238179A (zh) 2013-08-07

Similar Documents

Publication Publication Date Title
JP6007481B2 (ja) マスカ音生成装置、マスカ音信号を記憶した記憶媒体、マスカ音再生装置、およびプログラム
JP6178456B2 (ja) デジタル音声信号からハプティック・イベントを自動生成するシステム及び方法
JP5179881B2 (ja) オーディオソースのパラメトリックジョイント符号化
JP4664431B2 (ja) アンビエンス信号を生成するための装置および方法
CN103262154B (zh) 掩蔽声音产生装置和掩蔽声音输出装置
JP2008233671A (ja) サウンドマスキングシステム、マスキングサウンド生成方法およびプログラム
JP2008516290A (ja) 非相関信号を用いた音声符号化
CN103650538B (zh) 用于使用采用谱权重生成器的频域处理分解立体声录音的方法和装置
JP5282832B2 (ja) 音声スクランブルのための方法および装置
KR101489035B1 (ko) 오디오 신호 프로세싱을 위한 방법 및 장치
TWI468031B (zh) 用以產生供提供額外輸出聲道的立體音響輸出信號之裝置、方法及電腦程式
JP4924309B2 (ja) 音声スクランブル信号作成方法と装置及び音声スクランブル方法と装置
JP5237463B2 (ja) マルチチャンネルオーディオ信号を生成するための装置
JP4564416B2 (ja) 音声合成装置および音声合成プログラム
JP4019759B2 (ja) 残響付与方法、インパルス応答供給制御方法、残響付与装置、インパルス応答補正装置、プログラム及び該プログラムを記録した記録媒体
JP3901475B2 (ja) 信号結合装置、信号結合方法及びプログラム
JP3829134B2 (ja) 生成装置、再生装置、生成方法、再生方法、および、プログラム
JP3756864B2 (ja) 音声合成方法と装置及び音声合成プログラム
WO2018029740A1 (ja) 再生装置及び再生方法
JP5925493B2 (ja) 会話保護システム及び会話保護方法
JP7160264B2 (ja) 音データ処理装置、音データ処理方法及び音データ処理プログラム
CA3235626A1 (en) Generating tonally compatible, synchronized neural beats for digital audio files
WO2016148298A1 (ja) 信号処理装置及び信号処理方法
JP2008191292A (ja) 音声合成方法、プログラム及び音声合成装置並びに音楽音声再生装置
JP2005121743A (ja) オーディオデータ符号化方法、オーディオデータ復号方法、オーディオデータ符号化装置、オーディオデータ復号装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11843925

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2011843925

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 13989775

Country of ref document: US