WO2012043597A1 - マスカ音出力装置及びマスカ音出力方法 - Google Patents

マスカ音出力装置及びマスカ音出力方法 Download PDF

Info

Publication number
WO2012043597A1
WO2012043597A1 PCT/JP2011/072131 JP2011072131W WO2012043597A1 WO 2012043597 A1 WO2012043597 A1 WO 2012043597A1 JP 2011072131 W JP2011072131 W JP 2011072131W WO 2012043597 A1 WO2012043597 A1 WO 2012043597A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
masker
masker sound
output
acoustic feature
Prior art date
Application number
PCT/JP2011/072131
Other languages
English (en)
French (fr)
Inventor
宏明 古賀
小林 詠子
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Priority to US13/822,166 priority Critical patent/US9286880B2/en
Priority to CN201180044837.0A priority patent/CN103109317B/zh
Publication of WO2012043597A1 publication Critical patent/WO2012043597A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/002Devices for damping, suppressing, obstructing or conducting sound in acoustic devices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/1752Masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/40Jamming having variable characteristics
    • H04K3/41Jamming having variable characteristics characterized by the control of the jamming activation or deactivation time
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/40Jamming having variable characteristics
    • H04K3/45Jamming having variable characteristics characterized by including monitoring of the target or target signal, e.g. in reactive jammers or follower jammers for example by means of an alternation of jamming phases and monitoring phases, called "look-through mode"
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/80Jamming or countermeasure characterized by its function
    • H04K3/82Jamming or countermeasure characterized by its function related to preventing surveillance, interception or detection
    • H04K3/825Jamming or countermeasure characterized by its function related to preventing surveillance, interception or detection by jamming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K2203/00Jamming of communication; Countermeasures
    • H04K2203/10Jamming or countermeasure used for a particular application
    • H04K2203/12Jamming or countermeasure used for a particular application for acoustic communication

Definitions

  • the present invention relates to a masker sound output device that outputs a masker sound that masks sound, and a masker sound output method thereof.
  • Patent Document 1 discloses a technique for analyzing a frequency component of a surrounding sound of a listener who has collected sound, generating a sound that becomes another sound by being mixed with the surrounding sound, and outputting the sound. It is disclosed. According to Patent Document 1, it is possible to make the listener hear a good sound that is different from the unpleasant sound without reducing the unpleasant sound, and to provide a comfortable environment space for the listener.
  • Patent Document 1 since all sounds around the listener are masked, sounds that the listener does not feel uncomfortable or even necessary sounds are masked. For this reason, unnecessary processing is performed, and there is a problem that the listener misses necessary information.
  • an object of the present invention is to provide a masker sound output device and a masker sound output method thereof that can select a sound or timing to be masked.
  • a masker sound output device for inputting a sound collection signal related to a collected sound, and extracting an acoustic feature quantity of the sound collection signal
  • a masking sound output device including the output means.
  • the correspondence table indicating the correspondence between the acoustic feature quantity and the masker sound, and the acoustic feature quantity extracted by the extraction means by referring to the correspondence table with the acoustic feature quantity extracted by the extraction means.
  • a masker sound selection means for selecting a masker sound corresponding to the output of the masker sound selected by the masker sound selection means.
  • a plurality of masker sounds are associated with the acoustic feature quantity
  • the masker sound selecting unit is configured to generate a predetermined value from a plurality of masker sounds associated with the acoustic feature quantity in the correspondence table. Select masker sound according to conditions.
  • it further comprises masker sound data storage means for storing sound data relating to masker sound
  • the masker sound selection means receives the instruction to start the output by the instruction reception means and the sound extracted by the extraction means
  • the acoustic feature quantity extracted by the extraction unit and the acoustic feature quantity of the sound data related to the masker sound stored in the masker sound data storage unit Are read out from the masker sound data storage means, and the output means outputs a masker sound corresponding to the sound data.
  • the masker sound selecting unit newly stores the acoustic feature amount extracted by the extracting unit and the sound data relating to the masker sound read from the masker sound data storage unit in the association table.
  • the masker sound output device according to claim 4.
  • general-purpose masker sound storage means for storing sound data related to the general-purpose masker sound is further provided, and the general-purpose masker sound stored in the general-purpose masker sound storage means according to the acoustic feature amount extracted by the extraction means.
  • the sound output signal is further processed according to the acoustic feature amount extracted by the extraction means to further generate a disturbing sound that disturbs the voice to be masked, and the output means includes The masker sound to be output includes the disturbing sound generated by the disturbing sound generating means.
  • the masker sound includes a sound in which a continuous sound and an intermittent sound are synthesized.
  • the combination of the continuous sound and the intermittent sound included in the masker sound is changed according to the time for outputting the masker sound.
  • the masker sound selection unit is configured to match or similar the acoustic feature when the acoustic feature amount extracted by the extraction unit matches or is similar to the acoustic feature amount stored in the association table.
  • the masker sound corresponding to the quantity is selected, and the output means automatically outputs the masker sound selected by the masker sound selection means.
  • an input step for inputting a collected sound signal relating to the collected sound, an extraction step for extracting an acoustic feature amount of the collected sound signal, and an instruction for receiving an instruction to start outputting masker sound Provided is a masker sound output method comprising: a reception step; and an output step of outputting a masker sound corresponding to the acoustic feature amount extracted in the extraction step when the output start instruction is received in the instruction reception step.
  • a masker that selects a masker sound corresponding to the acoustic feature amount extracted in the extraction step with reference to a correspondence table showing a correspondence between the acoustic feature amount and the masker sound.
  • a sound selection step is further provided, and the masker sound selected by the masker sound selection means is output in the output step.
  • a plurality of masker sounds are associated with the acoustic feature quantity.
  • a predetermined mask sound is associated with the acoustic feature quantity in the correspondence table. Select masker sound according to conditions.
  • the apparatus includes a masker sound data storage unit that stores sound data related to a masker sound, and in the masker sound selection step, the instruction to start output is received in the instruction reception step, and the acoustic feature extracted in the extraction step
  • the acoustic feature amount extracted in the extraction step and the acoustic feature amount of the sound data related to the masker sound stored in the masker sound data storage unit In comparison, sound data having an acoustic feature amount similar to the acoustic feature amount extracted in the extraction step is read from the masker sound data storage means, and a masker sound corresponding to the sound data is output in the output step.
  • the acoustic feature amount extracted in the extraction step and the sound data relating to the masker sound read from the masker sound data storage unit are newly associated with each other and stored in the association table. To do.
  • general-purpose masker sound storage means for storing sound data related to the general-purpose masker sound
  • the masker sound output method stores in the general-purpose masker sound storage means in accordance with the acoustic feature amount extracted in the extraction step.
  • a disturbing sound generating step of processing sound data related to the general-purpose masker sound being generated to generate a disturbing sound for disturbing the voice to be masked and the masker sound output in the output step is the disturbing sound generating means Contains the disturbing sound generated by.
  • the sound collection signal is further processed according to the acoustic feature amount extracted in the extraction step to generate a disturbing sound that disturbs the mask target sound, and the output step includes The masker sound to be output includes the disturbing sound generated by the disturbing sound generating means.
  • the masker sound includes a sound in which a continuous sound and an intermittent sound are synthesized.
  • the combination of the continuous sound and the intermittent sound included in the masker sound is changed according to the time for outputting the masker sound.
  • the masker sound selection step if the acoustic feature amount extracted in the extraction step matches or is similar to the acoustic feature amount stored in the association table, the matching or similar acoustic feature A masker sound corresponding to the volume is selected, and in the output step, the masker sound selected in the masker sound selection step is automatically output.
  • the present invention by selecting a sound to be masked, it is possible to avoid missing necessary information or performing unnecessary masker sound generation processing by masking a necessary sound. it can.
  • the masker sound output device analyzes a sound collected by a microphone when a user (listener) performs an operation such as turning on a switch, and performs an appropriate masker sound according to the analysis result. Is output. That is, in the present embodiment, by selecting a sound or timing that the listener wants to mask, a comfortable environment space in which a voice that is not desired to be heard (including noise of an air conditioner or outdoor noise) is masked is formed. Can do.
  • the listener who does not want to hear the voice of the speaker will be described as the user of the masker sound output device.
  • the speaker who does not want the listener to hear the contents of his / her conversation is the user of the masker sound output device. There may be.
  • FIG. 1 is a block diagram schematically showing a configuration of a masker sound output device according to the present embodiment.
  • the masker sound output device 1 includes a control unit 2, a storage unit 3, an operation unit 4, an audio input unit 5, a signal processing unit 6, and an audio output unit 7.
  • the control unit 2 is, for example, a CPU (Central Processing Unit) and controls the operation of the masker sound output device 1.
  • the storage unit 3 is a ROM (Read Only Memory) or a RAM (Random Access Memory) or the like, and stores necessary programs or data read by the control unit 2 and the signal processing unit 6.
  • the operation unit 4 receives user operations.
  • the operation unit 4 is, for example, a power switch of the masker sound output device 1 and a switch that instructs the start of the masker sound output when the user feels uncomfortable.
  • the voice input unit 5 has an A / D converter (not shown) and is connected to a microphone 5A.
  • the audio input unit 5 performs A / D conversion on the collected sound signal input from the microphone 5 ⁇ / b> A by an A / D converter and outputs the signal to the signal processing unit 6.
  • the voice collected by the microphone 5A includes the voice of the speaker, the noise of the air conditioner, the outdoor noise, and the like.
  • the signal processing unit 6 is composed of, for example, a DSP (Digital Signal Processor), performs signal processing on the collected sound signal, and extracts an acoustic feature amount.
  • the acoustic feature amount is a physical amount indicating the feature of sound, and represents, for example, a spectrum (level of each frequency) or a spectrum envelope peak frequency (basic frequency, formant, etc.).
  • FIG. 2 is a block diagram schematically showing the configuration of the control unit 2, the signal processing unit 6, and the storage unit 3.
  • the signal processing unit 6 includes an FFT (Fast Fourier Transform) 61 and a feature amount extraction unit 62.
  • the control unit 2 includes a masker sound selection unit 21.
  • the FFT 61 performs a Fourier transform on the collected sound signal from the audio input unit 5 to convert a time domain signal into a frequency domain signal.
  • the feature amount extraction unit 62 extracts the feature amount (spectrum) of the collected sound signal Fourier-transformed by the FFT 61. Specifically, the feature amount extraction unit 62 calculates a signal intensity for each frequency, extracts a spectrum whose calculated signal strength is equal to or greater than a threshold, and extracts an acoustic feature amount (hereinafter also simply referred to as a feature amount). .
  • the feature quantity is a physical quantity that represents the feature of the sound, and is a spectrum itself (level of each frequency), a thing that represents the frequency of each peak of the spectrum envelope (center frequency and level of each peak), or the like.
  • the feature quantity extraction unit 62 may determine that a spectrum having a signal intensity less than a threshold value as an unnecessary component and set the spectrum to “0”.
  • the threshold value is a value corresponding to at least a level that can be perceived by the listener from input sounds including various sounds such as noise.
  • the threshold value may be set in advance or may be input from the operation unit 4.
  • the masker sound selection unit 21 selects voice data related to a masker sound corresponding to the feature amount extracted by the feature amount extraction unit 62 (hereinafter referred to as masker sound data) from the storage unit 3 and outputs the selected voice data to the voice output unit 7.
  • the storage unit 3 includes a masker sound storage unit 31 and a masker sound selection table 32.
  • the masker sound storage unit 31 stores masker sound data having a plurality of time axis waveforms.
  • the masker sound data may be stored in advance in the masker sound storage unit 31 (for example, from the time of shipment from the factory), or acquired from the outside via a network or the like and stored in the masker sound storage unit 31 each time. Also good.
  • the masker sound selection table 32 is a data table that associates the feature amount of the collected sound signal with the masker sound data stored in the masker sound storage unit 31.
  • FIG. 3 is a diagram schematically showing the masker sound selection table 32.
  • the masker sound selection table 32 has a feature amount column, a time zone column, and a masker sound column, and associates information in each column.
  • the feature amount column stores the feature amount of the collected sound signal extracted by the feature amount extraction unit 62.
  • the masker sound column stores a masker sound corresponding to the feature amount stored in the feature amount column.
  • the masker sound column includes a disturbing sound column, a background sound column, and an effect sound column, and each column stores an address of the masker sound storage unit 31 in which each data is stored.
  • a time zone suitable for outputting the corresponding masker sound is stored in the time zone column.
  • In the disturbance sound column a disturbance sound which is a main masking effect is stored.
  • the disturbing sound is, for example, a conversation sound (a sound that does not make any meaning in terms of vocabulary) in which the content generated by processing the voice of the speaker cannot be understood.
  • the masker sound data includes at least this disturbing sound.
  • the background sound column steady (continuous) background sounds are stored.
  • the background sound is, for example, a sound such as BGM, river murmur, and buzzing trees.
  • sounds with high directivity (effect sound) generated non-stationarily (intermittently) such as piano sound, chime sound and bell sound are stored.
  • the background sound is repeatedly reproduced and output.
  • the effect sound is output at random or when the background sound that is repeatedly reproduced and output is started. Further, the output time of the effect sound may be determined by a data table.
  • Disturbing sounds are meaningless in terms of vocabulary, so they may feel uncomfortable. Therefore, the background noise increases the background noise level and makes the sound such as the above disturbance sound inconspicuous, thereby reducing the sense of discomfort due to the disturbance sound. In addition, the production sound attracts the listener's attention and makes the unnaturalness of the disturbing sound inconspicuous psychologically.
  • BGM is a song with a slow tempo or a song with an up-tempo
  • a sound suitable for an output time zone of a masker sound is synthesized with a disturbing sound A.
  • a slow tempo BGM1 is displayed in the morning from 10:00 to 12:00
  • an uptempo BGM2 is displayed in the afternoon from 14:00 to 15:00 (afternoon).
  • a production sound suitable for the masking sound output time zone for example, a chime sound is synthesized with the disturbing sound A in the morning and a piano sound in the early afternoon.
  • the feature quantity B is associated with masking sound data in which a background sound as a river sound and a production sound as a bell sound are combined with a disturbing sound B (for example, a speaker's voice).
  • the masker sound selection unit 21 refers to the address related to the masker sound selected from the masker sound selection table 32 and acquires masker sound data from the masker sound storage unit 31. For example, the masker sound selection unit 21 performs matching (comparison by cross-correlation, etc.) between the feature amount extracted by the feature amount extraction unit 62 and the feature amount stored in the feature amount column, and determines that they match or substantially match. Search for features that are as similar as possible. As a result of the search, for example, when the feature amount extracted by the feature amount extraction unit 62 substantially coincides with the feature amount A and the current time is 11:00, the masker sound selection unit 21 refers to the masker sound selection table 32 and performs feature processing.
  • a masker sound “disturbance sound A + BGM1 + chime sound” corresponding to the amount A and the current time (11:00) is selected.
  • the masker sound selection unit 21 displays the masker sound “disturbance sound A + trees” in which the time zone column is blank in the table. Select noisy Sound.
  • the masker sound selected by the masker sound selection unit 21 is output, the target sound is disturbed by the disturbing sound so that it is difficult to hear (cannot understand the contents), while the background sound or the production sound, It is possible to prevent the listener from feeling unpleasant when disturbing. Note that when a plurality of masker sounds correspond to one feature amount, the user may be able to manually select a desired masker sound from the operation unit 4.
  • the masker sound selection table 32 shown in FIG. Specifically, when the user performs a masker sound output start operation from the operation unit 4, the masker sound selection unit 21 stores the feature amount extracted by the feature amount extraction unit 62 in the masker sound selection table 32. It is determined whether or not. When it is determined that the feature quantity extracted by the feature quantity extraction unit 62 is not stored in the masker sound selection table 32, the masker sound selection unit 21 selects masker sound data suitable for the feature quantity from the masker sound storage unit 31. To do. For example, the masker sound selection unit 21 calculates the cross-correlation between the feature amount extracted by the feature amount extraction unit 62 and the feature amount of the plurality of masker sound data among the masker sound data stored in the masker sound storage unit 31.
  • the masker sound selection unit 21 may select a plurality of masker sound data in descending order of correlation.
  • the masker sound selection unit 21 inputs each masker sound data to the signal processing unit 6, and the signal processing unit 6
  • the feature amount may be extracted by converting it into a signal in the frequency domain.
  • information indicating the feature amount of the masker sound data (for example, a peak value of the spectrum) is included in the masker sound data stored in the masker sound storage unit 31. It may be added as a header.
  • the masker sound selection unit 21 only obtains a correlation between the feature amount extracted by the feature amount extraction unit 62 and the header (information indicating the feature amount) of each masker sound data stored in the masker sound storage unit 31.
  • the masker sound data selection process from the masker sound storage unit 31 performed by the masker sound selection unit 21 can be shortened.
  • the masker sound selection unit 21 selects masker sound data having a feature quantity highly correlated with the feature quantity extracted by the feature quantity extraction unit 62 as described above, and extracts the address where the selected masker sound data is stored. Corresponding to the feature amount, it is newly stored (registered) in the masker sound selection table 32. At this time, in the time zone column, the time or season in which the feature amount or the like is stored in the masker sound selection table 32 may be stored, or the time zone or season set in advance in the selected masker sound data is stored. May be. In addition, when a plurality of masker sound data is selected for one feature amount, the user may be able to set a time zone and a season for outputting each masker sound data from the operation unit 4.
  • the masker sound selection unit 21 performs correlation from an external device.
  • High masker sound data may be acquired.
  • the external device may be, for example, a personal computer connected to the masker sound output device or a server device connected via a network.
  • the masker sound selection unit 21 is suitable for the extracted feature amount.
  • Maska sound data can be selected automatically. If the extracted feature value is not registered in the masker sound selection table 32, the masker sound selection unit 21 selects a masker sound data suitable for the extracted feature value from the masker sound storage unit 31 (a plurality of masker sound data). Etc.) each time a masker sound is output, the processing takes time.
  • the masker sound selection table 32 it is only necessary to read out the corresponding masker sound data, so the time until the masker sound is output can be shortened and the voice of the speaker is masked comfortably. New environmental space can be formed faster.
  • the same masker sound is not always output even when the same voice is collected. It is possible to suppress the effect and always mask appropriately.
  • masker sound data suitable for each time zone such as morning, noon, and evening, a more comfortable environment space can be formed.
  • FIG. 4 is a block diagram schematically showing functions of the control unit 2 and the signal processing unit 6 when processing stored sound data.
  • the signal processing unit 6 shown in FIG. 4 includes a masker sound processing unit 64 in addition to the configuration of the signal processing unit 6 shown in FIG.
  • the storage unit 3 includes a general-purpose masker sound storage unit 33 that stores general-purpose masker sound (for example, content that cannot be understood by voices of a plurality of men and women), and a background sound storage unit 34 that stores background sound data (such as BGM). And an effect sound storage unit 35 for storing effect sound data (such as intermittently generated melody).
  • the masker sound selection unit 21 acquires general-purpose masker sound data from the general-purpose masker sound storage unit 33 and outputs it to the masker sound processing unit 64.
  • the masker sound processing unit 64 converts the input masker sound data into a frequency domain signal, and processes the frequency characteristics of the masker sound data according to the feature amount of the collected sound signal input from the masker sound selection unit 21. For example, the formant of the general-purpose masker sound is matched with the formant of the collected sound signal. Then, the processed masker sound data is converted into a time domain signal and output to the masker sound selector 21.
  • the masker sound selection unit 21 selects BGM or piano sound from the background sound storage unit 34 and the production sound storage unit 35 arbitrarily or according to a user instruction, synthesizes the processed general-purpose masker sound data, Output to the output unit 7.
  • the speaker's voice is disturbed by a general-purpose masker sound close to the speaker's voice, and the listener can be prevented from giving the listener the unpleasant feeling caused by masking with the background sound or the effect sound.
  • the feature amount of the sound pickup signal extracted once may be associated with each data acquired from the storage unit 3 and stored in a table as shown in FIG. This eliminates the need to instruct the background sound or effect sound selection process thereafter.
  • the signal processing unit 6 may process the collected sound signal and include it in masker sound data for output. In this case, the signal processing unit 6 modifies the collected sound signal on the time axis or the frequency axis, and converts it into a sound whose contents cannot be understood.
  • FIG. 5 is a block diagram schematically illustrating functions of the control unit 2 and the signal processing unit 6 when the sound collection signal is modified on the frequency axis.
  • the signal processing unit 6 includes a masker sound processing unit 65 and an IFFT (Inverse FFT) 66 in addition to the configuration of the signal processing unit 6 shown in FIG.
  • IFFT Inverse FFT
  • the masker sound processing unit 65 extracts, for example, a formant frequency from the collected sound signal from the feature amount extracted by the feature amount extraction unit 62, breaks the phoneme by inverting the higher-order formant, etc., and generates a disturbing sound.
  • the IFFT 66 converts the frequency domain signal processed by the masker sound processing unit 65 into a time axis domain signal.
  • the masker sound selection unit 21 of the control unit 2 acquires the background sound and the production sound stored in the background sound storage unit 34 and the production sound storage unit 35 of the storage unit 3 according to the time zone, season, or user instruction. To do.
  • the control unit 2 synthesizes the disturbance sound converted into the signal in the time axis region by the IFFT 66, the background sound and the effect sound acquired by the masker sound selection unit, and outputs the synthesized sound to the audio output unit 7.
  • the control unit 2 synthesizes the disturbance sound converted into the signal in the time axis region by the IFFT 66, the background sound and the effect sound acquired by the masker sound selection unit, and outputs the synthesized sound to the audio output unit 7.
  • the control unit 2 synthesizes the disturbance sound converted into the signal in the time axis region by the IFFT 66, the background sound and the effect sound acquired by the masker sound selection unit, and outputs the synthesized sound to the audio output unit 7.
  • the masker sound output device 1 includes an echo canceling unit 8 that removes echoes from the collected sound signal from the voice input unit 5.
  • the microphone 5 ⁇ / b> A collects a wraparound component of the masker sound, so that an echo is included in the collected sound signal.
  • the echo cancellation unit 8 includes an adaptive filter, and the masker sound (time domain signal) is input from the audio output unit 7 and subjected to filter processing, whereby the masker sound output from the speaker 7A wraps around the microphone 5A.
  • a pseudo regression sound signal that is a pseudo signal of a component is generated, and the echo is removed by subtracting the pseudo regression sound signal from the collected sound signal.
  • the signal processing unit 6 at the subsequent stage can remove the masker sound that wraps around the microphone 5A from the collected sound signal, and can accurately extract the voice of the speaker.
  • the echo canceling unit 8 may be provided in the subsequent stage of the voice input unit 5 even in the configuration shown in FIGS. 1 and 2.
  • the signal processing unit 6 extracts feature amounts and processes sound data, but the control unit 2 is stored in the storage unit 3. You may make it implement
  • the audio output unit 7 has a D / A converter and an amplifier (not shown), and is connected to a speaker 7A.
  • the audio output unit 7 D / A converts the signal related to masker sound data determined by the signal processing unit 6 with a D / A converter and adjusts the amplitude (volume) to an optimum value with an amplifier, and then the speaker 7A. Output as a masker sound.
  • FIG. 6 is a flowchart showing a procedure of processing executed by the masker sound output apparatus 1. The processing shown in FIG. 6 is executed by the control unit 2 and the signal processing unit 6.
  • the control unit 2 determines whether or not a sound collection signal of a level that can be determined as sound is input from the voice input unit 5 (S1). If no sound collection signal is input (S1: NO), the operation in FIG. 6 is terminated.
  • the signal processing unit 6 performs the Fourier transform by the FFT 61, and then extracts the feature amount of the collected sound signal (S2).
  • the control unit 2 determines whether or not a masker sound output start instruction has been received from the operation unit 4 (S3). When the output start instruction has not been received (S3: NO), the process illustrated in FIG.
  • the control unit 2 searches the feature value extracted in S2 from the masker sound selection table 32 (S4).
  • the control unit 2 determines whether or not the feature amount extracted in S2 is stored in the masker sound selection table 32 (S5).
  • the control unit 2 performs masker sound data suitable for the extracted feature quantity. Is selected from the masker sound storage unit 31 (S6).
  • the control unit 2 may select masker sound data that is most similar to the extracted feature quantity, or may select a plurality of masker sound data. Moreover, you may make it the control part 2 select the masker sound data which the user selected.
  • the control unit 2 stores the extracted feature amount and the address where the selected masker sound data is stored in the masker sound selection table 32, and updates the masker sound selection table 32 (S7). Next, the control unit 2 acquires masker sound data corresponding to the extracted feature amount from the masker sound storage unit 31 (S8). Specifically, the control unit 2 refers to the masker sound selection table 32, selects a masker sound corresponding to the extracted feature value, acquires an address where masker sound data of the selected masker sound is stored, Data (masker sound data) stored at the address is acquired. The control unit 2 outputs the acquired masker sound data to the voice output unit 7 (S9), and outputs it as a masker sound from the speaker 7A.
  • FIG. 7 is a flowchart illustrating a procedure of processing executed by the masker sound output device 1 when the masker sound output is automatically started.
  • the control unit 2 determines whether or not a sound collection signal of a level that can be determined to be sound is input from the voice input unit 5 (S11). If no sound collection signal is input (S11: NO), the operation shown in FIG. 7 is terminated.
  • the control unit 2 determines whether or not it is set to automatically start outputting masker sound (S12). It is preferable that the user can select from the operation unit 4 whether or not the masker sound output is automatically started. If it is not set to automatically start the masker sound output (S12: NO), the operation shown in FIG. 7 is terminated.
  • the signal processing unit 6 extracts the feature amount of the collected sound signal (S13).
  • the control unit 2 searches the masker sound selection table 32 with the feature amount extracted by the signal processing unit 6, and determines whether or not the extracted feature amount is stored in the masker sound selection table 32 (extracted feature amount and It is determined whether or not the matching feature amount is stored in the masker sound selection table 32 (S14). If no feature value is stored (S14: NO), the operation shown in FIG. 7 is terminated.
  • the control unit 2 acquires masker sound data corresponding to the feature amount extracted in S13 from the masker sound storage unit 31 (S15). The control unit 2 outputs the acquired masker sound data to the voice output unit 7 (S16), and outputs the masker sound data as a masker sound from the speaker 7A, and ends this process.
  • the masker sound output device 1 does not accept a masker sound output start instruction from the user, the voice having the characteristic amount already registered in the masker sound selection table 32 is input from the microphone 5A. Then, the masker sound output can be automatically started.
  • the processing is terminated, but it is suitable for the extracted feature quantity as in S6 and S7 of FIG.
  • the masker sound data is selected from the masker sound storage unit 31, the extracted feature amount and the address where the selected masker sound data is stored are stored in the masker sound selection table 32, and the masker sound selection table 32 is updated. May be.
  • the process shown in FIG. 7 may be stopped, the process after S4 shown in FIG. 6 may be performed, and a masker sound may be output.
  • a masker sound of the collected sound is output. That is, the sound or timing that the listener wants to mask can be selected.
  • the user feels uncomfortable sound, only the sound that each user feels uncomfortable can be masked, and an optimum environment space can be realized for each user.
  • unnecessary processing such as generating masker sounds for sounds that do not require a mask can be reduced.
  • the masker sound output according to time can be changed, a more comfortable environmental space can be provided to a listener.
  • masker sounds to be output for each time are associated, but masker sounds to be output for each season may be associated.
  • the masker sound is automatically output, but when a masker sound output start instruction is not received.
  • the feature quantity extraction unit 62 may extract the feature quantity only when receiving an instruction to start outputting masker sound.
  • the masker sound output device 1 is configured to acquire masker sound data stored by itself, but may be configured to acquire masker sound data stored externally.
  • the masker sound output device 1 may be configured to be connectable to a personal computer, acquire masker sound data stored in the personal computer, and store and store the masker sound data in the storage unit 3.
  • the masker sound output device 1 may be configured such that a general-purpose microphone and a speaker can be connected without integrally including the microphone 5A and the speaker 7A.
  • the masker sound output device 1 is a dedicated device that generates masker sounds, it may be a mobile phone, a PDA (Personal Digital Assistant), a personal computer, or the like.
  • the masker sound output device includes an input unit, an extraction unit, an instruction receiving unit, and an output unit.
  • the input means inputs a sound collection signal related to the collected sound.
  • the extraction means extracts the acoustic feature amount of the collected sound signal.
  • the acoustic feature amount is a physical amount indicating the feature of sound, and represents, for example, a spectrum (level of each frequency) or a spectrum envelope peak frequency (fundamental frequency, formant, etc.).
  • the instruction receiving means receives an instruction to start outputting masker sounds.
  • the output unit outputs a masker sound corresponding to the acoustic feature amount extracted by the extraction unit when the instruction reception unit receives the output start instruction.
  • the extracted acoustic feature is extracted.
  • a masker sound corresponding to the amount is output.
  • the masker sound output apparatus refers to the correlation table that indicates the correlation between the acoustic feature quantity and the masker sound, and the acoustic feature quantity extracted by the extraction unit, and refers to the correlation table, and the acoustic feature quantity
  • a masker sound selecting means for selecting a masker sound corresponding to the above is also possible.
  • the output means outputs the masker sound selected by the masker sound selection means.
  • the masker sound corresponding to the collected sound is automatically output by referring to the table showing the correspondence between the acoustic feature amount related to the collected sound and the masker sound to be output. Will be.
  • a plurality of masker sounds are associated with the acoustic feature quantity, and the masker sound selecting unit may select a masker sound according to a predetermined condition from the plurality of masker sounds associated with the association table. is there.
  • the masker sound output device may be configured to include masker sound data storage means for storing sound data related to the masker sound.
  • the masker sound selection unit receives the instruction to start the output by the instruction reception unit, and determines that the acoustic feature amount extracted by the extraction unit is not described in the association table.
  • the acoustic feature quantity extracted by the means is compared with the acoustic feature quantity of the sound data related to the masker sound stored in the masker sound data storage means, and the data related to the masker sound corresponding to the acoustic feature quantity is compared with the masker sound data. Read from the storage means and output to the output means.
  • the masker sound data storage means by storing the sound data related to the masker sound in the masker sound data storage means, even if there is no masker sound corresponding to the collected sound, the masker suitable for the extracted acoustic feature amount is stored. Sounds (for example, those having similar acoustic features) can be automatically output.
  • the masker sound selection means records the acoustic feature amount extracted by the extraction means and the sound data related to the read masker sound in a newly associated relationship in the correspondence table.
  • the masker sound output device further includes a general-purpose masker sound storage unit that stores sound data related to the general-purpose masker sound, and is stored in the general-purpose masker sound storage unit according to the acoustic feature amount extracted by the extraction unit.
  • the sound data relating to the general-purpose masker sound is processed to generate a disturbing sound generating means for disturbing the voice to be masked, and the masker sound output from the output means is generated by the disturbing sound generating means. It is preferable that a disturbing sound is included.
  • the general-purpose masker sound stored in the general-purpose masker sound storage means is processed according to the acoustic feature amount of the collected sound signal to generate a disturbing sound.
  • General-purpose masker sounds are, for example, those whose contents cannot be understood by the voices of a plurality of men and women (which have no lexical meaning).
  • the disturbing sound is obtained by bringing the feature amount of the general-purpose masker sound close to the feature amount of the collected voice.
  • Disturbing sounds like general-purpose masker sounds, have no lexical meaning, and have a sound quality (voice quality) and pitch that are close to the masked sound, so that a high masking effect is obtained. Can do.
  • the masker sound output device may be configured such that the sound collection signal is processed in accordance with the acoustic feature amount extracted by the extraction unit to generate a disturbing sound that disturbs the voice to be masked.
  • the masker sound output from the output means includes the disturbing sound generated by the disturbing sound generating means.
  • the collected sound is processed to generate a disturbing sound.
  • a disturbance sound is obtained by modifying the frequency characteristics of the collected sound signal and breaking the phoneme.
  • a disturbing sound having substantially the same sound quality (voice quality) and pitch as the actual sound to be masked can be obtained, so that a higher masking effect can be obtained.
  • the masker sound in the said invention contains what synthesize
  • Continuous sounds include disturbance sounds as described above and background sounds (stationary natural sounds) such as river buzzing sounds and noises of trees.
  • the disturbing sound is a phoneme-disrupted sound, so that it may feel uncomfortable. Therefore, by increasing the background noise level by the background sound and making the sound such as the disturbing sound inconspicuous, the uncomfortable feeling of the disturbing sound is reduced.
  • the intermittent sound is, for example, a sound with high performance (production sound) such as a melody sound generated intermittently. This production sound draws the listener's attention and makes the unnaturalness of the disturbing sound inconspicuous.
  • the combination of the continuous sound and the intermittent sound included in the masker sound is changed according to the output of the masker sound.
  • ⁇ By changing the combination of masker sounds according to the time or season (season) of outputting masker sounds more comfortable masker sounds can be output. For example, in the morning time zone, a background sound including a bird cry is output to improve the awakening, and in the night time zone, the production sound is turned off so that the user can relax.
  • the present invention is based on a Japanese patent application filed on September 28, 2010 (Japanese Patent Application No. 2010-216283) and a Japanese patent application filed on March 16, 2011 (Japanese Patent Application No. 2011-057365). Is incorporated herein by reference.
  • the masker sound output start instruction is operated to mask only the sound that the user does not want to hear. it can.
  • the masker sound output start instruction is operated to mask only the sound that the user does not want to hear. it can.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)

Abstract

 マスカ音出力装置は、収音された音に係る収音信号を入力する入力手段と、前記収音信号の音響特徴量を抽出する抽出手段と、マスカ音の出力開始の指示を受け付ける指示受付手段と、前記指示受付手段が前記出力開始の指示を受け付けた場合に、前記抽出手段が抽出した音響特徴量に対応するマスカ音を出力する出力手段と、を備える。

Description

マスカ音出力装置及びマスカ音出力方法
 本発明は、音をマスクするマスカ音を出力するマスカ音出力装置及びそのマスカ音出力方法に関する。
 仕事場などにおいて快適な環境空間を形成するために、聴取者が不快と感じる音を収音し、その音に近い音響特性(周波数特性など)を持つ別の音を出力することで、不快音を聞こえ難くするといったマスキング技術が知られている。例えば、特許文献1には、収音した聴取者の周囲の音の周波数成分を解析して、周囲の音と混じり合うことで別の音となる音を生成し、この音を出力する技術が開示されている。この特許文献1により、不快音を低減せずに、聴取者に不快音とは別の耳触りのよい音を聞かせることができ、聴取者に快適な環境空間を提供することができる。
日本国特開2009-118062号公報
 しかしながら、特許文献1では、聴取者の周囲の全ての音をマスクしているため、聴取者が不快と感じない音又は必要とする音までもがマスクされる。このため、不必要な処理が行われ、また、聴取者が必要な情報を聞き逃すといった問題がある。
 そこで、本発明の目的は、マスクする音又はタイミングを選択することができるマスカ音出力装置及びそのマスカ音出力方法を提供することにある。
 上記目的を達成するために、本発明によれば、マスカ音出力装置であって、収音された音に係る収音信号を入力する入力手段と、前記収音信号の音響特徴量を抽出する抽出手段と、マスカ音の出力開始の指示を受け付ける指示受付手段と、前記指示受付手段が前記出力開始の指示を受け付けた場合に、前記抽出手段が抽出した音響特徴量に対応するマスカ音を出力する出力手段と、を備えるマスカ音出力装置を提供する。
 好適には、前記音響特徴量とマスカ音との対応付けを示した対応付けテーブルと、前記抽出手段が抽出した音響特徴量で前記対応付けテーブルを参照し、前記抽出手段が抽出した音響特徴量に対応するマスカ音を選択するマスカ音選択手段と、をさらに備え、前記出力手段は、前記マスカ音選択手段が選択したマスカ音を出力する。
 好適には、前記音響特徴量には複数のマスカ音が対応付けられており、前記マスカ音選択手段は、前記対応付けテーブルで前記音響特徴量に対応付けられた複数のマスカ音から、所定の条件に従ってマスカ音を選択する。
 好適には、マスカ音に係る音データを記憶するマスカ音データ記憶手段をさらに備え、前記マスカ音選択手段は、前記指示受付手段が前記出力開始の指示を受け付け、かつ前記抽出手段が抽出した音響特徴量が前記対応付けテーブルに記憶されていないと判定した場合に、前記抽出手段が抽出した音響特徴量と前記マスカ音データ記憶手段に記憶されているマスカ音に係る音データの音響特徴量とを比較し、前記抽出手段が抽出した音響特徴量と類似する音響特徴量を持つ音データを前記マスカ音データ記憶手段から読み出して、前記出力手段が前記音データに対応するマスカ音を出力する。
 好適には、前記マスカ音選択手段は、前記抽出手段が抽出した音響特徴量と前記マスカ音データ記憶手段から読み出したマスカ音に係る音データとを、新たに対応づけて前記対応付けテーブルに記憶する請求項4に記載のマスカ音出力装置。
 好適には、汎用マスカ音に係る音データを記憶する汎用マスカ音記憶手段をさらに備え、前記抽出手段が抽出した音響特徴量に合わせて、前記汎用マスカ音記憶手段に記憶されている汎用マスカ音に係る音データを加工して、マスク対象の音声を撹乱する撹乱音を生成する撹乱音生成手段を備え、前記出力手段が出力するマスカ音は、前記撹乱音生成手段が生成した撹乱音を含む。
 好適には、前記抽出手段が抽出した音響特徴量に合わせて、前記収音信号を加工して、マスク対象の音声を撹乱する撹乱音を生成する撹乱音生成手段をさらに備え、前記出力手段が出力するマスカ音は、前記撹乱音生成手段が生成した撹乱音を含む。
 好適には、前記マスカ音は、連続的な音及び断続的な音が合成された音を含む。
 好適には、前記マスカ音に含まれる連続的な音及び断続的な音の組み合わせ態様は、当該マスカ音を出力する時間に応じて変更される。
 好適には、前記マスカ音選択手段は、前記抽出手段が抽出した音響特徴量が、前記対応付テーブルに格納されている音響特徴量と一致又は類似する場合には、前記一致又は類似する音響特徴量に対応するマスカ音を選択し、前記出力手段は、前記マスカ音選択手段が選択したマスカ音を自動的に出力する。
 また、本発明によれば、収音された音に係る収音信号を入力する入力ステップと、前記収音信号の音響特徴量を抽出する抽出ステップと、マスカ音の出力開始の指示を受け付ける指示受付ステップと、前記指示受付ステップで前記出力開始の指示を受け付けた場合に、前記抽出ステップで抽出した音響特徴量に対応するマスカ音を出力する出力ステップと、を備えるマスカ音出力方法を提供する。
 好適には、前記マスカ音出力方法は、前記音響特徴量とマスカ音との対応付けを示した対応付けテーブルを参照し、前記抽出ステップで抽出した音響特徴量に対応するマスカ音を選択するマスカ音選択ステップをさらに備え、前記出力ステップで、前記マスカ音選択手段で選択したマスカ音を出力する。
 好適には、前記音響特徴量には複数のマスカ音が対応付けられており、前記マスカ音選択ステップでは、前記対応付けテーブルで前記音響特徴量に対応付けられた複数のマスカ音から、所定の条件に従ってマスカ音を選択する。
 好適には、マスカ音に係る音データを記憶するマスカ音データ記憶手段を備え、前記マスカ音選択ステップでは、前記指示受付ステップで前記出力開始の指示を受け付け、かつ前記抽出ステップで抽出した音響特徴量が前記対応付けテーブルに記憶されていないと判定した場合に、前記抽出ステップで抽出した音響特徴量と前記マスカ音データ記憶手段に記憶されているマスカ音に係る音データの音響特徴量とを比較し、前記抽出ステップで抽出した音響特徴量と類似する音響特徴量を持つ音データを前記マスカ音データ記憶手段から読み出して前記出力ステップで前記音データに対応するマスカ音を出力する。
 好適には、前記マスカ音選択ステップでは、前記抽出ステップで抽出した音響特徴量と前記マスカ音データ記憶手段から読み出したマスカ音に係る音データとを、新たに対応づけて前記対応付けテーブルに記憶する。
 好適には、汎用マスカ音に係る音データを記憶する汎用マスカ音記憶手段を備え、前記マスカ音出力方法は、前記抽出ステップで抽出した音響特徴量に合わせて、前記汎用マスカ音記憶手段に記憶されている汎用マスカ音に係る音データを加工して、マスク対象の音声を撹乱する撹乱音を生成する撹乱音生成ステップをさらに備え、前記出力ステップで出力するマスカ音は、前記撹乱音生成手段が生成した撹乱音を含む。
 好適には、前記抽出ステップで抽出した音響特徴量に合わせて、前記収音信号を加工して、マスク対象の音声を撹乱する撹乱音を生成する撹乱音生成ステップをさらに備え、前記出力ステップで出力するマスカ音は、前記撹乱音生成手段が生成した撹乱音を含む。
 好適には、前記マスカ音は、連続的な音及び断続的な音が合成された音を含む。
 好適には、前記マスカ音に含まれる連続的な音及び断続的な音の組み合わせ態様は、当該マスカ音を出力する時間に応じて変更される。
 好適には、前記マスカ音選択ステップでは、前記抽出ステップで抽出した音響特徴量が、前記対応付テーブルに格納されている音響特徴量と一致又は類似する場合には、前記一致又は類似する音響特徴量に対応するマスカ音を選択し、前記出力ステップでは、前記マスカ音選択ステップで選択したマスカ音を自動的に出力する。
 本発明によれば、マスクする音を選択することで、必要な音がマスクされることで必要な情報を聞き逃したり、不必要なマスカ音の生成処理を行ったりすることを回避することができる。
実施形態に係るマスカ音出力装置の構成を模式的に示すブロック図である。 マスカ音出力装置の信号処理部及び記憶部の構成を模式的に示すブロック図である。 マスカ音選択テーブルを模式的に示す図である。 記憶された音データを加工する場合における、信号処理部が有する機能を模式的に示すブロック図である。 収音信号を周波数軸で改変する場合に、信号処理部が有する機能を模式的に示すブロック図である。 マスカ音出力装置で実行される処理の手順を示すフローチャートである。 自動でマスカ音の出力を開始する場合に、マスカ音出力装置で実行される処理の手順を示すフローチャートである。
 以下、本発明に係るマスカ音出力装置の好適な実施形態について図面を参照して説明する。本実施形態に係るマスカ音出力装置は、ユーザ(聴取者)がスイッチをオンにするなどの操作を行った際に、マイクロフォンで収音した音を解析し、解析結果に応じた適切なマスカ音を出力する。すなわち、本実施形態では、聴取者がマスクしたい音又はタイミングを選択することで、聞きたくない音声(空調機器の騒音又は室外の騒音などを含む)がマスクされた快適な環境空間を形成することができる。なお、以下では、話者の音声を聞きたくない聴取者をマスカ音出力装置のユーザとして説明するが、自身の会話の内容を聴取者に聞かれたくない話者がマスカ音出力装置のユーザであってもよい。
 図1は、本実施形態に係るマスカ音出力装置の構成を模式的に示すブロック図である。マスカ音出力装置1は、制御部2、記憶部3、操作部4、音声入力部5、信号処理部6及び音声出力部7を備えている。制御部2は、例えばCPU(Central Processing Unit)であって、マスカ音出力装置1の動作を制御する。記憶部3は、ROM(Read Only Memory)又はRAM(Random Access Memory)等であって、制御部2及び信号処理部6などにより読み出される必要なプログラム又はデータなどを記憶する。操作部4は、ユーザの操作を受け付ける。操作部4は、例えばマスカ音出力装置1の電源スイッチ、及びユーザが不快と感じたときにマスカ音の出力の開始を指示するスイッチなどである。
 音声入力部5は、図示しないA/Dコンバータを有しており、マイクロフォン5Aが接続されている。音声入力部5は、マイクロフォン5Aから入力された収音信号をA/DコンバータでA/D変換し、信号処理部6へ出力する。なお、マイクロフォン5Aが収音する音声には、話者の音声、空調機器の騒音又は室外の騒音などを含む。
 信号処理部6は、例えばDSP(Digital Signal Processor)からなり、収音信号に対して信号処理を行い、音響特徴量を抽出する。音響特徴量とは、音の特徴を示す物理量であり、例えばスペクトル(各周波数のレベル)や、スペクトル包絡のピークの周波数(基本周波数、フォルマント等)を表す。図2は、制御部2、信号処理部6及び記憶部3の構成を模式的に示すブロック図である。信号処理部6は、FFT(Fast Fourier Transform)61および特徴量抽出部62を備える。制御部2は、マスカ音選択部21を備える。FFT61は、音声入力部5からの収音信号に対してフーリエ変換を行い、時間領域の信号を周波数領域の信号に変換する。
 特徴量抽出部62は、FFT61によりフーリエ変換された収音信号の特徴量(スペクトル)を抽出する。具体的には、特徴量抽出部62は、周波数毎に信号強度を算出し、算出した信号強度が閾値以上のスペクトルを抽出し、音響特徴量(以下、単に特徴量とも言う。)を抽出する。特徴量は、音の特徴を表す物理量であり、スペクトルそのもの(各周波数のレベル)や、スペクトル包絡の各ピークの周波数を表すもの(各ピークの中心周波数とレベル)等である。なお、特徴量抽出部62は、信号強度が閾値未満のスペクトルを不要成分と判定し、そのスペクトルを「0」としてもよい。閾値は、騒音など様々な音を含む入力音から、少なくとも聴取者が知覚可能なレベルに対応する値である。閾値は、予め設定されていてもよいし、操作部4から入力されてもよい。
 マスカ音選択部21は、特徴量抽出部62が抽出した特徴量に対応するマスカ音に係る音声データ(以下、マスカ音データという)を記憶部3から選択し、音声出力部7へ出力する。記憶部3は、マスカ音記憶部31及びマスカ音選択テーブル32を備えている。マスカ音記憶部31は、複数の時間軸波形のマスカ音データを記憶している。マスカ音データは、予め(例えば工場出荷時から)マスカ音記憶部31に記憶しておいてもよいし、都度、ネットワーク等を経由して外部から取得し、マスカ音記憶部31に記憶してもよい。マスカ音選択テーブル32は、収音信号の特徴量と、マスカ音記憶部31に記憶されたマスカ音データとを対応付けるデータテーブルである。
 図3は、マスカ音選択テーブル32を模式的に示す図である。マスカ音選択テーブル32は、特徴量欄、時間帯欄及びマスカ音欄を有し、各欄の情報をそれぞれ対応付けている。特徴量欄には、特徴量抽出部62で抽出された収音信号の特徴量が格納される。マスカ音欄には、特徴量欄に格納された特徴量に対応するマスカ音が格納される。具体的には、マスカ音欄は、攪乱音欄、背景音欄及び演出音欄からなり、各欄には、各データが記憶されているマスカ音記憶部31のアドレスが格納される。時間帯欄には、対応するマスカ音の出力に適した時間帯が格納される。
 攪乱音欄には、マスキング効果の主となる攪乱音が記憶されている。攪乱音は、例えば、話者の音声が加工されて生成された内容が理解できない会話音(語彙的に何ら意味をなさない音)である。マスカ音データは、少なくともこの攪乱音を含んでいる。背景音欄には、定常的(連続的)な背景音が記憶されている。背景音は、例えばBGM、川のせせらぎ、木々のざわめきなどの音である。演出音欄には、ピアノ音やチャイム音、鐘の音等の非定常的(断続的)に発生する演出性の高い音(演出音)が記憶されている。なお、背景音は、繰り返し再生出力される。演出音は、ランダムに、または、繰り返し再生出力される背景音の繰り返し開始時に出力される。また、演出音は、出力される時間がデータテーブルにより決められていてもよい。撹乱音は、語彙的に意味をなさないものであるため、違和感を覚える場合がある。そこで、背景音により暗騒音レベルを上げ、上記の撹乱音のような音を目立たなくすることで撹乱音による聴感上の違和感を低減する。また、演出音により、聴取者の注意を引き、聴覚心理的に撹乱音の違和感を目立たなくする。
 図3に示す特徴量Aに対応付けられたマスカ音データは、攪乱音Aに、BGMの背景音、及びピアノ音やチャイム音などの演出音が合成されている。BGMは、スローテンポの静かな曲、又はアップテンポの曲などであり、マスカ音の出力時間帯に適した音が、攪乱音Aに合成される。例えば、図3に示すように、朝の10時から12時の時間帯には、スローテンポのBGM1が、午後の14時から15時の時間帯(昼過ぎ)には、アップテンポのBGM2等が、攪乱音Aに合成される。また、マスカ音の出力時間帯に適した演出音として、例えば朝にはチャイム音、昼過ぎにはピアノ音が攪乱音Aに合成される。また、特徴量Bには、攪乱音B(例えば、話者の音声)に、川の音としての背景音、及び鐘の音としての演出音が合成されたマスカ音データが対応付けられている。
 マスカ音選択部21は、マスカ音選択テーブル32から選択したマスカ音に係るアドレスを参照し、マスカ音記憶部31からマスカ音データを取得する。例えば、マスカ音選択部21は、特徴量抽出部62が抽出した特徴量と、特徴量欄に格納される特徴量とのマッチング(相互相関による比較等)を行い、一致する又は略一致すると判断できる程度類似する特徴量を検索する。検索した結果、例えば特徴量抽出部62が抽出した特徴量が特徴量Aに略一致し、現在時刻が11時のとき、マスカ音選択部21は、マスカ音選択テーブル32を参照して、特徴量A及び現在時刻(11時)に対応するマスカ音「攪乱音A+BGM1+チャイム音」を選択する。現在時刻がテーブル内の時間帯欄に該当しない場合、例えば現在時刻が16時である場合、マスカ音選択部21は、テーブル内のうち、時間帯欄が空白であるマスカ音「攪乱音A+木々のざわめき音」を選択する。これにより、マスカ音選択部21が選択したマスカ音が出力されると、攪乱音によって、対象の音を攪乱して聞こえ難く(内容を理解できなく)しつつ、背景音や演出音などによって、攪乱する際に生じる不快感を聴取者に与えないようにできる。なお、一つの特徴量に複数のマスカ音が対応している場合、ユーザが手動で操作部4から希望するマスカ音を選択できるようにしてもよい。
 図3に示すマスカ音選択テーブル32は、マスカ音選択部21により各情報が登録される。具体的には、ユーザにより操作部4からマスカ音の出力開始操作が行われた場合に、マスカ音選択部21は、特徴量抽出部62が抽出した特徴量がマスカ音選択テーブル32に格納されているか否かを判定する。特徴量抽出部62が抽出した特徴量がマスカ音選択テーブル32に格納されていないと判定した場合、マスカ音選択部21は、その特徴量に適したマスカ音データをマスカ音記憶部31から選択する。例えば、マスカ音選択部21は、特徴量抽出部62が抽出した特徴量と、マスカ音記憶部31に記憶されるマスカ音データのうち、複数のマスカ音データの特徴量との相互相関をそれぞれ算出し、最も相関が高いマスカ音データを選択する。あるいは、マスカ音選択部21は、相関の高いものから順に複数のマスカ音データを選択してもよい。このとき、マスカ音記憶部31に記憶されているマスカ音データは時間軸波形であるため、マスカ音選択部21が各マスカ音データを信号処理部6に入力し、信号処理部6が都度、周波数領域の信号に変換して特徴量を抽出してもよいが、マスカ音記憶部31が記憶するマスカ音データに、マスカ音データの特徴量を示す情報(例えば、スペクトルのピーク値など)をヘッダとして付加するようにしてもよい。この場合、マスカ音選択部21は、特徴量抽出部62が抽出した特徴量と、マスカ音記憶部31に記憶される各マスカ音データのヘッダ(特徴量を示す情報)との相関を求めるだけで済み、マスカ音選択部21が行うマスカ音記憶部31からのマスカ音データの選択処理を短縮することができる。
 マスカ音選択部21は、以上のようにして特徴量抽出部62が抽出した特徴量と相関が高い特徴量を有するマスカ音データを選択し、選択したマスカ音データが記憶されたアドレスと抽出した特徴量とを対応付けて、マスカ音選択テーブル32に新たに格納(登録)する。このとき、時間帯欄には、マスカ音選択テーブル32に特徴量等を格納した時間や季節が格納されてもよいし、選択されたマスカ音データに予め設定された時間帯や季節が格納されてもよい。また、一つの特徴量に対して複数のマスカ音データが選択された場合、ユーザが操作部4から各マスカ音データの出力させる時間帯や季節を設定できるようにしてもよい。
 また、特徴量抽出部62が抽出した特徴量に最適なマスカ音データ(相関の高いマスカ音データ)がマスカ音記憶部31に記憶されていない場合、マスカ音選択部21は、外部装置から相関の高いマスカ音データを取得できるようにしてもよい。外部装置は、例えば、マスカ音出力装置と接続するパーソナルコンピュータであってもよいし、ネットワークを経由して接続されるサーバ装置であってもよい。
 このように、一度マスカ音選択テーブル32に特徴量を格納(登録)しておけば、以降同じ特徴量の音声を収音した場合に、マスカ音選択部21は、抽出した特徴量に適したマスカ音データを自動的に選択できる。仮に、抽出した特徴量をマスカ音選択テーブル32に登録しない場合、マスカ音選択部21は、抽出した特徴量に適したマスカ音データをマスカ音記憶部31から選択する処理(複数のマスカ音データとの相互相関算出等)を、マスカ音を出力する都度、行う必要があり、その処理に時間を要する。これに対し、マスカ音選択テーブル32に登録しておけば、対応するマスカ音データを読み出すだけでよいため、マスカ音が出力されるまでの時間を短縮でき、話者の音声がマスクされた快適な環境空間をより早く形成することができる。また、一つの特徴量に複数のマスカ音データを対応付け、ランダムに変化させることで、同じ音声を収音した場合であっても、常に同じマスカ音が出力されることがないため、カクテルパーティ効果を抑え、常に適切にマスクすることができる。さらに、朝、昼、晩などの時間帯毎に適したマスカ音データを対応付けることを可能とすることで、より快適な環境空間を形成することができる。
 なお、信号処理部6は、記憶部3に記憶された音データを取得し、その音データを加工するようにしてもよい。図4は、記憶された音データを加工する場合における、制御部2および信号処理部6が有する機能を模式的に示すブロック図である。図4に示す信号処理部6は、図2に示した信号処理部6の構成に加えて、マスカ音加工部64を備えている。記憶部3には、汎用マスカ音(例えば、男女複数人の音声で内容が理解できないもの)データを記憶する汎用マスカ音記憶部33、背景音データ(BGMなど)を記憶する背景音記憶部34、及び演出音データ(断続的に発生するメロディ等)を記憶する演出音記憶部35をそれぞれ記憶されている。
 図4に示すように、マスカ音選択部21は、汎用マスカ音記憶部33から汎用マスカ音データを取得し、マスカ音加工部64に出力する。マスカ音加工部64は、入力したマスカ音データを周波数領域の信号に変換し、マスカ音選択部21から入力される収音信号の特徴量に合わせて、マスカ音データの周波数特性を加工する。例えば、汎用マスカ音のフォルマントを、収音信号のフォルマントと一致させる。そして、加工したマスカ音データを時間領域の信号に変換し、マスカ音選択部21に出力する。これにより、特に収音信号が話者の音声である場合、出力する汎用マスカ音を、話者の音声の特徴により近づける。そして、マスカ音選択部21は、背景音記憶部34及び演出音記憶部35から、BGMやピアノ音などを任意に、又はユーザの指示により選択し、加工した汎用マスカ音データに合成し、音声出力部7へ出力する。これにより、話者の音声を、話者の音声に近い汎用マスカ音で攪乱しつつ、背景音や演出音などによって、マスクする際に生じる不快感を聴取者に与えないようにできる。この場合においても、一度抽出した収音信号の特徴量と記憶部3から取得した各データとを対応付け、図3のようなテーブルに記憶するようにしてもよい。これにより、以降、背景音や演出音の選択処理を指示する必要がなくなる。
 また、本実施形態において、信号処理部6は、収音信号を加工してマスカ音データに含めて出力してもよい。この場合、信号処理部6は、収音信号を時間軸上、又は周波数軸上で改変し、内容が理解できない音声に変換する。図5は、収音信号を周波数軸で改変する場合に、制御部2および信号処理部6が有する機能を模式的に示すブロック図である。信号処理部6は、図2に示した信号処理部6の構成に加えて、マスカ音加工部65、IFFT(Inverse FFT)66を備えている。マスカ音加工部65は、特徴量抽出部62が抽出した特徴量のうち、例えば、収音信号からフォルマント周波数を抽出し、高次フォルマントを反転等して音韻を崩し、攪乱音とする。IFFT66は、マスカ音加工部65が加工した周波数領域の信号を時間軸領域の信号に変換する。制御部2のマスカ音選択部21は、記憶部3の背景音記憶部34及び演出音記憶部35に記憶されている背景音や演出音などを、時間帯や季節、又はユーザの指示に従って取得する。そして、制御部2は、IFFT66により時間軸領域の信号に変換された撹乱音と、マスカ音選択部が取得した背景音及び演出音を合成して、音声出力部7へ出力する。これにより、マスカ音出力装置のユーザを聴取者とした場合、聞きたくない話者の会話の内容を意味のない音声に変換することができ、さらに背景音及び演出音によりマスクする際に生じる不快感を聴取者に与えないようにできるため、聴取者にとって快適な環境空間を形成することができる。この場合においても、図4で説明したように、一度抽出した収音信号の特徴量と記憶部3から取得した各データとを対応付け、図3のようなテーブルに記憶するようにしてもよい。
 また、図5に示す構成の場合、マスカ音出力装置1は、音声入力部5からの収音信号に対してエコーを除去するエコーキャンセル部8を備えている。図5のマスカ音出力装置1は、スピーカ7Aからマスカ音が出力された場合、マイクロフォン5Aがそのマスカ音の回り込み成分を収音することで、収音信号にエコーが含まれる。このため、エコーキャンセル部8は、適応フィルタを備え、音声出力部7からマスカ音(時間領域の信号)を入力してフィルタ処理することにより、スピーカ7Aから出力されたマスカ音がマイクロフォン5Aへ回り込む成分の擬似信号である擬似回帰音信号を生成し、収音信号から擬似回帰音信号を差し引くことで、エコーを除去する。これにより、後段の信号処理部6は、収音信号からマイクロフォン5Aに回り込んだマスカ音を除去でき、話者の音声を正確に抽出できる。なお、このエコーキャンセル部8は、図1及び図2に示す構成でも、音声入力部5の後段に設けられていてもよい。
 なお、図2、図4および図5の例では、信号処理部6が特徴量を抽出したり、音データを加工したりする例を示したが、制御部2が記憶部3に格納されるプログラムを実行することで、これらの信号処理部6の機能を実現するようにしてもよい。
 音声出力部7は、図示しないD/Aコンバータ及びアンプを有し、スピーカ7Aが接続されている。音声出力部7は、信号処理部6で決定されたマスカ音データに係る信号を、D/AコンバータでD/A変換し、アンプで振幅(ボリューム)を最適な値に調整した後、スピーカ7Aからマスカ音として出力する。
 次に、マスカ音出力装置1における動作について説明する。図6は、マスカ音出力装置1で実行される処理の手順を示すフローチャートである。図6に示す処理は、制御部2および信号処理部6で実行される。
 制御部2(または信号処理部6)は、音声入力部5から、有音と判定できる程度のレベルの収音信号が入力されたか否かを判定する(S1)。収音信号が入力されていない場合(S1:NO)、図6の動作を終了する。収音信号が入力された場合(S1:YES)、信号処理部6は、FFT61でフーリエ変換を行った後、収音信号の特徴量を抽出する(S2)。次に、制御部2は、操作部4からマスカ音の出力開始指示を受け付けたか否かを判定する(S3)。出力開始指示を受け付けていない場合(S3:NO)、図6に示す処理を終了する。
 開始指示を受け付けた場合(S3:YES)、制御部2は、マスカ音選択テーブル32からS2で抽出した特徴量を検索する(S4)。制御部2は、S2で抽出した特徴量がマスカ音選択テーブル32に格納されているか否かを判定する(S5)。特徴量がマスカ音選択テーブル32に格納されていない場合(S5:NO)、すなわち、これまでにマスク対象としていない音声をマスクする場合、制御部2は、抽出した特徴量に適したマスカ音データをマスカ音記憶部31から選択する(S6)。制御部2は、抽出した特徴量に最も類似するマスカ音データを選択するようにしてもよいし、複数のマスカ音データを選択するようにしてもよい。また、制御部2は、ユーザが選択したマスカ音データを選択するようにしてもよい。
 制御部2は、抽出した特徴量及び選択したマスカ音データが記憶されたアドレスを、マスカ音選択テーブル32に格納して、マスカ音選択テーブル32を更新する(S7)。次に、制御部2は、抽出した特徴量に対応するマスカ音データをマスカ音記憶部31から取得する(S8)。具体的には、制御部2は、マスカ音選択テーブル32を参照して、抽出した特徴量に対応するマスカ音を選択し、選択したマスカ音のマスカ音データが記憶されたアドレスを取得し、そのアドレスに記憶されているデータ(マスカ音データ)を取得する。制御部2は、取得したマスカ音データを音声出力部7へ出力し(S9)、スピーカ7Aからマスカ音として出力する。
 一方、S5において、S2で抽出した特徴量がマスカ音選択テーブル32に格納されている場合(S5:YES)、すなわち、これまでにマスク対象としている音声をマスクする場合、制御部2は、S2で抽出した特徴量に対応するマスカ音データを、マスカ音記憶部31から取得する(S8)。この場合、マスカ音選択テーブル32が更新されることはない。その後、制御部2は、取得したマスカ音データを音声出力部7へ出力し(S9)、スピーカ7Aからマスカ音として出力する。
 なお、図6のS3において、制御部2は、ユーザの開始指示によって、マスカ音の出力を手動で開始しているが、S2で抽出した特徴量がマスカ音選択テーブル32に格納されている特徴量と一致する場合には、自動でマスカ音を出力するようにしてもよい。図7は、自動でマスカ音の出力を開始する場合に、マスカ音出力装置1で実行される処理の手順を示すフローチャートである。
 制御部2は、音声入力部5から、有音と判定できる程度のレベルの収音信号が入力されたか否かを判定する(S11)。収音信号が入力されていない場合(S11:NO)、図7に示す動作を終了する。収音信号が入力された場合(S11:YES)、制御部2は、自動でマスカ音の出力を開始するよう設定されているか否かを判定する(S12)。自動でマスカ音の出力を開始するか否かは、ユーザが操作部4から選択できるように構成されることが好ましい。自動でマスカ音の出力を開始するよう設定されていない場合(S12:NO)、図7に示す動作を終了する。自動でマスカ音の出力を開始するよう設定されている場合(S12:YES)、信号処理部6が収音信号の特徴量を抽出する(S13)。
 次に、制御部2は、信号処理部6が抽出した特徴量でマスカ音選択テーブル32を検索し、マスカ音選択テーブル32に抽出した特徴量が格納されているか否か(抽出した特徴量と一致する特徴量がマスカ音選択テーブル32に格納されているか否か)を判定する(S14)。特徴量が格納されていない場合(S14:NO)、図7に示す動作を終了する。格納されている場合(S14:YES)、制御部2は、S13で抽出した特徴量に対応するマスカ音データを、マスカ音記憶部31から取得する(S15)。制御部2は、取得したマスカ音データを音声出力部7へ出力し(S16)、スピーカ7Aからマスカ音として出力し、本処理を終了する。このように、マスカ音出力装置1は、ユーザからマスカ音の出力開始指示を受け付けない場合であっても、既にマスカ音選択テーブル32に登録されている特徴量を持つ音声がマイクロフォン5Aから入力されると、自動でマスカ音の出力を開始することができる。
 なお、図7のS14において、特徴量がマスカ音選択テーブル32に格納されていない場合には、処理を終了しているが、図6のS6及びS7と同様に、抽出した特徴量に適したマスカ音データをマスカ音記憶部31から選択し、抽出した特徴量及び選択したマスカ音データが記憶されたアドレスを、マスカ音選択テーブル32に格納して、マスカ音選択テーブル32を更新するようにしてもよい。また、図7の処理中に、ユーザの開始指示が行われた場合、図7に示す処理を中止し、図6に示すS4以降の処理を行い、マスカ音を出力すればよい。
 以上説明したように、本実施形態では、聴取者のマスカ音の出力開始指示を受け付けた場合に、収音した音のマスカ音を出力する。すなわち、聴取者がマスクしたい音又はタイミングを選択することができる。その結果、ユーザによって不快と感じる音は異なるが、各ユーザが不快と感じる音だけをマスクすることができ、各ユーザに最適な環境空間を実現することができる。また、全ての音がマスクされることで、聴取者が必要な情報を聞き逃したりするおそれを回避できる。さらに、マスクの必要のない音に対してマスカ音を生成するといった不必要な処理を軽減できる。また、時間に応じて出力するマスカ音を変更できるため、より快適な環境空間を聴取者に提供することができる。
 以上、好適な実施形態について説明したが、マスカ音出力装置1の具体的構成などは、適宜設計変更可能であり、上述の実施形態に記載された作用及び効果は、本発明から生じる最も好適な作用及び効果を列挙したに過ぎず、本発明による作用及び効果は、上述の実施形態に記載されたものに限定されるものではない。
 例えば、上述の実施形態では、時間毎に出力するマスカ音を対応付けているが、季節毎に出力すべきマスカ音を対応付けるようにしてもよい。上述の実施形態では、操作部4からのマスカ音の出力開始指示を受け付けていない場合であっても、自動でマスカ音を出力する構成としているが、マスカ音の出力開始指示を受け付けていない場合には、マスカ音を出力しない構成としてもよい。この場合、無駄な処理を軽減させるために、特徴量抽出部62は、マスカ音の出力開始指示を受け付けた場合にのみ特徴量を抽出するようにしてもよい。
 上述の実施形態において、マスカ音出力装置1は、自身が記憶したマスカ音データを取得する構成としているが、外部に記憶されたマスカ音データを取得する構成であってもよい。例えば、マスカ音出力装置1は、パーソナルコンピュータに接続可能とし、パーソナルコンピュータに記憶されたマスカ音データを取得し、記憶部3に蓄積記憶する構成であってもよい。また、マスカ音出力装置1は、マイクロフォン5A及びスピーカ7Aを一体的に備えずに、汎用のマイクロフォン及びスピーカが接続可能な構成としてもよい。さらに、マスカ音出力装置1は、マスカ音を発生させる専用装置としているが、携帯電話機、PDA(Personal Digital Assistant)又はパーソナルコンピュータなどであってもよい。
 以下、本発明の概要を詳述する。
 本発明に係るマスカ音出力装置は、入力手段、抽出手段、指示受付手段、および出力手段を備えている。入力手段は、収音された音に係る収音信号を入力する。抽出手段は、収音信号の音響特徴量を抽出する。音響特徴量とは、音の特徴を示す物理量であり、例えばスペクトル(各周波数のレベル)や、スペクトル包絡のピークの周波数(基本周波数、フォルマント等)を表す。指示受付手段は、マスカ音の出力開始の指示を受け付ける。出力手段は、指示受付手段が前記出力開始の指示を受け付けた場合に、前記抽出手段が抽出した音響特徴量に対応するマスカ音を出力する。
 この構成では、収音信号から、該収音信号に係る音響特徴量を抽出し、ユーザによるマスカ音の出力開始指示又は自動設定によりマスカ音の出力開始指示が行われた場合、抽出した音響特徴量に対応するマスカ音を出力する。これにより、例えばユーザが聞きたくない音が聞こえたときにマスカ音の出力開始指示の操作を行うことで、聞きたくない音だけをマスクすることができる。その結果、ユーザは、マスクしたい音を選択することで、マスクの必要のない音がマスクされることを回避でき、必要な情報を聞き逃すといった問題を回避できる。また、マスクをする必要のない音に対してマスカ音を生成するといった不必要な処理を軽減できる。
 また、本発明に係るマスカ音出力装置は、音響特徴量とマスカ音との対応付けを示した対応付けテーブルと、抽出手段が抽出した音響特徴量で前記対応付けテーブルを参照し、音響特徴量に対応するマスカ音を選択するマスカ音選択手段と、を備えた態様も可能である。この場合、出力手段は、前記マスカ音選択手段が選択したマスカ音を出力する。
 この構成では、収音された音に係る音響特徴量と、出力すべきマスカ音との対応付けを示したテーブルを参照することで、収音した音に対応するマスカ音が自動的に出力されることになる。
 また、音響特徴量には複数のマスカ音が対応付けられ、マスカ音選択手段は、前記対応付けテーブルで対応付けられた複数のマスカ音から、所定の条件に従ってマスカ音を選択する態様も可能である。
 この構成では、例えば、朝の時間帯には、朝に適した爽快な音、夜の時間帯には、夜に適したユッタリとした音とするなど、同じ音をマスクする場合であっても、条件に応じて異なるマスカ音を出力する。したがって、ユーザの使用状況に応じた適切なマスカ音が出力されることになる。
 また、本発明に係るマスカ音出力装置は、マスカ音に係る音データを記憶するマスカ音データ記憶手段を備えた態様も可能である。この場合、マスカ音選択手段は、前記指示受付手段が前記出力開始の指示を受け付け、かつ前記抽出手段が抽出した音響特徴量が前記対応付けテーブルに記載されていないと判定した場合に、前記抽出手段が抽出した音響特徴量と前記マスカ音データ記憶手段に記憶されているマスカ音に係る音データの音響特徴量とを比較し、音響特徴量に対応するマスカ音に係るデータを前記マスカ音データ記憶手段から読み出して前記出力手段に出力する。
 この構成では、マスカ音に係る音データをマスカ音データ記憶手段に記憶しておくことで、収音した音に対応するマスカ音が存在しなかった場合でも、抽出した音響特徴量に適したマスカ音(例えば類似する音響特徴量を有するもの)を自動的に出力することができる。
 なお、マスカ音選択手段は、抽出手段が抽出した音響特徴量と読み出したマスカ音に係る音データとを、新たに対応づけて対応付けテーブルに記録することが好ましい。
 これにより、以降に同じ音響特徴量を有するマスカ音を収音した際に、以前に出力したマスカ音と同じものを自動的に出力させることができる。
 さらに、マスカ音出力装置は、汎用マスカ音に係る音データを記憶する汎用マスカ音記憶手段をさらに備え、前記抽出手段が抽出した音響特徴量に合わせて、前記汎用マスカ音記憶手段に記憶されている汎用マスカ音に係る音データを加工して、マスク対象の音声を撹乱する撹乱音を生成する撹乱音生成手段を備え、前記出力手段が出力するマスカ音は、前記撹乱音生成手段が生成した撹乱音が含まれていることが好ましい。
 この構成では、汎用マスカ音記憶手段に記憶している汎用マスカ音を、収音信号の音響特徴量に合わせて加工し、撹乱音を生成する。汎用マスカ音は、例えば男女複数人の音声で内容が理解できない(語彙的に何ら意味をなさない)ものである。撹乱音は、この汎用マスカ音の特徴量を収音した音声の特徴量に近づけたものである。撹乱音は、汎用マスカ音と同様に語彙的に何ら意味をなさない音であり、かつ、マスク対象の音に近い音質(声質)や音高を有することになるため、高いマスキング効果を得ることができる。
 また、マスカ音出力装置は、抽出手段が抽出した音響特徴量に合わせて、収音信号を加工して、マスク対象の音声を撹乱する撹乱音を生成する態様も可能である。この場合、出力手段が出力するマスカ音は、前記撹乱音生成手段が生成した撹乱音が含まれていることになる。
 この構成では、収音した音声を加工して撹乱音を生成する。例えば、収音信号の周波数特性を改変し、音韻を崩したものが撹乱音となる。この場合、実際のマスク対象の音とほぼ同じ音質(声質)や音高を有した撹乱音となるため、より高いマスキング効果を得ることができる。
 なお、上記本発明におけるマスカ音は、連続的な音及び断続的な音を合成させたものが含まれていることが好ましい。
 連続的な音は、上記のような撹乱音や、例えば、川のせせらぎ音や木々のざわめき音等の背景音(定常的な自然音)等が含まれる。撹乱音は、上述のように、音韻を崩したものであるため、違和感を覚える場合がある。そこで、背景音により暗騒音レベル(background noise level)を上げ、上記の撹乱音のような音を目立たなくすることで撹乱音の違和感を低減する。また、断続的な音は、例えば、断続的に発生するメロディ音等の演出性の高い音(演出音)である。この演出音により、聴取者の注意を引き、聴覚心理的に撹乱音の違和感を目立たなくする。
 また、マスカ音に含まれる連続的な音及び断続的な音の組み合わせ態様は、当該マスカ音を出力する時に応じて変更されることが好ましい。
 マスカ音を出力する時間又は時期(季節)などに応じて、マスカ音の組み合わせ態様を変更すると、より快適なマスカ音の出力が可能となる。例えば、朝の時間帯には、鳥の鳴き声が含まれた背景音を出力して目覚めを良くし、夜の時間帯には、演出音を消してリラックスできるようにする、等である。
本発明は、2010年9月28日出願の日本特許出願(特願2010-216283)及び2011年3月16日出願の日本特許出願(特願2011-057365)に基づくものであり、それらの内容はここに参照として取り込まれる。
 本発明のマスカ音出力装置及びマスカ音出力方法によれば、ユーザが聞きたくない音が聞こえたときにマスカ音の出力開始指示の操作を行うことで、聞きたくない音だけをマスクすることができる。その結果、ユーザは、マスクしたい音を選択することで、マスクの必要のない音がマスクされることを回避でき、必要な情報を聞き逃すといった問題を回避できる。また、マスクをする必要のない音に対してマスカ音を生成するといった不必要な処理を軽減できる。
1 マスカ音出力装置
2 制御部
3 記憶部(マスカ音記憶手段)
4 操作部(指示受付手段)
5 音声入力部(収音手段)
6 信号処理部
7 音声出力部(出力手段)
31 マスカ音記憶部
32 マスカ音選択テーブル
62 特徴量抽出部(抽出手段)
63 マスカ音選択部(マスカ音選択手段)

Claims (20)

  1.  収音された音に係る収音信号を入力する入力手段と、
     前記収音信号の音響特徴量を抽出する抽出手段と、
     マスカ音の出力開始の指示を受け付ける指示受付手段と、
     前記指示受付手段が前記出力開始の指示を受け付けた場合に、前記抽出手段が抽出した音響特徴量に対応するマスカ音を出力する出力手段と、
    を備えるマスカ音出力装置。
  2.  前記音響特徴量とマスカ音との対応付けを示した対応付けテーブルと、
     前記抽出手段が抽出した音響特徴量で前記対応付けテーブルを参照し、前記抽出手段が抽出した音響特徴量に対応するマスカ音を選択するマスカ音選択手段と、
    をさらに備え、
     前記出力手段は、前記マスカ音選択手段が選択したマスカ音を出力する請求項1に記載のマスカ音出力装置。
  3.  前記音響特徴量には複数のマスカ音が対応付けられており、
     前記マスカ音選択手段は、前記対応付けテーブルで前記音響特徴量に対応付けられた複数のマスカ音から、所定の条件に従ってマスカ音を選択する請求項2に記載のマスカ音出力装置。
  4.  マスカ音に係る音データを記憶するマスカ音データ記憶手段をさらに備え、
     前記マスカ音選択手段は、前記指示受付手段が前記出力開始の指示を受け付け、かつ前記抽出手段が抽出した音響特徴量が前記対応付けテーブルに記憶されていないと判定した場合に、前記抽出手段が抽出した音響特徴量と前記マスカ音データ記憶手段に記憶されているマスカ音に係る音データの音響特徴量とを比較し、前記抽出手段が抽出した音響特徴量と類似する音響特徴量を持つ音データを前記マスカ音データ記憶手段から読み出して、前記出力手段が前記音データに対応するマスカ音を出力する請求項2又は3に記載のマスカ音出力装置。
  5.  前記マスカ音選択手段は、前記抽出手段が抽出した音響特徴量と前記マスカ音データ記憶手段から読み出したマスカ音に係る音データとを、新たに対応づけて前記対応付けテーブルに記憶する請求項4に記載のマスカ音出力装置。
  6.  汎用マスカ音に係る音データを記憶する汎用マスカ音記憶手段をさらに備え、
     前記抽出手段が抽出した音響特徴量に合わせて、前記汎用マスカ音記憶手段に記憶されている汎用マスカ音に係る音データを加工して、マスク対象の音声を撹乱する撹乱音を生成する撹乱音生成手段を備え、
     前記出力手段が出力するマスカ音は、前記撹乱音生成手段が生成した撹乱音を含む請求項1から5の何れか一つに記載のマスカ音出力装置。
  7.  前記抽出手段が抽出した音響特徴量に合わせて、前記収音信号を加工して、マスク対象の音声を撹乱する撹乱音を生成する撹乱音生成手段をさらに備え、
     前記出力手段が出力するマスカ音は、前記撹乱音生成手段が生成した撹乱音を含む請求項1から5の何れか一つに記載のマスカ音出力装置。
  8.  前記マスカ音は、連続的な音及び断続的な音が合成された音を含む請求項1から7の何れか一つに記載のマスカ音出力装置。
  9.  前記マスカ音に含まれる連続的な音及び断続的な音の組み合わせ態様は、当該マスカ音を出力する時間に応じて変更される請求項8に記載のマスカ音出力装置。
  10.  前記マスカ音選択手段は、前記抽出手段が抽出した音響特徴量が、前記対応付テーブルに格納されている音響特徴量と一致又は類似する場合には、前記一致又は類似する音響特徴量に対応するマスカ音を選択し、
     前記出力手段は、前記マスカ音選択手段が選択したマスカ音を自動的に出力する請求項2から9の何れか一つに記載のマスカ音出力装置。
  11.  収音された音に係る収音信号を入力する入力ステップと、
     前記収音信号の音響特徴量を抽出する抽出ステップと、
     マスカ音の出力開始の指示を受け付ける指示受付ステップと、
     前記指示受付ステップで前記出力開始の指示を受け付けた場合に、前記抽出ステップで抽出した音響特徴量に対応するマスカ音を出力する出力ステップと、
    を備えるマスカ音出力方法。
  12.  前記音響特徴量とマスカ音との対応付けを示した対応付けテーブルを参照し、前記抽出ステップで抽出した音響特徴量に対応するマスカ音を選択するマスカ音選択ステップをさらに備え、
     前記出力ステップで、前記マスカ音選択手段で選択したマスカ音を出力する請求項11に記載のマスカ音出力方法。
  13.  前記音響特徴量には複数のマスカ音が対応付けられており、
     前記マスカ音選択ステップでは、前記対応付けテーブルで前記音響特徴量に対応付けられた複数のマスカ音から、所定の条件に従ってマスカ音を選択する請求項12に記載のマスカ音出力方法。
  14.  マスカ音に係る音データを記憶するマスカ音データ記憶手段を備え、
     前記マスカ音選択ステップでは、前記指示受付ステップで前記出力開始の指示を受け付け、かつ前記抽出ステップで抽出した音響特徴量が前記対応付けテーブルに記憶されていないと判定した場合に、前記抽出ステップで抽出した音響特徴量と前記マスカ音データ記憶手段に記憶されているマスカ音に係る音データの音響特徴量とを比較し、前記抽出ステップで抽出した音響特徴量と類似する音響特徴量を持つ音データを前記マスカ音データ記憶手段から読み出して前記出力ステップで前記音データに対応するマスカ音を出力する請求項12又は13に記載のマスカ音出力方法。
  15.  前記マスカ音選択ステップでは、前記抽出ステップで抽出した音響特徴量と前記マスカ音データ記憶手段から読み出したマスカ音に係る音データとを、新たに対応づけて前記対応付けテーブルに記憶する請求項14に記載のマスカ音出力方法。
  16.  汎用マスカ音に係る音データを記憶する汎用マスカ音記憶手段を備え、
     前記マスカ音出力方法は、前記抽出ステップで抽出した音響特徴量に合わせて、前記汎用マスカ音記憶手段に記憶されている汎用マスカ音に係る音データを加工して、マスク対象の音声を撹乱する撹乱音を生成する撹乱音生成ステップをさらに備え、
     前記出力ステップで出力するマスカ音は、前記撹乱音生成手段が生成した撹乱音を含む請求項11から15の何れか一つに記載のマスカ音出力方法。
  17.  前記抽出ステップで抽出した音響特徴量に合わせて、前記収音信号を加工して、マスク対象の音声を撹乱する撹乱音を生成する撹乱音生成ステップをさらに備え、
     前記出力ステップで出力するマスカ音は、前記撹乱音生成手段が生成した撹乱音を含む請求項11から15の何れか一つに記載のマスカ音出力方法。
  18.  前記マスカ音は、連続的な音及び断続的な音が合成された音を含む請求項11から17の何れか一つに記載のマスカ音出力方法。
  19.  前記マスカ音に含まれる連続的な音及び断続的な音の組み合わせ態様は、当該マスカ音を出力する時間に応じて変更される請求項18に記載のマスカ音出力方法。
  20.  前記マスカ音選択ステップでは、前記抽出ステップで抽出した音響特徴量が、前記対応付テーブルに格納されている音響特徴量と一致又は類似する場合には、前記一致又は類似する音響特徴量に対応するマスカ音を選択し、
     前記出力ステップでは、前記マスカ音選択ステップで選択したマスカ音を自動的に出力する請求項12から19の何れか一つに記載のマスカ音出力方法。
PCT/JP2011/072131 2010-09-28 2011-09-27 マスカ音出力装置及びマスカ音出力方法 WO2012043597A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US13/822,166 US9286880B2 (en) 2010-09-28 2011-09-27 Masking sound outputting device and masking sound outputting method
CN201180044837.0A CN103109317B (zh) 2010-09-28 2011-09-27 掩蔽声音输出装置和掩蔽声音输出方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2010216283 2010-09-28
JP2010-216283 2010-09-28
JP2011057365A JP5849411B2 (ja) 2010-09-28 2011-03-16 マスカ音出力装置
JP2011-057365 2011-03-16

Publications (1)

Publication Number Publication Date
WO2012043597A1 true WO2012043597A1 (ja) 2012-04-05

Family

ID=45893036

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/072131 WO2012043597A1 (ja) 2010-09-28 2011-09-27 マスカ音出力装置及びマスカ音出力方法

Country Status (4)

Country Link
US (1) US9286880B2 (ja)
JP (1) JP5849411B2 (ja)
CN (1) CN103109317B (ja)
WO (1) WO2012043597A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102710604A (zh) * 2012-05-07 2012-10-03 苏州阔地网络科技有限公司 一种声音提取的方法及系统
CN102710542A (zh) * 2012-05-07 2012-10-03 苏州阔地网络科技有限公司 一种声音处理的方法及系统
WO2014016723A3 (en) * 2012-07-24 2014-07-17 Koninklijke Philips N.V. Directional sound masking
CN105378826A (zh) * 2013-05-31 2016-03-02 诺基亚技术有限公司 音频场景装置

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013223105A (ja) * 2012-04-17 2013-10-28 Panasonic Corp 収音装置、撮像装置
JP2014102308A (ja) * 2012-11-19 2014-06-05 Konica Minolta Inc 音響出力装置
US9469247B2 (en) 2013-11-21 2016-10-18 Harman International Industries, Incorporated Using external sounds to alert vehicle occupants of external events and mask in-car conversations
US9357320B2 (en) 2014-06-24 2016-05-31 Harmon International Industries, Inc. Headphone listening apparatus
EP3048608A1 (en) 2015-01-20 2016-07-27 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Speech reproduction device configured for masking reproduced speech in a masked speech zone
CN106558303A (zh) * 2015-09-29 2017-04-05 苏州天声学科技有限公司 阵列式声音掩蔽器及声音掩蔽方法
CN105786441B (zh) * 2016-01-29 2019-01-25 腾讯科技(深圳)有限公司 一种音频处理的方法、服务器、用户设备及系统
TR201615941A1 (tr) * 2016-11-08 2018-05-21 Arcelik As Bi̇r ses maskeleme yöntemi̇ ve kullanildiği ses maskeleme ci̇hazi
US10152959B2 (en) * 2016-11-30 2018-12-11 Plantronics, Inc. Locality based noise masking
US10418019B1 (en) 2019-03-22 2019-09-17 GM Global Technology Operations LLC Method and system to mask occupant sounds in a ride sharing environment
EP3961618B1 (en) * 2019-05-22 2024-07-17 Mitsubishi Electric Corporation Information processing device, sound masking system, control method, and control program

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09319389A (ja) * 1996-03-28 1997-12-12 Matsushita Electric Ind Co Ltd 環境音発生装置
JP2005084645A (ja) * 2003-09-11 2005-03-31 Glory Ltd マスキング装置
JP2005534061A (ja) * 2002-07-24 2005-11-10 アプライド マインズ インク 言語をマスキングするための方法およびシステム
JP2007235864A (ja) * 2006-03-03 2007-09-13 Glory Ltd 音声処理装置および音声処理方法
JP2008233672A (ja) * 2007-03-22 2008-10-02 Yamaha Corp マスキングサウンド生成装置、マスキングサウンド生成方法、プログラムおよび記録媒体
JP2010085913A (ja) * 2008-10-02 2010-04-15 Toshiba Corp 音補正装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0519389A (ja) 1991-07-08 1993-01-29 Fuji Photo Film Co Ltd 立体カメラ
GB0023207D0 (en) * 2000-09-21 2000-11-01 Royal College Of Art Apparatus for acoustically improving an environment
JP2009118062A (ja) 2007-11-05 2009-05-28 Pioneer Electronic Corp 音発生装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09319389A (ja) * 1996-03-28 1997-12-12 Matsushita Electric Ind Co Ltd 環境音発生装置
JP2005534061A (ja) * 2002-07-24 2005-11-10 アプライド マインズ インク 言語をマスキングするための方法およびシステム
JP2005084645A (ja) * 2003-09-11 2005-03-31 Glory Ltd マスキング装置
JP2007235864A (ja) * 2006-03-03 2007-09-13 Glory Ltd 音声処理装置および音声処理方法
JP2008233672A (ja) * 2007-03-22 2008-10-02 Yamaha Corp マスキングサウンド生成装置、マスキングサウンド生成方法、プログラムおよび記録媒体
JP2010085913A (ja) * 2008-10-02 2010-04-15 Toshiba Corp 音補正装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102710604A (zh) * 2012-05-07 2012-10-03 苏州阔地网络科技有限公司 一种声音提取的方法及系统
CN102710542A (zh) * 2012-05-07 2012-10-03 苏州阔地网络科技有限公司 一种声音处理的方法及系统
WO2014016723A3 (en) * 2012-07-24 2014-07-17 Koninklijke Philips N.V. Directional sound masking
CN104508738A (zh) * 2012-07-24 2015-04-08 皇家飞利浦有限公司 方向性声音掩蔽
JP2015526761A (ja) * 2012-07-24 2015-09-10 コーニンクレッカ フィリップス エヌ ヴェ 指向性音マスキング
US9613610B2 (en) 2012-07-24 2017-04-04 Koninklijke Philips N.V. Directional sound masking
CN105378826A (zh) * 2013-05-31 2016-03-02 诺基亚技术有限公司 音频场景装置
EP3005344A4 (en) * 2013-05-31 2017-02-22 Nokia Technologies OY An audio scene apparatus
US10204614B2 (en) 2013-05-31 2019-02-12 Nokia Technologies Oy Audio scene apparatus
US10685638B2 (en) 2013-05-31 2020-06-16 Nokia Technologies Oy Audio scene apparatus

Also Published As

Publication number Publication date
CN103109317B (zh) 2016-04-06
JP2012095262A (ja) 2012-05-17
CN103109317A (zh) 2013-05-15
JP5849411B2 (ja) 2016-01-27
US20130170662A1 (en) 2013-07-04
US9286880B2 (en) 2016-03-15

Similar Documents

Publication Publication Date Title
JP5849411B2 (ja) マスカ音出力装置
JP5644359B2 (ja) 音声処理装置
JP5103974B2 (ja) マスキングサウンド生成装置、マスキングサウンド生成方法およびプログラム
RU2003129075A (ru) Способ и система динамической адаптации синтезатора речи для повышения разборчивости синтезтруемой им речи
JP2006243178A (ja) 音声処理方法と装置及びプログラム並びに音声システム
JP2008233670A (ja) サウンドマスキングシステム、マスキングサウンド生成方法およびプログラム
JP2004038071A (ja) 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム
CN105957515A (zh) 声音合成方法、声音合成装置和存储声音合成程序的介质
EP2380170B1 (en) Method and system for adapting communications
JP2012063614A (ja) マスキング音生成装置
WO2011122522A1 (ja) 感性表現語選択システム、感性表現語選択方法及びプログラム
JP4785563B2 (ja) 音声処理装置および音声処理方法
JPH04358200A (ja) 音声合成装置
JP5747490B2 (ja) マスカ音生成装置、マスカ音出力装置、およびマスカ音生成プログラム
JP4455701B2 (ja) 音声信号処理装置および音声信号処理方法
JP2006333396A (ja) 音声信号拡声装置
JP2013238662A (ja) 音声合成装置
WO2018173295A1 (ja) ユーザインタフェース装置及び方法、並びに音操作システム
JP2021101262A (ja) プライバシーシステム、プライバシー向上方法、マスキング音生成システム、マスキング音生成方法
JP6598323B1 (ja) 補聴器及びプログラム
JP2014202777A (ja) マスカー音信号の生成装置、生成方法およびプログラム
JP5359744B2 (ja) 音処理装置及びプログラム
JP5745453B2 (ja) 音声明瞭度変換装置、音声明瞭度変換方法及びそのプログラム
JP2001094370A (ja) 音声入出力方式
JP5925493B2 (ja) 会話保護システム及び会話保護方法

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201180044837.0

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11829150

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 13822166

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11829150

Country of ref document: EP

Kind code of ref document: A1