WO2011070971A1 - 制御装置および方法、並びにプログラム - Google Patents

制御装置および方法、並びにプログラム Download PDF

Info

Publication number
WO2011070971A1
WO2011070971A1 PCT/JP2010/071606 JP2010071606W WO2011070971A1 WO 2011070971 A1 WO2011070971 A1 WO 2011070971A1 JP 2010071606 W JP2010071606 W JP 2010071606W WO 2011070971 A1 WO2011070971 A1 WO 2011070971A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
value
collection unit
unit
sound collection
Prior art date
Application number
PCT/JP2010/071606
Other languages
English (en)
French (fr)
Inventor
徹 知念
優樹 山本
光行 畠中
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to EP10835892.0A priority Critical patent/EP2386943B1/en
Priority to BRPI1007881A priority patent/BRPI1007881A2/pt
Priority to CN201080006668.7A priority patent/CN102308277B/zh
Priority to KR1020117018142A priority patent/KR101669302B1/ko
Priority to US13/147,858 priority patent/US9053709B2/en
Publication of WO2011070971A1 publication Critical patent/WO2011070971A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2200/00Indexing scheme relating to G06F1/04 - G06F1/32
    • G06F2200/16Indexing scheme relating to G06F1/16 - G06F1/18
    • G06F2200/163Indexing scheme relating to constructional details of the computer
    • G06F2200/1636Sensing arrangement for detection of a tap gesture on the housing

Definitions

  • the present invention relates to a control device, method, and program, and more particularly, to a control device, method, and program that can improve operability with a simpler configuration.
  • a controller is provided in a cord connecting an earphone worn on a user's ear and the electronic device main body, and the reproduction of music by the electronic device can be controlled by operating the controller.
  • a camera is provided in the controller, and the user can also take a picture by operating the controller and the electronic device body.
  • buttons As many buttons as that, and the configuration of the electronic device or the like becomes complicated.
  • each button becomes small or it becomes difficult to find a target button, so that operability is deteriorated.
  • buttons are provided on an electronic device or the like, the operation becomes difficult.
  • the present invention has been made in view of such a situation, and is intended to improve operability with a simpler configuration.
  • the control device uses a sound collecting unit that picks up surrounding sound, and a maximum value and an effective value of the sound collected by the sound collecting unit. Determination means for determining whether or not the sound collection unit has been hit, and execution means for executing a predetermined process when it is determined that the sound collection unit has been hit.
  • the execution means may specify the number of times the sound collection unit has been hit within a predetermined time based on the determination result by the determination means, and execute a process determined for the specified number of times. it can.
  • the discriminating means can discriminate whether or not the sound collection unit has been hit based on the result of threshold processing for the maximum value and the result of threshold processing for the effective value.
  • the threshold value used for threshold processing for the maximum value and the threshold value used for threshold processing for the effective value can be determined in advance by discriminant analysis or SVM.
  • the determining means determines that the sound collection unit is not hit, and the sound of the sound.
  • the maximum value of the low-frequency component having a frequency lower than that of the high-frequency component is less than the second threshold value, it can be determined that the sound collection unit is not hit.
  • the determination means determines whether or not the effective value of the section of the high frequency component is equal to or less than a third threshold value determined for each section for each of the plurality of sections in the time direction of the high frequency component. When there is a section of the high frequency component whose effective value exceeds the third threshold value, it is determined that the sound collection unit is not beaten, and the low frequency component is divided into the low frequency component for each of the plurality of sections in the time direction. If the effective value of the section of the region component is greater than or equal to a fourth threshold determined for each section, and there is a section of the low-frequency component where the effective value is less than the fourth threshold, It can be determined that the sound collection unit is not hit.
  • Each of the plurality of sections of the high-frequency component may be a section having a different length
  • each of the plurality of sections of the low-frequency component may be a section having a different length
  • the determination means further determines whether or not the absolute value of the high frequency component is maximized at a specific position in the time direction, and if the absolute value does not become maximum at the specific position, the sound collecting unit It can be determined that it is not beaten.
  • the determination means further determines whether or not a zero cross value of the sound is equal to or less than a fifth threshold value, and if the zero cross value exceeds the fifth threshold value, the sound collection unit is not hit. Can be discriminated.
  • the determination means determines whether or not a linear sum of effective values of the plurality of sections in the time direction of the high-frequency component is equal to or less than a sixth threshold value, and the linear sum exceeds the sixth threshold value. In this case, it can be determined that the sound collection unit is not hit.
  • the determining means determines whether or not a linear sum of logarithmic values of respective effective values of the plurality of sections in the time direction of the high frequency component is equal to or less than a seventh threshold value, and the linear sum is the seventh When the threshold value is exceeded, it can be determined that the sound collection unit is not hit.
  • the determination means determines whether or not the linear sum of the effective values of the plurality of sections in the time direction of the low frequency component is equal to or less than an eighth threshold value, and the linear sum exceeds the eighth threshold value. In this case, it can be determined that the sound collection unit is not hit.
  • the determining means determines whether or not a linear sum of logarithmic values of respective effective values of the plurality of sections in the time direction of the low frequency component is equal to or less than a ninth threshold value, and the linear sum is the ninth When the threshold value is exceeded, it can be determined that the sound collection unit is not hit.
  • the determination means includes a linear sum of logarithmic values of the respective effective values of the plurality of sections in the time direction of the high frequency component and a linear sum of logarithmic values of the respective effective values of the plurality of sections of the low frequency component in the time direction. It is possible to determine whether or not the sound collection unit is not struck when the sum exceeds the tenth threshold value.
  • the execution means can execute processing determined by the hit sound collecting unit among the plurality of sound collecting units.
  • the control method or program causes the sound collecting unit to pick up ambient sound, and uses the maximum value and effective value of the sound collected by the sound collecting unit to use the sound collecting unit. And a step of executing a predetermined process when it is determined that the sound collection unit has been hit.
  • ambient sound is collected by the sound collection unit, and the maximum value and effective value of the sound collected by the sound collection unit are used to strike the sound collection unit.
  • a predetermined process is executed.
  • operability can be improved with a simpler configuration.
  • FIG. 1 is a diagram showing a configuration example of an embodiment of a playback apparatus to which the present invention is applied.
  • the playback device 11 is a portable music player that plays back sound such as music, for example.
  • the playback device 11 includes an earphone 21 that is worn on the user's ear, and a main body 22 that is connected to the earphone 21 and that is carried by the user. .
  • the earphone 21 is provided with a sound collection unit 31-1, a sound collection unit 31-2, a speaker 32-1, and a speaker 32-2.
  • the sound collection unit 31-1 and the sound collection unit 31-2 are configured by, for example, a microphone, and collect sound around the playback device 11 and supply the sound signal obtained as a result to the main body 22.
  • the speaker 32-1 and the speaker 32-2 reproduce sound based on a sound signal such as music supplied from the main body 22.
  • the sound collection unit 31-1 and the sound collection unit 31-2 are also simply referred to as the sound collection unit 31 when it is not necessary to distinguish between them. Further, when it is not necessary to distinguish between the speaker 32-1 and the speaker 32-2, they are also simply referred to as the speaker 32.
  • the sound collection unit 31 and the speaker 32 are integrated to form an earphone that is worn on the right or left ear of the user.
  • the sound collected by the sound collection unit 31 and supplied to the main body 22 is used for so-called noise canceling and reproduction control of sound such as music.
  • the main body 22 identifies the tap operation to the sound collection unit 31 by the user from the collected sound, and responds to the operation. Execute the process.
  • the main body 22 of the reproducing apparatus 11 includes an A / D (Analog / Digital) conversion unit 33-1, an A / D conversion unit 33-2, a determination unit 34-1, a determination unit 34-2, a control unit 35, An audio supply unit 36, a noise removal processing unit 37, an addition unit 38, and a reproduction control unit 39 are provided.
  • a / D Analog / Digital
  • the A / D conversion unit 33-1 and the A / D conversion unit 33-2 convert the audio signal, which is an analog signal supplied from the sound collection unit 31-1 and the sound collection unit 31-2, into a digital signal.
  • the audio signal converted into the digital signal is supplied from the A / D conversion unit 33-1 to the determination unit 34-1 and the noise removal processing unit 37.
  • the audio signal converted into the digital signal is supplied from the A / D conversion unit 33-2 to the determination unit 34-2 and the noise removal processing unit 37.
  • the discriminating unit 34-1 and the discriminating unit 34-2 determine whether or not the sound collecting unit 31 is directly hit based on the sound supplied from the A / D converting unit 33-1 and the A / D converting unit 33-2. And the determination result is supplied to the control unit 35. That is, it is identified whether or not the collected sound is a sound generated when the sound collection unit 31 is hit by the user.
  • a / D conversion unit 33-1 and the A / D conversion unit 33-2 are also simply referred to as the A / D conversion unit 33, and the determination unit 34-1 and the determination unit 34- When it is not necessary to distinguish 2 from each other, they are simply referred to as a determination unit 34.
  • the control unit 35 controls the operation of the entire playback device 11. For example, the control unit 35 causes the audio supply unit 36 to output sound such as music based on the determination result supplied from the determination unit 34 or controls the reproduction of sound in the reproduction control unit 39.
  • the audio supply unit 36 records audio data such as music, decodes the audio data according to an instruction from the control unit 35, and supplies the decoded data to the addition unit 38.
  • the noise removal processing unit 37 Based on the sound supplied from the A / D conversion unit 33, the noise removal processing unit 37 generates sound having a phase opposite to that of the sound around the playback device 11 and supplies the sound to the adding unit 38.
  • the addition unit 38 adds the sound supplied from the noise removal processing unit 37 to the sound supplied from the sound supply unit 36 and supplies the added sound to the reproduction control unit 39.
  • the reproduction control unit 39 supplies the sound supplied from the adding unit 38 to the speakers 32-1 and 32-2 according to the instruction of the control unit 35, and outputs the sound.
  • the adder 38 by adding the sound of the opposite phase to the collected ambient sound to the sound of the music to be reproduced, the surrounding environmental noise is canceled and only the music can be heard by the user's ear.
  • [Configuration of discriminator] 1 is configured as shown in FIG. 2 in more detail.
  • the determination unit 34 includes a low-frequency filter processing unit 61, a low-frequency maximum value calculation unit 62, a low-frequency effective value calculation unit 63, a high-frequency filter processing unit 64, a high-frequency maximum value calculation unit 65, and a high-frequency effective value calculation.
  • a section 66, a zero cross value calculation section 67, and a discrimination processing section 68 are included.
  • the low-pass filter processing unit 61 performs a filtering process on the audio signal supplied from the A / D conversion unit 33 to extract a low-frequency component, and obtains the low-frequency signal obtained as a result from the low-frequency maximum value calculation unit 62 and The low range effective value calculation unit 63 is supplied.
  • the low frequency maximum value calculation unit 62 calculates the maximum value of the low frequency signal supplied from the low frequency filter processing unit 61 (hereinafter also referred to as a low frequency maximum value), and supplies the maximum value to the discrimination processing unit 68.
  • the low-frequency effective value calculation unit 63 calculates the effective value (hereinafter also referred to as a low-frequency effective value) of the low-frequency signal supplied from the low-frequency filter processing unit 61 and supplies it to the discrimination processing unit 68.
  • the high-pass filter processing unit 64 performs filtering on the audio signal supplied from the A / D conversion unit 33 to extract a high-frequency component, and the resulting high-frequency signal is converted into a high-frequency maximum value calculation unit 65 and The high frequency effective value calculation unit 66 is supplied.
  • the high frequency maximum value calculation unit 65 calculates the maximum value of the high frequency signal supplied from the high frequency filter processing unit 64 (hereinafter also referred to as a high frequency maximum value) and supplies it to the discrimination processing unit 68.
  • the high frequency effective value calculation unit 66 calculates the effective value (hereinafter also referred to as a high frequency effective value) of the high frequency signal supplied from the high frequency filter processing unit 64, and supplies it to the discrimination processing unit 68.
  • the zero cross value calculation unit 67 calculates the zero cross value of the audio signal supplied from the A / D conversion unit 33 and supplies the zero cross value to the discrimination processing unit 68.
  • the discrimination processing unit 68 includes the maximum value supplied from the low frequency maximum value calculation unit 62, the low frequency effective value calculation unit 63, the high frequency maximum value calculation unit 65, the high frequency effective value calculation unit 66, and the zero cross value calculation unit 67. , The effective value, and the zero-cross value are used to identify the collected sound. That is, the determination processing unit 68 determines whether or not the sound collection unit 31 is directly hit by the user, and supplies the determination result to the control unit 35.
  • the playback device 11 When the playback device 11 is operated by the user and playback of music or the like is instructed, the playback device 11 starts playback of the music. That is, the audio supply unit 36 supplies the audio (audio signal) of the designated music piece to the addition unit 38 in accordance with an instruction from the control unit 35. Further, the noise removal processing unit 37 uses the sound (environmental sound) supplied from the sound collection unit 31 via the A / D conversion unit 33 to generate a sound having a phase opposite to that of the sound, and adds the addition unit 38. To supply.
  • the adding unit 38 adds the audio from the audio supplying unit 36 and the noise removal processing unit 37, and the reproduction control unit 39 supplies the audio obtained by the adding unit 38 to the speaker 32 for output.
  • the user puts the earphone 21 on the ear and puts it in the pocket of the clothes wearing the main body 22.
  • the user performs operations such as playback of the next music or volume adjustment, the user directly taps the sound collection unit 31 of the earphone 21 with the finger pad to instruct execution of a desired process.
  • the playback device 11 in order to perform processing according to the user's operation, when the playback device 11 is turned on, the user's operation on the sound collection unit 31 is detected, and processing according to the operation is performed.
  • the reproduction control process which is a process for executing the above, is repeated.
  • step S ⁇ b> 11 the sound collection unit 31 collects ambient sound and supplies the sound signal obtained as a result to the A / D conversion unit 33.
  • the A / D conversion unit 33 converts the audio signal from the sound collection unit 31 from an analog signal to a digital signal, and outputs the signal to the low-pass filter processing unit 61, the high-pass filter processing unit 64, and the zero-cross value calculation unit 67. Supply.
  • n in the value x (n) of the audio signal that is a digital signal represents a time index, that is, what number of sampling values.
  • the sampling frequency is not limited to 44.1 kHz, but may be about 16 kHz or more. This is because if the sampling frequency is about 16 kHz or more, there is almost no influence on the sound detection performance when the sound collection unit 31 is directly hit. Furthermore, if the sound collection bandwidth of the sound collection unit 31 is 8 kHz or more, an audio signal that can be sufficiently determined whether or not the sound collection unit 31 has been directly hit can be obtained.
  • step S ⁇ b> 12 the low-pass filter processing unit 61 extracts a low-frequency signal from the audio signal supplied from the A / D conversion unit 33 by filter processing using a low-pass filter, and a low-frequency maximum value calculation unit 62. And supplied to the low-frequency effective value calculation unit 63.
  • the low-pass filter processing unit 61 extracts the low-frequency signal xl (n) from the audio signal by calculating the following equation (1).
  • Nl represents the number of taps of the low-pass filter
  • hl (i) represents the coefficient of the low-pass filter. Therefore, the values of Nl audio signals that are temporally continuous from the value x (n) to the value x (n ⁇ Nl + 1) of the audio signal obtained by the most recent sampling are weighted and added to obtain a low frequency Signal xl (n).
  • step S ⁇ b> 13 the high-pass filter processing unit 64 extracts a high-frequency signal from the audio signal supplied from the A / D conversion unit 33 by a filter process using a high-pass filter, and a high-frequency maximum value calculation unit 65. And supplied to the high-frequency effective value calculation unit 66.
  • the high-pass filter processing unit 64 extracts the high-frequency signal xh (n) from the audio signal by calculating the following equation (2).
  • Nh indicates the number of taps of the high-pass filter
  • hh (i) indicates the coefficient of the high-pass filter. Therefore, the values of the Nh audio signals that are temporally continuous from the value x (n) to the value x (n ⁇ Nh + 1) of the audio signal obtained by the latest sampling are weighted and added, The signal xh (n) is used.
  • the coefficients hl (i) and hh (i) in the equations (1) and (2) are FIR (Finite Impulse Response) type coefficients having a linear phase, and a low-pass filter and a high-pass filter are used.
  • the cut-off frequency of the filter is 5512.5 Hz. That is, in the audio signal, a frequency component of 5512.5 Hz or less is a low-frequency signal, and a frequency component larger than 5512.5 Hz is a high-frequency signal.
  • the number of taps Nl of the low-pass filter and the number of taps Nh of the high-pass filter are both 128.
  • the low-pass filter and the high-pass filter have the frequency amplitude characteristics shown in FIG.
  • the frequency amplitude characteristic of the low-pass filter is shown on the upper side in the figure
  • the frequency amplitude characteristic of the high-pass filter is shown on the lower side in the figure.
  • the vertical axis indicates the amplitude (dB)
  • the horizontal axis indicates the normalized frequency.
  • the amplitude is almost 0 dB from the normalized frequency of 0 to about 0.25, and the amplitude is rapidly reduced near the normalized frequency of 0.25.
  • the normalized frequency is 0.3 or more, the amplitude decreases as the normalized frequency increases.
  • the amplitude is approximately ⁇ 60 dB from the normalized frequency of 0 to about 0.2, and suddenly near the normalized frequency of 0.2.
  • the amplitude is large.
  • the normalized frequency is 0.25 or more, the amplitude is almost 0 dB.
  • the stop band attenuation is set to ⁇ 60 dB.
  • the stopband attenuation may be about ⁇ 40 dB or less. If the amount of attenuation in the stop band is about ⁇ 40 dB or less, the sound detection performance when the sound pickup unit 31 is directly hit is hardly affected.
  • the low-pass filter may be an all-pass filter. Furthermore, the example in which the cut-off frequency of the low-pass filter and the high-pass filter is 5512.5 Hz has been described. However, the cut-off frequency may be about 2 kHz to 10 kHz. There is almost no effect on the sound detection performance when directly struck.
  • an IIR (Infinite Impulse Response) type filter may be used as the low-pass filter and the high-pass filter.
  • IIR Infinite Impulse Response
  • step S13 when the low-frequency signal and the high-frequency signal are extracted, the process proceeds from step S13 to step S14.
  • step S14 the low frequency maximum value calculation unit 62 calculates the low frequency maximum value Pl (n) based on the low frequency signal supplied from the low frequency filter processing unit 61 and supplies the low frequency maximum value Pl (n) to the discrimination processing unit 68. Specifically, the low frequency maximum value calculation unit 62 calculates the low frequency maximum value Pl (n) by calculating the following equation (3).
  • a low frequency signal of 2048 samples from the current time n to a past time (n-2047) is processed, and the low frequency maximum value Pl (n) is calculated.
  • the target sample number should just be about 512 samples or more. If the number of samples to be processed when calculating the low frequency maximum value Pl (n) is about 512 samples or more, the sound detection performance when the sound collection unit 31 is directly hit is not affected.
  • a 512-sample low-frequency signal when a 512-sample low-frequency signal is to be processed, a 512-sample low-frequency signal from the past time (n-1536) to the past time (n-2047) is used, and the absolute value of those values is used.
  • the maximum value among the values is set as the low frequency maximum value Pl (n).
  • the low frequency effective value calculation unit 63 divides the low frequency signal of 2048 samples from the current time n to the past time (n-2047) into four sections at equal intervals.
  • the four sections LS0 to LS3 obtained by the division are each composed of low-band signal values of continuous 512 samples.
  • the calculated root mean square value is set as the low-frequency effective value rmsl (n, m) of the section LSm.
  • the low-frequency effective value rmsl (n, 3) of the section LS3 is the time from the value xl (n) at the time n of the low-frequency signal to the value xl (n-511) at the time (n-511).
  • the low-frequency effective value rmsl (n, m) thus obtained is an effective value in each section of the low-frequency component of the audio signal.
  • the absolute value average value (primary average) of a low frequency signal is improved for the improvement of the detection performance of a sound when the sound collection part 31 is hit, and the amount of calculations reduction.
  • Norm may be the low-frequency effective value.
  • the low-frequency signal of 2048 samples from the current time n to the past time (n-2047) is processed, and the low-frequency effective value rmsl (n, m) is calculated.
  • the number of samples to be processed may be about 1024 samples or more. If the number of samples to be processed is about 1024 samples or more, the sound detection performance when the sound collection unit 31 is directly hit is not affected.
  • the low frequency signal from the current time n to the past time (n-1023) is divided into two sections at equal intervals. Then, for each section obtained by the division, the root mean square value of the 512-band low-frequency signal values constituting the section is calculated as the low-frequency effective value.
  • the section to be processed (number of samples) is divided at equal intervals.
  • the low-frequency signal is not evenly spaced according to the characteristics of the waveform of the low-frequency signal. It may be divided. Thereby, the section of the characteristic waveform portion of the low frequency signal is narrowed, and the detection performance is improved when detecting the sound when the sound pickup unit 31 is directly hit using the low frequency effective value. be able to.
  • step S16 the high frequency maximum value calculator 65 calculates the high frequency maximum value Ph (n) based on the high frequency signal supplied from the high frequency filter processor 64. Specifically, the high frequency maximum value calculation unit 65 calculates the high frequency maximum value Ph (n) by calculating the following equation (5).
  • the absolute value is obtained for each value from the value xh (n) at the current time n of the high frequency signal to the value xh (n-2047) at the past time (n-2047).
  • the maximum value is set as the high frequency maximum value Ph (n).
  • the high frequency maximum value calculation unit 65 is the time (time) of the sample in which the absolute value of the value of the high frequency signal is the maximum among the samples set to the high frequency maximum value Ph (n), that is, the sample to be processed.
  • the index) hi is supplied to the discrimination processing unit 68 together with the high frequency maximum value Ph (n).
  • the high frequency effective value calculation unit 66 divides the high frequency signal of 2048 samples from the current time n to the past time (n-2047) into 32 sections at equal intervals.
  • the 32 sections HS0 to HS31 obtained by the division are each composed of 64 samples of high-frequency signal values.
  • the high-frequency effective value calculation unit 66 calculates the mean square value (Euclidean norm) of the values of the high-frequency signals for 64 samples constituting the section. ) And the obtained root mean square value is defined as the high-frequency effective value rmsh (n, m) of the section HSm.
  • the absolute value average value (primary average) of a high frequency signal is improved for the improvement of the audio
  • Norm may be the high-frequency effective value.
  • the high frequency signal of 2048 samples from the current time n to the past time (n-2047) is processed, and the high frequency effective value rmsh (n, m) is calculated.
  • the number of samples to be processed may be about 1024 samples or more. If the number of samples to be processed is about 1024 samples or more, the sound detection performance when the sound collection unit 31 is directly hit is not affected.
  • a high frequency signal from the past time (n-1024) to the past time (n-2047) is divided into 16 sections at equal intervals. Then, for each section obtained by the division, the root mean square value of the values of the high-frequency signal of 64 samples constituting the section is calculated as a high-frequency effective value.
  • the section to be processed (number of samples) is divided at equal intervals.
  • the high-frequency signal is not evenly spaced according to the characteristics of the waveform of the high-frequency signal. It may be divided. As a result, the characteristic waveform portion of the high-frequency signal is narrowed, and the detection performance is improved when the sound when the sound pickup unit 31 is directly hit is detected using the high-frequency effective value. be able to.
  • step S18 the zero cross value calculation unit 67 calculates the following equation (7) based on the audio signal x (n) supplied from the A / D conversion unit 33, thereby calculating the zero cross value zcr (n). To the discrimination processing unit 68.
  • negative (A) is a function that is set to 1 when the argument A is negative and is set to 0 when the argument A is not negative. Therefore, the zero cross value zcr (n) indicates the rate at which the audio signal (audio waveform) crosses 0 between the current time n and the past time (n-2048).
  • the low frequency maximum value, the low frequency effective value, the high frequency maximum value, the high frequency effective value, and the zero cross value are supplied to the discrimination processing unit 68 as the feature amount of the feature of the audio signal.
  • the low-frequency maximum value, the low-frequency effective value, the high-frequency maximum value, the high-frequency effective value, and the zero-cross value are also simply referred to as a feature amount of an audio signal when it is not necessary to distinguish them.
  • step S19 the determination unit 34 performs a determination process, and whether or not the sound collected by the sound collection unit 31 is a sound when the sound collection unit 31 is directly hit by the belly of the user's finger. And the determination result is supplied to the control unit 35.
  • the discrimination process when each feature amount of the audio signal satisfies a predetermined condition, a discrimination result that the sound collection unit 31 is directly hit is output, and each feature amount is If the predetermined condition is not satisfied, a determination result indicating that the sound collection unit 31 is not directly hit is output.
  • the determination result that the sound collection unit 31 is directly hit is also referred to as a positive determination result
  • the determination result that the sound collection unit 31 is not directly hit is also referred to as a negative determination result.
  • the discrimination processing When the discrimination processing is performed, the discrimination results are supplied from the discrimination unit 34-1 and the discrimination unit 34-2 to the control unit 35, respectively. That is, the processing from step S11 to step S19 includes the sound collection unit 31-1, the A / D conversion unit 33-1 and the determination unit 34-1, the sound collection unit 31-2, and the A / D conversion unit 33-2. And the determination unit 34-2.
  • step S20 the control unit 35 identifies the process instructed to be executed by the user based on the determination result supplied from the determination processing unit 68 of the determination unit 34.
  • a specific process is associated in advance with the number of times the sound collection unit 31 has been hit within a predetermined time. For example, if only the sound collection unit 31-1 is hit only once within a predetermined time, the volume of the music being played is raised, and only the sound collection unit 31-2 is hit only once within a predetermined time. In this case, when the volume of the music being reproduced is lowered and only the sound collection unit 31-1 is hit twice within a predetermined time, the reproduction of the music is stopped.
  • control unit 35 Based on the determination results sequentially supplied from the determination unit 34, the control unit 35 specifies which sound collection unit 31 has been struck (operated) within a predetermined time, and previously determines the specified result. Identify the prescribed process.
  • the functions (processes) assigned to the operation of the sound collection unit 31 are executed by the playback device 11 such as switching the setting and turning the power off, as well as raising and lowering the volume, playing and stopping the music, sending music, and returning music. Any process may be used as long as the process is performed.
  • processing is also possible for a combination operation of the two sound collection units 31 such as when the sound collection unit 31-1 and the sound collection unit 31-2 are alternately struck within a predetermined time or when the sound collection unit 31-2 is struck simultaneously. It may be assigned.
  • step S21 the control unit 35 executes the process specified in step S20, and the reproduction control process ends.
  • the control unit 35 controls the reproduction control unit 39 to temporarily stop the supply of sound from the reproduction control unit 39 to the speaker 32.
  • the control unit 35 controls the reproduction control unit 39 so that the volume of the sound supplied from the reproduction control unit 39 to the speaker 32 is increased.
  • the playback device 11 calculates the feature amount of the sound collected by the sound collection unit 31, and based on the feature amount, the collected sound directly hits the sound collection unit 31. It is determined whether or not the current voice is present, and processing according to the determination result is executed.
  • the operability of the playback device 11 can be improved with a simpler configuration. That is, in the playback device 11, the surrounding sound is captured by the sound collection unit 31 provided for so-called noise canceling, and the feature amount of each feature is obtained for the sound. Is identified.
  • the user does not have to take out the playback device from the pocket or the like and directly touch the buttons or touch panel provided on the playback device body, and can control playback of music and the like by the playback device 11 simply by tapping the sound collection unit 31. Can be executed.
  • the user's operation is specified based on the sound collected by the sound collection unit 31, it is not necessary to provide a playback control button or the like on the playback device 11, and the configuration of the playback device 11 is simpler. It can be.
  • step S51 the determination processing unit 68 determines whether or not the time index hi supplied from the high frequency maximum value calculation unit 65 satisfies the following expression (8).
  • hi_peak is a predetermined constant, for example, 1791.
  • the time index hi is a time at which the absolute value of the high frequency signal becomes maximum. Therefore, in step S51, it is determined whether or not the absolute value of the high frequency signal is maximum at time (n-hi_peak).
  • the absolute value of the high frequency signal should be maximized at the time when the sound collection unit 31 is directly hit by the user. Therefore, an audio signal whose absolute value is maximum at a past time for a predetermined time (here, hi_peak) from the current time n which is a processing reference, is obtained when the sound collection unit 31 is directly hit. If it is set as a discrimination target, discrimination accuracy can be improved. In other words, the waveform of the synchronized audio signal in the period before and after the sound collecting unit 31 is directly hit by the user, that is, the waveform of a specific phase can be processed, and the discrimination of the audio can be performed more easily and accurately. Will be able to do.
  • the predetermined time hi_peak is about (1791 ⁇ 128) ⁇ hi_peak ⁇ (1791 + 128), the sound detection performance when the sound pickup unit 31 is hit is hardly affected, so the time hi_peak is 1791. Any value can be used.
  • step S52 If it is determined in step S51 that the absolute value of the high frequency signal is not the maximum at time (n-hi_peak), in step S52, the discrimination processing unit 68 indicates that the sound collection unit 31 has not been hit. A determination result, that is, a negative determination result is supplied to the control unit 35. When the determination result is output, the determination process ends, and then the process proceeds to step S20 in FIG.
  • step S51 if it is determined in step S51 that the absolute value of the high frequency signal is maximum at time (n-hi_peak), the discrimination processing unit 68 determines from the high frequency maximum value calculation unit 65 in step S53. It is determined whether or not the supplied high frequency maximum value Ph (n) satisfies the following equation (9).
  • ph_low is a predetermined threshold value, and in step S53, it is determined whether or not the high frequency maximum value Ph (n) is greater than or equal to the threshold value ph_low.
  • step S53 If it is determined in step S53 that the maximum high frequency is less than the threshold value ph_low, a negative determination result is output in step S52, and the determination process ends. Thereafter, the process proceeds to step S20 in FIG.
  • the high frequency component of the collected sound should have a certain level of intensity (amplitude). Therefore, when the high frequency maximum value is less than the threshold value ph_low, it is determined that the sound (audio signal) to be processed is not the sound when the sound collection unit 31 is directly struck, and negative determination is made. The result is output.
  • step S54 the discrimination processing unit 68 determines each high frequency effective value rmsh (supplied from the high frequency effective value calculation unit 66). It is determined whether (n, m) satisfies the following equation (10).
  • the high-frequency effective value rmsh It is determined whether or not (n, m) is equal to or less than a threshold value rmsh_high (m). That is, it is determined whether each of the high-frequency effective value rmsh (n, 0) to the high-frequency effective value rmsh (n, 31) is equal to or less than the threshold value rmsh_high (0) to the threshold value rmsh_high (31). .
  • step S54 If it is determined in step S54 that the high-frequency effective value is not less than or equal to the threshold value rmsh_high (m), a negative determination result is output in step S52, and the determination process ends. Thereafter, the process proceeds to step S20 in FIG. .
  • the high frequency component of the collected sound has a feature that the effective value is large in the section near the time when the sound is struck and the effective value is not so large in the other sections.
  • the threshold value rmsh_high (m) for each section is determined in advance according to such characteristics. If any one of the high-frequency effective values in each section exceeds the threshold rmsh_high (m), the sound to be processed is the sound when the sound collection unit 31 is directly hit. Is determined to be negative, and a negative determination result is output.
  • step S55 the determination processing unit 68 determines the low frequency maximum value supplied from the low frequency maximum value calculation unit 62. It is determined whether or not Pl (n) satisfies the following expression (11).
  • pl_low is a predetermined threshold value
  • step S55 it is determined whether or not the low frequency maximum value Pl (n) is equal to or greater than the threshold value pl_low.
  • step S55 If it is determined in step S55 that the low frequency maximum value is less than the threshold value pl_low, a negative determination result is output in step S52, and the determination process ends. Thereafter, the process proceeds to step S20 in FIG.
  • the low frequency component of the collected sound Should have some strength (amplitude). Therefore, when the low frequency maximum value is less than the threshold value pl_low, it is determined that the sound to be processed is not a sound when the sound collection unit 31 is directly hit, and a negative determination result is output.
  • step S55 when it is determined in step S55 that the low frequency maximum value is equal to or greater than the threshold value pl_low, in step S56, the discrimination processing unit 68 determines each low frequency effective value rmsl ( It is determined whether (n, m) satisfies the following equation (12).
  • step S56 If it is determined in step S56 that the low-frequency effective value is not greater than or equal to the threshold value rmsl_low (m), a negative determination result is output in step S52, and the determination process ends. Thereafter, the process proceeds to step S20 in FIG. .
  • the low frequency component of the collected sound has a characteristic that the effective value becomes a large value for a certain period even after the time of being struck.
  • the threshold value rmsl_low (m) for each section is determined in advance according to various features. If there is even one of the low-frequency effective values of each section that is less than the threshold value rmsl_low (m), the sound to be processed is the sound when the sound collection unit 31 is directly hit. It is determined that it is not voice, and a negative determination result is output.
  • step S57 the determination processing unit 68 supplies the zero cross value zcr (n) supplied from the zero cross value calculation unit 67. Determines whether or not the following expression (13) is satisfied.
  • zcr_high is a predetermined threshold value.
  • step S57 it is determined whether or not the zero cross value zcr (n) is equal to or less than the threshold value zcr_high.
  • step S57 If it is determined in step S57 that the zero cross value is greater than the threshold value zcr_high, a negative determination result is output in step S52, and the determination process ends. Thereafter, the process proceeds to step S20 in FIG.
  • the zero-cross value of the collected sound should be small to some extent. Therefore, when the zero cross value zcr (n) exceeds the threshold value zcr_high, it is determined that the sound to be processed is not a sound when the sound collection unit 31 is directly hit, and a negative determination result is obtained. Is output.
  • step S57 if it is determined in step S57 that the zero cross value zcr (n) is equal to or less than the threshold value zcr_high, the process proceeds to step S58.
  • step S58 the discrimination processing unit 68 supplies the control unit 35 with a discrimination result indicating that the sound pickup unit 31 has been hit, that is, a positive discrimination result.
  • the determination process ends, and then the process proceeds to step S20 in FIG.
  • the discrimination processing unit 68 determines whether or not the feature amount of each feature of the collected sound satisfies the condition that the sound when the sound collecting unit 31 is directly hit is satisfied. Then, it is determined whether or not the collected sound is a sound when the sound collection unit 31 is directly hit. By determining whether or not a condition is satisfied for each collected voice feature, it is possible to more reliably determine the voice.
  • the threshold value ph_low, threshold value rmsh_high (m), threshold value pl_low, threshold value rmsl_low (m), and threshold value zcr_high used in the discrimination processing described above are obtained in advance from a large number of samples and recorded in the discrimination processing unit 68. .
  • a large number of voices when the sound pickup unit 31 is directly hit and voices when the sound pickup unit 31 is not hit are collected.
  • it is determined as learning data for negative determination and a determination boundary on the feature space made up of feature amounts is obtained as a threshold value.
  • FIG. 6 is a diagram illustrating the appearance probability of the high frequency maximum value Ph (n) under various environments such as a train, a bus, and walking.
  • the horizontal axis indicates the maximum high frequency (dB) of each sampled voice
  • the vertical axis indicates the appearance probability.
  • the left side of the figure shows the appearance probability of the sound (hereinafter referred to as “environmental sound”) when the sound collection unit 31 is not hit, and the right side of the figure shows the sound collection unit 31.
  • Appearance probabilities are shown for the sound (hereinafter referred to as operation sound) when is directly struck.
  • the maximum high frequency of the environmental sound is distributed around -45 dB, whereas the maximum high frequency of the operation sound is distributed around 0 dB.
  • the environmental sound whose high frequency is around 0 dB Almost no. That is, it can be seen that the high frequency maximum value of the operation sound is distributed in a larger value than the high frequency maximum value of the environmental sound.
  • Such a difference in statistical distribution between the environmental sound and the high frequency maximum value Ph (n) of the operation sound is used to predict (discriminate) whether the sound is the environmental sound or the operation sound.
  • linear discriminant analysis is used to discriminate between environmental sounds and operation sounds.
  • the linear discriminant analysis is performed by using the explanatory variable as the high frequency maximum value Ph (n) and the target variable as the two groups of data of the environmental sound and the operation sound, the discriminant represented by the following equation (14) is obtained.
  • the constant term ph_low is a value corresponding to the midpoint between the centroid of the environmental sound distribution and the centroid of the operation sound distribution in FIG.
  • the threshold ph_low can be optimized by changing the threshold ph_low in the positive direction, that is, to be larger, but leak detection increases.
  • the threshold ph_low is changed in the negative direction so as to be optimized. In the determination using the high frequency effective value, the low frequency maximum value, the low frequency effective value, and the zero cross value performed thereafter, the operation sound can be more reliably determined if the excessive detection is gradually reduced. It can be carried out.
  • FIG. 7 is a diagram showing high-frequency effective values rmsh (n, m) under various environments such as trains, buses, and walks.
  • the high range effective value (dB) of the section HSm is shown.
  • the operation sound has a characteristic that the high-frequency effective value in the section near the time when the sound collection unit 31 is directly struck is large, and the high-frequency effective value in a section different from the section is relatively small.
  • the high frequency effective value of the environmental sound has a certain level in any section.
  • linear discriminant analysis is used to discriminate between environmental sounds and operation sounds.
  • the linear variable discriminant analysis is performed using the explanatory variable as the high-frequency effective value rmsh (n, m) and the target variable as the data of two groups of the environmental sound and the operation sound, the discriminant represented by the following equation (15) is obtained.
  • the values shown in FIG. 8 are obtained as the constant term rmsh_high (m), that is, the constant term rmsh_high (0) to the constant term rmsh_high (31) for each variable m.
  • the constant terms rmsh_high (3) to the constant term rmsh_high (5) are particularly large values corresponding to the high frequency effective value of the operation sound shown in FIG.
  • the discrimination score zrmsh in Expression (16) is 0 or more, the processing target sound is determined to be an operation sound, and when the determination score zrmsh is less than 0, it is determined that the processing target sound is an environmental sound. Is done.
  • leakage detection and excess detection can be optimized by changing the constant term bl_rmsh.
  • this constant term bl_rmsh is set as a threshold value
  • the sum of products of the linear discriminant coefficient al_rmsh (m) and the logarithmic value of the high frequency effective value rmsh (n, m) with 10 as the base is obtained in step S54 of FIG. Is compared with a threshold ( ⁇ bl_rmsh), and the operation sound is discriminated. That is, when the sum of products of the linear discrimination coefficient and the logarithmic value of the high-frequency effective value exceeds ⁇ bl_rmsh, it is determined that the processing target sound is an environmental sound.
  • discriminant of formula (15) to formula (17) may be determined according to the balance of the calculation amount, leak detection, and excess detection.
  • FIG. 9 is a diagram illustrating the appearance probability of the low frequency maximum value Pl (n) under various environments such as a train, a bus, and walking.
  • the horizontal axis indicates the low frequency maximum value (dB) of each sampled voice
  • the vertical axis indicates the appearance probability.
  • the appearance probability for the environmental sound is shown on the left side in the figure, and the appearance probability for the operation sound is shown on the right side in the figure.
  • the low range maximum value of the environmental sound is widely distributed around ⁇ 28 dB, whereas the low range maximum value of the operation sound is widely distributed near ⁇ 10 dB. That is, it can be seen that the low frequency maximum value of the operation sound is distributed in a larger value than the low frequency maximum value of the environmental sound.
  • Such a difference in statistical distribution between the environmental sound and the operation sound low range maximum value Pl (n) is used to predict whether the sound is an environmental sound or an operation sound so that excessive detection is reduced ( Determination) is performed.
  • linear discriminant analysis is used to discriminate between environmental sounds and operation sounds.
  • the linear discriminant analysis is performed using the explanatory variable as the low range maximum value Pl (n) and the target variable as the two groups of data of the environmental sound and the operation sound, the discriminant represented by the following equation (18) is obtained.
  • the constant term pl_low is a value corresponding to the midpoint between the centroid of the environmental sound distribution and the centroid of the operation sound distribution in FIG.
  • threshold rmsl_low (m) [About low-frequency effective value threshold rmsl_low (m)] Further, the threshold value rmsl_low (m) of the low-frequency effective value rmsl (n, m) will be described.
  • FIG. 10 is a diagram showing the low-frequency effective value rmsl (n, m) under various environments such as trains, buses, and walking.
  • the low band effective value (dB) is shown.
  • the low-frequency effective value of the environmental sound is shown on the upper side in the figure, and the low-frequency effective value of the operation sound is shown on the lower side in the figure.
  • linear discriminant analysis is used to discriminate between environmental sounds and operation sounds.
  • the linear variable discriminant analysis is performed using the explanatory variable as the low-frequency effective value rmsl (n, m) and the target variable as the data of two groups of the environmental sound and the operation sound, the discriminant represented by the following equation (19) is obtained.
  • the values shown in FIG. 11 are obtained as the constant term rmsl_low (m), that is, the constant term rmsl_low (0) to the constant term rmsl_low (3) for each variable m.
  • the constant term rmsl_low (0) and the constant term rmsl_low (1) are particularly large values corresponding to the low-frequency effective value of the operation sound shown in FIG.
  • the discrimination score zrmsl in Expression (20) is 0 or more, the processing target sound is determined to be an operation sound.
  • the determination score zrmsl is less than 0, the processing target sound is determined to be an environmental sound. Is done.
  • the operation sound is discriminated. That is, when the sum of the low-frequency effective values multiplied by the linear discrimination coefficient exceeds ⁇ b_rmsl, it is determined that the processing target sound is an environmental sound.
  • leak detection and excess detection can be optimized by changing the constant term bl_rmsl.
  • bl_rmsl is set as a threshold value
  • the sum is compared with a threshold value ( ⁇ bl_rmsl), and the operation sound is discriminated. That is, when the sum of products of the linear discrimination coefficient and the logarithmic value of the low-frequency effective value exceeds ⁇ bl_rmsl, it is determined that the sound to be processed is an environmental sound.
  • Bl_rms is a constant term for linear discrimination. Also in the discriminant of Expression (22), if the discrimination score zrms is 0 or more, it is determined as an operation sound, and if the discrimination score zrms is less than 0, it is determined as an environmental sound.
  • step S56 of FIG. 5 the product of the linear discriminant coefficient al_rmsh (m) and the logarithmic value of the high frequency effective value rmsh (n, m) with 10 as the base is obtained.
  • the sum of products of the sum and the linear discriminant coefficient al_rmsl (m) and the logarithmic value of the low-frequency effective value rmsl (n, m) with 10 as the base is obtained.
  • the sum of the two obtained sums is compared with a threshold ( ⁇ bl_rms), and the operation sound is discriminated. That is, when the sum of the two obtained sums exceeds ⁇ bl_rms, it is determined that the processing target sound is an environmental sound. In this case, the balance between the low-frequency effective value and the high-frequency effective value is taken into consideration for the sound discrimination.
  • discriminant of formula (19) to formula (22) may be determined according to the balance of calculation amount, leak detection, and excess detection.
  • FIG. 12 is a diagram illustrating the appearance probability of the zero-cross value zcr (n) under various environments such as a train, a bus, and walking.
  • the horizontal axis indicates the zero-cross value of each sampled voice
  • the vertical axis indicates the appearance probability.
  • the appearance probability for the environmental sound is shown on the left side in the figure, and the appearance probability for the operation sound is shown on the right side in the figure.
  • the zero cross value of the environmental sound is relatively small and widely distributed, whereas the zero cross value of the operation sound is widely distributed around 0. Further, the zero cross values of the operation sound are distributed more in the vicinity of 0 than the zero cross values of the environmental sound. A difference in the statistical distribution of the environmental sound and the zero cross value of the operation sound is used to predict (determine) whether the sound is the environmental sound or the operation sound so that excessive detection is reduced.
  • linear discriminant analysis is used to discriminate between environmental sounds and operation sounds.
  • the linear discriminant analysis is performed using the explanatory variable as the zero cross value zcr (n) and the target variable as the data of two groups of the environmental sound and the operation sound, the discriminant represented by the following equation (23) is obtained.
  • This constant term zcr_high is a value corresponding to the midpoint between the centroid of the environmental sound distribution and the centroid of the operation sound distribution in FIG.
  • the operation sound when the sound collection unit 31 is directly hit and the environmental sound when the sound collection unit 31 is not hit are obtained. Can be determined.
  • a method of creating a discriminant function for obtaining a threshold value and what feature quantity is used to create a discriminant function may be determined by a balance of discriminant performance such as leak detection and excessive detection, and a calculation amount.
  • the environmental sound may be limited to only those similar to the operation sound.
  • only the environmental sound whose discrimination score is near zero is made a sound similar to the operation sound, and is adopted as learning data.
  • the series of processes described above can be executed by hardware or software.
  • a program constituting the software may execute various functions by installing a computer incorporated in dedicated hardware or various programs. For example, it is installed from a program recording medium in a general-purpose personal computer or the like.
  • FIG. 13 is a block diagram showing an example of the hardware configuration of a computer that executes the above-described series of processing by a program.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input / output interface 205 is further connected to the bus 204.
  • the input / output interface 205 includes an input unit 206 including a keyboard, a mouse, and a microphone, an output unit 207 including a display and a speaker, a recording unit 208 including a hard disk and nonvolatile memory, and a communication unit 209 including a network interface.
  • a drive 210 for driving a removable medium 211 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory is connected.
  • the CPU 201 loads, for example, the program recorded in the recording unit 208 to the RAM 203 via the input / output interface 205 and the bus 204, and executes the program. Is performed.
  • Programs executed by the computer (CPU 201) are, for example, a magnetic disk (including a flexible disk), an optical disk (CD-ROM (Compact Disc-Read Only Memory), DVD (Digital Versatile Disc), etc.), a magneto-optical disk, or a semiconductor.
  • the program is recorded on a removable medium 211 that is a package medium composed of a memory or the like, or provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the recording unit 208 via the input / output interface 205 by attaching the removable medium 211 to the drive 210. Further, the program can be received by the communication unit 209 via a wired or wireless transmission medium and installed in the recording unit 208. In addition, the program can be installed in the ROM 202 or the recording unit 208 in advance.
  • the program executed by the computer may be a program that is processed in time series in the order described in this specification, or in parallel or at a necessary timing such as when a call is made. It may be a program for processing.
  • 11 playback device 21 earphone, 22 body, 31-1, 31-2, 31 sound collection unit, 34-1, 34-2, 34 discrimination unit, 35 control unit, 39 playback control unit, 61 low-pass filter processing unit , 62 Low frequency maximum value calculation unit, 63 Low frequency effective value calculation unit, 64 High frequency filter processing unit, 65 High frequency maximum value calculation unit, 66 High frequency effective value calculation unit, 67 Zero cross value calculation unit, 68 Discrimination processing unit

Abstract

 本発明は、より簡単な構成で操作性を向上させることができる制御装置および方法、並びにプログラムに関する。 楽曲等の音声を再生する再生装置11は、ユーザの耳に装着されるイヤホン21と本体22とから構成される。収音部31は、再生装置11の周囲の音声を収音し、判別部34は、収音された音声から特徴量を抽出して、その音声が、収音部31がユーザにより直接叩かれて生じた操作音であるか否かを判別する。制御部35は、判別部34による判別結果に応じた処理を実行する。例えば、所定時間内に収音部31-1が1度だけ叩かれた場合、制御部35は、再生制御部39を制御して、楽曲の再生を停止させる。再生装置11では、収音部31を叩くという簡単な操作で、各種の機能制御を行うことができ、ボタン等も設ける必要がなくなる。本発明は、音楽プレーヤに適用することができる。

Description

制御装置および方法、並びにプログラム
 本発明は制御装置および方法、並びにプログラムに関し、特に、より簡単な構成で操作性を向上させることができるようにした制御装置および方法、並びにプログラムに関する。
 近年、音楽プレーヤや携帯電話機、さらにはIC(Integrated Circuit)レコーダなど、マイクロホンを入力装置として持つ電子機器は増加の傾向にある。現在、これらの電子機器では、主にボタンやタッチパネルの操作により、音量の上げ下げ、再生の開始や停止、曲送りや曲戻しなどの電子機器の機能制御が行われている。
 このような電子機器には、例えば、ユーザの耳に装着されるイヤホンと、電子機器本体とを接続するコードにコントローラを設け、コントローラの操作により電子機器による楽曲の再生を制御できるようにしたものがある(例えば、特許文献1参照)。この電子機器では、コントローラにカメラが設けられており、ユーザは、コントローラや電子機器本体を操作することで、写真を撮像させることもできる。
特開2003-52089号公報
 しかしながら、電子機器やコントローラに多くの機能を持たせようとすると、その分だけ多くのボタンを設けなければならず、電子機器等の構成が複雑になってしまう。また、電子機器やコントローラに多くのボタンが設けられると、各ボタンが小さくなったり、目的とするボタンを見つけにくくなったりして、操作性が低下してしまう。
 特に、電車、バス、徒歩などでの移動中に、電子機器を使用する場合、ユーザはカバンやポケットから電子機器本体を取り出したり、コントローラを覗き込んだりしてボタン操作をしなければならないため、電子機器等に多くのボタンが設けられていると操作がしにくくなる。
 本発明は、このような状況に鑑みてなされたものであり、より簡単な構成で操作性を向上させることができるようにするものである。
 本発明の一側面の制御装置は、周囲の音声を収音する収音部と、前記収音部により収音された前記音声の最大値と実効値とを用いて、前記収音部が叩かれたか否かを判別する判別手段と、前記収音部が叩かれたと判別された場合、所定の処理を実行する実行手段とを備える。
 前記実行手段には、前記判別手段による判別結果に基づいて、所定時間内に前記収音部が叩かれた回数を特定させ、特定された前記回数に対して定められた処理を実行させることができる。
 前記判別手段には、前記最大値に対する閾値処理の結果と、前記実効値に対する閾値処理の結果とに基づいて、前記収音部が叩かれたか否かを判別させることができる。
 前記最大値に対する閾値処理に用いられる閾値、および前記実効値に対する閾値処理に用いられる閾値は、判別分析またはSVMにより予め定められるようにすることができる。
 前記判別手段には、前記音声の所定周波数よりも高い周波数の高域成分の最大値が、第1の閾値未満である場合、前記収音部が叩かれていないと判別させ、前記音声の前記高域成分よりも低い周波数の低域成分の最大値が、第2の閾値未満である場合、前記収音部が叩かれていないと判別させることができる。
 前記判別手段には、前記高域成分の時間方向の複数区間のそれぞれについて、前記高域成分の区間の実効値が、区間ごとに定められた第3の閾値以下であるか否かを判定させ、実効値が前記第3の閾値を超える前記高域成分の区間がある場合、前記収音部が叩かれていないと判別させ、前記低域成分の時間方向の複数区間のそれぞれについて、前記低域成分の区間の実効値が、区間ごとに定められた第4の閾値以上であるか否かを判定させ、実効値が前記第4の閾値未満となる前記低域成分の区間がある場合、前記収音部が叩かれていないと判別させることができる。
 前記高域成分の複数区間のそれぞれを、互いに異なる長さの区間とし、前記低域成分の複数区間のそれぞれを、互いに異なる長さの区間とすることができる。
 前記判別手段には、さらに前記高域成分の絶対値が、時間方向の特定位置において最大となるか否かを判定させ、前記絶対値が前記特定位置において最大とならない場合、前記収音部が叩かれていないと判別させることができる。
 前記判別手段には、さらに前記音声のゼロクロス値が第5の閾値以下であるか否かを判定させ、前記ゼロクロス値が前記第5の閾値を超える場合、前記収音部が叩かれていないと判別させることができる。
 前記判別手段には、前記高域成分の時間方向の複数区間のそれぞれの実効値の線形和が第6の閾値以下であるか否かを判定させ、前記線形和が前記第6の閾値を超える場合、前記収音部が叩かれていないと判別させることができる。
 前記判別手段には、前記高域成分の時間方向の複数区間のそれぞれの実効値の対数値の線形和が第7の閾値以下であるか否かを判定させ、前記線形和が前記第7の閾値を超える場合、前記収音部が叩かれていないと判別させることができる。
 前記判別手段には、前記低域成分の時間方向の複数区間のそれぞれの実効値の線形和が第8の閾値以下であるか否かを判定させ、前記線形和が前記第8の閾値を超える場合、前記収音部が叩かれていないと判別させることができる。
 前記判別手段には、前記低域成分の時間方向の複数区間のそれぞれの実効値の対数値の線形和が第9の閾値以下であるか否かを判定させ、前記線形和が前記第9の閾値を超える場合、前記収音部が叩かれていないと判別させることができる。
 前記判別手段には、前記高域成分の時間方向の複数区間のそれぞれの実効値の対数値の線形和と、前記低域成分の時間方向の複数区間のそれぞれの実効値の対数値の線形和との和が第10の閾値以下であるか否かを判定させ、前記和が前記第10の閾値を超える場合、前記収音部が叩かれていないと判別させることができる。
 前記実行手段には、複数の前記収音部のうち、叩かれた前記収音部により定まる処理を実行させることができる。
 本発明の一側面の制御方法またはプログラムは、収音部に周囲の音声を収音させ、前記収音部により収音された前記音声の最大値と実効値とを用いて、前記収音部が叩かれたか否かを判別し、前記収音部が叩かれたと判別された場合、所定の処理を実行するステップを含む。
 本発明の一側面においては、収音部により周囲の音声が収音され、前記収音部により収音された前記音声の最大値と実効値とが用いられて、前記収音部が叩かれたか否かが判別され、前記収音部が叩かれたと判別された場合、所定の処理が実行される。
 本発明の一側面によれば、より簡単な構成で操作性を向上させることができる。
本発明を適用した再生装置の一実施の形態の構成例を示す図である。 判別部の構成例を示す図である。 再生制御処理を説明するフローチャートである。 低域通過フィルタと高域通過フィルタの周波数振幅特性を示す図である。 判別処理を説明するフローチャートである。 高域最大値の出現確率を示す図である。 高域実効値の分布例を示す図である。 高域実効値の閾値の例を示す図である。 低域最大値の出現確率を示す図である。 低域実効値の分布例を示す図である。 低域実効値の閾値の例を示す図である。 ゼロクロス値の出現確率を示す図である。 コンピュータの構成例を示す図である。
 以下、図面を参照して、本発明を適用した実施の形態について説明する。
[再生装置の構成]
 図1は、本発明を適用した再生装置の一実施の形態の構成例を示す図である。
 再生装置11は、例えば楽曲などの音声を再生する携帯型の音楽プレーヤであり、ユーザの耳に装着されるイヤホン21と、イヤホン21が接続され、ユーザに所持される本体22とから構成される。
 イヤホン21には、収音部31-1、収音部31-2、スピーカ32-1、およびスピーカ32-2が設けられている。
 収音部31-1および収音部31-2は、例えばマイクロホンなどから構成され、再生装置11の周囲の音声を収音し、その結果得られた音声信号を本体22に供給する。
 スピーカ32-1およびスピーカ32-2は、本体22から供給された、楽曲等の音声信号に基づいて音声を再生する。
 なお、以下、収音部31-1および収音部31-2を特に区別する必要のない場合、単に収音部31とも称する。また、スピーカ32-1およびスピーカ32-2を特に区別する必要のない場合、単にスピーカ32とも称する。
 再生装置11では、収音部31およびスピーカ32が一体となってユーザの右側または左側の耳に装着されるイヤホンが形成されている。そして、収音部31により収音されて本体22に供給される音声は、いわゆるノイズキャンセリングと、楽曲等の音声の再生制御のために用いられる。
 具体的には、ユーザが指の腹などで収音部31を直接叩くと、本体22は、収音された音声からユーザによる収音部31へのタップ操作を識別し、その操作に応じた処理を実行する。
 また、再生装置11の本体22には、A/D(Analog/Digital)変換部33-1、A/D変換部33-2、判別部34-1、判別部34-2、制御部35、音声供給部36、ノイズ除去処理部37、加算部38、および再生制御部39が設けられている。
 A/D変換部33-1およびA/D変換部33-2は、収音部31-1および収音部31-2から供給されたアナログ信号である音声信号を、デジタル信号に変換する。デジタル信号に変換された音声信号は、A/D変換部33-1から判別部34-1およびノイズ除去処理部37に供給される。また、デジタル信号に変換された音声信号は、A/D変換部33-2から判別部34-2およびノイズ除去処理部37に供給される。
 判別部34-1および判別部34-2は、A/D変換部33-1およびA/D変換部33-2から供給された音声に基づいて、収音部31が直接叩かれたか否かを判別し、その判別結果を制御部35に供給する。すなわち、収音された音声が、収音部31がユーザにより叩かれたときに生じる音であるか否かが識別される。
 なお、以下、A/D変換部33-1およびA/D変換部33-2を特に区別する必要のない場合、単にA/D変換部33とも称し、判別部34-1および判別部34-2を特に区別する必要のない場合、単に判別部34と称する。
 制御部35は、再生装置11全体の動作を制御する。例えば、制御部35は、判別部34から供給された判別結果に基づいて、音声供給部36に楽曲等の音声を出力させたり、再生制御部39における音声の再生を制御したりする。
 音声供給部36は、楽曲等の音声のデータを記録しており、制御部35の指示に応じて音声のデータをデコードし、加算部38に供給する。ノイズ除去処理部37は、A/D変換部33から供給された音声に基づいて、再生装置11の周囲の音声と逆位相の音声を生成し、加算部38に供給する。
 加算部38は、音声供給部36から供給された音声に、ノイズ除去処理部37から供給された音声を加算して再生制御部39に供給する。再生制御部39は、制御部35の指示に従って、加算部38から供給された音声をスピーカ32-1およびスピーカ32-2に供給し、音声を出力させる。加算部38において、再生する楽曲の音声に、収音された周囲の音声と逆位相の音声を加えることで、周囲の環境雑音が打ち消され、ユーザの耳には楽曲だけが聞こえることになる。
[判別部の構成]
 また、図1の判別部34は、より詳細には図2に示すように構成される。
 すなわち、判別部34は、低域フィルタ処理部61、低域最大値算出部62、低域実効値算出部63、高域フィルタ処理部64、高域最大値算出部65、高域実効値算出部66、ゼロクロス値算出部67、および判別処理部68から構成される。
 低域フィルタ処理部61は、A/D変換部33から供給された音声信号にフィルタ処理を施して低域成分を抽出し、その結果得られた低域信号を低域最大値算出部62および低域実効値算出部63に供給する。
 低域最大値算出部62は、低域フィルタ処理部61から供給された低域信号の最大値(以下、低域最大値とも称する)を算出し、判別処理部68に供給する。低域実効値算出部63は、低域フィルタ処理部61から供給された低域信号の実効値(以下、低域実効値とも称する)を算出し、判別処理部68に供給する。
 高域フィルタ処理部64は、A/D変換部33から供給された音声信号にフィルタ処理を施して高域成分を抽出し、その結果得られた高域信号を高域最大値算出部65および高域実効値算出部66に供給する。
 高域最大値算出部65は、高域フィルタ処理部64から供給された高域信号の最大値(以下、高域最大値とも称する)を算出し、判別処理部68に供給する。高域実効値算出部66は、高域フィルタ処理部64から供給された高域信号の実効値(以下、高域実効値とも称する)を算出し、判別処理部68に供給する。
 ゼロクロス値算出部67は、A/D変換部33から供給された音声信号のゼロクロス値を算出して判別処理部68に供給する。判別処理部68は、低域最大値算出部62、低域実効値算出部63、高域最大値算出部65、高域実効値算出部66、およびゼロクロス値算出部67から供給された最大値、実効値、およびゼロクロス値を用いて、収音された音声の識別を行う。すなわち、判別処理部68は、収音部31がユーザにより直接叩かれたか否かを判別し、その判別結果を制御部35に供給する。
[再生制御処理の説明]
 ところで、ユーザにより再生装置11が操作され、楽曲等の再生が指示されると、再生装置11は、楽曲の再生を開始する。すなわち、音声供給部36は制御部35の指示に従って、指定された楽曲の音声(音声信号)を加算部38に供給する。また、ノイズ除去処理部37は、収音部31からA/D変換部33を介して供給された音声(環境音)を用いて、その音声とは逆位相の音声を生成し、加算部38に供給する。
 そして、加算部38は、音声供給部36およびノイズ除去処理部37からの音声を加算し、再生制御部39は、加算部38で得られた音声をスピーカ32に供給して出力させる。
 例えば、このような状態で、ユーザはイヤホン21を耳に装着し、本体22を着ている服のポケット等に入れる。そして、ユーザは、次の楽曲の再生や音量調整などの操作をする場合、指の腹で直接イヤホン21の収音部31を叩き、所望の処理の実行を指示する。
 再生装置11では、ユーザのこのような操作に応じた処理を行うために、再生装置11の電源がオンされると、ユーザの収音部31への操作を検出し、その操作に応じた処理を実行する処理である再生制御処理を繰り返し行う。
 以下、図3のフローチャートを参照して、再生装置11による再生制御処理について説明する。
 ステップS11において、収音部31は、周囲の音声を収音し、その結果得られた音声信号をA/D変換部33に供給する。また、A/D変換部33は、収音部31からの音声信号を、アナログ信号からデジタル信号に変換し、低域フィルタ処理部61、高域フィルタ処理部64、およびゼロクロス値算出部67に供給する。
 例えばA/D変換部33は、供給された音声信号を44.1kHzのサンプリング周波数でサンプリングする。そして、A/D変換部33は、得られた各サンプリング値を-1から1までの間の値となるように正規化し、その結果得られた値x(n)(但し、n=0,1,2,・・・)をデジタル信号である音声信号として出力する。
 なお、デジタル信号とされた音声信号の値x(n)における「n」は、時間インデックス、つまり何番目のサンプリング値であるかを表している。
 また、サンプリング周波数は44.1kHzに限らず、16kHz程度以上であればよい。サンプリング周波数が16kHz程度以上であれば、収音部31が直接叩かれたときの音声の検出性能にほとんど影響はないからである。さらに、収音部31による収音の帯域幅を8kHz以上とすれば、収音部31が直接叩かれたか否かの判別が充分に可能な音声信号を得ることができる。
 ステップS12において、低域フィルタ処理部61は、低域通過フィルタを用いたフィルタ処理により、A/D変換部33から供給された音声信号から低域信号を抽出し、低域最大値算出部62および低域実効値算出部63に供給する。
 具体的には、低域フィルタ処理部61は次式(1)を計算することにより、音声信号から低域信号xl(n)を抽出する。
Figure JPOXMLDOC01-appb-M000001
 なお、式(1)において、Nlは低域通過フィルタのタップ数を示しており、hl(i)は低域通過フィルタの係数を示している。したがって、最も新しくサンプリングされて得られた音声信号の値x(n)から値x(n-Nl+1)までの、時間的に連続するNl個の音声信号の値が重み付き加算されて、低域信号xl(n)とされる。
 ステップS13において、高域フィルタ処理部64は、高域通過フィルタを用いたフィルタ処理により、A/D変換部33から供給された音声信号から高域信号を抽出し、高域最大値算出部65および高域実効値算出部66に供給する。
 具体的には、高域フィルタ処理部64は次式(2)を計算することにより、音声信号から高域信号xh(n)を抽出する。
Figure JPOXMLDOC01-appb-M000002
 なお、式(2)において、Nhは高域通過フィルタのタップ数を示しており、hh(i)は高域通過フィルタの係数を示している。したがって、最も新しくサンプリングされて得られた音声信号の値x(n)から値x(n-Nh+1)までの、時間的に連続するNh個の音声信号の値が重み付き加算されて、高域信号xh(n)とされる。
 また、例えば式(1)および式(2)における係数hl(i)および係数hh(i)は、FIR(Finite Impulse Response)型で直線位相をもつ係数とされ、低域通過フィルタおよび高域通過フィルタのカットオフ周波数は、5512.5Hzとされる。すなわち、音声信号のうち、5512.5Hz以下の周波数成分が低域信号とされ、5512.5Hzよりも大きい周波数成分が高域信号とされる。さらに、例えば低域通過フィルタのタップ数Nlと、高域通過フィルタのタップ数Nhは、ともに128などとされる。
 このような場合、低域通過フィルタおよび高域通過フィルタは、図4に示す周波数振幅特性をもつことになる。なお、図4において、図中、上側には低域通過フィルタの周波数振幅特性が示されており、図中、下側には高域通過フィルタの周波数振幅特性が示されている。また、図4において、縦軸は振幅(dB)を示しており、横軸は正規化周波数を示している。
 図中、上側に示す低域通過フィルタでは、正規化周波数が0から約0.25までは振幅がほぼ0dBとされており、正規化周波数0.25付近で急激に振幅が小さくなっている。また、正規化周波数が0.3以上では正規化周波数が大きくなるにつれて振幅が小さくなっていく。
 これに対して、図中、下側に示す高域通過フィルタでは、正規化周波数が0から約0.2までは振幅がほぼ-60dBとされており、正規化周波数0.2付近で急激に振幅が大きくなっている。また、正規化周波数が0.25以上では振幅がほぼ0dBとされている。このように、高域通過フィルタでは、阻止域減衰量が-60dBとされている。
 なお、高域通過フィルタの阻止域減衰量が-60dBである例について説明したが、阻止域減衰量は-40dB程度以下であればよい。阻止域減衰量が-40dB程度以下であれば、収音部31が直接叩かれたときの音声の検出性能にほとんど影響は生じない。
 また、低域通過フィルタの阻止域減衰量は、収音部31が直接叩かれたときの音声の検出性能にほとんど影響を与えないため、低域通過フィルタはオールパスフィルタであってもよい。さらに、低域通過フィルタと高域通過フィルタのカットオフ周波数が、5512.5Hzである例について説明したが、カットオフ周波数は2kHzから10kHz程度であればよく、そのような場合、収音部31が直接叩かれたときの音声の検出性能にほとんど影響は生じない。
 さらに、低域通過フィルタおよび高域通過フィルタとして、IIR(Infinite Impulse Response)型のフィルタを用いてもよい。但し、そのような場合、直線位相特性を実現することが困難であるため、収音部31が直接叩かれたときの音声の検出性能が劣化する可能性がある。
 図3のフローチャートの説明に戻り、低域信号および高域信号が抽出されると、処理はステップS13からステップS14へと進む。
 ステップS14において、低域最大値算出部62は、低域フィルタ処理部61から供給された低域信号に基づいて低域最大値Pl(n)を算出し、判別処理部68に供給する。具体的には、低域最大値算出部62は、次式(3)を計算することにより、低域最大値Pl(n)を算出する。
Figure JPOXMLDOC01-appb-M000003
 すなわち、低域信号の最も新しいn番目の値xl(n)から、過去の(n-2047)番目の値xl(n-2047)までの値のそれぞれについて絶対値が求められ、それらの絶対値のうちの最大値(最大値ノルム)が低域最大値Pl(n)とされる。
 式(3)では、現在の時刻nから過去の時刻(n-2047)までの2048サンプルの低域信号が処理対象とされて、低域最大値Pl(n)の算出が行われるが、処理対象とするサンプル数は512サンプル程度以上であればよい。低域最大値Pl(n)の算出時に処理対象とするサンプル数が、512サンプル程度以上であれば、収音部31が直接叩かれたときの音声の検出性能に影響は生じない。
 例えば、512サンプルの低域信号が処理対象とされる場合、過去の時刻(n-1536)から過去の時刻(n-2047)までの512サンプルの低域信号が用いられ、それらの値の絶対値のうちの最大値が低域最大値Pl(n)とされる。
 ステップS15において、低域実効値算出部63は、低域フィルタ処理部61から供給された低域信号に基づいて低域実効値rmsl(n,m)(但し、m=0,1,2,3)を算出し、判別処理部68に供給する。具体的には、低域実効値算出部63は、次式(4)を計算することにより、4つの低域実効値rmsl(n,m)を算出する。
Figure JPOXMLDOC01-appb-M000004
 すなわち、低域実効値算出部63は、現在の時刻nから過去の時刻(n-2047)までの2048サンプルの低域信号を4つの区間に等間隔で分割する。分割により得られた4つの区間LS0乃至区間LS3は、それぞれ連続する512サンプルの低域信号の値からなる。
 低域実効値算出部63は、各区間LSm(但し、m=0,1,2,3)について、その区間を構成する512サンプル分の低域信号の値の二乗平均値(ユークリッドノルム)を算出し、得られた二乗平均値を区間LSmの低域実効値rmsl(n,m)とする。
 したがって、例えば区間LS3の低域実効値rmsl(n,3)は、低域信号の時刻nの値xl(n)から、時刻(n-511)の値xl(n-511)までの各時刻における低域信号の値の二乗平均値とされる。このようにして得られた低域実効値rmsl(n,m)は、音声信号の低域成分の各区間における実効値である。
 なお、低域信号の二乗平均値を求めると説明したが、収音部31が叩かれたときの音声の検出性能の改善や演算量低減のため、低域信号の絶対値平均値(一次平均ノルム)を低域実効値としてもよい。
 また、式(4)の例では、現在の時刻nから過去の時刻(n-2047)までの2048サンプルの低域信号が処理対象とされて、低域実効値rmsl(n,m)の算出が行われるが、処理対象とするサンプル数は1024サンプル程度以上であればよい。処理対象とするサンプル数が、1024サンプル程度以上であれば、収音部31が直接叩かれたときの音声の検出性能に影響は生じない。
 例えば、1024サンプルの低域信号が処理対象とされる場合、現在の時刻nから、過去の時刻(n-1023)までの低域信号が2区間に等間隔で分割される。そして、分割により得られた各区間について、その区間を構成する512サンプルの低域信号の値の二乗平均値が低域実効値として算出される。
 さらに、低域実効値の算出にあたり、処理対象の区間(サンプル数)が等間隔に分割されると説明したが、低域信号の波形が有する特徴に合わせて、低域信号が不等間隔に分割されるようにしてもよい。これにより、低域信号の特徴的な波形部分の区間をより狭くし、低域実効値を用いて、収音部31が直接叩かれたときの音声を検出するときに、検出性能を向上させることができる。
 ステップS16において、高域最大値算出部65は、高域フィルタ処理部64から供給された高域信号に基づいて高域最大値Ph(n)を算出する。具体的には、高域最大値算出部65は、次式(5)を計算することにより、高域最大値Ph(n)を算出する。
Figure JPOXMLDOC01-appb-M000005
 すなわち、高域信号の現在の時刻nの値xh(n)から、過去の時刻(n-2047)の値xh(n-2047)までの値のそれぞれについて絶対値が求められ、それらの絶対値のうちの最大値(最大値ノルム)が高域最大値Ph(n)とされる。
 また、高域最大値算出部65は、高域最大値Ph(n)とされたサンプル、つまり処理対象のサンプルのうち、高域信号の値の絶対値が最大であったサンプルの時刻(時間インデックス)hiを、高域最大値Ph(n)とともに判別処理部68に供給する。
 ステップS17において、高域実効値算出部66は、高域フィルタ処理部64から供給された高域信号に基づいて高域実効値rmsh(n,m)(但し、m=0,1,2,…,31)を算出し、判別処理部68に供給する。具体的には、高域実効値算出部66は、次式(6)を計算することにより、32個の高域実効値rmsh(n,m)を算出する。
Figure JPOXMLDOC01-appb-M000006
 すなわち、高域実効値算出部66は、現在の時刻nから過去の時刻(n-2047)までの2048サンプルの高域信号を32個の区間に等間隔で分割する。分割により得られた32個の区間HS0乃至区間HS31は、それぞれ連続する64サンプルの高域信号の値からなる。
 高域実効値算出部66は、各区間HSm(但し、m=0,1,2,…,31)について、その区間を構成する64サンプル分の高域信号の値の二乗平均値(ユークリッドノルム)を算出し、得られた二乗平均値を区間HSmの高域実効値rmsh(n,m)とする。
 なお、高域信号の二乗平均値を求めると説明したが、収音部31が叩かれたときの音声の検出性能の改善や演算量低減のため、高域信号の絶対値平均値(一次平均ノルム)を高域実効値としてもよい。
 また、式(6)の例では、現在の時刻nから過去の時刻(n-2047)までの2048サンプルの高域信号が処理対象とされて、高域実効値rmsh(n,m)の算出が行われるが、処理対象とするサンプル数は1024サンプル程度以上であればよい。処理対象とするサンプル数が、1024サンプル程度以上であれば、収音部31が直接叩かれたときの音声の検出性能に影響は生じない。
 例えば、1024サンプルの高域信号が処理対象とされる場合、過去の時刻(n-1024)から、過去の時刻(n-2047)までの高域信号が16区間に等間隔で分割される。そして、分割により得られた各区間について、その区間を構成する64サンプルの高域信号の値の二乗平均値が高域実効値として算出される。
 さらに、高域実効値の算出にあたり、処理対象の区間(サンプル数)が等間隔に分割されると説明したが、高域信号の波形が有する特徴に合わせて、高域信号が不等間隔に分割されるようにしてもよい。これにより、高域信号の特徴的な波形部分の区間をより狭くし、高域実効値を用いて、収音部31が直接叩かれたときの音声の検出するときに、検出性能を向上させることができる。
 ステップS18において、ゼロクロス値算出部67は、A/D変換部33から供給された音声信号x(n)に基づいて、次式(7)を計算することにより、ゼロクロス値zcr(n)を算出し、判別処理部68に供給する。
Figure JPOXMLDOC01-appb-M000007
 なお、式(7)において、negative(A)は、引数Aが負の場合に1とされ、引数Aが負でない場合に0とされる関数である。したがって、ゼロクロス値zcr(n)は、現在の時刻nから過去の時刻(n-2048)までの間における、音声信号(音声の波形)が0と交差する率を示している。
 以上において説明した処理により、音声信号の特徴の特徴量として、低域最大値、低域実効値、高域最大値、高域実効値、およびゼロクロス値が判別処理部68に供給される。なお、以下において、これらの低域最大値、低域実効値、高域最大値、高域実効値、およびゼロクロス値を特に区別する必要のない場合、単に音声信号の特徴量とも称する。
 ステップS19において、判別部34は、判別処理を行って、収音部31により収音された音声が、収音部31がユーザの指の腹により直接叩かれたときの音声であるか否かを判別し、その判別結果を制御部35に供給する。
 なお、判別処理の詳細は後述するが、判別処理では、音声信号の各特徴量が所定の条件を満たす場合、収音部31が直接叩かれた旨の判別結果が出力され、各特徴量が所定の条件を満たさない場合、収音部31が直接叩かれていない旨の判別結果が出力される。以下、収音部31が直接叩かれた旨の判別結果をポジティブな判別結果とも称し、収音部31が直接叩かれていない旨の判別結果をネガティブな判別結果とも称することとする。
 判別処理が行われると、判別部34-1および判別部34-2から、それぞれ判別結果が制御部35に供給される。すなわち、ステップS11乃至ステップS19の処理は、収音部31-1、A/D変換部33-1、および判別部34-1と、収音部31-2、A/D変換部33-2、および判別部34-2とにより、それぞれ行われる。
 ステップS20において、制御部35は、判別部34の判別処理部68から供給された判別結果に基づいて、ユーザにより実行が指示された処理を特定する。
 例えば、再生装置11では、収音部31ごとに、収音部31が所定の時間内に叩かれた回数に対して予め特定の処理が対応付けられている。例えば、収音部31-1のみが所定時間内に1度だけ叩かれた場合、再生中の楽曲の音量が上げられ、収音部31-2のみが所定時間内に1度だけ叩かれた場合、再生中の楽曲の音量が下げられ、収音部31-1のみが所定時間内に2度叩かれた場合、楽曲の再生が停止される。
 制御部35は、判別部34から順次供給される判別結果に基づいて、どの収音部31が所定時間内に何回叩かれたか(操作されたか)を特定し、その特定結果に対して予め定められた処理を特定する。
 したがって、収音部31-1から所定時間内にポジティブな判別結果が2回供給され、収音部31-2からはネガティブな判別結果が供給された場合、上述の例では、楽曲の再生を停止する処理が特定される。
 なお、収音部31の操作に割り当てられる機能(処理)は、音量の上げ下げ、楽曲の再生や停止、曲送り、曲戻しなどの他、設定の切り替えや電源のオフ等、再生装置11において実行される処理であれば、どのようなものであってもよい。また、所定時間内に収音部31-1と収音部31-2が交互に叩かれた場合や、同時に叩かれた場合など、2つの収音部31の組み合わせ操作に対しても処理が割り当てられるようにしてもよい。
 ステップS21において、制御部35は、ステップS20において特定された処理を実行し、再生制御処理は終了する。
 例えば、楽曲の再生を一時停止する処理が特定された場合、制御部35は、再生制御部39を制御して、再生制御部39からスピーカ32への音声の供給を一時的に停止させる。また、例えば、音量を上げる処理が特定された場合、制御部35は、再生制御部39からスピーカ32に供給される音声の音量が大きくなるように、再生制御部39を制御する。
 以上のようにして再生装置11は、収音部31により収音された音声の特徴量を算出し、それらの特徴量に基づいて、収音された音声が、収音部31を直接叩いたときの音声であるか否かを判別し、その判別結果に応じた処理を実行する。
 これにより、より簡単な構成で再生装置11の操作性を向上させることができる。すなわち、再生装置11では、いわゆるノイズキャンセリング用に設けられた収音部31により周囲の音声を取り込んで、その音声について各特徴の特徴量が求められ、それらの特徴量が用いられて、ユーザの操作が特定される。
 したがって、ユーザは、ポケットなどからいちいち再生装置を取り出して、再生装置本体に設けられたボタンやタッチパネルに直接触れる必要はなく、収音部31を叩くだけで再生装置11による楽曲等の再生制御を実行させることができる。しかも、収音部31により収音された音声に基づいて、ユーザの操作を特定するため、再生装置11に再生制御用のボタン等を設ける必要がなく、再生装置11の構成をより簡単なものとすることができる。
[判別処理の説明]
 次に、図5のフローチャートを参照して、図3のステップS19の処理に対応する判別処理について説明する。なお、この判別処理は、判別部34-1および判別部34-2のそれぞれにおいて行われる。
 ステップS51において、判別処理部68は、高域最大値算出部65から供給された時間インデックスhiが、次式(8)を満たすか否かを判定する。
Figure JPOXMLDOC01-appb-M000008
 なお、式(8)において、hi_peakは予め定められた定数であり、例えば1791とされる。また、時間インデックスhiは、高域信号の絶対値が最大となる時刻である。したがって、ステップS51では、高域信号の絶対値が、時刻(n-hi_peak)で最大となっているか否かが判定される。
 高域信号では、収音部31がユーザにより直接叩かれた時刻において、高域信号の絶対値が最大となるはずである。そこで、処理基準となる現在時刻nから予め定められた所定の時間(ここではhi_peak)だけ過去の時刻において絶対値が最大となる音声信号を、収音部31が直接叩かれたときの音声の判別対象とすれば、判別精度を向上させることができる。すなわち、収音部31がユーザにより直接叩かれた前後の期間の同期のとれた音声信号の波形、つまり特定の位相の波形を処理対象とすることができ、より簡単かつ精度よく音声の判別を行うことができるようになる。
 なお、所定の時間hi_peakは、(1791-128)≦hi_peak≦(1791+128)程度であれば、収音部31が叩かれたときの音声の検出性能にほとんど影響が生じないため、時間hi_peakは1791程度の値であればよい。
 ステップS51において、高域信号の絶対値が時刻(n-hi_peak)で最大となっていないと判定された場合、ステップS52において、判別処理部68は、収音部31が叩かれていない旨の判別結果、つまりネガティブな判別結果を制御部35に供給する。そして、判別結果が出力されると、判別処理は終了し、その後、処理は図3のステップS20へと進む。
 これに対して、ステップS51において高域信号の絶対値が時刻(n-hi_peak)で最大となっていると判定された場合、ステップS53において、判別処理部68は高域最大値算出部65から供給された高域最大値Ph(n)が、次式(9)を満たすか否かを判定する。
Figure JPOXMLDOC01-appb-M000009
 なお、式(9)において、ph_lowは予め定められた閾値であり、ステップS53では、高域最大値Ph(n)が閾値ph_low以上であるか否かが判定される。
 ステップS53において、高域最大値が閾値ph_low未満であると判定された場合、ステップS52においてネガティブな判別結果が出力されて判別処理は終了し、その後、処理は図3のステップS20に進む。
 収音部31が直接叩かれた場合、収音された音声の高域成分は、ある程度の強度(振幅)を有しているはずである。そこで、高域最大値が閾値ph_lowに満たない場合には、処理対象となっている音声(音声信号)は、収音部31が直接叩かれたときの音声ではないと判別され、ネガティブな判別結果が出力される。
 一方、ステップS53において、高域最大値が閾値ph_low以上であると判定された場合、ステップS54において、判別処理部68は、高域実効値算出部66から供給された各高域実効値rmsh(n,m)が、次式(10)を満たすか否かを判定する。
Figure JPOXMLDOC01-appb-M000010
 なお、式(10)において、rmsh_high(m)(但し、m=0,1,2,…,31)は予め定められた閾値であり、ステップS54では、各区間HSmの高域実効値rmsh(n,m)が、閾値rmsh_high(m)以下であるか否かが判定される。すなわち、高域実効値rmsh(n,0)乃至高域実効値rmsh(n,31)のそれぞれが、閾値rmsh_high(0)乃至閾値rmsh_high(31)のそれぞれ以下であるか否かが判定される。
 ステップS54において、高域実効値が閾値rmsh_high(m)以下でないと判定された場合、ステップS52においてネガティブな判別結果が出力されて判別処理は終了し、その後、処理は図3のステップS20に進む。
 収音部31が直接叩かれた場合、収音された音声の高域成分は、叩かれた時刻付近の区間では実効値が大きく、それ以外の区間ではあまり実効値が大きくないという特徴を有しており、そのような特徴に合わせて、各区間の閾値rmsh_high(m)が予め定められる。そして、各区間の高域実効値のうち、1つでも閾値rmsh_high(m)を超えるものがある場合には、処理対象となっている音声は、収音部31が直接叩かれたときの音声ではないと判別され、ネガティブな判別結果が出力される。
 また、ステップS54において、高域実効値が閾値rmsh_high(m)以下であると判定された場合、ステップS55において、判別処理部68は、低域最大値算出部62から供給された低域最大値Pl(n)が、次式(11)を満たすか否かを判定する。
Figure JPOXMLDOC01-appb-M000011
 なお、式(11)において、pl_lowは予め定められた閾値であり、ステップS55では、低域最大値Pl(n)が閾値pl_low以上であるか否かが判定される。
 ステップS55において、低域最大値が閾値pl_low未満であると判定された場合、ステップS52においてネガティブな判別結果が出力されて判別処理は終了し、その後、処理は図3のステップS20に進む。
 収音部31が直接叩かれた場合、特に収音部31に設けられたマイクロホンの穴が、ユーザの指の腹で塞がれるように叩かれた場合、収音された音声の低域成分は、ある程度の強度(振幅)を有しているはずである。そこで、低域最大値が閾値pl_lowに満たない場合には、処理対象となっている音声は、収音部31が直接叩かれたときの音声ではないと判別され、ネガティブな判別結果が出力される。
 一方、ステップS55において、低域最大値が閾値pl_low以上であると判定された場合、ステップS56において、判別処理部68は、低域実効値算出部63から供給された各低域実効値rmsl(n,m)が、次式(12)を満たすか否かを判定する。
Figure JPOXMLDOC01-appb-M000012
 なお、式(12)において、rmsl_low(m)(但し、m=0,1,2,3)は予め定められた閾値であり、ステップS56では、各区間LSmの低域実効値rmsl(n,m)が、閾値rmsl_low(m)以上であるか否かが判定される。すなわち、低域実効値rmsl(n,0)乃至低域実効値rmsl(n,3)のそれぞれが、閾値rmsl_low(0)乃至閾値rmsl_low(3)のそれぞれ以上であるか否かが判定される。
 ステップS56において、低域実効値が閾値rmsl_low(m)以上でないと判定された場合、ステップS52においてネガティブな判別結果が出力されて判別処理は終了し、その後、処理は図3のステップS20に進む。
 収音部31が直接叩かれた場合、収音された音声の低域成分は、叩かれた時刻後においてもある程度長い期間、実効値が大きい値となるという特徴を有しており、そのような特徴に合わせて、各区間の閾値rmsl_low(m)が予め定められる。そして、各区間の低域実効値のうち、1つでも閾値rmsl_low(m)未満となるものがある場合には、処理対象となっている音声は、収音部31が直接叩かれたときの音声ではないと判別され、ネガティブな判別結果が出力される。
 また、ステップS56において、低域実効値が閾値rmsl_low(m)以上であると判定された場合、ステップS57において、判別処理部68は、ゼロクロス値算出部67から供給されたゼロクロス値zcr(n)が、次式(13)を満たすか否かを判定する。
Figure JPOXMLDOC01-appb-M000013
 なお、式(13)において、zcr_highは予め定められた閾値であり、ステップS57では、ゼロクロス値zcr(n)が、閾値zcr_high以下であるか否かが判定される。
 ステップS57において、ゼロクロス値が閾値zcr_highよりも大きいと判定された場合、ステップS52においてネガティブな判別結果が出力されて判別処理は終了し、その後、処理は図3のステップS20に進む。
 収音部31が直接叩かれた場合、収音された音声には低域成分が多く含まれているため、収音された音声のゼロクロス値は、ある程度小さいはずである。そこで、ゼロクロス値zcr(n)が、閾値zcr_highを超える場合には、処理対象となっている音声は、収音部31が直接叩かれたときの音声ではないと判別され、ネガティブな判別結果が出力される。
 一方、ステップS57において、ゼロクロス値zcr(n)が閾値zcr_high以下であると判定された場合、処理はステップS58に進む。
 ステップS58において、判別処理部68は、収音部31が叩かれた旨の判別結果、つまりポジティブな判別結果を制御部35に供給する。そして、判別結果が出力されると、判別処理は終了し、その後、処理は図3のステップS20へと進む。
 このようにして判別処理部68は、収音された音声の各特徴の特徴量が、収音部31が直接叩かれたときの音声が満たすべき条件を満たしているか否かを判定することで、収音された音声が、収音部31が直接叩かれたときの音声であるか否かを判別する。収音された音声の特徴ごとに条件を満たしているか否かを判定することで、より確実に音声の判別を行うことができる。
[高域最大値の閾値ph_lowについて]
 ところで、以上において説明した判別処理において用いられる閾値ph_low、閾値rmsh_high(m)、閾値pl_low、閾値rmsl_low(m)、および閾値zcr_highは、多数のサンプルから予め求められ、判別処理部68に記録される。
 例えば電車、バス、徒歩などの様々な環境下で、収音部31を直接叩いたときの音声と、収音部31を叩いていないときの音声とが多数集められ、それらの音声が正判定または負判定の学習データとされて、特徴量からなる特徴空間上の判別境界が閾値として求められる。
 以下、これらの閾値の算出方法について説明する。
 まず、高域最大値Ph(n)の閾値ph_lowについて説明する。図6は、電車、バス、徒歩などのさまざまな環境下での高域最大値Ph(n)の出現確率を示す図である。なお、図中、横軸はサンプルとされた各音声の高域最大値(dB)を示しており、縦軸は出現確率を示している。
 図6では、図中、左側には収音部31が叩かれていないときの音声(以下、環境音と称する)についての出現確率が示されており、図中、右側には収音部31が直接叩かれたときの音声(以下、操作音と称する)についての出現確率が示されている。
 環境音の高域最大値は-45dB付近に多く分布しているのに対し、操作音の高域最大値は0dB付近に多く分布しており、高域最大値が0dB程度である環境音は殆どない。つまり、操作音の高域最大値は、環境音の高域最大値よりも大きな値に分布していることが分かる。このような環境音と操作音の高域最大値Ph(n)の統計的な分布の違いが用いられて、環境音または操作音の何れであるかの予測(判別)が行われる。
 例えば、環境音と操作音の判別には、線形判別分析が用いられる。説明変量を高域最大値Ph(n)とし、目的変量を環境音と操作音の2群のデータとして線形判別分析を行うと、次式(14)に示す判別式が得られる。
Figure JPOXMLDOC01-appb-M000014
 例えば、図6に示したサンプルが用いられる場合、定数項ph_lowとして0.0679が得られる。この定数項ph_lowは、図6の環境音の分布の重心と、操作音の分布の重心との中点に相当する値である。
 式(14)では、判別得点zphが0以上である場合、処理対象の音声は操作音であるとされ、判別得点zphが0未満である場合、処理対象の音声は操作音ではない、つまり環境音であると判別される。この判別式の定数項ph_lowが、高域最大値の閾値ph_lowとされ、判別処理部68に記録される。
 なお、式(14)による1つの特徴量、つまり高域最大値Ph(n)による判別では、操作音を環境音と判別してしまう漏れ検出や、環境音を操作音として判別してしまう過剰検出が多い。
 漏れ検出を少なくしたい場合、閾値ph_lowを負の方向、つまりより小さくなるように変更することで最適化することはできるが、そうすると過剰検出が多くなってしまう。逆に、過剰検出を少なくしたい場合には、閾値ph_lowを正の方向、つまりより大きくなるように変更することで最適化することはできるが、漏れ検出が多くなってしまう。
 判別処理部68による判別処理では、図5を参照して説明したように、多段判別を行っているので、高域最大値Ph(n)による判別では、漏れ検出が少なくなり、過剰検出が多くなるように閾値ph_lowを負の方向に変更し、最適化するのが好ましい。そして、それ以降において行われる高域実効値、低域最大値、低域実効値、ゼロクロス値を用いた判別では、段階的に過剰検出が少なくなるようにすると、より確実に操作音の判別を行うことができる。
[高域実効値の閾値rmsh_high(m)について]
 次に、高域実効値rmsh(n,m)の閾値rmsh_high(m)について説明する。図7は、電車、バス、徒歩などのさまざまな環境下での高域実効値rmsh(n,m)を示す図である。
 なお、図中、横軸は各区間HSm、つまり高域実効値rmsh(n,m)の変数m(但し、m=0,1,2,…,31)を示しており、縦軸は各区間HSmの高域実効値(dB)を示している。
 図7では、図中、上側には環境音の高域実効値が示されており、図中、下側には操作音の高域実効値が示されている。また、図7に示す高域実効値は、図5のステップS51で説明した、時間インデックスhi=n-hi_peakの条件を満たすサンプル(音声)の高域実効値であり、hi_peak=1791とされている。
 そのため、環境音の高域実効値も操作音の高域実効値もm=2,3付近では、ともに大きな値に分布している。また、操作音の高域実効値は、m=2以下と、m=5以上である区間において、環境音の高域実効値よりも小さい値に分布していることが分かる。
 このように、操作音には、収音部31が直接叩かれた時刻付近の区間の高域実効値が大きく、その区間とは異なる区間の高域実効値は比較的小さいという特徴があるが、環境音の高域実効値は、どの区間においてもある程度の大きさとなっている。
 このような環境音と操作音の各区間の高域実効値rmsh(n,m)の統計的な分布の違いが用いられて、過剰検出が少なくなるように、環境音または操作音の何れであるかの予測(判別)が行われる。
 例えば、環境音と操作音の判別には、線形判別分析が用いられる。説明変量を高域実効値rmsh(n,m)とし、目的変量を環境音と操作音の2群のデータとして線形判別分析を行うと、次式(15)に示す判別式が得られる。
Figure JPOXMLDOC01-appb-M000015
 例えば、図7に示したサンプルが用いられる場合、各変数mについての定数項rmsh_high(m)、つまり定数項rmsh_high(0)乃至定数項rmsh_high(31)として、図8に示す値が得られる。各定数項のうち、定数項rmsh_high(3)乃至定数項rmsh_high(5)が、図7に示した操作音の高域実効値に対応して、特に大きな値となっている。
 式(15)では、区間HS0乃至区間HS31の全ての判別得点zrmsh(m)が0以上である場合、処理対象の音声は操作音であるとされ、1つでも判別得点zrmsh(m)が0未満となる区間HSmがある場合、処理対象の音声は環境音であると判別される。この判別式の定数項rmsh_high(m)が、高域実効値の閾値rmsh_high(m)とされ、判別処理部68に記録される。
 なお、上述した閾値ph_lowの変更による漏れ検出や過剰検出の最適化と同様に、高域実効値の閾値rmsh_high(m)を変更することでも、漏れ検出や過剰検出の最適化を行うことは可能であるが、閾値(定数項)が32個もあるため、その変更は極めて困難である。
 これに対して、説明変量を32次元の高域実効値rmsh(n,m)(但し、m=0,1,2,…,31)として線形判別分析を行うと、次式(16)に示す判別式が得られる。
Figure JPOXMLDOC01-appb-M000016
 式(16)において、a_rmsh(m)(但し、m=0,1,2,…,31)は線形判別係数であり、b_rmshは線形判別の定数項である。そして、式(16)の判別得点zrmshが0以上である場合、処理対象の音声は操作音であるとされ、判別得点zrmshが0未満である場合、処理対象の音声は環境音であると判別される。
 式(16)の判別式においては、閾値ph_lowの変更による漏れ検出や過剰検出の最適化と同様に、定数項b_rmshを変更することにより、式(15)の判別式の場合よりも簡単に漏れ検出や過剰検出の最適化を行うことができる。
 この定数項b_rmshが閾値とされる場合、図5のステップS54では、線形判別係数a_rmsh(m)と高域実効値rmsh(n,m)の積の総和が、閾値(-b_rmsh)と比較されて、操作音の判別が行われる。すなわち、線形判別係数が乗算された高域実効値の総和が-b_rmshを超える場合、処理対象の音声は環境音であると判別される。
 さらに、式(16)における説明変量である32次元の高域実効値rmsh(n,m)を、次式(17)に示すように対数尺度に変換すると、漏れ検出や過剰検出をより低減させることができる。
Figure JPOXMLDOC01-appb-M000017
 なお、式(17)において、al_rmsh(m)(但し、m=0,1,2,…,31)は線形判別係数であり、bl_rmshは線形判別の定数項である。式(17)の判別式においても、判別得点zrmshが0以上であれば操作音と判別され、判別得点zrmshが0未満であれば環境音であると判別される。
 また、式(17)の判別式においては、定数項bl_rmshを変更することにより、漏れ検出や過剰検出の最適化を行うことができる。この定数項bl_rmshが閾値とされる場合、図5のステップS54では、線形判別係数al_rmsh(m)と、10を底とする高域実効値rmsh(n,m)の対数値との積の総和が閾値(-bl_rmsh)と比較され、操作音の判別が行われる。つまり、線形判別係数と、高域実効値の対数値との積の総和が-bl_rmshを超える場合、処理対象の音声は環境音であると判別される。
 なお、式(15)乃至式(17)の何れの判別式を用いるかは、演算量、漏れ検出、過剰検出のバランスに応じて定めればよい。
[低域最大値の閾値pl_lowについて]
 次に、低域最大値Pl(n)の閾値pl_lowについて説明する。図9は、電車、バス、徒歩などのさまざまな環境下での低域最大値Pl(n)の出現確率を示す図である。なお、図中、横軸はサンプルとされた各音声の低域最大値(dB)を示しており、縦軸は出現確率を示している。
 図9では、図中、左側には環境音についての出現確率が示されており、図中、右側には操作音についての出現確率が示されている。
 環境音の低域最大値は-28dB付近を中心に広く分布しているのに対し、操作音の低域最大値は-10dB付近に多く分布している。つまり、操作音の低域最大値は、環境音の低域最大値よりも大きな値に分布していることが分かる。このような環境音と操作音の低域最大値Pl(n)の統計的な分布の違いが用いられて、過剰検出が少なくなるように、環境音または操作音の何れであるかの予測(判別)が行われる。
 例えば、環境音と操作音の判別には、線形判別分析が用いられる。説明変量を低域最大値Pl(n)とし、目的変量を環境音と操作音の2群のデータとして線形判別分析を行うと、次式(18)に示す判別式が得られる。
Figure JPOXMLDOC01-appb-M000018
 例えば、図9に示したサンプルが用いられる場合、定数項pl_lowとして0.644が得られる。この定数項pl_lowは、図9の環境音の分布の重心と、操作音の分布の重心との中点に相当する値である。
 式(18)では、判別得点zplが0以上である場合、処理対象の音声は操作音であるとされ、判別得点zplが0未満である場合、処理対象の音声は環境音であると判別される。この判別式の定数項pl_lowが、低域最大値の閾値pl_lowとされ、判別処理部68に記録される。なお、上述した閾値ph_lowの場合と同様に、低域最大値の閾値pl_lowを変更することでも、漏れ検出や過剰検出の最適化を行うことが可能である。
[低域実効値の閾値rmsl_low(m)について]
 さらに、低域実効値rmsl(n,m)の閾値rmsl_low(m)について説明する。
 図10は、電車、バス、徒歩などのさまざまな環境下での低域実効値rmsl(n,m)を示す図である。なお、図中、横軸は各区間LSm、つまり低域実効値rmsl(n,m)の変数m(但し、m=0,1,2,3)を示しており、縦軸は各区間LSmの低域実効値(dB)を示している。
 図10では、図中、上側には環境音の低域実効値が示されており、図中、下側には操作音の低域実効値が示されている。また、図10に示す低域実効値は、図5のステップS51で説明した、時間インデックスhi=n-hi_peakの条件を満たすサンプル(音声)の低域実効値であり、hi_peak=1791とされている。
 そのため、環境音の低域実効値も操作音の低域実効値もm=0では、ともに大きな値に分布している。また、操作音の低域実効値は、m=0,1,2,3の全ての区間において、環境音の低域実効値よりも大きい値に分布していることが分かる。
 このように、操作音には、収音部31が直接叩かれた後、緩やかに低域実効値が減少していくという特徴があるが、環境音の低域実効値は、m=2,3の区間において急激に低域実効値が減少している。
 このような環境音と操作音の各区間の低域実効値rmsl(n,m)の統計的な分布の違いが用いられて、過剰検出が少なくなるように、環境音または操作音の何れであるかの予測(判別)が行われる。
 例えば、環境音と操作音の判別には、線形判別分析が用いられる。説明変量を低域実効値rmsl(n,m)とし、目的変量を環境音と操作音の2群のデータとして線形判別分析を行うと、次式(19)に示す判別式が得られる。
Figure JPOXMLDOC01-appb-M000019
 例えば、図10に示したサンプルが用いられる場合、各変数mについての定数項rmsl_low(m)、つまり定数項rmsl_low(0)乃至定数項rmsl_low(3)として、図11に示す値が得られる。各定数項のうち、定数項rmsl_low(0)および定数項rmsl_low(1)が、図10に示した操作音の低域実効値に対応して、特に大きな値となっている。
 式(19)では、区間LS0乃至区間LS3の全ての判別得点zrmsl(m)が0以上である場合、処理対象の音声は操作音であるとされ、1つでも判別得点zrmsl(m)が0未満となる区間LSmがある場合、処理対象の音声は環境音であると判別される。この判別式の定数項rmsl_low(m)が、低域実効値の閾値rmsl_low(m)とされ、判別処理部68に記録される。
 なお、低域実効値の閾値rmsl_low(m)を変更することでも、漏れ検出や過剰検出の最適化を行うことは可能であるが、閾値(定数項)が4個もあるため、その変更は困難である。
 これに対して、説明変量を4次元の低域実効値rmsl(n,m)(但し、m=0,1,2,3)として線形判別分析を行うと、次式(20)に示す判別式が得られる。
Figure JPOXMLDOC01-appb-M000020
 式(20)において、a_rmsl(m)(但し、m=0,1,2,3)は線形判別係数であり、b_rmslは線形判別の定数項である。そして、式(20)の判別得点zrmslが0以上である場合、処理対象の音声は操作音であるとされ、判別得点zrmslが0未満である場合、処理対象の音声は環境音であると判別される。
 式(20)の判別式においては、定数項b_rmslを変更することにより、式(19)の判別式の場合よりも簡単に漏れ検出や過剰検出の最適化を行うことができる。
 この定数項b_rmslが閾値とされる場合、図5のステップS56では、線形判別係数a_rmsl(m)と低域実効値rmsl(n,m)の積の総和が、閾値(-b_rmsl)と比較されて、操作音の判別が行われる。すなわち、線形判別係数が乗算された低域実効値の総和が-b_rmslを超える場合、処理対象の音声は環境音であると判別される。
 また、式(20)における説明変量である4次元の低域実効値rmsl(n,m)を、次式(21)に示すように対数尺度に変換すると、漏れ検出や過剰検出をより低減させることができる。
Figure JPOXMLDOC01-appb-M000021
 なお、式(21)において、al_rmsl(m)(但し、m=0,1,2,3)は線形判別係数であり、bl_rmslは線形判別の定数項である。式(21)の判別式においても、判別得点zrmslが0以上であれば操作音と判別され、判別得点zrmslが0未満であれば環境音であると判別される。
 また、式(21)の判別式においては、定数項bl_rmslを変更することにより、漏れ検出や過剰検出の最適化を行うことができる。この定数項、bl_rmslが閾値とされる場合、図5のステップS56では、線形判別係数al_rmsl(m)と、10を底とする低域実効値rmsl(n,m)の対数値との積の総和が閾値(-bl_rmsl)と比較されて、操作音の判別が行われる。つまり、線形判別係数と、低域実効値の対数値との積の総和が-bl_rmslを超える場合、処理対象の音声は環境音であると判別される。
 さらに、漏れ検出や過剰検出の最適化のために、説明変量を32次元の高域実効値rmsh(n,m)(但し、m=0,1,2,…,31)と、4次元の低域実効値rmsl(n,m)(但し、m=0,1,2,3)として線形判別分析を行うことも可能である。そのような場合、次式(22)に示す判別式が得られる。
Figure JPOXMLDOC01-appb-M000022
 式(22)において、al_rmsh(m)(但し、m=0,1,2,…,31)、およびal_rmsl(m)(但し、m=0,1,2,3)は線形判別係数であり、bl_rmsは線形判別の定数項である。式(22)の判別式においても、判別得点zrmsが0以上であれば操作音と判別され、判別得点zrmsが0未満であれば環境音であると判別される。
 また、式(22)の判別式においては、定数項bl_rmsを変更することにより、漏れ検出や過剰検出の最適化を行うことができる。この定数項、bl_rmsが閾値とされる場合、図5のステップS56では、線形判別係数al_rmsh(m)と、10を底とする高域実効値rmsh(n,m)の対数値との積の総和、および線形判別係数al_rmsl(m)と、10を底とする低域実効値rmsl(n,m)の対数値との積の総和が求められる。そして求められた2つの総和の和が閾値(-bl_rms)と比較されて、操作音の判別が行われる。つまり、求められた2つの総和の和が-bl_rmsを超える場合、処理対象の音声は環境音であると判別される。この場合、低域実効値と高域実効値とのバランスが音声の判別に考慮されることになる。
 なお、式(19)乃至式(22)の何れの判別式を用いるかは、演算量、漏れ検出、過剰検出のバランスに応じて定めればよい。
[ゼロクロス値の閾値zcr_highについて]
 最後に、ゼロクロス値zcr(n)の閾値zcr_highについて説明する。図12は、電車、バス、徒歩などのさまざまな環境下でのゼロクロス値zcr(n)の出現確率を示す図である。なお、図中、横軸はサンプルとされた各音声のゼロクロス値を示しており、縦軸は出現確率を示している。
 図12では、図中、左側には環境音についての出現確率が示されており、図中、右側には操作音についての出現確率が示されている。
 環境音のゼロクロス値は比較的小さい値で広く分布しているのに対し、操作音のゼロクロス値は0付近に多く分布している。また、操作音のゼロクロス値は、0付近において環境音のゼロクロス値よりも多く分布している。このような環境音と操作音のゼロクロス値の統計的な分布の違いが用いられて、過剰検出が少なくなるように、環境音または操作音の何れであるかの予測(判別)が行われる。
 例えば、環境音と操作音の判別には、線形判別分析が用いられる。説明変量をゼロクロス値zcr(n)とし、目的変量を環境音と操作音の2群のデータとして線形判別分析を行うと、次式(23)に示す判別式が得られる。
Figure JPOXMLDOC01-appb-M000023
 例えば、図12に示したサンプルが用いられる場合、定数項zcr_highとして0.013が得られる。この定数項zcr_highは、図12の環境音の分布の重心と、操作音の分布の重心との中点に相当する値である。
 式(23)では、判別得点zzcrが0以上である場合、処理対象の音声は操作音であるとされ、判別得点zzcrが0未満である場合、処理対象の音声は環境音であると判別される。この判別式の定数項zcr_highが、ゼロクロス値の閾値zcr_highとされ、判別処理部68に記録される。なお、ゼロクロス値の閾値zcr_highを変更することでも、漏れ検出や過剰検出の最適化を行うことが可能である。
 以上のように、判別境界を求めて、その判別境界を閾値として用いることで、収音部31が直接叩かれたときの操作音と、収音部31が叩かれていないときの環境音とを判別することが可能となる。
 また、以上においては、線形判別分析を用いて判別関数(判別式)を作成する例について説明したが、非線形判別、さらには線形SVM(Support Vector Machine)や非線形SVMなどを用いることも可能である。閾値を得るための判別関数の作成方法や、どのような特徴量を用いて判別関数を作成するかは、漏れ検出や過剰検出などの判別性能、演算量等のバランスにより定めればよい。
 さらに、判別分析の際に、電車、バス、徒歩など様々な環境下で操作音と環境音を多数集め、それらの音声を正判定と負判定の学習データとすると説明したが、判別性能をあげるために、環境音を操作音と類似しているものだけに限定するようにしてもよい。そのような場合、例えば、判別得点が零値付近の環境音だけが操作音と類似する音声とされ、学習データとして採用される。
 また、以上においては、収音部31により収音された音声が操作音であるか否かを判別し、その判別結果に応じた処理を行う装置の例として、携帯型の音楽プレーヤである再生装置11について説明したが、その他、ICレコーダなどどのような装置でもよい。
 上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
 図13は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)201,ROM(Read Only Memory)202,RAM(Random Access Memory)203は、バス204により相互に接続されている。
 バス204には、さらに、入出力インターフェース205が接続されている。入出力インターフェース205には、キーボード、マウス、マイクロホンなどよりなる入力部206、ディスプレイ、スピーカなどよりなる出力部207、ハードディスクや不揮発性のメモリなどよりなる記録部208、ネットワークインターフェースなどよりなる通信部209、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア211を駆動するドライブ210が接続されている。
 以上のように構成されるコンピュータでは、CPU201が、例えば、記録部208に記録されているプログラムを、入出力インターフェース205及びバス204を介して、RAM203にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU201)が実行するプログラムは、例えば、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア211に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。
 そして、プログラムは、リムーバブルメディア211をドライブ210に装着することにより、入出力インターフェース205を介して、記録部208にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部209で受信し、記録部208にインストールすることができる。その他、プログラムは、ROM202や記録部208に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
 11 再生装置, 21 イヤホン, 22 本体, 31-1,31-2,31 収音部, 34-1,34-2,34 判別部, 35 制御部, 39 再生制御部, 61 低域フィルタ処理部, 62 低域最大値算出部, 63 低域実効値算出部, 64 高域フィルタ処理部, 65 高域最大値算出部, 66 高域実効値算出部, 67 ゼロクロス値算出部, 68 判別処理部

Claims (18)

  1.  周囲の音声を収音する収音部と、
     前記収音部により収音された前記音声の最大値と実効値とを用いて、前記収音部が叩かれたか否かを判別する判別手段と、
     前記収音部が叩かれたと判別された場合、所定の処理を実行する実行手段と
     を備える制御装置。
  2.  前記実行手段は、前記判別手段による判別結果に基づいて、所定時間内に前記収音部が叩かれた回数を特定し、特定された前記回数に対して定められた処理を実行する
     請求項1に記載の制御装置。
  3.  前記実行手段は、複数の前記収音部のうち、叩かれた前記収音部により定まる処理を実行する
     請求項1に記載の制御装置。
  4.  前記判別手段は、前記最大値に対する閾値処理の結果と、前記実効値に対する閾値処理の結果とに基づいて、前記収音部が叩かれたか否かを判別する
     請求項1に記載の制御装置。
  5.  前記最大値に対する閾値処理に用いられる閾値、および前記実効値に対する閾値処理に用いられる閾値は、判別分析またはSVMにより予め定められる
     請求項4に記載の制御装置。
  6.  前記判別手段は、前記音声の所定周波数よりも高い周波数の高域成分の最大値が、第1の閾値未満である場合、前記収音部が叩かれていないと判別し、前記音声の前記高域成分よりも低い周波数の低域成分の最大値が、第2の閾値未満である場合、前記収音部が叩かれていないと判別する
     請求項4に記載の制御装置。
  7.  前記判別手段は、
      前記高域成分の時間方向の複数区間のそれぞれについて、前記高域成分の区間の実効値が、区間ごとに定められた第3の閾値以下であるか否かを判定し、実効値が前記第3の閾値を超える前記高域成分の区間がある場合、前記収音部が叩かれていないと判別し、
      前記低域成分の時間方向の複数区間のそれぞれについて、前記低域成分の区間の実効値が、区間ごとに定められた第4の閾値以上であるか否かを判定し、実効値が前記第4の閾値未満となる前記低域成分の区間がある場合、前記収音部が叩かれていないと判別する
     請求項6に記載の制御装置。
  8.  前記高域成分の複数区間のそれぞれは、互いに異なる長さの区間とされ、前記低域成分の複数区間のそれぞれは、互いに異なる長さの区間とされる
     請求項7に記載の制御装置。
  9.  前記判別手段は、さらに前記高域成分の絶対値が、時間方向の特定位置において最大となるか否かを判定し、前記絶対値が前記特定位置において最大とならない場合、前記収音部が叩かれていないと判別する
     請求項7または請求項8の何れかに記載の制御装置。
  10.  前記判別手段は、さらに前記音声のゼロクロス値が第5の閾値以下であるか否かを判定し、前記ゼロクロス値が前記第5の閾値を超える場合、前記収音部が叩かれていないと判別する
     請求項9に記載の制御装置。
  11.  前記判別手段は、前記高域成分の時間方向の複数区間のそれぞれの実効値の線形和が第6の閾値以下であるか否かを判定し、前記線形和が前記第6の閾値を超える場合、前記収音部が叩かれていないと判別する
     請求項6に記載の制御装置。
  12.  前記判別手段は、前記高域成分の時間方向の複数区間のそれぞれの実効値の対数値の線形和が第7の閾値以下であるか否かを判定し、前記線形和が前記第7の閾値を超える場合、前記収音部が叩かれていないと判別する
     請求項6に記載の制御装置。
  13.  前記判別手段は、前記低域成分の時間方向の複数区間のそれぞれの実効値の線形和が第8の閾値以下であるか否かを判定し、前記線形和が前記第8の閾値を超える場合、前記収音部が叩かれていないと判別する
     請求項6に記載の制御装置。
  14.  前記判別手段は、前記低域成分の時間方向の複数区間のそれぞれの実効値の対数値の線形和が第9の閾値以下であるか否かを判定し、前記線形和が前記第9の閾値を超える場合、前記収音部が叩かれていないと判別する
     請求項6に記載の制御装置。
  15.  前記判別手段は、前記高域成分の時間方向の複数区間のそれぞれの実効値の対数値の線形和と、前記低域成分の時間方向の複数区間のそれぞれの実効値の対数値の線形和との和が第10の閾値以下であるか否かを判定し、前記和が前記第10の閾値を超える場合、前記収音部が叩かれていないと判別する
     請求項6に記載の制御装置。
  16.  前記収音部はイヤホンに設けられている
     請求項1に記載の制御装置。
  17.  周囲の音声を収音する収音部と、
     前記収音部により収音された前記音声の最大値と実効値とを用いて、前記収音部が叩かれたか否かを判別する判別手段と、
     前記収音部が叩かれたと判別された場合、所定の処理を実行する実行手段と
     を備える制御装置の制御方法であって、
     前記収音部が前記音声を収音し、
     前記判別手段が、前記収音部が叩かれたか否かを判別し、
     前記実行手段が、前記判別手段による判別結果に応じて前記所定の処理を実行する
     ステップを含む制御方法。
  18.  収音部に周囲の音声を収音させ、
     前記収音部により収音された前記音声の最大値と実効値とを用いて、前記収音部が叩かれたか否かを判別し、
     前記収音部が叩かれたと判別された場合、所定の処理を実行する
     ステップを含む処理をコンピュータに実行させるプログラム。
PCT/JP2010/071606 2009-12-11 2010-12-02 制御装置および方法、並びにプログラム WO2011070971A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
EP10835892.0A EP2386943B1 (en) 2009-12-11 2010-12-02 Mobile audio reproducing apparatus, corresponding method and computer program
BRPI1007881A BRPI1007881A2 (pt) 2009-12-11 2010-12-02 dispositivo de controle, método de controle de um dispositivo de controle, e, programa.
CN201080006668.7A CN102308277B (zh) 2009-12-11 2010-12-02 控制装置、控制方法和程序
KR1020117018142A KR101669302B1 (ko) 2009-12-11 2010-12-02 제어 장치
US13/147,858 US9053709B2 (en) 2009-12-11 2010-12-12 Control device, control method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009-281964 2009-12-11
JP2009281964A JP5515709B2 (ja) 2009-12-11 2009-12-11 制御装置および方法、並びにプログラム

Publications (1)

Publication Number Publication Date
WO2011070971A1 true WO2011070971A1 (ja) 2011-06-16

Family

ID=44145516

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/071606 WO2011070971A1 (ja) 2009-12-11 2010-12-02 制御装置および方法、並びにプログラム

Country Status (7)

Country Link
US (1) US9053709B2 (ja)
EP (1) EP2386943B1 (ja)
JP (1) JP5515709B2 (ja)
KR (1) KR101669302B1 (ja)
CN (1) CN102308277B (ja)
BR (1) BRPI1007881A2 (ja)
WO (1) WO2011070971A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102435885A (zh) * 2011-10-09 2012-05-02 绵阳市维博电子有限责任公司 一种道岔转辙机动作电压检测方法、设备和系统

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9599981B2 (en) 2010-02-04 2017-03-21 Echostar Uk Holdings Limited Electronic appliance status notification via a home entertainment system
JP5352634B2 (ja) * 2011-07-11 2013-11-27 株式会社エヌ・ティ・ティ・ドコモ 入力装置
KR102018654B1 (ko) * 2013-06-07 2019-09-05 엘지전자 주식회사 이어 마이크가 장착되는 이동 단말기 및 그 동작방법
US9772612B2 (en) 2013-12-11 2017-09-26 Echostar Technologies International Corporation Home monitoring and control
US9900177B2 (en) 2013-12-11 2018-02-20 Echostar Technologies International Corporation Maintaining up-to-date home automation models
US9769522B2 (en) 2013-12-16 2017-09-19 Echostar Technologies L.L.C. Methods and systems for location specific operations
US9723393B2 (en) 2014-03-28 2017-08-01 Echostar Technologies L.L.C. Methods to conserve remote batteries
KR101486194B1 (ko) * 2014-06-09 2015-02-11 박미경 이어폰을 이용한 입력 방법 및 장치
US9621959B2 (en) 2014-08-27 2017-04-11 Echostar Uk Holdings Limited In-residence track and alert
US9824578B2 (en) 2014-09-03 2017-11-21 Echostar Technologies International Corporation Home automation control using context sensitive menus
US9989507B2 (en) 2014-09-25 2018-06-05 Echostar Technologies International Corporation Detection and prevention of toxic gas
US9511259B2 (en) 2014-10-30 2016-12-06 Echostar Uk Holdings Limited Fitness overlay and incorporation for home automation system
US9983011B2 (en) 2014-10-30 2018-05-29 Echostar Technologies International Corporation Mapping and facilitating evacuation routes in emergency situations
US9967614B2 (en) 2014-12-29 2018-05-08 Echostar Technologies International Corporation Alert suspension for home automation system
US9729989B2 (en) 2015-03-27 2017-08-08 Echostar Technologies L.L.C. Home automation sound detection and positioning
CN106067996B (zh) * 2015-04-24 2019-09-17 松下知识产权经营株式会社 语音再现方法、语音对话装置
US9948477B2 (en) 2015-05-12 2018-04-17 Echostar Technologies International Corporation Home automation weather detection
US9946857B2 (en) 2015-05-12 2018-04-17 Echostar Technologies International Corporation Restricted access for home automation system
US9632746B2 (en) * 2015-05-18 2017-04-25 Echostar Technologies L.L.C. Automatic muting
US9960980B2 (en) 2015-08-21 2018-05-01 Echostar Technologies International Corporation Location monitor and device cloning
US10589051B2 (en) 2015-10-20 2020-03-17 Steven Salter CPAP compliance notification apparatus and method
US9996066B2 (en) 2015-11-25 2018-06-12 Echostar Technologies International Corporation System and method for HVAC health monitoring using a television receiver
US10101717B2 (en) 2015-12-15 2018-10-16 Echostar Technologies International Corporation Home automation data storage system and methods
US9743170B2 (en) 2015-12-18 2017-08-22 Bose Corporation Acoustic noise reduction audio system having tap control
US10091573B2 (en) 2015-12-18 2018-10-02 Bose Corporation Method of controlling an acoustic noise reduction audio system by user taps
US10110987B2 (en) * 2015-12-18 2018-10-23 Bose Corporation Method of controlling an acoustic noise reduction audio system by user taps
US9798309B2 (en) 2015-12-18 2017-10-24 Echostar Technologies International Corporation Home automation control based on individual profiling using audio sensor data
US9930440B2 (en) 2015-12-18 2018-03-27 Bose Corporation Acoustic noise reduction audio system having tap control
US10091017B2 (en) 2015-12-30 2018-10-02 Echostar Technologies International Corporation Personalized home automation control based on individualized profiling
US10060644B2 (en) 2015-12-31 2018-08-28 Echostar Technologies International Corporation Methods and systems for control of home automation activity based on user preferences
US10073428B2 (en) 2015-12-31 2018-09-11 Echostar Technologies International Corporation Methods and systems for control of home automation activity based on user characteristics
US9628286B1 (en) 2016-02-23 2017-04-18 Echostar Technologies L.L.C. Television receiver and home automation system and methods to associate data with nearby people
US9882736B2 (en) 2016-06-09 2018-01-30 Echostar Technologies International Corporation Remote sound generation for a home automation system
US10294600B2 (en) 2016-08-05 2019-05-21 Echostar Technologies International Corporation Remote detection of washer/dryer operation/fault condition
US10049515B2 (en) 2016-08-24 2018-08-14 Echostar Technologies International Corporation Trusted user identification and management for home automation systems
WO2018167901A1 (ja) * 2017-03-16 2018-09-20 ヤマハ株式会社 ヘッドフォン
CN106814670A (zh) * 2017-03-22 2017-06-09 重庆高略联信智能技术有限公司 一种河道采砂智能监管方法及系统
US10354641B1 (en) 2018-02-13 2019-07-16 Bose Corporation Acoustic noise reduction audio system having tap control
CN112468918A (zh) * 2020-11-13 2021-03-09 北京安声浩朗科技有限公司 主动降噪方法、装置、电子设备以及主动降噪耳机

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004340706A (ja) * 2003-05-15 2004-12-02 Toshiba Mitsubishi-Electric Industrial System Corp 機器の診断装置
JP2006323943A (ja) * 2005-05-19 2006-11-30 Sony Corp 再生装置,プログラム及び再生制御方法
JP2008054103A (ja) * 2006-08-25 2008-03-06 Nec Corp 携帯電子機器及びその制御方法
JP2008166897A (ja) * 2006-12-27 2008-07-17 Sony Corp 音声出力装置、音声出力方法、音声出力処理用プログラムおよび音声出力システム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6772094B2 (en) * 2000-10-23 2004-08-03 James Tyson Sound-based vessel cleaner inspection
JP2005250584A (ja) * 2004-03-01 2005-09-15 Sharp Corp 入力装置
KR100677613B1 (ko) * 2005-09-09 2007-02-02 삼성전자주식회사 멀티미디어 기기의 동작을 제어하는 방법 및 그 장치
CN100555353C (zh) * 2006-08-28 2009-10-28 日本胜利株式会社 电子设备的控制装置及电子设备的控制方法
JP4671055B2 (ja) * 2007-11-26 2011-04-13 セイコーエプソン株式会社 叩きコマンド処理システム、電子機器の操作システム及び電子機器

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004340706A (ja) * 2003-05-15 2004-12-02 Toshiba Mitsubishi-Electric Industrial System Corp 機器の診断装置
JP2006323943A (ja) * 2005-05-19 2006-11-30 Sony Corp 再生装置,プログラム及び再生制御方法
JP2008054103A (ja) * 2006-08-25 2008-03-06 Nec Corp 携帯電子機器及びその制御方法
JP2008166897A (ja) * 2006-12-27 2008-07-17 Sony Corp 音声出力装置、音声出力方法、音声出力処理用プログラムおよび音声出力システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102435885A (zh) * 2011-10-09 2012-05-02 绵阳市维博电子有限责任公司 一种道岔转辙机动作电压检测方法、设备和系统

Also Published As

Publication number Publication date
KR20120111917A (ko) 2012-10-11
JP5515709B2 (ja) 2014-06-11
EP2386943B1 (en) 2018-11-14
US20110295396A1 (en) 2011-12-01
US9053709B2 (en) 2015-06-09
EP2386943A1 (en) 2011-11-16
JP2011123751A (ja) 2011-06-23
CN102308277B (zh) 2015-03-25
KR101669302B1 (ko) 2016-10-25
CN102308277A (zh) 2012-01-04
BRPI1007881A2 (pt) 2016-02-23
EP2386943A4 (en) 2012-08-01

Similar Documents

Publication Publication Date Title
JP5515709B2 (ja) 制御装置および方法、並びにプログラム
JP4640461B2 (ja) 音量調整装置およびプログラム
US9998081B2 (en) Method and apparatus for processing an audio signal based on an estimated loudness
JP5493611B2 (ja) 情報処理装置、情報処理方法およびプログラム
CN104246877B (zh) 用于音频信号处理的系统和方法
JP4640463B2 (ja) 再生装置、表示方法および表示プログラム
CN102668374B (zh) 音频录音的自适应动态范围增强
US8804976B2 (en) Content reproduction device and method, and program
WO2006075275A1 (en) Audio entertainment system, method, computer program product
JP2012027186A (ja) 音声信号処理装置、音声信号処理方法及びプログラム
JP4623124B2 (ja) 楽曲再生装置、楽曲再生方法および楽曲再生プログラム
JP3810257B2 (ja) 音声帯域拡張装置及び音声帯域拡張方法
DE102012103553A1 (de) Audiosystem und verfahren zur verwendung von adaptiver intelligenz, um den informationsgehalt von audiosignalen in verbraucheraudio zu unterscheiden und eine signalverarbeitungsfunktion zu steuern
JP2010021627A (ja) 音量調整装置、音量調整方法および音量調整プログラム
JP2011237753A (ja) 信号処理装置および方法、並びにプログラム
CA2869884C (en) A processing apparatus and method for estimating a noise amplitude spectrum of noise included in a sound signal
CN106066782B (zh) 一种数据处理方法及电子设备
JP3933909B2 (ja) 音声/音楽混合比推定装置およびそれを用いたオーディオ装置
JP4495704B2 (ja) 音像定位強調再生方法、及びその装置とそのプログラムと、その記憶媒体
JP5126281B2 (ja) 楽曲再生装置
US8242836B2 (en) Acoustic characteristic control apparatus
JP2012095254A (ja) 音量調整装置、音量調整方法及び音量調整プログラム並びに音響機器
KR100406248B1 (ko) 새로운 음 연주 판별 방법 및 그 장치
JPH05183522A (ja) 音声・楽音識別回路

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201080006668.7

Country of ref document: CN

ENP Entry into the national phase

Ref document number: 20117018142

Country of ref document: KR

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 13147858

Country of ref document: US

Ref document number: 5660/CHENP/2011

Country of ref document: IN

Ref document number: 2010835892

Country of ref document: EP

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10835892

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

REG Reference to national code

Ref country code: BR

Ref legal event code: B01A

Ref document number: PI1007881

Country of ref document: BR

ENP Entry into the national phase

Ref document number: PI1007881

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20110804