WO2021028758A1 - 音響装置、及びその動作方法 - Google Patents

音響装置、及びその動作方法 Download PDF

Info

Publication number
WO2021028758A1
WO2021028758A1 PCT/IB2020/057125 IB2020057125W WO2021028758A1 WO 2021028758 A1 WO2021028758 A1 WO 2021028758A1 IB 2020057125 W IB2020057125 W IB 2020057125W WO 2021028758 A1 WO2021028758 A1 WO 2021028758A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
voice
unit
function
feature amount
Prior art date
Application number
PCT/IB2020/057125
Other languages
English (en)
French (fr)
Inventor
永嶋文哉
秋元健吾
岡野達也
幸村雄介
井上聖子
Original Assignee
株式会社半導体エネルギー研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社半導体エネルギー研究所 filed Critical 株式会社半導体エネルギー研究所
Priority to CN202080056225.2A priority Critical patent/CN114207708A/zh
Priority to JP2021539690A priority patent/JPWO2021028758A1/ja
Priority to KR1020227007021A priority patent/KR20220044530A/ko
Priority to US17/630,090 priority patent/US20220366928A1/en
Publication of WO2021028758A1 publication Critical patent/WO2021028758A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1781Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1781Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
    • G10K11/17821Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions characterised by the analysis of the input signals only
    • G10K11/17827Desired external signals, e.g. pass-through audio such as music or speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1785Methods, e.g. algorithms; Devices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1785Methods, e.g. algorithms; Devices
    • G10K11/17855Methods, e.g. algorithms; Devices for improving speed or power requirements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1787General system configurations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1787General system configurations
    • G10K11/17873General system configurations using a reference signal without an error signal, e.g. pure feedforward
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/10Applications
    • G10K2210/108Communication systems, e.g. where useful sound is kept and noise is cancelled
    • G10K2210/1081Earphones, e.g. for telephones, ear protectors or headsets
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/30Means
    • G10K2210/301Computational
    • G10K2210/3024Expert systems, e.g. artificial intelligence
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/30Means
    • G10K2210/301Computational
    • G10K2210/3025Determination of spectrum characteristics, e.g. FFT
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/30Means
    • G10K2210/301Computational
    • G10K2210/3038Neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Definitions

  • One aspect of the present invention relates to an audio device and a method of operating the same.
  • One aspect of the present invention relates to an information processing system and an information processing method.
  • voice recognition for example, when a user of an information terminal such as a smartphone speaks, the information terminal can execute a command included in the utterance.
  • Patent Document 1 discloses a headset capable of canceling noise contained in a voice signal.
  • the information terminal may recognize the utterance of a person other than the user, and the information terminal may perform an operation not intended by the user.
  • One aspect of the present invention is to provide an audio device capable of suppressing malfunction of an information terminal.
  • One aspect of the present invention is to provide an acoustic device capable of canceling noise.
  • One aspect of the present invention is to provide an audio device capable of enabling an information terminal to perform highly accurate voice recognition.
  • One aspect of the present invention is to provide a novel acoustic device.
  • One aspect of the present invention is to provide an information processing system in which malfunctions are suppressed.
  • One aspect of the present invention is to provide an information processing system capable of canceling noise.
  • One aspect of the present invention is to provide an information processing system capable of performing highly accurate speech recognition.
  • One aspect of the present invention is to provide a novel information processing system.
  • One aspect of the present invention is to provide an operation method of an audio device capable of suppressing a malfunction of an information terminal.
  • One aspect of the present invention is to provide a method of operating an acoustic device capable of canceling noise.
  • One aspect of the present invention is to provide an operation method of an audio device capable of enabling an information terminal to perform highly accurate voice recognition.
  • One aspect of the present invention is to provide a novel method of operating an audio device.
  • One aspect of the present invention is to provide an information processing method in which malfunctions are suppressed.
  • One aspect of the present invention is to provide an information processing method capable of canceling noise.
  • One aspect of the present invention is to provide an information processing method capable of performing highly accurate speech recognition.
  • One aspect of the present invention is to provide a novel information processing method.
  • One aspect of the present invention includes a sound detection unit, a sound separation unit, a sound determination unit, and a processing unit, and the sound detection unit has a function of detecting a first sound and is a sound separation unit.
  • the sound determination unit has a function of registering the feature amount of the sound
  • the sound determination unit has a function of registering the feature amount of the sound. It has a function to determine whether or not the feature amount of the second sound is registered by using a machine learning model, and the processing unit is in the case where the feature amount of the second sound is registered.
  • It has a function of analyzing the command included in the second sound and generating a signal representing the content of the command, and the processing unit performs a process for canceling the third sound with respect to the third sound. It is an acoustic device having a function of generating a fourth sound by doing so.
  • the learning of the machine learning model may be performed using supervised learning in which the voice is the learning data and the label indicating whether or not to register is the teacher data.
  • the machine learning model may be a neural network model.
  • the fourth sound may be a sound having a phase opposite to that of the third sound.
  • the first sound is detected, the first sound is separated into a second sound and a third sound, and the feature amount of the second sound is registered. Whether or not it is a sound is determined using a machine learning model, and if the feature amount of the second sound is registered, the command contained in the second sound is analyzed and a signal representing the content of the command is analyzed. Is a method of operating an acoustic device that generates a fourth sound by performing a process for canceling the third sound with respect to the third sound.
  • the learning of the machine learning model may be performed using supervised learning in which the voice is used as learning data and the label indicating whether or not to register is used as teacher data.
  • the machine learning model may be a neural network model.
  • the fourth sound may be a sound having a phase opposite to that of the third sound.
  • an audio device capable of suppressing malfunction of an information terminal.
  • an acoustic device capable of canceling noise.
  • an audio device capable of enabling an information terminal to perform highly accurate voice recognition.
  • a novel acoustic device can be provided.
  • an information processing system in which malfunctions are suppressed. According to one aspect of the present invention, it is possible to provide an information processing system capable of canceling noise. According to one aspect of the present invention, it is possible to provide an information processing system capable of performing highly accurate voice recognition. According to one aspect of the present invention, a novel information processing system can be provided.
  • an operation method of an audio device capable of suppressing a malfunction of an information terminal.
  • a novel method of operating an audio device can be provided.
  • an information processing method in which malfunctions are suppressed. According to one aspect of the present invention, it is possible to provide an information processing method capable of canceling noise. According to one aspect of the present invention, it is possible to provide an information processing method capable of performing highly accurate speech recognition. According to one aspect of the present invention, a novel information processing method can be provided.
  • FIG. 1A is a block diagram showing a configuration example of an audio device.
  • 1B1 and 1B2 are diagrams showing specific examples of audio equipment.
  • 2A and 2B are schematic views showing an example of an operation method of the acoustic device.
  • FIG. 3 is a flowchart showing an example of an operation method of the audio device.
  • 4A to 4C are schematic views showing an example of an operation method of the acoustic device.
  • 5A and 5B are schematic views showing an example of an operation method of the acoustic device.
  • FIG. 6 is a flowchart showing an example of an operation method of the audio device.
  • 7A and 7B are schematic views showing an example of an operation method of the acoustic device.
  • FIG. 8 is a flowchart showing an example of an operation method of the audio device.
  • FIG. 9 is a schematic view showing an example of an operation method of the audio device.
  • FIG. 10 is a flowchart showing an example of an operation method of the audio device.
  • FIG. 11 is a schematic view showing an example of an operation method of the audio device.
  • the audio device of one aspect of the present invention and the operation method thereof will be described.
  • an information processing system including an acoustic device according to one aspect of the present invention and an information processing method using the information processing system will be described.
  • the audio device of one aspect of the present invention can be, for example, earphones or headphones.
  • the audio device of one aspect of the present invention includes a sound detection unit, a sound separation unit, a sound determination unit, a processing unit, a transmission / reception unit, and a sound output unit.
  • the sound detection unit can be configured to include, for example, a microphone.
  • the sound output unit may be configured to include, for example, a speaker.
  • the audio device of one aspect of the present invention is electrically connected to an information terminal such as a smartphone.
  • the audio device of one aspect of the present invention and the information terminal may be connected by wire, or may be wirelessly connected by Bluetooth (registered trademark), Wi-Fi (registered trademark), or the like.
  • the information processing system of one aspect of the present invention is configured by the sound device of one aspect of the present invention and the information terminal.
  • the feature amount (voiceprint) of voice is registered in advance.
  • the feature amount of the voice of the user of the audio device of one aspect of the present invention is registered.
  • the feature amount of the voice can be, for example, the frequency characteristic of the voice.
  • it can be a frequency characteristic obtained by performing a Fourier transform on voice data which is data representing voice.
  • a feature amount of voice for example, a mel-frequency Cepstrum Coefficients (MFCC) can be used as a feature amount of voice.
  • MFCC mel-frequency Cepstrum Coefficients
  • the sound separation unit separates the sound into a voice and a sound other than the voice.
  • sounds other than voice can be said to be, for example, environmental sounds, for example, noise.
  • the sound determination unit extracts the feature amount from the voice separated by the sound separation unit, and determines whether or not the extracted feature amount is registered. If it is registered, the processing unit analyzes the instruction included in the voice and generates an instruction signal which is a signal representing the content of the instruction. The instruction can be analyzed by using language processing such as morphological analysis. The generated instruction signal is output to the transmission / reception unit.
  • the command signal is not generated.
  • the processing unit performs a process for canceling the sound other than the sound separated by the sound separating unit. For example, the processing unit generates a sound having a phase opposite to that of the sound.
  • the transmission / reception unit synthesizes the sound processed by the processing unit and the sound emitted by the information terminal, and outputs the sound to the sound output unit.
  • the sound emitted by the information terminal can be, for example, the music when the information terminal is playing music.
  • the sound output to the sound output unit is emitted to the outside of the acoustic device of one aspect of the present invention.
  • the user of the audio apparatus according to one aspect of the present invention can hear the synthesized sound of the sound detected by the sound detection unit and the sound output by the sound output unit.
  • the sound output by the sound output unit may include, in addition to the sound emitted by the information terminal,, for example, noise contained in the sound detected by the sound detection unit having the opposite phase.
  • the user of the audio equipment of one aspect of the present invention can hear, for example, the noise-canceled sound.
  • the processing unit when the processing unit generates an instruction signal and outputs it to the transmission / reception unit, that is, when the sound separation unit registers the separated voice features, the transmission / reception unit outputs the instruction signal to the information terminal. ..
  • the information terminal executes the instruction represented by the instruction signal. For example, when the information terminal is playing music and the command signal represents a command to "change the type of song", the song played by the information terminal can be changed to a designated one.
  • the above is an example of the operation method of the acoustic device of one aspect of the present invention.
  • the processing unit Only when the sound separation unit has registered the features of the separated voice, the processing unit generates the command signal, which causes the information terminal to malfunction as compared to the case where the command signal is generated regardless of whether or not it is registered. Can be suppressed.
  • the feature amount of the voice of the user of the information terminal is registered in the sound device of one aspect of the present invention, an operation unintended by the user of the information terminal is performed in response to the voice other than the user of the information terminal. It can be suppressed from being damaged.
  • the registration of the voice feature amount and the determination of whether or not the voice feature amount input to the sound determination unit is registered can be performed by using, for example, a machine learning model. It is preferable to use, for example, a neural network model as a machine learning model because inference can be performed with high accuracy.
  • a neural network model for example, CNN (Convolutional Neural Network), RNN (Recurrent Neural Network) and the like can be used.
  • a learning method of the machine learning model for example, supervised learning can be used.
  • the feature amount of voice can be used as learning data, and the label indicating whether or not to register can be used as teacher data.
  • learning can be performed in two stages, a first learning and a second learning. That is, after the first learning is performed, the second learning can be performed as additional learning.
  • a label indicating "do not register" is given as teacher data to all the learning data.
  • a label indicating "registration" is given as teacher data to all the learning data. That is, the voice feature amount can be registered by the second learning.
  • the feature amount of the voice of the user of the audio device of one aspect of the present invention is used as the learning data.
  • the learning data it is preferable to use the feature amount of the voice uttered by the same person by various utterance methods without bias. Further, it is preferable to inflate the number of learning data by changing parameters such as voice pitch with respect to the voice data acquired as learning data. As described above, inference using the learning result, that is, determination as to whether or not the feature amount of the voice input to the sound determination unit is registered can be performed with high accuracy.
  • the first learning can be performed, for example, before shipping the acoustic device of one aspect of the present invention.
  • the second learning can be performed, for example, after the acoustic device of one aspect of the present invention is shipped.
  • the second learning can be performed by, for example, the user of the audio equipment of one aspect of the present invention.
  • the user can register the feature amount of voice by himself / herself.
  • the sound determination unit can determine whether or not the feature amount of the voice separated by the sound separation unit is registered. Specifically, when voice is input to the sound determination unit, the sound determination unit infers whether or not the feature amount of the voice input to the sound determination unit is registered based on the learning result. Will be able to.
  • the information terminal electrically connected to the acoustic device of one aspect of the present invention can perform high-precision voice recognition.
  • FIG. 1A is a diagram showing a configuration example of an audio device 10 which is an audio device of one aspect of the present invention.
  • FIG. 1A shows the sound 21, the information terminal 22, and the ear 23 in addition to the audio device 10 for the purpose of explaining the functions and the like of the audio device 10.
  • the information terminal 22 can be, for example, a smartphone.
  • the information terminal 22 can be a portable electronic device such as a tablet terminal, a laptop PC, or a portable (take-out) game machine.
  • the information terminal 22 may be an electronic device other than the portable electronic device.
  • the sound device 10 includes a sound detection unit 11, a sound separation unit 12, a sound determination unit 13, a storage unit 14, a processing unit 15, a transmission / reception unit 16, and a sound output unit 17.
  • the transmission / reception unit 16 is electrically connected to the information terminal 22.
  • the audio device 10 and the information terminal 22 may be connected by wire, or may be wirelessly connected by Bluetooth (registered trademark), Wi-Fi (registered trademark), or the like. It can be said that the information processing system of one aspect of the present invention is configured by the sound device 10 and the information terminal 22.
  • FIG. 1A the arrows indicate the flow of data, signals, and the like.
  • the flow shown in FIG. 1A is an example, and is not limited to the flow shown in FIG. 1A. The same applies to other figures.
  • the sound detection unit 11 has a function of detecting sound. For example, it has a function of detecting a sound 21 including a human voice.
  • the sound detection unit 11 may be configured to include, for example, a microphone.
  • the sound separation unit 12 has a function of separating the sound detected by the sound detection unit 11 for each characteristic.
  • the sound detection unit 11 detects a sound 21 including a human voice, it has a function of separating the sound 21 into a voice and a sound other than the voice.
  • sounds other than voice can be said to be, for example, environmental sounds, for example, noise.
  • the sound separation unit 12 has a function of separating, for example, the sound detected by the sound detection unit 11 based on the frequency of the sound.
  • human voice is mainly composed of frequency components of 0.2 kHz or more and 4 kHz or less. Therefore, for example, by separating the sound detected by the sound detection unit 11 into a sound having a frequency of 0.2 kHz or more and 4 kHz or less and a sound having a frequency other than that, the sound and the other sounds can be obtained. Can be separated. It is said that the intermediate frequency of human voice is around 1 kHz.
  • the extracted features can be registered. For example, a voiceprint can be registered. From the above, it can be said that the sound determination unit 13 has a function of registering the feature amount of the sound.
  • the registration result can be stored in the storage unit 14.
  • the sound determination unit 13 has a function of determining whether or not the extracted feature amount is registered.
  • the feature amount can be registered and the above determination can be performed using, for example, a machine learning model.
  • a machine learning model for example, using a neural network model is preferable because inference can be performed with high accuracy.
  • the neural network model for example, CNN, RNN, or the like can be used.
  • a learning method of the machine learning model for example, supervised learning can be used.
  • the processing unit 15 has a function of performing processing based on the determination result of the sound determination unit 13. For example, when the sound separation unit 12 outputs voice, the command signal can be generated only when the feature amount of the voice is registered.
  • the transmission / reception unit 16 has a function of synthesizing the sound processed by the processing unit 15 and the sound emitted by the information terminal 22.
  • the sound emitted by the information terminal 22 can be, for example, the music when the information terminal 22 is playing music.
  • the command signal is generated only when, for example, the sound separation unit 12 has registered the separated voice features.
  • the malfunction of the information terminal 22 can be suppressed as compared with the case where the command signal is generated regardless of the presence or absence of registration.
  • the feature amount of the voice of the user of the information terminal 22 is registered in the sound device 10
  • an operation unintended by the user of the information terminal 22 is performed in response to a voice other than the user of the information terminal 22. Can be suppressed.
  • 2A and 2B show a method of registering a sound feature amount when the sound determination unit 13 has a function of determining whether or not a sound feature amount is registered by using a machine learning model. It is a figure which shows an example. Specifically, it is a figure which shows an example of the registration method of the feature amount of a sound using supervised learning.
  • the sound determination unit 13 extracts the feature amount of the sound data 31.
  • the frequency characteristic of the sound represented by the sound data 31 is used as a feature quantity.
  • the frequency characteristic obtained by performing the Fourier transform on the sound data 31 can be used as a feature quantity.
  • MFCC can be used as the feature amount.
  • the voices of a plurality of people is the learning data.
  • inference using the learning result described later that is, determination of whether or not the feature amount of the sound input to the sound determination unit 13 is registered can be performed with high accuracy.
  • the extracted data representing the feature amount with the label 42 which is a label indicating "registration" is input to the generator 30 in which the learning result 33 is read.
  • the generator 30 learns the data representing the feature amount extracted from the sound data 41 as learning data and the label 42 as teacher data, and outputs the learning result 43.
  • the learning result 43 can be stored in the storage unit 14.
  • the learning result 43 can be a weighting coefficient.
  • FIGS. 2A and 2B a label indicating “registration” is indicated by “registration ⁇ ”, and a label indicating “not registration” is indicated by “registration ⁇ ”.
  • registration ⁇ a label indicating “registration” is indicated by “registration ⁇ ”
  • registration ⁇ a label indicating “not registration” is indicated by “registration ⁇ ”.
  • the sound data 41 which is the learning data, is, for example, the voice of the user of the sound device 10.
  • voice it is preferable to perform learning by using the feature amount of the voice uttered by the same person by various utterance methods without bias.
  • the number of sound data 41 is inflated for learning by changing parameters such as voice pitch with respect to the voice data acquired as the sound data 41.
  • the sound determination unit 13 learns the feature amount of the sound that is not registered as learning data as shown in FIG. 2A, and then learns the feature amount of the sound that is registered as shown in FIG. 2B. It can be learned as data. That is, learning can be performed in two stages, the first learning and the second learning. Specifically, after performing the first learning shown in FIG. 2A, the second learning shown in FIG. 2B can be performed as additional learning.
  • the first learning can be performed, for example, before the sound device 10 is shipped.
  • the second learning can be performed, for example, after the sound device 10 is shipped.
  • the second learning can be performed by, for example, the user of the sound device 10. As described above, in the sound device 10, the user can register the feature amount of the sound by himself / herself.
  • the sound determination unit 13 can determine, for example, whether or not the feature amount of the sound separated by the sound separation unit 12 is registered. Specifically, when a sound is input to the sound determination unit 13, the sound determination unit 13 can infer whether or not the feature amount of the input sound is registered based on the learning result 43. become able to.
  • FIG. 3 is a flowchart showing an example of an operation method when the audio device 10 is used.
  • 4A to 4C, and 5A and 5B are schematic views illustrating the details of each step shown in FIG. It should be noted that the following description will be made on the assumption that the feature amount of the sound has already been registered by the methods shown in FIGS. 2A and 2B.
  • the sound separation unit 12 separates the detected sound for each characteristic. For example, when the sound detection unit 11 detects a sound including a human voice, the sound separation unit 12 separates the detected sound into a voice and a sound other than the voice (step S02). As described above, sounds other than voice can be said to be, for example, environmental sounds, for example, noise.
  • step S02 A specific example of step S02 is shown in FIG. 4A.
  • the sound separation unit 12 has a function of separating, for example, the sound detected by the sound detection unit 11 based on the frequency of the sound.
  • FIG. 4A shows an example in which the sound 21 detected by the sound detection unit 11 and input to the sound separation unit 12 is separated into a sound 21a and a sound 21b based on the frequency.
  • the sound may be separated into a sound having a frequency of 0.5 kHz or more and 2 kHz or less and a sound having a frequency other than that.
  • the frequency for sound separation may be changed according to the type of sound detected by the sound detection unit 11. For example, when the sound detection unit 11 detects a sound including a female voice, a sound having a higher frequency than when the sound including a male voice is detected may be separated as voice.
  • the frequency for sound separation according to the type of sound detected by the sound detection unit 11, for example, the sound detected by the sound detection unit 11 can be separated into voice and other sounds with high accuracy. can do.
  • the processing unit 15 performs a process for canceling the sound 21b with respect to the sound 21b which is a sound other than the voice separated by the sound separating unit 12 (step S06). For example, as shown in FIG. 5A, the sound 21b is input to the processing unit 15, and the sound 26 whose phase is inverted from that of the sound 21b is output.
  • the processing unit 15 when the processing unit 15 generates the command signal 25 and outputs it to the transmission / reception unit 16, that is, when the feature amount of the sound 21a which is the separated voice of the sound separation unit 12 is registered, the transmission / reception unit 16 Outputs the command signal 25 to the information terminal 22 (step S08, step S09).
  • steps S07 to S09 are shown in FIG. 5B.
  • a sound 26 which is a sound obtained by reversing the phase of the sound 21b
  • a command signal 25 indicating a command to "change the type of song”
  • a sound 27 emitted from the information terminal 22 are transmitted to the transmission / reception unit 16.
  • An example of input is shown.
  • the sound 26 and the sound 27 are combined by the transmission / reception unit 16 and output to the sound output unit 17.
  • the sound input to the sound output unit 17 is emitted to the outside of the sound device 10.
  • the user of the sound device 10 can hear the synthetic sound of the sound 21 detected by the sound detection unit 11 and the sound 26 and the sound 27 output by the sound output unit 17 with the ear 23.
  • FIG. 6 is a flowchart showing an example of an operation method when the audio device 10 is used, and is a modification of the operation method shown in FIG.
  • the operation method shown in FIG. 6 is different from the operation method shown in FIG. 3 in that step S05 is replaced with step S05a and step S09 is replaced with step S09a.
  • FIG. 8 is a flowchart showing an example of an operation method when the audio device 10 is used, and is a modification of the operation method shown in FIG.
  • the operation method shown in FIG. 8 is different from the operation method shown in FIG. 3 in that step S06a is performed instead of step S06 when the feature amount extracted from the sound 21a is not registered (step S04).
  • FIG. 9 is a schematic diagram illustrating the details of step S06a.
  • the processing unit 15 may perform a process of reducing the volume of the sound 21a.
  • FIG. 10 is a flowchart showing an example of an operation method when the audio device 10 is used, and is a modification of the operation method shown in FIG.
  • the operation method shown in FIG. 10 is different from the operation method shown in FIG. 8 in that step S06a is replaced with step S06b.
  • FIG. 11 is a schematic diagram illustrating the details of step S06b.
  • the processing unit 15 performs a process of reducing the volume of the sound 21a, which is a voice, and canceling the sound 21b, which is a sound other than the voice.
  • the sound 21a and the sound 21b are input to the processing unit 15.
  • the processing unit 15 inverts the phase of the sound 21a and performs a process of reducing the amplitude. Further, a process of inverting the phase of the sound 21b is performed.
  • the sound processed by the processing unit 15 is output as the sound 26.
  • the information terminal 22 can perform highly accurate voice recognition.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Telephone Function (AREA)

Abstract

情報端末の誤動作を抑制することができる音響装置を提供する。 音響装置は、音検知部と、音分離部と、音判定部と、処理部と、を有する。音検知部は、音を検知する機能を有する。音分離部は、音検知部が検知した音を、音声と、音声以外の音と、に分離する機能を有する。音判定部は、音の特徴量を登録する機能を有する。また、音判定部は、音分離部が分離した音声の特徴量が登録されたものか否かを、ニューラルネットワークモデル等の機械学習モデルによって判定する機能を有する。処理部は、音声の特徴量が登録されたものである場合は、当該音声に含まれる命令を解析し、命令の内容を表す命令信号を生成する機能を有する。また、処理部は、音分離部が分離した、音声以外の音に対して、当該音声以外の音をキャンセルするための処理を行う機能を有する。具体的には、音声以外の音に対して、位相を反転させる処理を行う機能を有する。

Description

音響装置、及びその動作方法
本発明の一態様は、音響装置、及びその動作方法に関する。本発明の一態様は、情報処理システム、及び情報処理方法に関する。
近年、音声認識技術の開発が進められている。音声認識により、例えばスマートフォン等の情報端末の使用者が発話すると、当該発話に含まれる命令を、情報端末が実行することができる。
音声認識の精度を高めるためには、雑音をキャンセルすることが好ましい。特許文献1には、音声信号に含まれる雑音をキャンセルすることができるヘッドセットが開示されている。
特表2017−513411号公報
情報端末が音声認識を行う場合、例えば情報端末が使用者以外の者の発話を認識し、これによって情報端末が使用者の意図しない動作をする可能性がある。
本発明の一態様は、情報端末の誤動作を抑制することができる音響装置を提供することを課題の一とする。本発明の一態様は、雑音をキャンセルすることができる音響装置を提供することを課題の一とする。本発明の一態様は、情報端末が高精度の音声認識を行えるようにすることができる音響装置を提供することを課題の一とする。本発明の一態様は、新規な音響装置を提供することを課題の一とする。
本発明の一態様は、誤動作が抑制された情報処理システムを提供することを課題の一とする。本発明の一態様は、雑音をキャンセルすることができる情報処理システムを提供することを課題の一とする。本発明の一態様は、高精度の音声認識を行うことができる情報処理システムを提供することを課題の一とする。本発明の一態様は、新規な情報処理システムを提供することを課題の一とする。
本発明の一態様は、情報端末の誤動作を抑制することができる音響装置の動作方法を提供することを課題の一とする。本発明の一態様は、雑音をキャンセルすることができる音響装置の動作方法を提供することを課題の一とする。本発明の一態様は、情報端末が高精度の音声認識を行えるようにすることができる音響装置の動作方法を提供することを課題の一とする。本発明の一態様は、新規な音響装置の動作方法を提供することを課題の一とする。
本発明の一態様は、誤動作が抑制された情報処理方法を提供することを課題の一とする。本発明の一態様は、雑音をキャンセルすることができる情報処理方法を提供することを課題の一とする。本発明の一態様は、高精度の音声認識を行うことができる情報処理方法を提供することを課題の一とする。本発明の一態様は、新規な情報処理方法を提供することを課題の一とする。
なお、これらの課題の記載は、他の課題の存在を妨げるものではない。なお、本発明の一態様は、これらの課題の全てを解決する必要はないものとする。なお、これら以外の課題は、明細書、図面、請求項などの記載から抽出することが可能である。
本発明の一態様は、音検知部と、音分離部と、音判定部と、処理部と、を有し、音検知部は、第1の音を検知する機能を有し、音分離部は、第1の音を、第2の音と、第3の音と、に分離する機能を有し、音判定部は、音の特徴量を登録する機能を有し、音判定部は、第2の音の特徴量が登録されたものか否かを、機械学習モデルを用いて判定する機能を有し、処理部は、第2の音の特徴量が登録されたものである場合は、第2の音に含まれる命令を解析し、命令の内容を表す信号を生成する機能を有し、処理部は、第3の音に対して、第3の音をキャンセルするための処理を行うことにより、第4の音を生成する機能を有する音響装置である。
又は、上記態様において、機械学習モデルの学習は、音声を学習データ、登録を行うか否かを表すラベルを教師データとする、教師あり学習を用いて行われてもよい。
又は、上記態様において、機械学習モデルは、ニューラルネットワークモデルであってもよい。
又は、上記態様において、第4の音は、第3の音に対して逆位相の音であってもよい。
又は、本発明の一態様は、第1の音を検知し、第1の音を、第2の音と、第3の音と、に分離し、第2の音の特徴量が登録されたものか否かを、機械学習モデルを用いて判定し、第2の音の特徴量が登録されたものである場合は、第2の音に含まれる命令を解析し、命令の内容を表す信号を生成し、第3の音に対して、第3の音をキャンセルするための処理を行うことにより、第4の音を生成する音響装置の動作方法である。
又は、上記態様において、機械学習モデルの学習は、音声を学習データ、登録を行うか否かを表すラベルを教師データとして用いる教師あり学習を用いて行われてもよい。
又は、上記態様において、機械学習モデルは、ニューラルネットワークモデルであってもよい。
又は、上記態様において、第4の音は、第3の音に対して逆位相の音であってもよい。
本発明の一態様により、情報端末の誤動作を抑制することができる音響装置を提供することができる。本発明の一態様により、雑音をキャンセルすることができる音響装置を提供することができる。本発明の一態様により、情報端末が高精度の音声認識を行えるようにすることができる音響装置を提供することができる。本発明の一態様により、新規な音響装置を提供することができる。
本発明の一態様により、誤動作が抑制された情報処理システムを提供することができる。本発明の一態様により、雑音をキャンセルすることができる情報処理システムを提供することができる。本発明の一態様により、高精度の音声認識を行うことができる情報処理システムを提供することができる。本発明の一態様により、新規な情報処理システムを提供することができる。
本発明の一態様により、情報端末の誤動作を抑制することができる音響装置の動作方法を提供することができる。本発明の一態様により、雑音をキャンセルすることができる音響装置の動作方法を提供することができる。本発明の一態様により、情報端末が高精度の音声認識を行えるようにすることができる音響装置の動作方法を提供することができる。本発明の一態様により、新規な音響装置の動作方法を提供することができる。
本発明の一態様により、誤動作が抑制された情報処理方法を提供することができる。本発明の一態様により、雑音をキャンセルすることができる情報処理方法を提供することができる。本発明の一態様により、高精度の音声認識を行うことができる情報処理方法を提供することができる。本発明の一態様により、新規な情報処理方法を提供することができる。
なお、これらの効果の記載は、他の効果の存在を妨げるものではない。なお、本発明の一態様は、必ずしも、これらの効果の全てを有する必要はない。なお、これら以外の効果は、明細書、図面、請求項などの記載から抽出することが可能である。
図1Aは、音響装置の構成例を示すブロック図である。図1B1及び図1B2は、音響装置の具体例を示す図である。
図2A及び図2Bは、音響装置の動作方法の一例を示す模式図である。
図3は、音響装置の動作方法の一例を示すフローチャートである。
図4A乃至図4Cは、音響装置の動作方法の一例を示す模式図である。
図5A及び図5Bは、音響装置の動作方法の一例を示す模式図である。
図6は、音響装置の動作方法の一例を示すフローチャートである。
図7A及び図7Bは、音響装置の動作方法の一例を示す模式図である。
図8は、音響装置の動作方法の一例を示すフローチャートである。
図9は、音響装置の動作方法の一例を示す模式図である。
図10は、音響装置の動作方法の一例を示すフローチャートである。
図11は、音響装置の動作方法の一例を示す模式図である。
以下、実施の形態について図面を参照しながら説明する。ただし、実施の形態は多くの異なる態様で実施することが可能であり、趣旨及びその範囲から逸脱することなくその形態及び詳細を様々に変更し得ることは当業者であれば容易に理解される。従って、本発明は、以下の実施の形態の記載内容に限定して解釈されるものではない。
なお、以下に説明する発明の構成において、同一部分又は同様な機能を有する部分には同一の符号を異なる図面間で共通して用い、その繰り返しの説明は省略する。
また、本明細書等にて用いる「第1」、「第2」、「第3」という序数詞は、構成要素の混同を避けるために付したものであり、数的に限定するものではない。
(実施の形態)
本実施の形態では、本発明の一態様の音響装置、及びその動作方法について説明する。また、本発明の一態様の音響装置を含む情報処理システム、および当該情報処理システムを用いた情報処理方法について説明する。
<音響装置の構成例>
本発明の一態様の音響装置は、例えばイヤホン、又はヘッドホンとすることができる。本発明の一態様の音響装置は、音検知部と、音分離部と、音判定部と、処理部と、送受信部と、音出力部と、を有する。ここで、音検知部は、例えばマイクロフォンを含む構成とすることができる。また、音出力部は、例えばスピーカーを含む構成とすることができる。
本発明の一態様の音響装置は、スマートフォン等の情報端末と電気的に接続されている。ここで、本発明の一態様の音響装置と、情報端末と、は有線接続されていてもよいし、Bluetooth(登録商標)、Wi−Fi(登録商標)等により無線接続されていてもよい。本発明の一態様の音響装置と、情報端末と、により、本発明の一態様の情報処理システムが構成されるということができる。
本発明の一態様の音響装置の使用前には、あらかじめ音声の特徴量(声紋)を登録する。例えば、本発明の一態様の音響装置の使用者の音声の特徴量を登録する。音声の特徴量は、例えば当該音声の周波数特性とすることができる。例えば、音声を表すデータである音声データに対してフーリエ変換を行うことにより得られる周波数特性とすることができる。また、音声の特徴量として、例えばメル周波数ケプストラム係数(Mel−Frequency Cepstrum Coefficients:MFCC)を用いることができる。
本発明の一態様の音響装置の使用時に、音検知部が音を検知すると、音分離部が当該音を音声と、音声以外の音と、に分離する。ここで、音声以外の音は、例えば環境音であり、例えば雑音であるということができる。
次に、音分離部が分離した音声に対して、音判定部が特徴量抽出を行い、抽出した特徴量が登録されたものか否かを判定する。登録されたものである場合は、処理部が、音声に含まれる命令を解析し、命令の内容を表す信号である命令信号を生成する。なお、命令の解析は、例えば形態素解析等の言語処理を用いて行うことができる。生成された命令信号は、送受信部へ出力される。
一方、音判定部が抽出した特徴量が登録されたものでない場合は、命令信号の生成は行わない。
その後、音分離部が分離した、音声以外の音に対して、当該音をキャンセルするための処理を、処理部が行う。例えば、当該音と逆位相の音を、処理部が生成する。
次に、処理部による処理が行われた音と、情報端末が発する音と、を送受信部が合成し、音出力部に出力する。ここで、情報端末が発する音は、例えば情報端末が音楽を流している場合は当該音楽とすることができる。
音出力部に出力された音は、本発明の一態様の音響装置の外部に発せられる。本発明の一態様の音響装置の使用者は、音検知部が検知した音と、音出力部が出力した音と、の合成音を聞くことができる。前述のように、音出力部が出力した音には、情報端末が発する音の他、例えば音検知部が検知した音に含まれる雑音を逆位相としたものを含むことができる。以上により、本発明の一態様の音響装置の使用者は、例えば雑音がキャンセルされた音を聞くことができる。
また、処理部が命令信号を生成し、送受信部へ出力した場合、つまり音分離部が分離した音声の特徴量が登録されたものである場合は、送受信部が命令信号を情報端末に出力する。情報端末は、命令信号が表す命令を実行する。例えば、情報端末が音楽を流しており、命令信号が「曲の種類を変える」という命令を表す場合、情報端末が流す曲を、指定されたものに変えることができる。以上が本発明の一態様の音響装置の動作方法の一例である。
音分離部が分離した音声の特徴量が登録されたものである場合のみ、処理部が命令信号を生成することで、例えば登録の有無にかかわらず命令信号を生成する場合より、情報端末の誤動作を抑制することができる。例えば、情報端末の使用者の音声の特徴量を本発明の一態様の音響装置に登録する場合、情報端末の使用者以外の音声に反応して、情報端末の使用者が意図しない動作が行われることを抑制することができる。
ここで、音声の特徴量の登録、及び音判定部に入力された音声の特徴量が登録されたものか否かの判定は、例えば機械学習モデルを用いて行うことができる。機械学習モデルとして、例えばニューラルネットワークモデルを用いると、推論を高い精度で行えるため好ましい。ニューラルネットワークモデルとして、例えばCNN(Convolutional Neural Network)、RNN(Recurrent Neural Network)等を用いることができる。また、機械学習モデルの学習方法として、例えば教師あり学習を用いることができる。
教師あり学習を用いる場合、例えば音声の特徴量を学習データ、登録を行うか否かを表すラベルを教師データとすることができる。
教師あり学習を用いる場合、第1の学習と、第2の学習と、の2段階に分けて学習を行うことができる。つまり、第1の学習を行った後、追加学習として第2の学習を行うことができる。
第1の学習では、全ての学習データに対して、「登録を行わない」旨を表すラベルを教師データとして付与する。第1の学習では、学習データとして、複数人の音声の特徴量を用いることが好ましい。特に、例えば男声の学習データ、女声の学習データを偏りなく用意し、また男声、女声の中でも高い声、低い声など、様々な声質の学習データを偏りなく用意することが好ましい。これにより、後述する学習結果を用いた推論、つまり音判定部に入力された音声の特徴量が登録されたものか否かの判定を、高い精度で行うことができる。
第2の学習では、全ての学習データに対して、「登録を行う」旨を表すラベルを教師データとして付与する。つまり、第2の学習により、音声の特徴量の登録を行うことができる。
第2の学習では、例えば、本発明の一態様の音響装置の使用者の音声の特徴量を学習データとして用いる。当該学習データとして、同一の者が様々な発声方法によって発声した音声の特徴量を、偏りなく用いることが好ましい。また、学習データとして取得された音声データに対して、例えば声の高さ等のパラメータを変更することにより、学習データの数を水増しすることが好ましい。以上により、学習結果を用いた推論、つまり音判定部に入力された音声の特徴量が登録されたものか否かの判定を、高い精度で行うことができる。
第1の学習は、例えば本発明の一態様の音響装置の出荷前に行うことができる。一方、第2の学習は、例えば本発明の一態様の音響装置の出荷後に行うことができる。これにより、第2の学習は、例えば本発明の一態様の音響装置の使用者が自ら行うことができる。以上により、本発明の一態様の音響装置では、音声の特徴量の登録を使用者が自ら行うことができる。
以上示した学習を行うことにより、音判定部は、音分離部が分離した音声の特徴量が登録されたものか否かの判定を行うことができるようになる。具体的には、音判定部に音声が入力されると、音判定部は学習結果に基づき、音判定部に入力された音声の特徴量が登録されたものであるか否かを推論することができるようになる。
音声の特徴量が登録されたものか否かの判定を、機械学習モデルを用いて行うことにより、機械学習モデルを用いずに当該判定を行う場合より、高精度な判定を行うことができる。これにより、例えば特徴量が登録されていない音声に含まれる命令を、本発明の一態様の音響装置と電気的に接続された情報端末が実行することを抑制することができる。また、例えば特徴量が登録された音声に含まれる命令を、本発明の一態様の音響装置と電気的に接続された情報端末が実行しないことを抑制することができる。つまり、本発明の一態様の音響装置と電気的に接続された情報端末が、高精度の音声認識を行うことができる。
図1Aは、本発明の一態様の音響装置である、音響装置10の構成例を示す図である。なお、図1Aでは、音響装置10の機能等の説明のため、音響装置10の他、音21、情報端末22、及び耳23を示している。ここで、情報端末22は、例えばスマートフォンとすることができる。また、情報端末22は、タブレット端末、ラップトップPC、携帯型(持ち出し可能な)ゲーム機等の携帯型電子機器とすることができる。なお、情報端末22は、携帯型電子機器以外の電子機器としてもよい。
音響装置10は、音検知部11と、音分離部12と、音判定部13と、記憶部14と、処理部15と、送受信部16と、音出力部17と、を有する。
ここで、送受信部16は、情報端末22と電気的に接続されている。音響装置10と、情報端末22と、は有線接続されていてもよいし、Bluetooth(登録商標)、Wi−Fi(登録商標)等により無線接続されていてもよい。音響装置10と、情報端末22と、により本発明の一態様の情報処理システムが構成されるということができる。
図1Aにおいて、矢印はデータ、信号等の流れを示す。ただし、図1Aに示す流れは一例であり、図1Aに示すものに限られない。他の図においても同様である。
音検知部11は、音を検知する機能を有する。例えば、人の音声を含む音21を検知する機能を有する。音検知部11は、例えばマイクロフォンを含む構成とすることができる。
音分離部12は、音検知部11が検知した音を、特性ごとに分離する機能を有する。例えば、音検知部11が、人の音声を含む音21を検知した場合、音21を音声と、音声以外の音と、に分離する機能を有する。ここで、音声以外の音は、例えば環境音であり、例えば雑音であるということができる。
音分離部12は、例えば音検知部11が検知した音を、当該音の周波数に基づいて分離する機能を有する。例えば、人の音声は、主に0.2kHz以上、4kHz以下の周波数成分により構成される。よって、例えば音検知部11が検知した音を、0.2kHz以上、4kHz以下の周波数の音と、それ以外の周波数の音と、に分離することにより、音声と、それ以外の音と、に分離することができる。なお、人の音声の中間周波数は、1kHz前後である言われている。よって、例えば音検知部11が検知した音を、1kHz前後の周波数の音と、それ以外の周波数の音と、に分離することにより、音声と、それ以外の音と、に分離してもよい。例えば、0.5kHz以上、2kHz以下の周波数の音と、それ以外の周波数の音と、に分離してもよい。また、例えば音検知部11が検知した音の種類に応じて、音分離を行う周波数を変更してもよい。例えば、音検知部11が女声を含む音を検知した場合は、男声を含む音を検知した場合より高周波数の音を、音声として分離してもよい。音分離を行う周波数を、音検知部11が検知した音の種類に応じて変更することにより、例えば音検知部11が検知した音を、音声と、それ以外の音と、に高い精度で分離することができる。
音判定部13は、音分離部12が分離した音に対して、特徴量抽出を行う機能を有する。具体的には、例えば音分離部12によって分離された音声に対して、特徴量抽出を行う機能を有する。なお、音声の特徴量は、声紋ということができる。
特徴量は、例えば周波数特性とすることができる。例えば、音を表すデータである音データに対してフーリエ変換を行うことにより得られる周波数特性とすることができる。また、音の特徴量として、例えばMFCCを用いることができる。
抽出を行った特徴量は、登録することができる。例えば、声紋を登録することができる。以上より、音判定部13は、音の特徴量を登録する機能を有するということができる。登録結果は、記憶部14に記憶させることができる。
また、音判定部13は、抽出した特徴量が登録されたものであるか否かを判定する機能を有する。特徴量の登録、及び上記判定は、例えば機械学習モデルを用いて行うことができる。機械学習モデルは、例えばニューラルネットワークモデルを用いると、推論を高い精度で行えるため好ましい。ニューラルネットワークモデルとして、例えばCNN、RNN等を用いることができる。また、機械学習モデルの学習方法として、例えば教師あり学習を用いることができる。
処理部15は、例えば音分離部12が出力した音に対して処理を行う機能を有する。例えば、音分離部12が出力した音声に含まれる命令を解析し、命令の内容を表す信号である命令信号を生成する機能を有する。なお、命令の解析は、例えば形態素解析等の言語処理を用いて行うことができる。
また、処理部15は、音分離部12が出力した音のうち、雑音等をキャンセルするための処理を行う機能を有する。例えば、当該雑音等と逆位相の音を生成することにより、音分離部12が出力した雑音等をキャンセルすることができる。
ここで、処理部15は、音判定部13の判定結果に基づき処理を行う機能を有する。例えば、音分離部12が音声を出力した場合、当該音声の特徴量が登録されたものである場合のみ、命令信号を生成することができる。
送受信部16は、処理部15による処理が行われた音と、情報端末22が発する音と、を合成する機能を有する。ここで、情報端末22が発する音は、例えば情報端末22が音楽を流している場合は当該音楽とすることができる。
また、処理部15が命令信号を生成した場合、当該命令信号は送受信部16が受信することができる。送受信部16は、受信した命令信号を情報端末22に出力する機能を有する。情報端末22は、命令信号が表す命令を実行する機能を有する。例えば、情報端末22が音楽を流しており、命令信号が「曲の種類を変える」という命令を表す場合、情報端末22が流す曲を、指定されたものに変えることができる。
前述のように、命令信号は、例えば音分離部12が分離した音声の特徴量が登録されたものである場合のみ生成される。これにより、例えば登録の有無にかかわらず命令信号を生成する場合より、情報端末22の誤動作を抑制することができる。例えば、情報端末22の使用者の音声の特徴量を音響装置10に登録する場合、情報端末22の使用者以外の音声に反応して、情報端末22の使用者が意図しない動作が行われることを抑制することができる。
音出力部17は、送受信部16が合成した音を、音響装置10の外部に発する機能を有する。音響装置10の使用者は、音検知部11が検知した音と、音出力部17が出力した音と、の合成音を耳23で聞くことができる。前述のように、音出力部17が出力した音には、情報端末22が発する音の他、例えば音検知部11が検知した音に含まれる雑音等を逆位相としたものを含むことができる。以上により、音響装置10の使用者は、例えば雑音等がキャンセルされた音を聞くことができる。なお、音出力部17は、例えばスピーカーを含む構成とすることができる。
図1B1及び図1B2は、音響装置10の具体例を示す図である。図1B1に示すように、音響装置10は、イヤホンとすることができる。具体的には、情報端末22の使用者が着用するイヤホンとすることができる。また、図1B2に示すように、音響装置10は、ヘッドホンとすることができる。具体的には、情報端末22の使用者が着用するヘッドホンとすることができる。
<音響装置の動作例>
以下では、音響装置10の動作方法の一例について説明する。図2A及び図2Bは、音判定部13が、音の特徴量が登録されたものであるか否かを、機械学習モデルを用いて判定する機能を有する場合の、音の特徴量の登録方法の一例を示す図である。具体的には、教師あり学習を用いた、音の特徴量の登録方法の一例を示す図である。
まず、図2Aに示すように、音判定部13が、音データ31に対して特徴量抽出を行う。例えば、音データ31が表す音の周波数特性を特徴量とする。例えば、音データ31に対してフーリエ変換を行うことにより得られる周波数特性を特徴量とすることができる。また、特徴量として、例えばMFCCを用いることができる。
その後、抽出した特徴量を表すデータに、「登録を行わない」旨を表すラベルであるラベル32を付したものを、音判定部13に設けられるジェネレータ30に入力する。ジェネレータ30は、機械学習モデルを用いたプログラムである。ジェネレータ30は、音データ31から抽出した特徴量を表すデータを学習データ、ラベル32を教師データとして学習を行い、学習結果33を出力する。学習結果33は、記憶部14に記憶させることができる。なお、ジェネレータ30が、ニューラルネットワークモデルを用いたプログラムである場合、学習結果33は重み係数とすることができる。
学習データである音データ31として、複数人の音声を用いることが好ましい。特に、例えば男声の音データ、女声の音データを偏りなく用意し、また男声、女声の中でも高い声、低い声など、様々な声質の音データを偏りなく用意して、学習を行うことが好ましい。これにより、後述する学習結果を用いた推論、つまり音判定部13に入力された音の特徴量が登録されたものか否かの判定を、高い精度で行うことができる。
次に、図2Bに示すように、音判定部13が、音データ41に対して特徴量抽出を行う。当該特徴量は、図2Aで学習データとして用いた特徴量と同種の特徴量とすることが好ましい。例えば、音データ31からMFCCを抽出して学習データとした場合は、音データ41に対してもMFCCの抽出を行うことが好ましい。
その後、抽出した特徴量を表すデータに「登録を行う」旨を表すラベルであるラベル42を付したものを、学習結果33が読み込まれているジェネレータ30に入力する。ジェネレータ30は、音データ41から抽出した特徴量を表すデータを学習データ、ラベル42を教師データとして学習を行い、学習結果43を出力する。学習結果43は、記憶部14に記憶させることができる。なお、ジェネレータ30が、ニューラルネットワークモデルを用いたプログラムである場合、学習結果43は重み係数とすることができる。
図2A及び図2Bにおいて、「登録を行う」旨を表すラベルを「登録○」と記載して示し、「登録を行わない」旨を表すラベルを「登録×」と記載して示す。他の図面においても同様の記載をする。
学習データである音データ41は、例えば音響装置10の使用者の音声とする。音データ41として音声を用いる場合、同一の者が様々な発声方法によって発声した音声の特徴量を、偏りなく用いて学習を行うことが好ましい。また、音データ41として取得された音声データに対して、例えば声の高さ等のパラメータを変更することにより、音データ41の数を水増しして学習を行うことが好ましい。以上により、後述する学習結果を用いた推論、つまり音判定部13に入力された音の特徴量が登録されたものか否かの判定を、高い精度で行うことができる。
以上のように、音判定部13は、図2Aに示すように登録を行わない音の特徴量を学習データとして学習を行った後、図2Bに示すように登録を行う音の特徴量を学習データとして学習を行うことができる。つまり、第1の学習と、第2の学習と、の2段階に分けて学習を行うことができる。具体的には、図2Aに示す第1の学習を行った後、追加学習として図2Bに示す第2の学習を行うことができる。
第1の学習は、例えば音響装置10の出荷前に行うことができる。一方、第2の学習は、例えば音響装置10の出荷後に行うことができる。これにより、第2の学習は、例えば音響装置10の使用者が自ら行うことができる。以上により、音響装置10では、音の特徴量の登録を、使用者が自ら行うことができる。
以上示した学習を行うことにより、音判定部13は、例えば音分離部12が分離した音の特徴量が登録されたものか否かの判定を行うことができるようになる。具体的には、音判定部13に音が入力されると、音判定部13は学習結果43に基づき、入力された音の特徴量が登録されたものであるか否かを推論することができるようになる。
音の特徴量が登録されたものか否かの判定を、機械学習モデルを用いて行うことにより、機械学習モデルを用いずに当該判定を行う場合より、高精度な判定を行うことができる。これにより、例えば特徴量が登録されていない音に含まれる命令を、音響装置10と電気的に接続された情報端末22が実行することを抑制することができる。また、例えば特徴量が登録された音に含まれる命令を、音響装置10と電気的に接続された情報端末22が実行しないことを抑制することができる。つまり、音響装置10と電気的に接続された情報端末22が、高精度の音声認識を行うことができる。
次に、音響装置10の使用時の動作方法の一例を説明する。図3は、音響装置10の使用時の動作方法の一例を示すフローチャートである。図4A乃至図4C、並びに図5A及び図5Bは、図3に示す各ステップの詳細を説明する模式図である。なお、図2A及び図2Bに示す方法等により、音の特徴量の登録がすでに行われているものとして、以下説明を行う。
音検知部11が音を検知すると(ステップS01)、検知した音を音分離部12が特性ごとに分離する。例えば、音検知部11が人の音声を含む音を検知した場合、検知した音を音分離部12が音声と、音声以外の音と、に分離する(ステップS02)。前述のように、音声以外の音は、例えば環境音であり、例えば雑音であるということができる。
ステップS02の具体例を図4Aに示す。前述のように、音分離部12は、例えば音検知部11が検知した音を、当該音の周波数に基づいて分離する機能を有する。図4Aでは、音検知部11が検知し、音分離部12に入力された音21を、周波数に基づいて音21aと、音21bと、に分離する例を示している。
前述のように、人の音声は、例えば主に0.2kHz以上、4kHz以下の周波数成分により構成される。よって、例えば音検知部11が検知した音を、0.2kHz以上、4kHz以下の周波数の音と、それ以外の周波数の音と、に分離することにより、音声と、それ以外の音と、に分離することができる。なお、人の音声の中間周波数は、1kHz前後である言われている。よって、例えば音検知部11が検知した音を、1kHz前後の周波数の音と、それ以外の周波数の音と、に分離することにより、音声と、それ以外の音と、に分離してもよい。例えば、0.5kHz以上、2kHz以下の周波数の音と、それ以外の周波数の音と、に分離してもよい。また、例えば音検知部11が検知した音の種類に応じて、音分離を行う周波数を変更してもよい。例えば、音検知部11が女声を含む音を検知した場合は、男声を含む音を検知した場合より高周波数の音を、音声として分離してもよい。音分離を行う周波数を、音検知部11が検知した音の種類に応じて変更することにより、例えば音検知部11が検知した音を、音声と、それ以外の音と、に高い精度で分離することができる。
以下では、音21aが音声であり、音21bが音声以外の音であるとして説明を行う。
音分離部12が音21を音声である音21aと、音声以外の音である音21bと、に分離した後、音21aに対して、音判定部13が特徴量抽出を行い、抽出した特徴量が登録されたものか否かを判定する(ステップS03)。具体的には、図4Bに示すように、音21aを例えば学習結果43が読み込まれたジェネレータ30に入力し、ジェネレータ30が登録の有無を表すデータ24を出力することにより、音21aから抽出した特徴量が登録されたものか否かを判定することができる。
音21aから抽出された特徴量が登録されたものである場合は、処理部15が、音21aに含まれる命令を解析し、命令の内容を表す信号である命令信号を生成する(ステップS04、及びステップS05)。命令の解析は、例えば形態素解析等の言語処理を用いて行うことができる。一方、音21aから抽出された特徴量が登録されたものでない場合は、命令の解析、及び命令信号の生成は行わない(ステップS04)。
図4Cでは、ステップS05に示す処理の具体例として、音21aに含まれる命令が「曲の種類を変える」である場合を示している。図4Cに示すように、「曲の種類を変える」という命令が含まれる音21aが処理部15に入力されると、「曲の種類を変える」という命令を表す命令信号25が出力される。命令信号25は、送受信部16へ出力される。なお、図4Cにおいて、例えば「曲の種類をxxxxxに変える」という旨を、「曲の種類を変える To:xxxxx」と記載して示す。他の図においても同様とする。
なお、例えば音21aに「曲の種類を変える」という命令を含ませるには、例えば登録された声紋を持つ者が「曲の種類を変える」という旨の言葉を発すればよい。当該言葉を含む音を音検知部11が音21として検知し、音分離部12が音21に含まれる音声を音21aとして分離することで、音21aに「曲の種類を変える」という命令を含ませることができる。よって、音響装置10は音声認識を行う機能を有するということができる。
次に、音分離部12が分離した、音声以外の音である音21bに対して、音21bをキャンセルするための処理を、処理部15が行う(ステップS06)。例えば、図5Aに示すように、音21bを処理部15に入力し、音21bと位相を反転させた音26を出力する。
その後、処理部15による処理が行われた音である音26と、情報端末22が発する音と、を送受信部16が合成し、音出力部17に出力する(ステップS07)。ここで、情報端末22が発する音は、例えば情報端末22が音楽を流している場合は当該音楽とすることができる。
また、処理部15が命令信号25を生成し、送受信部16へ出力した場合、つまり音分離部12が分離した音声である音21aの特徴量が登録されたものである場合は、送受信部16が、命令信号25を情報端末22に出力する(ステップS08、ステップS09)。
ステップS07乃至ステップS09の具体例を図5Bに示す。図5Bでは、音21bの位相を反転させた音である音26と、「曲の種類を変える」という命令を表す命令信号25と、情報端末22から発せられる音27と、が送受信部16に入力される例を示している。音26と音27を送受信部16が合成し、音出力部17に出力する。音出力部17に入力された音は、音響装置10の外部に発せられる。音響装置10の使用者は、音検知部11が検知した音21と、音出力部17が出力した音26及び音27と、の合成音を耳23で聴くことができる。
前述のように、音26は、音21に含まれる雑音等の成分である音21bを分離し、例えば位相を反転させた音である。よって、音響装置10の使用者は、例えば雑音がキャンセルされた音を聞くことができる。
また、送受信部16に命令信号25が入力された場合、送受信部16は命令信号25を情報端末22に出力する。情報端末22は、命令信号25が表す命令を実行する。例えば、情報端末22が音楽を流しており、命令信号25が「曲の種類を変える」という命令を表す場合、情報端末22が流す曲を、指定されたものに変えることができる。以上が音響装置10の動作方法の一例である。
音分離部12が分離した、音声等の音の特徴量が登録されたものである場合のみ、処理部15が命令信号25を生成することにより、例えば登録の有無にかかわらず命令信号25を生成する場合より、情報端末22の誤動作を抑制することができる。例えば、情報端末22の使用者の音声の特徴量を音響装置10に登録する場合、情報端末22の使用者以外の音声に反応して、情報端末22の使用者が意図しない動作が行われることを抑制することができる。
図3等に示す動作方法では、命令信号25が表す命令の内容にかかわらず、送受信部16は命令信号25を情報端末22に出力するが、本発明の一態様はこれに限らない。命令の内容により、送受信部16は命令信号25を情報端末22以外に出力してもよい。
図6は、音響装置10の使用時の動作方法の一例を示すフローチャートであり、図3に示す動作方法の変形例である。図6に示す動作方法は、ステップS05がステップS05aに置き換わり、ステップS09がステップS09aに置き換わっている点が、図3に示す動作方法と異なる。
ステップS05aでは、音分離部12が分離した、音声である音21aに含まれる命令を解析し、命令の内容、及び命令の出力先を表す命令信号25を生成する。命令の出力先は、例えば命令の種類に応じて決定することができる。また、ステップS09aでは、送受信部16が、命令信号25を所定の出力先に出力する。
図6に示すステップS07、ステップS08、及びステップS09aの具体例を図7A及び図7Bに示す。図7Aは、命令信号25が「曲の種類を変える」という命令を表す場合を示している。この場合、送受信部16が命令信号25を情報端末22に出力し、情報端末22は、流す曲を指定されたものに変えることができる。
図7Bは、命令信号25が「音量を変える」という命令を表す例を示している。この場合、送受信部16が命令信号25を音出力部17に出力し、情報端末22から発せられる音27の大きさを、音出力部17が変えることができる。
なお、命令信号25の出力先は、例えば音響装置10の使用者が指定できるようにしてもよい。例えば、登録された声紋を持つ者が、命令信号25の出力先を指定する言葉を発することにより、命令信号25の出力先を指定できるようにしてもよい。
図3等に示す動作方法では、音分離部12が分離した音21に音声である音21aが含まれている場合、音21aから抽出された特徴量が登録されたものでなくても、処理部15は音21aをキャンセルする処理を行わないものとしているが、本発明の一態様はこれに限らない。音21aから抽出された特徴量が登録されたものでない場合、処理部15は、音声以外の音21bだけでなく、音声である音21aもキャンセルする処理を行ってもよい。
図8は、音響装置10の使用時の動作方法の一例を示すフローチャートであり、図3に示す動作方法の変形例である。図8に示す動作方法は、音21aから抽出された特徴量が登録されたものでない場合(ステップS04)、ステップS06の代わりにステップS06aを行う点が、図3に示す動作方法と異なる。図9は、ステップS06aの詳細を説明する模式図である。
ステップS06aでは、音検知部11が検知した音21の全てをキャンセルする処理を、処理部15が行う。例えば、図9に示すように、音21を処理部15に入力し、音21と位相を反転させた音を音26として出力する。
また、音21aから抽出された特徴量が登録されたものでない場合、処理部15は、音21aの大きさを小さくする処理を行ってもよい。
図10は、音響装置10の使用時の動作方法の一例を示すフローチャートであり、図8に示す動作方法の変形例である。図10に示す動作方法は、ステップS06aがステップS06bに置き換わっている点が、図8に示す動作方法と異なる。
図11は、ステップS06bの詳細を説明する模式図である。ステップS06bでは、音分離部12が分離した音21のうち、音声である音21aの大きさを小さくし、音声以外の音である音21bをキャンセルする処理を、処理部15が行う。例えば、図11に示すように、音21a、及び音21bを処理部15に入力する。そして、処理部15が音21aの位相を反転させ、かつ振幅を小さくする処理を行う。また、音21bの位相を反転させる処理を行う。処理部15が処理を行った音を、音26として出力する。
以上、本実施の形態に示す方法を用いることで、情報端末22の誤動作を抑制することができる。また、雑音等をキャンセルすることができるため、情報端末22が高精度の音声認識を行うことができる。
10:音響装置、11:音検知部、12:音分離部、13:音判定部、14:記憶部、15:処理部、16:送受信部、17:音出力部、21:音、21a:音、21b:音、22:情報端末、23:耳、24:データ、25:命令信号、26:音、27:音、30:ジェネレータ、31:音データ、32:ラベル、33:学習結果、41:音データ、42:ラベル、43:学習結果

Claims (8)

  1.  音検知部と、音分離部と、音判定部と、処理部と、を有し、
     前記音検知部は、第1の音を検知する機能を有し、
     前記音分離部は、前記第1の音を、第2の音と、第3の音と、に分離する機能を有し、
     前記音判定部は、音の特徴量を登録する機能を有し、
     前記音判定部は、前記第2の音の特徴量が前記登録されたものか否かを、機械学習モデルを用いて判定する機能を有し、
     前記処理部は、前記第2の音の特徴量が前記登録されたものである場合は、前記第2の音に含まれる命令を解析し、前記命令の内容を表す信号を生成する機能を有し、
     前記処理部は、前記第3の音に対して、前記第3の音をキャンセルするための処理を行うことにより、第4の音を生成する機能を有する音響装置。
  2.  請求項1において、
     前記機械学習モデルの学習は、音声を学習データ、前記登録を行うか否かを表すラベルを教師データとする、教師あり学習を用いて行われる音響装置。
  3.  請求項1又は2において、
     前記機械学習モデルは、ニューラルネットワークモデルである音響装置。
  4.  請求項1乃至3のいずれか一項において、
     前記第4の音は、前記第3の音に対して逆位相の音である音響装置。
  5.  第1の音を検知し、
     前記第1の音を、第2の音と、第3の音と、に分離し、
     前記第2の音の特徴量が登録されたものか否かを、機械学習モデルを用いて判定し、
     前記第2の音の特徴量が登録されたものである場合は、前記第2の音に含まれる命令を解析し、前記命令の内容を表す信号を生成し、
     前記第3の音に対して、前記第3の音をキャンセルするための処理を行うことにより、第4の音を生成する音響装置の動作方法。
  6.  請求項5において、
     前記機械学習モデルの学習は、音声を学習データ、登録を行うか否かを表すラベルを教師データとして用いる教師あり学習を用いて行われる、音響装置の動作方法。
  7.  請求項5又は6において、
     前記機械学習モデルは、ニューラルネットワークモデルである音響装置の動作方法。
  8.  請求項5乃至7のいずれか一項において、
     前記第4の音は、前記第3の音に対して逆位相の音である音響装置の動作方法。
PCT/IB2020/057125 2019-08-09 2020-07-29 音響装置、及びその動作方法 WO2021028758A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202080056225.2A CN114207708A (zh) 2019-08-09 2020-07-29 音响装置及其工作方法
JP2021539690A JPWO2021028758A1 (ja) 2019-08-09 2020-07-29
KR1020227007021A KR20220044530A (ko) 2019-08-09 2020-07-29 음향 장치 및 그 동작 방법
US17/630,090 US20220366928A1 (en) 2019-08-09 2020-07-29 Audio device and operation method thereof

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019147368 2019-08-09
JP2019-147368 2019-08-09

Publications (1)

Publication Number Publication Date
WO2021028758A1 true WO2021028758A1 (ja) 2021-02-18

Family

ID=74570241

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/IB2020/057125 WO2021028758A1 (ja) 2019-08-09 2020-07-29 音響装置、及びその動作方法

Country Status (5)

Country Link
US (1) US20220366928A1 (ja)
JP (1) JPWO2021028758A1 (ja)
KR (1) KR20220044530A (ja)
CN (1) CN114207708A (ja)
WO (1) WO2021028758A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014191823A (ja) * 2013-03-26 2014-10-06 Tata Consultancy Services Ltd 生体認証および自己学習アルゴリズムを用いた個人用アカウント識別子の有効化方法およびシステム。
JP2016075740A (ja) * 2014-10-03 2016-05-12 日本電気株式会社 音声処理装置、音声処理方法、およびプログラム
JP2018107577A (ja) * 2016-12-26 2018-07-05 ヤマハ株式会社 音響装置
JP2019036174A (ja) * 2017-08-17 2019-03-07 ヤフー株式会社 制御装置、入出力装置、制御方法、および制御プログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102287182B1 (ko) 2014-02-03 2021-08-05 코핀 코포레이션 음성 커맨드에 대한 스마트 블루투스 헤드셋
US10360926B2 (en) * 2014-07-10 2019-07-23 Analog Devices Global Unlimited Company Low-complexity voice activity detection
US10657949B2 (en) * 2015-05-29 2020-05-19 Sound United, LLC System and method for integrating a home media system and other home systems
US11006162B2 (en) * 2015-08-31 2021-05-11 Orcam Technologies Ltd. Systems and methods for analyzing information collected by wearable systems
US9858927B2 (en) * 2016-02-12 2018-01-02 Amazon Technologies, Inc Processing spoken commands to control distributed audio outputs
US10373612B2 (en) * 2016-03-21 2019-08-06 Amazon Technologies, Inc. Anchored speech detection and speech recognition
CN110506452B (zh) * 2017-02-07 2021-12-03 路创技术有限责任公司 基于音频的负载控制系统
US11100384B2 (en) * 2017-02-14 2021-08-24 Microsoft Technology Licensing, Llc Intelligent device user interactions
US10431217B2 (en) * 2017-02-15 2019-10-01 Amazon Technologies, Inc. Audio playback device that dynamically switches between receiving audio data from a soft access point and receiving audio data from a local access point
JP6991041B2 (ja) * 2017-11-21 2022-01-12 ヤフー株式会社 生成装置、生成方法、および生成プログラム
US11120794B2 (en) * 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014191823A (ja) * 2013-03-26 2014-10-06 Tata Consultancy Services Ltd 生体認証および自己学習アルゴリズムを用いた個人用アカウント識別子の有効化方法およびシステム。
JP2016075740A (ja) * 2014-10-03 2016-05-12 日本電気株式会社 音声処理装置、音声処理方法、およびプログラム
JP2018107577A (ja) * 2016-12-26 2018-07-05 ヤマハ株式会社 音響装置
JP2019036174A (ja) * 2017-08-17 2019-03-07 ヤフー株式会社 制御装置、入出力装置、制御方法、および制御プログラム

Also Published As

Publication number Publication date
JPWO2021028758A1 (ja) 2021-02-18
CN114207708A (zh) 2022-03-18
KR20220044530A (ko) 2022-04-08
US20220366928A1 (en) 2022-11-17

Similar Documents

Publication Publication Date Title
US10628484B2 (en) Vibrational devices as sound sensors
JP6463825B2 (ja) 多重話者音声認識修正システム
EP3210205B1 (en) Sound sample verification for generating sound detection model
US20190355352A1 (en) Voice and conversation recognition system
WO2020210050A1 (en) Automated control of noise reduction or noise masking
WO2019228329A1 (zh) 个人听力装置、外部声音处理装置及相关计算机程序产品
JP6985221B2 (ja) 音声認識装置及び音声認識方法
WO2023088083A1 (zh) 语音增强方法和装置
US11367457B2 (en) Method for detecting ambient noise to change the playing voice frequency and sound playing device thereof
US10424292B1 (en) System for recognizing and responding to environmental noises
US11290802B1 (en) Voice detection using hearable devices
US10964307B2 (en) Method for adjusting voice frequency and sound playing device thereof
WO2021028758A1 (ja) 音響装置、及びその動作方法
JP2019113636A (ja) 音声認識システム
US10950253B2 (en) Vocal feedback device and method of use
WO2020079918A1 (ja) 情報処理装置及び情報処理方法
JP7218143B2 (ja) 再生システムおよびプログラム
JP2016186516A (ja) 疑似音声信号生成装置、音響モデル適応装置、疑似音声信号生成方法、およびプログラム
KR102044970B1 (ko) 환경 특징 추출 방법 및 이를 이용한 보청기 작동 방법
KR101429138B1 (ko) 복수의 사용자를 위한 장치에서의 음성 인식 방법
JP6696878B2 (ja) 音声処理装置、ウェアラブル端末、携帯端末、および音声処理方法
US20220261218A1 (en) Electronic device including speaker and microphone and method for operating the same
JP2008286921A (ja) キーワード抽出装置、キーワード抽出方法及びそのプログラム、記録媒体
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法
US20240112676A1 (en) Apparatus performing based on voice recognition and artificial intelligence and method for controlling thereof

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20853263

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021539690

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 20227007021

Country of ref document: KR

Kind code of ref document: A

122 Ep: pct application non-entry in european phase

Ref document number: 20853263

Country of ref document: EP

Kind code of ref document: A1