WO2020235680A1 - 音声想起認識装置、装着具、音声想起認識方法及びプログラム - Google Patents

音声想起認識装置、装着具、音声想起認識方法及びプログラム Download PDF

Info

Publication number
WO2020235680A1
WO2020235680A1 PCT/JP2020/020342 JP2020020342W WO2020235680A1 WO 2020235680 A1 WO2020235680 A1 WO 2020235680A1 JP 2020020342 W JP2020020342 W JP 2020020342W WO 2020235680 A1 WO2020235680 A1 WO 2020235680A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
recognition device
time series
recall
electrode
Prior art date
Application number
PCT/JP2020/020342
Other languages
English (en)
French (fr)
Inventor
恒雄 新田
Original Assignee
Nitta Tsuneo
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nitta Tsuneo filed Critical Nitta Tsuneo
Priority to EP20809757.6A priority Critical patent/EP3973861A1/en
Priority to CN202080037965.1A priority patent/CN113873944A/zh
Priority to US17/613,658 priority patent/US20220238113A1/en
Publication of WO2020235680A1 publication Critical patent/WO2020235680A1/ja

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/24Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
    • A61B5/316Modalities, i.e. specific diagnostic methods
    • A61B5/369Electroencephalography [EEG]
    • A61B5/377Electroencephalography [EEG] using evoked responses
    • A61B5/38Acoustic or auditory stimuli
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/24Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
    • A61B5/316Modalities, i.e. specific diagnostic methods
    • A61B5/369Electroencephalography [EEG]
    • A61B5/372Analysis of electroencephalograms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L21/12Transforming into visible information by displaying time domain information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Definitions

  • the present invention relates to a voice recall recognition device, a fitting, a voice recall recognition method, and a program.
  • a spoken language input device As a spoken language input device, a device that receives voice waves uttered so far by a microphone or a vibration pickup of bone conduction vibration and recognizes spoken language information from the obtained signal is put into practical use.
  • voice data and language data by using a huge amount of voice data and language data and accumulating and using probability information on phoneme sequences (acoustic model) and word sequences (language model) on a network, high-speed and high-performance spoken language Realizing recognition.
  • phoneme sequences acoustic model
  • word sequences language model
  • the realization of language recognition by speech imagery without utterance is a brain computer interface. (Brain Computer Interface; BCI) is desired from the field.
  • BCI Brain Computer Interface
  • Spoken language recognition from spoken recall signals is performed by observing 64 to 128 points of subdural electrocorticogram (ECoG) from the brain cortex, and in recent years, spoken language recognition with speech has been attempted ( See Non-Patent Document 1). However, it is not realistic to use such a method involving craniotomy except for critically ill patients. On the other hand, although the method of observing electroencephalogram (EEG) with electrodes on the scalp has immeasurable social contribution when put into practical use, attempts to find meaningful spoken language signals in noise have been successful to date. There wasn't.
  • EEG electroencephalogram
  • Non-Patent Document 2 In recent years, research has progressed on analyzing the brain during speech using high-resolution devices such as PET and fMRI, and observing EcoG when a patient speaks at the time of craniotomy, and spoken language is processed in any part of the brain. It is becoming clear. According to these results, after the concept preparation in the left middle temporal gyrus (MTG), the planning as a language is performed toward the superior temporal gyrus (STG) (see Non-Patent Document 2).
  • the present invention has been made in view of the above circumstances, and an object of the present invention is to provide a voice recall recognition device, a wearing tool, a voice recall recognition method, and a program capable of voice language recognition by brain waves.
  • the present invention extracts line spectrum components by a line spectrum component extractor as a language representation and convolves those components by phonemes.
  • the most important feature is to obtain a phoneme feature vector time series by passing it through a phoneme feature vector time series converter using arithmetic or the like.
  • the first invention is a voice recall recognition device that recognizes a spoken language from brain waves at the time of voice recall, analyzes and processes discrete signal groups of brain waves for each electrode input from the electrode group, and outputs a spectral time series.
  • a voice recall recognition device having an analysis processing unit for performing an electroencephalogram and an extraction unit for outputting a phonetic feature vector time series based on the spectrum time series.
  • the second invention is a fitting for a speech recall recognition device that recognizes a spoken language from brain waves at the time of speech recall, and is an electrode group arranged around a broker field and an output for outputting a signal from the electrode group.
  • the voice recall recognition device has an analysis process of analyzing a discrete signal group of brain waves for each electrode output from the output unit and outputting a spectral time series, and the spectral time series. Based on this, a fitting is provided that executes an extraction process that outputs a phonetic feature vector time series.
  • the third invention is a voice recall recognition method for recognizing a spoken language from a brain wave at the time of voice recall, and analyzes and processes a discrete signal group of the brain wave for each electrode input from the electrode group and outputs a spectral time series.
  • a speech recall recognition method including an analysis processing step to be performed and an extraction step to output a phonetic feature vector time series based on the spectrum time series is provided.
  • the fourth invention is a program for causing a computer to execute a voice recall recognition process for recognizing a spoken language from brain waves at the time of voice recall, and is a discrete brain wave for each electrode input from the electrode group to the computer.
  • a program is provided for executing an analysis process of analyzing a signal group and outputting a spectrum component as a linguistic representation, and an extraction process of extracting a phonetic feature group based on the spectrum component of each electrode.
  • a voice recall recognition device it is possible to provide a voice recall recognition device, a wearing tool, a voice recall recognition method, and a program that enable speech language recognition by brain waves.
  • FIG. 1 is a model diagram showing the configuration of the voice recall recognition device 1.
  • the configuration and operation of the voice recall recognition device 1 will be described with reference to FIG.
  • the voice recall recognition device 1 is for recognizing a spoken language from brain waves at the time of voice recall.
  • the voice recall recognition device 1 includes an electroencephalogram input unit 2 that converts brain waves input from an electrode group installed on the scalp (not shown) into a discrete signal group, and a preprocessing unit 3 that removes noise from the discrete signal for each electrode.
  • An analysis processing unit 4 that analyzes and processes a discrete signal group for each electrode and outputs a spectral time series, a language feature extraction unit 5 that outputs a phonetic feature vector time series from the spectral time series of all electrodes, and a phonetic feature vector time series. It is composed of a word / sentence recognition unit 6 that recognizes a word / sentence that is a voice language, and a post-processing / output unit 7 that displays and outputs voice language information.
  • the brain wave input unit 2 converts the analog signal group x (q, t) of the multi-electrode brain wave output into a discrete signal by A / D conversion or the like, and individually by using the average value of the discrete signals of all the electrodes. A process is performed to correct the bias bias of the electrodes. At the same time, unnecessary frequency components of 70 Hz or less are blocked by a low frequency rejection filter (high frequency pass filter) from the discrete signal of each electrode, and unnecessary frequency components of 180 Hz or higher are blocked by a high frequency rejection filter (low frequency pass filter). Output the signal x 1 (q, n).
  • FIG. 2 shows the electrode arrangement of a standard international 10-10 system using 64 electrodes.
  • the voice recall signal is received from the 9 electrodes ⁇ F3, F5, F7, FC3, FC5, FT7, C3, C5, T7 ⁇ belonging to the Broca's area of the left brain, and the language features are extracted to recognize the recall contents.
  • right-handed people process language in the left brain, but a considerable number of left-handed people also process language in the left brain.
  • brain waves may be subject to large fluctuations (called artifacts) due to movements such as blinking, many unnecessary components can be removed by the above filter operation.
  • IPA Independent Component Analysis
  • the pretreatment unit 3 removes noise passing through the filter for each electrode.
  • the discrete signals x 1 (q, n) and (q: electrode number, n: time) of each electrode that has completed a series of processing of the electroencephalogram input section are first multiplied by a fixed time window, and then fast Fourier transform is performed. (FFT) maps from the time domain to the frequency domain. Then, the amplitude spectrum time series X 1 (q, f, n') and (f is the frequency and n'is the time frame number after windowing) are obtained from the complex number components in the frequency domain as follows.
  • the average noise amplitude spectrum is obtained from the spectrum N (q, f, n') of the electroencephalogram (EEG signal) observed prior to the speech imagery by the following equation.
  • the average noise spectrum is calculated from 8 frames before and after the time n', but it may be set appropriately depending on the system.
  • the time n' is usually set.
  • the user performs voice recall following the prompt signal (signal instructing the start of recall) given from the voice recall recognition application system.
  • Voice recall is performed following a fixed call from the user to the application system, such as "Yamada-san" (wake-up word).
  • N q, f, n'
  • N is calculated from the brain waves observed in the section before or after the speech recall.
  • Nav q, f, n'
  • Nav is subtracted from the speech recall signal spectrum X 1 (q, f, n') as shown in the following equation.
  • FIG. 3A shows before noise removal
  • FIG. 3B shows after noise removal. Comparing FIGS. 3A and 3B, it can be seen that the effect of removing the noise spectrum is remarkable.
  • the amplitude spectrum time series after noise removal is returned to the waveform x 2 (q, n) by the inverse fast Fourier transform (IFFT).
  • IFFT inverse fast Fourier transform
  • Non-Patent Document 4 a process of extracting a small number of independent information sources from the 9-electrode signal after noise removal, that is, an independent component analysis (IPA) (Non-Patent Document 4) is effective.
  • IPA independent component analysis
  • ICA has a problem of so-called permutation in which the order of independent components in the analysis results is different each time the analysis is performed, and a method of solving this drawback and introducing it into the present patent will be described later.
  • the analysis processing unit 4 may use the spectrum time series X 2 (q, f, n') of the voice recall signal after noise removal (and after extracting q independent components) obtained by the preprocessing unit 3. , An example in which Linear Predictive Analysis (LPA) is applied will be described below as an analysis method that brings out the effects of the present invention better.
  • the analysis processing unit 4 can use a spectrum or a line spectrum.
  • Linear Predictive Coding (LPC) is currently the global standard as a voice communication method. In voice, there are two sources of information: pulse waves with a fixed period due to the vocal cords and random waves due to the narrowing of the vocal tract.
  • the sound source is held separately as a codebook, and all the sound sources in the codebook are passed through the linear prediction coefficient of the voice (which is responsible for the transfer function of the vocal tract), and the synthetic voice is compared with the original voice. It requires a complicated process to do.
  • EEG EEG
  • the information source is considered to be only a random wave
  • EEG synthesis is simpler than speech synthesis.
  • Various algorithms for obtaining the linear prediction coefficient ⁇ m ⁇ from the autocorrelation coefficient r 2 ( ⁇ ) obtained from the electroencephalogram x 2 (q, n) have been proposed, such as the Levinson-Durbin method (Non-Patent Document 4).
  • the voice recall electroencephalogram x (n) of each electrode is obtained by passing the white noise w (n) of the signal source through the impulse response s (n) of the nervous system.
  • indicates a convolution integral symbol.
  • S (f) can be obtained from the Fourier transform of the linear prediction coefficient ⁇ m ⁇ as shown in the following equation.
  • F [] is a Fourier transform.
  • LPA linear predictive analysis
  • the synthetic model S (f) is used as an inverse filter. ( ⁇ is the amplitude bias value).
  • the method of performing the analysis with high accuracy through the synthesis process is called “Analysis-by-Synthesis (AbS)" and is also an effective method in the electroencephalogram analysis.
  • AbS Analysis-by-Synthesis
  • the frequency resolution accuracy can be arbitrarily adjusted to 64 points, 128 points, ..., Each, and the spectral component A (q, f, n') can be obtained.
  • FIG. 5 shows the spectral pattern analyzed by LPA in comparison with the spectral pattern analyzed by ordinary Fourier transform.
  • LPA LPA spectral pattern analyzed by LPA in comparison with the spectral pattern analyzed by ordinary Fourier transform.
  • a plurality of LPA spectral patterns are displayed in FIG. 5, they indicate that they use a window function called a log window that attenuates the value as the delay ⁇ increases with respect to the autocorrelation coefficient ().
  • the slope of the lag window is large toward the bottom, and it becomes a sharp peak when the log window is not used).
  • the spectrum can be represented by a small number of essential peaks of brain waves.
  • the spectrum of the electroencephalogram at the time of voice recall through LPA analysis is expressed by a small number of spectral peaks. From this, in the brain (especially Broca's area where the linguistic information of speech recall appears), the linguistic representation is composed of a group of short-time sine waves (tone-burst), in other words, the linguistic representation is peculiar. It is presumed to be represented by the line spectrum of.
  • FIG. 6 shows an example of the tone burst wave group and their spectral shapes.
  • a short-time sine wave is originally represented by a single parameter, that is, a single frequency, but as shown in the figure (and as shown in FIG. 5), it has a normal frequency by having transients before and after the signal.
  • the analysis has a broad spectrum.
  • the language feature extraction unit 5 extracts line spectrum components as "language representations" from a spread spectrum group, and outputs a phoneme likelihood vector time series, which is a language feature, through a phoneme unit convolution operator.
  • the processing process will be described with reference to the processing flow diagram of the language feature extraction unit of FIG. 7.
  • the spectral time series of the electrode q is input from the analysis processing unit 4 (step S1).
  • the spectrum of the electroencephalogram at the time of voice recall may have a fluctuation of about ⁇ 5 Hz as shown in FIG. 8 (A). Therefore, these frequency fluctuations are absorbed by using a median filter, which is a kind of non-linear filtering (step S2).
  • FIG. 8B shows the improvement results of frequency fluctuations when intermediate value filtering was performed on a total of 7 frames, 3 frames before and after the central frame n', for an electroencephalogram signal (4 msec period) of 70 Hz to 170 Hz. Indicated. It can be seen from the figure that the fluctuation is reduced.
  • the frequency analysis pattern is smoothed by multiplying it by a Gaussian window (coefficient; ⁇ 1/4, 1/2, 1/4 ⁇ ) in the time direction, and the time frame is dropped from 4 msec to around 8 msec.
  • the process of absorbing the frequency fluctuation can also be performed in the preprocessing unit 3 at a stage after removing the noise component on the amplitude spectrum and before returning to the waveform signal.
  • step S3 the process of extracting the line spectrum will be described (step S3).
  • the component derived from the peak appearing on the frequency axis is extracted as a line spectrum every time frame (8 msec).
  • (i) The frequency at which the maximum value ⁇ f 0 on the frequency axis
  • (ii) the inflection point .DELTA..delta frequency value when delta f> 0 if .DELTA..delta f of f 0 is changed from positive to negative
  • ⁇ f ⁇ 0 the frequency at which the value of ⁇ f changes from negative to positive, Only when these conditions are satisfied, the sinusoidal frequency component having the original amplitude, that is, the line spectrum component is used.
  • FIG. 9 shows an example of extracting the line spectrum component of the electroencephalogram at the time of voice recall.
  • data is collected under the task of recalling / ga-gi-gu-ge-go / three times in succession as much as possible.
  • the expert can learn the pattern of each syllable as shown in the figure, and can create a database in which the electroencephalogram data is labeled with a syllable.
  • the result of syllable labeling for the integrated line spectrum after the processing of)) is shown.
  • the pooling process here is performed only for reading the syllable label, and in the following phoneme feature extraction, the line spectrum component of the original 9 electrodes is targeted.
  • the language feature extraction unit 5 aims to finally extract phoneme features. That is, we aim to extract the phoneme component, which is the smallest unit of spoken language information, from the line spectrum component of each electrode in the form of a phoneme feature vector.
  • Spoken language information in brain waves has a so-called tensor structure that spans the three axes of line spectrum (frequency information) -electrodes (spatial information) -frames (time information).
  • the syllable pattern that appears in Broca's area has different electrode positions each time, suggesting a flexible information processing mechanism of the cranial nerve system.
  • syllables appear in Broca's area as the smallest unit of utterance, but during utterance, the speech organs are controlled by muscle movement, and this control is a tone parameter that corresponds one-to-one with phonemes. Will be done.
  • the flow of FIG. 11 shows the calculation of the phoneme likelihood vector by the phoneme-specific convolution operator in order to efficiently extract phonemes from the frequency-time pattern of 9 electrodes.
  • syllables belonging to the same phoneme context (/ sa /, / shi /, / su /, / se /, / so / in phoneme / s /, or / a /, / ka /, / sa / in phoneme / a / , / Ta /, / na /, / ha /, ..., / Ga /, / za /, ..., etc.) are stored in the memory (step S11).
  • the method of taking in and out this accumulated information and using it for necessary information processing is called pooling.
  • step S12 the principal component analysis is performed for each syllable (step S12), and the eigenvector for each syllable is determined for each related phoneme, phoneme / s /: ⁇ / sa / (m), ⁇ / shi / (m), ⁇ /. su / (m), ⁇ / se / (m), ⁇ / so / (m) ⁇ , phoneme / a /: ⁇ / a / (m), ⁇ / ka / (m), ⁇ / sa / ( Group phonemes like m), ⁇ / ta / (m), ⁇ / na / (m),.... ⁇ .
  • the autocorrelation matrix is calculated from the eigenvectors of the same phoneme group and integrated into the phoneme-specific autocorrelation matrices R s , Ra , ... (Step S13).
  • the subspaces (eigenvectors) ⁇ / s / (m) and ⁇ / a / (m) for each phoneme can be obtained.
  • FIG. 12 shows the eigenvectors of phonemes / s / and / a / (displaying the accumulation of the upper three axes).
  • the phoneme similarity (probability) L (probability) to the unknown 9-electrode (or minority after ICA) line spectrum time series is used.
  • k) can be calculated (step S4, step S14, step S15).
  • the meaning of Max means to take the maximum value for q (electrode or ICA component).
  • ⁇ > indicates an inner product operation.
  • X (q, f, n') and ⁇ (f, n') are each normalized by norms in advance.
  • a phoneme-based convolution operator is constructed using the phoneme eigenvector ⁇ (f, n'), and a scalar value L (k) as a likelihood is obtained for each phoneme k.
  • a vector in which K of these are arranged is output from the language feature extraction unit 5 as time-series data (phoneme likelihood vector) as the time n'of the input X (f, n') changes (step S5, step S16). ).
  • FIG. 13 shows an example in which the likelihood of a syllable (L (go), L (ro), ...) Is obtained from the likelihood of a phoneme (L (g), L (o), ...) And displayed.
  • the likelihood of syllables when consecutive numbers (“1,2,3,4,5,6,7,8,9,0") are recalled in this order is shown in shades.
  • the vertical axis shows syllables (i, chi, ni, sa, N, yo, o, go, ro, ku, na, ha, kyu, u, ze, e, noise). It can be seen that the likelihood of the syllables constituting the continuous numbers is obtained with a high value.
  • DCN deep convolutional network
  • the word / sentence recognition unit 6 recognizes a word / sentence from the time series data of the phoneme feature vector (to be exact, the phoneme likelihood vector time series data).
  • a method using a hidden Markov model (HMM) that has been put into practical use in the field of speech recognition (in which triphon including the context of phonemes is used) and a method using a deep neural network (LSTM etc.) can be applied.
  • linguistic information probability regarding word sequence
  • the use of "spotting processing" that continuously searches for words and sentences in the time direction, which is performed in the current robust voice system, improves performance even in voice recall. It is effective for.
  • the post-processing / output unit 7 receives the word (column) of the recognition result and performs necessary display display and voice output.
  • the word (column) of the recognition result receives the word (column) of the recognition result and performs necessary display display and voice output.
  • feedback is given to the user whether or not the multi-electrode brain wave sensor is in the correct position, and the user uses the screen of a terminal such as a smartphone or voice instruction.
  • a terminal such as a smartphone or voice instruction.
  • the post-processing / output unit 7 displays a screen that assists in adjusting the optimum position of the electrode group while recalling the voice.
  • the post-processing / output unit 7 can display a display, and FIG. 14 shows a display screen displayed by the post-processing / output unit 7.
  • the user adjusts the position of the electrode group while looking at the screen shown in FIG.
  • the test voice recall such as "Mr. Yamada”
  • the brain wave is input from the brain wave input unit 2
  • the color and the size of ⁇ are displayed on the screen displayed by the post-processing / output unit 7.
  • Gradation intensity (example in the figure), etc. can indicate the accuracy of the recognition result.
  • FIG. 14 shows a display screen displayed by the post-processing / output unit 7.
  • the first electrode position (1) is displayed in white
  • the next electrode position (2) is displayed in light gray
  • the next electrode position (3) is displayed in gray
  • the next electrode position ( In 4) it is displayed in dark gray
  • the next position (5) it is displayed in light gray. Therefore, the user can know that the electrode position (4) is the optimum electrode position. While observing the difference in accuracy in chronological order, an example was shown in which the sensor position is moved in the direction in which the correct answer is obtained to provide a function to correct the accuracy.
  • the voice recall recognition device 1 shown in FIG. 1 can be configured by a mobile terminal. Further, the voice recall recognition device 1 can be configured by a server. At this time, the voice recall recognition device 1 may be composed of a plurality of servers. Further, the voice recall recognition device 1 can also be configured by a mobile terminal and a server. A part of the processing of the voice recall recognition device 1 can be processed by the mobile terminal, and the remaining processing can be processed by the server. At this time, the server can also be configured by a plurality of servers.
  • the voice recall recognition device 1 includes an electroencephalogram input unit 2, a preprocessing unit 3, an analysis processing unit, a language feature extraction unit 5, a word / sentence recognition unit 6, and a post-processing / output unit 7.
  • the voice recall recognition device may include a fitting and a group of electrodes.
  • FIG. 15 is a diagram showing another configuration example of the voice recall recognition device.
  • the voice recall recognition device 10 includes a wearer 11, a mobile terminal 12, and a server 13.
  • the wearing tool 11 is a wearing tool for a voice recall recognition device that recognizes a spoken language from brain waves at the time of voice recall.
  • the fitting 11 includes a sheet portion 21 that holds the electrode group 22, an electrode group 22 that is arranged around the broker field, and a processing unit 23 that outputs a signal from the electrode group 22.
  • the electrode group 22 is composed of 9 electrodes as described above, but the number of electrodes is not limited.
  • the processing unit 23 may have a communication function, and can perform some or all processing of the voice recall recognition device 1 shown in FIG.
  • the processing unit 23, the mobile terminal 12, and the server 13 of the mounting tool 11 are composed of, for example, a computer having a CPU (Central Processing Unit), a memory, a ROM (Read only memory), a hard disk, and the like.
  • the terminal 12 can perform a part or all of the processing of the voice recall recognition device 1 shown in FIG.
  • the server 13 can perform some or all processing of the voice recall recognition device 1 shown in FIG.
  • the voice recall recognition method of recognizing the spoken language from the brain wave at the time of voice recall is executed by the wearer 11, the mobile terminal 12 and / or the server 13, and the wearer 11, the mobile terminal 12 and / or the server 13 are used alone or in cooperation with each other. Can work and run.
  • the voice recall recognition method can be executed by the mobile terminal 12 and the server 13.
  • a program for causing a computer to execute a voice recall recognition process for recognizing a voice language from brain waves at the time of voice recall is downloaded or stored in the hard disk or the like, and the brain waves for each electrode input to the computer from the electrode group.
  • An analysis process that analyzes a discrete signal group and outputs a spectral time series, and an extraction process that extracts a phonetic feature vector time series based on the spectrum components of each electrode are executed.
  • FIG. 16 is a diagram showing another configuration example of the voice recall recognition device.
  • the voice recall recognition device 20 includes a fitting 11 and a server 13.
  • the configuration of the fitting 11 is as described with reference to FIG. 15, but the processing unit 23 of the fitting 11 has a function of directly communicating with the server 13.
  • the function of the voice recall recognition device can be realized by the fitting 11 directly exchanging information with the server 13.
  • FIG. 17 is a diagram showing another configuration example of the voice recall recognition device.
  • the voice recall recognition device 30 is composed of a fitting 11. Since the processing unit 23 of the attachment 11 realizes all the functions of the voice recall recognition device 30 shown in FIG. 1, the voice recall recognition device can be realized only by the attachment 11.
  • the line spectrum component group represented by the language can be directly extracted from the brain wave at the time of speech recall and further converted into the phoneme feature vector time series. Therefore, the current speech recognition framework can be used. There is an advantage that can be utilized.
  • Appendix 1 It is a voice recall recognition method that recognizes spoken language from brain waves at the time of speech recall.
  • An analysis processing step that analyzes and processes a discrete signal group of brain waves for each electrode input from the electrode group and outputs a spectral time series.
  • An extraction step that outputs a phoneme feature vector time series based on the spectral time series, Voice recall recognition method including.
  • Appendix 2 The voice recall recognition method according to Appendix 1, further comprising an input step of converting an electroencephalogram input from an electrode group into a discrete signal group.
  • Appendix 3 Appendix 1 or Appendix 2 further includes a preprocessing unit that performs processing for removing noise in the brain wave by subtracting the average noise amplitude spectrum from the spectrum of the voice recall signal obtained by converting the discrete signal group for each electrode into the frequency domain.
  • Appendix 4 The voice recall recognition method according to Appendix 3, further comprising a step of performing an independent component analysis for extracting a small number of independent information sources from each electrode signal after noise removal.
  • Appendix 5 The speech recall recognition method according to any one of Appendix 1 to Appendix 4, further comprising a recognition step of recognizing the spoken language based on the phoneme feature vector time series.
  • Appendix 6 The voice recall recognition method according to any one of Supplementary note 1 to Supplementary note 5, further comprising an output step of outputting the recognized spoken language.
  • Appendix 7 The voice recall recognition method according to Appendix 6, further comprising a step of displaying a screen that assists in adjusting the optimum position of the electrode group while recalling the voice.
  • Appendix 8 The speech recall recognition method according to any one of Supplementary notes 1 to 7, wherein the analysis processing step extracts the spectral time series by applying linear prediction analysis.
  • Appendix 9 The voice recall recognition method according to any one of Supplementary note 1 to Supplementary note 8, wherein the analysis processing step includes a step of absorbing frequency fluctuations based on the discrete signal for each electrode.
  • the speech recognition recognition device wearing tool, method, and program of the present invention, it is possible to directly convert the brain wave at the time of speech recall into a line spectrum group and a phoneme feature group as language representations.
  • a spoken language capable of BCI can be provided in the framework of speech recognition.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Molecular Biology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Pathology (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Surgery (AREA)
  • Psychology (AREA)
  • Psychiatry (AREA)
  • Biomedical Technology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

脳波による音声言語認識を可能とする音声想起認識装置を提供する。 本発明は、音声想起時の脳波から音声言語を認識する音声想起認識装置1であって、電極群22から入力される脳波を離散信号群に変換する脳波入力部2と、電極群22から入力される前記電極毎の脳波の離散信号群を分析処理してスペクトル時系列を出力する分析処理部4と、前記スペクトル時系列に基づき、音素特徴ベクトル時系列を出力する言語特徴抽出部5と、前記音素特徴ベクトル時系列に基づき、前記音声言語を認識する単語・文認識部と、前記単語・文認識部6で認識した音声言語を出力する後処理・出力部7とを有する。

Description

音声想起認識装置、装着具、音声想起認識方法及びプログラム
 本発明は、音声想起認識装置、装着具、音声想起認識方法及びプログラムに関するものである。
 音声言語入力装置は、これまで発話された音声波をマイクロホン、もしくは骨伝導の振動を振動ピックアップで受け、得られた信号から音声言語情報を認識するものが実用に供されている。
近年は、膨大な音声データおよび言語データを利用し、音素の並び(音響モデル)と単語の並び(言語モデル)に関する確率情報をネットワーク上に蓄積・利用することで、高速・高性能な音声言語認識を実現している。他方、発話による周囲への迷惑・漏洩、発話困難な筋委縮性側索硬化症(ALS)患者などの増大から、発話を伴わない、音声想起(speech imagery)による言語認識実現が脳コンピュータ・インタフェース(Brain Computer Interface;BCI)の分野から望まれている。
 音声想起信号からの音声言語認識は、脳皮質から硬膜下皮質表面電位(Electrocorticogram ;ECoG)を64~128点観測することで、近年、発話を伴う場合の音声言語認識が試みられつつある(非特許文献1参照)。しかし、このように開頭手術を伴う方法は、重篤な患者以外に利用することは現実的ではない。他方、頭皮上の電極で脳波(Electroencephalogram:EEG)を観測する方式は、実用化すると社会貢献が計り知れないものの、今日まで、雑音中に意味のある音声言語信号を見出す試みは成功して来なかった。
 近年は、PET、fMRIなど高解像度装置を用いて発話時の脳を解析したり、開頭時に患者が発話した際のECoGを観測する研究が進み、音声言語が脳の何処の部位で処理されるかが、明確になりつつある。これらの結果によると、左中側頭回(MTG)における概念準備の後、言語としてのプランニングが左上側頭回(STG)にかけて行われるとされている(非特許文献2参照)。この後、左下前頭回(IFG; ブローカ野)において音節化(syllabication)が行われ、発話の際には左中心前回(PG; 運動野)で調音(構音)が行われる(非特許文献3参照)。こうした研究成果から、発話を伴わない音声言語に対するディコーディング(復号)も、ブローカ野に到達する言語表象(linguistic representation)を捉えることができるなら可能になると期待されている。
 また、脳波を検出して、この脳波から運動指令に関する信号を検出する技術が提案されている(特許文献1参照)
Heger D. et al., Continuous Speech Recognition from ECoG, Interspeech2015, 1131-1135 (2015) Indefrey, P et al., The spatial and temporal signatures of word production components, Cognition 92, 101-144 (2004) Bouchard K.E. et al., Functional organization of human sensorimotor cortex for speech articulation, Nature 495, 327-332 (2013) Girolami M., Advances in Independent Component Analysis, Springer (2000) Durbin, J. "The fitting of time series models." Rev. Inst. Int. Stat., v. 28, pp. 233-243 (1960)
特開2008-204135号公報
 しかしながら、脳波からの音声言語認識では、言語表象がどのようなフォーマットで表現されているのか不明で、具体的な抽出方法を見出せないことが最大の問題点である。さらに、言語表象から音素単位への変換方法が与えられないと、例えば音節単位のように多くの種類を対象にしなければならないため(音節では短音節の他に多くの長音節を持ち、計数千個と言われる)、効率の良い音声言語処理が非常に困難になる(音素では日本語で24個、英語で44個(但し、弱母音と強母音を分けている。日本語では通常、分けない)程度である)。
 本発明は、上記事情に鑑みてなされたものであり、脳波による音声言語認識を可能とする音声想起認識装置、装着具、音声想起認識方法及びプログラムを提供することを目的とする。
 上記目的を達成するために、本発明は、音声想起時の脳波から音声言語を認識するため、言語表象としての線スペクトル成分抽出器により線スペクトル成分を抽出すると共に、それらの成分を音素別畳み込み演算などを用いた音素特徴ベクトル時系列変換器に通すことで、音素特徴ベクトル時系列を得ることを最も主要な特徴とする。
 第1の発明は、音声想起時の脳波から音声言語を認識する音声想起認識装置であって、電極群から入力される前記電極毎の脳波の離散信号群を分析処理してスペクトル時系列を出力する分析処理部と、前記スペクトル時系列に基づき、音素特徴ベクトル時系列を出力する抽出部と、を有する音声想起認識装置が提供される。
 第2の発明は、音声想起時の脳波から音声言語を認識する音声想起認識装置用の装着具であって、ブローカ野周辺に配置される電極群と、前記電極群からの信号を出力する出力部と、を有し、前記音声想起認識装置は、前記出力部から出力される前記電極毎の脳波の離散信号群を分析処理してスペクトル時系列を出力する分析処理と、前記スペクトル時系列に基づき、音素特徴ベクトル時系列を出力する抽出処理と、を実行する、装着具が提供される。
 第3の発明は、音声想起時の脳波から音声言語を認識する音声想起認識方法であって、電極群から入力される前記電極毎の脳波の離散信号群を分析処理してスペクトル時系列を出力する分析処理ステップと、前記スペクトル時系列に基づき、音素特徴ベクトル時系列を出力する抽出ステップと、を含む音声想起認識方法が提供される。
 第4の発明は、コンピュータに、音声想起時の脳波から音声言語を認識する音声想起認識処理を実行させるためのプログラムであって、コンピュータに、電極群から入力される前記電極毎の脳波の離散信号群を分析処理して言語表象としてのスペクトル成分を出力する分析処理と、前記電極毎のスペクトル成分に基づき、音素特徴群を抽出する抽出処理と、を実行させるプログラムが提供される。
 本発明によれば、脳波による音声言語認識を可能とする音声想起認識装置、装着具、音声想起認識方法及びプログラムを提供することができる。
本発明の認識装置の構成を示したモデル図である。 脳波測定電極(10-10システム)とブローカ野周辺9電極を示す図である。 脳波からのノイズ除去効果を示す図である。 音声想起時脳波の線形予測分析の説明図である。 音声想起時脳波の線形予測分析と従来フーリエ分析との比較を示す図である。 音声想起時脳波の短時間正弦波群を示す図である。 言語特徴抽出部の処理手順を示すフロー図である。 音声想起時脳波の周波数変動吸収例を示した図である。 音声想起時脳波の線スペクトル時系列の例を示す図である。 複数電極に跨る線スペクトル時系列の例を示した図である。 音素別畳み込み演算子の設計と利用の処理手順を示すフロー図である。 音素別畳み込み演算子を構成する音素固有ベクトルの例を示す図である。 音声想起時脳波に対する音素尤度時系列の例を示した図である。 テスト認識による電極位置更正を示す図である。 音声想起認識装置の他の構成例を示す図である。 音声想起認識装置の他の構成例を示す図である。 音声想起認識装置の他の構成例を示す図である。
(実施形態)
 以下、本発明における音声想起認識装置の実施形態について、添付図面を参照して説明する。なお、添付図面は本発明の技術的特徴を説明するのに用いられており、記載されている装置の構成、各種処理の手順などは、特に特定的な記載がない限り、それのみに限定する趣旨ではない。なお、実施形態の説明の全体を通して同じ要素には同じ符号が付される。
 図1は、音声想起認識装置1の構成を示したモデル図である。図1を参照して、音声想起認識装置1の構成と動作を説明する。
 音声想起認識装置1は、音声想起時の脳波から音声言語を認識するためのものである。
音声想起認識装置1は、図示しない頭皮上に設置する電極群から入力される脳波を離散信号群に変換する脳波入力部2と、電極毎に離散信号からノイズを除去する前処理部3と、電極毎に離散信号群を分析処理してスペクトル時系列を出力する分析処理部4と、全電極のスペクトル時系列から音素特徴ベクトル時系列を出力する言語特徴抽出部5と、音素特徴ベクトル時系列から音声言語である単語・文を認識する単語・文認識部6と、音声言語情報を表示・音声出力する後処理・出力部7により構成される。
 脳波入力部2は、多電極脳波出力のアナログ信号群x(q,t)をA/D変換等により離散的信号に変換すると共に、全電極の離散信号の平均値などを利用して、個別電極が持つバイアスの偏りを更正する処理を行う。同時に電極毎の離散信号から、70Hz以下の不要な周波数成分を低周波除去フィルタ(高域通過フィルタ)で遮断すると共に、180Hz以上の不要な周波数成分を高周波除去フィルタ(低域通過フィルタ)により遮断した信号x1(q,n)を出力する。
 図2に64電極を用いる標準的な国際10-10システムの電極配置を示す。このうち、左脳のブローカ野周辺に属する9電極{F3,F5,F7,FC3,FC5,FT7,C3,C5,T7}から音声想起信号を受け取り、言語特徴を抽出して想起内容を認識する。一般に右利きの人は、左脳で言語を処理していると言われているが、左利きのかなりの人が、やはり左脳で言語を処理しているとされている。なお、脳波では、瞬きなどの動作により大きな変動(artifactと呼ばれる)を受けることがあるが、上記フィルタ操作により多くの不要成分を除去することができる。さらにフィルタ操作では除去できない不要成分に対しては、全電極の離散信号に対して、少数の独立した情報源を推定して除去した後、元の電極出力(ここでは9電極)に戻す処理を行う、独立成分分析(Independent Component Analysis;IPA)を適用してもよい。
 前処理部3は、電極毎にフィルタを通過するノイズを除去する。この処理の一例を以下に述べる。脳波入力部の一連の処理を終えた各電極の離散信号x1(q,n)、(q:電極番号、n:時刻)に対して、まず一定の時間窓を掛けた後、高速フーリエ変換(FFT)により時間領域から周波数領域に写像する。続いて、周波数領域の複素数成分から以下のように振幅スペクトラム時系列X1(q,f,n’)、(fは周波数、n’は窓かけ後の時間フレーム番号) を求める。
Figure JPOXMLDOC01-appb-M000001
Figure JPOXMLDOC01-appb-M000002
ここで、jは虚数単位、Re{ }、Im{ }は各々実数部、虚数部を表す。ノイズ引き去り(Noise subtraction)では、音声想起(Speech imagery)に先立ち観測した脳波(EEG信号)のスペクトルN(q,f,n’)から次式で、平均ノイズ振幅スペクトルを求める。
Figure JPOXMLDOC01-appb-M000003
 上式では平均ノイズスペクトラムを、時刻n’の前後8フレームから計算しているが、システムにより適せん設定してよい。なお、時刻n’の設定は、通常、
(a)音声想起認識応用システムから与えられる、プロンプト信号(想起開始を指示する信号)に続いて利用者が音声想起を行う。
(b)利用者から応用システムへの決められた呼びかけ「Yamadaさん」など(wake-up word)に続き音声想起を行う。
の二通りが考えられるが、何れの場合も音声想起の前、あるいは後の区間で観測した脳波からN(q,f,n’)を計算する。
 続いて電極q 毎に、音声想起信号のスペクトラムX1(q, f, n’)から、Nav(q,f,n’)を次式のように引き去る。
Figure JPOXMLDOC01-appb-M000004
 この処理により脳波中のノイズを除去した例を図3に示す。図3(A)はノイズ除去前、同図(B)はノイズ除去後を示す。図3(A)と(B)を比べると、ノイズのスペクトラムを引き去る効果が顕著であることが分かる。ノイズ除去後の振幅スペクトル時系列は、逆高速フーリエ変換(IFFT)により、波形x2(q,n)に戻す。
 なお、ノイズ除去後の9電極信号から、少数の独立した情報源を取り出す処理、即ち独立成分分析(Independent Component Analysis;IPA)(非特許文献4)が有効である。この処理により、前記フィルタ操作では除去できない不要成分を除けると共に、9電極の離散信号から有効な少数の情報源を選択できる。ただしICAは,分析結果の独立成分の順番が、分析の都度異なる所謂パーミュテーションという問題があり、この欠点を解消して本特許に導入する方法について後に説明する。
 分析処理部4は、前処理部3で得たノイズ除去後(かつq個の独立成分抽出後)の音声想起信号のスペクトラム時系列X2(q,f,n’)を用いてもよいが、本発明の効果をより良く引き出す分析方式として、以下に線形予測分析(Linear Predictive Analysis;LPA)を適用した例を説明する。分析処理部4は、スペクトラム又は線スペクトラムを用いることができる。
 線形予測符号化(Linear Predictive Coding;LPC)は、音声通信方式として、現在、世界標準になっている。音声では情報源が声帯による一定周期のパルス波と声道の狭めによるランダム波の二つになる。このため、音源を符号帳(codebook)として別途保持し、符号帳の全ての音源を音声の線形予測係数(声道の伝達関数を担う)に通し、この合成音声と元の音声との比較を行うという複雑な処理を必要としている。
 一方、脳波では図4に示すように情報源はランダム波のみと考えられるため、脳波合成は音声合成と比較して簡単になる。脳波x2(q,n) から得た自己相関係数r2(τ)から線形予測係数{αm }を求めるアルゴリズムはLevinson-Durbin法など種々提案されている(非特許文献4)。各電極の音声想起脳波x(n)は図4に示すように、信号源の白色雑音w(n)を神経系のインパルス応答s(n)に通して得られる。図4で☆は畳み込み積分記号を示す。
 畳み込み積分処理は、周波数領域では音声言語情報を担うインパルス応答s(n)の伝達(周波数)関数をS(f)として、脳波のスペクトルをX(f)=W(f)S(f)=S(f)と表現できる(但しW(f)=1)。S(f)は、線形予測係数{αm }のフーリエ変換から次式に示すように求めることができる。
Figure JPOXMLDOC01-appb-M000005
 ここでδ(n-p)は、信号の各時刻n=pを表わす関数、F[ ]はフーリエ変換である。脳波に対する線形予測分析(LPA)では、図4に示すように合成モデルS(f)を逆フィルタとして、
Figure JPOXMLDOC01-appb-M000006
と求めることができる(σは振幅バイアス値)。このように、合成過程を通して分析を精度良く行う方式は、「合成による分析(Analysis-by-Synthesis; AbS)」と呼ばれ、脳波分析においても有効な方式である。上式のフーリエ変換F[ ]では、p個の線形予測係数(α0=1.0)にゼロ点を付加し(0-paddingと呼ばれる)、例えば128点、256点、…と任意点数のフーリエ変換を行うことができる。このゼロ点付加によって、周波数分解精度を各々64点、128点、…と任意に調整して、スペクトル成分A(q,f,n’)を求めることができる。
 図5に、LPAにより分析したスペクトルパターンを、通常のフーリエ変換により分析したスペクトルパターンと比較して示す。図5でLPAによるスペクトルパターンが複数表示されているが、これらは自己相関係数に対して遅れτが大きくなるに従い、値を減衰させるlog窓と呼ばれる窓関数を使用していることを示す(上からlag窓なし、下に行くほどlag窓の傾斜は大で、log窓を用いない場合は鋭いピークとなる)。LPAでは図に示すように、スペクトルを脳波が持つ本質的な少数のピークで表現することができる。
 LPA分析を通した音声想起時脳波のスペクトルが、少数のスペクトルピークで表現される。このことから、脳(特に、音声想起の言語情報が現れるブローカ野)においては、言語表象(linguistic representation)は短時間正弦波(tone-burst)群から構成されている、言い換えると言語表象は特有の線スペクトルで表わされると推定される。図6にトーンバースト波群とそれらのスペクトル形状の例を示す。短時間正弦波は、本来、単一パラメータすなわち単一周波数で表わされるが、図に示したように(また図5に示したように)、信号の前後に過渡部を持つことで通常の周波数分析ではスペクトルに広がりを持つ。
 言語特徴抽出部5は、広がりを持つスペクトル群から、線スペクトル成分を「言語表象」として取り出すと共に、音素単位畳み込み演算子を通して、言語特徴である音素尤度ベクトル時系列を出力する。
 以下、図7の言語特徴抽出部の処理フロー図に沿って処理過程を説明する。言語特徴出部5は、分析処理部4から電極qのスペクトル時系列が入力される(ステップS1)。音声想起時脳波のスペクトラムは、図8(A)に示すように±5Hz程度の揺らぎを持つことがある。そこで、これらの周波数揺らぎを非線形フィルタリングの一種である中間値フィルタ(median filter)を用いて、周波数揺らぎを吸収する(ステップS2)。
 一定の時間幅(時刻n’の前後の数フレーム)と周波数幅(隣接周波数f-1,f,f+1)の中にあるデータを対象に、全体の中の中間値を求めて代表させる。この処理は、中央値から外れた値を削除できるため、周波数揺らぎを吸収することができる。非線形フィルタの出力は、ガウス窓などにより平滑処理を施すことが一般的である。図8(B)に70Hz~170Hzの脳波信号(4msec周期)に対して、中心フレームn’の前後3フレームの計7フレームに対して中間値フィルタ処理を行った際の周波数揺らぎの改善結果を示した。図から揺らぎが少なくなっていることが分かる。この後、周波数分析パターンに対して、時間方向にガウス窓(係数;{1/4,1/2,1/4})を掛けて平滑し、時間フレームを4msecから8msec周辺に落としている。なお、周波数揺らぎを吸収する処理は、前処理部3の中で振幅スペクトラム上でのノイズ成分引き去りを行った後、波形信号に戻す前の段階で行うことも可能である。
 次に、線スペクトルの抽出過程を説明する(ステップS3)。この処理では時間フレーム(8msec)毎に、周波数軸上に現れるピーク由来の成分を線スペクトルとして抽出する。具体的には:
 (i)  周波数軸上の極大値Δf =0となる周波数、
 (ii) 変曲点ΔΔf =0の時
    Δf >0ならΔΔf の値が正から負に変化する周波数、
    Δf <0ならΔΔf の値が負から正に変化する周波数、
これらの条件を満たす場合にのみ、元の振幅を持つ正弦波周波数成分、すなわち線スペクトル成分とする。
 図9に音声想起時の脳波の線スペクトル成分の抽出例を示す。この例では/ga-gi-gu-ge-go/を3回、できるだけ連続して想起するタスク下でデータを採取している。同じシーケンスを3回続けることで、熟練者は図に示すような各音節のパターンを学習でき、脳波データに音節ラベルを付したデータベースを作成することができる。
図9では9電極の線スペクトル時系列を、電極方向にプーリング(9電極から代表となるパターンを抽出する処理を行う。p-normを取るなどの処理(p=∞は最大値を取ることに相当))の処理を行い、統合した線スペクトルを対象に音節ラベリングを行った結果を示している。ここでのプーリング処理は音節ラベルを読み取るだけのために行っており、以下の音素特徴抽出では元の9電極の線スペクトル成分を対象にしている。
 言語特徴抽出部5は、最終的に音素特徴を抽出することを目的としている。すなわち、電極毎の線スペクトル成分から、音声言語情報として最小の単位である音素(phoneme)成分を音素特徴ベクトルの形で取り出すことを目指す。脳波中の音声言語情報は、線スペクトル(周波数情報) - 電極(空間情報) - フレーム(時間情報)の三つの軸に跨る、所謂テンソル構造を持つ。ブローカ野の3×3=9電極に跨る線スペクトル時系列の例を図10に示す。この例は単音節/ka/の例を示している。このように、ブローカ野に現れる音節パターンは、現れる電極位置がその都度異なり、脳神経系の柔軟な情報処理メカニズムを窺わせる。一方、脳の音声言語処理では発話の最小単位として音節がブローカ野に現れるが、発話の際には発話器官を筋動作で制御しており、この制御は音素と一対一に対応する調音パラメータで行われる。こうした背景を考えると、ブローカ野で観測される図10の音節パターンから、音素特徴を抽出する過程が存在すると考えられ、この過程をコンピュータ上で実現する方法を図11の音素別畳み込み演算子の設計と利用の処理手順を示すフローに従い以下に説明する。
 図11のフローは、9電極の周波数-時間パターンから、音素を効率的に抽出するため、音素別畳み込み演算子による音素尤度ベクトルの算出を示している。まず同じ音素コンテクストに属する音節(音素/s/では/sa/,/shi/,/su/,/se/,/so/,あるいは音素/a/では/a/,/ka/,/sa/,/ta/,/na/,/ha/,….,/ga/,/za/,… など)をメモリ上に蓄積しておく(ステップS11)。この蓄積された情報を出し入れして必要な情報処理に利用する手法はプーリングと呼ばれる。
 次に、音節毎に主成分分析を行い(ステップS12)、音節毎の固有ベクトルを関連音素毎に、音素/s/:{ψ/sa/(m),ψ/shi/(m),ψ/su/(m),ψ/se/(m),ψ/so/(m)}、音素/a/:{ψ/a/(m),ψ/ka/(m),ψ/sa/(m),ψ/ta/(m),ψ/na/(m),….} のように音素グループ化する。続いて、同じ音素グループの固有ベクトルから自己相関行列を計算して、音素別自己相関行列Rs,Ra,・・・へ統合する(ステップS13)。音素別自己相関行列からは、音素別の部分空間(固有ベクトル)φ/s/(m), φ/a/(m)を求めることができる。図12に音素/s/と/a/の固有ベクトル(上位3軸の累積を表示)を示した。
 次に、音素k毎に得られる固有ベクトル群を「音素単位畳み込み演算子」として使用することで、未知の9電極(もしくはICA後の少数)線スペクトル時系列に対する音素類似度(尤度)L(k)を計算することが出来る(ステップS4、ステップS14、ステップS15)。
Figure JPOXMLDOC01-appb-M000007
 ここでMaxの意味はq個(電極もしくはICAの成分)について最大値を取ることを意味している.また< >は内積演算を示す。なお,X(q,f,n’)およびφ(f,n’)は各々予めノルムで正規化されている。
音素k;k=1, 2,…, Kの尤度L(k)をK個並べたベクトルを音素特徴ベクトルとする。(7)式は、音素の固有ベクトルφ(f,n’)を利用して音素単位の畳み込み演算子を構成しており、音素k毎に尤度としてのスカラー値L(k)が得られ、これをK個並べたベクトルが、入力X(f,n’)の時刻n’が推移するに従い(音素尤度ベクトル)時系列データとして言語特徴抽出部5から出力される(ステップS5、ステップS16)。
 図13に音素の尤度(L(g),L(o),…)から音節の尤度(L(go),L(ro),…)を求めて表示した例を示した。この例は連続数字(”1,2,3,4,5,6,7,8, 9,0”)をこの順で想起した際の音節の尤度を濃淡で示している。縦軸に音節(上からi,chi,ni,sa,N,yo,o,go,ro,ku,na,ha,kyu,u, ze,e,noise)を示した。連続数字を構成する音節の尤度が高い値で求められていることが分かる。
 なお、音声想起データは大量に収集することが、現時点では困難なため、ここでは音素畳み込み演算子の形で問題を解決する例を示した。しかし,音声想起に関する脳データベースが今後充実するに従い、近年、画像処理等の分野で多用される、深層畳み込みネットワーク(Deep Convolutional Net.;DCN)などを、音素別畳み込み演算子の代わりに用いることが可能である。
 単語・文認識部6は、音素特徴ベクトルの時系列データ(正確には音素尤度ベクトル時系列データ)から単語・文を認識する。単語・文の認識は、音声認識の分野で実用化されている隠れマルコフモデル(HMM)を用いる方法(この中では音素の前後コンテクストを含むtriphonが利用される)、深層ニューラルネットワークを用いる方法(LSTMなど)を応用することができる。また、現行の音声認識のメリットである言語情報(単語の並びに関する確率)も同様に利用可能である。さらに、音声想起では時間軸のズレが問題になるが、現行の頑健な音声システムで行われる、時間方向に単語・文を連続して探索する「スポッティング処理」の利用が、音声想起でも性能向上に効果的である。
 後処理・出力部7は、認識結果の単語(列)を受け必要なディスプレィ表示や音声出力を行う。ここでは、予め決められた単語・文の音声想起認識結果から、多電極の脳波センサーが正しい位置にあるか否かを利用者にフィードバックし、利用者がスマートフォン等の端末の画面や音声指示により、脳波センサーを動かすことによって、適正な位置を知ることを支援する機能を持たせることができる。
 後処理・出力部7は、音声想起しながら、電極群の最適位置を調整することを支援する画面を表示する。この後処理・出力部7は、ディスプレィ表示を行うことができ、図14は後処理・出力部7が表示するディスプレィ画面を示している。利用者は、図14に示す画面を見ながら電極群の位置を調整していく。
 図14に示すように、テスト音声想起(”山田さん”など)を音声想起すると、脳波入力部2より脳波が入力され、後処理・出力部7が表示する画面に、色、〇の大きさ、グラディーションの濃さ(図の例)等で認識結果の精度を示すことができる。図14では、最初の電極位置(1)では白色で表示され、次の電極位置(2)では薄いグレーで表示され、次の電極位置(3)ではグレーで表示され、さらに次の電極位置(4)では濃いグレーで表示され、次の位置(5)では薄いグレーで表示されている。したがって、電極位置(4)が最適な電極位置であることを利用者は知ることができる。精度の違いを時系列で見ながら、正解が出る方向にセンサー位置を移動させ更正する機能を持たせる例を示した。
 図1で示した音声想起認識装置1は、携帯端末によって構成することができる。また、音声想起認識装置1は、サーバによって構成することができる。このとき、音声想起認識装置1は、複数のサーバによって構成されていてもよい。また、音声想起認識装置1は、携帯端末とサーバとによって構成することもできる。音声想起認識装置1の一部の処理を携帯端末で、残りの処理をサーバによって処理することができる。このときも、サーバは複数のサーバによって構成することもできる。
 また、音声想起認識装置1は、図1に示したように、脳波入力部2、前処理部3、分析処理部、言語特徴抽出部5、単語・文認識部6、後処理・出力部7によって構成されていたが、音声想起認識装置に、装着具と電極群を含めるようにしてもよい。
 図15は、音声想起認識装置の他の構成例を示す図である。
 図15に示すように、音声想起認識装置10は、装着具11、携帯端末12、サーバ13を備える。装着具11は、音声想起時の脳波から音声言語を認識する音声想起認識装置用の装着具である。装着具11は、電極群22を保持するシート部21、ブローカ野周辺に配置される電極群22と、電極群22からの信号を出力する処理部23と、を有する。電極群22は、上述したように9電極から構成されているが、電極数は限定されない。処理部23は、通信機能を有していてもよく、図1で示した音声想起認識装置1の一部又は全部の処理を行うことができる。
 装着具11の処理部23、携帯端末12及びサーバ13は、例えば、CPU(Central Processing Unit)、メモリ、ROM(Read only memory)及びハードディスク等を有するコンピュータによって構成されている。端末12は、図1で示した音声想起認識装置1の一部又は全部の処理を行うことができる。サーバ13は、図1で示した音声想起認識装置1の一部又は全部の処理を行うことができる。
 音声想起時の脳波から音声言語を認識する音声想起認識方法は、装着具11、携帯端末12及び/又はサーバ13によって実行され、装着具11、携帯端末12及び/又はサーバ13は単独で又は協働して実行することができる。音声想起認識方法は、携帯端末12とサーバ13とによって実行することができる。
 コンピュータに、音声想起時の脳波から音声言語を認識する音声想起認識処理を実行させるためのプログラムは、上記ハードディスク等にダウンロード又は記憶され、上記コンピュータに、電極群から入力される電極毎の脳波の離散信号群を分析処理してスペクトル時系列を出力する分析処理と、電極毎のスペクトル成分に基づき、音素特徴ベクトル時系列を抽出する抽出処理と、を実行させる。
 図16は、音声想起認識装置の他の構成例を示す図である。
 図16に示すように、音声想起認識装置20は、装着具11とサーバ13とにより構成されている。装着具11の構成は、図15で説明した通りであるが、装着具11の処理部23は、サーバ13と直接通信する機能を有する。装着具11が直接サーバ13と情報のやりとりを行うことにより、音声想起認識装置の機能を実現することができる。
 図17は、音声想起認識装置の他の構成例を示す図である。
 図17に示すように、音声想起認識装置30は、装着具11から構成されている。装着具11の処理部23が、図1で示した音声想起認識装置30のすべての機能を実現することにより、装着具11だけによって音声想起認識装置を実現することができる。
 以上、本実施形態によれば、音声想起時の脳波から直接、言語表象しての線スペクトル成分群を抽出し、さらに音素特徴ベクトル時系列へ変換することが出来るため、現行の音声認識の枠組みを活用できるという利点がある。
 なお、以上の実施形態に関し、更に以下の付記を開示する。
(付記1)
 音声想起時の脳波から音声言語を認識する音声想起認識方法であって、
 電極群から入力される前記電極毎の脳波の離散信号群を分析処理してスペクトル時系列を出力する分析処理ステップと、
 前記スペクトル時系列に基づき、音素特徴ベクトル時系列を出力する抽出ステップと、
 を含む音声想起認識方法。
(付記2)
 電極群から入力される脳波を離散信号群に変換する入力ステップを更に含む、付記1に記載の音声想起認識方法。
(付記3)
 前記電極毎の離散信号群を周波数領域に変換した音声想起信号のスペクトラムから平均ノイズ振幅スペクトルを差し引くことにより前記脳波中のノイズを除去する処理を行う前処理部を更に含む、付記1又は付記2に記載の音声想起認識方法。
(付記4)
 前記ノイズ除去後の各電極信号から少数の独立した情報源を取り出す独立成分分析を行うステップを更に含む付記3に記載の音声想起認識方法。
(付記5)
 前記音素特徴ベクトル時系列に基づき、前記音声言語を認識する認識ステップを更に含む、付記1から付記4のいずれかに記載の音声想起認識方法。
(付記6)
 前記認識した音声言語を出力する出力ステップを更に含む、付記1から付記5のいずれかに記載の音声想起認識方法。
(付記7)
 前記音声想起しながら前記電極群の最適位置を調整することを支援する画面を表示するステップを更に含む、付記6に記載の音声想起認識方法。
(付記8)
 前記分析処理ステップは、線形予測分析を適用することにより前記スペクトル時系列を抽出する、付記1から付記7のいずれかに記載の音声想起認識方法。
(付記9)
 前記分析処理ステップは、前記電極毎の離散信号に基づき、周波数揺らぎを吸収するステップを含む、付記1から付記8のいずれかに記載の音声想起認識方法。
(付記10)
 前記分析処理ステップは、時間フレーム毎に、周波数軸上のピーク由来の周波数を線スペクトル成分として抽出する、付記1から付記9のいずれかに記載の音声想起認識方法。
(付記11)
 前記抽出ステップは、所定の畳み込み演算子を用いて言語特徴である音素尤度ベクトル時系列を出力する、付記1から付記10のいずれかに記載の音声想起認識方法。
(付記12)
 前記音声想起認識方法は、携帯端末、サーバ又は携帯端末及びサーバによって実行される、付記1から付記11のいずれかに記載の音声想起認識方法。
(付記13)
 装着具に設けられるブローカ野周辺に配置される電極群からの信号を出力する出力ステップを更に含む、付記1から付記12のいずれかに記載の音声想起認識方法。
 かくしてこの発明の音声想起認識装置、装着具、方法、プログラムによれば、音声想起時の脳波から直接、言語表象としての線スペクトル群と音素特徴群へ変換することが可能になるので、現行の音声認識の枠組みにBCIできる音声言語を提供することができる。
 1 音声想起認識装置
 2 脳波入力部
 3 前処理部
 4 分析処理部
 5 言語特徴抽出部
 6 単語・文字認識部
 7 後処理・出力部

Claims (17)

  1.  音声想起時の脳波から音声言語を認識する音声想起認識装置であって、
     電極群から入力される前記電極毎の脳波の離散信号群を分析処理してスペクトル時系列を出力する分析処理部と、
     前記スペクトル時系列に基づき、音素特徴ベクトル時系列を出力する抽出部と、
     を有する音声想起認識装置。
  2.  電極群から入力される脳波を離散信号群に変換する脳波入力部を更に有する、請求項1に記載の音声想起認識装置。
  3.  前記電極毎の離散信号群を周波数領域に変換した音声想起信号のスペクトラムから平均ノイズ振幅スペクトルを差し引くことにより前記脳波中のノイズを除去する処理を行う前処理部を更に有する、請求項1又は請求項2に記載の音声想起認識装置。
  4.  前記前処理部は、前記ノイズ除去後の各電極信号から少数の独立した情報源を取り出す独立成分分析を行う請求項3に記載の音声想起認識装置。
  5.  前記音素特徴ベクトル時系列に基づき、前記音声言語を認識する認識部を更に有する、請求項1から請求項4のいずれか1項に記載の音声想起認識装置。
  6.  前記認識部で認識した音声言語を出力する出力部を更に有する、請求項1から請求項5のいずれか1項に記載の音声想起認識装置。
  7.  前記出力部は、前記音声想起しながら前記電極群の最適位置を調整することを支援する画面を表示する、請求項6に記載の音声想起認識装置。
  8.  前記分析処理部は、線形予測分析を適用することにより前記スペクトル時系列を抽出する、請求項1から請求項7のいずれか1項に記載の音声想起認識装置。
  9.  前記分析処理部は、前記電極毎の離散信号に基づき、周波数揺らぎを吸収する処理を行う、請求項1から請求項8のいずれか1項に記載の音声想起認識装置。
  10.  前記分析処理部は、時間フレーム毎に、周波数軸上のピーク由来の周波数を線スペクトル成分として抽出する、請求項1から請求項9のいずれか1項に記載の音声想起認識装置。
  11.  前記抽出部は、所定の畳み込み演算子を用いて言語特徴である音素尤度ベクトル時系列を出力する、請求項1から請求項10のいずれか1項に記載の音声想起認識装置。
  12.  ブローカ野周辺に配置される電極群を更に有する請求項1から請求項11のいずれか1項に記載の音声想起認識装置。
  13.  頭部に装着する装着具を更に有する請求項12に記載の音声認識装置。
  14.  前記音声想起認識装置は、携帯端末、サーバ又は携帯端末及びサーバによって構成される、請求項1から請求項12のいずれか1項に記載の音声想起認識装置。
  15.  音声想起時の脳波から音声言語を認識する音声想起認識装置用の装着具であって、
     ブローカ野周辺に配置される電極群と、
     前記電極群からの信号を出力する処理部と、を有し、
     前記音声想起認識装置は、前記処理部から出力される前記電極毎の脳波の離散信号群を分析処理してスペクトル時系列を出力する分析処理と、
     前記スペクトル時系列に基づき、音素特徴ベクトル時系列を出力する抽出処理と、を実行する、装着具。
  16.  音声想起時の脳波から音声言語を認識する音声想起認識方法であって、
     電極群から入力される前記電極毎の脳波の離散信号群を分析処理してスペクトル時系列を出力する分析処理ステップと、
     前記スペクトル時系列に基づき、音素特徴ベクトル時系列を出力する抽出ステップと、
     を含む音声想起認識方法。
  17.  コンピュータに、音声想起時の脳波から音声言語を認識する音声想起認識処理を実行させるためのプログラムであって、
     コンピュータに、
     電極群から入力される前記電極毎の脳波の離散信号群を分析処理してスペクトル時系列を出力する分析処理と、
     前記電極毎のスペクトル成分に基づき、音素特徴ベクトル時系列を抽出する抽出処理と、
     を実行させるプログラム。
PCT/JP2020/020342 2019-05-23 2020-05-22 音声想起認識装置、装着具、音声想起認識方法及びプログラム WO2020235680A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP20809757.6A EP3973861A1 (en) 2019-05-23 2020-05-22 Speech imagery recognition device, wearing fixture, speech imagery recognition method, and program
CN202080037965.1A CN113873944A (zh) 2019-05-23 2020-05-22 语音联想识别装置、佩戴用具、语音联想识别方法及程序
US17/613,658 US20220238113A1 (en) 2019-05-23 2020-05-22 Speech imagery recognition device, wearing fixture, speech imagery recognition method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019097202A JP7043081B2 (ja) 2019-05-23 2019-05-23 音声想起認識装置、装着具、音声想起認識方法及びプログラム
JP2019-097202 2019-05-23

Publications (1)

Publication Number Publication Date
WO2020235680A1 true WO2020235680A1 (ja) 2020-11-26

Family

ID=73454620

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/020342 WO2020235680A1 (ja) 2019-05-23 2020-05-22 音声想起認識装置、装着具、音声想起認識方法及びプログラム

Country Status (5)

Country Link
US (1) US20220238113A1 (ja)
EP (1) EP3973861A1 (ja)
JP (1) JP7043081B2 (ja)
CN (1) CN113873944A (ja)
WO (1) WO2020235680A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101932682B1 (ko) * 2016-08-29 2019-03-20 정금진 다관식 증기 보일러

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02232783A (ja) * 1989-03-07 1990-09-14 Nippon Telegr & Teleph Corp <Ntt> 脳波トポグラフィによる音節認識装置
JPH03128041A (ja) * 1989-10-14 1991-05-31 Hajime Tamura 脳波解析装置
JP2008204135A (ja) 2007-02-20 2008-09-04 Okayama Univ 脳波−運動指令変換装置
JP2009297059A (ja) * 2008-06-10 2009-12-24 Toyota Central R&D Labs Inc 脳訓練支援装置
US20120022391A1 (en) * 2010-07-22 2012-01-26 Washington University In St. Louis Multimodal Brain Computer Interface
JP2017074356A (ja) * 2015-10-16 2017-04-20 国立大学法人広島大学 感性評価方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7054454B2 (en) * 2002-03-29 2006-05-30 Everest Biomedical Instruments Company Fast wavelet estimation of weak bio-signals using novel algorithms for generating multiple additional data frames
CN1991976A (zh) * 2005-12-31 2007-07-04 潘建强 基于音素的语音识别方法与系统
US9788043B2 (en) * 2008-11-07 2017-10-10 Digimarc Corporation Content interaction methods and systems employing portable devices
KR101783959B1 (ko) * 2009-08-18 2017-10-10 삼성전자주식회사 청력을 검사하는 휴대용 음원재생장치 및 이를 수행하는 방법
CN102781322B (zh) * 2010-06-11 2015-02-25 松下电器产业株式会社 语音听取的评价系统、及方法
WO2016011189A1 (en) * 2014-07-15 2016-01-21 The Regents Of The University Of California Frequency-multiplexed speech-sound stimuli for hierarchical neural characterization of speech processing
JP6580882B2 (ja) * 2015-06-24 2019-09-25 株式会社東芝 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム
US11717686B2 (en) * 2017-12-04 2023-08-08 Neuroenhancement Lab, LLC Method and apparatus for neuroenhancement to facilitate learning and performance
EP3731749A4 (en) * 2017-12-31 2022-07-27 Neuroenhancement Lab, LLC NEURO-ACTIVATION SYSTEM AND METHOD FOR ENHANCING EMOTIONAL RESPONSE
CN109741733B (zh) * 2019-01-15 2023-01-31 河海大学常州校区 基于一致性路由网络的语音音素识别方法
US11756540B2 (en) * 2019-03-05 2023-09-12 Medyug Technology Private Limited Brain-inspired spoken language understanding system, a device for implementing the system, and method of operation thereof
KR20210076451A (ko) * 2019-12-16 2021-06-24 현대자동차주식회사 사용자 인터페이스 시스템 및 그의 동작 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02232783A (ja) * 1989-03-07 1990-09-14 Nippon Telegr & Teleph Corp <Ntt> 脳波トポグラフィによる音節認識装置
JPH03128041A (ja) * 1989-10-14 1991-05-31 Hajime Tamura 脳波解析装置
JP2008204135A (ja) 2007-02-20 2008-09-04 Okayama Univ 脳波−運動指令変換装置
JP2009297059A (ja) * 2008-06-10 2009-12-24 Toyota Central R&D Labs Inc 脳訓練支援装置
US20120022391A1 (en) * 2010-07-22 2012-01-26 Washington University In St. Louis Multimodal Brain Computer Interface
JP2017074356A (ja) * 2015-10-16 2017-04-20 国立大学法人広島大学 感性評価方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
BOUCHARD K.E. ET AL.: "Functional organization of human sensorimotor cortex for speech articulation", NATURE, vol. 495, 2013, pages 327 - 332
DURBIN, J: "The fitting of time series models", REV. INST. INT. STAT., vol. 28, 1960, pages 233 - 243
GIROLAMI M.: "Advances in Independent Component Analysis", 2000, SPRINGER
HEGER D ET AL., CONTINUOUS SPEECH RECOGNITION FROM ECOG, INTERSPEECH, 2015, pages 1131 - 1135
INDEFREY, P ET AL.: "The spatial and temporal signatures of word production components", COGNITION, vol. 92, 2004, pages 101 - 144

Also Published As

Publication number Publication date
JP2020191021A (ja) 2020-11-26
CN113873944A (zh) 2021-12-31
JP7043081B2 (ja) 2022-03-29
US20220238113A1 (en) 2022-07-28
EP3973861A1 (en) 2022-03-30

Similar Documents

Publication Publication Date Title
Kingsbury et al. Robust speech recognition using the modulation spectrogram
Darabkh et al. An efficient speech recognition system for arm‐disabled students based on isolated words
Moselhy et al. LPC and MFCC performance evaluation with artificial neural network for spoken language identification
CN111048071B (zh) 语音数据处理方法、装置、计算机设备和存储介质
Heckmann et al. A hierarchical framework for spectro-temporal feature extraction
CN110767210A (zh) 一种生成个性化语音的方法及装置
Wand et al. Deep Neural Network Frontend for Continuous EMG-Based Speech Recognition.
Yusnita et al. Malaysian English accents identification using LPC and formant analysis
CN108198576A (zh) 一种基于语音特征非负矩阵分解的阿尔茨海默症初筛方法
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
Fazel et al. Sparse auditory reproducing kernel (SPARK) features for noise-robust speech recognition
Kandali et al. Vocal emotion recognition in five native languages of Assam using new wavelet features
WO2020235680A1 (ja) 音声想起認識装置、装着具、音声想起認識方法及びプログラム
Polur et al. Effect of high-frequency spectral components in computer recognition of dysarthric speech based on a Mel-cepstral stochastic model.
CN113724687A (zh) 基于脑电信号的语音生成方法、装置、终端及存储介质
CN109767790A (zh) 一种语音情感识别方法及系统
Sharma et al. Wavelet based sub-band parameters for classification of unaspirated Hindi stop consonants in initial position of CV syllables
CN116013371A (zh) 一种神经退行性疾病监测方法、系统、装置及存储介质
Angrick et al. Speech Spectrogram Estimation from Intracranial Brain Activity Using a Quantization Approach.
Krishna et al. Continuous Silent Speech Recognition using EEG
Yousfi et al. Isolated Iqlab checking rules based on speech recognition system
Darling et al. Feature extraction in speech recognition using linear predictive coding: an overview
Hassine et al. Hybrid techniques for Arabic Letter recognition
Nemala et al. Biomimetic multi-resolution analysis for robust speaker recognition
Agrawal et al. Robust raw waveform speech recognition using relevance weighted representations

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20809757

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020809757

Country of ref document: EP

Effective date: 20211223