WO2010073614A1 - 語音明瞭度評価システム、その方法およびそのコンピュータプログラム - Google Patents

語音明瞭度評価システム、その方法およびそのコンピュータプログラム Download PDF

Info

Publication number
WO2010073614A1
WO2010073614A1 PCT/JP2009/007111 JP2009007111W WO2010073614A1 WO 2010073614 A1 WO2010073614 A1 WO 2010073614A1 JP 2009007111 W JP2009007111 W JP 2009007111W WO 2010073614 A1 WO2010073614 A1 WO 2010073614A1
Authority
WO
WIPO (PCT)
Prior art keywords
speech
character
presented
voice
user
Prior art date
Application number
PCT/JP2009/007111
Other languages
English (en)
French (fr)
Inventor
足立信夫
森川幸治
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to CN2009801299234A priority Critical patent/CN102112051B/zh
Priority to JP2010519034A priority patent/JP4638558B2/ja
Publication of WO2010073614A1 publication Critical patent/WO2010073614A1/ja
Priority to US12/959,513 priority patent/US8655439B2/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/70Adaptation of deaf aid to hearing loss, e.g. initial electronic fitting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/43Signal processing in hearing aids to enhance the speech intelligibility

Definitions

  • the present invention relates to a technique for evaluating whether or not speech is actually heard. More specifically, the present invention relates to speech clarity that is necessary for evaluating the degree of “fitting” in a hearing aid or the like that adjusts the amount of sound amplification to obtain a sound of an appropriate magnitude for each user.
  • the present invention relates to a speech intelligibility evaluation system for evaluating degrees.
  • the basic function of hearing aids is sound amplification, but it is necessary to adjust the amount of sound amplification for each user. For example, when the amount of amplification is insufficient, the sound pressure does not exceed the minimum audible threshold value, so that the user cannot hear sound. On the other hand, when it is amplified more than necessary, it exceeds UCL (uncomfortable level: loud sound that the user feels uncomfortable), and the user feels uncomfortable. For this reason, before starting to use the hearing aid, “fitting” for adjusting the amplification amount to an appropriate sound level that is neither too loud nor too low for each user is essential.
  • the fitting is generally performed based on an audiogram for each user.
  • An “audiogram” is a result of evaluating the “hearing” of a pure tone. For example, for each sound of multiple frequencies, the lowest sound pressure level (decibel value) that the user can hear is used as the frequency. It is the figure plotted according to it.
  • a plurality of fitting methods are mixed, and a fitting method for determining an optimum sound amplification amount that improves conversational intelligibility from only audiograms for all users has not yet been established. The reason for this is, for example, that the audiogram does not have a one-to-one correspondence with the listening ability of conversation, and that the range of sound pressure that the hearing-impaired person feels at an appropriate level is narrow.
  • “sound intelligibility evaluation” is an evaluation of a listening ability that evaluates whether or not a single syllable speech has been heard.
  • a single syllable word sound indicates one vowel or a combination of a consonant and a vowel (for example, “A” / “DA” / “SH”). Since the purpose of wearing a hearing aid is to distinguish between conversations, it is thought that the evaluation result of speech intelligibility needs to be emphasized.
  • the conventional speech intelligibility evaluation was performed according to the following procedure. First, the user hears single syllable speech one by one using the 57S type word table (50 single syllables) or 67S type word table (20 single syllables) established by the Japan Audiological Society. Next, the user is made to answer how to hear the presented speech by a method such as utterance or description. Then, the evaluator collates the word table with the answers and calculates the correct answer rate.
  • the user needs to reply by speaking or describing, and the evaluator needs to manually judge whether the user's answer is correct. For this reason, the inspection is a heavy burden for both the user and the evaluator.
  • Patent Document 1 discloses a speech intelligibility evaluation method that automatically performs correct / incorrect determination using a personal computer (PC) in order to reduce the burden on the evaluator.
  • a single syllable voice is presented to a user using a PC, the user is made to answer by mouse or pen touch, the answer is accepted as an input of the PC, the presented voice and answer input,
  • By receiving an answer input with a mouse or a pen touch it is not necessary for the evaluator to decipher and identify the user's answer (speech or description), and the evaluator's effort is greatly reduced.
  • Patent Document 2 discloses a speech intelligibility evaluation method that presents a selection candidate of speech corresponding to a speech after the speech is presented in order to reduce the burden of the user's answer input.
  • the number of selection candidates is narrowed down to several, and the user's trouble of searching for a character is reduced by selecting a corresponding word sound from among several characters.
  • an input of an answer is received using a PC, and the burden on the evaluator is reduced.
  • Patent Document 1 and Patent Document 2 still require the user to input an answer. Such an operation of inputting an answer still exists as a burden on the user. In particular, it is considered that it is not easy for a hearing impaired person or an elderly person who is not used to PC work to input answers using a mouse or a touch pen. In addition, a single syllable matrix may be erroneously selected due to an operation error, and as a result, speech intelligibility may not be correctly evaluated.
  • An object of the present invention is to realize a speech sound intelligibility evaluation system that does not require a troublesome answer input for a user.
  • a speech sound intelligibility evaluation system includes a biological signal measurement unit that measures a user's brain wave signal, an audio output unit that presents speech, a character output unit that presents characters, and a plurality of single syllable speech sounds.
  • a speech intelligibility evaluation unit that determines speech intelligibility based on
  • the presented word sound control unit may present characters that do not match the voice at a predetermined frequency.
  • the speech sound intelligibility evaluation unit when the speech presented to the user and the speech sound of the character match, is clear when there is a positive component at 600 ms ⁇ 100 ms starting from the time when the character was presented. It is determined that the degree of articulation is high when there is no positive component at 600 ms ⁇ 100 ms starting from the time when the character is presented, and the character is presented when the voice and the sound of the character are different. It may be determined that the clarity is high when there is a positive component at 600 ms ⁇ 100 ms from the starting time, and the clarity is low when there is no positive component at 600 ms ⁇ 100 ms from the time when the character is presented. .
  • the speech intelligibility evaluation system includes a P300 component detection unit that determines the presence / absence of a positive component at 300 ms ⁇ 50 ms from the time when the character is presented from the user's brain wave signal measured by the biological signal measurement unit.
  • the P300 component detection unit determines the presence or absence of a positive component at 300 ms ⁇ 50 ms, and the speech intelligibility evaluation unit disregards the disappointment
  • the speech intelligibility may be determined based on the determination result of the detection unit and the determination result of the P300 component detection unit.
  • the speech sound intelligibility evaluation unit when the speech presented to the user and the speech sound of the character match, is clear when there is a positive component at 600 ms ⁇ 100 ms starting from the time when the character was presented. Clarity is determined when there is no positive component at 600 ms ⁇ 100 ms starting from the time when the character was presented and there is a positive component at 300 ms ⁇ 100 ms starting from the time the character was presented If there is no positive component at 600 ms ⁇ 100 ms starting from the time when the character was presented, and there is no positive component at 300 ms ⁇ 100 ms starting from the time the character was presented, It is determined that the user has not seen the character presented by the output unit, and the character is presented when the voice and the sound of the character are different.
  • the clarity is high when there is a positive component at 600 ms ⁇ 100 ms from the starting time, and the time at which the character is presented without the positive component at 600 ms ⁇ 100 ms starting from the time when the character is presented.
  • the intelligibility is low, and there is no positive component at 600 ms ⁇ 100 ms from the time when the character is presented, and the time when the character is presented is the starting point. If there is no positive component at 300 ms ⁇ 100 ms, it may be determined that the user has not seen the character presented by the character output unit.
  • a group related to speech, characters and likelihood of occurrence of abnormal hearing for common speech sounds may be associated.
  • a group related to speech, text, and likelihood of occurrence of abnormal hearing may be associated with each of a plurality of speech sounds.
  • the presented speech sound control unit may present a character that is not associated with the speech at a predetermined frequency with reference to a group relating to the likelihood of occurrence of abnormal hearing in the speech sound database.
  • the speech intelligibility evaluation unit determines the speech intelligibility for each group related to the likelihood of occurrence of abnormal hearing when the speech and the speech of the character are different from each other, in addition to the case where the speech of the speech and the character are different. You may evaluate.
  • the speech intelligibility evaluation system may include a speech conversion control unit that converts speech stored in the speech database into a plurality of types of speech according to a fitting method of a hearing aid worn by the user. .
  • the speech intelligibility evaluation unit compares the amplitude of each event-related potential fitting method, A fitting method suitable for the user may be determined according to the comparison result.
  • the disappointment detection unit holds information on the amplitude of an event-related potential at 600 ms ⁇ 100 ms starting from the time when the character was presented for each match or mismatch of the sound and the character, A change in the amplitude of the event-related potential for each match or mismatch with the character is obtained, and the presented word sound control unit determines that the amplitude change in the event-related potential when the voice and the character match does not match.
  • the frequency of selecting a character that matches the presented voice is increased, and the amplitude change of the event-related potential when the voice and the character match
  • the frequency of selecting a character that does not match the presented voice may be increased.
  • the speech intelligibility evaluation method determines a speech to be presented with reference to a speech database holding a plurality of single syllable speech, presents speech, and presents with reference to the speech database.
  • a step of determining a speech and presenting a character after presenting the voice, a step of measuring a user's electroencephalogram signal, and a time at which the character is presented from the measured electroencephalogram signal of the user is 600 ms ⁇ 100 ms.
  • the step of presenting characters in the speech intelligibility evaluation method may present characters that do not match the speech at a predetermined frequency.
  • the step of determining the presence / absence of a positive component holds information on the amplitude of an event-related potential at 600 ms ⁇ 100 ms starting from the time when the character was presented for each match or mismatch of the voice and the character,
  • the step of obtaining the change of the amplitude of the event-related potential for each match or mismatch of the voice and the character and presenting the character is the amplitude of the event-related potential when the voice and the character match.
  • the character When the change is not more than the amplitude change of the event-related potential in the case of mismatch, the character is presented by increasing the frequency of selecting the character that matches the presented speech, and the speech and the character match If the amplitude change of the event-related potential in the case is larger than the amplitude change of the event-related potential in the case of mismatch, the character is selected by increasing the frequency of selecting a character that does not match the presented voice. It may be presented.
  • a computer program for evaluating speech intelligibility is executed by a computer to determine a speech to be presented to the computer with reference to a speech database holding a plurality of single syllable speech.
  • Presenting speech determining speech to be presented with reference to the speech database, presenting characters after presenting the speech, measuring a user's brain wave signal, and measuring the user's measured From the electroencephalogram signal, a step of determining the presence or absence of a positive component at 600 ms ⁇ 100 ms starting from the time when the character was presented, and a step of determining speech intelligibility based on the determination result of the disappointment detection unit are executed.
  • the step of presenting characters executed by the computer may present characters that do not match the voice at a predetermined frequency.
  • the discrimination of speech is quantitatively and automatically evaluated according to the match / mismatch of the presented speech and characters and the presence / absence of the disappointment signal obtained based on the user's brain wave and the magnitude of the amplitude. it can. This eliminates the need for troublesome answer input for the user, and can achieve speech intelligibility evaluation with less burden on the evaluator and the user.
  • FIG. 1 shows the outline
  • (A) and (b) are waveform diagrams in which event-related potentials from ⁇ 100 ms to 1000 ms are summed and averaged every time a mismatch / match button is pressed with the character stimulus presentation time as 0 ms.
  • (B) shows the example of case classification for the distinction evaluation method of a speech based on the presence / absence of the disappointment signal / P300 in the event-related potential after the presentation of the character stimulus and the coincidence / disagreement of the presented voice and the character.
  • FIG. 1 shows the structure and usage environment of the speech intelligibility evaluation system 100 by Embodiment 1.
  • FIG. 6 is a diagram showing amplitudes of various event-related potentials calculated for each of the fitting methods A to C.
  • FIG. It is a figure which shows the example of the evaluation result of a fitting method. It is a flowchart which shows the process sequence of the speech intelligibility system 200 by Embodiment 2. FIG. It is a figure which shows the amount of gain adjustment for every frequency. (A) And (b) is a figure which shows the evaluation in languages other than Japanese.
  • the speech intelligibility evaluation system is used for evaluating speech intelligibility using brain waves. More specifically, the speech intelligibility evaluation system presents a single syllable speech in sequence with voice and text, and makes the user check whether the voice and text match, and determines the event-related potential starting from the text presentation. Used as an index to evaluate the distinction of speech.
  • presenting a voice means outputting an auditory stimulus, for example, outputting a voice from a speaker.
  • Presenting characters means outputting a visual stimulus, for example, displaying characters on a screen such as a TV.
  • the inventors of the present application present a single syllable speech in the order of voice and characters (Hiragana) in order to present a character that does not match the speech with a predetermined probability and confirm whether or not the voice and the character are identical to the user
  • the experiment was conducted to measure the event-related potential starting from the presentation of characters.
  • a character that does not match the hiragana conceived from the speech is presented, a disappointing signal (a positive component around 600 ms) is presented, and a matching character is presented
  • each P3 component is induced. Based on this discovery, the present inventors have found that it is possible to evaluate the discrimination of voice according to the presence / absence of an event-related potential disagreement signal based on the coincidence / mismatch of the presented voice and characters, and the character presentation time.
  • the speech intelligibility evaluation paradigm The present inventors have so far made about 600 ms starting from a component that is characteristic of event-related potentials, that is, a time when a mismatched result is obtained in relation to a mismatch between expected and actual results.
  • disappointing signals positive and negative components
  • the inventors of the present application have devised an evaluation paradigm in which characters that do not match speech are interwoven and presented at a predetermined frequency (for example, once every two times). In an experiment in which speech is simply presented twice, a disappointment regarding the degree of coincidence of speech can be detected, but there is a possibility that both speeches will be mistakenly heard. It cannot be evaluated.
  • the experiment participants were 5 university / graduate students with normal hearing.
  • the electroencephalogram was measured from the Pz (international 10-20 method) on the scalp with a sampling frequency of 200 Hz and a time constant of 1 second based on the right earlobe.
  • a 1-6 Hz digital bandpass filter was applied off-line.
  • the characters were presented at a viewing angle of 3 ° ⁇ 3 ° on a 21-inch LCD placed 1 m in front of the participants.
  • Fig. 1 shows the outline of the experimental procedure.
  • FIG. 16 shows the amount of gain adjustment for each frequency.
  • Procedure B is a button press for proceeding to Procedure C, and was added in order to present the text stimulus of Procedure C at the participant's pace in the experiment. Since the disappointment signal appears even when the button is not pressed, it is an unnecessary procedure when the speech intelligibility is actually evaluated.
  • Step C a single hiragana character was presented on the display.
  • a hiragana that does not match the voice presented in Procedure A was presented with a probability of 50%.
  • the hiragana characters that do not match were chosen to be in a different line from the voice, with the vowels aligned as a pair of na line and ma line, ra line and ya line, k line and ta line, which are often mistaken.
  • Procedure D is a button press (numbers 1 to 5 on the keyboard) for confirming how much the participant feels a discrepancy between the voice presented in Procedure A and the characters presented in Procedure C. 5 if you feel an absolute match, 4 if you feel a match, 3 if you don't know, 2 if you feel a disagreement, 1 if you feel an absolute disagreement Each was pushed. In the experiment, we responded by pressing a button on the keyboard to confirm whether or not we felt disappointing with the mismatched character presentation and how difficult it was to distinguish it under the ⁇ 50 dB condition, but this is an unnecessary procedure in actual evaluation. .
  • FIG. 2 is a flowchart showing the procedure for one trial. In this flowchart, the operation of the apparatus and the operation of the incident participant are described together for convenience of explanation.
  • Step S11 is a step of presenting single syllable speech to the experiment participants.
  • the voice was presented under two conditions, 0 dB and -50 dB.
  • Step S12 is a step in which the participant hears a single syllable voice and thinks of a corresponding hiragana.
  • Step S13 is a step in which the participant presses the space key as the next button.
  • Step S14 is a step in which Hiragana characters that match or do not match the voice are presented on the display with 50% probability starting from Step S13.
  • Step S15 is a step of measuring the event-related potential from the time when the character stimulus is presented in step S14.
  • Step S16 is a step for confirming whether or not the hiragana conceived by the participant in step S12 matches the hiragana presented in step S14.
  • Step S17 is a step in which the number of keys 1 to 5 is used to answer how much the participant feels the match / mismatch in step S16.
  • 3 (a) and 3 (b) show that the event-related potentials from ⁇ 100 ms to 1000 ms are set to 0 ms / ⁇ 50 dB for each 0 dB condition / ⁇ 50 dB condition, and the total of the stimuli match / mismatch and the evaluation of the participants. It is a waveform obtained by averaging. For the averaging, the evaluation was “absolute match” / “maybe coincidence” when the stimulus was coincident, and the evaluation was “absolute disagreement” / “maybe disagreement” when the stimulus was not coincident.
  • the horizontal axis represents time and the unit is ms
  • the vertical axis represents potential and the unit is ⁇ V.
  • the lower direction of the graph corresponds to positive (positive) and the upper direction corresponds to negative (negative). Baseline was adjusted to an average potential of -100 to 0 ms.
  • FIGS. 3 (a) and 3 (b) are when the participant feels absolute disagreement / maybe disagreement, and the dashed line is when the participant feels absolute coincidence / maybe coincidence It is an addition average waveform.
  • 3 (a) and 3 (b) when both the 0 dB condition and the ⁇ 50 dB condition the participant feels disagreement with respect to the voice stimulus and the character stimulus, the interval is compared with the case where the participant feels a match. It can be confirmed that a late positive potential (LPP) appears at A (latency 500 to 700 ms). This may be a disappointing signal (a positive potential of about 600 ms latency) that reflects the disappointment (the feeling “that?”) That the present inventors have discovered so far for the mismatched character stimulus. high. Therefore, it can be said that it is possible to detect whether or not the user feels inconsistency with the character stimulus based on the amplitude of the event-related potential latency of 500 to 700 ms starting from the timing of presenting the character stimulus.
  • a positive component having a larger amplitude appears in the section B (latency 300 to 400 ms) as compared with the case of mismatch.
  • This is considered to be an electroencephalogram signal component called a P300 component that reflects the expectation for the character stimulus (the feeling that “(the desired character display) has come!”).
  • P300 component means “New Physiological Psychology Vol. 2” (supervised by Miyata, Kitaoji Shobo, 1997), p. 14 Is a positive component.
  • the P300 component may have appeared for the matched character stimulus because the character stimulus that does not match the voice stimulus was presented with a high probability of 50%. Since the P300 component does not appear when the user does not look at the character stimulus, it is possible to determine whether or not the user has properly recognized the character stimulus by using the P300 component as an index (whether the character stimulus has not been missed). Become.
  • interval average potential of positive components in interval A was 3.74 ⁇ V under the 0 dB condition and 2.08 ⁇ V under the ⁇ 50 dB condition, and the 0 dB condition was significantly larger (p ⁇ 0.05). It is considered that the degree of mismatch between the voice and the character is reduced under the condition that the voice is difficult to hear at ⁇ 50 dB. Therefore, it can be said that the discrepancy magnitude felt by the user is reflected in the amplitude of the disappointing signal.
  • the above-mentioned disappointment signal and P300 component are, for example, a method of thresholding the magnitude of the peak amplitude in the vicinity of a latency of about 600 ms or about 300 ms, and creating a template from a typical disappointment signal / P300 component waveform It can be identified by a method of calculating the similarity to the template.
  • the threshold value / template may be a typical user's previously stored or may be created for each individual.
  • the time after the elapse of a predetermined time calculated from a certain time point in order to define the event-related potential component is expressed as, for example, “about 300 ms” or “around 600 ms”. This means that a range centered on a specific time such as “300 ms” or “600 ms” can be included.
  • Event-Related Potential (ERP) Manual-Focusing on P300 (edited by Kimitaka Kaga et al., Shinohara Publishing Shinsha, 1995), causess a difference (shift) of 30 to 50 ms for each individual.
  • the terms “about Xms” and “near Xms” mean that a width of 30 to 50 ms can exist before and after (for example, 300 ms ⁇ 50 ms, 600 ms ⁇ 50 ms) centering on Xms.
  • width of 30 to 50 ms is an example of a general individual difference of the P300 component.
  • the individual difference of the user is further increased. Therefore, it is preferable to handle it as a wider width, for example, a width of about 100 ms.
  • voice and character are set to the event-related potential starting from the character stimulus under the condition that the voice of the single syllable is presented by voice and the character by experiment and the user confirms whether the voice and the character match.
  • the disappointing signal is (2) the P300 component appears when the user feels that the speech and characters match, and (3) the speech and characters
  • the speech intelligibility can be evaluated based on the presence / absence of a signal / P300 component of the event-related potential from the coincidence / disagreement of speech and characters and the presentation of characters.
  • FIG. 4 shows an example of case classification for a method for evaluating the distinction of speech based on the presence / absence of coincidence between the presented speech and characters, and the presence / absence of a disappointment signal / P300 in the event-related potential after presentation of the character stimulus. .
  • the cell (A) corresponds to a situation where a disappointing signal appears despite the fact that a character matching the voice is presented. It can be said that this situation means that the user listened to the wrong voice and thought of a different hiragana, but felt a disagreement with the presented character stimulus even though the character that matched the speech was presented. Therefore, it can be evaluated that the listening to the voice is wrong.
  • the cell (B) corresponds to the situation in which the character that matches the voice is presented, the disappointment signal does not appear, and the P300 component appears. Since the user recognizes that it matches the voice by looking at the characters, it can be evaluated that the voice has been correctly heard.
  • the cell (B ′) corresponds to a situation in which neither a disappointment signal nor a P300 component appears for the character that matches the voice. In this case, the user can evaluate that he / she did not see the letter stimulus / missed.
  • the cell (C) corresponds to the situation where characters that do not match the voice are presented and a disappointing signal appears. Although there is a possibility that a wrong hiragana that is different from the presented character and the voice is not imagined as the presented voice, it can be evaluated that there is a high possibility of being correctly heard.
  • the cell (D) corresponds to a situation in which a disappointing signal does not appear and a P300 component appears even though characters that do not match the voice are presented. In fact, since the user feels that the character does not match, the user can evaluate that he / she heard the voice and listened to the sound of the character by mistake. It can be said that the combination of speech and characters presented at this time was easily confused for the user.
  • the cell (D ′) corresponds to a situation in which neither a disappointment signal nor a P300 component appears for characters that do not match the speech. As with the cell (B '), the user can evaluate that he / she did not see / missed the character stimulus.
  • Cell (C) and cell (D) are in a situation that can only be evaluated by intentionally presenting characters that do not match the voice. In particular, it is important to evaluate the cell (D) from which information on how to view the content is obtained, so it can be said that presentation of mismatched characters is effective.
  • the cells (B) and (B '), the cells (D) and (D') can be separated only by using the presence or absence of the P300 component as an index in addition to the presence or absence of the disappointment signal. In an actual evaluation scene, it is considered that a situation in which a user sleeps during an evaluation experiment and misses a character stimulus often occurs. In addition, the evaluation is completely different between the cell (B) and the cell (B ′), and between the cell (D) and the cell (D ′). Therefore, it is essential to separate and evaluate those cells.
  • the frequency of intentionally presenting characters that do not match the voice is once every two times.
  • this is an example.
  • it may be once every three times or once every four times.
  • the inventors of the present application constructed a speech intelligibility evaluation system.
  • the speech intelligibility evaluation system described in the following embodiment sequentially presents single syllable speech as speech and characters, and an event-related potential disappointing signal starting from speech / letter match / mismatch and character stimulation. Realize listening evaluation of speech using the presence or absence of components. This is a speech intelligibility evaluation system without a user's answer input, which is realized for the first time by the evaluation paradigm devised by the present inventors.
  • Embodiment 1 Hereinafter, an embodiment of a speech intelligibility evaluation system using a disappointment signal will be described.
  • FIG. 5 shows the configuration and usage environment of the speech intelligibility evaluation system 100 according to this embodiment. This speech intelligibility evaluation system 100 is illustrated corresponding to the system configuration of Embodiment 1 described later.
  • the speech intelligibility evaluation system 100 includes a speech intelligibility evaluation device 1, a voice output unit 11, a character output unit 12, and a biological signal measurement unit 50.
  • the biological signal measuring unit 50 has at least two electrodes A and B.
  • the electrode A is affixed to the user 5's mastoid (below the base of the ear), and the electrode B is affixed to a position on the scalp of the user 5 (so-called Pz).
  • the speech sound intelligibility evaluation system 100 presents a single syllable speech to the user 5 in the order of (1) speech and (2) characters, and is expected in the brain wave (event-related potential) of the user 5 measured from the character presentation time. The presence or absence of a miss signal is determined. In addition, if a disappointment signal does not appear, the presence or absence of the P300 component is determined in the event-related potential. Then, based on the presence / absence of the coincidence / disagreement between the presented voice and the character and the disappointment signal and the P300 component, the speech intelligibility evaluation is automatically realized without the user 5 answer input.
  • the biological signal measurement unit 50 acquires the brain wave based on the potential difference between the electrode A and the electrode B.
  • the biological signal measurement unit 50 transmits information corresponding to the potential difference to the speech intelligibility evaluation device 1 wirelessly or by wire.
  • FIG. 5 shows an example in which the biological signal measurement unit 50 transmits the information to the speech intelligibility evaluation device 1 wirelessly.
  • the speech intelligibility evaluation device 1 performs sound pressure control of speech for speech intelligibility evaluation and control of voice and character presentation timing, and is directed to the user 5 via an audio output unit 11 (for example, a speaker). A voice is presented, and a character is presented via a character output unit 12 (for example, a display).
  • an audio output unit 11 for example, a speaker
  • a voice is presented, and a character is presented via a character output unit 12 (for example, a display).
  • the voice output unit 11 is a speaker and the character output unit 12 is a display.
  • the voice output unit 11 may be a headphone
  • the character output unit 12 may be a head-mounted display. Using headphones and a head-mound display makes it easy to carry and allows the evaluation of speech intelligibility in an environment used by the user.
  • FIG. 6 shows a hardware configuration of the speech intelligibility evaluation apparatus 1 according to the present embodiment.
  • the speech intelligibility evaluation apparatus 1 includes a CPU 30, a memory 31, an audio controller 32, and a graphic controller 33. These are connected to each other by a bus 34 and can exchange data with each other.
  • the CPU 30 executes a computer program 35 stored in the memory 31.
  • the speech intelligibility evaluation device 1 performs processing for controlling the entire speech intelligibility evaluation system 100 using the speech sound DB 71 stored in the same memory 31 in accordance with the computer program 35. This process will be described in detail later.
  • the audio controller 32 and the graphic controller 33 generate voices and characters to be presented in accordance with instructions from the CPU 30, and output the generated voice signals and character signals to the voice output unit 11 and the character output unit 12, respectively.
  • the speech intelligibility evaluation device 1 may be realized as hardware such as a DSP in which a computer program is incorporated in one semiconductor circuit.
  • a DSP can realize all the functions of the CPU 30, the memory 31, the audio controller 32, and the graphic controller 33 with a single integrated circuit.
  • the computer program 35 described above can be recorded on a recording medium such as a CD-ROM and distributed as a product to the market, or can be transmitted through an electric communication line such as the Internet.
  • a device for example, a PC having hardware shown in FIG. 6 can function as the speech intelligibility evaluation device 1 according to the present embodiment by reading the computer program 35.
  • the speech sound DB 71 may not be held in the memory 31 and may be stored in, for example, a hard disk (not shown) connected to the bus 34.
  • FIG. 7 shows a functional block configuration of the speech intelligibility evaluation system 100 according to this embodiment.
  • the speech intelligibility evaluation system 100 includes an audio output unit 11, a character output unit 12, a biological signal measurement unit 50, and a speech intelligibility evaluation device 1.
  • FIG. 7 also shows detailed functional blocks of the speech intelligibility evaluation apparatus 1. The user 5 block is shown for convenience of explanation.
  • Each functional block (except for the speech sound DB 71) of the speech sound intelligibility evaluation apparatus 1 is entirely executed by the CPU 30, the memory 31, the audio controller 32, and the graphic controller 33 by executing the program described with reference to FIG. It corresponds to the function realized at that time.
  • the speech sound DB 71 is a speech sound database for evaluating speech intelligibility.
  • FIG. 8 shows an example of the speech sound DB 71.
  • the data grouped according to the audio file to be presented, the character information, and the likelihood of occurrence of abnormal hearing (ease of occurrence of abnormal hearing) are associated.
  • the stored sounds may be the sounds listed in the 57S word table and 67S word table.
  • the grouping data is referred to when presenting characters that do not match the voice, and is used when the user 5 evaluates which group has a high likelihood of occurrence of an abnormal hearing.
  • the grouping is, for example, major classification, middle classification, or minor classification.
  • the major classifications are vowels, unvoiced consonants, and voiced consonants.
  • the middle classification is a classification within unvoiced consonants and voiced consonants.
  • Sa line medium classification: 1 and Ta Ka Ha line (middle class: 2)
  • La Ya Wa line within the voiced consonant
  • La Ya Wa line within the voiced consonant
  • Na Ma Ga It can be classified into The Da Ba Line (medium classification: 2).
  • Minor classification can be classified into Na Ma line (minor classification: 1) and The Ga Da Ba line (minor classification: 2).
  • Hearing Aid Fitting Concept For the likelihood of occurrence of abnormal hearing, we referred to “Hearing Aid Fitting Concept” (Kazuko Kodera, Diagnosis and Treatment Company, 1999).
  • the presented speech sound control unit 70 refers to the speech sound DB 71 and determines the speech sound to be presented.
  • the speech sounds may be selected and determined in a random order, for example, or may be determined by receiving information on unevaluated / re-evaluated speech sounds from the speech sound intelligibility evaluation unit 100.
  • the presented speech sound control unit 70 selects a character that does not match the intentionally presented speech in order to obtain information on which speech sound and the likelihood of anomalous utterance are high.
  • the selection of non-matching characters means that a character that is not associated with the voice presented in the speech DB 71 is selected. Any character may be selected if it is not associated with the voice.
  • the grouping information stored in the speech sound DB 71 may be used without changing the vowels from the rows of close groups, or the characters with only the vowels changed without changing the consonants may be selected.
  • selection of the matching character is realized by selecting “character” associated with the voice file of the presented voice in the above-mentioned speech DB 71.
  • the presented speech sound control unit 70 presents the voice and characters thus determined to the user 5 via the voice output unit 11 and the character output unit 12, respectively.
  • the trigger and the content of the presented voice / character are transmitted to the disappointment detection unit 60 in accordance with the character presentation time.
  • the voice output unit 11 reproduces a single syllable voice designated by the presentation word sound control unit 70 and presents it to the user 5.
  • the character output unit 12 presents the user 5 with a single syllable character designated by the presentation word sound control unit 70.
  • the biological signal measuring unit 50 is an electroencephalograph that measures a biological signal of the user 5 and measures an electroencephalogram as a biological signal. It is assumed that the user 5 is wearing an electroencephalograph in advance.
  • the disappointment detection unit 60 cuts out an event-related potential in a predetermined section (for example, a section of ⁇ 100 to 1000 ms) from the trigger received from the presented word sound control unit 70 from the brain wave of the user 5 measured by the biological signal measurement unit 50. .
  • the disappointment detection unit 60 performs an averaging of event-related potentials cut out according to the contents of the presented speech / character received from the presented word sound control unit 70.
  • the addition averaging is performed separately when the voice and the sound of characters match or do not match. For example, in the case of a mismatch, it is performed for each of the major classification, middle classification, and minor classification of the group.
  • the major classification, middle classification, and minor classification here mean the classification described above with reference to FIG.
  • the disappointment detection unit 60 identifies the event-related potential and determines the presence or absence of the disappointment signal.
  • the disappointment detection unit 60 identifies the presence or absence of the disappointment signal by the following method. For example, the disappointment detection unit 60 compares the maximum amplitude of the latency 550-650 ms and the section average potential of the latency 500-700 ms with a predetermined threshold value. Then, when the section average potential is larger than the threshold, it may be identified as “disappointment”, and when it is smaller, it may be identified as “no disappointment”. Alternatively, the disappointment detection unit 60 identifies a case where the dissimilarities are similar to a predetermined template created from the waveform of a typical disappointment signal (for example, a correlation coefficient) as “disappointment”, and is similar. If not, it may be identified as “no disappointment”.
  • the predetermined threshold value or template may be calculated / created from the waveform of a general user's disappointment signal held in advance, or may be calculated / created from the waveform of a disappointment signal for each individual.
  • the P300 component detector 61 receives information indicating the event-related potential from the disappointment signal detector 60 when the disappointment signal is detected by the disappointment detector 60, and determines the presence or absence of the P300 component.
  • the P300 component detection unit 61 identifies the presence or absence of the P300 component by the following method. For example, the P300 component detection unit 61 compares the maximum amplitude of the latency 250-350 and the section average potential of the latency 250-350 ms with a predetermined threshold. Then, the case where the section average potential is larger than the threshold value may be identified as “P300 component present”, and the case average may be identified as “P300 component absent”. Alternatively, the P300 component detection unit 61 identifies a similar case as “with P300 component” based on the similarity to a predetermined template created from a typical P300 component waveform, It may be identified as “no P300 component”. The predetermined threshold value or template may be calculated or created from a general user's P300 component waveform held in advance, or may be calculated or created from a P300 component waveform for each individual.
  • the speech sound intelligibility evaluation unit 80 receives from the disappointment detection unit 60 information on the presence / absence of a disappointment signal for matched / mismatched characters for each speech. When there is no disappointment signal, the speech intelligibility evaluation unit 80 further receives information on the presence or absence of the P300 signal from the P300 component detection unit 61. The speech intelligibility evaluation unit 100 evaluates the speech intelligibility based on the received information.
  • FIG. 9 shows an example of an evaluation standard for clarity.
  • the speech intelligibility evaluation is based on the criteria shown in FIG. 9 with “O” when the intelligibility is high, “X” when the intelligibility is low, and “ ⁇ ” when the intelligibility is unknown.
  • the voice / character match / mismatch and the disappointment signal / P300 component are present.
  • the speech intelligibility evaluation unit 80 transmits information indicating which speech is unknown to the presented speech sound control unit 70 and requests re-presentation of the corresponding speech. . By re-presenting the speech sound, it is finally possible to evaluate “ ⁇ ” or “x” for all speech sounds.
  • FIG. 10 shows an example of the speech intelligibility evaluation result.
  • the speech intelligibility is low, such as the speech “NA” in FIG. 10, it becomes clear which group is not able to distinguish.
  • the match between the voice and the character can be correctly identified, but it is also possible to detect a low level of intelligibility that causes an error in the middle classification.
  • the probability of ⁇ evaluated that speech intelligibility is high may be calculated for each speech, and the calculated high intelligibility probability may be used as the final speech intelligibility evaluation.
  • FIG. 11 is a flowchart showing a procedure of processing performed in the speech intelligibility evaluation system 100.
  • step S101 the presented speech sound control unit 70 determines the speech of a single syllable to be presented with reference to the speech sound DB 71, presents the speech to the user 5 via the speech output unit 11, and detects the disappointment of the presented speech information.
  • the speech to be presented may be selected at random from the DB 71, or may be determined by receiving information on unevaluated / re-evaluated speech from the speech intelligibility evaluation unit 100.
  • the presented speech sound control unit 70 refers to the speech sound DB 71 to select and determine a character to be presented, and presents the character to the user 5 via the character output unit 12.
  • the presenting sound control unit 70 transmits information on the character that has been triggered and selected to the disappointment detection unit 60 at the timing of presenting the character.
  • the character selection may select a character that matches the voice presented in step S101, or may intentionally select a character that does not match the voice by referring to the grouping stored in the speech sound DB 71.
  • step S103 the disappointment detection unit 60 receives a trigger from the presented speech sound control unit 70, and cuts out event-related potentials from ⁇ 100 to 1000 ms from the trigger, for example, of the brain waves measured by the biological signal measurement unit 50. Then, the baseline is corrected to an average potential of ⁇ 100 to 0 ms.
  • step S104 the disappointment detection unit 60 performs addition averaging on the event-related potential cut out in step S103 based on the information of the presented word sound received from the presented word sound control unit 70.
  • presented word sound information is information including whether or not the presented word sound and the presented voice and character match or do not match.
  • the averaging is performed separately when the voice and the sound of characters match, or when they do not match. For example, when they do not match, the averaging is performed for each large / medium / small classification of the group.
  • step S105 the disappointment detection unit 60 identifies the waveform of the event-related potential averaged in step S104, and determines the presence or absence of the disappointment signal.
  • the disappointment signal may be identified by comparison with a threshold value or by comparison with a template.
  • Step S106 is a branch depending on whether or not an unexpected signal is detected in the unexpected signal identification in step S105.
  • the disappointment detection unit 60 detects a disappointment signal
  • the process proceeds to step S108, and when it is not detected, the process proceeds to step S107.
  • step S107 the P300 component detection unit 61 receives information indicating the event-related potential from the disappointment detection unit 60, and identifies whether or not the P300 component is present. If the P300 component is identified, the process proceeds to step S109. If not identified, the process proceeds to step S108. Note that the P300 component may also be identified by comparison with a threshold as described above or by comparison with a template.
  • step S108 the speech intelligibility evaluation unit 80 transmits information specifying the unknown speech to the presentation speech control unit 70, and instructs re-presentation of the speech.
  • step S109 the speech intelligibility evaluation unit 100 receives information on the presence / absence of an unexpected signal for a matched / mismatched character for each speech from the disappointment detection unit 60, and further detects a P300 component when there is an unexpected signal. In response to information on presence / absence of the P300 signal from 61, speech intelligibility is evaluated.
  • step S109 For returning from step S109 to step S101” indicates repeated trials.
  • the speech intelligibility evaluation including the result of step S108 is performed, and the next speech to be presented is determined.
  • the speech intelligibility evaluation standard is based on the coincidence / disagreement between speech and characters and the presence / absence of the disappointing signal / P300 component. The case is evaluated as “ ⁇ ”, and the case where the clarity is unknown is evaluated as “ ⁇ ”.
  • the intelligibility is unknown, information indicating which speech is unknown is transmitted to the presented speech sound control unit 70 to instruct re-presentation of the speech.
  • the above embodiment is an application example in a Japanese environment.
  • other languages such as English and Chinese may be used as long as the sound is short.
  • a single syllable word as shown in FIG. 17 (a) may be presented by voice and characters, and the evaluation may be performed for each word, or as shown in FIG. 17 (b). You may evaluate for each phonetic symbol.
  • the presented speech sound control unit 70 selects whether to select a character that matches the voice presented in step S101 or whether to select a mismatched character in a section of 600 ms ⁇ 100 ms starting from the time when the character is presented. You may perform based on the change of the amplitude of an event related electric potential.
  • the disappointment detection unit 60 holds the information on the amplitude of the event-related potential in the above-described section in time series for each match / mismatch of speech and characters. Then, the disappointment detection unit 60 obtains the amplitude change of the event-related potential for each match / mismatch between the voice and the character. Note that the amplitude of the event-related potential and the information on the amplitude change of the event-related potential are recorded and held in a recording unit provided in the disappointment detection unit 60, for example.
  • a recording unit for example, a memory 31 (FIG. 6) in which the computer program 35 and the speech sound DB 71 are stored may be used, or a recording medium (for example, a flash memory or a hard disk) different from the memory 31 may be used. May be.
  • the presentation word sound control unit 70 presents the event-related potential amplitude change in the case of the match of the voice and the character is smaller than (including the same case) the event-related potential amplitude change in the case of the voice and the character mismatch. Increase the frequency of selecting characters that match the selected voice. In addition, when the amplitude change of the event-related potential in the case of coincidence between the voice and the character is larger than the amplitude change in the event-related potential in the case of a mismatch between the voice and the character, the presented word sound control unit 70 does not agree with the presented voice. Increase the frequency of selecting characters.
  • the speech intelligibility evaluation system 100 of the present embodiment it is not necessary to input an answer, and the user can perform speech intelligibility evaluation only by confirming characters by listening to the voice. As a result, the user's labor required for the evaluation is significantly reduced.
  • Embodiment 2 In the speech intelligibility evaluation system 100 according to the first embodiment, the speech intelligibility for speech stored in the speech DB 71 is evaluated by sequentially presenting speech and characters and checking for the presence or absence of a disappointing signal. However, only the presence / absence of disappointment was determined, and the speech intelligibility evaluation was performed with ⁇ / ⁇ . Therefore, there was a possibility that there was not enough resolution so that a fine fitting parameter difference appeared in the intelligibility evaluation result. As described above, the fitting method of the hearing aid has not been established and several methods are mixed, and it is necessary to search for an optimum fitting method for each user. Therefore, in this embodiment, a speech intelligibility evaluation system that evaluates which fitting parameter is appropriate among a plurality of fitting parameters will be described.
  • Fitting is realized by adjusting the gain for each frequency based on the relationship between the shape of the audiogram and the threshold obtained from subjective reports, UCL, and MCL (Most comfortable level: loudness of sound that the user can comfortably hear).
  • the types of fitting methods are, for example, the insertion gain of each frequency is half the minimum audible threshold for that frequency.
  • the Berger method with a slightly increased amplification from 1000 Hz to 4000 Hz in consideration of the frequency band and level of conversational speech, and the gain of 250 Hz and 500 Hz with less speech information and more noise components.
  • the speech data stored in the speech DB 71 is converted using several fitting methods so that an actual hearing aid performs, and a plurality of types of converted speech are converted to the user.
  • the fitting method is evaluated using the amplitude of the disappointment signal. This utilizes the property that the amplitude of the disappointment signal, which has been clarified by the above experimental results, reflects the degree of mismatch between the voice and the character felt by the user. Conversion to a plurality of types of sounds is realized by adjusting the sound level for each frequency. For example, when the half gain method is used as the fitting method, the gain for each frequency is adjusted based on the user's audiogram so as to be half the minimum audible threshold.
  • FIG. 12 shows a functional block configuration of the speech intelligibility evaluation system 200 according to the present embodiment.
  • the speech intelligibility evaluation system 200 includes an audio output unit 11, a character output unit 12, a biological signal measurement unit 50, and a speech intelligibility evaluation device 2.
  • the same blocks as those in FIG. 7 are denoted by the same reference numerals, and the description thereof is omitted.
  • the hardware configuration of the speech intelligibility evaluation device 2 is as shown in FIG. By executing a program that defines processing different from the program 35 (FIG. 6), the speech intelligibility evaluation apparatus 2 according to the present embodiment shown in FIG. 12 is realized.
  • the user wears a hearing aid in advance for evaluating a plurality of fitting methods.
  • the sound after applying each fitting method may be output from the sound output unit 11 (speaker) shown in FIG.
  • the speech intelligibility evaluation apparatus 2 is different from the speech intelligibility evaluation apparatus 1 according to the first embodiment in that a speech conversion control unit 90 and a fitting technique 91 are provided instead of the speech intelligibility evaluation unit 80. It is in the point.
  • the speech conversion control unit 90 converts the speech data stored in the speech DB 71 by referring to a plurality of types of fitting methods based on the audiogram of the user 5 measured in advance.
  • the fitting methods include the half gain method, the Berger method, the POGO method, the NAL-R method, and the like.
  • the fitting technique evaluation unit 91 receives, for example, information on the average potential of the section of the latency of 500 to 700 ms as the amplitude of the event-related potential starting from the character presentation from the disappointment detection unit 60. Further, the fitting method evaluation unit 91 receives information on the presence or absence of the P300 signal from the P300 component detection unit 61 when there is no disappointing signal. Note that the information acquired from the disappointment detection unit 60 may be, for example, the maximum amplitude with a latency of 550-650 ms.
  • the fitting method evaluation unit 91 adds and averages the amplitudes of the event-related potentials for all the speech sounds to be examined for each mismatching / matching of the voice stimulus and the character stimulus for each fitting method.
  • the amplitude of the disappointment signal (LPP) is calculated by subtracting the amplitude of the case.
  • FIG. 13 shows the amplitudes of various event-related potentials calculated for each of the fitting methods A to C.
  • the fitting method A is a half gain method
  • the fitting method B is a Berger method
  • the fitting method C is a POGO method.
  • the fitting method evaluation unit 91 compares the amplitude of the disappointment signal (LPP) for each fitting method.
  • the amplitude of the disappointing signal is large with respect to the stimulus of the character that does not match the speech, and the amplitude does not appear with respect to the stimulus of the character that matches the speech. Therefore, the amplitude of the disappointment signal (LPP) that is a result of the subtraction increases.
  • the speech intelligibility is high, the disappointment signal amplitude is small for the stimulus of characters that do not match the speech, and in addition, the disappointment signal appears for the stimulus of characters that match the speech due to a mistake in listening. . Therefore, the amplitude of the disappointment signal (LPP) is reduced. Therefore, it is possible to order which fitting method is optimal for the user 5 based on the amplitude of the LPP.
  • FIG. 14 shows an example of the evaluation result of the fitting method. This evaluation result is calculated based on the example of FIG. FIG. 14 shows an example in which, based on the LPP amplitude, the fitting method A having a large LPP amplitude is evaluated as “ ⁇ ” as a fitting method suitable for the user 5, and the fitting method B having a small LPP amplitude is evaluated as “ ⁇ ”. .
  • the LPP amplitude may be calculated with only one sound, the accuracy can be further improved by calculating the LPP amplitude for many sounds and performing the above-described processing based on the average of the differences.
  • the evaluation of the fitting method is determined as “ ⁇ ”, “ ⁇ ”, or “ ⁇ ” according to the magnitude of the LPP amplitude, but this is an example. If the optimum fitting method can be selected, the display method is arbitrary. Further, a threshold value to be compared with the magnitude of the LPP amplitude may be determined in advance, and if the threshold value is exceeded, the user may be notified that any fitting method is appropriate.
  • FIG. 15 shows a processing procedure of the speech intelligibility system 200 according to the present embodiment.
  • steps that perform the same process as the process of the speech intelligibility evaluation system 100 are denoted by the same reference numerals and description thereof is omitted.
  • the processing of the speech intelligibility evaluation system 200 according to the present embodiment is different from the processing of the speech intelligibility evaluation system 200 according to Embodiment 1 in that Step S201, Step S202, and Step S203 are newly added.
  • step S201 the speech conversion control unit 90 refers to the speech DB 71 and the audiogram of the user 5 measured in advance, and creates a plurality of sets of voices for each fitting technique.
  • step S202 the fitting method evaluation unit 91 examines the amplitude of the event-related potential received from the disappointment detection unit 60, and the amplitude of the event-related potential for each mismatch / matching of the voice stimulus and the character stimulus of each fitting method. Are added and averaged, and the amplitude of the LPP is calculated by subtracting the amplitude in the case of coincidence from the amplitude in the case of inconsistency.
  • step S203 the fitting method evaluation unit 91 notifies the user of the fitting method having the largest LPP amplitude as the optimum fitting method based on the LPP amplitude calculated in step S203.
  • the amplitude of the disappointing signal is measured for each type of fitting method and for each word sound of each fitting method, so that it becomes possible to find the optimum fitting method for the user by comparing the amplitudes. Thereby, evaluation of the fitting method is realized.
  • the speech intelligibility evaluation system 200 of the present embodiment it is possible to automatically find the optimum fitting method for each user. This eliminates the need for exploratory fitting, and the time required for fitting is significantly reduced.
  • the amplitude of the LPP is calculated by subtracting the amplitude of the event-related potential in the case of coincidence from the event-related potential amplitude in the case of inconsistency, but this is an example.
  • the ratio (ratio) of the event-related potential amplitude in the case of mismatch to the amplitude of the event-related potential in the case of match may be calculated.
  • the fitting method evaluation unit 91 may notify the user of the fitting method having the largest ratio as the optimum fitting method.
  • the evaluation of the speech intelligibility can be realized without a user's answer input.
  • speech intelligibility evaluation unit 5 users 1 and 2 speech intelligibility evaluation device 11 voice output unit 12 character output unit 50 biological signal measurement unit 60 disappointment detection unit 61 P300 component detection unit 70 presented speech sound control unit 71 speech sound DB 80 speech intelligibility evaluation unit 90 speech conversion control unit 91 speech intelligibility evaluation unit 100, 200 speech intelligibility evaluation system

Landscapes

  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Neurosurgery (AREA)
  • Otolaryngology (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 補聴器のフィッティング状況を評価するための語音明瞭度評価はユーザの回答入力が必要でありユーザの負担になっていた。 語音明瞭度評価システムは、ユーザの脳波信号を計測する生体信号計測部と、音声を呈示する音声出力部と、文字を呈示する文字出力部と、単音節の語音を複数保持している語音データベースを参照して呈示する語音を決定し、決定した語音が、音声出力部および文字出力部を介して音声、文字の順に呈示されるよう制御する呈示語音制御部と、生体信号計測部で計測されたユーザの脳波信号から、文字が呈示された時刻を起点として600ms±100msにおける陽性成分の有無を判定する期待はずれ検出部と、期待はずれ検出部の判定結果に基づき語音明瞭度を判定する語音明瞭度評価部とを備えている。

Description

語音明瞭度評価システム、その方法およびそのコンピュータプログラム
 本発明は、実際に語音が聞き取れたか否かを評価するための技術に関する。より具体的には、本発明は、補聴器等において、音の増幅量を調整して個々のユーザにとって適切な大きさの音を得る「フィッティング」の程度を評価するために必要となる、語音明瞭度の評価を行うための語音明瞭度の評価システムに関する。
 近年、社会の高齢化あるいは大音量の音楽を長時間聴く機会が増えたなどの理由から、老人性あるいは音響性の難聴者が増えており、日常生活において会話をより明瞭に聞き取ることを目的として補聴器を利用するユーザが増加している。
 補聴器の基本機能は音の増幅であるが、ユーザごとに音の増幅量を調整する必要がある。たとえば増幅量が足りない場合には音圧が最小可聴閾値を超えないため、ユーザは音が聞こえないという問題が発生する。また、逆に必要以上に増幅した場合には、UCL(uncomfortable level:ユーザが不快に感じてしまうほど大きな音)を超えてしまい、ユーザが不快に感じてしまう。そのため、補聴器の利用を開始する前には、ユーザごとに大きすぎず小さすぎない適切な大きさの音に増幅量を調整するための「フィッティング」が必須となる。
 フィッティングは一般的にはユーザごとのオージオグラムに基づいて行われる。「オージオグラム」とは、純音の「聞こえ」を評価した結果であり、たとえば、複数の周波数の音のそれぞれについて、そのユーザが聞き取ることが可能な最も小さい音圧レベル(デシベル値)を周波数に応じてプロットした図である。しかしながら、現状では複数のフィッティング方法が混在しており、全てのユーザにおいてオージオグラムのみから会話の聞き取り明瞭度を向上させる最適な音の増幅量に決めるフィッティングの方法は未だに確立されていない。その理由としては、たとえばオージオグラムと会話の聞き取り能力とが一対一対応しないこと、難聴者は適切な大きさに感じる音圧の範囲が狭いこと、が挙げられる。
 ゆえに、フィッティングの程度を評価するために、実際に語音が聞き取れたか否かを評価する語音明瞭度評価が必要となり、さらに補聴器の使用開始以後も語音明瞭度評価結果を利用した再フィッティングを行う場合がある。
 ここで、「語音明瞭度評価」とは、単音節の語音が聞き取れたか否かを評価する聞き取り能力の評価である。単音節の語音とは、一つの母音または子音と母音との組合せを示す(たとえば「あ」/「だ」/「し」)。補聴器装着の目的が会話の聞き分けである以上、語音明瞭度の評価結果は重要視する必要があると考えられている。
 従来の語音明瞭度評価は以下のような手順で行われていた。まず、日本聴覚医学会が制定した57S式語表(50単音節)または67S式語表(20単音節)を用いて単音節の音声をひとつずつユーザに聞かせる。次に、呈示された語音をどのように聞き取ったかをユーザに発話または記述などの方法で回答させる。そして、評価者が語表と回答とを照合し正答率を計算する。
 しかし、上記の評価方法では、ユーザは発話または記述による回答が必要であり、評価者は手作業でユーザの回答の正誤判定をする必要がある。そのため、ユーザにとっても評価者にとっても負担が大きい検査であった。
 そこで、たとえば、特許文献1には、評価者の負担を減らすためにパーソナルコンピュータ(PC)を用いて自動的に正誤判定を行う語音明瞭度評価方法が開示されている。具体的には、特許文献1では、PCを用いてユーザに対して単音節の音声を呈示し、ユーザにマウスまたはペンタッチにより回答させ、回答をPCの入力として受け付け、呈示した音声と回答入力との正誤判定を自動的に行う方法が提案されている。マウスまたはペンタッチで回答入力を受けることで、ユーザの回答(発話または記述)を評価者が解読・識別する必要がなくなり、評価者の手間の大幅な削減が実現されている。
 また、たとえば特許文献2には、ユーザの回答入力の負担を低減するために、音声呈示後に該当する語音の選択候補を文字で呈示する語音明瞭度評価方法が開示されている。特許文献2では、選択候補を数個に絞り、数個の文字の中から該当する語音を選択させることでユーザが文字を探す手間を低減している。なお、特許文献2においても、PCを用いて回答入力を受け付けて評価者の負担低減が実現されている。
特開平9-038069号公報 特開平6-114038号公報
 しかしながら、特許文献1および特許文献2に記載の語音明瞭度評価方法では、依然としてユーザの回答入力が必要である。このような回答入力の動作はユーザの負担として依然存在する。特にPC作業に慣れていない難聴者や高齢者にとっては、マウスやタッチペンを用いた回答入力は容易ではないと考えられる。また、操作ミスにより誤って異なる単音節マトリクスを選択し結果として語音明瞭度が正しく評価されなくなる可能性もあった。
 本発明の目的は、ユーザにとって煩わしい回答入力が不要な語音明瞭度評価システムを実現することにある。
 本発明による語音明瞭度評価システムは、ユーザの脳波信号を計測する生体信号計測部と、音声を呈示する音声出力部と、文字を呈示する文字出力部と、単音節の語音を複数保持している語音データベースを参照して呈示する語音を決定し、決定した前記語音が、前記音声出力部および前記文字出力部を介して音声、文字の順に呈示されるよう制御する呈示語音制御部と、前記生体信号計測部で計測された前記ユーザの脳波信号から、前記文字が呈示された時刻を起点として600ms±100msにおける陽性成分の有無を判定する期待はずれ検出部と、前記期待はずれ検出部の判定結果に基づき語音明瞭度を判定する語音明瞭度評価部とを備えている。
 前記呈示語音制御部は、所定の頻度で、前記音声と不一致な文字を呈示してもよい。
 前記語音明瞭度評価部は、前記ユーザに呈示された前記音声と前記文字の語音とが一致する場合には、前記文字が呈示された時刻を起点として600ms±100msに陽性成分が有る場合に明瞭度が低く、前記文字が呈示された時刻を起点として600ms±100msに陽性成分が無い場合に明瞭度が高いと判定し、前記音声と前記文字の語音が異なる場合には、前記文字が呈示された時刻を起点として600ms±100msに陽性成分が有る場合に明瞭度が高く、前記文字が呈示された時刻を起点として600ms±100msに陽性成分が無い場合に明瞭度が低いと判定してもよい。
 前記語音明瞭度評価システムは、前記生体信号計測部で計測された前記ユーザの脳波信号から、前記文字が呈示された時刻を起点として300ms±50msにおける陽性成分の有無を判定するP300成分検出部をさらに備え、前記期待はずれ検出部が前記陽性成分が存在しないと判定したとき、前記P300成分検出部は、300ms±50msにおける陽性成分の有無を判定し、前記語音明瞭度評価部は、前記期待はずれ検出部の判定結果、および、前記P300成分検出部の判定結果に基づいて、前記語音明瞭度を判定してもよい。
 前記語音明瞭度評価部は、前記ユーザに呈示された前記音声と前記文字の語音とが一致する場合には、前記文字が呈示された時刻を起点として600ms±100msに陽性成分が有る場合に明瞭度が低いと判定し、前記文字が呈示された時刻を起点として600ms±100msに陽性成分が無く、前記文字が呈示された時刻を起点として300ms±100msに場合に陽性成分が有る場合に明瞭度が高いと判定し、前記文字が呈示された時刻を起点として600ms±100msに陽性成分が無く、前記文字が呈示された時刻を起点として300ms±100msに場合に陽性成分が無い場合に、前記文字出力部が呈示した文字を前記ユーザが見ていなかったと判定し、前記音声と前記文字の語音が異なる場合には、前記文字が呈示された時刻を起点として600ms±100msに陽性成分が有る場合に明瞭度が高いと判定し、前記文字が呈示された時刻を起点として600ms±100msに陽性成分が無く、前記文字が呈示された時刻を起点として300ms±100msに場合に陽性成分が有る場合に明瞭度が低いと判定し、前記文字が呈示された時刻を起点として600ms±100msに陽性成分が無く、前記文字が呈示された時刻を起点として300ms±100msに場合に陽性成分が無い場合に、前記文字出力部が呈示した文字を前記ユーザが見ていなかったと判定してもよい。
 前記語音データベースでは、共通の語音についての音声、文字および異聴発生尤度に関するグループが対応付けられてもよい。
 前記語音データベースには、複数の語音の各々について、音声、文字および異聴発生尤度に関するグループが対応付けられていてもよい。
 前記呈示語音制御部は、前記語音データベースの異聴発生尤度に関するグループを参照し、前記音声に対応付けられていない文字を所定の頻度で呈示してもよい。
 前記語音明瞭度評価部は、前記音声と前記文字の語音が一致する場合に加えて、前記音声と前記文字の語音が異なる場合には、前記異聴発生尤度に関するグループごとに語音明瞭度を評価してもよい。
 前記語音明瞭度評価システムは、前記語音データベースに保存された音声を、前記ユーザが装着している補聴器のフィッティング方法に合わせて、複数種類の音声に変換する語音変換制御部を備えていてもよい。
 前記語音変換制御部によって複数種類に変換された音声が前記音声出力部を介して呈示された場合に、前記語音明瞭度評価部は、前記事象関連電位のフィッティング方法ごとの振幅を比較し、比較結果に応じて、前記ユーザに適しているフィッティング方法を判定してもよい。
 前記期待はずれ検出部は、前記文字が呈示された時刻を起点として600ms±100msにおける事象関連電位の振幅の情報を、前記音声と前記文字との一致または不一致毎に保持して、前記音声と前記文字との一致または不一致毎の前記事象関連電位の振幅の変化を求め、前記呈示語音制御部は、前記音声と前記文字とが一致する場合の前記事象関連電位の振幅変化が、不一致の場合の前記事象関連電位の振幅変化以下の場合には、呈示した音声と一致する文字を選択する頻度を上げ、前記音声と前記文字とが一致する場合の前記事象関連電位の振幅変化が、不一致の場合の前記事象関連電位の振幅変化より大きい場合には、呈示した音声と不一致の文字を選択する頻度を上げてもよい。
 本発明による語音明瞭度の評価方法は、単音節の語音を複数保持している語音データベースを参照して呈示する語音を決定し、音声を呈示するステップと、前記語音データベースを参照して呈示する語音を決定し、前記音声の提示後に文字を呈示するステップと、ユーザの脳波信号を計測するステップと、計測された前記ユーザの脳波信号から、前記文字が呈示された時刻を起点として600ms±100msにおける陽性成分の有無を判定するステップと、前記期待はずれ検出部の判定結果に基づき語音明瞭度を判定するステップとを包含する。
 前記語音明瞭度の評価方法における文字を呈示する前記ステップは、所定の頻度で、前記音声と不一致な文字を呈示してもよい。
 陽性成分の有無を判定する前記ステップは、前記文字が呈示された時刻を起点として600ms±100msにおける事象関連電位の振幅の情報を、前記音声と前記文字との一致または不一致毎に保持して、前記音声と前記文字との一致または不一致毎の前記事象関連電位の振幅の変化を求め、文字を呈示する前記ステップは、前記音声と前記文字とが一致する場合の前記事象関連電位の振幅変化が、不一致の場合の前記事象関連電位の振幅変化以下の場合には、呈示した音声と一致する文字を選択する頻度を上げて前記文字を提示し、前記音声と前記文字とが一致する場合の前記事象関連電位の振幅変化が、不一致の場合の前記事象関連電位の振幅変化より大きい場合には、呈示した音声と不一致の文字を選択する頻度を上げて前記文字を提示してもよい。
 本発明による語音明瞭度を評価するためのコンピュータプログラムは、コンピュータによって実行されることにより、前記コンピュータに対し、単音節の語音を複数保持している語音データベースを参照して呈示する語音を決定し、音声を呈示するステップと、前記語音データベースを参照して呈示する語音を決定し、前記音声の提示後に文字を呈示するステップと、ユーザの脳波信号を計測するステップと、計測された前記ユーザの脳波信号から、前記文字が呈示された時刻を起点として600ms±100msにおける陽性成分の有無を判定するステップと、前記期待はずれ検出部の判定結果に基づき語音明瞭度を判定するステップとを実行させる。
 前記コンピュータによって実行される、文字を呈示する前記ステップは、所定の頻度で、前記音声と不一致な文字を呈示してもよい。
 本発明によれば、呈示した音声と文字の一致/不一致と、ユーザの脳波に基づいて得られた期待はずれ信号の有無および振幅の大小に応じて、語音の聞き分けを定量的かつ自動的に評価できる。これにより、ユーザにとって煩わしい回答入力が不要となり、評価者にとってもユーザにとっても負担の少ない語音明瞭度評価を実現できる。
実験手順の概要を示す図である。 1試行分の手順を示すフローチャートである。 (a)および(b)は、文字刺激呈示時刻を0msとして-100msから1000msの事象関連電位を不一致/一致のボタン押しごとに総加算平均した波形図である。 呈示した音声と文字との一致/不一致、および、文字刺激呈示後の事象関連電位における期待はずれ信号/P300の有無に基づいた、語音の聞き分け評価方法のための場合分け例を示す図である。 実施形態1による語音明瞭度評価システム100の構成および利用環境を示す図である。 語音明瞭度評価装置1のハードウェア構成を示す図である。 実施形態による語音明瞭度評価システム100の機能ブロックの構成を示す図である。 語音DB71の例を示す図である。 明瞭度の評価基準例を示す図である。 語音明瞭度評価結果の例を示す図である。 語音明瞭度評価システム100において行われる処理の手順を示すフローチャートである。 実施形態2による語音明瞭度評価システム200の機能ブロックの構成を示す図である。 フィッティング手法A~Cの各々について算出された種々の事象関連電位の振幅を示す図である。 フィッティング手法の評価結果の例を示す図である。 実施形態2による語音明瞭度システム200の処理手順を示すフローチャートである。 周波数ごとのゲイン調整量を示す図である。 (a)および(b)は、日本語以外の言語での評価を示す図である。
 以下、添付の図面を参照しながら、本発明による語音明瞭度評価システムの実施形態を説明する。
 本発明による語音明瞭度評価システムは、脳波を利用した語音明瞭度を評価するために用いられる。より具体的には、語音明瞭度評価システムは、単音節の語音を音声および文字で順次呈示しユーザに音声と文字が一致したか否かを確認させ、文字呈示を起点とした事象関連電位を指標に、語音の聞き分けを評価するために用いられる。なお、本明細書において、「音声を呈示する」とは、聴覚刺激を出力すること、たとえば音声をスピーカから出力することをいう。また、「文字を呈示する」とは、視覚刺激を出力すること、たとえばTVなどの画面に文字を表示することをいう。
 本願発明者らは、単音節の語音を音声と文字(平仮名)で順に呈示する設定で所定の確率で音声とは不一致な文字を呈示しユーザに音声と文字が同一であった否かを確認させる条件で、文字呈示を起点に事象関連電位を計測する実験を実施した。その結果、文字刺激を起点とした事象関連電位において、音声から思い浮かべた平仮名と不一致な文字が呈示された場合に期待はずれ信号(約600ms前後の陽性成分)が、一致な文字が呈示された場合にP3成分がそれぞれ惹起されることを発見した。この発見に基づき、呈示した音声と文字の一致/不一致、および、文字呈示時刻を起点とした事象関連電位の期待はずれ信号の有無に応じて音声の聞き分けの評価が可能になることを見出した。
 以下で、これらをより詳細に説明する。はじめに、ユーザの回答入力が不要な語音明瞭度評価を実現するために本願発明者らが考案した語音明瞭度評価パラダイム、および、実施した脳波計測実験を説明する。その後、実施形態としての、語音を聞き取れたか否かを評価する語音明瞭度評価装置の概要および語音明瞭度評価装置を含む語音明瞭度評価システムの構成および動作を説明する。
 1.語音明瞭度評価パラダイム
 本願発明者らは、これまでに予期と実際の結果との不一致に関連して事象関連電位に特徴的な成分、すなわち不一致な結果が得られた時刻を起点とする約600ms前後の陽性成分(以下、「期待はずれ信号」と呼ぶ)、が出現することを発見してきた(参考文献:
 Adachi et al., International Journal of Psychophysiology, 2007)。
 語音が聞き取れないときは、ユーザは音声を聞いたとしても正しい語音を予期できない状況にある。これに着目した本願発明者らは、期待はずれ信号を用いてこの状況を検出できれば、ユーザの回答入力なしで語音明瞭度評価が可能である。
 さらに、本願発明者らは音声とは不一致な文字を所定の頻度(たとえば2回に1回)で織り交ぜて呈示する評価パラダイムを考案した。単純に音声を2回呈示する実験では、語音の一致度に関する期待はずれは検出できるが、どちらの音声に対しても間違えて聞き取る可能性が考えられるため、語音の聞き取りができていたか否かを評価することはできない。
 そこで、音声とは不一致な文字を所定の頻度(たとえば2回に1回)で織り交ぜて呈示することにより、文字を他の平仮名に見間違えることはないため、少なくとも先に聞いた音声と文字との一致/不一致が判定可能となる。加えて、不一致な文字を所定の頻度で織り交ぜたことにより、全ての試行において刺激の判定(不一致/一致)が必要となり、文字に対するユーザの注意が自動的に増大し、かつ注意の持続が容易となる。その結果、刺激に対する注意の低下に伴う脳波信号の振幅減少が低減されてより明瞭な信号成分を計測可能となる。また、常に音声と一致した文字を呈示する条件では、音声刺激を正しく聞き取れた場合と音声刺激と文字刺激の比較をしないで文字刺激だけを確認した場合の両方で不一致が発生しないため、聞き取りの評価が正しくできない可能性があるが、不一致刺激を織り交ぜることで上記2状態の分離が可能となる。
 以上より、音声呈示後に文字を呈示する設定で所定の確率で不一致な文字刺激を呈示する本願発明者らが提案した評価パラダイムによって、音声に対応する平仮名を思い浮かべ後から呈示される文字を確認するだけの回答入力なしの語音明瞭度評価が初めて実現できる。
 音声刺激呈示後に文字刺激を呈示する設定で所定の確率で不一致な文字刺激を呈示するという評価によって、ユーザは音声に対応する平仮名を思い浮かべ、後から呈示される文字を確認するのみで、ユーザの回答入力なしによる語音明瞭度の評価を実現できる。
 2.実験の説明
 以下、図1から図3を参照しながら実験および実験結果を説明する。
 実験参加者は、正常な聴力を有する大学・大学院生5名であった。脳波は頭皮上のPz(国際10-20法)から右耳朶を基準にサンプリング周波数200Hz、時定数1秒で計測した。オフラインで1-6Hzのディジタルバンドパスフィルタをかけた。文字は参加者の目前1mに設置した21インチのLCDに視角3°×3°で呈示した。
 図1は、実験手順の概要を示す。
 まず、手順Aにおいて単音節の音声を呈示した。刺激語音は、「補聴器フィッティングの考え方」(小寺一興、診断と治療社、1999年)を参照して、相互に聞き取り間違いが多いとされるナ行/マ行のペア、ラ行/ヤ行のペア、カ行/タ行のペアから選択した。実験参加者には音声を聞いて対応する平仮名を思い浮かべるよう教示した。
 音声の聞き分けやすさと期待はずれ信号の振幅の関係を調べるために、周波数ゲインを加工しない条件(0dB条件:聞き分け易い)と、250Hz-16kHzの周波数のゲインを段々と-50dBまで調整(低減)した条件(-50dB条件:聞き分けにくい)の2条件で呈示した。図16は、周波数ごとのゲイン調整量を示す。
 次に手順Bにおいて実験参加者にキーボードのスペースキーを押させた。手順Bは手順Cに進むためのボタン押しで、実験では参加者のペースで手順Cの文字刺激を呈示するために付加した。期待はずれ信号はボタン押しがない場合にも出現するため、実際に語音明瞭度を評価する場合には不要な手順である。
 手順Cにおいてディスプレイに平仮名を一文字呈示した。50%の確率で、手順Aで呈示した音声とは一致しない平仮名を呈示した。一致しない平仮名は聞き取り間違いが多いとされるナ行とマ行、ラ行とヤ行、カ行とタ行をペアとして母音は揃えて音声とは異なる行の文字を選んだ。
 たとえば、手順Aにおいて平仮名「な」を呈示した場合、手順Cでは一致条件として「な」を呈示し、不一致条件として「ま」を呈示した。参加者が正しく音声を聞き取れていた場合には、「な」の呈示に対して期待通り、「ま」の呈示に対して期待はずれを感じることになる。
 手順Dは、参加者が手順Aで呈示された音声と手順Cで呈示された文字にどれくらい不一致を感じたかを確認するためのボタン押し(キーボードの数字の1から5)である。絶対一致と感じた場合には5を、多分一致と感じた場合には4を、わからない場合には3を、多分不一致と感じた場合には2を、絶対不一致と感じた場合には1をそれぞれ押させた。実験では不一致な文字呈示に対して期待はずれを感じたかどうかと、-50dB条件でどの程度聞き分けにくかったかを確認するためにキーボードのボタン押しで回答させたが、実際の評価では不要な手順である。
 上述の手順Aから手順Dを72回繰り返す実験を行った(72試行)。
 図2は、1試行分の手順を示すフローチャートである。このフローチャートでは、説明の便宜のため、装置の動作と事件参加者の動作とが混在して記載している。
 ステップS11は単音節の音声を実験参加者に呈示するステップである。音声は0dB条件と-50dB条件の2条件で呈示した。
 ステップS12は参加者が単音節の音声を聞いて対応する平仮名を思い浮かべるステップである。
 ステップS13は参加者が次へボタンとしてスペースキーを押すステップである。
 ステップS14はステップS13を起点に50%の確率で音声と一致または不一致な平仮名を文字でディスプレイに呈示するステップである。
 ステップS15はステップS14で文字刺激が呈示された時刻を起点に事象関連電位を計測するステップである。
 ステップS16は参加者がステップS12で思い浮かべた平仮名とステップS14で呈示された平仮名とが一致したか否かを確認するステップである。
 ステップS17は参加者がステップS16でどれくらい一致/不一致と感じたかを1から5の数字キーで回答するステップである。
 以下、実験結果を示す。
 まず、参加者のボタン押し評価の結果を示す。-50dB条件において音声がはっきりと聞こえたことを示す絶対一致または絶対不一致と評価した割合は36.6%であり、0dB条件における87.5%と比較して有意(p<.01)に低下した。また、評価間違い(一致刺激に対して絶対不一致または多分不一致と評価、不一致刺激に対して絶対一致または多分一致と評価)は、-50dB条件で14.6%であり0dB条件の2.5%と比較して有意(p<.01)に増大した。これらの結果から、-50dB条件では、正常な聴力を有する参加者であっても音声が聞き取りにくかったことを示している。
 図3(a)および(b)は、文字刺激呈示時刻を0msとして-100msから1000msの事象関連電位を0dB条件/-50dB条件ごとに、刺激の一致/不一致と、参加者の評価に基づき総加算平均した波形である。加算平均は、刺激が一致の場合には評価が「絶対一致」/「多分一致」、刺激が不一致の場合には評価が「絶対不一致」/「多分不一致」でおこなった。図3(a)および(b)の横軸は時間で単位はms、縦軸は電位で単位はμVである。図3(a)および(b)に示されたスケールから明らかなとおり、グラフの下方向が正(陽性)に対応し、上方向が負(陰性)に対応している。ベースラインは-100から0msの平均電位に合わせた。
 図3(a)および(b)に示される実線は、参加者が絶対不一致/多分不一致と感じた場合、破線は参加者が絶対一致/多分一致と感じた(一致したと感じた)場合の加算平均波形である。図3(a)および(b)より、0dB条件、-50dB条件の両条件ともに音声刺激と文字刺激に対して参加者が不一致を感じた場合には、一致と感じた場合と比較して区間A(潜時500~700ms)において後期陽性電位(Late positive potential:LPP)が出現していることが確認できる。これは、本願発明者らがこれまでに発見した、不一致な文字刺激に対する期待はずれ(「あれ?」という感情)を反映した期待はずれ信号(潜時約600ms前後の陽性電位)である可能性が高い。よって、文字刺激を呈示したタイミングを起点とした事象関連電位の潜時500~700msの振幅に基づき、ユーザが文字刺激に対して不一致を感じたかどうかが検出できると言える。
 また図3より、音声刺激と文字刺激とが一致した場合には、不一致の場合と比較して区間B(潜時300~400ms)においてより振幅の大きな陽性成分が出現したことが確認できる。これは文字刺激に対する期待通り(「(思い通りの文字表示が)きた!」という感情)を反映したP300成分と呼ばれる脳波信号成分であると考えられる。「P300成分」とは、「新生理心理学2巻」(宮田様監修、北大路書房、1997)14ページによると、一般的にはオドボール課題において標的刺激に対して惹起される、潜時300ms付近の陽性成分である。
 今回の実験設定では、音声刺激とは不一致な文字刺激を50%の高確率で呈示したために一致した文字刺激に対してもP300成分が出現した可能性がある。ユーザが文字刺激を見ていない場合にはP300成分は出現しないので、このP300成分を指標にユーザがきちんと文字刺激を見て認知したかどうか(文字刺激を見逃さなかったかどうか)の判定が可能になる。
 また、区間A(500-700ms)における陽性成分の区間平均電位は、0dB条件で3.74μV、-50dB条件で2.08μVで、0dB条件の方が有意に大きかった(p<.05)。音声が聞き取りにくい-50dB条件では、音声と文字の不一致の度合いが減少していると考えられる。よって、ユーザが感じる不一致の大きさが期待はずれ信号の振幅に反映されるといえる。
 上述の期待はずれ信号およびP300成分は、たとえば潜時約600ms付近や約300ms付近のピーク振幅の大きさを閾値処理する方法、典型的な期待はずれ信号/P300成分の波形からテンプレートを作成してそのテンプレートとの類似度を算出する方法等によって識別可能である。なお、閾値・テンプレートは予め保持した典型的なユーザのものを利用してもよいし、個人ごとに作成してもよい。
 また、今回の実験では文字呈示を起点とした事象関連電位に期待はずれ信号が出現することを確認する意味で5人の参加者のデータを約50回程度加算平均した。しかし、識別方法の工夫により非加算または数回程度の少数加算でも期待はずれ信号の識別は可能である。
 本願明細書においては、事象関連電位の成分を定義するためにある時点から起算した所定時間経過後の時刻を、たとえば「約300ms」や「600ms付近」と表現している。これは、「300ms」や「600ms」という特定の時刻を中心とした範囲を包含し得ることを意味している。「事象関連電位(ERP)マニュアル-P300を中心に」(加我君孝ほか編集、篠原出版新社、1995)の30ページに記載の表1によると、一般的に、事象関連電位の波形には、個人ごとに30~50msの差異(ずれ)が生じる。したがって、「約Xms」や「Xms付近」という語は、Xmsを中心として30~50msの幅がその前後(例えば、300ms±50ms、600ms±50ms)に存在し得ることを意味している。
 なお、上述の「30~50msの幅」はP300成分の一般的な個人差の例であるが、P300と比べて潜時が遅い期待はずれ信号の場合にはユーザの個人差がさらに大きくなる。よって、より広い幅、たとえば100ms程度の幅であるとして取り扱うことが好ましい。
 以上、実験によって単音節の語音を音声と文字で順次呈示しユーザに音声と文字が一致したか否かを確認させる条件において、文字刺激を起点とした事象関連電位に、(1)音声と文字が不一致であるとユーザが感じた場合には期待はずれ信号が、(2)音声と文字が一致しているとユーザが感じた場合にはP300成分が出現すること、(3)音声と文字に対してユーザが感じた不一致の度合いが期待はずれ信号の振幅に反映されること、がわかった。
 以下、図4を参照しながら、音声と文字の一致/不一致と文字呈示を起点とした事象関連電位の期待はずれ信号/P300成分の有無により語音明瞭度が評価可能であることを示す。
 図4は、呈示した音声と文字との一致/不一致、および、文字刺激呈示後の事象関連電位における期待はずれ信号/P300の有無に基づいた、語音の聞き分け評価方法のための場合分け例を示す。
 セル(A)は、音声と一致した文字が呈示されたにも関わらず期待はずれ信号が出現した状況に対応している。この状況は、ユーザは音声を間違って聞き取り異なる平仮名を思い浮かべていたため、音声と一致した文字が呈示されたにも関わらず呈示されたその文字刺激に対して不一致を感じたことを意味すると言える。よって、音声の聞き取りを間違ったと評価できる。
 セル(B)は、音声と一致した文字が呈示され、期待はずれ信号が出現せずP300成分は出現した状況に対応している。ユーザは文字を見て音声と一致していることを認知しているので、音声を正しく聞き取れていたと評価できる。
 セル(B’)は、音声と一致した文字に対して期待はずれ信号とP300成分がどちらも出現しなかった状況に対応している。この場合、ユーザは文字刺激を見ていなかった/見逃したと評価できる。
 セル(C)は、音声と不一致な文字が呈示され、期待はずれ信号が出現した状況に対応している。呈示された音声の通りの平仮名ではなく、呈示された文字とも音声とも異なる間違った平仮名を思い浮かべていた可能性もあるが、正しく聞き取れた可能性が高いと評価できる。
 セル(D)は、音声と不一致な文字が呈示されたにも関わらず期待はずれ信号が出現せずP300成分は出現した状況に対応している。実際は不一致な文字に対してユーザが一致であった感じているため、ユーザは音声を聞いて文字の語音に間違って聞き取ったと評価できる。このとき呈示された音声と文字の組み合わせはそのユーザにとって混同しやすかったと言える。
 セル(D’)は、音声と不一致な文字に対して期待はずれ信号とP300成分がどちらも出現しなかった状況に対応している。セル(B’)と同様に、ユーザは文字刺激を見ていなかった/見逃したと評価できる。
 セル(C)およびセル(D)は、音声とは不一致な文字を意図的に呈示することで初めて評価可能な状況である。特にどのように視聴したかの情報が得られるセル(D)の評価は重要であるため、不一致の文字の呈示は効果的であると言える。また、セル(B)とセル(B’)、セル(D)とセル(D’)は、期待はずれ信号の有無に加えて、P300成分の有無を指標としたことで初めて分離可能となる。実際の評価場面においては、評価実験中にユーザが寝てしまい、文字刺激を見逃すという状況がしばしば発生すると考えられる。加えて、セル(B)とセル(B’)、セル(D)とセル(D’)では評価が全く異なる。そのため、それらのセルを分離して評価することが必須となる。
 ここで、不一致な刺激を混ぜて呈示する実験設定の効果をまとめる。一つ目は、文字刺激に対するユーザの注意が自動的に高まり、注意の持続が容易になる点である。これによって刺激に対する注意低下に伴う脳波信号の振幅減少が低減される。二つ目は、不一致な文字刺激を高頻度で呈示した場合には、一致した文字刺激に対してP300成分が惹起し、ユーザが語音明瞭度評価課題を実行していたことを確認できる点である。P300成分と期待はずれ信号を用いることで、図4に示した語音明瞭度評価を初めて実現できる。
 なお、上述の説明では、音声とは不一致な文字を意図的に呈示する頻度は2回に1回であるとした。しかしながらこれは一例である。たとえば3回に1回や、4回に1回であってもよい。
 P300成分の振幅は刺激の呈示割合に応じて変化することが分かっている(Duncan-Johnson and Donchin, 1977.On quantifying surprise:The variation of event-related potential with subjective probability. Psychophysiology 18,456-467)。そのため、一致/不一致の割合に応じて、一致した文字刺激の割合が高い場合にはP300成分検出の閾値を下げる必要がある。
 このように音声と文字の一致/不一致と期待はずれ信号とP300成分の有無から音声の聞き取りの評価が、ユーザの回答入力なしに可能であることが分かった。
 以上の場合分け例およびその評価結果に基づいて、本願発明者らは語音明瞭度評価システムを構築した。以下の実施形態において説明する語音明瞭度評価システムは、単音節の語音を音声および文字で順次呈示し、音声と文字の一致/不一致および文字刺激を起点とした事象関連電位の期待はずれ信号とP300成分の有無を用いて、語音の聞き取り評価を実現する。これは本願発明者らが考案した評価パラダイムによって初めて実現されるユーザの回答入力なしの語音明瞭度評価システムである。
 3.実施形態1
 以下、期待はずれ信号を用いた語音明瞭度評価システムの実施形態を説明する。
 まず、音声と文字を順次呈示し文字呈示時刻を起点に事象関連電位を計測して期待はずれ信号およびP300成分を検出し語音の聞き取りを評価する語音明瞭度評価システムの概要を説明する。その後、語音明瞭度評価装置を含む語音明瞭度評価システムの構成および動作を説明する。
 3.1.語音明瞭度評価システムの構成
 図5は、本実施形態による語音明瞭度評価システム100の構成および利用環境を示す。この語音明瞭度評価システム100は後述する実施形態1のシステム構成に対応させて例示している。
 語音明瞭度評価システム100は、語音明瞭度評価装置1と、音声出力部11と、文字出力部12と、生体信号計測部50とを備えている。生体信号計測部50は少なくとも2つの電極AおよびBを有している。電極Aはユーザ5のマストイド(耳の付け根の下部)に貼り付けられ、電極Bはユーザ5の頭皮上の位置(いわゆるPz)に貼り付けられている。
 語音明瞭度評価システム100は、単音節の語音を(1)音声、(2)文字の順でユーザ5に呈示し、文字呈示時刻を起点に計測したユーザ5の脳波(事象関連電位)において期待はずれ信号の有無を判定する。加えて、期待はずれ信号が出現しなかった場合には上記事象関連電位においてP300成分の有無を判定する。そして、呈示音声と文字の一致/不一致および期待はずれ信号とP300成分の有無に基づき、ユーザ5の回答入力なしに自動的に語音明瞭度評価を実現する。
 ユーザ5の脳波として、電極Aと電極Bとの電位差に基づいて生体信号計測部50により取得される。生体信号計測部50は、電位差に対応する情報を無線または有線で語音明瞭度評価装置1に送信する。図5では、当該情報を生体信号計測部50が無線で語音明瞭度評価装置1に送信する例を示している。
 語音明瞭度評価装置1は、語音明瞭度評価のための音声の音圧制御や、音声および文字の提示タイミングの制御を行い、ユーザ5に対して、音声出力部11(たとえばスピーカ)を介して音声を呈示し、文字出力部12(たとえばディスプレイ)を介して文字を呈示する。
 なお、図5中では音声出力部11をスピーカ、文字出力部12をディスプレイとしたが、音声出力部11はヘッドフォンでも良いし、文字出力部12はヘッドマウントディスプレイでも良い。ヘッドフォンとヘッドマウンドディスプレイを用いることで、持ち運びが簡易になりユーザが利用する環境において語音明瞭度の評価が可能となる。
 図6は、本実施形態による語音明瞭度評価装置1のハードウェア構成を示す。語音明瞭度評価装置1は、CPU30と、メモリ31と、オーディオコントローラ32と、グラフィックコントローラ33とを有している。これら互いにバス34で接続され、相互にデータの授受が可能である。
 CPU30は、メモリ31に格納されているコンピュータプログラム35を実行する。語音明瞭度評価装置1は、このコンピュータプログラム35にしたがって、同じメモリ31に格納されている語音DB71を利用して、語音明瞭度評価システム100の全体を制御する処理を行う。この処理は後に詳述する。
 オーディオコントローラ32およびグラフィックコントローラ33は、CPU30の命令に従って、それぞれ、呈示すべき音声および文字を生成し、生成した音声信号および文字信号を音声出力部11および文字出力部12に出力する。
 なお、語音明瞭度評価装置1は、1つの半導体回路にコンピュータプログラムを組み込んだDSP等のハードウェアとして実現されてもよい。そのようなDSPは、1つの集積回路で上述のCPU30、メモリ31、オーディオコントローラ32、グラフィックコントローラ33の機能を全て実現することが可能である。
 上述のコンピュータプログラム35は、CD-ROM等の記録媒体に記録されて製品として市場に流通され、または、インターネット等の電気通信回線を通じて伝送され得る。図6に示すハードウェアを備えた機器(たとえばPC)は、当該コンピュータプログラム35を読み込むことにより、本実施形態による語音明瞭度評価装置1として機能し得る。なお、語音DB71はメモリ31に保持されていなくてもよく、たとえばバス34に接続されたハードディスク(図示せず)に格納されていてもよい。
 図7は、本実施形態による語音明瞭度評価システム100の機能ブロックの構成を示す。語音明瞭度評価システム100は、音声出力部11と、文字出力部12と、生体信号計測部50と、語音明瞭度評価装置1とを有している。図7はまた、語音明瞭度評価装置1の詳細な機能ブロックも示している。ユーザ5のブロックは説明の便宜のために示されている。
 語音明瞭度評価装置1の各機能ブロック(語音DB71を除く)は、それぞれ、図6に関連して説明したプログラムが実行されることによって、CPU30、メモリ31、オーディオコントローラ32、グラフィックコントローラ33によって全体としてその時々で実現される機能に対応している。
 語音DB71は、語音明瞭度評価を行うための語音のデータベースである。図8は、語音DB71の例を示す。図8に示した語音DB71では、呈示する音声ファイル、文字の情報、異聴発生尤度(異聴の発生しやすさ)によってグループ分けされたデータが対応付けられている。保存される語音は、57S語表、67S語表に挙げられている語音でも良い。
 グループ分けのデータは、音声とは不一致な文字を呈示する場合に参照され、ユーザ5がどのクループ間の異聴発生尤度が高いかを評価する際に利用される。グループ分けは、たとえば大分類、中分類、小分類とする。
 大分類は母音、無声子音、有声子音の分類でそれぞれ0、1、2のように表記している。中分類は無声子音内、有声子音内の分類である。無声子音内はサ行(中分類:1)とタ・カ・ハ行(中分類:2)に、有声子音内はラ・ヤ・ワ行(中分類:1)とナ・マ・ガ・ザ・ダ・バ行(中分類:2)に分類できる。小分類は、ナ・マ行(小分類:1)とザ・ガ・ダ・バ行(小分類:2)のように分類できる。異聴発生尤度については、「補聴器フィッティングの考え方」(小寺一興、診断と治療社、1999年)を参照した。
 再び図7を参照する。呈示語音制御部70は、語音DB71を参照し呈示する語音を決定する。語音はたとえばランダムな順序で選択・決定しても良いし、語音明瞭度評価部100から未評価/再評価な語音の情報を受けて決定しても良い。また、呈示語音制御部70は、どの語音と異聴発声尤度が高いかの情報を得るため、意図的に呈示された音声とは一致しない文字を選択する。不一致の文字の選択は、語音DB71において呈示された音声に対応付けられていない文字を選択することを意味する。音声に対応付けられていなければ任意の文字を選択してもよい。たとえば語音DB71に保存されているグループ分けの情報を利用し近いグループの行から母音を変えずに行っても良いし、子音を変えずに母音だけ変えた文字を選択しても良い。なお、一致する文字の選択は、上述の語音DB71において、呈示される音声の音声ファイルに対応付けられた「文字」の選択により実現される。
 呈示語音制御部70は、このようにして決定した音声および文字をそれぞれ音声出力部11と文字出力部12を介してユーザ5に呈示する。また、文字呈示時刻に合わせてトリガおよび呈示音声・文字の内容を期待はずれ検出部60に送信する。
 音声出力部11は、呈示語音制御部70より指定された単音節の音声を再生し、ユーザ5に呈示する。
 文字出力部12は、呈示語音制御部70より指定された単音節の文字をユーザ5に呈示する。
 生体信号計測部50は、ユーザ5の生体信号を計測する脳波計であり、生体信号として脳波を計測する。ユーザ5はあらかじめ脳波計を装着しているものとする。
 期待はずれ検出部60は、呈示語音制御部70から受けたトリガを起点に所定区間(たとえば-100から1000msの区間)の事象関連電位を、生体信号計測部50で計測したユーザ5の脳波から切り出す。
 その後、期待はずれ検出部60は、呈示語音制御部70から受けた呈示音声・文字の内容に応じて切り出した事象関連電位の加算平均を行う。加算平均は、音声と文字の語音が一致している場合、不一致の場合に分けて行う。たとえば不一致の場合にはグループの大分類・中分類・小分類ごとに行う。ここでいう大分類、中分類、小分類とは、先に図8を参照しながら説明した分類を意味している。
 このように加算平均を計算することで、一致、不一致の大分類・中分類・小分類ごとにある程度加算回数が確保された加算波形がそれぞれ得られるため、どのグループとの異聴が生じたかが測定できる。次に、期待はずれ検出部60は、事象関連電位を識別し期待はずれ信号の有無を判定する。
 期待はずれ検出部60は以下の方法によって期待はずれ信号の有無を識別する。たとえば、期待はずれ検出部60は、潜時550-650msの最大振幅や潜時500-700msの区間平均電位を所定の閾値と比較する。そして、区間平均電位が閾値より大きい場合には「期待はずれあり」と識別し、小さい場合を「期待はずれなし」と識別しても良い。または、期待はずれ検出部60は、典型的な期待はずれ信号の波形から作成した所定のテンプレートとの類似度(たとえば相関係数)によって類似している場合を「期待はずれあり」と識別し、類似していない場合を「期待はずれなし」と識別しても良い。所定の閾値やテンプレートは、予め保持した一般的なユーザの期待はずれ信号の波形から算出・作成しても良いし、個人ごとの期待はずれ信号の波形から算出・作成しても良い。
 P300成分検出部61は、期待はずれ検出部60で期待はずれ信号が検出された場合に期待はずれ信号検出部60から事象関連電位を示す情報を受け取り、P300成分の有無を判定する。
 P300成分検出部61は、以下の方法によってP300成分の有無を識別する。たとえばP300成分検出部61は、潜時250-350の最大振幅や潜時250-350msの区間平均電位を所定の閾値と比較する。そして、区間平均電位が閾値よりも大きい場合を「P300成分あり」と識別し、小さい場合を「P300成分なし」と識別しても良い。または、P300成分検出部61は、典型的なP300成分の波形から作成した所定のテンプレートとの類似度によって、類似している場合を「P300成分あり」と識別し、類似していない場合を「P300成分なし」と識別しても良い。所定の閾値やテンプレートは、予め保持した一般的なユーザのP300成分波形から算出又は作成してもよいし、個人ごとのP300成分の波形から算出又は作成しても良い。
 語音明瞭度評価部80は、期待はずれ検出部60から語音ごとに一致/不一致の文字に対する期待はずれ信号の有無の情報を受けとる。期待はずれ信号なしの場合には、語音明瞭度評価部80は、さらにP300成分検出部61よりP300信号の有無の情報を受ける。語音明瞭度評価部100は、受け取ったこれらの情報に基づいて、語音明瞭度を評価する。
 図9は、明瞭度の評価基準例を示す。図9に示すように、語音明瞭度評価は、明瞭度が高い場合を「○」、明瞭度が低い場合を「×」、明瞭度が不明な場合を「-」として、図9に示す基準にしたがって、音声と文字の一致/不一致および期待はずれ信号・P300成分の有無に基づいて行う。明瞭度が不明な場合(「-」の場合)には、語音明瞭度評価部80は、呈示語音制御部70にどの語音が不明であったという情報を送信し、該当語音の再呈示を求める。語音が再呈示されることによって最終的には全ての語音に対して「○」または「×」の評価が可能となる。
 図10は、語音明瞭度評価結果の例を示す。図10に示すように、各語音について、一致、および、不一致のうち大分類、中分類、小分類ごとに○/×で評価することが可能になる。これにより、たとえば図10の語音「な」のように語音明瞭度が低い場合には、どのグループとの聞き分けができていないかが明確になる。また、たとえば「や」のように、音声と文字との一致は正しく識別できたが、中分類において聞き取り間違いが生じるような潜在的な明瞭度の低さの検出も可能である。また、たとえば語音明瞭度が高いと評価した○の確率を語音ごとに算出し、算出した高明瞭度確率を最終的な語音明瞭度評価としても良い。
 3.2.語音明瞭度評価システムの動作
 次に、図11を参照しながら図7の語音明瞭度評価システム100において行われる全体的な処理手順を説明する。図11は、語音明瞭度評価システム100において行われる処理の手順を示すフローチャートである。
 ステップS101において、呈示語音制御部70は語音DB71を参照しながら呈示する単音節の語音を決定し、音声出力部11を介してユーザ5に音声を呈示し、呈示した音声の情報を期待はずれ検出部60に送信する。呈示する語音はDB71からランダムに選択しても良いし、語音明瞭度評価部100から未評価/再評価な語音の情報を受けて決定しても良い。
 ステップS102において、呈示語音制御部70は語音DB71を参照して呈示する文字を選択・決定し、文字出力部12を介してユーザ5に文字を呈示する。また、呈示語音制御部70は、文字を呈示したタイミングで期待はずれ検出部60にトリガおよび選択した文字の情報を送信する。文字選択はステップS101で呈示した音声と一致した文字を選択しても良いし、語音DB71に保存されたグループ分けを参照して意図的に音声とは不一致な文字を選択しても良い。
 ステップS103において、期待はずれ検出部60は呈示語音制御部70からトリガを受けて、生体信号計測部50によって計測した脳波のうちたとえばトリガを起点に-100から1000msまでの事象関連電位を切り出す。そして-100から0msの平均電位にベースライン補正する。
 ステップS104において、期待はずれ検出部60はステップS103で切り出した事象関連電位を呈示語音制御部70から受けた呈示語音の情報に基づき加算平均を行う。ここで、「呈示語音の情報」とは、呈示した語音、提示した音声と文字とが一致か不一致か否かを含む情報である。また、加算平均は、音声と文字の語音が一致の場合、不一致の場合に分けて行い、たとえば不一致の場合にはグループの大・中・小分類ごとに行う。
 ステップS105において、期待はずれ検出部60はステップS104で加算平均した事象関連電位の波形を識別し期待はずれ信号の有無を判定する。期待はずれ信号の識別は、上述のように、閾値との比較によって行ってもよいし、テンプレートとの比較によって行ってもよい。
 ステップS106は、ステップS105の期待はずれ信号識別において期待はずれ信号が検出されたか否かによる分岐である。期待はずれ検出部60によって期待はずれ信号が検出された場合には処理はステップS108へ進み、検出されなかった場合には処理はステップS107へ進む。
 ステップS107において、P300成分検出部61は、期待はずれ検出部60から事象関連電位を示す情報を受け取り、P300成分が存在するか否かを識別する。P300成分が識別された場合には処理はステップS109に進み、識別されなかった場合には処理はステップS108へ進む。なお、P300成分の識別についても、上述のように、閾値との比較によって行ってもよいし、テンプレートとの比較によって行ってもよい。
 ステップS108において、語音明瞭度評価部80は、呈示語音制御部70に対して不明であった語音を特定する情報を送信し、該当語音の再呈示を指示する。
 ステップS109において、語音明瞭度評価部100は、期待はずれ検出部60から語音ごとに一致/不一致の文字に対する期待はずれ信号の有無の情報を受け、さらに期待はずれ信号がありの場合にはP300成分検出61よりP300信号の有無の情報を受けて語音明瞭度評価を行う。
 なお、「ステップS109からステップS101に戻る手順」は試行の繰り返しを示している。ステップS108の結果を含めた語音明瞭度評価を実施し、次に呈示する語音が決定される。
 語音明瞭度評価の基準は、図9に示したように音声と文字の一致/不一致および期待はずれ信号・P300成分の有無に基づいて行い、明瞭度が高い場合を「○」、明瞭度が低い場合を「×」、明瞭度が不明な場合を「-」として評価する。明瞭度が不明な場合には、呈示語音制御部70にどの語音が不明であったという情報を送信し該当語音の再呈示を指示する。
 このような処理によって、単音節の語音を音声と文字で順に呈示する設定で所定の確率で音声とは不一致な文字を呈示する条件において、文字呈示を起点とした事象関連電位の期待はずれ信号およびP300成分を用いて語音明瞭度評価を詳細に行うことが可能となる。
 上述の実施形態は日本語環境での適用例である。しかしながら、短時間の語音であれば他の言語、たとえば英語や中国語であってもよい。たとえば英語の場合には、図17(a)に示したような単音節の単語を音声と文字で呈示し、単語ごとの評価をしてもよいし、図17(b)に示したように発音記号ごとに評価してもよい。
 また、呈示語音制御部70は、ステップS101で呈示した音声と一致した文字を選択するか、不一致な文字を選択するか否かを、文字が呈示された時刻を起点として600ms±100msの区間における事象関連電位の振幅の変化に基づいて、行っても良い。
 期待はずれ検出部60は、音声と文字の一致/不一致毎に、上述した区間における事象関連電位の振幅の情報を時系列に保持する。そして、期待はずれ検出部60は、音声と文字の一致/不一致毎に、その事象関連電位の振幅変化を求める。なお、事象関連電位の振幅、および、事象関連電位の振幅変化の情報は、たとえば期待はずれ検出部60の内部に設けられる記録部に記録され、保持される。そのような記録部としては、たとえばコンピュータプログラム35および語音DB71が格納されているメモリ31(図6)が利用されてもよいし、メモリ31とは異なる記録媒体(たとえばフラッシュメモリ、ハードディスク)であってもよい。
 呈示語音制御部70は、音声と文字の一致の場合の事象関連電位の振幅変化が、音声と文字の不一致の場合の事象関連電位の振幅変化より小さい場合(同じ場合を含む)には、呈示した音声と一致する文字を選択する頻度を多くする。また、呈示語音制御部70は、音声と文字一致の場合の事象関連電位の振幅変化が、音声と文字の不一致の場合の事象関連電位の振幅変化より大きい場合には、呈示した音声と不一致の文字を選択する頻度を多くする。
 これにより、音声と文字の一致/不一致のうち、振幅変化が小さい方の事象関連電位を多く計測することができる。したがって、振幅変化が小さい場合の事象関連電位を加算する波形の情報が多くなるため、期待はずれ信号の有無の判定の精度を向上させることができる。
 本実施形態の語音明瞭度評価システム100によれば、回答入力が不要でユーザは音声を聞いて文字を確認するだけで語音明瞭度評価が実現される。これによって、評価に要するユーザの手間が格段に低減される。
 4.実施形態2
 実施形態1による語音明瞭度評価システム100では、語音DB71に保存された音声に対する語音明瞭度を、音声と文字を順次呈示し文字呈示に対する期待はずれ信号の有無を調べることで評価した。しかし、期待はずれの有無のみを判定し、語音明瞭度評価を○/×で行ったため、細かなフィッティングパラメータの違いが明瞭度評価結果に現れるほどの分解能がない可能性があった。前述のように補聴器のフィッティング手法は未確立でいくつかの手法が混在しており、ユーザごとに最適なフィッティング手法を探索する必要がある。そこで本実施形態では、複数のフィッティングパラメータのうち、どのフィッティングパラメータが適切であるかを評価する語音明瞭度評価システムを説明する。
 フィッティングは、オージオグラムの形状や主観報告によって求めた閾値、UCL、MCL(Most comfortable level:ユーザが快適に聞こえる音の大きさ)の関係から周波数ごとのゲイン調整を行うことによって実現される。「補聴器Q&A-より良いフィッティングのために」(神崎仁他、金原出版、2001年)の79ページによると、フィッティング手法の種類としては、たとえば各周波数の挿入利得をその周波数の最小可聴閾値の半分にするハーフゲイン法、これに会話音声の周波数帯域とレベルを考慮して1000Hzから4000Hzの増幅をやや増強したBerger法、ハーフゲイン法を基礎とし語音情報が少なく騒音成分が多い250Hzと500Hzの利得をそれぞれ10dB、5dB減じたPOGO法、言葉の長時間音響分析周波数が快適レベルに入るように増幅するNAL-R法がある。
 そこで、本実施形態による語音明瞭度評価システムでは、語音DB71に保存されている音声データを実際の補聴器が行うようにいくつかのフィッティング手法を用いて変換し、変換後の複数種類の音声をユーザに呈示し、期待はずれ信号の振幅を利用して、どのフィッティング手法が最適かの評価を行う。これは、前述の実験結果により明らかになった、期待はずれ信号の振幅が、ユーザが感じた音声と文字の不一致の度合いを反映するという性質を利用している。複数種類の音声への変換は、周波数ごとに音レベルを調整することによって実現される。たとえばフィッティング手法としてハーフゲイン法を用いる場合にはユーザのオージオグラムに基づき最小可聴閾値の半分になるように周波数ごとの利得を調整して行う。
 図12は、本実施形態による語音明瞭度評価システム200の機能ブロックの構成を示す。語音明瞭度評価システム200は、音声出力部11と、文字出力部12と、生体信号計測部50と、語音明瞭度評価装置2とを有している。図7と同じブロックについては同一の参照符号を付し、その説明は省略する。なお、語音明瞭度評価装置2のハードウェア構成は、図6に示すとおりである。プログラム35(図6)と異なる処理を規定するプログラムが実行されることにより、図12に示す本実施形態による語音明瞭度評価装置2が実現される。
 なお、本実施形態においては、複数のフィッティング手法の評価を行う関係上、ユーザはあらかじめ補聴器を装着しているとする。ただし補聴器を装着しない代わりに、たとえば図5に示す音声出力部11(スピーカー)から各フィッティング手法適用後の音声を出力してもよい。
 本実施形態による語音明瞭度評価装置2が、実施形態1による語音明瞭度評価装置1との相違する点は、語音明瞭度評価部80に代えて、語音変換制御部90およびフィッティング手法91を設けた点にある。
 以下、語音変換制御部90およびフィッティング手法評価部91を説明する。
 語音変換制御部90は、あらかじめ計測したユーザ5のオージオグラムに基づき、複数種類のフィッティング手法を参照して語音DB71に保存されている音声データをそれぞれ変換する。上述のとおり、フィッティング手法としては、ハーフゲイン法、Berger法、POGO法、NAL-R法などがある。
 フィッティング手法評価部91は、期待はずれ検出部60より文字呈示を起点とした事象関連電位の振幅としてたとえば潜時500-700msの区間平均電位の情報を受け取る。さらにフィッティング手法評価部91は、期待はずれ信号なしの場合にはP300成分検出部61よりP300信号の有無の情報を受け取る。なお、期待はずれ検出部60より取得する情報は、たとえば潜時550-650msの最大振幅でも良い。
 そしてフィッティング手法評価部91は、各フィッティング手法について、音声刺激と文字刺激の不一致/一致ごとに事象関連電位の振幅を検査対象とした全ての語音で加算平均し、不一致の場合の振幅から一致の場合の振幅を引いて期待はずれ信号(LPP)の振幅を算出する。
 図13は、フィッティング手法A~Cの各々について算出された種々の事象関連電位の振幅を示す。たとえば、フィッティング手法Aはハーフゲイン法、フィッティング手法BはBerger法、フィッティング手法CはPOGO法としている。
 次にフィッティング手法評価部91は、フィッティング手法ごとに期待はずれ信号(LPP)の振幅を比較する。語音明瞭度が高い場合には、音声に不一致の文字の刺激に対して期待はずれ信号の振幅が大きく、音声に一致する文字の刺激に対しては振幅は出現しない。よってそれらの引き算の結果である期待はずれ信号(LPP)の振幅は大きくなる。一方、語音明瞭度が低い場合には、音声に不一致の文字の刺激に対する期待はずれ信号の振幅が小さく、加えて聞き取りの間違いにより音声に一致する文字の刺激に対しても期待はずれ信号が出現する。よって期待はずれ信号(LPP)の振幅は小さくなる。ゆえに、LPPの振幅に基づき、ユーザ5にはどのフィッティング手法が最適かの順序付けが可能となる。
 図14は、フィッティング手法の評価結果の例を示す。この評価結果は、図13の例に基づいて算出したものである。図14ではLPP振幅に基づき、LPP振幅が大きいフィッティング手法Aをユーザ5に適したフィッティング手法として「◎」と評価し、LPP振幅が小さいフィッティング手法Bを「×」と評価する例を示している。
 一音のみでLPP振幅を演算してもよいが、多くの音についてLPP振幅を演算し、その差の平均によって上述の処理を行うことにより、より精度を高めることができる。
 なお、上述の処理(図14)では、LPP振幅の大きさに応じて、フィッティング手法の評価を「◎」、「×」または「△」に決定していたが、これは例である。最適なフィッティング手法を選べることが可能であれば、その表示方法は任意である。また、LPP振幅の大きさと比較される閾値をあらかじめ定めておき、その閾値を超える場合には、どれでも適切なフィッティング手法であるとしてユーザに通知してもよい。
 次に、図15のフローチャートを参照しながら、語音明瞭度評価システム200において行われる全体的な処理の手順を説明する。
 図15は、本実施形態による語音明瞭度システム200の処理手順を示す。図15では、語音明瞭度評価システム100の処理(図11)と同じ処理を行うステップについては同一の参照符号を付し、その説明は省略する。
 本実施形態による語音明瞭度評価システム200の処理が実施形態1による語音明瞭度評価システム200の処理と相違する点は、ステップS201、ステップS202およびステップS203を新たに追加した点である。
 ステップS201において、語音変換制御部90は語音DB71およびあらかじめ計測されたユーザ5のオージオグラムを参照し、フィッティング手法ごとに複数セットの音声を作成する。
 ステップS202において、フィッティング手法評価部91は期待はずれ検出部60から受け取った事象関連電位の振幅の情報を、各フィッティング手法の音声刺激と文字刺激の不一致/一致ごとに事象関連電位の振幅を検査対象とした全ての語音で加算平均し、不一致の場合の振幅から一致の場合の振幅を引いてLPPの振幅を算出する。
 ステップS203において、フィッティング手法評価部91はステップS203で算出したLPPの振幅に基づき、最もLPP振幅が大きいフィッティング手法をユーザに最適なフィッティング手法として通知する。
 このような処理によって、フィッティング手法の種類ごとに、かつ、各フィッティング手法の語音ごとに期待はずれ信号の振幅が計測されるため、振幅の比較によりユーザに最適なフィッティング手法の発見が可能となる。これにより、フィッティング手法の評価が実現される。
 本実施形態の語音明瞭度評価システム200によれば、ユーザごとに最適なフィッティング手法を自動的に突き止めることが可能となる。これによって探索的なフィッティングが不要となるためフィッティングに要する時間が格段に短縮する。
 なお、本実施形態においては、不一致の場合の事象関連電位振幅から一致の場合の事象関連電位の振幅を減算してLPPの振幅を算出したが、これは例である。減算によってLPPの振幅を求める代わりに、一致の場合の事象関連電位の振幅に対する不一致の場合の事象関連電位振幅の割合(比)を計算してもよい。フィッティング手法評価部91は、比が最も大きいフィッティング手法をユーザに最適なフィッティング手法として通知してもよい。
 本発明の語音明瞭度評価装置および語音明瞭度評価装置が組み込まれた語音明瞭度評価システムによれば、ユーザの回答入力なしに語音明瞭度の評価が実現できる。また、ユーザに最適なフィッティング方法を特定できる。これにより補聴器のフィッティングが簡易かつ高精度に実施できるため、補聴器のユーザが飛躍的に増える。
 5  ユーザ
 1、2 語音明瞭度評価装置
 11 音声出力部
 12 文字出力部
 50 生体信号計測部
 60 期待はずれ検出部
 61 P300成分検出部
 70 呈示語音制御部
 71 語音DB
 80 語音明瞭度評価部
 90 語音変換制御部
 91 語音明瞭度評価部
 100、200 語音明瞭度評価システム

Claims (17)

  1.  ユーザの脳波信号を計測する生体信号計測部と、
     音声を呈示する音声出力部と、
     文字を呈示する文字出力部と、
     単音節の語音を複数保持している語音データベースを参照して呈示する語音を決定し、決定した前記語音が、前記音声出力部および前記文字出力部を介して音声、文字の順に呈示されるよう制御する呈示語音制御部と、
     前記生体信号計測部で計測された前記ユーザの脳波信号から、前記文字が呈示された時刻を起点として600ms±100msにおける陽性成分の有無を判定する期待はずれ検出部と、
     前記期待はずれ検出部の判定結果に基づき語音明瞭度を判定する語音明瞭度評価部と
     を備えた語音明瞭度評価システム。
  2.  前記呈示語音制御部は、所定の頻度で、前記音声と不一致な文字を呈示する、請求項1に記載の語音明瞭度評価システム。
  3.  前記語音明瞭度評価部は、
     前記ユーザに呈示された前記音声と前記文字の語音とが一致する場合には、前記文字が呈示された時刻を起点として600ms±100msに陽性成分が有る場合に明瞭度が低く、前記文字が呈示された時刻を起点として600ms±100msに陽性成分が無い場合に明瞭度が高いと判定し、
     前記音声と前記文字の語音が異なる場合には、前記文字が呈示された時刻を起点として600ms±100msに陽性成分が有る場合に明瞭度が高く、前記文字が呈示された時刻を起点として600ms±100msに陽性成分が無い場合に明瞭度が低いと判定する、請求項1に記載の語音明瞭度評価システム。
  4.  前記生体信号計測部で計測された前記ユーザの脳波信号から、前記文字が呈示された時刻を起点として300ms±50msにおける陽性成分の有無を判定するP300成分検出部をさらに備え、
     前記期待はずれ検出部が前記陽性成分が存在しないと判定したとき、前記P300成分検出部は、300ms±50msにおける陽性成分の有無を判定し、前記語音明瞭度評価部は、前記期待はずれ検出部の判定結果、および、前記P300成分検出部の判定結果に基づいて、前記語音明瞭度を判定する、請求項1に記載の語音明瞭度評価システム。
  5.  前記語音明瞭度評価部は、
     前記ユーザに呈示された前記音声と前記文字の語音とが一致する場合には、
      前記文字が呈示された時刻を起点として600ms±100msに陽性成分が有る場合に明瞭度が低いと判定し、
      前記文字が呈示された時刻を起点として600ms±100msに陽性成分が無く、前記文字が呈示された時刻を起点として300ms±100msに場合に陽性成分が有る場合に明瞭度が高いと判定し、
      前記文字が呈示された時刻を起点として600ms±100msに陽性成分が無く、前記文字が呈示された時刻を起点として300ms±100msに場合に陽性成分が無い場合に、前記文字出力部が呈示した文字を前記ユーザが見ていなかったと判定し、
     前記音声と前記文字の語音が異なる場合には、
      前記文字が呈示された時刻を起点として600ms±100msに陽性成分が有る場合に明瞭度が高いと判定し、
      前記文字が呈示された時刻を起点として600ms±100msに陽性成分が無く、前記文字が呈示された時刻を起点として300ms±100msに場合に陽性成分が有る場合に明瞭度が低いと判定し、
      前記文字が呈示された時刻を起点として600ms±100msに陽性成分が無く、前記文字が呈示された時刻を起点として300ms±100msに場合に陽性成分が無い場合に、前記文字出力部が呈示した文字を前記ユーザが見ていなかったと判定する、請求項2に記載の語音明瞭度評価システム。
  6.  前記語音データベースでは、共通の語音についての音声、文字および異聴発生尤度に関するグループが対応付けられている、請求項1に記載の語音明瞭度評価システム。
  7.  前記語音データベースには、複数の語音の各々について、音声、文字および異聴発生尤度に関するグループが対応付けられている、請求項6に記載の語音明瞭度評価システム。
  8.  前記呈示語音制御部は、前記語音データベースの異聴発生尤度に関するグループを参照し、前記音声に対応付けられていない文字を所定の頻度で呈示する、請求項7に記載の語音明瞭度評価システム。
  9.  前記語音明瞭度評価部は、前記音声と前記文字の語音が一致する場合に加えて、前記音声と前記文字の語音が異なる場合には、前記異聴発生尤度に関するグループごとに語音明瞭度を評価する、請求項8に記載の語音明瞭度評価システム。
  10.  前記語音データベースに保存された音声を、前記ユーザが装着している補聴器のフィッティング方法に合わせて、複数種類の音声に変換する語音変換制御部を備えた、請求項1に記載の語音明瞭度評価システム。
  11.  前記語音変換制御部によって複数種類に変換された音声が前記音声出力部を介して呈示された場合に、前記語音明瞭度評価部は、前記事象関連電位のフィッティング方法ごとの振幅を比較し、比較結果に応じて、前記ユーザに適しているフィッティング方法を判定する、請求項10に記載の語音明瞭度評価システム。
  12.  前記期待はずれ検出部は、前記文字が呈示された時刻を起点として600ms±100msにおける事象関連電位の振幅の情報を、前記音声と前記文字との一致または不一致毎に保持して、前記音声と前記文字との一致または不一致毎の前記事象関連電位の振幅の変化を求め、
     前記呈示語音制御部は、
      前記音声と前記文字とが一致する場合の前記事象関連電位の振幅変化が、不一致の場合の前記事象関連電位の振幅変化以下の場合には、呈示した音声と一致する文字を選択する頻度を上げ、
      前記音声と前記文字とが一致する場合の前記事象関連電位の振幅変化が、不一致の場合の前記事象関連電位の振幅変化より大きい場合には、呈示した音声と不一致の文字を選択する頻度を上げる、請求項2に記載の語音明瞭度評価システム。
  13.  単音節の語音を複数保持している語音データベースを参照して呈示する語音を決定し、音声を呈示するステップと、
     前記語音データベースを参照して呈示する語音を決定し、前記音声の提示後に文字を呈示するステップと、
     ユーザの脳波信号を計測するステップと、
     計測された前記ユーザの脳波信号から、前記文字が呈示された時刻を起点として600ms±100msにおける陽性成分の有無を判定するステップと、
     前記期待はずれ検出部の判定結果に基づき語音明瞭度を判定するステップと
     を包含する、語音明瞭度の評価方法。
  14.  文字を呈示する前記ステップは、所定の頻度で、前記音声と不一致な文字を呈示する、請求項13に記載の語音明瞭度評価方法。
  15.  陽性成分の有無を判定する前記ステップは、前記文字が呈示された時刻を起点として600ms±100msにおける事象関連電位の振幅の情報を、前記音声と前記文字との一致または不一致毎に保持して、前記音声と前記文字との一致または不一致毎の前記事象関連電位の振幅の変化を求め、
     文字を呈示する前記ステップは、
      前記音声と前記文字とが一致する場合の前記事象関連電位の振幅変化が、不一致の場合の前記事象関連電位の振幅変化以下の場合には、呈示した音声と一致する文字を選択する頻度を上げて前記文字を提示し、
      前記音声と前記文字とが一致する場合の前記事象関連電位の振幅変化が、不一致の場合の前記事象関連電位の振幅変化より大きい場合には、呈示した音声と不一致の文字を選択する頻度を上げて前記文字を提示する、請求項14に記載の語音明瞭度評価方法。
  16.  コンピュータによって実行されるコンピュータプログラムであって、
     前記コンピュータプログラムは、前記コンピュータに対し、
     単音節の語音を複数保持している語音データベースを参照して呈示する語音を決定し、音声を呈示するステップと、
     前記語音データベースを参照して呈示する語音を決定し、前記音声の提示後に文字を呈示するステップと、
     ユーザの脳波信号を計測するステップと、
     計測された前記ユーザの脳波信号から、前記文字が呈示された時刻を起点として600ms±100msにおける陽性成分の有無を判定するステップと、
     前記期待はずれ検出部の判定結果に基づき語音明瞭度を判定するステップと
     を実行させる、語音明瞭度を評価するためのコンピュータプログラム。
  17.  文字を呈示する前記ステップは、所定の頻度で、前記音声と不一致な文字を呈示する、請求項16に記載のコンピュータプログラム。
PCT/JP2009/007111 2008-12-22 2009-12-22 語音明瞭度評価システム、その方法およびそのコンピュータプログラム WO2010073614A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN2009801299234A CN102112051B (zh) 2008-12-22 2009-12-22 语音清晰度评价系统、其方法
JP2010519034A JP4638558B2 (ja) 2008-12-22 2009-12-22 語音明瞭度評価システム、その方法およびそのコンピュータプログラム
US12/959,513 US8655439B2 (en) 2008-12-22 2010-12-03 System and method of speech discriminability assessment, and computer program thereof

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008-326176 2008-12-22
JP2008326176 2008-12-22

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US12/959,513 Continuation US8655439B2 (en) 2008-12-22 2010-12-03 System and method of speech discriminability assessment, and computer program thereof

Publications (1)

Publication Number Publication Date
WO2010073614A1 true WO2010073614A1 (ja) 2010-07-01

Family

ID=42287261

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/007111 WO2010073614A1 (ja) 2008-12-22 2009-12-22 語音明瞭度評価システム、その方法およびそのコンピュータプログラム

Country Status (4)

Country Link
US (1) US8655439B2 (ja)
JP (1) JP4638558B2 (ja)
CN (1) CN102112051B (ja)
WO (1) WO2010073614A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010146188A3 (en) * 2010-09-14 2011-08-11 Phonak Ag Method for adjusting a hearing device as well as an arrangement for adjusting a hearing device
WO2012070212A1 (ja) * 2010-11-24 2012-05-31 パナソニック株式会社 うるささ判定システム、装置、方法およびプログラム
WO2013057928A1 (ja) * 2011-10-18 2013-04-25 パナソニック株式会社 聴覚事象関連電位計測システム、聴覚事象関連電位計測装置、聴覚事象関連電位計測方法およびそのコンピュータプログラム
JP2015188735A (ja) * 2014-03-31 2015-11-02 リオン株式会社 言葉の聞き取り検査装置とその方法
JPWO2015111331A1 (ja) * 2014-01-23 2017-03-23 国立研究開発法人産業技術総合研究所 認知機能評価装置、方法、システム及びプログラム
JP2018011300A (ja) * 2016-07-14 2018-01-18 シバントス ピーティーイー リミテッド 補聴器の機能および/または取付位置をチェックするための方法
JP2018175530A (ja) * 2017-04-17 2018-11-15 国立大学法人 鹿児島大学 自閉症スペクトラム障害診断支援装置、自閉症スペクトラム障害診断支援方法及びプログラム

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103189001B (zh) * 2011-10-19 2015-11-25 松下电器产业株式会社 听觉事件相关电位测量系统、听觉事件相关电位测量方法
CN103054586B (zh) * 2012-12-17 2014-07-23 清华大学 一种基于汉语言语测听动态词表的汉语言语自动测听方法
CN104200817B (zh) * 2014-07-31 2017-07-28 广东美的制冷设备有限公司 语音控制方法和系统
CN105869656B (zh) * 2016-06-01 2019-12-31 南方科技大学 一种语音信号清晰度的确定方法及装置
CN106531183A (zh) * 2016-11-17 2017-03-22 中国传媒大学 一种基于传输系统声学参量的汉语语音清晰度评测算法
CN108682430B (zh) * 2018-03-09 2020-06-19 华南理工大学 一种客观评价室内语言清晰度的方法
CN112135564B (zh) * 2018-05-23 2024-04-02 松下知识产权经营株式会社 摄食吞咽功能评价方法、记录介质、评价装置以及评价系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63255041A (ja) * 1987-04-10 1988-10-21 永島医科器械株式会社 語音聴力検査装置
JPH0938069A (ja) * 1995-08-02 1997-02-10 Nippon Telegr & Teleph Corp <Ntt> 語音聴力検査方法およびこの方法を実施する装置
WO2006003901A1 (ja) * 2004-07-02 2006-01-12 Matsushita Electric Industrial Co., Ltd. 生体信号利用機器およびその制御方法
JP2006023566A (ja) * 2004-07-08 2006-01-26 Matsushita Electric Ind Co Ltd 理解度判定装置および方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06114038A (ja) 1992-10-05 1994-04-26 Mitsui Petrochem Ind Ltd 聴覚検査・訓練装置
JPH0739540A (ja) 1993-07-30 1995-02-10 Sony Corp 音声解析装置
US5601091A (en) 1995-08-01 1997-02-11 Sonamed Corporation Audiometric apparatus and association screening method
WO2001087147A2 (en) * 2000-05-19 2001-11-22 Michael Sasha John System and method for objective evaluation of hearing using auditory steady-state responses
WO2004057036A1 (en) * 2002-12-23 2004-07-08 Council Of Scientific And Industrial Research Process for preparing a synthetic aluminium tanning agent
WO2005001677A1 (ja) 2003-06-27 2005-01-06 Matsushita Electric Industrial Co., Ltd. サービス提供装置
US7477157B2 (en) * 2004-10-15 2009-01-13 Endress + Hauser Gmbh + Co. Kg Apparatus for determining and/or monitoring a process variable of a medium
US8165687B2 (en) * 2008-02-26 2012-04-24 Universidad Autonoma Metropolitana, Unidad Iztapalapa Systems and methods for detecting and using an electrical cochlear response (“ECR”) in analyzing operation of a cochlear stimulation system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63255041A (ja) * 1987-04-10 1988-10-21 永島医科器械株式会社 語音聴力検査装置
JPH0938069A (ja) * 1995-08-02 1997-02-10 Nippon Telegr & Teleph Corp <Ntt> 語音聴力検査方法およびこの方法を実施する装置
WO2006003901A1 (ja) * 2004-07-02 2006-01-12 Matsushita Electric Industrial Co., Ltd. 生体信号利用機器およびその制御方法
JP2006023566A (ja) * 2004-07-08 2006-01-26 Matsushita Electric Ind Co Ltd 理解度判定装置および方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010146188A3 (en) * 2010-09-14 2011-08-11 Phonak Ag Method for adjusting a hearing device as well as an arrangement for adjusting a hearing device
AU2010261722B2 (en) * 2010-09-14 2015-01-29 Phonak Ag Method for adjusting a hearing device as well as an arrangement for adjusting a hearing device
US9204226B2 (en) 2010-09-14 2015-12-01 Sonova Ag Method for adjusting a hearing device as well as an arrangement for adjusting a hearing device
WO2012070212A1 (ja) * 2010-11-24 2012-05-31 パナソニック株式会社 うるささ判定システム、装置、方法およびプログラム
JP5144835B2 (ja) * 2010-11-24 2013-02-13 パナソニック株式会社 うるささ判定システム、装置、方法およびプログラム
CN103053179A (zh) * 2010-11-24 2013-04-17 松下电器产业株式会社 嘈杂度判定系统、装置、方法以及程序
US9149214B2 (en) 2010-11-24 2015-10-06 Panasonic Intellectual Property Management Co., Ltd. Annoyance judgment system, apparatus, method, and program
WO2013057928A1 (ja) * 2011-10-18 2013-04-25 パナソニック株式会社 聴覚事象関連電位計測システム、聴覚事象関連電位計測装置、聴覚事象関連電位計測方法およびそのコンピュータプログラム
JPWO2015111331A1 (ja) * 2014-01-23 2017-03-23 国立研究開発法人産業技術総合研究所 認知機能評価装置、方法、システム及びプログラム
JP2015188735A (ja) * 2014-03-31 2015-11-02 リオン株式会社 言葉の聞き取り検査装置とその方法
JP2018011300A (ja) * 2016-07-14 2018-01-18 シバントス ピーティーイー リミテッド 補聴器の機能および/または取付位置をチェックするための方法
JP2018175530A (ja) * 2017-04-17 2018-11-15 国立大学法人 鹿児島大学 自閉症スペクトラム障害診断支援装置、自閉症スペクトラム障害診断支援方法及びプログラム

Also Published As

Publication number Publication date
US20110071828A1 (en) 2011-03-24
US8655439B2 (en) 2014-02-18
CN102112051B (zh) 2013-07-17
JPWO2010073614A1 (ja) 2012-06-07
JP4638558B2 (ja) 2011-02-23
CN102112051A (zh) 2011-06-29

Similar Documents

Publication Publication Date Title
JP4638558B2 (ja) 語音明瞭度評価システム、その方法およびそのコンピュータプログラム
JP4690507B2 (ja) 語音明瞭度評価システム、その方法およびそのプログラム
JP4769336B2 (ja) 補聴器の調整装置、方法およびプログラム
JP5144835B2 (ja) うるささ判定システム、装置、方法およびプログラム
JP5002739B2 (ja) 聴力判定システム、その方法およびそのプログラム
Divenyi et al. Audiological correlates of speech understanding deficits in elderly listeners with mild-to-moderate hearing loss. I. Age and lateral asymmetry effects
US8849391B2 (en) Speech sound intelligibility assessment system, and method and program therefor
Martin et al. Effects of low-pass noise masking on auditory event-related potentials to speech
JP5144836B2 (ja) 語音聴取の評価システム、その方法およびそのプログラム
Souza et al. New perspectives on assessing amplification effects
Niemczak et al. Informational masking effects on neural encoding of stimulus onset and acoustic change
Zhou et al. Relationship between multipulse integration and speech recognition with cochlear implants
Kuruvilla-Mathew et al. Cortical encoding of speech acoustics: Effects of noise and amplification
Wu et al. Influence of three auditory profiles on aided speech perception in different noise scenarios
Shehorn et al. Amplification effects on the acoustic change complex in older adults with sensorineural hearing loss
Wright et al. A Pilot Study on the Effects of Nonlinear Frequency Compression on Performance of Individuals Who Speak Mandarin Chinese.
Rahne et al. Logatome discrimination in cochlear implant users: subjective tests compared to the mismatch negativity
Calandruccio et al. Perception of temporally processed speech by listeners with hearing impairment
Tavakoli et al. Is Acceptable Noise Level Affected by the Number of Competitive Talkers
Nicholaou Critical Review: Based on its effect on speech and phoneme recognition in children, should frequency lowering be used in pediatric amplification?

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200980129923.4

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2010519034

Country of ref document: JP

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09834422

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09834422

Country of ref document: EP

Kind code of ref document: A1