WO2007017993A1 - 発音期間を特定する音信号処理装置および音信号処理方法 - Google Patents

発音期間を特定する音信号処理装置および音信号処理方法 Download PDF

Info

Publication number
WO2007017993A1
WO2007017993A1 PCT/JP2006/312917 JP2006312917W WO2007017993A1 WO 2007017993 A1 WO2007017993 A1 WO 2007017993A1 JP 2006312917 W JP2006312917 W JP 2006312917W WO 2007017993 A1 WO2007017993 A1 WO 2007017993A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound signal
sound
acquired
trigger signal
predetermined
Prior art date
Application number
PCT/JP2006/312917
Other languages
English (en)
French (fr)
Inventor
Yasuo Yoshioka
Original Assignee
Yamaha Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corporation filed Critical Yamaha Corporation
Priority to EP06767534A priority Critical patent/EP1906385A4/en
Priority to JP2007506392A priority patent/JP5388447B2/ja
Priority to CN2006800209311A priority patent/CN101194304B/zh
Priority to US11/916,993 priority patent/US8300834B2/en
Publication of WO2007017993A1 publication Critical patent/WO2007017993A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Definitions

  • the present invention relates to a technique for identifying a portion indicating a sound during a pronunciation period from a sound signal.
  • a period in which the SZN (Signal-Noise) ratio of the acquired sound signal exceeds a predetermined SZN ratio threshold is specified as the sound generation period.
  • This method is widely used.
  • the level of environmental noise during the non-sounding period varies variously in the environment where the sound signal is acquired. Therefore, if the sound generation period is specified by the SZN ratio using a fixed noise level, the non-sound generation period is mistakenly specified as the sound generation period in the sound signal acquired in an environment with a high level of environmental noise. In a sound signal acquired in an environment where the noise level is low, the pronunciation period is mistakenly identified as a non-sounding period.
  • Patent Document 1 discloses a technique that uses different noise levels depending on the genre of content indicated by audio-added video information when extracting audio information. Is disclosed.
  • Patent Document 1 Japanese Unexamined Patent Publication No. 2003-101939
  • the sound signal is divided into frames of a predetermined time length, and the SZN ratio in the subsequent frame is determined based on the attribute value of the frame that has been identified as a non-sounding period in the past
  • a technique for updating the noise level used in the calculation of the above is disclosed.
  • Patent Document 2 JP 2001-265367 A
  • a terminal device that performs user authentication by speaking.
  • the user makes a predetermined utterance to the terminal device provided with sound collection means.
  • the terminal device extracts a feature amount from a sound signal indicating the utterance of the user, and compares the feature amount relating to the correct user utterance stored in advance with the newly extracted feature amount, so that the user can It is determined whether or not the user is a correct user.
  • the terminal device needs to specify the sound generation period during which the user uttered the sound signal acquired by the sound collection means.
  • the level of environmental noise in the sound space when identity authentication is performed changes variously, if the pronunciation period is specified by the SZN ratio using a fixed noise level, the correct result is not always obtained. Is not limited.
  • the pitch detection apparatus that detects the pitch of the musical instrument performance sound by the user has the same problem as the terminal apparatus that performs the above-described voice authentication.
  • the present invention provides a sound signal processing device and a sound signal processing method capable of specifying a sound generation period in a sound signal with high accuracy even in a situation where changes in environmental noise are unpredictable.
  • the purpose is to provide.
  • the present invention provides sound signal acquisition means for continuously acquiring a sound signal, and the sound signal acquisition means for a predetermined period with the current time as an end point.
  • a sound level index value using the sound signal acquired by the sound signal acquisition means after the trigger signal is acquired, the storage means for storing the received sound signal, the trigger signal acquisition means for acquiring the trigger signal, When the trigger signal is acquired by the trigger signal acquisition means! And stored in the storage means!
  • the noise level index value is calculated using the sound signal
  • the SZN ratio is calculated by dividing the sound level index value by the noise level index value, and whether the SZN ratio satisfies a predetermined condition.
  • a sound signal processing apparatus comprising: a specifying unit that specifies a portion of the sound signal acquired by the sound signal acquiring unit after the trigger signal is acquired by determining whether the sound signal is in a sound generation period. I will provide a.
  • the SZN ratio is calculated by regarding the sound signal acquired and stored before acquisition of the trigger signal as a sound signal indicating only environmental noise, and sound generation is performed based on the SZN ratio. As a result of specifying the period, a highly accurate specification result is obtained.
  • the trigger signal acquisition unit may be configured to acquire a trigger signal generated by the operation unit in response to a predetermined operation by the user, or to generate a sound to the user. It may be configured to acquire a trigger signal generated along with the notification by a notification unit that performs a notification for prompting.
  • the specifying means includes an index value indicating power of a component of a predetermined frequency of the sound signal acquired by the sound signal acquiring means after the trigger signal is acquired;
  • the index value indicating the power of the component of the predetermined frequency of the sound signal stored in the storage means is used, and the sound level index value and the noise level It may be configured to calculate each index value of ⁇ .
  • the specifying unit is triggered by the amplitude value of the sound signal acquired by the sound signal acquiring unit and the trigger signal acquiring unit after the trigger signal is acquired.
  • the sound level index value and the noise level index value may be respectively calculated using the amplitude value of the sound signal stored in the storage means at the time when the signal is acquired. ,.
  • the specifying unit may acquire the trigger signal.
  • the SZN ratio is calculated for each of a plurality of frames obtained by dividing the sound signal acquired by the sound signal acquisition means after every predetermined time length, and the SZN ratio satisfies the predetermined condition. May be configured to identify the start point of the sound generation period as the start point of the pronunciation period.
  • the specifying unit stores the sound signal stored in the storage unit and the predetermined frame. For example, when the SZN ratio is calculated for the subsequent frame of the predetermined frame, the sound signal stored in the storage means after the update is used. ,.
  • the specifying means is obtained by dividing the sound signal acquired by the sound signal acquiring means at predetermined time lengths after the trigger signal is acquired.
  • the SZN ratio may be calculated for each of a plurality of frames, and an end point of a frame in which the SZN ratio satisfies a predetermined condition may be specified as the end point of the sound generation period.
  • the specifying means may determine a predetermined value for each of a plurality of frames obtained by dividing the sound signal stored in the storage means for each predetermined time length.
  • the attribute value may be calculated, and a frame satisfying a predetermined condition for the calculated attribute value may not be used for calculating the SZN ratio!
  • the present invention also provides a program that causes a computer to execute processing performed by the sound signal processing device.
  • the present invention continuously acquires sound signals, stores sound signals acquired in a predetermined period in the past with the current time as an end point, acquires a trigger signal, and acquires the trigger signal after the acquired time point.
  • the sound level index value is calculated using the sound signal
  • the noise level index value is calculated using the sound signal stored and stored at the time when the trigger signal is acquired. Is divided by the index value of the noise level to calculate the SZN ratio, determine whether the SZN ratio satisfies a predetermined condition, and acquire the trigger signal based on the determination process.
  • a sound signal processing method for identifying a portion indicating a sound during a sound generation period in the sound signal.
  • the sound signal processing method of the present invention further generates a predetermined signal in response to a user operation.
  • a trigger signal generated by the signal generation process according to a predetermined operation by the user is acquired.
  • the sound signal processing method of the present invention further performs notification for prompting the user to generate a sound, generates a trigger signal along with the notification, and generates the trigger signal in the trigger signal acquisition process. Get the trigger signal.
  • the specifying process includes an index value indicating a power of a component of a predetermined frequency of the sound signal acquired by the sound signal acquisition process after the trigger signal is acquired, and
  • the index value of the sound level is stored using the index value indicating the power of the component of the predetermined frequency of the sound signal.
  • Each index value of the noise level is calculated.
  • the specific processing includes the amplitude value of the sound signal acquired by the sound signal acquisition processing after the trigger signal is acquired and the trigger signal by the trigger signal acquisition processing.
  • the sound level index value and the noise level index value are calculated using the amplitude value of the stored sound signal.
  • the specifying process includes a plurality of sound signals obtained by dividing the sound signal acquired by the sound signal acquisition process at predetermined time lengths after the trigger signal is acquired.
  • the SZN ratio is calculated for each frame, and the start point of the frame in which the SZ N ratio satisfies a predetermined condition is specified as the start point of the sound generation period.
  • the specific processing may be performed when the SZN ratio calculated for a predetermined frame does not satisfy the predetermined condition, and the stored sound signal is stored in the predetermined signal.
  • the SZN ratio is calculated for subsequent frames of the predetermined frame, the stored sound signal after the update is used.
  • the specifying process may be configured such that the sound signal acquired by the sound signal acquisition process after the trigger signal is acquired for each predetermined time length.
  • the SZN ratio is calculated for each of a plurality of frames obtained by dividing into two, and the end point of the frame in which the SZ N ratio satisfies a predetermined condition is specified as the end point of the sound generation period.
  • the specifying process calculates a predetermined attribute value for each of a plurality of frames obtained by dividing the stored sound signal every predetermined time length, and the calculation A frame whose attribute value satisfies a predetermined condition is not used for the calculation of the SZN ratio.
  • the sound signal acquired and stored before acquiring the trigger signal is regarded as a sound signal indicating only environmental noise, and the SZN ratio is calculated.
  • the SZN ratio is calculated.
  • FIG. 1 is a block diagram showing a configuration of a sound signal processing system according to an embodiment of the present invention.
  • FIG. 2 is a diagram schematically showing a configuration of a first buffer that is useful for an embodiment of the present invention.
  • FIG. 3 is a diagram schematically showing a configuration of a second buffer that is useful for an embodiment of the present invention.
  • Fig. 4 is a diagram showing divisions of frequency bands that are relevant to the embodiment of the present invention.
  • FIG. 5 is a diagram showing a flow of a specific process at the start point that is relevant to the embodiment of the present invention.
  • FIG. 6 is a diagram showing a flow of specific processing at the end time that is relevant to the embodiment of the present invention.
  • FIG. 7 is a diagram schematically showing a specific state of a sound generation period that is relevant to an embodiment of the present invention.
  • FIG. 1 is a block diagram showing a configuration of a sound signal processing system 1 according to an embodiment of the present invention.
  • the sound signal processing system 1 is a sound signal processing device 10 that outputs a sound signal of a specified sound generation period by specifying a sound generation period in the acquired sound signal, collects sound in the placed sound space and converts it into a sound signal
  • the microphone 20 that outputs to the sound signal processing device 10, the keyboard 30 that has a plurality of keys and outputs a predetermined signal to the sound signal processing device 10 according to the user's operation on the key, the sound signal processing device 10
  • a sound signal recognition device 40 for identifying a speaker of a voice indicated by a sound signal by extracting a feature value of the sound signal output from the sound signal and comparing it with a feature value stored in advance is provided.
  • keyboard 30 is an example of a device for giving an instruction to the sound signal processing device 10 by the user, and other devices such as a mouse pointer may be used.
  • Sound signal recognition device 4 0 is an example of a device that uses the sound signal output from the sound signal processing device 10, and other devices such as a device that specifies the pitch of a musical sound may be used.
  • the sound signal processing device 10 acquires a sound signal from the microphone 20 and performs various processes, and also instructs the control unit 11 that controls other components of the sound signal processing device 10 and various processes by the control unit 11. Storage of various data used by the program and the control unit 11 and storage area 12 used as a work area of the control unit 11, sound signal output unit 13 for outputting sound signals to the sound signal recognition device 40, predetermined time intervals An oscillator 14 for generating a clock signal is provided. Each component of the sound signal processing device 10 performs processing synchronization and timekeeping as required by the clock signal generated by the oscillator 14.
  • the control unit 11 converts the sound signal received by the sound signal acquisition unit 111 that receives the sound signal from the microphone 20 and the sound signal acquisition unit 11 into an analog signal power digital signal and divides it into frames for each predetermined time length.
  • AZD Analog to Digital
  • trigger signal acquisition unit 113 for receiving a predetermined signal from the keyboard 30 as a trigger signal
  • acquisition of the trigger signal by the trigger signal acquisition unit 113 as a trigger for storage unit 12 includes a specifying unit 114 for specifying a sound generation period in the sound signals sequentially stored in 12.
  • Frame numbers received by the storage unit 12 from the AZD converter 112 are numbered in order of time series in order to identify each frame.
  • the frame number is a four-digit integer.
  • a frame with a frame number “0001” is called as a frame “0001”.
  • the digital signal generated by the AZD converter 112 is not limited to the force that is assumed to be sound waveform data in the PCM (Pulse Code Modulation) format. Further, in the following description, the force that the frame length of the sound signal stored in the storage unit 12 by the AZD converter 112 is 10 milliseconds is not limited to this.
  • the specifying unit 114 performs processing according to an FFT (Fast Fourier Transform) algorithm on each frame of the sound signal sequentially stored in the storage unit 12, and calculates a frequency component included in the frame.
  • FFT unit 1141 calculates the SZN ratio of the frame using the amplitude of the frequency component calculated by the 1141 SZN ratio calculation unit 1142, SZN ratio calculation unit 1142 Sequentially
  • a condition determination unit 1143 is provided for specifying the start time point and end time point of the sound generation period. Specific processing contents by the SZN ratio calculation unit 1142 and the condition determination unit 1143 will be described in the operation description described later.
  • the storage unit 12 is provided with a first buffer 121 and a second buffer 122 as areas for temporarily storing frames of sound signals.
  • the first buffer 121 is operated until the trigger signal is acquired by the force trigger signal acquisition unit 113 after the sound signal processing device 10 starts operating, and the previous sound generation period specifying process is ended by a user operation or the like.
  • the subsequent force is also an area for storing frames generated sequentially by the AZD comparator 112 for a predetermined time length until the trigger signal acquisition unit 113 acquires the trigger signal again.
  • a period during which frames are stored in the first buffer 121 is referred to as a “waiting period”.
  • the number of frames that can be stored in the first buffer 121 is ten, that is, a force that is equivalent to 100 milliseconds.
  • FIG. 2 is a diagram schematically showing the configuration of the first buffer 121.
  • the first buffer 121 is divided into 10 areas, and each area is identified by the numbers “ ⁇ 0010” to “ ⁇ 0001”.
  • an area identified by the number “-0010” is referred to as an area “-0010”.
  • the frames are stored in each area in the order of acquisition so that the frame stored in the area “-0010” is the oldest and the frame stored in the area “10001” is the newest.
  • FIG. 2 illustrates the state where the frames “0085” to “0094” are stored in the regions “—0010” to “—0001”, respectively.
  • the storage unit 12 receives new frames from the AZD comparator 112 at intervals of 10 milliseconds, and continuously updates the contents of the first buffer 121 by FIFO (First-In First-Out).
  • FIFO First-In First-Out
  • FIG. 2 the areas “ ⁇ 0010” to “ ⁇ 0001” are depicted at fixed positions. The physical position of each area in the force storage unit 12 does not need to be fixed.
  • the first buffer 121 may be realized by referring to a frame stored in an arbitrary storage area with a pointer. In this case, the contents of the first buffer 121 are updated at high speed by updating the pointer.
  • the second buffer 122 continues until the sound generation period specifying process is terminated by a user operation or the like. This is an area for storing frames that are sequentially generated for a predetermined time length in the past.
  • a period during which frames are stored in the second buffer 122 is referred to as a “determination period”.
  • the number of frames that can be stored in the second buffer 122 is 6000, that is, 60 seconds, which is not limited thereto.
  • FIG. 3 is a diagram schematically showing the configuration of the second buffer 122.
  • the second buffer 122 is divided into 600 areas, that is, areas “0001” to “6000”.
  • the frames are stored in each area in the order of acquisition so that the frame stored in the area "6000" is the oldest frame stored in the area "0001".
  • FIG. 3 [KOO! /, TEKIMA, areas “0001", “0002”, “0003” ⁇ ⁇ ⁇ ⁇ ⁇
  • This frame "0095”, "0096", “0097” ⁇ are stored respectively. This is illustrated.
  • the areas “5996” to “6000” force S shown in FIG. 3 are blank because 60 seconds have not yet passed since the start of the judgment period in FIG. This is for the purpose of exemplifying the state in which no frame has been stored yet in this area.
  • the storage unit 12 receives new frames from the AZD comparator 112 at intervals of 10 milliseconds, and continuously updates the contents of the second buffer 122 using the FIFO. Note that the physical position of each area included in the second buffer 122 does not need to be fixed, as in the case of the first buffer 121.
  • the storage unit 12 further temporarily stores noise level data 123 and sound level data 124 generated by the SZN ratio calculation unit 1142 during the determination period.
  • the noise level data 123 is data indicating an attribute value related to the amplitude of the frame stored in the first buffer 121 at the time when the trigger signal is acquired by the trigger signal acquisition unit 113.
  • the sound level data 124 is data indicating attribute values relating to the amplitudes of the frames sequentially stored in the second buffer 122 during the determination period. Specific contents of the noise level data 123 and the sound level data 124 will be described in the description of the operation described later.
  • the storage unit 12 temporarily stores sound generation period data 125 generated by the condition determination unit 1143 during the determination period.
  • the sound period data 125 is data indicating the first frame number and the last frame number of the sound period.
  • the sound generation period data 125 identifies the start time of the first frame as the start time of the sound generation period.
  • the end point of the lemma is identified as the end point of the pronunciation period. Note that the pronunciation period data
  • the format of 125 is not limited to the one using the frame number, and various other types are conceivable, for example, the start time and end time of the sound generation period are specified by time data.
  • the user performs a predetermined operation on the keyboard 30 to receive personal authentication and instructs the sound signal processing device 10 to perform personal authentication processing.
  • the microphone 20 Prior to the user operation, the microphone 20 is always The sound signal indicating the sound in the sound space where the sound signal processing system 1 is arranged is output to the sound signal processing device 10.
  • the sound signal acquisition unit 111 of the sound signal processing device 10 receives the sound signal from the microphone 20, it sequentially delivers the received sound signal to the AZD converter 112.
  • the AZD converter 112 receives the sound signal from the sound signal acquisition unit 111, the AZD converter 112 converts the received sound signal into a digital signal, and then sequentially delivers it to the storage unit 12 to store it in units of frames.
  • the AZD converter 112 instructs the storage unit 12 to store the sound signal to be transmitted in the first buffer 121! /.
  • the first buffer 121 always stores sound signals for the most recent 10 frames during the standby period.
  • the sound signal stored in the first buffer 121 in this way is a sound signal indicating the sound in the sound space in the state, that is, the sound of the environmental noise, which is not yet sounded (uttered) by the user. .
  • the keyboard 30 when the user performs a predetermined operation on the keyboard 30 and instructs the sound signal processing device 10 to perform personal authentication processing, the keyboard 30 generates a trigger signal in response to the user's operation. The signal is output to the signal processing apparatus 10.
  • the trigger signal acquisition unit 113 of the sound signal processing device 10 receives the trigger signal from the keyboard 30, the trigger signal acquisition unit 113 transmits the received trigger signal to the AZD converter 112 and the specifying unit 114.
  • the AZD converter 112 Upon receiving the trigger signal from the trigger signal acquisition unit 113, the AZD converter 112 thereafter instructs the second buffer 122 to store the generated sound signal in the storage unit 12. Show. As a result, the second buffer 122 always stores the sound signals for the most recent 6000 frames during the determination period. Further, during the determination period, the contents of the first buffer 121 stored during the waiting period are retained!
  • the specifying unit 114 starts the sound generation period specifying process for the sound signals sequentially stored in the second buffer 122.
  • the FFT unit 1141 performs FFT processing on the most recent frame stored in the first buffer 121, that is, the frame stored in the region “ ⁇ 00 01”, and each FFT included in the sound signal of each frame. A complex number indicating a frequency component is calculated.
  • the frame stored in the area “one 0001” of the first buffer 121 is the frame “0094”.
  • the FFT unit 1141 performs complex processing (Rl + Ili), (R2 + I2i), (R3 + I3i), (RN + INi) shall be calculated.
  • “i” is an imaginary unit
  • Rn and In (n is 1 to N, N is the number of FFTbin) are numerical values of the real part and imaginary part, respectively.
  • the FFT unit 1141 transmits a complex number group indicating the frequency component calculated as described above to the SZN ratio calculation unit 1142.
  • the SZN ratio calculation unit 1142 uses the complex number group received from the FFT unit 1141 to calculate the amplitude related to the component of the sound signal for each of a plurality of frequency bands divided in advance from the complex number group of frequencies included in the plurality of frequency bands. Calculate the indicator.
  • the SZN ratio calculation unit 1142 relates to each of the five frequency bands shown in FIG. 4, and the power for each frequency band according to (Equation 1) to (Equation 5): Fm (m is the frequency band) Number).
  • Equation 1 FFTbin number corresponding to the lowest frequency of the desired band
  • em FFTbin number corresponding to the highest frequency of the desired band.
  • the FFT unit 1141 and the SZN ratio calculation unit 1142 perform the region “—
  • the power for each frequency band that is, F0093_l to F0093_5, F0092_l to F0092_5, F009U to F0091_5, and F0090_l to F0090_5 are calculated.
  • the SZN ratio calculation unit 1142 calculates a noise level: NLm (m is a frequency band number) for each frequency band according to the following (Equation 6).
  • the noise level data 123 stored in the storage unit 12 in this way is data indicating the level of environmental noise for each predetermined frequency band.
  • the FFT unit 1141 performs the same processing as that relating to the frame newly stored in the second buffer 122, that is, the frame “0095”, related to the frame stored in the first buffer 121 described above, A complex number group indicating a frequency component is calculated.
  • the SZN ratio calculation unit 114 2 uses the complex number group calculated with respect to the frame “0095” by the FFT unit 1141, and according to the above (Expression 1) to (Expression 5), the power for each frequency band, that is, F0095_l, F0095_2,. ⁇ Calculate F0095_5.
  • the SZN ratio calculation unit 1142 stores the data indicating these numerical groups in the storage unit 12 as the sound level data 124.
  • the sound level data 124 stored in the storage unit 12 in this way is data indicating the sound level in the current sound space for each predetermined frequency band.
  • the SZN ratio calculation unit 1142 calculates the SZN ratio: SNR according to the following (Equation 7) using the noise level data 123 and the sound level data 124 stored in the storage unit 12 as described above.
  • the FFT unit 1141 and the S / N ratio calculation unit 1142 calculate the SNR for the newly stored frame in accordance with the above (Equation 7). Note that since the sound signal stored in the first buffer 121 is not changed during the determination period, the SNR for the frame “0096” and subsequent frames stored in the second buffer 122 is already stored. The noise level data 123 stored in 12 is used. [0052] As described above, the SNR calculated by the SZN ratio calculation unit 1142 is an index indicating the ratio of the sound level in the current sound space to the environmental noise level. Therefore, the SNR calculated while the user is not speaking is in the vicinity of 1, and the SNR calculated while the user is speaking is much larger than 1. Therefore, the condition determination unit 1143 performs the sound generation period specifying process as follows based on the SNR sequentially calculated by the SZN ratio calculation unit 1142.
  • the sound generation period specifying process by the condition determining unit 1143 is divided into a process for specifying the start time of the sound generation period and a process for specifying the end time of the sound generation period.
  • Fig. 5 shows the flow of specific processing at the start point
  • Fig. 6 shows the flow of specific processing at the end point.
  • condition determination unit 1143 stores the following constants as parameters in the storage unit 12 in advance prior to the sound generation period specifying process.
  • the start threshold value is a threshold value that indicates that when the SNR exceeds the value, the frame used for calculation of the SNR is highly likely to be a frame during the sound generation period. In the following description, it is assumed that the start threshold value is 2.0.
  • the start expiry count is the number of times that the frame corresponding to the SNR that exceeded the start threshold first is determined as the first frame of the sounding period when the SNR exceeds the start threshold beyond that count. . In the following description, it is assumed that the number of start expirations is 5.
  • the end threshold is a threshold indicating that when the SNR falls below that value, the frame used for the calculation of the SNR is likely to be a frame in a non-sounding period. In the following explanation, it is assumed that the end threshold is 1.2.
  • condition determination unit 1143 first initializes the following variables (step S).
  • the start time data is a variable in which the frame number of the first frame of the sound generation period is stored, and the start time of the frame number indicates the start time of the sound generation period.
  • the initialization for example, “Null” indicating an unspecified value is substituted for the start time data.
  • the trial counter is a counter that counts the number of times that the SNR is compared with the start threshold value “2.0” after the initialization process in step S100.
  • the start threshold value excess counter is a counter that counts the number of times the SNR exceeds the start threshold value “2.0”. By initialization, “0” is assigned to each of the trial counter and the start threshold excess counter.
  • step S When the condition determining unit 1143 obtains a new SNR from the SZN ratio calculating unit 1142 (step S).
  • step S102 After adding 1 to the trial counter (step S102), it is determined whether or not the SNR acquired in step S101 exceeds the start threshold “2.0” (step S103). When the SNR does not exceed the start threshold value “2.0” (step S103: No), the condition determination unit 1143 determines whether or not the trial counter exceeds the start grace count “10” (step S104).
  • condition determination unit 1143 returns the process to step S 101, and repeats the processes after step S 101 for the next SNR.
  • step S101 the processing after step S101 is repeated without specifying the start time point. If the value of the trial counter is increased in step S102 and becomes 11, the determination result in step S104 is Yes. In that case, the condition determination unit 1143 returns the process to step S100, and again performs the specific process at the start of the pronunciation period for the subsequent SNR.
  • the condition determination unit 1143 repeats the processing from step S100 to step S104 described above.
  • the result of determination in step S103 is Yes.
  • the condition determination unit 1143 subsequently determines whether or not the start threshold value excess counter is “0” (step S 105).
  • the condition determining unit 1143 substitutes the frame number used for calculating the last acquired SNR in the start time data ( Step S106).
  • the frame number substituted in this way is a frame number candidate indicating the start point of the sound generation period.
  • the condition determination unit 1143 adds 1 to the start threshold value excess counter (Step S10 7), and then determines whether or not the start threshold value excess counter exceeds the start expiration number “5” (Step S10 7). S108). In this case, since the start threshold value excess counter is “1” and the determination result of step S108 is No, the condition determination unit 1143 returns the process to step S101, and repeats the process after step S101 for the new SNR. .
  • step S103 Normally, once the user starts speaking and the determination result in step S103 is Yes, the determination result in step S103 regarding the SNR for the subsequent frame also becomes Yes for a while. This is because the continuous utterance time of the user is several seconds, while the length of each frame is as short as 10 milliseconds. As a result, the determination result in step S103 becomes Yes again. If the determination in step S105 is made, the start threshold value excess counter is already “1” or more, so the determination result is No. In this case, the condition determination unit 1143 does not set the start time data of step S106, and performs the processing after step S107. This is because there is no need to change the frame number indicating the start of the sound generation period that has already been temporarily set.
  • Step S107 the value of the start threshold value excess counter is increased.
  • the determination result in step S108 is Yes.
  • the condition determination unit 1143 determines the frame number stored in the start time data at that time as the frame number indicating the first frame of the sound production period, and the process is performed in the flow of the specific process at the end time of the sound production period. Transfer.
  • step S103 even if the determination result in step S103 is once, the utterance may be interrupted or the utterance level may be lowered for a short time between syllables in the utterance of one word, for example. . In such a case, the determination result in step S103 is temporarily No, but since the determination result in step S103 for the subsequent SNR is Yes, these frames are determined to be frames in a series of pronunciation periods. Will be.
  • Step S103 the judgment result in Step S103 is temporarily Yes.
  • the judgment result in Step S103 regarding the subsequent SNR is SNo.
  • condition determining unit 1143 subsequently starts the specifying process at the end time of the sounding period shown in FIG. Condition judgment part 1
  • step S200 first initializes the following variables.
  • the end time data is a variable in which the frame number of the last frame of the sound generation period is stored, and the end time of the frame number indicates the end time of the sound generation period.
  • initialization for example, “Null” indicating an unspecified value is assigned to the end point data.
  • the counter less than the end threshold is a power counter that counts the number of times the SNR falls below the end threshold “1.2”. By initialization, “0” is assigned to the counter less than end threshold.
  • step S When the condition determining unit 1143 obtains a new SNR from the SZN ratio calculating unit 1142 (step S).
  • step S202 it is determined whether or not the SNR acquired in step S201 is below the end threshold “1.2” (step S202). If the SNR is not less than the end threshold “1.2” (step S202: No), the condition determination unit 1143 continues to exceed the start threshold “2.0”. It is determined whether or not V (step S203).
  • step S203 When the user is speaking, if the SNR is likely to exceed the start threshold value "2.0", the determination result in step S203 is Yes, and the condition determination unit 1143 moves the process to step S200. Then, the specific process at the end time is redone. Also, when the user is uttering and the pronunciation is slightly reduced, the SNR is not more than the start threshold “2.0”, but may be not less than the end threshold “1.2”. In such a case (step S203: No), the condition determination unit 1143 does not initialize the variable, returns the process to step S201, and repeats the process after step S201 for the new SNR.
  • step S204 the condition determination unit 1143 is a number obtained by subtracting 1 from the frame number used for calculating the SNR acquired last in the end time data. Is substituted (step S 205).
  • the frame number assigned in this way is a frame number candidate indicating the end point of the pronunciation period.
  • step S206 the condition determination unit 1143 determines whether or not the end threshold value counter exceeds the number of end expiration “15”. Step S207). In this case, since the counter below the end threshold is “1” and the determination result of step S207 is No, the condition determination unit 1143 returns the process to step S201, and repeats the processes after step S201 for the new SNR.
  • step S202 becomes Yes again.
  • the counter less than the end threshold value is already “1” or more, so the determination result is No.
  • the condition determination unit 1143 does not set the end point data in step S205, and performs the processing after step S206. This is because there is no need to change the frame number indicating the end of the sound generation period that has already been temporarily set.
  • the determination result of the comparison between the SNR and the end threshold value in step S202 is repeated to be Yes, the processing from step S204 is repeated, and the value of the counter less than the end threshold is increased in step S206.
  • the determination result in step S207 is Yes.
  • the condition determination unit 1143 determines the frame number stored in the end time data at that time as the frame number indicating the end frame of the sound generation period, and generates a combination of the start time data and the end time data.
  • the period data 125 is stored in the storage unit 12 (step S208).
  • the condition determination unit 1143 instructs the sound signal output unit 13 to output a sound signal (step S209)
  • the sound generation period specifying process shown in FIG. 5 is performed again to specify the next sound generation period.
  • FIG. 7 is a diagram schematically showing how the sound generation period is specified by the specifying unit 114 described above.
  • the sound buffer output unit 13 starts from the second buffer 122 with the frame number indicated by the start time data included in the sound generation period data 125. And a series of frames with the frame number indicated by the end point data as the end is read and output to the sound signal recognition device 40.
  • the specifying unit 114 may be configured to display the time until a time set in advance as the maximum time of the sound generation period specifying process elapses after the acquisition of the force trigger signal when the user instructs the end of the sound generation period specific process. 5 and the series of processes in the judgment period shown in FIG. 6 are repeated.
  • the sound signal recognition device 40 performs feature amount extraction on the sound signal received from the sound signal output unit 13, and compares the feature amount stored in advance with the newly extracted feature amount related to the user's voice. As a result, the user authentication is performed. In that case, since the sound signal received by the sound signal recognition device 40 from the sound signal output unit 13 is a sound signal that is correctly cut out according to the user's utterance period, highly accurate personal authentication is performed. become.
  • the user authentication processing instruction by the user is used as a trigger and is acquired immediately before the occurrence of the trigger.
  • the generated sound signal as a sound signal indicating environmental noise, it is possible to specify the sound generation period in the sound signal after the trigger is generated with high accuracy.
  • the trigger signal is generated in response to the user's operation on the keyboard 30.
  • the sound signal processing device 10 is provided with a notification means such as a display for notifying the user with an image or text, or a sound system for notifying the user with a sound, and waits for the user's operation.
  • the notification means is used to prompt the user to speak, and at the same time, a trigger signal is generated and the trigger signal is transmitted to the trigger signal acquisition unit 113. Also good.
  • the SNR is calculated by calculating the average value of FmZNLm for each frequency band. (See Equations 1 to 7).
  • the FFT unit 1141 performs FFT processing on the sound signal, and the S / N ratio calculation unit 1142 calculates the amplitude of each frequency, so that Fm indicating the power for each frequency band is obtained.
  • the specifying unit 114 includes a bandpass filter for each frequency band instead of the FFT unit 1141, and the average value of the amplitude of the sound signal filtered by each bandpass filter is expressed by the above (Equation 6). And let's calculate SNR by using instead of Fm in (Equation 7).
  • the average value of the amplitude of the sound signal contained in the frame stored in the first buffer 121 without using the FFT unit 1141 or the bandpass filter is used for the frame stored in the second buffer 122.
  • the SNR may be calculated by simply dividing the average value of the amplitudes of the included sound signals.
  • the SZN ratio calculation unit 1142 calculates Fm indicating the power of each frequency component according to the above (Formula 1) to (Formula 5).
  • Fm may be calculated according to (Equation 8) or (Equation 9) below.
  • abs ()” in (Equation 9) indicates the absolute value of the number in 0.
  • FmZNLm calculated for each frequency band is simply averaged (see Equation 7). Instead, for example, using a weight in which a relatively large value is set in FmZNLm for a frequency band including a frequency component that is expected to have a high proportion of sounds sounded by the user, the SZN ratio calculation unit 1142 However, SNR may be calculated by performing a weighted average of FmZNLm.
  • the content of the first buffer 121 is not changed after the trigger signal is acquired. It is assumed that NLm will not be updated in the period specific process. Instead, for example, the determination result of whether or not the SNR exceeds the start threshold in Step S103 in FIG. 5 is No, and it is determined that the frame used for calculating the SNR is of a non-sounding period. At that time, the contents of the first buffer 121 may be updated by storing the frame in the first buffer 121 as a frame indicating the latest environmental noise. In that case, the FFT unit 1141 and the S / N ratio calculation unit 1142 recalculate NLm using the updated frame of the first buffer 121, and then calculate the SNR using the recalculated NLm.
  • the latest five frames stored in the first buffer 121 are fixedly selected. .
  • a frame in which the intermediate force stored in the first buffer 121 also shows an abnormal value may be excluded, and an appropriate frame may be selected and used for calculation of NLm.
  • the FFT unit 1141 performs FFT processing on all 10 frames stored in the first buffer 121.
  • the S / N ratio calculation unit 1142 calculates Fm indicating the power for each frequency band for all the 10 frames.
  • the S ZN ratio calculation unit 1142 divides the average value of Fm calculated in this way beyond a predetermined threshold value.
  • the Fm to be released should be excluded as an abnormal value, and the NLm should be calculated using the Fm that has not been excluded.
  • NLm indicating the noise level is calculated by simply averaging Fm indicating the power for each frequency band calculated for each of the frames stored in the first buffer 121. (See Equation 6). Instead, for example, a new frame may be given a larger weight, and the SZN ratio calculation unit 1142 may calculate NLm by performing a weighted average of Fm for each frame.
  • start threshold value the start expiry count, the start grace count, the end threshold value, and the end expiry count are stored in advance in the sound signal processing device 10; You can change these constants accordingly.
  • the microphone 20, the keyboard 30, and the sound signal recognition device 40 are assumed to be arranged in a case different from the sound signal processing device 10. It can be changed.
  • the sound signal processing device 10 may include the sound signal recognition device 40 as a component.
  • the sound signal processing device 10 may be realized by dedicated hardware, or may be realized by causing a general-purpose computer capable of inputting / outputting sound signals to execute processing according to an application program. Good.
  • the control unit 11 includes a CPU (Central Processing Unit) provided in the general-purpose computer and a DSP (Digital Signal Processor) operating under the control of the CPU in the application program. It is realized as a function of a general-purpose computer by performing processing according to each module in parallel.
  • CPU Central Processing Unit
  • DSP Digital Signal Processor
  • the present invention is based on a Japanese patent application filed on July 15, 2005 (Japanese Patent Application No. 2000-207798), the contents of which are incorporated herein by reference.
  • the SZN ratio is calculated by regarding the acquired and stored sound signal as a sound signal indicating only environmental noise, and the sound generation period is specified based on the SZN ratio. As a result, a highly accurate specific result can be obtained.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Telephone Function (AREA)

Abstract

 環境雑音の変化が予測不可能な状況においても、高い精度で音信号における発音期間の特定を可能とする。音信号処理システム1が置かれた音空間内の音は、常時、マイク20により収音され、音信号として音信号処理装置10に入力されている。ユーザにより所定の操作が行われる前は、マイク20から入力された音信号は第1バッファ121に順次格納され、当該所定の操作が行われた後は、第2バッファ122に順次格納される。特定部114は、第1バッファ121に格納されている音信号のレベルを環境雑音のレベルとし、第2バッファ122に順次格納される音信号のレベルを現時点で発音されている音のレベルとして、S/N比を算出する。特定部114は算出したS/N比が所定の条件を満たすか否かを順次判定することにより、音信号における発音期間を特定する。

Description

明 細 書
発音期間を特定する音信号処理装置および音信号処理方法
技術分野
[0001] 本発明は、音信号から発音期間の音を示す部分を特定する技術に関する。
背景技術
[0002] 音声認識やピッチ検出等の処理においては、発音期間、すなわち音声や楽器音が 発音されている期間と、非発音期間、すなわち音声や楽器音が発音されていない期 間とを区別することが必要である。なぜなら、非発音期間においても通常の音空間に は必ず環境雑音が存在するため、仮に発音期間と非発音期間の区別を行うことなく 全ての期間において音声認識やピッチ検出等の処理を行うと、非発音期間において 環境雑音に基づき誤った処理の結果が得られる可能性があるためである。また、本 来処理が不要である非発音期間の音に関し音声認識やピッチ検出等の処理を行うこ とは無意味であり、処理装置のリソースを無駄に消費する等の観点から好ましくない。
[0003] 音信号における発音期間と非発音期間を区別する方法としては、取得された音信 号の SZN (Signal— Noise)比が予め定められた SZN比の閾値を上回る期間を発 音期間として特定する方法が広く用いられている。しかしながら、非発音期間におけ る環境雑音のレベルは音信号の取得される環境において様々に変化する。従って、 固定的なノイズレベルを用いた SZN比により発音期間の特定を行うと、環境雑音の レベルが高い環境において取得された音信号においては非発音期間が誤って発音 期間と特定されたり、環境雑音のレベルが低い環境において取得された音信号にお いては発音期間が誤って非発音期間と特定されたりする。
[0004] 上記の問題を解決するために、例えば特許文献 1には、音声付映像情報力も音声 情報を抽出するにあたり、音声付映像情報が示すコンテンツのジャンルに応じて異な るノイズレベルを用いる技術が開示されている。
特許文献 1 :特開 2003— 101939号公報
[0005] また、例えば特許文献 2には、音信号を所定時間長のフレームに分割し、過去に非 発音期間と特定されたフレームの属性値に基づき後続のフレームにおける SZN比 の算出に用いるノイズレベルを更新する技術が開示されて 、る。
特許文献 2:特開 2001 - 265367号公報
発明の開示
発明が解決しょうとする課題
[0006] ところで、ユーザの本人認証を発声により行う端末装置がある。そのような端末装置 においては、ユーザが収音手段を備えた端末装置に対し所定の発声を行う。端末装 置は、当該ユーザの発声を示す音信号から特徴量を抽出し、予め記憶されている正 しいユーザの発声に関する特徴量と新たに抽出した特徴量とを比較することにより、 当該ユーザが正しいユーザである力否かを判定する。
[0007] 上記のような場合、端末装置は収音手段により取得する音信号のうち、ユーザが発 声を行った発音期間を特定する必要がある。ただし、本人認証が行われる際の音空 間における環境雑音のレベル等は様々に変化するため、固定的なノイズレベルを用 いた SZN比により発音期間の特定を行うと必ずしも正しい結果が得られるとは限ら ない。また、環境雑音のレベルがどのように変化するかを予め予測することは容易で はな 、ため、特許文献 1に開示されるように予めノイズレベルを変更するための基準 を与えることも困難である。
[0008] また、特許文献 2に開示されるような技術を用いる場合、まず過去のフレームに関し 何らかの方法で非発音期間であるか否かの判定を行う必要があり、その判定におい て用いるノイズレベルを如何に与えるかが問題となる。すなわち、ノイズレベルの初期 値が不適当であると発音期間の特定結果の精度が低くなる。
[0009] なお、ユーザによる楽器の演奏音のピッチ検出を行うピッチ検出装置等においても 、上述した音声による本人認証を行う端末装置と同様の課題がある。
[0010] 上記の状況に鑑み、本発明は、環境雑音の変化が予測不可能な状況においても、 高い精度で音信号における発音期間の特定を可能とする音信号処理装置及び音信 号処理方法を提供することを目的とする。
課題を解決するための手段
[0011] 上記課題を達成するために、本発明は、継続的に音信号を取得する音信号取得 手段と、現時点を終点とする所定期間において前記音信号取得手段により取得され た音信号を記憶する記憶手段と、トリガ信号を取得するトリガ信号取得手段と、前記ト リガ信号が取得された時点後に前記音信号取得手段により取得された音信号を用い てサウンドレベルの指標値を算出し、前記トリガ信号取得手段によりトリガ信号が取得 された時点にお!、て前記記憶手段に記憶されて!、る音信号を用いてノイズレベルの 指標値を算出し、前記サウンドレベルの指標値を前記ノイズレベルの指標値で除す ことにより SZN比を算出し、前記 SZN比が所定の条件を満たすか否かを判定する ことにより、前記トリガ信号が取得された時点後に前記音信号取得手段により取得さ れた音信号のうち発音期間の音を示す部分を特定する特定手段とを備える音信号 処理装置を提供する。
[0012] かかる音信号処理装置によれば、トリガ信号の取得前に取得され記憶されている音 信号を環境雑音のみを示す音信号と見なして SZN比を算出し、当該 SZN比に基 づき発音期間の特定が行われる結果、高い精度の特定結果が得られる。
[0013] 前記音信号処理装置において、前記トリガ信号取得手段は、ユーザによる所定の 操作に応じて操作手段により生成されるトリガ信号を取得するように構成されてもよい し、ユーザに対し発音を促す通知を行う通知手段により前記通知に伴い生成されるト リガ信号を取得するように構成されてもょ ヽ。
[0014] また、前記音信号処理装置において、前記特定手段は、前記トリガ信号が取得さ れた時点後に前記音信号取得手段により取得された音信号の所定周波数の成分の パワーを示す指標値および前記トリガ信号取得手段によりトリガ信号が取得された時 点において前記記憶手段に記憶されている音信号の所定周波数の成分のパワーを 示す指標値を用いて、前記サウンドレベルの指標値および前記ノイズレベルの指標 値をそれぞれ算出するように構成されてもょ ヽ。
[0015] また、前記音信号処理装置において、前記特定手段は、前記トリガ信号が取得さ れた時点後に前記音信号取得手段により取得された音信号の振幅値および前記トリ ガ信号取得手段によりトリガ信号が取得された時点において前記記憶手段に記憶さ れて 、る音信号の振幅値を用いて、前記サウンドレベルの指標値および前記ノイズ レベルの指標値をそれぞれ算出するように構成されてもょ 、。
[0016] また、前記音信号処理装置において、前記特定手段は、前記トリガ信号が取得さ れた時点後に前記音信号取得手段により取得された音信号を所定時間長ごとに分 割して得られる複数のフレームの各々について前記 SZN比を算出し、当該 SZN比 が所定の条件を満たすフレームの開始時点を前記発音期間の開始時点として特定 するように構成されてもよい。そのような態様において、前記特定手段は、所定のフレ ームに関し算出した前記 SZN比が前記所定の条件を満たさない場合、前記記憶手 段に記憶されて 、る音信号を当該所定のフレームを用 、て更新し、当該所定のフレ ームの後続のフレームについて前記 SZN比を算出するときに、当該更新後の前記 記憶手段に記憶されて 、る音信号を用いるように構成されてもょ 、。
[0017] また、前記音信号処理装置において、前記特定手段は、前記トリガ信号が取得さ れた時点後に前記音信号取得手段により取得された音信号を所定時間長ごとに分 割して得られる複数のフレームの各々について前記 SZN比を算出し、当該 SZN比 が所定の条件を満たすフレームの終了時点を前記発音期間の終了時点として特定 するように構成されてもよい。
[0018] また、前記音信号処理装置にお!、て、前記特定手段は、前記記憶手段に記憶され ている音信号を所定時間長ごとに分割して得られる複数のフレームの各々について 所定の属性値を算出し、算出した属性値が所定の条件を満たすフレームを前記 SZ N比の算出に用いな 、ように構成されてもよ!、。
[0019] また、本発明は、上記の音信号処理装置により行われる処理をコンピュータに実行 させるプログラムを提供する。
また、本発明は、継続的に音信号を取得し、現時点を終点とする過去の所定期間 において取得した音信号を記憶し、トリガ信号を取得し、前記トリガ信号を取得した時 点後に取得した音信号を用いてサウンドレベルの指標値を算出し、前記トリガ信号を 取得した時点にぉ 、て記憶して 、る音信号を用いてノイズレベルの指標値を算出し 、前記サウンドレベルの指標値を前記ノイズレベルの指標値で除すことにより SZN 比を算出し、前記 SZN比が所定の条件を満たすか否かを判定し、前記判定処理に 基づいて、前記トリガ信号を取得した時点後に取得した音信号のうち発音期間の音 を示す部分を特定する音信号処理方法を提供する。
また、本発明の音信号処理方法はさらに、ユーザの操作に応じて所定の信号を生 成し、前記トリガ信号取得処理において、前記ユーザによる所定の操作に応じて前 記信号生成処理により生成されるトリガ信号を取得する。
また、本発明の音信号処理方法はさらに、ユーザに対し発音を促す通知を行うとと もに、前記通知に伴いトリガ信号を生成し、前記トリガ信号取得処理において、前記 通知処理により生成されたトリガ信号を取得する。
また、本発明の音信号処理方法において、前記特定処理は、前記トリガ信号が取 得された時点後に前記音信号取得処理により取得された音信号の所定周波数の成 分のパワーを示す指標値および前記トリガ信号取得手段によりトリガ信号が取得され た時点にお!、て前記記憶されて!、る音信号の所定周波数の成分のパワーを示す指 標値を用いて、前記サウンドレベルの指標値および前記ノイズレベルの指標値をそ れぞれ算出する。
また、本発明の音信号処理方法において、前記特定処理は、前記トリガ信号が取 得された時点後に前記音信号取得処理により取得された音信号の振幅値および前 記トリガ信号取得処理によりトリガ信号が取得された時点にぉ 、て前記記憶されて 、 る音信号の振幅値を用いて、前記サウンドレベルの指標値および前記ノイズレベル の指標値をそれぞれ算出する。
また、本発明の音信号処理方法において、前記特定処理は、前記トリガ信号が取 得された時点後に前記音信号取得処理により取得された音信号を所定時間長ごと に分割して得られる複数のフレームの各々について前記 SZN比を算出し、当該 SZ N比が所定の条件を満たすフレームの開始時点を前記発音期間の開始時点として 特定する。
また、本発明の音信号処理方法において、前記特定処理は、所定のフレームに関 し算出した前記 SZN比が前記所定の条件を満たさな ヽ場合、前記記憶されて!ヽる 音信号を当該所定のフレームを用いて更新し、当該所定のフレームの後続のフレー ムについて前記 SZN比を算出するときに、当該更新後の前記記憶されている音信 号を用いる。
また、本発明の音信号処理方法において、前記特定処理は、前記トリガ信号が取 得された時点後に前記音信号取得処理により取得された音信号を所定時間長ごと に分割して得られる複数のフレームの各々について前記 SZN比を算出し、当該 SZ N比が所定の条件を満たすフレームの終了時点を前記発音期間の終了時点として 特定する。
また、本発明の音信号処理方法において、前記特定処理は、前記記憶されている 音信号を所定時間長ごとに分割して得られる複数のフレームの各々について所定の 属性値を算出し、前記算出した属性値が所定の条件を満たすフレームを前記 SZN 比の算出に用いない。
発明の効果
[0020] 上記音信号処理装置及び音信号処理方法によれば、トリガ信号の取得前に取得さ れ記憶されている音信号を環境雑音のみを示す音信号と見なして SZN比を算出し 、当該 SZN比に基づき発音期間の特定が行われる結果、高い精度の特定結果が 得られる。
図面の簡単な説明
[0021] [図 1]本発明の実施形態に力かる音信号処理システムの構成を示すブロック図である
[図 2]本発明の実施形態に力かる第 1バッファの構成を模式的に示した図である。
[図 3]本発明の実施形態に力かる第 2バッファの構成を模式的に示した図である。
[図 4]本発明の実施形態に力かる周波数帯域の区分を示す図である。
[図 5]本発明の実施形態に力かる開始時点の特定処理のフローを示す図である。
[図 6]本発明の実施形態に力かる終了時点の特定処理のフローを示す図である。
[図 7]本発明の実施形態に力かる発音期間の特定の様子を模式的に示した図である 符号の説明
[0022] 1 音信号処理システム
10 音信号処理装置
11 制御部
12 記憶部
13 音信号出力部 14 発振器
20 マイク
30 キーボード
40 音信号認識装置
111 音信号取得部
112 AZDコンバータ
113 トリガ信号取得部
114 特定部
121 第 1バッファ
122 第 2バッファ
123 ノイズレベルデータ
124 サウンドレベルデータ
125 発音期間データ
1141 FFT部
1142 SZN比算出部
1143 条件判定部
発明を実施するための最良の形態
[0023] [構成]
図 1は本発明の実施形態に力かる音信号処理システム 1の構成を示すブロック図で ある。音信号処理システム 1は、取得した音信号における発音期間を特定して特定し た発音期間の音信号を出力する音信号処理装置 10、置かれた音空間における音を 収音し音信号に変換して音信号処理装置 10に対し出力するマイク 20、複数のキー を有しユーザの当該キーに対する操作に応じて所定の信号を音信号処理装置 10に 対し出力するキーボード 30、音信号処理装置 10から出力される音信号の特徴量を 抽出し予め記憶している特徴量と比較することにより音信号により示される音声の話 者を特定する音信号認識装置 40を備えて ヽる。
[0024] なお、キーボード 30はユーザが音信号処理装置 10に対し指示を与える装置の一 例であり、マウスポインタ等の他の装置が用いられてもよい。また、音信号認識装置 4 0は音信号処理装置 10により出力される音信号を利用する装置の一例であり、楽音 のピッチを特定する装置等の他の装置が用いられてもよ 、。
[0025] 音信号処理装置 10は、マイク 20から音信号を取得して各種処理を行うとともに音 信号処理装置 10の他の構成部を制御する制御部 11、制御部 11による各種処理を 指示するプログラムおよび制御部 11により利用される各種データを記憶するとともに 制御部 11のワークエリアとして用 、られる記憶部 12、音信号を音信号認識装置 40 に対し出力する音信号出力部 13、所定時間間隔でクロック信号を生成する発振器 1 4を備えている。なお、音信号処理装置 10の各構成部は発振器 14により生成される クロック信号により必要に応じて処理の同期や計時を行う。
[0026] 制御部 11は、マイク 20から音信号を受け取る音信号取得部 111、音信号取得部 1 11が受け取った音信号をアナログ信号力 デジタル信号に変換し所定時間長ごとの フレームに区分して記憶部 12に順次記憶させる AZD (Analog to Digital)コン バータ 112、キーボード 30から所定の信号をトリガ信号として受け取るトリガ信号取得 部 113、トリガ信号取得部 113によるトリガ信号の取得をトリガとして記憶部 12に順次 記憶される音信号における発音期間を特定する特定部 114を備えている。
[0027] 記憶部 12が AZDコンバータ 112から受け取るフレームには、各フレームを識別す るために時系列順にフレーム番号が採番される。以下の説明において、フレーム番 号は 4桁の整数であり、例えばフレーム番号「0001」のフレームをフレーム「0001」の ように呼ぶ。なお、以下の説明において、 AZDコンバータ 112により生成されるデジ タル信号は PCM (Pulse Code Modulation)形式の音波形データであるものとす る力 これに限られない。また、以下の説明において AZDコンバータ 112により記憶 部 12に記憶される音信号のフレームの長さは 10ミリ秒であるものとする力 これに限 られない。
[0028] さらに、特定部 114は記憶部 12に順次記憶される音信号のフレームの各々に対し FFT(Fast Fourier Transform)アルゴリズムに従った処理を行い当該フレーム に含まれる周波数成分を算出する FFT部 1141、 FFT部 1141により算出された周 波数成分の振幅を用いてフレームの SZN比を算出する SZN比算出部 1142、 SZ N比算出部 1142により算出された SZN比が所定の条件を満たす力否かを順次判 定することにより発音期間の開始時点および終了時点を特定する条件判定部 1143 を備えている。 SZN比算出部 1142および条件判定部 1143による具体的な処理内 容は後述の動作説明にお 、て述べる。
[0029] 記憶部 12には、音信号のフレームを一時的に格納するための領域として、第 1バッ ファ 121および第 2バッファ 122が設けられている。第 1バッファ 121は、音信号処理 装置 10が動作を開始して力 トリガ信号取得部 113によりトリガ信号が取得されるま での間、および前回の発音期間の特定処理がユーザの操作等により終了された後 力も再びトリガ信号取得部 113によりトリガ信号が取得されるまでの間、 AZDコンパ ータ 112により順次生成されるフレームを過去の所定時間長分だけ格納するための 領域である。以下、第 1バッファ 121にフレームの格納が行われる期間を「待機期間」 と呼ぶ。また、以下の説明において第 1バッファ 121に格納可能なフレームは 10個、 すなわち 100ミリ秒分であるものとする力 これに限られない。
[0030] 図 2は第 1バッファ 121の構成を模式的に示した図である。第 1バッファ 121は 10個 の領域に分割されており、各領域は「-0010」乃至「-0001」の番号により識別され る。以下、例えば番号「-0010」により識別される領域を領域「-0010」のように呼 ぶ。第 1バッファ 121において、領域「― 0010」に格納されるフレームが最も古ぐ領 域「一0001」に格納されるフレームが最も新しくなるように、取得順にフレームが各領 域に格納される。なお、図 2においては、領域「— 0010」乃至「— 0001」にフレーム「 0085」乃至「0094」が各々格納されて 、る様子が例示されて 、る。
[0031] 待機期間中、記憶部 12は 10ミリ秒間隔で AZDコンパータ 112から新たなフレーム を受け取り、 FIFO (First -In First -Out)により第 1バッファ 121の内容を継続的 に更新する。なお、図 2においては領域「― 0010」乃至「― 0001」が固定的な位置 に描かれている力 記憶部 12における各領域の物理的な位置は固定される必要は なぐ例えば記憶部 12の任意の記憶領域に記憶されたフレームをポインタにより参照 することにより、第 1バッファ 121が実現されてもよい。その場合、ポインタを更新する ことにより第 1バッファ 121の内容更新が高速に行われる。
[0032] 第 2バッファ 122は、トリガ信号取得部 113によりトリガ信号が取得された後、ユーザ の操作等により発音期間の特定処理が終了されるまでの間、 AZDコンバータ 112 により順次生成されるフレームを過去の所定時間長分だけ記憶するための領域であ る。以下、第 2バッファ 122にフレームの格納が行われる期間を「判定期間」と呼ぶ。 なお、以下の説明において第 2バッファ 122に格納可能なフレームは 6000個、すな わち 60秒分であるものとする力 これに限られない。
[0033] 図 3は第 2バッファ 122の構成を模式的に示した図である。第 2バッファ 122は 600 0個の領域、すなわち領域「0001」乃至「6000」に分割されている。第 2バッファ 122 において、領域「0001」に格納されるフレームが最も古ぐ領域「6000」に格納される フレームが最も新しくなるように、取得順にフレームが各領域に格納される。なお、図 3【こお!/、て ίま、領域「0001」、 「0002」、 「0003」· · ·【こフレーム「0095」、 「0096」、 「 0097」 · · ·が各々格納されている様子が例示されている。また、図 3に示される領域「 5996」乃至「6000」力 S空欄となっているのは、図 3が判定期間の開始後まだ 60秒が 経過しておらず、第 2バッファ 122の末尾付近の領域に未だフレームが格納されてい な 、状態を例示して 、るためである。
[0034] 判定期間中、記憶部 12は 10ミリ秒間隔で AZDコンパータ 112から新たなフレーム を受け取り、 FIFOにより第 2バッファ 122の内容を継続的に更新する。なお、第 2バッ ファ 122に含まれる各領域の物理的な位置が固定される必要はない点は、第 1バッ ファ 121の場合と同様である。
[0035] 記憶部 12には、さらに、判定期間中に SZN比算出部 1142により生成されるノイズ レベルデータ 123およびサウンドレベルデータ 124が一時的に格納される。ノイズレ ベルデータ 123は、トリガ信号取得部 113によりトリガ信号が取得された時点にお!/ヽ て第 1バッファ 121に記憶されているフレームの振幅に関する属性値を示すデータで ある。一方、サウンドレベルデータ 124は判定期間中に第 2バッファ 122に順次格納 されるフレームの振幅に関する属性値を示すデータである。ノイズレベルデータ 123 およびサウンドレベルデータ 124の具体的内容は後述の動作説明において述べる。
[0036] また、記憶部 12には、判定期間中に条件判定部 1143により生成される発音期間 データ 125が一時的に格納される。発音期間データ 125は発音期間の先頭のフレー ム番号および末尾のフレーム番号を示すデータである。発音期間データ 125により、 先頭のフレームの開始時点が発音期間の開始時点として特定され、同様に末尾のフ レームの終了時点が発音期間の終了時点として特定される。なお、発音期間データ
125の形式はフレーム番号を用いるものに限られず、例えば発音期間の開始時点お よび終了時点を時刻データにより特定する等、他に様々なものが考えられる。
[0037] [動作]
続いて、音信号処理システム 1の動作を説明する。今、音信号処理システム 1のュ 一ザは端末装置(図示略)を利用するために、音信号認識装置 40による本人認証を 受ける必要があるものとする。
[0038] ユーザは、本人認証を受けるためにキーボード 30に対し所定の操作を行い、音信 号処理装置 10に対し本人認証の処理を指示するが、そのユーザの操作に先立ち、 マイク 20は常時、音信号処理システム 1の配置された音空間の音を示す音信号を音 信号処理装置 10に対し出力して 、る。音信号処理装置 10の音信号取得部 111は マイク 20から音信号を受け取ると、受け取った音信号を順次、 AZDコンバータ 112 に引き渡している。そして、 AZDコンバータ 112は音信号取得部 111から音信号を 受け取ると、受け取った音信号をデジタル信号に変換した後、記憶部 12に順次引き 渡し、フレーム単位で記憶させている。この場合、トリガ信号取得部 113はまだトリガ 信号を受け取っていないので、待機期間中である。従って、 AZDコンバータ 112は 記憶部 12に対し、送信する音信号を第 1バッファ 121に格納するように指示して!/、る 。その結果、第 1バッファ 121には常に待機期間中における直近の最大 10フレーム 分の音信号が格納されて 、ることになる。このように第 1バッファ 121に格納されて ヽ る音信号は、未だユーザによる発音 (発声)が行われて 、な 、状態における音空間 内の音、すなわち環境雑音の音を示す音信号である。
[0039] 上記の状態において、ユーザがキーボード 30に対し所定の操作を行い、音信号処 理装置 10に対し本人認証の処理を指示すると、キーボード 30はユーザの操作に応 じてトリガ信号を生成し音信号処理装置 10に対し出力する。音信号処理装置 10のト リガ信号取得部 113はキーボード 30からトリガ信号を受け取ると、受け取ったトリガ信 号を AZDコンバータ 112および特定部 114に送信する。
[0040] AZDコンバータ 112は、トリガ信号取得部 113からトリガ信号を受け取ると、その後 、生成する音信号を記憶部 12に記憶させる際、第 2バッファ 122に記憶するように指 示する。その結果、第 2バッファ 122には常に判定期間中における直近の最大 6000 フレーム分の音信号が格納されていることになる。また、判定期間中において、待機 期間中に格納された第 1バッファ 121の内容は保持されて!、る。
[0041] 一方、特定部 114はトリガ信号取得部 113からトリガ信号を受け取ると、第 2バッファ 122に順次格納される音信号における発音期間の特定処理を開始する。まず、 FFT 部 1141は、第 1バッファ 121に記憶されている直近のフレーム、すなわち領域「ー00 01」に格納されているフレームに関し、 FFT処理を行い、各々のフレームの音信号に 含まれる各周波数の成分を示す複素数を算出する。以下、説明のため、第 1バッファ 121の領域「一0001」に格納されているフレームがフレーム「0094」であるものとする
[0042] 以下の説明において、 FFT部 1141は FFT処理により、複数の周波数の成分を示 す複素数 (Rl +Ili)、(R2+I2i)、(R3+I3i)、 · · ·、(RN+INi)を算出するものとする 。ただし、ここで「i」は虚数単位であり、 Rnおよび In (nは 1〜N、 Nは FFTbinの数)は それぞれ実数部および虚数部の数値である。
[0043] FFT部 1141は上記のように算出した周波数成分を示す複素数群を SZN比算出 部 1142に送信する。 SZN比算出部 1142は、 FFT部 1141から受け取った複素数 群を用いて、複数の周波数帯域に含まれる周波数の複素数群から、予め区分された 複数の周波数帯域ごとに、音信号の成分に関する振幅の指標を算出する。以下の 説明においては、 SZN比算出部 1142は図 4に示す 5つの周波数帯域の各々に関 し、以下の (式 1)乃至 (式 5)に従って周波数帯域ごとのパワー: Fm (mは周波数帯域 番号)を算出する。ここで、 bm :所望帯域の最低周波数に対応する FFTbinの番号、 em:所望帯域の最高周波数に対応する FFTbinの番号とする。
[数 1] F (式 1 )
F :式 2
Figure imgf000015_0001
έΛ∑∑一. e
F + I (式 3 )
F ^2 + 2 (式 4 )
F (式 5 )
[0044] 以下、 FFT部 1141および SZN比算出部 1142によりフレーム「0094」に格納され ているフレームに関し上記のように算出された Fl、 F2、 · · ·、 F5を F0094_l、 F0094.2
、 · · ·、 F0094_5のように呼ぶ。
[0045] 続いて、 FFT部 1141および SZN比算出部 1142は、第 1バッファ 121の領域「―
0002」乃至「一 0005」に格納されて 、るフレームの各々に関しても、同様に周波数 帯域ごとのパワー、すなわち F0093_l乃至 F0093_5、 F0092_l乃至 F0092_5、 F009U 乃至 F0091_5、 F0090_l乃至 F0090_5を算出する。
[0046] 続いて、 SZN比算出部 1142は以下の(式 6)に従って周波数帯域ごとのノイズレ ベル: NLm (mは周波数帯域番号)を算出する。ただし、(式 6)における tはフレーム 番号を示し、この場合 k= 0090である。
[数 2]
NLm 二 式 6
Figure imgf000015_0002
~ ノ
[0047] SZN比算出部 1142は上記のように NL1乃至 NL5を算出すると、それらの数値群 を示すデータをノイズレベルデータ 123として記憶部 12に記憶させる。このように記 憶部 12に記憶されるノイズレベルデータ 123は、環境雑音のレベルを所定の周波数 帯域ごとに示すデータである。
[0048] 続いて、 FFT部 1141は第 2バッファ 122に新たに格納されたフレーム、すなわちフ レーム「0095」に関し、上述した第 1バッファ 121に格納されたフレームに関するもの と同様の処理を行い、周波数成分を示す複素数群を算出する。 SZN比算出部 114 2は FFT部 1141によりフレーム「0095」に関し算出された複素数群を用いて、上記( 式 1)乃至(式 5)に従って、周波数帯域ごとのパワー、すなわち F0095_l、 F0095_2、 · · ·、 F0095_5を算出する。
[0049] SZN比算出部 1142は上記のように F0095_l乃至 F0095_5を算出すると、それらの 数値群を示すデータをサウンドレベルデータ 124として記憶部 12に記憶させる。この ように記憶部 12に記憶されるサウンドレベルデータ 124は、現時点の音空間におけ る音のレベルを所定の周波数帯域ごとに示すデータである。
[0050] SZN比算出部 1142は、上記のように記憶部 12に記憶したノイズレベルデータ 12 3およびサウンドレベルデータ 124を用いて、以下の(式 7)に従って、 SZN比: SNR を算出する。ただし、(式 7)における Sはサウンドレベルデータ 124の算出に用いられ たフレーム番号を示し、この場合 S = 0095である。
[数 3]
(式 7
Figure imgf000016_0001
FFT部 1141および S/N比算出部 1142は、第 2バッファ 122に新たなフレームが 格納されるごとに、上記 (式 7)に従い、新たに格納されたフレームに関する SNRを算 出する。なお、判定期間中に第 1バッファ 121に格納されている音信号は変更されな いので、第 2バッファ 122に格納されるフレーム「0096」以降に関する SNRの算出に ぉ 、ては、既に記憶部 12に記憶されて 、るノイズレベルデータ 123が利用される。 [0052] 上記のように SZN比算出部 1142により算出される SNRは、環境雑音のレベルに 対する現時点の音空間における音のレベルの比を示す指標である。従って、ユーザ により発声がなされていない間に算出される SNRは 1の近傍を示し、ユーザにより発 声がなされている間に算出される SNRは 1よりかなり大きな数値を示すことになる。そ こで、条件判定部 1143は SZN比算出部 1142により順次算出される SNRに基づき 、発音期間の特定処理を以下のように行う。
[0053] 条件判定部 1143による発音期間の特定処理は、発音期間の開始時点を特定する ための処理と、発音期間の終了時点を特定するための処理に区分される。図 5は開 始時点の特定処理のフローを、図 6は終了時点の特定処理のフローを、それぞれ示 している。
[0054] まず、条件判定部 1143は発音期間の特定処理に先立ち、予め以下の定数をパラ メータとして記憶部 12に記憶して 、る。
(a)開始閾値
(b)開始満了回数
(c)開始猶予回数
(d)終了閾値
(e)終了満了回数
[0055] 開始閾値は、 SNRがその値を超えた場合に、その SNRの算出に用いられたフレー ムが発音期間中のフレームである可能性が高いことを示す閾値である。以下の説明 において、開始閾値 = 2. 0であるものとする。
[0056] 開始満了回数は、その回数を超えて SNRが開始閾値を超えた場合に、最初に開 始閾値を超えた SNRに対応するフレームを発音期間の先頭フレームと判定するため の回数である。以下の説明において、開始満了回数 = 5であるものとする。
[0057] 開始猶予回数は、いったん発音期間の開始時点の特定処理が開始された後、 SN Rが開始閾値を超える力否かの判定がその回数を超えても開始時点の特定がなされ ない場合に、再度、それ以降の SNRに関し発音期間の開始時点の特定処理をやり 直すための回数である。以下の説明において、開始猶予回数 = 10であるものとする [0058] 終了閾値は、 SNRがその値を下回った場合に、その SNRの算出に用いられたフレ 一ムが非発音期間のフレームである可能性が高いことを示す閾値である。以下の説 明において、終了閾値 = 1. 2であるものとする。
[0059] 終了満了回数は、その回数を超えて SNRが終了閾値を下回った場合に、最初に 終了閾値を下回った SNRに対応するフレームを発音期間の末尾フレームと判定す るための回数である。以下の説明において、終了満了回数 = 15であるものとする。
[0060] 条件判定部 1143は、判定期間になると、まず以下の変数を初期化する (ステップ S
100)。
(f)開始時点データ
(g)試行カウンタ
(h)開始閾値超過カウンタ
[0061] 開始時点データは、発音期間の先頭のフレームのフレーム番号が格納される変数 であり、そのフレーム番号の開始時点が発音期間の開始時点を示す。初期化により、 開始時点データには例えば未特定値を示す「Null」が代入される。
[0062] 試行カウンタは、ステップ S100の初期化処理の後、 SNRを開始閾値「2. 0」と比較 した回数をカウントするカウンタである。また、開始閾値超過カウンタは SNRが開始閾 値「2. 0」を超えた回数をカウントするカウンタである。初期化により、試行カウンタお よび開始閾値超過カウンタにはそれぞれ「0」が代入される。
[0063] 条件判定部 1143は SZN比算出部 1142から新たな SNRを取得すると (ステップ S
101)、試行カウンタに 1を加算した後(ステップ S102)、ステップ S101において取得 した SNRが開始閾値「2. 0」を超えているか否かを判定する(ステップ S103)。 SNR が開始閾値「2. 0」を超えていない場合 (ステップ S103 :No)、条件判定部 1143は 試行カウンタが開始猶予回数「10」を超えている力否かを判定する (ステップ S104)
[0064] 試行カウンタが開始猶予回数「10」を超えていない場合 (ステップ S 104 : No)、条 件判定部 1143は処理をステップ S101に戻し、次の SNRに関しステップ S101以降 の処理を繰り返す。
[0065] 一方、開始時点の特定がなされないまま、ステップ S101以下の処理が繰り返され、 ステップ S102において試行カウンタの値が増加される結果、 11になると、ステップ S 104の判定結果が Yesとなる。その場合、条件判定部 1143は処理をステップ S100 に戻し、再度、それ以降の SNRに関し発音期間の開始時点の特定処理をやり直す。
[0066] ユーザは発声を行わない間は、 SNRが開始閾値「2. 0」を超えないため、条件判 定部 1143は上記のステップ S100乃至ステップ S104の処理を繰り返す。そのような 状態でユーザが発声を開始すると、ステップ S103の判定における結果が Yesとなる 。その場合、続いて条件判定部 1143は開始閾値超過カウンタが「0」である力否かを 判定する (ステップ S 105)。この場合、開始閾値超過カウンタは「0」であるので (ステ ップ S105 :Yes)、条件判定部 1143は開始時点データに最後に取得した SNRの算 出に用いられたフレーム番号を代入する(ステップ S106)。このように代入されるフレ ーム番号は、発音期間の開始時点を示すフレーム番号の候補である。
[0067] 続いて、条件判定部 1143は開始閾値超過カウンタに 1を加算した後 (ステップ S10 7)、開始閾値超過カウンタが開始満了回数「5」を超えている力否かを判定する (ステ ップ S108)。この場合、開始閾値超過カウンタは「1」でありステップ S108の判定結 果は Noとなるため、条件判定部 1143は処理をステップ S101に戻し、新たな SNRに 関しステップ S 101以降の処理を繰り返す。
[0068] 通常、ユーザにより発声が開始され、いったんステップ S103における判定結果が Y esとなると、後続のフレームに関する SNRに関するステップ S103における判定結果 もしばらくの間、 Yesとなる。ユーザの一続きの発声時間は数秒間に渡り、一方、各フ レームの長さは 10ミリ秒と短いためである。その結果、再びステップ S103の判定結 果が Yesとなり、ステップ S105の判定がなされる場合、既に開始閾値超過カウンタは 「1」以上となっているため、その判定結果は Noとなる。その場合、条件判定部 1143 はステップ S106の開始時点データの設定を行わず、ステップ S 107以降の処理を行 う。既に仮設定されている発音期間の開始を示すフレーム番号を変更する必要がな いためである。
[0069] ステップ S 103における SNRと開始閾値との比較による判定結果が繰り返し Yesと なり、ステップ S105以降の処理が繰り返され、ステップ S107において開始閾値超過 カウンタの値が増加される結果、 6になると、ステップ S 108の判定結果が Yesとなる。 その場合、条件判定部 1143はその時点で開始時点データに格納されているフレー ム番号を発音期間の先頭フレームを示すフレーム番号として確定し、処理を発音期 間の終了時点の特定処理のフローに移す。
[0070] ところで、いったんステップ S103の判定結果が Yesとなっても、例えば一単語の発 音における音節間において、短い時間ではあるが発声が途切れたり、発声のレベル が低くなつたりする場合がある。そのような場合、ステップ S 103の判定結果が一時的 に Noとなるが、後続の SNRに関するステップ S103の判定結果が Yesとなるため、そ れらのフレームは一連の発音期間のフレームと判断されることになる。
[0071] 一方、例えばユーザが物を落とした等により大きな雑音が発生し、発声ではない音 により SNRが一時的に高くなるような場合がある。そのような場合、ステップ S103の 判定結果が一時的に Yesとなる力 後続の SNRに関するステップ S103の判定結果 力 SNoとなり、試行カウンタが 10を超えた時点で開始時点データに仮設定されていた フレーム番号も初期化されるため、誤ってそのような雑音の発生時点が発音期間の 開始時点と判断されることはな 、。
[0072] 上記のように、発音期間の開始時点の特定処理が完了すると、条件判定部 1143 は続いて図 6に示される発音期間の終了時点の特定処理を開始する。条件判定部 1
143はまず、以下の変数を初期化する (ステップ S 200)。
(i)終了時点データ
(j)終了閾値未満カウンタ
[0073] 終了時点データは、発音期間の末尾のフレームのフレーム番号が格納される変数 であり、そのフレーム番号の終了時点が発音期間の終了時点を示す。初期化により、 終了時点データには例えば未特定値を示す「Null」が代入される。
[0074] 終了閾値未満カウンタは SNRが終了閾値「1. 2」を下回った回数をカウントする力 ゥンタである。初期化により、終了閾値未満カウンタには「0」が代入される。
[0075] 条件判定部 1143は SZN比算出部 1142から新たな SNRを取得すると (ステップ S
201)、ステップ S201において取得した SNRが終了閾値「1. 2」を下回っているか否 かを判定する(ステップ S 202)。 SNRが終了閾値「1. 2」を下回っていない場合 (ステ ップ S202 :No)、条件判定部 1143は続いて当該 SNRが開始閾値「2. 0」を超えて V、るか否かを判定する(ステップ S203)。
[0076] ユーザが発声中においては、 SNRが開始閾値「2. 0」を超える可能性が高ぐその 場合、ステップ S203の判定結果は Yesとなり、条件判定部 1143は処理をステップ S 200に移し、再び、終了時点の特定処理をやり直す。また、ユーザが発声中であって 、発音がやや小さくなつたりした場合には、 SNRが開始閾値「2. 0」以下であるが、終 了閾値「1. 2」以上となることがある。そのような場合 (ステップ S203 : No)、条件判定 部 1143は変数の初期化は行わず、処理をステップ S201に戻し、新たな SNRに関 しステップ S201以降の処理を繰り返す。
[0077] ユーザが発声を行っている間は、 SNRが終了閾値「1. 2」を下回らないため、条件 判定部 1143は上記のステップ S200乃至ステップ S203の処理を繰り返す。そのよう な状態でユーザが発声を終了すると、ステップ S202の判定における結果が Yesとな る。その場合、続いて条件判定部 1143は終了閾値未満カウンタが「0」であるか否か を判定する (ステップ S204)。この場合、終了閾値未満カウンタは「0」であるので (ス テツプ S204 : Yes)、条件判定部 1143は終了時点データに最後に取得した SNRの 算出に用いられたフレーム番号から 1を減じた番号を代入する (ステップ S 205)。この ように代入されるフレーム番号は、発音期間の終了時点を示すフレーム番号の候補 である。
[0078] 続いて、条件判定部 1143は終了閾値未満カウンタに 1を加算した後 (ステップ S20 6)、終了閾値未満カウンタが終了満了回数「15」を超えて 、る力否かを判定する (ス テツプ S207)。この場合、終了閾値未満カウンタは「1」でありステップ S207の判定結 果は Noとなるため、条件判定部 1143は処理をステップ S201に戻し、新たな SNRに 関しステップ S201以降の処理を繰り返す。
[0079] その後、ユーザがすぐさま発声を開始しない限り、再びステップ S202の判定結果 が Yesとなる。その場合、ステップ S 204の判定においては、既に終了閾値未満カウ ンタが「1」以上となっているため、その判定結果が Noとなる。その場合、条件判定部 1143はステップ S205の終了時点データの設定を行わず、ステップ S206以降の処 理を行う。既に仮設定されている発音期間の終了を示すフレーム番号を変更する必 要がないためである。 [0080] ステップ S202における SNRと終了閾値との比較による判定結果が繰り返し Yesと なり、ステップ S204以降の処理が繰り返され、ステップ S206において終了閾値未満 カウンタの値が増加される結果、 31になると、ステップ S207の判定結果が Yesとなる 。その場合、条件判定部 1143はその時点で終了時点データに格納されているフレ ーム番号を発音期間の末尾フレームを示すフレーム番号として確定し、開始時点デ ータおよび終了時点データの組み合わせを発音期間データ 125として記憶部 12に 記憶させる (ステップ S208)。その後、条件判定部 1143は音信号出力部 13に対し 音信号の出力を指示した後 (ステップ S209)、次の発音期間を特定するために、再 び図 5に示した発音期間の特定処理に戻る。図 7は、上述した特定部 114による発音 期間の特定の様子を模式的に示した図である。
[0081] 音信号出力部 13は、条件判定部 1143から音信号の出力を指示されると、第 2バッ ファ 122から、発音期間データ 125に含まれる開始時点データにより示されるフレー ム番号を先頭とし、終了時点データにより示されるフレーム番号を末尾とする一連の フレーム群を読み出し、音信号認識装置 40に対し出力する。特定部 114は例えば、 ユーザにより発音期間の特定処理の終了指示がなされる力 トリガ信号の取得時点 の後、発音期間の特定処理の最大時間として予め設定された時間が経過するまでの 間、図 5および図 6に示した判定期間における一連の処理を繰り返す。
[0082] 音信号認識装置 40は音信号出力部 13から受け取った音信号に対し特徴量抽出 を行い、予め記憶されている特徴量と、新たに抽出したユーザの音声に関する特徴 量とを比較することにより、ユーザの本人認証を行う。その場合、音信号認識装置 40 が音信号出力部 13から受け取る音信号は、ユーザの発声期間に応じた部分が正し く切り出された音信号であるため、精度の高い本人認証が行われることになる。
[0083] 上述したように、音信号処理システム 1によれば、環境雑音の変化が予測不可能な 状況においても、ユーザによる本人認証の処理の指示をトリガとして、そのトリガの発 生直前に取得された音信号を環境雑音を示す音信号として用いる結果、トリガの発 生後の音信号における発音期間の特定を高い精度で行うことが可能となる。
[0084] [変形例]
ところで、上述した実施形態は以下のように様々に変形してもよい。まず、上記説明 においては、トリガ信号はユーザのキーボード 30に対する操作に応じて生成されるも のとした。それに代えて、例えば、音信号処理装置 10が画像や文字でユーザにメッ セージを通知するディスプレイや音でユーザにメッセージを通知するサウンドシステ ム等の通知手段を備えるようにし、ユーザの操作を待つことなぐ例えば予め定めら れた時刻においてそれらの通知手段を用いてユーザに対し発声を促す通知を行うと 同時に、トリガ信号を生成しトリガ信号取得部 113に該トリガ信号を送信する渡すよう にしてもよい。
[0085] また、上記説明にお 、ては、複数の周波数帯域ごとにノイズレベルを示す NLmお よびサウンドレベルを示す Fmを算出した後、周波数帯域ごとの FmZNLmの平均値 を算出することにより SNRを算出するものとした (式 1乃至 7参照)。それに代えて、例 えば、 SZN比算出部 1142が全周波数帯域に関する NLおよび Fを各 1つずつ算出 した後、 SNR=FZNLとして算出するようにしてもよい。すなわち、周波数帯域の区 分数は 1であってもよい。
[0086] また、上記説明においては、音信号に対し FFT部 1141が FFT処理を施し、 S/N 比算出部 1142が各周波数の振幅を算出することにより、周波数帯域ごとのパワーを 示す Fmを算出するものとした。それに代えて、例えば、特定部 114が FFT部 1141 の代わりに周波数帯域ごとのバンドパスフィルタを備えるようにし、各バンドパスフィル タにより濾波された音信号の振幅の平均値を上記 (式 6)および (式 7)における Fmの 代わりに用いることにより、 SNRを算出するようにしてもょ 、。
[0087] さらに、 FFT部 1141やバンドパスフィルタを用いることなぐ第 1バッファ 121に格 納されているフレームに含まれる音信号の振幅の平均値で第 2バッファ 122に格納さ れているフレームに含まれる音信号の振幅の平均値を単純に除すことにより、 SNR を算出するようにしてもよい。
[0088] また、上記説明においては、 SZN比算出部 1142は各周波数成分のパワーを示 す Fmを上記 (式 1)乃至 (式 5)に従い算出するものとした。それに代えて、例えば、以 下の(式 8)もしくは (式 9)に従い Fmを算出するようにしてもよい。ただし、(式 9)にお ける「abs ()」は 0内の数値の絶対値を示す。
[数 4] Σ ( 2) · · · (式8 )
j
Fm =∑{abs{RJ)+abs{lJ)) . . · (式 9 )
j
[0089] また、上記説明においては、 SNRを算出するにあたり、周波数帯域ごとに算出され た FmZNLmを単純平均するものとした (式 7参照)。それに代えて、例えば、ユーザ により発音される音が有する割合が高いと予想される周波数成分を含む周波数帯域 に関する FmZNLmに相対的に大きな値が設定されたウェイトを用いて、 SZN比算 出部 1142が FmZNLmの加重平均を行うことにより、 SNRを算出するようにしてもよ い。
[0090] また、上記説明においては、トリガ信号が取得された後に第 1バッファ 121の内容が 変更されることはなぐいったんノイズレベルを示す NLm (式 6参照)が算出されると、 その後の発音期間の特定処理において NLmが更新されることはないものとした。そ れに代えて、例えば、図 5のステップ S103における SNRが開始閾値を超える力否か の判定結果が Noとなり、その SNRの算出に用いられたフレームが非発音期間のも のであることが確定した時点で、そのフレームを直近の環境雑音を示すフレームとし て第 1バッファ 121に格納することにより、第 1バッファ 121の内容を更新するようにし てもよい。その場合、 FFT部 1141および S/N比算出部 1142は更新された第 1バッ ファ 121のフレームを用いて NLmを再計算し、その後は再計算された NLmを用いて SNRの算出を行う。
[0091] また、上記説明においては、ノイズレベルを示す NLm (式 6参照)を算出するにあた り、第 1バッファ 121に格納されている直近の 5フレームを固定的に選択するものとし た。それに代えて、例えば、第 1バッファ 121に格納されているフレームの中力も異常 値を示すフレームを除外し、適当と思われるフレームを選択して NLmの算出に用い るようにしてもよい。具体例を挙げると、 FFT部 1141は第 1バッファ 121に格納されて いる 10フレームの全てに関し FFT処理を施す。そして、 S/N比算出部 1142はそれ ら 10フレームの全てに関し周波数帯域ごとのパワーを示す Fmを算出する。そして、 S ZN比算出部 1142はそのようにして算出した Fmの平均値力 所定の閾値以上に乖 離する Fmを異常値として除外し、除外しな力つた Fmを用いて NLmを算出するように すればよい。
[0092] また、上記説明においては、第 1バッファ 121に格納されているフレームの各々に 関し算出した周波数帯域ごとのパワーを示す Fmを単純平均することによりノイズレべ ルを示す NLmを算出するものとした (式 6参照)。それに代えて、例えば、新しいフレ ームほど大きなウェイトを与え、 SZN比算出部 1142が各フレームに関する Fmをカロ 重平均することにより NLmを算出するようにしてもょ 、。
[0093] また、上記説明においては、開始閾値、開始満了回数、開始猶予回数、終了閾値 および終了満了回数は予め音信号処理装置 10に記憶されているものとした力 例え ば、ユーザの操作に応じてこれらの定数を変更可能としてもよ 、。
[0094] また、上記説明にお 、ては、マイク 20、キーボード 30および音信号認識装置 40は 音信号処理装置 10とは異なる筐体に配置されているものとした力 これらの配置は 自由に変更可能である。例えば、音信号処理装置 10が音信号認識装置 40を構成 部として備えるようにしてもょ 、。
[0095] また、音信号処理装置 10は、専用のハードウェアにより実現されてもよいし、音信 号の入出力が可能な汎用コンピュータにアプリケーションプログラムに従った処理を 実行させることにより実現されてもよい。音信号処理装置 10が汎用コンピュータにより 実現される場合、制御部 11は汎用コンピュータが備える CPU (Central Processin g Unit)および CPUの制御下で動作する DSP (Digital Signal Processor)が、 アプリケーションプログラムに含まれる各モジュールに従った処理を同時並行して行う ことにより、汎用コンピュータの機能として実現される。
[0096] 本発明を詳細にまた特定の実施態様を参照して説明してきたが、本発明の精神、 範囲または意図の範囲を逸脱することなく様々な変更や修正を加えることができるこ とは当業者にとって明らかである。
本発明は、 2005年 7月 15日出願の日本特許出願 (特願 2000-207798)に基づくもの であり、その内容はここに参照として取り込まれる。
産業上の利用可能性
[0097] 本発明の音信号処理装置及び音信号処理方法によれば、トリガ信号の取得前に 取得され記憶されている音信号を環境雑音のみを示す音信号と見なして SZN比を 算出し、当該 SZN比に基づき発音期間の特定が行われる結果、高い精度の特定結 果が得られる。

Claims

請求の範囲
[1] 音信号処理装置は、
継続的に音信号を取得する音信号取得手段と、
現時点を終点とする所定期間において前記音信号取得手段により取得された音信 号を記憶する記憶手段と、
トリガ信号を取得するトリガ信号取得手段と、
前記トリガ信号が取得された時点後に前記音信号取得手段により取得された音信 号を用いてサウンドレベルの指標値を算出し、前記トリガ信号取得手段によりトリガ信 号が取得された時点にお!、て前記記憶手段に記憶されて!、る音信号を用いてノイズ レベルの指標値を算出し、前記サウンドレベルの指標値を前記ノイズレベルの指標 値で除すことにより SZN比を算出し、前記 SZN比が所定の条件を満たすか否かを 判定することにより、前記トリガ信号が取得された時点後に前記音信号取得手段によ り取得された音信号のうち発音期間の音を示す部分を特定する特定手段と、 を備える。
[2] 請求項 1に記載の音信号処理装置はさらに、ユーザの操作に応じて所定の信号を 生成する操作手段を備え、
前記トリガ信号取得手段は、前記ユーザによる所定の操作に応じて前記操作手段 により生成されるトリガ信号を取得する。
[3] 請求項 1に記載の音信号処理装置はさらに、ユーザに対し発音を促す通知を行うと ともに、前記通知に伴いトリガ信号を生成する通知手段を備え、
前記トリガ信号取得手段は、前記通知手段により生成されたトリガ信号を取得する。
[4] 請求項 1に記載の音信号処理装置であって、前記特定手段は、前記トリガ信号が 取得された時点後に前記音信号取得手段により取得された音信号の所定周波数の 成分のパワーを示す指標値および前記トリガ信号取得手段によりトリガ信号が取得さ れた時点にお!、て前記記憶手段に記憶されて!、る音信号の所定周波数の成分のパ ヮーを示す指標値を用いて、前記サウンドレベルの指標値および前記ノイズレベル の指標値をそれぞれ算出する。
[5] 請求項 1に記載の音信号処理装置であって、前記特定手段は、前記トリガ信号が 取得された時点後に前記音信号取得手段により取得された音信号の振幅値および 前記トリガ信号取得手段によりトリガ信号が取得された時点において前記記憶手段 に記憶されて 、る音信号の振幅値を用いて、前記サウンドレベルの指標値および前 記ノイズレベルの指標値をそれぞれ算出する。
[6] 請求項 1に記載の音信号処理装置であって、前記特定手段は、前記トリガ信号が 取得された時点後に前記音信号取得手段により取得された音信号を所定時間長ご とに分割して得られる複数のフレームの各々について前記 SZN比を算出し、当該 S ZN比が所定の条件を満たすフレームの開始時点を前記発音期間の開始時点とし て特定する。
[7] 請求項 6に記載の音信号処理装置であって、前記特定手段は、所定のフレームに 関し算出した前記 SZN比が前記所定の条件を満たさな 、場合、前記記憶手段に記 憶されている音信号を当該所定のフレームを用いて更新し、当該所定のフレームの 後続のフレームについて前記 SZN比を算出するときに、当該更新後の前記記憶手 段に記憶されて ヽる音信号を用いる。
[8] 請求項 1に記載の音信号処理装置であって、前記特定手段は、前記トリガ信号が 取得された時点後に前記音信号取得手段により取得された音信号を所定時間長ご とに分割して得られる複数のフレームの各々について前記 SZN比を算出し、当該 S ZN比が所定の条件を満たすフレームの終了時点を前記発音期間の終了時点とし て特定する。
[9] 請求項 1に記載の音信号処理装置であって、前記特定手段は、前記記憶手段に 記憶されている音信号を所定時間長ごとに分割して得られる複数のフレームの各々 について所定の属性値を算出し、前記算出した属性値が所定の条件を満たすフレ ームを前記 SZN比の算出に用いな!/、。
[10] 音信号処理方法は、
継続的に音信号を取得し、
現時点を終点とする過去の所定期間において取得した音信号を記憶し、 トリガ信号を取得し、
前記トリガ信号を取得した時点後に取得した音信号を用いてサウンドレベルの指標 値を算出し、
前記トリガ信号を取得した時点にぉ ヽて記憶して ヽる音信号を用いてノイズレベル の指標値を算出し、
前記サウンドレベルの指標値を前記ノイズレベルの指標値で除すことにより SZN 比を算出し、
前記 SZN比が所定の条件を満たす力否かを判定し、
前記判定処理に基づいて、前記トリガ信号を取得した時点後に取得した音信号の うち発音期間の音を示す部分を特定する。
[11] 請求項 10に記載の音信号処理方法はさらに、ユーザの操作に応じて所定の信号 を生成し、
前記トリガ信号取得処理にぉ 、て、前記ユーザによる所定の操作に応じて前記信 号生成処理により生成されるトリガ信号を取得する。
[12] 請求項 10に記載の音信号処理方法はさらに、ユーザに対し発音を促す通知を行う とともに、前記通知に伴いトリガ信号を生成し、
前記トリガ信号取得処理において、前記通知処理により生成されたトリガ信号を取 得する。
[13] 請求項 10に記載の音信号処理方法であって、前記特定処理は、前記トリガ信号が 取得された時点後に前記音信号取得処理により取得された音信号の所定周波数の 成分のパワーを示す指標値および前記トリガ信号取得手段によりトリガ信号が取得さ れた時点において前記記憶されている音信号の所定周波数の成分のパワーを示す 指標値を用いて、前記サウンドレベルの指標値および前記ノイズレベルの指標値を それぞれ算出する。
[14] 請求項 10に記載の音信号処理方法であって、前記特定処理は、前記トリガ信号が 取得された時点後に前記音信号取得処理により取得された音信号の振幅値および 前記トリガ信号取得処理によりトリガ信号が取得された時点において前記記憶されて V、る音信号の振幅値を用いて、前記サウンドレベルの指標値および前記ノイズレべ ルの指標値をそれぞれ算出する。
[15] 請求項 10に記載の音信号処理方法であって、前記特定処理は、前記トリガ信号が 取得された時点後に前記音信号取得処理により取得された音信号を所定時間長ご とに分割して得られる複数のフレームの各々について前記 SZN比を算出し、当該 S ZN比が所定の条件を満たすフレームの開始時点を前記発音期間の開始時点とし て特定する。
[16] 請求項 15に記載の音信号処理方法であって、前記特定処理は、所定のフレーム に関し算出した前記 SZN比が前記所定の条件を満たさな 、場合、前記記憶されて いる音信号を当該所定のフレームを用いて更新し、当該所定のフレームの後続のフ レームについて前記 SZN比を算出するときに、当該更新後の前記記憶されている 音信号を用いる。
[17] 請求項 10に記載の音信号処理方法であって、前記特定処理は、前記トリガ信号が 取得された時点後に前記音信号取得処理により取得された音信号を所定時間長ご とに分割して得られる複数のフレームの各々について前記 SZN比を算出し、当該 S ZN比が所定の条件を満たすフレームの終了時点を前記発音期間の終了時点とし て特定する。
[18] 請求項 10に記載の音信号処理方法であって、前記特定処理は、前記記憶されて いる音信号を所定時間長ごとに分割して得られる複数のフレームの各々について所 定の属性値を算出し、前記算出した属性値が所定の条件を満たすフレームを前記 S ZN比の算出に用いない。
PCT/JP2006/312917 2005-07-15 2006-06-28 発音期間を特定する音信号処理装置および音信号処理方法 WO2007017993A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP06767534A EP1906385A4 (en) 2005-07-15 2006-06-28 SOUND SIGNAL PROCESSING DEVICE CAPABLE OF IDENTIFYING A PERIOD FOR PRODUCING SOUND, AND SOUND SIGNAL PROCESSING METHOD
JP2007506392A JP5388447B2 (ja) 2005-07-15 2006-06-28 発音期間を特定する音信号処理装置および音信号処理方法
CN2006800209311A CN101194304B (zh) 2005-07-15 2006-06-28 用于确定声音发生周期的音频信号处理装置和音频信号处理方法
US11/916,993 US8300834B2 (en) 2005-07-15 2006-06-28 Audio signal processing device and audio signal processing method for specifying sound generating period

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005207798 2005-07-15
JP2005-207798 2005-07-15

Publications (1)

Publication Number Publication Date
WO2007017993A1 true WO2007017993A1 (ja) 2007-02-15

Family

ID=37727184

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/312917 WO2007017993A1 (ja) 2005-07-15 2006-06-28 発音期間を特定する音信号処理装置および音信号処理方法

Country Status (6)

Country Link
US (1) US8300834B2 (ja)
EP (1) EP1906385A4 (ja)
JP (1) JP5388447B2 (ja)
KR (1) KR20080009331A (ja)
CN (1) CN101194304B (ja)
WO (1) WO2007017993A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008170806A (ja) * 2007-01-12 2008-07-24 Yamaha Corp 発音期間を特定する音信号処理装置およびプログラム

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5157837B2 (ja) * 2008-11-12 2013-03-06 ヤマハ株式会社 ピッチ検出装置およびプログラム
JP2012027186A (ja) * 2010-07-22 2012-02-09 Sony Corp 音声信号処理装置、音声信号処理方法及びプログラム
KR101811643B1 (ko) * 2010-12-23 2017-12-26 한국전자통신연구원 기지국에서의 무선 링크 실패 결정 방법
GB2522836A (en) * 2013-12-02 2015-08-12 Neul Ltd Interference mitigation
GB201510032D0 (en) * 2015-06-09 2015-07-22 Kp Acoustics Ltd Integrated sensor system

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03266899A (ja) * 1990-03-16 1991-11-27 Matsushita Electric Ind Co Ltd 雑音抑圧装置
JPH0713584A (ja) * 1992-10-05 1995-01-17 Matsushita Electric Ind Co Ltd 音声検出装置
JPH09212195A (ja) * 1995-12-12 1997-08-15 Nokia Mobile Phones Ltd 音声活性検出装置及び移動局並びに音声活性検出方法
JP2000163098A (ja) * 1998-11-25 2000-06-16 Mitsubishi Electric Corp 音声認識装置
JP2001075594A (ja) * 1999-08-31 2001-03-23 Pioneer Electronic Corp 音声認識システム
JP2001265367A (ja) * 2000-03-16 2001-09-28 Mitsubishi Electric Corp 音声区間判定装置
JP2002073061A (ja) * 2000-09-05 2002-03-12 Matsushita Electric Ind Co Ltd 音声認識装置及びその方法
JP2003524794A (ja) * 1999-02-08 2003-08-19 クゥアルコム・インコーポレイテッド 雑音のある信号におけるスピーチのエンドポイント決定
JP2004094077A (ja) * 2002-09-03 2004-03-25 Nec Corp 音声認識装置及び制御方法並びにプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2856012B2 (ja) * 1992-12-24 1999-02-10 岩崎通信機株式会社 音声検出装置
US5548638A (en) 1992-12-21 1996-08-20 Iwatsu Electric Co., Ltd. Audio teleconferencing apparatus
CN1064159C (zh) * 1994-07-18 2001-04-04 松下电器产业株式会社 语音检测装置
JPH11109989A (ja) * 1997-10-02 1999-04-23 Toyota Motor Corp 音声認識装置
JP2000029486A (ja) 1998-07-09 2000-01-28 Hitachi Ltd 音声認識システムおよび方法
US6336091B1 (en) * 1999-01-22 2002-01-01 Motorola, Inc. Communication device for screening speech recognizer input
JP3434730B2 (ja) * 1999-05-21 2003-08-11 Necエレクトロニクス株式会社 音声認識方法および装置
JP4615166B2 (ja) 2001-07-17 2011-01-19 パイオニア株式会社 映像情報要約装置、映像情報要約方法及び映像情報要約プログラム

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03266899A (ja) * 1990-03-16 1991-11-27 Matsushita Electric Ind Co Ltd 雑音抑圧装置
JPH0713584A (ja) * 1992-10-05 1995-01-17 Matsushita Electric Ind Co Ltd 音声検出装置
JPH09212195A (ja) * 1995-12-12 1997-08-15 Nokia Mobile Phones Ltd 音声活性検出装置及び移動局並びに音声活性検出方法
US5963901A (en) 1995-12-12 1999-10-05 Nokia Mobile Phones Ltd. Method and device for voice activity detection and a communication device
JP2000163098A (ja) * 1998-11-25 2000-06-16 Mitsubishi Electric Corp 音声認識装置
JP2003524794A (ja) * 1999-02-08 2003-08-19 クゥアルコム・インコーポレイテッド 雑音のある信号におけるスピーチのエンドポイント決定
JP2001075594A (ja) * 1999-08-31 2001-03-23 Pioneer Electronic Corp 音声認識システム
JP2001265367A (ja) * 2000-03-16 2001-09-28 Mitsubishi Electric Corp 音声区間判定装置
JP2002073061A (ja) * 2000-09-05 2002-03-12 Matsushita Electric Ind Co Ltd 音声認識装置及びその方法
JP2004094077A (ja) * 2002-09-03 2004-03-25 Nec Corp 音声認識装置及び制御方法並びにプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008170806A (ja) * 2007-01-12 2008-07-24 Yamaha Corp 発音期間を特定する音信号処理装置およびプログラム

Also Published As

Publication number Publication date
EP1906385A1 (en) 2008-04-02
US20090103740A1 (en) 2009-04-23
CN101194304B (zh) 2011-06-22
CN101194304A (zh) 2008-06-04
JP5388447B2 (ja) 2014-01-15
US8300834B2 (en) 2012-10-30
KR20080009331A (ko) 2008-01-28
JPWO2007017993A1 (ja) 2009-02-19
EP1906385A4 (en) 2009-07-22

Similar Documents

Publication Publication Date Title
US4809332A (en) Speech processing apparatus and methods for processing burst-friction sounds
KR101616054B1 (ko) 음성 검출 장치 및 방법
JP4959727B2 (ja) 話者適応を用いた音声認識とピッチによる登録
JP6268717B2 (ja) 状態推定装置、状態推定方法及び状態推定用コンピュータプログラム
US20080069364A1 (en) Sound signal processing method, sound signal processing apparatus and computer program
US10573300B2 (en) Method and apparatus for automatic speech recognition
EP1355296A2 (en) Keyword detection in a speech signal
US8473282B2 (en) Sound processing device and program
WO2007017993A1 (ja) 発音期間を特定する音信号処理装置および音信号処理方法
US20080154585A1 (en) Sound Signal Processing Apparatus and Program
CN108847253B (zh) 车辆型号识别方法、装置、计算机设备及存储介质
JP2018045127A (ja) 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
JP2019053233A (ja) 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム
JP5621786B2 (ja) 音声検出装置、音声検出方法、および音声検出プログラム
JP4840149B2 (ja) 発音期間を特定する音信号処理装置およびプログラム
JP2003044078A (ja) 発声速度正規化分析を用いた音声認識装置
JP5157474B2 (ja) 音処理装置およびプログラム
JP4760179B2 (ja) 音声特徴量算出装置およびプログラム
JP5157475B2 (ja) 音処理装置およびプログラム
TWI395200B (zh) 一種不用樣本能辨認所有語言的辨認方法
JP2008158316A (ja) 音信号処理装置およびプログラム
WO1989003519A1 (en) Speech processing apparatus and methods for processing burst-friction sounds
JP2003050595A (ja) 音声認識装置及び方法、並びにプログラム
JP2024015817A (ja) 閾値生成方法、閾値生成装置およびプログラム
JP2004139049A (ja) 話者正規化方法及びそれを用いた音声認識装置

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200680020931.1

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2007506392

Country of ref document: JP

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 11916993

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 1020077029008

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: 2006767534

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE