WO2019107041A1 - ピッチ強調装置、その方法、およびプログラム - Google Patents

ピッチ強調装置、その方法、およびプログラム Download PDF

Info

Publication number
WO2019107041A1
WO2019107041A1 PCT/JP2018/040150 JP2018040150W WO2019107041A1 WO 2019107041 A1 WO2019107041 A1 WO 2019107041A1 JP 2018040150 W JP2018040150 W JP 2018040150W WO 2019107041 A1 WO2019107041 A1 WO 2019107041A1
Authority
WO
WIPO (PCT)
Prior art keywords
pitch
signal
time
emphasizing
emphasis
Prior art date
Application number
PCT/JP2018/040150
Other languages
English (en)
French (fr)
Inventor
亮介 杉浦
優 鎌本
守谷 健弘
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US16/767,408 priority Critical patent/US11270719B2/en
Priority to CN201880077503.5A priority patent/CN111630594B/zh
Priority to JP2019557077A priority patent/JP6911939B2/ja
Priority to EP18882312.4A priority patent/EP3719800B1/en
Publication of WO2019107041A1 publication Critical patent/WO2019107041A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E10/00Energy generation through renewable energy sources
    • Y02E10/70Wind energy
    • Y02E10/72Wind turbines with rotation axis in wind direction

Definitions

  • the present invention relates to a technique for analyzing and emphasizing the pitch component of a sample sequence derived from a sound signal in a signal processing technique such as a sound signal encoding technique.
  • the sample sequence obtained at the time of decoding becomes a distorted sample sequence different from the original sample sequence.
  • this distortion often includes a pattern which does not appear as natural sound, and when the decoded sound signal is heard and heard, it may be felt unnaturally. Therefore, focusing on the fact that a large amount of natural sound is observed in a certain section, including periodic components corresponding to the sound, that is, pitch components, past samples for the pitch period for each sample of the decoded sound signal A technique of emphasizing the pitch component by adding Y, and converting it into a sound with less discomfort is widely used.
  • a process of emphasizing a pitch component a process of obtaining a pitch period and a process of emphasizing a pitch component using the pitch period may be performed at predetermined time intervals. It is common.
  • the pitch enhancement process is performed with a different pitch period for each time interval, thereby causing discontinuity in the sound signal. Is frequently generated, and another problem arises that the sense of incongruity at the time of listening increases.
  • the present invention is intended to solve this problem, and even when pitch enhancement processing is performed for each short time interval on the sound signal obtained by the decoding processing, the variation of the pitch period of the sound signal It is an object of the present invention to realize a pitch emphasizing process based on a pitch period corresponding to a small incongruity at the time of listening based on the discontinuity of the sound signal.
  • a pitch enhancement apparatus performs pitch enhancement processing for each time interval on a signal derived from an input sound signal to obtain an output signal.
  • the pitch emphasizing device performs, as pitch emphasizing processing, for each time interval, as an output signal of each time of the time interval, the signal of the time and the number of samples T 0 corresponding to the pitch period of the time interval from the time
  • the first enhancement signal which is also a signal of the past time, and the number of samples T- ⁇ corresponding to the pitch period of a time interval that is ⁇ times prior to the time interval, the signal of the past time
  • a pitch emphasizing unit that performs processing to obtain a signal including the second emphasizing signal.
  • a pitch enhancement method performs pitch enhancement processing for each time interval on a signal derived from an input sound signal and outputs an output signal.
  • the pitch emphasizing method is, as pitch emphasizing processing, for each time section, as an output signal of each time of the time section, the signal of the time and the number of samples T 0 corresponding to the pitch period of the time section from the time
  • the first enhancement signal which is also a signal of the past time, and the number of samples T- ⁇ corresponding to the pitch period of a time interval that is ⁇ times prior to the time interval, the signal of the past time
  • a pitch emphasizing step of processing to obtain a signal including the second emphasizing signal.
  • the present invention even when pitch enhancement processing is performed for each short time interval on the sound signal obtained by the decoding processing, the sound based on the pitch period corresponding to the fluctuation of the pitch period of the sound signal There is an effect that it is possible to realize pitch emphasis processing with less discomfort when listening based on signal discontinuity.
  • 1 is a functional block diagram of a pitch emphasizing device according to a first embodiment.
  • the functional block diagram of the pitch emphasis apparatus which concerns on the modification of 1st embodiment.
  • the degree of emphasis of the pitch component corresponding to the pitch period of the past time interval is smaller than the degree of emphasis of the pitch component corresponding to the pitch period of the current time period.
  • the degree of emphasis may be reduced as the time interval is farther from the current time interval.
  • emphasis of the component corresponding to the pitch period of each time interval is performed based on pitch gain.
  • the degree of pitch emphasis may be determined based on all pitch components used.
  • FIG. 1 shows a functional block diagram of the voice pitch emphasizing device according to the first embodiment, and FIG. 2 shows its processing flow.
  • the voice pitch emphasizing device analyzes the input signal to obtain a pitch period and a pitch gain, and emphasizes the pitch based on the pitch period and the pitch gain.
  • the voice pitch emphasizing device includes an autocorrelation function calculating unit 110, a pitch analyzing unit 120, a pitch emphasizing unit 130, a signal storage unit 140, and a pitch information storage unit 150, and further stores an autocorrelation function.
  • the unit 160 may be provided.
  • the voice pitch emphasizing device is, for example, a special program configured by reading a special program into a known or dedicated computer having a central processing unit (CPU: Central Processing Unit), a main memory (RAM: Random Access Memory), etc. Device.
  • the voice pitch emphasizing device executes each process, for example, under the control of the central processing unit.
  • the data input to the voice pitch emphasizing device and the data obtained by each process are stored, for example, in the main storage device, and the data stored in the main storage device is read out to the central processing unit as necessary. It is used for other processing.
  • At least a part of each processing unit of the voice pitch emphasizing device may be configured by hardware such as an integrated circuit.
  • Each storage unit included in the voice pitch emphasizing device can be configured by, for example, a main storage device such as a random access memory (RAM) or middleware such as a relational database or a key-value store.
  • a main storage device such as a random access memory (RAM) or middleware such as a relational database or a key-value store.
  • middleware such as a relational database or a key-value store.
  • each storage unit is not necessarily required to be internally provided with the voice pitch emphasizing device, and is constituted by an auxiliary storage device constituted by a semiconductor memory element such as a hard disk, an optical disk or a flash memory. It may be configured to be provided outside the emphasizing device.
  • the main processing performed by the speech pitch enhancement device of the first embodiment is autocorrelation function calculation processing (S110), pitch analysis processing (S120), and pitch enhancement processing (S130) (see FIG. 2). Since these processes are performed in cooperation with a plurality of hardware resources included in the voice pitch emphasizing device, the autocorrelation function calculation process (S110), the pitch analysis process (S120), and the pitch emphasis process (S130) will be described below. Each will be described along with the associated processing.
  • a sound signal in the time domain is input to the autocorrelation function calculation unit 110.
  • the sound signal is, for example, a signal obtained by compressing and encoding an audio signal such as an audio signal with a coding device to obtain a code, and decoding the code with a decoding device corresponding to the coding device.
  • the autocorrelation function calculation unit 110 receives, in units of frames (time intervals) of a predetermined time length, sample sequences of sound signals of the time domain of the current frame input to the voice pitch enhancement device. Assuming that a positive integer indicating the length of a sample sequence of one frame is N, the autocorrelation function calculation unit 110 generates N time-domain sound signals constituting a sample sequence of the sound signal of the current frame time domain. A sample is input.
  • the autocorrelation function calculation unit 110 calculates the autocorrelation function R 0 of the time difference 0 in the sample sequence by the latest L (L is a positive integer) sound signal samples including the input N time domain sound signal samples.
  • the autocorrelation functions R ⁇ (1) ,..., R ⁇ (M) are calculated for a plurality of (M, M is a positive integer) predetermined time differences ⁇ (1) ,. That is, the autocorrelation function calculation unit 110 calculates the autocorrelation function in the sample sequence of the latest sound signal sample including the sound signal sample of the time domain of the current frame.
  • the autocorrelation function calculated by the autocorrelation function calculation unit 110 in the processing of the current frame that is, the autocorrelation function in the sample sequence by the latest sound signal sample including the sound signal sample of the time domain of the current frame
  • the current frame autocorrelation function Is also referred to as "the current frame autocorrelation function”.
  • the autocorrelation function calculated by autocorrelation function calculator 110 in the processing of frame F ie, at frame F including the sound signal sample in the time domain of frame F
  • the autocorrelation function in the sample sequence by the latest sound signal samples of H is also referred to as the "frame F autocorrelation function".
  • the "autocorrelation function" may be simply referred to as "autocorrelation".
  • a signal storage unit 140 is provided in the voice pitch emphasizing device in order to use the latest L sound signal samples for calculating the autocorrelation function.
  • the signal storage unit 140 can store at least L ⁇ N sound signal samples, and may output L ⁇ N sound signal samples X 0 , X 1 ,..., X L ⁇ input up to the previous frame.
  • N-1 .
  • the autocorrelation function calculation unit 110 outputs LN sound signal samples X 0 stored in the signal storage unit 140 when sound signal samples of N time domains of the current frame are input.
  • X 1, ..., reads the X L-N-1, the sound signal samples of the input N time regions X L-N, X L- N + 1, ..., by the X L-1, The latest L sound signal samples X 0 , X 1 ,..., X L-1 are obtained.
  • the input N sound signal samples of the time domain may be used as the latest L sound signal samples X 0 , X 1 ,..., X L ⁇ 1 as they are. In this case, it is not necessary to provide the signal storage unit 140 in the voice pitch emphasizing device.
  • the autocorrelation function calculation unit 110 uses the latest L sound signal samples X 0 , X 1 ,..., X L-1 to generate an autocorrelation function R 0 with a time difference of 0 and a plurality of predetermined time differences.
  • the autocorrelation functions R ⁇ (1) ,..., R ⁇ (M) for ⁇ (1) are used to generate an autocorrelation function R 0 with a time difference of 0 and a plurality of predetermined time differences.
  • the autocorrelation function calculator 110 calculates the autocorrelation function R ⁇ by, for example, the following equation (1).
  • the autocorrelation function calculation unit 110 outputs the calculated autocorrelation functions R 0 , R ⁇ (1) ,..., R ⁇ (M) to the pitch analysis unit 120.
  • the time differences ⁇ (1),..., ⁇ (M) are candidates for the pitch period T 0 of the current frame, which is determined by the pitch analysis unit 120 described later.
  • ⁇ (1), ..., ⁇ (M) an integer value of 75 to 320 suitable as a candidate for the pitch period of audio is set as ⁇ (1), ..., ⁇ (M)
  • R ⁇ in equation (1) instead of R ⁇ in equation (1), a normalized autocorrelation function R ⁇ / R 0 may be obtained by dividing R ⁇ in equation (1) by R 0 .
  • the autocorrelation function R ⁇ may be calculated by the equation (1) itself, the same value as the value obtained by the equation (1) may be calculated by another calculation method.
  • the autocorrelation function (the autocorrelation function of the immediately preceding frame) obtained by the process of including the autocorrelation function storage unit 160 in the speech pitch enhancement device and calculating the autocorrelation function of the immediately preceding frame (the immediately preceding frame) ) R ⁇ (1), ...
  • R tau to (M) is stored R tau to (M), the autocorrelation function calculation unit 110, an autocorrelation function obtained by the process of the previous frame read from the autocorrelation function storage unit 160 ( Autocorrelation function of the immediately preceding frame) Addition of contribution of sound signal samples of the current frame newly input to each of R ⁇ (1) , ..., R ⁇ (M) and contribution of the past frame
  • the autocorrelation function R ⁇ (1) ,..., R ⁇ (M) of the current frame may be calculated by performing subtraction of As a result, it is possible to reduce the amount of calculation required for calculation of the autocorrelation function, rather than calculation using equation (1) itself.
  • the autocorrelation function calculator 110 calculates the autocorrelation function R ⁇ of the current frame by the autocorrelation function obtained in the processing of the previous frame. against the correlation function R tau (autocorrelation function of the previous frame R tau), by adding the difference [Delta] R tau + obtained by the following equation (2), the difference [Delta] R tau obtained by the formula (3) - subtracts Obtained by
  • the latest L sound signal samples of the input sound signal are not used, but a signal whose number of samples has been reduced by performing downsampling or sample thinning on the L sound signal samples.
  • the calculation amount may be saved by calculating the autocorrelation function by the same process as described above.
  • the M time differences ⁇ (1),..., ⁇ (M) are represented by half the number of samples, for example, when the number of samples is reduced to half. For example, when the above-described 8192 sound signal samples with a sampling frequency of 32 kHz are downsampled into 4096 samples with a sampling frequency of 16 kHz, ⁇ (1),. , 37-160, which is about half of 75-320.
  • the signal storage unit 140 stores the latest L ⁇ N sound signal samples at that time after the speech pitch enhancement device has finished processing of the current frame by the later-described pitch enhancement unit 130. Update the stored contents as follows. Specifically, for example, in the case of L> 2N, the signal storage unit 140 detects the oldest N sound signal samples X 0 , X 1 ,... Of L ⁇ N sound signal samples stored. , X N-1 are deleted, and X N , X N + 1 ,..., X L-N-1 are set as X 0 , X 1 , ..., X L-2 N-1, and N of the input current frame is input.
  • the time domain sound signal samples are newly stored as XL -2N , XL-2N + 1 , ..., XL-N-1 . Also, in the case of L ⁇ 2N, the signal storage unit 140 deletes the stored L ⁇ N sound signal samples X 0 , X 1 ,..., X L ⁇ N ⁇ 1 , and the input current frame The newest LN sound signal samples of the N time domain sound signal samples are newly stored as X 0 , X 1 ,..., X L -N-1 .
  • the autocorrelation function storage unit 160 calculates the autocorrelation function R ⁇ (1) ,..., R of the current frame calculated after the autocorrelation function calculation unit 110 finishes calculating the autocorrelation function for the current frame.
  • the stored contents are updated so as to store ⁇ (M) .
  • the autocorrelation function storage unit 160 deletes the stored R ⁇ (1) ,..., R ⁇ (M) , and calculates the autocorrelation function R ⁇ (1) ,. , R ⁇ (M) are newly stored.
  • the pitch analysis unit 120 receives the autocorrelation function R 0 , R ⁇ (1) ,..., R ⁇ (M) of the current frame output from the autocorrelation function calculation unit 110.
  • the pitch analysis unit 120 determines the maximum value among the autocorrelation functions R ⁇ (1) ,..., R ⁇ (M) of the current frame with respect to a predetermined time difference, to obtain a ratio of the correlation function R 0 as pitch gain sigma 0 of the current frame, also to obtain the time difference autocorrelation function becomes a maximum value as the pitch period T 0 of the current frame, the pitch gain sigma 0 obtained
  • the pitch period T 0 is output to the pitch emphasizing unit 130.
  • the pitch gain and the pitch period of s (s past) frames before the current frame will be denoted as T 2 ⁇ s and ⁇ 2 ⁇ s , respectively.
  • the pitch emphasizing unit 130 receives the pitch period and the pitch gain output from the pitch analyzing unit 120 and the sound signal of the time domain of the current frame input to the speech pitch emphasizing device, and generates the sound signal sample string of the current frame.
  • a sample string of an output signal obtained by emphasizing the pitch component corresponding to the pitch period T 0 of the current frame and the pitch component corresponding to the pitch period of the past frame is output.
  • the pitch emphasizing unit 130 is configured to generate N samples at each time n included in the signal (sound signal of the time domain of the current frame) X n (L ⁇ N ⁇ n ⁇ L ⁇ 1) of the corresponding time interval.
  • first enhancement signal the current frame is a pitch component corresponding to the pitch period T 0
  • X n-T_0 the signal of the time nT -1 than the time n
  • second enhancement signal the pitch period of the previous frame
  • the pitch information storage unit 150 stores the pitch period T ⁇ 1 and the pitch gain ⁇ ⁇ 1 of the previous frame.
  • the pitch emphasizing unit 130 receives the pitch gain ⁇ 0 of the input current frame, the pitch gain ⁇ ⁇ 1 of the previous frame read from the pitch information storage unit 150, and the pitch period T of the input current frame.
  • the pitch emphasis process is performed on the sample sequence of the sound signal of the current frame using 0 and the pitch period T ⁇ 1 of the immediately preceding frame read from the pitch information storage unit 150.
  • the pitch emphasizing unit 130 performs the following equation (4) To obtain an output signal X new n, thereby obtaining a sample sequence of an output signal of the current frame by N samples X new L ⁇ N ,..., X new L ⁇ 1 .
  • a of Formula (4) is an amplitude correction coefficient calculated by the following Formula (5).
  • the pitch emphasizing process of equation (4) is a process of emphasizing a pitch component considering not only the pitch period but also the pitch gain. Furthermore, in the pitch enhancement processing of Equation (4), while enhancing the pitch component corresponding to the pitch period T 0 of the current frame, the pitch period T ⁇ 1 in the immediately preceding frame is reduced by decreasing the degree of enhancement slightly from that pitch component. Is a process to emphasize the pitch component corresponding to. By this pitch enhancement processing, even when pitch enhancement processing is performed for each short time interval (frame), it is possible to obtain the effect of reducing the discontinuity due to the fluctuation of the pitch period between the frames.
  • the pitch corresponding to the pitch period T ⁇ 1 in the immediately preceding frame is obtained by decreasing the degree of emphasis from the pitch component ⁇ 0 X n ⁇ T 0 corresponding to the pitch period T 0 of the current frame.
  • the pitch of the immediately preceding frame is 1 ⁇ 4, which is a value smaller than 3 ⁇ 4, which is the value by which the pitch component corresponding to the pitch period T 0 of the current frame is multiplied. This is realized by multiplying the pitch component corresponding to the period T ⁇ 1 .
  • the amplitude correction coefficient A obtained by the above equation (5) has energy of the pitch component Are stored before and after pitch emphasis. That is, if the output signal X new n is obtained by the equation (4A), a value obtained by the following equation (5A) may be used as the amplitude correction coefficient A.
  • the amplitude correction coefficient A is not a value obtained by the equation (5) or the equation (5A), but may be one or more predetermined values, or the equation (4B) or the equation without using the amplitude correction coefficient A
  • the output signal X new n may be obtained by the equation (4C).
  • Modification 3 In addition, by emphasizing the pitch component corresponding to the pitch period in more past frames (two or more previous frames), it is possible to further reduce the discontinuity due to the fluctuation of the pitch period between the frames.
  • the coefficient to be multiplied by the value to be added to emphasize the pitch component corresponding to the pitch period may be set smaller as the past pitch period is, for example, as in the following equation (6). Then, it is preferable to calculate the amplitude correction coefficient including the pitch gain of the past frame (two or more previous frames) as shown in the following equation (6), for example.
  • T ⁇ 2 and ⁇ ⁇ 2 are the pitch period and pitch gain two frames before, respectively. That is, equation (6) emphasizes the pitch component corresponding to the pitch period T 0 of the current frame, and the pitch component corresponding to the pitch period T ⁇ 1 in the immediately preceding frame and the second frame This is an example in the case of obtaining the output signal X new n by a process of emphasizing the pitch component corresponding to the pitch period T ⁇ 2 .
  • the same change as that of the equation (4A) for the equation (4) or the equation (5A) for the equation (5) may be made to the equation (6). That is, the output signal X new n may be obtained by the following equation (6A) using predetermined values B 0 , B ⁇ 1 and B ⁇ 2 .
  • the pitch information storage unit 150 also stores the pitch period T ⁇ 2 and the pitch gain ⁇ ⁇ 2 of the frame two frames before.
  • the pitch information storage unit 150 also stores the pitch period T -3 and the pitch gain ⁇ -3 of the frame three frames before.
  • Modification 4 Instead of the value based on the sample before each pitch period to be added to each sample of the input sound signal in the processing of the pitch emphasizing unit 130, for example, the sample before each pitch period in the sound signal passed through a low pass filter You may use it and you may use the sample for every pitch period in the sound signal which performed the process equivalent to the low pass filter. For example, if processing equivalent to the symmetric low-pass filter is performed together with the processing of the above equation (4), the output signal X new n may be obtained by the following equation (7). In the following equation (7), a process equivalent to a symmetric low-pass filter is realized by adding values based on samples in the vicinity of each pitch period in the pitch enhancement process.
  • the pitch enhancement processing not including the pitch component may be performed.
  • the pitch gain ⁇ 0 of the current frame is a value smaller than the threshold Th ⁇
  • the pitch gain ⁇ ⁇ 1 of the immediately preceding frame is greater than the threshold Th ⁇
  • the output signal X new n may be obtained by the following equation (8).
  • the pitch gain ⁇ 0 of the current frame is a value greater than or equal to the threshold Th ⁇
  • the pitch gain ⁇ ⁇ 1 of the immediately preceding frame is greater than the threshold Th ⁇
  • the output signal X new n may be obtained by the following equation (9).
  • the pitch information storage unit 150 stores the contents so that the pitch period and pitch gain of the current frame can be used as the pitch period and pitch gain of the past frame in the processing of the pitch emphasis unit 130 of the next frame. Update For example, when the pitch emphasizing unit 130 performs the processing of Expression (4), the pitch information storage unit 150 deletes the pitch period T ⁇ 1 and the pitch gain ⁇ ⁇ 1 of the immediately preceding frame stored. Instead, the pitch period T 0 of the current frame is newly stored as the pitch period T ⁇ 1 , and the pitch gain ⁇ 0 of the current frame is newly stored as the pitch gain ⁇ ⁇ 1 .
  • the pitch information storage unit 150 deletes the pitch period T -2 and the pitch gain ⁇ -2 of the two frames before that are stored. and, each of the pitch period T -1 of the previous frame stored pitch gain sigma -1 and T -2 and sigma -2, the pitch period T 0 and each pitch gain sigma 0 of the current frame Are newly stored as T ⁇ 1 and ⁇ ⁇ 1 .
  • the second emphasis signal described above does not necessarily have to be a pitch component corresponding to the pitch period of the immediately preceding frame, and may be a pitch component corresponding to the pitch period of a frame prior to the current frame.
  • is any integer of 1 or more. That is, the pitch emphasizing unit 130 sets the time as the output signal X new n corresponding to the signal at each time n included in the sound signal sample X n (L ⁇ N ⁇ n ⁇ L ⁇ 1) in the time domain of the current frame.
  • the time nT 0 signal than the time n is a past time (hereinafter, referred to as first enhancement signal, the current with the pitch component is) X n-T_0 corresponding to the pitch period T 0 of a frame, only the number of samples T-.alpha. corresponding to the pitch period T-.alpha.
  • a signal of time nT- ⁇ (hereinafter also referred to as a second enhancement signal, which is a pitch component corresponding to the pitch period of ⁇ past frames)
  • X n-T-- ⁇ You may get For example, as an output signal X new n corresponding to the signal at each time n included in the sound signal sample X n (L ⁇ N ⁇ n ⁇ L ⁇ 1) of the current frame, the signal X n at time n, A signal obtained by multiplying the emphasis signal X n-T_0 by the pitch gain ⁇ 0 of the current frame and a predetermined coefficient B 0 smaller than 1 and the second emphasis signal X n -T_- ⁇ A signal obtained by adding a signal obtained by multiplying the pitch gain ⁇ ⁇ of a frame in the past ⁇ pieces in the past and a predetermined coefficient B ⁇ having a value smaller than 1 is added.
  • a process may be performed to obtain a signal divided by.
  • the amplitude correction coefficient A may be one or more predetermined values, or the amplitude correction coefficient A may not be used.
  • time nT-beta signal than the time n is a past time (hereinafter, referred to as third enhancement signal, a pitch component corresponding to the pitch period of the ⁇ or past frames)
  • third enhancement signal a pitch component corresponding to the pitch period of the ⁇ or past frames
  • the pitch information storage unit 150 calculates the pitch periods T 0 , T ⁇ 1 ,..., T ⁇ and the pitch gains ⁇ 0 , ⁇ ⁇ 1 ,.
  • the signal X n at time n In addition to the first emphasizing signal Xn-T_0 , the second emphasizing signal Xn-T_- ⁇ , and the third emphasizing signal Xn-T_- ⁇ , and the Qth (q + 3) emphasizing signal
  • the pitch information storage unit 150 the pitch period T 0 before the oldest gamma Q th previous frame, T -1, ..., T - ⁇ _Q and pitch gain ⁇ 0, ⁇ -1, ..., Remember ⁇ - ⁇ _Q .
  • Samples before the pitch period may be used, or samples before the pitch period in the sound signal subjected to processing equivalent to the low pass filter may be used.
  • the first emphasis signal when the pitch gain ⁇ 0 of the current frame is smaller than the predetermined threshold, the first emphasis signal is not included in the output signal, and the pitch gains of ⁇ frames in the past than the current frame If ⁇ ⁇ is smaller than the predetermined threshold, the second emphasis signal may not be included in the output signal.
  • each modification may be combined.
  • a combination of a modified example 3 in Modification 5 and Modification 6 when than the current frame pitch gain sigma-beta of ⁇ or past frames smaller than a predetermined threshold, the third enhancement signal The configuration may not be included in the output signal.
  • the pitch obtained outside the voice pitch emphasizing device using the voice pitch emphasizing device as the configuration of FIG.
  • the pitch may be emphasized based on the period and the pitch gain.
  • FIG. 4 shows the process flow.
  • the voice pitch emphasizing device need not include the autocorrelation function calculating unit 110, the pitch analyzing unit 120, and the autocorrelation function storage unit 160 provided in the voice pitch emphasizing device according to the first embodiment.
  • the pitch emphasizing unit 130 performs the pitch emphasizing process (S130) using the pitch period and the pitch gain input to the voice pitch emphasizing device, not the pitch period and the pitch gain output by the pitch analyzing unit 120. do it.
  • the amount of arithmetic processing of the voice pitch emphasizing device itself can be smaller than that of the first embodiment.
  • the voice pitch emphasizing device of the first embodiment can obtain the pitch period and the pitch gain without depending on the frequency of obtaining the pitch period and the pitch gain outside the voice pitch emphasizing device, a very short time length can be obtained. It is possible to perform pitch enhancement processing in frame units. In the case of the above sampling frequency of 32 kHz, if N is set to 32, for example, pitch emphasis processing can be performed in frame units of 1 ms.
  • the present invention may be applied as pitch enhancement processing to linear prediction residuals in a configuration that performs linear prediction synthesis. That is, the present invention may be applied not to the sound signal itself but to a signal derived from the sound signal such as a signal obtained by analyzing or processing the sound signal.
  • the program describing the processing content can be recorded in a computer readable recording medium.
  • a computer readable recording medium any medium such as a magnetic recording device, an optical disc, a magneto-optical recording medium, a semiconductor memory, etc. may be used.
  • this program is carried out, for example, by selling, transferring, lending, etc. a portable recording medium such as a DVD, a CD-ROM, etc. in which the program is recorded.
  • the program may be stored in a storage device of a server computer, and the program may be distributed by transferring the program from the server computer to another computer via a network.
  • a computer that executes such a program first temporarily stores a program recorded on a portable recording medium or a program transferred from a server computer in its own storage unit. Then, at the time of execution of the process, the computer reads the program stored in its storage unit and executes the process according to the read program.
  • the computer may read the program directly from the portable recording medium and execute processing in accordance with the program. Furthermore, each time a program is transferred from this server computer to this computer, processing according to the received program may be executed sequentially.
  • ASP Application Service Provider
  • the program includes information provided for processing by a computer that conforms to the program (such as data that is not a direct command to the computer but has a property that defines the processing of the computer).
  • each device is configured by executing a predetermined program on a computer, at least a part of the processing content may be realized as hardware.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Stereophonic System (AREA)

Abstract

ピッチ強調装置は、入力された音信号に由来する信号に対して時間区間毎にピッチ強調処理を施して出力信号を得る。ピッチ強調装置は、ピッチ強調処理として、各時間区間について、当該時間区間の各時刻の出力信号として、当該時刻の信号と、当該時間区間のピッチ周期に対応するサンプル数T0だけ、当該時刻よりも過去の時刻の、信号である第1強調用信号と、当該時間区間よりもα個過去の時間区間のピッチ周期に対応するサンプル数T-αだけ、当該時刻よりも過去の時刻の、信号である第2強調用信号と、を含む信号を得る処理を行う、ピッチ強調部を含む。

Description

ピッチ強調装置、その方法、およびプログラム
 この発明は、音信号の符号化技術などの信号処理技術において、音信号に由来するサンプル列に対して、そのピッチ成分を分析し、強調する技術に関連する。
 一般的に、時系列信号などのサンプル列を非可逆に圧縮符号化した場合、復号時に得られるサンプル列は元のサンプル列とは違った、歪のあるサンプル列となる。特に音信号の符号化においては、この歪が自然音にはないようなパターンを含むことが多く、復号した音信号を受聴した際に不自然に感じられることがある。そこで、自然音の多くがある一定区間で観測した際に音に応じた周期成分、つまりピッチ成分を含むことに着目し、復号した音信号の各サンプルに対して、ピッチ周期分だけ過去のサンプルを加算することにより、ピッチ成分を強調する処理を行い、より違和感の少ない音に変換する技術が広く用いられている。
 例えば非特許文献1に記載されているように、ピッチ成分を強調する処理として、ピッチ周期を得る処理とそのピッチ周期を用いてピッチ成分を強調する処理とを一定の時間区間毎に行うことが一般的である。
ITU-T Recommendation G.723.1 (05/2006) pp.16-18, 2006
 しかしながら、これらの処理を行う時間区間が長い場合には、時間区間の時間長の分だけ処理遅延が増えてしまうという課題や、入力された音信号のピッチ周期が変動しているにも関わらずその変動に対応したピッチ成分を強調できないという課題がある。
 これらの課題は、上述した処理を行う時間区間を短くすれば解決できる。そして、例えば非特許文献1のように線形予測を伴う復号処理とピッチを強調する処理(ピッチ強調処理)とを併用する構成においては、線形予測残差に対してピッチ強調処理を行ってから線形予測合成をすることで、時間区間を短くしても更なる課題が生じることもない。しかし、線形予測を伴わない復号処理とピッチ強調処理とを併用する構成においては、線形予測残差に対してピッチ強調処理を行ってから線形予測合成をする非特許文献1と同様の構成とするためには、新たに線形予測分析を行うために演算処理量が大幅に増加してしまうという新たな課題が生じてしまう。この新たな課題を生じさせないためには、線形予測を伴わない復号処理とピッチ強調処理とを併用する構成においては、復号処理により得られた音信号そのものに対して参考文献1に記載されているようなピッチ強調処理を施す必要がある。
(参考文献1)D. Malah and R. Cox, "A generalized comb filtering technique for speech enhancement", in ICASSP 1982, vol. 7, pp. 160-163, 1982.
しかし、復号処理により得られた音信号そのものに対してピッチ強調処理を行う時間区間を短くしてしまうと、時間区間ごとに異なるピッチ周期でのピッチ強調処理が行われることによって音信号に不連続が頻繁に生じてしまい、受聴時の違和感が増してしまう、という別の課題が生じてしまう。
本発明は、この課題を解決するためのものであり、復号処理により得られた音信号そのものに対して短い時間区間ごとにピッチ強調処理を施す場合であっても、音信号のピッチ周期の変動に対応するピッチ周期に基づく、音信号の不連続に基づく受聴時の違和感の少ないピッチ強調処理を実現することを目的とする。
 上記の課題を解決するために、本発明の一態様によれば、ピッチ強調装置は、入力された音信号に由来する信号に対して時間区間毎にピッチ強調処理を施して出力信号を得る。ピッチ強調装置は、ピッチ強調処理として、各時間区間について、当該時間区間の各時刻の出力信号として、当該時刻の信号と、当該時間区間のピッチ周期に対応するサンプル数T0だけ、当該時刻よりも過去の時刻の、信号である第1強調用信号と、当該時間区間よりもα個過去の時間区間のピッチ周期に対応するサンプル数T-αだけ、当該時刻よりも過去の時刻の、信号である第2強調用信号と、を含む信号を得る処理を行う、ピッチ強調部を含む。
 上記の課題を解決するために、本発明の他の一態様によれば、ピッチ強調方法は、入力された音信号に由来する信号に対して時間区間毎にピッチ強調処理を施して出力信号を得る。ピッチ強調方法は、ピッチ強調処理として、各時間区間について、当該時間区間の各時刻の出力信号として、当該時刻の信号と、当該時間区間のピッチ周期に対応するサンプル数T0だけ、当該時刻よりも過去の時刻の、信号である第1強調用信号と、当該時間区間よりもα個過去の時間区間のピッチ周期に対応するサンプル数T-αだけ、当該時刻よりも過去の時刻の、信号である第2強調用信号と、を含む信号を得る処理を行う、ピッチ強調ステップを含む。
 本発明によれば、復号処理により得られた音信号そのものに対して短い時間区間ごとにピッチ強調処理を施す場合であっても、音信号のピッチ周期の変動に対応するピッチ周期に基づく、音信号の不連続に基づく受聴時の違和感の少ないピッチ強調処理を実現することができるという効果を奏する。
第一実施形態に係るピッチ強調装置の機能ブロック図。 第一実施形態に係るピッチ強調装置の処理フローの例を示す図。 第一実施形態の変形例に係るピッチ強調装置の機能ブロック図。 第一実施形態の変形例に係るピッチ強調装置の処理フローの例を示す図。
 以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<第一実施形態のポイント>
 本実施形態では、現在の時間区間の入力された音信号そのものに対してピッチ強調処理を施す際に、現在の時間区間のピッチ周期に対応するピッチ成分だけを強調するのではなく、過去の時間区間のピッチ周期に対応するピッチ成分も強調する。
 その際、過去の時間区間のピッチ周期に対応するピッチ成分の強調の度合いは、現在の時間区間のピッチ周期に対応するピッチ成分の強調の度合いより小さくすることが望ましい。また、過去の複数の時間区間のピッチ周期に対応するピッチ成分を強調する場合には、現在の時間区間から遠い時間区間ほど強調の度合いが小さくなるようにするとよい。ただし、それぞれの時間区間のピッチ周期に対応する成分の強調は、ピッチ利得に基づいて行う。
 また、強調後のエネルギーの整合性を保つため、ピッチ強調の程度は、使用した全てのピッチ成分に基づいて決めるとよい。過去の複数の時間区間のピッチ周期に対応するピッチ成分を強調させる場合には、その複数のピッチ周期が近い値であることも想定して、強調後のエネルギーの整合性を保つようにするとよい。
<第一実施形態>
 図1は第一実施形態に係る音声ピッチ強調装置の機能ブロック図を、図2はその処理フローを示す。
 図1を参照して、第一実施形態の音声ピッチ強調装置の処理手続きを説明する。第一実施形態の音声ピッチ強調装置は、入力された信号を分析してピッチ周期とピッチ利得を得て、そのピッチ周期とピッチ利得に基づきピッチを強調するものである。第一実施形態の音声ピッチ強調装置は、自己相関関数算出部110とピッチ分析部120とピッチ強調部130と信号記憶部140とピッチ情報記憶部150とを備えるものであり、更に自己相関関数記憶部160を備えてもよい。
 音声ピッチ強調装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音声ピッチ強調装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音声ピッチ強調装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。音声ピッチ強調装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。音声ピッチ強調装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも音声ピッチ強調装置がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置により構成し、音声ピッチ強調装置の外部に備える構成としてもよい。
 第一実施形態の音声ピッチ強調装置が行う主な処理は自己相関関数算出処理(S110)とピッチ分析処理(S120)とピッチ強調処理(S130)である(図2参照)。これらの処理は音声ピッチ強調装置が備える複数のハードウェア資源が連携して行うものであるので、以下では、自己相関関数算出処理(S110)とピッチ分析処理(S120)とピッチ強調処理(S130)のそれぞれについて、関連する処理と共に説明する。
 [自己相関関数算出処理(S110)]
 まず、音声ピッチ強調装置が行う自己相関関数算出処理とこれに関連する処理について説明する。
 自己相関関数算出部110には、時間領域の音信号が入力される。この音信号は、例えば音声信号などの音響信号を符号化装置で圧縮符号化して符号を得て、その符号化装置に対応する復号装置で符号を復号して得た信号である。自己相関関数算出部110には、所定の時間長のフレーム(時間区間)単位で、音声ピッチ強調装置に入力された現在のフレームの時間領域の音信号のサンプル列が入力される。1フレームのサンプル列の長さを示す正の整数をNとすると、自己相関関数算出部110には、現在のフレームの時間領域の音信号のサンプル列を構成するN個の時間領域の音信号サンプルが入力される。自己相関関数算出部110は、入力されたN個の時間領域の音信号サンプルを含む最新のL個(Lは正の整数)の音信号サンプルによるサンプル列における時間差0の自己相関関数R0及び複数個(M個、Mは正の整数)の所定の時間差τ(1),…,τ(M)それぞれに対する自己相関関数Rτ(1),…,Rτ(M)を算出する。すなわち、自己相関関数算出部110は、現在のフレームの時間領域の音信号サンプルを含む最新の音信号サンプルによるサンプル列における自己相関関数を算出する。
 なお、以降では、現在のフレームの処理において自己相関関数算出部110が算出した自己相関関数、すなわち、現在のフレームの時間領域の音信号サンプルを含む最新の音信号サンプルによるサンプル列における自己相関関数、のことを「現在のフレームの自己相関関数」とも呼ぶ。同様に、過去のあるフレームをフレームFとしたとき、フレームFの処理において自己相関関数算出部110が算出した自己相関関数、すなわち、フレームFの時間領域の音信号サンプルを含むフレームFの時点での最新の音信号サンプルによるサンプル列における自己相関関数、のことを「フレームFの自己相関関数」とも呼ぶ。また、「自己相関関数」は単に「自己相関」と呼ぶこともある。LがNより大きい値である場合には、自己相関関数の算出に最新のL個の音信号サンプルを用いるために、音声ピッチ強調装置内には信号記憶部140を備える。信号記憶部140は、少なくともL‐N個の音信号サンプルを記憶できるようにし、1つ前のフレームまでに入力されたL‐N個の音信号サンプルX0,X1,…,XL-N-1を記憶しておく。そして、自己相関関数算出部110は、現在のフレームのN個の時間領域の音信号サンプルが入力された際には、信号記憶部140に記憶されたL‐N個の音信号サンプルX0,X1,…,XL-N-1を読み出し、入力されたN個の時間領域の音信号サンプルをXL-N,XL-N+1,…,XL-1とすることにより、最新のL個の音信号サンプルX0,X1,…,XL-1を得る。
 L=Nである場合には、入力されたN個の時間領域の音信号サンプルをそのまま最新のL個の音信号サンプルX0,X1,…,XL-1とすればよい。この場合、音声ピッチ強調装置内には信号記憶部140を備える必要はない。
 そして、自己相関関数算出部110は、最新のL個の音信号サンプルX0,X1,…,XL-1を用いて、時間差0の自己相関関数R0、及び複数個の所定の時間差τ(1),…,τ(M)それぞれに対する自己相関関数Rτ(1),…,Rτ(M)を算出する。τ(1),…,τ(M)や0などの時間差をτとすると、自己相関関数算出部110は、自己相関関数Rτを例えば以下の式(1)で算出する。
Figure JPOXMLDOC01-appb-M000003
自己相関関数算出部110は算出した自己相関関数R0,Rτ(1),…,Rτ(M)をピッチ分析部120に出力する。
 なお、この時間差τ(1),…,τ(M)は後述するピッチ分析部120が求める現在のフレームのピッチ周期T0の候補である。例えば、サンプリング周波数32kHzの音声信号を主とする音信号の場合には、音声のピッチ周期の候補として好適な75から320までの整数値をτ(1),…,τ(M)とするなどの実装が考えられる。なお、式(1)のRτに代えて、式(1)のRτをR0で除算した正規化自己相関関数Rτ/R0を求めてもよい。ただし、ピッチ周期T0の候補である75から320に対して、Lを8192などの十分に大きな値とした場合などには、自己相関関数Rτに代えて正規化自己相関関数Rτ/R0を求めるよりも、以下で説明する演算量を抑えた方法で自己相関関数Rτを算出するほうがよい。
 自己相関関数Rτは、式(1)そのもので算出してもよいが、式(1)で求まる値と同じ値を別の算出方法で算出してもよい。例えば、音声ピッチ強調装置内に自己相関関数記憶部160を備えて1つ前のフレーム(直前のフレーム)の自己相関関数を算出する処理で得られた自己相関関数(直前のフレームの自己相関関数)Rτ(1),…,Rτ(M)を記憶しておき、自己相関関数算出部110は、自己相関関数記憶部160から読み出した直前のフレームの処理で得られた自己相関関数(直前のフレームの自己相関関数)Rτ(1),…,Rτ(M)それぞれに、新たに入力された現在のフレームの音信号サンプルの寄与分の加算と、最も過去のフレームの寄与分の減算と、を行うことにより現在のフレームの自己相関関数Rτ(1),…,Rτ(M)を算出するようにしてもよい。これにより、式(1)そのもので算出するよりも自己相関関数の算出に要する演算量を抑えることが可能である。この場合、τ(1),…,τ(M)のそれぞれをτとすると、自己相関関数算出部110は、現在のフレームの自己相関関数Rτを、直前のフレームの処理で得られた自己相関関数Rτ(直前のフレームの自己相関関数Rτ)に対して、以下の式(2)で得られる差分ΔRτ +を加算し、式(3)で得られる差分ΔRτ を減算することにより得る。
Figure JPOXMLDOC01-appb-M000004
 また、入力された音信号の最新のL個の音信号サンプルそのものではなく、当該L個の音信号サンプルに対してダウンサンプリングやサンプルの間引きなどを行うことによりサンプル数を減らした信号を用いて、上記と同様の処理により自己相関関数を算出することで演算量を節約してもよい。この場合、M個の時間差τ(1),…,τ(M)は、例えばサンプル数を半分にした際には半分のサンプル数で表現する。例えば、上述したサンプリング周波数32kHzの8192個の音信号サンプルをサンプリング周波数16kHzの4096個のサンプルにダウンサンプリングした場合には、ピッチ周期Tの候補であるτ(1),…,τ(M)は、75から320の約半分である37から160とすればよい。
 なお、信号記憶部140は、音声ピッチ強調装置が現在のフレームについての後述するピッチ強調部130の処理までを終えた後に、その時点で最新のL‐N個の音信号サンプルを記憶しておくように記憶内容を更新する。具体的には、例えば、L>2Nの場合、信号記憶部140は、記憶されているL‐N個の音信号サンプルのうちの一番古いN個の音信号サンプルX0,X1,…,XN-1を削除し、XN,XN+1,…,XL-N-1をX0,X1,…,XL-2N-1とし、入力された現在のフレームのN個の時間領域の音信号サンプルをXL-2N,XL-2N+1,…,XL-N-1として新たに記憶する。また、L≦2Nの場合、信号記憶部140は、記憶されているL‐N個の音信号サンプルX0,X1,…,XL-N-1を削除し、入力された現在のフレームのN個の時間領域の音信号サンプルのうちの最新のL‐N個の音信号サンプルをX0,X1,…,XL-N-1として新たに記憶する。
 また、自己相関関数記憶部160は、自己相関関数算出部110が現在のフレームについての自己相関関数の算出を終えた後に、算出した現在のフレームの自己相関関数Rτ(1),…,Rτ(M)を記憶しておくように記憶内容を更新する。具体的には、自己相関関数記憶部160は、記憶されているRτ(1),…,Rτ(M)を削除し、算出した現在のフレームの自己相関関数Rτ(1),…,Rτ(M)を新たに記憶する。
 なお、上述の説明では、最新のL個の音信号サンプルが現在のフレームのN個の音信号サンプルを含む(つまりL≧N)ことを前提としているが、必ずしもL≧Nである必要はなく、L<Nであってもよい。この場合、自己相関関数算出部110は、現在のフレームのN個に含まれる連続したL個の音信号サンプルX0,X1,…,XL-1を用いて、時間差0の自己相関関数R0、及び複数個の所定の時間差τ(1),…,τ(M)それぞれに対する自己相関関数Rτ(1),…,Rτ(M)を算出すればよく、L=Nの場合と同様に音声ピッチ強調装置内には信号記憶部140を備える必要はない。
 [ピッチ分析処理(S120)]
 次に、音声ピッチ強調装置が行うピッチ分析処理について説明する。
 ピッチ分析部120には、自己相関関数算出部110が出力した現在のフレームの自己相関関数R0,Rτ(1),…,Rτ(M)が入力される。
 ピッチ分析部120は、所定の時間差に対する現在のフレームの自己相関関数Rτ(1),…,Rτ(M)の中での最大値を求め、自己相関関数の最大値と時間差0の自己相関関数R0の比を現在のフレームのピッチ利得σ0として得て、また、自己相関関数が最大値となる時間差を現在のフレームのピッチ周期T0として得て、得たピッチ利得σ0とピッチ周期T0とをピッチ強調部130へ出力する。なお、以下の説明において、現在のフレームからみてs個前(s個過去)のフレームのピッチ利得及びピッチ周期をそれぞれT-s及びσ-sと表記する。
 [ピッチ強調処理(S130)]
 次に、音声ピッチ強調装置が行うピッチ強調処理とこれに関連する処理について説明する。
 ピッチ強調部130は、ピッチ分析部120が出力したピッチ周期とピッチ利得、及び音声ピッチ強調装置に入力された現在のフレームの時間領域の音信号を受け取り、現在のフレームの音信号サンプル列に対し、現在のフレームのピッチ周期T0に対応するピッチ成分と、過去のフレームのピッチ周期に対応するピッチ成分と、を強調して得た出力信号のサンプル列を出力する。例えば、ピッチ強調部130は、Nサンプルにより構成される当該時間区間の信号(現在のフレームの時間領域の音信号)Xn(L-N≦n≦L-1)に含まれる各時刻nの信号に対応する出力信号Xnew nとして、時刻nの信号Xnと、現在のフレームのピッチ周期T0に対応するサンプル数T0だけ、時刻nよりも過去の時刻である時刻n-T0の信号(以下、第1強調用信号ともいい、現在のフレームのピッチ周期T0に対応するピッチ成分である)Xn-T_0(ただし、下付き添え字におけるA_BはABを意味する)と、直前のフレームのピッチ周期T-1に対応するサンプル数T-1だけ、時刻nよりも過去の時刻である時刻n-T-1の信号(以下、第2強調用信号ともいい、直前のフレームのピッチ周期に対応するピッチ成分である)Xn-T_-1と、を含む信号を得、出力する。
 以下、具体例を説明する。
 ピッチ情報記憶部150には、1つ前のフレームのピッチ周期T-1とピッチ利得σ-1とを記憶しておく。
 ピッチ強調部130は、入力された現在のフレームのピッチ利得σ0と、ピッチ情報記憶部150から読み出した1つ前のフレームのピッチ利得σ-1と、入力された現在のフレームのピッチ周期T0と、ピッチ情報記憶部150から読み出した1つ前のフレームのピッチ周期T-1とを用い、現在のフレームの音信号のサンプル列に対するピッチ強調処理を行う。具体的には、ピッチ強調部130は、入力された現在のフレームの音信号のサンプル列を構成する各サンプルXn(L-N≦n≦L-1)に対して、以下の式(4)により出力信号Xnew nを得ることにより、N個のサンプルXnew L―N, …, Xnew L―1による現在のフレームの出力信号のサンプル列を得る。
Figure JPOXMLDOC01-appb-M000005
 ただし、式(4)のAは、下記の式(5)により求まる振幅補正係数である。
Figure JPOXMLDOC01-appb-M000006
 式(4)のピッチ強調処理は、ピッチ周期だけではなくピッチ利得も考慮したピッチ成分を強調する処理である。さらに、式(4)のピッチ強調処理は、現在のフレームのピッチ周期T0に対応するピッチ成分を強調しつつ、そのピッチ成分より少し強調の度合いを落として直前フレームでのピッチ周期T-1に対応するピッチ成分も強調する処理である。このピッチ強調処理により、短い時間区間(フレーム)ごとにピッチ強調処理を施す場合であっても、フレーム間におけるピッチ周期の変動による不連続性を低減する効果を得ることができる。
 具体的には、式(4)では、現在のフレームのピッチ周期T0に対応するピッチ成分σ0Xn-T0より強調の度合いを落として直前フレームでのピッチ周期T-1に対応するピッチ成分σ-1Xn-T-1も強調することを、現在のフレームのピッチ周期T0に対応するピッチ成分に乗算する値である3/4よりも小さな値である1/4を直前フレームのピッチ周期T-1に対応するピッチ成分に乗算することで実現している。
(変形例1)
 ただし、3/4や1/4という値は一例であり、式(4)に代えて、予め定めた値であるB0とB―1を用いて下記の式(4A)により出力信号Xnew nを得てもよい。
Figure JPOXMLDOC01-appb-M000007
 なお、式(4A)においてはB0>B―1とするのが好ましいが、B0≦B―1としてもフレーム間におけるピッチ周期の変動による不連続性を低減する効果は奏される。
 上記の式(5)により求まる振幅補正係数Aは、現在のフレームのピッチ周期T0と直前のフレームのピッチ周期T-1とが十分に近い値であると仮定したときに、ピッチ成分のエネルギーがピッチ強調前後で保存されるようにするものである。すなわち、式(4A)により出力信号Xnew nを得るのであれば、振幅補正係数Aとして下記の式(5A)により求まる値を用いればよい。
Figure JPOXMLDOC01-appb-M000008
(変形例2)
 なお、振幅補正係数Aは、式(5)や式(5A)により求まる値ではなく、予め定めた1以上の値を用いてもよいし、振幅補正係数Aを用いずに式(4B)や式(4C)により出力信号Xnew nを得るようにしてもよい。
Figure JPOXMLDOC01-appb-M000009
(変形例3)
 また、より過去のフレーム(2つ以上前のフレーム)におけるピッチ周期に対応するピッチ成分も強調することにより、フレーム間におけるピッチ周期の変動による不連続性を更に低減できる。この場合、ピッチ周期に対応するピッチ成分を強調するために加算する値に掛ける係数は、例えば下記の式(6)のように、過去のピッチ周期であればあるほど小さく設定するのがよい。そして、振幅補正係数は例えば下記の式(6)のように、より過去のフレーム(2つ以上前のフレーム)のピッチ利得も含めて算出するのがよい。
Figure JPOXMLDOC01-appb-M000010
ただし、式(6)においては、T-2及びσ-2はそれぞれ2フレーム前のピッチ周期及びピッチ利得である。すなわち、式(6)は現在のフレームのピッチ周期T0に対応するピッチ成分を強調しつつ、1つ前のフレームでのピッチ周期T-1に対応するピッチ成分と、2つ前のフレームでのピッチ周期T-2に対応するピッチ成分も強調する処理により出力信号Xnew nを得る場合の例である。もちろん、式(4)に対する式(4A)や、式(5)に対する式(5A)などと同様の変更を式(6)に対して行ってもよい。つまり、予め定めた値であるB0とB―1とB―2を用いて下記の式(6A)により出力信号Xnew nを得るようにしてもよい。
Figure JPOXMLDOC01-appb-M000011
これらの場合には、ピッチ情報記憶部150は、2つ前のフレームのピッチ周期T-2とピッチ利得σ-2も記憶しておく。
 また、3つ前のフレームでのピッチ周期に対応するピッチ成分なども強調する処理を行ってもよい。もちろん、この場合には、ピッチ情報記憶部150は、3つ前のフレームのピッチ周期T-3とピッチ利得σ-3も記憶しておく。
(変形例4)
 ピッチ強調部130の処理における、入力された音信号の各サンプルに加算する各ピッチ周期分前のサンプルに基づく値に代えて、例えばローパスフィルタを通した音信号における各ピッチ周期分前のサンプルを用いてもよいし、ローパスフィルタと等価な処理を行った音信号における各ピッチ周期分前のサンプルを用いてもよい。例えば、対称的なローパスフィルタと等価な処理を上記の式(4)の処理と共に行うのであれば、下記の式(7)により出力信号Xnew nを得るようすればよい。下記の式(7)では、対称的なローパスフィルタと等価な処理を、ピッチ強調処理において各ピッチ周期分前周辺のサンプルに基づく値を加算することにより実現している。
Figure JPOXMLDOC01-appb-M000012
(変形例5)
 なお、上記のピッチ強調処理において、ピッチ利得が所定の閾値Thσより小さい場合には、そのピッチ成分を含まないピッチ強調処理を行うようにしてもよい。例えば、式(4)のピッチ強調処理を行う際に、現在のフレームのピッチ利得σ0が閾値Thσより小さい値であり、1つ前のフレームのピッチ利得σ-1が閾値Thσ以上の値である場合には、下記の式(8)により出力信号Xnew nを得るようにしてもよい。
Figure JPOXMLDOC01-appb-M000013
 また、例えば、式(6)のピッチ強調を行う際に、現在のフレームのピッチ利得σ0が閾値Thσ以上の値であり、1つ前のフレームのピッチ利得σ-1が閾値Thσより小さい値であり、2つ前のフレームのピッチ利得σ-2が閾値Thσ以上の値である場合には、下記の式(9)により出力信号Xnew nを得ればよい。
Figure JPOXMLDOC01-appb-M000014
 なお、ピッチ情報記憶部150は、現在のフレームのピッチ周期とピッチ利得を、次のフレームのピッチ強調部130の処理において過去のフレームのピッチ周期とピッチ利得として用いることができるように、記憶内容を更新する。例えば、ピッチ強調部130が式(4)の処理を行う場合には、ピッチ情報記憶部150は、記憶されている1つ前のフレームのピッチ周期T-1とピッチ利得σ-1を削除し、代わりに、現在のフレームのピッチ周期T0をピッチ周期T-1として新たに記憶し、現在のフレームのピッチ利得σ0をピッチ利得σ-1として新たに記憶する。同様に、ピッチ強調部130が式(6)の処理を行う場合には、ピッチ情報記憶部150は、記憶されている2つ前のフレームのピッチ周期T-2とピッチ利得σ-2を削除し、記憶されている1つ前のフレームのピッチ周期T-1とピッチ利得σ-1のそれぞれをT-2とσ-2とし、現在のフレームのピッチ周期T0とピッチ利得σ0のそれぞれをT-1とσ-1として新たに記憶する。
(変形例6)
 上述の第2強調用信号は必ずしも直前のフレームのピッチ周期に対応するピッチ成分でなくともよく、現在のフレームよりもα個過去のフレームのピッチ周期に対応するピッチ成分であればよい。ただし、αは1以上の整数の何れかである。つまり、ピッチ強調部130は、現在のフレームの時間領域の音信号サンプルXn(L-N≦n≦L-1)に含まれる各時刻nの信号に対応する出力信号Xnew nとして、時刻nの信号Xnと、現在のフレームのピッチ周期T0に対応するサンプル数T0だけ、時刻nよりも過去の時刻である時刻n-T0の信号(以下、第1強調用信号ともいい、現在のフレームのピッチ周期T0に対応するピッチ成分である)Xn-T_0と、現在のフレームよりもα個過去のフレームのピッチ周期T-αに対応するサンプル数T-αだけ、時刻nよりも過去の時刻である時刻n-T-αの信号(以下、第2強調用信号ともいい、α個過去のフレームのピッチ周期に対応するピッチ成分である)Xn-T_-αと、を含む信号を得てもよい。例えば、現在のフレームの音信号サンプルXn(L-N≦n≦L-1)に含まれる各時刻nの信号に対応する出力信号Xnew nとして、時刻nの信号Xnと、第1強調用信号Xn-T_0に、現在のフレームのピッチ利得σ0と、1より小さい値である所定の係数B0と、を乗算した信号と、第2強調用信号Xn-T_-αに、現在のフレームよりもα個過去のフレームのピッチ利得σ-αと、1より小さい値である所定の係数B-αと、を乗算した信号と、を加算した信号を
Figure JPOXMLDOC01-appb-M000015
で除算した信号を得る処理を行ってもよい。つまり、
Figure JPOXMLDOC01-appb-M000016
である。変形例1と同様にB0>B―αとするのが好ましいが、B0≦B―αとしてもフレーム間におけるピッチ周期の変動による不連続性を低減する効果は奏される。さらに、この変形例と上述の変形例2~5とを組合せてもよい。
 つまり、変形例2と組合せて、振幅補正係数Aを予め定めた1以上の値としてもよいし、振幅補正係数Aを用いなくともよい。
 変形例3と組合せて、現在のフレームの時間領域の音信号サンプルXn(L-N≦n≦L-1)に含まれる各時刻nの信号に対応する出力信号Xnew nとして、時刻nの信号Xnと、第1強調用信号Xn-T_0と、第2強調用信号Xn-T_-αとに加え、現在のフレームよりもβ個過去のフレームのピッチ周期T-βに対応するサンプル数T-βだけ、時刻nよりも過去の時刻である時刻n-T-βの信号(以下、第3強調用信号ともいい、β個過去のフレームのピッチ周期に対応するピッチ成分である)Xn-T_-βも更に含む信号を得てもよい。ただし、β≠αである。例えば、β>αとすると、
Figure JPOXMLDOC01-appb-M000017
である。B0>B―α>B―βとするのが好ましいが、この大小関係を満たさなくともフレーム間におけるピッチ周期の変動による不連続性を低減する効果は奏される。これらの場合には、ピッチ情報記憶部150は、β個前のフレームまでのピッチ周期T0,T-1,…,T-βとピッチ利得σ0-1,…,σ-βを記憶しておく。また、現在のフレームの時間領域の音信号サンプルXn(L-N≦n≦L-1)に含まれる各時刻nの信号に対応する出力信号Xnew nとして、時刻nの信号Xnと、第1強調用信号Xn-T_0と、第2強調用信号Xn-T_-αと、第3強調用信号Xn-T_-βとに加え、Q個の第(q+3)強調用信号
Figure JPOXMLDOC01-appb-M000018
を更に含む信号を得てもよい。ただし、q=1,2,…,Qであり、Qは1以上の整数の何れかであり、γQQ-1>…>γ1>βとする。もちろん、この場合には、ピッチ情報記憶部150は、最も古いγQ個前のフレームまでのピッチ周期T0,T-1,…,T-γ_Qとピッチ利得σ0-1,…,σ-γ_Qを記憶しておく。
 変形例4と組合せて、ピッチ強調部130の処理における、入力された音信号の各サンプルに加算する各ピッチ周期分前のサンプルに基づく値に代えて、例えばローパスフィルタを通した音信号における各ピッチ周期分前のサンプルを用いてもよいし、ローパスフィルタと等価な処理を行った音信号における各ピッチ周期分前のサンプルを用いてもよい。
 変形例5と組合せて、現在のフレームのピッチ利得σ0が所定の閾値より小さい場合には、第1強調用信号を出力信号に含めず、現在のフレームよりもα個過去のフレームのピッチ利得σ-αが所定の閾値より小さい場合には、第2強調用信号を出力信号に含めない構成としてもよい。
 さらに、各変形例を組合せてもよい。例えば、変形例3と変形例5と変形例6とを組合せて、現在のフレームよりもβ個過去のフレームのピッチ利得σ-βが所定の閾値より小さい場合には、第3強調用信号を出力信号に含めない構成としてもよい。
<その他の変形例>
 音声ピッチ強調装置外で行われる復号処理などにより各フレームのピッチ周期とピッチ利得を得られている場合には、音声ピッチ強調装置を図3の構成として、音声ピッチ強調装置外で得られたピッチ周期とピッチ利得に基づきピッチを強調してもよい。図4はその処理フローを示す。この場合には、音声ピッチ強調装置は、第一実施形態の音声ピッチ強調装置が備える自己相関関数算出部110やピッチ分析部120や自己相関関数記憶部160を備える必要はない。この場合、ピッチ強調部130が、ピッチ分析部120が出力したピッチ周期とピッチ利得ではなく、音声ピッチ強調装置に入力されたピッチ周期とピッチ利得を用いてピッチ強調処理(S130)を行うようにすればよい。このような構成とすれば、音声ピッチ強調装置自体の演算処理量は第一実施形態よりも少なくすることが可能である。ただし、第一実施形態の音声ピッチ強調装置は、音声ピッチ強調装置外のピッチ周期やピッチ利得を得る頻度に依存せずにピッチ周期やピッチ利得を得ることができることから、非常に短い時間長のフレーム単位でのピッチ強調処理を行うことが可能である。上記のサンプリング周波数32kHzの例であれば、Nを例えば32とすれば、1msのフレーム単位でピッチ強調処理を行うことができる。 
 なお、以上の説明では、音信号そのものに対してピッチ強調処理を施すことを前提としていたが、非特許文献1に記載されているような線形予測残差に対してピッチ強調処理を行ってから線形予測合成をするような構成における、線形予測残差に対するピッチ強調処理として本発明を適用してもよい。すなわち、本発明を、音信号そのものではなく、音信号に対して分析や加工をして得た信号などの音信号に由来する信号に対して適用してもよい。
 本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
 また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
 この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
 また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
 また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (16)

  1.  入力された音信号に由来する信号に対して時間区間毎にピッチ強調処理を施して出力信号を得るピッチ強調装置であって、
     前記ピッチ強調処理として、
     各時間区間について、
     当該時間区間の各時刻の出力信号として、
     当該時刻の前記信号と、
     当該時間区間のピッチ周期に対応するサンプル数T0だけ、当該時刻よりも過去の時刻の、前記信号である第1強調用信号と、
     当該時間区間よりもα個過去の時間区間のピッチ周期に対応するサンプル数T-αだけ、当該時刻よりも過去の時刻の、前記信号である第2強調用信号と、
     を含む信号を得る処理を行う、
     ピッチ強調部を含む、
     ピッチ強調装置。
  2.  請求項1に記載のピッチ強調装置であって、
     前記ピッチ強調部は、
     当該時間区間の各時刻の出力信号として、
     当該時刻の前記信号と、
     前記第1強調用信号に、当該時間区間のピッチ利得σ0と、1より小さい値である所定の係数B0と、を乗算した信号と、
     前記第2強調用信号に、当該時間区間よりもα個過去の時間区間のピッチ利得σ-αと、1より小さい値である所定の係数B-αと、を乗算した信号と、
     を加算した信号を含む出力信号を得るものである、
     ピッチ強調装置。
  3.  請求項2に記載のピッチ強調装置であって、
     前記係数B-αは前記係数B0より小さい値である、
     ピッチ強調装置。
  4.  請求項2または3に記載のピッチ強調装置であって、
     前記ピッチ強調部は、
     前記加算した信号を
    Figure JPOXMLDOC01-appb-M000001

     
    で除算した信号を出力信号として得るものである、
     ピッチ強調装置。
  5.  請求項1のピッチ強調装置であって、
     前記ピッチ強調部は、
     当該時間区間のピッチ利得σ0が所定の閾値より小さい場合には、前記第1強調用信号を出力信号に含めない、
     ピッチ強調装置。
  6.  請求項1または請求項5のピッチ強調装置であって、
     前記ピッチ強調部は、
     当該時間区間よりもα個過去の時間区間のピッチ利得σ-αが所定の閾値より小さい場合には、前記第2強調用信号を出力信号に含めない、
     ピッチ強調装置。
  7.  請求項1に記載のピッチ強調装置であって、
     前記ピッチ強調部は、
     当該時間区間の各時刻の出力信号として、
     当該時間区間よりも前記αとは異なるβ個過去の時間区間のピッチ周期に対応するサンプル数T-βだけ、当該時刻よりも過去の時刻の、前記信号である第3強調用信号も更に含む信号を得る、
     ピッチ強調装置。
  8.  入力された音信号に由来する信号に対して時間区間毎にピッチ強調処理を施して出力信号を得るピッチ強調方法であって、
     前記ピッチ強調処理として、
     各時間区間について、
     当該時間区間の各時刻の出力信号として、
     当該時刻の前記信号と、
     当該時間区間のピッチ周期に対応するサンプル数T0だけ、当該時刻よりも過去の時刻の、前記信号である第1強調用信号と、
     当該時間区間よりもα個過去の時間区間のピッチ周期に対応するサンプル数T-αだけ、当該時刻よりも過去の時刻の、前記信号である第2強調用信号と、
     を含む信号を得る処理を行う、
     ピッチ強調ステップを含む、
     ピッチ強調方法。
  9.  請求項8に記載のピッチ強調方法であって、
     前記ピッチ強調ステップは、
     当該時間区間の各時刻の出力信号として、
     当該時刻の前記信号と、
     前記第1強調用信号に、当該時間区間のピッチ利得σ0と、1より小さい値である所定の係数B0と、を乗算した信号と、
     前記第2強調用信号に、当該時間区間よりもα個過去の時間区間のピッチ利得σ-αと、1より小さい値である所定の係数B-αと、を乗算した信号と、
     を加算した信号を含む出力信号を得る、
     ピッチ強調方法。
  10.  請求項9に記載のピッチ強調方法であって、
     前記係数B-αは前記係数B0より小さい値である、
     ピッチ強調方法。
  11.  請求項9または10に記載のピッチ強調方法であって、
     前記ピッチ強調ステップは、
     前記加算した信号を
    Figure JPOXMLDOC01-appb-M000002

     
    で除算した信号を出力信号として得る、
     ピッチ強調方法。
  12.  請求項8のピッチ強調方法であって、
     前記ピッチ強調ステップは、
     当該時間区間のピッチ利得σ0が所定の閾値より小さい場合には、前記第1強調用信号を出力信号に含めない、
     ピッチ強調方法。
  13.  請求項8または請求項12のピッチ強調方法であって、
     前記ピッチ強調ステップは、
     当該時間区間よりもα個過去の時間区間のピッチ利得σ-αが所定の閾値より小さい場合には、前記第2強調用信号を出力信号に含めない、
     ピッチ強調方法。
  14.  請求項8に記載のピッチ強調方法であって、
     前記ピッチ強調ステップは、
     当該時間区間の各時刻の出力信号として、
     当該時間区間よりも前記αとは異なるβ個過去の時間区間のピッチ周期に対応するサンプル数T-βだけ、当該時刻よりも過去の時刻の、前記信号である第3強調用信号も更に含む信号を得る、
     ピッチ強調方法。
  15.  請求項8から請求項14の何れかのピッチ強調方法をコンピュータに実行させるためのプログラム。
  16.  請求項8から請求項14の何れかのピッチ強調方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
PCT/JP2018/040150 2017-12-01 2018-10-29 ピッチ強調装置、その方法、およびプログラム WO2019107041A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US16/767,408 US11270719B2 (en) 2017-12-01 2018-10-29 Pitch enhancement apparatus, pitch enhancement method, and program
CN201880077503.5A CN111630594B (zh) 2017-12-01 2018-10-29 基音增强装置、其方法以及记录介质
JP2019557077A JP6911939B2 (ja) 2017-12-01 2018-10-29 ピッチ強調装置、その方法、およびプログラム
EP18882312.4A EP3719800B1 (en) 2017-12-01 2018-10-29 Pitch enhancement device, method therefor, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-231747 2017-12-01
JP2017231747 2017-12-01

Publications (1)

Publication Number Publication Date
WO2019107041A1 true WO2019107041A1 (ja) 2019-06-06

Family

ID=66664829

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/040150 WO2019107041A1 (ja) 2017-12-01 2018-10-29 ピッチ強調装置、その方法、およびプログラム

Country Status (5)

Country Link
US (1) US11270719B2 (ja)
EP (1) EP3719800B1 (ja)
JP (1) JP6911939B2 (ja)
CN (1) CN111630594B (ja)
WO (1) WO2019107041A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019107041A1 (ja) * 2017-12-01 2019-06-06 日本電信電話株式会社 ピッチ強調装置、その方法、およびプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11272297A (ja) * 1998-01-26 1999-10-08 Matsushita Electric Ind Co Ltd ピッチ強調方法及びその装置
JP2001147700A (ja) * 1999-11-22 2001-05-29 Nippon Telegr & Teleph Corp <Ntt> 音声信号の後処理方法および装置並びにプログラムを記録した記録媒体

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4058676A (en) * 1975-07-07 1977-11-15 International Communication Sciences Speech analysis and synthesis system
US7117146B2 (en) * 1998-08-24 2006-10-03 Mindspeed Technologies, Inc. System for improved use of pitch enhancement with subcodebooks
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6574593B1 (en) * 1999-09-22 2003-06-03 Conexant Systems, Inc. Codebook tables for encoding and decoding
US7167828B2 (en) * 2000-01-11 2007-01-23 Matsushita Electric Industrial Co., Ltd. Multimode speech coding apparatus and decoding apparatus
CN101548319B (zh) * 2006-12-13 2012-06-20 松下电器产业株式会社 后置滤波器以及滤波方法
EP2131312A4 (en) 2007-03-23 2011-08-24 Fujitsu Ltd ELECTRONIC ARRANGEMENT, ELECTRONIC EQUIPMENT, INCLUDING AN ELECTRONIC ARRANGEMENT, ARTICLE TO WHICH AN ELECTRONIC ARRANGEMENT IS PLACED, AND METHOD FOR PRODUCING AN ELECTRONIC ARRANGEMENT
CN101814291B (zh) * 2009-02-20 2013-02-13 北京中星微电子有限公司 在时域提高语音信号信噪比的方法和装置
KR101381272B1 (ko) * 2010-01-08 2014-04-07 니뽄 덴신 덴와 가부시키가이샤 부호화 방법, 복호 방법, 부호화 장치, 복호 장치, 프로그램 및 기록 매체
US8738385B2 (en) 2010-10-20 2014-05-27 Broadcom Corporation Pitch-based pre-filtering and post-filtering for compression of audio signals
SG192746A1 (en) * 2011-02-14 2013-09-30 Fraunhofer Ges Forschung Apparatus and method for processing a decoded audio signal in a spectral domain
ES2881672T3 (es) * 2012-08-29 2021-11-30 Nippon Telegraph & Telephone Método de descodificación, aparato de descodificación, programa, y soporte de registro para ello
JP6261381B2 (ja) * 2014-02-28 2018-01-17 日本電信電話株式会社 信号処理装置、信号処理方法、プログラム
WO2019107041A1 (ja) * 2017-12-01 2019-06-06 日本電信電話株式会社 ピッチ強調装置、その方法、およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11272297A (ja) * 1998-01-26 1999-10-08 Matsushita Electric Ind Co Ltd ピッチ強調方法及びその装置
JP2001147700A (ja) * 1999-11-22 2001-05-29 Nippon Telegr & Teleph Corp <Ntt> 音声信号の後処理方法および装置並びにプログラムを記録した記録媒体

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHIBA HIRONOBU ET AL.: "Adaptive post-filtering method controlled by pitch frequency for CELP-based speech coding", THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINNERS D, vol. J98-D, no. 10, 1 October 2015 (2015-10-01) - 1 October 2015 (2015-10-01), pages 1301 - 1311, XP055699932 *
D. MALAHR. COX: "A generalized comb filtering technique for speech enhancement", ICASSP 1982, vol. 7, 1982, pages 160 - 163
ITU-T RECOMMENDATION G.723.1, May 2006 (2006-05-01), pages 16 - 18

Also Published As

Publication number Publication date
EP3719800A1 (en) 2020-10-07
EP3719800B1 (en) 2022-06-08
EP3719800A4 (en) 2021-08-11
JP6911939B2 (ja) 2021-07-28
US11270719B2 (en) 2022-03-08
CN111630594A (zh) 2020-09-04
US20200388301A1 (en) 2020-12-10
CN111630594B (zh) 2023-08-01
JPWO2019107041A1 (ja) 2020-11-26

Similar Documents

Publication Publication Date Title
JP4689625B2 (ja) 信号解析及び合成のための適応型混合変換
RU2677453C2 (ru) Способы, кодер и декодер для линейного прогнозирующего кодирования и декодирования звуковых сигналов после перехода между кадрами, имеющими различные частоты дискретизации
US12106767B2 (en) Pitch emphasis apparatus, method and program for the same
JP6979048B2 (ja) 低複雑度の調性適応音声信号量子化
JP2016511433A (ja) オーディオフレーム損失コンシールメント
Laguna et al. An efficient algorithm for clipping detection and declipping audio
JP2019091075A (ja) 周波数領域パラメータ列生成方法、周波数領域パラメータ列生成装置、及びプログラム
US9425820B2 (en) Vector quantization with non-uniform distributions
WO2019107041A1 (ja) ピッチ強調装置、その方法、およびプログラム
JP6962269B2 (ja) ピッチ強調装置、その方法、およびプログラム
US12100410B2 (en) Pitch emphasis apparatus, method, program, and recording medium for the same
JP5361565B2 (ja) 符号化方法、復号方法、符号化器、復号器およびプログラム
JP6261381B2 (ja) 信号処理装置、信号処理方法、プログラム
CN110291583B (zh) 用于音频编解码器中的长期预测的系统和方法
US20220277754A1 (en) Multi-lag format for audio coding
JP6220610B2 (ja) 信号処理装置、信号処理方法、プログラム、記録媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18882312

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019557077

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018882312

Country of ref document: EP

Effective date: 20200701