WO2012070340A1 - 隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム - Google Patents

隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム Download PDF

Info

Publication number
WO2012070340A1
WO2012070340A1 PCT/JP2011/074046 JP2011074046W WO2012070340A1 WO 2012070340 A1 WO2012070340 A1 WO 2012070340A1 JP 2011074046 W JP2011074046 W JP 2011074046W WO 2012070340 A1 WO2012070340 A1 WO 2012070340A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
concealment
decoded
decoded signal
detection result
Prior art date
Application number
PCT/JP2011/074046
Other languages
English (en)
French (fr)
Inventor
公孝 堤
菊入 圭
Original Assignee
株式会社エヌ・ティ・ティ・ドコモ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社エヌ・ティ・ティ・ドコモ filed Critical 株式会社エヌ・ティ・ティ・ドコモ
Publication of WO2012070340A1 publication Critical patent/WO2012070340A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm

Definitions

  • the present invention relates to error concealment when transmitting a voice packet via an IP network or a mobile communication network, and more particularly, a concealment signal generation apparatus and concealment signal generation method for generating a concealment signal for error concealment. And a concealment signal generation program.
  • voice signals When voice / acoustic signals (hereinafter collectively referred to as “voice signals”) are transmitted in an IP network or mobile communication, the voice signals are encoded and expressed in a small number of bits and divided into voice packets. Is transmitted via the communication network. A voice packet received through the communication network is decoded by a receiving server, MCU, terminal, etc., and a decoded voice signal is obtained.
  • Patent Document 1 As a packet loss concealment method in the frequency domain, there is the following Patent Document 1 regarding “an improved error concealment technique in the frequency domain”. This is because the decoded speech expressed in the frequency domain (Fourier series) included in the packet normally received in the past is accumulated in the buffer, and when packet loss is detected, the optimum is obtained from the decoded speech accumulated in the buffer. This is a technique for restoring the signal corresponding to the packet loss by estimating the gain and multiplying the decoded speech included in the most recently received packet by the optimum gain.
  • ITU-T G.711 Appendix I (Non-patent Document 1) is known as an error concealment technique for interpolating a voice / acoustic signal of a portion lost due to packet loss. This is because a part of the decoded speech / acoustic signal received normally is stored in the buffer, and if a packet loss occurs, the waveform is taken out from the buffer in units of pitch and repeated, so that the lost part is restored. Synthesize the corresponding signal.
  • Patent Document 2 relating to “a concealment signal generation device, a concealment signal generation method, and a concealment signal generation program”.
  • signal continuity is constantly monitored for signals obtained by decoding packets that have been normally received in the past, and signals in which continuity is recognized (hereinafter referred to as “stationary signals”) are recorded in a buffer.
  • stationary signals signals in which continuity is recognized
  • This is a method of making a decision using parameters and copying to a lost part.
  • the same waveform is repeated to generate noise like a beat.
  • the present invention is used, the number of repetitions of the same waveform can be reduced, thus reducing the noise described above. can do.
  • the conventional packet loss concealment in the frequency domain including the technique of Patent Document 1 generates a concealment signal by repeating a decoded signal that has been normally received in the past, but the unit of repetition is a signal of one frame.
  • signals having different properties such as vowels and consonants are mixed in the extracted frame, signals having different properties are also mixed in the concealed signal, and there is a problem that a sufficient concealing effect cannot be exhibited.
  • Patent Document 2 that generates a concealment signal as a technique that can be flexibly selected without limiting the repetition unit to one frame can avoid to some extent the mixing of signals having different properties.
  • the signal generation reference is limited to the signal continuity and pitch period, and it is difficult to perform flexible processing such as determining a repetitive waveform using a change in power or spectrum.
  • the present invention since the present invention relates to a packet loss concealment method in the time domain, in order to combine with a speech coding / decoding device in the frequency domain or the time frequency domain, it is decoded and converted to a time domain signal. This is necessary and is not realistic from the viewpoint of computational complexity.
  • An object of the present invention is to solve the above-described problems and prevent deterioration in sound quality of a concealment signal for packet loss concealment.
  • a concealment signal generation device includes, as a first aspect, a packet error or packet loss detection result in a received packet including a voice code, and a decoded signal obtained by decoding the voice code.
  • a concealment signal generator for concealing packet loss with respect to a decoded signal corresponding to a packet loss part received from the outside, wherein the decoding signal is obtained from a speech code included in a packet whose detection result is normal
  • a decoded signal storage unit for storing a signal, and when the detection result is abnormal, either or both of the power change of the stored decoded signal and the property change of the power spectrum are detected, and signal identification information representing the detection result is
  • a packet loss unit based on the output signal identification unit, the signal identification information, and the decoded signal accumulated by the decoded signal accumulation unit Characterized in that it comprises a first concealment signal generator that generates a concealment signal for interpolating the decoded signal corresponding, to.
  • the signal identification unit may detect both or one of the time when the power changes suddenly and the time when the power spectrum changes suddenly. In addition, the signal identification unit may output both or one of information regarding the start of change and information regarding the end of change as signal identification information.
  • a concealment signal generation device includes, as a second aspect, a packet error or packet loss detection result in a received packet including a voice code, and a decoded signal obtained by decoding the voice code.
  • a concealment signal generator for concealing packet loss with respect to a decoded signal corresponding to a packet loss part received from the outside, wherein the decoding signal is obtained from a speech code included in a packet whose detection result is normal
  • a decoded signal accumulating unit for accumulating a signal, and signal identification information representing a detection result of either or both of a power change and a power spectrum property change of a decoded signal obtained from a speech code when the detection result is normal from the outside
  • a first concealment signal generation unit configured to generate a concealment signal for interpolating a decoded signal corresponding to a packet loss portion based on the decoded signal stored by
  • the first concealment signal generation unit conceals a signal obtained by repeating the decoded signal in a range specified by using the signal identification information in the decoded signal storage unit. It may be generated as a signal.
  • the first concealment signal generation unit repeats the decoded signal in the range specified using the signal identification information in the decoded signal storage unit, and then increases the power.
  • a signal obtained by adjustment may be generated as a concealment signal.
  • the invention related to the concealment signal generation apparatus described above can be regarded as an invention related to the concealment signal generation method and an invention related to the concealment signal generation program, and can be described as follows.
  • a concealment signal generation method includes, as a first aspect, a packet error or packet loss detection result in a received packet including a voice code, and a decoded signal obtained by decoding the voice code.
  • a concealment signal generation method executed by a concealment signal generation apparatus that conceals packet loss for a decoded signal corresponding to a packet loss part received from the outside, wherein the detection result is included in a normal packet
  • a decoded signal accumulation step for accumulating the decoded signal obtained from the speech code, and if the detection result is abnormal, detecting a power change of the stored decoded signal and / or a property change of the power spectrum,
  • a signal identification step for outputting signal identification information representing the detection result, the signal identification information, and the decoded signal accumulation step.
  • Based on the accumulated decoded signal characterized in that it comprises a a first concealment signal generation step of generating a concealment signal for interpolating the decoded signal corresponding to the parts packet loss.
  • a concealment signal generation method includes, as a second aspect, a packet error or packet loss detection result in a received packet including a voice code, and a decoded signal obtained by decoding the voice code.
  • a concealment signal generation method executed by a concealment signal generation apparatus that conceals packet loss for a decoded signal corresponding to a packet loss part received from the outside, wherein the detection result is included in a normal packet
  • a decoded signal accumulation step for accumulating the decoded signal obtained from the speech code that has been stored, and, if the detection result is normal, detection of both or one of the power change and the power spectrum property change of the decoded signal obtained from the speech code
  • the signal identification information already stored is output.
  • a computer is included in a packet in which a packet error or packet loss detection result in a received packet including a voice code is normal.
  • a decoded signal accumulation unit that accumulates a decoded signal obtained by decoding from a speech code; and when the detection result is abnormal, detects a power change and / or a property change of a power spectrum of the stored decoded signal, Based on the signal identification unit that outputs the signal identification information representing the detection result, the signal identification information, and the decoded signal accumulated by the decoded signal accumulation unit, the decoded signal corresponding to the packet loss portion is interpolated.
  • a computer is included in a packet in which a packet error or packet loss detection result in a received packet including a voice code is normal.
  • a decoded signal storage unit for storing a decoded signal obtained by decoding from a speech code, and detection of either or both of a power change and a power spectrum property change of the decoded signal obtained from the speech code when the detection result is normal.
  • the signal identification information representing the result is received from outside and accumulated, and when the detection result is abnormal, the signal identification unit for outputting the already accumulated signal identification information, the signal identification information, and the decoded signal accumulation unit
  • a first concealment signal generator for generating a concealment signal for interpolating the decoded signal corresponding to the packet loss part based on the decoded signal.
  • a concealment signal generation program for functioning as a.
  • the repeating unit of the signal at the time of generating the concealment signal can be made shorter than the frequency domain signal using the conventional MDCT or FFT, it is possible that signals having different properties are mixed in the signal output for concealment. It is possible to prevent the deterioration of the sound quality of the packet loss concealment signal.
  • the encoding unit 1 encodes the digital signal in the buffer every time a predetermined number of audio signals of a predetermined number of samples are accumulated in the built-in buffer.
  • the predetermined amount that is, the number of accumulated samples is called a frame length
  • a set of digital signals to be encoded is called a frame.
  • a frame length For example, when a frame length of 20 ms is used when collecting sound at a sampling frequency of 32 kHz, a digital signal of 640 samples is stored in the buffer.
  • the buffer may store extra digital signals for prefetching.
  • encoding may be performed in units of frame length, or encoding may be performed with an overlap of a certain length between frames. Any encoding method may be used for encoding.
  • the packet construction unit 2 generates a voice packet by adding information necessary for communication such as an RTP header to the voice code obtained by the coding unit 1.
  • the generated voice packet is sent to the receiving side through the network.
  • the packet separation unit 3 separates the voice packet received through the network into an RTP header and a voice code, generates a bit stream obtained by adding an error flag indicating an error state of the voice packet to the voice code, Is output to the decoding unit 4.
  • the decoding unit 4 includes an error / loss detection unit 41, a speech decoding unit 42, and a concealment signal generation unit 43, as shown in FIG.
  • the decoding unit 4 detects an abnormality (packet error or packet loss) in the voice packet by identifying the error flag state in the error / loss detection unit 41, and in the case of normal (no abnormality), the voice decoding unit 42 The voice code is decoded at, and a decoded signal is output.
  • a concealment signal generation unit 43 generates a concealment signal and outputs the concealment signal as a decoded signal.
  • the decoding unit 4 outputs decoded speech for each frame.
  • the decoded sound is sent to an audio buffer or the like and reproduced through a speaker or the like, or stored in a recording medium such as a memory or a hard disk.
  • the error / loss detection unit 41 detects an abnormality (packet error or packet loss) in the voice packet by identifying the state of the error flag included in the bitstream.
  • the error / loss detection unit 41 displays the error flag in the voice decoding unit 42 and the concealment signal generation unit 43 (specifically, a decoded signal accumulation described later). And the voice code is sent to the voice decoding unit 42. Then, the speech decoding unit 42 generates a decoded signal by decoding the speech code and outputs it as decoded speech. At this time, the voice decoding unit 42 also sends the decoded signal to the concealment signal generation unit 43.
  • the error / loss detection unit 41 displays the error flag as a concealment signal generation unit 43 (specifically, a decoded signal accumulation unit 431 and a signal identification unit described later). 434).
  • the concealment signal generation unit 43 generates a concealment signal from the decoded signal corresponding to the voice packet normally received in the past. Details of the operation of the concealment signal generator 43 will be described later.
  • FIG. 1 The overall configuration of FIG. 1 described above and the operations of the error / loss detection unit 41 and the speech decoding unit 42 of the decoding unit 4 of FIG. 2 are the same in the second to fifth embodiments described later. In the fifth embodiment, a duplicate description is omitted.
  • the concealment signal generation part 43 shows the example which uses the sudden change of the power in the signal of a time domain as signal identification information.
  • the concealment signal generation unit 43 includes a decoded signal accumulation unit 431, a signal identification unit 434, and a first concealment signal generation unit 433.
  • the decoded signal accumulation unit 431 accumulates the decoded signal input from the audio decoding unit 42 when a value indicating normality of the audio packet is set in the error flag.
  • the number of samples of the decoded signal to be stored is preferably the past several frames (d frames) (here, x (0),..., X (dL). Note that the length of one frame is L. )
  • the signal identification unit 434 includes a decoded signal accumulation unit 4340, a time envelope calculation unit 4341, and a signal identification information generation unit 4342 as shown in FIG. Among these, the decoded signal storage unit 4340 performs the same operation as the decoded signal storage unit 431 when a value indicating normal voice packet is set in the error flag.
  • the time envelope calculation unit 4341 reads the accumulated decoded signal (hereinafter referred to as “accumulated decoded signal”) from the decoded signal accumulation unit 4340, and accumulates the decoded signal.
  • accumulated decoded signal accumulated decoded signal
  • Time envelope information which is information about each power, is calculated.
  • the time envelope calculation unit 4341 may read the stored decoded signal from the decoded signal storage unit 431 instead.
  • time envelope information As a method for calculating the time envelope information here, there are various methods such as a method for calculating time envelope information using a maximum value of amplitude for each of a plurality of small sections and a method for calculating time envelope information using variance.
  • time envelope information is calculated according to the following equation.
  • x (k) represents the value of the kth sample.
  • k l start indicates the start position of the l-th subsection
  • k l end indicates the end position of the l-th subsection.
  • k l start k l ⁇ 1 end +1, but it is also possible to provide overlap between small sections.
  • the signal identification information generation unit 4342 detects a sudden change in power and outputs signal identification information according to the result. Specifically, various methods such as calculating a power dispersion value and detecting a sudden change in power by comparing the dispersion value and a threshold value can be used. A sudden change in power is detected as follows. Step 1: An envelope Penv (l) obtained by smoothing Env (l) is calculated by the following equation. However, ⁇ is a constant that satisfies 0 ⁇ ⁇ 1.
  • Penv (l) ⁇ ⁇ Penv (l ⁇ 1) + (1 ⁇ ) ⁇ Env (l)
  • Step 2 Using Env (l) and Penv (l), a rapid change in power is detected by comparing Env (l) and ( ⁇ ⁇ Penv (l)). Where ⁇ is a constant. That is, when Env (l)> ⁇ ⁇ Penv (l), it is determined that the power changes abruptly in subsample l.
  • the method described above is a simple example of signal change detection based on power change, and signal change detection may be performed by another more complicated method.
  • the index lstart of the subsample at which the change starts is output as signal identification information.
  • a value obtained by subtracting the number of samples for one frame from the end of the buffer may be used as the index lstart.
  • a simple method such as setting lstart as the top index of the buffer or the last index of the buffer may be used, or a value obtained by calculating the pitch period and subtracting the pitch period from the end of the buffer may be set as lstart. .
  • the first concealment signal generation unit 433 generates a concealment signal using the signal identification information and the stored decoded signal. Specifically, the concealment signal is generated by the following procedure. The operation of the first concealment signal generation unit 433 is shown in FIG.
  • step S11 of FIG. 4 the first concealment signal generation unit 433 obtains the index lstart by referring to the signal identification information, and sets the index of the last subsample of the accumulated decoded signal stored in the buffer as lend.
  • the value of lend-lstart is set in the variable L ′.
  • step S12 the first concealment signal generation unit 433 copies the accumulated decoded signal from the decoded signal accumulation unit 431.
  • samples from lstart to lend are repeatedly copied until the number N of samples included in one frame is satisfied.
  • the variable i is reset to 0 (step S121), and the stored decoded signal stored in the decoded signal storage unit 431 is copied as the concealment signal v (i) corresponding to the packet loss part according to the following equation (step S121). Step S122).
  • v (i) b (lstart + i% L ')
  • b (i) means an accumulated decoded signal accumulated in the decoded signal accumulation unit 431
  • (i% L ′) represents a remainder obtained by dividing i by L ′.
  • step S124 If the variable i is less than the sample number N (YES in step S124), the variable i is counted up by one (step S123), and the process of step S122 is performed for the counted up variable i. Thereafter, steps S122 and S123 are repeated until the variable i is equal to the number of samples N (NO in step S124). As a result, samples from lstart to lend can be copied until the number N of samples included in one frame is satisfied.
  • the first concealment signal generation unit 433 calculates the mean square amplitude for each subsample and normalizes the copied accumulated decoded signal, and then attenuates it to the mean square amplitude of the subsample immediately before the packet loss.
  • a concealment signal is generated by multiplying the power of the coefficient. For example, first, a variable i is reset to 0 (step S131), the concealment signal v corresponding to the packet loss portion to generate in accordance with the following equation (step S132).
  • v (iL '+ k) v (iL' + k) / 10 (Env (i) / 2) ⁇ 10 (Env (K-1) / 2) ⁇ ⁇ i
  • Env (i) represents the time envelope of the i-th subsection (K is the number of subsections)
  • v (i) represents the concealment signal corresponding to the packet loss portion
  • represents the attenuation constant.
  • step S134 If the variable i is less than the sample number N (YES in step S134), the variable i is counted up by one (step S133), and the process of step S132 is performed on the counted up variable i. Thereafter, steps S132 and S133 are repeated until the variable i becomes equal to the number of samples N (NO in step S134). Thereby, a concealment signal is generated.
  • step S14 the first concealment signal generation unit 433 outputs the generated concealment signal.
  • a concealment signal may be generated by prediction. Specifically, the following method may be used. Step 1: The index lstart is obtained by referring to the signal identification information. Also, let the index of the last subsample of the accumulated decoded signal stored in the buffer be lend. Step 2: The stored decoded signal in the decoded signal storage unit 431 is copied from lstart to lend and subjected to linear prediction analysis. Step 3: The residual signal obtained in Step 2 is repeated until the number N of samples included in one frame is satisfied. Step 4: The signal obtained in Step 3 is inverse filtered with the linear prediction coefficient obtained in Step 2, and then a predetermined attenuation coefficient is multiplied for each sample. The signal thus obtained is used as a concealment signal.
  • the concealment signal generation unit 43 can generate and output signal identification information using a rapid change in power in a time domain signal.
  • signal identification information is output using an abrupt change in power.
  • signal identification information is generated using an abrupt change in power spectrum.
  • a time-domain signal is assumed as a decoded signal.
  • a decoded signal is obtained as a frequency-domain signal (for example, a QMF coefficient)
  • the decoded signal storage unit remains represented in the frequency domain. It is also possible to store the decoded signal in the configuration and omit the time frequency conversion unit.
  • the operation of the decoded signal storage unit 431 shown in FIG. 2 is the same as that of the first embodiment.
  • the signal identification unit 434 includes a decoded signal accumulation unit 4340, a time frequency conversion unit 4343, a conversion gain calculation unit 4344, and a signal identification information generation unit 4342.
  • the operation of the decoded signal storage unit 4340 is the same as that of the first embodiment.
  • a time-frequency conversion unit 4343, a conversion gain calculation unit 4344, and a signal identification information generation unit 4342 that operate when a value indicating voice packet abnormality is set in the error flag will be described below with reference to FIG.
  • the time frequency conversion unit 4343 reads out the stored decoded signal from the decoded signal storage unit 4340 and outputs the stored frequency signal converted into the frequency domain (step S21 in FIG. 6).
  • FFT Fast Fourier Transform
  • MDCT Modified Discrete Transform
  • QMF QMF
  • a configuration may be adopted in which the stored decoded signal is read from the decoded signal storage unit 431 without providing the decoded signal storage unit 4340.
  • time-frequency conversion is performed using, for example, QMF.
  • the stored decoded signal is assumed to be x (n).
  • subsample l 0 of V (k, l) Let be a set of frequency bins. E represents the number of subsamples in the time direction, and K represents the number of frequency bins. k is the index of frequency bin (0 ⁇ k ⁇ K-1), l is the index of the sub-sample (0 ⁇ l ⁇ L-1).
  • P A (n) represents a window function used for analysis.
  • the conversion gain calculation unit 4344 refers to the (arithmetic mean / geometric mean) value (hereinafter referred to as “U (l)”) of the accumulated decoded signal subjected to time-frequency conversion. l) ”(step S22 in FIG. 6).
  • U (l) is calculated using all frequency bins, but the arithmetic average / geometric mean U (l) may be calculated using only some of the frequency bins.
  • the signal identification information generation unit 4342 detects, as signal identification information lstart, a subsample l that exceeds a threshold Th with an arithmetic mean / geometric mean U (l) (step S23 in FIG. 6). For example, first, the subsample index l is reset to 0 (step S231), and it is determined whether the arithmetic mean / geometric mean U (l) exceeds the threshold Th (step S232). If the arithmetic mean / geometric mean U (l) does not exceed the threshold Th, the process proceeds to step S235, and if the arithmetic mean / geometric mean U (l) exceeds the threshold Th, the index l at that time is used as the signal identification information. Set to lstart (step S233), and proceed to step S235.
  • step S235 If the index l is less than L in step S235 (YES in step S235), the index l is incremented by one (step S234), and the processes in steps S232 and S233 are performed on the counted index l. Thereafter, steps S232 to S234 are repeated until the index l becomes equal to L (NO in step S235). As a result, the subsample l exceeding the threshold Th with the arithmetic mean / geometric mean U (l) can be detected as the signal identification information lstart.
  • the signal identification information generating unit 4342 outputs the signal identification information lstart obtained in step S23 (step S24 in FIG. 6).
  • the first concealment signal generation unit 433 generates a concealment signal using the signal identification information and the stored decoded signal. Specifically, the concealment signal is generated by the following procedure. The operation of the first concealment signal generation unit 433 is shown in FIG.
  • the first concealment signal generation unit 433 refers to the signal identification information to obtain the index lstart, and sets the index of the last subsample of the accumulated decoded signal stored in the buffer to lend.
  • the value of lend-lstart is set in the variable L ′.
  • step S26 the first concealment signal generation unit 433 copies the accumulated decoded signal from the decoded signal accumulation unit 431.
  • samples from lstart to lend are copied until the number of samples N included in one frame is satisfied.
  • the variable i is reset to 0 (step S261), and the stored decoded signal stored in the decoded signal storage unit 431 is copied as the concealment signal V (k, i) corresponding to the packet loss part according to the following equation. (Step S262).
  • V (k, i) B (k, lstart + i% L ')
  • B (k, i) is a signal obtained by time-frequency conversion of the stored decoded signal stored in the decoded signal storage unit 431
  • V (k, i) is a concealment signal corresponding to the packet loss part
  • (i% L ′ ) Represents the remainder obtained by dividing i by L ′.
  • step S264 If the variable i is less than the sample number N (YES in step S264), the variable i is incremented by one (step S263), and the process of step S262 is performed on the counted variable i. Thereafter, steps S262 and S263 are repeated until the variable i becomes equal to the number of samples N (NO in step S264). As a result, samples from lstart to lend can be copied until the number N of samples included in one frame is satisfied.
  • step S27 the first concealment signal generation unit 433 calculates the sub-sample power Env (l).
  • step S28 the first concealment signal generation unit 433 calculates the mean square amplitude for each subsample and normalizes the copied accumulated decoded signal, and then adds the power of the attenuation coefficient to the mean square amplitude of the subsample immediately before the packet loss. Is used to generate a concealment signal. For example, first, the variable i is reset to 0 (step S281), and the concealment signal V corresponding to the packet loss part is generated according to the following equation (step S282).
  • V (k, i) V (k, i) / 10 (Env (i) / 2) ⁇ 10 (Env (L-1) / 2) ⁇ ⁇ i
  • Env (i) represents the time envelope of the i-th subsection (K is the number of subsections)
  • V (k, i) represents the concealment signal corresponding to the packet loss part
  • represents the attenuation constant.
  • step S284 If the variable i is less than the sample number N (YES in step S284), the variable i is incremented by one (step S283), and the process of step S282 is performed on the counted variable i. Thereafter, steps S282 and S283 are repeated until the variable i becomes equal to the number of samples N (NO in step S284). Thereby, a concealment signal is generated.
  • step S29 the first concealment signal generation unit 433 generates a time domain concealment signal y (kL + i) by inversely transforming the concealment signal V (k, i) corresponding to the packet loss part using the combined QMF.
  • i (0 ⁇ i ⁇ L) is the index of the signal in the time domain
  • k (0 ⁇ k ⁇ K-1) is an index of the sub-frame.
  • signal identification information can be generated and output using a sudden change in the power spectrum.
  • signal identification information is calculated using a sudden change in power
  • signal identification information is calculated using a sudden change in power spectrum. An example of calculating signal identification information using both will be described.
  • a time-domain signal is assumed as a decoded signal.
  • a decoded signal is obtained as a frequency-domain signal (for example, a QMF coefficient)
  • the decoded signal storage unit remains represented in the frequency domain. It is also possible to store the decoded signal in the configuration and omit the time frequency conversion unit.
  • the operation of the decoded signal storage unit 431 shown in FIG. 2 is the same as that of the first embodiment.
  • the signal identification unit 434 includes a decoded signal accumulation unit 4340, a time envelope calculation unit 4341, a time frequency conversion unit 4343, a conversion gain calculation unit 4344, and a signal identification information generation unit 4342 as shown in FIG. Among these, the decoded signal storage unit 4340 operates in the same manner as the decoded signal storage unit 431 when a value indicating voice packet abnormality is set in the error flag.
  • time-frequency conversion unit 4343 the time envelope calculation unit 4341, the conversion gain calculation unit 4344, and the signal identification information generation unit 4342, which operate when a value indicating voice packet abnormality is set in the error flag, FIG. This will be described below.
  • Time-frequency converting unit 4343 reads out the accumulated decoded signal from the decoded signal storage unit 4340, and outputs the accumulated frequency signal converted into the frequency domain (step S31 in FIG. 9).
  • the stored decoded signal is x (n).
  • E represents the number of subsamples in the time direction
  • K represents the number of frequency bins.
  • k is the index of frequency bin (0 ⁇ k ⁇ K-1)
  • l is the index of the sub-sample (0 ⁇ l ⁇ L-1).
  • P A (n) represents a window function used for analysis.
  • the time envelope calculation unit 4341 calculates a time envelope according to the following equation, for example (step S32 in FIG. 9).
  • Conversion gain calculating unit 4344 for storing the frequency signal, and calculates the arithmetic mean / geometric mean U (l) (step S33 in FIG. 9).
  • U (l) is calculated using all frequency bins, but the arithmetic average / geometric mean U (l) may be calculated using only some of the frequency bins.
  • the signal identification information generation unit 4342 detects the subsample l exceeding the threshold value Th as the arithmetic mean / geometric mean U (I) as the signal identification information lstart, and then determines Env (l) and ( ⁇ ⁇ Penv (l) ) Is detected, and a rapid change in power is detected, and if necessary, lstart is updated to generate signal identification information lstart (step S34 in FIG. 9).
  • is a constant.
  • Env (l)> ⁇ ⁇ Penv (l) it may be determined that the power changes rapidly in subsample l and lstart may be calculated. Note that the conversion gain and the time envelope may be weighted, and the signal identification information may be generated by combining the conversion gain and the time envelope.
  • step S34 the signal identification information generation unit 4342 first resets the subsample index l to 0 (step S341), and the arithmetic mean / geometric mean U (l) is a threshold value. It is determined whether or not Th is exceeded (step S342). If the arithmetic mean / geometric mean U (l) does not exceed the threshold Th, the process proceeds to step S345. If the arithmetic mean / geometric mean U (l) exceeds the threshold Th, the index l at that time is used as the signal identification information. Set to lstart (step S343), and proceed to step S345.
  • step S345 If the index l is less than L in step S345 (YES in step S345), the index l is incremented by one (step S344), and the processes in steps S342 and S343 are performed on the counted index l. Thereafter, steps S342 to S344 are repeated until the index l becomes equal to L (NO in step S345).
  • the subsample l exceeding the threshold Th with the arithmetic mean / geometric mean U (l) can be detected as the signal identification information lstart.
  • step S346 the index l is reset to 0 (step S346), Env (l) is compared with ( ⁇ ⁇ Penv (l)) (step S347), and Env (l) becomes ( ⁇ ⁇ Penv (l) ), The process proceeds to step S34A. If Env (l) exceeds ( ⁇ ⁇ Penv (l)), the index l at that time is set in the signal identification information lstart (step S348), and step S34A Proceed to
  • step S34A If the index l is less than L in step S34A (YES in step S34A), the index l is incremented by one (step S349), and the processes of steps S347 and S348 are performed on the counted index l. Thereafter, steps S347 to S349 are repeated until the index l becomes equal to L (NO in step S34A). As a result, it is possible to detect the subsample l whose power changes rapidly as the signal identification information lstart.
  • the signal identification information generation unit 4342 outputs the signal identification information lstart obtained in step S34 (step S35 in FIG. 9).
  • the 1st concealment signal generation part 433 in 3rd Embodiment performs the operation
  • signal identification information can be generated and output using both a rapid change in power and a rapid change in power spectrum.
  • the following describes an example of performing packet loss concealment using TS26.401 (enhanced aacPlus) as an encoding method and using parameters obtained during decoding as signal identification information.
  • TS26.401 uses SBR (Spectral Band Replication) to encode high frequency signals with a small amount of bits.
  • SBR Specific Band Replication
  • a high frequency signal is generated using auxiliary information sent from the SBR encoding side and a low frequency decoded signal.
  • the auxiliary information includes time boundary information in the frame. Specifically, it is a tE parameter defined in TS26.404 section 3.2. The time boundary in the frame is inserted by the SBR encoder when the power suddenly increases or when the power spectrum property changes.
  • the concealment signal generation unit 43 in FIG. 2 generates a concealment signal using the time boundary tE in the frame.
  • the operation of the decoded signal storage unit 431 is the same as that in the first embodiment.
  • the signal identification unit 434 includes a signal identification information storage unit 4345 as shown in FIG.
  • the signal identification information accumulation unit 4345 accumulates the signal identification information input from the audio decoding unit 42 when the error flag is set to a value indicating normal voice packet.
  • the signal identification information is the time boundary tE in the frame described above.
  • the accumulated signal identification information (hereinafter referred to as “accumulated signal identification information”) is sent from the signal identification information accumulation unit 4345 to the first. It is output to the concealment signal generation unit 433.
  • the first concealment signal generation unit 433 generates a concealment signal in the following procedure using the accumulated signal identification information and the accumulated decoded signal.
  • the operation of the first concealment signal generation unit 433 is shown in FIG.
  • the first concealment signal generation unit 433 in step S41 in FIG. 11 refers to the stored signal identification information, obtaining the index lstart and index lend accordance with the following equation.
  • tE represents the signal identification information stored in the signal identification information storage unit and included in the most recently received packet.
  • L ′ is the number of sections separated by time boundaries in the frame.
  • the first concealment signal generation unit 433 copies the accumulated decoded signal from the decoded signal accumulation unit 431. When copying, the subsamples from lstart to lend are copied until the number of subsamples included in one frame is satisfied.
  • the variable i is reset to 0 (step S421), and the stored decoded signal stored in the decoded signal storage unit 431 is copied as the concealment signal V (k, i) corresponding to the packet loss part according to the following equation.
  • V (k, i) B (k, lstart + i% L ')
  • B (k, i) is a signal obtained by time-frequency conversion of the stored decoded signal stored in the decoded signal storage unit 431
  • V (k, i) is a concealment signal corresponding to the packet loss part
  • (i% L ′ ) Represents the remainder obtained by dividing i by L ′.
  • step S424 If the variable i is less than the sample number N (YES in step S424), the variable i is counted up by one (step S423), and the process of step S422 is performed for the counted up variable i. Thereafter, steps S422 and S423 are repeated until the variable i becomes equal to the number of samples N (NO in step S424). Thereby, the subsamples from lstart to lend can be copied until the number of subsamples included in one frame is satisfied.
  • step S43 the first concealment signal generation unit 433 calculates the sub-sample power Env (l).
  • step S44 the first concealment signal generation unit 433 calculates the mean square amplitude for each subsample and normalizes the copied accumulated decoded signal, and then adds the power of the attenuation coefficient to the mean square amplitude of the subsample immediately before the packet loss. Is used to generate a concealment signal. For example, first, a variable i is reset to 0 (step S441), the concealment signal V corresponding to a packet loss portion to generate in accordance with the following equation (step S442).
  • V (k, i) V (k, i) / 10 (Env (i) / 2) ⁇ 10 (Env (L-1) / 2) ⁇ ⁇ i
  • Env (i) represents the time envelope of the i-th subsection (K is the number of subsections)
  • V (k, i) represents the concealment signal corresponding to the packet loss part
  • represents the attenuation constant.
  • step S444 If the variable i is less than the sample number N (YES in step S444), the variable i is counted up by one (step S443), and the process of step S442 is performed on the counted up variable i. Thereafter, steps S442 and S443 are repeated until the variable i becomes equal to the number of samples N (NO in step S444). Thereby, a concealment signal is generated.
  • step S45 the first concealment signal generation unit 433 generates a time domain concealment signal y (kL + i) by inversely transforming the concealment signal V (k, i) corresponding to the packet loss part by the combined QMF.
  • i (0 ⁇ i ⁇ L) is the index of the signal in the time domain
  • k (0 ⁇ k ⁇ K-1) is an index of the sub-frame.
  • a concealment signal can be generated and output even when signal identification information is acquired from the outside.
  • a scale factor when AAC is used for encoding a time-frequency domain representation of a decoded signal in another encoding method, or the like can be used.
  • V (k, l) a time-frequency domain representation of a decoded signal in another encoding method, or the like.
  • signal identification information is calculated from parameters obtained at the time of decoding when TS26.401 (enhanced aacPlus) is used as an encoding method, and packet loss concealment is performed.
  • the signal identification information is calculated from the power spectrum envelope information included in the auxiliary information of TS26.404.
  • the auxiliary information of TS26.404 represents a parameter representing the power spectrum envelope power defined as E orig defined in section 3.2 of TS26.404, and the band boundary of the power spectrum envelope defined as f TableHigh. It is a parameter.
  • FIG. 13 shows an example of the relationship between these parameters. The parameters are calculated in the decoding process.
  • the signal identification unit 434 includes an auxiliary information accumulation unit 4346, a power spectrum envelope calculation unit 4347, a time envelope calculation unit 4341, a conversion gain calculation unit 4344, and a signal identification information generation unit 4342. Prepare.
  • the auxiliary information accumulating unit 4346 when the error flag is set to a value indicating normal voice packet, the power spectrum envelope power of E orig and the power spectrum envelope band of f TableHigh inputted from the voice decoding unit 42 Accumulate boundaries.
  • the power spectrum envelope calculation unit 4347 reads the power of the power spectrum envelope and the band boundary of the power spectrum envelope from the auxiliary information storage unit 4346, and signals as follows: The identification information is calculated. That is, the power spectrum envelope V (k, l) is calculated from E orig and f TableHigh as follows. Here, it is assumed that the entire frequency band is divided into n high bands.
  • the operations of the time envelope calculation unit 4341, the conversion gain calculation unit 4344, and the signal identification information generation unit 4342 are the same as those in the third embodiment.
  • the operation of the first concealment signal generation unit 433 is the same as that in the third embodiment.
  • the fifth embodiment it is possible to calculate signal identification information from parameters obtained supplementarily in the decoding process, and generate and output a concealment signal based on the signal identification information.
  • FIG. 16 is a diagram illustrating a configuration of a concealment signal generation program according to an embodiment.
  • FIG. 14 is a hardware configuration diagram of a computer according to an embodiment.
  • FIG. 15 is an external view of a computer according to an embodiment.
  • the concealment signal generation program P43 illustrated in FIG. 16 can cause the computer C10 illustrated in FIGS. 14 and 15 to operate as the concealment signal generation unit 43.
  • the program described in this specification is not limited to the computer illustrated in FIGS. 14 and 15, and any information processing device such as a mobile phone, a portable information terminal, or a portable personal computer is operated according to the program. be able to.
  • the concealment signal generation program P43 can be provided by being stored in the recording medium M.
  • the recording medium M is exemplified by a recording medium such as a flexible disk, CD-ROM, DVD, or ROM, or a semiconductor memory.
  • the computer C10 stores a program stored in a reading device C12 such as a flexible disk drive device, a CD-ROM drive device, a DVD drive device, a working memory (RAM) C14, and a recording medium M.
  • a reading device C12 such as a flexible disk drive device, a CD-ROM drive device, a DVD drive device, a working memory (RAM) C14, and a recording medium M.
  • CPU central processing unit
  • the computer C10 can access the concealment signal generation program P43 stored in the recording medium M from the reading device C12. It becomes possible to operate as a concealment signal generation device.
  • the concealment signal generation program P43 may be provided as a computer data signal W superimposed on a carrier wave via a network.
  • the computer C10 can store the concealment signal generation program P43 received by the communication device C24 in the memory C16 and execute the concealment signal generation program P43.
  • the concealment signal generation program P43 includes a decoded signal accumulation module P431, a signal identification module P434, and a first concealment signal generation module P433. These decoded signal storage module P431, signal identification module P434, and first concealment signal generation module P433 have the same functions as the above-described decoded signal storage unit 431, signal identification unit 434, and first concealment signal generation unit 433, respectively.
  • the computer C10 is executed. According to the concealment signal generation program P43, the computer C10 can operate as the concealment signal generation apparatus according to the present invention.
  • a time change of power or a time change of power spectrum is used.
  • a concealment signal is generated using a frequency domain signal obtained by time-frequency conversion using QMF (Quadrature Mirror Filter).
  • QMF Quadrature Mirror Filter

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)

Abstract

 音声符号を含む受信パケットにおけるパケットエラー又はパケットロスの検出結果および音声符号が復号されて得られた復号信号を外部から受け取り、パケットロスした部分に対応する復号信号についてパケットロスの隠蔽を行う隠蔽信号生成装置は、検出結果が正常とされたパケットに含まれた音声符号から得られた復号信号を蓄積する復号信号蓄積部と、検出結果が異常の場合、蓄積されている復号信号のパワー変化とパワースペクトルの性質変化の両方又は一方を検出し、当該検出結果を表す信号識別情報を出力する信号識別部と、信号識別情報と復号信号蓄積部により蓄積された復号信号とに基づいて、パケットロスした部分に対応する復号信号を補間するための隠蔽信号を生成する第一隠蔽信号生成部とを備える。

Description

隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム
 本発明は、IP網や移動体通信網経由で音声パケットを伝送する際のエラー隠蔽に関するものであり、さらに詳しくは、エラー隠蔽のための隠蔽信号を生成する隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラムに関する。
 音声・音響信号(以下「音声信号」と総称する)をIP網や移動体通信において伝送する際には、音声信号をエンコードして少ないビット数で表現して音声パケットに分割し、その音声パケットを通信網経由で伝送する。通信網を通じて受け取られた音声パケットは、受信側のサーバ、MCU、端末等において復号され、復号音声信号が得られる。
 通信網を通じて音声パケットを伝送する際には、通信網の輻輳状態等に起因して、一部の音声パケットが失われる又は音声パケットに書き込まれた情報の一部に誤りが生じるといった現象(いわゆるパケットロス)が起こりうる。そのような場合には、受信側において音声パケットを正しく復号することができないため、所望の復号音声信号を得ることが出来ない。また、パケットロスが生じた音声パケットに対応する復号音声信号は雑音として知覚されるため、受聴する人間に対して与える主観品質を著しく損なう。
 周波数領域でのパケットロス隠蔽方法として、「改良された周波数領域におけるエラー隠蔽技術」に関する下記の特許文献1がある。これは、過去に正常に受信したパケットに含まれていた周波数領域(フーリエ級数)で表現された復号音声をバッファに蓄積し、パケットロスを検出した場合にはバッファに蓄積した復号音声から最適なゲインを推定して、当該最適なゲインを最も最近受信したパケットに含まれる復号音声に乗算することにより、パケットロスに対応する部分の信号を復元する手法である。
 また、パケットロスにより失われた部分の音声・音響信号を補間するエラー隠蔽技術として、ITU-T G.711 Appendix I(非特許文献1)が知られている。これは、正常に受け取った復号音声・音響信号の一部をバッファに記憶しておき、パケットロスが起こった場合には、バッファからピッチ単位で波形を取り出して繰り返すことにより、失われた部分に対応する信号を合成する。
 より高度なエラー隠蔽技術として、「隠蔽信号生成装置、隠蔽信号生成方法、隠蔽信号生成プログラム」に関する下記の特許文献2がある。当該発明は、過去に正常に受け取ったパケットを復号して得た信号について信号の定常性を常に監視し、定常性が認められる信号(以下「定常信号」という)についてはバッファに記録する。エラーが発生したときには、エラーが発生する直前の信号が定常信号であるかどうかを判定し、定常信号である場合にはバッファ中の定常信号について、信号をコピーする範囲を信号の定常性を表すパラメータを用いて決定して、失われた部分にコピーする手法である。通常、パケットロスが続いた場合に同一の波形を繰り返すことによりうなりのような雑音が発生するが、当該発明を用いると同一の波形の繰り返し回数を減らすことができるため、上記述べた雑音を低減することができる。
特許第3999807号公報 特開2008-203783号公報
ITU-T G.711 Appendix I
 しかしながら、上記特許文献1の技術を含め従来の周波数領域でのパケットロス隠蔽は過去に正常に受信した復号信号を繰り返すことにより隠蔽信号を生成するが、繰り返しの単位が1フレームの信号となるため、取り出したフレームに母音と子音のように性質の異なる信号が混在する場合には、隠蔽された信号にも性質の異なる信号が混在する結果となり、十分な隠蔽効果を発揮できないという課題がある。
 また、繰り返しの単位を1フレームに限定せず、柔軟に選択可能な技術として隠蔽信号の生成を行う特許文献2の技術では、性質の異なる信号が混在することをある程度避けることができるが、隠蔽信号の生成基準を信号の定常性およびピッチ周期に限定しており、パワーやスペクトルの変化などを用いて繰り返す波形を決定するといった柔軟な処理が困難である。また、当該発明は時間領域におけるパケットロス隠蔽方法に関する発明であるため、周波数領域あるいは時間周波数領域における音声符号化・復号装置と組み合わせるためには復号処理を行った上で時間領域の信号に変換する必要があり、演算量の観点から現実的ではない。
 以上述べたとおり、バッファに蓄積した復号音声を用いて隠蔽信号を生成する際、パワーの変化やパワースペクトルの性質変化などに応じて柔軟に繰り返しの単位を求めて、隠蔽信号を生成することが困難である。特に、復号音声が周波数領域で表現されている場合には、繰り返しの単位を1フレームより短くすることができないので、性質が異なる信号が隠蔽信号に混在するのを避けるのが困難であった。
 本発明は、上記課題を解決し、パケットロス隠蔽のための隠蔽信号の音質低下を防ぐことを目的とする。
 本発明の一側面に係る隠蔽信号生成装置は、第一の態様として、音声符号を含む受信されたパケットにおけるパケットエラー又はパケットロスの検出結果、および音声符号が復号されて得られた復号信号を外部から受け取り、パケットロスした部分に対応する復号信号について、パケットロスの隠蔽を行う隠蔽信号生成装置であって、前記検出結果が正常とされたパケットに含まれていた音声符号から得られた復号信号を蓄積する復号信号蓄積部と、前記検出結果が異常の場合、蓄積されている復号信号のパワー変化とパワースペクトルの性質変化の両方又は一方を検出し、当該検出結果を表す信号識別情報を出力する信号識別部と、前記信号識別情報と、前記復号信号蓄積部により蓄積された復号信号とに基づいて、パケットロスした部分に対応する復号信号を補間するための隠蔽信号を生成する第一隠蔽信号生成部と、を備えることを特徴とする。
 上記の信号識別部は、パワーが急激に変化する時点とパワースペクトルが急激に変化する時点の両方又は一方を検出してもよい。また、上記の信号識別部は、変化の開始に関する情報と変化の終了に関する情報の両方又は一方を、信号識別情報として出力してもよい。
 本発明の一側面に係る隠蔽信号生成装置は、第二の態様として、音声符号を含む受信されたパケットにおけるパケットエラー又はパケットロスの検出結果、および音声符号が復号されて得られた復号信号を外部から受け取り、パケットロスした部分に対応する復号信号について、パケットロスの隠蔽を行う隠蔽信号生成装置であって、前記検出結果が正常とされたパケットに含まれていた音声符号から得られた復号信号を蓄積する復号信号蓄積部と、前記検出結果が正常の場合、音声符号から得られた復号信号のパワー変化とパワースペクトルの性質変化の両方又は一方の検出結果を表す信号識別情報を外部から受け取って蓄積し、前記検出結果が異常の場合、既に蓄積された信号識別情報を出力する信号識別部と、前記信号識別情報と、前記復号信号蓄積部により蓄積された復号信号とに基づいて、パケットロスした部分に対応する復号信号を補間するための隠蔽信号を生成する第一隠蔽信号生成部と、を備えることを特徴とする。
 上述した第一の態様および第二の態様それぞれにおいて、第一隠蔽信号生成部は、前記復号信号蓄積部において信号識別情報を用いて指定される範囲の復号信号を繰り返して得られる信号を、隠蔽信号として生成してもよい。
 また、上述した第一の態様および第二の態様それぞれにおいて、第一隠蔽信号生成部は、前記復号信号蓄積部において信号識別情報を用いて指定される範囲の復号信号を繰り返した上でパワーを調整することで得られる信号を、隠蔽信号として生成してもよい。
 ところで、前述した隠蔽信号生成装置に係る発明は、隠蔽信号生成方法に係る発明、および隠蔽信号生成プログラムに係る発明として捉えることができ、以下のように記述することができる。
 本発明の一側面に係る隠蔽信号生成方法は、第一の態様として、音声符号を含む受信されたパケットにおけるパケットエラー又はパケットロスの検出結果、および音声符号が復号されて得られた復号信号を外部から受け取り、パケットロスした部分に対応する復号信号について、パケットロスの隠蔽を行う隠蔽信号生成装置、により実行される隠蔽信号生成方法であって、前記検出結果が正常とされたパケットに含まれていた音声符号から得られた復号信号を蓄積する復号信号蓄積ステップと、前記検出結果が異常の場合、蓄積されている復号信号のパワー変化とパワースペクトルの性質変化の両方又は一方を検出し、当該検出結果を表す信号識別情報を出力する信号識別ステップと、前記信号識別情報と、前記復号信号蓄積ステップにより蓄積された復号信号とに基づいて、パケットロスした部分に対応する復号信号を補間するための隠蔽信号を生成する第一隠蔽信号生成ステップと、を備えることを特徴とする。
 本発明の一側面に係る隠蔽信号生成方法は、第二の態様として、音声符号を含む受信されたパケットにおけるパケットエラー又はパケットロスの検出結果、および音声符号が復号されて得られた復号信号を外部から受け取り、パケットロスした部分に対応する復号信号について、パケットロスの隠蔽を行う隠蔽信号生成装置、により実行される隠蔽信号生成方法であって、前記検出結果が正常とされたパケットに含まれていた音声符号から得られた復号信号を蓄積する復号信号蓄積ステップと、前記検出結果が正常の場合、音声符号から得られた復号信号のパワー変化とパワースペクトルの性質変化の両方又は一方の検出結果を表す信号識別情報を外部から受け取って蓄積し、前記検出結果が異常の場合、既に蓄積された信号識別情報を出力する信号識別ステップと、前記信号識別情報と、前記復号信号蓄積ステップにより蓄積された復号信号とに基づいて、パケットロスした部分に対応する復号信号を補間するための隠蔽信号を生成する第一隠蔽信号生成ステップと、を備えることを特徴とする。
 本発明の一側面に係る隠蔽信号生成プログラムは、第一の態様として、コンピュータを、音声符号を含む受信されたパケットにおけるパケットエラー又はパケットロスの検出結果が正常とされたパケットに含まれていた音声符号から復号により得られた復号信号を蓄積する復号信号蓄積部と、前記検出結果が異常の場合、蓄積されている復号信号のパワー変化とパワースペクトルの性質変化の両方又は一方を検出し、当該検出結果を表す信号識別情報を出力する信号識別部と、前記信号識別情報と、前記復号信号蓄積部により蓄積された復号信号とに基づいて、パケットロスした部分に対応する復号信号を補間するための隠蔽信号を生成する第一隠蔽信号生成部、として機能させるための隠蔽信号生成プログラムである。
 本発明の一側面に係る隠蔽信号生成プログラムは、第二の態様として、コンピュータを、音声符号を含む受信されたパケットにおけるパケットエラー又はパケットロスの検出結果が正常とされたパケットに含まれていた音声符号から復号により得られた復号信号を蓄積する復号信号蓄積部と、前記検出結果が正常の場合、音声符号から得られた復号信号のパワー変化とパワースペクトルの性質変化の両方又は一方の検出結果を表す信号識別情報を外部から受け取って蓄積し、前記検出結果が異常の場合、既に蓄積された信号識別情報を出力する信号識別部と、前記信号識別情報と、前記復号信号蓄積部により蓄積された復号信号とに基づいて、パケットロスした部分に対応する復号信号を補間するための隠蔽信号を生成する第一隠蔽信号生成部、として機能させるための隠蔽信号生成プログラムである。
 以上のように、隠蔽信号生成時の信号の繰り返し単位を、従来のMDCTやFFTを用いた周波数領域信号よりも短くできるため、隠蔽のために出力した信号に性質の異なる信号が混在することを防ぐことができ、パケットロス隠蔽信号の音質低下を防ぐことができる。
 上述した本発明の一側面によれば、パケットロス隠蔽のための隠蔽信号の音質低下を防ぐことができる。
発明の一実施形態におけるシステム環境を示す図である。 復号部の構成図である。 第1実施形態における信号識別部の構成図である。 第1実施形態における第一隠蔽信号生成部の動作を示すフローチャートである。 第2実施形態における信号識別部の構成図である。 第2実施形態における信号識別部の動作を示すフローチャートである。 第2実施形態における第一隠蔽信号生成部の動作を示すフローチャートである。 第3実施形態における信号識別部の構成図である。 第3実施形態における信号識別部の動作を示すフローチャートである。 第4実施形態における信号識別部の構成図である。 第4実施形態における第一隠蔽信号生成部の動作を示すフローチャートである。 第5実施形態における信号識別部の構成図である。 第5実施形態における補助情報の関係を示す図である。 コンピュータのハードウェア構成図である。 コンピュータの外観図である。 隠蔽信号生成プログラムの構成を示す図である。
 以下、図面を用いて、本発明に係るさまざまな実施形態を説明する。
 [第1実施形態]
 まず、図1を用いて、本発明が想定するシステム環境を説明する。図1に示すように、マイクなどのセンサを通じて得られた音声信号はディジタル形式で表現され、符号化部1に入力される。
 符号化部1は、決まったサンプル数の音声信号が、内蔵したバッファに所定量蓄積するたびにバッファ内のディジタル信号を符号化する。上記の所定量、即ち、蓄積するサンプル数をフレーム長といい、符号化対象となるディジタル信号の集合をフレームと呼ぶ。例えば、32kHzのサンプリング周波数で収音する際に20msのフレーム長とした場合には640サンプルのディジタル信号をバッファに蓄積するものとする。なお、バッファには先読み分のディジタル信号を余計に蓄積してもよい。符号化を行うタイミングとしては、フレーム長単位で符号化を行ってもよいし、フレーム間にある長さのオーバーラップを持たせて符号化を行ってもよい。符号化には、どのような符号化方式を用いてもよい。
 パケット構成部2は、符号化部1で得られた音声符号にRTPヘッダなどの通信に必要な情報を付加して、音声パケットを生成する。生成された音声パケットはネットワークを通じて受信側に送られる。
 パケット分離部3は、ネットワークを通じて受信した音声パケットをRTPヘッダと音声符号とに分離し、音声パケットのエラー状態を示すエラーフラグを音声符号に付加して得られたビットストリームを生成し、ビットストリームを復号部4へ出力する。
 復号部4は、図2に示すように、エラー/ロス検出部41、音声復号部42、および隠蔽信号生成部43を有する。復号部4は、エラー/ロス検出部41にてエラーフラグの状態を識別することで音声パケットにおける異常(パケットエラー又はパケットロス)を検出し、正常(異常なし)の場合には音声復号部42にて音声符号の復号を行って復号信号を出力する。一方、異常(パケットエラー又はパケットロス)を検出した場合には隠蔽信号生成部43にて隠蔽信号を生成し、隠蔽信号を復号信号として出力する。なお、復号部4からはフレーム毎に復号音声が出力される。この復号音声はオーディオのバッファ等に送られスピーカなどを通じて再生されるか、メモリやハードディスクなどの記録媒体に蓄積される。
 以下、復号部4の動作について説明する。エラー/ロス検出部41は、ビットストリームに含まれたエラーフラグの状態を識別することで、音声パケットにおける異常(パケットエラー又はパケットロス)を検出する。
 ここで、エラーフラグに音声パケット正常を示す値がセットされている場合、エラー/ロス検出部41は、エラーフラグを音声復号部42および隠蔽信号生成部43(具体的には後述する復号信号蓄積部431と信号識別部434)に送るとともに、音声符号を音声復号部42に送る。そして、音声復号部42は、音声符号を復号して復号信号を生成し、復号音声として出力する。このとき、音声復号部42は復号信号を隠蔽信号生成部43にも送る。
 一方、エラーフラグに音声パケット異常を示す値がセットされている場合、エラー/ロス検出部41は、エラーフラグを隠蔽信号生成部43(具体的には後述する復号信号蓄積部431と信号識別部434)に送る。隠蔽信号生成部43は、過去に正常に受け取った音声パケットに対応する復号信号から、隠蔽信号を生成する。隠蔽信号生成部43の動作の詳細は後述する。
 以上で述べた図1の全体構成および図2の復号部4のエラー/ロス検出部41と音声復号部42の動作は、後述する第2~第5実施形態でも同様であるため、第2~第5実施形態では重複した説明を省略する。
 以下、隠蔽信号生成部43の構成・動作について詳細に述べる。第1実施形態では、隠蔽信号生成部43において、時間領域の信号におけるパワーの急激な変化を信号識別情報として用いる例を示す。
 図2に示すように、隠蔽信号生成部43は、復号信号蓄積部431、信号識別部434、および第一隠蔽信号生成部433を備える。
 復号信号蓄積部431は、エラーフラグに音声パケット正常を示す値がセットされている場合に、音声復号部42から入力された復号信号を蓄積する。蓄積する復号信号のサンプル数は、過去数フレーム分(dフレーム分)とするのが望ましい(ここでは、x(0),…,x(dL)とする。なお、1フレームの長さをLとした)。
 信号識別部434は、図3に示す通り、復号信号蓄積部4340と、時間包絡算出部4341と、信号識別情報生成部4342とを備える。このうち復号信号蓄積部4340は、エラーフラグに音声パケット正常を示す値がセットされている場合、復号信号蓄積部431と同様の動作を行う。
 時間包絡算出部4341は、エラーフラグに音声パケット異常を示す値がセットされている場合、復号信号蓄積部4340から、蓄積された復号信号(以下「蓄積復号信号」という)を読み出し、蓄積復号信号毎のパワーに関する情報である時間包絡情報を算出する。なお、変形例として、復号信号蓄積部4340を設けずに、代わりに、復号信号蓄積部431から時間包絡算出部4341が蓄積復号信号を読み出す構成としてもよい。
 ここでの時間包絡情報の算出方法としては、複数の小区間それぞれについて振幅の最大値を用いて時間包絡情報を算出する方法や、分散を用いて時間包絡情報を算出する方法など様々な方法が考えられるが、例えば、以下の式に従って時間包絡情報を算出する。なお、ここでは、K個の小区間について時間包絡情報を算出するものとする。
Figure JPOXMLDOC01-appb-M000001
x(k)は、k番目のサンプルの値を表す。ここで、kl startはl番目の小区間の開始位置を示し、kl endはl番目の小区間の終了位置を示す。また、ここではkl start=kl-1 end+1としたが、小区間同士でオーバーラップを持たせるようにしてもよい。
 信号識別情報生成部4342は、パワーの急激な変化を検出し、結果に応じて信号識別情報を出力する。具体的には、パワーの分散値を算出し、当該分散値と閾値とを比較することでパワーの急激な変化を検出するなど、様々な方法を用いることができるが、本実施形態では、例えば以下のようにしてパワーの急激な変化を検出する。
ステップ1:Env(l)を平滑化したエンベロープPenv(l)を次式により算出する。ただし、αは0<α<1を満たす定数である。
Penv(l) = α・Penv(l-1) + (1-α)・Env(l)
ステップ2:Env(l)とPenv(l)とを用いて、Env(l)と(β・Penv(l))とを比較することでパワーの急激な変化を検出する。ただし、βは定数である。即ち、Env(l) > β・Penv(l) の時、サブサンプルlにおいてパワーが急激に変化すると判定する。
 以上に示した方法はパワーの変化に基づく信号変化検出の単純な例であり、他のもっと複雑な方法により信号変化検出を行ってもよい。上記処理の結果、パワーの急激な変化を検出した場合には、変化が開始するサブサンプルのインデックスlstartを信号識別情報として出力する。パワーが急激に変化する信号が検出されない場合は、バッファの最後から1フレーム分のサンプル数を減算した値をインデックスlstartとしてもよい。なお、バッファの先頭のインデックスやバッファの最後のインデックスをlstartとするなどの単純な方法を用いてもよいし、ピッチ周期を算出してバッファの最後からピッチ周期を減算した値をlstartとしてもよい。
 第一隠蔽信号生成部433は、信号識別情報および蓄積復号信号を用いて隠蔽信号を生成する。具体的には以下の手順で隠蔽信号を生成する。第一隠蔽信号生成部433の動作を図4に示す。
 図4のステップS11で第一隠蔽信号生成部433は、信号識別情報を参照しインデックスlstartを求め、また、バッファに格納された蓄積復号信号の最後のサブサンプルのインデックスをlendとする。ここで、lend-lstartの値を変数L’にセットする。
 ステップS12で第一隠蔽信号生成部433は、復号信号蓄積部431から蓄積復号信号をコピーする。コピーする際には、lstartからlendまでのサンプルを1フレームに含まれるサンプル数Nを満たすまで繰り返しコピーする。例えば、まず変数iを0にリセットし(ステップS121)、以下の式に従い、パケットロス部分に対応する隠蔽信号v(i)として、復号信号蓄積部431に蓄積された蓄積復号信号をコピーする(ステップS122)。
v(i)=b(lstart+i%L’)
ここで、b(i)は復号信号蓄積部431に蓄積された蓄積復号信号を意味し、(i%L’)はiをL’で割った余りを表す。
 そして、変数iがサンプル数N未満であれば(ステップS124でYES)、変数iを1つカウントアップし(ステップS123)、カウントアップした変数iについてステップS122の処理を行う。その後、変数iがサンプル数Nに等しくなる(ステップS124でNOとなる)まで、ステップS122およびS123を繰り返す。これにより、lstartからlendまでのサンプルを1フレームに含まれるサンプル数Nを満たすまでコピーすることができる。
 次に、ステップS13で第一隠蔽信号生成部433は、コピーした蓄積復号信号をサブサンプル毎に平均二乗振幅を算出して正規化した上で、パケットロス直前のサブサンプルの平均二乗振幅に減衰係数のべき乗を乗算することで隠蔽信号を生成する。例えば、まず変数iを0にリセットし(ステップS131)、パケットロス部分に対応する隠蔽信号vを、以下の式に従い生成する(ステップS132)。
v(iL’+k) = v(iL’+k)/10(Env(i)/2)・10(Env(K-1)/2)・γi
ここでEnv(i)はi番目の小区間の時間包絡(Kは小区間の数)、v(i)はパケットロス部分に対応する隠蔽信号、γは減衰定数をそれぞれ表す。
 そして、変数iがサンプル数N未満であれば(ステップS134でYES)、変数iを1つカウントアップし(ステップS133)、カウントアップした変数iについてステップS132の処理を行う。その後、変数iがサンプル数Nに等しくなる(ステップS134でNOとなる)まで、ステップS132およびS133を繰り返す。これにより、隠蔽信号が生成される。
 そして、ステップS14で第一隠蔽信号生成部433は、生成した隠蔽信号を出力する。
 なお、上記で述べた以外にも、予測により隠蔽信号を生成してもよい。具体的には、以下のような方法を用いてもよい。
ステップ1:信号識別情報を参照し、インデックスlstartを求める。またバッファに格納された蓄積復号信号の最後のサブサンプルのインデックスをlendとする。
ステップ2:復号信号蓄積部431における蓄積復号信号を、lstartからlendまでコピーし、線形予測分析する。
ステップ3:ステップ2で得られる残差信号を1フレームに含まれるサンプル数Nを満たすまで繰り返す。
ステップ4:ステップ2で得られた線形予測係数で、ステップ3で得られた信号を逆フィルタリングした上で、予め定めた減衰係数をサンプルごとに乗算する。これにより得られた信号を隠蔽信号とする。
 以上のように第1実施形態では、隠蔽信号生成部43において、時間領域の信号におけるパワーの急激な変化を用いて信号識別情報を生成し出力することができる。
 [第2実施形態]
 第1実施形態では、パワーの急激な変化を用いて信号識別情報の出力を行ったが、第2実施形態では、パワースペクトルの急激な変化を用いて信号識別情報を生成する例について述べる。
 なお、本実施形態では復号信号として時間領域の信号を仮定しているが、復号信号が周波数領域の信号(例えばQMF係数など)として得られる場合には、周波数領域における表現のまま復号信号蓄積部に復号信号を蓄積し、時間周波数変換部を省略する構成としてもよい。
 以下、隠蔽信号生成部43の動作について説明する。
 図2に示す復号信号蓄積部431の動作は、第1実施形態と同様である。
 信号識別部434は、図5に示すように復号信号蓄積部4340と、時間周波数変換部4343と、変換利得算出部4344と、信号識別情報生成部4342とを備える。このうち復号信号蓄積部4340の動作は、第1実施形態と同様である。
 エラーフラグに音声パケット異常を示す値がセットされている場合に動作する時間周波数変換部4343、変換利得算出部4344、信号識別情報生成部4342について、図6を用いて以下に説明する。
 時間周波数変換部4343は、復号信号蓄積部4340から蓄積復号信号を読み出して、周波数領域に変換した蓄積周波数信号を出力する(図6のステップS21)。変換には、FFT(Fast Fourier Transform)を用いてもよいし、MDCT(Modified Discrete Transform)を用いてもよいし、QMFを用いても良い。また、変形例として、復号信号蓄積部4340を設けずに、復号信号蓄積部431から蓄積復号信号を読み出す構成としてもよい。
 本実施形態では、例えばQMFを用いて時間周波数変換を行う例を示す。ここで、蓄積復号信号をx(n)とする。
Figure JPOXMLDOC01-appb-M000002
ここで、例えばV(k,l)のサブサンプルl0と言う場合には、
Figure JPOXMLDOC01-appb-M000003
なる周波数ビンの集合を現すものとする。Eは時間方向のサブサンプル数を表し、Kは周波数ビンの数を表す。kは周波数ビンのインデックスであり(0≦k≦K-1)、lはサブサンプルのインデックス(0≦l≦L-1)である。また、pA(n)は分析に用いる窓関数を表す。
 変換利得算出部4344は、時間周波数変換した蓄積復号信号について、(相加平均/相乗平均)の値(以後、この値を「U(l)」と称し、「相加平均/相乗平均U(l)」と表記する)を算出する(図6のステップS22)。
Figure JPOXMLDOC01-appb-M000004
なお、本実施例では全周波数ビンを用いてU(l)を算出したが、一部の周波数ビンのみを用いて相加平均/相乗平均U(l)を算出してもよい。
 信号識別情報生成部4342は、相加平均/相乗平均U(l)がある閾値Thを越えるサブサンプルlを信号識別情報lstartとして検出する(図6のステップS23)。例えば、まずサブサンプルのインデックスlを0にリセットし(ステップS231)、相加平均/相乗平均U(l)が閾値Thを越えるか否かを判断する(ステップS232)。相加平均/相乗平均U(l)が閾値Thを越えなければ、ステップS235へ進み、相加平均/相乗平均U(l)が閾値Thを越えるならば、そのときのインデックスlを信号識別情報lstartに設定して(ステップS233)、ステップS235へ進む。
 そして、ステップS235でインデックスlがL未満であれば(ステップS235でYES)、インデックスlを1つカウントアップし(ステップS234)、カウントアップしたインデックスlについてステップS232およびS233の処理を行う。その後、インデックスlがLに等しくなる(ステップS235でNOとなる)まで、ステップS232~S234を繰り返す。これにより、相加平均/相乗平均U(l)がある閾値Thを越えるサブサンプルlを信号識別情報lstartとして検出することができる。
 そして、信号識別情報生成部4342は、ステップS23で得られた信号識別情報lstartを出力する(図6のステップS24)。
 第一隠蔽信号生成部433は、信号識別情報および蓄積復号信号を用いて隠蔽信号を生成する。具体的には以下の手順で隠蔽信号を生成する。第一隠蔽信号生成部433の動作を図7に示す。
 図7のステップS25で第一隠蔽信号生成部433は、信号識別情報を参照しインデックスlstartを求め、また、バッファに格納された蓄積復号信号の最後のサブサンプルのインデックスをlendとする。ここで、lend-lstartの値を変数L’にセットする。
 ステップS26で第一隠蔽信号生成部433は、復号信号蓄積部431から蓄積復号信号をコピーする。コピーする際には、lstartからlendまでのサンプルを1フレームに含まれるサンプル数Nを満たすまでコピーする。例えば、まず変数iを0にリセットし(ステップS261)、以下の式に従い、パケットロス部分に対応する隠蔽信号V(k,i)として、復号信号蓄積部431に蓄積された蓄積復号信号をコピーする(ステップS262)。
V(k,i)=B(k,lstart+i%L’)
ここで、B(k,i)は復号信号蓄積部431に蓄積された蓄積復号信号を時間周波数変換した信号、V(k,i)はパケットロス部分に対応する隠蔽信号、(i%L’)はiをL’で割った余りをそれぞれ表す。
 そして、変数iがサンプル数N未満であれば(ステップS264でYES)、変数iを1つカウントアップし(ステップS263)、カウントアップした変数iについてステップS262の処理を行う。その後、変数iがサンプル数Nに等しくなる(ステップS264でNOとなる)まで、ステップS262およびS263を繰り返す。これにより、lstartからlendまでのサンプルを1フレームに含まれるサンプル数Nを満たすまでコピーすることができる。
 ステップS27で第一隠蔽信号生成部433は、サブサンプルのパワーEnv(l)を算出する。
Figure JPOXMLDOC01-appb-M000005
 ステップS28で第一隠蔽信号生成部433は、コピーした蓄積復号信号をサブサンプル毎に平均二乗振幅を算出して正規化した上で、パケットロス直前のサブサンプルの平均二乗振幅に減衰係数のべき乗を乗算することで隠蔽信号を生成する。例えば、まず変数iを0にリセットし(ステップS281)、パケットロス部分に対応する隠蔽信号Vを、以下の式に従い生成する(ステップS282)。
V(k,i) = V(k,i)/10(Env(i)/2)・10(Env(L-1)/2)・γi
ここでEnv(i)はi番目の小区間の時間包絡(Kは小区間の数)、V(k,i)はパケットロス部分に対応する隠蔽信号、γは減衰定数をそれぞれ表す。
 そして、変数iがサンプル数N未満であれば(ステップS284でYES)、変数iを1つカウントアップし(ステップS283)、カウントアップした変数iについてステップS282の処理を行う。その後、変数iがサンプル数Nに等しくなる(ステップS284でNOとなる)まで、ステップS282およびS283を繰り返す。これにより、隠蔽信号が生成される。
 そして、ステップS29で第一隠蔽信号生成部433は、パケットロス部分に対応する隠蔽信号V(k,i)を合成QMFにより逆変換して時間領域の隠蔽信号y(kL+i)を生成し出力する。
Figure JPOXMLDOC01-appb-M000006
ここで、i(0≦i<L)は時間領域の信号のインデックスであり、k(0≦k<K-1)はサブフレームのインデックスである。
 以上のように第2実施形態では、パワースペクトルの急激な変化を用いて信号識別情報を生成し出力することができる。
 [第3実施形態]
 第1実施形態ではパワーの急激な変化を用いて信号識別情報を算出し、第2実施形態ではパワースペクトルの急激な変化を用いて信号識別情報を算出したが、第3実施形態では、それらの両方を用いて信号識別情報を算出する例について述べる。
 なお、本実施形態では復号信号として時間領域の信号を仮定しているが、復号信号が周波数領域の信号(例えばQMF係数など)として得られる場合には、周波数領域における表現のまま復号信号蓄積部に復号信号を蓄積し、時間周波数変換部を省略する構成としてもよい。
 以下、隠蔽信号生成部43の動作について説明する。
 図2に示す復号信号蓄積部431の動作は、第1実施形態と同様である。
 信号識別部434は、図8に示すように復号信号蓄積部4340と、時間包絡算出部4341と、時間周波数変換部4343と、変換利得算出部4344と、信号識別情報生成部4342とを備える。このうち復号信号蓄積部4340は、エラーフラグに音声パケット異常を示す値がセットされている場合、復号信号蓄積部431と同様の動作をする。
 以下、エラーフラグに音声パケット異常を示す値がセットされている場合に動作する時間周波数変換部4343、時間包絡算出部4341と、変換利得算出部4344、信号識別情報生成部4342について、図9を用いて以下に説明する。
 時間周波数変換部4343は、復号信号蓄積部4340から蓄積復号信号を読み出して、周波数領域に変換した蓄積周波数信号を出力する(図9のステップS31)。変形例として、復号信号蓄積部4340を設ける代わりに、復号信号蓄積部431から蓄積復号信号を読み出す構成としてもよい。ここでは、蓄積復号信号をx(n)とした。
Figure JPOXMLDOC01-appb-M000007
ここで、例えばV(k,l)のサブサンプルl0と言う場合には、
Figure JPOXMLDOC01-appb-M000008
なる周波数ビンの集合を現すものとする。Eは時間方向のサブサンプル数を表し、Kは周波数ビンの数を表す。kは周波数ビンのインデックスであり(0≦k≦K-1)、lはサブサンプルのインデックス(0≦l≦L-1)である。また、pA(n)は分析に用いる窓関数を表す。
 時間包絡算出部4341は、時間包絡を例えば次式に従い算出する(図9のステップS32)。
Figure JPOXMLDOC01-appb-M000009
 変換利得算出部4344は、蓄積周波数信号について、相加平均/相乗平均U(l)を算出する(図9のステップS33)。
Figure JPOXMLDOC01-appb-M000010
なお、本実施例では全周波数ビンを用いてU(l)を算出したが、一部の周波数ビンのみを用いて相加平均/相乗平均U(l)を算出してもよい。
 信号識別情報生成部4342は、相加平均/相乗平均U(I)がある閾値Thを越えるサブサンプルlを信号識別情報lstartとして検出した上で、Env(l)と(β・Penv(l))とを比較することでパワーの急激な変化を検出し、必要に応じてlstartの更新を行うことで、信号識別情報lstartを生成する(図9のステップS34)。ただし、βは定数である。Env(l) > β・Penv(l) の時、サブサンプルlにおいてパワーが急激に変化すると判定してlstartを算出してもよい。なお、変換利得と時間包絡とに重み付けを行い、これら変換利得と時間包絡とを組み合わせて信号識別情報を生成してもよい。
 具体的にステップS34において、信号識別情報生成部4342は、図9に示すように、まずサブサンプルのインデックスlを0にリセットし(ステップS341)、相加平均/相乗平均U(l)が閾値Thを越えるか否かを判断する(ステップS342)。相加平均/相乗平均U(l)が閾値Thを越えなければ、ステップS345へ進み、相加平均/相乗平均U(l)が閾値Thを越えるならば、そのときのインデックスlを信号識別情報lstartに設定して(ステップS343)、ステップS345へ進む。
 そして、ステップS345でインデックスlがL未満であれば(ステップS345でYES)、インデックスlを1つカウントアップし(ステップS344)、カウントアップしたインデックスlについてステップS342およびS343の処理を行う。その後、インデックスlがLに等しくなる(ステップS345でNOとなる)まで、ステップS342~S344を繰り返す。これにより、相加平均/相乗平均U(l)がある閾値Thを越えるサブサンプルlを信号識別情報lstartとして検出することができる。
 次に、インデックスlを0にリセットして(ステップS346)、Env(l)と(β・Penv(l))とを比較し(ステップS347)、Env(l)が(β・Penv(l))を越えなければ、ステップS34Aへ進み、Env(l)が(β・Penv(l))を越えるならば、そのときのインデックスlを信号識別情報lstartに設定して(ステップS348)、ステップS34Aへ進む。
 そして、ステップS34AでインデックスlがL未満であれば(ステップS34AでYES)、インデックスlを1つカウントアップし(ステップS349)、カウントアップしたインデックスlについてステップS347およびS348の処理を行う。その後、インデックスlがLに等しくなる(ステップS34AでNOとなる)まで、ステップS347~S349を繰り返す。これにより、パワーが急激に変化するサブサンプルlを信号識別情報lstartとして検出することができる。
 そして、信号識別情報生成部4342は、ステップS34で得られた信号識別情報lstartを出力する(図9のステップS35)。
 なお、第3実施形態における第一隠蔽信号生成部433は、第2実施形態と同様の動作を行う。
 以上のように第3実施形態では、パワーの急激な変化とパワースペクトルの急激な変化の両方を用いて信号識別情報を生成し出力することができる。
 [第4実施形態]
 第4実施形態では、第1~第3実施形態とは異なり、信号識別情報を外部から取得する場合の処理例について説明する。なお、信号識別情報の入力方法としては、例えば復号の過程で補助的に得られるパラメータを用いるといった方法がある。
 以下、TS26.401(enhanced aacPlus)を符号化方法として用いた場合に、復号時に得られるパラメータを信号識別情報としてパケットロス隠蔽を行う例について述べる。
 TS26.401はSBR(Spectral Band Replication)により、高域信号を少ないビット量で符号化する。SBRによる復号では、SBRの符号化側から送られてくる補助情報と、低域の復号信号を用いて高域信号を生成する。補助情報には、フレーム内の時間境界の情報が含まれる。具体的には、TS26.404の3.2節にて定義されるtEなるパラメータである。フレーム内の時間境界は、パワーが急激に大きくなる部分や、パワースペクトルの性質が変化する際にSBR符号化部において挿入される。
 本実施形態では、図2の隠蔽信号生成部43において、上記フレーム内の時間境界tEを用いて隠蔽信号の生成を行う場合について述べる。なお、復号信号蓄積部431の動作は第1実施形態と同様である。
 信号識別部434は、図10に示すように、信号識別情報蓄積部4345を備える。信号識別情報蓄積部4345は、エラーフラグに音声パケット正常を示す値がセットされている場合、音声復号部42から入力される信号識別情報を蓄積する。信号識別情報は、上記述べたフレーム内の時間境界tEである。エラーフラグに音声パケット異常(例えばパケットエラー又はパケットロス)を示す値がセットされている場合、蓄積された信号識別情報(以下「蓄積信号識別情報」という)が信号識別情報蓄積部4345から第一隠蔽信号生成部433へ出力される。
 第一隠蔽信号生成部433は、蓄積信号識別情報および蓄積復号信号を用いて、以下の手順で隠蔽信号を生成する。第一隠蔽信号生成部433の動作を図11に示す。
 図11のステップS41で第一隠蔽信号生成部433は、蓄積信号識別情報を参照し、インデックスlstartおよびインデックスlendを以下の式に従い求める。ここで、tEは信号識別情報蓄積部に蓄積した信号識別情報のうち最も最近受信したパケットに含まれていたものを表す。L’はフレーム内の時間境界で区切られた区間の数である。
Figure JPOXMLDOC01-appb-M000011
 ステップS42で第一隠蔽信号生成部433は、復号信号蓄積部431から蓄積復号信号をコピーする。コピーする際には、lstartからlendまでのサブサンプルを1フレームに含まれるサブサンプル数を満たすまでコピーする。例えば、まず変数iを0にリセットし(ステップS421)、以下の式に従い、パケットロス部分に対応する隠蔽信号V(k,i)として、復号信号蓄積部431に蓄積された蓄積復号信号をコピーする(ステップS422)。
V(k,i)=B(k,lstart+i%L’)
ここで、B(k,i)は復号信号蓄積部431に蓄積された蓄積復号信号を時間周波数変換した信号、V(k,i)はパケットロス部分に対応する隠蔽信号、(i%L’)はiをL’で割った余りをそれぞれ表す。
 そして、変数iがサンプル数N未満であれば(ステップS424でYES)、変数iを1つカウントアップし(ステップS423)、カウントアップした変数iについてステップS422の処理を行う。その後、変数iがサンプル数Nに等しくなる(ステップS424でNOとなる)まで、ステップS422およびS423を繰り返す。これにより、lstartからlendまでのサブサンプルを1フレームに含まれるサブサンプル数を満たすまでコピーすることができる。
 ステップS43で第一隠蔽信号生成部433は、サブサンプルのパワーEnv(l)を算出する。
Figure JPOXMLDOC01-appb-M000012
 ステップS44で第一隠蔽信号生成部433は、コピーした蓄積復号信号をサブサンプル毎に平均二乗振幅を算出して正規化した上で、パケットロス直前のサブサンプルの平均二乗振幅に減衰係数のべき乗を乗算することで隠蔽信号を生成する。例えば、まず変数iを0にリセットし(ステップS441)、パケットロス部分に対応する隠蔽信号Vを、以下の式に従い生成する(ステップS442)。
V(k,i) = V(k,i)/10(Env(i)/2)・10(Env(L-1)/2)・γi
ここでEnv(i)はi番目の小区間の時間包絡(Kは小区間の数)、V(k,i)はパケットロス部分に対応する隠蔽信号、γは減衰定数をそれぞれ表す。
 そして、変数iがサンプル数N未満であれば(ステップS444でYES)、変数iを1つカウントアップし(ステップS443)、カウントアップした変数iについてステップS442の処理を行う。その後、変数iがサンプル数Nに等しくなる(ステップS444でNOとなる)まで、ステップS442およびS443を繰り返す。これにより、隠蔽信号が生成される。
 そして、ステップS45で第一隠蔽信号生成部433は、パケットロス部分に対応する隠蔽信号V(k,i)を合成QMFにより逆変換して時間領域の隠蔽信号y(kL+i)を生成し出力する。
Figure JPOXMLDOC01-appb-M000013
ここで、i(0≦i<L)は時間領域の信号のインデックスであり、k(0≦k<K-1)はサブフレームのインデックスである。
 以上のように第4実施形態では、信号識別情報を外部から取得する場合にも、隠蔽信号を生成し出力することができる。
 [第5実施形態]
 第5実施形態では、第4実施形態とは異なり、復号の過程で補助的に得られるパラメータから信号識別情報を算出する例を説明する。
 本実施形態では、例えば符号化にAACを用いた場合のスケールファクタや、その他の符号化方式における復号信号の時間周波数領域表現などを用いることができる。例えば以下に述べる例におけるV(k,l)にそれらパラメータを代入することにより、以下の例を利用することができる。それら時間周波数領域表現から算出可能なパラメータを用いて同様の処理を行ってもよい。
 本実施形態では、以下、TS26.401(enhanced aacPlus)を符号化方法として用いた場合に、復号時に得られるパラメータから信号識別情報を算出し、パケットロス隠蔽を行う例について述べる。
 本実施形態では、TS26.404の補助情報に含まれる、パワースペクトル包絡の情報から信号識別情報を算出する。上記TS26.404の補助情報とは、具体的には、TS26.404の3.2節にて定義されるEorigなるパワースペクトル包絡のパワーを表すパラメータと、fTableHighなるパワースペクトル包絡の帯域境界を表すパラメータである。図13にこれらパラメータの関係の例を示す。なお、上記パラメータは復号の過程で算出される。
 そこで、本実施形態では、上記を用いて隠蔽信号の生成を行う場合について述べる。なお、図2の隠蔽信号生成部43において復号信号蓄積部431の動作は第1実施形態と同様である。
 信号識別部434は、図12に示すように、補助情報蓄積部4346と、パワースペクトル包絡算出部4347と、時間包絡算出部4341と、変換利得算出部4344と、信号識別情報生成部4342とを備える。
 このうち補助情報蓄積部4346は、エラーフラグに音声パケット正常を示す値がセットされている場合、音声復号部42から入力されるEorigなるパワースペクトル包絡のパワーおよびfTableHighなるパワースペクトル包絡の帯域境界を蓄積する。
 パワースペクトル包絡算出部4347は、エラーフラグに音声パケット異常を示す値がセットされている場合、補助情報蓄積部4346から上記パワースペクトル包絡のパワーおよびパワースペクトル包絡の帯域境界を読み出し、以下のとおり信号識別情報を算出する。即ち、EorigとfTableHighからパワースペクトル包絡V(k,l)を以下の通り算出する。
Figure JPOXMLDOC01-appb-M000014
ここで、全周波数帯域をnhigh個の帯域に分割したとする。
 なお、時間包絡算出部4341、変換利得算出部4344、および信号識別情報生成部4342の動作は、第3実施形態と同様である。また、第一隠蔽信号生成部433の動作も、第3実施形態と同様である。
 以上、復号の過程において得られるEorigなるパワースペクトル包絡のパワーおよびfTableHighなるパワースペクトル包絡の帯域境界を用いて信号識別情報を算出する例について述べたが、他にも復号の過程で得られるパラメータを用いて信号識別情報を算出し、得られた信号識別情報に基づき隠蔽信号を生成する任意の手法を用いてもよい。
 以上のように第5実施形態では、復号の過程で補助的に得られるパラメータから信号識別情報を算出し、当該信号識別情報に基づいて隠蔽信号を生成し出力することができる。
 [隠蔽信号生成プログラムについて]
 まず、コンピュータを、本発明に係る隠蔽信号生成装置として動作させる隠蔽信号生成プログラムについて説明する。
 図16は、一実施形態に係る隠蔽信号生成プログラムの構成を示す図である。図14は、一実施形態に係るコンピュータのハードウェア構成図である。図15は、一実施形態に係るコンピュータの外観図である。図16に示す隠蔽信号生成プログラムP43は、図14および図15に示すコンピュータC10を隠蔽信号生成部43として動作させることができる。なお、本明細書に説明するプログラムは、図14および図15に示すようなコンピュータに限定されず、携帯電話、携帯情報端末、携帯型パーソナルコンピュータといった任意の情報処理装置を、当該プログラムに従って動作させることができる。
 隠蔽信号生成プログラムP43は、記録媒体Mに格納されて提供され得る。なお、記録媒体Mとしては、フレキシブルディスク、CD-ROM、DVD、あるいはROM等の記録媒体、あるいは半導体メモリ等が例示される。
 図14に示すように、コンピュータC10は、フレキシブルディスクドライブ装置、CD-ROMドライブ装置、DVDドライブ装置等の読み取り装置C12と、作業用メモリ(RAM)C14と、記録媒体Mに記憶されたプログラムを記憶するメモリC16と、ディスプレイC18と、入力装置であるマウスC20及びキーボードC22と、データ等の送受信を行うための通信装置C24と、プログラムの実行を制御する中央演算部(CPU)C26とを備える。
 コンピュータC10は、記録媒体Mが読み取り装置C12に挿入されると、記録媒体Mに格納された隠蔽信号生成プログラムP43に読み取り装置C12からアクセス可能になり、隠蔽信号生成プログラムP43によって、本発明に係る隠蔽信号生成装置として動作することが可能になる。
 図15に示すように、隠蔽信号生成プログラムP43は、搬送波に重畳されたコンピュータデータ信号Wとしてネットワークを介して提供されるものであってもよい。この場合、コンピュータC10は、通信装置C24によって受信した隠蔽信号生成プログラムP43をメモリC16に格納し、隠蔽信号生成プログラムP43を実行することができる。
 図16に示すように、隠蔽信号生成プログラムP43は、復号信号蓄積モジュールP431、信号識別モジュールP434、および第一隠蔽信号生成モジュールP433を備えている。これらの復号信号蓄積モジュールP431、信号識別モジュールP434、および第一隠蔽信号生成モジュールP433は、前述した復号信号蓄積部431、信号識別部434、および第一隠蔽信号生成部433とそれぞれ同様の機能をコンピュータC10に実行させる。かかる隠蔽信号生成プログラムP43によれば、コンピュータC10は、本発明に係る隠蔽信号生成装置として動作することが可能となる。
 以上説明したさまざまな実施形態によって、隠蔽信号生成を目的としてバッファ内の信号から繰り返しの単位となる波形を求める際、パワーの時間変化やパワースペクトルの時間変化を用いる。さらに、QMF(Quadrature Mirror Filter)を用いた時間周波数変換により得られた周波数領域信号を用いて隠蔽信号の生成を行う。これらの場合、隠蔽信号生成時の信号の繰り返し単位を、従来のMDCTやFFTを用いた周波数領域信号よりも短くできるため、隠蔽のために出力した信号に性質の異なる信号が混在することを防ぐことができ、パケットロス隠蔽信号の音質低下を防ぐことができる。
 1…符号化部、2…パケット構成部、3…パケット分離部、4…復号部、41…エラー/ロス検出部、42…音声復号部、43…隠蔽信号生成部、431…復号信号蓄積部、433…第一隠蔽信号生成部、434…信号識別部、4340…復号信号蓄積部、4341…時間包絡算出部、4342…信号識別情報生成部、4343…時間周波数変換部、4344…変換利得算出部、4345…信号識別情報蓄積部、4346…補助情報蓄積部、4347…パワースペクトル包絡算出部、C10…コンピュータ、C12…読み取り装置、C14…作業用メモリ、C16…メモリ、C18…ディスプレイ、C20…マウス、C22…キーボード、C24…通信装置、C26…CPU、M…記録媒体、W…コンピュータデータ信号、P43…音声符号化プログラム、P431…復号信号蓄積モジュール、P433…第一隠蔽信号生成モジュール、P434…信号識別モジュール。

Claims (10)

  1.  音声符号を含む受信されたパケットにおけるパケットエラー又はパケットロスの検出結果、および音声符号が復号されて得られた復号信号を外部から受け取り、パケットロスした部分に対応する復号信号について、パケットロスの隠蔽を行う隠蔽信号生成装置であって、
     前記検出結果が正常とされたパケットに含まれていた音声符号から得られた復号信号を蓄積する復号信号蓄積部と、
     前記検出結果が異常の場合、蓄積されている復号信号のパワー変化とパワースペクトルの性質変化の両方又は一方を検出し、当該検出結果を表す信号識別情報を出力する信号識別部と、
     前記信号識別情報と、前記復号信号蓄積部により蓄積された復号信号とに基づいて、パケットロスした部分に対応する復号信号を補間するための隠蔽信号を生成する第一隠蔽信号生成部と、
     を備える隠蔽信号生成装置。
  2.  前記信号識別部は、パワーが急激に変化する時点とパワースペクトルが急激に変化する時点の両方又は一方を検出することを特徴とする請求項1に記載の隠蔽信号生成装置。
  3.  前記信号識別部は、変化の開始に関する情報と変化の終了に関する情報の両方又は一方を、信号識別情報として出力することを特徴とする請求項2に記載の隠蔽信号生成装置。
  4.  音声符号を含む受信されたパケットにおけるパケットエラー又はパケットロスの検出結果、および音声符号が復号されて得られた復号信号を外部から受け取り、パケットロスした部分に対応する復号信号について、パケットロスの隠蔽を行う隠蔽信号生成装置であって、
     前記検出結果が正常とされたパケットに含まれていた音声符号から得られた復号信号を蓄積する復号信号蓄積部と、
     前記検出結果が正常の場合、音声符号から得られた復号信号のパワー変化とパワースペクトルの性質変化の両方又は一方の検出結果を表す信号識別情報を外部から受け取って蓄積し、前記検出結果が異常の場合、既に蓄積された信号識別情報を出力する信号識別部と、
     前記信号識別情報と、前記復号信号蓄積部により蓄積された復号信号とに基づいて、パケットロスした部分に対応する復号信号を補間するための隠蔽信号を生成する第一隠蔽信号生成部と、
     を備える隠蔽信号生成装置。
  5.  前記第一隠蔽信号生成部は、前記復号信号蓄積部において前記信号識別情報を用いて指定される範囲の復号信号を繰り返して得られる信号を、隠蔽信号として生成することを特徴とする請求項1~4の何れか一項に記載の隠蔽信号生成装置。
  6.  前記第一隠蔽信号生成部は、前記復号信号蓄積部において前記信号識別情報を用いて指定される範囲の復号信号を繰り返した上でパワーを調整することで得られる信号を、隠蔽信号として生成することを特徴とする請求項1~4の何れか一項に記載の隠蔽信号生成装置。
  7.  音声符号を含む受信されたパケットにおけるパケットエラー又はパケットロスの検出結果、および音声符号が復号されて得られた復号信号を外部から受け取り、パケットロスした部分に対応する復号信号について、パケットロスの隠蔽を行う隠蔽信号生成装置、により実行される隠蔽信号生成方法であって、
     前記検出結果が正常とされたパケットに含まれていた音声符号から得られた復号信号を蓄積する復号信号蓄積ステップと、
     前記検出結果が異常の場合、蓄積されている復号信号のパワー変化とパワースペクトルの性質変化の両方又は一方を検出し、当該検出結果を表す信号識別情報を出力する信号識別ステップと、
     前記信号識別情報と、前記復号信号蓄積ステップにより蓄積された復号信号とに基づいて、パケットロスした部分に対応する復号信号を補間するための隠蔽信号を生成する第一隠蔽信号生成ステップと、
     を備える隠蔽信号生成方法。
  8.  音声符号を含む受信されたパケットにおけるパケットエラー又はパケットロスの検出結果、および音声符号が復号されて得られた復号信号を外部から受け取り、パケットロスした部分に対応する復号信号について、パケットロスの隠蔽を行う隠蔽信号生成装置、により実行される隠蔽信号生成方法であって、
     前記検出結果が正常とされたパケットに含まれていた音声符号から得られた復号信号を蓄積する復号信号蓄積ステップと、
     前記検出結果が正常の場合、音声符号から得られた復号信号のパワー変化とパワースペクトルの性質変化の両方又は一方の検出結果を表す信号識別情報を外部から受け取って蓄積し、前記検出結果が異常の場合、既に蓄積された信号識別情報を出力する信号識別ステップと、
     前記信号識別情報と、前記復号信号蓄積ステップにより蓄積された復号信号とに基づいて、パケットロスした部分に対応する復号信号を補間するための隠蔽信号を生成する第一隠蔽信号生成ステップと、
     を備える隠蔽信号生成方法。
  9.  コンピュータを、
     音声符号を含む受信されたパケットにおけるパケットエラー又はパケットロスの検出結果が正常とされたパケットに含まれていた音声符号から復号により得られた復号信号を蓄積する復号信号蓄積部と、
     前記検出結果が異常の場合、蓄積されている復号信号のパワー変化とパワースペクトルの性質変化の両方又は一方を検出し、当該検出結果を表す信号識別情報を出力する信号識別部と、
     前記信号識別情報と、前記復号信号蓄積部により蓄積された復号信号とに基づいて、パケットロスした部分に対応する復号信号を補間するための隠蔽信号を生成する第一隠蔽信号生成部、
     として機能させるための隠蔽信号生成プログラム。
  10.  コンピュータを、
     音声符号を含む受信されたパケットにおけるパケットエラー又はパケットロスの検出結果が正常とされたパケットに含まれていた音声符号から復号により得られた復号信号を蓄積する復号信号蓄積部と、
     前記検出結果が正常の場合、音声符号から得られた復号信号のパワー変化とパワースペクトルの性質変化の両方又は一方の検出結果を表す信号識別情報を外部から受け取って蓄積し、前記検出結果が異常の場合、既に蓄積された信号識別情報を出力する信号識別部と、
     前記信号識別情報と、前記復号信号蓄積部により蓄積された復号信号とに基づいて、パケットロスした部分に対応する復号信号を補間するための隠蔽信号を生成する第一隠蔽信号生成部、
     として機能させるための隠蔽信号生成プログラム。
PCT/JP2011/074046 2010-11-26 2011-10-19 隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム WO2012070340A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010-264094 2010-11-26
JP2010264094A JP5694745B2 (ja) 2010-11-26 2010-11-26 隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム

Publications (1)

Publication Number Publication Date
WO2012070340A1 true WO2012070340A1 (ja) 2012-05-31

Family

ID=46145697

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/074046 WO2012070340A1 (ja) 2010-11-26 2011-10-19 隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム

Country Status (3)

Country Link
JP (1) JP5694745B2 (ja)
TW (1) TW201234352A (ja)
WO (1) WO2012070340A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104347076A (zh) * 2013-08-09 2015-02-11 中国电信股份有限公司 网络音频丢包掩蔽方法和装置
CN109313905A (zh) * 2016-03-07 2019-02-05 弗劳恩霍夫应用研究促进协会 对不同的频带根据不同的阻尼因子淡出隐藏的音频帧的错误隐藏单元、音频解码器及相关方法和计算机程序
CN113763974A (zh) * 2021-08-31 2021-12-07 易兆微电子(杭州)股份有限公司 一种丢包补偿方法、装置、电子设备及存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101452635B1 (ko) 2013-06-03 2014-10-22 충북대학교 산학협력단 Lms 예측기를 이용한 패킷 손실 은닉 방법 및 이를 기록한 기록매체
JP5981408B2 (ja) 2013-10-29 2016-08-31 株式会社Nttドコモ 音声信号処理装置、音声信号処理方法、及び音声信号処理プログラム
SG11202110071XA (en) * 2019-03-25 2021-10-28 Razer Asia Pacific Pte Ltd Method and apparatus for using incremental search sequence in audio error concealment

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001228896A (ja) * 2000-02-14 2001-08-24 Iwatsu Electric Co Ltd 欠落音声パケットの代替置換方式
WO2004068098A1 (ja) * 2003-01-30 2004-08-12 Fujitsu Limited 音声パケット消失隠蔽装置,音声パケット消失隠蔽方法,受信端末および音声通信システム
WO2006009074A1 (ja) * 2004-07-20 2006-01-26 Matsushita Electric Industrial Co., Ltd. 音声復号化装置および補償フレーム生成方法
JP2006276877A (ja) * 2006-05-22 2006-10-12 Nec Corp 変換符号化されたデータの復号方法及び変換符号化されたデータの復号装置
JP3999807B2 (ja) * 2003-12-19 2007-10-31 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 改良された周波数領域におけるエラー隠蔽技術
JP2008111991A (ja) * 2006-10-30 2008-05-15 Ntt Docomo Inc 復号装置、符号化装置、復号方法及び符号化方法
JP2008203783A (ja) * 2007-02-22 2008-09-04 Fujitsu Ltd 隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム
WO2008111158A1 (ja) * 2007-03-12 2008-09-18 Fujitsu Limited 音声波形補間装置および方法
JP2010176142A (ja) * 2007-11-05 2010-08-12 Huawei Technologies Co Ltd 減衰率を取得する方法および装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001228896A (ja) * 2000-02-14 2001-08-24 Iwatsu Electric Co Ltd 欠落音声パケットの代替置換方式
WO2004068098A1 (ja) * 2003-01-30 2004-08-12 Fujitsu Limited 音声パケット消失隠蔽装置,音声パケット消失隠蔽方法,受信端末および音声通信システム
JP3999807B2 (ja) * 2003-12-19 2007-10-31 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 改良された周波数領域におけるエラー隠蔽技術
WO2006009074A1 (ja) * 2004-07-20 2006-01-26 Matsushita Electric Industrial Co., Ltd. 音声復号化装置および補償フレーム生成方法
JP2006276877A (ja) * 2006-05-22 2006-10-12 Nec Corp 変換符号化されたデータの復号方法及び変換符号化されたデータの復号装置
JP2008111991A (ja) * 2006-10-30 2008-05-15 Ntt Docomo Inc 復号装置、符号化装置、復号方法及び符号化方法
JP2008203783A (ja) * 2007-02-22 2008-09-04 Fujitsu Ltd 隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム
WO2008111158A1 (ja) * 2007-03-12 2008-09-18 Fujitsu Limited 音声波形補間装置および方法
JP2010176142A (ja) * 2007-11-05 2010-08-12 Huawei Technologies Co Ltd 減衰率を取得する方法および装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104347076A (zh) * 2013-08-09 2015-02-11 中国电信股份有限公司 网络音频丢包掩蔽方法和装置
CN104347076B (zh) * 2013-08-09 2017-07-14 中国电信股份有限公司 网络音频丢包掩蔽方法和装置
CN109313905A (zh) * 2016-03-07 2019-02-05 弗劳恩霍夫应用研究促进协会 对不同的频带根据不同的阻尼因子淡出隐藏的音频帧的错误隐藏单元、音频解码器及相关方法和计算机程序
CN109313905B (zh) * 2016-03-07 2023-05-23 弗劳恩霍夫应用研究促进协会 隐藏音频帧丢失的错误隐藏单元、音频解码器及相关方法
CN113763974A (zh) * 2021-08-31 2021-12-07 易兆微电子(杭州)股份有限公司 一种丢包补偿方法、装置、电子设备及存储介质
CN113763974B (zh) * 2021-08-31 2023-05-16 易兆微电子(杭州)股份有限公司 一种丢包补偿方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
TW201234352A (en) 2012-08-16
JP2012113235A (ja) 2012-06-14
JP5694745B2 (ja) 2015-04-01

Similar Documents

Publication Publication Date Title
US10096323B2 (en) Frame error concealment method and apparatus and decoding method and apparatus using the same
JP6951536B2 (ja) 音声符号化装置および方法
EP3534365B1 (en) Speech/audio signal processing method and apparatus
KR101001170B1 (ko) 오디오 코딩
JP5694745B2 (ja) 隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム
JP5224017B2 (ja) オーディオ符号化装置、オーディオ符号化方法およびオーディオ符号化プログラム
US8065141B2 (en) Apparatus and method for processing signal, recording medium, and program
US7986797B2 (en) Signal processing system, signal processing apparatus and method, recording medium, and program
JP6769299B2 (ja) オーディオ符号化装置およびオーディオ符号化方法
KR101690899B1 (ko) 오디오 신호의 불연속 전송에서 높은 스펙트럼-시간 해상도를 가진 편안한 잡음의 생성
EP2922053A1 (en) Audio coding device, audio coding method, audio coding program, audio decoding device, audio decoding method, and audio decoding program
EP3007171B1 (en) Signal processing device and signal processing method
JP5219499B2 (ja) 風雑音低減装置
JP7316093B2 (ja) 音声雑音除去装置及びプログラム
WO2021200151A1 (ja) 送信装置、送信方法、受信装置、及び受信方法
JP4539180B2 (ja) 音響復号装置及び音響復号方法
JP2006023658A (ja) オーディオ信号符号化装置及びオーディオ信号符号化方法
JP3221050B2 (ja) 有声音判別方法
JPH04264599A (ja) 音声分析合成装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11843906

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11843906

Country of ref document: EP

Kind code of ref document: A1