WO2006016439A1 - 消失補償装置、消失補償方法、および消失補償プログラム - Google Patents

消失補償装置、消失補償方法、および消失補償プログラム Download PDF

Info

Publication number
WO2006016439A1
WO2006016439A1 PCT/JP2005/006850 JP2005006850W WO2006016439A1 WO 2006016439 A1 WO2006016439 A1 WO 2006016439A1 JP 2005006850 W JP2005006850 W JP 2005006850W WO 2006016439 A1 WO2006016439 A1 WO 2006016439A1
Authority
WO
WIPO (PCT)
Prior art keywords
periodic signal
unit
erasure
loss
interpolation
Prior art date
Application number
PCT/JP2005/006850
Other languages
English (en)
French (fr)
Inventor
Atsushi Tashiro
Original Assignee
Oki Electric Industry Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co., Ltd. filed Critical Oki Electric Industry Co., Ltd.
Priority to US11/659,205 priority Critical patent/US7793202B2/en
Publication of WO2006016439A1 publication Critical patent/WO2006016439A1/ja
Priority to GB0702838A priority patent/GB2435749B/en

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/004Arrangements for detecting or preventing errors in the information received by using forward error control
    • H04L1/0045Arrangements at the receiver end
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • H04M3/2236Quality of speech transmission monitoring

Definitions

  • Erasure compensation apparatus Erasure compensation apparatus, erasure compensation method, and erasure compensation program
  • the present invention relates to an erasure compensation device, an erasure compensation method, and an erasure compensation program, and is suitable for application to, for example, real-time communication such as a voice call.
  • Non-Patent Document 1 assumes the PCM (pulse modulation) coding system described in Non-Patent Document 2 below as the coding system.
  • Non-Patent Document 1 With the technology of Non-Patent Document 1, the decoding result of a decoded audio signal (hereinafter, decoding result) obtained by decoding audio encoded data that is an audio signal encoded by the PCM encoding method of Non-Patent Document 2 is obtained. Store it in a functional unit (such as a memory) that can store. On the other hand, voice loss is monitored for each voice frame (frame) which is a decoding processing unit, and compensation processing is executed every time voice loss occurs.
  • a functional unit such as a memory
  • F1 to F7 indicate frames (decoded audio signals) to be received in time series.
  • F1 is received earliest, and F2, F3, ... are received in sequence.
  • voice loss is detected in the three sections corresponding to these three frames F4 to F6.
  • FIG. 2 (B) is a waveform representation of the decoding result stored in the memory.
  • the basic period length ⁇ is assumed to be shorter than the decoding result for one frame. It is acceptable even if the basic period length ⁇ ⁇ is longer than the decoding result for one frame.
  • Fig. 2 (C) shows compensation processing for the section corresponding to frame F4
  • Fig. 2 (D) shows compensation processing for the section corresponding to frame F 5
  • Fig. 2 (E) shows frame F6. The compensation processing for the section corresponding to is shown.
  • the interval corresponding to one basic period stored in the memory immediately before frame F4 Generate interpolated speech data to compensate for speech loss based on Ta decoding results.
  • the interval Ta is an interval corresponding to the basic period T1.
  • the earliest position B4 of the section Ta is set as the start position of the interpolated audio data, and interpolated audio data is generated by acquiring one frame.
  • one basic period is shorter than one frame, there will be a shortage even if the decoding result S41 for one basic period is obtained, so this shortage will return to the oldest position B4 again.
  • Get the decoding result S42 to compensate.
  • the connection of S41 and S42 is inserted as interpolated speech data into the section corresponding to the frame F4.
  • processing such as overlay addition is performed so that the junction of S41 and S42 is a continuous waveform.
  • section Tb is a section corresponding to the basic periods T1 and T2.
  • Position B5 at which acquisition of interpolated audio data is started in section Tb for two basic periods is determined as follows. That is, in general, E4 (the right end of S42), which is the end position of S42 obtained in Fig. 2 (C) last time, is selected as the corresponding position B5, but as shown in the example in the figure, E4 is in the section Tb. In the case where it is not included in section T2 in the oldest one basic period, move to the oldest side in one basic period T until it enters section T2, and position B5 is determined. In the example shown, The position where device E4 is moved to the oldest side by one basic period corresponds to B5.
  • section Tc is a section corresponding to the basic periods Tl, ⁇ 2 and ⁇ 3. Also in Fig. 2 (E), as in Fig. 2 (D), the position ⁇ 6 where the acquisition of interpolated audio data is started is determined, from which one frame of data S61, S62 is obtained and corresponding to frame F6. Interpolated voice data to be inserted into the section is generated.
  • the position ⁇ 6 (the left end of S61) corresponds to the position moved to the oldest side by one basic period from the position ⁇ 5.
  • the interpolated voice data is gradually attenuated in the second and subsequent frames (F5 and F6 in the case of FIG. 2). For example, linearly attenuate 20% for 10ms. As a result, it is possible to suppress the occurrence of abnormal sounds such as beep sounds that occur when the same audio data is continuously output.
  • Non-Patent Document 1 ITU—T Recommendation G.711 Appendix I
  • Non-Patent Document 2 ITU-T Recommendation G.711
  • Non-Patent Document 1 in order to avoid the generation of abnormal sounds such as beeps, when voice loss continues over a plurality of frames (for example, continuous voice loss of 60 ms or more occurs). Silence will be output after a certain period of time. Therefore, long-term speech loss compensation cannot be performed, flexibility is poor, and communication quality in a broad sense is low.
  • a storage capacity sufficient to store the decoding results for three basic periods is required, so that storage resources such as a memory are consumed and the efficiency is low.
  • the details will be described later. As described above, in the actual implementation, there is a high possibility that a storage capacity sufficient to store the decoding results of three basic periods or more is required.
  • the erasure occurs in an arbitrary section of a periodic signal divided into predetermined sections and received in a time series.
  • a periodic signal storage unit for storing a newly received periodic signal of one or more sections for a predetermined time, and (2) erasure of the periodic signal in sections.
  • An element periodic signal generation unit that generates a plurality of element periodic signals for interpolation having (4) a plurality of element periodic signals generated by the element periodic signal generation unit, and a combination result Is arranged in a section where the loss of the periodic signal occurs.
  • the erasure compensation method for compensating for the disappearance when an erasure occurs in an arbitrary section of the periodic signal that is divided into predetermined sections and received in time series
  • the periodic signal storage unit stores the newly received periodic signal of one or more sections for a predetermined time
  • the element periodic signal generation unit has different waveforms based on the periodic signal stored in the periodic signal storage unit at that time.
  • (4) Combining multiple element periodic signals generated by the element periodic signal generator, and combining the combined results with the periodic signal loss It arrange
  • the erasure compensation program that compensates for erasure when an erasure occurs in an arbitrary interval of a periodic signal that is divided into predetermined intervals and received in time series. And (1) a periodic signal storage function for storing a newly received periodic signal of one or more sections for a predetermined time, and (2) detecting the disappearance of the periodic signal for each section. Erasure detection function; (3) When erasure is detected by the erasure detection function, the periodic signal stored in the periodic signal storage function is stored at that time.
  • an element periodic signal generation function that generates a plurality of element periodic signals for interpolation having different waveforms, and (4) a plurality of element periodic signals generated by the element periodic signal generation function It is characterized in that it is synthesized and the result of the synthesis is placed in a section where the loss of the periodic signal occurs.
  • FIG. 1 is an operation explanatory diagram of the first embodiment.
  • FIG. 2 is a schematic diagram showing a conventional interpolated speech creation operation.
  • FIG. 3 is a schematic diagram showing an example of an internal configuration of a communication terminal according to the first to fifth embodiments.
  • FIG. 4 is a schematic diagram showing an example of the internal configuration of a compensator used in the first embodiment.
  • FIG. 5 is a schematic diagram showing an example of the internal configuration of a compensator used in the second embodiment.
  • FIG. 6 is a schematic diagram showing an example of the internal configuration of a compensator used in the third embodiment.
  • FIG. 7 is a schematic diagram showing an example of the internal configuration of a compensator used in the fourth embodiment.
  • FIG. 8 is a schematic diagram showing an example of the internal configuration of a synthesis unit used in the fourth embodiment.
  • FIG. 9 is a schematic diagram showing an example of the internal configuration of a compensator used in the fifth embodiment.
  • FIG. 10 is a schematic diagram showing an example of the overall configuration of a communication system according to the first to fifth embodiments.
  • FIG. 1 An example of the overall configuration of the communication system 20 according to the present embodiment is shown in FIG.
  • the communication system 20 includes a network 21 and communication terminals 22 and 23.
  • the network 21 may be an Internet provided by a telecommunications carrier, which may be the Internet, and may be an IP network that guarantees communication quality to some extent.
  • the communication terminal 22 is a communication device that can execute a voice call such as an IP telephone (VoIP compatible telephone) in real time.
  • IP phones use VoIP technology to allow voice data to be exchanged over a network that uses the IP protocol.
  • the communication terminal 23 is also the same communication device as the communication terminal 22.
  • the communication terminal 22 is used by the user U1, and the communication terminal 23 is used by the user U2.
  • IP telephones have the ability to exchange voice in both directions to establish a conversation between users.
  • IP packets packets
  • frames voice frames
  • the length of one frame is not limited, but may be 10 ms, for example.
  • the PCM speech coding method may be used as the coding method.
  • the communication terminal 23 Since the frames included in the packets PK11 to PK13 contain audio data indicating the contents (audio information) uttered by the user U1, the communication terminal 23 performs only reception processing as far as this direction is concerned. User U2 only listens to the voice spoken by user U1. Although it is possible to adopt a configuration in which a single packet includes a plurality of frames, it is assumed here that a single packet includes a single frame for the sake of simplicity.
  • the packet PK11 corresponds to the frame F2
  • the packet PK12 corresponds to the frame F3
  • the packet PK13 corresponds to the frame F4. For this reason, for example, when the packet PK13 is lost on the network 21, the frame F4 is lost, and voice loss occurs in the section corresponding to the frame F4.
  • the communication terminal 23 includes a decoder 10, a compensator 11, and an erasure determiner 12.
  • the decoder 10 decodes the voice data (eg, CD11) extracted from the packet for each packet (eg, PK11) received by the communication terminal 23, and the decoding result (eg, DC11 ) Is output.
  • the unit (processing unit) of decoding processing by the decoder 10 is the frame.
  • the decoding result obtained from packet PK11 is DC11
  • the decoding result obtained from packet PK12 is DC12
  • the decoding result obtained from packet PK13 is DC13. If the voice call continues and no voice loss occurs, it is natural that a decoding result after DC13 can be obtained.
  • codes such as CD11 to CD13 are used.
  • audio data is generically referred to, CD is used as the code.
  • codes such as DC11 to DC13 are used, and when decoding results are collectively referred to, DC is used as the code.
  • the decoding result DC indicates a part of the decoding result (for example, DC1) obtained from one packet or a plurality of continuous packets. It may also refer to a part of the decoding result (eg, DC1 and DC2) obtained from the packet.
  • a voice uttered by a human has a noise part whose amplitude changes randomly and a periodic sound part that repeats at almost the same period.
  • the repetition period of the periodic sound part is called a basic period. . Therefore, the fundamental period can also be obtained from DC11 to DC13, which are the decoding results.
  • the number of samples included therein is arbitrarily determined.
  • the force that can be determined may be about 160 samples.
  • the compensator 11 is a characteristic component in the present embodiment, and performs interpolation when voice loss occurs. Details of the configuration and function of the compensator 11 will be described later.
  • the erasure determination unit 12 is a part for determining the presence or absence of voice loss, and outputs the determination result as voice loss information ER.
  • voice loss information ER There is a possibility that the presence or absence of voice loss can be determined by various methods, but it can be determined by determining that voice loss has occurred due to the power of not receiving the packet to be received.
  • the sequence number assigned to be a serial number on the transmission side, which is included in the RTP header included in the transmitted packet is missing, or has already arrived because the order has been changed.
  • the delay is based on the method of determining that voice loss has occurred when the packet sequence number is older than the packet sequence number, and the time stamp value, which is the transmission time information added on the transmission side, included in the RTP header. It may be determined that voice loss has occurred when a packet larger than a predetermined value is received. Also, when a transmission error is detected, it may be treated as voice loss.
  • the erasure determination unit 12 can also realize such a function in the decoder 10.
  • the internal configuration of the compensator 11 is, for example, as shown in FIG.
  • the compensator 11 includes two interpolation function units 35a and 35b and a synthesis unit 34.
  • the interpolation function units 35a and 35b have the same internal configuration. That is, the interpolation function unit 35a includes a control unit 30a, an interpolation execution unit 3la, a basic period calculation unit 32a, and a decoding result storage.
  • the interpolation function unit 35b includes a control unit 30b, an interpolation execution unit 31b, a basic period calculation unit 32b, and a decoding result storage unit 33b.
  • control unit 30a corresponds to the control unit 30b
  • interpolation execution unit 31a corresponds to the interpolation execution unit 31b
  • basic period calculation unit 32a corresponds to the basic period calculation unit 32b
  • decoding result storage unit 33. a corresponds to the decryption result storage unit 33b. Since the function of the interpolation function unit 35a and the function of the interpolation function unit 35b are the same as described above, the following description will be given mainly focusing on the interpolation function unit 35a.
  • control unit 30a functions as a CPU (central processing unit) in terms of hardware, and functions as a control program such as an OS (operating system) in terms of software. . Accordingly, the respective constituent elements 31a to 33a in the interpolation function unit 35a are controlled by the control unit 30a.
  • the decoding result DC signal sequence having exactly the same contents is supplied to the interpolation function units 35a and 35b.
  • the interpolation execution unit 35a receives the decoding result DC in the interpolation function unit 35a. 3 la.
  • the role of the interpolation execution unit 31a is different between a normal time when no voice loss occurs (corresponding to a normal state described later) and a loss when voice loss occurs (corresponding to a loss compensation state described later).
  • the decoding result DC received from the decoder 10 is only supplied to the control unit 30a and the synthesizing unit 34.
  • the interpolated speech data TP1 supplied from the control unit 30a is inserted into the section, and a signal sequence including the insertion result is supplied to the synthesis unit 34.
  • the signal sequence mainly having the decoding result DC power supplied from the interpolation execution unit 31a to the synthesis unit 34 is the intermediate signal VI.
  • the intermediate signal VI is a signal sequence with exactly the same content as the decoding result DC.
  • the decoding result storage unit 33a is a decoding result supplied from the interpolation execution unit 31a to the control unit 30a. This is a part for storing DC, and is constituted by a volatile or nonvolatile storage means. Although it depends on the implementation, it is highly likely that an expensive storage means capable of high-speed read / write access is used as the decryption result storage unit 33a, assuming a voice call in which real-time performance is important.
  • the upper limit of the storage capacity of the decoding result storage unit 33a can be freely determined, but here, it is assumed that the decoding capacity DC can store the decoding result DC for one basic period. Since the length of one fundamental period varies depending on the content of the audio, if you try to memorize exactly one fundamental period, except for special cases where the length of one fundamental period is known in advance. Therefore, it is necessary to calculate the basic period of the decoding result before storing, acquire only one basic period and store it, and temporarily store the decoding result of one basic period or more for calculating the basic period. There is a high possibility that a working storage area will be required. However, this is a problem that always occurs when the technology of Non-Patent Document 1 is implemented in an actual device.
  • Non-Patent Document 1 when the decoding results for exactly three basic periods are stored. In practice, however, the basic period must be calculated before storage, and it is highly likely that the working storage area will require more than three basic periods of storage capacity. In general, a decoding result for one basic period may be obtained as a result of decoding one frame, or a decoding result for a plurality of frames may be obtained.
  • the decoding result storage unit 33a for example, a storage capacity sufficiently larger than the upper limit (fixed value) of the fluctuation range of the length of one basic period is prepared, and the latest storage capacity that satisfies the storage capacity is prepared. Let's memorize the decryption result.
  • the decoding result storage unit 33a should have a storage capacity sufficient to store the decoding result DC for one frame. You can also. In this case, since the calculation of the basic period before being stored in the decoding result storage unit 33a can be omitted, it is possible to contribute to the saving of the work storage area and the calculation amount.
  • the storage capacity is only one basic period (one frame)
  • every time a decoding result DC for one basic period is obtained from a new frame (every new frame arrives) the previous time It is necessary to overwrite the stored decoding result DC of one basic period (one frame), and only the newest decoding result DC of one basic period (one frame) is always decoded.
  • the result is stored in the fruit storage unit 33a. Note that since a valid decoding result DC is not supplied in a section where speech loss has occurred, the decoding result storage unit 33a maintains the storage of the decoding result DC for one basic period stored immediately before being overwritten. Is done. The same applies when audio loss continues over multiple frames.
  • the control unit 30a can recognize that the voice loss has occurred in that section. Therefore, it is possible to perform control so as to maintain the storage on the decoding result storage unit 33a.
  • the basic period calculation unit 32a uses the decoding result DC stored in the decoded speech storage unit 32a at the time when the state loss when the speech loss occurs and the transition to the V-turning state occurs.
  • the basic period is calculated.
  • the basic period may be obtained by various methods. For example, a known autocorrelation function is obtained from the decoding result DC stored in the decoding result storage unit 33a, and the autocorrelation function is maximized. It can also be calculated by calculating the amount of delay.
  • the interpolation function unit 35a can obtain the basic period almost simultaneously with the interpolation function unit 35b.
  • the interpolated audio data TP1 supplied from the control unit 30a to the interpolation execution unit 31a and the interpolated audio data TP2 supplied from the control unit 30b to the interpolation execution unit 31b need to be different.
  • the decoding result DC having the same content is stored in the decoding result storage units 33a and 33b, if the basic period is obtained in the same way, the interpolated speech data TP1 obtained by the interpolation function unit 35a and the interpolation function unit 35b Since the interpolated audio data TP2 obtained in step 1 will be the same, the basic period will be different.
  • control unit for example, 30a
  • the control unit for example, 30b
  • the basic period is calculated by excluding that value.
  • the basic period calculated by the basic period calculation unit 32a in the interpolation function unit 35a is Pa
  • the basic period calculation unit 32b in the interpolation function unit 35b is calculated from the force in the search range that does not include the value of Pa.
  • Pb be the basic period.
  • the basic period Pb may be between 2.5 ms and Pa (excluding Pa itself).
  • the calculated basic period Pa may be transmitted from the control unit 30a to 30b as described above, but one basic period before the decoding result DC is stored in the decoding result storage unit 33b. If the value is stored, the control unit 30b can recognize Pa, and can search for the basic period Pb from a force having a search range different from Pa.
  • the synthesizer 34 gives weighting coefficients to the intermediate signal VI supplied from the interpolation execution unit 31a in the interpolation function unit 35a and the intermediate signal V2 supplied from the interpolation execution unit 31b in the interpolation function unit 35b. After that, it is synthesized and the synthesized result is output as the final output audio signal V. If the weighting factor assigned to the intermediate signal VI is ⁇ and the weighting factor assigned to the intermediate signal V2 is
  • the operation of the communication terminal 23 at the time of reception can be divided into four.
  • the first is a normal operation that is executed in a normal state where frames without loss of voice continue to be received normally, and the second is the loss of voice from the normal state when a loss of voice for one frame is detected.
  • the third is an erasure transition operation executed when shifting to the compensation state, and the third is a normal transition operation performed when shifting to the normal state from the loss compensation state.
  • the erasure compensation state can be divided into a case in which the audio loss for one frame ends and a case in which an audio loss for a plurality of frames occurs.
  • the normal state is a state in which the immediately preceding frame and the current frame are effectively received, and an effective decoding result DC is obtained.
  • the erasure transition operation is executed when the previous frame is received and a valid decoding result DC is obtained, but the current frame cannot be received and a valid decoding result DC is not obtained.
  • the normal transition operation is executed when the previous frame cannot be received and an effective decoding result DC is obtained, but the current frame can be received and an effective decoding result DC is obtained. . If voice loss occurs for multiple frames, neither the previous frame nor the current frame can be received, and an effective decoding result DC cannot be obtained for both.
  • the communication terminal 23 used by the user U2 receives time-series packets PK11, PK12, PK13,... (Including frames) transmitted from the communication terminal 22 used by the user U1, and VoIP communication is performed. Since the voice uttered by the user U1 is output from the communication terminal 23 that performs the normal operation, the user U2 can listen to the voice.
  • the decoder 10 in the communication terminal 23 When this normal operation is performed, the decoder 10 in the communication terminal 23 outputs a signal sequence of the decoding result DC composed of the decoding results DC 11, DC12, DC13, ..., and this signal sequence is interpolated.
  • the data is supplied to the synthesis unit 34 via the execution units 31a and 31b.
  • the interpolation execution units 31a and 31b supply the signal sequence received from the decoder 10 to the synthesis unit 34 as intermediate signals VI and V2 as they are.
  • the synthesizer 34 outputs an output audio signal V that is a result of the synthesis.
  • the user U2 listens to the voice corresponding to the output voice signal V by the communication terminal 23.
  • the interpolation execution units 31a and 31b supply the decoding result DC received from the decoder 10 to the control units 30a and 30b, every time a new one-frame decoding result DC is supplied.
  • the control units 30a and 30b calculate the decoding result DC for one new basic period (one frame), and store the calculation result in the decoding result storage units 33a and 33b. Since the decoding result storage units 33a and 33b have a storage capacity sufficient to store the decoding result for one basic period (for one frame), the decoding result corresponding to a certain basic period (for one frame) (for example, DC11 Is stored when the decoding result (for example, a part of DC 12) corresponding to the next basic period (one frame) is stored. Accordingly, only the latest decoding result DC for one basic period (one frame) remains in the decoding result storage units 33a and 33b.
  • the loss determination unit 12 indicates that a speech loss has been detected.
  • the voice erasure information ER is supplied to the control units 30a and 30b, the erasure transition operation is executed, and the compensator 11 transitions from the normal state to the erasure compensation state.
  • control units 30a, 3 Ob recognize the necessity of generating the interpolated speech data TP1, TP2 in order to compensate for the decoding result DC13 lost due to speech loss, and the basic period calculation units 32a, 32b It is instructed to calculate the basic period using the decoding result (for example, DC12) for one basic period stored in the decoding result storage units 33a and 33b at the time.
  • the calculation result may be stored and reused. .
  • the basic period calculation unit 32a calculates Pa as a basic period
  • the basic period calculation unit 32b calculates a basic period Pb having a value different from the Pa. To do.
  • a decoding result DC slightly larger than the original one basic period Pa is stored in the decoding result storage units 33a and 33b.
  • the decoding result DC may be a decoding result for one frame.
  • the control unit 30a in the interpolation function unit 35a performs the decoding result for one basic period Pa.
  • W11, part of W1 is used to make up for the shortage.
  • the processing here may be the same processing as when S42 is connected to S41 in FIG.
  • the interpolated speech data TP1 generated by the control unit 30a in this way is supplied to the interpolation execution unit 31a and is supplied to the synthesis unit 34 as part of the signal train of the intermediate signal VI.
  • the basic period calculation unit 32b Calculate a basic period Pb of a different value
  • the control unit 30b obtains the decoding result W2 for the basic period Pb from the decoding result for one frame stored in the decoding result storage unit 33b, and temporally Shortage is compensated by using W21, which is part of the same decryption result W2.
  • the interpolated audio data TP2 generated by the control unit 30b in this way has a waveform different from that of TP1.
  • the interpolated speech data TP2 is supplied to the interpolation execution unit 31b and supplied to the synthesis unit 34 as part of the signal sequence of the intermediate signal V2.
  • the synthesizing unit 34 synthesizes the interpolated audio data TP1 and TP2 by assigning the weighting coefficients ⁇ and j8, and outputs the synthesis result as an output audio signal V.
  • the output audio signal V generated by synthesizing TP1 and TP2 also reflects the characteristics of the decoding result DC indicating the original audio, and the user U2 who listens is almost uncomfortable. There is a high possibility of realizing high sound quality without feeling. Also, the output audio signal V generated in this way usually has a waveform different from that of the output audio signal V in the section corresponding to the frame immediately before the effective decoding result DC is obtained.
  • a valid decoding result DC14 (not shown) is immediately supplied from the decoder 10, so that the compensator 11 performs a normal transition operation.
  • the decoding result storage units 33a and 33b store the decoding results for one frame (or one basic period) corresponding to the decoding result DC14. At this time, superposition and addition processing may be performed so that the junction between the effective decoding result and the generated interpolated speech is continuous in waveform.
  • the interpolated voice data TP1 and TP2 of the waveform shown in Fig. 1 are transferred from the control units 30a and 30b to the interpolation execution unit 31a, It may be output to 31b.
  • generation is performed from the sample following the last sample used to generate interpolated audio data in the previous frame. It is also desirable to start it. This ensures waveform-like continuity as well as recording.
  • the memorized limited decoding result DC can be used effectively, and the repetition frequency per unit time of the same waveform in the output audio signal V can be reduced. It is also desirable to change the period used for the complementary audio data TP1 and TP2 in the decoding result DC of the limited period stored in the decoding result storage units 33a and 33b.
  • the interpolated speech data TP1 and TP2 obtained by the cyclic method are output as they are from the limited decoding results D stored in the decoding result storage units 33a and 33b.
  • Output of one or more waveforms such as the output audio signal V of the waveform shown in 1 is repeated, which may cause a beep sound.
  • the storage capacity of the decoding result storage units 33a and 33b is about one frame or one basic period, it is smaller than the conventional one.
  • effective voice loss compensation can be continued even when voice loss continues for a long period of time, so flexibility is improved and communication quality in a broad sense (e.g., sound quality felt by user U2). ) And storage resources can be saved.
  • This embodiment is different from the first embodiment only in the point relating to the internal configuration of the compensator.
  • FIG. 13 An example of the internal configuration of the compensator 13 of this embodiment is shown in FIG.
  • the compensator 13 includes two interpolation function units 325a and 325b, a synthesis unit 34, Switching units 321, 322 are provided.
  • the interpolation function units 325a and 325b have the same internal configuration. That is, the interpolation function unit 325a includes a control unit 30a, an interpolation execution unit 3la, a basic period calculation unit 32a, and a decoding result storage unit 323a.
  • the interpolation function unit 325b includes the control unit 30b and the interpolation execution unit. Unit 31b, basic period calculation unit 32b, and decoding result storage unit 323b.
  • the switching unit 321 only supplies the decoding result DC as the decoding result IN1 to the interpolation execution unit 31a.
  • the decoding result storage unit 323a stores the decoding result IN 1 corresponding to one new frame (or one basic period). Is not done.
  • each part in the interpolation function unit 325b such as the interpolation execution unit 31b, the basic period calculation unit 32b, and the decoding result storage unit 323b does not execute an effective operation and maintains a sleep state. In the dormant state, almost no storage resources and computing power are used, which contributes to saving storage resources and reducing the amount of calculation.
  • the switching unit 322 receives only the supply of the intermediate signal VI supplied from the interpolation execution unit 31a, and outputs the intermediate signal VI to the combining unit 34 or the connection point P1.
  • the switching unit 322 outputs the intermediate signal VI to the connection point P1 in the normal state.
  • the intermediate signal VI is output as the final output audio signal V as it is.
  • the synthesizer 34 does not need to perform processing related to the weight coefficient ⁇ and ⁇ as in the first embodiment, so that it saves storage resources and suppresses the amount of calculation.
  • the switching unit 322 When voice loss occurs and shifts to the loss compensation state, the switching unit 322 outputs the intermediate signal VI to the synthesis unit 34. At this time, since the control unit 30a, 30b is informed that voice loss has been detected in the voice loss information ER, the control unit 30a, 30b has the decoding result stored in the decoding result storage unit 323a in the normal state. The DC is copied to the decryption result storage unit 323b (DCa). After this copy, the same contents are stored in the decryption result storage units 323a and 323b. Therefore, the interpolated speech data TP1 and TP2 can be generated in the two interpolation function units 323a and 323b in the same manner as in the first embodiment. The generated interpolated speech data TP1 and TP2 are supplied to the interpolation execution units 31a and 31b, respectively, and synthesized by the synthesis unit 34, which is the same as in the first embodiment.
  • the weighting factors a and ⁇ may be used also in the present embodiment. As a result, even when voice loss continues for a long time, it is possible to continue effective voice loss compensation while suppressing the generation of abnormal noise.
  • the decoding unit ⁇ 2 having the same content as the decoding result IN1 may be supplied from the switching unit 321 to the interpolation execution unit 31b.
  • the decoder 10 since the decoder 10 is in a state where no effective decoding result DC is supplied due to speech loss, it is necessary to supply a control signal such as a signal for informing the frame timing. Except in some cases, there is little need to supply the decoding result IN2 to the interpolation execution unit 3 lb.
  • the switching unit 321 can be omitted, and the decoding result DC output from the decoder 10 should be supplied only to the interpolation execution unit 31a. become.
  • the switching unit 322 again outputs the intermediate signal VI to the contact P1.
  • each unit in the interpolation function unit 325b returns to a sleep state in which an effective operation is not executed.
  • This embodiment is different from the first and second embodiments only in respect of the internal configuration of the compensator. Of the first and second embodiments, the first embodiment is closer to the present embodiment.
  • FIG. 1 An example of the internal configuration of the compensator 14 of this embodiment is shown in FIG.
  • the compensator 14 includes two interpolation function units 35 a and 35 b and a synthesis unit 334.
  • the interpolation function units 35a and 35b have the same internal configuration. That is, the interpolation function unit 325a includes a control unit 30a, an interpolation execution unit 3la, a basic period calculation unit 32a, and a decoding result storage unit 33a, and the interpolation function unit 35b includes a control unit 30b and an interpolation execution unit. A unit 31b, a basic period calculation unit 32b, and a decoding result storage unit 33b are provided.
  • the internal configuration of the synthesis unit 334 is different from that of the first embodiment.
  • the random weight generation unit 331 operates only when the voice loss information ER reports the occurrence of voice loss, and generates a random value almost in white noise.
  • the range may be further limited within this range. For example, 0. 7 ⁇ a ⁇ 0.8.
  • any method can be used to determine ⁇ . For example, when the value of ⁇ is updated in time series, the amount of change from the value of a before the update may be randomly generated.
  • the frequency of updating the value of a should be updated for each force frame that can be varied.
  • This embodiment is different from the first to third embodiments only in respect of the internal configuration of the compensator.
  • the second embodiment is closest to the present embodiment.
  • FIG. 15 An example of the internal configuration of the compensator 15 of this embodiment is shown in FIG.
  • the compensator 15 includes two interpolation function units 75a and 75b and switching units 321, 32.
  • the interpolation function sections 75a and 75b have the same internal configuration. That is, the interpolation function unit 75a includes a control unit 71a, an interpolation execution unit 31a, a basic period calculation unit 32a, and a decoding result storage unit 323a.
  • the interpolation function unit 75b includes the control unit 71b and the interpolation execution unit 31b. And a basic cycle calculation unit 32b and a decoding result storage unit 323b.
  • This embodiment is different from the second embodiment in some of the functions of the control units 71a and 71b and the internal configuration of the synthesis unit 72.
  • the control units 71a and 71b of the present embodiment are the basic period calculation units in the self-interpolation function units 75a and 75b. A function of transmitting the basic periods PI and P2 calculated by 32a and 32b to the combining unit 72 is provided.
  • the basic period P1 may correspond to the Pa, and the basic period P2 may correspond to the Pb.
  • the synthesizer 72 has the internal configuration shown in FIG. 8, for example, and the weight updater 81 generates a weight coefficient
  • indicates the maximum value of the basic period that can be calculated
  • Pm indicates the minimum value of the basic period that can be calculated
  • the value of ⁇ may be determined according to a predetermined rule based on feature quantities (for example, power, spectrum, etc.) other than the basic period.
  • the OC value is set when the erasure compensation state is entered, and the same OC value is used until the normal state is restored.
  • control unit 71a, 71b outputs the power of the waveform of the decoding result DC (for example, the mean square of the sample values of one basic period interval) instead of the basic periods Pl, P2 every frame period.
  • the combining unit 72 may update the value of each frame interval ⁇ until the normal state is restored.
  • the weighting coefficients to be generated are generated in the decoding result storage units (323a, 323b) such as the basic period (PI, ⁇ 2), and various feature quantities of the decoding results (DC) are generated. Since it can be reflected in the values (ex, ⁇ ), it is possible to provide various nominations.
  • This embodiment is different from the first to fourth embodiments only in respect to the internal configuration of the compensator.
  • the fourth embodiment is closest to the present embodiment in that it has the switching units 321, 322, and the like.
  • FIG. 1 An example of the internal configuration of the compensator 16 of this embodiment is shown in FIG. 1
  • the compensator 16 includes one interpolation function unit 95, switching units 321 and 322, and a combining unit 72.
  • the interpolation function unit 95 includes interpolation execution units 31a and 31b, a control unit 90, a basic period calculation unit 92, a decoding result storage unit 93, a control switching unit 96, and a state holding unit 97. I have.
  • control unit 90 corresponds to the control unit 71a or 71b
  • basic period calculation unit 92 corresponds to the basic period calculation unit 32a or 32b
  • decoding result storage unit 93 includes the decoding result storage unit. Since it corresponds to 323a or 323b, detailed description thereof is omitted.
  • control unit 90 the basic cycle calculation unit 92, and the decoding result storage unit 93 generate the interpolated speech data TP1 and the basic cycle P1 as well as the interpolated speech data TP2 and the basic cycle P2. Is different from the fourth embodiment in that it also functions.
  • the control unit 90 since the decoding result IN1 is stored in the decoding result storage unit 93 via the interpolation execution unit 31a in the normal state, the control unit 90 performs the basic operation when the erasure compensation state is entered. It is possible to cause the period calculation unit 92 to calculate the basic period P1 for generating the interpolated voice data TP1, and to generate the interpolated voice data TP1 based on the basic period P1. Also, since voice loss occurs in the subsequent frame section, various information necessary for generating the subsequent interpolated voice data TP1 is stored in the state holding unit 97 as generation state information Q1.
  • control unit 90 causes the basic period calculation unit 92 to calculate the basic period P2 for generating the interpolated sound data TP2, and based on the basic period P2, the interpolated sound data T P2 can be generated. Since voice loss occurs in the subsequent frame section, various information necessary for generating the subsequent interpolated voice data TP2 is stored in the state holding unit 97 as generation state information Q2.
  • the generation state information Ql and Q2 may include various types of information.
  • the decoding result storage unit may include various types of information.
  • the decoding result storage unit may include various types of information.
  • control unit 90 causes the control switching unit 96 to execute the interpolation execution unit 3la and inserts the generated interpolated voice data TP1 into the signal sequence of the intermediate signal VI.
  • the interpolation unit 31b is executed by the switching unit 96, and the generated interpolated audio data TP2 is inserted into the signal sequence of the intermediate signal V2.
  • the synthesizing unit 72 uses the basic periods PI and P2 already supplied from the control unit 90 to weight factors ⁇ and ⁇ can be assigned to output an output audio signal V as a synthesis result.
  • the erasure compensation state does not end in one frame but continues for a plurality of frames
  • the subsequent interpolated audio is generated using the generation state information Ql, Q2 stored in the state holding unit 97.
  • Data TP1, ⁇ 2 can be generated and voice loss compensation can be continued.
  • two interpolation function units are provided in one compensator.
  • the number of interpolation function units in one compensator may be three or more.
  • two interpolation execution units are provided in one interpolation function unit.
  • the number of interpolation execution units in one interpolation function unit may be three or more. .
  • PCM is used as the encoding method, but the present invention can be applied to various encoding methods. For example, it can be applied to differential quantization methods such as ADPCM.
  • the present invention has been described by taking the communication of voice signals by telephone (VoIP-compatible telephone) as an example.
  • voice signals other than voice signals by telephone. It is also applicable to. For example, it can be widely applied to communication using periodic signals such as voice tone signals.
  • the application range of the present invention is not necessarily limited to voice, tone, and the like.
  • it may be applicable to image signals such as moving images.
  • the communication protocol to which the present invention is applied need not be limited to the IP protocol described above.
  • the present invention has been realized mainly in hardware, but the present invention can also be realized in software.

Abstract

 記憶資源を節約する。所定の区間に分割されて時系列に受信される周期性信号の任意の区間で消失が発生したとき、その消失を補償する消失補償装置において、新しく受信された1または複数の区間の周期性信号を所定時間分、記憶する周期性信号記憶部と、前記周期性信号の消失を区間ごとに検出する消失検出部と、当該消失検出部によって消失が検出された場合、その時点で、前記周期性信号記憶部に記憶されている周期性信号をもとに、異なる波形を持つ補間用の複数の要素周期性信号を生成する要素周期性信号生成部とを備え、当該要素周期性信号生成部が生成した複数の要素周期性信号を合成し、その合成結果を、周期性信号の消失が発生した区間に配置する。

Description

明 細 書
消失補償装置、消失補償方法、および消失補償プログラム
技術分野
[0001] 本発明は消失補償装置、消失補償方法、および消失補償プログラムに関し、例え ば、音声通話などのリアルタイム通信に適用して好適なものである。
背景技術
[0002] 現在、 VoIP技術を用いてインターネット等のネットワークを利用した音声通信が盛 んにおこなわれている。
[0003] インターネットなどの通信品質が保証されて ヽな 、ネットワークを介する通信では、 伝送途中でパケットが失われるパケット損失に起因して、本来、時系列に受信される はずの音声データの一部が欠損する現象 (音声消失)が比較的頻繁に発生し得る。 音声消失が発生した場合、そのまま復号し復号結果を出力すると、音声の途切れな どが頻発し、音声品質が劣化するが、この劣化に対する補償方法として、例えば、下 記の非特許文献 1の技術がすでに知られている。非特許文献 1は、符号化方式とし て下記の非特許文献 2に記載された PCM (パルス変調)符号化方式を前提とする。
[0004] 非特許文献 1の技術では、非特許文献 2の PCM符号ィ匕方式で符号化された音声 信号である音声符号化データを復号した復号音声信号 (以下、復号結果)を復号結 果が記憶可能な機能体 (メモリなど)に記憶しておく。その一方で、復号処理単位で ある音声フレーム (フレーム)毎に音声消失を監視し、音声消失が発生する度に補償 処理を実行する。
[0005] 当該補償処理の動作を、図 2 (A)〜 (E)に示す。
[0006] 図 2 (A)において、 F1〜F7は時系列に受信されるべきフレーム (復号された音声 信号)を示している。図 2 (A)中では、 F1が最も早く受信され、 F2, F3,…と順次、受 信される。ところが、図 2 (A)の例では、 F4〜F6の 3フレームが連続して前記パケット 損失によって失われたため、この 3フレーム F4〜F6に対応する 3区間で、音声消失 が検出される。
[0007] 図 2 (B)は、前記メモリに記憶される復号結果を波形で表現したものである。 Tl, T 2, T3のそれぞれが 1つの基本周期に対応するため、ここでは、 3基本周期分の復号 結果が、前記メモリに記憶されることになる。なお、図示の例では、基本周期の長さ Τ は 1フレーム分の復号結果よりも短いものとしている力 基本周期の長さ Τが 1フレー ム分の復号結果より長くても力まわな 、。
[0008] 図 2 (C)はフレーム F4に対応する区間への補償処理を示し、図 2 (D)はフレーム F 5に対応する区間への補償処理を示し、図 2 (E)はフレーム F6に対応する区間への 補償処理を示している。
[0009] フレーム F4に対応する区間での音声消失 (最初の音声消失)を検出したとき、図 2 ( C)に示すように、フレーム F4の直前にメモリに記憶された 1基本周期分の区間 Taの 復号結果をもとに、音声消失を補償するための補間音声データを生成する。区間 Ta は前記基本周期 T1に対応する区間である。
[0010] この 1基本周期分では、区間 Taの最古側の位置 B4を当該補間音声データの開始 位置とし、 1フレーム分を取得することにより、補間音声データを生成する。ただし図 示したように 1基本周期が 1フレーム分より短い場合には、 1基本周期分の復号結果 S41を取得しても不足が生じるから、再度、最古側の位置 B4へ戻ってこの不足を補 うための復号結果 S42を取得する。そして、この S41と S42をつなぎ合わせたものを 補間音声データとして、前記フレーム F4に対応する区間に挿入する。なお、 S41と S 42の接合部が波形的に連続したものとなるように、重ね合わせ加算などの処理を行
[0011] フレーム F4につづきフレーム F5に対応する区間でも音声消失が検出されると、今 度は 2基本周期分の区間 Tbの復号結果をもとに、図 2 (D)に示すように、音声消失を 補償するための補間音声データを生成する。区間 Tbは前記基本周期 T1および T2 に対応する区間である。
[0012] この 2基本周期分の区間 Tbで、補間音声データの取得を開始する位置 B5は次の ようにして決定する。すなわち一般的には、前回、図 2 (C)で取得した S42の終了位 置である E4 (S42の右端)を当該位置 B5に選ぶが、図示の例のように、 E4が区間 T bの最古側 1基本周期にある区間 T2に含まれていないケースでは、 1基本周期 Tず つ最古側へ区間 T2に入るまで移動させて位置 B5を決定する。図示の例の場合、位 置 E4を 1基本周期分、最古側へ移動させた位置が B5に当たる。
[0013] このようにして位置 B5が決まると、そこ力も最新側へ 1フレーム分 (すなわち、位置 E 5まで)のデータ S51, S52を取得することにより、フレーム F5に対応する区間に挿入 する補間音声データを生成する。図示の例の場合、位置 E5を右端とする S52は、区 間 T1の一部である。
[0014] フレーム F4、 F5につづきフレーム F6に対応する区間でも音声消失が検出されると 、 3基本周期分の区間 Tcの復号結果をもとに、図 2 (E)に示すように、音声消失を補 償するための補間音声データを生成する。区間 Tcは前記基本周期 Tl、 Τ2および Τ 3に対応する区間である。図 2 (E)でも、図 2 (D)と同様、補間音声データの取得を開 始する位置 Β6を決定し、そこから 1フレーム分のデータ S61, S62を取得してフレー ム F6に対応する区間に挿入するための補間音声データを生成する。
[0015] 図示の例の場合、位置 Β6 (S61の左端)は前記位置 Ε5から 1基本周期分、最古側 へ移動させた位置に当たる。
[0016] なお、音声消失が複数フレームに渡って連続する場合、 2フレーム目以降(図 2の 場合、 F5, F6)では、補間音声データを徐々に減衰させる。例えば、 10msにっき 20 %、線形的に減衰させる。これによつて、同一の音声データが連続して音声出力され た場合に起きるビープ音などの異音の発生を抑制することができる。
[0017] 非特許文献 1 :ITU—T勧告 G. 711 Appendix I
非特許文献 2 : ITU— T勧告 G. 711
発明の開示
発明が解決しょうとする課題
[0018] ところが、上述した非特許文献 1の技術では、ビープ音などの異音の発生を避ける ため、音声消失が複数フレームに渡って連続した場合 (例えば、 60ms以上の連続し た音声消失が発生した場合など)における特定期間以降は、無音が出力されることに なる。したがって、長期間の音声消失補償が実行できず、柔軟性に欠け、広い意味 での通信品質が低 ヽと 、える。
[0019] また、図 2 (B)に示したように、 3基本周期分の復号結果を記憶できるだけの記憶容 量を必要とするため、メモリなどの記憶資源が消費され、効率が低い。なお、後述す るように、現実の実装では、 3基本周期分以上の復号結果を記憶できるだけの記憶 容量が必要になる可能性が高い。
課題を解決するための手段
[0020] カゝかる課題を解決するために、第 1の本発明では、所定の区間に分割されて時系 列に受信される周期性信号の任意の区間で消失が発生したとき、その消失を補償す る消失補償装置において、(1)新しく受信された 1または複数の区間の周期性信号 を所定時間分、記憶する周期性信号記憶部と、(2)前記周期性信号の消失を区間 ごとに検出する消失検出部と、 (3)当該消失検出部によって消失が検出された場合 、その時点で、前記周期性信号記憶部に記憶されている周期性信号をもとに、異な る波形を持つ補間用の複数の要素周期性信号を生成する要素周期性信号生成部と を備え、(4)当該要素周期性信号生成部が生成した複数の要素周期性信号を合成 し、その合成結果を、周期性信号の消失が発生した区間に配置することを特徴とする
[0021] また、第 2の本発明では、所定の区間に分割されて時系列に受信される周期性信 号の任意の区間で消失が発生したとき、その消失を補償する消失補償方法において 、(1)周期性信号記憶部が、新しく受信された 1または複数の区間の周期性信号を 所定時間分、記憶し、(2)消失検出部が、前記周期性信号の消失を区間ごとに検出 し、(3)要素周期性信号生成部が、当該消失検出部によって消失が検出されたとき、 その時点で、前記周期性信号記憶部に記憶されている周期性信号をもとに、異なる 波形を持つ補間用の複数の要素周期性信号を生成する場合、(4)当該要素周期性 信号生成部が生成した複数の要素周期性信号を合成し、その合成結果を、周期性 信号の消失が発生した区間に配置することを特徴とする。
[0022] さらに、第 3の本発明では、所定の区間に分割されて時系列に受信される周期性信 号の任意の区間で消失が発生したとき、その消失を補償する消失補償プログラムに おいて、コンピュータに、(1)新しく受信された 1または複数の区間の周期性信号を 所定時間分、記憶する周期性信号記憶機能と、(2)前記周期性信号の消失を区間 ごとに検出する消失検出機能と、 (3)当該消失検出機能によって消失が検出された 場合、その時点で、前記周期性信号記憶機能に記憶されている周期性信号をもと〖こ 、異なる波形を持つ補間用の複数の要素周期性信号を生成する要素周期性信号生 成機能とを実現させ、(4)当該要素周期性信号生成機能が生成した複数の要素周 期性信号を合成し、その合成結果を、周期性信号の消失が発生した区間に配置す ることを特徴とする。
発明の効果
[0023] 本発明によれば、柔軟性を高め、広い意味での通信品質を高めると共に、記憶資 源を節約することができる。
図面の簡単な説明
[0024] [図 1]第 1の実施形態の動作説明図である。
[図 2]従来の補間音声作成動作を示す概略図である。
[図 3]第 1〜第 5の実施形態の通信端末の内部構成例を示す概略図である。
圆 4]第 1の実施形態で使用する補償器の内部構成例を示す概略図である。
[図 5]第 2の実施形態で使用する補償器の内部構成例を示す概略図である。
[図 6]第 3の実施形態で使用する補償器の内部構成例を示す概略図である。
[図 7]第 4の実施形態で使用する補償器の内部構成例を示す概略図である。
[図 8]第 4の実施形態で使用する合成部の内部構成例を示す概略図である。
[図 9]第 5の実施形態で使用する補償器の内部構成例を示す概略図である。
[図 10]第 1〜第 5の実施形態にカゝかる通信システムの全体構成例を示す概略図であ る。
符号の説明
[0025] 10· ··復号器、 11、 13, 14, 15· ··補償器、 12· ··消失判定器、 20· ··通信システ ム、 21· ··ネットワーク、 22, 23· ··通信端末、 30a、 30b、 71a、 71b、 90· ··制御 部、 31a、 31b…補間実行部、 32a、 32b…基本周期算出部、 33a、 33b…復号 結果記憶部、 34· ··合成部、 35a、 35b、 75a、 75b、 325a、 325b…補間機能部、 81· ··重み更新部、 96· ··制御切換部、 97· ··状態保持部、 331· ··ランダム重み 生成部、 321, 322· ··切換部、 ΡΚ11〜ΡΚ13· ··ノ ケット、 CD…音声データ、 DC…復号結果、 ER…音声消失情報、 Pa、Pb…基本周期。 発明を実施するための最良の形態
[0026] (A)実施形態
以下、本発明にかかる受信装置および方法を、 VoIPを用いた音声通信に適用し た場合を例に、実施形態について説明する。
[0027] (A— 1)第 1の実施形態の構成
本実施形態にカゝかる通信システム 20の全体構成例を図 10に示す。
[0028] 図 10において、当該通信システム 20は、ネットワーク 21と、通信端末 22, 23とを備 えている。
[0029] このうちネットワーク 21はインターネットであってもよぐ通信事業者が提供し、ある 程度、通信品質が保証された IPネットワークなどであってもよ 、。
[0030] また、通信端末 22は例えば IP電話機 (VoIP対応電話機)のような音声通話をリア ルタイムで実行することのできる通信装置である。 IP電話機は、 VoIP技術を利用し、 IPプロトコルを用いるネットワーク上で音声データをやり取りして通話を行うことを可能 にする。通信端末 23も、当該通信端末 22と同じ通信装置である。
[0031] 通信端末 22はユーザ U1によって利用され、通信端末 23はユーザ U2によって利 用される。通常、 IP電話機ではユーザ間の会話を成立させるために双方向に音声が やり取りされるものである力 ここでは、通信端末 22から音声フレーム(フレーム)を含 む IPパケット(パケット) PK11〜PK13などが送信され、これらのパケットがネットヮー ク 21経由で通信端末 23に受信される方向に注目して説明を進める。
[0032] 1フレームの長さに限定はないが、例えば、 10msなどであってよい。さらに、符号化 方式としては PCM音声符号ィ匕方式を用いるものであってよ 、。
[0033] 前記パケット PK11〜PK13に含まれるフレームにはユーザ U1が発話した内容(音 声情報)を示す音声データが収容されているので、この方向に関する限り、通信端末 23は受信処理のみを行い、ユーザ U2はユーザ U1が発話した音声の聴取のみを行 う。なお、 1つのパケットに複数のフレームが含まれる構成とすることも可能であるが、 ここでは、説明を簡単にするために 1つのパケットには 1つのフレームが含まれるもの とする。
[0034] これらのパケットのうち ΡΚ11〜ΡΚ13のあいだでは送信の順番(これは、受信側に おける再生出力の順番に対応)が決まっている。すなわち、 PK11〜PK13は、 PK1 1, PK12, PK13,…の順番で送信が行われる。
[0035] 前記パケットが PK11, PK12, PK13,…の順番で送信されると、多くの場合、この 順番で欠けることなく全パケットが通信端末 23に受信されるが、ネットワーク 21上に おけるルータ(図示せず)の輻輳などの事象に起因してパケット損失が発生すること がある。パケット損失で失われたパケットは、例えば、 PK13であってもよい。
[0036] 当該パケット PK11を前記フレーム F2に対応するものとすると、パケット PK12は前 記フレーム F3に対応し、パケット PK13は前記フレーム F4に対応する。このため、例 えば、当該パケット PK13がネットワーク 21上で失われると、フレーム F4が失われ、フ レーム F4に対応する区間で音声消失が発生する。
[0037] 本実施形態の特徴は受信側の機能にあるため、以下では、前記通信端末 23に注 目して説明する。通信端末 23の主要部の構成例を図 1に示す。前記通信端末 22が 受信処理を行うためにこれと同じ構成を備えて 、てよ 、ことは当然である。
[0038] (Α— 1 1)通信端末の構成例
図 3において、当該通信端末 23は、復号器 10と、補償器 11と、消失判定器 12とを 備えている。
[0039] このうち復号器 10は、当該通信端末 23が受信したパケット (例えば、 PK11など)ご とにそのパケットから抽出された音声データ (例えば、 CD11)を復号し、復号結果( 例えば、 DC11)を出力する部分である。ここで、当該復号器 10による復号処理の単 位(処理単位)となるのは、前記フレームである。ここで、パケット PK11から得られる 復号結果を DC11、パケット PK12から得られる復号結果を DC12、パケット PK13か ら得られる復号結果を DC13とする。音声通話が継続し音声消失が発生しなければ 、 DC13以降の復号結果も得られることは当然である。
[0040] なお、個々の音声データを区別する必要がある場合には、 CD11〜CD13などの 符号を用い、音声データを総称する場合には CDをその符号として用いる。同様に、 個々の復号結果を区別する必要がある場合には、 DC11〜DC13などの符号を用い 、復号結果を総称する場合には DCをその符号として用いる。復号結果 DCは、 1パ ケットから得られた復号結果 (例えば、 DC1)の一部を指す場合や、連続する複数パ ケットから得られた復号結果 (例えば、 DC1および DC2)の一部を指す場合もある。
[0041] 通常、人間が発話する音声には、振幅がランダムに変化する雑音部分と、ほぼ一 様な周期で繰り返す周期音部分があり、周期音部分の繰り返し周期のことを基本周 期と呼ぶ。したがって、復号結果である DC11〜DC13からも基本周期を求めること ができる。
[0042] なお、 1つの音声データ(例えば、 CD11)は送信側の通信端末 22でサンプリングさ れ符号ィ匕された結果として得られたものであるため、そこに含まれるサンプル数は任 意に決めることができる力 一例として、 160サンプル程度であってもよい。
[0043] 補償器 11は、本実施形態で特徴的な構成要素であり、音声消失が発生したとき、 補間を実行する。補償器 11の構成および機能の詳細については、後で説明する。
[0044] 消失判定器 12は音声消失の有無を判定する部分で、その判定結果を音声消失情 報 ERとして出力する。音声消失の有無は様々な方法で判定できる可能性があるが、 受信されるべきパケットが受信されな力 たことをもって音声消失が起きたと判定する ことちでさる。
[0045] その場合、例えば、伝送されてくるパケットに含まれる RTPヘッダなどが持つ、送信 側で連番となるように付与したシーケンス番号が欠落して 、る場合や順序が入れ替 わりすでに到着したパケットのシーケンス番号より古い番号であった場合に音声消失 が発生したと判定する手法や、当該 RTPヘッダに含まれる、送信側で付与した送信 時刻情報であるタイムスタンプの値をもとに遅延が所定値以上に大きいパケットを受 信した時に音声消失が発生したと判定してもよい。また、伝送誤りが検出された場合 なども音声消失として扱ってよい。消失判定器 12は、復号器 10内部でこのような機 能を実現することも可能である。
[0046] 前記補償器 11の内部構成は例えば図 4に示した通りである。
[0047] (A— 1— 2)補償器の内部構成例
図 4において、当該補償器 11は、 2つの補間機能部 35a、 35bと、合成部 34とを備 えている。
[0048] このうち補間機能部 35aと 35bは同じ内部構成を備えている。すなわち、補間機能 部 35aは、制御部 30aと、補間実行部 3 laと、基本周期算出部 32aと、復号結果記憶 部 33aとを備え、補間機能部 35bは、制御部 30bと、補間実行部 31bと、基本周期算 出部 32bと、復号結果記憶部 33bとを備えている。
[0049] ここで、制御部 30aは制御部 30bに対応し、補間実行部 31aは補間実行部 31bに 対応し、基本周期算出部 32aは基本周期算出部 32bに対応し、復号結果記憶部 33 aは復号結果記憶部 33bに対応する。このように補間機能部 35aの機能と、補間機能 部 35bの機能は同じなので、以下では、主として、補間機能部 35aに注目して説明 する。
[0050] 補間機能部 35a内において、制御部 30aはハードウェア的には CPU (中央処理装 置)として機能し、ソフトウェア的には OS (オペレーティングシステム)など制御プログ ラムとして機能し得る部分である。したがって、当該補間機能部 35a内の各構成要素 31a〜33aは、当該制御部 30aによって制御される。
[0051] 本実施形態では、まったく同じ内容の復号結果 DCの信号列が補間機能部 35aと 3 5bに供給される力 補間機能部 35a内で当該復号結果 DCを受け取るのが、補間実 行部 3 laである。
[0052] 補間実行部 31aの役割は音声消失が発生していない通常時 (後述する正常状態 に対応)と、音声消失が発生した消失時 (後述する消失補償状態に対応)で相違する 。通常時には、復号器 10から受け取った復号結果 DCを制御部 30aと合成部 34に 供給するだけであるが、消失時には、復号結果 DCの信号列中、音声消失によって 有効な復号結果 DCが存在しない区間に、制御部 30aから供給された補間音声デー タ TP1を挿入し、挿入結果も含む信号列を合成部 34に供給する。当該補間実行部 31 aが合成部 34に供給する、主として復号結果 DC力 なる信号列が中間信号 VI である。通常時、当該中間信号 VIは復号結果 DCとまったく同じ内容の信号列であ る力 消失時には、音声消失によって有効な復号結果 DCが存在しない区間に、前 記補間音声データ TP1が挿入された信号列となる。
[0053] なお、前記消失時は、音声消失が単発的に 1フレームでのみ発生した場合と、複数 フレームに渡って連続的に発生した場合に細分することができる力 本実施形態が 従来に比べて優れた効果を発揮するのは、主として、連続的に発生した場合である。
[0054] 復号結果記憶部 33aは、前記補間実行部 31aが制御部 30aに供給した復号結果 DCを記憶する部分で、揮発性または不揮発性の記憶手段によって構成される。実 装にも依存するが、リアルタイム性が重要な音声通話を前提とすると、当該復号結果 記憶部 33aとしては、高速な読み書きアクセスが可能な高価な記憶手段が用いられ る可能性が高い。
[0055] 復号結果記憶部 33aの記憶容量の上限はどのように決めることも自由であるが、こ こでは、 1基本周期分の復号結果 DCを記憶できる容量であるものとする。 1基本周期 の長さは、その音声の内容に応じて変動するので、厳密に 1基本周期分を記憶しょう とすると、予め 1基本周期の長さが判明しているような特殊なケースを除き、記憶の前 にその復号結果の基本周期を算出し、 1基本周期分だけを取得して記憶する操作が 必要になるし、基本周期の算出のため、 1基本周期分以上の復号結果を一時的に記 憶する作業用の記憶領域が必要になる可能性が高い。ただしこれは、前記非特許文 献 1の技術を現実の機器に実装する場合に必ず発生する問題であるため、前記非 特許文献 1にしたがい、厳密に 3基本周期分の復号結果を記憶する場合にも、実際 には、記憶の前に基本周期を算出しなければならないし、作業用の記憶領域などに 3基本周期分以上の記憶容量が必要になる可能性が高い。なお、一般的には、 1基 本周期分の復号結果が、 1フレームの復号結果の中力 得られることもあり、複数フレ ームにわたる復号結果力 得られることもある。
[0056] 復号結果記憶部 33aに、例えば、 1基本周期の長さの変動範囲の上限(固定値)に 比べて十分に大きな記憶容量を用意しておき、その記憶容量を満たすだけの最新の 復号結果を記憶するようにしてもょ 、。 1フレーム分の復号結果 DCが前記変動範囲 の上限に比べて十分に長い場合には、復号結果記憶部 33aは、 1フレーム分の復号 結果 DCを記憶できるだけの記憶容量を持たせるようにすることもできる。また、この場 合には、復号結果記憶部 33aに記憶する前の基本周期の算出も省略できるため、作 業用の記憶領域や計算量の節約にも寄与できる。
[0057] 記憶容量が 1基本周期分(1フレーム分)しかないと、新たなフレームから 1基本周 期分の復号結果 DCを取得するたびに (新たな 1フレームが到着するたびに)、前回、 記憶した 1基本周期分(1フレーム分)の復号結果 DCを上書きすること等が必要とな り、常時、最も新しい 1基本周期分(1フレーム分)の復号結果 DCのみが当該復号結 果記憶部 33aに記憶された状態になる。なお、音声消失が発生した区間では、有効 な復号結果 DCが供給されないため、復号結果記憶部 33a上では、上書きされること なぐ直前に記憶された 1基本周期分の復号結果 DCの記憶が維持される。音声消 失が複数フレームに渡って継続した場合も同様である。
[0058] 消失判定器 12が、音声消失が検出された旨の音声消失情報 ERを制御部 30aに 供給してくると、制御部 30aはその区間に音声消失が発生していることを認識できる ため、復号結果記憶部 33a上の記憶を維持するように制御することが可能である。
[0059] 基本周期算出部 32aは、音声消失が発生していない状態力 音声消失が発生して Vヽる状態へ移行した時点で復号音声記憶部 32aに記憶されて ヽる復号結果 DCを用 いて、その基本周期を算出する部分である。基本周期は様々な方法で求めることが できる可能性があるが、例えば、復号結果記憶部 33aに記憶されている復号結果 D Cから公知の自己相関関数を求め、この自己相関関数が極大となるような遅延量を 計算することにより算出することも可能である。
[0060] 音声消失が発生して!/、な 、状態力 音声消失が発生して 、る状態へ移行するタイ ミングは、制御部 30aが前記音声消失情報 ERに基づ 、て認識することができる。
[0061] 音声消失情報 ERは補間機能部 35b内の制御部 30bにも供給されているため、補 間機能部 35bとほぼ同時に、補間機能部 35aでも基本周期を求めることができる。本 実施形態では、制御部 30aが補間実行部 31aに供給する前記補間音声データ TP1 と、制御部 30bが補間実行部 31bに供給する補間音声データ TP2が異なるものとな るようにする必要がある力 復号結果記憶部 33aと 33bには同じ内容の復号結果 DC が記憶されているため、基本周期を求める方法が同じであれば、補間機能部 35aで 得られる補間音声データ TP1と補間機能部 35bで得られる補間音声データ TP2は 同じものになってしまうので、基本周期を相違させるものとする。
[0062] 同じ内容の復号結果 DC力 異なる基本周期を得る方法としては、様々なものがあ り得るが、本実施形態では、いずれか先に基本周期を算出した側の制御部 (例えば 、 30a)から他方の制御部(例えば、 30b)へ算出した基本周期の値を伝え、他方では 、その値を除外して基本周期を算出させるものとする。
[0063] 放置しておくと、ほぼ同時に補間機能部 35aと 35b内で基本周期の算出が完了す る可能性が高いため、いずれか一方で先に算出させ、その算出結果を受け取ったあ と、他方に算出させるようにするとよい。いずれが先でも力まわないが、例えば、補間 機能部 35a側が先で、補間機能部 35b側が後としてもよい。
[0064] 補間機能部 35a内の基本周期算出部 32aが算出した基本周期を Pa、補間機能部 35b内の基本周期算出部 32bが、当該 Paの値を含まない探索範囲のな力から算出 した基本周期を Pbとする。一例として、基本周期 Paの値が 5ms〜15msであった場 合、基本周期 Pbは 2. 5ms〜Pa (ただし、 Pa自体は除外)の間などであってよい。
[0065] 一般に、音声信号は多数の周波数成分を足し合わせたものであると考えられるた め、最も成分の大きい基本周期が前記 Pa、次に成分の大きい基本周期が前記 Pbと なるようにすることが可能である。したがって、 Pbは復号結果記憶部 33bに記憶され ている復号結果 DCの本来の基本周期(本来の基本周期は Pa)とは異なるものの、復 号結果 DCの特徴を反映したものであるといえる。
[0066] 必要ならば、上述したように制御部 30aから 30bへ、算出した基本周期 Paを伝える ようにしてもよいが、復号結果 DCを復号結果記憶部 33bに記憶するまえに 1基本周 期を算出する場合、その値を記憶しておけば、制御部 30bは、 Paを認識でき、 Paと 異なる探索範囲のな力から基本周期 Pbを探索することが可能である。
[0067] 合成部 34は、補間機能部 35a内の補間実行部 31aから供給された中間信号 VIと 、補間機能部 35b内の補間実行部 31bから供給された中間信号 V2に重み係数を付 与したあと、合成し、合成結果を最終的な出力音声信号 Vとして出力する部分である 。中間信号 VIに付与する重み係数を α、中間信号 V2に付与する重み係数を |8と すると、 α + j8 = 1. 0になるようにするとよい。一例として、 a = 0. 8, β = 0. 2であ つてよい。
[0068] 以下、上記のような構成を有する本実施形態の動作につ!、て説明する。
[0069] 本実施形態において、受信時の通信端末 23の動作は、 4つに分けることができる。
第 1は、音声消失が発生することなぐフレームが «続して正常に受信されつづける 正常状態に実行される正常動作で、第 2は、 1フレーム分の音声消失が検出され正 常状態から消失補償状態に移行するときに実行される消失移行動作で、第 3は、消 失補償状態カゝら前記正常状態に移行するときに実行される正常移行動作である。な お、前記消失補償状態は、 1フレーム分の音声消失で終了する場合と、複数フレー ム分の音声消失が発生する場合に分けることができる。
[0070] ここで、正常状態は、直前のフレームおよび現在のフレームが有効に受信され、とも に有効な復号結果 DCが得られた状態である。また、消失移行動作は、直前のフレー ムは受信され有効な復号結果 DCが得られたものの、現在のフレームは受信できず、 有効な復号結果 DCが得られな ヽときに実行される。
[0071] 前記正常移行動作は、直前のフレームは受信できず有効な復号結果 DCが得られ な力つたものの、現在のフレームは受信でき有効な復号結果 DCが得られたときに実 行される。なお、複数フレーム分の音声消失が発生する場合、直前のフレームも現在 のフレームも受信できず、ともに有効な復号結果 DCが得られな 、。
[0072] (A— 2)第 1の実施形態の動作
ユーザ U2が利用する前記通信端末 23が、ユーザ U1が利用する通信端末 22から 送信された(フレームを含む)時系列なパケット PK11, PK12, PK13,…を受信する ことにより VoIP通信が行われ、前記正常動作を実行する通信端末 23からユーザ U1 が発話した音声が出力されるので、ユーザ U2はその音声を聴取することができる。
[0073] この正常動作が行われているとき、通信端末 23内の復号器 10では、復号結果 DC 11, DC12, DC13,…からなる復号結果 DCの信号列を出力し、この信号列が補間 実行部 31a、 31bを介して合成部 34に供給される。正常動作が実行される正常状態 では、前記音声消失が発生しないため、補間実行部 31a、 31bは、復号器 10から受 け取った信号列を中間信号 VI, V2としてそのまま合成部 34へ供給し、合成部 34は 、合成結果である出力音声信号 Vを出力する。ユーザ U2が聴取するのは、この通信 端末 23が出力音声信号 Vに対応する音声である。
[0074] このときまた、補間実行部 31a、 31bは、復号器 10から受け取った復号結果 DCを 制御部 30a、 30bに供給するので、新たに 1フレーム分の復号結果 DCの供給を受け るたびに、制御部 30a、 30bは新たな 1基本周期分(1フレーム分)の復号結果 DCを 算出し、算出結果を復号結果記憶部 33a、 33bに記憶する。復号結果記憶部 33a、 33bは、 1基本周期分(1フレーム分)の復号結果を記憶できるだけの記憶容量しか 持たないため、ある 1基本周期(1フレーム分)に対応する復号結果 (例えば、 DC11 の一部)の記憶は次の 1基本周期(1フレーム分)に対応する復号結果 (例えば、 DC 12の一部)が記憶されたときに失われる。したがって、当該復号結果記憶部 33a、 33 bに残るのは、最新の 1基本周期分( 1フレーム分)の復号結果 DCだけである。
[0075] 例えば、復号結果 DC12から得られた 1基本周期分の復号結果 DCが復号結果記 憶部 33aと 33bに記憶された直後に、消失判定器 12から、音声消失が検出された旨 の音声消失情報 ERが制御部 30a、 30bに供給されると、前記消失移行動作が実行 され、補償器 11は、正常状態から消失補償状態に移行する。このとき制御部 30a、 3 Obは、音声消失によって失われた復号結果 DC13を補償するために前記補間音声 データ TP1, TP2を生成する必要性を認め、各基本周期算出部 32a、 32bに、その 時点で復号結果記憶部 33a、 33b内に記憶されている 1基本周期分の復号結果 (例 えば、 DC12)を利用して基本周期を算出するように指示する。
[0076] 復号結果記憶部 33aに記憶する前に、上述した通り 1基本周期を算出している場 合には、その算出結果を記憶してお!、て再利用するようにしてもょ 、。
[0077] ここで、基本周期算出部 32aは、図 1に示すように、基本周期として Paを算出したも のとすると、基本周期算出部 32bは当該 Paとは異なる値の基本周期 Pbを算出する。
[0078] 図 1の例では、復号結果記憶部 33a、 33b内に本来の 1基本周期 Paより、わずかに 大きな復号結果 DCを記憶している。この復号結果 DCは、ここでは、 1フレーム分の 復号結果であってもよい。
[0079] この場合、 1基本周期 Pa分の復号結果 W1は、時間的に 1フレーム分より短ぐ不足 が生じるから、補間機能部 35a内の制御部 30aは、 1基本周期 Pa分の復号結果 W1 の一部である W11を用いて、不足を補っている。ここでの処理は、上述した図 2 (C) で S42を S41につなぎ合わせたときと同様の処理であってよい。また、接合部が波形 的に連続したものとなるように、重ね合わせ加算などを行う点も図 2 (C)の場合と同様 でよい。また、このとき、補間音声データ TP1の波形の最初の部分は、消失直前の終 了位相と合わせたものとし、接合部が波形的に連続したものとなるようにする。
[0080] このようにして制御部 30aが生成した補間音声データ TP1は、補間実行部 31aに供 給され中間信号 VIの信号列の一部として合成部 34に供給される。
[0081] このとき、ほぼ同時に、補間機能部 35b内では、基本周期算出部 32bが、前記 Paと は異なる値の基本周期 Pbを算出するので、制御部 30bは、復号結果記憶部 33bに 記憶されている 1フレーム分の復号結果から、当該基本周期 Pb分の復号結果 W2を 取得し、時間的な不足は、同じ復号結果 W2の一部である W21を用いて補っている
[0082] このようにして制御部 30bが生成した補間音声データ TP2は、図 1に示すように、 T P1とは異なる波形を持っている。当該補間音声データ TP2は、補間実行部 31bに供 給され中間信号 V2の信号列の一部として合成部 34に供給される。
[0083] 合成部 34では、当該補間音声データ TP1, TP2に対し、前記重み係数 α、 j8を付 与して合成し、合成結果を、出力音声信号 Vとして出力する。
[0084] 補間音声データ TP1および TP2は、同じ復号結果 DCに基づいて生成されたもの であるため、本来の音声を示す復号結果 DCの特徴を反映したものとなっている。し たがって、 TP1と TP2を合成することによって生成される出力音声信号 Vも、本来の 音声を示す復号結果 DCの特徴を反映したものであり、聴取するユーザ U2は、ほと んど違和感を感じず、高い音質を実現できる可能性が高い。また、このようにして生 成された出力音声信号 Vは、通常、有効な復号結果 DCが得られた直前のフレーム に対応する区間の出力音声信号 Vと異なる波形になる。
[0085] 音声消失が 1フレーム分で終了した場合には、このあと直ちに、有効な復号結果 D C14 (図示せず)が復号器 10から供給されるため、補償器 11は正常移行動作を実 行し、復号結果記憶部 33a、 33bには、当該復号結果 DC14に対応する 1フレーム 分 (または、 1基本周期分)の復号結果が記憶されることになる。この際、有効な復号 結果と生成した補間音声との接合部が波形的に連続したものとなるように、重ね合わ せ加算の処理を行ってもょ 、。
[0086] 一方、音声消失が 1フレームで終了せず、複数フレームにわたって継続した場合に は、制御部 30a、 30bから図 1に示した波形の補間音声データ TP1, TP2が補間実 行部 31a、 31bに出力されるものであってもよい。ただし、継続する音声消失の 2フレ ーム目以降に対応する補間音声データ TP1, TP2の生成では、前フレームで補間 音声データを生成するのに使用した最後のサンプルの次のサンプルから、生成を開 始するようにすることも望ましい。これにより、波形的な連続性が確保できるほか、記 憶されている限られた復号結果 DCを有効活用することができ、出力音声信号 V中に おける同じ波形の単位時間あたりの繰り返し頻度を低減することもできる。また、復号 結果記憶部 33a、 33bに記憶されている限られた期間の復号結果 DCのなかで、補 間音声データ TP1, TP2に使用する期間を変化させることも望ましい。
[0087] いずれにしても、復号結果記憶部 33a、 33bに記憶されている限られた復号結果 D じから、循環的な方法で取得した補間音声データ TP1, TP2をそのまま出力したの では、図 1に示した波形の出力音声信号 Vなど、 1または複数の波形の出力が繰り返 されてしまい、ビープ音などの原因となり得る。ビープ音などの異音の発生を避ける には、例えば、重み係数 α、 βを変更することも望ましい。これによつて、音声消失が 、 3基本周期より、はるかに長い時間つづいても、無音が出力されることなぐ有効な 音声消失補償を継続することが可能であるから、ユーザ U2にとつて、音質が高いも のとして認識され得る。
[0088] また、復号結果記憶部 33a、 33bの記憶容量は、 1フレーム分または 1基本周期分 程度で足りるから、従来よりも、はる力に小さい。
[0089] 音声消失が継続して!/、たとき、新たに有効な復号結果 DCが補償器 11に供給され ると、前記正常移行動作が実行される点は、音声消失が 1フレーム分で終了した場 合と同様である。
[0090] (A— 3)第 1の実施形態の効果
本実施形態によれば、音声消失が長期間つづいた場合でも有効な音声消失補償 を継続することが可能であるから、柔軟性を高め、広い意味での通信品質 (例えば、 ユーザ U2が感じる音質)を高めると共に、記憶資源を節約することができる。
[0091] (B)第 2の実施形態
以下では、本実施形態が第 1の実施形態と相違する点についてのみ説明する。
[0092] 本実施形態が第 1の実施形態と相違するのは、補償器の内部構成に関する点に限 られる。
[0093] (B— 1)第 2の実施形態の構成および動作
本実施形態の補償器 13の内部構成例を図 5に示す。
[0094] 図 5において、当該補償器 13は、 2つの補間機能部 325a、 325bと、合成部 34と、 切換部 321, 322とを備えている。
[0095] このうち補間機能部 325aと 325bは同じ内部構成を備えている。すなわち、補間機 能部 325aは、制御部 30aと、補間実行部 3 laと、基本周期算出部 32aと、復号結果 記憶部 323aとを備え、補間機能部 325bは、制御部 30bと、補間実行部 31bと、基本 周期算出部 32bと、復号結果記憶部 323bとを備えている。
[0096] ここで、図 4と同じ符号を付与した各構成要素の機能は第 1の実施形態と同じなの で、その詳しい説明は省略する。
[0097] 本実施形態では、切換部 321および 322に関連する部分に特徴がある。
[0098] 切換部 321は、前記正常状態では、復号結果 DCを復号結果 IN1として補間実行 部 31aに供給するのみである。これを受けた補間機能部 325a内では、復号結果記 憶部 323aに新しい 1フレーム (または、 1基本周期)に対応する復号結果 IN 1が記憶 される力 補間機能部 325b内ではそのような記憶は行われない。このとき、補間実行 部 31b、基本周期算出部 32b、復号結果記憶部 323bなど補間機能部 325b内の各 部は有効な動作を実行しな 、休眠状態を維持するものであってょ 、。休眠状態では 、記憶資源や演算能力がほとんど使用されないため、記憶資源の節約や計算量の 抑制に寄与する。
[0099] また、切換部 322は、補間実行部 31aから供給される中間信号 VIの供給のみを受 け、当該中間信号 VIを合成部 34または接続点 P1に出力する。
[0100] 切換部 322が接続点 P1へ中間信号 VIを出力するのは、前記正常状態にあるとき である。正常状態ではそのまま、当該中間信号 VIが最終的な前記出力音声信号 V として出力される。この場合、合成部 34は第 1の実施形態のように重み係数ひ、 βに 関する処理を行う必要がないため、その分、記憶資源を節約し、計算量を抑制するこ とがでさる。
[0101] 音声消失が発生して前記消失補償状態に移行すると切換部 322は、中間信号 VI を合成部 34に出力するようになる。このとき、制御部 30a、 30bに前記音声消失情報 ERで音声消失が検出された旨が伝えられるため、制御部 30a、 30bは、前記正常状 態に復号結果記憶部 323aに記憶された復号結果 DCを、復号結果記憶部 323bへ コピーさせる(DCa)。このコピー以後は、復号結果記憶部 323aと 323bに同じ内容 の復号結果 DCが記憶された状態となるため、第 1の実施形態と同様にして、 2つの 補間機能部 323a、 323b内で前記補間音声データ TP1 , TP2を生成することが可 能である。生成された補間音声データ TP1 , TP2がそれぞれ補間実行部 31a、 31b に供給され、合成部 34で合成される点も第 1の実施形態と同じである。
[0102] このときの合成では、本実施形態でも、前記重み係数 aと βを用いるようにするとよ い。これにより、音声消失が長期間つづいた場合でも、異音の発生を抑制しながら、 有効な音声消失補償を継続することが可能となる。
[0103] なお、前記正常状態力 消失補償状態に移行したとき、切換部 321から、前記復 号結果 IN1と同じ内容の復号結果 ΙΝ2を補間実行部 31bに供給するようにしてもよ い。ただしこのとき、復号器 10からは音声消失により有効な復号結果 DCが供給され ない状態となっているのであるから、フレームのタイミングを知らせるための信号など、 制御用の信号を供給する必要がある場合などを除き、復号結果 IN2を補間実行部 3 lbへ供給する必要性は低 、。消失補償状態にぉ 、て復号結果 IN2を補間実行部 3 lbに供給しないなら、切換部 321は省略可能であり、復号器 10から出力される復号 結果 DCは補間実行部 31aにのみ供給することになる。
[0104] 正常状態へ復帰した場合には、再度、切換部 322は接点 P1へ中間信号 VIを出 力するようになる。このときまた、補間機能部 325b内の各部は有効な動作を実行しな い休眠状態に復帰する。
[0105] (B— 2)第 2の実施形態の効果
本実施形態によれば、第 1の実施形態の効果と同等な効果を得ることができる。
[0106] 力!]えて、本実施形態では、正常状態において一方の補間機能部(325b)が休眠状 態にあることや、合成部(34)が機能しないことから、記憶資源をいつそう節約し、計 算量を 、つそう抑制することが可能である。
[0107] (C)第 3の実施形態
以下では、本実施形態が第 1、第 2の実施形態と相違する点についてのみ説明す る。
[0108] 本実施形態が第 1、第 2の実施形態と相違するのは、補償器の内部構成に関する 点に限られる。 [0109] 第 1、第 2の実施形態のなかでは、第 1の実施形態のほうが本実施形態に近い。
[0110] (C 1)第 3の実施形態の構成および動作
本実施形態の補償器 14の内部構成例を図 6に示す。
[0111] 図 6において、当該補償器 14は、 2つの補間機能部 35a、 35bと、合成部 334とを 備えている。
[0112] このうち補間機能部 35aと 35bは同じ内部構成を備えている。すなわち、補間機能 部 325aは、制御部 30aと、補間実行部 3 laと、基本周期算出部 32aと、復号結果記 憶部 33aとを備え、補間機能部 35bは、制御部 30bと、補間実行部 31bと、基本周期 算出部 32bと、復号結果記憶部 33bとを備えている。
[0113] ここで、図 4と同じ符号を付与した各構成要素の機能は第 1の実施形態と同じなの で、その詳しい説明は省略する。
[0114] 本実施形態は合成部 334の内部構成が第 1の実施形態と異なる。
[0115] 合成部 334では、ランダム重み生成部 331がランダムな値の重み係数ひ、 βを生 成する。この場合でも、 α + j8 = 1の関係は維持されるものであってよい。ランダム重 み生成部 331は、音声消失情報 ERが、音声消失の発生を伝えてきたときにのみ動 作して、ほぼ白色雑音的にランダムな値を生成するものである。
[0116] ランダムに決定される aの値は、 0. 5< α≤ 1の範囲を満たすものである。
[0117] ただしこの範囲の内部において、さらに範囲を限定してもよい。例えば、 0. 7≤ a ≤0. 8などとしてもよ!/、。
[0118] また、最終的に αの値が、ほぼランダムに決定されるものであれば、 αの決定にど のような方法を用いても力まわない。例えば、時系列に αの値が更新されるとき、更 新前の aの値からの変化量をランダムに生成するようにしてもよい。
[0119] ランダムな値の生成には様々な方法を利用できる可能性があるが、本実施形態の 場合、必ずしもそれほど厳密なランダム性を必要としないので、擬似乱数などを利用 することができる。
[0120] また、 aの値の更新頻度は様々な値にすることが可能である力 フレームごとに更 新するようにしてちょい。
[0121] 重み係数ひ、 βの値を、所定値以上の時間頻度で (例えば、フレームごとに)ランダ ムに変化させることができれば、最終的な出力音声信号 Vで、同じ波形が繰り返され る可能性がほとんどなくなるため、ビープ音などの異音が発生されに《なる。
[0122] (C 2)第 3の実施形態の効果
本実施形態によれば、第 1の実施形態の効果と同等な効果を得ることができる。
[0123] 力!]えて、本実施形態では、重み係数( α、 j8 )の値を所定値以上の時間密度でラン ダムに変化させるため、音声消失が長時間つづいた場合でも、ほぼ確実に、ビープ 音などの異音の発生を抑制することができる。
[0124] これにより、ユーザ (U2)が聴取する音声の品質力 ^、つそう高くなり、通話時の聴覚 疲労を軽減することが可能である。
[0125] (D)第 4の実施形態
以下では、本実施形態が第 1〜第 3の実施形態と相違する点についてのみ説明す る。
[0126] 本実施形態が第 1〜第 3の実施形態と相違するのは、補償器の内部構成に関する 点に限られる。
[0127] 第 1〜第 3の実施形態のなかでは、第 2の実施形態が本実施形態に最も近い。
[0128] (D 1)第 4の実施形態の構成および動作
本実施形態の補償器 15の内部構成例を図 7に示す。
[0129] 図 7において、当該補償器 15は、 2つの補間機能部 75a、 75bと、切換部 321, 32
2と、合成部 72とを備えている。
[0130] このうち補間機能部 75aと 75bは同じ内部構成を備えている。すなわち、補間機能 部 75aは、制御部 71aと、補間実行部 31aと、基本周期算出部 32aと、復号結果記憶 部 323aとを備え、補間機能部 75bは、制御部 71bと、補間実行部 31bと、基本周期 算出部 32bと、復号結果記憶部 323bとを備えている。
[0131] 以上の各構成要素のうち、図 5と同じ符号を付与した各構成要素の機能は第 2の実 施形態と同じなので、その詳しい説明は省略する。
[0132] 本実施形態は制御部 71a、 71bの機能の一部と、合成部 72の内部構成が第 2の実 施形態と異なる。
[0133] 本実施形態の制御部 71a、 71bは、自補間機能部 75a、 75b内の基本周期算出部 32a、 32bが算出した基本周期 PI , P2を合成部 72に伝える機能を備えている。基本 周期 P1は前記 Paに対応し、基本周期 P2は前記 Pbに対応するものであってよい。
[0134] 合成部 72は例えば図 8に示す内部構成を備え、その重み更新部 81が、供給を受 けた基本周期 PI , P2に応じた重み係数ひ、 |8を生成する。
[0135] 重み更新部 81が、基本周期 PI , P2をもとに重み係数 a、 j8を更新 (生成)する方 法には様々なものがあり得るが、例えば、予め P1 > P2という条件を満たす P1と P2を 生成するように設定しておき、 α + j8 = 1、 P2ZP1とするようにしてもよい。
[0136] あるいは、 α = 1—(P2— P1)Z(PM— Pm)にしたがって αの値を決定するように してちよい。
[0137] ここで、 ΡΜは計算し得る基本周期の最大値を示し、 Pmは計算し得る基本周期の 最小値を示す。
[0138] また、別な方法として、基本周期以外の特徴量 (例えば、パワーやスペクトルなど) をもとに所定の規則にしたがって αの値を決定するようにしてもよい。この場合、前記 消失補償状態に移行したときに OCの値を設定し、正常状態に復帰するまで同じ OCの 値を用いるものであってよ 、。
[0139] あるいは、制御部 71a、 71bから、前記基本周期 Pl、 P2の代わりに復号結果 DCの 波形が持つパワー (例えば、 1基本周期区間の標本値の二乗平均)を毎フレーム区 間出力し、正常状態に復帰するまで、合成部 72は毎フレーム区間 αの値を更新する ようにしてもよい。
[0140] (D— 2)第 4の実施形態の効果
本実施形態によれば、第 2の実施形態の効果と同等な効果を得ることができる。
[0141] 力!]えて、本実施形態では、基本周期(PI , Ρ2)など、復号結果記憶部(323a、 323 b)に記憶して 、る復号結果 (DC)の各種の特徴量を、生成する重み係数の値( ex、 β )に反映させることができるので多様なノリエーシヨンを提供することが可能である。
[0142] これにより、ユーザ (U2)が聴取する音声の品質をいつそう高め、通話時の聴覚疲 労を第 2の実施形態より軽減させることができる可能性がある。
[0143] (Ε)第 5の実施形態
以下では、本実施形態が第 1〜第 4の実施形態と相違する点についてのみ説明す る。
[0144] 本実施形態が第 1〜第 4の実施形態と相違するのは、補償器の内部構成に関する 点に限られる。
[0145] 第 1〜第 4の実施形態のなかでは、切換部 321、 322などを持つ点で、第 4の実施 形態が最も本実施形態に近 、と 、える。
[0146] (E— 1)第 5の実施形態の構成および動作
本実施形態の補償器 16の内部構成例を図 9に示す。
[0147] 図 9において、当該補償器 16は、 1つの補間機能部 95と、切換部 321, 322と、合 成部 72とを備えている。
[0148] 前記補間機能部 95は、補間実行部 31a、 31bと、制御部 90と、基本周期算出部 9 2と、復号結果記憶部 93と、制御切換部 96と、状態保持部 97とを備えている。
[0149] 以上の各構成要素のうち図 7と同じ符号を付与した構成要素の機能は第 4の実施 形態と同じなので、その詳しい説明は省略する。
[0150] また、制御部 90は前記制御部 71aまたは 71bに対応し、基本周期算出部 92は前 記基本周期算出部 32aまたは 32bに対応し、復号結果記憶部 93は前記復号結果記 憶部 323aまたは 323bに対応するので、その詳しい説明は省略する。
[0151] ただし、制御部 90、基本周期算出部 92、復号結果記憶部 93は、補間音声データ TP1,基本周期 P1を生成するときとともに、補間音声データ TP2,基本周期 P2を生 成するときにも機能する点が第 4の実施形態と異なる。
[0152] 本実施形態では、前記正常状態において補間実行部 31a経由で復号結果 IN1が 復号結果記憶部 93に記憶されているため、前記消失補償状態に移行した場合、制 御部 90は、基本周期算出部 92に前記補間音声データ TP1を生成するための基本 周期 P1を算出させ、当該基本周期 P1に基づいて補間音声データ TP1を生成するこ とができる。また、つづくフレーム区間でも音声消失が発生した場合のため、後続の 補間音声データ TP 1を生成する際に必要な各種情報を生成状態情報 Q 1として状 態保持部 97に記憶させる。
[0153] 次に、当該制御部 90は、基本周期算出部 92に前記補間音声データ TP2を生成 するための基本周期 P2を算出させ、当該基本周期 P2に基づいて補間音声データ T P2を生成することができる。そして、つづくフレーム区間でも音声消失が発生した場 合のため、後続の補間音声データ TP2を生成する際に必要な各種情報を生成状態 情報 Q2として状態保持部 97に記憶させる。
[0154] 生成状態情報 Ql, Q2には様々な情報が含まれ得るが、例えば、復号結果記憶部
93に記憶されている復号結果 DCのどの部分を使用して今回の補間音声データ TP
1, TP2を生成したかを示す情報などであってょ 、。
[0155] このあと、制御部 90は、制御切換部 96により補間実行部 3 laを実行させて中間信 号 VIの信号列に、生成した補間音声データ TP 1を挿入し、つづいて、制御部切換 部 96により補間実行部 31bを実行させて中間信号 V2の信号列に、生成した補間音 声データ TP2を挿入する。
[0156] これにより、ほぼ同時に、補間音声データ TP1と TP2が合成部 72に供給されるの で、合成部 72では、すでに制御部 90から供給されている基本周期 PI, P2を用いて 重み係数 α、 βを付与し、合成結果である出力音声信号 Vを出力することができる。
[0157] 消失補償状態が 1フレーム分で終了せず、複数フレーム分つづいた場合には、前 記状態保持部 97に記憶されている生成状態情報 Ql, Q2を利用して、後続の補間 音声データ TP1, ΤΡ2を生成し、音声消失補償を継続することができる。
[0158] (Ε— 2)第 5の実施形態の効果
本実施形態によれば、第 4の実施形態の効果と同等な効果を得ることができる。
[0159] 力!]えて、本実施形態では、 1つの補間機能部(95)を用いて、仮想的に、 2つの補 間機能部を持つ場合と同様な機能を実現できるため、いっそう記憶資源を節約し、 計算量を抑制できる可能性が高 、。
[0160] (F)他の実施形態
上記第 1〜第 4の実施形態では、 1つの補償器内に 2つの補間機能部を設けるよう にしたが、 1つの補償器内の補間機能部の数は 3つ以上であってもよい。
[0161] また、上記第 5の実施形態では、 1つの補間機能部内に 2つの補間実行部を設ける ようにした力 1つの補間機能部内の補間実行部の数は 3つ以上であってもよい。
[0162] なお、上記第 1〜第 5の実施形態の特徴は、相互に矛盾しない限り、任意の組み合 わせで複合することが可能である。 [0163] また、上記第 1〜第 5の実施形態では、符号ィ匕方式として PCMを用いたが、本発 明は、様々な符号ィ匕方式に適用することができる。一例として、 ADPCMなどの差分 量子化方式などにも適用可能である。
[0164] さらに、上記第 1〜第 5の実施形態では、電話 (VoIP対応電話機)による音声信号 の通信を例に本発明を説明したが、本発明は、電話による音声信号以外の音声信 号にも適用可能である。例えば、音声'トーン信号などの周期性信号を利用する通信 に広く適用することができる。
[0165] また、本発明の適用範囲は必ずしも音声やトーンなどに限定されない。例えば、動 画像などの画像信号に適用できる可能性もある。
[0166] 符号化方式を変更したり、音声信号の代わりに画像信号などを用いる場合、それに 応じて上記第 1〜第 5の実施形態で、前記正常状態、消失補償状態、正常移行動作 、消失移行動作などの詳細が変更されてもよいことは当然である。
[0167] また、本発明を適用する通信プロトコルは、上述した IPプロトコルに限定する必要は ないことは当然である。
[0168] 以上の説明では主としてハードウェア的に本発明を実現したが、本発明はソフトゥ エア的に実現することも可能である。

Claims

請求の範囲
[1] 所定の区間に分割されて時系列に受信される周期性信号の任意の区間で消失が 発生したとき、その消失を補償する消失補償装置において、
新しく受信された 1または複数の区間の周期性信号を所定時間分、記憶する周期 性信号記憶部と、
前記周期性信号の消失を区間ごとに検出する消失検出部と、
当該消失検出部によって消失が検出された場合、その時点で、前記周期性信号記 憶部に記憶されている周期性信号をもとに、異なる波形を持つ補間用の複数の要素 周期性信号を生成する要素周期性信号生成部とを備え、
当該要素周期性信号生成部が生成した複数の要素周期性信号を合成し、その合 成結果を、周期性信号の消失が発生した区間に配置することを特徴とする消失補償 装置。
[2] 請求項 1の消失補償装置において、
前記要素周期性信号を、受信される周期性信号の列に挿入する挿入実行部と、前 記周期性信号記憶部と、前記要素周期性信号生成部とを備えた補間対応部を複数 備え、
当該各補間対応部に、受信された周期性信号の列を供給することを特徴とする消 失補償装置。
[3] 請求項 1の消失補償装置において、
前記要素周期性信号を、受信される周期性信号の列に挿入する挿入実行部と、前 記周期性信号記憶部と、前記要素周期性信号生成部とを有する補間対応部を複数 備えると共に、
各補間対応部への周期性信号の列の供給を制御する供給制御部を備え、 前記複数の補間対応部のうち少なくとも 1つを親補間対応部、他を子補間対応部と し、前記供給制御部は、前記消失検出部によって周期性信号の消失が検出されて いないときには、前記親補間対応部に周期性信号の列を供給し、検出されたときに は、前記親補間対応部および子補間対応部へ当該周期性信号の列を供給するよう に制御し、前記親補間対応部は自身の周期性信号記憶部に記憶してある 1または複 数の区間の周期性信号を子補間対応部の周期性信号記憶部に格納することによつ て子補間対応部による要素周期性信号の生成を支援することを特徴とする消失補償 装置。
[4] 請求項 1の消失補償装置において、
前記各要素周期性信号生成部が所定の重み係数をもとに異なる波形を持つ要素 周期性信号を生成する場合、所定の係数変更規則にしたがって重み係数の値を変 化させる係数制御部を備えたことを特徴とする消失補償装置。
[5] 所定の区間に分割されて時系列に受信される周期性信号の任意の区間で消失が 発生したとき、その消失を補償する消失補償方法において、
周期性信号記憶部が、新しく受信された 1または複数の区間の周期性信号を所定 時間分、記憶し、
消失検出部が、前記周期性信号の消失を区間ごとに検出し、
要素周期性信号生成部が、当該消失検出部によって消失が検出されたとき、その 時点で、前記周期性信号記憶部に記憶されている周期性信号をもとに、異なる波形 を持つ補間用の複数の要素周期性信号を生成する場合、
当該要素周期性信号生成部が生成した複数の要素周期性信号を合成し、その合 成結果を、周期性信号の消失が発生した区間に配置することを特徴とする消失補償 方法。
[6] 所定の区間に分割されて時系列に受信される周期性信号の任意の区間で消失が 発生したとき、その消失を補償する消失補償プログラムにおいて、コンピュータに、 新しく受信された 1または複数の区間の周期性信号を所定時間分、記憶する周期 性信号記憶機能と、
前記周期性信号の消失を区間ごとに検出する消失検出機能と、
当該消失検出機能によって消失が検出された場合、その時点で、前記周期性信号 記憶機能に記憶されている周期性信号をもとに、異なる波形を持つ補間用の複数の 要素周期性信号を生成する要素周期性信号生成機能とを実現させ、
当該要素周期性信号生成機能が生成した複数の要素周期性信号を合成し、その 合成結果を、周期性信号の消失が発生した区間に配置することを特徴とする消失補 償プログラム。
PCT/JP2005/006850 2004-08-12 2005-04-07 消失補償装置、消失補償方法、および消失補償プログラム WO2006016439A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US11/659,205 US7793202B2 (en) 2004-08-12 2005-04-07 Loss compensation device, loss compensation method and loss compensation program
GB0702838A GB2435749B (en) 2004-08-12 2007-02-14 Loss compensation device, loss compensation method, and loss compensation program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004-235461 2004-08-12
JP2004235461A JP4419748B2 (ja) 2004-08-12 2004-08-12 消失補償装置、消失補償方法、および消失補償プログラム

Publications (1)

Publication Number Publication Date
WO2006016439A1 true WO2006016439A1 (ja) 2006-02-16

Family

ID=35839215

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/006850 WO2006016439A1 (ja) 2004-08-12 2005-04-07 消失補償装置、消失補償方法、および消失補償プログラム

Country Status (5)

Country Link
US (1) US7793202B2 (ja)
JP (1) JP4419748B2 (ja)
CN (1) CN100445716C (ja)
GB (1) GB2435749B (ja)
WO (1) WO2006016439A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4504389B2 (ja) * 2007-02-22 2010-07-14 富士通株式会社 隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム
JP5233986B2 (ja) * 2007-03-12 2013-07-10 富士通株式会社 音声波形補間装置および方法
JP5059677B2 (ja) * 2008-04-18 2012-10-24 ルネサスエレクトロニクス株式会社 ノイズ除去装置、及びノイズ除去方法
JP5584157B2 (ja) * 2011-03-22 2014-09-03 株式会社タムラ製作所 無線受信機
KR20140067512A (ko) * 2012-11-26 2014-06-05 삼성전자주식회사 신호 처리 장치 및 그 신호 처리 방법
FR3004876A1 (fr) * 2013-04-18 2014-10-24 France Telecom Correction de perte de trame par injection de bruit pondere.

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0573097A (ja) * 1991-09-17 1993-03-26 Nippon Telegr & Teleph Corp <Ntt> 低遅延符号駆動形予測符号化方法
JPH06282298A (ja) * 1993-03-29 1994-10-07 Nippon Telegr & Teleph Corp <Ntt> 音声の符号化方法
JPH07271391A (ja) * 1994-04-01 1995-10-20 Toshiba Corp 音声復号装置
JPH08305398A (ja) * 1995-04-28 1996-11-22 Matsushita Electric Ind Co Ltd 音声復号化装置
JPH09120297A (ja) * 1995-06-07 1997-05-06 At & T Ipm Corp フレーム消失の間のコードブック利得減衰
JP2003249957A (ja) * 2002-02-22 2003-09-05 Nippon Telegr & Teleph Corp <Ntt> パケット構成方法及び装置、パケット構成プログラム、並びにパケット分解方法及び装置、パケット分解プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57132486A (en) * 1981-02-10 1982-08-16 Sony Corp Magnetic recorder and reproducer
KR100197366B1 (ko) * 1995-12-23 1999-06-15 전주범 영상 에러 복구 장치
JP3157116B2 (ja) * 1996-03-29 2001-04-16 三菱電機株式会社 音声符号化伝送システム
US6128369A (en) * 1997-05-14 2000-10-03 A.T.&T. Corp. Employing customer premises equipment in communications network maintenance

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0573097A (ja) * 1991-09-17 1993-03-26 Nippon Telegr & Teleph Corp <Ntt> 低遅延符号駆動形予測符号化方法
JPH06282298A (ja) * 1993-03-29 1994-10-07 Nippon Telegr & Teleph Corp <Ntt> 音声の符号化方法
JPH07271391A (ja) * 1994-04-01 1995-10-20 Toshiba Corp 音声復号装置
JPH08305398A (ja) * 1995-04-28 1996-11-22 Matsushita Electric Ind Co Ltd 音声復号化装置
JPH09120297A (ja) * 1995-06-07 1997-05-06 At & T Ipm Corp フレーム消失の間のコードブック利得減衰
JP2003249957A (ja) * 2002-02-22 2003-09-05 Nippon Telegr & Teleph Corp <Ntt> パケット構成方法及び装置、パケット構成プログラム、並びにパケット分解方法及び装置、パケット分解プログラム

Also Published As

Publication number Publication date
JP4419748B2 (ja) 2010-02-24
CN101002079A (zh) 2007-07-18
CN100445716C (zh) 2008-12-24
GB0702838D0 (en) 2007-03-28
GB2435749B (en) 2009-02-18
US7793202B2 (en) 2010-09-07
JP2006053394A (ja) 2006-02-23
GB2435749A (en) 2007-09-05
US20090019343A1 (en) 2009-01-15

Similar Documents

Publication Publication Date Title
Gunduzhan et al. Linear prediction based packet loss concealment algorithm for PCM coded speech
US9336783B2 (en) Method and apparatus for performing packet loss or frame erasure concealment
RU2407071C2 (ru) Способ генерации кадров маскирования в системе связи
CN100426715C (zh) 一种丢帧隐藏方法和装置
JP5405659B2 (ja) 消去されたスピーチフレームを再構成するためのシステムおよび方法
JP4473869B2 (ja) 音響信号のパケット通信方法、送信方法、受信方法、これらの装置およびプログラム
US20060167693A1 (en) Method and apparatus for performing packet loss or frame erasure concealment
JP2008529423A (ja) 音声通信におけるフレーム消失キャンセル
WO2006016439A1 (ja) 消失補償装置、消失補償方法、および消失補償プログラム
JP4485690B2 (ja) マルチメディア信号を伝送する伝送システム
KR20160002920A (ko) 노이즈 주입이 가중된 프레임 손실 보정
Ogunfunmi et al. Speech over VoIP networks: Advanced signal processing and system implementation
US6584104B1 (en) Lost-packet replacement for a digital voice signal
TW432855B (en) Echo eliminator
Kim et al. Enhancing VoIP speech quality using combined playout control and signal reconstruction
JPH10340097A (ja) 快適雑音発生装置及び該装置の構成要素を含む音声エンコーダ及びデコーダ
JP3833490B2 (ja) データ伝送において発生する遅延ジッタを吸収する装置および方法
Rodbro et al. Time-scaling of sinusoids for intelligent jitter buffer in packet based telephony
JP2005274917A (ja) 音声復号装置
JP4093174B2 (ja) 受信装置および方法
JP3225256B2 (ja) 擬似背景雑音生成方法
Gournay et al. Performance analysis of a decoder-based time scaling algorithm for variable jitter buffering of speech over packet networks
JP3508850B2 (ja) 疑似背景雑音生成方法
Ulseth et al. VoIP speech quality-Better than PSTN?
Lee et al. A forward-backward voice packet loss concealment algorithm for multimedia over IP network services

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)
WWE Wipo information: entry into national phase

Ref document number: 11659205

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 200580027246.7

Country of ref document: CN

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 0702838

Country of ref document: GB

Kind code of ref document: A

Free format text: PCT FILING DATE = 20050407

WWE Wipo information: entry into national phase

Ref document number: 0702838.4

Country of ref document: GB

122 Ep: pct application non-entry in european phase
NENP Non-entry into the national phase

Ref country code: JP