WO2005109401A1 - 音響信号のパケット通信方法、送信方法、受信方法、これらの装置およびプログラム - Google Patents

音響信号のパケット通信方法、送信方法、受信方法、これらの装置およびプログラム Download PDF

Info

Publication number
WO2005109401A1
WO2005109401A1 PCT/JP2005/008495 JP2005008495W WO2005109401A1 WO 2005109401 A1 WO2005109401 A1 WO 2005109401A1 JP 2005008495 W JP2005008495 W JP 2005008495W WO 2005109401 A1 WO2005109401 A1 WO 2005109401A1
Authority
WO
WIPO (PCT)
Prior art keywords
packet
frame
audio signal
unit
stored
Prior art date
Application number
PCT/JP2005/008495
Other languages
English (en)
French (fr)
Inventor
Hitoshi Ohmuro
Takeshi Mori
Yusuke Hiwasaki
Akitoshi Kataoka
Original Assignee
Nippon Telegraph And Telephone Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph And Telephone Corporation filed Critical Nippon Telegraph And Telephone Corporation
Priority to DE602005020130T priority Critical patent/DE602005020130D1/de
Priority to EP05739100A priority patent/EP1746580B1/en
Priority to JP2006516896A priority patent/JP4473869B2/ja
Priority to CN200580001834.3A priority patent/CN1906663B/zh
Priority to US10/584,833 priority patent/US8320391B2/en
Publication of WO2005109401A1 publication Critical patent/WO2005109401A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/762Media network packet handling at the source 
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/70Media network packetisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS

Definitions

  • Audio signal packet communication method transmission method, reception method, these devices and program
  • the present invention relates to a communication method, a transmission method, a reception method, and a reception method especially for preventing packet loss when transmitting a digitized audio signal such as voice or music through a packet communication network such as the Internet. Methods, these devices and programs.
  • IP Voice over (Internet Protocol)
  • IP Internet Protocol
  • FIG. 1 An audio signal from an input terminal 11 is converted into an audio packet by an audio signal transmission unit 12 and transmitted to an audio signal reception unit 14 by a packet communication network 13 such as an IP network, and the audio signal reception unit The audio signal is reproduced by 14 and output to the output terminal 15.
  • packet loss occurs in the middle of the communication network depending on the state of the packet communication network 13, which causes a problem of quality deterioration such as interruption of reproduced sound.
  • Best effort such as the Internet
  • packet loss is allowed, and this problem is particularly remarkable when the communication network is congested.
  • FIG. 2 is a general configuration example of the audio signal transmission unit 12 in FIG.
  • the input voice is stored in an input buffer 21, and a voice packet shading unit 22 generates a voice packet by dividing a voice signal at regular intervals called a frame, and transmits the voice packet to a packet communication network from a packet transmitting unit 23. I do.
  • FIG. 3 is a general configuration example of the audio signal receiving unit 14 in FIG.
  • the voice packets received by the packet receiving unit 31 in the packet communication network are stored in a receiving buffer 32 also called a fluctuation absorbing buffer.
  • voice packets are extracted from the reception buffer and decoded into voice signals by the voice packet decoding unit 33.
  • packet loss concealment is performed by the lost signal generation unit 34. Processing is performed to generate an audio signal, and the generated audio signal is output.
  • the output audio signal is stored in the output audio buffer 35 and the pitch extraction unit 36 is used. Then, the pitch analysis is performed, and the obtained pitch period value is supplied to the lost signal generator 34. The signal generated by the lost signal generator 34 is output to the output terminal 15 through the switch 37, and if there is no packet loss, the decoded audio signal from the audio packet decoder 33 is output to the output terminal 15 through the switch 37.
  • a communication terminal that performs two-way voice communication has both a transmission unit and a reception unit in each terminal.
  • a method disclosed in Non-Patent Document 1 is well known! /. In the method disclosed in Non-Patent Document 1, the pitch cycle of voice is used for packet loss concealment.
  • FIG. 4 shows a general packet loss concealment method that is also used in the method described in Non-Patent Document 1.
  • This figure shows a processing method when a packet corresponding to frame n is lost (lost), with the current frame on the receiving side being frame n. It is assumed that the audio signal of the previous frame (up to frame n-1) has been correctly decoded, or that the audio signal has been generated by the packet loss concealment method even if there is a packet loss. Since no voice packet was received in frame n, the 1-pitch waveform cut out from the last sample point of the immediately preceding frame n-1 in the section 3A for one pitch period and cut out in the section of frame n Are arranged in order until the frame length is reached (sections 3B to 3D).
  • the waveform of section 4A which is slightly longer than one pitch period, for example, if the pitch length is L, is divided by 5 / 4L (5 X LZ4), is cut out by one pitch length.
  • overlapping sections 4AB, 4BC, and 4CD are created. These overlapping portions are overlapped by applying, for example, a triangular window function shown in FIG. In FIG. 6, the horizontal axis represents time, and the vertical axis represents the weight value. Tl indicates the start point of the overlapping section, and t2 indicates the end point of the overlapping section.
  • the waveform on the section 4B side of the overlapping section 4BC is multiplied by the weighting function W1
  • the waveform on the section 4C side is multiplied by the weighting function W2 and added, thereby obtaining both cutout waveforms of the sections B and C. Can be connected smoothly.
  • the details of such superposition are also described in Non-Patent Document 1.
  • Non-Patent Document 1 it is generally said that voice quality is good when the method described in Non-Patent Document 1 is used in a communication environment where packet loss occurs.
  • annoying noise may occur (Issue 1).
  • packet loss occurs in a plurality of consecutive frames (burst-like loss (loss), that is, for example, when the frame length is 20 milliseconds, packets are continuously lost for two to three or more frames.
  • burst-like loss that is, for example, when the frame length is 20 milliseconds
  • Packet loss occurs when the frame length is long and one frame is lost in the voice coding system, that is, when the frame length is 40 ms or 60 ms, for example.
  • an unpleasant buzzer sounds or an unnatural sound is reproduced, there is a problem (Issue 2).
  • the cause of the problem 1 is that the method described in Non-Patent Document 1 creates a waveform having basically the same characteristics as the voice waveform of the immediately preceding frame as a method for generating voice of a lost frame. caused by. That is, if a frame loss occurs in a frame near a vowel near the boundary between a consonant and a vowel, a speech waveform having the same characteristics as the consonant is generated, even though the lost frame is a vowel section. The same applies to the time when a vowel changes to a silence or a consonant. Noise is generated.
  • the problem 2 also occurs when the section where the packet loss has occurred is not near the boundary between the consonant and the vowel.
  • the cause is that the voice of the packet loss frame is further used (autoregressively) to generate a voice waveform with the same characteristics even in the succeeding subsequent frame loss section. This is due to the continuous reproduction of audio waveforms with the same characteristics over time. Actual sound has a slight change in pitch period and pitch, and if a sound having the same characteristics is continuously reproduced, it sounds different from the sound.
  • Non-Patent Document 2 As a method for solving the problems 1 and 2, there is a proposal in Non-Patent Document 2.
  • the auxiliary information of the k-th frame is embedded in the k + 1-th frame in advance. If the k-th frame cannot be reached due to the occurrence of packet loss, the auxiliary information embedded in the k + 1-th frame is used to conceal errors in the k-th frame.
  • Non-Patent Document 1 ITU-T Recommendation G.711 Appendix I, "A high quality low-complexity algorithm for packet loss concealment with G.71 i, ⁇ .1— 18, 1999.
  • Non-Patent Document 2 Naofumi Aoki," A Method for Concealing Packet Loss in VoIP Using Steganography Based on Pitch Waveform Duplication ", IEICE Journal B, Vol.J86-B, No.12, pp.2551-2560, 2003.
  • Non-Patent Document 1 In a communication environment in which packet loss occurs, the use of the packet port concealment method of the method shown in Non-Patent Document 1 has a certain effect in reducing the quality degradation of reproduced sound. However, if packet loss occurs in a frame near the boundary between a consonant and a vowel, unpleasant noise cannot be sufficiently prevented, and when packet loss occurs in multiple consecutive frames. The playback quality is unnatural.
  • Non-Patent Document 2 discloses a method of concealing an error by adding auxiliary information. On the other hand, it does not indicate how much the auxiliary information is transmitted together with the frame of the audio signal (the amount of delay). In an actual communication network, the communication state changes, so the fluctuation of packets and the frequency of burst loss also change. The Therefore, the optimal amount of delay should also change. However, there is no example in the prior art showing a method of dynamically changing the delay amount. Also, it is necessary to determine the amount of delay between the opposing devices in advance.
  • the transmitting side on the transmitting side, data corresponding to an audio signal of a frame having a frame number different from that of an audio signal by a value specified by the delay amount control information (hereinafter referred to as "audio signal corresponding data") in the same packet as the audio signal. ) And delay amount control information.
  • the receiving side receives the audio signal corresponding data of the same frame number as the frame of the lost audio signal (hereinafter, referred to as “lost frame”) using the delay amount control information. Determined from the packets in the buffer. Then, the receiving side generates an audio signal of the lost frame using the obtained audio signal corresponding data.
  • the amount of delay is changed according to the state of the communication network. Specifically, on the receiving side, the maximum value of the packet fluctuation time for each predetermined period, or the number of frames in which bucket loss occurs continuously (for example, the loss of one frame is one to three consecutive frames) When a packet loss occurs, the maximum value of 3) (hereinafter referred to as “the number of consecutive packet losses”! Is detected, and the number of packets stored in the receiving buffer (hereinafter referred to as the “number of stored packets”). ) And the amount of delay,
  • At least the pitch cycle corresponding to the audio signal in each frame is obtained as an audio feature value on the transmission side, and the audio numbers having different frame numbers by the number of frames specified as the delay amount control information are obtained.
  • the signal and acoustic features are transmitted in the same packet. If the packet corresponding to the audio signal of the frame to be output is lost on the receiving side, the audio feature value corresponding to the audio signal of the lost packet is stored in the bucket in the reception buffer.
  • a lost frame From the sound signal frame of the sound packet of the lost packet (hereinafter referred to as a lost frame), and cut out a waveform having a length corresponding to the pitch cycle included in the sound characteristic amount obtained above, The cut-out waveforms are repeatedly arranged in the pitch cycle, and the arranged signals are used to generate the sound signal of the lost packet.
  • the delay amount control information is embedded in a packet and transmitted, and the audio signal corresponding data of each frame is transmitted in a packet different from the audio signal.
  • the reception side can grasp the relationship between the audio signal and the audio signal corresponding data. Therefore, even if an audio signal of a certain frame is lost due to packet loss, the audio signal corresponding data of the audio signal is received without packet loss, and the transmitted delay amount control information can be easily obtained. .
  • the sound signal waveform is cut out and arranged at a length corresponding to the pitch period to generate a lost sound signal. Therefore, regardless of the random packet loss of one frame unit or the continuous packet loss of a plurality of frames, the packet loss does not occur and the acoustic signal is reproduced with a sound quality close to that of the case. Acoustic communication is realized.
  • a packet communication network is generally designed to allow a certain amount of packet loss in order to reduce costs, and the use of the present invention eliminates the need for a high-quality network having a low packet loss rate of the line itself. Therefore, it is also effective in reducing network costs.
  • the amount of delay in accordance with the state of the communication network if the state of the communication network is relatively good, the number of packets stored in the reception buffer is reduced, and voice packets are received and transmitted. The delay time until the audio signal is reproduced is reduced. If the condition of the communication network is relatively poor, increase the number of packets stored in the receiving buffer and increase the number of packets (although the delay time between receiving the audio packet and actually reproducing the audio signal increases). Even if a packet loss occurs, sound data corresponding to the sound signal is acquired
  • FIG. 1 is a conceptual diagram of converting a voice signal into a voice packet and performing communication through a packet communication network.
  • FIG. 2 is a block diagram showing a general functional configuration example of an audio signal transmission unit 12 in FIG. 1.
  • FIG. 3 is a block diagram showing a general functional configuration example of an audio signal receiving unit 14 in FIG. 1.
  • FIG. 4 is a waveform chart for explaining generation of a lost signal by a general packet loss concealment technique.
  • FIG. 5 is a waveform diagram for explaining a superposition method (overlap-add process) for preventing a discontinuous sound from occurring when a waveform is generated by repeating a pitch waveform in FIG.
  • FIG. 6 is a diagram showing an example of a triangular window function in overlap-add processing.
  • FIG. 7 is a diagram showing an example of a functional configuration of an acoustic signal transmitting device 100 according to the present invention.
  • FIG. 8 is a diagram showing an example of a functional configuration of an acoustic signal receiving device 200 according to the present invention.
  • FIG. 9 is a diagram showing an example of a processing procedure of a sound signal packet transmission method according to the present invention.
  • FIG. 10 is a diagram showing an example of a processing procedure of an audio signal packet receiving method according to the present invention.
  • FIG. 11 is a diagram showing a configuration example of a packet.
  • FIG. 12 is a waveform chart for explaining an example of the operation of lost signal generation section 224 in FIG.
  • FIG. 13 is a diagram showing a specific functional configuration example of a lost signal generation unit 224 in FIG.
  • FIG. 14 is a diagram showing an example of a procedure for selecting a feature amount of an audio signal of a lost frame.
  • FIG. 15 is a waveform chart for explaining backward waveform extrapolation processing when packet loss occurs continuously.
  • FIG. 16 is a waveform chart for explaining overlap-add processing of backward waveform extrapolation.
  • FIG. 17 is a diagram showing an example of a functional configuration of an audio signal transmitting apparatus 100-2 according to the present invention.
  • FIG. 18 is a diagram showing an example of a functional configuration of an audio signal receiving device 200-2 according to the present invention.
  • FIG. 19 is a diagram showing an example of correspondence between fluctuation time and the number of stored packets.
  • FIG. 20 is a diagram showing an example of a functional configuration of an audio signal receiving device 200-3 according to the present invention.
  • FIG. 21 is a diagram showing an example of a functional configuration of an audio signal receiving device 200-4 according to the present invention.
  • FIG. 22 is a diagram showing an example of a functional configuration of an audio signal receiving device 200-5 according to the present invention.
  • FIG. 23 is a diagram showing an example of a functional configuration of an audio signal receiving device 200-6 according to the present invention.
  • FIG. 24 is a diagram showing an example of a functional configuration of an audio signal receiving device 200-7 according to the present invention.
  • FIG. 25 is a diagram showing an example of a system configuration when a voice packet is transmitted in a direction.
  • FIG. 26 is a diagram illustrating an example of a system configuration in which a voice packet is transmitted in one direction and a control signal is transmitted in a reverse direction.
  • FIG. 27 is a diagram showing an example of a functional configuration of a transmitting apparatus 300.
  • FIG. 28 is a diagram showing a functional configuration example of a receiving apparatus 400.
  • FIG. 29 is a diagram showing an example of a system configuration in the case of transmitting voice packets in two directions.
  • FIG. 30 is a diagram showing an example of a processing flow in a case where control information is not transmitted from a receiving side of a voice packet to a transmitting side.
  • FIG. 31 is a diagram showing a first example of a processing flow when a control signal is transmitted from a receiving side of a voice packet to a transmitting side.
  • FIG. 32 is a diagram showing a second example of a processing flow when a control signal is transmitted from a receiving side of a voice packet to a transmitting side.
  • FIG. 33 is a diagram showing a third example of a processing flow when a control signal is transmitted from a receiving side of a voice packet to a transmitting side.
  • FIG. 34 is a diagram showing a fourth example of a processing flow when a control signal is transmitted from a receiving side of a voice packet to a transmitting side.
  • FIG. 35 is a diagram showing an example of a processing flow when it is assumed that the influence of a communication network state on packet communication is the same in both directions.
  • the present invention can be executed as a computer body and a computer program, or can be implemented by being implemented in a digital signal processor or a dedicated LSI.
  • the present invention can be applied to audio signals such as voice and music, a case where the present invention is applied to the voice communication system using Voice over IP shown in FIG. 1 will be described below. Also, in order to avoid redundant description, components having the same functions and steps of performing the same processing are denoted by the same reference numerals.
  • Embodiment 1 a functional configuration and a processing flow of an audio signal transmitting device and an audio signal receiving device when a pitch cycle is used as audio signal corresponding data will be described.
  • Implementation Example 2 describes a method of linking the amount of delay and the number of stored packets with the state of the communication network.
  • the sound signal corresponding data used in the second embodiment need not be limited to the pitch period, but may be the sound signal itself or another sound signal feature amount.
  • FIG. 7 shows an example of the functional configuration of the audio signal transmitting device 100 (corresponding to the transmitting unit 12 in Fig. 1)
  • Fig. 8 shows the functional configuration example of the audio signal receiving device 200 (corresponding to the receiving unit 14 in Fig. 1).
  • FIG. 9 shows an example of a processing procedure of the audio signal transmitting apparatus 100
  • FIG. 10 shows a processing procedure of the audio signal receiving apparatus 200.
  • the input audio signal is stored in an input buffer 111, and the audio signal is divided into fixed frames called frames, that is, divided into frames (step S1), and sent to the audio waveform encoding unit 112.
  • the time length of one frame is generally about 10 to 20 milliseconds.
  • the audio waveform encoding unit 112 converts an input audio signal into an audio code by applying, for example, G.711 ( ⁇ -law PCM or A-law PCM system) which is a standard encoding system of ITU-T. (Step S2). It should be noted that any encoding method such as a standard method other than G.711 and a non-standard audio encoding method may be used.
  • the voice code is sent to packet forming section 113.
  • the audio feature calculation unit 114 calculates the audio feature of the audio signal in the frame (step S3).
  • the speech feature refers to a pitch period (corresponding to the fundamental frequency of speech), power, and the like. Either one of these features may be used, or the whole may be used.
  • the pitch period is obtained, for example, by calculating the autocorrelation coefficient of the audio signal waveform or a signal obtained by applying a filter having the inverse characteristic of the spectral envelope to the audio signal waveform (step S3a).
  • the power is calculated by the power unit 114b by the sum of squares of all samples of the audio signal in the frame (step S3b).
  • the audio feature code encoding unit 115 quantizes the audio feature quantity so that it can be represented by a predetermined number of bits (or number of notes), and then converts it into a code (step S4). .
  • a code For example, in the case of a pitch period, if the sampling frequency of the audio is 8 kHz sampling, and if the search range of the pitch period is 40 to 120 samples, 0 to 80 can be assigned as a code. can do. If the search range is from 20 samples to 160 samples, 0 to 140 is assigned as a code, so that it is 8 bits.
  • 8-bit encoding can be performed by applying the G.711 method to the square root of parity per sample. (Because there is no negative value in the path, 7 bits excluding the positive and negative sign bits are actually required.)
  • the encoded audio feature is sent to the shift buffer 116.
  • the shift buffer 116 holds the sign of the audio feature amount over the number of frames specified as rough as possible.
  • the delay amount control information described later is input from the terminal 117
  • the code of the audio feature amount of the audio signal of the audio signal of the previous frame by the number of frames specified by the delay amount control information (also referred to as “auxiliary information”) ) Is sent to the packet composition unit 113. For example, assuming that the current frame is n and the delay amount control information is 3, the voice feature code generated in frame n-3 is delayed by three frames in the shift buffer 116 and sent to the packet forming unit 113 (step S 5).
  • a buffer remaining amount which will be described later, is input from the terminal 118, and is encoded by the buffer remaining amount encoding unit 119 (step S6).
  • the buffer remaining amount code is also sent to the packet configuration unit 113.
  • the packet composing unit 113 composes a packet using the code obtained by encoding the audio signal waveform, the audio feature code, the delay control information, and the remaining buffer code (step S7). Note that the delay amount control information and the buffer remaining amount code may not be included in the packet in some cases. This point will be described later.
  • the packet transmitting unit 121 receives the information of the packet created by the packet composing unit 113 and transmits it as a voice packet to the packet communication network (step S8).
  • FIG. 11 shows an example of a packet configuration in the packet configuration section 113.
  • a packet includes a header area 41 and a data area 42.
  • the header area 41 has a mandatory area 4la and an optional area 41b.
  • Time stamps such as packet destinations and frame numbers are stored in the header area 4 Stored in 1.
  • Code data obtained by encoding the audio signal waveform is stored in the data area 42. Since the code of the audio feature is smaller in size (number of bytes) than the waveform data, it is stored in the optional area HOP41b of the header area 41 and stored in the first D1 or the last DE of the data area 42. The way! /, Even the deviation! / ,.
  • the header area 41 of the packet is generally a multiple of 4 bytes.
  • the pitch period and the power are quantized by 1 byte each and sent as voice features (when 7 bits, 1 byte is rounded up to 8 bits)
  • the delay amount is controlled to a total of 2 bytes of the pitch period and the power information.
  • the information and the remaining buffer code are expressed in 1 byte each, for a total of 4 bytes. These are stored, for example, one byte each in the four areas OP1, OP2, OP3, and OP4 of the option area HOP41b.
  • the delay amount control information is sent together with the auxiliary information (speech feature code) so that the receiving side can know which frame the auxiliary information corresponds to, and the relative information based on frame n is used. It can be regarded as a typical time stamp.
  • sending the remaining buffer code together with the auxiliary information is based on the number of frames shifted from the auxiliary information relative to frame n when the other party sends a packet to itself. It is to convey.
  • the delay amount control information and the buffer remaining amount code are omitted. This is because the sender and the receiver need to know in advance (for example, negotiation at the time of connection of the call) the relatively determined relative frame shift. In such a case, the delay amount control information and the buffer remaining amount code need not be transmitted in one byte each, and only a total of two bytes of the pitch cycle and the power information are required.
  • the header area is in units of 4 bytes, it is possible to send auxiliary information for two frames, for example, the auxiliary information for each audio signal of frame n-3 and frame n-6 in the packet of frame n. Therefore, the probability that the difference between the audio signal code and the auxiliary information becomes packet loss is reduced.
  • the delay amount control information is kept constant, both the audio signal code and the auxiliary information do not cause packet loss.
  • the number of frames is set to about 60 ms, 80 ms, or 100 ms so as to withstand burst loss and not to lose real-time performance.
  • the packet receiving section 211 receives an audio packet from the packet communication network (Step S21) and stores it in the reception buffer 212 (Step S22).
  • the reception buffer 212 is also called a fluctuation absorbing buffer.
  • the audio packet includes the code obtained by encoding the audio signal waveform, the auxiliary information of the code such as the pitch and the power, the delay amount control information, and the remaining buffer code. If the number of frames in which the auxiliary information is shifted relative to frame n is not dynamically changed for each frame, the delay amount control information and the buffer remaining amount code are unnecessary. However, the following description is based on the assumption that both the delay amount control information and the remaining buffer code are incorporated in the packet.
  • the code obtained by encoding the audio signal waveform included in the received audio packet is sent to the audio packet decoding unit 213, and is decoded into an audio signal waveform (step S24).
  • the output signal of the audio packet decoding unit 213 is output to the output terminal 215 via the switch 214 as reproduced audio (step S36).
  • the remaining buffer decoding unit 216 obtains delay amount control information for specifying how many frames to shift the auxiliary information to the packet from the remaining buffer code included in the received voice packet.
  • the obtained delay amount control information is sent to the terminal 117 in FIG. 7, that is, to the shift buffer 116 and the packet forming unit 113. The relationship between the remaining buffer amount and the delay amount control information will be described later.
  • the delay amount control information included in the received voice packet is used by loss processing control section 217.
  • the processing in the loss processing control unit 217 will be described later in detail.
  • the reception buffer remaining amount determination unit 218 detects the number of frames of the packet stored in the reception buffer 212. For example, when the frame n is decoded by the voice packet decoding unit 213 and the packets of the audio signal codes of frames n + 1, n + 2, and n + 3 are stored in the reception buffer 212, the buffer The remaining amount, that is, the number of frames of the stored packet is 3. This remaining amount of the buffer is sent to terminal 118 in FIG.
  • the transmitting device 100 shown in FIG. 7 and the receiving device 200 shown in FIG. This communication method is based on the premise that two-way voice communication is performed and each terminal includes both the transmitting device 100 and the receiving device 200.
  • Terminal 117 of audio signal transmitting apparatus 100 is a signal input terminal for controlling transmitting section 117 itself. That is, according to the delay amount control information input to the input terminal 117, the audio feature amount is incorporated into the packet transmitted with a delay.
  • terminal 118 is an input terminal for information to be transmitted to audio signal receiving device 200 at the communication destination, and audio signal transmitting device 100 is not controlled by this information. That is, the information input to the terminal 118 is only transmitted to the communication destination.
  • Loss detector 219 detects packet loss (loss) (step S23).
  • the packets received by the packet receiving unit 211 are stored in the reception buffer 212 according to the packet numbers, that is, in the order of the frame numbers. For example, if the frame number of the received packet is three more than the frame number of the packet received immediately before, the received packet is stored with two packet storage positions separated from the storage position of the packet received immediately before I do.
  • the packet is read from the reception buffer 212 in the order of the storage position. If there is no packet at the storage position to be read out at the time of reading, it is determined that a packet loss (lost) has occurred immediately before the read operation. 219 makes a determination, and switches the switching switch 214 to the output side of the loss processing control unit 217. The details of the packet loss concealment control processing in the loss processing control unit 217 will be described.
  • the code obtained by encoding the audio signal waveform included in the packet of the frame n + i is decoded by the prefetch audio waveform decoding unit 222 (step S26), and the audio signal waveform of the frame n + i is obtained. Further, the reception buffer searching unit 221 selects a packet corresponding to the audio signal of the lost frame n from among the packets stored in the reception buffer 212. The packet to which the auxiliary information is added is searched (step S27).
  • auxiliary information corresponding to the audio signal of frame n is based on the delay amount control information.
  • the added packet can be searched. For example, if 3 is added to the packet of frame n + 3 as delay amount control information, it is auxiliary information corresponding to the audio signal of frame n. If the number of frames to which the auxiliary information is added is not dynamically changed for each frame relative to frame n, there is no need to add delay amount control information to the packet on the transmission side. In this case, a packet to which a supplementary code corresponding to the audio signal of the lost frame n is added is searched on the assumption of a predetermined delay amount.
  • the auxiliary information corresponding to the audio signal of the lost frame n is added to the packet of the frame n + 5.
  • the packet to which the audio signal corresponding auxiliary information of the lost frame n has been added is stored in the reception buffer 212. Can find two, so in that case, use one of them
  • the auxiliary information corresponding to the searched audio signal of the lost frame n is converted into the pitch information and the parity information of the audio signal of the lost frame n in the audio feature decoding unit 223. (Step S29) and sent to lost signal generation section 224.
  • the output audio signal output to the output terminal 215 is stored in the output audio buffer 225 (step S36).
  • the pitch period of the output audio signal from the buffer 225 is analyzed by the pitch extraction unit 226 (step S30).
  • the pitch extracted by the pitch extraction unit 226 is a pitch corresponding to the audio signal of the frame n ⁇ 1 immediately before the lost frame.
  • the pitch corresponding to the audio signal of the immediately preceding frame n ⁇ 1 is sent to lost signal generation section 224.
  • FIG. 12 shows an operation image of lost signal generation section 224
  • FIG. 13 shows an example of a functional configuration.
  • frame n be the current frame and assume that the packet corresponding to frame n has been lost.
  • the method disclosed in Non-Patent Document 1 repeats the waveform of frame n-1 immediately before the occurrence of packet loss in units of pitch, and the characteristics of the signal including the pitch period and the signal are the same as those of the immediately preceding frame.
  • a signal waveform corresponding to the signal power pitch cycle of the immediately preceding frame n ⁇ 1 is cut out, and this signal waveform is extracted from the forward waveform as in the method described in Non-Patent Document 1.
  • the waveform is repeated in the pitch period unit in the unit 51 to generate a waveform 10-1 having a one-frame length (step S31).
  • the pitch length of the audio signal in the immediately preceding frame n-1 is used as the pitch period.
  • the lost frame n obtained by decoding the auxiliary information is used.
  • the pitch length of the audio signal is used. If the packet containing the auxiliary information cannot be found in step S28 and the auxiliary information cannot be obtained, such as when the packet containing the auxiliary information is also lost, in the case where the audio signal of the immediately preceding frame n-1 obtained in step S30 is obtained. Substitute with the pitch length of
  • the audio signal of the frame n + i that can be normally received in the reception buffer 212 (that is, if the packet of the frame n + 1 has been successfully received, the frame n + 1 If the signal of frame n + 1 is continuously lost and the packet of frame n + 2 is received, the signal waveform corresponding to the pitch period is cut out from the signal of frame n + 2)
  • the waveform of the pitch period unit is repeated in the section 52 to create a waveform 10-2 of one frame length (step S32). At this time, since the extrapolation is performed using the future waveform on the time axis, note that the repetition direction of the waveform is the negative direction of the time axis.
  • the pitch period used in the backward waveform outer section 52 is the pitch length of the audio signal of the lost frame n obtained by decoding the auxiliary information, as in the forward waveform outer section 51.
  • the auxiliary information is not obtained, such as when the packet incorporating the auxiliary information is lost, the power of substituting the pitch length of the audio signal of frame n ⁇ l or the audio signal corresponding to the audio signal of frame n + 1 is used. If the auxiliary information is obtained, the pitch length of the audio signal of frame n + 1 may be used instead.
  • the extraction pitch length at the time of waveform extrapolation stores auxiliary information for the audio signal of the lost frame n as shown in FIG. 14, for example. If the lost packet is not a loss (step S41), the auxiliary information is decoded and used (step S42). If the packet to which the auxiliary information is added is a loss, extrapolation is performed. Check whether it is forward (step S43). If it is forward, the pitch length is also analyzed for the output voice signal power of the immediately preceding frame n-1, and the pitch length is used (step S44).
  • FIG. 12 shows processing images of the forward waveform outer portion 51 and the backward waveform outer portion 52. 9 1 indicates a past waveform, and 9 2 indicates a pre-read waveform.
  • a waveform 10-1 is created by repeating the one-pitch length waveform 10A1, which also extracts the audio signal power of frame n-1, as sections 10B1, 10C1, and 10D1.
  • a waveform 10-2 is created by repeating the one-pitch-length waveform 10A2, which also extracts the audio signal power of frame n + 1, as in sections 10B2, 10C2, and 10D2.
  • Waveform 9-2 in Fig. 15 shows an image of backward waveform extrapolation when frame n and frame n + 1 successively result in packet loss and frame n + 2 can be received normally.
  • a one-pitch waveform 13A is cut out from the audio signal of frame n + 2, and this is section 13B, 13C, ⁇ , from frame n + 1 of frame n + 1 to frame n ⁇ 1 of frame n.
  • the outer waveform 10-2 of frame n is obtained.
  • Non-Patent Document 1 In the description of the method disclosed in Non-Patent Document 1, as described with reference to FIG. 5, if waveforms cut out to a single pitch length are simply arranged, a discontinuous sound is generated at a connection point. Therefore, it is preferable to provide an overlap section outside the forward waveform and perform window addition (Overlap add, OLA) as in FIG. Similarly, in backward waveform extrapolation, as shown in FIG. 16, windowed addition (OLA) can be realized by a method in which the time axis in FIG. 5 is reversed.
  • OLA windowed addition
  • the waveforms 10-1 and 10-2 are multiplied by the weights W1 and W2 in the multipliers 53 and 54, respectively, and added in the adder 55 to form the waveform yn (step S34). ).
  • the weights W1 and W2 are determined to be 1Z2, respectively, and the weight determination unit 56 determines the weights W1 and W2 based on the “reliability” of the waveforms 10-1 and 10-2 (step S 34)
  • “Reliability” is based on the difference between the frame number of the last successfully received frame in the past and the current frame n, and the time (time stamp) after the present time obtained by searching the internal capacity of the reception buffer 212.
  • the frame of the received packet and the current frame The smaller the difference between the frame number and the frame n from the frame n, the higher the reliability. Use of such “reliability” is useful in the case of burst packet loss.
  • Example 1 Forward extrapolation when no packet loss has occurred in the immediately preceding frame n ⁇ 1, a packet loss has occurred in frame n, and no packet loss has occurred in the immediately following frame n + 1. Since the “reliability” of waveform 10-1 and the backward extrapolated waveform 10-2 are considered to be the same, the weight is 1Z2 respectively.
  • Example 2 No packet loss has occurred in the immediately preceding frame n ⁇ 1, a packet packet has occurred in frame n, a packet loss has occurred in the immediately following frame n + 1, and no packet loss has occurred in the next frame n + 2.
  • the “reliability” of the forward extrapolated waveform 10-1 and the backward extrapolated waveform 10-2 is higher if the waveform 10-1 obtained by the forward extrapolation from the previous frame n-1 is higher. Guessed. Therefore, the weight for multiplying the forward extrapolated waveform 10-1 is 2Z3, and the weight for multiplying the backward extrapolated waveform 10-2 is 1Z3. This is because the “distance” up to frame n where the audio signal is to be generated from the latest frames n ⁇ 1 and n + 2 before and after the packet is successfully received is 1: 2, so the reliability is 2 : 1
  • Example 3 When frame n-3 is received normally, frame n-2 and frame n-1 are consecutive packet losses, and after packet loss at frame n and packet loss at frame n + 1, no packet loss occurs. It is estimated that the backward extrapolation waveform 10-2 has higher reliability than the forward extrapolation waveform 10-1.
  • the weight for multiplying the forward extrapolated waveform 10-1 is 1Z4, and the weight for multiplying the backward extrapolated waveform 10-2 is 3Z4. This means that the reliability is assumed to be 1: 3 since the "distance" to the frame n for which an audio signal is to be generated is 3: 1 before and after the packet is successfully received. Therefore, the weight determination unit 56 in FIG. 13 determines, for example, the frames n and n before and after a packet is normally received and the frames n and n for which an audio signal is to be generated.
  • the respective differences ⁇ nl and ⁇ n2 are calculated in difference circuits 56a and 56b. These differences ⁇ nl and ⁇ n2 are added in the sum circuit 56c.
  • all sample points of the forward extrapolated waveform 10-1 and all sample points of the backward extrapolated waveform 10-2 are multiplied by a uniform weight within a frame.
  • the power correction unit 57 in FIG. 13 corrects the power of the added waveform yn using power information obtained by decoding the auxiliary information of the audio signal of frame n (step S35), and outputs the result as the audio signal xn of frame n Output to terminal 215 (step S36).
  • Correcting the power means increasing or decreasing the amplitude of the waveform yn so that the power of the added waveform yn becomes equal to the power indicated by the auxiliary information.
  • “equivalent” means that the power completely matches or the power of the audio signal xn to be output in consideration of the effect on the auditory perception is slightly lower.
  • the larger the amount of delay ( the amount of shift of the auxiliary information together with the number of shifted frames of the audio signal), the stronger the burst loss.
  • the delay (reproduction delay) from when a voice packet is received to when the voice signal is actually reproduced increases.
  • the delay (call delay) from when the other party utters the voice and when the voice is reproduced on its own side increases.
  • the delay amount is small, the reproduction delay can be reduced, and a single (random) packet loss can be tolerated.
  • the most suitable method is to receive information on how many packets are stored in the receiving buffer of the communication partner at that point in time, and correspond to the number of packet storage frames in the receiving buffer of the other party. Is to set the amount of delay to be performed.
  • a fixed amount of packets is generally stored in the reception buffer in order to absorb fluctuations in the arrival time of packets.
  • the other party should reduce the number of packets stored in the reception buffer.
  • it is generally set to be large so that the sound does not break due to fluctuations in the arrival of packets.
  • a reproduction delay of several packets originally stored in the reception buffer occurs. Therefore, by setting the value corresponding to the number of frames of the packets stored in the other party's reception buffer (remaining buffer amount) as the delay amount and transmitting the auxiliary information, the auxiliary information transmission can be performed without increasing the new reproduction delay. The effect of can be maximized.
  • the delay amount may be set to be equal to or less than the number of packet accumulation frames in the receiving buffer of the other party in accordance with the expected bursty packet loss characteristics.
  • a method of setting the delay amount to be about one to two frames smaller than the remaining buffer capacity of the other party's receiving buffer can be considered.
  • the acoustic feature amount may be only the pitch period.
  • the power section 114b in FIG. 7, the step S3b in FIG. 9, the step S35 in FIG. 10, and the power correction section 57 in FIG. 13 are omitted.
  • the input PCM audio signal may be directly incorporated into the packet without encoding the audio signal waveform on the transmission side.
  • the acoustic features are usually obtained by digital operation, if the calculation results are obtained in, for example, 8 bits, the acoustic features need not be encoded.
  • the audio feature encoding unit 115, the audio feature decoding unit 223 in FIG. 8, step S4 in FIG. 9, and step S29 in FIG. 10 are omitted.
  • the acoustic signal transmitting device 100 shown in FIG. 7 and the acoustic signal receiving device 200 shown in FIG. 8 may each be operated by a computer.
  • the process of the packet transmission method shown in FIG. 9 or the packet reception method shown in FIG. Installed on a computer from a recording medium such as a CD-ROM, magnetic disk device, or semiconductor storage device, or downloaded via a communication line. All you have to do is run the program on your computer.
  • a recording medium such as a CD-ROM, magnetic disk device, or semiconductor storage device
  • the audio characteristic amount is embedded in a packet different from the audio signal and transmitted, and the delay amount of the audio characteristic amount with respect to the audio signal is determined on the receiving side. Control using the remaining buffer capacity and how to generate lost frames in the event of packet loss were explained. In this embodiment, a method of controlling the delay amount using information other than the remaining amount of the buffer will be described. Also, the information to be transmitted in a packet different from the audio signal is not limited to the audio feature value, but will be described as data corresponding to the audio signal (hereinafter referred to as “audio signal corresponding data”).
  • FIG. 17 shows an example of a functional configuration of the audio signal transmitting apparatus 100-2. The difference from the audio signal transmitting apparatus 100 in FIG.
  • the procedure of the operation is the same as the procedure shown in FIG. 9, except that the buffer remaining amount is simply changed to the information received at the terminal 118 and the auxiliary information is changed to the audio signal corresponding data.
  • the terminal 118 is a terminal for receiving information for controlling the opposing communication device. The terminal 118 receives information from an audio signal receiving device provided as a set with the audio signal transmitting device 100-2, or a terminal defined in advance in a recording device. Receive information.
  • This information includes the number of packets stored in the reception buffer of the audio signal receiving device (buffer remaining amount) and the number of packets received by the audio signal receiving device.
  • Packet fluctuation information information such as the number of continuous frames of packets lost due to the burst loss detected by the audio signal receiving device (number of continuous packet losses), the fluctuation information and the number of continuous packet losses Packets to be stored in the required receive buffer
  • the number (target value of the number of stored packets), or the force that can be considered as a constant that has been preliminarily determined in the recording device, is not limited to these.
  • These pieces of information are collectively referred to as setting request information of delay amount control information.
  • FIG. 18 shows an example of a functional configuration of the audio signal receiving device 200-2.
  • the difference from the audio signal receiving apparatus 200 in FIG. 8 is that a delay amount control unit 341 is provided instead of the remaining buffer decoding unit 216, and the remaining buffer amount of the reception buffer 212 is determined by the reception buffer remaining amount determination unit 218.
  • the fluctuation is detected from the packet reception unit 211 (the fluctuation detection unit 232), the number of packets to be stored in the reception buffer 212 (the target value of the number of stored packets) is determined, and the reception buffer 212 That is, the reception buffer 212 is controlled so that the number of packets (remaining buffer amount) stored in the buffer approaches the target value of the number of stored packets (reception buffer control unit 231).
  • the delay amount control unit 341 extracts, from the packet, the setting request information of the delay amount control information of the communication destination transmitted from the audio signal transmission device of the communication destination. Further, the delay amount control unit 341 determines the delay amount of the audio signal transmitting device provided as a set with the audio signal receiving device 200-2, and transmits the delay amount to the terminal 117.
  • the method of determining the target amount of delay of the number of accumulated packets is as follows. The buffer remaining amount in the method of determining the remaining amount of buffer described above may be replaced with the target value of the number of accumulated packets.
  • the information sent from the reception buffer control unit 231 to the audio signal transmitting device provided as a set with the audio signal receiving device 200-2 is a target value of the number of accumulated packets instead of the remaining buffer amount.
  • the actual remaining buffer capacity is controlled so as to approach the target value for the number of stored packets.However, when the network conditions such as fluctuations fluctuate, the ability to change the target value makes the actual buffer remaining capacity equal to the target value. It takes some time to become.
  • the buffer remaining amount is equal to the target value of the number of accumulated packets.
  • the actual buffer remaining amount is too large or small relative to the target value of the number of accumulated packets.
  • the lost state determination unit 233 also receives information on the packet loss detected by the loss detection unit 219, and calculates the number of packets continuously lost due to bursty packet loss (hereinafter referred to as “the number of continuous packet losses”). Is determined.
  • the reception buffer control unit 231 determines a target value of the number of stored packets from both the information of the fluctuation and the number of continuous packet losses. Next, a method of determining a target value of the number of stored packets from fluctuation will be described. For example, if the frame length is 20 ms, packets should be received every 20 ms if there is no fluctuation. However, depending on the state of the network, the receiving interval between a certain packet and a certain packet may be 40 ms, 5 ms, or sometimes 100 ms. Thus, for example, if the packet reception interval is 20 milliseconds per frame, the fluctuation detecting unit 232 determines that the fluctuation time is 0 millisecond.
  • the fluctuation time is determined to be 80 milliseconds. If the packet reception interval is 5 ms, it is probably because the arrival of the immediately preceding packet was delayed due to fluctuation, but it is determined that the fluctuation time is -15 ms or the absolute value is 15 ms. .
  • the maximum value of the fluctuation in the past fixed time for example, 2 seconds
  • the reception buffer control unit 231 determines the number of frames corresponding to the obtained maximum value of the fluctuation time, that is, the number obtained by dividing the maximum value of the fluctuation time by the frame length (rounded up to an integer value) or a frame obtained by adding 1 to it. With the number of packets equal to the target value of the number of stored packets, control is performed so that the remaining reception buffer capacity approaches the target value.
  • the target value of the number of stored packets may be determined based on a correspondence table between the maximum value of the fluctuation time and the target value of the number of stored packets as shown in FIG. When the target value of the number of stored packets does not change in the maximum value of the power fluctuation time determined for each frame, the target value of the number of stored packets is maintained at the same value.
  • the maximum value of the fluctuation time in the past fixed time is obtained, the target value of the number of stored packets corresponding to the maximum value of the fluctuation time is obtained, and the number of stored packets corresponding to each of the time-series fluctuation times is obtained.
  • Finding the target value and finding the maximum target value for the number of stored packets in a given time is equivalent. . In some cases, finding the maximum value in the target value area (the latter) can make the process of searching for the maximum value more efficient.
  • the lost state determination unit 233 uses the packet loss information transmitted from the loss detection unit 219 every moment to calculate the number of continuous packet losses in a past fixed time (for example, 2 seconds) for each frame (for example, every 20 milliseconds). Find the maximum value.
  • a method of obtaining the maximum value of the number of continuous packet losses from the time series of the packet loss information is to accumulate the packet loss information for a certain period of time and search the maximum value of the number of continuous packet losses in the packet loss information.
  • the maximum value of the number of consecutive packet losses is sent to reception buffer control section 231.
  • the reception buffer control unit 231 controls the received buffer remaining amount to approach the target value by setting the maximum value of the obtained number of continuous packet losses or the number of frames obtained by adding 1 to the target value of the number of accumulated packets.
  • the target value of the number of stored packets is the force determined for each frame.
  • the target value of the number of stored packets is maintained at the same value. Both the fluctuation time and the number of continuous packet losses determine the target value of the number of stored packets.
  • the target value of the number of stored packets determined by the fluctuation time and the target value of the number of stored packets determined by the number of continuous packet losses are large. One way is to use this as the target value for the number of stored packets.
  • FIG. 20 is a modification of the audio signal receiving device 200-2 shown in FIG.
  • This functional configuration assumes that when voice signals are communicated in both directions over a packet communication network, packets will be sent in both directions, but the state of the two-way communication network is the same. Then, based on the fluctuation time of the packet transmitted from the communication destination and the number of continuous packet losses, the delay amount of the audio signal transmission device provided as a set with the audio signal reception device 200-3 is determined, and the delay amount control information is transmitted to the communication destination. Do not send setting request information. In the case of this function configuration, the input to the terminal 118 of the audio signal transmitter 100 or 100-2 is! / ,.
  • FIGS. 21 and 22 show examples in which only the number of consecutive packet losses determines the number of accumulated packets. The difference from FIGS. 18 and 20 is that the fluctuation detecting unit 232 has been deleted.
  • FIG. 23 and FIG. 24 are configuration examples in the case where the number of packets stored in the reception buffer 212 is determined by the delay amount control information included in the received packet.
  • the receiving buffer control unit 231 is deleted.
  • the reception buffer 212 stores the number of stored packets in a packet. Set to 1 larger than the delay amount control information embedded in the packet.
  • the fluctuation information is information for transmitting the reception state to the communication destination.
  • the continuous packet loss number is information for transmitting the reception status to the communication destination.
  • FIG. 25 shows an example of a system configuration in which a voice packet is transmitted in one direction.
  • the communication device 1000-1 comprises an audio signal transmitting device 100-2 and a recording unit 110.
  • the audio signal transmitting device may be 100 audio signal transmitting devices.
  • the recording unit 110 records at least delay amount control information, and transfers the delay amount control information to the terminal 117 of the audio signal transmitting apparatus 100-2 (or 100).
  • the communication device 1000-2 on the receiving side includes an audio signal receiving device 200-2.
  • the audio signal receiving device may be an audio signal receiving device of 200, 200-4, 200-6, or 200-7. Also, for example, 1 may be set as the initial value of the number of packets stored in the reception buffer.
  • FIG. 26 shows an example of a system configuration in which a voice packet is transmitted in one direction and setting request information of delay amount control information is transmitted in a reverse direction.
  • the communication network that sends the delay amount control information setting request information may be the same IP communication network 13 as the voice packet communication network or a different communication network 13-2.
  • the communication device 1000-3 on the transmitting side of the voice packet includes a voice signal transmitting device 100-2 and a receiving device 400.
  • the audio signal transmitting device may be 100 audio signal transmitting devices.
  • 1 may be set as the initial value of the delay amount.
  • the communication device 1000-4 on the receiving side of the voice packet includes a voice signal receiving device 200-2 and a transmitting device 300.
  • the audio signal receiving device may be an audio signal receiving device of 200, 200-4, 200-6, or 200-7. Also, for example, 1 may be set as the initial value of the number of stored packets.
  • FIG. 27 shows an example of a functional configuration of the transmitting device 300
  • FIG. 28 shows an example of a functional configuration of the receiving device 400.
  • Terminal 320 of transmitting apparatus 300 corresponds to terminal 118 of audio signal transmitting apparatus 100-2.
  • Information from the audio signal receiving device 200-2 is input to the transmitting unit 310 via the terminal 320.
  • Transmitting section 310 changes the received information into a format conforming to the protocol of communication network 13 (or 13-2), and transmits it to communication apparatus 1000-3.
  • the information from the audio signal receiving apparatus is the setting request information of the delay amount control information (information requesting the change of the delay amount control information, the number of stored packets, the remaining buffer amount, the fluctuation of the packet, or the continuous packet). Loss number).
  • the receiving device 400 receives information from the communication device 1000-4 on the receiving side of the voice packet.
  • the received information is input to receiving section 310, and information for controlling communication apparatus 1000-4 on the receiving side is passed to terminal 118 of the audio signal transmitting apparatus. Further, information used for control inside the communication device 1000-3 on the transmission side is passed to the delay amount control unit 341.
  • the delay amount control section 341 generates delay amount control information from the received information and passes the information to the terminal 117 of the audio signal transmitting apparatus.
  • FIG. 29 shows an example of a system configuration for transmitting voice packets in two directions.
  • the communication device 1000-5 includes an audio signal transmitting device 100-2 and an audio signal receiving device 200-2.
  • the initial values of the delay amount and the number of packets stored in the reception buffer may be set to, for example, 1.
  • the audio signal transmitting device may be 100 audio signal transmitting devices.
  • the audio signal receiving device may be a 200, 200-3, 200-4, 200-5, 200-6, or 2007 audio signal receiving device.
  • FIGS. detailed processing flows inside the power device, which explain the processing flows in the above system configuration, are shown in FIGS.
  • a process of decoding an audio signal and a method of generating a lost frame are always performed inside an actual device.
  • detailed processing is not a main part of the present invention, and thus is omitted.
  • FIG. 30 shows a processing flow in the case where the setting request information of the delay amount control information is not transmitted from the receiving side of the voice packet to the transmitting side.
  • This processing flow can be applied not only to the system configuration in FIG. 25 but also to the system configurations in FIGS. 26 and 29.
  • the audio signal is stored in the input buffer 111 (S101).
  • the stored acoustic signal is divided for each frame and speech-encoded (S10 2).
  • an audio packet including the audio signal corresponding data and the delay amount control information is configured and transmitted to the receiving side (S103).
  • the communication device 1000-2 on the receiving side receives the voice packet (S201) and stores it in the reception buffer 212 (202).
  • the loss processing control unit 217 searches for audio signal corresponding data using the delay amount control information (S204), and generates a lost frame (S205). Finally, the audio signals are arranged and output in the order of the frames (S206).
  • each communication device 1000-1 can freely set the delay amount. Also, in the case of the communication device 1000-5 in FIG. 29, the delay amount can be freely set and changed for each communication device. Therefore, it is not necessary to determine a common rule for the amount of delay at all! It is effective if it can be changed!
  • FIG. 31, FIG. 32, FIG. 33, and FIG. 34 show a processing flow in the case of transmitting the setting request information of the delay amount control information from the receiving side of the voice packet to the transmitting side. These processing flows can be applied to the case of the system configuration shown in FIGS. 26 and 29.
  • At least the communication device 1000-3 (or 1000-5) on the voice packet transmitting side includes the voice signal transmitting device 100-2 and the communication device 1000-2 on the voice packet receiving side.
  • -4 (or 1000-5) is applicable when the audio signal receiver 200-2 or 200-4 is provided.
  • the feature of this processing flow is that the reception side determines the delay time control information setting request information for the fluctuation time or the number of continuous packet losses, and the transmission side determines the delay amount control information from the delay amount control information setting request information. Is to seek.
  • An audio signal is input to the communication device 1000-3 on the transmitting side of the voice packet (S101), and is stored in the input buffer 111 (S102).
  • An audio packet incorporating the audio signal corresponding data and the delay amount control information is configured and transmitted to the receiving side (S103).
  • the communication device 1000-4 on the receiving side of the voice packet receives the voice packet (S201) and stores it in the reception buffer 212 (S202).
  • the fluctuation time is detected by the fluctuation detection unit 232 of the communication device 1000-4 on the receiving side (or the number of continuous packet losses is detected by the lost state determination unit 233) (S207).
  • the reception buffer control unit 231 sets the target value of the number of stored packets to the fluctuation time or the number of continuous packet losses or more (S208).
  • the target value for the number of stored packets is the transmission device 300 of the communication device 1000-4 on the receiving side of the voice packet (or the audio signal of the communication device 1000-5). It is passed to the transmission device 100-2) as setting request information of the delay amount control information. Then, the transmission device 300 (or the audio signal transmission device 100-2) transmits to the communication device 1000-3 (or the communication device 1000-5) on the transmission side of the audio packet as delay amount control information setting request information ( S209). The communication device 1000-3 on the transmitting side of the voice packet receives the setting request information of the delay amount control information (S104).
  • the delay amount control unit 341 sets the value of the delay amount control information equal to or less than the setting request information of the delay amount control information, that is, the target value of the number of stored packets, and passes the value to the audio signal transmitting apparatus 100-2.
  • the delay amount control information is input to the shift buffer 116, and the delay amount control information is set (S105).
  • the communication device 1000-4 on the receiving side of the voice bucket confirms the occurrence of packet loss, generates a lost frame, and the like (S203, S204, S205), and outputs a voice signal (S206).
  • the communication device 1000-3 (or 1000-5) on the transmitting side of the voice packet includes the voice signal transmitting device 100-2, and the communication device 1000-2 on the receiving side of the voice packet.
  • the communication device 1000-4 (or 1000-5) includes the audio signal receiving device 200-2, 200-4, 200-6, or 200-7.
  • the features of this process are as follows. On the receiving side of the voice packet, the fluctuation time or the number of consecutive packet losses is detected, and the result is sent to the transmitting side.
  • the transmitting side of the voice packet sets the delay amount control information based on the fluctuation time or the number of continuous packet losses. From the transmitting side of the voice packet, delay amount control information is transmitted to the receiving side together with the voice signal. On the receiving side of the voice packet, set the received delay amount control information and the number of stored packets.
  • Steps S101 to S201 are the same as the processing float in Fig. 31.
  • the reception buffer 212 extracts the delay amount control information from the received voice packet, and sets the number of stored packets (S208). According to this setting, the voice packet is stored in the reception buffer (S202).
  • the fluctuation detecting section 232 or the lost state determining section 233 detects the fluctuation time or the number of continuous packet losses (S207).
  • the detected information is transmitted to the transmitting device 300 in the communication device 1000-4 on the receiving side of the voice packet (or the voice signal transmitting device in the communication device 1000-5). From 100-2), the voice packet is transmitted to the communication device 1000-3 (or the communication device 1000-5) on the transmission side (S209).
  • the communication device 1000-3 (or the communication device 1000-5) on the transmitting side of the voice packet receives the information (S106).
  • the delay amount control unit 341 sets the value of the delay amount control information to a value larger than the number of frames corresponding to the fluctuation time or the number of continuous packet losses, and passes the value to the audio signal transmitting apparatus 100-2.
  • the delay amount control information is input to the shift buffer 116, and the delay amount control information is set (S105).
  • Step S203 The force S206 is the same as in FIG. In the description of the features of this processing flow, the setting of the number of stored packets is the last in the processing flow in Fig. 32, before the detection of fluctuation and the setting of delay amount control information.
  • At least the communication device 1000-3 (or 1000-5) on the transmitting side of the voice packet includes the voice signal transmitting device 100-2 and the communication device 1000-2 on the receiving side of the voice packet.
  • -4 (or 1000-5) is applicable when the audio signal receiver 200-2 or 200-4 is provided.
  • the feature of this process is that the target value of the fluctuation time or the number of continuous packet losses and the number of accumulated packets and the delay amount control information are simultaneously obtained.
  • Steps S101 to S207 are the same as those in FIG. From the detected fluctuation or the number of continuous packet losses, the reception buffer control unit 231 obtains a target value of the number of stored packets and delay amount control information (S210). At this time,
  • the reception buffer 212 is set to accumulate packets according to the obtained target value of the number of accumulated packets (S208).
  • the determined delay control information is transmitted from the transmitting device 300 of the communication device 1000-4 on the receiving side of the voice packet (or the voice signal transmitting device 100-2 of the communication device 1000-5) to the communication on the transmitting side of the voice packet. It is transmitted to the communication device 1000-3 (or the communication device 1000-5) as a request to change the delay amount control information (S211).
  • the communication device 1000-3 (or the communication device 1000-5) on the transmitting side of the voice packet receives this information (S107), and the delay amount control unit 341 uses the information as delay amount control information.
  • the delay amount control information is input to the shift buffer 116, and the delay amount control information is set (S105). Steps S203 to S206 are the same as those in FIG. The effect of this processing flow is the same as in the case of FIGS.
  • At least the communication device 1000-3 (or 1000-5) on the transmission side of the voice packet includes the voice signal transmission device 100, and the communication device on the reception side of the voice packet. Applicable when the device 1000-4 (or 1000-5) includes the audio signal receiving device 200.
  • the feature of this processing is that the remaining buffer amount is transmitted as the setting request information of the delay amount control information, and the delay amount control information is obtained.
  • Steps S101 to S202 are the same as those in FIG.
  • the reception buffer remaining amount determination unit 218 of the communication device 1000-4 (or the communication device 1000-5) on the receiving side of the voice packet determines the remaining amount of the reception buffer (S213).
  • the determined information is transmitted from the transmitting device 300 of the communication device 1000-4 on the receiving side of the voice packet (or the voice signal transmitting device 100-2 of the communication device 1000-5) to the communication device 1000-4 on the transmitting side of the voice packet.
  • —3 or the communication device 1000-5) (S214).
  • the communication device 1000-3 (or the communication device 1000-5) on the transmitting side of the voice packet receives the information on the remaining buffer amount (S108).
  • the delay amount control unit 341 (or the remaining buffer amount decoding unit 216) obtains delay amount control information that is smaller than the remaining buffer amount.
  • the delay amount control information is input to the shift buffer 116, and the delay amount control information is set (S105). Steps S203 to S206 are the same as those in FIG. The effect of this processing flow is the same as in the case of FIG. 31, FIG. 32, and FIG.
  • FIG. 35 is a processing flow on the assumption that, when voice packets are exchanged in both directions, the effect of the state of the communication network on packet communication is the same in both directions.
  • This processing flow can be applied to the case of the system configuration shown in FIG.
  • the feature of this processing is to determine the number of stored packets of received packets and the delay amount control information of transmitted voice packets from the fluctuation of received voice packets and the number of continuous packet losses.
  • Step from step S101 Up to S208 is the same as FIG.
  • the obtained delay amount control information is input to the shift buffer 116 of the audio signal transmission device 100-2, and the delay amount control information is set (S212).
  • the effect of this processing flow is that, in addition to the effects of FIGS. 31, 32, and 33, the number of procedures for controlling the communication device is reduced.
  • Each of the devices shown in FIGS. 17, 18, 20 to 24, 27, and 28 may be operated by a computer.
  • Each step of the processing procedure shown in FIGS. 30 to 35 may be executed by a computer by a program.
  • the program may be installed in a computer from a recording medium such as a CD-ROM, a magnetic disk device, or a semiconductor storage device, or may be downloaded via a communication line.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

 音響信号パケットをIP通信網で通信する場合に、音響信号に対応するデータ(音響信号対応データ)を音響信号と異なるパケットに組み込んで送信している。しかし、従来はどのパケットに組み込むのかを事前に決めておく必要があり、動的に変更することもできなかった。  本発明では、音響信号に対する音響信号対応データの遅延量を、遅延量制御情報として音響信号パケットに組み込む。また、通信網の状態をバーストロスで紛失したパケットの数がゆらぎを検出し、受信側で蓄積するパケットの数と遅延量とを求める。

Description

明 細 書
音響信号のパケット通信方法、送信方法、受信方法、これらの装置および プログラム
技術分野
[0001] この発明は、ディジタル化された音声 ·音楽などの音響信号をインターネットをはじ めとするパケット通信網を介して送信する際に、特にパケット紛失対策をした通信方 法、送信方法、受信方法、これらの装置及びプログラムに関する。
背景技術
[0002] 音声信号をボイスオーバ(Voice over) IP (インターネットプロトコル)技術を利用して 送信するサービスが普及しつつある。図 1に示すように入力端子 11よりの音声信号を 音声信号送信部 12で音声パケットに変換して IP網をはじめとするパケット通信網 13 によって音声信号受信部 14へ送信し、音声信号受信部 14により音声信号を再生し て出力端子 15へ出力する。これをリアルタイム通信する場合、パケット通信網 13の状 態によっては通信網の途中においてパケットロス (紛失)が生じ、それによつて再生音 声が途切れるといった品質劣化が問題となっている。特に、インターネットなどのべス トェフォートと呼ばれる通信サービスの場合には、パケットロスを許容して 、るため通 信網の混雑時に特にこの問題が顕著である。
[0003] そこで、音声信号をパケット通信網で通信する場合には、パケットロスコンシールメ ントと呼ばれる手法を用いる。この手法は、パケットが通信路の途中で消失した場合 や通信路の遅延によって制限時間内に受信側に届かな力つた場合に、消失または 届かな力つたパケット(以下、「ロスパケット」又は「紛失パケット」という。)に対応する 区間の音声信号を受信側で推定して補償する方法が用いられる。図 2は、図 1にお ける音声信号送信部 12の一般的な構成例である。入力音声は入力バッファ 21に蓄 えられ、音声パケットィ匕部 22で音声信号をフレームと呼ばれる一定の時間ごとに区 切って音声パケットを生成し、パケット送出部 23よりパケット通信網に音声パケットを 送出する。 1フレームの時間長は一般には、 10ミリ秒から 20ミリ秒程度とすることが多 い。 [0004] 図 3は、図 1における音声信号受信部 14の一般的な構成例である。パケット通信網 力もパケット受信部 31で受信した音声パケットは、ゆらぎ吸収バッファとも呼ばれる受 信バッファ 32に蓄えられる。正しくパケットが受信されたフレームについては、受信バ ッファから音声パケットが取り出され、音声パケット復号部 33で音声信号に復号され、 パケットロスしたフレームについては、紛失信号生成部 34でパケットロスコンシールメ ント処理を行って音声信号が生成され、生成された音声信号が出力される。パケット ロスコンシールメントの処理に、ピッチ周期(音声の基本周波数に相当する時間軸上 での長さ)の情報を利用する場合には、出力音声信号を出力音声バッファ 35に蓄え 、ピッチ抽出部 36でピッチ分析し、得られたピッチ周期の値を紛失信号生成部 34に 供給する。紛失信号生成部 34で生成された信号は切替スィッチ 37を通じて出力端 子 15へ出力され、パケットロスがない場合は音声パケット復号部 33よりの復号音声 信号が切替スィッチ 37を通じて出力端子 15へ出力される。なお、双方向で音声通 信を行う通信端末は、各端末に送信部と受信部の両方を具備する。パケットロスコン シールメントの代表的な方法としては、非特許文献 1に示す方法がよく知られて!/、る。 非特許文献 1に示す方法では、音声のピッチ周期をパケットロスコンシールメントに利 用している。
[0005] 図 4に、非特許文献 1に示す方法でも用いられている、一般的なパケットロスコンシ ールメントの手法を示す。この図は、受信側の現在のフレームをフレーム nとして、フ レーム nに対応するパケットがロス (紛失)した場合の処理方法を示すものである。過 去のフレーム(フレーム n—1まで)の音声信号は、正しく復号されている、もしくはパ ケットロスがあった場合にもパケットロスコンシールメントの手法によって音声信号が生 成されているものとする。フレーム nでは音声パケットが受信できていないため、直前 のフレーム n— 1の最後のサンプル点から、 1ピッチ周期分の区間 3Aの音声信号波 形を切り出し、フレーム nの区間に切り出した 1ピッチ波形を順にフレームの長さにな るまで並べる(区間 3B〜3D)。
[0006] このように直前フレームの 1ピッチ波形を並べる処理によってパケットロスとなったフ レームの波形を生成すると、何も処理しな 、で 0値でフレーム nの全サンプル点を埋 めるのに比べて、自然な音質で再生することが可能である。 なお、このとき、 1ピッチ波形を単純に並べた場合、接続点で波形が不連続となって 、プップッといった耳障りな音が生じることがある。その場合には、図 5に示すような手 法で接続点での不連続を防ぐ。図 5では、説明をわ力りやすくするために、フレーム n の区間を、切り出し波形ごとに段をずらして表示している。まず、フレーム n—lの最 後のサンプル点から、 1ピッチ周期よりも少し長い、例えばピッチ長を Lとすると 4分の 5L (5 X LZ4)の区間 4Aの波形を切り出し、 1ピッチ長ずつずらした 4B, 4C, 4Dの 位置に切り出した波形をそれぞれ並べる。このとき、切り出した波形は 1ピッチ長よりも 長いため、重なり区間 4AB, 4BC, 4CDができる。これらの重なり部分は、例えば図 6に示す三角窓関数をかけて重ね合わせるという方法がとられる。図 6は、横軸が時 刻、縦軸が重みの値を示しており、 tlが重なり区間の始点、 t2が重なり区間の終点を 示す。例えば図 5における重なり区間 4BCでは、重なり区間 4BCの区間 4B側の波形 に重み関数 W1を乗じ、区間 4C側の波形に重み関数 W2を乗じて加算することにより 、区間 Bと Cの両切り出し波形をなめらかにつなげることができる。このような重ね合わ せの詳細につ 、ても、非特許文献 1に記載されて 、る。
[0007] パケットロスの発生する通信環境で非特許文献 1に示す方法を利用した場合の音 声品質は一般に良好と言われている。しかし、パケットロスが音声の子音と母音の境 界付近で発生した場合に、耳障りな雑音が発生することがある (課題 1)。また、連続 した複数のフレームのパケットロスが発生 (バースト的なロス (紛失)と 、う)した場合、 すなわち例えばフレーム長が 20ミリ秒のときにパケットが 2〜3フレーム以上連続して ロスした場合や、フレーム長が長 、音声符号ィ匕方式で 1フレームのパケットロスが発 生した場合、すなわち例えばフレーム長が 40ミリ秒や 60ミリ秒の音声符号ィ匕方式の ときにパケットロスが発生した場合に、耳障りなブザー音が発生することや、不自然な 音声が再生されると 、つた問題がある (課題 2)。
[0008] 前記課題 1の原因は、非特許文献 1に示す方法がロスフレームの音声を生成する ための手法として、直前のフレームの音声波形と基本的に特性が同じ波形を作成し ていることに起因する。即ち、子音と母音の境界付近の母音に近いフレームでフレー ムロスが発生すると、ロスしたフレームは母音区間であるにもかかわらず、子音と同じ 特性の音声波形が生成される。また、母音から無音や子音へ変化する時刻でも同様 の雑音が発生する。
前記課題 2は、パケットロスの発生した区間が子音と母音の境界付近でないときにも 発生する。その原因は、パケットロスフレームの音声をさらに(自己回帰的に)利用し て、連続した後続のフレームロス区間でも同じ特性の音声波形を生成するため、 40ミ リ秒〜 60ミリ秒以上の長い時間にわたって、同じ特性の音声波形が連続して再生さ れることに起因する。実際の音声はピッチ周期やパヮが微小に変化しており、連続し て同じ特性の音が再生されると、それは音声とは異なった音に聞こえる。
[0009] 前記課題 1、 2を解決する手法として、非特許文献 2の提案がある。この文献では、 あらかじめ k番目のフレームの補助情報を k+1番目のフレームに埋め込む。そして、 k 番目のフレームがパケットロスの発生によって届かなかった場合、 k+ 1番目のフレー ムに埋め込まれた補助情報を、 k番目のフレームのエラーを隠蔽するために用いて いる。
非特許文献 1 : ITU- T Recommendation G.711 Appendix I, "A high quality low-complexity algorithm for packet loss concealment with G.71 i ,ρρ.1— 18, 1999. 非特許文献 2:青木直史, "ピッチ波形複製法に基づくステガノグラフィを用いた VoIP におけるパケット損失の一隠蔽法",電子情報通信学会誌 B, Vol.J86-B, No.12, pp.2551- 2560, 2003.
発明の開示
発明が解決しょうとする課題
[0010] パケットロスの発生する通信環境において、非特許文献 1に示す方法のパケット口 スコンシールメント手法を用いることは、再生音声の品質劣化を少なくする点で一定 の効果がある。し力しながら、子音と母音の境界付近のフレームでパケットロスが発生 した場合には、耳障りな雑音を十分に防ぐことができない、また連続した複数のフレ ームでパケットロスが発生した場合の再生品質が不自然である。
また、非特許文献 2では、補助情報を追加することによるエラーの隠蔽方法につい ては示されている。一方、補助情報を音響信号のフレームとどの程度ずらしたフレー ムと一緒に送信するのか (遅延量)については示されていない。実際の通信網では、 通信状態は変化するため、パケットのゆらぎやバーストロスの発生頻度なども変化す る。したがって、最適な遅延量も変化するはずである。しかし、従来技術には遅延量 を動的に変化させる方法について示された例がない。また、対向する装置間で事前 に遅延量を定めておく必要がある。
[0011] この発明はこれらの問題を解決し、より安定した品質で音響通信のできる方法、そ の装置、およびプログラムを提供することを目的とする。
課題を解決するための手段
[0012] この発明では、送信側で、音響信号と同一のパケットに、遅延量制御情報で指定す る値だけフレーム番号が異なるフレームの音響信号に対応するデータ (以下、「音響 信号対応データ」という。)と、遅延量制御情報とを組み込んで送信する。受信側では 、受信できなかったパケットがある場合に、紛失した音響信号のフレーム(以下、「紛 失フレーム」という。)と同じフレーム番号の音響信号対応データを、遅延量制御情報 を用いて受信バッファ内のパケットから求める。そして、受信側では、求められた音響 信号対応データを用いて紛失フレームの音響信号を生成する。
[0013] また、この発明では、遅延量を通信網の状態にあわせて変化させる。具体的には、 受信側で、あらかじめ定めた期間ごとのパケットのゆらぎ時間の最大値、またはバケツ トロスが連続して発生するフレーム数(例えば、単独フレームでのロスは 1、 3フレーム 連続してパケットロスが発生したときは 3)の最大値 (以下、「連続パケットロス数」と!、う 。)を検出し、受信バッファに蓄積されたパケットの数 (以下、「蓄積パケット数」という。 )と遅延量を、
ゆらぎ時間に相当するフレーム数 (端数切り上げ)≤遅延量≤蓄積パケット数 または
連続パケットロス数≤遅延量≤蓄積パケット数
を満たすように、制御する。
[0014] さらに、この発明では、送信側で、各フレーム内の音響信号に対応する少なくともピ ツチ周期を音響特徴量として求め、遅延量制御情報として指定されるフレーム数だけ 、フレーム番号が異なる音響信号と音響特徴量を同一のパケットに組み込んで送信 する。受信側で、出力しょうとするフレームの音響信号に対応するパケットが紛失した 場合は、紛失パケットの音響信号に対応する音響特徴量を、受信バッファ内のバケツ トから求め、上記紛失パケットの音響信号のフレーム(以下紛失フレームという)と直 近したフレームの音響信号から、上記求めた音響特徴量に含まれるピッチ周期に対 応する長さの波形を切り出し、その切り出した波形を上記ピッチ周期で繰り返し並べ 、この並べた信号を用いて上記紛失パケットの音響信号を生成する。
発明の効果
[0015] この発明によれば、遅延量制御情報をパケットに組み込んで送信するとともに、各 フレームの音響信号対応データをその音響信号とは別のパケットで送信して 、る。つ まり、遅延量を送信側が変更しても、受信側では、音響信号と音響信号対応データと の関係が把握できる。したがって、あるフレームの音響信号がパケットロスにより失わ れても、その音響信号の音響信号対応データはパケットロスすることなく受信されると ともに、送信された遅延量制御情報力 容易に求めることができる。
また、音響信号対応データとして、その音響信号のピッチ周期を用いる場合は、こ のピッチ周期と対応する長さで音響信号波形を切り出し、並べて、紛失音響信号を 生成している。したがって、 1フレーム単位のランダムなパケットロスの場合でも、連続 して複数フレームのパケットロスが発生した場合でも、パケットロスが発生しな 、場合 に近い音響品質で音響信号が再生されるため、安定した音響通信が実現される。
[0016] このように、パケットロスの発生頻度の高 、パケット通信網で、リアルタイムの安定し た音響通信ができる。また、パケット通信網はコストを抑えるために、ある程度のパケ ットロスを許容するように設計するのが一般的であり、この発明の利用によって、回線 自体のパケットロス率が低い高品質ネットワークが不要となるため、ネットワークコスト 低減にも効果がある。
また、遅延量を通信網の状態にあわせて制御することにより、通信網の状態が相対 的に良い場合には、受信バッファ内の蓄積パケット数を減らして、音声パケットを受信 して力 実際に音声信号が再生されるまでの遅延時間を短縮する。通信網の状態が 相対的に悪い場合には、受信バッファ内の蓄積パケット数を増やして、(音声パケット を受信して力 実際に音声信号が再生されるまでの遅延時間は増加するが)バース トパケットロスが発生しても確実に音響信号対応データを取得して、品質劣化の少な
V、音声信号を再生することができる。 図面の簡単な説明
[図 1]音声信号を音声パケットに変換し、パケット通信網によって通信する概念図。
[図 2]図 1中の音声信号送信部 12の一般的な機能構成例を示すブロック図。
[図 3]図 1中の音声信号受信部 14の一般的な機能構成例を示すブロック図。
[図 4]一般的なパケットロスコンシールメントの手法による紛失信号の生成を説明する ための波形図。
[図 5]図 4においてピッチ波形を繰り返して波形を作成する際に不連続音が生じない ようにするための重ね合わせ手法 (オーバーラップアツド処理)を説明するための波 形図。
[図 6]オーバーラップアツド処理における三角窓関数の例を示す図。
[図 7]この発明による音響信号送信装置 100の機能構成例を示す図。
[図 8]この発明による音響信号受信装置 200の機能構成例を示す図。
[図 9]この発明による音響信号パケット送信方法の処理手順の例を示す図。
[図 10]この発明による音響信号パケット受信方法の処理手順の例を示す図。
[図 11]パケットの構成例を示す図。
[図 12]図 8中の紛失信号生成部 224の動作の一例を説明するための波形図。
[図 13]図 8中の紛失信号生成部 224の具体的機能構成例を示す図。
[図 14]紛失フレームの音響信号の特徴量の選択手順の例を示す図。
[図 15]連続してパケットロスが発生した場合の後ろ向き波形外挿処理を説明するため の波形図。
[図 16]後ろ向き波形外挿のオーバーラップアツド処理を説明するための波形図。
[図 17]この発明による音声信号送信装置 100— 2の機能構成例を示す図。
[図 18]この発明による音声信号受信装置 200— 2の機能構成例を示す図。
[図 19]ゆらぎ時間と蓄積パケット数の対応の例を示す図。
[図 20]この発明による音声信号受信装置 200— 3の機能構成例を示す図。
[図 21]この発明による音声信号受信装置 200— 4の機能構成例を示す図。
[図 22]この発明による音声信号受信装置 200— 5の機能構成例を示す図。
[図 23]この発明による音声信号受信装置 200— 6の機能構成例を示す図。 [図 24]この発明による音声信号受信装置 200— 7の機能構成例を示す図。
[図 25]—方向に音声パケットを送る場合のシステム構成例を示す図。
[図 26]音声パケットを一方向で送り、制御信号を逆方向に送る場合のシステム構成 例を示す図。
[図 27]送信装置 300の機能構成例を示す図。
[図 28]受信装置 400の機能構成例を示す図。
[図 29]双方向で音声パケットを送る場合のシステム構成例を示す図。
[図 30]音声パケットの受信側から送信側への制御情報の送信を行わない場合の処 理フロー例を示す図。
[図 31]音声パケットの受信側から送信側への制御信号の送信を行う場合の処理フロ 一の第 1の例を示す図。
[図 32]音声パケットの受信側から送信側への制御信号の送信を行う場合の処理フロ 一の第 2の例を示す図。
[図 33]音声パケットの受信側から送信側への制御信号の送信を行う場合の処理フロ 一の第 3の例を示す図。
[図 34]音声パケットの受信側から送信側への制御信号の送信を行う場合の処理フロ 一の第 4の例を示す図。
[図 35]通信網の状態がパケット通信に与える影響は、双方向とも同じであると仮定し た場合の処理フロー例を示す図。
発明を実施するための最良の形態
この発明は、コンピュータ本体とコンピュータプログラムとして実行することが可能で あるし、ディジタルシグナルプロセッサや専用 LSIに実装して実現することも可能であ る。この発明は音声 ·音楽などの音響信号に適用できるが、以下では、図 1に示した Voice over IPによる音声通信システムにこの発明を適用した場合について説明する 。また、重複説明を避けるため、同じ機能を備える構成部や、同じ処理をする過程に は同じ番号を付している。
以下では、実施例 1として、音響信号対応データとしてピッチ周期を用いた場合の 音声信号送信装置と音声信号受信装置の機能構成や処理フローを説明する。実施 例 2では、遅延量と蓄積パケット数を通信網の状態に連動させる方法について説明 する。なお、実施例 2で用いる音響信号対応データは、ピッチ周期に限る必要はなく 、音響信号そのものでもよぐまた他の音響信号特徴量でもよい。
[実施例 1]
音声信号送信装置 100 (図 1中の送信部 12と対応)の機能構成例を図 7に、音声 信号受信装置 200 (図 1中の受信部 14と対応)の機能構成例を図 8にそれぞれ示し 、音声信号送信装置 100の処理手順の例を図 9に、音声信号受信装置 200の処理 手順を図 10にそれぞれ示す。
送信側
送信装置 100において、入力音声信号は入力バッファ 111に蓄えられ、音声信号 をフレームと呼ばれる一定の時間ごとに区切って、つまりフレーム分割して (ステップ S1)音声波形符号ィ匕部 112に送る。 1フレームの時間長は一般には、 10ミリ秒から 2 0ミリ秒程度とすることが多 、。
音声波形符号ィ匕部 112では、例えば、 ITU— Tの標準符号ィ匕方式である G. 711 ( μ -law PCMまたは A— law PCM方式)を適用して入力音声信号を音声符号に 変換する (ステップ S 2)。なお、 G. 711以外の標準方式や、非標準の音声符号化方 式など、符号ィ匕方式は任意の方式を用いてよい。音声符号はパケット構成部 113に 送られる。
音声特徴量計算部 114では、入力バッファ 111に蓄えられた音声信号を用いて、 当該フレームにおけるその音声信号の音声特徴量を計算する (ステップ S3)。音声 特徴量とは、ピッチ周期 (音声の基本周波数に相当)、パヮなどを指し、これらの特徴 量のいずれかのみを利用することもあるし、全部を利用することもある。ピッチ周期は ピッチ部 114aで例えば、音声信号波形または音声信号波形にスペクトル包絡の逆 特性を持つフィルタを力けた信号の自己相関係数を計算することによって得られる ( ステップ S3a)。パヮは、パヮ部 114bでフレーム内の音声信号の全サンプルの二乗 和により計算する (ステップ S3b)。この二乗和をフレーム長のサンプル数 (音声信号 のサンプリング周波数が 8kHzでフレーム長が 20ミリ秒の場合は 160)で除して平方 根をとつた値(1サンプルあたりのパヮの平方根)をパヮを表す特徴量として利用して ちょい。
[0020] 音声特徴量符号ィ匕部 115では、前記音声特徴量を決められたビット数 (またはノ ィ ト数)で表すことができるように量子化した後、符号に変換する (ステップ S4)。例えば 、ピッチ周期の場合、音声のサンプリング周波数が 8kHzサンプリングで、ピッチ周期 の探索範囲が 40サンプル〜 120サンプルの場合には、符号として 0〜80を割り当て ることができ、 7ビットで符号ィ匕することができる。探索範囲が 20サンプル〜 160サン プルの場合は符号として 0〜 140を割り当てるので 8ビットである。パヮの場合は、前 記 1サンプルあたりのパヮの平方根に G. 711方式を適用すれば 8ビットで符号化す ることができる。(パヮに負の値はないので、実際には正負の符号ビットを除いた 7ビッ トでよい。)
符号ィ匕された音声特徴量は、シフトバッファ 116に送られる。シフトバッファ 116で は、あら力じめ指定された数のフレームにわたって音声特徴量の符号を保持する。後 述する遅延量制御情報が端子 117から入力されると、遅延量制御情報で指定された フレーム数だけ前、つまり過去のフレームの音声信号の音声特徴量の符号(「補助情 報」ともいう。)をパケット構成部 113に送る。例えば、現在のフレームを n、遅延量制 御情報が 3とすると、フレーム n— 3で生成された音声特徴量符号がシフトバッファ 11 6で 3フレーム遅延されてパケット構成部 113へ送られる(ステップ S 5)。
[0021] 端子 118から後述するバッファ残量が入力され、バッファ残量符号ィ匕部 119で符号 化される (ステップ S6)。そのバッファ残量符号もパケット構成部 113に送られる。パケ ット構成部 113では、前記音声信号波形を符号化した符号と、音声特徴量の符号と 、遅延量制御情報と、ノ ッファ残量符号を用いてパケットを構成する (ステップ S7)。 なお、遅延量制御情報とバッファ残量符号はパケットに組み入れない場合もある。こ の点については後述する。
パケット送出部 121は、パケット構成部 113で作成されたパケットの情報を受け取り 、音声パケットとしてパケット通信網に送出する (ステップ S8)。
[0022] パケット構成部 113での、パケットの構成例を図 11に示す。一般にパケットはヘッダ 領域 41とデータ領域 42からなり、ヘッダ領域 41の中でも必須領域 4 laとオプション 領域 41bがある。パケットの宛先やフレーム番号などのタイムスタンプはヘッダ領域 4 1に格納される。音声信号波形を符号化した符号データはデータ領域 42に格納され る。音声特徴量の符号は、波形データに比べてサイズ (バイト数)が少ないため、へッ ダ領域 41のオプション領域 HOP41bに格納する方法と、データ領域 42の先頭 D1ま たは末尾 DEに格納する方法の!/、ずれでもよ!/、。オプション領域 HOPに格納する方 法力 この発明を適用しない方法との互換性を維持しやすいという長所がある。また 、パケットのヘッダ領域 41は 4バイトの倍数とするのが一般的である。音声特徴量とし て、ピッチ周期とパヮをそれぞれ 1バイトずつで量子化して送る場合 (7ビットの場合は 1バイト =8ビットに切り上げる)、ピッチ周期とパヮ情報の合計 2バイトに、遅延量制御 情報とバッファ残量符号を各 1バイトで表現して合計 4バイトとなる。これらを、例えば オプション領域 HOP41bの 4つの領域 OP1, OP2, OP3及び OP4に各 1バイトずつ 格納する。遅延量制御情報を補助情報 (音声特徴量符号)とともに送るのは、補助情 報がどのフレームに対応する補助情報であるかを、受信側で知るためであり、フレー ム nを基準とした相対的なタイムスタンプとみることができる。また、ノ ッファ残量符号 を補助情報とともに送るのは、相手側が自分宛にパケットを送るときに、補助情報をフ レーム nと相対的に何フレームずれで送ってもらうのが適当であるかを伝えるためで ある。
補助情報がフレーム nと相対的に何フレームずれたものであるかをフレーム毎にダ イナミックに変動させな ヽ場合は、遅延量制御情報やバッファ残量符号を補助情報と ともに送ることは不要であり、図 7中のバッファ残量符号ィ匕部 119、図 8中のバッファ 残量復号部 216、受信バッファ残量判定部 218、図 9中のステップ S6は省略される。 あら力じめ決められた相対的なフレームのずれを送信側と受信側で事前に (例えば 呼の接続時のネゴシエーションで)知っていればよいからである。その場合には、遅 延量制御情報とバッファ残量符号を各 1バイトで送る必要がなぐピッチ周期とパヮ情 報の合計 2バイトだけで済む。ヘッダ領域が 4バイト単位であるので、補助情報を 2フ レーム分、例えば、フレーム n— 3とフレーム n— 6の各音声信号に対する各補助情報 をフレーム nのパケットにつけて送ることができる。したがって、音声信号符号とその補 助情報の 、ずれもがパケットロスとなる確率が低くなる。またこの遅延量制御情報を 一定にする場合は、音声信号符号と、その補助情報が共にパケットロスにならないよ うに、つまりバースト的ロスに耐え、かつリアルタイム性が失われない程度に、 60ミリ秒 , 80ミリ秒あるいは 100ミリ秒程度と対応するフレーム数とする。
図 8の音声信号受信装置 200において、パケット受信部 211は、パケット通信網か ら音声パケットを受信し (ステップ S21)、受信バッファ 212に蓄積する (ステップ S22) 。受信バッファ 212はゆらぎ吸収バッファとも呼ばれる。前述したように、音声パケット には、音声信号波形を符号化した符号と、ピッチ、パヮ等の符号の補助情報、遅延 量制御情報、バッファ残量符号が含まれている。補助情報がフレーム nと相対的に何 フレームずれたものであるかをフレーム毎にダイナミックに変動させない場合は、遅 延量制御情報とバッファ残量符号は不要である。ただし、以下は遅延量制御情報と ノ ッファ残量符号がともにパケットに組み込まれていることを前提にして説明する。
[0024] 受信した音声パケットに含まれる音声信号波形を符号化した符号は、音声パケット 復号部 213に送られ、音声信号波形に復号される (ステップ S24)。パケットロスが発 生していないフレームでは、音声パケット復号部 213の出力信号が切替スィッチ 214 を通じて出力端子 215に再生音声として出力される (ステップ S36)。
ノ ッファ残量復号部 216では、受信した音声パケットに含まれるノ ッファ残量符号 から、補助情報を何フレームまでずらしてパケットにつけるかを指定する遅延量制御 情報を求める。求められた遅延量制御情報は、図 7中の端子 117、つまりシフトバッフ ァ 116とパケット構成部 113に送られる。相手側バッファ残量と遅延量制御情報の関 係については後述する。
[0025] 受信した音声パケットに含まれる遅延量制御情報は、紛失処理制御部 217で利用 される。紛失処理制御部 217における処理は後で詳細に述べる。
受信バッファ残量判定部 218は、受信バッファ 212に蓄積されているパケットのフレ 一ム数を検出する。例えば、フレーム nが音声パケット復号部 213で復号されていると きに、受信バッファ 212にフレーム n+ 1, n+ 2, n+ 3の音声信号符号のパケットが 蓄積されている状態であれば、ノ ッファ残量、つまり蓄積パケットのフレーム数は 3で ある。このノ ッファ残量は、図 7中の端子 118、つまりバッファ残量符号ィ匕部 119に送 られる。なお、図 7に示す送信装置 100と、図 8に示す受信装置 200が相互に連携す るこの通信方法は、双方向音声通信を行い、各端末が送信装置 100及び受信装置 200の両方を具備して 、ることが前提である。
[0026] なお、音声信号送信装置 100の端子 117は、送信部 117自体を制御するための信 号の入力端子である。つまり、入力端子 117に入力された遅延量制御情報にしたが つて、音声特徴量が遅れて送信されるパケットに組み込まれる。一方、端子 118は、 通信先の音声信号受信装置 200に送信するための情報の入力端子であり、この情 報によって、音声信号送信装置 100は制御されない。つまり、端子 118に入力された 情報は、通信先に送信されるだけである。
紛失検出部 219はパケットロス (紛失)を検出する (ステップ S23)。パケット受信部 2 11で受信されたパケットはそのパケット番号にしたがって、つまりフレーム番号の順に 受信バッファ 212に格納される。例えば、受信したパケットのフレーム番号がその直 前に受信したパケットのフレーム番号より 3つ多ければ、直前に受信したパケットの格 納位置から 2つのパケットを格納する位置をあけてその受信パケットを格納する。受 信バッファ 212からはその格納位置の順にパケットが読み出される力 読み出される 際に読み出す格納位置にパケットがない場合には、その読み出し動作の直前に、パ ケットロス (紛失)が発生したと紛失検出部 219が判定し、切替スィッチ 214を紛失処 理制御部 217の出力側に切替える。紛失処理制御部 217におけるパケットロスコン シールメント制御処理の詳細を説明する。
[0027] フレーム nにお 、て、パケットロスが発生したとする。パケットロスが発生した場合は、 受信バッファ探索部 221が受信バッファ 212に蓄積された受信パケットを探索し、フ レーム n+ 1以降で受信されているパケットの中で、紛失フレーム nに時間の近い(タ ィムスタンプが直近の)パケットを探索する(ステップ S25)。この探索の結果フレーム n+iのパケットが得られたとする。例えば、フレーム n+ 1がロス(紛失)していないとき は i= l、フレーム n+ l、フレーム n+ 2とも連続してロスしてフレーム n+ 3がロスでな V、場合は i= 3と 、つた具合である。フレーム n+iのパケットに含まれる音声信号波形 を符号化した符号は、先読み音声波形復号部 222で復号され (ステップ S26)、フレ ーム n + iの音声信号波形が得られる。さらに受信バッファ探索部 221にお 、て受信 ノ ッファ 212に蓄積されたパケットの中から、紛失フレーム nの音声信号に対応する 補助情報が付加されたパケットを探索する (ステップ S27)。
[0028] 前述したように、遅延量制御情報 (相対的なタイムスタンプ)がパケットに付加されて いる場合には、その遅延量制御情報をもとにフレーム nの音声信号と対応する補助 情報が付加されたパケットを探索することができる。例えば、フレーム n+ 3のパケット に遅延量制御情報として 3が付加されて 、れば、それはフレーム nの音声信号と対応 する補助情報である。補助情報が付加されるパケットはフレーム nと相対的に何フレ ームずれたものであるかをフレーム毎にダイナミックに変動させない場合は、遅延量 制御情報を送信側でパケットに付加する必要がなぐその場合は、あらかじめ決めら れた遅延量を前提として紛失フレーム nの音声信号と対応する補助符号が付加され たパケットを探索する。例えば、あら力じめ決められた遅延量が 5のとき、紛失フレー ム nの音声信号対応補助情報は、フレーム n+ 5のパケットに付加されている。前述し たように 1フレーム分のパケットに 2フレーム分の補助情報を付加している場合は、探 索の結果、紛失フレーム nの音声信号対応補助情報が付加されたパケットは受信バ ッファ 212内に 2つ見つ力ることがあるので、その場合はいずれかを利用すればよい
[0029] このパケット探索で見つかれば (ステップ S28)、探索された紛失フレーム nの音声 信号に対応する補助情報は、音声特徴量復号部 223において紛失フレーム nの音 声信号のピッチ情報とパヮ情報に復号され (ステップ S29)、紛失信号生成部 224に 送られる。
一方、非特許文献 1に示す方法と同様に、出力端子 215に出力される出力音声信 号は出力音声バッファ 225に蓄えられ (ステップ S36)、ステップ S28でパケット検索 により見つ力もなければ出力音声バッファ 225の出力音声信号はピッチ抽出部 226 においてピッチ周期の分析が行われる (ステップ S30)。ピッチ抽出部 226において 抽出されるピッチは、紛失フレームの直前フレーム n— 1の音声信号に対応するピッ チである。直前フレーム n—lの音声信号に対応するピッチは、紛失信号生成部 224 に送られる。
[0030] 紛失信号生成部 224の動作イメージを図 12に、機能構成例を図 13に示す。フレー ム nを現在のフレームとし、フレーム nに対応するパケットがロス(紛失)したものとする 。非特許文献 1に示す方法は、パケットロスの発生した直前のフレーム n— 1の波形を ピッチ単位で繰り返すもので、ピッチ周期、パヮを含む信号の特性は直前のフレーム と同一であった。この実施形態では図 13に示すように、直前のフレーム n—lの信号 力 ピッチ周期と対応する信号波形を切り出し、この信号波形を、非特許文献 1に示 す方法と同様に、前向き波形外揷部 51においてピッチ周期単位で波形を繰り返して 1フレーム長の波形 10— 1を作成する (ステップ S31)。このとき、非特許文献 1に示 す方法では、ピッチ周期として直前のフレーム n— 1における音声信号のピッチ長を 用いているが、この発明では、補助情報を復号して得られた紛失フレーム nの音声信 号のピッチ長を用いる。補助情報を組み込んだパケットも紛失した場合など、ステップ S28でパケットを見つけることができず補助情報が得られて ヽな 、場合は、ステップ S 30で得られた直前のフレーム n— 1の音声信号のピッチ長で代用する。
[0031] また、この実施例ではフレーム n+ 1以降で、受信バッファ 212内に正常に受信でき たフレーム n+iの音声信号(つまり、フレーム n+ 1のパケットが受信できていればフ レーム n+ 1の信号、フレーム n+ 1のパケットも連続して紛失して、フレーム n+ 2のパ ケットが受信できた場合にはフレーム n+ 2の信号)からピッチ周期と対応する信号波 形を切り出し、後ろ向き波形外揷部 52でピッチ周期単位の波形を繰り返して 1フレー ム長の波形 10— 2を作成する (ステップ S32)。このとき、時間軸上で未来の波形を使 つて外挿するため、波形の繰り返し方向が時間軸の負の向きであることに注意する。 また後ろ向き波形外揷部 52で使用するピッチ周期は、前向き波形外揷部 51と同様 に、補助情報を復号して得られた紛失フレーム nの音声信号のピッチ長とする。しか し、補助情報を組み込んだパケットもロスした場合など、補助情報が得られていない 場合は、フレーム n—lの音声信号のピッチ長で代用する力、または、フレーム n+ 1 の音声信号対応の補助情報が得られていれば、フレーム n+ 1の音声信号のピッチ 長で代用してもよい。
[0032] つまり紛失フレーム nの音声信号を生成しょうとする場合に、波形外挿の際の切り出 しピッチ長は例えば図 14に示すように、紛失フレーム nの音声信号に対する補助情 報が格納されたパケットがロスでなければ (ステップ S41)、その補助情報を復号して 用いる (ステップ S42)。その補助情報が付加されたパケットがロスであれば、外挿が 前向きかを調べる (ステップ S43)。前向きであれば、直前のフレーム n—1の出力音 声信号力もピッチ長を分析して、そのピッチ長を用いる (ステップ S44)。外挿が前向 きでなければ、直後のフレーム n+ 1の音声信号に対する補助情報が付加されたパ ケットを探索する。これがロスでなければ、ステップ S42に移ってその補助情報を復 号してピッチ長を用いる。なお、このフレーム n+ 1の音声信号の補助情報も得られな ければ、ステップ S44に移る。前記前向き波形外揷部 51と、後ろ向き波形外揷部 52 のそれぞれ処理イメージを図 12に示す。 9 1は過去の波形、 9 2は先読みの波形 を示している。前向き波形外挿では、フレーム n—1の音声信号力も切り出した 1ピッ チ長の波形 10A1を区間 10B1, 10C1, 10D1のように繰り返して波形 10— 1を作 成する。後ろ向き波形外挿では、フレーム n+ 1の音声信号力も切り出した 1ピッチ長 の波形 10A2を、区間 10B2, 10C2, 10D2のように繰り返して波形 10— 2を作成す る。図 15の波形 9— 2に、フレーム n、フレーム n+ 1が連続してパケットロスになり、フ レーム n+ 2が正常に受信できた場合の後ろ向き波形外挿のイメージを示す。この場 合は、フレーム n+ 2の音声信号から 1ピッチ波形 13Aを切り出し、これをフレーム n+ 1のフレーム n+ 2側からフレーム nのフレーム n— 1側に向って区間 13B, 13C, · ··, 13Fと繰り返すことによってフレーム nの外揷波形 10— 2を得る。
なお、非特許文献 1に示す方法の説明にお 、て図 5で述べたように、単純に 1ピッ チ長に切り出した波形を並べると、接続点で不連続音が出る。そこで、前向き波形外 揷では図 5と同様に重なり区間を設けて窓掛け加算(Overlap add, OLA)を行うのが よい。同様に後ろ向き波形外挿においても図 16に示すように、窓掛け加算 (OLA)を 、図 5の時間軸を逆転した方法で実現できる。
波形 10— 1と波形 10— 2には、図 13に示すように乗算部 53と乗算部 54において それぞれ重み W1と W2が乗算され、加算部 55において加算され波形 ynとなる(ステ ップ S34)。重み Wlと W2はそれぞれ 1Z2にする簡略ィ匕された方法と、波形 10— 1 と波形 10— 2の「信頼度」に基づいて重み決定部 56でそれぞれ重み W1と W2を決 定する (ステップ S 34)方法がある。「信頼度」に基づくとは、過去最後に正常受信で きたフレームと現在のフレーム nとのフレーム番号差と、受信バッファ 212内力も探索 して得た現在よりも後の時刻(タイムスタンプ)の受信パケットのフレームと現在のフレ ーム nとのフレーム番号差とのうち、番号差の小さ 、ほうを信頼度が高 、とみなすこと である。このような「信頼度」を利用することは、バースト的なパケットロスの場合に有 用である。具体例を以下にいくつか挙げる。
[0034] 例 1 :直前のフレーム n— 1ではパケットロスが発生しておらず、フレーム nでパケット ロスが発生、直後のフレーム n+ 1ではパケットロスが発生しな力つた場合は、前向き 外挿波形 10— 1と後ろ向き外挿波形 10— 2の「信頼度」は同じとみなされるので、重 みはそれぞれ 1Z2とする。
例 2:直前フレーム n— 1ではパケットロスが発生しておらず、フレーム nでパケット口 スが発生、直後フレーム n+ 1もパケットロス、更に次のフレーム n+ 2ではパケットロス が発生しな力 た場合は、前向き外挿波形 10— 1と後ろ向き外挿波形 10— 2の「信 頼度」は直前のフレーム n— 1から前向き波形外揷によって得られた波形 10— 1のほ うが高いと推測される。したがって、前向き外挿波形 10— 1に乗ずる重みは 2Z3、後 ろ向き外挿波形 10— 2に乗ずる重みは 1Z3とする。これは正常にパケットが受信さ れた前、後の直近フレーム n—1と n+ 2から音声信号を生成しょうとするフレーム nま での「距離」が 1: 2であるため、信頼度を 2 : 1とみなす。
[0035] 例 3 :フレーム n— 3が正常受信、フレーム n— 2、フレーム n— 1が連続パケットロス の後、フレーム nでパケットロス、フレーム n+ 1ではパケットロスが発生しなかった場合 は、前向き外挿波形 10— 1より後ろ向き外挿波形 10— 2のほうが信頼度が高いと推 測される。前向き外挿波形 10— 1に乗ずる重みは 1Z4、後ろ向き外挿波形 10— 2に 乗ずる重みは 3Z4とする。これは正常にパケットが受信された前、後直近のフレーム 力も音声信号を生成しょうとするフレーム nまでの「距離」が 3: 1であるため、信頼度を 1 : 3とみなす。従って図 13中の重み決定部 56では、例えば正常にパケットが受信さ れた前及び後のフレーム n及び nと音声信号を生成しょうとするフレーム nとのそれ
B L N
ぞれの差 Δ nl及び Δ n2が差回路 56a及び 56bで計算される。これらの差 Δ nlと Δ n2が和回路 56cで加算される。この加算値により差 Δ η2を除算回路 56dで割算して 前向き外揷波形 10— 1に対する重み W1 = Δ η2/ ( Δ η1 + Δ η2)を求める。また、 前記加算値により差 Δ ηΐを除算回路 56eで割算して後ろ向き外挿波形 10— 2に対 する重み W2= Δ η1/ ( Δ η1 + Δ η2)を求める。 [0036] 前記の例では、前向き外挿波形 10— 1の全サンプル点、後ろ向き外挿波形 10— 2 の全サンプル点に対して、フレーム内で一律の重みを乗じた。しかし、正常にパケット が受信されたフレームからの「距離」をサンプル点ごとに決定して、サンプル点毎に信 頼度に応じた重みを設定してもよ 、。
図 13中のパヮ補正部 57は、加算波形 ynのパヮを、フレーム nの音声信号の補助 情報を復号して得られたパヮ情報によって補正し (ステップ S35)、フレーム nの音声 信号 xnとして出力端子 215に出力する (ステップ S36)。パヮを補正するとは、加算波 形 ynのパヮが、補助情報が示すパヮと同等になるように波形 ynの振幅を増減するこ とである。ここで、同等とは、完全にパヮがー致するか、または聴感上の影響を考慮し て出力する音声信号 xnのパヮのほうが多少低くなる程度にすることをいう。
バッファ麟 ¾£删鐘 ¾
前述の相手側バッファ残量と遅延量制御情報の関係について説明する。
[0037] 遅延量(=補助情報を音声信号のいくつずらしたフレームと一緒に送信するかのず れ量)は、大きければ大きいほど、バースト的なロスに強くできる。しかし、受信側で補 助情報を利用してパケットロスコンシールメント (紛失パケットの音声信号の生成)の 処理をするには、補助情報が到着するまで音声の再生ができない。したがって、音声 パケットを受信して力 実際に音声信号が再生されるまでの遅延 (再生遅延)が増大 する。また、双方向に通信する場合には、相手が発声して力も自分側で音声が再生 されるまでの遅延 (通話遅延)が増大する。遅延量が小さい場合には、再生遅延も小 さくでき、単独の(ランダムな)パケットロスには耐えられる。しかし、バースト的なロスが 発生すると、補助情報も失われる可能性が高い。つまり、遅延量と効果の間にはトレ ードオフが生じる。そのような場合に最適なのは、通信相手側の受信バッファに、そ の時点で何フレーム分のパケットが蓄積されているかという情報を相手側力も受け取 り、相手側受信バッファにおけるパケット蓄積フレーム数に相当する遅延量を設定す ることである。
[0038] 前述したように、パケットの到着時間のゆらぎを吸収するために受信バッファには一 定量のパケットが蓄積されるようにするのが一般的である。特に、パケット通信網の通 信状態があまりよくない場合には、相手側は受信バッファに蓄積するパケットの数を 大きくして、パケットの到着ゆらぎによって音切れが生じないようにするのが一般的で ある。つまり、もともと受信バッファに蓄積されたパケットの数分の再生遅延が生じてい る。従って、相手側受信バッファに蓄積されたパケットのフレーム数 (バッファ残量)に 相当する値を遅延量として設定して補助情報を送信すれば、新たな再生遅延を増加 させることなく、補助情報送信の効果を最大にすることができる。なお、相手側受信バ ッファに蓄積されたパケットのフレーム数以下の遅延量であれば、新たな再生遅延を 増加させることがない。そこで、想定されるバースト的なパケットロスの特性に応じて、 相手側受信バッファのパケット蓄積フレーム数以下の遅延量に設定してもよ 、。また 、相手側受信バッファのバッファ残量が時々刻々変動することを考慮すれば、相手側 ノ ッファ残量よりも 1〜2フレーム程度少ない遅延量に設定する方法も考えられる。
[0039] 音響特徴量としてはピッチ周期のみでもよい。この場合は図 7中のパヮ部 114b、図 9中のステップ S3b、図 10中のステップ S35、図 13中のパヮ補正部 57は省略される 。また送信側で音響信号波形を符号ィ匕することなぐ例えば入力された PCM音響信 号をそのままパケットに組み込んでもよい。この場合は、図 7中の音声波形符号化部 112、図 8中の音声パケット復号部 213、先読み音声波形復号部 222、図 9中のステ ップ S2、図 10中のステップ S24、ステップ S26は省略される。更に音響特徴量につ いても、これらは通常ディジタル演算により求められるから、その計算結果が例えば 8 ビットで得られるようにすれば、特に音響特徴量も符号ィ匕する必要がなぐ図 7中の音 声特徴量符号化部 115、図 8中の音声特徴量復号部 223、図 9中のステップ S4、図 10中のステップ S29は省略される。
[0040] 紛失信号の生成において、前後のパケットが正常に受信され、フレーム nの 1バケツ トのみが紛失 (ロス)した場合、前向き外挿波形 10— 1のみあるいは後ろ向き外揷波 形のみを用いてもよい。またバースト的パケットロスの場合は、正常に受信された直後 のフレームの音響信号としては前向き外挿波形のみを、正常に受信された直前のフ レームの音響信号に対しては、後ろ向き外挿波形のみを用いることとしてもよ 、。 図 7に示した音響信号送信装置 100、図 8に示した音響信号受信装置 200はそれ ぞれコンピュータにより機能させてもよい。その場合は、図 9に示したパケット送信方 法の処理手順又は図 10に示したパケット受信方法の処理手順の各過程をコンビュ ータに実行させるための音響信号パケット送信プログラム又は音響信号パケット受信 プログラムをコンピュータに CD— ROM、磁気ディスク装置、半導体記憶装置などの 記録媒体からインストールし、あるいは通信回線を介してダウンロードしてそのプログ ラムをコンピュータに実行させればよい。
[実施例 2]
実施例 1では、音声信号送信装置 100と音声信号受信装置 200について、音声特 徴量を音声信号とは異なるパケットに組み込んで送信すること、音声信号に対する音 声特徴量の遅延量を受信側のバッファ残量を用いて制御すること、パケットロスが生 じた場合の紛失フレームの生成方法などについて説明した。本実施例では、ノ ッファ 残量以外の情報を用いて遅延量を制御する方法を説明する。また、音声信号と異な るパケットに組み込んで送る情報も、音声特徴量に限定せず、音響信号に対応する データ (以下、「音響信号対応データ」という。)として説明する。パケットが紛失した場 合の紛失フレームの生成方法としては、音響特徴量力 生成する方法以外にも考え られるからである。例えば、最も簡単な方法としては、音響信号対応データとして、音 響信号そのものとする方法がある (つまり、音響信号を 2回送る。 )0この場合、紛失フ レームの生成とは、別のパケットで送られた紛失フレームと同じフレームの音響信号 をそのまま使えばよい。 図 17は、音声信号送信装置 100— 2の機能構成例を示している。図 7の音声信号 送信装置 100との違 ヽは、ノ ッファ残量符号ィ匕部 119の代わりに情報符号化部 131 を、音声特徴量計算部 114の代わりに音響信号対応データ生成部 132を、音声特 徴量符号化部 115の代わりに音響信号対応データ符号化部 133を備えて ヽることで ある。動作の手順は、図 9に示した手順と同じであり、単純にバッファ残量を端子 118 で受け取る情報に、補助情報を音響信号対応データに変更するだけである。端子 1 18は、対向する通信装置を制御するための情報を受け取る端子であり、当該音声信 号送信装置 100— 2とセットで備えられる音声信号受信装置からの情報、または記録 装置にあらかじめ定めた情報を受け取る。この情報としては、音声信号受信装置の 受信バッファに蓄積されたパケット数 (バッファ残量)、音声信号受信装置が受信した パケットのゆらぎ情報、音声信号受信装置が検出したバーストロスで紛失したパケット の連続フレーム数 (連続パケットロス数)などの情報、前記ゆらぎ情報や連続パケット ロス数力 求められる受信バッファに蓄積すべきパケット数 (蓄積パケット数の目標値 )、もしくは記録装置にあら力じめ定めておいた定数などが考えられる力 これらに限 定されるものではない。これらの情報を総称して、遅延量制御情報の設定依頼情報 と呼ぶことにする。
図 18は、音声信号受信装置 200— 2の機能構成例を示している。図 8の音声信号 受信装置 200との違いは、ノ ッファ残量復号部 216の代わりに遅延量制御部 341を 備えていることと、受信バッファ残量判定部 218で受信バッファ 212のバッファ残量を 判定する代わりに、パケット受信部 211からゆらぎを検出し(ゆらぎ検出部 232)、受 信バッファ 212に蓄積すべきパケット数 (蓄積パケット数の目標値)を定めて、受信バ ッファ 212に実際に蓄積されたパケット数 (バッファ残量)を前記蓄積パケット数の目 標値に近づけるように受信バッファ 212を制御する(受信バッファ制御部 231)ことで ある。遅延量制御部 341は、通信先の音声信号送信装置から送られた通信先の遅 延量制御情報の設定依頼情報をパケットから取り出す。さらに、遅延量制御部 341 は、当該音声信号受信装置 200— 2とセットで備えられる音声信号送信装置の遅延 量を決め、端子 117へ伝える。蓄積パケット数の目標値力 遅延量を決める方法は、 前記のバッファ残量力 遅延量を決める方法のバッファ残量を蓄積パケット数の目標 値に置き換えればよい。これは、蓄積パケット数の目標値を設定すると、蓄積パケット 数の変更制御開始力 完了までに一定の遷移時間を必要とするものの、一定時間 経過後に、実際のバッファ残量が蓄積パケット数の目標値に一致することを前提とし ているためである。また、音声信号受信装置 200— 2とセットで備えられる音声信号 送信装置へ、受信バッファ制御部 231から送る情報は、ノ ッファ残量の代わりに、蓄 積パケット数の目標値である。実際のノ ッファ残量は蓄積パケット数の目標値に近づ くように制御されるが、ゆらぎなどのネットワーク状態が変動しているときには、目標値 の変更力 実際のバッファ残量が目標値になるまでにある程度の時間を要する。そこ で、ある時点ではバッファ残量は蓄積パケット数の目標値に等しぐある時点では蓄 積パケット数の目標値に対して実際のバッファ残量が過不足して 、る状態が生じる。 なお、紛失状態判定部 233を設け、パケットロスも考慮して蓄積パケット数を決定する 方法もある。具体的には、紛失状態判定部 233で、紛失検出部 219で検出するパケ ットロスの情報も受け取り、バースト的なパケットロスで何パケットが連続して紛失した 力 (以下、「連続パケットロス数」という。)の最大値を求める。受信バッファ制御部 231 は、ゆらぎと連続パケットロス数の両方の情報から蓄積パケット数の目標値を決める。 次に、ゆらぎから蓄積パケット数の目標値を決める方法を説明する。例えば、フレー ム長が 20ミリ秒の場合には、ゆらぎがなければパケットは 20ミリ秒ごとに受信されるは ずである。しかし、ネットワークの状態によって、あるパケットとあるパケットの受信間隔 力40ミリ秒であったり、 5ミリ秒であったり、時に 100ミリ秒であったりする。そこで、ゆら ぎ検出部 232は、例えばパケットの受信間隔が毎フレーム 20ミリ秒であれば、ゆらぎ 時間は 0ミリ秒と判断する。パケットの受信間隔が 100ミリ秒のときは、ゆらぎ時間は 8 0ミリ秒と判断する。パケットの受信間隔が 5ミリ秒の場合は、おそらく直前のパケットの 到着がゆらぎによって遅れたためと考えられるが、ゆらぎ時間がマイナス 15ミリ秒、あ るいは絶対値をとつて 15ミリ秒と判断する。このように時々刻々観測されたゆらぎ時間 の時系列を用いて、フレームごと (例えば 20ミリ秒ごと)に過去一定時間(例えば、 2 秒間)におけるゆらぎの最大値を求める。ゆらぎ時間の時系列から最大値を求める方 法は、ゆらぎ時間を一定時間蓄積して、その中での最大値を検索するとよい。ゆらぎ 時間の最大値は、受信バッファ制御部 231に送られる。受信バッファ制御部 231は、 得られたゆらぎ時間の最大値に対応するフレーム数、すなわち、ゆらぎ時間の最大 値をフレーム長で除した数 (整数値に端数切り上げ)、あるいはそれに 1を加えたフレ 一ム数分を蓄積パケット数の目標値として、受信バッファ残量が目標値に近づくよう に制御する。また、図 19に示すようなゆらぎ時間の最大値と蓄積パケット数の目標値 の対応表によって、蓄積パケット数の目標値を決めてもよい。蓄積パケット数の目標 値はフレームごとに決定される力 ゆらぎ時間の最大値に変化がないときには、蓄積 パケット数の目標値も同じ値が維持される。なお、前記過去一定時間におけるゆらぎ 時間の最大値を求め、ゆらぎ時間の最大値に対応する蓄積パケット数の目標値を求 めることと、時系列のゆらぎ時間のそれぞれに対応する蓄積パケット数の目標値を求 めて、一定時間における蓄積パケット数の目標値の最大値を求めることは等価である 。 目標値の領域で最大値を求める方 (後者)が、最大値を検索する処理を効率化で きる場合ちある。
[0043] また、パケットロス力も蓄積パケット数の目標値を決める方法の例は以下のとおりで ある。紛失状態判定部 233は、紛失検出部 219から時々刻々送られたパケットロスの 情報を用いて、フレームごと (例えば 20ミリ秒ごと)に過去一定時間(例えば 2秒間)に おける連続パケットロス数の最大値を求める。パケットロス情報の時系列から連続パ ケットロス数の最大値を求める方法は、パケットロス情報を一定時間蓄積して、その中 で連続パケットロス数の最大値を検索するとよい。連続パケットロス数の最大値は、受 信バッファ制御部 231に送られる。受信バッファ制御部 231は、得られた連続パケット ロス数の最大値、あるいはそれに 1を加えたフレーム数分を蓄積パケット数の目標値 として、受信バッファ残量が目標値に近づくように制御する。蓄積パケット数の目標値 はフレームごとに決定される力 連続パケットロス数の最大値に変化がないときは、蓄 積パケット数の目標値も同じ値が維持される。ゆらぎ時間と連続パケットロス数の両方 力も蓄積パケット数の目標値を決める方法としては、ゆらぎ時間から決まる蓄積パケ ット数の目標値と、連続パケットロス数力 決まる蓄積パケット数の目標値の大きい方 を、蓄積パケット数の目標値とする方法が考えられる。
[0044] 図 20は、図 18に示した音声信号受信装置 200— 2の変形例である。この機能構成 は、双方向で音声信号をパケット通信網で通信する場合、パケットは双方向に送られ ることになるが、双方向の通信網の状態が同じと仮定している。そして、通信先から送 られてきたパケットのゆらぎ時間や連続パケットロス数から、音声信号受信装置 200 —3とセットで備えられる音声信号送信装置の遅延量を決め、通信先に遅延量制御 情報の設定依頼情報を送らない。この機能構成の場合は、音声信号送信装置 100 または 100— 2の端子 118への入力はな!/、。
[0045] 図 21と図 22は、連続パケットロス数のみ力も蓄積パケット数を決める例である。図 1 8や図 20との違いは、ゆらぎ検出部 232が削除された点である。
図 23と図 24は、受信バッファ 212の蓄積パケット数を、受信したパケット内に組み 込まれた遅延量制御情報力 決める場合の構成例である。この場合には、受信バッ ファ制御部 231が削除される。例えば、受信バッファ 212は、蓄積パケット数を、パケ ット内に組み込まれた遅延量制御情報よりも 1大きくする。また、図 23の場合は、ゆら ぎ情報が、受信状態を通信先に伝えるための情報である。図 24の場合は、連続パケ ットロス数が受信状態を通信先に伝えるための情報である。
言 i耐言システム
図 25に、一方向に音声パケットを送る場合のシステム構成例を示す。通信装置 10 00— 1は音声信号送信装置 100— 2と記録部 110から構成される。なお、音声信号 送信装置は、 100の音声信号送信装置でもよい。記録部 110は、あら力じめ少なくと も遅延量制御情報を記録しており、音声信号送信装置 100— 2 (または 100)の端子 117に遅延量制御情報を渡す。受信側の通信装置 1000— 2は、音声信号受信装 置 200— 2から構成される。なお、音声信号受信装置は、 200、 200— 4、 200— 6、 あるいは 200— 7の音声信号受信装置でもよい。また、受信バッファに蓄積するパケ ット数の初期値として、例えば 1を設定しておけばよい。このシステム構成のように完 全な一方向の通信の場合には、音声信号受信装置 200— 2から送信装置への出力 信号は不要である。したがって、音声信号受信装置 200からバッファ残量復号部 21 6と受信バッファ残量判定部 218を削除した構成、音声信号受信装置 200— 2と 200 4から遅延量制御部 341を削除した構成、音声信号受信装置 200— 6から遅延量 制御部 341とゆらぎ検出部 232を削除した構成、音声信号受信装置 200— 7から遅 延量制御部 341と紛失状態判定部 233を削除した構成でもよい。
図 26に、音声パケットを一方向で送り、遅延量制御情報の設定依頼情報を逆方向 に送る場合のシステム構成例を示す。この場合、遅延量制御情報の設定依頼情報を 送る通信網は、音声パケットの通信網と同じ IP通信網 13でもよいし、異なる通信網 1 3— 2でもよい。音声パケットの送信側の通信装置 1000— 3は、音声信号送信装置 1 00— 2と受信装置 400から構成される。なお、音声信号送信装置は、 100の音声信 号送信装置でもよい。また、遅延量の初期値として、例えば 1と設定しておけばよい。 音声パケットの受信側の通信装置 1000— 4は音声信号受信装置 200— 2と送信装 置 300から構成される。なお、音声信号受信装置は、 200、 200— 4、 200— 6、ある いは 200— 7の音声信号受信装置でもよい。また、蓄積パケット数の初期値として、 例えば 1を設定しておけばよい。 [0047] 図 27に前記の送信装置 300の機能構成例を、図 28に前記の受信装置 400の機 能構成例を示す。送信装置 300の端子 320は、音声信号送信装置 100— 2の端子 1 18に相当する。音声信号受信装置 200 - 2からの情報は端子 320を経由して送信 部 310に入力される。送信部 310は、受け取った情報を通信網 13 (または 13— 2)の プロトコルにあわせたフォーマットに変更し、通信装置 1000— 3に送信する。ここで、 音声信号受信装置からの情報とは、遅延量制御情報の設定依頼情報 (遅延量制御 情報の変更を依頼する情報、蓄積パケット数、バッファ残量、パケットのゆらぎ、ある いは連続パケットロス数など)である。受信装置 400は、音声パケットの受信側の通信 装置 1000— 4からの情報を受け取る。受け取った情報は受信部 310に入力され、受 信側の通信装置 1000— 4を制御するための情報は、音声信号送信装置の端子 118 へ渡される。また、送信側の通信装置 1000— 3内部の制御に使う情報は、遅延量制 御部 341に渡される。遅延量制御部 341は、受け取った情報から遅延量制御情報を 生成し、音声信号送信装置の端子 117へ渡す。
[0048] 図 29に、双方向で音声パケットを送る場合のシステム構成例を示す。通信装置 10 00— 5は、音声信号送信装置 100— 2と音声信号受信装置 200— 2から構成される 。なお、遅延量と受信バッファに蓄積する蓄積パケット数の初期値は、例えば 1と設 定しておけばよい。また、音声信号送信装置は、 100の音声信号送信装置でもよい。 音声信号受信装置は、 200、 200- 3, 200-4, 200— 5、 200— 6、あるいは 200 7の音声信号受信装置でもよ 、。
以下に、上記のシステム構成での処理フローを説明する力 装置内部の細かい処 理フローは図 9および図 10で示しているため省略する。例えば、音響信号を復号ィ匕 する処理や紛失フレームの生成方法などは、実際の装置の内部では必ず行うことで ある。しかし、細かな処理は本発明の主要部ではないので、省略している。
[0049] 図 30は、音声パケットの受信側から送信側への遅延量制御情報の設定依頼情報 の送信を行わない場合の処理フローを示している。この処理フローは、図 25のシステ ム構成の場合だけでなぐ図 26や図 29のシステム構成の場合にも適用できる。送信 側の通信装置 1000— 1に音響信号が入力されると入力バッファ 111に蓄積される( S101)。蓄積された音響信号は、フレームごとに分割され、音声符号化される(S10 2)。次に音響信号対応データと遅延量制御情報とを含む音声パケットを構成し、受 信側に送信する(S103)。受信側の通信装置 1000— 2では、音声パケットを受信し( S201)、受信バッファ 212に蓄積する 202)。パケットロスが発生した場合には(S 203)、紛失処理制御部 217で遅延量制御情報を利用して音響信号対応データを 検索し (S 204)、紛失フレームを生成する(S 205)。最後にフレームの順番に音響信 号を並べて出力する(S206)。このシステムでは、送信側の通信装置 1000— 1が複 数ある場合に、それぞれの通信装置 1000— 1が自由に遅延量を設定することができ る。また、図 29の通信装置 1000— 5の場合にも、通信装置ごとに自由に遅延量を設 定、変更することができる。したがって、遅延量についてあら力じめ共通のルールを 決めておく必要がな!、し、変更も可能であると!/、う効果がある。
[0050] 図 31、図 32、図 33、および図 34は、音声パケットの受信側から送信側への遅延量 制御情報の設定依頼情報の送信を行う場合の処理フローを示して 、る。これらの処 理フローは図 26と図 29のシステム構成の場合に適用できる。
図 31の処理フローは、少なくとも、音声パケットの送信側の通信装置 1000— 3 (ま たは 1000— 5)が音声信号送信装置 100— 2を備えており、音声パケットの受信側の 通信装置 1000 - 4 (または 1000 - 5)が音声信号受信装置 200 - 2または 200 - 4 を備えている場合に適用できる。この処理フローの特徴は、受信側で、ゆらぎ時間ま たは連続パケットロス数力も遅延量制御情報の設定依頼情報を決め、送信側で、遅 延量制御情報の設定依頼情報から遅延量制御情報を求めることである。
[0051] 音声パケットの送信側の通信装置 1000— 3に、音響信号が入力され (S101)、入 力バッファ 111に蓄積される (S 102)。音響信号対応データと遅延量制御情報とが 組み込まれた音声パケットが構成され、受信側に送信される(S103)。音声パケット の受信側の通信装置 1000— 4では、音声パケットを受信し (S201)、受信バッファ 2 12に蓄積する(S202)。受信側の通信装置 1000— 4のゆらぎ検出部 232でゆらぎ 時間を検出(または、紛失状態判定部 233で連続パケットロス数を検出)する(S207 )。受信バッファ制御部 231は、蓄積パケット数の目標値を、ゆらぎ時間または連続パ ケットロス数以上に設定する(S208)。蓄積パケット数の目標値は、音声パケットの受 信側の通信装置 1000— 4の送信装置 300 (または、通信装置 1000— 5の音声信号 送信装置 100— 2)に遅延量制御情報の設定依頼情報として渡される。そして、送信 装置 300 (または音声信号送信装置 100— 2)は、音声パケットの送信側の通信装置 1000— 3 (または通信装置 1000— 5)に遅延量制御情報の設定依頼情報として送 信する(S209)。音声パケットの送信側の通信装置 1000— 3では、遅延量制御情報 の設定依頼情報を受信する (S104)。遅延量制御部 341で遅延量制御情報の値を 遅延量制御情報の設定依頼情報すなわち蓄積パケット数の目標値以下とし、音声 信号送信装置 100— 2に渡す。音声信号送信装置 100— 2では、シフトバッファ 116 に遅延量制御情報が入力され、遅延量制御情報が設定される(S105)。音声バケツ トの受信側の通信装置 1000— 4では、パケットロス発生の確認、紛失フレームの生 成などを行い(S203、 S204、 S205)、音声信号を出力する(S206)。このような処 理によって、図 30で示した処理フローの効果の他に、時々刻々と変化する通信網の 状態に追従した最適な蓄積パケット数と遅延量を設定することができるという効果が ある。
[0052] 図 32の処理フローは、少なくとも、音声パケットの送信側の通信装置 1000— 3 (ま たは 1000— 5)が音声信号送信装置 100— 2を備えており、音声パケットの受信側の 通信装置 1000— 4 (または 1000— 5)が音声信号受信装置 200— 2、 200—4、 20 0— 6、または 200— 7を備えている場合に適用できる。この処理の特徴は、次のとお りである。音声パケットの受信側で、ゆらぎ時間または連続パケットロス数を検出し、そ の結果を送信側に送る。音声パケットの送信側では、ゆらぎ時間または連続パケット ロス数から遅延量制御情報を設定する。音声パケットの送信側から、音声信号と一緒 に遅延量制御情報が受信側に送られる。音声パケットの受信側では、受信した遅延 量制御情報力 蓄積パケット数を設定する。
[0053] ステップ S101から S201までは、図 31の処理フロートと同じである。受信バッファ 2 12は、受信した音声パケットから、遅延量制御情報を取り出し、蓄積パケット数を設 定する(S208)。この設定にしたがって、音声パケットは受信バッファに蓄積される(S 202)。ゆらぎ検出部 232または紛失状態判定部 233は、ゆらぎ時間または連続パケ ットロス数を検出する (S207)。検出された情報は、音声パケットの受信側の通信装 置 1000— 4内の送信装置 300 (または、通信装置 1000— 5内の音声信号送信装置 100— 2)から、音声パケットの送信側の通信装置 1000— 3 (または、通信装置 1000 - 5)に送信される(S209)。音声パケットの送信側の通信装置 1000— 3 (または、通 信装置 1000— 5)では、情報を受信する(S106)。遅延量制御部 341で、遅延量制 御情報の値を、ゆらぎ時間に対応するフレーム数または連続パケットロス数よりも大き い値とし、音声信号送信装置 100— 2に渡す。音声信号送信装置 100— 2では、シ フトバッファ 116に遅延量制御情報が入力され、遅延量制御情報が設定される (S10 5)。ステップ S203力 S206は、図 31と同じである。本処理フローの特徴の説明で は、蓄積パケット数の設定が最後だった力 図 32の処理フローでは、ゆらぎの検出 や遅延量制御情報の設定よりも前となっている。これは、本処理が繰り返し行われる ことによるもので、蓄積パケット数は、 1回前の繰り返し処理で求められた遅延量制御 情報力 決まる。つまり、蓄積パケット数の設定が最後である。なお、 1回目の繰り返 し処理の時には、遅延量制御情報の初期値として、例えば 1を設定しておけばよい。 この処理フローの効果は図 31の場合と同じである。
図 33の処理フローは、少なくとも、音声パケットの送信側の通信装置 1000— 3 (ま たは 1000— 5)が音声信号送信装置 100— 2を備えており、音声パケットの受信側の 通信装置 1000 - 4 (または 1000 - 5)が音声信号受信装置 200 - 2または 200 - 4 を備えている場合に適用できる。この処理の特徴は、ゆらぎ時間または連続パケット ロス数力 蓄積パケット数の目標値と遅延量制御情報とを同時に求めることである。 ステップ S101から S207までは図 31と同じである。検出されたゆらぎまたは連続パ ケットロス数から、受信バッファ制御部 231で蓄積パケット数の目標値と遅延量制御 情報とを求める(S210)。このとき、
ゆらぎ時間に相当するフレーム数 (端数切り上げ)≤遅延量≤蓄積パケット数 または
連続パケットロス数≤遅延量≤蓄積パケット数
の関係を満足するように求める。受信バッファ 212は、求められた蓄積パケット数の 目標値にしたがってパケットを蓄積するように設定される(S208)。求められた遅延量 制御情報は、音声パケットの受信側の通信装置 1000— 4の送信装置 300 (または、 通信装置 1000— 5の音声信号送信装置 100— 2)から、音声パケットの送信側の通 信装置 1000— 3 (または、通信装置 1000— 5)に、遅延量制御情報の変更依頼とし て送信される(S211)。この情報を、音声パケットの送信側の通信装置 1000— 3 (ま たは、通信装置 1000— 5)が受信し (S107)、遅延量制御部 341で遅延量制御情報 とする。音声信号送信装置 100— 2では、シフトバッファ 116に遅延量制御情報が入 力され、遅延量制御情報が設定される(S105)。ステップ S203から S206は、図 31と 同じである。この処理フローの効果は、図 31、図 32の場合と同じである。
[0055] 図 34の処理フローは、少なくとも、音声パケットの送信側の通信装置 1000— 3 (ま たは 1000— 5)が音声信号送信装置 100を備えており、音声パケットの受信側の通 信装置 1000— 4 (または 1000— 5)が音声信号受信装置 200を備えている場合に 適用できる。この処理の特徴は、バッファ残量を遅延量制御情報の設定依頼情報と して送信し、遅延量制御情報を求めることである。
ステップ S101からステップ S202までは図 31と同じである。音声パケットの受信側 の通信装置 1000— 4 (または、通信装置 1000— 5)の受信バッファ残量判定部 218 は、受信バッファの残量を判定する(S213)。判定された情報は、音声パケットの受 信側の通信装置 1000— 4の送信装置 300 (または、通信装置 1000— 5の音声信号 送信装置 100— 2)から、音声パケットの送信側の通信装置 1000— 3 (または、通信 装置 1000— 5)に送信される(S214)。音声パケットの送信側の通信装置 1000— 3 (または、通信装置 1000— 5)では、バッファ残量の情報を受信する(S108)。遅延 量制御部 341 (または、ノ ッファ残量復号部 216)は、ノ ッファ残量より以下となる遅 延量制御情報を求める。音声信号送信装置 100— 2では、シフトバッファ 116に遅延 量制御情報が入力され、遅延量制御情報が設定される(S105)。ステップ S203から S206は、図 31と同じである。この処理フローの効果は、図 31、図 32、図 33の場合と 同じである。
[0056] 図 35は、双方向で音声パケットをやり取りする場合に、通信網の状態がパケット通 信に与える影響は、双方向とも同じであると仮定した処理フローである。この処理フロ 一は、図 29のシステム構成の場合に適用できる。この処理の特徴は、受信した音声 パケットのゆらぎや連続パケットロス数から、受信するパケットの蓄積パケット数と送信 する音声パケットの遅延量制御情報を決めることである。ステップ S101からステップ S208までは図 33と同じである。求められた遅延量制御情報は、音声信号送信装置 100— 2のシフトバッファ 116に入力され、遅延量制御情報が設定される(S212)。こ の処理フローの効果は、図 31、図 32、図 33の効果にカ卩え、通信装置を制御するた めの手順が少なくなることである。
図 17、 18、 20〜24、 27、 28に示した装置はそれぞれコンピュータにより機能させ てもよい。図 30から 35に示した処理手順の各過程は、プログラムによってコンビユー タに実行させてもよい。また、プログラムは、コンピュータに CD— ROM、磁気ディスク 装置、半導体記憶装置などの記録媒体からインストール、あるいは通信回線を介して ダウンロードすればよい。

Claims

請求の範囲
1つの通信装置は少なくとも送信部を備え、対する他の 1つ以上の通信装置は少な くとも受信部を備え、これらの通信装置の間でパケット通信を行う場合に、
送信部で、
音声.音楽などの音響信号をフレームと呼ばれる一定時間ごとに区切ってフレーム 音響信号を生成する過程と、
前記フレーム音響信号から前記フレーム音響信号に対応するデータ (以下、「音響 信号対応データ」という。)を生成する過程と、
前記フレーム音響信号と前記音響信号対応データをパケットに格納して送信する 過程と、
受信部で、
受信したパケットを受信バッファに蓄える過程と、
取り出すべきフレーム番号を指定する過程と、
前記取り出すべきフレーム番号に対応するフレーム音響信号を含むパケットが受信 バッファに格納されて 、る力、格納されて ヽな 、かを判定する紛失検出過程と、 前記紛失検出過程で、前記取り出すべきフレーム番号に対応するフレーム音響信 号を含むパケットが受信バッファに格納されていると判定された場合には、受信バッ ファに格納されている当該パケットからフレーム音響信号を取り出してフレーム出力 音響信号とする音響パケット復号過程と、
前記紛失検出過程で、前記取り出すべきフレーム番号に対応するフレーム音響信 号を含むパケットが受信バッファに格納されて 、な 、と判定された場合 (以下、「パケ ットロスが発生した場合」)には、当該フレーム(以下、「紛失フレーム」)の音響信号対 応データを受信バッファに格納されたパケットから取り出し、該音響信号対応データ を用いてフレーム出力音響信号を生成する紛失処理過程と、
前記音響パケット復号過程または前記紛失処理過程力 出力されたフレーム出力 音響信号を連結して出力する過程と、
を有する音響信号パケット通信方法にぉ 、て、
前記送信部で、フレーム音響信号と同一のパケットに、遅延量制御情報で指定す る値だけフレーム番号が異なるフレームの音響信号対応データと、遅延量制御情報 とを組み込んで送信する過程と、
前記受信部で、パケットロスが発生した場合に、紛失フレームと同じフレーム番号の 音響信号対応データを、パケットに組み込まれた前記遅延量制御情報を用いて前記 受信バッファ内のパケットから求める過程と、
を有することを特徴とする音響信号パケット通信方法。
[2] 請求項 1記載の音響信号パケット通信方法において、
1つの通信装置に前記送信部と前記受信部の両方を備え、対する他の 1つ以上の 通信装置も前記送信部と前記受信部の両方を備え、これらの通信装置の間でバケツ ト通信を行う場合に、
受信部で、
受信されるパケットのゆらぎ状態を判定する第一の判定過程と、受信されるパケット の紛失状態を判定する第二の判定過程の両方あるいはいずれか一方と、
前記判定過程における判定結果を用いて、受信バッファに蓄積すべきパケットの数 (以下、「蓄積パケット数の目標値」という。)を決定する過程
を有し、
前記受信部と同一の通信装置内の送信部で、
前記遅延量制御情報を前記蓄積パケット数の目標値以下に設定する過程 を有する
ことを特徴とする音響信号パケット通信方法。
[3] 請求項 1記載の音響信号パケット通信方法において、
1つの通信装置に前記送信部と前記受信部の両方を備え、対する他の 1つ以上の 通信装置も前記送信部と前記受信部の両方を備え、これらの通信装置の間でバケツ ト通信を行う場合に、
受信部で、
受信されるパケットのゆらぎ状態を判定する第一の判定過程と、受信されるパケット の紛失状態を判定する第二の判定過程の両方あるいはいずれか一方と、
前記判定過程における判定結果を用いて、受信バッファに蓄積すべきパケットの数 (以下、「蓄積パケット数の目標値」という。)を決定する過程と、
前記蓄積パケット数の目標値を、同一の通信装置内の送信部に送る過程と を有し、
前記受信部と同一の通信装置内の送信部で、
前記受信部力も送られた蓄積パケット数の目標値を、通信先の送信部において設 定される遅延量制御情報を指定する情報として、パケットに格納して送信する過程と を有する
ことを特徴とする音響信号パケット通信方法。
[4] 請求項 1記載の音響信号パケット通信方法において、
1つの通信装置に前記送信部と前記受信部の両方を備え、対する他の 1つ以上の 通信装置も前記送信部と前記受信部の両方を備え、これらの通信装置の間でバケツ ト通信を行う場合に、
受信部で、
受信バッファに蓄積されているパケットの数 (以下、「バッファ残量」という。)を測定 する過程と、
前記バッファ残量を、同一の通信装置内の送信部に送る過程と
を有し、
前記受信部と同一の通信装置内の送信部で、
前記受信部力も送られたバッファ残量を、通信先の送信部にお 、て設定される遅 延量制御情報を指定する情報として、パケットに格納して送信する過程と
を有する
ことを特徴とする音響信号パケット通信方法。
[5] 1つの通信装置は少なくとも送信部を備え、対する他の 1つ以上の通信装置は少な くとも受信部を備え、これらの通信装置の間でパケット通信を行う場合に、 送信部で、
音声.音楽などの音響信号をフレームと呼ばれる一定時間ごとに区切ってフレーム 音響信号を生成する過程と、
前記フレーム音響信号から前記フレーム音響信号に対応するデータ (以下、「音響 信号対応データ」という。)を生成する過程と、
前記フレーム音響信号と前記音響信号対応データをパケットに格納して送信する 過程と、
を有する音響信号パケット送信方法にぉ ヽて、
前記送信部で、フレーム音響信号と同一のパケットに、遅延量制御情報で指定す る値だけフレーム番号が異なるフレームの音響信号対応データと、遅延量制御情報 とを組み込んで送信する過程
を有することを特徴とする音響信号パケット送信方法。
[6] 請求項 5記載の音響信号パケット送信方法にぉ 、て、
1つの通信装置に前記送信部と前記受信部の両方を備え、対する他の 1つ以上の 通信装置も前記送信部と前記受信部の両方を備え、これらの通信装置の間でバケツ ト通信を行う場合に、
送信部で、
当該送信部と同一の通信装置内の受信部で決定した当該受信部に蓄積すべきパ ケットの数以下に前記遅延量制御情報を設定する過程を有する
ことを特徴とする音響信号パケット送信方法。
[7] 請求項 5記載の音響信号パケット送信方法にぉ 、て、
1つの通信装置に前記送信部と前記受信部の両方を備え、対する他の 1つ以上の 通信装置も前記送信部と前記受信部の両方を備え、これらの通信装置の間でバケツ ト通信を行う場合に、
送信部で、
当該送信部と同一の通信装置内の受信部で決定した当該受信部に蓄積すべきパケ ットの数を、通信先の送信部において設定される遅延量制御情報を指定する情報と して、パケットに格納して送信する過程と
を有する
ことを特徴とする音響信号パケット送信方法。
[8] 請求項 5記載の音響信号パケット送信方法にぉ 、て、
1つの通信装置に前記送信部と前記受信部の両方を備え、対する他の 1つ以上の 通信装置も前記送信部と前記受信部の両方を備え、これらの通信装置の間でバケツ ト通信を行う場合に、
送信部で、
当該送信部と同一の通信装置内の受信部で測定した受信バッファに蓄積されてい るパケットの数を、通信先の送信部において設定される遅延量制御情報の設定依頼 情報として、パケットに格納して送信する過程を有する
ことを特徴とする音響信号パケット送信方法。
1つの通信装置は少なくとも送信部を備え、対する他の 1つ以上の通信装置は少な くとも受信部を備え、これらの通信装置の間でパケット通信を行う場合に、
受信部で、
受信したパケットを受信バッファに蓄える過程と、
取り出すべきフレーム番号を指定する過程と、
前記取り出すべきフレーム番号に対応するフレーム音響信号を含むパケットが受信 バッファに格納されて 、る力、格納されて ヽな 、かを判定する紛失検出過程と、 前記紛失検出過程で、前記取り出すべきフレーム番号に対応するフレーム音響信 号を含むパケットが受信バッファに格納されていると判定された場合には、受信バッ ファに格納されている当該パケットからフレーム音響信号を取り出してフレーム出力 音響信号とする音響パケット復号過程と、
前記紛失検出過程で、前記取り出すべきフレーム番号に対応するフレーム音響信 号を含むパケットが受信バッファに格納されて 、な 、と判定された場合 (以下、「パケ ットロスが発生した場合」)には、当該フレーム(以下、「紛失フレーム」)の音響信号に 対応するデータ (以下、「音響信号対応データ」という。)を受信バッファに格納された パケットから取り出し、該音響信号対応データを用いてフレーム出力音響信号を生成 する紛失処理過程と、
前記音響パケット復号過程または前記紛失処理過程力 出力されたフレーム出力 音響信号を連結して出力する過程と、
を有する音響信号パケット受信方法にぉ ヽて、
前記受信部で、パケットロスが発生した場合に、紛失フレームと同じフレーム番号の 音響信号対応データを、パケットに組み込まれた遅延量制御情報を用いて前記受信 バッファ内のパケットから求める過程
を有することを特徴とする音響信号パケット受信方法。
[10] 請求項 9記載の音響信号パケット受信方法にぉ 、て、
1つの通信装置に前記送信部と前記受信部の両方を備え、対する他の 1つ以上の 通信装置も前記送信部と前記受信部の両方を備え、これらの通信装置の間でバケツ ト通信を行う場合に、
受信部で、
受信されるパケットのゆらぎ状態を判定する第一の判定過程と、受信されるパケット の紛失状態を判定する第二の判定過程の両方あるいはいずれか一方と、
前記判定過程における判定結果を用いて、受信バッファに蓄積すべきパケットの数 を決定する過程と、
前記受信バッファに蓄積すべきパケットの数を、同一の通信装置内の送信部に送 る過程と、
を有することを特徴とする音響信号パケット受信方法。
[11] 請求項 9記載の音響信号パケット受信方法において、
1つの通信装置に前記送信部と前記受信部の両方を備え、対する他の 1つ以上の 通信装置も前記送信部と前記受信部の両方を備え、これらの通信装置の間でバケツ ト通信を行う場合に、
受信部で、
受信バッファに蓄積されているパケットの数 (以下、「バッファ残量」という。)を測定 する過程と、
前記バッファ残量を、同一の通信装置内の送信部に送る過程と
を有する
ことを特徴とする音響信号パケット受信方法。
[12] 1つの通信装置は少なくとも送信部を備え、対する他の 1つ以上の通信装置は少な くとも受信部を備え、これらの通信装置の間でパケット通信を行う場合に、
送信部に、 音声.音楽などの音響信号をフレームと呼ばれる一定時間ごとに区切ってフレーム 音響信号を生成する手段と、
前記フレーム音響信号から前記フレーム音響信号に対応するデータ (以下、「音響 信号対応データ」という。)を生成する手段と、
前記フレーム音響信号と前記音響信号対応データをパケットに格納して送信する 手段とを有し、
受信部に、
受信したパケットを受信バッファに蓄える手段と、
取り出すべきフレーム番号を指定する手段と、
前記取り出すべきフレーム番号に対応するフレーム音響信号を含むパケットが受信 バッファに格納されて 、る力、格納されて 、な 、かを判定する紛失検出手段と、 前記紛失検出手段で、前記取り出すべきフレーム番号に対応するフレーム音響信 号を含むパケットが受信バッファに格納されていると判定された場合には、受信バッ ファに格納されている当該パケットからフレーム音響信号を取り出してフレーム出力 音響信号とする音響パケット復号手段と、
前記紛失検出手段で、前記取り出すべきフレーム番号に対応するフレーム音響信 号を含むパケットが受信バッファに格納されて 、な 、と判定された場合 (以下、「パケ ットロスが発生した場合」)には、当該フレーム(以下、「紛失フレーム」)の音響信号対 応データを受信バッファに格納されたパケットから取り出し、該音響信号対応データ を用いてフレーム出力音響信号を生成する紛失処理手段と、
前記音響パケット復号手段または前記紛失処理手段から出力されたフレーム出力 音響信号を連結して出力する手段とを有する
音響信号パケット通信システムにお 、て、
前記送信部に、フレーム音響信号と同一のパケットに、遅延量制御情報で指定す る値だけフレーム番号が異なるフレームの音響信号対応データと、遅延量制御情報 とを組み込んで送信する手段を有し、
前記受信部に、パケットロスが発生した場合に、紛失フレームと同じフレーム番号の 音響信号対応データを、パケットに組み込まれた前記遅延量制御情報を用いて前記 受信バッファ内のパケットから求める手段を有する
ことを特徴とする音響信号パケット通信システム。
音声.音楽などの音響信号をフレームと呼ばれる一定時間ごとに区切ってフレーム 音響信号を生成する手段と、
前記フレーム音響信号から前記フレーム音響信号に対応するデータ (以下、「音響 信号対応データ」という。)を生成する手段と、
前記フレーム音響信号と前記音響信号対応データをパケットに格納して送信する 手段とを有する送信部と、
受信したパケットを受信バッファに蓄える手段と、
取り出すべきフレーム番号を指定する手段と、
前記取り出すべきフレーム番号に対応するフレーム音響信号を含むパケットが受信 バッファに格納されて 、る力、格納されて 、な 、かを判定する紛失検出手段と、 前記紛失検出手段で、前記取り出すべきフレーム番号に対応するフレーム音響信 号を含むパケットが受信バッファに格納されていると判定された場合には、受信バッ ファに格納されている当該パケットからフレーム音響信号を取り出してフレーム出力 音響信号とする音響パケット復号手段と、
前記紛失検出手段で、前記取り出すべきフレーム番号に対応するフレーム音響信 号を含むパケットが受信バッファに格納されて 、な 、と判定された場合 (以下、「パケ ットロスが発生した場合」)には、当該フレーム(以下、「紛失フレーム」)の音響信号対 応データを受信バッファに格納されたパケットから取り出し、該音響信号対応データ を用いてフレーム出力音響信号を生成する紛失処理手段と、
前記音響パケット復号手段または前記紛失処理手段から出力されたフレーム出力 音響信号を連結して出力する手段とを有する受信部と、
を備える音響信号パケット通信装置において、
前記送信部に、フレーム音響信号と同一のパケットに、遅延量制御情報で指定す る値だけフレーム番号が異なるフレームの音響信号対応データと、遅延量制御情報 とを組み込んで送信する手段を有し、
前記受信部に、パケットロスが発生した場合に、紛失フレームと同じフレーム番号の 音響信号対応データを、パケットに組み込まれた前記遅延量制御情報を用いて前記 受信バッファ内のパケットから求める手段を有する
ことを特徴とする音響信号パケット通信装置。
[14] 請求項 13記載の音響信号パケット通信装置において、
前記受信部に、受信されるパケットのゆらぎ状態を判定する第一の判定手段と、受 信されるパケットの紛失状態を判定する第二の判定手段の両方ある ヽは 、ずれか一 方と、
前記判定手段での判定結果を用いて、受信バッファに蓄積すべきパケットの数 (以 下、「蓄積パケット数の目標値」という。)を決定する手段とを有し、
前記送信部に、前記遅延量制御情報を前記蓄積パケット数の目標値以下に設定 する手段を有する
ことを特徴とする音響信号パケット通信装置。
[15] 請求項 13記載の音響信号パケット通信装置において、
前記受信部に、受信されるパケットのゆらぎ状態を判定する第一の判定手段と、受信 されるパケットの紛失状態を判定する第二の判定手段の両方ある ヽは ヽずれか一方 と、
前記判定手段での判定結果を用いて、受信バッファに蓄積すべきパケットの数 (以 下、「蓄積パケット数の目標値」という。)を決定する手段とを有し、
前記送信部に、前記蓄積パケット数の目標値を、通信先の送信部において設定さ れる遅延量制御情報を指定する情報として、パケットに格納して送信する手段を有す る
ことを特徴とする音響信号パケット通信装置。
[16] 請求項 13記載の音響信号パケット通信装置において、
前記受信部に、受信バッファに蓄積されているパケットの数 (以下、「バッファ残量」 という。)を測定する手段を有し、
前記送信部に、前記バッファ残量を、通信先の送信部において設定される遅延量 制御情報を指定する情報として、前記フレーム音響信号と同一のパケットに組み込ん で送信する手段を有する ことを特徴とする音響信号パケット通信装置。
[17] 請求項 1記載の音響信号パケット通信方法の各過程をコンピュータにより実行させ るための音響信号パケット通信プログラム。
[18] 請求項 5記載の音響信号パケット送信方法の各過程をコンピュータにより実行させ るための音響信号パケット送信プログラム。
[19] 請求項 9記載の音響信号パケット受信方法の各過程をコンピュータにより実行させ るための音響信号パケット受信プログラム。
PCT/JP2005/008495 2004-05-10 2005-05-10 音響信号のパケット通信方法、送信方法、受信方法、これらの装置およびプログラム WO2005109401A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
DE602005020130T DE602005020130D1 (de) 2004-05-10 2005-05-10 E, sendeverfahren, empfangsverfahren und einrichtung und programm dafür
EP05739100A EP1746580B1 (en) 2004-05-10 2005-05-10 Acoustic signal packet communication method, transmission method, reception method, and device and program thereof
JP2006516896A JP4473869B2 (ja) 2004-05-10 2005-05-10 音響信号のパケット通信方法、送信方法、受信方法、これらの装置およびプログラム
CN200580001834.3A CN1906663B (zh) 2004-05-10 2005-05-10 声学信号分组通信方法、传送方法、接收方法、及其设备和程序
US10/584,833 US8320391B2 (en) 2004-05-10 2005-05-10 Acoustic signal packet communication method, transmission method, reception method, and device and program thereof

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004-140117 2004-05-10
JP2004140117 2004-05-10

Publications (1)

Publication Number Publication Date
WO2005109401A1 true WO2005109401A1 (ja) 2005-11-17

Family

ID=35320430

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/008495 WO2005109401A1 (ja) 2004-05-10 2005-05-10 音響信号のパケット通信方法、送信方法、受信方法、これらの装置およびプログラム

Country Status (6)

Country Link
US (1) US8320391B2 (ja)
EP (1) EP1746580B1 (ja)
JP (1) JP4473869B2 (ja)
CN (1) CN1906663B (ja)
DE (1) DE602005020130D1 (ja)
WO (1) WO2005109401A1 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008111991A (ja) * 2006-10-30 2008-05-15 Ntt Docomo Inc 復号装置、符号化装置、復号方法及び符号化方法
JP2008129684A (ja) * 2006-11-17 2008-06-05 Hitachi Ltd 電子機器およびそれを用いたシステム
JP2008283415A (ja) * 2007-05-10 2008-11-20 Mitsubishi Electric Corp 暗号化装置、暗号化方法、暗号化プログラム、復号装置、復号方法及び復号プログラム
CN100502327C (zh) * 2006-09-29 2009-06-17 Ut斯达康通讯有限公司 检测基于IP传输的lub FP帧丢帧情况的方法、设备及系统
WO2010150767A1 (ja) 2009-06-23 2010-12-29 日本電信電話株式会社 符号化方法、復号方法、それらの方法を用いた装置、プログラム
WO2012070370A1 (ja) * 2010-11-22 2012-05-31 株式会社エヌ・ティ・ティ・ドコモ 音声符号化装置、方法およびプログラム、並びに、音声復号装置、方法およびプログラム
JP2018098674A (ja) * 2016-12-14 2018-06-21 Necプラットフォームズ株式会社 送信装置、中継装置、通信システム、送信方法、中継方法、およびプログラム
US10320689B2 (en) 2016-05-24 2019-06-11 International Business Machines Corporation Managing data traffic according to data stream analysis
WO2021111903A1 (ja) * 2019-12-05 2021-06-10 ソニーグループ株式会社 受信端末および方法

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8073403B2 (en) * 2003-10-08 2011-12-06 Research In Motion Limited Apparatus, and associated method, for facilitating formation of an apparent push-to-talk communication connection
US8340078B1 (en) 2006-12-21 2012-12-25 Cisco Technology, Inc. System for concealing missing audio waveforms
CN101802906B (zh) * 2007-09-21 2013-01-02 法国电信公司 传送误差隐藏的方法和装置、以及数字信号解码器
US8428938B2 (en) * 2009-06-04 2013-04-23 Qualcomm Incorporated Systems and methods for reconstructing an erased speech frame
CN104781876B (zh) 2012-11-15 2017-07-21 株式会社Ntt都科摩 音频编码装置、音频编码方法以及音频解码装置、音频解码方法
EP2956932B1 (en) 2013-02-13 2016-08-31 Telefonaktiebolaget LM Ericsson (publ) Frame error concealment
WO2015020983A1 (en) * 2013-08-05 2015-02-12 Interactive Intelligence, Inc. Encoding of participants in a conference setting
EP3155616A1 (en) * 2014-06-13 2017-04-19 Telefonaktiebolaget LM Ericsson (publ) Burst frame error handling
KR102272453B1 (ko) * 2014-09-26 2021-07-02 삼성전자주식회사 음성 신호 전처리 방법 및 장치
CN109524015B (zh) * 2017-09-18 2022-04-15 杭州海康威视数字技术股份有限公司 音频编码方法、解码方法、装置及音频编解码系统
US10742564B2 (en) 2018-09-16 2020-08-11 Audiocodes Ltd. Device, system, and method of RTP packet transmission and analysis of voice-over-IP communications

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002515612A (ja) * 1998-05-14 2002-05-28 テレフオンアクチーボラゲツト エル エム エリクソン 遅延パケット隠蔽方法および装置
JP2002268697A (ja) * 2001-03-13 2002-09-20 Nec Corp パケット誤り耐性付き音声復号装置、音声符号化復号装置、及びその方法
JP2003050598A (ja) * 2001-08-06 2003-02-21 Mitsubishi Electric Corp 音声復号装置
JP2003316391A (ja) * 2002-04-19 2003-11-07 Nec Corp 音声復号装置及び音声復号方法
JP2004080625A (ja) * 2002-08-21 2004-03-11 Matsushita Electric Ind Co Ltd パケット型音声通信端末
JP2004120619A (ja) * 2002-09-27 2004-04-15 Kddi Corp オーディオ情報復号装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4360910A (en) * 1980-07-23 1982-11-23 The United States Of America As Represented By The Secretary Of The Air Force Digital voice conferencing apparatus in time division multiplex systems
US6038230A (en) * 1998-07-22 2000-03-14 Synchrodyne, Inc. Packet switching with common time reference over links with dynamically varying delays
JP4697500B2 (ja) * 1999-08-09 2011-06-08 ソニー株式会社 送信装置および送信方法、受信装置および受信方法、並びに記録媒体
US7000031B2 (en) * 2000-04-07 2006-02-14 Broadcom Corporation Method of providing synchronous transport of packets between asynchronous network nodes in a frame-based communications network
US7027523B2 (en) * 2001-06-22 2006-04-11 Qualcomm Incorporated Method and apparatus for transmitting data in a time division duplexed (TDD) communication system
US7035250B2 (en) * 2001-08-13 2006-04-25 Utstarcom, Inc. System for organizing voice channel data for network transmission and/or reception
US7319703B2 (en) * 2001-09-04 2008-01-15 Nokia Corporation Method and apparatus for reducing synchronization delay in packet-based voice terminals by resynchronizing during talk spurts
JP4016709B2 (ja) * 2002-04-26 2007-12-05 日本電気株式会社 オーディオデータの符号変換伝送方法と符号変換受信方法及び装置とシステムならびにプログラム
US7315526B2 (en) * 2002-06-20 2008-01-01 Thomson Licensing Dual home mobility management in a wireless telephony/wireless LAN interworking environment
US20040083110A1 (en) * 2002-10-23 2004-04-29 Nokia Corporation Packet loss recovery based on music signal classification and mixing
US6985856B2 (en) * 2002-12-31 2006-01-10 Nokia Corporation Method and device for compressed-domain packet loss concealment

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002515612A (ja) * 1998-05-14 2002-05-28 テレフオンアクチーボラゲツト エル エム エリクソン 遅延パケット隠蔽方法および装置
JP2002268697A (ja) * 2001-03-13 2002-09-20 Nec Corp パケット誤り耐性付き音声復号装置、音声符号化復号装置、及びその方法
JP2003050598A (ja) * 2001-08-06 2003-02-21 Mitsubishi Electric Corp 音声復号装置
JP2003316391A (ja) * 2002-04-19 2003-11-07 Nec Corp 音声復号装置及び音声復号方法
JP2004080625A (ja) * 2002-08-21 2004-03-11 Matsushita Electric Ind Co Ltd パケット型音声通信端末
JP2004120619A (ja) * 2002-09-27 2004-04-15 Kddi Corp オーディオ情報復号装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1746580A4 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100502327C (zh) * 2006-09-29 2009-06-17 Ut斯达康通讯有限公司 检测基于IP传输的lub FP帧丢帧情况的方法、设备及系统
JP2008111991A (ja) * 2006-10-30 2008-05-15 Ntt Docomo Inc 復号装置、符号化装置、復号方法及び符号化方法
JP2008129684A (ja) * 2006-11-17 2008-06-05 Hitachi Ltd 電子機器およびそれを用いたシステム
JP2008283415A (ja) * 2007-05-10 2008-11-20 Mitsubishi Electric Corp 暗号化装置、暗号化方法、暗号化プログラム、復号装置、復号方法及び復号プログラム
JP5400880B2 (ja) * 2009-06-23 2014-01-29 日本電信電話株式会社 符号化方法、復号方法、それらの方法を用いた装置、プログラム、記録媒体
WO2010150767A1 (ja) 2009-06-23 2010-12-29 日本電信電話株式会社 符号化方法、復号方法、それらの方法を用いた装置、プログラム
CN102804263A (zh) * 2009-06-23 2012-11-28 日本电信电话株式会社 编码方法、解码方法、利用了这些方法的装置、程序
JP6000854B2 (ja) * 2010-11-22 2016-10-05 株式会社Nttドコモ 音声符号化装置および方法、並びに、音声復号装置および方法
WO2012070370A1 (ja) * 2010-11-22 2012-05-31 株式会社エヌ・ティ・ティ・ドコモ 音声符号化装置、方法およびプログラム、並びに、音声復号装置、方法およびプログラム
US9508350B2 (en) 2010-11-22 2016-11-29 Ntt Docomo, Inc. Audio encoding device, method and program, and audio decoding device, method and program
US10115402B2 (en) 2010-11-22 2018-10-30 Ntt Docomo, Inc. Audio encoding device, method and program, and audio decoding device, method and program
US10762908B2 (en) 2010-11-22 2020-09-01 Ntt Docomo, Inc. Audio encoding device, method and program, and audio decoding device, method and program
US11322163B2 (en) 2010-11-22 2022-05-03 Ntt Docomo, Inc. Audio encoding device, method and program, and audio decoding device, method and program
US11756556B2 (en) 2010-11-22 2023-09-12 Ntt Docomo, Inc. Audio encoding device, method and program, and audio decoding device, method and program
US10320689B2 (en) 2016-05-24 2019-06-11 International Business Machines Corporation Managing data traffic according to data stream analysis
US11575613B2 (en) 2016-05-24 2023-02-07 Kyndryl, Inc. Managing data traffic according to data stream analysis
JP2018098674A (ja) * 2016-12-14 2018-06-21 Necプラットフォームズ株式会社 送信装置、中継装置、通信システム、送信方法、中継方法、およびプログラム
WO2021111903A1 (ja) * 2019-12-05 2021-06-10 ソニーグループ株式会社 受信端末および方法

Also Published As

Publication number Publication date
US8320391B2 (en) 2012-11-27
EP1746580B1 (en) 2010-03-24
EP1746580A4 (en) 2008-05-28
DE602005020130D1 (de) 2010-05-06
CN1906663A (zh) 2007-01-31
US20090103517A1 (en) 2009-04-23
EP1746580A1 (en) 2007-01-24
JPWO2005109401A1 (ja) 2008-03-21
CN1906663B (zh) 2010-06-02
JP4473869B2 (ja) 2010-06-02

Similar Documents

Publication Publication Date Title
WO2005109401A1 (ja) 音響信号のパケット通信方法、送信方法、受信方法、これらの装置およびプログラム
US7650280B2 (en) Voice packet loss concealment device, voice packet loss concealment method, receiving terminal, and voice communication system
EP1243090B1 (en) Method and arrangement in a communication system
US8340973B2 (en) Data embedding device and data extraction device
JPH09321783A (ja) 音声符号化伝送システム
US6873954B1 (en) Method and apparatus in a telecommunications system
JPWO2005109402A1 (ja) 音声パケット送信方法、音声パケット送信装置、および音声パケット送信プログラムとそれを記録した記録媒体
JP4485690B2 (ja) マルチメディア信号を伝送する伝送システム
JPH06202696A (ja) 音声復号化装置
JPH01155400A (ja) 音声符号化方式
US6871175B2 (en) Voice encoding apparatus and method therefor
JP5012897B2 (ja) 音声パケット受信装置、音声パケット受信方法、およびプログラム
US7869992B2 (en) Method and apparatus for using a waveform segment in place of a missing portion of an audio waveform
JP4365653B2 (ja) 音声信号送信装置、音声信号伝送システム及び音声信号送信方法
JPH07334191A (ja) パケット音声復号方法
KR100594599B1 (ko) 수신단 기반의 패킷 손실 복구 장치 및 그 방법
KR100591544B1 (ko) VoIP 시스템을 위한 프레임 손실 은닉 방법 및 장치
JP2006135657A (ja) データ受信装置及びデータ受信方法
KR100542435B1 (ko) 패킷 망에서의 프레임 손실 은닉 방법 및 장치
JP3487158B2 (ja) 音声符号化伝送システム
JP3649854B2 (ja) 音声符号化装置
JP2002252644A (ja) 音声パケット通信装置及び音声パケット通信方法
KR20050027272A (ko) 스피치 프레임들의 에러 경감을 위한 스피치 통신 유닛 및방법
JPH0530137A (ja) 音声パケツト伝送装置
JPH03245199A (ja) エラー補償方式

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200580001834.3

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2006516896

Country of ref document: JP

AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 10584833

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2005739100

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Ref document number: DE

WWP Wipo information: published in national office

Ref document number: 2005739100

Country of ref document: EP