WO2005119950A1 - 音声データ送信/受信装置および音声データ送信/受信方法 - Google Patents

音声データ送信/受信装置および音声データ送信/受信方法 Download PDF

Info

Publication number
WO2005119950A1
WO2005119950A1 PCT/JP2005/009252 JP2005009252W WO2005119950A1 WO 2005119950 A1 WO2005119950 A1 WO 2005119950A1 JP 2005009252 W JP2005009252 W JP 2005009252W WO 2005119950 A1 WO2005119950 A1 WO 2005119950A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
data sequence
voice
decoding
channel
Prior art date
Application number
PCT/JP2005/009252
Other languages
English (en)
French (fr)
Inventor
Koji Yoshida
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to US11/628,045 priority Critical patent/US8209168B2/en
Priority to AT05741618T priority patent/ATE444613T1/de
Priority to JP2006514064A priority patent/JP4456601B2/ja
Priority to EP05741618A priority patent/EP1746751B1/en
Priority to DE602005016916T priority patent/DE602005016916D1/de
Priority to CN2005800178145A priority patent/CN1961511B/zh
Publication of WO2005119950A1 publication Critical patent/WO2005119950A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Definitions

  • the present invention relates to an audio data transmission Z receiver and an audio data transmission Z reception method, and more particularly to an audio data transmission used in an audio communication system in which compensation processing is performed for erroneous audio data and lost audio data.
  • the present invention relates to a Z receiver and an audio data transmission Z reception method.
  • IP Internet Protocol
  • radio transmission error etc.
  • voice data For voice communication in an IP (Internet Protocol) network or a wireless communication network, loss of IP packets, radio transmission error, etc. can prevent voice data from being received on the receiving side. Some voice data may be received. Therefore, in a voice communication system, processing is generally performed to compensate for erroneous voice data or lost voice data.
  • a voice signal as an input source signal is encoded as voice data, multiplexed (packetized), and transmitted to a destination device.
  • multiplexing is performed with one speech frame as one transmission unit.
  • the voice codec methods of 3GPP (3rd Generation Partnership Project) standard, AMR (Adaptive Multi-Rate) and AMR—AW—Adaptive Multi-Rate Wideband (WB) are IP packet networks Defines the format of audio data.
  • Non-Patent Document 2 discloses a frame compensation method of AMR regarding the compensation process of a voice frame.
  • the speech processing operation in the above-described speech communication system will be outlined using FIG. .
  • the sequence numbers ( ⁇ , n ⁇ 2, n ⁇ 1, n, n + 1, n + 2, ⁇ ) in FIG. 1 are frame numbers assigned to each speech frame.
  • the voice signal is decoded according to the order of the frame numbers, and the decoded voice is output as a sound wave.
  • encoding, multiplexing, transmission, separation and decoding are performed for each speech frame. For example, when the nth frame is lost, a speech frame (for example, the n-1th frame or the n-2th frame) received in the past is referred to, and the frame compensation process for the nth frame is performed.
  • Non-Patent Document 1 describes a rule regarding multiplexing when audio data is multi-channel data (for example, stereo audio data). According to the same document, when audio data is, for example, data of two channels, audio data of the left channel (L ch) and audio data of the right channel (R-ch) corresponding to the same time are multiplexed. .
  • Non-Patent Document 1 Real-time Transfer Protocol (RTP) Payload Format and File Storage Format for the Adaptive Multi-Rate (AMR) and Adaptive Multi-Rate Wideband (AMR-WB) Audio Codecs ", IETF RFC 3267
  • RTP Real-time Transfer Protocol
  • AMR Adaptive Multi-Rate
  • AMR-WB Adaptive Multi-Rate Wideband Audio Codecs
  • Non-Patent Document 2 "Mandatory Speech Codec speech processing lunches; AMR Speech Codecs; Error concealment of lost frames", 3rd Generation Partnership Project, TS 26.091
  • the present invention has been made in view of the situation, and it is an object of the present invention to provide an audio data transmission Z receiver and an audio data transmission Z reception method that can realize high quality frame compensation. I assume.
  • An audio data transmitting apparatus transmits a multi-channel audio data series including a first data series corresponding to a first channel and a second data series corresponding to a second channel.
  • delay means for performing delay processing for delaying the first data sequence from the second data sequence by a predetermined delay amount, and the voice data sequence subjected to the delay processing.
  • a configuration is adopted that includes: multiplexing means for multiplexing; and transmission means for transmitting the multiplexed voice data sequence.
  • a voice data receiving apparatus is a multi-channel voice data sequence including a first data sequence corresponding to a first channel and a second data sequence corresponding to a second channel, and the first data sequence Means for receiving the audio data sequence multiplexed in a state delayed by a predetermined delay amount from the second data sequence, separation means for separating the received audio data sequence for each channel, and separation Decoding means for decoding the voiced data series for each channel, and the decoding means, when there is a loss or an error in the voice data series separated, the first data series or the like.
  • a configuration is adopted that includes a compensation unit that compensates for the loss or error in the other data sequence using one data sequence of the second data sequence.
  • the audio data transmission method of the present invention is an audio data transmission method for transmitting a multi-channel audio data sequence including a first data sequence corresponding to a first channel and a second data sequence corresponding to a second channel.
  • a multiplexing step of multiplexing an audio data sequence and a transmitting step of transmitting the multiplexed audio data sequence are provided.
  • the audio data receiving method of the present invention is a multi-channel audio data sequence including a first data sequence corresponding to a first channel and a second data sequence corresponding to a second channel.
  • a decoding step of decoding the separated voice data sequence for each channel wherein the decoding step includes the first step when there is a loss or error in the separated voice data sequence. It is arranged to have a compensation step of compensating for the loss or error in the other data series using one data series out of the data series and the second data series.
  • FIG. 1 A diagram for explaining an example of voice processing operation in a conventional voice communication system
  • FIG. 2A A block diagram showing a configuration of a voice data transmitting apparatus according to a first embodiment of the present invention
  • FIG. 2A Block diagram showing the configuration of the voice data receiving apparatus according to Embodiment 1 of the present invention
  • Figure 3 A block diagram showing the internal configuration of the voice decoding unit in the voice data receiving apparatus according to Embodiment 1 of the present invention
  • FIG. 4 A diagram for explaining the operation of an audio data transmitting apparatus and an audio data receiving apparatus according to Embodiment 1 of the present invention.
  • FIG. 5 A block diagram showing an internal configuration of a voice decoding unit in a voice data receiving apparatus according to a second embodiment of the present invention.
  • FIG. 6 A block diagram showing an internal configuration of a voice decoding unit in a voice data receiving apparatus according to a third embodiment of the present invention
  • FIG. 7 A block diagram showing a modification of the internal configuration of the speech decoding unit in the speech data receiving apparatus according to Embodiment 3 of the present invention.
  • FIGS. 2A and 2B are block diagrams respectively showing configurations of an audio data transmitting apparatus and an audio data receiving apparatus according to Embodiment 1 of the present invention.
  • the source-side power input multi-channel audio signal has two channels including the left channel (L-ch) and the right channel (R-ch), ie this audio signal is a stereo signal . Therefore, the voice data transmitting apparatus 10 and the voice data receiving apparatus 20 respectively shown in FIGS. 2A and 2B are provided with two processing systems for the left and right channels.
  • the number of channels of the audio signal is not limited to two. When the number of channels is three or more, by providing three or more processing systems on the transmission side and the reception side, respectively, the same function and effect as those of the present embodiment can be realized.
  • Speech data transmitting apparatus 10 shown in FIG. 2A has speech coding section 102, delay section 104, multiplexing section 106, and transmission section 108.
  • Speech coding section 102 codes the input multi-channel speech signal and outputs code data. This encoding is performed independently for each channel.
  • L-ch coded data is referred to as “L-ch coded data”
  • R-ch coded data is referred to as “R-ch coded data”.
  • Delay section 104 delays the L-ch code data from voice code section 102 by one voice frame and outputs the delayed data to multiplexing section 106. That is, the delay unit 104 is disposed downstream of the speech coding unit 102. As described above, since the delay processing is arranged in the latter stage of the speech coding processing, the delay processing can be performed on the data after the coding, and the delay processing is arranged in the former stage of the speech coding process. Processing can be simplified compared to when
  • the delay amount in the delay processing performed by the delay unit 104 is preferably set in units of voice frames, but is not limited to one voice frame.
  • the voice communication system including the voice data transmitting apparatus 10 and the voice data receiving apparatus 20 according to the present embodiment is premised on the main application being real-time voice communication as well as streaming of audio data, for example. . Therefore, in order to prevent undesired effects from being exerted on the communication quality by setting the delay amount to a large value, in the present embodiment, the delay amount is preset to the minimum value, that is, one voice frame. There is.
  • the delay unit 104 delays only L ch code data only.
  • the way of performing delay processing on the force voice data is not limited to this.
  • delay The unit 104 may have a configuration in which not only L ch code data but also R ch code data is delayed and the difference between the delay amounts is set in units of speech frames. Also, instead of delaying L-ch, only R-ch may be delayed.
  • Multiplexing section 106 is configured to transmit the L-ch code data from delay section 104 and the R-ch code data of speech code section 102 in a predetermined format (for example, a format similar to that in the prior art). Multi-channel voice data by multiplexing. That is, in this embodiment, for example, L-ch code data having frame number N is multiplexed with R-ch code data having frame number N + 1.
  • Transmitting section 108 performs transmission processing determined in advance according to the transmission path to audio data receiving apparatus 20 on the audio data from multiplexing section 106, and transmits the audio data to audio data receiving apparatus 20. .
  • the voice data receiving apparatus 20 shown in FIG. 2B includes a receiving unit 110, a voice data loss detecting unit 112, a separating unit 114, a delay unit 116, and a voice decoding unit 118.
  • the speech decoding unit 118 has a frame compensation unit 120.
  • FIG. 3 is a block diagram showing a more detailed configuration of the speech decoding unit 118. As shown in FIG.
  • the speech decoding unit 118 shown in FIG. 3 includes an L-ch decoding unit 122 and an R-ch decoding unit 124 in addition to the frame compensation unit 120.
  • frame compensation section 120 has switch section 126 and superposition addition section 128, and superposition addition section 128 includes L-ch superposition addition section 130 and R-ch superposition addition. It has part 132.
  • Reception unit 110 performs predetermined reception processing on the received voice data received from voice data transmitting apparatus 10 via the transmission path.
  • Voice data loss detection unit 112 generates a loss or an error (hereinafter, “loss or error” is collectively referred to as “loss”) in the received voice data subjected to the reception processing by reception unit 110, Detect whether or not When the occurrence of a loss is detected, a loss flag is output to the separation unit 114, the switch unit 126, and the superposition addition unit 128.
  • the loss flag indicates which speech frame has been lost in the series of speech frames constituting each of L-ch code data and R-ch code data.
  • Separation section 114 determines whether the loss flag has been input from voice data loss detection section 112 or not. Accordingly, the received voice data from the receiver 110 is separated for each channel.
  • the L ch code data and R ch code data obtained by the separation are output to the L ch decoding unit 122 and the delay unit 116, respectively.
  • the delay unit 116 corresponds to delaying L-ch on the transmission side, and in order to match (return) the time relationship between L-ch and R-ch, R- from the separation unit 114
  • the ch encoded data is delayed by one audio frame and output to the R-ch decoding unit 124.
  • the amount of delay in the delay processing performed by the delay unit 116 is preferably performed in units of speech frames, but is not limited to one speech frame.
  • the delay amount in delay section 116 is set to the same value as the delay amount in delay section 104 in audio data transmitting apparatus 10.
  • delay processing section 116 is a process that matches only the time relationship between L-ch and R-ch, which delays only R-ch code data
  • audio data will be processed.
  • the delay unit 116 may have a configuration in which not only R-ch code data but also L ch code data are delayed, and the difference between the delay amounts is set in units of speech frames. . Also, when R-ch is delayed on the transmitting side, L-ch is delayed on the receiving side.
  • the audio decoding unit 118 performs processing for decoding multi-channel audio data for each channel.
  • the L ch decoding unit 122 decodes the L ch coded data from the separation unit 114, and the L ch decoded speech signal obtained by the decoding is output. Since the output terminal of the L-ch decoding unit 122 and the input terminal of the L-ch superposition addition unit 130 are always connected V, the output of the L-ch decoded speech signal to the L-ch superposition addition unit 130 is always a line. It will be.
  • the R-ch decoding unit 124 decodes the R-ch coded data from the delay unit 124, and the R-ch decoded speech signal obtained by the decoding is output. Since the output end of the R-ch decoding unit 124 and the input end of the R-ch superposition addition unit 132 are always connected, the output of the R-ch decoded speech signal to the R-ch superposition addition unit 132 is always constant. To be done.
  • switch unit 126 According to the information content indicated by the loss flag, the connection state of the Lch decoding unit 122 and the R-ch overlapping addition unit 132 and the connection state of the R-ch decoding unit 124 and the Lch overlapping addition unit 130 are switched.
  • R-ch decoding unit 124 R Of the ch decoded speech signal, the R-ch decoded speech signal obtained by decoding the speech frame corresponding to frame number K is not only the R-ch superposition adder 132 but also the L-ch superposition adder The output end of the R-ch decoding unit 124 is connected to the input end of the L-ch superposition and addition unit 130 so that the output is also output to 130.
  • an audio frame that belongs to R-ch code data and corresponds to frame number K.
  • the speech frame corresponding to the frame number K is decoded when the loss flag indicating that the frame loss has occurred is input.
  • the output end of the L-ch decoding unit 122 is R-ch so that the L-ch decoded speech signal obtained by the above is output not only to the L-ch superposition addition unit 130 but also to the R-ch superposition addition unit 132. Connect with the input terminal of the superposition adder 132.
  • the superposition addition unit 128 performs superposition addition processing described later on the multi-channel decoded speech signal in accordance with the loss flag from the speech data loss detection unit 112. More specifically, the loss flag from the voice data loss detection unit 112 is input to both the L-ch superposition and addition unit 130 and the R-ch superposition and addition unit 132.
  • the L-ch superposition addition unit 130 When the loss flag is not input, the L-ch superposition addition unit 130 outputs the L-ch decoded speech signal from the L-ch decoding unit 122 as it is.
  • the L-ch decoded speech signal to be output is converted to a sound wave and output by, for example, speech output processing in a later stage not shown.
  • L-ch superposition addition section 130 receives, for example, a loss flag indicating that the speech frame corresponding to frame number K belonging to the R-ch code data has been lost.
  • the Lch decoded speech signal is output as it is.
  • the L channel decoded speech signal to be output is output to, for example, the above-mentioned speech output processing stage.
  • the L-ch superposition addition unit 130 belongs to, for example, L-ch code data. If a loss flag indicating that the voice frame corresponding to the frame number has been lost is input, the Lch decoding unit 122 uses the encoded data of the voice frame up to the frame number K 1 or the decoded voice signal to use The compensation signal (L ch compensation signal) obtained by performing compensation of the frame of frame number K in a general method of decoding and the speech frame corresponding to frame number K in the R-ch decoding unit 124 are decoded.
  • the R-ch decoded speech signal obtained by The superposition is performed, for example, such that the weight of the Lch compensation signal is large near both ends of the frame of frame number K, and the weight of the R-ch decoded signal is large otherwise.
  • the L-ch decoded speech signal corresponding to the frame number K is restored, and the frame compensation process for the speech frame of the frame number K (L ch code data) is completed.
  • the restored L-ch decoded speech signal is output to the above-mentioned speech output processing stage, for example.
  • the superposition addition unit instead of using the Lch compensation signal and R-ch decode signal as described above, one end of the decoded signal of frame number K 1 of L-ch is used.
  • the superposition addition is performed by using the rear end of the decoded signal of the frame number K-1 and the R-ch !, and the result is the frame number as the rear end signal of the decoded signal of the L ch frame number K 1
  • the K frame may output the R-ch decoded signal as it is.
  • the R-ch superposition addition unit 132 When the loss flag is not input, the R-ch superposition addition unit 132 outputs the R-ch decoded speech signal from the R-ch decoding unit 124 as it is.
  • the output R-ch decoded voice signal is output to, for example, the above-mentioned voice output processing stage.
  • the R-ch superposition addition unit 132 R-Outputs the ch decoded speech signal as it is.
  • the output R-ch decoded speech signal is output to, for example, the above-mentioned speech output processing stage.
  • the R-ch superposition addition unit 132 receives, for example, a loss flag indicating that the speech frame corresponding to the frame number K belonging to the R-ch code data has been lost.
  • R-ch decoding unit 124 encoded data of speech frame up to frame number K 1
  • R-ch compensation signal and L-ch decoding unit 122 correspond to frame number K And an L-ch decoded speech signal obtained by decoding the speech frame.
  • the superposition is performed, for example, in the vicinity of both ends of the frame of frame number K: R ⁇ c
  • the weight of the h compensation signal is large so that the weight of the L ch decoded signal is large otherwise. In this way, the R-ch decoded speech signal corresponding to frame number K is restored and
  • the restored R-ch decoded speech signal is output to the above-mentioned speech output processing stage, for example.
  • the audio decoding unit 118 uses the state data to decode the next audio frame depending on the decoding state of the audio frame in the past.
  • the case where the flooding method is adopted will be described.
  • the state data obtained when the R-ch decoding unit 124 decodes the used R-ch encoded data may be acquired and used for decoding the next audio frame. By doing this, discontinuities between frames can be avoided.
  • the normal decoding process means a decoding process to be performed on a speech frame due to loss!
  • the R-ch decoding unit 124 when the R-ch decoding unit 124 performs a normal decoding process on the voice frame following (immediately after) the voice frame in which the loss occurred, the voice frame in which the loss occurs.
  • the state data obtained when the Lch coded data is decoded by the Lch decoding unit 122 may be used for the compensation for the next voice frame. By doing this, discontinuities between frames can be avoided.
  • CELP Code
  • the decoded waveform is superimposed and added between adjacent frames, and the final decoded speech waveform is Even if there is previous frame decoding in the configuration to be obtained, waveform data, etc., normal speech decoding is performed on the next (immediately) speech frame of the lossy speech frame using these state data. Good.
  • FIG. 4 is a diagram for explaining the operation of the voice data transmitting apparatus 10 and the voice data receiving apparatus 20 according to the present embodiment.
  • the multi-channel audio signal input to speech code selector 102 also includes a sequence of L-ch audio signals and a sequence power of R-ch audio signals.
  • each of L-ch and R-ch audio signals (for example, L-ch audio signal SL (n) and R-ch audio signal SR (n)) corresponding to the same frame number correspond to each other.
  • L-ch audio signal SL (n) and R-ch audio signal SR (n) corresponding to the same frame number correspond to each other.
  • it is input to the speech code input unit 102.
  • Each audio signal corresponding to the same frame number as each other is an audio signal to be output as an acoustic wave at the same time.
  • the multi-channel voice signal is subjected to each processing by voice coding unit 102, delay unit 104, and multiplexing unit 106 to become transmission voice data.
  • the transmission voice data is multiplexed with L ch code data delayed by one voice frame from R ch code data.
  • L ch code data delayed by one voice frame from R ch code data.
  • 1 ⁇ 1 code data 0 ⁇ (11-1) is multiplexed with R-ch code data CR (n).
  • voice data is packetized.
  • the generated transmission voice data is transmitted from the transmitter to the receiver.
  • the received voice data received by voice data receiving apparatus 20 is multiplexed in a state where the L ch encoded data is delayed by one voice frame than the R-ch code data. It has been For example, L-ch code data CL '(n-1) is multiplexed with R-ch code data CR, (n).
  • Such multi-channel received speech data is subjected to each processing by separation section 114, delay section 116 and speech decoding section 118 to become a decoded speech signal.
  • the received voice data received by voice data receiving apparatus 20 is divided into L ch encoded data CL ′ (n ⁇ 1) and R ⁇ ch encoded data CR, (n). There was a loss Suppose.
  • the corresponding decoded voice signal SR' (n) will also be lost, but L-with the same frame number as the coded data CR, (n) Since the encoded data CL (n) of ch is received without loss, frame compensation is performed using the decoded speech signal SL '(n) decoded by the encoded data CL' (n). As a result, the decoded speech signal SR ′ (n) is restored. By performing such frame compensation, it is possible to improve the sound quality to be restored.
  • multi-channel audio data multiplexed in a state delayed by one audio frame from L ch encoded data strength data is separated and separated for each channel.
  • loss or error occurs in the encoded data
  • one of the L-ch code data and R-ch code data is used to transmit the loss or error in the other data sequence. To compensate. For this reason, at the receiving end, even when loss or error occurs in the voice frame, at least one channel of multi-channel can be correctly received, and frame compensation of another channel can be performed using that channel. It is possible to realize high quality frame compensation.
  • voice frames of one channel can be recovered using voice frames of another channel, frame compensation performance of each channel included in multi-channel is improved. It can be raised.
  • the present embodiment has been described by way of example of a configuration in which data of one channel is delayed in the latter stage of speech code processing unit 102, the configuration capable of realizing the effects of the present embodiment is not limited to this. It is not limited to.
  • the data of one channel may be delayed before the voice code processing unit 102.
  • the delay amount to be set is not limited to the unit of voice frame. For example, it is also possible to make the delay amount shorter than one audio frame. For example, assuming that one audio frame is 20 ms, the delay amount can be set to 0.5 audio frame (1 Oms).
  • FIG. 5 is a block diagram showing a configuration of an audio decoding unit in an audio data receiving apparatus according to Embodiment 2 of the present invention.
  • the voice data transmitting apparatus and voice data receiving apparatus according to the present embodiment have the same basic configuration as that described in the first embodiment, and thus the same or corresponding components are used. Are given the same reference numerals and the detailed description thereof is omitted.
  • the difference between the present embodiment and the first embodiment is only the internal configuration of the speech decoding unit.
  • the speech decoding unit 118 shown in FIG. 5 has a frame compensation unit 120.
  • the frame compensation unit 120 includes a switch unit 202, an L-ch decoding unit 204, and an R-ch decoding unit 206.
  • switch unit 202 When a loss flag is input from voice data loss detection unit 112, switch unit 202 connects the connection state of delay unit 114 and R-ch decoding unit 206 according to the information content indicated by the loss flag, and also delays the delay unit. 116 and L—Switch the connection state of the ch decoding unit 204.
  • the L ⁇ ch encoded data from the demultiplexing unit 114 is output to the L ⁇ ch decoding unit 204 so that the L ⁇ ch encoded data is output to the L ⁇ ch decoding unit 204 only.
  • the output end of ch is connected to the input end of L-ch decoder 204.
  • the output end of the delay unit 116 is R-ch decoding unit so that the R-ch code data from the delay unit 116 is output only to the R-ch decoding unit 206. Connect with the input end of 206.
  • the R-ch encoded data from delay section 116 is input, of the R-ch encoded data from delay section 116
  • the output end of the delay unit 116 is output to the L-ch decoding unit 204 and the R-ch so that they are output to the L-ch decoding unit 204 as well as the speech frame strength R-ch decoding unit 206 corresponding to the frame number K. It connects with both input ends of the decoding unit 206.
  • an audio frame corresponding to a frame number K that belongs to R-ch code data is also known as a frame number K that belongs to R-ch code data.
  • the L-ch output terminal of the separation unit 114 is connected to both the input terminals of the R-ch decoding unit 206 and the L-ch decoding unit 204 so that the output is also output to the R-ch decoding unit 206 instead.
  • the L-ch decoding unit 204 decodes the L-ch coded data. This decoded result is output as an L ch decoded speech signal. That is, this decoding process is a normal speech decoding process.
  • the L-ch decoding unit 204 decodes the R-ch coded data. By decoding the R-ch code data by the Lch decoding unit 204 in this way, it is possible to restore the voice signal corresponding to the L-ch coded data in which the loss occurs.
  • the restored voice signal is output as an L-ch decoded voice signal. That is, this decoding process is a speech decoding process for frame compensation.
  • the R-ch decoding unit 206 decodes the R-ch encoded data. This decoding result is output as an R-ch decoded speech signal. That is, this decoding process is a normal speech decoding process.
  • the R-ch decoding unit 206 decodes the L-ch encoded data. As described above, the L-ch code data is decoded by the R-ch decoding unit 206, so that it is possible to restore the voice signal corresponding to the loss-encoded R-ch encoded data. The restored speech signal is output as an R-ch decoded speech signal. That is, this decoding process is a speech decoding process for frame compensation. As described above, according to the present embodiment, on the transmitting side, a multichannel in which delay processing is performed to delay L ch encoded data from R ch encoded data by one speech frame is performed.
  • multi-channel audio data multiplexed in a state delayed by one audio frame from L ch encoded data strength data is separated and separated for each channel.
  • one of the L-ch code data and R-ch code data is used to transmit the loss or error in the other data sequence. To compensate. For this reason, at the receiving end, even when loss or error occurs in the voice frame, at least one channel of multi-channel can be correctly received, and frame compensation of another channel can be performed using that channel. It is possible to realize high quality frame compensation.
  • FIG. 6 is a block diagram showing a configuration of a speech decoding unit in a speech data receiving apparatus according to Embodiment 3 of the present invention.
  • the voice data transmitting apparatus and voice data receiving apparatus according to the present embodiment have the same basic configuration as that described in the first embodiment, and thus the same or corresponding components are used. Are given the same reference numerals and the detailed description thereof is omitted.
  • the difference between the present embodiment and the first embodiment is only the internal configuration of the speech decoding unit.
  • the speech decoding unit 118 shown in FIG. 6 has a frame compensation unit 120.
  • the frame compensation unit 120 includes a switch unit 302, an L-ch frame compensation unit 304, an L-ch decoding unit 306, an R-ch decoding unit 308, an R-ch frame compensation unit 310, and a correlation degree determination unit 312.
  • the switch unit 302 receives the input of the loss flag from the voice data loss detection unit 112, the information content indicated by the input loss flag, and the presence or absence of the instruction signal from the correlation degree determination unit 312. , And switches the connection state between the L-ch decoding unit 306 and the R-ch decoding unit 308. Similarly, the connection relationship between the delay unit 116 and the L-ch decoding unit 306 and the R-ch decoding unit 308 is switched.
  • the L-ch code data from the separating unit 114 is output to the L-ch decoding unit 306 only, so that L — Ch
  • the output end of the L-ch decoder 306 is connected to the output end of
  • the output end of the delay unit 116 is R-ch decoding unit so that the R-ch code data from the delay unit 116 is output only to the R-ch decoding unit 308. Connect to the input end of 308.
  • connection relationship does not depend on the instruction signal from the correlation degree determination unit 312, but when the loss flag is input, the connection relationship also depends on the instruction signal.
  • L-ch of separation section 114 is used. The connection between the output end and the L-ch decoding unit 306 and the R-ch decoding unit 308 is open.
  • the L-ch output terminal of the separation unit 114 is connected to both the input terminals of the R-ch decoding unit 308 and the L-ch decoding unit 306 so that the signal is also output.
  • L-ch frame compensation unit 304 and R-ch frame compensation unit 310 When a loss flag indicating that L-ch or R-ch coded data has been lost is input to L-ch frame compensation unit 304 and R-ch frame compensation unit 310, an instruction signal is input. When there is no frame, frame compensation is performed using the information of the previous frame of the same channel as in the conventional general method, compensation data (coded data or decoded signal), L-ch decoding unit 306 And R-ch decoding unit 308 respectively.
  • L-ch decoding section 306 Decode the L ch encoded data. This decoded result is output as an L ch decoded speech signal. That is, this decoding process is a normal speech decoding process.
  • the L-ch decoding unit 306 When the L-ch decoding unit 306 receives the loss flag and the R-ch code data from the delay unit 116 is input, the L-ch decoding unit 306 receives the R-ch coded data. Decrypt. By decoding the R-ch encoded data by the L-ch decoding unit 306 in this way, it is possible to restore the speech signal corresponding to the L-ch encoded data in which the loss occurs. The restored voice signal is output as an L ch decoded voice signal. That is, this decoding process is an audio decoding process for frame compensation.
  • L-ch decoding section 306 performs the following decoding processing when compensation data from L-ch frame compensation section 304 is input when a loss flag is input. That is, when encoded data is input as the compensation data, the encoded data is decoded, and when a compensation decoding signal is input, the signal is used as an output signal as it is. Also in this case, it is possible to restore the audio signal corresponding to the Lch code data which has been lost. The restored speech signal is output as an L ch decoded speech signal.
  • the R-ch decoding unit 308 decodes the R-ch encoded data. This decoding result is output as an R-ch decoded speech signal. That is, this decoding process is a normal speech decoding process.
  • the R-ch decoding unit 308 decodes the L-ch coded data. Do. As described above, the L-ch code data is decoded by the R-ch decoding unit 308, so that it is possible to restore the voice signal corresponding to the loss-caused R-ch encoded data. The restored voice signal is output as an R-ch decoded voice signal. That is, this decoding process is an audio decoding process for frame compensation.
  • the R-ch decoding unit 308 performs the following decoding processing. That is, when encoded data is input as the compensation data, the encoded data is decoded, and when a compensation decoding signal is input, the signal is used as an output signal as it is. Also in this case, the speech signal corresponding to the loss R-ch code data is restored. can do. The restored speech signal is output as an R-ch decoded speech signal.
  • Correlation degree determination section 312 calculates a correlation degree Cor between the Lch decoded speech signal and the R-ch decoded speech signal using the following equation (1).
  • sL ′ (i) and sR ′ (i) are an L-ch decoded speech signal and an R-ch decoded speech signal, respectively. According to the above equation (1), the degree of correlation Cor in the section up to the voice sample value one sample before (that is, immediately before) the voice sample value L samples before the compensation frame is calculated.
  • the correlation degree determination unit 312 compares the calculated correlation degree Cor with a predetermined threshold. As a result of the comparison, if the correlation degree Cor is higher than a predetermined threshold value, it is determined that the correlation between the L ch decoded speech signal and the R — ch decoded speech signal is high. Then, when a loss occurs, an instruction signal for instructing to use code data of the mutually different channels is output to the switch unit 302.
  • the correlation degree determination unit 312 compares the calculated correlation degree Cor with the above threshold value, if the correlation degree Cor is less than or equal to the threshold value, between the L ch decoded speech signal and the R-ch decoded speech signal It is determined that the correlation of is low. Then, in order to use code data of the same channel when a loss occurs, the instruction signal is not output to the switch unit 302.
  • the degree of correlation Cor between the Lch decoded speech signal and the R-ch decoded speech signal is compared with a predetermined threshold, and each other is compared according to the result of the comparison.
  • a predetermined threshold In order to decide whether or not to perform frame compensation using the code data of the channel, it is possible to perform compensation based on voice data of the channels of each other only when the correlation between the channels is high. It is possible to prevent degradation of compensation quality by performing frame compensation using voice data of low and low correlation channels. Further, in the present embodiment, since the compensation based on the audio data of the same channel is performed when the correlation is low, the quality of the frame compensation can be maintained continuously.
  • the correlation degree determination unit 312 is not required to perform coding at the time of frame compensation.
  • the case where it is provided in the frame compensation unit 120 in the second embodiment using a data set is described as an example.
  • the configuration of the frame compensation unit 120 provided with the correlation degree determination unit 312 is not limited to this.
  • the correlation degree determination unit 312 is provided in the frame compensation unit 120 (Embodiment 1) using decoded speech at the time of frame compensation, the same operation and effect can be realized.
  • FIG. 1 A configuration diagram of this case is shown in FIG.
  • the operation in this case is mainly different from the operation in the configuration in FIG. 3 in the first embodiment in the operation of the switch unit 126. That is, the connection state in the switch unit 126 is switched according to the loss flag and the result of the instruction signal output from the correlation degree determination unit 312. For example, when a loss flag indicating that L-ch coded data has been lost is input and an instruction signal is input, the compensation signal obtained by L-ch frame compensation unit 304 and R- The decoded signal of ch is input to the L-ch superposition addition unit 130 and superposition addition is performed.
  • L-ch frame compensation section 304 uses the information of L-ch up to the previous frame of the lost frame and uses the same frame as the conventional general method.
  • the compensation processing is performed.
  • the compensation data (coded data or decoded signal) is output to the L ch decoding unit 122, and the L-ch decoding unit 122 outputs the compensation signal of the compensation frame.
  • the encoded data is input as the compensation data
  • the encoded data is used for decoding
  • the compensation decoded signal is input, the signal is used as the output signal as it is.
  • the decoded signal up to the previous frame in the L-ch decoding unit 122 or state data is used, or the previous frame of the L-ch superposition addition unit 130 is used. Even if you use the output signal up to,.
  • the operation of the R-ch frame compensation unit 310 is similar to that of the L-ch.
  • correlation degree determination unit 312 performs calculation processing of correlation degree Cor of a predetermined section, but the correlation degree calculation processing method in correlation degree determination unit 312 is not limited to this! ,
  • the correlation degree calculation processing method in correlation degree determination unit 312 is not limited to this! .
  • the maximum value Cor-max is compared with a predetermined threshold, and if the maximum value Cor-max exceeds the threshold, it is determined that the correlation between channels is high. By doing this, it is possible to realize the same effects as the above.
  • the decoded speech of the other channel used for frame compensation may be shifted after being shifted by the shift amount (ie, the number of speech samples) for obtaining the maximum value Cor_max.
  • the shift amount ⁇ max of the speech sample to be the maximum value Cor ⁇ max is calculated by using the following equation (3).
  • L-ch frame compensation a signal obtained by shifting the R-ch decoded signal in the positive time direction by a shift amount of -max is used.
  • R-ch frame compensation a signal is used in which the L-ch decoded signal is shifted in the negative time direction by _max as the shift amount.
  • Cor _ max max ⁇ J s '(--) ⁇ sR' (-i-M-k) ⁇ (k: — M ⁇ M)
  • x _ max arg max ⁇ sL '(-i-M) ⁇ sR' (-i-M-k) ⁇ (k:-M to M)
  • sL, (i) and sR, (i) are an L-ch decoded speech signal and an R-ch decoded speech signal, respectively.
  • the L sample portion in the section from the sound sample value before L + M samples to the sound sample value one sample before (that is, immediately before) is the calculation target section.
  • the shift amount of the audio sample for M sample is the calculation target range.
  • the shift amount ⁇ -max may be an integer value in the number of voice samples, or may be a decimal value obtained by increasing the resolution between voice sample values.
  • the configuration may be such that an amplitude correction value calculation unit that calculates an amplitude correction value for the result is provided internally.
  • the speech decoding unit 118 is provided with an amplitude correction unit that corrects the amplitude of the decoding result of the speech data of the other data series by using the calculated amplitude correction value. Then, when performing frame compensation using audio data of another channel, the amplitude of the decoded signal may be corrected using the correction value.
  • the arrangement of the amplitude correction value calculation unit is not limited to the inside of the correlation degree determination unit 312 as long as it is inside the speech decoding unit 118.
  • a signal obtained by multiplying the decoded signal of R ch by the amplitude correction value g_opt is used.
  • R-ch frame compensation a signal obtained by multiplying the inverse of the amplitude correction value lZg_opt by the L-ch decoded signal is used.
  • ⁇ max is the shift amount of the voice sample when the degree of correlation obtained by equation (3) is maximized.
  • the method of calculating the amplitude correction value is not limited to equation (4).
  • A) Let g be the amplitude correction value that minimizes D (g) in equation (5), b ) Determine the shift amounts k and g that minimize D (g, k) in equation (6), and let g at that time be the amplitude correction value, and c) L for a predetermined interval before the compensation frame ch and R—square root of power of decoded signal of ch (or average The ratio of width values) may be used as a correction value.
  • Each function block employed in the description of each of the aforementioned embodiments may typically be implemented as an LSI constituted by an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include some or all of them.
  • LSI is used to refer to “IC,” “system LSI,” “super LSI,” and “monolithor LSI” depending on the degree of integration.
  • circuit integration is not limited to LSI's, and implementation using dedicated circuitry or general purpose processors is also possible.
  • FPGA Field can be programmed after LSI fabrication
  • the audio data transmission Z receiving apparatus and the audio data transmission Z reception method of the present invention are useful in an audio communication system or the like in which compensation processing is performed for erroneous audio data and lost audio data.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Circuits Of Receivers In General (AREA)
  • Communication Control (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

 音声通信において高品質なフレーム補償を実現する音声データ送信/受信装置を開示する。音声データ送信装置(10)において、遅延部(104)は、L-ch符号化データをR-ch符号化データより所定の遅延量だけ遅延させる遅延処理をマルチチャネルの音声データに施す。多重化部(106)は、当該遅延処理が施された音声データを多重化する。送信部(108)は、多重化された音声データを送信する。音声データ受信装置(20)において、分離部(114)は、音声データ送信装置(10)から受信した音声データをチャネルごとに分離する。復号部(118)は、分離された音声データをチャネルごとに復号する。フレーム補償部(120)は、分離された音声データに損失または誤りが発生している場合、L-ch符号化データおよびR-ch符号化データの一方の符号化データを用いて他方の符号化データにおける損失または誤りを補償する。

Description

明 細 書
音声データ送信 Z受信装置および音声データ送信 Z受信方法 技術分野
[oooi] 本発明は、音声データ送信 Z受信装置および音声データ送信 Z受信方法に関し 、特に、誤りのある音声データや損失した音声データの補償処理が行われる音声通 信システムに用いられる音声データ送信 Z受信装置および音声データ送信 Z受信 方法に関する。
背景技術
[0002] IP (Internet Protocol)網や無線通信網での音声通信にお!、ては、 IPパケットの損 失や無線伝送誤りなどにより、受信側で音声データを受信できな力つたり誤りのある 音声データを受信したりすることがある。このため、一般に音声通信システムにおい ては、誤った音声データまたは損失した音声データを補償するための処理が行われ る。
[0003] 一般的な音声通信システムの送信側すなわち音声データ送信装置では、入力原 信号たる音声信号は、音声データとして符号化され、多重化 (パケット化)され、宛先 装置に対して送信される。通常、多重化は、 1音声フレームを 1つの伝送単位として 行われる。多重化に関して、例えば非特許文献 1では、 3GPP (3rd Generation Partnership Project)規格の音声コーデック方式である AMR (Adaptive Multi-Rate) および AMR— WB (Adaptive Multi-Rate Wideband)に対して IPパケット網での音声 データのフォーマットを規定して 、る。
[0004] また、受信側すなわち音声データ受信装置では、受信した音声データに損失また は誤りがある場合、例えば過去に受信した音声フレーム内の音声データ (符号化デ ータ)またはそれを元に復号した復号音声信号を用いて、損失した音声フレーム内ま たは誤りのある音声フレーム内の音声信号を補償処理により復元する。音声フレーム の補償処理に関して、例えば非特許文献 2では、 AMRのフレーム補償方法を開示 している。
[0005] 上述の音声通信システムにおける音声処理動作について、図 1を用いて概説する 。図 1におけるシーケンス番号(···、 n— 2、 n— 1、 n、 n+ l、 n+ 2、 ···)は各音声フレ ームに付与されたフレーム番号である。受信側では、このフレーム番号順に従って音 声信号を復号し復号音声を音波として出力することとなる。また、同図に示すように、 符号化、多重化、送信、分離および復号は、音声フレームごとに行われる。例えば第 nフレームが損失した場合、過去に受信した音声フレーム (例えば第 n— 1フレームや 第 n— 2フレーム)が参照され第 nフレームに対するフレーム補償処理が行われる。
[0006] ところで、近年のネットワークのブロードバンド化や通信のマルチメディア化に伴い、 音声通信において音声の高品質ィ匕の流れがある。その一環として、音声信号をモノ ラル信号としてではなくステレオ信号として符号ィ匕および伝送することが求められて いる。このような要求に対して、非特許文献 1には、音声データがマルチチャネルデ ータ(例えばステレオ音声データ)の場合の多重化に関する規定が記載されている。 同文献によれば、音声データが例えば 2チャネルのデータの場合、互いに同一の時 刻に相当する左チャネル (L ch)の音声データおよび右チャネル (R— ch)の音声 データが多重化される。
非特干文献 1: Real-Time Transfer Protocol (RTP) Payload Format and File Storage Format for the Adaptive Multi-Rate (AMR) and Adaptive Multi-Rate Wideband (AMR-WB) Audio Codecs", IETF RFC3267
非特許文献 2 : "Mandatory Speech Codec speech processing lunctions; AMR Speech Codecs; Error concealment of lost frames", 3rd Generation Partnership Project, TS26.091
発明の開示
発明が解決しょうとする課題
[0007] し力しながら、従来の音声データ受信装置および音声データ受信方法にお!、ては 、損失した音声フレームまたは誤りのある音声フレームの補償を行うとき、その音声フ レームよりも前に受信した音声フレームを用いるため、補償性能 (すなわち、補償され た音声信号の品質)が十分でないことがあり、入力原信号に忠実な補償を行うには一 定の限界がある。これは、扱われる音声信号がモノラルであってもステレオであっても 同様である。 [0008] 本発明は、力かる点に鑑みてなされたもので、高品質なフレーム補償を実現するこ とができる音声データ送信 Z受信装置および音声データ送信 Z受信方法を提供す ることを目的とする。
課題を解決するための手段
[0009] 本発明の音声データ送信装置は、第一チャネルに対応する第一データ系列と第二 チャネルに対応する第二データ系列とを含むマルチチャネルの音声データ系列を送 信する音声データ送信装置において、前記第一データ系列を前記第二データ系列 より所定の遅延量だけ遅延させる遅延処理を、前記音声データ系列に対して施す遅 延手段と、前記遅延処理が施された前記音声データ系列を多重化する多重化手段 と、多重化された前記音声データ系列を送信する送信手段と、を有する構成を採る。
[0010] 本発明の音声データ受信装置は、第一チャネルに対応する第一データ系列と第二 チャネルに対応する第二データ系列とを含むマルチチャネルの音声データ系列であ つて前記第一データ系列が前記第二データ系列より所定の遅延量だけ遅延された 状態で多重化された前記音声データ系列を受信する受信手段と、受信された前記 音声データ系列をチャネルごとに分離する分離手段と、分離された前記音声データ 系列をチャネルごとに復号する復号手段と、を有し、前記復号手段は、分離された前 記音声データ系列に損失または誤りが発生している場合、前記第一データ系列およ び前記第二データ系列のうち一方のデータ系列を用いて他方のデータ系列におけ る前記損失または誤りを補償する補償手段を有する構成を採る。
[0011] 本発明の音声データ送信方法は、第一チャネルに対応する第一データ系列と第二 チャネルに対応する第二データ系列とを含むマルチチャネルの音声データ系列を送 信する音声データ送信方法にお!、て、前記第一データ系列を前記第二データ系列 より所定の遅延量だけ遅延させる遅延処理を、前記音声データ系列に対して施す遅 延ステップと、前記遅延処理が施された前記音声データ系列を多重化する多重化ス テツプと、多重化された前記音声データ系列を送信する送信ステップと、を有するよう にした。
[0012] 本発明の音声データ受信方法は、第一チャネルに対応する第一データ系列と第二 チャネルに対応する第二データ系列とを含むマルチチャネルの音声データ系列であ つて前記第一データ系列が前記第二データ系列より所定の遅延量だけ遅延された 状態で多重化された前記音声データ系列を受信する受信ステップと、受信した前記 音声データ系列をチャネルごとに分離する分離ステップと、分離した前記音声データ 系列をチャネルごとに復号する復号ステップと、を有し、前記復号ステップは、分離し た前記音声データ系列に損失または誤りが発生している場合、前記第一データ系列 および前記第二データ系列のうち一方のデータ系列を用いて他方のデータ系列に おける前記損失または誤りを補償する補償ステップを有するようにした。
発明の効果
[0013] 本発明によれば、高品質なフレーム補償を実現できる。
図面の簡単な説明
[0014] [図 1]従来の音声通信システムにおける音声処理動作の一例を説明するための図 [図 2A]本発明の実施の形態 1に係る音声データ送信装置の構成を示すブロック図 [図 2B]本発明の実施の形態 1に係る音声データ受信装置の構成を示すブロック図 [図 3]本発明の実施の形態 1に係る音声データ受信装置における音声復号部の内部 構成を示すブロック図
[図 4]本発明の実施の形態 1に係る音声データ送信装置および音声データ受信装置 における動作を説明するための図
[図 5]本発明の実施の形態 2に係る音声データ受信装置における音声復号部の内部 構成を示すブロック図
[図 6]本発明の実施の形態 3に係る音声データ受信装置における音声復号部の内部 構成を示すブロック図
[図 7]本発明の実施の形態 3に係る音声データ受信装置における音声復号部の内部 構成の変形例を示すブロック図
発明を実施するための最良の形態
[0015] 以下、本発明の実施の形態について、図面を用いて詳細に説明する。
[0016] (実施の形態 1)
図 2Aおよび図 2Bは、本発明の実施の形態 1に係る音声データ送信装置および音 声データ受信装置の構成をそれぞれ示すブロック図である。なお、本実施の形態で は、音源側力 入力されるマルチチャネルの音声信号は、左チャネル (L— ch)およ び右チャネル (R—ch)を含む二つのチャネルを有する、すなわちこの音声信号はス テレオ信号である。このため、図 2Aおよび図 2Bにそれぞれ示す音声データ送信装 置 10および音声データ受信装置 20にはそれぞれ、左右チャネル用の二つの処理 系が設けられている。ただし、音声信号のチャネル数は二つに限定されない。チヤネ ル数が三つ以上の場合は、三つ以上の処理系を送信側および受信側にそれぞれ設 けることにより、本実施の形態と同様の作用効果を実現することができる。
[0017] 図 2Aに示す音声データ送信装置 10は、音声符号化部 102、遅延部 104、多重化 部 106および送信部 108を有する。
[0018] 音声符号ィ匕部 102は、入力されるマルチチャネルの音声信号を符号ィ匕し、符号ィ匕 データを出力する。この符号化は、チャネルごとに独立に行われる。以下の説明にお いては、 L— chの符号化データを「L ch符号化データ」と称し、 R—chの符号化デ ータを「R— ch符号化データ」と称す。
[0019] 遅延部 104は、音声符号ィ匕部 102からの L—ch符号ィ匕データを 1音声フレーム分 遅延させ多重化部 106に出力する。すなわち、遅延部 104は、音声符号化部 102の 後段に配置されている。このように、遅延処理が音声符号化処理の後段に配置され ているため、符号化された後のデータに対して遅延処理を行うことができ、遅延処理 が音声符号ィ匕処理の前段に配置された場合に比して処理を簡略ィ匕することができる
[0020] なお、遅延部 104により行われる遅延処理における遅延量は、音声フレームの単 位で設定されることが好ましいが、 1音声フレームには限定されない。ただし、本実施 の形態の音声データ送信装置 10および音声データ受信装置 20を含む音声通信シ ステムは、例えばオーディオデータなどのストリーミングだけでなくリアルタイムの音声 通信を主な用途とすることを前提としている。したがって、遅延量を大きい値に設定す ることで望ましくない影響が通信品質に与えられることを防止するために、本実施の 形態では、遅延量を、最小値すなわち 1音声フレームに予め設定している。
[0021] また、本実施の形態では、遅延部 104は L ch符号ィ匕データのみを遅延させてい る力 音声データに対する遅延処理の施し方はこれに限定されない。例えば、遅延 部 104は、 L ch符号ィ匕データだけでなく R— ch符号ィ匕データも遅延させその遅延 量の差が音声フレームの単位で設定されているような構成を有しても良い。また、 L —chを遅延させる代わりに、 R—chのみを遅延するようにしても良い。
[0022] 多重化部 106は、遅延部 104からの L—ch符号ィ匕データおよび音声符号ィ匕部 102 力 の R—ch符号ィ匕データを所定のフォーマット(例えば従来技術と同様のフォーマ ット)に多重化することによりマルチチャネルの音声データをパケットィ匕する。すなわち 、本実施の形態では、例えばフレーム番号 Nを有する L— ch符号ィ匕データは、フレ ーム番号 N+ 1を有する R—ch符号ィ匕データと多重化されることとなる。
[0023] 送信部 108は、音声データ受信装置 20までの伝送路に応じて予め決められている 送信処理を多重化部 106からの音声データに対して施し、音声データ受信装置 20 宛てに送信する。
[0024] 一方、図 2Bに示す音声データ受信装置 20は、受信部 110、音声データ損失検出 部 112、分離部 114、遅延部 116および音声復号部 118を有する。音声復号部 118 は、フレーム補償部 120を有する。図 3は、音声復号部 118のより詳細な構成を示す ブロック図である。図 3に示す音声復号部 118は、フレーム補償部 120のほかに、 L — ch復号部 122および R—ch復号部 124を有する。また、本実施の形態においては 、フレーム補償部 120は、スィッチ部 126および重ね合わせ加算部 128を有し、重ね 合わせ加算部 128は、 L— ch重ね合わせ加算部 130および R— ch重ね合わせ加算 部 132を有する。
[0025] 受信部 110は、伝送路を介して音声データ送信装置 10から受信した受信音声デ ータに対して所定の受信処理を施す。
[0026] 音声データ損失検出部 112は、受信部 110により受信処理が施された受信音声デ ータに損失または誤り(以下「損失または誤り」を「損失」と総称する)が発生して 、る か否かを検出する。損失の発生が検出された場合、損失フラグが分離部 114、スイツ チ部 126および重ね合わせ加算部 128に出力される。損失フラグは、 L— ch符号ィ匕 データおよび R—ch符号ィ匕データの各々を構成する音声フレームの系列においてど の音声フレームが損失したかを示すものである。
[0027] 分離部 114は、音声データ損失検出部 112から損失フラグが入力された力否かに 従い、受信部 110からの受信音声データをチャネルごとに分離する。分離によって得 られた L ch符号ィ匕データおよび R— ch符号ィ匕データは、 L ch復号部 122および 遅延部 116にそれぞれ出力される。
[0028] 遅延部 116は、送信側で L— chを遅延させたのに対応し L— chと R— chの時刻関 係を合わせる(元に戻す)ために、分離部 114からの R—ch符号化データを、 1音声 フレーム分遅延させ R—ch復号部 124に出力する。
[0029] なお、遅延部 116により行われる遅延処理における遅延量は、音声フレームの単 位で行われることが好ましいが、 1音声フレームには限定されない。遅延部 116での 遅延量は、音声データ送信装置 10における遅延部 104での遅延量と同値に設定さ れる。
[0030] また、本実施の形態では、遅延部 116は R—ch符号ィ匕データのみを遅延させてい る力 L— chと R—chの時刻関係を合わせるような処理であれば、音声データに対す る遅延処理の施し方はこれに限定されない。例えば、遅延部 116は、 R— ch符号ィ匕 データだけでなく L ch符号ィ匕データも遅延させその遅延量の差が音声フレームの 単位で設定されているような構成を有しても良い。また、送信側で R—chを遅延させ た場合には、受信側では L— chを遅延させるようにする。
[0031] 音声復号部 118では、マルチチャネルの音声データをチャネルごとに復号するた めの処理が行われる。
[0032] 音声復号部 118において、 L ch復号部 122は、分離部 114からの L ch符号ィ匕 データを復号し、復号によって得られた L ch復号音声信号が出力される。 L— ch 復号部 122の出力端と L ch重ね合わせ加算部 130の入力端とは常時接続されて V、るので、 L ch重ね合わせ加算部 130への L ch復号音声信号の出力は常時行 われる。
[0033] R—ch復号部 124は、遅延部 124からの R—ch符号ィ匕データを復号し、復号によ つて得られた R— ch復号音声信号が出力される。 R— ch復号部 124の出力端と R— ch重ね合わせ加算部 132の入力端とは常時接続されているので、 R—ch重ね合わ せ加算部 132への R— ch復号音声信号の出力は常時行われる。
[0034] スィッチ部 126は、音声データ損失検出部 112から損失フラグが入力されたとき、 損失フラグに示された情報内容に従って、 L ch復号部 122および R— ch重ね合わ せ加算部 132の接続状態ならびに R— ch復号部 124および L ch重ね合わせ加算 部 130の接続状態を切り替える。
[0035] より具体的には、例えば、 L ch符号ィ匕データに属しフレーム番号 Kに相当する 音声フレームが損失したことを示す損失フラグが入力された場合、 R—ch復号部 124 力もの R— ch復号音声信号のうち、フレーム番号 Kに相当する音声フレームを復号 することにより得られた R— ch復号音声信号が、 R— ch重ね合わせ加算部 132だけ でなく L— ch重ね合わせ加算部 130にも出力されるように、 R—ch復号部 124の出 力端を L ch重ね合わせ加算部 130の入力端と接続する。
[0036] また、例えば、 R— ch符号ィ匕データに属しフレーム番号 Kに相当する音声フレー
2
ムが損失したことを示す損失フラグが入力された場合、 L— ch復号部 122からの L— ch復号音声信号のうち、フレーム番号 Kに相当する音声フレームを復号することに
2
より得られた L ch復号音声信号が、 L ch重ね合わせ加算部 130だけでなく R— c h重ね合わせ加算部 132にも出力されるように、 L—ch復号部 122の出力端を R—c h重ね合わせ加算部 132の入力端と接続する。
[0037] 重ね合わせ加算部 128では、音声データ損失検出部 112からの損失フラグに従つ て、マルチチャネルの復号音声信号に対して後述の重ね合わせ加算処理を施す。 なお、音声データ損失検出部 112からの損失フラグは、より具体的には、 L ch重ね 合わせ加算部 130および R— ch重ね合わせ加算部 132の両方に入力される。
[0038] L—ch重ね合わせ加算部 130は、損失フラグが入力されない場合、 L— ch復号部 122からの L ch復号音声信号をそのまま出力する。出力される L ch復号音声信 号は、例えば図示されない後段での音声出力処理により音波に変換され出力される
[0039] また、 L— ch重ね合わせ加算部 130は、例えば、 R—ch符号ィ匕データに属しフレー ム番号 Kに相当する音声フレームが損失したことを示す損失フラグが入力された場
2
合、 L ch復号音声信号をそのまま出力する。出力される L ch復号音声信号は、 例えば前述の音声出力処理段に出力される。
[0040] また、 L— ch重ね合わせ加算部 130は、例えば、 L— ch符号ィ匕データに属しフレー ム番号 に相当する音声フレームが損失したことを示す損失フラグが入力された場 合、 L ch復号部 122でフレーム番号 K 1までの音声フレームの符号化データま たは復号音声信号を用いて従来の一般的な手法でフレーム番号 Kのフレームの補 償を行うことにより得られた補償信号 (L ch補償信号)と、 R—ch復号部 124でフレ ーム番号 Kに相当する音声フレームを復号することにより得られた R— ch復号音声 信号と、を重ね合わせ加算する。重ね合わせは、例えば、フレーム番号 Kのフレー ムの両端付近では L ch補償信号に重みが大きぐそれ以外では R— ch復号信号 の重みが大きくなるように行う。このようにしてフレーム番号 Kに対応する L— ch復号 音声信号が復元され、フレーム番号 Kの音声フレーム (L ch符号ィ匕データ)に対 するフレーム補償処理が完了する。復元された L— ch復号音声信号は、例えば前述 の音声出力処理段に出力される。
[0041] なお、重ね合わせ加算部での動作として、上記のような L ch補償信号と R— ch復 号信号を用いる代わりに、 L— chのフレーム番号 K 1の復号信号の後端の一部と R— chのフレーム番号 K - 1の復号信号の後端を用いて重ね合わせ加算を行!、、 その結果を L chのフレーム番号 K 1の復号信号の後端の信号として、フレーム 番号 Kのフレームは R—chの復号信号をそのまま出力するようにしても良 、。
[0042] R—ch重ね合わせ加算部 132は、損失フラグが入力されな力つた場合、 R—ch復 号部 124からの R— ch復号音声信号をそのまま出力する。出力される R - ch復号音 声信号は、例えば前述の音声出力処理段に出力される。
[0043] また、 R—ch重ね合わせ加算部 132は、例えば、 L—ch符号ィ匕データに属しフレー ム番号 Kに相当する音声フレームが損失したことを示す損失フラグが入力された場 合、 R— ch復号音声信号をそのまま出力する。出力される R— ch復号音声信号は、 例えば前述の音声出力処理段に出力される。
[0044] また、 R—ch重ね合わせ加算部 132は、例えば、 R—ch符号ィ匕データに属しフレ ーム番号 Kに相当する音声フレームが損失したことを示す損失フラグが入力された
2
場合、 R— ch復号部 124でフレーム番号 K 1までの音声フレームの符号化データ
2
または復号音声信号を用いてフレーム番号 κのフレームの補償を行うことにより得ら
2
れた補償信号 (R—ch補償信号)と、 L— ch復号部 122でフレーム番号 Kに相当す る音声フレームを復号することにより得られた L ch復号音声信号と、を重ね合わせ 加算する。重ね合わせは、例えば、フレーム番号 Kのフレームの両端付近では R— c
2
h補償信号に重みが大きぐそれ以外では L ch復号信号の重みが大きくなるように 行う。このようにしてフレーム番号 Kに対応する R— ch復号音声信号が復元され、フ
2
レーム番号 Kの音声フレーム (R—ch符号化データ)に対するフレーム補償処理が
2
完了する。復元された R— ch復号音声信号は、例えば前述の音声出力処理段に出 力される。
[0045] 前述のような重ね合わせ加算処理を行うことにより、同チャネルの連続する音声フレ ーム間において復号結果に不連続性が生じることを抑制することができる。
[0046] ここで、音声データ受信装置 20の内部構成において、音声復号部 118として過去 の音声フレームの復号状態に依存してその状態データを用いて次の音声フレームの 復号を行うような符号ィ匕方式が採用されている場合について説明する。この場合に は、 L ch復号部 122において、損失の生じた音声フレームの次(直後)の音声フレ ームに対して通常の復号処理を行うときに、当該損失の生じた音声フレームの補償 に用 ヽられた R— ch符号化データを R— ch復号部 124で復号する際に得られた状 態データを取得し、当該次の音声フレームの復号に使用するようにしても良い。こう することにより、フレーム間の不連続性を回避することができる。ここで、通常の復号 処理とは、損失の生じて!/、な 、音声フレームに対して行う復号処理を意味する。
[0047] また、この場合、 R—ch復号部 124においては、損失の生じた音声フレームの次( 直後)の音声フレームに対して通常の復号処理を行うときに、当該損失の生じた音声 フレームの補償に用 、られた L ch符号化データを L ch復号部 122で復号する際 に得られた状態データを取得し、当該次の音声フレームの復号に使用するようにして も良い。こうすることにより、フレーム間の不連続性を回避することができる。
[0048] なお、状態データとしては、例えば、(1)音声符号ィ匕方式として CELP (Code
Excited Linear Prediction)方式が採用された場合には、例えば適応符号帳や LPC 合成フィルタ状態など、 ( 2) ADPCM (Adaptive Differential Pulse Code Modulation) 方式のような予測波形符号ィ匕における予測フィルタの状態データ、(3)スペクトルパ ラメータなどのノ メータを予測量子化手法で量子化するような場合のその予測フィ ルタ状態、(4) FFT(Fast Fourier Transform)や MDCT (Modified Discrete Cosine Transform)などを用いる変換符号ィ匕方式にぉ 、て復号波形を隣接フレーム間で重 ね合わせ加算して最終復号音声波形を得るような構成におけるその前フレーム復号 波形データ、などがあり、それらの状態データを用いて損失の生じた音声フレームの 次(直後)の音声フレームに対して通常の音声復号を行うようにしても良 、。
[0049] 次いで、上記構成を有する音声データ送信装置 10および音声データ受信装置 20 における動作について説明する。図 4は、本実施の形態に係る音声データ送信装置 10および音声データ受信装置 20の動作を説明するための図である。
[0050] 音声符号ィ匕部 102に入力されるマルチチャネルの音声信号は、 L— chの音声信号 の系列および R—chの音声信号の系列力も成る。図示されているとおり、互いに同じ フレーム番号に対応する L— chおよび R— chの各音声信号 (例えば、 L— chの音声 信号 SL (n)および R—chの音声信号 SR(n) )が同時に音声符号ィ匕部 102に入力さ れる。互いに同じフレーム番号に対応する各音声信号は、最終的に同時に音波とし て音声出力されるべき音声信号である。
[0051] マルチチャネルの音声信号は、音声符号化部 102、遅延部 104および多重化部 1 06により各処理を施され、送信音声データとなる。図示されているとおり、送信音声 データは、 L ch符号ィ匕データを R— ch符号ィ匕データよりも 1音声フレームだけ遅延 した状態で多重化されたものとなっている。例えば、 1^ ^1符号ィ匕データ0^ (11—1) は R— ch符号ィ匕データ CR(n)と多重化される。このようにして音声データがパケット 化される。生成された送信音声データは、送信側から受信側に送信される。
[0052] したがって、音声データ受信装置 20で受信された受信音声データは、図示されて いるとおり、 L ch符号化データを R— ch符号ィ匕データよりも 1音声フレームだけ遅 延した状態で多重化されたものとなっている。例えば、 L— ch符号ィ匕データ CL' (n- 1)は R—ch符号ィ匕データ CR, (n)と多重化されている。
[0053] このようなマルチチャネルの受信音声データは、分離部 114、遅延部 116および音 声復号部 118により各処理を施され、復号音声信号となる。
[0054] ここで、音声データ受信装置 20で受信された受信音声データにぉ 、て、 L ch符 号化データ CL' (n— 1)および R— ch符号ィ匕データ CR, (n)に損失が発生していた と仮定する。
[0055] この場合、符号化データ CL' (n— 1)と同一フレーム番号を有する R— chの符号ィ匕 データ CR,(n— 1)および符号化データ CR,(n)と同一フレーム番号を有する L— ch の符号ィ匕データ CL (n)は、損失せずに受信されているので、フレーム番号 nに対応 するマルチチャネルの音声信号が音声出力されるときに一定の音質を確保できる。
[0056] さらに、音声フレーム CL' (n- 1)に損失が生じると、対応する復号音声信号 SL' ( n— 1)も失われることとなるが、符号化データ CL' (n— 1)と同一フレーム番号の R— chの符号化データ CR' (n— 1)は損失せずに受信されているので、符号化データ C R' (n— 1)により復号された復号音声信号 SR' (n—1)を用いてフレーム補償を行う ことにより、復号音声信号 SL' (n— 1)が復元される。また、音声フレーム CR' (n)に 損失が生じると、対応する復号音声信号 SR' (n)も失われることとなるが、符号化デ ータ CR,(n)と同一フレーム番号の L— chの符号化データ CL (n)は、損失せずに受 信されているので、符号化データ CL' (n)により復号された復号音声信号 SL' (n)を 用いてフレーム補償を行うことにより、復号音声信号 SR' (n)が復元される。このよう なフレーム補償を行うことにより、復元される音質の改善を図ることができる。
[0057] このように、本実施の形態によれば、送信側においては、 L ch符号化データを R ch符号化データより 1音声フレーム分だけ遅延させるような遅延処理が施されたマ ルチチャネルの音声データを多重化する。一方、受信側においては、 L ch符号化 データ力 ¾—ch符号ィ匕データより 1音声フレーム分だけ遅延された状態で多重化さ れたマルチチャネルの音声データをチャネルごとに分離し、分離された符号化デー タに損失または誤りが発生して ヽる場合、 L - ch符号ィ匕データおよび R— ch符号ィ匕 データのうち一方のデータ系列を用いて他方のデータ系列における損失または誤り を補償する。このため、受信側で、音声フレームに損失または誤りが発生したときでも 、マルチチャネルの少なくとも一つのチャネルを正しく受信できるようになり、そのチヤ ネルを用いて他のチャネルのフレーム補償を行うことが可能となり、高品質なフレーム 補償を実現することができる。
[0058] あるチャネルの音声フレームを、他のチャネルの音声フレームを用いて復元するこ とが可能となるため、マルチチャネルに含まれる各チャネルのフレーム補償性能を向 上させることができる。前述のような作用効果が実現されると、ステレオ信号により表 現される「音の方向性」を維持することが可能となる。よって、例えば、昨今で広く利用 されている、遠隔地に居る人との電話会議において、聞こえてくる相手の声に臨場感 を持たせることが可能となる。
[0059] なお、本実施の形態では、音声符号ィ匕部 102の後段で片方のチャネルのデータを 遅延させる構成を例にとって説明したが、本実施の形態による効果を実現可能な構 成はこれに限定されない。例えば、音声符号ィ匕部 102の前段で片方のチャネルのデ ータを遅延させるような構成であっても良い。この場合、設定される遅延量は、音声フ レームの単位に限定されない。例えば、遅延量を 1音声フレームよりも短くすることも 可能となる。例えば、 1音声フレームを 20msとすると、遅延量を 0. 5音声フレーム(1 Oms)に設定することができる。
[0060] (実施の形態 2)
図 5は、本発明の実施の形態 2に係る音声データ受信装置における音声復号部の 構成を示すブロック図である。なお、本実施の形態に係る音声データ送信装置およ び音声データ受信装置は、実施の形態 1で説明したものと同一の基本的構成を有し ているため、同一のまたは対応する構成要素には同一の参照符号を付し、その詳細 な説明を省略する。本実施の形態と実施の形態 1との相違点は、音声復号部の内部 構成のみである。
[0061] 図 5に示す音声復号部 118は、フレーム補償部 120を有する。フレーム補償部 120 は、スィッチ部 202、 L— ch復号部 204および R— ch復号部 206を有する。
[0062] スィッチ部 202は、音声データ損失検出部 112から損失フラグが入力されたとき、 損失フラグに示された情報内容に従って、分離部 114および R—ch復号部 206の接 続状態ならびに遅延部 116および L— ch復号部 204の接続状態を切り替える。
[0063] より具体的には、例えば、損失フラグが入力されない場合、分離部 114からの L— c h符号化データが L - ch復号部 204のみに出力されるように、分離部 114の L - ch の出力端を L—ch復号部 204の入力端と接続する。また、損失フラグが入力されな い場合、遅延部 116からの R—ch符号ィ匕データが R—ch復号部 206のみに出力さ れるように、遅延部 116の出力端を R—ch復号部 206の入力端と接続する。 [0064] また、例えば、 L— ch符号ィ匕データに属しフレーム番号 に相当する音声フレーム が損失したことを示す損失フラグが入力された場合、遅延部 116からの R— ch符号 化データのうちフレーム番号 Kに相当する音声フレーム力 R— ch復号部 206だけ でなく L— ch復号部 204にも出力されるように、遅延部 116の出力端を、 L— ch復号 部 204および R—ch復号部 206の両方の入力端と接続する。
[0065] また、例えば、 R— ch符号ィ匕データに属しフレーム番号 Kに相当する音声フレー
2
ムが損失したことを示す損失フラグが入力された場合、分離部 114からの L—ch符号 化データのうちフレーム番号 Kに相当する音声フレーム力 L ch復号部 204だけ
2
でなく R—ch復号部 206にも出力されるように、分離部 114の L— chの出力端を、 R - ch復号部 206および L - ch復号部 204の両方の入力端と接続する。
[0066] L—ch復号部 204は、分離部 114からの L—ch符号化データが入力された場合、 当該 L ch符号化データを復号する。この復号結果を L ch復号音声信号として出 力する。つまり、この復号処理は、通常の音声復号処理である。
[0067] また、 L— ch復号部 204は、遅延部 116からの R—ch符号ィ匕データが入力された 場合、当該 R—ch符号化データを復号する。このように R—ch符号ィ匕データを L c h復号部 204で復号することにより、損失の発生した L ch符号化データに対応する 音声信号を復元することができる。復元された音声信号は、 L— ch復号音声信号とし て出力される。すなわち、この復号処理は、フレーム補償のための音声復号処理で ある。
[0068] R—ch復号部 206は、遅延部 116からの R—ch符号ィ匕データが入力された場合、 当該 R— ch符号化データを復号する。この復号結果を R— ch復号音声信号として出 力する。つまり、この復号処理は、通常の音声復号処理である。
[0069] また、 R—ch復号部 206は、分離部 114からの L— ch符号ィ匕データが入力された 場合、当該 L— ch符号化データを復号する。このように L— ch符号ィ匕データを R— c h復号部 206で復号することにより、損失の発生した R— ch符号化データに対応する 音声信号を復元することができる。復元された音声信号は、 R—ch復号音声信号とし て出力される。すなわち、この復号処理は、フレーム補償のための音声復号処理で ある。 [0070] このように、本実施の形態によれば、送信側においては、 L ch符号化データを R ch符号化データより 1音声フレーム分だけ遅延させるような遅延処理が施されたマ ルチチャネルの音声データを多重化する。一方、受信側においては、 L ch符号化 データ力 ¾—ch符号ィ匕データより 1音声フレーム分だけ遅延された状態で多重化さ れたマルチチャネルの音声データをチャネルごとに分離し、分離された符号化デー タに損失または誤りが発生して ヽる場合、 L - ch符号ィ匕データおよび R— ch符号ィ匕 データのうち一方のデータ系列を用いて他方のデータ系列における損失または誤り を補償する。このため、受信側で、音声フレームに損失または誤りが発生したときでも 、マルチチャネルの少なくとも一つのチャネルを正しく受信できるようになり、そのチヤ ネルを用いて他のチャネルのフレーム補償を行うことが可能となり、高品質なフレーム 補償を実現することができる。
[0071] (実施の形態 3)
図 6は、本発明の実施の形態 3に係る音声データ受信装置における音声復号部の 構成を示すブロック図である。なお、本実施の形態に係る音声データ送信装置およ び音声データ受信装置は、実施の形態 1で説明したものと同一の基本的構成を有し ているため、同一のまたは対応する構成要素には同一の参照符号を付し、その詳細 な説明を省略する。本実施の形態と実施の形態 1との相違点は、音声復号部の内部 構成のみである。
[0072] 図 6に示す音声復号部 118は、フレーム補償部 120を有する。フレーム補償部 120 は、スィッチ部 302、 L— chフレーム補償部 304、 L— ch復号部 306、 R— ch復号部 308、 R—chフレーム補償部 310および相関度判定部 312を有する。
[0073] スィッチ部 302は、音声データ損失検出部 112から損失フラグの入力の有無およ び入力された損失フラグに示された情報内容ならびに相関度判定部 312からの指示 信号の入力の有無に従って、分離部 114ならびに L - ch復号部 306および R - ch 復号部 308の間の接続状態を切り替える。また同様に、遅延部 116ならびに L— ch 復号部 306および R—ch復号部 308の間の接続関係を切り替える。
[0074] より具体的には、例えば、損失フラグが入力されない場合、分離部 114からの L— c h符号ィ匕データが L— ch復号部 306のみに出力されるように、分離部 114の L— ch の出力端を L—ch復号部 306の入力端と接続する。また、損失フラグが入力されな い場合、遅延部 116からの R—ch符号ィ匕データが R—ch復号部 308のみに出力さ れるように、遅延部 116の出力端を R—ch復号部 308の入力端と接続する。
[0075] 上記のとおり、損失フラグが入力されない場合、接続関係は相関度判定部 312から の指示信号に依存しないが、損失フラグが入力された場合は、接続関係は指示信号 にも依存する。
[0076] 例えば、フレーム番号 Kの L ch符号化データが損失したことを示す損失フラグが 入力された場合で、指示信号の入力があつたときは、遅延部 116からのフレーム番 号 Kの R—ch符号化データ力 R—ch復号部 308だけでなく L— ch復号部 306にも 出力されるように、遅延部 116の出力端を、 L— ch復号部 306および R—ch復号部 3 08の両方の入力端と接続する。
[0077] これに対して、フレーム番号 Kの L ch符号化データが損失したことを示す損失フ ラグが入力された場合で、指示信号の入力がないときは、分離部 114の L—chの出 力端と L—ch復号部 306および R—ch復号部 308との間の接続を開放とする。
[0078] また、例えば、フレーム番号 Kの R— ch符号化データが損失したことを示す損失フ
2
ラグが入力された場合で、指示信号の入力があつたときは、分離部 114からのフレー ム番号 Kの L— ch符号化データ力 L— ch復号部 306だけでなく R—ch復号部 308
2
にも出力されるように、分離部 114の L— chの出力端を、 R—ch復号部 308および L — ch復号部 306の両方の入力端と接続する。
[0079] これに対して、フレーム番号 Kの R— ch符号化データが損失したことを示す損失フ
2
ラグが入力された場合で、指示信号の入力がないときは、遅延部 116の出力端と L— ch復号部 306および R—ch復号部 308との間の接続を開放とする。
[0080] L— chフレーム補償部 304および R—chフレーム補償部 310は、 L— chまたは R— chの符号化データが損失したことを示す損失フラグが入力された場合で、指示信号 の入力がないときに、従来の一般的な手法と同様に、同一チャネルの前フレームまで の情報を用いたフレーム補償を行 ヽ、補償データ (符号化データ又は復号信号)を、 L— ch復号部 306および R—ch復号部 308にそれぞれ出力する。
[0081] L—ch復号部 306は、分離部 114からの L—ch符号化データが入力された場合、 当該 L ch符号化データを復号する。この復号結果を L ch復号音声信号として出 力する。つまり、この復号処理は、通常の音声復号処理である。
[0082] また、 L— ch復号部 306は、損失フラグの入力があった場合で、遅延部 116からの R— ch符号ィ匕データが入力されたときは、当該 R— ch符号化データを復号する。こ のように R— ch符号化データを L ch復号部 306で復号することにより、損失の発生 した L ch符号化データに対応する音声信号を復元することができる。復元された音 声信号は、 L ch復号音声信号として出力される。すなわち、この復号処理は、フレ ーム補償のための音声復号処理である。
[0083] さらに、 L— ch復号部 306は、損失フラグの入力があった場合で、 L— chフレーム 補償部 304からの補償データが入力されたときは、次のような復号処理を行う。すな わち、当該補償データとして符号化データが入力された場合はその符号化データを 復号し、補償復号信号が入力された場合はその信号をそのまま出力信号とする。こ のようにしたときも、損失の発生した L ch符号ィ匕データに対応する音声信号を復元 することができる。復元された音声信号は、 L ch復号音声信号として出力される。
[0084] R— ch復号部 308は、遅延部 116からの R—ch符号ィ匕データが入力された場合、 当該 R— ch符号化データを復号する。この復号結果を R— ch復号音声信号として出 力する。つまり、この復号処理は、通常の音声復号処理である。
[0085] また、 R—ch復号部 308は、損失フラグの入力があった場合で、分離部 114からの L— ch符号化データが入力されたときは、当該 L— ch符号化データを復号する。この ように L— ch符号ィ匕データを R—ch復号部 308で復号することにより、損失の発生し た R— ch符号化データに対応する音声信号を復元することができる。復元された音 声信号は、 R— ch復号音声信号として出力される。すなわち、この復号処理は、フレ ーム補償のための音声復号処理である。
[0086] さらに、 R—ch復号部 308は、損失フラグの入力があった場合で、 R—chフレーム 補償部 310からの補償データが入力されたときは、次のような復号処理を行う。すな わち、当該補償データとして符号化データが入力された場合はその符号化データを 復号し、補償復号信号が入力された場合はその信号をそのまま出力信号とする。こ のようにしたときも、損失の発生した R— ch符号ィ匕データに対応する音声信号を復元 することができる。復元された音声信号は、 R— ch復号音声信号として出力される。
[0087] 相関度判定部 312は、 L ch復号音声信号と R— ch復号音声信号との間の相関 度 Corを、次の式(1)を用いて算出する。
[数 1]
Cor = ^' (-i) ' sR' (-i) . · · ( 1 )
/-1
[0088] ここで、 sL ' (i)および sR' (i)はそれぞれ L— ch復号音声信号および R— ch復号音 声信号である。上記の式(1)により、補償フレームの Lサンプル前の音声サンプル値 力 1サンプル前(つまり直前)の音声サンプル値までの区間における相関度 Corが 算出される。
[0089] また、相関度判定部 312は、算出された相関度 Corを所定の閾値と比較する。この 比較の結果、相関度 Corが所定の閾値よりも高い場合は、 L ch復号音声信号と R — ch復号音声信号との間の相関が高いと判定する。そして、損失が生じたときに互 Vヽのチャネルの符号ィ匕データを用いることを指示するための指示信号をスィッチ部 3 02に出力する。
[0090] 一方、相関度判定部 312は、算出された相関度 Corを上記閾値と比較した結果、 相関度 Corが閾値以下の場合は、 L ch復号音声信号および R— ch復号音声信号 の間の相関が低いと判定する。そして、損失が生じたときに同一チャネルの符号ィ匕デ ータを使用させるために、スィッチ部 302への指示信号の出力を行わない。
[0091] このように、本実施の形態によれば、 L ch復号音声信号と R— ch復号音声信号と の間の相関度 Corを所定の閾値と比較し、当該比較の結果に従って、互いのチヤネ ルの符号ィ匕データを用いたフレーム補償を行うか否かを決定するため、チャネル間 の相関が高 、ときにのみ互 、のチャネルの音声データに基づく補償を行うようにする ことができ、相関が低 、ときに互 、のチャネルの音声データを用いてフレーム補償を 行うことによる補償品質の劣化を防止することができる。また、本実施の形態では、相 関が低いときには同一チャネルの音声データに基づく補償を行うため、フレーム補償 の品質を継続的に維持することができる。
[0092] なお、本実施の形態では、相関度判定部 312を、フレーム補償の際に符号ィ匕デ一 タを用いる実施の形態 2におけるフレーム補償部 120に設けた場合を例にとって説 明した。ただし、相関度判定部 312を設けたフレーム補償部 120の構成はこれに限 定されない。例えば、相関度判定部 312を、フレーム補償の際に復号音声を用いる フレーム補償部 120 (実施の形態 1)に設けた場合でも、同様の作用効果を実現する ことができる。
[0093] この場合の構成図を図 7に示す。この場合の動作は、実施の形態 1における図 3で の構成における動作に対して、主にスィッチ部 126の動作が異なる。すなわち、損失 フラグと共に相関度判定部 312からの出力である指示信号の結果によりスィッチ部 1 26における接続状態が切り替わる。例えば、 L— ch符号化データが損失したことを 示す損失フラグが入力された場合でかつ指示信号の入力があつたときは、 L—chフ レーム補償部 304で得られた補償信号と R - chの復号信号とが L - ch重ね合わせ 加算部 130に入力され重ね合わせ加算が行われる。また、 L—ch符号化データが損 失したことを示す損失フラグが入力された場合でかつ指示信号の入力がない場合は 、 L - chフレーム補償部 304で得られた補償信号のみが L - ch重ね合わせ加算部 1 30に入力されそのまま出力される。 R—ch符号ィ匕データに対して損失フラグが入力 された時の動作も前記 R—chの場合と同様である。
[0094] L—chフレーム補償部 304は、フレーム損失フラグの入力があった場合には、損失 フレームの前フレームまでの L—chの情報を用いて従来の一般的な手法と同様なフ レーム補償処理を行 ヽ補償データ (符号化データ又は復号信号)を L ch復号部 12 2へ出力し、 L—ch復号部 122は補償フレームの補償信号を出力する。その際、当 該補償データとして符号化データが入力された場合はその符号化データを用いて復 号し、補償復号信号が入力された場合はその信号をそのまま出力信号とする。また、 L - chフレーム補償部 304で補償処理を行う際には、 L— ch復号部 122における前 フレームまでの復号信号や状態データを用いる、または L—ch重ね合わせ加算部 1 30の前フレームまでの出力信号を用いるようにしても良 、。 R— chフレーム補償部 3 10の動作も L - chの場合と同様である。
[0095] また、本実施の形態では、相関度判定部 312は、所定区間の相関度 Corの算出処 理を行うが、相関度判定部 312における相関度算出処理方法はこれに限定されな!、 [0096] 例えば、 L ch復号音声信号と R— ch復号音声信号との相関度の最大値 Cor— m axを、次の式(2)を用いて算出する方法が挙げられる。この場合、最大値 Cor— max を所定の閾値と比較し、最大値 Cor— maxがその閾値を超過している場合は、チヤ ネル間の相関が高いと判定する。このようにすることで、上記と同様の作用効果を実 現することができる。
[0097] そして、相関が高いと判定された場合は他方のチャネルの符号ィ匕データを用いた フレーム補償が行われる。このとき、フレーム補償に用いる他チャネルの復号音声を 、最大値 Cor— maxが得られるシフト量 (すなわち音声サンプル数)だけシフトさせた 後に用いるようにしても良い。
[0098] 最大値 Cor— maxとなる音声サンプルのシフト量 τ—maxは、次の式(3)を用いる ことにより算出される。そして、 L— chのフレーム補償を行う場合には、シフト量て— m axだけ R—chの復号信号を正の時間方向にシフトした信号を用いる。逆に R— chの フレームの補償を行う場合には、シフト量て _maxだけ L— chの復号信号を負の時 間方向にシフトした信号を用いる。
[数 2]
Cor _ max = max{ J s ' (- - ) · sR' (-i -M - k)} ( k:— M~M)
• · · ( 2 )
[数 3]
L
x _ max = arg max{ ^ sL' (-i - M) · sR' (-i - M - k)} ( k:— M〜M)
… ( 3 )
[0099] ここで、上記の式(2)および(3)において、 sL,(i)および sR, (i)はそれぞれ L— ch 復号音声信号および R— ch復号音声信号である。また、 L + Mサンプル前の音声サ ンプル値から 1サンプル前(つまり直前)の音声サンプル値までの区間中の Lサンプ ル分が算出対象区間となっている。また、—Mサンプル力も Mサンプルの音声サン プル分のシフト量が算出対象範囲となっている。 [0100] これにより、相関度が最大となるシフト量だけシフトさせた他チャネルの音声データ を用いてフレーム補償を行うことができ、補償された音声フレームとその前後の音声 フレームとのフレーム間整合をより正確に取ることができるようになる。
[0101] なお、シフト量 τ—maxは、音声サンプル数単位の整数値であっても、また音声サ ンプル値間の分解能を上げた小数値であっても良い。
[0102] さらに、相関度判定部 312の内部構成に関して、 L— chデータ系列の復号結果と R —chデータ系列の復号結果とを用いて、フレーム補償に用いる他方のデータ系列の 音声データの復号結果に対する振幅補正値を算出する振幅補正値算出部を内部に 有する構成としても良い。この場合、音声復号部 118には、算出した振幅補正値を用 V、て、当該他方のデータ系列の音声データの復号結果の振幅を補正する振幅補正 部が設けられる。そして、他チャネルの音声データを用いてフレーム補償を行う際に 、その補正値を用いてその復号信号の振幅を補正するようにしても良い。なお、振幅 補正値算出部の配置は、音声復号部 118の内部であれば良ぐ相関度判定部 312 の内部には限定されない。
[0103] 振幅値補正を行う場合、例えば、式 (4)の D(g)を最小にするような gを求める。そし て、求められた gの値( = g_opt)を振幅補正値とする。 L chのフレーム補償を行う場 合には、振幅補正値 g_optを R— chの復号信号に乗じた信号を用いる。逆に R— ch のフレームの補償を行う場合には、振幅補正値の逆数 lZg_optを L— chの復号信号 に乗じた信号を用いる。
D(g) = {sL'(-i -M) - g · - - T_max)}2 ■ · · ( 4 )
[0104] ここで、 τ— maxは式(3)で得られた相関度が最大となる時の音声サンプルのシフ ト量である。
[0105] なお、振幅補正値の算出方法は式 (4)に限定されるものでなぐ a)式(5)の D (g)を 最小にするような gをその振幅補正値とする、 b)式 (6)の D (g, k)を最小とするような シフト量 kと gとを求めそのときの gを振幅補正値とする、 c)当該補償フレームの前まで の所定区間に対する L chと R— chとの復号信号のパワーの平方根 (または平均振 幅値)の比を補正値とする、といった方法で算出しても良い。
[数 5]
£)(g) = ^{^(-/) - ^ . ^'(- )}2 … ( 5 )
[数 6]
D(g,k) = {sL'(-i -M) - g - sR'(-i -M - k)}2 ( k : — M〜M)
'一 . . . (6 )
[0106] これにより、他チャネルの音声データを用いてフレーム補償を行う際に、その復号 信号の振幅を補正した後に補償に用いることで、より適切な振幅を有した補償を行う ことができる。
[0107] なお、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路 である LSIとして実現される。これらは個別に 1チップ化されても良いし、一部又は全 てを含むように 1チップィ匕されても良い。
[0108] ここでは、 LSIとした力 集積度の違いにより、 IC、システム LSI、スーパー LSI、ゥ ノレ卜ラ LSIと呼称されることちある。
[0109] また、集積回路化の手法は LSIに限るものではなぐ専用回路又は汎用プロセッサ で実現しても良い。 LSI製造後に、プログラムすることが可能な FPGA (Field
Programmable Gate Array)や、 LSI内部の回路セルの接続や設定を再構成可能なリ コンフィギュラブノレ ·プロセッサーを J用しても良 、。
[0110] さらには、半導体技術の進歩又は派生する別技術により LSIに置き換わる集積回 路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積ィ匕を行って も良い。バイオ技術の適応等が可能性としてありえる。
[0111] 本明細書は、 2004年 6月 2日出願の特願 2004— 165016に基づく。この内容は すべてここに含めておく。
産業上の利用可能性
[0112] 本発明の音声データ送信 Z受信装置および音声データ送信 Z受信方法は、誤り のある音声データや損失した音声データの補償処理が行われる音声通信システム 等において有用である。

Claims

請求の範囲
[1] 第一チャネルに対応する第一データ系列と第二チャネルに対応する第二データ系 列とを含むマルチチャネルの音声データ系列を送信する音声データ送信装置にお いて、
前記第一データ系列を前記第二データ系列より所定の遅延量だけ遅延させる遅延 処理を、前記音声データ系列に対して施す遅延手段と、
前記遅延処理が施された前記音声データ系列を多重化する多重化手段と、 多重化された前記音声データ系列を送信する送信手段と、
を有する音声データ送信装置。
[2] 前記遅延手段は、
所定の音声フレームの単位で前記遅延処理を行う、
請求の範囲 1記載の音声データ送信装置。
[3] 前記音声データ系列を符号化する符号化手段を有し、
前記遅延手段は、
符号化された前記音声データに対して前記遅延処理を施す、
請求の範囲 1記載の音声データ送信装置。
[4] 第一チャネルに対応する第一データ系列と第二チャネルに対応する第二データ系 列とを含むマルチチャネルの音声データ系列であって前記第一データ系列が前記 第二データ系列より所定の遅延量だけ遅延された状態で多重化された前記音声デ ータ系列を受信する受信手段と、
受信された前記音声データ系列をチャネルごとに分離する分離手段と、 分離された前記音声データ系列をチャネルごとに復号する復号手段と、を有し、 前記復号手段は、
分離された前記音声データ系列に損失または誤りが発生している場合、前記第一 データ系列および前記第二データ系列のうち一方のデータ系列を用いて他方のデ ータ系列における前記損失または誤りを補償する補償手段を有する、
音声データ受信装置。
[5] 各データ系列は、フレームを単位とする音声データの系列を成し、 前記補償手段は、
前記他方のデータ系列から前記損失または誤りの発生した音声データの直前まで の音声データを用いて復号した結果と前記一方のデータ系列に属する音声データ の復号結果とを重ね合わせ加算する加算手段を有する、
請求の範囲 4記載の音声データ受信装置。
[6] 前記復号手段は、
前記第一データ系列の復号結果と前記第二データ系列の復号結果との間の相関 度を算出する相関度算出手段と、
算出された相関度を所定の閾値と比較する比較手段と、を有し、
前記補償手段は、
前記比較手段の比較結果に従って、前記補償を行うか否かを決定する、 請求の範囲 4記載の音声データ受信装置。
[7] 前記相関度算出手段は、
前記相関度を最大にする音声サンプルのシフト量を算出するシフト量算出手段を 有し、
前記補償手段は、
算出されたシフト量に基づいて、前記補償を行う、
請求の範囲 6記載の音声データ受信装置。
[8] 前記復号手段は、
前記第一データ系列の復号結果と前記第二データ系列の復号結果とを用いて、フ レーム補償に用いる前記他方のデータ系列の音声データの復号結果に対する振幅 補正値を算出する振幅補正値算出手段と、
前記振幅補正値を用いて前記他方のデータ系列の音声データの復号結果の振幅 を補正する振幅補正手段と、
を有する請求の範囲 7記載の音声データ受信装置。
[9] 各データ系列は、フレームを単位とする音声データの系列を成し、
前記復号手段は、
前記他方のデータ系列に属する音声データのうち前記損失または誤りの発生した 音声データの直後に位置する音声データを復号する場合に、前記補償に用いられ た前記一方のデータ系列の音声データを復号した際に得られる復号状態データを 用いて復号する、
請求の範囲 4記載の音声データ受信装置。
[10] 第一チャネルに対応する第一データ系列と第二チャネルに対応する第二データ系 列とを含むマルチチャネルの音声データ系列を送信する音声データ送信方法にお いて、
前記第一データ系列を前記第二データ系列より所定の遅延量だけ遅延させる遅延 処理を、前記音声データ系列に対して施す遅延ステップと、
前記遅延処理が施された前記音声データ系列を多重化する多重化ステップと、 多重化された前記音声データ系列を送信する送信ステップと、
を有する音声データ送信方法。
[11] 第一チャネルに対応する第一データ系列と第二チャネルに対応する第二データ系 列とを含むマルチチャネルの音声データ系列であって前記第一データ系列が前記 第二データ系列より所定の遅延量だけ遅延された状態で多重化された前記音声デ ータ系列を受信する受信ステップと、
受信した前記音声データ系列をチャネルごとに分離する分離ステップと、 分離した前記音声データ系列をチャネルごとに復号する復号ステップと、を有し、 前記復号ステップは、
分離した前記音声データ系列に損失または誤りが発生している場合、前記第一デ ータ系列および前記第二データ系列のうち一方のデータ系列を用いて他方のデー タ系列における前記損失または誤りを補償する補償ステップを有する、
音声データ受信方法。
PCT/JP2005/009252 2004-06-02 2005-05-20 音声データ送信/受信装置および音声データ送信/受信方法 WO2005119950A1 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
US11/628,045 US8209168B2 (en) 2004-06-02 2005-05-20 Stereo decoder that conceals a lost frame in one channel using data from another channel
AT05741618T ATE444613T1 (de) 2004-06-02 2005-05-20 Vorrichtung und verfahren zum empfangen von audiodaten
JP2006514064A JP4456601B2 (ja) 2004-06-02 2005-05-20 音声データ受信装置および音声データ受信方法
EP05741618A EP1746751B1 (en) 2004-06-02 2005-05-20 Audio data receiving apparatus and audio data receiving method
DE602005016916T DE602005016916D1 (de) 2004-06-02 2005-05-20 Vorrichtung und verfahren zum empfangen von audiodaten
CN2005800178145A CN1961511B (zh) 2004-06-02 2005-05-20 声音数据接收装置及声音数据接收方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004-165016 2004-06-02
JP2004165016 2004-06-02

Publications (1)

Publication Number Publication Date
WO2005119950A1 true WO2005119950A1 (ja) 2005-12-15

Family

ID=35463177

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/009252 WO2005119950A1 (ja) 2004-06-02 2005-05-20 音声データ送信/受信装置および音声データ送信/受信方法

Country Status (7)

Country Link
US (1) US8209168B2 (ja)
EP (1) EP1746751B1 (ja)
JP (1) JP4456601B2 (ja)
CN (1) CN1961511B (ja)
AT (1) ATE444613T1 (ja)
DE (1) DE602005016916D1 (ja)
WO (1) WO2005119950A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2048658A1 (en) * 2006-08-04 2009-04-15 Panasonic Corporation Stereo audio encoding device, stereo audio decoding device, and method thereof
WO2009084226A1 (ja) * 2007-12-28 2009-07-09 Panasonic Corporation ステレオ音声復号装置、ステレオ音声符号化装置、および消失フレーム補償方法
JP2009181050A (ja) * 2008-01-31 2009-08-13 Panasonic Corp Ip電話装置およびそのパケットロス補償方法
JP2009296497A (ja) * 2008-06-09 2009-12-17 Fujitsu Telecom Networks Ltd ステレオ音声信号伝送システム
JP2010072364A (ja) * 2008-09-18 2010-04-02 Toshiba Corp オーディオデータ補間装置及びオーディオデータ補間方法
JP2010102042A (ja) * 2008-10-22 2010-05-06 Ntt Docomo Inc 音声信号出力装置、音声信号出力方法および音声信号出力プログラム
JP2014032411A (ja) * 2013-09-17 2014-02-20 Ntt Docomo Inc 音声信号出力装置、音声信号出力方法および音声信号出力プログラム

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070280209A1 (en) * 2006-06-02 2007-12-06 Yahoo! Inc. Combining selected audio data with a voip stream for communication over a network
JP5302190B2 (ja) * 2007-05-24 2013-10-02 パナソニック株式会社 オーディオ復号装置、オーディオ復号方法、プログラム及び集積回路
CN102301748B (zh) * 2009-05-07 2013-08-07 华为技术有限公司 检测信号延迟的方法、检测装置及编码器
CN102810314B (zh) * 2011-06-02 2014-05-07 华为终端有限公司 音频编码方法及装置、音频解码方法及装置、编解码系统
WO2014108738A1 (en) * 2013-01-08 2014-07-17 Nokia Corporation Audio signal multi-channel parameter encoder
RU2648632C2 (ru) 2014-01-13 2018-03-26 Нокиа Текнолоджиз Ой Классификатор многоканального звукового сигнала
CN106328154B (zh) * 2015-06-30 2019-09-17 芋头科技(杭州)有限公司 一种前端音频处理系统
CN106973355B (zh) * 2016-01-14 2019-07-02 腾讯科技(深圳)有限公司 环绕立体声实现方法和装置
US10224045B2 (en) * 2017-05-11 2019-03-05 Qualcomm Incorporated Stereo parameters for stereo decoding
US10043523B1 (en) * 2017-06-16 2018-08-07 Cypress Semiconductor Corporation Advanced packet-based sample audio concealment
US20190005974A1 (en) * 2017-06-28 2019-01-03 Qualcomm Incorporated Alignment of bi-directional multi-stream multi-rate i2s audio transmitted between integrated circuits
CN108777596B (zh) * 2018-05-30 2022-03-08 上海惠芽信息技术有限公司 一种基于声波的通信方法、通信系统及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10327116A (ja) * 1997-05-22 1998-12-08 Tadayoshi Kato タイムダイバシティシステム
JPH11284582A (ja) * 1998-03-27 1999-10-15 Toshiba Corp ディジタル信号伝送システムとその信号伝送装置
JPH11313011A (ja) * 1998-02-27 1999-11-09 Toshiba Corp ディジタル信号伝送システム及びその信号伝送装置
JP2001144733A (ja) * 1999-11-15 2001-05-25 Nec Corp 音声伝送装置及び音声伝送方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3642982A1 (de) * 1986-12-17 1988-06-30 Thomson Brandt Gmbh System zur uebertragung
JP2746033B2 (ja) * 1992-12-24 1998-04-28 日本電気株式会社 音声復号化装置
SE503547C2 (sv) * 1993-06-11 1996-07-01 Ericsson Telefon Ab L M Anordning och förfarande för döljande av förlorade ramar
SE9500858L (sv) * 1995-03-10 1996-09-11 Ericsson Telefon Ab L M Anordning och förfarande vid talöverföring och ett telekommunikationssystem omfattande dylik anordning
JPH08254993A (ja) * 1995-03-16 1996-10-01 Toshiba Corp 音声合成装置
US5917835A (en) * 1996-04-12 1999-06-29 Progressive Networks, Inc. Error mitigation and correction in the delivery of on demand audio
JP2927242B2 (ja) * 1996-06-28 1999-07-28 日本電気株式会社 音声符号データの誤り処理装置及び誤り処理方法
JP3974712B2 (ja) * 1998-08-31 2007-09-12 富士通株式会社 ディジタル放送用送信・受信再生方法及びディジタル放送用送信・受信再生システム並びにディジタル放送用送信装置及びディジタル放送用受信再生装置
GB9820655D0 (en) * 1998-09-22 1998-11-18 British Telecomm Packet transmission
US6327689B1 (en) * 1999-04-23 2001-12-04 Cirrus Logic, Inc. ECC scheme for wireless digital audio signal transmission
US6728924B1 (en) * 1999-10-21 2004-04-27 Lucent Technologies Inc. Packet loss control method for real-time multimedia communications
US6549886B1 (en) * 1999-11-03 2003-04-15 Nokia Ip Inc. System for lost packet recovery in voice over internet protocol based on time domain interpolation
KR100591350B1 (ko) * 2001-03-06 2006-06-19 가부시키가이샤 엔.티.티.도코모 오디오 데이터 보간장치 및 방법, 오디오 데이터관련 정보작성장치 및 방법, 오디오 데이터 보간 정보 송신장치 및방법, 및 그 프로그램 및 기록 매체
JP4016709B2 (ja) * 2002-04-26 2007-12-05 日本電気株式会社 オーディオデータの符号変換伝送方法と符号変換受信方法及び装置とシステムならびにプログラム
JP4157340B2 (ja) * 2002-08-27 2008-10-01 松下電器産業株式会社 送信装置、受信装置を含む放送システム、受信装置、及びプログラム。
US6985856B2 (en) * 2002-12-31 2006-01-10 Nokia Corporation Method and device for compressed-domain packet loss concealment
US7411985B2 (en) * 2003-03-21 2008-08-12 Lucent Technologies Inc. Low-complexity packet loss concealment method for voice-over-IP speech transmission

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10327116A (ja) * 1997-05-22 1998-12-08 Tadayoshi Kato タイムダイバシティシステム
JPH11313011A (ja) * 1998-02-27 1999-11-09 Toshiba Corp ディジタル信号伝送システム及びその信号伝送装置
JPH11284582A (ja) * 1998-03-27 1999-10-15 Toshiba Corp ディジタル信号伝送システムとその信号伝送装置
JP2001144733A (ja) * 1999-11-15 2001-05-25 Nec Corp 音声伝送装置及び音声伝送方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2048658A1 (en) * 2006-08-04 2009-04-15 Panasonic Corporation Stereo audio encoding device, stereo audio decoding device, and method thereof
EP2048658A4 (en) * 2006-08-04 2012-07-11 Panasonic Corp STEREOAUDIO CODING DEVICE, STEREOAUDIO DECODING DEVICE AND METHOD THEREFOR
WO2009084226A1 (ja) * 2007-12-28 2009-07-09 Panasonic Corporation ステレオ音声復号装置、ステレオ音声符号化装置、および消失フレーム補償方法
US8359196B2 (en) 2007-12-28 2013-01-22 Panasonic Corporation Stereo sound decoding apparatus, stereo sound encoding apparatus and lost-frame compensating method
JP5153791B2 (ja) * 2007-12-28 2013-02-27 パナソニック株式会社 ステレオ音声復号装置、ステレオ音声符号化装置、および消失フレーム補償方法
JP2009181050A (ja) * 2008-01-31 2009-08-13 Panasonic Corp Ip電話装置およびそのパケットロス補償方法
JP2009296497A (ja) * 2008-06-09 2009-12-17 Fujitsu Telecom Networks Ltd ステレオ音声信号伝送システム
JP2010072364A (ja) * 2008-09-18 2010-04-02 Toshiba Corp オーディオデータ補間装置及びオーディオデータ補間方法
JP2010102042A (ja) * 2008-10-22 2010-05-06 Ntt Docomo Inc 音声信号出力装置、音声信号出力方法および音声信号出力プログラム
JP2014032411A (ja) * 2013-09-17 2014-02-20 Ntt Docomo Inc 音声信号出力装置、音声信号出力方法および音声信号出力プログラム

Also Published As

Publication number Publication date
JPWO2005119950A1 (ja) 2008-04-03
ATE444613T1 (de) 2009-10-15
CN1961511B (zh) 2010-06-09
DE602005016916D1 (de) 2009-11-12
US8209168B2 (en) 2012-06-26
EP1746751A4 (en) 2007-09-12
EP1746751B1 (en) 2009-09-30
US20080065372A1 (en) 2008-03-13
CN1961511A (zh) 2007-05-09
JP4456601B2 (ja) 2010-04-28
EP1746751A1 (en) 2007-01-24

Similar Documents

Publication Publication Date Title
JP4456601B2 (ja) 音声データ受信装置および音声データ受信方法
US6985856B2 (en) Method and device for compressed-domain packet loss concealment
CN108701464B (zh) 多个音频信号的编码
US7797162B2 (en) Audio encoding device and audio encoding method
US20070299669A1 (en) Audio Encoding Apparatus, Audio Decoding Apparatus, Communication Apparatus and Audio Encoding Method
US8359196B2 (en) Stereo sound decoding apparatus, stereo sound encoding apparatus and lost-frame compensating method
KR20070092240A (ko) 음성 부호화 장치 및 음성 부호화 방법
KR20190137181A (ko) 다수의 오디오 신호들의 인코딩
US8768691B2 (en) Sound encoding device and sound encoding method
JP2004509367A (ja) 複数チャネル信号の符号化及び復号化
US8787490B2 (en) Transmitting data in a communication system
KR20230035430A (ko) 다수의 오디오 신호들의 디코딩
CN110168637B (zh) 多个音频信号的译码
CN110100280B (zh) 信道间相位差参数的修改
JP2005094356A (ja) 音声信号伝送システム、及び音声信号伝送方法
JP2004102074A (ja) 音声符号化装置、音声復号化装置、音声信号伝送方法及びプログラム
US10242683B2 (en) Optimized mixing of audio streams encoded by sub-band encoding
JP4065383B2 (ja) 音声信号送信装置、音声信号受信装置及び音声信号伝送システム
JP2002196795A (ja) 音声復号装置及び音声符号化・復号装置
Rein et al. Voice quality evaluation for wireless transmission with ROHC (extended version)
Hellerud et al. Robust Transmission of Lossless Audio with Low Delay over IP Networks
JP2003092634A (ja) 音声多重化装置

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2006514064

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 11628045

Country of ref document: US

Ref document number: 2005741618

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 200580017814.5

Country of ref document: CN

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Ref document number: DE

WWP Wipo information: published in national office

Ref document number: 2005741618

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 11628045

Country of ref document: US