WO2006075663A1 - 音声切替装置および音声切替方法 - Google Patents

音声切替装置および音声切替方法 Download PDF

Info

Publication number
WO2006075663A1
WO2006075663A1 PCT/JP2006/300295 JP2006300295W WO2006075663A1 WO 2006075663 A1 WO2006075663 A1 WO 2006075663A1 JP 2006300295 W JP2006300295 W JP 2006300295W WO 2006075663 A1 WO2006075663 A1 WO 2006075663A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio signal
section
enhancement layer
signal
switching device
Prior art date
Application number
PCT/JP2006/300295
Other languages
English (en)
French (fr)
Inventor
Takuya Kawashima
Hiroyuki Ehara
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to CN200680002420.7A priority Critical patent/CN101107650B/zh
Priority to DE602006009215T priority patent/DE602006009215D1/de
Priority to EP06711618A priority patent/EP1814106B1/en
Priority to JP2006552962A priority patent/JP5046654B2/ja
Priority to US11/722,904 priority patent/US8010353B2/en
Publication of WO2006075663A1 publication Critical patent/WO2006075663A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility

Definitions

  • the present invention relates to a voice switching device and a voice switching method that switch a band of a voice signal.
  • scalable speech coding In a technology for hierarchically encoding speech signals, generally referred to as scalable speech coding, even if code data of a certain layer (layer) is lost, the code data of another layer is also stored.
  • the audio signal can be decoded.
  • One type of scalable coding is called band scalable speech coding.
  • band scalable speech code ⁇ a processing layer that encodes and decodes a narrowband signal, a processing layer that performs encoding and decoding to improve the quality and bandwidth of a narrowband signal, Is used.
  • the former processing layer is referred to as a core layer
  • the latter processing layer is referred to as an extension layer.
  • the band scalable voice code is applied to voice data communication on a communication network in which, for example, the transmission band is not guaranteed and encoded data may be partially lost or delayed.
  • both core layer and enhancement layer code data coarrayer encoded data and enhancement layer encoded data
  • coarrayer encoded data and enhancement layer encoded data can be received, and only coarrayer code data can be received. Therefore, in the speech decoding apparatus provided on the receiving side, the decoded speech signal to be output is divided into a narrowband decoded speech signal that can be obtained only from the core layer code data and a wideband obtained from the code data of both the core layer and the enhancement layer. It is necessary to switch between the decoded audio signals.
  • both signals that is, the narrowband decoded audio signal and the wideband decoded audio signal
  • both signals are combined with each other, and then both signals are weighted and added.
  • the mixing ratio of both signals is set to a certain degree (increment or decrement) over time. The two signals are added while changing each other.
  • Patent Document 1 Japanese Patent Laid-Open No. 2000-352999
  • the degree of change in the mixing ratio used for weighted addition of both signals is always constant, so that the listener of the decoded voice may feel uncomfortable depending on the reception situation. May have a sense of variation. For example, if voice switching frequently occurs in a section in which a signal representing stationary background noise is included in the voice signal, it becomes easier for the listener to perceive the change in the sense of unity and band feeling associated with the switching. Therefore, there was a certain limit to the improvement of sound quality.
  • an object of the present invention is to provide a voice switching device and a voice switching method that can improve the quality of decoded voice.
  • the voice switching device of the present invention is a voice switching device that outputs a mixed signal in which a narrowband voice signal and a wideband voice signal are mixed when switching the band of the voice signal to be output.
  • a setting means for variably setting the degree for variably setting the degree.
  • FIG. 1 is a block diagram showing a configuration of a speech decoding apparatus according to an embodiment of the present invention.
  • FIG. 2 is a block diagram showing a configuration of a weighted addition unit according to an embodiment of the present invention.
  • FIG. 3 is a diagram for explaining an example of a change with time of an enhancement layer gain according to an embodiment of the present invention.
  • FIG. 4 is a diagram for explaining another example of the change over time of the enhancement layer gain according to the embodiment of the present invention.
  • FIG. 5 is a block diagram showing an internal configuration of a permissible section detecting unit according to an embodiment of the present invention.
  • FIG. 6 is a block diagram showing an internal configuration of a silent section detecting unit according to an embodiment of the present invention. 7] Block diagram showing the internal configuration of the power fluctuation section detector according to one embodiment of the present invention.
  • FIG. 8 is a block diagram showing an internal configuration of a sound quality change section detecting unit according to one embodiment of the present invention.
  • FIG. 9 is a block diagram showing an internal configuration of an enhancement layer power minute section detector according to an embodiment of the present invention.
  • FIG. 1 is a block diagram showing a configuration of a speech decoding apparatus provided with a speech switching apparatus according to an embodiment of the present invention.
  • the speech decoding apparatus 100 in FIG. 1 includes a core layer decoding unit 102, a core layer frame error detection unit 104, an enhancement layer frame error detection unit 106, an enhancement layer decoding unit 108, an allowable interval detection unit 110, and signal adjustment. Section 112 and weighted addition section 114.
  • Core layer frame error detection section 104 detects whether or not the core layer code data is decodable. Specifically, the core layer frame error detection unit 104 detects a core layer frame error. Then, when a core layer frame error is detected, it is determined that the core layer code data cannot be decoded. The core layer frame error detection result is output to the coarrayer decoding unit 102 and the allowable interval detection unit 110.
  • the core layer frame error refers to an error received during transmission of a frame of the core layer encoded data, a packet loss in packet communication (for example, packet loss on the communication path, packet not received due to jitter, etc.) )
  • a packet loss in packet communication for example, packet loss on the communication path, packet not received due to jitter, etc.
  • For the core layer code key Refers to a state where most or all cannot be used for decryption.
  • the detection of the core layer frame error is realized, for example, by executing the following processing in the core layer frame error detecting unit 104.
  • the core layer frame error detection unit 104 receives error information separately from the core layer code data.
  • the core layer frame error detection unit 104 performs error detection using an error check code such as CRC (Cyclic Redundancy Check) added to the core layer encoded data.
  • CRC Cyclic Redundancy Check
  • the core layer frame error detection unit 104 determines that the core layer code data has not arrived by the decoding time. Alternatively, packet loss or non-arrival is detected.
  • Unit 104 obtains information to that effect from core layer decoding unit 102.
  • the core layer decoding unit 102 receives the core layer encoded data and decodes the core layer encoded data.
  • the core layer decoded audio signal generated by this decoding is output to signal adjustment section 112.
  • the core layer decoded audio signal is a narrowband signal.
  • the core layer decoded audio signal may be used as a final output as it is.
  • the core layer decoding unit 102 outputs a part of the core layer code data or the core layer LSP (Line Spectrum Pair) to the allowable interval detecting unit 110.
  • the core layer LSP is a spectral parameter obtained in the process of coarrayer decoding.
  • the core layer decoding unit 102 outputs the core layer LSP to the permissible interval detecting unit 110 is described as an example, but other spectral parameters obtained in the core layer decoding process and further the process of the core array decoding are described. Other parameters that are not the spectral parameters obtained in step 1 may be output.
  • the core layer decoding unit 102 is included in the core layer code data when a core layer frame error is notified from the core layer frame error detection unit 104 or in the decoding process of the core layer code data.
  • linear prediction coefficients and sound source interpolation are performed using past code information.
  • the core layer decoded audio signal is continuously generated and output.
  • error detection included in the core layer code data is performed.
  • the core layer decoding unit 102 notifies the core layer frame error detecting unit 104 of the information to that effect.
  • Enhancement layer frame error detection section 106 detects whether or not enhancement layer encoded data can be decoded. Specifically, the enhancement layer frame error detection unit 106 detects an enhancement layer frame error. When an enhancement layer frame error is detected, it is determined that the enhancement layer code data cannot be decoded. The enhancement layer frame error detection result is output to enhancement layer decoding section 108 and weighted addition section 114.
  • the enhancement layer frame error refers to most or all of the enhancement layer code data due to an error received during transmission of the enhancement layer encoded data frame or a packet loss in packet communication. This refers to a state that cannot be used for decoding.
  • the detection of the enhancement layer frame error is realized, for example, by executing the following processing in the enhancement layer frame error detection unit 106.
  • the enhancement layer frame error detection unit 106 receives error information separately from the enhancement layer code key data.
  • the enhancement layer frame error detection unit 106 performs error detection using an error check code such as CRC added to the enhancement layer code key data.
  • enhancement layer frame error detection section 106 determines that enhancement layer code key data has not arrived by the decoding time.
  • the extended layer frame error detection unit 106 detects packet loss or non-arrival.
  • an enhancement layer frame error is detected.
  • the detection unit 106 acquires information to that effect from the enhancement layer decoding unit 108.
  • the enhancement layer frame error detection unit 106 detects when a core layer frame error is detected. Judge that an enhancement layer frame error has been detected. In this case, enhancement layer frame error detection section 106 receives an input of the core layer frame error detection result from core layer frame error detection section 104.
  • the enhancement layer decoding unit 108 receives the enhancement layer code data and decodes the enhancement layer encoded data.
  • the enhancement layer decoded speech signal generated by this decoding is output to allowable interval detection section 110 and weighted addition section 114.
  • Enhanced layer decoded sound The voice signal is a broadband signal.
  • the enhancement layer decoding unit 108 is provided with the enhancement layer code key data when the enhancement layer frame error is notified from the enhancement layer frame error detection unit 106 or in the decoding process of the enhancement layer code key data. If it is determined that there is a serious error due to the error detection code included in the code, linear prediction coefficients and excitation interpolation are performed using past coding information. As a result, an enhancement layer decoded audio signal is generated and output as necessary. Also, in the decoding process of the enhancement layer code key data, if it is determined that there is a serious error due to an error detection code included in the enhancement layer coded data, the enhancement layer decoding key unit 108 notifies that fact. Information is notified to enhancement layer frame error detection section 106.
  • Signal adjustment section 112 adjusts the core layer decoded speech signal input from core layer decoding section 102. Specifically, the signal adjustment unit 112 performs upsampling on the core layer decoded audio signal and matches the sampling frequency of the enhancement layer decoded audio signal. In addition, the signal adjustment unit 112 adjusts the delay and phase of the core layer decoded audio signal in order to match the delay and phase to the enhancement layer decoded audio signal.
  • the core layer decoded speech signal that has been subjected to these processes is output to tolerance section detecting section 110 and weighted adding section 114.
  • Permissible section detection section 110 receives the coarrayer frame error detection result input from core layer frame error detection section 104, the core layer decoded speech signal input from signal adjustment section 112, and the input from core layer decoding section 102
  • the enhancement layer decoded speech signal input from the core layer LSP and enhancement layer decoding unit 108 is analyzed, and an allowable period is detected based on the analysis result.
  • the permissible section detection result is output to weighting addition section 114. For this reason, it is possible to limit the period in which the mixing ratio of the core layer decoded audio signal and the enhancement layer decoded audio signal is changed with time to a relatively high period only, and to change the degree of change of the mixing ratio with time. Timing can be controlled.
  • the permissible section is a section in which the influence on the audibility is small even if the band of the output sound signal changes, that is, a section in which the change in the band of the output sound signal is not easily perceived by the listener.
  • the band change of the output audio signal may be perceived by the listener. It is a pancreas section. Therefore, the allowable section is a section that allows a sudden change in the band of the output audio signal.
  • the permissible section detection unit 110 detects a silent section, a power fluctuation section, a sound quality change section, an enhancement layer noise fine section, and the like as permissible sections, and outputs the detection result to the weighted addition section 114. Details of the internal configuration of the permissible section detection unit 110 and processing for detecting the permissible section will be described later.
  • Weighting addition section 114 as an audio switching device switches the band of the output audio signal. Further, when the band of the output audio signal is switched, the weighted addition unit 114 outputs a mixed signal obtained by mixing the core layer audio signal and the enhancement layer audio signal as an output audio signal.
  • the mixed signal is generated by performing weighted calorie calculation of the core layer decoded speech signal input from the signal adjustment unit 112 and the enhancement layer decoded speech signal input from the enhancement layer decoding unit 108. That is, the mixed signal is a weighted sum of the core layer decoded speech signal and the enhancement layer decoded speech signal. Details of weighted addition will be described later.
  • FIG. 5 is a block diagram showing an internal configuration of the allowable section detection unit 110.
  • the permissible section detector 110 includes a core layer decoded speech signal power calculator 501, a silent section detector 502, a single fluctuation section detector 503, a sound quality change section detector 504, an enhancement layer power minute section detector 505, and a permissible section A determination unit 506 is included.
  • Core layer decoded speech signal power calculation section 501 receives the core layer decoded speech signal from core layer decoding section 102, and calculates a core layer decoded speech signal Pc (t) according to the following equation (1). .
  • Pc (t) y Oc (i) * Oc (i) (1)
  • t is the frame number
  • Pc (t) is the power of the core layer decoded audio signal at frame t
  • L-FRAME is the frame length
  • i represents the sample number
  • Oc (i) represents the core layer decoded speech signal.
  • Core layer decoded speech signal power calculation section 501 has a core layer decoded sound obtained by calculation.
  • the voice signal power Pc (t) is output to the silent interval detector 502, the power fluctuation interval detector 503, and the enhancement layer power minute interval detector 505.
  • the silent section detection unit 502 detects a silent section using the core layer decoded speech signal power Pc (t) input from the core layer decoded speech signal power calculation unit 501 and determines the obtained silent section detection result as an allowable section determination. Output to part 506.
  • the power fluctuation interval detection unit 503 detects the power fluctuation interval using the core layer decoded audio signal power Pc (t) input from the core layer decoded audio signal power calculation unit 501, and accepts the obtained power fluctuation interval detection result.
  • the sound quality change interval detection unit 504 detects the sound quality change interval using the core layer frame error detection result input from the core layer frame error detection unit 104 and the core layer LSP input from the core layer decoding unit 102, The obtained sound quality change interval detection result is output to the allowable interval determination unit 506.
  • the enhancement layer power minute section detection unit 505 detects the enhancement layer power minute section using the enhancement layer decoded speech signal input from the enhancement layer decoding unit 108, and obtains the obtained enhancement layer power minute section detection result. Output to allowable section judgment unit 506.
  • the permissible section determination unit 506 Based on the detection results of the silent section detector 502, the power fluctuation section detector 503, the sound quality change section detector 504, and the enhancement layer power micro section detector 505, the permissible section determination unit 506 performs a silent section, a power fluctuation section, and a sound quality. It is determined whether or not the force at which the change interval or the extended layer power minute interval is detected. That is, it is determined whether or not the force is detected in the allowable section, and the allowable section detection result is output as the determination result.
  • FIG. 6 is a block diagram showing an internal configuration of the silent section detection unit 502.
  • the silent section is a section in which the power of the core layer decoded speech signal is very small. In the silent period, even if the gain of the enhancement layer decoded speech signal (in other words, the mixing ratio of the core layer decoded speech signal and the enhancement layer decoded speech signal) is rapidly changed, the change is hardly perceived.
  • the silence period is detected by detecting that the power of the core layer decoded audio signal is equal to or less than a predetermined threshold.
  • the silent section detection unit 502 that performs such detection includes a silent determination threshold storage unit 521 and a silent section determination unit 522.
  • the silence determination threshold storage unit 521 stores a threshold ⁇ necessary for determining a silence interval, and outputs the threshold ⁇ to the silence interval determination unit 522.
  • the silent section determination unit 522 receives the core layer decoded audio signal power Pc (t) input from the core layer decoded audio signal power calculation unit 501. Compared with the threshold value ⁇ , the silent section determination result d (t) is obtained according to the following equation (2). Since the allowable section includes the silent section, the silent section determination result is represented by d (t) in the same way as the allowable section detection result.
  • the silent section determination unit 522 outputs the silent section determination result d (t) to the allowable section determination unit 502.
  • FIG. 7 is a block diagram showing an internal configuration of power fluctuation section detecting section 503.
  • the power fluctuation section is a section in which the noise level of the core layer decoded speech signal (or enhancement layer decoded speech signal) varies greatly.
  • slight changes for example, changes in the timbre of the output audio signal and changes in the band feeling
  • Absent therefore, even if the gain of the enhancement layer decoded audio signal (in other words, the mixing ratio of the core layer decoded audio signal and the enhancement layer decoded audio signal) is rapidly changed, the change is hardly perceived.
  • the difference or ratio is equal to or greater than the threshold value as a result of comparing the difference or ratio between the short-term power and the long-term smoothed power of the core layer decoded speech signal (or enhancement layer decoded speech signal) with a predetermined threshold. It is detected by detecting this.
  • the power fluctuation interval detection unit 503 that performs such detection includes a short-term smoothing coefficient storage unit 531, a short-term smoothing power calculation unit 532, a long-term smoothing coefficient storage unit 533, a long-term smoothing power calculation unit 534, and a determination adjustment.
  • a coefficient storage unit 535 and a power fluctuation section determination unit 536 are provided.
  • the short-term smoothing coefficient storage unit 531 stores the short-term smoothing coefficient ex and outputs the short-term smoothing coefficient ⁇ to the short-term smoothing power calculation unit 532.
  • the short-term smoothing power calculator 532 uses the short-term smoothing coefficient ⁇ and the core layer decoded speech signal power Pc (t) input from the core layer decoded speech signal power calculator 501 according to the following equation (3).
  • the short-term smoothing power Ps (t) of the coarrayer decoded speech signal power Pc (t) is calculated.
  • the short-term smoothing power calculation unit 532 outputs the short-term smoothing power Ps (t) of the calculated core layer decoded speech signal power Pc (t) to the power fluctuation section determination unit 536.
  • the long-term smoothing coefficient storage unit 533 stores the long-term smoothing coefficient
  • the long-term smoothed power calculation unit 53 4 uses the long-term smoothing coefficient
  • the long-term smoothing power calculation unit 534 outputs the long-term smoothing power Pl (t) of the calculated core layer decoded speech signal power Pc (t) to the power fluctuation section determination unit 536.
  • the short-term smoothing coefficient ⁇ and the long-term smoothing coefficient j8 have a relationship of 0.0 ⁇ ⁇
  • the short-term smoothing coefficient a and the long-term smoothing coefficient j8 have a relationship of (0.0 ⁇ ⁇
  • Determination adjustment coefficient storage section 535 stores adjustment coefficient ⁇ for determining a power fluctuation section, and outputs adjustment coefficient ⁇ to power fluctuation section determination section 536.
  • the power fluctuation interval determination unit 536 includes the adjustment coefficient ⁇ , Ps (t) input from the short-term smoothing power calculation unit 532, and long-term smoothing power PI (t) input from the long-term smoothing power calculation unit 534. Is used to obtain the power fluctuation interval determination result d (t) according to the following equation (5). Since the allowable section includes a single fluctuation section, here, the power fluctuation section determination result is represented by d (t) as with the allowable section detection result.
  • the power fluctuation section determination unit 536 outputs the power fluctuation section determination result d (t) to the allowable section determination unit 506.
  • the power fluctuation section is detected by comparing the short-term power and the long-term smoothed power.
  • the power change By determining that the amount is greater than or equal to a predetermined threshold, May be issued.
  • the power fluctuation interval may be detected by determining when the core layer decoded audio signal (or enhancement layer decoded audio signal) rises.
  • FIG. 8 is a block diagram showing an internal configuration of the sound quality change section detecting unit 504.
  • the sound quality change section is a section in which the sound quality of the core layer decoded speech signal (or enhancement layer decoded speech signal) varies greatly.
  • the core layer decoded speech signal (or enhancement layer decoded speech signal) itself is in a state of losing temporal continuity audibly.
  • the gain of the enhancement layer decoded speech signal in other words, the mixing ratio of the core layer decoded speech signal and the enhancement layer decoded speech signal
  • the sound quality change section is detected by detecting a sudden change in the type of the background noise signal included in the core layer decoded speech signal (or enhancement layer decoded speech signal).
  • the sound quality change section is detected by detecting a change in the spectrum parameter (for example, LSP) of the core layer code data. For example, in order to detect changes in LSP, the total distance between each element of the past LSP and each element of the current LSP is compared with a predetermined threshold. Detect that there is.
  • the sound quality change interval detection unit 504 that performs such detection includes an LSP element distance calculation unit 541, an LSP element distance storage unit 542, an LSP element distance change rate calculation unit 543, a sound quality change determination threshold storage unit 544, and a core layer.
  • An error recovery detection unit 545 and a sound quality change section determination unit 546 are provided.
  • the LSP inter-element distance calculation unit 541 uses the core layer LSP input from the core layer decoding unit 102 to calculate the LSP inter-element distance dlsp (t) according to the following equation (6).
  • the LSP element distance dlsp (t) is output to the LSP element distance accumulation unit 542 and the LSP element distance change rate calculation unit 543.
  • the LSP inter-element distance accumulation unit 542 accumulates the LSP inter-element distance dlsp (t) input from the LSP inter-element distance calculation unit 541, and the past (one frame before) inter-LSP inter-element distance dlsp (t- 1) is output to the distance change rate calculation unit 543 between LSP elements.
  • LSP element distance change rate calculator 5 43 calculates the LSP inter-element distance change rate by dividing the LSP inter-element distance dlsp (t) by the past inter-LSP inter-element distance dslp (t-1). The calculated inter-LSP element distance change rate is output to the sound quality change interval determination unit 546.
  • the sound quality change determination threshold storage unit 544 stores a threshold A necessary for determination of the sound quality change section, and outputs the threshold A to the sound quality change section determination unit 546.
  • the sound quality change interval determination unit 546 uses the threshold A and the LSP element distance change rate calculation unit 543 to input the LSP element distance change rate according to the following equation (7), and the sound quality change interval: The judgment result d (t) is obtained.
  • lsp is the LSP coefficient of the core layer
  • M is the analysis order of the linear prediction coefficient of the core layer
  • m is the element number of the LSP
  • dlsp is the distance between adjacent elements.
  • the sound quality change interval determination result is represented by d (t) in the same manner as the allowable interval detection result.
  • the sound quality change section determination unit 546 outputs the sound quality change section determination result d (t) to the allowable section determination unit 506.
  • the core layer error recovery detection unit 545 detects that a frame error has been recovered (normal reception) based on the core layer frame error detection result input from the core layer frame error detection unit 102, the sound quality is detected.
  • the change interval determination unit 546 is notified, and the sound quality change interval determination unit 546 determines a predetermined number of frames after the return as the sound quality change interval. That is, a predetermined number of frames after the interpolation processing is performed on the core layer decoded speech signal due to the coarrayer frame error is determined as the sound quality change section.
  • FIG. 9 is a block diagram showing an internal configuration of enhancement layer power minute section detector 505
  • the enhancement layer power minute section is a section in which the power of the enhancement layer decoded speech signal is very small.
  • the extended layer power minute section even if the bandwidth of the output audio signal is changed rapidly, the change is difficult to perceive. Therefore, even if the gain of the enhancement layer decoded speech signal (in other words, the mixing ratio of the core layer decoded speech signal and the enhancement layer decoded speech signal) is rapidly changed, the change is hardly perceived.
  • Extended layer power minute section is This is detected by detecting that the power of the enhancement layer decoded speech signal is equal to or less than a predetermined threshold.
  • the enhancement layer power minute section is detected by detecting that the ratio of the power of the enhancement layer decoded speech signal to the power of the core layer decoded speech signal is not more than a predetermined value.
  • the enhancement layer power minute section detection unit 505 that performs such detection includes an enhancement layer decoded speech signal power calculation unit 551, an enhancement layer power ratio calculation unit 552, an enhancement layer power minute determination threshold storage unit 553, an enhancement layer power minute section.
  • a determination unit 554 is included.
  • the enhancement layer decoded speech signal power calculation section 551 uses the enhancement layer decoded signal input from the enhancement layer decoding section 108 and uses the enhancement layer decoded signal according to the following equation (8): t) is calculated.
  • Pe (t) J Oe (i) * Oe (i) (8)
  • Oe (i) represents an enhancement layer decoded speech signal
  • Pe (t) represents an enhancement layer decoded speech signal part.
  • the enhancement layer decoded speech signal power Pe (t) is output to the enhancement layer power ratio calculation unit 552 and enhancement layer power minute section determination unit 554.
  • Enhancement layer power ratio calculation section 552 divides this enhancement layer decoded speech signal power Pe (t) by the core layer decoded speech signal Pc (t) input from core layer decoded speech signal power computation section 501. Thus, the enhancement layer power ratio is calculated. The enhancement layer power ratio is output to enhancement layer power minute section determination unit 554.
  • Enhancement layer power minute determination threshold storage section 553 stores thresholds B and C necessary for determination of enhancement layer power minute sections, and outputs thresholds B and C to enhancement layer power minute section determination section 554. .
  • the enhancement layer power minute section determination unit 554 includes an enhancement layer decoded speech signal power Pe (t) input from the enhancement layer decoded speech signal power calculation unit 551, an enhancement layer power ratio input from the enhancement layer power ratio calculation unit 552, Using the threshold values B and C input from the enhancement layer power minute determination threshold storage unit 553, an enhancement layer power minute section determination result d (t) is obtained according to the following equation (9). Since the permissible section includes the enhancement layer no-minor section, here, the judgment result of the enhancement layer power minute section is allowed. It is expressed by d (t) as in the section detection result. The enhancement layer power minute section determination unit 554 outputs the enhancement layer power minute section determination result d (t) to the allowable section determination unit 506.
  • the weighting calorie calculation unit 114 changes the mixture ratio relatively abruptly only in a section where the change in the bandwidth of the audio signal is difficult to perceive. At the same time, the mixing ratio is changed relatively slowly in the section where the change in the band of the audio signal is easily perceived. Therefore, if the listener feels uncomfortable with the audio signal, the possibility of having a sense of variation can be reliably reduced.
  • FIG. 2 is a block diagram showing an internal configuration of the weighted addition unit 114.
  • the weighted addition unit 114 includes an enhancement layer decoded speech gain controller 120, an enhancement layer decoded speech amplifier 122, and an adder 124.
  • Enhancement layer decoded speech gain controller 120 serving as setting means determines the gain of the enhancement layer decoded speech signal (hereinafter referred to as "enhancement layer gain") based on the enhancement layer frame error detection result and the allowable interval detection result. Control.
  • the degree of change with time of the gain of the enhancement layer decoded speech signal is variably set. Thereby, the mixing ratio when the core layer decoded audio signal and the enhancement layer decoded audio signal are mixed is variably set.
  • the enhancement layer decoded speech gain controller 120 does not control the gain of the core layer decoded speech signal (hereinafter referred to as "core layer gain”), and does not perform core layer decoded speech when mixed with the enhancement layer decoded speech signal.
  • the gain of the signal is fixed at a constant value. Therefore, the mixing ratio can be variably set more easily than when the gains of both signals are variably set.
  • the enhancement layer gain but also the core layer gain may be controlled.
  • Enhancement layer decoded speech amplifier 122 is controlled by enhancement layer decoded speech gain controller 120.
  • the controlled gain is multiplied by the enhancement layer decoded speech signal input from enhancement layer decoding section 108.
  • the enhancement layer decoded speech signal multiplied by the gain is output to adder 124.
  • Adder 124 adds the enhancement layer decoded speech signal input from enhancement layer decoded speech amplifier 122 and the core layer decoded speech signal input from signal adjustment section 112. Thereby, the core layer decoded audio signal and the enhancement layer decoded audio signal are mixed to generate a mixed signal.
  • the generated mixed signal becomes an output speech signal of speech decoding apparatus 100. That is, the combination of the enhancement layer decoded speech amplifier 122 and the adder 124 mixes the core layer decoded speech signal and the enhancement layer decoded speech signal while changing the mixing ratio of the core layer decoded speech signal and the enhancement layer decoded speech signal over time.
  • a mixing unit for obtaining a mixed signal is configured.
  • enhancement layer decoded speech gain controller 120 of weighted addition section 114 enhancement layer gain is attenuated when enhancement layer code key data cannot be received, and increases when enhancement layer code key data starts to be received. To be controlled.
  • the enhancement layer gain is adaptively controlled in synchronization with the state of the core layer decoded speech signal or enhancement layer decoded speech signal.
  • variable layer gain variable setting operation in enhancement layer decoded speech gain controller 120 will be described.
  • the gain of the core layer decoded audio signal is fixed! /. Therefore, when the enhancement layer gain and the degree of change over time are changed by enhancement layer decoded audio gain controller 120, The mixing ratio of the core layer decoded audio signal and the extended layer decoded audio signal and the degree of change with time are changed.
  • the enhancement layer decoded speech gain controller 120 includes the enhancement layer frame error detection result e (t) input from the enhancement layer frame error detection unit 106 and the allowable interval detection result d input from the allowable interval detection unit 110. and (t) is used to determine the enhancement layer gain g (t).
  • the extended layer gain g (t) is determined by the following equations (10) to (12).
  • g (t) g (t- l) + s (t) , 0.0 ⁇ g (t—l) + s (t) ⁇ l.0-(11)
  • s (t) represents an increase / decrease value of the enhancement layer gain.
  • the increase / decrease value s (t) is determined by the following equations (13) to (16) according to the enhancement layer frame error detection result e (t) and the allowable interval detection result d (t).
  • each of the functions g (t), s (t), and d (t) described above is expressed in units of frames, but may be expressed in units of samples.
  • the numerical values used in the above formulas (10) to (20) are merely examples, and other numerical values may be used.
  • a function that linearly increases or decreases the enhancement layer gain is used, but any function that monotonously increases or decreases the enhancement layer gain can be used.
  • the background noise signal is included in the coarrayer decoded audio signal, the core layer decoded audio signal is used to determine the audio signal to background noise signal ratio, etc., and the enhancement layer gain is increased or decreased according to the ratio. Minutes may be controlled appropriately.
  • FIG. 3 is a diagram for explaining a first example of change with time of the enhancement layer gain
  • FIG. 4 is a diagram for explaining a second example of change with time of the enhancement layer gain.
  • FIG. 3B shows whether or not the enhancement layer encoded data can be received.
  • An enhancement layer frame error is detected in the section from time T1 to time T2, the section from time T6 to time T8, and the section after time T10, and the enhancement layer frame error is detected in the other sections. Absent.
  • FIG. 3C shows the permissible section detection result.
  • the interval from time T3 to time T5 and the interval from time T9 to time T11 are detected tolerance intervals. In other sections, the allowable section is detected!
  • FIG. 3A shows enhancement layer gain.
  • the enhancement layer gain is gradually reduced. Since the enhancement layer frame error is no longer detected at time T2, the enhancement layer gain is now increased.
  • the period from time T2 to time T3 is not an allowable period. Therefore, the enhancement layer gain is only slightly increased. The rise is relatively modest.
  • the section from time T3 to time T5 is an allowable section. Therefore, the increase in the enhancement layer gain is large, and the increase in the enhancement layer gain is relatively steep. As a result, it is possible to prevent the band change from being perceived in the section from time T2 to time T3.
  • the band change can be accelerated while maintaining a state in which the band change is hardly perceived, which can contribute to the appearance of a wide band, and the subjective quality can be improved.
  • the enhancement layer gain is increased.
  • the section from time T8 to time T10 since the enhancement layer frame error is not detected, the enhancement layer gain is increased.
  • the section from time T8 to time T10 is not an allowable section. Therefore, the increase in the enhancement layer gain is suppressed to a relatively gradual state.
  • the sections from time T9 to time T10 are allowable sections. Therefore, the increase in enhancement layer gain is relatively steep.
  • FIG. 4B shows whether or not the enhancement layer encoded data can be received.
  • An enhancement layer frame error has been detected in the section from time T21 to time T22, in the section from time T24 to time T27, in the section from time T28 to time T30, and in the section after time T31.
  • An enhancement layer frame error is not detected.
  • FIG. 4C shows the permissible section detection result. The interval from time T23 to time T26 is the detected allowable interval. In other sections, no allowable section has been detected.
  • FIG. 4A shows enhancement layer gain.
  • the frequency of enhancement layer frame errors being detected is higher than in the first example. Therefore, the frequency of conversion of the increase / decrease of the enhancement layer gain is high.
  • the enhancement layer gain increases from time T22, decreases from time T24, increases from time T27, decreases from time T28, power increases at time T30, and decreases from time T31.
  • the allowable interval is only the interval from time T23 to time T26. In other words, in the section after time T26, the degree of change in the enhancement layer gain is controlled to be small, and the change in the enhancement layer gain is suppressed to a relatively gentle state.
  • the increase in the enhancement layer gain in the section from time T27 to time 28 and in the section from time T30 to time T31 is relatively moderate.
  • the decrease in the expansion layer gain in the interval up to is relatively gradual. As a result, it is possible to prevent the listener from having a sense of fluctuation when the band change frequently occurs.
  • the band switching is performed quickly in the permissible section, so that changes in the power of the core layer decoded speech signal and the fluctuations in the total decoded speech that can occur due to the band switching. A feeling can be eased.
  • the output time of the mixed signal is changed as the degree of change of the enhancement layer gain with time is changed. For this reason, when the degree of change of the mixing ratio with time is changed, it is possible to prevent the loudness, discontinuity, and discontinuity of the band feeling from occurring.
  • the core layer decoded audio signal that is, the narrowband audio signal
  • the enhancement layer decoded audio signal that is, the wideband audio signal
  • the band scalable speech coding scheme that can be employed is not limited to that described in the present embodiment.
  • the wideband decoded speech signal is batch-decoded using both the core layer encoded data and the enhanced layer encoded data, and the core layer decoded speech signal is used when an enhancement layer frame error occurs.
  • the configuration of the present embodiment can also be applied to such a system.
  • overlapping processing is performed so that both the core layer decoded speech and the enhancement layer decoded speech are faded in or faded out.
  • the speed of fade-in or fade-out is controlled in accordance with the above-described allowable section detection result. As a result, it is possible to obtain decoded speech in which deterioration of sound quality is suppressed.
  • the configuration for detecting the interval allowing the change in the band is applied to the speech codec apparatus to which the band scalable speech codec method is applied. It may be provided.
  • the speech coding apparatus suspends band switching (that is, switching to narrowband power or wideband or switching to wideband power or narrowband) in a section other than the section that allows the band change, and changes the band. Bandwidth switching is executed only in the section that allows When the speech encoded by the speech encoding device is decoded by the speech decoding device, even if the speech decoding device does not have a band switching function, the listener feels uncomfortable or fluctuates with respect to the decoded speech. The possibility of having a feeling can be reduced.
  • Each functional block used in the description of each of the above embodiments is typically realized as an LSI which is an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include a part or all of them.
  • IC integrated circuit
  • system LSI system LSI
  • super LSI super LSI
  • non-linear LSI depending on the difference in the power density of LSI.
  • the method of circuit integration is not limited to LSI's, and implementation using dedicated circuitry or general purpose processors is also possible. It is also possible to use a field programmable gate array (FPGA) that can be programmed after LSI manufacturing and a reconfigurable processor that can reconfigure the connection and settings of circuit cells inside the LSI.
  • FPGA field programmable gate array
  • a reconfigurable processor that can reconfigure the connection and settings of circuit cells inside the LSI.
  • a first aspect of the present invention is an audio switching device, which outputs a mixed signal in which a narrowband audio signal and a wideband audio signal are mixed when the band of the output audio signal is switched.
  • a voice switching device wherein the narrowband voice signal and the wideband voice signal are mixed while the mixing ratio of the narrowband voice signal and the wideband voice signal is changed over time to obtain the mixed signal.
  • setting means for variably setting the degree of change of the mixing ratio with time.
  • the second aspect of the invention includes a detection unit that detects a specific section in a period in which the narrowband audio signal or the wideband audio signal is obtained.
  • the specific section is detected, the degree is increased, and when the specific section is not detected, the degree is decreased.
  • the period in which the degree of change in the mixing ratio with time is relatively high can be limited to a specific section in the period in which the audio signal is obtained, and the change in the mixing ratio with time can be reduced.
  • the timing of changing the degree can be controlled.
  • a third aspect of the present invention employs a configuration in which, in the above configuration, the detection means detects, as the specific section, a section that allows a sudden change of a predetermined level or more in a band of the audio signal.
  • a fourth aspect of the present invention employs a configuration in which, in the above configuration, the detection means detects a silent section as the specific section.
  • a fifth aspect of the present invention employs a configuration in which, in the above configuration, the detection means detects a section where the power of the narrowband audio signal is a predetermined level or less as the specific section.
  • a sixth aspect of the present invention employs a configuration in which, in the above configuration, the detection means detects a section where the power of the wideband audio signal is a predetermined level or less as the specific section.
  • the detection unit specifies the section in which the power level of the wideband audio signal with respect to the power of the narrowband audio signal is equal to or lower than a predetermined level. It detects as a section.
  • An eighth aspect of the present invention employs a configuration in which, in the above configuration, the detection means detects, as the specific section, a section in which power fluctuation of the narrowband audio signal is equal to or higher than a predetermined level.
  • a ninth aspect of the present invention employs a configuration in which, in the above configuration, the detection means detects a rising edge of the narrowband audio signal as the specific section.
  • a tenth aspect of the present invention employs a configuration in which, in the above configuration, the detection means detects a section in which a fluctuation in power of the wideband audio signal is a predetermined level or more as the specific section.
  • An eleventh aspect of the present invention employs a configuration in which, in the above configuration, the detection means detects a rising edge of the wideband audio signal.
  • a twelfth aspect of the present invention employs a configuration in which, in the above configuration, the detection means detects, as the specific section, a section in which the type of background noise signal included in the narrowband audio signal changes.
  • a thirteenth aspect of the present invention employs a configuration in which, in the above configuration, the detection means detects, as the specific section, a section in which the type of background noise signal included in the broadband audio signal changes.
  • a fourteenth aspect of the present invention employs a configuration in which, in the above configuration, the detection means detects a section in which a change in a spectral parameter of the narrowband speech signal is a predetermined level or more as the specific section.
  • a fifteenth aspect of the present invention employs a configuration in which, in the above configuration, the detection means detects a section in which a change in spectrum parameter of the wideband audio signal is equal to or higher than a predetermined level as the specific section.
  • a sixteenth aspect of the present invention employs a configuration in which, in the above configuration, the detection means detects a section after interpolation processing is performed on the narrowband audio signal as the specific section.
  • the seventeenth aspect of the present invention employs a configuration in which, in the above configuration, the detection means detects a section after the interpolation processing is performed on the wideband audio signal as the specific section.
  • the mixing ratio can be changed relatively abruptly only in a section where it is difficult to perceive a change in the band of the audio signal, and in a section where a change in the band of the sound signal is easily perceived,
  • the mixing ratio can be changed relatively slowly, and the possibility that the listener will feel uncomfortable or fluctuating with the audio signal can be reliably reduced.
  • the setting means fixes a gain of the narrowband audio signal, while varying a degree of change V ⁇ ⁇ of the wideband audio signal with time V ⁇ . Use a configuration to set.
  • the mixing ratio variable setting can be easily performed as compared with the case where the degree of change with time of the gains of both signals is variably set.
  • the setting means changes the output time of the mixed signal.
  • a twentieth aspect of the present invention is a communication terminal device, and this device has a configuration including the voice switching device having the above configuration.
  • a twenty-first aspect of the present invention is an audio switching method, which outputs a mixed signal in which a narrowband audio signal and a wideband audio signal are mixed when the band of the output audio signal is switched.
  • the degree of change in the mixing ratio that changes with time when a narrowband audio signal and a wideband audio signal are mixed is variably set, the listener can feel uncomfortable with the audio signal. The possibility of having a sense of variation can be reduced, and sound quality can be improved.
  • the voice switching device and voice switching method of the present invention can be applied to switching of a band of a voice signal.

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

 復号信号の音質を向上することができる音声切替装置を開示する。この装置において、重み付け加算部114は、出力する音声信号の帯域を切り替えるときに、狭帯域音声信号および広帯域音声信号が混合された混合信号を出力する。拡張レイヤ復号音声増幅器122および加算器124から成る混合部は、狭帯域音声信号および広帯域音声信号の混合比を経時的に変化させながら、狭帯域音声信号および広帯域音声信号を混合して、混合信号を得る。拡張レイヤ復号音声利得制御器120は、混合比の経時的な変化の度合いを可変設定する。

Description

音声切替装置および音声切替方法
技術分野
[0001] 本発明は、音声信号の帯域を切り替える音声切替装置および音声切替方法に関 する。
背景技術
[0002] 一般にスケーラブル音声符号化と呼ばれる、階層的に音声信号を符号化する技術 においては、ある階層(レイヤ)の符号ィ匕データが失われても他の階層の符号ィ匕デ一 タカも音声信号を復号することができる。スケーラブル符号化の中には、帯域スケー ラブル音声符号化と呼ばれるものがある。帯域スケーラブル音声符号ィ匕では、狭帯 域信号に対して符号化、復号化を行う処理層と、狭帯域信号を高品質化、広帯域化 させるための符号化、復号化を行う処理層と、が用いられる。以下、前者の処理層を コアレイヤと言い、後者の処理層を拡張レイヤと言う。
[0003] 帯域スケーラブル音声符号ィ匕を、例えば、伝送帯域が保証されず符号化データが 部分的に消失したり遅延したりし得る通信ネットワーク上での音声データ通信に適用 した場合、受信側では、コアレイヤおよび拡張レイヤの双方の符号ィ匕データ(コアレイ ャ符号化データおよび拡張レイヤ符号化データ)を受信できるときもあれば、コアレイ ャ符号ィ匕データのみを受信できるときもある。したがって、受信側に設けられた音声 復号装置では、出力する復号音声信号を、コアレイヤ符号ィ匕データのみ力 得られ る狭帯域の復号音声信号とコアレイヤおよび拡張レイヤの双方の符号ィヒデータから 得られる広帯域の復号音声信号との間で切り替える必要がある。
[0004] 狭帯域復号音声信号と広帯域復号音声信号とをスムーズに切り替えて、音声の大 きさの不連続性や帯域の広がり感 (帯域感)の不連続性を防止するための手法として は、例えば特許文献 1に記載されたものがある。この文献に記載された音声切替装 置では、両信号 (つまり、狭帯域復号音声信号および広帯域復号音声信号)のサン プリング周波数、遅延および位相を合わせてから、両信号を重み付け加算する。重 み付け加算にお 、ては、両信号の混合比を一定の度合 、 (増分または減分)で経時 的に変化させながら、両信号を加算する。そして、出力する信号が、狭帯域復号音 声信号から広帯域復号音声信号に切り替えられるとき、あるいは、広帯域復号音声 信号から狭帯域復号音声信号に切り替えられるとき、狭帯域復号音声信号の出力お よび広帯域復号音声信号の出力の間に、重み付け加算信号の出力が行われる。 特許文献 1:特開 2000— 352999号公報
発明の開示
発明が解決しょうとする課題
[0005] し力しながら、上記従来の音声切替装置においては、両信号の重み付け加算に用 いる混合比の変化の度合いが常に一定であるため、受信状況によっては、復号音声 の受聴者が違和感や変動感を持つことがある。例えば、定常的な背景雑音を表す信 号が音声信号に含まれている区間で音声切替が頻繁に発生すると、切替に伴うパヮ 一や帯域感の変化が受聴者に感じ取られやすくなる。したがって、音質の向上に一 定の限界があった。
[0006] よって、本発明の目的は、復号音声の音質を向上することができる音声切替装置 および音声切替方法を提供することである。
課題を解決するための手段
[0007] 本発明の音声切替装置は、出力する音声信号の帯域を切り替えるときに、狭帯域 音声信号および広帯域音声信号が混合された混合信号を出力する音声切替装置 であって、前記狭帯域音声信号および前記広帯域音声信号の混合比を経時的に変 化させながら前記狭帯域音声信号および前記広帯域音声信号を混合して、前記混 合信号を得る混合手段と、前記混合比の経時的な変化の度合 、を可変設定する設 定手段と、を有する構成を採る。
発明の効果
[0008] 本発明によれば、狭帯域復号音声信号と広帯域復号音声信号とをスムーズに切り 替えることができ、従って復号音声の音質を向上することができる。
図面の簡単な説明
[0009] [図 1]本発明の一実施の形態に係る音声復号装置の構成を示すブロック図 [図 2]本発明の一実施の形態に係る重み付け加算部の構成を示すブロック図
[図 3]本発明の一実施の形態に係る拡張レイヤ利得の経時変化の例を説明するため の図
[図 4]本発明の一実施の形態に係る拡張レイヤ利得の経時変化の他の例を説明する ための図
[図 5]本発明の一実施の形態に係る許容区間検出部の内部構成を示すブロック図 [図 6]本発明の一実施の形態に係る無音区間検出部の内部構成を示すブロック図 [図 7]本発明の一実施の形態に係るパワー変動区間検出部の内部構成を示すブロッ ク図
[図 8]本発明の一実施の形態に係る音質変化区間検出部の内部構成を示すブロック 図
[図 9]本発明の一実施の形態に係る拡張レイヤパワー微小区間検出部の内部構成を 示すブロック図 発明を実施するための最良の形態
[0010] 以下、本発明の実施の形態について、図面を用いて詳細に説明する。
[0011] 図 1は、本発明の一実施の形態に係る音声切替装置を備えた音声復号装置の構 成を示すブロック図である。図 1の音声復号装置 100は、コアレイヤ復号ィ匕部 102、コ ァレイヤフレーム誤り検出部 104、拡張レイヤフレーム誤り検出部 106、拡張レイヤ復 号ィ匕部 108、許容区間検出部 110、信号調整部 112、および重み付け加算部 114 を有する。
[0012] コアレイヤフレーム誤り検出部 104は、コアレイヤ符号ィ匕データが復号可能力否か を検出する。具体的には、コアレイヤフレーム誤り検出部 104はコアレイヤフレーム誤 りを検出する。そして、コアレイヤフレーム誤りが検出されたときに、コアレイヤ符号ィ匕 データが復号不可能であると判断する。コアレイヤフレーム誤り検出結果は、コアレイ ャ復号ィ匕部 102および許容区間検出部 110に出力される。
[0013] ここで、コアレイヤフレーム誤りとは、コアレイヤ符号化データのフレームが送信途中 で受けた誤りや、パケット通信におけるパケットロス (例えば、通信路上でのパケット破 棄、ジッタによるパケット未着など)などの理由によってコアレイヤ符号ィ匕データのほと んどまたは全てを復号に用いることができな 、状態を指す。
[0014] コアレイヤフレーム誤りの検出は、例えば下記の処理をコアレイヤフレーム誤り検出 部 104で実行することにより実現される。例えば、コアレイヤフレーム誤り検出部 104 はコアレイヤ符号ィ匕データとは別に誤り情報を受信する。あるいは、コアレイヤフレー ム誤り検出部 104はコアレイヤ符号化データに付加された CRC (Cyclic Redundancy Check)などの誤り検査符号を用いて誤り検出を行う。あるいはコアレイヤフレーム誤り 検出部 104は、復号時間までにコアレイヤ符号ィ匕データが未着であることを判断する 。あるいは、パケットロスや未着を検知する。あるいは、コアレイヤ復号ィ匕部 102での コアレイヤ符号ィ匕データの復号過程において、コアレイヤ符号化データ内に含まれ る誤り検出符号などにより重大な誤りが検出されたときに、コアレイヤフレーム誤り検 出部 104はその旨の情報をコアレイヤ復号ィ匕部 102から取得する。
[0015] コアレイヤ復号ィ匕部 102は、コアレイヤ符号ィ匕データを受信して、そのコアレイヤ符 号化データを復号する。この復号によって生成されたコアレイヤ復号音声信号は、信 号調整部 112に出力される。コアレイヤ復号音声信号は、狭帯域の信号である。な お、このコアレイヤ復号音声信号は、そのまま最終出力として用いられても良い。また コアレイヤ復号ィ匕部 102は、コアレイヤ符号ィ匕データの一部もしくはコアレイヤ LSP ( Line Spectrum Pair)を許容区間検出部 110に出力する。コアレイヤ LSPは、コアレイ ャ復号の過程で得られたスペクトルパラメータである。ここでは、コアレイヤ復号ィ匕部 102が許容区間検出部 110にコアレイヤ LSPを出力する場合を例にとって説明して いるが、コアレイヤ復号の過程で得られる他のスペクトルパラメータ、さらにはコアレイ ャ復号の過程で得られるスペクトルパラメータではない他のパラメータを出力するよう にしても良い。
[0016] コアレイヤ復号化部 102は、コアレイヤフレーム誤りがコアレイヤフレーム誤り検出 部 104から通知された場合や、コアレイヤ符号ィ匕データの復号過程において、コアレ ィャ符号ィ匕データ内に含まれる誤り検出符号などにより重大な誤りがあると判定され た場合は、過去の符号ィ匕情報などを利用して線形予測係数および音源の補間など を行う。これによつて、コアレイヤ復号音声信号を生成し出力し続ける。また、コアレイ ャ符号ィ匕データの復号過程において、コアレイヤ符号ィ匕データ内に含まれる誤り検 出符号などにより重大な誤りがあると判定された場合、コアレイヤ復号ィ匕部 102は、そ の旨の情報をコアレイヤフレーム誤り検出部 104に通知する。
[0017] 拡張レイヤフレーム誤り検出部 106は、拡張レイヤ符号化データが復号可能か否 かを検出する。具体的には拡張レイヤフレーム誤り検出部 106は、拡張レイヤフレー ム誤りを検出する。そして、拡張レイヤフレーム誤りが検出されたときに、拡張レイヤ 符号ィ匕データが復号不可能であると判断する。拡張レイヤフレーム誤り検出結果は、 拡張レイヤ復号ィ匕部 108および重み付け加算部 114に出力される。
[0018] ここで、拡張レイヤフレーム誤りとは、拡張レイヤ符号化データのフレームが送信途 中で受けた誤りや、パケット通信におけるパケットロスなどの理由によって拡張レイヤ 符号ィ匕データのほとんどまたは全てを復号に用いることができない状態を指す。
[0019] 拡張レイヤフレーム誤りの検出は、例えば下記の処理を拡張レイヤフレーム誤り検 出部 106で実行することにより実現される。例えば、拡張レイヤフレーム誤り検出部 1 06は拡張レイヤ符号ィ匕データとは別に誤り情報を受信する。あるいは拡張レイヤフレ ーム誤り検出部 106は、拡張レイヤ符号ィ匕データに付加された CRCなどの誤り検査 符号を用いて誤り検出を行う。あるいは拡張レイヤフレーム誤り検出部 106は、復号 時間までに拡張レイヤ符号ィ匕データが未着であることを判断する。ある 、は拡張レイ ャフレーム誤り検出部 106は、パケットロスや未着を検知する。あるいは、拡張レイヤ 復号ィ匕部 108での拡張レイヤ符号ィ匕データの復号過程において、拡張レイヤ符号 化データ内に含まれる誤り検出符号などにより重大な誤りが検出されたときに、拡張 レイヤフレーム誤り検出部 106はその旨の情報を拡張レイヤ復号ィ匕部 108から取得 する。あるいは、拡張レイヤの復号にコアレイヤの情報が不可欠であるようなスケーラ ブル音声符号ィ匕方式が採用されている場合は、コアレイヤフレーム誤りが検出された ときに、拡張レイヤフレーム誤り検出部 106は拡張レイヤフレーム誤りが検出されたと 判断する。この場合拡張レイヤフレーム誤り検出部 106は、コアレイヤフレーム誤り検 出部 104から、コアレイヤフレーム誤り検出結果の入力を受ける。
[0020] 拡張レイヤ復号ィ匕部 108は、拡張レイヤ符号ィ匕データを受信して、その拡張レイヤ 符号化データを復号する。この復号によって生成された拡張レイヤ復号音声信号は 、許容区間検出部 110および重み付け加算部 114に出力される。拡張レイヤ復号音 声信号は、広帯域の信号である。
[0021] 拡張レイヤ復号ィ匕部 108は、拡張レイヤフレーム誤りが拡張レイヤフレーム誤り検 出部 106から通知された場合や、拡張レイヤ符号ィ匕データの復号過程において、拡 張レイヤ符号ィ匕データ内に含まれる誤り検出符号などにより重大な誤りがあると判定 された場合は、過去の符号化情報などを利用して線形予測係数および音源の補間 などを行う。これによつて、必要に応じて、拡張レイヤ復号音声信号を生成し出力す る。また、拡張レイヤ符号ィ匕データの復号過程において、拡張レイヤ符号化データ内 に含まれる誤り検出符号などにより重大な誤りがあると判定された場合、拡張レイヤ 復号ィ匕部 108は、その旨の情報を拡張レイヤフレーム誤り検出部 106に通知する。
[0022] 信号調整部 112は、コアレイヤ復号ィ匕部 102から入力されたコアレイヤ復号音声信 号を調整する。具体的には信号調整部 112は、コアレイヤ復号音声信号に対してァ ップサンプリングを行って、拡張レイヤ復号音声信号のサンプリング周波数に合わせ る。また信号調整部 112は、遅延および位相を拡張レイヤ復号音声信号に合わせる ために、コアレイヤ復号音声信号の遅延および位相を調整する。これらの処理を施さ れたコアレイヤ復号音声信号は、許容区間検出部 110および重み付け加算部 114 に出力される。
[0023] 許容区間検出部 110は、コアレイヤフレーム誤り検出部 104から入力されるコアレイ ャフレーム誤り検出結果、信号調整部 112から入力されたコアレイヤ復号音声信号、 コアレイヤ復号ィ匕部 102から入力されたコアレイヤ LSP、および拡張レイヤ復号ィ匕部 108から入力された拡張レイヤ復号音声信号を分析し、分析結果に基づいて許容区 間を検出する。許容区間検出結果は、重み付け加算部 114に出力される。このため 、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の混合比を経時的に変化 させる度合いを比較的高くする期間を許容区間のみに限定することができ、混合比 の経時変化の度合いを変更するタイミングを制御することができる。
[0024] ここで、許容区間とは、出力音声信号の帯域が変化しても聴感上の影響が少ない 区間、すなわち、出力音声信号の帯域変化が受聴者に知覚されにくい区間である。 逆に、コアレイヤ復号音声信号および拡張レイヤ復号音声信号が生成されている期 間のうち許容区間以外の区間は、出力音声信号の帯域変化が受聴者に知覚されや すい区間である。したがって、許容区間は、出力音声信号の帯域の急変を許容する 区間である。
[0025] 許容区間検出部 110は、無音区間、パワー変動区間、音質変化区間、拡張レイヤ ノ^ー微小区間、などを、許容区間として検出し、検出結果を重み付け加算部 114 に出力する。許容区間検出部 110の内部構成および許容区間を検出する処理の詳 細については後述する。
[0026] 音声切替装置としての重み付け加算部 114は、出力音声信号の帯域を切り替える 。また重み付け加算部 114は、出力音声信号の帯域を切り替えるとき、コアレイヤ音 声信号および拡張レイヤ音声信号が混合された混合信号を出力音声信号として出 力する。混合信号は、信号調整部 112から入力されたコアレイヤ復号音声信号およ び拡張レイヤ復号ィ匕部 108から入力された拡張レイヤ復号音声信号の重み付けカロ 算を行うことによって、生成される。すなわち混合信号は、コアレイヤ復号音声信号お よび拡張レイヤ復号音声信号の重み和である。重み付け加算の詳細については後 述する。
[0027] 図 5は、許容区間検出部 110の内部構成を示すブロック図である。許容区間検出 部 110は、コアレイヤ復号音声信号パワー算出部 501、無音区間検出部 502、パヮ 一変動区間検出部 503、音質変化区間検出部 504、拡張レイヤパワー微小区間検 出部 505、および許容区間判定部 506を有する。
[0028] コアレイヤ復号音声信号パワー算出部 501は、コアレイヤ復号ィ匕部 102からコアレ ィャ復号音声信号が入力され、下記の式(1)に従ってコアレイヤ復号音声信号パヮ 一 Pc (t)を算出する。
[数 1]
L_FRAME
Pc(t) = y Oc(i) * Oc(i) … ( 1 ) ここで、 tはフレーム番号、 Pc (t)はフレーム tにおけるコアレイヤ復号音声信号のパ ヮー、 L— FRAMEはフレーム長、 iはサンプル番号、 Oc (i)はコアレイヤ復号音声信 号をそれぞれ表す。
[0029] コアレイヤ復号音声信号パワー算出部 501は、算出して得られたコアレイヤ復号音 声信号パワー Pc (t)を、無音区間検出部 502、パワー変動区間検出部 503、および 拡張レイヤパワー微小区間検出部 505に出力する。無音区間検出部 502は、コアレ ィャ復号音声信号パワー算出部 501から入力されるコアレイヤ復号音声信号パワー Pc (t)を用いて、無音区間を検出し、得られる無音区間検出結果を許容区間判定部 506に出力する。パワー変動区間検出部 503は、コアレイヤ復号音声信号パワー算 出部 501から入力されるコアレイヤ復号音声信号パワー Pc (t)を用いて、パワー変動 区間を検出し、得られるパワー変動区間検出結果を許容区間判定部 506に出力す る。音質変化区間検出部 504は、コアレイヤフレーム誤り検出部 104から入力される コアレイヤフレーム誤り検出結果およびコアレイヤ復号ィ匕部 102から入力されるコア レイヤ LSPを用いて、音質変化区間を検出し、得られる音質変化区間検出結果を許 容区間判定部 506に出力する。拡張レイヤパワー微小区間検出部 505は、拡張レイ ャ復号ィ匕部 108から入力される拡張レイヤ復号音声信号を用いて、拡張レイヤパヮ 一微小区間を検出し、得られる拡張レイヤパワー微小区間検出結果を許容区間判 定部 506に出力する。許容区間判定部 506では、無音区間検出部 502、パワー変 動区間検出部 503、音質変化区間検出部 504、拡張レイヤパワー微小区間検出部 505の検出結果に基づき、無音区間、パワー変動区間、音質変化区間、または拡張 レイヤパワー微小区間が検出された力否かを判定する。つまり、許容区間が検出され た力否かを判定し、判定結果として許容区間検出結果を出力する。
[0030] 図 6は、無音区間検出部 502の内部構成を示すブロック図である。
[0031] 無音区間は、コアレイヤ復号音声信号のパワーが非常に小さい区間である。無音 区間においては、拡張レイヤ復号音声信号の利得 (換言すれば、コアレイヤ復号音 声信号および拡張レイヤ復号音声信号の混合比)を急速に変化させてもその変化を 知覚されにくい。無音区間は、コアレイヤ復号音声信号のパワーが所定の閾値以下 であることを検出することによって、検出される。このような検出を行う無音区間検出 部 502は、無音判定閾値記憶部 521および無音区間判定部 522を有する。
[0032] 無音判定閾値記憶部 521は、無音区間の判定に必要な閾値 εが記憶されており、 閾値 εを無音区間判定部 522に出力する。無音区間判定部 522は、コアレイヤ復号 音声信号パワー算出部 501から入力されるコアレイヤ復号音声信号パワー Pc (t)と 閾値 εとを比較して、下記の式 (2)に従い無音区間判定結果 d (t)を得る。許容区間 は無音区間を含めるため、ここでは無音区間判定結果を許容区間検出結果と同じく d (t)で表す。無音区間判定部 522は、無音区間判定結果 d (t)を許容区間判定部 5 06に出力する。
[数 2]
1 ,Pc{t) < e
d(t) … ( 2 )
0 —その他
[0033] 図 7は、パワー変動区間検出部 503の内部構成を示すブロック図である。
[0034] パワー変動区間は、コアレイヤ復号音声信号 (または拡張レイヤ復号音声信号)の ノ^ 7—が大きく変動する区間である。パワー変動区間においては、多少の変化 (例え ば、出力音声信号の音色の変化や帯域感の変化)は、聴感的に知覚されにくい、あ るいは、知覚されても受聴者に違和感を持たせない。したがって、拡張レイヤ復号音 声信号の利得 (換言すれば、コアレイヤ復号音声信号および拡張レイヤ復号音声信 号の混合比)を急速に変化させてもその変化を知覚されにくい。パワー変動区間は、 コアレイヤ復号音声信号 (または拡張レイヤ復号音声信号)の短期パワーと長期平滑 ィ匕パワーとの差または比を所定の閾値と比較した結果として、差または比が閾値以 上であることを検出することによって、検出される。このような検出を行うパワー変動区 間検出部 503は、短期平滑化係数記憶部 531、短期平滑化パワー算出部 532、長 期平滑化係数記憶部 533、長期平滑化パワー算出部 534、判定調整係数記憶部 5 35、およびパワー変動区間判定部 536を有する。
[0035] 短期平滑化係数記憶部 531は、短期平滑化係数 exが記憶されており、短期平滑 ィ匕係数 αを短期平滑化パワー算出部 532に出力する。短期平滑化パワー算出部 53 2は、この短期平滑化係数 αと、コアレイヤ復号音声信号パワー算出部 501から入力 されるコアレイヤ復号音声信号パワー Pc (t)を用いて、下記の式(3)に従いコアレイ ャ復号音声信号パワー Pc (t)の短期平滑化パワー Ps (t)を算出する。短期平滑化パ ヮー算出部 532は、算出されたコアレイヤ復号音声信号パワー Pc (t)の短期平滑ィ匕 パワー Ps (t)をパワー変動区間判定部 536に出力する。
[数 3] Ps(t) = a*Ps(t) + (l-a)*Pc(t) ··· (3)
[0036] 長期平滑化係数記憶部 533は、長期平滑化係数 |8が記憶されており、長期平滑 化係数 ι8を長期平滑化パワー算出部 534に出力する。長期平滑化パワー算出部 53 4は、この長期平滑化係数 |8と、コアレイヤ復号音声信号パワー算出部 501から入力 されるコアレイヤ復号音声信号パワー Pc (t)を用いて、下記の式 (4)に従 、コアレイ ャ復号音声信号パワー Pc (t)の長期平滑化パワー PI (t)を算出する。長期平滑化パ ヮー算出部 534は、算出されたコアレイヤ復号音声信号パワー Pc(t)の長期平滑ィ匕 パワー Pl(t)をパワー変動区間判定部 536に出力する。上記の短期平滑化係数 αと 長期平滑化係数 j8とは、 0.0< α< |8<1.0の関係にある。
Pl{t) = β*ΡΙ(ί) + (\-β)*Ρο(ί) … (4)
ここで、短期平滑化係数 aと長期平滑化係数 j8とは (0.0< α < |8 < 1.0)の関係 にある。
[0037] 判定調整係数記憶部 535は、パワー変動区間を判定するための調整係数 γが記 憶されており、調整係数 γをパワー変動区間判定部 536に出力する。パワー変動区 間判定部 536は、この調整係数 γ、短期平滑化パワー算出部 532から入力される Ps (t)、および長期平滑化パワー算出部 534から入力される長期平滑化パワー PI (t)を 用いて、下記の式(5)に従いパワー変動区間判定結果 d(t)を得る。許容区間はパヮ 一変動区間を含めるため、ここではパワー変動区間判定結果を許容区間検出結果と 同じく d(t)で表す。パワー変動区間判定部 536は、パワー変動区間判定結果 d(t)を 許容区間判定部 506に出力する。
[数 5]
Figure imgf000012_0001
[0038] なお、ここでパワー変動区間は、短期パワーと長期平滑化パワーとを比較すること により検出するが、前後のフレーム (またはサブフレーム)などのパワーを比較した結 果として、パワーの変化量が所定の閾値以上であることを判定することによって、検 出しても良い。あるいは、パワー変動区間は、コアレイヤ復号音声信号 (または拡張 レイヤ復号音声信号)の立ち上がり時を判定することによって、検出しても良い。
[0039] 図 8は、音質変化区間検出部 504の内部構成を示すブロック図である。
[0040] 音質変化区間は、コアレイヤ復号音声信号 (または拡張レイヤ復号音声信号)の音 質が大きく変動する区間である。音質変化区間においては、コアレイヤ復号音声信 号 (または拡張レイヤ復号音声信号)自体が、聴感的に時間的連続性を失っている 状態となっている。この場合、拡張レイヤ復号音声信号の利得 (換言すれば、コアレ ィャ復号音声信号および拡張レイヤ復号音声信号の混合比)を急速に変化させても その変化を知覚されにくい。音質変化区間は、コアレイヤ復号音声信号 (または拡張 レイヤ復号音声信号)に含まれる背景雑音信号の種類の急変を検出することによつ て、検出される。あるいは、音質変化区間は、コアレイヤ符号ィ匕データのスペクトルパ ラメータ (例えば、 LSP)の変化を検出することによって、検出される。例えば LSPの 変化を検出するためには、過去の LSPの各要素と現在の LSPの各要素との間の距 離の合計を所定の閾値と比較した結果として、その距離の合計が閾値以上であるこ とを検出する。このような検出を行う音質変化区間検出部 504は、 LSP要素間距離 算出部 541、 LSP要素間距離蓄積部 542、 LSP要素間距離変化率算出部 543、音 質変化判定閾値記憶部 544、コアレイヤ誤り復帰検出部 545、および音質変化区間 判定部 546を有する。
[0041] LSP要素間距離算出部 541は、コアレイヤ復号ィ匕部 102から入力されるコアレイヤ LSPを用いて、下記の式 (6)に従い LSP要素間距離 dlsp (t)を算出する。
[数 6]
M
dlsp(t) = (lsp[m] - lsp[m - l])2 … ( 6 )
m-Z
LSP要素間距離 dlsp (t)は、 LSP要素間距離蓄積部 542及び LSP要素間距離変 化率算出部 543に出力される。
[0042] LSP要素間距離蓄積部 542は、 LSP要素間距離算出部 541から入力される LSP 要素間距離 dlsp (t)を蓄積し、過去(1フレーム前)の LSP要素間距離 dlsp (t- 1)を 、 LSP要素間距離変化率算出部 543に出力する。 LSP要素間距離変化率算出部 5 43は、 LSP要素間距離 dlsp (t)を過去の LSP要素間距離 dslp (t— 1)で除算するこ とにより LSP要素間距離変化率を算出する。算出された LSP要素間距離変化率は、 音質変化区間判定部 546に出力される。
[0043] 音質変化判定閾値記憶部 544は、音質変化区間の判定に必要な閾値 Aが記憶さ れ、閾値 Aを音質変化区間判定部 546に出力する。音質変化区間判定部 546は、こ の閾値 Aと、 LSP要素間距離変化率算出部 543から入力される LSP要素間距離変 化率とを用いて下記の式 (7)に従 、音質変化区間判定結果 d (t)を得る。
[数 7]
Figure imgf000014_0001
ここで、 lspはコアレイヤの LSP係数、 Mはコアレイヤの線形予測係数の分析次数、 mは LSPの要素番号、 dlspは隣り合う要素間の距離をそれぞれ表す。
[0044] なお、許容区間はパワー変動区間を含めるため、ここでは音質変化区間判定結果 を許容区間検出結果と同じく d (t)で表す。音質変化区間判定部 546は、音質変化 区間判定結果 d (t)を許容区間判定部 506に出力する。
[0045] コアレイヤ誤り復帰検出部 545は、コアレイヤフレーム誤り検出部 102から入力され るコアレイヤフレーム誤り検出結果に基づき、フレーム誤りから復帰 (正常受信)したこ とを検出すると、その旨を音質変化区間判定部 546に通知し、音質変化区間判定部 546は、復帰後の所定数のフレームを音質変化区間と判定する。すなわち、コアレイ ャフレーム誤りに起因してコアレイヤ復号音声信号に対して補間処理が行われた後 の所定数のフレームを、音質変化区間として判定する。
[0046] 図 9は、拡張レイヤパワー微小区間検出部 505の内部構成を示すブロック図である
[0047] 拡張レイヤパワー微小区間は、拡張レイヤ復号音声信号のパワーが非常に小さい 区間である。拡張レイヤパワー微小区間においては、出力音声信号の帯域を急速に 変化させてもその変化は知覚されにくい。したがって、拡張レイヤ復号音声信号の利 得 (換言すれば、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の混合比 )を急速に変化させてもその変化を知覚されにくい。拡張レイヤパワー微小区間は、 拡張レイヤ復号音声信号のパワーが所定の閾値以下であることを検出することによつ て、検出される。あるいは、拡張レイヤパワー微小区間は、コアレイヤ復号音声信号 のパワーに対する拡張レイヤ復号音声信号のパワーの比が所定値以下であることを 検出することによって、検出される。このような検出を行う拡張レイヤパワー微小区間 検出部 505は、拡張レイヤ復号音声信号パワー算出部 551、拡張レイヤパワー比算 出部 552、拡張レイヤパワー微小判定閾値記憶部 553、拡張レイヤパワー微小区間 判定部 554を有する。
[0048] 拡張レイヤ復号音声信号パワー算出部 551は、拡張レイヤ復号ィ匕部 108から入力 される拡張レイヤ復号信号を用いて、下記の式 (8)に従い拡張レイヤ復号音声信号 ノ ヮ一 Pe (t)を算出する。
[数 8]
L一 FRAME
Pe(t) = J Oe(i) * Oe(i) … ( 8 ) ここで、 Oe (i)は拡張レイヤ復号音声信号、 Pe (t)は拡張レイヤ復号音声信号パヮ 一をそれぞれ表す。拡張レイヤ復号音声信号パワー Pe (t)は、拡張レイヤパワー比 算出部 552及び拡張レイヤパワー微小区間判定部 554に出力される。
[0049] 拡張レイヤパワー比算出部 552は、この拡張レイヤ復号音声信号パワー Pe (t)を、 コアレイヤ復号音声信号パワー算出部 501から入力されるコアレイヤ復号信号パヮ 一 Pc (t)で除算することにより、拡張レイヤパワー比を算出する。拡張レイヤパワー比 は拡張レイヤパワー微小区間判定部 554に出力される。
[0050] 拡張レイヤパワー微小判定閾値記憶部 553は、拡張レイヤパワー微小区間の判定 に必要な閾値 Bおよび Cが記憶されており、閾値 Bおよび Cを拡張レイヤパワー微小 区間判定部 554に出力する。拡張レイヤパワー微小区間判定部 554は、拡張レイヤ 復号音声信号パワー算出部 551から入力される拡張レイヤ復号音声信号パワー Pe ( t)、拡張レイヤパワー比算出部 552から入力される拡張レイヤパワー比、拡張レイヤ パワー微小判定閾値記憶部 553から入力される閾値 Bおよび Cを用いて、下記の式 (9)に従い拡張レイヤパワー微小区間判定結果 d (t)を得る。許容区間は拡張レイヤ ノ^ー微小区間を含めるため、ここでは拡張レイヤパワー微小区間判定結果を許容 区間検出結果と同じく d(t)で表す。拡張レイヤパワー微小区間判定部 554は、拡張 レイヤパワー微小区間判定結果 d (t)を許容区間判定部 506に出力する。
[数 9]
Figure imgf000016_0001
[0051] 許容区間検出部 110が前述の方法で許容区間を検出すると、次いで重み付けカロ 算部 114は、音声信号の帯域変化が知覚されにくい区間においてのみ、混合比を比 較的急に変化させるとともに、音声信号の帯域変化が知覚されやすい区間において は、混合比を比較的緩やかに変化させる。よって、受聴者が音声信号に対して違和 感ゃ変動感を持つ可能性を確実に低減することができる。
[0052] 次いで、重み付け加算部 114の内部構成およびその動作について、図 2を用いて 説明する。図 2は、重み付け加算部 114の内部構成を示すブロック図であり、重み付 け加算部 114は、拡張レイヤ復号音声利得制御器 120、拡張レイヤ復号音声増幅 器 122および加算器 124を有する。
[0053] 設定手段としての拡張レイヤ復号音声利得制御器 120は、拡張レイヤフレーム誤り 検出結果および許容区間検出結果に基づいて、拡張レイヤ復号音声信号の利得( 以下「拡張レイヤ利得」と言う)を制御する。拡張レイヤ復号音声信号の利得制御に お!、ては、拡張レイヤ復号音声信号の利得の経時的な変化の度合 、が可変設定さ れる。これによつて、コアレイヤ復号音声信号および拡張レイヤ復号音声信号が混合 されるときの混合比が可変設定される。
[0054] なお、拡張レイヤ復号音声利得制御器 120では、コアレイヤ復号音声信号の利得( 以下「コアレイヤ利得」と言う)の制御は行われず、拡張レイヤ復号音声信号と混合さ れるときのコアレイヤ復号音声信号の利得は一定の値に固定される。したがって、両 信号の利得を可変設定する場合に比べて容易に混合比を可変設定することができ る。ただし、拡張レイヤ利得だけでなくコアレイヤ利得も制御するようにしても良い。
[0055] 拡張レイヤ復号音声増幅器 122は、拡張レイヤ復号音声利得制御器 120によって 制御された利得を、拡張レイヤ復号ィ匕部 108から入力された拡張レイヤ復号音声信 号に乗じる。利得を乗じられた拡張レイヤ復号音声信号は、加算器 124に出力され る。
[0056] 加算器 124は、拡張レイヤ復号音声増幅器 122から入力された拡張レイヤ復号音 声信号および信号調整部 112から入力されたコアレイヤ復号音声信号を加算する。 これによつて、コアレイヤ復号音声信号および拡張レイヤ復号音声信号は混合され、 混合信号が生成される。生成された混合信号は、音声復号装置 100の出力音声信 号となる。すなわち、拡張レイヤ復号音声増幅器 122および加算器 124の組み合わ せは、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の混合比を経時的に 変化させながらコアレイヤ復号音声信号および拡張レイヤ復号音声信号を混合して 、混合信号を得る混合部を構成する。
[0057] 以下、重み付け加算部 114における動作について説明する。
[0058] 重み付け加算部 114の拡張レイヤ復号音声利得制御器 120では、拡張レイヤ利得 は、主として拡張レイヤ符号ィ匕データが受信できないときに減衰し拡張レイヤ符号ィ匕 データを受信し始めたら上昇するように制御される。また、拡張レイヤ利得は、コアレ ィャ復号音声信号または拡張レイヤ復号音声信号の状態に同期して適応的に制御 される。
[0059] ここで、拡張レイヤ復号音声利得制御器 120での拡張レイヤ利得の可変設定動作 の例を説明する。なお、本実施の形態では、コアレイヤ復号音声信号の利得は固定 されて!/、るため、拡張レイヤ利得およびその経時変化の度合 、が拡張レイヤ復号音 声利得制御器 120によって変更されるとき、コアレイヤ復号音声信号および拡張レイ ャ復号音声信号の混合比ならびにその経時変化の度合いは変更される。
[0060] 拡張レイヤ復号音声利得制御器 120は、拡張レイヤフレーム誤り検出部 106から 入力された拡張レイヤフレーム誤り検出結果 e (t)と、許容区間検出部 110から入力 された許容区間検出結果 d (t)と、を用いて拡張レイヤ利得 g (t)を決定する。拡張レ ィャ利得 g (t)は、次の式(10)〜(12)によって決定される。
g (t) = l . 0 , g (t—l) + s (t) > l . 0の場合 〜(10)
g (t) =g (t- l) + s (t) ,0.0≤g(t— l)+s(t)≤l.0の場合 -(11)
g(t)=0.0 , g(t— l)+s(t)<0.0の場合 ---(12)
なお、 s(t)は拡張レイヤ利得の増減値を表す。
[0061] すなわち、拡張レイヤ利得 g (t)の最小値は 0.0であり、最大値は 1.0である。コア レイヤ利得は制御されない、つまりコアレイヤ利得は常に 1.0であるため、 g(t) =1. 0のときは、コアレイヤ復号音声信号および拡張レイヤ復号音声信号が 1: 1の混合比 で混合される。一方、 g(t) =0.0のときは、信号調整部 112から出力されたコアレイ ャ復号音声信号が出力音声信号となる。
[0062] 増減値 s(t)は、拡張レイヤフレーム誤り検出結果 e(t)および許容区間検出結果 d( t)に従い、次の式(13)〜(16)によって決定される。
s(t)=0. 20 , e(t)=l且つ d(t)=lの場合 "'(13)
s(t)=0.02 , e(t)=l且つ d(t)=0の場合 ---(14)
s(t) =— 0.40 , e(t)=0且つ d(t)=lの場合 ---(15)
s(t) = -0. 20 , e(t)=0且つ d(t)=0の場合 ---(16)
[0063] なお、拡張レイヤフレーム誤り検出結果 e(t)は次の式(17)〜(18)で示される。
e(t)=l ,拡張レイヤフレーム誤りなしの場合 … ァ)
e(t)=0 ,拡張レイヤフレーム誤りありの場合 〜(18)
[0064] また、許容区間検出結果 d(t)は、次の式(19)〜(20)で示される。
d(t)=l ,許容区間の場合 〜(19)
d(t)=0 ,許容区間以外の区間の場合 〜(20)
[0065] 式(13)および式(14)を比較すると、または、式(15)および式(16)を比較すると、 許容区間 (d(t) =1)では、許容区間以外の区間 (d(t) =0)に比べて、拡張レイヤ利 得の増減値 s(t)が大きくなる。したがって、許容区間では、許容区間以外の区間に 比べて、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の混合比の経時 変化の度合いが大きくなり、混合比の経時変化が急になる。そして、許容区間以外の 区間では、許容区間に比べて、コアレイヤ復号音声信号および拡張レイヤ復号音声 信号の混合比の経時変化の度合いが小さくなり、混合比の経時変化が緩やかになる [0066] なお、説明の簡略化のため、前述の各関数 g (t)、 s (t)、 d (t)をフレーム単位で表 現したが、サンプル単位で表現しても良い。また、前述の式(10)〜(20)で用いられ た数値は一例であり、他の数値を用いても良い。前述の例では、拡張レイヤ利得が 直線的に増減するような関数が用いられているが、拡張レイヤ利得を単調増加また は単調減少させる任意の関数を用いることができる。また、背景雑音信号がコアレイ ャ復号音声信号に含まれている場合は、コアレイヤ復号音声信号を用いて音声信号 対背景雑音信号比などを求め、その比に応じて、拡張レイヤ利得の増分、減分を適 応的に制御しても良い。
[0067] 続いて、拡張レイヤ復号音声利得制御器 120によって制御された拡張レイヤ利得 の経時変化について、 2つの例を挙げて説明する。図 3は、拡張レイヤ利得の経時変 化の第 1の例を説明するための図であり、図 4は、拡張レイヤ利得の経時変化の第 2 の例を説明するための図である。
[0068] まず、図 3を用いて第 1の例について説明する。図 3Bには、拡張レイヤ符号化デー タが受信できたカゝ否かが示されている。時刻 T1から時刻 T2までの区間、時刻 T6か ら時刻 T8までの区間および時刻 T10以降の区間において、拡張レイヤフレーム誤り が検出されており、それ以外の区間では、拡張レイヤフレーム誤りは検出されていな い。
[0069] また、図 3Cには、許容区間検出結果が示されている。時刻 T3から時刻 T5までの 区間および時刻 T9から時刻 T11までの区間は、検出された許容区間である。これ以 外の区間では、許容区間は検出されて!ヽな 、。
[0070] また、図 3Aには、拡張レイヤ利得が示されている。 g (t) =0. 0は、拡張レイヤ復号 音声信号を完全に減衰し全く出力に貢献しないことを表す。一方、 g (t) = l. 0は、 拡張レイヤ復号音声信号を全て利用することを表す。
[0071] 時刻 T1から時刻 T2までの区間では、拡張レイヤフレーム誤りが検出されているた め、拡張レイヤ利得が徐々に下げられている。時刻 T2に至ると拡張レイヤフレーム誤 りが検出されなくなるため、拡張レイヤ利得は、今度は逆に上げられている。時刻 T2 以降の拡張レイヤ利得上昇期間のうち、時刻 T2から時刻 T3までの区間は、許容区 間ではない。したがって、拡張レイヤ利得の上昇の度合いは小さぐ拡張レイヤ利得 の上昇は比較的緩やかである。一方、時刻 T2以降の拡張レイヤ利得上昇期間のう ち、時刻 T3から時刻 T5までの区間は、許容区間である。したがって、拡張レイヤ利 得の上昇の度合いは大きぐ拡張レイヤ利得の上昇は比較的急である。これによつて 、時刻 T2から時刻 T3までの区間において、帯域変化が知覚されることを防止するこ とができる。また、時刻 T3から時刻 T5においては、帯域変化が知覚されにくい状態 を維持しながら帯域変化を速めることができ、広帯域感を出すことに貢献することが でき、主観品質を向上することができる。
[0072] そして、時刻 T8から時刻 T10までの区間では、拡張レイヤフレーム誤りが検出され ていないため、拡張レイヤ利得が上げられている。しかし、時刻 T8から時刻 T10まで の区間のうち、時刻 T8から時刻 T9までの区間は、許容区間ではない。したがって、 拡張レイヤ利得の上昇は比較的緩やかな状態に抑えられている。一方、時刻 T8から 時刻 T10までの区間のうち、時刻 T9から時刻 T10までの区間は、許容区間である。 したがって、拡張レイヤ利得の上昇は比較的急である。
[0073] そして、時刻 T10以降の区間では、拡張レイヤフレーム誤りが検出されている。この ため、拡張レイヤ利得の変化は、時刻 T10力も低下に転じる。また、時刻 T10以降の 区間のうち、時刻 T10から時刻 11までの区間は、許容区間である。したがって、拡張 レイヤ利得の低下の度合いは大きぐ拡張レイヤ利得の低下は比較的急である。一 方、時刻 T11以降の区間は、許容区間ではない。したがって、拡張レイヤ利得の低 下の度合いは小さぐ拡張レイヤ利得の低下は比較的緩やかな状態に抑えられてい る。そして、時刻 T12にて、拡張レイヤ利得は 0. 0になる。これによつて、時刻 T10か ら時刻 T11までの区間においては、帯域変化が知覚されにくい状態を維持しながら 帯域変化を速めることができる。また、時刻 T11から時刻 T12までの区間においては 、帯域変化が知覚されることを防止することができる。
[0074] 次に、図 4を用いて、第 2の例について説明する。図 4Bには、拡張レイヤ符号化デ ータが受信できた力否かが示されている。時刻 T21から時刻 T22までの区間、時刻 T24から時刻 T27までの区間、時刻 T28から時刻 T30までの区間および時刻 T31 以降の区間において、拡張レイヤフレーム誤りが検出されており、それ以外の区間で は、拡張レイヤフレーム誤りは検出されていない。 [0075] また、図 4Cには、許容区間検出結果が示されている。時刻 T23から時刻 T26まで の区間は、検出された許容区間である。これ以外の区間では、許容区間は検出され ていない。
[0076] また、図 4Aには、拡張レイヤ利得が示されている。第 2の例では、拡張レイヤフレー ム誤りが検出される頻度が、第 1の例に比べて高い。したがって、拡張レイヤ利得の 増減の転換の頻度が高い。具体的には、拡張レイヤ利得は、時刻 T22から上昇し、 時刻 T24からは低下し、時刻 T27からは上昇し、時刻 T28からは低下し、時刻 T30 力 は上昇し、時刻 T31からは低下する。この過程において、許容区間は、時刻 T2 3から時刻 T26までの区間のみである。つまり、時刻 T26以降の区間では、拡張レイ ャ利得の変化の度合 、が小さくなるように制御され、拡張レイヤ利得の変化は比較 的緩やかな状態に抑えられる。このため、時刻 T27から時刻 28までの区間および時 刻 T30から時刻 T31までの区間での拡張レイヤ利得の上昇は、比較的緩やかであり 、時刻 T28から時刻 29までの区間および時刻 T31から時刻 T32までの区間での拡 張レイヤ利得の低下は、比較的緩やかである。これによつて、帯域変化が頻繁に起こ つたときに受聴者が変動感を持つのを防止することができる。
[0077] このように、前述の 2つの例では、許容区間において、帯域切替を速やかに行うこと で、コアレイヤ復号音声信号のパワーなどの変化と、帯域切替によって生じ得る総合 的な復号音声の変動感を緩和させることができる。一方、許容区間以外の区間にお いて、パワーや帯域幅の変化を緩やかに行うよう制御することで、帯域幅の変化を目 立たなくすることができる。
[0078] また、前述の 2つの例では、拡張レイヤ利得の経時変化の度合 、が変更されること に伴って、混合信号の出力時間が変更される。このため、混合比の経時変化の度合 いが変更されたときに、音の大きさや不連続性や帯域感の不連続性が発生するのを 防止することができる。
[0079] 以上説明したように、本実施の形態によれば、コアレイヤ復号音声信号つまり狭帯 域音声信号および拡張レイヤ復号音声信号つまり広帯域音声信号を混合するときに 経時的に変化する混合比の変化の度合いを可変設定するため、受聴者が音声信号 に対して違和感や変動感を持つ可能性を低減することができ、音質を向上すること ができる。
[0080] なお、採用可能な帯域スケーラブル音声符号ィ匕方式は、本実施の形態で説明した ものに限定されない。例えば、拡張レイヤでコアレイヤ符号ィ匕データおよび拡張レイ ャ符号化データの双方を用いて広帯域復号音声信号を一括復号するような方式で あって、拡張レイヤフレーム誤り発生時にはコアレイヤ復号音声信号を使用するよう な方式にも、本実施の形態の構成を適用することができる。この場合、コアレイヤ復 号音声および拡張レイヤ復号音声を切り替える際には、コアレイヤ復号音声および 拡張レイヤ復号音声の双方に対して、フェードインまたはフェードアウトするような重 ね合わせ処理を行う。そして、前述の許容区間検出結果に従ってフェードインまたは フェードアウトの速度を制御する。これによつて、音質劣化を抑えた復号音声を得るこ とがでさる。
[0081] また、本実施の形態の許容区間検出部 110と同様に、帯域の変化を許容する区間 を検出するための構成を、帯域スケーラブル音声符号ィ匕方式を適用した音声符号ィ匕 装置に設けても良い。この場合、音声符号化装置は、帯域の変化を許容する区間以 外の区間では帯域切替 (つまり、狭帯域力 広帯域への切替または広帯域力 狭帯 域への切替)を保留し、帯域の変化を許容する区間のみにおいて帯域切替を実行す る。この音声符号化装置で符号化された音声を音声復号装置で復号した場合、その 音声復号装置がたとえ帯域切り替え機能を有しないものであったとしても、受聴者が 復号音声に対して違和感や変動感を持つ可能性を低減することができる。
[0082] また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路 である LSIとして実現される。これらは個別に 1チップ化されても良いし、一部又は全 てを含むように 1チップィ匕されても良い。
[0083] ここでは、 LSIとした力 集積度の違いにより、 IC、システム LSI、スーパー LSI、ゥ ノレ卜ラ LSIと呼称されることちある。
[0084] また、集積回路化の手法は LSIに限るものではなぐ専用回路又は汎用プロセッサ で実現しても良い。 LSI製造後に、プログラムすることが可能な FPGA (Field Program mable Gate Array)や、 LSI内部の回路セルの接続や設定を再構成可能なリコンフィ ギュラブノレ ·プロセッサーを利用しても良 、。 [0085] さらには、半導体技術の進歩又は派生する別技術により LSIに置き換わる集積回 路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積ィ匕を行って も良い。バイオ技術の適応等が可能性としてありえる。
[0086] 本発明の第 1の態様は、音声切替装置であって、この装置は出力する音声信号の 帯域を切り替えるときに、狭帯域音声信号および広帯域音声信号が混合された混合 信号を出力する音声切替装置であって、前記狭帯域音声信号および前記広帯域音 声信号の混合比を経時的に変化させながら前記狭帯域音声信号および前記広帯域 音声信号を混合して、前記混合信号を得る混合手段と、前記混合比の経時的な変 化の度合いを可変設定する設定手段と、を有する構成を採る。
[0087] この構成によれば、狭帯域音声信号および広帯域音声信号を混合するときに経時 的に変化する混合比の変化の度合いを可変設定するため、受聴者が音声信号に対 して違和感や変動感を持つ可能性を低減することができ、音質を向上することができ る。
[0088] 本発明の第 2の態様は、上記構成において、前記狭帯域音声信号または前記広 帯域音声信号が得られる期間において特定の区間を検出する検出手段を有し、前 記設定手段は、前記特定の区間が検出されたときは前記度合いを増加させ、前記特 定の区間が検出されな!ヽときは前記度合 ヽを低減させる構成を採る。
[0089] この構成によれば、混合比の経時変化の度合いを比較的高くする期間を、音声信 号が得られる期間の中の特定の区間に限定することができ、混合比の経時変化の度 合 、を変更するタイミングを制御することができる。
[0090] 本発明の第 3の態様は、上記構成において、前記検出手段は、前記音声信号の帯 域の所定レベル以上の急変を許容する区間を前記特定の区間として検出する構成 を採る。
[0091] 本発明の第 4の態様は、上記構成において、前記検出手段は、無音区間を前記特 定の区間として検出する構成を採る。
[0092] 本発明の第 5の態様は、上記構成において、前記検出手段は、前記狭帯域音声信 号のパワーが所定レベル以下である区間を前記特定の区間として検出する構成を採 る。 [0093] 本発明の第 6の態様は、上記構成において、前記検出手段は、前記広帯域音声信 号のパワーが所定レベル以下である区間を前記特定の区間として検出する構成を採 る。
[0094] 本発明の第 7の態様は、上記構成において、前記検出手段は、前記狭帯域音声信 号のパワーに対する前記広帯域音声信号のパワーの大きさが所定レベル以下であ る区間を前記特定の区間として検出する。
[0095] 本発明の第 8の態様は、上記構成において、前記検出手段は、前記狭帯域音声信 号のパワーの変動が所定レベル以上である区間を前記特定の区間として検出する 構成を採る。
[0096] 本発明の第 9の態様は、上記構成において、前記検出手段は、前記狭帯域音声信 号の立ち上がりを前記特定の区間として検出する構成を採る。
[0097] 本発明の第 10の態様は、上記構成において、前記検出手段は、前記広帯域音声 信号のパワーの変動が所定レベル以上である区間を前記特定の区間として検出す る構成を採る。
[0098] 本発明の第 11の態様は、上記構成において、前記検出手段は、前記広帯域音声 信号の立ち上がりを検出する構成を採る。
[0099] 本発明の第 12の態様は、上記構成において、前記検出手段は、前記狭帯域音声 信号に含まれる背景雑音信号の種類が変化する区間を前記特定の区間として検出 する構成を採る。
[0100] 本発明の第 13の態様は、上記構成において、前記検出手段は、前記広帯域音声 信号に含まれる背景雑音信号の種類が変化する区間を前記特定の区間として検出 する構成を採る。
[0101] 本発明の第 14の態様は、上記構成において、前記検出手段は、前記狭帯域音声 信号のスペクトルパラメータの変化が所定レベル以上である区間を前記特定の区間 として検出する構成を採る。
[0102] 本発明の第 15の態様は、上記構成において、前記検出手段は、前記広帯域音声 信号のスペクトルパラメータの変化が所定レベル以上である区間を前記特定の区間 として検出する構成を採る。 [0103] 本発明の第 16の態様は、上記構成において、前記検出手段は、前記狭帯域音声 信号に対して補間処理が行われた後の区間を前記特定の区間として検出する構成 を採る。
[0104] 本発明の第 17の態様は、上記構成において、前記検出手段は、前記広帯域音声 信号に対して補間処理が行われた後の区間を前記特定の区間として検出する構成 を採る。
[0105] これらの構成によれば、音声信号の帯域変化が知覚されにくい区間においてのみ 、混合比を比較的急に変化させることができるとともに、音声信号の帯域変化が知覚 されやすい区間においては、混合比を比較的緩やかに変化させることができ、受聴 者が音声信号に対して違和感や変動感を持つ可能性を確実に低減することができる
[0106] 本発明の第 18の態様は、上記構成において、前記設定手段は、前記狭帯域音声 信号の利得を固定する一方、前記広帯域音声信号の利得の経時的な変化の度合 Vヽを可変設定する構成を採る。
[0107] この構成によれば、両信号の利得の経時変化の度合いを可変設定する場合に比 ベて容易に混合比可変設定を行うことができる。
[0108] 本発明の第 19の態様は、上記構成において、前記設定手段は、前記混合信号の 出力時間を変更する構成を採る。
[0109] この構成によれば、両信号の混合比の経時変化の度合いが変更されたときに、音 の大きさの不連続性や帯域感の不連続性が発生するのを防止することができる。
[0110] 本発明の第 20の態様は、通信端末装置であって、この装置は上記構成の音声切 替装置を具備する構成を採る。
[0111] 本発明の第 21の態様は、音声切替方法であって、この方法は出力する音声信号 の帯域を切り替えるときに、狭帯域音声信号および広帯域音声信号が混合された混 合信号を出力する音声切替方法であって、前記狭帯域音声信号および前記狭帯域 音声信号の混合比の経時的な変化の度合!/ヽを変更する変更ステップと、変更された 度合いで前記混合比を経時的に変化させながら前記狭帯域音声信号および前記広 帯域音声信号を混合して、前記混合信号を得る混合ステップと、を有するようにした。 [0112] この方法によれば、狭帯域音声信号および広帯域音声信号を混合するときに経時 的に変化する混合比の変化の度合いを可変設定するため、受聴者が音声信号に対 して違和感や変動感を持つ可能性を低減することができ、音質を向上することができ る。
[0113] 本明細書は、 2005年 1月 14日出願の特願 2005— 008084に基づく。この内容は すべてここに含めておく。
産業上の利用可能性
[0114] 本発明の音声切替装置および音声切替方法は、音声信号の帯域の切替に適用す ることがでさる。

Claims

請求の範囲
[1] 出力する音声信号の帯域を切り替えるときに、狭帯域音声信号および広帯域音声 信号が混合された混合信号を出力する音声切替装置であって、
前記狭帯域音声信号および前記広帯域音声信号の混合比を経時的に変化させな がら前記狭帯域音声信号および前記広帯域音声信号を混合して、前記混合信号を 得る混合手段と、
前記混合比の経時的な変化の度合いを可変設定する設定手段と、
を有する音声切替装置。
[2] 前記狭帯域音声信号または前記広帯域音声信号が得られる期間において特定の 区間を検出する検出手段を有し、
前記設定手段は、
前記特定の区間が検出されたときは前記度合いを増加させ、前記特定の区間が検 出されな!/ヽときは前記度合 ヽを低減させる、
請求項 1記載の音声切替装置。
[3] 前記検出手段は、
前記音声信号の帯域の所定レベル以上の急変を許容する区間を前記特定の区間 として検出する、
請求項 2記載の音声切替装置。
[4] 前記検出手段は、
無音区間を前記特定の区間として検出する、
請求項 2記載の音声切替装置。
[5] 前記検出手段は、
前記狭帯域音声信号のパワーが所定レベル以下である区間を前記特定の区間と して検出する、
請求項 2記載の音声切替装置。
[6] 前記検出手段は、
前記広帯域音声信号のパワーが所定レベル以下である区間を前記特定の区間と して検出する、 請求項 2記載の音声切替装置。
[7] 前記検出手段は、
前記狭帯域音声信号のパワーに対する前記広帯域音声信号のパワーの大きさが 所定レベル以下である区間を前記特定の区間として検出する、
請求項 2記載の音声切替装置。
[8] 前記検出手段は、
前記狭帯域音声信号のパワーの変動が所定レベル以上である区間を前記特定の 区間として検出する、
請求項 2記載の音声切替装置。
[9] 前記検出手段は、
前記狭帯域音声信号の立ち上がりを前記特定の区間として検出する、 請求項 2記載の音声切替装置。
[10] 前記検出手段は、
前記広帯域音声信号のパワーの変動が所定レベル以上である区間を前記特定の 区間として検出する、
請求項 2記載の音声切替装置。
[11] 前記検出手段は、
前記広帯域音声信号の立ち上がりを検出する、
請求項 2記載の音声切替装置。
[12] 前記検出手段は、
前記狭帯域音声信号に含まれる背景雑音信号の種類が変化する区間を前記特定 の区間として検出する、
請求項 2記載の音声切替装置。
[13] 前記検出手段は、
前記広帯域音声信号に含まれる背景雑音信号の種類が変化する区間を前記特定 の区間として検出する、
請求項 2記載の音声切替装置。
[14] 前記検出手段は、 前記狭帯域音声信号のスペクトルパラメータの変化が所定レベル以上である区間 を前記特定の区間として検出する、
請求項 2記載の音声切替装置。
[15] 前記検出手段は、
前記広帯域音声信号のスペクトルパラメータの変化が所定レベル以上である区間 を前記特定の区間として検出する、
請求項 2記載の音声切替装置。
[16] 前記検出手段は、
前記狭帯域音声信号に対して補間処理が行われた後の区間を前記特定の区間と して検出する、
請求項 2記載の音声切替装置。
[17] 前記検出手段は、
前記広帯域音声信号に対して補間処理が行われた後の区間を前記特定の区間と して検出する、
請求項 2記載の音声切替装置。
[18] 前記設定手段は、
前記狭帯域音声信号の利得を固定する一方、前記広帯域音声信号の利得の経時 的な変化の度合いを可変設定する、
請求項 1記載の音声切替装置。
[19] 前記設定手段は、
前記混合信号の出力時間を変更する、
請求項 1記載の音声切替装置。
[20] 請求項 1記載の音声切替装置を具備する通信端末装置。
[21] 出力する音声信号の帯域を切り替えるときに、狭帯域音声信号および広帯域音声 信号が混合された混合信号を出力する音声切替方法であって、
前記狭帯域音声信号および前記狭帯域音声信号の混合比の経時的な変化の度 合 ヽを変更する変更ステップと、
変更された度合いで前記混合比を経時的に変化させながら前記狭帯域音声信号 および前記広帯域音声信号を混合して、前記混合信号を得る混合ステップと、 を有する音声切替方法。
PCT/JP2006/300295 2005-01-14 2006-01-12 音声切替装置および音声切替方法 WO2006075663A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN200680002420.7A CN101107650B (zh) 2005-01-14 2006-01-12 语音切换装置及语音切换方法
DE602006009215T DE602006009215D1 (de) 2005-01-14 2006-01-12 Audioumschaltungsvorrichtung und -methode
EP06711618A EP1814106B1 (en) 2005-01-14 2006-01-12 Audio switching device and audio switching method
JP2006552962A JP5046654B2 (ja) 2005-01-14 2006-01-12 スケーラブル復号装置及びスケーラブル復号方法
US11/722,904 US8010353B2 (en) 2005-01-14 2006-01-12 Audio switching device and audio switching method that vary a degree of change in mixing ratio of mixing narrow-band speech signal and wide-band speech signal

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005008084 2005-01-14
JP2005-008084 2005-01-14

Publications (1)

Publication Number Publication Date
WO2006075663A1 true WO2006075663A1 (ja) 2006-07-20

Family

ID=36677688

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/300295 WO2006075663A1 (ja) 2005-01-14 2006-01-12 音声切替装置および音声切替方法

Country Status (6)

Country Link
US (1) US8010353B2 (ja)
EP (2) EP1814106B1 (ja)
JP (1) JP5046654B2 (ja)
CN (2) CN102592604A (ja)
DE (1) DE602006009215D1 (ja)
WO (1) WO2006075663A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1968046A1 (en) * 2007-03-09 2008-09-10 Fujitsu Limited Encoding device and encoding method
JP2010520504A (ja) * 2007-03-02 2010-06-10 テレフオンアクチーボラゲット エル エム エリクソン(パブル) レイヤード・コーデックのためのポストフィルタ
US8254935B2 (en) 2002-09-24 2012-08-28 Fujitsu Limited Packet transferring/transmitting method and mobile communication system
JP2013512468A (ja) * 2010-04-28 2013-04-11 ▲ホア▼▲ウェイ▼技術有限公司 音声信号の切り替えの方法およびデバイス
JP2013521536A (ja) * 2010-03-09 2013-06-10 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. オーディオ信号用の位相ボコーダに基づく帯域幅拡張方法における改善された振幅応答及び時間的整列のための装置及び方法
EP2993666A1 (en) 2014-08-08 2016-03-09 Fujitsu Limited Voice switching device, voice switching method, and computer program for switching between voices
JP2018528463A (ja) * 2015-08-18 2018-09-27 クアルコム,インコーポレイテッド 帯域幅移行期間中の信号再使用

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101499278B (zh) * 2008-02-01 2011-12-28 华为技术有限公司 音频信号切换处理方法和装置
CN101505288B (zh) * 2009-02-18 2013-04-24 上海云视科技有限公司 一种宽带窄带双向通信中继装置
JP2010233207A (ja) * 2009-03-05 2010-10-14 Panasonic Corp 高周波スイッチ回路及び半導体装置
JP5267257B2 (ja) * 2009-03-23 2013-08-21 沖電気工業株式会社 音声ミキシング装置、方法及びプログラム、並びに、音声会議システム
JP5589631B2 (ja) * 2010-07-15 2014-09-17 富士通株式会社 音声処理装置、音声処理方法および電話装置
CN102142256B (zh) * 2010-08-06 2012-08-01 华为技术有限公司 淡入时间的计算方法和装置
EP3518234B1 (en) * 2010-11-22 2023-11-29 NTT DoCoMo, Inc. Audio encoding device and method
KR102058980B1 (ko) * 2012-04-10 2019-12-24 페어차일드 세미컨덕터 코포레이션 감소된 팝앤클릭을 갖는 오디오 장치 스위칭
US9827080B2 (en) 2012-07-23 2017-11-28 Shanghai Shift Electrics Co., Ltd. Head structure of a brush appliance
CN102743016B (zh) 2012-07-23 2014-06-04 上海携福电器有限公司 刷类用品的头部结构
US9741350B2 (en) 2013-02-08 2017-08-22 Qualcomm Incorporated Systems and methods of performing gain control
US9711156B2 (en) * 2013-02-08 2017-07-18 Qualcomm Incorporated Systems and methods of performing filtering for gain determination

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08248997A (ja) * 1995-03-13 1996-09-27 Matsushita Electric Ind Co Ltd 音声帯域拡大装置
JPH0990992A (ja) * 1995-09-27 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> 広帯域音声信号復元方法
JPH09258787A (ja) * 1996-03-21 1997-10-03 Kokusai Electric Co Ltd 狭帯域音声信号の周波数帯域拡張回路
JP2000206996A (ja) * 1999-01-13 2000-07-28 Sony Corp 受信装置及び方法、通信装置及び方法
JP2000261529A (ja) * 1999-03-10 2000-09-22 Nippon Telegr & Teleph Corp <Ntt> 通話装置
JP2003323199A (ja) * 2002-04-26 2003-11-14 Matsushita Electric Ind Co Ltd 符号化装置、復号化装置及び符号化方法、復号化方法
WO2003104924A2 (en) * 2002-06-05 2003-12-18 Sonic Focus, Inc. Acoustical virtual reality engine and advanced techniques for enhancing delivered sound
JP2004101720A (ja) * 2002-09-06 2004-04-02 Matsushita Electric Ind Co Ltd 音響符号化装置及び音響符号化方法
JP2004272052A (ja) * 2003-03-11 2004-09-30 Fujitsu Ltd 音声区間検出装置

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5432859A (en) * 1993-02-23 1995-07-11 Novatel Communications Ltd. Noise-reduction system
US5699479A (en) 1995-02-06 1997-12-16 Lucent Technologies Inc. Tonality for perceptual audio compression based on loudness uncertainty
EP0732687B2 (en) 1995-03-13 2005-10-12 Matsushita Electric Industrial Co., Ltd. Apparatus for expanding speech bandwidth
US6449519B1 (en) * 1997-10-22 2002-09-10 Victor Company Of Japan, Limited Audio information processing method, audio information processing apparatus, and method of recording audio information on recording medium
DE19804581C2 (de) * 1998-02-05 2000-08-17 Siemens Ag Verfahren und Funk-Kommunikationssystem zur Übertragung von Sprachinformation
CA2252170A1 (en) * 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
JP2000206995A (ja) * 1999-01-11 2000-07-28 Sony Corp 受信装置及び方法、通信装置及び方法
US6377915B1 (en) * 1999-03-17 2002-04-23 Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. Speech decoding using mix ratio table
JP2000305599A (ja) * 1999-04-22 2000-11-02 Sony Corp 音声合成装置及び方法、電話装置並びにプログラム提供媒体
JP2000352999A (ja) 1999-06-11 2000-12-19 Nec Corp 音声切替装置
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
US6778966B2 (en) * 1999-11-29 2004-08-17 Syfx Segmented mapping converter system and method
FI119576B (fi) * 2000-03-07 2008-12-31 Nokia Corp Puheenkäsittelylaite ja menetelmä puheen käsittelemiseksi, sekä digitaalinen radiopuhelin
FI115329B (fi) * 2000-05-08 2005-04-15 Nokia Corp Menetelmä ja järjestely lähdesignaalin kaistanleveyden vaihtamiseksi tietoliikenneyhteydessä, jossa on valmiudet useisiin kaistanleveyksiin
US6691085B1 (en) * 2000-10-18 2004-02-10 Nokia Mobile Phones Ltd. Method and system for estimating artificial high band signal in speech codec using voice activity information
US20020128839A1 (en) * 2001-01-12 2002-09-12 Ulf Lindgren Speech bandwidth extension
KR100830857B1 (ko) * 2001-01-19 2008-05-22 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 전송 시스템, 오디오 수신기, 전송 방법, 수신 방법 및 음성 디코더
US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
CN1244904C (zh) * 2001-05-08 2006-03-08 皇家菲利浦电子有限公司 声频信号编码方法和设备
US6895375B2 (en) * 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
US6988066B2 (en) * 2001-10-04 2006-01-17 At&T Corp. Method of bandwidth extension for narrow-band speech
MXPA03005133A (es) * 2001-11-14 2004-04-02 Matsushita Electric Ind Co Ltd Dispositivo de codificacion, dispositivo de decodificacion y sistema de los mismos.
WO2003091989A1 (en) 2002-04-26 2003-11-06 Matsushita Electric Industrial Co., Ltd. Coding device, decoding device, coding method, and decoding method
US7283956B2 (en) * 2002-09-18 2007-10-16 Motorola, Inc. Noise suppression
EP1543307B1 (en) * 2002-09-19 2006-02-22 Matsushita Electric Industrial Co., Ltd. Audio decoding apparatus and method
US7577259B2 (en) * 2003-05-20 2009-08-18 Panasonic Corporation Method and apparatus for extending band of audio signal using higher harmonic wave generator
JP4436075B2 (ja) 2003-06-19 2010-03-24 三菱農機株式会社 スプロケット
US20050004793A1 (en) * 2003-07-03 2005-01-06 Pasi Ojala Signal adaptation for higher band coding in a codec utilizing band split coding
DE602004004950T2 (de) * 2003-07-09 2007-10-31 Samsung Electronics Co., Ltd., Suwon Vorrichtung und Verfahren zum bitraten-skalierbaren Sprachkodieren und -dekodieren
KR100651712B1 (ko) * 2003-07-10 2006-11-30 학교법인연세대학교 광대역 음성 부호화기 및 그 방법과 광대역 음성 복호화기및 그 방법
US7461003B1 (en) * 2003-10-22 2008-12-02 Tellabs Operations, Inc. Methods and apparatus for improving the quality of speech signals
US7613607B2 (en) * 2003-12-18 2009-11-03 Nokia Corporation Audio enhancement in coded domain
JP4733939B2 (ja) * 2004-01-08 2011-07-27 パナソニック株式会社 信号復号化装置及び信号復号化方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08248997A (ja) * 1995-03-13 1996-09-27 Matsushita Electric Ind Co Ltd 音声帯域拡大装置
JPH0990992A (ja) * 1995-09-27 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> 広帯域音声信号復元方法
JPH09258787A (ja) * 1996-03-21 1997-10-03 Kokusai Electric Co Ltd 狭帯域音声信号の周波数帯域拡張回路
JP2000206996A (ja) * 1999-01-13 2000-07-28 Sony Corp 受信装置及び方法、通信装置及び方法
JP2000261529A (ja) * 1999-03-10 2000-09-22 Nippon Telegr & Teleph Corp <Ntt> 通話装置
JP2003323199A (ja) * 2002-04-26 2003-11-14 Matsushita Electric Ind Co Ltd 符号化装置、復号化装置及び符号化方法、復号化方法
WO2003104924A2 (en) * 2002-06-05 2003-12-18 Sonic Focus, Inc. Acoustical virtual reality engine and advanced techniques for enhancing delivered sound
JP2004101720A (ja) * 2002-09-06 2004-04-02 Matsushita Electric Ind Co Ltd 音響符号化装置及び音響符号化方法
JP2004272052A (ja) * 2003-03-11 2004-09-30 Fujitsu Ltd 音声区間検出装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1814106A4 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8254935B2 (en) 2002-09-24 2012-08-28 Fujitsu Limited Packet transferring/transmitting method and mobile communication system
JP2010520504A (ja) * 2007-03-02 2010-06-10 テレフオンアクチーボラゲット エル エム エリクソン(パブル) レイヤード・コーデックのためのポストフィルタ
EP1968046A1 (en) * 2007-03-09 2008-09-10 Fujitsu Limited Encoding device and encoding method
US8073050B2 (en) 2007-03-09 2011-12-06 Fujitsu Limited Encoding device and encoding method
JP2013521536A (ja) * 2010-03-09 2013-06-10 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. オーディオ信号用の位相ボコーダに基づく帯域幅拡張方法における改善された振幅応答及び時間的整列のための装置及び方法
JP2013512468A (ja) * 2010-04-28 2013-04-11 ▲ホア▼▲ウェイ▼技術有限公司 音声信号の切り替えの方法およびデバイス
JP2015045888A (ja) * 2010-04-28 2015-03-12 ▲ホア▼▲ウェイ▼技術有限公司 音声信号の切り替えの方法およびデバイス
JP2017033015A (ja) * 2010-04-28 2017-02-09 ▲ホア▼▲ウェイ▼技術有限公司Huawei Technologies Co.,Ltd. 音声信号の切り替えの方法およびデバイス
EP2993666A1 (en) 2014-08-08 2016-03-09 Fujitsu Limited Voice switching device, voice switching method, and computer program for switching between voices
US9679577B2 (en) 2014-08-08 2017-06-13 Fujitsu Limited Voice switching device, voice switching method, and non-transitory computer-readable recording medium having stored therein a program for switching between voices
JP2018528463A (ja) * 2015-08-18 2018-09-27 クアルコム,インコーポレイテッド 帯域幅移行期間中の信号再使用

Also Published As

Publication number Publication date
EP1814106A1 (en) 2007-08-01
US8010353B2 (en) 2011-08-30
CN101107650B (zh) 2012-03-28
DE602006009215D1 (de) 2009-10-29
US20100036656A1 (en) 2010-02-11
EP2107557A3 (en) 2010-08-25
JPWO2006075663A1 (ja) 2008-06-12
CN101107650A (zh) 2008-01-16
EP1814106B1 (en) 2009-09-16
CN102592604A (zh) 2012-07-18
JP5046654B2 (ja) 2012-10-10
EP1814106A4 (en) 2007-11-28
EP2107557A2 (en) 2009-10-07

Similar Documents

Publication Publication Date Title
WO2006075663A1 (ja) 音声切替装置および音声切替方法
US8160868B2 (en) Scalable decoder and scalable decoding method
JP5100380B2 (ja) スケーラブル復号装置および消失データ補間方法
JP6445460B2 (ja) 新しいメディア装置に関する埋め込み音量メタデータを有する、および、有しないメディアの正規化音声再生のための方法と装置
JP4698593B2 (ja) 音声復号化装置および音声復号化方法
CN105103222B (zh) 用于响度和动态范围控制的元数据
JP5129888B2 (ja) トランスコード方法、トランスコーディングシステム及びセットトップボックス
EP1941500B1 (en) Encoder-assisted frame loss concealment techniques for audio coding
US7050972B2 (en) Enhancing the performance of coding systems that use high frequency reconstruction methods
RU2387025C2 (ru) Способ и устройство для векторного квантования спектрального представления огибающей
US8571039B2 (en) Encoding and decoding speech signals
CN105493182B (zh) 混合波形编码和参数编码语音增强
US9251798B2 (en) Adaptive audio signal coding
US20080071549A1 (en) Audio Signal Decoding Device and Audio Signal Encoding Device
US20030091194A1 (en) Method and device for processing a stereo audio signal
WO2012026092A1 (ja) 音声信号処理装置及び音声信号処理方法
JP2008107415A (ja) 符号化装置
US20070118368A1 (en) Audio encoding apparatus and audio encoding method
EP2806423A1 (en) Speech decoding device and speech decoding method
JPWO2008132826A1 (ja) ステレオ音声符号化装置およびステレオ音声符号化方法
WO2024166647A1 (ja) 符号化装置、及び、符号化方法
WO2017094203A1 (ja) 音声信号復号装置及び音声信号復号方法
JP2024529556A (ja) 音コーデックにおける出力合成歪みの制限を行うための方法およびデバイス
JPH03116197A (ja) 音声復号化装置
JP2005301002A (ja) 音声符号化情報処理装置および音声符号化情報処理プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2006711618

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 11722904

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 1020/MUMNP/2007

Country of ref document: IN

WWE Wipo information: entry into national phase

Ref document number: 2006552962

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 200680002420.7

Country of ref document: CN

NENP Non-entry into the national phase

Ref country code: DE

WWP Wipo information: published in national office

Ref document number: 2006711618

Country of ref document: EP