WO2015078123A1 - 立体声相位参数的编码方法及装置 - Google Patents

立体声相位参数的编码方法及装置 Download PDF

Info

Publication number
WO2015078123A1
WO2015078123A1 PCT/CN2014/074673 CN2014074673W WO2015078123A1 WO 2015078123 A1 WO2015078123 A1 WO 2015078123A1 CN 2014074673 W CN2014074673 W CN 2014074673W WO 2015078123 A1 WO2015078123 A1 WO 2015078123A1
Authority
WO
WIPO (PCT)
Prior art keywords
value
current frame
stereo
parameter
itd
Prior art date
Application number
PCT/CN2014/074673
Other languages
English (en)
French (fr)
Inventor
张兴涛
苗磊
吴文海
Original Assignee
华为技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华为技术有限公司 filed Critical 华为技术有限公司
Priority to KR1020167014661A priority Critical patent/KR101798559B1/ko
Priority to EP14866259.6A priority patent/EP3057095B1/en
Priority to JP2016534977A priority patent/JP6335301B2/ja
Publication of WO2015078123A1 publication Critical patent/WO2015078123A1/zh
Priority to US15/154,655 priority patent/US10008211B2/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching

Definitions

  • the present invention relates to the field of information technology, and in particular, to a method and apparatus for encoding stereo phase parameters.
  • stereo audio has the sense of orientation and distribution of each sound source, which can improve the clarity of audio information, so stereo audio can better meet people's demand for audio effects.
  • Global parameters include G-ITD (Global Inter-Channel Time Difference) and G-IPD (Global Inter-Channel Phase Difference).
  • the extracted G-ITD and G-IPD have low accuracy, and the original stereo phase information cannot be restored according to G-ITD and G-IPD, resulting in poor stereo audio information. .
  • Embodiments of the present invention provide a coding method and apparatus for a stereo phase parameter, which can improve the effect of stereo audio information.
  • an embodiment of the present invention provides a method for encoding a stereo phase parameter, including: acquiring a stereo global phase parameter of a current frame;
  • the value of the stereo global phase parameter of the adjusted current frame is encoded.
  • the adjusting the value of the stereo global phase parameter of the current frame according to the determining result of the value of the stereo global phase parameter of the current frame includes:
  • the value of the stereo global phase parameter of the current frame is adjusted according to the determination result of the value of the stereo global phase parameter of the current frame and the absolute value mean of the inter-channel time difference of each subband of the current frame.
  • the determination result of the value of the stereo global phase parameter and the absolute value mean of the inter-channel time difference of each sub-band of the current frame, before adjusting the value of the stereo global phase parameter of the current frame further includes: sliding processing, Obtaining an absolute value mean value of the smoothed inter-channel time difference of each sub-band of the current frame;
  • Adjusting the value of the stereo global phase parameter of the current frame according to the determination result of the value of the stereo global phase parameter of the current frame and the absolute value mean of the inter-channel time difference of each subband of the current frame Specifically include:
  • a value of a stereo global phase parameter of the current frame according to a determination result of a value of a stereo global phase parameter of the current frame and an absolute value mean value of a smoothed inter-channel time difference of each subband of the current frame Make adjustments.
  • the stereo global phase parameter includes a group delay G- ITD parameters
  • the determination result of the value of the stereo global phase parameter according to the current frame and the Determining an absolute value mean value of the smoothed inter-channel time difference of each sub-band of the current frame, and adjusting the value of the stereo global phase parameter of the current frame includes:
  • the absolute value of the inter-channel time difference after smoothing according to each sub-band of the current frame is obtained.
  • the mean value is adjusted for the value of the G-ITD parameter of the current frame.
  • the value of the G_ITD parameter of the current frame is adjusted according to the absolute value mean of the smoothed inter-channel time difference of each sub-band of the current frame:
  • the stereo global phase parameter includes a group delay G-ITD parameter and a group phase G-IPD parameter;
  • the stereo global phase parameter of the current frame according to the determination result of the value of the stereo global phase parameter of the current frame and the absolute value mean of the smoothed inter-channel time difference of each subband of the current frame
  • the values are adjusted to include:
  • the smoothed inter-channel time according to each sub-band of the current frame is obtained.
  • the absolute value of the difference is adjusted to adjust the value of the G-IPD parameter of the current frame.
  • the determining result of the value of the stereo global phase parameter of the current frame is When the value of the G_ITD parameter is 0, and the value of the G-IPD parameter of the current frame is not 0, the absolute value of the inter-channel time difference after smoothing according to each sub-band of the current frame is And adjusting the value of the G-IPD parameter of the current frame specifically includes:
  • the stereo global phase parameter of the current frame The result of the determination is that the value of the G-ITD parameter is 0, and the value of the G-IPD parameter of the current frame is 0, the smoothed channel according to each sub-band of the current frame
  • the mean value of the absolute value of the time difference, and adjusting the value of the G-IPD parameter of the current frame specifically includes:
  • the obtaining, obtaining an absolute value mean value of the inter-channel time difference after smoothing of each sub-band of the current frame includes:
  • an embodiment of the present invention provides an apparatus for encoding a stereo phase parameter, including: an acquiring unit, configured to acquire a stereo global phase parameter of a current frame; a determining unit, configured to determine a value of a stereo global phase parameter of the current frame acquired by the acquiring unit;
  • an adjusting unit configured to adjust a value of a stereo global phase parameter of the current frame according to a determination result of a value of a stereo global phase parameter of the current frame determined by the determining unit;
  • a coding unit configured to encode a value of a stereo global phase parameter of the current frame adjusted by the adjustment unit.
  • the adjusting unit includes:
  • An acquiring module configured to acquire an inter-channel time difference of each sub-band of the current frame, and a calculation module, configured to calculate the current time according to an inter-channel time difference of each sub-band of the current frame acquired by the acquiring module An absolute value mean of the inter-channel time difference of each sub-band of the frame; an adjustment module, configured to determine a result of the value of the stereo global phase parameter of the current frame, and each sub-band of the current frame calculated by the calculation module The absolute value of the inter-channel time difference is averaged, and the value of the stereo global phase parameter of the current frame is adjusted.
  • the adjusting unit further includes:
  • a processing module configured to perform inter-frame smoothing processing on an absolute value mean value of inter-channel time differences of each sub-band of the current frame calculated by the calculation module;
  • the obtaining module is further configured to obtain an absolute value of an absolute value of an inter-channel time difference after the smooth processing of the processing module of each sub-band of the current frame;
  • the adjusting module is further configured to: determine, according to a determination result of a value of a stereo global phase parameter of the current frame, and an absolute value of a smoothed inter-channel time difference of each subband of the current frame acquired by the acquiring module The mean value is adjusted for the value of the stereo global phase parameter of the current frame.
  • the stereo global phase parameter acquired by the acquiring unit includes a group delay G-ITD parameter Number
  • the adjusting module is further configured to: when the determining result of the value of the stereo global phase parameter of the current frame is that the value of the G_ITD parameter is not 0, according to each of the current frames acquired by the acquiring module The absolute value of the inter-channel time difference after the smoothing of the sub-bands is adjusted, and the value of the G-ITD parameter of the current frame is adjusted.
  • the adjustment module is further used to calculate the G- of the current frame according to the formula
  • / ⁇ 1
  • the absolute value of the value of the ITD parameter is adjusted, where, for the absolute value of the value of the adjusted G-ITD parameter,
  • _ is the absolute value of the smoothed inter-channel time difference of each sub-band of the current frame
  • /acl and / ac2 are smoothing factors
  • /acl > 0 , facl > 0 , /acl + /ac2 l .
  • the stereo global phase parameter acquired by the acquiring unit includes a group delay G-ITD parameter and a group phase G-I P D parameter;
  • the adjusting module is further configured to: when the determining result of the value of the stereo global phase parameter of the current frame is that the value of the G_ITD parameter is 0, according to each sub of the current frame acquired by the acquiring module The mean value of the absolute value of the inter-channel time difference after the smoothing of the band is adjusted, and the value of the G-IPD parameter of the current frame is adjusted.
  • the adjusting module is further configured to: when the value of the stereo global phase parameter of the current frame is determined, the value of the G_ITD parameter is 0, and the value of the G-IPD parameter of the current frame is not 0.
  • / ⁇ 3
  • + / ⁇ 4 / ⁇ ⁇ _ fine adjust the absolute value of the value of the G - IPD parameter,
  • the adjusting unit further includes:
  • a configuration module configured to: when the value of the value of the stereo global phase parameter of the current frame is 0, and the value of the G-ITD parameter of the current frame is 0, The absolute difference between the inter-channel phase differences after the smoothing of the processing module of each sub-band of the current frame The value average is used as the absolute value of the G-IPD parameter of the current frame, and the symbol of the G-IPD parameter of the previous frame of the current frame is used as the symbol of the G-IPD parameter of the current frame.
  • the method and apparatus for encoding a stereo phase parameter provided by an embodiment of the present invention first acquires a stereo global phase parameter of a current frame, and then determines a value of a stereo global phase parameter of the current frame, and determines a value of a stereo global phase parameter of the current frame. As a result, the value of the stereo global phase parameter of the current frame is adjusted, and finally the value of the adjusted stereo global phase parameter of the current frame is encoded.
  • the stereo phase information is restored by the adjusted Global parameter, and the accuracy of the stereo phase information can be improved, so that the effect of the stereo audio information can be improved.
  • FIG. 1 is a flowchart of a method for encoding a stereo phase parameter according to an embodiment of the present invention
  • FIG. 2 is a flow chart of another method for encoding a stereo phase parameter according to an embodiment of the present invention
  • FIG. 3 is a flowchart of still another encoding method of a stereo phase parameter according to an embodiment of the present invention.
  • FIG. 4 is a flow chart of another encoding method of a stereo phase parameter according to an embodiment of the present invention.
  • FIG. 5 is a schematic structural diagram of an apparatus for encoding a stereo phase parameter according to an embodiment of the present invention.
  • FIG. 6 is a schematic structural diagram of a server according to an embodiment of the present disclosure.
  • FIG. 7 is a schematic structural diagram of another apparatus for encoding a stereo phase parameter according to an embodiment of the present disclosure.
  • FIG. 8 is a schematic structural diagram of another server according to an embodiment of the present invention.
  • An embodiment of the present invention provides a method for encoding a stereo phase parameter. As shown in FIG. 1, the method includes: 101.
  • the server acquires a stereo global phase parameter of the current frame.
  • the stereo global phase parameters include group delay G-ITD and group phase G-IPD.
  • group delay G_ITD represents the time delay between the left and right channels of the stereo
  • the measurement unit is the sample point.
  • Group Phase G—IPD indicates the waveform similarity of the left and right channels of the stereo after time alignment.
  • the unit of measurement is radians, and the range of values is (- ⁇ , ⁇ ].
  • the server determines a value of a stereo global phase parameter of the current frame.
  • the determining result of the value of the stereo global phase parameter of the current frame includes: the value of the G_ITD parameter of the current frame is not 0, the value of the G_ITD parameter of the current frame is 0, and the value of the G-IPD parameter of the current frame Not 0, the value of the G-ITD parameter of the current frame is 0 and the value of the G-IPD parameter of the current frame is 0.
  • the server adjusts a value of a stereo global phase parameter of the current frame according to a determination result of a value of a stereo global phase parameter of the current frame.
  • the server when the accuracy of the extracted stereo global phase parameters G_ITD and G_I P D of the current frame is low, the server cannot restore the original stereo phase information according to the stereo phase parameter, so that the stereo audio signal cannot be recovered.
  • the server by adjusting the G-ITD or the G-IPD, the server can avoid the situation that the stereo phase information is restored according to the G-ITD and the G-IPD which are largely different from the original stereo phase parameters. Improve the effect of stereo audio information.
  • the server encodes the value of the adjusted stereo global phase parameter of the current frame.
  • the server can encode the value of the stereo global phase parameter of the adjusted current frame by using a 5 bit (bit) quantization coding method.
  • the first bit is the stereo phase parameter flag bit flag, and the second to fifth bits are adjusted.
  • the encoding method of the stereo phase parameter provided by the embodiment of the present invention first obtains the stereo global phase parameter of the current frame, and then determines the value of the stereo global phase parameter of the current frame, and according to the determination result of the value of the stereo global phase parameter of the current frame, Stereo global for the current frame.
  • Stereo global for the current frame The value of the phase parameter is adjusted, and finally the value of the adjusted stereo global phase parameter of the current frame is encoded.
  • the stereo phase information is restored by the adjusted Global parameter, and the accuracy of the stereo phase information can be improved, so that the effect of the stereo audio information can be improved.
  • An embodiment of the present invention provides another method for encoding a stereo phase parameter. As shown in FIG. 2, the method includes:
  • the server acquires a stereo global phase parameter of the current frame.
  • the stereo global phase parameters include group delay G-ITD and group phase G-IPD.
  • group delay G_ITD represents the time delay between the left and right channels of the stereo
  • the measurement unit is the sample point.
  • Group Phase G—IPD indicates the waveform similarity of the left and right channels of the stereo after time alignment.
  • the unit of measurement is radians, and the range of values is (- ⁇ , ⁇ ].
  • the server determines a value of a stereo global phase parameter of the current frame.
  • the determining result of the value of the stereo global phase parameter of the current frame includes: the value of the G_ITD parameter of the current frame is not 0, the value of the G_ITD parameter of the current frame is 0, and the value of the G-IPD parameter of the current frame Not 0, the value of the G-ITD parameter of the current frame is 0 and the value of the G-IPD parameter of the current frame is 0.
  • the server acquires an inter-channel time difference of each sub-band of the current frame.
  • the sub-bands of the current frame may be divided in advance by the server.
  • the server can divide the frequency band into 12 sub-bands, each of which has a corresponding inter-channel time difference.
  • the time difference between channels is used to indicate the time difference between the sound reaching the left and right ears respectively.
  • the ITD can be represented by a sample point.
  • the time interval of ITD is (-5ms, 5ms), and the unit of measurement is ms (millisecond, millisecond). After the server samples the bandwidth of 16kHz, the corresponding sample interval is (-80, 80), and the unit of measurement is sample. point.
  • the server calculates a current frame according to an inter-channel time difference of each sub-band of the current frame.
  • the server can calculate according to the formula / ⁇ )
  • /rz>(b) is the inter-channel time difference of the b-th sub-band
  • b is an integer greater than or equal to 1 and less than or equal to L
  • L is the total number of sub-bands .
  • the inter-frame smoothing process acquires the absolute value of the absolute value of the inter-channel time difference after smoothing of each sub-band of the current frame.
  • the inter-frame smoothing process acquires the absolute value mean value of the smoothed inter-channel time difference of each sub-band of the current frame.
  • / ⁇ ) _ ⁇ is the absolute value of the smoothed inter-channel time difference of each sub-band of the current frame
  • ITD smik - V is the smoothed processing of each sub-band of the previous frame of the current frame
  • the server smoothes the adjacent data frames of the current frame, so that the stereo audio signal corresponding to the adjacent data frame of the current frame may be abruptly changed, and the stereo audio signal may be abruptly changed. Improve stereo audio.
  • step 206a is performed, and the server performs the smoothed inter-channel time difference according to each sub-band of the current frame.
  • the absolute value is averaged to adjust the value of the G-ITD parameter of the current frame.
  • the absolute value of the value of the G-ITD parameter after the adjustment is the absolute value of the value of the G-ITD parameter
  • / ⁇ )_ ⁇ is the absolute time difference between the smoothed channels of each sub-band of the current frame.
  • step 206b is executed, and the server according to the formula
  • C 3x
  • step 206c is performed, and the server will each of the current frame.
  • the absolute value of the inter-channel phase difference after the smoothing of the sub-band is taken as the absolute value of the G-IPD parameter of the current frame
  • the symbol of the G-IPD parameter of the previous frame of the current frame is taken as the G-IPD parameter of the current frame. symbol.
  • the server can calculate according to the formula: 1 ⁇ ⁇ > -
  • FFr_JEN is the transform length, which is the frequency value, which is the absolute value of the smoothed inter-channel time difference of each sub-band of the current frame, and the IPD is the smoothing of each sub-band of the current frame.
  • the server encodes a value of the adjusted stereo global phase parameter of the current frame.
  • the server can encode the value of the stereo global phase parameter of the adjusted current frame by using a 5 bit (bit) quantization coding method.
  • the first bit is the stereo phase parameter flag bit flag, and the second to fifth bits are adjusted.
  • the encoding method of the stereo phase parameter provided by the embodiment of the present invention first obtains the stereo global phase parameter of the current frame, and then determines the value of the stereo global phase parameter of the current frame, and according to the determination result of the value of the stereo global phase parameter of the current frame, The value of the stereo global phase parameter of the current frame is adjusted, and finally the value of the adjusted stereo global phase parameter of the current frame is encoded.
  • the embodiment of the present invention can restore the stereo phase information through the adjusted Global parameter, thereby improving the accuracy of the stereo phase information, thereby improving the effect of the stereo audio information.
  • the embodiment of the present invention provides another method for encoding a stereo phase parameter, which is suitable for adjusting a case where the G-ITD parameter and the G-IPD parameter of the current frame are both 0.
  • the method includes :
  • the server acquires a stereo global phase parameter of the current frame.
  • the stereo global phase parameters include group delay G-ITD and group phase G-IPD.
  • group delay G_ITD represents the time delay between the left and right channels of the stereo
  • the measurement unit is the sample point.
  • Group Phase G—IPD indicates the waveform similarity of the left and right channels of the stereo after time alignment.
  • the unit of measurement is radians, and the range of values is (- ⁇ , ⁇ ].
  • the server determines a value of a stereo global phase parameter of the current frame.
  • the determining result of the value of the stereo global phase parameter of the current frame includes: the value of the G_ITD parameter of the current frame is not 0, the value of the G_ITD parameter of the current frame is 0, and the value of the G-IPD parameter of the current frame Not 0, the value of the G-ITD parameter of the current frame is 0 and the value of the G-IPD parameter of the current frame is 0. 303.
  • the server acquires an inter-channel time difference of each sub-band of the current frame.
  • the sub-bands of the current frame may be divided in advance by the server.
  • the server can divide the frequency band into 12 sub-bands, each of which has a corresponding inter-channel time difference.
  • the time difference between channels is used to indicate the time difference between the sound reaching the left and right ears respectively.
  • the ITD can be represented by a sample point.
  • the time interval of ITD is (-5ms, 5ms), and the unit of measurement is ms (millisecond, millisecond). After the server samples the bandwidth of 16kHz, the corresponding sample interval is (-80, 80), and the unit of measurement is sample. point.
  • the server calculates an absolute value of the absolute value of the inter-channel time difference of each sub-band of the current frame according to the inter-channel time difference of each sub-band of the current frame.
  • the inter-frame smoothing process acquires the absolute value mean value of the smoothed inter-channel time difference of each sub-band of the current frame.
  • the inter-frame smoothing process acquires the absolute value mean value of the smoothed inter-channel time difference of each sub-band of the current frame.
  • / ⁇ ) _ ⁇ is the absolute value of the smoothed inter-channel time difference of each sub-band of the current frame
  • ITD smik - V is the smoothed processing of each sub-band of the previous frame of the current frame
  • the server smoothes the adjacent data frames of the current frame, so that the stereo audio signal corresponding to the adjacent data frame of the current frame may be abruptly changed, and the stereo audio signal may be abruptly changed. Improve stereo audio.
  • the server will each sub-band of the current frame.
  • the absolute value of the inter-channel phase difference after smoothing is taken as the absolute value of the G-IPD parameter of the current frame, and the symbol of the G-IPD parameter of the previous frame of the current frame is used as the symbol of the G-IPD parameter of the current frame.
  • the server can calculate according to the formula: 1 ⁇ ⁇ ⁇ > -
  • FFr_JEN is the transform length, which is the frequency point value, which is the absolute value of the smoothed inter-channel time difference of each sub-band of the current frame
  • IPD _ is the smoothed inter-channel phase difference of each sub-band of the current frame. The absolute value of the mean.
  • the server encodes the value of the adjusted stereo global phase parameter of the current frame.
  • the server can encode the value of the stereo global phase parameter of the adjusted current frame by using a 5 bit (bit) quantization coding method.
  • the first bit is the stereo phase parameter flag bit flag, and the second to fifth bits are adjusted.
  • the encoding method of the stereo phase parameter provided by the embodiment of the present invention first obtains the stereo global phase parameter of the current frame, and then determines the value of the stereo global phase parameter of the current frame, and according to the determination result of the value of the stereo global phase parameter of the current frame, The value of the stereo global phase parameter of the current frame is adjusted, and finally the value of the adjusted stereo global phase parameter of the current frame is encoded.
  • the embodiment of the present invention can restore the stereo phase information through the adjusted Global parameter.
  • the accuracy of the body sound phase information can improve the effect of stereo audio information.
  • An embodiment of the present invention provides a coding method for a stereo phase parameter, which is adapted to adjust a case where the G-ITD parameter and the G-IPD parameter of the current frame are not all 0, as shown in FIG. include:
  • the server acquires a stereo global phase parameter of the current frame.
  • the stereo global phase parameters include group delay G-ITD and group phase G-IPD.
  • group delay G_ITD represents the time delay between the left and right channels of the stereo
  • the measurement unit is the sample point.
  • Group Phase G—IPD indicates the waveform similarity of the left and right channels of the stereo after time alignment.
  • the unit of measurement is radians, and the range of values is (- ⁇ , ⁇ ].
  • the server determines a value of a stereo global phase parameter of the current frame.
  • the determining result of the value of the stereo global phase parameter of the current frame includes: the value of the G_ITD parameter of the current frame is not 0, the value of the G_ITD parameter of the current frame is 0, and the value of the G-IPD parameter of the current frame Not 0, the value of the G-ITD parameter of the current frame is 0 and the value of the G-IPD parameter of the current frame is 0.
  • the server acquires an inter-channel time difference of each sub-band of the current frame.
  • the sub-bands of the current frame may be divided in advance by the server.
  • the server can divide the frequency band into 12 sub-bands, each of which has a corresponding inter-channel time difference.
  • the time difference between channels is used to indicate the time difference between the sound reaching the left and right ears respectively.
  • the ITD can be represented by a sample point.
  • the time interval of ITD is (-5ms, 5ms), and the unit of measurement is ms (millisecond, millisecond). After the server samples the bandwidth of 16kHz, the corresponding sample interval is (-80, 80), and the unit of measurement is sample. point.
  • the server calculates an absolute value of the absolute value of the inter-channel time difference of each sub-band of the current frame according to the inter-channel time difference of each sub-band of the current frame.
  • the server can calculate according to the formula / ⁇ )
  • the absolute value is average, /rz>(b) is the inter-channel time difference of the b-th sub-band, b is an integer greater than or equal to 1 and less than or equal to L, and L is the total number of sub-bands.
  • the inter-frame smoothing process acquires the absolute value mean value of the smoothed inter-channel time difference of each sub-band of the current frame.
  • the inter-frame smoothing process acquires the absolute value mean value of the smoothed inter-channel time difference of each sub-band of the current frame.
  • / ⁇ ) _ ⁇ ) is the mean of the absolute value of inter-channel time difference after smoothing processing for each sub-band of the current frame, ITD_ S m (k _ V ) of the previous frame of the current frame of each subband smooth
  • the server smoothes the adjacent data frames of the current frame, so that the stereo audio signal corresponding to the adjacent data frame of the current frame may be abruptly changed, and the stereo audio signal may be abruptly changed. Improve stereo audio.
  • step 406a is performed by the server according to the smoothed inter-channel time difference of each sub-band of the current frame.
  • the absolute value is averaged to adjust the value of the G-ITD parameter of the current frame.
  • the absolute value of the value of the G-ITD parameter after adjustment is the absolute value of the value of the G-ITD parameter
  • / ⁇ )_ ⁇ is the smoothed processing of each sub-band of the current frame
  • step 406b is executed, and the server according to the formula
  • C 3x
  • the server encodes a value of the adjusted stereo global phase parameter of the current frame.
  • the server can encode the value of the stereo global phase parameter of the adjusted current frame by using a 5 bit (bit) quantization coding method, the first bit is the stereo phase parameter flag bit flag, and the second to fifth bits are adjusted.
  • the encoding method of the stereo phase parameter provided by the embodiment of the present invention first obtains the stereo global phase parameter of the current frame, and then determines the value of the stereo global phase parameter of the current frame, and according to the determination result of the value of the stereo global phase parameter of the current frame, The value of the stereo global phase parameter of the current frame is adjusted, and finally the value of the adjusted stereo global phase parameter of the current frame is encoded.
  • the stereo phase information is restored by the adjusted Global parameter, and the accuracy of the stereo phase information can be improved, thereby improving the effect of the stereo audio information.
  • An embodiment of the present invention provides an apparatus for encoding a stereo phase parameter.
  • the entity of the apparatus may be a server, and the apparatus includes: an obtaining unit 51, a determining unit 52, an adjusting unit 53, and an encoding unit 54. .
  • the obtaining unit 51 is configured to acquire a stereo global phase parameter of the current frame.
  • the determining unit 52 is configured to determine a value of a stereo global phase parameter of the current frame acquired by the obtaining unit 51.
  • the adjusting unit 53 is configured to adjust the value of the stereo global phase parameter of the current frame according to the determination result of the value of the stereo global phase parameter of the current frame determined by the determining unit 52.
  • the encoding unit 54 is configured to encode the value of the stereo global phase parameter of the current frame adjusted by the adjusting unit 53.
  • the entity of the encoding device of the stereo phase parameter may be a server.
  • the server may include: a processor 61, an input device 62, an output device 63, a memory 64, and the input device 62.
  • the output device 63 and the memory 64 are connected to the processor 61, respectively.
  • the processor 61 is configured to acquire a stereo global phase parameter of the current frame.
  • the processor 61 is further configured to determine a value of a stereo global phase parameter of the current frame.
  • the processor 61 is further configured to adjust a value of a stereo global phase parameter of the current frame according to a determination result of a value of a stereo global phase parameter of the current frame.
  • the processor 61 is further configured to encode the value of the adjusted stereo global phase parameter of the current frame.
  • An embodiment of the present invention provides another apparatus for encoding a stereo phase parameter.
  • the entity of the apparatus may be a server, and the apparatus includes: an obtaining unit 71, a determining unit 72, Adjustment unit 73, encoding unit 74.
  • the obtaining unit 71 is configured to acquire a stereo global phase parameter of the current frame.
  • the determining unit 72 is configured to determine a value of a stereo global phase parameter of the current frame acquired by the acquiring unit 71.
  • the adjusting unit 73 is configured to adjust the value of the stereo global phase parameter of the current frame according to the determination result of the value of the stereo global phase parameter of the current frame determined by the determining unit 72.
  • the encoding unit 74 is configured to encode the value of the stereo global phase parameter of the current frame adjusted by the adjusting unit 73.
  • the adjusting unit 73 includes: an obtaining module 7301, a calculating module 7302, and an adjusting module 7303.
  • the obtaining module 7301 is configured to obtain an inter-channel time difference of each sub-band of the current frame.
  • the calculation module 7302 is configured to perform, according to the sound adjustment module 7303 of each sub-band of the current frame acquired by the acquisition module 7301, the determination result of the value of the stereo global phase parameter of the current frame and the respective sub-frames of the current frame calculated by the calculation module 7302 The absolute value of the time difference between the channels is adjusted to adjust the value of the stereo global phase parameter of the current frame.
  • the adjustment unit 73 further includes: a processing module 7304.
  • the processing module 7304 is configured to perform inter-frame smoothing processing on the absolute value mean value of the inter-channel time difference of each sub-band of the current frame calculated by the calculation module 7302.
  • the obtaining module 7301 is further configured to obtain an absolute value mean value of the inter-channel time difference after the smooth processing of the processing module 7304 of each sub-band of the current frame.
  • the adjusting module 7303 is further configured to: according to the determination result of the value of the stereo global phase parameter of the current frame and the absolute value mean value of the smoothed inter-channel time difference of each subband of the current frame acquired by the acquiring module 7301, for the current frame The value of the stereo global phase parameter is adjusted.
  • the stereo global phase parameter acquired by the acquisition unit 71 includes a group delay G-ITD parameter.
  • the adjusting module 7303 is further configured to: when the determined result of the value of the stereo global phase parameter of the current frame is that the value of the G_ITD parameter is not 0, the smoothed sound of each subband of the current frame acquired according to the obtaining module 7301 The absolute value of the time difference between the channels, the G-ITD parameter of the current frame The value is adjusted.
  • the adjustment module 7303 is also used to calculate the value of the G-ITD parameter of the current frame according to the formula
  • / ⁇ 1
  • the absolute value of the value of the G-ITD parameter after adjustment is the absolute value of the value of the G-ITD parameter
  • ITD_ is the absolute value of the absolute value of the inter-channel time difference after smoothing of each sub-band of the current frame
  • /acl and / ac2 are smoothing factors
  • / acl>0, facl > 0 , fad + facl 1.
  • the stereo global phase parameters acquired by the acquisition unit 71 include group delay G_ITD parameters and group phase G-IPD parameters.
  • the adjusting module 7303 is further configured to: when the determined result of the value of the stereo global phase parameter of the current frame is that the value of the G_ITD parameter is 0, the smoothed channel of each subband of the current frame acquired according to the obtaining module 7301 The absolute value of the time difference is adjusted to adjust the value of the G-IPD parameter of the current frame.
  • the adjusting module 7303 is further configured to: when the value of the stereo global phase parameter of the current frame is determined to be 0, and the value of the G_ITD parameter is 0, and the value of the G-IPD parameter of the current frame is not 0, according to the formula
  • _ IPD ⁇ fac x
  • the absolute value of the value of the adjusted G-IPD parameter is the absolute value of the value of the G-IPD parameter
  • IPD sm ⁇ K ITD - sm
  • FFT JEN is the transform length, is the frequency value
  • /TO is the absolute value mean value of the smoothed inter-channel time difference of each sub-band of the current frame
  • IPD_sm is the absolute value mean value of the smoothed inter-channel phase difference of each sub-band of the current frame.
  • the smoothing factor / ac 3 0.75 when the adjustment module 7303 is adjusted.
  • the adjusting unit 73 further includes: a configuration module 7305.
  • the configuration module 7305 is configured to: when the value of the stereo global phase parameter of the current frame is determined to be 0, and the value of the G-ITD parameter of the current frame is 0, the sub-bands of the current frame are
  • the processing unit 7304 smoothes the absolute value of the inter-channel phase difference as the absolute value of the G-IPD parameter of the current frame, and uses the symbol of the G-IPD parameter of the previous frame of the current frame as the G-IPD of the current frame. The symbol of the parameter.
  • ITD_sm ⁇ is the absolute value of the smoothed inter-channel time difference of each sub-band of the current frame
  • ⁇ _ - ⁇ is the smoothed channel of each sub-band of the previous frame of the current frame
  • Processing module 7304 smoothing factor smoothing factor fac5 0.9844.
  • the entity of the encoding device of the stereo phase parameter may be a server.
  • the server may include: a processor 81, an input device 82, an output device 83, a memory 84, and the input device 82.
  • Output device 83 and memory 84 are coupled to processor 81, respectively.
  • the processor 81 is configured to acquire a stereo global phase parameter of the current frame.
  • the processor 81 is further configured to determine a value of a stereo global phase parameter of the current frame.
  • the processor 81 is further configured to adjust a value of a stereo global phase parameter of the current frame according to a determination result of a value of a stereo global phase parameter of the current frame.
  • the processor 81 is further configured to encode the value of the adjusted stereo global phase parameter of the current frame.
  • the processor 81 is further configured to acquire an inter-channel time difference of each sub-band of the current frame.
  • the processor 81 is further configured to calculate a current processor 81 according to an inter-channel time difference of each sub-band of the current frame, and further configured to determine a value according to a value of a stereo global phase parameter of the current frame. The value of the global phase parameter is adjusted.
  • the processor 81 is further configured to perform inter-frame smoothing processing on the absolute value mean of the inter-channel time differences of the respective sub-bands of the current frame.
  • the processor 81 is further configured to obtain an average value of the absolute values of the smoothed inter-channel time differences of the respective sub-bands of the current frame.
  • the processor 81 is further configured to: according to the determination result of the value of the stereo global phase parameter of the current frame and the absolute value mean value of the smoothed inter-channel time difference of each subband of the current frame, the stereo global phase parameter of the current frame The value is adjusted.
  • the stereo global phase parameters acquired by processor 81 include the group delay G-ITD parameters.
  • the processor 81 is further configured to: when the value of the stereo global phase parameter of the current frame is determined to be that the value of the G_ITD parameter is not 0, the absolute time difference between the channels after the smoothing of each subband of the current frame is The value is averaged to adjust the value of the G-ITD parameter of the current frame.
  • the processor 81 is also used to determine the absolute value of the G-ITD parameter of the current frame according to the formula
  • / ⁇ 1 ⁇
  • the absolute value of the value of the G-ITD parameter after adjustment is the absolute value of the value of the G-ITD parameter
  • ITD_ is the absolute value of the absolute value of the inter-channel time difference after smoothing of each sub-band of the current frame
  • /acl and / ac2 are smoothing factors
  • / acl > 0 , facl > 0 , fad + facl 1.
  • the stereo global phase parameters acquired by processor 81 include group delay G-ITD parameters and group phase G-IPD parameters.
  • the processor 81 is further configured to: when the determined result of the value of the stereo global phase parameter of the current frame is that the value of the G_ITD parameter is 0, the absolute value of the inter-channel time difference after the smoothing of each sub-band of the current frame is used. Mean, adjusts the value of the G-IPD parameter of the current frame.
  • the processor 81 is further configured to: when the value of the stereo global phase parameter of the current frame is determined to be 0, and the value of the G_ITD parameter is 0, and the value of the G-IPD parameter of the current frame is not 0, according to the formula
  • _ IPD ⁇ fac x
  • the absolute value of the value of the adjusted G-IPD parameter is the absolute value of the value of the G-IPD parameter
  • IPD sm ⁇ K ITD - sm
  • FFT JEN is the transform length, is the frequency value
  • /TO is the absolute value of the smoothed inter-channel time difference of each sub-band of the current frame
  • IPD_sm is the absolute value of the smoothed inter-channel phase difference of each sub-band of the current frame.
  • the processor 81 is further configured to: when the value of the stereo global phase parameter of the current frame is determined to be 0, and the value of the G_ITD parameter of the current frame is 0, the respective sub-frames of the current frame are The absolute value of the inter-channel phase difference after smoothing is taken as the absolute value of the G-IPD parameter of the current frame, and the symbol of the G-IPD parameter of the previous frame of the current frame is taken as the G-IPD parameter of the current frame. symbol.
  • ITD_sm ⁇ is the absolute value of the smoothed inter-channel time difference of each sub-band of the current frame
  • ⁇ _ - ⁇ is the smoothed channel of each sub-band of the previous frame of the current frame
  • the smoothing factor of processor 81 smoothing processing / ac5 0.9844. It should be noted that other corresponding descriptions of the functional units in the stereo phase parameter adjustment apparatus provided in the embodiment of the present invention may be referred to the corresponding description in FIG. 2, and details are not described herein again.
  • the apparatus for encoding the stereo phase parameters provided by the embodiment of the present invention may implement the foregoing method embodiments.
  • the encoding method and apparatus for stereo phase parameters provided by the embodiments of the present invention may be applied to recover stereo phase information, but are not limited thereto.
  • a person skilled in the art can understand that all or part of the process of implementing the above embodiment method can be completed by a computer program to instruct related hardware, and the program can be stored in a computer readable storage medium. In execution, the flow of an embodiment of the methods as described above may be included.
  • the storage medium may be a magnetic disk, an optical disk, a read-only memory (ROM), or a random access memory (RAM).

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

一种立体声相位参数的编码方法及装置,涉及信息技术领域,可以提高立体声音频相位信息的效果。所述方法包括:首先获取当前帧的立体声全局相位参数(101),然后确定当前帧的立体声全局相位参数的值(102),并根据当前帧的立体声全局相位参数的值的确定结果,对当前帧的立体声全局相位参数的值进行调整(103),最后对调整后的当前帧的立体声全局相位参数的值进行编码(104)。该方法适用于恢复立体声相位信息。

Description

立体声相位参数的编码方法及装置 技术领域
本发明涉及信息技术领域,特别涉及一种立体声相位参数的编码方法 及装置。
背景技术
随着人们物质生活水平的不断提高, 人们对音频效果的要求越来越 高。 与单声道音频相比, 立体声音频具有各声源的方位感和分布感, 能够 提高音频信息的清晰度,因此立体声音频可以更好地满足人们对音频效果 的需求。
目前, 获取立体声音频信号时, 通过提取 Global (全局) 参数, 根据 Global参数恢复立体声相位信息。 其中, Global参数包括 G—ITD ( Global Inter-Channel Time Difference , 群时延) 及 G— IPD ( Global Inter-Channel Phase Difference , 群相位)。
然而, 通过提取 Global参数直接恢复立体声相位信息, 提取的 G— ITD 及 G— IPD准确度较低,无法根据 G— ITD及 G— IPD恢复原始立体声相位信息, 从而导致立体声音频信息的效果较差。
发明内容
本发明实施例提供一种立体声相位参数的编码方法及装置,可以提高 立体声音频信息的效果。
本发明实施例采用的技术方案为:
第一方面,本发明提实施例供一种立体声相位参数的编码方法,包括: 获取当前帧的立体声全局相位参数;
确定所述当前帧的立体声全局相位参数的值;
根据所述当前帧的立体声全局相位参数的值的确定结果,对所述当前 帧的立体声全局相位参数的值进行调整;
对调整后的当前帧的立体声全局相位参数的值进行编码。 在第一方面的第一种实现方式中,所述根据所述当前帧的立体声全局 相位参数的值的确定结果,对所述当前帧的立体声全局相位参数的值进行 调整具体包括:
获取所述当前帧的各个子带的声道间时间差;
根据所述当前帧的各个子带的声道间时间差,计算所述当前帧的各个 子带的声道间时间差的绝对值均值;
根据所述当前帧的立体声全局相位参数的值的确定结果以及所述当 前帧的各个子带的声道间时间差的绝对值均值,对所述当前帧的立体声全 局相位参数的值进行调整。
结合第一方面或者第一方面的第一种实现方式,在第一方面的第二种 实现方式中, 在所述当前帧不是数据流的第一个数据帧时, 所述根据所述 当前帧的立体声全局相位参数的值的确定结果以及所述当前帧的各个子 带的声道间时间差的绝对值均值,对所述当前帧的立体声全局相位参数的 值进行调整前进一步包括: 滑处理,获取所述当前帧的各个子带的平滑处理后的声道间时间差的绝对 值均值;
所述根据所述当前帧的立体声全局相位参数的值的确定结果以及所 述当前帧的各个子带的声道间时间差的绝对值均值,对所述当前帧的立体 声全局相位参数的值进行调整具体包括:
根据所述当前帧的立体声全局相位参数的值的确定结果以及所述当 前帧的各个子带的平滑处理后的声道间时间差的绝对值均值,对所述当前 帧的立体声全局相位参数的值进行调整。
结合第一方面或者第一方面的第一种实现方式,或者第一方面的第二 种实现方式, 在第一方面的第三种实现方式中, 所述立体声全局相位参数 包括群时延 G— ITD参数;
所述根据所述当前帧的立体声全局相位参数的值的确定结果以及所 述当前帧的各个子带的平滑处理后的声道间时间差的绝对值均值,对所述 当前帧的立体声全局相位参数的值进行调整包括:
在所述当前帧的立体声全局相位参数的值的确定结果为所述 G—ITD 参数的值不为 0时, 根据所述当前帧的各个子带的平滑处理后的声道间时 间差的绝对值均值, 对所述当前帧的 G— ITD参数的值进行调整。
结合第一方面或者第一方面的第一种实现方式,或者第一方面的第二 种实现方式, 或者第一方面的第三种实现方式, 在第一方面的第四种实现 方式中,所述根据所述当前帧的各个子带的平滑处理后的声道间时间差的 绝对值均值, 对所述当前帧的 G— ITD参数的值进行调整具体为:
才艮据公式 |G _ ITD = \G _ ITD\ + facl x ITD sm , 对所述当前帧的 G— ITD 参数的值的绝对值进行调整, 其中, |G_/rD'|为调整之后的 G— ITD参数的值 的绝对值, |G_/rD|为 G— ITD参数的值的绝对值, /ΓΖ)_ 为所述当前帧的各 个子带的平滑处理后的声道间时间差的绝对值均值, facl与 /flC2为平滑因 子, 并且 /acl > 0 , facl > 0 , /acl + /ac2 = l。
结合第一方面或者第一方面的第一种实现方式,或者第一方面的第二 种实现方式, 或者第一方面的第三种实现方式, 或者第一方面的第四种实 现方式, 在第一方面的第五种实现方式中, /acl = 0.5。
结合第一方面或者第一方面的第一种实现方式,或者第一方面的第二 种实现方式, 或者第一方面的第三种实现方式, 或者第一方面的第四种实 现方式, 或者第一方面的第五种实现方式, 在第一方面的第六种实现方式 中 , 所述立体声全局相位参数包括群时延 G— ITD参数和群相位 G— IPD参 数;
所述根据所述当前帧的立体声全局相位参数的值的确定结果以及所 述当前帧的各个子带的平滑处理后的声道间时间差的绝对值均值,对所述 当前帧的立体声全局相位参数的值进行调整包括:
在所述当前帧的立体声全局相位参数的值的确定结果为所述 G—ITD 参数的值为 0时, 根据所述当前帧的各个子带的平滑处理后的声道间时间 差的绝对值均值, 对所述当前帧的 G—I P D参数的值进行调整。
结合第一方面或者第一方面的第一种实现方式,或者第一方面的第二 种实现方式, 或者第一方面的第三种实现方式, 或者第一方面的第四种实 现方式, 或者第一方面的第五种实现方式, 或者第一方面的第六种实现方 式, 在第一方面的第七种实现方式中, 在所述当前帧的立体声全局相位参 数的值的确定结果为所述 G— I T D参数的值为 0 , 且所述当前帧的 G— I P D参 数的值不为 0时, 所述根据所述当前帧的各个子带的平滑处理后的声道间 时间差的绝对值均值, 对所述当前帧的 G—I P D参数的值进行调整具体包 括:
才艮据公式|(7 _ //^ '| = /^3 |(7 _ //10| + /^4 //10 _ 1^ , 对所述 G— IPD参数的值 的绝对值进行调整, 其中, 为调整之后的 G— IPD参数的值的绝对 值, 为 G— IPD参数的值的绝对值, /ac3与 / ac4为平滑因子, 并且 fac3 > 0 , fac4 > 0 , fac3 + fac4 = l , IPD sm =— FFT JEN为变换长
- FFT _ LEN ~ 度, 为频点值, /Γ ) _ 为所述当前帧的各个子带的平滑处理后的声道间 时间差的绝对值均值, / ¾ _ 为所述当前帧的各个子带的平滑处理后的 声道间相位差的绝对值均值。 结合第一方面或者第一方面的第一种实现方式,或者第一方面的第二 种实现方式, 或者第一方面的第三种实现方式, 或者第一方面的第四种实 现方式, 或者第一方面的第五种实现方式, 或者第一方面的第六种实现方 式, 或者第一方面的第七种实现方式, 在第一方面的第八种实现方式中, faci = 0.75。
结合第一方面或者第一方面的第一种实现方式,或者第一方面的第二 种实现方式, 或者第一方面的第三种实现方式, 或者第一方面的第四种实 现方式, 或者第一方面的第五种实现方式, 或者第一方面的第六种实现方 式, 或者第一方面的第七种实现方式, 或者第一方面的第八种实现方式, 在第一方面的第九种实现方式中,在所述当前帧的立体声全局相位参数的 值的确定结果为所述 G—I T D参数的值为 0 , 且所述当前帧的 G— I P D参数的 值为 0时, 所述根据所述当前帧的各个子带的平滑处理后的声道间时间差 的绝对值均值, 对所述当前帧的 G— IPD参数的值进行调整具体包括:
将所述当前帧的各个子带的平滑处理后的声道间相位差的绝对值均 值作为所述当前帧的 G—I P D参数的绝对值, 将所述当前帧的前一帧的 G— IPD参数的符号作为所述当前帧的 G— IPD参数的符号。
结合第一方面或者第一方面的第一种实现方式,或者第一方面的第二 种实现方式, 或者第一方面的第三种实现方式, 或者第一方面的第四种实 现方式, 或者第一方面的第五种实现方式, 或者第一方面的第六种实现方 式, 或者第一方面的第七种实现方式, 或者第一方面的第八种实现方式, 或者第一方面的第九种实现方式, 在第一方面的第十种实现方式中, 所述 理,获取所述当前帧的各个子带的平滑处理后的声道间时间差的绝对值均 值包括:
才艮据公式 ITD _ sm(k) = fac5 x ITD _sm(k - \) + fac6 x ITD进行帧间平滑处理,其 中, ITD_Sm(J^为所述当前帧的各个子带的平滑处理后的声道间时间差的绝 对值均值, ITD _Sm(k _l)为所述当前帧的前一帧的各个子带的平滑处理后的 声道间时间差的绝对值均值, fac5与 fac6为平滑因子,并且 fac5 > 0 , fac6 > 0 , fac5 + fac6 = 1。
结合第一方面或者第一方面的第一种实现方式,或者第一方面的第二 种实现方式, 或者第一方面的第三种实现方式, 或者第一方面的第四种实 现方式, 或者第一方面的第五种实现方式, 或者第一方面的第六种实现方 式, 或者第一方面的第七种实现方式, 或者第一方面的第八种实现方式, 或者第一方面的第九种实现方式, 或者第一方面的第十种实现方式, 在第 一方面的第十一种实现方式中, /ac5 = 0.9844。
第二方面,本发明实施例提供一种立体声相位参数的编码装置,包括: 获取单元, 用于获取当前帧的立体声全局相位参数; 确定单元,用于确定所述获取单元获取的所述当前帧的立体声全局相 位参数的值;
调整单元,用于根据所述确定单元确定的所述当前帧的立体声全局相 位参数的值的确定结果,对所述当前帧的立体声全局相位参数的值进行调 整;
编码单元,用于对所述调整单元调整后的当前帧的立体声全局相位参 数的值进行编码。
在第二方面的第一种实现方式中, 所述调整单元包括:
获取模块, 用于获取所述当前帧的各个子带的声道间时间差; 计算模块,用于根据所述获取模块获取的所述当前帧的各个子带的声 道间时间差, 计算所述当前帧的各个子带的声道间时间差的绝对值均值; 调整模块,用于根据所述当前帧的立体声全局相位参数的值的确定结 果以及所述计算模块计算的所述当前帧的各个子带的声道间时间差的绝 对值均值, 对所述当前帧的立体声全局相位参数的值进行调整。
结合第二方面或者第二方面的第一种实现方式,在第二方面的第二种 实现方式中, 所述调整单元还包括:
处理模块,用于对所述计算模块计算的所述当前帧的各个子带的声道 间时间差的绝对值均值进行帧间平滑处理;
所述获取模块,还用于获取所述当前帧的各个子带的所述处理模块平 滑处理后的声道间时间差的绝对值均值;
所述调整模块,还用于根据所述当前帧的立体声全局相位参数的值的 确定结果以及所述获取模块获取的所述当前帧的各个子带的平滑处理后 的声道间时间差的绝对值均值,对所述当前帧的立体声全局相位参数的值 进行调整。
结合第二方面或者第二方面的第一种实现方式,或者第二方面的第二 种实现方式, 在第二方面的第三种实现方式中,
所述获取单元获取的所述立体声全局相位参数包括群时延 G—ITD参 数;
所述调整模块,还用于在所述当前帧的立体声全局相位参数的值的确 定结果为所述 G— ITD参数的值不为 0时, 根据所述获取模块获取的所述当 前帧的各个子带的平滑处理后的声道间时间差的绝对值均值,对所述当前 帧的 G— ITD参数的值进行调整。
结合第二方面或者第二方面的第一种实现方式,或者第二方面的第二 种实现方式, 或者第二方面的第三种实现方式, 在第二方面的第四种实现 方式中,
所述调整模块, 还用于才艮据公式|(7 _ /^)'| = /^1 |(7 _/^)| + /^2 /^) _ , 对所述当前帧的 G—ITD参数的值的绝对值进行调整, 其中, 为调整 之后的 G— ITD参数的值的绝对值, |G_/rD|为 G— ITD参数的值的绝对值,
_ 为所述当前帧的各个子带的平滑处理后的声道间时间差的绝对值 均值, /acl与/ ac2为平滑因子, 并且 /acl > 0 , facl > 0 , /acl + /ac2 = l 。
结合第二方面或者第二方面的第一种实现方式,或者第二方面的第二 种实现方式, 或者第二方面的第三种实现方式, 或者第二方面的第四种实 现方式, 在第二方面的第五种实现方式中,
所述调整模块调整时的平滑因子 foci = 0.5 。
结合第二方面或者第二方面的第一种实现方式,或者第二方面的第二 种实现方式, 或者第二方面的第三种实现方式, 或者第二方面的第四种实 现方式, 或者第二方面的第五种实现方式, 在第二方面的第六种实现方式 中,
所述获取单元获取的所述立体声全局相位参数包括群时延 G—ITD参 数和群相位 G— I P D参数;
所述调整模块,还用于在所述当前帧的立体声全局相位参数的值的确 定结果为所述 G— ITD参数的值为 0时, 根据所述获取模块获取的所述当前 帧的各个子带的平滑处理后的声道间时间差的绝对值均值,对所述当前帧 的 G— IPD参数的值进行调整。 结合第二方面或者第二方面的第一种实现方式,或者第二方面的第二 种实现方式, 或者第二方面的第三种实现方式, 或者第二方面的第四种实 现方式, 或者第二方面的第五种实现方式, 或者第二方面的第六种实现方 式, 在第二方面的第七种实现方式中,
所述调整模块,还用于在所述当前帧的立体声全局相位参数的值的确 定结果为所述 G— ITD参数的值为 0 , 且所述当前帧的 G— IPD参数的值不为 0 时, 根据公式|(7 _ //^ '| = /^3 |(7 _ //^| + /^4 //^ _細 , 对所述 G— IPD参数的值 的绝对值进行调整, 其中, 为调整之后的 G— IPD参数的值的绝对 值, 为 G— IPD参数的值的绝对值, /ac3与 / ac4为平滑因子, 并且 fac3 > 0 , fac4 > 0 , fac3 + fac4 = l , IPD sm =— FFT JEN为变换长
- FFT _ LEN ~ 度, 为频点值, /Γ ) _ 为所述当前帧的各个子带的平滑处理后的声道间 时间差的绝对值均值, / ¾ _ 为所述当前帧的各个子带的平滑处理后的 声道间相位差的绝对值均值。
结合第二方面或者第二方面的第一种实现方式,或者第二方面的第二 种实现方式, 或者第二方面的第三种实现方式, 或者第二方面的第四种实 现方式, 或者第二方面的第五种实现方式, 或者第二方面的第六种实现方 式, 或者第二方面的第七种实现方式, 在第二方面的第八种实现方式中, 所述调整模块调整时的平滑因子 _/k;3 = 0.75。
结合第二方面或者第二方面的第一种实现方式,或者第二方面的第二 种实现方式, 或者第二方面的第三种实现方式, 或者第二方面的第四种实 现方式, 或者第二方面的第五种实现方式, 或者第二方面的第六种实现方 式, 或者第二方面的第七种实现方式, 或者第二方面的第八种实现方式, 在第二方面的第九种实现方式中, 所述调整单元还包括:
配置模块,用于在所述当前帧的立体声全局相位参数的值的确定结果 为所述 G— ITD参数的值为 0 , 且所述当前帧的 G— IPD参数的值为 0时, 将所 述当前帧的各个子带的所述处理模块平滑处理后的声道间相位差的绝对 值均值作为所述当前帧的 G— I P D参数的绝对值, 将所述当前帧的前一帧的 G— IPD参数的符号作为所述当前帧的 G— IPD参数的符号。
结合第二方面或者第二方面的第一种实现方式,或者第二方面的第二 种实现方式, 或者第二方面的第三种实现方式, 或者第二方面的第四种实 现方式, 或者第二方面的第五种实现方式, 或者第二方面的第六种实现方 式, 或者第二方面的第七种实现方式, 或者第二方面的第八种实现方式, 或者第二方面的第九种实现方式, 在第二方面的第十种实现方式中,
所述处理模块,还用于 ή 据公 ^ ITD _ sm(k) = fac5 x ITD _sm(k— V) + fac6 x ITD 进行帧间平滑处理, 其中, /rZ) m(yt)为所述当前帧的各个子带的平滑处理 后的声道间时间差的绝对值均值, ITD _ sm{k - 1)为所述当前帧的前一帧的各 个子带的平滑处理后的声道间时间差的绝对值均值, /flC5与 /«c6为平滑因 子, 并且 fac5 > 0 , fac6 > 0 , fac5 + fac6 = 1。
结合第二方面或者第二方面的第一种实现方式,或者第二方面的第二 种实现方式, 或者第二方面的第三种实现方式, 或者第二方面的第四种实 现方式, 或者第二方面的第五种实现方式, 或者第二方面的第六种实现方 式, 或者第二方面的第七种实现方式, 或者第二方面的第八种实现方式, 或者第二方面的第九种实现方式, 或者第二方面的第十种实现方式, 在第 二方面的第十一种实现方式中,
所述处理模块平滑处理时的平滑因子/ ac5 = 0.9844。
本发明实施例提供的立体声相位参数的编码方法及装置,首先获取当 前帧的立体声全局相位参数, 然后确定当前帧的立体声全局相位参数的 值, 并根据当前帧的立体声全局相位参数的值的确定结果, 对当前帧的立 体声全局相位参数的值进行调整,最后对调整后的当前帧的立体声全局相 位参数的值进行编码。 与目前通过提取 Global参数直接恢复立体声相位信 息相比, 本发明实施例通过调整后的 Global参数恢复立体声相位信息, 能 够提高立体声相位信息的准确度, 从而可以提高立体声音频信息的效果。 附图说明 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍, 显而易见地, 下面描述中 的附图仅仅是本发明的一些实施例, 对于本领域普通技术人员来讲, 在不 付出创造性劳动的前提下, 还可以根据这些附图获得其它的附图。
图 1为本发明实施例提供的一种立体声相位参数的编码方法流程图; 图 2为本发明实施例提供的另一种立体声相位参数的编码方法流程 图;
图 3为本发明实施例提供的又一种立体声相位参数的编码方法流程 图;
图 4为本发明实施例提供的再一种立体声相位参数的编码方法流程 图;
图 5为本发明实施例提供的一种立体声相位参数的编码装置的结构示 意图;
图 6为本发明实施例提供的一种服务器的结构示意图;
图 7为本发明实施例提供的另一种立体声相位参数的编码装置的结构 示意图;
图 8为本发明实施例提供的另一种服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进 行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例, 而不是全部的实施例。 基于本发明中的实施例, 本领域普通技术人员在没 有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的 范围。
为使本发明技术方案的优点更加清楚,下面结合附图和实施例对本发 明作详细说明。
本发明实施例提供一种立体声相位参数的编码方法, 如图 1所示, 所 述方法包括: 101、 服务器获取当前帧的立体声全局相位参数。
其中, 立体声全局相位参数包括群时延 G— ITD及群相位 G— IPD。 在本 发明实施例中, 群时延 G—ITD表示立体声的左右声道之间的时间延时, 计 量单位为样点。 群相位 G—IPD表示立体声的左右声道在时间对齐后的波形 相似性, 计量单位为弧度, 取值范围为(- π , π ]。
102、 服务器确定当前帧的立体声全局相位参数的值。
其中, 当前帧的立体声全局相位参数的值的确定结果包括: 当前帧的 G— ITD参数的值不为 0、 当前帧的 G— ITD参数的值为 0并且当前帧的 G— IPD 参数的值不为 0、 当前帧的 G— ITD参数的值为 0并且当前帧的 G— IPD参数的 值为 0。
103、 服务器根据当前帧的立体声全局相位参数的值的确定结果, 对 当前帧的立体声全局相位参数的值进行调整。
对于本发明实施例, 当提取的当前帧的立体声全局相位参数 G— ITD及 G— I P D准确度较低时, 服务器无法根据立体声相位参数恢复原始立体声相 位信息, 从而无法恢复立体声音频信号。 在本发明实施例中, 服务器通过 对 G— ITD或 G— IPD进行调整, 从而能够避免根据与原始立体声相位参数存 在较大差别的 G— ITD及 G— IPD , 恢复立体声相位信息的情况进而可以提高 立体声音频信息的效果。
104、服务器对调整后的当前帧的立体声全局相位参数的值进行编码。 其中, 服务器可以采用 5bit (比特) 量化编码方式对调整后的当前帧 的立体声全局相位参数的值进行编码, 第 1位为立体声相位参数标志位 flag , 第 2位至第 5位为对调整后的当前帧的立体声全局相位参数的值进行 编码处理之后的值。 具体地, 当 flag=l时, 服务器传输当前帧的 G— ITD量 化值; 当 flag=0时, 服务器传输当前帧的 G— IPD量化值。
本发明实施例提供的立体声相位参数的编码方法,首先获取当前帧的 立体声全局相位参数, 然后确定当前帧的立体声全局相位参数的值, 并根 据当前帧的立体声全局相位参数的值的确定结果,对当前帧的立体声全局 相位参数的值进行调整,最后对调整后的当前帧的立体声全局相位参数的 值进行编码。 与目前通过提取 Global参数直接恢复立体声相位信息相比, 本发明实施例通过调整后的 Global参数恢复立体声相位信息, 能够提高立 体声相位信息的准确度, 从而可以提高立体声音频信息的效果。
本发明实施例提供另一种立体声相位参数的编码方法, 如图 2所示, 所述方法包括:
201、 服务器获取当前帧的立体声全局相位参数。
其中, 立体声全局相位参数包括群时延 G— ITD及群相位 G— IPD。 在本 发明实施例中, 群时延 G—ITD表示立体声的左右声道之间的时间延时, 计 量单位为样点。 群相位 G—IPD表示立体声的左右声道在时间对齐后的波形 相似性, 计量单位为弧度, 取值范围为(- π , π ]。
202、 服务器确定当前帧的立体声全局相位参数的值。
其中, 当前帧的立体声全局相位参数的值的确定结果包括: 当前帧的 G— ITD参数的值不为 0、 当前帧的 G— ITD参数的值为 0并且当前帧的 G— IPD 参数的值不为 0、 当前帧的 G— ITD参数的值为 0并且当前帧的 G— IPD参数的 值为 0。
203、 服务器获取当前帧的各个子带的声道间时间差。
其中, 当前帧的各个子带可以由服务器预先进行划分。 例如, 服务器 可以将频带划分为 12个子带, 每个子带均存在对应的声道间时间差。
对于本发明实施例,声道间时间差用于表示声音分别到达左右耳的时 间差, 当 ITD为大于 0的数时, 声音到达左耳的时间比声音到达右耳的时 间早; 当 ITD为小于 0的数时, 声音到达左耳的时间比声音到达右耳的时 间晚; 当 ITD等于 0时, 声音到达左耳的时间与声音到达右耳的时间相同。 在本发明实施例中, ITD可以通过样点进行表示。 例如, ITD的时间区间 为 (-5ms , 5ms ), 计量单位为 ms ( millisecond, 毫秒), 服务器通过 16kHz 的带宽进行采样之后, 对应的样点区间为 (-80 , 80 ), 计量单位为样点。
204、 服务器根据当前帧的各个子带的声道间时间差, 计算当前帧的 各个子带的声道间时间差的绝对值均值。
对于本发明实施例, 服务器可以按照公式 /ΓΖ) , 计算当
Figure imgf000015_0001
、 、 、 、 , 、 、 , 、 、 绝对值均值, /rz>(b)为第 b个子带的声道间时间差, b为大于或者等于 1并且 小于或者等于 L的整数, L为子带总数。 帧间平滑处理,获取当前帧的各个子带的平滑处理后的声道间时间差的绝 对值均值。
具 体 地 , 步 骤 205 可 以 为 , 服 务 器 根 据 公 式 ITD _ sm(k) = fac5 x ITD _ sm(k - 1) + fac6 x TZ)对当前帧的各个子带的声道间时间 差的绝对值均值进行帧间平滑处理,获取当前帧的各个子带的平滑处理后 的声道间时间差的绝对值均值。 其中, /ΓΖ) _^ )为当前帧的各个子带的平 滑处理后的声道间时间差的绝对值均值, ITD smik - V)为当前帧的前一帧的 各个子带的平滑处理后的声道间时间差的绝对值均值, /flC5与 /«c6为平滑 因子, 并且 /ac5 > 0 , fac6 > 0 , fac5 + fac6 = \。
对于本发明实施例, 平滑因子 fac5的值可以为 fac5 = 0.9844 , 对应的平 滑因子 fac6可以为 fac6 = 1 - 0.9844 = 0.0156。
对于本发明实施例,服务器通过对当前帧的相邻数据帧之间进行平滑 处理,从而可以避免当前帧的相邻数据帧对应的立体声相位信息发生突变 时, 立体声音频信号存在突变现象, 进而可以提高立体声音频效果。
在当前帧的立体声全局相位参数的值的确定结果为当前帧的 G— ITD 参数的值不为 0时, 执行步骤 206a、 服务器根据当前帧的各个子带的平滑 处理后的声道间时间差的绝对值均值,对当前帧的 G— ITD参数的值进行调 整。
具体地, 步骤 206a可以为, 在当前帧的立体声全局相位参数的值的确 定结果为 当前帧的 G— ITD参数的值不为 0时, 服务器根据公式 \G _ ITD '\ = fad x |G _ ITD] + facl x ITD sm , 对当前帧的 G— ITD参数的值的绝对值 进行调整。 其中, 为调整之后的 G— ITD参数的值的绝对值, 为 G— ITD参数的值的绝对值, /Γ)_^为当前帧的各个子带的平滑处理后的 声道间时间差的绝对值均值, fad与 facl为平滑因子,并且/ acl > 0 , facl > 0 , fad + facl = 1。
对于本发明实施例, 平滑因子/ acl的值可以为 /acl = 0.5 , 对应的平滑因 子/ ac2可以为 /ac2 = l_0.5 = 0.5。
在当前帧的立体声全局相位参数的值的确定结果为当前帧的 G— ITD 参数的值为 0, 且当前帧的 G— IPD参数的值不为 0时, 执行步骤 206b、 服务 器根据公式 |G_//O'| = C3x|G_//O| + fac4xIPD_sm , 对 G— IPD参数的值的绝对 值进行调整, 其中, 为调整之后的 G— IPD参数的值的绝对值, \G_IPD\为 G— IPD参数的值的绝对值, fac?>与 facA为平滑因子, 并且/ ac3 > 0 , fac > 0 , fac3 + fac4 = l, IPD sm =— , FFT JEN为变换长度, K为
_ FFT _LEN _ 频点值, /Γ) _ 为当前帧的各个子带的平滑处理后的声道间时间差的绝对 值均值, /¾ _ 为当前帧的各个子带的平滑处理后的声道间相位差的绝 对值均值。
对于本发明实施例, 平滑因子/ ac3的值可以为/ ac3 = 0.75, 对应的平滑 因子 fac 可以为 fac = 1 - 0.75 = 0.25。
在当前帧的立体声全局相位参数的值的确定结果为当前帧的 G— ITD 参数的值为 0, 且当前帧的 G— IPD参数的值为 0时, 执行步骤 206c、 服务器 将当前帧的各个子带的平滑处理后的声道间相位差的绝对值均值作为当 前帧的 G— IPD参数的绝对值, 将当前帧的前一帧的 G— IPD参数的符号作为 当前帧的 G— IPD参数的符号。 对于本发明实施例, 服务器可以根据公式 皿 = 1πΚχ ΙΤΕ> -飄 , 计
_ FFT _LEN 算当前帧的各个子带的平滑处理后的声道间相位差的绝对值均值。 其中,
FFr_JEN为变换长度, 为频点值, 为当前帧的各个子带的平滑处 理后的声道间时间差的绝对值均值, IPD 为当前帧的各个子带的平滑 处理后的声道间相位差的绝对值均值。
207、服务器对调整后的当前帧的立体声全局相位参数的值进行编码。 其中, 服务器可以采用 5bit (比特) 量化编码方式对调整后的当前帧 的立体声全局相位参数的值进行编码, 第 1位为立体声相位参数标志位 flag , 第 2位至第 5位为对调整后的当前帧的立体声全局相位参数的值进行 编码处理之后的值。 具体地, 当 flag=l时, 服务器传输当前帧的 G— ITD量 化值; 当 flag=0时, 服务器传输当前帧的 G— IPD量化值。
本发明实施例提供的立体声相位参数的编码方法,首先获取当前帧的 立体声全局相位参数, 然后确定当前帧的立体声全局相位参数的值, 并根 据当前帧的立体声全局相位参数的值的确定结果,对当前帧的立体声全局 相位参数的值进行调整,最后对调整后的当前帧的立体声全局相位参数的 值进行编码。 与目前通过提取 Global参数直接恢复立体声相位信息相比, 本发明实施例通过调整后的 Global参数恢复立体声相位信息, 能够提高立 体声相位信息的准确度, 从而可以提高立体声音频信息的效果。
本发明实施例提供又一种立体声相位参数的编码方法,适用于对当前 帧的 G— ITD参数及 G— IPD参数的值均为 0的情况进行调整, 如图 3所示, 所 述方法包括:
301、 服务器获取当前帧的立体声全局相位参数。
其中, 立体声全局相位参数包括群时延 G— ITD及群相位 G— IPD。 在本 发明实施例中, 群时延 G—ITD表示立体声的左右声道之间的时间延时, 计 量单位为样点。 群相位 G—IPD表示立体声的左右声道在时间对齐后的波形 相似性, 计量单位为弧度, 取值范围为(- π , π ]。
302、 服务器确定当前帧的立体声全局相位参数的值。
其中, 当前帧的立体声全局相位参数的值的确定结果包括: 当前帧的 G— ITD参数的值不为 0、 当前帧的 G— ITD参数的值为 0并且当前帧的 G— IPD 参数的值不为 0、 当前帧的 G— ITD参数的值为 0并且当前帧的 G— IPD参数的 值为 0。 303、 服务器获取当前帧的各个子带的声道间时间差。
其中, 当前帧的各个子带可以由服务器预先进行划分。 例如, 服务器 可以将频带划分为 12个子带, 每个子带均存在对应的声道间时间差。
对于本发明实施例,声道间时间差用于表示声音分别到达左右耳的时 间差, 当 ITD为大于 0的数时, 声音到达左耳的时间比声音到达右耳的时 间早; 当 ITD为小于 0的数时, 声音到达左耳的时间比声音到达右耳的时 间晚; 当 ITD等于 0时, 声音到达左耳的时间与声音到达右耳的时间相同。 在本发明实施例中, ITD可以通过样点进行表示。 例如, ITD的时间区间 为 (-5ms , 5ms ), 计量单位为 ms ( millisecond, 毫秒), 服务器通过 16kHz 的带宽进行采样之后, 对应的样点区间为 (-80 , 80 ), 计量单位为样点。
304、 服务器根据当前帧的各个子带的声道间时间差, 计算当前帧的 各个子带的声道间时间差的绝对值均值。
对于本发明实施例, 服务器可以按照公式 / /) =丄∑
Figure imgf000018_0001
, 计算当 、 、 、 、 , 、 、 , 、 、 绝对值均值, /rz)(b)为第 b个子带的声道间时间差, b为大于或者等于 1并且 小于或者等于 L的整数, L为子带总数。 帧间平滑处理,获取当前帧的各个子带的平滑处理后的声道间时间差的绝 对值均值。
具 体 地 , 步 骤 305 可 以 为 , 服 务 器 根 据 公 式 ITD _ sm(k) = fac5 x ITD _ sm(k - 1) + fac6 x TZ)对当前帧的各个子带的声道间时间 差的绝对值均值进行帧间平滑处理,获取当前帧的各个子带的平滑处理后 的声道间时间差的绝对值均值。 其中, /ΓΖ) _^ )为当前帧的各个子带的平 滑处理后的声道间时间差的绝对值均值, ITD smik - V)为当前帧的前一帧的 各个子带的平滑处理后的声道间时间差的绝对值均值, /flC5与 /«c6为平滑 因子, 并且/ ac5 > 0 , fac6 > 0 , fac5 + fac6 = \。
对于本发明实施例, 平滑因子 fac5的值可以为 fac5 = 0.9844 , 对应的平 滑因子 fac6可以为 fac6 = 1 - 0.9844 = 0.0156。
对于本发明实施例,服务器通过对当前帧的相邻数据帧之间进行平滑 处理,从而可以避免当前帧的相邻数据帧对应的立体声相位信息发生突变 时, 立体声音频信号存在突变现象, 进而可以提高立体声音频效果。
306、 在当前帧的立体声全局相位参数的值的确定结果为当前帧的 G— ITD参数的值为 0 , 且当前帧的 G— IPD参数的值为 0时, 服务器将当前帧 的各个子带的平滑处理后的声道间相位差的绝对值均值作为当前帧的 G— IPD参数的绝对值, 将当前帧的前一帧的 G— IPD参数的符号作为当前帧 的 G— IPD参数的符号。 对于本发明实施例, 服务器可以根据公式 皿 = 1πΚ χ ΙΤΕ> -飄 , 计
_ FFT _LEN 算当前帧的各个子带的平滑处理后的声道间相位差的绝对值均值。 其中,
FFr_JEN为变换长度, 为频点值, 为当前帧的各个子带的平滑处 理后的声道间时间差的绝对值均值, IPD _ 为当前帧的各个子带的平滑 处理后的声道间相位差的绝对值均值。
307、服务器对调整后的当前帧的立体声全局相位参数的值进行编码。 其中, 服务器可以采用 5bit (比特) 量化编码方式对调整后的当前帧 的立体声全局相位参数的值进行编码, 第 1位为立体声相位参数标志位 flag , 第 2位至第 5位为对调整后的当前帧的立体声全局相位参数的值进行 编码处理之后的值。 具体地, 当 flag=l时, 服务器传输当前帧的 G— ITD量 化值; 当 flag=0时, 服务器传输当前帧的 G— IPD量化值。
本发明实施例提供的立体声相位参数的编码方法,首先获取当前帧的 立体声全局相位参数, 然后确定当前帧的立体声全局相位参数的值, 并根 据当前帧的立体声全局相位参数的值的确定结果,对当前帧的立体声全局 相位参数的值进行调整,最后对调整后的当前帧的立体声全局相位参数的 值进行编码。 与目前通过提取 Global参数直接恢复立体声相位信息相比, 本发明实施例通过调整后的 Global参数恢复立体声相位信息, 能够提高立 体声相位信息的准确度, 从而可以提高立体声音频信息的效果。 本发明实施例提供再一种立体声相位参数的编码方法,适用于对当前 帧的 G— ITD参数及 G— IPD参数的值不都为 0的情况进行调整, 如图 4所示, 所述方法包括:
401、 服务器获取当前帧的立体声全局相位参数。
其中, 立体声全局相位参数包括群时延 G— ITD及群相位 G— IPD。 在本 发明实施例中, 群时延 G—ITD表示立体声的左右声道之间的时间延时, 计 量单位为样点。 群相位 G—IPD表示立体声的左右声道在时间对齐后的波形 相似性, 计量单位为弧度, 取值范围为(- π , π ]。
402、 服务器确定当前帧的立体声全局相位参数的值。
其中, 当前帧的立体声全局相位参数的值的确定结果包括: 当前帧的 G— ITD参数的值不为 0、 当前帧的 G— ITD参数的值为 0并且当前帧的 G— IPD 参数的值不为 0、 当前帧的 G— ITD参数的值为 0并且当前帧的 G— IPD参数的 值为 0。
403、 服务器获取当前帧的各个子带的声道间时间差。
其中, 当前帧的各个子带可以由服务器预先进行划分。 例如, 服务器 可以将频带划分为 12个子带, 每个子带均存在对应的声道间时间差。
对于本发明实施例,声道间时间差用于表示声音分别到达左右耳的时 间差, 当 ITD为大于 0的数时, 声音到达左耳的时间比声音到达右耳的时 间早; 当 ITD为小于 0的数时, 声音到达左耳的时间比声音到达右耳的时 间晚; 当 ITD等于 0时, 声音到达左耳的时间与声音到达右耳的时间相同。 在本发明实施例中, ITD可以通过样点进行表示。 例如, ITD的时间区间 为 (-5ms , 5ms ), 计量单位为 ms ( millisecond, 毫秒), 服务器通过 16kHz 的带宽进行采样之后, 对应的样点区间为 (-80 , 80 ), 计量单位为样点。
404、 服务器根据当前帧的各个子带的声道间时间差, 计算当前帧的 各个子带的声道间时间差的绝对值均值。
对于本发明实施例, 服务器可以按照公式 /ΓΖ) , 计算当
Figure imgf000020_0001
绝对值均值, /rz>(b)为第 b个子带的声道间时间差, b为大于或者等于 1并且 小于或者等于 L的整数, L为子带总数。 帧间平滑处理,获取当前帧的各个子带的平滑处理后的声道间时间差的绝 对值均值。
具 体 地 , 步 骤 405 可 以 为 , 服 务 器 根 据 公 式 ITD _ sm(k) = fac5 x ITD _ sm(k - 1) + fac6 x TZ)对当前帧的各个子带的声道间时间 差的绝对值均值进行帧间平滑处理,获取当前帧的各个子带的平滑处理后 的声道间时间差的绝对值均值。 其中, /ΓΖ) _^ )为当前帧的各个子带的平 滑处理后的声道间时间差的绝对值均值, ITD_Sm(k _ V)为当前帧的前一帧的 各个子带的平滑处理后的声道间时间差的绝对值均值, /ac5与 /ac6为平滑 因子, 并且 /ac5 > 0 , fac6 > 0 , fac5 + fac6 = \。
对于本发明实施例, 平滑因子 fac5的值可以为 fac5 = 0.9844 , 对应的平 滑因子 fac6可以为 fac6 = 1 - 0.9844 = 0.0156。
对于本发明实施例,服务器通过对当前帧的相邻数据帧之间进行平滑 处理,从而可以避免当前帧的相邻数据帧对应的立体声相位信息发生突变 时, 立体声音频信号存在突变现象, 进而可以提高立体声音频效果。
在当前帧的立体声全局相位参数的值的确定结果为当前帧的 G— ITD 参数的值不为 0时, 执行步骤 406a、 服务器根据当前帧的各个子带的平滑 处理后的声道间时间差的绝对值均值,对当前帧的 G— ITD参数的值进行调 整。
具体地, 步骤 406a可以为, 在当前帧的立体声全局相位参数的值的确 定结果为 当前帧的 G— ITD参数的值不为 0时, 服务器根据公式 \G _ ITD '\ = fad x |G _ ITD\ + facl x ITD sm , 对当前帧的 G— ITD参数的值的绝对值 进行调整。 其中, 为调整之后的 G— ITD参数的值的绝对值, 为 G— ITD参数的值的绝对值, /Γ )_^为当前帧的各个子带的平滑处理后的 声道间时间差的绝对值均值, fad与 facl为平滑因子,并且/ acl > 0 , facl > 0 , fad + facl = 1。
对于本发明实施例, 平滑因子 /aci的值可以为 k;i = o.5 , 对应的平滑因 子/ ac2可以为 /ac2 = l_0.5 = 0.5。
在当前帧的立体声全局相位参数的值的确定结果为当前帧的 G— ITD 参数的值为 0, 且当前帧的 G— IPD参数的值不为 0时, 执行步骤 406b、 服务 器根据公式 |G_//O'| = C3x|G_//O| + fac4xIPD_sm , 对 G— IPD参数的值的绝对 值进行调整, 其中, 为调整之后的 G— IPD参数的值的绝对值, \G_IPD\为 G— IPD参数的值的绝对值, fac?>与 facA为平滑因子, 并且/ ac3 > 0 , fac4>0, fac3 + fac4 = l, IPD sm = ^K ITD -sm , FFT JEN为变换长度, K为
_ FFT _LEN _ 频点值, /Γ) _ 为当前帧的各个子带的平滑处理后的声道间时间差的绝对 值均值, /¾ _ 为当前帧的各个子带的平滑处理后的声道间相位差的绝 对值均值。
对于本发明实施例, 平滑因子/ ac3的值可以为/ ac3 = 0.75, 对应的平滑 因子 fac 可以为 fac = 1 - 0.75 = 0.25。
407、服务器对调整后的当前帧的立体声全局相位参数的值进行编码。 其中, 服务器可以采用 5bit (比特) 量化编码方式对调整后的当前帧 的立体声全局相位参数的值进行编码, 第 1位为立体声相位参数标志位 flag, 第 2位至第 5位为对调整后的当前帧的立体声全局相位参数的值进行 编码处理之后的值。 具体地, 当 flag=l时, 服务器传输当前帧的 G— ITD量 化值; 当 flag=0时, 服务器传输当前帧的 G— IPD量化值。
本发明实施例提供的立体声相位参数的编码方法,首先获取当前帧的 立体声全局相位参数, 然后确定当前帧的立体声全局相位参数的值, 并根 据当前帧的立体声全局相位参数的值的确定结果,对当前帧的立体声全局 相位参数的值进行调整,最后对调整后的当前帧的立体声全局相位参数的 值进行编码。 与目前通过提取 Global参数直接恢复立体声相位信息相比, 本发明实施例通过调整后的 Global参数恢复立体声相位信息, 能够提高立 体声相位信息的准确度, 从而可以提高立体声音频信息的效果。
本发明实施例提供了一种立体声相位参数的编码装置, 如图 5所示, 所述装置的实体可以为服务器,所述装置包括: 获取单元 51、确定单元 52、 调整单元 53、 编码单元 54。
获取单元 51 , 用于获取当前帧的立体声全局相位参数。
确定单元 52 ,用于确定获取单元 51获取的当前帧的立体声全局相位参 数的值。
调整单元 53 ,用于根据确定单元 52确定的当前帧的立体声全局相位参 数的值的确定结果, 对当前帧的立体声全局相位参数的值进行调整。
编码单元 54 ,用于对调整单元 53调整后的当前帧的立体声全局相位参 数的值进行编码。
进一步地, 所述立体声相位参数的编码装置的实体可以为服务器, 如 图 6所示, 所述服务器可以包括: 处理器 61、 输入设备 62、 输出设备 63、 存储器 64 , 所述输入设备 62、 输出设备 63及存储器 64分别与处理器 61相连 接。
处理器 61 , 用于获取当前帧的立体声全局相位参数。
处理器 61 , 还用于确定当前帧的立体声全局相位参数的值。
处理器 61 , 还用于根据当前帧的立体声全局相位参数的值的确定结 果, 对当前帧的立体声全局相位参数的值进行调整。
处理器 61 ,还用于对调整后的当前帧的立体声全局相位参数的值进行 编码。
需要说明的是,本发明实施例中提供的立体声相位参数的调整装置中 各功能单元所对应的其他相应描述, 可以参考图 1中的对应描述, 在此不 再赘述。
本发明实施例提供了另一种立体声相位参数的编码装置,如图 7所示, 所述装置的实体可以为服务器,所述装置包括: 获取单元 71、确定单元 72、 调整单元 73、 编码单元 74。
获取单元 71 , 用于获取当前帧的立体声全局相位参数。
确定单元 72 ,用于确定获取单元 71获取的当前帧的立体声全局相位参 数的值。
调整单元 73 ,用于根据确定单元 72确定的当前帧的立体声全局相位参 数的值的确定结果, 对当前帧的立体声全局相位参数的值进行调整。
编码单元 74 ,用于对调整单元 73调整后的当前帧的立体声全局相位参 数的值进行编码。
调整单元 73包括: 获取模块 7301、 计算模块 7302、 调整模块 7303。 获取模块 7301, 用于获取当前帧的各个子带的声道间时间差。
计算模块 7302 ,用于根据获取模块 7301获取的当前帧的各个子带的声 调整模块 7303 ,用于根据当前帧的立体声全局相位参数的值的确定结 果以及计算模块 7302计算的当前帧的各个子带的声道间时间差的绝对值 均值, 对当前帧的立体声全局相位参数的值进行调整。
调整单元 73还包括: 处理模块 7304。
处理模块 7304 ,用于对计算模块 7302计算的当前帧的各个子带的声道 间时间差的绝对值均值进行帧间平滑处理。
获取模块 7301 ,还用于获取当前帧的各个子带的处理模块 7304平滑处 理后的声道间时间差的绝对值均值。
调整模块 7303 ,还用于根据当前帧的立体声全局相位参数的值的确定 结果以及获取模块 7301获取的当前帧的各个子带的平滑处理后的声道间 时间差的绝对值均值, 对当前帧的立体声全局相位参数的值进行调整。
获取单元 71获取的立体声全局相位参数包括群时延 G—ITD参数。 调整模块 7303 ,还用于在当前帧的立体声全局相位参数的值的确定结 果为 G— ITD参数的值不为 0时, 根据获取模块 7301获取的当前帧的各个子 带的平滑处理后的声道间时间差的绝对值均值,对当前帧的 G— I T D参数的 值进行调整。
调整模块 7303, 还用于才艮据公式|(?_/^)'| = /^1 |(7_/^)| + /^2 /^)_ 对当前帧的 G— ITD参数的值的绝对值进行调整。
其中, 为调整之后的 G— ITD参数的值的绝对值, 为 G— ITD参数的值的绝对值, ITD _ 为当前帧的各个子带的平滑处理后的声 道间时间差的绝对值均值, /acl与/ ac2为平滑因子, 并且/ acl>0, facl > 0 , fad + facl = 1。
调整模块 7303调整时的平滑因子 foci = 0.5。
获取单元 71获取的立体声全局相位参数包括群时延 G— ITD参数和群 相位 G— IPD参数。
调整模块 7303,还用于在当前帧的立体声全局相位参数的值的确定结 果为 G— ITD参数的值为 0时, 根据获取模块 7301获取的当前帧的各个子带 的平滑处理后的声道间时间差的绝对值均值, 对当前帧的 G— I P D参数的值 进行调整。
调整模块 7303,还用于在当前帧的立体声全局相位参数的值的确定结 果为 G— ITD参数的值为 0, 且当前帧的 G— IPD参数的值不为 0时, 根据公式 | _ IPD Ί = fac x|G_ IPD\ + fac x IPD _sm , 对 G— IPD参数的值的绝对值进行调 整。
其中, 为调整之后的 G— IPD参数的值的绝对值, 为 G— IPD参数的值的绝对值, /ac3与 /ac4为平滑因子, 并且/ ac3>0, fac4>0, fac3 + fac4 = l, IPD sm = ^K ITD -sm , FFT JEN为变换长度, 为频点值,
_ FFT _LEN _
/TO 为当前帧的各个子带的平滑处理后的声道间时间差的绝对值均值, IPD _sm为当前帧的各个子带的平滑处理后的声道间相位差的绝对值均 值。 调整模块 7303调整时的平滑因子 /ac3 = 0.75。
调整单元 73还包括: 配置模块 7305。 配置模块 7305 ,用于在当前帧的立体声全局相位参数的值的确定结果 为 G— ITD参数的值为 0 , 且当前帧的 G— IPD参数的值为 0时, 将当前帧的各 个子带的处理模块 7304平滑处理后的声道间相位差的绝对值均值作为当 前帧的 G— IPD参数的绝对值, 将当前帧的前一帧的 G— IPD参数的符号作为 当前帧的 G— IPD参数的符号。
处理模块 7304 ,还用于 ή 据公 ^ ITD _ sm(k) = fac5 x ITD _sm(k— V) + fac6 x ITD 进行帧间平滑处理。
其中, ITD— sm^)为当前帧的各个子带的平滑处理后的声道间时间差的 绝对值均值, ΠΌ_ -Ϊ)为当前帧的前一帧的各个子带的平滑处理后的声 道间时间差的绝对值均值, /ac5与/ ac6为平滑因子, 并且/ ac5 > 0 , fac6 > 0 , fac5 + fac6 = 1。
处理模块 7304平滑处理时的平滑因子 fac5 = 0.9844。
进一步地, 所述立体声相位参数的编码装置的实体可以为服务器, 如 图 8所示, 所述服务器可以包括: 处理器 81、 输入设备 82、 输出设备 83、 存储器 84 , 所述输入设备 82、 输出设备 83及存储器 84分别与处理器 81相连 接。
处理器 81 , 用于获取当前帧的立体声全局相位参数。
处理器 81 , 还用于确定当前帧的立体声全局相位参数的值。
处理器 81 , 还用于根据当前帧的立体声全局相位参数的值的确定结 果, 对当前帧的立体声全局相位参数的值进行调整。
处理器 81 ,还用于对调整后的当前帧的立体声全局相位参数的值进行 编码。
处理器 81 , 还用于获取当前帧的各个子带的声道间时间差。
处理器 81 , 还用于根据当前帧的各个子带的声道间时间差, 计算当前 处理器 81 ,还用于根据当前帧的立体声全局相位参数的值的确定结果 全局相位参数的值进行调整。
处理器 81 ,还用于对当前帧的各个子带的声道间时间差的绝对值均值 进行帧间平滑处理。
处理器 81 ,还用于获取当前帧的各个子带的平滑处理后的声道间时间 差的绝对值均值。
处理器 81 ,还用于根据当前帧的立体声全局相位参数的值的确定结果 以及当前帧的各个子带的平滑处理后的声道间时间差的绝对值均值,对当 前帧的立体声全局相位参数的值进行调整。
处理器 81获取的立体声全局相位参数包括群时延 G—ITD参数。
处理器 81 ,还用于在当前帧的立体声全局相位参数的值的确定结果为 G— I T D参数的值不为 0时, 根据当前帧的各个子带的平滑处理后的声道间 时间差的绝对值均值, 对当前帧的 G— ITD参数的值进行调整。
处理器 81 , 还用于根据公式 |(7_/ΓΖΤ| = /^1 Χ|(7 _/ΓΖ)| + / 2 Χ /ΓΖ)_™ , 对当 前帧的 G— ITD参数的值的绝对值进行调整。
其中, 为调整之后的 G— ITD参数的值的绝对值, 为 G— ITD参数的值的绝对值, ITD _ 为当前帧的各个子带的平滑处理后的声 道间时间差的绝对值均值, /acl与/ ac2为平滑因子, 并且/ acl > 0 , facl > 0 , fad + facl = 1。
处理器 81调整时的平滑因子 /acl = 0.5。
处理器 81获取的立体声全局相位参数包括群时延 G—ITD参数和群相 位 G— IPD参数。
处理器 81 ,还用于在当前帧的立体声全局相位参数的值的确定结果为 G— I T D参数的值为 0时, 根据当前帧的各个子带的平滑处理后的声道间时 间差的绝对值均值, 对当前帧的 G— IPD参数的值进行调整。
处理器 81 ,还用于在当前帧的立体声全局相位参数的值的确定结果为 G— ITD参数的值为 0 , 且当前帧的 G— IPD参数的值不为 0时, 根据公式 | _ IPD Ί = fac x|G_ IPD\ + fac x IPD _ sm , 对 G— IPD参数的值的绝对值进行调 其中, 为调整之后的 G— IPD参数的值的绝对值, 为 G— IPD参数的值的绝对值, /ac3与 /ac4为平滑因子, 并且/ ac3>0, fac4>0, fac3 + fac4 = l, IPD sm = ^K ITD -sm , FFT JEN为变换长度, 为频点值,
_ FFT _LEN _
/TO 为当前帧的各个子带的平滑处理后的声道间时间差的绝对值均值 , IPD _sm为当前帧的各个子带的平滑处理后的声道间相位差的绝对值均 值。
处理器 81调整时的平滑因子 /^3 = 0.75。
处理器 81,还用于在当前帧的立体声全局相位参数的值的确定结果为 G— ITD参数的值为 0, 且当前帧的 G— IPD参数的值为 0时, 将当前帧的各个 子带的平滑处理后的声道间相位差的绝对值均值作为当前帧的 G—I P D参 数的绝对值, 将当前帧的前一帧的 G— I P D参数的符号作为当前帧的 G— I P D 参数的符号。
处理器 81,还用于才艮据公式 /rZ)_sm(yt) = fac5xITD_sm(k-l) + /ac6x/rZ)进行 帧间平滑处理。
其中, ITD— sm^)为当前帧的各个子带的平滑处理后的声道间时间差的 绝对值均值, ΠΌ_ -Ϊ)为当前帧的前一帧的各个子带的平滑处理后的声 道间时间差的绝对值均值, /ac5与/ ac6为平滑因子, 并且/ ac5>0, fac6 > 0 , fac5 + fac6 = 1。
处理器 81平滑处理时的平滑因子/ ac5 = 0.9844。 需要说明的是, 本发明 实施例中提供的立体声相位参数的调整装置中各功能单元所对应的其他 相应描述, 可以参考图 2中的对应描述, 在此不再赘述。
本发明实施例提供的立体声相位参数的编码装置可以实现上述提供 的方法实施例,具体功能实现请参见方法实施例中的说明,在此不再赘述。 本发明实施例提供的立体声相位参数的编码方法及装置可以适用于恢复 立体声相位信息, 但不仅限于此。 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分 流程, 是可以通过计算机程序来指令相关的硬件来完成, 所述的程序可存 储于一计算机可读取存储介质中, 该程序在执行时, 可包括如上述各方法 的实施例的流程。 其中, 所述的存储介质可为磁碟、 光盘、 只读存储记忆 体 ( Read-Only Memory , ROM ) 或随机存 者 i己忆体 ( Random Access Memory, RAM ) 等。
以上所述, 仅为本发明的具体实施方式, 但本发明的保护范围并不局 限于此, 任何熟悉本技术领域的技术人员在本发明揭露的技术范围内, 可 轻易想到的变化或替换, 都应涵盖在本发明的保护范围之内。 因此, 本发 明的保护范围应该以权利要求的保护范围为准。

Claims

权 利 要 求 书
1、 一种立体声相位参数的编码方法, 其特征在于, 包括:
获取当前帧的立体声全局相位参数;
确定所述当前帧的立体声全局相位参数的值;
根据所述当前帧的立体声全局相位参数的值的确定结果, 对所述当前 帧的立体声全局相位参数的值进行调整;
对调整后的当前帧的立体声全局相位参数的值进行编码。
2、 根据权利要求 1所述的立体声相位参数的编码方法, 其特征在于, 所述根据所述当前帧的立体声全局相位参数的值的确定结果, 对所述当前 帧的立体声全局相位参数的值进行调整具体包括:
获取所述当前帧的各个子带的声道间时间差;
根据所述当前帧的各个子带的声道间时间差, 计算所述当前帧的各个 子带的声道间时间差的绝对值均值;
根据所述当前帧的立体声全局相位参数的值的确定结果以及所述当前 帧的各个子带的声道间时间差的绝对值均值, 对所述当前帧的立体声全局 相位参数的值进行调整。
3、 根据权利要求 2所述的立体声相位参数的编码方法, 其特征在于, 在所述当前帧不是数据流的第一个数据帧时, 所述根据所述当前帧的立体 声全局相位参数的值的确定结果以及所述当前帧的各个子带的声道间时间 差的绝对值均值, 对所述当前帧的立体声全局相位参数的值进行调整前进 一步包括: 处理, 获取所述当前帧的各个子带的平滑处理后的声道间时间差的绝对值 均值;
所述根据所述当前帧的立体声全局相位参数的值的确定结果以及所述 当前帧的各个子带的声道间时间差的绝对值均值, 对所述当前帧的立体声 全局相位参数的值进行调整具体包括: 根据所述当前帧的立体声全局相位参数的值的确定结果以及所述当前 帧的各个子带的平滑处理后的声道间时间差的绝对值均值, 对所述当前帧 的立体声全局相位参数的值进行调整。
4、 根据权利要求 3所述的立体声相位参数的编码方法, 其特征在于, 所述立体声全局相位参数包括群时延 G—ITD参数;
所述根据所述当前帧的立体声全局相位参数的值的确定结果以及所述 当前帧的各个子带的平滑处理后的声道间时间差的绝对值均值, 对所述当 前帧的立体声全局相位参数的值进行调整包括:
在所述当前帧的立体声全局相位参数的值的确定结果为所述当前帧的 G— ITD参数的值不为 0时, 根据所述当前帧的各个子带的平滑处理后的声道 间时间差的绝对值均值, 对所述当前帧的 G— ITD参数的值进行调整。
5、 根据权利要求 4所述的立体声相位参数的编码方法, 其特征在于, 所述根据所述当前帧的各个子带的平滑处理后的声道间时间差的绝对值均 值, 对所述当前帧的 G—ITD参数的值进行调整具体为:
才艮据公式 |G _ ITD = fac\ \G _ ITD\ + facl x ITD sm , 对所述当前帧的 G— ITD 参数的值的绝对值进行调整, 其中, |G_/rD'|为调整之后的 G— ITD参数的值 的绝对值, |G_/rD|为 G— ITD参数的值的绝对值, /ΓΖ) _ 为所述当前帧的各 个子带的平滑处理后的声道间时间差的绝对值均值, foci与 /flC2为平滑因 子, 并且/ acl > 0 , facl > 0 , /acl + /ac2 = l。
6、 根据权利要求 5所述的立体声相位参数的编码方法, 其特征在于, facl = 0.5。
7、 根据权利要求 3至 6任一所述的立体声相位参数的编码方法, 其特征 在于, 所述立体声全局相位参数包括群时延 G— ITD参数和群相位 G— IPD参 数;
所述根据所述当前帧的立体声全局相位参数的值的确定结果以及所述 当前帧的各个子带的平滑处理后的声道间时间差的绝对值均值, 对所述当 前帧的立体声全局相位参数的值进行调整包括: 在所述当前帧的立体声全局相位参数的值的确定结果为所述 G— ITD参 数的值为 0时,根据所述当前帧的各个子带的平滑处理后的声道间时间差的 绝对值均值, 对所述当前帧的 G— IPD参数的值进行调整。
8、 根据权利要求 7所述的立体声相位参数的编码方法, 其特征在于, 在所述当前帧的立体声全局相位参数的值的确定结果为所述当前帧的
G— ITD参数的值为 0 ,且所述当前帧的 G— IPD参数的值不为 0时, 所述根据所 述当前帧的各个子带的平滑处理后的声道间时间差的绝对值均值, 对所述 当前帧的 G— IPD参数的值进行调整具体包括:
才艮据公式 |G _ IPD Ί = fac x |G _ IPD\ + fac x IPD _ sm , 对所述 G— IPD参数的值 的绝对值进行调整, 其中, 为调整之后的 G— IPD参数的值的绝对值,
\G_IPD\为 G— IPD参数的值的绝对值, fadi与/ ac4为平滑因子, 并且/ ac3 > 0 , fac4 > 0 , fac3 + fac4 = l , IPD sm = 2πΚ ITD -sm , FFT JEN为变换长度, K为
_ FFT _LEN _ 频点值, /Γ ) _ 为所述当前帧的各个子带的平滑处理后的声道间时间差的 绝对值均值, HO 为所述当前帧的各个子带的平滑处理后的声道间相位 差的绝对值均值。
9、 根据权利要求 8所述的立体声相位参数的编码方法, 其特征在于, faci = 0.75。
10、 根据权利要求 7所述的立体声相位参数的编码方法, 其特征在于, 在所述当前帧的立体声全局相位参数的值的确定结果为所述当前帧的 G— ITD参数的值为 0 ,且所述当前帧的 G— IPD参数的值为 0时, 所述根据所述 当前帧的各个子带的平滑处理后的声道间时间差的绝对值均值, 对所述当 前帧的 G— IPD参数的值进行调整具体包括:
将所述当前帧的各个子带的平滑处理后的声道间相位差的绝对值均值 作为所述当前帧的 G— IPD参数的绝对值, 将所述当前帧的前一帧的 G— IPD 参数的符号作为所述当前帧的 G— IPD参数的符号。
11、 根据权利要求 3至 10任一所述的立体声相位参数的编码方法, 其特 帧间平滑处理, 获取所述当前帧的各个子带的平滑处理后的声道间时间差 的绝对值均值包括:
才艮据公式 ITD _ sm(k) = fac5 x ITD _sm(k - \) + fac6 x ITD进行帧间平滑处理, 其 中, ITD_Sm(J^为所述当前帧的各个子带的平滑处理后的声道间时间差的绝 对值均值, /ΓΖ)_^ -1)为所述当前帧的前一帧的各个子带的平滑处理后的 声道间时间差的绝对值均值, fac5与 fac6为平滑因子,并且 fac5 > 0 , fac6 > 0 , fac5 + fac6 = 1。
12、 根据权利要求 11所述的立体声相位参数的编码方法, 其特征在于, fac5 = 0.9844。
13、 一种立体声相位参数的编码装置, 其特征在于, 包括:
获取单元, 用于获取当前帧的立体声全局相位参数;
确定单元, 用于确定所述获取单元获取的所述当前帧的立体声全局相 位参数的值;
调整单元, 用于根据所述确定单元确定的所述当前帧的立体声全局相 位参数的值的确定结果, 对所述当前帧的立体声全局相位参数的值进行调 整;
编码单元, 用于对所述调整单元调整后的当前帧的立体声全局相位参 数的值进行编码。
14、 根据权利要求 13所述的立体声相位参数的编码装置, 其特征在于, 所述调整单元包括:
获取模块, 用于获取所述当前帧的各个子带的声道间时间差; 计算模块, 用于根据所述获取模块获取的所述当前帧的各个子带的声 道间时间差, 计算所述当前帧的各个子带的声道间时间差的绝对值均值; 调整模块, 用于根据所述当前帧的立体声全局相位参数的值的确定结 果以及所述计算模块计算的所述当前帧的各个子带的声道间时间差的绝对 值均值, 对所述当前帧的立体声全局相位参数的值进行调整。
15、 根据权利要求 14所述的立体声相位参数的编码装置, 其特征在于, 所述调整单元还包括:
处理模块, 用于对所述计算模块计算的所述当前帧的各个子带的声道 间时间差的绝对值均值进行帧间平滑处理;
所述获取模块, 还用于获取所述当前帧的各个子带的所述处理模块平 滑处理后的声道间时间差的绝对值均值;
所述调整模块, 还用于根据所述当前帧的立体声全局相位参数的值的 确定结果以及所述获取模块获取的所述当前帧的各个子带的平滑处理后的 声道间时间差的绝对值均值, 对所述当前帧的立体声全局相位参数的值进 行调整。
16、 根据权利要求 15所述的立体声相位参数的编码装置, 其特征在于, 所述获取单元获取的所述立体声全局相位参数包括群时延 G—ITD参 数;
所述调整模块, 还用于在所述当前帧的立体声全局相位参数的值的确 定结果为所述 G— ITD参数的值不为 0时, 根据所述获取模块获取的所述当前 帧的各个子带的平滑处理后的声道间时间差的绝对值均值, 对所述当前帧 的 G— ITD参数的值进行调整。
17、 根据权利要求 16所述的立体声相位参数的编码装置, 其特征在于, 所述调整模块, 还用于才艮据公式|(7 _ / 1) '| = /^1 |(7 _ /^)| + /^2
对所述当前帧的 G—ITD参数的值的绝对值进行调整, 其中, 为调整 之后的 G— ITD参数的值的绝对值, |G _ ITD\为 G—ITD参数的值的绝对值, 为所述当前帧的各个子带的平滑处理后的声道间时间差的绝对值均 值, /acl与/ ac2为平滑因子, 并且/ acl > 0 , facl > 0 , /acl + /ac2 = l。
18、 根据权利要求 17所述的立体声相位参数的编码装置, 其特征在于, 所述调整模块调整时的平滑因子 /acl = 0.5。
19、 根据权利要求 15至 18任一所述的立体声相位参数的编码装置, 其 特征在于, 所述获取单元获取的所述立体声全局相位参数包括群时延 G— ITD参数 和群相位 G— IPD参数;
所述调整模块, 还用于在所述当前帧的立体声全局相位参数的值的确 定结果为所述 G— ITD参数的值为 0时, 根据所述获取模块获取的所述当前帧 的各个子带的平滑处理后的声道间时间差的绝对值均值, 对所述当前帧的 G— IPD参数的值进行调整。
20、 根据权利要 19所述的立体声相位参数的编码装置, 其特征在于, 所述调整模块, 还用于在所述当前帧的立体声全局相位参数的值的确 定结果为所述 G— ITD参数的值为 0 , 且所述当前帧的 G— IPD参数的值不为 0 时, 才艮据公式 |G _ IPD = fac3 x |G _ IPD\ + fac x IPD _ sm , 对所述 G— IPD参数的值 的绝对值进行调整, 其中, 为调整之后的 G— IPD参数的值的绝对值, \G_IPD\为 G— IPD参数的值的绝对值, fadi与 facA为平滑因子, 并且/ ac3 > 0 , facA > 0 , fac3 + fac4 = l , IPD sm =— , FFT JEN为变换长度, K为
_ FFT _LEN _ 频点值, /Γ ) _ 为所述当前帧的各个子带的平滑处理后的声道间时间差的 绝对值均值, HO 为所述当前帧的各个子带的平滑处理后的声道间相位 差的绝对值均值。
21、 根据权利要求 20所述的立体声相位参数的编码装置, 其特征在于, 所述调整模块调整时的平滑因子 /ac3 = 0.75。
22、 根据权利要求 19所述的立体声相位参数的编码装置, 其特征在于, 所述调整单元还包括:
配置模块, 用于在所述当前帧的立体声全局相位参数的值的确定结果 为所述 G— ITD参数的值为 0 ,且所述当前帧的 G— IPD参数的值为 0时,将所述 当前帧的各个子带的所述处理模块平滑处理后的声道间相位差的绝对值均 值作为所述当前帧的 G— IPD参数的绝对值,将所述当前帧的前一帧的 G— IPD 参数的符号作为所述当前帧的 G—I P D参数的符号。
23、 根据权利要求 15至 22任一所述的立体声相位参数的编码装置, 其 特征在于,
所述处理模块, 还用于 ή 据公 ^ ITD _ sm(k) = fac5 x ITD _sm(k— V) + fac6 x ITD 进行帧间平滑处理, 其中, /ΓΖ)_^( 为所述当前帧的各个子带的平滑处理 后的声道间时间差的绝对值均值, /ΓΖ)_^( -1)为所述当前帧的前一帧的各 个子带的平滑处理后的声道间时间差的绝对值均值, /flC5与 /ac6为平滑因 子, 并且 fac5 > 0 , f c6 > 0 , fac5 + fac6 = 1。
24、 根据权利要求 23所述的立体声相位参数的编码装置, 其特征在于, 所述处理模块平滑处理时的平滑因子/ ac5 = 0.9844。
PCT/CN2014/074673 2013-11-29 2014-04-02 立体声相位参数的编码方法及装置 WO2015078123A1 (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020167014661A KR101798559B1 (ko) 2013-11-29 2014-04-02 스테레오 위상 파라미터 인코딩 방법 및 장치
EP14866259.6A EP3057095B1 (en) 2013-11-29 2014-04-02 Method and device for encoding stereo phase parameter
JP2016534977A JP6335301B2 (ja) 2013-11-29 2014-04-02 ステレオ位相パラメータを符号化する方法及び装置
US15/154,655 US10008211B2 (en) 2013-11-29 2016-05-13 Method and apparatus for encoding stereo phase parameter

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310632664.5A CN104681029B (zh) 2013-11-29 2013-11-29 立体声相位参数的编码方法及装置
CN201310632664.5 2013-11-29

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US15/154,655 Continuation US10008211B2 (en) 2013-11-29 2016-05-13 Method and apparatus for encoding stereo phase parameter

Publications (1)

Publication Number Publication Date
WO2015078123A1 true WO2015078123A1 (zh) 2015-06-04

Family

ID=53198276

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2014/074673 WO2015078123A1 (zh) 2013-11-29 2014-04-02 立体声相位参数的编码方法及装置

Country Status (6)

Country Link
US (1) US10008211B2 (zh)
EP (1) EP3057095B1 (zh)
JP (1) JP6335301B2 (zh)
KR (1) KR101798559B1 (zh)
CN (1) CN104681029B (zh)
WO (1) WO2015078123A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107358960B (zh) * 2016-05-10 2021-10-26 华为技术有限公司 多声道信号的编码方法和编码器
CN107358961B (zh) * 2016-05-10 2021-09-17 华为技术有限公司 多声道信号的编码方法和编码器
CN107452387B (zh) * 2016-05-31 2019-11-12 华为技术有限公司 一种声道间相位差参数的提取方法及装置
US10217467B2 (en) 2016-06-20 2019-02-26 Qualcomm Incorporated Encoding and decoding of interchannel phase differences between audio signals
CN107731238B (zh) 2016-08-10 2021-07-16 华为技术有限公司 多声道信号的编码方法和编码器
US10217468B2 (en) * 2017-01-19 2019-02-26 Qualcomm Incorporated Coding of multiple audio signals
US10366695B2 (en) 2017-01-19 2019-07-30 Qualcomm Incorporated Inter-channel phase difference parameter modification
CN108877815B (zh) * 2017-05-16 2021-02-23 华为技术有限公司 一种立体声信号处理方法及装置
CN109215668B (zh) * 2017-06-30 2021-01-05 华为技术有限公司 一种声道间相位差参数的编码方法及装置
CN109300480B (zh) 2017-07-25 2020-10-16 华为技术有限公司 立体声信号的编解码方法和编解码装置
CN109389986B (zh) 2017-08-10 2023-08-22 华为技术有限公司 时域立体声参数的编码方法和相关产品

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101221763A (zh) * 2007-01-09 2008-07-16 上海杰得微电子有限公司 针对子带编码音频的三维声场合成方法
CN101809655A (zh) * 2007-09-25 2010-08-18 摩托罗拉公司 用于编码多信道音频信号的设备和方法
WO2010098120A1 (ja) * 2009-02-26 2010-09-02 パナソニック株式会社 チャネル信号生成装置、音響信号符号化装置、音響信号復号装置、音響信号符号化方法及び音響信号復号方法
CN102132340A (zh) * 2008-08-15 2011-07-20 Dts(Bvi)有限公司 参数立体声转换系统和方法
CN102157152A (zh) * 2010-02-12 2011-08-17 华为技术有限公司 立体声编码的方法、装置
CN102165520A (zh) * 2008-09-25 2011-08-24 Lg电子株式会社 处理信号的方法和装置
CN102292769A (zh) * 2009-02-13 2011-12-21 华为技术有限公司 一种立体声编码方法和装置
US8538762B2 (en) * 2008-02-20 2013-09-17 Samsung Electronics Co., Ltd. Method and apparatus for encoding/decoding stereo audio
WO2013149671A1 (en) * 2012-04-05 2013-10-10 Huawei Technologies Co., Ltd. Multi-channel audio encoder and method for encoding a multi-channel audio signal

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE0004187D0 (sv) * 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
US7006636B2 (en) * 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
CN101015230B (zh) * 2004-09-06 2012-09-05 皇家飞利浦电子股份有限公司 音频信号增强
WO2010036062A2 (en) 2008-09-25 2010-04-01 Lg Electronics Inc. A method and an apparatus for processing a signal
KR101356972B1 (ko) * 2009-04-08 2014-02-05 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 위상값 평활화를 이용하여 다운믹스 오디오 신호를 업믹스하는 장치, 방법 및 컴퓨터 프로그램
CN102656627B (zh) * 2009-12-16 2014-04-30 诺基亚公司 多信道音频处理方法和装置
ES2555136T3 (es) * 2012-02-17 2015-12-29 Huawei Technologies Co., Ltd. Codificador paramétrico para codificar una señal de audio multicanal

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101221763A (zh) * 2007-01-09 2008-07-16 上海杰得微电子有限公司 针对子带编码音频的三维声场合成方法
CN101809655A (zh) * 2007-09-25 2010-08-18 摩托罗拉公司 用于编码多信道音频信号的设备和方法
US8538762B2 (en) * 2008-02-20 2013-09-17 Samsung Electronics Co., Ltd. Method and apparatus for encoding/decoding stereo audio
CN102132340A (zh) * 2008-08-15 2011-07-20 Dts(Bvi)有限公司 参数立体声转换系统和方法
CN102165520A (zh) * 2008-09-25 2011-08-24 Lg电子株式会社 处理信号的方法和装置
CN102292769A (zh) * 2009-02-13 2011-12-21 华为技术有限公司 一种立体声编码方法和装置
WO2010098120A1 (ja) * 2009-02-26 2010-09-02 パナソニック株式会社 チャネル信号生成装置、音響信号符号化装置、音響信号復号装置、音響信号符号化方法及び音響信号復号方法
CN102157152A (zh) * 2010-02-12 2011-08-17 华为技术有限公司 立体声编码的方法、装置
WO2013149671A1 (en) * 2012-04-05 2013-10-10 Huawei Technologies Co., Ltd. Multi-channel audio encoder and method for encoding a multi-channel audio signal

Also Published As

Publication number Publication date
US20160254002A1 (en) 2016-09-01
JP2017503190A (ja) 2017-01-26
KR101798559B1 (ko) 2017-12-12
EP3057095A1 (en) 2016-08-17
KR20160077201A (ko) 2016-07-01
JP6335301B2 (ja) 2018-05-30
US10008211B2 (en) 2018-06-26
EP3057095B1 (en) 2019-11-20
EP3057095A4 (en) 2016-11-23
CN104681029B (zh) 2018-06-05
CN104681029A (zh) 2015-06-03

Similar Documents

Publication Publication Date Title
WO2015078123A1 (zh) 立体声相位参数的编码方法及装置
JP7443423B2 (ja) マルチチャネル信号の符号化方法およびエンコーダ
JP7273080B2 (ja) マルチチャネル信号を符号化する方法及びエンコーダ
US20220148606A1 (en) Apparatus and method for generating an enhanced signal using independent noise-filling
WO2018209942A1 (zh) 一种立体声信号处理方法及装置
CN107358960B (zh) 多声道信号的编码方法和编码器
CN107358961B (zh) 多声道信号的编码方法和编码器
BR122023025915A2 (pt) Método para codificar um sinal multicanal, codificador, e meio de armazenamento legível por computador
BR122023026024A2 (pt) Método de codificação de sinal de canal múltiplo, codificador, e meio de armazenamento legível por computador

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14866259

Country of ref document: EP

Kind code of ref document: A1

REEP Request for entry into the european phase

Ref document number: 2014866259

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2014866259

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2016534977

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 20167014661

Country of ref document: KR

Kind code of ref document: A