WO2012026092A1 - 音声信号処理装置及び音声信号処理方法 - Google Patents

音声信号処理装置及び音声信号処理方法 Download PDF

Info

Publication number
WO2012026092A1
WO2012026092A1 PCT/JP2011/004602 JP2011004602W WO2012026092A1 WO 2012026092 A1 WO2012026092 A1 WO 2012026092A1 JP 2011004602 W JP2011004602 W JP 2011004602W WO 2012026092 A1 WO2012026092 A1 WO 2012026092A1
Authority
WO
WIPO (PCT)
Prior art keywords
frame
additional data
audio signal
change
data
Prior art date
Application number
PCT/JP2011/004602
Other languages
English (en)
French (fr)
Inventor
宮阪 修二
理史 新崎
伸 赤松
山田 周平
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to EP11819568.4A priority Critical patent/EP2610865B1/en
Priority to JP2012530521A priority patent/JP5650227B2/ja
Priority to CN201180035062.0A priority patent/CN103003877B/zh
Publication of WO2012026092A1 publication Critical patent/WO2012026092A1/ja
Priority to US13/760,820 priority patent/US9472197B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3089Control of digital or coded signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3005Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers

Definitions

  • the present invention relates to an audio signal processing apparatus and an audio signal processing method for processing a bit stream in which an audio signal is encoded.
  • the present invention relates to an audio signal processing device and an audio signal processing method for decoding a bit stream and processing the decoded signal using additional data included in the bit stream decoded into the signal. .
  • an audio signal processing apparatus that generates a decode signal by decoding a bit stream generated by compressing and encoding an audio signal and performs predetermined processing on the generated decode signal.
  • an audio signal reproduction device that outputs a decoded signal as an audible signal, and a signal after re-encoding the decoded signal according to an encoding scheme different from the encoding scheme in which the decoded signal is encoded
  • a transcoding device or the like for generating a signal is known.
  • a decoding signal is generated using the included DRC data. The amplitude is adjusted.
  • DRC Dynamic Range Control
  • Patent Document 1 discloses a technique for encoding by switching on / off processing (DRC function) using DRC data according to the number of channels of an audio signal. For example, for 5.1ch audio signals, the DRC function is turned on to suppress the amplitude of the decoded signal, and for 2ch audio signals, the DRC function is turned off to enable the decoded signal. Does not suppress the amplitude. As a result, it is possible to prevent a sudden change in volume at the channel switching portion of the audio signal.
  • DRC function switching on / off processing
  • Non-Patent Document 1 discloses a technique for performing smoothing of DRC data when DRC data changes between two consecutive frames. By smoothing the DRC data, a sudden change in volume can be prevented.
  • the above-described conventional technique has a problem that, depending on the input bitstream, a decode signal that should be compressed to a small amplitude may be output with a large amplitude.
  • a portion with a large amplitude gives the listener a sense of incongruity. Therefore, according to the prior art, there is a problem that subjective sound quality deteriorates.
  • the present invention provides an audio signal processing apparatus and audio signal processing method capable of suppressing the deterioration of subjective sound quality (see the audio signal 5Bh having an inappropriate amplitude 6Bh in FIG. 4) and improving the sound quality.
  • the purpose is to provide.
  • an audio signal processing device that processes a bit stream in which an audio signal is encoded in units of frames, and the bit stream includes a frame
  • Each of them indicates encoded data indicating an encoded audio signal, additional data (such as DRC data) relating to the amplitude of a decoded signal generated by decoding the encoded data, and the characteristics of the encoded data Attribute information (such as information indicating whether the data is stereo broadcast data or multi-channel broadcast data), and the audio signal processing device generates the decoded signal by decoding the encoded data of the target frame.
  • a decoding unit that performs processing, a processing unit that processes the decoded signal generated by the decoding unit, and the target frame (first A detection unit that detects whether or not the attribute information has changed between a frame of a period) and an adjacent frame (frame of a second period) that is continuous to the target frame, and additional data of the target frame
  • An accumulation unit for accumulating at least two of the additional data including the processing unit, and when the change is not detected by the detection unit (see period 7A in FIG.
  • the processing unit accumulates in the accumulation unit
  • the decoded signal of the target frame is processed (with the amplitude determined from the additional data in the second period) using at least two pieces of the additional data (also using the additional data in the second period)
  • the detection unit When the change is detected by the detection unit, at least one additional data stored in the storage unit before the change is detected and the change is detected. Been using either only one of the at least one additional data after (without using the additional data in the second period), to process the decoded signal of the target frame.
  • the amplitude of the decode signal that should be compressed to a small amplitude from being processed into a large amplitude (see amplitude 6Bh in FIG. 4) and processing into an inappropriate amplitude. . That is, the amplitude after processing is set to an appropriate amplitude (see amplitude 6Bi in FIG. 5), and the sound quality can be improved.
  • the adjacent frame is a frame immediately before the target frame
  • the storage unit stores at least two additional data of the additional data of the target frame and the additional data of the adjacent frame, and performs the processing
  • a unit that processes the decode signal of the target frame using the additional data of the target frame and the additional data of the adjacent frame when no change is detected by the detection unit; May be detected, the decoded signal of the target frame may be processed using at least one additional data after the change is detected, including the additional data of the target frame.
  • At least one additional data after the change is detected is used, and additional data of a frame having a different property before the change is detected is not used.
  • additional data of a frame having the same property as that of the target frame is used and additional data of a frame having a different property is not used, subjective deterioration in sound quality can be suppressed.
  • the adjacent frame is a frame immediately after the target frame, and the storage unit stores at least two additional data of the additional data of the target frame and the additional data of the adjacent frame, and performs the processing A unit that processes the decode signal of the target frame using the additional data of the target frame and the additional data of the adjacent frame when no change is detected by the detection unit;
  • the decoded signal of the target frame may be processed using at least one additional data before the change is detected, including the additional data of the target frame.
  • At least one additional data before the change is detected is used, and additional data of a frame having a different property after the change is detected is not used.
  • additional data of a frame having the same property as that of the target frame is used and additional data of a frame having a different property is not used, subjective deterioration in sound quality can be suppressed.
  • the additional data may be DRC data for adjusting the amplitude of the decode signal
  • the processing unit may increase or decrease the amplitude of the decode signal of the target frame based on the DRC data.
  • the volume of the output audio signal can be easily adjusted.
  • the attribute information is information indicating the number of channels of the encoded audio signal of the corresponding frame, and the detection unit refers to the attribute information, so that the target frame, the adjacent frame, and It may be detected whether or not the number of channels of the audio signal has changed.
  • the attribute information is information indicating presence / absence of the additional data of the corresponding frame
  • the detection unit refers to the attribute information, so that the target frame and the adjacent frame can be referred to. A change in the presence or absence of the additional data may be detected.
  • the processing unit re-encodes the decoded signal in a frame unit having a frame length different from the frame length of the frame included in the bit stream, and the change is not detected by the detection unit when the change is not detected.
  • the additional data corresponding to the frame after re-encoding is generated using at least two additional data accumulated in the unit, and when a change is detected by the detection unit, the additional data is accumulated in the accumulation unit. Of each additional data, the frame after re-encoding using only one of at least one additional data before the change is detected and at least one additional data after the change is detected Additional data corresponding to may be generated.
  • This configuration makes it possible to generate appropriate additional data when re-encoding the decoded signal in units of frames having different frame lengths. For example, it is possible to prevent subjective sound quality from deteriorating due to multiplexing of additional data for large amplitude in a frame where additional data for small amplitude should be multiplexed. .
  • the attribute information is information indicating the number of channels of the encoded audio signal of the corresponding frame
  • the detection unit refers to the attribute information, so that the target frame, the adjacent frame, and Whether or not the number of channels of the audio signal has changed
  • the processing unit detects a change by the detection unit, and the boundary between the target frame and the adjacent frame And at least one additional data before the change is detected and at least one additional data after the change is detected when the boundary between the two frames after re-encoding does not match
  • additional data corresponding to the frame after re-encoding may be generated using additional data with a larger number of channels.
  • the attribute information is information indicating presence / absence of the additional data of the corresponding frame
  • the detection unit refers to the attribute information, so that the target frame and the adjacent frame can be referred to.
  • the processing unit is a case where a change is detected by the detection unit, the boundary between the target frame and the adjacent frame, after re-encoding If the boundary between two frames does not match, add as at least one additional data before the change is detected and at least one additional data after the change is detected Additional data corresponding to the frame after re-encoding may be generated using the additional data in which data exists.
  • the additional data is DRC data for adjusting the amplitude of the decoded signal
  • the processing unit re-decodes generated by decoding the re-encoded frame based on the DRC data.
  • DRC data for adjusting the amplitude of the signal may be generated.
  • the volume of the output audio signal can be easily adjusted when the re-encoded frame is further decoded.
  • the present invention can be realized not only as an audio signal processing device but also as a method using the processing means constituting the audio signal processing device as a step.
  • the audio signal processing device and the audio signal processing method according to the present invention it is possible to suppress subjective deterioration in sound quality (refer to the sound signal 5Bh having an inappropriate amplitude 6Bh in FIG. 4) and to reduce the sound quality. Can be high.
  • FIG. 1 is a block diagram showing an example of the configuration of an audio signal processing device according to Embodiment 1 of the present invention.
  • FIG. 2 is a diagram showing an example of the structure of a bit stream input to the audio signal processing apparatus according to Embodiment 1 of the present invention.
  • FIG. 3 is a diagram for explaining an example of a volume adjustment process using additional data according to Embodiment 1 of the present invention.
  • FIG. 4 is a diagram for explaining a problem to be solved by the audio signal processing device according to Embodiment 1 of the present invention.
  • FIG. 5 is a diagram for explaining the operation and effect of the audio signal processing apparatus according to Embodiment 1 of the present invention.
  • FIG. 1 is a block diagram showing an example of the configuration of an audio signal processing device according to Embodiment 1 of the present invention.
  • FIG. 2 is a diagram showing an example of the structure of a bit stream input to the audio signal processing apparatus according to Embodiment 1 of the present invention.
  • FIG. 3 is a
  • FIG. 6 is a flowchart showing an example of the operation of the audio signal processing apparatus according to Embodiment 1 of the present invention.
  • FIG. 7 is a block diagram showing an example of the configuration of the audio signal processing apparatus according to Embodiment 2 of the present invention.
  • FIG. 8 is a diagram for explaining a problem to be solved by the audio signal processing device according to Embodiment 2 of the present invention.
  • FIG. 9 is a diagram for explaining the operation and effect of the audio signal processing apparatus according to Embodiment 2 of the present invention.
  • FIG. 10 is a flowchart showing an example of the operation of the audio signal processing apparatus according to Embodiment 2 of the present invention.
  • the audio signal processing apparatus encodes encoded data (encoded data in FIG. 1) of a target frame (for example, the first period 7Aa in FIGS. 4 and 5).
  • the decoding unit (decoding unit 110) that generates a decoded signal (first audio signal 3Aa in FIG. 5) and the generated decoded signal (first audio signal 3Aa) are processed by decoding 100f) Attribute information (the type of audio signal, between the target frame (first period 7Aa, 7Ba)) and the adjacent frame (neighboring second period 7Ab, 7Bb).
  • Attribute information the type of audio signal, between the target frame (first period 7Aa, 7Ba)
  • neighborhboring second period 7Ab, 7Bb neighborhboring second period 7Ab, 7Bb
  • a detection unit for detecting whether or not the audio signal of the multi-channel broadcast or the audio signal of the stereo broadcast has changed, and the target frame (First period 7Aa, 7Ba) including at least two or more additional data (target frame DRC data 4Aa, 4Ba, adjacent frame DRC data 4A, 4B). . Then, when no change is detected by the detection unit (in the case of the period 7A), the processing unit includes at least two additional data including the DRC data 4A of the neighboring second period 7Ab accumulated in the accumulation unit.
  • the decoding signal (first audio signal 3Aa) of the target frame (first period 7Aa) is processed using data and a change is detected by the detection unit (in the case of period 7B), the data is accumulated in the accumulation unit.
  • the additional data at least one additional data (DRC data 4B) before the change is detected and at least one additional data (DRC data 4Ba) after the change is detected Using only one (only one (DRC data 4Ba) that does not cause inappropriate amplitude (see amplitude 6Bh in FIG. 4) if only one of them is used) Without using the b of DRC data 4B), and wherein the processing the decoded signal of the target frame (the first audio signal 3Ba).
  • the type of the first audio signal 3Xa (stereo broadcast audio signal or multi-channel broadcast) is close to (similar to, close to) the first period 7Xa of the audio indicated by the first audio signal 3Xa. It is detected whether or not the type of the second audio signal 3Xb indicating the audio in the second period 7Xb is the same type (S103 in FIG. 6). Only when the DRC data 4 of the second audio signal 3Xb is of the same type, the adjusted amplitude in the DRC data 4 is an appropriate amplitude (for example, the amplitude 6Aa in FIG. 5) and is not the same type. Is DRC data having an inappropriate amplitude (for example, amplitude 6Bh in FIG. 4).
  • the amplitude of the generated third audio signal 5X (third audio signal 5Aa) is close to the second period 7Xb (second The amplitude (amplitude 6Aa) determined from the DRC data 4 (DRC data 4A) in the period 7Ab) is controlled to generate the third audio signal 5X having the amplitude, or the generation process itself is performed.
  • the other amplitude the amplitude determined from only other data other than the DRC data 4 (for example, only the DRC data 4Ba)) is not used.
  • the processed third audio signal (third audio signal 5Aa) after being processed is not limited to a high-quality audio signal.
  • the processed second audio signal becomes a low-quality audio signal (second audio signal 5Bh having an inappropriate amplitude 6Bh in FIG. 4).
  • a high-quality sound signal (second sound signal 5Bi having an appropriate amplitude 6Bi in FIG. 5) can be obtained.
  • the sound quality can be improved in any case, and the sound quality can be surely improved.
  • FIG. 1 is a block diagram showing an example of the configuration of the audio signal processing apparatus 100 according to Embodiment 1 of the present invention.
  • the audio signal processing apparatus 100 processes a bit stream in which an audio signal is encoded in units of frames.
  • the audio signal processing apparatus 100 generates a decoded signal obtained by decoding a bit stream by decoding the bit stream (bit stream 100a). Then, the volume of the generated decoded signal is adjusted, and the adjusted decoded signal is output as an audible signal.
  • bit stream input to the audio signal processing apparatus 100 will be described with reference to FIG.
  • FIG. 2 is a diagram illustrating an example of the structure of a bit stream input to the audio signal processing apparatus 100 according to Embodiment 1 of the present invention.
  • FIG. 2 one of a plurality of frames (frame 100b) constituting the bit stream is shown.
  • one frame (frame 100b) of the bitstream includes a header (header 100c) and a data block (data 100d).
  • the header includes information (attribute information) 100e.
  • the data block includes encoded data and additional data (metadata) (data (additional data) 100f, 100g).
  • Encoded data is data indicating an encoded audio signal. That is, the encoded data indicates an audio signal in a period (see frame 2f in FIG. 3 and the like) for one frame, which is encoded based on a predetermined encoding standard. ing.
  • the additional data is data relating to the amplitude of the decoded signal generated by decoding the encoded data.
  • the additional data is DRC data for adjusting the amplitude of the decoded signal.
  • DRC data By using DRC data, the amplitude of the decoded signal can be increased or decreased.
  • Attribute information is information indicating the nature of the encoded data.
  • the attribute information indicates the number of encoded audio signal channels of a frame corresponding to the attribute information (a frame including a header including the attribute information).
  • the attribute information indicates whether the audio signal is multi-channel broadcast (5.1ch, 7.1ch, etc.) or stereo broadcast (2ch).
  • the bit stream includes encoded data (data 100f) that is divided for each frame, and each of the one or more encoded data included in the bit stream corresponds to each encoded data.
  • Each includes data and attribute information.
  • attribute information and additional data shown in FIG. 2 in the frame are merely examples, and are not limited to this example.
  • additional data may be included in the header, and attribute information may be included in the additional data.
  • attribute information and additional data may be included in both the header and the data block.
  • the audio signal processing apparatus 100 includes a decoding unit 110, a detection unit 120, a storage unit 130, and a processing unit 140.
  • the decoding unit 110 decodes the encoded data of the target frame (for example, the target frame 2fx in FIG. 3), thereby decoding the decoded signal (for example, the first audio in FIG. 4). Signal 3Ba).
  • the detection unit 120 includes a target frame (for example, a frame 100m in FIG. 2 (see the period 7Xa in FIG. 5)) and an adjacent frame (frame 100n in the period 7Xb in FIG. 5) that is continuous (adjacent) to the target frame ) To detect whether the attribute information has changed.
  • a target frame for example, a frame 100m in FIG. 2 (see the period 7Xa in FIG. 5)
  • an adjacent frame frame 100n in the period 7Xb in FIG. 5
  • the detection unit 120 detects whether or not the attribute information of the additional data has changed between the two frames of the target frame and the adjacent frame.
  • the detection unit 120 refers to the attribute information to detect whether the number of channels of the audio signal has changed between the target frame and the adjacent frame.
  • the adjacent frame is, for example, a frame immediately before the target frame (immediately preceding frame) in the order of input or processing.
  • the accumulation unit 130 is a memory for accumulating at least two pieces of additional data including additional data of the target frame.
  • the storage unit 130 includes at least two pieces of additional data of the target frame (additional data 131m of the frame 100m shown in FIG. 1) and additional data of the adjacent frame (additional data 131n of the frame 100n). Accumulate additional data.
  • the processing unit 140 processes the signal (decoded signal) 110a (FIG. 1) generated by the decoding unit 110.
  • the processing unit 140 performs the following operation.
  • the decoding signal of the target frame is processed using both of the at least two additional data stored in the storage unit 130.
  • the processing unit 140 performs the following operation.
  • any one of the additional data stored in the storage unit 130 is at least one additional data before the change is detected and at least one additional data after the change is detected.
  • the decoded signal of the target frame is processed using only one of them.
  • the processing unit 140 includes a volume adjustment unit 141 shown in FIG.
  • the volume adjustment unit 141 adjusts the volume of the decoded signal of the target frame using the additional data.
  • the volume adjusting unit 141 calculates a volume adjustment coefficient using the DRC data (additional data 100g) of the target frame, and adjusts the amplitude of the decoded signal of the target frame using the calculated coefficient.
  • the volume adjusting unit 141 determines the DRC data of the target frame and the DRC of the immediately preceding frame. A coefficient for volume adjustment is calculated by smoothing the data. Then, the volume adjusting unit 141 adjusts the amplitude of the decoded signal of the target frame (the frame 100m) using the calculated coefficient.
  • FIG. 3 is a diagram for explaining an example of a volume adjustment process using additional data according to Embodiment 1 of the present invention.
  • the signal (decoded signal) 110a includes a multi-channel broadcast audio signal (such as an audio signal 110p) and a stereo broadcast audio signal (such as an audio signal 110q).
  • the decode signal is divided for each frame, and each frame (frame 2f) includes DRC data (DRC data 110s, 110t, etc.) as additional data (metadata, additional data 100g).
  • the DRC data (additional data) of the frame is DRC data for small amplitude that reduces the amplitude of the decoded signal.
  • the DRC data (additional data) of the frame is DRC data for large amplitude that increases the amplitude of the decoded signal.
  • the small-amplitude DRC data (or the large-amplitude DRC data) is commonly added to the audio signal of multi-channel broadcasting (or stereo broadcasting).
  • DRC data may be added in an audio signal of multi-channel broadcasting. That is, DRC data can be freely set for each frame.
  • the volume adjustment unit 141 (FIG. 1) can reduce the amplitude of the decoded signal by using the DRC data for small amplitude, compared to the case of using DRC data for large amplitude.
  • the volume adjusting unit 141 smooths the DRC data (see also the smoothing 4x in FIG. 4). . Thereby, the sound volume can be changed smoothly.
  • the volume adjustment unit 141 adjusts the DRC data (for large amplitude) of the target frame and the DRC data of the immediately preceding frame (adjacent frame 2fy) ( (For small amplitude).
  • Smoothing refers to the following processing, for example. That is, in the processing, DRC data of the immediately preceding frame is used for the first sample in the frame, and DRC data of the target frame is used for the last sample in the frame. Then, with respect to the remaining samples, an amplitude intermediate between the amplitude of the first sample and the amplitude of the last sample is performed so that the amplitude becomes smooth.
  • the volume can be smoothly changed by smoothing the DRC data before the change and the DRC data after the change.
  • FIG. 4 is a diagram for explaining a problem to be solved by the audio signal processing device according to the first embodiment of the present invention.
  • the decoded signal shown in FIG. 4 includes a silent frame in the first and last sections of the four sections of the stereo broadcast audio signal.
  • a stereo broadcast such as CM (commercial) may be inserted between multi-channel broadcasts such as movies.
  • the volume adjusting unit 141 smoothes these DRC data.
  • the target frame of the multi-channel broadcast (see period 7Ba) is a frame whose volume should be adjusted so that the amplitude is originally small, but as shown in FIG.
  • the amplitude of the decoded signal is adjusted.
  • the decoded signal in this portion is heard as an unpleasant sound for the listener.
  • the audio signal processing apparatus 100 detects a change in attribute information, and when the attribute information changes (Yes in FIG. 6 described later), before the change detection and The amplitude of the decoded signal is adjusted by using only one of the DRC data after the change is detected (one of which is one in which inappropriate amplitude 6Bh is not generated if only one of them is used).
  • the audio signal processing apparatus 100 uses the plurality of DRC data so as to straddle the change point when the plurality of DRC data used for smoothing straddles the time point (change point) when the attribute information changes. Not in.
  • the DRC data corresponding to the different attribute information is not smoothed at the portion where the decoded signal itself is greatly changed, so that it is possible to prevent an uncomfortable sound from being output. be able to.
  • the audio signal processing apparatus 100 performs smoothing of DRC data when the attribute information has not changed. Thereby, it is possible to prevent the sound volume from changing suddenly.
  • FIG. 5 is a diagram for explaining the operation and effect of the audio signal processing apparatus 100 according to Embodiment 1 of the present invention.
  • the processing unit 140 when no change is detected by the detection unit 120 (see period 7A or the like), the processing unit 140 includes additional data of the target frame and an adjacent frame (previous frame) that is the immediately preceding frame.
  • the decoded signal is processed using the additional data.
  • the volume adjustment unit 141 included in the processing unit 140 smoothes the DRC data of the target frame and the DRC data of the immediately preceding frame.
  • the hatching patterns attached to the DRC data 4A and the DRC data 4Aa are different from each other. That is, for example, the DRC data 4A and the DRC data 4Aa in FIG. 5 may differ to some extent. It may be considered that this point is schematically shown by a different pattern.
  • the processing unit 140 uses at least one additional data after the change is detected, including the additional data of the target frame. Process the decoded signal.
  • the attribute information changes between the target frame A and the immediately preceding frame A, and between the target frame B and the immediately preceding frame B.
  • the attribute information of the immediately preceding frame A indicates that the immediately preceding frame A is a multi-channel broadcast
  • the attribute information of the target frame A indicates that the target frame A is a stereo broadcast.
  • the previous frame B is the attribute information of the previous frame B. This indicates that the broadcast is a stereo broadcast, and the attribute information of the target frame B indicates that the target frame B is a multi-channel broadcast.
  • the volume adjustment unit 141 adjusts the volume using the DRC data of the target frame A that is the frame after the change is detected.
  • the volume adjusting unit 141 adjusts the volume using the DRC data of the target frame B that is the frame after the change is detected.
  • the processing unit 140 may use additional data of the target frame B when processing the target frame B.
  • the processing unit 140 may not use the additional data of the frame before the change point of the attribute information, specifically, the additional data of the frame before the target frame B. May be used.
  • FIG. 6 is a flowchart showing an example of the operation of the audio signal processing apparatus 100 according to Embodiment 1 of the present invention.
  • the decoding unit 110 generates a decoded signal by decoding encoded data of one frame (S101). That is, the decoding unit 110 decodes the encoded data of the target frame.
  • the storage unit 130 stores the additional data of the target frame (S102).
  • the detection unit 120 detects whether or not the attribute information has changed (S103).
  • the detection unit 120 detects whether or not the attribute information has changed between the immediately preceding frame and the target frame.
  • the detection unit 120 detects whether the attribute information of the immediately preceding frame and the attribute information of the target frame are the same or different.
  • the detection unit 120 detects whether or not the number of channels of the immediately preceding frame and the number of channels of the target frame are the same by referring to attribute information, for example.
  • the detection unit 120 determines that the attribute information has not changed if the number of channels of the immediately preceding frame is the same as the number of channels of the target frame, and determines that the attribute information has changed if they are different.
  • the volume adjustment unit 141 smoothes the additional data and creates a coefficient for volume adjustment (S104). Note that when the DRC data of the immediately preceding frame and the DRC data of the target frame are the same, smoothing is not necessary.
  • the volume adjustment unit 141 creates a coefficient for volume adjustment using only the additional data after the change is detected (S105).
  • the volume adjustment unit 141 creates a volume adjustment coefficient using only the DRC data of the target frame.
  • the volume adjusting unit 141 adjusts the volume of the audio signal output from the audio signal processing apparatus 100 by adjusting the amplitude of the decoded signal using the created coefficient (S106).
  • the audio signal processing apparatus 100 repeats the above processing (returns to S101).
  • the audio signal processing apparatus 100 detects a change in attribute information (for example, a change in the period 7B in FIG. 5), and when a change is detected. , At least one additional data (for example, DRC data 4B) before the change and at least one additional data (for example, DRC data 4Ba) after the change (if only one of them is used)
  • the decoded signal (audio signal 3Ba) is processed into a processed signal (audio signal 5Bi) using only one of which inappropriate amplitude 6Bh is avoided (for example, using only DRC data 4Ba).
  • the audio signal (audio signal 3Bb) of attribute information (attribute information in stereo broadcasting) different from the attribute information (attribute information in multi-channel broadcasting) of the target audio signal (audio signal 3Ba) is processed.
  • Use of the additional data (DRC data 4B) for processing the target audio signal (audio signal 3Ba) can be prohibited. Therefore, it is possible to prevent an audio signal that would otherwise be processed to a small amplitude from being processed to a large amplitude (see the audio signal 5Bh in FIG. 4), and to prevent subjective deterioration of sound quality. can do.
  • the attribute information may be information indicating the presence / absence of additional data.
  • the attribute information may be information indicating whether or not additional data is associated with encoded data.
  • the attribute information may be included in the header of the frame as shown in FIG. 2, or may be included in the data block.
  • the detection unit 120 detects a change in presence / absence of additional data between the target frame and an adjacent frame by referring to the attribute information.
  • a multi-channel broadcast frame may include additional data
  • a stereo broadcast frame may not include additional data.
  • the volume adjusting unit 141 smoothes these two additional data to obtain a coefficient for volume adjustment. calculate. Then, the amplitude of the target frame is adjusted using the calculated coefficient. The case where such processing is performed will be described in more detail below.
  • the processing unit 140 processes the decoded signal using the additional data of the target frame. However, in this case, since there is no additional data of the target frame, as a result, the processing unit 140 does not process the decoded signal of the target frame.
  • the attribute information may be information indicating that the nature of the audio signal is greatly different when the attribute information changes (see Yes in S103).
  • the attribute information may be information indicating the switching of the audio content.
  • the attribute information may be information indicating a sampling frequency, the number of quantization bits, an encoding method, or the like.
  • the adjacent frame may be a frame immediately after the target frame (immediate frame). That is, the processing unit 140 may process the decoded signal using the additional data of the target frame and the additional data of the immediately subsequent frame. Specifically, when the DRC data of the target frame is different from the DRC data of the immediately following frame, the volume adjusting unit 141 smoothes the DRC data of the target frame and the DRC data of the immediately following frame to thereby adjust the volume. A coefficient for adjustment is calculated. Then, the volume adjusting unit 141 adjusts the amplitude of the decoded signal of the target frame using the calculated coefficient.
  • the detection unit 120 detects whether or not the attribute information has changed between the target frame and the immediately following frame. In other words, the detection unit 120 detects whether the attribute information of the target frame is the same as or different from the attribute information of the immediately following frame.
  • the processing unit 140 processes the decoded signal using at least one additional data before the change is detected. Specifically, the volume adjusting unit 141 adjusts the amplitude of the decoded signal using the DRC data of the target frame.
  • the processing unit 140 processes the decoded signal of the target frame using the additional data of the target frame and the additional data other than the additional data of the target frame. Specifically, the volume adjustment unit 141 calculates a coefficient for volume adjustment by smoothing the DRC data of the target frame and the DRC data of the immediately following frame, and decodes the target frame using the calculated coefficient. The amplitude of the signal may be adjusted.
  • the DRC data used for smoothing may be the DRC data of the immediately preceding frame or the DRC data of the immediately following frame.
  • the amplitude (for example, the amplitude 6Aa in FIG. 5) is determined.
  • the amplitude of the first audio signal (first audio signal 3Aa) representing the audio in the first period (for example, the first period 7Aa) is changed to the determined amplitude (amplitude 6Aa).
  • the second audio signal in the second period (for example, the second period 7Ab) close to (similar to or close to) the first period (first period 7Aa)
  • the determination is made from the DRC data (DRC data 4A) of (second audio signal 3Ab).
  • the first audio signal may indicate audio in the first period
  • the second audio signal may indicate audio in another second period
  • the other period close to one period refers to a period in which any time in the period is a time included in the vicinity of the one period, for example.
  • the determination may be made from one or more data (for example, two DRC data 4A, 4Aa) including the DRC data.
  • the type (stereo broadcast) of the second audio signal (second audio signal 3Xb (for example, 3Ab)) determined from the DRC data of the audio signal described above is the first audio signal (first audio signal).
  • One audio signal 3Xa (3Aa)) may be the same type (stereo broadcast) as the type (stereo broadcast) (period 7A).
  • the type (stereo broadcast) of the second audio signal (second audio signal 3Xb (for example, 3Bb)) is the type (multi-channel broadcast) of the first audio signal (first audio signal 3Xa (3Ba)). It can be considered that there is a case (stereo broadcast) that is different from the case (period 7B).
  • the sound quality of the third sound signal (third sound signal 5Aa) generated with an appropriate amplitude is relatively high.
  • the amplitude determined in the determination from the DRC data (DRC data 4B) of the second audio signal (second audio signal 3Bb) is ineffective. It is conceivable that the sound quality of the third sound signal (third sound signal 5Bh in FIG. 4) having the appropriate amplitude (amplitude 6Bh in FIG. 4) is relatively low.
  • second audio signal 3Xb the type of the second audio signal
  • second audio signal 3Ab the same type (second audio signal 3Ab) or different type (second audio signal 3Bb).
  • the determination is made from the DRC data (DRC data 4A) in the neighboring second period (period 7Ab). Thereby, only in this case (No in S103, period 7A), the determined amplitude is the amplitude (amplitude 6Aa) determined from the nearby DRC data (DRC data 4A) (S104, S106).
  • the determination is not made from the DRC data (DRC data 4B) in the neighboring second period (period 7Bb).
  • the determined amplitude is not the amplitude determined from the nearby DRC data (DRC data 4B) (inappropriate amplitude 6Bh in FIG. 4). It is an amplitude other than the amplitude (appropriate amplitude 6Bi in FIG. 5) (S105, S106).
  • a third audio signal in which the adjusted amplitude in the amplitude adjustment in the DRC data (for example, DRC data 241a in FIG. 7 described later, DRC data 9ni in FIG. 9 and the like) is generated.
  • DRC data (for example, DRC data 241a in FIG. 7) that is the amplitude of the period 7Bq in the 9 audio signals 5Bi and the third audio signals 5Aa and 5Bi in FIG. 5 may be generated.
  • the amplitude after the adjustment in the adjustment with the generated DRC data may be a determined amplitude (see the above-described amplitudes 6Aa and 6Bi).
  • the amplitude of the generated third audio signal may be controlled to the adjusted amplitude in the DRC data.
  • the generated third audio signal may have corresponding DRC data. Then, the amplitude of the third audio signal may be set to the appropriate amplitude described above by setting the amplitude after adjustment with the corresponding DRC data.
  • an encoded signal before re-encoding in which a signal including the first and second audio signals is encoded (for example, a bit stream (described above) decoded by the audio signal processing apparatus 200 in FIG. 7 described later).
  • the processing of the bit stream 100a) may be performed.
  • the encoded signal before re-encoding is the encoded signal after re-encoding in which the signal including the third audio signal is encoded (see the encoded signal 9a in FIG. 7). May be re-encoded.
  • the encoded signal after re-encoding is decoded (decoded) into a signal including the third audio signal, and a signal including the third audio signal is generated.
  • An audio signal may be generated.
  • the amplitude of the generated third audio signal is set to the appropriate amplitude described above. Control may be performed.
  • DRC data 4Ba, 4B DRC data 4Ba, 4B
  • the type (the type of multi-channel broadcasting in the second audio signal 3Bb on the left side, the type of stereo broadcasting in the second audio signal 3Bb on the right side) is The same type as the first audio signal type (the type of multi-channel broadcasting in the period 7Bq) in the first period (for example, the period 7Bq included in the period 7Ba in FIG. 9) (see the audio signal 3Bb on the left side) Alternatively, it may be determined whether the type is different (see the right audio signal 3Bb).
  • DRC data (DRC data 4Ba) of each second audio signal (second audio signal 3Bb on the left side) determined to be the same type is included, and each second type determined to be a different type is included. Processing from zero or more DRC data (one DRC data 4Ba) that does not include DRC data (DRC data 4B) of the audio signal (second audio signal 3Bb on the right side) may be performed.
  • the third audio signal generated from the zero or more DRC data (for example, part of the period 7Bq of the audio signal 5Bi or the entire period 7Ba that is the period of the audio signal 5Bi).
  • the amplitude of the audio signal 5Bi may be determined.
  • one type of audio signal is a stereo broadcast audio signal
  • another type of audio signal that is not the same as one type is a multi-channel broadcast audio signal. Good.
  • sampling frequency of one type of audio signal may be different from the sampling frequency of the other type of audio signal.
  • the number of quantization bits may be different, and the encoding method may be different.
  • Non-Patent Document 1 When the amplitude is determined from the DRC data in the second period in the vicinity, for example, a process similar to the smoothing process (see smoothing 4x in FIG. 4) shown in Non-Patent Document 1 is performed. May be.
  • the amplitude at each time in the first period (for example, see the first period 7Ba in FIG. 4) is determined and the amplitude at one or more times is determined. Good.
  • the amplitude determined from the DRC data is relatively small, the DRC data for small amplitude (see the DRC data 4Ba in FIG. 9), and the amplitude determined from the DRC data are relatively small. There may be large DRC data for large amplitude (see DRC data 4B in FIG. 9).
  • the DRC data in the first period is DRC data for small amplitude (DRC data 4Ba), and the case for large amplitude is used.
  • DRC data 4B There may be a second case of DRC data (DRC data 4B).
  • the sound quality deteriorates (for example, a decrease with a large reduction width that causes a harmful effect), and in the second case (for large amplitude). May not occur.
  • the above-described processing may be performed only when it is determined as the first case (for small amplitude). Thereby, improvement in sound quality can be maintained.
  • the processing unit is different from the frame length of a frame included in the bit stream (for example, the frame length of a frame including 1024 samples, which will be described later).
  • the decoded signal is re-encoded in units of frames having a frame length (for example, a frame length in a frame including 1536 samples).
  • the processing unit according to the second embodiment of the present invention supports a frame after re-encoding using at least two additional data stored in the storage unit when no change is detected by the detection unit. When the change is detected by the detection unit, at least one additional data before the change is detected and the change are detected from the additional data stored in the storage unit. After that, the additional data corresponding to the frame after re-encoding is generated using only one of the at least one additional data (see the above description).
  • FIG. 7 is a block diagram showing an example of the configuration of the audio signal processing device 200 according to Embodiment 2 of the present invention.
  • FIG. 7 is different from the audio signal processing device 100 according to Embodiment 1 in that a processing unit 240 is provided instead of the processing unit 140.
  • the audio signal processing device 200 illustrated in FIG. Hereinafter, detailed description of the same points as in the first embodiment will be omitted, and different points will be mainly described.
  • symbol is attached
  • Audio signal processing apparatus 200 is a transcoding apparatus that decodes a bitstream encoded by a predetermined encoding scheme and re-encodes the decoding result by a different encoding scheme. .
  • a case will be described in which the input bit stream and the re-encoded bit stream have different frame lengths per frame.
  • the processing unit 240 re-encodes the decoded signal in units of frames having a frame length different from the frame length of the frame included in the bit stream.
  • the frame length is indicated by the number of samples included in one frame, for example.
  • the processing unit 240 includes an encoding unit 241.
  • the encoding unit 241 generates a re-encoded frame (encoded signal 9a) by encoding the decoded signal of the target frame.
  • the frame length of the target frame is different from the frame length after re-encoding. Therefore, the encoding unit 241 generates a re-encoded frame by re-encoding the decoded signal after a decoded signal corresponding to the re-encoded frame length is generated.
  • the encoding unit 241 generates additional data (DRC data 241a) corresponding to the re-encoded frame. Specifically, the encoding unit 241 decodes the frame after re-encoding based on the DRC data, thereby generating DRC data (DRC data 241a) for adjusting the amplitude of the generated re-decoded signal. Generate.
  • the encoding unit 241 uses the at least two pieces of additional data stored in the storage unit 130 to add additional data (DRC data 241a) corresponding to the re-encoded frame. ) Is generated.
  • additional data DRC data 241a
  • the encoding unit 241 detects at least one additional data before the change is detected from the additional data stored in the storage unit 130, and the change.
  • the additional data corresponding to the frame after re-encoding is generated by using only one of the at least one additional data (see the above description).
  • the attribute information indicates the number of channels of the audio signal, and whether the number of channels of the audio signal has changed between the target frame and the adjacent frame by the detection unit 120 referring to the attribute information. The case of detecting whether or not will be described in detail.
  • the encoding unit 241 detects a change when a change is detected by the detection unit 120 and the boundary between the target frame and an adjacent frame does not match the boundary between re-encoded frames.
  • An audio signal with a large number of channels often includes additional data for small amplitude. Therefore, as a result, the encoding unit 241 generates additional data after re-encoding using the additional data for small amplitude.
  • FIG. 8 is a diagram for explaining a problem to be solved by the audio signal processing device 200 according to Embodiment 2 of the present invention.
  • an input bitstream composed of a plurality of frames including 1024 samples per frame is converted into a re-encoded signal including 1536 samples per frame.
  • the case of converting to an output bit stream composed of a plurality of frames is shown.
  • the encoding unit 241 performs re-encoding for each frame after re-encoding.
  • the additional data (DRC data 241a in FIG. 7) corresponding to the frame is generated.
  • new additional data is generated using the additional data corresponding to the decoded signal included in the re-encoded frame.
  • the re-encoded frame A includes a part of the decoded signal of the first frame and the decoded signal of the second frame.
  • the additional data corresponding to the re-encoded frame A is generated from the additional data of the first frame and the additional data of the second frame.
  • the re-encoded frame B includes a third frame decoding signal and a part of the fourth frame decoding signal.
  • the additional data corresponding to the re-encoded frame B is generated from the additional data of the second, third, and fourth frames.
  • the additional data of the second frame is used to prevent a sudden change from the immediately preceding re-encoded frame, as described in the first embodiment.
  • the frame length differs between the input bit stream and the output bit stream.
  • a plurality of frames (fourth and fifth frames) having different attribute information may be included as in the re-encoded frame C shown in FIG.
  • a change in attribute information is detected between the fourth frame and the fifth frame.
  • the processing unit 240 generates additional data (DRC data 9nh) of the re-encoded frame C using the fifth frame.
  • the DRC data for large amplitude (DRC data 4B) is multiplexed as additional data of the re-encoded frame C.
  • the boundary between the target frame and the adjacent frame does not match the boundary between the frames after re-encoding
  • the large-amplitude signal is originally added to the frame in which the additional data for small amplitude is to be multiplexed.
  • the subjective sound quality deteriorates.
  • FIG. 9 is a diagram for explaining the operation and effect of the audio signal processing apparatus 200 according to Embodiment 2 of the present invention.
  • the detection unit 120 detects whether or not the number of channels of the audio signal has changed by referring to the attribute information. Then, the processing unit 240 detects a change in the number of channels, and the boundary between the immediately preceding frame and the target frame and the boundary between the frames after re-encoding at the time when the change is detected are one. If not, the additional data (DRC data 9ni) corresponding to the re-encoded frame is generated using the additional data (DRC data 4Ba) of the frame having the larger channel number.
  • the additional data corresponding to the re-encoded frame C is generated by referring only to the additional data (DRC data 4Ba) of the fourth frame. Thereby, the amplitude of the audio signal of multi-channel broadcasting can be reduced.
  • FIG. 10 is a flowchart showing an example of the operation of the audio signal processing apparatus 200 according to Embodiment 2 of the present invention.
  • the audio signal processing apparatus 200 sets parameters necessary for transcoding processing (S201).
  • the audio signal processing device 200 includes a control unit (not shown in FIG. 7) that performs overall control of the audio signal processing device 200.
  • the control unit includes the number K of accumulated frames, an attribute information change flag, and the like. Both Z and 0 are set.
  • the accumulated frame number K is a parameter indicating the number of frames accumulated in a memory (not shown in FIG. 7) for temporarily storing the decoded signal.
  • the decoding unit 110 generates a decoded signal by decoding the encoded data of one frame (S202).
  • the decoding unit 110 decodes the encoded data of the target frame.
  • the generated decoded signal of the target frame is stored in the memory.
  • the storage unit 130 stores the additional data of the target frame (S203).
  • the audio signal processing device 200 increments the number of stored frames K (S204).
  • the detection unit 120 detects whether or not the attribute information has changed (S205).
  • the detection unit 120 detects whether or not the attribute information has changed between the immediately preceding frame and the target frame. In other words, the detection unit 120 detects whether the attribute information of the immediately preceding frame and the attribute information of the target frame are the same or different.
  • the detection unit 120 refers to the attribute information to detect whether the number of channels in the immediately preceding frame is the same as the number of channels in the target frame. The detection unit 120 determines that the attribute information has not changed if the number of channels in the previous frame is the same as the number of channels in the target frame (see period 7A in FIG. 8). It is determined that the information has changed (see period 7B).
  • the audio signal processing device 200 sets the attribute information change flag Z to 1 (S206).
  • the encoding unit 241 determines whether or not a decoded signal sufficient for re-encoding is generated, that is, whether or not the decoded signal is stored in the memory (S207).
  • the encoding unit 241 determines whether or not a decode signal having a frame length equal to or larger than the frame length of the re-encoding process is generated.
  • the encoding unit 241 determines whether or not K ⁇ Ld ⁇ Le is satisfied.
  • Ld is the frame length before re-encoding (specifically, the frame length of the input bit stream)
  • Le is the frame length after re-encoding (specifically, the frame length of the output bit stream). It is.
  • the audio signal processing device 200 sets the attribute information change flag Z to It is reset to 0 (S209).
  • the attribute information change flag Z may be reset next time frame processing is started.
  • the encoding unit 241 uses the additional data before change detection (for example, DRC data 4Ba) to output bit Additional data for re-encoding (DRC data 9ni) for multiplexing in the stream is generated (S211).
  • the encoding unit 241 uses the additional data after change detection to multiplex the output bitstream. Additional data for re-encoding is generated (S212).
  • the encoding unit 241 generates additional data corresponding to the re-encoded frame using the additional data added to the decoded signal having the larger number of channels.
  • the encoding unit 241 adds the additional data stored in the storage unit 130 (for example, Using both the two DRC data 4A and 4Aa), additional data for re-encoding for multiplexing in the output bit stream is generated (S213).
  • the encoding unit 241 encodes the decoded signal for one frame (S214).
  • the audio signal processing apparatus 200 replaces the value of the number of stored frames K with a value obtained by subtracting Le / Ld from the current K value ( S216). Then, the above process is repeated (return to S202).
  • the decoded signal is re-encoded in frame units having a frame length different from the frame length of the frame included in the bit stream.
  • the boundary between the target frame and the adjacent frame and the boundary between the frames after re-encoding are equal. If not (in the case of period 7Ba), re-encoding is performed using only one additional data before detection of change or after detection of change (without using DRC data 4B and without using DRC data 4Ba). Additional data (DRC data 9ni) corresponding to the converted frame is generated.
  • the additional data corresponding to the re-encoded frame is generated using the additional data having the larger channel number.
  • the additional data for large amplitude (DRC data 9nh in FIG. 8 is added to the frame in which the additional data for small amplitude is supposed to be multiplexed (see the frame of period 7Ba in FIG. 8). Can be prevented from degrading subjective sound quality.
  • the attribute information may be information indicating the presence / absence of additional data.
  • the attribute information may be information indicating whether or not additional data is associated with encoded data.
  • the detection unit 120 detects a change in presence / absence of additional data between the target frame and an adjacent frame by referring to the attribute information.
  • a multi-channel broadcast frame may include additional data
  • a stereo broadcast frame may not include additional data.
  • the encoding unit 241 Using at least one additional data before the change is detected and at least one additional data after the change is detected using the additional data on which the additional data exists as one of the additional data. Then, additional data corresponding to the re-encoded frame is generated.
  • the additional data for small amplitude can be multiplexed as the additional data of the frame after re-encoding.
  • second period 7Bb there are two or more second periods (second period 7Bb) as the second period in the vicinity, and DRC data (DRC data 4B, 4Ba) of each second period is included.
  • DRC data 4B, 4Ba DRC data 4B, 4Ba
  • the amplitude of the third audio signal generated from the two or more DRC data (for example, the audio signal in the period 7Bq of the audio signal 5Bi in the period 7Ba or the audio signal 5Bi itself) May be determined.
  • period of the third audio signal may be different from each of one or more periods of the two or more DRC data periods.
  • the length of the period of the third audio signal (the length of the period 7Bq, the length of the period 7Ba, for example, the length of 1536 samples in the example of FIG. 9) is 2 It may be different from the length (length of 1024 samples) of any one of the two or more DRC data periods (period 7Bb).
  • each of the two or more DRC data is encoded before the re-encoding by the audio signal processing device 200.
  • the data at The generated third audio signal may be the above-described audio signal after the encoded signal before re-encoding is re-encoded.
  • the additional data may be a downmix coefficient.
  • the downmix coefficient is, for example, a parameter used to convert a multi-channel audio signal into a stereo audio signal.
  • the signal amplitude adjustment (volume adjustment) and re-encoding have been described as examples of the processing for the decoded signal.
  • the present invention is not limited to this.
  • each processing unit included in the audio signal processing device is typically realized as an LSI (Large Scale Integration) that is an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include a part or all of them.
  • LSI Large Scale Integration
  • LSI Integrated Circuit
  • IC Integrated Circuit
  • circuits are not limited to LSI, and may be realized by a dedicated circuit or a general-purpose processor.
  • An FPGA Field Programmable Gate Array
  • reconfigurable processor that can reconfigure the connection and setting of circuit cells inside the LSI may be used.
  • a processor such as a CPU (Central Processing Unit) executing a program.
  • CPU Central Processing Unit
  • the present invention may be the above program or a recording medium on which the above program is recorded.
  • the program can be distributed via a transmission medium such as the Internet.
  • connection relationship between the components is exemplified for specifically explaining the present invention, and the connection relationship for realizing the function of the present invention is not limited to this.
  • the configuration using hardware can also be configured using software
  • the configuration using software uses hardware. Can be configured.
  • the audio signal processing device and the audio signal processing method according to the present invention can suppress the deterioration of subjective sound quality (see the audio signal 5Bh having an inappropriate amplitude 6Bh in FIG. 4) and can improve the sound quality.
  • an audio player, digital television, or digital recorder can be used when the sound quality is further improved.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

 音声信号がフレーム単位で符号化されたビットストリームを処理する音声信号処理装置(100)であって、ビットストリームは、フレーム毎に、音声信号を示す符号化データと、付加データと、属性情報とを含み、符号化データをデコードすることで、デコード信号を生成するデコード部(110)と、デコード信号を加工する加工部(140)と、属性情報が変化したか否かを検出する検出部(120)と、蓄積部(130)とを備え、加工部(140)は、変化が検出されなかった場合、蓄積された少なくとも2個の付加データを用いて、デコード信号を加工し、変化が検出された場合、変化検出前の付加データ及び変化検出後の付加データのいずれか一方のみを用いて、デコード信号を加工する。

Description

音声信号処理装置及び音声信号処理方法
 本発明は、音声信号が符号化されたビットストリームを処理する音声信号処理装置及び音声信号処理方法に関する。特に、本発明は、ビットストリームをデコードし、デコードがされた後における信号を、その信号へとデコードされたビットストリームに含まれる付加データを用いて加工する音声信号処理装置及び音声信号処理方法に関する。
 従来、音声信号を圧縮符号化することで生成されたビットストリームをデコードすることで、デコード信号を生成し、生成したデコード信号に、所定の処理を行う音声信号処理装置が知られている。
 例えば、デコード信号を可聴信号として出力する音声信号再生装置、及び、デコード信号を、そのデコード信号が符号化された符号化方式とは異なる符号化方式に従って再符号化して、再符号化後の信号を生成するトランスコード装置などが知られている。
 従来の音声信号処理装置は、ビットストリームが、音量の大きい部分を圧縮するためのDRC(Dynamic Range Control)データを、フレーム単位で含んでいる場合、含まれているDRCデータを用いて、デコード信号の振幅を調整している。
 例えば、特許文献1には、音声信号のチャンネル数に応じて、DRCデータを用いた処理(DRC機能)のオン/オフを切り替えて符号化する技術が開示されている。例えば、5.1chの音声信号に対しては、DRC機能をオンにすることで、デコード信号の振幅を抑制し、2chの音声信号に対しては、DRC機能をオフにすることで、デコード信号の振幅を抑制しない。これにより、音声信号のチャンネルの切り替わり部分において、急激な音量の変化が生じてしまうのを防止することができる。
 また、非特許文献1には、連続する2つのフレームの間で、DRCデータが変化した場合に、DRCデータのスムージングを行う技術が開示されている。DRCデータをスムージングすることにより、急激な音量の変化を防止することができる。
特開2010-114803号公報
ISO/IEC 14496-3
 しかしながら、上記従来技術では、入力されるビットストリームによっては、本来、小さな振幅に圧縮されるべきデコード信号が、大きな振幅のまま出力される場合があるという課題がある。大きな振幅の部分(例えば、図8における、第4フレームでの部分9aなどを参照)は、聞き手に違和感を与えるので、従来技術によれば、主観的な音質が劣化するという課題がある。
 そこで、本発明は、主観的な音質の劣化(図4の不適切な振幅6Bhの音声信号5Bhを参照)を抑制して、音質を高くすることができる音声信号処理装置及び音声信号処理方法を提供することを目的とする。
 上記目的を達成するために、本発明の一態様に係る音声信号処理装置は、音声信号がフレーム単位で符号化されたビットストリームを処理する音声信号処理装置であって、前記ビットストリームは、フレーム毎に、符号化された音声信号を示す符号化データと、前記符号化データをデコードすることで生成されるデコード信号の振幅に関する付加データ(DRCデータなど)と、前記符号化データの性質を示す属性情報(ステレオ放送でのデータか、マルチチャンネル放送でのデータかを示す情報など)とを含み、前記音声信号処理装置は、対象フレームの符号化データをデコードすることで、前記デコード信号を生成するデコード部と、前記デコード部によって生成された前記デコード信号を加工する加工部と、前記対象フレーム(第1の期間のフレーム)と、当該対象フレームに連続する隣接フレーム(第2の期間のフレーム)との間で、前記属性情報が変化したか否かを検出する検出部と、前記対象フレームの付加データを含む少なくとも2個の前記付加データを蓄積するための蓄積部とを備え、前記加工部は、前記検出部によって変化が検出されなかった場合(図5の期間7Aを参照)、前記蓄積部に蓄積された少なくとも2個の前記付加データを用いて(第2の期間での付加データも用いて)、前記対象フレームの前記デコード信号を加工し(第2の期間の付加データから決定される振幅の信号へと加工し)、前記検出部によって変化が検出された場合、前記蓄積部に蓄積された付加データのうち、変化が検出される前の少なくとも1個の付加データ、及び、変化が検出された後の少なくとも1個の付加データのいずれか一方のみを用いて(第2の期間での付加データを用いずに)、前記対象フレームの前記デコード信号を加工する。
 本構成によれば、属性情報の変化が検出された場合には、変化が検出される前の付加データ、及び、変化が検出された後の付加データのいずれか一方のみを用いて(第2の期間での付加データを用いずに)、対象フレームのデコード信号を加工する。すなわち、変化が検出された時点を跨ぐようには、付加データを用いない。すなわち、音声信号の性質が大きく異なったフレームの付加データ(第1の期間での第1の属性情報とは異なる第2の属性情報の第2の期間での付加データ)を利用しない。このため、加工により生成される、第1の期間での、加工後の信号における、主観的な音質の劣化を抑制することができる。例えば、本来、小さな振幅に圧縮されるべきデコード信号の振幅を、大振幅(図4の振幅6Bhを参照)に加工して、不適切な振幅に加工してしまうことなどを防止することができる。つまり、加工後における振幅が、適切な振幅(図5の振幅6Biを参照)にされて、音質が高くできる。
 また、前記隣接フレームは、前記対象フレームの直前のフレームであり、前記蓄積部は、少なくとも、前記対象フレームの付加データと、前記隣接フレームの付加データとの2つの付加データを蓄積し、前記加工部は、前記検出部によって変化が検出されなかった場合、前記対象フレームの付加データと、前記隣接フレームの付加データとを用いて、前記対象フレームの前記デコード信号を加工し、前記検出部によって変化が検出された場合、前記対象フレームの付加データを含む、変化が検出された後の少なくとも1個の付加データを用いて、前記対象フレームの前記デコード信号を加工してもよい。
 本構成によれば、変化が検出された後の少なくとも1個の付加データを利用し、変化が検出される前の性質の異なるフレームの付加データを利用しない。つまり、対象フレームと性質が同じフレームの付加データを利用し、性質が異なるフレームの付加データを利用しないので、主観的な音質の劣化を抑制することができる。
 また、前記隣接フレームは、前記対象フレームの直後のフレームであり、前記蓄積部は、少なくとも、前記対象フレームの付加データと、前記隣接フレームの付加データとの2つの付加データを蓄積し、前記加工部は、前記検出部によって、変化が検出されなかった場合、前記対象フレームの付加データと、前記隣接フレームの付加データとを用いて、前記対象フレームの前記デコード信号を加工し、前記検出部によって、変化が検出された場合、前記対象フレームの付加データを含む、変化が検出される前の少なくとも1個の付加データを用いて、前記対象フレームの前記デコード信号を加工してもよい。
 本構成によれば、変化が検出される前の少なくとも1個の付加データを利用し、変化が検出された後の性質の異なるフレームの付加データを利用しない。つまり、対象フレームと性質が同じフレームの付加データを利用し、性質が異なるフレームの付加データを利用しないので、主観的な音質の劣化を抑制することができる。
 また、前記付加データは、前記デコード信号の振幅を調整するためのDRCデータであり、前記加工部は、前記DRCデータに基づいて、前記対象フレームの前記デコード信号の振幅を増減させてもよい。
 本構成によれば、DRCデータを用いてデコード信号の振幅を調整するので、出力される音声信号の音量を容易に調整することができる。
 また、前記属性情報は、対応するフレームの、符号化された音声信号のチャンネル数を示す情報であり、前記検出部は、前記属性情報を参照することで、前記対象フレームと、前記隣接フレームとの間で、音声信号のチャンネル数が変化したか否かを検出してもよい。
 本構成によれば、チャンネル数が同じであるか異なっているかを判定することで、フレームの性質が大きく異なったか否かを容易に判断することができる。つまり、対象フレームと隣接フレームとの間でチャンネル数が異なっている場合には、音声コンテンツが異なっていると考えられる。したがって、音声コンテンツが異なるフレームの付加データを対象フレームに適用しないので、主観的な音質の劣化を抑制することができる。
 また、前記属性情報は、対応するフレームの、前記付加データの有無を示す情報であり、前記検出部は、前記属性情報を参照することで、前記対象フレームと、前記隣接フレームとの間での、前記付加データの有無の変化を検出してもよい。
 本構成によれば、付加データの有無を判定することで、フレームの性質が大きく異なったか否かを容易に判断することができる。つまり、対象フレームと隣接フレームとの間で付加データの有無が異なっている場合には、音声コンテンツが異なっていると考えられる。したがって、音声コンテンツが異なるフレームの付加データを対象フレームに適用しないので、主観的な音質の劣化を抑制することができる。
 また、前記加工部は、前記ビットストリームに含まれるフレームのフレーム長とは異なるフレーム長のフレーム単位で、前記デコード信号を再符号化し、前記検出部によって、変化が検出されなかった場合、前記蓄積部に蓄積された、少なくとも2個の付加データを用いて、再符号化後のフレームに対応する付加データを生成し、前記検出部によって、変化が検出された場合、前記蓄積部に蓄積された各付加データのうち、変化が検出される前の少なくとも1個の付加データ、及び、変化が検出された後の少なくとも1個の付加データのいずれか一方のみを用いて、再符号化後のフレームに対応する付加データを生成してもよい。
 本構成によれば、デコード信号を異なるフレーム長のフレーム単位で再符号化する際に、適切な付加データを生成することができる。例えば、本来であれば、小振幅用の付加データが多重化されるべきフレームに、大振幅用の付加データが多重化されて、主観的な音質が劣化してしまうことを防止することができる。
 また、前記属性情報は、対応するフレームの、符号化された音声信号のチャンネル数を示す情報であり、前記検出部は、前記属性情報を参照することで、前記対象フレームと、前記隣接フレームとの間で、音声信号のチャンネル数が変化したか否かを検出し、前記加工部は、前記検出部によって、変化が検出された場合であって、前記対象フレームと、前記隣接フレームとの境目と、再符号化後の2つのフレーム間の境目とが一致していない場合、変化が検出される前の少なくとも1個の付加データ、及び、変化が検出された後の少なくとも1個の付加データのいずれか一方として、チャンネル数が多い方の付加データを用いて、再符号化後のフレームに対応する付加データを生成してもよい。
 本構成によれば、対象フレームと隣接フレームとの境目、すなわち、属性情報の変化の検出された時点(変化点)と、再符号化後のフレームの境目とが一致していない場合に、チャンネル数の多い方のフレームの付加データを利用して再符号化後のフレームに対応する付加データを生成する。変化点と再符号化後のフレームの境目とが一致していない場合は、性質が異なる複数のフレームが、1つのフレームとして再符号化される。このときに、チャンネル数の多い方のフレームの付加データを利用することで、小振幅用の付加データを再符号化後のフレームの付加データとして多重化することができる。
 また、前記属性情報は、対応するフレームの、前記付加データの有無を示す情報であり、前記検出部は、前記属性情報を参照することで、前記対象フレームと、前記隣接フレームとの間での、前記付加データの有無の変化を検出し、前記加工部は、前記検出部によって、変化が検出された場合であって、前記対象フレームと、前記隣接フレームとの境目と、再符号化後の2つのフレーム間の境目とが一致していない場合、変化が検出される前の少なくとも1個の付加データ、及び、変化が検出された後の少なくとも1個の付加データのいずれか一方として、付加データが存在する方の付加データを用いて、再符号化後のフレームに対応する付加データを生成してもよい。
 本構成によれば、変化点と再符号化後のフレームの境目とが一致していない場合に、存在する付加データを利用して再符号化後のフレームに対応する付加データを生成する。変化点と再符号化後のフレームの境目とが一致していない場合は、性質が異なる複数のフレームが、1つのフレームとして再符号化される。このときに、存在する付加データを利用することで、小振幅用の付加データを再符号化後のフレームの付加データとして多重化することができる。
 また、前記付加データは、前記デコード信号の振幅を調整するためのDRCデータであり、前記加工部は、前記DRCデータに基づいて、再符号化後のフレームをデコードすることで生成される再デコード信号の振幅を調整するためのDRCデータを生成してもよい。
 本構成によれば、DRCデータを再符号化後のフレームに多重化するので、再符号化後のフレームをさらにデコードした場合に、出力される音声信号の音量を容易に調整することができる。
 なお、本発明は、音声信号処理装置として実現できるだけではなく、当該音声信号処理装置を構成する処理手段をステップとする方法として実現することもできる。
 以上のように、本発明に係る音声信号処理装置及び音声信号処理方法によれば、主観的な音質の劣化(図4の不適切な振幅6Bhの音声信号5Bhを参照)を抑制して、音質を高くすることができる。
図1は、本発明の実施の形態1に係る音声信号処理装置の構成の一例を示すブロック図である。 図2は、本発明の実施の形態1に係る音声信号処理装置に入力されるビットストリームの構造の一例を示す図である。 図3は、本発明の実施の形態1に係る付加データを用いた音量の調整処理の一例を説明するための図である。 図4は、本発明の実施の形態1に係る音声信号処理装置が解決する課題を説明するための図である。 図5は、本発明の実施の形態1に係る音声信号処理装置の動作及び効果を説明するための図である。 図6は、本発明の実施の形態1に係る音声信号処理装置の動作の一例を示すフローチャートである。 図7は、本発明の実施の形態2に係る音声信号処理装置の構成の一例を示すブロック図である。 図8は、本発明の実施の形態2に係る音声信号処理装置が解決する課題を説明するための図である。 図9は、本発明の実施の形態2に係る音声信号処理装置の動作及び効果を説明するための図である。 図10は、本発明の実施の形態2に係る音声信号処理装置の動作の一例を示すフローチャートである。
 以下、本発明に係る音声信号処理装置及び音声信号処理方法の実施の形態について、図面を参照しながら詳細に説明する。
 (実施の形態1)
 本発明の実施の形態1に係る音声信号処理装置(音声信号処理装置100)は、対象フレーム(例えば、図4、図5の第1の期間7Aa)の符号化データ(図1の符号化データ100fを参照)をデコードすることで、デコード信号(図5の第1の音声信号3Aa)を生成するデコード部(デコード部110)と、生成されたデコード信号(第1の音声信号3Aa)を加工する加工部(加工部140)と、対象フレーム(第1の期間7Aa、7Ba))と、隣接フレーム(近傍の第2の期間7Ab、7Bb)との間で、属性情報(音声信号の種類、例えば、図5等の例での、マルチチャンネル放送の音声信号であるか、ステレオ放送の音声信号であるかなど)が変化したか否かを検出する検出部(検出部120)と、対象フレーム(第1の期間7Aa、7Ba)の付加データを含む少なくとも2個以上の付加データ(対象フレームのDRCデータ4Aa、4Ba、隣接フレームのDRCデータ4A、4B)を蓄積するための蓄積部(蓄積部130)とを備える。そして、加工部は、検出部によって、変化が検出されなかった場合(期間7Aの場合)、蓄積部に蓄積された、近傍の第2の期間7AbのDRCデータ4Aを含む、少なくとも2個の付加データを用いて、対象フレーム(第1の期間7Aa)のデコード信号(第1の音声信号3Aa)を加工し、検出部によって変化が検出された場合(期間7Bの場合)、蓄積部に蓄積された付加データのうち、変化が検出される前の少なくとも1個の付加データ(DRCデータ4B)、及び、変化が検出された後の少なくとも1個の付加データ(DRCデータ4Ba)のうちのいずれか一方のみ(その一方のみが用いられれば、不適切な振幅(図4の振幅6Bhを参照)が生じない方である一方(DRCデータ4Ba)のみ)を用いて(近傍の第2の期間7BbのDRCデータ4Bを用いずに)、対象フレームのデコード信号(第1の音声信号3Ba)を加工することを特徴とする。
 すなわち、例えば、第1の音声信号3Xaの種類(ステレオ放送の音声信号か、マルチチャンネル放送)が、第1の音声信号3Xaにより示す音声の第1の期間7Xaに近い(類似する、近傍の)第2の期間7Xbにおける音声を示す第2の音声信号3Xbの種類と同じ種類か否かが検出される(図6のS103)。第2の音声信号3XbのDRCデータ4は、同じ種類の場合にのみ、そのDRCデータ4での調整後の振幅が、適切な振幅(例えば図5の振幅6Aa)であり、同じ種類でない場合には、適切でない振幅(例えば図4の振幅6Bh)であるDRCデータである。そして、同じ種類と検出された場合にのみ(S103のNo、期間7A)、生成される第3の音声信号5X(第3の音声信号5Aa)の振幅が、近い第2の期間7Xb(第2の期間7Ab)のDRCデータ4(DRCデータ4A)から決定される振幅(振幅6Aa)にされて、その振幅の第3の音声信号5Xを生成させる制御がされたり、その生成の処理そのものがされたりする。同じ種類でないと検出された場合には(S103のYes、期間7B)、近い第2の期間7Xb(第2の期間7Bb)のDRCデータ4(DRCデータ4B)から決定される振幅(振幅6Bh)にされず、その他の振幅(そのDRCデータ4以外の他のデータのみ(例えばDRCデータ4Baのみ)から決定される振幅)にされる。
 これにより、期間7Aの場合に、加工がされた後の加工後の第3の音声信号(第3の音声信号5Aa)が、高い音質の音声信号になるだけに止まらなくなる。
 すなわち、期間7Bの場合に、加工後の第2の音声信号が、低い音質の音声信号(図4の、不適切な振幅6Bhの第2の音声信号5Bh)になってしまうのが回避され、高い音質の音声信号(図5の、適切な振幅6Biの第2の音声信号5Bi)にできる。
 これにより、何れの場合にも、音質が高くできて、確実に、音質が高くできる。
 まず、本発明の実施の形態1に係る音声信号処理装置の構成を説明する。
 図1は、本発明の実施の形態1に係る音声信号処理装置100の構成の一例を示すブロック図である。
 音声信号処理装置100は、音声信号がフレーム単位で符号化されたビットストリームを処理する。
 本発明の実施の形態1に係る音声信号処理装置100は、ビットストリーム(ビットストリーム100a)をデコードすることで、ビットストリームがデコードされたデコード信号を生成する。そして、生成したデコード信号の音量を調整し、調整後のデコード信号を、可聴信号として出力する。
 ここで、音声信号処理装置100に入力されるビットストリームについて、図2を用いて説明する。
 図2は、本発明の実施の形態1に係る音声信号処理装置100に入力されるビットストリームの構造の一例を示す図である。
 なお、図2では、ビットストリームを構成する複数のフレームの1つ(フレーム100b)について示している。
 ビットストリームの1つのフレーム(フレーム100b)は、図2に示すように、ヘッダ(ヘッダ100c)と、データブロック(データ100d)とを含んでいる。ヘッダには、情報(属性情報)100eが含まれる。データブロックには、符号化データと付加データ(メタデータ)とが含まれる(データ(付加データ)100f、100g)。
 符号化データは、符号化された音声信号を示すデータである。すなわち、符号化データは、所定の符号化規格に基づいて符号化された、1フレーム分の、その1フレーム分の長さにおける期間(図3のフレーム2fなどを参照)での音声信号を示している。
 付加データは、符号化データをデコードすることで生成されるデコード信号の振幅に関するデータである。
 つまり、付加データは、デコード信号の振幅を調整するためのDRCデータなどである。DRCデータを用いることで、デコード信号の振幅を大きく、又は、小さくすることができる。
 属性情報は、符号化データの性質を示す情報である。
 例えば、属性情報は、その属性情報に対応するフレーム(その属性情報が含まれるヘッダが含まれるフレーム)の、符号化された音声信号のチャンネル数を示す。
 具体的には、属性情報は、音声信号がマルチチャンネル放送(5.1ch、7.1chなど)であるか、ステレオ放送(2ch)であるかを示す。
 以上のように、ビットストリームは、フレーム毎に区分された符号化データ(データ100f)を含み、そのビットストリームに含まれる1以上の符号化データのうちのそれぞれの符号化データに対応する、付加データと属性情報とを各々含んでいる。
 なお、図2に示す属性情報及び付加データの、フレーム内の位置は、一例であって、この例には限定されない。例えば、ヘッダに、付加データが含まれていてもよく、また、付加データに、属性情報が含まれていてもよい。さらに、ヘッダとデータブロックとの両方に、属性情報及び付加データが含まれていてもよい。
 図1に戻ると、音声信号処理装置100は、デコード部110と、検出部120と、蓄積部130と、加工部140とを備える。
 デコード部110は、対象フレーム(例えば、図3の対象フレーム2fx)の符号化データをデコードすることで、その符号化データがデコードされた信号であるデコード信号(例えば、図4の第1の音声信号3Baなど)を生成する。
 検出部120は、対象フレーム(例えば、図2のフレーム100m(図5の期間7Xaを参照))と、当該対象フレームに連続する(隣接する)隣接フレーム(フレーム100n(図5の期間7Xb参照))との間で、属性情報が変化したか否かを検出する。
 すなわち、検出部120は、付加データの属性情報が、連続する、それらの、対象フレームおよび隣接フレームの2つのフレームの間で変化したか否かを検出する。
 例えば、検出部120は、属性情報を参照することで、対象フレームと、隣接フレームとの間で、音声信号のチャンネル数が変化したか否かを検出する。
 なお、隣接フレームは、例えば、入力順又は処理順で、対象フレームの直前のフレーム(直前フレーム)である。
 蓄積部130は、対象フレームの付加データを含む、少なくとも2個の付加データを蓄積するためのメモリである。具体的には、蓄積部130は、少なくとも、対象フレームの付加データ(図1に示される、フレーム100mの付加データ131m)と、隣接フレームの付加データ(フレーム100nの付加データ131n)との2つの付加データを蓄積する。
 加工部140は、デコード部110によって生成された信号(デコード信号)110a(図1)を加工する。
 具体的には、加工部140は、検出部120によって、対象フレームと、隣接フレームとの間において、属性情報の変化が検出されなかった場合、次の動作をする。
 その動作では、蓄積部130に蓄積された、少なくとも2個の付加データの両方を用いて、対象フレームのデコード信号を加工する。
 また、加工部140は、検出部120によって、対象フレームと、隣接フレームとの間において、属性情報の変化が検出された場合、次の動作をする。
 その動作では、蓄積部130に蓄積された付加データのうち、変化が検出される前の、少なくとも1個の付加データ、及び、変化が検出された後の、少なくとも1個の付加データのいずれか一方のみを用いて、対象フレームのデコード信号を加工する。
 本発明の実施の形態1では、加工部140は、図1に示される音量調整部141を備える。
 音量調整部141は、付加データを用いて、対象フレームのデコード信号の音量を調整する。
 例えば、音量調整部141は、対象フレームのDRCデータ(付加データ100g)を用いて、音量調整用の係数を算出し、算出した係数を用いて、対象フレームのデコード信号の振幅を調整する。
 また、対象フレームのDRCデータ(付加データ131m)と、直前フレームのDRCデータ(付加データ131n)とが異なっている場合には、音量調整部141は、対象フレームのDRCデータと、直前フレームのDRCデータとをスムージングすることで、音量調整用の係数を算出する。そして、音量調整部141は、算出した係数を用いて、対象フレーム(フレーム100m)のデコード信号の振幅を調整する。
 以下では、付加データを用いた、音量の調整処理について、図3を用いて詳細に説明する。
 図3は、本発明の実施の形態1に係る、付加データを用いた、音量の調整処理の一例を説明するための図である。
 図3に示す例では、信号(デコード信号)110aは、マルチチャンネル放送の音声信号(音声信号110pなど)と、ステレオ放送の音声信号(音声信号110qなど)とを含んでいる。
 デコード信号は、フレーム毎に区分され、各フレーム(フレーム2f)は、付加データ(メタデータ、付加データ100g)として、DRCデータ(DRCデータ110s、110tなど)を含んでいる。
 マルチチャンネル放送のフレーム(信号110pのフレーム2f)の場合、当該フレームのDRCデータ(付加データ)は、デコード信号の振幅を小さくするような、小振幅用のDRCデータである。
 また、ステレオ放送のフレーム(信号110qのフレーム2f)の場合、当該フレームのDRCデータ(付加データ)は、デコード信号の振幅を大きくするような、大振幅用のDRCデータである。
 ステレオ放送の場合には、通常、2個のスピーカを利用するのに対して、マルチチャンネル放送の場合には、例えば、6個のスピーカなどの、より多くのスピーカを利用する。このため、同一の振幅のデコード信号を出力すると、マルチチャンネル放送の方が大きく聞こえてしまう。このため、マルチチャンネル放送のデコード信号の振幅を小さくするように、DRCデータが、付加される。
 このように、図3に示す例では、マルチチャンネル放送(又は、ステレオ放送)の音声信号では、共通して、小振幅用のDRCデータ(又は、大振幅用のDRCデータ)が付加されている。
 なお、これらは、単なる一例であって、マルチチャンネル放送の音声信号内で、互いに異なる2つのDRCデータが付加されていてもよい。すなわち、フレーム毎に、DRCデータを自由に設定することができる。
 例えば、音量調整部141(図1)は、小振幅用のDRCデータを用いることで、大振幅用のDRCデータを用いる場合よりも、デコード信号の振幅を小さくすることができる。
 時間的に連続する2つのフレーム(例えば、対象フレームと隣接フレーム)の間で、DRCデータが互いに異なっている場合、音量調整部141は、DRCデータをスムージング(図4のスムージング4xも参照)する。これにより、音量を滑らかに変化させることができる。
 例えば、図3に示す対象フレーム(対象フレーム2fx)の音量を調整する場合、音量調整部141は、対象フレームのDRCデータ(大振幅用)と、直前のフレーム(隣接フレーム2fy)のDRCデータ(小振幅用)とを、スムージングする。
 スムージングとは、例えば、次の処理などをいう。つまり、その処理では、フレーム内の最初のサンプルに対して、直前のフレームのDRCデータを用い、フレーム内の最後のサンプルに対して、対象フレームのDRCデータを用いる。そして、残りのサンプルに対して、振幅が滑らかになるように、最初のサンプルでの振幅と、最後のサンプルでの振幅との間の中間の振幅にすることを行う。
 以上のように、DRCデータが変化する場合には、変化する前のDRCデータと、変化する後のDRCデータとをスムージングすることで、音量を、滑らかに変化させることができる。
 しかしながら、例えば、図4に示すようなデコード信号に対して、DRCデータのスムージングを行うと、本来、小さな振幅に圧縮されるべきデコード信号が、大きな振幅(不適切な振幅6Bhを参照)のまま出力されてしまうという課題がある。
 図4は、本発明の実施の形態1に係る音声信号処理装置が解決する課題を説明するための図である。
 図4に示すデコード信号は、ステレオ放送の音声信号の4つの区間のうちで、最初と最後の区間に、無音のフレームを含んでいる。例えば、映画などのマルチチャンネル放送の間に、CM(コマーシャル)などのステレオ放送が挿入される場合などがある。
 図4に示すように、対象フレームのDRCデータと、直前のフレームのDRCデータとが異なっているので、音量調整部141は、これらのDRCデータをスムージングする。
 これにより、マルチチャンネル放送の対象フレーム(期間7Baを参照)は、本来、小振幅になるように、音量が調整されるべきフレームであるのに、図4に示すように、大振幅から小振幅になるように、デコード信号の振幅が調整される。これにより、無音状態から、突然、大きな振幅のデコード信号が出力されるので、この部分のデコード信号は、聞き手にとって不快な音として聞こえる。
 つまり、単純に、DRCデータをスムージングするだけでは、主観的な音質の劣化を防止することができない。
 これに対して、本発明の実施の形態1に係る音声信号処理装置100は、属性情報の変化を検出し、属性情報が変化した場合には(後述の図6のYes)、変化検出前及び変化検出後の何れか一方(その一方のみが用いられれば、不適切な振幅6Bhが生じない方である一方)のみのDRCデータを用いて、デコード信号の振幅を調整する。
 すなわち、音声信号処理装置100は、スムージングに用いる複数のDRCデータが、属性情報が変化した時点(変化点)を跨いでいる場合には、複数のDRCデータを、変化点を跨ぐようには用いない。
 これにより、属性情報が変わることで、デコード信号そのものが大きく変化している部分で、異なる属性情報に対応するDRCデータのスムージングを行わないので、違和感のある音が出力されてしまうことを防止することができる。
 また、本発明の実施の形態1に係る音声信号処理装置100は、属性情報が変化していない場合には、DRCデータのスムージングを行う。これにより、音量が急激に変化することを防止することができる。
 次に、本発明の実施の形態1に係る音声信号処理装置100の具体的な動作を説明する。
 図5は、本発明の実施の形態1に係る音声信号処理装置100の動作及び効果を説明するための図である。
 本実施の形態では、加工部140は、検出部120によって、変化が検出されなかった場合(期間7Aなどを参照)、対象フレームの付加データと、直前のフレームである隣接フレーム(直前フレーム)の付加データとを用いて、デコード信号を加工する。具体的には、加工部140が備える音量調整部141が、対象フレームのDRCデータと、直前フレームのDRCデータとをスムージングする。なお、図5では、DRCデータ4Aと、DRCデータ4Aaとに付されたハッチングのパターンが、互いに異なる。つまり、例えば、図5のDRCデータ4Aと、DRCデータ4Aaとが、ある程度異なってもよい。この点が、パターンが異なることにより、模式的に示されると考えられてもよい。
 また、加工部140は、検出部120によって変化が検出された場合(期間7Bなどを参照)、対象フレームの付加データを含む、変化が検出された後の少なくとも1個の付加データを用いて、デコード信号を加工する。
 例えば、図5に示す例では、対象フレームAと、直前フレームAとの間、及び、対象フレームBと、直前フレームBとの間で、属性情報が変化している。
 具体的には、直前フレームAの属性情報は、直前フレームAが、マルチチャンネル放送であることを示し、対象フレームAの属性情報は、対象フレームAが、ステレオ放送であることを示している。
 同様に、直前フレームBの属性情報は、直前フレームBが。ステレオ放送であることを示し、対象フレームBの属性情報は、対象フレームBが、マルチチャンネル放送であることを示している。
 したがって、音量調整部141は、対象フレームAのデコード信号を加工する際には、変化が検出された後のフレームである対象フレームAのDRCデータを用いて、音量の調整を行う。
 同様に、音量調整部141は、対象フレームBのデコード信号を加工する際には、変化が検出された後のフレームである対象フレームBのDRCデータを用いて、音量の調整を行う。
 このとき、直前フレームBのDRCデータを用いないので、対象フレームBについては、小振幅用のDRCデータのみが用いられる。これにより、図4に示すように、振幅が大きな音声信号(音声信号5Bh)が生成されることはないようにできる。
 なお、加工部140は、対象フレームBを加工する際に、対象フレームBの付加データを用いてもよい。
 つまり、加工部140は、属性情報の変化点より前のフレーム、具体的には、対象フレームBより前のフレームの付加データを用いなければよく、属性情報の変化点より後のフレームの付加データを用いてもよい。
 図6は、本発明の実施の形態1に係る音声信号処理装置100の動作の一例を示すフローチャートである。
 まず、デコード部110は、1フレームの符号化データをデコードすることで、デコード信号を生成する(S101)。つまり、デコード部110は、対象フレームの符号化データをデコードする。
 次に、蓄積部130は、対象フレームの付加データを蓄積する(S102)。
 次に、検出部120は、属性情報が変化したか否かを検出する(S103)。
 具体的には、検出部120は、直前フレームと、対象フレームとの間で、属性情報が変化したか否かを検出する。
 言い換えると、検出部120は、直前フレームの属性情報と、対象フレームの属性情報とが同じであるか、異なっているかを検出する。
 本実施の形態では、検出部120は、例えば、属性情報を参照することで、直前フレームのチャンネル数と、対象フレームのチャンネル数とが同じであるか否かを検出する。
 検出部120は、直前フレームのチャンネル数と、対象フレームのチャンネル数とが同じであれば、属性情報は変化していないと判断し、異なっていれば、属性情報が変化したと判断する。
 属性情報の変化が検出されなかった場合(S103でNo)、音量調整部141は、付加データをスムージングして、音量調整用の係数を作成する(S104)。なお、直前フレームのDRCデータと、対象フレームのDRCデータとが互いに同一である場合には、スムージングを行う必要はない。
 属性情報の変化が検出された場合(S103でYes)、音量調整部141は、その変化が検出された後の付加データのみを用いて、音量調整用の係数を作成する(S105)。
 具体的には、音量調整部141は、図5に示すように、対象フレームのDRCデータのみを用いて、音量調整用の係数を作成する。
 最後に、音量調整部141は、作成した係数を用いて、デコード信号の振幅を調整することで、音声信号処理装置100が出力する音声信号の音量を調整する(S106)。
 全てのフレームの処理が完了していなければ(S107でNo)、音声信号処理装置100は、上記の処理を繰り返す(S101に戻る)。
 以上のように、本発明の実施の形態1に係る音声信号処理装置100は、属性情報の変化(例えば、図5の期間7Bでの変化など)を検出し、変化が検出された場合には、変化前の少なくとも1個の付加データ(例えばDRCデータ4B)と、変化後の少なくとも1個の付加データ(例えばDRCデータ4Ba)とのうちの何れか一方のみ(その一方のみが用いられれば、不適切な振幅6Bhが回避される一方のみ)を用いて(例えば、DRCデータ4Baのみを用いて)、デコード信号(音声信号3Ba)を、加工後の信号(音声信号5Bi)へと加工する。
 これにより、対象の音声信号(音声信号3Ba)の属性情報(マルチチャンネル放送での属性情報)とは異なる属性情報(ステレオ放送での属性情報)の音声信号(音声信号3Bb)を加工するための付加データ(DRCデータ4B)を、対象の音声信号(音声信号3Ba)の加工に用いることを禁止することができる。したがって、本来であれば、小振幅に加工されるはずの音声信号が大振幅に加工されること(図4の音声信号5Bhを参照)を防止することができ、主観的な音質の劣化を防止することができる。
 なお、属性情報は、付加データの有無を示す情報でもよい。言い換えると、属性情報は、符号化データに、付加データが対応付けられているか否かを示す情報でもよい。なお、このとき、属性情報は、図2に示すように、フレームのヘッダに含まれていてもよく、あるいは、データブロックに含まれていてもよい。
 この場合、検出部120は、属性情報を参照することで、対象フレームと、隣接フレームとの間で、付加データの有無の変化を検出する。例えば、マルチチャンネル放送のフレームは、付加データを含み、ステレオ放送のフレームは、付加データを含んでいない場合がある。
 例えば、音量調整部141は、上述のように、対象フレームの付加データと、直前フレームの付加データとが異なっている場合に、これら2つの付加データをスムージングすることで、音量調整用の係数を算出する。そして、算出した係数を用いて、対象フレームの振幅を調整する。このような処理がされる場合について、以下に、より詳しく説明する。
 対象フレームの付加データがなく、直前フレームの付加データがある場合であって、検出部120によって、対象フレームと、直前フレームとの間での、属性情報の変化が検出された場合、上述のように、加工部140は、対象フレームの付加データを用いて、デコード信号を加工する。ただし、この場合には、対象フレームの付加データがないので、結果的に、加工部140は、対象フレームのデコード信号の加工を行わない。
 これにより、図4に示す課題でのように、対象フレームのデコード信号を加工するのに、直前フレームの付加データを用いることを防止することができるので、音質の劣化を抑制することができる。
 また、属性情報は、属性情報が変化した場合に(S103のYesを参照)、音声信号の性質が、大きく異なっていることを示す情報であればよい。言い換えると、属性情報は、音声コンテンツの切り替わりを示す情報であればよい。例えば、属性情報は、サンプリング周波数、量子化ビット数、又は、符号化方式などを示す情報でもよい。
 また、隣接フレームは、対象フレームの直後のフレーム(直後フレーム)でもよい。すなわち、加工部140は、対象フレームの付加データと、直後フレームの付加データとを用いて、デコード信号を加工してもよい。具体的には、音量調整部141は、対象フレームのDRCデータと、直後フレームのDRCデータとが異なっている場合、対象フレームのDRCデータと、直後フレームのDRCデータとをスムージングすることで、音量調整用の係数を算出する。そして、音量調整部141は、算出した係数を用いて、対象フレームのデコード信号の振幅を調整する。
 なお、この場合、検出部120は、対象フレームと、直後フレームとの間で、属性情報が変化したか否かを検出する。言い換えると、検出部120は、対象フレームの属性情報と、直後フレームの属性情報とが同じであるか、異なっているかを検出する。
 加工部140は、検出部120によって、変化が検出された場合、変化が検出される前の少なくとも1個の付加データを用いて、デコード信号を加工する。具体的には、音量調整部141は、対象フレームのDRCデータを用いて、デコード信号の振幅を調整する。
 また、検出部120によって、変化が検出されなかった場合、加工部140は、対象フレームの付加データと、対象フレームの付加データ以外の付加データとを用いて、対象フレームのデコード信号を加工する。具体的には、音量調整部141は、対象フレームのDRCデータと、直後フレームのDRCデータとをスムージングすることで、音量調整用の係数を算出し、算出した係数を用いて、対象フレームのデコード信号の振幅を調整してもよい。
 以上のように、本発明の実施の形態1に係る音声信号処理装置では、スムージングに用いるDRCデータは、直前フレームのDRCデータでもよく、直後フレームのDRCデータでもよい。
 なお、このように、例えば、次の動作が行われてもよい。
 その動作では、振幅(例えば図5の振幅6Aa)が決定される。
 そして、第1の期間(例えば第1の期間7Aa)における音声を表わす第1の音声信号(第1の音声信号3Aa)の振幅が、決定された振幅(振幅6Aa)へと変更された第3の音声信号(第3の音声信号5Aa)を生成させる制御がされる。
 振幅(振幅6Aa)が決定されるのに際して、第1の期間(第1の期間7Aa)に近い(類似する、近傍の)第2の期間(例えば第2の期間7Ab)における第2の音声信号(第2の音声信号3Ab)のDRCデータ(DRCデータ4A)から、決定が行われる。
 なお、例えば、第1の音声信号は、第1の期間における音声を示す一方で、第2の音声信号は、別の第2の期間での音声を示してもよい。
 なお、一方の期間に近い他方の期間は、例えば、その期間における何れの時刻も、一方の期間の近傍に含まれる時刻である期間などをいう。
 具体的には、このDRCデータが含まれる1つ以上のデータ(例えば、2つのDRCデータ4A、4Aa)から、決定が行われてもよい。
 しかしながら、上述された、その音声信号のDRCデータからの決定がされる第2の音声信号(第2の音声信号3Xb(例えば3Ab))の種類(ステレオ放送)が、第1の音声信号(第1の音声信号3Xa(3Aa))の種類(ステレオ放送)と同じ種類(ステレオ放送)である場合(期間7Aの場合)のみがあるとは限らないことが考えられる。
 つまり、第2の音声信号(第2の音声信号3Xb(例えば3Bb))の種類(ステレオ放送)が、第1の音声信号(第1の音声信号3Xa(3Ba))の種類(マルチチャンネル放送)とは異なる種類(ステレオ放送)である場合(期間7Bの場合)もあることも考えられる。
 すなわち、同じ種類である場合(期間7Aの場合)にのみ、第2の音声信号(第2の音声信号3Ab)のDRCデータ(DRCデータ4A)からの決定での、決定される振幅(振幅6Aa)が、適切な振幅で、生成される、その振幅の第3の音声信号(第3の音声信号5Aa)の音質が、比較的高いことが考えられる。
 つまり、異なる種類である場合(期間7Bの場合)には、第2の音声信号(第2の音声信号3Bb)のDRCデータ(DRCデータ4B)からの決定での、決定される振幅が、不適切な振幅(図4の振幅6Bh)で、その振幅の第3の音声信号(図4の第3の音声信号5Bh)の音質が、比較的低くなってしまうことが考えられる。
 そこで、第2の音声信号(第2の音声信号3Xb)の種類が、同じ種類であるか(第2の音声信号3Ab)、異なる種類であるか(第2の音声信号3Bb)が判定(検出)されてもよい(図6のS103)。
 同じ種類と判定される場合にのみ(第2の音声信号3Ab、S103のNo)、近傍の第2の期間(期間7Ab)のDRCデータ(DRCデータ4A)からの決定がされる。これにより、この場合(S103のNo、期間7A)にのみ、決定される振幅が、近傍でのDRCデータ(DRCデータ4A)から決定される振幅(振幅6Aa)である(S104、S106)。
 つまり、異なる種類と判定される場合には(第2の音声信号3Bb、S103のYes)、近傍の第2の期間(期間7Bb)のDRCデータ(DRCデータ4B)からの決定がされない。これにより、この場合には(S103のYes、期間7B)、決定される振幅が、近傍でのDRCデータ(DRCデータ4B)から決定される振幅(図4の不適切な振幅6Bh)ではなく、その振幅以外の他の振幅(図5の適切な振幅6Bi)である(S105、S106)。
 これにより、同じ種類の場合(期間7Aの場合)に、適切な振幅(振幅6Aa)で、音質が高いだけに止まらず、異なる種類の場合(期間7Bの場合)にも、不適切な振幅(図4の振幅6Bh)であるのが回避されて、適切な振幅(図5の振幅6Bi)にされる。これにより、より確実に、振幅が、適切な振幅にできる。
 なお、そのDRCデータ(例えば、後述される図7のDRCデータ241a、図9のDRCデータ9niなど)での、振幅の調整における、調整後の振幅が、生成される第3の音声信号(図9の音声信号5Biにおける、期間7Bqの部分、図5の第3の音声信号5Aa、5Biを参照)の振幅であるDRCデータ(例えば図7のDRCデータ241a)が生成されてもよい。
 生成されるDRCデータでの調整における、調整後の振幅が、決定された振幅(先述の振幅6Aa、6Biを参照)でもよい。
 こうして、DRCデータ(DRCデータ241a)が生成されることにより、そのDRCデータでの、調整後の振幅へと、生成される第3の音声信号の振幅が制御されてもよい。
 なお、生成される第3の音声信号は、対応するDRCデータを有してもよい。そして、第3の音声信号の振幅は、対応するDRCデータでの調整後の振幅にされることにより、上述された、適切な振幅にされてもよい。
 そして、第1、第2の音声信号が含まれる信号が符号化された、再符号化前の符号化信号(例えば、後述の図7における音声信号処理装置200によりデコードされるビットストリーム(先述のビットストリーム100aを参照))の処理がされてもよい。
 つまり、このような、再符号化前の符号化信号が、第3の音声信号が含まれる信号が符号化された、再符号化後の符号化信号(図7の符号化信号9aを参照)へと再符号化されてもよい。
 そして、再符号化後の符号化信号が、第3の音声信号が含まれる信号へと復号化(デコード)されて、第3の音声信号が含まれる信号が生成されることにより、第3の音声信号が生成されてもよい。
 そして、こうして、再符号化がされた後に行われる復号化において、第3の音声信号が生成されるのに際して、生成される第3の音声信号の振幅が、先述された適切な振幅にされるようにする制御がされるなどしてもよい。
 なお、複数の第2の期間(図9に示される、2つの期間7Bbを参照)があり、それぞれの第2の期間でのDRCデータ(DRCデータ4Ba、4B)があってもよい。
 そして、それぞれの第2の期間での第2の音声信号(2つの第2の音声信号3Bbを参照)があってもよい。
 そして、それぞれの第2の音声信号の種類について、その種類(左側の第2の音声信号3Bbでの、マルチチャンネル放送の種類、右側の第2の音声信号3Bbでの、ステレオ放送の種類)が、第1の期間(例えば、図9の期間7Baに含まれる期間7Bq)における第1の音声信号の種類(期間7Bqでの、マルチチャンネル放送の種類)と同じ種類(左側の音声信号3Bb参照)か、異なる種類(右側の音声信号3Bb参照)かが判定されてもよい。
 同じ種類との判定がされた、それぞれの第2の音声信号(左側の第2の音声信号3Bb)のDRCデータ(DRCデータ4Ba)が含まれ、異なる種類と判定された、それぞれの第2の音声信号(右側の第2の音声信号3Bb)のDRCデータ(DRCデータ4B)を含まない0個以上のDRCデータ(1つのDRCデータ4Ba)からの処理がされてもよい。
 つまり、その0個以上のDRCデータから、生成される第3の音声信号(例えば、音声信号5Biのうちの、期間7Bqの部分、または、当該音声信号5Biの期間である期間7Baの全体での当該音声信号5Bi)の振幅が決定されてもよい。
 なお、上述のように、例えば、一方の種類の音声信号が、ステレオ放送の音声信号である一方で、一方の種類と同じでない、異なる他方の種類の音声信号が、マルチチャンネル放送の音声信号でもよい。
 また、一方の種類の音声信号におけるサンプリング周波数が、異なる他方の種類の音声信号におけるサンプリング周波数と異なってもよい。
 同様に、例えば、量子化ビット数が異なってもよいし、符号化方式などが異なってもよい。
 なお、近傍の第2の期間のDRCデータから、振幅が決定されるのに際しては、例えば、非特許文献1で示される、スムージングの処理と同様の処理(図4のスムージング4xを参照)がされてもよい。
 振幅の決定では、第1の期間(例えば、図4での第1の期間7Baを参照)における、それぞれの時刻での振幅が決定されて、1つ以上の時刻での振幅が決定されてもよい。
 なお、DRCデータとして、そのDRCデータから決定される振幅が、比較的小さい、小振幅用のDRCデータ(図9のDRCデータ4Baを参照)と、そのDRCデータから決定される振幅が、比較的大きい、大振幅用のDRCデータ(図9のDRCデータ4Bを参照)とがあってもよい。
 つまり、第1の音声信号における、第1の期間(例えば、図9の期間7Bq)のDRCデータが、小振幅用のDRCデータ(DRCデータ4Ba)である第1の場合と、大振幅用のDRCデータ(DRCデータ4B)である第2の場合とがあってもよい。
 そして、第1の場合(小振幅用の場合)にのみ、音質の低下(例えば、弊害が生じる程度に大きな低下幅での低下など)が生じ、第2の場合(大振幅用の場合)には、生じなくてもよい。
 そして、第1の場合か、第2の場合かが判定されてもよい。
 そして、第1の場合と判定されるとき(小振幅用の場合)にのみ、上述の処理がされてもよい。これにより、音質の向上が維持できる。
 そして、第2の場合と判定されるとき(大振幅用の場合)には、上述の処理がされなくてもよい。
 これにより、処理量が少なくできる。
 これにより、音質の向上が維持されつつも、処理量が少なくされて、高い音質と、少ない処理量とが両立できる。
 (実施の形態2)
 本発明の実施の形態2に係る音声信号処理装置では、加工部は、ビットストリームに含まれるフレームのフレーム長(例えば、後述される、1024個のサンプルが含まれるフレームのフレーム長)とは異なるフレーム長(例えば、1536個のサンプルが含まれるフレームでのフレーム長)のフレーム単位で、デコード信号を再符号化する。本発明の実施の形態2に係る加工部は、検出部によって、変化が検出されなかった場合、蓄積部に蓄積された、少なくとも2個の付加データを用いて、再符号化後のフレームに対応する付加データを生成し、検出部によって、変化が検出された場合、蓄積部に蓄積された付加データのうち、変化が検出される前の、少なくとも1個の付加データ、及び、変化が検出された後の、少なくとも1個の付加データのいずれか一方のみ(先述の説明を参照)を用いて、再符号化後のフレームに対応する付加データを生成することを特徴とする。
 まず、本発明の実施の形態2に係る音声信号処理装置の構成を説明する。
 図7は、本発明の実施の形態2に係る音声信号処理装置200の構成の一例を示すブロック図である。
 図7に示す音声信号処理装置200は、実施の形態1に係る音声信号処理装置100と比較して、加工部140の代わりに、加工部240を備える点が異なっている。以下では、実施の形態1と同じ点は、詳細な説明を省略し、異なる点を中心に説明する。なお、図1と同様の要素には、同一の符号を付している。
 本発明の実施の形態2に係る音声信号処理装置200は、所定の符号化方式で符号化されたビットストリームをデコードし、デコード結果を、異なる符号化方式で再符号化するトランスコード装置である。本実施の形態では、入力されたビットストリームと、再符号化後のビットストリームとで、1フレーム当たりのフレーム長が異なる場合について説明する。
 加工部240は、ビットストリームに含まれるフレームのフレーム長とは異なるフレーム長のフレーム単位で、デコード信号を再符号化する。フレーム長は、例えば、1フレームに含まれるサンプル数で示される。本発明の実施の形態2では、加工部240は、符号化部241を備える。
 符号化部241は、対象フレームのデコード信号を符号化することで、再符号化後のフレーム(符号化信号9a)を生成する。ここで、対象フレームのフレーム長と、再符号化後のフレーム長とは、異なっている。したがって、符号化部241は、再符号化後のフレーム長に相当する分のデコード信号が生成された後に、デコード信号を再符号化することで、再符号化後のフレームを生成する。
 さらに、符号化部241は、再符号化後のフレームに対応する付加データ(DRCデータ241a)を生成する。具体的には、符号化部241は、DRCデータに基づいて、再符号化後のフレームをデコードすることで、生成される再デコード信号の振幅を調整するためのDRCデータ(DRCデータ241a)を生成する。
 符号化部241は、検出部120によって変化が検出されなかった場合、蓄積部130に蓄積された少なくとも2個の付加データを用いて、再符号化後のフレームに対応する付加データ(DRCデータ241a)を生成する。また、符号化部241は、検出部120によって変化が検出された場合、蓄積部130に蓄積された付加データのうち、変化が検出される前の少なくとも1個の付加データ、及び、変化が検出された後の少なくとも1個の付加データのいずれか一方のみ(先述の説明を参照)を用いて、再符号化後のフレームに対応する付加データを生成する。
 例えば、属性情報が、音声信号のチャンネル数を示す場合であり、検出部120が、属性情報を参照することで、対象フレームと、隣接フレームとの間で、音声信号のチャンネル数が変化したか否かを検出する場合について、詳しく説明する。
 符号化部241は、検出部120によって、変化が検出された場合であって、対象フレームと、隣接フレームとの境目と、再符号化フレーム間の境目とが一致していない場合、変化が検出される前の少なくとも1個の付加データと、変化が検出された後の少なくとも1個の付加データとの何れかのうち、チャンネル数が多い方の付加データを用いて、再符号化後のフレームに対応する付加データを生成する。
 チャンネル数が多い音声信号には、小振幅用の付加データが含まれていることが多い。このため、結果的に、符号化部241は、小振幅用の付加データを用いて再符号化後の付加データを生成する。
 以下では、本発明の実施の形態2に係る音声信号処理装置200の動作について説明する。
 図8は、本発明の実施の形態2に係る音声信号処理装置200が解決する課題を説明するための図である。
 なお、図8では、一例として、1フレーム当たりに、1024個のサンプルを含むフレームの複数個から構成される入力ビットストリームを、1フレーム当たりに、1536個のサンプルを含む、再符号化後のフレームの複数個から構成される出力ビットストリームに変換する場合を示す。
 図8に示すように、入力ビットストリームのフレーム長と、出力ビットストリームのフレーム長とが異なっているので、符号化部241は、再符号化後のフレーム毎に、それぞれの、再符号化後のフレームに対応する付加データ(図7のDRCデータ241a)を生成する。図8の例では、再符号化後のフレームに含まれるデコード信号に対応する付加データを用いて、新たな付加データを生成する。
 例えば、再符号化フレームAは、第1フレームのデコード信号の一部と、第2フレームのデコード信号とを含む。
 このため、再符号化フレームAに対応する付加データは、第1フレームの付加データと、第2フレームの付加データとから生成される。
 また、再符号化フレームBは、第3フレームのデコード信号と、第4フレームのデコード信号の一部とを含む。
 このため、再符号化フレームBに対応する付加データは、第2、第3及び第4フレームの付加データから生成される。
 なお、第2フレームの付加データを用いるのは、実施の形態1でも説明したように、直前の再符号化フレームからの急激な変化を防止するためである。
 ここで、先述のように、入力ビットストリームと、出力ビットストリームとで、フレーム長が異なる。このため、図8に示す再符号化フレームCのように、異なる属性情報の複数のフレーム(第4、第5フレーム)を含む場合がある。この場合、実施の形態1で説明したように、第4フレームと、第5フレームとの間で、属性情報の変化が検出される。このため、加工部240は、第5フレームを用いて、再符号化フレームCの付加データ(DRCデータ9nh)を生成する。この場合、大振幅用のDRCデータ(DRCデータ4B)が、再符号化フレームCの付加データとして多重化される。
 したがって、再符号化フレームCをデコードした場合、本来、小振幅であるべき、マルチチャンネル放送のデコード信号の振幅が、図8に示すように、大振幅になる(再符号化フレームCの再デコード信号、音声信号5Bh、音声信号5Bhにおける、期間7Bqの部分9a)。
 このように、対象フレームと隣接フレームとの境目と、再符号化後のフレームの境目とが一致していない場合、本来、小振幅用の付加データが多重化されるべきフレームに、大振幅用の付加データが多重化されてしまい、主観的な音質が劣化してしまうという課題がある。
 図9は、本発明の実施の形態2に係る音声信号処理装置200の動作及び効果を説明するための図である。
 本発明の実施の形態2に係る音声信号処理装置200では、検出部120は、属性情報を参照することで、音声信号のチャンネル数が変化したか否かを検出する。そして、加工部240は、チャンネル数の変化を検出した場合であって、当該変化が検出された時点である、直前フレームと対象フレームとの境目と、再符号化後のフレームの境目とが一致していない場合、チャンネル数が大きい方のフレームの付加データ(DRCデータ4Ba)を用いて、再符号化フレームに対応する付加データ(DRCデータ9ni)を生成する。
 具体的には、図9に示すように、再符号化フレームCに対応する付加データは、第4フレームの付加データ(DRCデータ4Ba)のみを参照して生成される。これにより、マルチチャンネル放送の音声信号の振幅を、小振幅にすることができる。
 図10は、本発明の実施の形態2に係る音声信号処理装置200の動作の一例を示すフローチャートである。
 まず、音声信号処理装置200は、トランスコード処理に必要なパラメータを設定する(S201)。
 例えば、音声信号処理装置200は、当該音声信号処理装置200の全体の制御を行う制御部(図7には示していない)を備え、この制御部は、蓄積フレーム数Kと、属性情報変化フラグZとを、ともに0に設定する。
 なお、蓄積フレーム数Kは、デコード信号を一時的に記憶するためのメモリ(図7には示していない)に蓄積されているフレームの個数を示すパラメータである。
 属性情報変化フラグZは、連続する2つのフレームの間で、属性情報が変化したか否かを示すパラメータである。具体的には、Z=0であれば、属性情報が変化していないことを示し、Z=1であれば、属性情報が変化したことを示す。
 次に、デコード部110は、1フレームの符号化データをデコードすることで、デコード信号を生成する(S202)。
 つまり、デコード部110は、対象フレームの符号化データをデコードする。
 生成された、対象フレームのデコード信号は、上記メモリに蓄積される。
 次に、蓄積部130は、対象フレームの付加データを蓄積する(S203)。
 そして、1フレームのデコードが完了したので、音声信号処理装置200は、蓄積フレーム数Kを、インクリメントする(S204)。
 次に、検出部120は、属性情報が変化したか否かを検出する(S205)。
 具体的には、検出部120は、直前フレームと、対象フレームとの間で、属性情報が変化したか否かを検出する。すなわち、検出部120は、直前フレームの属性情報と、対象フレームの属性情報とが同じであるか、異なっているかを検出する。
 本実施の形態では、検出部120は、属性情報を参照することで、直前フレームのチャンネル数と、対象フレームのチャンネル数とが同じであるか否かを検出する。検出部120は、直前フレームのチャンネル数と、対象フレームのチャンネル数とが同じであれば、属性情報は変化していないと判断し(図8の期間7Aを参照)、異なっていれば、属性情報が変化したと判断する(期間7Bを参照)。
 属性情報の変化が検出された場合(S205でYes、期間7B)、音声信号処理装置200は、属性情報変化フラグZを、1に設定する(S206)。
 次に、符号化部241は、再エンコードするのに十分なデコード信号が生成されているか否か、すなわち、メモリに格納されているか否かを判定する(S207)。
 具体的には、符号化部241は、再エンコード処理のフレーム長以上のフレーム長のデコード信号が生成されているか否かを判定する。
 例えば、符号化部241は、K×Ld≧Leを満たすか否かを判定する。ここで、Ldは、再エンコード前のフレーム長(具体的には、入力ビットストリームのフレーム長)であり、Leは、再エンコード後のフレーム長(具体的には、出力ビットストリームのフレーム長)である。
 次に、属性情報の変化が検出されている場合、すなわち、属性情報変化フラグZが、1である場合(S208でYes、期間7B)、音声信号処理装置200は、属性情報変化フラグZを、0にリセットする(S209)。なお、属性情報変化フラグZのリセットは、次に、フレームの処理が開始されるまでに行えばよい。
 そして、変化検出前のチャンネル数が、変化検出後のチャンネル数より大きい場合(S210でYes)、符号化部241は、変化検出前の付加データ(例えば、DRCデータ4Ba)を用いて、出力ビットストリームに多重化するための、再符号化用の付加データ(DRCデータ9ni)を生成する(S211)。
 他方、変化検出前のチャンネル数が、変化検出後のチャンネル数より小さい場合(S210でNo)、符号化部241は、変化検出後の付加データを用いて、出力ビットストリームに多重化するための再符号化用の付加データを生成する(S212)。
 このように、符号化部241は、チャンネル数が大きい方のデコード信号に付加されていた付加データを利用して、再符号化後のフレームに対応する付加データを生成する。
 属性情報の変化が検出されていない場合、すなわち、属性情報変化フラグZが0である場合(S208でNo、期間7Aa)、符号化部241は、蓄積部130に蓄積されている付加データ(例えば、2つのDRCデータ4A、4Aaの両方)を用いて、出力ビットストリームに多重化するための、再符号化用の付加データを生成する(S213)。
 再符号化後のフレームに対応する付加データの生成が完了した後、符号化部241は、1フレームのデコード信号を符号化する(S214)。
 全てのフレームの処理が完了していなければ(S215でNo)、音声信号処理装置200は、蓄積フレーム数Kの値を、現在のKの値から、Le/Ldを減算した値に、置き換える(S216)。そして、上記の処理を繰り返す(S202に戻る)。
 以上のように、本発明の実施の形態2に係る音声信号処理装置200では、ビットストリームに含まれるフレームのフレーム長とは異なるフレーム長のフレーム単位で、デコード信号を再符号化する。このとき、音声信号処理装置200は、検出部120によって、属性情報の変化が検出された場合であって、対象フレームと、隣接フレームとの境目と、再符号化後のフレームの境目とが一致していない場合には(期間7Baの場合)、変化検出前及び変化検出後の何れか一方の付加データのみを用いて(DRCデータ4Bを用いず、DRCデータ4Baを用いないで)、再符号化後のフレームに対応する付加データ(DRCデータ9ni)を生成する。
 具体的には、チャンネル数が、より大きい方の付加データを用いて、再符号化後のフレームに対応する付加データを生成する。
 これにより、本来であれば、小振幅用の付加データが多重化されるべきフレーム(図8での、期間7Baのフレームを参照)に、大振幅用の付加データ(図8のDRCデータ9nhを参照)が多重化されて、主観的な音質が劣化してしまうことを防止することができる。
 なお、実施の形態1と同様に、属性情報は、付加データの有無を示す情報でもよい。言い換えると、属性情報は、符号化データに、付加データが対応付けられているか否かを示す情報でもよい。
 この場合、検出部120は、属性情報を参照することで、対象フレームと、隣接フレームとの間で、付加データの有無の変化を検出する。例えば、マルチチャンネル放送のフレームは、付加データを含み、ステレオ放送のフレームは、付加データを含んでいない場合がある。
 そして、検出部120によって、変化が検出された場合であって、対象フレームと、隣接フレームとの境目と、再符号化後のフレーム間の境目とが一致していない場合、符号化部241は、変化が検出される前の、少なくとも1個の付加データ、及び、変化が検出された後の、少なくとも1個の付加データのいずれか一方として、付加データが存在する方の付加データを用いて、再符号化後のフレームに対応する付加データを生成する。これにより、存在する付加データを利用するので、小振幅用の付加データを、再符号化後のフレームの付加データとして多重化することができる。
 なお、このように、近傍の第2の期間として、2つ以上の第2の期間(第2の期間7Bb)があり、それぞれの第2の期間のDRCデータ(DRCデータ4B、4Ba)が含まれてなる2つ以上のDRCデータから、生成される第3の音声信号(例えば、期間7Baの音声信号5Biのうちの、期間7Bqの部分の音声信号、または、音声信号5Biそのものなど)の振幅が決定されてもよい。
 なお、第3の音声信号の期間(例えば期間7Bq)は、それらの2つ以上のDRCデータの期間のうちの1つ以上の期間のうちのそれぞれと異なってもよい。
 つまり、例えば、第3の音声信号の期間の長さ(期間7Bqの長さ、期間7Baの長さ、例えば、図9の例での、1536個のサンプルでの長さ)は、それらの2つ以上のDRCデータの期間(期間7Bb)のうちの何れの期間の長さ(1024個のサンプルでの長さ)とも異なってもよい。
 そして、さらに具体的には、上述のように、例えば、それらの2つ以上のDRCデータの各々は、音声信号処理装置200により再符号化がされる前における、再符号化前の符号化信号でのデータでもよい。そして、生成される第3の音声信号は、上述された、再符号化前の符号化信号が再符号化された後における音声信号でもよい。
 以上、本発明に係る音声信号処理装置及び音声信号処理方法について、実施の形態に基づいて説明したが、本発明は、これらの実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を当該実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本発明の範囲内に含まれる。
 例えば、付加データは、ダウンミックス係数でもよい。ダウンミックス係数は、例えば、マルチチャンネルの音声信号を、ステレオの音声信号に変換するのに用いられるパラメータである。
 また、上記の実施の形態では、デコード信号に対する加工処理として、信号の振幅の調整(音量の調整)及び再符号化を例に説明したが、これに限られない。
 また、上記実施の形態1及び2に係る音声信号処理装置に含まれる各処理部は典型的には集積回路であるLSI(Large Scale Integration)として実現される。これらは個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。
 ここでは、LSIとしたが、集積度の違いにより、IC(Integrated Circuit)、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
 また、集積回路化はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)、又はLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
 さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて各処理部の集積化を行ってもよい。バイオ技術の適用等が可能性として考えられる。
 また、本発明の実施の形態1及び2に係る、音声信号処理装置の機能の一部又は全てを、CPU(Central Processing Unit)等のプロセッサがプログラムを実行することにより実現してもよい。
 さらに、本発明は上記プログラムであってもよいし、上記プログラムが記録された記録媒体であってもよい。また、上記プログラムは、インターネット等の伝送媒体を介して流通させることができるのは言うまでもない。
 また、上記で用いた数字は、全て本発明を具体的に説明するために例示するものであり、本発明は例示された数字に制限されない。また、構成要素間の接続関係は、本発明を具体的に説明するために例示するものであり、本発明の機能を実現する接続関係はこれに限定されない。
 さらに、上記の実施の形態は、ハードウェア及び/又はソフトウェアを用いて構成されるが、ハードウェアを用いる構成は、ソフトウェアを用いても構成可能であり、ソフトウェアを用いる構成は、ハードウェアを用いても構成可能である。
 本発明に係る音声信号処理装置及び音声信号処理方法は、主観的な音質の劣化(図4の不適切な振幅6Bhの音声信号5Bhを参照)を抑制して、音質を高くすることができるという効果を奏し、例えば、オーディオプレーヤ、デジタルテレビ、デジタルレコーダなどにおいて、音質がより高くされるのに際し、利用することができる。
  3Aa、3Ab、3Ba、3Bb 音声信号
  3Xa、3Xb 音声信号
  4、4A、4B、4Aa、4Ba DRCデータ
  5X、5Aa、5Bi、5Bh 音声信号
  6Bh、6Bi、6Aa 振幅
  7Aa、7Ab、7Ba、7Bb 期間
  7Xa、7Xb、7A、7B 期間
  100、200 音声信号処理装置
  100e 情報
  100f 符号化データ
  100g 付加データ
  110 デコード部
  110a デコード信号
  120 検出部
  130 蓄積部
  140、240 加工部
  141 音量調整部
  241 符号化部

Claims (11)

  1.  音声信号がフレーム単位で符号化されたビットストリームを処理する音声信号処理装置であって、
     前記ビットストリームは、フレーム毎に、
     符号化された音声信号を示す符号化データと、
     前記符号化データをデコードすることで生成されるデコード信号の振幅に関する付加データと、
     前記符号化データの性質を示す属性情報とを含み、
     前記音声信号処理装置は、
     対象フレームの符号化データをデコードすることで、前記デコード信号を生成するデコード部と、
     前記デコード部によって生成された前記デコード信号を加工する加工部と、
     前記対象フレームと、当該対象フレームに連続する隣接フレームとの間で、前記属性情報が変化したか否かを検出する検出部と、
     前記対象フレームの付加データを含む少なくとも2個の前記付加データを蓄積するための蓄積部とを備え、
     前記加工部は、
     前記検出部によって変化が検出されなかった場合、前記蓄積部に蓄積された少なくとも2個の前記付加データを用いて、前記対象フレームの前記デコード信号を加工し、
     前記検出部によって変化が検出された場合、前記蓄積部に蓄積された付加データのうち、変化が検出される前の少なくとも1個の付加データ、及び、変化が検出された後の少なくとも1個の付加データのいずれか一方のみを用いて、前記対象フレームの前記デコード信号を加工する
     音声信号処理装置。
  2.  前記隣接フレームは、前記対象フレームの直前のフレームであり、
     前記蓄積部は、少なくとも、前記対象フレームの付加データと、前記隣接フレームの付加データとの2個の付加データを蓄積し、
     前記加工部は、
     前記検出部によって変化が検出されなかった場合、前記対象フレームの付加データと、前記隣接フレームの付加データとを用いて、前記対象フレームの前記デコード信号を加工し、
     前記検出部によって変化が検出された場合、前記対象フレームの付加データを含む、変化が検出された後の少なくとも1個の付加データを用いて、前記対象フレームの前記デコード信号を加工する
     請求項1記載の音声信号処理装置。
  3.  前記隣接フレームは、前記対象フレームの直後のフレームであり、
     前記蓄積部は、少なくとも、前記対象フレームの付加データと、前記隣接フレームの付加データとの2個の付加データを蓄積し、
     前記加工部は、
     前記検出部によって、変化が検出されなかった場合、前記対象フレームの付加データと、前記隣接フレームの付加データとを用いて、前記対象フレームの前記デコード信号を加工し、
     前記検出部によって、変化が検出された場合、前記対象フレームの付加データを含む、変化が検出される前の少なくとも1個の付加データを用いて、前記対象フレームの前記デコード信号を加工する
     請求項1記載の音声信号処理装置。
  4.  前記付加データは、前記デコード信号の振幅を調整するためのDRC(Dynamic Range Control)データであり、
     前記加工部は、前記DRCデータに基づいて、前記対象フレームの前記デコード信号の振幅を増減させる
     請求項1~3のいずれか1項に記載の音声信号処理装置。
  5.  前記属性情報は、対応するフレームの、符号化された音声信号のチャンネル数を示す情報であり、
     前記検出部は、前記属性情報を参照することで、前記対象フレームと、前記隣接フレームとの間で、音声信号のチャンネル数が変化したか否かを検出する
     請求項1~4のいずれか1項に記載の音声信号処理装置。
  6.  前記属性情報は、対応するフレームの、前記付加データの有無を示す情報であり、
     前記検出部は、前記属性情報を参照することで、前記対象フレームと、前記隣接フレームとの間での、前記付加データの有無の変化を検出する
     請求項1~4のいずれか1項に記載の音声信号処理装置。
  7.  前記加工部は、
     前記ビットストリームに含まれるフレームのフレーム長とは異なるフレーム長のフレーム単位で、前記デコード信号を再符号化し、
     前記検出部によって、変化が検出されなかった場合、前記蓄積部に蓄積された、少なくとも2個の付加データを用いて、再符号化後のフレームに対応する付加データを生成し、
     前記検出部によって、変化が検出された場合、前記蓄積部に蓄積された各付加データのうち、変化が検出される前の少なくとも1個の付加データ、及び、変化が検出された後の少なくとも1個の付加データのいずれか一方のみを用いて、再符号化後のフレームに対応する付加データを生成する
     請求項1記載の音声信号処理装置。
  8.  前記属性情報は、対応するフレームの、符号化された音声信号のチャンネル数を示す情報であり、
     前記検出部は、前記属性情報を参照することで、前記対象フレームと、前記隣接フレームとの間で、音声信号のチャンネル数が変化したか否かを検出し、
     前記加工部は、前記検出部によって、変化が検出された場合であって、前記対象フレームと、前記隣接フレームとの境目と、再符号化後の2つのフレームの間の境目とが一致していない場合、変化が検出される前の少なくとも1個の付加データ、及び、変化が検出された後の少なくとも1個の付加データのいずれか一方として、チャンネル数が多い方の付加データを用いて、再符号化後のフレームに対応する付加データを生成する
     請求項7記載の音声信号処理装置。
  9.  前記属性情報は、対応するフレームの、前記付加データの有無を示す情報であり、
     前記検出部は、前記属性情報を参照することで、前記対象フレームと、前記隣接フレームとの間での、前記付加データの有無の変化を検出し、
     前記加工部は、前記検出部によって、変化が検出された場合であって、前記対象フレームと、前記隣接フレームとの境目と、再符号化後の2つのフレーム間の境目とが一致していない場合、変化が検出される前の少なくとも1個の付加データ、及び、変化が検出された後の少なくとも1個の付加データのいずれか一方として、付加データが存在する方の付加データを用いて、再符号化後のフレームに対応する付加データを生成する
     請求項7記載の音声信号処理装置。
  10.  前記付加データは、前記デコード信号の振幅を調整するためのDRCデータであり、
     前記加工部は、前記DRCデータに基づいて、再符号化後のフレームをデコードすることで生成される再デコード信号の振幅を調整するためのDRCデータを生成する
     請求項7~9のいずれか1項に記載の音声信号処理装置。
  11.  音声信号がフレーム単位で符号化されたビットストリームを処理する音声信号処理方法であって、
     前記ビットストリームは、フレーム毎に、
     符号化された音声信号を示す符号化データと、
     前記符号化データをデコードすることで生成されるデコード信号の振幅に関する付加データと、
     前記符号化データの性質を示す属性情報とを含み、
     前記音声信号処理方法は、
     対象フレームの符号化データをデコードすることで、前記デコード信号を生成するデコードステップと、
     前記デコードステップにおいて生成された前記デコード信号を加工する加工ステップと、
     前記対象フレームと、当該対象フレームに連続する隣接フレームとの間で、前記属性情報が変化したか否かを検出する検出ステップと、
     前記加工ステップでは、
     前記検出ステップにおいて変化が検出されなかった場合、前記対象フレームの付加データを含む少なくとも2個の前記付加データを用いて、前記対象フレームの前記デコード信号を加工し、
     前記検出ステップにおいて変化が検出された場合、変化が検出される前の少なくとも1個の付加データ、及び、変化が検出された後の少なくとも1個の付加データのいずれか一方のみを用いて、前記対象フレームの前記デコード信号を加工する
     音声信号処理方法。
PCT/JP2011/004602 2010-08-23 2011-08-16 音声信号処理装置及び音声信号処理方法 WO2012026092A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP11819568.4A EP2610865B1 (en) 2010-08-23 2011-08-16 Audio signal processing device and audio signal processing method
JP2012530521A JP5650227B2 (ja) 2010-08-23 2011-08-16 音声信号処理装置及び音声信号処理方法
CN201180035062.0A CN103003877B (zh) 2010-08-23 2011-08-16 声音信号处理装置及声音信号处理方法
US13/760,820 US9472197B2 (en) 2010-08-23 2013-02-06 Audio signal processing apparatus and audio signal processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010-186349 2010-08-23
JP2010186349 2010-08-23

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US13/760,820 Continuation US9472197B2 (en) 2010-08-23 2013-02-06 Audio signal processing apparatus and audio signal processing method

Publications (1)

Publication Number Publication Date
WO2012026092A1 true WO2012026092A1 (ja) 2012-03-01

Family

ID=45723114

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/004602 WO2012026092A1 (ja) 2010-08-23 2011-08-16 音声信号処理装置及び音声信号処理方法

Country Status (5)

Country Link
US (1) US9472197B2 (ja)
EP (1) EP2610865B1 (ja)
JP (1) JP5650227B2 (ja)
CN (1) CN103003877B (ja)
WO (1) WO2012026092A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017517020A (ja) * 2014-03-25 2017-06-22 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン ダイナミックレンジ制御における効率的なゲイン符号化を有するオーディオ符号化装置及びオーディオ復号化装置
JP2019197216A (ja) * 2012-05-18 2019-11-14 ドルビー ラボラトリーズ ライセンシング コーポレイション 入力オーディオ信号のダイナミックレンジ制御方法、コンピュータプログラム及び装置
JP2020039181A (ja) * 2013-09-12 2020-03-12 ドルビー ラボラトリーズ ライセンシング コーポレイション 多様な再生環境のためのダイナミックレンジ制御
JP2020098368A (ja) * 2014-10-10 2020-06-25 ドルビー ラボラトリーズ ライセンシング コーポレイション 伝送に関知しない呈示ベースのプログラム・ラウドネス
US11708741B2 (en) 2012-05-18 2023-07-25 Dolby Laboratories Licensing Corporation System for maintaining reversible dynamic range control information associated with parametric audio coders

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8359205B2 (en) 2008-10-24 2013-01-22 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
US9667365B2 (en) 2008-10-24 2017-05-30 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
WO2013186343A2 (en) * 2012-06-14 2013-12-19 Dolby International Ab Smooth configuration switching for multichannel audio
US9607624B2 (en) 2013-03-29 2017-03-28 Apple Inc. Metadata driven dynamic range control
TWM487509U (zh) * 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
US20150039321A1 (en) * 2013-07-31 2015-02-05 Arbitron Inc. Apparatus, System and Method for Reading Codes From Digital Audio on a Processing Device
US9711152B2 (en) 2013-07-31 2017-07-18 The Nielsen Company (Us), Llc Systems apparatus and methods for encoding/decoding persistent universal media codes to encoded audio
US20150286460A1 (en) * 2014-04-03 2015-10-08 Analog Devices Global Apparatus and methods for gracefully managing audio discontinuity
WO2015164572A1 (en) * 2014-04-25 2015-10-29 Dolby Laboratories Licensing Corporation Audio segmentation based on spatial metadata
CN113257274A (zh) 2014-10-01 2021-08-13 杜比国际公司 高效drc配置文件传输
CN116631416A (zh) * 2017-01-10 2023-08-22 弗劳恩霍夫应用研究促进协会 音频解码器、提供解码的音频信号的方法、和计算机程序
CN113113046B (zh) * 2021-04-14 2024-01-19 杭州网易智企科技有限公司 音频处理的性能检测方法、装置、存储介质及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007274163A (ja) * 2006-03-30 2007-10-18 Oki Electric Ind Co Ltd 自動利得制御装置
JP2008078888A (ja) * 2006-09-20 2008-04-03 Sharp Corp 音声再生装置、映像音声再生装置、及びその音場モード切り替え方法
JP2008078879A (ja) * 2006-09-20 2008-04-03 Sharp Corp 音声再生装置、映像音声再生装置、及びその音場モード切り替え方法
JP2008288935A (ja) * 2007-05-18 2008-11-27 Panasonic Corp 音声処理装置
JP2009289385A (ja) * 2008-06-02 2009-12-10 Nec Electronics Corp デジタルオーディオ信号処理装置、及び方法
JP2010507330A (ja) * 2006-10-20 2010-03-04 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション リセットを用いるオーディオダイナミクス処理
JP2010114803A (ja) * 2008-11-10 2010-05-20 Panasonic Corp 音声処理装置

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100381803B1 (ko) * 1999-09-02 2003-04-26 마츠시타 덴끼 산교 가부시키가이샤 기록 장치 및 부호화 장치
SE522261C2 (sv) * 2000-05-10 2004-01-27 Global Ip Sound Ab Kodning och avkodning av en digital signal
US6782366B1 (en) * 2000-05-15 2004-08-24 Lsi Logic Corporation Method for independent dynamic range control
US6785655B1 (en) * 2000-05-15 2004-08-31 Lsi Logic Corporation Method for independent dynamic range control
DE10124699C1 (de) * 2001-05-18 2002-12-19 Micronas Gmbh Schaltungsanordnung zur Verbesserung der Verständlichkeit von Sprache enthaltenden Audiosignalen
WO2004040555A1 (ja) * 2002-10-31 2004-05-13 Fujitsu Limited 音声強調装置
US8032645B2 (en) * 2003-11-13 2011-10-04 Panasonic Corporation Coding method and coding apparatus
WO2006003993A1 (ja) * 2004-07-02 2006-01-12 Nippon Telegraph And Telephone Corporation 多チャネル信号符号化方法、その復号化方法、これらの装置、プログラム及びその記録媒体
JP4744444B2 (ja) * 2004-07-20 2011-08-10 パナソニック株式会社 ストリームデータ受信再生装置、通信システムおよびストリームデータ受信再生方法
CN1780326A (zh) * 2005-01-05 2006-05-31 展讯通信(上海)有限公司 通话音量自适应调节方法
TWI396188B (zh) * 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
JP4737683B2 (ja) * 2006-06-22 2011-08-03 ルネサスエレクトロニクス株式会社 シリアル伝送システム、伝送装置、及びシリアル伝送方法
US7853649B2 (en) * 2006-09-21 2010-12-14 Apple Inc. Audio processing for improved user experience
US20080080722A1 (en) * 2006-09-29 2008-04-03 Carroll Tim J Loudness controller with remote and local control
AU2008215231B2 (en) * 2007-02-14 2010-02-18 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
US20090132242A1 (en) * 2007-11-19 2009-05-21 Cool-Idea Technology Corp. Portable audio recording and playback system
JP4968147B2 (ja) * 2008-03-31 2012-07-04 富士通株式会社 通信端末、通信端末の音声出力調整方法
US8645129B2 (en) * 2008-05-12 2014-02-04 Broadcom Corporation Integrated speech intelligibility enhancement system and acoustic echo canceller
US8798776B2 (en) * 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
US8577060B2 (en) * 2009-07-02 2013-11-05 Avaya Inc. Method and apparatus for dynamically determining mix sets in an audio processor

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007274163A (ja) * 2006-03-30 2007-10-18 Oki Electric Ind Co Ltd 自動利得制御装置
JP2008078888A (ja) * 2006-09-20 2008-04-03 Sharp Corp 音声再生装置、映像音声再生装置、及びその音場モード切り替え方法
JP2008078879A (ja) * 2006-09-20 2008-04-03 Sharp Corp 音声再生装置、映像音声再生装置、及びその音場モード切り替え方法
JP2010507330A (ja) * 2006-10-20 2010-03-04 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション リセットを用いるオーディオダイナミクス処理
JP2008288935A (ja) * 2007-05-18 2008-11-27 Panasonic Corp 音声処理装置
JP2009289385A (ja) * 2008-06-02 2009-12-10 Nec Electronics Corp デジタルオーディオ信号処理装置、及び方法
JP2010114803A (ja) * 2008-11-10 2010-05-20 Panasonic Corp 音声処理装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP2610865A4 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7000613B2 (ja) 2012-05-18 2022-01-19 ドルビー ラボラトリーズ ライセンシング コーポレイション 入力オーディオ信号のダイナミックレンジ制御方法、コンピュータプログラム及び装置
JP7471356B2 (ja) 2012-05-18 2024-04-19 ドルビー ラボラトリーズ ライセンシング コーポレイション 入力オーディオ信号のダイナミックレンジを調整する方法、オーディオ信号処理装置及び記憶媒体
JP2019197216A (ja) * 2012-05-18 2019-11-14 ドルビー ラボラトリーズ ライセンシング コーポレイション 入力オーディオ信号のダイナミックレンジ制御方法、コンピュータプログラム及び装置
US11708741B2 (en) 2012-05-18 2023-07-25 Dolby Laboratories Licensing Corporation System for maintaining reversible dynamic range control information associated with parametric audio coders
JP2022166205A (ja) * 2012-05-18 2022-11-01 ドルビー ラボラトリーズ ライセンシング コーポレイション 入力オーディオ信号のダイナミックレンジを調整する方法、オーディオ信号処理装置及び記憶媒体
JP2021006914A (ja) * 2012-05-18 2021-01-21 ドルビー ラボラトリーズ ライセンシング コーポレイション 入力オーディオ信号のダイナミックレンジ制御方法、コンピュータプログラム及び装置
US10950252B2 (en) 2012-05-18 2021-03-16 Dolby Laboratories Licensing Corporation System for maintaining reversible dynamic range control information associated with parametric audio coders
JP7127198B2 (ja) 2012-05-18 2022-08-29 ドルビー ラボラトリーズ ライセンシング コーポレイション 入力オーディオ信号のダイナミックレンジを調整する方法、オーディオ信号処理装置及び記憶媒体
JP2021060589A (ja) * 2012-05-18 2021-04-15 ドルビー ラボラトリーズ ライセンシング コーポレイション 入力オーディオ信号のダイナミックレンジ制御方法、コンピュータプログラム及び装置
JP2021099525A (ja) * 2012-05-18 2021-07-01 ドルビー ラボラトリーズ ライセンシング コーポレイション 入力オーディオ信号のダイナミックレンジ制御方法、コンピュータプログラム及び装置
JP2022043209A (ja) * 2012-05-18 2022-03-15 ドルビー ラボラトリーズ ライセンシング コーポレイション 入力オーディオ信号のダイナミックレンジを調整する方法、オーディオ信号処理装置及び記憶媒体
US11429341B2 (en) 2013-09-12 2022-08-30 Dolby International Ab Dynamic range control for a wide variety of playback environments
US10956121B2 (en) 2013-09-12 2021-03-23 Dolby Laboratories Licensing Corporation Dynamic range control for a wide variety of playback environments
JP2020039181A (ja) * 2013-09-12 2020-03-12 ドルビー ラボラトリーズ ライセンシング コーポレイション 多様な再生環境のためのダイナミックレンジ制御
US11842122B2 (en) 2013-09-12 2023-12-12 Dolby Laboratories Licensing Corporation Dynamic range control for a wide variety of playback environments
USRE49107E1 (en) 2014-03-25 2022-06-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V. Audio encoder device and an audio decoder device having efficient gain coding in dynamic range control
JP2017517020A (ja) * 2014-03-25 2017-06-22 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン ダイナミックレンジ制御における効率的なゲイン符号化を有するオーディオ符号化装置及びオーディオ復号化装置
US10074377B2 (en) 2014-03-25 2018-09-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder device and an audio decoder device having efficient gain coding in dynamic range control
US11062721B2 (en) 2014-10-10 2021-07-13 Dolby Laboratories Licensing Corporation Transmission-agnostic presentation-based program loudness
JP2020098368A (ja) * 2014-10-10 2020-06-25 ドルビー ラボラトリーズ ライセンシング コーポレイション 伝送に関知しない呈示ベースのプログラム・ラウドネス

Also Published As

Publication number Publication date
CN103003877B (zh) 2014-12-31
CN103003877A (zh) 2013-03-27
EP2610865B1 (en) 2014-07-23
EP2610865A1 (en) 2013-07-03
JPWO2012026092A1 (ja) 2013-10-28
US20130144631A1 (en) 2013-06-06
US9472197B2 (en) 2016-10-18
EP2610865A4 (en) 2013-12-18
JP5650227B2 (ja) 2015-01-07

Similar Documents

Publication Publication Date Title
JP5650227B2 (ja) 音声信号処理装置及び音声信号処理方法
US10643630B2 (en) High frequency replication utilizing wave and noise information in encoding and decoding audio signals
JP5129888B2 (ja) トランスコード方法、トランスコーディングシステム及びセットトップボックス
TWI524330B (zh) 用於新媒體設備上之具有及不具有嵌入式響度元資料之媒體之標準化音訊播放的方法及裝置
TWI416505B (zh) 對源自數位聲頻資料之聲頻信號的信號截割提供保護之方法及設備
KR101594480B1 (ko) 클립핑 아티팩트를 피하기 위한 장치, 방법 및 컴퓨터 프로그램
US20100286988A1 (en) Hybrid Permanent/Reversible Dynamic Range Control System
JP5046654B2 (ja) スケーラブル復号装置及びスケーラブル復号方法
CA2566345C (en) Method for correcting metadata affecting the playback loudness and dynamic range of audio information
US8160868B2 (en) Scalable decoder and scalable decoding method
US20080106445A1 (en) Digital Signal Processing Apparatus, Digital Signal Processing Method, Digital Signal Processing Program, Digital Signal Reproduction Apparatus and Digital Signal Reproduction Method
US10242684B2 (en) Systems and methods for adjusting audio levels in a plurality of audio signals
CA2736684A1 (en) Systems and methods for adjusting audio levels in a plurality of audio signals

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11819568

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2012530521

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2011819568

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE