WO2018198789A1 - 信号処理装置および方法、並びにプログラム - Google Patents

信号処理装置および方法、並びにプログラム Download PDF

Info

Publication number
WO2018198789A1
WO2018198789A1 PCT/JP2018/015352 JP2018015352W WO2018198789A1 WO 2018198789 A1 WO2018198789 A1 WO 2018198789A1 JP 2018015352 W JP2018015352 W JP 2018015352W WO 2018198789 A1 WO2018198789 A1 WO 2018198789A1
Authority
WO
WIPO (PCT)
Prior art keywords
priority information
information
priority
audio signal
unit
Prior art date
Application number
PCT/JP2018/015352
Other languages
English (en)
French (fr)
Inventor
優樹 山本
徹 知念
辻 実
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to KR1020247008685A priority Critical patent/KR20240042125A/ko
Priority to RU2019132898A priority patent/RU2019132898A/ru
Priority to EP24162190.3A priority patent/EP4358085A3/en
Priority to US16/606,276 priority patent/US11574644B2/en
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to KR1020197030401A priority patent/KR20190141669A/ko
Priority to CN202410360122.5A priority patent/CN118248153A/zh
Priority to EP18790825.6A priority patent/EP3618067B1/en
Priority to BR112019021904-8A priority patent/BR112019021904A2/pt
Priority to JP2019514367A priority patent/JP7160032B2/ja
Priority to CN201880025687.0A priority patent/CN110537220B/zh
Publication of WO2018198789A1 publication Critical patent/WO2018198789A1/ja
Priority to JP2022164511A priority patent/JP7459913B2/ja
Priority to US18/154,187 priority patent/US11900956B2/en
Priority to US18/416,154 priority patent/US20240153516A1/en
Priority to JP2024043562A priority patent/JP2024075675A/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Definitions

  • the present technology relates to a signal processing device, method, and program, and more particularly, to a signal processing device, method, and program that can reduce the amount of decoding calculation at low cost.
  • MPEG Motion Picture Experts Group
  • 3D audio standard which is an international standard
  • the amount of calculation at the time of decoding is reduced by transmitting priority information indicating the priority of each audio object to the decoding device side.
  • priority information there are many contents that are not given priority information.
  • whether or not priority information is included in encoded data can be switched by a flag in the header part. That is, the presence of encoded data to which priority information is not assigned is also permitted.
  • the present technology has been made in view of such a situation, and is capable of reducing the calculation amount of decoding at low cost.
  • the signal processing device includes a priority information generation unit that generates priority information of the audio object based on a plurality of elements representing the characteristics of the audio object.
  • the element can be metadata of the audio object.
  • the element can be the position of the audio object in space.
  • the element can be a distance from a reference position in the space to the audio object.
  • the element can be a horizontal angle indicating the horizontal position of the audio object in the space.
  • the priority information generation unit can generate the priority information according to the moving speed of the audio object based on the metadata.
  • the element can be gain information to be multiplied by the audio signal of the audio object.
  • the priority information of the processing target unit time is obtained based on a difference between the gain information of the processing target unit time and an average value of the gain information of a plurality of unit times. Can be generated.
  • the priority information generation unit can generate the priority information based on the sound pressure of the audio signal multiplied by the gain information.
  • the element can be spread information.
  • the priority information generation unit can generate the priority information corresponding to the area of the audio object based on the spread information.
  • the element can be information indicating the sound attribute of the audio object.
  • the element can be an audio signal of the audio object.
  • the priority information generation unit can generate the priority information based on a result of a voice section detection process for the audio signal.
  • the priority information generating unit can perform smoothing in the time direction on the generated priority information to obtain final priority information.
  • the signal processing method or program includes a step of generating priority information of the audio object based on a plurality of elements representing characteristics of the audio object.
  • priority information of the audio object is generated based on a plurality of elements representing the characteristics of the audio object.
  • the calculation amount of decoding can be reduced at low cost.
  • This technology generates audio object priority information based on audio object metadata, content information, audio object audio signal, and other elements that represent audio object characteristics, thereby reducing the cost of decoding. The amount can be reduced.
  • the multi-channel audio signal and the audio signal of the audio object are encoded according to a predetermined standard or the like.
  • the audio object is also simply referred to as an object.
  • audio signals of each channel and each object are encoded and transmitted for each frame.
  • an encoded audio signal and information necessary for decoding the audio signal are stored in a plurality of elements (bit stream elements), and a bit stream composed of these elements is transmitted from the encoding side to the decoding side. .
  • a plurality of elements are arranged in order from the top, and finally an identifier indicating the end position regarding the information of the frame is arranged.
  • the element arranged at the head is an ancillary data area called DSE (Data Stream Element), and the DSE describes information about each of a plurality of channels such as information on audio signal downmix and identification information. .
  • DSE Data Stream Element
  • each element following DSE stores an encoded audio signal.
  • an element storing a single channel audio signal is called SCE (Single Channel Element), and an element storing a pair of two channel audio signals is called CPE (Coupling Channel Element). It is.
  • the audio signal of each object is stored in the SCE.
  • the priority information of the audio signal of each object is generated and stored in the DSE.
  • the priority information is information indicating the priority of the object.
  • the higher the priority value indicated by the priority information that is, the higher the numerical value indicating the priority, the higher the priority of the object. It shows that there is.
  • the priority information of each object is generated based on the metadata of the object. Therefore, even if priority information is not given to content, the amount of calculation of decoding can be reduced. In other words, it is possible to reduce the calculation amount of decoding at low cost without giving priority information manually.
  • FIG. 1 is a diagram illustrating a configuration example of an encoding device to which the present technology is applied.
  • 1 includes a channel audio encoding unit 21, an object audio encoding unit 22, a metadata input unit 23, and a packing unit 24.
  • the channel audio encoding unit 21 is supplied with an audio signal of each multi-channel channel having M channels.
  • the audio signal of each channel is supplied from a microphone corresponding to the channel.
  • the characters “# 0” to “# M ⁇ 1” represent the channel numbers of the respective channels.
  • the channel audio encoding unit 21 encodes the supplied audio signal of each channel, and supplies the encoded data obtained by the encoding to the packing unit 24.
  • the audio signal of each of N objects is supplied to the object audio encoding unit 22.
  • the audio signal of each object is supplied from a microphone attached to the object.
  • the characters “# 0” to “# N ⁇ 1” represent the object number of each object.
  • the object audio encoding unit 22 encodes the supplied audio signal of each object. Also, the object audio encoding unit 22 generates priority information based on the supplied audio signal, the metadata and content information supplied from the metadata input unit 23, and the encoded data obtained by encoding And the priority information are supplied to the packing unit 24.
  • the metadata input unit 23 supplies the metadata and content information of each object to the object audio encoding unit 22 and the packing unit 24.
  • object metadata includes object position information indicating the position of the object in space, spread information indicating the range of the size of the sound image of the object, gain information indicating the gain of the audio signal of the object, and the like.
  • the content information includes information related to the sound attribute of each object in the content.
  • the packing unit 24 includes encoded data supplied from the channel audio encoding unit 21, encoded data and priority information supplied from the object audio encoding unit 22, and metadata supplied from the metadata input unit 23.
  • a bit stream is generated by packing content information and output.
  • the bit stream thus obtained includes encoded data of each channel, encoded data of each object, priority information of each object, and metadata and content information of each object for each frame.
  • the audio signals of M channels and the audio signals of N objects stored in the bit stream for one frame are the audio signals of the same frame to be reproduced simultaneously.
  • priority information is generated for each audio signal for each frame as the priority information of the audio signal of each object.
  • One priority information may be generated for audio signals for frames.
  • the object audio encoding unit 22 in FIG. 1 is configured in more detail as shown in FIG. 2, for example.
  • the object audio encoding unit 22 shown in FIG. 2 includes an encoding unit 51 and a priority information generation unit 52.
  • the encoding unit 51 includes an MDCT (Modified Discrete Cosine Transform) unit 61, and the encoding unit 51 encodes an audio signal of each object supplied from the outside.
  • MDCT Modified Discrete Cosine Transform
  • the MDCT unit 61 performs MDCT (modified discrete cosine transform) on the audio signal of each object supplied from the outside.
  • the encoding unit 51 encodes the MDCT coefficient of each object obtained by MDCT, and supplies the encoded data of each object obtained as a result, that is, the encoded audio signal, to the packing unit 24.
  • the priority information generation unit 52 receives at least one of an audio signal of each object supplied from the outside, metadata supplied from the metadata input unit 23, and content information supplied from the metadata input unit 23. Based on this, priority information of the audio signal of each object is generated and supplied to the packing unit 24.
  • the priority information generation unit 52 generates priority information of an object based on one or more elements representing the characteristics of the object such as an audio signal, metadata, and content information.
  • an audio signal is an element that represents characteristics of an object's sound
  • metadata is an element that represents characteristics such as the position of the object, the extent of sound image, and gain
  • content information is an element that represents characteristics of the object's sound attributes It is.
  • gain information is stored in the metadata of the object, and the audio signal multiplied by this gain information is used as the final audio signal of the object.
  • the sound pressure of will change.
  • the priority information generation unit 52 generates priority information using at least information other than the sound pressure of the audio signal. Thereby, appropriate priority information can be obtained.
  • the priority information is generated by at least one of the following methods (1) to (4).
  • the object metadata includes object position information, spread information, and gain information. Therefore, it is conceivable to generate priority information using these object position information, spread information, and gain information.
  • the object position information is information indicating the position of the object in the three-dimensional space.
  • coordinate information including a horizontal angle a, a vertical angle e, and a radius r indicating the position of the object viewed from the reference position (origin). Is done.
  • the horizontal angle a is a horizontal angle (azimuth angle) indicating the horizontal position of the object viewed from the reference position where the user is located, that is, the reference direction in the horizontal direction and the object viewed from the reference position. It is the angle made with the direction.
  • the horizontal direction angle a when the horizontal direction angle a is 0 degree, the object is located in front of the user, and when the horizontal direction angle a is 90 degrees or -90 degrees, the object is located directly beside the user. It will be. When the horizontal direction angle a is 180 degrees or ⁇ 180 degrees, the object is located immediately behind the user.
  • the vertical direction angle e is a vertical angle (elevation angle) indicating a vertical position of the object viewed from the reference position, that is, an angle formed between the reference direction in the vertical direction and the object direction viewed from the reference position. It is.
  • the radius r is the distance from the reference position to the object position.
  • an object having a short distance from the origin (reference position) that is the user's position that is, an object that has a small radius r and is close to the origin is considered to be more important than an object that is far from the origin. Therefore, the priority indicated by the priority information can be increased as the radius r is smaller.
  • the priority information generation unit 52 generates the priority information of the object by calculating the following equation (1) based on the radius r of the object.
  • priority information is also referred to as priority.
  • Equation (1) the smaller the radius r, the larger the value of the priority information priority and the higher the priority.
  • the priority information generation unit 52 generates the priority information of the object by calculating the following equation (2) based on the horizontal direction angle a of the object. However, when the horizontal direction angle a is less than 1 degree, the value of the priority information priority of the object is 1.
  • abs (a) indicates the absolute value of the horizontal direction angle a. Therefore, in this example, the value of the priority information priority increases as the horizontal direction angle a is smaller and the position of the object is closer to the position in front of the user.
  • the priority indicated by the priority information can be increased as the time change amount of the object position information is larger, that is, as the moving speed of the object is faster.
  • the priority information generation unit 52 calculates the following expression (3) based on the horizontal direction angle a, the vertical direction angle e, and the radius r included in the object position information of the object, thereby obtaining the object's object position information. Priority information corresponding to the moving speed is generated.
  • a (i), e (i), and r (i) indicate the horizontal angle a, the vertical angle e, and the radius r of the object in the current frame to be processed, respectively.
  • a (i-1), e (i-1), and r (i-1) are the horizontal angle a of the object in the frame immediately before the current frame to be processed, A vertical angle e and a radius r are shown.
  • Equation (3) indicates the horizontal speed of the object
  • the right side of Equation (3) corresponds to the speed of the entire object. That is, the value of the priority information priority indicated by the expression (3) increases as the speed of the object increases.
  • the object metadata includes, as gain information, a coefficient value to be multiplied with the audio signal of the object at the time of decoding.
  • the gain information value that is, the coefficient value as gain information is larger
  • the sound pressure of the audio signal of the final object after the multiplication of the coefficient value is increased, and thereby the sound of the object is easily perceived by humans.
  • An object that increases sound pressure by giving large gain information is considered an important object in the content.
  • the priority information generation unit 52 calculates the following expression (4) based on the gain information of the object, that is, the coefficient value g that is the gain indicated by the gain information, so that the priority of the object Generate information.
  • the coefficient value g itself that is gain information is set as priority information priority.
  • a time average value of gain information (coefficient value g) of a plurality of frames of one object is denoted as a time average value g ave .
  • the time average value g ave is a time average value of gain information of a plurality of consecutive frames in the past from the processing target frame.
  • the frame difference is large between the gain information and the time average value g ave, more in frame substantially greater than the coefficient value g is the time average value g ave more, the difference between the coefficient value g and the time average value g ave
  • the importance of the object is considered high compared to the small frame. In other words, it is considered that the importance of the object is high in the frame in which the coefficient value g suddenly increases.
  • the priority information generation unit 52 calculates the following expression (5) based on the gain information of the object, that is, the coefficient value g and the time average value g ave , thereby calculating the priority of the object. Generate information. In other words, priority information is generated based on the difference between the coefficient value g of the current frame and the time average value g ave .
  • g (i) indicates the coefficient value g of the current frame. Therefore, in this example, the value of the priority information priority becomes larger as the coefficient value g (i) of the current frame is larger than the time average value g ave . In other words, in the example shown in Expression (5), the importance of the object is high in the frame in which the gain information is rapidly increased, and the priority indicated by the priority information is also high.
  • the time average value g ave may be an exponential average value based on the gain information (coefficient value g) of a plurality of past frames of the object or an average value of the gain information of the object over the entire content.
  • Spread information is angle information indicating the range of the size of the sound image of the object, that is, angle information indicating the degree of spread of the sound image of the object.
  • the spread information can be said to be information indicating the size of the object area.
  • an angle indicating the range of the size of the sound image of the object indicated by the spread information is referred to as a spread angle.
  • An object with a large spread angle is an object that appears large on the screen. Therefore, it is considered that an object having a large spread angle is more likely to be an important object in the content than an object having a small spread angle. Therefore, the priority indicated by the priority information can be made higher as the spread angle indicated by the spread information is larger.
  • the priority information generation unit 52 generates the priority information of the object by calculating the following equation (6) based on the spread information of the object.
  • s indicates a spread angle indicated by spread information.
  • the square value of the spread angle s is set as the value of the priority information priority in order to reflect the area of the object region, that is, the width of the sound image range in the value of the priority information priority. Therefore, the priority information corresponding to the area of the object area, that is, the area of the sound image area of the object sound, is generated by the calculation of Expression (6).
  • spread directions may be given as spread information, that is, horizontal and vertical spread angles that are perpendicular to each other.
  • the spread information includes a horizontal spread angle s width and a vertical spread angle s height .
  • objects having different sizes in the horizontal direction and the vertical direction, that is, different degrees of spread can be represented by spread information.
  • the priority information generation unit 52 calculates the following expression (7) based on the spread information of the object, thereby obtaining the object Generate priority information for.
  • the product of the spread angle s width and the spread angle s height is the priority information priority.
  • priority information is generated based on object metadata such as object position information, spread information, and gain information.
  • object metadata such as object position information, spread information, and gain information.
  • some object audio encoding schemes include content information as information about each object.
  • the sound information of the object is specified by the content information. That is, the content information includes information indicating the sound attribute of the object.
  • whether or not the sound of the object depends on the language according to the content information, the language type of the sound of the object, whether or not the sound of the object is a sound, and the sound of the object is an environmental sound Or not.
  • the object when the sound of an object is sound, the object is considered to be more important than other objects such as environmental sounds. This is because in content such as movies and news, the amount of information by sound is larger than the amount of information by other sounds, and human hearing is more sensitive to sound.
  • the priority of an object that is a voice can be made higher than the priority of an object having another attribute.
  • the priority information generation unit 52 generates the priority information of the object by the calculation of the following equation (8) based on the content information of the object.
  • object_class indicates the sound attribute of the object indicated by the content information.
  • the priority information value is 10
  • the sound attribute of the object indicated by the content information is not sound. That is, for example, in the case of an environmental sound, the value of the priority information is set to 1.
  • VAD voice segment detection processing
  • the priority information of the object may be generated based on the detection result (processing result).
  • the detection result indicating that the sound of the object is a voice is obtained as a result of the voice section detection process, it is more than when another detection result is obtained. Also, the priority indicated by the priority information is made higher.
  • the priority information generation unit 52 performs voice section detection processing on the audio signal of the object, and generates the priority information of the object by the calculation of the following equation (9) based on the detection result. .
  • object_class_vad represents the sound attribute of the object obtained as a result of the voice segment detection process.
  • the priority information when the sound attribute of the object is sound, that is, when a detection result indicating that the sound of the object is sound is obtained as a detection result by the sound section detection processing, the priority information The value is 10.
  • the value of the priority information when the sound attribute of the object is not sound, that is, when a detection result indicating that the sound of the object is sound is not obtained as a detection result by the sound section detection process, the value of the priority information Is set to 1.
  • priority information may be generated based on the voice segment likelihood value. In such a case, the priority becomes higher as the current frame of the object is more likely to be a voice section.
  • priority information may be generated based on the sound pressure of a signal obtained by multiplying the audio signal of the object by gain information. That is, priority information may be generated based on gain information and an audio signal.
  • the priority information generation unit 52 multiplies the audio signal of the object by the gain information, and obtains the sound pressure of the audio signal after the gain information multiplication. Then, the priority information generation unit 52 generates priority information based on the obtained sound pressure. At this time, for example, the priority information is generated such that the higher the sound pressure, the higher the priority.
  • priority information is generated based on elements representing object characteristics, such as object metadata, content information, and audio signals.
  • the present invention is not limited to the above-described example, and the calculated priority information such as a value obtained by the calculation of equation (1) is further multiplied by a predetermined coefficient or a predetermined constant is added. Things may be final priority information.
  • More appropriate priority information can be obtained by combining a plurality of priority information, that is, by combining a plurality of priority information.
  • priority information calculated based on object position information and priority information calculated based on spread information are linearly combined to form one final priority information.
  • the object is considered to be an important object.
  • the object is in front of the user, it is considered that the object is not an important object when the size of the sound image of the object is small.
  • the final priority information may be obtained by a linear sum of the priority information obtained based on the object position information and the priority information obtained based on the spread information.
  • the priority information generation unit 52 linearly combines a plurality of priority information, for example, by calculating the following equation (10), and generates one final priority information for the object.
  • priority (position) indicates the priority information obtained based on the object position information
  • priority (spread) indicates the priority information obtained based on the spread information.
  • priority indicates priority information obtained by, for example, Expression (1), Expression (2), Expression (3), or the like.
  • priority (spread) indicates the priority information obtained by, for example, Expression (6) or Expression (7).
  • a and B indicate linear sum coefficients. In other words, it can be said that A and B indicate weighting factors used to generate priority information.
  • setting method 1 a method of setting equal weights according to a range based on a generation formula of priority information to be linearly combined (hereinafter also referred to as setting method 1) can be considered.
  • setting method 2 a method of changing the weighting coefficient by reporting the case
  • the priority information obtained from the above-described equation (2) is priority (position)
  • the priority information obtained from the above-described equation (6) is priority (spread).
  • the value range of the priority information priority is 1 / ⁇ to 1
  • the value range of the priority information priority is 0 to ⁇ 2 .
  • Priority information priority can be generated.
  • the weighting factor A is ⁇ / ( ⁇ + 1)
  • the weighting factor B is 1 / ( ⁇ + 1).
  • priority information calculated based on, for example, content information and priority information calculated based on information other than the content information are nonlinearly combined to form one final priority information.
  • the content information it is possible to specify whether or not the sound of the object is sound.
  • the sound of the object is a voice
  • it is desirable that the value of the priority information finally obtained is large regardless of the information other than the content information used for generating the priority information. This is because a speech object generally has a larger amount of information than other objects and is considered to be a more important object.
  • the priority information generation unit 52 when the priority information calculated based on the content information and the priority information calculated based on information other than the content information are combined into final priority information, for example, the priority information generation unit 52 Then, the following equation (11) is calculated using the weighting coefficient determined by the setting method 2 described above to generate one final priority information.
  • priority (object_class) indicates the priority information obtained based on the content information, for example, the priority information obtained by Expression (8) described above. Further, priority (others) indicates priority information obtained based on information other than the content information, for example, object position information, gain information, spread information, an object audio signal, and the like.
  • a and B are values of powers of nonlinear sums, but it can be said that these A and B indicate weighting factors used for generating priority information.
  • the sound of the object is speech
  • the final priority information priority value becomes sufficiently large, and the object is not speech.
  • the priority information is never smaller.
  • the magnitude relationship between the priority information of two objects that are voices is determined by the value of priority (others) B , which is the second term of Expression (11).
  • more appropriate priority information can be obtained by combining a plurality of pieces of priority information obtained by a plurality of different methods by linear combination or non-linear combination.
  • the present invention is not limited to this, and one final priority information may be generated by a conditional expression of a plurality of priority information.
  • priority information is generated from object metadata, content information, etc., or a plurality of priority information is combined to obtain one final priority.
  • An example of generating degree information has been described. However, it is not desirable that the magnitude relationship of the priority information of a plurality of objects changes many times during a short period.
  • the sound of the object can be heard or cannot be heard every short time due to the change in the magnitude relationship of the priority information of a plurality of objects. Will be. If this happens, the auditory degradation will occur.
  • the priority information generation unit 52 for example, if the priority information is smoothed in the time direction by exponential averaging by performing the calculation shown in the following equation (12), the magnitude relationship of the priority information of the object is switched in a short time. This can be suppressed.
  • i indicates an index indicating the current frame
  • i-1 indicates an index indicating a frame immediately before the current frame.
  • priority (i) indicates the priority information before smoothing obtained for the current frame, and priority (i) is obtained by, for example, any one of the equations (1) to (11) described above. This is the requested priority information.
  • priority_smooth (i) indicates the priority information after smoothing the current frame, that is, final priority information
  • priority_smooth (i-1) indicates the smoothed frame of the frame immediately before the current frame.
  • the priority information is shown.
  • represents an exponential average smoothing coefficient
  • the smoothing coefficient ⁇ is a value between 0 and 1.
  • the value obtained by subtracting the priority information priority_smooth (i-1) multiplied by (1- ⁇ ) from the priority information priority (i) multiplied by the smoothing coefficient ⁇ is used as the final priority information.
  • priority_smooth (i) the priority information is smoothed.
  • final priority information priority_smooth (i) of the current frame is generated by performing smoothing in the time direction on the priority information priority (i) of the generated current frame.
  • the priority information may be smoothed by a smoothing method.
  • the priority information of the object is generated based on the metadata or the like, it is possible to reduce the cost of manually assigning the priority information of the object. Moreover, even if the priority information of the object is encoded data that is not properly assigned for all times (frames), the priority information can be appropriately given, and as a result, the amount of calculation for decoding is reduced. Can be made.
  • the encoding device 11 performs encoding processing when the audio signals of the plurality of channels and the audio signals of the plurality of objects to be reproduced simultaneously are supplied for one frame, and the encoded audio signal is converted into an encoded audio signal. Output the included bitstream.
  • step S11 the priority information generation unit 52 of the object audio encoding unit 22 generates the priority information of the supplied audio signal of each object, and supplies it to the packing unit 24.
  • the metadata input unit 23 obtains metadata and content information of each object by receiving a user input operation, communicating with the outside, or reading from an external recording area, and prioritizes. This is supplied to the degree information generating unit 52 and the packing unit 24.
  • the priority information generation unit 52 is based on at least one of the supplied audio signal, the metadata supplied from the metadata input unit 23, and the content information supplied from the metadata input unit 23 for each object. To generate object priority information.
  • the priority information generation unit 52 generates any one of the above-described formulas (1) to (9), a method for generating priority information based on the audio signal and gain information of the object, formula ( 10), Expression (11), Expression (12), etc., the priority information of each object is generated.
  • step S12 the packing unit 24 stores the priority information of the audio signal of each object supplied from the priority information generation unit 52 in the DSE of the bit stream.
  • step S13 the packing unit 24 stores the metadata and content information of each object supplied from the metadata input unit 23 in the DSE of the bitstream.
  • the priority information of the audio signals of all objects and the metadata and content information of all objects are stored in the DSE of the bitstream.
  • step S14 the channel audio encoding unit 21 encodes the supplied audio signal of each channel.
  • the channel audio encoding unit 21 performs MDCT on the audio signal of each channel, encodes the MDCT coefficient of each channel obtained by MDCT, and encodes each channel obtained as a result. Data is supplied to the packing unit 24.
  • step S15 the packing unit 24 stores the encoded data of the audio signal of each channel supplied from the channel audio encoding unit 21 in the SCE or CPE of the bit stream. That is, the encoded data is stored in each element arranged after the DSE in the bit stream.
  • step S16 the encoding unit 51 of the object audio encoding unit 22 encodes the supplied audio signal of each object.
  • the MDCT unit 61 performs MDCT on the audio signal of each object, and the encoding unit 51 encodes the MDCT coefficient of each object obtained by MDCT, and obtains each object obtained as a result.
  • the encoded data is supplied to the packing unit 24.
  • step S17 the packing unit 24 stores the encoded data of the audio signal of each object supplied from the encoding unit 51 in the SCE of the bit stream. That is, encoded data is stored in some elements arranged after DSE in the bitstream.
  • the encoded data of the audio signals of all channels, the priority information and encoded data of the audio signals of all objects, and the metadata and content information of all objects are stored for the frame to be processed.
  • a bitstream is obtained.
  • step S18 the packing unit 24 outputs the obtained bit stream, and the encoding process ends.
  • the encoding device 11 generates the priority information of the audio signal of each object, stores it in the bit stream, and outputs it. Therefore, on the decoding side, it becomes possible to easily grasp which audio signal has a higher priority.
  • the encoded audio signal can be selectively decoded according to the priority information.
  • the encoded audio signal can be selectively decoded according to the priority information.
  • the encoding device 11 can obtain the priority information of the object based on the metadata of the object, the content information, the audio signal of the object, and the like, thereby obtaining more appropriate priority information at a low cost. .
  • priority information may be generated in the decoding device.
  • a decoding device that receives the bit stream output from the encoding device and decodes the encoded data included in the bit stream is configured as shown in FIG. 4, for example.
  • the decoding device 101 illustrated in FIG. 4 includes an unpacking / decoding unit 111, a rendering unit 112, and a mixing unit 113.
  • the decoding device 101 illustrated in FIG. 4 is a diagrammatic representation of the decoding device 101 illustrated in FIG.
  • the unpacking / decoding unit 111 acquires the bitstream output from the encoding device and performs unpacking and decoding of the bitstream.
  • the unpacking / decoding unit 111 supplies the audio signal of each object obtained by unpacking and decoding and the metadata of each object to the rendering unit 112. At this time, the unpacking / decoding unit 111 generates priority information of each object based on the metadata and content information of the object, and decodes the encoded data of each object according to the obtained priority information. .
  • the unpacking / decoding unit 111 supplies the audio signal of each channel obtained by unpacking and decoding to the mixing unit 113.
  • the rendering unit 112 generates an M channel audio signal based on the audio signal of each object supplied from the unpacking / decoding unit 111 and the object position information included in the metadata of each object, and supplies the M channel audio signal to the mixing unit 113. To do. At this time, the rendering unit 112 generates audio signals of M channels so that the sound image of each object is localized at a position indicated by the object position information of those objects.
  • the mixing unit 113 weights and adds the audio signals of the respective channels supplied from the unpacking / decoding unit 111 and the audio signals of the respective channels supplied from the rendering unit 112 for each channel, and finally performs the audio of each channel. Generate a signal.
  • the mixing unit 113 supplies the final audio signal of each channel obtained in this way to a speaker corresponding to each external channel, and reproduces the sound.
  • the unpacking / decoding unit 111 of the decoding apparatus 101 shown in FIG. 4 is configured in more detail as shown in FIG. 5, for example.
  • the unpacking / decoding unit 111 illustrated in FIG. 5 includes a channel audio signal acquisition unit 141, a channel audio signal decoding unit 142, an IMDCT (Inverse / Modified / Discrete / Cosine / Transform) unit 143, an object audio signal acquisition unit 144, and an object audio signal decoding unit 145. , A priority information generation unit 146, an output selection unit 147, a zero value output unit 148, and an IMDCT unit 149.
  • IMDCT Inverse / Modified / Discrete / Cosine / Transform
  • the channel audio signal acquisition unit 141 acquires the encoded data of each channel from the supplied bit storm and supplies it to the channel audio signal decoding unit 142.
  • the channel audio signal decoding unit 142 decodes the encoded data of each channel supplied from the channel audio signal acquisition unit 141, and supplies the MDCT coefficient obtained as a result to the IMDCT unit 143.
  • the IMDCT unit 143 performs IMDCT based on the MDCT coefficient supplied from the channel audio signal decoding unit 142, generates an audio signal, and supplies the audio signal to the mixing unit 113.
  • the IMDCT unit 143 performs IMDCT (Inverse Modified Discrete Cosine Transform) on the MDCT coefficient to generate an audio signal.
  • IMDCT Inverse Modified Discrete Cosine Transform
  • the object audio signal acquisition unit 144 acquires encoded data of each object from the supplied bit stream and supplies the encoded data to the object audio signal decoding unit 145.
  • the object audio signal acquisition unit 144 acquires the metadata and content information of each object from the supplied bitstream, supplies the metadata and content information to the priority information generation unit 146, and renders the metadata. To the unit 112.
  • the object audio signal decoding unit 145 decodes the encoded data of each object supplied from the object audio signal acquisition unit 144, and supplies the MDCT coefficient obtained as a result to the output selection unit 147 and the priority information generation unit 146. .
  • the priority information generation unit 146 includes at least one of the metadata supplied from the object audio signal acquisition unit 144, the content information supplied from the object audio signal acquisition unit 144, and the MDCT coefficient supplied from the object audio signal decoding unit 145. Then, priority information of each object is generated and supplied to the output selection unit 147.
  • the output selection unit 147 selectively switches the output destination of the MDCT coefficient of each object supplied from the object audio signal decoding unit 145 based on the priority information of each object supplied from the priority information generation unit 146.
  • the output selection unit 147 supplies the 0-value output unit 148 with the MDCT coefficient of the object as 0. Further, when the priority information about a predetermined object is equal to or higher than the predetermined threshold Q, the output selection unit 147 supplies the MDCT coefficient of the object supplied from the object audio signal decoding unit 145 to the IMDCT unit 149.
  • the value of the threshold value Q is appropriately determined according to, for example, the calculation capability of the decoding device 101. By appropriately determining the threshold value Q, it is possible to reduce the calculation amount of the audio signal decoding to a calculation amount within a range that the decoding apparatus 101 can decode in real time.
  • the zero value output unit 148 generates an audio signal based on the MDCT coefficient supplied from the output selection unit 147 and supplies the audio signal to the rendering unit 112. In this case, since the MDCT coefficient is 0, a silent audio signal is generated.
  • the IMDCT unit 149 performs IMDCT based on the MDCT coefficient supplied from the output selection unit 147, generates an audio signal, and supplies the audio signal to the rendering unit 112.
  • the decoding apparatus 101 When the decoding apparatus 101 is supplied with a bit stream for one frame from the encoding apparatus, it performs a decoding process to generate an audio signal and outputs it to a speaker.
  • the decoding process performed by the decoding apparatus 101 will be described with reference to the flowchart of FIG.
  • step S51 the unpacking / decoding unit 111 acquires the bitstream transmitted from the encoding device. That is, a bit stream is received.
  • step S52 the unpacking / decoding unit 111 performs selective decoding processing.
  • encoded data of each channel is decoded, priority information is generated for each object, and the encoded data of the object is based on the priority information. Selectively decoded.
  • the audio signal of each channel is supplied to the mixing unit 113, and the audio signal of each object is supplied to the rendering unit 112. Further, the metadata of each object acquired from the bit stream is supplied to the rendering unit 112.
  • step S53 the rendering unit 112 renders the audio signal of the object based on the object audio signal supplied from the unpacking / decoding unit 111 and the object position information included in the object metadata.
  • the rendering unit 112 generates an audio signal of each channel by VBAP (Vector ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ Base Amplitude Pannning) based on the object position information so that the sound image of the object is localized at the position indicated by the object position information, and sends it to the mixing unit 113. Supply.
  • VBAP Vector ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ Base Amplitude Pannning
  • step S54 the mixing unit 113 weights and adds, for each channel, the audio signal of each channel supplied from the unpacking / decoding unit 111 and the audio signal of each channel supplied from the rendering unit 112 to an external speaker. To supply. Thereby, since the audio signal of the channel corresponding to those speakers is supplied to each speaker, each speaker reproduces sound based on the supplied audio signal.
  • the decoding apparatus 101 generates priority information, and decodes encoded data of each object according to the priority information.
  • step S81 the channel audio signal acquisition unit 141 sets 0 to the channel number of the channel to be processed and holds it.
  • step S82 the channel audio signal acquisition unit 141 determines whether or not the held channel number is less than the number M of channels.
  • step S83 the channel audio signal decoding unit 142 decodes the encoded data of the audio signal of the processing target channel.
  • the channel audio signal acquisition unit 141 acquires encoded data of a channel to be processed from the supplied bit stream and supplies the encoded data to the channel audio signal decoding unit 142. Then, the channel audio signal decoding unit 142 decodes the encoded data supplied from the channel audio signal acquisition unit 141, and supplies the MDCT coefficient obtained as a result to the IMDCT unit 143.
  • step S84 the IMDCT unit 143 performs IMDCT based on the MDCT coefficient supplied from the channel audio signal decoding unit 142, generates an audio signal of the processing target channel, and supplies the generated audio signal to the mixing unit 113.
  • step S85 the channel audio signal acquisition unit 141 adds 1 to the held channel number and updates the channel number of the processing target channel.
  • step S82 When the channel number is updated, the process returns to step S82 and the above-described process is repeated. That is, an audio signal of a new channel to be processed is generated.
  • step S82 If it is determined in step S82 that the channel number of the processing target channel is not less than M, audio signals have been obtained for all channels, and the process proceeds to step S86.
  • step S86 the object audio signal acquisition unit 144 sets 0 to the object number of the object to be processed and holds it.
  • step S87 the object audio signal acquisition unit 144 determines whether or not the held object number is less than the number N of objects.
  • step S88 the object audio signal decoding unit 145 decodes the encoded data of the audio signal of the object to be processed.
  • the object audio signal acquisition unit 144 acquires encoded data of an object to be processed from the supplied bit stream and supplies the encoded data to the object audio signal decoding unit 145. Then, the object audio signal decoding unit 145 decodes the encoded data supplied from the object audio signal acquisition unit 144, and supplies the MDCT coefficient obtained as a result to the priority information generation unit 146 and the output selection unit 147.
  • the object audio signal acquisition unit 144 acquires the metadata and content information of the object to be processed from the supplied bitstream, supplies the metadata and content information to the priority information generation unit 146, and also stores the metadata. Is supplied to the rendering unit 112.
  • step S89 the priority information generation unit 146 generates the priority information of the audio signal of the object to be processed and supplies it to the output selection unit 147.
  • the priority information generation unit 146 includes the metadata supplied from the object audio signal acquisition unit 144, the content information supplied from the object audio signal acquisition unit 144, and the MDCT coefficient supplied from the object audio signal decoding unit 145. Priority information is generated based on at least one of them.
  • priority information is generated by performing the same processing as in step S11 of FIG.
  • the priority information generation unit 146 generates priority information based on any of the above-described formulas (1) to (9), or the sound pressure and gain information of the audio signal of the object.
  • the priority information of the object is generated by the equation (10), the equation (11), the equation (12), and the like.
  • the priority information generation unit 146 uses the sum of squares of the MDCT coefficients supplied from the object audio signal decoding unit 145 as the sound pressure of the audio signal. Use.
  • step S90 the output selection unit 147 determines whether or not the priority information of the processing target object supplied from the priority information generation unit 146 is equal to or higher than a threshold value Q specified by an upper control device (not shown) or the like. Determine.
  • the threshold value Q is determined according to, for example, the calculation capability of the decoding device 101.
  • step S90 If it is determined in step S90 that the priority information is greater than or equal to the threshold value Q, the output selection unit 147 supplies the MDCT coefficient of the object to be processed supplied from the object audio signal decoding unit 145 to the IMDCT unit 149. The process proceeds to step S91. In this case, decoding of the object to be processed, more specifically IMDCT, is performed.
  • step S91 the IMDCT unit 149 performs IMDCT based on the MDCT coefficient supplied from the output selection unit 147, generates an audio signal of the object to be processed, and supplies the generated audio signal to the rendering unit 112. After the audio signal is generated, the process proceeds to step S92.
  • the output selection unit 147 supplies the MDCT coefficient to 0 to the 0-value output unit 148.
  • the zero value output unit 148 generates an audio signal of the object to be processed from the MDCT coefficient that is 0 supplied from the output selection unit 147 and supplies the generated audio signal to the rendering unit 112. Therefore, in the zero value output unit 148, substantially no processing for generating an audio signal such as IMDCT is performed. In other words, decoding of encoded data, more specifically, IMDCT for MDCT coefficients is not substantially performed.
  • the audio signal generated by the zero-value output unit 148 is a silence signal. After the audio signal is generated, the process proceeds to step S92.
  • step S90 If it is determined in step S90 that the priority information is less than the threshold value Q, or if an audio signal is generated in step S91, the object audio signal acquisition unit 144 sets 1 to the held object number in step S92. In addition, the object number of the object to be processed is updated.
  • step S87 the process returns to step S87, and the above-described process is repeated. That is, an audio signal of a new object to be processed is generated.
  • step S87 If it is determined in step S87 that the object number of the object to be processed is not less than N, since the audio signals have been obtained for all channels and necessary objects, the selective decoding process ends. Proceed to step S53 of FIG.
  • the decoding apparatus 101 generates priority information for each object, and compares the priority information with a threshold value to determine whether to decode the encoded audio signal.
  • the decoded audio signal is decoded.
  • the above-described series of processing can be executed by hardware or can be executed by software.
  • a program constituting the software is installed in the computer.
  • the computer includes, for example, a general-purpose personal computer capable of executing various functions by installing a computer incorporated in dedicated hardware and various programs.
  • FIG. 8 is a block diagram showing an example of the hardware configuration of a computer that executes the above-described series of processing by a program.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input / output interface 505 is further connected to the bus 504.
  • An input unit 506, an output unit 507, a recording unit 508, a communication unit 509, and a drive 510 are connected to the input / output interface 505.
  • the input unit 506 includes a keyboard, a mouse, a microphone, an image sensor, and the like.
  • the output unit 507 includes a display, a speaker, and the like.
  • the recording unit 508 includes a hard disk, a nonvolatile memory, and the like.
  • the communication unit 509 includes a network interface or the like.
  • the drive 510 drives a removable recording medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 501 loads the program recorded in the recording unit 508 to the RAM 503 via the input / output interface 505 and the bus 504 and executes the program, for example. Is performed.
  • the program executed by the computer (CPU 501) can be provided by being recorded in a removable recording medium 511 as a package medium, for example.
  • the program can be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the recording unit 508 via the input / output interface 505 by attaching the removable recording medium 511 to the drive 510. Further, the program can be received by the communication unit 509 via a wired or wireless transmission medium and installed in the recording unit 508. In addition, the program can be installed in the ROM 502 or the recording unit 508 in advance.
  • the program executed by the computer may be a program that is processed in time series in the order described in this specification, or in parallel or at a necessary timing such as when a call is made. It may be a program for processing.
  • the present technology can take a cloud computing configuration in which one function is shared by a plurality of devices via a network and is jointly processed.
  • each step described in the above flowchart can be executed by one device or can be shared by a plurality of devices.
  • the plurality of processes included in the one step can be executed by being shared by a plurality of apparatuses in addition to being executed by one apparatus.
  • the present technology can be configured as follows.
  • a signal processing device comprising: a priority information generation unit that generates priority information of the audio object based on a plurality of elements representing characteristics of the audio object.
  • a priority information generation unit that generates priority information of the audio object based on a plurality of elements representing characteristics of the audio object.
  • the element is metadata of the audio object.
  • the element is a position of the audio object in space.
  • the element is a distance from a reference position in the space to the audio object.
  • the signal processing device according to (3), wherein the element is a horizontal angle indicating a horizontal position of the audio object in the space.
  • the signal processing device according to any one of (2) to (5), wherein the priority information generation unit generates the priority information according to a moving speed of the audio object based on the metadata.
  • the signal processing apparatus according to any one of (1) to (6), wherein the element is gain information to be multiplied by an audio signal of the audio object.
  • the priority information generation unit generates the priority information of the processing target unit time based on a difference between the gain information of the processing target unit time and an average value of the gain information of a plurality of unit times.
  • the signal processing apparatus according to (7).
  • (9) The signal processing device according to (7), wherein the priority information generation unit generates the priority information based on a sound pressure of the audio signal multiplied by the gain information.
  • the signal processing apparatus according to any one of (1) to (9), wherein the element is spread information.
  • the priority information generation unit generates the priority information according to an area of the area of the audio object based on the spread information.
  • the element is information indicating a sound attribute of the audio object.
  • the element is an audio signal of the audio object.
  • the priority information generation unit generates the priority information based on a result of a voice section detection process on the audio signal.
  • 11 encoding device 22 object audio encoding unit, 23 metadata input unit, 51 encoding unit, 52 priority information generation unit, 101 decoding device, 111 unpacking / decoding unit, 144 object audio signal acquisition unit, 145 object Audio signal decoding unit, 146 priority information generation unit, 147 output selection unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本技術は、低コストで復号の計算量を低減させることができるようにする信号処理装置および方法、並びにプログラムに関する。 信号処理装置は、オーディオオブジェクトの特徴を表す複数の要素に基づいて、オーディオオブジェクトの優先度情報を生成する優先度情報生成部を備える。本技術は符号化装置および復号装置に適用することができる。

Description

信号処理装置および方法、並びにプログラム
 本技術は、信号処理装置および方法、並びにプログラムに関し、特に、低コストで復号の計算量を低減させることができるようにした信号処理装置および方法、並びにプログラムに関する。
 従来、オブジェクトオーディオを扱える符号化方式として、例えば国際標準規格であるMPEG(Moving Picture Experts Group)-H Part 3:3D audio規格などが知られている(例えば、非特許文献1参照)。
 このような符号化方式では、各オーディオオブジェクトの優先度を示す優先度情報を復号装置側に伝送することで、復号時の計算量の低減が実現されている。
 例えば、オーディオオブジェクト数が多い場合には、優先度情報に基づいて優先度の高いオーディオオブジェクトのみ復号を行うようにすれば、少ない計算量でも十分な品質でコンテンツを再生することが可能である。
INTERNATIONAL STANDARD ISO/IEC 23008-3 First edition 2015-10-15 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio
 しかしながら、優先度情報を時間ごとやオーディオオブジェクトごとに人手で付与するのはコストが高い。例えば、映画コンテンツでは多くのオーディオオブジェクトを長時間にわたり扱うため、人手によるコストは特に高くなるといえる。
 また、優先度情報が付与されていないコンテンツも数多く存在する。例えば、上述したMPEG-H Part 3:3D audio規格では、優先度情報を符号化データに含めるか否かをヘッダ部のフラグにより切り替えることができる。すなわち、優先度情報が付与されていない符号化データの存在も許容されている。さらに、そもそも優先度情報が符号化データに含まれないオブジェクトオーディオの符号化方式も存在する。
 このような背景から、優先度情報が付与されていない符号化データが数多く存在し、その結果、それらの符号化データについては復号の計算量を低減させることができなかった。
 本技術は、このような状況に鑑みてなされたものであり、低コストで復号の計算量を低減させることができるようにするものである。
 本技術の一側面の信号処理装置は、オーディオオブジェクトの特徴を表す複数の要素に基づいて、前記オーディオオブジェクトの優先度情報を生成する優先度情報生成部を備える。
 前記要素を前記オーディオオブジェクトのメタデータとすることができる。
 前記要素を空間上における前記オーディオオブジェクトの位置とすることができる。
 前記要素を前記空間上における基準位置から前記オーディオオブジェクトまでの距離とすることができる。
 前記要素を前記空間上における前記オーディオオブジェクトの水平方向の位置を示す水平方向角度とすることができる。
 前記優先度情報生成部には、前記メタデータに基づいて前記オーディオオブジェクトの移動速度に応じた前記優先度情報を生成させることができる。
 前記要素を前記オーディオオブジェクトのオーディオ信号に乗算されるゲイン情報とすることができる。
 前記優先度情報生成部には、処理対象の単位時間の前記ゲイン情報と、複数の単位時間の前記ゲイン情報の平均値との差分に基づいて、前記処理対象の単位時間の前記優先度情報を生成させることができる。
 前記優先度情報生成部には、前記ゲイン情報が乗算された前記オーディオ信号の音圧に基づいて前記優先度情報を生成させることができる。
 前記要素をスプレッド情報とすることができる。
 前記優先度情報生成部には、前記スプレッド情報に基づいて、前記オーディオオブジェクトの領域の面積に応じた前記優先度情報を生成させることができる。
 前記要素を前記オーディオオブジェクトの音の属性を示す情報とすることができる。
 前記要素を前記オーディオオブジェクトのオーディオ信号とすることができる。
 前記優先度情報生成部には、前記オーディオ信号に対する音声区間検出処理の結果に基づいて前記優先度情報を生成させることができる。
 前記優先度情報生成部には、生成した前記優先度情報に対して時間方向の平滑化を行わせ、最終的な前記優先度情報とさせることができる。
 本技術の一側面の信号処理方法またはプログラムは、オーディオオブジェクトの特徴を表す複数の要素に基づいて、前記オーディオオブジェクトの優先度情報を生成するステップを含む。
 本技術の一側面においては、オーディオオブジェクトの特徴を表す複数の要素に基づいて、前記オーディオオブジェクトの優先度情報が生成される。
 本技術の一側面によれば、低コストで復号の計算量を低減させることができる。
 なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。
符号化装置の構成例を示す図である。 オブジェクトオーディオ符号化部の構成例を示す図である。 符号化処理を説明するフローチャートである。 復号装置の構成例を示す図である。 アンパッキング/復号部の構成例を示す図である。 復号処理を説明するフローチャートである。 選択復号処理を説明するフローチャートである。 コンピュータの構成例を示す図である。
 以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈符号化装置の構成例〉
 本技術は、オーディオオブジェクトのメタデータや、コンテンツ情報、オーディオオブジェクトのオーディオ信号などのオーディオオブジェクトの特徴を表す要素に基づいて、オーディオオブジェクトの優先度情報を生成することで、低コストで復号の計算量を低減させることができるようにするものである。
 以下では、マルチチャネルのオーディオ信号およびオーディオオブジェクトのオーディオ信号が所定の規格等に従って符号化されるものとして説明を行う。また、以下ではオーディオオブジェクトを単にオブジェクトとも称することとする。
 例えば、各チャネルや各オブジェクトのオーディオ信号はフレームごとに符号化されて伝送される。
 すなわち、符号化されたオーディオ信号や、オーディオ信号の復号等に必要な情報が複数のエレメント(ビットストリームエレメント)に格納され、それらのエレメントからなるビットストリームが符号化側から復号側に伝送される。
 具体的には、例えば1フレーム分のビットストリームには、先頭から順番に複数個のエレメントが配置され、最後に当該フレームの情報に関する終端位置であることを示す識別子が配置される。
 そして、先頭に配置されたエレメントは、DSE(Data Stream Element)と呼ばれるアンシラリデータ領域とされ、DSEにはオーディオ信号のダウンミックスに関する情報や識別情報など、複数の各チャネルに関する情報が記述される。
 また、DSEの後に続く各エレメントには、符号化されたオーディオ信号が格納される。特に、シングルチャネルのオーディオ信号が格納されているエレメントはSCE(Single Channel Element)と呼ばれており、ペアとなる2つのチャネルのオーディオ信号が格納されているエレメントはCPE(Coupling Channel Element)と呼ばれている。各オブジェクトのオーディオ信号はSCEに格納される。
 本技術では、各オブジェクトのオーディオ信号の優先度情報が生成されてDSEに格納される。
 ここでは、優先度情報はオブジェクトの優先度を示す情報であり、特に優先度情報により示される優先度の値、つまり優先度合いを示す数値が大きいほど、オブジェクトの優先度は高く、重要なオブジェクトであることを示している。
 本技術を適用した符号化装置では、オブジェクトのメタデータ等に基づいて、各オブジェクトの優先度情報が生成される。これにより、コンテンツに対して優先度情報が付与されていない場合であっても、復号の計算量を低減させることができる。換言すれば、人手による優先度情報の付与を行うことなく、低コストで復号の計算量を低減させることができる。
 次に、本技術を適用した符号化装置の具体的な実施の形態について説明する。
 図1は、本技術を適用した符号化装置の構成例を示す図である。
 図1に示す符号化装置11は、チャネルオーディオ符号化部21、オブジェクトオーディオ符号化部22、メタデータ入力部23、およびパッキング部24を有している。
 チャネルオーディオ符号化部21には、チャネル数がMであるマルチチャネルの各チャネルのオーディオ信号が供給される。例えば各チャネルのオーディオ信号は、それらのチャネルに対応するマイクロフォンから供給される。図1では、文字「#0」乃至「#M-1」は、各チャネルのチャネル番号を表している。
 チャネルオーディオ符号化部21は、供給された各チャネルのオーディオ信号を符号化し、符号化により得られた符号化データをパッキング部24に供給する。
 オブジェクトオーディオ符号化部22には、N個の各オブジェクトのオーディオ信号が供給される。例えば各オブジェクトのオーディオ信号は、それらのオブジェクトに取り付けられたマイクロフォンから供給される。図1では、文字「#0」乃至「#N-1」は、各オブジェクトのオブジェクト番号を表している。
 オブジェクトオーディオ符号化部22は、供給された各オブジェクトのオーディオ信号を符号化する。また、オブジェクトオーディオ符号化部22は、供給されたオーディオ信号、メタデータ入力部23から供給されたメタデータやコンテンツ情報等に基づいて優先度情報を生成し、符号化により得られた符号化データと、優先度情報とをパッキング部24に供給する。
 メタデータ入力部23は、各オブジェクトのメタデータやコンテンツ情報をオブジェクトオーディオ符号化部22およびパッキング部24に供給する。
 例えばオブジェクトのメタデータには、空間上におけるオブジェクトの位置を示すオブジェクト位置情報、オブジェクトの音像の大きさの範囲を示すスプレッド情報、オブジェクトのオーディオ信号のゲインを示すゲイン情報などが含まれている。また、コンテンツ情報は、コンテンツにおける各オブジェクトの音の属性に関する情報が含まれている。
 パッキング部24は、チャネルオーディオ符号化部21から供給された符号化データ、オブジェクトオーディオ符号化部22から供給された符号化データと優先度情報、およびメタデータ入力部23から供給されたメタデータとコンテンツ情報をパッキングしてビットストリームを生成し、出力する。
 このようにして得られるビットストリームには、フレームごとに各チャネルの符号化データ、各オブジェクトの符号化データ、各オブジェクトの優先度情報、および各オブジェクトのメタデータとコンテンツ情報が含まれている。
 ここで、1フレーム分のビットストリームに格納されるM個の各チャネルのオーディオ信号、およびN個の各オブジェクトのオーディオ信号は、同時に再生されるべき同一フレームのオーディオ信号である。
 なお、ここでは、各オブジェクトのオーディオ信号の優先度情報として、1フレームごとに各オーディオ信号に対して優先度情報が生成される例について説明するが、任意の所定の時間を単位として、例えば数フレーム分のオーディオ信号に対して1つの優先度情報が生成されるようにしてもよい。
〈オブジェクトオーディオ符号化部の構成例〉
 また、図1のオブジェクトオーディオ符号化部22は、より詳細には例えば図2に示すように構成される。
 図2に示すオブジェクトオーディオ符号化部22は、符号化部51および優先度情報生成部52を備えている。
 符号化部51はMDCT(Modified Discrete Cosine Transform)部61を備えており、符号化部51は外部から供給された各オブジェクトのオーディオ信号を符号化する。
 すなわち、MDCT部61は、外部から供給された各オブジェクトのオーディオ信号に対してMDCT(修正離散コサイン変換)を行う。符号化部51は、MDCTにより得られた各オブジェクトのMDCT係数を符号化し、その結果得られた各オブジェクトの符号化データ、つまり符号化されたオーディオ信号をパッキング部24に供給する。
 また、優先度情報生成部52は、外部から供給された各オブジェクトのオーディオ信号、メタデータ入力部23から供給されたメタデータ、およびメタデータ入力部23から供給されたコンテンツ情報の少なくとも何れかに基づいて各オブジェクトのオーディオ信号の優先度情報を生成し、パッキング部24に供給する。
 換言すれば、優先度情報生成部52は、オーディオ信号やメタデータ、コンテンツ情報など、オブジェクトの特徴を表す1または複数の要素に基づいて、そのオブジェクトの優先度情報を生成する。例えばオーディオ信号はオブジェクトの音に関する特徴を表す要素であり、メタデータはオブジェクトの位置や音像の広がり度合い、ゲインなどといった特徴を表す要素であり、コンテンツ情報はオブジェクトの音の属性に関する特徴を表す要素である。
〈優先度情報の生成について〉
 ここで、優先度情報生成部52において生成されるオブジェクトの優先度情報について説明する。
 例えば、オブジェクトのオーディオ信号の音圧のみに基づいて優先度情報を生成することも考えられる。
 しかし、オブジェクトのメタデータにはゲイン情報が格納されており、このゲイン情報が乗算されたオーディオ信号が最終的なオブジェクトのオーディオ信号として用いられることになるので、ゲイン情報の乗算の前後でオーディオ信号の音圧は変化してしまう。
 したがって、オーディオ信号の音圧のみに基づいて優先度情報を生成しても、必ずしも適切な優先度情報が得られるとはいえない。そこで、優先度情報生成部52では、少なくともオーディオ信号の音圧以外の情報が用いられて優先度情報が生成される。これにより、適切な優先度情報を得ることができる。
 具体的には、以下の(1)乃至(4)に示す方法の少なくとも何れかにより優先度情報が生成される。
(1)オブジェクトのメタデータに基づいて優先度情報を生成する
(2)メタデータ以外の他の情報に基づいて優先度情報を生成する
(3)複数の方法により得られた優先度情報を組み合わせて1つの優先度情報を生成する
(4)優先度情報を時間方向に平滑化して最終的な1つの優先度情報を生成する
 まず、オブジェクトのメタデータに基づく優先度情報の生成について説明する。
 上述したように、オブジェクトのメタデータにはオブジェクト位置情報、スプレッド情報、およびゲイン情報が含まれている。そこで、これらのオブジェクト位置情報や、スプレッド情報、ゲイン情報を利用して優先度情報を生成することが考えられる。
 (1-1)オブジェクト位置情報に基づく優先度情報の生成について
 まず、オブジェクト位置情報に基づいて優先度情報を生成する例について説明する。
 オブジェクト位置情報は、3次元空間におけるオブジェクトの位置を示す情報であり、例えば基準位置(原点)から見たオブジェクトの位置を示す水平方向角度a、垂直方向角度e、および半径rからなる座標情報とされる。
 水平方向角度aは、ユーザがいる位置である基準位置から見たオブジェクトの水平方向の位置を示す水平方向の角度(方位角)、つまり水平方向における基準となる方向と基準位置から見たオブジェクトの方向とのなす角度である。
 ここでは、水平方向角度aが0度であるときには、オブジェクトはユーザの真正面に位置しており、水平方向角度aが90度や-90度であるときには、オブジェクトはユーザの真横に位置していることになる。また、水平方向角度aが180度または-180度であるときには、オブジェクトはユーザの真後ろに位置していることになる。
 同様に垂直方向角度eは、基準位置から見たオブジェクトの垂直方向の位置を示す垂直方向の角度(仰角)、つまり垂直方向における基準となる方向と基準位置から見たオブジェクトの方向とのなす角度である。
 また、半径rは基準位置からオブジェクトの位置までの距離である。
 例えばユーザの位置である原点(基準位置)からの距離が短いオブジェクト、つまり半径rが小さく、原点から近い位置にあるオブジェクトは、原点から遠い位置にあるオブジェクトよりも重要であると考えられる。そこで、半径rが小さいほど優先度情報により示される優先度が高くなるようにすることができる。
 この場合、例えば優先度情報生成部52は、オブジェクトの半径rに基づいて次式(1)を計算することで、そのオブジェクトの優先度情報を生成する。なお、以下では優先度情報をpriorityとも記すこととする。
Figure JPOXMLDOC01-appb-M000001
 式(1)に示す例では、半径rが小さいほど優先度情報priorityの値が大きくなり、優先度が高くなる。
 また、人間の聴覚は後方よりも前方に対する感度が高いことが知られている。そのため、ユーザの後方にあるオブジェクトについては、優先度を低くして本来行うものとは異なる復号処理を行ってもユーザの聴覚に与える影響は小さいと考えられる。
 そこで、ユーザの後方にあるオブジェクトほど、つまりユーザの真後ろに近い位置にあるオブジェクトほど優先度情報により示される優先度が低くなるようにすることができる。この場合、例えば優先度情報生成部52は、オブジェクトの水平方向角度aに基づいて次式(2)を計算することで、そのオブジェクトの優先度情報を生成する。但し、水平方向角度aが1度未満である場合には、オブジェクトの優先度情報priorityの値は1とされる。
Figure JPOXMLDOC01-appb-M000002
 なお、式(2)においてabs(a)は水平方向角度aの絶対値を示している。したがって、この例では水平方向角度aが小さく、オブジェクトの位置がユーザから見て真正面の方向の位置に近いほど優先度情報priorityの値が大きくなる。
 さらに、オブジェクト位置情報の時間変化が大きいオブジェクト、すなわち速い速度で移動するオブジェクトは、コンテンツ内で重要なオブジェクトである可能性が高いと考えられる。そこで、オブジェクト位置情報の時間変化量が大きいほど、つまりオブジェクトの移動速度が速いほど優先度情報により示される優先度が高くなるようにすることができる。
 この場合、例えば優先度情報生成部52は、オブジェクトのオブジェクト位置情報に含まれる水平方向角度a、垂直方向角度e、および半径rに基づいて次式(3)を計算することで、そのオブジェクトの移動速度に応じた優先度情報を生成する。
Figure JPOXMLDOC01-appb-M000003
 なお、式(3)においてa(i)、e(i)、およびr(i)は、それぞれ処理対象となる現フレームにおける、オブジェクトの水平方向角度a、垂直方向角度e、および半径rを示している。また、a(i-1)、e(i-1)、およびr(i-1)は、それぞれ処理対象となる現フレームの時間的に1つ前のフレームにおける、オブジェクトの水平方向角度a、垂直方向角度e、および半径rを示している。
 したがって、例えば(a(i)-a(i-1))は、オブジェクトの水平方向の速度を示しており、式(3)の右辺はオブジェクト全体の速度に対応する。すなわち、式(3)により示される優先度情報priorityの値は、オブジェクトの速度が速いほど大きくなる。
 (1-2)ゲイン情報に基づく優先度情報の生成について
 次に、ゲイン情報に基づいて優先度情報を生成する例について説明する。
 例えばオブジェクトのメタデータには、復号時にオブジェクトのオーディオ信号に対して乗算される係数値がゲイン情報として含まれている。
 ゲイン情報の値、すなわちゲイン情報としての係数値が大きいほど、係数値乗算後の最終的なオブジェクトのオーディオ信号の音圧が大きくなり、これによりオブジェクトの音が人間に知覚され易くなると考えられる。また、大きなゲイン情報を付与して音圧を大きくするオブジェクトは、コンテンツ内で重要なオブジェクトであると考えられる。
 そこで、ゲイン情報の値が大きいほど、オブジェクトの優先度情報により示される優先度が高くなるようにすることができる。
 そのような場合、例えば優先度情報生成部52は、オブジェクトのゲイン情報、すなわちゲイン情報により示されるゲインである係数値gに基づいて次式(4)を計算することで、そのオブジェクトの優先度情報を生成する。
Figure JPOXMLDOC01-appb-M000004
 式(4)に示す例では、ゲイン情報である係数値gそのものが優先度情報priorityとされている。
 また、1つのオブジェクトの複数のフレームのゲイン情報(係数値g)の時間平均値を時間平均値gaveと記すこととする。例えば時間平均値gaveは、処理対象のフレームよりも過去の連続する複数のフレームのゲイン情報の時間平均値などとされる。
 例えばゲイン情報と時間平均値gaveとの差分が大きいフレーム、より詳細には係数値gが時間平均値gaveよりも大幅に大きいフレームでは、係数値gと時間平均値gaveとの差分が小さいフレームと比較してオブジェクトの重要性は高いと考えられる。換言すれば、急激に係数値gが大きくなったフレームでは、オブジェクトの重要性は高いと考えられる。
 そこで、ゲイン情報と時間平均値gaveとの差分が大きいフレームほど、オブジェクトの優先度情報により示される優先度が高くなるようにすることができる。
 そのような場合、例えば優先度情報生成部52は、オブジェクトのゲイン情報、すなわち係数値gと、時間平均値gaveとに基づいて次式(5)を計算することで、そのオブジェクトの優先度情報を生成する。換言すれば、現フレームの係数値gと、時間平均値gaveとの差分に基づいて優先度情報が生成される。
Figure JPOXMLDOC01-appb-M000005
 式(5)においてg(i)は現フレームの係数値gを示している。したがって、この例では、現フレームの係数値g(i)が時間平均値gaveよりも大きいほど、優先度情報priorityの値は大きくなる。すなわち、式(5)に示す例では、ゲイン情報が急激に大きくなったフレームではオブジェクトの重要度が高いとされ、優先度情報により示される優先度も高くなる。
 なお、時間平均値gaveは、オブジェクトの過去の複数のフレームのゲイン情報(係数値g)に基づく指数平均値や、コンテンツ全体にわたるオブジェクトのゲイン情報の平均値でもよい。
 (1-3)スプレッド情報に基づく優先度情報の生成について
 続いて、スプレッド情報に基づいて優先度情報を生成する例について説明する。
 スプレッド情報は、オブジェクトの音像の大きさの範囲を示す角度情報、すなわちオブジェクトの音の音像の広がり度合いを示す角度情報である。換言すれば、スプレッド情報は、オブジェクトの領域の大きさを示す情報であるともいうことができる。以下、スプレッド情報により示される、オブジェクトの音像の大きさの範囲を示す角度をスプレッド角度と称することとする。
 スプレッド角度が大きいオブジェクトは、画面内において大きく映っているオブジェクトである。したがって、スプレッド角度が大きいオブジェクトは、スプレッド角度が小さいオブジェクトに比べてコンテンツ内で重要なオブジェクトである可能性が高いと考えられる。そこで、スプレッド情報により示されるスプレッド角度が大きいオブジェクトほど優先度情報により示される優先度が高くなるようにすることができる。
 そのような場合、例えば優先度情報生成部52は、オブジェクトのスプレッド情報に基づいて次式(6)を計算することで、そのオブジェクトの優先度情報を生成する。
Figure JPOXMLDOC01-appb-M000006
 なお、式(6)においてsはスプレッド情報により示されるスプレッド角度を示している。この例ではオブジェクトの領域の面積、つまり音像の範囲の広さを優先度情報priorityの値に反映させるため、スプレッド角度sの二乗値が優先度情報priorityの値とされている。したがって、式(6)の計算により、オブジェクトの領域の面積、つまりオブジェクトの音の音像の領域の面積に応じた優先度情報が生成されることになる。
 また、スプレッド情報として互いに異なる方向、つまり互いに垂直な水平方向と垂直方向のスプレッド角度が与えられることがある。
 例えばスプレッド情報として、水平方向のスプレッド角度swidthと垂直方向のスプレッド角度sheightとが含まれているとする。この場合、スプレッド情報によって水平方向と垂直方向とで大きさが異なる、つまり広がり具合が異なるオブジェクトを表現することができる。
 このようにスプレッド情報としてスプレッド角度swidthおよびスプレッド角度sheightが含まれる場合には、優先度情報生成部52は、オブジェクトのスプレッド情報に基づいて次式(7)を計算することで、そのオブジェクトの優先度情報を生成する。
Figure JPOXMLDOC01-appb-M000007
 式(7)では、スプレッド角度swidthおよびスプレッド角度sheightの積が優先度情報priorityとされている。式(7)により優先度情報を生成することで、式(6)における場合と同様に、スプレッド角度が大きいオブジェクトほど、すなわちオブジェクトの領域が大きいほど、優先度情報により示される優先度が高くなるようにすることができる。
 さらに、以上においては、オブジェクト位置情報、スプレッド情報、およびゲイン情報というオブジェクトのメタデータに基づいて優先度情報を生成する例について説明した。しかし、メタデータ以外の他の情報に基づいて優先度情報を生成することも可能である。
 (2-1)コンテンツ情報に基づく優先度情報の生成について
 まず、メタデータ以外の情報に基づく優先度情報の生成例として、コンテンツ情報を用いて優先度情報を生成する例について説明する。
 例えば、いくつかのオブジェクトオーディオの符号化方式では、各オブジェクトに関する情報としてコンテンツ情報が含まれているものがある。例えばコンテンツ情報によりオブジェクトの音の属性が特定される。すなわち、コンテンツ情報にはオブジェクトの音の属性を示す情報が含まれている。
 具体的には、例えばコンテンツ情報によりオブジェクトの音が言語に依存しているか否か、オブジェクトの音の言語の種類、オブジェクトの音が音声であるか否か、およびオブジェクトの音が環境音であるか否かを特定することができる。
 例えばオブジェクトの音が音声である場合、そのオブジェクトは他の環境音などのオブジェクトと比べて、より重要であると考えられる。これは、映画やニュース等のコンテンツにおいては、音声による情報量は他の音による情報量と比べて大きく、また、人間の聴覚は音声に対してより敏感であるからである。
 そこで、音声であるオブジェクトの優先度が、他の属性のオブジェクトの優先度よりも高くなるようにすることができる。
 この場合、例えば優先度情報生成部52は、オブジェクトのコンテンツ情報に基づいて次式(8)の演算により、そのオブジェクトの優先度情報を生成する。
Figure JPOXMLDOC01-appb-M000008
 なお、式(8)においてobject_classは、コンテンツ情報により示されるオブジェクトの音の属性を示している。式(8)では、コンテンツ情報により示されるオブジェクトの音の属性が音声(speech)である場合、優先度情報の値は10とされ、コンテンツ情報により示されるオブジェクトの音の属性が音声ではない場合、すなわち例えば環境音などである場合には優先度情報の値は1とされる。
 (2-2)オーディオ信号に基づく優先度情報の生成について
 また、各オブジェクトが音声であるか否かはVAD(Voice Activity Detection)技術を用いることで識別することができる。
 そこで、例えばオブジェクトのオーディオ信号に対してVAD、すなわち音声区間検出処理を行い、その検出結果(処理結果)に基づいてオブジェクトの優先度情報を生成するようにしてもよい。
 この場合においてもコンテンツ情報を利用する場合と同様に、音声区間検出処理の結果として、オブジェクトの音が音声である旨の検出結果が得られたときに、他の検出結果が得られたときよりも、優先度情報により示される優先度がより高くなるようにされる。
 具体的には、例えば優先度情報生成部52は、オブジェクトのオーディオ信号に対して音声区間検出処理を行い、その検出結果に基づいて次式(9)の演算によりオブジェクトの優先度情報を生成する。
Figure JPOXMLDOC01-appb-M000009
 なお、式(9)においてobject_class_vadは、音声区間検出処理の結果として得られたオブジェクトの音の属性を示している。式(9)では、オブジェクトの音の属性が音声であるとき、すなわち音声区間検出処理により検出結果としてオブジェクトの音が音声(speech)である旨の検出結果が得られたとき、優先度情報の値は10とされる。また、式(9)では、オブジェクトの音の属性が音声でないとき、すなわち音声区間検出処理による検出結果としてオブジェクトの音が音声である旨の検出結果が得られなかったとき、優先度情報の値は1とされる。
 また、音声区間検出処理の結果として音声区間らしさの値が得られるときには、その音声区間らしさの値に基づいて優先度情報が生成されてもよい。そのような場合、オブジェクトの現フレームが音声区間らしいほど優先度が高くなるようにされる。
 (2-3)オーディオ信号とゲイン情報に基づく優先度情報の生成について
 さらに、例えば上述したように、オブジェクトのオーディオ信号の音圧のみに基づいて優先度情報を生成することも考えられる。しかし、復号側では、オブジェクトのメタデータに含まれるゲイン情報がオーディオ信号に乗算されるため、ゲイン情報の乗算前後ではオーディオ信号の音圧が変化する。
 そのため、ゲイン情報乗算前のオーディオ信号の音圧に基づいて優先度情報を生成しても、適切な優先度情報が得られないことがある。そこで、オブジェクトのオーディオ信号にゲイン情報を乗算して得られた信号の音圧に基づいて、優先度情報を生成するようにしてもよい。すなわち、ゲイン情報とオーディオ信号に基づいて優先度情報を生成してもよい。
 この場合、例えば優先度情報生成部52は、オブジェクトのオーディオ信号に対してゲイン情報を乗算し、ゲイン情報乗算後のオーディオ信号の音圧を求める。そして、優先度情報生成部52は、得られた音圧に基づいて優先度情報を生成する。このとき、例えば音圧が大きいほど、優先度が高くなるように優先度情報が生成される。
 以上においては、オブジェクトのメタデータやコンテンツ情報、オーディオ信号など、オブジェクトの特徴を表す要素に基づいて優先度情報を生成する例について説明した。しかし、上述した例に限らず、例えば式(1)等の計算により得られた値など、算出した優先度情報に対して、さらに所定の係数を乗算したり、所定の定数を加算したりしたものを最終的な優先度情報としてもよい。
 (3-1)オブジェクト位置情報とスプレッド情報に基づく優先度情報の生成について
 また、互いに異なる複数の方法により求めた優先度情報のそれぞれを線形結合や非線形結合などにより結合(合成)し、最終的な1つの優先度情報とするようにしてもよい。換言すれば、オブジェクトの特徴を表す複数の要素に基づいて優先度情報を生成してもよい。
 複数の優先度情報を結合することで、すなわち複数の優先度情報を組み合わせることで、より適切な優先度情報を得ることができる。
 ここでは、まずオブジェクト位置情報に基づいて算出した優先度情報と、スプレッド情報に基づいて算出した優先度情報を線形結合して最終的な1つの優先度情報とする例について説明する。
 例えばオブジェクトがユーザに知覚されにくいユーザ後方にある場合でも、オブジェクトの音像の大きさが大きいときには、そのオブジェクトは重要なオブジェクトであると考えられる。それとは逆に、オブジェクトがユーザの前方にある場合でも、オブジェクトの音像の大きさが小さいときには、そのオブジェクトは重要なオブジェクトではないと考えられる。
 そこで、例えばオブジェクト位置情報に基づいて求められた優先度情報と、スプレッド情報に基づいて求められた優先度情報との線形和により、最終的な優先度情報を求めるようにしてもよい。
 この場合、優先度情報生成部52は、例えば次式(10)を計算することで複数の優先度情報を線形結合し、オブジェクトについて最終的な1つの優先度情報を生成する。
Figure JPOXMLDOC01-appb-M000010
 なお、式(10)において、priority(position)はオブジェクト位置情報に基づいて求められた優先度情報を示しており、priority(spread)はスプレッド情報に基づいて求められた優先度情報を示している。
 具体的には、priority(position)は、例えば式(1)や式(2)、式(3)などにより求められた優先度情報を示している。priority(spread)は、例えば式(6)や式(7)により求められた優先度情報を示している。
 また、式(10)においてAおよびBは線形和の係数を示している。換言すればAおよびBは、優先度情報を生成するのに用いられる重み係数を示しているということができる。
 例えば、これらのAおよびBという重み係数の設定方法として、以下の2つの設定方法が考えられる。
 すなわち、1つ目の設定方法として、線形結合される優先度情報の生成式による値域に応じて等しい重みに設定する方法(以下、設定方法1とも称する)が考えられる。また、2つ目の設定方法として、ケースに報じて重み係数を変化させる方法(以下、設定方法2とも称する)が考えられる。
 ここでは、設定方法1により重み係数Aおよび重み係数Bを設定する例について具体的に説明する。
 例えば、上述した式(2)により求まる優先度情報がpriority(position)とされ、上述した式(6)により求まる優先度情報がpriority(spread)とされるとする。
 この場合、優先度情報priority(position)の値域は1/πから1となり、優先度情報priority(spread)の値域は0からπ2となる。
 そのため、式(10)では優先度情報priority(spread)の値が支配的になってしまい、最終的に得られる優先度情報priorityの値は、優先度情報priority(position)の値に殆ど依存しないものとなってしまう。
 そこで、優先度情報priority(position)と優先度情報priority(spread)の両方の値域を考慮して、例えば重み係数Aと重み係数Bの比率をπ:1とすれば、より等しい重みで最終的な優先度情報priorityを生成することができる。
 この場合、重み係数Aはπ/(π+1)となり、重み係数Bは1/(π+1)となる。
 (3-2)コンテンツ情報とその他の情報に基づく優先度情報の生成について
 さらに、互いに異なる複数の方法により求めた優先度情報のそれぞれを非線形結合して、最終的な1つの優先度情報とする例について説明する。
 ここでは、例えばコンテンツ情報に基づいて算出した優先度情報と、コンテンツ情報以外の情報に基づいて算出した優先度情報とを非線形結合して最終的な1つの優先度情報とする例について説明する。
 例えばコンテンツ情報を参照すれば、オブジェクトの音が音声であるか否かを特定することができる。オブジェクトの音が音声である場合、優先度情報の生成に用いるコンテンツ情報以外の他の情報がどのような情報であっても、最終的に得られる優先度情報の値は大きいことが望ましい。これは、一般的に音声のオブジェクトは他のオブジェクトよりも情報量が多く、より重要なオブジェクトであると考えられるからである。
 そこで、コンテンツ情報に基づいて算出した優先度情報と、コンテンツ情報以外の情報に基づいて算出した優先度情報とを結合して最終的な優先度情報とする場合、例えば優先度情報生成部52は、上述した設定方法2により定まる重み係数を用いて次式(11)を計算し、最終的な1つの優先度情報を生成する。
Figure JPOXMLDOC01-appb-M000011
 なお、式(11)において、priority(object_class)はコンテンツ情報に基づいて求められた優先度情報、例えば上述した式(8)により求められた優先度情報を示している。また、priority(others)はコンテンツ情報以外の情報、例えばオブジェクト位置情報やゲイン情報、スプレッド情報、オブジェクトのオーディオ信号等に基づいて求められた優先度情報を示している。
 さらに、式(11)においてAおよびBは非線形和のべき乗の値であるが、これらのAおよびBは、優先度情報を生成するのに用いられる重み係数を示しているということができる。
 例えば設定方法2により、重み係数A=2.0および重み係数B=1.0などとすれば、オブジェクトの音が音声である場合には、最終的な優先度情報priorityの値は十分大きくなり、音声でないオブジェクトよりも優先度情報が小さくなることはない。一方で、音声である2つのオブジェクトの優先度情報の大小関係は、式(11)の第二項であるpriority(others)Bの値により定まることになる。
 以上のように、互いに異なる複数の方法により求めた、複数の優先度情報を線形結合または非線形結合により結合することで、より適切な優先度情報を得ることができる。なお、これに限らず、複数の優先度情報の条件式により最終的な1つの優先度情報を生成するようにしてもよい。
(4)優先度情報の時間方向の平滑化
 また、以上においては、オブジェクトのメタデータやコンテンツ情報などから優先度情報を生成したり、複数の優先度情報を結合して最終的な1つの優先度情報を生成する例について説明した。しかし、短い期間の間に複数のオブジェクトの優先度情報の大小関係が何度も変化することは望ましくない。
 例えば復号側において、優先度情報に基づいて各オブジェクトについての復号処理の有無を切り替える場合には、複数のオブジェクトの優先度情報の大小関係の変化によって短い時間ごとにオブジェクトの音が聞こえたり聞こえなくなったりすることになる。このようなことが生じると、聴感上の劣化が生じてしまう。
 このような優先度情報の大小関係の変化(切り替わり)はオブジェクトの数が多くなるほど、また、優先度情報の生成手法がより複雑になればなるほど生じる可能性が高くなる。
 そこで、優先度情報生成部52において、例えば次式(12)に示す計算を行って指数平均により優先度情報を時間方向に平滑化すれば、短い時間でオブジェクトの優先度情報の大小関係が切り替わることを抑制することができる。
Figure JPOXMLDOC01-appb-M000012
 なお、式(12)においてiは現フレームを示すインデックスを示しており、i-1は現フレームの時間的に1つ前のフレームを示すインデックスを示している。
 priority(i)は現フレームについて得られた平滑化前の優先度情報を示しており、priority(i)は、例えば上述した式(1)乃至式(11)のうちの何れかの式などにより求められた優先度情報である。
 また、priority_smooth(i)は現フレームの平滑化後の優先度情報、すなわち最終的な優先度情報を示しており、priority_smooth(i-1)は現フレームの1つ前のフレームの平滑化後の優先度情報を示している。さらに式(12)においてαは指数平均の平滑化係数を示しており、平滑化係数αは0から1の間の値とされる。
 平滑化係数αが乗算された優先度情報priority(i)から、(1-α)が乗算された優先度情報priority_smooth(i-1)を減算して得られる値を、最終的な優先度情報priority_smooth(i)とすることで優先度情報の平滑化が行われている。
 すなわち、生成された現フレームの優先度情報priority(i)に対して時間方向の平滑化を行うことで、現フレームの最終的な優先度情報priority_smooth(i)が生成される。
 この例では、平滑化係数αの値を小さくすればするほど、現フレームの平滑化前の優先度情報priority(i)の値の重みが小さくなり、その結果、より平滑化が行われて優先度情報の大小関係の切り替わりが抑制されるようになる。
 なお、優先度情報の平滑化の例として、指数平均による平滑化について説明したが、これに限らず、単純移動平均や加重移動平均、低域通過フィルタを利用した平滑化など、他のどのような平滑化手法により優先度情報を平滑化してもよい。
 以上において説明した本技術によれば、メタデータ等に基づいてオブジェクトの優先度情報を生成するので、人手によるオブジェクトの優先度情報の付与コストを削減することができる。また、オブジェクトの優先度情報が全ての時間(フレーム)について適切に付与されていない符号化データであっても、適切に優先度情報を付与することができ、その結果、復号の計算量を低減させることができる。
〈符号化処理の説明〉
 次に、符号化装置11により行われる処理について説明する。
 符号化装置11は、同時に再生される、複数の各チャネルのオーディオ信号および複数の各オブジェクトのオーディオ信号が1フレーム分だけ供給されると、符号化処理を行って、符号化されたオーディオ信号が含まれるビットストリームを出力する。
 以下、図3のフローチャートを参照して、符号化装置11による符号化処理について説明する。なお、この符号化処理はオーディオ信号のフレームごとに行われる。
 ステップS11において、オブジェクトオーディオ符号化部22の優先度情報生成部52は、供給された各オブジェクトのオーディオ信号の優先度情報を生成し、パッキング部24に供給する。
 例えばメタデータ入力部23はユーザの入力操作を受けたり、外部との通信を行ったり、外部の記録領域からの読み出しを行ったりすることで、各オブジェクトのメタデータおよびコンテンツ情報を取得し、優先度情報生成部52およびパッキング部24に供給する。
 優先度情報生成部52は、オブジェクトごとに、供給されたオーディオ信号、メタデータ入力部23から供給されたメタデータ、およびメタデータ入力部23から供給されたコンテンツ情報の少なくとも何れか1つに基づいてオブジェクトの優先度情報を生成する。
 具体的には、例えば優先度情報生成部52は、上述した式(1)乃至式(9)の何れかや、オブジェクトのオーディオ信号とゲイン情報に基づいて優先度情報を生成する方法、式(10)や式(11)、式(12)などにより各オブジェクトの優先度情報を生成する。
 ステップS12において、パッキング部24は優先度情報生成部52から供給された各オブジェクトのオーディオ信号の優先度情報をビットストリームのDSEに格納する。
 ステップS13において、パッキング部24は、メタデータ入力部23から供給された各オブジェクトのメタデータおよびコンテンツ情報をビットストリームのDSEに格納する。以上の処理により、ビットストリームのDSEには、全オブジェクトのオーディオ信号の優先度情報と、全オブジェクトのメタデータおよびコンテンツ情報とが格納されたことになる。
 ステップS14において、チャネルオーディオ符号化部21は、供給された各チャネルのオーディオ信号を符号化する。
 より具体的には、チャネルオーディオ符号化部21は各チャネルのオーディオ信号に対してMDCTを行うとともに、MDCTにより得られた各チャネルのMDCT係数を符号化し、その結果得られた各チャネルの符号化データをパッキング部24に供給する。
 ステップS15において、パッキング部24はチャネルオーディオ符号化部21から供給された各チャネルのオーディオ信号の符号化データを、ビットストリームのSCEまたはCPEに格納する。すなわち、ビットストリームにおいてDSEに続いて配置されている各エレメントに符号化データが格納される。
 ステップS16において、オブジェクトオーディオ符号化部22の符号化部51は、供給された各オブジェクトのオーディオ信号を符号化する。
 より具体的には、MDCT部61は各オブジェクトのオーディオ信号に対してMDCTを行い、符号化部51は、MDCTにより得られた各オブジェクトのMDCT係数を符号化し、その結果得られた各オブジェクトの符号化データをパッキング部24に供給する。
 ステップS17において、パッキング部24は符号化部51から供給された各オブジェクトのオーディオ信号の符号化データを、ビットストリームのSCEに格納する。すなわち、ビットストリームにおいてDSEよりも後に配置されているいくつかのエレメントに符号化データが格納される。
 以上の処理により、処理対象となっているフレームについて、全チャネルのオーディオ信号の符号化データ、全オブジェクトのオーディオ信号の優先度情報と符号化データ、および全オブジェクトのメタデータとコンテンツ情報が格納されたビットストリームが得られる。
 ステップS18において、パッキング部24は、得られたビットストリームを出力し、符号化処理は終了する。
 以上のようにして符号化装置11は、各オブジェクトのオーディオ信号の優先度情報を生成してビットストリームに格納し、出力する。したがって、復号側において、どのオーディオ信号がより優先度合いの高いものであるかを簡単に把握することができるようになる。
 これにより、復号側では、優先度情報に応じて、符号化されたオーディオ信号の復号を選択的に行うことができる。その結果、オーディオ信号により再生される音の音質の劣化を最小限に抑えつつ、復号の計算量を低減させることができる。
 特に、各オブジェクトのオーディオ信号の優先度情報をビットストリームに格納しておくことで、復号側において、復号の計算量を低減できるだけでなく、その後のレンダリング等の処理の計算量も低減させることができる。
 また、符号化装置11では、オブジェクトのメタデータや、コンテンツ情報、オブジェクトのオーディオ信号などに基づいてオブジェクトの優先度情報を生成することで、低コストでより適切な優先度情報を得ることができる。
〈第2の実施の形態〉
〈復号装置の構成例〉
 なお、以上においては、符号化装置11から出力されるビットストリームに優先度情報が含まれている例について説明したが、符号化装置によっては、ビットストリームに優先度情報が含まれていないこともあり得る。
 そこで、復号装置において優先度情報を生成するようにしてもよい。そのような場合、符号化装置から出力されたビットストリームを入力とし、ビットストリームに含まれる符号化データを復号する復号装置は、例えば図4に示すように構成される。
 図4に示す復号装置101は、アンパッキング/復号部111、レンダリング部112、およびミキシング部113を有している。
 アンパッキング/復号部111は、符号化装置から出力されたビットストリームを取得するとともに、ビットストリームのアンパッキングおよび復号を行う。
 アンパッキング/復号部111は、アンパッキングおよび復号により得られた各オブジェクトのオーディオ信号と、各オブジェクトのメタデータとをレンダリング部112に供給する。このとき、アンパッキング/復号部111は、オブジェクトのメタデータやコンテンツ情報に基づいて各オブジェクトの優先度情報を生成し、得られた優先度情報に応じて各オブジェクトの符号化データの復号を行う。
 また、アンパッキング/復号部111は、アンパッキングおよび復号により得られた各チャネルのオーディオ信号をミキシング部113に供給する。
 レンダリング部112は、アンパッキング/復号部111から供給された各オブジェクトのオーディオ信号、および各オブジェクトのメタデータに含まれるオブジェクト位置情報に基づいてMチャネルのオーディオ信号を生成し、ミキシング部113に供給する。このときレンダリング部112は、各オブジェクトの音像が、それらのオブジェクトのオブジェクト位置情報により示される位置に定位するようにM個の各チャネルのオーディオ信号を生成する。
 ミキシング部113は、アンパッキング/復号部111から供給された各チャネルのオーディオ信号と、レンダリング部112から供給された各チャネルのオーディオ信号とをチャネルごとに重み付け加算し、最終的な各チャネルのオーディオ信号を生成する。ミキシング部113は、このようにして得られた最終的な各チャネルのオーディオ信号を、外部の各チャネルに対応するスピーカに供給し、音を再生させる。
〈アンパッキング/復号部の構成例〉
 また、図4に示した復号装置101のアンパッキング/復号部111は、より詳細には例えば図5に示すように構成される。
 図5に示すアンパッキング/復号部111は、チャネルオーディオ信号取得部141、チャネルオーディオ信号復号部142、IMDCT(Inverse Modified Discrete Cosine Transform)部143、オブジェクトオーディオ信号取得部144、オブジェクトオーディオ信号復号部145、優先度情報生成部146、出力選択部147、0値出力部148、およびIMDCT部149を有している。
 チャネルオーディオ信号取得部141は、供給されたビットストームから各チャネルの符号化データを取得して、チャネルオーディオ信号復号部142に供給する。
 チャネルオーディオ信号復号部142は、チャネルオーディオ信号取得部141から供給された各チャネルの符号化データを復号し、その結果得られたMDCT係数をIMDCT部143に供給する。
 IMDCT部143は、チャネルオーディオ信号復号部142から供給されたMDCT係数に基づいてIMDCTを行ってオーディオ信号を生成し、ミキシング部113に供給する。
 IMDCT部143では、MDCT係数に対してIMDCT(逆修正離散コサイン変換)が行われ、オーディオ信号が生成される。
 オブジェクトオーディオ信号取得部144は、供給されたビットストリームから各オブジェクトの符号化データを取得して、オブジェクトオーディオ信号復号部145に供給する。また、オブジェクトオーディオ信号取得部144は、供給されたビットストリームから各オブジェクトのメタデータおよびコンテンツ情報を取得して、メタデータおよびコンテンツ情報を優先度情報生成部146に供給するとともに、メタデータをレンダリング部112に供給する。
 オブジェクトオーディオ信号復号部145は、オブジェクトオーディオ信号取得部144から供給された各オブジェクトの符号化データを復号し、その結果得られたMDCT係数を出力選択部147および優先度情報生成部146に供給する。
 優先度情報生成部146は、オブジェクトオーディオ信号取得部144から供給されたメタデータ、オブジェクトオーディオ信号取得部144から供給されたコンテンツ情報、およびオブジェクトオーディオ信号復号部145から供給されたMDCT係数の少なくとも何れかに基づいて各オブジェクトの優先度情報を生成し、出力選択部147に供給する。
 出力選択部147は、優先度情報生成部146から供給された各オブジェクトの優先度情報に基づいて、オブジェクトオーディオ信号復号部145から供給された各オブジェクトのMDCT係数の出力先を選択的に切り替える。
 すなわち、出力選択部147は、所定のオブジェクトについての優先度情報が所定の閾値Q未満である場合、そのオブジェクトのMDCT係数を0として0値出力部148に供給する。また、出力選択部147は、所定のオブジェクトについての優先度情報が所定の閾値Q以上である場合、オブジェクトオーディオ信号復号部145から供給された、そのオブジェクトのMDCT係数をIMDCT部149に供給する。
 なお、閾値Qの値は、例えば復号装置101の計算能力等に応じて適切に定められる。閾値Qを適切に定めることにより、オーディオ信号の復号の計算量を、復号装置101がリアルタイムに復号することが可能な範囲内の計算量まで低減させることができる。
 0値出力部148は、出力選択部147から供給されたMDCT係数に基づいてオーディオ信号を生成し、レンダリング部112に供給する。この場合、MDCT係数は0であるので、無音のオーディオ信号が生成される。
 IMDCT部149は、出力選択部147から供給されたMDCT係数に基づいてIMDCTを行ってオーディオ信号を生成し、レンダリング部112に供給する。
〈復号処理の説明〉
 次に、復号装置101の動作について説明する。
 復号装置101は、符号化装置から1フレーム分のビットストリームが供給されると、復号処理を行ってオーディオ信号を生成し、スピーカへと出力する。以下、図6のフローチャートを参照して、復号装置101により行われる復号処理について説明する。
 ステップS51において、アンパッキング/復号部111は、符号化装置から送信されてきたビットストリームを取得する。すなわち、ビットストリームが受信される。
 ステップS52において、アンパッキング/復号部111は選択復号処理を行う。
 なお、選択復号処理の詳細は後述するが、選択復号処理では各チャネルの符号化データが復号されるとともに、各オブジェクトについて優先度情報が生成され、オブジェクトの符号化データが優先度情報に基づいて選択的に復号される。
 そして、各チャネルのオーディオ信号がミキシング部113に供給され、各オブジェクトのオーディオ信号がレンダリング部112に供給される。また、ビットストリームから取得された各オブジェクトのメタデータがレンダリング部112に供給される。
 ステップS53において、レンダリング部112は、アンパッキング/復号部111から供給されたオブジェクトのオーディオ信号、およびオブジェクトのメタデータに含まれるオブジェクト位置情報に基づいてオブジェクトのオーディオ信号のレンダリングを行う。
 例えばレンダリング部112は、オブジェクト位置情報に基づいてVBAP(Vector Base Amplitude Pannning)により、オブジェクトの音像がオブジェクト位置情報により示される位置に定位するように各チャネルのオーディオ信号を生成し、ミキシング部113に供給する。なお、メタデータにスプレッド情報が含まれている場合には、レンダリング時にスプレッド情報に基づいてスプレッド処理も行われ、オブジェクトの音像が広げられる。
 ステップS54において、ミキシング部113は、アンパッキング/復号部111から供給された各チャネルのオーディオ信号と、レンダリング部112から供給された各チャネルのオーディオ信号とをチャネルごとに重み付け加算し、外部のスピーカに供給する。これにより、各スピーカには、それらのスピーカに対応するチャネルのオーディオ信号が供給されるので、各スピーカは供給されたオーディオ信号に基づいて音を再生する。
 各チャネルのオーディオ信号がスピーカに供給されると、復号処理は終了する。
 以上のようにして、復号装置101は、優先度情報を生成して、その優先度情報に応じて各オブジェクトの符号化データを復号する。
〈選択復号処理の説明〉
 続いて、図7のフローチャートを参照して、図6のステップS52の処理に対応する選択復号処理について説明する。
 ステップS81において、チャネルオーディオ信号取得部141は、処理対象とするチャネルのチャネル番号に0を設定し、保持する。
 ステップS82において、チャネルオーディオ信号取得部141は、保持しているチャネル番号がチャネル数M未満であるか否かを判定する。
 ステップS82において、チャネル番号がM未満であると判定された場合、ステップS83において、チャネルオーディオ信号復号部142は、処理対象のチャネルのオーディオ信号の符号化データを復号する。
 すなわち、チャネルオーディオ信号取得部141は、供給されたビットストリームから、処理対象のチャネルの符号化データを取得してチャネルオーディオ信号復号部142に供給する。すると、チャネルオーディオ信号復号部142は、チャネルオーディオ信号取得部141から供給された符号化データを復号し、その結果得られたMDCT係数をIMDCT部143に供給する。
 ステップS84において、IMDCT部143は、チャネルオーディオ信号復号部142から供給されたMDCT係数に基づいてIMDCTを行って、処理対象のチャネルのオーディオ信号を生成し、ミキシング部113に供給する。
 ステップS85において、チャネルオーディオ信号取得部141は、保持しているチャネル番号に1を加え、処理対象のチャネルのチャネル番号を更新する。
 チャネル番号が更新されると、その後、処理はステップS82に戻り、上述した処理が繰り返し行われる。すなわち、新たな処理対象のチャネルのオーディオ信号が生成される。
 また、ステップS82において、処理対象のチャネルのチャネル番号がM未満ではないと判定された場合、全てのチャネルについてオーディオ信号が得られたので、処理はステップS86へと進む。
 ステップS86において、オブジェクトオーディオ信号取得部144は、処理対象とするオブジェクトのオブジェクト番号に0を設定し、保持する。
 ステップS87において、オブジェクトオーディオ信号取得部144は、保持しているオブジェクト番号がオブジェクト数N未満であるか否かを判定する。
 ステップS87において、オブジェクト番号がN未満であると判定された場合、ステップS88において、オブジェクトオーディオ信号復号部145は、処理対象のオブジェクトのオーディオ信号の符号化データを復号する。
 すなわち、オブジェクトオーディオ信号取得部144は、供給されたビットストリームから、処理対象のオブジェクトの符号化データを取得してオブジェクトオーディオ信号復号部145に供給する。すると、オブジェクトオーディオ信号復号部145は、オブジェクトオーディオ信号取得部144から供給された符号化データを復号し、その結果得られたMDCT係数を優先度情報生成部146および出力選択部147に供給する。
 また、オブジェクトオーディオ信号取得部144は、供給されたビットストリームから処理対象のオブジェクトのメタデータおよびコンテンツ情報を取得して、メタデータおよびコンテンツ情報を優先度情報生成部146に供給するとともに、メタデータをレンダリング部112に供給する。
 ステップS89において、優先度情報生成部146は、処理対象のオブジェクトのオーディオ信号の優先度情報を生成し、出力選択部147に供給する。
 すなわち、優先度情報生成部146は、オブジェクトオーディオ信号取得部144から供給されたメタデータ、オブジェクトオーディオ信号取得部144から供給されたコンテンツ情報、およびオブジェクトオーディオ信号復号部145から供給されたMDCT係数のうちの少なくとも何れか1つに基づいて優先度情報を生成する。
 ステップS89では、図3のステップS11と同様の処理が行われて優先度情報が生成される。具体的には、例えば優先度情報生成部146は、上述した式(1)乃至式(9)の何れかや、オブジェクトのオーディオ信号の音圧とゲイン情報に基づいて優先度情報を生成する方法、式(10)や式(11)、式(12)などによりオブジェクトの優先度情報を生成する。例えば優先度情報の生成に、オーディオ信号の音圧が用いられる場合には、優先度情報生成部146は、オブジェクトオーディオ信号復号部145から供給されたMDCT係数の二乗和をオーディオ信号の音圧として用いる。
 ステップS90において、出力選択部147は、優先度情報生成部146から供給された処理対象のオブジェクトの優先度情報が、図示せぬ上位の制御装置等により指定された閾値Q以上であるか否かを判定する。ここで閾値Qは、例えば復号装置101の計算能力等に応じて定められる。
 ステップS90において、優先度情報が閾値Q以上であると判定された場合、出力選択部147は、オブジェクトオーディオ信号復号部145から供給された、処理対象のオブジェクトのMDCT係数をIMDCT部149に供給し、処理はステップS91に進む。この場合、処理対象のオブジェクトについての復号、より詳細にはIMDCTが行われる。
 ステップS91において、IMDCT部149は、出力選択部147から供給されたMDCT係数に基づいてIMDCTを行って、処理対象のオブジェクトのオーディオ信号を生成し、レンダリング部112に供給する。オーディオ信号が生成されると、その後、処理はステップS92へと進む。
 これに対して、ステップS90において、優先度情報が閾値Q未満であると判定された場合、出力選択部147は、MDCT係数を0として0値出力部148に供給する。
 0値出力部148は、出力選択部147から供給された0であるMDCT係数から、処理対象のオブジェクトのオーディオ信号を生成し、レンダリング部112に供給する。したがって、0値出力部148では、実質的にはIMDCTなどのオーディオ信号を生成するための処理は何も行われない。換言すれば、符号化データの復号、より詳細にはMDCT係数に対するIMDCTは実質的に行われない。
 なお、0値出力部148により生成されるオーディオ信号は無音信号である。オーディオ信号が生成されると、その後、処理はステップS92へと進む。
 ステップS90において優先度情報が閾値Q未満であると判定されたか、またはステップS91においてオーディオ信号が生成されると、ステップS92において、オブジェクトオーディオ信号取得部144は、保持しているオブジェクト番号に1を加え、処理対象のオブジェクトのオブジェクト番号を更新する。
 オブジェクト番号が更新されると、その後、処理はステップS87に戻り、上述した処理が繰り返し行われる。すなわち、新たな処理対象のオブジェクトのオーディオ信号が生成される。
 また、ステップS87において、処理対象のオブジェクトのオブジェクト番号がN未満ではないと判定された場合、全チャネルおよび必要なオブジェクトについてオーディオ信号が得られたので選択復号処理は終了し、その後、処理は図6のステップS53に進む。
 以上のようにして、復号装置101は各オブジェクトについて優先度情報を生成し、優先度情報と閾値とを比較して符号化されたオーディオ信号の復号を行うか否かを判定しながら、符号化されたオーディオ信号を復号する。
 これにより、再生環境に合わせて優先度合いの高いオーディオ信号のみを選択的に復号することができ、オーディオ信号により再生される音の音質の劣化を最小限に抑えつつ、復号の計算量を低減させることができる。
 しかも、各オブジェクトのオーディオ信号の優先度情報に基づいて、符号化されたオーディオ信号の復号を行うことで、オーディオ信号の復号の計算量だけでなく、レンダリング部112等における処理など、その後の処理の計算量も低減させることができる。
 また、オブジェクトのメタデータや、コンテンツ情報、オブジェクトのMDCT係数などに基づいてオブジェクトの優先度情報を生成することで、ビットストリームに優先度情報が含まれていない場合でも低コストで適切な優先度情報を得ることができる。特に、復号装置101で優先度情報を生成する場合には、ビットストリームに優先度情報を格納する必要がないので、ビットストリームのビットレートも低減させることができる。
〈コンピュータの構成例〉
 ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図8は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
 バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
 入力部506は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
 以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、本技術は、以下の構成とすることも可能である。
(1)
 オーディオオブジェクトの特徴を表す複数の要素に基づいて、前記オーディオオブジェクトの優先度情報を生成する優先度情報生成部を備える
 信号処理装置。
(2)
 前記要素は前記オーディオオブジェクトのメタデータである
 (1)に記載の信号処理装置。
(3)
 前記要素は空間上における前記オーディオオブジェクトの位置である
 (1)または(2)に記載の信号処理装置。
(4)
 前記要素は前記空間上における基準位置から前記オーディオオブジェクトまでの距離である
 (3)に記載の信号処理装置。
(5)
 前記要素は前記空間上における前記オーディオオブジェクトの水平方向の位置を示す水平方向角度である
 (3)に記載の信号処理装置。
(6)
 前記優先度情報生成部は、前記メタデータに基づいて前記オーディオオブジェクトの移動速度に応じた前記優先度情報を生成する
 (2)乃至(5)の何れか一項に記載の信号処理装置。
(7)
 前記要素は前記オーディオオブジェクトのオーディオ信号に乗算されるゲイン情報である
 (1)乃至(6)の何れか一項に記載の信号処理装置。
(8)
 前記優先度情報生成部は、処理対象の単位時間の前記ゲイン情報と、複数の単位時間の前記ゲイン情報の平均値との差分に基づいて、前記処理対象の単位時間の前記優先度情報を生成する
 (7)に記載の信号処理装置。
(9)
 前記優先度情報生成部は、前記ゲイン情報が乗算された前記オーディオ信号の音圧に基づいて前記優先度情報を生成する
 (7)に記載の信号処理装置。
(10)
 前記要素はスプレッド情報である
 (1)乃至(9)の何れか一項に記載の信号処理装置。
(11)
 前記優先度情報生成部は、前記スプレッド情報に基づいて、前記オーディオオブジェクトの領域の面積に応じた前記優先度情報を生成する
 (10)に記載の信号処理装置。
(12)
 前記要素は前記オーディオオブジェクトの音の属性を示す情報である
 (1)乃至(11)の何れか一項に記載の信号処理装置。
(13)
 前記要素は前記オーディオオブジェクトのオーディオ信号である
 (1)乃至(12)の何れか一項に記載の信号処理装置。
(14)
 前記優先度情報生成部は、前記オーディオ信号に対する音声区間検出処理の結果に基づいて前記優先度情報を生成する
 (13)に記載の信号処理装置。
(15)
 前記優先度情報生成部は、生成した前記優先度情報に対して時間方向の平滑化を行い、最終的な前記優先度情報とする
 (1)乃至(14)の何れか一項に記載の信号処理装置。
(16)
 オーディオオブジェクトの特徴を表す複数の要素に基づいて、前記オーディオオブジェクトの優先度情報を生成する
 ステップを含む信号処理方法。
(17)
 オーディオオブジェクトの特徴を表す複数の要素に基づいて、前記オーディオオブジェクトの優先度情報を生成する
 ステップを含む処理をコンピュータに実行させるプログラム。
 11 符号化装置, 22 オブジェクトオーディオ符号化部, 23 メタデータ入力部, 51 符号化部, 52 優先度情報生成部, 101 復号装置, 111 アンパッキング/復号部, 144 オブジェクトオーディオ信号取得部, 145 オブジェクトオーディオ信号復号部, 146 優先度情報生成部, 147 出力選択部

Claims (17)

  1.  オーディオオブジェクトの特徴を表す複数の要素に基づいて、前記オーディオオブジェクトの優先度情報を生成する優先度情報生成部を備える
     信号処理装置。
  2.  前記要素は前記オーディオオブジェクトのメタデータである
     請求項1に記載の信号処理装置。
  3.  前記要素は空間上における前記オーディオオブジェクトの位置である
     請求項1に記載の信号処理装置。
  4.  前記要素は前記空間上における基準位置から前記オーディオオブジェクトまでの距離である
     請求項3に記載の信号処理装置。
  5.  前記要素は前記空間上における前記オーディオオブジェクトの水平方向の位置を示す水平方向角度である
     請求項3に記載の信号処理装置。
  6.  前記優先度情報生成部は、前記メタデータに基づいて前記オーディオオブジェクトの移動速度に応じた前記優先度情報を生成する
     請求項2に記載の信号処理装置。
  7.  前記要素は前記オーディオオブジェクトのオーディオ信号に乗算されるゲイン情報である
     請求項1に記載の信号処理装置。
  8.  前記優先度情報生成部は、処理対象の単位時間の前記ゲイン情報と、複数の単位時間の前記ゲイン情報の平均値との差分に基づいて、前記処理対象の単位時間の前記優先度情報を生成する
     請求項7に記載の信号処理装置。
  9.  前記優先度情報生成部は、前記ゲイン情報が乗算された前記オーディオ信号の音圧に基づいて前記優先度情報を生成する
     請求項7に記載の信号処理装置。
  10.  前記要素はスプレッド情報である
     請求項1に記載の信号処理装置。
  11.  前記優先度情報生成部は、前記スプレッド情報に基づいて、前記オーディオオブジェクトの領域の面積に応じた前記優先度情報を生成する
     請求項10に記載の信号処理装置。
  12.  前記要素は前記オーディオオブジェクトの音の属性を示す情報である
     請求項1に記載の信号処理装置。
  13.  前記要素は前記オーディオオブジェクトのオーディオ信号である
     請求項1に記載の信号処理装置。
  14.  前記優先度情報生成部は、前記オーディオ信号に対する音声区間検出処理の結果に基づいて前記優先度情報を生成する
     請求項13に記載の信号処理装置。
  15.  前記優先度情報生成部は、生成した前記優先度情報に対して時間方向の平滑化を行い、最終的な前記優先度情報とする
     請求項1に記載の信号処理装置。
  16.  オーディオオブジェクトの特徴を表す複数の要素に基づいて、前記オーディオオブジェクトの優先度情報を生成する
     ステップを含む信号処理方法。
  17.  オーディオオブジェクトの特徴を表す複数の要素に基づいて、前記オーディオオブジェクトの優先度情報を生成する
     ステップを含む処理をコンピュータに実行させるプログラム。
PCT/JP2018/015352 2017-04-26 2018-04-12 信号処理装置および方法、並びにプログラム WO2018198789A1 (ja)

Priority Applications (14)

Application Number Priority Date Filing Date Title
CN202410360122.5A CN118248153A (zh) 2017-04-26 2018-04-12 信号处理设备和方法及程序
EP24162190.3A EP4358085A3 (en) 2017-04-26 2018-04-12 Signal processing device, method, and program
US16/606,276 US11574644B2 (en) 2017-04-26 2018-04-12 Signal processing device and method, and program
BR112019021904-8A BR112019021904A2 (pt) 2017-04-26 2018-04-12 Dispositivo e método de processamento de sinal, e, programa.
KR1020197030401A KR20190141669A (ko) 2017-04-26 2018-04-12 신호 처리 장치 및 방법, 및 프로그램
RU2019132898A RU2019132898A (ru) 2017-04-26 2018-04-12 Способ и устройство для обработки сигнала и программа
EP18790825.6A EP3618067B1 (en) 2017-04-26 2018-04-12 Signal processing device, method, and program
KR1020247008685A KR20240042125A (ko) 2017-04-26 2018-04-12 신호 처리 장치 및 방법, 및 프로그램
JP2019514367A JP7160032B2 (ja) 2017-04-26 2018-04-12 信号処理装置および方法、並びにプログラム
CN201880025687.0A CN110537220B (zh) 2017-04-26 2018-04-12 信号处理设备和方法及程序
JP2022164511A JP7459913B2 (ja) 2017-04-26 2022-10-13 信号処理装置および方法、並びにプログラム
US18/154,187 US11900956B2 (en) 2017-04-26 2023-01-13 Signal processing device and method, and program
US18/416,154 US20240153516A1 (en) 2017-04-26 2024-01-18 Signal processing device and method, and program
JP2024043562A JP2024075675A (ja) 2017-04-26 2024-03-19 信号処理装置および方法、並びにプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-087208 2017-04-26
JP2017087208 2017-04-26

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US16/606,276 A-371-Of-International US11574644B2 (en) 2017-04-26 2018-04-12 Signal processing device and method, and program
US18/154,187 Continuation US11900956B2 (en) 2017-04-26 2023-01-13 Signal processing device and method, and program

Publications (1)

Publication Number Publication Date
WO2018198789A1 true WO2018198789A1 (ja) 2018-11-01

Family

ID=63918157

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/015352 WO2018198789A1 (ja) 2017-04-26 2018-04-12 信号処理装置および方法、並びにプログラム

Country Status (8)

Country Link
US (3) US11574644B2 (ja)
EP (2) EP4358085A3 (ja)
JP (3) JP7160032B2 (ja)
KR (2) KR20190141669A (ja)
CN (2) CN110537220B (ja)
BR (1) BR112019021904A2 (ja)
RU (1) RU2019132898A (ja)
WO (1) WO2018198789A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020105423A1 (ja) 2018-11-20 2020-05-28 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP2020167629A (ja) * 2019-03-29 2020-10-08 日本放送協会 受信装置、配信サーバ及び受信プログラム
WO2024034389A1 (ja) * 2022-08-09 2024-02-15 ソニーグループ株式会社 信号処理装置、信号処理方法、およびプログラム

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110537220B (zh) 2017-04-26 2024-04-16 索尼公司 信号处理设备和方法及程序
GB2575510A (en) * 2018-07-13 2020-01-15 Nokia Technologies Oy Spatial augmentation
CN112740721A (zh) * 2018-09-28 2021-04-30 索尼公司 信息处理装置、方法和程序
CN114390401A (zh) * 2021-12-14 2022-04-22 广州市迪声音响有限公司 用于音响的多通道数字音频信号实时音效处理方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015056383A1 (ja) * 2013-10-17 2015-04-23 パナソニック株式会社 オーディオエンコード装置及びオーディオデコード装置
JP2016509249A (ja) * 2012-12-21 2016-03-24 ドルビー ラボラトリーズ ライセンシング コーポレイション 知覚的基準に基づいてオブジェクト・ベースのオーディオ・コンテンツをレンダリングするためのオブジェクト・クラスタリング
WO2016126907A1 (en) * 2015-02-06 2016-08-11 Dolby Laboratories Licensing Corporation Hybrid, priority-based rendering system and method for adaptive audio
WO2016208406A1 (ja) * 2015-06-24 2016-12-29 ソニー株式会社 音声処理装置および方法、並びにプログラム
JP2017507365A (ja) * 2014-03-06 2017-03-16 ディーティーエス・インコーポレイテッドDTS,Inc. 複数のオブジェクトオーディオのポスト符号化ビットレート低減
JP2017508175A (ja) * 2014-01-09 2017-03-23 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ・コンテンツの空間的誤差メトリック

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7032236B1 (en) * 1998-02-20 2006-04-18 Thomson Licensing Multimedia system for processing program guides and associated multimedia objects
US7079658B2 (en) * 2001-06-14 2006-07-18 Ati Technologies, Inc. System and method for localization of sounds in three-dimensional space
JP5340296B2 (ja) * 2009-03-26 2013-11-13 パナソニック株式会社 復号化装置、符号化復号化装置および復号化方法
JP5036797B2 (ja) * 2009-12-11 2012-09-26 株式会社スクウェア・エニックス 発音処理装置、発音処理方法、及び発音処理プログラム
WO2012122397A1 (en) * 2011-03-09 2012-09-13 Srs Labs, Inc. System for dynamically creating and rendering audio objects
US9344815B2 (en) * 2013-02-11 2016-05-17 Symphonic Audio Technologies Corp. Method for augmenting hearing
US9338420B2 (en) * 2013-02-15 2016-05-10 Qualcomm Incorporated Video analysis assisted generation of multi-channel audio data
CN104882145B (zh) * 2014-02-28 2019-10-29 杜比实验室特许公司 使用音频对象的时间变化的音频对象聚类
JP6439296B2 (ja) * 2014-03-24 2018-12-19 ソニー株式会社 復号装置および方法、並びにプログラム
JP6432180B2 (ja) * 2014-06-26 2018-12-05 ソニー株式会社 復号装置および方法、並びにプログラム
CN106162500B (zh) * 2015-04-08 2020-06-16 杜比实验室特许公司 音频内容的呈现
US10136240B2 (en) * 2015-04-20 2018-11-20 Dolby Laboratories Licensing Corporation Processing audio data to compensate for partial hearing loss or an adverse hearing environment
EP4333461A3 (en) * 2015-11-20 2024-04-17 Dolby Laboratories Licensing Corporation Improved rendering of immersive audio content
KR101968456B1 (ko) * 2016-01-26 2019-04-11 돌비 레버러토리즈 라이쎈싱 코오포레이션 적응형 양자화
WO2018096599A1 (en) * 2016-11-22 2018-05-31 Sony Mobile Communications Inc. Environment-aware monitoring systems, methods, and computer program products for immersive environments
EP3618463A4 (en) 2017-04-25 2020-04-29 Sony Corporation SIGNAL PROCESSING DEVICE, METHOD AND PROGRAM
CN110537220B (zh) 2017-04-26 2024-04-16 索尼公司 信号处理设备和方法及程序
BR112021009306A2 (pt) * 2018-11-20 2021-08-10 Sony Group Corporation dispositivo e método de processamento de informações, e, programa.

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016509249A (ja) * 2012-12-21 2016-03-24 ドルビー ラボラトリーズ ライセンシング コーポレイション 知覚的基準に基づいてオブジェクト・ベースのオーディオ・コンテンツをレンダリングするためのオブジェクト・クラスタリング
WO2015056383A1 (ja) * 2013-10-17 2015-04-23 パナソニック株式会社 オーディオエンコード装置及びオーディオデコード装置
JP2017508175A (ja) * 2014-01-09 2017-03-23 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ・コンテンツの空間的誤差メトリック
JP2017507365A (ja) * 2014-03-06 2017-03-16 ディーティーエス・インコーポレイテッドDTS,Inc. 複数のオブジェクトオーディオのポスト符号化ビットレート低減
WO2016126907A1 (en) * 2015-02-06 2016-08-11 Dolby Laboratories Licensing Corporation Hybrid, priority-based rendering system and method for adaptive audio
WO2016208406A1 (ja) * 2015-06-24 2016-12-29 ソニー株式会社 音声処理装置および方法、並びにプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020105423A1 (ja) 2018-11-20 2020-05-28 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP2020167629A (ja) * 2019-03-29 2020-10-08 日本放送協会 受信装置、配信サーバ及び受信プログラム
JP7236914B2 (ja) 2019-03-29 2023-03-10 日本放送協会 受信装置、配信サーバ及び受信プログラム
WO2024034389A1 (ja) * 2022-08-09 2024-02-15 ソニーグループ株式会社 信号処理装置、信号処理方法、およびプログラム

Also Published As

Publication number Publication date
JP7160032B2 (ja) 2022-10-25
EP3618067A4 (en) 2020-05-06
EP4358085A3 (en) 2024-07-10
BR112019021904A2 (pt) 2020-05-26
CN110537220A (zh) 2019-12-03
EP4358085A2 (en) 2024-04-24
RU2019132898A (ru) 2021-04-19
EP3618067B1 (en) 2024-04-10
US20230154477A1 (en) 2023-05-18
JP2024075675A (ja) 2024-06-04
KR20240042125A (ko) 2024-04-01
JP7459913B2 (ja) 2024-04-02
US11900956B2 (en) 2024-02-13
CN110537220B (zh) 2024-04-16
JP2022188258A (ja) 2022-12-20
RU2019132898A3 (ja) 2021-07-22
US11574644B2 (en) 2023-02-07
US20210118466A1 (en) 2021-04-22
JPWO2018198789A1 (ja) 2020-03-05
EP3618067A1 (en) 2020-03-04
KR20190141669A (ko) 2019-12-24
US20240153516A1 (en) 2024-05-09
CN118248153A (zh) 2024-06-25

Similar Documents

Publication Publication Date Title
JP7459913B2 (ja) 信号処理装置および方法、並びにプログラム
US20210398546A1 (en) Encoding device and encoding method, decoding device and decoding method, and program
US12114146B2 (en) Determination of targeted spatial audio parameters and associated spatial audio playback
US11805383B2 (en) Signal processing device, method, and program
US11743646B2 (en) Signal processing apparatus and method, and program to reduce calculation amount based on mute information
TWI762949B (zh) 用於丟失消隱之方法、用於解碼Dirac經編碼音訊場景之方法及對應電腦程式、丟失消隱設備及解碼器
RU2807473C2 (ru) Маскировка потерь пакетов для пространственного кодирования аудиоданных на основе dirac

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18790825

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019514367

Country of ref document: JP

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 20197030401

Country of ref document: KR

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

REG Reference to national code

Ref country code: BR

Ref legal event code: B01A

Ref document number: 112019021904

Country of ref document: BR

ENP Entry into the national phase

Ref document number: 2018790825

Country of ref document: EP

Effective date: 20191126

ENP Entry into the national phase

Ref document number: 112019021904

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20191018